1.2: Conceptos básicos en teoría de probabilidad
( \newcommand{\kernel}{\mathrm{null}\,}\)
Definiciones fundamentales
El entorno matemático natural es la teoría de conjuntos. Los conjuntos son colecciones generalizadas de objetos. Lo básico:ω∈A es una relación binaria que dice que el objetoω es un elemento del conjuntoA. Otra relación binaria es la inclusión establecida. Si todos los miembros deA están enB, escribimosA⊆B. La unión de conjuntosA yB se denotaA∪B y la intersección deA yB se denotaA∩B. El producto cartesiano deA yB, denotadoA×B, es el conjunto de todos los elementos ordenados(a,b) dondea∈A yb∈B.
Algunos detalles: Si noω está enA, escribimosω∉A. Los conjuntos también pueden ser objetos, por lo que podemos hablar de conjuntos de conjuntos, pero normalmente los conjuntos que nos ocuparán son simples colecciones discretas de números, como los posibles rollos de un dado {1,2,3,4,5,6}, o los números reales\MR, o productos cartesianos como\MRN. SiA⊆B peroA≠B, decimos queA es un subconjunto propio deB y escribimosA⊂B. Otra operación binaria es la diferencia establecidaA∖B, que contiene todoω tal queω∈A yω∉B.
En teoría de probabilidad, cada objetoω se identifica como un evento. Denotamos por\ROmega el conjunto de todos los eventos, y∅ denota el conjunto de no eventos. Hay tres axiomas básicos de probabilidad:
- A cada conjuntoA se le asocia un número real no negativoP(A), que se llama la probabilidad deA.
- P(\ROmega)=1.
- Si{A\nsi} es una colección de conjuntos disjuntos, si esA\nsi∩A\nsj=∅ por todosi≠j, entoncesP(⋃iA\nsi)=∑iP(A\nsi) .
De estos axiomas siguen una serie de conclusiones. Entre ellos, que¬A=\ROmega∖A sea el complemento deA, el conjunto de todos los eventos no enA. Entonces desdeA∪¬A=\ROmega, tenemosP(¬A)=1−P(A). TomandoA=\ROmega, concluimosP(∅)=0.
El significado deP(A) es que si los eventosω se eligen\ROmega al azar, entonces la frecuencia relativa paraω∈A los enfoquesP(A) como el número de pruebas tiende al infinito. Pero, ¿qué queremos decir con 'al azar'? Un significado que podemos impartir a la noción de aleatoriedad es que un proceso es aleatorio si sus resultados pueden modelarse con precisión utilizando los axiomas de probabilidad. Esto implica la identificación de un espacio de probabilidad así\ROmega como una medida de probabilidadP. Por ejemplo, en el conjunto microcanónico de la física estadística clásica, el espacio\ROmega es la colección de puntos de espacio de fase\Bvphi={q\ns1,…,q\nsn,p\ns1,…,p\nsn} y la medida de probabilidad esdμ=Σ−1(E)∏ni=1dq\nsidp\nsiδ(E−H(q,p)), de modo que paraA∈\ROmega la probabilidad deA isP(A)=∫dμ\xhi\ndA(\Bvphi), donde\xhi\nsA(\Bvphi)=1 si\Bvphi∈A y \xhi\nsA(\Bvphi)=0si\Bvphi∉A es la función característica deA. La cantidadΣ(E) está determinada por normalización:∫dμ=1.
Estadísticas Bayesianas
Ahora introducimos dos probabilidades adicionales. Se escribe la probabilidad conjunta para conjuntosA yB juntosP(A∩B). Es decir,P(A∩B)=Prob[ω∈A and ω∈B]. Por ejemplo,A podría denotar el conjunto de todos los políticos,B el conjunto de todos los ciudadanos estadounidenses, yC el conjunto de todos los humanos vivos con un coeficiente intelectual superior a 60. EntoncesA∩B sería el conjunto de todos los políticos que también son ciudadanos estadounidenses, Ejercicio: estimaciónP(A∩B∩C).
Se escribe la probabilidad condicionalA deB dadoP(B|A). Podemos calcular la probabilidad conjunta de dosP(A∩B)=P(B∩A) maneras:P(A∩B)=P(A|B)⋅P(B)=P(B|A)⋅P(A) . Así,P(A|B)=P(B|A)P(A)P(B) , un resultado conocido como teorema de Bayes. Ahora supongamos que el 'espacio de eventos' está particionado como{A\nsi}. EntoncesP(B)=∑iP(B|A\nsi)P(A\nsi) . tenemosP(A\nsi|B)=P(B|A\nsi)P(A\nsi)∑jP(B|A\nsj)P(A\nsj) , un resultado a veces conocido como la forma extendida del teorema de Bayes. Cuando el espacio de eventos es una 'partición binaria'{A,¬A}, tenemosP(A|B)=P(B|A)P(A)P(B|A)P(A)+P(B|¬A)P(¬A) . Note queP(A|B)+P(¬A|B)=1 (que se desprende de¬¬A=A).
Como ejemplo, considere el siguiente problema en epidemiología. Supongamos que existe una enfermedad rara pero altamente contagiosaA que se presenta en0.01% la población general. Supongamos además que existe una prueba simple para la enfermedad que es precisa99.99% de la época. Es decir, de cada 10 mil pruebas, la respuesta correcta se devuelve 9,999 veces, y la respuesta incorrecta se devuelve solo una vez. Ahora vamos a administrar la prueba a un grupo numeroso de personas de la población general. Los que dan positivo son puestos en cuarentena. Pregunta: ¿cuál es la probabilidad de que alguien elegido al azar del grupo de cuarentena realmente tenga la enfermedad? Usamos el teorema de Bayes con la partición binaria{A,¬A}. Vamos aB denotar el evento que un individuo da positivo. Cualquier persona del grupo de cuarentena ha dado positivo. Ante este dato, queremos conocer la probabilidad de que esa persona tenga la enfermedad. Es decir, queremosP(A|B). Aplicando la Ecuación [Bayesbinary] con laP(A)=0.0001,P(¬A)=0.9999,P(B|A)=0.9999,P(B|¬A)=0.0001 , que encontramosP(A|B)=\half. Es decir, solo existe la50% posibilidad de que alguien que dio positivo realmente tenga la enfermedad, ¡a pesar de que la prueba sea99.99% precisa! La razón es que, dada la rareza de la enfermedad en la población general, el número de falsos positivos es estadísticamente igual al número de verdaderos positivos.
En el ejemplo anterior, tuvimosP(B|A)+P(B|¬A)=1, pero generalmente no es así. Lo que es verdad en cambio lo esP(B|A)+P(¬B|A)=1. Los epidemiólogos definen la sensibilidad de una prueba de clasificación binaria como la fracción de positivos reales que se identifican correctamente, y la especificidad como la fracción de negativos reales que se identifican correctamente. Así,se=P(B|A) es la sensibilidad ysp=P(¬B|¬A) es la especificidad. Entonces tenemosP(B|¬A)=1−P(¬B|¬A). Por lo tanto,P(B|A)+P(B|¬A)=1+P(B|A)−P(¬B|¬A)=1+se−sp . en nuestro ejemplo anteriorse=sp=0.9999,, en cuyo caso da el RHS anterior1. En general, siP(A)≡f es la fracción de la población la que está afligida, entoncesP(infected|positive)=f⋅sef⋅se+(1−f)⋅(1−sp) .
Para distribuciones continuas, hablamos de una densidad de probabilidad. Entonces tenemosP(y)=∫dxP(y|x)P(x) yP(x|y)=P(y|x)P(x)∫dx′P(y|x′)P(x′) . El rango de integración puede depender de la aplicación específica.
Las cantidadesP(A\nsi) se denominan distribución previa. Claramente para poder computarP(B) oP(A\nsi|B) debemos conocer los priores, y este suele ser el eslabón más débil de la cadena bayesiana de razonamiento. Si nuestra distribución anterior no es precisa, el teorema de Bayes generará resultados incorrectos. Un enfoque para aproximar probabilidades previasP(A\nsi) es derivarlas a partir de una construcción de entropía máxima.
Variables aleatorias y sus promedios
Considera un espacio de probabilidad abstracto\CX cuyos elementos (eventos) son etiquetados porx. El promedio de cualquier funciónf(x) se denota como\MEf o⟨f⟩, y se define para conjuntos discretos como\MEf=⟨f⟩=∑x∈\CXf(x)P(x) , dondeP(x) es la probabilidad dex. Para conjuntos continuos, tenemos\MEf=⟨f⟩=∫\CXdxf(x)P(x) . Normalmente para conjuntos continuos tenemos\CX=\MR o\CX=\MR\ns≥0. Gardiner y otros autores introducen un símbolo extra,X, para denotar una variable aleatoria,X(x)=x siendo su valor. Esto es formalmente útil pero notacionalmente confuso, así que lo evitaremos aquí y hablaremos vagamente dex como una variable aleatoria.
Cuando hay dos variables aleatoriasx∈\CX yy∈\CY, tenemos\ROmega=\CX×\CY es el espacio del producto, y\MEf(x,y)=⟨f(x,y)⟩=∑x∈\CX∑y∈\CYf(x,y)P(x,y) , con la generalización obvia a conjuntos continuos. Esto generaliza a productos de mayor rango,x\nsi∈\CX\nsi coni∈{1,…,N}. La covarianza dex\nsi yx\nsj se define comoC\nsij≡\blangle(x\nsi−⟨x\nsi⟩)(x\nsj−⟨x\nsj⟩)\brangle=⟨x\nsix\nsj⟩−⟨x\nsi⟩⟨x\nsj⟩ .
Sif(x) es una función convexa entonces uno tiene\MEf(x)≥f(\MEx) . Para funciones continuas,f(x) es convexo sif″ en todas partes 4. Sif(x) es convexo en algún intervalo[a,b] entonces parax\ns_{1,2}\in [a,b] debemos tenerf\big(\lambda x\ns_1 + (1-\lambda) x\ns_2\big) \le \lambda f(x\ns_1) + (1-\lambda) f(x\ns_2)\ , donde\lambda\in [0,1]. Esto se generaliza fácilmente af\Big(\sum_n p\ns_n x\ns_n\Big) \le \sum_n p\ns_n f(x\ns_n)\ , dondep\ns_n=P(x\ns_n), un resultado conocido como teorema de Jensen.