Saltar al contenido principal
LibreTexts Español

1.2: Conceptos básicos en teoría de probabilidad

  • Page ID
    126452
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

    ( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\id}{\mathrm{id}}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\kernel}{\mathrm{null}\,}\)

    \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\)

    \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\)

    \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \( \newcommand{\vectorA}[1]{\vec{#1}}      % arrow\)

    \( \newcommand{\vectorAt}[1]{\vec{\text{#1}}}      % arrow\)

    \( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vectorC}[1]{\textbf{#1}} \)

    \( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

    \( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

    \( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)

    Template:MathJaxArovas

    Definiciones fundamentales

    El entorno matemático natural es la teoría de conjuntos. Los conjuntos son colecciones generalizadas de objetos. Lo básico:\(\omega\in A\) es una relación binaria que dice que el objeto\(\omega\) es un elemento del conjunto\(A\). Otra relación binaria es la inclusión establecida. Si todos los miembros de\(A\) están en\(B\), escribimos\(A\subseteq B\). La unión de conjuntos\(A\) y\(B\) se denota\(A\cup B\) y la intersección de\(A\) y\(B\) se denota\(A\cap B\). El producto cartesiano de\(A\) y\(B\), denotado\(A\times B\), es el conjunto de todos los elementos ordenados\((a,b)\) donde\(a\in A\) y\(b\in B\).

    Algunos detalles: Si no\(\omega\) está en\(A\), escribimos\(\omega\notin A\). Los conjuntos también pueden ser objetos, por lo que podemos hablar de conjuntos de conjuntos, pero normalmente los conjuntos que nos ocuparán son simples colecciones discretas de números, como los posibles rollos de un dado {1,2,3,4,5,6}, o los números reales\(\MR\), o productos cartesianos como\(\MR^N\). Si\(A\subseteq B\) pero\(A\ne B\), decimos que\(A\) es un subconjunto propio de\(B\) y escribimos\(A\subset B\). Otra operación binaria es la diferencia establecida\(A\backslash B\), que contiene todo\(\omega\) tal que\(\omega\in A\) y\(\omega\notin B\).

    En teoría de probabilidad, cada objeto\(\omega\) se identifica como un evento. Denotamos por\(\ROmega\) el conjunto de todos los eventos, y\(\emptyset\) denota el conjunto de no eventos. Hay tres axiomas básicos de probabilidad:

    • A cada conjunto\(A\) se le asocia un número real no negativo\(P(A)\), que se llama la probabilidad de\(A\).
    • \(P(\ROmega)=1\).
    • Si\(\{A\ns_i\}\) es una colección de conjuntos disjuntos, si es\(A\ns_i\cap A\ns_j=\emptyset\) por todos\(i\ne j\), entonces\[P\Big(\bigcup_i A\ns_i\Big)=\sum_i P(A\ns_i)\ .\]

    De estos axiomas siguen una serie de conclusiones. Entre ellos, que\(\neg A=\ROmega\backslash A\) sea el complemento de\(A\), el conjunto de todos los eventos no en\(A\). Entonces desde\(A\cup\neg A=\ROmega\), tenemos\(P(\neg A)=1-P(A)\). Tomando\(A=\ROmega\), concluimos\(P(\emptyset)=0\).

    El significado de\(P(A)\) es que si los eventos\(\omega\) se eligen\(\ROmega\) al azar, entonces la frecuencia relativa para\(\omega\in A\) los enfoques\(P(A)\) como el número de pruebas tiende al infinito. Pero, ¿qué queremos decir con 'al azar'? Un significado que podemos impartir a la noción de aleatoriedad es que un proceso es aleatorio si sus resultados pueden modelarse con precisión utilizando los axiomas de probabilidad. Esto implica la identificación de un espacio de probabilidad así\(\ROmega\) como una medida de probabilidad\(P\). Por ejemplo, en el conjunto microcanónico de la física estadística clásica, el espacio\(\ROmega\) es la colección de puntos de espacio de fase\(\Bvphi=\{q\ns_1,\ldots,q\ns_n,p\ns_1,\ldots,p\ns_n\}\) y la medida de probabilidad es\(d\mu=\Sigma^{-1}(E)\prod_{i=1}^n dq\ns_i\, dp\ns_i\,\delta\big(E-H(q,p)\big)\), de modo que para\(A\in\ROmega\) la probabilidad de\(A\) is\(P(A)=\int\!d\mu\>\xhi\nd_A(\Bvphi)\), donde\(\xhi\ns_A(\Bvphi)=1\) si\(\Bvphi\in A\) y \(\xhi\ns_A(\Bvphi)=0\)si\(\Bvphi\notin A\) es la función característica de\(A\). La cantidad\(\Sigma(E)\) está determinada por normalización:\(\int\!d\mu = 1\).

    Estadísticas Bayesianas

    Ahora introducimos dos probabilidades adicionales. Se escribe la probabilidad conjunta para conjuntos\(A\) y\(B\) juntos\(P(A\cap B)\). Es decir,\(P(A\cap B)={Prob}[\omega\in A\ {and}\ \omega\in B]\). Por ejemplo,\(A\) podría denotar el conjunto de todos los políticos,\(B\) el conjunto de todos los ciudadanos estadounidenses, y\(C\) el conjunto de todos los humanos vivos con un coeficiente intelectual superior a 60. Entonces\(A\cap B\) sería el conjunto de todos los políticos que también son ciudadanos estadounidenses, Ejercicio: estimación\(P(A\cap B\cap C)\).

    Se escribe la probabilidad condicional\(A\) de\(B\) dado\(P(B|A)\). Podemos calcular la probabilidad conjunta de dos\(P(A\cap B)=P(B\cap A)\) maneras:\[P(A\cap B)=P(A|B)\cdot P(B)=P(B|A)\cdot P(A)\ .\] Así,\[P(A|B)={P(B|A)\, P(A)\over P(B)}\ ,\] un resultado conocido como teorema de Bayes. Ahora supongamos que el 'espacio de eventos' está particionado como\(\{A\ns_i\}\). Entonces\[P(B)=\sum_i P(B|A\ns_i)\, P(A\ns_i)\ .\] tenemos\[P(A\ns_i|B)={P(B|A\ns_i)\, P(A\ns_i)\over\sum_j P(B|A\ns_j)\, P(A\ns_j)}\ ,\] un resultado a veces conocido como la forma extendida del teorema de Bayes. Cuando el espacio de eventos es una 'partición binaria'\(\{A,\neg A\}\), tenemos\[P(A|B)={P(B|A)\, P(A)\over P(B|A)\, P(A) + P(B|\neg A)\, P(\neg A)}\ . \label{Bayesbinary}\] Note que\(P(A|B)+P(\neg A|B)=1\) (que se desprende de\(\neg\neg A = A\)).

    Como ejemplo, considere el siguiente problema en epidemiología. Supongamos que existe una enfermedad rara pero altamente contagiosa\(A\) que se presenta en\(0.01\%\) la población general. Supongamos además que existe una prueba simple para la enfermedad que es precisa\(99.99\%\) de la época. Es decir, de cada 10 mil pruebas, la respuesta correcta se devuelve 9,999 veces, y la respuesta incorrecta se devuelve solo una vez. Ahora vamos a administrar la prueba a un grupo numeroso de personas de la población general. Los que dan positivo son puestos en cuarentena. Pregunta: ¿cuál es la probabilidad de que alguien elegido al azar del grupo de cuarentena realmente tenga la enfermedad? Usamos el teorema de Bayes con la partición binaria\(\{A,\neg A\}\). Vamos a\(B\) denotar el evento que un individuo da positivo. Cualquier persona del grupo de cuarentena ha dado positivo. Ante este dato, queremos conocer la probabilidad de que esa persona tenga la enfermedad. Es decir, queremos\(P(A|B)\). Aplicando la Ecuación [Bayesbinary] con la\[P(A)=0.0001 \quad,\quad P(\neg A)=0.9999 \quad,\quad P(B|A)=0.9999 \quad,\quad P(B|\neg A)=0.0001\ ,\] que encontramos\(P(A|B)=\half\). Es decir, solo existe la\(50\%\) posibilidad de que alguien que dio positivo realmente tenga la enfermedad, ¡a pesar de que la prueba sea\(99.99\%\) precisa! La razón es que, dada la rareza de la enfermedad en la población general, el número de falsos positivos es estadísticamente igual al número de verdaderos positivos.

    En el ejemplo anterior, tuvimos\(P(B|A)+P(B|\neg A)=1\), pero generalmente no es así. Lo que es verdad en cambio lo es\(P(B|A)+P(\neg B|A)=1\). Los epidemiólogos definen la sensibilidad de una prueba de clasificación binaria como la fracción de positivos reales que se identifican correctamente, y la especificidad como la fracción de negativos reales que se identifican correctamente. Así,\(\textsf{se}=P(B|A)\) es la sensibilidad y\(\textsf{sp}=P(\neg B|\neg A)\) es la especificidad. Entonces tenemos\(P(B|\neg A)=1-P(\neg B|\neg A)\). Por lo tanto,\[P(B|A)+P(B|\neg A)=1+P(B|A)-P(\neg B|\neg A)=1+\textsf{se}-\textsf{sp}\ .\] en nuestro ejemplo anterior\(\textsf{se}=\textsf{sp}=0.9999\),, en cuyo caso da el RHS anterior\(1\). En general, si\(P(A)\equiv f\) es la fracción de la población la que está afligida, entonces\[P(\textsf{infected}\,|\,\textsf{positive})={f\cdot\textsf{se}\over f\cdot\textsf{se} + (1-f)\cdot(1-\textsf{sp})}\ .\]

    Para distribuciones continuas, hablamos de una densidad de probabilidad. Entonces tenemos\[P(y)=\int\!dx\>P(y|x)\, P(x)\] y\[P(x|y)={P(y|x)\, P(x)\over\int\!dx'\> P(y|x')\, P(x')}\ .\] El rango de integración puede depender de la aplicación específica.

    Las cantidades\(P(A\ns_i)\) se denominan distribución previa. Claramente para poder computar\(P(B)\) o\(P(A\ns_i|B)\) debemos conocer los priores, y este suele ser el eslabón más débil de la cadena bayesiana de razonamiento. Si nuestra distribución anterior no es precisa, el teorema de Bayes generará resultados incorrectos. Un enfoque para aproximar probabilidades previas\(P(A\ns_i)\) es derivarlas a partir de una construcción de entropía máxima.

    Variables aleatorias y sus promedios

    Considera un espacio de probabilidad abstracto\(\CX\) cuyos elementos (eventos) son etiquetados por\(x\). El promedio de cualquier función\(f(x)\) se denota como\(\ME f\) o\(\langle f\rangle\), y se define para conjuntos discretos como\[\ME f=\langle f\rangle=\sum_{x\in\CX} f(x)\, P(x)\ ,\] donde\(P(x)\) es la probabilidad de\(x\). Para conjuntos continuos, tenemos\[\ME f=\langle f\rangle=\int\limits_{\CX}\!\!dx\> f(x)\, P(x)\ .\] Normalmente para conjuntos continuos tenemos\(\CX=\MR\) o\(\CX=\MR\ns_{\ge 0}\). Gardiner y otros autores introducen un símbolo extra,\(X\), para denotar una variable aleatoria,\(X(x)=x\) siendo su valor. Esto es formalmente útil pero notacionalmente confuso, así que lo evitaremos aquí y hablaremos vagamente de\(x\) como una variable aleatoria.

    Cuando hay dos variables aleatorias\(x\in\CX\) y\(y\in\CY\), tenemos\(\ROmega=\CX\times\CY\) es el espacio del producto, y\[\ME f(x,y)=\langle f(x,y)\rangle =\sum_{x\in\CX}\sum_{y\in\CY} f(x,y)\,P(x,y)\ ,\] con la generalización obvia a conjuntos continuos. Esto generaliza a productos de mayor rango,\(x\ns_i\in\CX\ns_i\) con\(i\in\{1,\ldots,N\}\). La covarianza de\(x\ns_i\) y\(x\ns_j\) se define como\[C\ns_{ij}\equiv \blangle \big( x\ns_i - \langle x\ns_i\rangle \big) \big( x\ns_j - \langle x\ns_j\rangle \big) \brangle =\langle x\ns_i x\ns_j\rangle - \langle x\ns_i\rangle \langle x\ns_j\rangle\ .\]

    Si\(f(x)\) es una función convexa entonces uno tiene\[\ME f(x) \ge f(\ME x)\ .\] Para funciones continuas,\(f(x)\) es convexo si\(f''(x)\ge 0\) en todas partes 4. Si\(f(x)\) es convexo en algún intervalo\([a,b]\) entonces para\(x\ns_{1,2}\in [a,b]\) debemos tener\[f\big(\lambda x\ns_1 + (1-\lambda) x\ns_2\big) \le \lambda f(x\ns_1) + (1-\lambda) f(x\ns_2)\ ,\] donde\(\lambda\in [0,1]\). Esto se generaliza fácilmente a\[f\Big(\sum_n p\ns_n x\ns_n\Big) \le \sum_n p\ns_n f(x\ns_n)\ ,\] donde\(p\ns_n=P(x\ns_n)\), un resultado conocido como teorema de Jensen.


    This page titled 1.2: Conceptos básicos en teoría de probabilidad is shared under a CC BY-NC-SA license and was authored, remixed, and/or curated by Daniel Arovas.