Saltar al contenido principal
LibreTexts Español

1.2: Los axiomas de la teoría de la probabilidad

  • Page ID
    86174
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    A medida que las aplicaciones de la teoría de la probabilidad se volvieron cada vez más variadas y complejas durante el siglo XX, surgió la necesidad de poner la teoría sobre una base matemática firme. Esto se logró mediante una axiomatización de la teoría, llevada a cabo con éxito por el gran matemático ruso A. N. Kolmogorov en 1932. Antes de exponer y explicar estos axiomas de la teoría de probabilidad, los dos ejemplos siguientes explican por qué el enfoque simple de la última sección, asignando una probabilidad a cada punto de muestra, a menudo falla con espacios muestrales infinitos.

    Ejemplo 1.2.1

    Supongamos que queremos modelar la fase de una onda sinusoidal, donde la fase se ve como “distribuida uniformemente” entre 0 y\(2 \pi\). Si esta fase es la única cantidad de interés, es razonable elegir un espacio muestral consistente en el conjunto de números reales entre 0 y\(2 \pi\). Hay incontables 5 muchas fases posibles entre 0 y\(2 \pi\), y con cualquier interpretación razonable de la distribución uniforme, se debe concluir que cada punto de muestra tiene probabilidad cero. Así, el enfoque simple de la última sección nos lleva a concluir que cualquier evento en este espacio con un conjunto finito o contablemente infinito de puntos de muestra debe tener probabilidad cero. Ese simple enfoque no ayuda a encontrar la probabilidad, digamos, del intervalo\((0, \pi)\).

    Solución

    Para este ejemplo, la visión apropiada es la tomada en todos los textos elementales de probabilidad, es decir, asignar una densidad de probabilidad\(\frac{1}{2 \pi}\) a la fase. La probabilidad de un evento generalmente se puede encontrar integrando la densidad sobre ese evento. Las densidades son útiles, sin embargo, no conducen a un enfoque general sobre espacios muestrales arbitrarios. 6

    Ejemplo 1.2.2

    Considera una secuencia infinita de tiradas de monedas. El modelo de probabilidad habitual es asignar probabilidad\(2^{-n}\) a cada posible\(n\) tupla inicial de resultados individuales. Entonces en el límite\(n \longrightarrow \infty\), la probabilidad de cualquier secuencia dada es 0. Nuevamente, expresar la probabilidad de un evento que involucre infinitamente muchos lanzamientos como una suma de probabilidades individuales de puntos de muestra no funciona. El enfoque obvio (que a menudo adoptamos para esta y otras situaciones similares) es evaluar la probabilidad de cualquier evento dado como un límite apropiado, como\(n \rightarrow \infty\), del resultado de los primeros\(n\) tirados.

    Solución

    Posteriormente encontraremos una serie de situaciones, incluso para este ejemplo casi trivial, donde trabajar con un número finito de experimentos elementales y luego ir al límite es muy incómodo. Un ejemplo, que se discutirá en detalle más adelante, es la fuerte ley de los grandes números (SLLN). Esta ley mira directamente a los eventos que consisten en secuencias de longitud infinita y se considera mejor en el contexto de los axiomas a seguir.

    Si bien se pueden generar modelos de probabilidad apropiados para ejemplos simples como los anteriores, existe la necesidad de un enfoque consistente y general. En tal enfoque, en lugar de asignar probabilidades a puntos de muestra, que luego se utilizan para asignar probabilidades a eventos, las probabilidades deben asociarse directamente con eventos. Los axiomas a seguir establecen requisitos de consistencia entre las probabilidades de diferentes eventos. Los axiomas, y los corolarios derivados de ellos, son consistentes con la propia intuición y, para espacios de muestra finitos, son consistentes con nuestro enfoque anterior. Tratar con las uniones contables de eventos en los axiomas no será familiar para algunos estudiantes, pero pronto se volverá familiar y consistente con la intuición.

    La extraña parte de los axiomas proviene del hecho de que definir la clase de eventos como el conjunto de todos los subconjuntos del espacio muestral suele ser inapropiado cuando el espacio muestral es incontablemente infinito. Lo que se necesita es una clase de eventos que sea lo suficientemente grande como para que casi podamos olvidar que se excluyen algunos subconjuntos muy extraños. Esto se logra teniendo dos conjuntos simples de axiomas, uno definiendo la clase de eventos, 7 y el otro definiendo las relaciones entre las probabilidades asignadas a estos eventos. En esta teoría, todos los eventos tienen probabilidades, pero esos subconjuntos verdaderamente extraños que no son eventos no tienen probabilidades. Esto se discutirá más después de dar los axiomas para eventos.

    Los axiomas para eventos utilizan la notación estándar de la teoría de conjuntos. Dejar\(\Omega\) ser el conjunto de todos los puntos de muestreo para un experimento dado. Los eventos son subconjuntos del espacio muestral. La unión de\(n\) subconjuntos (eventos)\(A_{1}, A_{2}, \cdots, A_{n}\) se denota por cualquiera\(\bigcup_{i=1}^{n} A_{i}\) o\(A_{1} \cup \cdots \cup A_{n}\), y consiste en i=1 de todos los puntos en al menos uno de\(A_{1}, \ldots, A_{n}\). De igual manera, la intersección de estos subconjuntos se denota con cualquiera\(\bigcap_{i=1}^{n} A_{i}\) o 8\(A_{1} A_{2} \cdots A_{n}\) y consiste en todos los puntos en todos\(A_{1}, \ldots, A_{n}\).

    Una secuencia de eventos es una colección de eventos en correspondencia uno a uno con los enteros positivos, es decir\(A_{1}, A_{2}, \ldots\), ad infinitum. Una unión contable,\(\bigcup_{i=1}^{\infty} A_{i}\) es el conjunto de puntos en uno o más de\(A_{1}, A_{2}, \ldots\) Similarmente, una intersección contable\(\bigcap_{i=1}^{\infty} A_{i}\) es el conjunto de puntos i=1 en todos\(A_{1}, A_{2}, \ldots\) Finalmente, el complemento\(A^{c}\) de un subconjunto (evento) A es el conjunto de puntos en\(\Omega\) pero no\(A\).

    Axiomas para Eventos

    Dado un espacio de muestra\(\Omega\), la clase de subconjuntos de\(\Omega\) que constituyen el conjunto de eventos satisface los siguientes axiomas:

    1. \(\Omega\)es un evento.
    2. Por cada secuencia de eventos\(A_{1}, A_{2}, \ldots\), la unión\(\bigcup_{n=1}^{\infty} A_{n}\) es un evento.
    3. Para cada evento\(A\), el complemento\(A^{c}\) es un evento.

    Hay una serie de corolarios importantes de estos axiomas. Primero, el conjunto vacío\(\phi\) es un evento. Esto se desprende de los Axiomas 1 y 3, ya que\(\phi=\Omega^{c}\). El conjunto vacío no corresponde a nuestra intuición sobre los acontecimientos, pero la teoría sería sumamente incómoda si se omitiera.

    Segundo, cada unión finita de eventos es un evento. Esto sigue expresando\(A_{1} \cup \cdots \bigcup A_{n}\) como\(\bigcup_{i=1}^{\infty} A_{i}\) dónde\(A_{i}=\phi\) para todos\(i>n\). Tercero, cada intersección finita o contable de eventos es un evento. Esto se desprende de la ley de DeMorgan,

    \(\left[\bigcup_{n} A_{n}\right]^{c}=\bigcap_{n} A_{n}^{c}\)

    Si bien no vamos a hacer un gran alboroto sobre estos axiomas en el resto del texto, vamos a tener cuidado de utilizar sólo complementos y uniones e intersecciones contables en nuestro análisis. Así no surgirán subconjuntos que no sean eventos.

    Tenga en cuenta que los axiomas no dicen que todos los subconjuntos de\(\Omega\) son eventos. De hecho, hay muchas formas bastante tontas de definir clases de eventos que obedecen a los axiomas. Por ejemplo, los axiomas se satisfacen eligiendo solo el conjunto universal\(\Omega\) y el conjunto vacío\(\phi\) para que sean eventos. Evitaremos tales trivialidades asumiendo que para cada punto de muestra\(\omega\), el subconjunto singleton\(\{\omega\}\) es un evento. Para espacios de muestra finitos, esta suposición, más los axiomas anteriores, implican que todos los subconjuntos son eventos.

    Para espacios muestrales incontables infinitos, como la fase sinusoidal anterior, esta suposición, más los axiomas anteriores, todavía deja considerable libertad para elegir una clase de eventos. Como ejemplo, la clase de todos los subconjuntos de\(\Omega\) satisface los axiomas pero sorprendentemente no permite que los axiomas de probabilidad se satisfagan de ninguna manera sensata. Cómo elegir una clase apropiada de eventos requiere una comprensión de la teoría de medidas que nos llevaría demasiado lejos para nuestros propósitos. Así no asumimos ni desarrollamos aquí la teoría de las medidas. 9

    Desde un punto de vista pragmático, partimos de la clase de eventos de interés, como los requeridos para definir las variables aleatorias necesarias en el problema. Esa clase se extiende entonces para ser cerrada bajo complementación y uniones contables. La teoría de medidas muestra que esta extensión siempre es posible, y simplemente aceptamos eso como un resultado conocido.

    Axiomas de probabilidad

    Dado cualquier espacio de muestra\(\Omega\) y cualquier clase de eventos que\(\mathcal{E}\) satisfarán los axiomas de eventos, una regla de probabilidad es una función Pr {} mapeando cada uno\(A \in \mathcal{E}\) a un número real (finito 10) de tal manera que se mantienen los siguientes tres axiomas de probabilidad 11:

    1. \(\operatorname{Pr}\{\Omega\}=1\).
    2. Para cada evento\(A, \operatorname{Pr}\{A\} \geq 0\).
    3. La probabilidad de la unión de cualquier secuencia\(A_{1}, A_{2}, \ldots\) de eventos disjuntos viene dada por

    \[\left.\operatorname{Pr}\left\{\bigcup_{n=1}^{\infty} A_{n}\right\}\right\}=\sum_{n=1}^{\infty} \operatorname{Pr}\left\{A_{n}\right\},\label{1.1} \]

    donde\(\sum_{n=1}^{\infty} \operatorname{Pr}\left\{A_{n}\right\}\) es la taquigrafía de\(\lim _{m \rightarrow \infty} \sum_{n=1}^{m} \operatorname{Pr}\left\{A_{n}\right\}\).

    Los axiomas implican los siguientes corolarios útiles:

    \[\operatorname{Pr}\{\phi\}=0\label{1.2} \]

    \[\left.\operatorname{Pr}\left\{\bigcup_{n=1}^{m} A_{n}\right\}\right\}=\sum_{n=1}^{m} \operatorname{Pr}\left\{A_{n}\right\} \quad \text { for } A_{1}, \ldots, A_{m} \text { disjoint }\label{1.3} \]

    \ [\ nombreoperador {Pr}\ izquierda\ {A^ {c}\ derecha\} =1-\ nombreoperador {Pr}\ {A\}\ quad
    \ texto {para todos} A\ etiqueta {1.4}\]

    \[\operatorname{Pr}\{A\} \leq \operatorname{Pr}\{B\} \quad \text { for all } A \subseteq B\label{1.5} \]

    \ [\ nombreoperador {Pr}\ {A\}\ leq 1\ quad
    \ texto {para todos} A\ etiqueta {1.6}\]

    \ [\ suma_ {n}\ nombreoperador {Pr}\ izquierda\ {A_ {n}\ derecha\}\ leq 1\ quad
    \ texto {para} A_ {1},\ lpuntos,\ texto {disjoint}\ etiqueta {1.7}\]

    \[\left.\left.\operatorname{Pr}\left\{\bigcup_{n=1}^{\infty} A_{n}\right\}\right\}=\lim _{m \rightarrow \infty} \operatorname{Pr}\left\{\bigcup_{n=1}^{m} A_{n}\right\}\right\}\label{1.8} \]

    \[\left.\operatorname{Pr}\left\{\bigcup_{n=1}^{\infty} A_{n}\right\}\right\}=\lim _{n \rightarrow \infty} \operatorname{Pr}\left\{A_{n}\right\} \quad \text { for } A_{1} \subseteq A_{2} \subseteq \cdots\label{1.9} \]

    Para verificar (1.2), considere una secuencia de eventos,\(A_{1}, A_{2}, \ldots\), para los cuales\(A_{n}=\phi\) para cada uno\(n\). Estos eventos son disjuntos ya que no\(\phi\) contiene resultados, y por lo tanto no tiene resultados en común consigo mismo o cualquier otro evento. También,\(\bigcup_{n} A_{n}=\phi\) ya que esta unión no contiene resultados. Axioma 3 dice entonces que

    \(\operatorname{Pr}\{\phi\}=\lim _{m \rightarrow \infty} \sum_{n=1}^{m} \operatorname{Pr}\left\{A_{n}\right\}=\lim _{m \rightarrow \infty} m \operatorname{Pr}\{\phi\}\)

    Ya que\(\operatorname{Pr}\{\phi\}\) es un número real, esto implica que\(\operatorname{Pr}\{\phi\}=0\).

    Para verificar (1.3), aplicar Axioma 3 a la secuencia disjunta\(A_{1}, \ldots, A_{m}, \phi, \phi, \ldots\)

    Uno podría razonablemente adivinar que (1.3), junto con los Axiomas 1 y 2 implica el Axioma 3. El ejercicio 1.3 muestra por qué esta conjetura es incorrecta.

    Para verificar (1.4), tenga en cuenta que\(\Omega=A \bigcup A^{c}\). Después aplicar\ ref {1.3} a los conjuntos disjuntos\(A\) y\(A^{c}\).

    Para verificar (1.5), tenga en cuenta que si\(A \subseteq B\), entonces\(B=A \bigcup(B-A)\) donde\(B-A\) es una forma alternativa de escribir\(B \cap A^{c}\). Vemos entonces eso\(A\) y\(B-A\) son disjuntos, así desde (1.3),

    \(\operatorname{Pr}\{B\}=\operatorname{Pr}\{A \bigcup(B-A)\}\}=\operatorname{Pr}\{A\}+\operatorname{Pr}\{B-A\} \geq \operatorname{Pr}\{A\}\),

    donde hemos usado Axioma 2 en el último paso.

    Para verificar\ ref {1.6} y (1.7), primero sustituya\(\Omega\)\(B\) en\ ref {1.5} y luego sustituya\(\bigcup_{n} A_{n}\) por\(A\).

    Finalmente,\ ref {1.8} se establece en el Ejercicio 1.4, parte (e), y\ ref {1.9} es una simple consecuencia de (1.8).

    Los axiomas especifican la probabilidad de cualquier unión disjunta de eventos en términos de las probabilidades de eventos individuales, pero ¿qué pasa con una unión finita o contable de eventos arbitrarios? El ejercicio 1.4\ ref {b} muestra que en este caso,\ ref {1.3} puede generalizarse a

    \[\left.\operatorname{Pr}\left\{\bigcup_{n=1}^{m} A_{n}\right\}\right\}=\sum_{n=1}^{m} \operatorname{Pr}\left\{B_{n}\right\}\, \label{1.10} \]

    donde\(B_{1}=A_{1}\) y para cada uno\(n>1\),\(B_{n}=A_{n}-\bigcup_{j=1}^{n-1} A_{j}\) es el conjunto de puntos en\(A_{n}\) pero no en j=1 ninguno de los conjuntos\(A_{1}, \ldots, A_{n-1}\). La probabilidad de una unión contable viene dada entonces por (1.8). Para poder utilizar esto, hay que conocer no sólo las probabilidades de eventos para\(A_{1}, A_{2} \ldots\), sino también las probabilidades de sus intersecciones. El límite de unión, que se deriva en el Ejercicio 1.4 (c), depende únicamente de las probabilidades de eventos individuales, y da el siguiente límite superior frecuentemente útil sobre la probabilidad de unión.

    \ [\ izquierda. \ nombreoperador {Pr}\ izquierda\ {\ bigcup_ {n} A_ {n}\ derecha\}\ derecha\}\ leq\ suma_ {n}\ nombre_operador {Pr}\ izquierda\ {A_ {n}\ derecha\}\ quad\ etiqueta {1.11}
    \ text {(Unión enlazada).}\ nonumber\]


    Referencia

    5 Un conjunto es incontablemente infinito si es infinito y sus miembros no pueden ser puestos en correspondencia uno a uno con los enteros positivos. Por ejemplo, el conjunto de números reales a lo largo de algún intervalo como\((0,2 \pi)\) es incontablemente infinito. El artículo de Wikipedia sobre conjuntos contables proporciona una introducción amistosa a los conceptos de contabilidad e inccountabilidad.

    6 Es posible evitar la consideración de espacios muestrales infinitos aquí cuantificando las posibles fases. Esto es análogo a evitar el cálculo trabajando solo con funciones discretas. Ambos suelen resultar tanto en artificialidad como en complejidad añadida.

    7 Una clase de elementos que satisfacen estos axiomas se denomina\(\sigma\) álgebra o, menos comúnmente, a\(\sigma\) -campo.

    8 La intersección también se denota a veces como\(A_{1} \cap \cdots \cap A_{n}\), pero generalmente se abrevia como\(A_{1} A_{2} \cdots A_{n}\).

    9 No hay duda de que la teoría de medidas es útil en la teoría de la probabilidad, y los estudiantes serios de probabilidad ciertamente deberían aprender teoría de medidas en algún momento. Para las personas orientadas a la aplicación, sin embargo, parece aconsejable adquirir más conocimiento y comprensión de la probabilidad, a nivel de posgrado, antes de concentrarse en las abstracciones y sutilezas de la teoría de medidas.

    10 Aquí la palabra finito es redundante, ya que el conjunto de números reales, por definición, no incluye\(\pm \infty\). El conjunto de números reales con\(\pm \infty\) anexado, se llama el conjunto de números reales extendidos

    11 A veces se agrega aditividad finita, (1.3), como axioma adicional. Esta adición es bastante intuitiva y evita las pruebas técnicas y algo peculiares dadas para\ ref {1.2} y (1.3).


    This page titled 1.2: Los axiomas de la teoría de la probabilidad is shared under a CC BY-NC-SA 4.0 license and was authored, remixed, and/or curated by Robert Gallager (MIT OpenCourseWare) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.