3.8: Convergencia en Distribución

Última actualización
Guardar como PDF

Page ID: 151646

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

\(\renewcommand{\P}{\mathbb{P}}\)\(\newcommand{\R}{\mathbb{R}}\)\(\newcommand{\N}{\mathbb{N}}\)\(\newcommand{\Q}{\mathbb{Q}}\)\( \newcommand{\E}{\mathbb{E}} \)\(\newcommand{\cl}{\text{cl}}\)\(\newcommand{\interior}{\text{int}}\)\(\newcommand{\bs}{\boldsymbol}\)

Esta sección se concensa con la convergencia de distribuciones de probabilidad, un tema de importancia básica en la teoría de la probabilidad. Dado que nos ocuparemos casi exclusivamente de las convergencias de secuencias de diversos tipos, es útil introducir la notación\(\N_+^* = \N_+ \cup \{\infty\} = \{1, 2, \ldots\} \cup \{\infty\}\).

Distribuciones en\((\R, \mathscr R)\)

Definición

Comenzamos con el escenario más importante y básico, el espacio medible\((\R, \mathscr R)\), donde\(\R\) está el conjunto de números reales por supuesto, y\(\mathscr R\) es el\(\sigma\) álgebra de Borel de subconjuntos de\(\R\). Recordemos que si\(P\) es una medida de probabilidad en\((\R, \mathscr R)\), entonces la función\(F: \R \to [0, 1]\) definida por\(F(x) = P(-\infty, x]\) for\(x \in \R\) es la función de distribución (acumulativa) de\(P\). Recordemos también que determina\(F\) por completo\(P\). Aquí está la definición de convergencia de medidas de probabilidad en esta configuración:

Supongamos que\(P_n\) es una medida de probabilidad\((\R, \mathscr R)\) con función de distribución\(F_n\) para cada uno\(n \in \N_+^*\). Entonces\(P_n\) converge (débilmente) a\(P_\infty\) como\(n \to \infty\) si\(F_n(x) \to F_\infty(x)\) como\(n \to \infty\) para cada\(x \in \R\) donde\(F_\infty\) sea continuo. Escribimos\(P_n \Rightarrow P_\infty\) como\(n \to \infty\).

Recordemos que una función de distribución\(F\) es continua en\(x \in \R\) si y solo si\(\P(X = x) = 0\), así que eso no\(x\) es un átomo de la distribución (un punto de probabilidad positiva). Veremos en breve por qué esta condición en\(F_\infty\) es apropiada. Por supuesto, una medida de probabilidad en generalmente\((\R, \mathscr R)\) se asocia con una variable aleatoria de valor real para algún experimento aleatorio que se modela por un espacio de probabilidad\((\Omega, \mathscr F, \P)\). Entonces para revisar,\(\Omega\) es el conjunto de resultados,\(\mathscr F\) es el\(\sigma\) -álgebra de eventos, y\(\P\) es la medida de probabilidad en el espacio muestral\((\Omega, \mathscr F)\). Si\(X\) es una variable aleatoria de valor real definida en el espacio de probabilidad, entonces la distribución de\(X\) es la medida de probabilidad\(P\) en\((\R, \mathscr R)\) definida por\(P(A) = \P(X \in A)\) for\(A \in \mathscr R\), y luego, por supuesto, la función de distribución de\(X\) es la función \(F\)definido por\(F(x) = \P(X \le x)\) for\(x \in \R\). Aquí está la terminología de convergencia utilizada en esta configuración:

Supongamos que\(X_n\) es una variable aleatoria de valor real con distribución\(P_n\) para cada una\(n \in \N_+^*\). Si\(P_n \Rightarrow P_\infty\) como\(n \to \infty\) entonces decimos que\(X_n\) converge en distribución a\(X_\infty\) como\(n \to \infty\). Escribimos\(X_n \to X_\infty\) como\(n \to \infty\) en distribución.

Entonces si\(F_n\) es la función de distribución de\(X_n\) for\(n \in \N_+^*\), entonces\(X_n \to X_\infty\) como\(n \to \infty\) en distribución si\(F_n(x) \to F_\infty(x)\) en cada punto\(x \in \R\) donde\(F_\infty\) es continuo. Por un lado, la terminología y la notación son útiles, ya que nuevamente la mayoría de las medidas de probabilidad están asociadas con variables aleatorias (y cada medida de probabilidad puede serlo). Por otro lado, la terminología y notación pueden ser un poco engañosas ya que las variables aleatorias, como funciones, no convergen en ningún sentido, y de hecho las variables aleatorias no necesitan definirse en los mismos espacios de probabilidad. Son sólo las distribuciones las que convergen. Sin embargo, a menudo las variables aleatorias se definen en el mismo espacio de probabilidad\((\Omega, \mathscr F, \P)\), en cuyo caso podemos comparar la convergencia en distribución con los otros modos de convergencia que tenemos o estudiaremos:

Convergencia con probabilidad 1
Convergencia en probabilidad
Convergencia en media

Demostraremos, de hecho, que la convergencia en la distribución es el más débil de todos estos modos de convergencia. Sin embargo, la fuerza de convergencia no debe confundirse con la importancia. La convergencia en la distribución es uno de los modos de convergencia más importantes; el teorema del límite central, uno de los dos teoremas fundamentales de probabilidad, es un teorema sobre la convergencia en la distribución.

Ejemplos Preliminares

Los ejemplos siguientes muestran por qué la definición se da en términos de funciones de distribución, en lugar de funciones de densidad de probabilidad, y por qué la convergencia solo se requiere en los puntos de continuidad de la función de distribución limitante. Tenga en cuenta que las distribuciones consideradas son medidas de probabilidad\((\R, \mathscr R)\), aunque el soporte de la distribución pueda ser un subconjunto mucho menor. Para el primer ejemplo, nótese que si una secuencia determinista converge en el sentido del cálculo ordinario, entonces naturalmente queremos que la secuencia (pensada como variables aleatorias) converja en distribución. Ampliar la prueba para entender el ejemplo a fondo.

Supongamos que\(x_n \in \R\) para\(n \in \N_+^*\). Definir variable aleatoria\(X_n = x_n\) con probabilidad 1 para cada uno\(n \in \N_+^*\). Entonces\(x_n \to x_\infty\) como\(n \to \infty\) si y sólo si\(X_n \to X_\infty\) como\(n \to \infty\) en la distribución.

Prueba

Para\(n \in \N_+^*\), el CDF\(F_n\) de\(X_n\) está dado por\(F_n(x) = 0\) para\(x \lt x_n\) y\(F_n(x) = 1\) para\(x \ge x_n\).

Supongamos que\(x_n \to x_\infty\) como\(n \to \infty\). Si\(x \lt x_\infty\) entonces\(x \lt x_n\), y por lo tanto\(F_n(x) = 0\), para todos pero finitamente muchos\(n \in \N_+\), y así\(F_n(x) \to 0\) como\(n \to \infty\). Si\(x \gt x_\infty\) entonces\(x \gt x_n\), y por lo tanto\(F_n(x) = 1\), para todos pero finitamente muchos\(n \in \N_+\), y así\(F_n(x) \to 1\) como\(n \to \infty\). No se puede decir nada sobre el comportamiento limitante de\(F_n(x_\infty)\) como\(n \to \infty\) sin más información. Por ejemplo, si\(x_n \le x_\infty\) para todos pero finitamente muchos\(n \in \N_+\) entonces\(F_n(x_\infty) \to 1\) como\(n \to \infty\). Si\(x_n \gt x_\infty\) para todos pero finitamente muchos\(n \in \N_+\) entonces\(F_n(x_\infty) \to 0\) como\(n \to \infty\). Si\(x_n \lt x_\infty\) para infinitamente muchos\(n \in \N_+\) y\(x_n \gt x_\infty\) para infinitamente muchos\(n \in \N_+\) entonces\(F_n(x_\infty)\) no tiene un límite como\(n \to \infty\). Pero independientemente, tenemos\(F_n(x) \to F_\infty(x)\) como\(n \to \infty\) para cada\(x \in \R\) excepto quizás\(x_\infty\), el único punto de discontinuidad de\(F_\infty\). De ahí\(X_n \to X_\infty\) como\(n \to \infty\) en la distribución.
Por el contrario, supongamos que\(X_n \to X_\infty\) como\(n \to \infty\) en la distribución. Si\(x \lt x_\infty\) entonces\(F_n(x) \to 0\) como\(n \to \infty\) y por lo tanto\(x \lt x_n\) para todos pero finitamente muchos\(n \in \N_+\). Si\(x \gt x_\infty\) entonces\(F_n(x) \to 1\) como\(n \to \infty\) y por lo tanto\(x \ge x_n\) para todos pero finitamente muchos\(n \in \N_+\). Entonces, para cada\(\epsilon \gt 0\),\(x_n \in (x_\infty - \epsilon, x_\infty + \epsilon)\) para todos pero finitamente muchos\(n \in \N_+\), y por lo tanto\(x_n \to x_\infty\) como\(n \to \infty\).

La prueba está terminada, pero veamos las funciones de densidad de probabilidad para ver que estos no son los propios objetos de estudio. Para\(n \in \N_+^*\), el PDF\(f_n\) de\(X_n\) está dado por\(f_n(x_n) = 1\) y\(f_n(x) = 0\) para\(x \in \R \setminus \{x_n\}\). Sólo cuando\(x_n = x_\infty\) para todos pero finitamente muchos\(n \in \N_+\) tenemos\(f_n(x) \to f(x)\) para\(x \in \R\).

Para el siguiente ejemplo, recordemos que\( \Q \) denota el conjunto de números racionales. Una vez más, ampliar la prueba para entender completamente el ejemplo

Para\(n \in \N_+\), vamos\(P_n\) denotar la distribución uniforme discreta en\(\left\{\frac{1}{n}, \frac{2}{n}, \ldots \frac{n-1}{n}, 1\right\}\) y dejar\(P_\infty\) denotar la distribución uniforme continua en el intervalo\([0, 1]\). Entonces

\(P_n \Rightarrow P_\infty\)como\(n \to \infty\)
\(P_n(\Q) = 1\)para cada\(n \in \N_+\) pero\(P_\infty(\Q) = 0\).

Prueba

Como es habitual, vamos a\(F_n\) denotar el CDF de\(P_n\) for\(n \in \N_+^*\).

Por\(n \in \N_+\) nota que\( F_n \) se da por\( F_n(x) = \lfloor n \, x \rfloor / n \) for\( x \in [0, 1] \). Pero\( n \, x - 1 \le \lfloor n \, x \rfloor \le n \, x \) así\( \lfloor n \, x \rfloor / n \to x \) en\( n \to \infty \) cuanto a\(x \in [0, 1]\). Por supuesto,\(F_n(x) = 0\) para\(x \lt 0\) y\(F_n(x) = 1\) para\(x \gt 1\). Así\(F_n(x) \to F_\infty(x)\) como\(n \to \infty\) para todos\(x \in \R\).
Tenga en cuenta que por definición, así que\(P_n(\Q) = 1\) para\(n \in \N_+\). Por otro lado,\( P_\infty \) es una distribución continua y\( \Q \) es contable, así\(P_\infty(\Q) = 0\).

La prueba está terminada, pero veamos las funciones de densidad de probabilidad. Para\(n \in \N_+\), el PDF\(f_n\) de\(P_n\) está dado por\(f_n(x) = \frac{1}{n}\) for\(x \in \left\{\frac{1}{n}, \frac{2}{n}, \ldots \frac{n-1}{n}, 1\right\}\) y de\(f_n(x) = 0\) otra manera. De ahí\( 0 \le f_n(x) \le \frac{1}{n} \) para\(n \in \N_+\) y\(x \in \R\), así\(f_n(x) \to 0\) como\(n \to \infty\) para cada\( x \in \R \).

El punto del ejemplo es que es razonable que la distribución uniforme discreta en converja\(\left\{\frac{1}{n}, \frac{2}{n}, \ldots \frac{n-1}{n}, 1\right\}\) a la distribución uniforme continua en\([0, 1]\), pero una vez más, las funciones de densidad de probabilidad evidentemente no son los objetos de estudio correctos.

Funciones de densidad de probabilidad

Como muestra el ejemplo anterior, es muy posible que una secuencia de distribuciones discretas converja a una distribución continua (o al revés). Recordemos que las funciones de densidad de probabilidad tienen significados muy diferentes en los casos discretos y continuos: densidad con respecto a la medida de conteo en el primer caso, y densidad con respecto a la medida de Lebesgue en el segundo caso. Esta es otra indicación de que las funciones de distribución, más que las funciones de densidad, son los objetos de estudio correctos. Sin embargo, si las funciones de densidad de probabilidad de un tipo fijo convergen entonces las distribuciones convergen. Recordemos nuevamente que estamos pensando en nuestras distribuciones de probabilidad como medidas\((\R, \mathscr R)\) incluso cuando están soportadas en un subconjunto más pequeño.

Convergencia en la distribución en términos de funciones de densidad de probabilidad.

Supongamos que\(f_n\) es una función de densidad de probabilidad para una distribución discreta\(P_n\) en un conjunto contable\(S \subseteq \R\) para cada uno\(n \in \N_+^*\). Si\(f_n(x) \to f_\infty(x)\) en\(n \to \infty\) cuanto a cada uno\(x \in S\) entonces\(P_n \Rightarrow P_\infty\) como\(n \to \infty\).
Supongamos que\(f_n\) es una función de densidad de probabilidad para una distribución continua\(P_n\) en\(\R\) para cada\(n \in \N_+^*\) If\(f_n(x) \to f(x)\) como\(n \to \infty\) para todos\(x \in \R\) (excepto quizás en un conjunto con Lebesgue medida 0) entonces\(P_n \Rightarrow P_\infty\) como\(n \to \infty\).

Prueba

Arreglar\(x \in \R\). Entonces\(P_n(-\infty, x] = \sum_{y \in S, \, y \le x} f(y)\) para\(n \in \N_+\) y\(P(-\infty, x] = \sum_{y \in S, \, y \le x} f(y)\). Se desprende del teorema de Scheffé con el espacio de medida\((S, \mathscr P(S), \#)\) que\(P_n(-\infty, x] \to P(-\infty, x]\) como\(n \to \infty\).
Arreglar\(x \in \R\). Entonces\(P_n(-\infty, x] = \int_{-\infty}^x f(y) \, dy\) para\(n \in \N_+\) y\(P(-\infty, x] = \int_{-\infty}^x f(y) \, dy\). Se desprende del teorema de Scheffé con el espacio de medida\((\R, \mathscr R, \lambda)\) que\(P_n(-\infty, x] \to P(-\infty, x]\) como\(n \to \infty\).

Convergencia en Probabilidad

Naturalmente, nos gustaría comparar la convergencia en la distribución con otros modos de convergencia que hemos estudiado.

Supongamos que\(X_n\) es una variable aleatoria de valor real para cada una\(n \in \N_+^*\), todas definidas en el mismo espacio de probabilidad. Si\(X_n \to X_\infty\) como\(n \to \infty\) en probabilidad entonces\(X_n \to X_\infty\) como\(n \to \infty\) en distribución.

Prueba

Dejar\(F_n\) denotar la función de distribución de\(X_n\) for\(n \in \N_+^*\). Arreglar\(\epsilon \gt 0\). Tenga en cuenta primero eso\(\P(X_n \le x) = \P(X_n \le x, X_\infty \le x + \epsilon) + \P(X_n \le x, X_\infty \gt x + \epsilon) \). De ahí\(F_n(x) \le F_\infty(x + \epsilon) + \P\left(\left|X_n - X_\infty\right| \gt \epsilon\right)\). A continuación, tenga en cuenta eso\(\P(X_\infty \le x - \epsilon) = \P(X_\infty \le x - \epsilon, X_n \le x) + \P(X_\infty \le x - \epsilon, X_n \gt x)\). De ahí\(F_\infty(x - \epsilon) \le F_n(x) + \P\left(\left|X_n - X_\infty\right|\right) \gt \epsilon\). De los dos últimos resultados se deduce que\[ F_\infty(x - \epsilon) - \P\left(\left|X_n - X_\infty\right| \gt \epsilon\right) \le F_n(x) \le F_\infty(x + \epsilon) + \P\left(\left|X_n - X_\infty\right| \gt \epsilon\right) \] Dejar\(n \to \infty\) y usar convergencia en probabilidad da\[ F_\infty(x - \epsilon) \le \liminf_{n \to \infty} F_n(x) \le \limsup_{n \to \infty} F_n(x) \le F_\infty(x + \epsilon) \] Finalmente, dejando\(\epsilon \downarrow 0\) ver que si\(F_\infty\) es continuo en\(x\) entonces\(F_n(x) \to F_\infty(x)\) como\(n \to \infty\).

Nuestro siguiente ejemplo muestra que incluso cuando las variables se definen en el mismo espacio de probabilidad, una secuencia puede converger en distribución, pero no de otra manera.

Dejar\(X\) ser una variable indicadora con\(\P(X = 0) = \P(X = 1) = \frac{1}{2}\), así que ese\(X\) es el resultado de lanzar una moneda justa. Dejemos\(X_n = 1 - X \) para\(n \in \N_+\). Entonces

\(X_n \to X\)como\(n \to \infty\) en la distribución.
\(\P(X_n \text{ does not converge to } X \text{ as } n \to \infty) = 1\).
\(X_n \)no converge a\( X \) como\(n \to \infty\) en probabilidad.
\(X_n\)no converge a\(X\) como\(n \to \infty\) en media.

Prueba

Esto se sostiene trivialmente ya que\(1 - X\) tiene la misma distribución que\(X\).
Esto sigue ya que\(\left|X_n - X\right| = 1\) para cada\(n \in \N_+\).
Esto sigue ya que\(\P\left(\left|X_n - X\right| \gt \frac{1}{2}\right) = 1\) para cada uno\(n \in \N_+\).
Esto sigue ya que\(\E\left(\left|X_n - X\right|\right) = 1\) para cada uno\(n \in \N_+\).

El hecho crítico que hace funcionar este contraejemplo es que\(1 - X\) tiene la misma distribución que\(X\). Cualquier variable aleatoria con esta propiedad funcionaría igual de bien, así que si prefieres un contraejemplo con distribuciones continuas, let\(X\) have probability density function\(f\) given by\(f(x) = 6 x (1 - x)\) for\(0 \le x \le 1\). La distribución de\(X\) es un ejemplo de una distribución beta.

En el siguiente resumen se dan las implicaciones para los distintos modos de convergencia; no hay otras implicaciones en general.

Supongamos que\(X_n\) es una variable aleatoria de valor real para cada una\(n \in \N_+^*\), todas definidas en un espacio de probabilidad común.

Si\(X_n \to X_\infty\) como\(n \to \infty\) con probabilidad 1 entonces\(X_n \to X_\infty\) como\(n \to \infty\) en probabilidad.
Si\(X_n \to X_\infty\) como\(n \to \infty\) en media entonces\(X_n \to X_\infty\) como\(n \to \infty\) en probabilidad.
Si\(X_n \to X_\infty\) como\(n \to \infty\) en probabilidad entonces\(X_n \to X_\infty\) como\(n \to \infty\) en distribtion.

De ello se deduce que la convergencia con probabilidad 1, la convergencia en probabilidad y la convergencia en la media implican convergencia en la distribución, por lo que este último modo de convergencia es efectivamente el más débil. Sin embargo, nuestro siguiente teorema da una importante conversación a la parte (c) en (7), cuando la variable limitante es una constante. Por supuesto, una constante puede verse como una variable aleatoria definida en cualquier espacio de probabilidad.

Supongamos que\(X_n\) es una variable aleatoria de valor real para cada una\(n \in \N_+\), definida en el mismo espacio de probabilidad, y eso\(c \in \R\). Si\(X_n \to c\) como\(n \to \infty\) en distribución entonces\(X_n \to c\) como\(n \to \infty\) en probabilidad.

Prueba

Supongamos que el espacio de probabilidad es\((\Omega, \mathscr F, \P)\). Obsérvese primero que\(\P(X_n \le x) \to 0\) como\(n \to \infty\) si\(x \lt c\) y\(\P(X_n \le x) \to 1\) como\(n \to \infty\) si\(x \gt c\). De ello se deduce que\(\P\left(\left|X_n - c\right| \le \epsilon\right) \to 1\) como\(n \to \infty\) para cada\(\epsilon \gt 0\).

La representación de Skorohod

Como se señaló en el resumen anterior, la convergencia en la distribución no implica convergencia con probabilidad 1, incluso cuando las variables aleatorias se definen en el mismo espacio de probabilidad. Sin embargo, el siguiente teorema, conocido como el teorema de la representación de Skorohod, da un importante resultado parcial en esta dirección.

Supongamos que\(P_n\) es una medida de probabilidad\((\R, \mathscr R)\) para cada uno\(n \in \N_+^*\) y que\(P_n \Rightarrow P_\infty\) como\(n \to \infty\). Luego existen variables aleatorias de valor real\(X_n\) para\(n \in \N_+^*\), definidas en el mismo espacio de probabilidad, de tal manera que

\(X_n\)tiene distribución\(P_n\) para\(n \in \N_+^*\).
\(X_n \to X_\infty\)como\(n \to \infty\) con probabilidad 1.

Prueba

Dejar\((\Omega, \mathscr F, \P)\) ser un espacio de probabilidad y\(U\) una variable aleatoria definida en este espacio que se distribuye uniformemente en el intervalo\((0, 1)\). Para una construcción específica, podríamos tomar\(\Omega = (0, 1)\),\(\mathscr F\) el\(\sigma\) álgebra de los subconjuntos mensurables de\((0, 1)\) Borel y\(\P\) Lebesgue medir en\((\Omega, \mathscr F)\) (la distribución uniforme en\((0, 1)\)). Entonces deja\(U\) ser la función de identidad encendida\(\Omega\)\(U(\omega) = \omega\) para que para\(\omega \in \Omega\), así que eso\(U\) tenga distribución de probabilidad\(\P\). Hemos visto esta construcción muchas veces antes.

Para\(n \in \N_+^*\), vamos a\(F_n\) denotar la función de distribución de\(P_n\) y definir\(X_n = F_n^{-1}(U)\) dónde están\(F_n^{-1}\) las funciones cuantiles de\(F_n\). Recordemos que\(X_n\) tiene función de distribución\(F_n\) y por lo tanto\(X_n\) tiene distribución\(P_n\) para\(n \in \N_+^*\). Por supuesto, estas variables aleatorias también se definen en\((\Omega, \mathscr F, \P)\).
Dejar\(\epsilon \gt 0\) y dejar\(u \in (0, 1)\). Escoge un punto\(x\) de continuidad de\(F_\infty\) tal manera que\(F_\infty^{-1}(u) - \epsilon \lt x \lt F_\infty^{-1}(u)\). Entonces\(F_\infty(x) \lt u\) y por lo tanto\(F_n(x) \lt u\) para todos pero finitamente muchos\(n \in \N_+\). De ello se deduce que\(F_\infty^{-1}(u) - \epsilon \lt x \lt F_n^{-1}(u)\) para todos menos finitamente muchos\(n \in \N_+\). Dejemos\(n \to \infty\) y\(u \downarrow 0\) concluyamos eso\(F_\infty^{-1}(u) \le \liminf_{n \to \infty} F_n^{-1}(u)\). A continuación, vamos\(v\) a satisfacer\(0 \lt u \lt v \lt 1\) y dejar\(\epsilon \gt 0\). Escoge un punto\(x\) de continuidad de\(F_\infty\) tal manera que\(F_\infty^{-1}(v) \lt x \lt F_\infty^{-1}(v) + \epsilon\). Entonces\(u \lt v \lt F_\infty(x)\) y por lo tanto\(u \lt F_n(x)\) para todos pero finitamente muchos\(n \in \N_+\). De ello se deduce que\(F_n^{-1}(u) \le x \lt F_\infty^{-1}(v) + \epsilon\) para todos menos finitamente muchos\(n \in \N_+\). Dejemos\(n \to \infty\) y\(\epsilon \downarrow 0\) concluyamos eso\(\limsup_{n \to \infty} F_n^{-1}(u) \le F_\infty^{-1}(v)\). Dejando\(v \downarrow u\) que se deduce que\(\limsup_{n \to \infty} F_n^{-1}(u) \le F_\infty^{-1}(u)\) si\(u\) es un punto de continuidad de\(F_\infty^{-1}\). Por lo tanto\(F_n^{-1}(u) \to F_\infty^{-1}(u)\) como\(n \to \infty\) si fuera\(u\) un punto de continuidad de\(F_\infty^{-1}\). Recordemos del análisis que dado que\(F_\infty^{-1}(u)\) va en aumento, el conjunto\(D \subseteq (0, 1)\) de discontinuidades de\(F_\infty^{-1}\) es contable. Ya que\( U \) tiene una distribución continua,\(\P(U \in D) = 0\). Por último, de ello se deduce\(\P(X_n \to X_\infty \text{ as } n \to \infty) = 1\).

El siguiente teorema ilustra el valor de la representación Skorohod y la utilidad de la notación de variables aleatorias para la convergencia en la distribución. El teorema también es bastante intuitivo, ya que una idea básica es que la continuidad debe preservar la convergencia.

Supongamos que\(X_n\) es una variable aleatoria de valor real para cada una\(n \in \N_+^*\) (no necesariamente definida en el mismo espacio de probabilidad). Supongamos también que\(g: \R \to \R\) es medible, y vamos a\(D_g\) denotar el conjunto de discontinuidades de\(g\), y\(P_\infty\) la distribución de\(X_\infty\). Si\(X_n \to X_\infty\) como\(n \to \infty\) en distribución y\(P_\infty(D_g) = 0\), entonces\(g(X_n) \to g(X_\infty)\) como\(n \to \infty\) en distribución.

Prueba

Según el teorema de Skorohod, existen variables aleatorias\(Y_n\) para\(n \in \N_+^*\), definidas en el mismo espacio de probabilidad\((\Omega, \mathscr F, \P)\), tal que\(Y_n\) tiene la misma distribución que\(X_n\) para\(n \in \N_+^*\), y\(Y_n \to Y_\infty\) como\(n \to \infty\) con probabilidad 1. Ya que\(\P(Y_\infty \in D_g) = P_\infty(D_g) = 0\) se deduce que\(g(Y_n) \to g(Y_\infty)\) como\(n \to \infty\) con la probabilidad 1. De ahí por el teorema anterior,\(g(Y_n) \to g(Y_\infty)\) como\(n \to \infty\) en la distribución. Pero\(g(Y_n)\) tiene la misma distribución que\(g(X_n)\) para cada uno\(n \in \N_+^*\).

Como simple corolario, si\(X_n\) converge\(X_\infty\) como\(n \to \infty\) en distribución, y si\(a, \, b \in \R\) entonces\(a + b X_n\) converge a\(a + b X\) como\(n \to \infty\) en distribución. Pero podemos hacerlo un poco mejor:

Supongamos que\(X_n\) es una variable aleatoria de valor real y que\(a_n, \, b_n \in \R\) para cada una\(n \in \N_+^*\). Si\(X_n \to X_\infty\) como\(n \to \infty\) en distribución y si\(a_n \to a_\infty\) y\(b_n \to b_\infty\) como\(n \to \infty\), entonces\(a_n + b_n X_n \to a + b X_\infty\) como\(n \to \infty\) en distribución.

Prueba

Nuevamente por el teorema de Skorohod, existen variables aleatorias\(Y_n\) para\(n \in \N_+^*\), definidas en el mismo espacio de probabilidad\((\Omega, \mathscr F, \P)\) tal que\(Y_n\) tiene la misma distribución que\(X_n\) para\(n \in \N_+^*\) y\(Y_n \to Y_\infty\) como\(n \to \infty\) con probabilidad 1. De ahí también\(a_n + b_n Y_n \to a_\infty + b_\infty Y_\infty\) como\(n \to \infty\) con probabilidad 1. Por el resultado anterior,\(a_n + b_n Y_n \to a_\infty + b_\infty Y_\infty\) como\(n \to \infty\) en la distribución. Pero\(a_n + b_n Y_n\) tiene la misma distribución que\(a_n + b_n X_n\) para\(n \in \N_+^*\).

La definición de convergencia en la distribución requiere que la secuencia de medidas de probabilidad converja en conjuntos de la forma\((-\infty, x]\) para\(x \in \R\) cuando la distrbución limitante tiene probabilidad 0 en\(x\). Resulta que las medidas de probabilidad convergerán también en muchos otros conjuntos, y este resultado señala el camino para extender la convergencia en la distribución a espacios más generales. Para exponer el resultado, recordemos que si\(A\) es un subconjunto de un espacio topológico, entonces el límite de\(A\) es\(\partial A = \cl(A) \setminus \interior(A)\) donde\(\cl(A)\) está el cierre de\(A\) (el conjunto cerrado más pequeño que contiene\(A\)) y\(\interior(A)\) es el interior de \(A\)(el conjunto abierto más grande contenido en\(A\)).

Supongamos que\(P_n\) es una medida de probabilidad en\((\R, \mathscr R)\) para\(n \in \N_+^*\). Entonces\(P_n \Rightarrow P_\infty\) como\(n \to \infty\) si y sólo si\(P_n(A) \to P_\infty(A)\) como\(n \to \infty\) para cada uno\(A \in \mathscr R\) con\(P(\partial A) = 0\).

Prueba

Supongamos que\(P_n \Rightarrow P_\infty\) como\(n \to \infty\). Dejar\(X_n\) ser una variable aleatoria con distribución\(P_n\) para\(n \in \N_+^*\). (No nos importan los espacios de probabilidad subyacentes). Si\(A \in \mathscr R\) entonces el conjunto de discontinuidades de\(\bs 1_A\), la función indicadora de\(A\), es\(\partial A\). Entonces, supongamos\(\P_\infty(\partial A) = 0\). Por el teorema de continuidad anterior,\(\bs 1_A(X_n) \to \bs 1_A(X_\infty)\) como\(n \to \infty\) en la distribución. Vamos a\(G_n\) denotar el CDF de\(\bs 1_A(X_n)\) for\(n \in \N_+^*\). Los únicos puntos posibles de discontinuidad de\(G_\infty\) son 0 y 1. De ahí\(G_n\left(\frac 1 2\right) \to G_\infty\left(\frac 1 2\right) \) como\(n \to \infty\). Pero\(G_n\left(\frac 1 2\right) = P_n(A^c)\) para\(n \in \N_+^*\). De ahí\(P_n(A^c) \to \P_\infty(A^c)\) y así también\(P_n(A) \to P_\infty(A)\) como\(n \to \infty\).

Por el contrario, supongamos que la condición en el teorema sostiene. Si\(x \in \R\), entonces el límite de\((-\infty, x]\) es\(\{x\}\), así si\(P_\infty\{x\} = 0\) entonces\(P_n(-\infty, x] \to P_\infty(-\infty, x]\) como\(n \to \infty\). Entonces por definición,\(P_n \Rightarrow P_\infty\) como\(n \to \infty\).

En el contexto de este resultado, supongamos que\(a, \, b \in \R\) con\(a \lt b\). Si\(P\{a\} = P\{b\} = 0\), entonces como\(n \to \infty\) tenemos\(P_n(a, b) \to P(a, b)\),\(P_n[a, b) \to P[a, b)\),\(P_n(a, b] \to P(a, b]\), y\(P_n[a, b] \to P[a, b]\). Por supuesto, los valores limitantes son todos iguales.

Ejemplos y Aplicaciones

A continuación exploraremos varios ejemplos interesantes de la convergencia de distribuciones sobre\((\R, \mathscr R)\). Hay varios casos importantes donde una distribución especial converge a otra distribución especial a medida que un parámetro se acerca a un valor limitante. En efecto, tales resultados de convergencia son parte de la razón por la cual tales distribuciones son especiales en primer lugar.

La distribución hipergeométrica

Recordemos que la distribución hipergeométrica con parámetros\(m\)\(r\),, y\(n\) es la distribución que gobierna el número de objetos tipo 1 en una muestra de tamaño\(n\), dibujado sin reemplazo de una población de\(m\) objetos con\(r\) objetos de tipo 1. Tiene función de densidad de probabilidad discreta\(f\) dada por\[ f(k) = \frac{\binom{r}{k} \binom{m - r}{n - k}}{\binom{m}{n}}, \quad k \in \{0, 1, \ldots, n\} \] Los pramaters\(m\)\(r\),, y\(n\) son enteros positivos con\(n \le m\) y\(r \le m\). La distribución hipergeométrica se estudia con más detalle en el capítulo sobre Modelos de Muestreo Finito

Recordemos a continuación que los ensayos de Bernoulli son ensayos independientes, cada uno con dos posibles resultados, genéricamente llamados éxito y fracaso. La probabilidad de éxito\(p \in [0, 1]\) es la misma para cada ensayo. La distribución binomial con parámetros\(n \in \N_+\) y\(p\) es la distribución del número de éxitos en los ensayos de\(n\) Bernoulli. Esta distribución tiene función de densidad de probabilidad\(g\) dada por\[ g(k) = \binom{n}{k} p^k (1 - p)^{n - k}, \quad k \in \{0, 1, \ldots, n\} \] La distribución binomial se estudia con más detalle en el capítulo sobre Ensayos de Bernoulli. Obsérvese que la distribución binomial con parámetros\(n\) y\(p = r / m\) es la distribución que gobierna el número de objetos tipo 1 en una muestra de tamaño\(n\), dibujado con reemplazo de una población de\(m\) objetos con\(r\) objetos de tipo 1. Este hecho es la motivación para el siguiente resultado:

Supongamos que\(r_m \in \{0, 1, \ldots, m\}\) para cada uno\(m \in \N_+\) y que\(r_m / m \to p\) como\(m \to \infty\). Para fijo\(n \in \N_+\), la distribución hipergeométrica con parámetros\(m\)\(r_m\),, y\(n\) converge a la distribución binomial con parámetros\(n\) y\(p\) as\(m \to \infty\).

Prueba

Recordemos que para\( a \in \R \) y\( j \in \N \), dejamos\( a^{(j)} = a \, (a - 1) \cdots [a - (j - 1)] \) denotar la caída del poder\( a \) del orden\( j \). El PDF hipergeométrico se puede escribir como\[ f_m(k) = \binom{n}{k} \frac{r_m^{(k)} (m - r_m)^{(n - k)}}{m^{(n)}}, \quad k \in \{0, 1, \ldots, n\} \] En la fracción anterior, tanto el numerador como el denominador tienen\( n \) fractores. Supongamos que agrupamos los\( k \) factores\( r_m^{(k)} \) con los primeros\( k \) factores de\( m^{(n)} \) y los\( n - k \) factores de\( (m - r_m)^{(n-k)} \) con los últimos\( n - k \) factores de\( m^{(n)} \) para formar un producto de\( n \) fracciones. Las primeras\( k \) fracciones tienen la forma\( (r_m - j) \big/ (m - j) \) para algunas de las\( j \) que no depende\( m \). Cada uno de estos converge a\( p \) as\( m \to \infty \). Las últimas\( n - k \) fracciones tienen la forma\( (m - r_m - j) \big/ (m - k - j) \) para algunas de las\( j \) que no depende\( m \). Cada uno de estos converge a\( 1 - p \) as\( m \to \infty \). De ahí\[f_m(k) \to \binom{n}{k} p^k (1 - p)^{n-k} \text{ as } m \to \infty \text{ for each } k \in \{0, 1, \ldots, n\}\] que el resultado ahora se deduce del teorema anterior sobre las funciones de densidad.

Desde un punto de vista práctico, el último resultado significa que si el tamaño de la población\(m\) es grande en comparación con el tamaño de la muestra\(n\), entonces la distribución hipergeométrica con parámetros\(m\)\(r\), y\(n\) (que corresponde a muestreo sin reemplazo) es bien aproximado por la distribución binomial con parámetros\(n\) y\(p = r / m\) (que corresponde a muestreo con reemplazo). Esto suele ser un resultado útil, no computacionalmente, sino porque la distribución binomial tiene menos parámetros que la distribución hipergeométrica (y muchas veces en problemas reales, los parámetros solo pueden conocerse aproximadamente). Específicamente, en la distribución binomial limitante, no necesitamos conocer el tamaño de la población\(m\) y el número de objetos tipo 1\(r\) individualmente, sino solo en la proporción\(r / m\).

En el experimento de pelota y urna, set\(m = 100\) y\(r = 30\). Para cada uno de los siguientes valores de\(n\) (el tamaño de la muestra), cambiar entre muestreo sin reemplazo (la distribución hipergeométrica) y muestreo con reemplazo (la distribución binomial). Observe la diferencia en las funciones de densidad de probabilidad. Ejecute la simulación 1000 veces para cada modo de muestreo y compare la función de frecuencia relativa con la función de densidad de probabilidad.

La distribución binomial

Recordemos nuevamente que la distribución binomial con parámetros\(n \in \N_+\) y\(p \in [0, 1]\) es la distribución del número de éxitos en los ensayos de\(n\) Bernoulli, cuando\(p\) es la probabilidad de éxito en un ensayo. Esta distribución tiene la función de densidad de probabilidad\(f\) dada por\[ f(k) = \binom{n}{k} p^k (1 - p)^{n - k}, \quad k \in \{0, 1, \ldots, n\} \] Recall también que la distribución de Poisson con parámetro\(r \in (0, \infty)\) tiene función de densidad de probabilidad\(g\) dada por\[g(k) = e^{-r} \frac{r^k}{k!}, \quad k \in \N\] La distribución se nombra para Simeon Poisson y gobierna el número de puntos aleatorios en una región de tiempo o espacio, bajo ciertas condiciones ideales. El parámetro\(r\) es proporcional al tamaño de la región de tiempo o espacio. La distribución de Poisson se estudia con más detalle en el capítulo sobre el Proceso de Poisson.

Supongamos que\(p_n \in [0, 1]\) para\(n \in \N_+\) y que\(n p_n \to r \in (0, \infty)\) como\(n \to \infty\). Entonces la distribución binomial con parámetros\(n\) y\(p_n\) converge a la distribución de Poisson con parámetro\(r\) as\(n \to \infty\).

Prueba

Para\( k, \, n \in \N \) con\( k \le n \), el PDF binomial se puede escribir como\[ f_n(k) = \frac{n^{(k)}}{k!} p_n^k (1 - p_n)^{n - k} = \frac{1}{k!} (n p_n) \left[(n - 1) p_n\right] \cdots \left[(n - k + 1) p_n\right] (1 - p_n)^{n - k} \] Primero, en\( (n - j) p_n \to r \)\(n \to \infty\) cuanto a\(j \in \{0, 1, \ldots, n - 1\}\). A continuación, por un famoso límite del cálculo,\( (1 - p_n)^n = (1 - n p_n / n)^n \to e^{-r} \) como\( n \to \infty \). De ahí también\((1 - p_n)^{n-k} \to e^{-r}\) en\(n \to \infty\) cuanto a fijo\(k \in \N_+\). Por lo tanto\(f_n(k) \to e^{-r} r^k / k!\) en\(n \to \infty\) cuanto a cada uno\(k \in \N_+\). El resultado ahora se desprende del teorema anterior sobre las funciones de densidad.

Desde un punto de vista práctico, la convergencia de la distribución binomial al Poisson significa que si el número de ensayos\(n\) es grande y la probabilidad de éxito\(p\) pequeña, entonces esa\(n p^2\) es pequeña, entonces la distribución binomial con parámetros\(n\) y\(p\) se aproxima bien por la distribución de Poisson con parámetro\(r = n p\). Esto suele ser un resultado útil, nuevamente no computacionalmente, sino más bien porque la distribución de Poisson tiene menos parámetros que la distribución binomial (y muchas veces en problemas reales, los parámetros solo pueden conocerse aproximadamente). Específicamente, en la distribución aproximada de Poisson, no necesitamos conocer el número de ensayos\(n\) y la probabilidad de éxito\(p\) individualmente, sino solo en el producto\(n p\). Como veremos en el siguiente capítulo, la condición que\(n p^2\) sea pequeña significa que la varianza de la distribución binomial,\(n p (1 - p) = n p - n p^2\) es decir, es aproximadamente\(r = n p\), que es la varianza de la distribución aproximada de Poisson.

En el experimento de línea de tiempo binomial, establezca los valores de los parámetros de la siguiente manera, y observe la gráfica de la función de densidad de probabilidad. (Tenga en cuenta que\(n p = 5\) en cada caso.) Ejecutar el experimento 1000 veces en cada caso y comparar la función de frecuencia relativa y la función de densidad de probabilidad. Obsérvese también los éxitos representados como puntos aleatorios en tiempo discreto.

\(n = 10\),\(p = 0.5\)
\(n = 20\),\(p = 0.25\)
\(n = 100\),\(p = 0.05\)

En el experimento de Poisson, establecer\(r = 5\) y\(t = 1\), para obtener la distribución de Poisson con el parámetro 5. Observe la forma de la función de densidad de probabilidad. Ejecute el experimento 1000 veces y compare la función de frecuencia relativa con la función de densidad de probabilidad. Obsérvese la similitud entre este experimento y el del ejercicio anterior.

La distribución geométrica

Recordemos que la distribución geométrica en el parámetro\(\N_+\) con éxito\(p \in (0, 1]\) tiene función de densidad de probabilidad\(f\) dada por\[ f(k) = p (1 - p)^{k-1}, \quad k \in \N_+\] La distribución geométrica gobierna el número de prueba del primer éxito en una secuencia de ensayos de Bernoulli.

Supongamos que\(U\) tiene la distribución geométrica\(\N_+\) encendida con parámetro de éxito\(p \in (0, 1]\). Para\( n \in \N_+ \), la distribución condicional de\( U \) dado\( U \le n \) converge a la distribución uniforme en\(\{1, 2, \ldots, n\}\) as\(p \downarrow 0\).

Prueba

El CDF\(F\) de\( U \) está dado por\( F(k) = 1 - (1 - p)^k \) for\(k \in \N_+\). De ahí que para\(n \in \N_+\), el CDF condicional de\( U \) dado\( U \le n \) es\[ F_n(k) = \P(U \le k \mid U \le n) = \frac{\P(U \le k)}{\P(U \le n)} = \frac{1 - (1 - p)^k}{1 - (1 - p)^n}, \quad k \in \{1, 2, \ldots n\} \] Usando la regla de L'Hospital, da\( F_n(k) \to k / n \) como\( p \downarrow 0 \) para\(k \in \{1, 2, \ldots, n\}\). En función de\(k\) esto es el CDF de la distribución uniforme en\( \{1, 2, \ldots, n\} \).

A continuación, recordemos que la distribución exponencial con parámetro de tasa\(r \in (0, \infty)\) tiene función de distribución\(G\) dada por\[ G(t) = 1 - e^{-r t}, \quad 0 \le t \lt \infty \] La distribución exponencial gobierna el tiempo entre llegadas en el modelo de Poisson de puntos aleatorios en el tiempo.

Supongamos que\(U_n\) tiene la distribución geométrica\(\N_+\) encendida con parámetro de éxito\(p_n \in (0, 1]\) para\(n \in \N_+\), y que\(n p_n \to r \in (0, \infty)\) como\(n \to \infty\). La distribución de\(U_n / n\) converge a la distribución exponencial con parámetro\(r\) as\(n \to \infty\).

Prueba

Vamos a\( F_n \) denotar el CDF de\( U_n / n \). Entonces para\( x \in [0, \infty) \)\[ F_n(x) = \P\left(\frac{U_n}{n} \le x\right) = \P(U_n \le n x) = \P\left(U_n \le \lfloor n x \rfloor\right) = 1 - \left(1 - p_n\right)^{\lfloor n x \rfloor} \] Mostramos en la prueba de la convergencia de la distribución binomial que\( (1 - p_n)^n \to e^{-r} \) como\( n \to \infty \), y por lo tanto\( \left(1 - p_n\right)^{n x} \to e^{-r x} \) como\( n \to \infty \). Pero por definición,\( \lfloor n x \rfloor \le n x \lt \lfloor n x \rfloor + 1\) o equivalentemente,\( n x - 1 \lt \lfloor n x \rfloor \le n x \) así se deduce del teorema squeeze que\( \left(1 - p_n \right)^{\lfloor n x \rfloor} \to e^{- r x} \) como\( n \to \infty \). De ahí\( F_n(x) \to 1 - e^{-r x} \) como\( n \to \infty \). En función de\(x \in [0, \infty), this is the CDF of the exponential distribution with parameter \(r\).

Obsérvese que la condición limitante sobre\(n\) y\(p\) en el último resultado es precisamente la misma que la condición para la convergencia de la distribución binomial a la distribución de Poisson. Para una interpretación más profunda de ambos resultados, consulte la sección sobre la distribución de Poisson.

En el experimento binomial negativo, establecer\(k = 1\) para obtener la distribución geométrica. Luego disminuya el valor de\(p\) y anote la forma de la función de densidad de probabilidad. Con\(p = 0.5\) ejecutar el experimento 1000 veces y comparar la función de frecuencia relativa con la función de densidad de probabilidad.

En el experimento gamma, establecer\(k = 1\) para obtener la distribución exponencial, y establecer\(r = 5\). Observe la forma de la función de densidad de probabilidad. Ejecute el experimento 1000 veces y compare la función de densidad empírica y la función de densidad de probabilidad. Compara este experimento con el del ejercicio anterior, y anota la similitud, hasta un cambio de escala.

La distribución coincidente

Para\(n \in \N_+\), considere una permutación aleatoria\((X_1, X_2, \ldots, X_n)\) de los elementos en el conjunto\(\{1, 2, \ldots, n\}\). Decimos que se produce un partido en la posición\(i\) si\(X_i = i\).

\(\P\left(X_i = i\right) = \frac{1}{n}\)para cada uno\(i \in \{1, 2, \ldots, n\}\).

Prueba

El número de permutaciones de\(\{1, 2, \ldots, n\}\) es\(n!\). Porque\(i \in \{1, 2, \ldots, n\}\), el número de tales permutaciones con\(i\) en posición\(i\) es\((n - 1)!\). De ahí\(\P(X_i = i) = (n - 1)! / n! = 1 / n\). Un argumento más directo es que no\(i\) es más o menos probable que termine en posición\(i\) como cualquier otro número.

Entonces, todos los eventos coincidentes tienen la misma probabilidad, que varía inversamente con el número de ensayos.

\(\P\left(X_i = i, X_j = j\right) = \frac{1}{n (n - 1)}\)para\(i, \, j \in \{1, 2, \ldots, n\}\) con\(i \ne j\).

Prueba

Nuevamente, el número de permutaciones de\(\{1, 2, \ldots, n\}\) es\(n!\). Para distinto\(i, \, j \in \{1, 2, \ldots, n\}\), el número de tales permutaciones con\(i\) en posición\(i\) y\(j\) en posición\(j\) es\((n - 2)!\). De ahí\(\P(X_i = i, X_j = j) = (n - 2)! / n! = 1 / n (n - 1)\).

Entonces los eventos coincidentes son dependientes, y de hecho están correlacionados positivamente. En particular, los eventos coincidentes no forman una secuencia de ensayos de Bernoulli. El problema de emparejamiento se estudia en detalle en el capítulo sobre Modelos de Muestreo Finito. En esa sección mostramos que el número de coincidencias\(N_n\) tiene la función de densidad de probabilidad\(f_n\) dada por:\[ f_n(k) = \frac{1}{k!} \sum_{j=0}^{n-k} \frac{(-1)^j}{j!}, \quad k \in \{0, 1, \ldots, n\} \]

La distribución de\(N_n\) converge a la distribución de Poisson con el parámetro 1 as\(n \to \infty\).

Prueba

Para\( k \in \N \),\[ f_n(k) = \frac{1}{k!} \sum_{j=0}^{n-k} \frac{(-1)^j}{j!} \to \frac{1}{k!} \sum_{j=0}^\infty \frac{(-1)^j}{j!} = \frac{1}{k!} e^{-1} \] En función de\(k \in \N\), este es el PDF de la distribución de Poisson con el parámetro 1. Entonces el resultado se desprende del teorema anterior sobre las funciones de densidad.

En el experimento de emparejamiento, aumentar\(n\) y anotar la convergencia aparente de la función de densidad de probabilidad para el número de coincidencias. Con valores seleccionados de\(n\), ejecute el experimento 1000 veces y compare la función de frecuencia relativa y la función de densidad de probabilidad.

La distribución extrema del valor

Supongamos que\((X_1, X_2, \ldots)\) es una secuencia de variables aleatorias independientes, cada una con la distribución exponencial estándar (parámetro 1). Así, recordemos que la función de distribución común\(G\) viene dada por\[ G(x) = 1 - e^{-x}, \quad 0 \le x \lt \infty \]

As\(n \to \infty\), la distribución de\(Y_n = \max\{X_1, X_2, \ldots, X_n\} - \ln n \) converge a la distribución con función de distribución\(F\) dada por\[ F(x) = e^{-e^{-x}}, \quad x \in \R\]

Prueba

Que\( X_{(n)} = \max\{X_1, X_2, \ldots, X_n\} \) y recordemos que\( X_{(n)} \) tiene CDF\( G^n \). Vamos a\( F_n \) denotar el CDF de\( Y_n \). Para\( x \in \R \)\[ F_n(x) = \P(Y_n \le x) = \P\left(X_{(n)} \le x + \ln n \right) = G^n(x + \ln n) = \left[1 - e^{-(x + \ln n) }\right]^n = \left(1 - \frac{e^{-x}}{n} \right)^n \] Por nuestro famoso límite de cálculo otra vez,\( F_n(x) \to e^{-e^{-x}} \) como\( n \to \infty \).

La distribución limitante en Ejercicio (27) es la distribución estándar de valores extremos, también conocida como la distribución estándar de Gumbel en honor a Emil Gumbel. Las distribuciones de valores extremos se estudian en detalle en el capítulo sobre Distribuciones especiales.

La distribución de Pareto

Recordemos que la distribución de Pareto con parámetro shape\(a \in (0, \infty)\) tiene función de distribución\(F\) dada por\[F(x) = 1 - \frac{1}{x^a}, \quad 1 \le x \lt \infty\] La distribución de Pareto, llamada así por Vilfredo Pareto, es una distribución de cola pesada que a veces se utiliza para modelar variables financieras. Se estudia con más detalle en el capítulo sobre Distribuciones Especiales.

Supongamos que\(X_n\) tiene la distribución de Pareto con parámetro\(n\) para cada uno\(n \in \N_+\). Entonces

\(X_n \to 1\)como\(n \to \infty\) en la distribución (y por lo tanto también en probabilidad).
La distribución de\(Y_n = nX_n - n\) converge a la distribución exponencial estándar como\(n \to \infty\).

Prueba

El CDF de\( X_n \) es\( F_n(x) = 1 - 1 / x^n \) para\( x \ge 1 \). De ahí\( F_n(x) = 0 \) por\( n \in \N_+ \) y\( x \le 1 \) mientras\( F_n(x) \to 1 \) en\( n \to \infty \) cuanto a\( x \gt 1 \). Así el límite de\( F_n \) concuerda con el CDF de la constante 1, excepto en\(x = 1\), el punto de discontinuidad.
Vamos a\( G_n \) denotar el CDF de\( Y_n \). Para\( x \ge 0 \),\[ G_n(x) = \P(Y_n \le x) = \P(X_n \le 1 + x / n) = 1 - \frac{1}{(1 + x / n)^n} \] Por nuestro famoso teorema a partir del cálculo de nuevo, se deduce que\( G_n(x) \to 1 - 1 / e^x = 1 - e^{-x} \) como\( n \to \infty \). En función de\(x \in [0, \infty\), este es el CDF de la distribución exponencial estándar.

Teoremas Fundamentales

Los dos teoremas fundamentales de la teoría básica de la probabilidad, la ley de los números grandes y el teorema del límite central, se estudian en detalle en el capítulo sobre Muestras Aleatorias. Por esta razón simplemente vamos a exponer los resultados en esta sección. Entonces, supongamos que\((X_1, X_2, \ldots)\) es una secuencia de variables aleatorias independientes, distribuidas idénticamente, de valor real (definidas en el mismo espacio de probabilidad) con media\(\mu \in (-\infty. \infty)\) y desviación estándar\(\sigma \in (0, \infty)\). Para\(n \in \N_+\), vamos a\( Y_n = \sum_{i=1}^n X_i \) denotar la suma de\(n\) las primeras variables,\( M_n = Y_n \big/n \) el promedio de las primeras\( n \) variables, y\( Z_n = (Y_n - n \mu) \big/ \sqrt{n} \sigma \) la puntuación estándar de\( Y_n \).

Los teoremas fundamentales de la probabilidad

\( M_n \to \mu \)como\( n \to \infty \) con probabilidad 1 (y por lo tanto también en probabilidad y en distribución). Esta es la ley de los grandes números.
La distribución de\( Z_n \) converge a la distribución normal estándar como\( n \to \infty \). Este es el teorema del límite central.

En la parte (a), la convergencia con probabilidad 1 es la ley fuerte de los números grandes mientras que la convergencia en probabilidad y en distribución son las leyes débiles de los números grandes.

Espacios Generales

Nuestro siguiente objetivo es definir la convergencia de distribuciones de probabilidad en espacios medibles más generales. Para esta discusión, es posible que deba referirse a otras secciones de este capítulo: la integral con respecto a una medida positiva, las propiedades de la integral y las funciones de densidad. A su vez, estas secciones dependen de la teoría de medidas desarrollada en los capítulos sobre Fundamentos y Medidas de Probabilidad.

Definición y Propiedades Básicas

Primero necesitamos definir el tipo de espacios medibles que usaremos en esta subsección.

Suponemos que\((S, d)\) es un espacio métrico completo, separable y vamos a\(\mathscr S\) denotar el\(\sigma\) álgebra de Borel de subconjuntos de\(S\), es decir, la\(\sigma\) -álgebra generada por la topología. Los espacios estándar que solemos utilizar son casos especiales del espacio medible\((S, \mathscr S)\):

Discreta:\(S\) es contable y se le da la métrica discreta por lo que\(\mathscr S\) es la colección de todos los subconjuntos de\(S\).
Euclidiana:\(\R^n\) se le da la métrica euclidiana estándar por lo que\(\mathscr R_n\) es la habitual\(\sigma\) -álgebra de los subconjuntos medibles de Borel de\(\R^n\).

Detalles adicionales

Recordemos que el espacio métrico\((S, d)\) está completo si cada secuencia de Cauchy en\(S\) converge a un punto en\(S\). El espacio es separable si existe un subconjunto contable que es denso. Un espacio métrico completo y separable a veces se llama espacio polaco porque tales espacios fueron ampliamente estudiados por un grupo de matemáticos polacos en la década de 1930, incluido Kazimierz Kuratowski.

Como sugiere nuestra configuración, la definición de convergencia en la distribución involucra tanto la teoría de medidas como la topología. La motivación es el teorema anterior para el espacio euclídeo unidimensional\((\R, \mathscr R)\).

Convergencia en distribución:

Supongamos que\(P_n\) es una medida de probabilidad\((S, \mathscr S)\) para cada uno\(n \in \N_+^*\). Entonces\(P_n\) converge (débilmente) a\(P_\infty\) como\(n \to \infty\) si\(P_n(A) \to P_\infty(A)\) como\(n \to \infty\) para cada\(A \in \mathscr S\) con\(P_\infty(\partial A) = 0\). Escribimos\(P_n \Rightarrow P_\infty\) como\(n \to \infty\).
Supongamos que\(X_n\) es una variable aleatoria con distribución\(P_n\) encendida\((S, \mathscr S)\) para cada una\(n \in \N_+^*\). Entonces\(X_n\) converge en distribución a\(X_\infty\) como\(n \to \infty\) si\(P_n \Rightarrow P_\infty\) como\(n \to \infty\). Escribimos\(X_n \to X_\infty\) como\(n \to \infty\) en distribución.

Notas

La definición tiene sentido ya que\(A \in \mathscr S\) implica\(\partial A \in \mathscr S\). Específicamente,\(\cl(A) \in \mathscr S\) porque\(\cl(A)\) está cerrado, y\(\interior(A) \in \mathscr S\) porque\(\interior(A)\) está abierto.
No es necesario definir las variables aleatorias en el mismo espacio de probabilidad.

Consideremos nuestros dos casos especiales. En el caso discreto, como es habitual, la teoría de medidas y la topología no son realmente necesarias.

Supongamos que\(P_n\) es una probabilidad mide en un espacio discreto\((S, \mathscr S)\) para cada uno\(n \in \N_+^*\). Entonces\(P_n \Rightarrow P_\infty\) como\(n \to \infty\) si y sólo si\(P_n(A) \to P_\infty(A)\) como\(n \to \infty\) para cada uno\(A \subseteq S\).

Prueba

Esto se desprende de la definición. Cada subconjunto es tanto abierto como cerrado así que\(\partial A = \emptyset\) para cada\(A \subseteq S\).

En el caso euclidiano, basta con considerar las funciones de distribución, como en el caso unidimensional. Si\(P\) es una medida de probabilidad\((\R^n, \mathscr R_n)\) encendida, recuerde que la función\(F\) de distribución de\(P\) está dada por\[F(x_1, x_2, \ldots, x_n) = P\left((-\infty, x_1] \times (-\infty, x_2] \times \cdots \times (-\infty, x_n]\right), \quad (x_1, x_2, \ldots, x_n) \in \R^n\]

Supongamos que\(P_n\) es una probabilidad mide\((\R^n, \mathscr R_n)\) con función de distribución\(F_n\) para cada uno\(n \in \N_+^*\). Entonces\(P_n \Rightarrow P_\infty\) como\(n \to \infty\) si y sólo si\(F_n(\bs x) \to F_\infty(\bs x)\) como\(n \to \infty\) para cada\(\bs x \in \R^n\) donde\(F_\infty\) es continuo.

Convergencia en Probabilidad

Como en el caso de\((\R, \mathscr R)\), la convergencia en probabilidad implica convergencia en la distribución.

Supongamos que\(X_n\) es una variable aleatoria con valores en\(S\) para cada uno\(n \in \N_+^*\), todos definidos en el mismo espacio de probabilidad. Si\(X_n \to X_\infty\) como\(n \to \infty\) en probabilidad entonces\(X_n \to X_\infty\) como\(n \to \infty\) en distribución.

Notas

Supongamos que el espacio de probabilidad común es\((\Omega, \mathscr F, \P)\). Recordemos que la convergencia en la probabilidad significa que\(\P[d(X_n, X_\infty) \gt \epsilon] \to 0\) como\(n \to \infty\) para cada\(\epsilon \gt 0\),

Así como antes, la convergencia con probabilidad 1 implica convergencia en probabilidad que a su vez implica convergencia en la distribución.

Teorema de la representación de Skorohod

Como se puede adivinar, el teorema de Skorohod para el espacio euclídeo unidimensional se\((\R, \mathscr R)\) puede extender a los espacios más generales. Sin embargo, la prueba no es tan sencilla, porque ya no tenemos la función cuantil para construir variables aleatorias en un espacio de probabilidad común.

Supongamos que\(P_n\) es una probabilidad mide\((S, \mathscr S)\) para cada uno\(n \in \N_+^*\) y que\(P_n \Rightarrow P_\infty\) como\(n \to \infty\). Luego existe una variable aleatoria\(X_n\) con valores en\(S\) para cada uno\(n \in \N_+^*\), definida en un espacio de probabilidad común, tal que

\(X_n\)tiene distribución\(P_n\) para\(n \in \N_+^*\)
\(X_n \to X_\infty\)como\(n \to \infty\) con probabilidad 1.

Una de las principales consecuencias de la representación de Skorohod, la preservación de la convergencia en la distribución bajo funciones continuas, sigue siendo cierta y tiene esencialmente la misma prueba. Para la configuración general, supongamos que\((S, d, \mathscr S)\) y\((T, e, \mathscr T)\) son espacios del tipo descrito anteriormente.

Supongamos que\(X_n\) es una variable aleatoria con valores en\(S\) para cada uno\(n \in \N_+^*\) (no necesariamente definidos en el mismo espacio de probabilidad). Supongamos también que\(g: S \to T\) es medible, y vamos a\(D_g\) denotar el conjunto de discontinuidades de\(g\), y\(P_\infty\) la distribución de\(X_\infty\). Si\(X_n \to X_\infty\) como\(n \to \infty\) en distribución y\(P_\infty(D_g) = 0\), entonces\(g(X_n) \to g(X_\infty)\) como\(n \to \infty\) en distribución.

Prueba

Según el teorema de Skorohod, existen variables aleatorias\(Y_n\) con valores en\(S\) for\(n \in \N_+^*\), definidos en el mismo espacio de probabilidad\((\Omega, \mathscr F, \P)\), tal que\(Y_n\) tiene la misma distribución que\(X_n\) para\(n \in \N_+^*\), y\(Y_n \to Y_\infty\) como\(n \to \infty\) con probabilidad 1. Ya que\(\P(Y_\infty \in D_g) = P_\infty(D_g) = 0\) se deduce que\(g(Y_n) \to g(Y_\infty)\) como\(n \to \infty\) con la probabilidad 1. De ahí\(g(Y_n) \to g(Y_\infty)\) como\(n \to \infty\) en la distribución. Pero\(g(Y_n)\) tiene la misma distribución que\(g(X_n)\) para cada uno\(n \in \N_+^*\).

Una consecuencia simple del teorema de continuidad es que si una secuencia de vectores aleatorios\(\R^n\) convergen en distribución, entonces la secuencia de cada coordenada también converge en distribución. Solo consideremos el caso bidimensional para mantener la notación simple.

Supongamos que\((X_n, Y_n)\) es una variable aleatoria con valores en\(\R^2\) for\(n \in \N_+^*\) y que\((X_n, Y_n) \to (X_\infty, Y_\infty)\) como\(n \to \infty\) en distribución. Entonces

\(X_n \to X_\infty\)como\(n \to \infty\) en la distribución.
\(Y_n \to Y_\infty\)como\(n \to \infty\) en la distribución.

Teorema de Scheffé

Nuestra siguiente discusión se refiere a un importante resultado conocido como el teorema de Scheffé, que lleva el nombre de Henry Scheffé. Para exponer nuestro teorema, supongamos que\( (S, \mathscr S, \mu) \) es un espacio de medida, por lo que\( S \) es un conjunto,\( \mathscr S \) es una\( \sigma \) -álgebra de subconjuntos de\( S \), y\( \mu \) es una medida positiva sobre\( (S, \mathscr S) \). Además, supongamos que\( P_n \) es una medida de probabilidad sobre\( (S, \mathscr S) \) que tiene función de densidad\( f_n \) con respecto a\( \mu \) para cada uno\( n \in \N_+ \), y que\( P \) es una medida de probabilidad sobre la\( (S, \mathscr S) \) que tiene función de densidad\( f \) con respecto a\( \mu \).

Si en\(f_n(x) \to f(x)\)\(n \to \infty\) cuanto a casi todos\( x \in S \) (con respecto a\( \mu \)) entonces\(P_n(A) \to P(A)\) tan\(n \to \infty\) uniformemente en\(A \in \mathscr S\).

Prueba

De las propiedades básicas de la integral se deduce que para\( A \in \mathscr S \),\[\left|P(A) - P_n(A)\right| = \left|\int_A f \, d\mu - \int_A f_n \, d\mu \right| = \left| \int_A (f - f_n) \, d\mu\right| \le \int_A \left|f - f_n\right| \, d\mu \le \int_S \left|f - f_n\right| \, d\mu\] Let\(g_n = f - f_n\), y let\(g_n^+\) denotan la parte positiva de\(g_n\) y\(g_n^-\) la parte negativa de\(g_n\). Tenga en cuenta que\(g_n^+ \le f\) y\(g_n^+ \to 0\) como\(n \to \infty\) casi en todas partes en\( S \). Dado que\( f \) es una función de densidad de probabilidad, es trivialmente integrable, así por el teorema de convergencia dominada,\(\int_S g_n^+ \, d\mu \to 0\) como\(n \to \infty\). Pero\(\int_\R g_n \, d\mu = 0\) así\(\int_\R g_n^+ \, d\mu = \int_\R g_n^- \, d\mu\). Por lo tanto\(\int_S \left|g_n\right| \, d\mu = 2 \int_S g_n^+ d\mu \to 0\) como\(n \to \infty\). De ahí\(P_n(A) \to P(A)\) como\(n \to \infty\) uniformemente en\(A \in \mathscr S\).

Por supuesto, los casos especiales más importantes del teorema de Scheffé son las distribuciones discretas y las distribuciones continuas en un subconjunto de\( \R^n \), como en el teorema anterior sobre funciones de densidad.

Valor esperado

Las funciones generadoras se estudian en el capítulo de Valor Esperado. En parte, la importancia de generar funciones deriva del hecho de que la convergencia ordinaria (puntual) de una secuencia de funciones generadoras corresponde a la convergencia de las distribuciones en el sentido de esta sección. A menudo es más fácil mostrar convergencia en la distribución usando funciones generadoras que directamente desde la definición.

Además, la converencia en la distribución tiene caracterizaciones elegantes en cuanto a la convergencia de los valores esperados de ciertos tipos de funciones de las variables aleatorias subyacentes.