13.2: Convergencia y Teorema del Límite Central

Última actualización
Guardar como PDF

Page ID: 151058

Paul Pfeiffer
Rice University

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

El Teorema del Límite Central

El teorema del límite central (CLT) afirma que si la variable aleatoria\(X\) es la suma de una gran clase de variables aleatorias independientes, cada una con distribuciones razonables, entonces\(X\) se distribuye aproximadamente normalmente. Este célebre teorema ha sido objeto de una extensa investigación teórica dirigida al descubrimiento de las condiciones más generales bajo las cuales es válido. Por otra parte, este teorema sirve como base de una extraordinaria cantidad de trabajo aplicado. En la estadística de muestras grandes, el promedio muestral es una constante multiplicada por la suma de las variables aleatorias en el proceso de muestreo. Así, para muestras grandes, el promedio muestral es aproximadamente normal, independientemente de que la distribución de la población sea normal o no. En gran parte de la teoría de errores de medición, el error observado es la suma de un gran número de cantidades aleatorias independientes que contribuyen aditivamente al resultado. De igual manera, en la teoría del ruido, la señal de ruido es la suma de un gran número de componentes aleatorios, producidos independientemente. En tales situaciones, el supuesto de una distribución normal de la población suele ser bastante apropiado.

Consideramos una forma de CLT bajo hipótesis que son supuestos razonables en muchas situaciones prácticas. Dibujamos una prueba de esta versión del CLT, conocida como el teorema de Lindeberg-Lévy, que utiliza el teorema límite sobre las funciones características, arriba, junto con ciertos hechos elementales del análisis. Ilustra el tipo de argumento utilizado en pruebas más sofisticadas requeridas para casos más generales.

Considera una secuencia independiente\(\{X_n: 1 \le n\}\) de variables aleatorias. Formar la secuencia de sumas parciales

\(S_n = \sum_{i = 1}^{n} X_i\)\(\forall n \ge 1\)con\(E[S_n] = \sum_{i = 1}^{n} E[X_i]\) y\(\text{Var} [S_n] = \sum_{i = 1}^{n} \text{Var} [X_i]\)

Dejar\(S_n^*\) ser la suma estandarizada y dejar\(F_n\) ser la función de distribución para\(S_n^*\). El CLT afirma que en condiciones adecuadas,\(F_n (t) \to \phi(t)\) como\(n \to \infty\) para todos\(t\). Dibujamos una prueba del teorema bajo la condición de\(X_i\) formar una clase iid.

Teorema de Límite Central (forma Lindeberg-Lévy)

Si\(\{X_n: 1 \le n\}\) es iid, con

\(E[X_i] = \mu\),\(\text{Var} [X_i] = \sigma^2\), y\(S_n^* = \dfrac{S_n - n\mu}{\sigma \sqrt{n}}\)

entonces

\(F_n (t) \to \phi (t)\)como\(n \to \infty\), para todos\(t\)

IDEAS DE UNA PRUEBA

No hay pérdida de generalidad en asumir\(\mu = 0\). Dejar\(\phi\) ser la función característica común para el\(X_i\), y para cada\(n\) dejar\(\phi_n\) ser la función característica para\(S_n^*\). Tenemos

\(\varphi (t) = E[e^{itX}]\)y\(\varphi_n (t) = E[e^{itS_n^*}] = \varphi^n (t/\sigma \sqrt{n})\)

Usando la expansión de la serie de potencia de\(\varphi\) aproximadamente el origen señalado anteriormente, tenemos

\(\varphi (t) = 1 - \dfrac{\sigma^2 t^2}{2} + \beta (t)\)donde\(\beta (t) = o (t^2)\) como\(t \to 0\)

Esto implica

\([\varphi (t/\sigma \sqrt{n}) - (1 - t^2/2n)] = [\beta (t /\sigma \sqrt{n})] = o(t^2/\sigma^2 n)\)

para que

\(n[\varphi (t/\sigma \sqrt{n}) - (1 - t^2/2n)] \to 0\)como\(n \to \infty\)

Un lema estándar de análisis asegura

\((1 - \dfrac{t^2}{2n})^n \to e^{-t^2/2}\)como\(n \to \infty\)

para que

\(\varphi (t/\sigma \sqrt{n}) \to e^{-t^2/2}\)como\(n \to \infty\) para todos\(t\)

Por el teorema de convergencia sobre funciones características, arriba,\(F_n(t) \to \phi (t)\).

— □

El teorema dice que las funciones de distribución para sumas de números crecientes del X _i convergen a la función de distribución normal, pero no dice qué tan rápido. Es instructivo considerar algunos ejemplos, que se elaboran fácilmente con la ayuda de nuestras funciones m.

Demostración del teorema del límite central

Ejemplos discretos

Primero examinamos la aproximación gaussiana en dos casos. Tomamos la suma de cinco variables aleatorias simples iid en cada caso. La primera variable tiene seis valores distintos; la segunda tiene sólo tres. El carácter discreto de la suma es más evidente en el segundo caso. Aquí usamos no solo la aproximación gaussiana, sino la aproximación gaussiana desplazada una media unidad (la llamada corrección de continuidad para variables aleatorias de valores enteros). El ajuste es notablemente bueno en cualquier caso con solo cinco términos.

Una herramienta principal es la función m diidsum (suma de variables aleatorias iid discretas). Utiliza un número designado de iteraciones de mgsum.

Ejemplo\(\PageIndex{1}\) First random variable

X = [-3.2 -1.05 2.1 4.6 5.3 7.2];
PX = 0.1*[2 2 1 3 1 1];
EX = X*PX'
EX =  1.9900
VX = dot(X.^2,PX) - EX^2
VX = 13.0904
[x,px] = diidsum(X,PX,5);            % Distribution for the sum of 5 iid rv
F = cumsum(px);                      % Distribution function for the sum
stairs(x,F)                          % Stair step plot
hold on
plot(x,gaussian(5*EX,5*VX,x),'-.')   % Plot of gaussian distribution function
% Plotting details                   (see Figure 13.2.1)

Figura 13.2.1. Distribución para la suma de cinco variables iid aleatorias.

Ejemplo\(\PageIndex{2}\) Second random variable

X = 1:3;
PX = [0.3 0.5 0.2];
EX = X*PX'
EX = 1.9000
EX2 = X.^2*PX'
EX2 =  4.1000
VX = EX2 - EX^2
VX =  0.4900
[x,px] = diidsum(X,PX,5);            % Distribution for the sum of 5 iid rv
F = cumsum(px);                      % Distribution function for the sum
stairs(x,F)                          % Stair step plot
hold on
plot(x,gaussian(5*EX,5*VX,x),'-.')   % Plot of gaussian distribution function
plot(x,gaussian(5*EX,5*VX,x+0.5),'o')  % Plot with continuity correction
% Plotting details                   (see Figure 13.2.2)

Figura 13.2.2. Distribución para la suma de cinco variables iid aleatorias.

Como otro ejemplo, tomamos la suma de veintiún iid variables aleatorias simples con valores enteros. Examinamos solo parte de la función de distribución donde se concentra la mayor parte de la probabilidad. Esto efectivamente agranda la escala x, de modo que la naturaleza de la aproximación es más evidente.

Ejemplo\(\PageIndex{3}\) Sum of twenty-one iid random variables

X = [0 1 3 5 6];
PX = 0.1*[1 2 3 2 2];
EX = dot(X,PX)
EX =  3.3000
VX = dot(X.^2,PX) - EX^2
VX =  4.2100
[x,px] = diidsum(X,PX,21);
F = cumsum(px);
FG = gaussian(21*EX,21*VX,x);
stairs(40:90,F(40:90))
hold on
plot(40:90,FG(40:90))
% Plotting details               (see Figure 13.2.3)

Figura 13.2.3. Distribución para la suma de veintiún iid variables aleatorias.

Ejemplos absolutamente continuos

Mediante el uso de la aproximación discreta, podemos obtener aproximaciones a las sumas de variables aleatorias absolutamente continuas. Los resultados sobre variables discretas indican que cuantos más valores, más rápido parece ocurrir la conversión. En nuestro siguiente ejemplo, comenzamos con una variable aleatoria uniforme on (0, 1).

Ejemplo\(\PageIndex{4}\) Sum of three iid, uniform random variables.

Supongamos\(X\) ~ uniforme (0, 1). Entonces\(E[X] = 0.5\) y\(\text{Var} [X] = 1/12\).

tappr
Enter matrix [a b] of x-range endpoints  [0 1]
Enter number of x approximation points  100
Enter density as a function of t  t<=1
Use row matrices X and PX as in the simple case
EX = 0.5;
VX = 1/12;
[z,pz] = diidsum(X,PX,3);
F = cumsum(pz);
FG = gaussian(3*EX,3*VX,z);
length(z)
ans = 298
a = 1:5:296;                     % Plot every fifth point
plot(z(a),F(a),z(a),FG(a),'o')
% Plotting details               (see Figure 13.2.4)

Figura 13.2.4. Distribución para la suma de tres variables aleatorias uniformes iid.

Para la suma de sólo tres variables aleatorias, el ajuste es notablemente bueno. Esto no es del todo sorprendente, ya que la suma de dos da una distribución simétrica triangular en (0, 2). Otras distribuciones pueden tomar muchos más términos para obtener un buen ajuste. Considera el siguiente ejemplo.

Ejemplo\(\PageIndex{5}\) Sum of eight iid random variables

Supongamos que la densidad es una en los intervalos (-1, -0.5) y (0.5, 1). Aunque la densidad es simétrica, tiene dos regiones separadas de probabilidad. De la simetría. \(E[X] = 0\). Los cálculos muestran\(\text{Var}[X] = E[X^2] = 7/12\). Los cálculos de MATLAB son:

tappr
Enter matrix [a b] of x-range endpoints  [-1 1]
Enter number of x approximation points  200
Enter density as a function of t  (t<=-0.5)|(t>=0.5)
Use row matrices X and PX as in the simple case
[z,pz] = diidsum(X,PX,8);
VX = 7/12;
F = cumsum(pz);
FG = gaussian(0,8*VX,z);
plot(z,F,z,FG)
% Plottting details                (see Figure 13.2.5)

Figura 13.2.5. Distribución para la suma de ocho variables aleatorias uniformes iid.

Si bien se utiliza la suma de ocho variables aleatorias, el ajuste a la gaussiana no es tan bueno como el de la suma de tres en el Ejemplo 13.2.4. En cualquier caso, la convergencia es notable rápida, solo se necesitan unos pocos términos para una buena aproximación.

Fenómenos de convergencia en teoría de probabilidad

El teorema del límite central exhibe uno de varios tipos de convergencia importantes en la teoría de la probabilidad, a saber, la convergencia en la distribución (a veces llamada convergencia débil). La concentración creciente de valores de la variable aleatoria promedio muestral A _n con el aumento\(n\) ilustra la convergencia en probabilidad. La convergencia del promedio muestral es una forma de la llamada ley débil de grandes números. Para n suficientemente grande la probabilidad de que\(A_n\) se encuentre dentro de una distancia dada de la media poblacional se puede hacer tan cerca de una como se desee. El hecho de que la varianza de\(A_n\) se vuelva pequeña para n grande ilustra la convergencia en la media (de orden 2).

\(E[|A_n - \mu|^2] \to 0\)como\(n \to \infty\)

En el cálculo, nos ocupamos de secuencias de números. Si\(\{a_n: 1 \le n\}\) es una secuencia de números reales, decimos que la secuencia converge iff para\(N\) suficientemente grandes\(a_n\) aproxima arbitrariamente de cerca algún número\(L\) para todos\(n \ge N\). Este número único\(L\) se llama el límite de la secuencia. Las secuencias convergentes se caracterizan por el hecho de que para lo suficientemente grande\(N\), la distancia\(|a_n - a_m|\) entre dos términos cualesquiera es arbitrariamente pequeña para todos\(n\),\(m \ge N\). Se dice que tal secuencia es fundamental (o Cauchy). Para ser precisos, si dejamos\(\epsilon > 0\) ser el error de aproximación, entonces la secuencia es

Convergente si existe un número\(L\) tal que para cualquiera\(\epsilon > 0\) hay\(N\) tal que

\(|L - a_n| \le \epsilon\)para todos\(n \ge N\)

Fundamental iff para cualquiera\(\epsilon > 0\) hay\(N\) tal que

\(|a_n - a_m| \le \epsilon\)para todos\(n, m \ge N\)

Como resultado de la completitud de los números reales, es cierto que cualquier secuencia fundamental converge (es decir, tiene un límite). Y tal convergencia tiene ciertas propiedades deseables. Por ejemplo, el límite de una combinación lineal de secuencias es esa combinación lineal de los límites separados; y los límites de productos son los productos de los límites.

La noción de secuencias convergentes y fundamentales se aplica a secuencias de funciones de valor real con dominio común. Para cada uno\(x\) en el dominio, tenemos una secuencia

\(\{f_n (x): 1 \le n\}\)de números reales. La secuencia puede converger para algunos\(x\) y no converger para otros.

Una condición algo más restrictiva (y a menudo más deseable) para las secuencias de funciones es la convergencia uniforme. Aquí la uniformidad está por encima de los valores del argumento\(x\). En este caso, para cualquiera\(\epsilon > 0\) existe un\(N\) que funcione para todos\(x\) (o para algún conjunto prescrito adecuado de\(x\)).

Estos conceptos pueden ser aplicados a una secuencia de variables aleatorias, que son funciones de valor real con dominio\(\Omega\) y argumento\(\omega\). Supongamos que\(\{X_n: 1 \le n\}\) es una secuencia de variables aleatorias reales. Para cada argumento\(\omega\) tenemos una secuencia\(\{X_n (\omega): 1 \le n\}\) de números reales. Es muy posible que tal secuencia converja para algunos ω y diverja (no converja) para otros. De hecho, en muchos casos importantes la secuencia converge para todos\(\omega\) excepto posiblemente un conjunto (evento) de probabilidad cero. En este caso, decimos que la seqeunce converge casi seguramente (abreviado a.s.). También se aplica la noción de convergencia uniforme. En la teoría de la probabilidad tenemos la noción de convergencia casi uniforme. Este es el caso de que la secuencia converge uniformemente para todos\(\omega\) excepto para un conjunto de probabilidad arbitrariamente pequeña.

La noción de convergencia en probabilidad señalada anteriormente es un tipo de convergencia bastante diferente. En lugar de tratar la secuencia de forma puntual, se ocupa de las variables aleatorias como tales. En el caso del promedio muestral, la “cercanía” a un límite se expresa en términos de la probabilidad de que el valor\(X_n (\omega)\) observado se encuentre cerca del valor\(X(\omega)\) de la variable aleatoria limitante. Podemos afirmar esto precisamente de la siguiente manera:

Una secuencia\(\{X_n: 1 \le n\}\) converge a X en probabilidad, designada\(X_n \stackrel{P}\longrightarrow X\) iff para cualquiera\(\epsilon > 0\).

\(\text{lim}_n P(|X - X_n| > \epsilon) = 0\)

Existe una noción correspondiente de una secuencia fundamental en probabilidad.

La siguiente representación esquemática puede ayudar a visualizar la diferencia entre la convergencia casi segura y la convergencia en probabilidad. Al establecer el modelo básico de probabilidad, pensamos en términos de “bolas” extraídas de una jarra o caja. En lugar de bolas, considera para cada posible resultado\(\omega\) una “cinta” en la que se encuentra la secuencia de valores\(X_1 (\omega)\),\(X_2 (\omega)\),\(X_3 (\omega)\),\(\cdot\cdot\cdot\).

Si la secuencia de variable aleatoria converge a.s. a una variable aleatoria\(X\), entonces hay un conjunto de “cintas excepcionales” que tiene probabilidad cero. Para todas las demás cintas,\(X_n (\omega) \to X(\omega)\). Esto significa que al ir lo suficientemente lejos en cualquier cinta de este tipo, los valores\(X_n (\omega)\) más allá de ese punto se encuentran todos dentro de una distancia prescrita del valor\(X(\omega)\) de la variable aleatoria límite.
Si la secuencia converge en probabilidad, la situación puede ser bastante diferente. Se selecciona una cinta. Para\(n\) suficientemente grande, la probabilidad es arbitrariamente cercana a uno de que el valor observado se\(X_n (\omega)\) encuentre dentro de una distancia prescrita de\(X(\omega)\). Esto no dice nada sobre los valores\(X_m (\omega)\) en la cinta seleccionada para cualquier mayor\(m\). De hecho, la secuencia en la cinta seleccionada puede muy bien divergir.

No es difícil construir ejemplos para los que haya convergencia en probabilidad sino convergencia puntual para no\(\omega\). Es fácil confundir estos dos tipos de convergencia. El tipo de convergencia señalada para el promedio muestral es la convergencia en probabilidad (una ley “débil” de grandes números). Lo que realmente se desea en la mayoría de los casos es la convergencia a.s. (una ley “fuerte” de grandes números). Resulta que para un proceso de muestreo del tipo utilizado en estadísticas simples, la convergencia del promedio muestral es casi segura (es decir, la ley fuerte sostiene). Para establecer esto se requiere un análisis mucho más detallado y sofisticado de lo que estamos preparados para hacer en este tratamiento.

La noción de convergencia media ilustrada por la reducción de\(\text{Var} [A_n]\) con aumento\(n\) puede expresarse de manera más general y más precisa de la siguiente manera. Una secuencia\(\{X_n: 1 \le n\}\) converge en la media de orden\(p\) a\(X\) iff

\(E[|X - X_n|^p] \to 0\)según se\(n \to \infty\) designe\(X_n \stackrel{L^p}\longrightarrow X\); como\(n \to \infty\)

Si el orden\(p\) es uno, simplemente decimos que la secuencia converge en la media. Porque\(p = 2\), hablamos de convergencia medio-cuadrada.

La introducción de un nuevo tipo de convergencia plantea una serie de interrogantes.

Existe la cuestión de las secuencias fundamentales (o Cauchy) y las secuencias convergentes.
¿Los diversos tipos de límites tienen las propiedades habituales de límites? ¿El límite de una combinación lineal de secuencias es la combinación lineal de los límites? ¿El límite de productos es producto de los límites?
¿Qué condiciones implican los diversos tipos de convergencia?
¿Cuál es la relación entre los diversos tipos de convergencia?

Antes de esbozar brevemente algunas de las relaciones entre los tipos de convergencia, consideramos una condición importante conocida como integrabilidad uniforme. Según la propiedad (E9b) para integrales

\(X\)es integrable iff\(E[I_{\{|X_i|>a\}} |X_t|] \to 0\) como\(a \to \infty\)

En términos generales, para ser integrable una variable aleatoria no puede ser demasiado grande en un conjunto demasiado grande. Utilizamos esta caracterización de la integrabilidad de una sola variable aleatoria para definir la noción de integrabilidad uniforme de una clase.

Definición

Una clase de arbitraje\(\{X_t: t \in T\}\) es uniformemente integrable (abreviado u.i.) con respecto a la medida de probabilidad\(P\) iff

\(\text{sup}_{t \in T} E[I_{\{|X_i| > a\}} | X_t|] \to 0\)como\(a \to \infty\)

Esta condición juega un papel clave en muchos aspectos de la probabilidad teórica.

Las relaciones entre los tipos de convergencia son importantes. A veces sólo se puede establecer un tipo. También, puede ser más fácil establecer un tipo que implique otro de interés más inmediato. Simplemente declaramos de manera informal algunas de las relaciones importantes. Un resumen algo más detallado se da en PA, Capítulo 17. Pero para un tratamiento completo es necesario consultar tratamientos más avanzados de probabilidad y medida.

Relaciones entre tipos de convergencia para medidas de probabilidad

Considera una secuencia\(\{X_n: 1 \le n\}\) de variables aleatorias.

Converge casi seguramente si converge casi de manera uniforme.
Si converge casi con seguridad, entonces converge en probabilidad.
Converge en media, orden\(p\), si es integrable uniformemente y converge en probabilidad.
Si converge en probabilidad, entonces converge en distribución (es decir, débilmente).

Se pueden rastrear diversas cadenas de implicación. Por ejemplo

La convergencia casi segura implica convergencia en probabilidad implica convergencia en la distribución.
La convergencia casi segura y la integrabilidad uniforme implican convergencia en media\(p\).

No desarrollamos la teoría subyacente. Si bien gran parte de ella podría tratarse con ideas elementales, un tratamiento completo requiere un desarrollo considerable de la teoría de medidas subyacente. Sin embargo, es importante estar al tanto de estos diversos tipos de convergencia, ya que frecuentemente se utilizan en tratamientos avanzados de probabilidad aplicada y de estadística.