6.4: El Teorema del Límite Central

Última actualización
Guardar como PDF

Page ID: 152170

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

\(\newcommand{\R}{\mathbb{R}}\)\(\newcommand{\N}{\mathbb{N}}\)\(\newcommand{\Z}{\mathbb{Z}}\)\(\newcommand{\E}{\mathbb{E}}\)\(\newcommand{\P}{\mathbb{P}}\)\(\newcommand{\var}{\text{var}}\)\(\newcommand{\sd}{\text{sd}}\)\(\newcommand{\cov}{\text{cov}}\)\(\newcommand{\cor}{\text{cor}}\)\(\newcommand{\bs}{\boldsymbol}\)

El teorema del límite central y la ley de los grandes números son los dos teoremas fundamentales de la probabilidad. Aproximadamente, el teorema del límite central establece que la distribución de la suma (o promedio) de un gran número de variables independientes, distribuidas de manera idéntica, será aproximadamente normal, independientemente de la distribución subyacente. La importancia del teorema del límite central es difícil de exagerar; de hecho, es la razón por la que funcionan muchos procedimientos estadísticos.

Procesos de suma parcial

Definiciones

Supongamos que\(\bs{X} = (X_1, X_2, \ldots)\) es una secuencia de variables aleatorias independientes, distribuidas idénticamente, de valor real con función de densidad de probabilidad común\(f\)\(\mu\), media y varianza\(\sigma^2\). Suponemos que\(0 \lt \sigma \lt \infty\), de manera que en particular, las variables aleatorias son realmente aleatorias y no constantes. Vamos\[ Y_n = \sum_{i=1}^n X_i, \quad n \in \N \] Tenga en cuenta que por convención,\(Y_0 = 0\), ya que la suma está por encima de un conjunto de índices vacío. El proceso aleatorio\(\bs{Y} = (Y_0, Y_1, Y_2, \ldots)\) se denomina proceso de suma parcial asociado con\(\bs{X}\). En este texto se han estudiado tipos especiales de procesos de suma parcial en muchos lugares; en particular ver

la distribución binomial en el marco de los ensayos de Bernoulli
la distribución binomial negativa en el marco de los ensayos de Bernoulli
la distribución gamma en el proceso de Poisson
los tiempos de llegada en un proceso general de renovación

Recordemos que en términos estadísticos, la secuencia\(\bs{X}\) corresponde al muestreo de la distribución subyacente. En particular,\((X_1, X_2, \ldots, X_n)\) es una muestra aleatoria de tamaño\(n\) a partir de la distribución, y la media muestral correspondiente es\[ M_n = \frac{Y_n}{n} = \frac{1}{n} \sum_{i=1}^n X_i \] Por la ley de números grandes,\(M_n \to \mu\) como\(n \to \infty\) con probabilidad 1.

Incrementos estacionarios e independientes

El proceso de suma parcial correspondiente a una secuencia de variables independientes, distribuidas idénticamente, tiene dos propiedades importantes, y estas propiedades caracterizan esencialmente dichos procesos.

Si\(m \le n\) entonces\(Y_n - Y_m\) tiene la misma distribución que\(Y_{n-m}\). Así el proceso\(\bs{Y}\) tiene incrementos estacionarios.

Prueba

Tenga en cuenta que\(Y_n - Y_m = \sum_{i=m+1}^n X_i\) y es la suma de variables\(n - m\) independientes, cada una con la distribución común. Por supuesto,\(Y_{n-m}\) es también la suma de variables\(n - m\) independientes, cada una con la distribución común.

Tenga en cuenta sin embargo que\(Y_n - Y_m\) y\(Y_{n-m}\) son variables aleatorias muy diferentes; el teorema simplemente establece que tienen la misma distribución.

Si\(n_1 \le n_2 \le n_3 \le \cdots\) entonces\(\left(Y_{n_1}, Y_{n_2} - Y_{n_1}, Y_{n_3} - Y_{n_2}, \ldots\right)\) es una secuencia de variables aleatorias independientes. Así el proceso\(\bs{Y}\) tiene incrementos independientes.

Prueba

Los términos en la secuencia de incrementos\(\left(Y_{n_1}, Y_{n_2} - Y_{n_1}, Y_{n_3} - Y_{n_2}, \ldots\right)\) son sumas sobre colecciones disjuntas de términos en la secuencia\(\bs{X}\). Dado que la secuencia\(\bs{X}\) es independiente, también lo es la secuencia de incrementos.

Por el contrario, supongamos que\(\bs{V} = (V_0, V_1, V_2, \ldots)\) es un proceso aleatorio con incrementos estacionarios e independientes. Definir\(U_i = V_i - V_{i-1}\) para\(i \in \N_+\). Entonces\(\bs{U} = (U_1, U_2, \ldots)\) es una secuencia de variables independientes, distribuidas idénticamente y\(\bs{V}\) es el proceso de suma parcial asociado a\(\bs{U}\).

Así, los procesos de suma parcial son los únicos procesos aleatorios de tiempo discreto que tienen incrementos estacionarios e independientes. Un problema interesante, y mucho más difícil, es caracterizar los procesos de tiempo continuo que tienen incrementos estacionarios independientes. El proceso de conteo de Poisson tiene incrementos estacionarios independientes, al igual que el proceso de movimiento browniano.

Momentos

Si\(n \in \N\) entonces

\(\E(Y_n) = n \mu\)
\(\var(Y_n) = n \sigma^2\)

Prueba

Los resultados se derivan de propiedades básicas de valor esperado y varianza. El valor esperado es una operación lineal así\( \E(Y_n) = \sum_{i=1}^n \E(X_i) = n \mu \). Por independencia,\(\var(Y_n) = \sum_{i=1}^n \var(X_i) = n \sigma^2\).

Si\(n \in \N_+\) y\(m \in \N\) con\(m \le n\) entonces

\(\cov(Y_m, Y_n) = m \sigma^2\)
\(\cor(Y_m, Y_n) = \sqrt{\frac{m}{n}}\)
\(\E(Y_m Y_n) = m \sigma^2 + m n \mu^2\)

Prueba

Tenga en cuenta que\(Y_n = Y_m + (Y_n - Y_m)\). Esto se desprende de las propiedades básicas de la covarianza, y del Teorema 1 y Teorema 2:\[ \cov(Y_m, Y_n) = \cov(Y_m, Y_m) + \cov(Y_m, Y_n - Y_m) = \var(Y_m) + 0 = m \sigma^2 \]
Este resultado se desprende de la parte (a) y el Teorema 4\[ \cor(Y_m, Y_m) = \frac{\cov(Y_m, Y_n)}{\sd(Y_m) \sd(Y_n)} = \frac{m \sigma^2}{\sqrt{m \sigma^2} \sqrt{n \sigma^2}} = \sqrt{\frac{m}{n}} \]
Este resultado también se desprende de la parte (a) y del Teorema 4:\(\E(Y_m Y_n) = \cov(Y_m, Y_n) + \E(Y_m) \E(Y_n) = m \sigma^2 + m \mu n \mu\)

Si\(X\) tiene función de generación de momento\(G\) entonces\(Y_n\) tiene función de generación de momento\(G^n\).

Prueba

Esto se desprende de una propiedad básica de generar funciones: la función generadora de una suma de variables independientes es el producto de las funciones generadoras de los términos.

Distribuciones

Supongamos que\(X\) tiene ya sea una distribución discreta o una distribución continua con función de densidad de probabilidad\(f\). Entonces la función de densidad de probabilidad de\(Y_n\) es\(f^{*n} = f * f * \cdots * f\), el poder de convolución\(f\) de orden\(n\).

Prueba

Esto se desprende de una propiedad básica de los PDF: el pdf de una suma de variables independientes es la convolución de los PDF de los términos.

De manera más general, podemos usar las propiedades estacionarias e independientes para encontrar las distribuciones conjuntas del proceso de suma parcial:

Si\(n_1 \lt n_2 \lt \cdots \lt n_k\) entonces\((Y_{n_1}, Y_{n_2}, \ldots, Y_{n_k})\) tiene función de densidad de probabilidad conjunta\[ f_{n_1, n_2, \ldots, n_k}(y_1, y_2, \ldots, y_k) = f^{*n_1}(y_1) f^{*(n_2 - n_1)}(y_2 - y_1) \cdots f^{*(n_k - n_{k-1})}(y_k - y_{k-1}), \quad (y_1, y_2, \ldots, y_k) \in \R^k \]

Prueba

Esto se desprende del teorema del cambio multivariado de variables.

El Teorema del Límite Central

Primero, hagamos más preciso el teorema del límite central. Del Teorema 4, no podemos esperar que\(Y_n\) por sí mismo tenga una distribución limitante. Tenga en cuenta que\(\var(Y_n) \to \infty\) como\(n \to \infty\) desde\(\sigma \gt 0\), y\(\E(Y_n) \to \infty\) como\(n \to \infty\) si\(\mu \gt 0\) mientras\(\E(Y_n) \to -\infty\) como\(n \to \infty\) si\(\mu \lt 0\). De igual manera, sabemos que al\(M_n \to \mu\) igual que\(n \to \infty\) con la probabilidad 1, por lo que la distribución limitante de la media muestral es degenerada. Así, para obtener una distribución limitante de\(Y_n\) o\(M_n\) que no sea degenerada, debemos considerar, no estas variables temáticaselementos, sino más bien la puntuación estándar común. Por lo tanto, vamos\[ Z_n = \frac{Y_n - n \mu}{\sqrt{n} \sigma} = \frac{M_n - \mu}{\sigma \big/ \sqrt{n}} \]

\(Z_n\)tiene media 0 y varianza 1.

\(\E(Z_n) = 0\)
\(\var(Z_n) = 1\)

Prueba

Estos resultados se derivan de propiedades básicas de valor esperado y varianza, y son ciertos para la puntuación estándar asociada a cualquier variable aleatoria. Recordemos también que la puntuación estándar de una variable es invariante bajo transformaciones lineales con pendiente positiva. El hecho de que la puntuación estándar de\(Y_n\) y la puntuación estándar de\(M_n\) sean las mismas es un caso especial de esto.

La afirmación precisa del teorema del límite central es que la distribución de la puntuación estándar\(Z_n\) converge a la distribución normal estándar como\(n \to \infty\). Recordemos que la distribución normal estándar tiene función de densidad de probabilidad\[ \phi(z) = \frac{1}{\sqrt{2 \pi}} e^{-\frac{1}{2} z^2}, \quad z \in \R \] y se estudia con más detalle en el capítulo sobre distribuciones especiales. Un caso especial del teorema del límite central (a los juicios de Bernoulli), data de Abraham De Moivre. El término teorema del límite central fue acuñado por George Pólya en 1920. Por definición de convergencia en la distribución, el teorema del límite central establece que\(F_n(z) \to \Phi(z)\) como\(n \to \infty\) para cada uno\(z \in \R\), donde\(F_n\) está la función de distribución de\(Z_n\) y\(\Phi\) es la función de distribución normal estándar:

\[ \Phi(z) = \int_{-\infty}^z \phi(x) \, dx = \int_{-\infty}^z \frac{1}{\sqrt{2 \pi}} e^{-\frac{1}{2} x^2} \, dx, \quad z \in \R \]

Un estado equivalente del teormo límite central implica la convergencia de las funciones características correspondientes. Esta es la versión que daremos y probaremos, pero primero necesitamos una generalización de un famoso límite a partir del cálculo.

Supongamos que\((a_1, a_2, \ldots)\) es una secuencia de números reales y eso\(a_n \to a \in \R\) como\(n \to \infty\). Entonces\[ \left( 1 + \frac{a_n}{n} \right)^n \to e^a \text{ as } n \to \infty \]

Ahora vamos a\(\chi\) denotar la función característica de la puntuación estándar de la variable de muestra\(X\), y vamos a\(\chi_n\) denotar la función característica de la puntuación estándar\(Z_n\):\[ \chi(t) = \E \left[ \exp\left( i t \frac{X - \mu}{\sigma} \right) \right], \; \chi_n(t) = \E[\exp(i t Z_n)]; \quad t \in \R \] Recordemos que\(t \mapsto e^{-\frac{1}{2}t^2}\) es la función característica de la distribución normal estándar. Ahora podemos dar una prueba.

El teorema del límite central. La distribución de\(Z_n\) converge a la distribución normal estándar como\(n \to \infty\). Es decir, en\(\chi_n(t) \to e^{-\frac{1}{2}t^2}\)\(n \to \infty\) cuanto a cada uno\(t \in \R\).

Prueba

Tenga en cuenta que\(\chi(0) = 1\),\(\chi^\prime(0) = 0\),\(\chi^{\prime \prime}(0) = -1\). Siguiente\[ Z_n = \frac{1}{\sqrt{n}} \sum_{i=1}^n \frac{X_i - \mu}{\sigma} \] De propiedades de funciones características,\(\chi_n(t) = \chi^n (t / \sqrt{n})\) para\(t \in \R\). Por el teorema de Taylor (llamado así por Brook Taylor),\[ \chi\left(\frac{t}{\sqrt{n}}\right) = 1 + \frac{1}{2} \chi^{\prime\prime}(s_n) \frac{t^2}{n} \text{ where } \left|s_n\right| \le \frac{\left|t\right|}{n} \] Pero\(s_n \to 0\) y por lo tanto\(\chi^{\prime\prime}(s_n) \to -1\) como\(n \to \infty\). Por último,\[ \chi_n(t) = \left[1 + \frac{1}{2} \chi^{\prime\prime}(s_n) \frac{t^2}{n} \right]^n \to e^{-\frac{1}{2} t^2} \text{ as } n \to \infty \]

Aproximaciones normales

El teorema del límite central implica que si el tamaño de la muestra\(n\) es grande entonces la distribución de la suma parcial\(Y_n\) es aproximadamente normal con media\(n \mu\) y varianza\(n \sigma^2\). Equivalentemente la media muestral\(M_n\) es aproximadamente normal con media\(\mu\) y varianza\(\sigma^2 / n\). El teorema del límite central es de fundamental importancia, ya que significa que podemos aproximar la distribución de ciertas estadísticas, aunque sepamos muy poco sobre la distribución muestral subyacente.

Por supuesto, el término grande es relativo. Aproximadamente, cuanto más anormal es la distribución básica, mayor\(n\) debe ser para que las aproximaciones normales funcionen bien. La regla general es que un tamaño\(n\) de muestra de al menos 30 suele ser suficiente si la distribución básica no es demasiado rara; aunque para muchas distribuciones más pequeñas\(n\) servirán.

Dejar\(Y\) denotar la suma de las variables en una muestra aleatoria de tamaño 30 a partir de la distribución uniforme en adelante\([0, 1]\). Encuentra aproximaciones normales a cada una de las siguientes:

\(\P(13 \lt Y \lt 18)\)
El percentil 90 de\(Y\)

Contestar

0.8682
17.03

La variable aleatoria\(Y\) en el ejercicio anterior tiene la distribución Irwin-Hall de orden 30. Las distribuciones Irwin-Hall se estudian con más detalle en el capítulo sobre Distribuciones Especiales y llevan el nombre de Joseph Irwin y Phillip Hall.

En el simulador de distribución especial, seleccione la distribución Irwin-Hall. Varía y\(n\) de 1 a 10 y anota la forma de la función de densidad de probabilidad. Con\(n = 10\) ejecutar el experimento 1000 veces y comparar la función de densidad empírica con la función de densidad de probabilidad verdadera.

Dejar\(M\) denotar la media muestral de una muestra aleatoria de tamaño 50 a partir de la distribución con función de densidad de probabilidad\(f(x) = \frac{3}{x^4}\) para\(1 \le x \lt \infty\). Se trata de una distribución de Pareto, llamada así por Vilfredo Pareto. Encuentra aproximaciones normales a cada una de las siguientes:

\(\P(M \gt 1.6)\)
El percentil 60 de\(M\)

Contestar

0.2071
1.531

La Corrección de Continuidad

Un ligero problema técnico surge cuando la distribución del muestreo es discreta. En este caso, la suma parcial también tiene una distribución discreta, y de ahí estamos aproximando una distribución discreta con una continua. Supongamos que\(X\) toma valores enteros (el caso más común) y por lo tanto también lo hace la suma parcial\(Y_n\). Para cualquier\(k \in \Z\) y\(h \in [0, 1)\), tenga en cuenta que el evento\(\{k - h \le Y_n \le k + h\}\) es equivalente al evento\(\{Y = k\}\). Diferentes valores de\(h\) conducen a diferentes aproximaciones normales, aunque los eventos sean equivalentes. La aproximación más pequeña sería 0 cuando\(h = 0\), y las aproximaciones aumentan a medida que\(h\) aumenta. Es costumbre dividir la diferencia usando\(h = \frac{1}{2}\) para la aproximación normal. Esto a veces se denomina corrección de continuidad de media unidad o corrección de histograma. La corrección de continuidad se extiende a otros eventos de forma natural, utilizando la aditividad de probabilidad.

Supongamos que\(j, k \in \Z\) con\(j \le k\).

Para el evento\(\{j \le Y_n \le k\} = \{j - 1 \lt Y_n \lt k + 1\}\), utilizar\(\{j - \frac{1}{2} \le Y_n \le k + \frac{1}{2}\}\) en la aproximación normal.
Para el evento\(\{j \le Y_n\} = \{j - 1 \lt Y_n\}\), utilizar\(\{j - \frac{1}{2} \le Y_n\}\) en la aproximación normal.
Para el evento\(\{Y_n \le k\} = \{Y_n \lt k + 1\}\), utilizar\(\{Y_n \le k + \frac{1}{2}\}\) en la aproximación normal.

Vamos a\(Y\) denotar la suma de los puntajes de 20 dados justos. Compute la aproximación normal a\(\P(60 \le Y \le 75)\).

Contestar

0.6741

En el experimento de dados, establezca la distribución de troqueles en justa, seleccione la variable\(Y\) aleatoria de suma y establezca\(n = 20\). Ejecuta la simulación 1000 veces y encuentra cada una de las siguientes. Comparar con el resultado en el ejercicio anterior:

\(\P(60 \le Y \le 75)\)
La frecuencia relativa del evento\(\{60 \le Y \le 75\}\) (a partir de la simulación)

Aproximación normal a la distribución gamma

Recordemos que la distribución gamma con parámetro de forma\(k \in (0, \infty)\) y parámetro de escala\(b \in (0, \infty)\) es una distribución continua\( (0, \infty) \) con función de densidad de probabilidad\( f \) dada por\[ f(x) = \frac{1}{\Gamma(k) b^k} x^{k-1} e^{-x/b}, \quad x \in (0, \infty) \] La media es\( k b \) y la varianza es\( k b ^2 \). La distribución gamma es ampliamente utilizada para modelar tiempos aleatorios (particularmente en el contexto del modelo de Poisson) y otras variables aleatorias positivas. La distribución gamma general se estudia con más detalle en el capítulo sobre Distribuciones Especiales. En el contexto del modelo de Poisson (donde\(k \in \N_+\)), la distribución gamma también se conoce como la distribución Erlang, llamada así por Agner Erlang; se estudia con más detalle en el capítulo sobre el Proceso de Poisson. Supongamos ahora que\(Y_k\) tiene la distribución gamma (Erlang) con el parámetro shape\(k \in \N_+\) y el parámetro scale\(b \gt 0\) entonces\[ Y_k = \sum_{i=1}^k X_i \] donde\((X_1, X_2, \ldots)\) está una secuencia de variables independientes, teniendo cada una la distribución exponencial con parámetro scale\(b\). (La distribución exponencial es un caso especial de la distribución gamma con el parámetro de forma 1.) De ello se deduce que si\(k\) es grande, la distribución gamma puede aproximarse por la distribución normal con media\(k b\) y varianza\(k b^2\). La misma declaración en realidad se mantiene cuando no\(k\) es un número entero. Aquí está la declaración precisa:

Supongamos que\( Y_k \) tiene la distribución gamma con parámetro de escala\( b \in (0, \infty) \) y parámetro de forma\( k \in (0, \infty) \). Entonces la distribución de la variable estandarizada\( Z_k \) a continuación converge a la distribución normal estándar como\(k \to \infty\):\[ Z_k = \frac{Y_k - k b}{\sqrt{k} b} \]

En el simulador de distribución especial, seleccione la distribución gamma. Varíe\(b\) y anote la forma de la función de densidad de probabilidad. Con\(k = 10\) y varios valores de\(b\), ejecute el experimento 1000 veces y compare la función de densidad empírica con la función de densidad de probabilidad verdadera.

Supongamos que\(Y\) tiene la distribución gamma con el parámetro shape\(k = 10\) y el parámetro scale\(b = 2\). Encuentra aproximaciones normales a cada una de las siguientes:

\( \P(18 \le Y \le 23) \)
El percentil 80 de\(Y\)

Contestar

0.3063
25.32

Aproximación Normal a la Distribución Chi-Cuadrada

Recordemos que la distribución chi-cuadrada con\(n \in (0, \infty)\) grados de libertad es un caso especial de la distribución gamma, con parámetro de forma\(k = n / 2\) y parámetro de escala\(b = 2\). Así, la distribución chi-cuadrado con\(n\) grados de libertad tiene función de densidad de probabilidad\[ f(x) = \frac{1}{\Gamma(n/2) 2^{n/2}} x^{n/2 - 1}e^{-x/2}, \quad 0 \lt x \lt \infty \] Cuando\( n \) es un positivo, entero, la distribución chi-cuadrado gobierna la suma de variables normales estándar\( n \) independientes. Por ello, es una de las distribuciones más importantes en estadística. La distribución chi-cuadrada se estudia con más detalle en el capítulo sobre Distribuciones Especiales. De la discusión anterior se deduce que si\(n\) es grande, la distribución chi-cuadrada puede aproximarse por la distribución normal con media\(n\) y varianza\(2 n\). Aquí está la declaración precisa:

Supongamos que\(Y_n\) tiene la distribución chi-cuadrada con\(n \in (0, \infty) \) grados de libertad. Entonces la distribución de la variable estandarizada\( Z_n \) a continuación converge a la distribución normal estándar como\(n \to \infty\):\[ Z_n = \frac{Y_n - n}{\sqrt{2 n}} \]

En el simulador de distribución especial, seleccione la distribución chi-cuadrada. Varíe\(n\) y anote la forma de la función de densidad de probabilidad. Con\(n = 20\), ejecute el experimento 1000 veces ycompare la función de densidad empírica con la función de densidad de probabilidad.

Supongamos que\(Y\) tiene la distribución chi-cuadrada con\(n = 20\) grados de libertad. Encuentra aproximaciones normales a cada una de las siguientes:

\(\P(18 \lt Y \lt 25)\)
El percentil 75 de\(Y\)

Contestar

0.4107
24.3

Aproximación normal a la distribución binomial

Recordemos que una secuencia de ensayos de Bernoulli, llamada así por Jacob Bernoulli, es una secuencia\( (X_1, X_2, \ldots) \) de variables indicadoras independientes, distribuidas idénticamente con\(\P(X_i = 1) = p\) para cada una\(i\), donde\(p \in (0, 1)\) está el parámetro. En el lenguaje habitual de la confiabilidad,\(X_i\) se encuentra el resultado del ensayo\(i\), donde 1 significa éxito y 0 significa fracaso. La media común es\(p\) y la varianza común es\(p (1 - p)\).

Vamos\(Y_n = \sum_{i=1}^n X_i\), así que ese\(Y_n\) es el número de éxitos en los primeros\(n\) ensayos. Recordemos que\(Y_n\) tiene la distribución binomial con parámetros\(n\) y\(p\), y tiene función de densidad de probabilidad\[ f(k) = \binom{n}{k} p^k (1 - p)^{n-k}, \quad k \in \{0, 1, \ldots, n\} \] La distribución binomial se estudia con más detalle en el capítulo sobre ensayos de Bernoulli.

Se deduce del teorema del límite central que si\(n\) es grande, la distribución binomial con parámetros\(n\) y\(p\) puede aproximarse por la distribución normal con media\(n p\) y varianza\(n p (1 - p)\). La regla general es que\(n\) debe ser lo suficientemente grande para\(n p \ge 5\) y\(n (1 - p) \ge 5\). (La primera condición es la importante cuando\(p \lt \frac{1}{2}\) y la segunda condición es la importante cuando\(p \gt \frac{1}{2}\).) Aquí está la declaración precisa:

Supongamos que\( Y_n \) tiene la distribución binomial con parámetro trial\( n \in \N_+ \) y parámetro success\( p \in (0, 1) \). Entonces la distribución de la variable estandarizada\(Z_n\) dada a continuación converge a la distribución normal estándar como\(n \to \infty\):\[ Z_n = \frac{Y_n - n p}{\sqrt{n p (1 - p)}} \]

En el experimento de línea de tiempo binomial, variar\(n\)\(p\) y anotar la forma de la función de densidad de probabilidad. Con\(n = 50\) y\(p = 0.3\), ejecute la simulación 1000 veces y calme lo siguiente:

\(\P(12 \le Y \le 16)\)
La frecuencia relativa del evento\(\{12 \le Y \le 16\}\) (a partir de la simulación)

Contestar

0.5448

Supongamos que\(Y\) tiene la distribución binomial con parámetros\(n = 50\) y\(p = 0.3\). Calcular la aproximación normal a\( \P(12 \le Y \le 16) \) (no olvide la corrección de continuidad) y compare con los resultados del ejercicio anterior.

Contestar

0.5383

Aproximación normal a la distribución de Poisson

Recordemos que la distribución de Poisson, llamada así por Simeon Poisson, es una distribución discreta\( \N \) con función de densidad de probabilidad\( f \) dada por\[ f(x) = e^{-\theta} \frac{\theta^x}{x!}, \quad x \in \N \] donde\(\theta \gt 0\) es un parámetro. El parámetro es tanto la media como la varianza de la distribución. La distribución de Poisson es ampliamente utilizada para modelar el número de puntos aleatorios en una región de tiempo o espacio, y se estudia con más detalle en el capítulo sobre el Proceso de Poisson. En este contexto, el parámetro es proporcional al tamaño de la región.

Supongamos ahora que\(Y_n\) tiene la distribución de Poisson con parámetro\(n \in \N_+\). Entonces\[ Y_n = \sum_{i=1}^n X_i \] donde\((X_1, X_2, \ldots, X_n)\) está una secuencia de variables independientes, cada una con la distribución de Poisson con el parámetro 1. Del teorema del límite central se deduce que si\(n\) es grande, la distribución de Poisson con parámetro\(n\) puede aproximarse por la distribución normal con media\(n\) y varianza\(n\). La misma sentencia se mantiene cuando el parámetro no\(n\) es un entero. Aquí está la declaración precisa:

. Supongamos que\( Y_\theta \) tiene la distribución de Poisson con parámetro\( \theta \in (0, \infty) \). Entonces la distribución de la variable estandarizada\( Z_\theta \) a continuación converge a la distribución normal estándar como\(\theta \to \infty\):

\[ Z_\theta = \frac{Y_\theta - \theta}{\sqrt{\theta}} \]

Supongamos que\(Y\) tiene la distribución de Poisson con media 20.

Compute el verdadero valor de\(\P(16 \le Y \le 23)\).
Compute la aproximación normal a\(\P(16 \le Y \le 23)\).

Contestar

0.6310
0.6259

En el experimento de Poisson, variar los parámetros de tiempo y tasa\(t\) y\(r\) (el parámetro de la distribución de Poisson en el experimento es el producto\(r t\)). Observe la forma de la función de densidad de probabilidad. Con\(r = 5\) y\(t = 4\), ejecute el experimento 1000 veces y compare la función de densidad empírica con la función de densidad de probabilidad verdadera.

Aproximación normal a la distribución binomial negativa

La versión general de la distribución binomial negativa es una distribución discreta on\( \N \), con parámetro shape\( k \in (0, \infty) \) y parámetro success\( p \in (0, 1) \). La función\( f \) de densidad de probabilidad viene dada por\[ f(n) = \binom{n + k - 1}{n} p^k (1 - p)^n, \quad n \in \N_+ \] La media es\( k (1 - p) / p \) y la varianza es\( k (1 - p) / p^2 \). La distribución binomial negativa se estudia con más detalle en el capítulo sobre los ensayos de Bernoulli. Si\( k \in \N_+ \), la distribución gobierna el número de fracasos\( Y_k \) antes del número de éxito\( k \) en una secuencia de ensayos de Bernoulli con parámetro de éxito\( p \). Así, en este caso,\[ Y_k = \sum_{i=1}^k X_i \] donde\((X_1, X_2, \ldots, X_k)\) se encuentra una secuencia de variables independientes, teniendo cada una la distribución geométrica\(\N\) con parámetro\(p\). (La distribución geométrica es un caso especial del binomio negativo, con parámetros 1 y\(p\).) En el contexto de los ensayos de Bernoulli,\( X_1 \) es el número de fracasos antes del primer éxito, y para\( i \in \{2, 3, \ldots\} \),\(X_i\) es el número de fracasos entre el número de éxito número de\( i - 1 \) éxito\( i \). De ello se deduce que si\(k\) es grande, la distribución binomial negativa puede aproximarse por la distribución normal. La misma sentencia mantiene si no\( k \) es un entero. Aquí está la declaración precisa:

Supongamos que\( Y_k \) tiene la distribución binomial negativa con parámetro shape\( k \in (0, 1) \) y parámetro scale\( p \in (0, 1) \). Entonces la distribución de la variable estandarizada\( Z_k \) a continuación converge a la distribución normal estándar como\(k \to \infty\):\[ Z_k = \frac{p Y_k - k(1 - p)}{\sqrt{k (1 - p)}} \]

Otra versión de la distribución binomial negativa es la distribución del número de prueba\( V_k \) del número de éxito\( k \in \N_+ \). Entonces\( V_k = k + Y_k \) y\( V_k \) tiene media\( k / p \) y varianza\( k (1 - p) / p^2 \). La aproximación normal se aplica a la distribución de\( V_k \) también, si\( k \) es grande, y dado que las distribuciones están relacionadas por una transformación de ubicación, las puntuaciones estándar son las mismas. Eso es\[ \frac{p V_k - k}{\sqrt{k (1 - p)}} = \frac{p Y_k - k(1 - p)}{\sqrt{k ( 1 - p)}} \]

En el experimento binomial negativo, variar\(k\)\(p\) y anotar la forma de la función de densidad de probabilidad. Con\(k = 5\) y\(p = 0.4\), ejecute el experimento 1000 veces y compare la función de densidad empírica con la función de densidad de probabilidad verdadera.

Supongamos que\(Y\) tiene la distribución binomial negativa con parámetro trial\(k = 10\) y parámetro success\(p = 0.4\). Encuentra aproximaciones normales a cada una de las siguientes:

\(\P(20 \lt Y \lt 30)\)
El percentil 80 de\(Y\)

Contestar

0.6318
30.1

Sumas parciales con un número aleatorio de términos

Nuestro último tema es un poco más esotérico, pero aún encaja con el escenario general de esta sección. Recordemos que\(\bs{X} = (X_1, X_2, \ldots)\) es una secuencia de variables aleatorias independientes, distribuidas idénticamente de valor real con media\(\mu\) y varianza comunes\(\sigma^2\). Supongamos ahora que\(N\) es una variable aleatoria (en el mismo espacio de probabilidad) tomando valores\(\N\), también con media finita y varianza. Entonces\[ Y_N = \sum_{i=1}^N X_i \] es una suma aleatoria de las variables independientes, distribuidas idénticamente. Es decir, los términos son aleatorios por supuesto, pero también lo es el número de términos\(N\). Nos interesan primordialmente los momentos de\(Y_N\).

Número independiente de términos

Supongamos primero que\(N\), el número de términos, es independiente de\(\bs{X}\), la secuencia de términos. Computar los momentos de\(Y_N\) es un buen ejercicio de expectativa condicional.

El valor esperado condicional de\(Y_N\) dado\(N\), y el valor esperado de\(Y_N\) son

\(\E(Y_N \mid N) = N \mu\)
\(\E(Y_N) = \E(N) \mu\)

La varianza condicional de\(Y_N\) dado\(N\) y la varianza de\(Y_N\) son

\(\var(Y_N \mid N) = N \sigma^2\)
\(\var(Y_N) = \E(N) \sigma^2 + \var(N) \mu^2\)

Dejar\(H\) denotar la probabilidad que genera la función de\(N\). Demostrar que el momento que genera la función de\(Y_N\) es\(H \circ G\).

\(\E(e^{t Y_N} \mid N) = [G(t)]^N\)
\(\E(e^{t Y_N}) = H(G(t))\)

Ecuación de Wald

El resultado en el Ejercicio 29 (b) generaliza al caso en el que el número aleatorio de términos\(N\) es un tiempo de detención para la secuencia\(\bs{X}\). Esto significa que el evento\(\{N = n\}\) depende únicamente de (técnicamente, es medible con respecto a)\((X_1, X_2, \ldots, X_n)\) para cada uno\(n \in \N\). La generalización es conocida como la ecuación de Wald, y lleva el nombre de Abraham Wald. Los tiempos de parada se estudian con mucho más detalle técnico en la sección de Filtraciones y Tiempos de Parada.

Si\(N\) es un tiempo de parada para\(\bs{X}\) entonces\(\E(Y_N) = \E(N) \mu\).

Prueba

Primero tenga en cuenta que\(Y_N = \sum_{i=1}^\infty X_i \bs{1}(i \le N)\). Pero\(\{i \le N\} = \{N \lt i\}^c\) depende sólo de\(\{X_1, \ldots, X_{i-1}\}\) y por lo tanto es independiente de\(X_i\). Por lo tanto\(\E[X_i \bs{1}(i \le N)] = \mu \P(N \ge i)\). Supongamos que\(X_i \ge 0\) para cada uno\(i\). Tomando los valores esperados término por término da la ecuación de Wald en este caso especial. El intercambio de suma y valor esperado se justifica por el teorema de convergencia monótona. Ahora la ecuación de Wald se puede establecer en general usando el teorema de convergencia dominada.

Una prueba elgante de la ecuación de Wald se da en el capítulo sobre Martingales.

Supongamos que el número de clientes que llegan a una tienda durante un día determinado tiene la distribución de Poisson con el parámetro 50. Cada cliente, independientemente de los demás (e independientemente del número de clientes), gasta una cantidad de dinero que se distribuye uniformemente en el intervalo\([0, 20]\). Encuentra la media y la desviación estándar de la cantidad de dinero que recibe la tienda durante un día.

Contestar

500, 81.65

Cuando un determinado componente crítico en un sistema falla, se reemplaza inmediatamente por un nuevo componente estadísticamente idéntico. Los componentes son independientes, y la vida útil de cada uno (en horas) se distribuye exponencialmente con el parámetro de escala\(b\). Durante la vida del sistema, el número de componentes críticos utilizados tiene una distribución geométrica\(\N_+\) con parámetro\(p\). Para la vida total del componente crítico,

Encuentra la media.
Encuentra la desviación estándar.
Encuentra la función de generación de momento.
Identificar la distribución por nombre.

Contestar

\(b / p\)
\(b / p\)
\(t \mapsto \frac{1}{1 - (b/p)t}\)
Distribución exponencial con parámetro de escala\(b / p\)