Saltar al contenido principal
LibreTexts Español

9.1: Teorema de Límite Central para Ensayos de Bernoulli

  • Page ID
    150255
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    El segundo teorema fundamental de la probabilidad es el Teorema del Límite Central. Este teorema dice que si\(S_n\) es la suma de variables aleatorias\(n\) mutuamente independientes, entonces la función de distribución de\(S_n\) está bien aproximada por un cierto tipo de función continua conocida como función de densidad normal, que viene dada por la fórmula\[f_{\mu,\sigma}(x) = \frac{1}{\sqrt {2\pi}\sigma}e^{-(x-\mu)^2/(2\sigma^2)}\ ,\] como hemos visto en Capítulo 5. En esta sección, trataremos únicamente el caso que\(\mu = 0\) y\(\sigma = 1\). Llamaremos a esta función de densidad normal particular la densidad normal estándar, y la denotaremos por\(\phi(x)\):\[\phi(x) = \frac {1}{\sqrt{2\pi}}e^{-x^2/2}\ .\] Una gráfica de esta función se da en la Figura [fig 9.0]. Se puede demostrar que el área bajo cualquier densidad normal es igual a 1.

    El Teorema del Límite Central nos dice, de manera bastante general, lo que sucede cuando tenemos la suma de un gran número de variables aleatorias independientes cada una de las cuales aporta una pequeña cantidad al total. En esta sección discutiremos este teorema tal como se aplica a los ensayos de Bernoulli y en la Sección 1.2 consideraremos procesos más generales. Discutiremos el teorema en el caso de que las variables aleatorias individuales estén distribuidas de manera idéntica, pero el teorema es cierto, bajo ciertas condiciones, incluso si las variables aleatorias individuales tienen distribuciones diferentes.

    Juicios de Bernoulli

    Considera un proceso de ensayos de Bernoulli con probabilidad\(p\) de éxito en cada ensayo. Dejar\(X_i = 1\) o 0 de acuerdo como el resultado\(i\) th es un éxito o fracaso, y dejar\(S_n = X_1 + X_2 +\cdots+ X_n\). Entonces\(S_n\) es el número de éxitos en los\(n\) ensayos. Sabemos que\(S_n\) tiene como distribución las probabilidades binomiales\(b(n,p,j)\). En la Sección 3.2, trazamos estas distribuciones para\(p = .3\) y\(p = .5\) para diversos valores de\(n\) (ver Figura [fig 3.8]).

    Observamos que los valores máximos de las distribuciones aparecieron cerca del valor esperado\(np\), lo que hace que sus gráficos de picos se desplacen hacia la derecha a medida que\(n\) aumentan. Además, estos valores máximos se acercan a 0 a medida que\(n\) aumentan, lo que hace que las gráficas de picos se aplanen.

    Sumas estandarizadas

    Podemos evitar la deriva de estas gráficas de picos restando el número esperado\(np\) de éxitos\(S_n\), obteniendo la nueva variable aleatoria\(S_n - np\). Ahora los valores máximos de las distribuciones siempre estarán cerca de 0.

    Para evitar la propagación de estas gráficas de picos, podemos normalizar\(S_n - np\) para tener varianza 1 dividiendo por su desviación estándar\(\sqrt{npq}\) (ver Ejercicio 6.2.13 y Ejercicio 6.2.17.

    El de\(S_n\) viene dado por\[S_n^* = \frac {S_n - np}{\sqrt{npq}}\ .\]\(S_n^*\) siempre tiene valor esperado 0 y varianza 1.

    Supongamos que trazamos una gráfica de picos con los picos colocados a los valores posibles de\(S_n^*\):\(x_0\)\(x_1\),,...\(x_n\), donde

    \[x_j = \frac {j - np}{\sqrt{npq}}\ . \label{eq 9.1}\]Hacemos que la altura de la espiga\(x_j\) sea igual al valor de distribución\(b(n, p, j)\). Un ejemplo de esta gráfica de picos estandarizada, con\(n = 270\) y\(p = .3\), se muestra en la Figura [fig 9.1]. Esta gráfica es bellamente en forma de campana. Nos gustaría ajustar una densidad normal a esta gráfica de picos. La elección obvia para probar es la densidad normal estándar, ya que está centrada en 0, tal como lo es la gráfica de picos estandarizada. En esta figura, hemos dibujado esta densidad normal estándar. El lector notará que ha ocurrido algo horrible: A pesar de que las formas de las dos gráficas son las mismas, las alturas son bastante diferentes.

    Si queremos que las dos gráficas se ajusten entre sí, debemos modificar una de ellas; elegimos modificar la gráfica de picos. Dado que las formas de las dos gráficas se ven bastante cercanas, intentaremos modificar la gráfica de picos sin cambiar su forma. La razón de las diferentes alturas es que la suma de las alturas de los picos es igual a 1, mientras que el área bajo la densidad normal estándar es igual a 1. Si tuviéramos que trazar una curva continua por la parte superior de los picos, y encontráramos el área bajo esta curva, vemos que obtendríamos, aproximadamente, la suma de las alturas de los picos multiplicada por la distancia entre picos consecutivos, que llamaremos\(\epsilon\). Dado que la suma de las alturas de los picos es igual a uno, el área bajo esta curva sería aproximadamente\(\epsilon\). Así, para cambiar la gráfica de picos para que el área bajo esta curva tenga valor 1, solo necesitamos multiplicar las alturas de los picos por\(1/\epsilon\). Es fácil ver a partir de la Ecuación 9.1.1 que\[\epsilon = \frac {1}{\sqrt {npq}}\ .\] En la Figura [fig 9.2] mostramos la suma estandarizada\(S^*_n\) para\(n = 270\) y\(p = .3\), después de corregir las alturas, junto con la densidad normal estándar. (Esta cifra fue producida con el programa CLTBernoulliPlot.) El lector notará que la normal estándar se ajusta extremadamente bien a la gráfica de picos corregidos en altura. De hecho, una versión del Teorema del Límite Central (ver Teorema 9.1.1) dice que a medida que\(n\) aumenta, la densidad normal estándar hará un trabajo cada vez mejor al aproximar las gráficas de picos corregidos en altura correspondientes a un proceso de ensayos de Bernoulli con\(n\) summands.

    Fijemos un valor\(x\) en el\(x\) eje -y dejemos\(n\) ser un entero positivo fijo. Entonces, usando la Ecuación [eq 9.1], el punto\(x_j\) que está más cerca\(x\) tiene un subíndice\(j\) dado por la fórmula\[j = \langle np + x \sqrt{npq} \rangle\ ,\] donde\(\langle a \rangle\) significa el entero más cercano a\(a\). Así la altura de la espiga arriba\(x_j\) será\[\sqrt{npq}\,b(n,p,j) = \sqrt{npq}\,b(n,p,\langle np + x_j \sqrt{npq} \rangle)\ .\] Para grandes\(n\), hemos visto que la altura de la espiga es muy cercana a la altura de la densidad normal en\(x\). Esto sugiere el siguiente teorema.

    Teorema\(\PageIndex{1}\)

    (Teorema de Límite Central para Distribuciones Binomiales) Para la distribución binomial\(b(n,p,j)\) tenemos\[\lim_{n \to \infty} \sqrt{npq}\,b(n,p,\langle np + x\sqrt{npq} \rangle) = \phi(x)\ ,\] donde\(\phi(x)\) está la densidad normal estándar.

    Prueba

    La prueba de este teorema se puede llevar a cabo utilizando la aproximación de Stirling de la Sección 3.1. Indicamos este método de prueba considerando el caso\(x = 0\). En este caso, el teorema establece que\[\lim_{n \to \infty} \sqrt{npq}\,b(n,p,\langle np \rangle) = \frac 1{\sqrt{2\pi}} = .3989\ldots\ .\] Para simplificar el cálculo, asumimos que\(np\) es un entero, así que eso\(\langle np \rangle = np\). Entonces\[\sqrt{npq}\,b(n,p,np) = \sqrt{npq}\,p^{np}q^{nq} \frac {n!}{(np)!\,(nq)!}\ .\] Recordemos que la fórmula de Stirling (ver Teorema 3.3) establece que\[n! \sim \sqrt{2\pi n}\,n^n e^{-n} \qquad \mbox {as \,\,\,} n \to \infty\ .\] Usando esto, tenemos\[\sqrt{npq}\,b(n,p,np) \sim \frac {\sqrt{npq}\,p^{np}q^{nq} \sqrt{2\pi n}\,n^n e^{-n}}{\sqrt{2\pi np} \sqrt{2\pi nq}\,(np)^{np} (nq)^{nq} e^{-np} e^{-nq}}\ ,\] lo que simplifica a\(1/\sqrt{2\pi}\).

    Aproximación a distribuciones binomiales

    Podemos usar Teorema\(\PageIndex{1}\) para encontrar aproximaciones para los valores de las funciones de distribución binomial. Si deseamos encontrar una aproximación para\(b(n, p, j)\), establecemos\[j = np + x\sqrt{npq}\] y resolvemos para\(x\), obteniendo\[x = {\frac{j-np}{\sqrt{npq}}}\ .\]

    Teorema dice\(\PageIndex{1}\) entonces que

    \[\sqrt{npq} ,b(n,p,j)\]

    es aproximadamente igual a\(\phi(x)\), entonces\[\begin{align} b(n,p,j) &\approx& {\frac{\phi(x)}{\sqrt{npq}}}\\ &=& {\frac{1}{\sqrt{npq}}} \phi\biggl({\frac{j-np}{\sqrt{npq}}}\biggr) \end{align}\]

    Ejemplo\(\PageIndex{1}\)

    Estimemos la probabilidad de exactamente 55 cabezas en 100 tiradas de una moneda. Para este caso\(np = 100 \cdot 1/2 = 50\) y\(\sqrt{npq} = \sqrt{100 \cdot 1/2 \cdot 1/2} = 5\). Así\(x_{55} = (55 - 50)/5 = 1\) y

    \[\begin{align} P(S_{100} = 55) \sim \frac{\phi(1)}{5} &=& \frac{1}{5} \left( \frac{1}{\sqrt{2\pi}}e^{-1/2} \right) \\ &=& .0484 \end{align}\]

    A cuatro decimales, el valor real es .0485, por lo que la aproximación es muy buena.

    El programa CLTBernoulliLocal ilustra esta aproximación para cualquier elección de\(n\),\(p\), y\(j\). Hemos corrido este programa por dos ejemplos. El primero es la probabilidad de exactamente 50 cabezas en 100 tiradas de una moneda; la estimación es .0798, mientras que el valor real, a cuatro decimales, es .0796. El segundo ejemplo es la probabilidad de exactamente ocho seises en 36 rollos de un dado; aquí la estimación es .1093, mientras que el valor real, a cuatro decimales, es .1196.

    Las probabilidades binomiales individuales tienden a 0 como\(n\) tienden al infinito. En la mayoría de las aplicaciones no nos interesa la probabilidad de que ocurra un resultado específico, sino más bien en la probabilidad de que el resultado se encuentre en un intervalo dado, digamos el intervalo\([a, b]\). Para encontrar esta probabilidad, agregamos las alturas de las gráficas de picos para valores de\(j\) entre\(a\) y\(b\). Esto es lo mismo que pedir la probabilidad de que la suma estandarizada\(S_n^*\) se encuentre entre\(a^*\) y\(b^*\), donde\(a^*\) y\(b^*\) son los valores estandarizados de\(a\) y\(b\). Pero como\(n\) tiende al infinito, se podría esperar que la suma de estas áreas se acercara al área bajo la densidad normal estándar entre\(a^*\) y\(b^*\). El afirma que esto sí sucede.

    Teorema\(\PageIndex{2}\)

    Teorema de Límite Ce ntral para Ensayos de Bernoulli) Dejar\(S_n\) ser el número de éxitos en los ensayos de\(n\) Bernoulli con probabilidad\(p\) de éxito,\(a\) y dejar y\(b\) ser dos números reales fijos. Entonces\[\lim_{n \rightarrow \infty} P\biggl(a \le \frac{S_n - np}{\sqrt{npq}} \le b\biggr) = \int_a^b \phi(x)\,dx\ .\]

    Prueba

    Este teorema se puede probar sumando las aproximaciones a\(b(n,p,k)\) dadas en el Teorema 9.1.1.

    Sabemos por cálculo que la integral en el lado derecho de esta ecuación es igual al área bajo la gráfica de la densidad normal estándar\(\phi(x)\) entre\(a\) y\(b\). Denotamos esta zona por\(\NA(a^*, b^*)\). Desafortunadamente, no hay una manera sencilla de integrar la función\(e^{-x^2/2}\), por lo que debemos usar una tabla de valores o bien un programa de integración numérica. (Ver Figura [tabl 9.1] para los valores de\(\NA(0, z)\). Una tabla más extensa se da en el Apéndice A.)

    Es claro a partir de la simetría de la densidad normal estándar que áreas como la comprendida entre\(-2\) y 3 se pueden encontrar de esta tabla agregando el área de 0 a 2 (igual que la de\(-2\) a 0) al área de 0 a 3.

    Aproximación de Probabilidades Binomiales

    Supongamos que\(S_n\) se distribuye binomialmente con parámetros\(n\) y\(p\). Hemos visto que el teorema anterior muestra cómo estimar una probabilidad de la forma\[P(i \le S_n \le j)\ , \label{eq 9.2}\] donde\(i\) y\(j\) son enteros entre 0 y\(n\). Como hemos visto, la distribución binomial se puede representar como una gráfica de picos, con picos en los números enteros entre 0 y\(n\), y con la altura del pico\(k\) th dada por\(b(n, p, k)\). Para valores de tamaño moderado de\(n\), si estandarizamos esta gráfica de picos, y cambiamos las alturas de sus picos, de la manera descrita anteriormente, la suma de las alturas de los picos se aproxima por el área bajo la densidad normal estándar entre\(i^*\) y\(j^*\). Resulta que una aproximación ligeramente más precisa es proporcionada por el área bajo la densidad normal estándar entre los valores estandarizados correspondientes a\((i - 1/2)\) y\((j + 1/2)\); estos valores son

    \[i^* = \frac{i - 1/2 - np}{\sqrt {npq}}\]y\[j^* = \frac{j + 1/2 - np}{\sqrt {npq}}\ .\] Por lo tanto,\[P(i \le S_n \le j) \approx \NA\Biggl({\frac{i - \frac{1}{2} - np}{\sqrt {npq}}} , {\frac{j + {\frac{1}{2}} - np}{\sqrt {npq}}}\Biggr)\ .\]

    Cabe destacar que las aproximaciones obtenidas mediante el uso del Teorema del Límite Central son sólo aproximaciones, y en ocasiones no son muy cercanas a los valores reales (ver Ejercicio 9.2.111).

    Ahora ilustramos esta idea con algunos ejemplos.

    Ejemplo\(\PageIndex{2}\)

    Una moneda es arrojada 100 veces. Estimar la probabilidad de que el número de cabezas esté entre 40 y 60 (la palabra “entre” en matemáticas significa inclusivo de los puntos finales). El número esperado de cabezas es\(100 \cdot 1/2 = 50\), y la desviación estándar para el número de cabezas es\(\sqrt{100 \cdot 1/2 \cdot 1/2} = 5\). Así, ya que\(n = 100\) es razonablemente grande, tenemos\[\begin{aligned} P(40 \le S_n \le 60) &\approx& P\left( \frac {39.5 - 50}5 \le S_n^* \le \frac {60.5 - 50}5 \right) \\ &=& P(-2.1 \le S_n^* \le 2.1) \\ &\approx& \NA(-2.1,2.1) \\ &=& 2\NA(0,2.1) \\ &\approx& .9642\ . \end{aligned}\] El valor real es .96480, a cinco decimales.

    Tenga en cuenta que en este caso estamos pidiendo la probabilidad de que el resultado no se desvíe en más de dos desviaciones estándar del valor esperado. Si hubiéramos preguntado por la probabilidad de que el número de éxitos esté entre 35 y 65, esto habría representado tres desviaciones estándar de la media, y, utilizando nuestra corrección 1/2, nuestra estimación sería el área bajo la curva normal estándar entre\(-3.1\) y 3.1, o\(2\NA(0,3.1) = .9980\). La respuesta real en este caso, a cinco lugares, es .99821.

    Es importante trabajar algunos problemas a mano para entender la conversión de una desigualdad dada a una desigualdad relacionada con la variable estandarizada. Después de esto, uno puede entonces usar un programa de computadora que lleve a cabo esta conversión, incluyendo la corrección 1/2. El programa CLTBernoulliGlobal es un programa de este tipo para estimar las probabilidades de la forma\(P(a \leq S_n \leq b)\).

    Ejemplo\(\PageIndex{3}\)

    A Dartmouth College le gustaría tener 1050 estudiantes de primer año. Este colegio no tiene capacidad para más de 1060. Supongamos que cada aspirante acepta con probabilidad .6 y que las aceptaciones pueden ser modelizadas por los ensayos de Bernoulli. Si el colegio acepta 1700, ¿cuál es la probabilidad de que tenga demasiadas aceptaciones?

    Si acepta 1700 alumnos, el número esperado de alumnos que se matriculan es\(.6 \cdot 1700 = 1020\). La desviación estándar para el número que aceptan es\(\sqrt{1700 \cdot .6 \cdot .4} \approx 20\). Así queremos estimar la probabilidad\[\begin{aligned} P(S_{1700} > 1060) &=& P(S_{1700} \ge 1061) \\ &=& P\left( S_{1700}^* \ge \frac {1060.5 - 1020}{20} \right) \\ &=& P(S_{1700}^* \ge 2.025)\ .\end{aligned}\]

    A partir de la Tabla [tabl 9.1], si interpolamos, estimaríamos que esta probabilidad es\(.5 - .4784 = .0216\). Así, el colegio es bastante seguro utilizando esta política de admisión.

    Aplicaciones a la Estadística

    Hay muchas preguntas importantes en el campo de la estadística que pueden ser respondidas usando el Teorema de Límite Central para procesos de ensayos independientes. El siguiente ejemplo es uno que se encuentra con bastante frecuencia en las noticias. Otro ejemplo de una aplicación del Teorema de Límite Central a la estadística se da en la Sección 1.2.

    Ejemplo\(\PageIndex{4}\)

    Se lee frecuentemente que se ha realizado una encuesta para estimar la proporción de personas en cierta población que favorecen a un candidato sobre otro en una carrera con dos candidatos. (Este modelo también se aplica a las carreras con más de dos candidatos\(A\) y\(B\), y dos proposiciones electorales). Claramente, no es posible que los encuestadores pidan a todos su preferencia. Lo que se hace en cambio es escoger un subconjunto de la población, llamado muestra, y preguntar a todos en la muestra su preferencia. \(p\)Sea la proporción real de personas en la población que estén a favor de candidato\(A\) y dejen\(q = 1-p\). Si elegimos una muestra de tamaño\(n\) de la población, las preferencias de las personas en la muestra pueden ser representadas por variables aleatorias\(X_1,\ X_2,\ \ldots,\ X_n\), donde\(X_i = 1\) si persona\(i\) está a favor del candidato\(A\), y\(X_i = 0\) si persona\(i\) está a favor del candidato \(B\). Vamos\(S_n = X_1 + X_2 + \cdots + X_n\). Si cada subconjunto de tamaño\(n\) se elige con la misma probabilidad, entonces\(S_n\) se distribuye hipergeométricamente. Si\(n\) es pequeño en relación con el tamaño de la población (que suele ser cierto en la práctica), entonces\(S_n\) se distribuye aproximadamente binomialmente, con parámetros\(n\) y\(p\).

    El encuestador quiere estimar el valor\(p\). Una estimación para\(p\) es proporcionada por el valor\(\bar p = S_n/n\), que es la proporción de personas en la muestra que favorecen a candidato\(B\). El Teorema del Límite Central dice que la variable aleatoria\(\bar p\) se distribuye aproximadamente normalmente. (De hecho, nuestra versión del Teorema del Límite Central dice que la función de distribución de la variable aleatoria\[S_n^* = \frac{S_n - np}{\sqrt{npq}}\] se aproxima por la densidad normal estándar). Pero tenemos\[\bar p = \frac{S_n - np}{\sqrt {npq}}\sqrt{\frac{pq}{n}}+p\ ,\] es decir,\(\bar p\) es sólo una función lineal de\(S_n^*\). Dado que la distribución de\(S_n^*\) es aproximada por la densidad normal estándar, la distribución de la variable aleatoria también\(\bar p\) debe tener forma de campana. También sabemos escribir la media y desviación estándar de\(\bar p\) en términos de\(p\) y\(n\). La media de\(\bar p\) es justa\(p\), y la desviación estándar es\[\sqrt{\frac{pq}{n}}\ .\] Así, es fácil anotar la versión estandarizada de\(\bar p\); es\[\bar p^* = \frac{\bar p - p}{\sqrt{pq/n}}\ .\]

    Dado que la distribución de la versión estandarizada de\(\bar p\) es aproximada por la densidad normal estándar, sabemos, por ejemplo, que 95% de sus valores estarán dentro de dos desviaciones estándar de su media, y lo mismo es cierto de\(\bar p\). Así que tenemos\[P\left(p - 2\sqrt{\frac{pq}{n}} < \bar p < p + 2\sqrt{\frac{pq}{n}}\right) \approx .954\ .\] Ahora el encuestador no sabe\(p\) o\(q\), pero puede usar\(\bar p\) y\(\bar q = 1 - \bar p\) en su lugar sin demasiado peligro. Con esta idea en mente, la sentencia anterior es equivalente a la sentencia\[P\left(\bar p - 2\sqrt{\frac{\bar p \bar q}{n}} < p < \bar p + 2\sqrt{\frac{\bar p \bar q}{n}}\right) \approx .954\ .\] El intervalo resultante\[\left( \bar p - \frac {2\sqrt{\bar p \bar q}}{\sqrt n},\ \bar p + \frac {2\sqrt{\bar p \bar q}}{\sqrt n} \right)\] se llama el para el valor desconocido de\(p\). El nombre se sugiere por el hecho de que si utilizamos este método para estimar\(p\) en un gran número de muestras debemos esperar que en aproximadamente el 95 por ciento de las muestras el valor verdadero de\(p\) esté contenido en el intervalo de confianza obtenido de la muestra. En Ejercicio se\(\PageIndex{11}\) le pide que escriba un programa para ilustrar que esto efectivamente sucede.

    El encuestador tiene control sobre el valor de\(n\). Así, si quiere crear un intervalo de confianza del 95% con longitud 6%, entonces debe elegir un valor de\(n\) para que\[\frac {2\sqrt{\bar p \bar q}}{\sqrt n} \le .03\ .\] Utilizando el hecho de que\(\bar p \bar q \le 1/4\), no importa cuál sea el valor de,\(\bar p\) es fácil demostrar que si elige un valor de\(n\) para que\[\frac{1}{\sqrt n} \le .03\ ,\] esté a salvo. Esto equivale a elegir\[n \ge 1111\ .\] Entonces, si el encuestador elige\(n\) ser 1200, digamos, y calcula\(\bar p\) usando su muestra de tamaño 1200, entonces 19 veces de 20 (es decir, 95% del tiempo), su intervalo de confianza, que es de longitud 6%, contendrá el verdadero valor de\(p\). Este tipo de intervalo de confianza suele reportarse en las noticias de la siguiente manera: esta encuesta tiene un margen de error del 3%. De hecho, la mayoría de las encuestas que se ven reportadas en el artículo tendrán tamaños de muestra alrededor de 1000. Un dato algo sorprendente es que el tamaño de la población aparentemente no tiene efecto sobre el tamaño de la muestra necesario para obtener un intervalo de confianza del 95% para\(p\) con un margen de error dado. Para ver esto, tenga en cuenta que el valor de\(n\) lo que se necesitaba dependía únicamente del número .03, que es el margen de error. Es decir, ya sea que la población sea de tamaño 100, 000 o 100, 000, 000, 000, el encuestador sólo necesita elegir una muestra de tamaño 1200 aproximadamente para obtener la misma precisión de estimación de\(p\). (Se utilizó el hecho de que el tamaño de la muestra era pequeño en relación con el tamaño de la población en el comunicado que\(S_n\) se distribuye aproximadamente binomialmente).

    En la Figura [fig 9.2.1], se muestran los resultados de la simulación del proceso de sondeo. La población es de tamaño 100, 000, y para la población,\(p = .54\). El tamaño de la muestra se eligió para ser 1200. El gráfico de picos muestra la distribución\(\bar p\) de 10, 000 muestras elegidas aleatoriamente. Para esta simulación, el programa realizó un seguimiento del número de muestras para las cuales\(\bar p\) estuvo dentro de 3% de .54. Este número fue 9648, lo que es cercano al 95% del número de muestras utilizadas.

    Otra forma de ver lo que significa la idea de intervalos de confianza se muestra en la Figura [fig 9.2.2]. En esta figura, se muestran 100 intervalos de confianza, obtenidos calculando\(\bar p\) para 100 muestras diferentes de tamaño 1200 de la misma población que antes. El lector puede ver que la mayoría de estos intervalos de confianza (96, para ser exactos) contienen el verdadero valor de\(p\).

    La Encuesta Gallup ha utilizado estas técnicas de sondeo en todas las elecciones presidenciales desde 1936 (y también en innumerables otras elecciones). En el cuadro [cuadro 9.1] 1 se muestran los resultados de sus esfuerzos. El lector notará que la mayoría de las aproximaciones a\(p\) están dentro del 3% del valor real de\(p\). Los tamaños de muestra para estas encuestas fueron típicamente alrededor de 1500. (En la tabla, tanto los porcentajes pronosticados como los reales para el candidato ganador se refieren al porcentaje del voto entre los partidos políticos “principales”. En la mayoría de las elecciones hubo dos partidos principales, pero en varias elecciones, hubo tres.)

    Registro de precisión de Gallup Poll.
    Año \(\,\)Ganar Final de Gallup Elección Desviación
    Candidato Encuesta Resultado
    1936 Roosevelt 55.7% 62.5% 6.8%
    1940 Roosevelt 52.0% 55.0% 3.0%
    1944 Roosevelt 51.5% 53.3% 1.8%
    1948 Truman 44.5% 49.9% 5.4%
    1952 Eisenhower 51.0% 55.4% 4.4%
    1956 Eisenhower 59.5% 57.8% 1.7%
    1960 Kennedy 51.0% 50,1% 0.9%
    1964 Johnson 64.0% 61.3% 2.7%
    1968 Nixon 43.0% 43.5% 0.5%
    1972 Nixon 62.0% 61.8% 0.2%
    1976 Carter 48.0% 50.0% 2.0%
    1980 Reagan 47.0% 50.8% 3.8%
    1984 Reagan 59.0% 59.1% 0.1%
    1988 Bush 56.0% 53.9% 2.1%
    1992 Clinton 49.0% 43.2% 5.8%
    1996 Clinton 52.0% 50,1% 1.9%

    Esta técnica también juega un papel importante en la evaluación de la efectividad de los medicamentos en la profesión médica. Por ejemplo, a veces se desea saber qué proporción de pacientes será ayudada por un nuevo medicamento. Esta proporción se puede estimar administrando el medicamento a un subconjunto de los pacientes, y determinando la proporción de esta muestra que son ayudados por el medicamento.

    Observaciones Históricas

    El teorema del límite central para los ensayos de Bernoulli fue probado por primera vez por Abrahamde Moivre y apareció en su libro, publicado por primera vez en 1718. 2

    De Moivre pasó sus años de 18 a 21 años en prisión en Francia debido a su origen protestante. Al ser liberado salió de Francia hacia Inglaterra, donde trabajó como tutor de los hijos de nobles. Newton había presentado una copia suya al conde de Devonshire. Cuenta la historia que, mientras de Moivre estaba dando clases particulares en la casa del conde, se encontró con la obra de Newton y descubrió que estaba más allá de él. Se dice que luego compró una copia propia y la rasgó en páginas separadas, aprendiéndola página por página mientras caminaba por Londres hacia sus trabajos de tutoría. De Moivre frecuentaba las cafeteras de Londres, donde inició su trabajo probabilístico calculando cuotas para los jugadores. También conoció a Newton en una cafetería así y se hicieron amigos rápidamente. De Moivre dedicó su libro a Newton.

    proporciona las técnicas para resolver una amplia variedad de problemas de juego. En medio de estos problemas de juego de Moivre más bien modestamente introduce su prueba del Teorema del Límite Central, escribiendo

    Un Método de aproximación de la Suma de los Términos del Binomio\((a + b)^n\) ampliado en una Serie, de donde se deducen algunas Reglas prácticas para estimar el Grado de Aentimiento que se va a dar a los Experimentos. 3

    La prueba de De Moivre utilizó la aproximación a factoriales que ahora llamamos la fórmula de Stirling. De Moivre afirma que había obtenido esta fórmula antes de Stirling pero sin determinar el valor exacto de la constante\(\sqrt{2\pi}\). Si bien dice que no es realmente necesario conocer este valor exacto, reconoce que conocerlo “ha difundido una Elegancia singular en la Solución”.

    La prueba completa y una interesante discusión de la vida de de Moivre se puede encontrar en el libro de F. N. David. 4

    Ejercicio\(\PageIndex{1}\)

    \(S_{100}\)Sea el número de cabezas que aparecen en 100 tiradas de una moneda justa. Usar el Teorema del Límite Central para estimar

    1. \(P(S_{100} \leq 45)\).

    2. \(P(45 < S_{100} < 55)\).

    3. \(P(S_{100} > 63)\).

    4. \(P(S_{100} < 57)\).

    Ejercicio\(\PageIndex{2}\)

    \(S_{200}\)Sea el número de cabezas que aparecen en 200 tiradas de una moneda justa. Estimar

    1. \(P(S_{200} = 100)\).

    2. \(P(S_{200} = 90)\).

    3. \(P(S_{200} = 80)\).

    Ejercicio\(\PageIndex{3}\)

    Un examen verdadero-falso tiene 48 preguntas. Junio tiene probabilidad 3/4 de responder una pregunta correctamente. Abril solo adivina sobre cada pregunta. Una puntuación de aprobación es de 30 o más respuestas correctas. Compara la probabilidad de que junio apruebe el examen con la probabilidad de que April lo apruebe.

    Ejercicio\(\PageIndex{4}\)

    \(S\)Sea el número de cabezas en 1, 000, 000 tiradas de una moneda justa. Utilice (a) la desigualdad de Chebyshev, y (b) el Teorema del Límite Central, para estimar la probabilidad que\(S\) se encuentra entre 499, 500 y 500, 500. Utilice los mismos dos métodos para estimar la probabilidad que\(S\) se encuentra entre 499, 000 y 501, 000, y la probabilidad que\(S\) se encuentra entre 498, 500 y 501, 500.

    Ejercicio\(\PageIndex{5}\)

    Un novato es llevado a un club de béisbol bajo el supuesto de que tendrá un promedio de bateo .300. (El promedio de bateo es la relación entre el número de golpes y el número de veces al bate). En el primer año, llega a batear 300 veces y su promedio de bateo es .267. Supongamos que su a los murciélagos puede considerarse ensayos de Bernoulli con probabilidad .3 para el éxito. ¿Podría considerarse un promedio tan bajo solo mala suerte o debería ser enviado de regreso a las ligas menores? Comentar sobre el supuesto de juicios de Bernoulli en esta situación.

    Ejercicio\(\PageIndex{6}\)

    Érase una vez, dos trenes ferroviarios compitiendo por el tráfico de pasajeros de 1000 personas que salían de Chicago a la misma hora y se dirigían a Los Ángeles. Supongamos que es igualmente probable que los pasajeros elijan cada tren. ¿Cuántos asientos debe tener un tren para asegurar una probabilidad de .99 o mejor de tener un asiento para cada pasajero?

    Ejercicio\(\PageIndex{7}\)

    Supongamos que, como en Ejemplo\(\PageIndex{3}\), Dartmouth admite 1750 alumnos. ¿Cuál es la probabilidad de demasiadas aceptaciones?

    Ejercicio\(\PageIndex{8}\)

    Un club sirve la cena solo a los socios. Están sentados en mesas de 12 asientos. El directivo observa a lo largo de un largo periodo de tiempo que el 95 por ciento del tiempo hay entre seis y nueve mesas completas de miembros, y el resto del tiempo es igualmente probable que los números caigan por encima o por debajo de este rango. Supongamos que cada miembro decide venir con una probabilidad dada\(p\), y que las decisiones son independientes. ¿Cuántos miembros hay? ¿Qué es\(p\)?

    Ejercicio\(\PageIndex{9}\)

    \(S_n\)Sea el número de éxitos en los ensayos de\(n\) Bernoulli con probabilidad .8 para el éxito en cada ensayo. \(A_n = S_n/n\)Sea el promedio de éxitos. En cada caso da el valor para el límite, y da una razón para tu respuesta.

    1. \(\lim_{n \to \infty} P(A_n = .8)\).

    2. \(\lim_{n \to \infty} P(.7n < S_n < .9n)\).

    3. \(\lim_{n \to \infty} P(S_n < .8n + .8\sqrt n)\).

    4. \(\lim_{n \to \infty} P(.79 < A_n < .81)\).

    Ejercicio\(\PageIndex{10}\)

    Encuentra la probabilidad de que entre 10, 000 dígitos aleatorios el dígito 3 aparezca no más de 931 veces.

    Ejercicio\(\PageIndex{11}\)

    Escribir un programa de computadora para simular 10, 000 ensayos de Bernoulli con probabilidad .3 para el éxito en cada ensayo. Haga que el programa calcule el intervalo de confianza del 95 por ciento para la probabilidad de éxito en función de la proporción de éxitos. Repita el experimento 100 veces y vea cuántas veces se incluye el valor verdadero de .3 dentro de los límites de confianza.

    Ejercicio\(\PageIndex{12}\)

    Una moneda balanceada es volteada 400 veces. Determinar el número de\(x\) tal manera que la probabilidad de que el número de cabezas esté entre\(200 - x\) y\(200 + x\) sea aproximadamente .80.

    Ejercicio\(\PageIndex{13}\)

    Una máquina de fideos en la fábrica de espaguetis de Spumoni hace alrededor del 5 por ciento de fideos defectuosos incluso cuando se ajustan correctamente Luego, los fideos se envasan en cajas que contienen 1900 fideos cada una. Se examina una caja y se encuentra que contiene 115 fideos defectuosos. ¿Cuál es la probabilidad aproximada de encontrar al menos tantos fideos defectuosos si la máquina está ajustada correctamente?

    Ejercicio\(\PageIndex{14}\)

    Un restaurante alimenta a 400 clientes por día. En promedio 20 por ciento de los clientes pide tarta de manzana.

    1. Dar un rango (llamado intervalo de confianza del 95 por ciento) para el número de trozos de pastel de manzana ordenados en un día determinado de tal manera que pueda estar 95 por ciento seguro de que el número real caerá en este rango.

    2. ¿Cuántos clientes debe tener el restaurante, en promedio, para estar al menos 95 por ciento seguro de que el número de clientes que piden pastel ese día cae en el rango del 19 al 21 por ciento?

    Ejercicio\(\PageIndex{15}\)

    Recordemos que si\(X\) es una variable aleatoria, el de\(X\) es la función\(F(x)\) definida por\[F(x) = P(X \leq x)\ .\]

    1. \(S_n\)Sea el número de éxitos en los ensayos de\(n\) Bernoulli con probabilidad\(p\) de éxito. Escribir un programa para trazar la distribución acumulativa para\(S_n\).

    2. Modifique su programa en (a) para trazar la distribución acumulativa\(F_n^*(x)\) de la variable aleatoria estandarizada\[S_n^* = \frac {S_n - np}{\sqrt{npq}}\ .\]

    3. Definir el\(N(x)\) para ser el área bajo la curva normal hasta el valor\(x\). Modifique su programa en (b) para trazar también la distribución normal, y compararlo con la distribución acumulativa de\(S_n^*\). Haz esto por\(n = 10, 50\), y\(100\).

    Ejercicio\(\PageIndex{16}\)

    En el Ejemplo 3.12, nos interesó probar la hipótesis de que una nueva forma de aspirina es efectiva el 80 por ciento del tiempo en lugar del 60 por ciento del tiempo según lo reportado para la aspirina estándar. La nueva aspirina se le da a\(n\) las personas. Si es efectivo en\(m\) o más casos, aceptamos la afirmación de que el nuevo medicamento es efectivo el 80 por ciento de las veces y si no rechazamos el reclamo. Usando el Teorema del Límite Central, demuestre que se puede elegir el número de ensayos\(n\) y el valor crítico\(m\) para que la probabilidad de que rechacemos la hipótesis cuando es verdadera sea menor que .01 y la probabilidad de que la aceptemos cuando es falsa también sea menor que .01. Encontrar el valor más pequeño de\(n\) eso será suficiente para ello.

    Ejercicio\(\PageIndex{17}\)

    En una encuesta de opinión se supone que una proporción desconocida\(p\) de las personas está a favor de una nueva ley propuesta y una proporción\(1-p\) está en contra de ella. Se toma una muestra de\(n\) personas para obtener su opinión. La proporción a favor\({\bar p}\) en la muestra se toma como estimación de\(p\). Usando el Teorema de Límite Central, determinar qué tan grande una muestra asegurará que la estimación, con probabilidad .95, sea correcta dentro de .01.

    Ejercicio\(\PageIndex{18}\)

    Una descripción de una encuesta en cierto periódico dice que uno puede estar 95% seguro de que el error por muestreo no será mayor que más o menos 3 puntos porcentuales. Una encuesta en el New York Times tomada en Iowa dice que “según la teoría estadística, en 19 de 20 casos los resultados basados en tales muestras diferirán en no más de 3 puntos porcentuales en cualquier dirección de lo que se habría obtenido al entrevistar a todos los adultos de Iowa”. Ambos son intentos de explicar el concepto de intervalos de confianza. ¿Ambas declaraciones dicen lo mismo? Si no, ¿cuál crees que es la descripción más precisa?


    This page titled 9.1: Teorema de Límite Central para Ensayos de Bernoulli is shared under a GNU Free Documentation License 1.3 license and was authored, remixed, and/or curated by Charles M. Grinstead & J. Laurie Snell (American Mathematical Society) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.