7.1: El teorema del límite central para las medias muestrales

Última actualización
Guardar como PDF

Page ID: 150982

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

La distribución muestral es una distribución teórica. Se crea tomando muchas muchas muestras de tamaño\(n\) de una población. Cada media muestral se trata como una sola observación de esta nueva distribución, la distribución muestral. El genio de pensar de esta manera es que reconoce que cuando probamos estamos creando una observación y esa observación debe provenir de alguna distribución particular. El Teorema del Límite Central responde a la pregunta: ¿de qué distribución vino la media de una muestra? Si se descubre esto, entonces podemos tratar una media de muestra como cualquier otra observación y calcular probabilidades sobre qué valores podría tomar. Efectivamente, hemos pasado del mundo de la estadística donde solo sabemos lo que tenemos de la muestra, al mundo de la probabilidad donde conocemos la distribución de la que vino la media de la muestra y los parámetros de esa distribución.

Las razones por las que se muestrea una población son obvias. El tiempo y gasto de verificar cada factura para determinar su validez o cada envío para ver si contiene todos los artículos bien puede exceder el costo de los errores en la facturación o envío. Para algunos productos, el muestreo requeriría destruirlos, llamado muestreo destructivo. Un ejemplo de ello es medir la capacidad de un metal para resistir la corrosión del agua salada para piezas en embarcaciones oceánicas.

Por lo tanto, el muestreo plantea una cuestión importante; justamente qué muestra se extrajo. Aunque la muestra se haya dibujado al azar, teóricamente hay un número casi infinito de muestras. Con solo 100 artículos, hay más de 75 millones de muestras únicas de talla cinco que se pueden extraer. Si hay seis en la muestra, el número de muestras posibles aumenta a apenas más de mil millones. De los 75 millones de muestras posibles, entonces, ¿cuál obtuviste? Si hay variación en los ítems a muestrear, habrá variación en las muestras. Se podría sacar una muestra “desafortunada” y sacar conclusiones muy equivocadas respecto a la población. Este reconocimiento de que cualquier muestra que extraemos es realmente solo una de una distribución de muestras nos proporciona lo que probablemente sea el teorema más importante es la estadística: el Teorema del Límite Central. Sin el Teorema del Límite Central sería imposible proceder a la estadística inferencial a partir de la teoría de probabilidad simple. En su forma más básica, el Teorema del Límite Central establece que independientemente de la función de densidad de probabilidad subyacente de los datos poblacionales, la distribución teórica de las medias de muestras de la población se distribuirá normalmente. En esencia, esto dice que la media de una muestra debe tratarse como una observación extraída de una distribución normal. El Teorema del Límite Central solo se mantiene si el tamaño de la muestra es “lo suficientemente grande” que se ha demostrado que es de solo 30 observaciones o más.

La Figura 7.2 muestra gráficamente esta proposición tan importante.

Observe que el eje horizontal en el panel superior está etiquetado\(X\). Estas son las observaciones individuales de la población. Esta es la distribución desconocida de los valores poblacionales. El gráfico se dibuja a propósito todo squiggly para mostrar que no importa lo extraña que sea realmente la pelota. Recuerda, nunca sabremos cómo es esta distribución, ni su media o desviación estándar para el caso.

El eje horizontal en el panel inferior está\(\overline{X}\) etiquetado's, esta es la distribución teórica llamada distribución muestral de las medias. Cada observación sobre esta distribución es una media muestral. Todas estas medias de muestra se calcularon a partir de muestras individuales con el mismo tamaño de muestra. La distribución teórica del muestreo contiene todos los valores medios muestrales de todas las muestras posibles que podrían haberse tomado de la población. Por supuesto, nadie realmente tomaría todas estas muestras, pero si lo hicieran así es como se verían. Y el Teorema del Límite Central dice que normalmente se distribuirán.

El Teorema del Límite Central va aún más allá y nos dice la media y desviación estándar de esta distribución teórica.

Cuadro 7.1
Parámetro	Distribución de la población	Muestra	Distribución de muestreo de\(\overline{X}\)'s
Media	\(\mu\)	\(\overline{X}\)	\ (\ overline {X}\)'s” style="vertical-align:middle; ">\(\mu_{\overline{x}} \text { and } \mathrm{E}\left(\mu_{\overline{x}}\right)=\mu\)
Desviación estándar	\(\sigma\)	\(s\)	\ (\ overline {X}\)'s” style="vertical-align:middle; ">\(\sigma_{\overline{x}}=\frac{\sigma}{\sqrt{n}}\)

El significado práctico de El teorema del límite central es que ahora podemos calcular las probabilidades de dibujar una media muestral\(\overline{X}\), de la misma manera que hicimos para dibujar observaciones específicas,\(X\)'s, cuando conocíamos la media poblacional y la desviación estándar y que los datos poblacionales eran normalmente distribuido.. Se tiene que modificar la fórmula estandarizadora para reconocer que la media y desviación estándar de la distribución muestral, en ocasiones, denominada error estándar de la media, son diferentes a las de la distribución poblacional, pero por lo demás nada ha cambiado. La nueva fórmula estandarizadora es

\[Z=\frac{\overline{X}-\mu_{\overline{X}}}{\sigma_{\overline{X}}}=\frac{\overline{X}-\mu}{\frac{\sigma}{\sqrt{n}}}\nonumber\]

Observe que\(\mu_{\overline{X}}\) en la primera fórmula se ha cambiado a simplemente\(\mu\) en la segunda versión. El motivo es que matemáticamente se puede demostrar que el valor esperado de\(\mu_{\overline{X}}\) es igual a\(\mu\). Esto se indicó en el Cuadro 7.1 anterior. Matemáticamente, el\(E(x)\) símbolo leía el “valor esperado de\(x\)”. Esta fórmula se utilizará en la siguiente unidad para proporcionar estimaciones del parámetro de población desconocido\(\mu\).