Saltar al contenido principal
LibreTexts Español

8.2: Un Intervalo de Confianza para Desviación Estándar de Población Desconocido, Caso de Muestra Pequeña

  • Page ID
    150605
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    En la práctica, rara vez conocemos la desviación estándar de la población. En el pasado, cuando el tamaño de la muestra era grande, esto no presentaba ningún problema a los estadísticos. Utilizaron la desviación estándar de la muestra s como estimación\(\sigma\) y procedieron como antes para calcular un intervalo de confianza con resultados lo suficientemente cercanos. Esto es lo que hicimos en Ejemplo\(\PageIndex{4}\) anterior. La estimación puntual para la desviación estándar,\(s\), se sustituyó en la fórmula para el intervalo de confianza para la desviación estándar poblacional. En este caso hay 80 observaciones muy por encima de las 30 observaciones sugeridas para eliminar cualquier sesgo de una muestra pequeña. Sin embargo, los estadísticos tuvieron problemas cuando el tamaño de la muestra era pequeño. Un pequeño tamaño muestral causó imprecisiones en el intervalo de confianza.

    William S. Goset (1876—1937) de la cervecería Guinness en Dublín, Irlanda, se encontró con este problema. Sus experimentos con lúpulo y cebada produjeron muy pocas muestras. El solo reemplazo\(\sigma\) por\(s\) no produjo resultados precisos cuando intentó calcular un intervalo de confianza. Se dio cuenta de que no podía usar una distribución normal para el cálculo; encontró que la distribución real depende del tamaño de la muestra. Este problema lo llevó a “descubrir” lo que se llama la distribución t del Estudiante. El nombre proviene del hecho de que Gosset escribió bajo el seudónimo “Un estudiante”.

    Hasta mediados de la década de 1970, algunos estadísticos utilizaron la aproximación de distribución normal para tamaños de muestra grandes y utilizaron la distribución t de Student solo para tamaños de muestra de como máximo 30 observaciones.

    Si se dibuja una muestra aleatoria simple de tamaño\(n\) de una población con desviación estándar media\(\mu\) y desconocida de población\(\sigma\) y se calcula la puntuación t

    \[t=\frac{\overline{x}-\mu}{\left(\frac{s}{\sqrt{n}}\right)}\]

    entonces los puntajes t siguen una distribución t de Student con\(\bf{n – 1}\) grados de libertad. La puntuación t tiene la misma interpretación que la puntuación z. Mide qué tan lejos\(\overline x\) está en unidades de desviación estándar de su media\ mu. Para cada tamaño de muestra\(n\), hay una distribución t de Student diferente.

    Los grados de libertad,\(\bf{n – 1}\), provienen del cálculo de la desviación estándar de la muestra\(\bf{s}\). Recuerde que cuando calculamos por primera vez una desviación estándar de la muestra dividimos la suma de las desviaciones cuadradas por\(n – 1\), pero usamos\(n\) desviaciones (\(\overline x\)valores) para calcular\(\bf{s}\). Debido a que la suma de las desviaciones es cero, podemos encontrar la última desviación una vez que conocemos las otras\(\bf{n – 1}\) desviaciones. Las otras\(\bf{n – 1}\) desviaciones pueden cambiar o variar libremente. Llamamos al número\(\bf{n – 1}\) los grados de libertad (\(df\)) en reconocimiento de que uno se pierde en los cálculos. El efecto de perder un grado de libertad es que el valor t aumenta y el intervalo de confianza aumenta en ancho.

    Propiedades de la distribución T del estudiante

    • La gráfica para la distribución t de Student es similar a la curva normal estándar y a infinitos grados de libertad es la distribución normal. Puede confirmar esto leyendo la línea de fondo en infinitos grados de libertad para un nivel familiar de confianza, por ejemplo, en la columna 0.05, nivel de confianza del 95%, encontramos el valor t de 1.96 en grados infinitos de libertad.
    • La media para la distribución t de Student es cero y la distribución es simétrica alrededor de cero, nuevamente como la distribución normal estándar.
    • La distribución t de Student tiene más probabilidad en sus colas que la distribución normal estándar porque el spread de la distribución t es mayor que el spread de la normal estándar. Por lo que la gráfica de la distribución t de Student será más gruesa en las colas y más corta en el centro que la gráfica de la distribución normal estándar.
    • La forma exacta de la distribución t del Estudiante depende de los grados de libertad. A medida que aumentan los grados de libertad, la gráfica de la distribución t de Student se vuelve más parecida a la gráfica de la distribución normal estándar.
    • Se supone que la población subyacente de observaciones individuales se distribuye normalmente con media de población desconocida\\(mu\) y desviación estándar de población desconocida\(\sigma\). Esta suposición proviene del teorema del Límite Central porque las observaciones individuales en este caso son las\(\overline x\) s de la distribución muestral. El tamaño de la población subyacente generalmente no es relevante a menos que sea muy pequeña. Si es normal entonces se cumple la suposición y no necesita discusión.

    Se utiliza una tabla de probabilidad para la distribución t de Student para calcular los valores t en varios niveles de confianza comúnmente utilizados. La tabla da puntuaciones t que corresponden al nivel de confianza (columna) y grados de libertad (fila). Al usar una tabla t, tenga en cuenta que algunas tablas están formateadas para mostrar el nivel de confianza en los encabezados de columna, mientras que los encabezados de columna en algunas tablas pueden mostrar solo el área correspondiente en una o ambas colas. Observe que en la parte inferior la tabla mostrará el valor t para infinitos grados de libertad. Matemáticamente, a medida que aumentan los grados de libertad, la\(t\) distribución se acerca a la distribución normal estándar. Puede encontrar valores Z familiares buscando en la columna alfa relevante y leyendo el valor en la última fila.

    Una tabla t de Student (Tabla\(\PageIndex{6}\)) da puntajes t dados los grados de libertad y la probabilidad de cola derecha.

    La distribución t de Student tiene una de las propiedades más deseables de la normal: es simétrica. Lo que hace la distribución t de Student es extender el eje horizontal por lo que se necesita un mayor número de desviaciones estándar para capturar la misma cantidad de probabilidad. En realidad hay un número infinito de distribuciones t de Student, una por cada ajuste al tamaño de la muestra. A medida que aumenta el tamaño de la muestra, la distribución t de Student se vuelve cada vez más como la distribución normal. Cuando el tamaño de la muestra alcanza los 30, la distribución normal suele sustituirse por la t de Student porque son muy parecidas. Esta relación entre la distribución t de Student y la distribución normal se muestra en la Figura\(\PageIndex{8}\).

    Figura\(\PageIndex{1}\)

    Este es otro ejemplo de una distribución limitando a otra, en este caso la distribución normal es la distribución limitante de la t del Estudiante cuando los grados de libertad en la t del Estudiante se acercan al infinito. Esta conclusión proviene directamente de la derivación de la distribución t del Student por parte del señor Gosset. Reconoció que el problema tenía pocas observaciones y ninguna estimación de la desviación estándar poblacional. Estaba sustituyendo la desviación estándar de la muestra y obteniendo resultados volátiles. Por lo tanto, creó la distribución t de Student como una relación entre la distribución normal y la distribución Chi cuadrada. La distribución del Chi cuadrado es en sí misma una razón de dos varianzas, en este caso la varianza muestral y la varianza poblacional desconocida. Así pues, la distribución t de Student está ligada a la distribución normal, pero tiene grados de libertad que provienen de los de la distribución Chi al cuadrado. La solución algebraica demuestra este resultado.

    Desarrollo de la distribución t de Student:

    1. \(t=\frac{z}{\sqrt{\frac{\chi^{2}}{v}}}\)

      Dónde\(Z\) está la distribución normal estándar y\(X^2\) es la distribución chi-cuadrada con\(v\) grados de libertad.

    2. \(t=\frac{\frac{(\overline x-\mu)}{\sigma}}{\sqrt{\frac{\frac{s^{2}}{(n-1)}}{\frac{\sigma^{2}}{(n-1)}}}}\)

      por sustitución, y así la t de Student con\(v = n − 1\) grados de libertad es:

    3. \(t=\frac{\overline{x}-\mu}{\frac{s}{\sqrt{n}}}\)

    Reformulando la fórmula para un intervalo de confianza para la media para los casos en que el tamaño de la muestra es menor a 30 y no se conoce la desviación estándar poblacional,\(\sigma\):

    \[\overline{x}-t_{\nu, \alpha}\left(\frac{s}{\sqrt{n}}\right) \leq \mu \leq \overline{x}+t_{\nu, \alpha}\left(\frac{s}{\sqrt{n}}\right)\nonumber\]

    Aquí la estimación puntual de la desviación estándar poblacional,\(s\) ha sido sustituida por la desviación estándar poblacional\(\sigma\), y\(t_{\nu}\),\(\alpha\) ha sido sustituida por\(Z_{\alpha}\). La letra griega\(\nu\) (pronunciada nu) se coloca en la fórmula general en reconocimiento de que hay muchas\(t_{\nu}\) distribuciones de Student, una por cada tamaño de muestra. \(\nu\)es el símbolo de los grados de libertad de la distribución y depende del tamaño de la muestra. A menudo df se usa para abreviar grados de libertad. Para este tipo de problemas, los grados de libertad son\(\nu = n-1\), donde\(n\) está el tamaño de la muestra. Para buscar una probabilidad en la tabla t de Student tenemos que conocer los grados de libertad en el problema.

    Ejemplo\(\PageIndex{1}\)

    Se encontró que el promedio de ganancias por acción (EPS) para 10 acciones industriales seleccionadas al azar de las que figuran en el Promedio Industrial Dow-Jones fue\(\overline X = 1.85\) con una desviación estándar de\(s=0.395\). Calcular un intervalo de confianza del 99% para el EPS promedio de todos los industriales listados en el\(DJIA\).

    \[\overline{x}-t_{v, \alpha}\left(\frac{s}{\sqrt{n}}\right) \leq \mu \leq \overline{x}+t_{\nu, \alpha}\left(\frac{s}{\sqrt{n}}\right)\nonumber\]

    Contestar

    Para ayudar a visualizar el proceso de cálculo de un intervalo de confianza dibujamos la distribución adecuada para el problema. En este caso esta es la t de Student porque desconocemos la desviación estándar poblacional y la muestra es pequeña, menor a 30.

    Figura\(\PageIndex{2}\)

    Para encontrar el valor t adecuado se requieren dos piezas de información, el nivel de confianza deseado y los grados de libertad. La pregunta pedía un nivel de confianza del 99%. En la gráfica esto se muestra donde (\(1-\alpha\)), el nivel de confianza, se encuentra en el área no sombreada. Las colas, así, tienen .005 probabilidad cada una,\(\alpha/2\). Los grados de libertad para este tipo de problemas lo son\(n-1= 9\). De la tabla t de Student, en la fila marcada 9 y columna marcada .005, se encuentra el número de desviaciones estándar para capturar 99% de la probabilidad, 3.2498. Estos se colocan luego en la gráfica recordando que el Student\(t\) es simétrico y así el valor t es tanto más como menos en cada lado de la media.

    Al insertar estos valores en la fórmula se obtiene el resultado. Estos valores se pueden colocar en la gráfica para ver la relación entre la distribución de las medias muestrales,\(\overline X\)'s y la distribución t de Student.

    \[\mu=\overline{X} \pm t_{\alpha / 2, \mathrm{df}=n-1} \frac{s}{\sqrt{n}}=1.851 \pm 3.2498 \frac{0.395}{\sqrt{10}}=1.8551 \pm 0.406\nonumber\]

    \[1.445 \leq \mu \leq 2.257\nonumber\]

    Señalamos la conclusión formal como:

    Con un nivel de confianza del 99%, el promedio\(EPS\) de todas las industrias que cotizan\(DJIA\) es de $1.44 a $2.26.

    Ejercicio\(\PageIndex{2}\)

    Se realiza un estudio de hipnoterapia para determinar qué tan efectiva es para aumentar el número de horas de sueño que los sujetos reciben cada noche. Se miden las horas de sueño para 12 sujetos con los siguientes resultados. Construye un intervalo de confianza del 95% para el número medio de horas dormidas para la población (supuesta normal) de la que tomaste los datos.

    8.2; 9.1; 7.7; 8.6; 6.9; 11.2; 10.1; 9.9; 8.9; 9.2; 7.5; 10.5


    This page titled 8.2: Un Intervalo de Confianza para Desviación Estándar de Población Desconocido, Caso de Muestra Pequeña is shared under a CC BY 4.0 license and was authored, remixed, and/or curated by OpenStax via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.