8.3: Media de una sola población usando la distribución T de Student

Última actualización
Guardar como PDF

Page ID: 153407

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

En la práctica, rara vez conocemos la desviación estándar de la población. En el pasado, cuando el tamaño de la muestra era grande, esto no presentaba ningún problema a los estadísticos. Utilizaron la desviación estándar de la muestra\(s\) como estimación\(\sigma\) y procedieron como antes para calcular un intervalo de confianza con resultados lo suficientemente cercanos. Sin embargo, los estadísticos tuvieron problemas cuando el tamaño de la muestra era pequeño. Un pequeño tamaño muestral causó imprecisiones en el intervalo de confianza.

William S. Goset (1876—1937) de la cervecería Guinness en Dublín, Irlanda, se encontró con este problema. Sus experimentos con lúpulo y cebada produjeron muy pocas muestras. El solo reemplazo\(\sigma\) por\(s\) no produjo resultados precisos cuando intentó calcular un intervalo de confianza. Se dio cuenta de que no podía usar una distribución normal para el cálculo; encontró que la distribución real depende del tamaño de la muestra. Este problema lo llevó a “descubrir” lo que se llama la distribución t del Estudiante. El nombre proviene del hecho de que Gosset escribió bajo el seudónimo “Student”.

Hasta mediados de la década de 1970, algunos estadísticos utilizaron la aproximación de distribución normal para tamaños de muestra grandes y solo utilizaron la\(t\) distribución de Student solo para tamaños de muestra de como máximo 30. Con calculadoras gráficas y computadoras, la práctica ahora es usar la distribución t de Student siempre que\(s\) se use como estimación para\(\sigma\). Si dibujas una muestra aleatoria simple de tamaño\(n\) de una población que tiene una distribución aproximadamente normal con media\(\mu\) y desviación estándar de población desconocida\(\sigma\) y calcula la\(t\) puntuación -score

\[t = \dfrac{\bar{x} - \mu}{\left(\dfrac{s}{\sqrt{n}}\right)},\]

entonces los\(t\) -scores siguen una distribución t de Student con\(n – 1\) grados de libertad. La\(t\) partitura -score tiene la misma interpretación que la puntuación z. Mide qué tan lejos\(\bar{x}\) está de su media\(\mu\). Para cada tamaño de muestra\(n\), hay una distribución t de Student diferente.

Los grados de libertad,\(n – 1\), provienen del cálculo de la desviación estándar de la muestra\(s\). Anteriormente, se utilizaron\(n\) desviaciones (\(x - \bar{x}\)valores) para calcular\(s\). Debido a que la suma de las desviaciones es cero, podemos encontrar la última desviación una vez que conocemos las otras\(n – 1\) desviaciones. Las otras\(n – 1\) desviaciones pueden cambiar o variar libremente. Llamamos al número\(n – 1\) los grados de libertad (df).

Para cada tamaño de muestra\(n\), hay una distribución t de Student diferente.

Inmuebles del Estudiante\(t\)-Distribution

La gráfica para la\(t\) distribución de Student es similar a la curva normal estándar.
La media para la\(t\) distribución de Student es cero y la distribución es simétrica alrededor de cero.
La\(t\) distribución de Student tiene más probabilidad en sus colas que la distribución normal estándar porque el spread\(t\) de la distribución es mayor que el spread de la normal estándar. Por lo que la gráfica de la\(t\) distribución de Student será más gruesa en las colas y más corta en el centro que la gráfica de la distribución normal estándar.
La forma exacta de la\(t\) distribución del Estudiante depende de los grados de libertad. A medida que aumentan los grados de libertad, la gráfica de la\(t\) distribución de Student se vuelve más parecida a la gráfica de la distribución normal estándar.
Se supone que la población subyacente de observaciones individuales se distribuye normalmente con media de población desconocida\(\mu\) y desviación estándar de población desconocida\(\sigma\). El tamaño de la población subyacente generalmente no es relevante a menos que sea muy pequeña. Si tiene forma de campana (normal) entonces se cumple la suposición y no necesita discusión. Se asume el muestreo aleatorio, pero esa es una suposición completamente separada de la normalidad.

Las calculadoras y computadoras pueden calcular fácilmente\(t\) las probabilidades de cualquier estudiante. Los TI-83,83+ y 84+ tienen una función tcdf para encontrar la probabilidad de valores dados de\(t\). La gramática para el comando tcdf es tcdf (límite inferior, límite superior, grados de libertad). Sin embargo, para los intervalos de confianza, necesitamos usar la probabilidad inversa para encontrar el valor de t cuando conocemos la probabilidad.

Para el TI-84+ se puede utilizar el comando InVt en el menú de distribución. El comando InVt funciona de manera similar a la invnorm. El comando InVt requiere dos entradas: InVt (área a la izquierda, grados de libertad) La salida es la puntuación t que corresponde al área que especificamos.

El TI-83 y 83+ no tienen el comando InVt. (El TI-89 tiene un comando T inverso.)

También se puede utilizar una tabla\(t\) de probabilidad para la distribución de Student. La tabla da\(t\) -puntuaciones que corresponden al nivel de confianza (columna) y grados de libertad (fila). (El TI-86 no tiene un programa o comando InVT, así que si estás usando esa calculadora, necesitas usar una tabla de probabilidad para la\(t\) -Distribución del Estudiante). Al usar una\(t\) tabla -table, tenga en cuenta que algunas tablas están formateadas para mostrar el nivel de confianza en los encabezados de columna, mientras que los encabezados de columna en algunas tablas pueden mostrar solo el área correspondiente en una o ambas colas.

Una\(t\) tabla de Student da\(t\) -puntajes dados los grados de libertad y la probabilidad de cola derecha. La mesa es muy limitada. Las calculadoras y computadoras pueden calcular fácilmente\(t\) las probabilidades de cualquier estudiante.

La notación para la distribución t de Student (usando T como variable aleatoria) es:

\(T \sim t_{df}\)donde\(df = n – 1\).
Por ejemplo, si tenemos una muestra de\(n = 20\) artículos de tamaño, entonces calculamos los grados de libertad como\(df = n - 1 = 20 - 1 = 19\) y escribimos la distribución como\(T \sim t_{19}\).

Si no se conoce la desviación estándar poblacional, el error límite para una media poblacional es:

\(EBM = \left(t_{\frac{\alpha}{2}}\right)\left(\frac{s}{\sqrt{n}}\right)\),
\(t_{\frac{\alpha}{2}}\)es el\(t\) -score con área a la derecha igual a\(\frac{\alpha}{2}\),
utilizar\(df = n – 1\) grados de libertad, y
\(s =\)desviación estándar de la muestra.

El formato para el intervalo de confianza es:

\[(\bar{x} - EBM, \bar{x} + EBM). \label{confint}\]

Para calcular el intervalo de confianza directamente:

Presione STAT.
Flecha sobre PRUEBAS.
Flecha hacia abajo hasta 8:tInterval y presiona ENTRAR (o simplemente presiona 8).

Ejemplo\(\PageIndex{1}\): Acupuncture

Supongamos que haces un estudio de la acupuntura para determinar qué tan efectiva es para aliviar el dolor. Se miden las tasas sensoriales para 15 sujetos con los resultados dados. Utilice los datos de la muestra para construir un intervalo de confianza del 95% para la tasa sensorial media de la población (supuesta normal) de la que tomó los datos.

La solución se muestra paso a paso y mediante el uso de las calculadoras TI-83, 83+ u 84+.

8.6; 9.4; 7.9; 6.8; 8.3; 7.3; 9.2; 9.6; 8.7; 11.4; 10.3; 5.4; 8.1; 5.5; 6.9

Contestar

La primera solución es paso a paso (Solución A).
La segunda solución utiliza las calculadoras TI-83+ y TI-84 (Solución B).

Solución A

Para encontrar el intervalo de confianza, necesita la media de la muestra,\(\bar{x}\), y el\(EBM\).

\(\bar{x} = 8.2267 \)

\(s = 1.6722\)\(n = 15\)

\(df = 15 – 1 = 14 CL so \alpha = 1 – CL = 1 – 0.95 = 0.05\)

\(\frac{\alpha}{2} = 0.025 t_{\frac{\alpha}{2}} = t_{0.025}\)

El área a la derecha de\(t_{0.025}\) es 0.025, y el área a la izquierda de\(t_{0.025}\) es 1 — 0.025 = 0.975

\(t_{\frac{\alpha}{2}} = t_{0.025} = 2.14\)usando InVT (.975,14) en la calculadora TI-84+.

\[ \begin{align*} EBM &= \left(t_{\frac{\alpha}{2}}\right)\left(\frac{s}{\sqrt{n}}\right) \\[4pt] &= (2.14)\left(\frac{1.6722}{\sqrt{15}}\right) = 0.924 \end{align*}\]

Ahora es solo una aplicación directa de la Ecuación\ ref {confint}:

\[ \begin{align*} \bar{x} – EBM &= 8.2267 – 0.9240 = 7.3 \\[4pt] \bar{x} + EBM &= 8.2267 + 0.9240 = 9.15 \end{align*}\]

El intervalo de confianza del 95% es (7.30, 9.15).

Estimamos con 95% de confianza que la tasa sensorial media de la población real está entre 7.30 y 9.15.

Solución B

Presiona STAT y flecha hacia TEST.

Flecha hacia abajo hasta 8:tInterval y presiona ENTRAR (o simplemente puedes presionar 8).
Flecha a Datos y presiona ENTRAR.
Flecha hacia abajo hasta Lista e ingresa el nombre de la lista donde pones los datos.
Debería haber un 1 después de Freq.
Flecha hacia abajo hasta el nivel C e ingresa 0.95
Flecha hacia abajo para Calcular y presiona INTRO.
El intervalo de confianza del 95% es (7.3006, 9.1527)

Al calcular el límite de error, también se puede utilizar una tabla de probabilidad para la distribución t de Student para encontrar el valor de\(t\). La tabla da\(t\) -puntuaciones que corresponden al nivel de confianza (columna) y grados de libertad (fila); la\(t\) -score se encuentra donde la fila y la columna se cruzan en la tabla.

Ejercicio\(\PageIndex{1}\)

Se realiza un estudio de hipnoterapia para determinar qué tan efectiva es para aumentar el número de horas de sueño que los sujetos reciben cada noche. Se miden las horas de sueño para 12 sujetos con los siguientes resultados. Construir un intervalo de confianza del 95% para el número medio de horas dormidas para la población (supuesta normal) de la que tomó los datos.

8.2; 9.1; 7.7; 8.6; 6.9; 11.2; 10.1; 9.9; 8.9; 9.2; 7.5; 10.5

Contestar: (8.1634, 9.8032)

Ejemplo\(\PageIndex{2}\): The Human Toxome Project

El Proyecto Toxoma Humano (HTP) está trabajando para comprender el alcance de la contaminación industrial en el cuerpo humano. Los químicos industriales pueden ingresar al cuerpo a través de la contaminación o como ingredientes en productos de consumo. En octubre de 2008, los científicos de HTP analizaron muestras de sangre de cordón umbilical para 20 recién nacidos en Estados Unidos. La sangre del cordón umbilical del grupo “In útero/recién nacido” se analizó para detectar 430 compuestos industriales, contaminantes y otros químicos, entre ellos químicos relacionados con la toxicidad del cerebro y el sistema nervioso, la toxicidad del sistema inmune y la toxicidad reproductiva, y problemas de fertilidad. Existen preocupaciones de salud sobre los efectos de algunas sustancias químicas en el cerebro y el sistema nervioso. \(\PageIndex{1}\)La tabla muestra cuántos de los químicos objetivo se encontraron en la sangre del cordón umbilical de cada lactante.

Mesa\(\PageIndex{1}\)
79	145	147	160	116	100	159	151	156	126
137	83	156	94	121	144	123	114	139	99

Utilice los datos de esta muestra para construir un intervalo de confianza del 90% para el número medio de sustancias químicas industriales objetivo que se encuentran en la sangre de un lactante.

Solución A

A partir de la muestra, se puede calcular\(\bar{x} = 127.45\) y\(s = 25.965\). Hay 20 infantes en la muestra, entonces\(n = 20\), y\(df = 20 – 1 = 19\).

Se le pide que calcule un intervalo de confianza del 90%:\(CL = 0.90\), entonces

\[\alpha = 1 – CL = 1 – 0.90 = 0.10 \frac{\alpha}{2} = 0.05, t_{\frac{\alpha}{2}} = t_{0.05}\]

Por definición, el área a la derecha de\(t_{0.05}\) es 0.05 y así el área a la izquierda de\(t_{0.05}\) es\(1 – 0.05 = 0.95\).

Usa una mesa, una calculadora o una computadora para encontrarla\(t_{0.05} = 1.729\).

\(EBM = t_{\frac{\alpha}{2}}\left(\frac{s}{\sqrt{n}}\right) = 1.729\left(\frac{25.965}{\sqrt{20}}\right) \approx 10.038\)

\(\bar{x} – EBM = 127.45 – 10.038 = 117.412\)

\(\bar{x} + EBM = 127.45 + 10.038 = 137.488\)

Estimamos con 90% de confianza que el número medio de todos los químicos industriales dirigidos que se encuentran en la sangre del cordón umbilical en Estados Unidos está entre 117.412 y 137.488.

Solución B

Ingresa los datos como una lista.

Presiona STAT y flecha hacia TEST.
Flecha hacia abajo hasta 8:tInterval y presiona ENTRAR (o simplemente puedes presionar 8). Flecha a Datos y presiona ENTRAR.
Flecha hacia abajo hasta Lista e ingresa el nombre de la lista donde pones los datos.
Flecha hacia abajo a Freq e ingresa 1.
Flecha hacia abajo hasta el nivel C e ingresa 0.90
Flecha hacia abajo para Calcular y presiona INTRO.

El intervalo de confianza del 90% es (117.41, 137.49).

Ejemplo\(\PageIndex{3}\)

A una muestra aleatoria de estudiantes de estadística se les pidió estimar el número total de horas que pasan viendo televisión en una semana promedio. Las respuestas se registran en la Tabla\(\PageIndex{2}\). Utilice estos datos de muestra para construir un intervalo de confianza del 98% para el promedio de horas que los estudiantes pasarán viendo televisión en una semana.

Mesa\(\PageIndex{2}\)
0	3	1	20	9
5	10	1	10	4
14	2	4	4	5

Solución A

\(\bar{x} = 6.133\),
\(s = 5.514\),
\(n = 15\), y
\(df = 15 – 1 = 14\).

\(CL = 0.98\), entonces\(\alpha = 1 - CL = 1 - 0.98 = 0.02\)

\(\frac{\alpha}{2} = 0.01 t_{\frac{\alpha}{2}} = t_{0.01} 2.624\)

\(EBM = t_{\frac{\alpha}{2}}\left(\frac{s}{\sqrt{n}}\right) = 2.624\left(\frac{5.514}{\sqrt{15}}\right) - 3.736\)

\(\bar{x} – EBM = 6.133 – 3.736 = 2.397\)

\(\bar{x} + EBM = 6.133 + 3.736 = 9.869\)

Estimamos con 98% de confianza que la media de todas las horas que los estudiantes de estadística pasan viendo televisión en una semana está entre 2.397 y 9.869.

Solución B

Ingresa los datos como una lista.

Presiona STAT y flecha hacia TEST.
Flecha hacia abajo a 8:tIntervalo.
Presione ENTER.
Flecha a Datos y presiona ENTRAR.
Flecha hacia abajo e ingresa el nombre de la lista donde se almacenan los datos.
Entrar Freq: 1
Entrar Nivel C: 0.98
Flecha hacia abajo para Calcular y presiona Intro.
El intervalo de confianza del 98% es (2.3965, 9,8702).

Referencia

“Las mejores pequeñas empresas de Estados Unidos”. Forbes, 2013. Disponible en línea en http://www.forbes.com/best-small-companies/list/ (consultado el 2 de julio de 2013).
Datos de Microsoft Bookshelf.
Datos de http://www.businessweek.com/.
Datos de http://www.forbes.com/.
“Catálogo de Datos de Divulgación: Informe PAC de Liderazgo y Patrocinadores, 2012.” Comisión Federal de Elecciones. Disponible en línea en www.fec.gov/data/index.jsp (consultado el 2 de julio de 2013).
“Proyecto Toxoma Humano: Mapeo de la Contaminación en las Personas”. Grupo de Trabajo Ambiental. Disponible en línea en www.ewg.org/sites/humantoxome... tero%2fRecién nacido (consultado el 2 de julio de 2013).
“Metadatos Descripción de la Lista PAC de Liderazgo”. Comisión Federal de Elecciones. Disponible en línea en www.fec.gov/finanzas/disclosur... ppaclist.shtml (consultado el 2 de julio de 2013).

Glosario

Grados de Libertad (\(df\)): el número de objetos en una muestra que son libres de variar

Distribución Normal: una variable aleatoria continua (RV) con pdf\(f(x) = \frac{1}{\sigma\sqrt{2\pi}}e^{-(x-\mu)^2/2\sigma^{2}}\), donde\(\mu\) es la media de la distribución y\(\sigma\) es la desviación estándar, notación:\(X \sim N(\mu,\sigma)\). Si\(\mu = 0\) y\(\sigma = 1\), el RV se llama la distribución normal estándar.

Desviación estándar: un número que es igual a la raíz cuadrada de la varianza y mide qué tan lejos están los valores de los datos de su media; notación:\(s\) para la desviación estándar de la muestra y\(\sigma\) para la desviación estándar de la población

T -Distribución de Student

investigado y reportado por William S. Gossett en 1908 y publicado bajo el seudónimo de Student; las principales características de la variable aleatoria (RV) son:

Es continuo y asume cualquier valor real.
El pdf es simétrico sobre su media de cero. Sin embargo, está más extendido y más plano en el ápice que en la distribución normal.
Se acerca a la distribución normal estándar a medida que n se hace más grande.
Hay una “familia” de t—distribuciones: cada representante de la familia está completamente definido por el número de grados de libertad, que es uno menos que el número de datos.