10.10: Diferencia entre medias

Última actualización
Guardar como PDF

Page ID: 152015

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

Objetivos de aprendizaje

Indicar los supuestos para calcular un intervalo de confianza sobre la diferencia entre medias
Calcular un intervalo de confianza sobre la diferencia entre medias
Dar formato a los datos para análisis por computadora

Es mucho más común que un investigador esté interesado en la diferencia entre medias que en los valores específicos de los propios medios. Tomamos como ejemplo los datos del estudio de caso “Animal Research”. En este experimento, los estudiantes calificaron (en una escala\(7\) de puntos) si pensaban que la investigación animal es incorrecta. Los tamaños de muestra, medias y varianzas se muestran por separado para machos y hembras en la Tabla\(\PageIndex{1}\).

Tabla\(\PageIndex{1}\): Medias y Varianzas en el Estudio de Investigación Animal
Condición	n	Media	Varianza
Hembras	17	5.353	2.743
Machos	17	3.882	2.985

Como puede ver, las hembras calificaron la investigación animal como más equivocada que los machos. Esta diferencia muestral entre la media femenina de\(5.35\) y la media masculina de\(3.88\) es\(1.47\). Sin embargo, la diferencia de género en esta muestra en particular no es muy importante. Lo importante es la diferencia en la población. La diferencia en las medias de la muestra se utiliza para estimar la diferencia en medias poblacionales. La precisión de la estimación se revela mediante un intervalo de confianza.

Para construir un intervalo de confianza, vamos a hacer tres suposiciones:

Las dos poblaciones tienen la misma varianza. Esta suposición se llama la suposición de homogeneidad de varianza.
Las poblaciones se distribuyen normalmente.
Cada valor se muestrea independientemente uno del otro valor.

Las consecuencias de violar estos supuestos se discuten en una sección posterior. Por ahora, basta con decir que las violaciones pequeñas a moderadas de los supuestos\(1\) y no\(2\) hacen mucha diferencia.

Un intervalo de confianza en la diferencia entre medias se calcula usando la siguiente fórmula:

\[\text{Lower Limit} = M_1 - M_2 -(t_{CL})(S_{M_1-M_2})\]

\[\text{Upper Limit} = M_1 - M_2 +(t_{CL})(S_{M_1-M_2})\]

donde\(M_1 - M_2\) está la diferencia entre medias de la muestra,\(t_{CL}\) es la t para el nivel de confianza deseado, y\(S_{M_1-M_2}\) es el error estándar estimado de la diferencia entre medias de la muestra. Los significados de estos términos se aclararán a medida que se demuestre los cálculos.

Seguimos utilizando los datos del estudio de caso “Animal Research” y calcularemos un intervalo de confianza sobre la diferencia entre la puntuación media de las hembras y la puntuación media de los machos. Para este cálculo, asumiremos que las varianzas en cada una de las dos poblaciones son iguales.

El primer paso es calcular la estimación del error estándar de la diferencia entre medias (\(S_{M_1-M_2}\)). Recordemos de la sección relevante del capítulo sobre distribuciones de muestreo que la fórmula para el error estándar de la diferencia de medias en la población es:

\[\sigma _{M_1-M_2}=\sqrt{\frac{\sigma _{1}^{2}}{n_1}+\frac{\sigma _{2}^{2}}{n_2}}=\sqrt{\frac{\sigma ^{2}}{n}+\frac{\sigma ^{2}}{n}}=\sqrt{\frac{2\sigma ^2}{n}}\]

Para estimar esta cantidad, estimamos\(\sigma ^2\) y utilizamos esa estimación en lugar de\(\sigma ^2\). Dado que estamos asumiendo que las varianzas poblacionales son las mismas, estimamos esta varianza promediando nuestras dos varianzas muestrales. Así, nuestra estimación de varianza se calcula utilizando la siguiente fórmula:

\[MSE=\frac{s_{1}^{2}+s_{2}^{2}}{2}\]

donde\(MSE\) esta nuestra estimacion de\(\sigma ^2\). En este ejemplo,

\[MSE=\frac{2.743 + 2.985}{2}=2.864\]

Tenga en cuenta que\(MSE\) significa "error cuadrático medio" y es la desviación cuadrática media de cada puntaje de la media de su grupo.

Dado que\(n\) (el número de puntajes en cada condición) es\(17\),

\[S_{M_1-M_2}=\sqrt{\frac{2MSE}{n}}=\sqrt{\frac{(2)(2.864)}{17}}=0.5805\]

El siguiente paso es encontrar el\(t\) para usar para el intervalo de confianza (\(t_{CL}\)). Para calcular\(t_{CL}\), necesitamos conocer los grados de libertad. Los grados de libertad es el número de estimaciones independientes de varianza en las que\(MSE\) se basa. Esto es igual a\((n_1 - 1) + (n_2 - 1)\) donde\(n_1\) está el tamaño de muestra del primer grupo y\(n_2\) es el tamaño de muestra del segundo grupo. Para este ejemplo,\(n_1= n_2 = 17\). Cuando\(n_1= n_2\), es convencional utilizar ""\(n\) "para referirse al tamaño muestral de cada grupo. Por lo tanto, los grados de libertad lo son\(16 + 16 = 32\).

Calculadora: Encuentra t para el intervalo de confianza

Ya sea de la calculadora anterior o de una\(t\) tabla, puede encontrar que el\(t\) para un intervalo de\(95\%\) confianza para\(32 df\) es\(2.037\).

Ahora tenemos todos los componentes necesarios para calcular el intervalo de confianza. Primero, conocemos la diferencia entre medias:

\[M_1 - M_2 = 5.353 - 3.882 = 1.471\]

Sabemos que el error estándar de la diferencia entre medias es

\[S_{M_1 - M2} = 0.5805\]

y que el\(t\) para el intervalo de\(95\%\) confianza con\(32 df\) es

\[t_{CL}=2.037\]

Por lo tanto, el intervalo de\(95\%\) confianza es

\[\text{Lower Limit} = 1.471 - (2.037)(0.5805) = 0.29\]

\[\text{Upper Limit} = 1.471 + (2.037)(0.5805) = 2.65\]

Podemos escribir el intervalo de confianza como:

\[0.29 \leq \mu _f - \mu _m \leq 2.65\]

donde\(\mu _f\) es la media poblacional para las mujeres y\(\mu _m\) es la media poblacional para los varones. Este análisis proporciona evidencia de que la media para las mujeres es mayor que la media para los machos, y que la diferencia entre medias en la población es probable que esté entre\(0.29\) y\(2.65\).

Formateo de datos para Análisis por Computación

La mayoría de los programas informáticos que calculan\(t\) pruebas requieren que tus datos estén en una forma específica. Considera los datos en la Tabla\(\PageIndex{2}\).

Tabla\(\PageIndex{2}\): Datos de ejemplo
Grupo 1	Grupo 2
3	5
4	6
5	7

Aquí hay dos grupos, cada uno con tres observaciones. Para formatear estos datos para un programa de computadora, normalmente hay que usar dos variables: la primera especifica el grupo en el que se encuentra el sujeto y la segunda es la propia puntuación. Para los datos en Table\(\PageIndex{2}\), los datos reformateados se ven de la siguiente manera:

Tabla\(\PageIndex{3}\): Datos reformateados
G	Y
1	3
1	4
1	5
2	5
2	6
2	7

Para usar Analysis Lab para hacer los cálculos, copiaría los datos y luego

Haga clic en el botón “Ingresar/Editar datos de usuario”. (Es posible que se le avise que por razones de seguridad debe usar el método abreviado de teclado para pegar datos).

Pegue sus datos.
Haga clic en “Aceptar datos”.
Establezca la variable dependiente en\(Y\).
Establezca la variable de agrupación en\(G\).
Haga clic en el botón\(t\) -test de intervalo de confianza.

El intervalo de\(95\%\) confianza sobre la diferencia entre medias se extiende de\(-4.267\) a\(0.267\).

Cálculos para Tamaños de Muestra Desiguales (opcional)

Los cálculos son algo más complicados cuando los tamaños de muestra no son iguales. Una consideración es que\(MSE\), la estimación de varianza, cuenta la muestra con el tamaño de muestra más grande que la muestra con el tamaño de muestra más pequeño. Computacionalmente esto se hace calculando la suma de cuadrados error (\(SSE\)) de la siguiente manera:

\[SSE=\sum (X-M_1)^2+\sum (X-M_2)^2\]

donde\(M_1\) es la media para grupo\(1\) y\(M_2\) es la media para grupo\(2\). Considera el siguiente pequeño ejemplo:

Tabla\(\PageIndex{4}\): Datos de ejemplo
Grupo 1	Grupo 2
3	2
4	4
5

\[M_1 = 4\; \; and\; \; M_2 = 3\]

\[SSE = (3-4)^2 + (4-4)^2 + (5-4)^2 + (2-3)^2 + (4-3)^2 = 4\]

Entonces,\(MSE\) se computa por:\[MSE=\frac{SSE}{df}\]

donde los grados de libertad (\(df\)) se computan como antes:

\[df = (n_1 -1) + (n_2 -1) = (3-1) + (2-1) = 3\]

\[MSE=\frac{SSE}{df}=\frac{4}{3}=1.333\]

La fórmula

\[S_{M_1-M_2}=\sqrt{\frac{2MSE}{n}}\]

se sustituye por

\[S_{M_1-M_2}=\sqrt{\frac{2MSE}{n_h}}\]

donde\(n_h\) es la media armónica de los tamaños de muestra y se calcula de la siguiente manera:

\[n_h=\frac{2}{\tfrac{1}{n_1}+\tfrac{1}{n_2}}=\frac{2}{\tfrac{1}{3}+\tfrac{1}{2}}=2.4\]

\[S_{M_1-M_2}=\sqrt{\frac{(2)(1.333)}{2.4}}=1.054\]

\(t_{CL}\)para\(3 df\) y el\(0.05\) nivel es igual\(3.182\).

Por lo tanto, el intervalo de\(95\%\) confianza es

\[\text{Lower Limit} = 1 - (3.182)(1.054)= -2.35\]

\[\text{Upper Limit} = 1 + (3.182)(1.054)= 4.35\]

Podemos escribir el intervalo de confianza como:

\[-2.35 \leq \mu _1 - \mu _2 \leq 4.35\]