Saltar al contenido principal
LibreTexts Español

4.1: Inferencias sobre dos medias con muestras independientes (asumiendo varianzas desiguales)

  • Page ID
    149508
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Hasta este punto, hemos discutido inferencias respecto a un solo parámetro poblacional (e.g., μ, p,\(\sigma^2\)). Se han utilizado datos de muestra para construir intervalos de confianza para estimar la media o proporción poblacional y para probar hipótesis sobre la media y proporción poblacional. En ambos capítulos, todos los ejemplos implicaban el uso de una muestra para formar una inferencia sobre una población. Con frecuencia, necesitamos comparar dos conjuntos de datos y hacer inferencias sobre dos poblaciones. Este capítulo trata de inferencias sobre dos medias, proporciones o varianzas. Por ejemplo:

    • Estás estudiando el hábitat del pavo y quieres ver si el número medio de gallinas de cría es diferente en Nueva York en comparación con Pensilvania.
    • Se desea determinar si el tratamiento utilizado en el lago Skaneateles ha reducido el número de plantas de milenrama en los últimos tres años.
    • ¿Es mayor la proporción de personas que apoyan la energía alternativa en California en comparación con Nueva York?
    • ¿La variabilidad en la aplicación es diferente entre dos sopladores de niebla?

    Estas preguntas pueden ser respondidas comparando las diferencias de:

    • Promedio del número de gallinas en NY al número medio de gallinas en PA.
    • Número de plantas en 2007 al número de plantas en 2010.
    • Proporción de personas en CA con respecto a la proporción de personas en NY.
    • Variancias entre los sopladores de niebla.

    Este capítulo se compone de cinco secciones. La primera y segunda secciones examinan inferencias sobre dos medias con dos muestras independientes. La tercera sección examina las inferencias sobre medias con dos muestras dependientes, la cuarta sección examina las inferencias sobre dos proporciones y la quinta sección examina las inferencias entre dos varianzas.

    Inferencias sobre Dos Medias con Muestras Independientes (Suponiendo Varianzas Desiguales)

    El uso de muestras independientes significa que no hay relación entre los grupos. Los valores en una muestra no tienen asociación con los valores de la otra muestra. Por ejemplo, queremos ver si la vida media de los colibríes en Carolina del Sur es diferente de la vida media en Carolina del Norte. Estas poblaciones no están relacionadas, y las muestras son independientes. Nos fijamos en la diferencia de los medios independientes.

    En el Capítulo 3, hicimos una prueba t de una muestra donde comparamos la media de la muestra (\(\bar {x}\)) con la media hipotética (μ). Esperamos\(\bar {x}\) que esté cerca de μ. Utilizamos la media de la muestra, la desviación estándar de la muestra y el tamaño de la muestra para la prueba de una muestra.

    Con una prueba t de dos muestras, comparamos las medias de la población entre sí y nuevamente miramos la diferencia. Esperamos\(\bar {x_1}-\bar {x_2}\) que esté cerca de\(\mu_{1} – \mu_{2}\). El estadístico de prueba utilizará tanto las medias de la muestra, las desviaciones estándar de la muestra y los tamaños de la muestra para la prueba.

    • Para una prueba t de una muestra se utilizó\(\frac {s}{\sqrt{n}}\) como medida de la desviación estándar (el error estándar).
    • Podemos reescribir $$\ frac {s} {\ sqrt {n}}\ fila derecha\ sqrt {\ frac {s^2} {n}} $$.
    • El numerador del estadístico de prueba será\((\bar {x_1} - \bar{x_2})-(\mu_{1} - \mu_{2})\)
    • Esto tiene una desviación estándar de\(\sqrt {\frac {s^2_1}{n_1}+\frac {s^2_2}{n_2}}\).

    Una prueba t de dos muestras sigue los mismos cuatro pasos que vimos en el Capítulo 3.

    • Escribir las hipótesis nulas y alternativas.
    • Indicar el nivel de significancia y encontrar el valor crítico. El valor crítico, a partir de la distribución t del estudiante, tiene el menor de n1-1 y n2 -1 grados de libertad.
    • Calcular el estadístico de prueba.
    • Comparar el estadístico de prueba con el valor crítico y exponer una conclusión.

    Aún deben cumplirse los supuestos que vimos en el Capítulo 3. Ambas muestras provienen de muestras aleatorias independientes. Las poblaciones deben estar normalmente distribuidas, o ambas tienen tamaños de muestra suficientemente grandes (n1 y n2 ≥ 30). También utilizaremos los mismos tres pares de hipótesis nulas y alternativas.

    5820.png

    Cuadro 1. Hipótesis nulas y alternativas.

    Reescribir la hipótesis nula de μ1 = μ2 a μ1 — μ2 = 0, simplifica el numerador. El estadístico de prueba es la aproximación de Welch (Ajuste Satterthwaite) bajo el supuesto de que las varianzas poblacionales independientes no son iguales.

    \[t=\frac {(\bar {x_1}-\bar {x_2})-(\mu_{1}-\mu_{2})}{\sqrt {\frac {s^2_1}{n_1}+\frac {s^2_2}{n_2}}}\]

    Esta estadística de prueba sigue la distribución t del estudiante con los grados de libertad ajustados por

    \[df=\frac {(\frac {S^2_1}{n_1} + \frac {S^2_2}{n_2})^2}{\frac {1}{n_1-1}(\frac {S^2_1}{n_1})^2+\frac {1}{n_2-1}(\frac {S^2_2}{n_2})^2}\]

    Una alternativa más simple para determinar grados de libertad cuando se trabaja un problema de mano larga es utilizar el menor de n1-1 o n2-1 como los grados de libertad. Este método da como resultado un valor menor para los grados de libertad y, por lo tanto, un valor crítico mayor. Esto hace que la prueba sea más conservadora, requiriendo más evidencia para rechazar la hipótesis nula.

    Ejemplo\(\PageIndex{1}\):

    Un silvicultor está estudiando el número de árboles de cavidad en rodales viejos en Adirondack Park en el norte de Nueva York. Quiere saber si existe una diferencia significativa entre el número medio de árboles de cavidad en el Parque Adirondack y los antiguos rodales de crecimiento en el Bosque Nacional Monongahela. Recolecta dos muestras aleatorias independientes de cada bosque. Utilizar un nivel de significancia del 5% para probar esta afirmación.

    Parque Adirondack

    Bosque de Monongahela

    \(n_1\)= 51 gradas

    \(n_2\)= 56 gradas

    \(\bar {x_1}\)= 39.6

    \(\bar {x_2}\)= 43.9

    \(s_1\)= 9.4

    \(s_2\)= 10.7

    1) No\(H_0: \mu_1 = \mu_2 or \mu_1 – \mu_2 = 0\) hay diferencia entre las dos medias poblacionales.

    \(H_1: \mu_1 ≠ \mu_2\)Existe una diferencia entre las dos medias poblacionales.

    2) El nivel de significancia es del 5%. Esta es una prueba a dos caras por lo que el alfa se divide en dos lados. El cálculo de los grados de libertad utilizando la ecuación anterior da 105 grados de libertad.

    $$df =\ frac {(\ frac {9.4^2} {51} +\ frac {10.7^2} {56}) ^2} {\ frac {1} {51-1} (\ frac {9.4^2} {51}) ^2+\ frac {1} {56-1} (\ frac {10.7^2} {56}) ^2} =104.9\]

    El valor crítico (\(t_{\frac {\alpha}{2}}\), basado en 100 grados de libertad (valor más cercano en la tabla t), es ±1.984. Usando 50 grados de libertad, el valor crítico es ±2.009.

    3) El estadístico de prueba es

    \[t=\frac {(\bar {x_1} - \bar {x_2}) - (\mu _1 - \mu_2)}{\sqrt {\frac {s_1^2}{n_1}+\frac {s_2^2}{n_2}}} =\frac {(39.6-43.9)-(0)}{\sqrt{\frac {9.4^2}{51}+\frac {10.7^2}{56}}} = -2.213\]

    4) El estadístico de prueba cae en la zona de rechazo.

    Image36758.PNG

    Figura 1. Una comparación de los valores críticos y el estadístico de prueba.

    Rechazamos la hipótesis nula. Tenemos pruebas suficientes para apoyar la afirmación de que existe una diferencia en el número medio de árboles de cavidad entre el Parque Adirondack y el Bosque Nacional Monongahela.

    Construir e interpretar un intervalo de confianza sobre la diferencia de dos medias independientes

    Una prueba de hipótesis responderá a la pregunta sobre la diferencia de las medias. PERO, podemos responder a la misma pregunta construyendo un intervalo de confianza sobre la diferencia de las medias. Este proceso es igual que los intervalos de confianza del Capítulo 2.

    1. Encuentra el valor crítico.
    2. Calcular el margen de error.
    3. Estimación puntual ± margen de error.

    Debido a que estamos trabajando con dos muestras, debemos modificar los componentes del intervalo de confianza para incorporar la información de las dos poblaciones.

    • El punto estimado es\(\bar {x_1} -\bar {x_2}\).
    • El error estándar proviene del estadístico de prueba\(\sqrt {\frac {s_1^2}{n_1} +\frac {s^2_2}{n_2}}\)
    • El valor crítico\(t_{\frac {\alpha}{2}}\) proviene de la tabla t del estudiante.

    El intervalo de confianza toma la forma de la estimación de puntos más o menos el error estándar de las diferencias.

    \[\bar {x_1} -\bar {x_2} \pm t_{\frac {\alpha}{2}}\sqrt {\frac {s_1^2}{n_1} +\frac {s^2_2}{n_2}}\]

    Utilizaremos los mismos tres pasos para construir un intervalo de confianza sobre la diferencia de las medias.

    1. valor crítico\(t_{\frac {\alpha}{2}}\)
    2. \(E = t_{\frac {\alpha}{2}}\sqrt {\frac {s_1^2}{n_1} +\frac {s^2_2}{n_2}}\)
    3. \(\bar {x_1} -\bar {x_2} \pm E\)

    Ejemplo\(\PageIndex{2}\):

    Volvamos a ver el número medio de árboles de cavidad en viejos rodales de crecimiento. El silvicultor quiere saber si existe una diferencia entre el número medio de árboles de cavidad en rodales viejos de crecimiento en los bosques de Adirondack y en el Bosque de Monongahela. Podemos responder a esta pregunta construyendo un intervalo de confianza sobre la diferencia de las medias.

    1)\(t_{\frac {\alpha}{2}}\) = 2.009

    2)\(E = t_{\frac {\alpha}{2}}\sqrt {\frac {s_1^2}{n_1} +\frac {s^2_2}{n_2}} = 2.009 \sqrt {\frac {9.4^2}{51}+\frac {10.7^2}{56}}=3.904\)

    3)\(\bar {x_1} -\bar {x_2} \pm 3.904\)

    El intervalo de confianza del 95% para la diferencia de las medias es (-8.204, -0.396).

    Podemos estar 95% seguros de que este intervalo contiene la diferencia media en el número de árboles de cavidad entre las dos ubicaciones. PERO, esto no responde a la pregunta que hizo el silvicultor. ¿Hay alguna diferencia en el número medio de árboles de cavidad entre los bosques de Adirondack y Monongahela? Para responder a esto, debemos mirar las interpretaciones del intervalo de confianza.

    Interpretaciones de intervalos de confianza

    • Si el intervalo de confianza contiene todos los valores positivos, encontramos una diferencia significativa entre los grupos, Y podemos concluir que la media del primer grupo es significativamente mayor que la media del segundo grupo.
    • Si el intervalo de confianza contiene todos los valores negativos, encontramos una diferencia significativa entre los grupos, Y podemos concluir que la media del primer grupo es significativamente menor que la media del segundo grupo.
    • Si el intervalo de confianza contiene cero (va de valores negativos a positivos), NO encontramos diferencia significativa entre los grupos.

    En este problema, el intervalo de confianza es (-8.204, -0.396). Todos tenemos valores negativos, por lo que podemos concluir que existe una diferencia significativa en el número medio de árboles de cavidad Y que el número medio de árboles de cavidad en los bosques de Adirondack es significativamente menor que el número medio de árboles de cavidad en el bosque de Monongahela. El intervalo de confianza da una estimación de la diferencia media en el número de árboles de cavidad entre los dos bosques. Hay, en promedio, 0.396 a 8.204 árboles de cavidad menos en el Parque Adirondack que el Bosque de Monongahela.

    Enfoque de valor P

    También podemos usar el enfoque del valor p para responder a la pregunta. Recuerde, el valor p es el área bajo la curva normal asociada con el estadístico de prueba. Este ejemplo es una prueba bilateral (H1: μ1 ≠ μ2) por lo que el valor p, cuando se calcula a mano, se multiplicará por dos.

    El estadístico de prueba es igual a -2.213, por lo que el valor p es dos veces el área a la izquierda de -2.213. Solo podemos estimar el valor p usando la tabla t del estudiante. Usando el menor de n1— 1 o n2— 1 como grados de libertad, tenemos 50 grados de libertad. Ve a través de la fila 50 en la tabla t del estudiante hasta que encuentres el valor absoluto del estadístico de prueba. En este caso, 2.213 cae entre 2.109 y 2.403. Subir a la parte superior de cada una de esas columnas te da la estimación del valor p (entre 0.02 y 0.01).

    5801.png

    Cuadro 2. Distribución T estudiantil

    El valor p es 2x (0.01 — 0.02) = (0.02 < p < 0.04). El valor p es mayor que 0.02 pero menor que 0.04. Esto es menor que el nivel de significancia (0.05), por lo que rechazamos la hipótesis nula. Existe evidencia suficiente para apoyar la afirmación de que existe una diferencia significativa en el número medio de árboles de cavidad entre las áreas.

    Ejemplo\(\PageIndex{3}\):

    Los investigadores están estudiando la relación entre las actividades madereras en los bosques del norte y los hábitats de anfibios. Se compararon los niveles de humedad entre los hábitats de crecimiento antiguo y poscosecha. Los investigadores creen que el hábitat poscosecha tiene un menor nivel de humedad. Recolectaron datos sobre los niveles de humedad de dos muestras aleatorias independientes. Pruebe su afirmación usando un nivel de significancia del 5%.

    Crecimiento Viejo

    Post Cosecha

    n1 = 26

    n2 = 31

    6313.png=0.62 g/cm3

    6320.png= 0.56 g/cm3

    s1 = 0.12 g/cm3

    s2 = 0.17 g/cm3

    H0: μ1 = μ2 o μ1 — μ2 = 0. No hay diferencia entre las dos medias poblacionales.

    H1: μ1 > μ2. El nivel medio de humedad en bosques viejos es mayor que los niveles posteriores a la cosecha.

    Utilizaremos el valor crítico basado en el menor de n1— 1 o n2— 1 grados de libertad. En este problema, hay 25 grados de libertad y el valor crítico es de 1.708. Ahora computa el estadístico de prueba.

    \[t=\frac {(0.62-0.56)-0}{\sqrt {\frac {0.12^2}{26}+\frac {0.17^2}{31}}} = 1.556\]

    El estadístico de prueba no cae en la zona de rechazo. No podemos rechazar la hipótesis nula. No hay evidencia suficiente que respalde la afirmación de que el nivel de humedad es significativamente menor en el hábitat poscosecha.

    Ahora responde a esta pregunta construyendo un intervalo de confianza del 90% sobre la diferencia de las medias.

    1)\(t_{\frac {\alpha}{2}}\) = 1.708

    2) E =\(t_{\frac {\alpha}{2}}\)\(\sqrt {\frac {s_1^2}{n_1}+\frac {s^2_2}{n_2}}=1.708\sqrt {\frac {0.12^2}{26}+\frac {0.17^2}{31}}=0.0658\)

    3)\(\bar {x_1} -\bar {x_2} \pm E= (0.62-0.56) ±0.0658\)

    El intervalo de confianza del 90% para la diferencia de las medias es (-0.0058, 0.1258). Los valores en el intervalo de confianza van de negativos a positivos, lo que indica que no hay diferencias significativas en los niveles medios de humedad entre los rodales de crecimiento viejo y poscosecha.

    Soluciones de Software

    Minitab

    073_1.tif

    073_2.tif

    Prueba T de dos muestras e CI: antiguo, poste

    T de dos muestras para viejo vs post

    N

    Media

    StDev

    SE Media

    viejo

    26

    0.620

    0.121

    0.024

    publicar

    31

    0.559

    0.172

    0.031

    Diferencia =\(\mu_{(old)} – \mu_{(post)}\)

    Diferencia estimada: 0.0603

    95% límite inferior para diferencia: -0.0049

    Prueba T de diferencia = 0 (vs >): Valor T = 1.55 Valor P = 0.064 DF = 53

    El valor p (0.064) es mayor que el nivel de confianza por lo que fallamos en rechazar la hipótesis nula.

    Ejemplo adicional: www.youtube.com/ watch? v=7PIB -GVIXFO.

    Excel

    072_1.tif

    072_2.tif

    Prueba T: Dos Muestras Suponiendo Varianzas Desiguales

    Variable 1

    Variable 2

    Media

    0.619615

    0.559355

    Varianza

    0.014708

    0.02948

    Observaciones

    26

    31

    Diferencia de medias hipotética

    0

    df

    54

    t Stat

    1.557361

    \(P(T\le t)\)una cola

    0.063809

    t Crítico de una cola

    1.673565

    \(P(T\le t)\)dos colas

    0.127617

    t Crítico de dos colas

    2.004879

    El valor p de una cola (0.063809) es mayor que el nivel de significancia, por lo tanto, fallamos en rechazar la hipótesis nula.


    This page titled 4.1: Inferencias sobre dos medias con muestras independientes (asumiendo varianzas desiguales) is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.