11.3: Análisis de varianza (ANOVA)
- Page ID
- 149675
Hay momentos en los que se quiere comparar tres o más medios poblacionales. Una idea es simplemente probar diferentes combinaciones de dos medias. El problema con eso es que tu posibilidad de un error tipo I aumenta. En su lugar necesitas un proceso para analizarlos todos al mismo tiempo. Este proceso se conoce como análisis de varianza (ANOVA). El estadístico de prueba para el ANOVA es bastante complicado, querrás usar la tecnología para encontrar el estadístico de prueba y el valor p. El estadístico de prueba se distribuye como una distribución F, la cual está sesgada a la derecha y depende de los grados de libertad. Ya que utilizará la tecnología para encontrarlos, no se presentará la distribución y el estadístico de prueba. Recuerde, todas las pruebas de hipótesis son el mismo proceso. Obsérvese que para obtener un resultado estadísticamente significativo solo necesita haber una diferencia entre dos cualesquiera de las k medias.
Antes de realizar la prueba de hipótesis, es útil observar las medias y desviaciones estándar para cada conjunto de datos. Si las medias de la muestra con consideración de las desviaciones estándar de la muestra son diferentes, puede significar que algunas de las medias de la población son diferentes. No obstante, se den cuenta de que si son diferentes, no aporta pruebas suficientes para demostrar que las medias poblacionales son diferentes. Calcular las estadísticas de muestra solo te da una idea de que realizar la prueba de hipótesis es una buena idea.
Prueba de hipótesis usando ANOVA para comparar k medias
- Indicar las variables aleatorias y los parámetros en palabras
\(\begin{array}{l}{x_{1}=\text { random variable } 1} \\ {x_{2}=\text { random variable } 2} \\ {\vdots} \\ {x_{k}=\text { random variable } k} \\ {\mu_{1}=\text { mean of random variable } 2} \\ {\begin{array}{l}{\mu_{2}=\text { mean of random variable } 2} \\ {\vdots} \\ {\mu_{k}=\text { mean of random variable } k}\end{array}}\end{array}\) - Indique las hipótesis nulas y alternativas y el nivel de significación
\(H_{o} : \mu_{1}=\mu_{2}=\mu_{3}=\cdots=\mu_{k}\)
\(H_{A}\): al menos dos de las medias no son iguales
También, indique aquí su\(\alpha\) nivel. - Indicar y verificar los supuestos para la prueba de hipótesis
- Se toma una muestra aleatoria\(n_{i}\) de tamaño de cada población.
- Todas las muestras son independientes entre sí.
- Cada población se distribuye normalmente. La prueba ANOVA es bastante robusta a la suposición especialmente si los tamaños de muestra son bastante cercanos entre sí. A menos que las poblaciones realmente no estén distribuidas normalmente y los tamaños de muestra estén cerca uno del otro, entonces esta es una suposición floja.
- Las varianzas poblacionales son todas iguales. Si los tamaños de muestra están cerca uno del otro, entonces esta es una suposición floja.
- . Encuentra el estadístico de prueba y
el valor p El estadístico de prueba es\(F=\dfrac{M S_{B}}{M S_{W}}\), donde\(M S_{B}=\dfrac{S S_{B}}{d f_{B}}\) está el cuadrado medio entre los grupos (o factores), y\(M S_{W}=\dfrac{S S_{W}}{d f_{W}}\) es el cuadrado medio dentro de los grupos. Los grados de libertad entre los grupos es\(d f_{B}=k-1\) y los grados de libertad dentro de los grupos lo es\(d f_{W}=n_{1}+n_{2}+\cdots+n_{k}-k\). Para encontrar todos los valores, utilice tecnología como la calculadora TI-83/84 o R.
El estadístico de prueba, F, se distribuye como una distribución F, donde se necesitan ambos grados de libertad en esta distribución. El valor p también es calculado por la calculadora o R. - Conclusión
Aquí es donde escribes rechazar\(H_{o}\) o no rechazar\(H_{o}\). La regla es: si el valor p <\(\alpha\), entonces rechazar\(H_{o}\). Si el valor p\(\geq \alpha\), entonces no puede rechazar\(H_{o}\). - Interpretación
Aquí es donde interpretas en términos del mundo real la conclusión a la prueba. La conclusión para una prueba de hipótesis es que o bien tienes suficiente evidencia para demostrar que\(H_{A}\) es verdad, o no tienes suficiente evidencia para demostrar que\(H_{A}\) es verdad.
Si de hecho rechazas\(H_{o}\), entonces sabes que al menos dos de los medios son diferentes. La siguiente pregunta que podrías hacer es ¿cuáles son diferentes? Se pueden observar las medias de la muestra, pero darse cuenta de que éstas sólo dan un resultado preliminar. Para determinar realmente qué medios son diferentes, es necesario realizar otras pruebas. Algunas de estas pruebas son la prueba de rango, pruebas de comparación múltiple, prueba de Duncan, prueba de Student-Newman-Keuls, prueba de Tukey, prueba de Scheffé, prueba de Dunnett, prueba diferente menos significativa, y la prueba de Bonferroni. No hay consenso sobre qué prueba usar. Estas pruebas están disponibles en paquetes informáticos estadísticos como Minitab y SPSS.
Ejemplo\(\PageIndex{1}\) hypothesis test involving several means
El cáncer es una enfermedad terrible. Sobrevivir puede depender del tipo de cáncer que tenga la persona. Para ver si el tiempo medio de supervivencia para varios tipos de cáncer es diferente, se recolectaron datos sobre el tiempo de supervivencia en días de pacientes con uno de estos cánceres en estadio avanzado. Los datos están en Ejemplo\(\PageIndex{1}\) (“Historia de supervivencia del cáncer”, 2013). (Por favor, tenga en cuenta que estos datos son de 1978. Ha habido muchos avances en el tratamiento del cáncer, por lo que no use estos datos como indicación de las tasas de supervivencia de estos cánceres). ¿Los datos indican que al menos dos del tiempo medio de supervivencia para estos tipos de cáncer no son todos iguales? Prueba al nivel del 1%.
Estómago | Bronco | Colón | Ovario | Mama |
---|---|---|---|---|
124 | 81 | 248 | 1234 | 1235 |
42 | 461 | 377 | 89 | 24 |
25 | 20 | 189 | 201 | 1581 |
45 | 450 | 1843 | 356 | 1166 |
412 | 246 | 180 | 2970 | 40 |
51 | 166 | 537 | 456 | 727 |
1112 | 63 | 519 | 3808 | |
46 | 64 | 455 | 791 | |
103 | 155 | 406 | 1804 | |
876 | 859 | 365 | 3460 | |
146 | 151 | 942 | 719 | |
340 | 166 | 776 | ||
396 | 37 | 372 | ||
223 | 163 | |||
138 | 101 | |||
72 | 20 | |||
245 | 283 |
Solución
1. Indicar las variables aleatorias y los parámetros en palabras
\(\begin{array}{l}{x_{1}=\text { survival time from stomach cancer }} \\ {x_{2}=\text { survival time from bronchus cancer }} \\ {x_{3}=\text { survival time from colon cancer }} \\ {x_{4}=\text { survival time from ovarian cancer }} \\ {x_{5}=\text { survival time from breast cancer }} \\ {\mu_{1}=\text { mean survival time from breast cancer }} \\ {\mu_{1}=\text { mean survival time from bronchus cancer }} \\ {\mu_{3}=\text { mean survival time from colon cancer }} \\ {\mu_{4} = \text{mean survival time from ovarian cancer}}\\{\mu_{5} = \text{mean survival time from breast cancer}}\end{array}\)
Ahora antes de realizar la prueba de hipótesis, mire las medias y desviaciones estándar.
\(\begin{array}{ll}{\overline{x}_{1}= 286}&{s_{1}\approx 346.31}\\{\overline{x}_{2} \approx 211.59} & {s_{2} \approx 209.86} \\ {\overline{x}_{3} \approx 457.41} & {s_{3} \approx 427.17} \\ {\overline{x}_{4} \approx 884.33} & {s_{4} \approx 1098.58} \\ {\overline{x}_{5} \approx 1395.91} & {s_{5} \approx 1238.97}\end{array}\)
Parece haber una diferencia entre al menos dos de las medias, pero darse cuenta de que las desviaciones estándar son muy diferentes. La diferencia que ves puede no ser significativa.
Observe que los tamaños de muestra no son los mismos. Los tamaños de muestra son
\(n_{1}=13, n_{2}=17, n_{3}=17, n_{4}=6, n_{5}=11\)
2. Indicar las hipótesis nulas y alternativas y el nivel de significación
\(H_{o} : \mu_{1}=\mu_{2}=\mu_{3}=\mu_{4}=\mu_{5}\)
\(H_{A}\): al menos dos de las medias no son iguales
\(\alpha\)= 0.01
3. Indicar y verificar los supuestos para la prueba de hipótesis
- Se tomó una muestra aleatoria de 13 tiempos de supervivencia de cáncer de estómago. Se tomó una muestra aleatoria de 17 tiempos de supervivencia de cáncer de bronquio. Se tomó una muestra aleatoria de 17 tiempos de supervivencia de cáncer de colon. Se tomó una muestra aleatoria de 6 tiempos de supervivencia de cáncer de ovario. Se tomó una muestra aleatoria de 11 tiempos de supervivencia de cáncer de mama. Estas afirmaciones pueden no ser ciertas. Esta información no se compartió en cuanto a si las muestras fueron aleatorias o no, pero puede ser seguro asumirlo.
- Dado que los individuos tienen diferentes cánceres, entonces las muestras son independientes.
- La población de todos los tiempos de supervivencia por cáncer de estómago se distribuye normalmente.
La población de todos los tiempos de supervivencia del cáncer de bronquio se distribuye normalmente.
La población de todos los tiempos de supervivencia del cáncer de colon se distribuye normalmente.
La población de todos los tiempos de supervivencia por cáncer de ovario se distribuye normalmente.
La población de todos los tiempos de supervivencia del cáncer de mama se distribuye normalmente.
Al observar los histogramas, parcelas de caja y parcelas de cuantiles normales para cada muestra, parece que ninguna de las poblaciones se distribuye normalmente. Los tamaños de muestra son algo diferentes para el problema. Esta suposición puede no ser cierta. - Las varianzas poblacionales son todas iguales. Las desviaciones estándar de la muestra son aproximadamente 346.3, 209.9, 427.2, 1098.6 y 1239.0 respectivamente. Esta suposición no parece cumplirse, ya que las desviaciones estándar de la muestra son muy diferentes. Los tamaños de muestra son algo diferentes para el problema. Esta suposición puede no ser cierta.
4. Encuentra el estadístico de prueba y el valor p
Para encontrar el estadístico de prueba y el valor p usando el TI-83/84, escriba cada conjunto de datos en L1 a L5. Después entra en STAT y otra vez a PRUEBAS y elige ANOVA (. Luego escriba L1, L2, L3, L4, L5 y presione enter. Obtendrás los resultados de la prueba ANOVA.
El estadístico de prueba es\(F \approx 6.433\) y\(p-\text { value } \approx 2.29 \times 10^{-4}\)
Solo para que lo sepas, la información del Factor está entre los grupos y el Error está dentro de los grupos. Entonces
\(\begin{array}{l}{M S_{B} \approx 2883940.13, S S_{B} \approx 11535760.5, \text { and } d f_{B}=4 \text { and }} \\ {M S_{W} \approx 448273.635, S S_{W} \approx 448273.635, \text { and } d f_{W}=59}\end{array}\)
Para encontrar el estadístico de prueba y el valor p en R:
Los comandos serían:
variable=c (escriba todos los valores de datos con comas en el medio) — esta es la variable de respuesta
factor=c (rep (“factor 1", número de valores de datos para el factor 1), rep (“factor 2", número de valores de datos para factor 2), etc) — esto separa los datos en los diferentes factores en los que se basaron las mediciones.
data_name = data.frame (variable, factor) — esto pone los datos en una variable. data_name es el nombre que le das a esta variable
aov (variable ~ factor, data = nombre de datos) — ejecuta el análisis ANOVA
Para este ejemplo, los comandos serían:
time=c (124, 42, 25, 45, 412, 51, 1112, 46, 103, 876, 146, 340, 396, 81, 461, 20, 450, 246, 166, 63, 64, 155, 859, 151, 166, 37, 223, 138, 72, 245, 248, 377, 189, 1843, 180, 537, 519, 455, 406, 365, 942, 776, 372, 163, 101, 20, 283, 1234, 89, 201, 356, 2970, 456, 1235, 24, 1581, 1166, 40, 727, 3808, 791, 1804, 3460, 719)
factor=c (rep (“Estómago”, 13), rep (“Bronco”, 17), rep (“Colon”, 17), rep (“Ovario”, 6), rep (“Mama”, 11))
supervivencia=data.frame (factor de tiempo,)
resultados=aov (tiempo~factor, datos=supervivencia)
resumen ( resultados)
\(\begin{array}{cccccc}{}&{\text{Df}}&{\text{Sum Sq}}&{\text{Mean Sq}}&{\text{F value}}&{\text{Pr(>F)}}\\{\text{factor}}&{4}&{11535761}&{2883940}&{6.4333}&{0.000229***}\\{\text{Residuals}}&{59}&{26448144}&{448274} \end{array}\)
—
Signif. códigos: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 '' 1
El estadístico de prueba es F = 6.433 y el valor p = 0.000229.
5. Conclusión
Rechazar\(H_{o}\) ya que el valor p es menor que 0.01.
6. Interpretación
Hay evidencia que demuestra que al menos dos de los tiempos medios de supervivencia de diferentes cánceres no son iguales.
Al examinar los medios, parece que el tiempo medio de supervivencia para el cáncer de mama es diferente de los tiempos medios de supervivencia tanto para los cánceres de estómago como de bronquio. También puede ser diferente para el tiempo medio de supervivencia para el cáncer de colon. Los otros pueden no ser lo suficientemente diferentes como para decir con certeza.
Tarea
Ejercicio\(\PageIndex{1}\)
En cada problema se muestran todos los pasos de la prueba de hipótesis. Si no se cumplen algunos de los supuestos, tenga en cuenta que los resultados de la prueba pueden no ser correctos y luego continuar el proceso de la prueba de hipótesis.
- Los pájaros cucos tienen la costumbre de poner sus huevos en el nido de otras aves. Las otras aves adoptan y eclosionan los huevos. Se midieron las longitudes (en cm) de los huevos de las aves cuco en los nidos de las otras especies y se encuentran en Ejemplo\(\PageIndex{2}\) (“Huevos de cuco en,” 2013). ¿Los datos muestran que la longitud media de los huevos de ave cuco no es igual cuando se ponen en nidos diferentes? Prueba al nivel del 5%.
Bípito de pradera Bípito arbóreo Gorrión de seto Robin Wagtail Wren 19.65 22.25 21.05 20.85 21.05 21.05 19.85 20.05 22.25 21.85 21.65 21.85 21.85 20.05 20.65 22.25 22.05 22.05 22.05 21.85 20.25 20.85 22.25 22.45 22.85 22.05 21.85 20.85 21.65 22.65 22.65 23.05 22.05 22.05 20.85 21.65 22.65 23.25 23.05 22.25 22.45 20.85 21.65 22.85 23.25 23.05 22.45 22.65 21.05 21.85 22.85 23.25 23.05 22.45 23.05 21.05 21.85 22.85 23.45 23.45 22.65 23.05 21.05 21.85 22.85 23.45 23.85 23.05 23.25 21.25 22.05 23.05 23.65 23.85 23.05 23.45 21.45 22.05 23.25 23.85 23.85 23.05 24.05 22.05 22.05 23.25 24.05 24.05 23.05 24.05 22.05 22.05 23.45 24.05 25.05 23.05 24.05 22.05 22.05 23.65 24.05 23.25 24.85 22.25 22.05 23.85 23.85 22.05 24.25 22.05 24.45 22.05 22.25 22.05 22.25 22.25 22.25 22.25 22.25 22.25 Tabla\(\PageIndex{2}\): Longitudes de Huevos de Pájaro Cuco en Nidos de Diferentes Especies - Levi-Strauss Co fabrica ropa. El departamento de control de calidad mide los valores semanales de diferentes proveedores para la diferencia porcentual de residuos entre el diseño en la computadora y el desperdicio real cuando se hace la ropa (llamado run-up). Los datos están en Ejemplo\(\PageIndex{3}\), y hay algunos valores negativos porque a veces el proveedor es capaz de disenar el patrón mejor que la computadora (“Waste run up”, 2013). ¿Los datos muestran que hay diferencia entre algunos de los proveedores? Prueba al nivel del 1%.
Planta 1 Planta 2 Planta 3 Planta 4 Planta 5 1.2 16.4 12.1 11.5 24 10.1 -6 9.7 10.2 -3.7 -2 -11.6 7.4 3.8 8.2 1.5 -1.3 -2.1 8.3 9.2 -3 4 10.1 6.6 -9.3 -0.7 17 4.7 10.2 8 3.2 3.8 4.6 8.8 15.8 2.7 4.3 3.9 2.7 22.3 -3.2 10.4 3.6 5.1 3.1 -1.7 4.2 9.6 11.2 16.8 2.4 8.5 9.8 5.9 11.3 0.3 6.3 6.5 13 12.3 3.5 9 5.7 6.8 16.9 -0.8 7.1 5.1 14.5 19.4 4.3 3.4 5.2 2.8 19.7 -0.8 7.3 13 3 -3.9 7.1 42.7 7.6 0.9 3.4 1.4 70.2 1.5 0.7 3 8.5 2.4 6 1.3 2.9 Tabla\(\PageIndex{3}\): Rup-ups para diferentes plantas que hacen ropa de Levi Strauss - Varias revistas se agruparon en tres categorías en función del nivel de educación de sus lectores al que están orientadas las revistas: nivel alto, medio o bajo. Luego se seleccionaron muestras aleatorias de las revistas para determinar el número de palabras de tres más sílabas que estaban en la copia publicitaria, y los datos están en Ejemplo\(\PageIndex{4}\) (“Legibilidad de anuncios de revistas”, 2013). ¿Hay pruebas suficientes para demostrar que el número medio de palabras de tres más sílabas en copia publicitaria es diferente para al menos dos de los niveles educativos? Prueba al nivel del 5%.
Educación Superior Educación Media Educación Baja 34 13 7 21 22 7 37 25 7 31 3 7 10 5 7 24 2 7 39 9 8 10 3 8 17 0 8 18 4 8 32 29 8 17 26 8 3 5 9 10 5 9 6 24 9 5 15 9 6 3 9 6 8 9 Tabla\(\PageIndex{4}\): Número de tres palabras de sílabas más en copia publicitaria - Se realizó un estudio para ver qué tan preciso es el etiquetado de los alimentos para las calorías en los alimentos que se consideran reducidos en calorías. El grupo midió la cantidad de calorías por cada elemento de alimento y luego encontró la diferencia porcentual entre los alimentos medidos y etiquetados,\(\dfrac{(\text { measured - labeled })}{\text { labeled }} * 100 \%\). El grupo también analizó alimentos que se anunciaban a nivel nacional, se distribuían regionalmente o se preparaban localmente. Los datos están en Ejemplo\(\PageIndex{5}\) (“Archivo de datos de calorías”, 2013). ¿Los datos indican que al menos dos de las diferencias porcentuales medias entre los tres grupos son diferentes? Prueba al nivel del 10%.
Anunciado Nacional Anunciado regionalmente Preparado a nivel local 2 41 15 -28 46 60 -6 2 250 8 25 145 6 39 6 -1 16.5 8- 1- 17 95 13 28 3 15 -3 -4 14 -4 34 -18 42 10 5 3 -7 3 -0.5 -10 6 Tabla\(\PageIndex{5}\): Diferencias porcentuales entre alimentos medidos y etiquetados - La cantidad de sodio (en mg) en diferentes tipos de perritos calientes está en Ejemplo\(\PageIndex{6}\) (“Historia de perros calientes”, 2013). ¿Hay pruebas suficientes para demostrar que la cantidad media de sodio en los tipos de perritos calientes no son todas iguales? Prueba al nivel del 5%.
Carne de res Carne Avícolas 495 458 430 477 506 375 425 473 396 322 545 383 482 496 387 587 360 542 370 387 359 322 386 357 479 507 528 375 393 513 330 405 426 300 372 513 386 144 358 401 511 581 645 405 588 440 428 522 317 339 545 319 298 253 Tabla\(\PageIndex{6}\): Cantidad de sodio (en mg) en perritos calientes de carne de res, carne y aves
- Contestar
-
Para todas las pruebas de hipótesis, solo se da la conclusión. Ver soluciones para toda la respuesta.
1. Rechazar Ho
3. Rechazar Ho
5. No rechazar a Ho
Fuente de datos:
Muertes aborígenes bajo custodia. (2013, 26 de septiembre). Recuperado a partir de http://www.statsci.org/data/oz/custody.html
Actividades de grupos de delfines. (2013, 26 de septiembre). Recuperado a partir de http://www.statsci.org/data/general/dolpacti.html
Boyle, P., Flowerdew, R., & Williams, A. (1997). Evaluación de la bondad de ajuste en modelos de datos médicos escasos: Un enfoque de simulación. Revista Internacional de Epidemiología, 26 (3), 651-656. Recuperado a partir de http://ije.oxfordjournals.org/conten...3/651.full.pdf html
Archivo de datos de calorías. (2013, 07 de diciembre). Recuperado de lib.stat.cmu.edu/dasl/datafiles/calories.html
Historia de supervivencia al cáncer. (2013, 04 de diciembre). Recuperado de lib.stat.cmu.edu/dasl/stories... rSurvival.html
Preferencias de autos. (2013, 26 de septiembre). Recuperado a partir de http://www.statsci.org/data/oz/carprefs.html
Huevos de cuco en nido de otras aves. (2013, 04 de diciembre). Recuperado de lib.stat.cmu.edu/dasl/stories/cuckoo.html
Educación por edad archivo de datos. (2013, 05 de diciembre). Recuperado de lib.stat.cmu.edu/dasl/datafil... tionbyage.html
Enciclopedia Titanica. (2013, 09 de noviembre). Recuperado de www.encyclopediatitanica.org/
Datos del observatorio global de salud respository. (2013, 09 de octubre). Recuperado de http://apps.who.int/gho/athena/data/...t=GHO/MORT_400 &profile=Excel&filter=AGEGroup:years05-14; AGEGROUP:AÑOS 15- 29; AGEGROUP:AÑOS 30-49; AGEGROUP:AÑOS 50-69; AGEGROUP:AÑOS 70; MGHEREG:REG6_AFR; GHECAUSES: *; SEXO: *
Historia de hot dogs. (2013, 16 de noviembre). Recuperado de lib.stat.cmu.edu/dasl/stories/hotdogs.html
Lepra: Número de casos reportados por país. (2013, 04 de septiembre). Recuperado a partir de http://apps.who.int/gho/data/node.main.A1639
Legibilidad de anuncios de revistas. (2013, 04 de diciembre). Recuperado de lib.stat.cmu.edu/dasl/datafiles/magadsdat.html
Archivo de datos para niños populares. (2013, 05 de diciembre). Recuperado de lib.stat.cmu.edu/dasl/datafil... pularKids.html
Schultz, S. T., Klonoff-Cohen, H. S., Wingard, D. L., Askhoomoff, N. A., Macera, C. A., Ji, M., & Bacher, C. (2006). Lactancia materna, suplementación con fórmula infantil y trastorno autista: resultados de una encuesta a padres. Revista Internacional de Lactancia Materna, 1 (16), doi: 10.1186/1746-4358-1-16
Los desechos se agotan. (2013, 04 de diciembre). Recuperado de lib.stat.cmu.edu/dasl/stories/wasterunup.html