5.1: Análisis de varianza
- Page ID
- 149500
Análisis de varianza
Anteriormente, hemos probado hipótesis sobre dos medias poblacionales. Este capítulo examina métodos para comparar más de dos medias. El análisis de varianza (ANOVA) es un método inferencial utilizado para probar la igualdad de tres o más medias poblacionales.
\(H_0: \mu_1= \mu_2= \mu_3= \cdot =\mu_k\)
Este método también se conoce como ANOVA de factor único porque utilizamos una sola propiedad, o característica, para categorizar las poblaciones. Esta característica a veces se denomina tratamiento o factor.
Nota
Un tratamiento (o factor) es una propiedad, o característica, que nos permite distinguir las diferentes poblaciones entre sí.
Los objetos del ANOVA son (1) estimar las medias de tratamiento, y las diferencias de medias de tratamiento; (2) probar hipótesis para la significación estadística de comparaciones de medias de tratamiento, donde “tratamiento” o “factor” es la característica que distingue a las poblaciones.
Por ejemplo, un biólogo podría comparar el efecto que tres herbicidas diferentes pueden tener en la producción de semillas de una especie invasora en un ambiente forestal. El biólogo querría estimar la producción media anual de semillas bajo los tres tratamientos diferentes, mientras que también probaría para ver qué tratamiento da como resultado la menor producción anual de semillas. Las hipótesis nulas y alternativas son:
\(H_0: \mu_1= \mu_2= \mu_3\) | \(H_1\): al menos una de las medias es significativamente diferente de las demás |
Sería tentador probar esta hipótesis nula\(H_0: \mu_1= \mu_2= \mu_3\) comparando las medias poblacionales de dos a la vez. Si continuamos de esta manera, tendríamos que probar tres pares diferentes de hipótesis:
\(H_0: \mu_1= \mu_2\) | Y | \(H_0: \mu_1= \mu_3\) | Y | \(H_0: \mu_2= \mu_3\) |
\(H_1: \mu_1 \ne \mu_2\) | \(H_1: \mu_1 \ne \mu_3\) | \(H_1: \mu_2 \ne \mu_3\) |
Si usáramos un nivel de significancia del 5%, cada prueba tendría una probabilidad de un error Tipo I (rechazando la hipótesis nula cuando es verdadera) de α = 0.05. Cada prueba tendría un 95% de probabilidad de no rechazar correctamente la hipótesis nula. La probabilidad de que las tres pruebas no rechacen correctamente la hipótesis nula es 0.953 = 0.86. Existe una probabilidad de 1 — 0.953 = 0.14 (14%) de que al menos una prueba conduzca a un rechazo incorrecto de la hipótesis nula. Una probabilidad de 14% de un error de Tipo I es mucho mayor que el alfa deseado de 5% (recuerde: α es lo mismo que el error de Tipo I). A medida que aumenta el número de poblaciones, también aumenta la probabilidad de cometer un error de Tipo I usando múltiples pruebas t. El análisis de varianza nos permite probar la hipótesis nula (todas las medias son iguales) contra la hipótesis alternativa (al menos una media es diferente) con un valor especificado de α.
Los supuestos para ANOVA son (1) las observaciones en cada grupo de tratamiento representan una muestra aleatoria de esa población; (2) cada una de las poblaciones se distribuye normalmente; (3) las varianzas poblacionales para cada grupo de tratamiento son homogéneas (es decir,). Podemos probar fácilmente la normalidad de las muestras creando una gráfica de probabilidad normal, sin embargo, verificar varianzas homogéneas puede ser más difícil. Una regla general es la siguiente: Se puede usar ANOVA unidireccional si la desviación estándar de la muestra más grande no es más del doble de la desviación estándar de la muestra más pequeña.
En el capítulo anterior, se utilizó una prueba t de dos muestras para comparar las medias de dos muestras independientes con una varianza común. Los datos de la muestra se utilizan para calcular el estadístico de prueba:
\(t=\dfrac {\bar {x_1}-\bar {x_2}}{s_p\sqrt {\dfrac {1}{n_1}+\dfrac {1}{n_2}}}\)donde\(S_p^2 = \dfrac {(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1+n_2-2}\)
es la estimación agrupada de la varianza poblacional común σ2. Para probar más de dos poblaciones, debemos extender esta idea de varianza agrupada para incluir todas las muestras como se muestra a continuación:
$$s^2_w=\ frac {(n_1-1) s_1^2 + (n_2-1) s_2^2 +... + (n_k - 1) s_k^2} {n_1+n_2+... +n_k-k}\]
donde\(s_w^2\) representa la estimación agrupada de la varianza común\(\sigma^2\), y mide la variabilidad de las observaciones dentro de las diferentes poblaciones independientemente de que H 0 sea verdad o no. Esto a menudo se conoce como la varianza dentro de las muestras (variación debida al error).
Si la hipótesis nula ES verdadera (todas las medias son iguales), entonces todas las poblaciones son iguales, con una media\(\mu\) y varianza comunes\(\sigma^2\). En lugar de seleccionar aleatoriamente diferentes muestras de diferentes poblaciones, en realidad estamos dibujando k muestras diferentes de una población. Sabemos que la distribución muestral para k medias basadas en n observaciones tendrá media\(\mu \bar x\) y varianza\(\frac {\sigma^2}{n}\) (error estándar cuadrado). Dado que hemos dibujado k muestras de n observaciones cada una, podemos estimar la varianza de las k medias muestrales (\(\frac {\sigma^2}{n}\)) por
$$\ dfrac {\ sum (\ bar {x_1} -\ mu_ {\ bar x}) ^2} {k-1} =\ dfrac {\ sum\ bar {x_i} ^1 -\ dfrac {[\ sum\ bar {x_i}] ^2} {k}} {k-1} =\ frac {\ sigma^2} {n}\]
En consecuencia, n veces la varianza muestral de las medias estima σ2. Designamos esta cantidad como SB2 tal que
$$S_B^2 = n*\ dfrac {\ sum (\ bar {x_i} -\ mu_ {\ bar x}) ^2} {k-1} =n*\ dfrac {\ sum\ bar {x_i} ^2 -\ dfrac {[\ bar {x_i}] ^2} {k}} {k-1}\]
donde también\(S_B^2\) es una estimación imparcial de la varianza común\(\sigma^2\), SI\(H_0\) ES VERDADERO. Esto a menudo se conoce como la varianza entre muestras (variación debida al tratamiento).
Bajo la hipótesis nula de que todas las k poblaciones son idénticas, tenemos dos estimaciones de\(σ_2\) (\(S_W^2\)y\(S_B^2\)). Podemos utilizar la relación de\(S_B^2/ S_W^2\) como estadística de prueba para probar la hipótesis nula que\(H_0: \mu_1= \mu_2= \mu_3= …= \mu_k\), la cual sigue una distribución F con grados de libertad\(df_1= k – 1\) y\(df_2= N –k\) (donde k es el número de poblaciones y N es el número total de observaciones (\(N = n_1 + n_2+…+ n_k\)). El numerador del estadístico de prueba mide la variación entre medias muestrales. La estimación de la varianza en el denominador depende únicamente de las varianzas de la muestra y no se ve afectada por las diferencias entre las medias de la muestra.
Cuando la hipótesis nula es verdadera, la relación de\(S_B^2\) y\(S_W^2\) será cercana a 1. Cuando la hipótesis nula es falsa,\(S_B^2\) tenderá a ser mayor que\(S_W^2\) debido a las diferencias entre las poblaciones. Rechazaremos la hipótesis nula si el estadístico de prueba F es mayor que el valor crítico F en un nivel dado de significancia (o si el valor p es menor que el nivel de significancia).
Las tablas son un formato conveniente para resumir los resultados clave en los cálculos ANOVA. La siguiente tabla ANOVA unidireccional ilustra los cálculos requeridos y las relaciones entre los diversos elementos de la tabla ANOVA.
Cuadro 1. Tabla ANOVA unidireccional.
La suma de cuadrados para la tabla ANOVA tiene la relación de SSto = SStR + SST donde:
$$sSTo =\ suma_ {i=1} ^k\ suma_ {j=1} ^n (x_ {ij} -\ bar {\ bar {\ bar {x}}) ^2\]
$$sStr =\ sum_ {i=1} ^k n_i (\ bar {x_i} -\ bar {\ bar {\ bar {x}}) ^2\]
$$SSE =\ suma_ {i=1} ^k\ suma^n_ {j=1} (x_ {ij} -\ bar {x_i}) ^2\]
Variación total (SStO) = variación explicada (SStR) + variación inexplicable (SStO)
Los grados de libertad también tienen una relación similar: df (SStO) = df (sStR) + df (SST)
La Suma Media de Cuadrados para el tratamiento y el error se encuentran dividiendo las Sumas de Cuadrados por los grados de libertad para cada uno. Si bien las sumas de cuadrados son aditivas, las sumas medias de cuadrados no lo son. El estadístico F se encuentra luego dividiendo la Suma Media de Cuadrados para el tratamiento (MStR) por la Suma Media de Cuadrados para el error (MSE). El MSTr es el\(S_B^2\) y el MSE es el\(S_W^2\).
$$F=\ dfrac {S_B^2} {S_W^2} =\ dfrac {mStR} {MSE}\]
Ejemplo\(\PageIndex{1}\):
Un ambientalista quiso determinar si la acidez media de la lluvia difería entre Alaska, Florida y Texas. Seleccionó al azar seis fechas de lluvia en cada sitio obtuvo los siguientes datos:
Cuadro 2. Datos para Alaska, Florida y Texas.
Solución
\(H_0: \mu_A = \mu_F = \mu_T\)
\(H_1\): al menos una de las medias es diferente
Estado |
Tamaño de la muestra |
Total de la muestra |
Media de la muestra |
Varianza muestral |
Alaska |
n1 = 6 |
30.2 |
5.033 |
0.0265 |
Florida |
n2 = 6 |
27.1 |
4.517 |
0.1193 |
Texas |
n3 = 6 |
33.22 |
5.537 |
0.1575 |
Cuadro 3. Tabla de resumen.
Observe que existen diferencias entre las medias de la muestra. ¿Las diferencias son lo suficientemente pequeñas como para ser explicadas únicamente por la variabilidad del muestreo? ¿O son de magnitud suficiente para que una explicación más razonable es que los μ no son todos iguales? La conclusión depende de cuánta variación entre las medias de la muestra (en función de sus desviaciones de la gran media) se compara con la variación dentro de las tres muestras.
La gran media es igual a la suma de todas las observaciones divididas por el tamaño total de la muestra:
\(\bar {\bar{x}}\)= total grande/N = 90.52/18 = 5.0289
$SSto = (5.11-5.0289) ^2 + (5.01-5.0289) ^2 +... + (5.24-5.0289) ^2+ (4.87-5.0289) ^2 + (4.18-5.0289) ^2 +... + (4.09-5.0289) ^2 + (5.46-5.0289) ^2 + (6.29-5.0289) ^2 + (6.29-5.0289) ^2 +... + (5.30-5.0289) ^2 = 4.6384\]
$SSTr = 6 (5.033-5.0289) ^2 + 6 (4.517-5.0289) ^2 + 6 (5.537-5.0289) ^2 = 3.1214\]
$$SST = SSto — SSTr = 4.6384 — 3.1214 = 1.5170\]
Cuadro 4. Tabla ANOVA unidireccional.
Esta prueba se basa en\(df_1 = k – 1 = 2\) y\(df_2 = N – k = 15\). Para α = 0.05, el valor crítico de F es 3.68. Dado que el F = 15.4372 observado es mayor que el valor crítico F de 3.68, rechazamos la hipótesis nula. Hay pruebas suficientes para afirmar que al menos uno de los medios es diferente.
Soluciones de Software
Minitab
ANOVA unidireccional: pH vs estado
Fuente |
DF |
SS |
MS |
F |
P |
Estado |
2 |
3.121 |
1.561 |
15.43 |
0.000 |
Error |
15 |
1.517 |
0.101 |
||
Total |
17 4.638 |
||||
S = 0.3180 R-Sq = 67.29% R-Sq (adj) = 62.93% |
IC del 95% individuales para la media basada en STDev agrupadas |
||||||||
Nivel |
N |
Media |
StDev |
—-+———+———+———+—— |
||||
Alaska |
6 |
5.0333 |
0.1629 |
(——*——) |
||||
Florida |
6 |
4.5167 |
0.3455 |
(——*——) |
||||
Texas |
6 |
5.5367 |
0.3969 |
(——*——) |
||||
—-+———+———+———+—— |
||||||||
4.40 |
4.80 |
5.20 |
5.60 |
|||||
StDev agrupado = 0.3180 |
El valor p (0.000) es menor que el nivel de significancia (0.05) por lo que rechazaremos la hipótesis nula.
Excel
ANOVA: Factor único
RESUMEN |
||||
Grupos |
Contar |
Suma |
Promedio |
Varianza |
Columna 1 |
6 |
30.2 |
5.033333 |
0.026547 |
Columna 2 |
6 |
27.1 |
4.516667 |
0.119347 |
Columna 3 |
6 |
33.22 |
5.536667 |
0.157507 |
ANOVA |
||||||
Fuente de variación |
SS |
df |
MS |
F |
valor p |
F crit |
Entre Grupos |
3.121378 |
2 |
1.560689 |
15.43199 |
0.000229 |
3.68232 |
Dentro de los Grupos |
1.517 |
15 |
0.101133 |
|||
Total |
4.638378 |
17 |
El valor p (0.000229) es menor que alfa (0.05) por lo que rechazamos la hipótesis nula. Hay pruebas suficientes para sustentar la afirmación de que al menos uno de los medios es diferente.
Una vez que hemos rechazado la hipótesis nula y encontrado que al menos una de las medias de tratamiento es diferente, el siguiente paso es identificar esas diferencias. Existen dos enfoques que se pueden utilizar para responder a este tipo de preguntas: los contrastes y las comparaciones múltiples.
Los contrastes solo se pueden usar cuando hay expectativas claras ANTES de comenzar un experimento, y estos se reflejan en el diseño experimental. Los contrastes son comparaciones planificadas. Por ejemplo, los venados mulos son tratados con el medicamento A, el medicamento B o un placebo para tratar una infección. Los tres tratamientos no son simétricos. El placebo está destinado a proporcionar una línea de base con la que se puedan comparar los otros fármacos. Los contrastes son más poderosos que las comparaciones múltiples porque son más específicos. Son más capaces de captar una diferencia significativa. Los contrastes no siempre están fácilmente disponibles en los paquetes de software estadístico (cuando lo están, a menudo es necesario asignar los coeficientes), o pueden limitarse a comparar cada muestra con un control.
Se deben usar comparaciones múltiples cuando no hay expectativas justificadas. Son pruebas de significación aposteriori, por pares. Por ejemplo, comparamos el kilometraje de gasolina para seis marcas de vehículos todo terreno. No tenemos conocimiento previo para esperar que ningún vehículo funcione de manera diferente al resto. Aquí se deben realizar comparaciones por pares, pero solo si una prueba ANOVA en los seis vehículos rechazó primero la hipótesis nula.
NO es apropiado utilizar una prueba de contraste cuando las comparaciones sugeridas aparecen solo después de que se hayan recopilado los datos. Nos vamos a centrar en comparaciones múltiples en lugar de contrastes planificados.