16.5: La prueba F como comparación de modelos

Última actualización
Guardar como PDF

Page ID: 151300

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

En este punto, quiero platicar con un poco más de detalle sobre lo que realmente están haciendo las pruebas F en un ANOVA. En el contexto del ANOVA, me he estado refiriendo a la prueba F como una forma de probar si un término particular en el modelo (por ejemplo, el efecto principal del Factor A) es significativo. Esta interpretación es perfectamente válida, pero no es necesariamente la forma más útil de pensar sobre la prueba. De hecho, en realidad es una forma bastante limitante de pensar sobre lo que hace la prueba F. Considere los datos de ensayos clínicos con los que hemos estado trabajando en este capítulo. Supongamos que quiero ver si hay algún efecto de algún tipo que implique terapia. No soy quisquilloso: no me importa si es un efecto principal o un efecto de interacción. ²³⁸ Una cosa que pude hacer es mirar la salida del modelo.3 antes: en este modelo sí vimos un efecto principal de la terapia (p=.013) pero no vimos un efecto de interacción (p=.125). Eso es como que nos dice lo que queremos saber, pero no es exactamente lo mismo. Lo que realmente queremos es una prueba única que compruebe conjuntamente el efecto principal de la terapia y el efecto de interacción.

Dada la forma en que he estado describiendo la prueba F de ANOVA hasta este momento, estarías tentado a pensar que esto no es posible. Por otro lado, si recuerda el capítulo sobre regresión (en la Sección 15.10), pudimos utilizar pruebas F para hacer comparaciones entre una amplia variedad de modelos de regresión. ¿Quizás algo de ese tipo es posible con ANOVA? Y claro, la respuesta aquí es sí. Lo que realmente necesitas entender es que la prueba F, como se usa tanto en ANOVA como en regresión, es realmente una comparación de dos modelos estadísticos. Uno de estos modelos es el modelo completo (hipótesis alternativa), y el otro modelo es un modelo más simple al que le faltan uno o más de los términos que incluye el modelo completo (hipótesis nula). El modelo nulo no puede contener ningún término que no esté en el modelo completo. En el ejemplo que di anteriormente, el modelo completo es modelo.3, y contiene un efecto principal para la terapia, un efecto principal para el fármaco, y el término de interacción fármaco por terapia. El modelo nulo sería model.1 ya que contiene sólo el efecto principal del fármaco.

prueba comparando dos modelos

Enmarquemos esto de una manera un poco más abstracta. Diremos que nuestro modelo completo se puede escribir como una fórmula R que contiene varios términos diferentes, digamos Y ~ A + B + C + D. Nuestro modelo nulo solo contiene algún subconjunto de estos términos, digamos Y ~ A + B. Algunos de estos términos pueden ser términos de efecto principal, otros pueden ser términos de interacción. Realmente no importa. Lo único que importa aquí es que queremos tratar algunos de estos términos como el “punto de partida” (es decir, los términos en el modelo nulo, A y B), y queremos ver si incluir los otros términos (es decir, C y D) conduce a una mejora significativa en el modelo rendimiento, más allá de lo que se podría lograr con un modelo que incluya sólo A y B. En esencia, tenemos hipótesis nulas y alternativas que se ven así:

Hipótesis	¿Modelo correcto?	Fórmula R para el modelo correcto
Nulo	M0	`Y ~ A + B`
Alternativa	M1	`Y ~ A + B + C + D`

¿Hay alguna manera de hacer esta comparación directamente?

Para responder a esto, volvamos a los fundamentos. Como vimos en el Capítulo 14, la prueba F se construye a partir de dos tipos de cantidad: sumas de cuadrados (SS) y grados de libertad (df). Estas dos cosas definen un valor cuadrático medio (MS = SS/dF), y obtenemos nuestro estadístico F contrastando el valor MS asociado a “lo que nos interesa” (el modelo) con el valor MS asociado a “todo lo demás” (los residuales). Lo que queremos hacer es averiguar cómo hablar del valor SS que se asocia a la diferencia entre dos modelos. En realidad no es tan difícil de hacer.

Empecemos por la regla fundamental que empleamos a lo largo del capítulo sobre regresión:

Es decir, las sumas totales de cuadrados (es decir, la variabilidad global de la variable de resultado) pueden descomponerse en dos partes: la variabilidad asociada al modelo SS _M, y la variabilidad residual o sobrante, SS _R. Sin embargo, es algo útil reorganizar esta ecuación ligeramente, y decir que el valor SS asociado a un modelo se define así...

SS _M = SS _T −SS _R

Ahora, en nuestro escenario, tenemos dos modelos: el modelo nulo (M0) y el modelo completo (M1):

SS _M0 = SS _T −SS _R0

SS _M1 = SS _T -SS _R1

A continuación, pensemos en qué es lo que realmente nos importa aquí. Lo que nos interesa es la diferencia entre el modelo completo y el modelo nulo. Entonces, si queremos preservar la idea de que lo que estamos haciendo es un “análisis de la varianza” (ANOVA) en la variable de resultado, lo que debemos hacer es definir la SS asociada a la diferencia para que sea igual a la diferencia en la SS:

\(\begin{aligned} S S_{\Delta} &=\mathrm{SS}_{M 1}-\mathrm{SS}_{M 0} \\ &=\left(\mathrm{SS}_{T}-\mathrm{SS}_{R 1}\right)-\left(\mathrm{SS}_{T}-\mathrm{SS}_{R 0}\right) \\ &=\mathrm{SS}_{R 0}-\mathrm{SS}_{R 1} \end{aligned}\)

Ahora que tenemos nuestros grados de libertad, podemos calcular los cuadrados medios y los valores F de la manera habitual. Específicamente, nos interesa el cuadrado medio para la diferencia entre modelos, y el cuadrado medio para los residuales asociados con el modelo completo (M1), que están dados por

\(\begin{aligned} M S_{\Delta} &=\dfrac{\mathrm{SS}_{\Delta}}{\mathrm{df}_{\Delta}} \\ \mathrm{MS}_{R 1} &=\dfrac{\mathrm{SS}_{R 1}}{\mathrm{df}_{R 1}} \end{aligned}\)

Por último, tomar la proporción de estos dos nos da nuestra estadística F:

\(\ F=\dfrac{MS_{\Delta}}{MS_{R1}}\)

### Ejecutando la prueba en R

En este punto, puede ayudar volver a nuestro ejemplo concreto. El modelo nulo aquí es model.1, que estipula que hay un efecto principal de la droga, pero no existen otros efectos. Esto lo expresamos a través de la fórmula modelo mood.gain ~ droga. El modelo alternativo aquí es modelo.3, que estipula que hay un efecto principal del fármaco, un efecto principal de la terapia y una interacción. Si expresamos esto en el formato “largo”, este modelo corresponde a la fórmula mood.gain ~ drug + therapy + medicamento:terapia, aunque a menudo lo expresamos usando la taquigrafía *. Lo clave aquí es que si comparamos model.1 con modelo.3, estamos agrupando el efecto principal de la terapia y el término de interacción juntos. Ejecutar esta prueba en R es sencillo: solo ingresamos ambos modelos a la función anova (), y ejecutará la prueba F exacta que describí anteriormente.

anova( model.1, model.3 )

## Analysis of Variance Table
## 
## Model 1: mood.gain ~ drug
## Model 2: mood.gain ~ drug * therapy
##   Res.Df     RSS Df Sum of Sq      F  Pr(>F)  
## 1     15 1.39167                              
## 2     12 0.65333  3   0.73833 4.5204 0.02424 *
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Veamos si podemos reproducir esta prueba F nosotros mismos. En primer lugar, si retrocede y mira las tablas ANOVA que imprimimos para modelo.1 y modelo.3 puede asegurarse de que los valores RSS impresos en esta tabla realmente corresponden a la suma residual de cuadrados asociados a estos dos modelos. Así que vamos a escribirlos como variables:

ss.res.null <- 1.392
 ss.res.full <- 0.653

Ahora, siguiendo el procedimiento que describí anteriormente, diremos que la suma de cuadrados “entre modelo”, es la diferencia entre estos dos valores residuales de suma de cuadrados. Entonces, si hacemos la resta, descubrimos que la suma de cuadrados asociados a esos términos que aparecen en el modelo completo pero no el modelo nulo es:

ss.diff <- ss.res.null - ss.res.full 
 ss.diff

## [1] 0.739

Derecha. A continuación, como siempre necesitamos convertir estos valores SS en valores MS (cuadrados medios), lo que hacemos dividiendo por los grados de libertad. Los grados de libertad asociados a los residuos de modelo completo no han cambiado con respecto a nuestro ANOVA original para modelo.3: es el tamaño de muestra total N, menos el número total de grupos G que son relevantes para el modelo. Tenemos 18 personas en el ensayo y 6 grupos posibles (es decir, 2 terapias × 3 fármacos), por lo que los grados de libertad aquí son 12. Los grados de libertad para el modelo nulo se calculan de manera similar. La única diferencia aquí es que solo hay 3 grupos relevantes (es decir, 3 drogas), por lo que los grados de libertad aquí son 15. Y, debido a que los grados de libertad asociados a la diferencia son iguales a la diferencia en los dos grados de libertad, llegamos a la conclusión de que tenemos 15−12=3 grados de libertad. Ahora que conocemos los grados de libertad, podemos calcular nuestros valores de EM:

ms.res <- ss.res.full / 12
 ms.diff <- ss.diff / 3

Bien, ahora que tenemos nuestros dos valores MS, podemos dividir uno por otro, y obtener un estadístico F...

F.stat <- ms.diff / ms.res 
 F.stat

## [1] 4.526799

... y, tal como habíamos esperado, esto resulta ser idéntico al estadístico F que la función anova () produjo antes.