28.3: La prueba t como modelo lineal

Última actualización
Guardar como PDF

Page ID: 150522

$ \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } $ $ \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} $$\newcommand{\id}{\mathrm{id}}$ $ \newcommand{\Span}{\mathrm{span}}$ $ \newcommand{\kernel}{\mathrm{null}\,}$ $ \newcommand{\range}{\mathrm{range}\,}$ $ \newcommand{\RealPart}{\mathrm{Re}}$ $ \newcommand{\ImaginaryPart}{\mathrm{Im}}$ $ \newcommand{\Argument}{\mathrm{Arg}}$ $ \newcommand{\norm}[1]{\| #1 \|}$ $ \newcommand{\inner}[2]{\langle #1, #2 \rangle}$ $ \newcommand{\Span}{\mathrm{span}}$ $\newcommand{\id}{\mathrm{id}}$ $ \newcommand{\Span}{\mathrm{span}}$ $ \newcommand{\kernel}{\mathrm{null}\,}$ $ \newcommand{\range}{\mathrm{range}\,}$ $ \newcommand{\RealPart}{\mathrm{Re}}$ $ \newcommand{\ImaginaryPart}{\mathrm{Im}}$ $ \newcommand{\Argument}{\mathrm{Arg}}$ $ \newcommand{\norm}[1]{\| #1 \|}$ $ \newcommand{\inner}[2]{\langle #1, #2 \rangle}$ $ \newcommand{\Span}{\mathrm{span}}$$\newcommand{\AA}{\unicode[.8,0]{x212B}}$

La prueba t a menudo se presenta como una herramienta especializada para comparar medias, pero también puede verse como una aplicación del modelo lineal general. En este caso, el modelo se vería así:

$\ hat {BP} =\ hat {\ beta_1} *Marihuana +\ sombrero {\ beta_0}$ Sin embargo, fumar es una variable binaria, por lo que la tratamos como una variable ficticio como discutimos en el capítulo anterior, estableciéndola en un valor de 1 para fumadores y cero para no fumadores. En ese caso, $\ sombrero {\ beta_1}$ es simplemente la diferencia de medias entre los dos grupos, y $\ sombrero {\ beta_0}$ es la media para el grupo que se codificó como cero. Podemos ajustar este modelo usando la función lm (), y ver que da el mismo estadístico t que la prueba t anterior:

## 
## Call:
## lm(formula = TVHrsNum ~ RegularMarij, data = NHANES_sample)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -2.293 -1.133 -0.133  0.867  2.867 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)        2.133      0.119   17.87   <2e-16 ***
## RegularMarijYes    0.660      0.249    2.65   0.0086 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.5 on 198 degrees of freedom
## Multiple R-squared:  0.0343, Adjusted R-squared:  0.0295 
## F-statistic: 7.04 on 1 and 198 DF,  p-value: 0.00861

También podemos ver gráficamente los resultados del modelo lineal (ver el panel derecho de la Figura 28.1). En este caso, el valor pronosticado para los no fumadores es $\ sombrero {\ beta_0}$ (2.13) y el valor previsto para fumadores es $\ sombrero {\ beta_0} +\ sombrero {\ beta_1}$ (2.79).

Para calcular los errores estándar para este análisis, podemos usar exactamente las mismas ecuaciones que usamos para la regresión lineal, ya que esto realmente es solo otro ejemplo de regresión lineal. De hecho, si comparas el valor p de la prueba t anterior con el valor p en el análisis de regresión lineal para la variable de consumo de marihuana, verás que el del análisis de regresión lineal es exactamente el doble que el de la prueba t, porque el análisis de regresión lineal está realizando un análisis de regresión lineal prueba.

28.3.1 Tamaños de efecto para comparar dos medias

El tamaño de efecto más utilizado para una comparación entre dos medias es la d de Cohen, que (como recordará del Capítulo 18) es una expresión del efecto en términos de unidades de error estándar. Para la prueba t estimada usando el modelo lineal general descrito anteriormente (es decir, con una única variable codificada), esto se expresa como:

$d =\ frac {\ sombrero {beta_1}} {SE_ {residual}}$ Podemos obtener estos valores a partir del resultado del análisis anterior, dándonos un d = 0.45, que generalmente interpretaríamos como un efecto de tamaño medio.

También podemos calcular $R$ para este análisis, que nos dice cuánta varianza en la visualización de televisión se tiene en cuenta. Este valor (que se reporta en el resumen del análisis lm ()) es de 0.03, lo que nos dice que si bien el efecto puede ser estadísticamente significativo, representa relativamente poca de la varianza en la visualización de televisión.