12.3: Ejemplo de Regresión Múltiple

Última actualización
Guardar como PDF

Page ID: 150246

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

library(psych)
describe(data.frame(ds.temp$glbcc_risk,ds.temp$ideol,
                    ds.temp$age))

##                    vars    n  mean    sd median trimmed   mad min max
## ds.temp.glbcc_risk    1 2513  5.95  3.07      6    6.14  2.97   0  10
## ds.temp.ideol         2 2513  4.66  1.73      5    4.76  1.48   1   7
## ds.temp.age           3 2513 60.38 14.19     62   61.01 13.34  18  99
##                    range  skew kurtosis   se
## ds.temp.glbcc_risk    10 -0.32    -0.94 0.06
## ds.temp.ideol          6 -0.45    -0.79 0.03
## ds.temp.age           81 -0.38    -0.23 0.28

library(car)
scatterplotMatrix(data.frame(ds.temp$glbcc_risk,
                             ds.temp$ideol,ds.temp$age),
                  diagonal="density")

En esta sección, recorremos otro ejemplo de regresión múltiple. Primero, comenzamos con nuestros dos modelos IV.

ols1 <- lm(glbcc_risk ~ age+ideol, data=ds.temp)
summary(ols1)

## 
## Call:
## lm(formula = glbcc_risk ~ age + ideol, data = ds.temp)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -8.7913 -1.6252  0.2785  1.4674  6.6075 
## 
## Coefficients:
##              Estimate Std. Error t value            Pr(>|t|)    
## (Intercept) 11.096064   0.244640  45.357 <0.0000000000000002 ***
## age         -0.004872   0.003500  -1.392               0.164    
## ideol       -1.042748   0.028674 -36.366 <0.0000000000000002 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.479 on 2510 degrees of freedom
## Multiple R-squared:  0.3488, Adjusted R-squared:  0.3483 
## F-statistic: 672.2 on 2 and 2510 DF,  p-value: < 0.00000000000000022

Los resultados muestran que la relación entre la edad y el riesgo percibido (glbccrsk) es negativa e insignificante. La relación entre ideología y riesgo percibido es negativa y significativa. Los coeficientes de los XX se interpretan de la misma manera que con la regresión simple, excepto que ahora estamos controlando el efecto de los otros XX eliminando su influencia en el coeficiente estimado. Por lo tanto, decimos que a medida que la ideología aumenta una unidad, las percepciones del riesgo de cambio climático (glbccrsk) disminuyen en -1.0427478, controlando por el efecto de la edad.

Como fue el caso de la regresión simple, la regresión múltiple encuentra la intercepción y pendientes que minimizan la suma de los residuales cuadrados. Con solo una IV la relación se puede representar en un plano bidimensional (una gráfica) como una línea, pero cada IV agrega otra dimensión. Dos IVs crean un plano de regresión dentro de un cubo, como se muestra en la Figura\(\PageIndex{3}\). La Figura muestra una gráfica de dispersión del riesgo percibido del cambio climático, la edad y la ideología junto con el plano de regresión. Tenga en cuenta que esta es una muestra de 200 observaciones del conjunto de datos más grande. Si tuviéramos que añadir más IVs, generaríamos un hipercubo... y aún no hemos encontrado una forma inteligente de dibujar eso.

ds200 <- ds.temp[sample(1:nrow(ds.temp), 200, replace=FALSE),]
library(scatterplot3d)  
s3d <-scatterplot3d(ds200$age,
                    ds200$ideol,
                    ds200$glbcc_risk
                    ,pch=16, highlight.3d=TRUE,  
type="h", main="3D Scatterplot")
s3d$plane3d(ols1)

Figura\(\PageIndex{3}\): Gráfica de dispersión y plano de regresión de riesgo gcc, edad e ideología

En el siguiente ejemplo se agrega educación al modelo.

ds.temp <- filter(ds) %>%
  dplyr::select(glbcc_risk, age, education, income, ideol) %>%
  na.omit()

ols2 <- lm(glbcc_risk ~ age + education + ideol, data = ds.temp)
summary(ols2)

## 
## Call:
## lm(formula = glbcc_risk ~ age + education + ideol, data = ds.temp)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -8.8092 -1.6355  0.2388  1.4279  6.6334 
## 
## Coefficients:
##              Estimate Std. Error t value            Pr(>|t|)    
## (Intercept) 10.841669   0.308416  35.153 <0.0000000000000002 ***
## age         -0.003246   0.003652  -0.889               0.374    
## education    0.036775   0.028547   1.288               0.198    
## ideol       -1.044827   0.029829 -35.027 <0.0000000000000002 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.437 on 2268 degrees of freedom
## Multiple R-squared:  0.3607, Adjusted R-squared:  0.3598 
## F-statistic: 426.5 on 3 and 2268 DF,  p-value: < 0.00000000000000022

Vemos que a medida que la educación de un encuestado aumenta una unidad en la escala educativa, el riesgo percibido parece aumentar en 0.0367752, manteniendo constantes la edad y la ideología. Sin embargo, este resultado no es significativo. En el último ejemplo, los ingresos se suman al modelo. Obsérvese que el tamaño y significancia de la educación en realidad aumenta una vez incluidos los ingresos, lo que indica que la educación sólo tiene incidencia en los riesgos percibidos del cambio climático una vez que se considera el efecto independiente del ingreso.

options(scipen = 999) #to turn off scientific notation
ols3 <- lm(glbcc_risk ~ age + education + income + ideol, data = ds.temp)
summary(ols3)

## 
## Call:
## lm(formula = glbcc_risk ~ age + education + income + ideol, data = ds.temp)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -8.7991 -1.6654  0.2246  1.4437  6.5968 
## 
## Coefficients:
##                  Estimate    Std. Error t value             Pr(>|t|)    
## (Intercept) 10.9232861851  0.3092149750  35.326 < 0.0000000000000002 ***
## age         -0.0044231931  0.0036688855  -1.206              0.22810    
## education    0.0632823391  0.0299443094   2.113              0.03468 *  
## income      -0.0000026033  0.0000009021  -2.886              0.00394 ** 
## ideol       -1.0366154295  0.0299166747 -34.650 < 0.0000000000000002 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.433 on 2267 degrees of freedom
## Multiple R-squared:  0.363,  Adjusted R-squared:  0.3619 
## F-statistic:   323 on 4 and 2267 DF,  p-value: < 0.00000000000000022

12.3.1 Pruebas de Hipótesis y TT-Tests

La lógica de las pruebas de hipótesis con regresión múltiple es una extensión directa de la regresión simple como se describe en el Capítulo 7. A continuación demostraremos cómo utilizar el error estándar de la variable ideológica para probar si la ideología influye en las percepciones del riesgo percibido del cambio climático global. Específicamente, postulamos:

H1H1: A medida que los encuestados se vuelvan más conservadores, percibirán que el cambio climático es menos riesgoso, todo lo demás igual.

Por lo tanto, βideología<0βideología<0. La hipótesis nula es que βideology=0βideology=0.

Para probar H1H1 primero necesitamos encontrar el error estándar del BB para ideología, (BJBj).

SE (Bj) =SE√rSSj (12.1) (12.1) SE (Bj) =SersSj

donde rSSJ=RSSJ= la suma residual de cuadrados de la regresión de xJxJ (ideología) sobre los otros XXs (edad, educación, ingresos) en el modelo. RssJrssJ captura toda la variación independiente en xJxJ. Tenga en cuenta que cuanto más grande sea RssJrssJ, más pequeña SE (Bj) SE (Bj) y la SE (Bj) SE (Bj) más pequeña será la estimación de BjBj.

SESE (el error estándar del modelo) es:

se=√rssn−k−1se=RSSN−k−1

Podemos usar R para encontrar el RSSRSS para ideología en nuestro modelo. Primero encontramos el SESE del modelo:

Se <- sqrt((sum(ols3$residuals^2))/(length(ds.temp$ideol)-5-1))
Se

## [1] 2.43312

Entonces encontramos el RSSRSS, por ideología:

ols4 <- lm(ideol ~ age + education + income, data = ds.temp)
summary(ols4)

## 
## Call:
## lm(formula = ideol ~ age + education + income, data = ds.temp)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4.2764 -1.1441  0.2154  1.4077  3.1288 
## 
## Coefficients:
##                  Estimate    Std. Error t value             Pr(>|t|)    
## (Intercept)  4.5945481422  0.1944108986  23.633 < 0.0000000000000002 ***
## age          0.0107541759  0.0025652107   4.192   0.0000286716948757 ***
## education   -0.1562812154  0.0207596525  -7.528   0.0000000000000738 ***
## income       0.0000028680  0.0000006303   4.550   0.0000056434561990 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.707 on 2268 degrees of freedom
## Multiple R-squared:  0.034,  Adjusted R-squared:  0.03272 
## F-statistic:  26.6 on 3 and 2268 DF,  p-value: < 0.00000000000000022

RSSideol <- sum(ols4$residuals^2)
RSSideol

## [1] 6611.636

Finalmente, calculamos el SESE para ideología:

SEideol <- Se/sqrt(RSSideol)
SEideol

## [1] 0.02992328

Una vez que se conoce el SE (Bj) SE (Bj), se puede calcular la prueba tt para el coeficiente ideológico. El valor tt es la relación entre el coeficiente estimado y su error estándar.

t=BJSE (Bj) (12.2) (12.2) T=BJSE (Bj)

Esto se puede calcular usando R.

ols3$coef[5]/SEideol

##     ideol 
## -34.64245

Como vemos, el resultado es estadísticamente significativo, y por lo tanto rechazamos la hipótesis nula. También tenga en cuenta que los resultados coinciden con los de la salida R para el modelo completo, como se mostró anteriormente.