Saltar al contenido principal
LibreTexts Español

13.1: Construcción de modelos

  • Page ID
    150150
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    La construcción de modelos es el proceso de decidir qué variables independientes incluir en el modelo. 22 Para nuestros propósitos, a la hora de decidir qué variables incluir, la teoría y los hallazgos de la literatura existente deben ser las guías más destacadas. Sin embargo, aparte de la teoría, este capítulo examina estrategias empíricas que pueden ayudar a determinar si la adición de nuevas variables mejora el ajuste general del modelo. En general, al agregar una variable, verifique: a) predicción mejorada basada en indicadores empíricos, b) coeficientes estimados estadísticamente y sustantivamente significativos, y c) estabilidad de los coeficientes del modelo, si cambian otros coeficientes al agregar el nuevo, particularmente buscar cambios de signo.

    13.1.1 Teoría e Hipótesis

    La guía más importante para decidir si una variable (o variables) debe incluirse en su modelo es proporcionada por la teoría y la investigación previa. En pocas palabras, conocer la literatura sobre tu tema es vital para saber qué variables son importantes. Debes ser capaz de articular una razón teórica clara para incluir cada variable en tu modelo. En aquellos casos en los que no se cuenta con mucha orientación teórica, sin embargo, se debe utilizar la parsimonia modelo, que es una función de simplicidad y ajuste de modelo, como su guía. Puede enfocarse en si la inclusión de una variable mejora el ajuste del modelo. En la siguiente sección, exploraremos varios indicadores empíricos que pueden ser utilizados para evaluar la idoneidad de la inclusión de variables.

    13.1.2 Indicadores empíricos

    Al construir un modelo, lo mejor es comenzar con algunas IV's y luego comenzar a agregar otras variables. Sin embargo, al agregar una variable, verifique:

    • Predicción mejorada (incremento en R2R2 ajustado)
    • Coeficientes estimados estadísticamente y sustancialmente significativos
    • Estabilidad de los coeficientes del modelo
    • ¿Cambian otros coeficientes al sumar el nuevo?
    • Particularmente buscar cambios de signo para coeficientes estimados.

    Coeficiente de Determinación: R2R2

    R2R2 se discutió previamente en el contexto de regresión simple. La extensión a la regresión múltiple es sencilla, excepto que la regresión múltiple nos lleva a poner mayor peso en el uso del R2R2 ajustado. Recordemos que el R2R2 ajustado corrige la inclusión de múltiples variables independientes; R2R2 es la relación de la suma explicada de cuadrados a la suma total de cuadrados (ESS/TSS).

    R2R2 se expresa como:

    R2=1−RSSTSS (13.1) (13.1) R2=1−RSSTSS

    Sin embargo, esta formulación de R2R2 es insensible a la complejidad del modelo y a los grados de libertad proporcionados por sus datos. Esto significa que un incremento en el número de variables independientes kk, puede incrementar el R2R2. El R2R2 ajustado penaliza al R2R2 corrigiendo los grados de libertad. Se define como:

    ajustadoDR2=1−rssn−k−1tssn−k−1 (13.2) (13.2) ajustadoDR2=1-rssn−k−k−1tssn−k−1

    Se puede comparar el R2R2 de dos modelos, como se ilustra en el siguiente ejemplo. El primer modelo (más simple) consiste en la demografía básica (edad, educación e ingresos) como predictores del riesgo de cambio climático. El segundo modelo (más complejo) agrega a la explicación la variable que mide la ideología política.

    ds.temp <- filter(ds) %>% 
      dplyr::select(glbcc_risk, age, education, income, ideol) %>%
      na.omit()
    
    ols1 <- lm(glbcc_risk ~ age + education + income, data = ds.temp)
    summary(ols1)
    ## 
    ## Call:
    ## lm(formula = glbcc_risk ~ age + education + income, data = ds.temp)
    ## 
    ## Residuals:
    ##     Min      1Q  Median      3Q     Max 
    ## -6.9189 -2.0546  0.0828  2.5823  5.1908 
    ## 
    ## Coefficients:
    ##                 Estimate   Std. Error t value             Pr(>|t|)    
    ## (Intercept)  6.160506689  0.342491831  17.987 < 0.0000000000000002 ***
    ## age         -0.015571138  0.004519107  -3.446              0.00058 ***
    ## education    0.225285858  0.036572082   6.160       0.000000000858 ***
    ## income      -0.000005576  0.000001110  -5.022       0.000000551452 ***
    ## ---
    ## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
    ## 
    ## Residual standard error: 3.008 on 2268 degrees of freedom
    ## Multiple R-squared:  0.02565,    Adjusted R-squared:  0.02437 
    ## F-statistic: 19.91 on 3 and 2268 DF,  p-value: 0.0000000000009815
    ols2 <- lm(glbcc_risk ~ age + education + income + ideol, data = ds.temp)
    summary(ols2)
    ## 
    ## Call:
    ## lm(formula = glbcc_risk ~ age + education + income + ideol, data = ds.temp)
    ## 
    ## Residuals:
    ##     Min      1Q  Median      3Q     Max 
    ## -8.7991 -1.6654  0.2246  1.4437  6.5968 
    ## 
    ## Coefficients:
    ##                  Estimate    Std. Error t value             Pr(>|t|)    
    ## (Intercept) 10.9232861851  0.3092149750  35.326 < 0.0000000000000002 ***
    ## age         -0.0044231931  0.0036688855  -1.206              0.22810    
    ## education    0.0632823391  0.0299443094   2.113              0.03468 *  
    ## income      -0.0000026033  0.0000009021  -2.886              0.00394 ** 
    ## ideol       -1.0366154295  0.0299166747 -34.650 < 0.0000000000000002 ***
    ## ---
    ## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
    ## 
    ## Residual standard error: 2.433 on 2267 degrees of freedom
    ## Multiple R-squared:  0.363,  Adjusted R-squared:  0.3619 
    ## F-statistic:   323 on 4 and 2267 DF,  p-value: < 0.00000000000000022

    Como se puede ver al comparar los resultados del modelo, el modelo más complejo que incluye la ideología política tiene un R2R2 mayor que el modelo más simple. Esto indica que el modelo más complejo explica una mayor fracción de la varianza en los riesgos percibidos del cambio climático. Sin embargo, no sabemos si esta mejora es estadísticamente significativa. Para determinar si el modelo más complejo se suma significativamente a la explicación de los riesgos percibidos, podemos utilizar la prueba de FF.

    Prueba FF

    El FF-test es un estadístico de prueba basado en la distribución FF, de la misma manera el test tt se basa en la distribución tt. La distribución FF sesga a la derecha y oscila entre 00 y ∞. Al igual que la distribución tt, la distribución FF se acerca a la normalidad a medida que aumentan los grados de libertad. ^ [Obsérvese que la distribución FF es el cuadrado de una variable distribuida tt con grados de libertad en mm. La distribución FF tiene 11 grados de libertad en el numerador y grados mm de en el denominador:T2m=F1, MTm2=F1, m

    Las pruebas de FF se utilizan para evaluar la significancia estadística del ajuste general del modelo. La hipótesis nula para una prueba de FF es que el modelo no ofrece ninguna mejora para predecir YiYi sobre la media de YY, ¯YY¯.

    La fórmula para la prueba de FF es:

    f = esskrssn−k−1 (13.3) (13.3) f=Esskrssn−k−K−1

    donde kk es el número de parámetros y n−k−1n−k−1 son los grados de libertad. Por lo tanto, FF es una relación de la varianza explicada a la varianza residual, corrigiendo por el número de observaciones y parámetros. El valor FF se compara con la distribución FF, al igual que una distribución tt, para obtener un valor pp. Tenga en cuenta que la salida R incluye el estadístico FF y el valor pp.

    Prueba de FF anidada

    Para la construcción de modelos recurrimos a la prueba FF anidada, que prueba si un modelo más complejo (con más IVs) agrega al poder explicativo sobre un modelo más simple (con menos IVs). Para averiguarlo, calculamos una estadística F para la mejora del modelo:

    f=ESS1−ESS0QRSS1n−k−1 (13.4) (13.4) f=ESS1−ESS0QRSS1n−k−K−1

    donde qq es la diferencia en el número de IVs entre los modelos más simples y los más complejos. El modelo complejo tiene kk IVs (y estima los parámetros kk), y el modelo más simple tiene k - qk−q IV (y estima solo parámetros k−qk−q). ESS1ESS1 es la suma explicada de cuadrados para el modelo complejo. RSS1RSS1 es la suma residual de cuadrados para el modelo complejo. ESS0ESS0 es la suma explicada de cuadrados para el modelo más simple. Entonces el anidado F representa la relación de la explicación adicional por IV agregado, sobre la suma residual de cuadrados dividida por los grados de libertad del modelo.

    Podemos usar R, para calcular el estadístico FF basado en nuestro ejemplo anterior.

    TSS <- sum((ds.temp$glbcc_risk-mean(ds.temp$glbcc_risk))^2)
    TSS
    ## [1] 21059.86
    RSS.mod1 <- sum(ols1$residuals^2)
    RSS.mod1
    ## [1] 20519.57
    ESS.mod1 <- TSS-RSS.mod1
    ESS.mod1
    ## [1] 540.2891
    RSS.mod2 <- sum(ols2$residuals^2)
    RSS.mod2
    ## [1] 13414.89
    ESS.mod2 <- TSS-RSS.mod2
    ESS.mod2
    ## [1] 7644.965
    F <- ((ESS.mod2 - ESS.mod1)/1)/(RSS.mod2/(length(ds.temp$glbcc_risk)-4-1))
    F
    ## [1] 1200.629

    O simplemente puede usar la función anova en RR:

    anova(ols1,ols2) 
    ## Analysis of Variance Table
    ## 
    ## Model 1: glbcc_risk ~ age + education + income
    ## Model 2: glbcc_risk ~ age + education + income + ideol
    ##   Res.Df   RSS Df Sum of Sq      F                Pr(>F)    
    ## 1   2268 20520                                              
    ## 2   2267 13415  1    7104.7 1200.6 < 0.00000000000000022 ***
    ## ---
    ## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

    Como se muestra usando ambos enfoques, la inclusión de la ideología mejora significativamente el ajuste del modelo.

    13.1.3 Riesgos en la Construcción de Modelos

    Como es cierto de la mayoría de las cosas en la vida, existen riesgos a considerar a la hora de construir modelos estadísticos. Primero, ¿incluyes XX irrelevantes? Estos pueden aumentar la complejidad del modelo, reducir el R2R2 ajustado y aumentar la variabilidad del modelo entre las muestras. Recuerda que debes tener una base teórica para la inclusión de todas las variables en tu modelo.

    Segundo, ¿está omitiendo XX relevantes? No incluir variables importantes puede no capturar el ajuste y puede sesgar otros coeficientes estimados, particularmente cuando el XX omitido está relacionado tanto con otros XX como con la variable dependiente YY.

    Por último, recuerda que estamos utilizando datos de muestra. Por lo tanto, alrededor del 5% de las veces, nuestra muestra incluirá observaciones aleatorias de XX que dan como resultado BB que cumplen con pruebas de hipótesis clásicas, lo que resulta en un error de Tipo I. Por el contrario, los BB pueden ser importantes, pero los datos de la muestra incluirán aleatoriamente observaciones de XX que dan como resultado parámetros estimados que no cumplen con las pruebas estadísticas clásicas, lo que resulta en un error de Tipo II. Por eso nos apoyamos en la teoría, hipótesis previas y replicación.


    This page titled 13.1: Construcción de modelos is shared under a CC BY 4.0 license and was authored, remixed, and/or curated by Jenkins-Smith et al. (University of Oklahoma Libraries) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.