Saltar al contenido principal
LibreTexts Español

9.1: Pruebas de hipótesis para coeficientes de regresión

  • Page ID
    150281
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    La prueba de hipótesis es la clave para la construcción de la teoría. Este capítulo se centra en la prueba empírica de hipótesis utilizando regresión OLS, con ejemplos extraídos del conjunto de datos de clases adjunto. Aquí utilizaremos las respuestas a la pregunta de ideología política (que van desde 1=liberal fuerte a 7=conservador fuerte), así como respuestas a una pregunta sobre el nivel de riesgo de los encuestados que plantea el calentamiento global para las personas y el medio ambiente de los encuestados. 15

    Utilizando los datos de estas preguntas, planteamos la siguiente hipótesis:

    H1H1: En promedio, a medida que los encuestados se vuelven más conservadores políticamente, será menos probable que expresen un mayor riesgo asociado con el calentamiento global.

    La hipótesis nula, H0H0, es β=0β=0, postula que la ideología de un encuestado no tiene relación con sus puntos de vista sobre los riesgos del calentamiento global para las personas y el medio ambiente. Nuestra hipótesis de trabajo, H1H1, es β<0β<0. Esperamos que ββ sea menor que cero porque esperamos una pendiente negativa entre nuestras medidas de ideología y los niveles de riesgo asociados al calentamiento global, dado que un mayor valor numérico para la ideología indica un encuestado más conservador. Tenga en cuenta que esta es una hipótesis direccional ya que estamos publicando una relación negativa. Por lo general, una hipótesis direccional implica una prueba de una cola donde el valor crítico es 0.05 en un lado de la distribución. Una hipótesis no direccional, β≠ 0β≠ 0 no implica una dirección particular, solo implica que existe una relación. Esto requiere una prueba de dos colas donde el valor crítico es 0.025 en ambos lados de la distribución.

    Para probar esta hipótesis, ejecutamos el siguiente código en R.

    Antes de comenzar, para este capítulo necesitaremos hacer un conjunto de datos especial que solo contenga las variables glbcc_risk e ideol con sus valores faltantes eliminados.

    #Filtering a data set with only variables glbcc_risk and ideol
    ds.omit <- filter(ds) %>%
      dplyr::select(glbcc_risk,ideol) %>%
      na.omit()
    #Run the na.omit function to remove the missing values
    ols1 <- lm(glbcc_risk ~ ideol, data = ds.omit)
    summary(ols1)
    ## 
    ## Call:
    ## lm(formula = glbcc_risk ~ ideol, data = ds.omit)
    ## 
    ## Residuals:
    ##    Min     1Q Median     3Q    Max 
    ## -8.726 -1.633  0.274  1.459  6.506 
    ## 
    ## Coefficients:
    ##             Estimate Std. Error t value            Pr(>|t|)    
    ## (Intercept) 10.81866    0.14189   76.25 <0.0000000000000002 ***
    ## ideol       -1.04635    0.02856  -36.63 <0.0000000000000002 ***
    ## ---
    ## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
    ## 
    ## Residual standard error: 2.479 on 2511 degrees of freedom
    ## Multiple R-squared:  0.3483, Adjusted R-squared:  0.348 
    ## F-statistic:  1342 on 1 and 2511 DF,  p-value: < 0.00000000000000022

    Para saber si aceptar el rechazo de la hipótesis nula, primero necesitamos entender el error estándar asociado con el modelo y nuestros coeficientes. Comenzamos, por tanto, con la consideración del error estándar residual del modelo de regresión.

    9.1.1 Error estándar residual

    El error estándar residual (o error estándar de la regresión) mide la dispersión de nuestras observaciones alrededor de la línea de regresión. Como se discutirá a continuación, se utiliza el error estándar residual para calcular los errores estándar de los coeficientes de regresión, AA y BB.

    La fórmula para el error estándar residual es la siguiente:

    se=√σE2in−2 (9.1) (9.1) se=σeI2n−2

    Para calcular esto en R, basado en el modelo que acabamos de ejecutar, creamos un objeto llamado Se y usamos los comandos sqrt y sum.

    Se <- sqrt(sum(ols1$residuals^2)/(length(ds.omit$glbcc_risk)-2))
    Se
    ## [1] 2.479022

    Tenga en cuenta que este resultado coincide con el resultado proporcionado por la función de resumen en R, como se muestra arriba.

    Para nuestro modelo, los resultados indican que: YI=10.8186624−1.0463463xi+EIII=10.8186624−1.0463463xi+EI. Otra muestra de 2513 observaciones conduciría casi con certeza a diferentes estimaciones para AA y BB. Si sacáramos muchas de esas muestras, obtendríamos la distribución muestral de las estimaciones. Debido a que normalmente no podemos dibujar muchas muestras, necesitamos estimar la distribución de la muestra, con base en nuestro tamaño de muestra y varianza. Para ello, calculamos el error estándar de los coeficientes de pendiente e intercepción, SE (B) SE (B) y SE (A) SE (A) SE (A). Estos errores estándar son nuestras estimaciones de cuánta variación esperaríamos en las estimaciones de BB y AA en diferentes muestras. Los usamos para evaluar si BB y AA son mayores de lo que se esperaría que ocurriera por casualidad si los valores reales de BB y/o AA son cero (las hipótesis nulas).

    El error estándar para BB, SE (B) SE (B) es:

    SE (B) =SE√TSSX (9.2) (9.2) SE (B) =SETSSX

    donde SESE es el error estándar residual de la regresión, (como se muestra anteriormente en la ecuación 9.1). TSSXTSSX es la suma total de cuadrados para XX, es decir, la suma total de las desviaciones al cuadrado (residuos) de XX de su media ¯XX¯; (Xi−¯X) 2( Xi−X¯) 2. Obsérvese que cuanto mayor sea la desviación de XX alrededor de su media como proporción del error estándar del modelo, menor será la SE (B) SE (B). Cuanto menor sea la SE (B) SE (B), menos variación esperaríamos en estimaciones repetidas de BB a través de múltiples muestras.

    El error estándar para AA, SE (A) SE (A), se define como:

    SE (A) =SE*√1n+¯x2TSSx (9.3) (9.3) SE (A) =SE*1n+x¯2TSSx

    Nuevamente, el SESE es el error estándar residual, como se muestra en la ecuación 9.1.

    Para AA, cuanto mayor sea el conjunto de datos, y cuanto mayor sea la desviación de XX alrededor de su media, más precisa será nuestra estimación de AA (es decir, menor será la SE (A) SE (A)).

    Podemos calcular el SESE de AA y BB en R en unos pocos pasos. Primero, creamos un objeto TSSx que es la suma total de cuadrados para la variable XX.

    TSSx <- sum((ds.omit$ideol-mean(ds.omit$ideol, na.rm = TRUE))^2)
    TSSx
    ## [1] 7532.946

    Luego, creamos un objeto llamado SeA.

    SEa <- Se*sqrt((1/length(ds.omit$glbcc_risk))+(mean(ds.omit$ideol,na.rm=T)^2/TSSx))
    SEa
    ## [1] 0.1418895

    Finalmente, creamos SeB.

    SEb <- Se/(sqrt(TSSx))
    SEb
    ## [1] 0.02856262

    Usando los errores estándar, podemos determinar qué tan probable es que nuestra estimación de ββ difiera de 00; es decir, cuántos errores estándar nuestra estimación está lejos de 00. Para determinar esto utilizamos el valor tt. La puntuación tt se deriva dividiendo el coeficiente de regresión por su error estándar. Para nuestro modelo, el valor tt para ββ es el siguiente:

    t <- ols1$coef[2]/SEb
    t
    ##     ideol 
    ## -36.63342

    El valor tt para nuestro BB es 36.6334214, lo que significa que BB está a 36.6334214 errores estándar lejos de cero. Entonces podemos preguntar: ¿Cuál es la probabilidad, valor pp, de obtener este resultado si β=0β=0? Según los resultados mostrados anteriormente, p=2e−16p=2e−16. Eso está notablemente cerca de cero. Este resultado indica que podemos rechazar la hipótesis nula de que β=0β=0.

    Además, podemos calcular el intervalo de confianza (IC) para nuestra estimación de BB. Esto significa que en 95 de cada 100 aplicaciones repetidas, el intervalo de confianza contendrá ββ.

    En el siguiente ejemplo, calculamos un IC 95% 95%. El IC se calcula de la siguiente manera:

    B±1.96 (SE (B)) (9.4) (9.4) B±1.96 (SE (B))

    Podemos calcular esto fácilmente en R. Primero, calculamos el límite superior luego el límite inferior y luego usamos la función confint para verificar.

    Bhi <- ols1$coef[2]-1.96*SEb
    Bhi
    ##     ideol 
    ## -1.102329
    Blow <- ols1$coef[2]+1.96*SEb
    Blow
    ##      ideol 
    ## -0.9903636
    confint(ols1)
    ##                 2.5 %     97.5 %
    ## (Intercept) 10.540430 11.0968947
    ## ideol       -1.102355 -0.9903377

    Como se muestra, el límite superior de nuestro BB estimado es de -0.9903636, que está muy por debajo de 00, lo que brinda más soporte para rechazar H0H0.

    Entonces, usando nuestros datos de ejemplo, probamos la hipótesis de trabajo de que la ideología política está negativamente relacionada con el riesgo percibido de calentamiento global para las personas y el medio ambiente. Utilizando la regresión simple de OLS, encontramos soporte para esta hipótesis de trabajo y podemos rechazar el nulo.


    This page titled 9.1: Pruebas de hipótesis para coeficientes de regresión is shared under a CC BY 4.0 license and was authored, remixed, and/or curated by Jenkins-Smith et al. (University of Oklahoma Libraries) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.