Saltar al contenido principal
LibreTexts Español

8.1: Regresiones Múltiples

  • Page ID
    149538
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Con frecuencia sucede que una variable dependiente (y) en la que nos interesa está relacionada con más de una variable independiente. Si se puede estimar esta relación, puede permitirnos hacer predicciones más precisas de la variable dependiente de lo que sería posible mediante una simple regresión lineal. Las regresiones basadas en más de una variable independiente se denominan regresiones múltiples.

    La regresión lineal múltiple es una extensión de la regresión lineal simple y muchas de las ideas que examinamos en regresión lineal simple se trasladan al ajuste de regresión múltiple. Por ejemplo, las gráficas de dispersión, la correlación y el método de mínimos cuadrados siguen siendo componentes esenciales para una regresión múltiple.

    Por ejemplo, un índice de idoneidad del hábitat (utilizado para evaluar el impacto en el hábitat de la vida silvestre de los cambios en el uso de la tierra) para el urogallo volado podría estar relacionado con tres factores:

    x 1 = densidad del tallo
    x 2 = porcentaje de coníferas
    x 3 = cantidad de materia herbácea del sotobosque

    Un investigador recopilaría datos sobre estas variables y utilizaría los datos de la muestra para construir una ecuación de regresión que relacionara estas tres variables con la respuesta. El investigador tendrá dudas sobre su modelo similar a un modelo de regresión lineal simple.

    • ¿Qué tan fuerte es la relación entre y y las tres variables predictoras?
    • ¿Qué tan bien encaja el modelo?
    • ¿Se han violado algunas suposiciones importantes?
    • ¿Qué tan buenas son las estimaciones y predicciones?

    El modelo de regresión lineal general toma la forma de

    $y_i =\ beta_0+\ beta_1x_1+\ beta_2x_2 +... +\ beta_kx_k+\ épsilon\]

    con el valor medio de y dado como

    \[\mu_y = \beta_0 +\beta_1 x_1+\beta_2 x_2+...+\beta_k x_k\]

    donde:

    • y es la variable de respuesta aleatoria y μy es el valor medio de y,
    • β0, β1, β2 y βk son los parámetros a estimar con base en los datos de la muestra,
    • x 1, x 2,..., x k son las variables predictoras que se suponen no aleatorias o fijas y medidas sin error, y k es el número de variables predictoras,
    • y ε es el error aleatorio, que permite que cada respuesta se desvíe del valor promedio de y. Se supone que los errores son independientes, tienen una media de cero y una varianza común (σ2), y se distribuyen normalmente.

    Como puede ver, el modelo de regresión múltiple y los supuestos son muy similares a los de un modelo de regresión lineal simple con una variable predictora. Examinar las parcelas residuales y las gráficas de probabilidad normal para los residuos es clave para verificar los supuestos.

    Correlación

    Al igual que con la regresión lineal simple, siempre debemos comenzar con una gráfica de dispersión de la variable de respuesta versus cada variable predictora. También se deben calcular los coeficientes de correlación lineal para cada par. En lugar de calcular la correlación de cada par individualmente, podemos crear una matriz de correlación, que muestra la correlación lineal entre cada par de variables bajo consideración en un modelo de regresión lineal múltiple.

    13236.png

    Cuadro 1. Una matriz de correlación.

    En esta matriz, el valor superior es el coeficiente de correlación lineal y el valor inferior es el valor p para probar la hipótesis nula de que un coeficiente de correlación es igual a cero. Esta matriz nos permite ver la fuerza y dirección de la relación lineal entre cada variable predictora y la variable de respuesta, pero también la relación entre las variables predictoras. Por ejemplo, y y x1 tienen una relación lineal fuerte y positiva con r = 0.816, lo cual es estadísticamente significativo porque p = 0.000. También podemos ver que las variables predictoras x1 y x3 tienen una relación lineal positiva moderadamente fuerte (r = 0.588) que es significativa (p = 0.001).

    Hay muchas razones diferentes para seleccionar qué variables explicativas incluir en nuestro modelo (ver Desarrollo y Selección del Modelo), sin embargo, frecuentemente elegimos las que tienen una correlación lineal alta con la variable de respuesta, pero debemos tener cuidado. No queremos incluir variables explicativas que estén altamente correlacionadas entre sí. Necesitamos ser conscientes de cualquier multicolinealidad entre las variables predictoras.

    La multicolinealidad existe entre dos variables explicativas si tienen una fuerte relación lineal.

    Por ejemplo, si estamos tratando de predecir la presión arterial de una persona, una variable predictora sería el peso y otra variable predictora sería la dieta. Ambas variables predictoras están altamente correlacionadas con la presión arterial (ya que el peso aumenta la presión arterial típicamente aumenta, y a medida que la dieta aumenta la presión arterial también aumenta). Pero, ambas variables predictoras también están altamente correlacionadas entre sí. Ambas variables predictoras están transmitiendo esencialmente la misma información a la hora de explicar la presión arterial. Incluir ambos en el modelo puede generar problemas a la hora de estimar los coeficientes, ya que la multicolinealidad incrementa los errores estándar de los coeficientes. Esto significa que los coeficientes para algunas variables pueden no ser significativamente diferentes de cero, mientras que sin multicolinealidad y con errores estándar más bajos, los mismos coeficientes podrían haberse encontrado significativos. Las formas de probar la multicolinealidad no están cubiertas en este texto, sin embargo, una regla general es desconfiar de una correlación lineal de menos de -0.7 y mayor de 0.7 entre dos variables predictoras. Siempre examine la matriz de correlación para las relaciones entre las variables predictoras para evitar problemas de multicolinealidad.

    Estimación

    Los procedimientos de estimación e inferencia también son muy similares a la regresión lineal simple. Así como usamos nuestros datos de muestra para estimar β0 y β1 para nuestro modelo de regresión lineal simple, vamos a extender este proceso para estimar todos los coeficientes para nuestros modelos de regresión múltiple.

    Con el modelo poblacional más simple

    x $$\ mu_y =\ beta_0+\ beta_1x\]

    β1 es la pendiente y le dice al usuario cuál sería el cambio en la respuesta a medida que cambia la variable predictora. Con múltiples variables predictoras, y por lo tanto múltiples parámetros a estimar, los coeficientes β1, β2, β3 y así sucesivamente se denominan pendientes parciales o coeficientes de regresión parcial. La pendiente parcial βi mide el cambio en y para un cambio de una unidad en x i cuando todas las demás variables independientes se mantienen constantes. Estos coeficientes de regresión deben estimarse a partir de los datos de la muestra para obtener la forma general de la ecuación de regresión múltiple estimada

    \[\hat y = b_0+b_1x_1+b_2x_2+b_3x_3+...+b_kx_k\]

    y el modelo poblacional

    \[\mu_y = \beta_0 + \beta_1x_1+\beta_2x_2+\beta_3x_3+...+\beta_kx_k\]

    donde k = el número de variables independientes (también llamadas variables predictoras)

    y = el valor predicho de la variable dependiente (calculado usando la ecuación de regresión múltiple)

    x 1, x 2,..., x k = las variables independientes

    β0 es la intercepción y (el valor de y cuando todas las variables predictoras son iguales a 0)

    b 0 es la estimación de β0 basada en los datos de esa muestra

    β1, β2, β3,... βk son los coeficientes de las variables independientes x 1, x 2,..., x k

    b 1, b 2, b 3,..., b k son las estimaciones muestrales de los coeficientes β1, β2, β3,... βk

    El método de mínimos cuadrados se sigue utilizando para ajustar el modelo a los datos. Recuerde que este método minimiza la suma de las desviaciones cuadradas de los valores observados y predichos (SSE).

    La tabla de análisis de varianza para regresión múltiple tiene una apariencia similar a la de una regresión lineal simple.

    13226.png

    Cuadro 2. Tabla ANOVA.

    Donde k es el número de variables predictoras y n es el número de observaciones.

    La mejor estimación de la variación aleatoria\(\sigma^2\) —la variación que no se explica por las variables predictoras— sigue siendo s2, el MSE. El error estándar de regresión, s, es la raíz cuadrada del MSE.

    Una nueva columna en la tabla ANOVA para regresión lineal múltiple muestra una descomposición de SSR, en la que se muestra la contribución condicional de cada variable predictora dadas las variables ya ingresadas en el modelo para el orden de entrada que especifique en su regresión. Estas sumas condicionales o secuenciales de cuadrados representan cada una 1 grado de libertad de regresión, y permiten al usuario ver la contribución de cada variable predictora a la variación total explicada por el modelo de regresión mediante el uso de la relación:

    \[\dfrac {SeqSS}{SSR}\]

    Ajustado\(R^2\)

    En regresión lineal simple, se utilizó la relación entre la variación explicada y la variación total como medida del ajuste del modelo:

    \[R^2 = \dfrac {Explained \ Variation}{Total \ Variation} = \dfrac {SSR}{SSTo} = 1 - \dfrac {SSE}{SSTo}\]

    Observe a partir de esta definición que el valor del coeficiente de determinación nunca podrá disminuir con la adición de más variables al modelo de regresión. Por lo tanto, se\(R^2\) puede inflar artificialmente a medida que se incluyen más variables (significativas o no) en el modelo. Una medida alternativa de fuerza del modelo de regresión se ajusta para grados de libertad mediante el uso de cuadrados medios en lugar de sumas de cuadrados:

    \[R^2(adj) = 1 -\dfrac {(n-1)(1-R^2)}{(n-p)} = (1 - \dfrac {MSE}{SSTo/(n-1)})\]

    El\(R^2\) valor ajustado representa el porcentaje de variación en la variable de respuesta explicado por las variables independientes, corregidas por grados de libertad. A diferencia\(R^2\), el ajustado\(R^2\) no tenderá a aumentar a medida que se agregan variables y tenderá a estabilizarse alrededor de algún límite superior a medida que se agreguen variables.

    Pruebas de significación

    Recordemos en el capítulo anterior probamos para ver si y y x estaban linealmente relacionados mediante pruebas

    \(H_0: \beta_1 = 0\)

    \(H_1: \beta_1 \ne 0\)

    con la prueba t (o la prueba F equivalente). En regresión lineal múltiple, hay varias pendientes parciales y la prueba t y la prueba F ya no son equivalentes. Nuestra pregunta cambia: ¿La ecuación de regresión que utiliza información proporcionada por las variables predictoras x1, x2, x3,..., xk, es mejor que el predictor simple13615.png (el valor medio de respuesta), que no se basa en ninguna de estas variables independientes?

    \(H_0: \beta_1 = \beta_2 = \beta_3 = …=\beta_k = 0\)

    \(H1: At \ least \ one \ of β_1, β_2 , β_3 , …β_k \ne 0\)

    El estadístico de prueba F se utiliza para responder a esta pregunta y se encuentra en la tabla ANOVA.

    \[F=\dfrac{MSR}{MSE}\]

    Este estadístico de prueba sigue la distribución F con\(df_1 = k\) y\(df_2 = (n-k-1)\). Dado que el valor p exacto se da en la salida, puede usar la Regla de Decisión para responder a la pregunta.

    Si el valor p es menor que el nivel de significancia, rechace la hipótesis nula.

    Rechazar la hipótesis nula respalda la afirmación de que al menos una de las variables predictoras tiene una relación lineal significativa con la variable de respuesta. El siguiente paso es determinar qué variables predictoras agregan información importante para la predicción en presencia de otros predictores ya en el modelo. Para probar la significancia de los coeficientes de regresión parcial, es necesario examinar cada relación por separado usando pruebas t individuales.

    \(H_0: β_i = 0\)

    \(H_1: β_i \ne 0\)

    $$t=\ dfrac {b_i-\ beta_o} {SE (b_i)}\ con\ df = (n-k-1)\]

    donde SE (b i) es el error estándar de b i. También se dan valores p exactos para estas pruebas. Examinar valores p específicos para cada variable predictora le permitirá decidir qué variables están significativamente relacionadas con la variable de respuesta. Normalmente, cualquier variable insignificante se elimina del modelo, pero recuerde que estas pruebas se realizan con otras variables en el modelo. Un buen procedimiento es eliminar la variable menos significativa y luego reajustar el modelo con el conjunto de datos reducido. Con cada nuevo modelo, siempre verifique el error estándar de regresión (menor es mejor), el R 2 ajustado (mayor es mejor), los valores p para todas las variables predictoras, y las gráficas de probabilidad residual y normal.

    Debido a la complejidad de los cálculos, confiaremos en el software para ajustarnos al modelo y darnos los coeficientes de regresión. No olvides... siempre comienzas con tramas de dispersión. Las fuertes relaciones entre las variables predictoras y de respuesta hacen que sea un buen modelo.

    Ejemplo\(\PageIndex{1}\):

    Un investigador recopiló datos en un proyecto para predecir el crecimiento anual por acre de bosques boreales de tierras altas en el sur de Canadá. Ellos plantearon la hipótesis de que el crecimiento volumétrico del pie cúbico (y) es una función del área basal del rodal por acre (x 1), el porcentaje de esa área basal en el abeto negro (x 2), y el índice de sitio del rodal para el abeto negro (x 3). α = 0.05.

    132151.png

    Cuadro 3. Datos observados para pies cúbicos, área basal del rodal, porcentaje de área basal en abeto negro e índice de sitio.

    Se crearon diagramas de dispersión de la variable de respuesta versus cada variable predictora junto con una matriz de correlación.

    13205.png

    Figura 1. Gráficas de dispersión de pies cúbicos versus área basal, porcentaje de área basal en abeto negro e índice de sitio.

    13195.png

    Cuadro 4. Matriz de correlación.

    Como puede ver en las gráficas de dispersión y la matriz de correlación, Ba/Ac tiene la relación lineal más fuerte con el volumen de CuFT (r = 0.816) y %BA en abeto negro tiene la relación lineal más débil (r = 0.413). También es de destacar la correlación moderadamente fuerte entre las dos variables predictoras, Ba/Ac y SI (r = 0.588). Las tres variables predictoras tienen relaciones lineales significativas con la variable de respuesta (volumen), por lo que comenzaremos usando todas las variables en nuestro modelo de regresión lineal múltiple. La salida de Minitab se da a continuación.

    Comenzamos probando las siguientes hipótesis nulas y alternativas:

    H 0: β 1 = β 2 = β 3 = 0

    H 1: Al menos uno de β 1, β 2, β 3 ≠ 0

    Análisis de Regresión General: CuFT versus Ba/AC, SI, %BA Bspruce

    Ecuación de regresión

    CuFt = -19.3858 + 0.591004 Ba/ac + 0.0899883 SI + 0.489441 %BA Bspruce

    Coeficientes

    Término

    Coef

    SE Coef

    T

    P

    95% CI

    Constante

    -19.3858

    4.15332

    -4.6675

    0.000

    (-27.9578, -10.8137)

    Ba/AC

    0.5910

    0.04294

    13.7647

    0.000

    (0.5024, 0.6796)

    SI

    0.0900

    0.11262

    0.7991

    0.432

    (-0.1424, 0.3224)

    %BA Bspruce

    0.4894

    0.05245

    9.3311

    0.000

    (0.3812, 0.5977)

    Resumen de Model

    S = 3.17736

    R-Sq = 95.53%

    R-Sq (adj) = 94.97%

    PRENSA = 322.279

    R-Sq (pred) = 94.05%

    Análisis de varianza

    Fuente

    DF

    Seq SS

    Adj SS

    Adj MS

    F

    P

    Regresión

    3

    5176.56

    5176.56

    1725.52

    170.918

    0.000000

    Ba/AC

    1

    3611.17

    1912.79

    1912.79

    189.467

    0.000000

    SI

    1

    686.37

    6.45

    6.45

    0.638

    0.432094

    %BA Bspruce

    1

    879.02

    879.02

    879.02

    87.069

    0.000000

    Error

    24

    242.30

    242.30

    10.10

    Total

    27

    5418.86

    El estadístico de prueba F (y el valor p asociado) se utiliza para responder a esta pregunta y se encuentra en la tabla ANOVA. Para este ejemplo, F = 170.918 con un valor p de 0.00000. El valor p es menor que nuestro nivel de significancia (0.0000<0.05) por lo que rechazaremos la hipótesis nula. Al menos una de las variables predictoras contribuye significativamente a la predicción del volumen.

    Los coeficientes para las tres variables predictoras son todos positivos, lo que indica que a medida que aumentan el volumen del pie cúbico también aumentará. Por ejemplo, si mantenemos constantes los valores de SI y %BA Bspruce, esta ecuación nos dice que a medida que el área basal aumenta en 1 pie cuadrado, el volumen aumentará 0.591004 pies cúbicos adicionales. Los signos de estos coeficientes son lógicos, y lo que esperaríamos. El R 2 ajustado también es muy alto en 94.97%.

    El siguiente paso es examinar las pruebas t individuales para cada variable predictora. Las estadísticas de prueba y los valores p asociados se encuentran en la salida de Minitab y se repiten a continuación:

    Coeficientes

    Término

    Coef

    SE Coef

    T

    P

    95% CI

    Constante

    -19.3858

    4.15332

    -4.6675

    0.000

    (-27.9578, -10.8137)

    Ba/AC

    0.5910

    0.04294

    13.7647

    0.000

    (0.5024, 0.6796)

    SI

    0.0900

    0.11262

    0.7991

    0.432

    (-0.1424, 0.3224)

    %BA Bspruce

    0.4894

    0.05245

    9.3311

    0.000

    (0.3812, 0.5977)

    Las variables predictoras Ba/ac y %BA Bspruce tienen estadísticas t de 13.7647 y 9.3311 y valores p de 0.0000, lo que indica que ambas están contribuyendo significativamente a la predicción del volumen. Sin embargo, el SI tiene un estadístico t de 0.7991 con un valor p de 0.432. Esta variable no contribuye significativamente a la predicción del volumen de pies cúbicos.

    Este resultado puede sorprenderte ya que SI tuvo la segunda relación más fuerte con el volumen, pero no te olvides de la correlación entre SI y Ba/ac (r = 0.588). La variable predictora Ba/ac tuvo la relación lineal más fuerte con el volumen, y usando las sumas secuenciales de cuadrados, podemos ver que Ba/ac ya está representando 70% de la variación en el volumen de pies cúbicos (3611.17/5176.56 = 0.6976). La información del SI puede ser demasiado similar a la información en BA/ac, y el SI solo explica alrededor del 13% de la variación del volumen (686.37/5176.56 = 0.1326) dado que Ba/AC ya está en el modelo.

    El siguiente paso es examinar las gráficas de probabilidad residual y normal. Un único valor atípico es evidente en las parcelas por lo demás aceptables.

    13186.png

    Figura 2. Gráficas de probabilidad residual y normal.

    Entonces, ¿a dónde vamos desde aquí?

    Eliminaremos la variable no significativa y volveremos a ajustar el modelo excluyendo los datos para SI en nuestro modelo. La salida de Minitab se da a continuación.

    Análisis de Regresión General: CuFT versus Ba/AC, %BA Bspruce

    Ecuación de regresión

    CuFt = -19.1142 + 0.615531 Ba/ac + 0.515122 %BA Bspruce

    Coeficientes

    Término

    Coef

    SE Coef

    T

    P

    95% CI

    Constante

    -19.1142

    4.10936

    -4.6514

    0.000

    (-27.5776, -10.6508)

    Ba/AC

    0.6155

    0.02980

    20.6523

    0.000

    (0.5541, 0.6769)

    %BA Bspruce

    0.5151

    0.04115

    12.5173

    0.000

    (0.4304, 0.5999)

    Resumen de Model

    S = 3.15431

    R-Sq = 95.41%

    R-Sq (adj) = 95.04%

    PRENSA = 298.712

    R-Sq (pred) = 94.49%

    Análisis de varianza

    Fuente

    DF

    SeqSS

    AdJSS

    AdJMS

    F

    P

    Regresión

    2

    5170.12

    5170.12

    2585.06

    259.814

    0.0000000

    Ba/AC

    1

    3611.17

    4243.71

    4243.71

    426.519

    0.0000000

    %BA Bspruce

    1

    1558.95

    1558.95

    1558.95

    156.684

    0.0000000

    Error

    25

    248.74

    248.74

    9.95

    Total

    27

    5418.86

    Repetiremos los pasos seguidos con nuestro primer modelo. Comenzamos por probar de nuevo las siguientes hipótesis:

    \(H_0: \beta_1 = \beta_2 = \beta_3 = 0\)

    \(H_1: At \ least \ one \ of \ \beta_1, \beta_2 , \beta_3 \ne 0\)

    Este modelo reducido tiene un estadístico F igual a 259.814 y un valor p de 0.0000. Rechazaremos la hipótesis nula. Al menos una de las variables predictoras contribuye significativamente a la predicción del volumen. Los coeficientes siguen siendo positivos (como esperábamos) pero los valores han cambiado para dar cuenta del modelo diferente.

    Las pruebas t individuales para cada coeficiente (repetido a continuación) muestran que ambas variables predictoras son significativamente diferentes de cero y contribuyen a la predicción del volumen.

    Coeficientes

    Término

    Coef

    SE Coef

    T

    P

    95% CI

    Constante

    -19.1142

    4.10936

    -4.6514

    0.000

    (-27.5776, -10.6508)

    Ba/AC

    0.6155

    0.02980

    20.6523

    0.000

    (0.5541, 0.6769)

    %BA Bspruce

    0.5151

    0.04115

    12.5173

    0.000

    (0.4304, 0.5999)

    Observe que el R2 ajustado ha aumentado de 94.97% a 95.04% indicando un ajuste ligeramente mejor a los datos. El error estándar de regresión también ha cambiado para mejor, disminuyendo de 3.17736 a 3.15431 indicando una variación ligeramente menor de los datos observados al modelo.

    131751.png

    Figura 3. Gráficas de probabilidad residual y normal.

    Las gráficas de probabilidad residual y normal han cambiado poco, sin indicar ningún problema con el supuesto de regresión. Al eliminar la variable no significativa, el modelo ha mejorado.


    This page titled 8.1: Regresiones Múltiples is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.