Saltar al contenido principal
LibreTexts Español

7.2: Regresión lineal simple

  • Page ID
    149569
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Una vez que hemos identificado dos variables que están correlacionadas, nos gustaría modelar esta relación. Queremos utilizar una variable como predictora o variable explicativa para explicar la otra variable, la variable de respuesta o dependiente. Para ello, necesitamos una buena relación entre nuestras dos variables. El modelo puede entonces ser utilizado para predecir cambios en nuestra variable de respuesta. Una fuerte relación entre la variable predictora y la variable de respuesta conduce a un buen modelo.

    11187.png

    Figura 9. Gráfica de dispersión con modelo de regresión.

    Definición: regresión lineal simple

    Un modelo de regresión lineal simple es una ecuación matemática que nos permite predecir una respuesta para un valor predictor dado.

    Nuestro modelo tomará la forma de\(\hat y = b_0+b_1x\) donde b 0 es la intercepción y, b 1 es la pendiente, x es la variable predictora e y una estimación del valor medio de la variable de respuesta para cualquier valor de la variable predictora.

    La intercepción y es el valor predicho para la respuesta (y) cuando x = 0. La pendiente describe el cambio en y para cada cambio de unidad en x. Veamos este ejemplo para aclarar la interpretación de la pendiente e interceptar.

    Ejemplo\(\PageIndex{1}\):

    Un hidrólogo crea un modelo para predecir el flujo volumétrico de una corriente en un puente que cruza con una variable predictora de lluvia diaria en pulgadas.

    Contestar

    \[\hat y = 1.6 +29 x \nonumber\]

    La intercepción y de 1.6 se puede interpretar de esta manera: En un día sin precipitaciones, habrá 1.6 gal. de agua/min. fluyendo en el arroyo en ese cruce de puente. El desnivel nos dice que si lloviera una pulgada ese día el flujo en el arroyo aumentaría 29 gal adicionales. /min. Si lloviera 2 pulgadas ese día, el flujo aumentaría 58 gal adicionales. /min.

    Ejemplo\(\PageIndex{2}\):

    ¿Cuál sería el flujo promedio de la corriente si lloviera 0.45 pulgadas ese día?

    Contestar

    \[\hat y= 1.6 + 29x = 1.6 + 29(0.45) = 14.65 gal./min \nonumber\]

    La línea de regresión de mínimos cuadrados (ecuaciones de acceso directo)

    La ecuación viene dada por

    $$\ sombrero y = b_0+b_1x\]

    donde\(b_1 = r\left ( \dfrac {s_y}{s_x} \right )\) está la pendiente y\(b_0=\hat y -b_1\bar x\) es la intercepción y de la línea de regresión.

    Una ecuación computacional alternativa para pendiente es:

    $$b_1 =\ dfrac {\ sum xy -\ dfrac {(\ sum x) (\ sum y)} {n}} {\ sum x^2 -\ dfrac {(\ sum x) ^2} {n}} =\ dfrac {S_ {xy}} {S_ {xx}}\]

    Este modelo simple es la línea de mejor ajuste para nuestros datos de muestra. La línea de regresión no pasa por todos los puntos, sino que equilibra la diferencia entre todos los puntos de datos y el modelo de línea recta. La diferencia entre el valor de los datos observados y el valor predicho (el valor en la línea recta) es el error o residual. El criterio para determinar la línea que mejor describe la relación entre dos variables se basa en los residuales.

    $$Residual = Observado — Predicho\]

    Por ejemplo, si quisieras predecir la cincha torácica de un oso negro dado su peso, podrías usar el siguiente modelo.

    Contorno de pecho = 13.2 +0.43 peso

    La cincha torácica predicha de un oso que pesaba 120 lb es de 64.8 pulgadas.

    Contorno de pecho = 13.2 + 0.43 (120) = 64.8 pulgadas.

    Pero una cincha de pecho de oso medida (valor observado) para un oso que pesaba 120 lb fue en realidad de 62.1 pulgadas.

    El residual sería de 62.1 — 64.8 = -2.7 in.

    Un residuo negativo indica que el modelo está sobreprediciendo. Un residuo positivo indica que el modelo está subprediciendo. En esta instancia, el modelo sobrepredijo la cincha torácica de un oso que en realidad pesaba 120 lb.

    Image37921.PNG

    Figura 10. Gráfica de dispersión con modelo de regresión que ilustra un valor residual.

    Este error aleatorio (residual) toma en cuenta todos los factores impredecibles y desconocidos que no están incluidos en el modelo. Una línea de regresión de mínimos cuadrados ordinaria minimiza la suma de los errores cuadrados entre los valores observados y predichos para crear una línea de mejor ajuste. Las diferencias entre los valores observados y pronosticados son cuadradas para hacer frente a las diferencias positivas y negativas.

    Coeficiente de Determinación

    Después de ajustar nuestra línea de regresión (computar b 0 y b 1), solemos desear saber qué tan bien se ajusta el modelo a nuestros datos. Para determinar esto, necesitamos pensar en la idea de análisis de varianza. En ANOVA, partidimos la variación usando sumas de cuadrados para poder identificar un efecto de tratamiento opuesto a la variación aleatoria que ocurrió en nuestros datos. La idea es la misma para la regresión. Queremos particionar la variabilidad total en dos partes: la variación debida a la regresión y la variación por error aleatorio. Y nuevamente vamos a calcular sumas de cuadrados para ayudarnos a hacer esto.

    Supongamos que la variabilidad total en las mediciones de la muestra sobre la media de la muestra se denota por\(\sum (y_i - \bar y)^2\), llamadas las sumas de cuadrados de variabilidad total sobre la media (SST). La diferencia al cuadrado entre el valor predicho\(\hat y\) y la media de la muestra se denota por\(\sum (\hat {y_i} - \bar y)^2\), llamadas las sumas de cuadrados por regresión (SSR). La SSR representa la variabilidad explicada por la línea de regresión. Finalmente, la variabilidad que no puede ser explicada por la línea de regresión se llama las sumas de cuadrados por error (SSE) y se denota con\(\sum (y_i - \hat y)^2\). La SSE es en realidad el residual cuadrado.

    SST

    = SSR

    + SSE

    \(\sum (y_i - \bar y)^2\)

    =\(\sum (\hat {y_i} - \bar y)^2\)

    +\(\sum (\hat {y_i} - \bar y)^2\)

    11168.png

    Figura 11. Una ilustración de la relación entre la media de las y y el valor predicho y observado de una y específica.

    Las sumas de cuadrados y las sumas medias de los cuadrados (al igual que ANOVA) se presentan típicamente en la tabla de análisis de regresión de varianza. La relación de las sumas medias de cuadrados para la regresión (MSR) y las sumas medias de cuadrados para el error (MSE) forman un estadístico de prueba F utilizado para probar el modelo de regresión.

    La relación entre estas sumas de cuadrados se define como

    $$Total\ Variación = Explicada\ Variación + Inexplicada\ Variación\]

    Cuanto mayor sea la variación explicada, mejor será el modelo en la predicción. Cuanto mayor sea la variación inexplicable, peor será el modelo en la predicción. Una medida cuantitativa del poder explicativo de un modelo es\(R^2\), el Coeficiente de Determinación:

    $$R^2 =\ dfrac {Explicado\ Variación} {Total\ Variación}\]

    El Coeficiente de Determinación mide la variación porcentual en la variable de respuesta (y) que se explica por el modelo.

    • Los valores van de 0 a 1.
    • Un\(R^2\) cercano a cero indica un modelo con muy poco poder explicativo.
    • Un\(R^2\) cercano a uno indica un modelo con más poder explicativo.

    El Coeficiente de Determinación y el coeficiente de correlación lineal están relacionados matemáticamente.

    $R^2 = r^2\]

    Sin embargo, tienen dos significados muy diferentes: r es una medida de la fuerza y dirección de una relación lineal entre dos variables; R 2 describe la variación porcentual en “y” que se explica por el modelo.

    Gráfica de probabilidad residual y normal

    Aunque haya determinado, usando una gráfica de dispersión, coeficiente de correlación y R2, que x es útil para predecir el valor de y, los resultados de un análisis de regresión son válidos solo cuando los datos satisfacen los supuestos de regresión necesarios.

    1. La variable de respuesta (y) es una variable aleatoria mientras que la variable predictora (x) se asume no aleatoria o fija y se mide sin error.
    2. La relación entre y y x debe ser lineal, dada por el modelo\(\hat y = b_0 + b_1x\).
    3. El error de término aleatorio los valores ε son independientes, tienen una media de 0 y una varianza común\(\sigma^2\), independiente de x, y normalmente se distribuyen.

    Podemos usar gráficas residuales para verificar una varianza constante, así como para asegurarnos de que el modelo lineal es de hecho adecuado. Una gráfica residual es una gráfica de dispersión del valor residual (= observado — valores predichos) versus el valor predicho o ajustado (como se usa en la gráfica residual). El eje horizontal central se establece en cero. Una propiedad de los residuos es que suman a cero y tienen una media de cero. Una gráfica residual debe estar libre de cualquier patrón y los residuos deben aparecer como una dispersión aleatoria de puntos alrededor de cero.

    Una gráfica residual sin apariencia de ningún patrón indica que los supuestos del modelo están satisfechos para estos datos.

    11155.png

    Figura 12. Una parcela residual.

    Una gráfica residual que tiene una “forma de abanico” indica una varianza heterogénea (varianza no constante). Los residuos tienden a abanico o ventilador a medida que la varianza de error aumenta o disminuye.

    11142.png

    Figura 13. Gráfica residual que indica una varianza no constante.

    Una gráfica residual que tiende a “precipitarse” indica que un modelo lineal puede no ser apropiado. El modelo puede necesitar términos de orden superior de x, o puede ser necesario un modelo no lineal para describir mejor la relación entre y y x. También se pueden considerar transformaciones en x o y.

    11131.png

    Figura 14. Una gráfica residual que indica la necesidad de un modelo de orden superior.

    Una gráfica de probabilidad normal nos permite comprobar que los errores se distribuyen normalmente. Se grafica los residuos contra el valor esperado del residual como si hubiera venido de una distribución normal. Recordemos que cuando los residuos se distribuyen normalmente, seguirán un patrón de línea recta, inclinándose hacia arriba.

    Esta parcela no es inusual y no indica ninguna no normalidad con los residuos.

    11121.png

    Figura 15. Una gráfica de probabilidad normal.

    Esta siguiente gráfica ilustra claramente una distribución no normal de los residuos.

    11111.png

    Figura 16. Una gráfica de probabilidad normal, que ilustra la distribución no normal.

    Las violaciones más graves de la normalidad suelen aparecer en las colas de la distribución porque aquí es donde la distribución normal se diferencia más de otros tipos de distribuciones con una media y propagación similares. La curvatura en uno o ambos extremos de una gráfica de probabilidad normal es indicativa de no normalidad.


    This page titled 7.2: Regresión lineal simple is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.