Saltar al contenido principal
LibreTexts Español

12.3: Regresión lineal

  • Page ID
    150993
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Regresión lineal

    Supongamos que un par\(\{X, Y\}\) de variables aleatorias tiene una distribución conjunta. Se observa\(X(\omega)\) un valor. Se desea estimar el valor correspondiente\(Y(\omega)\). Obvio no hay regla para determinar\(Y(\omega)\) a menos que\(Y\) sea una función de\(X\). Lo mejor que se puede esperar es alguna estimación basada en un promedio de los errores, o en el promedio de alguna función de los errores.

    Supongamos que\(X(\omega)\) se observa, y por alguna regla\(\widehat{Y} (\omega)\) se devuelve una estimación. El error de la estimación es\(Y(\omega) - \widehat{Y} (\omega)\). La medida de error más común es la media del cuadrado del error

    \(E[(Y - \widehat{Y})^2]\)

    La elección del cuadrado medio tiene dos propiedades importantes: trata los errores positivos y negativos por igual, y pondera los errores grandes más fuertemente que los más pequeños. En general, buscamos una regla (función)\(r\) tal que la estimación\(\widehat{Y} (\omega)\) sea\(r(X(\omega))\). Es decir, buscamos una función\(r\) tal que

    \(E[(Y - r(X))^2]\)es un mínimo.

    El problema de determinar tal función se conoce como el problema de regresión. En la unidad de Regresión, mostramos que este problema se resuelve por la expectativa condicional de\(Y\), dada\(X\). En este punto, buscamos una solución parcial importante.

    La línea de regresión de\(Y\) on\(X\)

    Buscamos la mejor función de línea recta para minimizar el error cuadrático medio. Es decir, buscamos una función\(r\) de la forma\(u = r(t0 = at + b\). El problema es determinar los coeficientes de\(a, b\) tal manera que

    \(E[(Y - aX - b)^2]\)es un mínimo

    Escribimos el error en una forma especial, luego cuadramos y tomamos la expectativa.

    \(\text{Error} = Y - aX - b = (Y - \mu_Y) - a(X - \mu_X) + \mu_Y - a\mu_X - b = (Y - \mu_Y) - a(X - \mu_X) - \beta\)

    \(\text{Error squared} = (Y - \mu_Y)^2 + a^2 (X - \mu_X)^2 + \beta^2 - 2\beta (Y - \mu_Y) + 2 \alpha \beta (X - \mu_X) - 2a(Y - \mu_Y) (X - \mu_X)\)

    \(E[(Y - aX - b)^2] = \sigma_Y^2 + a^2 \sigma_X^2 + \beta^2 - 2a \text{Cov} [X, Y]\)

    Los procedimientos estándar para determinar un mínimo (con respecto a a) muestran que esto ocurre para

    \(a = \dfrac{\text{Cov} [X,Y]}{\text{Var}[X]}\)\(b = \mu_Y - a \mu_X\)

    Así, la línea óptima, llamada línea de regresión de\(Y\) on\(X\), es

    \(u = \dfrac{\text{Cov} [X,Y]}{\text{Var}[X]} (t - \mu_X) + \mu_Y = \rho \dfrac{\sigma_Y}{\sigma_X} (t - \mu_X) + \mu_Y = \alpha(t)\)

    La segunda forma se usa comúnmente para definir la línea de regresión. Para ciertos fines teóricos, esta es la forma preferida. Pero para el cálculo, la primera forma suele ser la más conveniente. Solo se necesita la covarianza (que requiere ambas medias) y la varianza de\(X\). No hay necesidad de determinar\(\text{Var} [Y]\) ni\(\rho\).

    Ejemplo\(\PageIndex{1}\) The simple air of Example 3 from "Variance"

    jdemo1
    jcalc
    Enter JOINT PROBABILITIES (as on the plane)  P
    Enter row matrix of VALUES of X  X
    Enter row matrix of VALUES of Y  Y
     Use array operations on matrices X, Y, PX, PY, t, u, and P
    EX = total(t.*P)
    EX =   0.6420
    EY = total(u.*P)
    EY =   0.0783
    VX = total(t.^2.*P) - EX^2
    VX =   3.3016
    CV = total(t.*u.*P) - EX*EY
    CV =  -0.1633
    a = CV/VX
    a  =  -0.0495
    b = EY - a*EX
    b  =   0.1100           % The regression line is u = -0.0495t + 0.11

    Ejemplo\(\PageIndex{2}\) The pair in Example 6 from "Variance"

    Supongamos que el par\(\{X, Y\}\) tiene densidad de juntas\(f_{XY}(t, u) = 3u\) en la región triangular delimitada por\(u = 0\),\(u = 1 + t\),\(u = 1- t\). Determinar la línea de regresión de\(Y\) on\(X\).

    Solución Analítica

    Por simetría,\(E[X] = E[XY] = 0\), entonces\(\text{Cov} [X, Y] = 0\). La curva de regresión es

    \(u = E[Y] = 3\int_0^1 u^2 \int_{u - 1}^{1 - u} \ dt du = 6 \int_{0}^{1} u^2 (1 - u)\ du = 1/2\)

    Tenga en cuenta que el par no está correlacionado, pero por la prueba de rectángulo no es independiente. Con valores cero de\(E[X]\) y\(E[XY]\), el procedimiento de aproximación no es muy satisfactorio a menos que se emplee un número muy grande de puntos de aproximación.

    Ejemplo\(\PageIndex{3}\) Distribution of Example 5 from "Random Vectors and MATLAB" and Example 12 from "Function of Random Vectors"

    El par\(\{X, Y\}\) tiene densidad articular\(f_{XY} (t, u) = \dfrac{6}{37} (t + 2u)\) en la región\(0 \le t \le 2\),\(0 \le u \le \text{max} \{1, t\}\) (ver Figura 12.3.1). Determinar la línea de regresión de\(Y\) on\(X\). Si\(X(\omega) = 1.7\) se observa el valor, ¿cuál es la mejor estimación lineal cuadrática media de\(Y(\omega)\)?

    La figura uno contiene dos líneas en el primer cuadrante de una gráfica cartesiana. El eje horizontal está etiquetado como t, y el eje vertical es u. La leyenda del título dice f_xy (t, u) = (6/37) (t + 2u). La primera línea cruza el eje vertical una cuarta parte del camino hacia arriba de la gráfica. Tiene una pendiente positiva, y está etiquetada con u = 0.3382t + 0.4011. Continúa como una gráfica lineal de un lado de la gráfica al otro. La segunda línea comienza horizontalmente como un segmento desde la izquierda hasta el punto (1, 1). El segmento está etiquetado con u = 1. Después del punto (1, 1), la línea se mueve hacia arriba con una pendiente positiva y constante al punto (2, 2). Este segmento se etiqueta u = t. En (2, 2) hay una línea vertical que continúa hacia abajo hasta el punto (2, 0).
    Figura 12.3.1. Línea de regresión para el Ejemplo 12.3.3

    Solución Analítica

    \(E[X] = \dfrac{6}{37} \int_{0}^{1} \int_{0}^{1} (t^2 + 2tu)\ dudt + dfrac{6}{37} \int_{1}^{2} \int_{0}^{t} (t^2 + 2tu)\ dudt = 50/37\)

    Las demás cantidades implican integrales sobre las mismas regiones con integros apropiados, de la siguiente manera:

    Cantidad Integrand Valor
    \(E[X^2]\) \(t^3 + 2t^2 u\) 779/370
    \(E[Y]\) \(tu + 2u^2\) 127/148
    \(E[XY]\) \(t^2u + 2tu^2\) 232/185

    Entonces

    \(\text{Var} [X] = \dfrac{779}{370} - (\dfrac{50}{37})^2 = \dfrac{3823}{13690}\)\(text{Cov}[X, Y] =\dfrac{232}{185} - \dfrac{50}{37} \cdot \dfrac{127}{148} = \dfrac{1293}{13690}\)

    y

    \(a = \text{Cov}[X, Y]/\text{Var}[X] = \dfrac{1293}{3823} \approx 0.3382\),\(b = E[Y] - aE[X] = \dfrac{6133}{15292} \approx 0.4011\)

    La línea de regresión es\(u = at + b\). Si\(X(\omega) = 1.7\), la mejor estimación lineal (en el sentido del cuadrado medio) es\(\widehat{Y} (\omega) = 1.7a + b = 0.9760\) (ver Figura 12.3.1 para una gráfica aproximada).

    APROXIMACIÓN

    tuappr
    Enter matrix [a b] of X-range endpoints  [0 2]
    Enter matrix [c d] of Y-range endpoints  [0 2]
    Enter number of X approximation points  400
    Enter number of Y approximation points  400
    Enter expression for joint density  (6/37)*(t+2*u).*(u<=max(t,1))
    Use array operations on X, Y, PX, PY, t, u, and P
    EX = total(t.*P)
    EX =  1.3517                   % Theoretical = 1.3514
    EY = total(u.*P)
    EY =  0.8594                   % Theoretical = 0.8581
    VX = total(t.^2.*P) - EX^2
    VX =  0.2790                   % Theoretical = 0.2793
    CV = total(t.*u.*P) - EX*EY
    CV =  0.0947                   % Theoretical = 0.0944
    a = CV/VX
    a  =  0.3394                   % Theoretical = 0.3382
    b = EY - a*EX
    b  =  0.4006                   % Theoretical = 0.4011
    y = 1.7*a + b
    y  =  0.9776                   % Theoretical = 0.9760

    Una interpretación de\(\rho^2\)

    El análisis anterior muestra que el error mínimo medio cuadrático viene dado por

    \(E[(Y - \widehat{Y})^2] = E[(Y - \rho \dfrac{\sigma_Y}{\sigma_X} (X - \mu_X) - \mu_Y)^2] = \sigma_Y^2 E[(Y^* - \rho X^*)^2]\)

    \(= \sigma_Y^2 E[(Y^*)^2 - 2\rho X^* Y^* + \rho^2(X^*)^2] = \sigma_Y^2 (1 - 2\rho^2 + \rho^2) = \sigma_Y^2 (1 - \rho^2)\)

    Si\(\rho = 0\), entonces\(E[(Y - \widehat{Y})^2] = \sigma_Y^2\), el error cuadrático medio en el caso de correlación lineal cero. Entonces,\(\rho^2\) se interpreta como la fracción de incertidumbre eliminada por la regla lineal y X. Esta interpretación no debe ser empujada demasiado lejos, sino que es una interpretación común, frecuentemente encontrada en la discusión de observaciones o resultados experimentales.

    Regresión lineal más general

    Considera una clase distribuida conjuntamente. \(\{Y, X_1, X_2, \cdot\cdot\cdot, X_n\}\). Deseamos deterimine una función\(U\) de la forma

    \(U = \sum_{i = 0}^{n} a_i X_i\), con\(X_0 = 1\), tal que\(E[(Y - U)^2]\) sea un mínimo

    Si\(U\) cumple esta condición mínima, entonces\(E[(Y - U)V] = 0\), o, equivalentemente

    \(E[YV] = E[UV]\)para todo\(V\) el formulario\(V = \sum_{i = 0}^{n} c_i X_i\)

    Para ver esto, establece\(W = Y - U\) y deja\(d^2 = E[W^2]\). Ahora, para cualquier\(\alpha\)

    \(d^2 \le E[(W + \alpha V)^2] = d^2 + 2\alpha E[WV] + \alpha^2 E[V^2]\)

    Si seleccionamos el especial

    \(\alpha = -\dfrac{E[WV]}{E[V^2]}\)entonces\(0 \le -\dfrac{2E[WV]^2}{E[V^2]} + \dfrac{E[WV]^2}{E[V^2]^2} E[V^2]\)

    Esto implica\(E[WV]^2 \le 0\), que sólo puede ser satisfecho por\(E[WV] =0\), de manera que

    \(E[YV] = E[UV]\)

    Por otro lado, si\(E[(Y - U)V] = 0\) por todo\(V\) el formulario anterior, entonces\(E[(Y- U)^2]\) es un mínimo. Considerar

    \(E[(Y - V)^2] = E[(Y - U + U - V)^2] = E[(Y - U)^2] + E[(U - V)^2] + 2E[(Y - U) (U - V)]\)

    Ver\(U - V\) es de la misma forma que\(V\), el último término es cero. El primer término es fijo. El segundo término es no negativo, con valor cero iff\(U - V = 0\) a.s. De ahí,\(E[(Y - V)^2]\) es un mínimo cuando\(V = U\).

    Si tomamos\(V\) a ser 1,\(X_1, X_2, \cdot\cdot\cdot, X_n\), sucesivamente, obtenemos ecuaciones\(n + 1\) lineales en las\(n + 1\) incógnitas\(a_0, a_1, \cdot\cdot\cdot, a_n\), de la siguiente manera.

    \(E[Y] = a_0 + a_1 E[X_1] + \cdot\cdot\cdot + a_n E[X_n]\)
    \(E[YX_1] = a_0 E[X_i] + a_1 E[X_1X_i] + \cdot\cdot\cdot + a_n E[X_n X_i]\)para\(1 \le i \le n\)

    Para cada uno\(i = 1, 2, \cdot\cdot\cdot, n\), tomamos (2) -\(E[X_i] \cdot (1)\) y usamos las expresiones de cálculo de varianza y covarianza para obtener

    \(\text{Cov} [Y, X_i] = a_1 \text{Cov} [X_1, X_i] + a_2 \text{Cov} [X_2, X_i] + \cdot\cdot\cdot + a_n \text{Cov} [X_n, X_i]\)

    Estas\(n\) ecuaciones más la ecuación (1) pueden resolverse alagebráicamente para el\(a_i\).

    En el importante caso especial de que los no\(X_i\) estén correlacionados (es decir,\(\text{Cov}[X_i, X_j] = 0\) para\(i \ne j\)), tenemos

    \(a_i = \dfrac{\text{Cov}[Y, X_i]}{\text{Var} [X_i]}\)\(1 \le i \le n\)

    y

    \(a_0 = E[Y] - a_1 E[X_1] - a_2 E[X_2] - \cdot\cdot\cdot - a_n E[X_n]\)

    En particular, esta condición se mantiene si la clase\(\{X_i : 1 \le i \le n\}\) es iid como en el caso de una muestra aleatoria simple (ver la sección sobre "Muestras aleatorias simples y estadísticas “).

    El examen muestra que para\(n = 1\), con\(X_1 = X\)\(a_0 = b\), y\(a_1 = a\), el resultado concuerda con el obtenido en el tratamiento de la línea de regresión, arriba.

    Ejemplo\(\PageIndex{4}\) Linear regression with two variables.

    Supongamos\(E[Y] = 3\)\(E[X_1] = 2\)\(E[X_2] = 3\),\(\text{Var}[X_1] = 3\),,\(\text{Var}[X_2] = 8\),\(\text{Cov}[Y, X_1] = 5\),\(\text{Cov} [Y, X_2] = 7\), y\(\text{Cov} [X_1, X_2] = 1\). Entonces las tres ecuaciones son

    \(a_0 + 2a_2 + 3a_3 = 3\)

    \(0 + 3a_1 + 1 a_2 = 5\)

    \(0 + 1a_1 + 8a_2 = 7\)

    La solución de estas ecuaciones lineales simultáneas con MATLAB da los resultados

    \(a_0 = - 1.9565\),\(a_1 = 1.4348\), y\(a_2 = 0.6957\).


    This page titled 12.3: Regresión lineal is shared under a CC BY 3.0 license and was authored, remixed, and/or curated by Paul Pfeiffer via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.