12.3: Regresión lineal

Última actualización
Guardar como PDF

Page ID: 150993

Paul Pfeiffer
Rice University

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

Regresión lineal

Supongamos que un par\(\{X, Y\}\) de variables aleatorias tiene una distribución conjunta. Se observa\(X(\omega)\) un valor. Se desea estimar el valor correspondiente\(Y(\omega)\). Obvio no hay regla para determinar\(Y(\omega)\) a menos que\(Y\) sea una función de\(X\). Lo mejor que se puede esperar es alguna estimación basada en un promedio de los errores, o en el promedio de alguna función de los errores.

Supongamos que\(X(\omega)\) se observa, y por alguna regla\(\widehat{Y} (\omega)\) se devuelve una estimación. El error de la estimación es\(Y(\omega) - \widehat{Y} (\omega)\). La medida de error más común es la media del cuadrado del error

\(E[(Y - \widehat{Y})^2]\)

La elección del cuadrado medio tiene dos propiedades importantes: trata los errores positivos y negativos por igual, y pondera los errores grandes más fuertemente que los más pequeños. En general, buscamos una regla (función)\(r\) tal que la estimación\(\widehat{Y} (\omega)\) sea\(r(X(\omega))\). Es decir, buscamos una función\(r\) tal que

\(E[(Y - r(X))^2]\)es un mínimo.

El problema de determinar tal función se conoce como el problema de regresión. En la unidad de Regresión, mostramos que este problema se resuelve por la expectativa condicional de\(Y\), dada\(X\). En este punto, buscamos una solución parcial importante.

La línea de regresión de\(Y\) on\(X\)

Buscamos la mejor función de línea recta para minimizar el error cuadrático medio. Es decir, buscamos una función\(r\) de la forma\(u = r(t0 = at + b\). El problema es determinar los coeficientes de\(a, b\) tal manera que

\(E[(Y - aX - b)^2]\)es un mínimo

Escribimos el error en una forma especial, luego cuadramos y tomamos la expectativa.

\(\text{Error} = Y - aX - b = (Y - \mu_Y) - a(X - \mu_X) + \mu_Y - a\mu_X - b = (Y - \mu_Y) - a(X - \mu_X) - \beta\)

\(\text{Error squared} = (Y - \mu_Y)^2 + a^2 (X - \mu_X)^2 + \beta^2 - 2\beta (Y - \mu_Y) + 2 \alpha \beta (X - \mu_X) - 2a(Y - \mu_Y) (X - \mu_X)\)

\(E[(Y - aX - b)^2] = \sigma_Y^2 + a^2 \sigma_X^2 + \beta^2 - 2a \text{Cov} [X, Y]\)

Los procedimientos estándar para determinar un mínimo (con respecto a a) muestran que esto ocurre para

\(a = \dfrac{\text{Cov} [X,Y]}{\text{Var}[X]}\)\(b = \mu_Y - a \mu_X\)

Así, la línea óptima, llamada línea de regresión de\(Y\) on\(X\), es

\(u = \dfrac{\text{Cov} [X,Y]}{\text{Var}[X]} (t - \mu_X) + \mu_Y = \rho \dfrac{\sigma_Y}{\sigma_X} (t - \mu_X) + \mu_Y = \alpha(t)\)

La segunda forma se usa comúnmente para definir la línea de regresión. Para ciertos fines teóricos, esta es la forma preferida. Pero para el cálculo, la primera forma suele ser la más conveniente. Solo se necesita la covarianza (que requiere ambas medias) y la varianza de\(X\). No hay necesidad de determinar\(\text{Var} [Y]\) ni\(\rho\).

Ejemplo\(\PageIndex{1}\) The simple air of Example 3 from "Variance"

jdemo1
jcalc
Enter JOINT PROBABILITIES (as on the plane)  P
Enter row matrix of VALUES of X  X
Enter row matrix of VALUES of Y  Y
 Use array operations on matrices X, Y, PX, PY, t, u, and P
EX = total(t.*P)
EX =   0.6420
EY = total(u.*P)
EY =   0.0783
VX = total(t.^2.*P) - EX^2
VX =   3.3016
CV = total(t.*u.*P) - EX*EY
CV =  -0.1633
a = CV/VX
a  =  -0.0495
b = EY - a*EX
b  =   0.1100           % The regression line is u = -0.0495t + 0.11

Ejemplo\(\PageIndex{2}\) The pair in Example 6 from "Variance"

Supongamos que el par\(\{X, Y\}\) tiene densidad de juntas\(f_{XY}(t, u) = 3u\) en la región triangular delimitada por\(u = 0\),\(u = 1 + t\),\(u = 1- t\). Determinar la línea de regresión de\(Y\) on\(X\).

Solución Analítica

Por simetría,\(E[X] = E[XY] = 0\), entonces\(\text{Cov} [X, Y] = 0\). La curva de regresión es

\(u = E[Y] = 3\int_0^1 u^2 \int_{u - 1}^{1 - u} \ dt du = 6 \int_{0}^{1} u^2 (1 - u)\ du = 1/2\)

Tenga en cuenta que el par no está correlacionado, pero por la prueba de rectángulo no es independiente. Con valores cero de\(E[X]\) y\(E[XY]\), el procedimiento de aproximación no es muy satisfactorio a menos que se emplee un número muy grande de puntos de aproximación.

Ejemplo\(\PageIndex{3}\) Distribution of Example 5 from "Random Vectors and MATLAB" and Example 12 from "Function of Random Vectors"

El par\(\{X, Y\}\) tiene densidad articular\(f_{XY} (t, u) = \dfrac{6}{37} (t + 2u)\) en la región\(0 \le t \le 2\),\(0 \le u \le \text{max} \{1, t\}\) (ver Figura 12.3.1). Determinar la línea de regresión de\(Y\) on\(X\). Si\(X(\omega) = 1.7\) se observa el valor, ¿cuál es la mejor estimación lineal cuadrática media de\(Y(\omega)\)?

Figura 12.3.1. Línea de regresión para el Ejemplo 12.3.3

Solución Analítica

\(E[X] = \dfrac{6}{37} \int_{0}^{1} \int_{0}^{1} (t^2 + 2tu)\ dudt + dfrac{6}{37} \int_{1}^{2} \int_{0}^{t} (t^2 + 2tu)\ dudt = 50/37\)

Las demás cantidades implican integrales sobre las mismas regiones con integros apropiados, de la siguiente manera:

Cantidad	Integrand	Valor
\(E[X^2]\)	\(t^3 + 2t^2 u\)	779/370
\(E[Y]\)	\(tu + 2u^2\)	127/148
\(E[XY]\)	\(t^2u + 2tu^2\)	232/185

Entonces

\(\text{Var} [X] = \dfrac{779}{370} - (\dfrac{50}{37})^2 = \dfrac{3823}{13690}\)\(text{Cov}[X, Y] =\dfrac{232}{185} - \dfrac{50}{37} \cdot \dfrac{127}{148} = \dfrac{1293}{13690}\)

\(a = \text{Cov}[X, Y]/\text{Var}[X] = \dfrac{1293}{3823} \approx 0.3382\),\(b = E[Y] - aE[X] = \dfrac{6133}{15292} \approx 0.4011\)

La línea de regresión es\(u = at + b\). Si\(X(\omega) = 1.7\), la mejor estimación lineal (en el sentido del cuadrado medio) es\(\widehat{Y} (\omega) = 1.7a + b = 0.9760\) (ver Figura 12.3.1 para una gráfica aproximada).

APROXIMACIÓN

tuappr
Enter matrix [a b] of X-range endpoints  [0 2]
Enter matrix [c d] of Y-range endpoints  [0 2]
Enter number of X approximation points  400
Enter number of Y approximation points  400
Enter expression for joint density  (6/37)*(t+2*u).*(u<=max(t,1))
Use array operations on X, Y, PX, PY, t, u, and P
EX = total(t.*P)
EX =  1.3517                   % Theoretical = 1.3514
EY = total(u.*P)
EY =  0.8594                   % Theoretical = 0.8581
VX = total(t.^2.*P) - EX^2
VX =  0.2790                   % Theoretical = 0.2793
CV = total(t.*u.*P) - EX*EY
CV =  0.0947                   % Theoretical = 0.0944
a = CV/VX
a  =  0.3394                   % Theoretical = 0.3382
b = EY - a*EX
b  =  0.4006                   % Theoretical = 0.4011
y = 1.7*a + b
y  =  0.9776                   % Theoretical = 0.9760

Una interpretación de\(\rho^2\)

El análisis anterior muestra que el error mínimo medio cuadrático viene dado por

\(E[(Y - \widehat{Y})^2] = E[(Y - \rho \dfrac{\sigma_Y}{\sigma_X} (X - \mu_X) - \mu_Y)^2] = \sigma_Y^2 E[(Y^* - \rho X^*)^2]\)

\(= \sigma_Y^2 E[(Y^*)^2 - 2\rho X^* Y^* + \rho^2(X^*)^2] = \sigma_Y^2 (1 - 2\rho^2 + \rho^2) = \sigma_Y^2 (1 - \rho^2)\)

Si\(\rho = 0\), entonces\(E[(Y - \widehat{Y})^2] = \sigma_Y^2\), el error cuadrático medio en el caso de correlación lineal cero. Entonces,\(\rho^2\) se interpreta como la fracción de incertidumbre eliminada por la regla lineal y X. Esta interpretación no debe ser empujada demasiado lejos, sino que es una interpretación común, frecuentemente encontrada en la discusión de observaciones o resultados experimentales.

Regresión lineal más general

Considera una clase distribuida conjuntamente. \(\{Y, X_1, X_2, \cdot\cdot\cdot, X_n\}\). Deseamos deterimine una función\(U\) de la forma

\(U = \sum_{i = 0}^{n} a_i X_i\), con\(X_0 = 1\), tal que\(E[(Y - U)^2]\) sea un mínimo

Si\(U\) cumple esta condición mínima, entonces\(E[(Y - U)V] = 0\), o, equivalentemente

\(E[YV] = E[UV]\)para todo\(V\) el formulario\(V = \sum_{i = 0}^{n} c_i X_i\)

Para ver esto, establece\(W = Y - U\) y deja\(d^2 = E[W^2]\). Ahora, para cualquier\(\alpha\)

\(d^2 \le E[(W + \alpha V)^2] = d^2 + 2\alpha E[WV] + \alpha^2 E[V^2]\)

Si seleccionamos el especial

\(\alpha = -\dfrac{E[WV]}{E[V^2]}\)entonces\(0 \le -\dfrac{2E[WV]^2}{E[V^2]} + \dfrac{E[WV]^2}{E[V^2]^2} E[V^2]\)

Esto implica\(E[WV]^2 \le 0\), que sólo puede ser satisfecho por\(E[WV] =0\), de manera que

\(E[YV] = E[UV]\)

Por otro lado, si\(E[(Y - U)V] = 0\) por todo\(V\) el formulario anterior, entonces\(E[(Y- U)^2]\) es un mínimo. Considerar

\(E[(Y - V)^2] = E[(Y - U + U - V)^2] = E[(Y - U)^2] + E[(U - V)^2] + 2E[(Y - U) (U - V)]\)

Ver\(U - V\) es de la misma forma que\(V\), el último término es cero. El primer término es fijo. El segundo término es no negativo, con valor cero iff\(U - V = 0\) a.s. De ahí,\(E[(Y - V)^2]\) es un mínimo cuando\(V = U\).

Si tomamos\(V\) a ser 1,\(X_1, X_2, \cdot\cdot\cdot, X_n\), sucesivamente, obtenemos ecuaciones\(n + 1\) lineales en las\(n + 1\) incógnitas\(a_0, a_1, \cdot\cdot\cdot, a_n\), de la siguiente manera.

\(E[Y] = a_0 + a_1 E[X_1] + \cdot\cdot\cdot + a_n E[X_n]\)
\(E[YX_1] = a_0 E[X_i] + a_1 E[X_1X_i] + \cdot\cdot\cdot + a_n E[X_n X_i]\)para\(1 \le i \le n\)

Para cada uno\(i = 1, 2, \cdot\cdot\cdot, n\), tomamos (2) -\(E[X_i] \cdot (1)\) y usamos las expresiones de cálculo de varianza y covarianza para obtener

\(\text{Cov} [Y, X_i] = a_1 \text{Cov} [X_1, X_i] + a_2 \text{Cov} [X_2, X_i] + \cdot\cdot\cdot + a_n \text{Cov} [X_n, X_i]\)

Estas\(n\) ecuaciones más la ecuación (1) pueden resolverse alagebráicamente para el\(a_i\).

En el importante caso especial de que los no\(X_i\) estén correlacionados (es decir,\(\text{Cov}[X_i, X_j] = 0\) para\(i \ne j\)), tenemos

\(a_i = \dfrac{\text{Cov}[Y, X_i]}{\text{Var} [X_i]}\)\(1 \le i \le n\)

\(a_0 = E[Y] - a_1 E[X_1] - a_2 E[X_2] - \cdot\cdot\cdot - a_n E[X_n]\)

En particular, esta condición se mantiene si la clase\(\{X_i : 1 \le i \le n\}\) es iid como en el caso de una muestra aleatoria simple (ver la sección sobre "Muestras aleatorias simples y estadísticas “).

El examen muestra que para\(n = 1\), con\(X_1 = X\)\(a_0 = b\), y\(a_1 = a\), el resultado concuerda con el obtenido en el tratamiento de la línea de regresión, arriba.

Ejemplo\(\PageIndex{4}\) Linear regression with two variables.

Supongamos\(E[Y] = 3\)\(E[X_1] = 2\)\(E[X_2] = 3\),\(\text{Var}[X_1] = 3\),,\(\text{Var}[X_2] = 8\),\(\text{Cov}[Y, X_1] = 5\),\(\text{Cov} [Y, X_2] = 7\), y\(\text{Cov} [X_1, X_2] = 1\). Entonces las tres ecuaciones son

\(a_0 + 2a_2 + 3a_3 = 3\)

\(0 + 3a_1 + 1 a_2 = 5\)

\(0 + 1a_1 + 8a_2 = 7\)

La solución de estas ecuaciones lineales simultáneas con MATLAB da los resultados

\(a_0 = - 1.9565\),\(a_1 = 1.4348\), y\(a_2 = 0.6957\).