13.4: La ecuación de regresión

Última actualización
Guardar como PDF

Page ID: 151036

$ \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } $ $ \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} $$\newcommand{\id}{\mathrm{id}}$ $ \newcommand{\Span}{\mathrm{span}}$ $ \newcommand{\kernel}{\mathrm{null}\,}$ $ \newcommand{\range}{\mathrm{range}\,}$ $ \newcommand{\RealPart}{\mathrm{Re}}$ $ \newcommand{\ImaginaryPart}{\mathrm{Im}}$ $ \newcommand{\Argument}{\mathrm{Arg}}$ $ \newcommand{\norm}[1]{\| #1 \|}$ $ \newcommand{\inner}[2]{\langle #1, #2 \rangle}$ $ \newcommand{\Span}{\mathrm{span}}$ $\newcommand{\id}{\mathrm{id}}$ $ \newcommand{\Span}{\mathrm{span}}$ $ \newcommand{\kernel}{\mathrm{null}\,}$ $ \newcommand{\range}{\mathrm{range}\,}$ $ \newcommand{\RealPart}{\mathrm{Re}}$ $ \newcommand{\ImaginaryPart}{\mathrm{Im}}$ $ \newcommand{\Argument}{\mathrm{Arg}}$ $ \newcommand{\norm}[1]{\| #1 \|}$ $ \newcommand{\inner}[2]{\langle #1, #2 \rangle}$ $ \newcommand{\Span}{\mathrm{span}}$$\newcommand{\AA}{\unicode[.8,0]{x212B}}$

El análisis de regresión es una técnica estadística que puede probar la hipótesis de que una variable depende de una o más de otras variables. Además, el análisis de regresión puede proporcionar una estimación de la magnitud del impacto de un cambio en una variable sobre otra. Esta última característica, por supuesto, es todo importante en la predicción de valores futuros.

El análisis de regresión se basa en una relación funcional entre variables y además, asume que la relación es lineal. Esta suposición de linealidad es requerida porque, en su mayor parte, las propiedades estadísticas teóricas de la estimación no lineal aún no están bien elaboradas por los matemáticos y econometristas. Esto nos presenta algunas dificultades en el análisis económico porque muchos de nuestros modelos teóricos son no lineales. La curva de costo marginal, por ejemplo, es decididamente no lineal como lo es la función de costo total, si queremos creer en el efecto de la especialización del trabajo y la Ley del Producto Marginal Disminutivo. Existen técnicas para superar algunas de estas dificultades, la transformación exponencial y logarítmica de los datos por ejemplo, pero al principio debemos reconocer que el análisis de regresión estándar de mínimos cuadrados ordinarios (OLS) siempre utilizará una función lineal para estimar lo que podría ser un no lineal relación.

El modelo de regresión lineal general puede ser establecido por la ecuación:

\[y_{i}=\beta_{0}+\beta_{1} X_{1 i}+\beta_{2} X_{2 i}+\cdots+\beta_{k} X_{k i}+\varepsilon_{i}\nonumber\]

donde$\beta_0$ está la intercepción,$\beta_i$'s son la pendiente entre$Y$ y la apropiada$X_i$, y$\epsilon$ (pronunciado épsilon), es el término de error que captura errores en la medición$Y$ y el efecto sobre$Y$ de cualquier variable que falte en la ecuación que contribuir a explicar variaciones en$Y$. Esta ecuación es la ecuación teórica de población y por lo tanto utiliza letras griegas. La ecuación que estimaremos tendrá los símbolos romanos equivalentes. Esto es paralelo a la forma en que realizamos un seguimiento de los parámetros poblacionales y los parámetros de la muestra antes. El símbolo para la media poblacional fue$\mu$ y para la media muestral$\overline{X}$ y para la desviación estándar poblacional fue$\sigma$ y para la desviación estándar de la muestra fue$s$. La ecuación que se estimará con una muestra de datos para dos variables independientes será así:

\[y_{i}=b_{0}+b_{1} x_{1 i}+b_{2} x_{2 i}+e_{i}\nonumber\]

Al igual que con nuestro trabajo anterior con distribuciones de probabilidad, este modelo solo funciona si se mantienen ciertos supuestos. Estos son que el$Y$ se distribuye normalmente, los errores también se distribuyen normalmente con una media de cero y una desviación estándar constante, y que los términos de error son independientes del tamaño de$X$ e independientes entre sí.

Supuestos del modelo de regresión de mínimos cuadrados ordinarios

Cada una de estas suposiciones necesita un poco más de explicación. Si uno de estos supuestos no es cierto, entonces tendrá un efecto en la calidad de las estimaciones. Algunas de las fallas de estas suposiciones se pueden arreglar mientras que otras dan como resultado estimaciones que simplemente no proporcionan una idea de las preguntas que el modelo está tratando de responder o, peor aún, dan estimaciones sesgadas.

Las variables independientes,$x_i$, se miden todas sin error, y son números fijos que son independientes del término de error. Esta suposición está diciendo en efecto que$Y$ es determinista, el resultado de un componente fijo “$X$” y un componente de error aleatorio “”$\epsilon$.
El término de error es una variable aleatoria con una media de cero y una varianza constante. El significado de esto es que las varianzas de las variables independientes son independientes del valor de la variable. Considerar la relación entre los ingresos personales y la cantidad de un bien adquirido como ejemplo de un caso en el que la varianza depende del valor de la variable independiente, el ingreso. Es plausible que a medida que aumenten los ingresos la variación alrededor de la cantidad comprada también aumente simplemente por la flexibilidad que se brinda con mayores niveles de ingresos. El supuesto es para la varianza constante con respecto a la magnitud de la variable independiente llamada homocedasticidad. Si la suposición falla, entonces se llama heterocedasticidad. La Figura 13.6 muestra el caso de la homocedasticidad donde las tres distribuciones tienen la misma varianza alrededor del valor predicho de$Y$ independientemente de la magnitud de$X$.
Si bien las variables independientes son todas valores fijos, son de una distribución de probabilidad que normalmente se distribuye. Esto puede verse en la Figura 13.6 por la forma de las distribuciones colocadas en la línea predicha al valor esperado del valor relevante de$Y$.
Las variables independientes son independientes de$Y$, pero también se supone que son independientes de las otras$X$ variables. El modelo está diseñado para estimar los efectos de las variables independientes sobre alguna variable dependiente de acuerdo con una teoría propuesta. El caso en el que algunas o más de las variables independientes están correlacionadas no es inusual. Puede que no haya relación de causa y efecto entre las variables independientes, pero sin embargo se mueven juntas. Tomemos el caso de una curva de suministro simple donde la cantidad suministrada está teóricamente relacionada con el precio del producto y los precios de los insumos. Puede haber múltiples insumos que con el tiempo pueden moverse juntos por la presión inflacionaria general. Por lo tanto, los precios de los insumos violarán este supuesto de análisis de regresión. Esta condición se denomina multicolinealidad, la cual será retomada en detalle más adelante.
Los términos de error no están correlacionados entre sí. Esta situación surge de un efecto en un término de error de otro término de error. Si bien no es exclusivamente un problema de series de tiempo, es aquí donde más a menudo vemos este caso. Una$X$ variable en el periodo de tiempo uno tiene un efecto sobre la$Y$ variable, pero este efecto entonces tiene un efecto en el siguiente periodo de tiempo. Este efecto da lugar a una relación entre los términos de error. A este caso se le llama autocorrelación, “autocorrelacionada”. Los términos de error ahora no son independientes entre sí, sino que tienen su propio efecto en términos de error posteriores.

La Figura 13.6 no muestra todos los supuestos del modelo de regresión, pero ayuda a visualizar estos importantes.

Esta es la forma general que más a menudo se llama el modelo de regresión múltiple. El llamado análisis de regresión “simple” tiene solo una variable independiente (derecha) en lugar de muchas variables independientes. La regresión simple es solo un caso especial de regresión múltiple. Hay cierto valor al comenzar con la regresión simple: es fácil graficar en dos dimensiones, difícil de graficar en tres dimensiones e imposible graficar en más de tres dimensiones. En consecuencia, nuestras gráficas serán para el caso de regresión simple. La Figura 13.7 presenta el problema de regresión en forma de gráfico de dispersión del conjunto de datos donde se plantea la hipótesis de que$Y$ depende de la única variable independiente$X$.

Una relación básica desde los Principios Macroeconómicos es la función de consumo. Esta relación teórica establece que a medida que aumentan los ingresos de una persona, su consumo aumenta, pero en una cantidad menor que la subida de ingresos. Si$Y$ es consumo y$X$ es ingreso en la siguiente ecuación Figura 13.7, el problema de regresión es, primero, establecer que esta relación existe, y segundo, determinar el impacto de un cambio en el ingreso sobre el consumo de una persona. El parámetro$\beta_1$ se denominó Propensión Marginal al Consumo en Principios Macroeconómicos.

Cada “punto” de la Figura 13.7 representa el consumo e ingresos de diferentes individuos en algún momento. Esto se denominó datos de sección transversal anteriormente; observaciones sobre variables en un momento determinado a través de diferentes personas u otras unidades de medida. Este análisis se realiza a menudo con datos de series temporales, que serían el consumo e ingresos de un individuo o país en diferentes momentos en el tiempo. Para problemas macroeconómicos es común utilizar datos agregados de series de tiempos para todo un país. Para este particular concepto teórico estos datos están fácilmente disponibles en el informe anual del Consejo Presidencial de Asesores Económicos.

Figura 13.8. El análisis de regresión a veces se denomina análisis de “mínimos cuadrados” porque el método para determinar qué línea mejor “se ajusta” a los datos es minimizar la suma de los residuos cuadrados de una línea puesta a través de los datos.

Esta cifra muestra la supuesta relación entre el consumo y el ingreso de la teoría macroeconómica. Aquí los datos se trazan como un diagrama de dispersión y se ha dibujado una línea recta estimada. De esta gráfica podemos ver un término de error,$e_1$. Cada punto de datos también tiene un término de error. Nuevamente, se pone en la ecuación el término de error para captar efectos sobre el consumo que no son causados por cambios de ingresos. Tales otros efectos podrían ser ahorros o riquezas de una persona, o periodos de desempleo. Veremos como minimizando la suma de estos errores podemos obtener una estimación para la pendiente e intercepción de esta línea.

Considera la gráfica a continuación. La notación ha vuelto a eso para el modelo más general y no para el caso específico de la función de consumo macroeconómico en nuestro ejemplo.

El$\hat{\mathrm{y}}$ se lee "$\bf y$sombrero” y es el valor estimado de$\bf y$. (En la Figura 13.8$\hat{C}$ representa el valor estimado del consumo porque está en la línea estimada). Es el valor de$y$ obtenido usando la línea de regresión. $\hat{\mathrm{y}}$generalmente no es igual a$y$ partir de los datos.

Al término$y_{0}-\hat{y}_{0}=e_{0}$ se le llama el “error” o residual. No es un error en el sentido de un error. El término de error se colocó en la ecuación estimadora para capturar las variables faltantes y los errores en la medición que pudieran haber ocurrido en las variables dependientes. El valor absoluto de un residual mide la distancia vertical entre el valor real de$y$ y el valor estimado de$y$. En otras palabras, mide la distancia vertical entre el punto de datos real y el punto predicho en la línea como se puede ver en la gráfica en el punto$X_0$.

Si el punto de datos observado se encuentra por encima de la línea, el residuo es positivo y la línea subestima el valor real de los datos para$y$.

Si el punto de datos observado se encuentra por debajo de la línea, el residuo es negativo y la línea sobreestima ese valor de datos real para$y$.

En la gráfica,$y_{0}-\hat{y}_{0}=e_{0}$ se encuentra el residuo para el punto mostrado. Aquí el punto se encuentra por encima de la línea y el residual es positivo. Para cada punto de datos se calculan los residuos, o errores,$y_{i}-\hat{y}_{i}=e_{i}$ para$i = 1, 2, 3, ..., n$ dónde$n$ está el tamaño de la muestra. Cada uno$|e|$ es una distancia vertical.

La suma de los errores al cuadrado es el término obviamente llamado Suma de Errores Cuadrados (SSE).

Usando cálculo, se puede determinar la línea recta que tiene los valores de los parámetros de$b_0$ y$b_1$ que minimiza el SSE. Cuando haces el SSE un mínimo, has determinado los puntos que están en la línea de mejor ajuste. Resulta que la línea de mejor ajuste tiene la ecuación:

\[\hat{y}=b_{0}+b_{1} x\nonumber\]

dónde$b_{0}=\overline{y}-b_{1} \overline{x}$ y$b_{1}=\frac{\Sigma(x-\overline{x})(y-\overline{y})}{\Sigma(x-\overline{x})^{2}}=\frac{\operatorname{cov}(x, y)}{s_{x}^{2}}$

Las medias muestrales de los$x$ valores y los$y$ valores son$\overline{x}$ y$\overline{y}$, respectivamente. La línea de mejor ajuste siempre pasa por el punto ($\overline{y}$,$\overline{x}$) llamado los puntos de medias.

La pendiente también se$b$ puede escribir como:

\[b_{1}=r_{\mathrm{y}, \mathrm{x}}\left(\frac{s_{y}}{s_{x}}\right)\nonumber\]

donde$s_y$ = la desviación estándar de los$y$ valores y$s_x$ = la desviación estándar de los$x$ valores y$r$ es el coeficiente de correlación entre$x$ y$y$.

Estas ecuaciones se llaman las Ecuaciones Normales y provienen de otro hallazgo matemático muy importante llamado Teorema de Gauss-Markov sin el cual no podríamos hacer análisis de regresión. El Teorema de Gauss-Markov nos dice que las estimaciones que obtenemos de usar el método de regresión de mínimos cuadrados ordinarios (OLS) darán como resultado estimaciones que tienen algunas propiedades muy importantes. En el Teorema de Gauss-Markov se demostró que una línea de mínimos cuadrados es AZUL, que es, B est, L inear, U sesgada, E estigadora. Best es la propiedad estadística de que un estimador es el que tiene la varianza mínima. Lineal se refiere a la propiedad del tipo de línea que se estima. Un estimador imparcial es aquel cuya función de estimación tiene una media esperada igual a la media de la población. (Recordará que el valor esperado de$\mu_{\overline{x}}$ era igual a la media$\mu$ poblacional de acuerdo con el Teorema del Límite Central. Este es exactamente el mismo concepto aquí).

Tanto Gauss como Markov eran gigantes en el campo de las matemáticas, y Gauss también en la física, en el ^siglo XVIII y principios del ^siglo XIX. Apenas se superponían cronológicamente y nunca en geografía, pero el trabajo de Markov sobre este teorema se basó extensamente en el trabajo anterior de Carl Gauss. El extenso valor aplicado de este teorema tuvo que esperar hasta mediados de este siglo pasado.

Utilizando el método OLS ahora podemos encontrar la estimación de la varianza del error que es la varianza de los errores al cuadrado, e ². Esto a veces se llama el error estándar de la estimación. (Gramaticalmente esto probablemente se diga mejor como la estimación de la varianza del error) La fórmula para la estimación de la varianza del error es:

\[s_{e}^{2}=\frac{\Sigma\left(y_{i}-\hat{y}_{i}\right)^{2}}{n-k}=\frac{\Sigma e_{i}^{2}}{n-k}\nonumber\]

donde$\hat{y}$ está el valor predicho de$y$ y$y$ es el valor observado, y así el término$\left(y_{i}-\hat{y}_{i}\right)^{2}$ son los errores al cuadrado que se van a minimizar para encontrar las estimaciones de los parámetros de la línea de regresión. Esto es realmente solo la varianza de los términos de error y sigue nuestra fórmula de varianza regular. Una nota importante es que aquí estamos dividiendo por$(n−k)$, que son los grados de libertad. Los grados de libertad de una ecuación de regresión serán el número de observaciones,$n$, reducido por el número de parámetros estimados, que incluye la intercepción como parámetro.

La varianza de los errores es fundamental para probar hipótesis para una regresión. Nos dice lo “apretada” que es la dispersión sobre la línea. Como veremos en breve, cuanto mayor sea la dispersión alrededor de la línea, es decir, cuanto mayor sea la varianza de los errores, menos probable es que se encuentre que la variable independiente hipotética tenga un efecto significativo sobre la variable dependiente. En definitiva, es más probable que la teoría que se esté probando falle si la varianza del término de error es alta. A la reflexión esto no debería ser una sorpresa. A medida que probamos hipótesis sobre una media observamos que grandes varianzas redujeron el estadístico de prueba calculado y por lo tanto no logró llegar a la cola de la distribución. En esos casos, las hipótesis nulas no pudieron ser rechazadas. Si no podemos rechazar la hipótesis nula en un problema de regresión, debemos concluir que la variable independiente hipotética no tiene ningún efecto sobre la variable dependiente.

Una forma de visualizar este concepto es dibujar dos gráficos de dispersión$x$ y$y$ datos a lo largo de una línea predeterminada. El primero tendrá poca varianza de los errores, lo que significa que todos los puntos de datos se moverán cerca de la línea. Ahora haga lo mismo excepto que los puntos de datos tendrán una gran estimación de la varianza del error, lo que significa que los puntos de datos están dispersos ampliamente a lo largo de la línea. Claramente la confianza sobre una relación entre$x$ y$y$ se ve afectada por esta diferencia entre la estimación de la varianza del error.

Prueba de los parámetros de la línea

Todo el objetivo del análisis de regresión fue probar la hipótesis de que la variable dependiente, de hecho$Y$, dependía de los valores de las variables independientes según lo aseverado por alguna teoría fundacional, como el ejemplo de función de consumo. Al observar la ecuación estimada bajo la Figura 13.8, vemos que esto equivale a determinar los valores de$b_0$ y$b_1$. Observe que nuevamente estamos utilizando la convención de letras griegas para los parámetros poblacionales y letras romanas para sus estimaciones.

El resultado del análisis de regresión proporcionado por el software de computadora producirá una estimación de$b_0$ y$b_1$, y cualquier otra$b$ para otras variables independientes que se incluyeron en la ecuación estimada. El tema es ¿qué tan buenas son estas estimaciones? Para probar una hipótesis con respecto a cualquier estimación, hemos encontrado que necesitamos conocer la distribución de muestreo subyacente. No debería sorprendernos en su etapa del curso que la respuesta va a ser la distribución normal. Esto se puede apreciar recordando el supuesto de que el término de error en la población,$\epsilon$, se distribuye normalmente. Si el término de error se distribuye normalmente y la varianza de las estimaciones de los parámetros de la ecuación,$b_0$ y$b_1$, están determinados por la varianza del término de error, se deduce que las varianzas de las estimaciones de los parámetros también se distribuyen normalmente. Y de hecho esto es justo el caso.

Esto lo podemos ver mediante la creación del estadístico de prueba para la prueba de hipótesis para el parámetro de pendiente,$\beta_1$ en nuestra ecuación de función de consumo. Para probar si efectivamente depende o$Y$ no de$X$, o en nuestro ejemplo, que el consumo dependa del ingreso, solo necesitamos probar la hipótesis que$\beta_1$ equivale a cero. Esta hipótesis se expresaría formalmente como:

\[H_{0} : \beta_{1}=0\nonumber\]

\[H_{a} : \beta_{1} \neq 0\nonumber\]

Si no podemos rechazar la hipótesis nula, debemos concluir que nuestra teoría no tiene validez. Si no podemos rechazar la hipótesis nula de que$\beta_1 = 0$ entonces$b_1$, el coeficiente de Ingresos, es cero y cero veces cualquier cosa es cero. Por lo tanto, el efecto de los Ingresos sobre el Consumo es cero. No hay relación como nuestra teoría había sugerido.

Observe que hemos establecido la presunción, la hipótesis nula, como “no relación”. Esto pone la carga de la prueba en la hipótesis alternativa. Es decir, si vamos a validar nuestra afirmación de encontrar una relación, debemos hacerlo con un nivel de significación mayor al 90, 95, o 99 por ciento. El status quo es ignorancia, no existe relación alguna, y para poder hacer la afirmación que realmente hemos agregado a nuestro cuerpo de conocimiento debemos hacerlo con probabilidad significativa de ser correctos. John Maynard Keynes lo hizo bien y así nació la economía keynesiana comenzando con este concepto básico en 1936.

El estadístico de prueba para esta prueba proviene directamente de nuestro viejo amigo la fórmula estandarizadora:

\[t_{c}=\frac{b_{1}-\beta_{1}}{S_{b_{1}}}\nonumber\]

donde$b_1$ está el valor estimado de la pendiente de la línea de regresión,$\beta_1$ es el valor hipotético de beta, en este caso cero, y$S_{b_1}$ es la desviación estándar de la estimación de$b_1$. En este caso nos preguntamos cuántas desviaciones estándar es la pendiente estimada alejada de la pendiente hipotética. Esta es exactamente la misma pregunta que hicimos antes con respecto a una hipótesis sobre una media: ¿cuántas desviaciones estándar es la media estimada, la media de la muestra, a partir de la media hipotética?

El estadístico de prueba se escribe como la distribución t de un estudiante, pero si el tamaño de la muestra es lo suficientemente mayor para que los grados de libertad sean mayores a 30 podemos volver a usar la distribución normal. Para ver por qué podemos usar la t o distribución normal del estudiante solo tenemos que mirar$S_{b_1}$, la fórmula para la desviación estándar de la estimación de$b_1$:

\[S_{b_{1}}=\frac{S_{e}^{2}}{\sqrt{\left(x_{i}-\overline{x}\right)^{2}}}\nonumber\]

\[\text{or}\nonumber\]

\[S_{b_{1}}=\frac{S_{e}^{2}}{(n-1) S_{x}^{2}}\nonumber\]

Dónde$S_e$ está la estimación de la varianza del error y$S^2_x$ es la varianza de$x$ los valores del coeficiente de la variable independiente que se está probando.

Vemos que$S_e$, la estimación de la varianza del error, es parte del cálculo. Debido a que la estimación de la varianza del error se basa en el supuesto de normalidad de los términos de error, podemos concluir que la distribución muestral de los$b$'s, los coeficientes de nuestra línea de regresión hipotética, también se distribuyen normalmente.

Una última nota se refiere a los grados de libertad del estadístico de prueba,$ν=n-k$. Anteriormente restamos 1 del tamaño de la muestra para determinar los grados de libertad en el problema t de un estudiante. Aquí debemos restar un grado de libertad por cada parámetro estimado en la ecuación. Para el ejemplo de la función de consumo perdemos 2 grados de libertad, uno para$b_0$, la intercepción y otro para$b_1$, la pendiente de la función de consumo. Los grados de libertad serían$n - k - 1$, donde k es el número de variables independientes y el extra se pierde por la intercepción. Si estimaremos una ecuación con tres variables independientes, perderíamos 4 grados de libertad: tres para las variables independientes y uno más para la interceptación.$k$

La regla de decisión para la aceptación o rechazo de la hipótesis nula sigue exactamente la misma forma que en todas nuestras pruebas previas de hipótesis. Es decir, si el valor calculado de$t$ (o$Z$) cae en las colas de la distribución, donde las colas están definidas por$\alpha$, el nivel de significancia requerido en la prueba, no podemos aceptar la hipótesis nula. Si por otro lado, el valor calculado del estadístico de prueba se encuentra dentro de la región crítica, no podemos rechazar la hipótesis nula.

Si concluimos que no podemos aceptar la hipótesis nula, podemos afirmar con$(1−\alpha)$ nivel de confianza que la pendiente de la línea viene dada por$b_1$. Esta es una conclusión sumamente importante. El análisis de regresión no sólo nos permite probar si existe una relación de causa y efecto, también podemos determinar la magnitud de esa relación, si se encuentra que existe una. Es esta característica del análisis de regresión lo que lo hace tan valioso. Si se pueden desarrollar modelos que tengan validez estadística, entonces podemos simular los efectos de cambios en variables que pueden estar bajo nuestro control con cierto grado de probabilidad, por supuesto. Por ejemplo, si se demuestra que la publicidad afecta las ventas, podemos determinar los efectos de cambiar el presupuesto publicitario y decidir si las ventas incrementadas valen el gasto agregado.

Multicolinealidad

Nuestra discusión anterior indicó que como todos los modelos estadísticos, el modelo de regresión OLS tiene importantes suposiciones adjuntas. Cada suposición, si se viola, tiene un efecto sobre la capacidad del modelo para proporcionar estimaciones útiles y significativas. El Teorema de Gauss-Markov nos ha asegurado que las estimaciones de OLS son imparciales y mínima varianza, pero esto es cierto solo bajo los supuestos del modelo. Aquí veremos los efectos en las estimaciones de OLS si las variables independientes están correlacionadas. Los demás supuestos y los métodos para mitigar las dificultades que plantean si se encuentran violados se examinan en los cursos de Econometría. Asumimos la multicolinealidad porque suele prevalecer en los modelos económicos y a menudo conduce a resultados frustrantes.

El modelo OLS asume que todas las variables independientes son independientes entre sí. Esta suposición es fácil de probar para una muestra particular de datos con coeficientes de correlación simples. La correlación, como mucho en la estadística, es cuestión de grado: un poco no es bueno, y mucho es terrible.

El objetivo de la técnica de regresión es desviar los impactos independientes de cada una de un conjunto de variables independientes sobre alguna variable dependiente hipotética. Si dos 2 variables independientes están interrelacionadas, es decir, correlacionadas, entonces no podemos aislar los efectos sobre$Y$ de una de la otra. En un caso extremo donde$x_1$ es una combinación lineal de$x_2$, correlación igual a uno, ambas variables se mueven de manera idéntica con$Y$. En este caso es imposible determinar la variable que es la verdadera causa del efecto sobre$Y$. (Si las dos variables estuvieran realmente perfectamente correlacionadas, entonces matemáticamente no se podrían calcular resultados de regresión).

Las ecuaciones normales para los coeficientes muestran los efectos de la multicolinealidad sobre los coeficientes.

\[b_{1}=\frac{s_{y}\left(r_{x_{1} y}-r_{x_{1} x_{2}} r_{x_{2} y}\right)}{s_{x_{1}}\left(1-r_{x_{1} x_{2}}^{2}\right)}\nonumber\]

\[b_{2}=\frac{s_{y}\left(r_{x_{2 y}}-r_{x_{1} x_{2}} r_{x_{1} y}\right)}{s_{x_{2}}\left(1-r_{x_{1} x_{2}}^{2}\right)}\nonumber\]

\[b_{0}=\overline{y}-b_{1} \overline{x}_{1}-b_{2} \overline{x}_{2}\nonumber\]

La correlación entre$x_1$ y$x_2$,$r_{x_{1} x_{2}}^{2}$, aparece en el denominador tanto de la fórmula de estimación para$b_1$ como$b_2$. Si se mantiene el supuesto de independencia, entonces este término es cero. Esto indica que no hay efecto de la correlación sobre el coeficiente. Por otro lado, a medida que aumenta la correlación entre las dos variables independientes el denominador disminuye, y así aumenta la estimación del coeficiente. La correlación tiene el mismo efecto en ambos coeficientes de estas dos variables. En esencia, cada variable está “tomando” parte del efecto sobre Y que debe atribuirse a la variable colineal. Esto da como resultado estimaciones sesgadas.

La multicolinealidad tiene un impacto perjudicial adicional en las estimaciones de OLS. La correlación entre las dos variables independientes también aparece en las fórmulas para la estimación de la varianza para los coeficientes.

\[s_{b_{1}}^{2}=\frac{s_{e}^{2}}{(n-1) s_{x_{1}}^{2}\left(1-r_{x_{1} x_{2}}^{2}\right)}\nonumber\]

\[s_{b_{2}}^{2}=\frac{s_{e}^{2}}{(n-1) s_{x_{2}}^{2}\left(1-r_{x_{1} x_{2}}^{2}\right)}\nonumber\]

Aquí nuevamente vemos la correlación entre$x_1$ y$x_2$ en el denominador de las estimaciones de la varianza para los coeficientes para ambas variables. Si la correlación es cero como se supone en el modelo de regresión, entonces la fórmula colapsa a la relación familiar de la varianza de los errores a la varianza de la variable independiente relevante. Sin embargo, si las dos variables independientes están correlacionadas, entonces la varianza de la estimación del coeficiente aumenta. Esto da como resultado un menor$t$ -valor para la prueba de hipótesis del coeficiente. En resumen, la multicolinealidad da como resultado no rechazar la hipótesis nula de que la$X$ variable no tiene impacto$Y$ cuando de hecho$X$ tiene un impacto estadísticamente significativo en$Y$. Dicho de otra manera, los grandes errores estándar del coeficiente estimado creado por la multicolinealidad sugieren insignificancia estadística incluso cuando la relación hipotética es fuerte.

¿Qué tan buena es la ecuación?

En la última sección nos ocupamos de probar la hipótesis de que la variable dependiente dependía efectivamente de la variable o variables independientes hipotéticas. Puede ser que encontremos una variable independiente que tenga algún efecto sobre la variable dependiente, pero puede que no sea la única, y puede que ni siquiera sea la más importante. Recuerde que el término de error se colocó en el modelo para capturar los efectos de cualquier variable independiente faltante. De ello se deduce que el término de error puede utilizarse para dar una medida de la “bondad de ajuste” de la ecuación tomada en su conjunto para explicar la variación de la variable dependiente,$Y$.

El coeficiente de correlación múltiple, también llamado coeficiente de determinación múltiple o coeficiente de determinación, viene dado por la fórmula:

\[R^{2}=\frac{\mathrm{SSR}}{\mathrm{SST}}\nonumber\]

donde SSR es la suma de regresión de cuadrados, la desviación cuadrada del valor predicho$y$ del valor medio de$y(\hat{y}-\overline{y})$, y SST es la suma total La Figura 13.10 muestra cómo se divide la desviación total de la variable dependiente, y, en estas dos partes.

La Figura 13.10 muestra la línea de regresión estimada y una sola observación,$x_1$. El análisis de regresión intenta explicar la variación de los datos sobre el valor medio de la variable dependiente,$y$. La pregunta es, ¿por qué las observaciones de y varían del nivel promedio de$y$? El valor de y en la observación$x_1$ varía de la media de$y$ por la diferencia$\left(y_{i}-\overline{y}\right)$. La suma de estas diferencias al cuadrado es SST, la suma de cuadrados totales. El valor real de$y$ at$x_1$ se desvía del valor estimado,$\hat{y}$, por la diferencia entre el valor estimado y el valor real,$\left(y_{i}-\hat{y}\right)$. Recordamos que este es el término de error, e, y la suma de estos errores es SSE, suma de errores cuadrados. La desviación del valor predicho de$y$,$\hat y$, del valor medio de$y$ es$(\hat{y}-\overline{y})$ y es la SSR, regresión de suma de cuadrados. Se llama “regresión” porque es la desviación explicada por la regresión. (A veces la SSR se llama SSM para suma de cuadrados media porque mide la desviación del valor medio de la variable dependiente, y, como se muestra en la gráfica.).

Debido a que el SST = SSR + SSE vemos que el coeficiente de correlación múltiple es el porcentaje de la varianza, o desviación$y$ de su valor medio, eso se explica por la ecuación cuando se toma como un todo. $R^2$variará entre cero y 1, con cero indicando que ninguna de la variación en$y$ fue explicada por la ecuación y un valor de 1 indicando que el 100% de la variación en$y$ fue explicada por la ecuación. Para series de tiempo, los estudios esperan un alto$R^2$ y para los datos de sección transversal esperan bajos$R^2$.

Si bien un alto$R^2$ es deseable, recuerde que son las pruebas de la hipótesis sobre la existencia de una relación entre un conjunto de variables independientes y una variable dependiente particular las que fueron el factor motivador en el uso del modelo de regresión. Está validando una relación de causa y efecto desarrollada por alguna teoría que es la verdadera razón por la que elegimos el análisis de regresión. Aumentar el número de variables independientes tendrá el efecto de aumentar$R^2$. Para dar cuenta de este efecto, la medida adecuada del coeficiente de determinación es la$\overline{R}^{2}$, ajustada por grados de libertad, para mantener abajo la adición sin sentido de variables independientes.

No hay prueba estadística para el$R^2$ y por lo tanto poco se puede decir sobre el modelo usando$R^2$ con nuestro nivel de confianza característico. Dos modelos que tienen el mismo tamaño de SSE, es decir suma de errores cuadrados, pueden tener muy diferentes$R^2$ si los modelos competidores tienen diferentes SST, suma total de desviaciones cuadradas. La bondad de ajuste de los dos modelos es la misma; ambos tienen la misma suma de cuadrados inexplicables, errores al cuadrado, pero debido a la mayor suma total de cuadrados en uno de los modelos la$R^2$ diferencia. Nuevamente, el valor real de la regresión como herramienta es examinar hipótesis desarrolladas a partir de un modelo que predice ciertas relaciones entre las variables. Se trata de pruebas de hipótesis sobre los coeficientes del modelo y no un juego de maximización$R^2$.

Otra forma de probar la calidad general del modelo general es probar los coeficientes como un grupo y no de manera independiente. Debido a que se trata de regresión múltiple (más de una X), utilizamos la prueba F para determinar si nuestros coeficientes afectan colectivamente a Y. La hipótesis es:

$H_{o} : \beta_{1}=\beta_{2}=\ldots=\beta_{i}=0$

$H_a$: “al menos uno de los no$\beta_i$ es igual a 0"

Si la hipótesis nula no puede ser rechazada, entonces concluimos que ninguna de las variables independientes contribuye a explicar la variación en$Y$. Revisando la Figura 13.10 vemos que SSR, la suma explicada de cuadrados, es una medida de cuánto de la variación en$Y$ se explica por todas las variables del modelo. SSE, la suma de los errores al cuadrado, mide exactamente cuánto es inexplicable. De ello se deduce que la relación de estos dos puede proporcionarnos una prueba estadística del modelo en su conjunto. Recordando que la$F$ distribución es una relación de distribuciones de Chi cuadrado y que las varianzas se distribuyen de acuerdo con Chi Cuadrado, y la suma de errores al cuadrado y la suma de cuadrados son ambas varianzas, tenemos el estadístico de prueba para esta hipótesis como:

\[F_{c}=\frac{\left(\frac{S S R}{k}\right)}{\left(\frac{S S E}{n-k-1}\right)}\nonumber\]

donde$n$ es el número de observaciones y$k$ es el número de variables independientes. Se puede demostrar que esto equivale a:

\[F_{c}=\frac{n-k-1}{k} \cdot \frac{R^{2}}{1-R^{2}}\nonumber\]

Figura 13.10 donde$R^2$ está el coeficiente de determinación que también es una medida de la “bondad” del modelo.

Al igual que con todas nuestras pruebas de hipótesis, llegamos a una conclusión comparando el$F$ estadístico calculado con el valor crítico dado nuestro nivel de confianza deseado. Si el estadístico de prueba calculado, un$F$ estadístico en este caso, está en la cola de la distribución, entonces no podemos aceptar la hipótesis nula. Al no poder aceptar las hipótesis nulas concluimos que esta especificación de este modelo tiene validez, ya que al menos uno de los coeficientes estimados es significativamente diferente de cero.

Una forma alternativa de llegar a esta conclusión es usar la regla de comparación de valores p. El$p$ -valor es el área en la cola, dada la$F$ estadística calculada. En esencia, la computadora está encontrando el$F$ valor en la tabla para nosotros. El resultado de regresión por computadora para el$F$ estadístico calculado se encuentra típicamente en la sección de la tabla ANOVA etiquetada como “significancia F”. A continuación se presenta cómo leer el resultado de una regresión de Excel. Esta es la probabilidad de NO aceptar una hipótesis falsa nula. Si esta probabilidad es menor que nuestro error alfa predeterminado, entonces la conclusión es que no podemos aceptar la hipótesis nula.

Variables ficticias

Hasta el momento, el análisis de la técnica de regresión OLS asumió que las variables independientes en los modelos probados fueron variables aleatorias continuas. Sin embargo, no hay restricciones en el modelo de regresión frente a variables independientes que son binarias. Esto abre el modelo de regresión para probar hipótesis referentes a variables categóricas como género, raza, región del país, ante ciertos datos, después de una fecha determinada e innumerables otras. Estas variables categóricas toman solo dos valores, 1 y 0, éxito o fracaso, a partir de la distribución binomial de probabilidad. La forma de la ecuación se convierte en:

\[\hat{y}=b_{0}+b_{2} x_{2}+b_{1} x_{1}\nonumber\]

donde$x_2=0$. $X_2$es la variable ficticia y$X_1$ es alguna variable aleatoria continua. La constante,$b_0$, es la intercepción y, el valor donde la línea cruza el$y$ eje -eje. Cuando el valor de$X_2 = 0$, la línea estimada cruza en$b_0$. Cuando el valor de$X_2 = 1$ entonces la línea estimada cruza en$b_0 + b_2$. En efecto, la variable ficticia hace que la línea estimada se desplace hacia arriba o hacia abajo por el tamaño del efecto de la característica capturada por la variable ficticia. Tenga en cuenta que este es un desplazamiento paralelo simple y no afecta el impacto de la otra variable independiente;$X_1$ Esta variable es una variable aleatoria continua y predice diferentes valores de$y$ a diferentes valores de$X_1$ mantener constante la condición de la variable ficticia.

Un ejemplo del uso de una variable ficticia es el trabajo que estima el impacto del género en los salarios. Existe un cuerpo completo de literatura sobre este tema y las variables ficticias se utilizan ampliamente. Para este ejemplo se examinan los salarios de los maestros de primaria y secundaria de un estado en particular. El uso de una categoría laboral homogénea, los maestros de escuela y para un solo estado reducen muchas de las variaciones que naturalmente afectan los salarios como el riesgo físico diferencial, el costo de vida en un estado en particular y otras condiciones laborales. La ecuación estimadora en su forma más simple especifica el salario en función de diversas características docentes que la teoría económica sugeriría podría afectar el salario. Estos incluirían el nivel educativo como medida de productividad potencial, edad y/o experiencia para captar la capacitación en el trabajo, nuevamente como medida de productividad. Debido a que los datos son para maestros de escuela empleados en distritos escolares públicos en lugar de trabajadores en una empresa con fines de lucro, los ingresos promedio del distrito escolar por asistencia diaria promedio de los estudiantes se incluyen como medida de la capacidad de pago. A continuación se presentan los resultados del análisis de regresión utilizando datos de 24,916 profesores de escuela.

Cuadro 13.1 Estimaciones de ingresos para maestros de primaria y secundaria
Variable	Coeficientes de Regresión (b)	Errores estándar de las estimaciones para la función de ganancias del maestro (sb)
Interceptar	4269.9
Género (masculino = 1)	632.38	13.39
Total de años de experiencia	52.32	1.10
Años de Experiencia en Distrito Actual	29.97	1.52
Educación	629.33	13.16
Ingresos totales por ADA	90.24	3.76
$\overline{R}^{2}$	.725
$n$	24,916

Los coeficientes para todas las variables independientes son significativamente diferentes de cero como lo indican los errores estándar. Dividir los errores estándar de cada coeficiente da como resultado un valor t mayor a 1.96 que es el nivel requerido para una significancia del 95%. La variable binaria, nuestra variable ficticia de interés en este análisis, es género donde al macho se le da un valor de 1 y a la hembra se le da un valor de 0. El coeficiente es significativamente diferente de cero con un estadístico t dramático de 47 desviaciones estándar. Por lo tanto, no podemos aceptar la hipótesis nula de que el coeficiente es igual a cero. Por lo que concluimos que existe una prima pagada a los maestros varones de $632 después de tener constante experiencia, educación y la riqueza del distrito escolar en el que está empleado el maestro. Es importante señalar que estos datos son de hace algún tiempo y los 632 dólares representan una prima salarial del seis por ciento en ese momento. A continuación se presenta una gráfica de este ejemplo de variables ficticias.

En dos dimensiones, el salario es la variable dependiente del eje vertical y se eligió el total de años de experiencia para la variable independiente continua sobre eje horizontal. Cualquiera de las otras variables independientes podría haber sido elegida para ilustrar el efecto de la variable ficticia. La relación entre años totales de experiencia tiene una pendiente de $52.32 por año de experiencia y la línea estimada tiene una intercepción de $4,269 si la variable género es igual a cero, para mujeres. Si la variable género es igual a 1, para el varón, el coeficiente para la variable género se agrega a la intercepción y así la relación entre el total de años de experiencia y salario se desplaza hacia arriba en paralelo como se indica en la gráfica. También se marcan en la gráfica varios puntos de referencia. Una maestra de escuela femenina con 10 años de experiencia recibe un salario de $4,792 en base únicamente a su experiencia, pero esto sigue siendo 109 dólares menos que un profesor masculino con cero años de experiencia.

También se puede estimar una interacción más compleja entre una variable ficticia y la variable dependiente. Puede ser que la variable ficticia tenga más que un simple efecto de desplazamiento sobre la variable dependiente, pero también interactúe con una o más de las otras variables independientes continuas. Si bien no se probó en el ejemplo anterior, podría plantearse la hipótesis de que el impacto del género en el salario no fue un turno único, sino que también afectó el valor de años adicionales de experiencia en el salario. Es decir, los salarios de la maestra de escuela femenina se descontaron al inicio, y aún más no crecieron al mismo ritmo por efecto de la experiencia que para los maestros escolares varones. Esto se presentaría como una pendiente diferente para la relación entre el total de años de experiencia para los varones que para las mujeres. Si esto es así entonces las maestras de escuela no solo comenzarían detrás de sus compañeros varones (según lo medido por el cambio en la línea de regresión estimada), sino que se quedarían cada vez más atrás a medida que aumentara el tiempo y la experiencia.

El siguiente gráfico muestra cómo se puede probar esta hipótesis con el uso de variables ficticias y una variable de interacción.

La ecuación de estimación muestra cómo la pendiente de$X_1$, la experiencia de la variable aleatoria continua, contiene dos partes,$b_1$ y$b_3$. Esto ocurre debido a que la nueva variable$X_2$$X_1$, llamada variable de interacción, fue creada para permitir un efecto en la pendiente$X_1$ de los cambios en$X_2$, la variable ficticia binaria. Tenga en cuenta que cuando la variable ficticia,$X_2 = 0$ la variable de interacción tiene un valor de 0, pero cuando$X_2 = 1$ la variable de interacción tiene un valor de$X_1$. El coeficiente$b_3$ es una estimación de la diferencia en el coeficiente de$X_1$ cuando se$X_2= 1$ compara con cuándo$X_2 = 0$. En el ejemplo de los salarios de los maestros, si se paga una prima a los maestros varones que incide en la tasa de incremento de los salarios por experiencia, entonces la tasa a la que suben los salarios de los maestros varones sería$b_1 + b_3$ y la tasa a la que suben los salarios de las maestras sería simplemente$b_1$. Esta hipótesis se puede probar con la hipótesis:

\[H_{0} : \beta_{3}=0 | \beta_{1}=0, \beta_{2}=0\nonumber\]

\[H_{a} : \beta_{3} \neq 0 | \beta_{1} \neq 0, \beta_{2} \neq 0\nonumber\]

Esta es una$t$ prueba -usando el estadístico de prueba para el parámetro$\beta_3$. Si no podemos aceptar la hipótesis nula de que$\beta_3=0$ concluimos existe una diferencia entre la tasa de incremento para el grupo para el que el valor de la variable binaria se establece en 1, machos en este ejemplo. Esta ecuación estimadora se puede combinar con nuestra anterior Figura 13.13 se dibujan para este caso con un cambio en la función de ganancias y una diferencia en la pendiente de la función con respecto al total de años de experiencia.

Ejemplo 13.5

Una muestra aleatoria de 11 estudiantes de estadística produjo los siguientes datos, donde x es la puntuación del tercer examen sobre 80, e y es la puntuación final del examen sobre 200. ¿Puedes predecir la puntuación final del examen de un estudiante seleccionado al azar si conoces la puntuación del tercer examen?

Tabla en la que se muestran las puntuaciones del examen final en base a las puntuaciones del tercer examen.
$x$(tercer puntaje de examen)	$y$(puntaje final del examen)
65	175
67	133
71	185
71	163
66	126
75	198
67	153
70	163
71	159
69	151
69	159

Este es un diagrama de dispersión de los datos proporcionados. La puntuación del tercer examen se traza en el eje x, y la puntuación final del examen se traza en el eje y. Los puntos forman un patrón fuerte, positivo y lineal.