10.4: Entonces, ¿y ahora qué? Implicaciones del Análisis Residual

Última actualización
Guardar como PDF

Page ID: 150061

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

¿Qué debe hacer si observa patrones en los residuos que parecen violar los supuestos de OLS? Si encuentras casos desviados —valores atípicos que se muestran muy influyentes— primero debes evaluar los casos específicos (observaciones). ¿Es posible que los datos estuvieran mal codificados? Escuchamos de muchos casos en los que los códigos de valor faltantes (a menudo “-99”) se dejaron inadvertidamente en el conjunto de datos. R trataría tales valores como si fueran datos reales, generando a menudo valores atípicos evidentes e influyentes. Si ese fuera el caso, recodificar la observación de la variable infractora como faltante (“NA”) e inténtelo de nuevo.

Pero, ¿y si no hay un problema obvio de codificación? Puede ser que el valor atípico influyente se mida adecuadamente, pero que la observación sea diferente de alguna manera teóricamente importante. Supongamos, por ejemplo, que tu modelo incluyera a algunos encuestados que —en lugar de responder diligentemente a tus preguntas— simplemente respondieron al azar a tus preguntas de la encuesta. Introducirían ruido y error. Si pudieras medir estos holgados, podrías excluirlos o incluir una variable de control en tu modelo para dar cuenta de sus diferentes patrones de respuestas. Discutiremos la inclusión de controles de modelo cuando volvamos al modelado de regresión múltiple en capítulos posteriores.

¿Y si su análisis residual indica la presencia de heterocedasticidad? Recordemos que esto socavará tu capacidad para hacer pruebas de hipótesis en OLS. Hay varias opciones. Si la variación en el ajuste sobre el rango del valor predicho de YY podría resultar plausiblemente de la omisión de una variable explicativa importante, debe volver a especificar su modelo en consecuencia (más sobre esto más adelante en este libro). A menudo ocurre que se puede mejorar la distribución de los residuos al incluir variables importantes pero previamente omitidas. Las medidas de ingreso, cuando se dejan fuera de los modelos de comportamiento del consumidor, suelen tener este efecto.

Otro enfoque es utilizar un enfoque de modelado diferente que tenga en cuenta la heterocedasticidad en el error estándar estimado. De particular utilidad son los estimadores robustos, que pueden emplearse usando la función rlm (modelo lineal robusto) en el paquete MASS. Este enfoque aumenta la magnitud de los errores estándar estimados, reduciendo los valores t y los valores p resultantes. Eso significa que el “costo” de ejecutar estimadores robustos es que se reduce la precisión de las estimaciones.

La evidencia de no linealidad en los residuos presenta un problema espinoso. Esta es una violación básica de un supuesto central de OLS, resultando en estimaciones sesgadas de AA y BB. ¿Qué puedes hacer? Primero, puedes volver a especificar tu modelo para incluir un polinomio; incluirías tanto la variable XX como un cuadrado de la variable XX. Tenga en cuenta que esto requerirá que recodifice XX. En este enfoque, el valor de XX es constante, mientras que el valor del cuadrado de XX aumenta exponencialmente. Por lo que una relación en la que YY disminuye a medida que aumenta el cuadrado de XX proporcionará una pendiente progresivamente más pronunciada a medida que XX se eleva. Este es el tipo de patrón que observamos en el ejemplo en el que se utilizó la ideología política para predecir el riesgo percibido que representa el cambio climático.