15.11: Resumen

Última actualización
Guardar como PDF

Page ID: 151905

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

Ideas básicas en regresión lineal y cómo se estiman los modelos de regresión (Secciones 15.1 y 15.2).
Regresión lineal múltiple (Sección 15.3).
Medición del desempeño general de un modelo de regresión usando R ² (Sección 15.4)
Pruebas de hipótesis para modelos de regresión (Sección 15.5)
Cálculo de intervalos de confianza para coeficientes de regresión y coeficientes estandarizados (Sección 15.7)
Los supuestos de regresión (Sección 15.8) y cómo verificarlos (Sección 15.9)
Selección de un modelo de regresión (Sección 15.10)

Referencias

Fox, J., y S. Weisberg. 2011. Un compañero R para la regresión aplicada. 2a ed. Los Ángeles: Sage.

Cook, R. D., y S. Weisberg. 1983. “Diagnóstico para Heterocedasticidad en Regresión”. Biometrika 70:1—10.

Long, J.S., y L.H. Ervin. 2000. “Uso de Errores Estándar Consistente de Heterocedasticidad en el Modelo de Regresión Lineal”. El Estadístico Americano 54:217—24.

Akaike, H. 1974. “Una nueva mirada a la identificación del modelo estadístico”. IEEE Transacciones en Control Automático 19:716—23.

El símbolo es la letra griega épsilon. Es tradicional usar _{i o e _i} para denotar un residuo.
O al menos, estoy asumiendo que no ayuda a la mayoría de la gente. Pero en caso de que alguien que lea esto sea un verdadero maestro de kung fu del álgebra lineal (y para ser justos, siempre tengo algunas de estas personas en mi clase de estadísticas de introducción), te ayudará a saber que la solución al problema de estimación resulta ser \(\ \hat{b} = (X^TX)^{-1}X^Ty\), donde\(\ \hat{b}\) es un vector que contiene los coeficientes de regresión estimados, X es la “matriz de diseño” que contiene las variables predictoras (más una columna adicional que contiene todas las; estrictamente X es una matriz de los regresores, pero aún no he discutido la distinción), e y es un vector que contiene la variable de resultado. Para todos los demás, esto no es exactamente útil y puede ser francamente aterrador. Sin embargo, dado que bastantes cosas en la regresión lineal se pueden escribir en términos de álgebra lineal, verás un montón de notas al pie como esta en este capítulo. Si puedes seguir las matemáticas en ellas, genial. Si no, ignóralo.
Y por “a veces” me refiero a “casi nunca”. En la práctica todo el mundo simplemente lo llama “R-cuadrado”.
Tenga en cuenta que, aunque R ha hecho múltiples pruebas aquí, no ha hecho una corrección de Bonferroni ni nada. Estas son pruebas t estándar de una muestra con una alternativa de dos caras. Si quieres hacer correcciones para múltiples pruebas, debes hacerlo tú mismo.
Puede cambiar el tipo de corrección que aplica especificando el argumento p.adjustment .method.
Estrictamente, estandarizas todos los regresores: es decir, cada “cosa” que tenga un coeficiente de regresión asociado a ella en el modelo. Para los modelos de regresión de los que he hablado hasta ahora, cada variable predictora se mapea exactamente en un regressor, y viceversa. Sin embargo, eso no es realmente cierto en general: veremos algunos ejemplos de esto en el Capítulo 16. Pero por ahora, no necesitamos preocuparnos demasiado por esta distinción.
O no tener esperanza, según sea el caso.
Nuevamente, para los fanáticos del álgebra lineal: la “matriz hat” se define como aquella matriz H que convierte el vector de valores observados y en un vector de valores ajustados\(\ \hat{y}\), tal que\(\ \hat{y}\) =Hy. El nombre viene del hecho de que esta es la matriz que “pone sombrero en y”. El valor hat de la i-ésima observación es el i-ésimo elemento diagonal de esta matriz (así que técnicamente debería escribirlo como hii en lugar de hi). Ah, y en caso de que te importe, así es como se calcula:\(\ H = X(X^TX)^{-1}X^T\). Bonito, ¿no es así?
Aunque se debe hacer especial mención a las funciones InfluenceIndexPlot () e InfluencePlot () en el paquete de automóviles. Estos producen imágenes algo más detalladas que las parcelas por defecto que he mostrado aquí. También hay una función outlierTest () que prueba para ver si alguno de los residuos Studentised es significativamente mayor de lo que se esperaría por casualidad.
Una alternativa es ejecutar una “regresión robusta”; voy a discutir la regresión robusta en una versión posterior de este libro.
Y, si te tomas el tiempo para verificar el residualPlot () para la regressión.1, está bastante claro que esta no es una distorsión alocada causada por el hecho de que baby.sleep es una variable predictora inútil. Es una no linealidad real en la relación entre dan.sleep y dan.grump.
Tenga en cuenta que las mecánicas subyacentes de la prueba no son las mismas que las que he descrito para las regresiones; la bondad de ajuste se evalúa usando lo que se conoce como una prueba de puntaje, no una prueba F, y el estadístico de prueba es (aproximadamente) χ2 distribuido si no hay relación
Nuevamente, una nota al pie de página que deben ser leídas sólo por los dos lectores de este libro que aman el álgebra lineal (mmmm... Me encanta el olor de los cálculos matriciales por la mañana; huele a... nerd). En estos estimadores, la matriz de covarianza para b viene dada por\(\ (X^TX)^{-1}\)\(\ X^T\sum X\)\(\ (X^TX)^{-1}\). Ves, ¿es un “sándwich”? Suponiendo que pienses que\(\ (X^TX)^{-1}\) ="pan” y xtσx="relleno”, es decir. Que por supuesto todos hacen, ¿verdad? En cualquier caso, el estimador habitual es lo que obtienes cuando lo configuras\(\ \sum = \hat{\sigma}\ ^2I\). La versión corregida que aprendí originalmente usa\(\ diag (\epsilon_i^2)\) (White 1980). No obstante, la versión que Fox y Weisberg (2011)
Tenga en cuenta, sin embargo, que la función step () calcula la versión completa de AIC, incluyendo las constantes irrelevantes que he dejado caer aquí. Como consecuencia esta ecuación no va a describir correctamente los valores AIC que se ven en las salidas aquí. Sin embargo, si calculas los valores AIC usando mi fórmula para dos modelos de regresión diferentes y tomas la diferencia entre ellos, esto será lo mismo que las diferencias entre los valores de AIC que step () informa. En la práctica, esto es todo lo que te importa: el valor real de una estadística AIC no es muy informativo, pero las diferencias entre dos valores AIC son útiles, ya que estos proporcionan una medida del grado en que un modelo supera a otro.
Mientras estoy en este tema debo señalar que también existe una función llamada BIC () que calcula el criterio de información bayesiana (BIC) para los modelos. Entonces podrías escribir BIC (M0, M1) y obtener una salida muy similar. De hecho, aunque no estoy particularmente impresionado con AIC o BIC como métodos de selección de modelos, si te encuentras usando uno de estos dos, la evidencia empírica sugiere que BIC es el mejor criterio de los dos. En la mayoría de los estudios de simulación que he visto, BIC hace un trabajo mucho mejor al seleccionar el modelo correcto.
Vale la pena señalar de pasada que esta misma estadística F puede ser utilizada para probar una gama mucho más amplia de hipótesis que las que estoy mencionando aquí. Muy brevemente: observe que el modelo anidado M0 corresponde al modelo completo M1 cuando limitamos algunos de los coeficientes de regresión a cero. A veces es útil construir submodelos colocando otro tipo de restricciones en los coeficientes de regresión. Por ejemplo, tal vez dos coeficientes diferentes podrían tener que sumar a cero, o algo así. También puedes construir pruebas de hipótesis para ese tipo de restricciones, pero es algo más complicado y la distribución de muestreo para F puede terminar siendo algo conocido como la distribución F no central, ¡que está muy allá del alcance de este libro! Todo lo que quiero hacer es alertarte de esta posibilidad.