13.6: Predecir con una ecuación de regresión

Última actualización
Guardar como PDF

Page ID: 151028

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

Un valor importante de una ecuación de regresión estimada es su capacidad para predecir los efectos sobre\(Y\) un cambio en uno o más valores de las variables independientes. El valor de esto es obvio. No se puede hacer una política cuidadosa sin estimaciones de los efectos que puedan resultar. En efecto, es el deseo de resultados particulares lo que impulsa la formación de la mayoría de las políticas. Los modelos de regresión pueden ser, y han sido, ayudas invaluables para formar tales políticas.

El teorema de Gauss-Markov nos asegura que la estimación puntual del impacto sobre la variable dependiente derivada al poner en la ecuación los valores hipotéticos de las variables independientes que se desea simular dará como resultado una estimación de la variable dependiente que es mínima varianza e imparcial. Es decir que de esta ecuación viene la mejor estimación puntual imparcial de y dados los valores de\(x\).

\[\hat{y}=b_{0}+b, X_{1 i}+\cdots+b_{k} X_{k i}\nonumber\]

Recuerde que las estimaciones puntuales no llevan un nivel particular de probabilidad, o nivel de confianza, porque los puntos no tienen “ancho” por encima del cual hay un área a medir. Por ello desarrollamos intervalos de confianza para la media y la proporción antes. La misma preocupación surge aquí también. En realidad, existen dos enfoques diferentes para el tema de desarrollar estimaciones de cambios en la variable independiente, o variables, sobre la variable dependiente. El primer enfoque desea medir el valor medio esperado de y a partir de un cambio específico en el valor de\(x\): este valor específico implica el valor esperado. Aquí la pregunta es: ¿cuál es el impacto medio sobre\(y\) eso resultaría de múltiples experimentos hipotéticos\(y\) en este valor específico de\(x\). Recuerde que hay una varianza alrededor del parámetro estimado de\(x\) y así cada experimento dará como resultado un poco de una estimación diferente del valor predicho de\(y\).

El segundo enfoque para estimar el efecto de un valor específico de x sobre y trata el evento como un solo experimento: eliges x y lo multiplica por el coeficiente y eso proporciona una sola estimación de y. Debido a que este enfoque actúa como si hubiera un solo experimento la varianza que existe en el parámetro estimación es mayor que la varianza asociada con el enfoque del valor esperado.

La conclusión es que tenemos dos formas diferentes de predecir el efecto de los valores de la (s) variable (s) independiente (s) sobre la variable dependiente y así tenemos dos intervalos diferentes. Ambas son respuestas correctas a la pregunta que se hace, pero hay dos preguntas diferentes. Para evitar confusiones, el primer caso en el que estamos pidiendo el valor esperado de la media del estimado\(y\), se denomina intervalo de confianza como hemos denominado a este concepto antes. El segundo caso, donde estamos pidiendo la estimación del impacto en la variable dependiente y de un solo experimento usando un valor de\(x\), se denomina intervalo de predicción. Las estadísticas de prueba para estas dos medidas de intervalo dentro de las cuales\(y\) caerá el valor estimado de son:

\[\text { Confidence Interval for Expected Value of Mean Value of y for } \mathrm{x}=\mathrm{x}_{\mathrm{p}}\nonumber\]

\[\hat{y}=\pm t_{\alpha / 2} s_{e}\left(\sqrt{\frac{1}{n}+\frac{\left(x_{p}-\overline{x}\right)^{2}}{s_{x}}}\right)\nonumber\]

\[\text { Prediction Interval for an Individual y for } x=x_{p}\nonumber\]

\[\hat{y}=\pm t_{\alpha / 2} s_{e}\left(\sqrt{1+\frac{1}{n}+\frac{\left(x_{p}-\overline{x}\right)^{2}}{s_{x}}}\right)\nonumber\]

Donde\(s_e\) está la desviación estándar del término de error y\(s_x\) es la desviación estándar de la\(x\) variable.

Los cálculos matemáticos de estos dos estadísticos de prueba son complejos. Varios paquetes de software de regresión por computadora proporcionan programas dentro de las funciones de regresión a la Figura\(\PageIndex{15}\).

Figura 13.15 Predicción e intervalos de confianza para la ecuación de regresión; nivel de confianza del 95%.

La figura\(\PageIndex{15}\) muestra visualmente la diferencia que hace la desviación estándar en el tamaño de los intervalos estimados. El intervalo de confianza, que mide el valor esperado de la variable dependiente, es menor que el intervalo de predicción para el mismo nivel de confianza. El método del valor esperado supone que el experimento se realiza varias veces en lugar de una sola vez como en el otro método. La lógica aquí es similar, aunque no idéntica, a la discutida al desarrollar la relación entre el tamaño de la muestra y el intervalo de confianza utilizando el Teorema del Límite Central. Allí, a medida que aumentaba el número de experimentos, la distribución se estrechaba y el intervalo de confianza se estrechaba alrededor del valor esperado de la media.

También es importante señalar que los intervalos alrededor de una estimación puntual dependen en gran medida del rango de datos utilizados para estimar la ecuación independientemente del enfoque que se esté utilizando para la predicción. Recuerde que todas las ecuaciones de regresión pasan por el punto de medias, es decir, el valor medio de\(y\) y los valores medios de todas las variables independientes en la ecuación. Como el valor de\(x\) elegido para estimar el valor asociado de\(y\) está más alejado del punto de medias, el ancho del intervalo estimado alrededor de la Figura\(\PageIndex{16}\) muestra esta relación.

Figura 13.16 Intervalo de confianza para un valor individual de\(x\),\(X_p\), al nivel de confianza del 95%

La figura\(\PageIndex{16}\) demuestra la preocupación por la calidad del intervalo estimado ya sea un intervalo de predicción o un intervalo de confianza. Como el valor elegido para predecir\(y\),\(X_p\) en la gráfica, está más alejado del peso central de los datos\(\overline X\), vemos que el intervalo se expande en ancho incluso manteniendo constante el nivel de confianza. Esto demuestra que la precisión de cualquier estimación disminuirá a medida que se intente predecir más allá del mayor peso de los datos y seguramente se degradará rápidamente para predicciones más allá del rango de los datos. Desafortunadamente, aquí es justo donde se desean la mayoría de las predicciones. Se pueden hacer, pero el ancho del intervalo de confianza puede ser tan grande como para hacer inútil la predicción. Sin embargo, solo el cálculo real y la aplicación particular pueden determinar esto.

Ejemplo\(\PageIndex{6}\)

Recordemos el tercer examen/ejemplo de examen final.

Encontramos la ecuación de la línea de mejor ajuste para la nota final del examen en función de la calificación del tercer examen. Ahora podemos usar la línea de regresión de mínimos cuadrados para la predicción. Supongamos que el coeficiente para se\(X\) determinó que era significativamente diferente de cero.

Supongamos que desea estimar, o predecir, la puntuación media del examen final de los estudiantes de estadística que recibieron 73 en el tercer examen. Las puntuaciones de los exámenes (\(\bf x\)-valores) oscilan entre 65 y 75. Dado que 73 está entre los valores x 65 y 75, nos sentimos cómodos para sustituirlo\(x = 73\) en la ecuación. Entonces:

\[\hat{y}=-173.51+4.83(73)=179.08\nonumber\]

Predecimos que los estudiantes de estadística que obtengan una nota de 73 en el tercer examen obtendrán una calificación de 179.08 en el examen final, en promedio.

a. ¿Cuál predeciría que sería el puntaje final del examen para un estudiante que obtuvo un 66 en el tercer examen?

Responder

Solución 13.6

a. 145.27

b. ¿Cuál predeciría que sería la puntuación final del examen para un estudiante que obtuvo un 90 en el tercer examen?

Responder

Solución 13.6

b. Los\(x\) valores en los datos están entre 65 y 75. Noventa se encuentra fuera del dominio de los\(x\) valores observados en los datos (variable independiente), por lo que no se puede predecir de manera confiable la puntuación final del examen para este alumno. (Aunque es posible ingresar 90 en la ecuación para\(x\) y calcular un\(y\) valor correspondiente, el\(y\) valor que obtenga tendrá un intervalo de confianza que puede no ser significativo).

Para entender realmente cuán poco confiable puede ser la predicción fuera de los\(x\) valores observados en los datos, realice la sustitución\(x = 90\) en la ecuación.

\(\hat{y}=-173.51+4.83(90)=261.19\)

Se prevé que el puntaje del examen final sea de 261.19. El mayor puntaje que puede ser el examen final es 200.