10.7: Estimación y predicción

Última actualización
Guardar como PDF

Page ID: 151176

$ \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } $ $ \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} $$\newcommand{\id}{\mathrm{id}}$ $ \newcommand{\Span}{\mathrm{span}}$ $ \newcommand{\kernel}{\mathrm{null}\,}$ $ \newcommand{\range}{\mathrm{range}\,}$ $ \newcommand{\RealPart}{\mathrm{Re}}$ $ \newcommand{\ImaginaryPart}{\mathrm{Im}}$ $ \newcommand{\Argument}{\mathrm{Arg}}$ $ \newcommand{\norm}[1]{\| #1 \|}$ $ \newcommand{\inner}[2]{\langle #1, #2 \rangle}$ $ \newcommand{\Span}{\mathrm{span}}$ $\newcommand{\id}{\mathrm{id}}$ $ \newcommand{\Span}{\mathrm{span}}$ $ \newcommand{\kernel}{\mathrm{null}\,}$ $ \newcommand{\range}{\mathrm{range}\,}$ $ \newcommand{\RealPart}{\mathrm{Re}}$ $ \newcommand{\ImaginaryPart}{\mathrm{Im}}$ $ \newcommand{\Argument}{\mathrm{Arg}}$ $ \newcommand{\norm}[1]{\| #1 \|}$ $ \newcommand{\inner}[2]{\langle #1, #2 \rangle}$ $ \newcommand{\Span}{\mathrm{span}}$$\newcommand{\AA}{\unicode[.8,0]{x212B}}$

Objetivos de aprendizaje

Conocer la distinción entre estimación y predicción.
Aprender la distinción entre un intervalo de confianza y un intervalo de predicción.
Aprender a implementar fórmulas para calcular intervalos de confianza e intervalos de predicción.

Consideremos los siguientes pares de problemas, en el contexto del Ejemplo 10.4.2, el ejemplo de edad y valor del automóvil.

Problema 1

Estimar el valor promedio de todos los automóviles de cuatro años de esta marca y modelo.
Construir un intervalo de$95\%$ confianza para el valor promedio de todos los automóviles de cuatro años de esta marca y modelo.

Problema 2

Shylock pretende comprar un automóvil de cuatro años de esta marca y modelo la próxima semana. Predecir el valor del primer automóvil de este tipo que encuentre.
Construir un intervalo de$95\%$ confianza para el valor del primer automóvil de este tipo que encuentre.

El método de solución y respuesta a la primera pregunta de cada par, (1a) y (2a), son los mismos. Cuando establecemos$x$ igual a$4$ en la ecuación de regresión de mínimos cuadrados

\[\hat{y} =−2.05x+32.83\]

que se computó en la parte (c) del Ejemplo 10.4.2, el número devuelto,

\[\hat{y}=−2.05(4)+32.83=24.63\]

que corresponde al valor$\$24,630$, es una estimación de precisamente el número buscado en cuestión (1a): la media$E(y)$ de todos los$y$ valores cuando$x = 4$. Dado que no se sabe nada del primer automóvil de cuatro años de esta marca y modelo que Shylock encontrará, nuestra mejor conjetura en cuanto a su valor es el valor medio$E(y)$ de todos esos automóviles, el número$24.63$ o$\$24,630$, calculado de la misma manera.

Las respuestas a la segunda parte de cada pregunta difieren. En la pregunta (1b) estamos tratando de estimar un parámetro poblacional: la media de todos los$y$ -valores en la subpoblación escogidos por el valor$x=4$, es decir, el valor promedio de todos los automóviles de cuatro años. En la pregunta (2b), sin embargo, no estamos tratando de capturar un parámetro fijo, sino el valor de la variable aleatoria$y$ en una prueba de un experimento: examinar el primer auto de cuatro años de edad, encuentros con Shylock. En el primer caso buscamos construir un intervalo de confianza en el mismo sentido que hemos hecho antes. En el segundo caso la situación es diferente, y el intervalo construido tiene un nombre diferente, intervalo de predicción. En el segundo caso estamos tratando de “predecir” donde a el valor de una variable aleatoria tomará su valor.

$100(1−α)\%$ Confidence Interval for the Mean Value of $y$ at $x=x_p$

\[\hat{y}_p ± t_{α∕2} s_ε \sqrt{\dfrac{1}{n}+ \dfrac{(x_p−\overline{x})^2}{SS_{xx}}} \]

donde

$x_p$es un valor particular$x$ que se encuentra en el rango de$x$ valores en el conjunto de datos de muestra utilizado para construir la línea de regresión de mínimos cuadrados;
$\hat{y}_p$es el valor numérico obtenido cuando la ecuación de regresión de mínimos cuadrados se evalúa en$x=x_p$; y
el número de grados de libertad para$t_{α∕2}$ es$df=n−2$.

Deben sostenerse los supuestos enumerados en la Sección 10.3.

La fórmula para el intervalo de predicción es idéntica excepto por la presencia del número$1$ debajo del signo de raíz cuadrada. Esto significa que el intervalo de predicción es siempre más ancho que el intervalo de confianza en el mismo nivel de confianza y valor de$x$. En la práctica la presencia del número$1$ tiende a hacerlo mucho más amplio.

$100(1−α)\%$ Prediction Interval for an Individual New Value of of $y$ at $x=x_p$

\[\hat{y}_p ± t_{α∕2} s_ε \sqrt{1+ \dfrac{1}{n}+ \dfrac{(x_p−\overline{x})^2}{SS_{xx}}} \]

donde

$x_p$es un valor particular$x$ que se encuentra en el rango de$x$ valores en el conjunto de datos utilizado para construir la línea de regresión de mínimos cuadrados;
$\hat{y}_p$es el valor numérico obtenido cuando la ecuación de regresión de mínimos cuadrados se evalúa en$x=x_p$; y
el número de grados de libertad para$t_{α∕2}$ es$df=n−2$.

Deben sostenerse los supuestos enumerados en la Sección 10.3.

Ejemplo$\PageIndex{1}$

Utilizando los datos de muestra del “Ejemplo 10.4.2" en la Sección 10.4, registrados en el Cuadro 10.4.3, se construye un intervalo de$95\%$ confianza para el valor promedio de todos los automóviles de tres años y medio de esta marca y modelo.

Solución:

Resolver este problema no es más que una cuestión de encontrar los valores de$\hat{y_p},\; \alpha ,\; and\; \; t_{\alpha /2},S_\varepsilon ,\; \bar{x}\; and\; \; SS_{xx}$, e insertarlos en la fórmula del intervalo de confianza dada justo arriba. La mayoría de estas cantidades ya son conocidas. Del Ejemplo 10.4.2,$SS_{xx}=14\; \; and\; \; \bar{x}=4$. Del Ejemplo 10.5.2,$S\varepsilon =1.902169814$.

A partir de la declaración del problema$x_p=3.5$, el valor$x$ de los intereses. El valor de$\hat{y_p}$ es el número dado por la ecuación de regresión, que por el Ejemplo 10.4.2 es$\hat{y}=-2.05x+32.83$, cuándo$x=x_p$, es decir, cuándo$x=3.5$. Así aquí$\hat{y}=-2.05(3.5)+32.83=25.655$.

Por último, el nivel de confianza$95\%$ significa que$\alpha =1-0.95=0.05$ así$\alpha /2=0.025$. Dado que el tamaño de la muestra es$n=10$, hay$n-2=8$ grados de libertad. Por la Figura 7.1.6,$t_{0.025}=2.306$. Así

\[\begin{align*} \hat{y_p}\pm t_{\alpha /2}S_\varepsilon \sqrt{\frac{1}{n}+\frac{(x_p-\bar{x})^2}{SS_{xx}}} &= 25.655\pm (2.306)(1.902169814)\sqrt{\frac{1}{10}+\frac{(3.5-4)^2}{14}}\\ &= 25.655\pm 4.386403591\sqrt{0.1178571429}\\ &= 25.655\pm 1.506 \end{align*}\]

que da el intervalo$(24.149,27.161)$.

$95\%$Confiamos en que el valor promedio de todos los vehículos de tres años y medio de esta marca y modelo es entre$\$24,149$ y$\$27,161$.

Ejemplo$\PageIndex{2}$

Utilizando los datos de muestra del Ejemplo 10.4.2, registrados en la Tabla 10.4.3, se construye un intervalo de$95\%$ predicción para el valor predicho de un automóvil de tres años y medio seleccionado aleatoriamente de esta marca y modelo.

Solución:

Los cálculos para este ejemplo son idénticos a los del ejemplo anterior, excepto que ahora hay el número extra$1$ debajo del signo de raíz cuadrada. Como tuvimos cuidado de registrar los resultados intermedios de ese cálculo, tenemos inmediatamente que el intervalo de$95\%$ predicción es

\[\begin{align*} \hat{y_p}\pm t_{\alpha /2}S_\varepsilon \sqrt{1+\frac{1}{n}+\frac{(x_p-\bar{x})^2}{SS_{xx}}} &= 25.655\pm 4.386403591\sqrt{1.1178571429}\\ &= 25.655\pm 4 \end{align*}\]

que da el intervalo$(21.017,30.293)$.

$95\%$Confiamos en que el valor de un vehículo de tres años y medio seleccionado al azar de esta marca y modelo es entre$\$21,017$ y$\$30,293$.

Tenga en cuenta la enorme diferencia que hizo la presencia del número extra$1$ bajo el signo de raíz cuadrada. El intervalo de predicción es aproximadamente dos veces y media más ancho que el intervalo de confianza en el mismo nivel de confianza.

Keytakaways

Se utiliza un intervalo de confianza para estimar el valor medio de$y$ en la subpoblación determinado por la condición que$x$ tiene algún valor específico$x_p$.
El intervalo de predicción se utiliza para predecir el valor que$y$ tomará la variable aleatoria cuando$x$ tenga algún valor específico$x_p$.