12.7: Valores atípicos

Última actualización
Guardar como PDF

Page ID: 153205

$ \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } $

$ \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} $

$ \newcommand{\id}{\mathrm{id}}$ $ \newcommand{\Span}{\mathrm{span}}$

( \newcommand{\kernel}{\mathrm{null}\,}\) $ \newcommand{\range}{\mathrm{range}\,}$

$ \newcommand{\RealPart}{\mathrm{Re}}$ $ \newcommand{\ImaginaryPart}{\mathrm{Im}}$

$ \newcommand{\Argument}{\mathrm{Arg}}$ $ \newcommand{\norm}[1]{\| #1 \|}$

$ \newcommand{\inner}[2]{\langle #1, #2 \rangle}$

$ \newcommand{\Span}{\mathrm{span}}$

$ \newcommand{\id}{\mathrm{id}}$

$ \newcommand{\Span}{\mathrm{span}}$

$ \newcommand{\kernel}{\mathrm{null}\,}$

$ \newcommand{\range}{\mathrm{range}\,}$

$ \newcommand{\RealPart}{\mathrm{Re}}$

$ \newcommand{\ImaginaryPart}{\mathrm{Im}}$

$ \newcommand{\Argument}{\mathrm{Arg}}$

$ \newcommand{\norm}[1]{\| #1 \|}$

$ \newcommand{\inner}[2]{\langle #1, #2 \rangle}$

$ \newcommand{\Span}{\mathrm{span}}$ $ \newcommand{\AA}{\unicode[.8,0]{x212B}}$

$ \newcommand{\vectorA}[1]{\vec{#1}} % arrow$

$ \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow$

$ \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } $

$ \newcommand{\vectorC}[1]{\textbf{#1}} $

$ \newcommand{\vectorD}[1]{\overrightarrow{#1}} $

$ \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} $

$ \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} $

$ \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } $

$ \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} $

$\newcommand{\avec}{\mathbf a}$ $\newcommand{\bvec}{\mathbf b}$ $\newcommand{\cvec}{\mathbf c}$ $\newcommand{\dvec}{\mathbf d}$ $\newcommand{\dtil}{\widetilde{\mathbf d}}$ $\newcommand{\evec}{\mathbf e}$ $\newcommand{\fvec}{\mathbf f}$ $\newcommand{\nvec}{\mathbf n}$ $\newcommand{\pvec}{\mathbf p}$ $\newcommand{\qvec}{\mathbf q}$ $\newcommand{\svec}{\mathbf s}$ $\newcommand{\tvec}{\mathbf t}$ $\newcommand{\uvec}{\mathbf u}$ $\newcommand{\vvec}{\mathbf v}$ $\newcommand{\wvec}{\mathbf w}$ $\newcommand{\xvec}{\mathbf x}$ $\newcommand{\yvec}{\mathbf y}$ $\newcommand{\zvec}{\mathbf z}$ $\newcommand{\rvec}{\mathbf r}$ $\newcommand{\mvec}{\mathbf m}$ $\newcommand{\zerovec}{\mathbf 0}$ $\newcommand{\onevec}{\mathbf 1}$ $\newcommand{\real}{\mathbb R}$ $\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}$ $\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}$ $\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}$ $\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}$ $\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}$ $\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}$ $\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}$ $\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}$ $\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}$ $\newcommand{\laspan}[1]{\text{Span}\{#1\}}$ $\newcommand{\bcal}{\cal B}$ $\newcommand{\ccal}{\cal C}$ $\newcommand{\scal}{\cal S}$ $\newcommand{\wcal}{\cal W}$ $\newcommand{\ecal}{\cal E}$ $\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}$ $\newcommand{\gray}[1]{\color{gray}{#1}}$ $\newcommand{\lgray}[1]{\color{lightgray}{#1}}$ $\newcommand{\rank}{\operatorname{rank}}$ $\newcommand{\row}{\text{Row}}$ $\newcommand{\col}{\text{Col}}$ $\renewcommand{\row}{\text{Row}}$ $\newcommand{\nul}{\text{Nul}}$ $\newcommand{\var}{\text{Var}}$ $\newcommand{\corr}{\text{corr}}$ $\newcommand{\len}[1]{\left|#1\right|}$ $\newcommand{\bbar}{\overline{\bvec}}$ $\newcommand{\bhat}{\widehat{\bvec}}$ $\newcommand{\bperp}{\bvec^\perp}$ $\newcommand{\xhat}{\widehat{\xvec}}$ $\newcommand{\vhat}{\widehat{\vvec}}$ $\newcommand{\uhat}{\widehat{\uvec}}$ $\newcommand{\what}{\widehat{\wvec}}$ $\newcommand{\Sighat}{\widehat{\Sigma}}$ $\newcommand{\lt}{<}$ $\newcommand{\gt}{>}$ $\newcommand{\amp}{&}$ $\definecolor{fillinmathshade}{gray}{0.9}$

En algunos conjuntos de datos, hay valores (puntos de datos observados) llamados valores atípicos. Los valores atípicos son puntos de datos observados que están lejos de la línea de mínimos cuadrados. Tienen grandes “errores”, donde el “error” o residual es la distancia vertical de la línea al punto. Los valores atípicos deben ser examinados de cerca. En ocasiones, por alguna razón u otra, no deben incluirse en el análisis de los datos. Es posible que un valor atípico sea resultado de datos erróneos. Otras veces, un valor atípico puede contener información valiosa sobre la población en estudio y debe permanecer incluido en los datos. La clave es examinar cuidadosamente qué hace que un punto de datos sea un valor atípico.

Además de los valores atípicos, una muestra puede contener uno o algunos puntos que se denominan puntos influyentes. Los puntos influyentes son puntos de datos observados que están lejos de los otros puntos de datos observados en la dirección horizontal. Estos puntos pueden tener un gran efecto en la pendiente de la línea de regresión. Para comenzar a identificar un punto influyente, puede eliminarlo del conjunto de datos y ver si la pendiente de la línea de regresión se cambia significativamente.

Se pueden usar computadoras y muchas calculadoras para identificar valores atípicos a partir de los datos. La salida de computadora para el análisis de regresión a menudo identificará tanto valores atípicos como puntos influyentes para que pueda examinarlos.

Identificar valores atípicos

Podríamos adivinar los valores atípicos mirando un gráfico de la gráfica de dispersión y la mejor línea de ajuste. Sin embargo, nos gustaría alguna pauta sobre qué tan lejos debe estar un punto para ser considerado un valor atípico. Como regla general aproximada, podemos marcar cualquier punto que se encuentre más allá de dos desviaciones estándar por encima o por debajo de la línea de mejor ajuste como un valor atípico. La desviación estándar utilizada es la desviación estándar de los residuos o errores.

Podemos hacer esto visualmente en el diagrama de dispersión dibujando un par extra de líneas que son dos desviaciones estándar por encima y por debajo de la línea de mejor ajuste. Cualquier punto de datos que esté fuera de este par extra de líneas se marca como posibles valores atípicos. O podemos hacerlo numéricamente calculando cada residuo y comparándolo con el doble de la desviación estándar. En el TI-83, 83+ u 84+, el enfoque gráfico es más fácil. Primero se muestra el procedimiento gráfico, seguido de los cálculos numéricos. Generalmente necesitarías usar solo uno de estos métodos.

Ejemplo$\PageIndex{1}$

En el tercer ejemplo de examen/examen final, se puede determinar si hay un valor atípico o no. Si hay un valor atípico, como ejercicio, elimínelo y ajuste los datos restantes a una nueva línea. Para este ejemplo, la nueva línea debería ajustarse mejor a los datos restantes. Esto significa que el SSE debe ser menor y el coeficiente de correlación debe estar más cerca de 1 o -1.

Contestar

Identificación gráfica de valores atípicos

Con las calculadoras gráficas TI-83, 83+, 84+, es fácil identificar los valores atípicos gráfica y visualmente. Si tuviéramos que medir la distancia vertical desde cualquier punto de datos hasta el punto correspondiente en la línea de mejor ajuste y esa distancia fuera igual a 2 s o más, entonces consideraríamos que el punto de datos está “demasiado lejos” de la línea de mejor ajuste. Necesitamos encontrar y graficar las líneas que son dos desviaciones estándar por debajo y por encima de la línea de regresión. Cualquier punto que esté fuera de estas dos líneas son valores atípicos. Llamaremos a estas líneas Y2 e Y3:

Como hicimos con la ecuación de la línea de regresión y el coeficiente de correlación, utilizaremos la tecnología para calcular esta desviación estándar para nosotros. Usando el LineGttest con estos datos, desplácese hacia abajo por las pantallas de salida para encontrar$s = 16.412$.

Línea$Y2 = -173.5 + 4.83x - 2(16.4)$ y línea$Y3 = -173.5 + 4.83x + 2(16.4)$

donde$\hat{y} = -173.5 + 4.83x$ esta la linea de mejor ajuste. $Y2$y$Y3$ tienen la misma pendiente que la línea de mejor ajuste.

Grafique la gráfica de dispersión con la línea de mejor ajuste en la ecuación$Y1$, luego ingrese las dos líneas adicionales como$Y2$ y$Y3$ en el editor de ecuaciones$Y=$ ""” y presione ZOOM 9. Encontrarás que el único punto de datos que no está entre líneas$Y2$ y$Y3$ es el punto$x = 65$,$y = 175$. En la pantalla de la calculadora apenas está fuera de estas líneas. El valor atípico es el alumno que tuvo una nota de 65 en el tercer examen y 175 en el examen final; este punto está más allá de dos desviaciones estándar de la línea de mejor ajuste.

A veces un punto está tan cerca de las líneas utilizadas para marcar valores atípicos en la gráfica que es difícil saber si el punto está entre o fuera de las líneas. En una computadora, agrandar el gráfico puede ayudar; en una pequeña pantalla de calculadora, hacer zoom puede hacer que el gráfico sea más claro. Tenga en cuenta que cuando la gráfica no da una imagen lo suficientemente clara, puede usar las comparaciones numéricas para identificar valores atípicos.

El diagrama de dispersión de las puntuaciones de los exámenes con una línea de mejor ajuste. Dos líneas discontinuas amarillas corren paralelas a la línea de mejor ajuste. Las líneas discontinuas discurren por encima y por debajo de la línea de mejor ajuste a distancias iguales. Un punto de datos queda fuera del límite creado por las líneas discontinuas, es un valor atípico. — Figura 12.7.1.

Ejercicio$\PageIndex{1}$

Identificar el valor atípico potencial en el diagrama de dispersión. La desviación estándar de los residuos o errores es aproximadamente 8.6.

Contestar: El valor atípico parece estar en (6, 58). El$y$ valor esperado en la línea para el punto (6, 58) es aproximadamente 82. Cincuenta y ocho es 24 unidades de 82. Veinticuatro es más de dos desviaciones estándar ($2s = (2)(8.6) = 17.2$). Por lo que 82 es más de dos desviaciones estándar de 58, lo que hace que$(6, 58)$ un valor atípico potencial.

Identificación numérica de valores atípicos

En la siguiente tabla, las dos primeras columnas son los datos del tercer examen y del examen final. La tercera columna muestra los$\hat{y}$ valores predichos calculados a partir de la línea de mejor ajuste:$\hat{y} = -173.5 + 4.83x$. Los residuos, o errores, se han calculado en la cuarta columna de la tabla:$y$ valor$y$ observado—valor predicho$= y − \hat{y}$.

s es la desviación estándar de todos los$y - \hat{y} = \varepsilon$ valores donde$n = \text{the total number of data points}$. Si cada residuo es calculado y cuadrado, y se suman los resultados, obtenemos el$SSE$. La desviación estándar de los residuos se calcula a partir de la$SSE$ siguiente manera:

\[s = \sqrt{\dfrac{SSE}{n-2}}\nonumber \]

NOTA

Dividimos por ($n – 2$) porque el modelo de regresión involucra dos estimaciones.

En lugar de calcular el valor de s nosotros mismos, podemos encontrar s usando la computadora o calculadora. Para este ejemplo, la función calculadora LineRTtest encontró$s = 16.4$ como la desviación estándar de los residuales 35; —17; 16; —6; —19; 9; 3; —1; —10; —9; —1.

$x$	$y$	$\hat{y}$	$y – \hat{y}$
\ (x\) ">65	\ (y\) ">175	\ (\ hat {y}\) ">140	\ (y —\ hat {y}\) ">175 — 140 = 35
\ (x\) ">67	\ (y\) ">133	\ (\ hat {y}\) ">150	\ (y —\ hat {y}\) ">133 — 150= —17
\ (x\) ">71	\ (y\) ">185	\ (\ hat {y}\) ">169	\ (y —\ hat {y}\) ">185 — 169 = 16
\ (x\) ">71	\ (y\) ">163	\ (\ hat {y}\) ">169	\ (y —\ hat {y}\) ">163 — 169 = —6
\ (x\) ">66	\ (y\) ">126	\ (\ hat {y}\) ">145	\ (y —\ hat {y}\) ">126 — 145 = —19
\ (x\) ">75	\ (y\) ">198	\ (\ hat {y}\) ">189	\ (y —\ hat {y}\) ">198 — 189 = 9
\ (x\) ">67	\ (y\) ">153	\ (\ hat {y}\) ">150	\ (y —\ hat {y}\) ">153 — 150 = 3
\ (x\) ">70	\ (y\) ">163	\ (\ hat {y}\) ">164	\ (y —\ hat {y}\) ">163 — 164 = —1
\ (x\) ">71	\ (y\) ">159	\ (\ hat {y}\) ">169	\ (y —\ hat {y}\) ">159 — 169 = —10
\ (x\) ">69	\ (y\) ">151	\ (\ hat {y}\) ">160	\ (y —\ hat {y}\) ">151 — 160 = —9
\ (x\) ">69	\ (y\) ">159	\ (\ hat {y}\) ">160	\ (y —\ hat {y}\) ">159 — 160 = —1

Estamos buscando todos los puntos de datos para los que el residuo sea mayor$2s = 2(16.4) = 32.8$ o menor que$-32.8$. Compare estos valores con los residuales en la columna cuatro de la tabla. El único punto de datos de este tipo es el alumno que tuvo una nota de 65 en el tercer examen y 175 en el examen final; el residual para este alumno es de 35.

¿Cómo afecta el valor atípico a la línea de mejor ajuste?

Numérica y gráficamente, hemos identificado el punto (65, 175) como un valor atípico. Deberíamos reexaminar los datos para este punto para ver si hay algún problema con los datos. Si hay un error, debemos corregir el error si es posible, o eliminar los datos. Si los datos son correctos, los dejaríamos en el conjunto de datos. Para este problema, supondremos que examinamos los datos y encontramos que este dato atípico era un error. Por lo tanto continuaremos y eliminaremos el valor atípico, para que podamos explorar cómo afecta a los resultados, como una experiencia de aprendizaje.

Calcular una nueva línea de mejor ajuste y coeficiente de correlación usando los diez puntos restantes

En las calculadoras TI-83, TI-83+, TI-84+, elimine el valor atípico de L1 y L2. Usando el LineGTtest, la nueva línea de mejor ajuste y el coeficiente de correlación son:

\[\hat{y} = -355.19 + 7.39x\nonumber \]y\[r = 0.9121\nonumber \]

La nueva línea con$r = 0.9121$ es una correlación más fuerte que la original ($r = 0.6631$) porque$r = 0.9121$ está más cerca de una. Esto significa que la nueva línea se ajusta mejor a los diez valores de datos restantes. La línea puede predecir mejor el puntaje final del examen dado el puntaje del tercer examen.

Identificación numérica de valores atípicos: cálculo y búsqueda manual de valores atípicos

Si no tienes la función LineGTTest, entonces puedes calcular el valor atípico en el primer ejemplo haciendo lo siguiente.

Primero, cuadrar cada uno$|y – \hat{y}|$

Los cuadrados son 35 ²; 17 ²; 16 ²; 6 ²; 19 ²; 9 ²; 3 ²; 1 ²; 10 ²; 9 ²; 1 ²

Luego, agregue (sum) todos los términos$|y – \hat{y}|$ cuadrados usando la fórmula

\[ \sum^{11}_{i = 11} (|y_{i} - \hat{y}_{i}|)^{2} = \sum^{11}_{i - 1} \varepsilon^{2}_{i}\nonumber \]

Recordemos que

\[\begin{align*} y_{i} - \hat{y}_{i} &= \varepsilon_{i} \nonumber \\ &= 35^{2} + 17^{2} + 16^{2} + 6^{2} + 19^{2} + 9^{2} + 3^{2} + 1^{2} + 10^{2} + 9^{2} + 1^{2} \nonumber \\ &= 2440 = SSE. \nonumber \end{align*} \]

El resultado,$SSE$ es la Suma de Errores Cuadrados.

A continuación, calcular s, la desviación estándar de todos los$y - \hat{y} = \varepsilon$ valores donde$n = \text{the total number of data points}$.

El cálculo es

\[s = \sqrt{\dfrac{SSE}{n-2}}.\nonumber \]

Para el problema del tercer examen/examen final:

\[s = \sqrt{\dfrac{2440}{11 - 2}} = 16.47.\nonumber \]

A continuación, multiplica$s$ por$2$:

\[(2)(16.47) = 32.94\nonumber \]

$32.94$es desviaciones$2$ estándar alejadas de la media de los$y - \hat{y}$ valores.

Si tuviéramos que medir la distancia vertical desde cualquier punto de datos hasta el punto correspondiente en la línea de mejor ajuste y esa distancia es al menos$2s$, entonces consideraríamos que el punto de datos está “demasiado lejos” de la línea de mejor ajuste. Llamamos a ese punto un posible valor atípico.

Para el ejemplo, si alguno de los$|y – \hat{y}|$ valores es al menos 32.94, el punto de datos correspondiente ($x, y$) es un valor atípico potencial.

Para el problema del tercer examen/examen final, todos los$|y – \hat{y}|$'s son menores a 31.29 excepto el primero que es 35.

$35 > 31.29$Es decir,$|y – \hat{y}| \geq (2)(s)$

El punto al que corresponde$|y – \hat{y}| = 35$ es$(65, 175)$. Por lo tanto, el punto de datos$(65,175)$ es un valor atípico potencial. Para este ejemplo, lo eliminaremos. (Recuerda, no siempre eliminamos un valor atípico).

NOTA

Cuando se eliminan los valores atípicos, el investigador debe registrar que los datos fueron eliminados, y por qué, o el investigador debe proporcionar resultados tanto con como sin los datos eliminados. Si los datos son erróneos y se conocen los valores correctos (por ejemplo, el estudiante uno realmente obtuvo un 70 en lugar de un 65), entonces esta corrección se puede hacer a los datos.

El siguiente paso es calcular una nueva línea de mejor ajuste utilizando los diez puntos restantes. La nueva línea de mejor ajuste y el coeficiente de correlación son:

\[\hat{y} = -355.19 + 7.39x\nonumber \]y\[r = 0.9121\nonumber \]

Ejemplo$\PageIndex{2}$

Utilizando esta nueva línea de mejor ajuste (basada en los diez puntos de datos restantes en el tercer examen/ejemplo de examen final), ¿qué esperaría recibir en el examen final un estudiante que recibe un 73 en el tercer examen? ¿Es esto lo mismo que la predicción hecha usando la línea original?

Contestar

Usando la nueva línea de mejor ajuste,$\hat{y} = -355.19 + 7.39(73) = 184.28$. Un estudiante que obtuvo 73 puntos en el tercer examen esperaría obtener 184 puntos en el examen final.

La línea original predijo$\hat{y} = -173.51 + 4.83(73) = 179.08$ por lo que la predicción usando la nueva línea con el valor atípico eliminado difiere de la predicción original.

Ejercicio$\PageIndex{2}$

Los puntos de datos para un estudio que se realizó son los siguientes: (1, 5), (2, 7), (2, 6), (3, 9), (4, 12), (4, 13), (5, 18), (6, 19), (7, 12) y (7, 21). Retira el valor atípico y vuelve a calcular la línea de mejor ajuste. Encuentra el valor de cuando x = 10.

Contestar: $\hat{y} = 1.04 + 2.96x; 30.64$

Ejemplo$\PageIndex{3}$: The Consumer Price Index

El Índice de Precios al Consumidor (IPC) mide el cambio promedio a lo largo del tiempo en los precios pagados por los consumidores urbanos por bienes y servicios de consumo. El IPC afecta a casi todos los estadounidenses por las muchas formas en que se usa. Uno de sus mayores usos es como medida de inflación. Al proporcionar información sobre los cambios de precios en la economía de la Nación a los gobiernos, empresas y trabajadores, el IPC les ayuda a tomar decisiones económicas. El Presidente, el Congreso y la Junta de la Reserva Federal utilizan las tendencias del IPC para formular políticas monetarias y fiscales. En la siguiente tabla,$x$ se encuentra el año y$y$ es el IPC.

Datos
$x$	$y$	$x$	$y$
\ (x\) ">1915	\ (y\) ">10.1	\ (x\) ">1969	\ (y\) ">36.7
\ (x\) ">1926	\ (y\) ">17.7	\ (x\) ">1975	\ (y\) ">49.3
\ (x\) ">1935	\ (y\) ">13.7	\ (x\) ">1979	\ (y\) ">72.6
\ (x\) ">1940	\ (y\) ">14.7	\ (x\) ">1980	\ (y\) ">82.4
\ (x\) ">1947	\ (y\) ">24.1	\ (x\) ">1986	\ (y\) ">109.6
\ (x\) ">1952	\ (y\) ">26.5	\ (x\) ">1991	\ (y\) ">130.7
\ (x\) ">1964	\ (y\) ">31.0	\ (x\) ">1999	\ (y\) ">166.6

Dibuja una gráfica de dispersión de los datos.
Calcular la línea de mínimos cuadrados. Escribe la ecuación en la forma = a + bx.
Dibuja la línea en la gráfica de dispersión.
Encuentra el coeficiente de correlación. ¿Es significativo?
¿Cuál es el IPC promedio para el año 1990?

Contestar

Ver Figura.
$\hat{y} = -3204 + 1.662x$es la ecuación de la línea de mejor ajuste.
$r = 0.8694$
El número de puntos de datos es$n = 14$. Utilice la tabla Valores Críticos 95% de la Tabla Coeficiente de Correlación Muestra al final del Capítulo 12. $n - 2 = 12$. El valor crítico correspondiente es 0.532. Desde 0.8694 > 0.532, r es significativo.
\[\hat{y} = -3204 + 1.662(1990) = 103.4 \text{CPI}\nonumber \]
Usando la calculadora LineGttest, nos encontramos con eso$s = 25.4$; graficando las líneas$Y2 = -3204 + 1.662X – 2(25.4)$ y$Y3 = -3204 + 1.662X + 2(25.4)$ muestra que no hay valores de datos fuera de esas líneas, identificando no valores atípicos. (Tenga en cuenta que el año 1999 estuvo muy cerca de la línea superior, pero aún dentro de ella).

Gráfica de dispersión y línea de mejor ajuste de los datos del índice de precios al consumidor, en el eje y, y datos del año, en el eje x. — Figura 12.7.3.

NOTA

En el ejemplo, observe el patrón de los puntos en comparación con la línea. Aunque el coeficiente de correlación es significativo, el patrón en la gráfica de dispersión indica que una curva sería un modelo más apropiado para usar que una línea. En este ejemplo, un estadístico debería preferir utilizar otros métodos para ajustar una curva a estos datos, en lugar de modelar los datos con la línea que encontramos. Además de hacer los cálculos, siempre es importante mirar la gráfica de dispersión a la hora de decidir si un modelo lineal es apropiado.

Si te interesa ver más años de datos, visita el sitio web del IPC de la Oficina de Estadísticas Laborales ftp://ftp.bls.gov/pub/special.requests/cpi/cpiai.txt; nuestros datos están tomados de la columna titulada “Promedio Anual”. (tercera columna de la derecha). Por ejemplo podrías agregar más años actuales de datos. Intente sumar los años más recientes: 2004:$\text{CPI} = 188.9$; 2008:$\text{CPI} = 215.3$; 2011:$\text{CPI} = 224.9$. Vea cómo afecta al modelo. (Cheque:$\hat{y} = -4436 + 2.295x$;$r = 0.9018$. ¿Es$r$ significativo? ¿El ajuste es mejor con la adición de los nuevos puntos?)

Ejercicio$\PageIndex{3}$

El siguiente cuadro muestra el desarrollo económico medido en ingreso per cápita PCINC.

Año	PCINC	Año	PCINC
1870	340	1920	1050
1880	499	1930	1170
1890	592	1940	1364
1900	757	1950	1836
1910	927	1960	2132

¿Cuáles son las variables independientes y dependientes?
Dibuja una gráfica de dispersión.
Utilice la regresión para encontrar la línea de mejor ajuste y el coeficiente de correlación.
Interpretar la significancia del coeficiente de correlación.
¿Existe una relación lineal entre las variables?
Encuentra el coeficiente de determinación e interpretarlo.
¿Cuál es la pendiente de la ecuación de regresión? ¿Qué significa?
Utilice la línea de mejor ajuste para estimar PCINC para 1900, para 2000.
Determinar si hay algún valor atípico.

Contestar a

La variable independiente (x) es el año y la variable dependiente (y) es el ingreso per cápita.

Respuesta b

Figura 12.7.4.

Respuesta c

$\hat{y} = 18.61x – 34574$;$r = 0.9732$

Respuesta d

At$df = 8$, el valor crítico es$0.632$. El$r$ valor es significativo porque es mayor que el valor crítico.

Respuesta e

No parece haber una relación lineal entre las variables.

Respuesta f

El coeficiente de determinación es$0.947$, lo que significa que 94.7% de la variación en PCINC se explica por la variación en los años.

Respuesta g y h

La pendiente de la ecuación de regresión es de 18.61, y significa que el ingreso per cápita aumenta en $18.61 por cada año que pasa. $\hat{y} = 785$cuando el año es 1900, y$\hat{y} = 2,646$ cuando el año es 2000.

Contestar i

No parece haber ningún valor atípico.

95% Valores Críticos de la Tabla de Coeficientes de Correlación Muestra

Grados de Libertad:$n – 2$	Valores Críticos: (+ y —)
\ (n — 2\) ">1	0.997
\ (n — 2\) ">2	0.950
\ (n — 2\) ">3	0.878
\ (n — 2\) ">4	0.811
\ (n — 2\) ">5	0.754
\ (n — 2\) ">6	0.707
\ (n — 2\) ">7	0.666
\ (n — 2\) ">8	0.632
\ (n — 2\) ">9	0.602
\ (n — 2\) ">10	0.576
\ (n — 2\) ">11	0.555
\ (n — 2\) ">12	0.532
\ (n — 2\) ">13	0.514
\ (n — 2\) ">14	0.497
\ (n — 2\) ">15	0.482
\ (n — 2\) ">16	0.468
\ (n — 2\) ">17	0.456
\ (n — 2\) ">18	0.444
\ (n — 2\) ">19	0.433
\ (n — 2\) ">20	0.423
\ (n — 2\) ">21	0.413
\ (n — 2\) ">22	0.404
\ (n — 2\) ">23	0.396
\ (n — 2\) ">24	0.388
\ (n — 2\) ">25	0.381
\ (n — 2\) ">26	0.374
\ (n — 2\) ">27	0.367
\ (n — 2\) ">28	0.361
\ (n — 2\) ">29	0.355
\ (n — 2\) ">30	0.349
\ (n — 2\) ">40	0.304
\ (n — 2\) ">50	0.273
\ (n — 2\) ">60	0.250
\ (n — 2\) ">70	0.232
\ (n — 2\) ">80	0.217
\ (n — 2\) ">90	0.205
\ (n — 2\) ">100	0.195

Resumen

Para determinar si un punto es un valor atípico, realice una de las siguientes acciones:

Ingrese las siguientes ecuaciones en el TI 83, 83+,84, 84+:
\[y_{1} = a + bx\nonumber \]
\[y_{2} = a + bx +2s\nonumber \]
\[y_{3} = a + bx - 2s\nonumber \]
donde$s$ está la desviación estándar de los residuales

Si algún punto está por encima$y_{2}$ o abajo$y_{3}$ entonces el punto se considera un valor atípico.
Utilice los residuos y compare sus valores absolutos con$2s$ donde$s$ está la desviación estándar de los residuos. Si el valor absoluto de cualquier residuo es mayor o igual a$2s$, entonces el punto correspondiente es un valor atípico.

Nota: La función de calculadora LinregtTest (STATS TEST LINRegtTest) calcula$s$.

Referencias

Datos del Comité de Caminos y Medios de la Casa, del Departamento de Salud y Servicios Humanos.
Datos de Microsoft Bookshelf.
Datos del Departamento de Trabajo de Estados Unidos, la Oficina de Estadísticas Laborales.
Datos del Manual del Médico, 1990.
Datos del Departamento de Trabajo de Estados Unidos, la Oficina de Estadísticas Laborales.

Glosario

Outlier: una observación que no se ajusta al resto de los datos

Search

Text Color

Text Size

Margin Size

Font Type