Saltar al contenido principal

# 12.7E: Outliers (Ejercicios)

$$\newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} }$$

$$\newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}}$$

$$\newcommand{\id}{\mathrm{id}}$$ $$\newcommand{\Span}{\mathrm{span}}$$

( \newcommand{\kernel}{\mathrm{null}\,}\) $$\newcommand{\range}{\mathrm{range}\,}$$

$$\newcommand{\RealPart}{\mathrm{Re}}$$ $$\newcommand{\ImaginaryPart}{\mathrm{Im}}$$

$$\newcommand{\Argument}{\mathrm{Arg}}$$ $$\newcommand{\norm}[1]{\| #1 \|}$$

$$\newcommand{\inner}[2]{\langle #1, #2 \rangle}$$

$$\newcommand{\Span}{\mathrm{span}}$$

$$\newcommand{\id}{\mathrm{id}}$$

$$\newcommand{\Span}{\mathrm{span}}$$

$$\newcommand{\kernel}{\mathrm{null}\,}$$

$$\newcommand{\range}{\mathrm{range}\,}$$

$$\newcommand{\RealPart}{\mathrm{Re}}$$

$$\newcommand{\ImaginaryPart}{\mathrm{Im}}$$

$$\newcommand{\Argument}{\mathrm{Arg}}$$

$$\newcommand{\norm}[1]{\| #1 \|}$$

$$\newcommand{\inner}[2]{\langle #1, #2 \rangle}$$

$$\newcommand{\Span}{\mathrm{span}}$$ $$\newcommand{\AA}{\unicode[.8,0]{x212B}}$$

$$\newcommand{\vectorA}[1]{\vec{#1}} % arrow$$

$$\newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow$$

$$\newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} }$$

$$\newcommand{\vectorC}[1]{\textbf{#1}}$$

$$\newcommand{\vectorD}[1]{\overrightarrow{#1}}$$

$$\newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}}$$

$$\newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}}$$

$$\newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} }$$

$$\newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}}$$

$$\newcommand{\avec}{\mathbf a}$$ $$\newcommand{\bvec}{\mathbf b}$$ $$\newcommand{\cvec}{\mathbf c}$$ $$\newcommand{\dvec}{\mathbf d}$$ $$\newcommand{\dtil}{\widetilde{\mathbf d}}$$ $$\newcommand{\evec}{\mathbf e}$$ $$\newcommand{\fvec}{\mathbf f}$$ $$\newcommand{\nvec}{\mathbf n}$$ $$\newcommand{\pvec}{\mathbf p}$$ $$\newcommand{\qvec}{\mathbf q}$$ $$\newcommand{\svec}{\mathbf s}$$ $$\newcommand{\tvec}{\mathbf t}$$ $$\newcommand{\uvec}{\mathbf u}$$ $$\newcommand{\vvec}{\mathbf v}$$ $$\newcommand{\wvec}{\mathbf w}$$ $$\newcommand{\xvec}{\mathbf x}$$ $$\newcommand{\yvec}{\mathbf y}$$ $$\newcommand{\zvec}{\mathbf z}$$ $$\newcommand{\rvec}{\mathbf r}$$ $$\newcommand{\mvec}{\mathbf m}$$ $$\newcommand{\zerovec}{\mathbf 0}$$ $$\newcommand{\onevec}{\mathbf 1}$$ $$\newcommand{\real}{\mathbb R}$$ $$\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}$$ $$\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}$$ $$\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}$$ $$\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}$$ $$\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}$$ $$\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}$$ $$\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}$$ $$\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}$$ $$\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}$$ $$\newcommand{\laspan}[1]{\text{Span}\{#1\}}$$ $$\newcommand{\bcal}{\cal B}$$ $$\newcommand{\ccal}{\cal C}$$ $$\newcommand{\scal}{\cal S}$$ $$\newcommand{\wcal}{\cal W}$$ $$\newcommand{\ecal}{\cal E}$$ $$\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}$$ $$\newcommand{\gray}[1]{\color{gray}{#1}}$$ $$\newcommand{\lgray}[1]{\color{lightgray}{#1}}$$ $$\newcommand{\rank}{\operatorname{rank}}$$ $$\newcommand{\row}{\text{Row}}$$ $$\newcommand{\col}{\text{Col}}$$ $$\renewcommand{\row}{\text{Row}}$$ $$\newcommand{\nul}{\text{Nul}}$$ $$\newcommand{\var}{\text{Var}}$$ $$\newcommand{\corr}{\text{corr}}$$ $$\newcommand{\len}[1]{\left|#1\right|}$$ $$\newcommand{\bbar}{\overline{\bvec}}$$ $$\newcommand{\bhat}{\widehat{\bvec}}$$ $$\newcommand{\bperp}{\bvec^\perp}$$ $$\newcommand{\xhat}{\widehat{\xvec}}$$ $$\newcommand{\vhat}{\widehat{\vvec}}$$ $$\newcommand{\uhat}{\widehat{\uvec}}$$ $$\newcommand{\what}{\widehat{\wvec}}$$ $$\newcommand{\Sighat}{\widehat{\Sigma}}$$ $$\newcommand{\lt}{<}$$ $$\newcommand{\gt}{>}$$ $$\newcommand{\amp}{&}$$ $$\definecolor{fillinmathshade}{gray}{0.9}$$

Utilice la siguiente información para responder a los siguientes cuatro ejercicios. El diagrama de dispersión muestra la relación entre las horas de estudio y los resultados de los exámenes. La línea que se muestra es la línea calculada de mejor ajuste. El coeficiente de correlación es$$0.69$$.

Ejercicio 12.7.4

¿Parece que hay algún valor atípico?

Contestar

Sí, parece haber un valor atípico en$$(6, 58)$$.

Ejercicio 12.7.5

Se elimina un punto y se recalcula la línea de mejor ajuste. El nuevo coeficiente de correlación es 0.98. ¿El punto parece haber sido un valor atípico? ¿Por qué?

Ejercicio 12.7.6

¿Qué efecto tuvo el potencial atípico en la línea del mejor ajuste?

Contestar

El valor atípico potencial aplanó la pendiente de la línea de mejor ajuste porque estaba por debajo del conjunto de datos. Hizo que la línea de mejor ajuste fuera menos precisa como predictor para los datos.

Ejercicio 12.7.7

¿Tienes más o menos confianza en la capacidad predictiva de la nueva línea de mejor ajuste?

Ejercicio 12.7.8

La Suma de Errores Cuadrados para un conjunto de datos de 18 números es 49. ¿Cuál es la desviación estándar?

Contestar

$$s = 1.75$$

Ejercicio 12.7.9

La Desviación Estándar para la Suma de Errores Cuadrados para un conjunto de datos es 9.8. ¿Cuál es el corte para que la distancia vertical que puede estar un punto desde la línea de mejor ajuste para ser considerada un valor atípico?

## Reúna

Ejercicio 12.7.10

El promedio de personas en una familia que recibieron bienestar durante varios años se da en la Tabla.

Año Tamaño de la familia de bienestar
1969 4.0
1973 3.6
1975 3.2
1979 3.0
1983 3.0
1988 3.0
1991 2.9
1. Utilizando “año” como variable independiente y “tamaño de familia de bienestar” como variable dependiente, se dibuja un diagrama de dispersión de los datos.
2. Calcular la línea de mínimos cuadrados. Poner la ecuación en forma de:$$\hat{y} = a + bx$$
3. Encuentra el coeficiente de correlación. ¿Es significativo?
4. Elige dos años entre 1969 y 1991 y encuentra los tamaños estimados de familias de bienestar.
5. Con base en los datos de Table, ¿existe una relación lineal entre el año y el número promedio de personas en una familia de bienestar?
6. Utilizando la línea de mínimos cuadrados, estime el tamaño de las familias de bienestar para 1960 y 1995. ¿La línea de mínimos cuadrados da una estimación precisa para esos años? Explique por qué o por qué no.
7. ¿Hay algún valor atípico en los datos?
8. ¿Cuál es el tamaño promedio estimado de las familias de bienestar para 1986? ¿La línea de mínimos cuadrados da una estimación precisa para ese año? Explique por qué o por qué no.
9. ¿Cuál es la pendiente de la línea de mínimos cuadrados (best fit)? Interpretar la pendiente.

Ejercicio 12.7.11

El porcentaje de mujeres asalariadas y asalariadas a las que se les paga tarifas por hora se da en la Tabla para los años 1979 a 1992.

1979 61.2
1980 60.7
1981 61.3
1982 61.3
1983 61.8
1984 61.7
1985 61.8
1986 62.0
1987 62.7
1990 62.8
1992 62.9
1. Usando “año” como variable independiente y “por ciento” como variable dependiente, dibuje un diagrama de dispersión de los datos.
2. ¿De la inspección se desprende que existe una relación entre las variables? ¿Por qué o por qué no?
3. Calcular la línea de mínimos cuadrados. Poner la ecuación en forma de:$$\hat{y} = a + bx$$
4. Encuentra el coeficiente de correlación. ¿Es significativo?
5. Encuentra los porcentajes estimados para 1991 y 1988.
6. Con base en los datos, ¿existe una relación lineal entre el año y el porcentaje de mujeres asalariadas y asalariadas a las que se les paga tarifas por hora?
7. ¿Hay algún valor atípico en los datos?
8. ¿Cuál es el porcentaje estimado para el año 2050? ¿La línea de mínimos cuadrados da una estimación precisa para ese año? Explique por qué o por qué no.
9. ¿Cuál es la pendiente de la línea de mínimos cuadrados (mejor ajuste)? Interpretar la pendiente.

Contestar

1. Consulta la solución del alumno.
2. si
3. $$\hat{y} = -266.8863 + 0.1656x$$
4. $$0.9448$$; Sí
5. $$62.8233; 62.3265$$
6. si
7. sí;$$(1987, 62.7)$$
8. $$72.5937$$; no
9. $$slope = 0.1656$$.

A medida que el año aumenta en uno, el porcentaje de trabajadores que pagan tarifas por hora tiende a aumentar en 0.1656.

Utilice la siguiente información para responder a los dos ejercicios siguientes. El costo de un detergente líquido líder para la ropa en diferentes tamaños se da en la Tabla.

Tamaño (onzas) Costo ($) Costo por onza 16 3.99 32 4.99 64 5.99 200 10.99 Ejercicio 12.7.12 1. Usando “size” como variable independiente y “cost” como variable dependiente, dibuje una gráfica de dispersión. 2. ¿De la inspección se desprende que existe una relación entre las variables? ¿Por qué o por qué no? 3. Calcular la línea de mínimos cuadrados. Poner la ecuación en forma de:$$\hat{y} = a + bx$$ 4. Encuentra el coeficiente de correlación. ¿Es significativo? 5. Si el detergente para ropa se vendió en un tamaño de 40 onzas, encuentre el costo estimado. 6. Si el detergente para ropa se vendió en un tamaño de 90 onzas, encuentre el costo estimado. 7. ¿Parece que una línea es la mejor manera de encajar los datos? ¿Por qué o por qué no? 8. ¿Hay algún valor atípico en los datos dados? 9. ¿La línea de mínimos cuadrados es válida para predecir lo que costaría un tamaño de 300 onzas del detergente para ropa? ¿Por qué o por qué no? 10. ¿Cuál es la pendiente de la línea de mínimos cuadrados (mejor ajuste)? Interpretar la pendiente. Ejercicio 12.7.13 1. Tabla Completa para el costo por onza de los diferentes tamaños. 2. Usando “size” como variable independiente y “costo por onza” como variable dependiente, dibuje un diagrama de dispersión de los datos. 3. ¿De la inspección se desprende que existe una relación entre las variables? ¿Por qué o por qué no? 4. Calcular la línea de mínimos cuadrados. Poner la ecuación en forma de:$$\hat{y} = a + bx$$ 5. Encuentra el coeficiente de correlación. ¿Es significativo? 6. Si el detergente para ropa se vendiera en un tamaño de 40 onzas, encuentre el costo estimado por onza. 7. Si el detergente para ropa se vendió en un tamaño de 90 onzas, encuentre el costo estimado por onza. 8. ¿Parece que una línea es la mejor manera de encajar los datos? ¿Por qué o por qué no? 9. ¿Hay algún valor atípico en los datos? 10. ¿La línea de mínimos cuadrados es válida para predecir lo que costaría por onza un tamaño de 300 onzas del detergente para ropa? ¿Por qué o por qué no? 11. ¿Cuál es la pendiente de la línea de mínimos cuadrados (mejor ajuste)? Interpretar la pendiente. Contestar 1. Tamaño (onzas) Costo ($) centros/oz
16 3.99 24.94
32 4.99 15.59
64 5.99 9.36
200 10.99 5.50
2. Consulta la solución del alumno.
3. Existe una relación lineal para los tamaños 16 a 64, pero esa tendencia lineal no continúa con el tamaño de 200 oz.
4. $$\hat{y} = 20.2368 - 0.0819x$$
5. $$r = -0.8086$$
6. 40-oz: 16.96 cents/oz
7. 90-oz: 12.87 cents/oz
9. sin valores atípicos
10. No, estarías extrapolando. El tamaño de 300 oz está fuera del rango de$$x$$.
11. $$slope = -0.08194$$; por cada onza adicional en tamaño, el costo por onza disminuye en 0.082 centavos.

Ejercicio 12.7.14

Según un volante de un representante de Prudential Insurance Company, los costos de las tasas aproximadas de sucesiones e impuestos para sucesiones netas imponibles seleccionadas son los siguientes:

Bienes Imponibles Netos ($) Tasas e impuestos aproximados de sucesiones ($)
600,000 30,000
750,000 92,500
1,000,000 203,000
1,500,000 438,000
2,000,000 688,000
2,500,000 1,037,000
3,000,000 1,350,000
1. Decidir qué variable debe ser la variable independiente y cuál debe ser la variable dependiente.
2. Dibuja una gráfica de dispersión de los datos.
3. ¿De la inspección se desprende que existe una relación entre las variables? ¿Por qué o por qué no?
4. Calcular la línea de mínimos cuadrados. Poner la ecuación en forma de:$$\hat{y} = a + bx$$.
5. Encuentra el coeficiente de correlación. ¿Es significativo?
6. Encuentre el costo total estimado para un próximo patrimonio imponible de $1,000,000. Encuentra el costo por$2,500,000.
7. ¿Parece que una línea es la mejor manera de encajar los datos? ¿Por qué o por qué no?
8. ¿Hay algún valor atípico en los datos?
9. Con base en estos resultados, ¿cuáles serían las tasas e impuestos de sucesiones para un patrimonio que no tiene ningún activo?
10. ¿Cuál es la pendiente de la línea de mínimos cuadrados (mejor ajuste)? Interpretar la pendiente.

Ejercicio 12.7.15

A continuación se anuncian los precios de venta de televisores a color en Anderson's.

Tamaño (pulgadas) Precio de Venta ($) 9 147 20 197 27 297 31 447 35 1177 40 2177 60 2497 1. Decidir qué variable debe ser la variable independiente y cuál debe ser la variable dependiente. 2. Dibuja una gráfica de dispersión de los datos. 3. ¿De la inspección se desprende que existe una relación entre las variables? ¿Por qué o por qué no? 4. Calcular la línea de mínimos cuadrados. Poner la ecuación en forma de:$$\hat{y} = a + bx$$. 5. Encuentra el coeficiente de correlación. ¿Es significativo? 6. Encuentra el precio de venta estimado para un televisor de 32 pulgadas. Encuentra el costo de un televisor de 50 pulgadas. 7. ¿Parece que una línea es la mejor manera de encajar los datos? ¿Por qué o por qué no? 8. ¿Hay algún valor atípico en los datos? 9. ¿Cuál es la pendiente de la línea de mínimos cuadrados (mejor ajuste)? Interpretar la pendiente. Contestar 1. El tamaño es$$x$$, la variable independiente, el precio es$$y$$, la variable dependiente. 2. Consulta la solución del alumno. 3. La relación no parece ser lineal. 4. $$\hat{y} = -745.252 + 54.75569x$$ 5. $$r = 0.8944$$, si es significativo 6. 32 pulgadas:$1006.93, 50 pulgadas: $1992.53 7. No, la relación no parece ser lineal. Sin embargo,$$r$$ es significativo. 8. sí, el televisor de 60 pulgadas 9. Por cada pulgada adicional, el precio aumenta en$54.76

Ejercicio 12.7.16

En el cuadro se muestran las alturas promedio de los niños estadounidenses en 1990.

nacimiento 50.8
2 83.8
3 91.4
5 106.6
7 119.3
10 137.1
14 157.5
1. Decidir qué variable debe ser la variable independiente y cuál debe ser la variable dependiente.
2. Dibuja una gráfica de dispersión de los datos.
3. ¿De la inspección se desprende que existe una relación entre las variables? ¿Por qué o por qué no?
4. Calcular la línea de mínimos cuadrados. Poner la ecuación en forma de:$$\hat{y} = a + bx$$.
5. Encuentra el coeficiente de correlación. ¿Es significativo?
6. Encuentra la estatura promedio estimada para un año de edad. Encuentra la estatura promedio estimada para un niño de 11 años.
7. ¿Parece que una línea es la mejor manera de encajar los datos? ¿Por qué o por qué no?
8. ¿Hay algún valor atípico en los datos?
9. Utilice la línea de mínimos cuadrados para estimar la estatura promedio de un hombre de sesenta y dos años. ¿Crees que tu respuesta es razonable? ¿Por qué o por qué no?
10. ¿Cuál es la pendiente de la línea de mínimos cuadrados (mejor ajuste)? Interpretar la pendiente.

Ejercicio 12.7.17

Estado # letras en nombre Año ingresó a la Unión Rangos por ingresar a la Unión Área (millas cuadradas)
Alabama 7 1819 22 52,423
Hawaii 6 1959 50 10,932
Iowa 4 1846 29 56,276
Maryland 8 1788 7 12,407
Missouri 8 1821 24 69,709
Nueva Jersey 9 1787 3 8,722
Ohio 4 1803 17 44,828
Carolina del Sur 13 1788 8 32,008
Utah 4 1896 45 84,904
Wisconsin 9 1848 30 65,499

Nos interesa saber si existe una relación entre el ranking de un estado y el área del estado.

1. ¿Cuáles son las variables independientes y dependientes?
2. ¿Cómo crees que se verá el diagrama de dispersión? Hacer una gráfica de dispersión de los datos.
3. ¿De la inspección se desprende que existe una relación entre las variables? ¿Por qué o por qué no?
4. Calcular la línea de mínimos cuadrados. Poner la ecuación en forma de:$$\hat{y} = a + bx$$.
5. Encuentra el coeficiente de correlación. ¿Qué implica sobre el significado de la relación?
6. Encuentra las áreas estimadas para Alabama y para Colorado. ¿Están cerca de las áreas reales?
7. Utilice los dos puntos de la parte f para trazar la línea de mínimos cuadrados en su gráfica a partir de la parte b.
8. ¿Parece que una línea es la mejor manera de encajar los datos? ¿Por qué o por qué no?
9. ¿Hay algún valor atípico?
10. Utilice la línea de mínimos cuadrados para estimar el área de un nuevo estado que ingresa a la Unión. ¿Se puede usar la línea de mínimos cuadrados para predecirlo? ¿Por qué o por qué no?
13. Encuentra el área estimada para Alabama. ¿Está más cerca del área real con esta nueva línea de mínimos cuadrados o con la anterior que incluía Hawai? ¿Por qué crees que ese es el caso?
14. ¿Crees que, en general, los estados más nuevos son más grandes que los estados originales?

Contestar

1. Que rank sea la variable independiente y el área sea la variable dependiente.
2. Consulta la solución del alumno.
3. Parece haber una relación lineal, con un valor atípico.
4. $$\hat{y} \text{ (area) } = 24177.06 + 1010.478x$$
5. $$r = 0.50047$$, no$$r$$ es significativo por lo que no existe relación entre las variables.
12. $$\hat{y} = -87065.3 + 7828.532x$$