2.4: Montaje de modelos lineales a datos

Última actualización
Guardar como PDF

Page ID: 116722

$ \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } $ $ \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} $$\newcommand{\id}{\mathrm{id}}$ $ \newcommand{\Span}{\mathrm{span}}$ $ \newcommand{\kernel}{\mathrm{null}\,}$ $ \newcommand{\range}{\mathrm{range}\,}$ $ \newcommand{\RealPart}{\mathrm{Re}}$ $ \newcommand{\ImaginaryPart}{\mathrm{Im}}$ $ \newcommand{\Argument}{\mathrm{Arg}}$ $ \newcommand{\norm}[1]{\| #1 \|}$ $ \newcommand{\inner}[2]{\langle #1, #2 \rangle}$ $ \newcommand{\Span}{\mathrm{span}}$ $\newcommand{\id}{\mathrm{id}}$ $ \newcommand{\Span}{\mathrm{span}}$ $ \newcommand{\kernel}{\mathrm{null}\,}$ $ \newcommand{\range}{\mathrm{range}\,}$ $ \newcommand{\RealPart}{\mathrm{Re}}$ $ \newcommand{\ImaginaryPart}{\mathrm{Im}}$ $ \newcommand{\Argument}{\mathrm{Arg}}$ $ \newcommand{\norm}[1]{\| #1 \|}$ $ \newcommand{\inner}[2]{\langle #1, #2 \rangle}$ $ \newcommand{\Span}{\mathrm{span}}$$\newcommand{\AA}{\unicode[.8,0]{x212B}}$

En el mundo real, rara vez las cosas siguen las tendencias a la perfección. Cuando esperamos que la tendencia se comporte linealmente, o cuando la inspección sugiere que la tendencia se está comportando linealmente, a menudo es deseable encontrar una ecuación para aproximar los datos. Encontrar una ecuación para aproximar los datos nos ayuda a entender el comportamiento de los datos y nos permite utilizar el modelo lineal para hacer predicciones sobre los datos, dentro y fuera del rango de datos.

Ejemplo$\PageIndex{1}$

La siguiente tabla muestra el número de chirps de cricket en 15 segundos, y la temperatura del aire, en grados Fahrenheit (Datos seleccionados de classic.globe.gov/fsl/scientistsblog/2007/10/. Recuperado 3 ago 2010). Trazar estos datos y determinar si los datos parecen estar relacionados linealmente.

chirps	44	35	20.4	33	31	35	18.5	37	26
Temp	80.5	70.5	57	66	68	72	52	73.5	53

Solución

Trazando estos datos, parece que puede haber una tendencia, y que la tendencia aparece más o menos lineal, aunque ciertamente no perfectamente así.

$Un gráfico de dispersión con el eje horizontal etiquetado Cricket Chirps en 15 segundos, y vertical etiquetado Temperatura en grados. Los datos de la tabla anterior se trazan como puntos en la gráfica.$

La forma más sencilla de encontrar una ecuación para aproximar estos datos es intentar “globo ocular” una línea que parece encajar bastante bien con los datos, luego encontrar una ecuación para esa línea basada en la pendiente e interceptar.

Se puede ver por la tendencia en los datos que el número de chirps aumenta a medida que aumenta la temperatura. Al considerar una función para estos datos debes saber que estás viendo una función creciente o una función con pendiente positiva.

flashback

¿Qué variables descriptivas elegiría para representar Temperatura y Chirps?
¿Qué variable es la variable independiente y cuál es la variable dependiente?
Con base en estos datos y en la gráfica, ¿qué es un dominio y rango razonable?
Basado solo en los datos, ¿es esta función uno a uno, explica?

Responder

1. a. T = Temperatura, C = Chirps (las respuestas pueden variar)

b. Independiente (Chirps), Dependiente (Temperatura)

c. Dominio Razonable (18.5, 44), Rango Razonable (52, 80.5) (las respuestas pueden variar)

d. NO, no es uno a uno, hay dos valores de salida diferentes para 35 chirps.

Ejemplo$\PageIndex{2}$

Usando la tabla de valores del ejemplo anterior, encuentra una función lineal que se ajuste a los datos “mirando” una línea que parece encajar.

Solución

$Una trama que muestra la gráfica de dispersión de chirrido de grillo de la anterior, con una línea trazada a través de los datos siguiendo la tendencia de los datos.$ En una gráfica, podríamos intentar dibujar en una línea. Tenga en cuenta que la escala en los ejes se ha ajustado para comenzar en cero para incluir el eje vertical y la intercepción vertical en la gráfica.

Usando los puntos inicial y final de nuestra línea “dibujada a mano”, puntos (0, 30) y (50, 90), esta gráfica tiene una pendiente de$m=\dfrac{60}{50} =1.2$ y una intercepción vertical a 30, dando una ecuación de

\[T(c)=30+1.2c\nonumber \]

donde$c$ está el número de chirps en 15 segundos, y$T(c)$ es la temperatura en grados Fahrenheit.

Esta ecuación lineal puede entonces ser utilizada para aproximar la solución a diversas preguntas que podríamos hacer sobre la tendencia. Si bien los datos no caen perfectamente en la ecuación lineal, la ecuación es nuestra mejor suposición sobre cómo se comportará la relación fuera de los valores para los que tenemos datos. Sin embargo, hay una diferencia entre hacer predicciones dentro del dominio y rango de valores para los que tenemos datos, y fuera de ese dominio y rango.

Definición: Interpolación y Extrapolación

Interpolación: Cuando predecimos un valor dentro del dominio y rango de los datos

Extrapolación: Cuando predecimos un valor fuera del dominio y rango de los datos

Para la Temperatura en función de los chirps en nuestro modelo dibujado a mano arriba,

La interpolación ocurriría si usáramos nuestro modelo para predecir la temperatura cuando los valores para los chirps están entre 18.5 y 44.
La extrapolación ocurriría si usáramos nuestro modelo para predecir la temperatura cuando los valores de los chirps son menores a 18.5 o mayores a 44.

Ejemplo$\PageIndex{3}$

¿Predecir la temperatura cuando los grillos están gorjeando 30 veces en 15 segundos sería interpolación o extrapolación? Hacer la predicción, y discutir si es razonable.
¿Predecir el número de chirps que harán los grillos a 40 grados sería interpolación o extrapolación? Hacer la predicción, y discutir si es razonable.

Solución

Con nuestros datos de cricket, nuestro número de chirps en los datos proporcionados varió de 18.5 a 44. Una predicción a 30 chirps por 15 segundos está dentro del dominio de nuestros datos, por lo que sería la interpolación. Usando nuestro modelo:

\[T(3)=30+1.2(30)=66\text{ degrees}\nonumber \]

En base a los datos que tenemos, este valor parece razonable.

Los valores de temperatura variaron de 52 a 80.5. Predecir el número de chirps a 40 grados es extrapolación ya que 40 está fuera del rango de nuestros datos. Usando nuestro modelo:

\[\begin{array} {rcl} {40} &= & {30 + 1.2c} \\ {10} &= & {1.2c} \\ {c} &\approx & {8.33} \end{array}\nonumber \]

Nuestro modelo predice que los grillos chirrían 8.33 veces en 15 segundos. Si bien esto podría ser posible, no tenemos ninguna razón para creer que nuestro modelo es válido fuera del dominio y rango. De hecho, generalmente los grillos dejan de gorjear por completo por debajo de alrededor de 50 grados.

Cuando nuestro modelo ya no se aplica después de algún punto, a veces se le llama desglose del modelo.

Ejercicio$\PageIndex{1}$

¿Qué temperatura predecirías si contaras 20 chirps en 15 segundos?

Responder: Agrega el texto de respuesta aquí y automáticamente se ocultará si tienes una plantilla de “AutoNum” activa en la página.

Líneas de montaje con tecnología

Si bien observar una línea funciona razonablemente bien, existen técnicas estadísticas para ajustar una línea a datos que minimizan las diferencias entre la línea y los valores de datos (Técnicamente, el método minimiza la suma de las diferencias cuadradas en la dirección vertical entre la línea y los valores de datos). Esta técnica se llama regresión por mínimos cuadrados, y puede ser calculada por muchas calculadoras gráficas, software de hojas de cálculo como Excel o Google Docs, software estadístico y muchas calculadoras basadas en la web (Por ejemplo, http://www.shodor.org/unchem/math/lls/leastsq.html).

Ejemplo$\PageIndex{4}$

Encuentra la línea de regresión de mínimos cuadrados usando los datos de chirrido de cricket de arriba.

Solución

Usando los datos de chirrido de cricket anteriores, con la tecnología obtenemos la ecuación: $Un diagrama de dispersión para los datos de chirrido de cricket anteriores, con la línea ajustando los datos encontrados usando tecnología pasando por los datos siguiendo la tendencia.$

\[T(c)=30.281+1.143c\nonumber \]

Observe que esta línea es bastante similar a la ecuación que “miramos”, pero debería ajustarse mejor a los datos. Observe también que el uso de esta ecuación cambiaría nuestra predicción de la temperatura al escuchar 30 chirps en 15 segundos de 66 grados a:

\[T(30) =30.281+1.143(30)=64.571 \approx 64.6\text{ degrees}\nonumber \]

La mayoría de las calculadoras y software de computadora también le proporcionarán el coeficiente de correlación, una medida de qué tan cerca se ajusta la línea a los datos.

Definición: coeficiente de correlación

El coeficiente de correlación es un valor,$r$, entre -1 y 1.

$r > 0$sugiere una relación positiva (creciente)

$r < 0$sugiere una relación negativa (decreciente)

Cuanto más cerca esté el valor de 0, más dispersos serán los datos

Cuanto más cerca esté el valor de 1 o -1, menos dispersos estarán los datos

El coeficiente de correlación proporciona una manera fácil de tener una idea de lo cerca que se encuentran los datos a una línea.

Solo debemos calcular el coeficiente de correlación para los datos que siguen un patrón lineal; si los datos presentan un patrón no lineal, el coeficiente de correlación no tiene sentido. Para tener una idea de la relación entre el valor de$r$ y la gráfica de los datos, aquí hay algunos conjuntos de datos grandes con sus coeficientes de correlación:

Ejemplos de valores de coeficientes de correlación

$Diagrama que muestra diversos valores de coeficientes de correlación y diagramas de dispersión. La fila superior muestra una línea recta creciente con r de 1.0, luego datos más dispersos con una tendencia creciente con r de 0.8, datos aún más dispersos con una tendencia creciente con r de 0.4, datos aleatorios con una r de 0. Una línea decreciente recta tiene un r de 1.0 negativo, y los datos decrecientes más dispersos tienen valores r de 0.4 negativo y 0.8 negativo. La segunda fila muestra varios conjuntos de datos en una línea recta perfecta con diferentes pendientes; todas las líneas crecientes tienen r de 1.0 y las líneas decrecientes tienen r de 1.0 negativo. La tercera fila muestra datos con patrones claros, pero donde los patrones son no lineales, por lo que los valores r de todos son 0.0.$

(http://en.Wikipedia.org/wiki/File:Co...n_examples.png)

Ejemplo$\PageIndex{5}$

Calcular el coeficiente de correlación para nuestros datos de cricket.

Solución

Debido a que los datos parecen seguir un patrón lineal, podemos usar la tecnología para calcular r = 0.9509. Dado que este valor es muy cercano a 1, sugiere una fuerte relación lineal creciente.

Ejemplo$\PageIndex{6}$

El consumo de gasolina en EU ha ido aumentando de manera constante. A continuación se muestran los datos de consumo de 1994 a 2004. (www.bts.gov/publications/nati... ble_04_10.html) Determinar si la tendencia es lineal, y de ser así, encontrar un modelo para los datos. Utilizar el modelo para predecir el consumo en 2008.

Año	'94	'95	'96	'97	'98	'99	'00	'01	'02	'03	'04
Consumo (miles de millones de galones)	113	116	118	119	123	125	126	128	131	133	136

$Una gráfica con eje horizontal etiquetado Años después de 1994, y eje vertical etiquetado Consumo de gas en miles de millones de galones. Los datos de la tabla se trazan como puntos, lo cual es muy cercano a lo lineal, junto con una gráfica de la línea de regresión que pasa por los datos.$

Solución

Para simplificar las cosas, se introduce una nueva variable de entrada$t$, que representa años desde 1994.

Utilizando la tecnología, se calculó que el coeficiente de correlación era de 0.9965, lo que sugiere una tendencia lineal creciente muy fuerte.

La ecuación de regresión de mínimos cuadrados es:

\[C(t)=113.318+2.209t\nonumber \]

Utilizando esto para predecir el consumo en 2008 (t = 14),

\[C(14)=113.318+2.209(14)=144.244\text{ billions of gallons}\nonumber \]

El modelo predice que en 2008 se consumirán 144.244 mil millones de galones de gasolina.

Ejercicio$\PageIndex{2}$

Utilizar el modelo creado por la tecnología en el ejemplo 6 para predecir el consumo de gas en 2011. ¿Es esto una interpolación o una extrapolación?

Responder

1. 54 grados Fahrenheit

2. 150.871 mil millones de galones; extrapolación

Temas Importantes de esta Sección

Montaje manual de modelos lineales a datos
Ajuste de modelos lineales a datos usando tecnología
Interpolación
Extrapolación
Coeficiente de correlación