Saltar al contenido principal
LibreTexts Español

6.5: Mínimos cuadrados ortogonales

  • Page ID
    115710
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Supongamos que recolectamos algunos datos al realizar un experimento y los trazamos como se muestra a la izquierda de la Figura 6.5.1. Observe que no hay línea en la que se encuentren todos los puntos; de hecho, sería sorprendente si la hubiera ya que podemos esperar cierta incertidumbre en las mediciones registradas. Ahí sí aparece, sin embargo, a una línea, como se muestra a la derecha, en la que casi se encuentran los puntos.

    Figura 6.5.1. Una colección de puntos y una línea que aproxima la relación lineal implícita en ellos.

    En esta sección, exploraremos cómo las técnicas desarrolladas en este capítulo nos permiten encontrar la línea que mejor se aproxime a los datos. Más específicamente, veremos cómo la búsqueda de una línea que pasa por los puntos de datos conduce a un sistema inconsistente\(A\mathbf x=\mathbf b\text{.}\) Ya que no podemos encontrar una solución\(\mathbf x\text{,}\) buscamos en cambio el vector\(\mathbf x\) donde\(A\mathbf x\) está lo más cerca posible de la proyección\(\mathbf b\text{.}\) ortogonal nos da solo la herramienta adecuada para hacer esto.

    Vista previa Actividad 6.5.1.

    1. ¿Hay una solución a la ecuación\(A\mathbf x=\mathbf b\) donde\(A\) y\(\mathbf b\) son tales que
      \ begin {ecuación*}\ begin {bmatrix} 1 & 2\\ 2 & 5\\ -1 & 0\\\ end {bmatrix}\ mathbf x =\ tresevec5 {-3} {-1}\ text {.} \ end {ecuación*}
    2. Lo sabemos\(\threevec12{-1}\) y\(\threevec250\) formamos una base para\(\col(A)\text{.}\) Encontrar una base ortogonal para\(\col(A)\text{.}\)
    3. Encuentra la proyección ortogonal\(\widehat\mathbf b\) de\(\mathbf b\) onto\(\col(A)\text{.}\)
    4. Explique por qué la ecuación\(A\mathbf x=\widehat\mathbf b\) debe ser consistente y luego encontrar su solución.

    Un primer ejemplo

    Cuando nos hemos encontrado con sistemas inconsistentes en el pasado, simplemente dijimos que no hay solución y seguimos adelante. La actividad de vista previa, sin embargo, muestra cómo podemos encontrar soluciones aproximadas a un sistema inconsistente: si no hay soluciones para\(A\mathbf x = \mathbf b\text{,}\) resolvemos\(A\mathbf x = \bhat\text{,}\) el sistema consistente la proyección ortogonal de\(\mathbf b\) sobre\(\col(A)\text{.}\) Como veremos, esta solución es, en un sentido específico, la mejor posible.

    Actividad 6.5.2.

    Supongamos que tenemos tres puntos de datos\((1,1)\text{,}\)\((2,1)\text{,}\)\((3,3)\) y y que nos gustaría encontrar una línea que los atraviese.

    1. Trazar estos tres puntos en la Figura 6.5.2. ¿Eres capaz de trazar una línea que pase por los tres puntos?
    Figura 6.5.2. Trazar los tres puntos de datos aquí.
    • Escribamos las condiciones que describirían una línea que pasa por los puntos. Recuerde que la ecuación de una línea se puede escribir como\(b + mx=y\) dónde\(m\) está la pendiente y\(b\) es la\(y\) -intercepción. Vamos a tratar de encontrar\(b\) y para\(m\) que los tres puntos se encuentren en la línea.

      El primer punto de datos\((1,1)\) da una ecuación para\(b\) y\(m\text{.}\) En particular, sabemos que cuando\(x=1\text{,}\) entonces\(y=1\) así tenemos\(b + m(1) = 1\) o\(b + m = 1\text{.}\) Usa los otros dos puntos de datos para crear un sistema lineal que describe\(m\) y\(b\text{.}\)

    • Hemos obtenido un sistema lineal que tiene tres ecuaciones, una de cada punto de datos, para las dos incógnitas\(b\) e\(m\text{.}\) Identificar una matriz\(A\) y vector\(\mathbf b\) para que el sistema tenga la forma\(A\mathbf x=\mathbf b\text{,}\) donde\(\mathbf x=\twovec bm\text{.}\)

      Observe que el vector desconocido\(\mathbf x=\twovec bm\) describe la línea que buscamos.

    • ¿Hay una solución a este sistema lineal? ¿Cómo se relaciona esta pregunta con su intento de trazar una línea a través de los tres puntos anteriores?
    • Dado que este sistema es inconsistente, sabemos que no\(\mathbf b\) está en el espacio de columna\(\col(A)\text{.}\) Buscar una base ortogonal para\(\col(A)\) y usarla para encontrar la proyección ortogonal\(\widehat\mathbf b\) de\(\mathbf b\) sobre\(\col(A)\text{.}\)
    • Ya que\(\widehat\mathbf b\) está en\(\col(A)\text{,}\) la ecuación\(A\mathbf x = \widehat\mathbf b\) es consistente. Encuentre su solución\(\mathbf x = \twovec{b}{m}\) y esboce la línea\(y=b + mx\) en la Figura 6.5.2. Decimos que esta es la línea de mejor ajuste.

    Esta actividad ilustra la idea detrás de una técnica conocida como mínimos cuadrados ortogonales, en la que hemos estado trabajando a lo largo de este capítulo. Si los puntos de datos se denotan a medida\((x_i, y_i)\text{,}\) que construimos la matriz\(A\) y el vector\(\mathbf b\) como

    \ begin {ecuation*} A =\ begin {bmatrix} 1 & x_1\\ 1 & x_2\\ 1 & x_3\\ end {bmatrix},\ hspace {24pt}\ mathbf b =\ threevec {y_1} {y_2} {y_3}\ text {.} \ end {ecuación*}

    Con el vector\(\mathbf x=\twovec bm\) que representa la línea\(b+mx = y\text{,}\) vemos que la ecuación\(A\mathbf x=\mathbf b\) describe una línea que pasa por todos los puntos de datos. En nuestro ejemplo, es visualmente evidente que no existe tal línea, hecho confirmado por la inconsistencia de la ecuación\(A\mathbf x=\mathbf b\text{.}\)

    Recuerda que\(\bhat\text{,}\) la proyección ortogonal de\(\mathbf b\) onto\(\col(A)\text{,}\) es el vector más cercano\(\col(A)\) a\(\mathbf b\text{.}\) Por lo tanto, cuando\(A\mathbf x=\bhat\text{,}\) resolvemos la ecuación estamos encontrando el vector para que\(A\mathbf x = \threevec{b+mx_1}{b+mx_2}{b+mx_3}\) esté\(\mathbf x\) lo más cerca\(\mathbf b=\threevec{y_1}{y_2}{y_3}\) posible. Pensemos en lo que esto significa dentro del contexto de este problema.

    La diferencia\(\mathbf b-A\mathbf x = \threevec{y_1-(b+mx_1)}{y_2-(b+mx_2)}{y_3-(b+mx_3)}\) para que el cuadrado de la distancia entre\(A\mathbf x\) y\(\mathbf b\) sea

    \ begin {align*}\ len {\ mathbf b - A\ mathbf x} ^2 & =\\ &\ izquierda (y_1- (b+mx_1)\ derecha) ^2 +\ izquierda (y_2- (b+mx_2)\ derecha) ^2 +\ izquierda (y_3- (b+mx_3)\ derecha) ^2\ texto {.} \ end {alinear*}

    Nuestro enfoque encuentra los valores para\(b\) y\(m\) que hacen que esta suma de cuadrados sea lo más pequeña posible, lo que explica por qué llamamos a esto un problema de mínimos cuadrados.

    Dibujando la línea definida por el vector\(\mathbf x=\twovec bm\text{,}\) la cantidad\(y_i - (b + mx_i)\) refleja la distancia vertical entre la línea y el punto de datos\((x_i, y_i)\text{,}\) como se muestra en la Figura 6.5.5. Visto de esta manera, el cuadrado de la distancia\(\len{\mathbf b-A\mathbf x}^2\) es una medida de cuánto\(\mathbf x\) pierde la línea definida por el vector a los puntos de datos. La solución al problema de mínimos cuadrados es la línea que pierde los puntos de datos por la menor cantidad posible.

    Figura 6.5.5. La solución del problema de mínimos cuadrados y las distancias verticales entre la línea y los puntos de datos.

    Resolviendo problemas de mínimos cuadrados

    Ahora que hemos visto un ejemplo de lo que estamos tratando de lograr, pongamos esta técnica en un marco más general.

    Dado un sistema inconsistente\(A\mathbf x = \mathbf b\text{,}\) buscamos encontrar\(\mathbf x\) que minimice la distancia desde\(A\mathbf x\) hasta\(\mathbf b\text{.}\) Encontramos\(\mathbf x\) formando\(\widehat\mathbf b\text{,}\) la proyección ortogonal de\(\mathbf b\) sobre el espacio de columna\(\col(A)\) y luego resolviendo\(A\mathbf x = \widehat\mathbf b\text{.}\) Avanzando, denotaremos la solución de\(A\mathbf x = \bhat\) por\(\xhat\) y llamar a este vector la solución aproximada de mínimos cuadrados de\(A\mathbf x=\mathbf b\) para distinguirlo de una solución (inexistente) de\(A\mathbf x=\mathbf b\text{.}\)

    Recuerde que la proyección ortogonal\(\widehat\mathbf b\) de\(\mathbf b\) sobre el espacio de columna\(\col(A)\) se define por el hecho de que\(\widehat\mathbf b - \mathbf b\) es ortogonal a\(\col(A)\text{.}\) En otras palabras,\(\bhat-\mathbf b\) está en el complemento ortogonal\(\col(A)^\perp\text{,}\) que la Proposición 6.2.10 nos dice es lo mismo\(\nul(A^T)\text{.}\) que Desde \(\bhat-\mathbf b\)está en\(\nul(A^T)\text{,}\) ello se deduce que

    \[ A^T(\widehat\mathbf b-\mathbf b) = \zerovec\text{.} \]

    Finalmente, la solución aproximada de mínimos cuadrados es el vector\(\xhat\) tal\(A\xhat = \widehat\mathbf b\text{,}\) que da

    \[\begin{align*} A^T(A\xhat - \mathbf b) & = \zerovec\\ A^TA\xhat - A^T\mathbf b & = \zerovec\\ A^TA\xhat & = A^T\mathbf b\text{.} \end{align*}\]

    Dejemos constancia de nuestro trabajo en la siguiente proposición.

    Proposición 6.5.6.

    La solución aproximada de mínimos cuadrados\(\widehat\mathbf x\) a la ecuación\(A\mathbf x = \mathbf b\) viene dada por las ecuaciones normales

    \[ A^TA\widehat\mathbf x = A^T\mathbf b\text{.} \]

    El sistema lineal representado por las ecuaciones normales es consistente ya que\(\xhat\text{,}\) la solución aproximada de mínimos cuadrados a\(A\mathbf x=\mathbf b\text{,}\) es una solución. Si además asumimos que las columnas de\(A\) son linealmente independientes, podemos ver que hay una solución única. Imagínese, por el momento, que\(\mathbf x\) es una solución a la ecuación homogénea Entonces\(A^TA\mathbf x = \zerovec\text{.}\) tenemos

    \[\begin{align*} \mathbf x\cdot(A^TA\mathbf x) & = \mathbf x\cdot\zerovec = 0\\ \mathbf x^TA^TA\mathbf x & = 0\\ (A\mathbf x)^T(A\mathbf x) & = 0\\ (A\mathbf x)\cdot(A\mathbf x) & = 0\\ \len{A\mathbf x}^2 & = 0\\ A\mathbf x & = \zerovec \text{.} \end{align*}\]

    Es decir, si\(\mathbf x\) es una solución a la ecuación homogénea\(A^TA\mathbf x = \zerovec\text{,}\) entonces sabemos que\(A\mathbf x = \zerovec\text{.}\) Dado que estamos asumiendo que las columnas de\(A\) son linealmente independientes, sabemos que la ecuación homogénea\(A\mathbf x=\zerovec\) tiene sólo la solución cero\(\mathbf x = \zerovec\text{.}\) Por lo tanto, la homogénea ecuación solo\(A^TA\mathbf x=\zerovec\) tiene la solución cero, lo que significa que\(A^TA\) tiene una posición de pivote en cada columna. De ahí que las ecuaciones normales\(A^TA\xhat = A^T\mathbf b\) deben tener una solución única.

    Proposición 6.5.7.

    Si las columnas de\(A\) son linealmente independientes, entonces hay una solución aproximada de mínimos cuadrados única\(\xhat\) a la ecuación\(A\mathbf x=\mathbf b\) dada por las ecuaciones normales

    \[ A^TA\xhat = A^T\mathbf b\text{.} \]

    Pongamos esta proposición a usar en la siguiente actividad.

    Actividad 6.5.3.

    La velocidad a la que chirre un grillo está relacionada con la temperatura exterior, como se refleja en algunos datos experimentales que estudiaremos en esta actividad. La tasa de chirp\(C\) se expresa en chirps por segundo mientras que la temperatura\(T\) está en grados Fahrenheit. Evalúe la siguiente celda para cargar en los datos:

    Evaluar esta celda también proporciona:

    • los vectores chirps y temps formados a partir de las columnas del conjunto de datos.
    • el comando onesvec (n), que crea un vector\(n\) -dimensional cuyas entradas son todas una.
    • Recuerda que puedes formar una matriz cuyas columnas son los vectores v1 y v2 con matrix ([v1, v2]) .T.

    Nos gustaría representar esta relación mediante una función lineal

    \ begin {ecuación*}\ beta_0 +\ beta_1 C = T\ texto {.} \ end {ecuación*}
    1. Utilice el primer punto de datos\((C_1,T_1)=(20.0,88.6)\) para escribir una ecuación que involucre\(\beta_0\) y\(\beta_1\text{.}\)
    2. Supongamos que representamos las incógnitas usando un vector\(\mathbf x = \twovec{\beta_0}{\beta_1}\text{.}\) Usa los 15 puntos de datos para crear la matriz\(A\) y el vector\(\mathbf b\) para que el sistema lineal\(A\mathbf x= \mathbf b\) describa el vector desconocido\(\mathbf x\text{.}\)
    3. Escribe las ecuaciones normales es\(A^TA\xhat = A^T\mathbf b\text{;}\) decir, encuentra la matriz\(A^TA\) y el vector\(A^T\mathbf b\text{.}\)
    4. Resuelve las ecuaciones normales para encontrar\(\xhat\text{,}\) los mínimos cuadrados solución aproximada a la ecuación\(A\mathbf x=\mathbf b\text{.}\) Llama a tu solución xhat ya que x tiene otro significado en Sage.

      ¿Cuáles son los valores\(\beta_0\) y\(\beta_1\) que encontraste?

    5. Si la tasa de chirp es de 22 chirps por segundo, ¿cuál es su predicción para la temperatura?

      Puedes trazar los datos y tu línea, asumiendo que llamaste a la solución xhat, usando la celda de abajo.

    Este ejemplo demuestra un enfoque llamado regresión lineal, en el que se modela una colección de datos utilizando una función lineal que se encuentra resolviendo un problema de mínimos cuadrados. Una vez que tenemos la función lineal que mejor se ajusta a los datos, podemos hacer predicciones sobre situaciones que no hemos encontrado en los datos.

    Si vamos a usar nuestra función para hacer predicciones, es natural preguntarnos cuánta confianza tenemos en estas predicciones. Esta es una cuestión estadística que lleva a una teoría rica y bien desarrollada, que aquí no exploraremos con mucho detalle. Sin embargo, hay una simple medida de lo bien que nuestra función lineal se ajusta a los datos que se conoce como el coeficiente de determinación y denotada por\(R^2\text{.}\)

    Hemos visto que el cuadrado de la distancia\(\len{\mathbf b-A\mathbf x}^2\) mide la cantidad por la que la línea no logra pasar por los puntos de datos. Cuando la línea está cerca de los puntos de datos, esperamos que este número sea pequeño. Sin embargo, el tamaño de esta medida depende de la escala de los datos. Por ejemplo, las dos líneas que se muestran en la Figura 6.5.8 parecen ajustarse igualmente bien a los datos, pero\(|\mathbf b-A\xhat|^2\) son 100 veces más grandes a la derecha.

    Figura 6.5.8. Las líneas parecen encajar igualmente bien a pesar de que\(\len{\mathbf b-A\xhat}^2\) difiere en un factor de 100.

    El coeficiente de determinación\(R^2\) se define normalizando\(|\mathbf b-A\xhat|^2\) para que sea independiente de la escala. Recordemos que describimos cómo degradar un vector en la Sección 6.1: dado un vector\(\mathbf v\text{,}\) se obtiene\(\widetilde{\mathbf v}\) restando el promedio de los componentes de cada componente.

    Definición 6.5.9. Coeficiente de determinación

    El coeficiente de determinación es

    \ begin {ecuación*} R^2 = 1 -\ frac {|\ mathbf b - A\ xhat|^2} {|\ Widetilde {\ mathbf b} |^2},\ end {ecuación*}

    donde\(\widetilde{\mathbf b}\) está el vector obtenido degradando\(\mathbf b\text{.}\)

    Una explicación más completa de esta definición se basa en el concepto de varianza, que exploramos en el Ejercicio 6.5.6.11 y en el siguiente capítulo. Por el momento, basta con saber eso\(0\leq R^2 \leq 1\) y que cuanto más cerca\(R^2\) esté de 1, mejor se ajustará la línea a los datos. En nuestro ejemplo original, ilustrado en la Figura 6.5.8, encontramos que\(R^2 = 0.75\text{,}\) y en nuestro estudio de las tasas de chirp de cricket, tenemos\(R^2=0.69\text{.}\) Sin embargo, evaluar la confianza que tenemos en las predicciones hechas al resolver un problema de mínimos cuadrados puede requerir una reflexión considerable, y sería ingenuo confiar solo en el valor de\(R^2\text{.}\)

    Uso de\(QR\) factorizaciones

    Como hemos visto, la solución aproximada de mínimos cuadrados\(\xhat\) se\(A\mathbf x=\mathbf b\) puede encontrar resolviendo las ecuaciones normales\(A^TA\xhat = A^T\mathbf b\text{,}\) y esto puede ser una estrategia práctica para algunos problemas. Sin embargo, este enfoque generalmente no es sólido ya que pequeños errores de redondeo pueden acumularse y conducir a resultados finales inexactos.

    Como demuestra la siguiente actividad, existe un método alternativo para encontrar la solución aproximada de mínimos cuadrados\(\xhat\) utilizando una\(QR\) factorización de la matriz\(A\text{,}\) y este método es preferible ya que es numéricamente más confiable.

    Actividad 6.5.4.

    1. Supongamos que estamos interesados en encontrar la solución aproximada de mínimos cuadrados a la ecuación\(A\mathbf x = \mathbf b\) y que tenemos la\(QR\) factorización\(A=QR\text{.}\) Explicar por qué la solución de aproximación de mínimos cuadrados se da resolviendo
      \ begin {alinear*} A\ xhat & = QQ^T\ mathbf b\\\\ QR\ xhat & = QQ^T\ mathbf b\\\ end {alinear*}
    2. Multiplica ambos lados de la segunda expresión por\(Q^T\) y explica por qué
      \ begin {ecuación*} R\ xhat = Q^T\ mathbf b.\ end {ecuación*}

      Dado que\(R\) es triangular superior, esta es una ecuación relativamente simple de resolver usando la sustitución de espalda, como vimos en la Sección 5.1. Por lo tanto, escribiremos la solución aproximada de mínimos cuadrados como

      \ begin {ecuación*}\ xhat = R^ {-1} Q^T\ mathbf b,\ end {ecuación*}

      y poner esto en uso en el siguiente contexto.

    3. La fórmula de Brozak, que se utiliza para calcular el índice de grasa corporal de una persona\(BFI\text{,}\) es
      \ begin {ecuación*} BFI = 100\ izquierda (\ frac {4.57} {\ rho} - 4.142\ derecha)\ end {ecuación*}

      donde\(\rho\) denota la densidad corporal de una persona en gramos por centímetro cúbico. Obtener una medida precisa de\(\rho\) es difícil, sin embargo, porque requiere sumergir a la persona en agua y medir el volumen de agua desplazada. En su lugar, reuniremos varias otras medidas corporales, que se obtienen más fácilmente, y las usaremos para predecir\(BFI\text{.}\)

      Por ejemplo, supongamos que tomamos 10 pacientes y medimos su peso\(w\) en libras, estatura\(h\) en pulgadas, abdomen\(a\) en centímetros, circunferencia de muñeca\(r\) en centímetros, circunferencia de cuello\(n\) en centímetros, y\(BFI\text{.}\) Evaluando las siguientes cargas celulares y muestra los datos.

      Además, esa celda proporciona:
      1. vectores peso, altura, abdomen, muñeca, cuello y BFI formados a partir de las columnas del conjunto de datos.
      2. el comando onesvec (n), que devuelve un vector\(n\) -dimensional cuyas entradas son todas una.
      3. el comando QR (A) que devuelve la\(QR\) factorización de\(A\) como Q, R = QR (A).
      4. el comando demean (v), que devuelve el vector demeaned\(\widetilde{\mathbf v}\text{.}\)

      Nos gustaría encontrar la función lineal

      \ begin {ecuación*}\ beta_0 +\ beta_1w +\ beta_2h +\ beta_3a +\ beta_4r +\ beta_5n = BFI\ fin {ecuación*}

      que mejor se ajusta a los datos.

      Usar el primer punto de datos para escribir una ecuación para los parámetros\(\beta_0,\beta_1,\ldots,\beta_5\text{.}\)

    4. Describir el sistema lineal\(A\mathbf x = \mathbf b\) para estos parámetros. Más específicamente, describir cómo se\(\mathbf b\) forman la matriz\(A\) y el vector.
    5. Construir la matriz\(A\) y encontrar su\(QR\) factorización en la celda de abajo.
    6. Encuentra la solución aproximada de mínimos cuadrados\(\xhat\) resolviendo la ecuación\(R\xhat = Q^T\mathbf b\text{.}\) Es posible que desee usar N (xhat) para mostrar una aproximación decimal del vector. ¿Cuáles son los parámetros\(\beta_0,\beta_1,\ldots,\beta_5\) que mejor se ajustan a los datos?
    7. Encuentra el coeficiente de determinación\(R^2\) para tus parámetros. ¿Qué implica esto sobre la calidad del ajuste?
    8. Supongamos que las medidas de una persona son: peso 190, altura 70, abdomen 90, muñeca 18 y cuello 35. Estimar esta persona\(BFI\text{.}\)

    Para resumir, hemos visto que

    Proposición 6.5.10.

    Si las columnas de\(A\) son linealmente independientes y tenemos la\(QR\) factorización\(A=QR\text{,}\) entonces la solución aproximada de mínimos cuadrados\(\xhat\) a la ecuación\(A\mathbf x=\mathbf b\) viene dada por

    \ begin {ecuación*}\ xhat = R^ {-1} Q^T\ mathbf b\ texto {.} \ end {ecuación*}

    Regresión polinómica

    En los ejemplos que hemos visto hasta ahora, hemos ajustado una función lineal a un conjunto de datos. A veces, sin embargo, un polinomio, como una función cuadrática, puede ser más apropiado. Resulta que las técnicas que hemos desarrollado en esta sección siguen siendo útiles como demuestra la siguiente actividad.

    Actividad 6.5.5.

    1. Supongamos que tenemos un pequeño conjunto de datos que contiene los puntos\((0,2)\text{,}\)\((1,1)\text{,}\)\((2,3)\text{,}\) y\((3,3)\text{,}\) tal como aparecen cuando se evalúa la siguiente celda.
      Además de cargar y trazar los datos, la evaluación de esa celda proporciona los siguientes comandos:
      • Q, R = QR (A) devuelve la\(QR\) factorización de\(A\text{.}\)
      • demean (v) devuelve el vector demeaned\(\widetilde{\mathbf v}\text{.}\)

      Vamos a encajar una función cuadrática de la forma

      \ comenzar {ecuación*}\ beta_0 +\ beta_1 x +\ beta_2 x^2 = y\ fin {ecuación*}

      a este conjunto de datos.

      Escribe cuatro ecuaciones, una para cada punto de datos, que describan los coeficientes\(\beta_0\text{,}\)\(\beta_1\text{,}\) y\(\beta_2\text{.}\)

    2. Expresar estas cuatro ecuaciones como un sistema lineal\(A\mathbf x = \mathbf b\) donde\(\mathbf x = \threevec{\beta_0}{\beta_1}{\beta_2}\text{.}\)

      Encuentra la\(QR\) factorización\(A\) y utilízala para encontrar la solución aproximada de mínimos cuadrados\(\xhat\text{.}\)

    3. Usa los parámetros\(\beta_0\text{,}\)\(\beta_1\text{,}\) y\(\beta_2\) que encontraste para escribir la función cuadrática que se ajuste a los datos. Puede trazar esta función, junto con los datos, ingresando su función en el lugar apropiado a continuación.
    4. ¿Cuál es su\(y\) valor predicho cuando\(x=1.5\text{.}\)
    5. ¿Encuentra el coeficiente de determinación\(R^2\) para la función cuadrática? ¿Qué dice esto sobre la calidad del ajuste?
    6. Ahora encaja un polinomio cúbico de la forma
      \ begin {ecuación*}\ beta_0 +\ beta_1x +\ beta_2 x^2 +\ beta_3x^3 = y\ end {ecuación*}

      a este conjunto de datos.

    7. Encuentra el coeficiente de determinación\(R^2\) para la función cúbica. ¿Qué dice esto sobre la calidad del ajuste?
    8. ¿Qué nota cuando traza la función cúbica junto con los datos? ¿Cómo refleja esto el valor de lo\(R^2\) que encontraste?

    Las matrices\(A\) que creó en la última actividad al ajustar una función cuadrática y cúbica a un dataset tienen una forma especial. En particular, si los puntos de datos están etiquetados\((x_i, y_i)\) y buscamos un\(k\) polinomio grado, entonces

    \ begin {ecuación*} A =\ begin {bmatrix} 1 & x_1 & x_1^2 &\ ldots & x_1^k\\ 1 & x_2 & x_2^2 &\ ldots & x_2^k\\ vdots &\ vdots &\ vdots &\ ddots &\ vdots &\ vdots\\ vdots\\ 1 & x_m & x_m^2 &\ ldots & x_m^k\\\ end {bmatrix}. \ end {ecuación*}

    Esto se llama una matriz de grado Vandermonde\(k\text{.}\)

    Actividad 6.5.6.

    Esta actividad explora un conjunto de datos que describe el hielo marino ártico y que proviene de las matemáticas de sostenibilidad.

    Al evaluar la celda de abajo se trazará la extensión del hielo marino ártico, en millones de kilómetros cuadrados, durante los doce meses de 2012.

    Además, tienes acceso a algunas variables y comandos especiales:

    • mes es el vector de valores de mes y hielo es el vector de valores de hielo marino de la tabla anterior.
    • vandermonde (x, k) construye la matriz de grado Vandermonde\(k\) usando los puntos en el vector x.
    • Q, R = QR (A) proporciona la\(QR\) factorización de\(A\text{.}\)
    • demean (v) devuelve el vector demeaned\(\widetilde{\mathbf v}\text{.}\)
    1. Encuentra el vector\(\xhat\text{,}\) la solución aproximada de mínimos cuadrados al sistema lineal que resulta de ajustar un polinomio de grado 5 a los datos.
    2. Si tu resultado se almacena en la variable xhat, puedes trazar el polinomio y los datos juntos usando la siguiente celda.
    3. Encuentra el coeficiente de determinación\(R^2\) para este ajuste polinómico.
    4. Repita estos pasos para ajustar un polinomio de grado 8 a los datos, trazar el polinomio con los datos y encontrar\(R^2\text{.}\)
    5. Repita una vez más ajustando un polinomio de grado 11 a los datos, trazándolo y encontrando\(R^2\text{.}\)

      Ciertamente es cierto que los polinomios de mayor grado se ajustan mejor a los datos, como lo ven los valores crecientes de\(R^2\text{,}\) pero eso no siempre es algo bueno. Por ejemplo, cuando\(k=11\text{,}\) puedas notar que la gráfica del polinomio se menea un poco más de lo que esperaríamos. En este caso, el polinomio se está esforzando demasiado por encajar los datos, lo que suele contener cierta incertidumbre, sobre todo si se obtiene de las mediciones. El error incorporado a los datos se llama ruido, y su presencia significa que no debemos esperar que nuestro polinomio se ajuste perfectamente a los datos. Cuando elegimos un polinomio cuyo grado es demasiado alto, le damos al ruido demasiado peso en el modelo, lo que lleva a algún comportamiento indeseable, como los meneos en la gráfica.

      Ajustar los datos con un polinomio cuyo grado es demasiado alto se llama sobreajuste, fenómeno que puede aparecer en muchas aplicaciones de aprendizaje automático. En términos generales, nos gustaría elegir lo suficientemente\(k\) grande como para capturar las características esenciales de los datos pero no tan grandes como para sobreajustar y construir el ruido en el modelo. Hay formas de determinar el valor óptimo de\(k\text{,}\) pero no vamos a perseguir eso aquí.

    6. Elegir un valor razonable de\(k\text{,}\) estimar la extensión del hielo marino ártico al mes 6.5, aproximadamente en el Solsticio de Verano.

    Resumen

    Esta sección introdujo algunos tipos de problemas de mínimos cuadrados y un marco para trabajar con ellos.

    • Dado un sistema inconsistente\(A\mathbf x=\mathbf b\text{,}\) encontramos\(\xhat\text{,}\) la solución aproximada de mínimos cuadrados, al exigir que\(A\xhat\) sea lo más posible a lo\(\mathbf b\) posible. En otras palabras,\(A\xhat = \bhat\) ¿dónde\(\bhat\) está la proyección ortogonal de\(\mathbf b\)\(\col(A)\text{.}\)
    • Una forma de encontrar\(\xhat\) es resolviendo las ecuaciones normales\(A^TA\xhat = A^T\mathbf b.\) Este no es nuestro método preferido ya que pueden surgir problemas numéricos.
    • Una segunda forma de encontrar\(\xhat\) utiliza una\(QR\) factorización de\(A\text{.}\) Si\(A=QR\text{,}\) entonces\(\xhat = R^{-1}Q^T\mathbf b\) y encontrar\(R^{-1}\) es computacionalmente factible ya que\(R\) es triangular superior.
    • Esta técnica se puede aplicar ampliamente y es útil para modelar datos. Vimos ejemplos en esta sección donde las funciones lineales de varias variables de entrada y polinomios proporcionaron modelos efectivos para diferentes conjuntos de datos.
    • Una simple medida de la calidad del ajuste es el coeficiente de determinación\(R^2\) aunque se debe dar alguna reflexión adicional en aplicaciones reales.

    Ejercicios 6.5.6Ejercicios

    Evaluar las siguientes cargas de celdas en algunos comandos que serán útiles en los siguientes ejercicios. En particular, hay comandos

    • QR (A) que devuelve la\(QR\) factorización de A como Q, R = QR (A),
    • onesvec (n) que devuelve el vector\(n\) -dimensional cuyas entradas son todas 1,
    • demean (v) que degrada el vector v,
    • vandermonde (x, k) que devuelve la matriz Vandermonde de grado\(k\) formada a partir de los componentes del vector x, y
    • plot_model (xhat, data) que traza los datos y el modelo xhat.
    1

    Supongamos que escribimos el sistema lineal

    \ begin {ecuación*}\ begin {bmatrix} 1 & -1\\ 2 & -1\\ -1 & 3\ end {bmatrix}\ mathbf x =\ threevec {-8} 5 {-10}\ end {ecuación*}

    como\(A\mathbf x=\mathbf b\text{.}\)

    1. Encuentre una base ortogonal para\(\col(A)\text{.}\)
    2. Encuentra\(\bhat\text{,}\) la proyección ortogonal de\(\mathbf b\) onto\(\col(A)\text{.}\)
    3. Encuentre una solución para el sistema lineal\(A\mathbf x = \bhat\text{.}\)
    2

    Considerar los datos en el Cuadro 6.5.11.

    Cuadro 6.5.11. Un conjunto de datos con cuatro puntos.
    \(x\) \(y\)
    1 1
    2 1
    3 1
    4 2
    1. Configure el sistema lineal\(A\mathbf x=\mathbf b\) que describe la línea que\(b + mx = y\) pasa por estos puntos.
    2. Escribe las ecuaciones normales que describen la solución aproximada de mínimos cuadrados para\(A\mathbf x=\mathbf b\text{.}\)
    3. Encuentra la solución aproximada de mínimos cuadrados\(\xhat\) y traza los datos y la línea resultante.
    4. ¿Cuál es su\(y\) valor predicho cuando\(x=3.5\text{?}\)
    5. Encuentra el coeficiente de determinación\(R^2\text{.}\)
    3

    Considerar los cuatro puntos en la Tabla 6.5.11.

    1. Configurar un sistema lineal\(A\mathbf x = \mathbf b\) que describa una función cuadrática
      \ begin {ecuación*}\ beta_0+\ beta_1x+\ beta_2x^2 = y\ end {ecuación*}

      pasando por los puntos.

    2. Utilice una\(QR\) factorización para encontrar la solución aproximada de mínimos cuadrados\(\xhat\) y trazar los datos y la gráfica de la función cuadrática resultante.
    3. ¿Cuál es su\(y\) valor predicho cuando\(x=3.5\text{?}\)
    4. Encuentra el coeficiente de determinación\(R^2\text{.}\)
    4

    Considerar los datos en el Cuadro 6.5.12.

    Cuadro 6.5.12. Un conjunto de datos simple
    \(x_1\) \(x_2\) \(y\)
    1 1 4.2
    1 2 3.3
    2 1 5.9
    2 2 5.1
    3 2 7.5
    3 3 6.3
    1. Configurar un sistema lineal\(A\mathbf x = \mathbf b\) que describa la relación
      \ comenzar {ecuación*}\ beta_0 +\ beta_1 x_1 +\ beta_2 x_2 = y.\ fin {ecuación*}
    2. Encuentra la solución aproximada de mínimos cuadrados\(\xhat\text{.}\)
    3. ¿Cuál es su\(y\) valor predicho cuándo\(x_1 = 2.4\) y\(x_2=2.9\text{?}\)
    4. Encuentra el coeficiente de determinación\(R^2\text{.}\)
    5

    Determina si las siguientes afirmaciones son verdaderas o falsas y explica tu pensamiento.

    1. Si\(A\mathbf x=\mathbf b\) es consistente, entonces\(\xhat\) es una solución para\(A\mathbf x=\mathbf b\text{.}\)
    2. Si\(R^2=1\text{,}\) entonces la solución aproximada de mínimos cuadrados también\(\xhat\) es una solución a la ecuación original\(A\mathbf x=\mathbf b\text{.}\)
    3. Dada la\(QR\) factorización\(A=QR\text{,}\) tenemos\(A\xhat=Q^TQ\mathbf b\text{.}\)
    4. Una\(QR\) factorización proporciona un método para encontrar la solución aproximada de mínimos cuadrados\(A\mathbf x=\mathbf b\) que sea más confiable que resolver las ecuaciones normales.
    5. Una solución a\(AA^T\mathbf x = A\mathbf b\) es la solución aproximada de mínimos cuadrados para\(A\mathbf x = \mathbf b\text{.}\)
    6

    Explica tu respuesta a las siguientes preguntas.

    1. Si\(\xhat=\zerovec\text{,}\) qué dice esto sobre el vector\(\mathbf b\text{?}\)
    2. Si las columnas de\(A\) son ortonormales, ¿cómo puedes encontrar fácilmente la solución aproximada de mínimos cuadrados para\(A\mathbf x=\mathbf b\text{?}\)
    7

    Las siguientes cargas celulares en algunos datos que muestran el número de personas en Bangladesh que viven sin electricidad a lo largo de 27 años. También define vectores año, que registra los años en el conjunto de datos, y personas, que registra el número de personas.

    1. Supongamos que queremos escribir
      \ comenzar {ecuación*} N =\ beta_0 +\ beta_1 t\ fin {ecuación*}

      donde\(t\) es el año y\(N\) es el número de personas. Construir la matriz\(A\) y el vector de\(\mathbf b\) manera que el sistema lineal\(A\mathbf x=\mathbf b\) describa el vector\(\mathbf x=\twovec{\beta_0}{\beta_1}\text{.}\)

    2. Usando una\(QR\) factorización de\(A\text{,}\) encontrar los valores de\(\beta_0\) y\(\beta_1\) en la solución aproximada de mínimos cuadrados\(\xhat\text{.}\)
    3. ¿Cuál es el coeficiente de determinación\(R^2\) y qué nos dice esto sobre la calidad de la aproximación?
    4. ¿Cuál es su predicción para el número de personas que viven sin electricidad en 1985?
    5. Estimar el año en el que no habrá personas viviendo sin electricidad.
    8

    Este problema se refiere a un conjunto de datos que describen planetas en nuestro Sistema Solar. Para cada planeta, tenemos la longitud\(L\) del semieje mayor, esencialmente la distancia del planeta al Sol en AU (unidades astronómicas), y el periodo\(P\text{,}\) el tiempo en años requerido para completar una órbita alrededor del Sol.

    Nos gustaría modelar estos datos usando la función\(P = CL^r\) donde\(C\) y\(r\) son parámetros que necesitamos determinar. Como esta no es una función lineal, transformaremos esta relación tomando el logaritmo natural de ambos lados para obtener

    \ begin {ecuación*}\ ln (P) =\ ln (C) + r\ ln (L). \ end {ecuación*}

    Evaluando la siguiente celda carga el conjunto de datos y define dos vectores logaxis, cuyos componentes son\(\ln(L)\text{,}\) y logperiod, cuyos componentes son\(\ln(P)\text{.}\)

    1. Construir la matriz\(A\) y el vector\(\mathbf b\) para que la solución a\(A\mathbf x=\mathbf b\) sea el vector\(\mathbf x=\twovec{\ln(C)}r\text{.}\)
    2. Encuentra la solución aproximada de mínimos cuadrados\(\xhat\text{.}\) ¿Qué da esto para los valores de\(C\) y\(r\text{?}\)
    3. Encuentra el coeficiente de determinación\(R^2\text{.}\) ¿Qué nos dice esto sobre la calidad de la aproximación?
    4. Supongamos que la órbita de un asteroide tiene un semieje mayor cuya longitud es\(L=4.0\) AU. Estimar el periodo\(P\) de la órbita del asteroide.
    5. Halley's Comet tiene un periodo de\(P=75\) años. Estimar la longitud de su semieje mayor.
    9

    Al evaluar las siguientes células, se carga un conjunto de datos que describe la temperatura en la atmósfera terrestre a diversas altitudes. También hay dos vectores de altitud, expresados en kilómetros, y la temperatura, en grados centígrados.

    1. Describir cómo formar la matriz\(A\) y el vector de\(\mathbf b\) manera que el sistema lineal\(A\mathbf x=\mathbf b\) describa un\(k\) polinomio de grado que se ajuste a los datos.
    2. Elija un valor de\(k\text{,}\) construir la matriz\(A\) y el vector\(\mathbf b\text{,}\) y encontrar la solución aproximada de mínimos cuadrados\(\xhat\text{.}\)
    3. Trazar el polinomio y los datos usando plot_model (xhat, data).
    4. Ahora examina lo que sucede a medida que varías el grado del polinomio\(k\text{.}\) Elige un valor apropiado de\(k\) que parezca capturar las características más importantes de los datos evitando al mismo tiempo el sobreajuste, y explica tu elección.
    5. Utilice su valor de\(k\) para estimar la temperatura a una altitud de 55 kilómetros.
    10

    La siguiente celda carga algunos datos que describen 1057 casas en un mercado inmobiliario particular. Para cada casa, registramos el área habitable en pies cuadrados, el tamaño del lote en acres, la edad en años y el precio en dólares. La celda también define las variables área, tamaño, edad y precio.

    Utilizaremos regresión lineal para predecir el precio de una casa dada su área de estar, tamaño de lote y edad:
    \ begin {equation*}\ beta_0 +\ beta_1~\ text {Living Area} +\ beta_2~\ text {Tamaño del lote} +\ beta_3~\ texto {Edad} =\ texto {Precio}. \ end {ecuación*}
    1. Usa una\(QR\) factorización para encontrar la solución aproximada de mínimos cuadrados\(\xhat\text{.}\)
    2. Discutir la importancia de los signos de\(\beta_1\text{,}\)\(\beta_2\text{,}\) y\(\beta_3\text{.}\)
    3. Si dos casas son idénticas excepto por diferir en edad por un año, ¿cómo predecirías que sus precios se comparan entre sí?
    4. Encuentra el coeficiente de determinación\(R^2\text{.}\) ¿Qué dice esto sobre la calidad del ajuste?
    5. Predecir el precio de una casa cuya superficie habitable es de 2000 pies cuadrados, el tamaño del lote es de 1.5 acres y la edad es de 50 años.
    11

    Este problema trata sobre el significado del coeficiente de determinación\(R^2\) y su conexión con la varianza, tema que aparece en la siguiente sección. A lo largo de este problema, consideramos el sistema lineal\(A\mathbf x=\mathbf b\) y la solución aproximada de mínimos cuadrados\(\xhat\text{,}\) donde\(A\xhat=\bhat\text{.}\) suponemos que\(A\) es una\(m\times n\) matriz. Vamos a denotar el vector\(m\) -dimensional\(\onevec = \fourvec11{\vdots}1\text{.}\)

    1. Explique por qué\(\bbar\text{,}\) la media de los componentes de se\(\mathbf b\text{,}\) puede encontrar como el producto punto
      \ begin {ecuación*}\ bbar =\ frac 1m\ mathbf b\ cdot\ onevec. \ end {ecuación*}
    2. En los ejemplos que hemos visto en esta sección, explica por qué\(\onevec\) está en\(\col(A)\text{.}\)
    3. Si escribimos\(\mathbf b = \bhat + \mathbf b^\perp\text{,}\) explicamos por qué
      \ begin {ecuación*}\ mathbf b^\ perp\ cdot\ onevec = 0\ end {ecuación*}

      y de ahí por qué la media de los componentes de\(\mathbf b^\perp\) es cero.

    4. La varianza de un vector\(m\) -dimensional\(\mathbf v\)\(\widetilde{\mathbf v}\) es\(\var(\mathbf v) = \frac1m \len{\widetilde{\mathbf v}}^2\text{,}\) donde está el vector obtenido degradando\(\mathbf v\text{.}\)

      Explicar por qué

      \ begin {ecuación*}\ var (\ mathbf b) =\ var (\ bhat) +\ var (\ mathbf b^\ perp). \ end {ecuación*}
    5. Explicar por qué
      \ begin {ecuación*}\ frac {\ len {\ mathbf b - A\ xhat} ^2} {\ len {\ anchotilde {\ mathbf b}} ^2} =\ frac {\ var (\ mathbf b^\ perp)} {\ var (\ mathbf b)}\ end {ecuación*}

      y por lo tanto

      \ begin {ecuación*} R^2 =\ frac {\ var (\ bhat)} {\ var (\ mathbf b)} =\ frac {\ var (A\ xhat)} {\ var (\ mathbf b)}. \ end {ecuación*}

      Estas expresiones indican por qué a veces se dice que\(R^2\) mide la “fracción de varianza explicada” por la función que estamos utilizando para ajustar los datos. Como se vio en el ejercicio anterior, puede haber otras características que no se registran en el conjunto de datos que influyen en la cantidad que deseamos predecir.

    6. Explicar por qué\(0\leq R^2 \leq 1\text{.}\)

    This page titled 6.5: Mínimos cuadrados ortogonales is shared under a CC BY 4.0 license and was authored, remixed, and/or curated by David Austin via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.