Saltar al contenido principal
LibreTexts Español

2.5: El teorema de proyección y la estimación de mínimos cuadrados

  • Page ID
    85906
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    La solución a nuestro problema de mínimos cuadrados viene dada ahora por el Teorema de Proyección, también denominado Principio de Ortogonalidad, que establece que

    \[\widehat{e}=(y-A \widehat{x}) \quad \perp \quad \mathcal{R}\tag{A}\]

    a partir de la cual -como veremos- se\(\widehat{x}\) pueda determinar. En palabras, el teoreo/"principio” establece que el punto\(\widehat{y}= A \widehat{x}\) en el subespacio al\(\mathcal{R}(A)\) que se acerca más\(y\) se caracteriza por el hecho de que el error asociado\(\widehat{e}= y- \widehat{y}\) es ortogonal a\(\mathcal{R}(A)\), es decir, ortogonal al espacio abarcado por los vectores en\(A\). Este principio fue presentado y probado en el capítulo anterior. Repetimos aquí la prueba en el contexto del problema anterior.

    Prueba:

    Primero mostramos que\(y\) tiene una descomposición única de la forma\(y = y_{1}+y_{2}\), dónde\(y_{1} \in \mathcal{R}(A)\) y\(y_{2} \in \mathcal{R}^{\perp}(A)\). Podemos escribir cualquiera\(y_{1} \in \mathcal{R}(A)\) en la forma\(y_{1} = A \alpha\) para algún vector\(\alpha\).

    Si queremos\((y- y_{1}) \in \mathcal{R}^{\perp}(A)\), debemos ver si hay una\(\alpha\) que satisfaga

    \[<a_{i},(y-A \alpha)>=0, \quad i=1, \ldots, n\nonumber\]

    o, usando nuestra notación de producto Gram,

    \[\prec A,(y-A \alpha) \succ=0\nonumber\]

    Reordenando esta ecuación y usando la linealidad del producto Gram, obtenemos

    \[\prec A, A \succ \alpha=\prec A, y \succ\nonumber\]

    que es en la forma de las ecuaciones normales que encontramos en la Conferencia 1. Bajo nuestro supuesto de que los vectores que componen las columnas de\(A\) son independientes, el lema de la matriz Gram muestra que\(\prec A, A \succ\) es invertible, por lo que la solución única de la ecuación anterior es

    \[\alpha=\prec A, A \succ^{-1} \prec A, y \succ\nonumber\]

    Ahora tenemos la descomposición que buscábamos.

    Para demostrar que la descomposición anterior es única, deja\(y = y_{1a} + y_{2a}\) ser otra tal descomposición, con\(y_{1a} \in \mathcal{R}(A)\) y\(y_{2a} \in \mathcal{R}^{\perp}(A)\). Entonces

    \[y - y_{1a} = y - y_{2a}\nonumber\]

    y el lado izquierdo está adentro\( \mathcal{R}(A)\) mientras que el lado derecho está en su complemento ortogonal. Es fácil demostrar que el único vector común a un subespacio y su complemento ortogonal es el vector cero, así\(y - y_{1a}=0\) y\(y - y_{1a}= 0\), es decir, la descomposición de\(y\) es única.

    Para proceder, descomponga el error de\(e = y - Ax\) manera similar (y única) en la suma de\(e_{1} \in \mathcal{R}(A)\) y\(e_{2} \in \mathcal{R}^{\perp}(A)\). Tenga en cuenta que

    \[\|e\|^{2}=\left\|e_{1}\right\|^{2}+\left\|e_{2}\right\|^{2}\nonumber\]

    Ahora podemos reescribir\(e = y - Ax\) como

    \[e_{1}+e_{2}=y_{1}+y_{2}-A x\nonumber\]

    o

    \[e_{2} - y_{2}=y_{1} - e_{1}-A x\nonumber\]

    Dado que el lado derecho de la ecuación anterior se encuentra en\(\mathcal{R}(A)\) y el lado izquierdo se encuentra adentro\(\mathcal{R}^{\perp}(A)\), cada lado por separado debe ser igual a 0, nuevamente porque este es el único vector común a un subespacio y su complemento ortogonal. Así tenemos\(e_{2}=y_{2}\), y la elección de no\(x\) puede hacer nada para afectar\(e_{2}\). Por otro lado,\(e_{1} = y_{1} - Ax = A( \alpha - x)\), y lo mejor que podemos hacer en cuanto a minimizar\(\|e\|^{2}\) es hacer\(e_{1} = 0\) eligiendo\(x = \alpha\), así\( \widehat{x}= \alpha\), i.e.

    \[\widehat{x}=\prec A, A \succ^{-1} \prec A, y \succ\nonumber\]

    Esto resuelve el problema de estimación de mínimos cuadrados que nos hemos planteado.

    El resultado anterior, aunque bastante abstractamente desarrollado, es inmediatamente aplicable a muchos casos concretos de interés.

    • Especializándose en el caso de\(R^{m}\) o\(C^{m}\), y eligiendo\(x\) minimizar la norma euclidiana habitual,

    \[\|e\|^{2}=e^{\prime} e=\sum_{i=1}^{m}\left|e_{i}\right|^{2}\nonumber\]

    tenemos

    \[\widehat{x}=\left(A^{\prime} A\right)^{-1} A^{\prime} y\nonumber\]

    Tenga en cuenta que si las columnas\(A\) forman un conjunto mutuamente ortogonal (es decir, una base ortogonal para\(\mathcal{R}(A)\)), entonces\(A^{\prime}A\) es diagonal, y su inversión es trivial.

    • Si en cambio elegimos minimizar\(e^{\prime}Se\) para algún hermitiano definitivo positivo\(S\) (\( \neq I\)), tenemos un problema de mínimos cuadrados ponderados, con solución dada por

    \[\widehat{x}=\left(A^{\prime} SA\right)^{-1} A^{\prime} Sy\nonumber\]

    Por ejemplo, con una diagonal\(S\), el criterio que estamos tratando de minimizar se convierte

    \[\sum_{i=1}^{m} s_{i i}\left|e_{i}\right|^{2}\nonumber\]

    donde los\(s_{ii}\) son todos positivos. De esta manera podemos ponderar preferencialmente aquellas ecuaciones en nuestro sistema lineal para las cuales queremos un error menor en la solución final; un valor mayor de\(s_{ii}\) fomentará un menor\(e_{i}\).

    Dicha ponderación es importante en cualquier situación práctica, donde diferentes mediciones\(y_{i}\) pueden haber sido sometidas a diferentes niveles de ruido o incertidumbre. Uno podría esperar que\(s_{ii}\) sea inversamente proporcional a la intensidad del ruido en la i-ésima ecuación. De hecho, una derivación probabilística, asumiendo ruido medio cero en cada ecuación del sistema pero ruido que no está correlacionado entre ecuaciones, muestra que\(s_{ii}\) debe variar inversamente con la varianza de\(e_{i}\).

    Una matriz completa\(S\) en lugar de una diagonal tendría sentido si los errores se correlacionaran entre las mediciones. Un tratamiento probabilístico muestra que la matriz de ponderación adecuada es\(S=\left(E\left[e e^{\prime}\right]\right)^{-1}\), la inversa de la matriz de covarianza de\(e\). En el escenario determinista, uno tiene mucha menos orientación para elegir un bien\(S\).

    • El resultado en caja también nos permite anotar inmediatamente la elección de coefcientes\(x_{i}\) que minimizan la integral

    \[\int\left[y(t)-a_{1}(t) x_{1}-a_{2}(t) x_{2}-\cdots-a_{n}(t) x_{n}\right]^{2} d t\nonumber\]

    para funciones especificadas\(y(t)\) y\(a_{i}(t)\). Si, por ejemplo,\(y(t)\) es de extensión finita (o “soporte” finito)\(T\), y los\(a_{i}(t)\) son sinusoides cuyas frecuencias son múltiplos integrales de\(2 \pi /T\), entonces las fórmulas que obtenemos para el\(x_{i}\) son solo las expresiones familiares de la serie de Fourier. Una simplificación en este ejemplo es que los vectores en\(A\) son ortogonales, así\(\prec A, A \succ\) es diagonal.


    This page titled 2.5: El teorema de proyección y la estimación de mínimos cuadrados is shared under a CC BY-NC-SA 4.0 license and was authored, remixed, and/or curated by Mohammed Dahleh, Munther A. Dahleh, and George Verghese (MIT OpenCourseWare) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.