Saltar al contenido principal
LibreTexts Español

11.1: La descomposición del valor singular

  • Page ID
    113140
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    , La descomposición del valor singular es otro nombre para la representación espectral de una matriz rectangular. Por supuesto si\(A\) es m-by-m y\(m \ne n\) entonces no tiene sentido hablar de los valores propios de\(A\). Sin embargo, podemos apoyarnos en la sección anterior para darnos representaciones espectrales relevantes de las dos matrices simétricas

    • \(A^{T}⁢A\)
    • \(AA^{T}\)

    Que estas dos matrices juntas pueden efectivamente decirnos 'todo' sobre se\(A\) puede obtener de

    \[\mathscr{N}(A^{T}A) = \mathscr{N}(A) \nonumber\]

    \[\mathscr{N}(AA^{T}) = \mathscr{N}(A^T) \nonumber\]

    \[\mathscr{R}(A^{T}A) = \mathscr{R}(A^T) \nonumber\]

    \[\mathscr{R}(AA^{T}) = \mathscr{R}(A) \nonumber\]

    Has probado el primero de estos en un ejercicio anterior. El comprobante del segundo es idéntico. Los resultados del espacio de fila y columna siguen de los dos primeros vía ortogonalidad.

    En el lado espectral, veremos ahora que los valores propios de\(AA^{T}\) y no\(A^{T}⁢A\) son negativos y que sus valores propios distintos de cero coinciden. Primero confirmemos esto en la matriz de adyacencia asociada con el swing inestable

    \[A = \begin{pmatrix} {0}&{1}&{0}&{0}\\ {-1}&{0}&{1}&{0}\\ {0}&{0}&{0}&{1} \end{pmatrix} \nonumber\]

    Los productos respectivos son

    \[AA^{T} = \begin{pmatrix} {1}&{0}&{0}\\ {0}&{2}&{0}\\ {0}&{0}&{1} \end{pmatrix} \nonumber\]

    \[A^{T}A = \begin{pmatrix} {1}&{0}&{-1}&{0}\\ {0}&{1}&{0}&{0}\\ {-1}&{0}&{1}&{0}\\ {0}&{0}&{0}&{1} \end{pmatrix} \nonumber\]

    El análisis del primero es particularmente sencillo. Su espacio nulo es claramente solo el vector cero mientras\(\lambda_{1} = 2\) y\(\lambda_{2} = 1\) son sus valores propios. Sus multiplicidades geométricas son\(n_{1} = 1\) y\(n_{2} = 2\). En\(A^{T}A\) reconocemos la\(S\) matriz del ejercicio en otro módulo y recordamos que sus valores propios son\(\lambda_{1} = 2\)\(\lambda_{2} = 1\), y\(\lambda_{3} = 0\) con multiplicidades\(n_{1} = 1\),\(n_{2} = 2\), y\(n_{3} = 1\). De ahí que al menos para esto\(A\), los valores propios de\(A⁢A^{T}\) y no\(A^{T}A\) son negativos y sus valores propios distintos de cero coinciden. Además, las multiplicidades geométricas de los valores propios distintos de cero suman 3, el rango de\(A\).

    Proposición

    Los valores propios de\(A⁢A^{T}\) y no\(A^{T}A\) son negativos. Sus valores propios distintos de cero, incluyendo las multiplicidades geométricas, coinciden. Las multiplicidades geométricas de los valores propios distintos de cero se suman al rango de\(A\).

    Si\(A^{T}A x = \lambda x\) entonces\(x^{T}A^{T}Ax = \lambda x^{T}x\), es decir,\((||Ax||)^2 = \lambda (||x||)^2\) y así\(\lambda \ge 0\). Un argumento similar funciona para\(AA^{T}\).

    Ahora supongamos que\(\lambda_{j} > 0\) y eso\(\{x_{j,k}\}^{n_{j}}_{k = 1}\) constituye una base ortogonal para el espacio propio\(\mathscr{R}(P_{j})\), a partir de

    \[A^{T}Ax_{j,k} = \lambda_{j} x_{j,k} \nonumber\]

    encontramos, al multiplicar a través (desde la izquierda) por\(A\) eso

    \[AA^{T}Ax_{j,k} = \lambda_{j} A x_{j,k} \nonumber\]

    es decir,\(\lambda_{j}\) es un valor propio de\(AA^{T}\) con vector propio\(Ax_{j,k}\), siempre y cuando\(A⁢x_{j,k} \ne 0\).

    Del primer párrafo de esta prueba se desprende que\(||Ax_{j,k}|| = \sqrt{\lambda_{j}}\), lo cual, por hipótesis, es distinto de cero. De ahí que,

    \[\forall 1 \le k \le n_{j} : (y_{j,k} \equiv \frac{Ax_{j,k}}{\sqrt{\lambda_{j}}} \nonumber\]

    es una colección de vectores propios unitarios\(A⁢A^{T}\) asociados con\(\lambda_{j}\). Demostremos ahora que estos vectores son ortonormales para fijos\(j\).

    \[y^{T}_{j,i} y_{j,k} = \frac{1}{\lambda_{j}} x^{T}_{j,i} A^{T}Ax_{j,k} = x^{T}_{j,i}x_{j,k} = 0 \nonumber\]

    Ahora hemos demostrado que si\(\lambda_{j} > 0\) es un valor propio\(A^{T}A\) de multiplicidad geométrica\(n_{j}\). Revirtiendo el argumento, es decir, generando vectores propios de\(A^{T}A\) a partir de los de\(AA^{T}\) encontramos que las multiplicidades geométricas efectivamente deben coincidir.

    En cuanto a la declaración de rango, discernimos de la Ecuación que si\(\lambda_{j} > 0\) entonces\(x_{j,k} \in \mathscr{R}(A^{T}A)\). La unión de estos vectores constituye de hecho una base para\(\mathscr{R}(A^{T}A)\), pues cualquier cosa ortogonal a cada uno de estos se encuentra\(x_{j,k}\) necesariamente en el espacio propio correspondiente a un valor propio cero, es decir, in\(\mathscr{N}(A^{T}A)\). De\(\mathscr{R}(A^{T}A) = \mathscr{R}(A^T)\) lo que se deduce eso\(\dim \mathscr{R}(A^{T}A) = r \dim \mathscr{R} A^{T} ⁢A = r\) y de ahí la\(n_{j}\), para\(\lambda_{j} > 0\), suma a\(r\).

    Ahora reunamos algunas de las piezas separadas de la prueba. Para empezar, ordenamos los valores propios\(A^{T}A\) de alto a bajo,

    \[\lambda_{1} > \lambda_{2} > \cdots > \lambda_{h} \nonumber\]

    y escribir

    \[A^{T} A = X \Lambda_{n} X^T \nonumber\]

    donde

    \[\forall X_{j} = \{x_{j,1}, \cdots, x_{j, n_{j}}\} : (X = \{X_{1}, \cdots, X_{h}\}) \nonumber\]

    y\(\Lambda_{n}\) es la matriz\(n-by-n\) diagonal con\(\lambda_{1}\) en las primeras\(n_{1}\) ranuras,\(\lambda_{2}\) en las próximas\(n_{2}\) ranuras, etc. de manera similar

    \[AA^{T} = Y \Lambda_{m} Y^T \nonumber\]

    donde

    \[\forall Y_{j} = \{y_{j,1}, \cdots, y_{j, n_{j}}\} : (Y = \{Y_{1}, \cdots, Y_{h}\}) \nonumber\]

    y\(\Lambda_{m}\) es la matriz diagonal mmmm con\(\lambda_{1}\) en las primeras\(n_{1}\) ranuras,\(\lambda_{2}\) en las siguientes\(n_{2}\) ranuras, etc. los\(y_{j, k}\) fueron definidos en Ecuación bajo el supuesto de que\(\lambda_{j} > 0\). Si se\(\lambda_{j} = 0\) deja\(Y_{j}\) denotar una base ortonormal para\(\mathscr{N}(AA^{T})\). Por último, llame

    \[\sigma_{j} = \sqrt{\lambda_{j}} \nonumber\]

    y dejar\(\Sigma\) denotar la matriz m-por-n matriz diagonal con\(\sigma_{1}\) en las primeras\(n_{1}\) ranuras,\(\sigma_{2}\) en las siguientes\(n_{2}\) ranuras, etc. observe que

    \[\Sigma^{T} \Sigma = \Lambda_{n} \nonumber\]

    \[\Sigma \Sigma^{T} = \Lambda_{m} \nonumber\]

    Ahora reconoce que la ecuación puede ser escrita

    \[Ax_{j,k} = \sigma_{j} y_{j,k} \nonumber\]

    y que esta es simplemente la versión columna por columna de

    \[AX = Y\Sigma \nonumber\]

    Como\(XX^{T} = I\) podemos multiplicar a través (desde la derecha) por\(X^{T}\) y llegar a la descomposición del valor singular de\(A\)

    \[A = Y \Sigma X^{T} \nonumber\]

    Confirmemos esto en la\(A\) matriz en Ecuación. Tenemos

    \[\Lambda_{4} = \begin{pmatrix} {2}&{0}&{0}&{0}\\ {0}&{1}&{0}&{0}\\ {0}&{0}&{1}&{0}\\ {0}&{0}&{0}&{0} \end{pmatrix} \nonumber\]

    \[X = \frac{1}{\sqrt{2}} \begin{pmatrix} {-1}&{0}&{0}&{1}\\ {0}&{\sqrt{2}}&{0}&{0}\\ {1}&{0}&{0}&{1}\\ {0}&{0}&{\sqrt{2}}&{0} \end{pmatrix} \nonumber\]

    \[\Lambda_{3} = \begin{pmatrix} {2}&{0}&{0}\\ {0}&{1}&{0}\\ {0}&{0}&{1} \end{pmatrix} \nonumber\]

    \[Y = \begin{pmatrix} {0}&{1}&{0}\\ {1}&{0}&{0}\\ {0}&{0}&{1} \end{pmatrix} \nonumber\]

    De ahí

    \[\Lambda = \begin{pmatrix} {\sqrt{2}}&{0}&{0}&{0}\\ {0}&{1}&{0}&{0}\\ {0}&{0}&{1}&{0} \end{pmatrix} \nonumber\]

    y así\(A = Y \Sigma X^T\) dice que\(A\) debería coincidir con

    \[\begin{pmatrix} {0}&{1}&{0}\\ {1}&{0}&{0}\\ {0}&{0}&{1} \end{pmatrix} \begin{pmatrix} {\sqrt{2}}&{0}&{0}&{0}\\ {0}&{1}&{0}&{0}\\ {0}&{0}&{1}&{0} \end{pmatrix} \begin{pmatrix} {-\frac{1}{\sqrt{2}}}&{0}&{0}&{\frac{1}{\sqrt{2}}}\\ {0}&{1}&{0}&{0}\\ {0}&{0}&{0}&{1}\\ {\frac{1}{\sqrt{2}}}&{0}&{\frac{1}{\sqrt{2}}}&{0} \end{pmatrix}\]

    Esto de hecho concuerda con\(A\). También está de acuerdo (hasta firmar cambios en las columnas de\(X\) con lo que se recibe al escribir [Y, SIG, X] = scd (A) en Matlab.

    Ahora pregunta qué obtenemos por nuestros problemas. Expreso el primer dividendo como una proposición que me parece una versión cuantitativa del teorema fundamental del álgebra lineal.

    Proposición

    Si\(Y \Sigma X^T\) es el valor singular descomposición de\(A\) entonces

    1. El rango de\(A\), llámalo\(r\), es el número de elementos distintos de cero en\(\Sigma\)
    2. Las primeras\(r\) columnas de\(X\) constituyen una base ortonormal para\(\mathscr{R}(A^T)\). Las\(n-r\) últimas columnas de\(X\) constituyen una base ortonormal para\(\mathscr{N}(A)\)
    3. Las primeras\(r\) columnas de\(Y\) constituyen una base ortonormal para\(\mathscr{R}(A)\). Las\(m-r\) últimas columnas de\(Y\) constituyen una base ortonormal para\(\mathscr{N}(A^T)\)

    Ahora vamos a 'resolver'\(A \textbf{x} = \textbf{b}\) con la ayuda de la pseudo-inversa de\(A\). Conoces lo 'correcto' que hay que hacer, es decir, corresponder todos los valores singulares distintos de cero. Porque no\(m\) es necesariamente también\(n\) debemos tener cuidado con las dimensiones. Para ser precisos, vamos a\(\Sigma^{+}\) denotar la\(n-by-m\) matriz cuyos primeros elementos\(n_{1}\) diagonales son\(\frac{1}{\sigma_{1}}\), cuyos siguientes elementos\(n_{2}\) diagonales son\(\frac{1}{\sigma_{2}}\) y así sucesivamente. En el caso de que\(\sigma_{h} = 0\), establezca los elementos\(n_{h}\) diagonales finales de\(\Sigma^{+}\) a cero. Ahora bien, se define la pseudo-inversa\(A\) de ser

    \[A^{+} \equiv X \Sigma^{+}Y^{T} \nonumber\]

    En el caso de eso\(A\) es que aparece en la Ecuación encontramos

    \[\Sigma^{+} = \begin{pmatrix} {\sqrt{2}}&{0}&{0}\\ {0}&{1}&{0}\\ {0}&{0}&{1}\\ {0}&{0}&{0} \end{pmatrix} \nonumber\]

    y así

    \[\begin{pmatrix} {-\frac{1}{\sqrt{2}}}&{0}&{0}&{\frac{1}{\sqrt{2}}}\\ {0}&{1}&{0}&{0}\\ {0}&{0}&{0}&{1}\\ {\frac{1}{\sqrt{2}}}&{0}&{\frac{1}{\sqrt{2}}}&{0} \end{pmatrix} \begin{pmatrix} {\frac{1}{\sqrt{2}}}&{0}&{0}\\ {0}&{1}&{0}\\ {0}&{0}&{1}\\ {0}&{0}&{0} \end{pmatrix} \begin{pmatrix} {0}&{1}&{0}\\ {1}&{0}&{0}\\ {0}&{0}&{1} \end{pmatrix}\]

    por lo tanto

    \[A^{+} = \begin{pmatrix} {0}&{\frac{-1}{2}}&{0}\\ {1}&{0}&{0}\\ {0}&{\frac{1}{2}}&{0}\\ {0}&{0}&{1} \end{pmatrix} \nonumber\]

    de acuerdo con lo que aparece de pinv (A). Investiguemos ahora el sentido en el que\(A^{+}\) es la inversa de\(A\). Supongamos eso\(b \in \mathbb{R}^m\) y que deseamos resolver\(A \textbf{⁢x} = \textbf{b}\). Sospechamos que\(A^{+}⁢b\) debería ser un buen candidato. Observe por Ecuación que

    \[(A^{T}A)A^{+} b = X \Lambda_{n} X^{T} X \Sigma^{+}Y^{T} b \nonumber\]

    porque\(X^{T}X = I\)

    \[(A^{T}A)A^{+} b = X \Lambda_{n} \Sigma^{+}Y^{T} b \nonumber\]

    \[(A^{T}A)A^{+} b = X \Sigma^{T} \Sigma \sigma^{+} Y^{T} b \nonumber\]

    porque\(\Sigma^{T} \Sigma \Sigma^{+} = \Sigma^{T}\)

    \[(A^{T}A)A^{+} b = X \Sigma^{T} Y^{T} b \nonumber\]

    \[(A^{T}A)A^{+} b = A^{T} b \nonumber\]

    es decir,\(A^{+}b\) satisface el problema de mínimos cuadrados\(A^{T}Ax = A^{T} b\).


    This page titled 11.1: La descomposición del valor singular is shared under a CC BY 1.0 license and was authored, remixed, and/or curated by Steve Cox via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.