7.1: Matrices simétricas y varianza
- Page ID
- 115703
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)
( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\id}{\mathrm{id}}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\kernel}{\mathrm{null}\,}\)
\( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\)
\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\)
\( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)
\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)
\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)
\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vectorC}[1]{\textbf{#1}} \)
\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)
\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)
\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)En esta sección, revisaremos la teoría de los valores propios y vectores propios para la clase especial de matrices que son simétricas, lo que significa que la matriz es igual a su transposición. Esta comprensión de las matrices simétricas nos permitirá formar descomposiciones de valores singulares más adelante en el capítulo. También comenzaremos a estudiar la varianza en esta sección, ya que proporciona un contexto importante que motiva algunos de nuestros trabajos posteriores.
Para comenzar, recuerda que si\(A\) es una matriz cuadrada, decimos que\(\mathbf v\) es un vector propio de\(A\) con autovalor asociado\(\lambda\) si\(A\mathbf v=\lambda\mathbf v\text{.}\) En otras palabras, para estos vectores especiales, la operación de multiplicación matricial simplifica a multiplicación escalar.
Vista previa Actividad 7.1.1.
Esta actividad de vista previa nos recuerda cómo se puede utilizar una base de vectores propios para relacionar una matriz cuadrada con una diagonal.
- Supongamos que\(D=\begin{bmatrix} 3 & 0 \\ 0 & -1 \end{bmatrix}\) y eso\(\mathbf e_1 = \twovec10\) y\(\mathbf e_2=\twovec01\text{.}\)
- Esbozar los vectores\(\mathbf e_1\) y\(D\mathbf e_1\) en el lado izquierdo de la Figura 7.1.1.
- Esbozar los vectores\(\mathbf e_2\) y\(D\mathbf e_2\) en el lado izquierdo de la Figura 7.1.1.
- Esboza los vectores\(\mathbf e_1+2\mathbf e_2\) y\(D(\mathbf e_1+2\mathbf e_2)\) en el lado izquierdo.
- Dar una descripción geométrica de la transformación matricial definida por\(D\text{.}\)
- Ahora supongamos que tenemos vectores\(\mathbf v_1=\twovec11\) y\(\mathbf v_2=\twovec{-1}1\) y eso\(A\) es una\(2\times2\) matriz tal que
\ begin {ecuación*} A\ mathbf v_1 = 3\ mathbf v_1,\ hspace {24pt} A\ mathbf v_2 = -\ mathbf v_2. \ end {ecuación*}
Es decir,\(\mathbf v_1\) y\(\mathbf v_2\) son vectores propios de\(A\text{.}\)
- Esbozar los vectores\(\mathbf v_1\) y\(A\mathbf v_1\) en el lado derecho de la Figura 7.1.1.
- Esbozar los vectores\(\mathbf v_2\) y\(A\mathbf v_2\) en el lado derecho de la Figura 7.1.1.
- Esboza los vectores\(\mathbf v_1+2\mathbf v_2\) y\(A(\mathbf v_1+2\mathbf v_2)\) en el lado derecho.
- Dar una descripción geométrica de la transformación matricial definida por\(A\text{.}\)
- ¿De qué manera las transformaciones matriciales se definen\(D\) y se\(A\) relacionan entre sí?
La actividad de vista previa nos pide comparar las transformaciones matriciales definidas por dos matrices, una matriz diagonal\(D\) y una matriz\(A\) cuyos vectores propios se nos dan. La transformación definida por\(D\) se estira horizontalmente por un factor de 3 y se refleja en el eje horizontal, como se muestra en la Figura 7.1.2
Por el contrario, la transformación definida por\(A\) estira el plano por un factor de 3 en la dirección de\(\mathbf v_1\) y se refleja en la línea definida por\(\mathbf v_1\text{,}\) como se ve en la Figura 7.1.3.
De esta manera, vemos que las transformaciones matriciales definidas por estas dos matrices son equivalentes después de una\(45^\circ\) rotación. Esta noción de equivalencia es lo que denominamos similitud en la Sección 4.3. Allí se consideró una\(m\times m\) matriz cuadrada\(A\) que proporcionaba suficientes vectores propios para formar una base de\(\mathbb R^m\text{.}\) Por ejemplo, supongamos que podemos construir una base para\(\mathbb R^m\) usar vectores propios\(\mathbf v_1,\mathbf v_2,\ldots,\mathbf v_m\) que tienen valores propios asociados\(\lambda_1,\lambda_2,\ldots,\lambda_m\text{.}\) Formando las matrices,
nos permite escribir\(A = PDP^{-1}\text{.}\) Esto es lo que significa\(A\) para ser diagonalizable.
Para el ejemplo en la actividad de vista previa, nos llevan a formar
lo que nos dice que\(A=PDP^{-1} = \begin{bmatrix} 1 & 2 \\ 2 & 1 \end{bmatrix} \text{.}\)
Observe que la matriz\(A\) tiene vectores propios\(\mathbf v_1\) y\(\mathbf v_2\) que no solo forman una base para\(\mathbb R^2\) sino que, de hecho, forman una base ortogonal para\(\mathbb R^2\text{.}\) Dado el papel destacado que desempeñan las bases ortogonales en el último capítulo, nos gustaría entender qué condiciones en una matriz permiten nos para formar una base ortogonal de vectores propios.
Matrices simétricas y diagonalización ortogonal
Empecemos por mirar algunos ejemplos en la siguiente actividad.
Actividad 7.1.2.
Recuerde que el comando Sage a.Right_EigenMatrix ()
intenta encontrar una base para\(\mathbb R^m\) constar de vectores propios de\(A\text{.}\) En particular, D, P = a.Right_EigenMatrix ()
proporciona una matriz diagonal\(D\) construida a partir de los autovalores de\(A\) con las columnas de \(P\)que contiene los vectores propios asociados.
- Para cada una de las siguientes matrices, determine si existe una base para\(\mathbb R^2\) constar de vectores propios de esa matriz. Cuando exista tal base, forme las matrices\(P\)\(D\) y verifique que la matriz sea igual\(PDP^{-1}\text{.}\)
- \(\begin{bmatrix} 3 & -4 \\ 4 & 3 \end{bmatrix} \text{.}\)
- \(\begin{bmatrix} 1 & 1 \\ -1 & 3 \end{bmatrix} \text{.}\)
- \(\begin{bmatrix} 1 & 0\\ -1 & 2 \end{bmatrix} \text{.}\)
- \(\begin{bmatrix} 9 & 2 \\ 2 & 6 \end{bmatrix} \text{.}\)
- ¿Para cuál de estos ejemplos es posible formar una base ortogonal para\(\mathbb R^2\) constar de vectores propios?
- Para cualquier matriz de este tipo\(A\text{,}\) encontrar una base ortonormal de vectores propios y explicar por qué\(A=QDQ^{-1}\) dónde\(Q\) está una matriz ortogonal.
- Por último, explique por qué\(A=QDQ^T\) en este caso.
- Cuándo\(A=QDQ^T\text{,}\) cuál es la relación entre\(A\) y\(A^T\text{?}\)
Los ejemplos de esta actividad ilustran un abanico de posibilidades. Primero, una matriz puede tener valores propios complejos, en cuyo caso no será diagonalizable. Segundo, aunque todos los valores propios sean reales, puede que no haya una base de valores propios si la dimensión de uno de los espacios propios es menor que la multiplicidad algebraica del valor propio asociado.
Nos interesan las matrices para las que existe una base ortogonal de vectores propios. Cuando esto sucede, podemos crear una base ortonormal de vectores propios escalando cada vector propio en la base para que su longitud sea 1. Poner estos vectores ortonormales en una matriz\(Q\) produce una matriz ortogonal, lo que significa que entonces\(Q^T=Q^{-1}\text{.}\) tenemos
En este caso, decimos que\(A\) es ortogonalmente diagonalizable.
Si existe una base ortonormal\(\mathbb R^n\) consistente en vectores propios de la matriz\(A\text{,}\) decimos que\(A\) es ortogonalmente diagonalizable. En particular, podemos escribir\(A=QDQ^T\) dónde\(Q\) está una matriz ortogonal.
Cuando\(A\) es ortogonalmente diagonalizable, observe que
Es decir, cuando\(A\) es ortogonalmente diagonalizable,\(A=A^T\) y decimos que\(A\) es simétrico.
Una matriz simétrica\(A\) es aquella para la cual\(A=A^T\text{.}\)
Consideremos la matriz\(A = \begin{bmatrix} -2 & 36 \\ 36 & -23 \end{bmatrix} \text{,}\) que tiene vectores propios\(\mathbf v_1 = \twovec43\text{,}\) con el valor propio asociado\(\lambda_1=25\text{,}\) y\(\mathbf v_2=\twovec{3}{-4}\text{,}\) con el valor propio asociado\(\lambda_2=-50\text{.}\) Observe que\(\mathbf v_1\) y\(\mathbf v_2\) son ortogonales para que podamos formar una base ortonormal de vectores propios:
De esta manera, construimos las matrices
y tenga en cuenta que\(A = QDQ^T\text{.}\)
Obsérvese también que, como se esperaba,\(A\) es simétrico; es decir,\(A=A^T\text{.}\)
Si\(A = \begin{bmatrix} 1 & 2 \\ 2 & 1 \\ \end{bmatrix} \text{,}\) entonces hay una base ortogonal de vectores propios\(\mathbf v_1 = \twovec11\) y\(\mathbf v_2 = \twovec{-1}1\) con valores propios\(\lambda_1=3\) y\(\lambda_2=-1\text{.}\) Usando estos vectores propios, formamos la matriz ortogonal\(Q\) que consiste en vectores propios y la matriz diagonal\(D\text{,}\) donde
Entonces tenemos\(A = QDQ^T\text{.}\)
Observe que la transformación matricial representada por\(Q\) es una\(45^\circ\) rotación mientras que la representada por\(Q^T=Q^{-1}\) es una\(-45^\circ\) rotación. Por lo tanto, si multiplicamos un vector\(\mathbf x\) por\(A\text{,}\) podemos descomponer la multiplicación como
Es decir, primero\(\mathbf x\) giramos para\(-45^\circ\text{,}\) luego aplicar la matriz diagonal\(D\text{,}\) que se estira y refleja, y finalmente rotar por\(45^\circ\text{.}\) Podemos visualizar esta factorización como en la Figura 7.1.8.
De hecho, una imagen similar se mantiene cada vez que la matriz\(A\) es ortogonalmente diagonalizable.
Hemos visto que una matriz ortogonalmente diagonalizable debe ser simétrica. De hecho, resulta que cualquier matriz simétrica es ortogonalmente diagonalizable. Registramos este hecho en el siguiente teorema.
Teorema 7.1.9. El Teorema Espectral.
La matriz\(A\) es ortogonalmente diagonalizable si y sólo si\(A\) es simétrica.
Actividad 7.1.3.
Cada una de las siguientes matrices es simétrica por lo que el Teorema Espectral nos dice que cada una es ortogonalmente diagonalizable. El objetivo de esta actividad es encontrar una diagonalización ortogonal para cada matriz.
Para comenzar, encontrar una base para cada espacio propio. Utilice esta base para encontrar una base ortogonal para cada espacio propio y juntar estas bases para encontrar una base ortogonal para\(\mathbb R^m\) constar de vectores propios. Utilice esta base para escribir una diagonalización ortogonal de la matriz.
- \(\begin{bmatrix} 0 & 2 \\ 2 & 3 \end{bmatrix} \text{.}\)
- \(\begin{bmatrix} 4 & -2 & 14 \\ -2 & 19 & -16 \\ -14 & -16 & 13 \end{bmatrix} \text{.}\)
- \(\begin{bmatrix} 5 & 4 & 2 \\ 4 & 5 & 2 \\ 2 & 2 & 2 \end{bmatrix} \text{.}\)
- Considere la matriz\(A = B^TB\) donde\(B = \begin{bmatrix} 0 & 1 & 2 \\ 2 & 0 & 1 \end{bmatrix} \text{.}\) Explique cómo sabemos que\(A\) es simétrico y luego encontrar una diagonalización ortogonal de\(A\text{.}\)
Como ilustran los ejemplos de la Actividad 7.1.3, el Teorema Espectral implica una serie de cosas. Es decir, si\(A\) es una\(m\times m\) matriz simétrica, entonces
- los valores propios de\(A\) son reales.
- hay una base de\(\mathbb R^m\) que consiste en vectores propios.
- dos vectores propios que están asociados a diferentes valores propios son ortogonales.
Aquí no vamos a justificar los dos primeros hechos ya que eso nos llevaría bastante lejos. No obstante, será útil explicar el tercer hecho. Para comenzar, observe lo siguiente:
Este es un dato útil que vamos a emplear bastante en el futuro así que vamos a resumirlo en la siguiente proposición.
Para cualquier matriz\(A\text{,}\) tenemos
En particular, si\(A\) es simétrico, entonces
Supongamos que tenemos una matriz simétrica que tiene vectores propios\(\mathbf v_1\text{,}\) con valor propio asociado\(\lambda_1=3\text{,}\) y\(\mathbf v_2\text{,}\) con autovalor asociado\(\lambda_2 = 10\text{.}\) Observe que
Ya que\((A\mathbf v_1)\cdot\mathbf v_2 = \mathbf v_1\cdot(A\mathbf v_2)\) por la Proposición 7.1.10, tenemos
lo que sólo puede suceder si\(\mathbf v_1\cdot\mathbf v_2 = 0\text{.}\) Por lo tanto,\(\mathbf v_1\) y\(\mathbf v_2\) son ortogonales.
De manera más general, el mismo argumento muestra que dos vectores propios de una matriz simétrica asociados a valores propios distintos son ortogonales.
Varianza
Muchas de las ideas que encontraremos en este capítulo, como las diagonalizaciones ortogonales, se pueden aplicar al estudio de datos. De hecho, puede ser útil entender estas aplicaciones porque proporcionan un contexto importante en el que las ideas matemáticas tienen un significado más concreto y su motivación aparece más claramente. Por esa razón, ahora introduciremos el concepto estadístico de varianza como una forma de conocer la importancia de las diagonalizaciones ortogonales.
Dado un conjunto de puntos de datos, su varianza mide qué tan dispersos están los puntos. En la siguiente actividad se analizan algunos ejemplos.
Actividad 7.1.4.
Comenzaremos con un conjunto de tres puntos de datos
- Encuentra el centroide, o media,\(\overline{\mathbf d} = \frac1N\sum_j \mathbf d_j\text{.}\) Luego grafica los puntos de datos y su centroide en la Figura 7.1.12.
Figura 7.1.12. Trazar aquí los puntos de datos y su centroide. - Observe que el centroide se encuentra en el centro de los datos por lo que la dispersión de los datos se medirá por qué tan lejos están los puntos del centroide. Para simplificar nuestros cálculos, encuentre los puntos de datos degradados
\ begin {ecuación*}\ dtil_j =\ mathbf d_j -\ overline {\ mathbf d}\ end {ecuación*}
y graficarlos en la Figura 7.1.13.
Figura 7.1.13. Trazar\(\dtil_j\) aquí los puntos de datos degradados. - Ahora que los datos han sido degradados, definiremos la varianza total como el promedio de los cuadrados de las distancias desde el origen; es decir, la varianza total es
\ begin {ecuación*} V =\ frac 1N\ sum_j~|\ dtil_j|^2. \ end {ecuación*}
Encuentra la varianza total\(V\) para nuestro conjunto de tres puntos.
- Ahora graficar las proyecciones de los datos degradados sobre los\(y\) ejes\(x\) y usando la Figura 7.1.14. Después encuentra las varianzas\(V_x\) y\(V_y\) de los puntos proyectados.
Figura 7.1.14. Trazar las proyecciones de los datos deameanados sobre los\(y\) ejes\(x\) y. - ¿Cuál de las varianzas,\(V_x\) y\(V_y\text{,}\) es mayor y cómo explica su respuesta la trama de los puntos proyectados?
- ¿Qué notas sobre la relación entre\(V\text{,}\)\(V_x\text{,}\) y\(V_y\text{?}\) ¿Cómo explica esta relación el teorema de Pitágoras?
- Trazar las proyecciones de los puntos de datos degradados en las líneas definidas por vectores\(\mathbf v_1=\twovec11\) y\(\mathbf v_2=\twovec{-1}1\) utilizando la Figura 7.1.15. Entonces encuentra las varianzas\(V_{\mathbf v_1}\) y\(V_{\mathbf v_2}\) de estos puntos proyectados.
Figura 7.1.15. Trazar las proyecciones de los datos deameaned sobre las líneas definidas por\(\mathbf v_1\) y\(\mathbf v_2\text{.}\) - ¿Cuál es la relación entre la varianza total\(V\) y\(V_{\mathbf v_1}\) y\(V_{\mathbf v_2}\text{?}\) ¿Cómo explica tu respuesta el teorema de Pitágoras?
Observe que la varianza goza de una propiedad de aditividad. Consideremos, por ejemplo, la situación en la que nuestros puntos de datos son bidimensionales y supongamos que los puntos degradados son\(\dtil_j=\twovec{\widetilde{x}_j}{\widetilde{y}_j}\text{.}\) Tenemos
Si tomamos el promedio sobre todos los puntos de datos, encontramos que la varianza total\(V\) es la suma de las varianzas en las\(y\) direcciones\(x\) y:
De manera más general, supongamos que tenemos una base ortonormal\(\mathbf u_1\) y\(\mathbf u_2\text{.}\) si proyectamos los puntos degradados sobre la línea definida por\(\mathbf u_1\text{,}\) obtenemos los puntos\((\dtil_j\cdot\mathbf u_1)\mathbf u_1\) para que
Para cada uno de nuestros puntos de datos degradados, la Fórmula de Proyección nos dice que
Entonces tenemos
ya\(\mathbf u_1\cdot\mathbf u_2 = 0\text{.}\) Cuando promediamos sobre todos los puntos de datos, encontramos que la varianza total\(V\) es la suma de las varianzas en las\(\mathbf u_2\) direcciones\(\mathbf u_1\) y. Esto lleva a la siguiente proposición, en la que esta observación se expresa de manera más general.
Si\(W\) es un subespacio con base ortonormal\(\mathbf u_1,\mathbf u_2,\ldots, \mathbf u_n\text{,}\) entonces la varianza de los puntos proyectados\(W\) es la suma de las varianzas en las\(\mathbf u_j\) direcciones:
La siguiente actividad demuestra una manera más eficiente de encontrar la varianza\(V_{\mathbf u}\) en una dirección particular y conecta nuestra discusión de varianza con matrices simétricas.
Actividad 7.1.5.
Volvamos al conjunto de datos de la actividad anterior en la que tenemos puntos de datos degradados:
Nuestro objetivo es calcular la varianza\(V_{\mathbf u}\) en la dirección definida por un vector unitario\(\mathbf u\text{.}\)
Para comenzar, formar la matriz de datos degradados
y supongamos que\(\mathbf u\) es un vector unitario.
- Escribe el vector\(A^T\mathbf u\) en términos de los productos de punto\(\dtil_j\cdot\mathbf u\text{.}\)
- Explicar por qué\(V_{\mathbf u} = \frac13|A^T\mathbf u|^2\text{.}\)
- Aplicar la Proposición 7.1.10 para explicar por qué
\ begin {ecuación*} V_ {\ mathbf u} =\ Frac13|a^t\ mathbf u|^2 =\ frac13 (A^T\ mathbf u)\ cdot (A^T\ mathbf u) =\ mathbf u^t\ izquierda (\ frac13 AA^T\ derecha)\ mathbf u.\ end {ecuación*}
- En general, la matriz\(C=\frac1N~AA^T\) se llama la matriz de covarianza del conjunto de datos, y es útil porque la varianza\(V_{\mathbf u} = \mathbf u\cdot(C\mathbf u)\text{,}\) como acabamos de ver. Encuentra la matriz\(C\) para nuestro conjunto de datos con tres puntos.
- Utilice la matriz de covarianza para encontrar la varianza\(V_{\mathbf u_1}\) cuando\(\mathbf u_1=\twovec{1/\sqrt{5}}{2/\sqrt{5}}\text{.}\)
- Utilice la matriz de covarianza para encontrar la varianza\(V_{\mathbf u_2}\) cuando\(\mathbf u_2=\twovec{-2/\sqrt{5}}{1/\sqrt{5}}\text{.}\)\(\mathbf u_1\) Since y\(\mathbf u_2\) son ortogonales, verificar que la suma de\(V_{\mathbf u_1}\) y\(V_{\mathbf u_2}\) da la varianza total.
- Explicar por qué la matriz de covarianza\(C\) es una matriz simétrica.
Esta actividad introdujo la matriz de covarianza de un conjunto de datos, que se define como\(C=\frac1N~AA^T\) donde\(A\) está la matriz de puntos de datos degradados. Observe que
lo que nos dice que\(C\) es simétrico. En particular, sabemos que es ortogonalmente diagonalizable, una observación que jugará un papel importante en el futuro.
Esta actividad también demuestra la significancia de la matriz de covarianza, la cual se registra en la siguiente proposición.
Si\(C\) es la matriz de covarianza asociada a un conjunto de datos degradados y\(\mathbf u\) es un vector unitario, entonces la varianza de los puntos degradados proyectados sobre la línea definida por\(\mathbf u\) es
Nuestro objetivo en el futuro será encontrar direcciones\(\mathbf u\) donde la varianza sea lo más grande posible y direcciones donde sea lo más pequeña posible. La siguiente actividad demuestra por qué esto es útil.
Actividad 7.1.6.
- Al evaluar la siguiente celda de Sage, se carga un conjunto de datos que consta de 100 puntos de datos degradados y se proporciona una gráfica de ellos. También proporciona la matriz de datos degradados\(A\text{.}\)
Cuáles son las dimensiones de la matriz de covarianza\(C\text{?}\) Encuentra\(C\) y verifica tu respuesta.
- Al inspeccionar visualmente los datos, determinar cuál es más grande,\(V_x\) o\(V_y\text{.}\) Luego calcula ambas cantidades para verificar tu respuesta.
- Cuál es la varianza total\(V\text{?}\)
- ¿En aproximadamente qué dirección es mayor la varianza? Elija un vector razonable\(\mathbf u\) que apunte aproximadamente en esa dirección y encuentre\(V_{\mathbf u}\text{.}\)
- ¿En aproximadamente qué dirección es la varianza más pequeña? Elija un vector razonable\(\mathbf w\) que apunte aproximadamente en esa dirección y encuentre\(V_{\mathbf w}\text{.}\)
- ¿Cómo se relacionan entre sí las direcciones\(\mathbf u\) y\(\mathbf w\) en las dos últimas partes de este problema? ¿Por qué se mantiene esta relación?
Esta actividad ilustra cómo la varianza puede identificar una línea a lo largo de la cual se concentran los datos. Cuando los datos se encuentran principalmente a lo largo de una línea definida por un vector,\(\mathbf u_1\text{,}\) entonces la varianza en esa dirección será grande mientras que la varianza en una dirección ortogonal\(\mathbf u_2\) será pequeña.
Recuerde que la varianza es aditiva, según la Proposición 7.1.16, de manera que si\(\mathbf u_1\) y\(\mathbf u_2\) son vectores unitarios ortogonales, entonces la varianza total es
Por lo tanto, si\(\mathbf u_1\) elegimos ser la dirección donde\(V_{\mathbf u_1}\) es un máximo, entonces\(V_{\mathbf u_2}\) será un mínimo.
En la siguiente sección, utilizaremos una diagonalización ortogonal de la matriz de covarianza\(C\) para encontrar las direcciones que tienen las varianzas mayores y más pequeñas. De esta manera, podremos determinar cuándo se concentran los datos a lo largo de una línea o subespacio.
Resumen
En esta sección se exploraron las matrices simétricas y la varianza. En particular, vimos que
- Una matriz\(A\) es ortogonalmente diagonalizable si existe una base ortonormal de vectores propios. En particular, podemos escribir\(A=QDQ^T\text{,}\) donde\(D\) es una matriz diagonal de valores propios y\(Q\) es una matriz ortogonal de vectores propios.
- El Teorema Espectral nos dice que una matriz\(A\) es ortogonalmente diagonalizable si y solo si es simétrica; es decir,\(A=A^T\text{.}\)
- La varianza de un conjunto de datos se puede calcular usando la matriz de covarianza\(C=\frac1N~AA^T\text{,}\) donde\(A\) está la matriz de puntos de datos degradados. En particular, la varianza de los puntos de datos degradados proyectados sobre la línea definida por el vector unitario\(\mathbf u\) es\(V_{\mathbf u} = \mathbf u\cdot C\mathbf u\text{.}\)
- La varianza es aditiva para que si\(W\) es un subespacio con base ortonormal\(\mathbf u_1, \mathbf u_2,\ldots,\mathbf u_n\text{,}\) entonces
\ begin {ecuación*} V_W = V_ {\ mathbf u_1} + V_ {\ mathbf u_2} +\ ldots + V_ {\ mathbf u_n}. \ end {ecuación*}
Ejercicios 7.1.4Ejercicios
Para cada una de las siguientes matrices, encuentre los valores propios y una base para cada espacio propio. Determinar si la matriz es diagonalizable y, de ser así, encontrar una diagonalización. Determinar si la matriz es ortogonalmente diagonalizable y, de ser así, encontrar una diagonalización ortogonal.
- \(\begin{bmatrix} 5 & 1 \\ -1 & 3 \\ \end{bmatrix} \text{.}\)
- \(\displaystyle \begin{bmatrix} 0 & 1 \\ 1 & 0 \\ \end{bmatrix}\)
- \(\displaystyle \begin{bmatrix} 1 & 0 & 0 \\ 2 & -2 & 0 \\ 0 & 1 & 4 \\ \end{bmatrix}\)
- \(\displaystyle \begin{bmatrix} 2 & 5 & -4\\ 5 & -7 & 5 \\ -4 & 5 & 2 \\ \end{bmatrix}\)
Considerar la matriz\(A = \begin{bmatrix} 1 & 2 & 2 \\ 2 & 1 & 2 \\ 2 & 2 & 1 \\ \end{bmatrix}\) Los valores propios de\(A\) son\(\lambda_1=5\text{,}\)\(\lambda_2=-1\text{,}\) y\(\lambda_3 = -1\text{.}\)
- \(A\)Explique por qué es ortogonalmente diagonalizable.
- Encontrar una base ortonormal para el espacio propio\(E_5\text{.}\)
- Encontrar una base para el espacio propio\(E_{-1}\text{.}\)
- Ahora encuentra una base ortonormal para\(E_{-1}\text{.}\)
- Encuentra matrices\(D\) y\(Q\) tal que\(A=QDQ^T\text{.}\)
Encuentre una diagonalización ortogonal, si existe, para las siguientes matrices.
- \(\begin{bmatrix} 11 & 4 & 12 \\ 4 & -3 & -16 \\ 12 & -16 & 1 \end{bmatrix} \text{.}\)
- \(\begin{bmatrix} 1 & 0 & 2 \\ 0 & 1 & 2 \\ -2 & -2 & 1 \\ \end{bmatrix} \text{.}\)
- \(\begin{bmatrix} 9 & 3 & 3 & 3\\ 3 & 9 & 3 & 3\\ 3 & 3 & 9 & 3\\ 3 & 3 & 3 & 9\\ \end{bmatrix} \text{.}\)
Supongamos que\(A\) es una\(m\times n\) matriz y que\(B=A^TA\text{.}\)
- \(B\)Explique por qué es ortogonalmente diagonalizable.
- Explicar por qué\(\mathbf v\cdot(B\mathbf v) = \len{A\mathbf v}^2\text{.}\)
- Supongamos que\(\mathbf u\) es un vector propio de\(B\) con valor propio asociado\(\lambda\) y que\(\mathbf u\) tiene longitud unitaria. Explicar por qué\(\lambda = \len{A\mathbf u}^2\text{.}\)
- Explicar por qué los valores propios de no\(B\) son negativos.
- Si la matriz de covarianza\(C\) está asociada a un conjunto de datos degradados, explique por qué los valores propios de no\(C\) son negativos.
Supongamos que tienes los puntos de datos
- Encuentra los puntos de datos degradados.
- Encuentra la varianza total\(V\) del conjunto de datos.
- Encuentra la varianza en la dirección\(\mathbf e_1 = \twovec10\) y la varianza en la dirección\(\mathbf e_2=\twovec01\text{.}\)
- Proyectar los puntos de datos degradados en la línea definida por\(\mathbf v_1=\twovec21\) y encontrar la varianza de estos puntos proyectados.
- Proyectar los puntos de datos degradados en la línea definida por\(\mathbf v_2=\twovec1{-2}\) y encontrar la varianza de estos puntos proyectados.
- ¿Cómo y por qué se relacionan los resultados de las dos últimas partes con la varianza total?
Supongamos que tiene seis puntos de datos bidimensionales dispuestos en la matriz
- Encuentre la matriz\(A\) de puntos de datos degradados y grafique los puntos en la Figura 7.1.18.
Figura 7.1.18. Una gráfica para los puntos de datos degradados. - Construye la matriz de covarianza\(C\) y explica por qué sabes que es ortogonalmente diagonalizable.
- Encuentra una diagonalización ortogonal de\(C\text{.}\)
- Esboza las líneas correspondientes a los dos vectores propios en la gráfica anterior.
- Encuentra las varianzas en las direcciones de los vectores propios.
Supongamos que\(C\) es la matriz de covarianza de un conjunto de datos degradados.
- Supongamos que\(\mathbf u\) es un vector propio de\(C\) con valor propio asociado\(\lambda\) y que\(\mathbf u\) tiene longitud unitaria. Explicar por qué\(V_{\mathbf u} = \lambda\text{.}\)
- Supongamos que la matriz de covarianza de un conjunto de datos degradados se puede escribir como\(C=QDQ^T\) donde
\ begin {ecuation*} Q =\ begin {bmatrix}\ mathbf u_1 &\ mathbf u_2\ end {bmatrix},\ hspace {24pt} D =\ begin {bmatrix} 10 & 0\\ 0 & 0\\ end {bmatrix}. \ end {ecuación*}
¿\(V_{\mathbf u_2}\text{?}\)Qué es lo que te dice esto sobre los datos degradados?
- Explique por qué la varianza total de un conjunto de datos es igual a la suma de los valores propios de la matriz de covarianza.
Determina si las siguientes afirmaciones son verdaderas o falsas y explica tu pensamiento.
- Si\(A\) es una matriz invertible, ortogonalmente diagonalizable, entonces también lo es\(A^{-1}\text{.}\)
- Si\(\lambda=2+i\) es un valor propio de\(A\text{,}\) entonces\(A\) no puede ser ortogonalmente diagonalizable.
- Si hay una base para\(\mathbb R^m\) constar de vectores propios de\(A\text{,}\) entonces\(A\) es ortogonalmente diagonalizable.
- Si\(\mathbf u\) y\(\mathbf v\) son vectores propios de una matriz simétrica asociados a los valores propios -2 y 3, entonces\(\mathbf u\cdot\mathbf v=0\text{.}\)
- Si\(A\) es una matriz cuadrada, entonces\(\mathbf u\cdot(A\mathbf v) = (A\mathbf u)\cdot\mathbf v\text{.}\)
Supongamos que\(A\) es una\(3\times3\) matriz simétrica no invertible que tiene vectores propios
y valores propios asociados\(\lambda_1 = 20\) y\(\lambda_2 = -4\text{.}\) Buscar matrices\(Q\) y\(D\) tal que\(A = QDQ^T\text{.}\)
Supongamos que\(W\) es un plano en\(\mathbb R^3\) y que\(P\) es la\(3\times3\) matriz que proyecta vectores ortogonalmente sobre\(W\text{.}\)
- \(P\)Explique por qué es ortogonalmente diagonalizable.
- ¿Cuáles son los valores propios de\(P\text{?}\)
- Explicar la relación entre los vectores propios de\(P\) y el plano\(W\text{.}\)