4.11: Ortogonalidad
( \newcommand{\kernel}{\mathrm{null}\,}\)
- Determinar si un conjunto dado es ortogonal u ortonormal.
- Determinar si una matriz dada es ortogonal.
- Dado un conjunto linealmente independiente, utilice el Proceso Gram-Schmidt para encontrar los conjuntos ortogonales y ortonormales correspondientes.
- Encuentra la proyección ortogonal de un vector sobre un subespacio.
- Encuentra la aproximación de mínimos cuadrados para una colección de puntos.
En esta sección, examinamos lo que significa que los vectores (y conjuntos de vectores) sean ortogonales y ortonormales. En primer lugar, es necesario revisar algunos conceptos importantes. Puede recordar las definiciones para el lapso de un conjunto de vectores y un conjunto lineal independiente de vectores. Incluimos las definiciones y ejemplos aquí para mayor comodidad.
La colección de todas las combinaciones lineales de un conjunto de vectores{→u1,⋯,→uk} enRn se conoce como el lapso de estos vectores y se escribe comospan{→u1,⋯,→uk}.
Llamamos a una colección de la formaspan{→u1,⋯,→uk} un subespacio deRn.
Considera el siguiente ejemplo.
Describir el lapso de los vectores→u=[110]T y→v=[320]T∈R3.
Solución
Se puede ver que cualquier combinación lineal de los vectores→u y→v produce un vector[xy0]T en elXY plano -.
Además, cada vector en elXY plano es de hecho una combinación lineal de los vectores→u y→v. Eso es porque[xy0]=(−2x+3y)[110]+(x−y)[320]
Así span{→u,→v} es precisamente elXY -plano.
El lapso de un conjunto de vectores enRn es lo que llamamos un subespacio deRn. Un subespacioW se caracteriza por la característica de que cualquier combinación lineal de vectoresW es nuevamente un vector contenido enW.
Otra propiedad importante de los conjuntos de vectores se llama independencia lineal.
Se dice que un conjunto de vectores distintos de cero{→u1,⋯,→uk} enRn es linealmente independiente si ningún vector en ese conjunto está en el lapso de los otros vectores de ese conjunto.
Aquí hay un ejemplo.
Considerar vectores→u=[110]T,→v=[320]T, y→w=[450]T∈R3. Verificar si el conjunto{→u,→v,→w} es linealmente independiente.
Solución
Ya verificamos en Ejemplo4.11.1 quespan{→u,→v} es elXY -plano. Dado que claramente también→w está en elXY plano -, entonces el conjunto no{→u,→v,→w} es linealmente independiente.
En términos de expansión, un conjunto de vectores es linealmente independiente si no contiene vectores innecesarios. En el ejemplo anterior se puede ver que el vector→w no ayuda a abarcar ningún vector nuevo que no esté ya en el lapso de los otros dos vectores. Sin embargo puedes verificar que el conjunto{→u,→v} es linealmente independiente, ya que no obtendrás elXY -plane como el span de un solo vector.
También podemos determinar si un conjunto de vectores es linealmente independiente examinando combinaciones lineales. Un conjunto de vectores es linealmente independiente si y solo si siempre que una combinación lineal de estos vectores sea igual a cero, se deduce que todos los coeficientes son iguales a cero. Es un buen ejercicio para verificar esta equivalencia, y esta última condición se suele utilizar como definición (equivalente) de independencia lineal.
Si un subespacio es abarcado por un conjunto linealmente independiente de vectores, entonces decimos que es una base para el subespacio.
QueV sea un subespacio deRn. Entonces{→u1,⋯,→uk} es una base paraV si se mantienen las siguientes dos condiciones.
- span{→u1,⋯,→uk}=V
- {→u1,⋯,→uk}es linealmente independiente
Así, el conjunto{→u,→v} de vectores de Ejemplo4.11.2 es una base paraXY -plane inR3 ya que es linealmente independiente y abarca elXY -plano.
Recordemos de las propiedades del punto producto de vectores que dos vectores→u y→v son ortogonales si→u⋅→v=0. Supongamos que un vector es ortogonal a un conjunto de expansión deRn. ¿Qué se puede decir de tal vector? Esta es la discusión en el siguiente ejemplo.
Vamos{→x1,→x2,…,→xk}∈Rn y supongamosRn=span{→x1,→x2,…,→xk}. Además, supongamos que existe un vector→u∈Rn para el cual→u⋅→xj=0 para todosj,1≤j≤k. ¿Qué tipo de vector es→u?
Solución
Escribe→u=t1→x1+t2→x2+⋯+tk→xk para algunost1,t2,…,tk∈R (esto es posible porque→x1,→x2,…,→xk spanRn).
Entonces
‖
Ya que \| \vec{u} \| ^2 =0, \| \vec{u} \| =0. Sabemos que \| \vec{u} \| =0 si y sólo si\vec{u}=\vec{0}_n. Por lo tanto,\vec{u}=\vec{0}_n. En conclusión, el único vector ortogonal a cada vector de un conjunto de expansión de\mathbb{R}^n es el vector cero.
Ahora podemos discutir qué se entiende por un conjunto ortogonal de vectores.
Dejar\{ \vec{u}_1, \vec{u}_2, \cdots, \vec{u}_m \} ser un conjunto de vectores en\mathbb{R}^n. Entonces este conjunto se llama un conjunto ortogonal si se mantienen las siguientes condiciones:
- \vec{u}_i \cdot \vec{u}_j = 0para todosi \neq j
- \vec{u}_i \neq \vec{0}para todosi
Si tenemos un conjunto ortogonal de vectores y normalizamos cada vector para que tengan longitud 1, el conjunto resultante se denomina conjunto ortonormal de vectores. Se pueden describir de la siguiente manera.
Un conjunto de vectores,\left\{ \vec{w}_{1},\cdots ,\vec{w}_{m}\right\} se dice que es un conjunto ortonormal si\vec{w}_i \cdot \vec{w}_j = \delta _{ij} = \left\{ \begin{array}{c} 1\text{ if }i=j \\ 0\text{ if }i\neq j \end{array} \right.\nonumber
Tenga en cuenta que todos los conjuntos ortonormales son ortogonales, pero lo contrario no es necesariamente cierto ya que los vectores pueden no estar normalizados. Para normalizar los vectores, simplemente necesitamos dividir cada uno por su longitud.
La normalización de un conjunto ortogonal es el proceso de convertir un conjunto ortogonal (pero no ortonormal) en un conjunto ortonormal. Si\{ \vec{u}_1, \vec{u}_2, \ldots, \vec{u}_k\} es un subconjunto ortogonal de\mathbb{R}^n, entonces\left\{ \frac{1}{ \| \vec{u}_1 \| }\vec{u}_1, \frac{1}{ \| \vec{u}_2 \| }\vec{u}_2, \ldots, \frac{1}{ \| \vec{u}_k \| }\vec{u}_k \right\}\nonumber es un conjunto ortonormal.
Ilustramos este concepto en el siguiente ejemplo.
Considera el conjunto de vectores dado por\left\{ \vec{u}_1, \vec{u}_2 \right\} = \left\{ \left[ \begin{array}{c} 1 \\ 1 \end{array} \right], \left[ \begin{array}{r} -1 \\ 1 \end{array} \right] \right\}\nonumber Mostrar que es un conjunto ortogonal de vectores pero no uno ortonormal. Encuentra el conjunto ortonormal correspondiente.
Solución
Uno fácilmente verifica eso\vec{u}_1 \cdot \vec{u}_2 = 0 y\left\{ \vec{u}_1, \vec{u}_2 \right\} es un conjunto ortogonal de vectores. Por otro lado se puede computar eso \| \vec{u}_1 \| = \| \vec{u}_2 \| = \sqrt{2} \neq 1 y así no es un conjunto ortonormal.
Así, para encontrar un conjunto ortonormal correspondiente, simplemente necesitamos normalizar cada vector. Escribiremos\{ \vec{w}_1, \vec{w}_2 \} para el conjunto ortonormal correspondiente. Entonces,\begin{aligned} \vec{w}_1 &= \frac{1}{ \| \vec{u}_1 \| } \vec{u}_1\\ &= \frac{1}{\sqrt{2}} \left[ \begin{array}{c} 1 \\ 1 \end{array} \right] \\ &= \left[ \begin{array}{c} \frac{1}{\sqrt{2}}\\ \frac{1}{\sqrt{2}} \end{array} \right]\end{aligned}
Del mismo modo,\begin{aligned} \vec{w}_2 &= \frac{1}{ \| \vec{u}_2 \| } \vec{u}_2\\ &= \frac{1}{\sqrt{2}} \left[ \begin{array}{r} -1 \\ 1 \end{array} \right] \\ &= \left[ \begin{array}{r} -\frac{1}{\sqrt{2}}\\ \frac{1}{\sqrt{2}} \end{array} \right]\end{aligned}
Por lo tanto, el conjunto ortonormal correspondiente es\left\{ \vec{w}_1, \vec{w}_2 \right\} = \left\{ \left[ \begin{array}{c} \frac{1}{\sqrt{2}}\\ \frac{1}{\sqrt{2}} \end{array} \right], \left[ \begin{array}{r} -\frac{1}{\sqrt{2}}\\ \frac{1}{\sqrt{2}} \end{array} \right] \right\}\nonumber
Se puede verificar que este conjunto es ortogonal.
Considere un conjunto ortogonal de vectores en\mathbb{R}^n, escrito\{ \vec{w}_1, \cdots, \vec{w}_k \} conk \leq n. El lapso de estos vectores es un subespacioW de\mathbb{R}^n. Si pudiéramos demostrar que este conjunto ortogonal también es linealmente independiente, tendríamos una base deW. Esto lo mostraremos en el siguiente teorema.
Let\{ \vec{w}_1, \vec{w}_2, \cdots, \vec{w}_k \} Ser un conjunto ortonormal de vectores en\mathbb{R}^n. Entonces este conjunto es linealmente independiente y forma una base para el subespacioW = \mathrm{span} \{ \vec{w}_1, \vec{w}_2, \cdots, \vec{w}_k \}.
- Prueba
-
Para mostrar que es un conjunto linealmente independiente, supongamos que una combinación lineal de estos vectores es igual\vec{0}, como:a_1 \vec{w}_1 + a_2 \vec{w}_2 + \cdots + a_k \vec{w}_k = \vec{0}, a_i \in \mathbb{R}\nonumber Necesitamos mostrar que todosa_i = 0. Para ello, toma el producto punto de cada lado de la ecuación anterior con el vector\vec{w}_i y obtén lo siguiente.
\begin{aligned} \vec{w}_i \cdot (a_1 \vec{w}_1 + a_2 \vec{w}_2 + \cdots + a_k \vec{w}_k ) &= \vec{w}_i \cdot \vec{0}\\ a_1 (\vec{w}_i \cdot \vec{w}_1) + a_2 (\vec{w}_i \cdot \vec{w}_2) + \cdots + a_k (\vec{w}_i \cdot \vec{w}_k) &= 0 \end{aligned}
Ahora como el conjunto es ortogonal,\vec{w}_i \cdot \vec{w}_m = 0 para todosm \neq i, así tenemos:a_1 (0) + \cdots + a_i(\vec{w}_i \cdot \vec{w}_i) + \cdots + a_k (0) = 0\nonumber a_i \| \vec{w}_i \| ^2 = 0\nonumber
Ya que el conjunto es ortogonal, lo sabemos \| \vec{w}_i \| ^2 \neq 0. De ello se deduce quea_i =0. Dado que ela_i fue elegido arbitrariamente, el conjunto\{ \vec{w}_1, \vec{w}_2, \cdots, \vec{w}_k \} es linealmente independiente.
Finalmente ya queW = \mbox{span} \{ \vec{w}_1, \vec{w}_2, \cdots, \vec{w}_k \}, el conjunto de vectores también abarcaW y por lo tanto forma una base deW.
Si un conjunto ortogonal es una base para un subespacio, llamamos a esto una base ortogonal. De igual manera, si un conjunto ortonormal es una base, llamamos a esto una base ortonormal.
Concluimos esta sección con una discusión sobre las expansiones de Fourier. Dada cualquier baseB ortogonal\mathbb{R}^n y un vector arbitrario\vec{x} \in \mathbb{R}^n, ¿cómo expresamos\vec{x} como una combinación lineal de vectores enB? La solución es la expansión de Fourier.
DejarV ser un subespacio de\mathbb{R}^n y supongamos que\{ \vec{u}_1, \vec{u}_2, \ldots, \vec{u}_m \} es una base ortogonal deV. Entonces para cualquier\vec{x}\in V,
\vec{x} = \left(\frac{\vec{x}\cdot \vec{u}_1}{ \| \vec{u}_1 \| ^2}\right) \vec{u}_1 + \left(\frac{\vec{x}\cdot \vec{u}_2}{ \| \vec{u}_2 \| ^2}\right) \vec{u}_2 + \cdots + \left(\frac{\vec{x}\cdot \vec{u}_m}{ \| \vec{u}_m \| ^2}\right) \vec{u}_m\nonumber
Esta expresión se llama la expansión de Fourier de\vec{x}, y\frac{\vec{x}\cdot \vec{u}_j}{ \| \vec{u}_j \| ^2},\nonumber j=1,2,\ldots,m son los coeficientes de Fourier.
Considera el siguiente ejemplo.
Dejar\vec{u}_1= \left[\begin{array}{r} 1 \\ -1 \\ 2 \end{array}\right], \vec{u}_2= \left[\begin{array}{r} 0 \\ 2 \\ 1 \end{array}\right], y\vec{u}_3 =\left[\begin{array}{r} 5 \\ 1 \\ -2 \end{array}\right], y dejar\vec{x} =\left[\begin{array}{r} 1 \\ 1 \\ 1 \end{array}\right].
EntoncesB=\{ \vec{u}_1, \vec{u}_2, \vec{u}_3\} es una base ortogonal de\mathbb{R}^3.
Calcular la expansión de Fourier de\vec{x}, escribiendo así\vec{x} como una combinación lineal de los vectores deB.
Solución
Ya queB es una base (verificar!) hay una manera única de expresar\vec{x} como una combinación lineal de los vectores deB. Por otra parte ya queB es una base ortogonal (verificar!) , entonces esto se puede hacer calculando la expansión de Fourier de\vec{x}.
Es decir:
\vec{x} = \left(\frac{\vec{x}\cdot \vec{u}_1}{ \| \vec{u}_1 \| ^2}\right) \vec{u}_1 + \left(\frac{\vec{x}\cdot \vec{u}_2}{ \| \vec{u}_2 \| ^2}\right) \vec{u}_2 + \left(\frac{\vec{x}\cdot \vec{u}_3}{ \| \vec{u}_3 \| ^2}\right) \vec{u}_3. \nonumber
Calculamos fácilmente:
\frac{\vec{x}\cdot\vec{u}_1}{ \| \vec{u}_1 \| ^2} = \frac{2}{6}, \; \frac{\vec{x}\cdot\vec{u}_2}{ \| \vec{u}_2 \| ^2} = \frac{3}{5}, \mbox{ and } \frac{\vec{x}\cdot\vec{u}_3}{ \| \vec{u}_3 \| ^2} = \frac{4}{30}. \nonumber
Por lo tanto,\left[\begin{array}{r} 1 \\ 1 \\ 1 \end{array}\right] = \frac{1}{3}\left[\begin{array}{r} 1 \\ -1 \\ 2 \end{array}\right] +\frac{3}{5}\left[\begin{array}{r} 0 \\ 2 \\ 1 \end{array}\right] +\frac{2}{15}\left[\begin{array}{r} 5 \\ 1 \\ -2 \end{array}\right]. \nonumber
Matrices ortogonales
Recordemos que el proceso para encontrar la inversa de una matriz fue a menudo engorroso. En contraste, fue muy fácil tomar la transposición de una matriz. Por suerte para algunas matrices especiales, la transposición es igual a la inversa. Cuando unan \times n matriz tiene todas las entradas reales y su transposición es igual a su inversa, la matriz se denomina matriz ortogonal.
La definición precisa es la siguiente.
Unan\times n matriz realU se llama matriz ortogonal si
UU^{T}=U^{T}U=I.\nonumber
Nota ya queU se supone que es una matriz cuadrada, basta con verificar solo una de estas igualdadesUU^{T}=I oU^{T}U=I retenciones para garantizar queU^T es la inversa deU.
Considera el siguiente ejemplo.
Matriz ortogonal Mostrar la matrizU=\left[ \begin{array}{rr} \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{2}} & -\frac{1}{\sqrt{2}} \end{array} \right]\nonumber es ortogonal.
Solución
Todo lo que tenemos que hacer es verificar (una de las ecuaciones de) los requisitos de Definición\PageIndex{7}.
UU^{T}=\left[ \begin{array}{rr} \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{2}} & -\frac{1}{\sqrt{2}} \end{array} \right] \left[ \begin{array}{rr} \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{2}} & -\frac{1}{\sqrt{2}} \end{array} \right] = \left[ \begin{array}{cc} 1 & 0 \\ 0 & 1 \end{array} \right]\nonumber
Ya queUU^{T} = I, esta matriz es ortogonal.
Aquí hay otro ejemplo.
Matriz ortogonal LetU=\left[ \begin{array}{rrr} 1 & 0 & 0 \\ 0 & 0 & -1 \\ 0 & -1 & 0 \end{array} \right] . EsU ortogonal?
Solución
Nuevamente la respuesta es sí y esto se puede verificar simplemente mostrando queU^{T}U=I:
\begin{aligned} U^{T}U&=\left[ \begin{array}{rrr} 1 & 0 & 0 \\ 0 & 0 & -1 \\ 0 & -1 & 0 \end{array} \right] ^{T}\left[ \begin{array}{rrr} 1 & 0 & 0 \\ 0 & 0 & -1 \\ 0 & -1 & 0 \end{array} \right] \\ &=\left[ \begin{array}{rrr} 1 & 0 & 0 \\ 0 & 0 & -1 \\ 0 & -1 & 0 \end{array} \right] \left[ \begin{array}{rrr} 1 & 0 & 0 \\ 0 & 0 & -1 \\ 0 & -1 & 0 \end{array} \right] \\ &=\left[ \begin{array}{rrr} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{array} \right]\end{aligned}
Cuando decimos queU es ortogonal, estamos diciendo esoUU^T=I, es decir, que\sum_{j}u_{ij}u_{jk}^{T}=\sum_{j}u_{ij}u_{kj}=\delta _{ik}\nonumber donde\delta _{ij} está el símbolo de Kronecker definido por\delta _{ij}=\left\{ \begin{array}{c} 1 \text{ if }i=j \\ 0\text{ if }i\neq j \end{array} \right.\nonumber
En palabras, el producto de lai^{th} fila deU con lak^{th} fila da1 sii=k y0 sii\neq k. Lo mismo es cierto de las columnas porqueU^{T}U=I también. Por lo tanto,\sum_{j}u_{ij}^{T}u_{jk}=\sum_{j}u_{ji}u_{jk}=\delta _{ik}\nonumber que dice que el producto de una columna con otra columna da1 si las dos columnas son iguales y0 si las dos columnas son diferentes.
Más sucintamente, esto establece que si\vec{u}_{1},\cdots ,\vec{u}_{n} son las columnas deU, una matriz ortogonal, entonces\vec{u}_{i}\cdot \vec{u}_{j}=\delta _{ij} = \left\{ \begin{array}{c} 1\text{ if }i=j \\ 0\text{ if }i\neq j \end{array} \right.\nonumber
Diremos que las columnas forman un conjunto ortonormal de vectores, y de manera similar para las filas. Así, una matriz es ortogonal si sus filas (o columnas) forman un conjunto ortonormal de vectores. Observe que la convención es llamar a tal matriz ortogonal en lugar de ortonormal (¡aunque esto puede tener más sentido!).
Las filas de una matrizn \times n ortogonal forman una base ortonormal de\mathbb{R}^n. Además, cualquier base ortonormal de se\mathbb{R}^n puede utilizar para construir una matrizn \times n ortogonal.
- Prueba
-
Recordemos del teorema\PageIndex{1} que un conjunto ortonormal es linealmente independiente y forma una base para su lapso. Dado que las filas de una matrizn \times n ortogonal forman un conjunto ortonormal, deben ser linealmente independientes. Ahora tenemos vectoresn linealmente independientes, y de ello se deduce que su lapso es igual\mathbb{R}^n. Por lo tanto, estos vectores forman una base ortonormal para\mathbb{R}^n.
Supongamos ahora que tenemos una base ortonormal para\mathbb{R}^n. Dado que la base contendrán vectores, estos pueden ser utilizados para construir unan \times n matriz, con cada vector convirtiéndose en una fila. Por lo tanto, la matriz está compuesta por filas ortonormales, lo que por nuestra discusión anterior, significa que la matriz es ortogonal. Tenga en cuenta que también podríamos tener construir una matriz con cada vector convirtiéndose en una columna en su lugar, y esto nuevamente sería una matriz ortogonal. De hecho esto es simplemente la transposición de la matriz anterior.
Considera la siguiente proposición.
Det SupongamosU es una matriz ortogonal. Entonces\det \left( U\right) = \pm 1.
- Prueba
-
Este resultado se desprende de las propiedades de los determinantes. Recordemos que para cualquier matrizA,\det(A)^T = \det(A). Ahora siU es ortogonal, entonces:(\det \left( U\right)) ^{2}=\det \left( U^{T}\right) \det \left( U\right) =\det \left( U^{T}U\right) =\det \left( I\right) =1\nonumber
Por lo tanto(\det (U))^2 = 1 y de ello se deduce\det \left( U\right) = \pm 1.
Las matrices ortogonales se dividen en dos clases, propias e impropias. Las matrices ortogonales adecuadas son aquellas cuyo determinante es igual a 1 y las impropias son aquellas cuyo determinante es igual-1. El motivo de la distinción es que a veces se considera que las matrices ortogonales impropias no tienen significación física. Estas matrices provocan un cambio de orientación que correspondería al paso del material por sí mismo de manera no física. Por lo tanto, al considerar qué sistemas de coordenadas deben considerarse en ciertas aplicaciones, solo es necesario considerar aquellos que están relacionados por una transformación ortogonal adecuada. Geométricamente, las transformaciones lineales determinadas por las matrices ortogonales adecuadas corresponden a la composición de las rotaciones.
Concluimos esta sección con dos propiedades útiles de matrices ortogonales.
SupongamosA yB son matrices ortogonales. EntoncesAB yA^{-1} ambos existen y son ortogonales.
Solución
Primero examinamos el productoAB. (AB)(B^TA^T)=A(BB^T)A^T =AA^T=I\nonumber Ya queAB es cuadrada,B^TA^T=(AB)^T es la inversa deAB, por lo tantoAB es invertible, y(AB)^{-1}=(AB)^T por lo tanto,AB es ortogonal.
A continuación mostramos que tambiénA^{-1}=A^T es ortogonal. (A^{-1})^{-1} = A = (A^T)^{T} =(A^{-1})^{T}\nonumber Por lo tanto tambiénA^{-1} es ortogonal.
Proceso Gram-Schmidt
El proceso Gram-Schmidt es un algoritmo para transformar un conjunto de vectores en un conjunto ortonormal que abarca el mismo subespacio, que está generando la misma colección de combinaciones lineales (ver Definición 9.2.2).
El objetivo del proceso Gram-Schmidt es tomar un conjunto linealmente independiente de vectores y transformarlo en un conjunto ortonormal con el mismo lapso. El primer objetivo es construir un conjunto ortogonal de vectores con el mismo lapso, ya que a partir de ahí se puede obtener un conjunto ortonormal simplemente dividiendo cada vector por su longitud.
Let\{ \vec{u}_1,\cdots ,\vec{u}_n \} Ser un conjunto de vectores linealmente independientes en\mathbb{R}^{n}.
I: Construir un nuevo conjunto de vectores de la\{ \vec{v}_1,\cdots ,\vec{v}_n \} siguiente manera:\begin{array}{ll} \vec{v}_1 & = \vec{u}_1 \\ \vec{v}_{2} & = \vec{u}_{2} - \left( \dfrac{ \vec{u}_2 \cdot \vec{v}_1}{ \| \vec{v}_1 \| ^2} \right) \vec{v}_1\\ \vec{v}_{3} & = \vec{u}_{3} - \left( \dfrac{\vec{u}_3 \cdot \vec{v}_1}{ \| \vec{v}_1 \| ^2} \right) \vec{v}_1 - \left( \dfrac{\vec{u}_3 \cdot \vec{v}_2}{ \| \vec{v}_2 \| ^2} \right) \vec{v}_2\\ \vdots \\ \vec{v}_{n} & = \vec{u}_{n} - \left( \dfrac{\vec{u}_n \cdot \vec{v}_1}{ \| \vec{v}_1 \| ^2} \right) \vec{v}_1 - \left( \dfrac{\vec{u}_n \cdot \vec{v}_2}{ \| \vec{v}_2 \| ^2} \right) \vec{v}_2 - \cdots - \left( \dfrac{\vec{u}_{n} \cdot \vec{v}_{n-1}}{ \| \vec{v}_{n-1} \| ^2} \right) \vec{v}_{n-1} \\ \end{array}\nonumber
II: Ahora vamos\vec{w}_i = \dfrac{\vec{v}_i}{ \| \vec{v}_i \| } pori=1, \cdots ,n.
Entonces
- \left\{ \vec{v}_1, \cdots, \vec{v}_n \right\}es un conjunto ortogonal.
- \left\{ \vec{w}_1,\cdots , \vec{w}_n \right\}es un conjunto ortonormal.
- \mathrm{span}\left\{ \vec{u}_1,\cdots ,\vec{u}_n \right\} = \mathrm{span} \left\{ \vec{v}_1, \cdots, \vec{v}_n \right\} = \mathrm{span}\left\{ \vec{w}_1,\cdots ,\vec{w}_n \right\}.
Solución
La prueba completa de este algoritmo está más allá de este material, sin embargo aquí hay una indicación de los argumentos.
Para mostrar que\left\{ \vec{v}_1,\cdots , \vec{v}_n \right\} es un conjunto ortogonal, vamosa_2 = \dfrac{ \vec{u}_2 \cdot \vec{v}_1}{ \| \vec{v}_1 \| ^2}\nonumber entonces:\begin{array}{ll} \vec{v}_1 \cdot \vec{v}_2 & = \vec{v}_1 \cdot \left( \vec{u}_2 - a_2 \vec{v}_1 \right) \\ & = \vec{v}_1 \cdot \vec{u}_2 - a_2 (\vec{v}_1 \cdot \vec{v}_1 \\ & = \vec{v}_1 \cdot \vec{u}_2 - \dfrac{ \vec{u}_2 \cdot \vec{v}_1}{ \| \vec{v}_1 \| ^2} \| \vec{v}_1 \| ^2 \\ & = ( \vec{v}_1 \cdot \vec{u}_2 ) - ( \vec{u}_2 \cdot \vec{v}_1 ) =0\\ \end{array}\nonumber Ahora que has demostrado que\{ \vec{v}_1, \vec{v}_2\} es ortogonal, usa el mismo método que el anterior para mostrar que también\{ \vec{v}_1, \vec{v}_2, \vec{v}_3\} es ortogonal, y así sucesivamente.
Entonces de manera similar lo demuestras\mathrm{span}\left\{ \vec{u}_1,\cdots ,\vec{u}_n \right\} = \mathrm{span}\left\{ \vec{v}_1,\cdots ,\vec{v}_n \right\}.
Finalmente definir\vec{w}_i = \dfrac{\vec{v}_i}{ \| \vec{v}_i \| } for noi=1, \cdots ,n afecta a la ortogonalidad y produce vectores de longitud 1, de ahí un conjunto ortonormal. También se puede observar que tampoco afecta el lapso y la prueba estaría completa.
Considera el siguiente ejemplo.
Considere el conjunto de vectores\{\vec{u}_1, \vec{u}_2\} dados como en Ejemplo\PageIndex{1}. Eso es\vec{u}_1=\left[ \begin{array}{r} 1 \\ 1 \\ 0 \end{array} \right], \vec{u}_2=\left[ \begin{array}{r} 3 \\ 2 \\ 0 \end{array} \right] \in \mathbb{R}^{3}\nonumber
Utilice el algoritmo Gram-Schmidt para encontrar un conjunto ortonormal de vectores\{\vec{w}_1, \vec{w}_2\} que tengan el mismo lapso.
Solución
Ya remarcamos que el conjunto de vectores en\{\vec{u}_1, \vec{u}_2\} es linealmente independiente, por lo que podemos proceder con el algoritmo Gram-Schmidt:\begin{aligned} \vec{v}_1 &= \vec{u}_1 = \left[ \begin{array}{r} 1 \\ 1 \\ 0 \end{array} \right] \\ \vec{v}_{2} &= \vec{u}_{2} - \left( \dfrac{\vec{u}_2 \cdot \vec{v}_1}{ \| \vec{v}_1 \| ^2} \right) \vec{v}_1\\ &= \left[ \begin{array}{r} 3 \\ 2 \\ 0 \end{array} \right] - \frac{5}{2} \left[ \begin{array}{r} 1 \\ 1 \\ 0 \end{array} \right] \\ &= \left[ \begin{array}{r} \frac{1}{2} \\ - \frac{1}{2} \\ 0 \end{array} \right] \end{aligned}
Ahora para normalizar simplemente dejar\begin{aligned} \vec{w}_1 &= \frac{\vec{v}_1}{ \| \vec{v}_1 \| } = \left[ \begin{array}{r} \frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{2}} \\ 0 \end{array} \right] \\ \vec{w}_2 &= \frac{\vec{v}_2}{ \| \vec{v}_2 \| } = \left[ \begin{array}{r} \frac{1}{\sqrt{2}} \\ - \frac{1}{\sqrt{2}} \\ 0 \end{array} \right]\end{aligned}
Se puede verificar que\{\vec{w}_1, \vec{w}_2\} es un conjunto ortonormal de vectores que tienen el mismo lapso que\{\vec{u}_1, \vec{u}_2\}, a saber, elXY -plane.
En este ejemplo, comenzamos con un conjunto linealmente independiente y encontramos un conjunto ortonormal de vectores que tenían el mismo lapso. Resulta que si partimos de una base de un subespacio y aplicamos el algoritmo Gram-Schmidt, el resultado será una base ortogonal del mismo subespacio. Esto lo examinamos en el siguiente ejemplo.
Dejar\vec{x}_1=\left[\begin{array}{c} 1\\ 0\\ 1\\ 0 \end{array}\right], \vec{x}_2=\left[\begin{array}{c} 1\\ 0\\ 1\\ 1 \end{array}\right], \mbox{ and } \vec{x}_3=\left[\begin{array}{c} 1\\ 1\\ 0\\ 0 \end{array}\right],\nonumber y dejarU=\mathrm{span}\{\vec{x}_1, \vec{x}_2,\vec{x}_3\}. Utilice el Proceso Gram-Schmidt para construir una base ortogonalB deU.
Solución
Primero\vec{f}_1=\vec{x}_1.
Siguiente,\vec{f}_2=\left[\begin{array}{c} 1\\ 0\\ 1\\ 1 \end{array}\right] -\frac{2}{2}\left[\begin{array}{c} 1\\ 0\\ 1\\ 0 \end{array}\right] =\left[\begin{array}{c} 0\\ 0\\ 0\\ 1 \end{array}\right].\nonumber
Por último,\vec{f}_3=\left[\begin{array}{c} 1\\ 1\\ 0\\ 0 \end{array}\right] -\frac{1}{2}\left[\begin{array}{c} 1\\ 0\\ 1\\ 0 \end{array}\right] -\frac{0}{1}\left[\begin{array}{c} 0\\ 0\\ 0\\ 1 \end{array}\right] =\left[\begin{array}{c} 1/2\\ 1\\ -1/2\\ 0 \end{array}\right].\nonumber
Por lo tanto,\left\{ \left[\begin{array}{c} 1\\ 0\\ 1\\ 0 \end{array}\right], \left[\begin{array}{c} 0\\ 0\\ 0\\ 1 \end{array}\right], \left[\begin{array}{c} 1/2\\ 1\\ -1/2\\ 0 \end{array}\right] \right\}\nonumber es una base ortogonal deU. Sin embargo, a veces es más conveniente tratar con vectores que tienen entradas enteras, en cuyo caso tomamosB=\left\{ \left[\begin{array}{c} 1\\ 0\\ 1\\ 0 \end{array}\right], \left[\begin{array}{c} 0\\ 0\\ 0\\ 1 \end{array}\right], \left[\begin{array}{r} 1\\ 2\\ -1\\ 0 \end{array}\right] \right\}.\nonumber
Proyecciones ortogonales
Un uso importante del Proceso Gram-Schmidt es en las proyecciones ortogonales, el foco de esta sección.
Puede recordar que un subespacio de\mathbb{R}^n es un conjunto de vectores que contiene el vector cero, y se cierra bajo suma y multiplicación escalar. Llamemos a tal subespacioW. En particular, un plano en el\mathbb{R}^n que contiene el origen,\left(0,0, \cdots, 0 \right), es un subespacio de\mathbb{R}^n.
Supongamos que un puntoY en no\mathbb{R}^n está contenido enW, entonces ¿a qué puntoZW está más cercaY? Usando el Proceso Gram-Schmidt, podemos encontrar tal punto. Dejar\vec{y}, \vec{z} representar los vectores de posición de los puntosY yZ respectivamente, con la\vec{y}-\vec{z} representación del vector que conecta los dos puntosY yZ. De ello se deduce que siZ es el puntoW más cercano aY, entonces\vec{y} - \vec{z} será perpendicular aW (¿ves por qué?) ; en otras palabras,\vec{y} - \vec{z} es ortogonal aW (y a cada vector contenido enW) como en el siguiente diagrama.

El vector\vec{z} se llama la proyección ortogonal de\vec{y} onW. La definición se da de la siguiente manera.
DejarW ser un subespacio de\mathbb{R}^n, yY ser cualquier punto en\mathbb{R}^n. Entonces la proyección ortogonal deY sobreW está dada por\vec{z} = \mathrm{proj}_{W}\left( \vec{y}\right) = \left( \frac{\vec{y} \cdot \vec{w}_1}{ \| \vec{w}_1 \| ^2}\right) \vec{w}_1 + \left( \frac{\vec{y} \cdot \vec{w}_2}{ \| \vec{w}_2 \| ^2}\right) \vec{w}_2 + \cdots + \left( \frac{\vec{y} \cdot \vec{w}_m}{ \| \vec{w}_m \| ^2}\right) \vec{w}_m\nonumber donde\{\vec{w}_1, \vec{w}_2, \cdots, \vec{w}_m \} está cualquier base ortogonal deW.
Por lo tanto, para encontrar la proyección ortogonal, primero debemos encontrar una base ortogonal para el subespacio. Tenga en cuenta que se podría usar una base ortonormal, pero no es necesario en este caso ya que como puede ver arriba la normalización de cada vector se incluye en la fórmula para la proyección.
Antes de explorar esto más a través de un ejemplo, mostramos que la proyección ortogonal de hecho produce un puntoZ (el punto cuyo vector de posición es el vector\vec{z} anterior) que es el puntoW más cercano aY.
DejarW ser un subespacio de\mathbb{R}^n yY cualquier punto en\mathbb{R}^n. DejarZ ser el punto cuyo vector de posición es la proyección ortogonal deY sobreW.
Entonces,Z es el puntoW más cercano aY.
- Prueba
-
PrimeroZ es sin duda un punto enW ya que está en el lapso de una base deW.
Para demostrar que eseZ es el puntoW más cercano aY, queremos mostrar eso|\vec{y}-\vec{z}_1| > |\vec{y}-\vec{z}| para todos\vec{z}_1 \neq \vec{z} \in W. Empezamos por escribir\vec{y}-\vec{z}_1 = (\vec{y} - \vec{z}) + (\vec{z} - \vec{z}_1). Ahora, el vector\vec{y} - \vec{z} es ortogonal aW, y\vec{z} - \vec{z}_1 está contenido enW. Por lo tanto, estos vectores son ortogonales entre sí. Por el Teorema de Pitágoras, tenemos que \| \vec{y} - \vec{z}_1 \| ^2 = \| \vec{y} - \vec{z} \| ^2 + \| \vec{z} -\vec{z}_1 \| ^2 > \| \vec{y} - \vec{z} \| ^2\nonumber Esto sigue porque\vec{z} \neq \vec{z}_1 así \| \vec{z} -\vec{z}_1 \| ^2 > 0.
De ahí, \| \vec{y} - \vec{z}_1 \| ^2 > \| \vec{y} - \vec{z} \| ^2. Tomando la raíz cuadrada de cada lado, obtenemos el resultado deseado.
Considera el siguiente ejemplo.
DejarW ser el plano a través del origen dado por la ecuaciónx - 2y + z = 0. Encuentra el puntoW más cercano al puntoY = (1,0,3).
Solución
Primero debemos encontrar una base ortogonal paraW. Observe queW se caracteriza por todos los puntos(a,b,c) dondec = 2b-a. En otras palabras,W = \left[ \begin{array}{c} a \\ b \\ 2b - a \end{array} \right] = a \left[ \begin{array}{c} 1 \\ 0 \\ -1 \end{array} \right] + b \left[ \begin{array}{c} 0 \\ 1 \\ 2 \end{array} \right], \; a,b \in \mathbb{R}\nonumber
Así podemos escribirW como\begin{aligned} W &= \mbox{span} \left\{ \vec{u}_1, \vec{u}_2 \right\} \\ &= \mbox{span} \left\{ \left[ \begin{array}{r} 1 \\ 0 \\ -1 \end{array} \right], \left[ \begin{array}{c} 0 \\ 1 \\ 2 \end{array} \right] \right\}\end{aligned}
Observe que este lapso es una base deW ya que es linealmente independiente. Utilizaremos el Proceso Gram-Schmidt para convertir esto a una base ortogonal,\left\{\vec{w}_1, \vec{w}_2 \right\}. En este caso, como remarcamos sólo es necesario encontrar una base ortogonal, y no se requiere que sea ortonormal.
\vec{w}_1 = \vec{u}_1 = \left[ \begin{array}{r} 1 \\ 0 \\ -1 \end{array} \right]\nonumber \begin{aligned} \vec{w}_2 &= \vec{u}_2 - \left( \frac{ \vec{u}_2 \cdot \vec{w}_1}{ \| \vec{w}_1 \| ^2} \right) \vec{w}_1\\ &= \left[ \begin{array}{c} 0 \\ 1 \\ 2 \end{array} \right] - \left( \frac{-2}{2}\right) \left[ \begin{array}{r} 1 \\ 0 \\ -1 \end{array} \right] \\ &= \left[ \begin{array}{c} 0 \\ 1 \\ 2 \end{array} \right] + \left[ \begin{array}{r} 1 \\ 0 \\ -1 \end{array} \right] \\ &= \left[ \begin{array}{c} 1 \\ 1 \\ 1 \end{array} \right]\end{aligned}
Por lo tanto, una base ortogonal deW es\left\{ \vec{w}_1, \vec{w}_2 \right\} = \left\{ \left[ \begin{array}{r} 1 \\ 0 \\ -1 \end{array} \right], \left[ \begin{array}{c} 1 \\ 1 \\ 1 \end{array} \right] \right\}\nonumber
Ahora podemos usar esta base para encontrar la proyección ortogonal del puntoY=(1,0,3) en el subespacioW. Escribiremos el vector\vec{y} de posición deY as\vec{y} = \left[ \begin{array}{c} 1 \\ 0 \\ 3 \end{array} \right]. Usando Definición\PageIndex{8}, calculamos la proyección de la siguiente manera:\begin{aligned} \vec{z} &= \mathrm{proj}_{W}\left( \vec{y}\right)\\ &= \left( \frac{\vec{y} \cdot \vec{w}_1}{ \| \vec{w}_1 \| ^2}\right) \vec{w}_1 + \left( \frac{\vec{y} \cdot \vec{w}_2}{ \| \vec{w}_2 \| ^2}\right) \vec{w}_2 \\ &= \left( \frac{-2}{2} \right) \left[ \begin{array}{r} 1 \\ 0 \\ -1 \end{array} \right] + \left( \frac{4}{3} \right) \left[ \begin{array}{c} 1 \\ 1 \\ 1 \end{array} \right] \\ &= \left[ \begin{array}{c} \frac{1}{3} \\ \frac{4}{3} \\ \frac{7}{3} \end{array} \right]\end{aligned}
Por lo tantoZ el puntoW más cercano al punto(1,0,3) es\left( \frac{1}{3}, \frac{4}{3}, \frac{7}{3} \right).
Recordemos que el vector\vec{y} - \vec{z} es perpendicular (ortogonal) a todos los vectores contenidos en el planoW. Usando una base paraW, de hecho podemos encontrar todos esos vectores que son perpendiculares aW. Llamamos a este conjunto de vectores el complemento ortogonal deW y lo denotamosW^{\perp}.
QueW sea un subespacio de\mathbb{R}^n. Entonces el complemento ortogonal deW, escritoW^{\perp}, es el conjunto de todos los vectores\vec{x} tal que\vec{x} \cdot \vec{z} = 0 para todos los vectores\vec{z} enW. W^{\perp} = \{ \vec{x} \in \mathbb{R}^n \; \mbox{such that} \; \vec{x} \cdot \vec{z} = 0 \; \mbox{for all} \; \vec{z} \in W \}\nonumber
El complemento ortogonal se define como el conjunto de todos los vectores que son ortogonales a todos los vectores en el subespacio original. Resulta que es suficiente que los vectores en el complemento ortogonal sean ortogonales a un conjunto de expansión del espacio original.
WSea un subespacio de\mathbb{R}^n tal queW = \mathrm{span} \left\{ \vec{w}_1, \vec{w}_2, \cdots, \vec{w}_m \right\}. EntoncesW^{\perp} es el conjunto de todos los vectores que son ortogonales a cada uno\vec{w}_i en el conjunto de expansión.
La siguiente proposición demuestra que el complemento ortogonal de un subespacio es en sí mismo un subespacio.
QueW sea un subespacio de\mathbb{R}^n. Entonces el complemento ortogonalW^{\perp} es también un subespacio de\mathbb{R}^n.
Considera la siguiente proposición.
El complemento de\mathbb{R}^n es el conjunto que contiene el vector cero:(\mathbb{R}^n)^{\perp} = \left\{ \vec{0} \right\}\nonumber Del mismo modo,\left\{ \vec{0} \right\}^{\perp} = (\mathbb{R}^n). \nonumber
- Prueba
-
Aquí,\vec{0} es el vector cero de\mathbb{R}^n. Ya que\vec{x}\cdot\vec{0}=0 para todos\vec{x}\in\mathbb{R}^n,\mathbb{R}^n\subseteq\{ \vec{0}\}^{\perp}. Ya que\{ \vec{0}\}^{\perp}\subseteq\mathbb{R}^n, la igualdad sigue, es decir,\{ \vec{0}\}^{\perp}=\mathbb{R}^n.
Nuevamente, ya que\vec{x}\cdot\vec{0}=0 para todos\vec{x}\in\mathbb{R}^n\vec{0}\in (\mathbb{R}^n)^{\perp}, así\{ \vec{0}\}\subseteq(\mathbb{R}^n)^{\perp}. Supongamos\vec{x}\in\mathbb{R}^n,\vec{x}\neq\vec{0}. Desde\vec{x}\cdot\vec{x}=||\vec{x}||^2 y\vec{x}\neq\vec{0},\vec{x}\cdot\vec{x}\neq 0, entonces\vec{x}\not\in(\mathbb{R}^n)^{\perp}. Por lo tanto(\mathbb{R}^n)^{\perp}\subseteq \{\vec{0}\}, y así(\mathbb{R}^n)^{\perp}=\{\vec{0}\}.
En el siguiente ejemplo, veremos cómo encontrarW^{\perp}.
DejarW ser el plano a través del origen dado por la ecuaciónx - 2y + z = 0. Encontrar una base para el complemento ortogonal deW.
Solución
De Ejemplo\PageIndex{11} sabemos que podemos escribirW comoW = \mbox{span} \left\{ \vec{u}_1, \vec{u}_2 \right\} = \mbox{span} \left\{ \left[ \begin{array}{r} 1 \\ 0 \\ -1 \end{array} \right], \left[ \begin{array}{c} 0 \\ 1 \\ 2 \end{array} \right] \right\}\nonumber
Para encontrarW^{\perp}, necesitamos encontrar todos los\vec{x} que son ortogonales a cada vector en este lapso.
Vamos\vec{x} = \left[ \begin{array}{c} x_1 \\ x_2 \\ x_3 \end{array} \right]. Para satisfacer\vec{x} \cdot \vec{u}_1 = 0, se debe mantener la siguiente ecuación. x_1 - x_3 = 0\nonumber
Para satisfacer\vec{x} \cdot \vec{u}_2 = 0, se debe mantener la siguiente ecuación. x_2 + 2x_3 = 0\nonumber
Ambas ecuaciones deben ser satisfechas, por lo que tenemos el siguiente sistema de ecuaciones. \begin{array}{c} x_1 - x_3 = 0 \\ x_2 + 2x_3 = 0 \end{array}\nonumber
Para resolver, configurar la matriz aumentada.
\left[ \begin{array}{rrr|r} 1 & 0 & -1 & 0 \\ 0 & 1 & 2 & 0 \end{array} \right]\nonumber
Usando la Eliminación Gaussiana, nos encontramos con esoW^{\perp} = \mbox{span} \left\{ \left[ \begin{array}{r} 1 \\ -2 \\ 1 \end{array} \right] \right\}, y por lo tanto\left\{ \left[ \begin{array}{r} 1 \\ -2 \\ 1 \end{array} \right] \right\} es una base paraW^{\perp}.
Los siguientes resultados resumen las propiedades importantes de la proyección ortogonal.
DejarW ser un subespacio de\mathbb{R}^n,Y ser cualquier punto en\mathbb{R}^n, y dejarZ ser el punto enW más cercano aY. Entonces,
- El vector\vec{z} de posición del puntoZ viene dado por\vec{z} = \mathrm{proj}_{W}\left( \vec{y}\right)
- \vec{z} \in Wy\vec{y} - \vec{z} \in W^{\perp}
- | Y - Z | < | Y - Z_1 |para todosZ_1 \neq Z \in W
Considera el siguiente ejemplo de este concepto.
Vamos\vec{x}_1=\left[\begin{array}{c} 1\\ 0\\ 1\\ 0 \end{array}\right], \vec{x}_2=\left[\begin{array}{c} 1\\ 0\\ 1\\ 1 \end{array}\right], \vec{x}_3=\left[\begin{array}{c} 1\\ 1\\ 0\\ 0 \end{array}\right], \mbox{ and } \vec{v}=\left[\begin{array}{c} 4\\ 3\\ -2\\ 5 \end{array}\right].\nonumber Queremos encontrar el vector en elW =\mathrm{span}\{\vec{x}_1, \vec{x}_2,\vec{x}_3\} más cercano a\vec{y}.
Solución
Primero usaremos el Proceso Gram-Schmidt para construir la base ortogonal,B, deW:B=\left\{ \left[\begin{array}{c} 1\\ 0\\ 1\\ 0 \end{array}\right], \left[\begin{array}{c} 0\\ 0\\ 0\\ 1 \end{array}\right], \left[\begin{array}{r} 1\\ 2\\ -1\\ 0 \end{array}\right] \right\}.\nonumber
Por teorema\PageIndex{4},\mathrm{proj}_U(\vec{v}) = \frac{2}{2} \left[\begin{array}{c} 1\\ 0\\ 1\\ 0 \end{array}\right] + \frac{5}{1}\left[\begin{array}{c} 0\\ 0\\ 0\\ 1 \end{array}\right] + \frac{12}{6}\left[\begin{array}{r} 1\\ 2\\ -1\\ 0 \end{array}\right] = \left[\begin{array}{r} 3\\ 4\\ -1\\ 5 \end{array}\right]\nonumber es el vectorU más cercano a\vec{y}.
Consideremos el siguiente ejemplo.
QueW sea un subespacio dado porW = \mbox{span} \left\{ \left[ \begin{array}{c} 1 \\ 0 \\ 1 \\ 0 \\ \end{array} \right], \left[ \begin{array}{c} 0 \\ 1 \\ 0 \\ 2 \\ \end{array} \right] \right\}, yY = (1,2,3,4).
Encuentra el puntoZW más cercano aY, y además escribe\vec{y} como la suma de un vector enW y un vector enW^{\perp}.
Solución
Del teorema\PageIndex{3} el puntoZ enW más cercano aY está dado por\vec{z} = \mathrm{proj}_{W}\left( \vec{y}\right).
Observe que dado que los vectores anteriores ya dan una base ortogonal paraW, tenemos:
\begin{aligned} \vec{z} &= \mathrm{proj}_{W}\left( \vec{y}\right)\\ &= \left( \frac{\vec{y} \cdot \vec{w}_1}{ \| \vec{w}_1 \| ^2}\right) \vec{w}_1 + \left( \frac{\vec{y} \cdot \vec{w}_2}{ \| \vec{w}_2 \| ^2}\right) \vec{w}_2 \\ &= \left( \frac{4}{2} \right) \left[ \begin{array}{c} 1 \\ 0 \\ 1 \\ 0 \end{array} \right] + \left( \frac{10}{5} \right) \left[ \begin{array}{c} 0 \\ 1 \\ 0 \\ 2 \end{array} \right] \\ &= \left[ \begin{array}{c} 2 \\ 2 \\ 2 \\ 4 \end{array} \right]\end{aligned}
Por lo tanto el puntoW más cercano aY esZ = (2,2,2,4).
Ahora, necesitamos escribir\vec{y} como la suma de un vector enW y un vector enW^{\perp}. Esto se puede hacer fácilmente de la siguiente manera:\vec{y} = \vec{z} + (\vec{y} - \vec{z})\nonumber ya que\vec{z} está enW y como hemos visto\vec{y} - \vec{z} está enW^{\perp}.
El vector\vec{y} - \vec{z} viene dado por\vec{y} - \vec{z} = \left[ \begin{array}{c} 1 \\ 2 \\ 3 \\ 4 \end{array} \right] - \left[ \begin{array}{c} 2 \\ 2 \\ 2 \\ 4 \end{array} \right] = \left[ \begin{array}{r} -1 \\ 0 \\ 1 \\ 0 \end{array} \right]\nonumber Por lo tanto, podemos escribir\vec{y} como\left[ \begin{array}{c} 1 \\ 2 \\ 3 \\ 4 \end{array} \right] = \left[ \begin{array}{c} 2 \\ 2 \\ 2 \\ 4 \end{array} \right] + \left[ \begin{array}{r} -1 \\ 0 \\ 1 \\ 0 \end{array} \right]\nonumber
Encuentra el puntoZ en el plano3x+y-2z=0 que está más cerca del puntoY=(1,1,1).
Solución
La solución procederá de la siguiente manera.
- Encontrar una baseX del subespacioW de\mathbb{R}^3 definido por la ecuación3x+y-2z=0.
- Ortogonalizar la baseX para obtener una base ortogonalB deW.
- Encuentra la proyección sobreW del vector de posición del puntoY.
Ahora comenzamos la solución.
- 3x+y-2z=0es un sistema de una ecuación en tres variables. Poner la matriz aumentada en forma de fila-escalón reducido:\left[\begin{array}{rrr|r} 3 & 1 & -2 & 0 \end{array}\right] \rightarrow \left[\begin{array}{rrr|r} 1 & \frac{1}{3} & -\frac{2}{3} & 0 \end{array}\right]\nonumber da solución generalx=\frac{1}{3}s+\frac{2}{3}t,y=s,z=t para cualquiers,t\in\mathbb{R}. EntoncesW=\mathrm{span} \left\{ \left[\begin{array}{r} -\frac{1}{3} \\ 1 \\ 0 \end{array}\right], \left[\begin{array}{r} \frac{2}{3} \\ 0 \\ 1 \end{array}\right]\right\}\nonumber vamosX=\left\{ \left[\begin{array}{r} -1 \\ 3 \\ 0 \end{array}\right], \left[\begin{array}{r} 2 \\ 0 \\ 3 \end{array}\right]\right\}. EntoncesX es linealmente independiente y\mathrm{span}(X)=W, asíX es una base deW.
- Utilice el Proceso Gram-Schmidt para obtener una base ortogonal deW:\vec{f}_1=\left[\begin{array}{r} -1\\3\\0\end{array}\right]\mbox{ and }\vec{f}_2=\left[\begin{array}{r}2\\0\\3\end{array}\right]-\frac{-2}{10}\left[\begin{array}{r}-1\\3\\0\end{array}\right]=\frac{1}{5}\left[\begin{array}{r}9\\3\\15\end{array}\right].\nonumber Por lo tanto,B=\left\{\left[\begin{array}{r}-1\\3\\0\end{array}\right], \left[\begin{array}{r}3\\1\\5 \end{array}\right]\right\} es una base ortogonal deW.
- Para encontrar el puntoW más cercanoZ aY=(1,1,1), computar\begin{aligned} \mathrm{proj}_{W}\left[\begin{array}{r} 1 \\ 1 \\ 1 \end{array}\right] & = \frac{2}{10} \left[\begin{array}{r} -1 \\ 3 \\ 0 \end{array}\right] + \frac{9}{35}\left[\begin{array}{r} 3 \\ 1 \\ 5 \end{array}\right]\\ & = \frac{1}{7}\left[\begin{array}{r} 4 \\ 6 \\ 9 \end{array}\right].\end{aligned} Por lo tanto,Z=\left( \frac{4}{7}, \frac{6}{7}, \frac{9}{7}\right).
Aproximación de mínimos cuadrados
No debería sorprender escuchar que muchos problemas no tienen una solución perfecta, y en estos casos el objetivo siempre es tratar de hacer lo mejor posible. Por ejemplo, ¿qué se hace si no hay soluciones a un sistema de ecuaciones linealesA\vec{x}=\vec{b}? Resulta que lo que hacemos es encontrar\vec{x} tal queA\vec{x} esté lo más cerca\vec{b} posible. Una técnica muy importante que se desprende de las proyecciones ortogonales es la de la aproximación de mínimos cuadrados, y nos permite hacer exactamente eso.
Comenzamos con un lema.
Recordemos que podemos formar la imagen de unam \times n matrizA por\mathrm{im}\left( A\right) = = \left\{ A\vec{x} : \vec{x} \in \mathbb{R}^n \right\}. El teorema de reformulación\PageIndex{4} usando el subespacioW=\mathrm{im}\left( A\right) da la equivalencia de una condición de ortogonalidad con una condición de minimización. La siguiente imagen ilustra esta condición de ortogonalidad y significado geométrico de este teorema.

Dejar\vec{y}\in \mathbb{R}^{m} y dejarA ser unam\times n matriz.
Elegir\vec{z}\in W= \mathrm{im}\left( A\right) dado por\vec{z} = \mathrm{proj}_{W}\left( \vec{y}\right), y dejar que\vec{x} \in \mathbb{R}^{n} tal que\vec{z}=A\vec{x}.
Entonces
- \vec{y} - A\vec{x} \in W^{\perp}
- \| \vec{y} - A\vec{x} \| < \| \vec{y} - \vec{u} \| para todos\vec{u} \neq \vec{z} \in W
Observamos una observación sencilla pero útil.
ADéjese ser unam\times n matriz. EntoncesA\vec{x} \cdot \vec{y} = \vec{x}\cdot A^T\vec{y}\nonumber
- Prueba
-
Esto se desprende de las definiciones:A\vec{x} \cdot \vec{y}=\sum_{i,j}a_{ij}x_{j} y_{i} =\sum_{i,j}x_{j} a_{ji} y_{i}= \vec{x} \cdot A^T\vec{y}\nonumber
El siguiente corolario da la técnica de mínimos cuadrados.
Un valor específico del\vec{x} cual resuelve el problema del Teorema\PageIndex{5} se obtiene resolviendo la ecuación.A^TA\vec{x}=A^T\vec{y}\nonumber Además, siempre existe una solución a este sistema de ecuaciones.
- Prueba
-
Para\vec{x} el minimizador del Teorema\PageIndex{5},\left( \vec{y}-A\vec{x}\right) \cdot A \vec{u} =0 para todos\vec{u} \in \mathbb{R}^{n} y desde Lema\PageIndex{1}, esto es lo mismo que decirA^T\left( \vec{y}-A\vec{x}\right) \cdot \vec{u}=0\nonumber para todosu \in \mathbb{R}^{n}. Esto implicaA^T\vec{y}-A^TA\vec{x}=\vec{0}.\nonumber Por lo tanto, hay una solución a la ecuación de este corolario, y resuelve el problema de minimización del Teorema\PageIndex{5}.
Tenga en cuenta que\vec{x} podría no ser único peroA\vec{x}, el punto más cercano deA\left(\mathbb{R}^{n}\right) a\vec{y} es único como se mostró en el argumento anterior.
Considera el siguiente ejemplo.
Encuentre una solución de mínimos cuadrados para el sistema\left[ \begin{array}{rr} 2 & 1 \\ -1 & 3 \\ 4 & 5 \end{array} \right] \left[ \begin{array}{c} x \\ y \end{array} \right] =\left[ \begin{array}{c} 2 \\ 1 \\ 1 \end{array} \right]\nonumber
Solución
Primero, considere si existe una solución real. Para ello, configurar la matriz aumentada dada por\left[ \begin{array}{rr|r} 2 & 1 & 2 \\ -1 & 3 & 1 \\ 4 & 5 & 1 \end{array} \right]\nonumber La forma reducida fila-escalón de esta matriz aumentada es\left[ \begin{array}{rr|r} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{array} \right]\nonumber
De ello se deduce que no hay una solución real a este sistema. Por lo tanto deseamos encontrar la solución de mínimos cuadrados. Las ecuaciones normales son\begin{aligned} A^T A \vec{x} &= A^T \vec{y} \\ \left[ \begin{array}{rrr} 2 & -1 & 4 \\ 1 & 3 & 5 \end{array} \right] \left[ \begin{array}{rr} 2 & 1 \\ -1 & 3 \\ 4 & 5 \end{array} \right] \left[ \begin{array}{c} x \\ y \end{array} \right] &=\left[ \begin{array}{rrr} 2 & -1 & 4 \\ 1 & 3 & 5 \end{array} \right] \left[ \begin{array}{c} 2 \\ 1 \\ 1 \end{array} \right]\end{aligned} y así necesitamos resolver el sistema\left[ \begin{array}{rr} 21 & 19 \\ 19 & 35 \end{array} \right] \left[ \begin{array}{c} x \\ y \end{array} \right] =\left[ \begin{array}{r} 7 \\ 10 \end{array} \right]\nonumber Este es un ejercicio familiar y la solución es\left[ \begin{array}{c} x \\ y \end{array} \right] =\left[ \begin{array}{c} \frac{5}{34} \\ \frac{7}{34} \end{array} \right]\nonumber
Considera otro ejemplo.
Encuentre una solución de mínimos cuadrados para el sistema\left[ \begin{array}{rr} 2 & 1 \\ -1 & 3 \\ 4 & 5 \end{array} \right] \left[ \begin{array}{c} x \\ y \end{array} \right] =\left[ \begin{array}{c} 3 \\ 2 \\ 9 \end{array} \right]\nonumber
Solución
Primero, considere si existe una solución real. Para ello, configurar la matriz aumentada dada por\left[ \begin{array}{rr|r} 2 & 1 & 3 \\ -1 & 3 & 2 \\ 4 & 5 & 9 \end{array} \right]\nonumber La forma reducida fila-escalón de esta matriz aumentada es\left[ \begin{array}{rr|r} 1 & 0 & 1 \\ 0 & 1 & 1 \\ 0 & 0 & 0 \end{array} \right]\nonumber
De ello se deduce que el sistema tiene una solución dada porx=y=1. Sin embargo, también podemos usar las ecuaciones normales y encontrar la solución de mínimos cuadrados. \left[ \begin{array}{rrr} 2 & -1 & 4 \\ 1 & 3 & 5 \end{array} \right] \left[ \begin{array}{rr} 2 & 1 \\ -1 & 3 \\ 4 & 5 \end{array} \right] \left[ \begin{array}{c} x \\ y \end{array} \right] =\left[ \begin{array}{rrr} 2 & -1 & 4 \\ 1 & 3 & 5 \end{array} \right] \left[ \begin{array}{r} 3 \\ 2 \\ 9 \end{array} \right]\nonumber Entonces\left[ \begin{array}{rr} 21 & 19 \\ 19 & 35 \end{array} \right] \left[ \begin{array}{c} x \\ y \end{array} \right] =\left[ \begin{array}{c} 40 \\ 54 \end{array} \right]\nonumber
La solución de mínimos cuadrados es la\left[ \begin{array}{c} x \\ y \end{array} \right] =\left[ \begin{array}{c} 1 \\ 1 \end{array} \right]\nonumber que es la misma que la solución encontrada anteriormente.
Una aplicación importante del Corolario\PageIndex{1} es el problema de encontrar la línea de regresión de mínimos cuadrados en la estadística. Supongamos que se le dan puntos en elxy plano\left\{ \left( x_{1},y_{1}\right), \left( x_{2},y_{2}\right), \cdots, \left( x_{n},y_{n}\right) \right\}\nonumber y le gustaría encontrar constantesm yb tales que la línea\vec{y}=m\vec{x}+b pase por todos estos puntos. Por supuesto esto será imposible en general. Por lo tanto, tratamos de encontrarm,b tal que la línea esté lo más cerca posible. El sistema deseado es
\left[ \begin{array}{c} y_{1} \\ \vdots \\ y_{n} \end{array} \right] =\left[ \begin{array}{cc} x_{1} & 1 \\ \vdots & \vdots \\ x_{n} & 1 \end{array} \right] \left[ \begin{array}{c} m \\ b \end{array} \right]\nonumber
que es de la forma\vec{y}=A\vec{x}. Se desea elegirm yb hacer
\left \| A\left[ \begin{array}{c} m \\ b \end{array} \right] -\left[ \begin{array}{c} y_{1} \\ \vdots \\ y_{n} \end{array} \right] \right \| ^{2}\nonumber
lo más pequeño posible. Según Teorema\PageIndex{5} y Corolario\PageIndex{1}, los mejores valores param yb ocurren como la solución para
A^{T}A\left[ \begin{array}{c} m \\ b \end{array} \right] =A^{T}\left[ \begin{array}{c} y_{1} \\ \vdots \\ y_{n} \end{array} \right] ,\ \;\mbox{where}\; A=\left[ \begin{array}{cc} x_{1} & 1 \\ \vdots & \vdots \\ x_{n} & 1 \end{array} \right]\nonumber
Por lo tanto, la computaciónA^{T}A,
\left[ \begin{array}{cc} \sum_{i=1}^{n}x_{i}^{2} & \sum_{i=1}^{n}x_{i} \\ \sum_{i=1}^{n}x_{i} & n \end{array} \right] \left[ \begin{array}{c} m \\ b \end{array} \right] =\left[ \begin{array}{c} \sum_{i=1}^{n}x_{i}y_{i} \\ \sum_{i=1}^{n}y_{i} \end{array} \right]\nonumber
Resolver este sistema de ecuaciones param yb (usando la regla de Cramer, por ejemplo) rinde:
m= \frac{-\left( \sum_{i=1}^{n}x_{i}\right) \left( \sum_{i=1}^{n}y_{i}\right) +\left( \sum_{i=1}^{n}x_{i}y_{i}\right) n}{\left( \sum_{i=1}^{n}x_{i}^{2}\right) n-\left( \sum_{i=1}^{n}x_{i}\right) ^{2}}\nonumber yb=\frac{-\left( \sum_{i=1}^{n}x_{i}\right) \sum_{i=1}^{n}x_{i}y_{i}+\left( \sum_{i=1}^{n}y_{i}\right) \sum_{i=1}^{n}x_{i}^{2}}{\left( \sum_{i=1}^{n}x_{i}^{2}\right) n-\left( \sum_{i=1}^{n}x_{i}\right) ^{2}}.\nonumber
Considera el siguiente ejemplo.
Encuentre la línea de regresión de mínimos cuadrados\vec{y}=m\vec{x}+b para el siguiente conjunto de puntos de datos:\left\{ (0,1), (1,2), (2,2), (3,4), (4,5) \right\} \nonumber
Solución
En este caso tenemos puntos den=5 datos y obtenemos:\begin{array}{ll} \sum_{i=1}^{5}x_{i} = 10 & \sum_{i=1}^{5}y_{i} = 14 \\ \\ \sum_{i=1}^{5}x_{i}y_{i} = 38 & \sum_{i=1}^{5}x_{i}^{2} = 30\\ \end{array}\nonumber y por lo tanto\begin{aligned} m &= \frac{- 10 * 14 + 5*38}{5*30-10^2} = 1.00 \\ \\ b &= \frac{- 10 * 38 + 14*30}{5*30-10^2} = 0.80 \\\end{aligned}
La línea de regresión de mínimos cuadrados para el conjunto de puntos de datos es:\vec{y} = \vec{x}+.8\nonumber
Se podría usar esta línea para aproximar otros valores para los datos. Por ejemplo parax=6 uno se podría utilizary(6)=6+.8=6.8 como un valor aproximado para los datos.
El siguiente diagrama muestra los puntos de datos y la línea de regresión correspondiente.

Claramente se podría hacer un ajuste de mínimos cuadrados para curvas de la formay=ax^{2}+bx+c de la misma manera. En este caso se quiere resolver lo mejor posible paraa,b, yc el sistema\left[ \begin{array}{ccc} x_{1}^{2} & x_{1} & 1 \\ \vdots & \vdots & \vdots \\ x_{n}^{2} & x_{n} & 1 \end{array} \right] \left[ \begin{array}{c} a \\ b \\ c \end{array} \right] =\left[ \begin{array}{c} y_{1} \\ \vdots \\ y_{n} \end{array} \right]\nonumber y uno utilizaría la misma técnica anterior. Muchos otros problemas similares son importantes, incluyendo muchos en dimensiones superiores y todos se resuelven de la misma manera.