Loading [MathJax]/jax/element/mml/optable/GeneralPunctuation.js
Saltar al contenido principal
Library homepage
 

Text Color

Text Size

 

Margin Size

 

Font Type

Enable Dyslexic Font
LibreTexts Español

4.11: Ortogonalidad

( \newcommand{\kernel}{\mathrm{null}\,}\)

Resultados
  1. Determinar si un conjunto dado es ortogonal u ortonormal.
  2. Determinar si una matriz dada es ortogonal.
  3. Dado un conjunto linealmente independiente, utilice el Proceso Gram-Schmidt para encontrar los conjuntos ortogonales y ortonormales correspondientes.
  4. Encuentra la proyección ortogonal de un vector sobre un subespacio.
  5. Encuentra la aproximación de mínimos cuadrados para una colección de puntos.

En esta sección, examinamos lo que significa que los vectores (y conjuntos de vectores) sean ortogonales y ortonormales. En primer lugar, es necesario revisar algunos conceptos importantes. Puede recordar las definiciones para el lapso de un conjunto de vectores y un conjunto lineal independiente de vectores. Incluimos las definiciones y ejemplos aquí para mayor comodidad.

Definición4.11.1: Span of a Set of Vectors and Subspace

La colección de todas las combinaciones lineales de un conjunto de vectores{u1,,uk} enRn se conoce como el lapso de estos vectores y se escribe comospan{u1,,uk}.
Llamamos a una colección de la formaspan{u1,,uk} un subespacio deRn.

Considera el siguiente ejemplo.

Ejemplo4.11.1: Spanning Vectors

Describir el lapso de los vectoresu=[110]T yv=[320]TR3.

Solución

Se puede ver que cualquier combinación lineal de los vectoresu yv produce un vector[xy0]T en elXY plano -.

Además, cada vector en elXY plano es de hecho una combinación lineal de los vectoresu yv. Eso es porque[xy0]=(2x+3y)[110]+(xy)[320]

Así span{u,v} es precisamente elXY -plano.

El lapso de un conjunto de vectores enRn es lo que llamamos un subespacio deRn. Un subespacioW se caracteriza por la característica de que cualquier combinación lineal de vectoresW es nuevamente un vector contenido enW.

Otra propiedad importante de los conjuntos de vectores se llama independencia lineal.

Definición4.11.2: Linear Independence

Se dice que un conjunto de vectores distintos de cero{u1,,uk} enRn es linealmente independiente si ningún vector en ese conjunto está en el lapso de los otros vectores de ese conjunto.

Aquí hay un ejemplo.

Ejemplo4.11.2: Linearly Independent Vectors

Considerar vectoresu=[110]T,v=[320]T, yw=[450]TR3. Verificar si el conjunto{u,v,w} es linealmente independiente.

Solución

Ya verificamos en Ejemplo4.11.1 quespan{u,v} es elXY -plano. Dado que claramente tambiénw está en elXY plano -, entonces el conjunto no{u,v,w} es linealmente independiente.

En términos de expansión, un conjunto de vectores es linealmente independiente si no contiene vectores innecesarios. En el ejemplo anterior se puede ver que el vectorw no ayuda a abarcar ningún vector nuevo que no esté ya en el lapso de los otros dos vectores. Sin embargo puedes verificar que el conjunto{u,v} es linealmente independiente, ya que no obtendrás elXY -plane como el span de un solo vector.

También podemos determinar si un conjunto de vectores es linealmente independiente examinando combinaciones lineales. Un conjunto de vectores es linealmente independiente si y solo si siempre que una combinación lineal de estos vectores sea igual a cero, se deduce que todos los coeficientes son iguales a cero. Es un buen ejercicio para verificar esta equivalencia, y esta última condición se suele utilizar como definición (equivalente) de independencia lineal.

Si un subespacio es abarcado por un conjunto linealmente independiente de vectores, entonces decimos que es una base para el subespacio.

Definición4.11.3: Basis

QueV sea un subespacio deRn. Entonces{u1,,uk} es una base paraV si se mantienen las siguientes dos condiciones.

  1. span{u1,,uk}=V
  2. {u1,,uk}es linealmente independiente

Así, el conjunto{u,v} de vectores de Ejemplo4.11.2 es una base paraXY -plane inR3 ya que es linealmente independiente y abarca elXY -plano.

Recordemos de las propiedades del punto producto de vectores que dos vectoresu yv son ortogonales siuv=0. Supongamos que un vector es ortogonal a un conjunto de expansión deRn. ¿Qué se puede decir de tal vector? Esta es la discusión en el siguiente ejemplo.

Ejemplo4.11.3: Orthogonal Vector to a Spanning Set

Vamos{x1,x2,,xk}Rn y supongamosRn=span{x1,x2,,xk}. Además, supongamos que existe un vectoruRn para el cualuxj=0 para todosj,1jk. ¿Qué tipo de vector esu?

Solución

Escribeu=t1x1+t2x2++tkxk para algunost1,t2,,tkR (esto es posible porquex1,x2,,xk spanRn).

Entonces

Ya que \| \vec{u} \| ^2 =0, \| \vec{u} \| =0. Sabemos que \| \vec{u} \| =0 si y sólo si\vec{u}=\vec{0}_n. Por lo tanto,\vec{u}=\vec{0}_n. En conclusión, el único vector ortogonal a cada vector de un conjunto de expansión de\mathbb{R}^n es el vector cero.

Ahora podemos discutir qué se entiende por un conjunto ortogonal de vectores.

Definición\PageIndex{4}: Orthogonal Set of Vectors

Dejar\{ \vec{u}_1, \vec{u}_2, \cdots, \vec{u}_m \} ser un conjunto de vectores en\mathbb{R}^n. Entonces este conjunto se llama un conjunto ortogonal si se mantienen las siguientes condiciones:

  1. \vec{u}_i \cdot \vec{u}_j = 0para todosi \neq j
  2. \vec{u}_i \neq \vec{0}para todosi

Si tenemos un conjunto ortogonal de vectores y normalizamos cada vector para que tengan longitud 1, el conjunto resultante se denomina conjunto ortonormal de vectores. Se pueden describir de la siguiente manera.

Definición\PageIndex: {5} Orthonormal Set of Vectors

Un conjunto de vectores,\left\{ \vec{w}_{1},\cdots ,\vec{w}_{m}\right\} se dice que es un conjunto ortonormal si\vec{w}_i \cdot \vec{w}_j = \delta _{ij} = \left\{ \begin{array}{c} 1\text{ if }i=j \\ 0\text{ if }i\neq j \end{array} \right.\nonumber

Tenga en cuenta que todos los conjuntos ortonormales son ortogonales, pero lo contrario no es necesariamente cierto ya que los vectores pueden no estar normalizados. Para normalizar los vectores, simplemente necesitamos dividir cada uno por su longitud.

Definición\PageIndex{6}: Normalizing an Orthogonal Set

La normalización de un conjunto ortogonal es el proceso de convertir un conjunto ortogonal (pero no ortonormal) en un conjunto ortonormal. Si\{ \vec{u}_1, \vec{u}_2, \ldots, \vec{u}_k\} es un subconjunto ortogonal de\mathbb{R}^n, entonces\left\{ \frac{1}{ \| \vec{u}_1 \| }\vec{u}_1, \frac{1}{ \| \vec{u}_2 \| }\vec{u}_2, \ldots, \frac{1}{ \| \vec{u}_k \| }\vec{u}_k \right\}\nonumber es un conjunto ortonormal.

Ilustramos este concepto en el siguiente ejemplo.

Ejemplo\PageIndex{4}: Orthonormal Set

Considera el conjunto de vectores dado por\left\{ \vec{u}_1, \vec{u}_2 \right\} = \left\{ \left[ \begin{array}{c} 1 \\ 1 \end{array} \right], \left[ \begin{array}{r} -1 \\ 1 \end{array} \right] \right\}\nonumber Mostrar que es un conjunto ortogonal de vectores pero no uno ortonormal. Encuentra el conjunto ortonormal correspondiente.

Solución

Uno fácilmente verifica eso\vec{u}_1 \cdot \vec{u}_2 = 0 y\left\{ \vec{u}_1, \vec{u}_2 \right\} es un conjunto ortogonal de vectores. Por otro lado se puede computar eso \| \vec{u}_1 \| = \| \vec{u}_2 \| = \sqrt{2} \neq 1 y así no es un conjunto ortonormal.

Así, para encontrar un conjunto ortonormal correspondiente, simplemente necesitamos normalizar cada vector. Escribiremos\{ \vec{w}_1, \vec{w}_2 \} para el conjunto ortonormal correspondiente. Entonces,\begin{aligned} \vec{w}_1 &= \frac{1}{ \| \vec{u}_1 \| } \vec{u}_1\\ &= \frac{1}{\sqrt{2}} \left[ \begin{array}{c} 1 \\ 1 \end{array} \right] \\ &= \left[ \begin{array}{c} \frac{1}{\sqrt{2}}\\ \frac{1}{\sqrt{2}} \end{array} \right]\end{aligned}

Del mismo modo,\begin{aligned} \vec{w}_2 &= \frac{1}{ \| \vec{u}_2 \| } \vec{u}_2\\ &= \frac{1}{\sqrt{2}} \left[ \begin{array}{r} -1 \\ 1 \end{array} \right] \\ &= \left[ \begin{array}{r} -\frac{1}{\sqrt{2}}\\ \frac{1}{\sqrt{2}} \end{array} \right]\end{aligned}

Por lo tanto, el conjunto ortonormal correspondiente es\left\{ \vec{w}_1, \vec{w}_2 \right\} = \left\{ \left[ \begin{array}{c} \frac{1}{\sqrt{2}}\\ \frac{1}{\sqrt{2}} \end{array} \right], \left[ \begin{array}{r} -\frac{1}{\sqrt{2}}\\ \frac{1}{\sqrt{2}} \end{array} \right] \right\}\nonumber

Se puede verificar que este conjunto es ortogonal.

Considere un conjunto ortogonal de vectores en\mathbb{R}^n, escrito\{ \vec{w}_1, \cdots, \vec{w}_k \} conk \leq n. El lapso de estos vectores es un subespacioW de\mathbb{R}^n. Si pudiéramos demostrar que este conjunto ortogonal también es linealmente independiente, tendríamos una base deW. Esto lo mostraremos en el siguiente teorema.

Teorema\PageIndex{1}: Orthogonal Basis of a Subspace

Let\{ \vec{w}_1, \vec{w}_2, \cdots, \vec{w}_k \} Ser un conjunto ortonormal de vectores en\mathbb{R}^n. Entonces este conjunto es linealmente independiente y forma una base para el subespacioW = \mathrm{span} \{ \vec{w}_1, \vec{w}_2, \cdots, \vec{w}_k \}.

Prueba

Para mostrar que es un conjunto linealmente independiente, supongamos que una combinación lineal de estos vectores es igual\vec{0}, como:a_1 \vec{w}_1 + a_2 \vec{w}_2 + \cdots + a_k \vec{w}_k = \vec{0}, a_i \in \mathbb{R}\nonumber Necesitamos mostrar que todosa_i = 0. Para ello, toma el producto punto de cada lado de la ecuación anterior con el vector\vec{w}_i y obtén lo siguiente.

\begin{aligned} \vec{w}_i \cdot (a_1 \vec{w}_1 + a_2 \vec{w}_2 + \cdots + a_k \vec{w}_k ) &= \vec{w}_i \cdot \vec{0}\\ a_1 (\vec{w}_i \cdot \vec{w}_1) + a_2 (\vec{w}_i \cdot \vec{w}_2) + \cdots + a_k (\vec{w}_i \cdot \vec{w}_k) &= 0 \end{aligned}

Ahora como el conjunto es ortogonal,\vec{w}_i \cdot \vec{w}_m = 0 para todosm \neq i, así tenemos:a_1 (0) + \cdots + a_i(\vec{w}_i \cdot \vec{w}_i) + \cdots + a_k (0) = 0\nonumber a_i \| \vec{w}_i \| ^2 = 0\nonumber

Ya que el conjunto es ortogonal, lo sabemos \| \vec{w}_i \| ^2 \neq 0. De ello se deduce quea_i =0. Dado que ela_i fue elegido arbitrariamente, el conjunto\{ \vec{w}_1, \vec{w}_2, \cdots, \vec{w}_k \} es linealmente independiente.

Finalmente ya queW = \mbox{span} \{ \vec{w}_1, \vec{w}_2, \cdots, \vec{w}_k \}, el conjunto de vectores también abarcaW y por lo tanto forma una base deW.

Si un conjunto ortogonal es una base para un subespacio, llamamos a esto una base ortogonal. De igual manera, si un conjunto ortonormal es una base, llamamos a esto una base ortonormal.

Concluimos esta sección con una discusión sobre las expansiones de Fourier. Dada cualquier baseB ortogonal\mathbb{R}^n y un vector arbitrario\vec{x} \in \mathbb{R}^n, ¿cómo expresamos\vec{x} como una combinación lineal de vectores enB? La solución es la expansión de Fourier.

Teorema\PageIndex{2}: Fourier Expansion

DejarV ser un subespacio de\mathbb{R}^n y supongamos que\{ \vec{u}_1, \vec{u}_2, \ldots, \vec{u}_m \} es una base ortogonal deV. Entonces para cualquier\vec{x}\in V,

\vec{x} = \left(\frac{\vec{x}\cdot \vec{u}_1}{ \| \vec{u}_1 \| ^2}\right) \vec{u}_1 + \left(\frac{\vec{x}\cdot \vec{u}_2}{ \| \vec{u}_2 \| ^2}\right) \vec{u}_2 + \cdots + \left(\frac{\vec{x}\cdot \vec{u}_m}{ \| \vec{u}_m \| ^2}\right) \vec{u}_m\nonumber

Esta expresión se llama la expansión de Fourier de\vec{x}, y\frac{\vec{x}\cdot \vec{u}_j}{ \| \vec{u}_j \| ^2},\nonumber j=1,2,\ldots,m son los coeficientes de Fourier.

Considera el siguiente ejemplo.

Ejemplo\PageIndex{5}: Fourier Expansion

Dejar\vec{u}_1= \left[\begin{array}{r} 1 \\ -1 \\ 2 \end{array}\right], \vec{u}_2= \left[\begin{array}{r} 0 \\ 2 \\ 1 \end{array}\right], y\vec{u}_3 =\left[\begin{array}{r} 5 \\ 1 \\ -2 \end{array}\right], y dejar\vec{x} =\left[\begin{array}{r} 1 \\ 1 \\ 1 \end{array}\right].

EntoncesB=\{ \vec{u}_1, \vec{u}_2, \vec{u}_3\} es una base ortogonal de\mathbb{R}^3.

Calcular la expansión de Fourier de\vec{x}, escribiendo así\vec{x} como una combinación lineal de los vectores deB.

Solución

Ya queB es una base (verificar!) hay una manera única de expresar\vec{x} como una combinación lineal de los vectores deB. Por otra parte ya queB es una base ortogonal (verificar!) , entonces esto se puede hacer calculando la expansión de Fourier de\vec{x}.

Es decir:

\vec{x} = \left(\frac{\vec{x}\cdot \vec{u}_1}{ \| \vec{u}_1 \| ^2}\right) \vec{u}_1 + \left(\frac{\vec{x}\cdot \vec{u}_2}{ \| \vec{u}_2 \| ^2}\right) \vec{u}_2 + \left(\frac{\vec{x}\cdot \vec{u}_3}{ \| \vec{u}_3 \| ^2}\right) \vec{u}_3. \nonumber

Calculamos fácilmente:

\frac{\vec{x}\cdot\vec{u}_1}{ \| \vec{u}_1 \| ^2} = \frac{2}{6}, \; \frac{\vec{x}\cdot\vec{u}_2}{ \| \vec{u}_2 \| ^2} = \frac{3}{5}, \mbox{ and } \frac{\vec{x}\cdot\vec{u}_3}{ \| \vec{u}_3 \| ^2} = \frac{4}{30}. \nonumber

Por lo tanto,\left[\begin{array}{r} 1 \\ 1 \\ 1 \end{array}\right] = \frac{1}{3}\left[\begin{array}{r} 1 \\ -1 \\ 2 \end{array}\right] +\frac{3}{5}\left[\begin{array}{r} 0 \\ 2 \\ 1 \end{array}\right] +\frac{2}{15}\left[\begin{array}{r} 5 \\ 1 \\ -2 \end{array}\right]. \nonumber

Matrices ortogonales

Recordemos que el proceso para encontrar la inversa de una matriz fue a menudo engorroso. En contraste, fue muy fácil tomar la transposición de una matriz. Por suerte para algunas matrices especiales, la transposición es igual a la inversa. Cuando unan \times n matriz tiene todas las entradas reales y su transposición es igual a su inversa, la matriz se denomina matriz ortogonal.

La definición precisa es la siguiente.

Definición\PageIndex{7}: Orthogonal Matrices

Unan\times n matriz realU se llama matriz ortogonal si

UU^{T}=U^{T}U=I.\nonumber

Nota ya queU se supone que es una matriz cuadrada, basta con verificar solo una de estas igualdadesUU^{T}=I oU^{T}U=I retenciones para garantizar queU^T es la inversa deU.

Considera el siguiente ejemplo.

Ejemplo\PageIndex{6}: Orthogonal Matrix

Matriz ortogonal Mostrar la matrizU=\left[ \begin{array}{rr} \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{2}} & -\frac{1}{\sqrt{2}} \end{array} \right]\nonumber es ortogonal.

Solución

Todo lo que tenemos que hacer es verificar (una de las ecuaciones de) los requisitos de Definición\PageIndex{7}.

UU^{T}=\left[ \begin{array}{rr} \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{2}} & -\frac{1}{\sqrt{2}} \end{array} \right] \left[ \begin{array}{rr} \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{2}} & -\frac{1}{\sqrt{2}} \end{array} \right] = \left[ \begin{array}{cc} 1 & 0 \\ 0 & 1 \end{array} \right]\nonumber

Ya queUU^{T} = I, esta matriz es ortogonal.

Aquí hay otro ejemplo.

Ejemplo\PageIndex{7}: Orthogonal Matrix

Matriz ortogonal LetU=\left[ \begin{array}{rrr} 1 & 0 & 0 \\ 0 & 0 & -1 \\ 0 & -1 & 0 \end{array} \right] . EsU ortogonal?

Solución

Nuevamente la respuesta es sí y esto se puede verificar simplemente mostrando queU^{T}U=I:

\begin{aligned} U^{T}U&=\left[ \begin{array}{rrr} 1 & 0 & 0 \\ 0 & 0 & -1 \\ 0 & -1 & 0 \end{array} \right] ^{T}\left[ \begin{array}{rrr} 1 & 0 & 0 \\ 0 & 0 & -1 \\ 0 & -1 & 0 \end{array} \right] \\ &=\left[ \begin{array}{rrr} 1 & 0 & 0 \\ 0 & 0 & -1 \\ 0 & -1 & 0 \end{array} \right] \left[ \begin{array}{rrr} 1 & 0 & 0 \\ 0 & 0 & -1 \\ 0 & -1 & 0 \end{array} \right] \\ &=\left[ \begin{array}{rrr} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{array} \right]\end{aligned}

Cuando decimos queU es ortogonal, estamos diciendo esoUU^T=I, es decir, que\sum_{j}u_{ij}u_{jk}^{T}=\sum_{j}u_{ij}u_{kj}=\delta _{ik}\nonumber donde\delta _{ij} está el símbolo de Kronecker definido por\delta _{ij}=\left\{ \begin{array}{c} 1 \text{ if }i=j \\ 0\text{ if }i\neq j \end{array} \right.\nonumber

En palabras, el producto de lai^{th} fila deU con lak^{th} fila da1 sii=k y0 sii\neq k. Lo mismo es cierto de las columnas porqueU^{T}U=I también. Por lo tanto,\sum_{j}u_{ij}^{T}u_{jk}=\sum_{j}u_{ji}u_{jk}=\delta _{ik}\nonumber que dice que el producto de una columna con otra columna da1 si las dos columnas son iguales y0 si las dos columnas son diferentes.

Más sucintamente, esto establece que si\vec{u}_{1},\cdots ,\vec{u}_{n} son las columnas deU, una matriz ortogonal, entonces\vec{u}_{i}\cdot \vec{u}_{j}=\delta _{ij} = \left\{ \begin{array}{c} 1\text{ if }i=j \\ 0\text{ if }i\neq j \end{array} \right.\nonumber

Diremos que las columnas forman un conjunto ortonormal de vectores, y de manera similar para las filas. Así, una matriz es ortogonal si sus filas (o columnas) forman un conjunto ortonormal de vectores. Observe que la convención es llamar a tal matriz ortogonal en lugar de ortonormal (¡aunque esto puede tener más sentido!).

Proposición\PageIndex{1}: Orthonormal Basis

Las filas de una matrizn \times n ortogonal forman una base ortonormal de\mathbb{R}^n. Además, cualquier base ortonormal de se\mathbb{R}^n puede utilizar para construir una matrizn \times n ortogonal.

Prueba

Recordemos del teorema\PageIndex{1} que un conjunto ortonormal es linealmente independiente y forma una base para su lapso. Dado que las filas de una matrizn \times n ortogonal forman un conjunto ortonormal, deben ser linealmente independientes. Ahora tenemos vectoresn linealmente independientes, y de ello se deduce que su lapso es igual\mathbb{R}^n. Por lo tanto, estos vectores forman una base ortonormal para\mathbb{R}^n.

Supongamos ahora que tenemos una base ortonormal para\mathbb{R}^n. Dado que la base contendrán vectores, estos pueden ser utilizados para construir unan \times n matriz, con cada vector convirtiéndose en una fila. Por lo tanto, la matriz está compuesta por filas ortonormales, lo que por nuestra discusión anterior, significa que la matriz es ortogonal. Tenga en cuenta que también podríamos tener construir una matriz con cada vector convirtiéndose en una columna en su lugar, y esto nuevamente sería una matriz ortogonal. De hecho esto es simplemente la transposición de la matriz anterior.

Considera la siguiente proposición.

Proposición\PageIndex{2}: Determinant of Orthogonal Matrices

Det SupongamosU es una matriz ortogonal. Entonces\det \left( U\right) = \pm 1.

Prueba

Este resultado se desprende de las propiedades de los determinantes. Recordemos que para cualquier matrizA,\det(A)^T = \det(A). Ahora siU es ortogonal, entonces:(\det \left( U\right)) ^{2}=\det \left( U^{T}\right) \det \left( U\right) =\det \left( U^{T}U\right) =\det \left( I\right) =1\nonumber

Por lo tanto(\det (U))^2 = 1 y de ello se deduce\det \left( U\right) = \pm 1.

Las matrices ortogonales se dividen en dos clases, propias e impropias. Las matrices ortogonales adecuadas son aquellas cuyo determinante es igual a 1 y las impropias son aquellas cuyo determinante es igual-1. El motivo de la distinción es que a veces se considera que las matrices ortogonales impropias no tienen significación física. Estas matrices provocan un cambio de orientación que correspondería al paso del material por sí mismo de manera no física. Por lo tanto, al considerar qué sistemas de coordenadas deben considerarse en ciertas aplicaciones, solo es necesario considerar aquellos que están relacionados por una transformación ortogonal adecuada. Geométricamente, las transformaciones lineales determinadas por las matrices ortogonales adecuadas corresponden a la composición de las rotaciones.

Concluimos esta sección con dos propiedades útiles de matrices ortogonales.

Ejemplo\PageIndex{8}: Product and Inverse of Orthogonal Matrices

SupongamosA yB son matrices ortogonales. EntoncesAB yA^{-1} ambos existen y son ortogonales.

Solución

Primero examinamos el productoAB. (AB)(B^TA^T)=A(BB^T)A^T =AA^T=I\nonumber Ya queAB es cuadrada,B^TA^T=(AB)^T es la inversa deAB, por lo tantoAB es invertible, y(AB)^{-1}=(AB)^T por lo tanto,AB es ortogonal.

A continuación mostramos que tambiénA^{-1}=A^T es ortogonal. (A^{-1})^{-1} = A = (A^T)^{T} =(A^{-1})^{T}\nonumber Por lo tanto tambiénA^{-1} es ortogonal.

Proceso Gram-Schmidt

El proceso Gram-Schmidt es un algoritmo para transformar un conjunto de vectores en un conjunto ortonormal que abarca el mismo subespacio, que está generando la misma colección de combinaciones lineales (ver Definición 9.2.2).

El objetivo del proceso Gram-Schmidt es tomar un conjunto linealmente independiente de vectores y transformarlo en un conjunto ortonormal con el mismo lapso. El primer objetivo es construir un conjunto ortogonal de vectores con el mismo lapso, ya que a partir de ahí se puede obtener un conjunto ortonormal simplemente dividiendo cada vector por su longitud.

Algorithm\PageIndex{1}: Gram-Schmidt Process

Let\{ \vec{u}_1,\cdots ,\vec{u}_n \} Ser un conjunto de vectores linealmente independientes en\mathbb{R}^{n}.

I: Construir un nuevo conjunto de vectores de la\{ \vec{v}_1,\cdots ,\vec{v}_n \} siguiente manera:\begin{array}{ll} \vec{v}_1 & = \vec{u}_1 \\ \vec{v}_{2} & = \vec{u}_{2} - \left( \dfrac{ \vec{u}_2 \cdot \vec{v}_1}{ \| \vec{v}_1 \| ^2} \right) \vec{v}_1\\ \vec{v}_{3} & = \vec{u}_{3} - \left( \dfrac{\vec{u}_3 \cdot \vec{v}_1}{ \| \vec{v}_1 \| ^2} \right) \vec{v}_1 - \left( \dfrac{\vec{u}_3 \cdot \vec{v}_2}{ \| \vec{v}_2 \| ^2} \right) \vec{v}_2\\ \vdots \\ \vec{v}_{n} & = \vec{u}_{n} - \left( \dfrac{\vec{u}_n \cdot \vec{v}_1}{ \| \vec{v}_1 \| ^2} \right) \vec{v}_1 - \left( \dfrac{\vec{u}_n \cdot \vec{v}_2}{ \| \vec{v}_2 \| ^2} \right) \vec{v}_2 - \cdots - \left( \dfrac{\vec{u}_{n} \cdot \vec{v}_{n-1}}{ \| \vec{v}_{n-1} \| ^2} \right) \vec{v}_{n-1} \\ \end{array}\nonumber

II: Ahora vamos\vec{w}_i = \dfrac{\vec{v}_i}{ \| \vec{v}_i \| } pori=1, \cdots ,n.

Entonces

  1. \left\{ \vec{v}_1, \cdots, \vec{v}_n \right\}es un conjunto ortogonal.
  2. \left\{ \vec{w}_1,\cdots , \vec{w}_n \right\}es un conjunto ortonormal.
  3. \mathrm{span}\left\{ \vec{u}_1,\cdots ,\vec{u}_n \right\} = \mathrm{span} \left\{ \vec{v}_1, \cdots, \vec{v}_n \right\} = \mathrm{span}\left\{ \vec{w}_1,\cdots ,\vec{w}_n \right\}.
Solución

La prueba completa de este algoritmo está más allá de este material, sin embargo aquí hay una indicación de los argumentos.

Para mostrar que\left\{ \vec{v}_1,\cdots , \vec{v}_n \right\} es un conjunto ortogonal, vamosa_2 = \dfrac{ \vec{u}_2 \cdot \vec{v}_1}{ \| \vec{v}_1 \| ^2}\nonumber entonces:\begin{array}{ll} \vec{v}_1 \cdot \vec{v}_2 & = \vec{v}_1 \cdot \left( \vec{u}_2 - a_2 \vec{v}_1 \right) \\ & = \vec{v}_1 \cdot \vec{u}_2 - a_2 (\vec{v}_1 \cdot \vec{v}_1 \\ & = \vec{v}_1 \cdot \vec{u}_2 - \dfrac{ \vec{u}_2 \cdot \vec{v}_1}{ \| \vec{v}_1 \| ^2} \| \vec{v}_1 \| ^2 \\ & = ( \vec{v}_1 \cdot \vec{u}_2 ) - ( \vec{u}_2 \cdot \vec{v}_1 ) =0\\ \end{array}\nonumber Ahora que has demostrado que\{ \vec{v}_1, \vec{v}_2\} es ortogonal, usa el mismo método que el anterior para mostrar que también\{ \vec{v}_1, \vec{v}_2, \vec{v}_3\} es ortogonal, y así sucesivamente.

Entonces de manera similar lo demuestras\mathrm{span}\left\{ \vec{u}_1,\cdots ,\vec{u}_n \right\} = \mathrm{span}\left\{ \vec{v}_1,\cdots ,\vec{v}_n \right\}.

Finalmente definir\vec{w}_i = \dfrac{\vec{v}_i}{ \| \vec{v}_i \| } for noi=1, \cdots ,n afecta a la ortogonalidad y produce vectores de longitud 1, de ahí un conjunto ortonormal. También se puede observar que tampoco afecta el lapso y la prueba estaría completa.

Considera el siguiente ejemplo.

Ejemplo\PageIndex{9}: Find Orthonormal Set with Same Span

Considere el conjunto de vectores\{\vec{u}_1, \vec{u}_2\} dados como en Ejemplo\PageIndex{1}. Eso es\vec{u}_1=\left[ \begin{array}{r} 1 \\ 1 \\ 0 \end{array} \right], \vec{u}_2=\left[ \begin{array}{r} 3 \\ 2 \\ 0 \end{array} \right] \in \mathbb{R}^{3}\nonumber

Utilice el algoritmo Gram-Schmidt para encontrar un conjunto ortonormal de vectores\{\vec{w}_1, \vec{w}_2\} que tengan el mismo lapso.

Solución

Ya remarcamos que el conjunto de vectores en\{\vec{u}_1, \vec{u}_2\} es linealmente independiente, por lo que podemos proceder con el algoritmo Gram-Schmidt:\begin{aligned} \vec{v}_1 &= \vec{u}_1 = \left[ \begin{array}{r} 1 \\ 1 \\ 0 \end{array} \right] \\ \vec{v}_{2} &= \vec{u}_{2} - \left( \dfrac{\vec{u}_2 \cdot \vec{v}_1}{ \| \vec{v}_1 \| ^2} \right) \vec{v}_1\\ &= \left[ \begin{array}{r} 3 \\ 2 \\ 0 \end{array} \right] - \frac{5}{2} \left[ \begin{array}{r} 1 \\ 1 \\ 0 \end{array} \right] \\ &= \left[ \begin{array}{r} \frac{1}{2} \\ - \frac{1}{2} \\ 0 \end{array} \right] \end{aligned}

Ahora para normalizar simplemente dejar\begin{aligned} \vec{w}_1 &= \frac{\vec{v}_1}{ \| \vec{v}_1 \| } = \left[ \begin{array}{r} \frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{2}} \\ 0 \end{array} \right] \\ \vec{w}_2 &= \frac{\vec{v}_2}{ \| \vec{v}_2 \| } = \left[ \begin{array}{r} \frac{1}{\sqrt{2}} \\ - \frac{1}{\sqrt{2}} \\ 0 \end{array} \right]\end{aligned}

Se puede verificar que\{\vec{w}_1, \vec{w}_2\} es un conjunto ortonormal de vectores que tienen el mismo lapso que\{\vec{u}_1, \vec{u}_2\}, a saber, elXY -plane.

En este ejemplo, comenzamos con un conjunto linealmente independiente y encontramos un conjunto ortonormal de vectores que tenían el mismo lapso. Resulta que si partimos de una base de un subespacio y aplicamos el algoritmo Gram-Schmidt, el resultado será una base ortogonal del mismo subespacio. Esto lo examinamos en el siguiente ejemplo.

Ejemplo\PageIndex{10}: Find a Corresponding Orthogonal Basis

Dejar\vec{x}_1=\left[\begin{array}{c} 1\\ 0\\ 1\\ 0 \end{array}\right], \vec{x}_2=\left[\begin{array}{c} 1\\ 0\\ 1\\ 1 \end{array}\right], \mbox{ and } \vec{x}_3=\left[\begin{array}{c} 1\\ 1\\ 0\\ 0 \end{array}\right],\nonumber y dejarU=\mathrm{span}\{\vec{x}_1, \vec{x}_2,\vec{x}_3\}. Utilice el Proceso Gram-Schmidt para construir una base ortogonalB deU.

Solución

Primero\vec{f}_1=\vec{x}_1.

Siguiente,\vec{f}_2=\left[\begin{array}{c} 1\\ 0\\ 1\\ 1 \end{array}\right] -\frac{2}{2}\left[\begin{array}{c} 1\\ 0\\ 1\\ 0 \end{array}\right] =\left[\begin{array}{c} 0\\ 0\\ 0\\ 1 \end{array}\right].\nonumber

Por último,\vec{f}_3=\left[\begin{array}{c} 1\\ 1\\ 0\\ 0 \end{array}\right] -\frac{1}{2}\left[\begin{array}{c} 1\\ 0\\ 1\\ 0 \end{array}\right] -\frac{0}{1}\left[\begin{array}{c} 0\\ 0\\ 0\\ 1 \end{array}\right] =\left[\begin{array}{c} 1/2\\ 1\\ -1/2\\ 0 \end{array}\right].\nonumber

Por lo tanto,\left\{ \left[\begin{array}{c} 1\\ 0\\ 1\\ 0 \end{array}\right], \left[\begin{array}{c} 0\\ 0\\ 0\\ 1 \end{array}\right], \left[\begin{array}{c} 1/2\\ 1\\ -1/2\\ 0 \end{array}\right] \right\}\nonumber es una base ortogonal deU. Sin embargo, a veces es más conveniente tratar con vectores que tienen entradas enteras, en cuyo caso tomamosB=\left\{ \left[\begin{array}{c} 1\\ 0\\ 1\\ 0 \end{array}\right], \left[\begin{array}{c} 0\\ 0\\ 0\\ 1 \end{array}\right], \left[\begin{array}{r} 1\\ 2\\ -1\\ 0 \end{array}\right] \right\}.\nonumber

Proyecciones ortogonales

Un uso importante del Proceso Gram-Schmidt es en las proyecciones ortogonales, el foco de esta sección.

Puede recordar que un subespacio de\mathbb{R}^n es un conjunto de vectores que contiene el vector cero, y se cierra bajo suma y multiplicación escalar. Llamemos a tal subespacioW. En particular, un plano en el\mathbb{R}^n que contiene el origen,\left(0,0, \cdots, 0 \right), es un subespacio de\mathbb{R}^n.

Supongamos que un puntoY en no\mathbb{R}^n está contenido enW, entonces ¿a qué puntoZW está más cercaY? Usando el Proceso Gram-Schmidt, podemos encontrar tal punto. Dejar\vec{y}, \vec{z} representar los vectores de posición de los puntosY yZ respectivamente, con la\vec{y}-\vec{z} representación del vector que conecta los dos puntosY yZ. De ello se deduce que siZ es el puntoW más cercano aY, entonces\vec{y} - \vec{z} será perpendicular aW (¿ves por qué?) ; en otras palabras,\vec{y} - \vec{z} es ortogonal aW (y a cada vector contenido enW) como en el siguiente diagrama.

clipboard_e45fa45daf7ac272bec5db504e1a523d2.png
Figura\PageIndex{1}

El vector\vec{z} se llama la proyección ortogonal de\vec{y} onW. La definición se da de la siguiente manera.

Definición\PageIndex{8}: Orthogonal Projection

DejarW ser un subespacio de\mathbb{R}^n, yY ser cualquier punto en\mathbb{R}^n. Entonces la proyección ortogonal deY sobreW está dada por\vec{z} = \mathrm{proj}_{W}\left( \vec{y}\right) = \left( \frac{\vec{y} \cdot \vec{w}_1}{ \| \vec{w}_1 \| ^2}\right) \vec{w}_1 + \left( \frac{\vec{y} \cdot \vec{w}_2}{ \| \vec{w}_2 \| ^2}\right) \vec{w}_2 + \cdots + \left( \frac{\vec{y} \cdot \vec{w}_m}{ \| \vec{w}_m \| ^2}\right) \vec{w}_m\nonumber donde\{\vec{w}_1, \vec{w}_2, \cdots, \vec{w}_m \} está cualquier base ortogonal deW.

Por lo tanto, para encontrar la proyección ortogonal, primero debemos encontrar una base ortogonal para el subespacio. Tenga en cuenta que se podría usar una base ortonormal, pero no es necesario en este caso ya que como puede ver arriba la normalización de cada vector se incluye en la fórmula para la proyección.

Antes de explorar esto más a través de un ejemplo, mostramos que la proyección ortogonal de hecho produce un puntoZ (el punto cuyo vector de posición es el vector\vec{z} anterior) que es el puntoW más cercano aY.

Teorema\PageIndex{3}: Approximation Theorem

DejarW ser un subespacio de\mathbb{R}^n yY cualquier punto en\mathbb{R}^n. DejarZ ser el punto cuyo vector de posición es la proyección ortogonal deY sobreW.

Entonces,Z es el puntoW más cercano aY.

Prueba

PrimeroZ es sin duda un punto enW ya que está en el lapso de una base deW.

Para demostrar que eseZ es el puntoW más cercano aY, queremos mostrar eso|\vec{y}-\vec{z}_1| > |\vec{y}-\vec{z}| para todos\vec{z}_1 \neq \vec{z} \in W. Empezamos por escribir\vec{y}-\vec{z}_1 = (\vec{y} - \vec{z}) + (\vec{z} - \vec{z}_1). Ahora, el vector\vec{y} - \vec{z} es ortogonal aW, y\vec{z} - \vec{z}_1 está contenido enW. Por lo tanto, estos vectores son ortogonales entre sí. Por el Teorema de Pitágoras, tenemos que \| \vec{y} - \vec{z}_1 \| ^2 = \| \vec{y} - \vec{z} \| ^2 + \| \vec{z} -\vec{z}_1 \| ^2 > \| \vec{y} - \vec{z} \| ^2\nonumber Esto sigue porque\vec{z} \neq \vec{z}_1 así \| \vec{z} -\vec{z}_1 \| ^2 > 0.

De ahí, \| \vec{y} - \vec{z}_1 \| ^2 > \| \vec{y} - \vec{z} \| ^2. Tomando la raíz cuadrada de cada lado, obtenemos el resultado deseado.

Considera el siguiente ejemplo.

Ejemplo\PageIndex{11}: Orthogonal Projection

DejarW ser el plano a través del origen dado por la ecuaciónx - 2y + z = 0. Encuentra el puntoW más cercano al puntoY = (1,0,3).

Solución

Primero debemos encontrar una base ortogonal paraW. Observe queW se caracteriza por todos los puntos(a,b,c) dondec = 2b-a. En otras palabras,W = \left[ \begin{array}{c} a \\ b \\ 2b - a \end{array} \right] = a \left[ \begin{array}{c} 1 \\ 0 \\ -1 \end{array} \right] + b \left[ \begin{array}{c} 0 \\ 1 \\ 2 \end{array} \right], \; a,b \in \mathbb{R}\nonumber

Así podemos escribirW como\begin{aligned} W &= \mbox{span} \left\{ \vec{u}_1, \vec{u}_2 \right\} \\ &= \mbox{span} \left\{ \left[ \begin{array}{r} 1 \\ 0 \\ -1 \end{array} \right], \left[ \begin{array}{c} 0 \\ 1 \\ 2 \end{array} \right] \right\}\end{aligned}

Observe que este lapso es una base deW ya que es linealmente independiente. Utilizaremos el Proceso Gram-Schmidt para convertir esto a una base ortogonal,\left\{\vec{w}_1, \vec{w}_2 \right\}. En este caso, como remarcamos sólo es necesario encontrar una base ortogonal, y no se requiere que sea ortonormal.

\vec{w}_1 = \vec{u}_1 = \left[ \begin{array}{r} 1 \\ 0 \\ -1 \end{array} \right]\nonumber \begin{aligned} \vec{w}_2 &= \vec{u}_2 - \left( \frac{ \vec{u}_2 \cdot \vec{w}_1}{ \| \vec{w}_1 \| ^2} \right) \vec{w}_1\\ &= \left[ \begin{array}{c} 0 \\ 1 \\ 2 \end{array} \right] - \left( \frac{-2}{2}\right) \left[ \begin{array}{r} 1 \\ 0 \\ -1 \end{array} \right] \\ &= \left[ \begin{array}{c} 0 \\ 1 \\ 2 \end{array} \right] + \left[ \begin{array}{r} 1 \\ 0 \\ -1 \end{array} \right] \\ &= \left[ \begin{array}{c} 1 \\ 1 \\ 1 \end{array} \right]\end{aligned}

Por lo tanto, una base ortogonal deW es\left\{ \vec{w}_1, \vec{w}_2 \right\} = \left\{ \left[ \begin{array}{r} 1 \\ 0 \\ -1 \end{array} \right], \left[ \begin{array}{c} 1 \\ 1 \\ 1 \end{array} \right] \right\}\nonumber

Ahora podemos usar esta base para encontrar la proyección ortogonal del puntoY=(1,0,3) en el subespacioW. Escribiremos el vector\vec{y} de posición deY as\vec{y} = \left[ \begin{array}{c} 1 \\ 0 \\ 3 \end{array} \right]. Usando Definición\PageIndex{8}, calculamos la proyección de la siguiente manera:\begin{aligned} \vec{z} &= \mathrm{proj}_{W}\left( \vec{y}\right)\\ &= \left( \frac{\vec{y} \cdot \vec{w}_1}{ \| \vec{w}_1 \| ^2}\right) \vec{w}_1 + \left( \frac{\vec{y} \cdot \vec{w}_2}{ \| \vec{w}_2 \| ^2}\right) \vec{w}_2 \\ &= \left( \frac{-2}{2} \right) \left[ \begin{array}{r} 1 \\ 0 \\ -1 \end{array} \right] + \left( \frac{4}{3} \right) \left[ \begin{array}{c} 1 \\ 1 \\ 1 \end{array} \right] \\ &= \left[ \begin{array}{c} \frac{1}{3} \\ \frac{4}{3} \\ \frac{7}{3} \end{array} \right]\end{aligned}

Por lo tantoZ el puntoW más cercano al punto(1,0,3) es\left( \frac{1}{3}, \frac{4}{3}, \frac{7}{3} \right).

Recordemos que el vector\vec{y} - \vec{z} es perpendicular (ortogonal) a todos los vectores contenidos en el planoW. Usando una base paraW, de hecho podemos encontrar todos esos vectores que son perpendiculares aW. Llamamos a este conjunto de vectores el complemento ortogonal deW y lo denotamosW^{\perp}.

Definición\PageIndex{9}: Orthogonal Complement

QueW sea un subespacio de\mathbb{R}^n. Entonces el complemento ortogonal deW, escritoW^{\perp}, es el conjunto de todos los vectores\vec{x} tal que\vec{x} \cdot \vec{z} = 0 para todos los vectores\vec{z} enW. W^{\perp} = \{ \vec{x} \in \mathbb{R}^n \; \mbox{such that} \; \vec{x} \cdot \vec{z} = 0 \; \mbox{for all} \; \vec{z} \in W \}\nonumber

El complemento ortogonal se define como el conjunto de todos los vectores que son ortogonales a todos los vectores en el subespacio original. Resulta que es suficiente que los vectores en el complemento ortogonal sean ortogonales a un conjunto de expansión del espacio original.

Proposición\PageIndex{3}: Orthogonal to Spanning Set

WSea un subespacio de\mathbb{R}^n tal queW = \mathrm{span} \left\{ \vec{w}_1, \vec{w}_2, \cdots, \vec{w}_m \right\}. EntoncesW^{\perp} es el conjunto de todos los vectores que son ortogonales a cada uno\vec{w}_i en el conjunto de expansión.

La siguiente proposición demuestra que el complemento ortogonal de un subespacio es en sí mismo un subespacio.

Proposición\PageIndex{4}: The Orthogonal Complement

QueW sea un subespacio de\mathbb{R}^n. Entonces el complemento ortogonalW^{\perp} es también un subespacio de\mathbb{R}^n.

Considera la siguiente proposición.

Proposición\PageIndex{5}: Orthogonal Complement of \mathbb{R}^n

El complemento de\mathbb{R}^n es el conjunto que contiene el vector cero:(\mathbb{R}^n)^{\perp} = \left\{ \vec{0} \right\}\nonumber Del mismo modo,\left\{ \vec{0} \right\}^{\perp} = (\mathbb{R}^n). \nonumber

Prueba

Aquí,\vec{0} es el vector cero de\mathbb{R}^n. Ya que\vec{x}\cdot\vec{0}=0 para todos\vec{x}\in\mathbb{R}^n,\mathbb{R}^n\subseteq\{ \vec{0}\}^{\perp}. Ya que\{ \vec{0}\}^{\perp}\subseteq\mathbb{R}^n, la igualdad sigue, es decir,\{ \vec{0}\}^{\perp}=\mathbb{R}^n.

Nuevamente, ya que\vec{x}\cdot\vec{0}=0 para todos\vec{x}\in\mathbb{R}^n\vec{0}\in (\mathbb{R}^n)^{\perp}, así\{ \vec{0}\}\subseteq(\mathbb{R}^n)^{\perp}. Supongamos\vec{x}\in\mathbb{R}^n,\vec{x}\neq\vec{0}. Desde\vec{x}\cdot\vec{x}=||\vec{x}||^2 y\vec{x}\neq\vec{0},\vec{x}\cdot\vec{x}\neq 0, entonces\vec{x}\not\in(\mathbb{R}^n)^{\perp}. Por lo tanto(\mathbb{R}^n)^{\perp}\subseteq \{\vec{0}\}, y así(\mathbb{R}^n)^{\perp}=\{\vec{0}\}.

En el siguiente ejemplo, veremos cómo encontrarW^{\perp}.

Ejemplo\PageIndex{12}: Orthogonal Complement

DejarW ser el plano a través del origen dado por la ecuaciónx - 2y + z = 0. Encontrar una base para el complemento ortogonal deW.

Solución

De Ejemplo\PageIndex{11} sabemos que podemos escribirW comoW = \mbox{span} \left\{ \vec{u}_1, \vec{u}_2 \right\} = \mbox{span} \left\{ \left[ \begin{array}{r} 1 \\ 0 \\ -1 \end{array} \right], \left[ \begin{array}{c} 0 \\ 1 \\ 2 \end{array} \right] \right\}\nonumber

Para encontrarW^{\perp}, necesitamos encontrar todos los\vec{x} que son ortogonales a cada vector en este lapso.

Vamos\vec{x} = \left[ \begin{array}{c} x_1 \\ x_2 \\ x_3 \end{array} \right]. Para satisfacer\vec{x} \cdot \vec{u}_1 = 0, se debe mantener la siguiente ecuación. x_1 - x_3 = 0\nonumber

Para satisfacer\vec{x} \cdot \vec{u}_2 = 0, se debe mantener la siguiente ecuación. x_2 + 2x_3 = 0\nonumber

Ambas ecuaciones deben ser satisfechas, por lo que tenemos el siguiente sistema de ecuaciones. \begin{array}{c} x_1 - x_3 = 0 \\ x_2 + 2x_3 = 0 \end{array}\nonumber

Para resolver, configurar la matriz aumentada.

\left[ \begin{array}{rrr|r} 1 & 0 & -1 & 0 \\ 0 & 1 & 2 & 0 \end{array} \right]\nonumber

Usando la Eliminación Gaussiana, nos encontramos con esoW^{\perp} = \mbox{span} \left\{ \left[ \begin{array}{r} 1 \\ -2 \\ 1 \end{array} \right] \right\}, y por lo tanto\left\{ \left[ \begin{array}{r} 1 \\ -2 \\ 1 \end{array} \right] \right\} es una base paraW^{\perp}.

Los siguientes resultados resumen las propiedades importantes de la proyección ortogonal.

Teorema\PageIndex{4}: Orthogonal Projection

DejarW ser un subespacio de\mathbb{R}^n,Y ser cualquier punto en\mathbb{R}^n, y dejarZ ser el punto enW más cercano aY. Entonces,

  1. El vector\vec{z} de posición del puntoZ viene dado por\vec{z} = \mathrm{proj}_{W}\left( \vec{y}\right)
  2. \vec{z} \in Wy\vec{y} - \vec{z} \in W^{\perp}
  3. | Y - Z | < | Y - Z_1 |para todosZ_1 \neq Z \in W

Considera el siguiente ejemplo de este concepto.

Ejemplo\PageIndex{13}: Find a Vector Closest to a Given Vector

Vamos\vec{x}_1=\left[\begin{array}{c} 1\\ 0\\ 1\\ 0 \end{array}\right], \vec{x}_2=\left[\begin{array}{c} 1\\ 0\\ 1\\ 1 \end{array}\right], \vec{x}_3=\left[\begin{array}{c} 1\\ 1\\ 0\\ 0 \end{array}\right], \mbox{ and } \vec{v}=\left[\begin{array}{c} 4\\ 3\\ -2\\ 5 \end{array}\right].\nonumber Queremos encontrar el vector en elW =\mathrm{span}\{\vec{x}_1, \vec{x}_2,\vec{x}_3\} más cercano a\vec{y}.

Solución

Primero usaremos el Proceso Gram-Schmidt para construir la base ortogonal,B, deW:B=\left\{ \left[\begin{array}{c} 1\\ 0\\ 1\\ 0 \end{array}\right], \left[\begin{array}{c} 0\\ 0\\ 0\\ 1 \end{array}\right], \left[\begin{array}{r} 1\\ 2\\ -1\\ 0 \end{array}\right] \right\}.\nonumber

Por teorema\PageIndex{4},\mathrm{proj}_U(\vec{v}) = \frac{2}{2} \left[\begin{array}{c} 1\\ 0\\ 1\\ 0 \end{array}\right] + \frac{5}{1}\left[\begin{array}{c} 0\\ 0\\ 0\\ 1 \end{array}\right] + \frac{12}{6}\left[\begin{array}{r} 1\\ 2\\ -1\\ 0 \end{array}\right] = \left[\begin{array}{r} 3\\ 4\\ -1\\ 5 \end{array}\right]\nonumber es el vectorU más cercano a\vec{y}.

Consideremos el siguiente ejemplo.

Ejemplo\PageIndex{14}: Vector Written as a Sum of Two Vectors

QueW sea un subespacio dado porW = \mbox{span} \left\{ \left[ \begin{array}{c} 1 \\ 0 \\ 1 \\ 0 \\ \end{array} \right], \left[ \begin{array}{c} 0 \\ 1 \\ 0 \\ 2 \\ \end{array} \right] \right\}, yY = (1,2,3,4).
Encuentra el puntoZW más cercano aY, y además escribe\vec{y} como la suma de un vector enW y un vector enW^{\perp}.

Solución

Del teorema\PageIndex{3} el puntoZ enW más cercano aY está dado por\vec{z} = \mathrm{proj}_{W}\left( \vec{y}\right).

Observe que dado que los vectores anteriores ya dan una base ortogonal paraW, tenemos:

\begin{aligned} \vec{z} &= \mathrm{proj}_{W}\left( \vec{y}\right)\\ &= \left( \frac{\vec{y} \cdot \vec{w}_1}{ \| \vec{w}_1 \| ^2}\right) \vec{w}_1 + \left( \frac{\vec{y} \cdot \vec{w}_2}{ \| \vec{w}_2 \| ^2}\right) \vec{w}_2 \\ &= \left( \frac{4}{2} \right) \left[ \begin{array}{c} 1 \\ 0 \\ 1 \\ 0 \end{array} \right] + \left( \frac{10}{5} \right) \left[ \begin{array}{c} 0 \\ 1 \\ 0 \\ 2 \end{array} \right] \\ &= \left[ \begin{array}{c} 2 \\ 2 \\ 2 \\ 4 \end{array} \right]\end{aligned}

Por lo tanto el puntoW más cercano aY esZ = (2,2,2,4).
Ahora, necesitamos escribir\vec{y} como la suma de un vector enW y un vector enW^{\perp}. Esto se puede hacer fácilmente de la siguiente manera:\vec{y} = \vec{z} + (\vec{y} - \vec{z})\nonumber ya que\vec{z} está enW y como hemos visto\vec{y} - \vec{z} está enW^{\perp}.
El vector\vec{y} - \vec{z} viene dado por\vec{y} - \vec{z} = \left[ \begin{array}{c} 1 \\ 2 \\ 3 \\ 4 \end{array} \right] - \left[ \begin{array}{c} 2 \\ 2 \\ 2 \\ 4 \end{array} \right] = \left[ \begin{array}{r} -1 \\ 0 \\ 1 \\ 0 \end{array} \right]\nonumber Por lo tanto, podemos escribir\vec{y} como\left[ \begin{array}{c} 1 \\ 2 \\ 3 \\ 4 \end{array} \right] = \left[ \begin{array}{c} 2 \\ 2 \\ 2 \\ 4 \end{array} \right] + \left[ \begin{array}{r} -1 \\ 0 \\ 1 \\ 0 \end{array} \right]\nonumber

Ejemplo\PageIndex{15}: Point in a Plane Closest to a Given Point

Encuentra el puntoZ en el plano3x+y-2z=0 que está más cerca del puntoY=(1,1,1).

Solución

La solución procederá de la siguiente manera.

  1. Encontrar una baseX del subespacioW de\mathbb{R}^3 definido por la ecuación3x+y-2z=0.
  2. Ortogonalizar la baseX para obtener una base ortogonalB deW.
  3. Encuentra la proyección sobreW del vector de posición del puntoY.

Ahora comenzamos la solución.

  1. 3x+y-2z=0es un sistema de una ecuación en tres variables. Poner la matriz aumentada en forma de fila-escalón reducido:\left[\begin{array}{rrr|r} 3 & 1 & -2 & 0 \end{array}\right] \rightarrow \left[\begin{array}{rrr|r} 1 & \frac{1}{3} & -\frac{2}{3} & 0 \end{array}\right]\nonumber da solución generalx=\frac{1}{3}s+\frac{2}{3}t,y=s,z=t para cualquiers,t\in\mathbb{R}. EntoncesW=\mathrm{span} \left\{ \left[\begin{array}{r} -\frac{1}{3} \\ 1 \\ 0 \end{array}\right], \left[\begin{array}{r} \frac{2}{3} \\ 0 \\ 1 \end{array}\right]\right\}\nonumber vamosX=\left\{ \left[\begin{array}{r} -1 \\ 3 \\ 0 \end{array}\right], \left[\begin{array}{r} 2 \\ 0 \\ 3 \end{array}\right]\right\}. EntoncesX es linealmente independiente y\mathrm{span}(X)=W, asíX es una base deW.
  2. Utilice el Proceso Gram-Schmidt para obtener una base ortogonal deW:\vec{f}_1=\left[\begin{array}{r} -1\\3\\0\end{array}\right]\mbox{ and }\vec{f}_2=\left[\begin{array}{r}2\\0\\3\end{array}\right]-\frac{-2}{10}\left[\begin{array}{r}-1\\3\\0\end{array}\right]=\frac{1}{5}\left[\begin{array}{r}9\\3\\15\end{array}\right].\nonumber Por lo tanto,B=\left\{\left[\begin{array}{r}-1\\3\\0\end{array}\right], \left[\begin{array}{r}3\\1\\5 \end{array}\right]\right\} es una base ortogonal deW.
  3. Para encontrar el puntoW más cercanoZ aY=(1,1,1), computar\begin{aligned} \mathrm{proj}_{W}\left[\begin{array}{r} 1 \\ 1 \\ 1 \end{array}\right] & = \frac{2}{10} \left[\begin{array}{r} -1 \\ 3 \\ 0 \end{array}\right] + \frac{9}{35}\left[\begin{array}{r} 3 \\ 1 \\ 5 \end{array}\right]\\ & = \frac{1}{7}\left[\begin{array}{r} 4 \\ 6 \\ 9 \end{array}\right].\end{aligned} Por lo tanto,Z=\left( \frac{4}{7}, \frac{6}{7}, \frac{9}{7}\right).

Aproximación de mínimos cuadrados

No debería sorprender escuchar que muchos problemas no tienen una solución perfecta, y en estos casos el objetivo siempre es tratar de hacer lo mejor posible. Por ejemplo, ¿qué se hace si no hay soluciones a un sistema de ecuaciones linealesA\vec{x}=\vec{b}? Resulta que lo que hacemos es encontrar\vec{x} tal queA\vec{x} esté lo más cerca\vec{b} posible. Una técnica muy importante que se desprende de las proyecciones ortogonales es la de la aproximación de mínimos cuadrados, y nos permite hacer exactamente eso.

Comenzamos con un lema.

Recordemos que podemos formar la imagen de unam \times n matrizA por\mathrm{im}\left( A\right) = = \left\{ A\vec{x} : \vec{x} \in \mathbb{R}^n \right\}. El teorema de reformulación\PageIndex{4} usando el subespacioW=\mathrm{im}\left( A\right) da la equivalencia de una condición de ortogonalidad con una condición de minimización. La siguiente imagen ilustra esta condición de ortogonalidad y significado geométrico de este teorema.

clipboard_e4d2bb3369e520ff4aed24c636c452ab5.png
Figura\PageIndex{2}
Teorema\PageIndex{5}: Existence of Minimizers

Dejar\vec{y}\in \mathbb{R}^{m} y dejarA ser unam\times n matriz.

Elegir\vec{z}\in W= \mathrm{im}\left( A\right) dado por\vec{z} = \mathrm{proj}_{W}\left( \vec{y}\right), y dejar que\vec{x} \in \mathbb{R}^{n} tal que\vec{z}=A\vec{x}.

Entonces

  1. \vec{y} - A\vec{x} \in W^{\perp}
  2. \| \vec{y} - A\vec{x} \| < \| \vec{y} - \vec{u} \| para todos\vec{u} \neq \vec{z} \in W

Observamos una observación sencilla pero útil.

Lema\PageIndex{1}: Transpose and Dot Product

ADéjese ser unam\times n matriz. EntoncesA\vec{x} \cdot \vec{y} = \vec{x}\cdot A^T\vec{y}\nonumber

Prueba

Esto se desprende de las definiciones:A\vec{x} \cdot \vec{y}=\sum_{i,j}a_{ij}x_{j} y_{i} =\sum_{i,j}x_{j} a_{ji} y_{i}= \vec{x} \cdot A^T\vec{y}\nonumber

El siguiente corolario da la técnica de mínimos cuadrados.

Corolario\PageIndex{1}: Least Squares and Normal Equation

Un valor específico del\vec{x} cual resuelve el problema del Teorema\PageIndex{5} se obtiene resolviendo la ecuación.A^TA\vec{x}=A^T\vec{y}\nonumber Además, siempre existe una solución a este sistema de ecuaciones.

Prueba

Para\vec{x} el minimizador del Teorema\PageIndex{5},\left( \vec{y}-A\vec{x}\right) \cdot A \vec{u} =0 para todos\vec{u} \in \mathbb{R}^{n} y desde Lema\PageIndex{1}, esto es lo mismo que decirA^T\left( \vec{y}-A\vec{x}\right) \cdot \vec{u}=0\nonumber para todosu \in \mathbb{R}^{n}. Esto implicaA^T\vec{y}-A^TA\vec{x}=\vec{0}.\nonumber Por lo tanto, hay una solución a la ecuación de este corolario, y resuelve el problema de minimización del Teorema\PageIndex{5}.

Tenga en cuenta que\vec{x} podría no ser único peroA\vec{x}, el punto más cercano deA\left(\mathbb{R}^{n}\right) a\vec{y} es único como se mostró en el argumento anterior.

Considera el siguiente ejemplo.

Ejemplo\PageIndex{16}: Least Squares Solution to a System

Encuentre una solución de mínimos cuadrados para el sistema\left[ \begin{array}{rr} 2 & 1 \\ -1 & 3 \\ 4 & 5 \end{array} \right] \left[ \begin{array}{c} x \\ y \end{array} \right] =\left[ \begin{array}{c} 2 \\ 1 \\ 1 \end{array} \right]\nonumber

Solución

Primero, considere si existe una solución real. Para ello, configurar la matriz aumentada dada por\left[ \begin{array}{rr|r} 2 & 1 & 2 \\ -1 & 3 & 1 \\ 4 & 5 & 1 \end{array} \right]\nonumber La forma reducida fila-escalón de esta matriz aumentada es\left[ \begin{array}{rr|r} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{array} \right]\nonumber

De ello se deduce que no hay una solución real a este sistema. Por lo tanto deseamos encontrar la solución de mínimos cuadrados. Las ecuaciones normales son\begin{aligned} A^T A \vec{x} &= A^T \vec{y} \\ \left[ \begin{array}{rrr} 2 & -1 & 4 \\ 1 & 3 & 5 \end{array} \right] \left[ \begin{array}{rr} 2 & 1 \\ -1 & 3 \\ 4 & 5 \end{array} \right] \left[ \begin{array}{c} x \\ y \end{array} \right] &=\left[ \begin{array}{rrr} 2 & -1 & 4 \\ 1 & 3 & 5 \end{array} \right] \left[ \begin{array}{c} 2 \\ 1 \\ 1 \end{array} \right]\end{aligned} y así necesitamos resolver el sistema\left[ \begin{array}{rr} 21 & 19 \\ 19 & 35 \end{array} \right] \left[ \begin{array}{c} x \\ y \end{array} \right] =\left[ \begin{array}{r} 7 \\ 10 \end{array} \right]\nonumber Este es un ejercicio familiar y la solución es\left[ \begin{array}{c} x \\ y \end{array} \right] =\left[ \begin{array}{c} \frac{5}{34} \\ \frac{7}{34} \end{array} \right]\nonumber

Considera otro ejemplo.

Ejemplo\PageIndex{17}: Least Squares Solution to a System

Encuentre una solución de mínimos cuadrados para el sistema\left[ \begin{array}{rr} 2 & 1 \\ -1 & 3 \\ 4 & 5 \end{array} \right] \left[ \begin{array}{c} x \\ y \end{array} \right] =\left[ \begin{array}{c} 3 \\ 2 \\ 9 \end{array} \right]\nonumber

Solución

Primero, considere si existe una solución real. Para ello, configurar la matriz aumentada dada por\left[ \begin{array}{rr|r} 2 & 1 & 3 \\ -1 & 3 & 2 \\ 4 & 5 & 9 \end{array} \right]\nonumber La forma reducida fila-escalón de esta matriz aumentada es\left[ \begin{array}{rr|r} 1 & 0 & 1 \\ 0 & 1 & 1 \\ 0 & 0 & 0 \end{array} \right]\nonumber

De ello se deduce que el sistema tiene una solución dada porx=y=1. Sin embargo, también podemos usar las ecuaciones normales y encontrar la solución de mínimos cuadrados. \left[ \begin{array}{rrr} 2 & -1 & 4 \\ 1 & 3 & 5 \end{array} \right] \left[ \begin{array}{rr} 2 & 1 \\ -1 & 3 \\ 4 & 5 \end{array} \right] \left[ \begin{array}{c} x \\ y \end{array} \right] =\left[ \begin{array}{rrr} 2 & -1 & 4 \\ 1 & 3 & 5 \end{array} \right] \left[ \begin{array}{r} 3 \\ 2 \\ 9 \end{array} \right]\nonumber Entonces\left[ \begin{array}{rr} 21 & 19 \\ 19 & 35 \end{array} \right] \left[ \begin{array}{c} x \\ y \end{array} \right] =\left[ \begin{array}{c} 40 \\ 54 \end{array} \right]\nonumber

La solución de mínimos cuadrados es la\left[ \begin{array}{c} x \\ y \end{array} \right] =\left[ \begin{array}{c} 1 \\ 1 \end{array} \right]\nonumber que es la misma que la solución encontrada anteriormente.

Una aplicación importante del Corolario\PageIndex{1} es el problema de encontrar la línea de regresión de mínimos cuadrados en la estadística. Supongamos que se le dan puntos en elxy plano\left\{ \left( x_{1},y_{1}\right), \left( x_{2},y_{2}\right), \cdots, \left( x_{n},y_{n}\right) \right\}\nonumber y le gustaría encontrar constantesm yb tales que la línea\vec{y}=m\vec{x}+b pase por todos estos puntos. Por supuesto esto será imposible en general. Por lo tanto, tratamos de encontrarm,b tal que la línea esté lo más cerca posible. El sistema deseado es

\left[ \begin{array}{c} y_{1} \\ \vdots \\ y_{n} \end{array} \right] =\left[ \begin{array}{cc} x_{1} & 1 \\ \vdots & \vdots \\ x_{n} & 1 \end{array} \right] \left[ \begin{array}{c} m \\ b \end{array} \right]\nonumber

que es de la forma\vec{y}=A\vec{x}. Se desea elegirm yb hacer

\left \| A\left[ \begin{array}{c} m \\ b \end{array} \right] -\left[ \begin{array}{c} y_{1} \\ \vdots \\ y_{n} \end{array} \right] \right \| ^{2}\nonumber

lo más pequeño posible. Según Teorema\PageIndex{5} y Corolario\PageIndex{1}, los mejores valores param yb ocurren como la solución para

A^{T}A\left[ \begin{array}{c} m \\ b \end{array} \right] =A^{T}\left[ \begin{array}{c} y_{1} \\ \vdots \\ y_{n} \end{array} \right] ,\ \;\mbox{where}\; A=\left[ \begin{array}{cc} x_{1} & 1 \\ \vdots & \vdots \\ x_{n} & 1 \end{array} \right]\nonumber

Por lo tanto, la computaciónA^{T}A,

\left[ \begin{array}{cc} \sum_{i=1}^{n}x_{i}^{2} & \sum_{i=1}^{n}x_{i} \\ \sum_{i=1}^{n}x_{i} & n \end{array} \right] \left[ \begin{array}{c} m \\ b \end{array} \right] =\left[ \begin{array}{c} \sum_{i=1}^{n}x_{i}y_{i} \\ \sum_{i=1}^{n}y_{i} \end{array} \right]\nonumber

Resolver este sistema de ecuaciones param yb (usando la regla de Cramer, por ejemplo) rinde:

m= \frac{-\left( \sum_{i=1}^{n}x_{i}\right) \left( \sum_{i=1}^{n}y_{i}\right) +\left( \sum_{i=1}^{n}x_{i}y_{i}\right) n}{\left( \sum_{i=1}^{n}x_{i}^{2}\right) n-\left( \sum_{i=1}^{n}x_{i}\right) ^{2}}\nonumber yb=\frac{-\left( \sum_{i=1}^{n}x_{i}\right) \sum_{i=1}^{n}x_{i}y_{i}+\left( \sum_{i=1}^{n}y_{i}\right) \sum_{i=1}^{n}x_{i}^{2}}{\left( \sum_{i=1}^{n}x_{i}^{2}\right) n-\left( \sum_{i=1}^{n}x_{i}\right) ^{2}}.\nonumber

Considera el siguiente ejemplo.

Ejemplo\PageIndex{18}: Least Squares Regression

Encuentre la línea de regresión de mínimos cuadrados\vec{y}=m\vec{x}+b para el siguiente conjunto de puntos de datos:\left\{ (0,1), (1,2), (2,2), (3,4), (4,5) \right\} \nonumber

Solución

En este caso tenemos puntos den=5 datos y obtenemos:\begin{array}{ll} \sum_{i=1}^{5}x_{i} = 10 & \sum_{i=1}^{5}y_{i} = 14 \\ \\ \sum_{i=1}^{5}x_{i}y_{i} = 38 & \sum_{i=1}^{5}x_{i}^{2} = 30\\ \end{array}\nonumber y por lo tanto\begin{aligned} m &= \frac{- 10 * 14 + 5*38}{5*30-10^2} = 1.00 \\ \\ b &= \frac{- 10 * 38 + 14*30}{5*30-10^2} = 0.80 \\\end{aligned}

La línea de regresión de mínimos cuadrados para el conjunto de puntos de datos es:\vec{y} = \vec{x}+.8\nonumber

Se podría usar esta línea para aproximar otros valores para los datos. Por ejemplo parax=6 uno se podría utilizary(6)=6+.8=6.8 como un valor aproximado para los datos.

El siguiente diagrama muestra los puntos de datos y la línea de regresión correspondiente.

clipboard_e97fbb2341b3cfee6a11df200c5a5b784.png
Figura\PageIndex{3}

Claramente se podría hacer un ajuste de mínimos cuadrados para curvas de la formay=ax^{2}+bx+c de la misma manera. En este caso se quiere resolver lo mejor posible paraa,b, yc el sistema\left[ \begin{array}{ccc} x_{1}^{2} & x_{1} & 1 \\ \vdots & \vdots & \vdots \\ x_{n}^{2} & x_{n} & 1 \end{array} \right] \left[ \begin{array}{c} a \\ b \\ c \end{array} \right] =\left[ \begin{array}{c} y_{1} \\ \vdots \\ y_{n} \end{array} \right]\nonumber y uno utilizaría la misma técnica anterior. Muchos otros problemas similares son importantes, incluyendo muchos en dimensiones superiores y todos se resuelven de la misma manera.


This page titled 4.11: Ortogonalidad is shared under a CC BY 4.0 license and was authored, remixed, and/or curated by Ken Kuttler (Lyryx) via source content that was edited to the style and standards of the LibreTexts platform.

Support Center

How can we help?