Saltar al contenido principal
LibreTexts Español

7.3: Análisis de componentes principales

  • Page ID
    115696
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    A veces se nos presenta un conjunto de datos que tiene muchos puntos de datos que viven en un espacio de alta dimensión. Por ejemplo, anteriormente vimos un conjunto de datos que describe el índice de grasa corporal (BFI) en la Actividad 6.5.4 donde cada punto de datos es de seis dimensiones. El desarrollo de una comprensión intuitiva de los datos se ve obstaculizado por el hecho de que no se pueden visualizar.

    Esta sección explora una técnica llamada análisis de componentes principales, que nos permite reducir la dimensión de un conjunto de datos para que pueda visualizarse o estudiarse de una manera que destaquen más fácilmente características interesantes. Nuestro trabajo previo con la varianza y la diagonalización ortogonal de matrices simétricas proporciona las ideas clave.

    Vista previa Actividad 7.3.1.

    Comenzaremos recordando nuestra anterior discusión sobre la varianza. Supongamos que tenemos un conjunto de datos que conduce a la matriz de covarianza

    \ begin {ecuación*} C =\ begin {bmatrix} 7 & -4\\ -4 & 13\ end {bmatrix}. \ end {ecuación*}
    1. Supongamos que\(\mathbf u\) es un valor propio de\(C\) con valor propio\(\lambda\text{.}\) ¿Cuál es la varianza en la\(\mathbf u\) dirección?
    2. Encuentra una diagonalización ortogonal de\(C\text{.}\)
    3. ¿Cuál es la varianza total?
    4. ¿En qué dirección es mayor la varianza y cuál es la varianza en esta dirección? Si proyectamos los datos en esta línea, ¿cuánta varianza se pierde?
    5. ¿En qué dirección es la varianza más pequeña y cómo se relaciona esta dirección con la dirección de la varianza máxima?

    Aquí algunas ideas que hemos visto anteriormente que nos serán particularmente útiles en esta sección. Recuerde que la matriz de covarianza de un conjunto de datos\(A\) es\(C=\frac 1N AA^T\) donde está la matriz de puntos de datos\(N\) degradados.

    • Cuando\(\mathbf u\) es un vector unitario, la varianza de los datos degradados después de proyectarse sobre la línea definida por\(\mathbf u\) viene dada por la forma cuadrática\(V_{\mathbf u} = \mathbf u\cdot(C\mathbf u)\text{.}\)
    • En particular, si\(\mathbf u\) es un vector propio de unidad\(C\) con valor propio asociado\(\lambda\text{,}\) entonces\(V_{\mathbf u} = \lambda\text{.}\)
    • Además, la varianza es aditiva, como registramos en la Proposición 7.1.16: si\(W\) es un subespacio que tiene una base ortonormal\(\mathbf u_1,\mathbf u_2,\ldots,\mathbf u_n\text{,}\) entonces la varianza
      \ begin {ecuación*} V_W = V_ {\ mathbf u_1} + V_ {\ mathbf u_2} +\ ldots + V_ {\ mathbf u_n}\ text {.} \ end {ecuación*}

    Análisis de componentes principales

    Empecemos por mirar un ejemplo que ilustra el tema central de esta técnica.

    Actividad 7.3.2.

    Supongamos que trabajamos con un conjunto de datos que tiene 100 puntos de datos de cinco dimensiones. La matriz de datos degradada\(A\) es por lo tanto\(5\times100\) y conduce a la matriz de covarianza\(C=\frac1{100}~AA^T\text{,}\) que es una\(5\times5\) matriz. Porque\(C\) es simétrico, el Teorema Espectral nos dice que es ortogonalmente diagonalizable así que supongamos que\(C = QDQ^T\) donde

    \ begin {ecuación*} Q =\ begin {bmatrix}\ mathbf u_1 &\ mathbf u_2 &\ mathbf u_3 &\ mathbf u_4 &\ mathbf u_5\ end {bmatrix},\ hspace {24pt} D =\ begin {bmatrix} 13 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 2 & 0 & 0\\ 0 & 0 & ; 0 & 0 & 0\\ 0 & 0 & 0 & 0 & 0 & 0\ end {bmatrix}. \ end {ecuación*}
    1. ¿Cuál es\(V_{\mathbf u_2}\text{,}\) la varianza en la\(\mathbf u_2\) dirección?
    2. Encuentra la varianza de los datos proyectados sobre la línea definida por\(\mathbf u_4\text{.}\) ¿Qué dice esto sobre los datos?
    3. ¿Cuál es la varianza total de los datos?
    4. Considere el subespacio bidimensional abarcado por\(\mathbf u_1\) y\(\mathbf u_2\text{.}\) Si proyectamos los datos sobre este subespacio, ¿qué fracción de la varianza total está representada por la varianza de los datos proyectados?
    5. ¿Cómo cambia esta pregunta si proyectamos sobre el subespacio tridimensional abarcado por\(\mathbf u_1\text{,}\)\(\mathbf u_2\text{,}\) y\(\mathbf u_3\text{?}\)
    6. ¿Qué nos dice esto sobre los datos?

    Esta actividad demuestra cómo los valores propios de la matriz de covarianza pueden decirnos cuándo los datos se agrupan alrededor, o incluso están completamente contenidos dentro de, un subespacio dimensional más pequeño. En particular, los datos originales son de 5 dimensiones, pero vemos que en realidad se encuentra en un subespacio tridimensional de\(\mathbb R^5\text{.}\) Más tarde en esta sección, veremos cómo utilizar esta observación para trabajar con los datos como si fueran tridimensionales, una idea conocida como reducción dimensional.

    Los vectores propios\(\mathbf u_j\) de la matriz de covarianza se denominan componentes principales, y los ordenaremos para que disminuyan sus valores propios asociados. En términos generales, esperamos que los primeros componentes principales retengan la mayor parte de la varianza, como demuestra el ejemplo en la actividad. En ese ejemplo, tenemos la secuencia de subespacios

    • \(W_1\text{,}\)el subespacio unidimensional abarcado por el\(\mathbf u_1\text{,}\) cual se conserva\(13/25 = 52\%\) de la varianza total,
    • \(W_2\text{,}\)el subespacio bidimensional abarcado por\(\mathbf u_1\) y\(\mathbf u_2\text{,}\) que retiene\(23/25 = 92\%\) de la varianza,
    • \(W_3\text{,}\)el subespacio tridimensional abarcado por\(\mathbf u_1\text{,}\)\(\mathbf u_2\text{,}\) y\(\mathbf u_3\text{,}\) que conserva toda la varianza.

    Observe cómo retenemos más de la varianza total a medida que aumentamos la dimensión del subespacio sobre el que se proyectan los datos. Finalmente, proyectar los datos en\(W_3\) conserva toda la varianza, lo que nos dice que los datos deben estar en\(W_3\text{,}\) un subespacio dimensional más pequeño de\(\mathbb R^5\text{.}\)

    De hecho, estos subespacios son los mejores posibles. Sabemos que el primer componente principal\(\mathbf u_1\) es el vector propio de\(C\) asociado al mayor valor propio. Esto significa que la varianza es lo más grande posible en la\(\mathbf u_1\) dirección. En otras palabras, proyectar sobre cualquier otra línea conserva una menor cantidad de varianza. Del mismo modo, proyectar sobre cualquier otro subespacio bidimensional además\(W_2\) conservará menos varianza que proyectar sobre\(W_2\text{.}\) Los componentes principales tienen la maravillosa capacidad de seleccionar los mejores subespacios posibles para retener la mayor varianza posible.

    Por supuesto, este es un ejemplo ideado. Por lo general, la presencia de ruido en un conjunto de datos significa que no esperamos que todos los puntos estén completamente contenidos en un subespacio dimensional más pequeño. De hecho, el subespacio bidimensional\(W_2\) conserva\(92\%\) de la varianza. Dependiendo de la situación, es posible que queramos descartar el resto\(8\%\) de la varianza como ruido a cambio de la conveniencia de trabajar con un subespacio dimensional más pequeño. Como veremos más adelante, buscaremos un equilibrio utilizando una serie de componentes principales lo suficientemente grandes como para retener la mayor parte de la varianza, pero lo suficientemente pequeños como para ser fáciles de trabajar.

    Actividad 7.3.3.

    Trabajaremos aquí con un conjunto de datos que tiene 100 puntos de datos degradados tridimensionales. Al evaluar la siguiente celda se trazarán esos puntos de datos y se definirá la matriz de datos degradados A cuya forma es\(3\times100\text{.}\)

    Observe que los datos parecen agruparse alrededor de un plano aunque no parecen estar completamente contenidos dentro de ese plano.
    1. Utilice la matriz A para construir la matriz de covarianza\(C\text{.}\) Luego determine la varianza en la dirección de\(\mathbf u=\threevec{1/3}{2/3}{2/3}\text{?}\)
    2. Encontrar los valores propios\(C\) y determinar la varianza total.
      Observe que Sage no necesariamente ordena los valores propios en orden decreciente.
    3. Utilice el comando right_eigenmatrix () para encontrar los vectores propios de\(C\text{.}\) Recordar que el comando Sage b.Column (1) recupera el vector representado por la segunda columna de B, define los vectores u1, u2 y u3 que representan el tres componentes principales en orden de valores propios decrecientes. ¿Cómo se puede verificar si estos vectores son una base ortonormal para\(\mathbb R^3\text{?}\)
    4. Qué fracción de la varianza total se retiene proyectando los datos sobre\(W_1\text{,}\) el subespacio abarcado por\(\mathbf u_1\text{?}\) ¿Qué fracción de la varianza total se retiene proyectando sobre\(W_2\text{,}\) el subespacio abarcado por\(\mathbf u_1\) y\(\mathbf u_2\text{?}\) qué fracción de la varianza total perdemos por proyectando sobre\(W_2\text{?}\)
    5. Si proyectamos un punto de datos\(\mathbf x\) en\(W_2\text{,}\) la Fórmula de Proyección nos dice que obtenemos
      \ begin {ecuación*}\ xhat = (\ mathbf u_1\ cdot\ mathbf x)\ mathbf u_1 + (\ mathbf u_2\ cdot\ mathbf x)\ mathbf u_2. \ end {ecuación*}

      En lugar de ver los datos proyectados en\(\mathbb R^3\text{,}\) registraremos las coordenadas de\(\xhat\) en la base definida por\(\mathbf u_1\) y es\(\mathbf u_2\text{;}\) decir, registraremos las coordenadas

      \ begin {ecuación*}\ twovec {\ mathbf u_1\ cdot\ mathbf x} {\ mathbf u_2\ cdot\ mathbf x}. \ end {ecuación*}

      Construye la matriz\(Q\) para que\(Q^T\mathbf x = \twovec{\mathbf u_1\cdot\mathbf x}{\mathbf u_2\cdot\mathbf x}\text{.}\)

    6. Dado que cada columna de\(A\) representa un punto de datos, la matriz\(Q^TA\) representa las coordenadas de los puntos de datos proyectados. Al evaluar la siguiente celda se trazarán los puntos de datos proyectados.
      Observe cómo esta gráfica nos permite ver los datos como si fueran bidimensionales. ¿Por qué esta parcela es más ancha que alta?

    Este ejemplo es una ilustración más realista del análisis de componentes principales. La gráfica de los datos tridimensionales parece mostrar que los datos se encuentran cerca de un plano, y los componentes principales identificarán este plano. A partir de la\(3\times100\) matriz de datos degradados\(A\text{,}\) construimos la matriz de covarianza\(C=\frac{1}{100} ~AA^T\) y estudiamos sus valores propios. Observe que los dos primeros componentes principales representan más del 98% de la varianza, lo que significa que podemos esperar que los puntos se encuentren cerca\(W_2\text{,}\) del subespacio bidimensional abarcado por\(\mathbf u_1\) y\(\mathbf u_2\text{.}\)

    Dado que\(W_2\) es un subespacio de\(\mathbb R^3\text{,}\) proyectar los puntos de datos sobre\(W_2\) da una lista de 100 puntos\(\mathbb R^3\text{.}\) en Para poder visualizarlos más fácilmente, en cambio consideramos las coordenadas de las proyecciones en la base definida por\(\mathbf u_1\) y\(\mathbf u_2\text{.}\) Por ejemplo, sabemos que el proyección de un punto de datos\(\mathbf x\) es

    \ begin {ecuación*}\ xhat = (\ mathbf u_1\ cdot\ mathbf x)\ mathbf u_1 + (\ mathbf u_2\ cdot\ mathbf x)\ mathbf u_2,\ end {ecuación*}

    que es un vector tridimensional. En su lugar, podemos registrar las coordenadas\(\twovec{\mathbf u_1\cdot\mathbf x}{\mathbf u_2\cdot\mathbf x}\) y trazarlas en el plano de coordenadas bidimensionales, como se ilustra en la Figura 7.3.1.

    Figura 7.3.1. La proyección\(\xhat\) de un punto de datos\(\mathbf x\) sobre\(W_2\) es un vector tridimensional, que puede ser representado por las dos coordenadas que describen este vector como una combinación lineal de\(\mathbf u_1\) y\(\mathbf u_2\text{.}\)

    Si formamos la matriz\(Q=\begin{bmatrix}\mathbf u_1 & \mathbf u_2 \end{bmatrix}\text{,}\) entonces tenemos

    \ begin {ecuación*} Q^T\ mathbf x =\ twovec {\ mathbf u_1\ cdot\ mathbf x} {\ mathbf u_2\ cdot\ mathbf x}. \ end {ecuación*}

    Esto significa que las columnas de\(Q^TA\) representan las coordenadas de los puntos proyectados, que ahora pueden ser trazados en el plano.

    En esta gráfica, la primera coordenada, representada por la coordenada horizontal, representa la proyección de un punto de datos sobre la línea definida por\(\mathbf u_1\) mientras que la segunda coordenada representa la proyección sobre la línea definida por\(\mathbf u_2\text{.}\) Dado que\(\mathbf u_1\) es el primer componente principal, la varianza en la\(\mathbf u_1\) dirección es mayor que la varianza en la\(\mathbf u_2\) dirección. Por ello, la parcela estará más extendida en la dirección horizontal que en la vertical.

    Uso del análisis de componentes principales

    Ahora que hemos explorado las ideas detrás del análisis de componentes principales, veremos algunos ejemplos que ilustran su uso.

    Actividad 7.3.4.

    En la siguiente celda se cargará un conjunto de datos que describe el consumo promedio de diversos grupos de alimentos para los ciudadanos en cada una de las cuatro naciones del Reino Unido. Las unidades para cada entrada son gramos por persona por semana.

    Veremos esto como un conjunto de datos que consta de cuatro puntos en\(\mathbb R^{17}\text{.}\) Como tal, es imposible visualizar y estudiar los números en sí no lleva a mucha perspicacia.

    Además de cargar los datos, al evaluar la celda anterior se creó un vector data_mean, que es la media de los cuatro puntos de datos, y A, la\(17\times4\) matriz de datos degradados.

    1. ¿Cuál es el consumo promedio de Bebidas en las cuatro naciones?
    2. Encuentra la matriz de covarianza\(C\) y sus valores propios. Debido a que hay cuatro puntos en\(\mathbb R^{17}\) cuya media es cero, sólo hay tres valores propios distintos de cero.
    3. ¿Para qué porcentaje de la varianza total cuenta el primer componente principal?
    4. Encuentre el primer componente principal\(\mathbf u_1\) y proyecte los cuatro puntos de datos degradados en la línea definida por\(\mathbf u_1\text{.}\) Trazar esos puntos en la Figura 7.3.2
    Figura 7.3.2. Una gráfica de los datos degradados proyectados sobre el primer componente principal.
  • ¿Para qué porcentaje de la varianza total cuentan los dos primeros componentes principales?
  • Encuentra los cordinados de los puntos de datos degradados proyectados en\(W_2\text{,}\) el subespacio bidimensional de\(\mathbb R^{17}\) abarcado por los dos primeros componentes principales.

    Trazar estas coordenadas en la Figura 7.3.3.

    Figura 7.3.3. Las coordenadas de los puntos de datos degradados proyectados sobre los dos primeros componentes principales.
  • ¿Qué información revelan estas gráficas que no queda clara a partir de la consideración de los puntos de datos originales?
  • Estudiar el primer componente principal\(\mathbf u_1\) y encontrar el primer componente del\(\mathbf u_1\text{,}\) cual corresponde a la categoría dietética Bebidas Alcohólicas. (Para hacer esto, es posible que desee usar N (u1, digits=2) para un resultado que sea más fácil de leer). Si un punto de datos se encuentra en el extremo derecho de la trama en la Figura 7.3.3, ¿qué significa sobre el consumo de Bebidas Alcohólicas de esa nación?
  • Esta actividad demuestra cómo el análisis de componentes principales nos permite extraer información de un conjunto de datos que de otra manera no se podría obtener fácilmente. Al igual que en nuestro ejemplo anterior, vemos que los puntos de datos se encuentran bastante cerca de un subespacio bidimensional de\(\mathbb R^{17}\text{.}\) De hecho,\(W_2\text{,}\) el subespacio abarcado por los dos primeros componentes principales, representa más del 96% de la varianza. Más importante aún, cuando proyectamos los datos en\(W_2\text{,}\) él se hace evidente que Irlanda del Norte es fundamentalmente diferente de las otras tres naciones.

    Con un poco de pensamiento adicional, podemos determinar formas más específicas en las que Irlanda del Norte es diferente. En la trama\(2\) -dimensional, Irlanda del Norte se encuentra muy a la derecha en comparación con las otras tres naciones. Dado que los datos han sido degradados, el origen\((0,0)\) en esta parcela corresponde al promedio de las cuatro naciones. Las coordenadas del punto que representa a Irlanda del Norte son sobre el\((477, 59)\text{,}\) significado de que el punto de datos proyectado difiere de la media en aproximadamente\(477\mathbf u_1+59\mathbf u_2\text{.}\)

    Vamos a centrarnos en la contribución de\(\mathbf u_1\text{.}\) Vemos que el noveno componente\(\mathbf u_1\text{,}\) del que describe Fruta Fresca, se trata de\(-0.63\text{.}\) Esto quiere decir que el noveno componente de\(477\mathbf u_1\) difiere de la media en aproximadamente\(477(-0.63) = -300\) gramos por persona por semana. Entonces, en términos generales, la gente en Irlanda del Norte está comiendo alrededor de 300 gramos menos de Fruta Fresca que el promedio en las cuatro naciones. Esto se confirma al observar los datos originales, que muestran que el consumo de Fruta Fresca en Irlanda del Norte es significativamente menor que el de las otras naciones. Examando los otros componentes de\(\mathbf u_1\) muestra otras formas en las que Irlanda del Norte difiere de las otras tres naciones.

    Actividad 7.3.5.

    En esta actividad, veremos un conocido conjunto de datos que describe 150 iris que representan tres especies de iris: Iris setosa, Iris versicolor e Iris virginica. Para cada flor se registra el largo y ancho de su sépalo y el largo y ancho de su pétalo, todo en centímetros.

    Figura 7.3.8. Una de las tres especies, iris versicolor, representada en el conjunto de datos que muestra tres pétalos más cortos y tres sépalos más largos. (Fuente: Wikipedia, Licencia: GNU Free DocuMetation License)

    Evaluando la siguiente celda cargará el conjunto de datos, que consta de 150 puntos\(\mathbb R^4\text{.}\) en Además, tenemos un vector data_mean, un vector de cuatro dimensiones que contiene la media de los puntos de datos, y A, la matriz de datos\(4\times150\) degradada.

    Dado que los datos son de cuatro dimensiones, no somos capaces de visualizarlos. Por supuesto, podríamos olvidarnos de dos de las medidas y trazar los 150 puntos representados por su, digamos, la longitud del sépalo y la anchura del sépalo.
    1. ¿Cuál es el ancho medio del sépalo?
    2. Encuentra la matriz de covarianza\(C\) y sus valores propios.
    3. Encuentra la fracción de varianza para la que cuentan los dos primeros componentes principales.
    4. Construir los dos primeros componentes principales\(\mathbf u_1\) y\(\mathbf u_2\) junto con la matriz\(Q\) cuyas columnas son\(\mathbf u_1\) y\(\mathbf u_2\text{.}\)
    5. Como hemos visto, las columnas de la matriz\(Q^TA\) contienen las coordenadas de los puntos de datos degradados después de proyectarse sobre\(W_2\text{,}\) el subespacio abarcado por los dos primeros componentes principales. Al evaluar la siguiente celda se muestra una gráfica de estas coordenadas.
      Supongamos que tenemos una flor cuyas coordenadas en este plano son ¿\((-2.5, -0.75)\text{.}\)A qué especie pertenece más probablemente este iris? Encuentre una estimación de la longitud del sépalo, la anchura del sépalo, la longitud del pétalo y la anchura del pétalo para esta flor.
    6. Supongamos que tienes un iris, pero solo sabes que su longitud sépalo es de 5.65 cm y su ancho de sépalo es de 2.75 cm. Conociendo sólo estas dos mediciones, determinar las coordenadas\((c_1, c_2)\) en el plano donde se encuentra este iris. ¿A qué especie pertenece probablemente este iris? Ahora estime la longitud del pétalo y el ancho del pétalo de este iris.
    7. Supongamos que encuentra otro iris cuyo ancho sépalo es de 3.2 cm y cuyo ancho de pétalo es de 2.2 cm. Encuentra las coordenadas\((c_1, c_2)\) de este iris y determina la especie a la que probablemente pertenece. Además, estime la longitud del sépalo y la longitud del pétalo.

    Resumen

    Esta sección ha explorado el análisis de componentes principales como una técnica para reducir la dimensión de un conjunto de datos. A partir de la matriz de datos degradados\(A\text{,}\) formamos la matriz de covarianza\(C= \frac1N ~AA^T\text{,}\) donde\(N\) está el número de puntos de datos.

    • Los vectores propios\(\mathbf u_1, \mathbf u_2, \ldots \mathbf u_m\text{,}\) de\(C\) se denominan los componentes principales. Los organizamos para que sus valores propios correspondientes estén en orden decreciente.
    • Si el subespacio\(W_n\) está abarcado por los primeros componentes\(n\) principales, entonces la varianza de los datos degradados proyectados\(W_n\) es la suma de los primeros\(n\) valores propios de\(C\text{.}\) Ningún otro subespacio\(n\) dimensional retiene más varianza cuando los datos se proyectan sobre él.
    • Si\(Q\) es la matriz cuyas columnas son los primeros componentes\(n\) principales, entonces las columnas de\(Q^TA\) mantener las coordenadas, expresadas en la base\(\mathbf u_1,\ldots,\mathbf u_n\text{,}\) de los datos una vez proyectadas sobre\(W_n\text{.}\)
    • Nuestro objetivo es utilizar una serie de componentes principales que sean lo suficientemente grandes como para retener la mayor parte de la varianza en el conjunto de datos pero lo suficientemente pequeños como para ser manejables.

    Ejercicios 7.3.4Ejercicios

    1

    Supongamos que

    \ begin {ecuation*} Q =\ begin {bmatrix} -1/\ sqrt {2} & 1/\ sqrt {2}\\ 1/\ sqrt {2} & 1/\ sqrt {2}\\\ end {bmatrix},\ hspace {24pt} D_1 =\ begin {bmatrix} 75 & 0\\ 0 & 74\ end {bmatrix},\ hspace {24pt} D_2 =\ begin {bmatrix} 100 & 0\\ 0 & 1\ end {bmatrix}\ end {ecuación*}

    y que tenemos dos conjuntos de datos, uno cuya matriz de covarianza es\(C_1 = QD_1Q^T\) y otro cuya matriz de covarianza es\(C_2 = QD_2Q^T\text{.}\) Para cada conjunto de datos, buscar

    1. la varianza total.
    2. la fracción de varianza representada por el primer componente principal.
    3. una descripción verbal de cómo aparecen los puntos de datos degradados cuando se trazan en el plano.
    2

    Supongamos que un conjunto de datos tiene media\(\threevec{13}{5}{7}\) y que su matriz de covarianza asociada es\(C=\begin{bmatrix} 275 & -206 & 251 \\ -206 & 320 & -206 \\ 251 & -206 & 275 \end{bmatrix} \text{.}\)

    1. ¿Qué fracción de la varianza está representada por los dos primeros componentes principales?
    2. Si\(\threevec{30}{-3}{26}\) es uno de los puntos de datos, encuentre las coordenadas cuando el punto demeaned se proyecte en el plano definido por los dos primeros componentes principales.
    3. Si un punto de datos proyectado tiene coordenadas,\(\twovec{12}{-25}\text{,}\) busque una estimación para el punto de datos original.
    3

    Al evaluar la siguiente celda se carga una matriz de datos\(2\times100\) degradada A.

    1. Encuentre los componentes principales\(\mathbf u_1\)\(\mathbf u_2\) y la varianza en la dirección de cada componente principal.
    2. ¿Cuál es la varianza total?
    3. ¿Qué puedes concluir sobre este conjunto de datos?
    4

    Determina si las siguientes afirmaciones son verdaderas o falsas y explica tu pensamiento.

    1. Si los valores propios de la matriz de covarianza son\(\lambda_1\text{,}\)\(\lambda_2\text{,}\) y\(\lambda_3\text{,}\) entonces\(\lambda_3\) es la varianza de los puntos de datos degradados cuando se proyectan sobre el tercer componente principal\(\mathbf u_3\text{.}\)
    2. El análisis de componentes principales siempre nos permite construir una representación dimensional más pequeña de un conjunto de datos sin perder ninguna información.
    3. Si los valores propios de la matriz de covarianza son 56, 32 y 0, entonces los puntos de datos degradados se encuentran en una línea en\(\mathbb R^3\text{.}\)
    5

    En la Actividad 7.3.5, observamos un conjunto de datos que consta de cuatro mediciones de 150 iris. Estas medidas son la longitud del sépalo, la anchura del sépalo, la longitud del pétalo y la anchura del pétalo

    1. Encontrar el primer componente principal\(\mathbf u_1\) y describir el significado de sus cuatro componentes. ¿Cuál es el componente más significativo? ¿Qué se puede decir sobre la importancia relativa de las cuatro mediciones?
    2. Cuando el dataset se traza en el plano definido por\(\mathbf u_1\) y\(\mathbf u_2\text{,}\) los especímenes de la especie iris-setosa se encuentran en el lado izquierdo de la parcela. ¿Qué nos dice esto sobre cómo se diferencia iris-setosa de las otras dos especies en las cuatro mediciones?
    3. En general, ¿qué especie está más cerca del “iris promedio”?
    6

    Este problema explora un conjunto de datos de 333 pingüinos. Hay tres especies, Adelie, Barbijo y Gentoo, como se ilustra a la izquierda de la Figura 7.3.9, así como pingüinos machos y hembras en el conjunto de datos.

    Figura 7.3.9. Ilustraciones de @allison_horst

    Evaluando la siguiente celda cargará y mostrará los datos. El significado del largo y ancho del culmen está contenido en la ilustración de la derecha de la Figura 7.3.9.

    Este conjunto de datos es un poco diferente de otros que hemos visto porque la escala de las mediciones es significativamente diferente. Por ejemplo, las medidas para la masa corporal son aproximadamente 100 veces más grandes que las de la longitud del culmen. Por esta razón, estandarizaremos los datos degradándolos primero, como de costumbre, y luego reescalando cada medición por el recíproco de su desviación estándar. El resultado se almacena en la\(4\times333\) matriz A.
    1. Encuentra la matriz de covarianza y sus valores propios.
    2. ¿Qué fracción de la varianza total se explica por los dos primeros componentes principales?
    3. Construir la\(2\times333\) matriz\(B\) cuyas columnas son las coordenadas de los puntos de datos degradados proyectados sobre los dos primeros componentes principales. La siguiente celda creará la gráfica.
    4. Examinar los componentes de los dos primeros vectores de componentes principales. ¿Cómo se compara la masa corporal de los pingüinos Gentoo con la de las otras dos especies?
    5. ¿Qué parece ser generalmente cierto acerca de las medidas culmen para un pingüino barbijo comparado con una Adelie?
    6. Puedes trazar solo los machos o hembras usando la siguiente celda.
      ¿Qué parece ser generalmente cierto sobre las mediciones de masa corporal para un Gentoo masculino comparado con un Gentoo femenino?

    This page titled 7.3: Análisis de componentes principales is shared under a CC BY 4.0 license and was authored, remixed, and/or curated by David Austin via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.