14.5: Análisis de componentes principales
- Page ID
- 85019
PCA rompe los datos n-dimensionales en n vectores para que cada punto de datos pueda ser representado por una combinación lineal de los n vectores. Estos n vectores tienen dos propiedades interesantes: primero, están ordenados por su varianza para que el primer vector sea representativo de los datos con mayor variación en los datos, y segundo, son ortogonales. Por lo tanto, estos vectores se denominan componentes principales.
Este enfoque tiene una fuerte interpretación geométrica: dados datos como puntos bidimensionales, digamos en forma de rectángulo, los puntos a lo largo del eje largo del rectángulo tienen mayor varianza que aquellos a lo largo del eje corto. Cada punto de esta nube de puntos puede ser reconstruido por una combinación lineal del componente principal a lo largo del eje largo y el componente principal a lo largo del eje corto. Por lo tanto, encontrar estos vectores es similar encontrar los ejes principales del rectángulo independientemente de su orientación.