componentes principales
DESCRIPTION
Componentes Principales. Karl Pearson. Objetivo: dada una matriz de datos de dimensiones nxp que representa los valores de p variables en n individuos, investigar si es posible representar los individuos mediante r variables (rTRANSCRIPT
Componentes Principales
• Karl Pearson
• Objetivo: dada una matriz de datos de dimensiones nxp que representa los valores de p variables en n individuos, investigar si es posible representar los individuos mediante r variables (r<p) con poca (o ninguna si es posible) pérdida de información.
Nos gustaría encontrar nuevas variables Z, combinación lineal de las X originales, tales que:
• r de ellas contengan toda la información
• las restantes p-r fuesen irrelevantes
Primera interpretación de componentes principales:Representación gráfica óptima de los datos
xi
a
zi
ri
Proyección de un punto en una dirección: maximizar la varianza de la proyección equivale a minimizar las distancias
xiT
xi = riT ri+ zT
i zi
Minimizar las distancias a la recta es lo mismo que maximizar la varianza de los puntos proyectados(estamos suponiendo datos de media cero)
Segunda interpretación de componentes: Predicción óptima de los datos
Encontrar una variable zi =a’Xi que sea capaz de prever lo mejor posible el vector de variables Xi en cada individuo.
Generalizando, encontrar r variables, zi =Ar Xi , que permitan prever los datos Xi para cada individuo lo mejor posible, en el sentido de los mínimos cuadrados
Puede demostrarse que la solución es que zi =a’Xi tenga varianzamáxima.
Recta que minimiza las distancias ortogonales, proporciona los ejes del elipsoide que contiene a la nube de puntos
Tercera interpretación: Ejes del elipsoide que contiene a la nube de puntos
Coincide con la idea de regresión ortogonal de Pearson
Ejemplo. Datos de gastos de familias EPF
Segundo componente
Ejemplo gastos EPF
Propiedades de los CP
Propiedades
• Conservan la varianza generalizada
• Conservan la varianza efectiva
Propiedades• La variabilidad explicada es la
proporción del valor propio a la suma
PropiedadesLa covarianza entre los componentes y las variables es proporcional al vector propio que define el componente
Y como
Propiedades
• Las covarianzas entre los componentes y las
variables son proporcionales al vector propio y el factor de proporcionalidad es el valor propio
Propiedades
Propiedades
CP como predictores óptimos
Queremos prever cada fila de la matriz
Mediante un conjunto de variables
Con el mínimo error
CP como predictores óptimos
Dado el vector a el coeficiente c se obtiene por regresión
Para obtener a tenemos que minimizar
Con lo que
CP como predictores óptimos
CP como predictores óptimosEl resultado de la aproximación es
CP como predictores óptimos
Y en general, la mejor aproximación de la matriz con otra de Rango r<p es
• Los CP son los predictores óptimos de las variables originales
• La aproximación de CP puede aplicarse a cualquier matriz aunque tengamos más variables que observaciones
Propiedades• En lugar de trabajar con la matriz de varianzas
podemos hacerlo con la de correlaciones• Esto equivale a trabajar con variables
estandarizadas
CP sobre correlaciones
Ejemplo Inves
Ejemplo Inves
Ejemplo Medifis
Ejemplo mundodes
Ejemplo Mundodes
Ejemplos para análisis de imagenes
En lugar de tener que transmitir 16 matrices de N2
16 370,6
16
Pixeles transmitimos un vector 16x3 con los valores de los componentes y una matriz 3xN2 con los vectores propiosDe esta manera ahorramos:
Ahorramos el 70% . Si en lugar de 16 imágenes tenemos100 el ahorro puede ser del 95%
Generalización
• Buscar direcciones de proyección interesantes desde algun punto de vista.
• Esta es la idea de Projection Pursuit. Buscar proyecciones que produzcan distribuciones de los datos tan alejadas de la normalidad como sea posible.