componentes principales

46

Click here to load reader

Upload: fisk

Post on 05-Jan-2016

100 views

Category:

Documents


5 download

DESCRIPTION

Componentes Principales. Karl Pearson. Objetivo: dada una matriz de datos de dimensiones nxp que representa los valores de p variables en n individuos, investigar si es posible representar los individuos mediante r variables (r

TRANSCRIPT

Page 1: Componentes Principales

Componentes Principales

Page 2: Componentes Principales

• Karl Pearson

Page 3: Componentes Principales

• Objetivo: dada una matriz de datos de dimensiones nxp que representa los valores de p variables en n individuos, investigar si es posible representar los individuos mediante r variables (r<p) con poca (o ninguna si es posible) pérdida de información.

Page 4: Componentes Principales

Nos gustaría encontrar nuevas variables Z, combinación lineal de las X originales, tales que:

• r de ellas contengan toda la información

• las restantes p-r fuesen irrelevantes

Page 5: Componentes Principales

Primera interpretación de componentes principales:Representación gráfica óptima de los datos

Page 6: Componentes Principales

xi

a

zi

ri

Proyección de un punto en una dirección: maximizar la varianza de la proyección equivale a minimizar las distancias

xiT

xi = riT ri+ zT

i zi

Page 7: Componentes Principales
Page 8: Componentes Principales

Minimizar las distancias a la recta es lo mismo que maximizar la varianza de los puntos proyectados(estamos suponiendo datos de media cero)

Page 9: Componentes Principales

Segunda interpretación de componentes: Predicción óptima de los datos

Encontrar una variable zi =a’Xi que sea capaz de prever lo mejor posible el vector de variables Xi en cada individuo.

Generalizando, encontrar r variables, zi =Ar Xi , que permitan prever los datos Xi para cada individuo lo mejor posible, en el sentido de los mínimos cuadrados

Puede demostrarse que la solución es que zi =a’Xi tenga varianzamáxima.

Page 10: Componentes Principales

Recta que minimiza las distancias ortogonales, proporciona los ejes del elipsoide que contiene a la nube de puntos

Tercera interpretación: Ejes del elipsoide que contiene a la nube de puntos

Coincide con la idea de regresión ortogonal de Pearson

Page 11: Componentes Principales
Page 12: Componentes Principales
Page 13: Componentes Principales
Page 14: Componentes Principales

Ejemplo. Datos de gastos de familias EPF

Page 15: Componentes Principales

Segundo componente

Page 16: Componentes Principales

Ejemplo gastos EPF

Page 17: Componentes Principales
Page 18: Componentes Principales
Page 19: Componentes Principales

Propiedades de los CP

Page 20: Componentes Principales

Propiedades

• Conservan la varianza generalizada

• Conservan la varianza efectiva

Page 21: Componentes Principales

Propiedades• La variabilidad explicada es la

proporción del valor propio a la suma

Page 22: Componentes Principales

PropiedadesLa covarianza entre los componentes y las variables es proporcional al vector propio que define el componente

Y como

Page 23: Componentes Principales

Propiedades

• Las covarianzas entre los componentes y las

variables son proporcionales al vector propio y el factor de proporcionalidad es el valor propio

Page 24: Componentes Principales

Propiedades

Page 25: Componentes Principales

Propiedades

Page 26: Componentes Principales

CP como predictores óptimos

Queremos prever cada fila de la matriz

Mediante un conjunto de variables

Con el mínimo error

Page 27: Componentes Principales

CP como predictores óptimos

Dado el vector a el coeficiente c se obtiene por regresión

Para obtener a tenemos que minimizar

Con lo que

Page 28: Componentes Principales

CP como predictores óptimos

Page 29: Componentes Principales

CP como predictores óptimosEl resultado de la aproximación es

Page 30: Componentes Principales

CP como predictores óptimos

Y en general, la mejor aproximación de la matriz con otra de Rango r<p es

Page 31: Componentes Principales

• Los CP son los predictores óptimos de las variables originales

• La aproximación de CP puede aplicarse a cualquier matriz aunque tengamos más variables que observaciones

Page 32: Componentes Principales

Propiedades• En lugar de trabajar con la matriz de varianzas

podemos hacerlo con la de correlaciones• Esto equivale a trabajar con variables

estandarizadas

Page 33: Componentes Principales

CP sobre correlaciones

Page 34: Componentes Principales

Ejemplo Inves

Page 35: Componentes Principales

Ejemplo Inves

Page 36: Componentes Principales
Page 37: Componentes Principales

Ejemplo Medifis

Page 38: Componentes Principales
Page 39: Componentes Principales
Page 40: Componentes Principales

Ejemplo mundodes

Page 41: Componentes Principales

Ejemplo Mundodes

Page 42: Componentes Principales
Page 43: Componentes Principales

Ejemplos para análisis de imagenes

Page 44: Componentes Principales
Page 45: Componentes Principales

En lugar de tener que transmitir 16 matrices de N2

16 370,6

16

Pixeles transmitimos un vector 16x3 con los valores de los componentes y una matriz 3xN2 con los vectores propiosDe esta manera ahorramos:

Ahorramos el 70% . Si en lugar de 16 imágenes tenemos100 el ahorro puede ser del 95%

Page 46: Componentes Principales

Generalización

• Buscar direcciones de proyección interesantes desde algun punto de vista.

• Esta es la idea de Projection Pursuit. Buscar proyecciones que produzcan distribuciones de los datos tan alejadas de la normalidad como sea posible.