capítulo 2 aproximación paramétrica

78
Reconocimiento de Formas en Data Mining Prof: Héctor Allende Capítulo 2 Aproximación Paramétrica

Upload: penda

Post on 05-Jan-2016

54 views

Category:

Documents


5 download

DESCRIPTION

Capítulo 2 Aproximación Paramétrica. Contenidos. Introducción La función de densidad de probabilidad normal Funciones discriminantes para la f.d.p normal Diseño de clasificadores lineales y cuadráticos El problema de la estimación de los parámetros Detección de puntos dudosos. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

Capítulo 2

Aproximación Paramétrica

Page 2: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

ContenidosContenidosContenidosContenidos

1. Introducción

2. La función de densidad de probabilidad normal

3. Funciones discriminantes para la f.d.p normal

4. Diseño de clasificadores lineales y cuadráticos

5. El problema de la estimación de los parámetros

6. Detección de puntos dudosos

Page 3: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción1. Introducción

• Objeto de estudio:

Clasificación supervisada paramétrica

Page 4: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción1. Introducción

• Supervisado: El aprendizaje supervisado requiere disponer de un conjunto de prototipos (conjunto de entrenamiento) a partir del cual construiremos y evaluaremos un clasificador.

• Paramétrico: Se supone un completo conocimiento a priori de la estructura estadística de las clases. Podemos modelar las clases mediante funciones de densidad de probabilidad conocidas.

Page 5: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción1. Introducción

• Clasificador de Bayes:

• La función de densidad normal (gaussiana) es la más tratada en la literatura. Propiedades:

1. Parámetros que especifican la distribución. La f.d.p. Normal queda completamente especificada por pocos parámetros.

2. Incorrelación e independencia. Dado un conjunto de patrones que siguen una distribución normal, si las variables asociadas están incorreladas, entonces son independientes.

ijXwPXwPwXd jii todapara )|()|( si )(

ijXwPXwPwXd ijiii todapara )|()|( si )(

Page 6: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción1. Introducción1. Introducción1. Introducción

3. Justificación física. Aproximación razonable para la mayor parte de los datos tomados de la naturaleza. La función de densidad normal es acertada en situaciones en las que un conjunto de patrones de una determinada clase toman valores en un rango contínuo y alrededor de un patrón promedio.Considera que los patrones de clases diferentes tienen distintos valores pero los valores de los patrones de una clase son lo más parecidos posibles.

4. Densidades marginales y condicionales. Las densidades marginales y condicionadas de una distribución normal son también normales.

Page 7: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

1. Introducción1. Introducción

5. Invarianza frente a transformaciones lineales. La distribución que sigue cualquier combinación lineal de una variable aleatoria normal es también normal (con diferentes parámetros).Siempre puede encontrarse, para una distribución normal, un nuevo conjunto de ejes tal que las nuevas variables son independientes en este nuevo sistema.

Page 8: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal2. Función de densidad de prob. normal

2.1 La f.d.p. normal unidimensional.

• Forma funcional.

donde

es la media de la clase i

es la varianza de la clase i

)1()(

2

1exp

2

1)|(

2

2

i

i

i

i

xwxP

ii wxE |

iii wxE |)( 22

Page 9: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

Fdp normales de media 0 y varianzas: 0.15, 1 y 2

2. Función de densidad de prob. normal2. Función de densidad de prob. normal

Page 10: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal2. Función de densidad de prob. normal

• Una propiedad interesante y útil:

El área bajo la curva de la función de densidad de probabilidad normal puede calcularse de forma precisa según el número de desviaciones típicas.

• El 68.3% de las observaciones están en el intervalo [- ; + ]

• El 95.4% de las observaciones están en el intervalo [ - 2; + 2]

• El 99.7% de las observaciones están en el intervalo [- 3; + 3]

Page 11: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal2. Función de densidad de prob. normal

Áreas bajo la curva de la fdp gaussiana en función del número de desviaciones típicas

Page 12: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal2. Función de densidad de prob. normal

• Parámetros que especifican la distribución

- La fdp normal está completamente especificada por los parámetros i y i

2

- En la práctica, i y i2 son desconocidos y deben estimarse a

partir de los puntos de entrenamiento

Estimadores no sesgados de i y i2 :

donde:

Ni es el número de prototipos de la clase i. xj es el j-ésimo prototipo de la clase i.

)2(1

ˆ1

iN

j

j

ii x

N )3()ˆ(

1

1

22

iN

ji

j

ii x

N

Page 13: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal2. Función de densidad de prob. normal

2.2 La f.d.p. normal multidimensional.

• Forma funcional.

i : matriz de covarianza de la clase i

| i | : determinante de i

i-1 : matriz inversa de i

(X - i)T : vector traspuesto de (X- i)

)4()()(2

1exp

||)2(

1)|(

1

i iT

i

idi XXwXP

Page 14: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal2. Función de densidad de prob. normal

Representación de una fdp normal dibimensional

Page 15: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal2. Función de densidad de prob. normal

• Parámetros que especifican la distribución

- La fdp normal multivariante está completamente especificada por los parámetros i y i

- En la práctica, estos parámetros son desconocidos y deben estimarse a partir de prototipos.

d

i

i

i

1

2

1

iddidid

diii

diii

i

21

22221

11211

Page 16: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal2. Función de densidad de prob. normal

Estimadores no sesgados de i y de i :

donde:

Ni es el número de prototipos de la clase i. Xl es el l-ésimo prototipo de la clase.

)5(1

ˆ1

iN

l

l

ii X

N

)6()ˆ)(ˆ(1

1ˆ1

iN

l

Ti

li

l

ii XX

N

Page 17: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal2. Función de densidad de prob. normal

- Estimación alternativa (elemento a elemento):

para j, k = 1, 2, ..., d

donde:

* Xjl : componente j-ésima del prot. l-ésimo de wi

* ij : componente j-ésima del vector medio de wi

)7()ˆ)(ˆ(1

1ˆ1

i

kjjk

N

li

lki

lj

ii XX

N

Page 18: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal2. Función de densidad de prob. normal

• Ejemplo.

Disponemos de 5 prototipos de la clase wi:

Estimación de i.

Estimación de i (completa):

1. Vectores (X l - ):

11

9 ,

9

11 ,

11

11 ,

9

9 ,

10

10

10

10

50

50

5

1

5

5

1l

li X

i

0

0

10

10

10

10)ˆ( 1

iX

Page 19: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal2. Función de densidad de prob. normal

1

1

10

10

9

9)ˆ( 2

iX

1

1

10

10

11

11)ˆ( 3

iX

1

1

10

10

9

11)ˆ( 4

iX

1

1

10

10

11

9)ˆ( 5

iX

Page 20: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal2. Función de densidad de prob. normal

2. Matrices (X l - )(X l - )T:

00

0000

0

0)ˆ)(ˆ( 11 T

ii XX

i i

11

1111

1

1)ˆ)(ˆ( 22 T

ii XX

11

1111

1

1)ˆ)(ˆ( 33 T

ii XX

11

1111

1

1)ˆ)(ˆ( 44 T

ii XX

11

1111

1

1)ˆ)(ˆ( 55 T

ii XX

Page 21: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal2. Función de densidad de prob. normal

3. Finalmente,

11

11

11

11

11

11

11

11

00

00

4

1ˆi

10

01

40

04

4

1

Parámetros estimados para esta clase:

10

10ˆ i

10

01ˆi

Page 22: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal2. Función de densidad de prob. normal

Estimación de i (elemento a elemento)

1}11110{)}109)(109()1011)(1011(

)1011)(1011()109)(109()1010)(1010{(ˆ

41

41

11

i

0}11110{)}1011)(109()109)(1011(

)1011)(1011()109)(109()1010)(1010{(ˆ

41

41

2

i

0}11110{)}109)(1011()1011)(109(

)1011)(1011()109)(109()1010)(1010{(ˆ

41

41

21

i

1}11110{)}1011)(1011()109)(109(

)1011)(1011()109)(109()1010)(1010{(ˆ

41

41

22

i

Page 23: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal2. Función de densidad de prob. normal

• Propiedades de i

1. i es simétrica. Como ijk = ikj

, hay que calcular únicamente d

(d + 1)/2 componentes.

2. i es (semi)definida positiva (|i|>0)

3. ijk es la covarianza de la clase i entre las variables j y k

(j,k = 1,2,...,d j k) y se interpreta como la relación o dependencia entre estas dos variables.

4. Los valores de la diagonal de la matriz de covarianza son las varianzas de las variables individuales, esto es, ijj

= 2ij

5. Si ijk = 0, las variables j y k son estadísticamente independientes.

Si no, existe correlación entre ellas.

Page 24: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal2. Función de densidad de prob. normal

A) Vars. independientes B) Vars. correladas

Page 25: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2.2 La f.d.p. normal multidimensional.

2.2.1 La distancia de Mahalanobis

• Los puntos para puntos para los que el valor de la fdp es constante están situados en hiperelipsoides en las que la forma cuadrática (X- )T -1(X- ) es constante: distancia de Mahalanobis (al cuadrado) de X a .

2. Función de densidad de prob. normal2. Función de densidad de prob. normal

Page 26: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal2. Función de densidad de prob. normal

A) Dens. de prob B) Diagrama de dispersión

Page 27: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal2. Función de densidad de prob. normal

• Las direcciones de los ejes principales de estos hiperelipsoides están determinadas por los autovectores de y sus longitudes por los autovalores correspondientes.

• Al estar ponderada por , esta métrica considera la distinta dispersión de las variables en el espacio.

Importante: con una métrica de este tipo, el concepto de distancia es muy distinto al concepto de distancia en nuestro mundo Euclídeo

Page 28: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal2. Función de densidad de prob. normal

Dos distribuciones normales con igual media y diferentes matrices de covarianza

)()()()( 11 BBAA TT

Page 29: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal2. Función de densidad de prob. normal

2.2 La f.d.p. normal multidimensional.

2.2.2 Correlación de variables

A) Alta covarianza B) Baja covarianza. En ambos casos, 21 =5.7 y 2

2=7.1

Page 30: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal2. Función de densidad de prob. normal

• Coeficiente de correlación.

Medida normalizada del grado de relación entre las variables, independiente de las unidades de medida.

Este coeficiente verifica que | ij | 1

)8(ji

ijij

Page 31: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal2. Función de densidad de prob. normal

• Relación entre covarianzas y correlaciones: = R

1

1

1

00

00

00

21

221

112

2

1

dd

d

d

d

R

ddddd

d

d

R

21

33323313

222212

1211211

Page 32: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal2. Función de densidad de prob. normal

22211

3332321331

22222121

11121221

)(

ddddd

dd

dd

dd

R

- ij= , entonces ij = j i ij . Además, como ij = ji,

entonces ij = = = ji

- Como ii = = = 1. ii = i i ii = i2 porque ij =

1

ji

ij

ji

ij

ji

ji

ii

ii

ii

i

2

Page 33: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

• Interpretación del factor de correlación

Si proyectamos la nube de puntos sobre un plano definido por los ejes (abscisas) y (ordenadas): - Superficie: determinada por (desviaciones típicas). - Forma: determinado por R (correlaciones).

Dado que | ij | 1 (-1 ij 1)

1. Si ij = 0, la correlación es nula (son independientes): los puntos se disponen aleatoriamente en un círculo (1 = 2) o en una elipse (1 2) cuyo centro es (i,j). Una correlación con valor 0 indica que no existe relación lineal en absoluto.

2. Función de densidad de prob. normal2. Función de densidad de prob. normal

Page 34: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Función de densidad de prob. normal2. Función de densidad de prob. normal

Ejemplos de correlación nula

Page 35: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Si 0 < ij < 1 los puntos se disponen en una elipse centrada en (i,j). El eje principal tiene una pendiente positiva y una forma más o menos circular dependiendo de si ij está más o menos cercano a 0.

2. Función de densidad de prob. normal2. Función de densidad de prob. normal

Ejemplos de correlación positiva

Page 36: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3. Si ij = 1, la correlación el lineal y perfecta ( Xj depende linealmente de Xi): los puntos se disponen a lo largo de una línea recta con pendiente positiva

2. Función de densidad de prob. normal2. Función de densidad de prob. normal

Ejemplos de correlación lineal

Page 37: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

4. Para -1 < ij < 0, similar a caso 2 y para ij = -1, similar a caso 3 (ahora con pendiente negativa).

La orientación y longitud de los ejes de las elipses que caracterizan las distribuciones se deducen de los autovectores y autovalores de la matriz de covarianza.

2. Función de densidad de prob. normal2. Función de densidad de prob. normal

Ejemplos de correlación negativa

Page 38: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

• El clasificador de mínimo error (Bayes) puede expresarse en términos de funciones discriminantes:

Forma general de las funciones discriminantes asumiendo f.d.p. normales

)9()log())|(log()( iii wXpXg

),,()|( Si iii NwXp

)10(log||log2

12log

2)()(

2

1)( 1

iiiiT

ii

dXXXg

3. Funciones discriminantes para la f.d.p normal.3. Funciones discriminantes para la f.d.p normal.

Page 39: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

• Casos particulares:

- Caso 1. i = 2 I (Clasif. Lineal)

- Caso 2. i = (Clasif. Lineal)

- Caso 3. i arbitrarias (Clasif. Cuadrático)

3. Funciones discriminantes para la f.d.p normal.3. Funciones discriminantes para la f.d.p normal.

Page 40: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3.1 Clasificadores lineales

3.1.1 Caso 1: i = 2 I

• Variables estadísticamente independientes (incorreladas) y todas tienen la misma varianza, 2.

• Las matrices de covarianza son diagonales con valor 2

3. Funciones discriminantes para la f.d.p normal.3. Funciones discriminantes para la f.d.p normal.

Page 41: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3. Funciones discriminantes para la f.d.p normal.3. Funciones discriminantes para la f.d.p normal.

Clasificador lineal con i = 2 I

Page 42: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

• Simplificaciones de las funciones discriminantes.

- En este caso Sustituyendo en (10):

- Considerando que || || es la norma Euclídea

212 )1(y || i

di

)11()log()()(2

1)(

2 iiT

ii XXXg

)()(|||| 2i

Tii XXX

)12()log(2

||||)(

2

2

ii

i

XXg

3. Funciones discriminantes para la f.d.p normal.3. Funciones discriminantes para la f.d.p normal.

Page 43: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

- Si i son iguales, no son significativas para :

Alternativamente,

Regla de mínima distancia Euclídea.

),(min),( si )( 2

,...,2,1

2iE

JicEc XXwXd

)(Xgi

)13(||||)( 2ii XXg

)()(|||| ),( 22i

TiiiE XXXX

3. Funciones discriminantes para la f.d.p normal.3. Funciones discriminantes para la f.d.p normal.

Page 44: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

• Funciones discriminantes lineales:

• Superficies de decisión:

donde:

3. Funciones discriminantes para la f.d.p normal.3. Funciones discriminantes para la f.d.p normal.

)log(22

1)(

2 iiTi

Ti

Ti XXXXg

)log(2

1

1

)(

20

2

0

iiTii

ii

iT

ii

w

WwXWXg

)()( XgXg ji

0)( 000 XXWwXWwXW Tj

Tji

Ti

jiW )(log

||||)(

2

2

21

0 jiji

ji j

iX

Page 45: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3. Funciones discriminantes para la f.d.p normal.3. Funciones discriminantes para la f.d.p normal.

Front. de dec. Para un clasificador de mín. distancia

Page 46: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3.1.2 Caso 2: i =

• Las variables no son estadísticamente independientes (cor- reladas) y las varianzas individuales son diferentes.

• Geométricamente: patrones distribuidos en agrupamientos hiperelipsoidales de igual tamaño y forma. Cada agrupamiento centrado en su media correspondiente, i

3. Funciones discriminantes para la f.d.p normal.3. Funciones discriminantes para la f.d.p normal.

Clasif. Lineal con i= (120,12)

Page 47: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3. Funciones discriminantes para la f.d.p normal.3. Funciones discriminantes para la f.d.p normal.

Clasif. Lineal con i= (12=0,12)

Page 48: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

• Simplificación de las funciones discriminantes.

• Si i son iguales, no son significativas para :

Alternativamente,

Regla de mínima distancia Mahalanobis.

3. Funciones discriminantes para la f.d.p normal.3. Funciones discriminantes para la f.d.p normal.

)14()log()()(2

1)( 1

iiT

ii XXXg

)(Xgi

)15()()()( 1i

Tii XXXg

),(min),( si )( 2

,...,2,1

2iM

JicMc XXwXd

)(|||| ),( 12ii

TiiM XXX

Page 49: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

• Funciones discriminantes lineales:

• Superficies de decisión.

3. Funciones discriminantes para la f.d.p normal.3. Funciones discriminantes para la f.d.p normal.

)log( )(

121

0

1

0ii

Tii

iii

Tii w

WwXWXg

)()(

)(log)(

)(

0)(12

10

1

0

jiT

ji

ji

ji

jii

i j

i

X

W

XXW

Page 50: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3.2 Clasificadores cuadráticos

3.2.1 Caso 3: i arbitrarias

• Fronteras de decisión expresadas como una función cuadrática (círculos, elipses, parábolas, hipérbolas).

• Este es el caso más general (caso 3), del cual se derivan como casos particulares los dos estudiados anteriormente.

3. Funciones discriminantes para la f.d.p normal.3. Funciones discriminantes para la f.d.p normal.

Page 51: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3. Funciones discriminantes para la f.d.p normal.3. Funciones discriminantes para la f.d.p normal.

Clasificadores Cuadráticos

Page 52: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

• Simplificación de las funciones discriminantes.

• Si i son iguales, no son significativas para :

• Funciones discriminantes cuadráticas:

donde:

3. Funciones discriminantes para la f.d.p normal.3. Funciones discriminantes para la f.d.p normal.

)16(log||log2

1)()(

2

1)( 1

iiiiT

ii XXXg

)17(||log2

1)()(

2

1)( 1

iiiT

ii XXXg

)(Xg i

0)( iT

iiT

i wXWXWXXg

iiiii WW 1121 y

iiiTiiw log||log- 2

1i

121

0

Page 53: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

3. Funciones discriminantes para la f.d.p normal.3. Funciones discriminantes para la f.d.p normal.

Fronteras de decisión (en dos dimensiones)

Page 54: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

• Motivación: ¿Porqué no usar el caso 3 siempre?

1. Considerar los costes computacionales de calcular:

Caso 3:

Caso 2:

Caso1:

4. Diseño de clasificadores. Clasif. de mín. distancia4. Diseño de clasificadores. Clasif. de mín. distancia

iiiiT

ii XXXg log||log2

1)()(

2

1)( 1

iiiT

ii XXXg log)()(2

1)( 1

)log()()(2

1)(

2 iiT

ii XXXg

Page 55: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Estabilidad de los estimadores.

• Etapas:

1. Análisis del conjunto de aprendizaje.

2. Aprendizaje.

3. Clasificación.

4. Diseño de clasificadores. Clasif. de mín. distancia4. Diseño de clasificadores. Clasif. de mín. distancia

Page 56: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

4.1. Diseño de clasificadores.

1. Análisis del conjunto de aprendizaje.

Estudiar y sacar conclusiones sobre los conjuntos de aprendi- zaje: test de normalidad, comprobación de la suficiencia del número de muestras de aprendizaje para estimaciones y estudio de la estructura estadísticas de las clases.

En resumen: decidir el clasificador (casos 1,2 ó 3).

4. Diseño de clasificadores. Clasif. de mín. distancia4. Diseño de clasificadores. Clasif. de mín. distancia

Page 57: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

2. Aprendizaje.

Estimación de los parámetros de cada clase

1.- Estimar i (i = 1,2, ..., J)

2.- Si acaso 2 ó 3,

Estimar i (i = 1,2, ..., J)

Si acaso 2,

Calcular =

3. Clasificación.

Calcular para i=1,2,...,J (según el caso)

4. Diseño de clasificadores. Clasif. de mín. distancia4. Diseño de clasificadores. Clasif. de mín. distancia

J

iii

1

)(Xg i

JiXgXgcXd ic ,...,2,1 ),()( si )(

Page 58: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

4. Diseño de clasificadores. Clasif. de mín. distancia4. Diseño de clasificadores. Clasif. de mín. distancia

4.2. Clasificadores de mínima distancia.

Casos particulares de los clasificadores estudiados como los casos 1 y 2 cuando no se consideran las probabilidades a priori (todas son iguales)

1. Distancia Euclídea:

- Vars. Estadísticamente independientes-- Vars. Igualmente escaladas en todas las direcciones.

2. Distancia de Mahalanobis:

- Vars. correladas.- Vars. posiblemente escaladas de forma diferente

)()()( iT

ii XXXg

)()()( 1i

Tii XXXg

Page 59: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

4. Diseño de clasificadores. Clasif. de mín. distancia4. Diseño de clasificadores. Clasif. de mín. distancia

4.2.1 Clasif. de mínima distancia Euclídea.

Cálculo de la distancia Euclídea

Page 60: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

4. Diseño de clasificadores. Clasif. de mín. distancia4. Diseño de clasificadores. Clasif. de mín. distancia

)()()()(),( 222

2211BABABABABA T

xxxxE

• Regla óptima de clasificación

donde

Clasificador de mínima distancia Euclídea

),(),( si )( 2

,...,2,1

2iE

JicEc XminXwXd

)()(||||),( 22i

TiiiE XXXX

Page 61: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

4. Diseño de clasificadores. Clasif. de mín. distancia4. Diseño de clasificadores. Clasif. de mín. distancia

• Estamos “resumiendo” una clase por su valor medio: toda la información de interés de una clase (para la clasificación) está concentrada en su media

Un clasificador Euclídeo para tres clases

Page 62: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

4. Diseño de clasificadores. Clasif. de mín. distancia4. Diseño de clasificadores. Clasif. de mín. distancia

• Derivación de funciones discriminantes lineales para el clasificador de mínima distancia Euclídea

Ti

Ti

Ti

TiiE XXXXXX 2)()(),(2

}2{min),(min,...,2,1

2

,...,2,1i

Ti

Ti

JiiE

JiXX

}2

1{max

,...,2,1i

Ti

Ti

JiX

Page 63: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

4. Diseño de clasificadores. Clasif. de mín. distancia4. Diseño de clasificadores. Clasif. de mín. distancia

Expresado en forma de funciones discriminantes:

De manera aún más compacta:

i

Tii

iii

Tii

Ti

Tii w

WwXWXXg

21

002

1)(

1,,...,,

,,...,,)(

21

21

21

dT

iTiiii

TiT

iiXXXX

WXWXg d

Page 64: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

4. Diseño de clasificadores. Clasif. de mín. distancia4. Diseño de clasificadores. Clasif. de mín. distancia

Demostración:

1

...,,...,,)(2

1

21

21

d

iTiiii

Tii

X

X

X

XWXgd

iTi

X

iTiiii

Ti

d

21

21,,...,,

21

Page 65: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

4.2.2 Clasif. de mínima distancia de Mahalanobis.

• Distancia de Mahalanobis.

• Regla óptima de clasificación:

donde

Clasificador de mínima distancia Euclídea

4. Diseño de clasificadores. Clasif. de mín. distancia4. Diseño de clasificadores. Clasif. de mín. distancia

)()(),( 12i

TiiM XXX

),(min),( si )( 2

,...,2,1

2iM

JicMc XXwXd

)()(),( 12i

TiiM XXX

Page 66: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

4. Diseño de clasificadores. Clasif. de mín. distancia4. Diseño de clasificadores. Clasif. de mín. distancia

Dist. de Mahalanobis frente a dist. Euclídea

Page 67: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

4. Diseño de clasificadores. Clasif. de mín. distancia4. Diseño de clasificadores. Clasif. de mín. distancia

Dist. de Mahalanobis frente a dist. Euclídea (2)

Page 68: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

5. El problema de la estimación de parámetros5. El problema de la estimación de parámetros

• En teoría, el error de Bayes decrece conforme la dimensionalidad de los datos se incrementa.

• En la práctica, se usa un número fijo de muestras, N, para construir el clasificador: los estimadores están sesgados por las muestras disponibles.

• Si suponemos distribuciones normales se requiere:

- Clasif. Cuadrático: estimaciones

- Clasif. Lineal: estimaciones

2

)1(dddJ

2

)1(

ddJd

Page 69: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

5. El problema de la estimación de parámetros5. El problema de la estimación de parámetros

• Fenómeno de Hughes.

Page 70: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

• Interpretación:

Existe un valor óptimo de dimensionalidad que es función del tamaño del conjunto de entrenamiento.

Si el número de muestras de entrenamiento es suficiente y la dimensionalidad de los datos es alta el fenómeno de Hughes se manifiesta debido a que los estimadores obtenidos son inestables y segados. Este fenómeno es más acusado cuanto mayor sea la dimensionalidad.

• Diferencia entre las curvas:

- Clasificador cuadrático: proporcional a d2/N

- Clasificador lineal: proporcional a d/N

5. El problema de la estimación de parámetros5. El problema de la estimación de parámetros

Page 71: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

• Conclusiones:

•Aunque la decisión de adoptar un clasificador cuadrático o un clasificador lineal depende fundamentalmente de la forma de las matrices de covarianza de las clases, el clasificador cuadrático requiere muchas más muestras de entrenamiento que un clasificador lineal para conseguir resultados similares.

• Soluciones:

•1. Obtener más muestras de entrenamiento

•2. Utilizar las variables más relevantes (selección y/o extracción de características)

5. El problema de la estimación de parámetros5. El problema de la estimación de parámetros

Page 72: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

• Motivación:

Algunos patrones deben descartarse (asignarse a w0)

6. Detección de puntos dudosos6. Detección de puntos dudosos

)(max)( si )( c,...,2,1

c XgXgwXdJi

c

Page 73: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

6. Detección de puntos dudosos6. Detección de puntos dudosos

Page 74: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

6. Detección de puntos dudosos6. Detección de puntos dudosos

• Técnica: Umbralización

Sea wc tal que P(x | wc) =

• Cálculo del umbral para el clasificador cuadrático.

Sea wc tal que =

)|(max,...,2,1

iJi

wxP

TwxPw

TwxwXd

c

cc

)|( si

)|(P si)(

0

)(Xg i )(max

,...,2,1Xg i

Ji

cc

ccc

T(X) gw

T(X) gwXd

si

si)(

0

iiiiT

ii XXXg log||log)()()( 211

21

Page 75: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

6. Detección de puntos dudosos6. Detección de puntos dudosos

La clasificación es aceptable (d(X) = wc) si

Sigue una distribución 2 con d grados de libertad si X está normalmente distribuida.

cccccT

c TXX log||log)()( 211

21

cccc TT log2||log2 )()( 1cc

Tc XX

Page 76: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

6. Detección de puntos dudosos6. Detección de puntos dudosos

- Procedimiento:

1.- Consultar la tabla 2 para determinar el valor de (X- c)Tc

-1(X- c) por debajo del cual hay un determinado porcentaje de puntos.

En esta figura, indicamos el valor de la 2 que tiene la probabilidad P de ser sobrepasada (la proporción de la población con un valor 2 mayor que un valor determinado)

Page 77: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende

6. Detección de puntos dudosos6. Detección de puntos dudosos

2.- Una vez consultado el valor, ,

3.- El valor exacto de Tc se calcula directamente, conociendo las probabilidades a priori y las matrices de covarianza de esa clase.

)18(log||log2

1

2

1cccT

Page 78: Capítulo 2 Aproximación Paramétrica

Reconocimiento de Formas en Data Mining Prof: Héctor Allende