3.5 aprendizaje no bool - arbol de decision 2011 (50d)

50
Aprendizaje con atributos no booleanos Porque del corazón salen los malos pensamientos, los homicidios, los adulterios, las fornicaciones, los hurtos, los falsos testimonio, las blasfemiasJesucristo

Upload: biblioteca-computacion

Post on 10-Mar-2016

229 views

Category:

Documents


7 download

DESCRIPTION

los falsos testimonio, las blasfemias ” Jesucristo “ Porque del corazón salen los malos pensamientos, los homicidios, los adulterios, las fornicaciones, los hurtos, formal casual camina camina Fin de semana? precipita compras? Ropa? maneja camina maneja si Temp > 90? lluvia •Evaluación en los nodos puede ser de la forma •Divida el espacio en rectángulos alineados al eje ( El conjunto de rectángulos y sus valores de salida constituyen nuestra hipótesis) xj > constante

TRANSCRIPT

Page 1: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Aprendizaje con atributos no booleanos

“Porque del corazón salen los malos pensamientos, los homicidios, los adulterios, las fornicaciones, los hurtos, los falsos testimonio, las blasfemias”Jesucristo

Page 2: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Recordando el árbol de decisión

• Use todos los datos para construir un árbol de preguntas con respuestas en las hojas

precipita

lluvia

ningunanieva

formalcasual

compras?

sisi

siFin de

semana?Temp > 90?

camina

camina camina

maneja

maneja

manejamaneja

Ropa?

Page 3: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Atributos numéricos• Evaluación en los nodos puede ser de la forma

xj > constante

• Divida el espacio en rectángulos alineados al eje (El conjunto de rectángulos y sus valores de salida constituyen nuestra hipótesis)

Page 4: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Atributos numéricos• Evaluación en los nodos puede ser de la forma xj > constante• Divida el espacio en rectángulos

F1 2

f1

f2

1no si

1

2

Page 5: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Atributos numéricos• Evaluación en los nodos puede ser de la forma xj > constante• Divida el espacio en rectángulos alineados al eje

F1 > 2

f2

2 f1

1

11 F2>4

no si

2

4

no

1

Page 6: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Atributos numéricos• Evaluación en los nodos puede ser de la forma xj > constante• Divida el espacio en rectángulos alineados al eje

F1 > 2

f2

2 f1

4

1

1

01 F2>4

1 0

La hipótesis sin alineamiento al eje puede ser más pequeña pero

difícil de encontrar

si

si

no

no

Page 7: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Considerando particiones• Considere una separación entre cada punto en cada dimensión

0 0.5 1 1.5 2 R

8765

L 43210

Si No

Page 8: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Considerando particiones• Considere una separación entre cada punto en cada dimensión

0 0.5 1 1.5 2 R

8765

L 43210

Si No

9 divisiones

Tendría que ser m-1

Page 9: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Considerando particiones• Considere una separación entre cada punto en cada dimensión

0 0.5 1 1.5 2 R

8765

L 43210

Si No

6 divisiones

Page 10: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Considerando particiones• Escoger el separador que minimiza el promedio de entropía de cada nodo hijo

0 0.5 1 1.5 2 R

8765

L 43210

Si No

Page 11: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Ejemplo de la bancarrota

8765

L 43210

0 0.5 1 1.5 2 R

Si No

AE 1.00 1.00 0.98 0.98 0.94 0.98 0.92 0.98 0.92

R< x 0.25 0.40 0.60 0.85 1.05 1.15 1.35 1.60 1.80

L<y NI PI ND PD AE

6.5 7 6 0 1 0.93

5.0 7 4 0 3 0.74

3.5 6 3 1 4 0.85

2.5 5 2 2 5 0.86

1.5 4 0 3 7 0.63

0.5 1 0 6 7 0.93

# d e p os a d er

# d e n eg a d er

# d e p ost a izq

# d e n eg a i zq

Page 12: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Ejemplo de la bancarrota

8765

L 43210

0 0.5 1 1.5 2 R

Si No

AE 1.00 1.00 0.98 0.98 0.94 0.98 0.92 0.98 0.92

R< x 0.25 0.40 0.60 0.85 1.05 1.15 1.35 1.60 1.80

L<y NL

PL

NR

PR

AE

6.5 7 6 0 1 0.93

5.0 7 4 0 3 0.74

3.5 6 3 1 4 0.85

2.5 5 2 2 5 0.86

1.5 4 0 3 7 0.63

0.5 1 0 6 7 0.93

Page 13: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Ejemplo de la bancarrota

8765

L 43210

0 0.5 1 1.5 2 R

Si No

AE 1.00 1.00 0.98 0.98 0.94 0.98 0.92 0.98 0.92

R< x 0.25 0.40 0.60 0.85 1.05 1.15 1.35 1.60 1.80

L<y NL

PL

NR

PR

AE

6.5 7 6 0 1 0.93

5.0 7 4 0 3 0.74

3.5 6 3 1 4 0.85

2.5 5 2 2 5 0.86

1.5 4 0 3 7 0.63

0.5 1 0 6 7 0.93

L >1.5sino

??0

Page 14: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Ejemplo de la bancarrota

8765

L 43210

0 0.5 1 1.5 2 R

Si No

L >1.5sino

??0

L<y NL PL NR PR AE

6.5 6 3 0 1 0.83

5.0 4 3 0 3 0.69

3.5 3 2 4 1 0.85

2.5 2 1 5 2 0.88

AE 0.85 0.88 0.79 0.60 0.69 0.76 0.83

R< x 0.25 0.40 0.60 0.90 1.30 1.60 1.80

Page 15: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Ejemplo de la bancarrota

8765

L 43210

0 0.5 1 1.5 2 R

Si No

L >1.5sino

R >0.90

L<y NL PL NR PR AE

6.5 6 3 0 1 0.83

5.0 4 3 0 3 0.69

3.5 3 2 4 1 0.85

2.5 2 1 5 2 0.88

AE 0.85 0.88 0.79 0.60 0.69 0.76 0.83

R< x 0.25 0.40 0.60 0.90 1.30 1.60 1.80

1??sino

Page 16: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Ejemplo de la bancarrota

8765

L 43210

0 0.5 1 1.5 2 R

Si No

L >1.5sino

R >0.90

1?? AE 1.00 0.92 1.00

R< x 0.25 0.40 0.60

L<y NL PL NR PR AE6.5 3 2 0 1 0.815.0 3 0 0 3 0.003.5 2 0 1 3 0.542.5 1 0 2 3 0.81

Page 17: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Ejemplo de la bancarrota

8765

L 43210

0 0.5 1 1.5 2 R

Si No

L >1.5sino

R >0.90

1L>5.0AE 1.00 0.92 1.00

R< x 0.25 0.40 0.60

L<y NL PL NR PR AE6.5 3 2 0 1 0.815.0 3 0 0 3 0.003.5 2 0 1 3 0.542.5 1 0 2 3 0.81

0 1

Page 18: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Ejemplo de la bancarrota

8765

L 43210

0 0.5 1 1.5 2 R

Si No

L >1.5sino

R >0.90

1L>5.0

0 1

Page 19: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Enfermedades cardíacas• El desempeño del árbol de decisión(.77) no es tan bueno

como el vecino más cercano (.81)

0 10 20 30 40

1

0.8

0.6

0.4

0.2

0

Prec

isió

n

Tamaño de hoja mínima

Page 20: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Enfermedades cardíacas

Thal= 1 : examen normal de la evaluación del thallum

sinoThal= 1

Page 21: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Enfermedades cardíacas

Thal= 1 ; examen para evaluar la presencia de un stress llamado thallum Ca= 0; no hay arterias bloqueadas

sinoThal= 1

Ca =0

sino

Page 22: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Enfermedades cardíacas

Thal= 1 ; examen normal del ejercicio thallum sintigrafyCa= 0; ninguna arteria fue coloreadas por fluroscopio

sinoThal= 1

Ca =0

sino

1Tiene enfermedad

cardiaca

Page 23: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Enfermedades cardíacas

Thal= 1 : examen normal del ejercicio thallum sintigrafyCa= 0 : arterias no coloreadas por fluroscopioExang : ejercicio de angina inducido

sinoThal= 1

Ca =0

sino

1

0 1

exang

Page 24: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Enfermedades cardíacas

Thal= 1 : examen normal del ejercicio thallum sintigrafyCa= 0 : arterias no coloreadas por fluroscopioExang : ejercicio de angina inducido

sino

Thal= 1

Ca =0

sino

1

0 1

exang

Ca = 0

sino

Page 25: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Enfermedades cardíacas

Thal= 1 : examen normal del ejercicio thallum sintigrafyCa= 0 : arterias no coloreadas por fluroscopioExang : ejercicio de angina inducido

sino

Thal= 1

Ca =0

sino

1

0 1

exang

Ca = 0sino

Dolor-pecho

10

Page 26: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Enfermedades cardíacas

Thal= 1 : examen normal del ejercicio thallum sintigrafyCa= 0 : arterias no coloreadas por fluroscopioExang : ejercicio de angina inducido

sino

Thal= 1

Ca =0

sino

1

0 1

exang

Ca = 0sino

Dolor-pecho

10

Edad < 57.5

0

Page 27: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Enfermedades cardíacas

Thal= 1 : examen normal del ejercicio thallum sintigrafyCa= 0 : arterias no coloreadas por fluroscopioExang : ejercicio de angina inducidoOldpk: atributo del cardiograma

sino

Thal= 1

Ca =0

sino

1

0 1

exang

Ca = 0sino

Dolor-pecho

10

Edad < 57.5

0

0 1

Oldpk<3.2

Page 28: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Auto que hace 22 MPG?

0

0

1

1

1

Peso >2775

Año > 78.5

Peso >2224.5

Desplazamiento> 189. 5

sino

si

si

Page 29: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Regresión

• La salida es un valor numérico continuo• Promediando pesos localmente (vecino + cercano)• Árboles de regresión (árboles de decisión)

Page 30: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Promediando localmente

x

y

• Recordando todos los datos

Page 31: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Promediando localmente

x

y

•Recordando todos los datos•Cuando alguien hace una pregunta,

•Encontrar los k puntos de datos viejos

Page 32: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Promediando localmente

x

y

•Recordando todos los datos•Cuando alguien hace una pregunta,

•Encontrar los k puntos de datos viejos•Regrese el promedio de las respuestas asociadas con ellos

y = 1/K (Σ yk ) k

Page 33: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Kernel Epanechnikov

• D es la distancia Euclidiana

K(x, xk) = max 3 1 - D(x, xk)2 , 0 4 2

• X=5,5• =4

Page 34: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Promediando localmente los pesos

Page 35: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

• Encuentre todos los puntos dentro de la distancia λ de la meta al punto

• Promedie las salidas, usando como peso la distancia que se encuentran de la meta

Promediando localmente los pesos

Page 36: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Árboles de regresión

• Como árboles de decisión pero con valores reales en las hojas.

Page 37: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Árboles de regresión

• Como los árboles de decisión, pero con salida real valuada en las hojas.

X>2

Y < 4

no si

no si3.2

-1.9 2.42

4

2.4

3.2

-1.9

Page 38: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Valores en las hojas

• Asigne un nodo hoja al promedio de los valores “y” de los puntos datos que caen ahí

Page 39: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Valores en las hojas

• Asigne un nodo hoja el promedio de los valores “y” de los puntos datos que caen aquí

• Nos gustaría tener grupos de puntos en una hoja que tiene similares valores “y”(porque entonces el promedio es una buena representación)

Page 40: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Varianza• Medida de cuan extendidos están los

números de un conjunto

Page 41: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Varianza• Medida de la cantidad de números de un conjunto es

extendido• El promedio de m valores, z1 hasta zm :

m

kkz

m 1

1

Page 42: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Varianza• Medida de la cantidad de números de un conjunto es

extendido• El promedio de m valores, z1 hasta zm :

• Varianza: promedio de las distancias al cuadrado entre los valores individuales z’s y la media.

m

kkz

m 1

1

2

1

2 (1

1

m

kkz

m

Page 43: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Déjenos separarD: -2, 9, 12, -40, 11, 10, -1 (valores y)

σ2 =40.5

Page 44: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Déjenos separarD: -2, 9, 12, -4

0, 11, 10, -1σ2 =40.5

-2, 1, -4, 0, -1

9, 12, 11, 10

-2, 9, 1, 12, -4

0, 11, 10, -1

f3 f20 01 1

σ2 =3.7 σ2 =1.67 σ2 =48.7 σ2 =40.67

Page 45: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Déjenos separarD: -2, 9, 12, -4

0, 11, 10, -1σ2 =40.5

-2, 1, -4, 0, -1

9, 12, 11, 10

-2, 9, 1, 12, -4

0, 11, 10, -1

f3 f20 01 1

σ2 =3.7 σ2 =1.67 σ2 =48.7 σ2 =40.67

AV(j)=pj σ2 (D+j )+ (1 + pj ) σ2 (D-

j )

% de D con fj Subconjunto de D con fj =1

Page 46: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Déjenos separarD: -2, 9, 12, -4

0, 11, 10, -1σ2 =40.5

-2, 1, -4, 0, -1

9, 12, 11, 10

-2, 9, 1, 12, -4

0, 11, 10, -1

f3 f20 01 1

σ2 =3.7 σ2 =1.67 σ2 =48.7 σ2 =40.67

AV=(5/8)*3.7+(4/9)*1.67 =2.8

AV= (5/9)*48.7+(4/9)*40.67 =45.13

Page 47: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Deteniéndose

• Deténgase cuando la varianza en una hoja sea suficientemente pequeño

• O cuando tenga menos que umbral hoja-min en una hoja

Page 48: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Deteniendo• Detenga cuando la varianza en una hoja sea

suficientemente pequeño• O cuando tenga mucho menos que umbral hoja-min en

una hoja• Haga “y” una hoja teniendo el promedio de los

valores “y” de los elementos.

-2, 1-4, 0, -1

9, 12,11, 10

-1.2 10.5

f30 1

Page 49: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

• Tomado del Instituto Tecnológico de Massachusetts www.owc.mit.edu6.034 Artificial Intelligence 2004

Archivo: ch6-mach1.pdf

Page 50: 3.5 Aprendizaje No Bool - Arbol de decision 2011 (50d)

Ejercicios

• •

• 1 2 3 4 5 6 7 8 9 10 11 12 13 f

•Usando este conjunto de datos, muestre el árbol de decisión que seria construido con ellos. Asuma que las evaluaciones en el árbol son de la forma f ≤ c. Para cada evaluación muestre el valor aproximado del promedio de desorden para cada pregunta. Para ayudarle a calcular esto, use la tabla de valores de –(x/y)*log(x/y).