inteligenciaar6ﬁcial$ · dr.$edgard$i.$benítezg. $ inteligenciaar6ﬁcial$ 4...

Dr. Edgard I. Benítez G. 1 Inteligencia Ar6ficial

Inteligencia Ar6ficial

Aprendizaje

Dr. Edgard Iván Benítez Guerrero


Aprendizaje q  Un agente racional de aprendizaje puede mejorar su comportamiento estudiando sus propias experiencias

q  El aprendizaje puede ir desde la memorización de experiencias hasta la creación de teorías cienEficas

q  Aprender es esencial en ambientes desconocidos q  Aprender es ú6l como método de construcción de sistemas; i.e. exponer el agente a la realidad en vez de codificarla

q  Aprender modifica los mecanismos decisionales del agente para mejorar su desempeño


Agentes que aprenden


Elemento de aprendizaje q  El diseño de un elemento de aprendizaje está determinado por:

§  Cuáles de los componentes del elemento de desempeño deben aprenderse

§  Qué retroalimentación está disponible para aprender esos componentes §  Qué representación se usa para los componentes

q  Tipo de retroalimentación §  Aprendizaje supervisado: respuestas correctas para cada ejemplo §  Aprendizaje no supervisado: las respuestas correctas no son dadas §  Aprendizaje por refuerzo: recompensas ocasionales


Aprendizaje supervisado (induc6vo) q  Aprender una función a par6r de ejemplos q  Sean f una función obje6vo y E un conjunto de ejemplos de la

forma (x, f(x)) q  Problema: dado un conjunto de ejemplos de entrenamiento

encontrar una hipótesis h tal que h ≈ f q  Construir/ajustar h para que concuerde con f en el conjunto de

entrenamiento (h es consistente si concuerda con f en todos los ejemplos)

q  Navaja de Ockham (Ockham’s razor): preferir la hipótesis más simple que sea consistente con los datos


Método de aprendizaje induc6vo q  Ejemplo: Aprendizaje de curvas


Aprendizaje de árboles de decisión Problema: decidir esperar o no por una mesa en un restaurante, basandose en los siguientes atributos: §  Alterna6vo: ¿Hay un restaurante alterna6vo cerca? §  Bar: ¿Hay un área de bar cómoda donde esperar? §  Vie/Sab: ¿Es viernes o sábado? §  Hambrientos: ¿Estamos hambrientos? §  Número de personas en el restaurant (Ninguna, Algunas, Lleno) §  Precio: rango de precios ($, $$, $$$) §  Lluvia: ¿Está lloviendo afuera? §  Reservación: ¿Tenemos una reservación? §  Tipo de comida (Francesa, Italiana, Thai, Hamburguesas) §  EsperaEs6mada: 6empo de espera es6mada (0-‐10, 10-‐30, 30-‐60, >60)


Representación basada en atributos q  Ejemplos descritos por valores de atributos (Booleano, discreto, con6nuo) q  E.g., situaciones en las que esperaremos/no esperaremos por una mesa:

q  Clasificación de ejemplos es posi6vo (T) o nega6vo (F)


Árboles de decisión q  Una representación posible para las hipótesis q  e.g., árbol para decidir esperar una mesa o no

Raíz

Nodo intermedio

Hojas


Expresividad q  Los árboles de decisión pueden representar cualquier función de los atributos de

entrada; e.g., para funciones Booleanas, renglón de la tabla de verdad → camino a una hoja:

q  Trivialmente, hay un árbol de decisión consistente para cualquier conjunto de entrenamiento con un camino a una hoja para cada ejemplo (a menos que f sea no determinista en x) pero es dircil que se generalice a nuevos ejemplos

q  Problema: el espacio de búsqueda (número de árboles posibles para representar un conjunto de ejemplos) es alto §  Número de árboles posibles con n atributos booleanos = número de funciones Booleanas =

número de tablas de verdad dis6ntas con 2n renglones = 22n


Aprendizaje de árboles de decisión q  Meta: encontrar un árbol pequeño consistente con los ejemplos en el

conjunto de entrenamiento q  Idea: encontrar (recursivamente) el atributo "más significante" como la raíz

del (sub)árbol

q  Un algoritmo bien conocido de esta familia es Itera6ve Dichotomizer 3 (ID3)


Selección de un atributo q  Idea: un buen atributo divide los ejemplos en subconjuntos que con6enen solo ejemplos posi6vos o nega6vos

q  Para seleccionar un atributo se han propuesto medidas de la teoría de la información (ID3)


Entropía q  Entropía o Contenido de Información

I(P(v1), … , P(vn)) = Σi=1 -‐P(vi) log2 P(vi) q  Para un conjunto de entrenamiento con p ejemplos posi6vos y n ejemplos nega6vos

q  Ejemplo: para el caso del restaurant, p = n = 6

npn

npn

npp

npp

npn

nppI

++−

++−=

++ 22 loglog),(

1666log

666

666log

666)

666,

666( 22 =

++−

++−=

++I


Ganancia de información q  El atributo elegido A divide el conjunto de entrenamiento E en

los subconjuntos E1, … , Ev según sus valores para A, donde A 6ene v dis6ntos valores

q  Ganancia de información (IG) o reducción de entropía

q  Elegir el atributo con la más alta ganancia de información

∑= +++

+=

v

i ii

i

ii

iii

npn

nppI

npnpAremainder

1),()(

)(),()( Aremaindernpn

nppIAIG −

++=

donde


Ejemplo q  Recordemos que para el caso del restaurant la entropía es

I(6/12, 6/12) = 1 bit q  Consideremos los atributos Patrons y Type, por ejemplo:

q  Patrons 6ene la ganancia de información más alta de todos los atributos y por ello se elige como la raíz

bits 0)]42,

42(

124)

42,

42(

124)

21,

21(

122)

21,

21(

122[1)(

bits 54.0)]64,

62(

126)0,1(

124)1,0(

122[1)(

=+++−=

=++−=

IIIITypeIG

IIIPatronsIG


Árbol de decisión para el ejemplo del restaurant


Redes Neuronales

•  Una neurona es una célula del cerebro cuya función principal es la recolección, procesamiento y emisión de señales eléctricas.

•  Se piensa que la capacidad de procesamiento de información del cerebro proviene principalmente de redes de este 6po de neuronas

•  La pretensión de las Redes Neuronales Ar6ficiales es sinte6zar un sistema que realice la estructura neuronal del cerebro y desarrolle un equivalente algorítmico de los procesos de reconocimiento y aprendizaje. (Realidad: imitación de las capacidades del cerebro)


Redes Neuronales Ar6ficiales q  Una RNA está compuesta por neuronas (nodos o unidades) conectadas a

través de conexiones dirigidas. El modelo de neurona clásico es el de McCulloch-‐Piws (1943)

q  aj: señales que provienen de otras neuronas y que son capturadas por las dendritas

q  Wj,i: pesos indicando la intensidad de la sinapsis que conecta dos neuronas


Perceptrón q  La neurona de salida realiza la suma ponderada de las entradas,

y pasa el resultado a una función de ac6vación. q  La regla de decisión es responder +1 si el patrón presentado

pertenece a la clase A, o 0 si el patrón pertenece a la clase B. En este caso la función de ac6vación es de 6po step (escalón)


Funciones de ac6vación


Perceptrón: aprendizaje •  El aprendizaje se manifiesta

en el proceso de cambiar la fortaleza de las conexiones entre las neuronas (cálculo de los pesos)

•  Los pesos se ajustan en forma itera6va hasta que no haya más cambios

Wi(t)= Wi(t-1)+Δwi


Algoritmo de aprendizaje del perceptrón 1.  Asignar valores aleatorios a los pesos 2.  Mientras que no se cumpla el criterio de terminación hacer

a.  Mostrarle al perceptrón un ejemplar (caso) y obtener la salida correspondiente

b.  Si salida_obtenida != salida deseada entonces error = salida_deseada – salida_obtenida wi = wi + error*entradai, para todo i

c.  Volver al paso 2

Nota: el criterio de terminación puede ser el número de veces que se expone el conjunto de entrenamiento al perceptrón (épocas) o bien un criterio de convergencia, es decir, que los pesos no cambien significa6vamente entre una época y otra


Fases de entrenamiento/reconocimiento q  1) Entrenamiento

§  Se colocan como valores de entrada de la red neuronal el patrón a aprender y después se incrementan los pesos de las entradas "u6lizadas“ y se decrementan los de las no u6lizadas

§  Los valores de los pesos oscilan generalmente entre -‐1 y 1, aunque estos valores pueden ser otros

q  2) Reconocer §  Se presenta un patrón a la red neuronal, que devolverá un valor

dependiendo del patrón §  La neurona habrá reconocido el patrón cuando produzca una salida

mayor que una determinada can6dad, y no lo habrá reconocido cuando la salida sea menor que esa can6dad


Ejemplo: función OR q  Regla de aprendizaje: patrones que pertenecen a la clase 0 y patrones que pertenecen a la clase 1

q  Función Y = X1W1 + X2 W2 + w0


Ejemplo q  Pesos iniciales elegidos al azar: w0=1.5, w1=0.5 y w2=1.5 q  Primera entrada: 00

§  Entradas: x1=0; x2=0; x0=1. §  Pesos: w1(t)=0.5; w2(t)=1.5; w0(t)=1.5. §  Sumai: 0*(0.5)+0*(1.5)+1*(1.5)=1.5. §  Salida que produce f: 1 (Sumai >=0) §  Salida que debe dar (deseada): 0 §  Error que se comete: (deseada – obtenida)=0-‐1=-‐1. §  Pesos modificados:

Ø  w1(t+1)=0.5+(-‐1)*0=0.5 Ø  w2(t+1)=1.5+(-‐1)*0=1.5 Ø  w0(t+1)=1.5+(-‐1)*1=0.5


Ejemplo q  Segunda entrada: 01

§  Entradas: x1=0; x2=1; x0=1 §  Pesos: w1(t)=0.5; w2(t)=1.5; w0(t)=0.5 §  sumai: 0*(0.5)+1*(1.5)+1*(0.5)=2 §  Salida que produce f (obtenida): 1 (sumai>=0) §  Salida que debe dar (deseada): 1 §  Error que se produce: (deseada-‐obtenida)=0 §  Los pesos no se modifican: wi(t+1)=wi(t)

q  Los cálculos se realizan también para las entradas 10 y 11 q  El proceso completo se repite hasta que ya no haya errores


Aprendizaje no supervisado q  Consiste en aprender a par6r de patrones de entradas para los

que no se especifican los valores de sus salidas q  Ejemplo: un agente taxista debería desarrollar gradualmente

los conceptos de días de tráfico bueno y días de tráfico malo sin que le hayan sido dados ejemplos e6quetados de ello

q  Se busca agrupar ejemplos similares en conjuntos posiblemente disjuntos (clusters) que: §  Minimicen la distancia intra-‐cluster §  Maximicen la distancia inter-‐cluster

q  Dos 6pos de métodos de agrupamiento (clustering) §  Jerárquicos o aglomera6vos: Construir una jerarquía de los datos y

deducir de allí los grupos §  De par6ción: Dividir los datos en grupos disjuntos

inteligenciaar6ﬁcial$ · dr.$edgard$i.$benítezg. $ inteligenciaar6ﬁcial$ 4...

Documents