![Page 1: REINFORCEMENT LEARNING Jesús Fernández Bes Noviembre 2012](https://reader031.vdocuments.net/reader031/viewer/2022013003/54d5f4424979596c658b4ee4/html5/thumbnails/1.jpg)
REINFORCEMENT LEARNING
Jesús Fernández Bes
Noviembre 2012
![Page 2: REINFORCEMENT LEARNING Jesús Fernández Bes Noviembre 2012](https://reader031.vdocuments.net/reader031/viewer/2022013003/54d5f4424979596c658b4ee4/html5/thumbnails/2.jpg)
REINFORCEMENT LEARNING 2
ÍNDICE
1. ¿Qué es, qué no es y para qué sirve el RL?
2. Formulación: Markov Decision Processes 1. Dynamic Programming2. Algoritmos clásicos de RL
3. Líneas de Investigación y otros aspectos de interés en RL.1. Aproximación funcional2. RL con GP3. POMDP4. Otros aspectos
![Page 3: REINFORCEMENT LEARNING Jesús Fernández Bes Noviembre 2012](https://reader031.vdocuments.net/reader031/viewer/2022013003/54d5f4424979596c658b4ee4/html5/thumbnails/3.jpg)
REINFORCEMENT LEARNING 3
DEFINICIÓN
Reinforcement Learning is the problem faced by an autonomous agent that learns behavior through trial-and-error interactions with a
dynamic environment.Kaelbling et al. 1996
Interacción
Recompensa
![Page 4: REINFORCEMENT LEARNING Jesús Fernández Bes Noviembre 2012](https://reader031.vdocuments.net/reader031/viewer/2022013003/54d5f4424979596c658b4ee4/html5/thumbnails/4.jpg)
REINFORCEMENT LEARNING 4
EL PROBLEMA DE REINFORCEMENT LEARNING
1. El agente interactua con el entorno.
2. Acciones modifican el entorno y proporcionan una recompensa.
3. No se conoce la dinámica de estados.
4. Agente trata de aprender comportamiento óptimo.
¿Qué acción tomar en cada estado para maximizar una recompensa a largo plazo?
Environment
a
r
s’
s s’
![Page 5: REINFORCEMENT LEARNING Jesús Fernández Bes Noviembre 2012](https://reader031.vdocuments.net/reader031/viewer/2022013003/54d5f4424979596c658b4ee4/html5/thumbnails/5.jpg)
REINFORCEMENT LEARNING 5
¿A QUÉ SE PARECE PERO NO ES RL?
• Supervised Learning. Hay par entrada/salida. No una recompensa inmediata. En RL no se sabe que acción es mejor a largo plazo.
• Active Learning. Elegir muestras de las que aprender. Siguen siendo pares entrada/salida.
• Multi – Armed Bandits. En MAB no existe concepto estado.
• Dynamic Programming.Se conoce toda la dinámica de estados.
![Page 6: REINFORCEMENT LEARNING Jesús Fernández Bes Noviembre 2012](https://reader031.vdocuments.net/reader031/viewer/2022013003/54d5f4424979596c658b4ee4/html5/thumbnails/6.jpg)
REINFORCEMENT LEARNING 6
APLICACIONES
Rick Sutton. Deconstructing Reinforcement Learning. ICML 09
![Page 7: REINFORCEMENT LEARNING Jesús Fernández Bes Noviembre 2012](https://reader031.vdocuments.net/reader031/viewer/2022013003/54d5f4424979596c658b4ee4/html5/thumbnails/7.jpg)
REINFORCEMENT LEARNING 7
MARKOV DECISION PROCESSES
Un Markov Decision Process (MDP) es un tupla <S,A,T,R> donde: • S es un conjunto finito de estados, • A es un conjunto finito de acciones,• T es una función de transición definida como
• R es una función de recompensa definida como
Dado un MDP definimos una política como una función:• Determinista
• Estocástica
![Page 8: REINFORCEMENT LEARNING Jesús Fernández Bes Noviembre 2012](https://reader031.vdocuments.net/reader031/viewer/2022013003/54d5f4424979596c658b4ee4/html5/thumbnails/8.jpg)
REINFORCEMENT LEARNING 8
OBJETIVOS. CRITERIOS A OPTIMIZAR
• ¿ Cual es el objetivo del agente?• ¿ Cómo tener en cuenta la recompensa a largo plazo?
Principalmente hay tres modelos:
Horizonte Finito Horizonte Infinito Recompensa Promedio
![Page 9: REINFORCEMENT LEARNING Jesús Fernández Bes Noviembre 2012](https://reader031.vdocuments.net/reader031/viewer/2022013003/54d5f4424979596c658b4ee4/html5/thumbnails/9.jpg)
REINFORCEMENT LEARNING 9
FUNCIONES DE VALOR
Discounted returns. Valor esperado de las recompensas futuras (con descuento).
– State Value function:
– State-Action Value function:
Value Function Assumption:“All efficient methods for solving
sequential decision problems estimate value functions as an
intermidiate step.”
![Page 10: REINFORCEMENT LEARNING Jesús Fernández Bes Noviembre 2012](https://reader031.vdocuments.net/reader031/viewer/2022013003/54d5f4424979596c658b4ee4/html5/thumbnails/10.jpg)
REINFORCEMENT LEARNING 10
ECUACIONES DE BELLMANRichard Bellman 1957.
• Ambas funciones se pueden escribir de forma recursiva.
• La solución óptima satisface:
![Page 11: REINFORCEMENT LEARNING Jesús Fernández Bes Noviembre 2012](https://reader031.vdocuments.net/reader031/viewer/2022013003/54d5f4424979596c658b4ee4/html5/thumbnails/11.jpg)
REINFORCEMENT LEARNING 11
ECUACIONES DE BELLMAN (2)
• Desarrollo equivalente para Q
• Existe una relación directa entre V* y Q*:
![Page 12: REINFORCEMENT LEARNING Jesús Fernández Bes Noviembre 2012](https://reader031.vdocuments.net/reader031/viewer/2022013003/54d5f4424979596c658b4ee4/html5/thumbnails/12.jpg)
REINFORCEMENT LEARNING 12
DYNAMIC PROGRAMMING
• Model-Based. – Entorno Determinista o estadística conocida.– Modelo perfecto de MDP.
• Útil desde el punto de vista teórico y algorítmico.
• Relativamente eficientes pero poco útiles en RL o cuando el espacio de estados es muy grande.
![Page 13: REINFORCEMENT LEARNING Jesús Fernández Bes Noviembre 2012](https://reader031.vdocuments.net/reader031/viewer/2022013003/54d5f4424979596c658b4ee4/html5/thumbnails/13.jpg)
REINFORCEMENT LEARNING 13
ALGORITMOS BÁSICOS DE DP (1): POLICY ITERATION
![Page 14: REINFORCEMENT LEARNING Jesús Fernández Bes Noviembre 2012](https://reader031.vdocuments.net/reader031/viewer/2022013003/54d5f4424979596c658b4ee4/html5/thumbnails/14.jpg)
REINFORCEMENT LEARNING 14
ALGORITMOS BÁSICOS DE DP (2): VALUE ITERATION
![Page 15: REINFORCEMENT LEARNING Jesús Fernández Bes Noviembre 2012](https://reader031.vdocuments.net/reader031/viewer/2022013003/54d5f4424979596c658b4ee4/html5/thumbnails/15.jpg)
REINFORCEMENT LEARNING 15
DE DYNAMIC PROGRAMMING A REINFORCEMENT LEARNING
• Model - Free– Estadística desconocida y parcialmente desconocida.
• Necesidad de muestreo y exploración.
Compromiso Exploration vs. Exploitation
• Necesario explorar el espacio de políticas para encontrar buenas políticas.
• Necesario usar las políticas buenas el mayor tiempo posible para obtener mucha recompensa.
![Page 16: REINFORCEMENT LEARNING Jesús Fernández Bes Noviembre 2012](https://reader031.vdocuments.net/reader031/viewer/2022013003/54d5f4424979596c658b4ee4/html5/thumbnails/16.jpg)
REINFORCEMENT LEARNING 16
POLÍTICAS DE EXPLORACIÓN• Hay políticas sencillas de exploración. Se basan en
las utilizadas en problemas de bandits:– ε – greedy strategy
• Elegir acción a según π (mejor acción posible) con probabilidad 1-ε.
• Elegir acción a aleatoria con probabilidad ε.
– Boltzmann (softmax) strategy
– Optimistic Q initialization
![Page 17: REINFORCEMENT LEARNING Jesús Fernández Bes Noviembre 2012](https://reader031.vdocuments.net/reader031/viewer/2022013003/54d5f4424979596c658b4ee4/html5/thumbnails/17.jpg)
REINFORCEMENT LEARNING 17
MÉTODOS BÁSICOS DE RL
• Métodos de Monte Carlo– Se estiman las funciones de valor como promedios
observados durante la iteración.– Sobretodo útiles en horizonte finito. Juegos.
• Temporal - Difference Learning– Se aprenden las estimaciones de los valores a
partir de otras estimaciones.– Online. No necesitan barrer todo el espacio de
estado.
![Page 18: REINFORCEMENT LEARNING Jesús Fernández Bes Noviembre 2012](https://reader031.vdocuments.net/reader031/viewer/2022013003/54d5f4424979596c658b4ee4/html5/thumbnails/18.jpg)
REINFORCEMENT LEARNING 18
TD (0)
• Sólo modifica la policy evaluation.
![Page 19: REINFORCEMENT LEARNING Jesús Fernández Bes Noviembre 2012](https://reader031.vdocuments.net/reader031/viewer/2022013003/54d5f4424979596c658b4ee4/html5/thumbnails/19.jpg)
REINFORCEMENT LEARNING 19
SARSA
• On-policy.• Útil en entornos no estacionarios.
![Page 20: REINFORCEMENT LEARNING Jesús Fernández Bes Noviembre 2012](https://reader031.vdocuments.net/reader031/viewer/2022013003/54d5f4424979596c658b4ee4/html5/thumbnails/20.jpg)
REINFORCEMENT LEARNING 20
Q - LEARNING
• Algoritmo más popular con diferencia.• Off-Policy.
![Page 21: REINFORCEMENT LEARNING Jesús Fernández Bes Noviembre 2012](https://reader031.vdocuments.net/reader031/viewer/2022013003/54d5f4424979596c658b4ee4/html5/thumbnails/21.jpg)
REINFORCEMENT LEARNING 21
ACTOR-CRITIC LEARNING
• El agente se compone de dos partes.– Actor: selecciona la política de acuerdo a las
preferencias p(st,at).– Critic: Evalúa las acciones. Mediante el TD-error:
– Se actualizan las Preferencias:
![Page 22: REINFORCEMENT LEARNING Jesús Fernández Bes Noviembre 2012](https://reader031.vdocuments.net/reader031/viewer/2022013003/54d5f4424979596c658b4ee4/html5/thumbnails/22.jpg)
REINFORCEMENT LEARNING 22
APROXIMACIÓN FUNCIONAL
• Si el número de estados es GRANDE o INFINITO.– No se puede representar V o Q como una tabla.
• Aproximación Least Squares– Se representa la Value function ( V o Q ) como
una combinación lineal de funciones.– Se aproxima minimizando una norma LS
![Page 23: REINFORCEMENT LEARNING Jesús Fernández Bes Noviembre 2012](https://reader031.vdocuments.net/reader031/viewer/2022013003/54d5f4424979596c658b4ee4/html5/thumbnails/23.jpg)
REINFORCEMENT LEARNING 23
Reinforcement Learning con GP
Bayesiano:– Se mantiene una distribución de probabilidad sobre distintos valores.– Permiten incluir conocimiento a priori, exploración, … – Existen otras aproximaciones bayesianas además de los GP: BQL,…
• Rassmussen C.E., Kuss M.– Distribución sobre discounted returns, no sólo Esperanza (V = E{D})
mediante un GP.– Aprende también las transiciones como GP.– Solución cerrada para algunas distribuciones de recompensas.
• Engel Y., Mannor S., Mier R.– TD + Aproximación de V con GP.– Implementación online. Kernel Sparsification.
![Page 24: REINFORCEMENT LEARNING Jesús Fernández Bes Noviembre 2012](https://reader031.vdocuments.net/reader031/viewer/2022013003/54d5f4424979596c658b4ee4/html5/thumbnails/24.jpg)
REINFORCEMENT LEARNING 24
PARTIALLY OBSERVABLE MDP
• Relajar asunción de los MDP: Parte del estado puede ser oculta. – Estado S ya no es Markoviano.
• En POMDP además de <S,A,T,R> se define el conjunto de observaciones Ω y la función O.
• R y T siguen dependiendo de s, no de o, decidir acción en base a 1 observación ya no es óptimo. Necesita memoria.– Belief vector b(s).
![Page 25: REINFORCEMENT LEARNING Jesús Fernández Bes Noviembre 2012](https://reader031.vdocuments.net/reader031/viewer/2022013003/54d5f4424979596c658b4ee4/html5/thumbnails/25.jpg)
REINFORCEMENT LEARNING 25
POMDP
• En general se necesita modelo de T y R. – DP o Model-based RL.
• Diferentes heurísticos para obtener las políticas a partir de los b(s)
• Métodos de búsqueda de política basados en simulaciones.– PEGASUS: Andrew Ng. & Michael Jordan.
![Page 26: REINFORCEMENT LEARNING Jesús Fernández Bes Noviembre 2012](https://reader031.vdocuments.net/reader031/viewer/2022013003/54d5f4424979596c658b4ee4/html5/thumbnails/26.jpg)
REINFORCEMENT LEARNING 26
OTROS ASPECTOS IMPORTANTES
• Conexiones con la Psicología Cognitiva y la Neurociencia.– Los inicios de RL se basan en investigaciones en comportamiento
animal. TD basado en “condicionamiento clásico”.– Algunos mecanismos del cerebro son muy similares a los algoritmos
RL. “Actividad neuronal dopaminérgica”.
• Resultados Teóricos.– Resultados de convergencia asintóticos. Algoritmos básicos.– Cotas de complejidad (muestras finitas): PAC-MDP.
• RL Multiagente.• Batch Reinforcement Learning.
![Page 27: REINFORCEMENT LEARNING Jesús Fernández Bes Noviembre 2012](https://reader031.vdocuments.net/reader031/viewer/2022013003/54d5f4424979596c658b4ee4/html5/thumbnails/27.jpg)
REINFORCEMENT LEARNING 27
ALGUNAS REFERENCIAS
• LIBROS– Reinforcement Learning: An Introduction. Sutton R. S. & Barto A. G.
(1998).– Reinforcement Learning: State-of-the-art. Wiering M. & van Otterlo
M. (2012). { Capítulo 1 }
• TUTORIALES– Reinforcement Learning: A Survey. Leslie Pack Kaelbling, Michael L.
Littman, Andrew W. Moore. Journal of Artificial Intelligence Research , 1996
– A tutorial on reinforcement learning techniques. C. H. C. Ribeiro. Proceedings of International Conference on Neural Networks, INNS Press, Washington, DC, USA, July 1999.
![Page 28: REINFORCEMENT LEARNING Jesús Fernández Bes Noviembre 2012](https://reader031.vdocuments.net/reader031/viewer/2022013003/54d5f4424979596c658b4ee4/html5/thumbnails/28.jpg)
REINFORCEMENT LEARNING 28
BIBLIOGRAFÍA EXTRA• Engel, Y., Mannor, S., Meir, R. Reinforcement Learning with Gaussian
Processes. In: Proceedings of the 22nd International Conference on Machine Learning. Vol. 22. Bonn, Germany, pp. 201–208, August 2005.
• C.E. Rasmussen and M. Kuss. Gaussian Processes in Reinforcement Learning. Advances in Neural Information Processing Systems 16—Proc. Ann. Conf. Neural Information Processing Systems, pp. 751-759, 2004.
• Andrew Y. Ng , Michael I. Jordan. PEGASUS: A policy search method for large MDPs and POMDPs. Proceedings of the 16th Conference on Uncertainty in Artificial Intelligence, p.406-415, June 30-July 03, 2000
• VIDEOLECTURES.NET TALK.Rick Sutton. Deconstructing Reinforcement Learning. ICML 2009http://videolectures.net/icml09_sutton_itdrl/