reinforcement learning das reinforcement learning-problem alexander schmid

27
Reinforcement Learning Das „Reinforcement Learning“-Problem Alexander Schmid

Upload: adelheid-lageman

Post on 05-Apr-2015

163 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Reinforcement Learning Das Reinforcement Learning-Problem Alexander Schmid

Reinforcement Learning

Das „Reinforcement Learning“-Problem

Alexander Schmid

Page 2: Reinforcement Learning Das Reinforcement Learning-Problem Alexander Schmid

Institut für Informatik - 2 -

Vortragsgliederung

1. Einleitung

2. Das Labyrinthbeispiel

3. Der Agent und die Umgebung

4. Die Policy

5. Rewards und Returns

6. Markov-Eigenschaft und MDP

7. Value Functions

8. Fazit und Ausblick

9. Literaturreferenzen

Page 3: Reinforcement Learning Das Reinforcement Learning-Problem Alexander Schmid

Institut für Informatik - 3 -

1. Einleitung – Was ist Reinforcement Learning

Reinforcement Learning ist eine spezielle Art von Lernverfahren

„maschinelle Lernverfahren“:

Ein Künstliches System lernt (z.b. ein Roboter oder eine Maschine)

„überwachtes Lernen“ Ein „Lehrer“ (übergibt die Lehrvorgaben) Künstliches System orientiert sich an Lehrvorgaben

Reinforcement Learning Es gibt keinen Lehrer Der Ursprung liegt in der Natur

Page 4: Reinforcement Learning Das Reinforcement Learning-Problem Alexander Schmid

Institut für Informatik - 4 -

1. Einleitung – Was ist Reinforcement Learning

Beispiel Kleinkind

Offensichtlich ist kein Lehrer notwendig

Das Kind kann seine Umgebung verändern

Das Kind kann die Veränderungen wahrnehmen (Ursache und Wirkung)

Erfahrungen helfen dem Kind Ziele zu erreichen

Merkmale des Reinforcement Learnings

Interaktion mit der Umgebung

Sammeln und Anwenden von Erfahrungen

„trial-and-error“-Prinzip

Belohnungen beim Erreichen von Zielen

Page 5: Reinforcement Learning Das Reinforcement Learning-Problem Alexander Schmid

Institut für Informatik - 5 -

1. Einleitung – Das „Reinforcement Learning“-Problem

Ziel: Formales Modell für Reinforcement Learning definieren

1. Ansatz

Idee: Verallgemeinerung von konkreten Anwendungen

Ansatz nicht brauchbar, da zu viele unterschiedliche Anwendungen

Beispiel: Fertigungsroboter und Sortiermaschine

2. Ansatz

Idee: Beschreibung des Problems anstelle der Lösung

Genauer: Beschreibung der einzelnen Elemente

Beispiele unter diesem Ansatz mit einander vereinbar

Page 6: Reinforcement Learning Das Reinforcement Learning-Problem Alexander Schmid

Institut für Informatik - 6 -

2. Das Labyrinthbeispiel

Ein Labyrinth und ein Roboter

Lernziel: Roboter soll so schnell wie möglich zum Ausgang finden

Eingang

Ausgang

Ausgang

Roboter

Page 7: Reinforcement Learning Das Reinforcement Learning-Problem Alexander Schmid

Institut für Informatik - 7 -

3. Der Agent und die Umgebung

Das künstliche System wir formal als „ der Agent“ bezeichnet

Der Agent…

...ist immer der Teil der lernt

…muss zwingend dynamisch bzw. veränderbar sein

...muss mit seiner Umgebung interagieren können

Die Umgebung…

…ist das Gegenstück zum Agenten

…ist statisch (nicht veränderbar)

…beinhaltet alles, was nicht explizit zum Agenten gehört

Page 8: Reinforcement Learning Das Reinforcement Learning-Problem Alexander Schmid

Institut für Informatik - 8 -

3. Der Agent und die Umgebung

Aktionen…

…können vom Agenten ausgeführt werden

…low-level- oder high-level-Entscheidungen (Beispiel Roboterarm)

Zustände…

…beschreiben den Momentanzustand der Umgebung

…können komplizierte Formen annehmen (Beispiel: Objekterkennung)

Zustände und Aktionen liegen kodiert vor

Page 9: Reinforcement Learning Das Reinforcement Learning-Problem Alexander Schmid

Institut für Informatik - 9 -

3. Der Agent und die Umgebung (Interaktion)

Agent führt Aktion aus (Zeitpunkt t)

Die Umgebung ändert ihren Zustand (Konsequenz aus Aktion)

Neuer Zeitschritt beginnt

Agent bekommt (neuen) Zustand

Agent bekommt Reward (Belohnung)

ta

Agent

Umgebung

Aktion

1ts

Zustand

ts1tr

Reward

tr

Page 10: Reinforcement Learning Das Reinforcement Learning-Problem Alexander Schmid

Institut für Informatik - 10 -

3. Der Agent und die Umgebung

Agent und Umgebung am Labyrinthbeispiel

Die Umgebung ist das Labyrinth (inklusive Ein- und Ausgängen)

Der Agent ist der Roboter (bzw. sein Rechenwerk)

Agent (Roboter)

Page 11: Reinforcement Learning Das Reinforcement Learning-Problem Alexander Schmid

Institut für Informatik - 11 -

3. Der Agent und die Umgebung

Aktionen und Zustände am Labyrinthbeispiel

Page 12: Reinforcement Learning Das Reinforcement Learning-Problem Alexander Schmid

Institut für Informatik - 12 -

4. Die Policy

Die Policy…

…ist das Herzstück des Agenten (trifft die Entscheidungen)

…ist eine Abbildung von einem Zustand auf eine Aktion

…muss veränderbar sein (Lernvorgang)

…wird mit πt notiert (Definition)

Das „Exploitation-Exploration-Problem“

Erinnerung: „trial-and-error“-Prinzip

„greedy Policy“ (gierige Policy)

Page 13: Reinforcement Learning Das Reinforcement Learning-Problem Alexander Schmid

Institut für Informatik - 13 -

4. Die Policy

„Exploitation-Exploration-Problem“ am Labyrinthbeispiel

Page 14: Reinforcement Learning Das Reinforcement Learning-Problem Alexander Schmid

Institut für Informatik - 14 -

4. Die Policy

Lösung des „Exploitation-Exploration-Problems“

Einbauen von Exploration-Entscheidungen

Verfeinerung des Policy-Begriffs (Wahrscheinlichkeitsverteilung)

Formal: πt(s,a)

Beispiel Zustandsgraph

a b c

s

1.0),(

4.0),(

5.0),(

cs

bs

as

t

t

t

x y z

Page 15: Reinforcement Learning Das Reinforcement Learning-Problem Alexander Schmid

Institut für Informatik - 15 -

5. Rewards und Returns

Formulierung eines Ziels für den Agenten

Definition: rt

Rewards liegen in der Umgebung

Modellierung eines komplexen Ziels mit Hilfe von Rewards

Beispiel: Roboter lernt laufen

Rewards können auch falsch gesetzt werden

Beispiel: Schach

Page 16: Reinforcement Learning Das Reinforcement Learning-Problem Alexander Schmid

Institut für Informatik - 16 -

5. Rewards und Returns

Rewards im Labyrinthbeispiel

-1-1-1-1-1-1-1 -1-1 -1 -1 -1-1 -1

-1-1 -1-1

-1-1 -1-1

-1-1

-1-1

-1-1

-1-1

-1-1 -1-1 -1-1 -1-1

-1-1 -1-1 -1-1 -1-1

-1-1 -1-1 -1-1 -1-1

-1-1 -1-1 -1-1 -1-1

-1-1 -1-1 -1-1 -1-1

-1-1 -1-1 -1-1 -1-1

-1-1 -1-1 -1-1 -1-1 -1-1 -1-1 -1-1

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

-1

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

-1 80

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

80

Page 17: Reinforcement Learning Das Reinforcement Learning-Problem Alexander Schmid

Institut für Informatik - 17 -

5. Rewards und Returns

Returns sind Summen von Rewards

Definition:

Problem bei kontinuierlichen Prozessen

Lösung: Abschwächen der Summenglieder durch Faktor

Definition:

mit 0 < γ < 1

Tttt rrrR 21

0)1(3

221

kkt

ktttt rrrrR

Page 18: Reinforcement Learning Das Reinforcement Learning-Problem Alexander Schmid

Institut für Informatik - 18 -

5. Rewards und Returns

Returns am Labyrinthbeispiel

-1-1-1-1-1-1-1 -1-1 -1 -1 -1-1 -1

-1-1 -1-1

-1-1 -1-1

-1-1

-1-1

-1-1

-1-1

-1-1 -1-1 -1-1 -1-1

-1-1 -1-1 -1-1 -1-1

-1-1 -1-1 -1-1 -1-1

-1-1 -1-1 -1-1 -1-1

-1-1 -1-1 -1-1 -1-1

-1-1 -1-1 -1-1 -1-1

-1-1 -1-1 -1-1 -1-1 -1-1 -1-1 -1-1

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

-1

-1 -1

-1 -1

-1 -1

-1

-1

-1 -1

-1 -1

-1 -1

-1 80

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

80

-1

-1

-1-1-1-1-1-1-1-1-1+80 = 71

-1-1-1-1+80 = 76

Page 19: Reinforcement Learning Das Reinforcement Learning-Problem Alexander Schmid

Institut für Informatik - 19 -

6. Markov-Eigenschaft und MDP

Informationsgehalt der Zustände

Beispiel: Schach

Keine Informationen voriger Zustände nötig (Markov-Eigenschaft)

mathematische Formulierung der Markov Eigenschaft

Zustände ohne Markov-Eigenschaft:

Zustände mit Markov-Eigenschaft:

Annäherungen an die Markov-Eigenschaft

},,,,,,,,,|,'{ 00011111 rasrasrasrrssWs tttttttt

},|,'{ 11 tttt asrrssWs

Page 20: Reinforcement Learning Das Reinforcement Learning-Problem Alexander Schmid

Institut für Informatik - 20 -

6. Markov-Eigenschaft und MDP

Markov-Decision-Process (MDP)

Alle Zustände besitzen die Markov-Eigenschaft

Aussagen über „Reinforcement Learning“ gelten nur für MDPs

Mathematischen Eigenschaften des MDP

Übergangswahrscheinlichkeit:

Folgezustand für Aktion nicht zwingend eindeutig

},|'{ 1' aassssWsP tttass

Page 21: Reinforcement Learning Das Reinforcement Learning-Problem Alexander Schmid

Institut für Informatik - 21 -

6. Markov-Eigenschaft und MDP

Beispiel für Übergangswahrscheinlichkeit

Erweiterter Zustandsgraph:

Erwarteter Reward:

bzsP

a b

w x y z

awsP

axsP

bysP

s

},|'{ 1' aassssWsP tttass

}',,|{ 11' ssaassrER ttttass

Page 22: Reinforcement Learning Das Reinforcement Learning-Problem Alexander Schmid

Institut für Informatik - 22 -

7. Value Functions

Value Functions bewerten Zustände

Definition

Die Value Function repräsentiert den „erwarteten Return“:

Die Value Functions sind von der Policy abhängig

ssrEssREsV t

kkt

ktt |}|{)(

0)1(

Page 23: Reinforcement Learning Das Reinforcement Learning-Problem Alexander Schmid

Institut für Informatik - 23 -

7. Value Functions

Auflösen der Formel:

}|{)( ssREsV tt

ssrE t

kkt

k |0

)1(

ssrrE t

kkt

kt |

0)2(1

a s kkt

kass

ass rERPas

' 0)2(''),(

a s

ass

ass sVRPas

''' )'(),(

s

s1 s2 s3

a1 a2

1

1

assP

1

2

assP

1

3

assP

Page 24: Reinforcement Learning Das Reinforcement Learning-Problem Alexander Schmid

Institut für Informatik - 24 -

7. Value Functions

Action-Value Functions

Bewerten ein Zustand-Aktions-Paar

Definition:

Optimale Value Functions

Value Functions konvergieren gegen optimale Value Functions (ausgelernt)

Policies mit optimalen Value Functions sind optimale Policies

Strategie: Bei optimalen Value Functions eine greedy Policy verwenden

aassrEaassREasQ tt

kkt

kttt ,|},|{),(

0)1(

Page 25: Reinforcement Learning Das Reinforcement Learning-Problem Alexander Schmid

Institut für Informatik - 25 -

7. Value Functions

Optimale Value Function am Labyrinthbeispiel

-1-1-1-1-1-1-1 -1-1 -1 -1 -1-1 -1

-1-1 -1-1

-1-1 -1-1

-1-1

-1-1

-1-1

-1-1

-1-1 -1-1 -1-1 -1-1

-1-1 -1-1 -1-1 -1-1

-1-1 -1-1 -1-1 -1-1

-1-1 -1-1 -1-1 -1-1

-1-1 -1-1 -1-1 -1-1

-1-1 -1-1 -1-1 -1-1

-1-1 -1-1 -1-1 -1-1 -1-1 -1-1 -1-1

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

-1

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

-1 80

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

-1 -1

8022 Schritte

Return von 59

Page 26: Reinforcement Learning Das Reinforcement Learning-Problem Alexander Schmid

Institut für Informatik - 26 -

8. Fazit und Ausblick

Zusammenfassung

Ursprung und Allgemeine Beschreibung von Reinforcement Learning

Formales Modell für Reinforcement Learning (allen wichtigen Elemente)

Anwendungsbeispiele

Zusammenfassung

Modell dient als Rahmen für die Entwicklung von Anwendungen

Beispiele: Monte Carlo Methoden, Dynamisches Programmieren, Temporal

Difference Learning

Page 27: Reinforcement Learning Das Reinforcement Learning-Problem Alexander Schmid

Institut für Informatik - 27 -

9. Literaturreferenzen

[1] Richard S. Sutton and Andrew G. Barto, Reinforcement Learning: An

Introduction, Chapter 1 - Introduction, MIT Press, Cambridge, MA, 1998

[2] Richard S. Sutton and Andrew G. Barto, Reinforcement Learning: An

Introduction, Chapter 3 - The Reinforcement Learning Problem, MIT Press,

Cambridge, MA, 1998