solve grid world problem

29
1 Reinforcement Learning in The Grid World problem Author Alireza Andalib Learning Machine

Upload: alireza-andalib

Post on 10-Jan-2017

51 views

Category:

Engineering


3 download

TRANSCRIPT

Page 1: Solve Grid world problem

1

Reinforcement Learning in The Grid World problem

AuthorAlireza Andalib

Learning Machine

Page 2: Solve Grid world problem

ارایه عنوان

2

Page 3: Solve Grid world problem

3

تقویتی یادگیری

Page 4: Solve Grid world problem

4

تقویتی یادگیری

Page 5: Solve Grid world problem

5

تقویتی مقایسه با یادگیریناظر با یادگیری

Page 6: Solve Grid world problem

6

Supervised Learning:

Example Class

Reinforcement Learning:

Situation Reward Situation Reward…

ناظر با یادگیری با RL مقایسه

Page 7: Solve Grid world problem

ناظر با یادگیری

Supervised Learning SystemInputs Outputs

Training Info = desired (target) outputs

Error = (target output – actual output)

7

Page 8: Solve Grid world problem

تقویتی یادگیری

RLSystemInputs Outputs (“actions”)

Training Info = evaluations (“rewards” / “penalties”)

8

Page 9: Solve Grid world problem

یادگیری اصلی های مشخصهتقویتی

9

Page 10: Solve Grid world problem

یادگیری مسئله کلی ساختارتقویتی

سیاست10 }|Pr{),( ssaaas ttt

Page 11: Solve Grid world problem

11

سیاست مشی خط

Page 12: Solve Grid world problem

سیاست یادگیری یا مشی خط

Page 13: Solve Grid world problem

13

بهینه سیاست آوردن بدست

Page 14: Solve Grid world problem

14

محیط

Page 15: Solve Grid world problem

15

محیط

Page 16: Solve Grid world problem

16

مارکوف خاصیت

Page 17: Solve Grid world problem

17

Markov Decision Processes

Page 18: Solve Grid world problem

18

مشبک جهان مسئله تعریفGrid World

A B

B’

A’

Page 19: Solve Grid world problem

19

مشبک جهان مسئله تعریف

Page 20: Solve Grid world problem

20

مشبک جهان مسئله تعریف

Page 21: Solve Grid world problem

Bellmanالگوریتم

Page 22: Solve Grid world problem

22

بلمن الگوریتم نهایی جوابحل :25معادله 25با میرسیم زیر مقادیر به مجهول

1.7120 9.7461 3.1311 5.4209 1.0036

0.7994 2.9233 2.3299 1.9586 0.4665

0.0023 0.7899 07355 0.4364 0.2287-

0.7664- 0.8488- 0.0076 0.1855- 0.9621-

0.9949- 1.3554- 1.0946- 1.4766- 2.0021-

Page 23: Solve Grid world problem

23

IPEالگوریتم

Page 24: Solve Grid world problem

24

الگوریتم نهایی IPEجواب) 100مثال( Kبا تکرار بار تا i,jبار میشود روز به خانه هر صفر مقادیر

: میرسیم زیر مقادیر به که جایی

1.4008 9.5698 3.1841 5.4309 0.8827

0.6503 2.9231 1.9576 1.8581 0.3910

0.0303- 0.8137 0.7354 0.4787 0.2830-

0.4062- 0.0118- 0.0183 0.1828- 0.7333-

0.6535- 0.4780- 0.4594- 0.5763- 0.9488-

Page 25: Solve Grid world problem

25

PIالگوریتم

Page 26: Solve Grid world problem

26

الگوریتم نهایی PIجواببا را عامل که هست قطع<یی سیاستی آمده دست به انتها در که نتایجی

.شروع Stateهر میدهد سوق< ها امتیاز بیشترین آوری جمع سمت به

Go Right Jump Go Left Jump Go Left

Go Up Go Up Go Left Go Up Go Left

Go Up Go Up Go Up Go Up Go Left

Go Up Go Up Go Up Go Up Go Left

Go Up Go Up Go Up Go Up Go Left

Page 27: Solve Grid world problem

27

گیری نتیجه

Page 28: Solve Grid world problem

28

منابع Horstmann, Cay. "GridWorld". horstmann.com.

Accessed September 15, 2008 www.inf.ed.ac.uk/teaching/courses/rl www.math-info.univ-paris5.fr/~bouzy/Doc/AA2/Rein

forcementLearning2 www.cs.berkeley.edu/~pabbeel/cs287-fa12 courses.cs.washington.edu/courses/cse473/12sp/

slides/16-mdp.pdf

Page 29: Solve Grid world problem

29

THANKS FOR YOUR ATTENTION