solve grid world problem

1

Reinforcement Learning in The Grid World problem

AuthorAlireza Andalib

Learning Machine

ارایه عنوان

2

3

تقویتی یادگیری

4


5

تقویتی مقایسه با یادگیریناظر با یادگیری

6

Supervised Learning:

Example Class

Reinforcement Learning:

Situation Reward Situation Reward…

ناظر با یادگیری با RL مقایسه

ناظر با یادگیری

Supervised Learning SystemInputs Outputs

Training Info = desired (target) outputs

Error = (target output – actual output)

7


RLSystemInputs Outputs (“actions”)

Training Info = evaluations (“rewards” / “penalties”)

8

یادگیری اصلی های مشخصهتقویتی

9

یادگیری مسئله کلی ساختارتقویتی

سیاست10 }|Pr{),( ssaaas ttt

11

سیاست مشی خط

سیاست یادگیری یا مشی خط

13

بهینه سیاست آوردن بدست

14

محیط

15

محیط

16

مارکوف خاصیت

17

Markov Decision Processes

18

مشبک جهان مسئله تعریفGrid World

A B

B’

A’

19

مشبک جهان مسئله تعریف

20

مشبک جهان مسئله تعریف

Bellmanالگوریتم

22

بلمن الگوریتم نهایی جوابحل :25معادله 25با میرسیم زیر مقادیر به مجهول

1.7120 9.7461 3.1311 5.4209 1.0036

0.7994 2.9233 2.3299 1.9586 0.4665

0.0023 0.7899 07355 0.4364 0.2287-

0.7664- 0.8488- 0.0076 0.1855- 0.9621-

0.9949- 1.3554- 1.0946- 1.4766- 2.0021-

23

IPEالگوریتم

24

الگوریتم نهایی IPEجواب) 100مثال( Kبا تکرار بار تا i,jبار میشود روز به خانه هر صفر مقادیر

: میرسیم زیر مقادیر به که جایی

1.4008 9.5698 3.1841 5.4309 0.8827

0.6503 2.9231 1.9576 1.8581 0.3910

0.0303- 0.8137 0.7354 0.4787 0.2830-

0.4062- 0.0118- 0.0183 0.1828- 0.7333-

0.6535- 0.4780- 0.4594- 0.5763- 0.9488-

25

PIالگوریتم

26

الگوریتم نهایی PIجواببا را عامل که هست قطع<یی سیاستی آمده دست به انتها در که نتایجی

.شروع Stateهر میدهد سوق< ها امتیاز بیشترین آوری جمع سمت به

Go Right Jump Go Left Jump Go Left

Go Up Go Up Go Left Go Up Go Left

Go Up Go Up Go Up Go Up Go Left



27

گیری نتیجه

28

منابع Horstmann, Cay. "GridWorld". horstmann.com.

Accessed September 15, 2008 www.inf.ed.ac.uk/teaching/courses/rl www.math-info.univ-paris5.fr/~bouzy/Doc/AA2/Rein

forcementLearning2 www.cs.berkeley.edu/~pabbeel/cs287-fa12 courses.cs.washington.edu/courses/cse473/12sp/

slides/16-mdp.pdf

http://www.inf.ed.ac.uk/teaching/courses/rl

http://www.math-info.univ-paris5.fr/~bouzy/Doc/AA2/ReinforcementLearning2

http://www.math-info.univ-paris5.fr/~bouzy/Doc/AA2/ReinforcementLearning2

http://www.cs.berkeley.edu/~pabbeel/cs287-fa12

29

THANKS FOR YOUR ATTENTION

solve grid world problem

Engineering