solve grid world problem

Post on 10-Jan-2017

51 Views

Category:

Engineering

3 Downloads

Preview:

Click to see full reader

TRANSCRIPT

1

Reinforcement Learning in The Grid World problem

AuthorAlireza Andalib

Learning Machine

ارایه عنوان

2

3

تقویتی یادگیری

4

تقویتی یادگیری

5

تقویتی مقایسه با یادگیریناظر با یادگیری

6

Supervised Learning:

Example Class

Reinforcement Learning:

Situation Reward Situation Reward…

ناظر با یادگیری با RL مقایسه

ناظر با یادگیری

Supervised Learning SystemInputs Outputs

Training Info = desired (target) outputs

Error = (target output – actual output)

7

تقویتی یادگیری

RLSystemInputs Outputs (“actions”)

Training Info = evaluations (“rewards” / “penalties”)

8

یادگیری اصلی های مشخصهتقویتی

9

یادگیری مسئله کلی ساختارتقویتی

سیاست10 }|Pr{),( ssaaas ttt

11

سیاست مشی خط

سیاست یادگیری یا مشی خط

13

بهینه سیاست آوردن بدست

14

محیط

15

محیط

16

مارکوف خاصیت

17

Markov Decision Processes

18

مشبک جهان مسئله تعریفGrid World

A B

B’

A’

19

مشبک جهان مسئله تعریف

20

مشبک جهان مسئله تعریف

Bellmanالگوریتم

22

بلمن الگوریتم نهایی جوابحل :25معادله 25با میرسیم زیر مقادیر به مجهول

1.7120 9.7461 3.1311 5.4209 1.0036

0.7994 2.9233 2.3299 1.9586 0.4665

0.0023 0.7899 07355 0.4364 0.2287-

0.7664- 0.8488- 0.0076 0.1855- 0.9621-

0.9949- 1.3554- 1.0946- 1.4766- 2.0021-

23

IPEالگوریتم

24

الگوریتم نهایی IPEجواب) 100مثال( Kبا تکرار بار تا i,jبار میشود روز به خانه هر صفر مقادیر

: میرسیم زیر مقادیر به که جایی

1.4008 9.5698 3.1841 5.4309 0.8827

0.6503 2.9231 1.9576 1.8581 0.3910

0.0303- 0.8137 0.7354 0.4787 0.2830-

0.4062- 0.0118- 0.0183 0.1828- 0.7333-

0.6535- 0.4780- 0.4594- 0.5763- 0.9488-

25

PIالگوریتم

26

الگوریتم نهایی PIجواببا را عامل که هست قطع<یی سیاستی آمده دست به انتها در که نتایجی

.شروع Stateهر میدهد سوق< ها امتیاز بیشترین آوری جمع سمت به

Go Right Jump Go Left Jump Go Left

Go Up Go Up Go Left Go Up Go Left

Go Up Go Up Go Up Go Up Go Left

Go Up Go Up Go Up Go Up Go Left

Go Up Go Up Go Up Go Up Go Left

27

گیری نتیجه

28

منابع Horstmann, Cay. "GridWorld". horstmann.com.

Accessed September 15, 2008 www.inf.ed.ac.uk/teaching/courses/rl www.math-info.univ-paris5.fr/~bouzy/Doc/AA2/Rein

forcementLearning2 www.cs.berkeley.edu/~pabbeel/cs287-fa12 courses.cs.washington.edu/courses/cse473/12sp/

slides/16-mdp.pdf

29

THANKS FOR YOUR ATTENTION

top related