Download - Metódy adaptívneho kritika
1
Metódy adaptívneho kritikaMetódy adaptívneho kritika
Ján Kašprišin
2
Osnova prezentácieOsnova prezentácie
Základné pojmy Heuristické dynamické programovanie (HDP) Duálne heuristické programovanie (DHP) Aplikácia: Realizácia Kalmanovho estimátora stavu
použitím DHP. Zhodnotenie vhodnosti použitia metódy na riešenie
daného problému
3
Základné pojmyZákladné pojmy
ACD optimalizačné metódy zahŕňajú v sebe výhody
RL a dynamického
programovania
Základné moduly v ACD Action Critic Model
4
Základné pojmyZákladné pojmy
Typy ACD Heuristické dynamické programovanie (HDP) Duálne heuristické programovanie (DHP) Globalizované duálne heuristické programovanie (GDHP) Action-dependent design (Q-learning)
5
Heuristické dynamické programovanieHeuristické dynamické programovanie
- je založené na myšlienke aproximácie riešenia Bellmanovej rovnice
- ktorú je možné nahradiť približným vzťahom
- kde U je kvadratickým kritériom
- funkcia užitočnosti J v zmysle riadenia odpovedá Ljapunovovej funkcii
)()(0
ikUkJi
i
))1(()())(( kxJkUkxJ
)()()()()( kRukukQxkxkU TT
)1()()1())1(( kxkPkxkxJ T
6
Heuristické dynamické programovanieHeuristické dynamické programovanie
- zavedieme si nasledujúce označenie
- z Pontryaginovho principu minima vyplíva, že u(k) musí byť také, že platí
- na základe čoho je možné odvodiť chybu siete Action
)()()())((
)()()()())(),((
)1()()())(),((
kukxkKkxg
kRukukQxkxkukxr
kxkGukFxkukxfTT
0))((
))(),(()1())1((
))(())(),((
))(())((
kxgkukxf
kxkxJ
kxgkukxr
kxgkxJ
))(())((
0)(kxgkxJ
kea
7
Heuristické dynamické programovanieHeuristické dynamické programovanie
Chyba siete Critic je na základe Bellmanovej rovnice určená ako
Základná schéma HDP
)()()1()( kJkUkJkec
8
Duálne heuristické programovanieDuálne heuristické programovanie
je založené na diferenciácii Bellmanovej rovnice chyba siete Action sa získava rovnakým spôsobom ako u (HDP), rozdiel je
v získavaní chyby pre sieť Critic výstupom siete Critic nie je odhad funkcie J, ale priamo jej derivácia
diferenciáciou Bellmanovej rovnice je možné získať žiadanú hodnotu výstupu siete Critic
)()(
)(kxkJ
ki
i
M
j
N
h
M
j
N
h i
j
j
h
hi
h
hi
j
ji
iiiii
kx
ku
kukx
kxkJ
kxkx
kxkJ
kx
ku
kukr
kxkr
kxkx
kxkJ
kxku
kukukxr
kxkukxr
kxkJ
1 1 1 1
0
)(
)(
)()1(
)1()1(
)()1(
)1()1(
)(
)(
)()(
)()(
)()1(
)1()1(
)()(
)())(),((
)())(),((
)()(
9
Duálne heuristické programovanieDuálne heuristické programovanie
M
j
N
h
M
j
N
h i
j
j
h
hi
h
hi
j
jii kx
ku
kukx
kxkJ
kxkx
kxkJ
kx
ku
kukr
kxkr
1 1 1 1
0
)(
)(
)()1(
)1()1(
)()1(
)1()1(
)(
)(
)()(
)()(
10
Realizácia KE použitím DHRealizácia KE použitím DHPP
Popis systému
Rovnice Kalmanovho estimátora
Popis duálneho systému
)()()()(
)()()()1(
kokDukHxky
kvkGukFxkx
1))(()()(
)()()()1(
)1|()(
)]()()[()()1|()|1(
TT
TT
ee
ee
HkHPRHkFPkK
FkHPkKQFkFPkP
kkHxky
kykykKkGukkFxkkx
)()()(
)()()1(
kDwkqGky
kwHkqFkqT
TT
11
Realizácia KE použitím DHRealizácia KE použitím DHPP
K ó p iaC ri tic
C ri tic
D u á ln y m o d e l s y s té m u
A c tio n
e (k + 1 )
e (k )
(k + 1 )
(k + 1 )
w (k )
(k )
(k )
-
+0
U e w,
S y stém
K a lm a n o ve s tim á to r
e (k )
u (k -1 )
x (k )
x (k )
y (k -1 )
-
K
e
12
Zhodnotenie výsledkovZhodnotenie výsledkov
Závislosť koeficientov matice K (získaných pomocou DHP) na čase
13
Ďakujem za pozornosťĎakujem za pozornosť
;o)