[dl輪読会]generative adversarial imitation learning

Generative Adversarial Imitation Learning

冨山　翔司

松尾研究室

はじめまして

• 松尾研究室のM1です。• 朝ごはん制度が導入されてから隠れて参加していました。

• よろしくお願いします。

書誌情報

• Jonathan Ho, Stefano Ermon• NIPS 2016• Generative Adversarial Imitation Learning

• 一時話題になってた気がしたので読んでみました（結構難しかった。。。）

サマリー

• エキスパートポリシーの軌道のデータのみから、直接ポリシーを学習するような一般的なフレームワークを提案。– エキスパートポリシー・・・あるタスクに対して最適化されたポリシー。教師のようなもの。

– 従来では、逆強化学習によってエキスパートポリシーから報酬関数を学習し、その報酬関数を用いてポリシーを学習していた。

• この一般的なフレームワークに則ると、ある設定下において GANとの関連が見える。その設定下で学習すると良いポリシーが獲得できる。

逆強化学習と強化学習

• エキスパートポリシーからコスト関数を推定。 (IRL)

– エキスパートポリシーとそうでないポリシーとの差を最大化させるようなコスト関数

– このコスト関数に従って、強化学習でポリシーを学習。

– （本論文では報酬をコストに置き換えている）• 強化学習

– 与えられたコストに対してそのコストを最小化するようなポリシーを学習

本論文のモチベーション

• コスト関数推定→強化学習　の問題– 計算が大変で、かつ大きい環境に対応できない。

• エキスパートから直接ポリシーを求めたい

凸関数正則化項 ψ付き IRL

• コスト関数に対して ψ正則化を加えたものを追加– c: S×A→R– ψを加えない場合、コスト関数はエキスパートが通ったことのあるデータ点にオーバーフィットしてしまう。

– ψは凸関数

• のとき、はどのように書けるか？？？

occupancy measureの導入•

– occupancy measureと呼ぶ。– ポリシー πに従っている時、 stateと actionのペアがどれだけ発生するかの分布

• – ρの集合 Dは上のように書ける。

• Dは凸集合。

• 　

Characterize • 一般に凸関数 fに対して ,以下が成り立つ

• 上から

– 凸共役の式の yにコスト、 xに ρの差が対応。

• ψ凸正則化を加えた RLIRLは、凸共役 ψ*の元でエキスパートとの ρが近くなるようなポリシーを探索する。

整理

IRLによるコスト推定RLによるポリシー学習

ψ付き IRLによるコスト推定

RLによるポリシー学習

凸関数 ψが定数関数である時• 定数関数（ ψ(x) = constant)である場合

– , ,• 「正則化がない場合、学習されるポリシーはエキスパートと同じ occupancy measureを持つ」

– IRLは occupancy measureの一致問題と双対。

• エキスパートと同じポリシーになるが、 S×Aが大きい時はスケールしない。

apprenticeship learningと RLIRL• apprenticeship learning（徒弟学習）

– この ψで RLIRLから apprenticeship learningを記述可能

– S×Aが大きくてもスケールする• コストが線形関数であるため、複雑なポリシーを表現することができない。– エキスパートを完全に模倣できない– S×Aが大きくてもスケールし、かつエキスパートを模倣できるくらい複雑なモデルが欲しい

cは凸関数に限定

GANと RLIRL

• 上のように ψを設定する。と、これは– コストがいたるところで負であるような任意のコスト関数を表現可能

– この ψの凸共役関数は

– エキスパートとの occupancy measureの JSDを最小化する• 学習するポリシーはエキスパートを完全に模倣可能

– Discriminatorはコスト関数に対応する• RLIRLからGANが出てきた（！）

generative adversarial imitation learning

実験結果

[dl輪読会]generative adversarial imitation learning

Technology