落合 wba hackathon2_成果報告_最終版
TRANSCRIPT
![Page 1: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/1.jpg)
Attention Control
第2回 WBA hackathon落合、都築
![Page 2: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/2.jpg)
やったこと
![Page 3: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/3.jpg)
やったことFree Energy Principle のニューラルネットによる実装
![Page 4: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/4.jpg)
Free Energy Principle ?
![Page 5: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/5.jpg)
Free Energy Principle by K.Friston
![Page 6: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/6.jpg)
Free Energy =精度 + 複雑度¿−𝐸𝑞(𝑧∨𝑥 )[ log𝑝𝜃 (𝑥|𝑧 )]+𝐷𝐾𝐿 [𝑞(𝑧∨𝜇)∨¿𝑝𝜃 (𝑧 )]𝐹 (𝑥 ,𝜇 )
𝑧𝑥𝜇
: Hidden or external states: Sensory states: Internal states(ex. z の平均、分散 )
精度 複雑度
![Page 7: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/7.jpg)
Internal state
𝜇=argmin𝐹 (𝑥 ,𝜇)予測誤差を最小化するよう内部パラメータを学習(通常の生成モデル学習)
𝜇
![Page 8: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/8.jpg)
Internal state
Action(Attention)
𝜇=argmin𝐹 (𝑥 ,𝜇)
𝑎=argmin𝐹 (𝑥 ,𝜇)
予測誤差を最小化するよう内部パラメータを学習(通常の生成モデル学習)予測誤差を最小化する行動を生成予測=注目
(Active Inference)
𝜇
𝑎
![Page 9: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/9.jpg)
実装
![Page 10: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/10.jpg)
Free Energy Principle = Variational Autoencoder• Variational Autoencoder(VAE) は変分ベイズをニューラルネットで表現したもの•変分ベイズでは Free Energy を最小化している• Free Energy を内部パラメータ調節で最小化する Network= Variational Autoencoder•今回の目標: Active Inferenceを VAEに追加• Active Inference=Free Energyを最小化する動きを生成すること
![Page 11: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/11.jpg)
𝑒𝑛
𝐼
𝑥𝑧 𝑑𝑒FC
𝑎
𝑒𝑛
𝐼
𝑥𝑧 𝑑𝑒FC
𝑎loss
RL
𝑥 ′ 𝑥 ′
𝑒𝑛 𝑧 𝑑𝑒FC 𝑥 ′𝑎𝑥
𝑒𝑛 𝑧 𝑑𝑒FC 𝑥 ′𝑎𝑥
lossRL
t=0 t=1
layer=0
layer=1
Active Inference Network
𝑎𝑧𝑥
FC
𝑑𝑒𝑒𝑛
𝑥 ′
Action
Hidden state
State(Bottom up)
State(expect)
Action Network
Encoder Network
Decoder Network
Probabilistic
![Page 12: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/12.jpg)
𝑒𝑛
𝐼
𝑥𝑧 𝑑𝑒FC
𝑎
𝑒𝑛
𝐼
𝑥𝑧 𝑑𝑒FC
𝑎loss
RL
𝑥 ′ 𝑥 ′
𝑒𝑛 𝑧 𝑑𝑒FC 𝑥 ′𝑎𝑥
𝑒𝑛 𝑧 𝑑𝑒FC 𝑥 ′𝑎𝑥
lossRL
t=0 t=1
layer=0
layer=1
Active Inference Network
𝑎𝑧𝑥
FC
𝑑𝑒𝑒𝑛
𝑥 ′
Action
Hidden state
State(Bottom up)
State(expect)
Action Network
Encoder Network
Decoder Network
Probabilistic
今回作成範囲
![Page 13: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/13.jpg)
𝑒𝑛
𝐼
𝑥𝑧 𝑑𝑒FC
𝑎
𝑒𝑛
𝐼
𝑥𝑧 𝑑𝑒FC
𝑎loss
RL
𝑥 ′ 𝑥 ′
𝑒𝑛 𝑧 𝑑𝑒FC 𝑥 ′𝑎𝑥
𝑒𝑛 𝑧 𝑑𝑒FC 𝑥 ′𝑎𝑥
lossRL
t=0 t=1
layer=0
layer=1
Active Inference Network
𝑎𝑧𝑥
FC
𝑑𝑒𝑒𝑛
𝑥 ′
Action
Hidden state
State(Bottom up)
State(expect)
Action Network
Encoder Network
Decoder Network
Probabilistic
Variational Autoencoder
![Page 14: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/14.jpg)
𝑒𝑛
𝐼
𝑥𝑧 𝑑𝑒FC
𝑎
𝑒𝑛
𝐼
𝑥𝑧 𝑑𝑒FC
𝑎loss
RL
𝑥 ′ 𝑥 ′
𝑒𝑛 𝑧 𝑑𝑒FC 𝑥 ′𝑎𝑥
𝑒𝑛 𝑧 𝑑𝑒FC 𝑥 ′𝑎𝑥
lossRL
t=0 t=1
layer=0
layer=1
Active Inference Network
𝑎𝑧𝑥
FC
𝑑𝑒𝑒𝑛
𝑥 ′
Action
Hidden state
State(Bottom up)
State(expect)
Action Network
Encoder Network
Decoder Network
Probabilistic
Action
![Page 15: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/15.jpg)
学習環境
![Page 16: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/16.jpg)
環境 エージェント
MNIST 画像を並べた56x56 ピクセルの空間( トーラス状に回り込み )
着目領域 28x28 ピクセル
着目領域内の画像
着目領域の相対移動方向
𝑒𝑛
𝐼
𝑥𝑧 𝑑𝑒FC
𝑎
𝑥 ′
dx = -1 or 1, dy=-1 or 1
ピクセル単位の移動
![Page 17: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/17.jpg)
結果
![Page 18: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/18.jpg)
Step 0 ~ 100予測画像 軌跡
スタート
![Page 19: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/19.jpg)
Step 4000 ~ 4100予測画像 軌跡
スタート
![Page 20: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/20.jpg)
Step 4000 ~ 4100予測画像 軌跡
スタート
![Page 21: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/21.jpg)
Step 8000 ~ 8100予測画像 軌跡
スタート
![Page 22: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/22.jpg)
Step 8000 ~ 8100予測画像 軌跡
スタート
![Page 23: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/23.jpg)
Step 12000 ~ 12100予測画像 軌跡
スタート
![Page 24: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/24.jpg)
Step 16000 ~ 16100予測画像 軌跡
スタート
![Page 25: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/25.jpg)
Step 20000 ~ 20100予測画像 軌跡
スタート
![Page 26: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/26.jpg)
loss
Epoch(1Epoch = 100Step)
![Page 27: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/27.jpg)
LSTM を追加: Step 16000 ~ 16100予測画像 軌跡
スタート
![Page 28: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/28.jpg)
LSTM を追加: Step 16000 ~ 16100予測画像 軌跡
スタート
![Page 29: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/29.jpg)
LSTM を追加: Step 16000 ~ 16100予測画像 軌跡
スタート
![Page 30: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/30.jpg)
考察•予測誤差を最小化するため一箇所で振動•理由•環境が固定、かつ行動の外乱なし•予測誤差は最小化ではなく一定の値になるよう行動を決めるべき?• 予測誤差が少なすぎる⇨退屈• 予測誤差が高すぎる⇨不安
•報酬、トップダウン信号が必要
![Page 31: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/31.jpg)
•すごい: Free Energy Principle を大規模化可能な 形で実装•おもろい:制御への応用可能性(後述)•脳っぽい: Free Energy Principle は脳の実験 データによる裏付けも出始めている
![Page 32: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/32.jpg)
Future Work
![Page 33: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/33.jpg)
•探索行動の継続を矯正•多層化•トップダウンでの行動生成
![Page 34: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/34.jpg)
•探索行動の継続を矯正•多層化•トップダウンでの行動生成
![Page 35: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/35.jpg)
𝑒𝑛
𝐼
𝑥𝑧 𝑑𝑒FC
𝑎
𝑒𝑛
𝐼
𝑥𝑧 𝑑𝑒FC
𝑎loss
RL
𝑥 ′ 𝑥 ′
𝑒𝑛 𝑧 𝑑𝑒FC 𝑥 ′𝑎𝑥
𝑒𝑛 𝑧 𝑑𝑒FC 𝑥 ′𝑎𝑥
lossRL
t=0 t=1
layer=0
layer=1
Active Inference Network
𝑎𝑧𝑥
FC
𝑑𝑒𝑒𝑛
𝑥 ′
Action
Hidden state
State(Bottom up)
State(expect)
Action Network
Encoder Network
Decoder Network
Probabilistic
作成予定範囲
![Page 36: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/36.jpg)
柔軟な行動生成・マップ上でのナビゲーション課題
← こいつを探したいある特定の画像を,マップ上で探し出す
![Page 37: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/37.jpg)
𝑒𝑛
𝐼
𝑥𝑧 𝑑𝑒FC
𝑎
𝑒𝑛
𝐼
𝑥𝑧 𝑑𝑒FC
𝑎loss
RL
𝑥 ′ 𝑥 ′
𝑒𝑛 𝑧 𝑑𝑒FC 𝑥 ′𝑎𝑥
𝑒𝑛 𝑧 𝑑𝑒FC 𝑥 ′𝑎𝑥
lossRL
t=0 t=1
layer=0
layer=1
Active Inference Network
𝑎𝑧𝑥
FC
𝑑𝑒𝑒𝑛
𝑥 ′
Action
Hidden state
State(Bottom up)
State(expect)
Action Network
Encoder Network
Decoder Network
Probabilistic
探索対象の画像を入力、ボトムアップ計算
![Page 38: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/38.jpg)
𝑒𝑛
𝐼
𝑥𝑧 𝑑𝑒FC
𝑎
𝑒𝑛
𝐼
𝑥𝑧 𝑑𝑒FC
𝑎loss
RL
𝑥 ′ 𝑥 ′
𝑒𝑛 𝑧 𝑑𝑒FC 𝑥 ′𝑎𝑥
𝑒𝑛 𝑧 𝑑𝑒FC 𝑥 ′𝑎𝑥
lossRL
t=0 t=1
layer=0
layer=1
Active Inference Network
𝑎𝑧𝑥
FC
𝑑𝑒𝑒𝑛
𝑥 ′
Action
Hidden state
State(Bottom up)
State(expect)
Action Network
Encoder Network
Decoder Network
Probabilistic
上位層の z を固定し、ボトムアップとトップダウン信号を流す
![Page 39: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/39.jpg)
Active Inference Network のイメージ
layer0
layer1
layer2
layer3
In Brain
World sensor
ゴム紐
![Page 40: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/40.jpg)
Active Inference Network のイメージ
layer0
layer1
layer2
layer3
In Brain
World sensor
![Page 41: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/41.jpg)
Active Inference Network のイメージ
layer0
layer1
layer2
layer3
In Brain
World sensor
![Page 42: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/42.jpg)
Active Inference Network のイメージ
layer0
layer1
layer2
layer3
In Brain
World sensor
![Page 43: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/43.jpg)
Active Inference Network のイメージ
layer0
layer1
layer2
layer3
In Brain
World sensor
![Page 44: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/44.jpg)
Active Inference Network のイメージ
layer0
layer1
layer2
layer3
In Brain
World sensor
![Page 45: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/45.jpg)
Active Inference Network のイメージ
layer0
layer1
layer2
layer3
In Brain
World sensor
![Page 46: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/46.jpg)
Active Inference Network のイメージ
layer0
layer1
layer2
layer3
In Brain
World sensor
![Page 47: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/47.jpg)
END
![Page 48: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/48.jpg)
以降付録
![Page 49: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/49.jpg)
キーワード• Free Energy Principle• Predictive Coding• Policy Gradient(action の強化学習で使用 )• Variational Autoencoder• 変分ベイズ• 変分下界• エントロピー
![Page 50: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/50.jpg)
環境、ライブラリ• Python 2.7• Chainer 1.15.0.1
![Page 51: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/51.jpg)
Variational Autoencoder の式
参考: http://qiita.com/skitaoka/items/64eab1d6c09a189d5841
log 𝑃 𝜃 (𝑥 )
𝑝𝜃 (𝑧∨𝑥) :真の潜在変数の事後分布𝑞 (𝑧∨𝑥 ) :の近似分布( Neural Network で表現)log 𝑃 𝜃 (𝑥 ) :対数尤度。これを最大化する見つけ出したい
下界 = 真の分布と近似誤差の差
𝐿 (𝑥 )・・・①
![Page 52: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/52.jpg)
Free Energy の式
¿−𝐸𝑞(𝑧∨𝑥 )[ log𝑝𝜃 (𝑥|𝑧 )]+𝐷𝐾𝐿 [𝑞(𝑧∨𝜇)∨¿𝑝𝜃 (𝑧 ) ]
𝐹 (𝑥 ,𝜇 )¿𝐸𝑞( 𝑧∨𝑥)¿
参考: https://en.wikipedia.org/wiki/Free_energy_principle
Energy Entropy
・・・②
𝑧𝑥𝜇
: Hidden or external states: Sensory states: Internal states 𝑧𝑥
𝜇𝑎
World In Brain
![Page 53: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/53.jpg)
両者は同じもの𝐿 (𝑥 )=𝐸𝑞(𝑧∨𝑥) [ log𝑝𝜃 (𝑥|𝑧 )]−𝐷𝐾𝐿 [𝑞 (𝑧∨𝑥)∨¿𝑝𝜃 (𝑧 )]
① より ② より𝐹 (𝑠 ,𝜇)=−𝐸𝑞(𝑧∨𝑥 )¿
−𝐿 (𝑥 )=−𝐸𝑞 (𝑧|𝑥 ) [ log𝑝𝜃 (𝑥|𝑧 ) ]+𝐷𝐾𝐿 [𝑞(𝑧∨𝑥)∨¿𝑝 𝜃 (𝑧 )]
−𝐿 (𝑥 )=−𝐸𝑞 (𝑧|𝑥 ) [ log𝑝𝜃 (𝑥|𝑧 ) ]+𝐷𝐾𝐿 [𝑞(𝑧∨𝜇)∨¿𝑝 𝜃 (𝑧 )]
観測された値で Internal states を代用
正規分布と仮定
• Free Energy は最小化、変分下界は最大化。やっていることも同じ。• の確率関数はニューラルネットによる近似
![Page 54: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/54.jpg)
Free Energy Principle = Variational Autoencoder• Variational Autoencoder(VAE) は変分ベイズをニューラルネットで表現したもの ( http://www.asahi-net.or.jp/~fb8t-ysok/docs/vae/ )• 変分ベイズでは Free Energy を最小化している ( http://
nktmemoja.github.io/jekyll/update/2016/08/20/variational-bayes.html )• Free Energy を内部パラメータ調節で最小化する Network= Variational Autoencoder•今回の目標: Active Inferenceを VAEに追加• Active Inference=Free Energyを最小化する動きを生成すること
![Page 55: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/55.jpg)
1枚ものスライド
![Page 56: 落合 Wba hackathon2_成果報告_最終版](https://reader035.vdocuments.net/reader035/viewer/2022070518/58e660281a28ab8d758b5087/html5/thumbnails/56.jpg)
Free Energy Principle by Friston
implement
“Active Inference Network”
・ある状態を実現するための,行動を生成するネットワークの提案
Test
・マップ上でのナビゲーション課題
← こいつを探したいある特定の画像を,マップ上で探し出す