Download - End to end training with deep visiomotor
![Page 1: End to end training with deep visiomotor](https://reader033.vdocuments.net/reader033/viewer/2022051709/5872a0901a28ab07208b5a47/html5/thumbnails/1.jpg)
End To End TrainingDeep Visuomotor Policy
2016/10/01mabonki0725
Journal of Machine Learning Research 17 (2016) 1-40
![Page 2: End to end training with deep visiomotor](https://reader033.vdocuments.net/reader033/viewer/2022051709/5872a0901a28ab07208b5a47/html5/thumbnails/2.jpg)
概要1
• ロボットの視覚による連結アームの最適制御
Deep Learning
機械学習 現代制御理論
統合モデルで実現
![Page 3: End to end training with deep visiomotor](https://reader033.vdocuments.net/reader033/viewer/2022051709/5872a0901a28ab07208b5a47/html5/thumbnails/3.jpg)
概要2• 知覚・制御システムはDQN初めて達成
– DeepLearning+強化学習– 人間を超えるゲーム得点を達成– しかし自動制御は簡単なレバーとボタン
• 本報告はロボットの視覚で複雑な操作を実現– ハンガー掛け 嵌め込み 釘抜き ボトルキャップ締め
• 視覚と軌道制御の統合モデルで実現– DeepLearning + 現代制御理論 + 機械学習
• 制約付最適化(Guided Policy Search)モデルで達成– BregmannADMM(BADMM)のフレームで解く
• 本論文は知覚ロボットの論文では殆ど参照されている
![Page 4: End to end training with deep visiomotor](https://reader033.vdocuments.net/reader033/viewer/2022051709/5872a0901a28ab07208b5a47/html5/thumbnails/4.jpg)
最終目標(End to End) • 最終目標 視覚による最適方策πの学習
θ:ニューロ重み Ut:モータトルクの信号 Ot:ロボットのカメラ画像
![Page 5: End to end training with deep visiomotor](https://reader033.vdocuments.net/reader033/viewer/2022051709/5872a0901a28ab07208b5a47/html5/thumbnails/5.jpg)
Guided Policy Seachを採用
• ①知覚学習–知覚的に最適方策πを見つける–最適方策はDeepLearningで解く– しかしこの方策は制御上実現できるか不明
• ②現代制御理論LQRによる最適制御–移動目標への軌道pを逆軌道問題で解く
• 知覚学習の最適方策πと最適制御pは徐々になら一致できる(BADMM法)–現代制御(Guide)とする最適方策(Policy)モデル
![Page 6: End to end training with deep visiomotor](https://reader033.vdocuments.net/reader033/viewer/2022051709/5872a0901a28ab07208b5a47/html5/thumbnails/6.jpg)
4つの学習の統合アームの学習 観察からの学習
DeepLearngin事前学習
観察データ
②現代制御 ①知覚学習
Guided PolciySearch
一致
![Page 7: End to end training with deep visiomotor](https://reader033.vdocuments.net/reader033/viewer/2022051709/5872a0901a28ab07208b5a47/html5/thumbnails/7.jpg)
画像と制御は分離して事前学習
240*240 RGB pixel CNN 4 層 2*32 Softmax 2*20 Neuro
7 モータトルク
robotのアームと物体の事前学習 モータトルクの事前学習
見える場所のみ特徴量を学習する
![Page 8: End to end training with deep visiomotor](https://reader033.vdocuments.net/reader033/viewer/2022051709/5872a0901a28ab07208b5a47/html5/thumbnails/8.jpg)
Guided Policy Search知覚学習と実現できる制御を一致させる
知覚学習π=現代制御御p の制約下で軌道コストを最小化
制御の分布で動作させる
状態をsamplingする
sampling(状態 観察)から知覚学習πを求める
現代制御での実現可能な制御の分布pを求める
一致
![Page 9: End to end training with deep visiomotor](https://reader033.vdocuments.net/reader033/viewer/2022051709/5872a0901a28ab07208b5a47/html5/thumbnails/9.jpg)
制約付最適化問題 制約条件下の軌道τのコストの最小化
Xt:状態(物体、腕、手先) Ut:操作(モータ信号)
状態変化の分布
制約条件
目標関数
d:物体までの距離コスト関数
コスト関数
軌道
知覚最適方策πと現実制御pの一致
![Page 10: End to end training with deep visiomotor](https://reader033.vdocuments.net/reader033/viewer/2022051709/5872a0901a28ab07208b5a47/html5/thumbnails/10.jpg)
BADMM法Guided Policy Seachの解法
現代制御理論
DeepLearning
θ p λの3パラメータの最適化を行う
②
①
最適化問題
BADMM法:制約をDKL(P||π)=0とするラグランジェ乗数λの最適化問題
※λtUtの内積はコストに近似可能とする
DKL(P||π)カルバックラー・ダイバージェンス
![Page 11: End to end training with deep visiomotor](https://reader033.vdocuments.net/reader033/viewer/2022051709/5872a0901a28ab07208b5a47/html5/thumbnails/11.jpg)
①知覚学習(DeepLearning)
知覚された最適方策をガウス分布とする
最尤値=DeepLearningの目的値
知覚学習πθのθが最尤値になる様にDeepLearningで解く
の平均と分散は
はラグランジェ乗数と制御Utの内積
①
t
Ttt
tT
tt
oofo
oofo
,
,
θをDeepLearnngで解く
![Page 12: End to end training with deep visiomotor](https://reader033.vdocuments.net/reader033/viewer/2022051709/5872a0901a28ab07208b5a47/html5/thumbnails/12.jpg)
②現代制御LQRによる最適化
②
実現制御
LQRモデル
![Page 13: End to end training with deep visiomotor](https://reader033.vdocuments.net/reader033/viewer/2022051709/5872a0901a28ab07208b5a47/html5/thumbnails/13.jpg)
LQR (逆軌道問題を解く)
https://studywolf.wordpress.com/2016/02/03/the-iterative-linear-quadratic-regulator-method/
目標移動の終端から順番に制御を算出する(逆制御法)
目的関数
微小制御幅
2次線形近似
現代制御理論:ハミルトン・ヤコビ法で解く
![Page 14: End to end training with deep visiomotor](https://reader033.vdocuments.net/reader033/viewer/2022051709/5872a0901a28ab07208b5a47/html5/thumbnails/14.jpg)
サンプリング を回帰してパラメータ{fxt fut fct Ft}を算出
移動後の遷移モデルモータトルクには誤差 : 制御Ut後の状態Xt+1を線形ガウス分布で推定
高次元では厳しい
サンプリング より混合ガウス分布でp(Xt+1|Ut,Xt)で遷移を推定
変分ベイズ近似 : 逆ウィシャドー事前分布による混合ガウス分布推定
はサンプルの平均と分散
実験では20個の混合ガウス分布が出現
但し 制御Utは前軌道との相違範囲 に保つ
![Page 15: End to end training with deep visiomotor](https://reader033.vdocuments.net/reader033/viewer/2022051709/5872a0901a28ab07208b5a47/html5/thumbnails/15.jpg)
混合ガウス分布(移動の誤差)を解く
K番目分布の混合比率
sample毎の混合比率r1 r5以外は縮退
ウィシャドー分布
変分ベイズ実装結果
![Page 16: End to end training with deep visiomotor](https://reader033.vdocuments.net/reader033/viewer/2022051709/5872a0901a28ab07208b5a47/html5/thumbnails/16.jpg)
遷移モデルの改善状態
![Page 17: End to end training with deep visiomotor](https://reader033.vdocuments.net/reader033/viewer/2022051709/5872a0901a28ab07208b5a47/html5/thumbnails/17.jpg)
End To End 学習の結果訓練と同条件 対象の移動 異物の存在
![Page 18: End to end training with deep visiomotor](https://reader033.vdocuments.net/reader033/viewer/2022051709/5872a0901a28ab07208b5a47/html5/thumbnails/18.jpg)
End To End学習後特徴量
Deep Learning による学習後の特徴量 物体とロボットの手に生成されている
![Page 19: End to end training with deep visiomotor](https://reader033.vdocuments.net/reader033/viewer/2022051709/5872a0901a28ab07208b5a47/html5/thumbnails/19.jpg)
事前と事後の特徴量の変化
○ 画像での事前学習での特徴量
× End To End 学習後での特徴量
対象物とロボットの手に集中
対象物とロボットの手の間にも存在
![Page 20: End to end training with deep visiomotor](https://reader033.vdocuments.net/reader033/viewer/2022051709/5872a0901a28ab07208b5a47/html5/thumbnails/20.jpg)
まとめ
1.目標が実現するまで①と②が一致できる範囲で徐々に動作させる–①知覚の最適方策はDeepLearningで解く–②実現制御は現代制御理論LQRで解く–①と②の一致する様にBADMM法で解く–制御後の位置は混合ガウス分布の確率に従う
2.DeepLearning+現代制御理論+機械学習の統合モデルで実現
3.本報告は画期的なDQNをロボット制御に適応したモデル