人間とのインタラクションにより言葉と行動を学習するロボット(岩橋...
TRANSCRIPT
人間とのインタラクションにより言葉と行動を学習するロボット
岡山県立大学
岩橋直人
1
内容
1. 対話技術の現状
2. 動作と言語によるコミュニケーション学習機構L‐Core の概要
3. 動作の模倣学習
4. 連続音声からの語彙の学習
5. 状況依存的発話理解の学習
6. 確認発話生成
7. 実世界に関する質問応答の学習
8. まとめ
2
ロボット対話
実世界情報をカテゴリ化、予測し、実世界を操作可能な対話システム
日常生活支援ロボットの対話機能は、現状ではまったく不十分である
ロボットの対話技術はとても難しい!どうして?
従来の言語処理では、記号の意味は記号で記述されているユーザーと物理世界に関する共有信念を形成できない
「いつものあれ持ってきて」「これを引き出しにもどしておいて」
3はじめに
共有信念はコミュニケーションの基盤4はじめに
翔太: コーヒーを飲むかい
美咲: コーヒーを飲むと目が覚めるわ
美咲は、目を覚ましたいので申し出を受けたい。美咲は、目を覚ましたくないので申し出を断りたい。翔太は、美咲が目を覚ましたいので申し出を受けたい、と思った。翔太は、美咲が目を覚ましたくないので申し出を断った、と思った。
共有信念はコミュニケーションの基盤5はじめに
翔太: コーヒーを飲むかい
美咲: コーヒーを飲むと目が覚めるわ
美咲は、目を覚ましたいので申し出を受けたい。
翔太は、美咲が目を覚ましたいので申し出を受けたい、と思った。
実世界
ロボット信念
拡張性
グラウンディング
ユーザ信念
共有
6
ロボット対話の三つの要件
対話処理の記号創発的アプローチ
L‐Core幼児のようにコミュニケーションを自律的に学習する手法
7
L‐Coreの信念システム8
共有信念関数Ψ(s,a) 個別確信度
ベクトル
動作-オブジェクト
関係行動
コンテキスト音声言語 動作物体
L‐Coreの信念システム
全体確信度関数 f(d)
発話と行動の生成と理解
9
L‐Core の機能
ロボットに向けられた発話の検出
状況依存的発話理解
確認発話生成
実世界に関する質問応答
役割反転模倣
自律的オンライン物体学習
音韻学習
物体概念学習
動作模倣学習
語彙学習
文法学習
語用法学習
10
11
動作の模倣学習
課題:単語音声と物体操作の ペア から動詞とそ
の意味を学習する
難しさ: 非観測情報の推測参照点
座標系
*羽岡, 岩橋, “言語獲得のための参照点に…,” IEICE技研報告 PRMU2000‐105, pp.39‐46, 2000.
ランドマークと座標系の例12
飛び越えさせる
近づかせる乗せる
持ち上げる
HMMによる動作の学習13
HMM
0
0
動作「のせる」
出力正規分布
HMMは時系列信号の確率モデル
複数軌道を入力して一つのHMMを学習する
「のせる」の学習データ
参照点に依存したHMMによる軌道生成
軌道は、HMMの尤度(確率)が最も高くなるように生成する
入力: 動作ID, 参照点
出力: 最尤軌道
14
0
0
動作「のせる」
参照点
元の位置
問 題 設 定15
ここは スマートルーム です
ここの名前はスマートルームここの名前はスマートルーム
この場所は スマートルーム
2
1対象IDこの場所は 会議室の前
指示
1対象ID
単語や文法の 知識を持たない ロボットが
文音声と指示対象の ペア から単語とその意味を学習する
言い回し
キーワード
このばしぇおあかいでぃひつのまえ
提案手法の原理
発話と指示対象の共起確率モデルの学習
統計的モデル構造選択
語彙の学習
16
1
2
3
発話と指示対象の共起確率モデル
三種類の確率モデル(音響,文法,語意)を統合
W1 WLW0 WL+1 S
発話
A
対象
O
始端 単語 単語 終端 単語列
ss L
lll
L
lllNBests
S
WOPWWPSAP
SOPSPSAPOAP
13
0121 )|(log)|(log);|(logmax
)|()()|(log),(log
文法音響 語意
17
提案手法の流れ
18
学習
デー
タ
対象
音声
モデル選択による単語リスト最適化
初期単語リストの構築
語意モデル文法モデル
文法モデルと語意モデルの学習
音素列
w1 k/o/k/o/w/a
w2 g/a/k/u/s/e
w3 b/e/y/a・・・
部分音素列の種類:約6000種類(60発話)
単語リストの項目数:約200単語
各部分列の
前後1モーラの情報量が閾値以上なら追加
単語リスト
かいぎし
かいぎしつ
?? ??
????
モデル選択による単語リスト最適化19
MDL基準に従って不要な単語を削除する
記述長=-(モデル尤度)+ log(データ数)
データのあてはまりの良さとモデルの自由度とのバランスを取る
自由度2
モデル尤度= データ数
iii OAP ),(log
自由度={ 単語数2+2 ×単語数 }+{ 対象数×単語数 }
モデル1 の単語
w1 k/o/k/o/w/aw2 h/o/k/o/w/aw3 g/a/k/u/s/e・・・
モデル2 の単語
w1 k/o/k/o/w/a
w3 g/a/k/u/s/e・・・
Bigramの確率が高い2単語を連結1
2
提案手法の流れ
20
学習
デー
タ
対象
音声
モデル選択による単語リスト最適化
初期単語リストの構築
語意モデル文法モデル
文法モデルと語意モデルの学習
単語リスト
実験用収録音声21
対象 キーワード 対象 キーワード
1 会議室の前 6 竹内さんのブースの南
2 辻野さんのブース 7 工作室
3 フロアの真ん中 8 アシモの部屋
4 学生部屋の前 9 スマートルーム
5 お茶飲み場 10 スマートルームの入り口
言い回しのパターンこの場所は~ ここは~です ここの名前は~
~の所に行って ~へお願い 今から~へ行って
言い回し6種類 60発話を収録キーワード10種類
音素正解精度は平均 81 %
実験結果( 16名分の平均)22
203
99
74
51 37
29 25 24 23 23 23
81%
50%
85%
40%
50%
60%
70%
80%
90%
100%
0
50
100
150
200
0 1 2 3 4 5 6 7 8 9 10
音素
正解
精度
(折れ
線グ
ラフ
)
単語
数(棒
グラ
フ)
単語リスト最適化の回数
獲得単語数 発話の音素正解精度 出力キーワードの音素正解精度
実験結果:提案手法で獲得されたキーワード例23
正解キーワード 最適化なし 最適化10回
会議室の前 かいすのまえ かいすのまえ
辻野さんのブース つじのさ つじのさうのぶす
フロアの真ん中 なか ふろあどまんなか
学生部屋の前 がくせえべや がくせえべやのまえ
お茶飲み場 おちょ おちゃのいま
竹内さんのブースの南 み たきょいつさんのぶすのみなみ
工作室 こおさくしつ こおさくひつ
アシモの部屋 あしものへや あしものへや
スマートルーム む すもあとるむ
スマートルームの入り口 ち すまとるむのいいぐち
平均音素正解精度 43 % 85%平均 音素正解精度
単語リストの最適化によって分節誤りが修正される
学習中の認識結果の例
発話 「この場所はフロアの真ん中」音素認識結果: こどばしぇおあふろあのまんがか
(k o d o b a sh e o a h u r o a n o m a ng g a k a)
初期モデル :/ こど / ば / しょわ / ふろあ / ど / まんなか /
モデル選択1回:/ この / ばしょわ / ふろあどまん / なか /
モデル選択2回: / このばしょわ / ふろあどまんなか /
24
共有信念関数
25
1,
2
3
4
5
( , ) max log ( | ; , )
log ( | ; ) log ( | ; )
log ( | ; )
log ( , | ; )
log ( , | ; )
l z
T L
M
M
s a p s z L G
p t W L p l W L
p u W L
p t l W R
p t l q H
個別確信度ベクトル
MCE 学習 ML/MAP 学習
信念モジュール
音声言語 HMMs
物体画像Gaussians
動作 HMMs
動作‐オブジェクト関係Gaussians
行動のコンテキストMultinominal distribution
発話理解26
arg max ( , ) A
a s A
最適動作 入力音声
可能な動作
最適化の過程
0
20
40
60
80
100
120
140
1 2
系列5
系列4
系列3
系列2
系列1
音声認識結果:1st: カーミット 青い 箱 持ち上げて2nd:カーミット 青い 箱 のせて
発話:“カーミット 青い 箱 のせて”
行動コンテキスト
動作‐オブジェクト関係
動作
物体
音声言語
OptimalSecond
Ψ(s,a)
実験
96 発話‐シーン サンプルペア
詳細な発話と、曖昧で断片的な発話を含む
語彙
50物体に対して60 単語, 7動作に対して7単語
学習エピソード数の影響を評価
Leave‐one‐out cross validation
28
オンライン MCE 学習
‐0.2
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
0 10 20 30 40 50 60 70 80 90
Local con
fiden
ce value
系列1系列2系列3系列4系列5系列6
Speech
Object
Motion‐object relationship
Motion
Holding
Previously moved
The number of episodes
29
個別
確信
度ベ
クト
ル
エピソード数
理解率の改善
30
40
50
60
70
80
90
100
0 10 20 30 40 50 60 70 80 90
Und
erstanding
rate (%
)
系列1
The number of episodes
38%
30
エピソード数
音声
理解
率(%
)
2ステップ意思決定過程
1. ロボットは、ただちに動作を開始するか、または、確認発話を生成するか、決定する(whether to)
2. ロボットは、確認発話として何を生成するか、決定する(what to)
31
最適化過程のマージン
0
20
40
60
80
100
120
140
1 2
系列5
系列4
系列3
系列2
系列1
音声認識結果:1st: カーミット 青い 箱 持ち上げて2nd:カーミット 青い 箱 のせて
発話:“カーミット 青い 箱 のせて”
行動コンテキスト
動作‐オブジェクト関係
動作
物体
音声言語
OptimalSecond
Ψ(s,a)
マージン
33
全体確信度関数Prob
ability
1.0
0.5
‐50 0 50 100 150 200Margin d
0.0
strong
weak
‐ +
入力: マージン
出力:ユーザ発話がロボットによって正しく理解された確率の推定値ロボット発話がユーザによって正しく理解される確率の推定値
ベイジアンロジスティック回帰で学習共有信念関数とユーザの共有信念の一致度を評価
確率的意思決定
最大期待効用を生む閾値 0 に基づく意思決定
34
正解反応
1 0
動作
確認発話
効用
動作 , + 1 ,
確認発話 , + 1 ,
期待
効用
推定正解確率 ,0 1
動作
確認発話
35
理解される確率を制御する発話生成
arg min f ,s
s d s a
最適発話 動作
可能な発話
ターゲット確率
単語の追加による確認発話生成
f(d(s,a)) が を越えるまで単語を追加
36
箱持ち上げて.
f(d’)
“大きい赤い四角い箱” 0.98
“大きい赤い箱” 0.92
“箱” 0.47
“小さい青い箱” 0.08
“青い箱” 0.01
大きい赤い箱持ち上げて、いいですか?
リスク低減の評価37
Failure rateRejection rateConfirmation rate# of confirmation utt
Baseline 1/4 に減少
発話行為の認識38
38
コミュニケーション
物理世界
3つのタイプの発話行為1. ロボットにオブジェクトを記述させる質問
2. ロボットにオブジェクトを指差させる質問
3. オブジェクト操作の命令
青い箱持ち上げてカーミットどれ?なに?
今後の展開
ユーザの行動習慣の学習
時間の概念 「きのう見せたペンを持ってきて」
ペット、フルーツ、道具などの、抽象度の高い意味を持つ語彙の学習
動作学習と言語学習の統一原理追求
…
39
まとめ
L‐Coreユーザ信念と物理世界状況に依存した信念システム
認知的言語理解の達成
多機能統合に成功
頑健性、実用性の向上が必要
40