人間とのインタラクションにより言葉と行動を学習するロボット(岩橋...

人間とのインタラクションにより言葉と行動を学習するロボット

岡山県立大学

岩橋直人

1

内容

1. 対話技術の現状

2. 動作と言語によるコミュニケーション学習機構L‐Core の概要

3. 動作の模倣学習

4. 連続音声からの語彙の学習

5. 状況依存的発話理解の学習

6. 確認発話生成

7. 実世界に関する質問応答の学習

8. まとめ

2

ロボット対話

実世界情報をカテゴリ化、予測し、実世界を操作可能な対話システム

日常生活支援ロボットの対話機能は、現状ではまったく不十分である

ロボットの対話技術はとても難しい！どうして？

従来の言語処理では、記号の意味は記号で記述されているユーザーと物理世界に関する共有信念を形成できない

「いつものあれ持ってきて」「これを引き出しにもどしておいて」

3はじめに

共有信念はコミュニケーションの基盤4はじめに

翔太: コーヒーを飲むかい

美咲: コーヒーを飲むと目が覚めるわ

美咲は、目を覚ましたいので申し出を受けたい。美咲は、目を覚ましたくないので申し出を断りたい。翔太は、美咲が目を覚ましたいので申し出を受けたい、と思った。翔太は、美咲が目を覚ましたくないので申し出を断った、と思った。

共有信念はコミュニケーションの基盤5はじめに

翔太: コーヒーを飲むかい

美咲: コーヒーを飲むと目が覚めるわ

美咲は、目を覚ましたいので申し出を受けたい。

翔太は、美咲が目を覚ましたいので申し出を受けたい、と思った。

実世界

ロボット信念

拡張性

グラウンディング

ユーザ信念

共有

6

ロボット対話の三つの要件

対話処理の記号創発的アプローチ

L‐Core幼児のようにコミュニケーションを自律的に学習する手法

7

L‐Coreの信念システム8

共有信念関数Ψ(s,a) 個別確信度

ベクトル

動作-オブジェクト

関係行動

コンテキスト音声言語動作物体

L‐Coreの信念システム

全体確信度関数 f(d)

発話と行動の生成と理解

9

L‐Core の機能

ロボットに向けられた発話の検出

状況依存的発話理解

確認発話生成

実世界に関する質問応答

役割反転模倣

自律的オンライン物体学習

音韻学習

物体概念学習

動作模倣学習

語彙学習

文法学習

語用法学習

10

11

動作の模倣学習

課題：単語音声と物体操作のペアから動詞とそ

の意味を学習する

難しさ：非観測情報の推測参照点

座標系

*羽岡, 岩橋, “言語獲得のための参照点に…,” IEICE技研報告 PRMU2000‐105, pp.39‐46, 2000.

ランドマークと座標系の例12

飛び越えさせる

近づかせる乗せる

持ち上げる

HMMによる動作の学習13

HMM

0

0

動作「のせる」

出力正規分布

HMMは時系列信号の確率モデル

複数軌道を入力して一つのHMMを学習する

「のせる」の学習データ

参照点に依存したHMMによる軌道生成

軌道は、HMMの尤度（確率）が最も高くなるように生成する

入力：動作ID, 参照点

出力：最尤軌道

14

0

0

動作「のせる」

参照点

元の位置

問題設定15

ここはスマートルームです

ここの名前はスマートルームここの名前はスマートルーム

この場所はスマートルーム

2

1対象IDこの場所は会議室の前

指示

1対象ID

単語や文法の知識を持たないロボットが

文音声と指示対象のペアから単語とその意味を学習する

言い回し

キーワード

このばしぇおあかいでぃひつのまえ

提案手法の原理

発話と指示対象の共起確率モデルの学習

統計的モデル構造選択

語彙の学習

16

１

２

3

発話と指示対象の共起確率モデル

三種類の確率モデル（音響，文法，語意）を統合

W1 WLW0 WL+1 S

発話

A

対象

O

始端単語単語終端単語列

ss L

lll

L

lllNBests

S

WOPWWPSAP

SOPSPSAPOAP

13

0121 )|(log)|(log);|(logmax

)|()()|(log),(log

文法音響語意

17

提案手法の流れ

18

学習

デー

タ

対象

音声

モデル選択による単語リスト最適化

初期単語リストの構築

語意モデル文法モデル

文法モデルと語意モデルの学習

音素列

w1 k/o/k/o/w/a

w2 g/a/k/u/s/e

w3 b/e/y/a・・・

部分音素列の種類：約６０００種類（６０発話）

単語リストの項目数：約２００単語

各部分列の

前後１モーラの情報量が閾値以上なら追加

単語リスト

かいぎし

かいぎしつ

？？？？

？？？？

モデル選択による単語リスト最適化19

MDL基準に従って不要な単語を削除する

記述長＝－（モデル尤度）＋ log（データ数）

データのあてはまりの良さとモデルの自由度とのバランスを取る

自由度２

モデル尤度＝データ数

iii OAP ),(log

自由度＝｛単語数２＋2 ×単語数｝＋｛対象数×単語数｝

モデル1 の単語

w1 k/o/k/o/w/aw2 h/o/k/o/w/aw3 g/a/k/u/s/e・・・

モデル2 の単語

w1 k/o/k/o/w/a

w3 g/a/k/u/s/e・・・

Bigramの確率が高い２単語を連結１

２

提案手法の流れ

20

学習

デー

タ

対象

音声

モデル選択による単語リスト最適化

初期単語リストの構築

語意モデル文法モデル

文法モデルと語意モデルの学習

単語リスト

実験用収録音声21

対象キーワード対象キーワード

１会議室の前６竹内さんのブースの南

２辻野さんのブース７工作室

３フロアの真ん中８アシモの部屋

４学生部屋の前９スマートルーム

５お茶飲み場１０スマートルームの入り口

言い回しのパターンこの場所は～ここは～ですここの名前は～

～の所に行って～へお願い今から～へ行って

言い回し６種類６０発話を収録キーワード１０種類

音素正解精度は平均 81 ％

実験結果（ 16名分の平均）22

203

99

74

51 37

29 25 24 23 23 23

81%

50%

85%

40%

50%

60%

70%

80%

90%

100%

0

50

100

150

200

0 1 2 3 4 5 6 7 8 9 10

音素

正解

精度

(折れ

線グ

ラフ

)

単語

数(棒

グラ

フ)

単語リスト最適化の回数

獲得単語数発話の音素正解精度出力キーワードの音素正解精度

実験結果：提案手法で獲得されたキーワード例23

正解キーワード最適化なし最適化１０回

会議室の前かいすのまえかいすのまえ

辻野さんのブースつじのさつじのさうのぶす

フロアの真ん中なかふろあどまんなか

学生部屋の前がくせえべやがくせえべやのまえ

お茶飲み場おちょおちゃのいま

竹内さんのブースの南みたきょいつさんのぶすのみなみ

工作室こおさくしつこおさくひつ

アシモの部屋あしものへやあしものへや

スマートルームむすもあとるむ

スマートルームの入り口ちすまとるむのいいぐち

平均音素正解精度４３％８５％平均音素正解精度

単語リストの最適化によって分節誤りが修正される

学習中の認識結果の例

発話「この場所はフロアの真ん中」音素認識結果：こどばしぇおあふろあのまんがか

（k o d o b a sh e o a h u r o a n o m a ng g a k a）

初期モデル：/ こど / ば / しょわ / ふろあ / ど / まんなか /

モデル選択１回：/ この / ばしょわ / ふろあどまん / なか /

モデル選択２回： / このばしょわ / ふろあどまんなか /

24

共有信念関数

25

1,

2

3

4

5

( , ) max log ( | ; , )

log ( | ; ) log ( | ; )

log ( | ; )

log ( , | ; )

log ( , | ; )

l z

T L

M

M

s a p s z L G

p t W L p l W L

p u W L

p t l W R

p t l q H

個別確信度ベクトル

MCE 学習 ML/MAP 学習

信念モジュール

音声言語 HMMs

物体画像Gaussians

動作 HMMs

動作‐オブジェクト関係Gaussians

行動のコンテキストMultinominal distribution

発話理解26

arg max ( , ) A

a s A

最適動作入力音声

可能な動作

最適化の過程

0

20

40

60

80

100

120

140

1 2

系列5

系列4

系列3

系列2

系列1

音声認識結果：1st: カーミット青い箱持ち上げて2nd:カーミット青い箱のせて

発話：“カーミット青い箱のせて”

行動コンテキスト

動作‐オブジェクト関係

動作

物体

音声言語

OptimalSecond

Ψ(s,a)

実験

96 発話‐シーンサンプルペア

詳細な発話と、曖昧で断片的な発話を含む

語彙

50物体に対して60 単語, 7動作に対して7単語

学習エピソード数の影響を評価

Leave‐one‐out cross validation

28

オンライン MCE 学習

‐0.2

0

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

0 10 20 30 40 50 60 70 80 90

Local con

fiden

ce value

系列1系列2系列3系列4系列5系列6

Speech

Object

Motion‐object relationship

Motion

Holding

Previously moved

The number of episodes

29

個別

確信

度ベ

クト

ル

エピソード数

理解率の改善

30

40

50

60

70

80

90

100

0 10 20 30 40 50 60 70 80 90

Und

erstanding

rate (%

)

系列1

The number of episodes

38%

30

エピソード数

音声

理解

率（％

）

２ステップ意思決定過程

1. ロボットは、ただちに動作を開始するか、または、確認発話を生成するか、決定する（whether to）

2. ロボットは、確認発話として何を生成するか、決定する（what to）

31

最適化過程のマージン

0

20

40

60

80

100

120

140

1 2

系列5

系列4

系列3

系列2

系列1

音声認識結果：1st: カーミット青い箱持ち上げて2nd:カーミット青い箱のせて

発話：“カーミット青い箱のせて”

行動コンテキスト

動作‐オブジェクト関係

動作

物体

音声言語

OptimalSecond

Ψ(s,a)

マージン

33

全体確信度関数Prob

ability

1.0

0.5

‐50 0 50 100 150 200Margin d

0.0

strong

weak

‐ +

入力: マージン

出力：ユーザ発話がロボットによって正しく理解された確率の推定値ロボット発話がユーザによって正しく理解される確率の推定値

ベイジアンロジスティック回帰で学習共有信念関数とユーザの共有信念の一致度を評価

確率的意思決定

最大期待効用を生む閾値 0 に基づく意思決定

34

正解反応

1 0

動作

確認発話

効用

動作 , + 1 ,

確認発話 , + 1 ,

期待

効用

推定正解確率 ,0 1

動作

確認発話

35

理解される確率を制御する発話生成

arg min f ,s

s d s a

最適発話動作

可能な発話

ターゲット確率

単語の追加による確認発話生成

f(d(s,a)) がを越えるまで単語を追加

36

箱持ち上げて.

f(d’)

“大きい赤い四角い箱” 0.98

“大きい赤い箱” 0.92

“箱” 0.47

“小さい青い箱” 0.08

“青い箱” 0.01

大きい赤い箱持ち上げて、いいですか?

リスク低減の評価37

Failure rateRejection rateConfirmation rate# of confirmation utt

Baseline 1/4 に減少

発話行為の認識38

38

コミュニケーション

物理世界

３つのタイプの発話行為1. ロボットにオブジェクトを記述させる質問

2. ロボットにオブジェクトを指差させる質問

3. オブジェクト操作の命令

青い箱持ち上げてカーミットどれ?なに?

今後の展開

ユーザの行動習慣の学習

時間の概念「きのう見せたペンを持ってきて」

ペット、フルーツ、道具などの、抽象度の高い意味を持つ語彙の学習

動作学習と言語学習の統一原理追求

…

39

まとめ

L‐Coreユーザ信念と物理世界状況に依存した信念システム

認知的言語理解の達成

多機能統合に成功

頑健性、実用性の向上が必要

40

人間とのインタラクションにより言葉と行動を学習するロボット(岩橋...

Engineering