[acl2016] achieving open vocabulary neural machine translation with hybrid word-character models

13
Achieving Open Vocabulary Neural Machine Translation with Hybrid Word-Character Models Minh-Thang Luong and Christopher D. Manning ACL2016 B4 山山山山 1

Upload: hayahide-yamagishi

Post on 12-Apr-2017

99 views

Category:

Data & Analytics


2 download

TRANSCRIPT

Achieving Open Vocabulary Neural Machine Translation with Hybrid Word-Character Models

Minh-Thang Luong and Christopher D. ManningACL2016

B4  山岸駿秀

1

Introduction• NMT には語彙制限の問題がある• “distinct” は高頻度語でも、” distinctiveness” は低頻度語扱い

• ソースからのコピー [Luong+ 2015b] にも問題がある• “Christopher” (English) → “Krystof” (Czech) ( 翻字 )

• 単語単位の翻訳 + 未知語処理用の文字単位翻訳• end-to-end な学習ができる• ただの文字ベースより速く、かつ文脈情報が使える

˘

2

Attention を使った NMT• 生成確率の対数尤度の最大化• 隠れ層の softmax をとる• クロスエントロピーを最小化

• Attention では、 ht を以下で代用3

Hybrid NMT• 単語レベルの encoder 側で未知語になったら、文字レベルの encoder を動かす• 文字レベルの encoder の出力を単語レベルの分散表現として利用• クロスエントロピーを以下の式に変える• Jw は、単語単位の NMT のロス• Jc は、文字単位の decoder のロス• α は、今回は 1.0

• ミニバッチごとに文字レベルの出力を計算4

separate-path文字レベル decoder の隠れ層初期化を 2 パターン用意• same-path• 隠れ層の初期化に  を用いる

• separate-path•   の代わりに以下を使う

5

Experiments• WMT’15 の English-Czech 翻訳タスク• チェコ語は、英語に比べて語彙数が多い• train set: 1580 万文• dev set: newstest2013 (3000 文 )• test set: newstest2015 (2656 文 )

• 単語ベース、文字ベース、 Hybrid の3 つを比較• BLEU と chrF3 で評価

6

Settings• Deep LSTM (4 層、 1024 次元 )• [-0.1, 0.1] で初期化• SGD 、 6 epoch ( 学習率は 4 epoch までは 1.0 、それ以降は

0.5)• ミニバッチ : 128 (shuffled)• 確率 0.2 でドロップアウト• 単語単位のみ : 50 単語以上の文は削除、 |V| はいくつか実験• 文字単位のみ : 150 文字以上の文は削除• 学習に単語単位は 21 日、文字単位は 3 か月、 Hybrid は 25 日

7

Result

8

Analysis (1/2)• 語彙数が少ないときに BLEU の大きな向上 (+11.4)• 文字レベル encoder が出力した表現間の単語類似度も、最高精度のものと戦える水準にある

9

Examples 1

10

Examples 2

11

Analysis (2/2)以下のことが改善• ソースからのコピーではできなかった例 ( 単語ベース )• “11-year-old” → “11-year-old” ( 本来は“ jedenáctiletá” になるはず )

• 固有名詞を訳してしまった例 ( 文字ベース )• “Martin Luther King” → “Martin Luther král”

• 複合語の出力課題• 高頻度語の情報を文字 decoder の学習に取り込めていない

12

Conclusion• 単語ベースのモデルへ、未知語処理用に文字ベースのモデルを追加• English-Czech 翻訳で最高性能 (20.7 BLEU)• 語彙数の少ない条件下では、最大で +11.4 BLEU• 英語側の分散表現も、よいものが得られている

13