[acl2016] achieving open vocabulary neural machine translation with hybrid word-character models
TRANSCRIPT
Achieving Open Vocabulary Neural Machine Translation with Hybrid Word-Character Models
Minh-Thang Luong and Christopher D. ManningACL2016
B4 山岸駿秀
1
Introduction• NMT には語彙制限の問題がある• “distinct” は高頻度語でも、” distinctiveness” は低頻度語扱い
• ソースからのコピー [Luong+ 2015b] にも問題がある• “Christopher” (English) → “Krystof” (Czech) ( 翻字 )
• 単語単位の翻訳 + 未知語処理用の文字単位翻訳• end-to-end な学習ができる• ただの文字ベースより速く、かつ文脈情報が使える
˘
2
Hybrid NMT• 単語レベルの encoder 側で未知語になったら、文字レベルの encoder を動かす• 文字レベルの encoder の出力を単語レベルの分散表現として利用• クロスエントロピーを以下の式に変える• Jw は、単語単位の NMT のロス• Jc は、文字単位の decoder のロス• α は、今回は 1.0
• ミニバッチごとに文字レベルの出力を計算4
separate-path文字レベル decoder の隠れ層初期化を 2 パターン用意• same-path• 隠れ層の初期化に を用いる
• separate-path• の代わりに以下を使う
5
Experiments• WMT’15 の English-Czech 翻訳タスク• チェコ語は、英語に比べて語彙数が多い• train set: 1580 万文• dev set: newstest2013 (3000 文 )• test set: newstest2015 (2656 文 )
• 単語ベース、文字ベース、 Hybrid の3 つを比較• BLEU と chrF3 で評価
6
Settings• Deep LSTM (4 層、 1024 次元 )• [-0.1, 0.1] で初期化• SGD 、 6 epoch ( 学習率は 4 epoch までは 1.0 、それ以降は
0.5)• ミニバッチ : 128 (shuffled)• 確率 0.2 でドロップアウト• 単語単位のみ : 50 単語以上の文は削除、 |V| はいくつか実験• 文字単位のみ : 150 文字以上の文は削除• 学習に単語単位は 21 日、文字単位は 3 か月、 Hybrid は 25 日
7
Analysis (2/2)以下のことが改善• ソースからのコピーではできなかった例 ( 単語ベース )• “11-year-old” → “11-year-old” ( 本来は“ jedenáctiletá” になるはず )
• 固有名詞を訳してしまった例 ( 文字ベース )• “Martin Luther King” → “Martin Luther král”
• 複合語の出力課題• 高頻度語の情報を文字 decoder の学習に取り込めていない
12