Download - [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation
![Page 1: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation](https://reader034.vdocuments.net/reader034/viewer/2022042605/58ed8b3d1a28ab76138b4589/html5/thumbnails/1.jpg)
NAACL2016Selec.ngSyntac.c,Non-redundantSegmentsinAc.veLearningforMachineTransla.on
AkivaMiura,GrahamNeubig,
MichaelPaul,SatoshiNakamura
紹介者 関沢祐樹首都大学東京
16/06/23 1
![Page 2: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation](https://reader034.vdocuments.net/reader034/viewer/2022042605/58ed8b3d1a28ab76138b4589/html5/thumbnails/2.jpg)
Selec.ngSyntac.c,Non-redundantSegmentsinAc.veLearningforMachineTransla.on
• 背景• SMTにおける能動学習はラベル無しデータから
情報性の高いデータを選択し、効率的に学習• 選択されたものが、不変か、翻訳しやすいかが不明• 同じような文脈から冗長なフレーズを選択
• 提案手法(2つ)• 文法的に不変であるフレーズを選択• 冗長なフレーズを減少Ø BLEU値が向上, 翻訳の確信度の向上
16/06/23 2
![Page 3: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation](https://reader034.vdocuments.net/reader034/viewer/2022042605/58ed8b3d1a28ab76138b4589/html5/thumbnails/3.jpg)
Introduc.on
• フレーズの選択• 右の例だと3つ
• 重なっている部分が冗長 à効率が悪くなる• フレーズのマージを行う• フレーズ長を任意にでき、線形時間で計算可能
• フレーズの一部分を取り出す à 翻訳しづらい• 構文木を用いて、文法的に正しいものを選択
16/06/23 3
![Page 4: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation](https://reader034.vdocuments.net/reader034/viewer/2022042605/58ed8b3d1a28ab76138b4589/html5/thumbnails/4.jpg)
アルゴリズム
• SrcPool: 翻訳候補を含む原言語データ• Translated:翻訳されたパラレルデータ(フレーズのペア)• Oracle:入力フレーズに対する正しい翻訳を与える
• ex:humantranslator
• LoopUn.lStopCondi.on:• TM ßTrainTransla.onModel(Translated)• NewSrc ßSelectNextPhrase(SrcPool,Translated,TM)• NewTrg ßGetTransla.on(Oracle,NewSrc)• Translated ßTranslated∪{〈NewSrc,NewTrg〉}
16/06/23 4
![Page 5: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation](https://reader034.vdocuments.net/reader034/viewer/2022042605/58ed8b3d1a28ab76138b4589/html5/thumbnails/5.jpg)
既存手法
1. SentenceSelec.onusingN–GramFrequency• カバーできていないフレーズが最も多く出現する文を選択
(上限n-gram)• 短所:すでにパラレルデータでカバーされているフレーズ
を多く含む à コスト高
2. PhraseSelec.onusingN–GramFrequency• 最も多く出現し、まだカバーされていないh-gramフレーズを
選択(少ないデータの追加になる)• 短所:冗長性、フレーズの重なり
16/06/23 5
![Page 6: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation](https://reader034.vdocuments.net/reader034/viewer/2022042605/58ed8b3d1a28ab76138b4589/html5/thumbnails/6.jpg)
冗長なフレーズの削除
• Maximalsubstrings• フレーズpiがコーパス上に何回現れるかocc(pi)
occが等しい場合、マージするマージできなくなったフレーズ:最長単語列(p2,p3)
16/06/23 6
![Page 7: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation](https://reader034.vdocuments.net/reader034/viewer/2022042605/58ed8b3d1a28ab76138b4589/html5/thumbnails/7.jpg)
冗長なフレーズの削除
• 利点• 重なるフレーズを最長句のみに削減,長さの上限無し• 最長句、その発生回数はenhancedsuffixarraysによって
線形時間(文書長)で計算される
• 欠点• 先ほどの例だとp2とp3が残るがやはり冗長à共起回数がほぼ等しい場合は削除
16/06/23 7
λを用いる(0〜1の実数値、本研究では0.5)
![Page 8: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation](https://reader034.vdocuments.net/reader034/viewer/2022042605/58ed8b3d1a28ab76138b4589/html5/thumbnails/8.jpg)
文法的な判断
• 原言語文を解析し、全ての部分木を走査• 文法的に、句である部分を全て抽出
16/06/23 8
![Page 9: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation](https://reader034.vdocuments.net/reader034/viewer/2022042605/58ed8b3d1a28ab76138b4589/html5/thumbnails/9.jpg)
simula.onexperiment• データを増やすこと、それによる再トレーニングによって翻訳の
accuracyがどうなるかを評価• 人手翻訳なし、データの追加方法の良さを見る
• 英仏の翻訳• スタート:Europarlcorpus(WMT2014)• 追加:EMEA,PatTR,Wikipedia.tle(全てMedical)
• 英日の翻訳• スタート:カバレージの広い例文コーパス(英辞郎辞書)• 追加 :ASPEC科学ペーパーのアブストラクトのコーパス• 日本語のコーパスのトークン化ではKyteaを用い、60以上の長さの文は
除去 à解析、アライメントの正確さを確実
16/06/23 9
![Page 10: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation](https://reader034.vdocuments.net/reader034/viewer/2022042605/58ed8b3d1a28ab76138b4589/html5/thumbnails/10.jpg)
データの詳細
16/06/23 10
![Page 11: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation](https://reader034.vdocuments.net/reader034/viewer/2022042605/58ed8b3d1a28ab76138b4589/html5/thumbnails/11.jpg)
実験設定
• フレーズベースSMT(MosesToolkit)を使用• 効率的再トレーニングのためにinc-giza-ppを使用、
これは、 単語アライメントを取るGIZA++で、トレーニングデータを増やすこと、変化できるsuffixarrayフレーズテーブル(Moses) を含む。
• 言語モデルは5-gram• デコーディングのパラメータ : 毎回調整は非現実的• ベースラインのBLEU値が最大となるパラメータ
16/06/23 11
![Page 12: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation](https://reader034.vdocuments.net/reader034/viewer/2022042605/58ed8b3d1a28ab76138b4589/html5/thumbnails/12.jpg)
8つの手法
• sent-rand:文をランダムに選択• 4gram-rand:n-gram: 単語列をランダムに選択、上限は4• sent-by-4gram-freq(baseline1):まだカバーされていないフレーズ(最長
4)を最も多く含む文を選択4gram-freq(baseline2):最も多く出現する、まだカバーされていないフレーズ(最長4)を選択
• 以下は提案• maxsubst-freq:最も多く出現する、まだカバーされていない
最長句を選択• reduced-maxsubst-freq:最も多く出現する、まだカバーされていない
凖最長句を選択• struct-freq:部分木から抽出された句のうち、最も多く出現する、
まだカバーされていない句を選択• reduced-struct-freq:部分木から抽出された句のうち、最も多く出現する、
まだカバーされていない凖最長句を選択
16/06/23 12
![Page 13: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation](https://reader034.vdocuments.net/reader034/viewer/2022042605/58ed8b3d1a28ab76138b4589/html5/thumbnails/13.jpg)
result:BLEUとAddWord英仏
• 冗長句を除くことは良いといえる
16/06/23 13
![Page 14: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation](https://reader034.vdocuments.net/reader034/viewer/2022042605/58ed8b3d1a28ab76138b4589/html5/thumbnails/14.jpg)
result:BLEUとAddWord英日
16/06/23 14
![Page 15: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation](https://reader034.vdocuments.net/reader034/viewer/2022042605/58ed8b3d1a28ab76138b4589/html5/thumbnails/15.jpg)
result: フレーズ数とLength
• 木構造を用いた方法に注目すると、他のよりも短いフレーズを選択している
16/06/23 15
![Page 16: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation](https://reader034.vdocuments.net/reader034/viewer/2022042605/58ed8b3d1a28ab76138b4589/html5/thumbnails/16.jpg)
result:Coverage
16/06/23 16
![Page 17: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation](https://reader034.vdocuments.net/reader034/viewer/2022042605/58ed8b3d1a28ab76138b4589/html5/thumbnails/17.jpg)
人手による翻訳の質の評価
• 翻訳の専門家3人に依頼
16/06/23 17
![Page 18: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation](https://reader034.vdocuments.net/reader034/viewer/2022042605/58ed8b3d1a28ab76138b4589/html5/thumbnails/18.jpg)
実験設定
• beseline:sent-by-4gram-freqと4-gram-freq• 提案手法:reduced-struct-freq• 英日と同じ実験設定• 目的言語モデルのトレーニングでは、SRILM
を使用して集めたデータを補間• パープレキシティが最大になるようにパラメー
タ調整
16/06/23 18
![Page 19: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation](https://reader034.vdocuments.net/reader034/viewer/2022042605/58ed8b3d1a28ab76138b4589/html5/thumbnails/19.jpg)
result:BLEUとAddWords
16/06/23 19
![Page 20: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation](https://reader034.vdocuments.net/reader034/viewer/2022042605/58ed8b3d1a28ab76138b4589/html5/thumbnails/20.jpg)
result:BLEUと.me
16/06/23 20
![Page 21: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation](https://reader034.vdocuments.net/reader034/viewer/2022042605/58ed8b3d1a28ab76138b4589/html5/thumbnails/21.jpg)
result:TimeとConfidence
• 収集単語数:10,000
3の割合:79%
16/06/23 21
![Page 22: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation](https://reader034.vdocuments.net/reader034/viewer/2022042605/58ed8b3d1a28ab76138b4589/html5/thumbnails/22.jpg)
result:TimeとPhraseLength
• length1が時間がかかる• 専門用語になりやすく、辞書を見る必要あり
16/06/23 22
![Page 23: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation](https://reader034.vdocuments.net/reader034/viewer/2022042605/58ed8b3d1a28ab76138b4589/html5/thumbnails/23.jpg)
result:ConfidenceとPhraseLength
• 1のとき低い àbaselineはlength1が少ない• 提案手法はlength2以降も安定
16/06/23 23
![Page 24: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation](https://reader034.vdocuments.net/reader034/viewer/2022042605/58ed8b3d1a28ab76138b4589/html5/thumbnails/24.jpg)
result:Accuracy(BLEUScore)
• 確信度で分けて実験• 確信度1を除いた時は総じて良くなる• 一方3のみの場合は悪くなる• データを加えない場合はBLEU:9.37%
16/06/23 24
![Page 25: [論文紹介]Selecting syntactic, non redundant segments in active learning for machine translation](https://reader034.vdocuments.net/reader034/viewer/2022042605/58ed8b3d1a28ab76138b4589/html5/thumbnails/25.jpg)
Selec.ngSyntac.c,Non-redundantSegmentsinAc.veLearningforMachineTransla.on
• 提案手法• 文法的に不変であるフレーズを選択• 冗長なフレーズを減少Ø BLEU値が向上, 翻訳の確信度の向上
• 改善点• 翻訳に時間がかかる専門用語の対処
• 未知語を対処する方法の組み合わせ• 必要な時間によって選択した単語列を最適化する
• 柔軟な文法の制限による様々なフレーズのアノテーション• 例えば”oneoftheprecedingX”
16/06/23 25