summary of dialectal to standard arabic paraphrasing to improve arabic-english statistical machine...

18
文献紹介 修士1松本宏

Upload: hiroshi-matsumoto

Post on 03-Jul-2015

83 views

Category:

Education


3 download

DESCRIPTION

Summary of Dialectal to standard Arabic paraphrasing to improve Arabic-English statistical machine translation

TRANSCRIPT

Page 1: Summary of Dialectal to standard Arabic paraphrasing to improve Arabic-English statistical machine translation

文献紹介

修士1年

松本宏

Page 2: Summary of Dialectal to standard Arabic paraphrasing to improve Arabic-English statistical machine translation

紹介文献

Title:Dialectal to standard Arabic paraphrasing to improve Arabic-English statistical machine translation

Author: Salloum, Wael and Habash, Nizar

Conference: Proceedings of the First Workshop on Algorithms and Resources for Modelling of Dialects and Language Varieties(EMNLP 2011)

Pages:10—21

Year:2011

Page 3: Summary of Dialectal to standard Arabic paraphrasing to improve Arabic-English statistical machine translation

概要

• アラビア語の方言から標準語への言い換え

• SMTの改善

• 未定義語の解消

Page 4: Summary of Dialectal to standard Arabic paraphrasing to improve Arabic-English statistical machine translation

アラビア語

–アラビア語は大きく2つに分類される:

• 文語– 現代標準アラビア語, Modern Standard Arabic, MSA

• 口語:– 方言, Dialectal Arabic, DA

–言語資源:

• MSA:豊富

• DA:乏しい

Page 5: Summary of Dialectal to standard Arabic paraphrasing to improve Arabic-English statistical machine translation

アラビア語の複雑性

• アラビア語は語形変化を伴う言語– 語形変化:

• 一語が文法的な意味機能に応じて異なる複数の形を持つこと• 接語(clitic):

– 後接語(Proclitic):» 後ろの語と結びつく接語

– 前節語(Enclitics):» 前の語と結びつく接語

• ダイアクリティカルマーク: DM– 短母音や連続子音を表現– DM無しでは高度な曖昧性へとつながる

• 解析器は12個/文の結果を出力

– Inconsistent

Page 6: Summary of Dialectal to standard Arabic paraphrasing to improve Arabic-English statistical machine translation

語形変化

-

-

From “Inflection”@en.wikipedia

Page 7: Summary of Dialectal to standard Arabic paraphrasing to improve Arabic-English statistical machine translation

アラビア語の語形変化

• 後接語 + + : “and” + + : “will”

• 前接語 + + : “it/her”

• 接頭辞 - - : “3人称”

• 接尾辞 - : “男性複数形”

“and they will write it”

Page 8: Summary of Dialectal to standard Arabic paraphrasing to improve Arabic-English statistical machine translation

言い換えプロセス

• ルールベース・プロセス1) Selection

対象語の選択

2) Analysis 各語の代替語集合の生成

3) Transfer 写像

4) Generation 適切なトークン化

Page 9: Summary of Dialectal to standard Arabic paraphrasing to improve Arabic-English statistical machine translation

Selection

• 妥当な対象語選択

–未定義語OOV

• ソースファイルとフレーズテーブルの比較による取得

–低頻度語

• 良質翻訳貢献はしないと判断

• 発展

–種類頻度による選択

Page 10: Summary of Dialectal to standard Arabic paraphrasing to improve Arabic-English statistical machine translation

Analysis

• 新しい方言形態素解析ADAM– MSA形態素解析の発展版

–語幹ではなく、接尾辞や接語に着目

• ADAM– BAMA データベースを基としている

– BAMAは3テーブルを含む• 語幹

• 複雑接頭辞

• 複雑接尾辞

Page 11: Summary of Dialectal to standard Arabic paraphrasing to improve Arabic-English statistical machine translation

Transfer

• ADAM方言解析結果をMSA解析結果に写像

– DAからMSAへの変換

–単語などの結合など

–人手で作られた変換ルールにより行われる

Generation• 解析結果よりアラビア語の生成

– Transferで結合された単語セットの意味を持つMSAの語への変換

Page 12: Summary of Dialectal to standard Arabic paraphrasing to improve Arabic-English statistical machine translation

具体的例

Selection

Page 13: Summary of Dialectal to standard Arabic paraphrasing to improve Arabic-English statistical machine translation

Analysis

w mA H yktb l w

Page 14: Summary of Dialectal to standard Arabic paraphrasing to improve Arabic-English statistical machine translation

Transfer

未来否定パーティクル lnに言い換え

Page 15: Summary of Dialectal to standard Arabic paraphrasing to improve Arabic-English statistical machine translation

Generation

Page 16: Summary of Dialectal to standard Arabic paraphrasing to improve Arabic-English statistical machine translation

翻訳/評価

• 実験セットアップ

– Moses

–データ

• MSA-English パラレルコーパス– MSA: 12M 単語

• MSA/DA-mixed

– MSA: 64M単語

Page 17: Summary of Dialectal to standard Arabic paraphrasing to improve Arabic-English statistical machine translation

OOV対処効果比較

• 手法:

1. AnalysisからそのままGeneration: ADAM Only

a. 言い換えをスキップ

2. Transferを含めた手法: ADAM + Transfer

Page 18: Summary of Dialectal to standard Arabic paraphrasing to improve Arabic-English statistical machine translation

単語選択拡張

• 2つの手法:1. x以下の頻度の単語は言い換え対象語とする

• 多くの低頻度単語はOOVとなる

2. 種類頻度:• MSA, DA, もしくは両方にある語彙の異なる頻度

• 実験:– 最適な数値を得て行った翻訳評価が以下