summary of dialectal to standard arabic paraphrasing to improve arabic-english statistical machine...
DESCRIPTION
Summary of Dialectal to standard Arabic paraphrasing to improve Arabic-English statistical machine translationTRANSCRIPT
文献紹介
修士1年
松本宏
紹介文献
Title:Dialectal to standard Arabic paraphrasing to improve Arabic-English statistical machine translation
Author: Salloum, Wael and Habash, Nizar
Conference: Proceedings of the First Workshop on Algorithms and Resources for Modelling of Dialects and Language Varieties(EMNLP 2011)
Pages:10—21
Year:2011
概要
• アラビア語の方言から標準語への言い換え
• SMTの改善
• 未定義語の解消
アラビア語
–アラビア語は大きく2つに分類される:
• 文語– 現代標準アラビア語, Modern Standard Arabic, MSA
• 口語:– 方言, Dialectal Arabic, DA
–言語資源:
• MSA:豊富
• DA:乏しい
アラビア語の複雑性
• アラビア語は語形変化を伴う言語– 語形変化:
• 一語が文法的な意味機能に応じて異なる複数の形を持つこと• 接語(clitic):
– 後接語(Proclitic):» 後ろの語と結びつく接語
– 前節語(Enclitics):» 前の語と結びつく接語
• ダイアクリティカルマーク: DM– 短母音や連続子音を表現– DM無しでは高度な曖昧性へとつながる
• 解析器は12個/文の結果を出力
– Inconsistent
語形変化
-
-
From “Inflection”@en.wikipedia
アラビア語の語形変化
• 後接語 + + : “and” + + : “will”
• 前接語 + + : “it/her”
• 接頭辞 - - : “3人称”
• 接尾辞 - : “男性複数形”
“and they will write it”
言い換えプロセス
• ルールベース・プロセス1) Selection
対象語の選択
2) Analysis 各語の代替語集合の生成
3) Transfer 写像
4) Generation 適切なトークン化
Selection
• 妥当な対象語選択
–未定義語OOV
• ソースファイルとフレーズテーブルの比較による取得
–低頻度語
• 良質翻訳貢献はしないと判断
• 発展
–種類頻度による選択
Analysis
• 新しい方言形態素解析ADAM– MSA形態素解析の発展版
–語幹ではなく、接尾辞や接語に着目
• ADAM– BAMA データベースを基としている
– BAMAは3テーブルを含む• 語幹
• 複雑接頭辞
• 複雑接尾辞
Transfer
• ADAM方言解析結果をMSA解析結果に写像
– DAからMSAへの変換
–単語などの結合など
–人手で作られた変換ルールにより行われる
Generation• 解析結果よりアラビア語の生成
– Transferで結合された単語セットの意味を持つMSAの語への変換
具体的例
Selection
Analysis
w mA H yktb l w
Transfer
未来否定パーティクル lnに言い換え
Generation
翻訳/評価
• 実験セットアップ
– Moses
–データ
• MSA-English パラレルコーパス– MSA: 12M 単語
• MSA/DA-mixed
– MSA: 64M単語
OOV対処効果比較
• 手法:
1. AnalysisからそのままGeneration: ADAM Only
a. 言い換えをスキップ
2. Transferを含めた手法: ADAM + Transfer
単語選択拡張
• 2つの手法:1. x以下の頻度の単語は言い換え対象語とする
• 多くの低頻度単語はOOVとなる
2. 種類頻度:• MSA, DA, もしくは両方にある語彙の異なる頻度
• 実験:– 最適な数値を得て行った翻訳評価が以下