vietnamese word segmentation with crfs and svms: an investigation
TRANSCRIPT
Vietnamese Word Segmentationwith CRFs and SVMs: An Investigation
長岡技術科学大学 自然言語処理研究室高橋寛治
C.T. Nguyen, T.K.Nguyen, X.H.Phan, L.M.Nguyen, Q.T.Ha, Proceedings of the 20th PACLIC, pp.215-222, 2006.10
文献紹介 2015年12月17日
概要•SVMとCRFを用いてベトナム語の単語分割を行い比較する
•タグ付け済みコーパスを構築し、単語分割の調査
•素性やコーパスサイズが性能にどれほど影響するか調査
ImprovingVietnameseWordSegmentationandPOSTaggingusingMEMwithVariousKindsofResources 2
はじめに•統計的手法や機械学習手法によるベトナム語単語分割の精度は91%程度と報告されている
•既存の研究は他の手法と比較を行っていない
•ベースラインと比較して調査
ImprovingVietnameseWordSegmentationandPOSTaggingusingMEMwithVariousKindsofResources 3
モチベーション•SVMやCRFはNLPにおける分割問題やラベル問題で成功している•ベトナム語単語分割でもうまくいくだろう
•しかしながら、素性選択は両手法において必要•→どのような素性が精度に影響するのか?
ImprovingVietnameseWordSegmentationandPOSTaggingusingMEMwithVariousKindsofResources 4
ベトナム語の単語についておさらい•音節
•単語Ø1音節の単語:tôi(私), bạn(あなた), nhà(家)Ø複合語:bơi lội(泳ぐ), đường sắt(鉄道)Ø畳語:「神々しい」のような語
ImprovingVietnameseWordSegmentationandPOSTaggingusingMEMwithVariousKindsofResources 5
本稿での新語•解析に利用する辞書、学習コーパスに出現しない単語のこと(未知語)•省略語
ØCAND(Công An Nhân Dân – 警察官)•固有表現
ØHồ Chí Minh, Công ty Hải Hà(Hải Hà社)•外国の単語
Øアルファベットを利用するため区別がつかない
ImprovingVietnameseWordSegmentationandPOSTaggingusingMEMwithVariousKindsofResources 6
系列ラベル•CRF
Ø識別モデルØクラスに分類される確率
•SVMØ識別関数Øデータを分類
ImprovingVietnameseWordSegmentationandPOSTaggingusingMEMwithVariousKindsofResources 7
コーパスの構築•様々なニュース305記事を様々なウェブサイトから取得•様々なサイトから収集することで単語の分布に偏りがなくなる
•人名コーパス(2000人)•地名コーパス(707か所)
ImprovingVietnameseWordSegmentationandPOSTaggingusingMEMwithVariousKindsofResources 8
コーパスの内容•コーパスは公開
•B_W, I_W, Oの3つのタグを付与ImprovingVietnameseWordSegmentationandPOSTaggingusingMEMwithVariousKindsofResources 9
素性選択•かっこの中の数値は素性の窓幅を示す
• 4音節以上の単語はほとんど無いので(-2,2)が最大ImprovingVietnameseWordSegmentationandPOSTaggingusingMEMwithVariousKindsofResources 10
実験• ツールを利用
ØCRF: FlexCRFsØSVM: YamCha
• 5分割交差検証で様々な素性を試すØSC:Syllable Conjunction, Misc:Miscellaneous, ERS:External
Resources, VSD:Vietnamese Sylabble Detection
ImprovingVietnameseWordSegmentationandPOSTaggingusingMEMwithVariousKindsofResources 11
結果•CRFは素性を追加すればするほど良くなる
ImprovingVietnameseWordSegmentationandPOSTaggingusingMEMwithVariousKindsofResources 12
CRF•音節接合の素性と単語辞書の素性が顕著
•その他の素性はあまり効果がないØ1音節目の語かどうかØ数値や日付はそもそも数が少ない
ImprovingVietnameseWordSegmentationandPOSTaggingusingMEMwithVariousKindsofResources 13
結果•VSDはCRFでは寄与、SVMでは足を引っ張る•少ない素性でSVMは効果がある
ImprovingVietnameseWordSegmentationandPOSTaggingusingMEMwithVariousKindsofResources 14
結果•SC+VSD+Dictの時のCRFとSVMの比較
ImprovingVietnameseWordSegmentationandPOSTaggingusingMEMwithVariousKindsofResources 15
まとめ•CRFとSVMをベトナム語単語分割に用いる調査を行った•貢献
Øタグ付けしたコーパスの作成Ø様々な素性での結果の比較Ø実験結果から興味深いことを発見
•今後はコーパスサイズによる精度の変化を確認
ImprovingVietnameseWordSegmentationandPOSTaggingusingMEMwithVariousKindsofResources 16