vietnamese word segmentation with crfs and svms: an investigation

16
Vietnamese Word Segmentation with CRFs and SVMs: An Investigation 長岡技術科学大学 自然言語処理研究室 高橋寛治 C.T. Nguyen, T.K.Nguyen, X.H.Phan, L.M.Nguyen, Q.T.Ha, Proceedings of the 20th PACLIC, pp.215-222, 2006.10 文献紹介 2015年12月17日

Upload: kanji-takahashi

Post on 08-Feb-2017

239 views

Category:

Education


3 download

TRANSCRIPT

Page 1: Vietnamese Word Segmentation with CRFs and SVMs: An Investigation

Vietnamese Word Segmentationwith CRFs and SVMs: An Investigation

長岡技術科学大学 自然言語処理研究室高橋寛治

C.T. Nguyen, T.K.Nguyen, X.H.Phan, L.M.Nguyen, Q.T.Ha, Proceedings of the 20th PACLIC, pp.215-222, 2006.10

文献紹介 2015年12月17日

Page 2: Vietnamese Word Segmentation with CRFs and SVMs: An Investigation

概要•SVMとCRFを用いてベトナム語の単語分割を行い比較する

•タグ付け済みコーパスを構築し、単語分割の調査

•素性やコーパスサイズが性能にどれほど影響するか調査

ImprovingVietnameseWordSegmentationandPOSTaggingusingMEMwithVariousKindsofResources 2

Page 3: Vietnamese Word Segmentation with CRFs and SVMs: An Investigation

はじめに•統計的手法や機械学習手法によるベトナム語単語分割の精度は91%程度と報告されている

•既存の研究は他の手法と比較を行っていない

•ベースラインと比較して調査

ImprovingVietnameseWordSegmentationandPOSTaggingusingMEMwithVariousKindsofResources 3

Page 4: Vietnamese Word Segmentation with CRFs and SVMs: An Investigation

モチベーション•SVMやCRFはNLPにおける分割問題やラベル問題で成功している•ベトナム語単語分割でもうまくいくだろう

•しかしながら、素性選択は両手法において必要•→どのような素性が精度に影響するのか?

ImprovingVietnameseWordSegmentationandPOSTaggingusingMEMwithVariousKindsofResources 4

Page 5: Vietnamese Word Segmentation with CRFs and SVMs: An Investigation

ベトナム語の単語についておさらい•音節

•単語Ø1音節の単語:tôi(私), bạn(あなた), nhà(家)Ø複合語:bơi lội(泳ぐ), đường sắt(鉄道)Ø畳語:「神々しい」のような語

ImprovingVietnameseWordSegmentationandPOSTaggingusingMEMwithVariousKindsofResources 5

Page 6: Vietnamese Word Segmentation with CRFs and SVMs: An Investigation

本稿での新語•解析に利用する辞書、学習コーパスに出現しない単語のこと(未知語)•省略語

ØCAND(Công An Nhân Dân – 警察官)•固有表現

ØHồ Chí Minh, Công ty Hải Hà(Hải Hà社)•外国の単語

Øアルファベットを利用するため区別がつかない

ImprovingVietnameseWordSegmentationandPOSTaggingusingMEMwithVariousKindsofResources 6

Page 7: Vietnamese Word Segmentation with CRFs and SVMs: An Investigation

系列ラベル•CRF

Ø識別モデルØクラスに分類される確率

•SVMØ識別関数Øデータを分類

ImprovingVietnameseWordSegmentationandPOSTaggingusingMEMwithVariousKindsofResources 7

Page 8: Vietnamese Word Segmentation with CRFs and SVMs: An Investigation

コーパスの構築•様々なニュース305記事を様々なウェブサイトから取得•様々なサイトから収集することで単語の分布に偏りがなくなる

•人名コーパス(2000人)•地名コーパス(707か所)

ImprovingVietnameseWordSegmentationandPOSTaggingusingMEMwithVariousKindsofResources 8

Page 9: Vietnamese Word Segmentation with CRFs and SVMs: An Investigation

コーパスの内容•コーパスは公開

•B_W, I_W, Oの3つのタグを付与ImprovingVietnameseWordSegmentationandPOSTaggingusingMEMwithVariousKindsofResources 9

Page 10: Vietnamese Word Segmentation with CRFs and SVMs: An Investigation

素性選択•かっこの中の数値は素性の窓幅を示す

• 4音節以上の単語はほとんど無いので(-2,2)が最大ImprovingVietnameseWordSegmentationandPOSTaggingusingMEMwithVariousKindsofResources 10

Page 11: Vietnamese Word Segmentation with CRFs and SVMs: An Investigation

実験• ツールを利用

ØCRF: FlexCRFsØSVM: YamCha

• 5分割交差検証で様々な素性を試すØSC:Syllable Conjunction, Misc:Miscellaneous, ERS:External

Resources, VSD:Vietnamese Sylabble Detection

ImprovingVietnameseWordSegmentationandPOSTaggingusingMEMwithVariousKindsofResources 11

Page 12: Vietnamese Word Segmentation with CRFs and SVMs: An Investigation

結果•CRFは素性を追加すればするほど良くなる

ImprovingVietnameseWordSegmentationandPOSTaggingusingMEMwithVariousKindsofResources 12

Page 13: Vietnamese Word Segmentation with CRFs and SVMs: An Investigation

CRF•音節接合の素性と単語辞書の素性が顕著

•その他の素性はあまり効果がないØ1音節目の語かどうかØ数値や日付はそもそも数が少ない

ImprovingVietnameseWordSegmentationandPOSTaggingusingMEMwithVariousKindsofResources 13

Page 14: Vietnamese Word Segmentation with CRFs and SVMs: An Investigation

結果•VSDはCRFでは寄与、SVMでは足を引っ張る•少ない素性でSVMは効果がある

ImprovingVietnameseWordSegmentationandPOSTaggingusingMEMwithVariousKindsofResources 14

Page 15: Vietnamese Word Segmentation with CRFs and SVMs: An Investigation

結果•SC+VSD+Dictの時のCRFとSVMの比較

ImprovingVietnameseWordSegmentationandPOSTaggingusingMEMwithVariousKindsofResources 15

Page 16: Vietnamese Word Segmentation with CRFs and SVMs: An Investigation

まとめ•CRFとSVMをベトナム語単語分割に用いる調査を行った•貢献

Øタグ付けしたコーパスの作成Ø様々な素性での結果の比較Ø実験結果から興味深いことを発見

•今後はコーパスサイズによる精度の変化を確認

ImprovingVietnameseWordSegmentationandPOSTaggingusingMEMwithVariousKindsofResources 16