a baseline system for chinese near synonym choice

15
文献紹介(2015/3/24) A Baseline System for Chinese Near-Synonym Choice 長岡技術科学大学 電気系 自然言語処理研究室 高橋寛治

Upload: takahashi-kanji

Post on 22-Jul-2015

63 views

Category:

Education


2 download

TRANSCRIPT

文献紹介(2015/3/24)A Baseline System for Chinese

Near-Synonym Choice長岡技術科学大学 電気系

自然言語処理研究室 高橋寛治

文献について

•A Baseline System for Chinese Near-Synonym

Choice

•Liang-Chih Yu, Wei-Nan Chien, Shih-Ting

Chen, IJCNLP 2011, pp.1366-1370,

文献紹介:A Baseline System for Chinese Near-Synonym Choice 2

概要

•同義語は情報検索などの様々な処理においてリッ

チな知識

•文脈中で別の同義語に置換できると限らない

•中国語の同義語選択のベースラインの作成

• 5-gram言語モデルとPMI

文献紹介:A Baseline System for Chinese Near-Synonym Choice 3

はじめに

Arm → Weapon? Bodypart?

•情報検索、作文支援システムなどで同義語を適切

に選択する必要がある

文献紹介:A Baseline System for Chinese Near-Synonym Choice 4

同義語の選択

•同義語は必ずしも置換できない

•コロケーション

• {strong, powerful} coffee

• ghastly {error, mistake}

•意味

• {bridge, overpass, tunnel} under the bay

文献紹介:A Baseline System for Chinese Near-Synonym Choice 5

Fill-in-the-blank(FITB)

•著者らは中国語の同義語選択の評価のベースライ

ン(中国語FITB)を作成

文献紹介:A Baseline System for Chinese Near-Synonym Choice 6

関連研究

•語義の選択には周辺の文脈が有効

•語の共起ネットワークの構築(Edmonds 1997)

• PMIを用いた同義語選択(Inkpen 2007)

•Web 1T 5-gram corpusを用いてスパースを軽減

(Islam, Inkpen 2010)

• N-gramの頻度を用いた同義語選択(Yu et al 2010)

文献紹介:A Baseline System for Chinese Near-Synonym Choice 7

ベースラインシステムの作成

•PMIベースの手法と5-gram言語モデルの手法で

の2つのベースラインを作成

•これらは以前の研究でよく用いられている

文献紹介:A Baseline System for Chinese Near-Synonym Choice 8

PMIベースの手法

•同義語と文脈中の周辺の語の共起の強さを測れる

𝑃𝑀𝐼 𝑥, 𝑦 = log2𝑃(𝑥, 𝑦)

𝑃 𝑥 , 𝑃(𝑦)𝑃 𝑥, 𝑦 =

𝐶 𝑥, 𝑦

𝑁𝐶(𝑥, 𝑦)はxとyのコーパス中の共起頻度Nはコーパスの語の総数

𝑃 𝑥 =C(𝑥)

𝑁𝑃 𝑦 =

C(𝑦)

𝑁

𝑃𝑀𝐼 𝑥, 𝑦 = log2𝐶(𝑥, 𝑦) ∙ 𝑁

𝐶 𝑥 , 𝐶(𝑦)

文献紹介:A Baseline System for Chinese Near-Synonym Choice 9

5-gram言語モデルの手法

•N-gramは隣接する語のつながりを捉える

• 𝑠 = ⋯𝑤𝑖−4𝑤𝑖−3𝑤𝑖−2𝑤𝑖−1𝑤𝑖𝑤𝑖+1𝑤𝑖+2𝑤𝑖+3𝑤𝑖+4…

•ここで(𝑤𝑖は対象の同義語)

• Inkpenら

• 𝑃 𝑤𝑖 𝑤𝑖−4𝑖−1 , 𝑃 𝑤𝑖+1 𝑤𝑖−3

𝑖 , 𝑃 𝑤𝑖+2 𝑤𝑖−2𝑖+1 , 𝑃 𝑤𝑖+3 𝑤𝑖−1

𝑖+2 , 𝑃 𝑤𝑖+4 𝑤𝑖𝑖+3

文献紹介:A Baseline System for Chinese Near-Synonym Choice 10

バックオフスムージング

•𝑃 𝑠 = 𝑖=05 𝑃(𝑤𝑖|𝑤𝑖−𝑛+1

𝑖−1 )

=𝐶 𝑤𝑖−𝑛+1

𝑖 + 1 + 𝛼 𝑀 𝑤𝑖−𝑛+1𝑖−1 𝑃 𝑤𝑖|𝑤𝑖−𝑛+2

𝑖−1

𝐶 𝑤𝑖−𝑛+1𝑖−1 + 𝛼𝑛𝑀(𝑤𝑖−𝑛+1

𝑖−1 )

•スムージング:𝑀 𝑤𝑖−𝑛+1𝑖−1 = 𝐶 𝑤𝑖−𝑛+1

𝑖−1 − 𝑤𝑖 𝐶(𝑤𝑖−𝑛+1𝑖 )

文献紹介:A Baseline System for Chinese Near-Synonym Choice 11

実験

•同義語の準備

• Seven English near-synonym setsに沿って中国語

WordNetから同様のものを作成

•テストセット

• Sinica Corpus, Chinese News Corpusから対象の同

義語を含むものを抽出し作成

文献紹介:A Baseline System for Chinese Near-Synonym Choice 12

実験結果

文献紹介:A Baseline System for Chinese Near-Synonym Choice 13

実験結果

英語PMI:66.0, 5-gram: 69.9

文献紹介:A Baseline System for Chinese Near-Synonym Choice 14

まとめ

•PMIと5-gram言語モデルによる、中国語の同義

語選択のベースラインを作成

•英語と同様に5-gram言語モデルはPMIより有効

であった

文献紹介:A Baseline System for Chinese Near-Synonym Choice 15