a baseline system for chinese near synonym choice
TRANSCRIPT
文献について
•A Baseline System for Chinese Near-Synonym
Choice
•Liang-Chih Yu, Wei-Nan Chien, Shih-Ting
Chen, IJCNLP 2011, pp.1366-1370,
文献紹介:A Baseline System for Chinese Near-Synonym Choice 2
概要
•同義語は情報検索などの様々な処理においてリッ
チな知識
•文脈中で別の同義語に置換できると限らない
•中国語の同義語選択のベースラインの作成
• 5-gram言語モデルとPMI
文献紹介:A Baseline System for Chinese Near-Synonym Choice 3
はじめに
Arm → Weapon? Bodypart?
•情報検索、作文支援システムなどで同義語を適切
に選択する必要がある
文献紹介:A Baseline System for Chinese Near-Synonym Choice 4
同義語の選択
•同義語は必ずしも置換できない
•コロケーション
• {strong, powerful} coffee
• ghastly {error, mistake}
•意味
• {bridge, overpass, tunnel} under the bay
文献紹介:A Baseline System for Chinese Near-Synonym Choice 5
Fill-in-the-blank(FITB)
•著者らは中国語の同義語選択の評価のベースライ
ン(中国語FITB)を作成
文献紹介:A Baseline System for Chinese Near-Synonym Choice 6
関連研究
•語義の選択には周辺の文脈が有効
•語の共起ネットワークの構築(Edmonds 1997)
• PMIを用いた同義語選択(Inkpen 2007)
•Web 1T 5-gram corpusを用いてスパースを軽減
(Islam, Inkpen 2010)
• N-gramの頻度を用いた同義語選択(Yu et al 2010)
文献紹介:A Baseline System for Chinese Near-Synonym Choice 7
ベースラインシステムの作成
•PMIベースの手法と5-gram言語モデルの手法で
の2つのベースラインを作成
•これらは以前の研究でよく用いられている
文献紹介:A Baseline System for Chinese Near-Synonym Choice 8
PMIベースの手法
•同義語と文脈中の周辺の語の共起の強さを測れる
𝑃𝑀𝐼 𝑥, 𝑦 = log2𝑃(𝑥, 𝑦)
𝑃 𝑥 , 𝑃(𝑦)𝑃 𝑥, 𝑦 =
𝐶 𝑥, 𝑦
𝑁𝐶(𝑥, 𝑦)はxとyのコーパス中の共起頻度Nはコーパスの語の総数
𝑃 𝑥 =C(𝑥)
𝑁𝑃 𝑦 =
C(𝑦)
𝑁
𝑃𝑀𝐼 𝑥, 𝑦 = log2𝐶(𝑥, 𝑦) ∙ 𝑁
𝐶 𝑥 , 𝐶(𝑦)
文献紹介:A Baseline System for Chinese Near-Synonym Choice 9
5-gram言語モデルの手法
•N-gramは隣接する語のつながりを捉える
• 𝑠 = ⋯𝑤𝑖−4𝑤𝑖−3𝑤𝑖−2𝑤𝑖−1𝑤𝑖𝑤𝑖+1𝑤𝑖+2𝑤𝑖+3𝑤𝑖+4…
•ここで(𝑤𝑖は対象の同義語)
• Inkpenら
• 𝑃 𝑤𝑖 𝑤𝑖−4𝑖−1 , 𝑃 𝑤𝑖+1 𝑤𝑖−3
𝑖 , 𝑃 𝑤𝑖+2 𝑤𝑖−2𝑖+1 , 𝑃 𝑤𝑖+3 𝑤𝑖−1
𝑖+2 , 𝑃 𝑤𝑖+4 𝑤𝑖𝑖+3
文献紹介:A Baseline System for Chinese Near-Synonym Choice 10
バックオフスムージング
•𝑃 𝑠 = 𝑖=05 𝑃(𝑤𝑖|𝑤𝑖−𝑛+1
𝑖−1 )
=𝐶 𝑤𝑖−𝑛+1
𝑖 + 1 + 𝛼 𝑀 𝑤𝑖−𝑛+1𝑖−1 𝑃 𝑤𝑖|𝑤𝑖−𝑛+2
𝑖−1
𝐶 𝑤𝑖−𝑛+1𝑖−1 + 𝛼𝑛𝑀(𝑤𝑖−𝑛+1
𝑖−1 )
•スムージング:𝑀 𝑤𝑖−𝑛+1𝑖−1 = 𝐶 𝑤𝑖−𝑛+1
𝑖−1 − 𝑤𝑖 𝐶(𝑤𝑖−𝑛+1𝑖 )
文献紹介:A Baseline System for Chinese Near-Synonym Choice 11
実験
•同義語の準備
• Seven English near-synonym setsに沿って中国語
WordNetから同様のものを作成
•テストセット
• Sinica Corpus, Chinese News Corpusから対象の同
義語を含むものを抽出し作成
文献紹介:A Baseline System for Chinese Near-Synonym Choice 12