超大規模ウェブコーパスを用いた 分布類似度計算
DESCRIPTION
超大規模ウェブコーパスを用いた 分布類似度計算. 09/03/05 京都大学 柴田 知秀 黒橋 禎夫. 背景. 大規模コーパスを利用することにより言語処理の精度が向上 スペル訂正 (100 億語 ) [Lin and R.Curran 06] 言語モデルの 機械翻訳での利用 (2 兆語 ) [ Brants et al. 07 ] 分布類似度計算で大規模コーパスの利用 6,400 万語 [Lin98] 20 億語 [Curran04] 4,000 万 Web ページ [ 相澤 08] 本研究では ウェブ 1 億ページ (250 億語 ) を利用. - PowerPoint PPT PresentationTRANSCRIPT
超大規模ウェブコーパスを用いた分布類似度計算09/03/05京都大学柴田 知秀 黒橋 禎夫
背景• 大規模コーパスを利用することにより言語処理の精度が向上– スペル訂正 (100 億語 ) [Lin and R.Curran 06]– 言語モデルの機械翻訳での利用 (2 兆語 ) [Brants et
al. 07]• 分布類似度計算で大規模コーパスの利用– 6,400 万語 [Lin98]– 20 億語 [Curran04]– 4,000 万 Web ページ [ 相澤 08]
• 本研究ではウェブ 1 億ページ (250 億語 ) を利用
概要• 大規模コーパスを利用することによって分布類似度計算の精度が向上するか– どれくらいの規模があれば十分か
• 曖昧性のある係り受けを除外することによる効果• 複合名詞の類似度計算• どのコンテキストが有効か
目次• 分布類似度– コンテキスト抽出– 分布類似度計算
• 実験– 類似度尺度– 曖昧性のある係り受けの除外– 複合名詞の類似時計算– どのコンテキストが有効か
目次• 分布類似度– コンテキスト抽出– 分布類似度計算
• 実験– 類似度尺度– 曖昧性のある係り受けの除外– 複合名詞の類似時計算– どのコンテキストが有効か
分布類似度• 意味の似た語は似たコンテキストで出現
[Firth57] 医師 医者~の診察 8225 495
~に相談 4374 1359
~の許可 1474 254
~が増える 354 134
~を志す 277 173
~の不養生 0 25
類義語 類似度主治医 0.437
ドクター 0.395
医者 0.382
教員 0.374
カウンセラー
0.368
獣医 0.350「医師」の類義語0.382
コンテキスト抽出• 3 つ組 (w, r, w’) を抽出– ある語 w が他の語 w’ と関係 r で出現している– 関係 r として係り受け関係がもっともよい
[Lin98], [Curran04]• 例 : 医者が診察する → ( 医者 , ガ , 診察 )
– (r,w’) の組を語 w の共起要素と呼ぶ• r として以下の格要素を考える– ガ , ヲ , ニ , カラ , ト , ヘ , マデ , ヨリ , ノ
曖昧性のある係り受けを除外• 格フレーム構築時に曖昧性のある係り受けを除外 [Kawahara and Kurohashi 01]
パンを焼いたけれども、…
パンを焼いた余熱を利用して、…?
語 w の単位• 多くのシステムでは複合名詞の分布類似度を扱っていない [Curran04]– 人手によるシソーラスの 25% は複合名詞– 複合名詞の分布類似度を計算したが精度が低下
[Ingram and Curran07]• 語 w の単位として単名詞と複合名詞を考える– 複合名詞は文節内で最長のもの– 例 : 携帯電話を購入した
• 単名詞 : 電話• 複合名詞 : 携帯電話
分布類似度計算• 以下の二つの function に分解 [Curran04]– Weight function– Measure function
医師 医者~の診察 8225 11.4 495 8.7
~に相談 4374 8.1 1359 7.3
~の許可 1474 5.3 254 3.5
~が増える 354 0 134 0.9
~を志す 277 5.9 173 6.3
Weight function (wgt)
FREQ
MI
MI’
Bβ 1 if MI > β; otherwise 0
),( cwf
)()(),(logcPwPcwP
)()(),(
1))(*,,*),(min())(*,,*),(min(
1),(),(
cPwPcwP
cfwfcfwf
cwfcwf
Measure functionCOSINE
LIN98
JACCARD
SIMPSON
JACCARD-SIMPSON
1/2 (JACCARD + SIMPSON)
22
21
21
,*)(*,*)(
,*)(,*)(
wwgtwwgt
wwgtwwgt
,*)( 2,*)( 1
,*)(,*)( 21
21
21
,*)(,*)(
,*)(,*)(
ww
ww
wwgtwwgt
wwgtwwgt
,*)(,*)(,*)(,*)(
21
21
wwww
,*))(,*),min((,*)(,*)(
21
21
wwww
目次• 分布類似度– コンテキスト抽出– 分布類似度計算
• 実験– 類似度尺度– 曖昧性のある係り受けの除外– 複合名詞の類似時計算– どのコンテキストが有効か
実験• 日本語 1 億ページ [Shinzato et al. 08]– 60 億文を uniq した 16 億文 (250 億語 ) を利用– 以下の 5 つのコーパスサイズ ( 文数 ) で実験• 6.3M, 25M, 100M, 400M, 1.6G
• 形態素解析・構文解析 : 150CPU で 1 週間• 3 つのコンテキストベクトルを作成 (1 日弱 )– (i) 単名詞 , 曖昧性のある係り受け あり– (ii) 単名詞 , 曖昧性のある係り受け なし– (iii) 複合名詞 , 曖昧性のある係り受け なし
評価セット [ 相澤 08]
エイズや肝炎などの病気
プリンターや複写機などの消耗品タスク I News: 685 表現 , Web: 25,740 表現タスク II News: 876 表現 , Web: 2,019 表現
寄与(A) とシソーラスのカテゴリが異なり、 Web での頻度が同程度
(A) (B) (C) (D)
○
○
○
×
サボテン
タスク I
タスク II
○×タスク I
タスク II××
類似度尺度評価• 閾値を 0.01 から 0.4 まで 0.01 刻みで動かして F-measure の最大値を求めた
尺度 Weight Measure タスク I タスク IINews Web News Web
B-S Bβ Simpson 0.985 0.973 0.807 0.876B-J Bβ Jaccard 0.981 0.945 0.743 0.805B-SJ Bβ SJ 0.988 0.975 0.817 0.878Lin98 MI Lin98 0.985 0.949 0.748 0.805Lin02 MI’ Cosine 0.984 0.955 0.758 0.818
Aizawa08 0.982 0.971 0.752 0.862
※ β=2 とした
コーパスサイズと精度の関係(タスク I: Web)
0.4
0.5
0.6
0.7
0.8
0.9
1
6.3M 25M 100M 400M 1.6G
F値
コーパスサイズ (文数)
B-SB-JB-SJLin98Lin02
曖昧性のある係り受けの有無 (Web)
0.4
0.5
0.6
0.7
0.8
0.9
1
6.3M 25M 100M 400M 1.6G
F値
コーパスサイズ (文数)
タスクI (曖昧性のある係り受けなし)
タスクI (曖昧性のある係り受けあり)
タスクII (曖昧性のある係り受けなし)
タスクII (曖昧性のある係り受けあり)
0.4
0.5
0.6
0.7
0.8
0.9
1
6.3M 25M 100M 400M 1.6G
F値
コーパスサイズ (文数)
タスクI (単名詞)
タスクI (複合名詞)
タスクII (単名詞)
タスクII (複合名詞)
語の単位 : 単名詞と複合名詞 (Web)改善例 : 正解 : ○ 神経衰弱 ゲーム 正解 : × ゴルフコース 大学
コンテキストの有効性評価格 タスク I タスク II
News Web News Web
- ガ 0.988 0.971 0.817 0.870
- ヲ 0.985 0.970 0.813 0.873
- ニ 0.987 0.971 0.810 0.871
- カラ
0.987 0.971 0.816 0.873
- ト 0.987 0.971 0.811 0.872
- ヘ 0.988 0.971 0.816 0.872
- マデ
0.988 0.971 0.817 0.872
- ヨリ
0.987 0.971 0.816 0.872
- ノ 0.982 0.966 0.762 0.867
全て 0.988 0.971 0.816 0.872
+ デ 0.988 0.971 0.807 0.870
誤り分析• タスク I は自動生成したデータなので、類義語でないものを含む–銀行や空港 ( などの場所 )–記憶や学習 ( などの脳機能 )
• 多義語–豚 マウス– ヘリウム ネオン
• 形態素解析誤り– もみすり → もみ ( 動詞 ) すり ( 動詞 )– つくばい → つく ( 動詞 ) ばい ( 名詞 )
~に注射~の胎児‥~でドラッグ~のホイール ~の原子~に変わる
‥~を消灯~が誘惑
まとめ• 超大規模コーパスを用いた分布類似度計算– コーパスサイズを増やすことによって精度が向上することを確認– 実験で用いたコーパスサイズでほぼ十分– 曖昧性のある係り受けを除外– 複合名詞の分布類似度
• 今後の予定– 曖昧性解消の導入– 動詞の類似度計算– 計算済み類似度データベースを公開予定– 分布類似度を用いて構築した格フレームを公開予定
关于公布 2017-2018 学年度第一学期“思想 政治教育活动超市”获奖 …€¦ · 1 武大团函[2018]3号 关于公布2017-2018 学年度第一学期“思想 政治教育活动超市”获奖名单的通知
超越範疇の布置jsmp.jpn.org/jsmp_wp/wp-content/uploads/smt/vol56/017...超越範疇の布置 フランシスコ・スアレス『形而上学討論集』における 井上一紀