意見抽出を目的とした 機械学習による属性-評価値同定
DESCRIPTION
意見抽出を目的とした 機械学習による属性-評価値同定. 奈良先端科学技術大学院大学 飯田龍 小林のぞみ 乾健太郎 松本裕治 NEC インターネット研究所 立石健二 福島俊一. 肯定的 な記事. 否定的 な記事. 文書集合を肯定的(否定的)な文書に 分類 ( Turney ’02, Pang ‘04). 車1 を購入した。 デザイン は 悪くない が シンプルすぎ 。 ちょっと 物足りない かな。 走り に関しては 満足しています 。. 分類. 抽出. 意見抽出の研究. Web 上のレビュー記事や blog などから 意見や評判を分類/抽出する. 車1. - PowerPoint PPT PresentationTRANSCRIPT
NL-165-4 1
意見抽出を目的とした機械学習による属性 - 評価値同定
奈良先端科学技術大学院大学飯田龍 小林のぞみ 乾健太郎 松本裕
治NEC インターネット研究所
立石健二 福島俊一
NL-165-4 2
Web 上のレビュー記事や blog などから意見や評判を分類 / 抽出する
意見抽出の研究
車 1 を購入した。デザインは悪くないがシンプルすぎ。ちょっと物足りないかな。走りに関しては満足しています。
肯定的な記事
否定的な記事
分類
文書集合を肯定的(否定的)な文書に分類(Turney ’02, Pang ‘04)
抽出
文章中から意見に該当する箇所を抽出(Nasukawa ‘03, Kanayama ‘04)
車 1 デザイン 悪くない
車 1 デザインシンプルすぎ
車 1 走り 満足している…
Web 文書
NL-165-4 3
意見要約 ( 立石ら ‘ 04)抽出の観点からの研究の一例
対象記事中の意見をレーダーチャートの形で要約
要約車 1 を購入した。デザインは悪くないがシンプルすぎ。ちょっと物足りないかな。走りに関しては満足しています。
0
1
2
3
4
5内装
外装
安全性価格
性能
車1 2車
Web 文書
NL-165-4 4
意見の定義 抽出対象となる意見をどのように捉
えるのかが問題となる
「意見」というものを 2 つの観点から考える
1. 意見の構成素2. 意見性
NL-165-4 5
意見の構成素〈対象 , 属性 , 評価値〉の 3 つ組
対象 : 商品名など 属性 : 対象のある側面を表す表現 評価値 : 属性値か主観評価のどちらかを含む
属性値 : 属性の値を指す表現 主観評価 : 属性値に該当しない書き手の
個人的な感想などを指す
例 ) 車 1 の内装が { きれい / 落ち着く } 。 ( 属性値 )
{ 好きだ / 許せない } 。 ( 主観評価 )
NL-165-4 6
意見性どのような表現を意見とするかの基準
伝聞例 ) 彼は車1の内装がよいと言っていた
仮定表現例 ) デザインがもう少し落ち着いた感じならば、…
記事の書き手の主観的な意見のみが意見 性を持つ 例 ) o エンジンの音が静かですね。 x エンジンの音が静かだったら、… ( 仮定 ) x エンジンの音が静かだと聞いている ( 伝聞 )
NL-165-4 7
意見の定義 ( まとめ )「意見」とは ..1. 意見の構成素
〈対象 , 属性 , 評価値〉の 3 つ組
2. 意見性 記事の書き手の主観的な意見のみが
意見性を持つ
この 2 つの条件を満たすものを抽出の対象とする
NL-165-4 8
0
1
2
3
4
5内装
外装
安全性価格
性能
車1 2車
意見要約の処理
属性 - 評価値抽出
辞書作成( Kobayashi ‘04 )
評価値表現辞書
属性表現辞書
Positive-negative(P/N) 判定
属性 評価属性 評価車 1 満足
P
P
N
(1)
(2)
(3)
走り
車 1 きれい内装
車 1 満足走り
車 2 高い値段
チャート作成
(4)
デザイン走り…
良い悪い…
車 1 を購入した。デザインは悪くないがシンプルすぎ。ちょっと物足りないかな。走りに関しては満足しています。
車 1 を購入した。デザインは悪くないがシンプルすぎ。ちょっと物足りないかな。走りに関しては満足しています。
Web 文書
Web 文書
NL-165-4 9
0
1
2
3
4
5内装
外装
安全性価格
性能
車1 2車
意見要約の処理
属性 - 評価値抽出
辞書作成( Kobayashi ‘04 )
評価値表現辞書
属性表現辞書
Positive-negative(P/N) 判定
属性 評価属性 評価車 1 満足
P
P
N
(1)
(2)
(3)
走り
車 1 きれい内装
車 1 満足走り
車 2 高い値段
チャート作成
(4)
デザイン走り…
良い悪い…
車 1 を購入した。デザインは悪くないがシンプルすぎ。ちょっと物足りないかな。走りに関しては満足しています。
車 1 を購入した。デザインは悪くないがシンプルすぎ。ちょっと物足りないかな。走りに関しては満足しています。
Web 文書
Web 文書
目的属性 - 評価値抽出のタスクに着目し,精度良く属性と評価値の対を抽出
NL-165-4 10
目次1. 意見抽出の研究2. 意見抽出の先行研究3. 意見抽出の提案手法4. 評価実験とその考察5. まとめ
NL-165-4 11
意見抽出の先行研究 (Kanayama ‘04)
1. 文章を述語項構造に変換2. 抽出パタンを用いて意見のみを抽出
悪くない ( デザイン )シンプルすぎ ( デザイン )物足りない (φ, デザイン )満足している (φ, 走り )
述語項構造
デザイン 悪くない
デザイン シンプルすぎ…
車 1 を購入した。デザインは悪くないがシンプルすぎ。ちょっと物足りないかな。走りに関しては満足しています。
車 1
車 1
変換
抽出
NL-165-4 12
意見抽出の先行研究項構造解析の処理にはゼロ照応解析などさまざまな処理を伴う
デザイン 1は悪くないが( φ1ガ)シンプルすぎ。( φ2ガ) ( φ1ヲ)ちょっと物足りないかな。( φ2ガ)走りに関しては満足しています。
悪くない ( デザイン )シンプルすぎ ( デザイン )物足りない (φ, デザイン )満足している (φ, 走り )
述語項構造
述語が取り得る項を記した辞書ゼロ照応解析の処理
NL-165-4 13
研究の動機頑健な項構造解析の実現は困難すべての述語について項構造解析を
行う必要はない
意見性を持った〈対象 , 属性 , 評価値〉という 限られた構造の抽出に焦点を当てる既存のゼロ照応解析の技術を導入することで どの程度意見が抽出可能であるかを調査する
NL-165-4 14
目次1. 意見抽出の研究2. 意見抽出の先行研究3. 意見抽出の提案手法4. 評価実験とその考察5. まとめ
NL-165-4 15
車 1:デザインは悪くないがシンプルすぎ。ちょっと物足りないかな。走りに関しては満足しています。
意見抽出の問題設定構成素〈対象,属性,評価値〉のうち,
「対象(商品)」は自明である場合が多い 2 つ組〈属性,評価値〉を抽出対象に属性 評価属性 評価車 1 満足走り
属性 評価属性 評価満足走り
NL-165-4 16
意見抽出の提案手法
A1 A2 … A3 …A4 A5 E1 A6 … E2 … E3 …
Ai : 属性候補Ei : 評価値
車 1 を購入した。デザインは悪くないがシンプルすぎ。ちょっと物足りないかな。走りに関しては満足しています。
NL-165-4 17
意見抽出の提案手法1. 属性候補,評価値候補の抽出2. 評価値候補と対となる属性を同定3. 評価値候補の意見性の判定
A1 A2 … A3 …A4 A5 E1 A6 … E2 … E3 …
A1, … , A6 E1
A1, … , A6 E2
A1 E1
A3 E1
A6 E2A3 E1
( 1 )候補抽出
( 2 )属性同定
( 3 )意見性判定
文書集合
A1, … , A6 E3 A4 E3A4 E3
Ai : 属性候補Ei : 評価値候補
NL-165-4 18
1.候補抽出属性表現辞書,評価値表現辞書に存在する表現のみを抽出
属性表現辞書 評価値表現辞書
A1, A2, A3,A4, A5, A6 E1, E2, E3
A1 A2 … A3 …A4 A5 E1 A6 … E2 … E3 …
A1, … , A6 E1
A1, … , A6 E2
A1 E1
A3 E1
A6 E2A3 E1
( 1 )候補抽出
( 2 )属性同定
( 3 )意見性判定
文書集合
A1, … , A6 E3 A4 E3A4 E3
NL-165-4 19
2. 属性同定 評価値と属性候補集合から
〈属性 , 評価値〉を抽出する 解析のモデル :
トーナメントモデル ( 飯田 ‘ 04) を使用
A1 A2 … A3 …A4 A5 E1 A6 … E2 … E3 …
A1, … , A6 E1
A1, … , A6 E2
A1 E1
A3 E1
A6 E2A3 E1
( 1 )候補抽出
( 2 )属性同定
( 3 )意見性判定
文書集合
A1, … , A6 E3 A4 E3A4 E3
NL-165-4 20
トーナメントモデル評価値に対して最も属性らしい候補を
同定するモデル
エンジン内装デザイン 広い
内装
属性候補集合 評価値
内装 広い
NL-165-4 21
トーナメントモデル学習データ
E
属性評価値
(a) 訓練事例素性 クラス
Erigh
t
E left
E left
A5A4A3A2A1
A3
A4
A5
A3
A3
A2
テストデータ
E’A3’A2’A1’
を対となる属性と決定
(b) 属性同定の処理
A2’
A3’A2’A1’ E’
A2’
A: 属性候補E: 評価値
NL-165-4 22
3. 意見性判定意見性の基準「記事の書き手の主観的な
意見」を満たしているか否かを判定するモデルを作成
A1 A2 … A3 …A4 A5 E1 A6 … E2 … E3 …
A1, … , A6 E1
A1, … , A6 E2
A1 E1
A3 E1
A6 E2A3 E1
( 1 )候補抽出
( 2 )属性同定
( 3 )意見性判定
文書集合
A1, … , A6 E3 A4 E3A4 E3
NL-165-4 23
意見性判定モデル今回定義した意見性の基準は前後文脈の表層的な手がかりである程度特徴を捉えることができる エンジンが良いと思う → 意見性有
り エンジンが良いという人もいる → 意見性無し
評価値単体では意見性を判定するのが困難な場合もある ( 人が )… 。 …多い。 (ノイズが )… 。 …多い。→対となる属性を提示する
NL-165-4 24
意見性判定モデル(訓練事例作成 ) 正例
E1A2
…
A3
負例
E2A3
…
属性同定モデル
学習データ
E2E1A4A3A2A1
評価値属性
A: 属性候補E: 評価値
意見性を持たない評価値
NL-165-4 25
〈属性 , 評価値〉対の抽出テストデータ
EA3’A2’A1’
を対となる属性と決定
属性同定モデル
A2’
A3’A2’A1’ E
A2’
EA2’
意見性判定モデル
EA2’
NL-165-4 26
目次1. 意見の定義2. 意見抽出の先行研究3. 意見抽出の提案手法4. 評価実験とその考察5. まとめ
NL-165-4 27
意見タグ付きコーパス作成車とデジカメのドメインのレビュー記
事に対して〈属性 , 評価値〉のタグを人手で付与 車 デジカメ
文章数文数属性 - 評価値の対
28744422649
83510707
3654
NL-165-4 28
辞書の抽出タグ付与されたコーパスから抽出
属性辞書 評価値辞書
室内座席動力性能
広い快適よい
タグ付きコーパス
室内が広い。後ろの座席はとっても快適。動力性能がよい。
NL-165-4 29
共起用例の抽出タグ付与されたコーパスから抽出
共起用例室内 -広い座席 -快適動力性能 - よい
タグ付きコーパス
室内が広い。後ろの座席はとっても快適。動力性能がよい。
NL-165-4 30
ベースラインモデル共起用例に該当する対を網羅的に抽出
室内 広い
評価事例室内が広い。後ろの座席はとっても快適。動力性能が悪い。
共起用例室内 -広い座席 -快適動力性能 - よい
座席 快適
属性 評価属性 評価快適室内適用
NL-165-4 31
素性
属性候補 評価値
対象文節の•表層文字列•品詞係り元(先)の文節の•表層文字列•品詞
対象文節の•表層文字列•品詞係り元(先)の文節の•表層文字列•品詞
共起用例室内 -広い座席 -快適動力性能 - よい
•共起用例と同じ 組み合わせか否か•係り受けの関係に あるか否か•距離情報
NL-165-4 32
評価実験実験の設定
分類器には SVM(多項 2 次カーネル ) を使用
10 分割交差検定
NL-165-4 33
辞書 /用例の適用
9/10 1/10
訓練事例 評価用事例
2765 (75.7%)1841 (69.5%)抽出可能な対36542649対全体
デジカメ車
再現率の上限値
適用
作成
属性辞書
評価値辞書
共起用例
NL-165-4 34
実験結果
手法 車 デジカメベースラインモデル
精度再現率
43.2% (493/1142)18.6% (493/2649)
26.2% (608/2324) 16.6% (608/3654)
トーナメントモデル +意見性判定
精度再現率
78.3% (1042/1331) 39.3% (1042/2649)
70.2% (1328/1893) 36.3% (1328/3654)
車 デジカメ
対全体 2649 3654
抽出可能な対 1841 (69.5%)
2765 (75.7%)
ベースラインモデル 辞書 (用例 ) の網羅性が低い
再現率の上限値
NL-165-4 35
誤り分析 ( 属性同定 )1. 共起不可能な対の抽出
例 1) 荷物が広い (既存の辞書で対応可能 )
例 2) VTEC が静か
NL-165-4 36
誤り分析 ( 属性同定 )2.共起可能な対の抽出 タグの仕様 :
評価値に対して複数タグ付与可能な場合は最下層の属性にタグを付与
例 ) 音の悪すぎるサウンドシステム 誤って上位属性を同定→ ドメイン依存の知識を導入する必要が
ある
サウンドシステム ( 上位 )
音 (下位 )
NL-165-4 37
誤り分析 ( 意見性判定 )条件,仮定表現
例 ) 「内装がきれいならば」 Bag-of-words 素性で
意見性を捉えられていない
誤り事例をさらに調査し,追加すべき素性を検討
NL-165-4 38
まとめ意見抽出を目的とした
属性 - 評価値の対を抽出する機械学習モデルを提案した
提案するモデルは共起用例のみを用いた単純な抽出モデルと比べて,精度よく対の抽出が可能
NL-165-4 39
今後の課題さまざまな意見性の基準で提案手法を評
価 今回の基準 : 「書き手の主観的な意見」 抽出したい意見情報は用途によって異なる
例 ) 伝聞,条件,要求なども抽出の対象とする
異なる意見性の基準で提案手法を評価するドメインに依存した知識獲得応用可能性の評価
既存の辞書獲得手法で構築された辞書の利用 立石らの意見要約の枠組みへ導入