katayama m

15
Q&Aサイトにおける 質問推薦に向けた履歴データの分析 Analysis of History Database For Automatic Question Recommendation 複合情報学専攻 複雑系工学講座 調和系研究室 修士2年 片山 亮

Upload: harmonylab

Post on 24-Jun-2015

115 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: katayama m

Q&Aサイトにおける

質問推薦に向けた履歴データの分析

Analysis of History Database For

Automatic Question Recommendation

複合情報学専攻 複雑系工学講座

調和系研究室 修士2年 片山 亮

Page 2: katayama m

・「質問で問われる知識」と「 回答者の持つ知識 」が合致している

研究背景

・QAサイトの「良さ」

発見されず未回答発生

推薦により発見

QAサイト 「自然言語による質問と回答を通した知識の共有」

推薦する質問の「適切さ」

:より多くの質問に回答が投稿される

回答者はもともと知っている知識について回答することが約9割[三浦 06]

「適切な」質問を推薦することで探索自動化

回答者が自ら答えられる質問を探す 現状

推薦

質問文書から抽出

履歴データから抽出

履歴データに回答者の知識が蓄積

”履歴データ”を”回答者の知識”として扱い,指標とすることを試みる

→柔軟な情報検索手段

Page 3: katayama m

研究目的

回答者の履歴データと質問との類似度を定義し

質問推薦の指標として実データを用いて検証する

アプローチ1

履歴データと質問との類似度を定義する.

アプローチ2

実データを用いて

あるユーザの履歴データと

1.実際回答している質問との類似度

2.回答していない質問との類似度

を比較し考察する

Page 4: katayama m

類似度の定式化

ユーザ集合 },...,2,1|{ ux NxuU },...,2,1|{ cy NycC

},...,2,1|{ qi NiqQ

質問 の属性 iq

カテゴリ

ユーザ

質問文

付随する回答文

付随する回答者

iqs

jqisa

iqc

iqu

jqiua

周辺要素の整理

カテゴリ集合

質問集合

類似度

文書を索引語の集合として考え

索引語の重み(tf・idf)を要素とした文書ベクトルv(q)として表現する

履歴データを過去回答した質問とそれに対する回答文書とし

各文書ベクトルの重心を履歴ベクトルhとする

履歴ベクトルhと質問ベクトルv(q)の余弦cos(h,v(q))とする

1.質問で問われる知識の表現

2.回答者の知識の表現

3.履歴と質問の類似度

),,,()( 21 Nqqq wwwqv

))()((1

M qjN

savqvMN

h

MNuuaQq q ,  

iqw :索引語iの文書qにおける重み

:回答した質問数,回答数

Page 5: katayama m

実験1

ユーザuの「9月分の履歴データ」と

目的 「実際に回答者が答えた質問」が「答えてない質問」と比べ

履歴データとの類似度が高いかどうかを検証する

実験設定

履歴データ:2005年9月の回答,質問データ計431492文書

質問データ:2005年10月の質問データ計194306文書

使用データ:Yahoo知恵袋コーパスver1(質問と回答データ)

-データ取得期間, 2004/04/01~2005/10/31(1.5年間)

-ユーザの興味の移り変わり,サービスに対する理解の変化

概要

1.「ユーザuが10月に回答した質問」との類似度

2.「ユーザuが10月に回答していない質問」との類似度 を算出し比較する

-ユーザuは2005年9月の回答数と2005年10月の回答数が100以上

である123名を対象とした

Page 6: katayama m

実験結果1

0 50 123 ユーザ

0.1

0.2

履歴と質問の類似度

0.05

0.15

ーユーザが回答した質問との類似度(平均)

ーユーザが回答していない質問との類似度(平均)

・ユーザの9月分の「履歴データ」と

1.「ユーザuが10月に回答した質問」との類似度の平均

2.「ユーザuが10月に回答していない質問」との類似度の平均

1が比較的高い傾向にある

を比較すると

[類似度(平均)の比較]

Page 7: katayama m

実験2

目的 履歴における回答した質問のカテゴリの偏りと

類似度との関連性について考察する

(回答した質問のカテゴリに偏りがある→履歴に出現する語にも偏りがある)

予想:カテゴリ毎の回答数の標準偏差が大きいほど類似度が高くなる傾向

概要

実験1と同様にユーザの9月分の履歴と10月分の質問との類似度を算出し

ユーザごとに9月分のカテゴリ毎の回答数の標準偏差を算出する

Page 8: katayama m

実験結果2

カテゴリ毎の回答数の標準偏差

ーユーザが回答した質問との類似度(平均) ー最小二乗近似法による近似直線

0 60 120 20 40 80 100

0.1

0.2

履歴と質問の類似度

0.05

0.15

[履歴におけるカテゴリの偏りと類似度の比較]

・相関係数0.523,正の相関がある

・しかし, ユーザでも類似度が比較的高い

値を示す場合がある カテゴリ毎の回答数に偏りがない

Page 9: katayama m

考察

実験1について

・ユーザの「履歴データ」と

「ユーザuが実際に回答した質問」との類似度の平均 が比較的高い

履歴データと

1が比較的多い

実験2について

・ ユーザでも類似度が比較的高い場合がある

1.ユーザが選択する質問間の語の重なり

2.ユーザが選択しない質問間の語の重なり を比較すると

履歴データとの語の重なりが「適切さ」の一指標になることを示唆

履歴におけるカテゴリに偏りがない

過去回答した質問のカテゴリによらないユーザの特徴が

履歴データから抽出できることを示唆

Page 10: katayama m

まとめ

・QAサイトの周辺要素を整理し

履歴データと質問との類似度を定義した

・実際に回答している質問は

履歴データとの類似度が比較的高くなることを示し

履歴データとの語の重なりが質問推薦の一指標と

なる可能性を示した

・履歴におけるカテゴリの偏りと類似度とを比較し

過去回答した質問のカテゴリによらない

ユーザの特徴が履歴から抽出できる可能性を示した

研究業績

国内学会発表:1件

Page 11: katayama m

実験

索引語の選択

異なり語数 各語の平均出現数 一文書あたりの異なり語数

名詞 59105 113.3 15.4

未知語 61018 5.4 0.8

形容詞 20749 147.8 7.1

動詞 2998 149.1 1.0

1.索引語の「良さ」 特定性:文書を特徴づける語

網羅性:それらをもれなく

名詞

特定性:中

網羅性:大

未知語

特定性:大

網羅性:小

形容詞

特定性:小

網羅性:小

動詞

特定性:小

網羅性:小

未知語(例)

WinMX

ニート

カブレラ

2.Yahoo!知恵袋特有の語の扱い

Page 12: katayama m

QAサイト

②質問選択

④ベストアンサー

選択

掲示板

カテゴリ別(新着順)

ランキング(回答数)

質問

回答

回答

回答入力画面

質問入力画面

③回答投稿

質問ユーザ

回答ユーザ

QA記事掲示画面

解決済み質問

データベース

カテゴリ1

質問

回答

回答

カテゴリN …

ベストアンサー

カテゴリ選択

質問投稿 ①

Page 13: katayama m

0

10

20

30

40

50

60

70

80

90

0 1 2 3 4 5 6

知恵袋の問題点(データから)2/2

回答数

百分率

・6回以上回答しているのは全体の約15%にすぎない

・にもかかわらず全体の80%以上の回答

→回答するコストが大きく

ベストアンサーは一部のユーザに頼っていることが示唆される

回答数(ヒストグラム)

以上

――回答者数 ――回答数

Page 14: katayama m

データ仕様(2/2)

内容(項目)

データ種類 解決済みの質問

ファイル名 que_[西暦4桁-月2桁].tsv

No 項目名

1 質問番号

2 カテゴリ番号

3 カテゴリ名

4 本文

5 質問者ID(ユニーク番号へ変換済み)

6 ID公開有無(Y or N)

7 付随回答の回答数

8 付随回答の回答番号(セパレータは/)

9 質問投稿日

10 質問最終更新日

データ種類 ベストアンサー

ファイル名 best_answer[西暦4桁-月2桁].tsv

No 項目名

1 回答番号

2 付随する質問の質問番号

3 回答投稿日

4 回答最終更新日

5 回答者ID(ユニーク番号へ変換済み)

6 ID公開有無(Y or N)

7 回答本文

8 参考URL1

9 参考URL2

10 参考URL3

Page 15: katayama m

データ仕様(1/2)

基本事項

・名称 Yahoo!知恵袋コーパスver1

・データ範囲 2004/04/01~2005/10/31(1.5年間)

・データ件数 解決済みの質問 :3,116,009件

ベストアンサー :3,116,008件

その他の解答 :10,361,777件

合計 :16,593,794件

・データ形式 タブ区切りファイル(tsv)

・文字コード Shift-JIS

・ファイル構成 que_[西暦4桁-月2桁].tsv :解決済みの質問

best_answer_ [西暦4桁-月2桁].tsv :ベストアンサー

normal_answer_ [西暦4桁-月2桁].tsv:その他の解答