tori lab meeting timeline generation: tracking individuals on twitter

62
Timeline Generation: Tracking individuals on Twitter Jiwei Li, Claire Cardie 東京大学大学院工学系研究科システム創成学専攻 大橋鳥海研究室 馬場正剛 2014/5/31 ToriLab輪読会 1

Upload: babaseigo

Post on 12-Jul-2015

201 views

Category:

Science


0 download

TRANSCRIPT

Page 1: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

Timeline Generation: Tracking individuals on

TwitterJiwei Li, Claire Cardie

東京大学大学院工学系研究科システム創成学専攻

大橋鳥海研究室 馬場正剛

2014/5/31 ToriLab輪読会1

Page 2: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

背景

•興味ある人間について時系列的に知りたい欲望• 映画俳優の最新情報、会社の社長・・・・

•既存の情報収集はウェブ検索が主体• 今は人力が主体(自分で検索)• 有名人なら多少は可能• ネットに情報の少ない一般人は?

•有名人・一般人に関する情報を時系列的に自動収集する(=個人史の構築)手法の必要性

2

Page 3: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

情報ソース=Twitter

• Twitterに個人の呟きが大量に存在• 個人史にとって重要な出来事を抽出可能?

•例:ヒューストンに移籍したことを把握可能

3

Page 4: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

一般人も

•例:有名人でなくとも重要な出来事を把握可能

•自動で例のようなTweetを抽出し時系列的に整理

•重要なイベントを並べた個人史を構築可能4

Page 5: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

個人にとって重要なイベント

•個人にとって重要なイベント=PIE

(Personal Important Event)

•個人史には重要な出来事のみ掲載• 雑多でなく、PIEに関するTweetのみ抽出する必要性

5

Page 6: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

PIEの決定基準

• 1:個人にとって重要な出来事である• 本人、フォロワーが何度も言及すること

• 2:期間が限定された出来事である• 日常的に起こってはならない

• 自転車11km漕いだ、ヨガをした=日常的な関心先

• 3:個人に関係ある出来事である• 一般的出来事でない

• 例:大統領選挙(関心は持つだろうが、関係ない)

6

Page 7: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

3:個人に関係ある出来事の補足

•一般的イベントは誰にとっても関係なく一般的か?• 大統領選挙はオバマにとって関係ないか?

•一般的イベントを有名人のPIEとするケースも存在• 大統領選挙→オバマのPIE

7

Page 8: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

Tweetを4タイプに分類

• Tweetは以下によって4タイプに分類可能• Public or Personal

• Time-specific or Time-general

8

time-specific time-general

public PublicTS PublicTG

personal PersonTS PersonTG

Page 9: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

一般人、有名人のPIE

•一般人:PersonTS(個人的で期間が限定)

•有名人:PersonTS、関係ある場合はPublicTS

99

time-specific time-general

public PublicTS PublicTG

personal PersonTS PersonTG

Page 10: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

論文の流れ

•個人史構築にPIEが必要なのはわかった• PIEを抽出する手法は?

ディリクレ過程モデルを用いる

10

~残りの論文の流れ~

• ディリクレ過程と本手法の説明

• 本手法の妥当性の評価

• 結果と考察

• まとめと今後の課題

Page 11: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

ディリクレ過程とは?

• ノンパラメトリックベイズ法の基本となるモデル• モデルの複雑性を自動決定する学習手法

• 例:クラスターの数Kを学習してくれる

• 規定測度𝐺0(確率分布)に似たGを生成• 無限次元の離散分布によって、すかすかに似せる

• 𝐺~𝐷𝑃 𝑎, 𝐺0 𝑎:似ている度

11最近のベイズ理論の進展と応用(III) ノンパラメトリックベイズ 持橋大地

Page 12: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

ディリクレ過程とは?

• 𝐺0からサンプルした場所𝜃𝑘に,高さ、𝜋𝑘の𝛿(𝜃𝑘)を立てていく

• 𝜋𝑘のイメージは次スライド13

Page 13: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

ディリクレ過程とは?

• 𝐺0からサンプルした場所𝜃𝑘に,高さ、𝜋𝑘の𝛿(𝜃𝑘)を立てていく

14

Page 14: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

階層ディリクレ過程とは?

• HDP (Hierarchical Dirichlet Process)

• Nonparametric Bayes for Non-Bayesians (IBIS 2008)がわかりやすい

16

Page 15: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

階層ディリクレ過程とは?

• HDP (Hierarchical Dirichlet Process)

• Nonparametric Bayes for Non-Bayesians (IBIS 2008)がわかりやすい

17

Page 16: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

トピックの分布

• HDPを用いる

20

H

𝐺0

𝐺𝑡: (𝐺(0,1))𝐺𝑖: (𝐺(1,0))

𝐺𝑖𝑡: (𝐺(1,1))

Discussed specially at T Specific to user i

Discussed specially at T

𝐺0:denote Generally topics

Page 17: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

階層ディリクレ過程とは?

21

𝐺0のアトムが共有される!

Page 18: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

トピックの分布

•全ツイートでアトム=トピックは共有される!

22

H

𝐺0

𝐺𝑡: (𝐺(0,1))𝐺𝑖: (𝐺(1,0))

𝐺𝑖𝑡: (𝐺(1,1))

Discussed specially at T Specific to user i

Discussed specially at T

𝐺0:Generally topics

Page 19: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

Tweet 𝑣への変数

• 𝑣𝑖𝑡へ𝑥𝑣, 𝑦𝑣 , 𝑧𝑣を付与• 𝑥𝑣, 𝑦𝑣によりTweetを4分類• 𝑧𝑣はツイートが表すトピック

• 𝑥𝑣, 𝑦𝑣はユーザiの趣向𝜋𝑥𝑖 , 𝜋𝑦

𝑖によって決定• ユーザーiはpersonal、time-specificなのをつぶやきやすいのか?

• ベータ分布によって趣向は決定

23

Page 20: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

モデルをまとめると

24

Page 21: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

モデルをまとめると

25

Page 22: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

モデルをまとめると

26

Page 23: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

モデルをまとめると

27

Page 24: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

モデルをまとめると

28

Page 25: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

モデルをまとめると

29

Page 26: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

モデルをまとめると

30

Page 27: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

モデルをまとめると

31

Page 28: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

モデルをまとめると

32

Page 29: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

モデルをまとめると

33

Page 30: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

Topicの決定

𝐸(𝑧)(・)

: x, yタイプTweet中のtopicがzのワード数

𝐸(𝑧)(𝑤)

: topic z中のwの数

𝑁𝑣: Tweet 𝑣中のワード数𝑁𝑣𝑤: Tweet 𝑣中のwの数

34

Page 31: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

Gibbs Sampling

35

•パラメータの値を観測データから得られた事後分布から推定• 例:正規分布に従う100個の乱数を観測して、母集団の平均と分散を推定

• サンプルの初めは正確でないため、サンプル捨てる• =burn-in

Page 32: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

Gibbs Sampling

36

Page 33: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

DPMへギブスサンプリング

hyperparameterをギブスサンプリング

burn in は200回

37

Page 34: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

5.Timeline Generation

•以下の3つに注意して個人のTLを構築

• まずトピックを統合させる(トピックが多すぎて計算煩雑)

• 有名人のPublicTSを関連付け(オバマに選挙)

• 各トピックで最もPIEなTweetを抜き出し

39

Page 35: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

トピックを統合

• トピックが多すぎて計算が煩雑

• ユーザーiの近しいトピックを統合

•以下の値が下がらなくなるまで統合を繰り返す

•内部エントロピー、クラスタ間の分散

40

Page 36: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

トピックを統合

値が下がらなくなるまで統合を繰り返す

• 𝑃𝑖:ユーザーiのトピック群、𝐶𝑃𝑖トピックの中心

•内部エントロピー、クラスタ間の分散

41

Page 37: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

有名人へPublicTSの関連付け

• Lj:PublicTSなトピックでも以下の3つを満たすなら有名人iに関連している(=PIE)とできる

• Ljの全Tweet中に10%以上、iの名前orTweetID出現

• GiとLjのカイ二乗値ーP値が0.5以上

• クラスタリングバランス値が低下

43

Page 38: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

各トピックからTweet選択

• PIEなトピックLの中でベストなTweetを抽出

•抽出したら個人のTLへ

44

Page 39: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

使用したTweetDataSet

• 500,000人のユーザーの400,000,000Tweet• Jun 7 th,2011~Mar 4th 2013 (637days=7*91week)• Split into 91 time periods(week)

• DPMモデルの構築には一般人と有名人の両方のTweetが必要• フォロワー500~2,000→一般人• フォロワー1,000,000~→有名人

• それぞれ20人を用意

• TweetからStop-wordsを取り除く(a,the・・・)

45

Page 40: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

Gold-Standard Dataset Creation

• Gold-Standard Dataset を構築• 手法を評価するための人為的PIE-TL

• 20 ordinary users(TwitSet-O)

• 20 celebrities (TwitSet-C)

46

Page 41: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

TwitSet-O

•自分以上に自分を知る人間は存在しない• ユーザー本人が評価を行う

• 他人の評価は一切用いず

•自分のPIEを表現するTweetを抽出• そのTweetにはPIEの名前でラベリング

• 例:ハーバード合格Event

• 複数のTweetが同一ラベリングされるケースも

47

Page 42: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

TwitSet-C

• 2人がPIEの抽出を行う• 一致率を評価(カッパ係数で評価)

• Amazon Mechanical Turkに委託• 悪い結果(カッパ係数0.653)• もっと高くならない?

• oDeskに委託• 専門分野の人間に判定を依頼

• 例:バスケに詳しい人にバスケ選手のTweetを

• 十分な結果(カッパ係数0.901)

48

Page 43: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

TwitSet-C結果例

49

Page 44: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

TwitSet-C結果例

50

Page 45: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

TwitSet-C結果例

51

Page 46: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

本手法の評価

•他の手法と比較• Multi-level LDA

• Person-DP

• Public-DP

• Gold-Standard Dataset(GSD) との一致率で比較• GSDにあるPIEに関するツイートを含んでいる割合

52

Page 47: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

Multi-Level LDA

•本手法との違いはTopicの抽出方法

• LDAとは?

53

Page 48: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

LDAについて

Latent Dirichlet Allocation(LDA)を用いたニュース記事の分類54

Page 49: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

LDAについて

55

Page 50: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

LDAについて

56

Page 51: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

LDAについて

57

Page 52: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

LDAについて

58

Page 53: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

Person-DP,Public-DP

• DPMとほとんど同じ

• Person-DP:background topics 𝐺0使わず→𝐺𝑖使用

• Public-DP:TSを考慮しない

• Person,Public周りの人間,時間考慮しない

61

Page 54: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

3手法の比較

•各個人のGold-Standard Dataset(GSD) とのPIEの一致率を3項目で比較

• Recall : 手法で触れたPIE数/全PIE数• 網羅率

• Presion: nonPIEを含んでないか PIE/(PIE+nonPIE)• ゴミが少ないか

• F1:手法をトータルで評価

62

Page 55: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

3手法比較結果

•時間や他人を考慮してないPerson,Public-DPはゴミが多い

• F1が一番高い→本手法の優位性

63

Page 56: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

本手法による結果例

PIEを抽出できた64

Page 57: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

本手法による結果例

65

Page 58: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

本手法による結果例

66

Page 59: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

本手法の問題点

• DallasCowboys:ジェームスが興味持ってるfootball team• 短い期間に関するツイートをたくさんした

• PIEと勘違いされた

67

Page 60: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

まとめ

• personal-important-event (PIE)の抽出に成功• DPMを用いた

• PIEから個人史を構築

•抽出手法は他の手法より優位なことを示した

68

Page 61: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

今後の課題

•有名人の方がスコアがよかった• 一般人はTweet情報が少ないから?

• 一般人のスコアをもう少しあげたい

•隠れたPIEの存在• 誰も触れなかったTweetがPIEを表していたら?

• Facebook,wilkipediaあたりと連携をとったらより正確?

69

Page 62: Tori lab meeting Timeline Generation: Tracking individuals on Twitter

感想

•内容は面白かった

•特に言語処理のあたりは自分の研究に応用できそう

• トピック分類についての指摘も学会であった

•一定期間に興味を持った事柄を抽出できたのもそれはそれで面白いと思った

•論文執筆の教科書的な論文も読んでみたい

70