tori lab meeting timeline generation: tracking individuals on twitter

Timeline Generation: Tracking individuals on

TwitterJiwei Li, Claire Cardie

東京大学大学院工学系研究科システム創成学専攻

大橋鳥海研究室馬場正剛

2014/5/31 ToriLab輪読会1

背景

•興味ある人間について時系列的に知りたい欲望• 映画俳優の最新情報、会社の社長・・・・

•既存の情報収集はウェブ検索が主体• 今は人力が主体（自分で検索）• 有名人なら多少は可能• ネットに情報の少ない一般人は？

•有名人・一般人に関する情報を時系列的に自動収集する（＝個人史の構築）手法の必要性

2

情報ソース=Twitter

• Twitterに個人の呟きが大量に存在• 個人史にとって重要な出来事を抽出可能？

•例：ヒューストンに移籍したことを把握可能

3

一般人も

•例：有名人でなくとも重要な出来事を把握可能

•自動で例のようなTweetを抽出し時系列的に整理

•重要なイベントを並べた個人史を構築可能4

個人にとって重要なイベント

•個人にとって重要なイベント=PIE

(Personal Important Event)

•個人史には重要な出来事のみ掲載• 雑多でなく、PIEに関するTweetのみ抽出する必要性

5

PIEの決定基準

• 1:個人にとって重要な出来事である• 本人、フォロワーが何度も言及すること

• 2:期間が限定された出来事である• 日常的に起こってはならない

• 自転車11km漕いだ、ヨガをした＝日常的な関心先

• 3:個人に関係ある出来事である• 一般的出来事でない

• 例：大統領選挙（関心は持つだろうが、関係ない）

6

3:個人に関係ある出来事の補足

•一般的イベントは誰にとっても関係なく一般的か？• 大統領選挙はオバマにとって関係ないか？

•一般的イベントを有名人のPIEとするケースも存在• 大統領選挙→オバマのPIE

7

Tweetを4タイプに分類

• Tweetは以下によって4タイプに分類可能• Public or Personal

• Time-specific or Time-general

8

time-specific time-general

public PublicTS PublicTG

personal PersonTS PersonTG

一般人、有名人のPIE

•一般人：PersonTS(個人的で期間が限定)

•有名人：PersonTS、関係ある場合はPublicTS

99

time-specific time-general

public PublicTS PublicTG

personal PersonTS PersonTG

論文の流れ

•個人史構築にPIEが必要なのはわかった• PIEを抽出する手法は？

ディリクレ過程モデルを用いる

10

～残りの論文の流れ～

• ディリクレ過程と本手法の説明

• 本手法の妥当性の評価

• 結果と考察

• まとめと今後の課題

ディリクレ過程とは？

• ノンパラメトリックベイズ法の基本となるモデル• モデルの複雑性を自動決定する学習手法

• 例：クラスターの数Kを学習してくれる

• 規定測度𝐺0（確率分布）に似たGを生成• 無限次元の離散分布によって、すかすかに似せる

• 𝐺~𝐷𝑃 𝑎, 𝐺0 𝑎:似ている度

11最近のベイズ理論の進展と応用(III) ノンパラメトリックベイズ持橋大地


• 𝐺0からサンプルした場所𝜃𝑘に,高さ、𝜋𝑘の𝛿(𝜃𝑘)を立てていく

• 𝜋𝑘のイメージは次スライド13


• 𝐺0からサンプルした場所𝜃𝑘に,高さ、𝜋𝑘の𝛿(𝜃𝑘)を立てていく

14

階層ディリクレ過程とは？

• HDP (Hierarchical Dirichlet Process)

• Nonparametric Bayes for Non-Bayesians (IBIS 2008)がわかりやすい

16


• HDP (Hierarchical Dirichlet Process)

• Nonparametric Bayes for Non-Bayesians (IBIS 2008)がわかりやすい

17

トピックの分布

• HDPを用いる

20

H

𝐺0

𝐺𝑡: (𝐺(0,1))𝐺𝑖: (𝐺(1,0))

𝐺𝑖𝑡: (𝐺(1,1))

Discussed specially at T Specific to user i

Discussed specially at T

𝐺0:denote Generally topics


21

𝐺0のアトムが共有される！

トピックの分布

•全ツイートでアトム＝トピックは共有される！

22

H

𝐺0

𝐺𝑡: (𝐺(0,1))𝐺𝑖: (𝐺(1,0))

𝐺𝑖𝑡: (𝐺(1,1))

Discussed specially at T Specific to user i

Discussed specially at T

𝐺0:Generally topics

Tweet 𝑣への変数

• 𝑣𝑖𝑡へ𝑥𝑣, 𝑦𝑣 , 𝑧𝑣を付与• 𝑥𝑣, 𝑦𝑣によりTweetを4分類• 𝑧𝑣はツイートが表すトピック

• 𝑥𝑣, 𝑦𝑣はユーザiの趣向𝜋𝑥𝑖 , 𝜋𝑦

𝑖によって決定• ユーザーiはpersonal、time-specificなのをつぶやきやすいのか？

• ベータ分布によって趣向は決定

23

モデルをまとめると

24


25


26


27


28


29


30


31


32


33

Topicの決定

𝐸(𝑧)(・)

: x, yタイプTweet中のtopicがzのワード数

𝐸(𝑧)(𝑤)

: topic z中のwの数

𝑁𝑣: Tweet 𝑣中のワード数𝑁𝑣𝑤: Tweet 𝑣中のwの数

34

Gibbs Sampling

35

•パラメータの値を観測データから得られた事後分布から推定• 例：正規分布に従う100個の乱数を観測して、母集団の平均と分散を推定

• サンプルの初めは正確でないため、サンプル捨てる• =burn-in

Gibbs Sampling

36

DPMへギブスサンプリング

hyperparameterをギブスサンプリング

burn in は200回

37

5.Timeline Generation

•以下の３つに注意して個人のTLを構築

• まずトピックを統合させる（トピックが多すぎて計算煩雑）

• 有名人のPublicTSを関連付け（オバマに選挙）

• 各トピックで最もPIEなTweetを抜き出し

39

トピックを統合

• トピックが多すぎて計算が煩雑

• ユーザーiの近しいトピックを統合

•以下の値が下がらなくなるまで統合を繰り返す

•内部エントロピー、クラスタ間の分散

40

トピックを統合

値が下がらなくなるまで統合を繰り返す

• 𝑃𝑖:ユーザーiのトピック群、𝐶𝑃𝑖トピックの中心

•内部エントロピー、クラスタ間の分散

41

有名人へPublicTSの関連付け

• Lj:PublicTSなトピックでも以下の３つを満たすなら有名人iに関連している(=PIE)とできる

• Ljの全Tweet中に10%以上、iの名前orTweetID出現

• GiとLjのカイ二乗値ーP値が0.5以上

• クラスタリングバランス値が低下

43

各トピックからTweet選択

• PIEなトピックLの中でベストなTweetを抽出

•抽出したら個人のTLへ

44

使用したTweetDataSet

• 500,000人のユーザーの400,000,000Tweet• Jun 7 th,2011~Mar 4th 2013 (637days=7＊9１week)• Split into 91 time periods(week)

• DPMモデルの構築には一般人と有名人の両方のTweetが必要• フォロワー500~2,000→一般人• フォロワー1,000,000~→有名人

• それぞれ20人を用意

• TweetからStop-wordsを取り除く（a,the・・・）

45

Gold-Standard Dataset Creation

• Gold-Standard Dataset を構築• 手法を評価するための人為的PIE-TL

• 20 ordinary users(TwitSet-O)

• 20 celebrities (TwitSet-C)

46

TwitSet-O

•自分以上に自分を知る人間は存在しない• ユーザー本人が評価を行う

• 他人の評価は一切用いず

•自分のPIEを表現するTweetを抽出• そのTweetにはPIEの名前でラベリング

• 例：ハーバード合格Event

• 複数のTweetが同一ラベリングされるケースも

47

TwitSet-C

• 2人がPIEの抽出を行う• 一致率を評価（カッパ係数で評価）

• Amazon Mechanical Turkに委託• 悪い結果（カッパ係数0.653）• もっと高くならない？

• oDeskに委託• 専門分野の人間に判定を依頼

• 例：バスケに詳しい人にバスケ選手のTweetを

• 十分な結果（カッパ係数0.901）

48

TwitSet-C結果例

49

TwitSet-C結果例

50

TwitSet-C結果例

51

本手法の評価

•他の手法と比較• Multi-level LDA

• Person-DP

• Public-DP

• Gold-Standard Dataset(GSD) との一致率で比較• GSDにあるPIEに関するツイートを含んでいる割合

52

Multi-Level LDA

•本手法との違いはTopicの抽出方法

• LDAとは？

53

LDAについて

Latent Dirichlet Allocation(LDA)を用いたニュース記事の分類54

LDAについて

55

LDAについて

56

LDAについて

57

LDAについて

58

Person-DP,Public-DP

• DPMとほとんど同じ

• Person-DP:background topics 𝐺0使わず→𝐺𝑖使用

• Public-DP:TSを考慮しない

• Person,Public周りの人間,時間考慮しない

61

3手法の比較

•各個人のGold-Standard Dataset(GSD) とのPIEの一致率を3項目で比較

• Recall : 手法で触れたPIE数/全PIE数• 網羅率

• Presion: nonPIEを含んでないか PIE/(PIE+nonPIE)• ゴミが少ないか

• F1:手法をトータルで評価

62

3手法比較結果

•時間や他人を考慮してないPerson,Public-DPはゴミが多い

• F1が一番高い→本手法の優位性

63

本手法による結果例

PIEを抽出できた64


65


66

本手法の問題点

• DallasCowboys:ジェームスが興味持ってるfootball team• 短い期間に関するツイートをたくさんした

• PIEと勘違いされた

67

まとめ

• personal-important-event (PIE)の抽出に成功• DPMを用いた

• PIEから個人史を構築

•抽出手法は他の手法より優位なことを示した

68

今後の課題

•有名人の方がスコアがよかった• 一般人はTweet情報が少ないから？

• 一般人のスコアをもう少しあげたい

•隠れたPIEの存在• 誰も触れなかったTweetがPIEを表していたら？

• Facebook,wilkipediaあたりと連携をとったらより正確？

69

感想

•内容は面白かった

•特に言語処理のあたりは自分の研究に応用できそう

• トピック分類についての指摘も学会であった

•一定期間に興味を持った事柄を抽出できたのもそれはそれで面白いと思った

•論文執筆の教科書的な論文も読んでみたい

70

tori lab meeting timeline generation: tracking individuals on twitter

Science