dlhacks paperreading_20150902

31
論文輪読 Learning Sentiment-Specific Word Embedding for Twitter Sentiment Classification 学際情報学府 総合分析情報学コース M2 河野

Upload: makoto-kawano

Post on 24-Jan-2018

881 views

Category:

Education


2 download

TRANSCRIPT

Page 1: DLhacks paperreading_20150902

論文輪読 Learning Sentiment-Specific Word Embedding

for Twitter Sentiment Classification

学際情報学府 総合分析情報学コース M2 河野 慎

Page 2: DLhacks paperreading_20150902

論文についてタイトル

• Learning Sentiment-Specific Word Embedding for Twitter Sentiment Classification

著者

• Duyu Tang, Furu Wei, Nan Yang, Ming Zhou, Ting Liu, BingQin

• Research Center for Social Computing and Information Retrieval Harbin Institute of Technology, China

• Microsoft Research, Beijing, China • University of Science and Technology of China, Hefei, China

引用件数

• 43件

学会

• ACL 2014

2

Page 3: DLhacks paperreading_20150902

背景Sentiment classification • 文章がポジティブ/ネガティブな表現か分類する

- SemEvalタスク

• feature engineering - 研究者によって素性が設計される - 重要であるがものすごく大変

• word embedding - データから説明要因を抜き出す

3

Page 4: DLhacks paperreading_20150902

問題意識既存のword embeddingはsentiment analysisにおいて十分といえるか? • 文法的に近くても,意味的に遠いもの ※品詞のタグ付けでは有効

4

he formed the good habit of … he formed the bad habit of …

同じ文脈

Page 5: DLhacks paperreading_20150902

先行研究1Twitter sentiment classification • 辞書ベース

- 否定や強調に注目して評価極性を計算する

• 既存の文書カテゴリ分類問題の1つとして扱う - distant supervision(後述)

- スムージングした言語モデル

- emotional signalsを教師なし学習に組み込む

• いずれもfeature engineeringが重要5

Page 6: DLhacks paperreading_20150902

先行研究2Learning continuous representations for sentiment classification • bag-of-words representation

- 各ベクトル:one-hot-vector

• 単語の複雑な言語的特徴を捉えきれない

Deep Learningの登場

• 連続表現によって様々なNLPタスクで発揮 - LSAで初期化→linear weighted of ngram vectorsで表現

- 単語を行列で表現→行列乗算で単語を結びつける

- SdA:ドメイン適応

- RecursiveNN,Recursive Neural Tensor Network,Combinatory Categorial AEによって任意の長さのフレーズ,文章に対応

• 各手法もタスクに強く依存している6

Page 7: DLhacks paperreading_20150902

目的と提案手法単語の評価極性を表現できるアルゴリズムの提案

• goodとbadがスペクトラム両端に位置するような表現

Sentiment Specific Word Embedding(SSWE) • 既存のC&Wモデルを拡張 • 3種類のニューラルネットワークを提案

- 損失関数に文の評価極性(教師)を組み込む

7

Page 8: DLhacks paperreading_20150902

C&Wモデル

2層ニューラルネットワーク

8

入力層

隠れ層

出力層

Page 9: DLhacks paperreading_20150902

C&Wモデル

Word embedding

9

Page 10: DLhacks paperreading_20150902

C&Wモデル

10

Page 11: DLhacks paperreading_20150902

C&Wモデル

11

Page 12: DLhacks paperreading_20150902

C&Wモデル

12

畳み込み層

max pool層

Page 13: DLhacks paperreading_20150902

C&Wモデル

13

最終的にスカラー値 f cw(t)を算出

Page 14: DLhacks paperreading_20150902

最終的にスカラー値 f cw(t)を算出

C&Wモデル

14

損失関数

HardTanh

Linear

Page 15: DLhacks paperreading_20150902

最終的にスカラー値 f cw(t)を算出

C&Wモデル

15

損失関数

HardTanh

Linear

真ん中の単語をwrに置き換えたngram

Page 16: DLhacks paperreading_20150902

損失関数

HardTanh

Linear

Back Propagationで学習させる

C&Wモデル

16

Page 17: DLhacks paperreading_20150902

提案手法1 SSWEh

C&Wモデルを教師あり学習にする

• ツイートの評価極性を予測する - softmax層を追加

• 損失関数 - クロスエントロピーを使用

17

Page 18: DLhacks paperreading_20150902

提案手法2 SSWEr

制約条件を少し緩める • 評価極性スコアの大小で決める • 損失関数

18

Page 19: DLhacks paperreading_20150902

提案手法3 SSWEu

単語の文法的なコンテクストとツイートの評価極性の利用 • 両方の損失を考慮する

19

Page 20: DLhacks paperreading_20150902

モデルの学習pos/negの顔文字を含むツイートで学習

• 2013年4月,約1000万ツイート(pos500万/neg500万)

Back-propagation+AdaGrad • Embedding length = 50 -> Lookup Table ∈ R50×単語数

• Window size = 3 -> おそらくinput windowの大きさ

• Learning rate = 0.120

Page 21: DLhacks paperreading_20150902

Twitter Sentiment Classification

21

Page 22: DLhacks paperreading_20150902

実験1ツイートの評価極性分類タスク • データ

- Twitter Sentiment Classification Track in Semantic Evaluation 2013(message-level)

• 評価指標 - Macro-F1 - ベースライン手法との精度比較

22

Page 23: DLhacks paperreading_20150902

Distant Supurvision少量の教師ありデータから教師ありデータを生成する • 半教師あり学習のひとつとか • 教師ありデータを直接使うのではなく,教師なしデータから教師ありデータを生成 - Freebaseデータベースから二つの単語と関係性を抜き出す

- wikipediaの文章で2つの単語が含まれている文章を探索

- 文章から特徴量を抽出し,その特徴量と関係性を関連付ける

23

Page 24: DLhacks paperreading_20150902

実験1分類アルゴリズム比較

24

Embedding比較

Page 25: DLhacks paperreading_20150902

実験1分類アルゴリズム比較

25

Embedding比較

アルゴリズムの比較といってるけど,基本SVMでは?

Page 26: DLhacks paperreading_20150902

実験2提案手法SSWEuの有効性検証

• αの値による精度変化 • 学習データの量による精度変化

26

Page 27: DLhacks paperreading_20150902

実験3単語の類似度評価 • 評価極性辞書と比較をして評価する

• Lookup Tableに含まれる単語と距離が近いTopN個の単語の評価極性を検証

• 評価指標

27

Page 28: DLhacks paperreading_20150902

実験3

28

Page 29: DLhacks paperreading_20150902

まとめTwitterの評価極性表現手法の提案

ニューラルネットワークを拡張したSSWEの提案

Twitterの評価極性分類タスクで良いパフォーマンスを発揮

学習結果は公開

• http://ir.hit.edu.cn/~dytang/paper/sswe/embedding-results.zip

29

Page 30: DLhacks paperreading_20150902

感想読めば読むほどわからなくなる論文

万能みたいな感じになってるword2vecよりも場合によってはいい方法がある

convolutional layerの使い方はかなり応用できそう

30

Page 31: DLhacks paperreading_20150902

参考文献第一著者HP+発表スライド

• http://ir.hit.edu.cn/~dytang/ • http://ir.hit.edu.cn/~dytang/paper/sswe/acl-slides.pdf

distsuper • http://d.hatena.ne.jp/a_bicky/20150309/1425856724 • http://web.stanford.edu/~jurafsky/mintz.pdf

NRC • http://saifmohammad.com/WebDocs/sentimentMKZ.pdf

convolutional layer(C&Wモデル)

• http://arxiv.org/abs/1103.0398 (こっちのほうが最新でわかりやすい)

• http://www.australianscience.com.au/research/google/35671.pdf • http://www.slideshare.net/yutakikuchi927/deep-learning-26647407

31