dlhacks paperreading_20150902
TRANSCRIPT
論文輪読 Learning Sentiment-Specific Word Embedding
for Twitter Sentiment Classification
学際情報学府 総合分析情報学コース M2 河野 慎
論文についてタイトル
• Learning Sentiment-Specific Word Embedding for Twitter Sentiment Classification
著者
• Duyu Tang, Furu Wei, Nan Yang, Ming Zhou, Ting Liu, BingQin
• Research Center for Social Computing and Information Retrieval Harbin Institute of Technology, China
• Microsoft Research, Beijing, China • University of Science and Technology of China, Hefei, China
引用件数
• 43件
学会
• ACL 2014
2
背景Sentiment classification • 文章がポジティブ/ネガティブな表現か分類する
- SemEvalタスク
• feature engineering - 研究者によって素性が設計される - 重要であるがものすごく大変
• word embedding - データから説明要因を抜き出す
3
問題意識既存のword embeddingはsentiment analysisにおいて十分といえるか? • 文法的に近くても,意味的に遠いもの ※品詞のタグ付けでは有効
4
he formed the good habit of … he formed the bad habit of …
同じ文脈
先行研究1Twitter sentiment classification • 辞書ベース
- 否定や強調に注目して評価極性を計算する
• 既存の文書カテゴリ分類問題の1つとして扱う - distant supervision(後述)
- スムージングした言語モデル
- emotional signalsを教師なし学習に組み込む
• いずれもfeature engineeringが重要5
先行研究2Learning continuous representations for sentiment classification • bag-of-words representation
- 各ベクトル:one-hot-vector
• 単語の複雑な言語的特徴を捉えきれない
Deep Learningの登場
• 連続表現によって様々なNLPタスクで発揮 - LSAで初期化→linear weighted of ngram vectorsで表現
- 単語を行列で表現→行列乗算で単語を結びつける
- SdA:ドメイン適応
- RecursiveNN,Recursive Neural Tensor Network,Combinatory Categorial AEによって任意の長さのフレーズ,文章に対応
• 各手法もタスクに強く依存している6
目的と提案手法単語の評価極性を表現できるアルゴリズムの提案
• goodとbadがスペクトラム両端に位置するような表現
Sentiment Specific Word Embedding(SSWE) • 既存のC&Wモデルを拡張 • 3種類のニューラルネットワークを提案
- 損失関数に文の評価極性(教師)を組み込む
7
C&Wモデル
2層ニューラルネットワーク
8
入力層
隠れ層
出力層
C&Wモデル
Word embedding
9
C&Wモデル
10
=
C&Wモデル
11
C&Wモデル
12
畳み込み層
max pool層
C&Wモデル
13
最終的にスカラー値 f cw(t)を算出
最終的にスカラー値 f cw(t)を算出
C&Wモデル
14
損失関数
HardTanh
Linear
最終的にスカラー値 f cw(t)を算出
C&Wモデル
15
損失関数
HardTanh
Linear
真ん中の単語をwrに置き換えたngram
損失関数
HardTanh
Linear
Back Propagationで学習させる
C&Wモデル
16
提案手法1 SSWEh
C&Wモデルを教師あり学習にする
• ツイートの評価極性を予測する - softmax層を追加
• 損失関数 - クロスエントロピーを使用
17
提案手法2 SSWEr
制約条件を少し緩める • 評価極性スコアの大小で決める • 損失関数
18
提案手法3 SSWEu
単語の文法的なコンテクストとツイートの評価極性の利用 • 両方の損失を考慮する
19
モデルの学習pos/negの顔文字を含むツイートで学習
• 2013年4月,約1000万ツイート(pos500万/neg500万)
Back-propagation+AdaGrad • Embedding length = 50 -> Lookup Table ∈ R50×単語数
• Window size = 3 -> おそらくinput windowの大きさ
• Learning rate = 0.120
Twitter Sentiment Classification
21
実験1ツイートの評価極性分類タスク • データ
- Twitter Sentiment Classification Track in Semantic Evaluation 2013(message-level)
• 評価指標 - Macro-F1 - ベースライン手法との精度比較
22
Distant Supurvision少量の教師ありデータから教師ありデータを生成する • 半教師あり学習のひとつとか • 教師ありデータを直接使うのではなく,教師なしデータから教師ありデータを生成 - Freebaseデータベースから二つの単語と関係性を抜き出す
- wikipediaの文章で2つの単語が含まれている文章を探索
- 文章から特徴量を抽出し,その特徴量と関係性を関連付ける
23
実験1分類アルゴリズム比較
24
Embedding比較
実験1分類アルゴリズム比較
25
Embedding比較
アルゴリズムの比較といってるけど,基本SVMでは?
実験2提案手法SSWEuの有効性検証
• αの値による精度変化 • 学習データの量による精度変化
26
実験3単語の類似度評価 • 評価極性辞書と比較をして評価する
• Lookup Tableに含まれる単語と距離が近いTopN個の単語の評価極性を検証
• 評価指標
27
実験3
28
まとめTwitterの評価極性表現手法の提案
ニューラルネットワークを拡張したSSWEの提案
Twitterの評価極性分類タスクで良いパフォーマンスを発揮
学習結果は公開
• http://ir.hit.edu.cn/~dytang/paper/sswe/embedding-results.zip
29
感想読めば読むほどわからなくなる論文
万能みたいな感じになってるword2vecよりも場合によってはいい方法がある
convolutional layerの使い方はかなり応用できそう
30
参考文献第一著者HP+発表スライド
• http://ir.hit.edu.cn/~dytang/ • http://ir.hit.edu.cn/~dytang/paper/sswe/acl-slides.pdf
distsuper • http://d.hatena.ne.jp/a_bicky/20150309/1425856724 • http://web.stanford.edu/~jurafsky/mintz.pdf
NRC • http://saifmohammad.com/WebDocs/sentimentMKZ.pdf
convolutional layer(C&Wモデル)
• http://arxiv.org/abs/1103.0398 (こっちのほうが最新でわかりやすい)
• http://www.australianscience.com.au/research/google/35671.pdf • http://www.slideshare.net/yutakikuchi927/deep-learning-26647407
31