20170618論文読み会 伊藤
TRANSCRIPT
![Page 1: 20170618論文読み会 伊藤](https://reader030.vdocuments.net/reader030/viewer/2022021422/5a6650437f8b9a44398b4887/html5/thumbnails/1.jpg)
論文紹介Learning Important Features
Through Propagating Activation Differences
東京大学工学系研究科
システム創成学専攻和泉研究室
D1 伊藤友貴
![Page 2: 20170618論文読み会 伊藤](https://reader030.vdocuments.net/reader030/viewer/2022021422/5a6650437f8b9a44398b4887/html5/thumbnails/2.jpg)
自己紹介
• 東京大学工学系研究科和泉研究室所属
–金融に関するデータマイニング
–人工市場によるシミュレーション
• 普段はロイターニュースとかヤフーファイナンス掲示板とか触って遊んでます
• 今日紹介する論文、ちょいちょい正確に理解できていないです…お手柔らかにお願い致します
![Page 3: 20170618論文読み会 伊藤](https://reader030.vdocuments.net/reader030/viewer/2022021422/5a6650437f8b9a44398b4887/html5/thumbnails/3.jpg)
概要
• 紹介する論文
– Learning Important Features Through Propagating Activation Differences
(A. Shrikumar et. Al, ICML, 2017)
• 概要
– Neural Network から重要な要素は何かを抽出する方法のアプローチ(Deep Lift 法)を提案
–既存手法より色々良さそう
![Page 4: 20170618論文読み会 伊藤](https://reader030.vdocuments.net/reader030/viewer/2022021422/5a6650437f8b9a44398b4887/html5/thumbnails/4.jpg)
既存手法
• Perturbation approach
• Back propagation approach
– Gradients
• (Springenberg et. al. 2014) など
– Gradients × Input
• (Shrikumar et. al. 2016) など
![Page 5: 20170618論文読み会 伊藤](https://reader030.vdocuments.net/reader030/viewer/2022021422/5a6650437f8b9a44398b4887/html5/thumbnails/5.jpg)
問題点1
• 勾配0になると問題が起こる
Fig. 1
![Page 6: 20170618論文読み会 伊藤](https://reader030.vdocuments.net/reader030/viewer/2022021422/5a6650437f8b9a44398b4887/html5/thumbnails/6.jpg)
問題点2 (ジャンプ)
• ジャンプする(不連続)
Fig. 2
![Page 7: 20170618論文読み会 伊藤](https://reader030.vdocuments.net/reader030/viewer/2022021422/5a6650437f8b9a44398b4887/html5/thumbnails/7.jpg)
Deep Lift
• 勾配の問題やジャンプの問題を解決する方法を提案 (Deep Lift )
–個人的にはどうしてこの発想になったのかわかっていないので多分ちゃんと理解できていない
![Page 8: 20170618論文読み会 伊藤](https://reader030.vdocuments.net/reader030/viewer/2022021422/5a6650437f8b9a44398b4887/html5/thumbnails/8.jpg)
Deep Lift Philosophyある層の値:
出力:
reference activation:
difference-from-reference:
← 基準値みたいなもの(後で定義)
Contribution Scores:
• 各入力値 (xi) の出力値(t) への影響度(後で定義)
• これをどう計算するかが肝
← 基準値からどれくらい外れるか
![Page 9: 20170618論文読み会 伊藤](https://reader030.vdocuments.net/reader030/viewer/2022021422/5a6650437f8b9a44398b4887/html5/thumbnails/9.jpg)
Multipliers and the Chain RuleMultipliers を以下のように定義
CHAIN RULE で を計算 (式(3))
![Page 10: 20170618論文読み会 伊藤](https://reader030.vdocuments.net/reader030/viewer/2022021422/5a6650437f8b9a44398b4887/html5/thumbnails/10.jpg)
Defining the reference
i1
i2
入力:
出力:
Reference activation:
より以下のように Reference activation を計算
![Page 11: 20170618論文読み会 伊藤](https://reader030.vdocuments.net/reader030/viewer/2022021422/5a6650437f8b9a44398b4887/html5/thumbnails/11.jpg)
Separating positive and negative
• ポジティブ項とネガティブ項を別々に考える
Linear Rule, Rescale Rule, or Reveal cancel Rule により計算(後で定義)
![Page 12: 20170618論文読み会 伊藤](https://reader030.vdocuments.net/reader030/viewer/2022021422/5a6650437f8b9a44398b4887/html5/thumbnails/12.jpg)
Contribution Scoresの計算
• 線形な変換→ Linear Ruleで計算
–例: 結合層・たたみ込み層
• 非線形な変換
→ Rescale Rule or Reveal cancel Rule で計算
–例: tanh, ReLU
![Page 13: 20170618論文読み会 伊藤](https://reader030.vdocuments.net/reader030/viewer/2022021422/5a6650437f8b9a44398b4887/html5/thumbnails/13.jpg)
The Linear Rule• 線形な部分 (結合・畳み込み)では以下のようにContribution Scoresを計算
に対して
![Page 14: 20170618論文読み会 伊藤](https://reader030.vdocuments.net/reader030/viewer/2022021422/5a6650437f8b9a44398b4887/html5/thumbnails/14.jpg)
The Linear Rule
このとき, 以下が成立
![Page 15: 20170618論文読み会 伊藤](https://reader030.vdocuments.net/reader030/viewer/2022021422/5a6650437f8b9a44398b4887/html5/thumbnails/15.jpg)
THE RESCALE RULE
• 非線形部分(ReLU, tanhなど)では以下のように Contribution Scoresを計算
• このとき以下が成立
![Page 16: 20170618論文読み会 伊藤](https://reader030.vdocuments.net/reader030/viewer/2022021422/5a6650437f8b9a44398b4887/html5/thumbnails/16.jpg)
具体例: Rescale Rule
i10 = i2
0 = 0, i1 + i2 > 1 の場合 Rescale Rule だと
![Page 17: 20170618論文読み会 伊藤](https://reader030.vdocuments.net/reader030/viewer/2022021422/5a6650437f8b9a44398b4887/html5/thumbnails/17.jpg)
具体例: Rescale Rule2
x0 = y0 = 0, x = 10 + εの場合 Rescale Rule だと
不自然なジャンプ
連続
![Page 18: 20170618論文読み会 伊藤](https://reader030.vdocuments.net/reader030/viewer/2022021422/5a6650437f8b9a44398b4887/html5/thumbnails/18.jpg)
The Reveal Cancel Rule
![Page 19: 20170618論文読み会 伊藤](https://reader030.vdocuments.net/reader030/viewer/2022021422/5a6650437f8b9a44398b4887/html5/thumbnails/19.jpg)
具体例3
Fig. 3
これについて i1 > i2 , i10 = i2
0 = 0 という条件で
と を計算
Rescale Rule を使う場合:
Reveal Cancel Ruleを使う場合:
![Page 20: 20170618論文読み会 伊藤](https://reader030.vdocuments.net/reader030/viewer/2022021422/5a6650437f8b9a44398b4887/html5/thumbnails/20.jpg)
その他の工夫
• 最終層の活性化後の値に対する入力値のContribution Score ではなく活性化前のContribution Score を計算
• 最終層が Softmaxのときは全体の平均を引いたスコアで考える
![Page 21: 20170618論文読み会 伊藤](https://reader030.vdocuments.net/reader030/viewer/2022021422/5a6650437f8b9a44398b4887/html5/thumbnails/21.jpg)
数値実験1
• MNIST
– Ex.数字を8 から 3 に変える
(一部消す)
– Contribution Scoreの変化
値が消した部分に対応
するかどうか検証
– (ちゃんと把握できてません)
![Page 22: 20170618論文読み会 伊藤](https://reader030.vdocuments.net/reader030/viewer/2022021422/5a6650437f8b9a44398b4887/html5/thumbnails/22.jpg)
数値実験2
• DNA 配列の分類に関する実験
• 意図通りに Contribution Scoreがつくかどうかを検証
• (すいません、ちゃんと把握できてません。)
![Page 23: 20170618論文読み会 伊藤](https://reader030.vdocuments.net/reader030/viewer/2022021422/5a6650437f8b9a44398b4887/html5/thumbnails/23.jpg)
比較手法
• 既存手法– Guided backprop * inp ()
– Gradient * input
– Integrated gradient -5
– Integrated gradient -10
• 提案手法 (Deep LIFT)– Deep LIFT Rescale
– Deep LIFT Reveal Cancel
– Deep LIFT fc-RC-conv-RS
![Page 24: 20170618論文読み会 伊藤](https://reader030.vdocuments.net/reader030/viewer/2022021422/5a6650437f8b9a44398b4887/html5/thumbnails/24.jpg)
結果(MNIST)
Deep Lift の方がよい
![Page 25: 20170618論文読み会 伊藤](https://reader030.vdocuments.net/reader030/viewer/2022021422/5a6650437f8b9a44398b4887/html5/thumbnails/25.jpg)
結果 (DNA)
• Deep Lift の方がよい結果• Reveal Cancel 入れた方がよい結果
![Page 26: 20170618論文読み会 伊藤](https://reader030.vdocuments.net/reader030/viewer/2022021422/5a6650437f8b9a44398b4887/html5/thumbnails/26.jpg)
結論
• Deep Lift という重要な要素は何かを抽出する方法のフレームワーク(Deep Lift 法)を提案
• 既存手法 (gradientや gradient * input で起こるような不自然なジャンプや勾配が0のときに起こる問題を解決)
• RNNへの適用方法, Maxout, MaxPoolingへのベストな適用方法などが課題