information-theoretic metric learning

18
Informa(onTheore(c Metric Learning Jason V. Davis, Brian Kulis, Prateek Jain, Suvrit Sra, Inderjit S. Dhillon (ICML 2007 best paper) suzukake weekend reading group #2 2013/04/20 紹介者 : matsuda 1 13/04/20 17:42

Upload: koji-matsuda

Post on 26-Dec-2014

5.403 views

Category:

Documents


1 download

DESCRIPTION

 

TRANSCRIPT

Page 1: Information-Theoretic Metric Learning

Informa(on-­‐Theore(c  Metric  Learning  Jason  V.  Davis,  Brian  Kulis,    

Prateek  Jain,  Suvrit  Sra,  Inderjit  S.  Dhillon  (ICML  2007  best  paper)

suzukake weekend  reading  group  #2  2013/04/20      紹介者  :  matsuda

1 13/04/20  17:42版

Page 2: Information-Theoretic Metric Learning

Metric  Learningとは何か

[1    0    0    1]

[2    0    0    1]

①同クラスの事例間は近いほうが良い  ②異クラスの事例間は遠いほうが良い

ユークリッド距離

分類しやすい(・∀・)

距離空間を歪める

マハラノビス距離

2

Page 3: Information-Theoretic Metric Learning

別の例(Large  Margin  Nearest  Neighbor)

hYp://www.cse.wustl.edu/~kilian/code/page21/page21.html より 3

Page 4: Information-Theoretic Metric Learning

問題設定

•  マハラノビス距離を学習する  – 特徴量同士の距離を表す行列を学習する  – カーネルでない事に注意(ただ,相互に関係はある(実は等価・・・))  

•  カーネル  :  「データ間」の距離  •  マハラノビス  :  「特徴量間」の距離  

•  何のために?  – 機械学習の前処理として組み込む  

•  典型的な例  :  k-­‐NN  –  semi-­‐supervised  clustering  – 特徴選択の一般化とも言えそう  

•  重み付け +  特徴量空間での回転

4

Prasanta  Chandra  Mahalanobis  1893~1972

Page 5: Information-Theoretic Metric Learning

本論文のContribu(on •  Metric  Learning  を  LogDet  Divergence  の最適化問題として定式化  –  Bregman  Projec(onという手法に基づく効率的なアルゴリズムを導出  

– 高速 (  O(d2)  d:次元数  ),おおむね高精度  •  カーネル学習との接続  – 実際には等価な問題であることを示す  

•  拡張  (時間の都合上,ちょっと触れるだけ)  – カーネル化  – オンライン化  

•  Regret  Boundも示している

5

Page 6: Information-Theoretic Metric Learning

マハラノビス距離とは

x    :  データ点を表すベクトル  A  :  マハラノビス距離行列(正定値行列)  Aが単位行列であれば,ユークリッド距離と一致  

1  0  0  1

2  0  0  1

2  1  1  1

6

Page 7: Information-Theoretic Metric Learning

制約の表現

S    :  近いと分かっているデータ点ペアの集合  D  :  遠いと分かっているデータ点ペアの集合

これらの条件を満たすようなマハラノビス距離行列  A  を学習する

7

Page 8: Information-Theoretic Metric Learning

ユークリッド距離による正則化

•  Metric  Learningにおける過去の研究において  – ユークリッド距離は多くの場合,そこそこ上手くいく,ということが知られている  

– ユークリッド距離からあまりかけ離れたくはない  

•  そのため,単位行列(ユークリッド距離)で正則化をかけたい  

•  どうやって?  A-­‐1  を共分散行列として持つ正規分布間の  

KLダイバージェンスを考える

この論文の  メインアイディア

8

Page 9: Information-Theoretic Metric Learning

ユークリッド距離による正則化

p(x;  A)  :  A-­‐1を共分散行列として持つ正規分布(平均は考えない)

単位行列

すると,解くべき最適化問題は以下のようになる

9

Page 10: Information-Theoretic Metric Learning

LogDet  divergenceの導入

さきほどの最適化問題は以下のように書ける

制約を満たす解が無い場合もある    => スラック変数  ξ  を導入    :  式  (4.5)  

n  :  行列のサイズ

平均が等しい多変量正規分布間のKLダイバージェンス :  LogDet  Divergence

xTAx  =  tr(AxxT)  で書き換えてるだけ

10

Page 11: Information-Theoretic Metric Learning

Bregman  Projec(onに基づく学習

•  [Kulis+,  ICML’06]によりカーネル学習で用いられた手法  

•  Algorithm  1はスラック変数を考慮しているため複雑に見えるが,以下を繰り返しているだけ  

1. 制約を一個ピックアップする  2. 制約を満たすように距離行列を修正する  

計算量:    それぞれの射影に  O(d2),  c個の制約を一巡するのにはO(cd2)    関連研究で必要とされていた半正定値計画,  固有値分解等をとかなくて良い    収束保証はなされていないが,実験的には高速(後述) 11

制約の「方向」 更新幅

Page 12: Information-Theoretic Metric Learning

Bregman  Projec(on(イメージ) 制約1  

d(xi,xj)  =  u

制約2  d(xi,xj)  =  l

β  :制約を満たす最小の更新幅(閉じた形で求まる)

射影を繰り返すことで,すべての制約を満たすAに収束する※

12 この図は清水さんのスライド hYp://www.r.dl.itc.u-­‐tokyo.ac.jp/study_ml/pukiwiki/index.php?schedule%2F2008-­‐07-­‐24  にインスパイアされています

制約1を満たす空間

制約2を満たす空間

※制約が三つ以上ある場合は,すべての制約を満たす点は一般には存在しない(スラック変数の出番)

ココでmin  Dld(At,At+1)を担保

Page 13: Information-Theoretic Metric Learning

カーネル学習との関連

X=  

x1

x2

x3

x4

d次元

距離行列A

吂ー吤呂行列K

と書けば,見る方向が違うだけで問題は等価

Metric  Learning Kernel  Learning

(Theorem  1:初等的に証明できる)

両者は等価な計算であるゆえ:  高次元少事例(or低次元多事例)  の場合は O(min{n,d}2)  で計算可能  [Jain+  JMLR  2012]  

咾事例  

13

Page 14: Information-Theoretic Metric Learning

拡張(カーネル化/オンライン化)

•  カーネル化 (Φ(・)  :  (高次元への)写像関数)  

•  オンライン化  –  Algorithm  2 ( Regret  Boundも示されている  )  – 詳細は割愛  

線形カーネル  (K  =  I) 学習された(距離行列のもとでの)カーネル

新たなデータ点に対するカーネルは以下の式で計算できる  (σ:  A  –  I  の要素)

14

とおけば,Algorithm1がそのまま使える

Page 15: Information-Theoretic Metric Learning

実験結果(k-­‐NN)

UCI  Dataset Cralify  Dataset

(baseline) (baseline)

ソフトウェアの自動サポートのための  データセット  Informa(on  Gainで20次元に次元削減

分類アルゴリズム:4-­‐NN  制約:    

 20  c2  ペア  (  c  :  クラス数  )    をランダムに選択×5  trial

15

Page 16: Information-Theoretic Metric Learning

実験(速度,  クラスタリング)

HMRF-­‐Kmeans  :  [Basu+  KDD’04]    Must-­‐link,  Cannnot-­‐link制約を隠れ状態として持つクラスタリング 16

Page 17: Information-Theoretic Metric Learning

まとめ /  感想 /  私見 •  Metric  Learningを,LogDetダイバージェンスの最適化として定式化  

–  カーネル学習と等価であることを示した,拡張:カーネル化,オンライン化  

•  盛りだくさんの内容!  –  カーネル学習と距離学習という,漠然と関係ありそうなものを明確に接続していて爽快  –  要素技術はカーネル学習[Kulis+  ICML’06]で使われているものの踏襲のようだ  

•  私見(間違っている可能性高し!)  –  線形分離できない問題ができるようになるの?   

•  → 単なる線形変換なのでならない. 適切にスケーリングされてない状況でerror  rate下げる効果はあるかも  

–  前処理せずSVMにかけるのとどっちがいいの?   •  → 多くのケースでだいたい同じくらいらしい(k-­‐NNが異様に効くような状況除く)  [要出典]  

–  マハラノビス距離行列A  の 非対角要素(回転)にはどんな意味があるの?   •  → どうなんでしょう・・・ カーネル行列Kの非対角要素には明らかに意味があるので,考えればわかるかも  

–  そもそも今さらkNNって・・・   •  → 意外と強いっすよ.メモリに載れば+近傍探索が速ければ  

–  どういう時に使う?   •  → 教師データが部分的にしか無い,学習されたMetricそのものを他の用途に使いたい状況など  

–  そもそもそもそも,線形変換が意味を持つ状況が思いつかない・・・  •  → 分類器が非線形な場合(k-­‐NNなど)は意味があるはず. 分類器が線形な場合は・・・誰か教えてください.  17

Page 18: Information-Theoretic Metric Learning

Further  Reading •  “Metric  and  Kernel  Learning  Using  a  Linear  Transforma(on”  [Jain+,    

JMLR’12]  –  本研究を含んだジャーナル,あんまり読んでない  

•  “Distance  Metric  Learning:  A  Comprehensive  Survey”  [Yang,  2006]  –  サーベイ論文.ちょっと古いけど,基本的な考え方は分かりそう  

•  “Learning  Low-­‐Rank  Kernel  Matrices”[Kulis+,  ICML’06]  –  同チームによるカーネル学習の論文,基本的なアイディアは同じ  –  IBM井出さんによる分かりやすい解説スライドあり  

•  日本語で読めるもの  –  清水さんのスライド  –  イントロ的なところは首都大小町先生による解説もあり  –  “計量学習を用いた画像検索エンジンとアニメ顔類似検索v3について”  

•  かっこいい!  •  自然言語処理への応用例  

–  類義語獲得  [Shimizu+,  Coling’08]  –  Sen(ment  Analysis  における Domain  Adapta(on  [Dhillton+,  Coling’12]  –  語義曖昧性解消  [Sasaki  and  Shinnou,  SEMAPRO’12][佐々木,新納,  NLP’11]

18