nips勉強会_toward property-based classification of clustering paradigms

51
@tksakaki 剛史 #nipsreading

Upload: tksakaki

Post on 05-Dec-2014

1.755 views

Category:

Education


0 download

DESCRIPTION

 

TRANSCRIPT

Page 1: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

@tksakaki 榊 剛史

#nipsreading

Page 2: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

 東京大学 松尾研究室 博士課程1年

 株式会社 ホットリンク 特任研究員

  Twitter上で、よく教授と間違われます。 ◦ 海外でも間違えられてた・・・・

Page 3: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

 本論文の目的   Properties of Clustering Functions   A taxonomy of k-clustering fucntions   その他の拡張  結論

Page 4: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

 本論文の目的   Properties of Clustering Functions   A taxonomy of k-clustering fucntions   その他の拡張  結論

Page 5: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

Clustering:データマイニングにおいて、基本的な手法 ↓

・多数のClustering手法が存在+手法によって、結果が大きく異なる ・手法の選び方はAd-hocである

○Clustering手法を選択をサポートするためのツール開発のための第一ステップ ○既存Clustering手法のpropertyを定義し分類する

現状の問題点

本論文の目的

Page 6: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

Clusteringは経験的に提案されている手法が多いため、統一の基準で評価するのは有用っぽい

上記のような研究はあまり他で見たことがない

個人的に、clusteringへの興味が大きい

Page 7: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

  A Impossibility Theorem for Clustering ◦  Jon Kleinberg, NIPS 2002

  Measures of Clustering Quality: A Working Set of Axioms for Clustering ◦  M.Ackerman and S.Ben-David, NIPS 2008

  Characterization of Linkage-based Clustering. ◦  M.Ackerman and S.Ben-David, COLT 2010

Page 8: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

d : X × X →R+,d x,x( ) = 0 ∀x ∈ X( )X:有限領域  全てのデータ点集合

距離関数

データセット:

X,d( )

C = F X,d,k( )

C1,C2,Ck{ } Cii = X,1≤ k ≤ X⎛

⎝ ⎜

⎠ ⎟

clustering結果

clustering関数:

F X,d,k( )

Page 9: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

Input: Output:

Input: Output:

F X,d( )

C = C1,C2,Ck{ } Cii = X,1≤ k ≤ X⎛

⎝ ⎜

⎠ ⎟

F X,d,k( ), 1≤ k ≤ X( )

C = C1,C2,Ck{ } Cii = X,1≤ k ≤ X⎛

⎝ ⎜

⎠ ⎟

general clustering function F

k-clustering function F

Page 10: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

 本論文の目的   Properties of Clustering Functions   A taxonomy of k-clustering fucntions   その他の拡張  結論

Page 11: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

不 変 性

iso. invariance 同型写像

scale invariance スケーリングしても不変

order invariance 距離順序が一定なら不変 一 貫 性

outer consistency cluster間距離を伸ばしても不変 inner consistency cluster内距離を縮めても不変

richn

ess

k-rich 距離関数を決めれば、k個の任意の分割可能 inner rich データセット内距離を決めれば、(同上)

outer rich データセット間距離を決めれば、(同上)

threshold rich 距離関数の閾値を決めれば、(同上)

locality clustering集合内要素のみに依存 refinement-confined kが多い方が、clustering結果が良い

Page 12: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

入力が同型写像の時、出力されるclusteringも同型

φ : X → ʹ′ X x,y ∈ X,d x,y( ) = ʹ′ d φ(x),φ(y)( )F X,d,k( ),F ʹ′ X , ʹ′ d ,k( ) : isomorphic(∀k)

x,y : same→φ(x),φ(y) : same

Page 13: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

均等なスケーリングを行ったとき、clusteringが不変

Page 14: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

均等なスケーリングを行ったとき、clusteringが不変

x,y ∈ X,d x,y( ) = c ʹ′ d x,y( )→F X,d,k( ) = F ʹ′ X , ʹ′ d ,k( )

Page 15: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

2点間距離の順序が不変の時、clusteringが不変

x1,x2,x3,x4 ∈ X,

d x1,x2( ) < d x3,x4( ), ʹ′ d x1,x2( ) < ʹ′ d x3,x4( )→F X,d,k( ) = F ʹ′ X , ʹ′ d ,k( )

Page 16: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

2点間距離の順序が不変の時、clusteringが不変

0 1 4 9 10 12 15 19 20

最短距離法(Single-linkage clustering)

Page 17: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

clusteringが、そのcluster集合に含まれる要素のみに依存 他のclusterの要素には依存しない

C’

Page 18: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

clusteringが、そのcluster集合に含まれる要素のみに依存 他のclusterの要素には依存しない

C = F(X,d,k),

ʹ′ C ⊆ CF( ʹ′ C ,d,| ʹ′ C |)= ʹ′ C

Page 19: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

cluster内距離を縮めた時、 またはcluster間距離を伸ばしたとき、clusteringは不変 同一cluster内が密で、複数cluster間が疎であることを表す

d(x,y)

d(x,y) d’(x,y)

d’(x,y)

Page 20: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

cluster内距離を縮めた時、 またはcluster間距離を伸ばしたとき、clusteringは不変 同一cluster内が密で、複数cluster間が疎であることを表す

ʹ′ d : C,d( ) − consistent

x,y : same → ʹ′ d x,y( ) ≤ d x,y( )x,y : different → ʹ′ d x,y( ) ≥ d x,y( )

Page 21: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

cluster間距離を伸ばしたとき、clusteringは不変 複数cluster間が疎であることを表す

d(x,y)

d’(x,y)

Page 22: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

cluster間距離を伸ばしたとき、clusteringは不変 複数cluster間が疎であることを表す

ʹ′ d : C,d( ) − outerconsistent

x,y : same → ʹ′ d x,y( ) = d x,y( )x,y : different → ʹ′ d x,y( ) ≥ d x,y( )

Page 23: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

cluster内距離を縮めたとき、clusteringは不変 同一cluster内が密であることを表す

d(x,y)

d’(x,y)

Page 24: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

cluster内距離を縮めたとき、clusteringは不変 同一cluster内が密であることを表す

ʹ′ d : C,d( ) − innterconsistent

x,y : same → ʹ′ d x,y( ) ≤ d x,y( )x,y : different → ʹ′ d x,y( ) = d x,y( )

Page 25: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

距離関数を適切に定義することで任意のclustering可能

any : X1,X2Xk

ʹ′ X = X1,X2Xk{ }→∃d :F ʹ′ X ,d,k( ) = X1,X2Xk{ }

Page 26: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

以下により任意のclustering可能 データセット間の距離:定義する データセット内の距離:定義不要

※各データセット間が十分疎で、データセット間の距離はclusteringに影響しない

any : (X1,d1),(X2,d2)(Xk,dk )

→∃ ˆ d : F Xii=1

k

, ˆ d ,k⎛

⎝ ⎜

⎠ ⎟ = X1,X2Xk{ }

ˆ d : entends − di(i ≤ k)

Page 27: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

以下により任意のclustering可能 データセット間の距離:定義不要 データセット内の距離:定義する

※各データセット内が十分密で、データセット間の距離はclusteringに影響しない

X,d( ),X = X1,X2Xk{ }→∃ ˆ d : d a,b( ) = ˆ d a,b( ) a∈ Xi,b∈ X j ,i ≠ j( )

F Xii=1

k

, ˆ d ,k⎛

⎝ ⎜

⎠ ⎟ = X1,X2Xk{ }

Page 28: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

距離関数に閾値を設定することで任意のclustering可能

∃a < bx,y : same→d(x,y) ≤ a,x,y : different →d(x,y) ≥ b

F X,d,C( ) = C

Page 29: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

k≦k’のとき、F(X,d,k’)はF(X,d,k)の改良 クラスタ数が多い状態は少ない状態のrefinementである

1≤ k ≤ ʹ′ k ≤ X ,

O F X,d,k'( )( ) ≥O F X,d,k( )( )

Page 30: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

k≦k’のとき、F(X,d,k’)はF(X,d,k)の改良 クラスタ数が多い状態は少ない状態のrefinementである

Page 31: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

不 変 性

iso. invariance 同型写像

scale invariance スケーリングしても不変

order invariance 距離順序が一定なら不変 一 貫 性

outer consistency cluster間距離を伸ばしても不変 inner consistency cluster内距離を縮めても不変

richn

ess

k-rich 距離関数を決めれば、k個の任意の分割可能 inner rich データセット内距離を決めれば、(同上)

outer rich データセット間距離を決めれば、(同上)

threshold rich 距離関数の閾値を決めれば、(同上)

locality clustering集合内要素のみに依存 refinement-confined kが多い方が、clustering結果が良い

Page 32: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

  Clusteringの不可能性理論(Kleinberg) 以下の3つの公理を同時に満たす

clustering関数は存在しない (証明略)

・Scale-Invariance ・Richness ・Consistency

Page 33: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

  single linkage clusteringでは、各公理2つずつの組み合わせにおいて、stop conditionが存在する(らしい)

  Consistency + Richness: only link if distance is less than r ◦  クラスタ間・クラスタ内の距離関数を変えてもclustering結果一定・距離関数を決めると任意のclusterに分割

  Consistency + SI: stop when you have k connected components ◦  クラスタ間・クラスタ内の距離関数を変えてもclustering結果一定/距離関数をスケーリングしてもclustering結果一定

  Richness + SI: if x is the diameter of the graph, only add edges with weight βx ◦  距離関数を決めると任意のclusterに分割/距離関数をスケーリングしてもclustering結果一定

Page 34: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

 本論文の目的   Properties of Clustering Functions   A taxonomy of k-clustering fucntions   その他の拡張  結論

Page 35: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

oute

r con

sist

ent

inne

r con

sist

ent

loca

l

refin

emen

t

orde

r inv

aria

nt

k-ric

h

out r

ich

inne

r ric

h

thre

shol

d ric

h

scal

e in

varia

nt

iso.

inva

riant

Singe Linkage ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

Average Linkage ○ × ○ ○ × ○ ○ ○ ○ ○ ○

Complete Linkage ○ × ○ ○ ○ ○ ○ ○ ○ ○ ○

k-median ○ × ○ × × ○ ○ ○ ○ ○ ○

k-means ○ × ○ × × ○ ○ ○ ○ ○ ○

Min sum ○ ○ ○ × × ○ ○ ○ ○ ○ ○

Ratio cut × ○ × × × ○ ○ ○ ○ ○ ○

Nomalize cut × × × × × ○ ○ ○ ○ ○ ○

Page 36: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

oute

r con

sist

ent

inne

r con

sist

ent

loca

l

refin

emen

t

orde

r inv

aria

nt

k-ric

h

out r

ich

inne

r ric

h

thre

shol

d ric

h

scal

e in

varia

nt

iso.

inva

riant

Singe Linkage ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

Average Linkage ○ × ○ ○ × ○ ○ ○ ○ ○ ○

Complete Linkage ○ × ○ ○ ○ ○ ○ ○ ○ ○ ○

k-median ○ × ○ × × ○ ○ ○ ○ ○ ○

k-means ○ × ○ × × ○ ○ ○ ○ ○ ○

Min sum ○ ○ ○ × × ○ ○ ○ ○ ○ ○

Ratio cut × ○ × × × ○ ○ ○ ○ ○ ○

Nomalize cut × × × × × ○ ○ ○ ○ ○ ○

Page 37: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

oute

r con

sist

ent

inne

r con

sist

ent

loca

l

refin

emen

t

orde

r inv

aria

nt

k-ric

h

out r

ich

inne

r ric

h

thre

shol

d ric

h

scal

e in

varia

nt

iso.

inva

riant

Singe Linkage ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

Average Linkage ○ × ○ ○ × ○ ○ ○ ○ ○ ○

Complete Linkage ○ × ○ ○ ○ ○ ○ ○ ○ ○ ○

k-median ○ × ○ × × ○ ○ ○ ○ ○ ○

k-means ○ × ○ × × ○ ○ ○ ○ ○ ○

Min sum ○ ○ ○ × × ○ ○ ○ ○ ○ ○

Ratio cut × ○ × × × ○ ○ ○ ○ ○ ○

Nomalize cut × × × × × ○ ○ ○ ○ ○ ○

Page 38: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

oute

r con

sist

ent

inne

r con

sist

ent

loca

l

refin

emen

t

orde

r inv

aria

nt

k-ric

h

out r

ich

inne

r ric

h

thre

shol

d ric

h

scal

e in

varia

nt

iso.

inva

riant

Singe Linkage ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

Average Linkage ○ × ○ ○ × ○ ○ ○ ○ ○ ○

Complete Linkage ○ × ○ ○ ○ ○ ○ ○ ○ ○ ○

k-median ○ × ○ × × ○ ○ ○ ○ ○ ○

k-means ○ × ○ × × ○ ○ ○ ○ ○ ○

Min sum ○ ○ ○ × × ○ ○ ○ ○ ○ ○

Ratio cut × ○ × × × ○ ○ ○ ○ ○ ○

Nomalize cut × × × × × ○ ○ ○ ○ ○ ○

Page 39: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

oute

r con

sist

ent

inne

r con

sist

ent

loca

l

refin

emen

t

orde

r inv

aria

nt

k-ric

h

out r

ich

inne

r ric

h

thre

shol

d ric

h

scal

e in

varia

nt

iso.

inva

riant

Singe Linkage ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

Average Linkage ○ × ○ ○ × ○ ○ ○ ○ ○ ○

Complete Linkage ○ × ○ ○ ○ ○ ○ ○ ○ ○ ○

k-median ○ × ○ × × ○ ○ ○ ○ ○ ○

k-means ○ × ○ × × ○ ○ ○ ○ ○ ○

Min sum ○ ○ ○ × × ○ ○ ○ ○ ○ ○

Ratio cut × ○ × × × ○ ○ ○ ○ ○ ○

Nomalize cut × × × × × ○ ○ ○ ○ ○ ○

以下の3つが、clustering指標としてふさわしいのではないか? scale invariance : natural isomorphism variance :natural threshold richness    :近いデータ点は同じグループ/遠いデータ点は違うグループ     =clusteringの主目的に合致する

Page 40: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

 本論文の目的   Properties of Clustering Functions   A taxonomy of k-clustering fucntions   その他の拡張  結論

Page 41: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

  Invariance properties   Consistency properties

  Richness properties

  Locality €

(C,d) − nicevar iant

P F X, ʹ′ d ,C( ) = C[ ] ≥ P F X,d,C( ) = C[ ]

∀ε > 0

∃d :P F X,d,k( ) = C( ) ≥1−ε

P F ʹ′ X ,d / ʹ′ X , ʹ′ C ( ) = ʹ′ C [ ]

=P ʹ′ C ⊆ C F X,d, j( ) = CandC / ʹ′ X isak − clustering[ ]

P ∃C1,C2Cks.t.Ci = ʹ′ X F X,d, j( ) = C[ ] ≠ 0

Page 42: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

 代表的なk-meansアルゴリズム

Page 43: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

 代表的なk-meansアルゴリズム

出力結果が初期段階に強く依存

Page 44: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

初期クラスター中心の選び方

ランダムに選択

最も離れた中心群を選択

maximizemin1≤ j≤i−1 d c j ,ci( )

Random Centroids Lloyd

Furthest Centroids Lloyd

どちらがより良い手法であるかを評価

Page 45: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

Clustering Algorithm

oute

r con

sist

ent

loca

l

thre

shol

d ric

h

scal

e in

varia

nt

iso.

inva

riant

k-ric

h

oute

r ric

h

Optimal k-means ○ ○ ○ ○ ○ ○ ○ Random Centroid Lloyd × × × ○ ○ ○ ○ Furthest Centroid Lloyd × × ○ ○ ○ ○ ○

Page 46: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

Clustering Algorithm

oute

r con

sist

ent

loca

l

thre

shol

d ric

h

scal

e in

varia

nt

iso.

inva

riant

k-ric

h

oute

r ric

h

Optimal k-means ○ ○ ○ ○ ○ ○ ○ Random Centroid Lloyd × × × ○ ○ ○ ○ Furthest Centroid Lloyd × × ○ ○ ○ ○ ○

threshold richnessを満たしているため、Furthest Centroid Lloydの方がRandom Centroid Lloydより優れている

Page 47: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

  Kleinbergの不可能性理論

以下の3つを同時に満たすclustering関数は存在しない

・Scale-Invariance ・Richness ・Consistency

Page 48: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

 本論文での不可能性理論

以下の3つを同時に満たすclustering関数は存在しない

・Scale-Invariance ・Richness

・Outer-Consistency

Page 49: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

 本論文の目的   Properties of Clustering Functions   A taxonomy of k-clustering fucntions   その他の拡張  結論

Page 50: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

Clustering Functionのpropertyについて 整理・詳細化を行った

clustering axiomsとして、scale-invariance, isomorphism-invariance, threshold richnessを提案した

Kleinbergの不可能性理論について詳細化を行った

Page 51: nips勉強会_Toward Property-Based Classification of Clustering Paradigms

  Supervised Clustering ◦  2008年に提案された教師つきclusteringの拡張 ◦ 教師=実際にユーザーがclustering結果を見て、merge/

splitのクエリをどんどん投げていく感じ

  Efficient Robust Feature Selection via Joint L2,1-Norms Minimization ◦  Bio Informaticsでの機械学習のFeature Selection ◦  L1,2-normのSVMで必要となるFeatureを選び、計算量を減らすのが目的