今日から使える! みんなのクラスタリング超入門
DESCRIPTION
第2回さくさくテキストマイニング勉強会で発表したk-meansに関する資料です。TRANSCRIPT
![Page 1: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/1.jpg)
今日から使える!みんなのクラスタリング超入門
2011/04/16toilet_lunch
12011年4月20日水曜日
![Page 2: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/2.jpg)
1. クラスタリングとは2. クラスタリングの種類3. k-means4. アルゴリズム5. 問題点6. まとめ
0. Agenda
22011年4月20日水曜日
![Page 3: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/3.jpg)
1. クラスタリングとは2. クラスタリングの種類3. k-means4. アルゴリズム5. 問題点6. まとめ
32011年4月20日水曜日
![Page 4: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/4.jpg)
1. クラスタリングとは
データ解析手法の1つ。教師なしデータ分類手法、つまり与えられたデータを
外的基準なしに自動的に分類する手法。
(wikipedia「データ・クラスタリング」より)
42011年4月20日水曜日
![Page 5: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/5.jpg)
データを…
52011年4月20日水曜日
![Page 6: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/6.jpg)
データを… 分ける!
62011年4月20日水曜日
![Page 7: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/7.jpg)
データを… 分ける!
クラス
72011年4月20日水曜日
![Page 8: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/8.jpg)
例:パーティー会場
82011年4月20日水曜日
![Page 9: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/9.jpg)
例:パーティー会場
リア充
非リア充
普通
92011年4月20日水曜日
![Page 10: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/10.jpg)
例:パーティー会場
リア充
非リア充
普通
特徴別に分けられる
102011年4月20日水曜日
![Page 11: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/11.jpg)
1. クラスタリングとは
例:文書をトピック別に分解
製品アンケート
製品への要望
製品の故障情報
クレーム
112011年4月20日水曜日
![Page 12: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/12.jpg)
1. クラスタリングとは2. クラスタリングの種類3. k-means4. アルゴリズム5. 問題点6. まとめ
122011年4月20日水曜日
![Page 13: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/13.jpg)
2.クラスタリングの種類
132011年4月20日水曜日
![Page 14: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/14.jpg)
階層型高さによってクラスの数を
自由に決められる
2.クラスタリングの種類
142011年4月20日水曜日
![Page 15: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/15.jpg)
階層型高さによってクラスの数を
自由に決められる
2.クラスタリングの種類
152011年4月20日水曜日
![Page 16: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/16.jpg)
階層型高さによってクラスの数を
自由に決められる
2.クラスタリングの種類
162011年4月20日水曜日
![Page 17: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/17.jpg)
非階層型分けるクラスの数をあらかじめ指定する
2.クラスタリングの種類
172011年4月20日水曜日
![Page 18: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/18.jpg)
ソフトクラスタリング事例がすべてのクラスに確率的に所属する
2.クラスタリングの種類
182011年4月20日水曜日
![Page 19: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/19.jpg)
ソフトクラスタリング事例がすべてのクラスに確率的に所属する
確率80%
15%
5%確率22%
76%
2%
2.クラスタリングの種類
192011年4月20日水曜日
![Page 20: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/20.jpg)
今回は代表的な手法であるk-meansを理解します
2.クラスタリングの種類
202011年4月20日水曜日
![Page 21: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/21.jpg)
1. クラスタリングとは2. クラスタリングの種類3. k-means4. アルゴリズム5. 問題点6. まとめ
212011年4月20日水曜日
![Page 22: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/22.jpg)
3. k-means
k-means (k平均法)
・非階層型, ハードクラスタリングの手法・古典的、調べるとすぐ出てくる・知っているとある程度ドヤ顔ができる
222011年4月20日水曜日
![Page 23: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/23.jpg)
k-meansという名前だけでも覚えて帰ってください
k-means (k平均法)
・非階層型, ハードクラスタリングの手法・古典的、調べるとすぐ出てくる・知っているとある程度ドヤ顔ができる
3. k-means
232011年4月20日水曜日
![Page 24: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/24.jpg)
k-meansという名前だけでも覚えて帰ってください
3. k-means
242011年4月20日水曜日
![Page 25: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/25.jpg)
「文書をトピックごとに分けたいなあ…」
252011年4月20日水曜日
![Page 26: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/26.jpg)
「え? それk-meansでできるよ」
262011年4月20日水曜日
![Page 27: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/27.jpg)
「ドヤッ!」272011年4月20日水曜日
![Page 28: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/28.jpg)
今日からドヤ顔をするためにk-meansを理解しましょう!!
3. k-means
282011年4月20日水曜日
![Page 29: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/29.jpg)
1. クラスタリングとは2. クラスタリングの種類3. k-means4. アルゴリズム5. 問題点6. まとめ
292011年4月20日水曜日
![Page 30: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/30.jpg)
"Text", "Mining" の2語しか存在しない世界を考えてみる
文書1 文書2
TextMiningMiningMining
TextMiningText
4. アルゴリズム
302011年4月20日水曜日
![Page 31: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/31.jpg)
"Text"
"Mining"0 1 2 3 4
1
2
3
文書1
文書2
4. アルゴリズム
単語の出現頻度で文書を空間にマッピング(Bag-Of-Words)
312011年4月20日水曜日
![Page 32: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/32.jpg)
4. アルゴリズム
参考:「言語処理のための機械学習入門」(奥村学/コロナ社)
事例数:5クラス数:2
次元:2
:事例
:重心
322011年4月20日水曜日
![Page 33: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/33.jpg)
4. アルゴリズム
参考:「言語処理のための機械学習入門」(奥村学/コロナ社)
事例数:5クラス数:2
次元:2
:事例
:重心
Step.1重心をランダムに決める
332011年4月20日水曜日
![Page 34: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/34.jpg)
4. アルゴリズム
参考:「言語処理のための機械学習入門」(奥村学/コロナ社)
事例数:5クラス数:2
次元:2
:事例
:重心
Step.2最も近い重心にクラスを決める
342011年4月20日水曜日
![Page 35: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/35.jpg)
4. アルゴリズム
参考:「言語処理のための機械学習入門」(奥村学/コロナ社)
事例数:5クラス数:2
次元:2
:事例
:重心
Step.3それぞれのクラスで重心を決め直す
352011年4月20日水曜日
![Page 36: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/36.jpg)
4. アルゴリズム
参考:「言語処理のための機械学習入門」(奥村学/コロナ社)
事例数:5クラス数:2
次元:2
:事例
:重心
Step.4再び最も近い重心にクラスを決める
362011年4月20日水曜日
![Page 37: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/37.jpg)
4. アルゴリズム
参考:「言語処理のための機械学習入門」(奥村学/コロナ社)
事例数:5クラス数:2
次元:2
:事例
:重心
Step.5step3,4を変化がなくなるまで繰り返す
372011年4月20日水曜日
![Page 38: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/38.jpg)
4. アルゴリズム
参考:「言語処理のための機械学習入門」(奥村学/コロナ社)
事例数:5クラス数:2
次元:2
:事例
:重心
Step.5step3,4を変化がなくなるまで繰り返す
382011年4月20日水曜日
![Page 39: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/39.jpg)
4. アルゴリズム
参考:「言語処理のための機械学習入門」(奥村学/コロナ社)
事例数:5クラス数:2
次元:2
:事例
:重心
Step.5step3,4を変化がなくなるまで繰り返す
392011年4月20日水曜日
![Page 40: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/40.jpg)
4. アルゴリズム
参考:「言語処理のための機械学習入門」(奥村学/コロナ社)
事例数:5クラス数:2
次元:2
:事例
:重心
Step.5step3,4を変化がなくなるまで繰り返す
402011年4月20日水曜日
![Page 41: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/41.jpg)
4. アルゴリズム
参考:「言語処理のための機械学習入門」(奥村学/コロナ社)
事例数:5クラス数:2
次元:2
:事例
:重心
Step.6クラスが決定する
412011年4月20日水曜日
![Page 42: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/42.jpg)
4. アルゴリズム
参考:「言語処理のための機械学習入門」(奥村学/コロナ社)
事例数:5クラス数:2
次元:2
:事例
:重心
Step.0初期状態
422011年4月20日水曜日
![Page 43: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/43.jpg)
4. アルゴリズム
参考:「言語処理のための機械学習入門」(奥村学/コロナ社)
事例数:5クラス数:2
次元:2
:事例
:重心
Step.6クラスが決定する
432011年4月20日水曜日
![Page 44: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/44.jpg)
きれいなデモがあったので見てみますhttp://d.hatena.ne.jp/nitoyon/20090409/kmeans_visualise
4. アルゴリズム
442011年4月20日水曜日
![Page 45: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/45.jpg)
1. クラスタリングとは2. クラスタリングの種類3. k-means4. アルゴリズム5. 問題点6. まとめ
452011年4月20日水曜日
![Page 46: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/46.jpg)
1. 最適になるとは限らない2.偏ったクラスタリングに不向き
5. 問題点
462011年4月20日水曜日
![Page 47: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/47.jpg)
1. 最適になるとは限らない5. 問題点
参考:http://d.hatena.ne.jp/kaiseh/20090113/1231864089
0
1
2
1 2 3 4
472011年4月20日水曜日
![Page 48: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/48.jpg)
1. 最適になるとは限らない5. 問題点
参考:http://d.hatena.ne.jp/kaiseh/20090113/1231864089
0
1
2
1 2 3 4
482011年4月20日水曜日
![Page 49: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/49.jpg)
1. 最適になるとは限らない5. 問題点
参考:http://d.hatena.ne.jp/kaiseh/20090113/1231864089
0
1
2
1 2 3 4
最初の重心の決め方によっては誤った結果になることもある
492011年4月20日水曜日
![Page 50: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/50.jpg)
2. 偏ったクラスタリングに不向き
5. 問題点
分けるべきクラスタのサイズが異なると
精度が下がる
参考:http://www.kamishima.net/jp/clustering/S.Guha, R.Rastogi, and K.Shim: CURE: An Efficient Clustering Algorithm for Large Databases, in Proc. of the ACM SIGMOD International Conference on Management of Data, pp.73-80 (1998)
502011年4月20日水曜日
![Page 51: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/51.jpg)
1. クラスタリングとは2. クラスタリングの種類3. k-means4. アルゴリズム5. 問題点6. まとめ
512011年4月20日水曜日
![Page 52: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/52.jpg)
・クラスタリングの定番 k-means・k-meansを知っていると(それなりに)ドヤ顔ができる・使用に不向きな場面もある
6. まとめ
522011年4月20日水曜日
![Page 53: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/53.jpg)
今日から(ドヤ顔が)使える!みんなのクラスタリング超入門
532011年4月20日水曜日
![Page 54: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/54.jpg)
おまけbayon
542011年4月20日水曜日
![Page 55: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/55.jpg)
アルゴリズムとかどうでもいいから仕事で使えるツールを!
552011年4月20日水曜日
![Page 56: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/56.jpg)
= bayonを使いましょう
アルゴリズムとかどうでもいいから仕事で使えるツールを!
562011年4月20日水曜日
![Page 57: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/57.jpg)
http://alpha.mixi.co.jp/blog/?p=1049
・Repeated Bisection法(分からない…)・k-meansでもクラスタリングできる・商用利用で事前許可が不要
bayon
572011年4月20日水曜日
![Page 58: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/58.jpg)
・R 「はじめてでもわかる R言語によるクラスター分析」
http://d.hatena.ne.jp/hamadakoichi/20100320/p1
・CLUTO 「CLUTO - Software for Clustering High-Dimensional Datasets」 http://glaros.dtc.umn.edu/gkhome/views/cluto
・GETA 「汎用連想計算エンジン(GETA)」 http://geta.ex.nii.ac.jp/geta.html
その他クラスタリングに使えるツール
582011年4月20日水曜日
![Page 59: 今日から使える! みんなのクラスタリング超入門](https://reader030.vdocuments.net/reader030/viewer/2022020116/55660dbad8b42aa6628b52d1/html5/thumbnails/59.jpg)
ご清聴ありがとうございました
592011年4月20日水曜日