tokyor lt rで連続データを離散化
TRANSCRIPT
![Page 1: TokyoR LT Rで連続データを離散化](https://reader035.vdocuments.net/reader035/viewer/2022062218/587fad441a28ab107e8b4b69/html5/thumbnails/1.jpg)
Rで連続データを離散化
#51 Tokyo.R 2015/10/10
ニフティ株式会社
![Page 2: TokyoR LT Rで連続データを離散化](https://reader035.vdocuments.net/reader035/viewer/2022062218/587fad441a28ab107e8b4b69/html5/thumbnails/2.jpg)
伊藤 徹郎 (@tetsuroito)
食欲の秋、ハロウィンですね
最近運動不足気味
自己紹介
![Page 3: TokyoR LT Rで連続データを離散化](https://reader035.vdocuments.net/reader035/viewer/2022062218/587fad441a28ab107e8b4b69/html5/thumbnails/3.jpg)
ありがたいご恵贈の数々
近況
![Page 4: TokyoR LT Rで連続データを離散化](https://reader035.vdocuments.net/reader035/viewer/2022062218/587fad441a28ab107e8b4b69/html5/thumbnails/4.jpg)
みなさんの素晴らしい 成果によって
日々助けられてます
![Page 5: TokyoR LT Rで連続データを離散化](https://reader035.vdocuments.net/reader035/viewer/2022062218/587fad441a28ab107e8b4b69/html5/thumbnails/5.jpg)
ありがとうございます
![Page 6: TokyoR LT Rで連続データを離散化](https://reader035.vdocuments.net/reader035/viewer/2022062218/587fad441a28ab107e8b4b69/html5/thumbnails/6.jpg)
データ分析よくあるパターン 1. WindowsのGUIアプリやWebサービスの管理画面 2. Windows上でのプログラミング 3. Linux上でのコマンド操作 4. Linux上でのプログラミング 5. DBとかKVSとかを自前で用意する 6. Hiveとか、最近だとMPP 7. Hadoop/Sparkなどの環境下でのプログラミング
上記2,3のギャップを埋める書籍です。
コマンドラインでの記述がメインですが、 Rも関連したコマンドラインの紹介もあります
ggplot2の話もいっぱい
![Page 7: TokyoR LT Rで連続データを離散化](https://reader035.vdocuments.net/reader035/viewer/2022062218/587fad441a28ab107e8b4b69/html5/thumbnails/7.jpg)
もうこの会では何度も紹介されてきた名著
Rの基礎から可視化、データ加工、分析、 パッケージ作成までを網羅した1冊!
現在、第3版!
最新版はさらに内容がよくなっているそうです! もう説明は不要ですよね? Tokyo.Rテキストシリーズで採用しても良さそう!
![Page 8: TokyoR LT Rで連続データを離散化](https://reader035.vdocuments.net/reader035/viewer/2022062218/587fad441a28ab107e8b4b69/html5/thumbnails/8.jpg)
よくあるデータ分析の手法 (多変量解析、機械学習)の解説書ではなく 適切な分析計画の立案、データ収集・蓄積、 データ加工やデータ変換などの前処理、 その後の分析手法の適用、活用までを 幅広く解説したall in oneの書籍
本日のLTはこちらから 「連続データの離散化」の箇所を紹介します
![Page 9: TokyoR LT Rで連続データを離散化](https://reader035.vdocuments.net/reader035/viewer/2022062218/587fad441a28ab107e8b4b69/html5/thumbnails/9.jpg)
データの離散化のメリット
データ記述の簡略
データ及びその処理結果に対する理解向上
多くの数値属性を含むデータ処理の実行
![Page 10: TokyoR LT Rで連続データを離散化](https://reader035.vdocuments.net/reader035/viewer/2022062218/587fad441a28ab107e8b4b69/html5/thumbnails/10.jpg)
データ離散化の手法の分類
・・・・・・・・・
・・・・・・・・・
・・・・・・・・・
トップダウンアプローチ ボトムアップアプローチ
・・・・・・・・・
全データを1区間からスタート 逐次的に分割
・・・・・・・・・
・・・・・・・・・
複数区間からスタート 必要に応じて区間を併合
![Page 11: TokyoR LT Rで連続データを離散化](https://reader035.vdocuments.net/reader035/viewer/2022062218/587fad441a28ab107e8b4b69/html5/thumbnails/11.jpg)
連続データの離散化手法
教師データなし 教師データあり
トップダウン
等間隔区間による 離散化(EWD) 等頻度区間による 離散化(EFD)など
エントロピーを用いた 離散化
(CAIM,CACC,Aeva) 最小記述長原理による 離散化(MDLP)など
ボトムアップ k-meansなど カイマージ、カイ2など
k-meansは割愛します
![Page 12: TokyoR LT Rで連続データを離散化](https://reader035.vdocuments.net/reader035/viewer/2022062218/587fad441a28ab107e8b4b69/html5/thumbnails/12.jpg)
連続データ離散化を実現するRパッケージ
discretization パッケージ
infotheo パッケージ
>install.packages("infotheo",quiet=TRUE) >install.packages("discretization",quiet=TRUE)
![Page 13: TokyoR LT Rで連続データを離散化](https://reader035.vdocuments.net/reader035/viewer/2022062218/587fad441a28ab107e8b4b69/html5/thumbnails/13.jpg)
等間隔区間による離散化irisデータで試してみる
分割数はnbins引数で指定可能
![Page 14: TokyoR LT Rで連続データを離散化](https://reader035.vdocuments.net/reader035/viewer/2022062218/587fad441a28ab107e8b4b69/html5/thumbnails/14.jpg)
等頻度区間による離散化irisデータで試してみる
分割数はnbins引数で指定可能
引数を変更
![Page 15: TokyoR LT Rで連続データを離散化](https://reader035.vdocuments.net/reader035/viewer/2022062218/587fad441a28ab107e8b4b69/html5/thumbnails/15.jpg)
カイマージによる離散化カイマージとは‥
χ二乗検定を用いて分割点を決定するもの
具体的には‥属性を離散化して隣接する区間で各クラスの確率に 有意な違いはないと判断されたら2区間を併合する
discretization パッケージchiM関数で実行可能
![Page 16: TokyoR LT Rで連続データを離散化](https://reader035.vdocuments.net/reader035/viewer/2022062218/587fad441a28ab107e8b4b69/html5/thumbnails/16.jpg)
カイマージによる離散化irisデータで試してみる
![Page 17: TokyoR LT Rで連続データを離散化](https://reader035.vdocuments.net/reader035/viewer/2022062218/587fad441a28ab107e8b4b69/html5/thumbnails/17.jpg)
情報エントロピーを用いた離散化
おそらく、5分で説明するには時間が足らない と思うので、知りたい方は書籍を読んでください
最小記述長原理を用いた離散化
http://d.hatena.ne.jp/sfchaos/20131208/p1
もしくは著者のブログをチェック!
![Page 18: TokyoR LT Rで連続データを離散化](https://reader035.vdocuments.net/reader035/viewer/2022062218/587fad441a28ab107e8b4b69/html5/thumbnails/18.jpg)
Enjoy!