オープンソースのデータ分析ソフト3製品「rapidminer」「nysol」「revolution r...

87
OSS オオオオオオオ オオオ オオオ オオオオオオオオオオオオオオオ オオオオオオオ オオオオオオオオ オオ オオオオ KSK オオオオオオオ オオ 2014 オオ オオオオオオオオオオ @ オオオオ 2014 オ 9 オ 14 オオ 16 オオオオオオオオ オオオオ

Upload: satoshi-kitajima

Post on 29-Nov-2014

977 views

Category:

Data & Analytics


13 download

DESCRIPTION

東京大学経済学研究科棟3階 第2教室(C会場) 13:00~15:00 2014年度 統計関連学会連合大会 株式会社KSKアナリティクス 北島 聡

TRANSCRIPT

Page 1: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

OSS (オープンソース・ソフトウェア)が

アナリティクスの未来を切り開く

オープンソースデータ分析ソフト3製品

株式会社 KSK アナリティクス           北島 聡

2014 年度 統計関連学会連合大会 @ 東京大学( 2014 年 9 月 14 日〜16 日)

(データマイニング・機械学習)

Page 2: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

 統計関連学会連合大会  オープンソース 検索

本日の資料は にアップしております。

よろしければ検索サイトで以下のキーワードなどを入力してご覧ください。

Page 3: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html

© KSK Analytics Inc., RapidMiner Japan Partner

Page 4: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

2014 年 6 月、世界で最も有名なデータマイニング系情報サイト

「 kdnuggets.com 」が調査

http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html

© KSK Analytics Inc., RapidMiner Japan Partner

Page 5: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

過去1年、実際の分析プロジェクトで

活用した分析ソフトはなんですか?

http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html

© KSK Analytics Inc., RapidMiner Japan Partner

Page 6: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html

© KSK Analytics Inc., RapidMiner Japan Partner

Page 7: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html

© KSK Analytics Inc., RapidMiner Japan Partner

Page 8: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

世界で最も使われているRapidMiner をご紹介

http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html

© KSK Analytics Inc., RapidMiner Japan Partner

Page 9: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

無料で利用することが出来るため、ビジネス・アカデミックを問わず強力に支援

© KSK Analytics Inc., RapidMiner Japan Partner

Page 10: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

© KSK Analytics Inc., RapidMiner Japan Partner

豊富な分析アルゴリズムに加え、モデル評価やデータ加工( ETL )など幅広い機能を保有

Page 11: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

他のオープンソースも活用できるため、さらに幅広いアルゴリズムで分析可能

パッケージ数 5,800 以上最先端アルゴリズムも多い

追加モデル数、約 100 個

これらは RapidMiner でエクステンション(無料)をインストールして頂くことでご利用できます

© KSK Analytics Inc., RapidMiner Japan Partner

RapidMiner の画面

Page 12: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

© KSK Analytics Inc., RapidMiner Japan Partner

エクステンション(無料)は、リコメンデーションや、時系列分析、Web マイニングなどにも対応

Page 13: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

分かりやすい操作画面( GUI )データ分析が初めての方・学生の方にも分析の楽しさを伝えることができます© KSK Analytics Inc., RapidMiner Japan Partner

Page 14: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

強力なビジュアライゼーションデータから視覚的に関連性や仮説を発見できます

© KSK Analytics Inc., RapidMiner Japan Partner

Page 15: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

高度な分析もノンプログラミングで簡単操作プログラムと向き合う時間

Data と向き合う時間<

© KSK Analytics Inc., RapidMiner Japan Partner

Page 16: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

• 分かりやすい操作画面( GUI )でデータ分析が初めての学生にも簡単にデータ分析の楽しさを伝えることができます

• 強力なビジュアライゼーションで、データから早期に関連性や仮説などを発見することが出来ます実際にその操作画面とビジュアライゼーション、

 ノンプログラミングでできる分析をご覧ください

<デモ>

Page 17: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

RapidMiner Studio 6 のご利用は、以下の Web ページから、必要箇所に入力してください。ダウンロード URL とログイン用のユーザー名とパスワードがメールで届きます。無料でご利用頂けます(期間の制限はありません)

Page 18: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

RapidMiner Studio 6 のご利用は、以下の Web ページから、必要箇所に入力してください。ダウンロード URL とログイン用のユーザー名とパスワードがメールで届きます。無料でご利用頂けます(期間の制限はありません)

http://www.rapidminer.jp/download/software/

Page 19: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

商品名 RapidMiner によるデータマイニング トレーニング(ベーシック & アドバンスド)

対象者 ビジネスユーザー、データサイエンスチーム

形式 お客さま指定日(2日間、あるいは4日間) ※オンサイト(講師派遣)コース

こんな方にオススメ

RapidMiner の使い方・機能について素早く理解したいRapidMiner を使用した予測モデルの作成や評価を行いたいRapidMiner を使用した高度な予測分析手法を学びたいRapidMiner で相関ルール作成やマーケットバスケット分析を行いたいRapidMiner で顧客のセグメンテーション、クラスター分析を行いたい

価格 基本料金  15万円 + 受講者数  ×   5万円 (ベーシックコース)基本料金  15万円 + 受講者数  ×   5万円 (アドバンスドコース)

定員 1名〜5名まで

RapidMiner のトレーニング

※RapidMiner の無料版のご利用を検討されている方にもオススメのトレーニングです

詳細はこちらまで: http://www.rapidminer.jp/service/training/

© KSK Analytics Inc.

※ オープンコース2014 年 11 月 12 日(水)ー 13 日(木) 、 12 月 17 日(水)ー 18 日(木)料金はオンサイトコースに比べお得です!(ベーシックコース: 14万円 /1 名)

Page 20: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介
Page 21: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

R は素晴らしい!

しかし、 R ユーザーが口をそろえて言うのが・・・

© KSK Analytics Inc., Revolution Analytics Japan Partner

Page 22: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

重い© KSK Analytics Inc., Revolution Analytics Japan Partner

Page 23: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

重いかなり必死

© KSK Analytics Inc., Revolution Analytics Japan Partner

Page 24: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

実行速度が重い大規模データが重い

© KSK Analytics Inc., Revolution Analytics Japan Partner

・・・というか扱えない

Page 25: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

R ユーザーの多くはドクターストップ(限界)もよく知っている

© KSK Analytics Inc., Revolution Analytics Japan Partner

Page 26: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

© KSK Analytics Inc., Revolution Analytics Japan Partner

一方、世の中のデータ量は・・・

Page 27: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

© KSK Analytics Inc., Revolution Analytics Japan Partner

http://www.datacenterjournal.com/it/birth-death-big-data/

Page 28: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

© KSK Analytics Inc., Revolution Analytics Japan Partner

http://www.datacenterjournal.com/it/birth-death-big-data/

Page 29: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

ひたすら増えていく・・・

© KSK Analytics Inc., Revolution Analytics Japan Partner

Page 30: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

ひたすら増えていく・・・

© KSK Analytics Inc., Revolution Analytics Japan Partner

2010 年の体重が 123kg だとすれば、2020 年には 4000kg(4 トン ) になる

Page 31: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

© KSK Analytics Inc., Revolution Analytics Japan Partner

分析者や分析業務も増えてきたのに・・・

Page 32: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

分析に革命が起こる

Page 33: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

<- + 革命

大規模データを高速に実行できるレボリューション R をご紹介

Page 34: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

※GLM:一般化線形モデル

データ件数

時間(秒)

© KSK Analytics Inc., Revolution Analytics Japan Partner

R vs レボリューション R ( ScaleR )のパフォーマンス比較

Page 35: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

※GLM:一般化線形モデル

データ件数

時間(秒)

© KSK Analytics Inc., Revolution Analytics Japan Partner

R vs レボリューション R ( ScaleR )のパフォーマンス比較

Page 36: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

※GLM:一般化線形モデル

データ件数

時間(秒)

© KSK Analytics Inc., Revolution Analytics Japan Partner

オープンソース R はデータ件数が 25万件で約 80秒

R vs レボリューション R ( ScaleR )のパフォーマンス比較

Page 37: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

※GLM:一般化線形モデル

データ件数

時間(秒)

© KSK Analytics Inc., Revolution Analytics Japan Partner

R vs レボリューション R ( ScaleR )のパフォーマンス比較

Page 38: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

※GLM:一般化線形モデル

データ件数

時間(秒)

© KSK Analytics Inc., Revolution Analytics Japan Partner

レボリューション R はデータ件数が 500万件で 10秒以下

R vs レボリューション R ( ScaleR )のパフォーマンス比較

Page 39: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

※GLM:一般化線形モデル

データ件数

時間(秒)

© KSK Analytics Inc., Revolution Analytics Japan Partner

レボリューション R はデータ件数が 500万件で 10秒以下

R vs レボリューション R ( ScaleR )のパフォーマンス比較

Page 40: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

※GLM:一般化線形モデル

データ件数

時間(秒)

© KSK Analytics Inc., Revolution Analytics Japan Partner

レボリューション R はデータ件数が 500万件で 10秒以下

しかも、メモリ 8GB の普通のノート PC で

R vs レボリューション R ( ScaleR )のパフォーマンス比較

Page 41: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

R ユーザーであれば移行はスムーズ

オープンソース R の記載例

レボリューション R の記載例

Page 42: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

© KSK Analytics Inc., Revolution Analytics Japan Partner

分析したいデータ量が 100GB だとすると・・・

サーバー 1台( 8 コア)Hadoop クラスタ 8台

Hadoop vs サーバー 1台

Page 43: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

© KSK Analytics Inc., Revolution Analytics Japan Partner

分析したいデータ量が 100GB だとすると・・・

<概ね、サーバー 1台の方が 8倍〜 10倍の速度で早いです。   (※データ量が 1TB 以上だと Hadoop をオススメします)

サーバー 1台( 8 コア)Hadoop クラスタ 8台

Hadoop vs サーバー 1台

Page 44: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html

© KSK Analytics Inc., RapidMiner Japan Partner

Page 45: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html

© KSK Analytics Inc., RapidMiner Japan Partner

商用ソフト(緑色)としても人気が高い

特に R ユーザーからの移行が多く、

利用者は急速に拡大中

Page 46: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html

© KSK Analytics Inc., RapidMiner Japan Partner

Page 47: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html

© KSK Analytics Inc., RapidMiner Japan Partner

Page 48: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html

© KSK Analytics Inc., RapidMiner Japan Partner

しかも、ソフト単体の利用者は、 RapidMiner(35.1%) に次いで

2番目に高い (13.3%)

Page 49: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

でも、お高いんでしょう?

© KSK Analytics Inc., Revolution Analytics Japan Partner

Page 50: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

でも、お高いんでしょう?

いえ、アカデミックは・・・

© KSK Analytics Inc., Revolution Analytics Japan Partner

Page 51: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

© KSK Analytics Inc., Revolution Analytics Japan Partner

Page 52: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

© KSK Analytics Inc., Revolution Analytics Japan Partner

Page 53: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

無料です!

© KSK Analytics Inc., Revolution Analytics Japan Partner

Page 54: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

無料です!

http://info.revolutionanalytics.com/free-academic.html

Page 55: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

無料です!

http://info.revolutionanalytics.com/free-academic.html

株式会社 KSK アナリティクスはビジネスにおけるサポートを事業にしており、アカデミックにおけるサポートは取り扱っておりません。アカデミック利用に関してご不明な点があれば、恐れ入りますが上記サイトより Revolution Analytics 社へ直接問い合わせ下さい。

Page 56: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

データ分析のプロセス実は 8割以上は前処理(データ加工)

社外データ

業務システム

EXCEL

様々なデータ形式膨大なデータ量複雑なデータ構造 分析用

データ

クラス分類

回帰分析

パターン解析

クラスタリン

繰り返しのデータ加工

CSV

© KSK Analytics Inc., NYSOL Partner

Page 57: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

データ分析のプロセス実は 8割以上は前処理(データ加工)

社外データ

業務システム

EXCEL

様々なデータ形式膨大なデータ量複雑なデータ構造 分析用

データ

クラス分類

回帰分析

パターン解析

クラスタリン

繰り返しのデータ加工

CSV

© KSK Analytics Inc., NYSOL Partner

前処理

Page 58: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

http://www.slideshare.net/SatoshiKitajima2/m1-38513054 © KSK Analytics Inc., NYSOL Partner

デーサイエンティスト必見

M-1 グランプリ漫才 前処理の頂点は誰だ!?

Maeshori

より詳細はこちらをご覧ください

Page 59: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

M-1 グランプリ 出場者のご紹介

1.

2.

3.

4.

パッケージを使わずに勝負します!

最強と名高い” dplyr” と” data.table”パッケージを使います!

データベースを代表して出場します!

「にそる」と読みます。日本で誕生したオープンソースで、無料で使えます!

(R_base と表記 )

(R_pkg と表記 )

© KSK Analytics Inc., NYSOL Partner

Page 60: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

列選択 行選択 列計算 並び替え 複合

は 5 つ前処理

データは 6 つ1 2 3 4 5 6

データ件数 千件 一万件 十万件 百万件 一千万件 一億件データ量 約 100KB 約 1MB 約 10MB 約 100MB 約 1GB 約 10GB

© KSK Analytics Inc., NYSOL Partner

Page 61: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

0.5秒

R_base R_pkg PostgreSQL NYSOL

1 2 3 4 5 6

データ件数 千件 一万件 十万件 百万件 一千万件 一億件データ量 約 100KB 約 1MB 約 10MB 約 100MB 約 1GB 約 10GB

Page 62: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

1秒

R_base R_pkg PostgreSQL NYSOL

1 2 3 4 5 6

データ件数 千件 一万件 十万件 百万件 一千万件 一億件データ量 約 100KB 約 1MB 約 10MB 約 100MB 約 1GB 約 10GB

Page 63: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

5秒

1秒

R_base R_pkg PostgreSQL NYSOL

1 2 3 4 5 6

データ件数 千件 一万件 十万件 百万件 一千万件 一億件データ量 約 100KB 約 1MB 約 10MB 約 100MB 約 1GB 約 10GB

Page 64: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

5秒

45秒

R_base R_pkg PostgreSQL NYSOL

1 2 3 4 5 6

データ件数 千件 一万件 十万件 百万件 一千万件 一億件データ量 約 100KB 約 1MB 約 10MB 約 100MB 約 1GB 約 10GB

Page 65: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

1 分

5 分

R_base R_pkg PostgreSQL NYSOL

1 2 3 4 5 6

データ件数 千件 一万件 十万件 百万件 一千万件 一億件データ量 約 100KB 約 1MB 約 10MB 約 100MB 約 1GB 約 10GB

Page 66: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

R_base R_pkg PostgreSQL NYSOL

10 分

1 時間

30 分

R は一部の前処理がメモリエラーで計測不可

1 2 3 4 5 6

データ件数 千件 一万件 十万件 百万件 一千万件 一億件データ量 約 100KB 約 1MB 約 10MB 約 100MB 約 1GB 約 10GB

Page 67: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

1

23

( R_pkg)

結果発表!

Page 68: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

データ分析のプロセス実は 8割以上は前処理(データ加工)

社外データ

業務システム

EXCEL

様々なデータ形式膨大なデータ量複雑なデータ構造 分析用

データ

クラス分類

回帰分析

パターン解析

クラスタリン

繰り返しのデータ加工

CSV

© KSK Analytics Inc., NYSOL Partner

前処理

Page 69: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

データ分析のプロセス実は 8割以上は前処理(データ加工)

社外データ

業務システム

EXCEL

様々なデータ形式膨大なデータ量複雑なデータ構造 分析用

データ

クラス分類

回帰分析

パターン解析

クラスタリン

繰り返しのデータ加工

CSV

© KSK Analytics Inc., NYSOL Partner

前処理の「 M コマンド」

Page 70: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

M コマンド・ UNIX コマンド・約 70種類・ CSV データ

組み合わせは無限大・各コマンドを 「パイプ」で接続

仕組みはシンプル

© KSK Analytics Inc., NYSOL Partner

Page 71: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

© KSK Analytics Inc., NYSOL Partner

Page 72: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

© KSK Analytics Inc., NYSOL Partner

約 70種類

Page 73: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

M コマンドの他にも「頻出パターンマイニング」や「データマイニング・機械学習」「テキストマイニング」「可視化」などさまざま

Page 74: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

データ分析のプロセス実は 8割以上は前処理(データ加工)

社外データ

業務システム

EXCEL

様々なデータ形式膨大なデータ量複雑なデータ構造 分析用

データ

クラス分類

回帰分析

パターン解析

クラスタリン

繰り返しのデータ加工

CSV

© KSK Analytics Inc., NYSOL Partner

前処理の「 M コマンド」

Page 75: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

データ分析のプロセス実は 8割以上は前処理(データ加工)

社外データ

業務システム

EXCEL

様々なデータ形式膨大なデータ量複雑なデータ構造 分析用

データ

クラス分類

回帰分析

パターン解析

クラスタリン

繰り返しのデータ加工

CSV

© KSK Analytics Inc., NYSOL Partner

前処理の「 M コマンド」

Page 76: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

パズルに似た新しい知的感覚NYSOL はコマンドが主役。一つのコマンドの役割は、入力した CSV データに対して、一つの処理をし、 CSV データを出力するだけ。このシンプルなコマンドをパズルのように組み合わせるだけで広い分野でのデータ活用を可能にします。

移植性の高い CSV データNYSOL は CSV データの扱いに特化しています。 Excel や DB から CSV データを出力すれば、簡単に NYSOL で扱うことができます。さらに NYSOL から出力される CSV データは、 R や RapidMiner 、 DB など外部ソフトとの連携も移植性が高く柔軟に機能します。

© KSK Analytics Inc., NYSOL Partner

Page 77: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

一台でも大規模データNYSOL で扱えるデータはメモリ量ではなくHDD に依存します。一般的に Hadoop などで分散処理が必要とされる数百 GB 〜数TB (数千万件〜数億件程度)の大規模なデータでも一台のサーバーで処理することも可能です。

驚きの高速処理これまで商用版のデータベースで 20 時間以上かかっていた 7億件のデータ処理が、ノート PC で 1 時間以内に終了したケースもあります。 NYSOL は主に C++言語で開発され、各コマンドは一つの機能を高速に処理するよう設計されています。

© KSK Analytics Inc., NYSOL Partner

Page 78: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

最先端アルゴリズムNYSOL は大学や研究機関などの学術界で生み出された 最新・最高峰のデータ解析/データマイニングのコマンドおよびアルゴリズムを採用しています。洗練されたアルゴリズムはビジネス現場でも広く活躍しています。

フリーソフトウェアNYSOL は大学などの研究成果を広く産業界に還元する目的で設立されました。そのため、NYSOL が提供するソフトウェアは無料でご利用頂くことができます。また、ご希望の企業様には、 NYSOL のビジネスサポートも提供しています。

© KSK Analytics Inc., NYSOL Partner

Page 79: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

安心のビジネスサポートビジネスとしてデータを活用するには、ソフトウェアのサポートや分析支援などが必要になる場合があります。また社内に分析人材を育成したいニーズも高まってきました。詳しくは KSK アナリティクスまで問い合わせ下さい。

© KSK Analytics Inc., NYSOL Partner

Page 80: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

© KSK Analytics Inc., NYSOL Partner

Page 81: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

© KSK Analytics Inc., NYSOL Partner

Page 82: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

http://www.nysol.jp/

© KSK Analytics Inc., NYSOL Partner

Page 83: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

商品名 NYSOL によるデータマイニング トレーニング(データ加工編: 1 日コース)

対象者 ビジネスユーザー、データサイエンスチーム

形式 お客さま指定日( 1 日間)こんな方にオススメ

データ加工が必要なデータがたくさんあるさまざまなデータ加工が必要SQL スクリプトを得意としている人材が少ないデータベースでは速度のパフォーマンスが出ないデータベースでは大規模データを扱えない

価格 基本料金  15万円 + 受講者数  ×   5万円

定員 1名〜5名程度

NYSOL のトレーニング

※ オンサイト(講師派遣)コース

※NYSOL ソフトウェアの商用サポートもご提供しております。

※Windows ユーザーにもオススメです

© KSK Analytics Inc., NYSOL Partner

Page 84: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

20XX 年1 月 2 月 3 月 4 月 5 月 6 月 7 月以降

データ加工、データ分析トレーニング

データ分析スタートダッシュサービス

お客さま内データ分析

データ分析サポートサービス

お客様弊 社

使用ソフトウェアは主にオープンソース初期トレーニング & スキルトランスファーで早期成果必要であればビジネスサポート

KSK アナリティクスのデータ分析サービス

© KSK Analytics Inc.

Page 85: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

東京大学経済学研究棟 1F受付右側でブース出展しています。

ご不明な点がございましたらお気軽にお越しください。

出展期間: 2014 年 9 月 14 日〜 16 日             9:00 〜18:00         (最終日は 15:00まで) このポスターが目印で

Page 86: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

3 製品を使った無料ハンズオンセミナーも開催中

http://www.rapidminer.jp/service/seminar/#sei2

Page 87: オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

株式会社 KSK アナリティクス セールス & マーケティング本部www.ksk-anl.com   sales@ksk-

anl.comお気軽に問い合わせ下さい