big data - keio university...big data 最近のコンピュータ・インターネットの発展...
TRANSCRIPT
Big Data
最近のコンピュータ・インターネットの発展
①コンピュータの高速化 今のパソコンで1秒の計算 →20年前のパソコンでは25万秒(約3日)かかる ②記憶装置の大容量化 (1GB:音楽(5分)200曲) 1GBHDD価格:2000年(1000円),2002年(200円) ,2004年(120円), 2006年(60円) ,2008年(20円) ,2010年(10円) ,2012年(7円),2015年(4円) ③データ爆発 アナログ電話回線→ISDN→CATV →ADSL→光ファイバー インターネットに保存されているデータ量 2011年:1ZB, 2014年:2ZB ④ソフトウェアのオープン(無料)化
Z(zeta:ゼタ)=10の21乗 十垓(ガイ) E(exa:エクサ)=10の18乗 百京(ケイ) P(peta:ペタ)=10の15乗 千兆 T(tera:テラ)=10の12乗 兆 G(giga:ギガ)=10の9乗 十億 M(mega:メガ)=10の6乗 百万 K(kilo:キロ)=10の3乗 千
小売業におけるデータマイニング
+?
スーパーマーケットでは 賞味期限の異なる陳列は非常識 → でも、併買パターンを分析すると
週末、既婚者、若い男性 さて、ビールとの併買品目は?
サッカーデータマイニング(一次データ)
ミクロデータ チーム:横浜 選手:11
X座標:20 Y座標:-50
アクション: PASS
ボールの動き
マクロデータ
天候:晴れ
風:弱風
結果:勝ち
二次データ(プレーの特徴量)整備
duration lengthX lengthY touch dire
横の長さ
縦の長さ
かかった時間
方向
タッチ数
生成
判別木
class アクションの
特徴量
学習されたサッカー戦術ルール
学習されたルール数:165
興味深いルール 当たり前のルール 無関係・理解不能
ルール
26 55 84
15.7% 33.3% 50.9%
例:左方向のシーケンスが多い試合は負ける
→左方向に進むプレイ、または選手に注目
さて評価は?
データマイニングの課題
• データ整備はコストがかかる
• 他のデータの連携も調べたくなる
• マイニング結果も大量になり絞り込みたい。
• マイニング結果の意味は?(相関vs因果)
• 専門家の壁(主観vs.客観)
• 組織の壁
→2000年前半「データマイナーの憂鬱」
→2011年以降「ビッグデータ」 多くの関心
3V Volume(多量) Variety(多様) Velocity(多頻度)
ビッグデータ
ソーシャルメディアデータ
マルチメディアデータ
ウェブサイトデータ 位置・センサーデータ
オペレーションデータ ログデータ オフィスデータ
カスタマーデータ
http://www.soumu.go.jp/main_content/000160628.pdf
(背景1) 3V ビッグデータ
(背景2)ビッグデータ基盤技術の進展
• Hadoop(オープンソース分散並列処理技術、スケールアウト)
• NoSQLデータベース:非構造の大量データ処理可能 (スキーマフリー)
• MLの進展 カーネル関数によるSVM CRF(Conditional Random Filed, 条件付確率場) ベイズモデル Deep Learning(多層ニューラルネット)
http://hadoop.apache.org/images/hadoop-logo.jpg
Google のデータセンタ
(日本の事例1:農業)牧畜管理
• 本川牧場(大分県)5000頭の牛を飼育 年間1万トン生乳出荷量(全国4位)
• RFID(無線ICタグ)による搾乳量管理 万歩計による運動量の把握など、 牛の個体情報・作業に関する 約300項目データ収集 → 牛の健康管理、牛乳生産量の予測
• 牛乳生産量1日あたり2トン、16万円増加
• 過剰生産による廃棄ロスの減少
From IT Pro by 日経コンピュータ 2013/10/01
(日本の事例2:工業)製品の販売生産管理
リーマンショック後、コマツでは建機の在庫が急増 →機械稼働管理システム「KOMTRAX」による建機の稼働状況に加えて、 流通在庫+販売状況の管理 →◎在庫1万8000台から約1万台まで削減 →×インドネシアの建設機械の稼働順調、販売順調と予測 しかし、通貨ルピア急落により販売激減(経済予測データも必要)
①組立工場内 ②製品組立から納品までの進捗管理チャート ③グローバル販売生産管理 ④世界34万台以上の建設機械の稼働状況
① ② ③ ④
From 日経BigData 2014.02.12
(日本の事例3:サービス業)顧客の食欲予測
From IT Pro by 日経コンピュータ 2014/10/16
・すべてのすし皿にRFIDタグ(無線ICチップ) →単品管理。鮮度管理(マグロは、350m 回ると廃棄。売れネタのリアルタイム把握、 ・40億の販売ビッグデータの分析 →顧客の食欲を指数化した「喫食パワー」予測 →1分後予測(顧客着席経過時間などから予測) →15分後予測(統計データ、曜日、時間帯から傾向値を算出し、 必要な寿司の量を算出する。 →廃棄寿司量が75%削減