big data - keio university...big data 最近のコンピュータ・インターネットの発展...

13
Big Data

Upload: others

Post on 10-Aug-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Big Data - Keio University...Big Data 最近のコンピュータ・インターネットの発展 ①コンピュータの高速化 今のパソコンで1秒の計算 →20年前のパソコンでは25万秒(約3日)かかる

Big Data

Page 2: Big Data - Keio University...Big Data 最近のコンピュータ・インターネットの発展 ①コンピュータの高速化 今のパソコンで1秒の計算 →20年前のパソコンでは25万秒(約3日)かかる

最近のコンピュータ・インターネットの発展

①コンピュータの高速化 今のパソコンで1秒の計算 →20年前のパソコンでは25万秒(約3日)かかる ②記憶装置の大容量化 (1GB:音楽(5分)200曲) 1GBHDD価格:2000年(1000円),2002年(200円) ,2004年(120円), 2006年(60円) ,2008年(20円) ,2010年(10円) ,2012年(7円),2015年(4円) ③データ爆発 アナログ電話回線→ISDN→CATV →ADSL→光ファイバー インターネットに保存されているデータ量 2011年:1ZB, 2014年:2ZB ④ソフトウェアのオープン(無料)化

Z(zeta:ゼタ)=10の21乗 十垓(ガイ) E(exa:エクサ)=10の18乗 百京(ケイ) P(peta:ペタ)=10の15乗 千兆 T(tera:テラ)=10の12乗 兆 G(giga:ギガ)=10の9乗 十億 M(mega:メガ)=10の6乗 百万 K(kilo:キロ)=10の3乗 千

Page 3: Big Data - Keio University...Big Data 最近のコンピュータ・インターネットの発展 ①コンピュータの高速化 今のパソコンで1秒の計算 →20年前のパソコンでは25万秒(約3日)かかる

小売業におけるデータマイニング

+?

スーパーマーケットでは 賞味期限の異なる陳列は非常識 → でも、併買パターンを分析すると

週末、既婚者、若い男性 さて、ビールとの併買品目は?

Page 4: Big Data - Keio University...Big Data 最近のコンピュータ・インターネットの発展 ①コンピュータの高速化 今のパソコンで1秒の計算 →20年前のパソコンでは25万秒(約3日)かかる

サッカーデータマイニング(一次データ)

ミクロデータ チーム:横浜 選手:11

X座標:20 Y座標:-50

アクション: PASS

ボールの動き

マクロデータ

天候:晴れ

風:弱風

結果:勝ち

Page 5: Big Data - Keio University...Big Data 最近のコンピュータ・インターネットの発展 ①コンピュータの高速化 今のパソコンで1秒の計算 →20年前のパソコンでは25万秒(約3日)かかる

二次データ(プレーの特徴量)整備

duration lengthX lengthY touch dire

横の長さ

縦の長さ

かかった時間

方向

タッチ数

生成

判別木

class アクションの

特徴量

Page 6: Big Data - Keio University...Big Data 最近のコンピュータ・インターネットの発展 ①コンピュータの高速化 今のパソコンで1秒の計算 →20年前のパソコンでは25万秒(約3日)かかる

学習されたサッカー戦術ルール

学習されたルール数:165

興味深いルール 当たり前のルール 無関係・理解不能

ルール

26 55 84

15.7% 33.3% 50.9%

例:左方向のシーケンスが多い試合は負ける

→左方向に進むプレイ、または選手に注目

さて評価は?

Page 7: Big Data - Keio University...Big Data 最近のコンピュータ・インターネットの発展 ①コンピュータの高速化 今のパソコンで1秒の計算 →20年前のパソコンでは25万秒(約3日)かかる

データマイニングの課題

• データ整備はコストがかかる

• 他のデータの連携も調べたくなる

• マイニング結果も大量になり絞り込みたい。

• マイニング結果の意味は?(相関vs因果)

• 専門家の壁(主観vs.客観)

• 組織の壁

→2000年前半「データマイナーの憂鬱」

→2011年以降「ビッグデータ」 多くの関心

Page 8: Big Data - Keio University...Big Data 最近のコンピュータ・インターネットの発展 ①コンピュータの高速化 今のパソコンで1秒の計算 →20年前のパソコンでは25万秒(約3日)かかる

3V Volume(多量) Variety(多様) Velocity(多頻度)

ビッグデータ

ソーシャルメディアデータ

マルチメディアデータ

ウェブサイトデータ 位置・センサーデータ

オペレーションデータ ログデータ オフィスデータ

カスタマーデータ

http://www.soumu.go.jp/main_content/000160628.pdf

(背景1) 3V ビッグデータ

Page 9: Big Data - Keio University...Big Data 最近のコンピュータ・インターネットの発展 ①コンピュータの高速化 今のパソコンで1秒の計算 →20年前のパソコンでは25万秒(約3日)かかる

(背景2)ビッグデータ基盤技術の進展

• Hadoop(オープンソース分散並列処理技術、スケールアウト)

• NoSQLデータベース:非構造の大量データ処理可能 (スキーマフリー)

• MLの進展 カーネル関数によるSVM CRF(Conditional Random Filed, 条件付確率場) ベイズモデル Deep Learning(多層ニューラルネット)

http://hadoop.apache.org/images/hadoop-logo.jpg

Page 10: Big Data - Keio University...Big Data 最近のコンピュータ・インターネットの発展 ①コンピュータの高速化 今のパソコンで1秒の計算 →20年前のパソコンでは25万秒(約3日)かかる

Google のデータセンタ

Page 11: Big Data - Keio University...Big Data 最近のコンピュータ・インターネットの発展 ①コンピュータの高速化 今のパソコンで1秒の計算 →20年前のパソコンでは25万秒(約3日)かかる

(日本の事例1:農業)牧畜管理

• 本川牧場(大分県)5000頭の牛を飼育 年間1万トン生乳出荷量(全国4位)

• RFID(無線ICタグ)による搾乳量管理 万歩計による運動量の把握など、 牛の個体情報・作業に関する 約300項目データ収集 → 牛の健康管理、牛乳生産量の予測

• 牛乳生産量1日あたり2トン、16万円増加

• 過剰生産による廃棄ロスの減少

From IT Pro by 日経コンピュータ 2013/10/01

Page 12: Big Data - Keio University...Big Data 最近のコンピュータ・インターネットの発展 ①コンピュータの高速化 今のパソコンで1秒の計算 →20年前のパソコンでは25万秒(約3日)かかる

(日本の事例2:工業)製品の販売生産管理

リーマンショック後、コマツでは建機の在庫が急増 →機械稼働管理システム「KOMTRAX」による建機の稼働状況に加えて、 流通在庫+販売状況の管理 →◎在庫1万8000台から約1万台まで削減 →×インドネシアの建設機械の稼働順調、販売順調と予測 しかし、通貨ルピア急落により販売激減(経済予測データも必要)

①組立工場内 ②製品組立から納品までの進捗管理チャート ③グローバル販売生産管理 ④世界34万台以上の建設機械の稼働状況

① ② ③ ④

From 日経BigData 2014.02.12

Page 13: Big Data - Keio University...Big Data 最近のコンピュータ・インターネットの発展 ①コンピュータの高速化 今のパソコンで1秒の計算 →20年前のパソコンでは25万秒(約3日)かかる

(日本の事例3:サービス業)顧客の食欲予測

From IT Pro by 日経コンピュータ 2014/10/16

・すべてのすし皿にRFIDタグ(無線ICチップ) →単品管理。鮮度管理(マグロは、350m 回ると廃棄。売れネタのリアルタイム把握、 ・40億の販売ビッグデータの分析 →顧客の食欲を指数化した「喫食パワー」予測 →1分後予測(顧客着席経過時間などから予測) →15分後予測(統計データ、曜日、時間帯から傾向値を算出し、 必要な寿司の量を算出する。 →廃棄寿司量が75%削減