apache sparkでつぶやきビッグデータ クローンをつくってみた

32
1 秋秋秋 IT 秋秋秋秋秋 http://akibalab.info/ 秋秋秋2015.8.8 秋秋 OSC Apache Spark 秋秋秋秋秋秋秋秋秋秋秋 秋秋秋秋秋秋秋秋秋秋秋

Upload: junichi-noda

Post on 16-Aug-2015

560 views

Category:

Technology


3 download

TRANSCRIPT

Page 1: Apache sparkでつぶやきビッグデータ クローンをつくってみた

1

秋葉原 IT戦略研究所http://akibalab.info/

野田純一

2015.8.8 京都OSC

Apache Spark でつぶやきビッグデータクローンをつくってみた

Page 2: Apache sparkでつぶやきビッグデータ クローンをつくってみた

1. 自己紹介 野田純一

2

Github:

https://github.com/AKB428

Twitter:

https://twitter.com/n428dev

Qiita:

http://qiita.com/AKB428

Hatena:

http://akb428.hatenablog.com/

Junichi Noda Larry Wall

Page 3: Apache sparkでつぶやきビッグデータ クローンをつくってみた

3

↓これが作りたい

2014 7月 22 日 NHK

Page 4: Apache sparkでつぶやきビッグデータ クローンをつくってみた

Sparkについて

• HadoopのMapReduceとは別アプローチ (DAG)での並列分散集計処理を行う

• インメモリー処理• 2015年 6月 11 日に 1.4.0 がリリース。

https://spark.apache.org/releases/spark-release-1-4-0.html• 1.4.0で SparkRが追加 (R言語で Sparkを利用できる)• APIを利用できる言語は Scala, Java, Python

4

SparkR

Page 5: Apache sparkでつぶやきビッグデータ クローンをつくってみた

5

Page 6: Apache sparkでつぶやきビッグデータ クローンをつくってみた

• Twitterストリームからデータを取得する。• Twitter Streaming APIを使う。• 400の検索キーワードが指定可能。• Spark Streamingでリアルタイム集計を行う。

6

Page 7: Apache sparkでつぶやきビッグデータ クローンをつくってみた

7

• 日本語文章を単語にわけて分解して集計• 日本語を分解するため形態素解析ライブラリ

kuromojiを使う。• アニメ作品など標準辞書にない単語はユーザー辞書 (CSV)を用意。

Page 8: Apache sparkでつぶやきビッグデータ クローンをつくってみた

形態素解析ライブラリの必要性について

8

Page 9: Apache sparkでつぶやきビッグデータ クローンをつくってみた

ユーザー辞書の必要性について

9

Page 10: Apache sparkでつぶやきビッグデータ クローンをつくってみた

10

Page 11: Apache sparkでつぶやきビッグデータ クローンをつくってみた

画面デモ(直近 5分を毎分集計)(F1)2015年 3 期 TV アニメhttp://tv-anime.xyz/5/

(F1) ラブライブ http://tv-anime.biz/5/

(F2) ラブライブ http://lovelive-net.com/5/

(F2) 秋葉原 http://akiba-net.com/5/

(F2)関東 TV 番組 http://telev.net/5/

F1=ユーザー辞書に登録してある単語のみ集計F2=ユーザー辞書外の単語も集計

11

Page 12: Apache sparkでつぶやきビッグデータ クローンをつくってみた

12

画面デモ(直近 60分を毎分集計)(F1)2015年 3 期 TV アニメhttp://tv-anime.xyz/60/

(F1) ラブライブ http://tv-anime.biz/60/

(F2) ラブライブ http://lovelive-net.com/60/

(F2) 秋葉原 http://akiba-net.com/60/

(F2)関東 TV 番組 http://telev.net/60/

F1=ユーザー辞書に登録してある単語のみ集計F2=ユーザー辞書外の単語も集計

Page 13: Apache sparkでつぶやきビッグデータ クローンをつくってみた

2015年 7月 22日7月 22 日ラブライブ 矢澤にこ誕生日

13

Page 14: Apache sparkでつぶやきビッグデータ クローンをつくってみた

14

2015年7月22日

Page 15: Apache sparkでつぶやきビッグデータ クローンをつくってみた

過去のキャプチャ 今期 (2015/夏期 )のアニメ

15

Page 16: Apache sparkでつぶやきビッグデータ クローンをつくってみた

デモ:リコメンド Twitterボットhttps://twitter.com/Akihabaara_itso

https://twitter.com/AuctionMadoka

16

Page 17: Apache sparkでつぶやきビッグデータ クローンをつくってみた

実際の売上

17

Page 18: Apache sparkでつぶやきビッグデータ クローンをつくってみた

18

京都 OSC 用つぶやきビックデータ

検索ハッシュタグ「 #osckansai」

http://2045.tokyo/5/

http://2045.tokyo/60/

※URLの内容は 8/8当日のみ京都 OSC用になります

Page 19: Apache sparkでつぶやきビッグデータ クローンをつくってみた

8/8 〜 12:00

19

Page 20: Apache sparkでつぶやきビッグデータ クローンをつくってみた

8/8 12:24〜

20

Page 21: Apache sparkでつぶやきビッグデータ クローンをつくってみた

8/8 13:20

21

Page 22: Apache sparkでつぶやきビッグデータ クローンをつくってみた

8/8 15:10

22

Page 23: Apache sparkでつぶやきビッグデータ クローンをつくってみた

8/8 15:20

23

Page 24: Apache sparkでつぶやきビッグデータ クローンをつくってみた

8/8 15:40

24

Page 25: Apache sparkでつぶやきビッグデータ クローンをつくってみた

8/8 16:10

25

Page 26: Apache sparkでつぶやきビッグデータ クローンをつくってみた

26

女子大生好きおっさんしかいない・・・(呆れ)

Page 27: Apache sparkでつぶやきビッグデータ クローンをつくってみた

似たような感じで IT系のイベントの当日にSNSの盛り上がりを視覚的に計測表示することが簡単にできます。

是非次回以降の OSCや他の ITイベント、オタク系イベントでイベント展示の液晶モニタなどに表示して有効活用してください。

勿論 OSSです。

27

Page 28: Apache sparkでつぶやきビッグデータ クローンをつくってみた

Mikasaインストールについてインストールマニュアルhttps://gist.github.com/AKB428/c30bc6a979e05fa3a022• TwitterAPIと AmazonAPIのアカウントがあれば 1時間でセットアップ完了。

• AmazonAPIアカウントはリコメンドしない場合は不要。• TwitterAPIのアカウント取得も 10分程度で可能。Mikasa OL

https://github.com/AKB428/mikasa_ol

Mikasa RS

https://github.com/AKB428/mikasa_rs

28

Page 29: Apache sparkでつぶやきビッグデータ クローンをつくってみた

Sparkについて〜最近の情勢• 2015年 6月 15 日 IBMが開発者と研究者を 3500人 Spark関

連プロジェクトに投入 http://japan.zdnet.com/article/35065964/• 2015 年 6月 15〜 17 日 Spark summit 2015 開催 (サンフランシスコ )

• NTTデータ社が定期的に勉強会を実施• 国内のサービス実例は少ない• 2大 Hadoop ディストリビューション CDHと HDPには Sparkが搭載

• Spark1.4からは UIでモニタリングも行えるようになった。http://qiita.com/AKB428/items/71900eecdf2350e1e45f

29

Page 30: Apache sparkでつぶやきビッグデータ クローンをつくってみた

参考文献紹介 -1

「 Scala逆引きレシピ」• 他言語経験者で Scalaが初心者の方にお奨め、情報も新しく、 Playフレームワークや SBTの説明も豊富。

30

Page 31: Apache sparkでつぶやきビッグデータ クローンをつくってみた

参考文献紹介 -2

「 Learning Spark」• Sparkのコーディングはこれを読めば理解可能。• 英語初心者でもかなり読みやすい本なのでお奨め。今年日本語化されるらしい。

31

Page 32: Apache sparkでつぶやきビッグデータ クローンをつくってみた

32

ご清聴ありがとうございました