apache sparkでつぶやきビッグデータクローンをつくってみた

1

秋葉原 IT戦略研究所http://akibalab.info/

野田純一

2015.8.8 京都OSC

Apache Spark でつぶやきビッグデータクローンをつくってみた

http://akibalab.info/

1. 自己紹介野田純一

2

Github:

https://github.com/AKB428

Twitter:

https://twitter.com/n428dev

Qiita:

http://qiita.com/AKB428

Hatena:

http://akb428.hatenablog.com/

Junichi Noda Larry Wall

https://github.com/AKB428

https://twitter.com/n428dev

http://qiita.com/AKB428

http://akb428.hatenablog.com/

3

↓これが作りたい

2014 7月 22 日 NHK

Sparkについて

• HadoopのMapReduceとは別アプローチ (DAG)での並列分散集計処理を行う

• インメモリー処理• 2015年 6月 11 日に 1.4.0 がリリース。

https://spark.apache.org/releases/spark-release-1-4-0.html• 1.4.0で SparkRが追加 (R言語で Sparkを利用できる）• APIを利用できる言語は Scala, Java, Python

4

SparkR

https://spark.apache.org/releases/spark-release-1-4-0.html

• Twitterストリームからデータを取得する。• Twitter Streaming APIを使う。• 400の検索キーワードが指定可能。• Spark Streamingでリアルタイム集計を行う。

6

7

• 日本語文章を単語にわけて分解して集計• 日本語を分解するため形態素解析ライブラリ

kuromojiを使う。• アニメ作品など標準辞書にない単語はユーザー辞書 (CSV)を用意。

形態素解析ライブラリの必要性について

8

ユーザー辞書の必要性について

9

画面デモ（直近 5分を毎分集計）(F1)2015年 3 期 TV アニメhttp://tv-anime.xyz/5/

(F1) ラブライブ http://tv-anime.biz/5/

(F2) ラブライブ http://lovelive-net.com/5/

(F2) 秋葉原 http://akiba-net.com/5/

(F2)関東 TV 番組 http://telev.net/5/

F1=ユーザー辞書に登録してある単語のみ集計F2=ユーザー辞書外の単語も集計

11

http://tv-anime.xyz/5/

http://tv-anime.biz/5/

http://lovelive-net.com/5/

http://akiba-net.com/5/

http://telev.net/5/

12

画面デモ（直近 60分を毎分集計）(F1)2015年 3 期 TV アニメhttp://tv-anime.xyz/60/

(F1) ラブライブ http://tv-anime.biz/60/

(F2) ラブライブ http://lovelive-net.com/60/

(F2) 秋葉原 http://akiba-net.com/60/

(F2)関東 TV 番組 http://telev.net/60/

F1=ユーザー辞書に登録してある単語のみ集計F2=ユーザー辞書外の単語も集計

http://tv-anime.xyz/60/

http://tv-anime.biz/60/

http://lovelive-net.com/60/

http://akiba-net.com/60/

http://telev.net/60/

2015年 7月 22日7月 22 日ラブライブ矢澤にこ誕生日

13

14

２０１５年７月２２日

過去のキャプチャ今期 (2015/夏期 )のアニメ

15

デモ：リコメンド Twitterボットhttps://twitter.com/Akihabaara_itso

https://twitter.com/AuctionMadoka

16

https://twitter.com/Akihabaara_itso

https://twitter.com/AuctionMadoka

実際の売上

17

18

京都 OSC 用つぶやきビックデータ

検索ハッシュタグ「 #osckansai」

http://2045.tokyo/5/


※URLの内容は 8/8当日のみ京都 OSC用になります



8/8 〜 12:00

19

8/8 12:24〜

20

8/8 13:20

21

8/8 15:10

22

8/8 15:20

23

8/8 15:40

24

8/8 16:10

25

26

女子大生好きおっさんしかいない・・・（呆れ）

似たような感じで IT系のイベントの当日にSNSの盛り上がりを視覚的に計測表示することが簡単にできます。

是非次回以降の OSCや他の ITイベント、オタク系イベントでイベント展示の液晶モニタなどに表示して有効活用してください。

勿論 OSSです。

27

Mikasaインストールについてインストールマニュアルhttps://gist.github.com/AKB428/c30bc6a979e05fa3a022• TwitterAPIと AmazonAPIのアカウントがあれば 1時間でセットアップ完了。

• AmazonAPIアカウントはリコメンドしない場合は不要。• TwitterAPIのアカウント取得も 10分程度で可能。Mikasa OL

https://github.com/AKB428/mikasa_ol

Mikasa RS

https://github.com/AKB428/mikasa_rs

28

https://gist.github.com/AKB428/c30bc6a979e05fa3a022

https://github.com/AKB428/mikasa_ol

https://github.com/AKB428/mikasa_rs

Sparkについて〜最近の情勢• 2015年 6月 15 日 IBMが開発者と研究者を 3500人 Spark関

連プロジェクトに投入 http://japan.zdnet.com/article/35065964/• 2015 年 6月 15〜 17 日 Spark summit 2015 開催 (サンフランシスコ )

• NTTデータ社が定期的に勉強会を実施• 国内のサービス実例は少ない• 2大 Hadoop ディストリビューション CDHと HDPには Sparkが搭載

• Spark1.4からは UIでモニタリングも行えるようになった。http://qiita.com/AKB428/items/71900eecdf2350e1e45f

29

http://japan.zdnet.com/article/35065964/

http://qiita.com/AKB428/items/71900eecdf2350e1e45f

参考文献紹介 -1

「 Scala逆引きレシピ」• 他言語経験者で Scalaが初心者の方にお奨め、情報も新しく、 Playフレームワークや SBTの説明も豊富。

30

参考文献紹介 -2

「 Learning Spark」• Sparkのコーディングはこれを読めば理解可能。• 英語初心者でもかなり読みやすい本なのでお奨め。今年日本語化されるらしい。

31

32

ご清聴ありがとうございました

apache sparkでつぶやきビッグデータ クローンをつくってみた

Technology

apache sparkでつぶやきビッグデータクローンをつくってみた