streaming analysis with distributed online machine ...€¦ · 関連文献 連 絡 先...
TRANSCRIPT
関連文献
連 絡 先
どんな研究 めざす未来 どこが凄い
物流/情報 管理 (SCM)
ビッグデータ分析の新たなニーズで
ある、(1)広範囲に散在する多様な
情報源のデータを統合し、(2)素早
いリアルタイム分析でリスクを最小
限に抑えて、(3)事前に全貌を把握
しきれない多様な要求にも柔軟に対
応できる処理基盤技術を開発しまし
た。
3つの要件「大量」「速い」「深
い」処理はトレードオフの関係です。
すべて両立することは本質的に困難
ですが、これを克服し、毎秒16メガ
バイトのデータ流量に対し、自然言
語解析と複数カテゴリへの自動分類
を、遅滞なく高速実行します。また
OSSとして広く公開しています。
世界規模でのオープンイノベーショ
ンとマーケット創造を推進し、リア
ルタイムマーケティングやスマート
な社会インフラマネージメントへの
適用拡大を図ります。
Streaming analysis with distributed online machine learning 2 ~フロー型ビッグデータを分散オンライン機械学習で分析~
[1] 岡野原大輔, 海野裕也, 熊崎宏樹, 小田哲, “大規模リアルタイム解析エンジンJubatus の創り方,” 情報処理学会デジタルプラクティス, Vol. 4, No. 1, pp. 20-28, 2013. [2] 小田哲, 中山心太, 上西康太, 木下真吾, “Jubatus : Big Dataのリアルタイム処理を可能にする分散処理技術,” 信学技報, Vol. 111, No. 409, IN2011-126, pp. 35-40, 2012. [3] H. Makino, “Jubatus: Scalable Distributed Processing Framework for Realtime Analysis of Big Data,” in Proc. XLDB2012, 2012.
Public & Science
Industry Legacy
気候、監視カメラ、医療 画像、DNA配列…
売上、顧客、製品、会計…
System Data
ログ、メッセージ、Web、スパムリスト…
Biz/Gov./Social
顧客関係 管理 (CRM)
企業資源 計画 (ERP/BI)
2 Real-Time Analysis 1 BigData Stream 3 Smart Action
実装済み解析エンジン
多値分類 :入力データを複数グループに分類
線形回帰 :入力データから出力データを推定
統計分析 :入力データの平均・エントロピーなど
推薦 :類似データの推薦、未知属性推定
グラフマイニング
:グラフ構造を持つデータの中心性、
異常検知 :与えられたデータ集合の中から 外れ値(異常値)を検知
デモ
特徴比較
・Twitterカテゴリ分類 ・スパムメール判定 ・株価予測 ・消費電力予測 ・センサ監視 ・検索連動広告 ・ECサイト商品推薦 ・インフルエンザ分析 ・交通状況分析 ・通信NW異常検知 …
深い分析
リアルタイム バッチ
単純
10倍高速
精度は割引
高度
, オ
ープ
ン
本技術は株式会社Preferred Infrastructureなどとともに、オープンソースコミュニティ上で開発を進めています。 http://jubat.us
最短パスの算出
押し寄せる膨大な 今 を瞬時に賢く分析する 「 」
堀川 桂太郎 (Keitaro Horikawa) NTT ソフトウェアイノベーションセンタ 分散処理基盤技術プロジェクト