クラウド上でのビッグデータ処理 サービスnysolの公開に向けて

18
クラウド上でのビッグデータ処理 サービスNYSOLの公開に向けて 中元政一 JST ERATO湊離散構造処理系プロジェクト 丸橋弘明 SCSK株式会社 前川浩基 株式会社Magne-Max data 羽室行信 関西学院大学経営戦略研究科 ERATO湊離散構造処理系プロジェクト 2013初夏のワークショップ 2013628()

Upload: dinhhanh

Post on 08-Feb-2017

262 views

Category:

Documents


7 download

TRANSCRIPT

Page 1: クラウド上でのビッグデータ処理 サービスNYSOLの公開に向けて

クラウド上でのビッグデータ処理サービスNYSOLの公開に向けて

中元政一 JST ERATO湊離散構造処理系プロジェクト 丸橋弘明 SCSK株式会社 前川浩基 株式会社Magne-Max data 羽室行信 関西学院大学経営戦略研究科

ERATO湊離散構造処理系プロジェクト 2013初夏のワークショップ

2013年6月28日(金)

Page 2: クラウド上でのビッグデータ処理 サービスNYSOLの公開に向けて

背景・目的

• ビッグデータがブームのようだが、その利用は限定的 • 研究者のツールは数多あるが、一般人には無縁 • 手軽に利用できるツール/サービスが少い

研究者が開発したビッグデータ関連技術を動作させるためのクラウド共通基盤NYSOLの開発。

Page 3: クラウド上でのビッグデータ処理 サービスNYSOLの公開に向けて

ビッグデータ解析基盤技術のクラウドサービスの構築:NYSOL

• 基礎技術 – GGP並列化:大規模表構造データの分散処理 – Hadoopを凌ぐ性能

• 研究者ツール – ZDD – Graphillion – LCM ...

• 応用 – GGP+LCM+ZDD応用

• 焼肉データの相関ルール分析

– ZDD応用 • ナップサック問題、N-Queen問題、魔方陣 • JRルート列挙:大阪近郊区間、東京近郊区間など

• オープンソース化 – ソースコード、マニュアル、チュートリアルの公開

• 現在は簡易なインターフェース – GGPリモートシェル(近い将来はGUIに) – ZDDリモートシェル(近い将来はGUIに)

Page 4: クラウド上でのビッグデータ処理 サービスNYSOLの公開に向けて

クラウドShell

• GGP、ZDDのテキスト

シェルインターフェースは実装済み。

• サーバーはアマゾン上に設置

• 数十台の並列化を行いたいが、予算の関係上2台で運用。

• デモ目的

GGPで焼肉データを解析している画面例

ZDDをクラウド上で実行している画面例

Page 5: クラウド上でのビッグデータ処理 サービスNYSOLの公開に向けて

JR近郊区間パス列挙

• バックエンドでGraphillionを利用

• 120円(130円)で行くJR

大回り旅の検索エンジンとしての利用を想定。

• 大阪、東京、福岡、新潟近郊区間が対象。

• 北海道は72年当時の路線図(少し厳密性に欠ける)を利用

• 駅弁販売駅をできるだけ多く通るルート列挙など「なんちゃって検索」も可能。

• アマゾン上で公開中

Page 6: クラウド上でのビッグデータ処理 サービスNYSOLの公開に向けて

大都市近郊区間大回りとは

• 旅客営業規則 第 157 条 2 項 大都市近郊区間内相互発着の普通乗車券及び普通回数乗車券(併用となるものを含む。)を所持する旅客は、その区間内においては、その乗車券の券面に表示された経路にかかわらず、同区間内の他の経路を選択して乗車することができる。

→ 一筆書きであれば、どれだけ遠回りしても料金は最短経路で 計算される!

• 近年は、この 「大回り」 を紹介した旅行ガイドが発売されるほど よく知られた “遊び”

• 東京近郊区間では「800 km 超えの旅も可能」 (1,000 km を超えるルートもあるが、1日で乗り切れない)

Page 7: クラウド上でのビッグデータ処理 サービスNYSOLの公開に向けて

東京近郊区間

出典: JR東日本 Webサイト http://www.jreast.co.jp/kippu/1103.html

Page 8: クラウド上でのビッグデータ処理 サービスNYSOLの公開に向けて

大阪近郊区間

出典: JR東日本 Webサイト http://www.jreast.co.jp/kippu/1103.html

Page 9: クラウド上でのビッグデータ処理 サービスNYSOLの公開に向けて

新潟/福岡近郊区間

出典: JR東日本 Webサイト http://www.jreast.co.jp/kippu/1103.html

Page 10: クラウド上でのビッグデータ処理 サービスNYSOLの公開に向けて

1980 年当時の北海道路線図

滝川〜砂川間の 1カットで東西に 2分割できてしまう

出典: 『交通公社の時刻表』 1980年10月号

Page 11: クラウド上でのビッグデータ処理 サービスNYSOLの公開に向けて

北海道路線図グラフ

1972 年に廃線となった 札沼線(学園都市線) 新十津川駅〜石狩沼田駅間を 復活させることでトポロジを複雑化してある

Page 12: クラウド上でのビッグデータ処理 サービスNYSOLの公開に向けて

『最長片道切符の旅』(宮脇俊三, 1983)

出典: 宮脇俊三 『最長片道切符の旅』 新潮文庫

Page 13: クラウド上でのビッグデータ処理 サービスNYSOLの公開に向けて

路線図グラフを用いた問題

• 最長路問題 – 長さが最大のパスを求める

• s-t 最長路問題

– s, t を端点とする、長さ最大のパスを求める

• 全点対最長路問題

– すべての s, t の組み合わせに対し、s-t 最長路問題の解を求める

• 最大経路差問題

– 端点が同じパス P1, P2 で、長さの差 |P1| - |P2| が最大のものを求める

• 最大経路数問題

– パス数が最も多い s, t の組み合わせを求める

Page 14: クラウド上でのビッグデータ処理 サービスNYSOLの公開に向けて

関連研究

• 東大旅行研究会, 「最長切符旅行」, 中央公論社, 世界の旅10 日本の発見, 1962. – 国鉄の鉄道網を用いた最長経路探索の先駆け

– 人力による探索

• 愛媛大学工学部 西泰英教授, 「多経路システムにおける最長もしくは最短経路の探索」, 1980 頃? – 宮脇俊三 『最長片道切符の旅』 内で紹介されている(p.141)

– コンピュータを使っているらしいが、それ以上のことは分からない

• 宮代隆平, 葛西隆也, 「最長片道切符」, オペレーションズ・リサーチ, 2004. – NHK の連続紀行番組(2004 年)がこの経路をベースとして放映された

• 堀山貴史, 「最長路問題と最大経路差問題 ─ その解法と JR 大都市近郊区間大回りへの応用 ─」, 日本オペレーションズ・リサーチ学会秋季研究発表会アブストラクト集 2009, 80-81, 2009.

Page 15: クラウド上でのビッグデータ処理 サービスNYSOLの公開に向けて

路線データ各種統計

地域 全駅路線図 乗換駅路線図

節点数 辺数 総距離 節点数 辺数 総距離

大阪 355 364 941.0km 26 34 924.3km

北海道 708 721 3,984km 74 86 3927.7km

東京 623 653 2055.6km 72 101 2037.9km

福岡 128 131 323.0km 19 22 323.0km

新潟 58 59 174.2km 7 7 159.0km

地域 次数nの駅数

次数1の駅名 最大次数の駅名 1 2 3 4 5

大阪 7 329

13

6 0 JR難波,和田岬,園部,桜島,東羽衣,関西空港,播州赤穂

京都,大阪,尼崎,木津,天王寺,京橋 (4次)

北海道 27

634

41

6 0 万字炭山,上砂川,仁宇布,函館,北見枝幸,北見滝ノ上,北見相生,北進など

中湧別,名寄,岩見沢,帯広,深川,砂川 (4次)

東京 18

551

34

16

4 いわき,黒磯,海芝浦,大川,扇町,久里浜,韮崎,銚子,成田空港,など

西船橋,拝島,赤羽,大宮 (5次)

福岡 8 109

8 3 0 博多南,門司港,鳥栖,行橋,若松,今山,西戸崎,宇美

折尾,香椎,長者原 (4次)

新潟 3 51 3 1 0 五泉,長岡,弥彦 新津 (4次)

Page 16: クラウド上でのビッグデータ処理 サービスNYSOLの公開に向けて

最多ルート駅ペア(隣接駅探索)

s-t 駅名 ルート数 最長距離(km)

駅数 探索s-t 総件数

処理時間

処理時間/件

大阪 京都-大阪 103 514.8 16 34 1.49 0.043

北海道 滝川-砂川 691 2053.4 35 86 4.14 0.048

東京 我孫子-成田 9,427,117 976.4 52 101 15.07 0.149

福岡 桂川-新飯塚 9 157.5 11 22 0.94 0.043

新潟 東三条-吉田 3 108.5 5 7 0.37 0.053

乗換駅路線図による探索

全駅路線図による探索

s-t 駅名 ルート数 最長距離 (km)

駅数 探索s-t 総件数

処理時間

処理時間/件

大阪 東淀川-新大阪 103 556.9 208 364 23.55 0.065

北海道 上徳富-北上徳富 691 2059.3 362 720 88.08 0.122

東京 布佐-木下 9,427,117

1007.4 331 653 2715 4.16

福岡 福工大前-九産大前 9 163.4 66 131 6.45 0.049

新潟 田上-矢代田 3 121.0 41 59 2.57 0.043 ルート数が等しい場合、最長距離が最も長い駅ペアを掲載している。

Page 17: クラウド上でのビッグデータ処理 サービスNYSOLの公開に向けて

最多ルート駅ペア(全対探索)

s-t 駅名 ルート数 最長距離(km)

駅数 探索s-t 総件数

処理時間

処理時間/件

大阪 播州赤穂-近江塩津 392 653.4 20 325 5.73 0.018

北海道 根室標津-松前 5,520 2176.6 44 2701 49.1 0.018

東京 磯子-上総亀山 26,440,720

1121.1 52 2556 143.8 0.0056

福岡 今山-博多南 14 200.0 11 171 2.82 0.016

新潟 東三条-新発田 4 87.7 5 21 0.32 0.015

乗換駅路線図による探索

全駅路線図による探索

s-t 駅名 ルート数 最長距離 (km)

駅数 探索s-t 総件数

処理 時間

処理時間/件

大阪 栗東-塚口 392 743.1 283 62790 29.6m 0.028

北海道 五十石-松前 5,520 2192.9 394 250121 231.7m 0.056

東京 未対応 - - - 339076 - -

福岡 原町-東水巻 16 200.3 81 8125 2.5m 0.019

新潟 越後石山-長岡 4 134.1 46 1653 0.5m 0.018

実行環境: amazon AWS: m3.2xlarge(8 cores, 26ECUs, 30GB memory) ルート数が等しい場合、最長距離が最も長い駅ペアを掲載している。

Page 18: クラウド上でのビッグデータ処理 サービスNYSOLの公開に向けて

最長ルート駅ペア探索

全対探索

隣接駅による探索

s-t 駅名 ルート数 最長距離 (km)

駅数

大阪 JR河内永和-,JR俊徳道 71 557.0 208

北海道 潮見町-紋別 413 2059.8 362

東京 西日暮里-日暮里 4,789,007

1016.8 340

福岡 博多-吉塚 7 163.4 66

新潟 田代-矢代田 3 121.0 41

s-t 駅名 ルート数 最長距離 (km)

駅数

大阪 JR難波-塚口 210 743.5 286

北海道 広尾-松前 3188 2403.8 427

東京 未対応 - - -

福岡 今山-水巻 10 210.2 85

新潟 北三条-長岡 3 142.2 48