ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0...

53
ビッグデータ関連ソフトウェアの動向調査 2016年2月3日 日本OSS推進フォーラム ビッグデータ部会 発表者:富士通株式会社 野山孝太郎([email protected] Copyright 2015 Japan OSS Promotion Forum

Upload: others

Post on 04-Aug-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

ビッグデータ関連ソフトウェアの動向調査

2016年2月3日

日本OSS推進フォーラム

ビッグデータ部会発表者:富士通株式会社 野山孝太郎([email protected]

Copyright 2015 Japan OSS Promotion Forum

Page 2: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

本資料は、日本OSS推進フォーラム ビッグデータ部会 技術調査チームにて、ビッグデータ基盤を実現するオープンソースソフトウェアの動向を調査したものです。

本調査は、Webなどから一般的に収集可能な情報を元に最近の傾向を把握する為に実施しています。本調査結果のみを元に各ソフトウェアの良し悪しを論じるものではありません。

本調査は以下のメンバで実施しています。

中島 武史(日本電気株式会社)主査

井上 不二雄(日本アイ・ビー・エム株式会社)

小川 研之(WANdisco, plc.)

本多 洋司(株式会社PFU)

倉知 陽一(富士通株式会社)

野山 孝太郎(富士通株式会社)

Copyright 2015 Japan OSS Promotion Forum

はじめに

1

Page 3: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

主に、様々なデータを「収集・検知」する機能、収集・検知したデータを「蓄積・貯蔵」する機能、蓄積・貯蔵したデータを「分析」する機能から構成される

Copyright 2015 Japan OSS Promotion Forum

ビッグデータ基盤を構成する機能

データソース データ収集・検知 ビッグデータ蓄積・貯蔵・その他

高速化キャッシュ/スケールアウト

データ分析

分析用データ

解析ツール

Apache Hadoop MapReduce

Apache Hadoop YARN

Apache Mesos

Apache Spark

Apache Tez

並列分散処理

Apache Drill

Apache Hive

Apache Spark SQL

Impala

準リアルタイムクエリ

Apache ManifoldCF

Apache Nutch

クローラ

Apache Sqoop

Talend

データロード

Apache Flume

Fluentd

収集

Apache S4

Apache Spark

Streaming

Apache Storm

Esper

Drools Fusion

Jubatus

CEP

Apache Hadoop HDFS

Ceph

GlusterFS

Lustre

データ蓄積ファイルシステム

MIT Kerberos

OpenLDAP

セキュリティ/認証

MLib

機械学習

R言語

統計解析

Hinemos

Zabbix

運用管理/監視

Webデータ

売上情報など

センサデータ

システムログ

音声

画像

構造化データ

(業務RDB)

非構造化データ

Apache Sqoop

データロード

Apache Cassandra MongoDB

Apache Hbase Redis

Infinispan Riak

運用管理/監視

クローラ

データロード

収集

CEP

Complex Event

Processing

データ蓄積

ファイルシステム

並列分散処理

データロード

機械学習

統計解析

BI/BAツール

定型業務DB

インメモリDB

DWH/マートレスDBインメモリDG/分散KVS

セキュリティ/認証

準リアルタイムクエリ 全文検索エンジン

2

Page 4: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

ビッグデータ基盤をオープンソースをベースとして構成する事は十分に可能

ただし、個々のソフトウェアにおいて品質や成熟度が異なる為、見極めが必要

Copyright 2015 Japan OSS Promotion Forum

ビッグデータ基盤を構成する機能へのソフトウェアマッピング

データソース データ収集・検知 ビッグデータ蓄積・貯蔵・その他

高速化キャッシュ/スケールアウト

データ分析

分析用データ

解析ツール

Apache Hadoop MapReduce

Apache Hadoop YARN

Apache Mesos

Apache Spark

Apache Tez

並列分散処理

Apache ManifoldCF

Apache Nutch

クローラ

Apache Sqoop

Talend

データロード

Apache Flume

Apache Kafka

Fluentd

収集

Apache S4

Apache Spark

Streaming

Apache Storm

Esper

Drools Fusion

Jubatus

CEP

Apache Hadoop HDFS

Ceph

GlusterFS

Lustre

データ蓄積ファイルシステムMLib

機械学習

R言語

統計解析

Pentaho

JasperReports

SAS

MicroStorategy

BI/BAツール

Hinemos

Zabbix

運用管理/監視

MySQL

PostgreSQL

定型業務RDB

※OSSで著名なもの

はない

DWH/マートレスDB

Webデータ

売上情報など

センサデータ

システムログ

音声

画像

構造化データ

(業務RDB)

非構造化データ

Apache Sqoop

データロード

VoltDB

インメモリDB

Apache Cassandra MongoDB

Apache Hbase Redis

Infinispan Riak

インメモリDG/分散KVS

ElasticSearch

全文検索エンジン

MIT Kerberos

OpenLDAP

セキュリティ/認証

Apache Drill

Apache Hive

Apache Spark SQL

Impala

準リアルタイムクエリ

3

Page 5: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

該当ソフトウェアの3/4はApache License 2.0を採用

Apache Software Foundation管理のソフトウェアが多い事も理由の一つ

今後オープンソースベースの有償製品も拡大?(Apache Hadoopでは既に拡大)

Copyright 2015 Japan OSS Promotion Forum

採用しているオープンソースライセンス

Apache License 2.0

73.7%

GNU

General Public License

13.2%

GNU

Lesser General Public License

7.9%その他

5.3%

4

Page 6: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

最も利用されている言語は「Java」(55.2%)。

次いで「C/C++」(23.1%)、スクリプトでは「Python」(3.4%)がトップ。

Copyright 2015 Japan OSS Promotion Forum

どの様なプログラミング言語で開発されているか?

Java

55.2%C/C++

23.1%

XML

10.0%

Web

3.7%

Python

3.4%

JavaScript

2.8%

CSS

0.8%Ruby

0.8%PHP

0.4%

5

Page 7: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

Copyright 2015 Japan OSS Promotion Forum

開発の活性度そのソフトウェアは活発に開発されていますか?

6

Page 8: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

Apache Sparkが2014年頃から急成長

Copyright 2015 Japan OSS Promotion Forum

コミッター数の推移(月ごと)

0

20

40

60

80

100

120

140

160

Sep-9

7

Jan-9

8

May-9

8

Sep-9

8

Jan-9

9

May-9

9

Sep-9

9

Jan-0

0

May-0

0

Sep-0

0

Jan-0

1

May-0

1

Sep-0

1

Jan-0

2

May-0

2

Sep-0

2

Jan-0

3

May-0

3

Sep-0

3

Jan-0

4

May-0

4

Sep-0

4

Jan-0

5

May-0

5

Sep-0

5

Jan-0

6

May-0

6

Sep-0

6

Jan-0

7

May-0

7

Sep-0

7

Jan-0

8

May-0

8

Sep-0

8

Jan-0

9

May-0

9

Sep-0

9

Jan-1

0

May-1

0

Sep-1

0

Jan-1

1

May-1

1

Sep-1

1

Jan-1

2

May-1

2

Sep-1

2

Jan-1

3

May-1

3

Sep-1

3

Jan-1

4

May-1

4

Sep-1

4

Jan-1

5

May-1

5

Sep-1

5

Apache Cassandra Apache Drill Apache Flume Apache Hadoop Apache HBase

Apache Hive Apache Kafka Apache ManifoldCF Apache Mesos Apache Nutch

Apache S4 Apache Spark Apache Sqoop Apache Storm Ceph

Drools Fusion Elasticsearch Esper Fluentd GlusterFS

Impala Infinispan JasperReports Lustre MongoDB

Pentaho R Redis Riak Talend

VoltDB

Apache Spark

Talend

7

Page 9: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

Apache Sparkが2014年から急成長

13年:27.8 → 14年:72.1 → 15年:114.7

Copyright 2015 Japan OSS Promotion Forum

月平均コミッター数(2015年)

0.0

0.0

0.5

2.0

2.6

3.0

3.8

4.7

5.3

5.7

5.8

6.2

6.9

8.3

15.1

17.3

21.4

21.5

25.5

26.2

27.8

28.1

31.3

35.3

38.0

38.3

39.7

48.7

114.7

0.0 20.0 40.0 60.0 80.0 100.0 120.0 140.0

Apache S4

Impala

Esper

Apache Flume

Apache ManifoldCF

Apache Sqoop

JasperReports

Apache Nutch

Redis

Fluentd

Apache Hive

Talend

Riak

R

Infinispan

Apache Drill

Apache Kafka

Apache Storm

Apache HBase

Drools Fusion

Apache Mesos

VoltDB

Apache Cassandra

Elasticsearch

MongoDB

Apache Hadoop

GlusterFS

Ceph

Apache Spark

8

Page 10: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

年平均成長率ではApache Drillがトップ

Apache Sparkの他、Apache Mesosも急激に増加

Copyright 2015 Japan OSS Promotion Forum

コミッター数の年平均成長率(2011年から2015年)

-52.6%

-40.2%

-17.4%

-14.1%

-11.1%

-1.7%

0.0%

2.4%

4.5%

5.6%

6.9%

9.3%

11.7%

15.9%

18.7%

25.6%

28.2%

29.3%

31.3%

40.3%

45.9%

49.9%

52.8%

53.0%

60.8%

63.6%

144.4%

150.4%

184.4%

-100.0% -50.0% 0.0% 50.0% 100.0% 150.0% 200.0%

Apache S4

Talend

Riak

Esper

Apache Flume

Apache Hive

JasperReports

R

Apache ManifoldCF

Apache Sqoop

Redis

Infinispan

Drools Fusion

Apache Nutch

Fluentd

GlusterFS

Apache Hadoop

MongoDB

Apache HBase

VoltDB

Ceph

Elasticsearch

Apache Cassandra

Impala

Apache Kafka

Apache Storm

Apache Mesos

Apache Spark

Apache Drill

9

Page 11: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

Apache Cassandra

Apache Drill

Apache Flume

Apache HadoopApache HBase

Apache Hive

Apache Kafka

Apache ManifoldCF

Apache Mesos

Apache Nutch

Apache S4

Apache Spark

Apache Sqoop

Apache Storm

Ceph

Drools Fusion

Elasticsearch

Esper

Fluentd

GlusterFS

Impala

Infinispan

JasperReportsMongoDB

R

Redis

Riak

Talend

VoltDB

-200.0%

-150.0%

-100.0%

-50.0%

0.0%

50.0%

100.0%

150.0%

200.0%

250.0%

0.0 20.0 40.0 60.0 80.0 100.0 120.0

Copyright 2015 Japan OSS Promotion Forum

月平均コミッター数(横軸)と年平均成長率(縦軸)

開発者の数も多く

ますます増加中

開発者の数は

まだまだ少ないが

急増中

10

Page 12: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

Elasticsearchの開発が活性化

コミッター数の増加に比例してApache Sparkの開発も活発

Copyright 2015 Japan OSS Promotion Forum

コミット数の推移

0

200

400

600

800

1000

1200

1400

1600

1800

Sep-9

7

Jan-9

8

May-9

8

Sep-9

8

Jan-9

9

May-9

9

Sep-9

9

Jan-0

0

May-0

0

Sep-0

0

Jan-0

1

May-0

1

Sep-0

1

Jan-0

2

May-0

2

Sep-0

2

Jan-0

3

May-0

3

Sep-0

3

Jan-0

4

May-0

4

Sep-0

4

Jan-0

5

May-0

5

Sep-0

5

Jan-0

6

May-0

6

Sep-0

6

Jan-0

7

May-0

7

Sep-0

7

Jan-0

8

May-0

8

Sep-0

8

Jan-0

9

May-0

9

Sep-0

9

Jan-1

0

May-1

0

Sep-1

0

Jan-1

1

May-1

1

Sep-1

1

Jan-1

2

May-1

2

Sep-1

2

Jan-1

3

May-1

3

Sep-1

3

Jan-1

4

May-1

4

Sep-1

4

Jan-1

5

May-1

5

Sep-1

5

Apache Cassandra Apache Drill Apache Flume Apache Hadoop Apache HBase

Apache Hive Apache Kafka Apache ManifoldCF Apache Mesos Apache Nutch

Apache S4 Apache Spark Apache Sqoop Apache Storm Ceph

Drools Fusion Elasticsearch Esper Fluentd GlusterFS

Impala Infinispan JasperReports Lustre MongoDB

Pentaho R Redis Riak Talend

VoltDB

Apache Spark

Elasticsearch

11

Page 13: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

Elasticsearchの開発が活性化

コミッター数の増加に比例してApache Sparkの開発も活発

Copyright 2015 Japan OSS Promotion Forum

月平均コミット数(2015年)

0.0

0.0

3.8

6.3

7.7

16.9

18.9

25.2

28.5

37.7

38.5

43.8

51.1

63.4

72.3

75.6

139.0

152.4

182.3

182.7

212.6

244.1

246.7

323.8

351.2

354.8

705.1

838.3

1167.5

0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0

Apache S4

Impala

Esper

Apache Flume

Apache Sqoop

Apache ManifoldCF

Apache Nutch

Talend

Riak

Fluentd

Apache Hive

JasperReports

Redis

Apache Kafka

Apache Drill

Infinispan

Apache HBase

R

Drools Fusion

Apache Storm

Apache Mesos

VoltDB

Apache Hadoop

Apache Cassandra

MongoDB

GlusterFS

Ceph

Apache Spark

Elasticsearch

12

Page 14: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

Copyright 2015 Japan OSS Promotion Forum

コミッター数(縦軸)とコミット数(横軸)の相関

Apache Cassandra

Apache Drill

Apache Flume

Apache Hadoop

Apache HBase

Apache Hive

Apache Kafka

Apache ManifoldCF

Apache Mesos

Apache Nutch

Apache S4

Apache Spark

Apache Sqoop

Apache Storm

Ceph

Drools Fusion

Elasticsearch

Esper

Fluentd

GlusterFS

Impala

Infinispan

JasperReports

MongoDB

RRedis

RiakTalend

VoltDB

0.0

20.0

40.0

60.0

80.0

100.0

120.0

140.0

0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0

開発者の数は

比較的少ないが

開発は非常に活性

(頑張ってますね!)

開発者の数も多く

開発も活発

13

Page 15: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

Gitにコミットされた日の割合(稼働率)ではElasticsearchがトップ

週休1日以下で頑張っている模様

Copyright 2015 Japan OSS Promotion Forum

開発のアクティビティ

21.03%

21.05%

21.47%

25.00%

26.33%

27.62%

31.22%

34.06%

38.90%

41.69%

48.74%

52.91%

53.77%

54.81%

54.98%

56.68%

56.85%

57.22%

62.90%

66.54%

67.20%

67.65%

69.74%

69.92%

70.16%

75.17%

78.27%

78.53%

81.81%

85.60%

85.77%

86.45%

91.19%

0.00% 10.00% 20.00% 30.00% 40.00% 50.00% 60.00% 70.00% 80.00% 90.00% 100.00%

Apache Sqoop

JasperReports

Esper

Apache Nutch

Talend

Apache S4

Apache Flume

Riak

Fluentd

Jubatus

Apache Kafka

Apache ManifoldCF

Apache Hadoop MapReduce

Apache Mesos

Apache Drill

Ceph

Redis

Apache Hadoop HDFS

Apache Tez

Apache Storm

Pentaho

Impala

Apache Hive

Drools Fusion

Apache Spark

Infinispan

Apache HBase

GlusterFS

VoltDB

Apache Hadoop Common

Apache Cassandra

MongoDB

Elasticsearch

14

Page 16: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

Copyright 2015 Japan OSS Promotion Forum

月平均コミット数(横軸)と稼働率(縦軸)の関係

Apache Cassandra

Apache Drill

Apache Flume

Apache Hadoop

Apache HBase

Apache Hive

Apache Kafka

Apache ManifoldCFApache Mesos

Apache Nutch

Apache S4

Apache Spark

Apache Sqoop

Apache Storm

Ceph

Drools Fusion

Elasticsearch

Esper

Fluentd

GlusterFS

Impala

Infinispan

JasperReports

MongoDB

Redis

Riak

Talend

VoltDB

0.00%

10.00%

20.00%

30.00%

40.00%

50.00%

60.00%

70.00%

80.00%

90.00%

100.00%

0 200 400 600 800 1000 1200 1400

稼働率はあまり高くないが

開発は活発

(一気にやるタイプ)

稼働率が高く

開発も活発

(コツコツやるタイプ)

15

Page 17: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

2006年~2009年にかけてApache Hadoopの議論が活性化

最近はApache HiveやApache Storm、Apache Kafkaの議論が活発

Copyright 2015 Japan OSS Promotion Forum

開発者向けメーリングリストの流量推移

0

1000

2000

3000

4000

5000

6000

7000

Apr-

97

Sep-9

7

Feb-9

8

Jul-

98

Dec-9

8

May-9

9

Oct-

99

Mar-

00

Aug-0

0

Jan-0

1

Jun-0

1

Nov-0

1

Apr-

02

Sep-0

2

Feb-0

3

Jul-

03

Dec-0

3

May-0

4

Oct-

04

Mar-

05

Aug-0

5

Jan-0

6

Jun-0

6

Nov-0

6

Apr-

07

Sep-0

7

Feb-0

8

Jul-

08

Dec-0

8

May-0

9

Oct-

09

Mar-

10

Aug-1

0

Jan-1

1

Jun-1

1

Nov-1

1

Apr-

12

Sep-1

2

Feb-1

3

Jul-

13

Dec-1

3

May-1

4

Oct-

14

Mar-

15

Aug-1

5

Apache Cassandra Apache Drill Apache Flume Apache Hadoop Common

Apache Hadoop HDFS Apache Hadoop MapReduce Apache Hadoop YARN Apache HBase

Apache Hive Apache Kafka Apache ManifoldCF Apache Mesos

Apache Nutch Apache S4 Apache Spark Apache Sqoop

Apache Storm Apache Tez GlusterFS Lustre

R

Apache Hive

Apache Hadoop

Apache

Storm

Apache

Kafka

16

Page 18: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

Apache KafkaやApache Stormの議論が活性化

Apache Hiveは2014年をピークとして2015年は落ち着いている模様

Copyright 2015 Japan OSS Promotion Forum

開発者向けメーリングリストの月平均流量(2015年)

0.8

73.3

88.4

152.8

187.3

208.0

221.9

343.5

350.5

350.7

473.8

500.0

501.3

692.8

725.3

787.3

833.9

1118.7

1568.1

1764.3

0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 1600.0 1800.0 2000.0

Apache S4

Apache Cassandra

Apache Tez

R

Apache ManifoldCF

Apache Hadoop MapReduce

Apache Flume

GlusterFS

Apache Hadoop Common

Apache Nutch

Apache Spark

Apache Hadoop HDFS

Apache HBase

Apache Hadoop YARN

Apache Mesos

Apache Drill

Apache Sqoop

Apache Hive

Apache Storm

Apache Kafka

開発は活性化しているが

メーリングリストベースの議論は

あまり多くない

17

Page 19: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

Copyright 2015 Japan OSS Promotion Forum

コミット数(横軸)とメールでの議論量(縦軸)の関係

Apache Drill

Apache Flume

Apache Hadoop

Apache HBase

Apache Hive

Apache Kafka

Apache ManifoldCF

Apache Mesos

Apache Nutch

Apache S4

Apache Spark

Apache Sqoop

Apache Storm

GlusterFS

R

0

200

400

600

800

1,000

1,200

1,400

1,600

1,800

2,000

0 100 200 300 400 500 600 700 800 900

議論よりも実践

実践よりも

まずは議論

18

Page 20: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

この割合が高いほど特定開発者の影響力が強いコミュニティと言える(かも)

Copyright 2015 Japan OSS Promotion Forum

最も開発している人のコミット割合

8.07%

8.69%

9.31%

9.45%

10.56%

11.04%

13.46%

14.36%

15.79%

16.43%

16.56%

16.75%

16.79%

17.90%

18.40%

19.29%

21.11%

24.32%

24.34%

26.62%

27.05%

27.43%

30.52%

33.88%

34.39%

34.55%

43.88%

45.15%

62.65%

65.78%

75.38%

75.64%

90.63%

0.00% 10.00% 20.00% 30.00% 40.00% 50.00% 60.00% 70.00% 80.00% 90.00% 100.00%

GlusterFS

Apache Hadoop Common

Pentaho

Riak

VoltDB

Apache Spark

Elasticsearch

Apache Nutch

Impala

Infinispan

Apache Hadoop MapReduce

Apache Hadoop HDFS

Apache Drill

Jubatus

Apache Hive

Apache Kafka

MongoDB

Apache Flume

Apache Storm

Drools Fusion

Apache Tez

Apache Mesos

Apache Cassandra

Apache Sqoop

Fluentd

Apache HBase

Ceph

Apache S4

Talend

JasperReports

Redis

Esper

Apache ManifoldCF

19

Page 21: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

この割合が高いほど少人数の開発者の影響力が強いコミュニティと言える(かも)

Copyright 2015 Japan OSS Promotion Forum

コミット数1位から5位のコミット割合

30.57%

33.01%

33.37%

34.64%

39.34%

44.61%

46.18%

47.44%

47.59%

50.08%

51.46%

52.31%

52.55%

55.20%

55.64%

57.44%

58.27%

58.80%

61.06%

63.57%

65.67%

65.80%

67.29%

72.30%

78.72%

82.65%

88.49%

92.07%

92.19%

96.39%

98.31%

99.99%

100.00%

0.00% 20.00% 40.00% 60.00% 80.00% 100.00% 120.00%

Apache Spark

Apache Hadoop Common

GlusterFS

Pentaho

Riak

Apache Kafka

Apache Hive

VoltDB

Elasticsearch

MongoDB

Apache Hadoop MapReduce

Apache Drill

Infinispan

Apache Hadoop HDFS

Apache HBase

Impala

Apache Mesos

Apache Storm

Apache Nutch

Jubatus

Apache Cassandra

Ceph

Drools Fusion

Fluentd

Apache Flume

Apache Sqoop

Apache Tez

Talend

Redis

Apache ManifoldCF

Apache S4

JasperReports

Esper

20

Page 22: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

Copyright 2015 Japan OSS Promotion Forum

Top1(横軸)とTop1~5(縦軸)の関係

Apache Cassandra

Apache Drill

Apache Flume

Apache Hadoop Common

Apache Hadoop HDFS

Apache Hadoop MapReduce

Apache HBase

Apache HiveApache Kafka

Apache ManifoldCF

Apache MesosApache Nutch

Apache S4

Apache Spark

Apache Sqoop

Apache Storm

Apache Tez

CephDrools Fusion

Elasticsearch

Esper

Fluentd

GlusterFS

Impala

Infinispan

JasperReports

Jubatus

MongoDB

Pentaho

Redis

Riak

Talend

VoltDB

0.00%

50.00%

100.00%

0.00% 50.00% 100.00%

主導型開発少人数先導型開発

コミュニティ型開発

開発が活性化しているプロジェクトは

コミュニティ型開発が多い

(やはりコミュニティは大事!)

21

Page 23: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

Copyright 2015 Japan OSS Promotion Forum

利用の活性度そのソフトウェアは皆に利用されていますか?

22

Page 24: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

利用者メーリングリストでもApache Sparkが圧倒的に活発

Copyright 2015 Japan OSS Promotion Forum

利用者向けメーリングリストの流量推移

0

500

1000

1500

2000

2500

3000

Mar-

05

Jun-0

5

Sep-0

5

Dec-0

5

Mar-

06

Jun-0

6

Sep-0

6

Dec-0

6

Mar-

07

Jun-0

7

Sep-0

7

Dec-0

7

Mar-

08

Jun-0

8

Sep-0

8

Dec-0

8

Mar-

09

Jun-0

9

Sep-0

9

Dec-0

9

Mar-

10

Jun-1

0

Sep-1

0

Dec-1

0

Mar-

11

Jun-1

1

Sep-1

1

Dec-1

1

Mar-

12

Jun-1

2

Sep-1

2

Dec-1

2

Mar-

13

Jun-1

3

Sep-1

3

Dec-1

3

Mar-

14

Jun-1

4

Sep-1

4

Dec-1

4

Mar-

15

Jun-1

5

Sep-1

5

Dec-1

5

Apache Cassandra Apache Drill Apache Flume Apache Hadoop

Apache Hadoop Common Apache Hadoop HDFS Apache Hadoop MapReduce Apache HBase

Apache Hive Apache Kafka Apache ManifoldCF Apache Mesos

Apache Nutch Apache S4 Apache Spark Apache Sqoop

Apache Storm Apache Tez GlusterFS Lustre

Riak

Apache Spark

Apache Casandra

Apache Hadoop

Common

23

Page 25: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

利用者メーリングリストでもApache Sparkが圧倒的に活発

Copyright 2015 Japan OSS Promotion Forum

利用者向けメーリングリストの月平均流量(2015年)

0.8

54.9

64.7

67.5

70.3

77.3

98.1

130.7

279.4

281.6

290.6

320.9

321.2

321.8

321.9

325.2

334.7

416.1

453.9

519.4

836.5

2,192.2

0.0 500.0 1,000.0 1,500.0 2,000.0 2,500.0

Apache S4

Apache ManifoldCF

Apache Sqoop

Apache Tez

Lustre

Apache Flume

Apache Nutch

Riak

Apache Drill

Apache Hive

Apache Mesos

Apache Hadoop

Apache Hadoop MapReduce

Apache Hadoop Common

Apache Hadoop HDFS

Apache HBase

Apache Storm

GlusterFS

Apache Cassandra

Apache Kafka

Ceph

Apache Spark

24

Page 26: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

Copyright 2015 Japan OSS Promotion Forum

開発者(横軸)/利用者(縦軸)メール流量の関係

Apache Cassandra

Apache DrillApache Flume

Apache Hadoop Common

Apache Hadoop HDFS

Apache Hadoop MapReduceApache HBase

Apache Hive

Apache ManifoldCF

Apache Mesos

Apache Nutch

Apache S4

Apache Spark

Apache Sqoop

Apache Storm

Apache Tez

Ceph

GlusterFS

Lustre

Apache Kafka

0

500

1000

1500

2000

2500

0 200 400 600 800 1000 1200 1400 1600 1800 2000

開発者の議論が活発

利用者の議論が活発

※Apache Sparkの場合

開発自体は非常に活発だが

メールベースの議論は少なめ

25

Page 27: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

Rは言語系や統計系の観点で書籍多数(450冊、グラフからは削除)

次いでApache Hadoop、MongoDBなどメジャーなソフトウェアが続く

Copyright 2015 Japan OSS Promotion Forum

書籍数(日本語)

0

0

0

0

0

0

0

0

0

0

1

1

1

1

1

1

2

2

3

3

3

4

5

9

10

15

15

17

25

35

0 5 10 15 20 25 30 35 40

Apache Drill

Apache Flume

Apache S4

Apache Sqoop

Apache Storm

Drools Fusion

Esper

Impala

Lustre

Talend

Apache Tez

Ceph

GlusterFS

Infinispan

JasperReports

VoltDB

Apache Nutch

Jubatus

Apache Mesos

Pentaho

Riak

Apache Hive

Apache Spark

Apache ManifoldCF

Fluentd

Apache Cassandra

Apache HBase

Redis

MongoDB

Apache Hadoop

26

Page 28: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

日本語書籍と大きく傾向は変わらず(Rは6,613冊、グラフからは削除)

Fluentd、Jubatusなど日本人が中心となって開発しているソフトウェアは順位を落とす

Copyright 2015 Japan OSS Promotion Forum

書籍数(英語)

0

1

2

7

14

15

15

16

16

17

17

17

17

20

21

24

26

28

47

49

50

58

59

64

99

162

170

170

274

635

0 100 200 300 400 500 600 700

Jubatus

Fluentd

VoltDB

Apache ManifoldCF

Ceph

GlusterFS

Infinispan

Apache Tez

Esper

Apache Drill

Apache Mesos

Apache S4

Riak

Lustre

JasperReports

Talend

Impala

Drools Fusion

Pentaho

Apache Flume

Apache Nutch

Apache Storm

Apache Sqoop

Apache Spark

Redis

Apache Hive

Apache Cassandra

Apache HBase

MongoDB

Apache Hadoop

27

Page 29: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

Redisが圧倒的に好評価

商用展開されているソフトウェアに関しては組織票があるのかも(?)

Copyright 2015 Japan OSS Promotion Forum

GitHubのスター数

4

13

21

22

30

65

78

139

150

417

449

457

460

476

489

503

625

654

716

1,189

1,416

1,625

1,799

2,312

2,369

2,482

3,491

5,967

15,320

0 2,000 4,000 6,000 8,000 10,000 12,000 14,000 16,000 18,000

Apache Hadoop Common

Apache Hadoop MapReduce

Apache Hadoop HDFS

Apache ManifoldCF

Apache S4

Esper

Apache Tez

Apache Sqoop

Pentaho

Infinispan

Apache HBase

Apache Nutch

Apache Flume

Drools Fusion

Jubatus

Apache Drill

GlusterFS

VoltDB

Apache Hive

Apache Hadoop

Impala

Ceph

Apache Mesos

Riak

Apache Cassandra

Apache Storm

Fluentd

Apache Spark

Redis

28

Page 30: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

Twitterアカウントの開設時期にも寄るがMongoDBが圧倒的に多数

次いでApache Cassandra、Apache Hadoopが人気

Copyright 2015 Japan OSS Promotion Forum

Twitterのフォロアー数

3

21

32

32

144

145

262

609

827

945

990

2,122

3,956

5,263

5,995

10,379

11,605

11,899

13,427

15,012

25,263

32,934

204,787

0 50,000 100,000 150,000 200,000 250,000

Apache Sqoop

GlusterFS

Apache ManifoldCF

JasperReports

Apache Tez

Apache Storm

Apache Nutch

Apache Hive

Fluentd

Jubatus

Infinispan

Apache Drill

Ceph

VoltDB

Apache HBase

Apache Spark

Talend

Redis

Pentaho

Apache Mesos

Apache Hadoop

Apache Cassandra

MongoDB

29

Page 31: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

国内で有償版または有償サポートが提供されているソフトウェアは赤字

ビッグデータ基盤を有償サポート付きOSSで実現することは充分に可能

Jubatusなどクラウドでサービス提供されているソフトウェアもあり

Copyright 2015 Japan OSS Promotion Forum

有償サポートの有無

データソース データ収集・検知 ビッグデータ蓄積・貯蔵・その他

高速化キャッシュ/スケールアウト

データ分析

分析用データ

解析ツール

Apache Hadoop MapReduce

Apache Hadoop YARN

Apache Mesos

Apache Spark

Apache Tez

並列分散処理

Apache ManifoldCF

Apache Nutch

クローラ

Apache Sqoop

Talend

データロード

Apache Flume

Apache Kafka

Fluentd

収集

Apache S4

Apache Spark

Streaming

Apache Storm

Esper

Drools Fusion

Jubatus

CEP

Apache Hadoop HDFS

Ceph

GlusterFS

Lustre

データ蓄積ファイルシステムMLib

機械学習

R言語

統計解析

Pentaho

JasperReports

SAS

MicroStorategy

BI/BAツール

Hinemos

Zabbix

運用管理/監視

MySQL

PostgreSQL

定型業務RDB

※OSSで著名なもの

はない

DWH/マートレスDB

Webデータ

売上情報など

センサデータ

システムログ

音声

画像

構造化データ

(業務RDB)

非構造化データ

Apache Sqoop

データロード

VoltDB

インメモリDB

Apache Cassandra MongoDB

Apache Hbase Redis

Infinispan Riak

インメモリDG/分散KVS

ElasticSearch

全文検索エンジン

MIT Kerberos

OpenLDAP

セキュリティ/認証

Apache Drill

Apache Hive

Apache Spark SQL

Impala

準リアルタイムクエリ

30

Page 32: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

The Linux Foundation SI Forumの2015年度活用動向調査より

全体的に拡大傾向にはあるが、本格的な導入はまだまだこれからという印象

Copyright 2015 Japan OSS Promotion Forum

利用実績

導入実績多数 Apache Hadoop, GlusterFS, MongoDB, JasperReports

導入実績あり Talend, Fluentd, Jubatus, Apache Spark, Ceph, R, Lustre, Apache Cassandra, Apache Hbase, Redis, Elasticsearch, Pentaho

検証実績あり VoltDB

導入/検証実績なし

上記以外(という少し残念な結果)

31

Page 33: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

Copyright 2015 Japan OSS Promotion Forum

ソフトウェアの品質そのソフトウェアは安心して利用できますか?

32

Page 34: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

Apache ManifoldCF、GlusterFS、Rなどでバグの解決率が高い

もっとも低いApache Stormにおいても6割のバグは解決済み

Copyright 2015 Japan OSS Promotion Forum

バグ解決率(全体)

60.4%

65.8%

67.8%

71.6%

71.9%

72.0%

72.1%

72.1%

73.6%

73.8%

73.9%

74.1%

74.3%

75.5%

76.0%

77.9%

79.5%

80.8%

81.6%

81.8%

83.0%

84.4%

86.7%

86.9%

88.1%

89.2%

93.1%

94.0%

95.7%

0.0% 20.0% 40.0% 60.0% 80.0% 100.0% 120.0%

Apache Storm

Apache Mesos

Apache Drill

Apache Hadoop YARN

Lustre

VoltDB

Riak

Apache Flume

Apache Kafka

Apache Tez

Apache Hive

Drools Fusion

Apache Hadoop HDFS

Impala

Apache Hadoop MapReduce

Apache Sqoop

Pentaho

Apache Spark

MongoDB

Ceph

Apache Nutch

Apache Hadoop Common

Apache HBase

Jubatus

Fluentd

Apache Cassandra

R

GlusterFS

Apache ManifoldCF

33

Page 35: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

重要バグの解決率に限定すると約8割以上は解決済み

こちらもApache ManifoldCFは解決率が非常に高い

Copyright 2015 Japan OSS Promotion Forum

バグ解決率(重要※Blocker/Criticalレベル)

77.2%

79.3%

79.8%

83.6%

84.4%

84.4%

85.7%

86.7%

86.8%

86.9%

88.2%

88.3%

88.4%

90.8%

91.5%

91.8%

92.8%

93.0%

94.6%

94.9%

96.3%

96.4%

96.9%

97.1%

97.4%

99.1%

0.0% 20.0% 40.0% 60.0% 80.0% 100.0% 120.0%

Apache Storm

Apache Sqoop

Drools Fusion

Apache Drill

Apache Hive

Impala

Apache Flume

Apache Hadoop YARN

Apache Mesos

Pentaho

Apache Tez

Apache Hadoop HDFS

Lustre

Apache Spark

VoltDB

Apache Kafka

Apache HBase

Apache Nutch

MongoDB

Apache Hadoop Common

Ceph

Apache Cassandra

GlusterFS

Apache Hadoop MapReduce

R

Apache ManifoldCF

34

Page 36: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

Copyright 2015 Japan OSS Promotion Forum

コミット数(横軸)と重要バグ解決率(縦軸)の関係

Apache Cassandra

Apache Drill

Apache Flume

Apache Hadoop

Apache HBase

Apache Hive

Apache Kafka

Apache ManifoldCF

Apache Mesos

Apache Nutch

Apache Spark

Apache Sqoop

Apache Storm

Ceph

Drools Fusion

GlusterFS

MongoDB

R

VoltDB

70.00%

80.00%

90.00%

100.00%

0 100 200 300 400 500 600 700 800 900

開発も活発に行われており

重要バグ解決率も高め

開発も活発ではないが

重要バグ解決率は高め

(≒安定)

重要バグ解決率がやや低く

開発も非活性

(要ウォッチ)

35

Page 37: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

全体的に脆弱性の検出は少ない

一番多いJasperReportsでも11年トータルで10件、次いでMongoDBの7件

Copyright 2015 Japan OSS Promotion Forum

脆弱性(2006年から2016年)

0

1

2

3

4

2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016

Apache Cassandra Apache Drill Apache Flume Apache Hadoop Apache HBase

Apache Hive Apache ManifoldCF Apache Mesos Apache Nutch Apache S4

Apache Spark Apache Sqoop Apache Storm Apache Tez Ceph

Drools Fusion Esper Fluentd GlusterFS Impala

Infinispan JasperReports Jubatus Lustre MongoDB

Pentaho R Redis Riak Talend

VoltDB VoltDB

MongoDB

JasperReports

Pentaho

36

Page 38: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

SonarQubeのソースコード解析機能で抽出した重複率

Apache S4、Redisなどは重複が少なく良いソースコードの模様

Copyright 2015 Japan OSS Promotion Forum

ソースコード品質:重複率

69.0%

27.7%

22.6%

21.1%

20.8%

20.2%

19.7%

19.2%

18.4%

14.5%

11.9%

9.0%

9.0%

7.7%

7.7%

7.4%

6.1%

5.6%

4.9%

4.5%

4.4%

4.3%

3.8%

3.0%

2.7%

2.7%

2.3%

1.7%

0.0% 10.0% 20.0% 30.0% 40.0% 50.0% 60.0% 70.0% 80.0%

Riak

Apache Nutch

Apache Hive

MongoDB

Drools

Apache ManifoldCF

Apache Hbase

Pentaho

Impala

Apache Hadoop YARN

Apache Cassandra

Apache Flume

Apache Mesos

Apache Sqoop

Esper

Apache Tez

Apache Drill

GlusterFS

Jubatus

R

Apache Hadoop HDFS

Apache Hadoop MapReduce

Ceph

Apache Spark

Apache Storm

Lustre

Redis

Apache S4

ソースコードの

重複が少ない

(≒高品質)

37

Page 39: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

SonarQubeのソースコード解析機能で抽出したソースコード全体の複雑度

Apache Hadoop YARN、Apache S4、Jubatusは比較的簡易なロジック

Copyright 2015 Japan OSS Promotion Forum

ソースコード品質:複雑度

251,416

216,460

206,185

160,555

128,728

113,628

75,733

66,009

60,045

59,487

49,430

46,337

44,387

42,705

25,197

19,617

16,867

13,274

12,923

12,190

11,105

10,728

9,185

8,956

8,044

2,793

1,919

1,807

0 50,000 100,000 150,000 200,000 250,000 300,000

Impala

Apache Hive

Apache Hbase

MongoDB

Pentaho

Drools

Esper

Apache Cassandra

Apache Drill

Ceph

R

Apache Spark

Apache ManifoldCF

Riak

Apache Mesos

Apache Tez

Apache Hadoop HDFS

Apache Flume

Apache Sqoop

Redis

Apache Hadoop MapReduce

GlusterFS

Lustre

Apache Nutch

Apache Storm

Jubatus

Apache S4

Apache Hadoop YARN

ソースコードの

複雑度が少ない

(≒高品質)

38

Page 40: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

重複率と複雑度(全体)の間には軽い相関関係がある模様

ただし、Apache Nutchなどを始め、重複は多いが複雑ではないソフトウェアも複数

Copyright 2015 Japan OSS Promotion Forum

重複率(横軸)と複雑度(縦軸)の関係

Apache CassandraApache Drill

Apache Flume

Apache Hadoop HDFS

Apache Hadoop MapReduce

Apache Hadoop YARN

Apache Hbase

Apache Hive

Apache ManifoldCFApache Mesos

Apache NutchApache S4

Apache Spark

Apache SqoopApache Storm

Apache Tez

Ceph

Drools

Esper

GlusterFS

Impala

JubatusLustre

MongoDB

Pentaho

R

Redis

0

50,000

100,000

150,000

200,000

250,000

300,000

0.0% 5.0% 10.0% 15.0% 20.0% 25.0% 30.0%

Riakは外れ値とみなした

39

Page 41: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

Copyright 2015 Japan OSS Promotion Forum

まとめ

40

Page 42: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

この様な感じでした

Copyright 2015 Japan OSS Promotion Forum

ちなみに昨年のまとめは…

41

Page 43: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

Copyright 2015 Japan OSS Promotion Forum

昨年と同じ軸でまとめてみると…

Apache Cassandra

Apache Drill

Apache Flume

Apache Hadoop

Apache HBase

Apache Hive

Apache Kafka

Apache ManifoldCF

Apache Mesos

Apache Nutch

Apache Spark

Apache Sqoop

Apache Storm

Ceph

Drools Fusion

Elasticsearch

Esper

Fluentd

GlusterFS

Infinispan

JasperReports

MongoDB

RRedis

Riak

Talend

VoltDB

導入実績多数

導入実績あり

検証実績多数

検証実績あり

ランク外

エンタープライズ適用領域

新技術

ウォッチ領域 先行検討/アーリーアダプト領域

昨年「新技術ウォッチ領域」であったVoltDB、Apache Sparkは順調に成長Apache Sparkは一気に「エンタープライズ適用領域へ」

42

Page 44: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

ビッグデータ基盤をオープンソースで構築することは充分に可能となってきている

有償サービスも揃いつつある

ただし、機能や品質の見極めは当然必要

Apache Sparkとそのエコシステムは来ている(開発も利用も)

Elasticsearchはとても頑張り屋さん

MongoDBやCephはこの領域では比較的安定期に入りつつある

ただし、状況は変化しており今後も継続的なウォッチが必要

Copyright 2015 Japan OSS Promotion Forum

所感

ご興味を持って頂けた方がいらっしゃいましたら

ぜひ一緒にやりましょう!

43

Page 45: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

付録

Copyright 2015 Japan OSS Promotion Forum 44

Page 46: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

Copyright 2015 Japan OSS Promotion Forum

公式サイト

区分 ソフトウェア 公式サイト

クローラ Apache ManifoldCF http://manifoldcf.apache.org/

Apache Nutch http://nutch.apache.org/

データロード Apache Sqoop http://sqoop.apache.org/

Talend https://www.talend.com/

収集 Apache Flume https://flume.apache.org/

Apache Kafka http://kafka.apache.org/

Fluentd http://www.fluentd.org/

CEP Apache Storm http://storm.apache.org/

Apache S4 http://incubator.apache.org/s4/

Jubatus http://jubat.us/

Esper http://www.espertech.com/products/esper.php

Drools Fusion http://www.drools.org/

Apache Spark Streaming http://spark.apache.org/streaming/

並列分散処理 Apache Hadoop Commons http://hadoop.apache.org/

Apache Hadoop MapReduce http://hadoop.apache.org/

Apache Hadoop YARN http://hadoop.apache.org/

Apache Mesos http://mesos.apache.org/

Apache Spark http://spark.apache.org/

Apache Tez https://tez.apache.org/

データ蓄積ファイルシステム

Apache Hadoop HDFS http://hadoop.apache.org/

Ceph http://ceph.com/

GlusterFS http://www.gluster.org/

Lustre http://lustre.org/

準リアルタイムクエリ Apache Drill https://drill.apache.org/

Apache Hive https://hive.apache.org/

Apache Spark SQL http://spark.apache.org/sql/

Impala http://impala.io/

インメモリDG/分散KVS Apache Cassandra http://cassandra.apache.org/

Apache HBase http://hbase.apache.org/

Infinispan http://infinispan.org/

MongoDB https://www.mongodb.org/

Redis http://redis.io/

Riak http://docs.basho.com/

全文検索エンジン Elasticsearch https://www.elastic.co/products/elasticsearch

機械学習 Apache Spark MLib http://spark.apache.org/mllib/

統計解析 R https://www.r-project.org/

BI・BAツール JasperReports http://community.jaspersoft.com/

Pentaho http://community.pentaho.com/

インメモリDB VoltDB https://voltdb.com/

45

Page 47: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

区分 ソフトウェア オープンソースライセンス

クローラ Apache ManifoldCF Apache License 2.0

Apache Nutch Apache License 2.0

データロード Apache Sqoop Apache License 2.0

Talend Apache License 2.0

収集 Apache Flume Apache License 2.0

Apache Kafka Apache License 2.0

Fluentd Apache License 2.0

CEP Apache Storm Apache License 2.0

Apache S4 Apache License 2.0

Jubatus GNU Lesser General Public License v2.1

Esper GNU General Public License v2

Drools Fusion Apache License 2.0

Apache Spark Streaming Apache License 2.0

並列分散処理 Apache Hadoop Common Apache License 2.0

Apache Hadoop MapReduce Apache License 2.0

Apache Hadoop YARN Apache License 2.0

Apache Mesos Apache License 2.0

Apache Spark Apache License 2.0

Apache Tez Apache License 2.0

データ蓄積ファイルシステム

Apache Hadoop HDFS Apache License 2.0

Ceph GNU Lesser General Public License v2.1

GlusterFS GNU General Public License v3

Lustre GNU General Public License v2

準リアルタイムクエリ Apache Drill Apache License 2.0

Apache Hive Apache License 2.0

Apache Spark SQL Apache License 2.0

Impala Apache License 2.0

インメモリDG/分散KVS Apache Cassandra Apache License 2.0

Apache HBase Apache License 2.0

Infinispan Apache License 2.0

MongoDB GNU Affero General Public License v3

Redis BSD License

Riak Apache License 2.0

全文検索エンジン Elasticsearch Apache License 2.0

機械学習 Apache Spark MLib Apache License 2.0

統計解析 R GNU General Public License

BI・BAツール JasperReports GNU Lesser General Public License

Pentaho Apache License 2.0

インメモリDB VoltDB GNU General Public License v3

Copyright 2015 Japan OSS Promotion Forum

オープンソースライセンス

46

Page 48: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

区分 ソフトウェア 開発者向けメーリングリスト

クローラ Apache ManifoldCF [email protected]

Apache Nutch [email protected]

データロード Apache Sqoop [email protected]

Talend -

収集 Apache Flume [email protected]

Apache Kafka [email protected]

Fluentd ※Google groupsを利用

CEP Apache Storm [email protected]

Apache S4 [email protected]

Jubatus ※Google groupsを利用

Esper [email protected] (未集計)

Drools Fusion ※Google groupsを利用

Apache Spark Streaming ※Apache Sparkのメーリングリストと同じ

並列分散処理 Apache Hadoop Common [email protected]

Apache Hadoop MapReduce [email protected]

Apache Hadoop YARN [email protected]

Apache Mesos [email protected]

Apache Spark [email protected]

Apache Tez [email protected]

データ蓄積ファイルシステム

Apache Hadoop HDFS [email protected]

Ceph [email protected]

GlusterFS [email protected]

Lustre [email protected]

準リアルタイムクエリ Apache Drill [email protected]

Apache Hive [email protected]

Apache Spark SQL ※Apache Sparkのメーリングリストと同じ

Impala ※Google groupsを利用

インメモリDG/分散KVS Apache Cassandra [email protected]

Apache HBase [email protected]

Infinispan [email protected]

MongoDB ※Google groupsを利用

Redis ※Google groupsを利用

Riak ※利用者向けメーリングリストのみ

全文検索エンジン Elasticsearch ※Google groupsを利用

機械学習 Apache Spark MLib ※Apache Sparkのメーリングリストと同じ

統計解析 R [email protected]

BI・BAツール JasperReports -

Pentaho -

インメモリDB VoltDB -

Copyright 2015 Japan OSS Promotion Forum

開発者向けメーリングリスト

47

Page 49: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

区分 ソフトウェア 利用者向けメーリングリスト

クローラ Apache ManifoldCF [email protected]

Apache Nutch [email protected]

データロード Apache Sqoop [email protected]

Talend -

収集 Apache Flume [email protected]

Apache Kafka [email protected]

Fluentd ※Google groupsを利用

CEP Apache Storm [email protected]

Apache S4 [email protected]

Jubatus ※Google groupsを利用

Esper [email protected] (未集計)

Drools Fusion ※Google groupsを利用

Apache Spark Streaming ※Apache Sparkのメーリングリストと同じ

並列分散処理 Apache Hadoop Common [email protected]

Apache Hadoop MapReduce ※Apache Hadoop Commonのメーリングリストと同じ

Apache Hadoop YARN ※Apache Hadoop Commonのメーリングリストと同じ

Apache Mesos [email protected]

Apache Spark [email protected]

Apache Tez [email protected]

データ蓄積ファイルシステム

Apache Hadoop HDFS ※Apache Hadoop Commonのメーリングリストと同じ

Ceph [email protected]

GlusterFS [email protected]

Lustre [email protected]

準リアルタイムクエリ Apache Drill [email protected]

Apache Hive [email protected]

Apache Spark SQL ※Apache Sparkのメーリングリストと同じ

Impala ※Google groupsを利用

インメモリDG/分散KVS Apache Cassandra [email protected]

Apache HBase [email protected]

Infinispan ※開発者向けメーリングリストのみ

MongoDB ※Google groupsを利用

Redis ※Google groupsを利用

Riak [email protected]

全文検索エンジン Elasticsearch ※Google groupsを利用

機械学習 Apache Spark MLib ※Apache Sparkのメーリングリストと同じ

統計解析 R ?([email protected] と考える?)

BI・BAツール JasperReports -

Pentaho ※Google groupsを利用

インメモリDB VoltDB -

Copyright 2015 Japan OSS Promotion Forum

利用者向けメーリングリスト

48

Page 50: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

区分 ソフトウェア 利用しているソースコードリポジトリサービス

クローラ Apache ManifoldCF GitHub(apache/manifoldcf)

Apache Nutch GitHub(apache/nutch)

データロード Apache Sqoop GitHub(apache/sqoop)

Apache Kafka GitHub(apache/kafka)

Talend -

収集 Apache Flume GitHub(apache/flume)

Fluentd GitHub(fluent/fluentd)

CEP Apache Storm GitHub(apache/storm)

Apache S4 GitHub(apache/incubator-s4)

Jubatus GitHub(jubatus/jubatus)

Esper GitHub(espertechnic/esper)

Drools Fusion GitHub(droolsjbpm/drools)

Apache Spark Streaming ※Apache Sparkと同じ

並列分散処理 Apache Hadoop Common GitHub(apache/hadoop-common)

Apache Hadoop MapReduce GitHub(apache/hadoop-mapreduce)

Apache Hadoop YARN -

Apache Mesos GitHub(apache/mesos)

Apache Spark GitHub(apache/spark)

Apache Tez GitHub(apache/tez)

データ蓄積ファイルシステム

Apache Hadoop HDFS GitHub(apache/hadoop-hdfs)

Ceph GitHub(ceph/ceph)

GlusterFS GitHub(gluster/glusterfs)

Lustre -

準リアルタイムクエリ Apache Drill GitHub(apache/drill)

Apache Hive GitHub(apache/hive)

Apache Spark SQL ※Apache Sparkと同じ

Impala GitHub(cloudera/impala)

インメモリDG/分散KVS Apache Cassandra GitHub(apache/cassandra)

Apache HBase GitHub(apache/hbase)

Infinispan GitHub(infinispan/infinispan)

MongoDB -

Redis GitHub(antirez/redis)

Riak GitHub(basho/riak)

全文検索エンジン Elasticsearch GitHub(elastic/elasticsearch)

機械学習 Apache Spark MLib ※Apache Sparkと同じ

統計解析 R -

BI・BAツール JasperReports -

Pentaho GitHub(pentaho/pentaho-platform)

インメモリDB VoltDB GitHub(VoltDB/voltdb)

Copyright 2015 Japan OSS Promotion Forum

ソースコードリポジトリサービス

49

Page 51: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

Copyright 2015 Japan OSS Promotion Forum

Twitterアカウント

区分 ソフトウェア Twitterアカウント

クローラ Apache ManifoldCF @ApacheManifold

Apache Nutch @ApacheNutch

データロード Apache Sqoop @sqoopit

Talend @Talend

収集 Apache Flume -

Apache Kafka @apachekafka

Fluentd @fluentd

CEP Apache Storm @ApacheStorm

Apache S4 -

Jubatus @JubatusOfficial

Esper -

Drools Fusion -

Apache Spark Streaming ※Apache Sparkと同じ

並列分散処理 Apache Hadoop Common @hadoop

Apache Hadoop MapReduce ※Apache Hadoopと同じ

Apache Hadoop YARN ※Apache Hadoopと同じ

Apache Mesos @Apache Mesos

Apache Spark @ApacheSpark

Apache Tez @ApacheTez

データ蓄積ファイルシステム

Apache Hadoop HDFS ※Apache Hadoopと同じ

Ceph @Ceph

GlusterFS @glusterfs

Lustre -

準リアルタイムクエリ Apache Drill @ApacheDrill

Apache Hive @ApacheHive

Apache Spark SQL ※Apache Sparkと同じ

Impala -

インメモリDG/分散KVS Apache Cassandra @Cassandra

Apache HBase @Hbase

Infinispan @infinispan

MongoDB @MongoDB

Redis @redisfeed

Riak -

全文検索エンジン Elasticsearch @Elasticsearch

機械学習 Apache Spark MLib ※Apache Sparkと同じ

統計解析 R -

BI・BAツール JasperReports @jasperreports

Pentaho @Pentaho

インメモリDB VoltDB @VoltDB

50

Page 52: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

区分 ソフトウェア Issue Tracker

クローラ Apache ManifoldCF JIRA(https://issues.apache.org/jira/browse/CONNECTORS)

Apache Nutch JIRA(https://issues.apache.org/jira/browse/NUTCH)

データロード Apache Sqoop JIRA(https://issues.apache.org/jira/browse/SQOOP)

Talend -

収集 Apache Flume JIRA(https://issues.apache.org/jira/browse/FLUME)

Apache Kafka JIRA(https://issues.apache.org/jira/browse/KAFKA)

Fluentd GitHub(https://github.com/fluent/fluentd/issues)

CEP Apache Storm JIRA(https://issues.apache.org/jira/browse/STORM)

Apache S4 -

Jubatus GitHub(https://github.com/jubatus/jubatus/issues)

Esper -

Drools Fusion JIRA(https://issues.jboss.org/projects/DROOLS)

Apache Spark Streaming ※Apache Sparkと同じ

並列分散処理 Apache Hadoop Common JIRA(https://issues.apache.org/jira/browse/HADOOP)

Apache Hadoop MapReduce JIRA(https://issues.apache.org/jira/browse/MAPREDUCE)

Apache Hadoop YARN JIRA(https://issues.apache.org/jira/browse/YARN)

Apache Mesos JIRA(https://issues.apache.org/jira/browse/MESOS)

Apache Spark JIRA(https://issues.apache.org/jira/browse/spark)

Apache Tez JIRA(https://issues.apache.org/jira/browse/TEZ)

データ蓄積ファイルシステム

Apache Hadoop HDFS JIRA(https://issues.apache.org/jira/browse/HDFS)

Ceph Redmine(http://tracker.ceph.com/projects/ceph)

GlusterFS Bugzilla(https://bugzilla.redhat.com/)

Lustre JIRA(https://jira.hpdd.intel.com/secure/Dashboard.jspa)

準リアルタイムクエリ Apache Drill JIRA(https://issues.apache.org/jira/browse/DRILL)

Apache Hive JIRA(https://issues.apache.org/jira/browse/HIVE)

Apache Spark SQL ※Apache Sparkと同じ

Impala JIRA(https://issues.cloudera.org/secure/Dashboard.jspa)

インメモリDG/分散KVS Apache Cassandra JIRA(https://issues.apache.org/jira/browse/CASSANDRA)

Apache HBase JIRA(https://issues.apache.org/jira/browse/HBASE)

Infinispan JIRA(https://issues.jboss.org/secure/Dashboard.jspa)

MongoDB JIRA(https://jira.mongodb.org/secure/Dashboard.jspa)

Redis Google Project Hosting(https://code.google.com/p/redis/issues/list)

Riak GitHub(https://github.com/basho/riak/issues)

全文検索エンジン Elasticsearch -

機械学習 Apache Spark MLib ※Apache Sparkと同じ

統計解析 R Bugzilla(https://bugs.r-project.org/bugzilla3/)

BI・BAツール JasperReports -

Pentaho JIRA(http://jira.pentaho.com/secure/Dashboard.jspa)

インメモリDB VoltDB JIRA(https://issues.voltdb.com/browse/VDM)

Copyright 2015 Japan OSS Promotion Forum

Issue Tracker

51

Page 53: ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 Apache S4 Impala Esper Apache Flume Apache Sqoop Apache ManifoldCF

区分 ソフトウェア 有償ライセンス 保守支援サービス 研修サービス クラウドでの提供

クローラ Apache ManifoldCF - ○ ○ -

Apache Nutch - - - -

データロード Apache Sqoop - ○ △ △

Talend ○ - ○ ○

収集 Apache Flume - ○ △ △

Apache Kafka - ○ - ○

Fluentd - ○ - -

CEP Apache Storm - ○ - △

Apache S4 - - - -

Jubatus - - - ○

Esper ○ - - -

Drools Fusion ○ - - -

Apache Spark Streaming - ○ △ △

並列分散処理 Apache Hadoop Common ○ ○ ○ ○

Apache Hadoop MapReduce ○ ○ △ ○

Apache Hadoop YARN ○ ○ △ △

Apache Mesos - - - ○

Apache Spark - ○ ○ ○

Apache Tez - ○ - -

データ蓄積ファイルシステム

Apache Hadoop HDFS ○ ○ △ △

Ceph ○ ○ △ -

GlusterFS ○ ○ ○ -

Lustre - - - ○

準リアルタイムクエリ Apache Drill ○ ○ - △

Apache Hive - ○ ○ △

Apache Spark SQL - ○ △ △

Impala - ○ ○ △

インメモリDG/分散KVS Apache Cassandra ○ ○ ○ ○

Apache HBase - ○ ○ ○

Infinispan ○ - - -

MongoDB ○ ○ ○ ○

Redis - - ○ ○

Riak ○ - - ○

全文検索エンジン Elasticsearch - ○ ○ ○

機械学習 Apache Spark MLib - ○ - △

統計解析 R ○ ○ ○ ○

BI・BAツール JasperReports ○ ○ ○ ○

Pentaho ○ ○ ○ ○

インメモリDB VoltDB - - - -

Copyright 2015 Japan OSS Promotion Forum

国内でのサービス提供状況

52