opendata@tokyowebmining

83
オープンデータの現状と未来 1 Saturday, April 18, 15

Upload: yuta-kashino

Post on 15-Jul-2015

3.299 views

Category:

Technology


0 download

TRANSCRIPT

オープンデータの現状と未来

1

Saturday, April 18, 15

目次

•オープンデータの概要

•日本のオープンデータの現状

•オープンデータの模範的あり方

•日本はどうすれば…

2

Saturday, April 18, 15

作品の一部ではなく全てが、複製のための適正な価格あるいはインターネットによる無償ダウンロードにより提供されてなければなりません。また、作品は、変更可能で便利な形式で提供されなければいけません。

http://opendefinition.org/od/1.1/ja/

オープンの定義

3

Saturday, April 18, 15

http://5stardata.info/ja/

OL: Open LicenceRE: machine REadableOF: Open FormatURI: RDF Standard (Indentifeied Resource)LD: Linked RDF

オープンデータの形式

4

Saturday, April 18, 15

データライフサイクル

5

Saturday, April 18, 15

データライフサイクル

未集計

5

Saturday, April 18, 15

データライフサイクル

未集計 集計済

5

Saturday, April 18, 15

データライフサイクル

未集計 集計済 インサイト

5

Saturday, April 18, 15

データライフサイクル

未集計 集計済 インサイト

5

Saturday, April 18, 15

データライフサイクル

未集計 集計済 インサイト

- POS- サービスログ * サーバーログ * アドログ * 検索ログ

- センサデータ * 気象 * 震度 * GIS…- マーケットデータ * 証券取引所,FX…

5

Saturday, April 18, 15

データライフサイクル

未集計 集計済 インサイト

- POS- サービスログ * サーバーログ * アドログ * 検索ログ

- センサデータ * 気象 * 震度 * GIS…- マーケットデータ * 証券取引所,FX…

ETL

5

Saturday, April 18, 15

データライフサイクル

未集計 集計済 インサイト

ETL

5

Saturday, April 18, 15

データライフサイクル

未集計 集計済 インサイト

Extract/Transform/LoadETL

5

Saturday, April 18, 15

データライフサイクル

未集計 集計済 インサイト

Extract/Transform/Load

- Hadoop (HDFS+YARN) - tez - spark - prestdb - impala - MPPDB - teradata - netiza - vertica - paraccel - redshift - ETLサービス - TresureData - BigQuery

ETL

5

Saturday, April 18, 15

データライフサイクル

未集計 集計済 インサイト

Extract/Transform/LoadETL

5

Saturday, April 18, 15

データライフサイクル

未集計 集計済 インサイト

Extract/Transform/LoadETL

5

Saturday, April 18, 15

データライフサイクル

未集計 集計済 インサイト

Extract/Transform/LoadMLETL

5

Saturday, April 18, 15

データライフサイクル

未集計 集計済 インサイト

Extract/Transform/LoadMLETL

統計

5

Saturday, April 18, 15

データライフサイクル

未集計 集計済 インサイト

Extract/Transform/LoadMLETL

統計

可視化

5

Saturday, April 18, 15

データライフサイクル

未集計 集計済 インサイト

Extract/Transform/LoadMLETL

統計

可視化

レポート

5

Saturday, April 18, 15

データライフサイクル

未集計 集計済 インサイト

Extract/Transform/LoadMLETL

統計

可視化

レポート

5

Saturday, April 18, 15

データライフサイクル

未集計 集計済 インサイト

Extract/Transform/LoadMLETL

統計

可視化

レポート

オープンデータ

5

Saturday, April 18, 15

open closed

官公 国官公 地方民間 営利民間 非営利

時系列 GIS 分布主要その他

今回の対象データ

6

Saturday, April 18, 15

ゆきゆきてオープンデータ的な

http://www.kantei.go.jp/jp/singi/it2/densi/dai4/sankou8.pdfG8オープンデータ憲章

電子行政オープンデータ戦略http://www.kantei.go.jp/jp/singi/it2/pdf/120704_siryou2.pdf

世界最先端 IT 国家創造宣言http://www.kantei.go.jp/jp/singi/it2/kettei/pdf/20140624/siryou1.pdf

7

Saturday, April 18, 15

ゆきゆきてオープンデータ的な

http://www.kantei.go.jp/jp/singi/it2/densi/dai4/sankou8.pdfG8オープンデータ憲章

電子行政オープンデータ戦略http://www.kantei.go.jp/jp/singi/it2/pdf/120704_siryou2.pdf

世界最先端 IT 国家創造宣言http://www.kantei.go.jp/jp/singi/it2/kettei/pdf/20140624/siryou1.pdf

政府自ら積極的に公共データを公開すること機械判読可能な形式で公開すること営利目的、非営利目的を問わず活用を促進すること取組可能な公共データから速やかに公開等の具体的な取組に着手し、成果を確実に蓄積していくこと

7

Saturday, April 18, 15

ゆきゆきてオープンデータ的な

http://www.kantei.go.jp/jp/singi/it2/densi/dai4/sankou8.pdfG8オープンデータ憲章

電子行政オープンデータ戦略http://www.kantei.go.jp/jp/singi/it2/pdf/120704_siryou2.pdf

世界最先端 IT 国家創造宣言http://www.kantei.go.jp/jp/singi/it2/kettei/pdf/20140624/siryou1.pdf

7

Saturday, April 18, 15

ゆきゆきてオープンデータ的な

http://www.kantei.go.jp/jp/singi/it2/densi/dai4/sankou8.pdfG8オープンデータ憲章

電子行政オープンデータ戦略http://www.kantei.go.jp/jp/singi/it2/pdf/120704_siryou2.pdf

世界最先端 IT 国家創造宣言http://www.kantei.go.jp/jp/singi/it2/kettei/pdf/20140624/siryou1.pdf2014 年度及び 2015 年度の2年間を集中取組期間と位置づけ、

2015 年度末には、 他の先進国と同水準の公開内容を実現する。

7

Saturday, April 18, 15

ゆきゆきてオープンデータ的な

http://www.kantei.go.jp/jp/singi/it2/densi/dai4/sankou8.pdfG8オープンデータ憲章

電子行政オープンデータ戦略http://www.kantei.go.jp/jp/singi/it2/pdf/120704_siryou2.pdf

世界最先端 IT 国家創造宣言http://www.kantei.go.jp/jp/singi/it2/kettei/pdf/20140624/siryou1.pdf

7

Saturday, April 18, 15

Global Open Data Index

http://index.okfn.org/place/

8

Saturday, April 18, 15

例:月例経済報告

9

Saturday, April 18, 15

例:月例経済報告GDP, 消費総合指数,家計調査,毎月勤労統計,消費者物価指数,労働力調査,日銀短観,鉱工業指数,貿易統計…

9

Saturday, April 18, 15

例:月例経済報告

国の施策決定の第一位の根拠

GDP, 消費総合指数,家計調査,毎月勤労統計,消費者物価指数,労働力調査,日銀短観,鉱工業指数,貿易統計…

9

Saturday, April 18, 15

例:月例経済報告

国の施策決定の第一位の根拠

消費者物価指数 →

年金,家賃,賃金,日銀金融政策....

GDP, 消費総合指数,家計調査,毎月勤労統計,消費者物価指数,労働力調査,日銀短観,鉱工業指数,貿易統計…

9

Saturday, April 18, 15

e-Stat 総務省系

データカタログ 経産省系

行政機関各自独自

オープンデータの公開先

10

Saturday, April 18, 15

帝京大学 藤谷道夫 訳

11

OPENDATA INFERNO

Saturday, April 18, 15

憂いの国にいかんとするものはわれをくぐれ永劫の呵責に遭わんとするものはわれをくぐれ破滅の人に伍せんとするものはわれをくぐれ正義は高き主を動かし,神意は,最上智は,最初の愛は,われを作るわが前に創られしものは無し,ただ無窮あり,われは無窮に続くものなりわれを過ぎんとするものは一切の望みを捨てよ

12

地獄の門

Saturday, April 18, 15

師よ、私の理解を絶するこのサイトは何ですか?苦しみにかくも打ちのめされているように見えるこのデータはどんなデータなのですか?

13

打ちのめされたデータ

Saturday, April 18, 15

14

E-STAT INFERNO

Saturday, April 18, 15

15

検索…

Saturday, April 18, 15

15

検索…

Saturday, April 18, 15

検索が激遅い…

15

検索…

Saturday, April 18, 15

16

ブラウズ…

Saturday, April 18, 15

16

ブラウズ…

Saturday, April 18, 15

ブラウズがおかしい…

16

ブラウズ…

Saturday, April 18, 15

• Java Strutsによるイニシエの実装

•ブラウズがおかしいのは,アクションサーブレットによるページの動的生成のため

•検索が遅いのは,まともな検索エンジンを使ってないから

E-STATの実装

Saturday, April 18, 15

18

E-STAT API

Saturday, April 18, 15

E-STAT APIの謎コード

19

Saturday, April 18, 15

E-STAT APIの謎コード

19

Saturday, April 18, 15

E-STAT APIの謎コード

19

Saturday, April 18, 15

E-STAT APIの謎コード

19

Saturday, April 18, 15

E-STAT APIの謎コード

19

Saturday, April 18, 15

E-STAT APIは…

20

Saturday, April 18, 15

E-STAT APIは…

20

Saturday, April 18, 15

E-STAT APIは…

20

Saturday, April 18, 15

E-STAT APIは…

20

e-Stat APIはRDBダンプダウンローダー

Saturday, April 18, 15

E-STAT APIの致命的欠点

Saturday, April 18, 15

E-STAT APIの致命的欠点

• e-StatにあるほとんどのデータがAPIからとれない

Saturday, April 18, 15

E-STATの致命的欠点

22

Saturday, April 18, 15

E-STATの致命的欠点

22

Saturday, April 18, 15

E-STATの致命的欠点

22

Saturday, April 18, 15

E-STATの致命的欠点

22

Saturday, April 18, 15

そもそも,e-Statにない重要経済統計がありすぎ

E-STATの致命的欠点

22

Saturday, April 18, 15

DATACATALOG INFERNO

Saturday, April 18, 15

DC: 登録されているデータが…

Saturday, April 18, 15

DC: 本質

Saturday, April 18, 15

DC: 本質

•データカタログサイトの基本はファイルリポジトリ

•乱雑なものを乱雑なまま

Saturday, April 18, 15

DC: 実装

• PythonのDMSであるCKANを利用

• data.gov/data.gov.ukのコピー

• CKANというよりG-CAN(Garbge Can)に…

Saturday, April 18, 15

27

EXCEL INFERNO

Saturday, April 18, 15

27

EXCEL INFERNO

Saturday, April 18, 15

EXCEL INFERNO-1

28

Saturday, April 18, 15

EXCEL INFERNO-1

28

Saturday, April 18, 15

EXCEL INFERNO-2

29

Saturday, April 18, 15

EXCEL INFERNO-2

29

Saturday, April 18, 15

EXCEL INFERNO-2

29

Saturday, April 18, 15

EXCEL INFERNO-2

29

Saturday, April 18, 15

EXCEL INFERNO-2

29

Saturday, April 18, 15

•オープンデータを配布する仕組みがまずい

•すぐに使えるデータを公開しない

•統計の観測のやり方にいろいろ問題

J-OPENDATA INFERNO

Saturday, April 18, 15

WORLD BANK DATA

Saturday, April 18, 15

• Indicators - Countries の時系列

• GDP, 失業率, 起業率, 死亡率, 有病率, 教育参加率

•大陸別,国別

WORLD BANK DATAの属性

Saturday, April 18, 15

WORLDBANK

•強力なデータブラウザ

•合理的なREST API

• API Query Explorer

•数多くの3rd Party SDK / アプリケーション

Saturday, April 18, 15

QUANDLE

Saturday, April 18, 15

オープンデータの正しい出し方

• API

• API First

• GET/POST/PUT/DELETEが合理的•キレイなURL

• API Query Explorer / SDK

•網羅的にデータを探索できるデータブラウザ35

Saturday, April 18, 15

じゃあ,具体的に…

どうすれば…

36

Saturday, April 18, 15