linked dataがつくる新しいデータの世界linkedopen data for academia linked...
TRANSCRIPT
Linked Open Data for ACademia
Linked Dataがつくる新しいデータの世界
国立情報学研究所
グリッド協議会 第37回ワークショップのご案内 公共データのオープン化とクラウド 2012年12月19日
Linked Open Data for ACademia
Linked Data
• Tim Berners‐Leeが提唱する新しいデータ共有の仕組み
– これまでのWeb:文書のWeb (Web of Documents)– Linked Data: データのWeb (Web of Data)
• 孤立したデータの島から世界でつながるデータのcloudへ
Linked Open Data for ACademia
Linked Dataの記述のしかた
• RDF(+RDFS, OWL)の利用– 簡便な記述方法:<主語> <述語> <目的語> .
<http://www‐kasm.nii.ac.jp/~takeda#me> <rdfs:type> <foaf:Person> .<http://www‐kasm.nii.ac.jp/~takeda#me> <foaf:name> “武田英明” .<http://www‐kasm.nii.ac.jp/~takeda#me> <foaf:gender> “male” .<http://www‐kasm.nii.ac.jp/~takeda#me> <foaf:knows> <http://foaf.me/danbri#me> .
<http://www‐kasm.nii.ac.jp/~takeda#me>
<http://foaf.me/danbri#me>
foaf:knows
<foaf:Person>
rdfs:type
“武田英明” “male”
foaf:name foaf:gender
Linked Open Data for ACademia
Linked Open Data (LOD)• オープンでリンクできるデータ
– 今のWebが“文書のWeb” 、LODは“データのWeb”
• Linked Dataの5原則
– 事柄の名前にURIを使うこと
– 名前の参照がHTTP URIでできること
– URIを参照したときに関連情報が手に入るように理解可能なデータを提供
– 外部へのリンクも含めよう
(必ずしもオープンとは限らない⇒Linked Data)
Linked Open Data for ACademia
LODAC Project
• Linked Dataによるデータ共有を実現する仕組みを確立
– 実践による探求:実際にデータをつくる• サービス化、サービス提供
• 経験の蓄積と方法論化
• 問題の洗い出しと解決
• プロジェクトの実施内容
– 美術館・博物館データのLOD化による統合 (LODAC MUSEUM)– 生物種データのLOD化による統合(LODAC SPECIES)– 関係するデータ、ソフトウエアの構築
• 地理データ (LODAC LOCATION)• DBpedia Japanese• CKAN日本語化
情報・システム研究機構 新領域融合研究センター「異分野共有資源共有・協働基盤の構築」「学術リソースのためのオープン・ソーシャル・セマンティックWeb基盤の構築」
Linked Open Data for ACademia
本プロジェクトでの構築したDB
LODAC SPECIES: 種名をベースに多様なDBをリンクで接続
博物館
DB
博物館
標本DB
DB種情報DB
TaxonName DBGBIF
DBBioSci.DB
個別
DB
個別
研究DB
名前数: 113118トリプル数:14,532,449
Data from Source BIntegrated data
dc:references dc:references
dc:references dc:references
dc:references dc:references
dc:creatordc:creator
crm:P55_has_current_location
crm:P55_has_current_location
crm:P55_has_current_locationdc:creator
Data from Source AWork
Museum
Creator
Minimum Data to identify entitiesRaw Data for entities Raw Data for entities
LODAC Museum: 博物館・美術館のデータのLOD
検索拡張アプリ
CKAN (日本語): データセット登録レジストリ
DBPedia Japanese
LODAC Location: 位置情報統合
Linked Open Data for ACademia
LODAC Museum
• Linked Dataによるデータ処理のテストベッド
• 美術館・博物館情報の特徴
– 分散性:国内だけでも6,000– 大規模性:それぞれが102~104のデータ
– スキーマの統一性と多様性:一定の標準+α– 統合可能性:作者、作品、場所、モチーフなど
– リンク性:様々な分野の他のデータとのリンクの可能性
Linked Dataによる技術的実験、課題解決
Linked Open Data for ACademia
LODAC Museum
• 国内の美術館の収集公開品に関するDB– 現在
• トリプル数:40,059,131
– 館数:114• 博物館Webサイトからのコレクション情報
• サイエンスミュージアムネットからの標本情報
• 作者、施設等によるデータ統合
• RDFによるデータ公開
• いくつかのアプリケーション
Linked Open Data for ACademiaデータ統合
16
情報源 情報種別 データ数
国立美術館(西美を除く3館) 作品 25180
国立西洋美術館 作品 4373
京都国立博物館 作品 5819
奈良国立博物館 作品 431
福島県立美術館 作品 20
栃木県立美術館 作品 32
秋田県立近代美術館 作品 22
岩手県立美術館 作品 1558
徳島県立近代美術館 作品 18482
山梨県立美術館 作品 262
東京都現代美術館 作品 5416
香川県立東山魁夷せとうち美術館 作品 266
日本美術シソーラスDB 作品 3800
日本美術シソーラスDB 人物 1332
日本美術シソーラスDB グループ 289
日本美術シソーラスDB 所蔵館情報 648
文化遺産オンライン 所蔵館情報 915
国指定文化財データベース 作品 10115
合計 103096
総データ数 特定項目キーの単純文字列統合実験結果
統合項目 情報源 データ数 統合数
所蔵館名 日本美術シソーラス 648 77
文化遺産オンライン 915
国宝・重文資料タイトル
日本美術シソーラス(作品) 3800 74
国指定文化財DB(作品) 10115
作者名による資料タイトル
日本美術シソーラス(人物) 1332 15020各館(作品) 61861
作者名 日本美術シソーラス(人物) 1332 615各館(作品) 61861
「国宝・重文」日本美術シソーラスに略称のタイトル表記が多く,単純文字列マッチでは少ない値となった
「機械処理による可能性」複合的な項目に対して複数アルゴリズムによる抽出
統合
Linked Open Data for ACademia
Name of creatorName of creator
LODAC ID and associated Ref-Resource IDs
作者ページの例公開
Linked Open Data for ACademiaLinked Dataの利用
‐ Yokohama Art Spot ‐
• 博物館情報と横浜の地域情報のLODを連携したWebアプリケーション
• 横浜市内のアート関連情報
– 施設情報
– イベント情報
– 収蔵品情報(一部の施設のみ)
– Q&A情報
LODAC Museum × 横浜LOD × PinQA(博物館情報) (地域情報)
http://lod.ac/apps/yas/
利用
スポット情報
Linked Open Data for ACademia
施 設
ユーザ
Yokohama Art Spot
RDFストア
SPARQLエンドポイント
RDFストア
SPARQLエンドポイント
LODAC Museum
横浜LOD
作品
所蔵館
アーティスト
アーティスト
施設
イベント
Yokohama Art Spot の構成
全体マップ表示における処理
施設
イベント
HTMLJavaScriptPythonSPARQLWrapper
OWLIM SE
ARC2
RDFストア
SPARQLエンドポイント
PinQA
質問
回答
ユーザ
SPARQL
JSON
D2R
スポット
Linked Open Data for ACademia
Yokohama Art Spot システム構成
作 品
所 蔵館
アーティスト
アーティスト
施 設
イベント質 問
回 答ユーザ
SPAR
QL
スポット情報 イベント情報 施設情報
PinQAヨコハマ・アートLOD
LODAC Museum
JSON
ユーザ Yokohama Art Spot情報の取得 & 提示
‣ 異なるLODのリソース同士のリンク緯度・経
リンク
Linked Open Data for ACademia
施設情報ページにおける情報取得と表示
•施設名•アクセス
•ジャンル•休館日•住所•周辺地図
イベント情報(タイムライン表示)
イベント情報(リスト表示)
すべて横浜LODのデータを使用
利用
Linked Open Data for ACademia
施設情報ページにおける情報取得と表示
所蔵品情報(リスト表示)
所蔵品の提示・リンクはLODAC Museum から取得
横浜LODだけでは不可能な情報探索が実現可能
利用
Linked Open Data for ACademia
まとめ• Linked Open Data (LOD)はデータをつなげることにより、データに新しい価値を与える
• LODはデータ処理において新しいアーキテクチャとしても利用可能
• つながった巨大データは新しい情報処理の新しいチャレンジ– e.g., Billion Triple Challenge
収集 洗練 統合 公開 利用
RDFほとんどの処理はRDFで行われる