linked dataの概要と課題

29
Linked Dataの概要と課題 高久雅生 筑波大学図書館情報メディア系 [email protected] 1 63回日本図書館情報学会研究大会シンポジウム 20151018日(日) @ 学習院女子大学

Upload: masao-takaku

Post on 12-Apr-2017

1.931 views

Category:

Science


1 download

TRANSCRIPT

Page 1: Linked Dataの概要と課題

Linked Dataの概要と課題

高久雅生

筑波大学図書館情報メディア系

[email protected]

1

第63回日本図書館情報学会研究大会シンポジウム2015年10月18日(日) @ 学習院女子大学

Page 2: Linked Dataの概要と課題

自己紹介

• 高久雅生(たかくまさお)

• 所属:筑波大学図書館情報メディア系

• 関心領域

情報検索、情報探索行動、電子図書館

• 書誌データ流通

機関リポジトリソフトウェアの開発、運用

オープンソースの図書館蔵書検索システムNext-L Enju開発者チームの一員

FRBR&RDA勉強会主催者の一人

2

Page 3: Linked Dataの概要と課題

ウェブ上における書誌データ流通

3

検索エンジン

出版社

書店

ブログ

SNS

図書館目録

Page 4: Linked Dataの概要と課題

4https://ja.wikipedia.org/wiki/夏目漱石

Page 5: Linked Dataの概要と課題

(最初にまとめから)

• ウェブ上でのプレゼンスを高める信頼性の高い,精緻なデータを活用したい機運

• Linked Data: セマンティックウェブの落とし子ウェブ上のデータの機械処理・理解を目的とする発想なので、既存の書誌情報処理と大きな差異

• Linked Dataを情報資源の組織化という視点で眺めると、識別子・典拠情報管理の部分において共通点が大きいただし、Linked Dataにおける識別子はウェブ空間に由来

※URI = Uniform Resource Identifier

• 国際的・分野横断の応用を期待ただし、直接的な応用アプリケーションはさほど多くない

5

Page 6: Linked Dataの概要と課題

Semantic Web (1)

Tim Berners-Lee, James Hendler, Ora

Lassila. The Semantic Web. Scientific

American, 2001, Vol.284, No.5, pp.35-43.

• WebからSemantic Webへ

• 意味的記述と機械的理解を可能とするWebマークアップ

• エージェント型の応用アプリケーション

6

Page 7: Linked Dataの概要と課題

Semantic Webアプリケーション (1)

• 例: “仕事帰りに寄れる歯医者さんを知りたい”

仕事:平日9:00-18:00

仕事帰りに寄る:つくばエクスプレス(TX)沿線

• 18時以降に診察可能

• TX沿線の駅名:つくば,研究学園,…,南流山,北千住, 秋葉原

• 駅から徒歩 500m 圏内

7

Page 8: Linked Dataの概要と課題

Semantic Webアプリケーション (2)

• Webマークアップを通じた情報抽出

• 曖昧性の解消月=月曜日 = Monday = Mon.

「9:00-13:00・15:00-19:00」

休診日, 診療時間

祝日,祝祭日,年中無休

• 常識の理解1週間 = 月火水木金土日

平日=月~金

8

Page 9: Linked Dataの概要と課題

Semantic Webの課題

• Webの分散性 + 膨大な情報

数千億 - 1兆ページを超えるWeb空間

• 多様な概念や記述によるビッグデータが取得可能

• 情報発信ルートの多彩さ

• 多言語、多文化

統制された語彙使用や慣習を前提としえない

• 汎用モデルの困難さ

計算機アプリケーションによる意味理解は困難

9

Page 10: Linked Dataの概要と課題

Linked Dataの概要

• 経緯:セマンティックウェブの弱点を補うため、シンプルなデータモデルで個別の応用を作りやすくする試み

• 個別のリソースの情報を構造化していくできるところからでよい一つずつプロパティ(property)を追加する

• データモデルRDF(Resource Description Framework)のデータモデル = トリプルモデル(三つ組)

• データ型:リソースとリテラルリソースはウェブ上にアドレスを持つ識別子(URI)として振舞う

10

Page 11: Linked Dataの概要と課題

RDFデータモデル

• RDF (Resource Description Framework)

• グラフデータモデル

ラベル付き有向グラフ

三つ組(Triple)による表現

• 特徴

シンプルで強力なデータ表現

記述規則が複雑となりがち

処理演算に時間がかかる

11

芥川龍之介羅生門著者

Page 12: Linked Dataの概要と課題

Linked Dataの概要 (2)

• 構造化データ

• “ドキュメントとしてのWeb”

→ “データのWeb”

• Linked Dataの4原則

事物をURIを使って名前付ける

事物をHTTP + URIで参照する

URIを参照したときに関連情報を表示する

外部のリソースへのリンクも含める

12

Page 13: Linked Dataの概要と課題

シンプルなWebデータの構造化の手法

• Microformat, Microdata

<a href=“http://masao.jpn.org/”>高久雅生</a>

<a href=“http://masao.jpn.org/” rel=“author”>高久雅生</a>

• テキストに対するマークアップに意味を付与ドメイン(分野)毎に合意された意味関係を付与することにより、アプリケーション利用、再利用を促進

サーチエンジンにおける利用: Schema.org

13

Page 14: Linked Dataの概要と課題

RDFグラフモデルの一例

14

つくば市(つくばし)は、茨城県南部に位置する市である。学術・研究都市としての筑波研究学園都市はつくば市全域を区域とする。特例市、業務核都市、国際会議観光都市に指定されている。(Wikipedia日本語版)

つくば市

茨城県南部

茨城県

地方自治体

市町村

都道府県

町村

筑波研究学園都市

特例市

gn:location

gn:location

org:alias

rdf:type

rdfs:subClassOfrdfs:subClassOf

rdfs:subClassOf

rdf:type

Page 15: Linked Dataの概要と課題

Linked Dataの提供例 (DBPedia)

• 例: http://ja.dbpedia.org/page/つくば市

• 百科事典サービスWikipedia上からデータ抽出したもの(+人手による属性同定とマッピング)

http://mappings.dbpedia.org/index.php/Ma

pping_ja

15

Page 16: Linked Dataの概要と課題

16

Page 17: Linked Dataの概要と課題

17

Page 18: Linked Dataの概要と課題

18Richard Cyganiak, Anja Jentzsch. “Linking Open Data cloud

diagram”. http://lod-cloud.net/ (Last updated: 2014-08-30)

Page 19: Linked Dataの概要と課題

19Richard Cyganiak, Anja Jentzsch. “Linking Open Data cloud

diagram”. http://lod-cloud.net/ (Last updated: 2014-08-30)

出版物

生物系

領域横断

SNS

地理情報

政府系公的データ

マルチメディア

CGM

言語資源

Page 20: Linked Dataの概要と課題

Linked Dataの提供例 (CiNii Articles)

• 通常のWebページ(HTML)

http://ci.nii.ac.jp/naid/130003392336

• RDF表現 (XML)

http://ci.nii.ac.jp/naid/130003392336.rdf

• ボキャブラリ

Dublin Core

Prism (Publishing Requirements for Industry Standard Metadata)(―雑誌情報)

FOAF (The Friend of a Friend)(―著者情報)

20

Page 21: Linked Dataの概要と課題

BIBFRAMEとは (1)

• 米国議会図書館(LC)が2012年に公表した書誌データ用のデータモデル

• FRBR類似の書誌情報のための概念モデル

• Linked Dataの考え方に沿っているデータモデルはRDFグラフモデルを前提

• 4つのコアクラスからなるCreative Work

Instance

Authority

Annotation

21

Page 22: Linked Dataの概要と課題

BIBFRAMEとは (2)

• 概念モデル(データ種別毎の構造)

22

Page 23: Linked Dataの概要と課題

BIBFRAMEに基づくデータ例

23

Work

Instance

heldItem

Rebecca Stefoff.

Al Gore: Fighting

for a Greener

Planet. Lerner Pub

Group, 2008, 48p.

Page 24: Linked Dataの概要と課題

BIBFRAMEのデータ例 (Work)

24

sample:

work

bf:Work

Stefoff, Rebecca, 1951-

Al Gore : fighting for …

lcc:

E840.8.G65

lang:eng

sample:

person1

rdf:type

bf:authorized

AccessPoint

bf:classificationLCC

bf:language

bf:creator

Stefoff, Rebecca, 1951-bf:authorized

AccessPoint

names:

n85352761

bf:Personrdf:type

bf:has

Authoritysample:

worktitle

bf:workTitle

bf:Title

rdf:type

Al Gore

fighting for a greener …

bf:titleValue

bf:subtitle

Page 25: Linked Dataの概要と課題

BIBFRAMEのデータ例 (Instance)

2525

sample:

instance

bf:Instance

Isbn:97815

75059488

rdf:type

bf:isbn13

sample:

instance

title

bf:instanceTitle

bf:Title

rdf:type

Al Gore

fighting for a greener …

bf:titleValue

bf:subtitle

bf:Monograph

24cm.

bf:dimensions

Rev. ed.bf:edition

48 p.bf:extentbf:lccn

bf:Identifierrdf:type

identifiers:

lccnbf:identifier

Scheme

2007049050bf:identifier

Valuebf:publication

bf:Provider

rdf:type

bf:provider

Name bf:Organizationrdf:type

Lerner Publications Co.

bf:label

Page 26: Linked Dataの概要と課題

BIBFRAMEのデータ例 (HeldItem)

26

sample:

work

sample:

instance

sample:

person1

bf:creator

bf:instanceOf

sample:

item1

bf:holdingFor

bf:HeldItem

rdf:type

E840.8.G65 S74 2009bf:shelfMarkLcc

Page 27: Linked Dataの概要と課題

BIBFRAMEの特徴

• シンプルな語彙設計クラス数:約50種類,プロパティ数:約300種 Linked Dataとしての使い勝手 LCが開発してきたLinked Data公開と調和

• http://id.loc.gov/

• ツール群の提供MARC21RDF/XML等との変換など

• 留意点プロパティ群、語彙集合が未確定RDA等を含む,書誌情報流通領域でのLinked Data語彙との調整が必要(?)• RDAと比してLinked Dataへの親和性は高いように見える

27

Page 28: Linked Dataの概要と課題

まとめ

• Linked Data 「データのウェブ」のためのデータ提供方式

RDFデータモデルを前提

• 書誌情報の組織化分野横断でつながるための整備において重要

FRBR,RDA,BIBFRAME,Schema.orgなど種々の書誌情報モデルに基づく形式化が試みられている

• BIBFRAME Linked Dataモデルによる書誌情報のモデル化

仕様は未完成

MARC21からの変換ツール等も提供されている

28

Page 29: Linked Dataの概要と課題

今後に向けて

• 図書館の現場で培ってきた書誌データそのもの(+その方法論)をより広い領域に活かしたり、展開したりするには、Linked

Dataのようなウェブ向けの枠組みを用いることは有用か?

• ウェブ上における情報管理の枠組みはさほど厳密でない点に留意する必要

データ欠損,リンク切れを許容

Linked Data語彙集合における決定版(完全版)が不在

29