关联 数据 abc 及两年来的应用进展

39
关关关关 ABC 关关关关关关关关关 [email protected] 2010 关 关关关关关关关 关关关关关 关关关关关 2010.8.23 关关

Upload: laurie

Post on 23-Feb-2016

161 views

Category:

Documents


0 download

DESCRIPTION

2010 图书馆前沿技术论坛 关联数据与书目数据未来 2010.8.23 上海. 关联 数据 ABC 及两年来的应用进展. 刘 炜 [email protected]. 内容. 什么 是 URI , RDF ? 什么是关联数据? 关联数据四原则 为什么要用关联数据? 关联数据应用进展 英国广播公司和纽约时报 图书馆界的应用进展概述. 什么是 URI ?. URI: Universal Resource Identifiers URI 、 URL 、 URN 的关系 URL : HTTP URI URN : DOI , ISBN , ISSN - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 关联 数据 ABC 及两年来的应用进展

关联数据 ABC及两年来的应用进展刘 炜[email protected]

2010 图书馆前沿技术论坛 关联数据与书目数据未来 2010.8.23 上海

Page 2: 关联 数据 ABC 及两年来的应用进展

内容 什么是 URI , RDF ? 什么是关联数据? 关联数据四原则 为什么要用关联数据? 关联数据应用进展

英国广播公司和纽约时报 图书馆界的应用进展概述

Page 3: 关联 数据 ABC 及两年来的应用进展

什么是 URI ? URI: Universal Resource Identifiers URI 、 URL 、 URN 的关系 URL : HTTP URI URN : DOI , ISBN , ISSN CoolURI OpenURL

http://virtuoso.openlinksw.com/images/generic_uri_syntax_image.png

Page 4: 关联 数据 ABC 及两年来的应用进展
Page 5: 关联 数据 ABC 及两年来的应用进展

COOL URI 习惯叫法,为保证 RUI 的稳定性,对 URI命名提出的一些最佳实践要求。

1. 只包含 0-9 , a-z, /, 文件名最后可用 # ,尽可能使用日期作为目录等等;2. 不用后缀名,交由 Web 服务器重定向;3. ……

Page 6: 关联 数据 ABC 及两年来的应用进展

什么是 RDF ? RDF 是一种元数据语言,简称为三元组模型 “ 主语 - 谓词 - 宾语”构成了基本(最小)逻辑单位 常见的是用 XML 表达的三元组,也可以用其它形式表示(如 N3 , N-triple 甚至图示) 所有的资源都有 URI( 资源的定义 ) 空白节点 (Blank node) 是指没有全局 ID 的本地资源

( 没有定义命名域的 URI, 如 ISBN, DOI) 文字 (Literal) 指一个字串值 ( 可以有类型以及语言属性 ) 完整解释请参见 http://www.rdfabout.com/ 以及

http://www.w3.org/TR/rdf-primer/.

Page 7: 关联 数据 ABC 及两年来的应用进展

RDF 举例

http://www.w3.org/TR/rdf-concepts/fig6may19

Page 8: 关联 数据 ABC 及两年来的应用进展

什么是关联数据? 通俗地说,关联数据是任何有意义的数据在万维网上的一种发布方式 以 HTTP URI ( URL )的方式链接到一个数据对象,而不是一个文档 URI 决定了数据的唯一性和“可关联”性, RDF 确立了数据的语义。 RDF 文件中应该包含更多的由 URI 所标识的其它资源,即尽可能不使用“ blank

nodes” 。

Page 9: 关联 数据 ABC 及两年来的应用进展

什么是关联数据? 维基百科的定义:关联数据是一种推荐的最佳实践,用来在语义网中使用 URI 和 RDF 发布、分享、连接各类数据、信息和知识( “ a

term used to describe a recommended best practice for exposing, sharing, and connecting pieces of data, information, and knowledge on the Semantic Web using URIs and RDF.” )

Page 10: 关联 数据 ABC 及两年来的应用进展

什么是关联数据? 由 Web 的发明人 Tim Berners-Lee 提出; 定义了一种 URI 规范,使得人们可以通过

HTTP/URI 机制,直接获得数字资源(Thing) ;

“ 一种 Web 上的富链接机制,将超文本链接(文件之间的链接)转变为超数据链接(事物Thing 之间的链接)

关联数据是实现 Data Web 的关键技术( Data Web 与现在的文本 Web 相对应)。Tim Burners-Lee: http://www.w3.org/DesignIssues/LinkedData.html

Page 11: 关联 数据 ABC 及两年来的应用进展

为什么叫关联数据?1 、 URI 所表示的是数据,而不是文档;2 、 URI 的数据资源以 RDF 形式表达,其中有

指向更多数据的 URI ,也就是链接;3 、 RDF 所表达的链接其实是有语义的,不是仅仅一个 link 而已,而是表明了当前资源与被链接资源的关系。

Page 12: 关联 数据 ABC 及两年来的应用进展

关联数据的四项基本原则: 使用 URI 作为任何事物的标识名称,不仅是标识文档

Use URIs as names for things 使用 HTTP URI ,使任何人都可以参引

(dereference) 这一全局唯一的名称 Use HTTP URIs so that people can look up those names

当有人访问名称时,以 RDF 形式提供有用的信息 When someone looks up a name, provide useful

information 尽可能提供链接,指向其它的 URI ,以使人们发现更多的相关信息

Include links to other URIs so that they can discover more things

Page 13: 关联 数据 ABC 及两年来的应用进展

关联数据 URI 发布方式 通过以下两种方式,快递员不仅能找到你家的门牌号( URL 作为 URI ),而且能把东西送到 /取自你的客厅、厨房甚至卧室、卫生间:

Hash + data http 303 转向 (Negotiation)

通过扩展改造Web 服务器的响应方式,达到上述目的 详细请参见 How to publish Linked Data on the Web:

http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/ 中文翻译: https://docs.google.com/View?id=ajjq7zprkrz8_0dfhmj8cs

Page 14: 关联 数据 ABC 及两年来的应用进展

http://www.w3.org/TR/2008/NOTE-cooluris-20080331/img20080331/303.png

Page 15: 关联 数据 ABC 及两年来的应用进展

机器可理解,人也可读。

Page 16: 关联 数据 ABC 及两年来的应用进展

关联数据的发布方式 (详细 )

URI 中避免使用空白节点,避免具体化 (reification) ,尽可能不使用 RDF 的集 (Collection) 和包 (Container) 采用内容协商 (Negotiation), URI 参引 (dereferencing),

CoolURI( 也就是采用 hash# 和 303 转向方式指向资源 ) 鼓励 RDF 中链接 , 可以用 URI别名 鼓励本体 / 模式重用 , 遵循术语定义的最佳实践 在 RDF描述中“必须包含”对该资源描述的内容 封装非 RDF 的数据库或 API, 使封闭世界的数据开放出来

Page 17: 关联 数据 ABC 及两年来的应用进展

为什么要关联数据?1 、数据整合; 2 、赋予语义

Page 18: 关联 数据 ABC 及两年来的应用进展

数据整合:从开放 API 到开放数据页面分析 •封闭系统CGI

•大多数现有的一站式检索系统

基于API •数据封装,接口开放•Web Services, Mashup(开放服务)

开放数据 •REST, OpenURL•Linked Data

Page 19: 关联 数据 ABC 及两年来的应用进展

目标:数据 WEB 提供统一的数据模型 (RDF) 提供统一的存取 API (RDF/SPARQL) 提供一致的语义描述方法 (RDFS/OWL) 提供可扩展的数据整合和混搭平台 提供了富于想象力的数据利用空间

Page 20: 关联 数据 ABC 及两年来的应用进展

WEB“ 数据化”趋势 信息资源对象越来越细小:从文献到数据; 信息资源需要结构化,有序组织(于是有各类信息组织方式、语言); 信息服务的标准化、自助化、自动化(于是各类私有的 API 和查询语言开始标准化); 整个 Web 就是一个数据库。

Page 21: 关联 数据 ABC 及两年来的应用进展

linkeddata.org/关联数据使 WEB 数据访问具有了标准统一的 API

Page 22: 关联 数据 ABC 及两年来的应用进展

数据 WEB 与关联数据的关系

来自: Alexandre Passant & Michael Hausenblas 在 WWW09(Madrid, Spain 2009-04-20) 上的演示“ Hello Open World!”

Page 23: 关联 数据 ABC 及两年来的应用进展

图书馆关联数据示例

出版商提供某本书的原始数据来自:法国国家图书馆 Bermes Emmanuelle

Page 24: 关联 数据 ABC 及两年来的应用进展

图书馆关联数据示例

国家图书馆添加书目信息和权威控制来自:法国国家图书馆 Bermes Emmanuelle

Page 25: 关联 数据 ABC 及两年来的应用进展

图书馆关联数据示例

本地图书馆添加馆藏信息来自:法国国家图书馆 Bermes Emmanuelle

Page 26: 关联 数据 ABC 及两年来的应用进展

图书馆关联数据示例

“群众”添加附加信息:维基百科的链接来自:法国国家图书馆 Bermes Emmanuelle

Page 27: 关联 数据 ABC 及两年来的应用进展

图书馆关联数据示例

图书馆 IT 人员为所有这些与本书相关的信息生成页面和链接,如同一个作者的其它著作、同一主题的其它书籍、维基百科中的作者生平、亚马逊上的读者评论等等

Page 28: 关联 数据 ABC 及两年来的应用进展

于是你可以看到,应用了关联数据: 无需映射,每个流程用自己的元数据标注; 无数据冗余,每个流程只创建自己的部分数据; 无需收割,所有数据都“联邦”链接; 责任明确:哪个流程的元数据出问题,不会影响其它; 无需统一工作平台:以数据为中心,流到哪个平台就在哪个平台加工。

Page 29: 关联 数据 ABC 及两年来的应用进展

关联数据应用进展

Page 30: 关联 数据 ABC 及两年来的应用进展

BBC :关联的媒体帝国 创立于 1920 年,电台业务开播于创立当天,并首次于 1930 年播出电视节目。 BBC 目前有 32 种语言的国际服务, 8 个全国电视频道, 1 个高清频道,很多地方频道, 10 个国家电台, 40多个地方电台。 1994 年建立 了同行业最早的网站: bbc.co.uk 。 所有这些历史,积累了难以想象的资料和素材,使它必须再次领先世界,建立最先进的语义媒体库:支持知识搜索,能够自动向机器提供服务。 作为广播电视公司,节目是它最大的资源。传统上,网站只是做节目推广。现在三网合一,可以用来发布、推送、组织和存档节目。 BBC 一直在寻求这样的技术,能够将 BBC千万小时的节目及相关资源,组织成一个脑库,成为人类记忆的一部分。

Page 31: 关联 数据 ABC 及两年来的应用进展

BBC :关联的媒体帝国 目前所有这些工作,都是手工而为。 节目量实在太大。 BBC 网站的工作很难满足所有节目信息发布的需要。每天总共有 1000-1500 档各类节目。 以频道和节目为两层管理的体制,相互之间就内容资源来说缺乏整合,需要横向的业务支撑部门。 所有的节目信息都是编辑独立上传,信息采集工作与业务流程不统一。如果要存档、编辑、多平台重用并保存所有的多媒体节目,重复的工作量巨大。 要揭示所有节目和相关内容的内在联系是一件不可能任务。 系统的灵活性和可扩展性很差,过期网页和死链接越来越多。 技 术的一个很大的问题是成本问题。很多 IT 公司跑来给 BBC 将它的问题不成问题,他们都可以解决,但是成本过于高昂。另一个原因是解决的模式不能融合到现有 的工作流程中去(最好是建立 2.0 的“众包”和“自产自销”机制),需要另外的人力和其它资源投入(本来这些人工可用于发展业务,这也是机会成本的损 失)。这两方面显然不是目前

BBC 的架构所能承担和解决的。

Page 32: 关联 数据 ABC 及两年来的应用进展

BBC :关联的媒体帝国 网站和数据的可用性 Usability大大增强; 用户体验得到巨大提升; SEO效果明显,甚至可以到每个资源; 可查找性( Findability )(其实是查准率吧)、可点击性( clickability )和可传播性( tweetability )都获得很大提高; 整个网站是一个 API平台,采用了 RESTful 发布,与 Web无缝集成,保证了链接的永久性和数据的开放性; 系统各组成部分松散耦合,互相联系却互不干扰,整个系统成为一个不断增长的有机体。

Page 33: 关联 数据 ABC 及两年来的应用进展

BBC :关联的媒体帝国

Page 34: 关联 数据 ABC 及两年来的应用进展

图书馆:关联数据的大本营继 2008 年时瑞典国家图书馆系统( LIBRIS )将自己的书目数据开放为关联数据( libris.kb.se )之后,目前至少有以下五个国际、国家级的书目数据 / 规范数据开放了关联数据服务: 美国国会图书馆及其主题标目( LCSH )( id.loc.gov ) 德国国家图书馆的联合权威档( Gemeinsame Normdatei )( d-nb.info/gnd/ ) 法国国家图书馆( BnF )的 RAMEAU 主题标目( stitch.cs.vu.nl/rameau/ ) OCLC 的杜威分类法及国际虚拟权威档( VIAF )( dewey.info/ 和 viaf.org/ ) 匈牙利国家图书馆的目录和叙词表( oszkdk.oszk.hu/

resource/DRJ/404 )

Page 35: 关联 数据 ABC 及两年来的应用进展

图书馆:关联数据的大本营 STW经济学叙词表( zbw.eu/stw ) 社会科学叙词表( lod.gesis.org ) GEMET环境叙词表( eionet.europa.eu/

gemet ) Agrovoc (联合国粮农组织叙词表)( aims.fao.org/ ) 纽约时报主题标目( data.nytimes.com/ ) 科学出版物词表( dblp.rkbexplorer.com )

Page 36: 关联 数据 ABC 及两年来的应用进展

2010 年:图书馆关联数据元年

Page 37: 关联 数据 ABC 及两年来的应用进展

图书馆关联数据的应用 术语服务(注册体系)( DC 元数据) SKOS 词汇发布为为关联数据( LCSH ) 书目数据(包括规范记录)作为关联数据:瑞典国家联合目录等 其它规范知识体系的关联数据 FRBR 之类的本体模型成为关联数据

Page 38: 关联 数据 ABC 及两年来的应用进展

使用 Firefox插件 Tabulator浏览 Tim Burners-Lee 的关联数据: http://www.w3.org/People/Berners-Lee/card

Page 39: 关联 数据 ABC 及两年来的应用进展

谢谢!