semantic web and integration of library recources

语义网技术在图书馆数字资源聚合中的应用语义网技术在图书馆数字资源聚合中的应用

北京师范大学政府管理学院黄海晶

2014-06-28

目录

引言1

主要的语义网技术2

资源的深度聚合3

深度聚合使用的工具4

4

5 总结与展望

1 引言

语义网技术

2 主要的语义网技术

RDFRDF、、 RDFSRDFS、、 SKOSSKOS

外部本体和图书馆本体外部本体和图书馆本体主流图书馆关联数据服务主流图书馆关联数据服务

语义标准

本体关联数据

2.1语义标准

目前语义网所使用的一般资源语义描述标准包括 RDF、 RDFS、 OWL

等。这些标准规定了网络资源的语义描述方式，为资源间的聚合提供了统一的语义接口。

具有语义描述的资源才能进行语义上的关联。

MARC

RDF

1001# $a Lubas, #Rebecca L.020# $G254.3/P89 200# # $Libraries Unlimited …

<rdf:RDF> <book> <author>Lubas,RebeccaL</author> <number>G254.3/P89 </number> <publisher> Libraries Unlimited </publisher> </book>…</rdf:RDF>

e-mail addressblog

<rdf:RDF> <book> <author>Lubas,RebeccaL</author> <email>..</email> <address>..</address> <blog>..<blog> <number>G254.3/P89 </number> <publisher> Libraries Unlimited </publisher> </book>…</rdf:RDF>

1001# $a Lubas, #Rebecca L.020# $G254.3/P89 200# # $Libraries Unlimited 500# # $email,$address,$blog…

本体是对一个特定领域中重要概念的共享的形式化的描述的抽象模型，它能够将图书馆中的知识资源在语义层次上组织起来。

利用本体可以构建图书馆资源的本体库和知识库，从而为用户提供语义检索，还可以与大众分类法结合，将大众标签按照本体构造方式进行组织，为用户提供语义推荐。

2.2本体

2.2本体

FOAF

EVENT

DBpedia Ontology

MarcOnt

BIBO

FRBR

外部本体

图书馆元数据本体

图书馆资源图书馆资源

2.3关联数据

关联数据提供了一种新的数据分享方式，使得基于标准网络协议的、海

量的Web 数据富含语义，并提供面向人的界面和面向机器的数据消费

接口。

全球最大的关联数据中心 CKAN-the Data Hub共有 3880个数据集，最

大的组是包含 327个数据集的 LOD云组，涵盖学术、艺术、气象、经

济等多个领域。

LOV（ Linked Open Vocabularies）是图书情报领域中最大的关联开放

词表，它的每一类词表都是集合了众多的领域本体、描述本体以及一些

专业的词汇标准 VOAF(Vocabulary of a Friend)等。

Part of LOD

服务名称内容

书目数据关联

LIBRIS175个图书馆中的 600万条书目数据

WorldCat.org170个国家的 72000多个图书馆的书目资源

RDF-Book Mashup将书目资源整合到语义网上，并发布在 LOD云上

词表关联LCSH

一系列的主题词构成的语义叙词表

DDC10个大类，每个学科都有特定数字来表示的小类

科技论文关联 DBLP800000多篇文章和 400000多位作者信息集

主流的图书馆关联数据服务

2.4语义网技术在图书馆中的应用

国内：

上海市图书馆等

国外：JeromeDL

VIVO

DSpace

Fedora

BRICKS

...

3 资源的深度聚合

数字资源对象

聚合程度

聚合过程

图书馆资源与外部资图书馆资源与外部资源进行深度聚合源进行深度聚合

分为两种数字资源对象：粗粒度和细粒度

聚合的程度分为三个层次：结构层次、信息层次、语义层次

语义层次上的聚合

数字资源对象的获取及处理

关联数据格式转换

选取聚合方法进行聚合

发布为关联数据

映射法相似度计算法机器学习法

聚合的过程

工具名称功能模块聚合过程

SILKSILK语言规范 SILK语言规范数据 --SILK Server构建等同

关联SILK Server

D2R

D2R Server

使用 D2R server生成映射文件 --D2R Mappin

g建立实体与数据表间的映射关系D2R Engine

D2R Mapping

LIMES

中心模块

中心模块调用 I/O模块 --数据模块抽取关键信息 --按照预先设置好的阈值进行实例的匹配；查询模块设置特定的 LIMES查询语言 --调用处理模块对输出的数据进行处理 --引擎模块通过计算等方式输出 RDF格式文件

数据模块

I/O

查询模块

处理模块

引擎模块

R2R

R2R Mappings

通过 R2R映射文件及映射语言 ---转换为 RDF

格式文件R2R Mapping language

Jena Model

4 资源深度聚合的工具

4.1SILK工具

Silk Single Machine：在单机上生成 RDF Links

Silk MapReduce:在服务器集群上建立 RDF Links（基于 Hadoop，大数

据处理）

Silk Server:作为在网上消费关联数据的应用中的标识解析组件

Silk WorkBench：图形化的界面

运行环境：

JAVA运行环境

WINDOWS系统

非 IE内核浏览器

Prefixes: 数据的前缀。将所有用到的数据的前缀（根标签）添加进去。

Source: 数据源。包括源数据和目标数据。

Task: 创建关联任务。将两个数据进行链接。

Output: 输出关联后的链接。

LinkSpec: 特定类型的数据要有特定的链接说明

Export:导出关联任务

4.2D2R工具

D2R是一个将关系型数据库发布为关联数据的专用工具，支持主流关系

型数据库如 Oracle、MySql、 SQLServer、 Access等，将表数据发布

为关联数据。

D2R语义模式映射机制主要分为两个部分：

（ 1）构建映射规则，利用映射语言，以 RDF格式描述映射关系，形成映

射文件（ mappingfile.tll）

（ 2）构建关联数据，使用映射文件对关系型数据进行转换，并提供多种

访问模式

4.3LIMES工具

运行环境：

JAVA运行环境

WINDOWS系统

可以进行在线链接

工作台和 SILK类似

两个数据源进行链接的过程和 D2R类似，先进行类的匹配，再进行属性的匹配

创建关联任务

源数据

目标数据

类匹配

属性匹配

5 总结与展望

意义：图书馆数字资源深度聚合的最终目的是利用语义网技术为用户提供语义检索和语义推荐。

挑战：（ 1）聚合后的 RDF格式链接只能用于下一次与外部资源进行关联，并不能直接与用户进行交互

（ 2）当关联的外部数据更新时，图书馆能否及时更新关联的数据，为用户提供最新的关联资源

展望：

将来图书馆的发展趋势是要实现 Social Semantic Digital Library，它将关联后的资源再建为类似于知识库的资源集合，并以可视化的方式呈现，在为用户提供语义检索的同时推荐更多不易察觉的Web资源。

semantic web and integration of library recources

Technology