semantic web and integration of library recources
DESCRIPTION
this is a ppt for integrating the library recources,and it used the ontology and linked dataTRANSCRIPT
语义网技术在图书馆数字资源聚合中的应用语义网技术在图书馆数字资源聚合中的应用
北京师范大学政府管理学院黄海晶
2014-06-28
目录
引言1
主要的语义网技术2
资源的深度聚合3
深度聚合使用的工具4
4
5 总结与展望
1 引言
语义网技术
2 主要的语义网技术
RDFRDF、、 RDFSRDFS、、 SKOSSKOS
外部本体和图书馆本体外部本体和图书馆本体 主流图书馆关联数据服务主流图书馆关联数据服务
语义标准
本体 关联数据
2.1语义标准
目前语义网所使用的一般资源语义描述标准包括 RDF、 RDFS、 OWL
等。这些标准规定了网络资源的语义描述方式,为资源间的聚合提供了统一的语义接口。
具有语义描述的资源才能进行语义上的关联。
MARC
RDF
1001# $a Lubas, #Rebecca L.020# $G254.3/P89 200# # $Libraries Unlimited …
<rdf:RDF> <book> <author>Lubas,RebeccaL</author> <number>G254.3/P89 </number> <publisher> Libraries Unlimited </publisher> </book>…</rdf:RDF>
e-mail addressblog
<rdf:RDF> <book> <author>Lubas,RebeccaL</author> <email>..</email> <address>..</address> <blog>..<blog> <number>G254.3/P89 </number> <publisher> Libraries Unlimited </publisher> </book>…</rdf:RDF>
1001# $a Lubas, #Rebecca L.020# $G254.3/P89 200# # $Libraries Unlimited 500# # $email,$address,$blog…
本体是对一个特定领域中重要概念的共享的形式化的描述的抽象模型,它能够将图书馆中的知识资源在语义层次上组织起来。
利用本体可以构建图书馆资源的本体库和知识库,从而为用户提供语义检索,还可以与大众分类法结合,将大众标签按照本体构造方式进行组织,为用户提供语义推荐。
2.2本体
2.2本体
FOAF
EVENT
DBpedia Ontology
MarcOnt
BIBO
FRBR
外部本体
图书馆元数据本体
图书馆资源图书馆资源
2.3关联数据
关联数据提供了一种新的数据分享方式,使得基于标准网络协议的、海
量的Web 数据富含语义,并提供面向人的界面和面向机器的数据消费
接口。
全球最大的关联数据中心 CKAN-the Data Hub共有 3880个数据集,最
大的组是包含 327个数据集的 LOD云组,涵盖学术、艺术、气象、经
济等多个领域。
LOV( Linked Open Vocabularies)是图书情报领域中最大的关联开放
词表,它的每一类词表都是集合了众多的领域本体、描述本体以及一些
专业的词汇标准 VOAF(Vocabulary of a Friend)等。
Part of LOD
LOV
服务 名称 内容
书目数据关联
LIBRIS175个图书馆中的 600万条书目数据
WorldCat.org170个国家的 72000多个图书馆的书目资源
RDF-Book Mashup将书目资源整合到语义网上,并发布在 LOD云上
词表关联LCSH
一系列的主题词构成的语义叙词表
DDC10个大类,每个学科都有特定数字来表示的小类
科技论文关联 DBLP800000多篇文章和 400000多位作者信息集
主流的图书馆关联数据服务
2.4语义网技术在图书馆中的应用
国内:
上海市图书馆等
国外:JeromeDL
VIVO
DSpace
Fedora
BRICKS
...
3 资源的深度聚合
数字资源对象
聚合程度
聚合过程
图书馆资源与外部资图书馆资源与外部资源进行深度聚合源进行深度聚合
分为两种数字资源对象:粗粒度和细粒度
聚合的程度分为三个层次:结构层次、信息层次、语义层次
语义层次上的聚合
数字资源对象的获取及处理
关联数据格式转换
选取聚合方法进行聚合
发布为关联数据
映射法相似度计算法机器学习法
聚合的过程
工具名称 功能模块 聚合过程
SILKSILK语言规范 SILK语言规范数据 --SILK Server构建等同
关联SILK Server
D2R
D2R Server
使用 D2R server生成映射文件 --D2R Mappin
g建立实体与数据表间的映射关系D2R Engine
D2R Mapping
LIMES
中心模块
中心模块调用 I/O模块 --数据模块抽取关键信息 --按照预先设置好的阈值进行实例的匹配;查询模块设置特定的 LIMES查询语言 --调用处理模块对输出的数据进行处理 --引擎模块通过计算等方式输出 RDF格式文件
数据模块
I/O
查询模块
处理模块
引擎模块
R2R
R2R Mappings
通过 R2R映射文件及映射语言 ---转换为 RDF
格式文件R2R Mapping language
Jena Model
4 资源深度聚合的工具
4.1SILK工具
Silk Single Machine:在单机上生成 RDF Links
Silk MapReduce:在服务器集群上建立 RDF Links(基于 Hadoop,大数
据处理)
Silk Server:作为在网上消费关联数据的应用中的标识解析组件
Silk WorkBench:图形化的界面
运行环境:
JAVA运行环境
WINDOWS系统
非 IE内核浏览器
Prefixes: 数据的前缀。将所有用到的数据的前缀(根标签)添加进去。
Source: 数据源。包括源数据和目标数据。
Task: 创建关联任务。将两个数据进行链接。
Output: 输出关联后的链接。
LinkSpec: 特定类型的数据要有特定的链接说明
Export:导出关联任务
4.2D2R工具
D2R是一个将关系型数据库发布为关联数据的专用工具,支持主流关系
型数据库如 Oracle、MySql、 SQLServer、 Access等,将表数据发布
为关联数据。
D2R语义模式映射机制主要分为两个部分:
( 1)构建映射规则,利用映射语言,以 RDF格式描述映射关系,形成映
射文件( mappingfile.tll)
( 2)构建关联数据,使用映射文件对关系型数据进行转换,并提供多种
访问模式
4.3LIMES工具
运行环境:
JAVA运行环境
WINDOWS系统
可以进行在线链接
工作台和 SILK类似
两个数据源进行链接的过程和 D2R类似,先进行类的匹配,再进行属性的匹配
创建关联任务
源数据
目标数据
类匹配
属性匹配
5 总结与展望
意义:图书馆数字资源深度聚合的最终目的是利用语义网技术为用户提供语义检索和语义推荐。
挑战:( 1)聚合后的 RDF格式链接只能用于下一次与外部资源进行关联,并不能直接与用户进行交互
( 2)当关联的外部数据更新时,图书馆能否及时更新关联的数据,为用户提供最新的关联资源
展望:
将来图书馆的发展趋势是要实现 Social Semantic Digital Library,它将关联后的资源再建为类似于知识库的资源集合,并以可视化的方式呈现,在为用户提供语义检索的同时推荐更多不易察觉的Web资源。