semantic web & ontology

100
1 Metadata Metadata Instructor: Zhang maoyuan E-mail: [email protected] Semantic Web & Semantic Web & Ontology Ontology

Upload: maxima

Post on 21-Mar-2016

92 views

Category:

Documents


7 download

DESCRIPTION

Semantic Web & Ontology. Metadata. Instructor: Zhang maoyuan E-mail: [email protected]. Outline. Why Metadata What’s Metadata What’s XML Question. 2.1 Current Web. 500 million user more than 3 billion pages. WWW. URI, HTML, HTTP. Static. 快速发展的因素. 电脑技术的快速发展 电脑的普及 电脑知识的普及 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Semantic Web & Ontology

1

MetadataMetadata

Instructor: Zhang maoyuanE-mail: [email protected]

Semantic Web & Semantic Web & OntologyOntology

Page 2: Semantic Web & Ontology

2

Outline

Why Metadata

What’s Metadata

What’s XML

Question

Page 3: Semantic Web & Ontology

3

URI, HTML, HTTPStaticWWW

500 million usermore than 3 billion pages

2.1 Current Web

Page 4: Semantic Web & Ontology

4

快速发展的因素 电脑技术的快速发展

– 电脑的普及– 电脑知识的普及

网络技术(光纤、网络协议等)的发展 – 带宽的提高– 校园网、电信的 ISDL

用户对资源的需求 – 知识的需求– 娱乐信息

Page 5: Semantic Web & Ontology

5

引发一系列问题( 1 ) 信息发布

– 网络 IP 地址的分配问题– 产生虚拟 IP 网络、 IPV6 等方法来解决

信息获取 – 如何从这些海量信息中查到自己感兴趣的资源– 如何获取这些信息– 产生搜索引擎、信息挖掘技术

信息存储 – 如何存储海量信息 – 产生磁盘阵列、 TB 级存储器

Page 6: Semantic Web & Ontology

6

引发一系列问题( 2 ) 信息传递

– 采用何种工具传递网络信息 – 产生 FTP 、 BT 等软件

信息使用 – 如何合法、正确使用网络信息 – 产生网络信息监管的职能部门和法规– 产生针对用户(如儿童)权限等的信息过滤技术

Page 7: Semantic Web & Ontology

7

Web 信息结构 大部分采用 HTML ( HyperText Markup Language ) 也采用 XML ( eXtensible Markup Language ) HTML 标记语言

– 是在普通文本的基础上加上特殊标记 (Tag)– 目的是运用标记使文件达到预期的显示效果– 方法是用“ <” 、“ >” 扩住标记,起始标记用 <Tag>表示,终止标记用 </Tag> 表示

Page 8: Semantic Web & Ontology

8

HTML 网页片断( 1 ) <TABLE border=0 cellPadding=0 cellSpacing=0 width=720> <TBODY> <TR> <TD width=61><A href="http://127.0.0.1/"><IMG alt= 虚拟中医网 border=0 height=67 src="default.files/logo1.gif" width=61> </A></TD> <TABLE>

– 一个容器标记,用以指明这是表格,– 其它表格标记只能在这个标记范围内使用

<TR>– 表示表格的行。

<TD>

– 表示表格行中的单元。

Page 9: Semantic Web & Ontology

9

HTML 网页片断( 2 ) <frameset rows=“80 , *”> <frame name =“top” src=“a.html”/> <frame name =“bottom” src=“b.html”/></frameset>

<frameset> – 用来划分框格,每个框格由一个 <frame> 标记来表示 – 这里把页面分成上下两部分,上面显示 a.html ,下面显示 b.html

Page 10: Semantic Web & Ontology

10

2.2 搜索引擎 从 1995 年开始逐渐发展 产生原因

– 用户要在如此浩瀚的信息海洋里寻找信息,必然会“大海捞针”无功而返。– 搜索引擎正是为了解决这个 " 迷航 " 问题而出现的技术

目的 – 以一定的策略在互联网中搜集、发现信息 – 对信息进行理解、提取、组织和处理 – 为用户提供检索服务

Page 11: Semantic Web & Ontology

11

现有的搜索引擎 中文搜索引擎 英文搜索引擎

百度中文搜索引擎Google 搜索引擎北大天网中英文搜索引擎聪搜索引擎雅虎中国分类搜索引擎搜狐分类搜索引擎新浪搜索引擎 网易分类目录引擎

英文 Google 搜索引擎Inktomi/MSN 搜索引擎 Fast/AllTheWeb 搜 索 引擎AltaVista  搜索引擎ASK/Temoa 搜索引擎英文 Yahoo! 分类目录Dmoz 人工分类目录LookSmart 分类目录

Page 12: Semantic Web & Ontology

12

Google 简介 斯坦福大学的博士生 Larry Page 和 Sergey Brin

– 在 1998 年创立 – 搜索时间通常不到半秒 – 每天需要提供 1.5 亿次查询服务

Google 的技术 – 代理搜索技术 – 高级 PageRank (网页级别)技术

Google 释义 – 由英文单词“ googol”变化而来 – 表示 1 后边带有 100 个零的数字 – 代表 Google想征服网上无穷无尽资料的雄心

PageRank– 利用巨大的网络链接结构 – 网页 A 链接到网页 B 时, 就认为“网页 A 投了网页 B 一票– 避免任何人为感情因素

Page 13: Semantic Web & Ontology

13

百度搜索引擎简介 李彦宏先生及徐勇先生

– 1999 年底,百度成立于美国硅谷 – 2000 年百度公司回国发展

百度的起名 – 辛弃疾的《青玉案》中 “众里寻她千百度” – 象征着百度对中文信息检索技术执著的追求

竞价排名– 由用户为自己的网页出资购买关键字排名 – 按点击计费的一种服务 – 搜索结果的顺序将根据竞价的多少由高到低排列

Page 14: Semantic Web & Ontology

14

雅虎搜索引擎简介 大卫 ·费罗 (David Filo) 和杨致远 (Jerry Yang)

– 美国斯坦福大学电机工程系的博士生 – 1994 年 4月建立了网络指南信息库

分类目录 – 站点目录分为 14 个大类,每一个大类下面又分若干子类 – 连接速度快,包含范围广 – 雅虎中国网站提供简单易用、手工分类的简体中文网站目录

Page 15: Semantic Web & Ontology

15

性能指标 召回率( Recall )

– 检索出的相关文档数和文档库中所有的相关文档数的比率– 衡量的是搜索引擎的查全率

精度( Pricision ) – 检索出的相关文档数与检索出的文档总数的比率 – 衡量的是搜索引擎的查准率

影响性能的因素 – 文档和查询的表示方法– 评价文档– 用户查询相关性的匹配策略– 查询结果的排序方法– 用户进行相关度反馈的机制

Page 16: Semantic Web & Ontology

16

搜索引擎的类别 分类依据

– 信息搜集方法 – 服务提供方式

类别 – 目录式搜索引擎 – 机器人搜索引擎 – 元搜索引擎

Page 17: Semantic Web & Ontology

17

目录式搜索引擎 搜集信息

– 人工方式或半自动方式 信息处理

– 由编辑员查看信息之后,人工形成信息摘要– 并将信息置于事先确定的分类框架中

服务方式– 提供目录浏览服务 – 提供直接检索服务

优点– 讨论

缺点– 讨论

代表 – YAHOO  、 LookSmart 、 Dmoz 等

Page 18: Semantic Web & Ontology

18

机器人搜索引擎 搜集信息

– 蜘蛛( Spider )的机器人程序 – 以某种策略自动地在互联网中搜集信息

信息处理– 建立索引库

服务方式 – 面向网页的全文检索服务

优点 – 讨论

缺点– 讨论

代表 – Google 、天网等

Page 19: Semantic Web & Ontology

19

元搜索引擎 技术方法

– 将用户的查询请求同时向多个搜索引擎递交 – 将返回的结果进行重复排除、重新排序等处理 – 作为自己的结果返回给用户

服务方式– 面向网页的全文检索

本质特点– 没有自己的数据

优点– 讨论

缺点– 讨论

代表– WebCrawler 、 InfoMarket 等

Page 20: Semantic Web & Ontology

20

搜索引擎系统结构 搜索器 索引器 检索器 用户接口

Page 21: Semantic Web & Ontology

21

搜索器 功能

– 在互联网中漫游,发现和搜集信息 – 尽可能多、尽可能快地搜集各种类型的新信息 – 定期更新已经搜集过的旧信息

搜集策略– 从一个起始 URL集合开始,以宽度优先、深度优先或启发式方式循环地在互联网中发现信息 – 将Web 空间按照域名、 IP 地址或国家域名划分,每个搜索器负责一个子空间的穷尽搜索

信息类型 – HTML 、 XML 、 FTP 文件、字处理文档、多媒体信息

其它支撑技术– 分布式、并行计算技术

Page 22: Semantic Web & Ontology

22

索引器 功能

– 理解搜索器所搜索的信息– 从中抽取出索引项,用于表示文档以及生成文档库的索引表

索引项 – 客观索引项– 内容索引项

支撑技术– 统计法、信息论法和概率法(计算索引项的权值 ) – 倒排表( Inversion List ),由索引项反过来查找相应的文档 – 可以使用集中式索引算法或分布式索引算法

Page 23: Semantic Web & Ontology

23

检索器 方法

– 根据用户的查询在索引库中快速检出文档– 进行文档与查询的相关度评价– 对将要输出的结果进行排序– 并实现某种用户相关性反馈机制

如何实现多点的海量检索(讨论)– 集中式海量检索– 分布式海量检索

Page 24: Semantic Web & Ontology

24

用户接口 作用

– 输入用户查询– 显示查询结果– 提供用户相关性反馈机制

目的– 方便用户使用搜索引擎– 高效率、多方式地从搜索引擎中得到有效、及时的信息

简单接口– 只提供用户输入查询串的文本框

复杂接口 – 让用户对查询进行限制,如逻辑运算 、时间、长度等

例子– Google 提供多种用户使用界面

Page 25: Semantic Web & Ontology

25

搜索引擎的研究动向 提高信息查询结果的精度,提高检索的有效性 基于智能代理的信息过滤和个性化服务 采用分布式体系结构提高系统规模和性能 交叉语言检索的研究和开发 国际会议

– 美国 Infornotics 公司主办的搜索引擎国际会议从 1996年开始,每年举行一次– IEEE主办的国际万维网会议、人机交互会议

Page 26: Semantic Web & Ontology

26

当前搜索引擎的不足之处 ( 1 )1) 语义分析不足,缺少较好的中文分词技术支持

用 google 搜索引擎,关键词“和服”,在第 3页有如下结果:外交部公布新版中国境外领事保护和服务指南 ...外交部公布新版中国境外领事保护和服务指南(附全文) , 中国外交部通过其官方网站公布了《中国境外领事保护和服务指南( 20

03年版)》,以帮助中国公民了解中国驻外使、领馆的领事保护和服务范围。 ... www.china.org.cn/chinese/2003/May/328355.htm - 27k - 网页快照 -

类似网页

Page 27: Semantic Web & Ontology

27

当前搜索引擎的不足之处 ( 2 )2 )智能化不足 都需要用户提供检索的关键词、关键词组,但还不能直接检索语句 要直接检索语句,需要更强的自然语言处理技术支持

Page 28: Semantic Web & Ontology

28

2.3 Web 信息提取 从提取规则角度,网页信息提取方法可分为两大类 基于标识规则的方法

– 应用网页文档的标识来提取网页信息 基于内容规则的方法

– 应用自然语言处理技术 – 从关键词匹配到有层次的句法分析

Page 29: Semantic Web & Ontology

29

基于标识规则的方法 Harvest 信息提取系统

– 利用手工编写的 wrappers 分析一批固定的 Web 资源 – 只能处理Web 文档而忽略了 Internet 上提供的服务 – 依赖于提前定义的文档类型 , 对新文档结构则无能为力

斯坦福大学提出的对象交换模型 (OEM) 方法 – 一个简单的、自描述、嵌套的对象模型 – 一个带标记的有向图 – 这个模型依赖于具体问题的分析

DSE(Data-rich section extraction) 算法 – 用树型结构表示 HTML 网页的布局 – 实质是针对具体问题建立文档对象模型,提取网页信息

Page 30: Semantic Web & Ontology

30

基于内容规则的方法 Artequakt 系统

– 建立在自然语言处理技术和实体论基础上– 通过句法和语义分析来确定实体及关系– 根据用户要求,产生描述格式,从而描述出艺术家传记

DL(description logics)方法 – 建立在实体论基础上– 用 DL 方法从词汇关系、概念关系和上下文关系,抽取概念及其依赖关系树

Diffusion webIE 系统 – 依照实例模型(又称 IE 规则)构出的框架– 依据关键词位置和值的特征的定位规则– 依据词类型和取值范围的表格提取规则– 句法分析规则

Page 31: Semantic Web & Ontology

31

两种方法比较 基于标识的方法

– 不具有自适应能力– 准确定位信息段的起止位置

基于内容的方法– 不易准确定位信息段的起止位置– 有一定自适应能力– 依赖较强的自然语言处理技术

Page 32: Semantic Web & Ontology

32

信息提取的研究趋势 融合两种规则

– 一些网页信息提取方法把这两种规则融合在一起– 以求充分发挥着两种提取规则的特点– 来提高提取效率

语义网 – 改变现有网页信息结构– XML 语言把信息结构、内容与数据的表现形式进行分离– RDF把信息转换成元数据 – 本体论把信息的结构与内容相分离– 信息具有计算机可理解的语义

Page 33: Semantic Web & Ontology

33

2.4 元数据 定义

– data about data (关于数据的数据 ) – 是对 web 信息的一种描述方式– 是机器可理解的信息

基本作用 – 管理数据,从而实现查询、阅读、交换和共享

组成 – 一系列元素或属性

例子:图书馆目录– 如 : 作者,书名,出版日期,主题,分类排架号等元素

Page 34: Semantic Web & Ontology

34

元数据与资源之间的关联方式 独立方式

– 元素可包含在独立于该项资源的记录中 – 例如:图书馆目录

嵌入方式– 数据可嵌在资源本身中 – 例如:印在书内封上的在版编目 (CIP)数据– 例如:电子文本的标题

关联方式的确定– 不预先规定 – 由具体情况决定

Page 35: Semantic Web & Ontology

35

元数据的主要作用 用来组织和管理网络信息,并挖掘信息资源

– 准确地识别、定位和访问信息 (举例讨论) 帮助用户查询所需信息

– 可按照不同的地理区间、指定的语言以及具体的时间段来查找信息资源 (举例讨论) 组织和维护一个机构对数据的投资

– 可方便创建网页(举例讨论) 用来建立信息的数据目录和数据交换中心

– 可以共享信息、维护数据(举例讨论) 提供数据转换方面的信息

– 通过元数据,用户可以接受并理解信息 (举例讨论)

Page 36: Semantic Web & Ontology

36

如何获取元数据 元数据的编写标准

– 目的为实现领域中的数据信息交换和共享,为研究和生产服务 – 不同领域会根据不同的需求定义一个标准或几个标准 – 如 MARC(Machine-ReadabIe Cataloging ,机器可读编目 ) 和 Dublin Core 等

实现的技术手段 – XML– RDF

Page 37: Semantic Web & Ontology

37

XML 技术 特点

– 从数据与文档的底层实现格式化,– 保证了从里到外、从处理到交换的一致性

实现自动抽取– 采用 XML 解析器开发的工具,可以从网上 Web服务器的 HTML 、 XML 和数据库中自动抽取并索引元数据

Page 38: Semantic Web & Ontology

38

RDF 技术 元数据的互操作性

– 要求在由不同的组织制定与管理且技术规范不尽相同的元数据环境下,能够作到对用户保持一致性的服务 – 可同时携带多种元数据来往于互联网的架构

RDF 特点– 提供能对结构化元数据进行编码,交换及再利用的体系框架 – 可使不同的用户或团体在这一框架下定义他们自己的元数据元素– 提供了各种不同的元数据体系之间的互操作性

Page 39: Semantic Web & Ontology

39

元数据映射 (Metadata Mapping) 原因

– 存在元数据的互操作性问题 定义

– 利用特定转换程序对不同元数据标准进行转换 方法一 (元数据标准的特定转化程序)

– Dublin Core与 USMARC – Dublin Core与 EA

方法二(中介元数据格式)– 如 UNIverse 项目利用 GRS 格式进行 MARC格式和其他记录格式的转换

比较– 方法一转换准确、转换效率较高

Page 40: Semantic Web & Ontology

40

元数据类型 内容元数据

– 描述对象内容的信息 – 如大字标题、主题、引导段落、图像、影片

管理元数据 – 描述和电子文档相关的信息 – 如作者、创建者、创建日期等

负载信息元数据 – 提供电子文档的物理属性 – 如文本中表示强调的粗体标识,电子邮件系统中邮件的大小标识

参考信息元数据– 源自电子文档中的超链接 – 扩展到表达任何万维网信息、文档和资源的参考链接 – 包括环境信息,以及文档的结构信息 – 如经常出现电子文档中指向各章节的链接

Page 41: Semantic Web & Ontology

41

元数据表示语言 标记语言

– 标准通用标记语言 SGML– 超文本标记语言 HTML– 可扩展标记语言 XML– 虚拟现实模型语言 VRML– 无线标记语言 WML

元数据标准 – Dublin Core – HL7 (描述医学网络资源的元数据 )– 教育资源元数据 – 机读目录( MARC )

Page 42: Semantic Web & Ontology

42

SGML

标准通用标记语言– 是一种描述语言的语言,定义了以电子形式表示文本的方法

特点 – 正式的,能允许验证文档的正确性 – 结构化的,能够处理复杂的文档 – 可扩充的,能够支持大型信息存储的管理

组成部分– SGML声明,设定基本情况 – 定义 DTD 文档类型,设定标记语言结构的语法 – 描述用于标记的语义规格说明,做出了 DTD 表达的语法限制 – 描述用于标记的语义规格说明,做出了 DTD 表达的语法限制

应用实例– HTML 、 XML

Page 43: Semantic Web & Ontology

43

其它标记语言 虚拟现实模型语言 VRML

– 用于对 3维虚拟场景进行建模的描述性语言 – HTML定义 2维,而 VRML 定义 3维

无线标记语言 WML – 类似于 HTML 的测览语言– 提供测览支持、数据输入、超级链接、文本和图像表现以及表格交互 – 应用于“无线应用软件”环境下的网页语言 – 为 WAP(Wireless Application Protocol) 协议所包括的一种标记协议语言

Page 44: Semantic Web & Ontology

44

Dublin Core 元数据标准 背景

– 搜索引擎的查准率比较低 创建者

– OCLC(Online Computer Library Center , Inc. ,美国在线计算机图书馆中心 ) 目的

– 从用户的角度出发– 创建了一种新的网络资源描述标准或格式

第一次国际研讨会 – 1995 年 3 月,在都柏林 (Dublin) 召开 – 探讨如何建立一套描述网络上电子文件特征、提高信息检索效果的方法 – 开始启动电子图书馆对象元数据标准的研究项目

Page 45: Semantic Web & Ontology

45

DC 元数据集 包括 15 个核心元素 按照信息的类型和范围分为三个子集

– 数据资源内容 – 数据知识产权 – 数据实体

特点– 简练、易于理解、可扩展– 能与其他元数据形式兼容– 被称为一个良好的网络信息资源描述元数据集

Page 46: Semantic Web & Ontology

46

数据资源内容子集 元 素 定 义

TITLE (数据集名称) 由数据生产者或分发者确定的数据集名称SUBJECT (主题 ) 数据集的主题,可以是说明数据集主题或内容的关键字或短语,最好使用规定的缩写词或统一分类名称

DESCRIPTION(描述) 数据集内容的简要说明SOURCE (数据源) 生产数据集的原始资料说明,包括原始资料出版日期、生产者、格式、标识码或其他说明信息LANGUAGE (语言) 数据集使用的语言,该元素的内容应当与“语言标识码”标准 (RFC1766) 一致,如 en(英国 )、 de( 德国 )、 fr(法国 )等RELATION (关系) 其他生产者标识码及其与数据生产者之间的关系COVERAGE(时空覆盖范围) 数据集内容的空间和时间覆盖范围。空间覆盖范围可以用坐标或地名表示;时间范围是指数据的现势性,按 ISO 8601日期和时间格式标准,即 YYYY-MM-DD

Page 47: Semantic Web & Ontology

47

数据知识产权子集 元 素 定 义CREATOR(数据生产者) 负责生产数据的主要单位或个人

PUBLISHER(出版者) 将数据集提供用户使用的负责单位,如出版社等

CONTRIBUTOR(其他生产者) 除数据生产者元素中说明以外的其他参与生产者 (如编辑、转换等 )RIGHTS (版权) 版权说明。与版权管理声明链接的标识码,或与提供数据集版权管理信息的服务链接的标识码

Page 48: Semantic Web & Ontology

48

数据实体(形式)子集 元 素 定 义

DATE (日期) 数据集生产或提供使用的日期,按 ISO 8601日期和时间格式标准,即 YYYY-MM-DDTYPE (类型) 数据集的类型FORMAT (格式) 数据集的数据格式,用于识别显示或操作数据集的软件及硬件。

IDENTIFIER(标识码) 唯一标识数据集的字符串或数字,对于联网数据资源,包括URL 和 URN ,或 ISBN

Page 49: Semantic Web & Ontology

49

DCMI

DCMI(Dublin Core Metadata Initiative) – 都柏林核元数据研究行动

已经成为一个国际性的电子数据对象标准研究组织 有来自英国、澳大利亚、芬兰、加拿大、美国等国的具有多种不同专业背景的个人和团体参加 从事元数据标准、实践指南、支撑技术及相关政策的研究与开发 成立了一个教育工作组 DC- E

– 从数字图书馆元数据标准中– 筛选出上述 DC中的 15个核心元素– 作为学习对象数据要素

Page 50: Semantic Web & Ontology

50

HL7(Health Level 7) 开发机构

– 1987 年,由美国国家标准局 (ANSI)授权的 HL7(Health Level Seven Inc) 开发

领域– 专门用于医疗卫生机构及医用仪器、设备数据信息传输的标准

支持的国家– 在 1994 年 HL7 已纳入美国 ANSI国家标准 – 澳洲、加拿大、德国、以色列、日本、纽西兰、荷兰及英国

用途– 适用于医院内部的信息交换– 适用于医院与医院之间,医院与保险公司、医院与上级主管部门之间的大量信息交换

Page 51: Semantic Web & Ontology

51

HL7 技术 参考了 OSI 的通讯模式

– HL7纳为最高的一层,也就是应用层

Page 52: Semantic Web & Ontology

52

HL7 标准的內容 (1) Ch1: Introduction (概述与HL7历史 )Ch2: Control ( 控制 )Ch3: Patient Administration ( 病患管理 , 挂号 )Ch4: Orders (医令 )Ch5: Query (查询 )Ch6: Financial Management ( 病患帐务 )Ch7: Observation Reporting (检验报告传送 )Ch8: Master Files ( 参考档同步机制 )

Page 53: Semantic Web & Ontology

53

HL7 标准的內容 (2)Ch9: Medical Records/Info. Management ( 病历 )Ch10: Scheduling (排程 )Ch11: Patient Referral ( 转诊 )Ch12: Patient Care ( 病患看护 )附录 A: Data Definition Tables ( 参考表 )附录 B: Lower Layer Protocol (LLP)附录 C: Network Management附录 D: BNF Message Descriptions附录 E: Glossary

Page 54: Semantic Web & Ontology

54

HL7 特点 可应用于多种操作系统和硬件环境

– 所有不同平台的医院信息管理系统通过 HL7都可以顺利沟通 – 设备可以做到无缝联接和医学数据信息的无障碍交换

汇集了的一些标准接口格式– 针对不同厂商设计应用软件

Page 55: Semantic Web & Ontology

55

教育资源元数据 IEEE LOM

– 学习对象元数据 IMS

– 教学管理系统 CELTS

– 中国教育信息化技术标准

Page 56: Semantic Web & Ontology

56

IEEE LOM ( 1 ) 由 IEEE学习技术标准委员会 P1484.12学习对象元数据工作组建立 目的

– 使用最小属性集完成对学习对象的管理、检索和评估– 便于将来对其属性进行扩展

目标– 定义学习对象元数据的语法与语义– 对安全、隐私、商业和评估等应用提供了描述符

学习对象指一切可为教学和培训目的服务的对象 – 可以是物理的:如实验器材、课本 – 可以是数字的:如教学软件,网络课件

Page 57: Semantic Web & Ontology

57

IEEE LOM ( 2 ) 元素

– 9 个基本类别(即通用类、生命周期类、宏元数据类、技术类、教育类、权利类、注解类、关系类、分类类) – 每个类别包括若干元素 – 对每个元素定义了其名称、解释、值域、数据类型、附注和示例

作用 – 在不操作学习对象的情况下通过元数据信息来了解学习对象的一些有用的属性 – 可以对学习对象进行有效的分类管理和查找 – 可以从元数据信息中获取学习对象的评价信息,也可以把自己的评价加入到元数据

Page 58: Semantic Web & Ontology

58

IMS 1997 年美国 EDUCOM (美国多所大学联合组成的联盟 )专门对电子学习 (e-Learning劫标准进行研究项目 目的

– 能达成各校间网络化教材的共享 目标

– 达成分布式学习环境下之应用系统或服务的互操作性,定义、发展所需的技术规范– 协助其他单位,将 IMS 规范纳人产品或服务中

主要任务– 主要发展和推广有关教育的开放规范– 促进线上分布式的学习活动 – 如搜寻和使用教育用途的内容、追踪学习者的学习进度

性质– 并非开放性组织 – 所制定的规范还未成为正式的标准

Page 59: Semantic Web & Ontology

59

IMS 规范 用于内容描述、发现和交换的规范

– IMS 内容包装说明 (IMS Content Packaging Specification) – IMS 问题与测试互操作性说明( IMS Question & Test Interoperability Spe

cification )– IMS学习资源元数据说明 (IMS Learning Resource Metadata Specification) – 数字资源库互操作 (Digital Repositories Interoperability)

用于内容交互与跟踪的规范 – 简易串序 /简易排序( Simple Sequencing ) – 能力( Competencies ) – 学习设计( Learning Design ) – 可用性( Accessibility )

用于应用系统互操作的规范– IMS学习者信息包装说明 (IMS Learner Information Package Specification) – IMS企业说明( IMS Enterprise Specification

Page 60: Semantic Web & Ontology

60

中国教育信息化技术标准 2001 年开始启动 基于 LOM 目标

– 实现资源共享– 支持系统互操作– 保障网络教育服务质量

方法– 跟踪国际标准研究工作和引进相关国际标准– 根据我国教育的实际情况修订与创建各项标准

Page 61: Semantic Web & Ontology

61

CELTS 体系 《学习对象元数据》( CELTS-3 )

– 规定了描述学习对象的基本方法与准则 – 属于 CELTS 体系中的基础标准

《教育资源建设技术规范》( CELTS-41 )– 面向资源建设领域– 包括基础教育、高等教育、职业教育和培训等领域)– 是对《学习对象元数据》与具体应用领域结合的产物

《基础教育教学资源元数据规范》( CELTS-42 )– 应用领域则更为具体– 主要面向基础教育的资源建设

关系– 一脉相承的– 都是以 LOM 为核心建立的

Page 62: Semantic Web & Ontology

62

机读目录( MARC ) 广泛用于图书馆书目记录数据 是目前图书馆描述、存储、交换、处理以及检索信息的基础 特点

– 可变长字段的记录格式– 采用目次方式 – 每条MARC记录分三个区(头标区,目次区,数据区)

Page 63: Semantic Web & Ontology

63

2.5 XML

性质– W3C于 1998 年 2月发布的一种标准 – 是 SGML 的一个简化子集 – 可扩展标记语言

特点– 较好地解决了 HTML 无法表达数据内容等问题– 允许各个组织、个人建立适合自己需要的标记集合

Page 64: Semantic Web & Ontology

64

XML 与 HTML 比较 文档的 3 个要素

– 数据、结构以及显示方式 HTML

– 显示方式内嵌在数据中 – 在创建文本时,要时时考虑输出格式 – 创建文档的重复工作量大 – 不易抽取语义信息

XML– 显示格式从数据内容中独立出来,保存在样式单文件 (S

tyle Sheet) 中 – 自我描述性质能够很好地表现许多复杂的数据关系

Page 65: Semantic Web & Ontology

65

XML 结构 文件头

– 与HTML 类似,是可选的 文件主体

– 包括一个或多个元素 – 形式是一棵分级的树

混杂的“结尾部分” – 由注释、处理指令和空白组成 – 注释用 <!-- --!> 表示,可在文档中任意位置

Page 66: Semantic Web & Ontology

66

元素 (Element) 表示方法

– 由开始标记、结束标识以及标识之间的数据构成 – 标记之间的数据被认为是元素的值 – 每个元素都有不同的标记名

<director>王力 </ director >– 元素名是 director – 元素值是“王力”

< actor >王力 </ actor > – 元素名是 actor– 元素值是“王力”

Page 67: Semantic Web & Ontology

67

元素要点 关键的 3点

– 所有元素必须有结束标记 – 所有元素必须正确嵌套,不允许交迭 – 所有属性值必须加引号

注意点– XML 文档主体有且仅有一个 XML 根元素 – 可以嵌套 XML 元素,形成一棵树形结构

Page 68: Semantic Web & Ontology

68

XML 文档例子<书类 > <书 国际标准书号 ="0345374827"> < 标题 >数据结构 </ 标题 > < 作者 >许卓群等 </作者 > </书 > <书 国际标准书号 ="0345374828"> < 标题 >数据挖掘 </ 标题 > < 作者 >韩家炸等 </作者 > </书 ></书类 >

Page 69: Semantic Web & Ontology

69

例子的树状结构

书类

书 书

标题 作者 标题 作者

Page 70: Semantic Web & Ontology

70

XML 属性 给元素提供进一步的说明信息 必须出现在起始标记中 以名称 / 取值对出现,属性名不能重复 名称与取值之间用等号“ =” 分隔 用引号把取值引起来 例如

– < 工资 货币 =" 人民币元 ">100000</ 工资 >– 说明了工资的货币单位是人民币元

Page 71: Semantic Web & Ontology

71

XML 处理器 目的

– 解析 XML 文档– 提供对 XML 文档内容和结构的访问

文档对象模型 (Document Object Model , DOM)– 将完整的 XML转换成一棵树的形式放在内存中 – 供随机访问元素、属性

XML简单 API(Simple API for XML , SAX) – 采用事件驱动模型 – 通过标记的起止来触发事件

DOM与 SAX 的比较(讨论)

Page 72: Semantic Web & Ontology

72

处理指令 (Processing Instruction) 目的

– 给 XML处理器提供信息,使其能够正确解释文档内容 表示

– 起始标记是“ <?” ,结束标记是“ ?>” 方法

– XML 分析器把这些信息原封不动地传给应用程序 – 由应用程序来解释这个指令 – 遵照它所提供的信息进行处理

Page 73: Semantic Web & Ontology

73

两种处理指令 XML声明

– <? Xml version="1.0" encoding="gb2312" standalone="no" ?>

– 必须包括 version属性,指明所采用的 XML 的版本号,而且它必须在属性列表中排在第一位– standalone属性表明该 XML 文档是否和一个外部文档类型定义 DTD 配套使用 – encoding属性则指明了数据所采用的编码标准

XSL样式单引用 – <? xml- stylesheet type=“text-xsl” href=“contacts.xsl” ?>– 告诉 XSL样式单解析器,样式单的类型是 text-xsl – 类型 text-xsl可以在文档 contacts.xsl 中找到

Page 74: Semantic Web & Ontology

74

XML 的名字空间 背景

– 由于 XML 对互操作性的支持,每个人都可以创建属于自己的 XML词汇 – 不同的开发者会用相同的元素来代表不同的实体

作用– 为 XML 文档元素提供了一个上下文 – 允许开发者按一定的语义来处理元素

为什么引入 NS(命名空间 )– 讨论

Page 75: Semantic Web & Ontology

75

XML NS 例子< ?xml version="1.0"? >< hamburgersxmlns:purchase=http://fastfood.org/franchise/pricesxmlns:sales=http://fastfood.org/customer/prices> < hamburger lowfat="dream on">< name> CowBurger< /name>< description> Greasy and good.< /description>< purchase:price> 0.99< /price>< sales:price> 2.99< /price>< /hamburger>< /hamburgers>

Page 76: Semantic Web & Ontology

76

XSL(Extensible Stylesheet Language) 背景

– 用标准的 DOM API 来实现 XML数据的交互,是十分单调乏味的 – 如想找到所有满足某些条件的元素,或转换为简单的 HTML 表格,必须手工书写代码遍历整棵树来寻找

目的– 为标准化及简化人们完成这些任务所需做的工作

Page 77: Semantic Web & Ontology

77

食品的例子 XML 文档<? xml Version="1.0" ?><食品 ><食品 脂肪含量 ="低 "> < 名称 > 月饼 </ 名称 > <描述 > 中秋节食用的传统食品 </描述 > < 价格 >2.99 </ 价格 > </食品 ><食品 >

HTML 文档<html> <body> <h1>食品 </hl> <o1> <li> 月饼 , 中秋节的传统 食品 , 2 元 </li> </o1> </body></html>

Page 78: Semantic Web & Ontology

78

XSL 文件 <? xml Version="1.0" ?><xsl: stylesheet xmlns:xsl="http://www.w3.org/TR/WD- xsl"> <xsl: template match="/"> 选取了当前结点的所有食品子结点 <html> <body><hl>hamburgers</hl> <xsl: for—each select="hamburgers[@lowfat="dream on"]" > 标识出符合给定条件的结点 <li> <xsl: value-of select ="name"/>, <xsl: value-of select ="description"/>, <xsl: value-of select ="price"/> 取结点中各个元素的值</li></xsl: for—each> <body> <html></xsl: template></xsl: stylesheet>

Page 79: Semantic Web & Ontology

79

XSL 用途 增强了互操作性

– XML数据转换为 HTML– 从一种 XML 格式到另一种 XML 格式之间的转换

开发人员不用为了描述某种类型的数据而采用通用的词汇– 某个人向你的系统发送了一篇 XML 文档,而你的系统不认识它所采用的 XML词汇– 只要进行一次简单的 XSL转换就可以得到自己熟悉的词汇

Page 80: Semantic Web & Ontology

80

文档类型定义 DTD 目的

– 定义 XML 文档结构,即其中的元素、属性以及元素之间关系的 – 定义了文件中的元素能用什么名字,能放在什么位置,应该怎样组合 – 可以检测 XML 文档的结构是否正确

例如描述一组 < 表 > ,其中每个 < 表 >又可以包含若干个 <项 >– DTD 中应该有语句 : <! ELEMENT 表 (项 ) + > <! ELEM

ENT项 (#PCDATA) > – 生成的表 : < 表 ><项 > 管乐 </项 ><项 >弦乐 </ 项 >

<项 > 器乐 </ 项 >< 表 >

Page 81: Semantic Web & Ontology

81

DTD 引用 内部引用

– 包含在 XML 文档的前导说明部分 – 如 <? xml version="1.0" encoding="GB2312" standalone="yes" ?> <! DOCTYPE 根元素名 [元素描述 ]> 文档体…

外部引用– 作为一个外部文档被引用 – 如 <? xml version="1.0" encoding="GB2312" standalone="no" ?> <! DOCTYPE 根元素名 SYSTEM "外部 DTD 文件的 URL" > 文档体…– SYSTEM 指一个作者或组织所编写的通用的 DTD – 或是 <! DOCTYPE 根元素 PUBLIC "DTD名称 " "外部 DTD 的 URL"> – PUBLIC 指由权威机构制订的、提供给特定行业或公众使用的 DTD

Page 82: Semantic Web & Ontology

82

DTD 中 ETD( 元素类型声明 ) 作用

– 声明所有有效的文档元素 结构

– <! ELEMENT 元素名 元素内容描述 > 类型

– 空元素类型 • <! ELEMENT 元素名 EMPTY> • 使用空元素标记,元素中没有内容

– ANY 元素类型 • 元素中可以包含任何内容

– 父元素类型 • 元素中可以包含子元素• 在 DTD 中通过正则表达式规定子元素出现的顺序和次数

– 混合元素类型 • <! ELEMENT 元素名 (#PCDATA |子元素名 1 |子元素名 2 | …)> • 元素中可以包含文本• 文本之间可以有选择地插入子元素,子元素出现的顺序和次数不受限制

Page 83: Semantic Web & Ontology

83

2.6 XML Schema

DTD缺点 – 采用了非 XML 的语法规则– 不支持数据类型– 扩展性较差

XML模式己经渐有取代 DTD 的趋势– 拥有比 DTD更强大的功能 – 用于更精确和有效地描述 XML 文档结构

Page 84: Semantic Web & Ontology

84

XML 模式的优点 一致性

– 直接借助 XML 自身的特性– 利用 XML 的基本语法规则– 定义 XML 文档的结构 – 不必再利用一种特定的形式化的语言

扩展性 – 引入了数据类型、命名空间– 在基本数据类型基础上用户可自己扩展数据类型

互换性 – 利用模式能够书写 XML 文档并验证文档的合法性 – 对不同的模式进行转换,以实现更高层次的数据交换

规范性 – 利用元素的内容和属性来定义 XML 文档的整体结构 – 基于 XML ,更具有规范性

Page 85: Semantic Web & Ontology

85

数据类型 用途

– 为 Element Type 和 Attribute Type 指定数据类型 基本数据类型 ( 10 种 )

– entity , entities , enumeration , id , idref , idrefs , nmtoken , nmtokens , notation 和 string

扩展数据类型 – bin.baSe64 , bin.heX , boolean , char , date , dateTime ,

dateTime.tz , fixed.14.4 , float , int , number , timetime.tz , i1 , i2, i4 , r4, r8 , ui1, ui2 , ui4, uri , uuid

Page 86: Semantic Web & Ontology

86

XMLS 元素类型 基本格式

– <ElementType content="{|empty | textOnly | eltOnly | mixed }" dt: type="datatype" model="{open | closed}" name="idref" order="{one | seq | many }“> </ElementType>

取值及含义 (略)

Page 87: Semantic Web & Ontology

87

XMLS 属性类型 基本格式

– <AttributeType default="default-value" dt: type= "primitive-type dt: values="enumerated-values" name="idref" required="{yes | no}">

取值及含义 (略)

Page 88: Semantic Web & Ontology

88

数据类型的使用例子( 1 ) 定义元素“名字”和“生日”

<element name="name" type="string" minOccurs="1" maxOccurs="1" /><element name="birthday" type="date" minOccurs="1" maxOccurs="1" />

其中 string 和 date 类型都是 Schema 中自带的基本数据类型 minOccurs 和 maxOccurs 是最少和最多出现次数的约束,这里表示有而且只出现一次

Page 89: Semantic Web & Ontology

89

数据类型的使用例子( 2 ) 扩展数据类型

– Schema 中没有规定的类型,如“性别”类型 定义例子 <simpleType name=" 性别 "> <restriction base="string"> <enumeration value="男 "/> <enumeration value="女 "/> </restriction> </simpleType> 注释

– name属性是该数据类型的名称 – 数据类型由 restriction 子元素进行约束– 该元素中的 base属性是基类型

Page 90: Semantic Web & Ontology

90

2.7 元数据自动抽取技术

预处理 – 剔除在格式、内容、语言等方面存在问题或严重缺失的文档 – 产生格式相对规整的文本文档

提取元数据 – 由数字化文档元数据的规范定义,产生提取元数据的各种模式 – 依据元数据模式进行数字化文档的挖掘与匹配 – 利用与数字化文档相关的启发式规则和经验规则,有效提取元数据

各 类文档

格 式文档 预处理 元数据提取

元 数 据信 息

元数据模式 启发规则

Page 91: Semantic Web & Ontology

91

MathML

含义– Mathematical Markup Language

用途– 用来描述数学符号、纪录其结构和内容

目标– 是在 Web 上实现能像 HTML处理文本一样,处理数学问题

Page 92: Semantic Web & Ontology

92

例: x2 + 4x + 4 =0 < apply> < plus/ > < apply>< power/ >  < ci> x< /ci>  < cn> 2< /cn> < /apply> < apply>  < times/ >  < cn> 4< /cn>  < ci> x< /ci> < /apply>< cn> 4< /cn>< /apply>

Page 93: Semantic Web & Ontology

93

SMIL

含义– Synchronized Multimedia Integration Language

用途– 一种基于 XML 的表述多媒体演示的语言 – 将一组独立的多媒体对象整合为一个多媒体演示

Page 94: Semantic Web & Ontology

94

SMIL 例子<HTML><HEAD> < STYLE>.time { behavior:url(#default#time); }< /STYLE>< /HEAD>< BODY> < DIV CLASS="time" t:timeline="seq" > < P class="time" t:dur="1"> This appears for one second and goes away< /P> < P class="time" t:dur="1">  This appears after one second, remains visible for one second and goes away < /P> < P class="time" t:dur="1">  This appears after two seconds, remains visible for one second and goes away < /P>< /DIV>< /BODY>< /HTML>

Page 95: Semantic Web & Ontology

95

CDF

含义– Channel Definition Format – 一种开放的规格– 允许Web 的发布者经常更新信息或是频道

CDF 起到了频道内容目录的作用– 用户仅需选择一下频道 – 信息就会从 Web 服务器定时的传递到客户端

Page 96: Semantic Web & Ontology

96

问题讨论1. 什么是元数据( metadata )? 2. 元数据与数据是什么关系?3. 元数据( metadata )概念提出的背景是什么? 4. 元数据能解决什么问题? 5. 元数据是新概念吗?

Page 97: Semantic Web & Ontology

97

问题讨论6. 数字图书馆和元数据的关系是什么? 7. 什么是元数据的语义、结构和句法? 8. 如何使用元数据? 9. 元数据可以应用哪些置标语言? 10. 什么是 RDF ?

Page 98: Semantic Web & Ontology

98

问题讨论11. 什么是语义万维网( Semantic Web ) ?语义万维网与元数据有什么关系? 12. 什么是本体 (Ontology) ?元数据与本体有什么关系? 13. 存在多个元数据格式 , 解决互操作问题通常有哪些方法? 14. 元数据映射解决系统互操作问题有什么优缺点?

Page 99: Semantic Web & Ontology

99

References W. Song, M. Zhang. A First Step toward the Semantic

Web, Higher Education Press, 2004 Bernard-Lee, T. (2000). Semantic Web - XML2000. Av

ailable: http://www.w3.org/2000/Talks/1206-xml2k-tbl/Overview.html

XML Schema Part 0: Primer, W3C Recommendation, May 2001

http://www.w3.org http://www.semanticweb.org http://www.xml.org.cn

Page 100: Semantic Web & Ontology

100

Enjoy this Study ...