Семантический Веб : текущее состояние исследований и...

40
Семантический Веб: текущее состояние исследований и перспективные направления Дмитрий Уланов ([email protected]) 03.02.2006, ИСП РАН (www.ispras.ru)

Upload: idola-yang

Post on 02-Jan-2016

68 views

Category:

Documents


1 download

DESCRIPTION

Семантический Веб : текущее состояние исследований и перспективные направления. Дмитрий Уланов ([email protected]) 03.02.2006, ИСП РАН ( www.ispras.ru). План презентации. Технология Семантический Веб Текущие наработки и проекты Актуальные направления исследований. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Семантический Веб :  текущее состояние исследований и перспективные направления

Семантический Веб: текущее состояние исследований и перспективные направления

Дмитрий Уланов ([email protected])

03.02.2006, ИСП РАН (www.ispras.ru)

Page 2: Семантический Веб :  текущее состояние исследований и перспективные направления

2

План презентации

Технология Семантический Веб Текущие наработки и проекты Актуальные направления исследований

Page 3: Семантический Веб :  текущее состояние исследований и перспективные направления

3

Ограничения традиционного WWWHTML-страница описывает как представить

информацию визуально в Веб-браузере и трудно поддаётся смысловому анализу компьютерами. Для неё невозможно автоматизировать даже такие тривиальные задачи, как нахождение людей, проектов, программ в Интернете.

Page 4: Семантический Веб :  текущее состояние исследований и перспективные направления

4

Семантический Веб

Технология Семантический Веб (Semantic Web) позволяет компьютеру интерпретировать информацию в Вебе наравне с людьми, для чего разработана графовая модель описания ресурсов RDF (Resource Description Framework), которая является спецификацией W3C.

С помощью RDF можно создавать любые утверждения о любых ресурсах.

Page 5: Семантический Веб :  текущее состояние исследований и перспективные направления

5

Графовая модель RDF

Утверждения о ресурсах в модели RDF состоят из троек:

Ресурсы и свойства представляются в виде URI, а литералы в формате Unicode. URI позволяет уникальным образом идентифицировать ресурсы в Вебе, а Unicode решает проблему мультиязычности.

Ресурс [URI]

Ресурс [URI]

Свойство [URI]

Литерал [Unicode]

или

Page 6: Семантический Веб :  текущее состояние исследований и перспективные направления

6

Модель RDF для данной презентации

ISPRAS:seminar#03022006

ISPRAS:ontology#Presentation

ISPRAS:ontology#type

Семантический Веб Дмитрий Уланов 03.02.2006

dc:title foaf:name dc:date

xmlns:dc="http://purl.org/dc/elements/1.1/"

xmlns:foaf="http://xmlns.com/foaf/0.1/"

Page 7: Семантический Веб :  текущее состояние исследований и перспективные направления

7

RDF/XML для данной презентации<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#” xmlns:foaf=“http://xmlns.com/foaf/0.1/” xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:ispras=“ISPRAS:ontology#”

<ispras:Presentation rdf:id=“ISPRAS:seminar#03022006”> <dc:title>Семантический Веб</dc:title> <foaf:name>Дмитрий Уланов</foaf:name> <dc:date>03.02.2006</dc:date> </ispras:Presentation></rdf:RDF>

Page 8: Семантический Веб :  текущее состояние исследований и перспективные направления

8

N-Triples для данной презентации<ISPRAS:seminar#03022006> <ISPRAS:ontology#type>

<ISPRAS:ontology#Seminar>.

<ISPRAS:seminar#03022006> <http://purl.org/dc/elements/1.1/title> “Семантический Веб”.

<ISPRAS:seminar#03022006> <http://xmlns.com/foaf/0.1/creator> “Дмитрий Уланов”.

<ISPRAS:seminar#03022006> <http://purl.org/dc/elements/1.1/date> “03.02.2006”.

Page 9: Семантический Веб :  текущее состояние исследований и перспективные направления

9

Использование словаря Dublin CoreВ вышеприведённых

утверждениях RDF в качестве свойств троек использовался словарь DC (Dublin Core):

dc:title – заголовок ресурса

dc:date – дата создания

dc:creator – автор ресурса

DC создан с помощью RDF схемы (RDF Schema).

xmlns:dc="http://purl.org/dc/elements/1.1/"

Page 10: Семантический Веб :  текущее состояние исследований и перспективные направления

10

Пример утверждения на RDF схемеМодель RDF универсальна и не зависит от предметной области,

но с помощью RDF схемы можно создавать ресурсы предметной области и определять их свойства и иерархию. Например, можно написать утверждение:

ISPRAS:ontology#Lector

foaf:Person

rdfs:subClassOf

xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"

xmlns:foaf="http://xmlns.com/foaf/0.1/"

Page 11: Семантический Веб :  текущее состояние исследований и перспективные направления

11

RDF схема это не XML схемаRDF схема описана в утверждениях RDF.

В отличие от XML схемы определяет ресурсы (термины) предметной области, а не ограничивает структуру RDF.

За ресурсами RDF схемы в спецификации W3C закреплена семантика. Например, за ресурсом rdfs:subClassOf закреплена семантика наследования.

Page 12: Семантический Веб :  текущее состояние исследований и перспективные направления

12

RDF схема описана с помощью RDF

Page 13: Семантический Веб :  текущее состояние исследований и перспективные направления

13

Что такое семантика данных?Под семантикой данных будем понимать возможность

формального описания смысла передаваемых данных, делая их независимыми от приложений. Это особенно важно в Интернете, где данные и приложения должны быть независимыми.

Какие данные сегодня можно использовать в отрыве от создающих их приложений: данные из реляционных баз данных, XML-документы? Нет, потому что их семантика зашита в логике программы и/или неформально в спецификациях. Только данные снабжённые явной семантикой можно сделать действительно независимыми от приложений!

Page 14: Семантический Веб :  текущее состояние исследований и перспективные направления

14

Зачем нужен RDF, чем плох XML?Вложенность тегов XML не несёт никакой семантики, только синтаксис. Возможные

формы представления утверждения “Сергей Кузнецов читает курс по базам данных” в формате XML:

<course name=“базы данных”><lecturer>Сергей Кузнецов</lecturer>

</course>

<lecturer name=“Сергей Кузнецов”><teaches>базы данных</teaches>

</lecturer>

<teachingOffering><lecturer>Сергей Кузнецов</lecturer><course>базы данных</course>

</teachingOffering>

Приложение, которое использует первый формат, не сможет понять два других формата и наоборот. Поэтому, XML хорош только как формат (синтаксис) для обмена данными, но не как модель описания семантики данных!

Page 15: Семантический Веб :  текущее состояние исследований и перспективные направления

15

Где в RDF семантика?

На уровне модели RDF семантика появляется благодаря использованию онтологий OWL (Ontology Web Language), благодаря которым компьютер может понимать как известный ему ресурс или свойство связано с другим, неизвестным ему ресурсом или свойством соответственно и производить другие логические выводы над утверждениями RDF.

Онтологии основываются на математическом аппарате формальной логики (description logic, DL), малое подмножество которого охвачено RDF схемой. DL является вычислимым подмножеством логики первого порядка.

Page 16: Семантический Веб :  текущее состояние исследований и перспективные направления

16

Пример использования семантикиКак проинтерпретирует следующие утверждения

приложение, которое понимает только ресурсы словаря foaf?

<ISPRAS:seminar#03022006> <ISPRAS:ontology#Lector> “Дмитрий Уланов”.

<ISPRAS:ontology#Lector> <rdfs:subClassOf> <foaf:Person>

Оно поймёт, что ISPRAS:ontology#Lector является foaf:Person и выведет новое утверждение:

<ISPRAS:seminar#03022006> <foaf:Person> “Дмитрий Уланов”

Page 17: Семантический Веб :  текущее состояние исследований и перспективные направления

17

Словарь описания онтологий OWLСловаря RDF схемы не всегда достаточно для создания

предметных областей, OWL расширяет RDF схему возможностями DL, заимствованными из ранее разработанного языка по описанию онтологий DAML-OIL агентства DARPA.

foaf:PersonISPRAS:ontology#Person

ISPRAS:ontology#Lector ISPRAS:ontology#Student

owl:equivalentClass

rdfs:subClassOf rdfs:subClassOf

owl:disjointWith

xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"

xmlns:foaf="http://xmlns.com/foaf/0.1/"

xmlns:owl="http://www.w3.org/2002/07/owl#"

Page 18: Семантический Веб :  текущее состояние исследований и перспективные направления

18

Правила вывода новых фактов SWRLБлагодаря дополнению OWL языком RuleML

(подмножество Datalog) в виде словаря SWRL (A Semantic Web Rule Language) появилась возможность использовать дизъюнкты Хорна (Horn-like rules) для явного указания способа вывода новых фактов из утверждений RDF.

Пока словарь SWRL находится в стадии стандартизации.

Page 19: Семантический Веб :  текущее состояние исследований и перспективные направления

19

Сериализация правила в RDF/XML<swrl:Imp rdf:ID="Def-hasUncle"> <swrl:body> <swrl:AtomList> <rdf:first> <swrl:IndividualPropertyAtom> <swrl:propertyPredicate rdf:resource="#hasParent"/> <swrl:argument1 rdf:resource="#x"/> <swrl:argument2 rdf:resource="#y"/> </swrl:IndividualPropertyAtom> </rdf:first> …

</swrl:AtomList> </swrl:head> </swrl:Imp>

parent(?x,?y) & brother(?y,?z) → uncle(?x,?z):

Page 20: Семантический Веб :  текущее состояние исследований и перспективные направления

20

Семантические хранилища

Предполагается, что большие объёмы RDF данных будут храниться в семантических хранилищах и для доступа к ним использоваться язык запросов SPARQL, который находится в стадии стандартизации W3C – аналог SQL для RDBMS.

Пример запроса “вывести все названия презентаций, созданных Дмитрием Улановым” на SPARQL:

PREFIX dc: <http://purl.org/dc/elements/1.1/>PREFIX foaf: <http://xmlns.com/foaf/0.1/>SELECT ?titleWHERE { ?presentation foaf:name “Дмитрий Уланов”. ?presentation dc:title ?title}

Page 21: Семантический Веб :  текущее состояние исследований и перспективные направления

21

Уровни Семантического Веба

Page 22: Семантический Веб :  текущее состояние исследований и перспективные направления

22

Эволюционный подход

Семантический Веб это не замещение нынешнего WWW, а его эволюционное развитие. RDF/XML либо внедряется внутрь HTML или доступен по URL.

По этому принципу уже широко используются в WWW RDF-данные с использованием словарей RSS, FOAF (Friend Of A Friend), DOAP (Description Of A Project).

Page 23: Семантический Веб :  текущее состояние исследований и перспективные направления

23

Словарь FOAF и портал LiveJournal

Код HTML

Данные RDF

Page 24: Семантический Веб :  текущее состояние исследований и перспективные направления

24

Что в итоге мы получили?

Технология Семантический Веб успешно решает следующие задачи:

независимость данных от приложений; семантическая интеграция данных; создание основы для повсеместного

использования компьютерных агентов (сервисов).

Page 25: Семантический Веб :  текущее состояние исследований и перспективные направления

25

План презентации

Технология Семантический Веб Текущие наработки и проекты Актуальные направления исследований

Page 26: Семантический Веб :  текущее состояние исследований и перспективные направления

26

Основы Семантического ВебаСемантический Веб создан не на пустом месте. В

него заложены фундаментальные основы: графовая модель представления

полуструктурированных данных (OEM, Lore); формальная логика (логика первого порядка,

базы знаний, фреймы); архитектура WWW (URI, Unicode, XML, HTTP); криптография с открытым ключом.

Page 27: Семантический Веб :  текущее состояние исследований и перспективные направления

27

Программная поддержка технологии библиотеки для интерпретации стека языков RDF для всех

популярных языков программирования (Jena, Redland, RDFLib);

редакторы онтологий (Protégé); системы рассуждений над онтологиями (Racer, KAON,

FACT); семантические хранилища (Sesame, Kowari, YARS); семантические браузеры (Simile, Piggy Bank, Gnowsis,

Haystack); поисковики семантических данных (Swoogle); конверторы из разных форматов представления данных в/из

RDF/XML (Aperture, RDFizers, D2R); прикладные программы (Bibster, FOAF Explorer).

Page 28: Семантический Веб :  текущее состояние исследований и перспективные направления

28

Коммерческие продукты

Adobe's XMP – метоописания о файлах; Oracle's 10.2 Database – встроенная

поддержка модели RDF; Tucana's Knowledge Discovery Suite –

платформа для интеграции информации приложений (Enterprise Information Integration , EII)

Page 29: Семантический Веб :  текущее состояние исследований и перспективные направления

29

План презентации

Технология Семантический Веб Текущие наработки и проекты Актуальные направления исследований

Page 30: Семантический Веб :  текущее состояние исследований и перспективные направления

30

Направления исследований (1) 1. Foundations

1.0 Knowledge Engineering and Ontology Engineering

1.1 Knowledge Representation and Reasoning 1.2 Information Management 1.3 Basic Web Information technologies 1.4 Agents 1.5 Natural Language Processing

Page 31: Семантический Веб :  текущее состояние исследований и перспективные направления

31

Направления исследований (2) 2 Semantic Web Core topics

2.0 Infrastructure 2.1 Resource Description Framework and

RDFSchema 2.2 Languages 2.3 Ontologies 2.4 Rules and Logic 2.5 Proof 2.6 Security and trust and privacy 2.7 Applications

Page 32: Семантический Веб :  текущее состояние исследований и перспективные направления

32

Направления исследований (3) 3 Semantic Web Special Topics

3.1 Natural language processing and human language technologies

3.2 Social impact of the Semantic Web 3.3 Social networks and Semantic Web 3.4 Peer-to-peer and Semantic Web 3.5 Agents and Senatic Web 3.6 Semantic Grid 3.7 Outreach to industry 3.8 Benchmarking and scalability

Page 33: Семантический Веб :  текущее состояние исследований и перспективные направления

33

Задача 1: использование OWL в MDAСоздание и использование онтологий популярно в

области баз знаний, но не в разработке ПО, где хорошо зарекомендовал себя UML.

В настоящее время OMG предпринимает ряд попыток по использованию онтологий в моделях MDA (ontology.omg.org).

Вариант решения: OWL → ODM (Ontology Definition Metamodel) → OUP (Ontology UML Profile)

Page 34: Семантический Веб :  текущее состояние исследований и перспективные направления

34

Задача 2: семантическая интеграция данныхЗадача интеграции данных активно решается начиная с 80-х

годов прошлого столетия, причём на разных уровнях, от системного (различия в используемых форматах доступа к данным) и синтаксического (наименование и структура схемы данных) до семантического (различия в семантике хранимых данных). Но если проблемы системной и синтаксической интеграции решены, то семантическая интеграция остаётся актуальной проблемой.

Для решения задачи семантической неоднородности данных необходимо формальным образом выделить смысл интегрируемых данных, в чём хорошо зарекомендовали себя онтологии.

Важной проблемой является постановка задачи интеграции данных, но благодаря проекту THALIA она уже решена.

Page 35: Семантический Веб :  текущее состояние исследований и перспективные направления

35

Тестовый набор THALIA

В рамках проекта THALIA (Test Harness for the Assessment of Legacy information Integration Approaches – тестовый набор для оценки существующих решений по интеграции информации) создан испытательный стенд, агрегирующий данные по обучающим курсам для 25 компьютерных факультетов со всего мира. Данные по курсам доступны в виде XML-файлов с XML-схемой.

Сформулированы 12 эталонных XQuery запросов для 12 основных проблем синтаксической и семантической неоднородности. Приведен алгоритм количественной оценки эффективности системы интеграции.

Page 36: Семантический Веб :  текущее состояние исследований и перспективные направления

36

Задача 3: архитектура “Семантической Шины”

Семантическая Шина (Semantic Bus) – это архитектурное решение, предложенное Tim Berners-Lee и направленное на решение проблемы интеграции данных приложений (EII).

Page 37: Семантический Веб :  текущее состояние исследований и перспективные направления

37

Схема “Семантической Шины”

Page 38: Семантический Веб :  текущее состояние исследований и перспективные направления

38

Сравнение подходов EII

Page 39: Семантический Веб :  текущее состояние исследований и перспективные направления

39

Реализация архитектуры

Для новых приложений “Семантическая Шина” представима в виде разделяемого информационного пространства. Такой подход был воплощён в проекте Linda для интеграции распределённых процессов.

Импорт данных из унаследованных систем осуществляется посредством использования RDF-адаптеров трёх типов (на основе запросов RDF, URIQA и индексации ресурсов), т.е. реализует архитектуру медиаторов (проекты SIMS, TSIMMIS, OBSERVER, COIN).

Page 40: Семантический Веб :  текущее состояние исследований и перспективные направления

40

Вопросы?

Контактная информация: Дмитрий Уланов ([email protected]), аспирант ИСП РАН (www.ispras.ru)