Ломов Павел Андреевич

41
«Разработка метода семантической интеграции информации в сфере государственного и муниципального управления» Ломов Павел Андреевич Институт информатики и математического моделирования технологических процессов КНЦ РАН, г. Апатиты

Upload: dustin-boyle

Post on 01-Jan-2016

72 views

Category:

Documents


0 download

DESCRIPTION

«Разработка метода семантической интеграции информации в сфере государственного и муниципального управления». Ломов Павел Андреевич Институт информатики и математического моделирования технологических процессов КНЦ РАН, г. Апатиты. Актуальность темы. Формирование электронного государства; - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Ломов Павел Андреевич

«Разработка метода семантической интеграции информации в сфере государственного и муниципального управления»

Ломов Павел Андреевич

Институт информатики и математического моделирования технологических процессов КНЦ РАН, г. Апатиты

Page 2: Ломов Павел Андреевич

15.09.09 Ломов Павел Андреевич 2

Актуальность темы Формирование электронного государства; Развитие модели государственного управления, ориентированная на

клиентов, целью которой является предоставления гражданам комплексных персонализированных услуг, приспособленных к их потребностям, через единую точку доступа;

Применение подхода, ориентированного на проблему требует наличия интегрированного представления всей информации, так или иначе связанной с предметной областью.

Page 3: Ломов Павел Андреевич

15.09.09 Ломов Павел Андреевич 3

Цели и задачи

Целью работы является разработка метода интеграции данных, моделей информационных систем и программных средств, позволяющих производить интеграцию информации на основе ее семантики с учетом особенностей предметной области.

Для достижения поставленной цели необходимо решить следующие задачи:

1. Проведение анализа современных систем, методов и средств информационной интеграции как в рассматриваемой предметной области так и в других предметных областях;

2. Разработка модели предметной области государственного и муниципального управления;

3. Разработка моделей процессов взаимодействия компонентов интеграционной системы в ходе выполнения задач по обработке интегрированной информации;

4. Создание прототипов компонентов информационной системы, в виде комплекса программ для проведения экспериментов и оценки полученных результатов.

Page 4: Ломов Павел Андреевич

15.09.09 Ломов Павел Андреевич 4

Обзор существующих подходов к семантической интеграцииЦентрализованные подходы (использующие одну онтологию): Gene Ontology (GO) (http://www.geneontology.org) — проект Gene

Ontology Consortium. TAMBIS (Transparent access to multiple bioinformatics information

sources) — онтология ПО молекулярной биологии и биоинформатики

Децентрализованные подходы: Ontograve. Dejing D., LaPendu P. – Проект интеграции баз

гетерогенных БД

Гибридные подходы: MESA(Mediator Specification Assistant) H. Wache Th. Scholz H.

Stieghahn BUSTER(Bremen University Semantic Translation for Enhanced

Retrieval) (Visser U., Stuckenschmidt H., Wache H., Vogele U)

Page 5: Ломов Павел Андреевич

15.09.09 Ломов Павел Андреевич 5

Требования к системе интеграцииК общим требованиям можно отнести: обеспечение доступа к информации, хранящейся в информационных

ресурсах, входящих в пространство интеграции через единую точку доступа;

возможность включения новых информационных ресурсов в пространство интеграции без существенных изменений конфигурации компонентов системы

К специфическим требованиям можно отнести: Проведение распределенного поиска для получения совокупной

информации об объекте предметной области из различных источников; Выявление семантических противоречий в информации, содержащихся

или вносимых в информационные источники; Сохранение прав доступа установленных в интегрируемом

информационном источнике к определенным информационным элементам;

Совместное изменение зависимой информации расположенной в различных источниках и описывающей один и тот же объект ПО.

Page 6: Ломов Павел Андреевич

15.09.09 Ломов Павел Андреевич 6

Существующие подходы к интеграции в области ГиМУ

Система СПУН (Л. Ф. Марин, Е.В. Бойченко) направленна на решение задачи получения полной, достоверной и актуальной информации о гражданах Российской Федерации.

Система «СУПРЕМА» (авторы В.А. Виттих, Д.В. Волхонцев,) Целью является повышение качества и эффективности управления в регионе для реализации потребностей и возможностей граждан и обеспечения устойчивого социально-экономического развития региона. Главными отличиями данного подхода является применение мультиагентных технологий, а также перехода от систем, основанных на данных, к системам, базирующимся на знаниях.

Page 7: Ломов Павел Андреевич

15.09.09 Ломов Павел Андреевич 7

Структура системы Система выполнения пользовательских

запросов• Отбор агентов в семантическом

хранилище для выполнения задач;• Декомпозиция запросов на подзапросы,

адресованные агентам;• Извлечение результатов задания для

передачи их пользовательскому интерфейсу;

Семантическое хранилище• Хранение разделяемого тезауруса;• Взаимообмен информации между

агентами,• Хранение информацию об агентах,

задачах и результатах; Агент:

• Выполнение задач по обработке информации связанного с ним ресурса;

Онтология информационного ресурса: • Описывает модели объектов,

описываемых в информационном ресурсе

Информационныйресурс А

Система выполнения пользовательских запросов

Пользовательский интерфейс

АгентА

Семантическое хранилище

Онтология ресурса А

Информационныйресурс B

АгентB

Онтология ресурса B

Page 8: Ломов Павел Андреевич

15.09.09 Ломов Павел Андреевич 8

Модель предметной области

МПО должна позволять решать следующие задачи: Обеспечение семантической интеграции информации

информационных ресурсов; Проведение распределенного поиска для получения совокупной

информации об объекте предметной области из различных источников;

Выявление семантических противоречий в информации, содержащейся или вносимой в информационные источники;

Задания прав доступа к определенным информационным элементам;

Обеспечение достаточной простой модификации модели; Идентификация сервисов, осуществляющих выполнения запросов на

получение информации об определенных объектах предметной области.

Page 9: Ломов Павел Андреевич

15.09.09 Ломов Павел Андреевич 9

Модель предметной области

МПО разбивается на 2 уровня, на каждом из которых решаются следующие задачи:

На уровень источника – обеспечивается формальное выражение семантики, осуществляется проверка непротиворечивости информации, описывающей объекты ПО;

На уровень интеграции – обеспечивается выполнение распределенных операций, сопоставляются модели информационных объектов различных ресурсов, выполняется декомпозиция запросов и их маршрутизация, включение новых информационных моделей, содержащихся в добавляемом информационном ресурсе.

Page 10: Ломов Павел Андреевич

15.09.09 Ломов Павел Андреевич 10

Формальные представления элементов тезаурусаЭлемент тезауруса типа «Объект»

Элемент тезауруса типа «Связь»

Элемент тезауруса типа «Свойство»

Page 11: Ломов Павел Андреевич

15.09.09 Ломов Павел Андреевич 11

Использование общих атрибутов-идентификаторов Информационные ресурсы могут содержать общие универсальные

идентификаторы, которые имеют место быть в реальном мире. Наличие общего идентификатора позволяет представить совокупную

информацию об объекте реального мира. Специфика ПО заключается в том, что основные субъекты и объекты имеют

определения, которые в той или иной форме закреплены в различных законодательных актах.

Данные субъекты и объекты имеют также и регламентированные наборы основных атрибутов, в том числе и идентификационных.

Исходя из этого можно проводить определение формальных моделей информационных объектов и их обобщение в базовых классах на основании их определения в нормативном акте или классификаторе.

Page 12: Ломов Павел Андреевич

15.09.09 Ломов Павел Андреевич 12

Методика разработки формальной онтологии информационного ресурса

1. В зависимости от предпочитаемого инженером общего подхода (нисходящего или восходящего) выбираются либо «Свойства» тезауруса, либо «Объекты» соответствующие базовым классам.

2. В случае нисходящего подхода: базовые классы в тезаурусе, конкретизируются в подклассах, которые желательно описывать с использованием «Свойств», объявленных в тезаурусе.

3. В случае восходящего подхода: выделяются наборы атрибутов, значения которых содержаться в

информационных ресурсах; наборы атрибутов заменяются на имеющиеся в тезаурусе в

случае их эквивалентности; с помощью заданных атрибутов определяются концепты,

соответствующие объектам, описываемые в информационном ресурсе.

4. Определить логические ограничения для формального выражения дополнительной семантики.

Page 13: Ломов Павел Андреевич

15.09.09 Ломов Павел Андреевич 13

Часть тезауруса

Page 14: Ломов Павел Андреевич

15.09.09 Ломов Павел Андреевич 14

Онтология ЗАГС

Использование общезначимого атрибута позволяет получать информацию об объекте из других источников, сравнивать с имеющейся, а также изменять зависимую информацию.

Page 15: Ломов Павел Андреевич

15.09.09 Ломов Павел Андреевич 15

Основная идея: создание новой иерархии терминов для конкретизации общего понятия или добавление новой иерархии на какой-либо уровень в уже существующую иерархию для определения новой конкретизации.

Определение семантической метрики, характеризующей степень сходства понятий на основании оценки:• сходства символических имен терминов ;• структурного положение понятия в онтологии; • степени сходства множеств необходимых и достаточных

атрибутов . Алгоритм позволяет избежать семантических конфликтов при

объединении онтологий и создать интегрированную онтологию, универсальную в смысле требований к точности семантического соответствия терминов

Отображения онтологий в тезаурус

Page 16: Ломов Павел Андреевич

15.09.09 Ломов Павел Андреевич 16

Текущие результаты

Задана концептуальная модель ПО в виде тезауруса; Разработан алгоритм отображения онтологий источников в тезаурусе

с использованием эвристических оценок семантической близости концептов;

Для решения задач, требовательных к точности представлена методика использования общезначимых атрибутов;

Представлена методика определения онтологии отдельного информационного источника с использованием общезначимых атрибутов.

Page 17: Ломов Павел Андреевич

15.09.09 Ломов Павел Андреевич 17

Направления дальнейшей работы

Разработка прототипов онтологий, определяющих информационные объекты, описанные в информационных источниках учреждений государственного и муниципального управления;

Разработка языка запросов между агентами-интеграторами на основе языка SPARQL;

Определение методики ограничения доступа к информационным объектам отдельных источников, а также процедур аутентификации и идентификации агентов;

Дальнейшее выявление общезначимых атрибутов, заданных в юридических документах и классификаторах и внесение их в тезаурус;

Page 18: Ломов Павел Андреевич

15.09.09 Ломов Павел Андреевич 18

Спасибо за внимание!

Page 19: Ломов Павел Андреевич

15.09.09 Ломов Павел Андреевич 19

Пакет OntologyIntegrator – диаграмма классов

Page 20: Ломов Павел Андреевич

15.09.09 Ломов Павел Андреевич 20

Пакет OntologyIntegrator – состав

Page 21: Ломов Павел Андреевич

15.09.09 Ломов Павел Андреевич 21

Онтология семантического хранилища

Связь Задача

Объект

Свойство

Агент

имеетПервыйОбъект

имеетВторойОбъект

присутствуетВсвязи

предоставляет - предоставленно

имеетВторойОбъект

имеетПервыйОбъект

имеетЗадачу - задачаДля

вызвалоЗадачу - вызваноОбъектом

предоставляет - предоставленно

предоставляет - предоставленно

вызвалоЗадачу - вызваноОбъектом

присутствуетВсвязи

имеетСвойство - принадлежитОбъекту

Значение

имеетЗначениеДляПоиска - принадлежитКзадаче

имеетЗначение - являетсяСвойством

Page 22: Ломов Павел Андреевич

15.09.09 Ломов Павел Андреевич 22

Использование атрибутов-идентификаторов

Решение задачи рег-го учета гр-н РФ предполагает сбор, хранение, актуализацию и изменение первичных рег. данных о гражданах

Функцию сбора обычно выполняют паспортно-визовые службы органов внутренних дел и органов ЗАГС.

Атрибута «номер российского паспорта» уникален. Это позволяет использовать его в поисковых шаблонах для идентификации семантически эквивалентных объектов в разных информационных ресурсах.

Для общего использования идентификаторов определим базовые классы онтологии верхнего уровня – «Персона» и «Документ».

Page 23: Ломов Павел Андреевич

15.09.09 Ломов Павел Андреевич 23

К атрибутам базового класса «Персона» добавляется атрибут «имеетСвОБраке», значением которого является ссылка на экземпляр класса «Свидетельство о браке», что в свою очередь позволяет определить номер паспорта Российской Федерации супруга. Затем с его помощью этого номера, получить информацию из других источников.

Часть онтологии ЗАГСа

Использование атрибутов-идентификаторов

Page 24: Ломов Павел Андреевич

15.09.09 Ломов Павел Андреевич 24

В данном случае базовый класс «Персона» дополняется двумя дополнительными атрибутами (выделены серым), значения которых содержаться в контенте информационного ресурса.

Часть онтологии МВД

Использование атрибутов-идентификаторов

Page 25: Ломов Павел Андреевич

15.09.09 Ломов Павел Андреевич 25

Положительные стороны системы

Возможность добавления новых информационных ресурсов в пространство интеграции;

Выбор информационного ресурса для поиска, релевантного пользовательскому запросу;

Отсутствие ограничений на определение новых понятий в частных онтологиях;

Проведение результативного поиска с использованием атрибута- идентификатора, с получением в результате целостного информационного представления объекта поиска.

Page 26: Ломов Павел Андреевич

15.09.09 Ломов Павел Андреевич 26

Направления дальнейшей работы

Более глубокое изучение ПО государственного и муниципального управления для построения онтологий информационных ресурсов;

Разработка функций оценки семантической близости терминов различных онтологий;

Определение основных принципов взаимодействия агентов между собой;

Разработка принципов обеспечения контроля доступа к информации агентами.

Page 27: Ломов Павел Андреевич

15.09.09 Ломов Павел Андреевич 27

Список публикаций

1. Ломов П.А., Шишаев М.Г. Интеграция данных на основе онтологий для обеспечения информационной поддержки управленческих решений // VII-ая Всероссийская школа-семинар «Прикладные проблемы управления макросистемами» (Апатиты, 31 марта-4 апреля 2008 г.)

2. Ломов П. А., Шишаев М. Г. Интеграция семантически связанных информационных ресурсов на основе онтологий для эффективного информационного обеспечения рационального природопользования // Глубокая переработка минеральных ресурсов: Сборник материалов IV школы молодых ученых и специалистов «Сбалансированное природопользование» (6-8 ноября 2007 г.)

3. Ломов П. А. Проблемы и решения интеграции гетерогенных источников данных в системах информационной поддержки регионального развития // Тезисы докладов VII Региональной аспирантско-студенческой научной конференции ИНЖЭКОН 2008 г.

4. Ломов П. А. Использование онтологий для интеграции гетерогенных источников данных //Сборник трудов XI-ой Межрегиональной научно-практической конференции КФПетрГУ 2008 г.

Page 28: Ломов Павел Андреевич

15.09.09 Ломов Павел Андреевич 28

Список публикаций

1. Ломов П.А., Шишаев М. Г., Интеграция семантически связанных информационных ресурсов на основе онтологий // Сборник научных трудов ИИММ КНЦ РАН 2007 г.

2. Ломов П.А., Шишаев М. Г., Использование базовых классов для установления смысловой эквивалентности в семантически гетерогенных информационных ресурсах // Сборник научных трудов ИИММ КНЦ РАН 2008 г. (в печати)

Page 29: Ломов Павел Андреевич

15.09.09 Ломов Павел Андреевич 29

Предполагаемая научная новизна

Представлен алгоритм автоматической интеграции онтологий с использованием разделяемого тезауруса;

Предложена оценка семантической метрики, характеризующей степень сходства понятий на основании:• сходства символических имен терминов;• структурного положение понятия в онтологии;• степени сходства множеств необходимых и достаточных

атрибутов; Применение базовых классов и атрибутов-идентификаторов,

которые позволяет однозначно определять семантически эквивалентные информационные элементы в гетерогенных информационных ресурсах.

Page 30: Ломов Павел Андреевич

15.09.09 Ломов Павел Андреевич 30

Технологии Semantic Web язык XML (Extensible Markup Language) - расширенный язык

разметки, используется в качестве универсального языка обмена данными;

язык RDF (Resource Definition Framework) является подмножеством языка XML и предоставляет удобную среду формализации метаданных и сведений о контексте.;

язык онтологий OWL (Web Ontology Language) - общий набор терминов, которые используются для описания и представления объектов в Интернет;

язык SPARQL (SPARQL Query Language for RDF) применяется для выполнения запросов к RDF респозиториям и, одновременно, протокол передачи информации RDF.

SPARQL/Update, is a language to update RDF, similar to SPARQL which is used to query RDF.

Page 31: Ломов Павел Андреевич

15.09.09 Ломов Павел Андреевич 31

Тезаурус Это особая разновидность словарей общей или специальной

лексики, в которых указаны семантические отношения (синонимы, антонимы, паронимы, гипонимы, гиперонимы и т . п.) между лексическими единицами.

Тезаурусы, особенно в электронном формате, являются одним из действенных инструментов для описания отдельных предметных областей.

Тезаурус позволяет выявить смысл не только с помощью определения, но и посредством соотнесения слова с другими понятиями и их группами, благодаря чему может использоваться в системах искусственного интеллекта.

Page 32: Ломов Павел Андреевич

15.09.09 Ломов Павел Андреевич 32

Семантическая сеть Это информационная модель предметной области, имеющая

вид ориентированного графа, вершины которого соответствуют объектам предметной области, а дуги (рёбра) задают отношения между ними.

Объектами могут быть понятия, события, свойства, процессы. Таким образом, семантическая сеть является одним из способов представления знаний.

В семантической сети роль вершин выполняют понятия базы знаний, а направленные дуги задают отношения между ними. Таким образом, семантическая сеть отражает семантику предметной области в виде понятий и отношений.

Page 33: Ломов Павел Андреевич

15.09.09 Ломов Павел Андреевич 33

Онтология

O=<T,R,F> где:• Т - термины предметной области, которую описывает онтология O;

• R - отношения между терминами заданной предметной области;

• F - функции интерпретации, заданные на терминах и/или отношениях онтологии O.

Page 34: Ломов Павел Андреевич

15.09.09 Ломов Павел Андреевич 34

Отношение классификации (ISA) Отношение между объектом и множеством, обозначающим, что

объект принадлежит этому множеству, называется отношением классификации (ISA).

Связь ISA предполагает, что свойства объекта наследуются от множества. Обратное к ISA отношение называется — «Example», или по-русски, «Например».

«IS A» (наиболее точный русский перевод - «суть», «все зайцы суть млекопитающие»).

Иногда это отношение именуют также MemberOf или подобным образом.

Page 35: Ломов Павел Андреевич

15.09.09 Ломов Павел Андреевич 35

Отношение гипонимии (AKO) Отношение между надмножеством и подмножеством

определяет, что каждый элемент первого множества входит и во второе (выполняется ISA для каждого элемента), а также логическую связь между самими подмножествами: что первое не больше второго и свойства первого множества наследуются вторым.

AKO — «A Kind Of» («разновидность») Элемент подмножества называется гипонимом, а

надмножества — гиперонимом

Page 36: Ломов Павел Андреевич

15.09.09 Ломов Павел Андреевич 36

Отношение меронимии (HasPart) Отношение описывает части/целые объекты; Мероним — это объект, являющийся частью для другого; Холоним — это объект, который включает в себя другое.

Page 37: Ломов Павел Андреевич

15.09.09 Ломов Павел Андреевич 37

Термин предметной области

Page 38: Ломов Павел Андреевич

15.09.09 Ломов Павел Андреевич 38

Свойство объекта

Page 39: Ломов Павел Андреевич

15.09.09 Ломов Павел Андреевич 39

Значение свойства

Page 40: Ломов Павел Андреевич

15.09.09 Ломов Павел Андреевич 40

Задача для агента

Page 41: Ломов Павел Андреевич

15.09.09 Ломов Павел Андреевич 41

Агент