ainl 2013 bogatyrev_математическая и лингвистическая

46
Технология концептуального моделирования биомедицинских данных М.Ю. Богатырев Лаборатория информационных систем Факультет кибернетики Тульский государственный университет Математическая и лингвистическая составляющая в концептуальном моделировании.

Upload: ainl-conferences

Post on 25-Dec-2014

359 views

Category:

Documents


4 download

DESCRIPTION

 

TRANSCRIPT

Page 1: Ainl 2013 bogatyrev_математическая и лингвистическая

Технология концептуального

моделирования

биомедицинских данных

МЮ Богатырев

Лаборатория информационных систем Факультет кибернетики Тульский государственный университет

Математическая и лингвистическая

составляющая в концептуальном

моделировании

Наводящие вопросыhellip

2

3

4

5

Данные и метаданные поисковых систем

6

Инф ресурсы

Данные

Метаданные

Инф ресурсы Тексты

Модели

Корпус

Тексты

Разметка

Концептуальное моделирование

Концептуальное моделирование

7

laquohellip отражение семантики (смысла) объектов окружающего мира в виде сущностей и связей между нимиraquo

Концептуальная модель - граф

Вариант определения

Связи ndash отношения

Простейшие связи - бинарные

Усложнение связей мультиграфы

Концептуальное моделирование

индустриальная поддержка

8

Последняя конференция по концептуальному моделированию ER International Conference on Conceptual Modeling (ER 2013) Hong Kong 11st - 13rd of November 2013

Модели laquoсущность ndash связьraquo bull классическая (ERD)

bull расширенная (EERD)

Базы данных

Модели laquoбизнес-процессовraquo

Программы СУБД

Модели laquoсущность ndash связьraquo

9

классическая (ERD)

Модели laquoсущность ndash связьraquo

10

расширенная

(EERD)

Представление требований в CASE- системе

Sybase PowerDesigner

KDD-технология

(Knowledge Discovering from Databases)

3

Инф ресурсы

R G M ( )K G M R

G ndash множество объектов M ndash множество атрибутов объектов R ndash отношение

Контекст

Анализ Формальных Понятий Formal Concept Analysis

Ganter Bernhard Stumme Gerd Wille Rudolf eds (2005) Formal Concept Analysis Foundations and Applications Lecture Notes in Artificial Intelligence no 3626 Springer-Verlag

X G Y M Понятие )( YX

( )x O x x R

YX XY

( )y A y y R

АФП понятие laquoпонятиеraquo

X Y

ψ

φ

Множество всех понятий )( YX

на контексте ( )K G M R

вместе с отношением частичного порядка

)()()( 21212211 YYXXYXYX

АФП решетка понятий

АФП система вывода

( ) ( )A B M A B A B

Импликации

Кластеры

Ассоциативные правила

A B F X Y Z

Фактыhellip

Причем здесь язык и тексты

17

Лингвистика

Контекстное окно

Концептуальное

моделирование

Сравнение понятий контекста

1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы

АФП и метод опорных векторов

19

Линейно разделимая обучающая выборка

Перевод исходных векторов в пространство более высокой размерности

G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение

Актуальные задачи АФП

20

Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий

1 Собственные проблемы bull Построение минимального базиса решеток

понятий на достаточно больших контекстах (Ngt= )

bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов

310

Концептуальные графы и их поддержка Концепты

Отношения

[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)

(instrumentdb)

Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99

Lecture Notes in Artificial Intelligence 1640 Springer 1999

1 Conceptual Graph Interchange Form (CGIF)

2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt

ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt

ltconceptualgraphgt

( )( )( )( )( ( )

( ) ( ) ( ) ( ))

x Go y Person z City w Bus Name y John

Name z Boston Agnt x y Dest x z Inst x w

Применение исчисления предикатов (CGIF + NOTIO)

Пример

―John is going to Boston by bus

Примеры построения КГ

22

23

Примеры построения КГ

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Page 2: Ainl 2013 bogatyrev_математическая и лингвистическая

Наводящие вопросыhellip

2

3

4

5

Данные и метаданные поисковых систем

6

Инф ресурсы

Данные

Метаданные

Инф ресурсы Тексты

Модели

Корпус

Тексты

Разметка

Концептуальное моделирование

Концептуальное моделирование

7

laquohellip отражение семантики (смысла) объектов окружающего мира в виде сущностей и связей между нимиraquo

Концептуальная модель - граф

Вариант определения

Связи ndash отношения

Простейшие связи - бинарные

Усложнение связей мультиграфы

Концептуальное моделирование

индустриальная поддержка

8

Последняя конференция по концептуальному моделированию ER International Conference on Conceptual Modeling (ER 2013) Hong Kong 11st - 13rd of November 2013

Модели laquoсущность ndash связьraquo bull классическая (ERD)

bull расширенная (EERD)

Базы данных

Модели laquoбизнес-процессовraquo

Программы СУБД

Модели laquoсущность ndash связьraquo

9

классическая (ERD)

Модели laquoсущность ndash связьraquo

10

расширенная

(EERD)

Представление требований в CASE- системе

Sybase PowerDesigner

KDD-технология

(Knowledge Discovering from Databases)

3

Инф ресурсы

R G M ( )K G M R

G ndash множество объектов M ndash множество атрибутов объектов R ndash отношение

Контекст

Анализ Формальных Понятий Formal Concept Analysis

Ganter Bernhard Stumme Gerd Wille Rudolf eds (2005) Formal Concept Analysis Foundations and Applications Lecture Notes in Artificial Intelligence no 3626 Springer-Verlag

X G Y M Понятие )( YX

( )x O x x R

YX XY

( )y A y y R

АФП понятие laquoпонятиеraquo

X Y

ψ

φ

Множество всех понятий )( YX

на контексте ( )K G M R

вместе с отношением частичного порядка

)()()( 21212211 YYXXYXYX

АФП решетка понятий

АФП система вывода

( ) ( )A B M A B A B

Импликации

Кластеры

Ассоциативные правила

A B F X Y Z

Фактыhellip

Причем здесь язык и тексты

17

Лингвистика

Контекстное окно

Концептуальное

моделирование

Сравнение понятий контекста

1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы

АФП и метод опорных векторов

19

Линейно разделимая обучающая выборка

Перевод исходных векторов в пространство более высокой размерности

G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение

Актуальные задачи АФП

20

Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий

1 Собственные проблемы bull Построение минимального базиса решеток

понятий на достаточно больших контекстах (Ngt= )

bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов

310

Концептуальные графы и их поддержка Концепты

Отношения

[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)

(instrumentdb)

Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99

Lecture Notes in Artificial Intelligence 1640 Springer 1999

1 Conceptual Graph Interchange Form (CGIF)

2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt

ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt

ltconceptualgraphgt

( )( )( )( )( ( )

( ) ( ) ( ) ( ))

x Go y Person z City w Bus Name y John

Name z Boston Agnt x y Dest x z Inst x w

Применение исчисления предикатов (CGIF + NOTIO)

Пример

―John is going to Boston by bus

Примеры построения КГ

22

23

Примеры построения КГ

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Page 3: Ainl 2013 bogatyrev_математическая и лингвистическая

3

4

5

Данные и метаданные поисковых систем

6

Инф ресурсы

Данные

Метаданные

Инф ресурсы Тексты

Модели

Корпус

Тексты

Разметка

Концептуальное моделирование

Концептуальное моделирование

7

laquohellip отражение семантики (смысла) объектов окружающего мира в виде сущностей и связей между нимиraquo

Концептуальная модель - граф

Вариант определения

Связи ndash отношения

Простейшие связи - бинарные

Усложнение связей мультиграфы

Концептуальное моделирование

индустриальная поддержка

8

Последняя конференция по концептуальному моделированию ER International Conference on Conceptual Modeling (ER 2013) Hong Kong 11st - 13rd of November 2013

Модели laquoсущность ndash связьraquo bull классическая (ERD)

bull расширенная (EERD)

Базы данных

Модели laquoбизнес-процессовraquo

Программы СУБД

Модели laquoсущность ndash связьraquo

9

классическая (ERD)

Модели laquoсущность ndash связьraquo

10

расширенная

(EERD)

Представление требований в CASE- системе

Sybase PowerDesigner

KDD-технология

(Knowledge Discovering from Databases)

3

Инф ресурсы

R G M ( )K G M R

G ndash множество объектов M ndash множество атрибутов объектов R ndash отношение

Контекст

Анализ Формальных Понятий Formal Concept Analysis

Ganter Bernhard Stumme Gerd Wille Rudolf eds (2005) Formal Concept Analysis Foundations and Applications Lecture Notes in Artificial Intelligence no 3626 Springer-Verlag

X G Y M Понятие )( YX

( )x O x x R

YX XY

( )y A y y R

АФП понятие laquoпонятиеraquo

X Y

ψ

φ

Множество всех понятий )( YX

на контексте ( )K G M R

вместе с отношением частичного порядка

)()()( 21212211 YYXXYXYX

АФП решетка понятий

АФП система вывода

( ) ( )A B M A B A B

Импликации

Кластеры

Ассоциативные правила

A B F X Y Z

Фактыhellip

Причем здесь язык и тексты

17

Лингвистика

Контекстное окно

Концептуальное

моделирование

Сравнение понятий контекста

1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы

АФП и метод опорных векторов

19

Линейно разделимая обучающая выборка

Перевод исходных векторов в пространство более высокой размерности

G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение

Актуальные задачи АФП

20

Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий

1 Собственные проблемы bull Построение минимального базиса решеток

понятий на достаточно больших контекстах (Ngt= )

bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов

310

Концептуальные графы и их поддержка Концепты

Отношения

[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)

(instrumentdb)

Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99

Lecture Notes in Artificial Intelligence 1640 Springer 1999

1 Conceptual Graph Interchange Form (CGIF)

2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt

ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt

ltconceptualgraphgt

( )( )( )( )( ( )

( ) ( ) ( ) ( ))

x Go y Person z City w Bus Name y John

Name z Boston Agnt x y Dest x z Inst x w

Применение исчисления предикатов (CGIF + NOTIO)

Пример

―John is going to Boston by bus

Примеры построения КГ

22

23

Примеры построения КГ

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Page 4: Ainl 2013 bogatyrev_математическая и лингвистическая

4

5

Данные и метаданные поисковых систем

6

Инф ресурсы

Данные

Метаданные

Инф ресурсы Тексты

Модели

Корпус

Тексты

Разметка

Концептуальное моделирование

Концептуальное моделирование

7

laquohellip отражение семантики (смысла) объектов окружающего мира в виде сущностей и связей между нимиraquo

Концептуальная модель - граф

Вариант определения

Связи ndash отношения

Простейшие связи - бинарные

Усложнение связей мультиграфы

Концептуальное моделирование

индустриальная поддержка

8

Последняя конференция по концептуальному моделированию ER International Conference on Conceptual Modeling (ER 2013) Hong Kong 11st - 13rd of November 2013

Модели laquoсущность ndash связьraquo bull классическая (ERD)

bull расширенная (EERD)

Базы данных

Модели laquoбизнес-процессовraquo

Программы СУБД

Модели laquoсущность ndash связьraquo

9

классическая (ERD)

Модели laquoсущность ndash связьraquo

10

расширенная

(EERD)

Представление требований в CASE- системе

Sybase PowerDesigner

KDD-технология

(Knowledge Discovering from Databases)

3

Инф ресурсы

R G M ( )K G M R

G ndash множество объектов M ndash множество атрибутов объектов R ndash отношение

Контекст

Анализ Формальных Понятий Formal Concept Analysis

Ganter Bernhard Stumme Gerd Wille Rudolf eds (2005) Formal Concept Analysis Foundations and Applications Lecture Notes in Artificial Intelligence no 3626 Springer-Verlag

X G Y M Понятие )( YX

( )x O x x R

YX XY

( )y A y y R

АФП понятие laquoпонятиеraquo

X Y

ψ

φ

Множество всех понятий )( YX

на контексте ( )K G M R

вместе с отношением частичного порядка

)()()( 21212211 YYXXYXYX

АФП решетка понятий

АФП система вывода

( ) ( )A B M A B A B

Импликации

Кластеры

Ассоциативные правила

A B F X Y Z

Фактыhellip

Причем здесь язык и тексты

17

Лингвистика

Контекстное окно

Концептуальное

моделирование

Сравнение понятий контекста

1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы

АФП и метод опорных векторов

19

Линейно разделимая обучающая выборка

Перевод исходных векторов в пространство более высокой размерности

G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение

Актуальные задачи АФП

20

Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий

1 Собственные проблемы bull Построение минимального базиса решеток

понятий на достаточно больших контекстах (Ngt= )

bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов

310

Концептуальные графы и их поддержка Концепты

Отношения

[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)

(instrumentdb)

Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99

Lecture Notes in Artificial Intelligence 1640 Springer 1999

1 Conceptual Graph Interchange Form (CGIF)

2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt

ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt

ltconceptualgraphgt

( )( )( )( )( ( )

( ) ( ) ( ) ( ))

x Go y Person z City w Bus Name y John

Name z Boston Agnt x y Dest x z Inst x w

Применение исчисления предикатов (CGIF + NOTIO)

Пример

―John is going to Boston by bus

Примеры построения КГ

22

23

Примеры построения КГ

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Page 5: Ainl 2013 bogatyrev_математическая и лингвистическая

5

Данные и метаданные поисковых систем

6

Инф ресурсы

Данные

Метаданные

Инф ресурсы Тексты

Модели

Корпус

Тексты

Разметка

Концептуальное моделирование

Концептуальное моделирование

7

laquohellip отражение семантики (смысла) объектов окружающего мира в виде сущностей и связей между нимиraquo

Концептуальная модель - граф

Вариант определения

Связи ndash отношения

Простейшие связи - бинарные

Усложнение связей мультиграфы

Концептуальное моделирование

индустриальная поддержка

8

Последняя конференция по концептуальному моделированию ER International Conference on Conceptual Modeling (ER 2013) Hong Kong 11st - 13rd of November 2013

Модели laquoсущность ndash связьraquo bull классическая (ERD)

bull расширенная (EERD)

Базы данных

Модели laquoбизнес-процессовraquo

Программы СУБД

Модели laquoсущность ndash связьraquo

9

классическая (ERD)

Модели laquoсущность ndash связьraquo

10

расширенная

(EERD)

Представление требований в CASE- системе

Sybase PowerDesigner

KDD-технология

(Knowledge Discovering from Databases)

3

Инф ресурсы

R G M ( )K G M R

G ndash множество объектов M ndash множество атрибутов объектов R ndash отношение

Контекст

Анализ Формальных Понятий Formal Concept Analysis

Ganter Bernhard Stumme Gerd Wille Rudolf eds (2005) Formal Concept Analysis Foundations and Applications Lecture Notes in Artificial Intelligence no 3626 Springer-Verlag

X G Y M Понятие )( YX

( )x O x x R

YX XY

( )y A y y R

АФП понятие laquoпонятиеraquo

X Y

ψ

φ

Множество всех понятий )( YX

на контексте ( )K G M R

вместе с отношением частичного порядка

)()()( 21212211 YYXXYXYX

АФП решетка понятий

АФП система вывода

( ) ( )A B M A B A B

Импликации

Кластеры

Ассоциативные правила

A B F X Y Z

Фактыhellip

Причем здесь язык и тексты

17

Лингвистика

Контекстное окно

Концептуальное

моделирование

Сравнение понятий контекста

1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы

АФП и метод опорных векторов

19

Линейно разделимая обучающая выборка

Перевод исходных векторов в пространство более высокой размерности

G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение

Актуальные задачи АФП

20

Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий

1 Собственные проблемы bull Построение минимального базиса решеток

понятий на достаточно больших контекстах (Ngt= )

bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов

310

Концептуальные графы и их поддержка Концепты

Отношения

[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)

(instrumentdb)

Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99

Lecture Notes in Artificial Intelligence 1640 Springer 1999

1 Conceptual Graph Interchange Form (CGIF)

2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt

ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt

ltconceptualgraphgt

( )( )( )( )( ( )

( ) ( ) ( ) ( ))

x Go y Person z City w Bus Name y John

Name z Boston Agnt x y Dest x z Inst x w

Применение исчисления предикатов (CGIF + NOTIO)

Пример

―John is going to Boston by bus

Примеры построения КГ

22

23

Примеры построения КГ

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Page 6: Ainl 2013 bogatyrev_математическая и лингвистическая

Данные и метаданные поисковых систем

6

Инф ресурсы

Данные

Метаданные

Инф ресурсы Тексты

Модели

Корпус

Тексты

Разметка

Концептуальное моделирование

Концептуальное моделирование

7

laquohellip отражение семантики (смысла) объектов окружающего мира в виде сущностей и связей между нимиraquo

Концептуальная модель - граф

Вариант определения

Связи ndash отношения

Простейшие связи - бинарные

Усложнение связей мультиграфы

Концептуальное моделирование

индустриальная поддержка

8

Последняя конференция по концептуальному моделированию ER International Conference on Conceptual Modeling (ER 2013) Hong Kong 11st - 13rd of November 2013

Модели laquoсущность ndash связьraquo bull классическая (ERD)

bull расширенная (EERD)

Базы данных

Модели laquoбизнес-процессовraquo

Программы СУБД

Модели laquoсущность ndash связьraquo

9

классическая (ERD)

Модели laquoсущность ndash связьraquo

10

расширенная

(EERD)

Представление требований в CASE- системе

Sybase PowerDesigner

KDD-технология

(Knowledge Discovering from Databases)

3

Инф ресурсы

R G M ( )K G M R

G ndash множество объектов M ndash множество атрибутов объектов R ndash отношение

Контекст

Анализ Формальных Понятий Formal Concept Analysis

Ganter Bernhard Stumme Gerd Wille Rudolf eds (2005) Formal Concept Analysis Foundations and Applications Lecture Notes in Artificial Intelligence no 3626 Springer-Verlag

X G Y M Понятие )( YX

( )x O x x R

YX XY

( )y A y y R

АФП понятие laquoпонятиеraquo

X Y

ψ

φ

Множество всех понятий )( YX

на контексте ( )K G M R

вместе с отношением частичного порядка

)()()( 21212211 YYXXYXYX

АФП решетка понятий

АФП система вывода

( ) ( )A B M A B A B

Импликации

Кластеры

Ассоциативные правила

A B F X Y Z

Фактыhellip

Причем здесь язык и тексты

17

Лингвистика

Контекстное окно

Концептуальное

моделирование

Сравнение понятий контекста

1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы

АФП и метод опорных векторов

19

Линейно разделимая обучающая выборка

Перевод исходных векторов в пространство более высокой размерности

G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение

Актуальные задачи АФП

20

Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий

1 Собственные проблемы bull Построение минимального базиса решеток

понятий на достаточно больших контекстах (Ngt= )

bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов

310

Концептуальные графы и их поддержка Концепты

Отношения

[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)

(instrumentdb)

Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99

Lecture Notes in Artificial Intelligence 1640 Springer 1999

1 Conceptual Graph Interchange Form (CGIF)

2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt

ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt

ltconceptualgraphgt

( )( )( )( )( ( )

( ) ( ) ( ) ( ))

x Go y Person z City w Bus Name y John

Name z Boston Agnt x y Dest x z Inst x w

Применение исчисления предикатов (CGIF + NOTIO)

Пример

―John is going to Boston by bus

Примеры построения КГ

22

23

Примеры построения КГ

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Page 7: Ainl 2013 bogatyrev_математическая и лингвистическая

Концептуальное моделирование

7

laquohellip отражение семантики (смысла) объектов окружающего мира в виде сущностей и связей между нимиraquo

Концептуальная модель - граф

Вариант определения

Связи ndash отношения

Простейшие связи - бинарные

Усложнение связей мультиграфы

Концептуальное моделирование

индустриальная поддержка

8

Последняя конференция по концептуальному моделированию ER International Conference on Conceptual Modeling (ER 2013) Hong Kong 11st - 13rd of November 2013

Модели laquoсущность ndash связьraquo bull классическая (ERD)

bull расширенная (EERD)

Базы данных

Модели laquoбизнес-процессовraquo

Программы СУБД

Модели laquoсущность ndash связьraquo

9

классическая (ERD)

Модели laquoсущность ndash связьraquo

10

расширенная

(EERD)

Представление требований в CASE- системе

Sybase PowerDesigner

KDD-технология

(Knowledge Discovering from Databases)

3

Инф ресурсы

R G M ( )K G M R

G ndash множество объектов M ndash множество атрибутов объектов R ndash отношение

Контекст

Анализ Формальных Понятий Formal Concept Analysis

Ganter Bernhard Stumme Gerd Wille Rudolf eds (2005) Formal Concept Analysis Foundations and Applications Lecture Notes in Artificial Intelligence no 3626 Springer-Verlag

X G Y M Понятие )( YX

( )x O x x R

YX XY

( )y A y y R

АФП понятие laquoпонятиеraquo

X Y

ψ

φ

Множество всех понятий )( YX

на контексте ( )K G M R

вместе с отношением частичного порядка

)()()( 21212211 YYXXYXYX

АФП решетка понятий

АФП система вывода

( ) ( )A B M A B A B

Импликации

Кластеры

Ассоциативные правила

A B F X Y Z

Фактыhellip

Причем здесь язык и тексты

17

Лингвистика

Контекстное окно

Концептуальное

моделирование

Сравнение понятий контекста

1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы

АФП и метод опорных векторов

19

Линейно разделимая обучающая выборка

Перевод исходных векторов в пространство более высокой размерности

G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение

Актуальные задачи АФП

20

Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий

1 Собственные проблемы bull Построение минимального базиса решеток

понятий на достаточно больших контекстах (Ngt= )

bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов

310

Концептуальные графы и их поддержка Концепты

Отношения

[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)

(instrumentdb)

Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99

Lecture Notes in Artificial Intelligence 1640 Springer 1999

1 Conceptual Graph Interchange Form (CGIF)

2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt

ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt

ltconceptualgraphgt

( )( )( )( )( ( )

( ) ( ) ( ) ( ))

x Go y Person z City w Bus Name y John

Name z Boston Agnt x y Dest x z Inst x w

Применение исчисления предикатов (CGIF + NOTIO)

Пример

―John is going to Boston by bus

Примеры построения КГ

22

23

Примеры построения КГ

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Page 8: Ainl 2013 bogatyrev_математическая и лингвистическая

Концептуальное моделирование

индустриальная поддержка

8

Последняя конференция по концептуальному моделированию ER International Conference on Conceptual Modeling (ER 2013) Hong Kong 11st - 13rd of November 2013

Модели laquoсущность ndash связьraquo bull классическая (ERD)

bull расширенная (EERD)

Базы данных

Модели laquoбизнес-процессовraquo

Программы СУБД

Модели laquoсущность ndash связьraquo

9

классическая (ERD)

Модели laquoсущность ndash связьraquo

10

расширенная

(EERD)

Представление требований в CASE- системе

Sybase PowerDesigner

KDD-технология

(Knowledge Discovering from Databases)

3

Инф ресурсы

R G M ( )K G M R

G ndash множество объектов M ndash множество атрибутов объектов R ndash отношение

Контекст

Анализ Формальных Понятий Formal Concept Analysis

Ganter Bernhard Stumme Gerd Wille Rudolf eds (2005) Formal Concept Analysis Foundations and Applications Lecture Notes in Artificial Intelligence no 3626 Springer-Verlag

X G Y M Понятие )( YX

( )x O x x R

YX XY

( )y A y y R

АФП понятие laquoпонятиеraquo

X Y

ψ

φ

Множество всех понятий )( YX

на контексте ( )K G M R

вместе с отношением частичного порядка

)()()( 21212211 YYXXYXYX

АФП решетка понятий

АФП система вывода

( ) ( )A B M A B A B

Импликации

Кластеры

Ассоциативные правила

A B F X Y Z

Фактыhellip

Причем здесь язык и тексты

17

Лингвистика

Контекстное окно

Концептуальное

моделирование

Сравнение понятий контекста

1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы

АФП и метод опорных векторов

19

Линейно разделимая обучающая выборка

Перевод исходных векторов в пространство более высокой размерности

G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение

Актуальные задачи АФП

20

Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий

1 Собственные проблемы bull Построение минимального базиса решеток

понятий на достаточно больших контекстах (Ngt= )

bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов

310

Концептуальные графы и их поддержка Концепты

Отношения

[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)

(instrumentdb)

Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99

Lecture Notes in Artificial Intelligence 1640 Springer 1999

1 Conceptual Graph Interchange Form (CGIF)

2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt

ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt

ltconceptualgraphgt

( )( )( )( )( ( )

( ) ( ) ( ) ( ))

x Go y Person z City w Bus Name y John

Name z Boston Agnt x y Dest x z Inst x w

Применение исчисления предикатов (CGIF + NOTIO)

Пример

―John is going to Boston by bus

Примеры построения КГ

22

23

Примеры построения КГ

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Page 9: Ainl 2013 bogatyrev_математическая и лингвистическая

Модели laquoсущность ndash связьraquo

9

классическая (ERD)

Модели laquoсущность ndash связьraquo

10

расширенная

(EERD)

Представление требований в CASE- системе

Sybase PowerDesigner

KDD-технология

(Knowledge Discovering from Databases)

3

Инф ресурсы

R G M ( )K G M R

G ndash множество объектов M ndash множество атрибутов объектов R ndash отношение

Контекст

Анализ Формальных Понятий Formal Concept Analysis

Ganter Bernhard Stumme Gerd Wille Rudolf eds (2005) Formal Concept Analysis Foundations and Applications Lecture Notes in Artificial Intelligence no 3626 Springer-Verlag

X G Y M Понятие )( YX

( )x O x x R

YX XY

( )y A y y R

АФП понятие laquoпонятиеraquo

X Y

ψ

φ

Множество всех понятий )( YX

на контексте ( )K G M R

вместе с отношением частичного порядка

)()()( 21212211 YYXXYXYX

АФП решетка понятий

АФП система вывода

( ) ( )A B M A B A B

Импликации

Кластеры

Ассоциативные правила

A B F X Y Z

Фактыhellip

Причем здесь язык и тексты

17

Лингвистика

Контекстное окно

Концептуальное

моделирование

Сравнение понятий контекста

1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы

АФП и метод опорных векторов

19

Линейно разделимая обучающая выборка

Перевод исходных векторов в пространство более высокой размерности

G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение

Актуальные задачи АФП

20

Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий

1 Собственные проблемы bull Построение минимального базиса решеток

понятий на достаточно больших контекстах (Ngt= )

bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов

310

Концептуальные графы и их поддержка Концепты

Отношения

[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)

(instrumentdb)

Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99

Lecture Notes in Artificial Intelligence 1640 Springer 1999

1 Conceptual Graph Interchange Form (CGIF)

2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt

ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt

ltconceptualgraphgt

( )( )( )( )( ( )

( ) ( ) ( ) ( ))

x Go y Person z City w Bus Name y John

Name z Boston Agnt x y Dest x z Inst x w

Применение исчисления предикатов (CGIF + NOTIO)

Пример

―John is going to Boston by bus

Примеры построения КГ

22

23

Примеры построения КГ

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Page 10: Ainl 2013 bogatyrev_математическая и лингвистическая

Модели laquoсущность ndash связьraquo

10

расширенная

(EERD)

Представление требований в CASE- системе

Sybase PowerDesigner

KDD-технология

(Knowledge Discovering from Databases)

3

Инф ресурсы

R G M ( )K G M R

G ndash множество объектов M ndash множество атрибутов объектов R ndash отношение

Контекст

Анализ Формальных Понятий Formal Concept Analysis

Ganter Bernhard Stumme Gerd Wille Rudolf eds (2005) Formal Concept Analysis Foundations and Applications Lecture Notes in Artificial Intelligence no 3626 Springer-Verlag

X G Y M Понятие )( YX

( )x O x x R

YX XY

( )y A y y R

АФП понятие laquoпонятиеraquo

X Y

ψ

φ

Множество всех понятий )( YX

на контексте ( )K G M R

вместе с отношением частичного порядка

)()()( 21212211 YYXXYXYX

АФП решетка понятий

АФП система вывода

( ) ( )A B M A B A B

Импликации

Кластеры

Ассоциативные правила

A B F X Y Z

Фактыhellip

Причем здесь язык и тексты

17

Лингвистика

Контекстное окно

Концептуальное

моделирование

Сравнение понятий контекста

1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы

АФП и метод опорных векторов

19

Линейно разделимая обучающая выборка

Перевод исходных векторов в пространство более высокой размерности

G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение

Актуальные задачи АФП

20

Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий

1 Собственные проблемы bull Построение минимального базиса решеток

понятий на достаточно больших контекстах (Ngt= )

bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов

310

Концептуальные графы и их поддержка Концепты

Отношения

[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)

(instrumentdb)

Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99

Lecture Notes in Artificial Intelligence 1640 Springer 1999

1 Conceptual Graph Interchange Form (CGIF)

2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt

ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt

ltconceptualgraphgt

( )( )( )( )( ( )

( ) ( ) ( ) ( ))

x Go y Person z City w Bus Name y John

Name z Boston Agnt x y Dest x z Inst x w

Применение исчисления предикатов (CGIF + NOTIO)

Пример

―John is going to Boston by bus

Примеры построения КГ

22

23

Примеры построения КГ

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Page 11: Ainl 2013 bogatyrev_математическая и лингвистическая

Представление требований в CASE- системе

Sybase PowerDesigner

KDD-технология

(Knowledge Discovering from Databases)

3

Инф ресурсы

R G M ( )K G M R

G ndash множество объектов M ndash множество атрибутов объектов R ndash отношение

Контекст

Анализ Формальных Понятий Formal Concept Analysis

Ganter Bernhard Stumme Gerd Wille Rudolf eds (2005) Formal Concept Analysis Foundations and Applications Lecture Notes in Artificial Intelligence no 3626 Springer-Verlag

X G Y M Понятие )( YX

( )x O x x R

YX XY

( )y A y y R

АФП понятие laquoпонятиеraquo

X Y

ψ

φ

Множество всех понятий )( YX

на контексте ( )K G M R

вместе с отношением частичного порядка

)()()( 21212211 YYXXYXYX

АФП решетка понятий

АФП система вывода

( ) ( )A B M A B A B

Импликации

Кластеры

Ассоциативные правила

A B F X Y Z

Фактыhellip

Причем здесь язык и тексты

17

Лингвистика

Контекстное окно

Концептуальное

моделирование

Сравнение понятий контекста

1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы

АФП и метод опорных векторов

19

Линейно разделимая обучающая выборка

Перевод исходных векторов в пространство более высокой размерности

G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение

Актуальные задачи АФП

20

Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий

1 Собственные проблемы bull Построение минимального базиса решеток

понятий на достаточно больших контекстах (Ngt= )

bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов

310

Концептуальные графы и их поддержка Концепты

Отношения

[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)

(instrumentdb)

Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99

Lecture Notes in Artificial Intelligence 1640 Springer 1999

1 Conceptual Graph Interchange Form (CGIF)

2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt

ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt

ltconceptualgraphgt

( )( )( )( )( ( )

( ) ( ) ( ) ( ))

x Go y Person z City w Bus Name y John

Name z Boston Agnt x y Dest x z Inst x w

Применение исчисления предикатов (CGIF + NOTIO)

Пример

―John is going to Boston by bus

Примеры построения КГ

22

23

Примеры построения КГ

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Page 12: Ainl 2013 bogatyrev_математическая и лингвистическая

KDD-технология

(Knowledge Discovering from Databases)

3

Инф ресурсы

R G M ( )K G M R

G ndash множество объектов M ndash множество атрибутов объектов R ndash отношение

Контекст

Анализ Формальных Понятий Formal Concept Analysis

Ganter Bernhard Stumme Gerd Wille Rudolf eds (2005) Formal Concept Analysis Foundations and Applications Lecture Notes in Artificial Intelligence no 3626 Springer-Verlag

X G Y M Понятие )( YX

( )x O x x R

YX XY

( )y A y y R

АФП понятие laquoпонятиеraquo

X Y

ψ

φ

Множество всех понятий )( YX

на контексте ( )K G M R

вместе с отношением частичного порядка

)()()( 21212211 YYXXYXYX

АФП решетка понятий

АФП система вывода

( ) ( )A B M A B A B

Импликации

Кластеры

Ассоциативные правила

A B F X Y Z

Фактыhellip

Причем здесь язык и тексты

17

Лингвистика

Контекстное окно

Концептуальное

моделирование

Сравнение понятий контекста

1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы

АФП и метод опорных векторов

19

Линейно разделимая обучающая выборка

Перевод исходных векторов в пространство более высокой размерности

G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение

Актуальные задачи АФП

20

Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий

1 Собственные проблемы bull Построение минимального базиса решеток

понятий на достаточно больших контекстах (Ngt= )

bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов

310

Концептуальные графы и их поддержка Концепты

Отношения

[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)

(instrumentdb)

Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99

Lecture Notes in Artificial Intelligence 1640 Springer 1999

1 Conceptual Graph Interchange Form (CGIF)

2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt

ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt

ltconceptualgraphgt

( )( )( )( )( ( )

( ) ( ) ( ) ( ))

x Go y Person z City w Bus Name y John

Name z Boston Agnt x y Dest x z Inst x w

Применение исчисления предикатов (CGIF + NOTIO)

Пример

―John is going to Boston by bus

Примеры построения КГ

22

23

Примеры построения КГ

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Page 13: Ainl 2013 bogatyrev_математическая и лингвистическая

R G M ( )K G M R

G ndash множество объектов M ndash множество атрибутов объектов R ndash отношение

Контекст

Анализ Формальных Понятий Formal Concept Analysis

Ganter Bernhard Stumme Gerd Wille Rudolf eds (2005) Formal Concept Analysis Foundations and Applications Lecture Notes in Artificial Intelligence no 3626 Springer-Verlag

X G Y M Понятие )( YX

( )x O x x R

YX XY

( )y A y y R

АФП понятие laquoпонятиеraquo

X Y

ψ

φ

Множество всех понятий )( YX

на контексте ( )K G M R

вместе с отношением частичного порядка

)()()( 21212211 YYXXYXYX

АФП решетка понятий

АФП система вывода

( ) ( )A B M A B A B

Импликации

Кластеры

Ассоциативные правила

A B F X Y Z

Фактыhellip

Причем здесь язык и тексты

17

Лингвистика

Контекстное окно

Концептуальное

моделирование

Сравнение понятий контекста

1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы

АФП и метод опорных векторов

19

Линейно разделимая обучающая выборка

Перевод исходных векторов в пространство более высокой размерности

G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение

Актуальные задачи АФП

20

Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий

1 Собственные проблемы bull Построение минимального базиса решеток

понятий на достаточно больших контекстах (Ngt= )

bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов

310

Концептуальные графы и их поддержка Концепты

Отношения

[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)

(instrumentdb)

Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99

Lecture Notes in Artificial Intelligence 1640 Springer 1999

1 Conceptual Graph Interchange Form (CGIF)

2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt

ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt

ltconceptualgraphgt

( )( )( )( )( ( )

( ) ( ) ( ) ( ))

x Go y Person z City w Bus Name y John

Name z Boston Agnt x y Dest x z Inst x w

Применение исчисления предикатов (CGIF + NOTIO)

Пример

―John is going to Boston by bus

Примеры построения КГ

22

23

Примеры построения КГ

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Page 14: Ainl 2013 bogatyrev_математическая и лингвистическая

X G Y M Понятие )( YX

( )x O x x R

YX XY

( )y A y y R

АФП понятие laquoпонятиеraquo

X Y

ψ

φ

Множество всех понятий )( YX

на контексте ( )K G M R

вместе с отношением частичного порядка

)()()( 21212211 YYXXYXYX

АФП решетка понятий

АФП система вывода

( ) ( )A B M A B A B

Импликации

Кластеры

Ассоциативные правила

A B F X Y Z

Фактыhellip

Причем здесь язык и тексты

17

Лингвистика

Контекстное окно

Концептуальное

моделирование

Сравнение понятий контекста

1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы

АФП и метод опорных векторов

19

Линейно разделимая обучающая выборка

Перевод исходных векторов в пространство более высокой размерности

G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение

Актуальные задачи АФП

20

Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий

1 Собственные проблемы bull Построение минимального базиса решеток

понятий на достаточно больших контекстах (Ngt= )

bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов

310

Концептуальные графы и их поддержка Концепты

Отношения

[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)

(instrumentdb)

Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99

Lecture Notes in Artificial Intelligence 1640 Springer 1999

1 Conceptual Graph Interchange Form (CGIF)

2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt

ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt

ltconceptualgraphgt

( )( )( )( )( ( )

( ) ( ) ( ) ( ))

x Go y Person z City w Bus Name y John

Name z Boston Agnt x y Dest x z Inst x w

Применение исчисления предикатов (CGIF + NOTIO)

Пример

―John is going to Boston by bus

Примеры построения КГ

22

23

Примеры построения КГ

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Page 15: Ainl 2013 bogatyrev_математическая и лингвистическая

Множество всех понятий )( YX

на контексте ( )K G M R

вместе с отношением частичного порядка

)()()( 21212211 YYXXYXYX

АФП решетка понятий

АФП система вывода

( ) ( )A B M A B A B

Импликации

Кластеры

Ассоциативные правила

A B F X Y Z

Фактыhellip

Причем здесь язык и тексты

17

Лингвистика

Контекстное окно

Концептуальное

моделирование

Сравнение понятий контекста

1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы

АФП и метод опорных векторов

19

Линейно разделимая обучающая выборка

Перевод исходных векторов в пространство более высокой размерности

G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение

Актуальные задачи АФП

20

Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий

1 Собственные проблемы bull Построение минимального базиса решеток

понятий на достаточно больших контекстах (Ngt= )

bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов

310

Концептуальные графы и их поддержка Концепты

Отношения

[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)

(instrumentdb)

Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99

Lecture Notes in Artificial Intelligence 1640 Springer 1999

1 Conceptual Graph Interchange Form (CGIF)

2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt

ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt

ltconceptualgraphgt

( )( )( )( )( ( )

( ) ( ) ( ) ( ))

x Go y Person z City w Bus Name y John

Name z Boston Agnt x y Dest x z Inst x w

Применение исчисления предикатов (CGIF + NOTIO)

Пример

―John is going to Boston by bus

Примеры построения КГ

22

23

Примеры построения КГ

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Page 16: Ainl 2013 bogatyrev_математическая и лингвистическая

АФП система вывода

( ) ( )A B M A B A B

Импликации

Кластеры

Ассоциативные правила

A B F X Y Z

Фактыhellip

Причем здесь язык и тексты

17

Лингвистика

Контекстное окно

Концептуальное

моделирование

Сравнение понятий контекста

1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы

АФП и метод опорных векторов

19

Линейно разделимая обучающая выборка

Перевод исходных векторов в пространство более высокой размерности

G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение

Актуальные задачи АФП

20

Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий

1 Собственные проблемы bull Построение минимального базиса решеток

понятий на достаточно больших контекстах (Ngt= )

bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов

310

Концептуальные графы и их поддержка Концепты

Отношения

[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)

(instrumentdb)

Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99

Lecture Notes in Artificial Intelligence 1640 Springer 1999

1 Conceptual Graph Interchange Form (CGIF)

2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt

ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt

ltconceptualgraphgt

( )( )( )( )( ( )

( ) ( ) ( ) ( ))

x Go y Person z City w Bus Name y John

Name z Boston Agnt x y Dest x z Inst x w

Применение исчисления предикатов (CGIF + NOTIO)

Пример

―John is going to Boston by bus

Примеры построения КГ

22

23

Примеры построения КГ

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Page 17: Ainl 2013 bogatyrev_математическая и лингвистическая

Причем здесь язык и тексты

17

Лингвистика

Контекстное окно

Концептуальное

моделирование

Сравнение понятий контекста

1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы

АФП и метод опорных векторов

19

Линейно разделимая обучающая выборка

Перевод исходных векторов в пространство более высокой размерности

G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение

Актуальные задачи АФП

20

Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий

1 Собственные проблемы bull Построение минимального базиса решеток

понятий на достаточно больших контекстах (Ngt= )

bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов

310

Концептуальные графы и их поддержка Концепты

Отношения

[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)

(instrumentdb)

Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99

Lecture Notes in Artificial Intelligence 1640 Springer 1999

1 Conceptual Graph Interchange Form (CGIF)

2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt

ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt

ltconceptualgraphgt

( )( )( )( )( ( )

( ) ( ) ( ) ( ))

x Go y Person z City w Bus Name y John

Name z Boston Agnt x y Dest x z Inst x w

Применение исчисления предикатов (CGIF + NOTIO)

Пример

―John is going to Boston by bus

Примеры построения КГ

22

23

Примеры построения КГ

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Page 18: Ainl 2013 bogatyrev_математическая и лингвистическая

Лингвистика

Контекстное окно

Концептуальное

моделирование

Сравнение понятий контекста

1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы

АФП и метод опорных векторов

19

Линейно разделимая обучающая выборка

Перевод исходных векторов в пространство более высокой размерности

G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение

Актуальные задачи АФП

20

Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий

1 Собственные проблемы bull Построение минимального базиса решеток

понятий на достаточно больших контекстах (Ngt= )

bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов

310

Концептуальные графы и их поддержка Концепты

Отношения

[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)

(instrumentdb)

Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99

Lecture Notes in Artificial Intelligence 1640 Springer 1999

1 Conceptual Graph Interchange Form (CGIF)

2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt

ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt

ltconceptualgraphgt

( )( )( )( )( ( )

( ) ( ) ( ) ( ))

x Go y Person z City w Bus Name y John

Name z Boston Agnt x y Dest x z Inst x w

Применение исчисления предикатов (CGIF + NOTIO)

Пример

―John is going to Boston by bus

Примеры построения КГ

22

23

Примеры построения КГ

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Page 19: Ainl 2013 bogatyrev_математическая и лингвистическая

АФП и метод опорных векторов

19

Линейно разделимая обучающая выборка

Перевод исходных векторов в пространство более высокой размерности

G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение

Актуальные задачи АФП

20

Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий

1 Собственные проблемы bull Построение минимального базиса решеток

понятий на достаточно больших контекстах (Ngt= )

bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов

310

Концептуальные графы и их поддержка Концепты

Отношения

[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)

(instrumentdb)

Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99

Lecture Notes in Artificial Intelligence 1640 Springer 1999

1 Conceptual Graph Interchange Form (CGIF)

2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt

ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt

ltconceptualgraphgt

( )( )( )( )( ( )

( ) ( ) ( ) ( ))

x Go y Person z City w Bus Name y John

Name z Boston Agnt x y Dest x z Inst x w

Применение исчисления предикатов (CGIF + NOTIO)

Пример

―John is going to Boston by bus

Примеры построения КГ

22

23

Примеры построения КГ

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Page 20: Ainl 2013 bogatyrev_математическая и лингвистическая

Актуальные задачи АФП

20

Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий

1 Собственные проблемы bull Построение минимального базиса решеток

понятий на достаточно больших контекстах (Ngt= )

bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов

310

Концептуальные графы и их поддержка Концепты

Отношения

[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)

(instrumentdb)

Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99

Lecture Notes in Artificial Intelligence 1640 Springer 1999

1 Conceptual Graph Interchange Form (CGIF)

2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt

ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt

ltconceptualgraphgt

( )( )( )( )( ( )

( ) ( ) ( ) ( ))

x Go y Person z City w Bus Name y John

Name z Boston Agnt x y Dest x z Inst x w

Применение исчисления предикатов (CGIF + NOTIO)

Пример

―John is going to Boston by bus

Примеры построения КГ

22

23

Примеры построения КГ

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Page 21: Ainl 2013 bogatyrev_математическая и лингвистическая

Концептуальные графы и их поддержка Концепты

Отношения

[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)

(instrumentdb)

Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99

Lecture Notes in Artificial Intelligence 1640 Springer 1999

1 Conceptual Graph Interchange Form (CGIF)

2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt

ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt

ltconceptualgraphgt

( )( )( )( )( ( )

( ) ( ) ( ) ( ))

x Go y Person z City w Bus Name y John

Name z Boston Agnt x y Dest x z Inst x w

Применение исчисления предикатов (CGIF + NOTIO)

Пример

―John is going to Boston by bus

Примеры построения КГ

22

23

Примеры построения КГ

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Page 22: Ainl 2013 bogatyrev_математическая и лингвистическая

Примеры построения КГ

22

23

Примеры построения КГ

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Page 23: Ainl 2013 bogatyrev_математическая и лингвистическая

23

Примеры построения КГ

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Page 24: Ainl 2013 bogatyrev_математическая и лингвистическая

Технология

24

Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Page 25: Ainl 2013 bogatyrev_математическая и лингвистическая

Как строятся концептуальные графы

25

1 Морфологический анализ

2 Разметка семантических ролей

3 Грамматические шаблоны

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Page 26: Ainl 2013 bogatyrev_математическая и лингвистическая

Управление грамматическими

шаблонами

26

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Page 27: Ainl 2013 bogatyrev_математическая и лингвистическая

Поиск в текстах или поиск на графах

)()()( 322131 ggdggdggd

)( 31 ggd

)( 21 ggd)( 32 ggd

-20

-10

0

10

20-20

-10

0

10

20

20

202

204

206

-20

-10

0

10

20

Возможная структура пространства меры d (gj gi)

Меры близости и

метрические пространства

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Page 28: Ainl 2013 bogatyrev_математическая и лингвистическая

Примеры классификация текстов запросов в

системе технической поддержки

База вопросов

и ответов

Форумы

Электронная почта

Веб форма

База документации

Специалисты

Поисковая система

Вопрос пользователя

(произвольный русангл текст)

Ссылки на документы

28

Вход Выход

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Page 29: Ainl 2013 bogatyrev_математическая и лингвистическая

Рабочий процесс

Пользователь Веб форма Специалист

Пользователь Веб форма Поиск Специалист

Не помогло

До

После

29

Помогло

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Page 30: Ainl 2013 bogatyrev_математическая и лингвистическая

30

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Page 31: Ainl 2013 bogatyrev_математическая и лингвистическая

Технология концептуального моделирования для

извлечения словосочетаний в системах

полнотекстового поиска

31

Построение КГ для текста

запроса

Выделение словосочетаний

из КГ

Получение релевантных документов

Вычисление релевантности

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Page 32: Ainl 2013 bogatyrev_математическая и лингвистическая

Выявление словосочетаний ndash знаки

препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes

=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt

object[N] Method[N + 15]

32

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Page 33: Ainl 2013 bogatyrev_математическая и лингвистическая

Выявление словосочетаний -

семантика

bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы

bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции

33

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Page 34: Ainl 2013 bogatyrev_математическая и лингвистическая

Пример запроса пользователя

Hi there

Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim

34

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Page 35: Ainl 2013 bogatyrev_математическая и лингвистическая

Выделение ключевого

словосочетания

35

Where do I insert it in Project Object Mapping to make it work

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Page 36: Ainl 2013 bogatyrev_математическая и лингвистическая

Фильтрация несвязанных слов

36

Help me ASAP Hi there

Regards Tim

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Page 37: Ainl 2013 bogatyrev_математическая и лингвистическая

Опыт применения КГ в системах

технической поддержки

bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать

bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей

bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса

bull Использование словосочетаний при поиске снижает негативный эффект полисемии

bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы

37

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Page 38: Ainl 2013 bogatyrev_математическая и лингвистическая

Примеры рубрикация текстов аннотаций

научных статей

38

Система PubMed

1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Page 39: Ainl 2013 bogatyrev_математическая и лингвистическая

Система PubMed пользовательский интерфейс

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Page 40: Ainl 2013 bogatyrev_математическая и лингвистическая

Термины в системе PubMed

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Page 41: Ainl 2013 bogatyrev_математическая и лингвистическая

Концептуальное моделирование в

биоинформатике

bull Создание и поддержка

баз знаний

bull Проблемно ndash ориентированные

bull концептуальные структуры mdash онтологии

bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo

41

Распознавание сущностей

Нахождение отношений между сущностями

Направление Biomedical Text Mining

S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Page 42: Ainl 2013 bogatyrev_математическая и лингвистическая

Технология обработки данных

PubMed

1 Запрос к Pub Med

2 Обработка аннотации

3 Построение множества КГ

4 Выделение понятий терминов ndash

словосочетаний (Агрегирование КГ)

5 Построение решеток понятий

6 Замыкание на онтологию Pub Med

42

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Page 43: Ainl 2013 bogatyrev_математическая и лингвистическая

Построение концептуальных графов 1

концептуальные отношения

Фраза laquoГенная сеть регулирует необратимые процессыraquo

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Page 44: Ainl 2013 bogatyrev_математическая и лингвистическая

Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Page 45: Ainl 2013 bogatyrev_математическая и лингвистическая

Выводы

bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением

bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов

bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании

45

Спасибо

Вопросы

46

Page 46: Ainl 2013 bogatyrev_математическая и лингвистическая

Спасибо

Вопросы

46