ainl 2013 bogatyrev_математическая и лингвистическая
DESCRIPTION
TRANSCRIPT
Технология концептуального
моделирования
биомедицинских данных
МЮ Богатырев
Лаборатория информационных систем Факультет кибернетики Тульский государственный университет
Математическая и лингвистическая
составляющая в концептуальном
моделировании
Наводящие вопросыhellip
2
3
4
5
Данные и метаданные поисковых систем
6
Инф ресурсы
Данные
Метаданные
Инф ресурсы Тексты
Модели
Корпус
Тексты
Разметка
Концептуальное моделирование
Концептуальное моделирование
7
laquohellip отражение семантики (смысла) объектов окружающего мира в виде сущностей и связей между нимиraquo
Концептуальная модель - граф
Вариант определения
Связи ndash отношения
Простейшие связи - бинарные
Усложнение связей мультиграфы
Концептуальное моделирование
индустриальная поддержка
8
Последняя конференция по концептуальному моделированию ER International Conference on Conceptual Modeling (ER 2013) Hong Kong 11st - 13rd of November 2013
Модели laquoсущность ndash связьraquo bull классическая (ERD)
bull расширенная (EERD)
Базы данных
Модели laquoбизнес-процессовraquo
Программы СУБД
Модели laquoсущность ndash связьraquo
9
классическая (ERD)
Модели laquoсущность ndash связьraquo
10
расширенная
(EERD)
Представление требований в CASE- системе
Sybase PowerDesigner
KDD-технология
(Knowledge Discovering from Databases)
3
Инф ресурсы
R G M ( )K G M R
G ndash множество объектов M ndash множество атрибутов объектов R ndash отношение
Контекст
Анализ Формальных Понятий Formal Concept Analysis
Ganter Bernhard Stumme Gerd Wille Rudolf eds (2005) Formal Concept Analysis Foundations and Applications Lecture Notes in Artificial Intelligence no 3626 Springer-Verlag
X G Y M Понятие )( YX
( )x O x x R
YX XY
( )y A y y R
АФП понятие laquoпонятиеraquo
X Y
ψ
φ
Множество всех понятий )( YX
на контексте ( )K G M R
вместе с отношением частичного порядка
)()()( 21212211 YYXXYXYX
АФП решетка понятий
АФП система вывода
( ) ( )A B M A B A B
Импликации
Кластеры
Ассоциативные правила
A B F X Y Z
Фактыhellip
Причем здесь язык и тексты
17
Лингвистика
Контекстное окно
Концептуальное
моделирование
Сравнение понятий контекста
1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы
АФП и метод опорных векторов
19
Линейно разделимая обучающая выборка
Перевод исходных векторов в пространство более высокой размерности
G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение
Актуальные задачи АФП
20
Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий
1 Собственные проблемы bull Построение минимального базиса решеток
понятий на достаточно больших контекстах (Ngt= )
bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов
310
Концептуальные графы и их поддержка Концепты
Отношения
[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)
(instrumentdb)
Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99
Lecture Notes in Artificial Intelligence 1640 Springer 1999
1 Conceptual Graph Interchange Form (CGIF)
2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt
ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt
ltconceptualgraphgt
( )( )( )( )( ( )
( ) ( ) ( ) ( ))
x Go y Person z City w Bus Name y John
Name z Boston Agnt x y Dest x z Inst x w
Применение исчисления предикатов (CGIF + NOTIO)
Пример
―John is going to Boston by bus
Примеры построения КГ
22
23
Примеры построения КГ
Технология
24
Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования
Как строятся концептуальные графы
25
1 Морфологический анализ
2 Разметка семантических ролей
3 Грамматические шаблоны
Управление грамматическими
шаблонами
26
Поиск в текстах или поиск на графах
)()()( 322131 ggdggdggd
)( 31 ggd
)( 21 ggd)( 32 ggd
-20
-10
0
10
20-20
-10
0
10
20
20
202
204
206
-20
-10
0
10
20
Возможная структура пространства меры d (gj gi)
Меры близости и
метрические пространства
Примеры классификация текстов запросов в
системе технической поддержки
База вопросов
и ответов
Форумы
Электронная почта
Веб форма
База документации
Специалисты
Поисковая система
Вопрос пользователя
(произвольный русангл текст)
Ссылки на документы
28
Вход Выход
Рабочий процесс
Пользователь Веб форма Специалист
Пользователь Веб форма Поиск Специалист
Не помогло
До
После
29
Помогло
30
Технология концептуального моделирования для
извлечения словосочетаний в системах
полнотекстового поиска
31
Построение КГ для текста
запроса
Выделение словосочетаний
из КГ
Получение релевантных документов
Вычисление релевантности
Выявление словосочетаний ndash знаки
препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes
=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt
object[N] Method[N + 15]
32
Выявление словосочетаний -
семантика
bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы
bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции
33
Пример запроса пользователя
Hi there
Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim
34
Выделение ключевого
словосочетания
35
Where do I insert it in Project Object Mapping to make it work
Фильтрация несвязанных слов
36
Help me ASAP Hi there
Regards Tim
Опыт применения КГ в системах
технической поддержки
bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать
bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей
bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса
bull Использование словосочетаний при поиске снижает негативный эффект полисемии
bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы
37
Примеры рубрикация текстов аннотаций
научных статей
38
Система PubMed
1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API
Система PubMed пользовательский интерфейс
Термины в системе PubMed
Концептуальное моделирование в
биоинформатике
bull Создание и поддержка
баз знаний
bull Проблемно ndash ориентированные
bull концептуальные структуры mdash онтологии
bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo
41
Распознавание сущностей
Нахождение отношений между сущностями
Направление Biomedical Text Mining
S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007
Технология обработки данных
PubMed
1 Запрос к Pub Med
2 Обработка аннотации
3 Построение множества КГ
4 Выделение понятий терминов ndash
словосочетаний (Агрегирование КГ)
5 Построение решеток понятий
6 Замыкание на онтологию Pub Med
42
Построение концептуальных графов 1
концептуальные отношения
Фраза laquoГенная сеть регулирует необратимые процессыraquo
Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo
Выводы
bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением
bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов
bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании
45
Спасибо
Вопросы
46
Наводящие вопросыhellip
2
3
4
5
Данные и метаданные поисковых систем
6
Инф ресурсы
Данные
Метаданные
Инф ресурсы Тексты
Модели
Корпус
Тексты
Разметка
Концептуальное моделирование
Концептуальное моделирование
7
laquohellip отражение семантики (смысла) объектов окружающего мира в виде сущностей и связей между нимиraquo
Концептуальная модель - граф
Вариант определения
Связи ndash отношения
Простейшие связи - бинарные
Усложнение связей мультиграфы
Концептуальное моделирование
индустриальная поддержка
8
Последняя конференция по концептуальному моделированию ER International Conference on Conceptual Modeling (ER 2013) Hong Kong 11st - 13rd of November 2013
Модели laquoсущность ndash связьraquo bull классическая (ERD)
bull расширенная (EERD)
Базы данных
Модели laquoбизнес-процессовraquo
Программы СУБД
Модели laquoсущность ndash связьraquo
9
классическая (ERD)
Модели laquoсущность ndash связьraquo
10
расширенная
(EERD)
Представление требований в CASE- системе
Sybase PowerDesigner
KDD-технология
(Knowledge Discovering from Databases)
3
Инф ресурсы
R G M ( )K G M R
G ndash множество объектов M ndash множество атрибутов объектов R ndash отношение
Контекст
Анализ Формальных Понятий Formal Concept Analysis
Ganter Bernhard Stumme Gerd Wille Rudolf eds (2005) Formal Concept Analysis Foundations and Applications Lecture Notes in Artificial Intelligence no 3626 Springer-Verlag
X G Y M Понятие )( YX
( )x O x x R
YX XY
( )y A y y R
АФП понятие laquoпонятиеraquo
X Y
ψ
φ
Множество всех понятий )( YX
на контексте ( )K G M R
вместе с отношением частичного порядка
)()()( 21212211 YYXXYXYX
АФП решетка понятий
АФП система вывода
( ) ( )A B M A B A B
Импликации
Кластеры
Ассоциативные правила
A B F X Y Z
Фактыhellip
Причем здесь язык и тексты
17
Лингвистика
Контекстное окно
Концептуальное
моделирование
Сравнение понятий контекста
1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы
АФП и метод опорных векторов
19
Линейно разделимая обучающая выборка
Перевод исходных векторов в пространство более высокой размерности
G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение
Актуальные задачи АФП
20
Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий
1 Собственные проблемы bull Построение минимального базиса решеток
понятий на достаточно больших контекстах (Ngt= )
bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов
310
Концептуальные графы и их поддержка Концепты
Отношения
[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)
(instrumentdb)
Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99
Lecture Notes in Artificial Intelligence 1640 Springer 1999
1 Conceptual Graph Interchange Form (CGIF)
2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt
ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt
ltconceptualgraphgt
( )( )( )( )( ( )
( ) ( ) ( ) ( ))
x Go y Person z City w Bus Name y John
Name z Boston Agnt x y Dest x z Inst x w
Применение исчисления предикатов (CGIF + NOTIO)
Пример
―John is going to Boston by bus
Примеры построения КГ
22
23
Примеры построения КГ
Технология
24
Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования
Как строятся концептуальные графы
25
1 Морфологический анализ
2 Разметка семантических ролей
3 Грамматические шаблоны
Управление грамматическими
шаблонами
26
Поиск в текстах или поиск на графах
)()()( 322131 ggdggdggd
)( 31 ggd
)( 21 ggd)( 32 ggd
-20
-10
0
10
20-20
-10
0
10
20
20
202
204
206
-20
-10
0
10
20
Возможная структура пространства меры d (gj gi)
Меры близости и
метрические пространства
Примеры классификация текстов запросов в
системе технической поддержки
База вопросов
и ответов
Форумы
Электронная почта
Веб форма
База документации
Специалисты
Поисковая система
Вопрос пользователя
(произвольный русангл текст)
Ссылки на документы
28
Вход Выход
Рабочий процесс
Пользователь Веб форма Специалист
Пользователь Веб форма Поиск Специалист
Не помогло
До
После
29
Помогло
30
Технология концептуального моделирования для
извлечения словосочетаний в системах
полнотекстового поиска
31
Построение КГ для текста
запроса
Выделение словосочетаний
из КГ
Получение релевантных документов
Вычисление релевантности
Выявление словосочетаний ndash знаки
препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes
=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt
object[N] Method[N + 15]
32
Выявление словосочетаний -
семантика
bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы
bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции
33
Пример запроса пользователя
Hi there
Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim
34
Выделение ключевого
словосочетания
35
Where do I insert it in Project Object Mapping to make it work
Фильтрация несвязанных слов
36
Help me ASAP Hi there
Regards Tim
Опыт применения КГ в системах
технической поддержки
bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать
bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей
bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса
bull Использование словосочетаний при поиске снижает негативный эффект полисемии
bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы
37
Примеры рубрикация текстов аннотаций
научных статей
38
Система PubMed
1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API
Система PubMed пользовательский интерфейс
Термины в системе PubMed
Концептуальное моделирование в
биоинформатике
bull Создание и поддержка
баз знаний
bull Проблемно ndash ориентированные
bull концептуальные структуры mdash онтологии
bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo
41
Распознавание сущностей
Нахождение отношений между сущностями
Направление Biomedical Text Mining
S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007
Технология обработки данных
PubMed
1 Запрос к Pub Med
2 Обработка аннотации
3 Построение множества КГ
4 Выделение понятий терминов ndash
словосочетаний (Агрегирование КГ)
5 Построение решеток понятий
6 Замыкание на онтологию Pub Med
42
Построение концептуальных графов 1
концептуальные отношения
Фраза laquoГенная сеть регулирует необратимые процессыraquo
Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo
Выводы
bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением
bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов
bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании
45
Спасибо
Вопросы
46
3
4
5
Данные и метаданные поисковых систем
6
Инф ресурсы
Данные
Метаданные
Инф ресурсы Тексты
Модели
Корпус
Тексты
Разметка
Концептуальное моделирование
Концептуальное моделирование
7
laquohellip отражение семантики (смысла) объектов окружающего мира в виде сущностей и связей между нимиraquo
Концептуальная модель - граф
Вариант определения
Связи ndash отношения
Простейшие связи - бинарные
Усложнение связей мультиграфы
Концептуальное моделирование
индустриальная поддержка
8
Последняя конференция по концептуальному моделированию ER International Conference on Conceptual Modeling (ER 2013) Hong Kong 11st - 13rd of November 2013
Модели laquoсущность ndash связьraquo bull классическая (ERD)
bull расширенная (EERD)
Базы данных
Модели laquoбизнес-процессовraquo
Программы СУБД
Модели laquoсущность ndash связьraquo
9
классическая (ERD)
Модели laquoсущность ndash связьraquo
10
расширенная
(EERD)
Представление требований в CASE- системе
Sybase PowerDesigner
KDD-технология
(Knowledge Discovering from Databases)
3
Инф ресурсы
R G M ( )K G M R
G ndash множество объектов M ndash множество атрибутов объектов R ndash отношение
Контекст
Анализ Формальных Понятий Formal Concept Analysis
Ganter Bernhard Stumme Gerd Wille Rudolf eds (2005) Formal Concept Analysis Foundations and Applications Lecture Notes in Artificial Intelligence no 3626 Springer-Verlag
X G Y M Понятие )( YX
( )x O x x R
YX XY
( )y A y y R
АФП понятие laquoпонятиеraquo
X Y
ψ
φ
Множество всех понятий )( YX
на контексте ( )K G M R
вместе с отношением частичного порядка
)()()( 21212211 YYXXYXYX
АФП решетка понятий
АФП система вывода
( ) ( )A B M A B A B
Импликации
Кластеры
Ассоциативные правила
A B F X Y Z
Фактыhellip
Причем здесь язык и тексты
17
Лингвистика
Контекстное окно
Концептуальное
моделирование
Сравнение понятий контекста
1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы
АФП и метод опорных векторов
19
Линейно разделимая обучающая выборка
Перевод исходных векторов в пространство более высокой размерности
G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение
Актуальные задачи АФП
20
Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий
1 Собственные проблемы bull Построение минимального базиса решеток
понятий на достаточно больших контекстах (Ngt= )
bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов
310
Концептуальные графы и их поддержка Концепты
Отношения
[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)
(instrumentdb)
Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99
Lecture Notes in Artificial Intelligence 1640 Springer 1999
1 Conceptual Graph Interchange Form (CGIF)
2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt
ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt
ltconceptualgraphgt
( )( )( )( )( ( )
( ) ( ) ( ) ( ))
x Go y Person z City w Bus Name y John
Name z Boston Agnt x y Dest x z Inst x w
Применение исчисления предикатов (CGIF + NOTIO)
Пример
―John is going to Boston by bus
Примеры построения КГ
22
23
Примеры построения КГ
Технология
24
Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования
Как строятся концептуальные графы
25
1 Морфологический анализ
2 Разметка семантических ролей
3 Грамматические шаблоны
Управление грамматическими
шаблонами
26
Поиск в текстах или поиск на графах
)()()( 322131 ggdggdggd
)( 31 ggd
)( 21 ggd)( 32 ggd
-20
-10
0
10
20-20
-10
0
10
20
20
202
204
206
-20
-10
0
10
20
Возможная структура пространства меры d (gj gi)
Меры близости и
метрические пространства
Примеры классификация текстов запросов в
системе технической поддержки
База вопросов
и ответов
Форумы
Электронная почта
Веб форма
База документации
Специалисты
Поисковая система
Вопрос пользователя
(произвольный русангл текст)
Ссылки на документы
28
Вход Выход
Рабочий процесс
Пользователь Веб форма Специалист
Пользователь Веб форма Поиск Специалист
Не помогло
До
После
29
Помогло
30
Технология концептуального моделирования для
извлечения словосочетаний в системах
полнотекстового поиска
31
Построение КГ для текста
запроса
Выделение словосочетаний
из КГ
Получение релевантных документов
Вычисление релевантности
Выявление словосочетаний ndash знаки
препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes
=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt
object[N] Method[N + 15]
32
Выявление словосочетаний -
семантика
bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы
bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции
33
Пример запроса пользователя
Hi there
Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim
34
Выделение ключевого
словосочетания
35
Where do I insert it in Project Object Mapping to make it work
Фильтрация несвязанных слов
36
Help me ASAP Hi there
Regards Tim
Опыт применения КГ в системах
технической поддержки
bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать
bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей
bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса
bull Использование словосочетаний при поиске снижает негативный эффект полисемии
bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы
37
Примеры рубрикация текстов аннотаций
научных статей
38
Система PubMed
1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API
Система PubMed пользовательский интерфейс
Термины в системе PubMed
Концептуальное моделирование в
биоинформатике
bull Создание и поддержка
баз знаний
bull Проблемно ndash ориентированные
bull концептуальные структуры mdash онтологии
bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo
41
Распознавание сущностей
Нахождение отношений между сущностями
Направление Biomedical Text Mining
S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007
Технология обработки данных
PubMed
1 Запрос к Pub Med
2 Обработка аннотации
3 Построение множества КГ
4 Выделение понятий терминов ndash
словосочетаний (Агрегирование КГ)
5 Построение решеток понятий
6 Замыкание на онтологию Pub Med
42
Построение концептуальных графов 1
концептуальные отношения
Фраза laquoГенная сеть регулирует необратимые процессыraquo
Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo
Выводы
bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением
bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов
bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании
45
Спасибо
Вопросы
46
4
5
Данные и метаданные поисковых систем
6
Инф ресурсы
Данные
Метаданные
Инф ресурсы Тексты
Модели
Корпус
Тексты
Разметка
Концептуальное моделирование
Концептуальное моделирование
7
laquohellip отражение семантики (смысла) объектов окружающего мира в виде сущностей и связей между нимиraquo
Концептуальная модель - граф
Вариант определения
Связи ndash отношения
Простейшие связи - бинарные
Усложнение связей мультиграфы
Концептуальное моделирование
индустриальная поддержка
8
Последняя конференция по концептуальному моделированию ER International Conference on Conceptual Modeling (ER 2013) Hong Kong 11st - 13rd of November 2013
Модели laquoсущность ndash связьraquo bull классическая (ERD)
bull расширенная (EERD)
Базы данных
Модели laquoбизнес-процессовraquo
Программы СУБД
Модели laquoсущность ndash связьraquo
9
классическая (ERD)
Модели laquoсущность ndash связьraquo
10
расширенная
(EERD)
Представление требований в CASE- системе
Sybase PowerDesigner
KDD-технология
(Knowledge Discovering from Databases)
3
Инф ресурсы
R G M ( )K G M R
G ndash множество объектов M ndash множество атрибутов объектов R ndash отношение
Контекст
Анализ Формальных Понятий Formal Concept Analysis
Ganter Bernhard Stumme Gerd Wille Rudolf eds (2005) Formal Concept Analysis Foundations and Applications Lecture Notes in Artificial Intelligence no 3626 Springer-Verlag
X G Y M Понятие )( YX
( )x O x x R
YX XY
( )y A y y R
АФП понятие laquoпонятиеraquo
X Y
ψ
φ
Множество всех понятий )( YX
на контексте ( )K G M R
вместе с отношением частичного порядка
)()()( 21212211 YYXXYXYX
АФП решетка понятий
АФП система вывода
( ) ( )A B M A B A B
Импликации
Кластеры
Ассоциативные правила
A B F X Y Z
Фактыhellip
Причем здесь язык и тексты
17
Лингвистика
Контекстное окно
Концептуальное
моделирование
Сравнение понятий контекста
1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы
АФП и метод опорных векторов
19
Линейно разделимая обучающая выборка
Перевод исходных векторов в пространство более высокой размерности
G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение
Актуальные задачи АФП
20
Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий
1 Собственные проблемы bull Построение минимального базиса решеток
понятий на достаточно больших контекстах (Ngt= )
bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов
310
Концептуальные графы и их поддержка Концепты
Отношения
[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)
(instrumentdb)
Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99
Lecture Notes in Artificial Intelligence 1640 Springer 1999
1 Conceptual Graph Interchange Form (CGIF)
2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt
ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt
ltconceptualgraphgt
( )( )( )( )( ( )
( ) ( ) ( ) ( ))
x Go y Person z City w Bus Name y John
Name z Boston Agnt x y Dest x z Inst x w
Применение исчисления предикатов (CGIF + NOTIO)
Пример
―John is going to Boston by bus
Примеры построения КГ
22
23
Примеры построения КГ
Технология
24
Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования
Как строятся концептуальные графы
25
1 Морфологический анализ
2 Разметка семантических ролей
3 Грамматические шаблоны
Управление грамматическими
шаблонами
26
Поиск в текстах или поиск на графах
)()()( 322131 ggdggdggd
)( 31 ggd
)( 21 ggd)( 32 ggd
-20
-10
0
10
20-20
-10
0
10
20
20
202
204
206
-20
-10
0
10
20
Возможная структура пространства меры d (gj gi)
Меры близости и
метрические пространства
Примеры классификация текстов запросов в
системе технической поддержки
База вопросов
и ответов
Форумы
Электронная почта
Веб форма
База документации
Специалисты
Поисковая система
Вопрос пользователя
(произвольный русангл текст)
Ссылки на документы
28
Вход Выход
Рабочий процесс
Пользователь Веб форма Специалист
Пользователь Веб форма Поиск Специалист
Не помогло
До
После
29
Помогло
30
Технология концептуального моделирования для
извлечения словосочетаний в системах
полнотекстового поиска
31
Построение КГ для текста
запроса
Выделение словосочетаний
из КГ
Получение релевантных документов
Вычисление релевантности
Выявление словосочетаний ndash знаки
препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes
=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt
object[N] Method[N + 15]
32
Выявление словосочетаний -
семантика
bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы
bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции
33
Пример запроса пользователя
Hi there
Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim
34
Выделение ключевого
словосочетания
35
Where do I insert it in Project Object Mapping to make it work
Фильтрация несвязанных слов
36
Help me ASAP Hi there
Regards Tim
Опыт применения КГ в системах
технической поддержки
bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать
bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей
bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса
bull Использование словосочетаний при поиске снижает негативный эффект полисемии
bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы
37
Примеры рубрикация текстов аннотаций
научных статей
38
Система PubMed
1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API
Система PubMed пользовательский интерфейс
Термины в системе PubMed
Концептуальное моделирование в
биоинформатике
bull Создание и поддержка
баз знаний
bull Проблемно ndash ориентированные
bull концептуальные структуры mdash онтологии
bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo
41
Распознавание сущностей
Нахождение отношений между сущностями
Направление Biomedical Text Mining
S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007
Технология обработки данных
PubMed
1 Запрос к Pub Med
2 Обработка аннотации
3 Построение множества КГ
4 Выделение понятий терминов ndash
словосочетаний (Агрегирование КГ)
5 Построение решеток понятий
6 Замыкание на онтологию Pub Med
42
Построение концептуальных графов 1
концептуальные отношения
Фраза laquoГенная сеть регулирует необратимые процессыraquo
Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo
Выводы
bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением
bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов
bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании
45
Спасибо
Вопросы
46
5
Данные и метаданные поисковых систем
6
Инф ресурсы
Данные
Метаданные
Инф ресурсы Тексты
Модели
Корпус
Тексты
Разметка
Концептуальное моделирование
Концептуальное моделирование
7
laquohellip отражение семантики (смысла) объектов окружающего мира в виде сущностей и связей между нимиraquo
Концептуальная модель - граф
Вариант определения
Связи ndash отношения
Простейшие связи - бинарные
Усложнение связей мультиграфы
Концептуальное моделирование
индустриальная поддержка
8
Последняя конференция по концептуальному моделированию ER International Conference on Conceptual Modeling (ER 2013) Hong Kong 11st - 13rd of November 2013
Модели laquoсущность ndash связьraquo bull классическая (ERD)
bull расширенная (EERD)
Базы данных
Модели laquoбизнес-процессовraquo
Программы СУБД
Модели laquoсущность ndash связьraquo
9
классическая (ERD)
Модели laquoсущность ndash связьraquo
10
расширенная
(EERD)
Представление требований в CASE- системе
Sybase PowerDesigner
KDD-технология
(Knowledge Discovering from Databases)
3
Инф ресурсы
R G M ( )K G M R
G ndash множество объектов M ndash множество атрибутов объектов R ndash отношение
Контекст
Анализ Формальных Понятий Formal Concept Analysis
Ganter Bernhard Stumme Gerd Wille Rudolf eds (2005) Formal Concept Analysis Foundations and Applications Lecture Notes in Artificial Intelligence no 3626 Springer-Verlag
X G Y M Понятие )( YX
( )x O x x R
YX XY
( )y A y y R
АФП понятие laquoпонятиеraquo
X Y
ψ
φ
Множество всех понятий )( YX
на контексте ( )K G M R
вместе с отношением частичного порядка
)()()( 21212211 YYXXYXYX
АФП решетка понятий
АФП система вывода
( ) ( )A B M A B A B
Импликации
Кластеры
Ассоциативные правила
A B F X Y Z
Фактыhellip
Причем здесь язык и тексты
17
Лингвистика
Контекстное окно
Концептуальное
моделирование
Сравнение понятий контекста
1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы
АФП и метод опорных векторов
19
Линейно разделимая обучающая выборка
Перевод исходных векторов в пространство более высокой размерности
G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение
Актуальные задачи АФП
20
Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий
1 Собственные проблемы bull Построение минимального базиса решеток
понятий на достаточно больших контекстах (Ngt= )
bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов
310
Концептуальные графы и их поддержка Концепты
Отношения
[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)
(instrumentdb)
Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99
Lecture Notes in Artificial Intelligence 1640 Springer 1999
1 Conceptual Graph Interchange Form (CGIF)
2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt
ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt
ltconceptualgraphgt
( )( )( )( )( ( )
( ) ( ) ( ) ( ))
x Go y Person z City w Bus Name y John
Name z Boston Agnt x y Dest x z Inst x w
Применение исчисления предикатов (CGIF + NOTIO)
Пример
―John is going to Boston by bus
Примеры построения КГ
22
23
Примеры построения КГ
Технология
24
Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования
Как строятся концептуальные графы
25
1 Морфологический анализ
2 Разметка семантических ролей
3 Грамматические шаблоны
Управление грамматическими
шаблонами
26
Поиск в текстах или поиск на графах
)()()( 322131 ggdggdggd
)( 31 ggd
)( 21 ggd)( 32 ggd
-20
-10
0
10
20-20
-10
0
10
20
20
202
204
206
-20
-10
0
10
20
Возможная структура пространства меры d (gj gi)
Меры близости и
метрические пространства
Примеры классификация текстов запросов в
системе технической поддержки
База вопросов
и ответов
Форумы
Электронная почта
Веб форма
База документации
Специалисты
Поисковая система
Вопрос пользователя
(произвольный русангл текст)
Ссылки на документы
28
Вход Выход
Рабочий процесс
Пользователь Веб форма Специалист
Пользователь Веб форма Поиск Специалист
Не помогло
До
После
29
Помогло
30
Технология концептуального моделирования для
извлечения словосочетаний в системах
полнотекстового поиска
31
Построение КГ для текста
запроса
Выделение словосочетаний
из КГ
Получение релевантных документов
Вычисление релевантности
Выявление словосочетаний ndash знаки
препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes
=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt
object[N] Method[N + 15]
32
Выявление словосочетаний -
семантика
bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы
bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции
33
Пример запроса пользователя
Hi there
Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim
34
Выделение ключевого
словосочетания
35
Where do I insert it in Project Object Mapping to make it work
Фильтрация несвязанных слов
36
Help me ASAP Hi there
Regards Tim
Опыт применения КГ в системах
технической поддержки
bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать
bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей
bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса
bull Использование словосочетаний при поиске снижает негативный эффект полисемии
bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы
37
Примеры рубрикация текстов аннотаций
научных статей
38
Система PubMed
1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API
Система PubMed пользовательский интерфейс
Термины в системе PubMed
Концептуальное моделирование в
биоинформатике
bull Создание и поддержка
баз знаний
bull Проблемно ndash ориентированные
bull концептуальные структуры mdash онтологии
bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo
41
Распознавание сущностей
Нахождение отношений между сущностями
Направление Biomedical Text Mining
S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007
Технология обработки данных
PubMed
1 Запрос к Pub Med
2 Обработка аннотации
3 Построение множества КГ
4 Выделение понятий терминов ndash
словосочетаний (Агрегирование КГ)
5 Построение решеток понятий
6 Замыкание на онтологию Pub Med
42
Построение концептуальных графов 1
концептуальные отношения
Фраза laquoГенная сеть регулирует необратимые процессыraquo
Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo
Выводы
bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением
bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов
bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании
45
Спасибо
Вопросы
46
Данные и метаданные поисковых систем
6
Инф ресурсы
Данные
Метаданные
Инф ресурсы Тексты
Модели
Корпус
Тексты
Разметка
Концептуальное моделирование
Концептуальное моделирование
7
laquohellip отражение семантики (смысла) объектов окружающего мира в виде сущностей и связей между нимиraquo
Концептуальная модель - граф
Вариант определения
Связи ndash отношения
Простейшие связи - бинарные
Усложнение связей мультиграфы
Концептуальное моделирование
индустриальная поддержка
8
Последняя конференция по концептуальному моделированию ER International Conference on Conceptual Modeling (ER 2013) Hong Kong 11st - 13rd of November 2013
Модели laquoсущность ndash связьraquo bull классическая (ERD)
bull расширенная (EERD)
Базы данных
Модели laquoбизнес-процессовraquo
Программы СУБД
Модели laquoсущность ndash связьraquo
9
классическая (ERD)
Модели laquoсущность ndash связьraquo
10
расширенная
(EERD)
Представление требований в CASE- системе
Sybase PowerDesigner
KDD-технология
(Knowledge Discovering from Databases)
3
Инф ресурсы
R G M ( )K G M R
G ndash множество объектов M ndash множество атрибутов объектов R ndash отношение
Контекст
Анализ Формальных Понятий Formal Concept Analysis
Ganter Bernhard Stumme Gerd Wille Rudolf eds (2005) Formal Concept Analysis Foundations and Applications Lecture Notes in Artificial Intelligence no 3626 Springer-Verlag
X G Y M Понятие )( YX
( )x O x x R
YX XY
( )y A y y R
АФП понятие laquoпонятиеraquo
X Y
ψ
φ
Множество всех понятий )( YX
на контексте ( )K G M R
вместе с отношением частичного порядка
)()()( 21212211 YYXXYXYX
АФП решетка понятий
АФП система вывода
( ) ( )A B M A B A B
Импликации
Кластеры
Ассоциативные правила
A B F X Y Z
Фактыhellip
Причем здесь язык и тексты
17
Лингвистика
Контекстное окно
Концептуальное
моделирование
Сравнение понятий контекста
1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы
АФП и метод опорных векторов
19
Линейно разделимая обучающая выборка
Перевод исходных векторов в пространство более высокой размерности
G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение
Актуальные задачи АФП
20
Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий
1 Собственные проблемы bull Построение минимального базиса решеток
понятий на достаточно больших контекстах (Ngt= )
bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов
310
Концептуальные графы и их поддержка Концепты
Отношения
[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)
(instrumentdb)
Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99
Lecture Notes in Artificial Intelligence 1640 Springer 1999
1 Conceptual Graph Interchange Form (CGIF)
2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt
ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt
ltconceptualgraphgt
( )( )( )( )( ( )
( ) ( ) ( ) ( ))
x Go y Person z City w Bus Name y John
Name z Boston Agnt x y Dest x z Inst x w
Применение исчисления предикатов (CGIF + NOTIO)
Пример
―John is going to Boston by bus
Примеры построения КГ
22
23
Примеры построения КГ
Технология
24
Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования
Как строятся концептуальные графы
25
1 Морфологический анализ
2 Разметка семантических ролей
3 Грамматические шаблоны
Управление грамматическими
шаблонами
26
Поиск в текстах или поиск на графах
)()()( 322131 ggdggdggd
)( 31 ggd
)( 21 ggd)( 32 ggd
-20
-10
0
10
20-20
-10
0
10
20
20
202
204
206
-20
-10
0
10
20
Возможная структура пространства меры d (gj gi)
Меры близости и
метрические пространства
Примеры классификация текстов запросов в
системе технической поддержки
База вопросов
и ответов
Форумы
Электронная почта
Веб форма
База документации
Специалисты
Поисковая система
Вопрос пользователя
(произвольный русангл текст)
Ссылки на документы
28
Вход Выход
Рабочий процесс
Пользователь Веб форма Специалист
Пользователь Веб форма Поиск Специалист
Не помогло
До
После
29
Помогло
30
Технология концептуального моделирования для
извлечения словосочетаний в системах
полнотекстового поиска
31
Построение КГ для текста
запроса
Выделение словосочетаний
из КГ
Получение релевантных документов
Вычисление релевантности
Выявление словосочетаний ndash знаки
препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes
=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt
object[N] Method[N + 15]
32
Выявление словосочетаний -
семантика
bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы
bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции
33
Пример запроса пользователя
Hi there
Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim
34
Выделение ключевого
словосочетания
35
Where do I insert it in Project Object Mapping to make it work
Фильтрация несвязанных слов
36
Help me ASAP Hi there
Regards Tim
Опыт применения КГ в системах
технической поддержки
bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать
bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей
bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса
bull Использование словосочетаний при поиске снижает негативный эффект полисемии
bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы
37
Примеры рубрикация текстов аннотаций
научных статей
38
Система PubMed
1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API
Система PubMed пользовательский интерфейс
Термины в системе PubMed
Концептуальное моделирование в
биоинформатике
bull Создание и поддержка
баз знаний
bull Проблемно ndash ориентированные
bull концептуальные структуры mdash онтологии
bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo
41
Распознавание сущностей
Нахождение отношений между сущностями
Направление Biomedical Text Mining
S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007
Технология обработки данных
PubMed
1 Запрос к Pub Med
2 Обработка аннотации
3 Построение множества КГ
4 Выделение понятий терминов ndash
словосочетаний (Агрегирование КГ)
5 Построение решеток понятий
6 Замыкание на онтологию Pub Med
42
Построение концептуальных графов 1
концептуальные отношения
Фраза laquoГенная сеть регулирует необратимые процессыraquo
Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo
Выводы
bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением
bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов
bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании
45
Спасибо
Вопросы
46
Концептуальное моделирование
7
laquohellip отражение семантики (смысла) объектов окружающего мира в виде сущностей и связей между нимиraquo
Концептуальная модель - граф
Вариант определения
Связи ndash отношения
Простейшие связи - бинарные
Усложнение связей мультиграфы
Концептуальное моделирование
индустриальная поддержка
8
Последняя конференция по концептуальному моделированию ER International Conference on Conceptual Modeling (ER 2013) Hong Kong 11st - 13rd of November 2013
Модели laquoсущность ndash связьraquo bull классическая (ERD)
bull расширенная (EERD)
Базы данных
Модели laquoбизнес-процессовraquo
Программы СУБД
Модели laquoсущность ndash связьraquo
9
классическая (ERD)
Модели laquoсущность ndash связьraquo
10
расширенная
(EERD)
Представление требований в CASE- системе
Sybase PowerDesigner
KDD-технология
(Knowledge Discovering from Databases)
3
Инф ресурсы
R G M ( )K G M R
G ndash множество объектов M ndash множество атрибутов объектов R ndash отношение
Контекст
Анализ Формальных Понятий Formal Concept Analysis
Ganter Bernhard Stumme Gerd Wille Rudolf eds (2005) Formal Concept Analysis Foundations and Applications Lecture Notes in Artificial Intelligence no 3626 Springer-Verlag
X G Y M Понятие )( YX
( )x O x x R
YX XY
( )y A y y R
АФП понятие laquoпонятиеraquo
X Y
ψ
φ
Множество всех понятий )( YX
на контексте ( )K G M R
вместе с отношением частичного порядка
)()()( 21212211 YYXXYXYX
АФП решетка понятий
АФП система вывода
( ) ( )A B M A B A B
Импликации
Кластеры
Ассоциативные правила
A B F X Y Z
Фактыhellip
Причем здесь язык и тексты
17
Лингвистика
Контекстное окно
Концептуальное
моделирование
Сравнение понятий контекста
1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы
АФП и метод опорных векторов
19
Линейно разделимая обучающая выборка
Перевод исходных векторов в пространство более высокой размерности
G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение
Актуальные задачи АФП
20
Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий
1 Собственные проблемы bull Построение минимального базиса решеток
понятий на достаточно больших контекстах (Ngt= )
bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов
310
Концептуальные графы и их поддержка Концепты
Отношения
[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)
(instrumentdb)
Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99
Lecture Notes in Artificial Intelligence 1640 Springer 1999
1 Conceptual Graph Interchange Form (CGIF)
2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt
ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt
ltconceptualgraphgt
( )( )( )( )( ( )
( ) ( ) ( ) ( ))
x Go y Person z City w Bus Name y John
Name z Boston Agnt x y Dest x z Inst x w
Применение исчисления предикатов (CGIF + NOTIO)
Пример
―John is going to Boston by bus
Примеры построения КГ
22
23
Примеры построения КГ
Технология
24
Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования
Как строятся концептуальные графы
25
1 Морфологический анализ
2 Разметка семантических ролей
3 Грамматические шаблоны
Управление грамматическими
шаблонами
26
Поиск в текстах или поиск на графах
)()()( 322131 ggdggdggd
)( 31 ggd
)( 21 ggd)( 32 ggd
-20
-10
0
10
20-20
-10
0
10
20
20
202
204
206
-20
-10
0
10
20
Возможная структура пространства меры d (gj gi)
Меры близости и
метрические пространства
Примеры классификация текстов запросов в
системе технической поддержки
База вопросов
и ответов
Форумы
Электронная почта
Веб форма
База документации
Специалисты
Поисковая система
Вопрос пользователя
(произвольный русангл текст)
Ссылки на документы
28
Вход Выход
Рабочий процесс
Пользователь Веб форма Специалист
Пользователь Веб форма Поиск Специалист
Не помогло
До
После
29
Помогло
30
Технология концептуального моделирования для
извлечения словосочетаний в системах
полнотекстового поиска
31
Построение КГ для текста
запроса
Выделение словосочетаний
из КГ
Получение релевантных документов
Вычисление релевантности
Выявление словосочетаний ndash знаки
препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes
=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt
object[N] Method[N + 15]
32
Выявление словосочетаний -
семантика
bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы
bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции
33
Пример запроса пользователя
Hi there
Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim
34
Выделение ключевого
словосочетания
35
Where do I insert it in Project Object Mapping to make it work
Фильтрация несвязанных слов
36
Help me ASAP Hi there
Regards Tim
Опыт применения КГ в системах
технической поддержки
bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать
bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей
bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса
bull Использование словосочетаний при поиске снижает негативный эффект полисемии
bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы
37
Примеры рубрикация текстов аннотаций
научных статей
38
Система PubMed
1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API
Система PubMed пользовательский интерфейс
Термины в системе PubMed
Концептуальное моделирование в
биоинформатике
bull Создание и поддержка
баз знаний
bull Проблемно ndash ориентированные
bull концептуальные структуры mdash онтологии
bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo
41
Распознавание сущностей
Нахождение отношений между сущностями
Направление Biomedical Text Mining
S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007
Технология обработки данных
PubMed
1 Запрос к Pub Med
2 Обработка аннотации
3 Построение множества КГ
4 Выделение понятий терминов ndash
словосочетаний (Агрегирование КГ)
5 Построение решеток понятий
6 Замыкание на онтологию Pub Med
42
Построение концептуальных графов 1
концептуальные отношения
Фраза laquoГенная сеть регулирует необратимые процессыraquo
Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo
Выводы
bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением
bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов
bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании
45
Спасибо
Вопросы
46
Концептуальное моделирование
индустриальная поддержка
8
Последняя конференция по концептуальному моделированию ER International Conference on Conceptual Modeling (ER 2013) Hong Kong 11st - 13rd of November 2013
Модели laquoсущность ndash связьraquo bull классическая (ERD)
bull расширенная (EERD)
Базы данных
Модели laquoбизнес-процессовraquo
Программы СУБД
Модели laquoсущность ndash связьraquo
9
классическая (ERD)
Модели laquoсущность ndash связьraquo
10
расширенная
(EERD)
Представление требований в CASE- системе
Sybase PowerDesigner
KDD-технология
(Knowledge Discovering from Databases)
3
Инф ресурсы
R G M ( )K G M R
G ndash множество объектов M ndash множество атрибутов объектов R ndash отношение
Контекст
Анализ Формальных Понятий Formal Concept Analysis
Ganter Bernhard Stumme Gerd Wille Rudolf eds (2005) Formal Concept Analysis Foundations and Applications Lecture Notes in Artificial Intelligence no 3626 Springer-Verlag
X G Y M Понятие )( YX
( )x O x x R
YX XY
( )y A y y R
АФП понятие laquoпонятиеraquo
X Y
ψ
φ
Множество всех понятий )( YX
на контексте ( )K G M R
вместе с отношением частичного порядка
)()()( 21212211 YYXXYXYX
АФП решетка понятий
АФП система вывода
( ) ( )A B M A B A B
Импликации
Кластеры
Ассоциативные правила
A B F X Y Z
Фактыhellip
Причем здесь язык и тексты
17
Лингвистика
Контекстное окно
Концептуальное
моделирование
Сравнение понятий контекста
1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы
АФП и метод опорных векторов
19
Линейно разделимая обучающая выборка
Перевод исходных векторов в пространство более высокой размерности
G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение
Актуальные задачи АФП
20
Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий
1 Собственные проблемы bull Построение минимального базиса решеток
понятий на достаточно больших контекстах (Ngt= )
bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов
310
Концептуальные графы и их поддержка Концепты
Отношения
[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)
(instrumentdb)
Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99
Lecture Notes in Artificial Intelligence 1640 Springer 1999
1 Conceptual Graph Interchange Form (CGIF)
2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt
ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt
ltconceptualgraphgt
( )( )( )( )( ( )
( ) ( ) ( ) ( ))
x Go y Person z City w Bus Name y John
Name z Boston Agnt x y Dest x z Inst x w
Применение исчисления предикатов (CGIF + NOTIO)
Пример
―John is going to Boston by bus
Примеры построения КГ
22
23
Примеры построения КГ
Технология
24
Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования
Как строятся концептуальные графы
25
1 Морфологический анализ
2 Разметка семантических ролей
3 Грамматические шаблоны
Управление грамматическими
шаблонами
26
Поиск в текстах или поиск на графах
)()()( 322131 ggdggdggd
)( 31 ggd
)( 21 ggd)( 32 ggd
-20
-10
0
10
20-20
-10
0
10
20
20
202
204
206
-20
-10
0
10
20
Возможная структура пространства меры d (gj gi)
Меры близости и
метрические пространства
Примеры классификация текстов запросов в
системе технической поддержки
База вопросов
и ответов
Форумы
Электронная почта
Веб форма
База документации
Специалисты
Поисковая система
Вопрос пользователя
(произвольный русангл текст)
Ссылки на документы
28
Вход Выход
Рабочий процесс
Пользователь Веб форма Специалист
Пользователь Веб форма Поиск Специалист
Не помогло
До
После
29
Помогло
30
Технология концептуального моделирования для
извлечения словосочетаний в системах
полнотекстового поиска
31
Построение КГ для текста
запроса
Выделение словосочетаний
из КГ
Получение релевантных документов
Вычисление релевантности
Выявление словосочетаний ndash знаки
препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes
=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt
object[N] Method[N + 15]
32
Выявление словосочетаний -
семантика
bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы
bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции
33
Пример запроса пользователя
Hi there
Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim
34
Выделение ключевого
словосочетания
35
Where do I insert it in Project Object Mapping to make it work
Фильтрация несвязанных слов
36
Help me ASAP Hi there
Regards Tim
Опыт применения КГ в системах
технической поддержки
bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать
bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей
bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса
bull Использование словосочетаний при поиске снижает негативный эффект полисемии
bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы
37
Примеры рубрикация текстов аннотаций
научных статей
38
Система PubMed
1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API
Система PubMed пользовательский интерфейс
Термины в системе PubMed
Концептуальное моделирование в
биоинформатике
bull Создание и поддержка
баз знаний
bull Проблемно ndash ориентированные
bull концептуальные структуры mdash онтологии
bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo
41
Распознавание сущностей
Нахождение отношений между сущностями
Направление Biomedical Text Mining
S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007
Технология обработки данных
PubMed
1 Запрос к Pub Med
2 Обработка аннотации
3 Построение множества КГ
4 Выделение понятий терминов ndash
словосочетаний (Агрегирование КГ)
5 Построение решеток понятий
6 Замыкание на онтологию Pub Med
42
Построение концептуальных графов 1
концептуальные отношения
Фраза laquoГенная сеть регулирует необратимые процессыraquo
Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo
Выводы
bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением
bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов
bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании
45
Спасибо
Вопросы
46
Модели laquoсущность ndash связьraquo
9
классическая (ERD)
Модели laquoсущность ndash связьraquo
10
расширенная
(EERD)
Представление требований в CASE- системе
Sybase PowerDesigner
KDD-технология
(Knowledge Discovering from Databases)
3
Инф ресурсы
R G M ( )K G M R
G ndash множество объектов M ndash множество атрибутов объектов R ndash отношение
Контекст
Анализ Формальных Понятий Formal Concept Analysis
Ganter Bernhard Stumme Gerd Wille Rudolf eds (2005) Formal Concept Analysis Foundations and Applications Lecture Notes in Artificial Intelligence no 3626 Springer-Verlag
X G Y M Понятие )( YX
( )x O x x R
YX XY
( )y A y y R
АФП понятие laquoпонятиеraquo
X Y
ψ
φ
Множество всех понятий )( YX
на контексте ( )K G M R
вместе с отношением частичного порядка
)()()( 21212211 YYXXYXYX
АФП решетка понятий
АФП система вывода
( ) ( )A B M A B A B
Импликации
Кластеры
Ассоциативные правила
A B F X Y Z
Фактыhellip
Причем здесь язык и тексты
17
Лингвистика
Контекстное окно
Концептуальное
моделирование
Сравнение понятий контекста
1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы
АФП и метод опорных векторов
19
Линейно разделимая обучающая выборка
Перевод исходных векторов в пространство более высокой размерности
G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение
Актуальные задачи АФП
20
Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий
1 Собственные проблемы bull Построение минимального базиса решеток
понятий на достаточно больших контекстах (Ngt= )
bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов
310
Концептуальные графы и их поддержка Концепты
Отношения
[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)
(instrumentdb)
Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99
Lecture Notes in Artificial Intelligence 1640 Springer 1999
1 Conceptual Graph Interchange Form (CGIF)
2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt
ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt
ltconceptualgraphgt
( )( )( )( )( ( )
( ) ( ) ( ) ( ))
x Go y Person z City w Bus Name y John
Name z Boston Agnt x y Dest x z Inst x w
Применение исчисления предикатов (CGIF + NOTIO)
Пример
―John is going to Boston by bus
Примеры построения КГ
22
23
Примеры построения КГ
Технология
24
Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования
Как строятся концептуальные графы
25
1 Морфологический анализ
2 Разметка семантических ролей
3 Грамматические шаблоны
Управление грамматическими
шаблонами
26
Поиск в текстах или поиск на графах
)()()( 322131 ggdggdggd
)( 31 ggd
)( 21 ggd)( 32 ggd
-20
-10
0
10
20-20
-10
0
10
20
20
202
204
206
-20
-10
0
10
20
Возможная структура пространства меры d (gj gi)
Меры близости и
метрические пространства
Примеры классификация текстов запросов в
системе технической поддержки
База вопросов
и ответов
Форумы
Электронная почта
Веб форма
База документации
Специалисты
Поисковая система
Вопрос пользователя
(произвольный русангл текст)
Ссылки на документы
28
Вход Выход
Рабочий процесс
Пользователь Веб форма Специалист
Пользователь Веб форма Поиск Специалист
Не помогло
До
После
29
Помогло
30
Технология концептуального моделирования для
извлечения словосочетаний в системах
полнотекстового поиска
31
Построение КГ для текста
запроса
Выделение словосочетаний
из КГ
Получение релевантных документов
Вычисление релевантности
Выявление словосочетаний ndash знаки
препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes
=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt
object[N] Method[N + 15]
32
Выявление словосочетаний -
семантика
bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы
bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции
33
Пример запроса пользователя
Hi there
Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim
34
Выделение ключевого
словосочетания
35
Where do I insert it in Project Object Mapping to make it work
Фильтрация несвязанных слов
36
Help me ASAP Hi there
Regards Tim
Опыт применения КГ в системах
технической поддержки
bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать
bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей
bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса
bull Использование словосочетаний при поиске снижает негативный эффект полисемии
bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы
37
Примеры рубрикация текстов аннотаций
научных статей
38
Система PubMed
1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API
Система PubMed пользовательский интерфейс
Термины в системе PubMed
Концептуальное моделирование в
биоинформатике
bull Создание и поддержка
баз знаний
bull Проблемно ndash ориентированные
bull концептуальные структуры mdash онтологии
bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo
41
Распознавание сущностей
Нахождение отношений между сущностями
Направление Biomedical Text Mining
S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007
Технология обработки данных
PubMed
1 Запрос к Pub Med
2 Обработка аннотации
3 Построение множества КГ
4 Выделение понятий терминов ndash
словосочетаний (Агрегирование КГ)
5 Построение решеток понятий
6 Замыкание на онтологию Pub Med
42
Построение концептуальных графов 1
концептуальные отношения
Фраза laquoГенная сеть регулирует необратимые процессыraquo
Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo
Выводы
bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением
bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов
bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании
45
Спасибо
Вопросы
46
Модели laquoсущность ndash связьraquo
10
расширенная
(EERD)
Представление требований в CASE- системе
Sybase PowerDesigner
KDD-технология
(Knowledge Discovering from Databases)
3
Инф ресурсы
R G M ( )K G M R
G ndash множество объектов M ndash множество атрибутов объектов R ndash отношение
Контекст
Анализ Формальных Понятий Formal Concept Analysis
Ganter Bernhard Stumme Gerd Wille Rudolf eds (2005) Formal Concept Analysis Foundations and Applications Lecture Notes in Artificial Intelligence no 3626 Springer-Verlag
X G Y M Понятие )( YX
( )x O x x R
YX XY
( )y A y y R
АФП понятие laquoпонятиеraquo
X Y
ψ
φ
Множество всех понятий )( YX
на контексте ( )K G M R
вместе с отношением частичного порядка
)()()( 21212211 YYXXYXYX
АФП решетка понятий
АФП система вывода
( ) ( )A B M A B A B
Импликации
Кластеры
Ассоциативные правила
A B F X Y Z
Фактыhellip
Причем здесь язык и тексты
17
Лингвистика
Контекстное окно
Концептуальное
моделирование
Сравнение понятий контекста
1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы
АФП и метод опорных векторов
19
Линейно разделимая обучающая выборка
Перевод исходных векторов в пространство более высокой размерности
G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение
Актуальные задачи АФП
20
Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий
1 Собственные проблемы bull Построение минимального базиса решеток
понятий на достаточно больших контекстах (Ngt= )
bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов
310
Концептуальные графы и их поддержка Концепты
Отношения
[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)
(instrumentdb)
Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99
Lecture Notes in Artificial Intelligence 1640 Springer 1999
1 Conceptual Graph Interchange Form (CGIF)
2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt
ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt
ltconceptualgraphgt
( )( )( )( )( ( )
( ) ( ) ( ) ( ))
x Go y Person z City w Bus Name y John
Name z Boston Agnt x y Dest x z Inst x w
Применение исчисления предикатов (CGIF + NOTIO)
Пример
―John is going to Boston by bus
Примеры построения КГ
22
23
Примеры построения КГ
Технология
24
Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования
Как строятся концептуальные графы
25
1 Морфологический анализ
2 Разметка семантических ролей
3 Грамматические шаблоны
Управление грамматическими
шаблонами
26
Поиск в текстах или поиск на графах
)()()( 322131 ggdggdggd
)( 31 ggd
)( 21 ggd)( 32 ggd
-20
-10
0
10
20-20
-10
0
10
20
20
202
204
206
-20
-10
0
10
20
Возможная структура пространства меры d (gj gi)
Меры близости и
метрические пространства
Примеры классификация текстов запросов в
системе технической поддержки
База вопросов
и ответов
Форумы
Электронная почта
Веб форма
База документации
Специалисты
Поисковая система
Вопрос пользователя
(произвольный русангл текст)
Ссылки на документы
28
Вход Выход
Рабочий процесс
Пользователь Веб форма Специалист
Пользователь Веб форма Поиск Специалист
Не помогло
До
После
29
Помогло
30
Технология концептуального моделирования для
извлечения словосочетаний в системах
полнотекстового поиска
31
Построение КГ для текста
запроса
Выделение словосочетаний
из КГ
Получение релевантных документов
Вычисление релевантности
Выявление словосочетаний ndash знаки
препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes
=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt
object[N] Method[N + 15]
32
Выявление словосочетаний -
семантика
bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы
bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции
33
Пример запроса пользователя
Hi there
Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim
34
Выделение ключевого
словосочетания
35
Where do I insert it in Project Object Mapping to make it work
Фильтрация несвязанных слов
36
Help me ASAP Hi there
Regards Tim
Опыт применения КГ в системах
технической поддержки
bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать
bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей
bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса
bull Использование словосочетаний при поиске снижает негативный эффект полисемии
bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы
37
Примеры рубрикация текстов аннотаций
научных статей
38
Система PubMed
1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API
Система PubMed пользовательский интерфейс
Термины в системе PubMed
Концептуальное моделирование в
биоинформатике
bull Создание и поддержка
баз знаний
bull Проблемно ndash ориентированные
bull концептуальные структуры mdash онтологии
bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo
41
Распознавание сущностей
Нахождение отношений между сущностями
Направление Biomedical Text Mining
S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007
Технология обработки данных
PubMed
1 Запрос к Pub Med
2 Обработка аннотации
3 Построение множества КГ
4 Выделение понятий терминов ndash
словосочетаний (Агрегирование КГ)
5 Построение решеток понятий
6 Замыкание на онтологию Pub Med
42
Построение концептуальных графов 1
концептуальные отношения
Фраза laquoГенная сеть регулирует необратимые процессыraquo
Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo
Выводы
bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением
bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов
bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании
45
Спасибо
Вопросы
46
Представление требований в CASE- системе
Sybase PowerDesigner
KDD-технология
(Knowledge Discovering from Databases)
3
Инф ресурсы
R G M ( )K G M R
G ndash множество объектов M ndash множество атрибутов объектов R ndash отношение
Контекст
Анализ Формальных Понятий Formal Concept Analysis
Ganter Bernhard Stumme Gerd Wille Rudolf eds (2005) Formal Concept Analysis Foundations and Applications Lecture Notes in Artificial Intelligence no 3626 Springer-Verlag
X G Y M Понятие )( YX
( )x O x x R
YX XY
( )y A y y R
АФП понятие laquoпонятиеraquo
X Y
ψ
φ
Множество всех понятий )( YX
на контексте ( )K G M R
вместе с отношением частичного порядка
)()()( 21212211 YYXXYXYX
АФП решетка понятий
АФП система вывода
( ) ( )A B M A B A B
Импликации
Кластеры
Ассоциативные правила
A B F X Y Z
Фактыhellip
Причем здесь язык и тексты
17
Лингвистика
Контекстное окно
Концептуальное
моделирование
Сравнение понятий контекста
1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы
АФП и метод опорных векторов
19
Линейно разделимая обучающая выборка
Перевод исходных векторов в пространство более высокой размерности
G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение
Актуальные задачи АФП
20
Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий
1 Собственные проблемы bull Построение минимального базиса решеток
понятий на достаточно больших контекстах (Ngt= )
bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов
310
Концептуальные графы и их поддержка Концепты
Отношения
[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)
(instrumentdb)
Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99
Lecture Notes in Artificial Intelligence 1640 Springer 1999
1 Conceptual Graph Interchange Form (CGIF)
2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt
ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt
ltconceptualgraphgt
( )( )( )( )( ( )
( ) ( ) ( ) ( ))
x Go y Person z City w Bus Name y John
Name z Boston Agnt x y Dest x z Inst x w
Применение исчисления предикатов (CGIF + NOTIO)
Пример
―John is going to Boston by bus
Примеры построения КГ
22
23
Примеры построения КГ
Технология
24
Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования
Как строятся концептуальные графы
25
1 Морфологический анализ
2 Разметка семантических ролей
3 Грамматические шаблоны
Управление грамматическими
шаблонами
26
Поиск в текстах или поиск на графах
)()()( 322131 ggdggdggd
)( 31 ggd
)( 21 ggd)( 32 ggd
-20
-10
0
10
20-20
-10
0
10
20
20
202
204
206
-20
-10
0
10
20
Возможная структура пространства меры d (gj gi)
Меры близости и
метрические пространства
Примеры классификация текстов запросов в
системе технической поддержки
База вопросов
и ответов
Форумы
Электронная почта
Веб форма
База документации
Специалисты
Поисковая система
Вопрос пользователя
(произвольный русангл текст)
Ссылки на документы
28
Вход Выход
Рабочий процесс
Пользователь Веб форма Специалист
Пользователь Веб форма Поиск Специалист
Не помогло
До
После
29
Помогло
30
Технология концептуального моделирования для
извлечения словосочетаний в системах
полнотекстового поиска
31
Построение КГ для текста
запроса
Выделение словосочетаний
из КГ
Получение релевантных документов
Вычисление релевантности
Выявление словосочетаний ndash знаки
препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes
=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt
object[N] Method[N + 15]
32
Выявление словосочетаний -
семантика
bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы
bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции
33
Пример запроса пользователя
Hi there
Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim
34
Выделение ключевого
словосочетания
35
Where do I insert it in Project Object Mapping to make it work
Фильтрация несвязанных слов
36
Help me ASAP Hi there
Regards Tim
Опыт применения КГ в системах
технической поддержки
bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать
bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей
bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса
bull Использование словосочетаний при поиске снижает негативный эффект полисемии
bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы
37
Примеры рубрикация текстов аннотаций
научных статей
38
Система PubMed
1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API
Система PubMed пользовательский интерфейс
Термины в системе PubMed
Концептуальное моделирование в
биоинформатике
bull Создание и поддержка
баз знаний
bull Проблемно ndash ориентированные
bull концептуальные структуры mdash онтологии
bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo
41
Распознавание сущностей
Нахождение отношений между сущностями
Направление Biomedical Text Mining
S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007
Технология обработки данных
PubMed
1 Запрос к Pub Med
2 Обработка аннотации
3 Построение множества КГ
4 Выделение понятий терминов ndash
словосочетаний (Агрегирование КГ)
5 Построение решеток понятий
6 Замыкание на онтологию Pub Med
42
Построение концептуальных графов 1
концептуальные отношения
Фраза laquoГенная сеть регулирует необратимые процессыraquo
Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo
Выводы
bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением
bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов
bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании
45
Спасибо
Вопросы
46
KDD-технология
(Knowledge Discovering from Databases)
3
Инф ресурсы
R G M ( )K G M R
G ndash множество объектов M ndash множество атрибутов объектов R ndash отношение
Контекст
Анализ Формальных Понятий Formal Concept Analysis
Ganter Bernhard Stumme Gerd Wille Rudolf eds (2005) Formal Concept Analysis Foundations and Applications Lecture Notes in Artificial Intelligence no 3626 Springer-Verlag
X G Y M Понятие )( YX
( )x O x x R
YX XY
( )y A y y R
АФП понятие laquoпонятиеraquo
X Y
ψ
φ
Множество всех понятий )( YX
на контексте ( )K G M R
вместе с отношением частичного порядка
)()()( 21212211 YYXXYXYX
АФП решетка понятий
АФП система вывода
( ) ( )A B M A B A B
Импликации
Кластеры
Ассоциативные правила
A B F X Y Z
Фактыhellip
Причем здесь язык и тексты
17
Лингвистика
Контекстное окно
Концептуальное
моделирование
Сравнение понятий контекста
1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы
АФП и метод опорных векторов
19
Линейно разделимая обучающая выборка
Перевод исходных векторов в пространство более высокой размерности
G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение
Актуальные задачи АФП
20
Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий
1 Собственные проблемы bull Построение минимального базиса решеток
понятий на достаточно больших контекстах (Ngt= )
bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов
310
Концептуальные графы и их поддержка Концепты
Отношения
[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)
(instrumentdb)
Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99
Lecture Notes in Artificial Intelligence 1640 Springer 1999
1 Conceptual Graph Interchange Form (CGIF)
2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt
ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt
ltconceptualgraphgt
( )( )( )( )( ( )
( ) ( ) ( ) ( ))
x Go y Person z City w Bus Name y John
Name z Boston Agnt x y Dest x z Inst x w
Применение исчисления предикатов (CGIF + NOTIO)
Пример
―John is going to Boston by bus
Примеры построения КГ
22
23
Примеры построения КГ
Технология
24
Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования
Как строятся концептуальные графы
25
1 Морфологический анализ
2 Разметка семантических ролей
3 Грамматические шаблоны
Управление грамматическими
шаблонами
26
Поиск в текстах или поиск на графах
)()()( 322131 ggdggdggd
)( 31 ggd
)( 21 ggd)( 32 ggd
-20
-10
0
10
20-20
-10
0
10
20
20
202
204
206
-20
-10
0
10
20
Возможная структура пространства меры d (gj gi)
Меры близости и
метрические пространства
Примеры классификация текстов запросов в
системе технической поддержки
База вопросов
и ответов
Форумы
Электронная почта
Веб форма
База документации
Специалисты
Поисковая система
Вопрос пользователя
(произвольный русангл текст)
Ссылки на документы
28
Вход Выход
Рабочий процесс
Пользователь Веб форма Специалист
Пользователь Веб форма Поиск Специалист
Не помогло
До
После
29
Помогло
30
Технология концептуального моделирования для
извлечения словосочетаний в системах
полнотекстового поиска
31
Построение КГ для текста
запроса
Выделение словосочетаний
из КГ
Получение релевантных документов
Вычисление релевантности
Выявление словосочетаний ndash знаки
препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes
=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt
object[N] Method[N + 15]
32
Выявление словосочетаний -
семантика
bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы
bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции
33
Пример запроса пользователя
Hi there
Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim
34
Выделение ключевого
словосочетания
35
Where do I insert it in Project Object Mapping to make it work
Фильтрация несвязанных слов
36
Help me ASAP Hi there
Regards Tim
Опыт применения КГ в системах
технической поддержки
bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать
bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей
bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса
bull Использование словосочетаний при поиске снижает негативный эффект полисемии
bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы
37
Примеры рубрикация текстов аннотаций
научных статей
38
Система PubMed
1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API
Система PubMed пользовательский интерфейс
Термины в системе PubMed
Концептуальное моделирование в
биоинформатике
bull Создание и поддержка
баз знаний
bull Проблемно ndash ориентированные
bull концептуальные структуры mdash онтологии
bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo
41
Распознавание сущностей
Нахождение отношений между сущностями
Направление Biomedical Text Mining
S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007
Технология обработки данных
PubMed
1 Запрос к Pub Med
2 Обработка аннотации
3 Построение множества КГ
4 Выделение понятий терминов ndash
словосочетаний (Агрегирование КГ)
5 Построение решеток понятий
6 Замыкание на онтологию Pub Med
42
Построение концептуальных графов 1
концептуальные отношения
Фраза laquoГенная сеть регулирует необратимые процессыraquo
Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo
Выводы
bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением
bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов
bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании
45
Спасибо
Вопросы
46
R G M ( )K G M R
G ndash множество объектов M ndash множество атрибутов объектов R ndash отношение
Контекст
Анализ Формальных Понятий Formal Concept Analysis
Ganter Bernhard Stumme Gerd Wille Rudolf eds (2005) Formal Concept Analysis Foundations and Applications Lecture Notes in Artificial Intelligence no 3626 Springer-Verlag
X G Y M Понятие )( YX
( )x O x x R
YX XY
( )y A y y R
АФП понятие laquoпонятиеraquo
X Y
ψ
φ
Множество всех понятий )( YX
на контексте ( )K G M R
вместе с отношением частичного порядка
)()()( 21212211 YYXXYXYX
АФП решетка понятий
АФП система вывода
( ) ( )A B M A B A B
Импликации
Кластеры
Ассоциативные правила
A B F X Y Z
Фактыhellip
Причем здесь язык и тексты
17
Лингвистика
Контекстное окно
Концептуальное
моделирование
Сравнение понятий контекста
1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы
АФП и метод опорных векторов
19
Линейно разделимая обучающая выборка
Перевод исходных векторов в пространство более высокой размерности
G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение
Актуальные задачи АФП
20
Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий
1 Собственные проблемы bull Построение минимального базиса решеток
понятий на достаточно больших контекстах (Ngt= )
bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов
310
Концептуальные графы и их поддержка Концепты
Отношения
[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)
(instrumentdb)
Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99
Lecture Notes in Artificial Intelligence 1640 Springer 1999
1 Conceptual Graph Interchange Form (CGIF)
2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt
ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt
ltconceptualgraphgt
( )( )( )( )( ( )
( ) ( ) ( ) ( ))
x Go y Person z City w Bus Name y John
Name z Boston Agnt x y Dest x z Inst x w
Применение исчисления предикатов (CGIF + NOTIO)
Пример
―John is going to Boston by bus
Примеры построения КГ
22
23
Примеры построения КГ
Технология
24
Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования
Как строятся концептуальные графы
25
1 Морфологический анализ
2 Разметка семантических ролей
3 Грамматические шаблоны
Управление грамматическими
шаблонами
26
Поиск в текстах или поиск на графах
)()()( 322131 ggdggdggd
)( 31 ggd
)( 21 ggd)( 32 ggd
-20
-10
0
10
20-20
-10
0
10
20
20
202
204
206
-20
-10
0
10
20
Возможная структура пространства меры d (gj gi)
Меры близости и
метрические пространства
Примеры классификация текстов запросов в
системе технической поддержки
База вопросов
и ответов
Форумы
Электронная почта
Веб форма
База документации
Специалисты
Поисковая система
Вопрос пользователя
(произвольный русангл текст)
Ссылки на документы
28
Вход Выход
Рабочий процесс
Пользователь Веб форма Специалист
Пользователь Веб форма Поиск Специалист
Не помогло
До
После
29
Помогло
30
Технология концептуального моделирования для
извлечения словосочетаний в системах
полнотекстового поиска
31
Построение КГ для текста
запроса
Выделение словосочетаний
из КГ
Получение релевантных документов
Вычисление релевантности
Выявление словосочетаний ndash знаки
препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes
=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt
object[N] Method[N + 15]
32
Выявление словосочетаний -
семантика
bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы
bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции
33
Пример запроса пользователя
Hi there
Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim
34
Выделение ключевого
словосочетания
35
Where do I insert it in Project Object Mapping to make it work
Фильтрация несвязанных слов
36
Help me ASAP Hi there
Regards Tim
Опыт применения КГ в системах
технической поддержки
bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать
bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей
bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса
bull Использование словосочетаний при поиске снижает негативный эффект полисемии
bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы
37
Примеры рубрикация текстов аннотаций
научных статей
38
Система PubMed
1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API
Система PubMed пользовательский интерфейс
Термины в системе PubMed
Концептуальное моделирование в
биоинформатике
bull Создание и поддержка
баз знаний
bull Проблемно ndash ориентированные
bull концептуальные структуры mdash онтологии
bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo
41
Распознавание сущностей
Нахождение отношений между сущностями
Направление Biomedical Text Mining
S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007
Технология обработки данных
PubMed
1 Запрос к Pub Med
2 Обработка аннотации
3 Построение множества КГ
4 Выделение понятий терминов ndash
словосочетаний (Агрегирование КГ)
5 Построение решеток понятий
6 Замыкание на онтологию Pub Med
42
Построение концептуальных графов 1
концептуальные отношения
Фраза laquoГенная сеть регулирует необратимые процессыraquo
Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo
Выводы
bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением
bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов
bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании
45
Спасибо
Вопросы
46
X G Y M Понятие )( YX
( )x O x x R
YX XY
( )y A y y R
АФП понятие laquoпонятиеraquo
X Y
ψ
φ
Множество всех понятий )( YX
на контексте ( )K G M R
вместе с отношением частичного порядка
)()()( 21212211 YYXXYXYX
АФП решетка понятий
АФП система вывода
( ) ( )A B M A B A B
Импликации
Кластеры
Ассоциативные правила
A B F X Y Z
Фактыhellip
Причем здесь язык и тексты
17
Лингвистика
Контекстное окно
Концептуальное
моделирование
Сравнение понятий контекста
1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы
АФП и метод опорных векторов
19
Линейно разделимая обучающая выборка
Перевод исходных векторов в пространство более высокой размерности
G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение
Актуальные задачи АФП
20
Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий
1 Собственные проблемы bull Построение минимального базиса решеток
понятий на достаточно больших контекстах (Ngt= )
bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов
310
Концептуальные графы и их поддержка Концепты
Отношения
[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)
(instrumentdb)
Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99
Lecture Notes in Artificial Intelligence 1640 Springer 1999
1 Conceptual Graph Interchange Form (CGIF)
2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt
ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt
ltconceptualgraphgt
( )( )( )( )( ( )
( ) ( ) ( ) ( ))
x Go y Person z City w Bus Name y John
Name z Boston Agnt x y Dest x z Inst x w
Применение исчисления предикатов (CGIF + NOTIO)
Пример
―John is going to Boston by bus
Примеры построения КГ
22
23
Примеры построения КГ
Технология
24
Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования
Как строятся концептуальные графы
25
1 Морфологический анализ
2 Разметка семантических ролей
3 Грамматические шаблоны
Управление грамматическими
шаблонами
26
Поиск в текстах или поиск на графах
)()()( 322131 ggdggdggd
)( 31 ggd
)( 21 ggd)( 32 ggd
-20
-10
0
10
20-20
-10
0
10
20
20
202
204
206
-20
-10
0
10
20
Возможная структура пространства меры d (gj gi)
Меры близости и
метрические пространства
Примеры классификация текстов запросов в
системе технической поддержки
База вопросов
и ответов
Форумы
Электронная почта
Веб форма
База документации
Специалисты
Поисковая система
Вопрос пользователя
(произвольный русангл текст)
Ссылки на документы
28
Вход Выход
Рабочий процесс
Пользователь Веб форма Специалист
Пользователь Веб форма Поиск Специалист
Не помогло
До
После
29
Помогло
30
Технология концептуального моделирования для
извлечения словосочетаний в системах
полнотекстового поиска
31
Построение КГ для текста
запроса
Выделение словосочетаний
из КГ
Получение релевантных документов
Вычисление релевантности
Выявление словосочетаний ndash знаки
препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes
=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt
object[N] Method[N + 15]
32
Выявление словосочетаний -
семантика
bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы
bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции
33
Пример запроса пользователя
Hi there
Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim
34
Выделение ключевого
словосочетания
35
Where do I insert it in Project Object Mapping to make it work
Фильтрация несвязанных слов
36
Help me ASAP Hi there
Regards Tim
Опыт применения КГ в системах
технической поддержки
bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать
bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей
bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса
bull Использование словосочетаний при поиске снижает негативный эффект полисемии
bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы
37
Примеры рубрикация текстов аннотаций
научных статей
38
Система PubMed
1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API
Система PubMed пользовательский интерфейс
Термины в системе PubMed
Концептуальное моделирование в
биоинформатике
bull Создание и поддержка
баз знаний
bull Проблемно ndash ориентированные
bull концептуальные структуры mdash онтологии
bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo
41
Распознавание сущностей
Нахождение отношений между сущностями
Направление Biomedical Text Mining
S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007
Технология обработки данных
PubMed
1 Запрос к Pub Med
2 Обработка аннотации
3 Построение множества КГ
4 Выделение понятий терминов ndash
словосочетаний (Агрегирование КГ)
5 Построение решеток понятий
6 Замыкание на онтологию Pub Med
42
Построение концептуальных графов 1
концептуальные отношения
Фраза laquoГенная сеть регулирует необратимые процессыraquo
Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo
Выводы
bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением
bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов
bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании
45
Спасибо
Вопросы
46
Множество всех понятий )( YX
на контексте ( )K G M R
вместе с отношением частичного порядка
)()()( 21212211 YYXXYXYX
АФП решетка понятий
АФП система вывода
( ) ( )A B M A B A B
Импликации
Кластеры
Ассоциативные правила
A B F X Y Z
Фактыhellip
Причем здесь язык и тексты
17
Лингвистика
Контекстное окно
Концептуальное
моделирование
Сравнение понятий контекста
1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы
АФП и метод опорных векторов
19
Линейно разделимая обучающая выборка
Перевод исходных векторов в пространство более высокой размерности
G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение
Актуальные задачи АФП
20
Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий
1 Собственные проблемы bull Построение минимального базиса решеток
понятий на достаточно больших контекстах (Ngt= )
bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов
310
Концептуальные графы и их поддержка Концепты
Отношения
[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)
(instrumentdb)
Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99
Lecture Notes in Artificial Intelligence 1640 Springer 1999
1 Conceptual Graph Interchange Form (CGIF)
2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt
ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt
ltconceptualgraphgt
( )( )( )( )( ( )
( ) ( ) ( ) ( ))
x Go y Person z City w Bus Name y John
Name z Boston Agnt x y Dest x z Inst x w
Применение исчисления предикатов (CGIF + NOTIO)
Пример
―John is going to Boston by bus
Примеры построения КГ
22
23
Примеры построения КГ
Технология
24
Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования
Как строятся концептуальные графы
25
1 Морфологический анализ
2 Разметка семантических ролей
3 Грамматические шаблоны
Управление грамматическими
шаблонами
26
Поиск в текстах или поиск на графах
)()()( 322131 ggdggdggd
)( 31 ggd
)( 21 ggd)( 32 ggd
-20
-10
0
10
20-20
-10
0
10
20
20
202
204
206
-20
-10
0
10
20
Возможная структура пространства меры d (gj gi)
Меры близости и
метрические пространства
Примеры классификация текстов запросов в
системе технической поддержки
База вопросов
и ответов
Форумы
Электронная почта
Веб форма
База документации
Специалисты
Поисковая система
Вопрос пользователя
(произвольный русангл текст)
Ссылки на документы
28
Вход Выход
Рабочий процесс
Пользователь Веб форма Специалист
Пользователь Веб форма Поиск Специалист
Не помогло
До
После
29
Помогло
30
Технология концептуального моделирования для
извлечения словосочетаний в системах
полнотекстового поиска
31
Построение КГ для текста
запроса
Выделение словосочетаний
из КГ
Получение релевантных документов
Вычисление релевантности
Выявление словосочетаний ndash знаки
препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes
=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt
object[N] Method[N + 15]
32
Выявление словосочетаний -
семантика
bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы
bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции
33
Пример запроса пользователя
Hi there
Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim
34
Выделение ключевого
словосочетания
35
Where do I insert it in Project Object Mapping to make it work
Фильтрация несвязанных слов
36
Help me ASAP Hi there
Regards Tim
Опыт применения КГ в системах
технической поддержки
bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать
bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей
bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса
bull Использование словосочетаний при поиске снижает негативный эффект полисемии
bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы
37
Примеры рубрикация текстов аннотаций
научных статей
38
Система PubMed
1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API
Система PubMed пользовательский интерфейс
Термины в системе PubMed
Концептуальное моделирование в
биоинформатике
bull Создание и поддержка
баз знаний
bull Проблемно ndash ориентированные
bull концептуальные структуры mdash онтологии
bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo
41
Распознавание сущностей
Нахождение отношений между сущностями
Направление Biomedical Text Mining
S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007
Технология обработки данных
PubMed
1 Запрос к Pub Med
2 Обработка аннотации
3 Построение множества КГ
4 Выделение понятий терминов ndash
словосочетаний (Агрегирование КГ)
5 Построение решеток понятий
6 Замыкание на онтологию Pub Med
42
Построение концептуальных графов 1
концептуальные отношения
Фраза laquoГенная сеть регулирует необратимые процессыraquo
Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo
Выводы
bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением
bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов
bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании
45
Спасибо
Вопросы
46
АФП система вывода
( ) ( )A B M A B A B
Импликации
Кластеры
Ассоциативные правила
A B F X Y Z
Фактыhellip
Причем здесь язык и тексты
17
Лингвистика
Контекстное окно
Концептуальное
моделирование
Сравнение понятий контекста
1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы
АФП и метод опорных векторов
19
Линейно разделимая обучающая выборка
Перевод исходных векторов в пространство более высокой размерности
G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение
Актуальные задачи АФП
20
Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий
1 Собственные проблемы bull Построение минимального базиса решеток
понятий на достаточно больших контекстах (Ngt= )
bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов
310
Концептуальные графы и их поддержка Концепты
Отношения
[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)
(instrumentdb)
Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99
Lecture Notes in Artificial Intelligence 1640 Springer 1999
1 Conceptual Graph Interchange Form (CGIF)
2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt
ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt
ltconceptualgraphgt
( )( )( )( )( ( )
( ) ( ) ( ) ( ))
x Go y Person z City w Bus Name y John
Name z Boston Agnt x y Dest x z Inst x w
Применение исчисления предикатов (CGIF + NOTIO)
Пример
―John is going to Boston by bus
Примеры построения КГ
22
23
Примеры построения КГ
Технология
24
Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования
Как строятся концептуальные графы
25
1 Морфологический анализ
2 Разметка семантических ролей
3 Грамматические шаблоны
Управление грамматическими
шаблонами
26
Поиск в текстах или поиск на графах
)()()( 322131 ggdggdggd
)( 31 ggd
)( 21 ggd)( 32 ggd
-20
-10
0
10
20-20
-10
0
10
20
20
202
204
206
-20
-10
0
10
20
Возможная структура пространства меры d (gj gi)
Меры близости и
метрические пространства
Примеры классификация текстов запросов в
системе технической поддержки
База вопросов
и ответов
Форумы
Электронная почта
Веб форма
База документации
Специалисты
Поисковая система
Вопрос пользователя
(произвольный русангл текст)
Ссылки на документы
28
Вход Выход
Рабочий процесс
Пользователь Веб форма Специалист
Пользователь Веб форма Поиск Специалист
Не помогло
До
После
29
Помогло
30
Технология концептуального моделирования для
извлечения словосочетаний в системах
полнотекстового поиска
31
Построение КГ для текста
запроса
Выделение словосочетаний
из КГ
Получение релевантных документов
Вычисление релевантности
Выявление словосочетаний ndash знаки
препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes
=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt
object[N] Method[N + 15]
32
Выявление словосочетаний -
семантика
bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы
bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции
33
Пример запроса пользователя
Hi there
Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim
34
Выделение ключевого
словосочетания
35
Where do I insert it in Project Object Mapping to make it work
Фильтрация несвязанных слов
36
Help me ASAP Hi there
Regards Tim
Опыт применения КГ в системах
технической поддержки
bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать
bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей
bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса
bull Использование словосочетаний при поиске снижает негативный эффект полисемии
bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы
37
Примеры рубрикация текстов аннотаций
научных статей
38
Система PubMed
1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API
Система PubMed пользовательский интерфейс
Термины в системе PubMed
Концептуальное моделирование в
биоинформатике
bull Создание и поддержка
баз знаний
bull Проблемно ndash ориентированные
bull концептуальные структуры mdash онтологии
bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo
41
Распознавание сущностей
Нахождение отношений между сущностями
Направление Biomedical Text Mining
S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007
Технология обработки данных
PubMed
1 Запрос к Pub Med
2 Обработка аннотации
3 Построение множества КГ
4 Выделение понятий терминов ndash
словосочетаний (Агрегирование КГ)
5 Построение решеток понятий
6 Замыкание на онтологию Pub Med
42
Построение концептуальных графов 1
концептуальные отношения
Фраза laquoГенная сеть регулирует необратимые процессыraquo
Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo
Выводы
bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением
bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов
bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании
45
Спасибо
Вопросы
46
Причем здесь язык и тексты
17
Лингвистика
Контекстное окно
Концептуальное
моделирование
Сравнение понятий контекста
1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы
АФП и метод опорных векторов
19
Линейно разделимая обучающая выборка
Перевод исходных векторов в пространство более высокой размерности
G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение
Актуальные задачи АФП
20
Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий
1 Собственные проблемы bull Построение минимального базиса решеток
понятий на достаточно больших контекстах (Ngt= )
bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов
310
Концептуальные графы и их поддержка Концепты
Отношения
[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)
(instrumentdb)
Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99
Lecture Notes in Artificial Intelligence 1640 Springer 1999
1 Conceptual Graph Interchange Form (CGIF)
2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt
ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt
ltconceptualgraphgt
( )( )( )( )( ( )
( ) ( ) ( ) ( ))
x Go y Person z City w Bus Name y John
Name z Boston Agnt x y Dest x z Inst x w
Применение исчисления предикатов (CGIF + NOTIO)
Пример
―John is going to Boston by bus
Примеры построения КГ
22
23
Примеры построения КГ
Технология
24
Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования
Как строятся концептуальные графы
25
1 Морфологический анализ
2 Разметка семантических ролей
3 Грамматические шаблоны
Управление грамматическими
шаблонами
26
Поиск в текстах или поиск на графах
)()()( 322131 ggdggdggd
)( 31 ggd
)( 21 ggd)( 32 ggd
-20
-10
0
10
20-20
-10
0
10
20
20
202
204
206
-20
-10
0
10
20
Возможная структура пространства меры d (gj gi)
Меры близости и
метрические пространства
Примеры классификация текстов запросов в
системе технической поддержки
База вопросов
и ответов
Форумы
Электронная почта
Веб форма
База документации
Специалисты
Поисковая система
Вопрос пользователя
(произвольный русангл текст)
Ссылки на документы
28
Вход Выход
Рабочий процесс
Пользователь Веб форма Специалист
Пользователь Веб форма Поиск Специалист
Не помогло
До
После
29
Помогло
30
Технология концептуального моделирования для
извлечения словосочетаний в системах
полнотекстового поиска
31
Построение КГ для текста
запроса
Выделение словосочетаний
из КГ
Получение релевантных документов
Вычисление релевантности
Выявление словосочетаний ndash знаки
препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes
=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt
object[N] Method[N + 15]
32
Выявление словосочетаний -
семантика
bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы
bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции
33
Пример запроса пользователя
Hi there
Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim
34
Выделение ключевого
словосочетания
35
Where do I insert it in Project Object Mapping to make it work
Фильтрация несвязанных слов
36
Help me ASAP Hi there
Regards Tim
Опыт применения КГ в системах
технической поддержки
bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать
bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей
bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса
bull Использование словосочетаний при поиске снижает негативный эффект полисемии
bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы
37
Примеры рубрикация текстов аннотаций
научных статей
38
Система PubMed
1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API
Система PubMed пользовательский интерфейс
Термины в системе PubMed
Концептуальное моделирование в
биоинформатике
bull Создание и поддержка
баз знаний
bull Проблемно ndash ориентированные
bull концептуальные структуры mdash онтологии
bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo
41
Распознавание сущностей
Нахождение отношений между сущностями
Направление Biomedical Text Mining
S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007
Технология обработки данных
PubMed
1 Запрос к Pub Med
2 Обработка аннотации
3 Построение множества КГ
4 Выделение понятий терминов ndash
словосочетаний (Агрегирование КГ)
5 Построение решеток понятий
6 Замыкание на онтологию Pub Med
42
Построение концептуальных графов 1
концептуальные отношения
Фраза laquoГенная сеть регулирует необратимые процессыraquo
Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo
Выводы
bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением
bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов
bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании
45
Спасибо
Вопросы
46
Лингвистика
Контекстное окно
Концептуальное
моделирование
Сравнение понятий контекста
1 Анализируется весь текст 2 И объекты и атрибуты ndash текстовые элементы
АФП и метод опорных векторов
19
Линейно разделимая обучающая выборка
Перевод исходных векторов в пространство более высокой размерности
G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение
Актуальные задачи АФП
20
Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий
1 Собственные проблемы bull Построение минимального базиса решеток
понятий на достаточно больших контекстах (Ngt= )
bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов
310
Концептуальные графы и их поддержка Концепты
Отношения
[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)
(instrumentdb)
Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99
Lecture Notes in Artificial Intelligence 1640 Springer 1999
1 Conceptual Graph Interchange Form (CGIF)
2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt
ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt
ltconceptualgraphgt
( )( )( )( )( ( )
( ) ( ) ( ) ( ))
x Go y Person z City w Bus Name y John
Name z Boston Agnt x y Dest x z Inst x w
Применение исчисления предикатов (CGIF + NOTIO)
Пример
―John is going to Boston by bus
Примеры построения КГ
22
23
Примеры построения КГ
Технология
24
Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования
Как строятся концептуальные графы
25
1 Морфологический анализ
2 Разметка семантических ролей
3 Грамматические шаблоны
Управление грамматическими
шаблонами
26
Поиск в текстах или поиск на графах
)()()( 322131 ggdggdggd
)( 31 ggd
)( 21 ggd)( 32 ggd
-20
-10
0
10
20-20
-10
0
10
20
20
202
204
206
-20
-10
0
10
20
Возможная структура пространства меры d (gj gi)
Меры близости и
метрические пространства
Примеры классификация текстов запросов в
системе технической поддержки
База вопросов
и ответов
Форумы
Электронная почта
Веб форма
База документации
Специалисты
Поисковая система
Вопрос пользователя
(произвольный русангл текст)
Ссылки на документы
28
Вход Выход
Рабочий процесс
Пользователь Веб форма Специалист
Пользователь Веб форма Поиск Специалист
Не помогло
До
После
29
Помогло
30
Технология концептуального моделирования для
извлечения словосочетаний в системах
полнотекстового поиска
31
Построение КГ для текста
запроса
Выделение словосочетаний
из КГ
Получение релевантных документов
Вычисление релевантности
Выявление словосочетаний ndash знаки
препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes
=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt
object[N] Method[N + 15]
32
Выявление словосочетаний -
семантика
bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы
bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции
33
Пример запроса пользователя
Hi there
Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim
34
Выделение ключевого
словосочетания
35
Where do I insert it in Project Object Mapping to make it work
Фильтрация несвязанных слов
36
Help me ASAP Hi there
Regards Tim
Опыт применения КГ в системах
технической поддержки
bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать
bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей
bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса
bull Использование словосочетаний при поиске снижает негативный эффект полисемии
bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы
37
Примеры рубрикация текстов аннотаций
научных статей
38
Система PubMed
1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API
Система PubMed пользовательский интерфейс
Термины в системе PubMed
Концептуальное моделирование в
биоинформатике
bull Создание и поддержка
баз знаний
bull Проблемно ndash ориентированные
bull концептуальные структуры mdash онтологии
bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo
41
Распознавание сущностей
Нахождение отношений между сущностями
Направление Biomedical Text Mining
S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007
Технология обработки данных
PubMed
1 Запрос к Pub Med
2 Обработка аннотации
3 Построение множества КГ
4 Выделение понятий терминов ndash
словосочетаний (Агрегирование КГ)
5 Построение решеток понятий
6 Замыкание на онтологию Pub Med
42
Построение концептуальных графов 1
концептуальные отношения
Фраза laquoГенная сеть регулирует необратимые процессыraquo
Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo
Выводы
bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением
bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов
bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании
45
Спасибо
Вопросы
46
АФП и метод опорных векторов
19
Линейно разделимая обучающая выборка
Перевод исходных векторов в пространство более высокой размерности
G ndash множество объектов пространство признаков - M ndash множество атрибутов решающее правило (классификатор ) - R ndash отношение
Актуальные задачи АФП
20
Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий
1 Собственные проблемы bull Построение минимального базиса решеток
понятий на достаточно больших контекстах (Ngt= )
bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов
310
Концептуальные графы и их поддержка Концепты
Отношения
[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)
(instrumentdb)
Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99
Lecture Notes in Artificial Intelligence 1640 Springer 1999
1 Conceptual Graph Interchange Form (CGIF)
2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt
ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt
ltconceptualgraphgt
( )( )( )( )( ( )
( ) ( ) ( ) ( ))
x Go y Person z City w Bus Name y John
Name z Boston Agnt x y Dest x z Inst x w
Применение исчисления предикатов (CGIF + NOTIO)
Пример
―John is going to Boston by bus
Примеры построения КГ
22
23
Примеры построения КГ
Технология
24
Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования
Как строятся концептуальные графы
25
1 Морфологический анализ
2 Разметка семантических ролей
3 Грамматические шаблоны
Управление грамматическими
шаблонами
26
Поиск в текстах или поиск на графах
)()()( 322131 ggdggdggd
)( 31 ggd
)( 21 ggd)( 32 ggd
-20
-10
0
10
20-20
-10
0
10
20
20
202
204
206
-20
-10
0
10
20
Возможная структура пространства меры d (gj gi)
Меры близости и
метрические пространства
Примеры классификация текстов запросов в
системе технической поддержки
База вопросов
и ответов
Форумы
Электронная почта
Веб форма
База документации
Специалисты
Поисковая система
Вопрос пользователя
(произвольный русангл текст)
Ссылки на документы
28
Вход Выход
Рабочий процесс
Пользователь Веб форма Специалист
Пользователь Веб форма Поиск Специалист
Не помогло
До
После
29
Помогло
30
Технология концептуального моделирования для
извлечения словосочетаний в системах
полнотекстового поиска
31
Построение КГ для текста
запроса
Выделение словосочетаний
из КГ
Получение релевантных документов
Вычисление релевантности
Выявление словосочетаний ndash знаки
препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes
=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt
object[N] Method[N + 15]
32
Выявление словосочетаний -
семантика
bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы
bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции
33
Пример запроса пользователя
Hi there
Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim
34
Выделение ключевого
словосочетания
35
Where do I insert it in Project Object Mapping to make it work
Фильтрация несвязанных слов
36
Help me ASAP Hi there
Regards Tim
Опыт применения КГ в системах
технической поддержки
bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать
bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей
bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса
bull Использование словосочетаний при поиске снижает негативный эффект полисемии
bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы
37
Примеры рубрикация текстов аннотаций
научных статей
38
Система PubMed
1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API
Система PubMed пользовательский интерфейс
Термины в системе PubMed
Концептуальное моделирование в
биоинформатике
bull Создание и поддержка
баз знаний
bull Проблемно ndash ориентированные
bull концептуальные структуры mdash онтологии
bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo
41
Распознавание сущностей
Нахождение отношений между сущностями
Направление Biomedical Text Mining
S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007
Технология обработки данных
PubMed
1 Запрос к Pub Med
2 Обработка аннотации
3 Построение множества КГ
4 Выделение понятий терминов ndash
словосочетаний (Агрегирование КГ)
5 Построение решеток понятий
6 Замыкание на онтологию Pub Med
42
Построение концептуальных графов 1
концептуальные отношения
Фраза laquoГенная сеть регулирует необратимые процессыraquo
Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo
Выводы
bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением
bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов
bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании
45
Спасибо
Вопросы
46
Актуальные задачи АФП
20
Применение Построение решеток понятий по текстам Построение онтологий по решеткам понятий
1 Собственные проблемы bull Построение минимального базиса решеток
понятий на достаточно больших контекстах (Ngt= )
bull laquoСемантика упорядоченностиraquo множеств объектов и атрибутов
310
Концептуальные графы и их поддержка Концепты
Отношения
[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)
(instrumentdb)
Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99
Lecture Notes in Artificial Intelligence 1640 Springer 1999
1 Conceptual Graph Interchange Form (CGIF)
2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt
ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt
ltconceptualgraphgt
( )( )( )( )( ( )
( ) ( ) ( ) ( ))
x Go y Person z City w Bus Name y John
Name z Boston Agnt x y Dest x z Inst x w
Применение исчисления предикатов (CGIF + NOTIO)
Пример
―John is going to Boston by bus
Примеры построения КГ
22
23
Примеры построения КГ
Технология
24
Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования
Как строятся концептуальные графы
25
1 Морфологический анализ
2 Разметка семантических ролей
3 Грамматические шаблоны
Управление грамматическими
шаблонами
26
Поиск в текстах или поиск на графах
)()()( 322131 ggdggdggd
)( 31 ggd
)( 21 ggd)( 32 ggd
-20
-10
0
10
20-20
-10
0
10
20
20
202
204
206
-20
-10
0
10
20
Возможная структура пространства меры d (gj gi)
Меры близости и
метрические пространства
Примеры классификация текстов запросов в
системе технической поддержки
База вопросов
и ответов
Форумы
Электронная почта
Веб форма
База документации
Специалисты
Поисковая система
Вопрос пользователя
(произвольный русангл текст)
Ссылки на документы
28
Вход Выход
Рабочий процесс
Пользователь Веб форма Специалист
Пользователь Веб форма Поиск Специалист
Не помогло
До
После
29
Помогло
30
Технология концептуального моделирования для
извлечения словосочетаний в системах
полнотекстового поиска
31
Построение КГ для текста
запроса
Выделение словосочетаний
из КГ
Получение релевантных документов
Вычисление релевантности
Выявление словосочетаний ndash знаки
препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes
=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt
object[N] Method[N + 15]
32
Выявление словосочетаний -
семантика
bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы
bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции
33
Пример запроса пользователя
Hi there
Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim
34
Выделение ключевого
словосочетания
35
Where do I insert it in Project Object Mapping to make it work
Фильтрация несвязанных слов
36
Help me ASAP Hi there
Regards Tim
Опыт применения КГ в системах
технической поддержки
bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать
bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей
bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса
bull Использование словосочетаний при поиске снижает негативный эффект полисемии
bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы
37
Примеры рубрикация текстов аннотаций
научных статей
38
Система PubMed
1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API
Система PubMed пользовательский интерфейс
Термины в системе PubMed
Концептуальное моделирование в
биоинформатике
bull Создание и поддержка
баз знаний
bull Проблемно ndash ориентированные
bull концептуальные структуры mdash онтологии
bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo
41
Распознавание сущностей
Нахождение отношений между сущностями
Направление Biomedical Text Mining
S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007
Технология обработки данных
PubMed
1 Запрос к Pub Med
2 Обработка аннотации
3 Построение множества КГ
4 Выделение понятий терминов ndash
словосочетаний (Агрегирование КГ)
5 Построение решеток понятий
6 Замыкание на онтологию Pub Med
42
Построение концептуальных графов 1
концептуальные отношения
Фраза laquoГенная сеть регулирует необратимые процессыraquo
Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo
Выводы
bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением
bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов
bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании
45
Спасибо
Вопросы
46
Концептуальные графы и их поддержка Концепты
Отношения
[CityaBoston] [Busb] [PersoncJohn] [Goingd] (agentdc) (destda)
(instrumentdb)
Sowa JF Conceptual Graphs Draft Proposed American National Standard International Conference on Conceptual Structures ICCS-99
Lecture Notes in Artificial Intelligence 1640 Springer 1999
1 Conceptual Graph Interchange Form (CGIF)
2 Формат XML ltgraph id=35979486054 owner=0gt lttypegt ltlabelgtPropositionltlabelgt lttypegt ltlayoutgt ltrectangle x=00 y=00 width=15000 height=15000gt ltcolor foreground=00175 background=00175gt
ltlayoutgt hellip ltlayoutgt ltarrowgt ltgraphgt
ltconceptualgraphgt
( )( )( )( )( ( )
( ) ( ) ( ) ( ))
x Go y Person z City w Bus Name y John
Name z Boston Agnt x y Dest x z Inst x w
Применение исчисления предикатов (CGIF + NOTIO)
Пример
―John is going to Boston by bus
Примеры построения КГ
22
23
Примеры построения КГ
Технология
24
Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования
Как строятся концептуальные графы
25
1 Морфологический анализ
2 Разметка семантических ролей
3 Грамматические шаблоны
Управление грамматическими
шаблонами
26
Поиск в текстах или поиск на графах
)()()( 322131 ggdggdggd
)( 31 ggd
)( 21 ggd)( 32 ggd
-20
-10
0
10
20-20
-10
0
10
20
20
202
204
206
-20
-10
0
10
20
Возможная структура пространства меры d (gj gi)
Меры близости и
метрические пространства
Примеры классификация текстов запросов в
системе технической поддержки
База вопросов
и ответов
Форумы
Электронная почта
Веб форма
База документации
Специалисты
Поисковая система
Вопрос пользователя
(произвольный русангл текст)
Ссылки на документы
28
Вход Выход
Рабочий процесс
Пользователь Веб форма Специалист
Пользователь Веб форма Поиск Специалист
Не помогло
До
После
29
Помогло
30
Технология концептуального моделирования для
извлечения словосочетаний в системах
полнотекстового поиска
31
Построение КГ для текста
запроса
Выделение словосочетаний
из КГ
Получение релевантных документов
Вычисление релевантности
Выявление словосочетаний ndash знаки
препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes
=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt
object[N] Method[N + 15]
32
Выявление словосочетаний -
семантика
bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы
bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции
33
Пример запроса пользователя
Hi there
Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim
34
Выделение ключевого
словосочетания
35
Where do I insert it in Project Object Mapping to make it work
Фильтрация несвязанных слов
36
Help me ASAP Hi there
Regards Tim
Опыт применения КГ в системах
технической поддержки
bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать
bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей
bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса
bull Использование словосочетаний при поиске снижает негативный эффект полисемии
bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы
37
Примеры рубрикация текстов аннотаций
научных статей
38
Система PubMed
1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API
Система PubMed пользовательский интерфейс
Термины в системе PubMed
Концептуальное моделирование в
биоинформатике
bull Создание и поддержка
баз знаний
bull Проблемно ndash ориентированные
bull концептуальные структуры mdash онтологии
bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo
41
Распознавание сущностей
Нахождение отношений между сущностями
Направление Biomedical Text Mining
S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007
Технология обработки данных
PubMed
1 Запрос к Pub Med
2 Обработка аннотации
3 Построение множества КГ
4 Выделение понятий терминов ndash
словосочетаний (Агрегирование КГ)
5 Построение решеток понятий
6 Замыкание на онтологию Pub Med
42
Построение концептуальных графов 1
концептуальные отношения
Фраза laquoГенная сеть регулирует необратимые процессыraquo
Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo
Выводы
bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением
bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов
bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании
45
Спасибо
Вопросы
46
Примеры построения КГ
22
23
Примеры построения КГ
Технология
24
Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования
Как строятся концептуальные графы
25
1 Морфологический анализ
2 Разметка семантических ролей
3 Грамматические шаблоны
Управление грамматическими
шаблонами
26
Поиск в текстах или поиск на графах
)()()( 322131 ggdggdggd
)( 31 ggd
)( 21 ggd)( 32 ggd
-20
-10
0
10
20-20
-10
0
10
20
20
202
204
206
-20
-10
0
10
20
Возможная структура пространства меры d (gj gi)
Меры близости и
метрические пространства
Примеры классификация текстов запросов в
системе технической поддержки
База вопросов
и ответов
Форумы
Электронная почта
Веб форма
База документации
Специалисты
Поисковая система
Вопрос пользователя
(произвольный русангл текст)
Ссылки на документы
28
Вход Выход
Рабочий процесс
Пользователь Веб форма Специалист
Пользователь Веб форма Поиск Специалист
Не помогло
До
После
29
Помогло
30
Технология концептуального моделирования для
извлечения словосочетаний в системах
полнотекстового поиска
31
Построение КГ для текста
запроса
Выделение словосочетаний
из КГ
Получение релевантных документов
Вычисление релевантности
Выявление словосочетаний ndash знаки
препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes
=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt
object[N] Method[N + 15]
32
Выявление словосочетаний -
семантика
bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы
bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции
33
Пример запроса пользователя
Hi there
Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim
34
Выделение ключевого
словосочетания
35
Where do I insert it in Project Object Mapping to make it work
Фильтрация несвязанных слов
36
Help me ASAP Hi there
Regards Tim
Опыт применения КГ в системах
технической поддержки
bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать
bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей
bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса
bull Использование словосочетаний при поиске снижает негативный эффект полисемии
bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы
37
Примеры рубрикация текстов аннотаций
научных статей
38
Система PubMed
1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API
Система PubMed пользовательский интерфейс
Термины в системе PubMed
Концептуальное моделирование в
биоинформатике
bull Создание и поддержка
баз знаний
bull Проблемно ndash ориентированные
bull концептуальные структуры mdash онтологии
bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo
41
Распознавание сущностей
Нахождение отношений между сущностями
Направление Biomedical Text Mining
S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007
Технология обработки данных
PubMed
1 Запрос к Pub Med
2 Обработка аннотации
3 Построение множества КГ
4 Выделение понятий терминов ndash
словосочетаний (Агрегирование КГ)
5 Построение решеток понятий
6 Замыкание на онтологию Pub Med
42
Построение концептуальных графов 1
концептуальные отношения
Фраза laquoГенная сеть регулирует необратимые процессыraquo
Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo
Выводы
bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением
bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов
bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании
45
Спасибо
Вопросы
46
23
Примеры построения КГ
Технология
24
Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования
Как строятся концептуальные графы
25
1 Морфологический анализ
2 Разметка семантических ролей
3 Грамматические шаблоны
Управление грамматическими
шаблонами
26
Поиск в текстах или поиск на графах
)()()( 322131 ggdggdggd
)( 31 ggd
)( 21 ggd)( 32 ggd
-20
-10
0
10
20-20
-10
0
10
20
20
202
204
206
-20
-10
0
10
20
Возможная структура пространства меры d (gj gi)
Меры близости и
метрические пространства
Примеры классификация текстов запросов в
системе технической поддержки
База вопросов
и ответов
Форумы
Электронная почта
Веб форма
База документации
Специалисты
Поисковая система
Вопрос пользователя
(произвольный русангл текст)
Ссылки на документы
28
Вход Выход
Рабочий процесс
Пользователь Веб форма Специалист
Пользователь Веб форма Поиск Специалист
Не помогло
До
После
29
Помогло
30
Технология концептуального моделирования для
извлечения словосочетаний в системах
полнотекстового поиска
31
Построение КГ для текста
запроса
Выделение словосочетаний
из КГ
Получение релевантных документов
Вычисление релевантности
Выявление словосочетаний ndash знаки
препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes
=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt
object[N] Method[N + 15]
32
Выявление словосочетаний -
семантика
bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы
bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции
33
Пример запроса пользователя
Hi there
Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim
34
Выделение ключевого
словосочетания
35
Where do I insert it in Project Object Mapping to make it work
Фильтрация несвязанных слов
36
Help me ASAP Hi there
Regards Tim
Опыт применения КГ в системах
технической поддержки
bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать
bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей
bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса
bull Использование словосочетаний при поиске снижает негативный эффект полисемии
bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы
37
Примеры рубрикация текстов аннотаций
научных статей
38
Система PubMed
1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API
Система PubMed пользовательский интерфейс
Термины в системе PubMed
Концептуальное моделирование в
биоинформатике
bull Создание и поддержка
баз знаний
bull Проблемно ndash ориентированные
bull концептуальные структуры mdash онтологии
bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo
41
Распознавание сущностей
Нахождение отношений между сущностями
Направление Biomedical Text Mining
S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007
Технология обработки данных
PubMed
1 Запрос к Pub Med
2 Обработка аннотации
3 Построение множества КГ
4 Выделение понятий терминов ndash
словосочетаний (Агрегирование КГ)
5 Построение решеток понятий
6 Замыкание на онтологию Pub Med
42
Построение концептуальных графов 1
концептуальные отношения
Фраза laquoГенная сеть регулирует необратимые процессыraquo
Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo
Выводы
bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением
bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов
bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании
45
Спасибо
Вопросы
46
Технология
24
Текст концептуальные графы формальный контекст решетка понятий Все в рамках концептуального моделирования
Как строятся концептуальные графы
25
1 Морфологический анализ
2 Разметка семантических ролей
3 Грамматические шаблоны
Управление грамматическими
шаблонами
26
Поиск в текстах или поиск на графах
)()()( 322131 ggdggdggd
)( 31 ggd
)( 21 ggd)( 32 ggd
-20
-10
0
10
20-20
-10
0
10
20
20
202
204
206
-20
-10
0
10
20
Возможная структура пространства меры d (gj gi)
Меры близости и
метрические пространства
Примеры классификация текстов запросов в
системе технической поддержки
База вопросов
и ответов
Форумы
Электронная почта
Веб форма
База документации
Специалисты
Поисковая система
Вопрос пользователя
(произвольный русангл текст)
Ссылки на документы
28
Вход Выход
Рабочий процесс
Пользователь Веб форма Специалист
Пользователь Веб форма Поиск Специалист
Не помогло
До
После
29
Помогло
30
Технология концептуального моделирования для
извлечения словосочетаний в системах
полнотекстового поиска
31
Построение КГ для текста
запроса
Выделение словосочетаний
из КГ
Получение релевантных документов
Вычисление релевантности
Выявление словосочетаний ndash знаки
препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes
=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt
object[N] Method[N + 15]
32
Выявление словосочетаний -
семантика
bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы
bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции
33
Пример запроса пользователя
Hi there
Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim
34
Выделение ключевого
словосочетания
35
Where do I insert it in Project Object Mapping to make it work
Фильтрация несвязанных слов
36
Help me ASAP Hi there
Regards Tim
Опыт применения КГ в системах
технической поддержки
bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать
bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей
bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса
bull Использование словосочетаний при поиске снижает негативный эффект полисемии
bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы
37
Примеры рубрикация текстов аннотаций
научных статей
38
Система PubMed
1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API
Система PubMed пользовательский интерфейс
Термины в системе PubMed
Концептуальное моделирование в
биоинформатике
bull Создание и поддержка
баз знаний
bull Проблемно ndash ориентированные
bull концептуальные структуры mdash онтологии
bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo
41
Распознавание сущностей
Нахождение отношений между сущностями
Направление Biomedical Text Mining
S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007
Технология обработки данных
PubMed
1 Запрос к Pub Med
2 Обработка аннотации
3 Построение множества КГ
4 Выделение понятий терминов ndash
словосочетаний (Агрегирование КГ)
5 Построение решеток понятий
6 Замыкание на онтологию Pub Med
42
Построение концептуальных графов 1
концептуальные отношения
Фраза laquoГенная сеть регулирует необратимые процессыraquo
Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo
Выводы
bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением
bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов
bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании
45
Спасибо
Вопросы
46
Как строятся концептуальные графы
25
1 Морфологический анализ
2 Разметка семантических ролей
3 Грамматические шаблоны
Управление грамматическими
шаблонами
26
Поиск в текстах или поиск на графах
)()()( 322131 ggdggdggd
)( 31 ggd
)( 21 ggd)( 32 ggd
-20
-10
0
10
20-20
-10
0
10
20
20
202
204
206
-20
-10
0
10
20
Возможная структура пространства меры d (gj gi)
Меры близости и
метрические пространства
Примеры классификация текстов запросов в
системе технической поддержки
База вопросов
и ответов
Форумы
Электронная почта
Веб форма
База документации
Специалисты
Поисковая система
Вопрос пользователя
(произвольный русангл текст)
Ссылки на документы
28
Вход Выход
Рабочий процесс
Пользователь Веб форма Специалист
Пользователь Веб форма Поиск Специалист
Не помогло
До
После
29
Помогло
30
Технология концептуального моделирования для
извлечения словосочетаний в системах
полнотекстового поиска
31
Построение КГ для текста
запроса
Выделение словосочетаний
из КГ
Получение релевантных документов
Вычисление релевантности
Выявление словосочетаний ndash знаки
препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes
=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt
object[N] Method[N + 15]
32
Выявление словосочетаний -
семантика
bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы
bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции
33
Пример запроса пользователя
Hi there
Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim
34
Выделение ключевого
словосочетания
35
Where do I insert it in Project Object Mapping to make it work
Фильтрация несвязанных слов
36
Help me ASAP Hi there
Regards Tim
Опыт применения КГ в системах
технической поддержки
bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать
bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей
bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса
bull Использование словосочетаний при поиске снижает негативный эффект полисемии
bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы
37
Примеры рубрикация текстов аннотаций
научных статей
38
Система PubMed
1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API
Система PubMed пользовательский интерфейс
Термины в системе PubMed
Концептуальное моделирование в
биоинформатике
bull Создание и поддержка
баз знаний
bull Проблемно ndash ориентированные
bull концептуальные структуры mdash онтологии
bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo
41
Распознавание сущностей
Нахождение отношений между сущностями
Направление Biomedical Text Mining
S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007
Технология обработки данных
PubMed
1 Запрос к Pub Med
2 Обработка аннотации
3 Построение множества КГ
4 Выделение понятий терминов ndash
словосочетаний (Агрегирование КГ)
5 Построение решеток понятий
6 Замыкание на онтологию Pub Med
42
Построение концептуальных графов 1
концептуальные отношения
Фраза laquoГенная сеть регулирует необратимые процессыraquo
Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo
Выводы
bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением
bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов
bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании
45
Спасибо
Вопросы
46
Управление грамматическими
шаблонами
26
Поиск в текстах или поиск на графах
)()()( 322131 ggdggdggd
)( 31 ggd
)( 21 ggd)( 32 ggd
-20
-10
0
10
20-20
-10
0
10
20
20
202
204
206
-20
-10
0
10
20
Возможная структура пространства меры d (gj gi)
Меры близости и
метрические пространства
Примеры классификация текстов запросов в
системе технической поддержки
База вопросов
и ответов
Форумы
Электронная почта
Веб форма
База документации
Специалисты
Поисковая система
Вопрос пользователя
(произвольный русангл текст)
Ссылки на документы
28
Вход Выход
Рабочий процесс
Пользователь Веб форма Специалист
Пользователь Веб форма Поиск Специалист
Не помогло
До
После
29
Помогло
30
Технология концептуального моделирования для
извлечения словосочетаний в системах
полнотекстового поиска
31
Построение КГ для текста
запроса
Выделение словосочетаний
из КГ
Получение релевантных документов
Вычисление релевантности
Выявление словосочетаний ndash знаки
препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes
=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt
object[N] Method[N + 15]
32
Выявление словосочетаний -
семантика
bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы
bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции
33
Пример запроса пользователя
Hi there
Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim
34
Выделение ключевого
словосочетания
35
Where do I insert it in Project Object Mapping to make it work
Фильтрация несвязанных слов
36
Help me ASAP Hi there
Regards Tim
Опыт применения КГ в системах
технической поддержки
bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать
bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей
bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса
bull Использование словосочетаний при поиске снижает негативный эффект полисемии
bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы
37
Примеры рубрикация текстов аннотаций
научных статей
38
Система PubMed
1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API
Система PubMed пользовательский интерфейс
Термины в системе PubMed
Концептуальное моделирование в
биоинформатике
bull Создание и поддержка
баз знаний
bull Проблемно ndash ориентированные
bull концептуальные структуры mdash онтологии
bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo
41
Распознавание сущностей
Нахождение отношений между сущностями
Направление Biomedical Text Mining
S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007
Технология обработки данных
PubMed
1 Запрос к Pub Med
2 Обработка аннотации
3 Построение множества КГ
4 Выделение понятий терминов ndash
словосочетаний (Агрегирование КГ)
5 Построение решеток понятий
6 Замыкание на онтологию Pub Med
42
Построение концептуальных графов 1
концептуальные отношения
Фраза laquoГенная сеть регулирует необратимые процессыraquo
Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo
Выводы
bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением
bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов
bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании
45
Спасибо
Вопросы
46
Поиск в текстах или поиск на графах
)()()( 322131 ggdggdggd
)( 31 ggd
)( 21 ggd)( 32 ggd
-20
-10
0
10
20-20
-10
0
10
20
20
202
204
206
-20
-10
0
10
20
Возможная структура пространства меры d (gj gi)
Меры близости и
метрические пространства
Примеры классификация текстов запросов в
системе технической поддержки
База вопросов
и ответов
Форумы
Электронная почта
Веб форма
База документации
Специалисты
Поисковая система
Вопрос пользователя
(произвольный русангл текст)
Ссылки на документы
28
Вход Выход
Рабочий процесс
Пользователь Веб форма Специалист
Пользователь Веб форма Поиск Специалист
Не помогло
До
После
29
Помогло
30
Технология концептуального моделирования для
извлечения словосочетаний в системах
полнотекстового поиска
31
Построение КГ для текста
запроса
Выделение словосочетаний
из КГ
Получение релевантных документов
Вычисление релевантности
Выявление словосочетаний ndash знаки
препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes
=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt
object[N] Method[N + 15]
32
Выявление словосочетаний -
семантика
bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы
bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции
33
Пример запроса пользователя
Hi there
Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim
34
Выделение ключевого
словосочетания
35
Where do I insert it in Project Object Mapping to make it work
Фильтрация несвязанных слов
36
Help me ASAP Hi there
Regards Tim
Опыт применения КГ в системах
технической поддержки
bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать
bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей
bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса
bull Использование словосочетаний при поиске снижает негативный эффект полисемии
bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы
37
Примеры рубрикация текстов аннотаций
научных статей
38
Система PubMed
1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API
Система PubMed пользовательский интерфейс
Термины в системе PubMed
Концептуальное моделирование в
биоинформатике
bull Создание и поддержка
баз знаний
bull Проблемно ndash ориентированные
bull концептуальные структуры mdash онтологии
bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo
41
Распознавание сущностей
Нахождение отношений между сущностями
Направление Biomedical Text Mining
S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007
Технология обработки данных
PubMed
1 Запрос к Pub Med
2 Обработка аннотации
3 Построение множества КГ
4 Выделение понятий терминов ndash
словосочетаний (Агрегирование КГ)
5 Построение решеток понятий
6 Замыкание на онтологию Pub Med
42
Построение концептуальных графов 1
концептуальные отношения
Фраза laquoГенная сеть регулирует необратимые процессыraquo
Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo
Выводы
bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением
bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов
bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании
45
Спасибо
Вопросы
46
Примеры классификация текстов запросов в
системе технической поддержки
База вопросов
и ответов
Форумы
Электронная почта
Веб форма
База документации
Специалисты
Поисковая система
Вопрос пользователя
(произвольный русангл текст)
Ссылки на документы
28
Вход Выход
Рабочий процесс
Пользователь Веб форма Специалист
Пользователь Веб форма Поиск Специалист
Не помогло
До
После
29
Помогло
30
Технология концептуального моделирования для
извлечения словосочетаний в системах
полнотекстового поиска
31
Построение КГ для текста
запроса
Выделение словосочетаний
из КГ
Получение релевантных документов
Вычисление релевантности
Выявление словосочетаний ndash знаки
препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes
=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt
object[N] Method[N + 15]
32
Выявление словосочетаний -
семантика
bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы
bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции
33
Пример запроса пользователя
Hi there
Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim
34
Выделение ключевого
словосочетания
35
Where do I insert it in Project Object Mapping to make it work
Фильтрация несвязанных слов
36
Help me ASAP Hi there
Regards Tim
Опыт применения КГ в системах
технической поддержки
bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать
bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей
bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса
bull Использование словосочетаний при поиске снижает негативный эффект полисемии
bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы
37
Примеры рубрикация текстов аннотаций
научных статей
38
Система PubMed
1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API
Система PubMed пользовательский интерфейс
Термины в системе PubMed
Концептуальное моделирование в
биоинформатике
bull Создание и поддержка
баз знаний
bull Проблемно ndash ориентированные
bull концептуальные структуры mdash онтологии
bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo
41
Распознавание сущностей
Нахождение отношений между сущностями
Направление Biomedical Text Mining
S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007
Технология обработки данных
PubMed
1 Запрос к Pub Med
2 Обработка аннотации
3 Построение множества КГ
4 Выделение понятий терминов ndash
словосочетаний (Агрегирование КГ)
5 Построение решеток понятий
6 Замыкание на онтологию Pub Med
42
Построение концептуальных графов 1
концептуальные отношения
Фраза laquoГенная сеть регулирует необратимые процессыraquo
Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo
Выводы
bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением
bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов
bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании
45
Спасибо
Вопросы
46
Рабочий процесс
Пользователь Веб форма Специалист
Пользователь Веб форма Поиск Специалист
Не помогло
До
После
29
Помогло
30
Технология концептуального моделирования для
извлечения словосочетаний в системах
полнотекстового поиска
31
Построение КГ для текста
запроса
Выделение словосочетаний
из КГ
Получение релевантных документов
Вычисление релевантности
Выявление словосочетаний ndash знаки
препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes
=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt
object[N] Method[N + 15]
32
Выявление словосочетаний -
семантика
bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы
bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции
33
Пример запроса пользователя
Hi there
Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim
34
Выделение ключевого
словосочетания
35
Where do I insert it in Project Object Mapping to make it work
Фильтрация несвязанных слов
36
Help me ASAP Hi there
Regards Tim
Опыт применения КГ в системах
технической поддержки
bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать
bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей
bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса
bull Использование словосочетаний при поиске снижает негативный эффект полисемии
bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы
37
Примеры рубрикация текстов аннотаций
научных статей
38
Система PubMed
1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API
Система PubMed пользовательский интерфейс
Термины в системе PubMed
Концептуальное моделирование в
биоинформатике
bull Создание и поддержка
баз знаний
bull Проблемно ndash ориентированные
bull концептуальные структуры mdash онтологии
bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo
41
Распознавание сущностей
Нахождение отношений между сущностями
Направление Biomedical Text Mining
S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007
Технология обработки данных
PubMed
1 Запрос к Pub Med
2 Обработка аннотации
3 Построение множества КГ
4 Выделение понятий терминов ndash
словосочетаний (Агрегирование КГ)
5 Построение решеток понятий
6 Замыкание на онтологию Pub Med
42
Построение концептуальных графов 1
концептуальные отношения
Фраза laquoГенная сеть регулирует необратимые процессыraquo
Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo
Выводы
bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением
bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов
bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании
45
Спасибо
Вопросы
46
30
Технология концептуального моделирования для
извлечения словосочетаний в системах
полнотекстового поиска
31
Построение КГ для текста
запроса
Выделение словосочетаний
из КГ
Получение релевантных документов
Вычисление релевантности
Выявление словосочетаний ndash знаки
препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes
=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt
object[N] Method[N + 15]
32
Выявление словосочетаний -
семантика
bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы
bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции
33
Пример запроса пользователя
Hi there
Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim
34
Выделение ключевого
словосочетания
35
Where do I insert it in Project Object Mapping to make it work
Фильтрация несвязанных слов
36
Help me ASAP Hi there
Regards Tim
Опыт применения КГ в системах
технической поддержки
bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать
bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей
bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса
bull Использование словосочетаний при поиске снижает негативный эффект полисемии
bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы
37
Примеры рубрикация текстов аннотаций
научных статей
38
Система PubMed
1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API
Система PubMed пользовательский интерфейс
Термины в системе PubMed
Концептуальное моделирование в
биоинформатике
bull Создание и поддержка
баз знаний
bull Проблемно ndash ориентированные
bull концептуальные структуры mdash онтологии
bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo
41
Распознавание сущностей
Нахождение отношений между сущностями
Направление Biomedical Text Mining
S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007
Технология обработки данных
PubMed
1 Запрос к Pub Med
2 Обработка аннотации
3 Построение множества КГ
4 Выделение понятий терминов ndash
словосочетаний (Агрегирование КГ)
5 Построение решеток понятий
6 Замыкание на онтологию Pub Med
42
Построение концептуальных графов 1
концептуальные отношения
Фраза laquoГенная сеть регулирует необратимые процессыraquo
Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo
Выводы
bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением
bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов
bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании
45
Спасибо
Вопросы
46
Технология концептуального моделирования для
извлечения словосочетаний в системах
полнотекстового поиска
31
Построение КГ для текста
запроса
Выделение словосочетаний
из КГ
Получение релевантных документов
Вычисление релевантности
Выявление словосочетаний ndash знаки
препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes
=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt
object[N] Method[N + 15]
32
Выявление словосочетаний -
семантика
bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы
bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции
33
Пример запроса пользователя
Hi there
Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim
34
Выделение ключевого
словосочетания
35
Where do I insert it in Project Object Mapping to make it work
Фильтрация несвязанных слов
36
Help me ASAP Hi there
Regards Tim
Опыт применения КГ в системах
технической поддержки
bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать
bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей
bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса
bull Использование словосочетаний при поиске снижает негативный эффект полисемии
bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы
37
Примеры рубрикация текстов аннотаций
научных статей
38
Система PubMed
1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API
Система PubMed пользовательский интерфейс
Термины в системе PubMed
Концептуальное моделирование в
биоинформатике
bull Создание и поддержка
баз знаний
bull Проблемно ndash ориентированные
bull концептуальные структуры mdash онтологии
bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo
41
Распознавание сущностей
Нахождение отношений между сущностями
Направление Biomedical Text Mining
S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007
Технология обработки данных
PubMed
1 Запрос к Pub Med
2 Обработка аннотации
3 Построение множества КГ
4 Выделение понятий терминов ndash
словосочетаний (Агрегирование КГ)
5 Построение решеток понятий
6 Замыкание на онтологию Pub Med
42
Построение концептуальных графов 1
концептуальные отношения
Фраза laquoГенная сеть регулирует необратимые процессыraquo
Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo
Выводы
bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением
bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов
bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании
45
Спасибо
Вопросы
46
Выявление словосочетаний ndash знаки
препинания (при индексировании) Примеры bull issue-tracking tools =gt [N N + 025] bull the issue butstop word tracking changes
=gt [N N + 3] bull ObjectMethod() =gt Object[N] Method[N + 025] bull hellipsome object Method A showshellip =gt
object[N] Method[N + 15]
32
Выявление словосочетаний -
семантика
bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы
bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции
33
Пример запроса пользователя
Hi there
Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim
34
Выделение ключевого
словосочетания
35
Where do I insert it in Project Object Mapping to make it work
Фильтрация несвязанных слов
36
Help me ASAP Hi there
Regards Tim
Опыт применения КГ в системах
технической поддержки
bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать
bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей
bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса
bull Использование словосочетаний при поиске снижает негативный эффект полисемии
bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы
37
Примеры рубрикация текстов аннотаций
научных статей
38
Система PubMed
1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API
Система PubMed пользовательский интерфейс
Термины в системе PubMed
Концептуальное моделирование в
биоинформатике
bull Создание и поддержка
баз знаний
bull Проблемно ndash ориентированные
bull концептуальные структуры mdash онтологии
bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo
41
Распознавание сущностей
Нахождение отношений между сущностями
Направление Biomedical Text Mining
S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007
Технология обработки данных
PubMed
1 Запрос к Pub Med
2 Обработка аннотации
3 Построение множества КГ
4 Выделение понятий терминов ndash
словосочетаний (Агрегирование КГ)
5 Построение решеток понятий
6 Замыкание на онтологию Pub Med
42
Построение концептуальных графов 1
концептуальные отношения
Фраза laquoГенная сеть регулирует необратимые процессыraquo
Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo
Выводы
bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением
bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов
bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании
45
Спасибо
Вопросы
46
Выявление словосочетаний -
семантика
bull Несмотря на грамматические ошибки пользователи обычно применяют корректные сочетания слов для описания технической сути проблемы
bull Построение концептуального графа позволяет отфильтровать несвязанные слова и грамматически неверные конструкции
33
Пример запроса пользователя
Hi there
Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim
34
Выделение ключевого
словосочетания
35
Where do I insert it in Project Object Mapping to make it work
Фильтрация несвязанных слов
36
Help me ASAP Hi there
Regards Tim
Опыт применения КГ в системах
технической поддержки
bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать
bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей
bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса
bull Использование словосочетаний при поиске снижает негативный эффект полисемии
bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы
37
Примеры рубрикация текстов аннотаций
научных статей
38
Система PubMed
1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API
Система PubMed пользовательский интерфейс
Термины в системе PubMed
Концептуальное моделирование в
биоинформатике
bull Создание и поддержка
баз знаний
bull Проблемно ndash ориентированные
bull концептуальные структуры mdash онтологии
bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo
41
Распознавание сущностей
Нахождение отношений между сущностями
Направление Biomedical Text Mining
S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007
Технология обработки данных
PubMed
1 Запрос к Pub Med
2 Обработка аннотации
3 Построение множества КГ
4 Выделение понятий терминов ndash
словосочетаний (Агрегирование КГ)
5 Построение решеток понятий
6 Замыкание на онтологию Pub Med
42
Построение концептуальных графов 1
концептуальные отношения
Фраза laquoГенная сеть регулирует необратимые процессыraquo
Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo
Выводы
bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением
bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов
bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании
45
Спасибо
Вопросы
46
Пример запроса пользователя
Hi there
Im getting a DevExpress Basic Grid not supported error See attachment Where do I insert it in Project Object Mapping to make it work I thought it may go in Grid Control but it was not recognized Help me ASAP Regards Tim
34
Выделение ключевого
словосочетания
35
Where do I insert it in Project Object Mapping to make it work
Фильтрация несвязанных слов
36
Help me ASAP Hi there
Regards Tim
Опыт применения КГ в системах
технической поддержки
bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать
bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей
bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса
bull Использование словосочетаний при поиске снижает негативный эффект полисемии
bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы
37
Примеры рубрикация текстов аннотаций
научных статей
38
Система PubMed
1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API
Система PubMed пользовательский интерфейс
Термины в системе PubMed
Концептуальное моделирование в
биоинформатике
bull Создание и поддержка
баз знаний
bull Проблемно ndash ориентированные
bull концептуальные структуры mdash онтологии
bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo
41
Распознавание сущностей
Нахождение отношений между сущностями
Направление Biomedical Text Mining
S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007
Технология обработки данных
PubMed
1 Запрос к Pub Med
2 Обработка аннотации
3 Построение множества КГ
4 Выделение понятий терминов ndash
словосочетаний (Агрегирование КГ)
5 Построение решеток понятий
6 Замыкание на онтологию Pub Med
42
Построение концептуальных графов 1
концептуальные отношения
Фраза laquoГенная сеть регулирует необратимые процессыraquo
Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo
Выводы
bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением
bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов
bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании
45
Спасибо
Вопросы
46
Выделение ключевого
словосочетания
35
Where do I insert it in Project Object Mapping to make it work
Фильтрация несвязанных слов
36
Help me ASAP Hi there
Regards Tim
Опыт применения КГ в системах
технической поддержки
bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать
bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей
bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса
bull Использование словосочетаний при поиске снижает негативный эффект полисемии
bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы
37
Примеры рубрикация текстов аннотаций
научных статей
38
Система PubMed
1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API
Система PubMed пользовательский интерфейс
Термины в системе PubMed
Концептуальное моделирование в
биоинформатике
bull Создание и поддержка
баз знаний
bull Проблемно ndash ориентированные
bull концептуальные структуры mdash онтологии
bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo
41
Распознавание сущностей
Нахождение отношений между сущностями
Направление Biomedical Text Mining
S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007
Технология обработки данных
PubMed
1 Запрос к Pub Med
2 Обработка аннотации
3 Построение множества КГ
4 Выделение понятий терминов ndash
словосочетаний (Агрегирование КГ)
5 Построение решеток понятий
6 Замыкание на онтологию Pub Med
42
Построение концептуальных графов 1
концептуальные отношения
Фраза laquoГенная сеть регулирует необратимые процессыraquo
Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo
Выводы
bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением
bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов
bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании
45
Спасибо
Вопросы
46
Фильтрация несвязанных слов
36
Help me ASAP Hi there
Regards Tim
Опыт применения КГ в системах
технической поддержки
bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать
bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей
bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса
bull Использование словосочетаний при поиске снижает негативный эффект полисемии
bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы
37
Примеры рубрикация текстов аннотаций
научных статей
38
Система PubMed
1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API
Система PubMed пользовательский интерфейс
Термины в системе PubMed
Концептуальное моделирование в
биоинформатике
bull Создание и поддержка
баз знаний
bull Проблемно ndash ориентированные
bull концептуальные структуры mdash онтологии
bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo
41
Распознавание сущностей
Нахождение отношений между сущностями
Направление Biomedical Text Mining
S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007
Технология обработки данных
PubMed
1 Запрос к Pub Med
2 Обработка аннотации
3 Построение множества КГ
4 Выделение понятий терминов ndash
словосочетаний (Агрегирование КГ)
5 Построение решеток понятий
6 Замыкание на онтологию Pub Med
42
Построение концептуальных графов 1
концептуальные отношения
Фраза laquoГенная сеть регулирует необратимые процессыraquo
Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo
Выводы
bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением
bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов
bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании
45
Спасибо
Вопросы
46
Опыт применения КГ в системах
технической поддержки
bull Тексты разговорного стиля ndash самые сложные для автоматического разбора поэтому необходимо многое в них фильтровать
bull Несмотря на возможные ошибки пользователи применяют корректные фразы для описания технических деталей
bull Текст запроса моделируется множеством ключевых словосочетаний ndash отфильтровываются приветствия подписи слова вероятно не влияющие на смысл запроса
bull Использование словосочетаний при поиске снижает негативный эффект полисемии
bull Применение КГ для выделения словосочетаний дает более точные результаты чем существующие статистические подходы
37
Примеры рубрикация текстов аннотаций
научных статей
38
Система PubMed
1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API
Система PubMed пользовательский интерфейс
Термины в системе PubMed
Концептуальное моделирование в
биоинформатике
bull Создание и поддержка
баз знаний
bull Проблемно ndash ориентированные
bull концептуальные структуры mdash онтологии
bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo
41
Распознавание сущностей
Нахождение отношений между сущностями
Направление Biomedical Text Mining
S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007
Технология обработки данных
PubMed
1 Запрос к Pub Med
2 Обработка аннотации
3 Построение множества КГ
4 Выделение понятий терминов ndash
словосочетаний (Агрегирование КГ)
5 Построение решеток понятий
6 Замыкание на онтологию Pub Med
42
Построение концептуальных графов 1
концептуальные отношения
Фраза laquoГенная сеть регулирует необратимые процессыraquo
Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo
Выводы
bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением
bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов
bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании
45
Спасибо
Вопросы
46
Примеры рубрикация текстов аннотаций
научных статей
38
Система PubMed
1 Самая крупна информационная система в области биологии и медицины 2 Имеет развитый пользовательский интерфейс 3 Имеет собственный информационный ресурс построенный как онтология 4 Поддерживает тезаурусы 5 Открыта для связи с другими системами через API
Система PubMed пользовательский интерфейс
Термины в системе PubMed
Концептуальное моделирование в
биоинформатике
bull Создание и поддержка
баз знаний
bull Проблемно ndash ориентированные
bull концептуальные структуры mdash онтологии
bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo
41
Распознавание сущностей
Нахождение отношений между сущностями
Направление Biomedical Text Mining
S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007
Технология обработки данных
PubMed
1 Запрос к Pub Med
2 Обработка аннотации
3 Построение множества КГ
4 Выделение понятий терминов ndash
словосочетаний (Агрегирование КГ)
5 Построение решеток понятий
6 Замыкание на онтологию Pub Med
42
Построение концептуальных графов 1
концептуальные отношения
Фраза laquoГенная сеть регулирует необратимые процессыraquo
Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo
Выводы
bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением
bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов
bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании
45
Спасибо
Вопросы
46
Система PubMed пользовательский интерфейс
Термины в системе PubMed
Концептуальное моделирование в
биоинформатике
bull Создание и поддержка
баз знаний
bull Проблемно ndash ориентированные
bull концептуальные структуры mdash онтологии
bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo
41
Распознавание сущностей
Нахождение отношений между сущностями
Направление Biomedical Text Mining
S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007
Технология обработки данных
PubMed
1 Запрос к Pub Med
2 Обработка аннотации
3 Построение множества КГ
4 Выделение понятий терминов ndash
словосочетаний (Агрегирование КГ)
5 Построение решеток понятий
6 Замыкание на онтологию Pub Med
42
Построение концептуальных графов 1
концептуальные отношения
Фраза laquoГенная сеть регулирует необратимые процессыraquo
Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo
Выводы
bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением
bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов
bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании
45
Спасибо
Вопросы
46
Термины в системе PubMed
Концептуальное моделирование в
биоинформатике
bull Создание и поддержка
баз знаний
bull Проблемно ndash ориентированные
bull концептуальные структуры mdash онтологии
bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo
41
Распознавание сущностей
Нахождение отношений между сущностями
Направление Biomedical Text Mining
S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007
Технология обработки данных
PubMed
1 Запрос к Pub Med
2 Обработка аннотации
3 Построение множества КГ
4 Выделение понятий терминов ndash
словосочетаний (Агрегирование КГ)
5 Построение решеток понятий
6 Замыкание на онтологию Pub Med
42
Построение концептуальных графов 1
концептуальные отношения
Фраза laquoГенная сеть регулирует необратимые процессыraquo
Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo
Выводы
bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением
bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов
bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании
45
Спасибо
Вопросы
46
Концептуальное моделирование в
биоинформатике
bull Создание и поддержка
баз знаний
bull Проблемно ndash ориентированные
bull концептуальные структуры mdash онтологии
bull извлечение знаний непосредственно из текстов известное также как laquoпонимание текстовraquo
41
Распознавание сущностей
Нахождение отношений между сущностями
Направление Biomedical Text Mining
S Shatkay H Craven M Biomedical Text Mining Cambridge Massachussets MIT Press 2007
Технология обработки данных
PubMed
1 Запрос к Pub Med
2 Обработка аннотации
3 Построение множества КГ
4 Выделение понятий терминов ndash
словосочетаний (Агрегирование КГ)
5 Построение решеток понятий
6 Замыкание на онтологию Pub Med
42
Построение концептуальных графов 1
концептуальные отношения
Фраза laquoГенная сеть регулирует необратимые процессыraquo
Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo
Выводы
bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением
bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов
bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании
45
Спасибо
Вопросы
46
Технология обработки данных
PubMed
1 Запрос к Pub Med
2 Обработка аннотации
3 Построение множества КГ
4 Выделение понятий терминов ndash
словосочетаний (Агрегирование КГ)
5 Построение решеток понятий
6 Замыкание на онтологию Pub Med
42
Построение концептуальных графов 1
концептуальные отношения
Фраза laquoГенная сеть регулирует необратимые процессыraquo
Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo
Выводы
bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением
bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов
bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании
45
Спасибо
Вопросы
46
Построение концептуальных графов 1
концептуальные отношения
Фраза laquoГенная сеть регулирует необратимые процессыraquo
Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo
Выводы
bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением
bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов
bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании
45
Спасибо
Вопросы
46
Построение концептуальных графов 2 Фраза laquoГенная сеть регулирует необратимые процессыraquo
Выводы
bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением
bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов
bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании
45
Спасибо
Вопросы
46
Выводы
bull Математический аппарат анализа формальных понятий обеспечивает извлечение laquoзнанийraquo из множеств частично упорядоченных данных связанных некоторым отношением
bull Концептуальное моделирования семантики текстовых данных инвариантно к тематике текстов
bull laquoЛингвистическаяraquo составляющая концептуальных моделей laquoдействуетraquo однократно при их создании
45
Спасибо
Вопросы
46
Спасибо
Вопросы
46