automatic classification and ontology

22
Автопополнение онтологии с Автопополнение онтологии с помощью авторубрикации текстов помощью авторубрикации текстов Алексей Добров, Александр Бондаревич Разработчики лингвистических продуктов OOmnik, Globbie, ArRus, NeoLEX, UCO г. Санкт-Петербург Октябрь 2008 г.

Upload: nlpseminar

Post on 08-Jul-2015

1.074 views

Category:

Education


2 download

TRANSCRIPT

Page 1: Automatic classification and ontology

Автопополнение онтологии с Автопополнение онтологии с помощью авторубрикации текстовпомощью авторубрикации текстов

Алексей Добров,Александр Бондаревич

Разработчики лингвистических продуктовOOmnik, Globbie, ArRus, NeoLEX, UCO

г. Санкт-ПетербургОктябрь 2008 г.

Page 2: Automatic classification and ontology

UCOUCO

Поисковая система Globbie – концептуальное рейтингование и рубрикация

Система ручного и автоматического пополнения словарей

Открытый лингвопроцессор

Универсальная концептуальная онтология

Открытые лингвистические Открытые лингвистические продуктыпродукты и технологиии технологии

Page 3: Automatic classification and ontology

Теория концептуального кодирования – Теория концептуального кодирования – теоретическая основа разрабатываемых теоретическая основа разрабатываемых

лингвистических продуктовлингвистических продуктов

Теория Концептуального Кодирования представляет собой составную часть Теории Универсальной Концептуальной Онтологии, на которой базируются все реализуемые нами компьютерные технологии.

Универсальность теоретического аппарата – возможность моделирования любой системы кодирования и языковВсе языковые единицы обладают одним и тем же набором концептуальных свойств и подчиняются одним и тем же законамОперации концептуального связывания относятся не к кодам, а к концептам, выраженным этими кодамиотношение между кодом и линейным порядком его компонентов также является кодом и по-разному линеаризованные коды кодирует разные концепты.

Page 4: Automatic classification and ontology

По данным британской исследовательской компании Euromonitor, продажи вина и

водки в России за прошедший год сократились

Интерпретация произвольного текста Интерпретация произвольного текста различными лингвистическими системамиразличными лингвистическими системами

Page 5: Automatic classification and ontology

Выдача результатов поиска по запросу Выдача результатов поиска по запросу поисковой системой Яндекспоисковой системой Яндекс

Page 6: Automatic classification and ontology

Перевод на английский Перевод на английский языкязык текста системой текста системой машинного перевода машинного перевода Promt Translator, Promt Translator,

www.translate.ruwww.translate.ru

Page 7: Automatic classification and ontology

концептуальный граф

ПРИМЕР РАЗБОРА ТЕКСТА С ИСПОЛЬЗОВАНИЕМПРИМЕР РАЗБОРА ТЕКСТА С ИСПОЛЬЗОВАНИЕМЛИНГВОПРОЦЕССОРА ЛИНГВОПРОЦЕССОРА OOmnik OOmnik И ОНТОЛОГИИ И ОНТОЛОГИИ UCOUCO

По данным британской исследовательской компании Euromonitor, продажи вина и водки в России за

прошедший год сократились

РАЗБИРАЕМЫЙТЕКСТ

Page 8: Automatic classification and ontology

вклю

чает включает

по отношению к

предшествует во времени

подвергается

включаетпроисходит в

прои

сход

ит в

о вр

емя

осущ

еств

ляет

по

отношен

ию к

подверга

ется

происходит

в

называется

По данным британской исследовательской компании Euromonitor, продажи вина и водки в России за

прошедший год сократились

РАЗБИРАЕМЫЙТЕКСТ

ПОСТРОЕНИЕ КОНЦЕПТУАЛЬНОГО ГРАФАПОСТРОЕНИЕ КОНЦЕПТУАЛЬНОГО ГРАФА

Page 9: Automatic classification and ontology

Поиск по индексам концептуальных графовПоиск по индексам концептуальных графов

проиндексированные графыграф запроса

При запросе осуществляется поиск подграфа, обладающего структурой, непротиворечащей с точки зрения онтологии структуре графа запроса, и максимально похожей на нее

Степень сходства двух непротиворечащих друг другу концептуальных структур – это отношения количества общих для них связей к общему

количеству связей, задействованному в этих структурах

Page 10: Automatic classification and ontology

Структура одного концептуального графа противоречитпротиворечит структуре другого, если существует

такая связь вида 1:1, что один и тот же концепт X связан ею в первом графе с концептом Y, а вовтором – с концептом Z, причем Y и Z – концепты разных подклассов одного и того же класса или

разные его экземпляры

Тело150 кг

Тело200 кг

Противоречие

Тело перемещение

Телодвижение

Нет противоречия

Противоречивость и непротиворечивостьПротиворечивость и непротиворечивостьконцептуальныхконцептуальных графов графов

Page 11: Automatic classification and ontology

[Какова] динамика роста цен на водку в России за прошедший год?

обладает

обладает

обладает

осуществляет

по отношению к

происходит в течении

прои

сход

ит в

Запрос, неЗапрос, не соответствующий исходному текстусоответствующий исходному тексту

Page 12: Automatic classification and ontology

[Что] происходило с продажами вина и водки в Россиив прошедшем году?

вклю

чает включает

по отношению к

предшествует во времени

подвергается

включаетпроисходит в

прои

сход

ит в

о вр

емя

Запрос, соответствующий исходному текстуЗапрос, соответствующий исходному тексту

Page 13: Automatic classification and ontology

[Какие] иностранные компании занимались исследованиямипродаж водки в России?

включает в себя

по отношению к осуществляет

подвергается

происходит в

не является

по отношению к

происходит в

включает в себя

Запрос, соответствующий исходному текстуЗапрос, соответствующий исходному тексту

Page 14: Automatic classification and ontology

[Какова] динамика продаж водки в России в натуральном выражении?

обладает

обладает

по отношению к

происходит в

подвергае

тся

по

отношению

к

Запрос, соответствующий исходному текстуЗапрос, соответствующий исходному тексту

Page 15: Automatic classification and ontology

Рубрикация статьи “цена” из ВикипедииРубрикация статьи “цена” из Википедии

Page 16: Automatic classification and ontology

Концептуальное рейтингование статьи “цена”Концептуальное рейтингование статьи “цена”

Потенциальные новые связиконцепта “Цена”:

•маркетинг (продажа)•фирма (негосударственные учреждения)•продукция•обмен...

При сопоставлении данных концептуального рейтингования сданными онтологии возникает ряд

новых потенциальных онтологическихсвязей.

Page 17: Automatic classification and ontology

предоставляютродо-видовые

и ассоциативныесвязи с

образуют концептуальныесвязи между

ВзаимодействиеВзаимодействиеконцептовконцептов

Page 18: Automatic classification and ontology

КонцептуальнКонцептуальныеые рейтинги рейтингипозволяют получить рейтингпозволяют получить рейтинг

рубрикрубрик

Page 19: Automatic classification and ontology

Взаимосвязь концептов онтологии и тематических рубрикВзаимосвязь концептов онтологии и тематических рубрик

Page 20: Automatic classification and ontology

Пример авторубрицирования заглавной страницы семинара Пример авторубрицирования заглавной страницы семинара NLPNLP с использованием технологии концептуального с использованием технологии концептуального

рейтингованиярейтингования

Page 21: Automatic classification and ontology

Пример использования технологии рейтингованияПример использования технологии рейтингованияпри ранжировании версий перевода в системе «АрРус»при ранжировании версий перевода в системе «АрРус»

Page 22: Automatic classification and ontology

Концептуализация и рубрицирование текста с Концептуализация и рубрицирование текста с использованием системы использованием системы GlobbieGlobbie