universal schemas

Universal SchemaУниверсальная схема

для извлечения информации

Невмержицкий Сергей

Использованные материалыProbabilistic Databases of Universal SchemaLimin Yao, Sebastian Riedel, Andrew McCallum, University of Massachusetts

Relation Extraction with Matrix Factorization and Universal SchemasSebastian Riedel, University College LondonLimin Yao, Andrew McCallum, Benjamin M. Marlin, University of Massachusetts

Идея работыСейчас используютФормат источника данных Схема базы данныхМинусы:● Потеря корректности и полноты естественного языка

Предлагается● Универсальная схема● Вероятностная база данных

Рисунок 1. Заполнение базы данных универсальной схемы. Темные кручи - наблюдаемые факты, серые - предполагаемые. Извлечение отношений (RE) отображает поверхностные

паттерны в структурные отношения.

ОбозначенияR - множество отношений между словами (“the X–historian-at–Y”).T - множество именованных сущностей (<FERGUSON,HARVARD>)

Факт - это такой кортеж <r,t>, где и

На вход модели подается множество наблюдаемых фактов O и наблюдаемые факты для конкретного кортежа обозначаются как:

Кортежи и триплетыЭто почти как множества только со следующими отличиями:● могут иметь повторяющиеся элементы● порядок элементов имеет значение● кортеж всегда имеет ограниченное количество элементов

Например в RDF используются трехместные кортежи, так называемые триплеты или триады:● <Вася, любит, Машу>● <машина, цвет, красный>

В данной работе используются двухместные кортежи: <Москва, Россия>.

Цель исследованияПроверить, что данная модель может предсказать для конкретной пары отношения (r) и кортежа (t) вероятность p(yr,t=1), где yr,t- это некоторое бинарное число, равное единице, если t находится в связи с r.

Для этого мы вводим набор экспоненциальных моделей, которые оценивают вероятность, используя натуральный параметр и логистическую функцию:

является функцией от r, t и набора весов и/или скрытыми векторами.

Модели натурального параметраLatent Feature ModelВ данной модели мы измеряем совместимость r и t как скалярное произведение двух скрытых переменных, отражающих размер K:

Этот подход соответствует обобщенному методу главных компонент (PCA).

Рисунок 2. gPCA изменяет оценку представления двух отношений и кортежа при появлении наблюдения r1(e). Это позволяет оценивать вероятность ненаблюдаемого факта r2(e).

Модели натурального параметраNeighborhood ModelВ основе данной модели лежит гипотеза: Мы можем интерполировать значение интересующих нас отношение+кортеж, основываясь на известных нам значениях истинности схожих отношений того же самого кортежа.

Модели натурального параметраEntity ModelВ отличие от хорошо структурированных баз данных типа Freebase и DBPedia, в реальности не всегда имеется возможность различить отношения. Поэтому, вместо использования заранее определенного набора типов сущностей, в данной модели мы обучаемся по скрытым в данных сущностям (latent entity representation from data).

Модели натурального параметраCombined ModelНа практике все вышеуказанные модели могут отразить важные аспекты данных, поэтому мы также используем совмещенную модель:

Parameter EstimationДанные модели используют веса и скрытые вектора. Мы можем оценить эти данные максимизируя log-likelihood.

Вычисление негативных утверждений с помощью неявной обратной связи.

Для получения максимальной вычислительной мощности производится оптимизация множества фактов стохастическим градиентным спуском (SGD)

Отличия от других подходовOpen IEНовый подход основан на единой унифицированной модели, не требует никаких типов сущностей. Выведение факта составляет всего несколько скалярных произведений.

Never-Ending Learning and BootstrappingНовая модель лишь усиливает корреляции между обрабатываемыми кореференциями. Это дает преимущество в том, что неправильные предсказания имеют меньшую вероятность быть усиленными, что снижает риск семантической дрейфа.

Данные для эксперимента

● Named-entities recognition● Выравнивание новостного корпуса и структурированных данных● Фильтрации отношений реже 10 наблюдений

Источник Обучение Тест

NYTimes после 2000 года 1990-1999 года

Freebase факты 8k 8k

Freebase сущности 200k 200k

Выполнение экспериментаДва раздельных эксперимента для структурированных данных и поверхностных шаблонов.

Каждое отношение рассматривается как запрос и получение первых 1000 пары сущностей из каждой системы. Затем берутся первые 100 ответов от каждой системы и вручную оцениваем их истинность. Это дает нам набор релевантных результатов, которые мы используем для вычисления полноты и точности:● средняя точность● mean average precision (MAP)● weighted mean average precision

Результаты для FreebaseТаблица 1 содержит результаты для отношений Freebase, исключая те, для которых система не смогла найти релевантные факты.● MI09 - Distant supervision for relation extraction without labeled data [Mike

Mintz et al., 2009].● YA11 - Версия MI09 с добавлением “preprocessed cluster features”

[Limin Yao et al., 2011]● SU12 - the state-of-the-art Multi-Instance Multi-Label system [Mihai

Surdeanu et al., 2012].Для всех новых моделей использованы одинаковые значения K = 100, 1000 epochs, 0.01 в качестве регулязатора для весов компонентов и 0.1 для весов соседей.

Столбец # содержит количество позитивных фактов в базе. Жирным указаны победители, курсивом - ничья.

Таблица 1. Средние и (взвешенные) MAP значения для отношений Freebase, основанные на объединенных данных.

График 1. Средняя 11-значная кривая точность-полнота для отношений Freebase

График 2. Точность и полнота для works_written(X,Y)

Результаты для Surface PatternsТаблица 2 содержит сравнение наших моделей на 10 поверхностных паттернах.

Эти результаты были выбраны как наиболее интересные, по мнению автора, вопросы, не содержащиеся в Freebase. Мы вновь видим, что добавление скрытых моделей (F, E) существенно улучшает результаты по сравнению с N-моделью.

Таблица 2. Средние и (взвешенные) MAP значения для отношений поверхностных паттернов

График 3. Средняя 11-значная кривая точность-полнота для отношений поверхностных паттернов

ЗаключениеБыла представлена модель извлечения отношений в универсальные схемы. Подобные схемы содержат петтерны поверхности, а также отношения из структурированных, полученные из данных.

Поверхностные паттерны + Структурированные отношения = Улучшение качества!

Новая модель расходует меньше времени на обучение при равных объёмах информации.

Новый подход можно использовать для различных интеграционных задач.

Probabilistic Databases of Universal Schema [Limin Yao и др., 2012]

Open IE: http://ai.cs.washington.edu/projects/open-information-extraction

Метод главных компонент:● http://ru.wikipedia.org/wiki/Метод_главных_компонент● http://books.nips.cc/papers/files/nips14/AA27.pdf

Коллаборативная фильтрация: http://ru.wikipedia.org/wiki/Коллаборативная_фильтрация

Ссылки

http://ai.cs.washington.edu/projects/open-information-extraction

http://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82

http://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82

http://books.nips.cc/papers/files/nips14/AA27.pdf

http://books.nips.cc/papers/files/nips14/AA27.pdf

http://ru.wikipedia.org/wiki/%D0%9A%D0%BE%D0%BB%D0%BB%D0%B0%D0%B1%D0%BE%D1%80%D0%B0%D1%82%D0%B8%D0%B2%D0%BD%D0%B0%D1%8F_%D1%84%D0%B8%D0%BB%D1%8C%D1%82%D1%80%D0%B0%D1%86%D0%B8%D1%8F



universal schemas

Education

map freebase

r t pyr

latent feature model

entity model freebase

combined model

neighborhood model

andrew mccallum

latent entity representation