Михаил Киселев megaputer intelligence ltd

Метод кластеризации текстов, основанный на попарной близости термов, характеризующих тексты, и его сравнение с метрическими методами кластеризации

Михаил Киселев

Megaputer Intelligence Ltd

Автоматическая кластеризация текстов - актуальная и до сих пор не имеющая хорошего универсального решения проблема.

Основные трудности:

• Неоднозначность определения смысловой близости текстов.

• Часто - необходимость работать с очень высоко размерными пространствами.

• Требования интерпретируемости - смысловая пометка кластеров, объяснение отнесения текста к кластеру.

Наиболее распространенный подход - метрический

пространство признаков

тексты

кластеры

Идеи предлагаемого альтернативного подхода:

• Каждый текст представляется как множество его ключевых термов (а не как точка в пространстве признаков – с одним и тем же набором признаков для всех термов)

• Близость текстов вычисляется на основе попарной близости их ключевых термов

• Оценка близости термов производится на основе иерархического тезауруса (онтологии)

Статистический подход к построению множества ключевых термов

• Критерий – существенное превышение частоты терма в тексте над средней частотой

• Дополнительное условие – никакие два ключевых терма не должны быть связаны отношением гипернимии

Мера значимости превышения частоты терма над средней:

f(t) – средняя частота терма t

n(t) – число термов t в тексте

n – общее число термов в тексте

p(t) - вероятность того, что, сделав n испытаний с априорной вероятностью успеха f(t), мы получим n(t) или более успехов

Критерий включения терма в множество ключевых термов

)(

03.0),(

dNntdp

Средняя частота терма

Частота терма в большом текстовом корпусе (по возможности – относящемся к той же тематике, что и кластеризуемый корпус), из текстов которого исключены все ключевые термы

Близость 2 термов

Величина, обратная расстоянию между этими термами в графе, представляющем онтологию, + 1

Близость 2 текстов

)()(

),(),(),(

21

122121 dndn

ddPddPddP

)(

)(121

12

),(max),(),(dt

dsstPtdnddP

KK

где

Автоматическое построение иерархического тезауруса

Теоретические основы:

• Распределительная гипотеза. Семантически подобные термы встречаются, как правило, в похожем лингвистическом контексте.

• Частотная гипотеза. Частота встречаемости гипернимов в текстах больше, чем у любого их гипонима.


Исходные данные:

Матрица совместной встречаемости лексем, рассчитанная на большом текстовом корпусе.

Ее элементы – вероятности, что два терма будут обнаружены в N или более текстов одновременно при предположении об их независимом распределении в корпусе. Здесь N – наблюдаемое число документов, включающих оба этих терма.


Алгоритм:

Бинарная аггломеративная кластеризация термов с мерой расстояния между термами, задаваемой матрицей совместной встречаемости лексем

Пометка кластеров – узлов образующегося дерева 3мя наиболее частыми лексемами

Пример – фрагмент получившегося иерархического тезауруса

собакапородащенок

собакащенок

щенок собака

породаовчаркатерьер

спаниель

овчаркатерьер

спаниельмастиф

ретривер

овчарка терьер спаниель мастиф

овчаркатерьер

спаниель

собакапородащенок

Метрические методы кластеризации, использованные для целей сравнения

• MSEL – отбор размерностей, соответствующих лексемам с максимальной суммой tfidf по кластеризуемому корпусу

• MLSA – отбор размерностей на основе латентного семантического анализа

Критерии сравнительной оценки

• Точность кластеризации – насколько найденные кластеры соответствуют заранее заданному разбиению корпуса на смысловые категории

• Интерпретируемость кластеризации – насколько понятна и адекватна смысловая пометка найденных кластеров

Точность кластеризации – мера взаимной информации Шеннона между идентификатором кластера и смысловой категорией

j

ii j

jqjq

iqiqjiqjiqIG

)(log)(

)(log)(),(log),(

22

11

ij

jiqjqjiqiqNjim

jiq ),()(,),()(,),(

),( 21

m(i,j) - количество текстов из смыслового класса I, отнесенных к кластеру j

Текстовые корпуса, использованные для сравнения

• Корпус Wl. Случайная выборка 965 веб-сраниц русского Интернета общим объемом 4.2 MB. 36 классов.

• Корпус Wh. Та же выборка, 59 классов.

• Корпус Ql. Набор страниц из выборки русского Интернета, предоставленной Яндексом, которые содержат фамилию Столыпин. 56 текстов общим объемом 1.7МВ. 7 классов.

• Корпус Qh. Тот же корпус, 12 классов.

• Корпус N. Выборка текстов новостей, из архива, предоставленного компанией Яндекс («обычная неделя»). 430kB в 295 текстах. 16 классов.

• Корпус H. Заголовки новостей из того же самого архива. Общий объем – 135kB. Количество текстов – 2020. 431 класс.

• Корпус Cl. Статьи уголовного кодекса РФ, посвященные отдельным видам преступлений. 276 текстов, 270kB. В качестве смысловых классов служат 6 разделов этой части УК.

• Корпус Ch. Статьи УК, но классифицированные по 19 его главам.

Результаты по точности кластеризации

Пример сравнения пометки кластеров

Выводы

• Результаты сравнения подтверждают предположение о том, что предлагаемый метод должен иметь преимущество в случае сильного тематического разнообразия анализируемого корпуса либо малого размера отдельных текстов.

• Предлагаемый метод приводит к гораздо более понятной и точной смысловой пометке найденных кластеров.

• Дополнительный результат - разработан метод автоматического создания напоминающей иерархический тезаурус структуры на базе матрицы совместной встречаемости лексем, построенной на большом текстовом корпусе.

Михаил Киселев megaputer intelligence ltd

Documents

ft tnt t n pt

tfidf mlsa mi

dale carnegie training

megaputer intelligence