Михаил Киселев megaputer intelligence ltd
DESCRIPTION
Метод кластеризации текстов, основанный на попарной близости термов, характеризующих тексты, и его сравнение с метрическими методами кластеризации. Михаил Киселев Megaputer Intelligence Ltd. - PowerPoint PPT PresentationTRANSCRIPT
Метод кластеризации текстов, основанный на попарной близости термов, характеризующих тексты, и его сравнение с метрическими методами кластеризации
Михаил Киселев
Megaputer Intelligence Ltd
Автоматическая кластеризация текстов - актуальная и до сих пор не имеющая хорошего универсального решения проблема.
Основные трудности:
• Неоднозначность определения смысловой близости текстов.
• Часто - необходимость работать с очень высоко размерными пространствами.
• Требования интерпретируемости - смысловая пометка кластеров, объяснение отнесения текста к кластеру.
Наиболее распространенный подход - метрический
пространство признаков
тексты
кластеры
Идеи предлагаемого альтернативного подхода:
• Каждый текст представляется как множество его ключевых термов (а не как точка в пространстве признаков – с одним и тем же набором признаков для всех термов)
• Близость текстов вычисляется на основе попарной близости их ключевых термов
• Оценка близости термов производится на основе иерархического тезауруса (онтологии)
Статистический подход к построению множества ключевых термов
• Критерий – существенное превышение частоты терма в тексте над средней частотой
• Дополнительное условие – никакие два ключевых терма не должны быть связаны отношением гипернимии
Мера значимости превышения частоты терма над средней:
f(t) – средняя частота терма t
n(t) – число термов t в тексте
n – общее число термов в тексте
p(t) - вероятность того, что, сделав n испытаний с априорной вероятностью успеха f(t), мы получим n(t) или более успехов
Критерий включения терма в множество ключевых термов
)(
03.0),(
dNntdp
Средняя частота терма
Частота терма в большом текстовом корпусе (по возможности – относящемся к той же тематике, что и кластеризуемый корпус), из текстов которого исключены все ключевые термы
Близость 2 термов
Величина, обратная расстоянию между этими термами в графе, представляющем онтологию, + 1
Близость 2 текстов
)()(
),(),(),(
21
122121 dndn
ddPddPddP
)(
)(121
12
),(max),(),(dt
dsstPtdnddP
KK
где
Автоматическое построение иерархического тезауруса
Теоретические основы:
• Распределительная гипотеза. Семантически подобные термы встречаются, как правило, в похожем лингвистическом контексте.
• Частотная гипотеза. Частота встречаемости гипернимов в текстах больше, чем у любого их гипонима.
Автоматическое построение иерархического тезауруса
Исходные данные:
Матрица совместной встречаемости лексем, рассчитанная на большом текстовом корпусе.
Ее элементы – вероятности, что два терма будут обнаружены в N или более текстов одновременно при предположении об их независимом распределении в корпусе. Здесь N – наблюдаемое число документов, включающих оба этих терма.
Автоматическое построение иерархического тезауруса
Алгоритм:
Бинарная аггломеративная кластеризация термов с мерой расстояния между термами, задаваемой матрицей совместной встречаемости лексем
Пометка кластеров – узлов образующегося дерева 3мя наиболее частыми лексемами
Пример – фрагмент получившегося иерархического тезауруса
собакапородащенок
собакащенок
щенок собака
породаовчаркатерьер
спаниель
овчаркатерьер
спаниельмастиф
ретривер
овчарка терьер спаниель мастиф
овчаркатерьер
спаниель
собакапородащенок
Метрические методы кластеризации, использованные для целей сравнения
• MSEL – отбор размерностей, соответствующих лексемам с максимальной суммой tfidf по кластеризуемому корпусу
• MLSA – отбор размерностей на основе латентного семантического анализа
Критерии сравнительной оценки
• Точность кластеризации – насколько найденные кластеры соответствуют заранее заданному разбиению корпуса на смысловые категории
• Интерпретируемость кластеризации – насколько понятна и адекватна смысловая пометка найденных кластеров
Точность кластеризации – мера взаимной информации Шеннона между идентификатором кластера и смысловой категорией
j
ii j
jqjq
iqiqjiqjiqIG
)(log)(
)(log)(),(log),(
22
11
ij
jiqjqjiqiqNjim
jiq ),()(,),()(,),(
),( 21
m(i,j) - количество текстов из смыслового класса I, отнесенных к кластеру j
Текстовые корпуса, использованные для сравнения
• Корпус Wl. Случайная выборка 965 веб-сраниц русского Интернета общим объемом 4.2 MB. 36 классов.
• Корпус Wh. Та же выборка, 59 классов.
• Корпус Ql. Набор страниц из выборки русского Интернета, предоставленной Яндексом, которые содержат фамилию Столыпин. 56 текстов общим объемом 1.7МВ. 7 классов.
• Корпус Qh. Тот же корпус, 12 классов.
• Корпус N. Выборка текстов новостей, из архива, предоставленного компанией Яндекс («обычная неделя»). 430kB в 295 текстах. 16 классов.
• Корпус H. Заголовки новостей из того же самого архива. Общий объем – 135kB. Количество текстов – 2020. 431 класс.
• Корпус Cl. Статьи уголовного кодекса РФ, посвященные отдельным видам преступлений. 276 текстов, 270kB. В качестве смысловых классов служат 6 разделов этой части УК.
• Корпус Ch. Статьи УК, но классифицированные по 19 его главам.
Результаты по точности кластеризации
Пример сравнения пометки кластеров
Выводы
• Результаты сравнения подтверждают предположение о том, что предлагаемый метод должен иметь преимущество в случае сильного тематического разнообразия анализируемого корпуса либо малого размера отдельных текстов.
• Предлагаемый метод приводит к гораздо более понятной и точной смысловой пометке найденных кластеров.
• Дополнительный результат - разработан метод автоматического создания напоминающей иерархический тезаурус структуры на базе матрицы совместной встречаемости лексем, построенной на большом текстовом корпусе.