Откриване на взаимовръзки в колекции от документи...
Post on 30-Dec-2015
44 Views
Preview:
DESCRIPTION
TRANSCRIPT
Откриване на взаимовръзки в
колекции от документи чрез ЛСА
Димитър Вулджев, НПМГ
Иван Стефанов, ПМГ Казанлък д-р Преслав Наков, Сингапурски университет
Какво представлява?
Вход: 30 стенограми от заседания на МС
Резултат: Йорданка Фъндъкова
Българо-албанска комисия за икономическо и търговско
сътрудничество
0,864
Какво представлява?
„Проект на Решение за одобряване на позицията и състава на българската делегация за участие в петата сесия на българо-албанска комисия за икономическо и търговско сътрудничество, която ще се проведе на 24 и 25 март 2011 г. в София.“
Латентен семантичен анализ
Съществуват латентни връзки между отделните думи.
1. Изграждане на честотна матрица;2. Декомпозиране по сингулярни стойности;3. Изчисляване на матрица, която съдържа
векторите на субектите.
Латентен семантичен анализ
Субект = реално съществуващ обект (имена на хора, градове, организации; термини и др.)
Какво получаваме?• Обща приложимост;• Откриване на индиректни (косвени) връзки;• Качество на резултатите ~ размер на
колекцията;
Операции със субекти
• Намиране на връзка между два субекта:o Евклидово разстояние;o Косинусова мярка;o Коефициент на Пиърсън.
• Извеждане на n най-близки по смисъл думи на даден субект;
• Групиране на субекти спрямо латентно значение (k-means);
• Намиране на връзка между документи.
Как да получим по-добри резултати?
• Стоп-думи;• Псевдоними;• Оценка на дума при честотната матрица:
o Брой срещания в док.;o Term Frequency – Inverse Document Frequency;
• Сегментация на думите;• Автоматизирано извличане на субекти (NER).• Повече документи!!!
Реализация• Многонишково изчисление на честотната
матрица;• Използване на ортогонален списък:
o 9674 док. с 74538 думи => 5,37GB; само 410MB ненулеви данни => 0,83GB
• Използване на хеш-таблици;• Четене на файлове чрез потоци;• Използване на високо оптимизирана C++
библиотека за ДСС.
Демонстрация на общата
приложимост…
Компютър срещу хора
Субект 1 Субект 2 Оценка човек
Оценка ЛСА
Кой?
мораториум
Яне Янев 0;0;0;1;0 => 0,2
0,64 ЛСА
Военно-въздушни сили на САЩ
Варна 0;0;0,2;0 => 0,04
0,36 ЛСА
Нефт Енергетика
1;1;1;1;1 => 1
0,86 Човек
Нефт ВЕИ 0,5;0,5;1;0 => 0,4
0,72 ЛСА
Република България
Росен Плевнелиев
1;1;1;1;1 => 1
0,49 Човек
Шеврон Фонд „Изследва-ния“
0,5;0;1;0;0,5 => 0,4
0,68 ЛСА
Демонстрация
Бъдещи перспективи• Провеждане на задълбочено проучване
относно качеството на резултатите с определена колекция от данни (голяма).
• Развиване на възможността за облачни изчисления.
Благодарностина: д-р Преслав Наков, г-ца Николова, Рая Юнакова
(Microsoft), доц. д-р Минчев и УчИМИ
Благодарим Ви за вниманието!
top related