l8: Л7 em-алгоритм
DESCRIPTION
L8: Л7 Em-алгоритмTRANSCRIPT
![Page 1: L8: Л7 Em-алгоритм](https://reader036.vdocuments.net/reader036/viewer/2022081516/559489891a28ab177d8b46ed/html5/thumbnails/1.jpg)
Введение в Data ScienceЗанятие 7. Ноунейм
Николай Анохин Михаил Фирулик
18 апреля 2014 г.
![Page 2: L8: Л7 Em-алгоритм](https://reader036.vdocuments.net/reader036/viewer/2022081516/559489891a28ab177d8b46ed/html5/thumbnails/2.jpg)
Работа в группе
Задача. Оценить, какой вклад внес в общий результат каждыйучастник группы
Шаг 1. Каждый студент анонимно и независимо распределяет 100очков между всеми участниками своей группы в зависимости того,какую пользу (по его/её мнению) каждый из участников принес
Пример.
Студент ВкладГеральт 50Лютик 10Мильва 20Регис 20
Шаг 2. Из всех оценок вычисляется общая аггрегированная оценкана основе алгоритма PageRank
![Page 3: L8: Л7 Em-алгоритм](https://reader036.vdocuments.net/reader036/viewer/2022081516/559489891a28ab177d8b46ed/html5/thumbnails/3.jpg)
План занятия
PageRank
Задача модуля
![Page 4: L8: Л7 Em-алгоритм](https://reader036.vdocuments.net/reader036/viewer/2022081516/559489891a28ab177d8b46ed/html5/thumbnails/4.jpg)
Жизнь до Google
1. Поисковые роботы используютсядля парсинга интернет-страниц
2. Составляется обратный индекс, вкотором каждому словусоответствовал набор страниц
3. Слова из поискового запросапользователя используются дляпоиска страниц в индексе
4. Из близких к запросу страницформируется выдача
Проблема: Term Spam
![Page 5: L8: Л7 Em-алгоритм](https://reader036.vdocuments.net/reader036/viewer/2022081516/559489891a28ab177d8b46ed/html5/thumbnails/5.jpg)
Что придумали парни из Google
Дополнительно1. Страницы ранжируются в
соответствии с их“важностью” с помощьюалгоритма PageRank
2. О релевантности страницсудят не только по словам,находящимся на текущейстранице, но и по словам“соседних” страниц
![Page 6: L8: Л7 Em-алгоритм](https://reader036.vdocuments.net/reader036/viewer/2022081516/559489891a28ab177d8b46ed/html5/thumbnails/6.jpg)
Random Surfer
ИнтуицияПользователь начинает с просмотра случайной страницы, после чегос равной вероятностью переходит по одной из ссылок на этойстранице. Процесс продолжается до бесконечности. PageRankстраницы – вероятность обнаружить пользователя на этой странице.
I Пользователь с большей вероятностью посещает “полезные”страницы, чем “бесполезные”
I Создатели страниц размещают ссылки на “полезные” страницы
![Page 7: L8: Л7 Em-алгоритм](https://reader036.vdocuments.net/reader036/viewer/2022081516/559489891a28ab177d8b46ed/html5/thumbnails/7.jpg)
PageRank
Представим интернет, как направленный граф со страницами вкачестве вершин и ссылками между страницами в качестве ребер
Матрица вероятностей перехода
M =
0 1/2 1 01/3 0 0 1/21/3 0 0 1/21/3 1/2 0 0
![Page 8: L8: Л7 Em-алгоритм](https://reader036.vdocuments.net/reader036/viewer/2022081516/559489891a28ab177d8b46ed/html5/thumbnails/8.jpg)
PageRank
Элементы матрицы перехода
mij = P(v(k)i |v
(k−1)j )
Изначально все страницыравновероятны
v(0) =(1/n . . . 1/n
)>Вектор вероятностей на k шаге
v(k) = Mv(k−1)
Предельное значение v – собственный вектор M, соответствующийсобственному числу λ = 1. Процесс сходится, если из любойвершины можно попасть в любую.
![Page 9: L8: Л7 Em-алгоритм](https://reader036.vdocuments.net/reader036/viewer/2022081516/559489891a28ab177d8b46ed/html5/thumbnails/9.jpg)
Структура Интернета
![Page 10: L8: Л7 Em-алгоритм](https://reader036.vdocuments.net/reader036/viewer/2022081516/559489891a28ab177d8b46ed/html5/thumbnails/10.jpg)
Проблемы PageRank
Dead End Spider Trap
Решение. разрешим пользовалю “телепортироваться” на случайнуюстраницу с вероятностью 1− β
v(k) = βMv(k−1) + (1− β)en
![Page 11: L8: Л7 Em-алгоритм](https://reader036.vdocuments.net/reader036/viewer/2022081516/559489891a28ab177d8b46ed/html5/thumbnails/11.jpg)
Пример
Матрица перехода
M =
0 1/2 0 01/3 0 0 1/21/3 0 1 1/21/3 1/2 0 0
Без телепортов
v =(0 0 1 0
)С телепортами β = 0.8
v =(
15148
19148
95148
19148
)
Spider Trap
![Page 12: L8: Л7 Em-алгоритм](https://reader036.vdocuments.net/reader036/viewer/2022081516/559489891a28ab177d8b46ed/html5/thumbnails/12.jpg)
Методика оценки
Геральт Лютик Мильва Регис ИндивидуальноГеральт 50 10 30 30 20Лютик 10 70 10 5 5Мильва 20 10 30 30 15Регис 20 10 30 35 15
Матрица перехода, β = 0.9
M =
0.5 0.1 0.3 0.30.1 0.7 0.1 0.050.2 0.1 0.3 0.30.2 0.1 0.3 0.35
v =
0.310.230.230.24
Групповая оценка: 30/40
Итог:Геральт: 29, Лютик: 12, Мильва: 22, Регис: 22