Кластеризация на примере соцсети "Одноклассники"

23
Кластеризация на примере подарков в соц.сети ОК Артур Кадурин Группа сегментирования аудитории

Upload: tsvetelina-miteva

Post on 23-Jul-2015

601 views

Category:

Technology


5 download

TRANSCRIPT

Кластеризация на примере

подарков в соц.сети ОК

Артур Кадурин

Группа сегментирования аудитории

• 50.000.000 дарений

• 100.000 разных подарков

«Игрушечный» датасет

• Ранжирование

• Тэгирование

• Фильтрация

• Деньги же, ну?..

Задачи

• Даритель: ID, интересы, друзья

• Подарок: ID, теги, картинка, цена

• Получатель: ID, интересы, друзья

• Timestamp: ID праздника, день недели,

время суток…

Что такое дарение?

Пользователи-подарки

процедура упорядочивания объектов

в сравнительно однородные группы

Кластеризация

K-Means

• Нет пространства

• Нет расстояний

• Вообще ничего нет

• Варианты?

Хьюстон, у нас проблема!

Если пользователь подарил два подарка

значит они чем-то похожи

Основная мысль

Похожесть..?

𝐾(𝐴, 𝐵) =𝑛(𝐴 ∩ 𝐵)

𝑛(𝐴 ∪ 𝐵)=

𝑛(𝐴 ∩ 𝐵)

𝑛 𝐴 + 𝑛 𝐵 − 𝑛(𝐴 ∩ 𝐵)

количество общих пользователей

общее количество пользователей

Коэффициент Жаккара

Размер имеет значение Треугольник наоборот

1 − 𝐾 𝐴, 𝐵 + 1 − 𝐾 𝐵, 𝐶 ≥ 1 − 𝐾 𝐴, 𝐶

1. Lipkus, Alan H (1999), A proof of the triangle inequality for the Tanimotodistance, J Math Chem

2. Levandowsky, Michael; Winter, David (1971), Distance between sets, Nature

План

• Есть лог пар Пользователь-Подарок

• Для каждой пары подарков считаем

коэффициент Жаккара

• Кластеризуем

• ?????????

• PROFIT

Считаем «похожесть»

Граф и его матрица

A =

1 0,209 ⋯ 0,0010,209 1 ⋯ 0,035⋮ ⋮ ⋱ ⋮0,001 0,035 ⋯ 1

𝐵𝑖𝑗 =

𝑘

𝐴𝑖𝑘𝐴𝑘𝑗

(Γ𝑟𝐴)𝑖𝑗 = (𝐴𝑖𝑗)𝑟/

𝑘

(𝐴𝑘𝑗)𝑟

А дальше картинки

Цветы бывают разные

Яйца и туфли

С новым годом, доброе утро

Женщины и дети

Загнутая подпись

Эксперименты

• Другие расстоянияпо визуальным признакам, с учетом интервала между дарениями,

с учетом соц.графа…

• Другая кластеризациясвоя реализация, шанс прохода, «выпихивание»…

• Другие данныедомены, запросы, товары, туристические направления…

Спасибо за внимание!

Артур Кадурин