Кластеризация и текстовый анализ

25
Кластеризация и текстовый анализ Сложные вопросы реализации и интерпретации Алексей Чекушин Head of search tech в Ostrovok Основатель Just-Magic.org

Upload: alexey-chekushin

Post on 21-Apr-2017

2.370 views

Category:

Data & Analytics


1 download

TRANSCRIPT

Page 1: Кластеризация и текстовый анализ

Кластеризация и текстовый анализ

Сложные вопросы реализации и интерпретации

Алексей ЧекушинHead of search tech в Ostrovok

Основатель Just-Magic.org

Page 2: Кластеризация и текстовый анализ

Who is mr. clustering

True

False

Page 3: Кластеризация и текстовый анализ

А почему так?

Гипотеза 1: Если N урлов могли быть продвинуты по двум запросам – значит и мы можем.

Гипотеза 2: Качество выдачи за топ-10 быстро падает.

Page 4: Кластеризация и текстовый анализ

Проблема 1: как выбрать кластер?

Page 5: Кластеризация и текстовый анализ

Идем от задачи!

Ускорение разбора больших ядер Разделение запросов по типам

Page 6: Кластеризация и текстовый анализ

Проблема 2: малые группы

39 - Ростов 213 - Москва

© кластеризатор Just-Magic.org

Page 7: Кластеризация и текстовый анализ

Два вида ошибокОшибка 1го рода:В 1 кластер попалиНесовместимыезапросы.

Ошибка 2го рода:Совместимые запросы попали в разныекластеры.

Page 8: Кластеризация и текстовый анализ

Решение проблемы 1

Минимизируем ошибку 1го рода

Ошибка 2го рода – как получится

Page 9: Кластеризация и текстовый анализ

Проблема решена?

Page 10: Кластеризация и текстовый анализ

Опять идем от задачи!

Постраничное распределение

Маркерный запрос

Просто кластеризация

Метод наибольшей плотности

Page 11: Кластеризация и текстовый анализ

Проблема решена?

Маркер

Page 12: Кластеризация и текстовый анализ

Точность и полнота

Точность

Полнота

Подходящие Не подходящие

Page 13: Кластеризация и текстовый анализ

WTF? Опять этот слайд??!!!111

Маркер

Page 14: Кластеризация и текстовый анализ

Проблема 3: какой N правильный?

1 2 3 4 5 6 7 8 9 100%

20%

40%

60%

80%

100%

120%

22%

49%

92% 95% 98% 100% 100% 100% 100% 100%

9%

21%

61%

74%

89%97% 100% 100% 100% 100%

Точность кластеризации

Точность - hard Точность - soft

Page 15: Кластеризация и текстовый анализ

Неужели опять от задачи?

«Трафиковое» продвижение

Soft-метод, порог 4+

«Позиционное» продвижение

Hard-метод, пороги 3 или 4

Page 16: Кластеризация и текстовый анализ

Текстовый анализ?Гипотеза 1: Существуют «оптимальные» для попадания в топ значения.

Гипотеза 2: Сайты в топе соответствуют «оптимальным» значениям.

Гипотеза 3: Вычисления интервалов допустимо проводить независимо.

Page 17: Кластеризация и текстовый анализ

Что такое «оптимальное значение»?

1 2 3 4 5 6 7 8 9 1002468

10121416

[пластиковые окна] - вхождение "пластиковые окна"

Page 18: Кластеризация и текстовый анализ

Окей гугл, как вычислить оптимальные?1) Выбросить все ненужное.

2) Срезать выбросы.

3) Определить диапазон.

Page 19: Кластеризация и текстовый анализ

Диапазон?

1 2 3 4 5 6 7 8 9 100

5

10

15

20

25

30

35

[купить пластиковые окна] - вхождение [пластиковые окна]

Page 20: Кластеризация и текстовый анализ

Проблема 4: Сколько вхождений правильно?

© текстовый анализатор Just-Magic.org

Page 21: Кластеризация и текстовый анализ

А если запросов несколько?

Page 22: Кластеризация и текстовый анализ

Проблема 5: так сколько вхождений правильно?

1 2 3 4 5 6 7 8 9 1005

101520253035

Вхождения "пластиковые окна"

[пластиковые окна] [купить пластиковые окна]

1 2 3 4 5 6 7 8 9 1005

101520253035

Вхождения "пластиковые окна"

[пластиковые окна] [купить пластиковые окна]

Page 23: Кластеризация и текстовый анализ

Еще одно решение

Page 24: Кластеризация и текстовый анализ

Всегда ли это применимо?

Page 25: Кластеризация и текстовый анализ

Fin

Ваши вопросы?

Связаться со мной:[email protected]@just-magic.org

Попробовать самому (онлайн, бесплатно, без смс): Just-Magic.org