microsoft azure machine learning hakaton 2015, team 1'st place

13

Upload: -

Post on 07-Aug-2015

42 views

Category:

Data & Analytics


3 download

TRANSCRIPT

ЦЕЛЬ

ВЫПОЛНЕНИЕ 3-Х ЗАДАНИЙ В НОМИНАЦИИ «МОДЕЛИРОВАНИЕ ДАННЫХ»

СОСТАВ КОМАНДЫАНДРЕЙ СЕЛИВАНОВ

ВЛАДИМИР БОНДАРЕВСКИЙ

АНДРЕЙ СУТУГИН

ДМИТРИЙ ЛАБАЗКИН

РОМАН ЛЕБЕДЕВ

АНТОН ЛУКЬЯНОВ

КОНСТАНТИН КИСЕЛЕВ

ЕВГЕНИЙ НЕЧЕПОРЕНКО

ЗАДАНИЕ 1 – ПРЕДСКАЗАНИЕ ВЫПЛАТ ПО АВАРИЯМИСХОДНЫЕ ДАННЫЕ:

МОДЕЛЬ АВТО, НОМЕР, СУММА ШТРАФОВ, РАЗМЕР

ВЫПЛАТ

КРИТЕРИИ ОЦЕНКИ:

ТОЧНОСТЬ ПРЕДСКАЗАНИЯ НА ПРОВЕРОЧНОМ

НАБОРЕ ДАННЫХ

МАКСИМИЗАЦИЯ ЗНАЧЕНИЯ ПОКАЗАТЕЛЯ AUC

ПЛАВНОСТЬ ГРАФИКА ROC

ЗАДАНИЕ 1 – ПРЕДСКАЗАНИЕ ВЫПЛАТ ПО АВАРИЯМ, МОДЕЛЬ И ROC

ЗАДАНИЕ 2 – ТОВАРЫ ПО ПОИСКОВЫМ ЗАПРОСАМИСХОДНЫЕ ДАННЫЕ:

ПОИСКОВЫЙ ЗАПРОС,

ЗАГОЛОВОК ТОВАРА,

ОПИСАНИЕ ТОВАРА,

КОЛИЧЕСТВО КЛИКОВ

КРИТЕРИИ ОЦЕНКИ:

ТОЧНОСТЬ ПРЕДСКАЗАНИЯ КОЛИЧЕСТВА КЛИКОВ

ЗАДАНИЕ 2 – ТОВАРЫ ПО ПОИСКОВЫМ ЗАПРОСАМ, ФИЧИФИЧИ:

LENGTH OF LONGEST COMMON SUBSEQUENCE, КОЭФФИЦИЕНТ ЖАККАРА, ДЛИНА ЗАПРОСА, ДЛИНА ЗАГОЛОВКА,

КОЛИЧЕСТВО СЛОВ В ЗАПРОСЕ, КОЛИЧЕСТВО ПЕРЕСЕЧЕНИЙ СЛОВ В ЗАПРОСЕ И ЗАГОЛОВКЕ, ВЕРОЯТНОСТЬ

ПОПАДАНИЯ В КАЖДУЮ ИЗ 100 ТЕМ ПО ОПИСАНИЮ И ЗАГОЛОВКУ - LATENT DIRICHLET ALLOCATION.

100 ТЕМ:

ФОРМИРОВАЛИСЬ ИЗ ЗАГОЛОВКОВ И ОПИСАНИЙ НА ОСНОВЕ МЕРЫ БЛИЗОСТИ «EDIT DISTANCE (LCS)»

ЗАДАНИЕ 2 – ТОВАРЫ ПО ПОИСКОВЫМ ЗАПРОСАМ, ПРИМЕР ТЕМTOPIC 0

ЗВУК

ВЕС

НАУШНИК

РЕГУЛИРУЕМ

ИЗМЕРЕН

КАБЕЛ

КУКОЛК

ДИНАМИК

МИКРОФОН

ASUS

TOPIC 1

МЯГК

МАЛЫШ

ДЕТСК

РЕБЕНК

ПОЛОТЕНЦ

ЦВЕТ

ПОДГУЗНИК

ВПИТЫВА

БЛАГОДАР

СПЕЦИАЛЬН

TOPIC 3

ФЗ

ОБЛОЖК

УЧЕТ

ТВЕРД

PROFF

ПЕРЕПЛЕТ

СТРАНИЦ

НАЛОГОВ

БУХГАЛТЕРСК

BIRDS

TOPIC 4

ГОРОД

ПУТЕВОДИТЕЛ

ПУТЕШЕСТВ

ИНФОРМАЦ

САМ

МЕСТ

ИНТЕРЕСН

ПОДРОБН

ДОСТОПРИМЕЧАТЕЛЬН

СТРАН

TOPIC 19

БЛЮД

ПРИГОТОВЛЕН

ПРОДУКТ

ГОТОВ

РЕЦЕПТ

ВКУСН

ПРИГОТОВ

МЯС

РЫБ

ЗАДАНИЕ 2 – ТОВАРЫ ПО ПОИСКОВЫМ ЗАПРОСАМ, МОДЕЛЬ

ЗАДАНИЕ 3 – ПРОГНОЗИРОВАНИЕ СПРОСА НА ТОВАРЫИСХОДНЫЕ ДАННЫЕ:

ПО ИСТОРИИ ЗА 5 НЕДЕЛЬ ПРЕДСКАЗАТЬ СКОЛЬКО

БУДЕТ КУПЛЕНО ТОВАРОВ ЧЕРЕЗ НЕДЕЛЮ ЗА НЕДЕЛЮ

КРИТЕРИИ ОЦЕНКИ:

ПЕРВЫЙ ПРИОРИТЕТ — ЗНАЧЕНИЕ ПОКАЗАТЕЛЯ RMSE;

ВТОРОЙ ПРИОРИТЕТ — КАЧЕСТВО ОБОСНОВАНИЯ И

РЕАЛИЗАЦИИ МОДЕЛИ

ГИПОТЕЗА: ТОВАРЫ В ОДНОМ КАТАЛОГЕ ИМЕЮТ

ОДИНАКОВЫЕ ТРЕНДЫ - НЕ ПОДТВЕРДИЛАСЬ НА ЛИНЕЙНОЙ

РЕГРЕССИИ С РЕГУЛЯРИЗАЦИЕЙ.

ИСПОЛЬЗОВАНИЕ ДАННЫХ О ПОКАЗАХ – СОМНИТЕЛЬНО. НА

ОСНОВЕ ЛИНЕЙНОЙ МОДЕЛИ ПОКАЗЫ НЕ БЫЛИ ЗНАЧИМЫ.

НЕТ НЕОБХОДИМОСТИ ИСПОЛЬЗОВАТЬ ВСЕ 5 ЧИСЕЛ

ПОКАЗОВ, МОЖНО ОБЪЕДИНИТЬ В ОДИН ПОКАЗАТЕЛЬ

«СРЕДНЯЯ КОНВЕРСИЯ» - ОДНА ИЗ ФИЧЕЙ.

ЕДИНАЯ МОДЕЛЬ ДЛЯ ВСЕХ ДАННЫХ - НИЗКАЯ ТОЧНОСТЬ.

ГИПОТЕЗА – КЛАСТЕРИЗИРОВАТЬ ДАННЫЕ ПО ХАРАКТЕРУ

ТРЕНДА. ВОПРОС – КАК ПОЛУЧИТЬ ТРЕНД?

ЗАДАНИЕ 3 – ПРОГНОЗИРОВАНИЕ СПРОСА НА ТОВАРЫ, РЕЗУЛЬТАТРЕЗУЛЬТАТ – КЛАСТЕРЫ ТРЕНДОВ.

ДЛЯ КАЖДОГО СВОЯ МОДЕЛЬ НА ОСНОВЕ

ЛИНЕЙНОЙ РЕГРЕССИИ С РЕГУЛЯРИЗАЦИЕЙ L2.

ПОДБОР КОЭФФИЦИЕНТОВ С ПОМОЩЬЮ GRID

SEARCH.

0,77

0,84

0,93

0,83 0,85

0,93

0,73

0,46

0,89

0,83

0,89 0,870,90

0,79

0,70

0,21

0,00

0,10

0,20

0,30

0,40

0,50

0,60

0,70

0,80

0,90

1,00

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

R2

ЗАДАНИЕ 3 – ПРОГНОЗИРОВАНИЕ СПРОСА НА ТОВАРЫ, МОДЕЛЬ

ВОПРОСЫ ?

6-7 ИЮНЯ 2015

MICROSOFT

МОСКВА