microsoft azure machine learning hakaton 2015, team 1'st place
TRANSCRIPT
СОСТАВ КОМАНДЫАНДРЕЙ СЕЛИВАНОВ
ВЛАДИМИР БОНДАРЕВСКИЙ
АНДРЕЙ СУТУГИН
ДМИТРИЙ ЛАБАЗКИН
РОМАН ЛЕБЕДЕВ
АНТОН ЛУКЬЯНОВ
КОНСТАНТИН КИСЕЛЕВ
ЕВГЕНИЙ НЕЧЕПОРЕНКО
ЗАДАНИЕ 1 – ПРЕДСКАЗАНИЕ ВЫПЛАТ ПО АВАРИЯМИСХОДНЫЕ ДАННЫЕ:
МОДЕЛЬ АВТО, НОМЕР, СУММА ШТРАФОВ, РАЗМЕР
ВЫПЛАТ
КРИТЕРИИ ОЦЕНКИ:
ТОЧНОСТЬ ПРЕДСКАЗАНИЯ НА ПРОВЕРОЧНОМ
НАБОРЕ ДАННЫХ
МАКСИМИЗАЦИЯ ЗНАЧЕНИЯ ПОКАЗАТЕЛЯ AUC
ПЛАВНОСТЬ ГРАФИКА ROC
ЗАДАНИЕ 2 – ТОВАРЫ ПО ПОИСКОВЫМ ЗАПРОСАМИСХОДНЫЕ ДАННЫЕ:
ПОИСКОВЫЙ ЗАПРОС,
ЗАГОЛОВОК ТОВАРА,
ОПИСАНИЕ ТОВАРА,
КОЛИЧЕСТВО КЛИКОВ
КРИТЕРИИ ОЦЕНКИ:
ТОЧНОСТЬ ПРЕДСКАЗАНИЯ КОЛИЧЕСТВА КЛИКОВ
ЗАДАНИЕ 2 – ТОВАРЫ ПО ПОИСКОВЫМ ЗАПРОСАМ, ФИЧИФИЧИ:
LENGTH OF LONGEST COMMON SUBSEQUENCE, КОЭФФИЦИЕНТ ЖАККАРА, ДЛИНА ЗАПРОСА, ДЛИНА ЗАГОЛОВКА,
КОЛИЧЕСТВО СЛОВ В ЗАПРОСЕ, КОЛИЧЕСТВО ПЕРЕСЕЧЕНИЙ СЛОВ В ЗАПРОСЕ И ЗАГОЛОВКЕ, ВЕРОЯТНОСТЬ
ПОПАДАНИЯ В КАЖДУЮ ИЗ 100 ТЕМ ПО ОПИСАНИЮ И ЗАГОЛОВКУ - LATENT DIRICHLET ALLOCATION.
100 ТЕМ:
ФОРМИРОВАЛИСЬ ИЗ ЗАГОЛОВКОВ И ОПИСАНИЙ НА ОСНОВЕ МЕРЫ БЛИЗОСТИ «EDIT DISTANCE (LCS)»
ЗАДАНИЕ 2 – ТОВАРЫ ПО ПОИСКОВЫМ ЗАПРОСАМ, ПРИМЕР ТЕМTOPIC 0
ЗВУК
ВЕС
НАУШНИК
РЕГУЛИРУЕМ
ИЗМЕРЕН
КАБЕЛ
КУКОЛК
ДИНАМИК
МИКРОФОН
ASUS
TOPIC 1
МЯГК
МАЛЫШ
ДЕТСК
РЕБЕНК
ПОЛОТЕНЦ
ЦВЕТ
ПОДГУЗНИК
ВПИТЫВА
БЛАГОДАР
СПЕЦИАЛЬН
TOPIC 3
ФЗ
ОБЛОЖК
УЧЕТ
ТВЕРД
PROFF
ПЕРЕПЛЕТ
СТРАНИЦ
НАЛОГОВ
БУХГАЛТЕРСК
BIRDS
TOPIC 4
ГОРОД
ПУТЕВОДИТЕЛ
ПУТЕШЕСТВ
ИНФОРМАЦ
САМ
МЕСТ
ИНТЕРЕСН
ПОДРОБН
ДОСТОПРИМЕЧАТЕЛЬН
СТРАН
TOPIC 19
БЛЮД
ПРИГОТОВЛЕН
ПРОДУКТ
ГОТОВ
РЕЦЕПТ
ВКУСН
ПРИГОТОВ
МЯС
РЫБ
ЗАДАНИЕ 3 – ПРОГНОЗИРОВАНИЕ СПРОСА НА ТОВАРЫИСХОДНЫЕ ДАННЫЕ:
ПО ИСТОРИИ ЗА 5 НЕДЕЛЬ ПРЕДСКАЗАТЬ СКОЛЬКО
БУДЕТ КУПЛЕНО ТОВАРОВ ЧЕРЕЗ НЕДЕЛЮ ЗА НЕДЕЛЮ
КРИТЕРИИ ОЦЕНКИ:
ПЕРВЫЙ ПРИОРИТЕТ — ЗНАЧЕНИЕ ПОКАЗАТЕЛЯ RMSE;
ВТОРОЙ ПРИОРИТЕТ — КАЧЕСТВО ОБОСНОВАНИЯ И
РЕАЛИЗАЦИИ МОДЕЛИ
ГИПОТЕЗА: ТОВАРЫ В ОДНОМ КАТАЛОГЕ ИМЕЮТ
ОДИНАКОВЫЕ ТРЕНДЫ - НЕ ПОДТВЕРДИЛАСЬ НА ЛИНЕЙНОЙ
РЕГРЕССИИ С РЕГУЛЯРИЗАЦИЕЙ.
ИСПОЛЬЗОВАНИЕ ДАННЫХ О ПОКАЗАХ – СОМНИТЕЛЬНО. НА
ОСНОВЕ ЛИНЕЙНОЙ МОДЕЛИ ПОКАЗЫ НЕ БЫЛИ ЗНАЧИМЫ.
НЕТ НЕОБХОДИМОСТИ ИСПОЛЬЗОВАТЬ ВСЕ 5 ЧИСЕЛ
ПОКАЗОВ, МОЖНО ОБЪЕДИНИТЬ В ОДИН ПОКАЗАТЕЛЬ
«СРЕДНЯЯ КОНВЕРСИЯ» - ОДНА ИЗ ФИЧЕЙ.
ЕДИНАЯ МОДЕЛЬ ДЛЯ ВСЕХ ДАННЫХ - НИЗКАЯ ТОЧНОСТЬ.
ГИПОТЕЗА – КЛАСТЕРИЗИРОВАТЬ ДАННЫЕ ПО ХАРАКТЕРУ
ТРЕНДА. ВОПРОС – КАК ПОЛУЧИТЬ ТРЕНД?
ЗАДАНИЕ 3 – ПРОГНОЗИРОВАНИЕ СПРОСА НА ТОВАРЫ, РЕЗУЛЬТАТРЕЗУЛЬТАТ – КЛАСТЕРЫ ТРЕНДОВ.
ДЛЯ КАЖДОГО СВОЯ МОДЕЛЬ НА ОСНОВЕ
ЛИНЕЙНОЙ РЕГРЕССИИ С РЕГУЛЯРИЗАЦИЕЙ L2.
ПОДБОР КОЭФФИЦИЕНТОВ С ПОМОЩЬЮ GRID
SEARCH.
0,77
0,84
0,93
0,83 0,85
0,93
0,73
0,46
0,89
0,83
0,89 0,870,90
0,79
0,70
0,21
0,00
0,10
0,20
0,30
0,40
0,50
0,60
0,70
0,80
0,90
1,00
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
R2