datatalks #6. Погружение в науку о данных
TRANSCRIPT
ПЛАН ДОКЛАДА
1. Каким должно быть любое образование?
2. Что такое data science?
3. Как обычно преподают/изучают data science?
4. Как получить первый опыт?
5. Коллаборация в области Data Science
2
КТО ТАКОЙ
СПЕЦИАЛИСТ?
3
ОСОБЕННОСТИ
ПРОФЕССИОНАЛЬНЫХ ЗАДАЧ
ЧЕЛОВЕКА С … ОБРАЗОВАНИЕМ
1. Средним,
профессионально-техническим
2. Средним специальным
3. Высшим
4. Послевузовским
КТО ТАКОЙ
DATA
SCIENTIST?
6
7
МНЕНИЕ UDACITY
Источник:
8 Skills You Need
to Be a Data Scientist
НАУКА О ДАННЫХ
• Big Data и параллельные вычисления
• Статистические методы
• Машинное обучение
• Data Mining
• Artificial Intelligence
• Проектирование и разработка
эффективных хранилищ данных
• ….
КАК УЧАТ
DATA
SCIENCE?
10
АКАДЕМИЧЕСКИЕ ПРОГРАММЫ
1. Школа анализа данных (Москва, Киев, Минск, …)
2. Computer Science Center (Санкт-Петербург)
3. Техносфера (Москва)
4. ….
11
ТРАДИЦИОННОЕ ОБЩЕЕ
1. Общее повышение уровня программирования (по ~ 48 ч.)
Основные языки: 1. Python 2. С/C++ (вплоть до 11/14).
Дополнительно: Java (open source Big Data), R (статистика).
2. Алгоритмы и структуры данных (~ 48-96 ч.)
3. Машинное обучение (~ 48-96 ч.)
4. Основы Natural Language Processing (24-48 ч).
5. Информационный поиск (information retrieval) (~48 ч.)
+ НЕЗАБЫВАЕМЫЕ НОЧИ, ПОТРАЧЕННЫЕ
НА ВЫПОЛНЕНИЕ ДОМАШНИХ ЗАДАНИЙ.
12
ПРИМЕРЫ СПЕЦКУРСОВ
1. Анализ изображений и видео (30-60 ч.)
2. Технологии хранения и обработки больших объёмов данных (36-72 ч)
3. Обучение представлений и глубокое обучение (~48 ч.)
4. Байесовские методы (~48 ч.)
5. Графические модели (~ 48 ч.)
6. Прикладная аналитика (~24 ч.)
7. Теория игр и аукционов (~ 24 ч.)
И многое другое
13
ОБЩИЕ ТРЕНДЫ
1. Введение в Deep Learning
2. Технологии Big Data
3. Прикладные исследовательские проекты
4. Выкладка материалов занятий на GitHub и
видеозаписей лекций на YouTube.
Большинство онлайн-курсов намного
поверхностнее!
14
15
МАШИННОЕ ОБУЧЕНИЕ
CRISP DM
16
УДАЧНЫЕ ПРИМЕРЫ
ЛАБОРАТОРНЫХ ЗАДАЧ
1. Первичный анализ данных о авиарейсах в США ( http://stat-
computing.org/dataexpo/2009/the-data.html -- opendata !!!)
2. Предсказание вероятности автомобильной аварии
страховой компанией (с SAS-тренинга )
3. Предсказание цены объекта недвижимости в США по его
описанию
4. Предсказание пола по транзакциям (конкурс Сбербанка)
5. Предсказание “здоров / болен” по ЭКГ
ВАЖНА ПОНЯТНОСТЬ ПРИЗНАКОВ и «НИЗКАЯ» ТОЧКА ВХОДА! 17
САМООБРАЗОВАНИЕ
1. Технострим Mail.ru
2. Лекции Computer Science Center
3. Много видеозаписей полноценных курсов на
YouTube
4. Много видеозаписей конференций и митапов
5. Публикации в научных и научно-популярных
журналах и блогах
18
КАК
ПОПРОБОВАТЬ
НА ПРАКТИКЕ?
19
КРИТЕРИИ ВЫБОРА ЗАДАЧ
1. Мини-проект по Data Science
2. И практическая,
и научно-исследовательская актуальность
3. Публикации в реферируемых журналах
4. Нечеткая, достаточно общая поставка задач
5. Интересная предметная область
20
ЛЕКСИЧЕСКАЯ НОРМАЛИЗАЦИЯ
ТЕКСТА В СОЦИАЛЬНЫХ СЕТЯХ
21
ACL 2015
Workshop on
Noisy User-
generated Text.
Lexical
Normalization for
English Tweets
ONLINE REPUTATION
MANAGEMENT IN SOCIAL MEDIA
22
RepLab 2013.
Track for
Online
Reputation
Management
ЗАДАЧИ
• Категоризация авторов сообщений
• Influencer?
• Контекст упоминания брендов
• Выделение тем
• Кластеризация текстов
!!! ГОТОВЫХ ПРИЗНАКОВ НЕТ!!!
23
СКУЧНО
ОДНОМУ …
24
СИЛА В СООБЩЕСТВЕ!
Статистика #OpenDataScience в Slack за 1 год:
• 145K сообщений, 60+ каналов, 500+ data scientist-ов
• Наиболее обсуждаемые темы:
#deep_learning #theory_and_practice
#visualization #big_data
#python #r
#datasets #nlp
#edu_courses #devops
25
http://opendatascience.ru
СИЛА В СООБЩЕСТВЕ!
Сообщество «Тренировки ML»
• Почти 1400 человек в группе Facebook
• Регулярные встречи 1 раз в 2 недели с видеозаписью
Регулярные мероприятия по Data Science в офисах крупных IT-компаний, с видеозаписью
• Компьютерные науки (Яндекс) it.mail.ru/
• AvitoTech ВШЭ DataTalks и МНОГИЕ ДРУГИЕ!
26
РЕЗЮМЕ
1. Системное и аналитическое мышление!
2. Необходимы фундаментальные знания
сразу в нескольких областях
3. Идеальный Data Scientist – это
• сильный инженер-программист,
• талантливый исследователь,
• толковый (бизнес-)аналитик. 27
РЕЗЮМЕ
4. Непрерывное саморазвитие
5. Возможности для получения
практического опыта
6. Возможности для получения и обмена
знаниями
28
СПАСИБО!
ВОПРОСЫ?
29
Денис Пирштук
Chief Data Scientist
https://www.linkedin.com/in/dpirshtuk