«Совместные it-проекты ШАД и ship», Андрей Устюжанин
TRANSCRIPT
Андрей Устюжанин
Обработка данных физики высоких энергий
2 июля 2014
Из чего сделана наша вселенная?
Универсальные законы?
Как их проверить?
Что такое антиматерия? темная материя?
Переход от микро-мирак макро-миру?
2
Вопросы «на миллион»
Экспериментальная наука вчера
3
Эксперименты сегодня
4
5
6
7
8
9
10
Модели вычислений
Skynet
Использование ресурсов GRID
«Узкие» места GRID
Сложность настройки
Фиксированные настройки окружения
Долгое масштабирование
Опалата времени работы, а не фактических вычислений
18
Облачные технологии
Предоставление вычислительной инфраструктуры как сервиса
Виртуализация аппаратных ресурсов
Динамическое выделение ресурсов под конкретные нужды
Оплата только за фактическое использование
Широка поддержка open-source & commercial (Amazon EC2, Rackspace OpenStack, T-Systems, Helix Nebula, …)
19
Облачные технологии
20
Applica'ons+Run+Na'vely+in#Hadoop+
HDFS2+(Redundant,*Reliable*Storage)*
YARN+(Cluster*Resource*Management)***
BATCH+(MapReduce)+
INTERACTIVE+(Tez)+
STREAMING+(Storm,+S4,…)+
GRAPH+(Giraph)+
INLMEMORY+(Spark)+
HPC+MPI+(OpenMPI)+
ONLINE+(HBase)+
OTHER+(Search)+(Weave…)+
…
YARN
21
Примеры задач
Симуляция событий (MC)
Поиск реальных и MC-событий
Онлайн анализ
Офлайн анализ
Сохранение данных (интерфейс доступа)
Сохранение кода и структуры анализа
24
Анализ данных
Индикаторы сложности
‘Каким способом я сгененировал график 13?’
‘Новый студент хочет воспользоваться моделью, опубликованной мной 3 года назад, но я не могу воспроизвести ни одного графика’
‘Я думал, что использую те же параметры, но у меня получаются другие результаты!?I’
‘Где взять события, отобранные предыдущей версией моих скриптов?’
‘Оно работало еще вчера!’
‘Зачем я это сделал?’
26
Источники сложности
Физика
Работа с данными
Стратегия анализа (http://bit.ly/SqDDE4)
Шаги анализа
Командное взаимодействие
27
Экосистема для экспериментов
Программная среда для поддержки экосистемы совместной исследовательской работы над общими задачами, позволяющая:
выполнять численные эксперименты над большими объемами данных
получать воспроизводимые результаты,
использовать единообразные критерии качества.
28
ROOT PyROOT
Plotly, D3s
Matplotlib SciKit-Learn
EF Python Wrapper
!!!!!
EF0
29
MN
…
Основные компоненты
30
Текст перед кодом:
self.rsp.removeHeader("Transfer-Encoding");
Заголовок (не длинней одной строки)
31
Школа Анализа Данных
33
Студенты ШАД
Физика 25%
! !!Математика 70%
Инженерные 5%
34
Алгоритмы и структуры данных
Машинное обучение
Дискретная математика
Теория вероятности, статистика
Обработка текстов на естественных языках
Теория графов
Основные курсы
Школа Анализа Данных Яндекса
35
!
Кафедра в ведущих ВУЗах (МФТИ, МГУ, ВШЭ, …)
Факультет теоретической информатики ВШЭ
Аспирантура в МФТИ, ВШЭ,
Публикации в ведущих изданиях
Стажировка студентов из европейских ВУЗов
Исследовательские работы
36
109
cuts
N
M
+ I
II?
Bs ! µ+µ�
Bs ! 4µ⌧ ! 3µB ! K⇤µ+µ�
· · ·
Сравнение гипотез
Равномерность эффективности
37
ROC:
Равномерность:
Заключение
Наши сервисы могут быть востребованы в SHIP
– event index – event filter
Задачи SHIP - новое направление исследований
– модель распределенных вычислений У нас есть технологии, для развития этого направления
Это интересно ШАДу, а Вам?
38