Методы машинного обучения в физике элементарных...
TRANSCRIPT
Андрей Устюжанин
Методы машинного обучения в физике элементарных частиц
27 октября 2014
Из чего сделана наша вселенная?
Универсальные законы?
Что такое антиматерия? темная материя?
Как перейти от законов микро-мира к законам макро-мира?
…
3
Вопросы «на миллион»
Гипотезы → Эксперименты → Законы
4
F=ma
E=mc2
Стандартная модель
Суперсимметричная модель частиц (SUSY)?
Гравитоны?
Экспериментальная наука «тогда»
5
Эксперименты «сегодня»
6
Эксперименты и ускорители в ЦЕРНе
7
Детекторы экспериментов
8
Заголовок (не длинней одной строки)
9
A simulated SUSY event in ATLAS
10
high pT muons
high pT jets of hadrons
missing transverse energy
p p
«Событие» в физике частиц (event)
Единица данных - событие (event)
Идеально, если представлено набором векторов импульсов и набором типов частиц. минимум погрешности
На практике содержит «реконструированные» траектории, кластеры энергии, зафиксированные калориметрами, описывается величинами содержащими ошибки (несовершенно!):
– разрешение датчиков – изоляция траекторий – углы – …
11
12
1 событие - 150 Kb
1 год ~ 10 Pb
Генерация событий
Проверка гипотез
Глазами физика
– набор данных описывается вектором переменных (x1, x2, …, xn)
– для фона и сигнала распределения различны
– при условии, что есть событие нужно с заданной степенью достоверности (discriminating power) сказать - является ли оно фоном или сигналом (предполагается возможность ошибки)
Свойства решающего правила (discriminator):
– Эффективность: вероятность корректного определения сигнальных событий
– Вероятность «мисидентификации»: вероятность определить сигнал как фон
– Чистота (purity): доля правильно определенного сигнала
13
H0 - (null hypothesis) нулевая гипотеза (в выборке только фон)
H1 - альтернативная гипотеза (в выборке содержится сигнал + фон)
α - уровень достоверности, вероятность отклонить H1, при том, что она истинна (ошибка первого рода)
– α = 1 - эффективность
β - вероятность отклонить H0, при том что она истинна (ошибка второго рода)
– β = вероятность мисидентификации
Глазами статистика
14
События проверки гипотез
15
For each event we measure a set of numbers: ( )nx,,x=x …1!
x1 = jet pT x2 = missing energy x3 = particle i.d. measure, ...
x follows some n-dimensional joint probability density, which depends on the type of event produced, i.e., was it ,ttpp→ …→ ,g~g~pp
xi
x jE.g. hypotheses H0, H1, ... Often simply �signal� (s), �background� (b)
( )1H|xp!
( )0H|xp!
Выбор оптимальных ограничений
16
In particle physics usually start by making simple �cuts�:
xi < ci xj < cj
Maybe later try some other type of decision boundary:
H0 H0
H0
H1
H1 H1
Разделение по переменным
17
Выборка событий
18
To search for events of a given type (H0: ‘signal’), need discriminating variable(s) distributed as differently as possible relative to unwanted event types (H1: ‘background’)
Count number of events in acceptance region defined by ‘cuts’
Expected number of signal events: s = !s !s L
Expected number of background events: b = ! b !b L
!s, !b = cross section for signal, background
‘Efficiencies’: !s = P( accept | s ), !b = P( accept | b )
L = integrated luminosity (related to beam intensity, data taking time)
Открытие бозона Хиггса
19
Открытие бозона Хиггса
19
Лемма Неймана-Пирсона
20
Открытие?!
21
Статистическая значимость гипотезы
22
подробности: http://www.pp.rhul.ac.uk/~cowan
http://bit.ly/1tZlZci
«In Monte-Carlo we trust!»
23
Background events
24
This event from Standard Model ttbar production also has high pT jets and muons, and some missing transverse energy.
→ can easily mimic a SUSY event.
25
Analysis Value Chain
Get datasets (Real, MC, ...)
Pre-selection
testtrain
Pre-processing (e.g., add variables)
Event selection
cut-based
MVA-based
Counting/fitting
Systematics Estimation
Signifiсance Estimation
В поисках лучшей выборки…
25
Analysis Value Chain
Get datasets (Real, MC, ...)
Pre-selection
testtrain
Pre-processing (e.g., add variables)
Event selection
cut-based
MVA-based
Counting/fitting
Systematics Estimation
Signifiсance Estimation
В поисках лучшей выборки…
Возможности улучшения
26
more powerful algorithms (e.g. BDT, Deep Neural Networks)
improved features (e.g. «isolation» variables or particle identification)
complex training scenarios (e.g. n-folding, ensembling, blending, cascading)
https://tech.yandex.ru/education/m/shad/talks/1423/ https://tech.yandex.ru/education/m/shad/talks/1878/
27
Алгоритмы, реализацииСемества алгоритмов:
– Boosted Decision Trees (BDT)
– Artificial Neural Network (ANN)
– Support Vector Machine (SVM)
– Clustering, Bayesian Networks, ...
Реализации
– TMVA (60+ algorithms)
– NeuroBayes
– python scikit-learn
– R packages
– Private (Matrixnet, predict.io)
– XGBoost, …
Цена точности
How do I check quality of event discriminating function?
– Overfitting?
– Correlations?
– Relevance of figure of merit to analysis significance?
How do I deal with complexity?
– Estimate influence of model parameters
– Extra computation
– Organization (cross-checks, collaboration)
28
Переобучение
29
training sample independent validation sample
If decision boundary is too flexible it will conform too closely to the training points → overtraining. Monitor by applying classifier to independent validation sample.
Figure-of-Merits Land
Area under ROC
Likelihood
Misclassification
False Positive, False Negative
Punzi measure
30
SpS+B
, SpB, · · ·
Efficiency flatness?
31
OverfittingDecision Tree Underfitting RandomForest
Number of iterations
Training set accuracy
Test set accuracy
Performance (ROC, Learning curve)
Не только физика
33
Не только физика
34
Online triggers and DAQ
Offline simulation and processing
Data storage architectures
Resource management and provisioning
Data analytics
Networks and connectivity
Другие задачи
Оптимизация разбиения файлов по дискам и лентам
Предсказание аномалий в поведении детектора
Предсказание ресурсов/времени расчета задач
…
35
Воспроизводимость эксперимента
Источники сложности
Физика
Работа с данными
Стратегия анализа (http://bit.ly/SqDDE4)
Шаги анализа
Командное взаимодействие
39
Индикаторы сложности
‘Каким способом я сгененировал график 13?’
‘Новый студент хочет воспользоваться моделью, опубликованной мной 3 года назад, но я не могу воспроизвести ни одного графика’
‘Я думал, что использую те же параметры, но у меня получаются другие результаты!?I’
‘Где взять события, отобранные предыдущей версией моих скриптов?’
‘Оно работало еще вчера!’
‘Зачем я это сделал?’
40
Экосистема для экспериментов
Программная среда для поддержки экосистемы совместной исследовательской работы над общими задачами и данными, позволяющая:
выполнять численные эксперименты над большими объемами данных
получать воспроизводимые результаты,
использовать единообразные критерии качества.
41
42
NativeLibraries
Language modules
IntermediateData objects
Analysis code
Source data/
metadata
Black-box
XGBoost
TMVA
scikit-learn
Основные компоненты
Текст перед кодом:
self.rsp.removeHeader("Transfer-Encoding");
Заголовок (не длинней одной строки)
43
Заключение
44
Заключение Вместо заключения
совместные исследовательские работы с ЦЕРНом
развитие нового направления
практика в Яндексе
45
Bs ! µ+µ�
Bs ! 4µ⌧ ! 3µB ! K⇤µ+µ�
· · ·
http://arxiv.org/abs/1410.4140v1
Андрей Устюжанин
Руководитель совместных проектов Яндекс-ЦЕРН
Спасибо!
«…rejecting the background-only hypothesis in a statistical sense is only part of discovering a new phenomenon. One’s degree of belief that a new process is present will depend in general on other factors as well, such as the plausibility of the new signal hypothesis and the degree to which it can describe the data. Here, however, we only consider the task of determining the p-value of the background-only hypothesis; if it is found below a specified threshold, we regard this as “discovery”»
47 From Cowan et al., EPJC71(2011) 1554