Методы машинного обучения в физике элементарных...

Андрей Устюжанин

Методы машинного обучения в физике элементарных частиц

27 октября 2014

Из чего сделана наша вселенная?

Универсальные законы?

Что такое антиматерия? темная материя?

Как перейти от законов микро-мира к законам макро-мира?

…

3

Вопросы «на миллион»

Гипотезы → Эксперименты → Законы

4

F=ma

E=mc2

Стандартная модель

Суперсимметричная модель частиц (SUSY)?

Гравитоны?

Экспериментальная наука «тогда»

5

Эксперименты «сегодня»

6

Эксперименты и ускорители в ЦЕРНе

7

Детекторы экспериментов

8

Заголовок (не длинней одной строки)

9

A simulated SUSY event in ATLAS

10

high pT muons

high pT jets of hadrons

missing transverse energy

p p

«Событие» в физике частиц (event)

Единица данных - событие (event)

Идеально, если представлено набором векторов импульсов и набором типов частиц. минимум погрешности

На практике содержит «реконструированные» траектории, кластеры энергии, зафиксированные калориметрами, описывается величинами содержащими ошибки (несовершенно!):

– разрешение датчиков – изоляция траекторий – углы – …

11

12

1 событие - 150 Kb

1 год ~ 10 Pb

Генерация событий

Проверка гипотез

Глазами физика

– набор данных описывается вектором переменных (x1, x2, …, xn)

– для фона и сигнала распределения различны

– при условии, что есть событие нужно с заданной степенью достоверности (discriminating power) сказать - является ли оно фоном или сигналом (предполагается возможность ошибки)

Свойства решающего правила (discriminator):

– Эффективность: вероятность корректного определения сигнальных событий

– Вероятность «мисидентификации»: вероятность определить сигнал как фон

– Чистота (purity): доля правильно определенного сигнала

13

H0 - (null hypothesis) нулевая гипотеза (в выборке только фон)

H1 - альтернативная гипотеза (в выборке содержится сигнал + фон)

α - уровень достоверности, вероятность отклонить H1, при том, что она истинна (ошибка первого рода)

– α = 1 - эффективность

β - вероятность отклонить H0, при том что она истинна (ошибка второго рода)

– β = вероятность мисидентификации

Глазами статистика

14

События проверки гипотез

15

For each event we measure a set of numbers: ( )nx,,x=x …1!

x1 = jet pT x2 = missing energy x3 = particle i.d. measure, ...

x follows some n-dimensional joint probability density, which depends on the type of event produced, i.e., was it ,ttpp→ …→ ,g~g~pp

xi

x jE.g. hypotheses H0, H1, ... Often simply �signal� (s), �background� (b)

( )1H|xp!

( )0H|xp!

Выбор оптимальных ограничений

16

In particle physics usually start by making simple �cuts�:

xi < ci xj < cj

Maybe later try some other type of decision boundary:

H0 H0

H0

H1

H1 H1

Разделение по переменным

17

Выборка событий

18

To search for events of a given type (H0: ‘signal’), need discriminating variable(s) distributed as differently as possible relative to unwanted event types (H1: ‘background’)

Count number of events in acceptance region defined by ‘cuts’

Expected number of signal events: s = !s !s L

Expected number of background events: b = ! b !b L

!s, !b = cross section for signal, background

‘Efficiencies’: !s = P( accept | s ), !b = P( accept | b )

L = integrated luminosity (related to beam intensity, data taking time)

Открытие бозона Хиггса

19

Лемма Неймана-Пирсона

20

Открытие?!

21

Статистическая значимость гипотезы

22

подробности: http://www.pp.rhul.ac.uk/~cowan

http://bit.ly/1tZlZci

http://www.pp.rhul.ac.uk/~cowan

http://bit.ly/1tZlZci

«In Monte-Carlo we trust!»

23

Background events

24

This event from Standard Model ttbar production also has high pT jets and muons, and some missing transverse energy.

→ can easily mimic a SUSY event.

25

Analysis Value Chain

Get datasets (Real, MC, ...)

Pre-selection

testtrain

Pre-processing (e.g., add variables)

Event selection

cut-based

MVA-based

Counting/fitting

Systematics Estimation

Signifiсance Estimation

В поисках лучшей выборки…

Возможности улучшения

26

more powerful algorithms (e.g. BDT, Deep Neural Networks)

improved features (e.g. «isolation» variables or particle identification)

complex training scenarios (e.g. n-folding, ensembling, blending, cascading)

https://tech.yandex.ru/education/m/shad/talks/1423/ https://tech.yandex.ru/education/m/shad/talks/1878/

https://tech.yandex.ru/education/m/shad/talks/1423/

https://tech.yandex.ru/education/m/shad/talks/1878/

27

Алгоритмы, реализацииСемества алгоритмов:

– Boosted Decision Trees (BDT)

– Artificial Neural Network (ANN)

– Support Vector Machine (SVM)

– Clustering, Bayesian Networks, ...

Реализации

– TMVA (60+ algorithms)

– NeuroBayes

– python scikit-learn

– R packages

– Private (Matrixnet, predict.io)

– XGBoost, …

Цена точности

How do I check quality of event discriminating function?

– Overfitting?

– Correlations?

– Relevance of figure of merit to analysis significance?

How do I deal with complexity?

– Estimate influence of model parameters

– Extra computation

– Organization (cross-checks, collaboration)

28

Переобучение

29

training sample independent validation sample

If decision boundary is too flexible it will conform too closely to the training points → overtraining. Monitor by applying classifier to independent validation sample.

Figure-of-Merits Land

Area under ROC

Likelihood

Misclassification

False Positive, False Negative

Punzi measure

30

SpS+B

, SpB, · · ·

Efficiency flatness?

31

OverfittingDecision Tree Underfitting RandomForest

Number of iterations

Training set accuracy

Test set accuracy

Performance (ROC, Learning curve)

Не только физика

Не только физика

34

Online triggers and DAQ

Offline simulation and processing

Data storage architectures

Resource management and provisioning

Data analytics

Networks and connectivity

Другие задачи

Оптимизация разбиения файлов по дискам и лентам

Предсказание аномалий в поведении детектора

Предсказание ресурсов/времени расчета задач

…

35

Классификатор без корреляций

36 http://arxiv.org/abs/1410.4140v1

http://arxiv.org/abs/1410.4140v1

Определение равномерности

37 http://arxiv.org/abs/1410.4140v1


Воспроизводимость эксперимента

Источники сложности

Физика

Работа с данными

Стратегия анализа (http://bit.ly/SqDDE4)

Шаги анализа

Командное взаимодействие

39

http://bit.ly/SqDDE4

Индикаторы сложности

‘Каким способом я сгененировал график 13?’

‘Новый студент хочет воспользоваться моделью, опубликованной мной 3 года назад, но я не могу воспроизвести ни одного графика’

‘Я думал, что использую те же параметры, но у меня получаются другие результаты!?I’

‘Где взять события, отобранные предыдущей версией моих скриптов?’

‘Оно работало еще вчера!’

‘Зачем я это сделал?’

40

Экосистема для экспериментов

Программная среда для поддержки экосистемы совместной исследовательской работы над общими задачами и данными, позволяющая:

выполнять численные эксперименты над большими объемами данных

получать воспроизводимые результаты,

использовать единообразные критерии качества.

41

42

NativeLibraries

Language modules

IntermediateData objects

Analysis code

Source data/

metadata

Black-box

XGBoost

TMVA

scikit-learn

Основные компоненты

Текст перед кодом:

self.rsp.removeHeader("Transfer-Encoding");

Заголовок (не длинней одной строки)

43

Заключение

44

Заключение Вместо заключения

совместные исследовательские работы с ЦЕРНом

развитие нового направления

практика в Яндексе

45

Bs ! µ+µ�

Bs ! 4µ⌧ ! 3µB ! K⇤µ+µ�

· · ·



Андрей Устюжанин

Руководитель совместных проектов Яндекс-ЦЕРН

[email protected]

Спасибо!

mailto:[email protected]

«…rejecting the background-only hypothesis in a statistical sense is only part of discovering a new phenomenon. One’s degree of belief that a new process is present will depend in general on other factors as well, such as the plausibility of the new signal hypothesis and the degree to which it can describe the data. Here, however, we only consider the task of determining the p-value of the background-only hypothesis; if it is found below a specified threshold, we regard this as “discovery”»

47 From Cowan et al., EPJC71(2011) 1554

Методы машинного обучения в физике элементарных...

Science