l2: Задача классификации и регрессии. Метрики ошибок
DESCRIPTION
Задача классификации и регрессии. Метрики ошибокTRANSCRIPT
![Page 1: L2: Задача классификации и регрессии. Метрики ошибок](https://reader030.vdocuments.net/reader030/viewer/2022020714/5594896a1a28ab1e7d8b46b4/html5/thumbnails/1.jpg)
Введение в Data ScienceЗанятие 1. Классификация и регрессия
Николай Анохин Михаил Фирулик
3 марта 2014 г.
![Page 2: L2: Задача классификации и регрессии. Метрики ошибок](https://reader030.vdocuments.net/reader030/viewer/2022020714/5594896a1a28ab1e7d8b46b4/html5/thumbnails/2.jpg)
Постановка задач классификации и регрессии
Теория принятия решений
Обучение модели
Выбор модели
![Page 3: L2: Задача классификации и регрессии. Метрики ошибок](https://reader030.vdocuments.net/reader030/viewer/2022020714/5594896a1a28ab1e7d8b46b4/html5/thumbnails/3.jpg)
Классификация: интуиция
ЗадачаРазработать алгоритм, позволяющий определить класспроизвольного объекта из некоторго множества
I Дана обучающая выборка, в которой для каждого объектаизвестен класс
![Page 4: L2: Задача классификации и регрессии. Метрики ошибок](https://reader030.vdocuments.net/reader030/viewer/2022020714/5594896a1a28ab1e7d8b46b4/html5/thumbnails/4.jpg)
Регрессия: интуиция
ЗадачаРазработать алгоритм, позволяющий предсказать числовуюхарактеристику произвольного объекта из некоторого множества
I Дана обучающая выборка, в которой для каждого объектаизвестно значение данной числовой характеристики
![Page 5: L2: Задача классификации и регрессии. Метрики ошибок](https://reader030.vdocuments.net/reader030/viewer/2022020714/5594896a1a28ab1e7d8b46b4/html5/thumbnails/5.jpg)
Формализуем
X – множество объектовT – множество значений целевой переменной (target variable)
Дана обучающая выборка из объектов
X = (x1, . . . , xN)>, xi ∈ X
и соответствующие им классы
T = (t1, . . . , tN)>, ti ∈ T
Требуется найти функцию
y∗(x) : X → T ,
позволяющую для произвольного x ∈ X наиболее точно предсказатьсоответствующее t ∈ T
![Page 6: L2: Задача классификации и регрессии. Метрики ошибок](https://reader030.vdocuments.net/reader030/viewer/2022020714/5594896a1a28ab1e7d8b46b4/html5/thumbnails/6.jpg)
Целевая переменная
I T = {C1, . . . ,CK} – задача классификации в Kнепересекающихся классов
I T = [a, b] ⊂ R – задача регрессии
![Page 7: L2: Задача классификации и регрессии. Метрики ошибок](https://reader030.vdocuments.net/reader030/viewer/2022020714/5594896a1a28ab1e7d8b46b4/html5/thumbnails/7.jpg)
Как решать?
M Выдвигаем гипотезу насчет модели - семействапараметрических функций вида
Y = {y(x , θ) : X ×Θ→ T},
которая могла бы решить нашу задачу (model selection)L Выбираем наилучшие параметры модели θ∗, используя
алгоритм обучения
A(X,T) : (X ,T )N → Y
(learning/inference)D Используя полученную модель y∗(x) = y(x , θ∗),
классифицируем неизвестные объекты (decision making)
![Page 8: L2: Задача классификации и регрессии. Метрики ошибок](https://reader030.vdocuments.net/reader030/viewer/2022020714/5594896a1a28ab1e7d8b46b4/html5/thumbnails/8.jpg)
Теория принятия решений
M Выдвигаем гипотезу насчет модели - семействапараметрических функций вида
Y = {y(x , θ) : X ×Θ→ T},
которая могла бы решить нашу задачу (model selection)L Выбираем наилучшие параметры модели θ∗, используя
алгоритм обучения
A(X,T) : (X ,T )N → Y
(learning/inference)D Используя полученную модель y∗(x) = y(x , θ∗),
классифицируем неизвестные объекты (decision making)
![Page 9: L2: Задача классификации и регрессии. Метрики ошибок](https://reader030.vdocuments.net/reader030/viewer/2022020714/5594896a1a28ab1e7d8b46b4/html5/thumbnails/9.jpg)
Что моделировать?
Генеративные модели. Смоделировать p(x |Ck) и p(Ck), применитьтеорему Байеса
p(Ck |x) =p(x |Ck)p(Ck)
p(x)
и использовать p(Ck |x) для принятия решения(NB, Bayes Networks, MRF)
Дискриминативные модели. Смоделировать p(Ck |x) ииспользовать ее для принятия решения(Logistic Regression, Decision Trees)
Функции решения. Смоделировать напрямую f (x) : X → T(Linear Models, Neural Networks)
![Page 10: L2: Задача классификации и регрессии. Метрики ошибок](https://reader030.vdocuments.net/reader030/viewer/2022020714/5594896a1a28ab1e7d8b46b4/html5/thumbnails/10.jpg)
Минимизируем риск
ПустьRk – область, такая что все x ∈ Rk относим к Ck
ДаноRkj – риск, связанный с отнесением объекта класса Ck к классу Cj
Найти∀k : Rk , такие, что математическое ожидание риска E [R]минимально.
E [R] =∑k
∑j
∫Rj
Rkjp(Ck |x)p(x)dx
![Page 11: L2: Задача классификации и регрессии. Метрики ошибок](https://reader030.vdocuments.net/reader030/viewer/2022020714/5594896a1a28ab1e7d8b46b4/html5/thumbnails/11.jpg)
Медицинская диагностика
Матрица риска [Rkj ]
sick normalsick 0 10
normal 1 0
Условные вероятности p(Ck |x)
p(normal|moving) = 0.9, p(normal|not moving) = 0.3
Вероятности p(x)p(moving) = 0.7
Требуется определить Rsick, Rnormal
![Page 12: L2: Задача классификации и регрессии. Метрики ошибок](https://reader030.vdocuments.net/reader030/viewer/2022020714/5594896a1a28ab1e7d8b46b4/html5/thumbnails/12.jpg)
Регрессия
Те же виды моделей: генеративные, дискриминативные,функция решения
Задана функция рискаR(t, y(x))
Математическое ожидание E [R]
E [R] =
∫ ∫R(t, y(x))p(x , t)dxdt
Для квадратичной функции риска R(t, y(x)) = [t − y(x)]2
y(x) = Et [t|x ]
![Page 13: L2: Задача классификации и регрессии. Метрики ошибок](https://reader030.vdocuments.net/reader030/viewer/2022020714/5594896a1a28ab1e7d8b46b4/html5/thumbnails/13.jpg)
Когда удобнее вероятностные модели
I Функция риска может менятьсяI Отказ от классификации (reject option)I Дисбаланс в выборкеI Ансамбли моделей
![Page 14: L2: Задача классификации и регрессии. Метрики ошибок](https://reader030.vdocuments.net/reader030/viewer/2022020714/5594896a1a28ab1e7d8b46b4/html5/thumbnails/14.jpg)
Обучение модели
M Выдвигаем гипотезу насчет модели - семействапараметрических функций вида
Y = {y(x , θ) : X ×Θ→ T},
которая могла бы решить нашу задачу (model selection)L Выбираем наилучшие параметры модели θ∗, используя
алгоритм обучения
A(X,T) : (X ,T )N → Y
(learning/inference)D Используя полученную модель y∗(x) = y(x , θ∗),
классифицируем неизвестные объекты (decision making)
![Page 15: L2: Задача классификации и регрессии. Метрики ошибок](https://reader030.vdocuments.net/reader030/viewer/2022020714/5594896a1a28ab1e7d8b46b4/html5/thumbnails/15.jpg)
Выбор параметров модели
Функция потерь L(x , t, θ) - ошибка, которую для данного x даетмодель y(x , θ) по сравнению с реальным значением t
Эмпирический риск – средняя ошибка на обучающей выборке
Q(X,T, θ) =1
N
N∑k=1
L(xk , tk , θ)
Задача – найти значение θ∗, минимизирующее эмпирический риск
θ∗ = θ∗(X,T) = argminθQ(X,T, θ)
![Page 16: L2: Задача классификации и регрессии. Метрики ошибок](https://reader030.vdocuments.net/reader030/viewer/2022020714/5594896a1a28ab1e7d8b46b4/html5/thumbnails/16.jpg)
Некоторые функции потерь
I Индикатор ошибки
L(x , t, θ) = 0 if y(x , θ) = t else 1
I Функция Минковского
L(x , t, θ) = |t − y(x , θ)|q
Частные случаи: квадратичная q = 2, абсолютная ошибка q = 1
I HingeL(x , t, θ) = max(0, 1− t ∗ y(x , θ))
I Информационная
L(x , t, θ) = − log2 p(t|x , θ)
![Page 17: L2: Задача классификации и регрессии. Метрики ошибок](https://reader030.vdocuments.net/reader030/viewer/2022020714/5594896a1a28ab1e7d8b46b4/html5/thumbnails/17.jpg)
Проблема 1. Переобучение
ЗадачаАппроксимировать обучающую выборку полиномом M степени
![Page 18: L2: Задача классификации и регрессии. Метрики ошибок](https://reader030.vdocuments.net/reader030/viewer/2022020714/5594896a1a28ab1e7d8b46b4/html5/thumbnails/18.jpg)
Проблема 2. Проклятие размерности
ЗадачаКлассифицировать объекты.
![Page 19: L2: Задача классификации и регрессии. Метрики ошибок](https://reader030.vdocuments.net/reader030/viewer/2022020714/5594896a1a28ab1e7d8b46b4/html5/thumbnails/19.jpg)
Выбор модели
M Выдвигаем гипотезу насчет модели - семействапараметрических функций вида
Y = {y(x , θ) : X ×Θ→ T},
которая могла бы решить нашу задачу (model selection)L Выбираем наилучшие параметры модели θ∗, используя
алгоритм обучения
A(X,T) : (X ,T )N → Y
(learning/inference)D Используя полученную модель y∗(x) = y(x , θ∗),
классифицируем неизвестные объекты (decision making)
![Page 20: L2: Задача классификации и регрессии. Метрики ошибок](https://reader030.vdocuments.net/reader030/viewer/2022020714/5594896a1a28ab1e7d8b46b4/html5/thumbnails/20.jpg)
Как оценить различные модели?
Идеяиспользовать долю неверно классифицированных объектов(error rate)
Важное замечаниеerror rate на обучающей выборке НЕ является хорошим показателемкачества модели
![Page 21: L2: Задача классификации и регрессии. Метрики ошибок](https://reader030.vdocuments.net/reader030/viewer/2022020714/5594896a1a28ab1e7d8b46b4/html5/thumbnails/21.jpg)
Решение 1: разделение выборки
Делим обучающую выборку на тренировочную, валидационную итестовую
![Page 22: L2: Задача классификации и регрессии. Метрики ошибок](https://reader030.vdocuments.net/reader030/viewer/2022020714/5594896a1a28ab1e7d8b46b4/html5/thumbnails/22.jpg)
Решение 2: скользящий контроль
(n-times) (stratified) cross-validation
частный случай: leave-one-out
![Page 23: L2: Задача классификации и регрессии. Метрики ошибок](https://reader030.vdocuments.net/reader030/viewer/2022020714/5594896a1a28ab1e7d8b46b4/html5/thumbnails/23.jpg)
Решение 3: bootstrap
выбираем в тренировочную выбоку n объектов с возвращением
упражнение: найти математическое ожидание размера тестовойвыборки.
![Page 24: L2: Задача классификации и регрессии. Метрики ошибок](https://reader030.vdocuments.net/reader030/viewer/2022020714/5594896a1a28ab1e7d8b46b4/html5/thumbnails/24.jpg)
Доверительный интервал для success rateПри тестировании на N = 100 объектах было получено 25 ошибок.Таким образом измеренная вероятность успеха (success rate)составила f = 0.75. Найти доверительный интервал длядействительной вероятности успеха c уровнем доверия α = 0.8.
РешениеПусть p – действительная вероятность успеха в испытанияхбернулли, тогда
f ∼ N (p, p(1− p)/N) .
Воспользовавшись табличным значением P(−z ≤ N (0, 1) ≤ z) = α,имеем
P
(−z ≤ f − p√
p(1− p)/N≤ z
)= α,
откуда
p ∈
(f +
z2
2N± z
√f
N− f 2
N+
z2
4N2
)/
(1 +
z2
N
)= [0.69, 0.80]
![Page 25: L2: Задача классификации и регрессии. Метрики ошибок](https://reader030.vdocuments.net/reader030/viewer/2022020714/5594896a1a28ab1e7d8b46b4/html5/thumbnails/25.jpg)
Метрики качества. Вероятностные модели.
Пусть ti - действительный класс для объекта xiI Information loss
− 1
N
∑i
log2 p(ti |xi )
I Quadratic loss1
N
∑j
(p(tj |xi )− aj(xi ))2,
где
aj(xi ) =
{1, если Cj = ti
0, иначе
![Page 26: L2: Задача классификации и регрессии. Метрики ошибок](https://reader030.vdocuments.net/reader030/viewer/2022020714/5594896a1a28ab1e7d8b46b4/html5/thumbnails/26.jpg)
Метрики качества. Функции решения.
Предсказанныйtrue false
Действительный true TP FNfalse FP TN
success rate = accuracy =TP + TN
TP + FP + FN + TN
recall = TPR =TP
TP + FN; precision =
TP
TP + FP
FPR =FP
FP + TN
affinity = lift =accuracy
p
![Page 27: L2: Задача классификации и регрессии. Метрики ошибок](https://reader030.vdocuments.net/reader030/viewer/2022020714/5594896a1a28ab1e7d8b46b4/html5/thumbnails/27.jpg)
Receiver Operating Characteristic
TPR =TP
TP + FN; FPR =
FP
FP + TN
![Page 28: L2: Задача классификации и регрессии. Метрики ошибок](https://reader030.vdocuments.net/reader030/viewer/2022020714/5594896a1a28ab1e7d8b46b4/html5/thumbnails/28.jpg)
Упражнение
Простые классификаторыВ генеральной совокупности существуют объекты 3 классов,вероятность появления которых p1 < p2 < p3. Первый классификаторотносит все объекты к классу с большей вероятностью (то есть ктретьему). Второй классификатор случайно относит объект к одномуиз классов в соответствии с базовым распределением. Рассчитатьprecision и recall, которые эти классификаторы дают для каждого из3 классов.
![Page 29: L2: Задача классификации и регрессии. Метрики ошибок](https://reader030.vdocuments.net/reader030/viewer/2022020714/5594896a1a28ab1e7d8b46b4/html5/thumbnails/29.jpg)
Метрики качества. Регрессия
MSE =1
N
∑(y(xi )− ti )
2, RMSE =√
MSE
MAE =1
N
∑|y(xi )− ti |, RMAE =
√MAE
RSE =
∑(y(xi )− ti )
2∑(ti − t̄)2
correlation =Sty
StSy; Sty =
∑(y(i)− y(i))(ti − t̄)
N − 1
Sy =
∑(y(i)− y(i))2
N − 1; St =
∑(ti − t̄)2
N − 1
![Page 30: L2: Задача классификации и регрессии. Метрики ошибок](https://reader030.vdocuments.net/reader030/viewer/2022020714/5594896a1a28ab1e7d8b46b4/html5/thumbnails/30.jpg)
MDL принцип: интуиция
![Page 31: L2: Задача классификации и регрессии. Метрики ошибок](https://reader030.vdocuments.net/reader030/viewer/2022020714/5594896a1a28ab1e7d8b46b4/html5/thumbnails/31.jpg)
Спасибо!
Обратная связь