Предиктивне методеodlucivanje.fon.bg.ac.rs › wp-content › uploads ›...
Post on 04-Jul-2020
18 Views
Preview:
TRANSCRIPT
Откривање законитости у подацима - ОЗП
(енг. Data mining)
Факултет организационих наука Центар за пословно одлучивање
Предиктивне методе
Дескрипција и Предикција
• Прошлост, садашњост, будућност
• Узорак и популација
• “Циљана” особина (излазни атрибут)
• Примери:
– Како послује предузеће? Колико производа ће се продати у наредних месец дана?
– Какво је стање пацијента? Који лек ће имати најбољи ефекат на лечење?
Случај телком • Компанија моб. телефоније у САД. Има највећи број
корисника и тржишно учешће од око 70%. На тржиште су почели да улазе и други моб. оператери и компанија је почела да губи свој тржишни удео. Све више корисника узима услуге других оператера. Изгубљено је 5% корисника и претпоставља се да ће тренд да се настави.
• Компанија: – жели да спречи одлазак потрошача – води податке о рачунима (задужења, врсте услуга) за
своје потрошаче, као и информацију да ли је потрошач отказао услуге
• Питања: 1. Како препознати који потрошач ће отићи? 2. Колико раније је могуће препозати потенцијални
одлазак?
3. Како реаговати ако се зна да ће корисник отићи?
Подаци о кориснику
Дистрибуција атрибута
Дистрибуција атрибута
Дистрибуција атрибута
Дистрибуција атрибута
Дескрипција и Предикција
• Кластеровање:
– нема излазни атрибут
• Асоцијација:
– нема одређен (јединствен) излаз
Предиктивни модел
Apply
Model
Induction
Deduction
Learn
Model
Model
Tid Attrib1 Attrib2 Attrib3 Class
1 Yes Large 125K No
2 No Medium 100K No
3 No Small 70K No
4 Yes Medium 120K No
5 No Large 95K Yes
6 No Medium 60K No
7 Yes Large 220K No
8 No Small 85K Yes
9 No Medium 75K No
10 No Small 90K Yes 10
Tid Attrib1 Attrib2 Attrib3 Class
11 No Small 55K ?
12 Yes Medium 80K ?
13 Yes Large 110K ?
14 No Small 95K ?
15 No Large 67K ? 10
Test Set
Learning
algorithm
Training Set
Класификација
• Сврставање објеката у једну од више предодређених група (класа), а на основу особина (атрибута) објекта
– враћа/не-враћа кредит
– има/нема болест
– кишовито/местимично-облачно/сунчано/...
• Предиктивни задатак
– излазни атрибут је категорички (дискретни)
• Класа је увек кључна особина за примену
Проблем класификације
?
Стабло одлучивања
• Алгоритам и модел за класификацију
• Основни делови
– Корен и чворови
– Гране
– Листови (чворови одлуке)
Модел Стабла одлучивања
Кућа
Статус
Приход
ДА НЕ
НЕ
НЕ
Да Не
У браку Сам, Разведен
< 80K > 80K
Атрибути за гранање
Model stabla
Модел стабла за Телко
Алгоритам стабла одлучивања
• Основни кораци развоја модела стабла
1. Генерисање потенцијалних чворова гранања
2. Избор гранање помоћу мера квалитета
3. Заустављање гранања (рано орезивање )
4. За сваку новонасталу грану, враћање на Корак 1
5. Орезивање након рада алгоритма
• Генерисање потенцијалних чворова гранања
• Избор гранање помоћу мера квалитета
• Заустављање гранања (рано орезивање )
• Орезивање након рада алгоритма
Алгоритам стабла одлучивања
Алгоритми за класификацију
• Стабло одлучивања
• Наивни Бајес
• Логистичка регресија
• к-Најближих суседа
• Вештачке неуронске мреже
• ...
Логистичка регресија
• Модел: – линеарна комбинација атрибута (отежана сума)
– за сваку вредност излазног атрибута (нпр. за одобравање кредита, за одбијање кредита)
– Одобри кредит = 0.234* Приход - 0.128*Задужења
• Тумачење модела e0. 234= 1.264 =>(1.264-1)*100 = 26.4%
– За свако јединично повећање Прихода постоји 26,4% увећање шансе да се одобри кредит
•
𝑃 класа ~𝑒𝑎∙𝑥1+𝑏∙𝑥2+⋯
Логистичка регресија
к - најближих суседа
• “Класа новог објекта треба да одговара класама сличних објеката из прошлости”
• Модел: – база предходних објеката, њихових особина
и познате класе
• Врло брзо учење модела из података
• Споро предвиђање – претрага целе базе и упоређивање
удаљености
к - најближих суседа
𝑑 𝐴,𝐵 = 𝐴𝑖 − 𝐵𝑖 2
𝑚
𝑖
Евалуација модела - Метрике
FNTP
TP
FPTP
TP
FNFPTNTP
TNTP
dcba
da
(r) Recall
(p)Precision
Accuracy
Предвиђена класа
Стварна
класа
Класа=Да Класа=Не
Класа=Да a
(TP)
b
(FN)
Класа=Не c
(FP)
d
(TN)
Евалуација модела
Претренирање
• Прекомплексан модел није репрезентативан
Евалуација модела - Поступак
• Одвојити!:
– Тренинг скуп
– Тест скуп
• Модел се гради на тренинг скупу, а процењује квалитет на тест скупу
• Добра пракса:
– 70-30% подела тренинг-тест
– 10-струка крос-валидација
Претренирање
Крива учења
Регресија
• Предвиђање где је излазни атрибут нумеричког типа
• Пример:
Колика ће продаја бити после промоције?
Регресија
• Количина премије осигурања:
Линеарна регресија
• Модел:
– Линеарна комбинација улазних атрибута (отежана сума)
– Треба научити параметре (тежине) више атрибута одједном
– Тумачење тежина?
Линеарна регресија
Алгоритми за регресију
• Линеарна регресија
• Стабло одлучивања
• к-Најближих суседа
• Вештачке неуронске мреже
• ...
Евалуација регресије - Метрике
• Зашто мера тачности (accuracy) није адекватна?
• Како мерити грешку?
N
i
ii класапредвиђањеN
21 Грешка
Средња квадратна грешка:
број
Примене
• Избор лека за пацијента
• Одређивање величине премије осигурања
• Предвиђање количине усева
• Предвиђање банкрота предузећа
• Препознавање кључних купаца
• Одређивање врсте космичког објекта
• Предвиђање температуре
• Предвиђање деликвенције код деце
ТЕСТ
top related