Предиктивне методеodlucivanje.fon.bg.ac.rs › wp-content › uploads ›...

Post on 04-Jul-2020

18 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Откривање законитости у подацима - ОЗП

(енг. Data mining)

Факултет организационих наука Центар за пословно одлучивање

Предиктивне методе

Дескрипција и Предикција

• Прошлост, садашњост, будућност

• Узорак и популација

• “Циљана” особина (излазни атрибут)

• Примери:

– Како послује предузеће? Колико производа ће се продати у наредних месец дана?

– Какво је стање пацијента? Који лек ће имати најбољи ефекат на лечење?

Случај телком • Компанија моб. телефоније у САД. Има највећи број

корисника и тржишно учешће од око 70%. На тржиште су почели да улазе и други моб. оператери и компанија је почела да губи свој тржишни удео. Све више корисника узима услуге других оператера. Изгубљено је 5% корисника и претпоставља се да ће тренд да се настави.

• Компанија: – жели да спречи одлазак потрошача – води податке о рачунима (задужења, врсте услуга) за

своје потрошаче, као и информацију да ли је потрошач отказао услуге

• Питања: 1. Како препознати који потрошач ће отићи? 2. Колико раније је могуће препозати потенцијални

одлазак?

3. Како реаговати ако се зна да ће корисник отићи?

Подаци о кориснику

Дистрибуција атрибута

Дистрибуција атрибута

Дистрибуција атрибута

Дистрибуција атрибута

Дескрипција и Предикција

• Кластеровање:

– нема излазни атрибут

• Асоцијација:

– нема одређен (јединствен) излаз

Предиктивни модел

Apply

Model

Induction

Deduction

Learn

Model

Model

Tid Attrib1 Attrib2 Attrib3 Class

1 Yes Large 125K No

2 No Medium 100K No

3 No Small 70K No

4 Yes Medium 120K No

5 No Large 95K Yes

6 No Medium 60K No

7 Yes Large 220K No

8 No Small 85K Yes

9 No Medium 75K No

10 No Small 90K Yes 10

Tid Attrib1 Attrib2 Attrib3 Class

11 No Small 55K ?

12 Yes Medium 80K ?

13 Yes Large 110K ?

14 No Small 95K ?

15 No Large 67K ? 10

Test Set

Learning

algorithm

Training Set

Класификација

• Сврставање објеката у једну од више предодређених група (класа), а на основу особина (атрибута) објекта

– враћа/не-враћа кредит

– има/нема болест

– кишовито/местимично-облачно/сунчано/...

• Предиктивни задатак

– излазни атрибут је категорички (дискретни)

• Класа је увек кључна особина за примену

Проблем класификације

?

Стабло одлучивања

• Алгоритам и модел за класификацију

• Основни делови

– Корен и чворови

– Гране

– Листови (чворови одлуке)

Модел Стабла одлучивања

Кућа

Статус

Приход

ДА НЕ

НЕ

НЕ

Да Не

У браку Сам, Разведен

< 80K > 80K

Атрибути за гранање

Model stabla

Модел стабла за Телко

Алгоритам стабла одлучивања

• Основни кораци развоја модела стабла

1. Генерисање потенцијалних чворова гранања

2. Избор гранање помоћу мера квалитета

3. Заустављање гранања (рано орезивање )

4. За сваку новонасталу грану, враћање на Корак 1

5. Орезивање након рада алгоритма

• Генерисање потенцијалних чворова гранања

• Избор гранање помоћу мера квалитета

• Заустављање гранања (рано орезивање )

• Орезивање након рада алгоритма

Алгоритам стабла одлучивања

Алгоритми за класификацију

• Стабло одлучивања

• Наивни Бајес

• Логистичка регресија

• к-Најближих суседа

• Вештачке неуронске мреже

• ...

Логистичка регресија

• Модел: – линеарна комбинација атрибута (отежана сума)

– за сваку вредност излазног атрибута (нпр. за одобравање кредита, за одбијање кредита)

– Одобри кредит = 0.234* Приход - 0.128*Задужења

• Тумачење модела e0. 234= 1.264 =>(1.264-1)*100 = 26.4%

– За свако јединично повећање Прихода постоји 26,4% увећање шансе да се одобри кредит

𝑃 класа ~𝑒𝑎∙𝑥1+𝑏∙𝑥2+⋯

Логистичка регресија

к - најближих суседа

• “Класа новог објекта треба да одговара класама сличних објеката из прошлости”

• Модел: – база предходних објеката, њихових особина

и познате класе

• Врло брзо учење модела из података

• Споро предвиђање – претрага целе базе и упоређивање

удаљености

к - најближих суседа

𝑑 𝐴,𝐵 = 𝐴𝑖 − 𝐵𝑖 2

𝑚

𝑖

Евалуација модела - Метрике

FNTP

TP

FPTP

TP

FNFPTNTP

TNTP

dcba

da

(r) Recall

(p)Precision

Accuracy

Предвиђена класа

Стварна

класа

Класа=Да Класа=Не

Класа=Да a

(TP)

b

(FN)

Класа=Не c

(FP)

d

(TN)

Евалуација модела

Претренирање

• Прекомплексан модел није репрезентативан

Евалуација модела - Поступак

• Одвојити!:

– Тренинг скуп

– Тест скуп

• Модел се гради на тренинг скупу, а процењује квалитет на тест скупу

• Добра пракса:

– 70-30% подела тренинг-тест

– 10-струка крос-валидација

Претренирање

Крива учења

Регресија

• Предвиђање где је излазни атрибут нумеричког типа

• Пример:

Колика ће продаја бити после промоције?

Регресија

• Количина премије осигурања:

Линеарна регресија

• Модел:

– Линеарна комбинација улазних атрибута (отежана сума)

– Треба научити параметре (тежине) више атрибута одједном

– Тумачење тежина?

Линеарна регресија

Алгоритми за регресију

• Линеарна регресија

• Стабло одлучивања

• к-Најближих суседа

• Вештачке неуронске мреже

• ...

Евалуација регресије - Метрике

• Зашто мера тачности (accuracy) није адекватна?

• Како мерити грешку?

N

i

ii класапредвиђањеN

21 Грешка

Средња квадратна грешка:

број

Примене

• Избор лека за пацијента

• Одређивање величине премије осигурања

• Предвиђање количине усева

• Предвиђање банкрота предузећа

• Препознавање кључних купаца

• Одређивање врсте космичког објекта

• Предвиђање температуре

• Предвиђање деликвенције код деце

ТЕСТ

top related