introduktion til visual data mining and machine learning › kntur85557 › attachments... ·...
TRANSCRIPT
![Page 1: Introduktion til Visual Data Mining and Machine Learning › kntur85557 › attachments... · 2018-05-15 · Alt data Data brugt til at estimere modelparametrene. Data brugt til at](https://reader033.vdocuments.net/reader033/viewer/2022060320/5f0d0bdc7e708231d438697b/html5/thumbnails/1.jpg)
Copyright © SAS Inst itute Inc. A l l r ights reserved.
SAS® USER FORUMDENMARK 2017
Introduktion til Visual Data Mining and Machine LearningAstrid Enslev Vestergård, SAS Institute
![Page 2: Introduktion til Visual Data Mining and Machine Learning › kntur85557 › attachments... · 2018-05-15 · Alt data Data brugt til at estimere modelparametrene. Data brugt til at](https://reader033.vdocuments.net/reader033/viewer/2022060320/5f0d0bdc7e708231d438697b/html5/thumbnails/2.jpg)
Copyright © SAS Inst itute Inc. A l l r ights reserved.
SAS® USER FORUMSWEDEN 2017
Agenda
• Introduktion til et par machine learning-modeller
• Case-introduktion
• Demo
![Page 3: Introduktion til Visual Data Mining and Machine Learning › kntur85557 › attachments... · 2018-05-15 · Alt data Data brugt til at estimere modelparametrene. Data brugt til at](https://reader033.vdocuments.net/reader033/viewer/2022060320/5f0d0bdc7e708231d438697b/html5/thumbnails/3.jpg)
SAS® USER FORUMDENMARK 2017
Copyright © SAS Inst itute Inc. A l l r ights reserved.
Beslutningstræ1
2 3
X2 < 0.63
6 7
X1 >= 0.50
10 11
X2 >=0.69
4 5
X2 >= 0.63
X1 < 0.50 X1 >= 0.50
8 9
X1 >= 0.54X1 < 0.54
X1 < 0.50
![Page 4: Introduktion til Visual Data Mining and Machine Learning › kntur85557 › attachments... · 2018-05-15 · Alt data Data brugt til at estimere modelparametrene. Data brugt til at](https://reader033.vdocuments.net/reader033/viewer/2022060320/5f0d0bdc7e708231d438697b/html5/thumbnails/4.jpg)
SAS® USER FORUMDENMARK 2017
Copyright © SAS Inst itute Inc. A l l r ights reserved.
BeslutningstræSplit populationen op i to sub-populationer
N = 64104P = 0.65
N = 39544P=0.52
N = 24560P = 0.86
x <= 42 x > 42
ASplitter populationen op i to sub-populationer ved en vilkårlig variabel x – her med værdien 42
B
Variable Value Split strength*
Gender M vs F 0.017
Age 42 0.002
Etnicity {DK,EU} vs {nonEU} 0.005
Insurance {A,C} vs {D,E,F} 0.776
Municipality {Aarhus,Aalborg, …} vs {Odense, Esbjerg,…}
0.546
Business type {Bakery, Farming, ..} vs {Banking, Insurance, …}
0.443
Salary 123.456 0.022
Number of children X=0 vs 0<X 0.086
Company size 18 0.321
C Måle splitstyrken
* = Small means strong relation
Mand Kvinde
T = 1 123 443
T = 0 143 12
Traditionel Chi2-test for uafhængighed giver en P-værdi for hypotesen, at køn og target er uafhængige (ikke-relaterede).
Små P-værdier betyder derfor, at vi kan afvise hypotesen med stor sikkerhed.
Find ud af, hvilken variabel x er, og for hvilken værdi splittet skal ske ved. Næsten alle muligheder bliver afprøvet
![Page 5: Introduktion til Visual Data Mining and Machine Learning › kntur85557 › attachments... · 2018-05-15 · Alt data Data brugt til at estimere modelparametrene. Data brugt til at](https://reader033.vdocuments.net/reader033/viewer/2022060320/5f0d0bdc7e708231d438697b/html5/thumbnails/5.jpg)
SAS® USER FORUMDENMARK 2017
Copyright © SAS Inst itute Inc. A l l r ights reserved.
BeslutningstræOpdel inputrummet i kasser (bladnoder)
x1
x2
4 8
9
6
10
111
2 3
X2 < 0.63
6 7
X1 >= 0.50
10 11
X2 >=0.69
4 5
X2 >= 0.63
X1 < 0.50 X1 >= 0.50
8 9
X1 >= 0.54X1 < 0.54
X1 < 0.50
![Page 6: Introduktion til Visual Data Mining and Machine Learning › kntur85557 › attachments... · 2018-05-15 · Alt data Data brugt til at estimere modelparametrene. Data brugt til at](https://reader033.vdocuments.net/reader033/viewer/2022060320/5f0d0bdc7e708231d438697b/html5/thumbnails/6.jpg)
SAS® USER FORUMDENMARK 2017
Copyright © SAS Inst itute Inc. A l l r ights reserved.
BeslutningstræKompleksitet af beslutningstræsmodeller
Simple modeller Komplekse modeller
Antal slutnoder
L=2 L=3 L=4 L=5
Fejl
Valideringsfejl
Træningsfejl
![Page 7: Introduktion til Visual Data Mining and Machine Learning › kntur85557 › attachments... · 2018-05-15 · Alt data Data brugt til at estimere modelparametrene. Data brugt til at](https://reader033.vdocuments.net/reader033/viewer/2022060320/5f0d0bdc7e708231d438697b/html5/thumbnails/7.jpg)
SAS® USER FORUMDENMARK 2017
Copyright © SAS Inst itute Inc. A l l r ights reserved.
Overbygning på beslutningstræetBagging aka bootstrap aggregation
• Laver stikprøver af observationerne
• Laver flere modeller
• Laver en gennemsnitsmodel
• Sørger for, at outliers ikke får for meget vægt
![Page 8: Introduktion til Visual Data Mining and Machine Learning › kntur85557 › attachments... · 2018-05-15 · Alt data Data brugt til at estimere modelparametrene. Data brugt til at](https://reader033.vdocuments.net/reader033/viewer/2022060320/5f0d0bdc7e708231d438697b/html5/thumbnails/8.jpg)
SAS® USER FORUMDENMARK 2017
Copyright © SAS Inst itute Inc. A l l r ights reserved.
Random forestBagging begge veje
Fuldt datasæt Tilfældige stikprøvedata Træ på stikprøvedata
Random forests er en ensemblemetode, der bruger flere beslutningstræer baseret på
tilfældigt udvalgte subsæt af data.
![Page 9: Introduktion til Visual Data Mining and Machine Learning › kntur85557 › attachments... · 2018-05-15 · Alt data Data brugt til at estimere modelparametrene. Data brugt til at](https://reader033.vdocuments.net/reader033/viewer/2022060320/5f0d0bdc7e708231d438697b/html5/thumbnails/9.jpg)
SAS® USER FORUMDENMARK 2017
Copyright © SAS Inst itute Inc. A l l r ights reserved.
Overbygning på beslutningstræetBoosting – fokus på problemerne
![Page 10: Introduktion til Visual Data Mining and Machine Learning › kntur85557 › attachments... · 2018-05-15 · Alt data Data brugt til at estimere modelparametrene. Data brugt til at](https://reader033.vdocuments.net/reader033/viewer/2022060320/5f0d0bdc7e708231d438697b/html5/thumbnails/10.jpg)
SAS® USER FORUMDENMARK 2017
Copyright © SAS Inst itute Inc. A l l r ights reserved.
Adaptiv boostingBoosting – fokus på problemerne
Data set Subset
Upweight errors
Upweight errors
Tree Error Weight
Læring Klassificering
Source: Machine Perception and Robotics Group, Dept. of Robotics Science and Technology, Chubu University
![Page 11: Introduktion til Visual Data Mining and Machine Learning › kntur85557 › attachments... · 2018-05-15 · Alt data Data brugt til at estimere modelparametrene. Data brugt til at](https://reader033.vdocuments.net/reader033/viewer/2022060320/5f0d0bdc7e708231d438697b/html5/thumbnails/11.jpg)
SAS® USER FORUMDENMARK 2017
Copyright © SAS Inst itute Inc. A l l r ights reserved.
Neurale netværkHvad er det egentlig, det er?
Neurale netværker var oprindeligt inspireret af den biologiske analogi af et
neuron i hjernen. Det er imidlertid bare en matematisk model.
I det neurale netværk er inputtet sendt fremad i netværket, transformeres og
sendt videre frem, indtil det når outputnoden, som er estimatet af target-
variablen.
Output
Hidden layer variables
Weights (to be estimated)
More weights
Input valuesDefinition of the hidden layer variables
![Page 12: Introduktion til Visual Data Mining and Machine Learning › kntur85557 › attachments... · 2018-05-15 · Alt data Data brugt til at estimere modelparametrene. Data brugt til at](https://reader033.vdocuments.net/reader033/viewer/2022060320/5f0d0bdc7e708231d438697b/html5/thumbnails/12.jpg)
SAS® USER FORUMDENMARK 2017
Copyright © SAS Inst itute Inc. A l l r ights reserved.
OverfittingDatapartitionering
Træningsdata Valideringsdata Testdata
Alt data
Data brugt til at estimere modelparametrene.
Data brugt til at finde den optimale kompleksitet (fleksibilitet).
Data brugt til at estimere performance af modellen.
Tilfældig permutering af datapunkter
?
![Page 13: Introduktion til Visual Data Mining and Machine Learning › kntur85557 › attachments... · 2018-05-15 · Alt data Data brugt til at estimere modelparametrene. Data brugt til at](https://reader033.vdocuments.net/reader033/viewer/2022060320/5f0d0bdc7e708231d438697b/html5/thumbnails/13.jpg)
SAS® USER FORUMDENMARK 2017
Copyright © SAS Inst itute Inc. A l l r ights reserved.
Case – OrganicsHvem skal modtage tilbud om økologiske varer?
Finde den bedste model til klassifiering i SAS® Viya™ VDMML
![Page 14: Introduktion til Visual Data Mining and Machine Learning › kntur85557 › attachments... · 2018-05-15 · Alt data Data brugt til at estimere modelparametrene. Data brugt til at](https://reader033.vdocuments.net/reader033/viewer/2022060320/5f0d0bdc7e708231d438697b/html5/thumbnails/14.jpg)
SAS® USER FORUMDENMARK 2017
Copyright © SAS Inst itute Inc. A l l r ights reserved.
OrganicsDatasættet
Variabelnavn Type LabelAntal
kategorier
ID Char Customer Loyalty ID 22,223
DemAffl Num Affluence Grade
DemAge Num Age
DemGender Char Gender 3
DemReg Char Geographic Region 5
DemTVReg Char Television Region 13
PromClass Char Loyalty Status 4
PromSpend Num Total Spend
PromTime Num Loyalty Card Tenure
TargetBuy CharOrganics Purchase
Indicator2
TargetAmt Num Organics Purchase Count
![Page 15: Introduktion til Visual Data Mining and Machine Learning › kntur85557 › attachments... · 2018-05-15 · Alt data Data brugt til at estimere modelparametrene. Data brugt til at](https://reader033.vdocuments.net/reader033/viewer/2022060320/5f0d0bdc7e708231d438697b/html5/thumbnails/15.jpg)
SAS® USER FORUMDENMARK 2017
Copyright © SAS Inst itute Inc. A l l r ights reserved.
OrganicsDatapartionering
• Proc Surveyselect
• Simple sampling method
• 60% er træningsdata, og 40% er valideringsdata
![Page 16: Introduktion til Visual Data Mining and Machine Learning › kntur85557 › attachments... · 2018-05-15 · Alt data Data brugt til at estimere modelparametrene. Data brugt til at](https://reader033.vdocuments.net/reader033/viewer/2022060320/5f0d0bdc7e708231d438697b/html5/thumbnails/16.jpg)
Copyr ight © SAS Inst i tute Inc. Al l r ights reserved.
Demo
![Page 17: Introduktion til Visual Data Mining and Machine Learning › kntur85557 › attachments... · 2018-05-15 · Alt data Data brugt til at estimere modelparametrene. Data brugt til at](https://reader033.vdocuments.net/reader033/viewer/2022060320/5f0d0bdc7e708231d438697b/html5/thumbnails/17.jpg)
Copyright © SAS Inst itute Inc. A l l r ights reserved.
SAS® USER FORUMDENMARK 2017
Astrid Enslev Vestergård M: +45 51 38 76 44E: [email protected]