analyse des données et liens avec les systèmes...
TRANSCRIPT
![Page 2: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/2.jpg)
Ahlame Douzal. Analyse des données, 2016
1. INTRODUCTION AU DATA MINING Qu’est-ce que le data mining Émergence du data mining Problématiques du data mining et applications Les grandes étapes d’un projet en data mining
2. LA PREPARATION DES DONNEES EN DATA MINING Les différents types de données
Transformation des données Mesures de similarités et codages
3. LES PRINCIPALES TECHNIQUES DE DATA MINING Description : techniques descriptives et exploratoires Structuration : techniques de classification et de classement Explication : techniques prédictives (arbres de décision et segmentation) Association : techniques pour l’extraction de règles d’association
(Analyse du panier de la ménagère)
4. ANALYSES DESCRIPTIVES ET EXPLORATOIRES Indicateurs de résumé et de synthèse
Analyse factorielle
5. CLASSIFICATION AUTOMATIQUE Classification par partitionnement Classification hiérarchique
6. SEGMENTATION PAR ARBRE Construction d’un arbre de décision
Critères de sélection du meilleur sous arbre Les règles d’affectation
Estimation du risque d’erreur
![Page 3: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/3.jpg)
Introduc)onaudatamining(DM)
Objec)f:ExploraEonetanalysededonnéesvolumineusesafin d’extrairedesconnaissancescachéespourprédireetagir.
Connaissance:liens,règles,objetssimilaires,groupes,associaEon,…Facteursd’émergenceduDM:
– laproducEonmassivedesdonnées.– degrandescapacitésdestockage.– depuissantsprocesseurs.– uncontextetrèsconcurrenEel.– ladisponibilitédelogicielsdeDM.
Ahlame Douzal. Analyse des données, 2016
![Page 4: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/4.jpg)
Domainesd’applicaEonetproblémaEquesSecteur
Industriel Problématique décisionnelle
Grande Distribution
• Analyse des comportements des consommateurs. • Recherche des similarités des consommateurs en
fonction des critères géographiques. • Prédiction des taux de réponse en Marketing direct
Laboratoires pharmaceutiques
• Identification des meilleures thérapies pour différentes maladies
• Optimisation des plans d’action des visiteurs médicaux pour le lancement de nouveaux produits
Banques • Recherche de formes d’utilisation de cartes caractéristiques d’une fraude.
• Modélisations prédictives des clients partants. Assurances • Analyse des sinistres
• Recherche des critères explicatifs du risque ou de la fraude
Aéronautique, automobile
• Prévision des ventes • Dépouillement d’enquête de satisfaction
Télécommunication, eau et énergie
• Détection des formes de consommation frauduleuses
• Classification des clients selon la forme d’utilisation des services
• Prévision du départ des clients Ahlame Douzal. Analyse des données,
2016
![Page 5: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/5.jpg)
PosiEonnementduDWetduDM
Ahlame Douzal. Analyse des données, 2016
Data Warehouse Données Méthodes du
DM
Résultats
Prédire & Agir
Observer & Mesurer
![Page 6: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/6.jpg)
Lesgrandesétapesd’unprojetendatamining
• AnalysedesobjecEfs• LaconstrucEondelabased’analyse• LapréparaEondesdonnées
– LanormalisaEon,lecodage,lagesEondesdonnéesaberrantesetmanquantes,…
• Lechoixdesmodèlesd’analyse• L’analyseetl’interprétaEondesrésultats• LavalidaEondesrésultats• LaprédicEon
Ahlame Douzal. Analyse des données, 2016
![Page 7: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/7.jpg)
Ahlame Douzal. Analyse des données, 2016
Connaissances
Interprétations
Modèles d’analyse
Résulats
Données pré-traitées
Pré traitement
Données
Sélection
Données cibles
Données transformées
Transformation
Validation
![Page 8: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/8.jpg)
Systèmesdécisionnels
• Lesmoteursdesbasesdedonnées(Oracle,Informix,SqlServer,Ingres,…)pourlestockageetlastructuraEon
• LesouElsderequêtes(BusinessObject,Brioquery,GQL,etc.)pourlereporEngetl’interrogaEondesdonnées.
• LesouElsOLAP(SASMDDB,OracleExpress,PilotdeCompshare,Cognos,…)pourl’analysemulEdimensionnelle
• LesouElsdudataminingpourl’extracEondeconnaissancescachéesdanslesdonnées.
Ahlame Douzal. Analyse des données, 2016
![Page 9: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/9.jpg)
ExemplededonnéesmulEdimensionnellesentélécommunicaEon
Ahlame Douzal. Analyse des données, 2016
nb d ’appels
durée
nb de contacts client
![Page 10: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/10.jpg)
DescripEondel’acEvitémensuelledesclients
Ahlame Douzal. Analyse des données, 2016
Clients NbAppel
DuréeCom
Nb AppelEntrant
CourrierVocal
NbContact
C1 35 500 41 Non 16C2 9 170 25 Non 13C3 7 210 45 Oui 3C4 12 220 5 Non 17C5 31 580 39 Non 19C6 11 180 30 Oui 5C7 11 110 10 Oui 20C8 40 600 50 Oui 12
Attributs / Dimensions
nupl
ets
![Page 11: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/11.jpg)
QuelquesproblémaEques…• Cons)tuerdesgroupesdeprofilsdeconsomma)onsimilaires
ClassificaEon,AnalyseFactorielle
• ExtrairelesaBributscaractérisantaumieuxcesgroupes AnalysedescorrélaEons,analysefactorielle
• AnalyserlesliensentreaBributs(variables)AnalysedescorrélaEons,Analysed’associaEons
• Iden)fierlegrouped’appartenanced’unnouveauclientClassement,ClassificaEon
• Extrairedesrèglesdedécisionportantsurlebonoumauvaispoten)eld’unclient
SegmentaEon,Arbrededécision
• Prédirelecomportementd’unclientRéseauxneuronaux,régression,…
Ahlame Douzal. Analyse des données, 2016
![Page 12: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/12.jpg)
Laprépara)ondesdonnéesendatamining
- Lesdifférentstypesdedonnées
- TransformaEondesdonnées- LanormalisaEon:
- Moyenne,variancecovarianceetcorrélaEons…
-Mesuresdesimilaritésetcodagesdesdonnées
Ahlame Douzal. Analyse des données, 2016
![Page 13: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/13.jpg)
Ahlame Douzal. Analyse des données, 2016
Les différents type de données
Structure Continu Dénombrable Cardinal
=, # CSP Nominal
<= , >= Age Température
Rang ressemblance
Ordinal
<=, >=, +, * Revenu Mesurable
Quantitatif Qualitatif Attribut
![Page 14: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/14.jpg)
Ahlame Douzal. Analyse des données, 2016
X1 … Xp w1 … xij wN
Tableau quantitatif (W , X) ∀ j :{1..p} Xj quantitatif
Tableau qualitatif (W , X) j :{1..p} Xj qualitatif Tableau contingence (W , X) xij est la fréquence d’apparition de la modalité xj pour l’individu wi Tableau de préférence (W , X) xij exprime le degré de préférence de la modalité Xj par wi Tableau binaire (W , X) xij :{0 ,1} exprime la présence ou pas de la modalité Xj pour wi Tableau de proximité (W, W) xij exprime une mesure de similarité ou de dissimilarité entre deux individus wi, wj Tableau hétérogène
Attributs
Individus
![Page 15: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/15.jpg)
IndicateursdeposiEonetdedispersiond’a^ributquanEtaEf
• IndicateurdePosiEon– MoyennedeXj
• Indicateurdedispersion– Variance
– Covariance
– CorrélaEon
∑=
=N
ixij
NXj
1
1
2
1)(1)var( ∑
=−=
N
iXjxij
NXj
Ahlame Douzal. Analyse des données, 2016
∑=
−−=N
iXkxikXjxij
NXkXj
1))((1),cov(
)var(*)var(),cov(),(XkXj
XkXjXkXjcor =
![Page 16: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/16.jpg)
Ahlame Douzal. Analyse des données, 2016
La normalisation des données quantitatives
Le centrage d’un attribut quantitatif Xj = (x1j,…,xij,… xNj) xij
La réduction d’un attribut quantitatif Xj = (x1j,…,xij,… xNj)
xij
La normalisation d’un attribut quantitatif Xj = (x1j,…,xij,… xNj)
xij
Xjxijxijc −=
)var(/ Xjxijxijn =
)var()(*
XjXjxijxij −
=
![Page 17: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/17.jpg)
Lesmesuresstandardsdeproximitésentren-uplets
1-TableauxquanEtaEfs
DistancedeMinkowski
r=1(distancedeManha^an)
r=2(distanceeuclidienne)
r~>(distanceChebychev)
( )xipxiwi ,...1=rp
j
rxsjxijwswid/1
1),(
⎟⎟
⎠
⎞
⎜⎜
⎝
⎛−= ∑
=
Ahlame Douzal. Analyse des données, 2016
∑=
−=p
jxsjxijwswid
1),(
( )∑=
−=p
jxsjxijwswid
1
2),(
∞ ( )xsjxijwswidpj
−=≤≤
max1
),(
![Page 18: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/18.jpg)
2- Tableaux binaires xij=0/1 xsj=0/1
Codage des données binaires
• a : nombre d’occurrence où xij=1 et xsj=1 • b : nombre d’occurrence où xij=0 et xsj=1 • c : nombre d’occurrence où xij=1 et xsj=0 • d : nombre d’occurrence où xij=0 et xsj=0
( )xipxiwi ,...1=
wi ws
1 0
1 a b 0 c d
( )xspxsws ,...1=
![Page 19: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/19.jpg)
Mesuresdedissemblanceusuelles
dcbaawswid
+++−=1),(
cbaawswid++
−=1),(
Ahlame Douzal. Analyse des données, 2016
Russel et Rao
Jaccard
Dice
Sokal & Sneath
Roger & Tanimoto
Kulzinsky
Yule
)(21),(
cbaawswid++
−=
cbaawswid++
−=221),(
)(21),(
cbdadawswid+++
+−=
bcadbcadwswid
+
−−=1),(
cbawswid+
−=1),(
![Page 20: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/20.jpg)
3-TableauqualitaEfnominalet/ouordinal• Onprocèdeaucodagedesa^ributsqualitaEfsena^ributsbinaires• ApplicaEonsdesmesuresdesimilaritésvuesprécédemment
• Codagebinaire
Couleur Forme
wi Rouge Ellipsoïde
ws Jaune Circulaire
Rouge Jaune Bleue Ellipsoïde Circulaire
wi 1 0 0 1 0
ws 0 1 0 0 1
Ahlame Douzal. Analyse des données, 2016
![Page 21: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/21.jpg)
Lesmesuresstandardsdeproximitésentrea^ributs
1-ABributsquan)ta)fs
D(Xj,Xk)=cor(Xj,Xk)
2-ABributsqualita)fsnominaux
(voirsimilaritésentrevecteurbinaire)3-ABributsqualita)fsordinaux
LecoefficientdecorrélaEondesrangsdeKendall…
Ahlame Douzal. Analyse des données, 2016
![Page 22: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/22.jpg)
Lecoefficientdecorréla)ondesrangsdeKendallXj(x1j,…xNj)Xk(x1k,…,xNk)Onprocèdeaucodagedesa^ributsXjenYjetXkenYk:
{ }
),(),(
1),(0),(1),(1,0,1:
YkYjcorXkXj
xikxijsiwswiYjxikxijsiwswiYjxikxijsiwswiYj
xYj
=
⎪⎭
⎪⎬
⎫
⎪⎩
⎪⎨
⎧
=
==
−=
−→ΩΩ
τ
≻
≺
Ahlame Douzal. Analyse des données, 2016
![Page 23: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/23.jpg)
• ExempleX1 X2
1 a e 2 c f 3 b e 4 a g Y1 Y2
(1,2) -1 -1 (1,3) -1 0 (1,4) 0 -1 (2,3) +1 1 (2,4) 1 -1 (3,4) 1 -1
Ahlame Douzal. Analyse des données, 2016
a<b<c et e<f<g
Codage
)2,1()2,1( YYcorXX =τ
![Page 24: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/24.jpg)
Techniquesdescrip)vesetexploratoires
Objec&f:Résumer,synthéEser,structurerunensembled’informaEonsenuElisantdesreprésentaEonsgraphiquesouindicateursnumériques
Moyens:FoncEonsd’agrégaEon(moyenne,moyennemobile,raEo,cumul,…)
OuElsgraphiques
Ahlame Douzal. Analyse des données, 2016
L’analyse descriptive
![Page 25: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/25.jpg)
ExemplesdemesuresdescripEves
Générerlerapportdonnantlafréquencedesappelsclients,laduréetotaldecommunicaEonparmois.
Donnerlamoyennemobiledestroisderniersmoisdesnombresd’appelsentrants.
Mesurerlavariabilitédeladuréedeconnexiondesclientssurl’année
Ahlame Douzal. Analyse des données, 2016
![Page 26: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/26.jpg)
ExempledemesuresdescripEves
Clients C1 C2 C3 C4 C5 C6 C7 C8 TotNb Appel 35 9 7 12 31 11 11 40 156Fréquence 0.22 0.05 0.04 0.07 0.19 0.07 0.07 0.25
Fréquence :Moyenne :Variance :
Ahlame Douzal. Analyse des données, 2016
0
5
10
15
20
25
30
35
40
C1 C2 C3 C4 C5 C6 C7 C8
Nb Appel
![Page 27: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/27.jpg)
• Objec&f:Extrairedespropriétésàunensembledenuplets.Étendre(inférer)cespropriétésàlabasededonnées.Validerouinfirmercespropriétésàl’aidedetestsd’hypothèses.
Moyens:Mesuredesimilarité,dedistanceentrenuplets.MesuredecorrélaEons,deliensentredescripteursOuElsgraphiques
Ahlame Douzal. Analyse des données, 2016
L’analyse exploratoire
![Page 28: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/28.jpg)
Quelquesméthodesdel’analyseexploratoire
• Analysefactorielle– ObjecEf:
– extraitlesa^ributsperEnents– fournitdesreprésentaEonsgraphiquesdesindividus
– mesurelesliensentredescripteurs– préparelesdonnéesàuneéventuelleclassificaEon.
– Méthodes:– Analyseencomposantesprincipales(ACP):donnéesconEnues
– AnalysedescorrespondancesmulEples(ACM):donnéesconEnuesetnominales.
– …Ahlame Douzal. Analyse des données,
2016
![Page 29: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/29.jpg)
L’analysefactorielleClients Nb
AppelDuréeCom
Nb AppelEntrant
CourrierVocal
NbContact
C1 35 500 41 Non 16C2 9 170 25 Non 13C3 7 210 45 Oui 3C4 12 220 5 Non 17C5 31 580 39 Non 19C6 11 180 30 Oui 5C7 11 110 10 Oui 20C8 40 600 50 Oui 12
Ahlame Douzal. Analyse des données, 2016
ACP / ACM
PC1
PC2
C1 C8 C5
C2
C7
C4
C6 C2
G1
G2
G3
NbC NbA
![Page 30: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/30.jpg)
Techniquesclassificatoires
Objec&f:FournitunereprésentaEongraphiqueExtraitdesgroupesd’individussimilaires
MéthodesParparEEonnement(Centres-mobiles):lesgroupesforment
uneparEEonHiérarchique:lesgroupespeuventserecouvrirpar
inclusion
Ahlame Douzal. Analyse des données, 2016
![Page 31: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/31.jpg)
MéthodedesCentres-mobiles
Objec&f:ConstruireuneparEEonderclasses.
Algorithme:
1)Choisirlenombredeclasser2)Choisirrnupletscommecentresdesrclasses3)Affecterchaquenupletaucentreleplusproche.4)Recalculerlecentredelaclassed’affectaEon.5)Répéterlesétapes3)et4)jusqu’àstabilisaEon.
Ahlame Douzal. Analyse des données, 2016
![Page 32: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/32.jpg)
Centres-mobiles
Ahlame Douzal. Analyse des données, 2016
C1 C2
C1 C2
C1 C2
G1 G2
Étape 1
Étape 2
Étape 3
![Page 33: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/33.jpg)
Exemple
nuplets A1Esthétiquedu Package
A2Mémorisation
Accrochepublicitaire
P1 1 1P2 1 2P3 4 3P4 4 5P5 2 2
Ahlame Douzal. Analyse des données, 2016
Nombre de classe = 2 P1, P5 comme centres des deux
classes
![Page 34: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/34.jpg)
Centres-mobiles
Étape1:
Classe1:P1,P2Classe2:P4,P5,P3
Nouveauxnupletscentres:Classe1:P12(1,1.5)
Classe2:P12(3.33,3.33)
Étape2:Classe1:P1,P2,P5Classe2:P4,P3
Ahlame Douzal. Analyse des données, 2016
![Page 35: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/35.jpg)
ClassificaEonHiérarchique
Objec&f:ConstruireunesuccessiondeparEEonsàpclasses,p-1classes,…,1classe.
Algorithme:1)Soitpnupletsàclasser2)Onconstruitlamatricedesdistancesentrelespnuplets(pclasses).
3)Onagrègeenunnouvelnupletlesdeuxnupletslesplusproches(p-1classes)
4)onréitèrelesétapes2et3jusqu’àcequ’iln’yaitplusqu’uneclasse.
Ahlame Douzal. Analyse des données, 2016
![Page 36: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/36.jpg)
ClassificaEonhiérarchique
Ahlame Douzal. Analyse des données, 2016
Étape 1 Étape 2
Étape 3 Étape 4
1 3
4
2
5
1 3
4
2 2
2
1 1 3 3
4 5 5
5 4
![Page 37: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/37.jpg)
ClassificaEonhiérarchique
• Distance
Ahlame Douzal. Analyse des données, 2016
N-uplets 1 3 4 2 5
6 7
8
9
![Page 38: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/38.jpg)
Exemple
nuplets A1Esthétiquedu Package
A2Mémorisation
Accrochepublicitaire
P1 1 1P2 1 2P3 4 3P4 4 5P5 2 2
Ahlame Douzal. Analyse des données, 2016
Distances P1 P2 P3 P4 P5P1 0 1 3.6 5 1.41P2 0 3.16 4.24 1P3 0 2 2.23P4 0 3.6P5 0
P1 et P2 agrégés en P12 Étape 1
![Page 39: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/39.jpg)
nuplets A1 Esthétique du Package
A2 Mémorisation
Accroche publicitaire P12 1 1.5 P3 4 3 P4 4 5 P5 2 2
Ahlame Douzal. Analyse des données, 2016
Étape 2
Distances P12 P3 P4 P5P12 3.35 4.6 1.11P3 0 2 2.23P4 0 3.6P5 0
P12 et P5 agrégés en P125
![Page 40: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/40.jpg)
nuplets A1Esthétiquedu Package
A2Mémorisation
Accrochepublicitaire
P125 1.5 1.75P3 4 3P4 4 5
Ahlame Douzal. Analyse des données, 2016
Étape 3
Distances P125 P3 P4
P125 2.74 4.1
P3 0 2
P4 0
P3 et P4 agrégés en P34
![Page 41: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/41.jpg)
Arbresdedécision
R(A1,…,Ap,B)
A1,…An:a^ributsexplicaEfsB:a^ributàexpliquer
Ai⇒pBsijeconnaisAialorsjeconnaisBavecune
probabilitép(p∈[0,1])
Ahlame Douzal. Analyse des données, 2016
![Page 42: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/42.jpg)
Arbresdedécision
• ObjecEf Extrairelesa^ributslesplusdiscriminants (Ai⇒pBavecpfort)
Extrairedesrèglesdedécision(IdenEficaEon)AiΛAjΛAk⇒pB
Ahlame Douzal. Analyse des données, 2016
Vg Vd
Rg Rd
Aj R
![Page 43: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/43.jpg)
ParEEonnementbinaire
Ahlame Douzal. Analyse des données, 2016
Type Attribut Vg Vd
Qualitatif binaire
(a1,a2)
Aj =a1 Aj =a2
Aj = a1 Aj ≥ a2
Qualitatif ordonné
(a1, a2, a3)
a1 ≤ a2 ≤ a3
Aj ≤ a2 Aj = a3
Aj = a1 Aj = a2 ou Aj = a3
Aj = a1 ou Aj = a2 Aj = a3Qualitatif non ordonné
(a1, a2, a3)Aj = a1 ou Aj = a3 Aj = a2
Quantitatif
(a)
Aj ≤ a Aj > a
![Page 44: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/44.jpg)
Mesured’impureté
SoitAjetBdeuxa^ributsbinaires
Ahlame Douzal. Analyse des données, 2016
1 0
R1(n1) R2(n2) ni : nb de nuplets dans Ri
Aj
(c10, c11) (c20, c21) c10 : proportion des nuplets n1 prenant la modalité 0 de B
I(Aj) = ∑i ci0 * ci1
c11 : proportion des nuplets n1 prenant la modalité 1 de B
![Page 45: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/45.jpg)
Algorithmedeconstruc)ondel’arbrededécision
Algorithmea)Pourchaquea^ributexplicaEf,onparEEonnel’ensembledesnupletspuisoncalculeledegréd’impuretéassociéàce^eparEEon.
b)Onchoisitcommepremiera^ributdeparEEonnementceluidonnantledegréd’impuretélemoinsélevé.
c)Pourchaquea^ributexplicaEfrestant,onréitèrea)etb)poursegmenterchacunedesparEesobtenues.Ons’arrêtequandlaparEeconEentunnupletouqu’onaa^eintledegréd’impureté0.
Ahlame Douzal. Analyse des données, 2016
![Page 46: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/46.jpg)
ExempledeconstrucEond’unarbrebinaire
nuplets A1A eu unstagiaire
A2A embauché un
étudiant
A3Connaîtl’école
A4Rendez-
vous1 1 0 0 02 1 0 1 03 1 1 0 14 0 1 1 15 1 0 0 16 0 1 0 17 0 1 1 18 0 0 1 0
Ahlame Douzal. Analyse des données, 2016
explicatifs à expliquer
![Page 47: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/47.jpg)
A1(I=0.4375)
Ahlame Douzal. Analyse des données, 2016
{1,2,3,4,5,6,7,8}
1 0 {1,2,3,5} {4,6,7,8}
{1,2,3,4,5,6,7,8}
1 0 {3,4,6,7} {1,2,5,8}
{1,2,3,4,5,6,7,8}
1 0
{2,4,7,8} {1,3,5,6}
A2
A3
(0.5, 0.5) (1/4, 3/4)
(0, 1) (0.5,0.5)
(0.5,0.5) (1/4, 3/4)
(I = 0.25)
(I = 0.4375)
A2 B 0.25
![Page 48: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/48.jpg)
A2
Ahlame Douzal. Analyse des données, 2016
1 0
{3,4,6,7}
(0, 1) (0.5,0.5)
{1,2,5,8}
{1,2,5,8} {1,2,5,8} A1 A3
1 1 0 0
(2/3, 1/3) {1,2,5} {8}
(1, 0)
{1,5} {2,8} (0.5, 0.5) (1, 0)
(I = 0.25) (I = 0.22)
A1 B 0.22
![Page 49: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/49.jpg)
A2
Ahlame Douzal. Analyse des données, 2016
{1,2,3,4,5,6,7,8}
1 0 {3,4,6,7}
(0, 1) {1,2,5,8}
1 0
{1,2,5} {8} (1, 0)
A1
A3 1 0
{2} {1,5} (1, 0) (0.5, 0.5)
(I = 0.25)
![Page 50: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/50.jpg)
ExtracEonderègles
(A2=1)⇒1B=1
Sil’entrepriseaembauchéunétudiantalorsobtenEond’unrendez-vous
(A2=0etA1=0)⇒1B=0
(A2=0etA1=1etA3=1)⇒1B=0
(A2=0etA1=1etA3=0)⇒0.5B=1
Ahlame Douzal. Analyse des données, 2016
![Page 51: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/51.jpg)
Extrac)onderèglesd’associa)on Farine Sucre Lait Œuf Chocolat Thé
1 1 1 1 0 0 0 2 0 1 0 1 1 0 3 1 1 0 1 1 0 4 0 0 0 1 1 1
Ahlame Douzal. Analyse des données, 2016
Objectif : • Extraire les associations du type Ai=1⇒Aj=1 (noté Ai⇒Aj)
• Évaluer la fiabilité des associations extraites
farine ⇒ sucre, chocolat ⇒ thé
![Page 52: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/52.jpg)
• Ledegrédeconfianced’uneassocia)onConf(Ai⇒Aj)=
Conf:ledegrédeconfianceOcc(Ai):lenombred’occurrencesdanslatableoùapparaît
lamodalitéAi
• Ledegrédesupportd’uneassocia)onSup(Ai⇒Aj)=
Ahlame Douzal. Analyse des données, 2016
Occ(Ai⇒Aj) Occ(Ai)
Occ(Ai⇒Aj) N
N : le nombre de nuplets
![Page 53: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/53.jpg)
Algorithmea)Oncalculelepoidsdechaquea^ribut.Onéliminelesa^ributsdontlepoidsestinférieuràuncertainseuildeconfiance.
b)Oncalculelepoidsdechaquecoupled’a^ribut(Ai=1,Aj=1).Onéliminelescouplesdontlepoidsestinférieuràuncertainseuildeconfiance.
c)SurlabasedescouplesretenusonconstruittouteslesassociaEonspossibles.
d)PourchaqueassociaEononévaluesesdegrésdeconfianceetdesupport.
Ahlame Douzal. Analyse des données,
2016
![Page 54: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/54.jpg)
Processusdudatamining
• Poserleproblème• Larecherchedesdonnées• LasélecEondesdonnéesperEnentes• Le«ne^oyage»desdonnées• LesacEonssurlesvariables• Larecherched’unmodèle• L’évaluaEondurésultat• L’intégraEondelaconnaissance
Ahlame Douzal. Analyse des données, 2016
![Page 55: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/55.jpg)
Poserleproblème
• LaformulaEonduproblèmeproblèmedediagnosEcdepanne analysedesdéfautsdeproducEon…
• Latypologieduproblème Exploratoire?InférenEelle?
• Lesrésultatsa^endusetuElisaEons
Ahlame Douzal. Analyse des données, 2016
![Page 56: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/56.jpg)
Larecherchedesdonnées
• InvesEgaEonetdéterminaEondelastructuregénéraledesdonnées
• LaréducEondesdimensions(corrélaEons)
Ahlame Douzal. Analyse des données, 2016
Nombre d’attributs
Nom
bre
de n
uple
ts
-
+
- +
Zone optimale Long calculs
S’assurer de la stabilité
Peu de nuplets
![Page 57: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/57.jpg)
LasélecEondesdonnées
• ÉchanEllonouexhausEvitéchoixdépenddel’infrastructuredétecEondetendancesgénérales(échanEllonreprésentaEf)ExhausEvité:qualitédesrésultats,coûteux
• modedecréaEondel’échanEllontaille:foncEondesméthodesàappliquerEragealéatoireàparErdesdifférentessous-populaEon
Ahlame Douzal. Analyse des données, 2016
![Page 58: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/58.jpg)
Lene^oyagedesdonnées
• GesEondesvaleursaberrantes isolaEondes«pics»dedistribuEonstaEsEques
• GesEondesvaleursmanquantesexclurelesnupletsincompletsremplacerlesdonnéesmanquantes…
Ahlame Douzal. Analyse des données, 2016
![Page 59: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/59.jpg)
LesacEonssurlesa^ributs
• LatransformaEonmono-a^ribut– lanormalisaEondesdistribuEons– transformaEondesdatesendurées– géocodage(intégrerlescontraintesdeproximitésdansleraisonnement)
• LatransformaEonmulE-a^ribut– lesraEos,lesfréquences,– lestendances– lescombinaisonlinéaires,...
Ahlame Douzal. Analyse des données, 2016
![Page 60: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/60.jpg)
Larecherchedumodèle
• Choixdelabased’apprenEssageetdelabasedetest(70%/30%)
• Choixdesalgorithmesdecalcul– modèleàbased’équaEons
(Réseauxdeneurones,techniquesderégression)
– analyselogique(Arbresdedécisions,règlesd’associaEon,ensemblesflous)
– techniquesdeprojecEon(miseenévidencedesfacteursprincipauxd’explicaEon)(analysefactorielles,classificaEon,…)
Ahlame Douzal. Analyse des données, 2016
![Page 61: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/61.jpg)
L’évaluaEondurésultat
• ÉvaluaEonqualitaEve– resEtuEondelaconnaissancesousformegraphique
• ÉvaluaEonquanEtaEve– Lesintervallesdeconfiance– lestestsdevalidaEon(étudierlastabilitédesrésultatsdanslabasetest)
Ahlame Douzal. Analyse des données, 2016
![Page 62: Analyse des données et liens avec les systèmes …ama.liglab.fr/~douzal/documents/coursADSI2017.pdfdonnées aberrantes et manquantes, … • Le choix des modèles d’analyse •](https://reader033.vdocuments.net/reader033/viewer/2022042420/5f3705b2ee9a1c33a1178353/html5/thumbnails/62.jpg)
L’intégraEondelaconnaissance
• Dresserunbilan– unefaiblequalitédesdonnéesconduitàrevoirlesprocessusd’alimentaEondel’entrepôt
– ladétecEondufortpouvoirprédicEfd’unedonnéepousseàmodifierleschémadelabaseetlerythmed’alimentaEon
– Lesagrégatsconstruitsserévèlentêtredesdimensionsintéressantesàintégrerdansletableaudebordexistant
– explicaEondesconnaissancescontradictoiresavecl’existant.
Ahlame Douzal. Analyse des données, 2016