applications en m edecine micha el genin -...

47
. . Arbres de d´ ecision Applications en m´ edecine Micha¨ el Genin Universit´ e de Lille 2 EA 2694 - Sant´ e Publique : Epid´ emiologie et Qualit´ e des soins [email protected]

Upload: dinhdung

Post on 15-Sep-2018

212 views

Category:

Documents


0 download

TRANSCRIPT

.

......

Arbres de decisionApplications en medecine

Michael Genin

Universite de Lille 2EA 2694 - Sante Publique : Epidemiologie et Qualite des soins

[email protected]

Plan

...1 Introduction

...2 Methodologie de construction d’un arbre de decision - CHAID

...3 Un coup d’oeil sur la methode CART

...4 Exemples

...5 Limites

...6 Quelques logiciels

M. Genin (Universite de Lille 2) Arbres de decision Version - 30 mars 2015 1 / 67

Introduction Contexte

.Deux familles de methodes de classification..

......

Classification non-supervisee (clustering)

Partitionner les observations en groupes differents (classes, categories) mais lesplus homogenes possible au regard de variables decrivant les observations.Le nombre de classes n’est pas connu a l’avanceMethodes : Classification hierarchique...

Classification supervisee (discrimination)

Obtenir un critere de separation afin de predire l’appartenance a une classe(Y = f (X ) + ϵ).Le nombre de classes est connu a l’avance (Variable a expliquer)Methodes : Regression logistique, Analyse discriminante, Arbres de decision,Reseaux de neurones...

M. Genin (Universite de Lille 2) Arbres de decision Version - 30 mars 2015 4 / 67

Introduction Contexte

.Une approche particuliere de la discrimination..

......

Outils statistiques interessants et souvent utilises en medecine

Une variable a expliquer et un ensemble de variables explicatives

Y = f (X1,X2, ...,Xp) + ϵ

Y quantitative = arbre de regression (famille des regressions nonparametriques)

Y qualitative = arbre de classement (methode particuliere de discrimination/ apprentissage supervise)

M. Genin (Universite de Lille 2) Arbres de decision Version - 30 mars 2015 5 / 67

Introduction Contexte

Comparaison avec les autres methodes de discrimination

.Regression logistique/Analyse Discriminante..

......

Modeles parametriques

Additivite des coefficients

Prise en compte, uniquement, desvariables explicatives binaires etquantitatives

.Arbres de decision..

......

Methode non lineaire, nonparametrique

Prise en compte des interactions

Tout type de variables explicatives

Grand nombre de variables(methode pas a pas)

Resultats graphiques simples ainterpreter

Extraction de regles(implementations en BDD)

M. Genin (Universite de Lille 2) Arbres de decision Version - 30 mars 2015 6 / 67

Introduction Descriptif general

Principe de la segmentation

.Principe..

......

La segmentation consiste a construire un arbre de decision a l’aide de divisionssuccessives des individus d’un echantillon en deux, ou plus, segments (appelesegalement noeuds) homogenes par rapport a une variable dependante Y qui peutetre de nature :

binaire, nominale, ordinale ou quantitative

en utilisant l’information portee par p variables explicatives de nature :

binaire, nominale, ordinale ou quantitative

M. Genin (Universite de Lille 2) Arbres de decision Version - 30 mars 2015 8 / 67

Introduction Descriptif general

Deux types d’arbres de decision

.Arbre de regression..

......

La variable a expliquer est quantitative. Les variables de segmentation choisiessont celles qui minimisent la variance intra-segment de la variable a expliquer.

.Arbre de classement..

......

La variable a expliquer est qualitative. Les variables de segmentations retenuesdans l’arbre sont celles qui rendent les segments les plus differents possibles quantaux modalites de la variable a expliquer.

M. Genin (Universite de Lille 2) Arbres de decision Version - 30 mars 2015 9 / 67

Introduction Exemple introductif

Exemple introductif

Quinlan (1993)

L’objectif est d’expliquer le comportement de joueur de tennis (Variable aexpliquer : Y(jouer, ne pas jouer)) a partir de previsions meteorologiques (variablesexplicatives Xi ).

M. Genin (Universite de Lille 2) Arbres de decision Version - 30 mars 2015 11 / 67

Introduction Exemple introductif

.Descriptif des variables..

......

Type Variables Nature Unites/Modalites

X1 Ensoleillement Qualitative Soleil, couvert, pluieX2 Vent Binaire Oui/NonX3 Temperature Quantitative ◦FX4 Humidite Quantitative %

Y Jouer Binaire Oui/Non

Variable a expliquer binaire ⇒ Arbre de classement

M. Genin (Universite de Lille 2) Arbres de decision Version - 30 mars 2015 12 / 67

Introduction Exemple introductif

.Vocabulaire et interpretation graphique..

......

Racine

Variable de segmentation

Arete et noeud enfant

Feuille (pures)

Discretisation de variable quantitative

Regle de decision

M. Genin (Universite de Lille 2) Arbres de decision Version - 30 mars 2015 13 / 67

Introduction Exemple introductif

Exemple introductif

M. Genin (Universite de Lille 2) Arbres de decision Version - 30 mars 2015 14 / 67

Introduction Questions mises en evidence

Question mises en evidence

.Mais comment faire ?..

......

Dans quel ordre interviennent les variables de segmentation ?

Choix de la variable de segmentation : indicateur evaluant la qualite de lasegmentation

Determination d’un seuil optimal pour les variables quantitatives

Definition de la taille optimale de l’arbre (toujours des feuilles pures ??)

Regles d’affectation d’une observation a un groupe

Simple quand la feuille est pure...Que faire lors que la feuille n’est pas pure ??

M. Genin (Universite de Lille 2) Arbres de decision Version - 30 mars 2015 16 / 67

Methodologie de construction d’un arbre de decision - CHAID

Methodologie de construction d’un arbre de decision

.

......

De nombreuses methodes d’induction d’arbres (CHAID, CART, ID3, C4.5, ...)

Uniquement les methodes CHAID (CHi-squared Automatic InteractionDetection) et CART (Classification And Regression Trees) sont utilisees demaniere recurrente en medecine

Cours base sur CHAID

Quelques references a CART

M. Genin (Universite de Lille 2) Arbres de decision Version - 30 mars 2015 18 / 67

Methodologie de construction d’un arbre de decision - CHAID

Methodologie de construction d’un arbre de decision

.CHAID..

......

REPETER

Prise en compte d’un sommet a segmenter

Preparation des variables quantitatives (discretisation, choix d’un cut-off)

Selection de la meilleure variable de segmentation (utilisation de l’indice)

Si la variable selectionnee est qualitative Alors

Test de fusion des modalites ayant des profils similairesFusion si les tests s’averent significatifs

Fin SI

JUSQU’A Conditions d’arret

M. Genin (Universite de Lille 2) Arbres de decision Version - 30 mars 2015 19 / 67

Methodologie de construction d’un arbre de decision - CHAID Discretisation des variables quantitatives

Discretisation des variables quantitatives

.Principe..

......

La determination d’un cut-off se deroule de la maniere suivante :

On ordonne de maniere croissante les valeurs de la variable

On note le nombre de valeurs distinctes nd

Il y a donc nd − 1 seuils possibles

Pour chaque seuil → creation d’une variable binaire (0 si < Seuil et 1 si >=Seuil)

Chaque variable recodee est croisee avec la variable a expliquer et l’on calculeun test du χ2 d’ecart a l’independance.

Le seuil choisi sera celui qui maximisera la statistique du test (ou minimisera lapvalue associee)

M. Genin (Universite de Lille 2) Arbres de decision Version - 30 mars 2015 21 / 67

Methodologie de construction d’un arbre de decision - CHAID Discretisation des variables quantitatives

Discretisation des variables quantitatives

M. Genin (Universite de Lille 2) Arbres de decision Version - 30 mars 2015 22 / 67

Methodologie de construction d’un arbre de decision - CHAID Discretisation des variables quantitatives

Discretisation des variables quantitatives

.Exemple avec la variable humidite (1)..

......

On ordonne de maniere croissante les valeurs d’humidite :

959070 85

Il y a 5 observations dans le sommet in[soleil] et nd = 4 valeurs distinctes

Nous avons donc nd − 1 = 3 seuils possibles

M. Genin (Universite de Lille 2) Arbres de decision Version - 30 mars 2015 23 / 67

Methodologie de construction d’un arbre de decision - CHAID Discretisation des variables quantitatives

Discretisation des variables quantitatives

.Exemple avec la variable humidite (2)..

......

Seuil1:

(70+85)/2=77.5

Seuil2:

(85+90)/2=87.5

959070 85

Seuil3:

(90+95)/2=92.5

M. Genin (Universite de Lille 2) Arbres de decision Version - 30 mars 2015 24 / 67

Methodologie de construction d’un arbre de decision - CHAID Discretisation des variables quantitatives

Discretisation des variables quantitatives

.Exemple avec la variable humidite (3)..

......

Pour chaque seuil, la variable quantitative est recodee en variable binaire(discretisation)

Chaque variable discretisee est croisee a la variable a expliquer au travers d’untableau de contingence et un test du χ2 d’ecart a l’independance est calcule

M. Genin (Universite de Lille 2) Arbres de decision Version - 30 mars 2015 25 / 67

Methodologie de construction d’un arbre de decision - CHAID Discretisation des variables quantitatives

Discretisation des variables quantitatives

.Exemple avec la variable humidite (4)..

......

Humidite <77.5 Humidite >= 77.5

Jouer=oui 2 0

Jouer=non 0 3

Humidite <87.5 Humidite >= 87.5

Jouer=oui 2 0

Jouer=non 1 2

Humidite <92.5 Humidite >= 92.5

Jouer=oui 2 0

Jouer=non 2 1

Seuils Pvalue (χ2)

77.5 0.0253

87.5 0.1360

92.5 0.3613

M. Genin (Universite de Lille 2) Arbres de decision Version - 30 mars 2015 26 / 67

Methodologie de construction d’un arbre de decision - CHAID Discretisation des variables quantitatives

Methodologie de construction d’un arbre de decision

.CHAID..

......

REPETER

Prise en compte d’un sommet a segmenter

Preparation des variables quantitatives (discretisation, choix d’un cut-off)

Selection de la meilleure variable de segmentation (utilisation del’indice)

Si la variable selectionnee est qualitative Alors

Test de fusion des modalites ayant des profils similairesFusion si les tests s’averent significatifs

Fin SI

JUSQU’A Conditions d’arret

M. Genin (Universite de Lille 2) Arbres de decision Version - 30 mars 2015 27 / 67

Methodologie de construction d’un arbre de decision - CHAID Choix de la variable de segmentation (split)

Choix de la variable de segmentation (split)

.Utilisation de l’indicateur de qualite de segmentation..

......

Apres discretisation des variables quantitatives → ensemble de variablesqualitatives candidates a la segmentation du sommet en cours

Choix de la meilleure variable de segmentation → utilisation de l’indicateurde qualite de segmentation

Test du χ2 d’ecart a l’independance de Pearson

La variable selectionnee sera celle qui maximisera la statistique du test (ouminimisera la pvalue associee)

M. Genin (Universite de Lille 2) Arbres de decision Version - 30 mars 2015 29 / 67

Methodologie de construction d’un arbre de decision - CHAID Choix de la variable de segmentation (split)

.Exemple de la segmentation du sommet in[Soleil]..

......

Variables candidates : Humidite, Temperature, Vent, Ensoleillement (triviale)

Variable Candidate Cut-off Pvalue (χ2)

Humidite 77.5 0.0253

Temperature 57.5 0.1360

Vent - 0.7094

Ensoleillement - 1

La variable Humidite est retenue car elle minimise la pvalue associee au test du χ2.Ce n’est pas etonnant car cette variable de segmentation produit des noeudsenfants purs.

M. Genin (Universite de Lille 2) Arbres de decision Version - 30 mars 2015 30 / 67

Methodologie de construction d’un arbre de decision - CHAID Choix de la variable de segmentation (split)

Methodologie de construction d’un arbre de decision

.CHAID..

......

REPETER

Prise en compte d’un sommet a segmenter

Preparation des variables quantitatives (discretisation, choix d’un cut-off)

Selection de la meilleure variable de segmentation (utilisation de l’indice)

Si la variable selectionnee est qualitative Alors

Test de fusion des modalites ayant des profils similairesFusion si les tests s’averent significatifs

Fin SI

JUSQU’A Conditions d’arret

M. Genin (Universite de Lille 2) Arbres de decision Version - 30 mars 2015 31 / 67

Methodologie de construction d’un arbre de decision - CHAID Fusion des sommets lors de la segmentation (merge)

Fusion des sommets lors de la segmentation (merge)

M. Genin (Universite de Lille 2) Arbres de decision Version - 30 mars 2015 33 / 67

Methodologie de construction d’un arbre de decision - CHAID Fusion des sommets lors de la segmentation (merge)

Fusion des sommets lors de la segmentation (merge)

Optionnel dans la methode CHAID

.Principe..

......

Initialement : la segmentation d’une variable qualitative produit autant desommets enfants que de modalites

Possibilite de fusion des sommets enfants → limiter la fragmentation desdonnees (faibles effectifs) et les sommets enfants ”redondants”

Comparaison des distributions de la VAE dans chaque sommet enfant etregroupement des sommets ayant des profils proches

M. Genin (Universite de Lille 2) Arbres de decision Version - 30 mars 2015 34 / 67

Methodologie de construction d’un arbre de decision - CHAID Fusion des sommets lors de la segmentation (merge)

Fusion des sommets lors de la segmentation (merge)

.Principe (2)..

......

Test du χ2 d’equivalence distributionnelle

H0 : les deux sommets enfants ont des profils similairesH1 : les deux sommets enfants ont des profils differents

La statistique suit une loi du χ2 a K − 1 d.d.l.

X =K∑

k=1

(nk1n.1

− nk2n.2

)2

nk1 + nk2n.1 × n.2

∼ χ2K−1d.l.l.

K : nombre de modalites de la variable a expliquer

n.1 : nombre d’observations presentant la modalite liee au sommet 1

On fusionne les deux sommets enfants ayant les profils les plus proches (ausens du test) puis on reitere l’operation jusqu’a ce qu’aucune fusion ne soitpossible

Possibilite qu’aucune fusion ne se realise

Possibilite que tous les sommets enfants soient fusionnes → la variable desegmentation est eliminee d’office

M. Genin (Universite de Lille 2) Arbres de decision Version - 30 mars 2015 35 / 67

Methodologie de construction d’un arbre de decision - CHAID Fusion des sommets lors de la segmentation (merge)

Fusion des sommets lors de la segmentation (merge)

.Principe (3)..

......

On fusionne les deux sommets enfants ayant les profils les plus proches (ausens du test) puis on reitere l’operation jusqu’a ce qu’aucune fusion ne soitpossible

Possibilite qu’aucune fusion ne se realise

Possibilite que tous les sommets enfants soient fusionnes → la variable desegmentation est eliminee d’office

M. Genin (Universite de Lille 2) Arbres de decision Version - 30 mars 2015 36 / 67

Methodologie de construction d’un arbre de decision - CHAID Fusion des sommets lors de la segmentation (merge)

Fusion des sommets lors de la segmentation (merge)

.Exemple avec la variable Ensoleillement (1)..

......

Integration de la possibilite de fusion

Comparaison des sommets deux a deux :

Sommets χ2 Pvalue (χ2) Action

Soleil et couvert 3.6 0.058 -Soleil et Pluie 0.4 0.527 Fusion

Couvert et Pluie 2.06 0.151 -

Risque de premiere espece (α) de 10%

Les modalites Soleil et Pluie peuvent etre fusionnees

M. Genin (Universite de Lille 2) Arbres de decision Version - 30 mars 2015 37 / 67

Methodologie de construction d’un arbre de decision - CHAID Fusion des sommets lors de la segmentation (merge)

Fusion des sommets lors de la segmentation (merge)

.Exemple avec la variable Ensoleillement (2)..

......

Sommets χ2 Pvalue (χ2) Action

(Soleil et Pluie) et Couvert 3.1 0.078 -

Aucune fusion n’est possible → l’algorithme s’arrete !

M. Genin (Universite de Lille 2) Arbres de decision Version - 30 mars 2015 38 / 67

Methodologie de construction d’un arbre de decision - CHAID Fusion des sommets lors de la segmentation (merge)

Methodologie de construction d’un arbre de decision

.CHAID..

......

REPETER

Prise en compte d’un sommet a segmenter

Preparation des variables quantitatives (discretisation, choix d’un cut-off)

Selection de la meilleure variable de segmentation (utilisation de l’indice)

Si la variable selectionnee est qualitative Alors

Test de fusion des modalites ayant des profils similairesFusion si les tests s’averent significatifs

Fin SI

JUSQU’A Conditions d’arret

M. Genin (Universite de Lille 2) Arbres de decision Version - 30 mars 2015 39 / 67

Methodologie de construction d’un arbre de decision - CHAID Conditions d’arret

Conditions d’arret et determination de la bonne taille del’arbre

.Notion de pre-elagage..

......

Pendant la phase d’expansion de l’arbre

Acceptation de la segmentation si le test du χ2 est significatif quant a unrisque de premiere espece α fixe par l’utilisateur (5% par exemple)

Le choix du seuil determine la taille de l’arbre :

S’il est trop permissif → arbre sur-dimensionne (risque d’overfitting)S’il est trop restrictif → arbre sous-dimensionne (toute l’information n’est pasutilisee)

M. Genin (Universite de Lille 2) Arbres de decision Version - 30 mars 2015 41 / 67

Methodologie de construction d’un arbre de decision - CHAID Conditions d’arret

Conditions d’arret et determination de la bonne taille del’arbre

.Autres conditions d’arret..

......

Les feuilles sont pures

Effectifs trop faibles dans un noeud pour segmenter (fixe par l’utilisateur)

Effectifs trop faibles dans les sommets enfants issus d’une segmentation (fixepar l’utilisateur)

Profondeur limite de l’arbre atteinte (fixe par l’utilisateur)

M. Genin (Universite de Lille 2) Arbres de decision Version - 30 mars 2015 42 / 67

Methodologie de construction d’un arbre de decision - CHAID Prise de decision

.Apres la construction de l’arbre.....

......

Tirer des conclusions pour chaque feuille de l’arbre

Choisir dans quel groupe classer les individus (jouer=oui ou jouer= non)

Simple quand les feuilles sont pures !SI (Ensoleillement = Soleil) ET (Humidite < 77.5%) ALORS Jouer = OuiDans 100% des cas !!

Feuilles non pures → regle de la majorite (classe majoritaire)

Estimation de la probabilite conditionnelle P(Y /Xi )

M. Genin (Universite de Lille 2) Arbres de decision Version - 30 mars 2015 44 / 67

Un coup d’oeil sur la methode CART Methode CART

Classification And Regression Trees

.Principe..

......

VAE qualitative ou quantitative

Variables explicatives qualitatives ou quantitatives

Arbres binaires uniquement → deux sommets enfants a chaque segmentation

Indice de qualite de segmentation base sur l’indice de Gini

I = 1−K∑

k=1

f 2k avec I ∈ [0, 1]

Plus l’indice de Gini est proche de 0 plus le noeud est pur

M. Genin (Universite de Lille 2) Arbres de decision Version - 30 mars 2015 47 / 67

Un coup d’oeil sur la methode CART Methode CART

Classification And Regression Trees

.Principe..

......

La variable de segmentation retenue est celle qui maximise le gain de puretedefini par :

Gain = I (S)− [I (Fils1) + I (Fils2)] avec Gain >= 0

Determination de la taille de l’arbre = procedure de post elagage

Arbre completement developpe sur un premier echantillon (growing set)Arbre reduit de maniere a optimiser le taux de mauvais classement sur undeuxieme echantillon (pruning set)

M. Genin (Universite de Lille 2) Arbres de decision Version - 30 mars 2015 48 / 67

Un coup d’oeil sur la methode CART Comparaison avec CHAID

Classification And Regression Trees - Comparaison avec lamethode d’induction CHAID2.1. ARBRES DE DECISION

Table 2.2 – Comparatif des methodes CHAID et CART

Caracteristiques/Methodes CHAID CART

Impact(critere de segmenta-

tion)

χ2 d’independance ou t deTschuprow

Indice de Gini

Regroupement Arbre ”n-aire” - Testd’equivalence distributionnelle

Arbre binaire

Determination de la ”taille

optimale”

Effectif minimum pour segmenter - Nombre de niveau de l’arbre- Seuil de specialisation - Effectifs d’admissibilite

Determination de la taille

optimale (specifique)

Pre-elagage avec le test du χ2

d’independancePost-elagage par un echantillond’elagage ou un validationcroisee

Avantages Performante pour une phase ex-ploratoire de grandes bases dedonnees

Performante en termes de classe-ment - Pas de complexite de pa-rametrage

Inconvenients Moyennement performanteen classement - Parametragede la methode complique(determination empirique duseuil α)

Peu performante avec desechantillons de taille faible- Binarisation pas toujoursappropriee

dans le cas de variables explicatives qualitatives ayant plus de deux modalites.

Par ailleurs, les caracteristiques de la methode CART amenent naturellement a faire ce choix. En effet, sesperformances en classement, la compacite des arbres induits impliquent des regles efficaces ayant , en general,de bonnes qualites predictives. Ce dernier element est en adequation avec l’objectif ”prospectif” du projet PSIP.

2.1.3 Resultats

Dans le cadre de la procedure B, 31 arbres ont ete generes en relation avec 31 variables d’effet indesirableslies aux medicaments. Pour chaque arbre n’ont ete conservees uniquement les regles qui d’une part augmentaientla prevalence de l’effet etudie et d’autre part avaient une signification ”metier”, l’evaluation ayant ete realiseepar les medecins. Ainsi, 223 regles ont ete extraites et ces dernieres incluent 76 variables de causes sur les 173 dedepart soumis a la methode CART d’induction d’arbres. De surcroıt, il est important de preciser que les arbresont ete construits service par service.

Ces resultats ont fait l’objet d’un article de recherche disponible en annexe B.

Par ailleurs, il important de preciser que des couts de mauvais classement ont ete pris en compte dans l’induc-tion des arbres de classification.Aussi, le fait de classer un patient comme ne presentant pas d’effet indesirablealors que l’inverse est vrai est plus grave que de le fait de classer un patient comme presentant un effet indesirablealors que l’inverse est vrai. Par ailleurs, cette technique permet de favoriser les branches mettant en evidence lapresence d’effet indesirable, ce qui permet egalement de palier le probleme de rarete des effets indesirables.

Par defaut, sous R, les couts de mauvais classement sont tous egaux a 1. Pour les besoins de l’etude, le coutde mauvais classement resultant de l’affectation d’un patient au groupe ”Absence d’effet” alors que ce patient

22

M. Genin (Universite de Lille 2) Arbres de decision Version - 30 mars 2015 50 / 67

Exemples Prevention des effets indesirables lies aux medicaments

Prevention des effets indesirables lies aux medicaments

.Le projet europeen PSIP (Patient Safety Through Intelligent Procedures inmedication)..

......

Effets indesirables lies aux medicaments sont trop frequents

Responsables, chaque annee, de 10 000 morts en France et 98 000 aux EtatsUnis

La prevention de ces effets est l’axe majeur du projet PSIP

Creation d’outils d’aide a la decision bases sur la fouille automatisee dedonnees hospitalieres

Recherche de regles d’alerte du type :

Cause1&Cause2&...&Causep ⇒ Effet = 1

M. Genin (Universite de Lille 2) Arbres de decision Version - 30 mars 2015 53 / 67

Exemples Prevention des effets indesirables lies aux medicaments

Effetindésirable:INRtropbas

M. Genin (Universite de Lille 2) Arbres de decision Version - 30 mars 2015 54 / 67

Exemples Prevention des effets indesirables lies aux medicaments

Prevention des effets indesirables lies aux medicaments

.Regles d’alerte..

......

La regle extraite de l’arbre :

INR trop haut ET age > 78.66 ET hypoalbunemie ⇒ INR trop bas (85.7%)

87.5% est une estimation de P(Y /Xi ). C’est la confiance de la regle.

M. Genin (Universite de Lille 2) Arbres de decision Version - 30 mars 2015 55 / 67

Exemples Discretisation de variables quantitatives

Discretisation de variables quantitatives

.Une autre utilisation des arbres.....

......

La discretisation de variable quantitative est utile dans la creation de scorescliniques

Ex : Frequence cardiaque, pression arterielle

Determination de seuils (cut-off) maximisant la segmentation au regardd’une variable a expliquer qualitative (Vivant/ Deces)

M. Genin (Universite de Lille 2) Arbres de decision Version - 30 mars 2015 57 / 67

Exemples Discretisation de variables quantitatives

Discretisation de variables quantitatives

Score PELOD : discretisation du taux de prothrombine en fonction de Vivant/Deces

!"#"$%&'$&'()*%*+,&-./0&!&1*)2345&6$,*,&!&7,*8(&'$&#*+%838*%8*9:$&!&;!<=>?&

&

&.@&

#*+'*%A+,*#*5*8(& '$%& 3,8*BC*83D*,$%& EF/& !*,%*G& 5H2IA+35#:D*,(D*$& $%8& :,$& A2(,+DJ,$& 9:*& '()"*8& :,& 83:K& A5:%&

L3*#5$& '$& D+5():5$& 'H35#:D*,$& '3,%& 5$& %3,M/& N+,)& '3,%& 5$& )3%& A"()('$,8& '$%& A38*$,8%& 3I3,8& "$O:& & :,$&

3'3A838*+,&'$&5$:"&8"3*8$D$,8&$,&3,8*BC*83D*,$&E&"$538*C$D$,8&$K)$%%*C$&P%:"B3'3A838*+,FG&%*&5H+,&3Q+:8$&R&)$53&53&

A"(%$,)$&'H:,$&2IA+35#:D*,(D*$G&53&A"(C35$,)$&'$&5H$LL$8&PSTU&8"+A&#3%F&A3%%$&'$&VWG@X&R&WVGYX/&

&

"#$%&'()$*+#()%,)$)-,%#.,)$)/,$*012&Z&

&

!"#$%&'($)*+%&[&*,-&\&YW/=W&[&).('*/0+1234-&]\&!"#$%&'($0*5$6789:;<$

&

?/<&!^^_S`!aSbTc&;T&-7;&N;&_!&NSc`U;aSc!aSbT&N;&-!US!d_;c&e7!TaSa!aS-;c&

&

_+"%&'$&53&)+,%8":)8*+,&'$&%)+"$%&)5*,*9:$%G&*5&$%8&%+:C$,8&:8*5$&'$&'*%)"(8*%$"&'$%&C3"*3#5$%&9:3,8*838*C$%&)+DD$&

(#$3%456)12)$2#%*.#56)7$(#$8%)//.01$#%,4%.)(()7$#6$%)'#%*$*+61)$9#%.#:()$;$)-8(.56)%$*)$1#,6%)$56#(.,#,.9)$<*42&/&Z&

+:*f,+,&A3"&$K$DA5$F/&&

_$%&3"#"$%&'$&)53%%$D$,8G&3:&8"3C$"%&'$&5$:"&)3A3)*8(&R&)"($"&'$%&):8B+LL&%+,8&'$%&D(82+'$%&A$"8*,$,8$%&A+:"&

8"+:C$"&:,&$,%$D#5$&'$&%$:*5%&P.&+:&A5:%F&D3K*D*%3,8&53&%$MD$,838*+,&'$%&*,'*C*':%&A3"&"3AA+"8&R&:,$&C3"*3#5$&

R&$KA5*9:$"&9:35*838*C$/&

"+)-)=8()$ /6.9#1,$=01,%)$ (+6,.(./#,.01$ *)/$ #%:%)/$ *)$ 2(#//)=)1,$ *#1/$ (#$ %)2>)%2>)$ *$& %$:*5%& A+:"& 5$& 83:K& '$&

A"+82"+D#*,$&A3"&"3AA+"8&3:&'()(%&'$%&A38*$,8%?$"#$=4,>0*)$*+.1*62,.01$*+#%:%)$)/,$(+#('0%.,>=)$@ABCD7$#9)2$

:,&%$:*5&'$&%A5*8&R&VX/&

&

&

E1$%)=#%56)$56)$(+#('0%.,>=)$#$=./$)1$49.*)12)$F$/)6.(/$*./,.12,/$56.$=#-.=./)1,$(#$/)'=)1,#,.01&Z&

&

&

&

_3&C3"*3#5$&A"+82"+D#*,$&A$:8&g8"$&3*,%*&'*%)"(8*%($&'$&53&D3,*J"$&%:*C3,8$&Z&

!"&^"+82"+D#*,$&h@?/V&#$%&'&^"+82"+D#*,$i"$)+'($&]&.&

!"&^"+82"+D#*,$&\]&@?/V&()&^"+82"+D#*,$&hVV/V0&#$%&'&^"+82"+D#*,$i"$)+'($]<&j&

!"&^"+82"+D#*,$&\]&VV/V0&()&^"+82"+D#*,$&h=>/V0&#$%&'&^"+82"+D#*,$i"$)+'($]@&j&

!"&^"+82"+D#*,$&\]&=>/V0&#$%&'&^"+82"+D#*,$i"$)+'($]?&&

=>/V0&@?/V0& VV/V0&

Algorithme CHAID - Seuil de split : 5%

M. Genin (Universite de Lille 2) Arbres de decision Version - 30 mars 2015 58 / 67

Exemples Discretisation de variables quantitatives

Discretisation de variables quantitatives

3 seuils mis en evidence par l’algorithme :

!"#"$%&'$&'()*%*+,&-./0&!&1*)2345&6$,*,&!&7,*8(&'$&#*+%838*%8*9:$&!&;!<=>?&

&

&.@&

#*+'*%A+,*#*5*8(& '$%& 3,8*BC*83D*,$%& EF/& !*,%*G& 5H2IA+35#:D*,(D*$& $%8& :,$& A2(,+DJ,$& 9:*& '()"*8& :,& 83:K& A5:%&

L3*#5$& '$& D+5():5$& 'H35#:D*,$& '3,%& 5$& %3,M/& N+,)& '3,%& 5$& )3%& A"()('$,8& '$%& A38*$,8%& 3I3,8& "$O:& & :,$&

3'3A838*+,&'$&5$:"&8"3*8$D$,8&$,&3,8*BC*83D*,$&E&"$538*C$D$,8&$K)$%%*C$&P%:"B3'3A838*+,FG&%*&5H+,&3Q+:8$&R&)$53&53&

A"(%$,)$&'H:,$&2IA+35#:D*,(D*$G&53&A"(C35$,)$&'$&5H$LL$8&PSTU&8"+A&#3%F&A3%%$&'$&VWG@X&R&WVGYX/&

&

"#$%&'()$*+#()%,)$)-,%#.,)$)/,$*012&Z&

&

!"#$%&'($)*+%&[&*,-&\&YW/=W&[&).('*/0+1234-&]\&!"#$%&'($0*5$6789:;<$

&

?/<&!^^_S`!aSbTc&;T&-7;&N;&_!&NSc`U;aSc!aSbT&N;&-!US!d_;c&e7!TaSa!aS-;c&

&

_+"%&'$&53&)+,%8":)8*+,&'$&%)+"$%&)5*,*9:$%G&*5&$%8&%+:C$,8&:8*5$&'$&'*%)"(8*%$"&'$%&C3"*3#5$%&9:3,8*838*C$%&)+DD$&

(#$3%456)12)$2#%*.#56)7$(#$8%)//.01$#%,4%.)(()7$#6$%)'#%*$*+61)$9#%.#:()$;$)-8(.56)%$*)$1#,6%)$56#(.,#,.9)$<*42&/&Z&

+:*f,+,&A3"&$K$DA5$F/&&

_$%&3"#"$%&'$&)53%%$D$,8G&3:&8"3C$"%&'$&5$:"&)3A3)*8(&R&)"($"&'$%&):8B+LL&%+,8&'$%&D(82+'$%&A$"8*,$,8$%&A+:"&

8"+:C$"&:,&$,%$D#5$&'$&%$:*5%&P.&+:&A5:%F&D3K*D*%3,8&53&%$MD$,838*+,&'$%&*,'*C*':%&A3"&"3AA+"8&R&:,$&C3"*3#5$&

R&$KA5*9:$"&9:35*838*C$/&

"+)-)=8()$ /6.9#1,$=01,%)$ (+6,.(./#,.01$ *)/$ #%:%)/$ *)$ 2(#//)=)1,$ *#1/$ (#$ %)2>)%2>)$ *$& %$:*5%& A+:"& 5$& 83:K& '$&

A"+82"+D#*,$&A3"&"3AA+"8&3:&'()(%&'$%&A38*$,8%?$"#$=4,>0*)$*+.1*62,.01$*+#%:%)$)/,$(+#('0%.,>=)$@ABCD7$#9)2$

:,&%$:*5&'$&%A5*8&R&VX/&

&

&

E1$%)=#%56)$56)$(+#('0%.,>=)$#$=./$)1$49.*)12)$F$/)6.(/$*./,.12,/$56.$=#-.=./)1,$(#$/)'=)1,#,.01&Z&

&

&

&

_3&C3"*3#5$&A"+82"+D#*,$&A$:8&g8"$&3*,%*&'*%)"(8*%($&'$&53&D3,*J"$&%:*C3,8$&Z&

!"&^"+82"+D#*,$&h@?/V&#$%&'&^"+82"+D#*,$i"$)+'($&]&.&

!"&^"+82"+D#*,$&\]&@?/V&()&^"+82"+D#*,$&hVV/V0&#$%&'&^"+82"+D#*,$i"$)+'($]<&j&

!"&^"+82"+D#*,$&\]&VV/V0&()&^"+82"+D#*,$&h=>/V0&#$%&'&^"+82"+D#*,$i"$)+'($]@&j&

!"&^"+82"+D#*,$&\]&=>/V0&#$%&'&^"+82"+D#*,$i"$)+'($]?&&

=>/V0&@?/V0& VV/V0&

M. Genin (Universite de Lille 2) Arbres de decision Version - 30 mars 2015 59 / 67

Limites Limites

Limites des methodes d’induction d’arbres (1)

Necessite de bases d’apprentissage de taille importante (fragmentation rapidedes donnees)

Instabilite en prediction

Arbre surdimensionne → bonne explication de la variabilite mais mauvaisesqualites predictives (overfitting)Arbre sous-dimensionne → bonnes qualites predictives mais ne considere pastoute l’information contenue dans les donnees (underfitting)

Non exhaustivite des regles de decision obtenues (Parfois plus de valeur”statistique” (discrimination) que de valeur ”metier”)

M. Genin (Universite de Lille 2) Arbres de decision Version - 30 mars 2015 62 / 67

Limites Limites

Limites des methodes d’induction d’arbres (2)

”Effet papillon” : suppression d’une variable explicative et tout l’arbre change

Sensibles aux observations aberrantes

Pas de prise en compte des donnees manquantes

M. Genin (Universite de Lille 2) Arbres de decision Version - 30 mars 2015 63 / 67

Limites Quelques pistes

Quelques pistes...

Forets aleatoires de Breiman (boostrapping, bagging)

Regles d’association (Analyse du panier de la menagere)

Algorithmes d’imputation des donnees manquantes

M. Genin (Universite de Lille 2) Arbres de decision Version - 30 mars 2015 65 / 67

Quelques logiciels

Quelques logiciels d’induction d’arbres de decision

Sipina

Logiciel LibreInterface du type SPSSMethodes implementees : CHAID, ID3, C4.5, Improved CHAID...Possibilite de construction d’arbres en utilisant des connaissances expertes

R - Package Rpart

Logiciel librePackage reconnu et souvent utilise en rechercheMethode implementee : CARTRendus graphiques parametrables

M. Genin (Universite de Lille 2) Arbres de decision Version - 30 mars 2015 67 / 67