journée des treillis lorrains nancy, france – décembre 2008 nathalie girard encadrantes : karell...
TRANSCRIPT
Journée des Treillis Lorrains
Nancy, France – Décembre 2008
Nathalie Girard
Encadrantes : Karell Bertet – Muriel Visani
Equipe Imédoc - Laboratoire L3I – Université de La Rochelle - France
Des Données à la Classification 1) Différents types de données
2) Différents classifieurs
Le Treillis Dichotomique1) Treillis Dichotomique : Définition2) Arbre de Décision Treillis Dichotomique
Conclusion & Perspectives
2
LIENS
3
Des Données à la Classification
Le Treillis Dichotomique
Conclusion & Perspectives
Quantitatives Qualitatives
Ordinales Sur une échelle tailles
S/M/L/XL
NominalesFemme
/ Homme
Nombre de modalités
Infini Dénombrable Dénombrable
Relations d’ordre sur les
modalités
OUI Écarts
quantifiablesNON
OUIEcarts non
quantifiables
Exhaustive / Continue
À valeur dans ℝNb exemples
=Nb modalités
Nb exemples =
Nb modalités
Discrète À valeur dans ℕNb exemples
<Nb modalités
Nb exemples <
Nb modalités
A partir d’une base de données construction d’une table objets/attributs
Méthode utilisée => mise en forme de la table :
◦ Discrétisation des variables continues Ex : intervalles de valeurs
◦ Codage disjonctif (complet ou non) Variables discrètes = Variables à deux modalités (V/F)
4
Des Données à la Classification
Le Treillis Dichotomique
Conclusion & Perspectives
Changements de type
O
I CLASSE
a b ca1[0-3]
a2[6-20]
b1[0-4]
b2[12-20]
c1[0-2]
C2[11-20]
1 × × ×S1
2 × × ×
3 × × ×
S24 × × ×
5 × × ×
6 × × ×
S37 × × ×
8 × × ×
9 × × ×S4
10 × × ×
O
I CLASSE
a b C
1 [0-3] [0-4] [11-20]S1
2 [0-3] [0-4] [11-20]
3 [0-3] [12-20] [11-20]
S24 [0-3] [12-20] [11-20]
5 [0-3] [12-20] [11-20]
6 [6-20] [12-20] [11-20]
S37 [6-20] [12-20] [11-20]
8 [6-20] [12-20] [11-20]
9 [6-20] [0-4] [0-2]S4
10 [6-20] [12-20] [0-2]
OI
CLASSEa b c
1 1 0 14S1
2 3 3 17
3 3 16 15
S24 2 18 20
5 0 14 11
6 6 19 18
S37 8 13 16
8 20 12 11
9 15 4 0S4
10 17 15 2
Discrétisation des données continues
5
Des Données à la Classification
Le Treillis Dichotomique
Conclusion & Perspectives
+ codage binaire
Méthode utilisée => Utilisation différente des données :
◦ Utilisation d’une partie des données pour l’apprentissage, de l’autre pour la validation
◦ Sélection d’attributs pertinents◦ Suppression des objets/données « aberrantes »◦ Transformation des attributs◦ Codage des données◦ …
6
Des Données à la Classification
Le Treillis Dichotomique
Conclusion & Perspectives
Objectif, pour les nouveaux objets : ◦ Inférer la variable à prédire
Une classe Une valeur pour un attributs …
Classifieurs statistiques◦ SVM, …
Classifieurs probabilistes◦ Bayésiens, …
Classifieurs symboliques◦ Arbre de décision◦ Treillis de Galois◦ … 7
Des Données à la Classification
Le Treillis Dichotomique
Conclusion & Perspectives
1. Défini à partir d’un ensemble de données2. Classifier avec un Arbre de Décision :
a. Nœud : test sur un attributb. Feuille : classe
3. Constructiona. De la racine (= O) aux feuillesb. Requiert deux critères
i. Critère de Division (supervisé ou non)ii. Critère d’arrêt (supervisé ou non)
4. Eventuellement, élagage
8
Des Données à la Classification
Le Treillis Dichotomique
Conclusion & Perspectives
O
I CLASSE
a b ca1
[0-3]a2[6-20]
b1[0-4]
b2[12-20]
c1[0-2]
C2[11-20]
1 × × ×S1
2 × × ×
3 × × ×
S24 × × ×
5 × × ×
6 × × ×
S37 × × ×
8 × × ×
9 × × ×S4
10 × × × 9
Des Données à la Classification
Le Treillis Dichotomique
Conclusion & Perspectives
10
Contexte C = (O,I,(f,g))
Prop : = f g est un opérateur de fermeture sur I
Le Treillis de Galois de C =(K, ≤)
avec:
(A,B) K f(A)=B et g(B)=A pour A O, B I,
(A,B) ≤ (A2,B2) A A2 B B2
O = { objets labélisés}I = {attributs}(f,g) = correspondance de Galois
K = {concepts}≤ = relation d’ordre entre concepts
Des Données à la Classification
Le Treillis Dichotomique
Conclusion & Perspectives
Treillis de Galois
Correspondance de Galois f(1) = {a1,b1,c2} g(b1) = {1, 2, 9}
Contexte / Table
OI
Classea1
[0-3]a2
[6-20]b1
[0-4]b2
[12-20]c1
[0-2]C2
[11-20]
1 × × ×S1
2 × × ×
3 × × ×
S24 × × ×
5 × × ×
6 × × ×
S37 × × ×
8 × × ×
9 × × ×S4
10 × × ×
11
Des Données à la Classification
Le Treillis Dichotomique
Conclusion & Perspectives
Fermeture : (a1) = {a1, c2} = f(g(a1))
12
Méthodes orientées Sélection
Méthodes orientées Navigation
Des Données à la Classification
Le Treillis Dichotomique
Conclusion & Perspectives
NAVIGALA (Guillas, Bertet, Ogier, 2007)
1. Préparation des données : 1. Extraction de Signatures des images de symbole.2. Discrétisation supervisée des Signatures (contexte multi-valué)3. Séparation ensemble d’apprentissage/ensemble de validation
2. Apprentissage supervisé de l’ensemble de données :1. Génération du Treillis de Galois à partir de l’ensemble
d’apprentissage (aucun paramètre nécessaire)2. Labellisation de chaque concept terminal par sa classe
majoritaire 3. Etape de Reconnaissance – Ensemble de validation:
1. Classification des symboles de l’ensemble de validation par navigation dans le treillis par validation d’intervalles jusqu’à atteindre un concept terminal
2. Classification de nouveaux symboles bruités à partir de leur signature par navigation dans le treillis (comme dans un arbre de décision)
13
Des Données à la Classification
Le Treillis Dichotomique
Conclusion & Perspectives
OI
Classea1
[0-3]a2
[6-20]b1
[0-4]b2
[12-20]c1
[0-2]C2
[11-20]
1 × × ×S1
2 × × ×
3 × × ×
S24 × × ×
5 × × ×
6 × × ×
S37 × × ×
8 × × ×
9 × × ×S4
10 × × ×
Nouvel objet
11 × × × ?
14
Objet 11
Classe 2
Des Données à la Classification
Le Treillis Dichotomique
Conclusion & Perspectives
15
Plusieurs chemins dans le Treillis de Galois
Robustesse pour les images de données bruitées
Version bruitée de l’objet 11
Des Données à la Classification
Le Treillis Dichotomique
Conclusion & Perspectives
Des Données à la Classification 1) Différents types de données
2) Différents classifieurs
Le Treillis Dichotomique1) Treillis Dichotomique : Définition2) Arbre de Décision Treillis Dichotomique
Conclusion & Perspectives
16
LIENS
17
Définition 1: Un treillis est dichotomique lorsque pour
tout concept (A1,B1) il existe un concept
V-complémentaire (A2,B2)
(A1,B1) (K, ≤), (A2,B2) (K, ≤) tel que
(A1,B1) (A2,B2) = (,I) = concept maximal
Des Données à la Classification
Le Treillis Dichotomique
Conclusion & Perspectives
18
Des Données à la Classification
Le Treillis Dichotomique
Conclusion & Perspectives
O
I CLASSE
a b ca1[0-3]
a2[6-20]
b1[0-4]
b2[12-20]
c1[0-2]
C2[11-20]
1 × × ×S1
2 × × ×
3 × × ×
S24 × × ×
5 × × ×
6 × × ×
S37 × × ×
8 × × ×
9 × × ×S4
10 × × ×
Contexte Dichotomique
Treillis Dichotomique
Complémentarité sur les Attributs (Kuznetsov04) : x I, ! x I tel que y O
f(y) = x ou f(y) = x
V-Complémentarité sur les Concepts : X I, X un ensemble d’attributs tel
que
g(X) g(X ) =
19
Des Données à la Classification
Le Treillis Dichotomique
Conclusion & Perspectives
O
I CLASSE
a b ca1
[0-3]a2
[4-5]a3[6-20]
b1[0-4]
b2[12-20]
c1[0-2]
C2[11-20]
1 × × ×S1
2 × × ×
3 × × ×
S24 × × ×
5 × × ×
6 × × ×
S37 × × ×
8 × × ×
9 × × ×S4
10 × × ×
Complémentarité entre attributs : Non◦ Pour a1, a2, a3
Complémentarité entre concepts : Oui
◦ g(a1) g({a2,a3}) =
20
Des Données à la Classification
Le Treillis Dichotomique
Conclusion & Perspectives
Proposition 1:Chaque arbre de décision est inclus dans
le treillis dichotomique, lorsque les deux structures sont construites à
partir de la même table.
Points clés de la preuve :
21
Arbre de Décision Treillis Dichotomique
Deux nœuds différents N1, N2
Deux concepts différents (A1,B1), (A2,B2)
N1 est un prédécesseur de N2 (A2,B2) ≤ (A1,B1)
N1 n’est pas un prédécesseur de N2
(A2,B2) ≥ (A1,B1) et (A2,B2) ≤ (A1,B1)
Des Données à la Classification
Le Treillis Dichotomique
Conclusion & Perspectives
22
N1
N2N3
N4 N7N6
N5
N1
N2
N3
N4 N5N6
N7
Des Données à la Classification
Le Treillis Dichotomique
Conclusion & Perspectives
Points clés de la preuve :1. Par construction d’un sous-arbre inclus dans le treillis
dichotomique2. Utilisation de la propriété de V-complémentarité
Proposition 2:Un treillis dichotomique est l’union de tout
les arbres de décision, lorsque les deux structures sont construites à partir de la
même table.
23
Des Données à la Classification
Le Treillis Dichotomique
Conclusion & Perspectives
Des Données à la Classification 1) Différents types de données
2) Différents classifieurs
Le Treillis Dichotomique1) Treillis Dichotomique : Définition2) Arbre de Décision Treillis Dichotomique
Conclusion & Perspectives
24
LIENS
25
Arbres de Décision et Treillis de Galois sont utilisés comme des classifieurs.
Utilisation d’un treillis de Galois Robustesse avec les symboles bruités.
Résultats : liens structurels forts arbres de décision/treillis dichotomiques
•
Prop.1: Ti, Ti L
Prop.2: L = Ti
Des Données à la Classification
Le Treillis Dichotomique
Conclusion & Perspectives
Etude expérimentales dans un contexte de classification :
1. Considérer et comparer différents sous arbres pris dans le treillis selon différents critères :1. Le nombre de sous concept (J. Outrata)2. Le nombre d’objet d’un concept3. La hauteur/largeur de l’arbre4. …
2. Conception d'une nouvelle méthode de classification hybride alliant treillis dichotomiques et arbres de décision.
26
Des Données à la Classification
Le Treillis Dichotomique
Conclusion & Perspectives
Etude structurelle des treillis dichotomique :
1. Positionnement par rapport à des classes de treillis connues• => Extension du cadre d’application des liens de
fusion/inclusion à d’autres types de données
2. Possibilité de génération incrémentales (lié aux duplications?/discrétisation au fur et à mesure)
27
Des Données à la Classification
Le Treillis Dichotomique
Conclusion & Perspectives
28
(Carpineto, Romano93) C. Capineto and G. Romano. Galois: An order-theoretic approach to conceptual clustering.In Proceedings of ICML’93, p33-40, Amherst, July 1993
(Liquière, Mephu-Nguifo90) M. Liquière and E. Mephu-Nguifo. LEGAL: Learning with Galois Lattice.In Actes des Journées Françaises sur l’Apprentissage (JFA), p93-113, Lannion, France, avril 1990.
(Oosthuizen88) G. Oosthuizen. The use of a lattice in Knowmedge Processing. PhD thesis, University of Strathclyde, Glasgow, 1988.
(Sahami95) M. Sahami. Learning classification rules using lattices . In Nada Lavrac and Stephan Wrobel, editors, Processing of ECML’95, p343-346, Heraclion, Crete,
Greece, April 1995.
(Kuznetsov04) S. Kuznetsov. Machine learning and formal concept analysis. Innovations in applied artificial intelligence : Ottawa, 3029:287–312, 2004.
(Njiwoua, Mephu-Nguifo99) P. Njiwoua and E. Mephu-Nguifo. Améliorer l’apprentissage à partir d’instances grâce à l’induction de concepts : le système CIBLe.
Revue d’intelligence Artificielle (RIA), 13(2): 413-440, 1999, Hermès Science.
(Guillas, Bertet, Visani, Ogier, 2008) S. Guillas, K. Bertet, M. Visani, J.M. Ogier. A propos des liens entre arbre de décision et treillis dichotomique.
CIFED’2008, Rouen, France, Novembre 28-30 2008.
Merci pour votre attention !