egc-03. nouveaux résultats en classification à laide dun codage par motifs fréquents s. jouteau,...
TRANSCRIPT
![Page 1: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d7f497959293b8b836b/html5/thumbnails/1.jpg)
EGC-03.
Nouveaux résultats Nouveaux résultats
en en classificationclassification
à l’aide d’un codageà l’aide d’un codage par par motifs fréquentsmotifs fréquents
S. Jouteau, A. Cornuéjols, M. Sebag (LRI)
Ph. Tarroux & J-S. Liénard (LIMSI)
CNRS - Université de Paris-Sud, Orsay
![Page 2: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d7f497959293b8b836b/html5/thumbnails/2.jpg)
Journée « Fouille d’images » 01/04/03 2/36
Données en grandes dimensionsDonnées en grandes dimensions
Définies par un très grand nombre d’attributs(Note : l’un des 10 pbs soulevés lors du congrès mondial de
mathématiques en 2000)
Exemples : Puces ADN
E.g. 6400 gènes,
organismes sains ou irradiés
Images E.g. 256*256*(256 niveaux de gris)
Formes présentes dans l’image
![Page 3: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d7f497959293b8b836b/html5/thumbnails/3.jpg)
3/36Journée « Fouille d’images » 01/04/03
L’objectifL’objectif
Apprentissage supervisé multi-classes
Beaucoup de dimensions + peu d’exemples
= Difficulté pour distinguer vraies régularités et coïncidences
Identifier des régularités dans des données de très grandes dimensions
![Page 4: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d7f497959293b8b836b/html5/thumbnails/4.jpg)
Journée « Fouille d’images » 01/04/03 4/36
PrétraitementsPrétraitements
Réduction de dimension
Sélection d’attributs
Élimination des redondances (ACPACP, …)
Recherche de corrélations (attribut-classe)
Modélisation : hypothèses sur la statistique du signal
Analyse de FourrierFourrier
Analyse en ondelettesondelettes
![Page 5: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d7f497959293b8b836b/html5/thumbnails/5.jpg)
Journée « Fouille d’images » 01/04/03 5/36
Cas de l’analyse de scènesCas de l’analyse de scènes
Scènes naturelles ≠ scènes artificielles
Observations neurobiologiques : codage clairsemé
Hypothèse : signal résultant d’une superposition de « formes
latentes »
Analyse en composantes indépendantes (ACI)
![Page 6: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d7f497959293b8b836b/html5/thumbnails/6.jpg)
Journée « Fouille d’images » 01/04/03 6/36
L’analyse en composantes indépendantesL’analyse en composantes indépendantes
Mais : Inapplicable en grande dimension
Hypothèse de linéarité
( Introduite en 1984. Développée dans les 90s )
Hyp. de base : les données résultent d’une combinaison linéaire de formes latentes
Recherche de ces formes latentes
![Page 7: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d7f497959293b8b836b/html5/thumbnails/7.jpg)
Journée « Fouille d’images » 01/04/03 7/36
L’ACI en analyse de scènesL’ACI en analyse de scènes
Les scènes sont décomposées en imagettes …
… codées par des superpositions linéaires de formes latentes
![Page 8: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d7f497959293b8b836b/html5/thumbnails/8.jpg)
Journée « Fouille d’images » 01/04/03 8/36
Le projetLe projet
Peut-on rechercher directement un codage clairsemé ?Peut-on rechercher directement un codage clairsemé ?
Idée : adapter des techniques de fouilles de donnéesadapter des techniques de fouilles de données
Recherche de motifs fréquents
![Page 9: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d7f497959293b8b836b/html5/thumbnails/9.jpg)
Journée « Fouille d’images » 01/04/03 9/36
Les motifs fréquentsLes motifs fréquents
Le problème Étant donné une base de données consistant en tuples,
trouver des règles d’association prédisant avec confiance quels items se trouvent souvent ensemble (Frequent ItemSets)
Exemple canonique (mais mythique) Les caddys dans les supermachés Un tuple = ensemble d’items achetés ensemble
En général : Beaucoup de motifs fréquents Mais peu qui soient vérifiés ensemble
Codage clairseméCodage clairsemé
![Page 10: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d7f497959293b8b836b/html5/thumbnails/10.jpg)
Journée « Fouille d’images » 01/04/03 10/36
Contraintes sur les motifsContraintes sur les motifs
Représentativité Chaque image correspond à un nombre suffisantsuffisant de motifs
Codage clairsemé Chaque image correspond à un nombre limitélimité de motifs
Orthogonalité des motifs Chaque couple de motifs a peu d’images en communpeu d’images en commun
+ Contraintes sémantiquesContraintes sémantiques E.g. : motifs connexesconnexes (zones de l’image) E.g. : motifs en ligneen ligne (contours) …
![Page 11: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d7f497959293b8b836b/html5/thumbnails/11.jpg)
Journée « Fouille d’images » 01/04/03 11/36
Les donnéesLes données
Base d’images tirées de la base COREL
12 classes différentes de scènes
Base de 1080 images (90 images / classe)
128 x 128 = 16384 en 128 niveaux de gris
ou : 64 x 64 = 4096 en 32 ou 16 niveaux de gris
On utilise 540 images pour chercher 1000 motifs fréquents
![Page 12: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d7f497959293b8b836b/html5/thumbnails/12.jpg)
Journée « Fouille d’images » 01/04/03 12/36
La base d’imagesLa base d’images
![Page 13: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d7f497959293b8b836b/html5/thumbnails/13.jpg)
Journée « Fouille d’images » 01/04/03 13/36
ConstatConstat
L’application directe de APRIORI est impossible
Il y a trop de motifs fréquents
Pour images 32 x 32 en 64 niveaux de gris
Il faut adapter l’algorithme et faire une Il faut adapter l’algorithme et faire une recherche stochastique recherche stochastique et et
non plus exhaustivenon plus exhaustive
Nb. élts / motif 1 2 3 4 5 6
Nb motifs 2 103 110 103 3,8 106 80 106 1,15 109 12,5 109
![Page 14: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d7f497959293b8b836b/html5/thumbnails/14.jpg)
Journée « Fouille d’images » 01/04/03 14/36
Adaptation de l’algorithmeAdaptation de l’algorithme
Recherche itérative et stochastique de motifs fréquents
Paramètres : taux de couverture . Nombre de motifs cherchés = N Nombre de motifs trouvés = n
Tant que n ≤ N faire
Choix dans un exemple xi encore peu couvert d’un premier atome a0 présent dans au moins
des exemples
motif <- a0
Tant que taux de couverture de motif > faire
Tirer au hasard un atome a de xi couvrant au moins des exemples et peu utilisé dans les motifs existants et satisfaisant les contraintes sémantiques
Si motif+a couvre au moins des exemple alors
motif <- motif +a
fin si
Fin tant que
Fin tant que
![Page 15: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d7f497959293b8b836b/html5/thumbnails/15.jpg)
Journée « Fouille d’images » 01/04/03 15/36
Les expériencesLes expériences
Nouvelles contraintes (choix des pixels) Min : les moins présents dans les motifs
Connexe : touchant les précédents
Ligne : formant des lignes
Paramètres Taille image : 64 x 64 x 16 (niveaux de gris)
Taux de couverture : 1, 2, 5, 10 %
![Page 16: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d7f497959293b8b836b/html5/thumbnails/16.jpg)
Journée « Fouille d’images » 01/04/03 16/36
Codage clairsemé Codage clairsemé Nb de FIS / imagesNb de FIS / images
10 20 30 40 50
= 1%
= 2%
= 5%= 5%
![Page 17: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d7f497959293b8b836b/html5/thumbnails/17.jpg)
Journée « Fouille d’images » 01/04/03 17/36
Codage clairsemé Codage clairsemé Nb de FIS / imagesNb de FIS / images
= 1%
= 2%
= 5%= 5%
![Page 18: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d7f497959293b8b836b/html5/thumbnails/18.jpg)
Journée « Fouille d’images » 01/04/03 18/36
Orthogonalité Orthogonalité Nb images par couple de motifsNb images par couple de motifs
= 1%
= 2%
= 5%= 5%
![Page 19: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d7f497959293b8b836b/html5/thumbnails/19.jpg)
Journée « Fouille d’images » 01/04/03 19/36
FIS : min_1%FIS : min_1%
![Page 20: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d7f497959293b8b836b/html5/thumbnails/20.jpg)
Journée « Fouille d’images » 01/04/03 20/36
FIS : min_1%FIS : min_1%
![Page 21: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d7f497959293b8b836b/html5/thumbnails/21.jpg)
Journée « Fouille d’images » 01/04/03 21/36
FIS : connexe_1%FIS : connexe_1%
![Page 22: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d7f497959293b8b836b/html5/thumbnails/22.jpg)
Journée « Fouille d’images » 01/04/03 22/36
FIS : connexe_1%FIS : connexe_1%
![Page 23: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d7f497959293b8b836b/html5/thumbnails/23.jpg)
Journée « Fouille d’images » 01/04/03 23/36
FIS : ligne_1%FIS : ligne_1%
![Page 24: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d7f497959293b8b836b/html5/thumbnails/24.jpg)
Journée « Fouille d’images » 01/04/03 24/36
FIS : ligne_1%FIS : ligne_1%
![Page 25: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d7f497959293b8b836b/html5/thumbnails/25.jpg)
Journée « Fouille d’images » 01/04/03 25/36
AnalyseAnalyse
Difficilement interprétables !!
Pas de contours, même quand contraintes dans ce sens
Malheureusement pas de comparaison possible avec ACI
puisque ACI non praticable
![Page 26: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d7f497959293b8b836b/html5/thumbnails/26.jpg)
Journée « Fouille d’images » 01/04/03 26/36
La classification : La classification : le protocolele protocole
Apprentissage d’une base de 1000 motifs sur 540 images
Les paramètres : Taille image (32 x 32, 64 x 64 ou 128 x 128)
Niveaux de gris (16, 32 ou 64)
Taux de couverture (1%, 2%, 5% ou 10%)
Note : Tous les résultats sont disponibles sur :
http://www.eleves.iie.cnam.fr/jouteau
Test sur les 540 images restantes (répété 10 fois)
![Page 27: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d7f497959293b8b836b/html5/thumbnails/27.jpg)
Journée « Fouille d’images » 01/04/03 27/36
La classification : la méthodeLa classification : la méthode
Chaque exempleexemple (dans X) est décrit par ses motifsdécrit par ses motifs (dans (X))
Un nouvel exemple est classé par une méthode de plus proches voisinsclassé par une méthode de plus proches voisins
(dans l’espace de redescription (X) ) 1-ppv
ou k-ppv avec pondération en fonction de la distance
X (X)
xx
![Page 28: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d7f497959293b8b836b/html5/thumbnails/28.jpg)
Journée « Fouille d’images » 01/04/03 28/36
Performances (Performances ( = 5%) = 5%)
![Page 29: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d7f497959293b8b836b/html5/thumbnails/29.jpg)
Journée « Fouille d’images » 01/04/03 29/36
Avec un réseau de neurones RBFAvec un réseau de neurones RBF
![Page 30: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d7f497959293b8b836b/html5/thumbnails/30.jpg)
Journée « Fouille d’images » 01/04/03 30/36
ComparaisonComparaison
![Page 31: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d7f497959293b8b836b/html5/thumbnails/31.jpg)
Journée « Fouille d’images » 01/04/03 31/36
Performances en classificationPerformances en classification
Résultats Meilleurs résultats pour = 2 ou 5 %
Assez comparable : min, connexe, ligne
Bien meilleurs que méthode RN
Peut mieux faire … Avec un appariement plus souple
![Page 32: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d7f497959293b8b836b/html5/thumbnails/32.jpg)
Journée « Fouille d’images » 01/04/03 32/36
AnalyseAnalyse
Pourquoi ça marche (si bien) ?
Recodage non supervisé !!
Puis une méthode de plus proche(s) voisin(s)
Quelles sont les propriétés de ce recodage ?Quelles sont les propriétés de ce recodage ?
X (X)
x x
![Page 33: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d7f497959293b8b836b/html5/thumbnails/33.jpg)
Journée « Fouille d’images » 01/04/03 33/36
Codage d’une imageCodage d’une image
QuickTime™ et un décompresseurBMP sont requis pour visualiser
cette image.
Image
Motifsprésents
dansl’image
Partie de l’imagecouverte parles motifs
![Page 34: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d7f497959293b8b836b/html5/thumbnails/34.jpg)
Journée « Fouille d’images » 01/04/03 34/36
Approches classiquesApproches classiques
Analyse fonctionnelle
+/-
PCA
Apprent. artificiel
ICA
Réducti
on
Approximatio
n
Orthogonalité
Indép.
des données
… et moins classiques
![Page 35: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d7f497959293b8b836b/html5/thumbnails/35.jpg)
Journée « Fouille d’images » 01/04/03 35/36
Ne permet pas la reconstruction des entrées
Les motifs sont orthogonaux : mais par rapport aux exemples d’apprentissage !!
Espace
Tous les points d’apprentissage sont orthogonaux dans cet espace
Le codage par motifs fréquentsLe codage par motifs fréquents
C100010
![Page 36: EGC-03. Nouveaux résultats en classification à laide dun codage par motifs fréquents S. Jouteau, A. Cornuéjols, M. Sebag (LRI) Ph. Tarroux & J-S. Liénard](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d7f497959293b8b836b/html5/thumbnails/36.jpg)
Journée « Fouille d’images » 01/04/03 36/36
ConclusionConclusion
Analyse théorique en cours
Expérimentations
sur les scènes naturelles (poursuite du travail)
sur les puces ADN
sur la classification de textes de NewsGroups
Peut-être un nouveau type de traitement du signalPeut-être un nouveau type de traitement du signal