apprentissage statistique - laboratoire d'informatique de...
TRANSCRIPT
![Page 1: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/1.jpg)
Apprentissage Statistique
Master IAD - Université Paris 6P. Gallinari
[email protected]://www-connex.lip6.fr/~gallinar/
Année 2013-2014Partie 1
![Page 2: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/2.jpg)
Introduction
![Page 3: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/3.jpg)
Apprentissage Statistique - P. Gallinari 3
Apprentissage à partir d'exemples
Données z1, ..., zN Machine Fθ Critère C But extraire de l'information à partir des données, expliquer les
données information pertinente pour la tâche étudiée information pertinente pour d'autres données du même type
Utilisation inférence sur de nouvelles données
Type d'apprentissage : Supervisé Non supervisé Semi supervisé Renforcement
![Page 4: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/4.jpg)
Apprentissage Statistique - P. Gallinari 4
Exemples - problèmes d'apprentissage
Parole / Ecriture Données : (signal, (transcription)) But : reconnaître signal Critère : # mots correctement reconnus
Conduite véhicule autonome Données : (images routes, (commande volant)) e.g. S. Thrun Darpa
Challenge + Google car But : suivre route Critère : distance parcourue
Extraction d'information dans une base de texte Données : (texte + requête, (information pertinente)) But : extraire l'information correspondant à la requête Critère : Rappel / Précision
Diagnostic dans systèmes complexes Données : (état capteurs + alarmes, (diagnostic)) But : diagnostic correct Critère : ?
![Page 5: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/5.jpg)
Apprentissage Statistique - P. Gallinari 5
Modélisation d'utilisateur Données : (Traces utilisateur - contenu accédé) But : analyser/ catégoriser le comportement de l'utilisateur, Ciblage
clientèle, aide navigation, interfaces adaptatives Critère : ? Evaluation : ?
Plus difficile : Traduction Recherche d'information bases textes, images – vidéos Extraction d’information (e.g. web) Compréhension de texte / scène visuelle – extraction de sens Découverte dans data-warehouse .... Données : i.e. représenter l'information ?? But ?? Critère ??
![Page 6: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/6.jpg)
Apprentissage Statistique - P. Gallinari 6
Données : diversité
![Page 7: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/7.jpg)
Apprentissage Statistique - P. Gallinari 7
Données : quantitésYahoo! Data – A league of its own… U. Fayyad KDD’07
Terrabytes of Warehoused Data
25 49 94 100500
1,000
5,000
Amaz
on
Kore
a
Teleco
m
AT&T
Y! L
iveS
tor
Y! P
anam
a
War
ehou
se
Walm
art
Y! M
ain
war
ehou
se
GRAND CHALLENGE PROBLEMS OF DATA PROCESSING
TRAVEL, CREDIT CARD PROCESSING, STOCK EXCHANGE, RETAIL, INTERNET
Y! PROBLEM EXCEEDS OTHERS BY 2 ORDERS OF MAGNITUDE
Millions of Events Processed Per Day
50 120 2252,000
14,000
SABRE VISA NYSE Y! Panama Y! DataHighway
![Page 8: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/8.jpg)
Petabytes (10^15)
Google processes about 24 petabytes of data per day Google Street View Has Snapped 20 Petabytes of Street
Photos Telecoms: AT&T transfers about 30 petabytes of data
through its networks each day Physics: The experiments in the Large Hadron Collider
produce about 15 petabytes of data per year Neurology: It is estimated that the human brain's ability
to store memories is equivalent to about 2.5 petabytes of binary data
Apprentissage Statistique - P. Gallinari 8
![Page 9: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/9.jpg)
Big Data: Volume, Velocity, Variety, and Veracity http://www-01.ibm.com/software/data/bigdata/
Volume: terabytes, petabytes Turn 12 terabytes of Tweets created each day into improved product sentiment
analysis Convert 350 billion annual meter readings to better predict power consumption
Velocity: streams Scrutinize 5 million trade events created each day to identify potential fraud Analyze 500 million daily call detail records in real-time to predict customer churn faster
Variety: Big data is any type of data - structured and unstructured data such as text, sensor data, audio, video, click streams, log files and more. New insights are found when analyzing these data types together. Monitor 100’s of live video feeds from surveillance cameras to target points of interest Exploit the 80% data growth in images, video and documents to improve customer
satisfaction Veracity: Establishing trust in big data presents a huge challenge as the variety
and number of sources grows.
Apprentissage Statistique - P. Gallinari 9
![Page 10: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/10.jpg)
Gartner Hype Cycle: Big Data
Apprentissage Statistique - P. Gallinari 10
![Page 11: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/11.jpg)
Apprentissage Statistique - P. Gallinari 11
![Page 12: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/12.jpg)
Apprentissage Statistique - P. Gallinari 12
Données : ce que ca change
Nouveaux problèmes Recommandation CRM Analyse utilisateur, click through data, … …
Utilisation intensive des données Là ou on faisait “à la main” Traduction Scoring moteurs de recherche ….
![Page 13: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/13.jpg)
Apprentissage Statistique - P. Gallinari 13
Données dans la pratique de l’apprentissage
Ensemble D’Apprentissage Mettre au point le modèle
De Test Evaluer les performances du modèle appris
De Validation Apprentissage de méta-paramètres
![Page 14: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/14.jpg)
Apprentissage Statistique - P. Gallinari 14
Place de l’apprentissage
L’apprentissage constitue une brique dans le processus de fouille / traitement de données qui arrive souvent à la fin du processus qui est intégré dans une application ou dans le SI de l’entreprise
3 points de vue complémentaires Recherche : algorithmes et théorie Business : $$ Utilisateur : intégration, puissance et facilité d’utilisation
Les différentes étapes de l’analyse des données Collecte des données / stockage Prétraitement des données, étiquetage éventuel Analyses des données par des techniques exploratoires Mise au point et test de différents modèles d’apprentissage Evaluation
![Page 15: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/15.jpg)
Apprentissage Statistique - P. Gallinari 15
Apprentissage supervisé
Ensemble d'apprentissage Constitué de couples (entrée, sortie désirée) (x1, d1) , (x2, d2) , … , (xN, dN)
But Au moyen d'un algorithme d'apprentissage, découvrir
l’association d = Fθ (x) En utilisant les données d’appprentissage Qui offre une bonne généralisation
i.e. d = Fθ (x) si x hors de l'ensemble d'apprentissage mais généré par le même phénomène
Utilisation discrimination, identification, prévision, approximation …
![Page 16: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/16.jpg)
Apprentissage Statistique - P. Gallinari 16
Apprentissage non supervisé
Ensemble d'apprentissage Uniquement des données d’entrée x1, x2,… , xN
But Regrouper les données similaires Modéliser les données Découvrir des relations non spécifiées à l’avance entre les
données Utilisation estimation de densité, extraction de similarités
![Page 17: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/17.jpg)
Apprentissage Statistique - P. Gallinari 17
Apprentissage semi supervisé
Ensemble d’apprentisage étiquetés – faible quantité ((x1, d1) , (x2, d2) , … , (xN, dN) non étiquetés – grande quantité xN+1, xN+2, … , xN+M
But Extraire l’information des exemples non étiquetés utile pour
l’étiquetage Apprendre conjointement à partir des deux ensembles
d’exemples Utilisation grandes masses de données où l’étiquetage est possible mais
trop coûteux données qui évoluent implémentation rapide de systèmes génériques pour différentes
instances d’un problème
![Page 18: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/18.jpg)
Apprentissage Statistique - P. Gallinari 18
Apprentissage par Renforcement
Ensemble d'apprentissage Couples (entrée, sortie désirée qualitative) (x1, d1) , (x2, d2) , … , (xN, dN) Les xi peuvent être des séquences (temporal credit
assignment), les di sont des réponses qualitatives (e.g. 0,1), déterministes ou stochastiques.
But Apprendre des actions optimales
Utilisation commande, décision séquentielle, recherche
opérationnelle, jeux, programmation dynamique, navigation, ...
![Page 19: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/19.jpg)
Apprentissage Statistique - P. Gallinari 19
Domaines d’application industriels classiques – à partir de 1990
Défense : classification signaux, fusion donnée, commandevéhicules, suivi de cibles
Traitement de documents : compétitions ARPA, systèmes OCRspécialisés (fax, banque,..)
Finance - Banque - Assurance : détection fraude (systèmescommerciaux largement répandus), prévision, trading, gestionportefeuille
Prévision - Marketing : consommation (eau - electricité), prévisiontrafic, séries financières
Industrie pétrolière : analyse de données sismiques (traces,detection de pics), commande (raffineries).
Télécommunications : diagnostic, routage, traitement signal,contrôle d'admission (ATM), modélisation trafic
Capteurs : capteurs gaz, nez électronique, rétines artificielles Industrie du transport : modélisation et commande VLSI - circuits dédiés : accélérateurs, chips dédiés RN
![Page 20: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/20.jpg)
Apprentissage Statistique - P. Gallinari 20
Domaines d’application en Data Mining
Web : recherche d'information, filtrage d'information Text mining catégorisation, filtrage extraction d'information textuelle : e.g. recherche BD
journaux, bibliothèques virtuelles, veille technologique, Question Answering , ...
Multi-média : image + son, indexation d'informations e.g. BD vidéo Data mining : BD entreprise (Data-wharehouse), infos produits, infos
clients, ciblage clientèle ... Analyse comportement e.g. telecoms : serveurs web, accès services
commerciaux, internet - intranet, aide accès information Web2.0 : les communautés Mobiles : personnalisation, accès information Biologie - analyse de séquences, de structures Automobile ...
![Page 21: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/21.jpg)
Apprentissage Statistique - P. Gallinari 21
Challenges de l’apprentissage
Passage à l’échelle Quantité de données, taille données
Dynamicité Flux
Distribué Complexité des données et des problèmes Données structurées standards (XML, RDF, SMIL, …), taxonomies Web2.0 : découverte / analyse de relations !!
Nouveaux problèmes, nouveaux usages
![Page 22: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/22.jpg)
Apprentissage Statistique - P. Gallinari 22
Un exemple : Perceptron (1960 Rosenblatt)
Le perceptron est utilisé pour la discrimination La cellule de décision calcule une fonction à seuil :
F(x) = sgn [ i wi xi ]Classe 1 = x : F[ x ] = 1Classe 2 = x : F[ x ] = -1
Rétine Cellules d’association x Cellule de décision F(x)
w
![Page 23: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/23.jpg)
Apprentissage Statistique - P. Gallinari 23
L'algorithme du perceptron (2 classes)
Sortie désirée d = ± 1
Décision :
C'est un algorithme de correction d'erreur si est constant : règle à incrément fixe si est fonction du temps : règle à incrément variable
n
i iixwxF1
)sgn()(
Initialiser W (0)Répeter (t)
Pour i = 1 à NSi di(w(t).xi) 0 alors w(t+1) = w(t) + di.xi
Jusqu'à convergence
![Page 24: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/24.jpg)
Apprentissage Statistique - P. Gallinari 24
Fonction discriminante linéaire
Surface de décision: hyperplan F(x) = 0 Quelques propriétés w est le vecteur normal de l'hyperplan, il défini son
orientation distance de x à H : r = F(x) / || w || w0 = 0 : H passe par l'origine
Vecteur forme étendu (notation par défaut) x' = (1, x) w' = (w0, w) Fonction de décision : F(x') = w ’.x'
0
n
1i ii0 wxw w w.x F(x)
![Page 25: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/25.jpg)
Apprentissage Statistique - P. Gallinari 25
Géométrie de la discrimination linéaire
W
F(x) < 0
F(x) > 0wxF )(
La partie de l'image avec l'ID de relation rId9 n'a pas été trouvé dans le fichier.
F(x) = 0
![Page 26: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/26.jpg)
Apprentissage Statistique - P. Gallinari 26
Le perceptron effectue une descente de gradient
Fonction de coût et gradient
Demo http://lcn.epfl.ch/tutorial/english/
CgradwwwC
wC
Cgrad
dxwC
dw.xC
w
n
w
dxi
dx
...
...
.
.
1
classés mal ),(
classés mal ),(
![Page 27: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/27.jpg)
Apprentissage Statistique - P. Gallinari 27
Cas multiclasses
p classes = p " problèmes 2 classes " : Ci contre le reste Règle de décision : x Ci si Fi(x) > 0 et Fj(x) < 0 pour j
i pb : régions indéfinies
Approche générale construire p fonctions discriminantes Fi(x), i = 1 ... p règle de décision: x Ci si Fi(x) > Fj(x) pour ji crée une partition de l'espace d'entrée chaque classe est un polygone avec au plus p -1 faces.
Régions convexes : limitation des classifieurs linéaires
![Page 28: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/28.jpg)
Apprentissage Statistique - P. Gallinari 28
Propriétés Probabilité de séparabilité linéaire (Cover 1965)
Entrée de taille n, m formes classées aléatoirement en 2 classes (dichotomie) L(m,n) : nb de "vraies" dichotomies linéairement séparables : si m > n aucun sous espace engendré par n + 1 formes n'est de
dimension n - 1. si m n aucun sous espace de dimension m - 2 ne contient les m
formes. P(m,n) : probabilité qu'une dichotomie soit linéairement
séparable.
n im
m
nm siC
nm si nmL
0 1
2),(
P m n
m n
C m nmmi
n( , )
1
211
0
si
si
0 2 4
n1
10
m/n+1
P(m,n)
0.5
1
![Page 29: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/29.jpg)
Apprentissage Statistique - P. Gallinari 29
Propriétés Théorème de convergence du perceptron (Novikov 1962)
Si
les données peuvent être séparées avec une marge , i.e.
l'ensemble d'apprentissage est présenté au perceptron un nombre suffisant de fois
Alors après au plus corrections, l'algorithme converge
RxxR ,/
).(minsup wxd iiiW
22
R
![Page 30: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/30.jpg)
Apprentissage Statistique - P. Gallinari 30
Propriétés Borne sur l'erreur de généralisation (Aizerman et al. 1964)
Si les données sont séparables elles sont en nombre infini règle arrêt : après la kème correction, lesdonnées présentées sont reconnues correctement
alors le perceptron converge enétapes avec une probabilité , l'erreur de test est <
)1ln(lnln21
kmk
2
2
)1ln(lnln41
R
Rl
1
![Page 31: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/31.jpg)
Apprentissage Statistique - P. Gallinari 31
Overtraining / généralisation en regression
Exemple (Bishop 06)
Necessité de controler lors de l’apprentissage la complexité des modèles Techniques de régularisation
![Page 32: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/32.jpg)
Apprentissage Statistique - P. Gallinari 32
Algorithmes d'apprentissage numérique
Données statiques Réseaux de neurones Arbres décision / régression Méthodes issues de la statistique : estimation de densité paramétrique,
non paramétrique Décision k-ppv Fonctions noyau, machines à vecteurs supports…
Données séquentielles AR, ARMA, ARMAX, etc Réseaux de neurones récurrents Chaines de Markov, Modèles de Markov Cachés, champs conditionnels
de Markov Données structurées recherche actuelle : modèles relationnels
![Page 33: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/33.jpg)
Formalisation du problème de l'apprentissage
![Page 34: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/34.jpg)
Apprentissage Statistique - P. Gallinari 34
Formalisme
Données : vecteurs aléatoires (z), p(z)Machine :
θ : paramètres du modèle
Risque théorique :
Solution optimale :
FF
z
z dzzpzczcER )()()(
RF minarg*
![Page 35: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/35.jpg)
Apprentissage Statistique - P. Gallinari 35
Apprentissage à partir d'exemples
Données : Risque empirique :
Principes inductifs
Le principe inductif défini le processus d'apprentissage Exemple : Minimisation du risque empirique La fonction qui minimise le risque théorique est
approximée par qui optimise le risque empirique Est-ce un bon principe ? Généralisation ?
NiizD ..1
N
i
i FzcN
C1
),(1
*F
NF
![Page 36: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/36.jpg)
Apprentissage Statistique - P. Gallinari 36
Autres principes inductifs
Maximum de vraisemblance : Equivalent a :
Cadre Bayesien : p(modèle/Données) p(Données/Modèle)P(Modèle)
P(W) : loi à priori sur le modèle p(D/W) : vraisemblance p(W/D) : probabilité a posteriori Maximum a posteriori :
!! nécessite une hypothèse a priori sur le modèle
)()/()/( pDpDp
)/( maxarg DpWMAP
)/( maxarg
DpWMV
)/(log maxarg
DpWMV
![Page 37: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/37.jpg)
Apprentissage Statistique - P. Gallinari 37
Problèmes d'apprentissage : exemples
Discrimination z = (x, d) ensemble des fonctions à seuil R : probabilité de mauvaise classification C : fréquence des erreurs
Régression z = (x, d) un ensemble de fonctions réelles R : espérance des erreurs quadratiques C : somme des erreurs quadratiques
Estimation de densité z = x ensemble de fonctions réelles R : espérance (vraisemblance) C : somme
1,0d F
sinon 1
)( si 0),,(
xFdFdxc
Rd F
2)(),,( xFdFdxc
F)(ln),( xpFxc
![Page 38: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/38.jpg)
Apprentissage supervisé
Modèles discriminantsRéseaux de neuronesMachines à noyaux
Modèles génératifs
![Page 39: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/39.jpg)
Apprentissage supervisé
Réseaux de neurones
![Page 40: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/40.jpg)
Apprentissage Statistique - P. Gallinari 40
Description informelle
Caractéristiques
Eléments simples interconnectés Echange d'information au moyen des connexions Calcul distribué et coopératif
![Page 41: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/41.jpg)
Apprentissage Statistique - P. Gallinari 41
Domaine pluridisciplinaire
Domaines Neurosciences Sciences cognitive (AI, psychologie, linguistique) Informatique Maths Physique
Buts Modélisation (neurophysiologie, biologie.....) Modèle de calcul (applications, computational theory,
apprentissage...)
![Page 42: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/42.jpg)
Apprentissage Statistique - P. Gallinari 42
Exemple : réseau linéaire
Etat (cellule) = ΣcellulesW incident*état(cellules incidentes )
Apprentissage Dynamique Caractéristiques : Architecture : interconnexion + définition unités Algorithmes : apprentissage + dynamique
Visible units Hidden units
SIGNAL DECISIONW
W
WW
W
WW
WW
1
2
3
4
5
6
78
9
Visible units
![Page 43: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/43.jpg)
Apprentissage Statistique - P. Gallinari 43
Fondements biologiques
Le neurone Soma Arbre des dendrites Axone Flot d'information axone : impulsions électriques dendrites : transmission chimique avec le soma via synapses
Synapses contact : émission - réception Poids synaptique = modulation de l'information transmise
vers le soma. Comportement du neurone + mémoire ?
![Page 44: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/44.jpg)
Apprentissage Statistique - P. Gallinari 44
Neurones et Types de neurones
![Page 45: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/45.jpg)
Apprentissage Statistique - P. Gallinari 45
Composants du neurone
![Page 46: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/46.jpg)
Apprentissage Statistique - P. Gallinari 46
Historique rapide
43 Mc Culloch & Pitts : neurone formel "A logical calculus of the ideas immanent in nervous activities"
40 – 45 Wiener (USA) Kolmogorov (URSS) Türing (UK) Théorie de l'estimation et de la prédiction (contrôle batteries anti-
aeriennes) Boucle de rétro-action
![Page 47: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/47.jpg)
Apprentissage Statistique - P. Gallinari 47
48 - 50 Von Neuman : réseaux d'automates 49 Hebb : apprentissage dans les réseaux d'automates 55 - 60 Rosenblatt : Perceptron
Widrow - Hoff : Adaline
70 – 80 Mémoires associatives, ART, SOM ... 90 – 95 Réseaux non linéaires Réseaux de Hopfield, Machine de Boltzmann Perceptron multicouches ...
2006 - .. Deep neural networks, restricted Boltzmann
machines,…
![Page 48: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/48.jpg)
Apprentissage Statistique - P. Gallinari 48
Optimisation dans les RNAlgorithmes de gradient Principe : la direction de descente D, le pas de gradient sont
déterminés à partir d'informations locales sur la fonction de coût C(W), i.e. approximations au 1er ou 2nd ordre.
Exemples :
tttt DWW 1
Initialiser W0
ItérerCritère d'arrêt
Plus grande pente
Initialiser W0
Itérer Choisir un exemple xt
Critère d'arrêt
Gradient adaptatif
(w(t))()1( Ctwtw
))(()()1( twctwtw
![Page 49: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/49.jpg)
Apprentissage Statistique - P. Gallinari 49
Explication :
Approximation quadratique locale de la fonction à optimiser :
H : Hessien de la fonction de coût Méthode de Newton : En pratique : 1er ordre ou approximations du 2nd ordre Exemple 2nd ordre :
Méthodes de quasi-Newton : approximation de H-1 itérativement. Forme générale :
H' : approximation de H-1 sans calculer les dérivées secondes : minimisation suivant la direction
Méthodes générales Convergence vers un optimum local
)()()(
)()(21)()()()(
11
1111
tttt
ttT
tttT
tttt
WWHWQWQ
WWHWWWQWWWQWQ
0)( 1 tWQ
)(11 ttt WQHWW
))(),(,,,'(''
)('
111
1
ttttttt
ttttWQWQWWHFHH
WQHWW
)(' tt WQH
![Page 50: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/50.jpg)
Apprentissage Statistique - P. Gallinari 50
Exemple : FW fonction linéaire réelle C erreur quadratique
nj
jj xwxwxF..1
.)(
N
i
ii dxFN
C1
2))((1
nwC
wC
wC
...)(1
i nk
ij
iikk
i nk
iikk
jj
xdxwN
dxwwNw
C..1..1
2 ))(1)(1
![Page 51: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/51.jpg)
Apprentissage Statistique - P. Gallinari 51
Le neurone
C'est un automate caractérisé par des signaux d'entrée x1 , … , xn
une fonction de transition y = F ( x1 , … , xn )
x2
x1
xn
y = F(x)
![Page 52: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/52.jpg)
Apprentissage Statistique - P. Gallinari 52
Différent types de neurones
Le neurone distanceA = || x - w||2
g : Id, F(x) = e-(A/k)
Le neurone produit scalaireA = k wk xk
avec différentes fonctions g: Id,seuil,sigmoïde :th :
A
a
g(x) g(x)
kAexF
11)(
kAkA
kAkA
eeeexF
)(
x2
x1
xn
y = F(x)
![Page 53: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/53.jpg)
Apprentissage Statistique - P. Gallinari 53
Adaline (Adaptive Linear Element)
Architecture
Risque empirique : moindres carrésC(W) = [ 1 / N] . k [ w. xk - dk ] 2
x2
x1
xn
y = F(x)
![Page 54: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/54.jpg)
Apprentissage Statistique - P. Gallinari 54
Algorithme : Widrow-Hoff - gradient stochastique
xt est l'exemple présenté à l'instant t, le gradient est calculé sur le coût local
A comparer avec le gradient classique qui calcule le gradient sur le risque empirique
Initialiser W(0)ItererChoisir aléatoirement un exemple (xt,dt)w(t+1) = w(t) - (t) . [ w(t) xt - dt ] xt
Critère d'arrêt
Initialiser W(0)Itererw(t+1) = w(t) - (t) . k [ w(t) xk - dk ] xk
Critère d'arrêt
![Page 55: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/55.jpg)
Apprentissage Statistique - P. Gallinari 55
Apprentissage hors ligne vs apprentissage adaptatif
ck erreur sur la forme k de l'ensemble d'apprentissage
Gradient sur C Gradient adaptatif sur c
Q qk
W W
k
kcN
C 1
![Page 56: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/56.jpg)
Apprentissage Statistique - P. Gallinari 56
Extension multidimensionnelle Données : x1,…, xN n, d1,…, dN p, y1,…, yN p
Modèle : dk = W xk k 1,…,N i.e. D = W X
Fonction de coûtC(W) = || D - W X ||2
Algorithme: Widrow-Hoff W(t+1) = W(t) - (t)[ W x - d].x
![Page 57: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/57.jpg)
Apprentissage Statistique - P. Gallinari 57
Calcul de l'association optimale par l'algèbre linéaire
L'équation D = W X a une solution ssi D = D X+ X où X+ est la matrice pseudo-inverse de X
La solution générale est donnée par:
W = D X+ + Z ( I - X X+) (*)
où Z est une matrice arbitraire de même dimension que W
Quand D = W X n'a pas de solution exacte (*) est solution de MinW ||D - W X||2 i.e. (*) est la solution optimale de MinW ||D - W X||2
![Page 58: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/58.jpg)
Apprentissage Statistique - P. Gallinari 58
Modèles flexibles
Perceptron Multicouches Réseau avec: des couches externes: entrée et sortie des couches internes ou cachées
Les entrées sont présentées sur lapremière couche et propagées decouche en couche:xi = g [Ai ] avec Ai = j wij xj
La sortie calculée sur la dernièrecouche: yk = F(xk)est ensuite comparée à la sortie désirée dk
y
x
Input
Output
hidden layers
d
![Page 59: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/59.jpg)
Apprentissage Statistique - P. Gallinari 59
Fonction de coût : C(W) = 1/N k = 1..N ck, avec ck=||dk - yk ||2 = j=1..p (dk
j – ykj )2
Algorithme : Widrow-Hoff wij(t) = wij(t-1) - (t) ct / wij(t)
g prend généralement une des deux formes suivantes Sigmoïde
tangente hyperbolique
j jj xwwA 0
Kvevg
1
1)(
KvKv
KvKv
ee
eevg
)(
kk jkjj ijiii xwwgwwgxGy 00)(
![Page 60: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/60.jpg)
Apprentissage Statistique - P. Gallinari 60
Algorithme gradient adaptatif PMC
Initialiser W(0)Itérer•présenter un exemple xt
• propager les états en avant de couche en couche :xi = g( Ai)
• comparer: sortie calculée yt
sortie désirée dt
• calculer l'erreur sur les cellules de sortie: eti = ( yt
i - dti)
• rétro-propager l'erreur de la couche de sortie vers la couched'entrée:
si i est une cellule de sortie : zi = 2 . eti. g ' (Ai)
sinon: zi =(h whi (t) zh ) . g ' (Ai)où h indexe les cellules vers lesquelles i envoie sa sortie
• modifier les poids en arrière: wij (t) = - (t) . zi . xj
•exemple suivant
![Page 61: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/61.jpg)
Apprentissage Statistique - P. Gallinari 61
Contrôle de la complexité
En pratique, on n’optimise jamais le risque empirique seul On optimise le risque tout en controlant la complexité Tout bon logiciel d’apprentissage incorpore des techniques de contrôle
de la complexité Cf partie théorique du cours
Nombreuses méthodes Régularisation (Hadamard …Tikhonov) Théorie des problèmes mal posés
Minimisation du risque structurel (Vapnik) Estimateurs algébriques de l’erreur de généralisation (AIC, BIC, LOO,
etc) Apprentissage bayesien Fournit une interprétation statistique de la régularisation Le terme de régularisation apparait comme un a priori sur les paramètres du
modèle Méthodes d’ensembles Boosting, bagging, etc
….
![Page 62: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/62.jpg)
Apprentissage Statistique - P. Gallinari 62
Regularisation
Hadamard Un problème est bien posé si Il existe une solution Elle est unique La solution est stable
Exemple de problème mal posé (Goutte 1997)
Tikhonov Propose des méthodes pour transformer un problème mal posé en
problème bien posé
![Page 63: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/63.jpg)
Apprentissage Statistique - P. Gallinari 63
Régularisation empirique pour les réseaux de neurones Régularisation : Contrôler la variance de la solution en contraignant la
fonctionnelle Optimiser C = C1 + C2(F) C1 : mesure du but poursuivi e.g. MSE, Entropie, ... C2 : contraintes sur la forme de la solution (e.g. distribution des poids) Exemples : forcer les poids inutiles à des valeurs faibles
–> biaise la solution en diminuant les poids utiles
–> 2 groupes de poids autour de c
—> cellules cachées + poids
Utiliser des contraintes différentes suivant le rôle des poids Problème : détermination des "hyper-paramètres"
i i
i
cwcwC/1
/2
22
2
i i
i
i i
i
cwcw
chchC
/1/
/1/
2
22
2
22
2
i
iwC 22
![Page 64: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/64.jpg)
Apprentissage Statistique - P. Gallinari 64
Autres idées pour le problème de la généralisation dans les réseaux de neurones
Arrêt de l'apprentissage Elagage : tuer les paramètres inutiles dans un réseau.
Différentes mesures d'utilité ont été proposées Bruiter les entrées (Matsuoka 1992 ; Grandvallet et Canu
1994 ; Bishop 1994) Réseaux à convolution
![Page 65: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/65.jpg)
Apprentissage Statistique - P. Gallinari 65
Exemple (Cibas et al, 95, 96)
Discriminer entre trois classes de "formes d’onde". Les trois formes de base pour la génération des formes d'onde :
3 classes C1, C2, C3 engendrées respectivement par :
u v. a. de densité uniforme sur [0,1], ~ N(0,I), Classes équiprobables Apprentissage = 10 ensembles disjoints, chacun de 300 exemples Test = 5000 exemples Algorithme : Rétropropagation
1 5 9 13 17 21
6 6 6
h 3
h 2h 1
26)(1
10)(1
2)(1
32
31
21
huuhx
huuhx
huuhx
![Page 66: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/66.jpg)
Apprentissage Statistique - P. Gallinari 66
Evolution des performances pendant l'apprentissage
Figure 1 a (left), b (right): evolution of the performances (mean square error) during training for MLPs with a varying number of hidden units. (a) corresponds to a stochastic gradient descent and (b) to a conjugate gardient. Each curve corresponds to a two weight layer MLP, the number on the curve gives the size of the hidden layer.
0
5
10
15
35
60
5
10
15
3560
![Page 67: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/67.jpg)
Apprentissage Statistique - P. Gallinari 67
Effet de la régularisation
Comparaison de l’erreur en apprentissage (a) et en généralisation (b) pour les réseaux h=15 et h=60 en minimisant le coût ordinaire sans terme de régularisation (...-ord) et le coût avec la régularisation: avec détermination des paramètres à priori (...-WD) et en les estimant pendant l’apprentissage (...-estim)
h=60-WD
h=15-estim
h=60-estimh=15-ord
h=60-ord
h=60-ord
h=15-ord
h=15-estimh=60-estimh=60-WD
![Page 68: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/68.jpg)
Apprentissage Statistique - P. Gallinari 68
Fonctions à Base Radiale
Réseau à deux couches Notations wi. = poids vers la cellule i, xi sortie de la cellule i, x entrée
Risque : moindres carrés
Couche de sortie
g = IdCouche intermédiaire
y
x
j jj xwwA 0
2wxA
2)( A
eAg
2
.0)( jj ijiii wxgwwxGy
![Page 69: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/69.jpg)
Apprentissage Statistique - P. Gallinari 69
La fonction sigmoïde
Distribution de la famille exponentielle :
, : paramètres de la loi, ( paramètre de position , paramètre de dispersion).
Ex. de distributions exponentielles : normale, gamma, binomiale, poisson, hypergéométrique ...
Hypothèse : la distribution des données conditionnellement à chaque classe est de la famille exponentielle, avec un paramètre de dispersion identique pour toutes les classes i.e. :
Alors
)),()())/(((),,( xcabxxp T exp
)),()())/((()/( xcabxCxp iT
ii exp
)(1
1)/(bxwi T
exCP
![Page 70: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/70.jpg)
Apprentissage Statistique - P. Gallinari 70
Capacités d'approximation des PMC
Résultats basés sur les théorèmes d'approximation de l'analyse fonctionnelle. (Cybenko (1989)) Théorème 1: Soit f une fonction saturante continue, alors l'espace
des fonctions de la forme est dense dans l’espace des fonctions continues sur le cube unité C(I). i.e. h C(I)et > 0, g / < sur I.
Théorème 2: Soit f une fonction saturante continue. Soit F une fonction de décision définissant une partition de I. Alors > 0, il existe une fonction de la forme et un ensemble D I tel que (D) = 1 - et < sur D.
(Hornik et al., 1989) Théorème 3 : Pour toute fonction saturante croissante f, et toute
mesure de probabilité m sur Rn , l'espace des fonctions de la forme est uniformément dense sur les
compacts de C(Rn).
)()( .1 xwfvxg tj
nj jc
)()( xhxg
)()( .1 xwfvxg tj
nj jc
)()( xFxg
)()( .1 xwfvxg tj
nj jc
![Page 71: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/71.jpg)
Apprentissage Statistique - P. Gallinari 71
Fonctions radiales (Park & Sandberg, 1993) Théorème 4 : Si f, fonction réelle définie sur Rn est
intégrable, alors l'espace des fonctions de la forme :
est dense dans L1(Rn) ssi .
Nj
j
jj
wxfvxg 1
. )(.)(
nR
dxxf 0)(
![Page 72: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/72.jpg)
Apprentissage Statistique - P. Gallinari 72
Résultats basés sur le théorème de Kolmogorov Théorème sur la représentation (exacte) des fonctions réelles de Kolmogorov
Toute fonction h de C(I) peut s'écrire sous la forme
où les fonctions g et f sont des fonctions continues d'une variable.
Théorème 6 (Kurkova 1992) Soit h dans C(I), n 2 et R+, alors quelquesoit m vérifiant
m = 2n + 1n/(m-n) + v < / ||h||h(1/m) < v(m - n)/(2m - 3n)v > 0
h peut être approximée à une précision par un perceptron possédant deux couches cachées de fonctions saturantes et dont les sorties sont linéaires. La première couche comprend n.m(m+1) unités et la seconde m2(m+1)n. Les poids sont universels sauf ceux de la dernière couche, pour toutes les fonctions f vérifiant :
f(d)= sup|f(x1, ..., xn) - f(y1, ..., yn)|, x, y I et |xp - yp| < p.
))((),...,( 121 11
nq
np ppqqn xfgxxh
![Page 73: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/73.jpg)
Apprentissage Statistique - P. Gallinari 73
Interprétation probabiliste des sorties
Risque théorique R = E ( [ d - h(x) ] 2) Le min de R est obtenu pour h*(x) = E[d | x ]
C(W) = E ( [ d - F(x,W) ]2 )= E ( [ d - h*(x) ]2 ) + E ( [ h*(x) - F(x,W) ] 2)
h*(x) = E[d | x ] est bien la solution optimale
Dans l’espace des hypothèses, W* / R(W*) = MinW Rminimise simultanément : E ( [ d - F(x,W) ]2 ) LMSE E ( [ h*(x) - F(x,W) ]2 ) meilleure approximation LMS
de E[d | x ]
![Page 74: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/74.jpg)
Apprentissage Statistique - P. Gallinari 74
Cas de la Classification d = (0,…, 0, 1, 0, …, 0) avec un 1 en ième position si classe i hi*= P( Ci/ x ) i.e. F( . , W*) meilleure approximation LMS de la fonction
discriminante de Bayes (solution optimale). Sorties binaires hi*= P( di = 1| x )
Coût : di =ij pour x Cj, = coût de la décision i quand la classe est j hi* est le risque conditionnel de la décision i Décision : sortie la plus faible.
L’importance de la précision sur les sorties : dépend de l'utilisation (classification OU estimation de probabilité conditionnelle).
)/(]/[ 1 xjPxdE mj iji
![Page 75: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/75.jpg)
Apprentissage Statistique - P. Gallinari 75
Fonctions de coût
Différentes fonctions de coût sont utilisées, suivant les problèmes, ou les modèles
LMSE Regression Souvent utilisé en
classification Classification, Hinge,
logistique Classification Exemples y R, d -1, 1
Hinge, logistique sont ici des approximations de l’erreur de classification
))exp(1ln(),(
1),(
(marge) .
log
2
yddyc
yddyc(y-d)(y,d)c
dyz
istique
hinge
MSE
Figure from Bishop 2006
![Page 76: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/76.jpg)
Apprentissage supervisé
Machines à noyaux
![Page 77: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/77.jpg)
Apprentissage Statistique - P. Gallinari 77
Introduction
Familles de machines d'apprentissage générales qui exploitent l'idée suivante : Projeter les données dans un espace de grande dimension
- éventuellement infini -où le problème sera facile à traiter Utiliser des "projections" non linéaires permettant des
calculs "efficaces" Exemples :
Machines à Vecteurs Support (généralisent : hyperplan optimal, cadre Vapnik)
Processus Gaussien (généralisent : régression logistique, cadre Bayesien)
![Page 78: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/78.jpg)
Apprentissage Statistique - P. Gallinari 78
Représentation DualeExemple introductif : le perceptron
Hyp : 2 classes linéairement séparables, sortie désirée d = ± 1
i : mesure de la difficulté àclassifier iFonction de décision :
G = (xi.xj)i,j = 1..N : Matrice de Gram
Perceptron Dual = 0Répeter (t)Pour i = 1 à NSi
alors i = i (t) + 1Jusqu'à convergence
Fonction de décision :
W(0) = 0
Perceptron PrimalW(0) = 0Répeter (t)Pour i = 1 à N
Si di(W(t).xi) 0alors W(t+1) = W(t) + di.xi
Jusqu'à convergence
0)(1
N
j
ijjji xxdd
n
iii xwxF
1)()( sgn
N
i
ixidi
W1
N
ixixid
ixF
1).()( sgn
![Page 79: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/79.jpg)
Apprentissage Statistique - P. Gallinari 79
Représentation Duale
La plupart des machines à apprentissage linéaires ont une représentation duale Exemples Adaline, regression, regression ridge, etc
L’information sur les données est entièrement fournie par la matrice de Gram : G = (xi.xj) i,j = 1..N, qui joue un rôle central
La fonction de décision F(x) s’exprime comme une combinaison linéaire de produits scalaires entre la donnée d’entrée x et les exemples d’apprentissage
Les machines à noyau généralisent ces idées Une fonction noyau K est définie sur X2, par
K(x,z) = < Φ(x), Φ(z)>où Φ est une fonction de X dans un espace muni d’un produit
scalaire
![Page 80: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/80.jpg)
Apprentissage Statistique - P. Gallinari 80
Produit Scalaire et Noyaux
Projection non linéaire dans un espace de (éventuellement très) grande dimension H
Machine linéaire dans H - Primal :
Machine linéaire dans H - Dual :
Calculer les produits scalaires dans l'espace initial : choisir F /
avec K : fonction noyau (i.e. symétrique)
avec : npRR pn
bxwxF ipi
i
)()(1..
bxxdxFxdWNi
ii
i
Ni
ii
i
)()()( )(1..1..
)',()'().( xxKxx
bxxKdxFNi
ii
i 1..
),()(
![Page 81: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/81.jpg)
Apprentissage Statistique - P. Gallinari 81
Généralise le produit scalaire dans l'espace initial Le calcul de F ne dépend pas directement de la taille de
H : les calculs sont faits dans l'espace initial. La machine linéaire dans H peut être construite à partir
d'une fonction K sans qu'il soit nécessaire de définir explicitement : en pratique, on spécifiera directement K.
Cette idée permet d'étendre de nombreuses techniques linéaires au non linéaire: il suffit de trouver des noyaux appropriés Exemples ACP, Analyse discriminante, regression, etc
![Page 82: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/82.jpg)
Apprentissage Statistique - P. Gallinari 82
Caractérisation des noyaux
Quand peut on utiliser cette idée ? Cas d'un espace fini Soit X = x1,…, xN, K(x,x') une fonction symétrique sur X,
K est une fonction noyau ssi la matrice est positive semi-définie (valeurs propres 0)
Cas général : Conditions de Mercer (noyaux de Mercer) Il existe une application et un développement
ssi est fini
Nji
ji xxK 1,)),((K
1)'(.)()',(
iii xxxxK
dxxgg 2)(/
0')'()()',( dxdxxgxgxxK
![Page 83: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/83.jpg)
Apprentissage Statistique - P. Gallinari 83
Caractérisation des noyauxEspace de Hilbert à noyau autoreproduisant Une fonction K: X*X R qui est soit continue soit définie sur un domaine
fini peut s’écrire sous la forme d’un produit scalaire :
avec Φ : x Φ(x) F espace de Hilbert ssi c’est une fonction symétrique et toutes les matrices formées par la
restriction de K à un échantillon fini sur X sont semi-définies positives).
Résultat à la base de la caractérisation effective des fonctions noyaux Il permet de caractériser K comme un noyau sans passer par Φ C’est une formulation équivalente aux conditions de Mercer
)(),(),( zxzxK
![Page 84: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/84.jpg)
Apprentissage Statistique - P. Gallinari 84
L’espace de Hilbert associé à K :
Le produit scalaire défini sur cet espace :
l
iiiii liRXxNlxKF
1..1,,,/,.)(
l
iij
n
jii
l
ijiji
n
j
n
jjj
l
iii
zfxgzxKgf
xKgxKf
1 11 1
11
)()(),( ,
,.)((.) ,,.)((.)Soient
![Page 85: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/85.jpg)
Noyau auto-reproduisant
Si on prend g(.) = K(x,.), alors
)(),( ,.)(,1
xfxxKxKfl
iii
![Page 86: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/86.jpg)
Apprentissage Statistique - P. Gallinari 86
Exemples de noyaux
2 d de polynomes des ensemble ss i.e.
),)2(,).(()(/ avec )().(),(
).(),(
21n
: 2 d de monomes les tousi.e.
).()(/)( avec )().(),(
).)(.(.),(
.),(
,1,1,,
2
,1,,
1,
2
1
2
ccxxxx(x)zxzxK
czxzxK
xxxxzxzxK
zzxxzxzxK
zxzxK
niinjijiji
njijiji
n
jijiji
n
iii
![Page 87: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/87.jpg)
Apprentissage Statistique - P. Gallinari 87
Exemples de noyaux
).(
gaussien noyau exp
d ordred' polynome )1.(
),(2
cxvxSigmoïde
xx
xx
xxK
i
i
di
i
![Page 88: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/88.jpg)
Apprentissage Statistique - P. Gallinari 88
Construction des noyaux en pratique
Les résultats de Mercer servent à prouver les propriétés des fonctions noyaux. En pratique, elles sont peu utiles
Pour construire des noyaux, on procède par combinaison à partir de noyaux connus
Si K1 et K2 sont des noyaux sur X2, K3 défini sur F, les fonctions suivantes sont des noyaux : K(x, z) = K1 (x, z) + K2 (x, z) K(x, z) = K1 (x, z) . K2 (x, z)* K(x, z) = aK1 (x, z) K(x, z) = K3 (Φ(x), Φ(z)) …..
![Page 89: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/89.jpg)
Apprentissage Statistique - P. Gallinari 89
Machines à vecteurs support
Exposé du cours : discrimination 2 classes Cas général : discrimination multi-classes, régression,
densité Idées Projeter -non linéairement- les données dans un espace de
"très" grande taille H Faire une séparation linéaire de bonne qualité dans cet
espace Raisonner dans H, mais résoudre le problème
d'optimisation dans l'espace de départ (noyaux)
![Page 90: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/90.jpg)
Apprentissage Statistique - P. Gallinari 90
Notion de marge
WxF )(
W
Wb
H : F(x) = W.x + b = 0
Marge géométrique pour xi :
Marge de W pr à ens. D :Mini(M(xi))
Hyperplan de marge maximale :
MaxW(Mini(M(xi)))
)()(Wbx
WWdxM iii
![Page 91: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/91.jpg)
Apprentissage Statistique - P. Gallinari 91
Marge géométrique vs marge fonctionnelle
Marge géométrique di.F(xi)/||w||
Marge fonctionnelle di.F(xi)
Remplacer w par k.w ne change pas la fonction de décision ou la marge géométrique, mais change la marge fonctionnelle.
Pour les SVM, on fixera la marge fonctionnelle à 1 et on optimisera la marge géométrique.
![Page 92: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/92.jpg)
Apprentissage Statistique - P. Gallinari 92
Prémisses : Séparation linéaire à hyperplan optimal (1974) Hyp : D linéairement séparable
Fonction de décision : F(x) = W.x + b Pb apprentissage : trouver l'hyperplan optimal H* qui sépare D i.e. di.F(xi) 1 , i
avec une marge maximale M =
i.e. : Problème Primal :
1 avec , 1.. i
Niii ddxD
wwxFd ii
i
1)(.min
1)(...
Minimiser 2
ii xFdCS
W
![Page 93: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/93.jpg)
Apprentissage Statistique - P. Gallinari 93
Solution : W* dépend uniquement des points supports i.e. points sur la marge qui vérifient : di.F*(xi) = 1
Rq: Quelque soit la dimension de l'espace, le nombre de degrés de liberté est "égal" au nombre de points de support
F* dépend uniquement du produit scalaire xi.x
support support
i i .x)(* x*i i
ii
ii xdxFdw
Marge
Vecteurs Supports
![Page 94: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/94.jpg)
Apprentissage Statistique - P. Gallinari 94
Apprentissage :
On résoud le problème d'optimisation dit dual :
Problème minimisation quadratique sous contraintes
0et 0.
.)( Maximiser
ii
,
ii
ji
jjji
ii
dCS
xxddL ii
![Page 95: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/95.jpg)
Apprentissage Statistique - P. Gallinari 95
Machines à vecteurs supports
Faire une séparation à marge max. dans un espace défini par une fonction noyau.
Tous les résultats sur le classifieur linéaire à marge max. se transposent en remplaçant par .xxi ),( xxK i
bxxKdxF
xxKxx
bxxdxFxdW
RR
SVx
ii
i
SVx SVx
ii
iii
i
pn
i
i i
..
.. ..
),()(
)',()'().(
)()()( )(
:
![Page 96: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/96.jpg)
Apprentissage Statistique - P. Gallinari 96
Apprentissage : On résoud le problème d'optimisation dual :
Problème minimisation quadratique sous contraintes dans l ’espace de départ
Difficile en pratique : différents algorithmes. Dans la solution optimale i > 0 uniquement pour les points
support. Seuls les produits scalaires K apparaissent, et pas les .
0et 0.
),()( Maximiser
ii
,
ii
ji
jijiji
ii
dCS
xxKddL
![Page 97: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/97.jpg)
Apprentissage Statistique - P. Gallinari 97
Propriétés de généralisation -exemples
Th 1 peu de points support meilleure généralisation indépendant de la taille de l'espace de départ
Th 2 Si l'hyperplan optimal passe par l'origine et a pour marge
Alors
Dans les 2 cas, E[P()] est l'espérance sur tous les ensembles de taille l-1, et E[membre droit] est l'espérance sur tous les ensembles d'apprentissage de taille l (leave one out).
1ageapprentissexemples#supports]vecteurs[#))](([
ExerreurPE
qxNiq i ,1../
N
][))](([
2
2
qExerreurPE
![Page 98: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/98.jpg)
Apprentissage Statistique - P. Gallinari 98
Cas non linéairement séparable
Marges molles L'algorithme est instable Dans les cas non linéairement séparables Dans le cas de données réelles même linéairement séparables Solution adoptée en pratique autoriser des erreurs, i.e. prendre pour contraintes :
ηi = 0, xi est correctement classifié et est du bon coté de la marge 0 < ηi <= 1, xi est correctement classifié, est à l’intérieur de la marge ηi > 1, xi est mal classé ηi : slack variable
0
1))(.(
i
iii bxWd
![Page 99: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/99.jpg)
Apprentissage Statistique - P. Gallinari 99
But Maximiser la marge tout en pénalisant les points qui sont mal
classés Formalisation Plusieurs expressions possibles du problème L’une des plus courantes :
C fixé par validation croisée joue le rôle de paramètre de régularisation
NiNibxwd
CS
CwwMin
ii
N
i
..1,0 ..1,1).(
..
marge) lamax (i.e. ).(
i
i
1
i
![Page 100: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/100.jpg)
Apprentissage Statistique - P. Gallinari 100
Marges molles – formulation duale
0et 0.
),()( Maximiser
ii
,
ii
ji
jijiji
ii
dCCS
xxKddL
![Page 101: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/101.jpg)
Apprentissage Statistique - P. Gallinari 101
Algorithmes d’optimisation
Algorithmes d’optimisation standard pour la programmation quadratique sous contrainte e.g. Sequential Minimal Optimization (SMO)
Algorithmes stochastiques - SVM Results –(Bottou 2007) Task : Document classification - RCV1 documents belonging to
the class CCAT (2 classes classification task) Programs SVMLight and SVMPerf are well known SVM solvers written by Thorsten
Joachims. SVMLight is suitable for SVMs with arbitrary kernels. Similar results could be achieved using Chih-Jen Lin‘s LibSVM software. SVMPerf is a specialized solver for linear SVMs. It is considered to be one of the most efficient optimizer for this particular problem.
Algorithm (hinge loss) Training Time Primal cost Test Error
SVMLight 23642 secs 0.2275 6.02%
SVMPerf 66 secs 0.2278 6.03%
Stochastic Gradient (svmsgd) 1.4 secs 0.2275 6.02%
Stochastic Gradient (svmsgd2 1.4 secs 0.2275 6.01%
![Page 102: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/102.jpg)
Apprentissage Statistique - P. Gallinari 102
Annexe : OptimisationProblèmes sous contraintes égalités, inégalités
Soient f, gi, i = 1..k, hj, j = 1 ..n des fonctions définies sur Rn à valeur dans R
On considère le problème primal suivant (Pb. 0) :
mjwhkiwg
RwwfMin
j
i
n
..1,0)(..1,0)(
sContrainte Sous )),((
![Page 103: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/103.jpg)
Apprentissage Statistique - P. Gallinari 103
Optimisation non contrainte
Fermat Une C.N. pour que w* soit un min. de f(w) est
Si f est convexe c’est une Condition Suffisante
F est convexe si ∀ ∈ 0,1 , 1 1
0*)(
wwf
![Page 104: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/104.jpg)
Apprentissage Statistique - P. Gallinari 104
OptimisationLagrangien On considère le (Pb. 1) :
On définit le Lagrangien L pour (Pb. 1) par
les βi sont les coefficients de Lagrange
mjwhCS
RwwfMin
j
n
..1,0)( ..
)),((
m
ijj whwfwL
1)()(),(
![Page 105: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/105.jpg)
Apprentissage Statistique - P. Gallinari 105
OptimisationTh. Lagrange
Une CN pour que w*, * soit solution de (Pb. 1) est que en ce point
Si L(w, *) est une fonction convexe de w, c’est une C.S.
0*)*,(
0*)*,(
wLw
wL
![Page 106: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/106.jpg)
OptimisationLagrangien augmenté De même, on définit le Lagrangien augmenté pour (Pb. 0) :
m
jjj
k
iii whwgwfwL
11
)()()(),(
![Page 107: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/107.jpg)
Apprentissage Statistique - P. Gallinari 107
OptimisationTh. Kuhn et Tucker
On considère (Pb. 0) avec Ω convexe et f C1 convexe, gi, hjaffines (hi = A.w – b)
1 CNS pour que w* soit un optimum est qu’il existe α* et β* /
kikiwg
kiwg
wLw
wL
i
i
ii
..1,0*..1,0*)(
..1,0*)(*
0*)*,*,(
0*)*,*,(
Rq :
Soit une contrainte est active (αi* ≠ 0) et gi(w*) = 0), w* est un point frontière de la région admissible
Soit elle est inactive ((αi* = 0) et w* est dans la région admissible
![Page 108: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/108.jpg)
Apprentissage Statistique - P. Gallinari 108
Formulation duale du problème d’optimisation Le (Pb. 0 _ formulation primale) est équivalent à la forme duale
suivante :
Rq : est une fonction de , uniquement
0 S.C.
)),,(inf ( Maximiser ,
wLw
),,(inf wLw
![Page 109: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/109.jpg)
Apprentissage Statistique - P. Gallinari 109
SVM – formulations primale et duale
SVM Ω, f, contraintes sont convexes, L est quadratique On étudie le cas, D = (xi ,di)i = 1..N linéairement séparables Formulation similaire pour le cas non linéairement séparable
Pb. Primal
Lagrangien primal
Lagrangien dual
Nibxwd
CSwwMin
ii ..1,1).(
.. marge) lamax (i.e. ).(
0
)1).((.21),,(
1
i
N
i
iii bxwdwwbwL
N
i
jiji
jiN
ii xxddbwL
11).(
21),,(
![Page 110: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/110.jpg)
Apprentissage Statistique - P. Gallinari 110
SVM – formulations primale et duale
Pb. Dual
Fonction de décision
Ni
d
CS
xxddbwL
i
N
ii
i
N
i
jiji
jiN
ii
..1,0
0
..
).(21),,(
1
11
VSi
ii
i bxxdxF.
*).(**)*,,(
![Page 111: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/111.jpg)
Apprentissage non supervisé
Algorithme EM et mélange de densitésProbabilistic Latent Semantic AnalysisLatent Dirichlet AllocationSpectral clusteringNon Negative Matrix Factorization
![Page 112: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/112.jpg)
Apprentissage Statistique - P. Gallinari 112
Applications
analyse des données quand il n'y a pas de connaissance sur la classe. e.g. pas d'étiquetage des données (problème nouveau)
trop de données ou étiquetage trop compliqué e.g. traces utilisateur (web), documents web, parole, etc
réduction de la quantité d'information e.g. quantification
découverte de régularités sur les données ou de similarités.
![Page 113: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/113.jpg)
Apprentissage non supervisé
Algorithme Espérance Maximisation (EM)Application aux mélanges de densités
![Page 114: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/114.jpg)
Apprentissage Statistique - P. Gallinari 114
Algorithme E. M. (Espérance Maximisation)
On dispose de données D = xii = 1..N On n’a pas d’étiquette di
d’un modèle génératif, de paramètres W : FW Le modèle « explique » la génération des données
On veut trouver les paramètres du modèle qui expliquent au mieux lagénération des données
On se donne un critère Ici on considère la vraisemblance des données qui est le critère le plus
fréquent P(D| W) = P(x1, …, xN| W)
D’autres critères sont également couramment utilisés On va essayer de déterminer les paramètres W de façon à maximiser la
vraisemblance
![Page 115: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/115.jpg)
Apprentissage Statistique - P. Gallinari 115
Exemple
On recueille des données sur deux populations e.g. taille d’individus D = xii = 1..N
Hypothèse les données de chaque population sont gaussiennes Elles ont la même variance 2
Problème estimer les i et les à partir des données Si les di sont connus, i.e. D = (xi, dii = 1..N la solution est simple On a deux population séparées (2 classes) C1, C2
La maximisation de la vraisemblance donne l’estimateur classique de la moyenne
Difficulté : les di sont inconnus
),(),,( 22
21 IdNIdN
ji Cx
i
jj x
C1
![Page 116: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/116.jpg)
Cas où l’appartenance est connue
Vraisemblance ∏ |∈ ∏ |∈
En pratique on maximise la log-vraisemblance log ∑ ∑ ∈∈
Cas des gaussiennes
exp
0 ⇔| |
∑ ∈
Apprentissage Statistique - P. Gallinari 116
![Page 117: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/117.jpg)
Cas où la probabilité d’appartenance est connue On connait | ,k 1,2
Log-vraisemblance log ∑ log
Cas des gaussiennes
0 ⇔∑ .
∑ |
Rq : si on ne connait les | ,k 1,2 leséquationsformentunsystèmenonlinéairecouplé,insoluble.
Apprentissage Statistique - P. Gallinari 117
![Page 118: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/118.jpg)
Apprentissage Statistique - P. Gallinari 118
Variables cachées (ou latentes)
On postule l’existence de variables cachées h responsables de la
génération des données À chaque xi, on associe sa classe cachée hi
H = hiI = 1..N
l’existence d’une fonction densité jointe sur les données observées et cachées p(x, h)
P(D, H| W) sera appelé vraisemblance complète des données pour le modèle W.
Remarque Les variables h sont inconnues et sont considérées comme
des variables aléatoires P(D, H| W) sera elle même une variable aléatoire
![Page 119: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/119.jpg)
Apprentissage Statistique - P. Gallinari 119
Algorithme EM
On veut maximiser P(D/W)à partir de l'observation des données visibles Problème la maximisation directe de P(D/W) ne conduit pas à des formules calculatoires
(algorithme) Solution : on maximise de façon itérative une fonction auxiliaire Q L’espérance de la vraisemblance des données complètes connaissant le modèle
courant L’espérance est calculée par rapport à la distribution des variables cachées h Le modèle courant à l’étape t est noté W(t)
Remarque : dans cette expression D et W(t) sont des constantes h est une variable aléatoire de densité p(h|x, W(t)) W est les paramètres du modèle que l’on veut estimer
H
ttt WHDpWDHpWDWHDpEWWQ )/,(log),/(,)//,(log)/( )()()(
![Page 120: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/120.jpg)
Apprentissage Statistique - P. Gallinari 120
Algorithme EM
L’algorithme converge vers un maximum local de la fonction Q et de P(D/W)
Initialiser W = W(0)
1. Etape E : EspéranceOn calculeOn en déduitL'espérance est calculée par rapport à la distribution de H
2. Etape M : MaximisationEtant donnée la distribution courante sur H, trouver les paramètres quimaximisent Q
),/( )(tWDHp)/( )(tWWQ
)(1)( ,)//,(logmaxarg t
W
t WDWHDpEW
![Page 121: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/121.jpg)
Apprentissage Statistique - P. Gallinari 121
Remarques Lors de l'étape E, on estime la distribution de H, à
partir des valeurs courantes des paramètres W(t). Au lieu d'essayer de maximiser directement, on utilise
la fonction auxiliaire Q. On peut montrer la convergence de l'algorithme par :
L'algorithme est utilisé pour les algorithmes non supervisés, semi - supervisés les données manquantes ou les composantes manquantes dans les
données les HMM ...
),/( )(tWDHp
)/( WDp
)/()/()/()/( tttt WDpWDpWWQWWQ
![Page 122: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/122.jpg)
Apprentissage Statistique - P. Gallinari 122
Exemple
Mélange de densités - Cas de deux classe gaussiennes, connu But (MV) : trouver On considère , les hi sont les données
cachées Algorithme Initialisation itérer Etape E
Etape M
NiixD ..1)( ),/(maxarg, 2121 Dp
Niii hxHD ..1),(
calculer i = 1..N, j = 1,2)/( ii xjhp )],,/([),,,,( 212121
tttttt HDPEQ
Trouver les μ1, μ2 qui maximisent Qcalculer
Ni
Nitj i
ii
xjhp
xxjhp
..1
..1)1(
)/(
)/(
(0)2 ,)0(
1
![Page 123: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/123.jpg)
Apprentissage Statistique - P. Gallinari 123
Remarques Etape E : calcul de la responsabilité de chaque gaussienne pour
chaque point
Etape M : chaque centre est défini comme le centre de toutes lesdonnées, chacune étant pondérée par cette responsabilité
Cas limite : = 0 : algorithme des k-moyennes
k
iii
iiiii
khxpkhpjhxpjhpxjhp
)/()()/()()/(
![Page 124: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/124.jpg)
Apprentissage Statistique - P. Gallinari 124
Mélange de densités – cas gaussien
On suppose que le modèle génératif des données est un mélange de densités gaussiennes On fixe a priori le nombre de composantes du mélange à k on suppose que les données x sont unidimensionnelles
Paramètres Coefficients du mélange p(l| x), moyennes et écarts types
k
llxplpxp
1)/()()( 2
2
2)(
2/12 )2(1)/( l
lx
l
elxp
kllllpW
1..,),(
![Page 125: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/125.jpg)
Apprentissage Statistique - P. Gallinari 125
Vraisemblance
Vraisemblance complète variables cachées : hi classe de xi
N
i
k
l
i WlxpWlpWDp1 1
),/()/()/(
)),/()/((
)),/()/(()/,(
1 1
1
N
i
ik
l lh
N
i
iii
WlxpWlp
WhxpWhpWHDp
i log
loglog
![Page 126: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/126.jpg)
Apprentissage Statistique - P. Gallinari 126
Mélange de densité – Etapes E et M
Etape E
Etape M
),/()/(log),/(
),/()/,(log...)],(log[)/(
1 1
)(
1 1 1
)(,/
)(
1)(
WlxpWlpWxlp
WxhpWHDpWHDpEWWQ
iN
i
k
l
ti
k
h
k
h
N
i
tiiWXH
t
Nt
kl
tti
ttit
i Wlp(hWlhxp
Wjp(hWjhxpWxjhp
1..
)()(
)()()(
)).,/(
)),/(),/(
))1)/(((1)/( contrainte sous
)(
11
k
l
k
l
WlpQMinWlp
QMin
![Page 127: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/127.jpg)
Apprentissage Statistique - P. Gallinari 127
Mélange de densités – Reestimation dans l’étape M
i
titi
tii
tj
iti
tj
i
tii
iti
tj
WxjpN
jp
Wxjp
xWxjp
n
Wxjp
xWxjp
),/(1)(
),/(
),/(1
),/(
),/(
)()1(
)(
2)1()(2)1(
)(
)(
)1(
![Page 128: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/128.jpg)
Apprentissage non supervisé
Mélange de densitésApprentissage par échantillonnage de Gibbs
![Page 129: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/129.jpg)
Apprentissage Statistique - P. Gallinari 129
Les méthodes MCMCMarkov Chain Monte CarloMéthodes de calcul intensif basées sur la simulation
pour Echantillonnage de variables aléatoires x(t)t=1..T qui suivent une certaine distribution p(x)
Calcul de l’espérance de fonctions suivant cette distribution
E[f(x)] sera estimé par 1/T . Σt=1..Tf(x(t)) e.g. moyenne, marginales, …
Maximisation de fonctions Argmaxxp(x)
![Page 130: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/130.jpg)
Apprentissage Statistique - P. Gallinari 130
Echantillonneur de Gibbs
On veut estimer une densité p(x) avec x = (x1,..,xn) Hyp On connait les lois conditionnelles p(xi| x1,.., xi -1, xi+1,..., xn) = p(xi| x - i)
Algorithme Initialiser xi, i = 1..n Pour t = 1 …T faire
)(~nner Echantillo
........
)(~nner Echantillo
1
111
1
tnn
tn
tt
xxpx
xxpx
![Page 131: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/131.jpg)
Apprentissage Statistique - P. Gallinari 131
Propriétés Sous certaines conditions de régularité, la procédure
converge vers la distribution cible p(x) Les échantillons résultants sont des échantillons de la loi
jointe p(x) On n’a pas besoin de connaitre la forme analytique des
p(xi| x - i) mais uniquement de pouvoir échantillonner à partir de ces distributions Mais la forme analytique permet d’avoir de meilleurs estimés
Avant de retenir les points échantillons, on autorise souvent une période de “burn-in” pendant laquelle on fait simplement tourner l’algorithme “à vide”
Gibbs facile à implémenter, adapté aux modèles hierarchiques (cf LDA)
![Page 132: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/132.jpg)
Apprentissage Statistique - P. Gallinari 132
Cas du mélange de deux lois gaussiennes
Modèle
On va considérer un modèle augmenté en ajoutant une variable cachée h Les données complètes sont les (xi, hi)
Les paramètres à estimer sont :
On va utiliser Gibbs en échantillonnant sur les densités conditionnelles Pour simplifier on suppose dans l’example que les proportions p(l) et
les variances σ sont fixées, on estime juste les moyennes μ1 et μ2
Pour cela, on va échantillonner suivant la distribution jointe (h(t), μ1(t),
μ2(t))
2
1)/()()(
llxplpxp
2..1,),( llllpW
![Page 133: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/133.jpg)
Apprentissage Statistique - P. Gallinari 133
Echantillonneur de Gibbs pour le modèle de mélange de deux gaussiennes
2,1),,ˆ(~générer 2.
2,1,)1(
).1(ˆ
calculer
2,1,),(),(
),()
selon 1,0générer 1.
1Pour 1...T Répéter t
, initiales valeursdesChoisir
j(t)j
1
)(
1
)(
j
2)1(
2)1(
21)1(
1)1(
1
)1()1(
)(
)0(2
)0(1
jN
jh
xh
jxppxpp
xppjp(h
h
...N i
j
N
i
ti
N
ii
ti
ti
tti
tj
tji
tj
i
ti
![Page 134: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/134.jpg)
Apprentissage Statistique - P. Gallinari 134
Lien avec l’algorithme EM
Les étapes pour cet exemple sont les mêmes que avec EM
Différence Au lieu de maximiser la vraisemblance, aux étapes 1 et 2,
on échantillonne Etape 1 : on simule les variables cachées h au lieu de calculer
E(h|W, D) Etape 2 : on simule à partir de p(μ1, μ2|h, D) au lieu de calculer
le max. vraisemblance p(μ1, μ2| D) dans EM
![Page 135: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/135.jpg)
Apprentissage non supervisé
Algorithmes à variables latentes Probabilistic Latent Semantic Analysis Latent Dirichlet Allocation
![Page 136: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/136.jpg)
Apprentissage Statistique - P. Gallinari 136
Preliminaries : unigram model
Generative model of a document
Select document length Pick a word w with probability p(w) Continue until the end of the document
Applications Classification Clustering Ad-hoc retrieval (language models)
i
i dwpdp )()(
![Page 137: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/137.jpg)
Apprentissage Statistique - P. Gallinari 137
Preliminaries - Unigram model – geometric interpretation
P(w1|d)
P(w3|d)
P(w2|d)
Document d
Word simplex
2/1)(
4/1)(
4/1)(
3
2
1
tionrepresenta d doc
dwp
dwp
dwp
![Page 138: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/138.jpg)
Apprentissage Statistique - P. Gallinari 138
Latent models for document generation
Several factors influence the creation of a document (authors, topics, mood, etc). They are usually unknown
Generative statistical models Associate the factors with latent variables Identifying (learning) the latent variables allows us to
uncover (inference) complex latent structures
![Page 139: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/139.jpg)
Apprentissage Statistique - P. Gallinari 139
Probabilistic Latent Semantic Analysis -PLSA (Hofmann 99)
Motivations Several topics may be present in a document or in a
document collection Learn the topics from a training collection Applications Identify the semantic content of documents, documents
relationships, trends, … Segment documents, ad-hoc IR, …
![Page 140: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/140.jpg)
Apprentissage Statistique - P. Gallinari 140
PLSA
The latent structure is a set of topics Each document is generated as a set of words chosen from
selected topics A latent variable z (topic) is associated to each word occurrence
in the document
Generative Process Select a document d, P(d) Iterate Choose a latent class z, P(z|d) Generate a word w according to P(w| z)
Note : P(w| z) and P(z|d) are multinomial distributions over the V words and the T topics
![Page 141: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/141.jpg)
Apprentissage Statistique - P. Gallinari 141
PLSA - Topic
A topic is a distribution over words
Remark A topic is shared by several words A word is associated to several topics
P(w|z)
words
word P(w|z)
machine 0.04
learning 0.01
information 0.09
retrieval 0.02
…… …….
![Page 142: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/142.jpg)
Apprentissage Statistique - P. Gallinari 142
PLSA as a graphical model
z
dzPzwPdwP
dwPdPwdP
)()()(
)(*)(),(
Boxes represent repeated samplingd wz
Corpus level
Document level
P(z|d) P(w|z)
DNd
![Page 143: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/143.jpg)
Apprentissage Statistique - P. Gallinari 143
PLSA model
Hypothesis # values of z is fixed a priori Bag of words Documents are independent No specific distribution on the documents
Conditional independence z being known, w and d are independent
Learning Maximum Likelihood : p(Doc-collection) EM algorithm and variants
![Page 144: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/144.jpg)
Apprentissage Statistique - P. Gallinari 144
PLSA - geometric interpretation
Topici is a point on the word simplex Documents are constrained to lie on the topic simplex Creates a bottleneck in document representation
Topic simplex
topic2
topic1
topic3w2 w1
w3
Word simplex
Document d
z
dzPzwPdwP )()()(
![Page 145: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/145.jpg)
Apprentissage Statistique - P. Gallinari 145
Applications
Thematic segmentation Creating documents hierarchies IR : PLSI model Clustering and classification Image annotation Learn and infer P(w|image)
Collaborative filtering
Note : #variants and extensions E.g. Hierarchical PLSA (see Gaussier et al.)
![Page 146: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/146.jpg)
Apprentissage Statistique - P. Gallinari 146
Latent Dirichlet Allocation - LDA (Blei et al. 2003)
LDA is also a topic model Extends PLSA
Motivations Generalization over unseen documents Define a probabilistic model over documents Not present in PLSA
Allows to generate (model) unseen documents Overtraining In PLSA, the number of parameters grows with the corpus
size LDA constrains the distribution of topics for each document
and words for each topic
![Page 147: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/147.jpg)
Apprentissage Statistique - P. Gallinari 147
LDA - model
Similar to PLSA with the addition of a prior distribution on the topic distribution
Generative process For a document Topic distribution Choose θ ~ Dirichlet () a distribution over topics
Words For each document word w Choose a topic z ~ multinomial (θ) Choose a word w from p(w | θ, ) multinomial probability
conditioned on topic z
![Page 148: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/148.jpg)
Apprentissage Statistique - P. Gallinari 148
LDA - model
ddzwpzpppWp
zwpzpppWZp
d
i
d
N
i ziii
N
iiii
1
1
),()()()(),(
),()()()(),,,,(
θ wz
Corpus level
Document level
Ф(z)
Multinomial
Dirichlet Multinomial
Nd
D
βT
Dirichlet
![Page 149: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/149.jpg)
Apprentissage Statistique - P. Gallinari 149
LDA – model - unfolded
P(w|z1,1)
words
P(z|1)
topics
1 2
Z1,1 Z1,2Z2,1
w1,1 w1,2 w2,1
Doc1 Doc2
………
![Page 150: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/150.jpg)
Apprentissage Statistique - P. Gallinari 150
PLSA vs LDA - geometric interpretation
PLSA provides a sampling of the document distribution on the topic simplex
LDA provides an estimate of the document distribution on the topic simple
topic2
topic1
topic3w2 w1
w3
Observed documents
topic2
topic1
topic3w2 w1
w3
Document distribution
![Page 151: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/151.jpg)
Apprentissage Statistique - P. Gallinari 151
Dirichlet etc…
, are priors on the distributions and Perform a smoothing of and distributions , control the amount of smoothing
Dirichlet and multinomial Dirichlet is a conjugate prior for multinomial Allows to compute closed forms for posterior distributions
![Page 152: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/152.jpg)
Apprentissage Statistique - P. Gallinari 152
LDA applications
Exploratory analysis Discovering topics Topic evolution Document tagging by most relevant topic words
Classification Collaborative filtering Image annotation IR All latent models Inference on latent variables
![Page 153: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/153.jpg)
Apprentissage Statistique - P. Gallinari 153
LDA tagging (Blei et al 2003)
![Page 154: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/154.jpg)
Apprentissage Statistique - P. Gallinari 154
Finding topics in PNAS (Griffith et al. 2004)
PNAS categories
LDA topics
Mean θi value for the most significant topic i on this
category
![Page 155: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/155.jpg)
Apprentissage Statistique - P. Gallinari 155
Peer to Peer document download analysis (Denoyer 2008)
Nodes are files Two nodes are connected if they have been dowloaded
by at least 20 peers (500 K peers in total and 2.5 K files) Colors indicate the thematic clustering performed by
LDA using the key words associated to files Results Strong correspondance between download (connections)
and thematic communities
![Page 156: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/156.jpg)
Apprentissage Statistique - P. Gallinari 156
Peer to Peer document download analysis (Denoyer 2008)
![Page 157: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/157.jpg)
Apprentissage Statistique - P. Gallinari 157
Author-recipient topic model (McCallum et al. 2004)
Learning from Enron data
Identify
•Topic
•Author-recipient
![Page 158: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/158.jpg)
Apprentissage Statistique - P. Gallinari 158
LDA – learning and inference
Exact learning and inference are intractable Approximate models Variational models Gibbs sampling Expectation propagation…
![Page 159: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/159.jpg)
Apprentissage Statistique - P. Gallinari 159
Other latent models
Image annotation Author-topic model Author-Recipient-Topic…
![Page 160: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/160.jpg)
Apprentissage Statistique - P. Gallinari 160
Example: Discovering e-communities (Zhou et al 2006)
Usual methods Rely mostly on graph and connectivity analysis
Machine learning Introduce semantic relationships e.g. shared documents in e-mails or linked documents for the
web Common interests
Example : e-mail analysis Recipient list (connectivity) Message body (Semantic information) Identify communities of users based on their exchanges,
and topics
![Page 161: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/161.jpg)
Apprentissage Statistique - P. Gallinari 161
A document is characterized by 3 latent variables Content t Author u Community c
Goal Compute p(c, u, z | w)
Message generation d Choose a community c Choose an author in the community Choose a topic t Choose a word according to topic distribution w
![Page 162: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/162.jpg)
Apprentissage Statistique - P. Gallinari 162
Community-user-topic model
di wzCorpus level
Document level
cNd
D
ФβT
C
U
Distribution of users over communities
![Page 163: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/163.jpg)
Apprentissage Statistique - P. Gallinari 163
Example ( Zhou 06)
![Page 164: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/164.jpg)
Apprentissage non supervisé
Spectral Clustering
Apprentissage Statistique - P. Gallinari 164
![Page 165: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/165.jpg)
Spectral Clustering (after Von Luxburg 2007)
Intuition x1, …, xn data points, wij similarity between xi and xj
G = (V, E) graph vertex vi corresponds to data point xi
Edges are weighted by wij
Clustering amounts at finding a graph partition such that Edges between clusters have low weights Edges among points inside a cluster have high values
Apprentissage Statistique - P. Gallinari 165
![Page 166: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/166.jpg)
Graphs notations G = (V, E) undirected graph V = v1, …, vn) Edges are weighted, W = (wij)I, j = 1…n , wij ≥ 0 is the weight
matrix D : diagonal matrix with ∑
Apprentissage Statistique - P. Gallinari 166
![Page 167: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/167.jpg)
Building similarity graphs from data points Different ways to build a similarity graph Locally connected graphs: k-nearest neighbor graphs Two vertices are connected if one of them is among the k-
nearest neighbor of the other Or two vertices are connected if both are in the k-
neighborhood of the other Edges are then weighted using the similarity of the vertices
Fully connected graphs
exp /2 )
Apprentissage Statistique - P. Gallinari 167
![Page 168: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/168.jpg)
Graph Laplacians Unnormalized graph Laplacian
Normalized graph Laplacians
I symmetric interpretation : random
walk on the graph
Apprentissage Statistique - P. Gallinari 168
![Page 169: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/169.jpg)
Properties of the unnormalized graph Laplacian L satisfies:
∀ ∈ , ∑ ,
L is symmetric, positive semi-definite The smallest eigenvalue of L is 0, the corresponding
eigenvector is 1 (vector with n 1) L has n non negative eigenvalues 0 …
Apprentissage Statistique - P. Gallinari 169
![Page 170: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/170.jpg)
Properties of the normalized graph Laplacians
∀ ∈ , ∑ ,
Lsym and Lrw are positive semi-definite and have n non negative eigenvalues 0 …
is an eigenvalue of Lrw with eigenvector u iff is an eigenvalue of Lsym with eigenvector D1/2u
Apprentissage Statistique - P. Gallinari 170
![Page 171: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/171.jpg)
Unnormalized spectral clustering
Idée Projeter les points x ∈ , i 1…n, dans un espace de
dimension k dans lequel le clustering se fait facilement
Apprentissage Statistique - P. Gallinari 171
![Page 172: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/172.jpg)
Unnormalized spectral clustering
Input: n points x1, …, xn, similarity matrix S Output: clusters Construct similarity graph and corresponding weight matrix W Compute unnormalized Laplacian L Compute first eigenvectors of L (corresponding to smallest
eigenvalues): u1, …, uk
U: n x k matrix with columns u1, …, uk
For i = 1…n, ∈ i-th row of U Cluster yi, i = 1…n with k-means into clusters C1, …, Ck
k clusters in the initial space: C’1, …, C’k / C’i = xj / yj Ci
Note: Similar algorithms with normalized Laplacians
Apprentissage Statistique - P. Gallinari 172
![Page 173: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/173.jpg)
Apprentissage non supervisé
Non Negative Matrix Factorization
Apprentissage Statistique - P. Gallinari 173
![Page 174: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/174.jpg)
Non Negative Matrix Factorization
Idea Project data vectors in a latent space of dimension k < m
size of the original space Axis in this latent space represent a new basis for data
representation Each original data vector will be approximated as a linear
combination of k basis vectors in this new space Data are assigned to the nearest axis This provide a clustering of the data
Apprentissage Statistique - P. Gallinari 174
![Page 175: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/175.jpg)
x1,…, xn, ∈ , 0 X m x n non negative matrix with columns the xi s Find non negative factors U, V, / With U an m x k matrix, U a k x n matrix, k < m, n
x
m x n m x k k x n
vvApprentissage Statistique - P. Gallinari 175
X U V
![Page 176: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/176.jpg)
, ∑
Columns ofU,uj arebasisvectors,the arethecoefficientofxi inthis basis
Loss function Solve
, Underconstraints , 0
Convex loss function inUandinV,butnotinboth UandV
Apprentissage Statistique - P. Gallinari 176
![Page 177: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/177.jpg)
Algorithm Constrained optimization problem Can be solved by a Lagrangian formulation Iterative multiplicative algorithm (Xu et al. 2003)
U, V initialized at random values Iterate until convergence
←
←
Or by projected gradient formulations The solution U, V is not unique, if U, V is solution, then UD,
D-1V for D diagonal positive is also solution
Apprentissage Statistique - P. Gallinari 177
![Page 178: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/178.jpg)
Using NMF for Clustering Normalize U as a column stochastic matrix (each column
vector is of norm 1)
←∑
← ∑
Under the constraint “U normalized” the solution U, V is unique
Associate xi to cluster j if
Apprentissage Statistique - P. Gallinari 178
![Page 179: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/179.jpg)
Note many different versions and extensions of NMF Different loss functions e.g. different constraints on the decomposition
Different algorithms Applications Clustering Recommendation Link prediction Etc
Specific forms of NMF can be shown equivalent to PLSA Spectral clustering
Apprentissage Statistique - P. Gallinari 179
![Page 180: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/180.jpg)
Illustration (Lee & Seung 1999)
Basis images for
NMF
Vector Quantization
Principal Component Analysis
Apprentissage Statistique - P. Gallinari 180
![Page 181: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/181.jpg)
Apprentissage Semi supervisé
Méthodes génératives et discriminantesMéthodes basées sur les graphes
![Page 182: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/182.jpg)
Apprentissage Statistique - P. Gallinari 182
Problématique
Cadre Problème de discrimination, i.e. on veut estimer P(C| x)
pour toutes les classes CMotivation Apprendre à classifier des données en utilisant un faible
nombre de données étiquetées et un grand nombre de données non étiquetées
L’etiquetage coûte cher, les données non étiquetées sont souvent largement disponibles
Utilisation Nombreux problèmes du web Ressources (temps, moyens humains etc) non disponibles
pour construire des ensembles annotés
![Page 183: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/183.jpg)
Apprentissage Statistique - P. Gallinari 183
Méthodes
Très nombreuses méthodes Self learning Méthodes génératives Méthodes discriminantes SVM, CEM
Méthodes à base de graphes …
![Page 184: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/184.jpg)
Apprentissage Statistique - P. Gallinari 184
Apprentissage semi-superviséModèles génératifs Approche générale : Maximiser la vraisemblance jointe des données étiquetées
et non étiquetées Utiliser un algorithme EM On en déduit P(C|x) pour tout x On regarde ici le cas à 2 classes
Notations D = DLU DU DL : Labeled data DU : Unlabeled data
C1 et C2 sont les deux classes considérées p1 et p2 sont les probabilités a priori des deux classes C1 et
C2
![Page 185: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/185.jpg)
Apprentissage Statistique - P. Gallinari 185
Apprentissage semi-superviséModèles génératifs Log Vraisemblance des données
uiU
LLL
UL
Dx kkik
Dx
CDxCDxDx
DxDxM
DxM
Cxpxp
CxpCxpxp
xpxpL
xpL
))/(.(log)(log
),(log),(log)(log
)(log)(log
)(log
2
1
2121
Vraisemblance des données non étiquetées.
C’est un modèle de mélange
Vraisemblance des données
étiquetées
![Page 186: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/186.jpg)
Apprentissage Statistique - P. Gallinari 186
Apprentissage semi-superviséModèles génératifs La vraisemblance totale s’écrit
Important Les modèles pour les densités p(x| C) sont les mêmes pour
les données supervisées et non supervisées C’est ce qui permet de capturer dans une même fonction
nles informations supervisées et non supervisées
uiki Dx k
kikk Cx
kikM CxpCxpL ))/(.(log))/(.log(2
1
2
1
Somme sur les données
étiquetées
Somme sur les données non étiquetées
Modèle de mélange
![Page 187: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/187.jpg)
Apprentissage Statistique - P. Gallinari 187
Apprentissage semi-superviséModèles dicriminants (Amini 2004)
Au lieu de maximiser la vraisemblance, on va maximiser la vraisemblance classifiante (Symons et al. 71).
But classifier les exemples en c groupes en prenant une
décision “dure”.
avec T=(t1,…,tc) le vecteur des indicateurs de classe:
Vraisemblance classifiante vraisemblance des données complètes (donnée, classe) :
0,et1 hkk tkhtCx
8
c
k
N
ikkkikkiC CxptCL
1 1
)),,/(.log(.),,(
![Page 188: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/188.jpg)
Apprentissage Statistique - P. Gallinari 188
Comparer avec la vraisemblance usuelle pour un mélange de densités :
N c
kkkkikkiC CxptCL
11 1
)),,/(..(log),,(
![Page 189: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/189.jpg)
Apprentissage Statistique - P. Gallinari 189
Vraisemblance classifiante pour le cas semi-supervisé Pour un classifieur discriminant maximiser LC est
equivalent à maximiser
n étiquetés, m non étiquetés Algorithme : CEM
c
k
mn
nikkikki
c
k kCixkkikC xCptxCpCL
1 11)),,/(log(.)),,/(log(),,(~
9
![Page 190: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/190.jpg)
Apprentissage Statistique - P. Gallinari 190
Mesures d’évaluation
Caractéristique des ensembles de données
Critère de performance
Pertinent
Non pertinent
Decision du système
+
PGC = ++
Precision =
Classification
Text summarization
IJCAI’03
![Page 191: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/191.jpg)
Apprentissage Statistique - P. Gallinari 191
Exemple : Email spam
IJCAI’03
5%
65%
73%
82%
![Page 192: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/192.jpg)
Apprentissage Statistique - P. Gallinari 192
Exemple : Résumé de texte
IJCAI’03
![Page 193: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/193.jpg)
Apprentissage Statistique - P. Gallinari 193
Apprentissage semi-superviséModèles de graphes Les modèles génératifs ou discriminants précédants ne
prennent pas en compte la densité locale des données. Ils ne considèrent que la cohérence globale des données Vraisemblance
Sans considérer la cohérence locale Voisinage des points, densité locale
Cela peut conduire à des erreurs importantes si les densités ne sont pas bien séparées
Plusieurs familles de modèles ont été proposées pour prendre en compte à la fois les cohérences globales et locales des données Parmi elles, les méthodes à base de graphes
![Page 194: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/194.jpg)
Apprentissage Statistique - P. Gallinari 194
Data consistency (Zhou et al. 2003)
SSL rely on local (neighbors share the same label) and global (data structure) data consistency
Fig. from Zhou et al. 2003
![Page 195: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/195.jpg)
Apprentissage Statistique - P. Gallinari 195
Graph methods general idea Create a graph G = (V, E) Compute a similarity matrix W: Wij is the similarity between
nodes i and j Propagate observed labels to unlabeled nodes
![Page 196: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/196.jpg)
Apprentissage Statistique - P. Gallinari 196
Example (Zhou et al 2003)
Compute an affinity matrix W
a normalized affinity matrix S
Iterate
Converges to Y* final labels on unlabeled data
0),2
exp(: 2
2
iiji
ij Wxx
WW
21
21
WDDS
)0()1()(.)1( YtYStY
D is a diagonal matrix whose ith element is the sum of ith row of W
Y(0) matrix of initial labels and 0 for unlabeled data
![Page 197: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/197.jpg)
Apprentissage Statistique - P. Gallinari 197
Iterations
Fig. from Zhou et al. 2003
![Page 198: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/198.jpg)
Apprentissage Statistique - P. Gallinari 198
Apprentissage en présence de données positives uniquement Problème Discrimination avec des étiquetages dans une seule classe
-positifs- et en faible nombre Nombreuses instances dans la réalité
Méthode pratique générale On considère que les exemples les plus éloignés des
exemples étiquetés sont négatifs On applique un algorithme d’apprentissage semi-supervisé
![Page 199: Apprentissage Statistique - Laboratoire d'informatique de ...webia.lip6.fr/.../Teaching/2013-Apprentissage-Statistique-M2-partie1.pdf · Apprentissage Statistique - P. Gallinari 7](https://reader033.vdocuments.net/reader033/viewer/2022041520/5e2d90625e8d3b7f251c0e8a/html5/thumbnails/199.jpg)
Apprentissage Statistique - P. Gallinari 199
Quelques liens utiles
Livres Cornuéjols, A and Miclet L.: Apprentissage Artificiel. Concepts et
algorithmes (2nd Ed.with revisions and additions - 2006 Eyrolles, 650 p Christopher M. Bishop, Pattern Recognition and Machine Learning,
Springer (2006). David Barber, 2012, Bayesian Reasoning and Machine Learning,
Cambridge Univ. Press. Software General Weka 3: Data Mining Software in Java
http://www.cs.waikato.ac.nz/ml/weka/ Lush (Leon Bottou)
http://lush.sourceforge.net) SVM http://www.csie.ntu.edu.tw/~cjlin/libsvm/
http://svmlight.joachims.org/http://www.torch.ch/
Test sets UCI machine learning repository …..