apprentissage statistique - laboratoire d'informatique de...

Apprentissage Statistique

Master IAD - Université Paris 6P. Gallinari

[email protected]://www-connex.lip6.fr/~gallinar/

Année 2013-2014Partie 1

Introduction

Apprentissage Statistique - P. Gallinari 3

Apprentissage à partir d'exemples

Données z1, ..., zN Machine Fθ Critère C But extraire de l'information à partir des données, expliquer les

données information pertinente pour la tâche étudiée information pertinente pour d'autres données du même type

Utilisation inférence sur de nouvelles données

Type d'apprentissage : Supervisé Non supervisé Semi supervisé Renforcement


Exemples - problèmes d'apprentissage

Parole / Ecriture Données : (signal, (transcription)) But : reconnaître signal Critère : # mots correctement reconnus

Conduite véhicule autonome Données : (images routes, (commande volant)) e.g. S. Thrun Darpa

Challenge + Google car But : suivre route Critère : distance parcourue

Extraction d'information dans une base de texte Données : (texte + requête, (information pertinente)) But : extraire l'information correspondant à la requête Critère : Rappel / Précision

Diagnostic dans systèmes complexes Données : (état capteurs + alarmes, (diagnostic)) But : diagnostic correct Critère : ?


Modélisation d'utilisateur Données : (Traces utilisateur - contenu accédé) But : analyser/ catégoriser le comportement de l'utilisateur, Ciblage

clientèle, aide navigation, interfaces adaptatives Critère : ? Evaluation : ?

Plus difficile : Traduction Recherche d'information bases textes, images – vidéos Extraction d’information (e.g. web) Compréhension de texte / scène visuelle – extraction de sens Découverte dans data-warehouse .... Données : i.e. représenter l'information ?? But ?? Critère ??


Données : diversité


Données : quantitésYahoo! Data – A league of its own… U. Fayyad KDD’07

Terrabytes of Warehoused Data

25 49 94 100500

1,000

5,000

Amaz

on

Kore

a

Teleco

m

AT&T

Y! L

iveS

tor

Y! P

anam

a

War

ehou

se

Walm

art

Y! M

ain

war

ehou

se

GRAND CHALLENGE PROBLEMS OF DATA PROCESSING

TRAVEL, CREDIT CARD PROCESSING, STOCK EXCHANGE, RETAIL, INTERNET

Y! PROBLEM EXCEEDS OTHERS BY 2 ORDERS OF MAGNITUDE

Millions of Events Processed Per Day

50 120 2252,000

14,000

SABRE VISA NYSE Y! Panama Y! DataHighway

Petabytes (10^15)

Google processes about 24 petabytes of data per day Google Street View Has Snapped 20 Petabytes of Street

Photos Telecoms: AT&T transfers about 30 petabytes of data

through its networks each day Physics: The experiments in the Large Hadron Collider

produce about 15 petabytes of data per year Neurology: It is estimated that the human brain's ability

to store memories is equivalent to about 2.5 petabytes of binary data


Big Data: Volume, Velocity, Variety, and Veracity http://www-01.ibm.com/software/data/bigdata/

Volume: terabytes, petabytes Turn 12 terabytes of Tweets created each day into improved product sentiment

analysis Convert 350 billion annual meter readings to better predict power consumption

Velocity: streams Scrutinize 5 million trade events created each day to identify potential fraud Analyze 500 million daily call detail records in real-time to predict customer churn faster

Variety: Big data is any type of data - structured and unstructured data such as text, sensor data, audio, video, click streams, log files and more. New insights are found when analyzing these data types together. Monitor 100’s of live video feeds from surveillance cameras to target points of interest Exploit the 80% data growth in images, video and documents to improve customer

satisfaction Veracity: Establishing trust in big data presents a huge challenge as the variety

and number of sources grows.


Gartner Hype Cycle: Big Data



Données : ce que ca change

Nouveaux problèmes Recommandation CRM Analyse utilisateur, click through data, … …

Utilisation intensive des données Là ou on faisait “à la main” Traduction Scoring moteurs de recherche ….


Données dans la pratique de l’apprentissage

Ensemble D’Apprentissage Mettre au point le modèle

De Test Evaluer les performances du modèle appris

De Validation Apprentissage de méta-paramètres


Place de l’apprentissage

L’apprentissage constitue une brique dans le processus de fouille / traitement de données qui arrive souvent à la fin du processus qui est intégré dans une application ou dans le SI de l’entreprise

3 points de vue complémentaires Recherche : algorithmes et théorie Business : $$ Utilisateur : intégration, puissance et facilité d’utilisation

Les différentes étapes de l’analyse des données Collecte des données / stockage Prétraitement des données, étiquetage éventuel Analyses des données par des techniques exploratoires Mise au point et test de différents modèles d’apprentissage Evaluation


Apprentissage supervisé

Ensemble d'apprentissage Constitué de couples (entrée, sortie désirée) (x1, d1) , (x2, d2) , … , (xN, dN)

But Au moyen d'un algorithme d'apprentissage, découvrir

l’association d = Fθ (x) En utilisant les données d’appprentissage Qui offre une bonne généralisation

i.e. d = Fθ (x) si x hors de l'ensemble d'apprentissage mais généré par le même phénomène

Utilisation discrimination, identification, prévision, approximation …


Apprentissage non supervisé

Ensemble d'apprentissage Uniquement des données d’entrée x1, x2,… , xN

But Regrouper les données similaires Modéliser les données Découvrir des relations non spécifiées à l’avance entre les

données Utilisation estimation de densité, extraction de similarités


Apprentissage semi supervisé

Ensemble d’apprentisage étiquetés – faible quantité ((x1, d1) , (x2, d2) , … , (xN, dN) non étiquetés – grande quantité xN+1, xN+2, … , xN+M

But Extraire l’information des exemples non étiquetés utile pour

l’étiquetage Apprendre conjointement à partir des deux ensembles

d’exemples Utilisation grandes masses de données où l’étiquetage est possible mais

trop coûteux données qui évoluent implémentation rapide de systèmes génériques pour différentes

instances d’un problème


Apprentissage par Renforcement

Ensemble d'apprentissage Couples (entrée, sortie désirée qualitative) (x1, d1) , (x2, d2) , … , (xN, dN) Les xi peuvent être des séquences (temporal credit

assignment), les di sont des réponses qualitatives (e.g. 0,1), déterministes ou stochastiques.

But Apprendre des actions optimales

Utilisation commande, décision séquentielle, recherche

opérationnelle, jeux, programmation dynamique, navigation, ...


Domaines d’application industriels classiques – à partir de 1990

Défense : classification signaux, fusion donnée, commandevéhicules, suivi de cibles

Traitement de documents : compétitions ARPA, systèmes OCRspécialisés (fax, banque,..)

Finance - Banque - Assurance : détection fraude (systèmescommerciaux largement répandus), prévision, trading, gestionportefeuille

Prévision - Marketing : consommation (eau - electricité), prévisiontrafic, séries financières

Industrie pétrolière : analyse de données sismiques (traces,detection de pics), commande (raffineries).

Télécommunications : diagnostic, routage, traitement signal,contrôle d'admission (ATM), modélisation trafic

Capteurs : capteurs gaz, nez électronique, rétines artificielles Industrie du transport : modélisation et commande VLSI - circuits dédiés : accélérateurs, chips dédiés RN


Domaines d’application en Data Mining

Web : recherche d'information, filtrage d'information Text mining catégorisation, filtrage extraction d'information textuelle : e.g. recherche BD

journaux, bibliothèques virtuelles, veille technologique, Question Answering , ...

Multi-média : image + son, indexation d'informations e.g. BD vidéo Data mining : BD entreprise (Data-wharehouse), infos produits, infos

clients, ciblage clientèle ... Analyse comportement e.g. telecoms : serveurs web, accès services

commerciaux, internet - intranet, aide accès information Web2.0 : les communautés Mobiles : personnalisation, accès information Biologie - analyse de séquences, de structures Automobile ...


Challenges de l’apprentissage

Passage à l’échelle Quantité de données, taille données

Dynamicité Flux

Distribué Complexité des données et des problèmes Données structurées standards (XML, RDF, SMIL, …), taxonomies Web2.0 : découverte / analyse de relations !!

Nouveaux problèmes, nouveaux usages


Un exemple : Perceptron (1960 Rosenblatt)

Le perceptron est utilisé pour la discrimination La cellule de décision calcule une fonction à seuil :

F(x) = sgn [ i wi xi ]Classe 1 = x : F[ x ] = 1Classe 2 = x : F[ x ] = -1

Rétine Cellules d’association x Cellule de décision F(x)

w


L'algorithme du perceptron (2 classes)

Sortie désirée d = ± 1

Décision :

C'est un algorithme de correction d'erreur si est constant : règle à incrément fixe si est fonction du temps : règle à incrément variable

n

i iixwxF1

)sgn()(

Initialiser W (0)Répeter (t)

Pour i = 1 à NSi di(w(t).xi) 0 alors w(t+1) = w(t) + di.xi

Jusqu'à convergence


Fonction discriminante linéaire

Surface de décision: hyperplan F(x) = 0 Quelques propriétés w est le vecteur normal de l'hyperplan, il défini son

orientation distance de x à H : r = F(x) / || w || w0 = 0 : H passe par l'origine

Vecteur forme étendu (notation par défaut) x' = (1, x) w' = (w0, w) Fonction de décision : F(x') = w ’.x'

0

n

1i ii0 wxw w w.x F(x)


Géométrie de la discrimination linéaire

W

F(x) < 0

F(x) > 0wxF )(

La partie de l'image avec l'ID de relation rId9 n'a pas été trouvé dans le fichier.

F(x) = 0


Le perceptron effectue une descente de gradient

Fonction de coût et gradient

Demo http://lcn.epfl.ch/tutorial/english/

CgradwwwC

wC

Cgrad

dxwC

dw.xC

w

n

w

dxi

dx

...

...

.

.

1

classés mal ),(

classés mal ),(


Cas multiclasses

p classes = p " problèmes 2 classes " : Ci contre le reste Règle de décision : x Ci si Fi(x) > 0 et Fj(x) < 0 pour j

i pb : régions indéfinies

Approche générale construire p fonctions discriminantes Fi(x), i = 1 ... p règle de décision: x Ci si Fi(x) > Fj(x) pour ji crée une partition de l'espace d'entrée chaque classe est un polygone avec au plus p -1 faces.

Régions convexes : limitation des classifieurs linéaires


Propriétés Probabilité de séparabilité linéaire (Cover 1965)

Entrée de taille n, m formes classées aléatoirement en 2 classes (dichotomie) L(m,n) : nb de "vraies" dichotomies linéairement séparables : si m > n aucun sous espace engendré par n + 1 formes n'est de

dimension n - 1. si m n aucun sous espace de dimension m - 2 ne contient les m

formes. P(m,n) : probabilité qu'une dichotomie soit linéairement

séparable.

n im

m

nm siC

nm si nmL

0 1

2),(

P m n

m n

C m nmmi

n( , )

1

211

0

si

si

0 2 4

n1

10

m/n+1

P(m,n)

0.5

1


Propriétés Théorème de convergence du perceptron (Novikov 1962)

Si

les données peuvent être séparées avec une marge , i.e.

l'ensemble d'apprentissage est présenté au perceptron un nombre suffisant de fois

Alors après au plus corrections, l'algorithme converge

RxxR ,/

).(minsup wxd iiiW

22

R


Propriétés Borne sur l'erreur de généralisation (Aizerman et al. 1964)

Si les données sont séparables elles sont en nombre infini règle arrêt : après la kème correction, lesdonnées présentées sont reconnues correctement

alors le perceptron converge enétapes avec une probabilité , l'erreur de test est <

)1ln(lnln21

kmk

2

2

)1ln(lnln41

R

Rl

1


Overtraining / généralisation en regression

Exemple (Bishop 06)

Necessité de controler lors de l’apprentissage la complexité des modèles Techniques de régularisation


Algorithmes d'apprentissage numérique

Données statiques Réseaux de neurones Arbres décision / régression Méthodes issues de la statistique : estimation de densité paramétrique,

non paramétrique Décision k-ppv Fonctions noyau, machines à vecteurs supports…

Données séquentielles AR, ARMA, ARMAX, etc Réseaux de neurones récurrents Chaines de Markov, Modèles de Markov Cachés, champs conditionnels

de Markov Données structurées recherche actuelle : modèles relationnels

Formalisation du problème de l'apprentissage


Formalisme

Données : vecteurs aléatoires (z), p(z)Machine :

θ : paramètres du modèle

Risque théorique :

Solution optimale :

FF

z

z dzzpzczcER )()()(

RF minarg*


Apprentissage à partir d'exemples

Données : Risque empirique :

Principes inductifs

Le principe inductif défini le processus d'apprentissage Exemple : Minimisation du risque empirique La fonction qui minimise le risque théorique est

approximée par qui optimise le risque empirique Est-ce un bon principe ? Généralisation ?

NiizD ..1

N

i

i FzcN

C1

),(1

*F

NF


Autres principes inductifs

Maximum de vraisemblance : Equivalent a :

Cadre Bayesien : p(modèle/Données) p(Données/Modèle)P(Modèle)

P(W) : loi à priori sur le modèle p(D/W) : vraisemblance p(W/D) : probabilité a posteriori Maximum a posteriori :

!! nécessite une hypothèse a priori sur le modèle

)()/()/( pDpDp

)/( maxarg DpWMAP

)/( maxarg

DpWMV

)/(log maxarg

DpWMV


Problèmes d'apprentissage : exemples

Discrimination z = (x, d) ensemble des fonctions à seuil R : probabilité de mauvaise classification C : fréquence des erreurs

Régression z = (x, d) un ensemble de fonctions réelles R : espérance des erreurs quadratiques C : somme des erreurs quadratiques

Estimation de densité z = x ensemble de fonctions réelles R : espérance (vraisemblance) C : somme

1,0d F

sinon 1

)( si 0),,(

xFdFdxc

Rd F

2)(),,( xFdFdxc

F)(ln),( xpFxc


Modèles discriminantsRéseaux de neuronesMachines à noyaux

Modèles génératifs


Réseaux de neurones


Description informelle

Caractéristiques

Eléments simples interconnectés Echange d'information au moyen des connexions Calcul distribué et coopératif


Domaine pluridisciplinaire

Domaines Neurosciences Sciences cognitive (AI, psychologie, linguistique) Informatique Maths Physique

Buts Modélisation (neurophysiologie, biologie.....) Modèle de calcul (applications, computational theory,

apprentissage...)


Exemple : réseau linéaire

Etat (cellule) = ΣcellulesW incident*état(cellules incidentes )

Apprentissage Dynamique Caractéristiques : Architecture : interconnexion + définition unités Algorithmes : apprentissage + dynamique

Visible units Hidden units

SIGNAL DECISIONW

W

WW

W

WW

WW

1

2

3

4

5

6

78

9

Visible units


Fondements biologiques

Le neurone Soma Arbre des dendrites Axone Flot d'information axone : impulsions électriques dendrites : transmission chimique avec le soma via synapses

Synapses contact : émission - réception Poids synaptique = modulation de l'information transmise

vers le soma. Comportement du neurone + mémoire ?


Neurones et Types de neurones


Composants du neurone


Historique rapide

43 Mc Culloch & Pitts : neurone formel "A logical calculus of the ideas immanent in nervous activities"

40 – 45 Wiener (USA) Kolmogorov (URSS) Türing (UK) Théorie de l'estimation et de la prédiction (contrôle batteries anti-

aeriennes) Boucle de rétro-action


48 - 50 Von Neuman : réseaux d'automates 49 Hebb : apprentissage dans les réseaux d'automates 55 - 60 Rosenblatt : Perceptron

Widrow - Hoff : Adaline

70 – 80 Mémoires associatives, ART, SOM ... 90 – 95 Réseaux non linéaires Réseaux de Hopfield, Machine de Boltzmann Perceptron multicouches ...

2006 - .. Deep neural networks, restricted Boltzmann

machines,…


Optimisation dans les RNAlgorithmes de gradient Principe : la direction de descente D, le pas de gradient sont

déterminés à partir d'informations locales sur la fonction de coût C(W), i.e. approximations au 1er ou 2nd ordre.

Exemples :

tttt DWW 1

Initialiser W0

ItérerCritère d'arrêt

Plus grande pente

Initialiser W0

Itérer Choisir un exemple xt

Critère d'arrêt

Gradient adaptatif

(w(t))()1( Ctwtw

))(()()1( twctwtw


Explication :

Approximation quadratique locale de la fonction à optimiser :

H : Hessien de la fonction de coût Méthode de Newton : En pratique : 1er ordre ou approximations du 2nd ordre Exemple 2nd ordre :

Méthodes de quasi-Newton : approximation de H-1 itérativement. Forme générale :

H' : approximation de H-1 sans calculer les dérivées secondes : minimisation suivant la direction

Méthodes générales Convergence vers un optimum local

)()()(

)()(21)()()()(

11

1111

tttt

ttT

tttT

tttt

WWHWQWQ

WWHWWWQWWWQWQ

0)( 1 tWQ

)(11 ttt WQHWW

))(),(,,,'(''

)('

111

1

ttttttt

ttttWQWQWWHFHH

WQHWW

)(' tt WQH


Exemple : FW fonction linéaire réelle C erreur quadratique

nj

jj xwxwxF..1

.)(

N

i

ii dxFN

C1

2))((1

nwC

wC

wC

...)(1

i nk

ij

iikk

i nk

iikk

jj

xdxwN

dxwwNw

C..1..1

2 ))(1)(1


Le neurone

C'est un automate caractérisé par des signaux d'entrée x1 , … , xn

une fonction de transition y = F ( x1 , … , xn )

x2

x1

xn

y = F(x)


Différent types de neurones

Le neurone distanceA = || x - w||2

g : Id, F(x) = e-(A/k)

Le neurone produit scalaireA = k wk xk

avec différentes fonctions g: Id,seuil,sigmoïde :th :

A

a

g(x) g(x)

kAexF

11)(

kAkA

kAkA

eeeexF

)(

x2

x1

xn

y = F(x)


Adaline (Adaptive Linear Element)

Architecture

Risque empirique : moindres carrésC(W) = [ 1 / N] . k [ w. xk - dk ] 2

x2

x1

xn

y = F(x)


Algorithme : Widrow-Hoff - gradient stochastique

xt est l'exemple présenté à l'instant t, le gradient est calculé sur le coût local

A comparer avec le gradient classique qui calcule le gradient sur le risque empirique

Initialiser W(0)ItererChoisir aléatoirement un exemple (xt,dt)w(t+1) = w(t) - (t) . [ w(t) xt - dt ] xt

Critère d'arrêt

Initialiser W(0)Itererw(t+1) = w(t) - (t) . k [ w(t) xk - dk ] xk

Critère d'arrêt


Apprentissage hors ligne vs apprentissage adaptatif

ck erreur sur la forme k de l'ensemble d'apprentissage

Gradient sur C Gradient adaptatif sur c

Q qk

W W

k

kcN

C 1


Extension multidimensionnelle Données : x1,…, xN n, d1,…, dN p, y1,…, yN p

Modèle : dk = W xk k 1,…,N i.e. D = W X

Fonction de coûtC(W) = || D - W X ||2

Algorithme: Widrow-Hoff W(t+1) = W(t) - (t)[ W x - d].x


Calcul de l'association optimale par l'algèbre linéaire

L'équation D = W X a une solution ssi D = D X+ X où X+ est la matrice pseudo-inverse de X

La solution générale est donnée par:

W = D X+ + Z ( I - X X+) (*)

où Z est une matrice arbitraire de même dimension que W

Quand D = W X n'a pas de solution exacte (*) est solution de MinW ||D - W X||2 i.e. (*) est la solution optimale de MinW ||D - W X||2


Modèles flexibles

Perceptron Multicouches Réseau avec: des couches externes: entrée et sortie des couches internes ou cachées

Les entrées sont présentées sur lapremière couche et propagées decouche en couche:xi = g [Ai ] avec Ai = j wij xj

La sortie calculée sur la dernièrecouche: yk = F(xk)est ensuite comparée à la sortie désirée dk

y

x

Input

Output

hidden layers

d


Fonction de coût : C(W) = 1/N k = 1..N ck, avec ck=||dk - yk ||2 = j=1..p (dk

j – ykj )2

Algorithme : Widrow-Hoff wij(t) = wij(t-1) - (t) ct / wij(t)

g prend généralement une des deux formes suivantes Sigmoïde

tangente hyperbolique

j jj xwwA 0

Kvevg

1

1)(

KvKv

KvKv

ee

eevg

)(

kk jkjj ijiii xwwgwwgxGy 00)(


Algorithme gradient adaptatif PMC

Initialiser W(0)Itérer•présenter un exemple xt

• propager les états en avant de couche en couche :xi = g( Ai)

• comparer: sortie calculée yt

sortie désirée dt

• calculer l'erreur sur les cellules de sortie: eti = ( yt

i - dti)

• rétro-propager l'erreur de la couche de sortie vers la couched'entrée:

si i est une cellule de sortie : zi = 2 . eti. g ' (Ai)

sinon: zi =(h whi (t) zh ) . g ' (Ai)où h indexe les cellules vers lesquelles i envoie sa sortie

• modifier les poids en arrière: wij (t) = - (t) . zi . xj

•exemple suivant


Contrôle de la complexité

En pratique, on n’optimise jamais le risque empirique seul On optimise le risque tout en controlant la complexité Tout bon logiciel d’apprentissage incorpore des techniques de contrôle

de la complexité Cf partie théorique du cours

Nombreuses méthodes Régularisation (Hadamard …Tikhonov) Théorie des problèmes mal posés

Minimisation du risque structurel (Vapnik) Estimateurs algébriques de l’erreur de généralisation (AIC, BIC, LOO,

etc) Apprentissage bayesien Fournit une interprétation statistique de la régularisation Le terme de régularisation apparait comme un a priori sur les paramètres du

modèle Méthodes d’ensembles Boosting, bagging, etc

….


Regularisation

Hadamard Un problème est bien posé si Il existe une solution Elle est unique La solution est stable

Exemple de problème mal posé (Goutte 1997)

Tikhonov Propose des méthodes pour transformer un problème mal posé en

problème bien posé


Régularisation empirique pour les réseaux de neurones Régularisation : Contrôler la variance de la solution en contraignant la

fonctionnelle Optimiser C = C1 + C2(F) C1 : mesure du but poursuivi e.g. MSE, Entropie, ... C2 : contraintes sur la forme de la solution (e.g. distribution des poids) Exemples : forcer les poids inutiles à des valeurs faibles

–> biaise la solution en diminuant les poids utiles

–> 2 groupes de poids autour de c

—> cellules cachées + poids

Utiliser des contraintes différentes suivant le rôle des poids Problème : détermination des "hyper-paramètres"

i i

i

cwcwC/1

/2

22

2

i i

i

i i

i

cwcw

chchC

/1/

/1/

2

22

2

22

2

i

iwC 22


Autres idées pour le problème de la généralisation dans les réseaux de neurones

Arrêt de l'apprentissage Elagage : tuer les paramètres inutiles dans un réseau.

Différentes mesures d'utilité ont été proposées Bruiter les entrées (Matsuoka 1992 ; Grandvallet et Canu

1994 ; Bishop 1994) Réseaux à convolution


Exemple (Cibas et al, 95, 96)

Discriminer entre trois classes de "formes d’onde". Les trois formes de base pour la génération des formes d'onde :

3 classes C1, C2, C3 engendrées respectivement par :

u v. a. de densité uniforme sur [0,1], ~ N(0,I), Classes équiprobables Apprentissage = 10 ensembles disjoints, chacun de 300 exemples Test = 5000 exemples Algorithme : Rétropropagation

1 5 9 13 17 21

6 6 6

h 3

h 2h 1

26)(1

10)(1

2)(1

32

31

21

huuhx

huuhx

huuhx


Evolution des performances pendant l'apprentissage

Figure 1 a (left), b (right): evolution of the performances (mean square error) during training for MLPs with a varying number of hidden units. (a) corresponds to a stochastic gradient descent and (b) to a conjugate gardient. Each curve corresponds to a two weight layer MLP, the number on the curve gives the size of the hidden layer.

0

5

10

15

35

60

5

10

15

3560


Effet de la régularisation

Comparaison de l’erreur en apprentissage (a) et en généralisation (b) pour les réseaux h=15 et h=60 en minimisant le coût ordinaire sans terme de régularisation (...-ord) et le coût avec la régularisation: avec détermination des paramètres à priori (...-WD) et en les estimant pendant l’apprentissage (...-estim)

h=60-WD

h=15-estim

h=60-estimh=15-ord

h=60-ord

h=60-ord

h=15-ord

h=15-estimh=60-estimh=60-WD


Fonctions à Base Radiale

Réseau à deux couches Notations wi. = poids vers la cellule i, xi sortie de la cellule i, x entrée

Risque : moindres carrés

Couche de sortie

g = IdCouche intermédiaire

y

x

j jj xwwA 0

2wxA

2)( A

eAg

2

.0)( jj ijiii wxgwwxGy


La fonction sigmoïde

Distribution de la famille exponentielle :

, : paramètres de la loi, ( paramètre de position , paramètre de dispersion).

Ex. de distributions exponentielles : normale, gamma, binomiale, poisson, hypergéométrique ...

Hypothèse : la distribution des données conditionnellement à chaque classe est de la famille exponentielle, avec un paramètre de dispersion identique pour toutes les classes i.e. :

Alors

)),()())/(((),,( xcabxxp T exp

)),()())/((()/( xcabxCxp iT

ii exp

)(1

1)/(bxwi T

exCP


Capacités d'approximation des PMC

Résultats basés sur les théorèmes d'approximation de l'analyse fonctionnelle. (Cybenko (1989)) Théorème 1: Soit f une fonction saturante continue, alors l'espace

des fonctions de la forme est dense dans l’espace des fonctions continues sur le cube unité C(I). i.e. h C(I)et > 0, g / < sur I.

Théorème 2: Soit f une fonction saturante continue. Soit F une fonction de décision définissant une partition de I. Alors > 0, il existe une fonction de la forme et un ensemble D I tel que (D) = 1 - et < sur D.

(Hornik et al., 1989) Théorème 3 : Pour toute fonction saturante croissante f, et toute

mesure de probabilité m sur Rn , l'espace des fonctions de la forme est uniformément dense sur les

compacts de C(Rn).

)()( .1 xwfvxg tj

nj jc

)()( xhxg

)()( .1 xwfvxg tj

nj jc

)()( xFxg

)()( .1 xwfvxg tj

nj jc


Fonctions radiales (Park & Sandberg, 1993) Théorème 4 : Si f, fonction réelle définie sur Rn est

intégrable, alors l'espace des fonctions de la forme :

est dense dans L1(Rn) ssi .

Nj

j

jj

wxfvxg 1

. )(.)(

nR

dxxf 0)(


Résultats basés sur le théorème de Kolmogorov Théorème sur la représentation (exacte) des fonctions réelles de Kolmogorov

Toute fonction h de C(I) peut s'écrire sous la forme

où les fonctions g et f sont des fonctions continues d'une variable.

Théorème 6 (Kurkova 1992) Soit h dans C(I), n 2 et R+, alors quelquesoit m vérifiant

m = 2n + 1n/(m-n) + v < / ||h||h(1/m) < v(m - n)/(2m - 3n)v > 0

h peut être approximée à une précision par un perceptron possédant deux couches cachées de fonctions saturantes et dont les sorties sont linéaires. La première couche comprend n.m(m+1) unités et la seconde m2(m+1)n. Les poids sont universels sauf ceux de la dernière couche, pour toutes les fonctions f vérifiant :

f(d)= sup|f(x1, ..., xn) - f(y1, ..., yn)|, x, y I et |xp - yp| < p.

))((),...,( 121 11

nq

np ppqqn xfgxxh


Interprétation probabiliste des sorties

Risque théorique R = E ( [ d - h(x) ] 2) Le min de R est obtenu pour h*(x) = E[d | x ]

C(W) = E ( [ d - F(x,W) ]2 )= E ( [ d - h*(x) ]2 ) + E ( [ h*(x) - F(x,W) ] 2)

h*(x) = E[d | x ] est bien la solution optimale

Dans l’espace des hypothèses, W* / R(W*) = MinW Rminimise simultanément : E ( [ d - F(x,W) ]2 ) LMSE E ( [ h*(x) - F(x,W) ]2 ) meilleure approximation LMS

de E[d | x ]


Cas de la Classification d = (0,…, 0, 1, 0, …, 0) avec un 1 en ième position si classe i hi*= P( Ci/ x ) i.e. F( . , W*) meilleure approximation LMS de la fonction

discriminante de Bayes (solution optimale). Sorties binaires hi*= P( di = 1| x )

Coût : di =ij pour x Cj, = coût de la décision i quand la classe est j hi* est le risque conditionnel de la décision i Décision : sortie la plus faible.

L’importance de la précision sur les sorties : dépend de l'utilisation (classification OU estimation de probabilité conditionnelle).

)/(]/[ 1 xjPxdE mj iji


Fonctions de coût

Différentes fonctions de coût sont utilisées, suivant les problèmes, ou les modèles

LMSE Regression Souvent utilisé en

classification Classification, Hinge,

logistique Classification Exemples y R, d -1, 1

Hinge, logistique sont ici des approximations de l’erreur de classification

))exp(1ln(),(

1),(

(marge) .

log

2

yddyc

yddyc(y-d)(y,d)c

dyz

istique

hinge

MSE

Figure from Bishop 2006


Machines à noyaux


Introduction

Familles de machines d'apprentissage générales qui exploitent l'idée suivante : Projeter les données dans un espace de grande dimension

- éventuellement infini -où le problème sera facile à traiter Utiliser des "projections" non linéaires permettant des

calculs "efficaces" Exemples :

Machines à Vecteurs Support (généralisent : hyperplan optimal, cadre Vapnik)

Processus Gaussien (généralisent : régression logistique, cadre Bayesien)


Représentation DualeExemple introductif : le perceptron

Hyp : 2 classes linéairement séparables, sortie désirée d = ± 1

i : mesure de la difficulté àclassifier iFonction de décision :

G = (xi.xj)i,j = 1..N : Matrice de Gram

Perceptron Dual = 0Répeter (t)Pour i = 1 à NSi

alors i = i (t) + 1Jusqu'à convergence

Fonction de décision :

W(0) = 0

Perceptron PrimalW(0) = 0Répeter (t)Pour i = 1 à N

Si di(W(t).xi) 0alors W(t+1) = W(t) + di.xi

Jusqu'à convergence

0)(1

N

j

ijjji xxdd

n

iii xwxF

1)()( sgn

N

i

ixidi

W1

N

ixixid

ixF

1).()( sgn


Représentation Duale

La plupart des machines à apprentissage linéaires ont une représentation duale Exemples Adaline, regression, regression ridge, etc

L’information sur les données est entièrement fournie par la matrice de Gram : G = (xi.xj) i,j = 1..N, qui joue un rôle central

La fonction de décision F(x) s’exprime comme une combinaison linéaire de produits scalaires entre la donnée d’entrée x et les exemples d’apprentissage

Les machines à noyau généralisent ces idées Une fonction noyau K est définie sur X2, par

K(x,z) = < Φ(x), Φ(z)>où Φ est une fonction de X dans un espace muni d’un produit

scalaire


Produit Scalaire et Noyaux

Projection non linéaire dans un espace de (éventuellement très) grande dimension H

Machine linéaire dans H - Primal :

Machine linéaire dans H - Dual :

Calculer les produits scalaires dans l'espace initial : choisir F /

avec K : fonction noyau (i.e. symétrique)

avec : npRR pn

bxwxF ipi

i

)()(1..

bxxdxFxdWNi

ii

i

Ni

ii

i

)()()( )(1..1..

)',()'().( xxKxx

bxxKdxFNi

ii

i 1..

),()(


Généralise le produit scalaire dans l'espace initial Le calcul de F ne dépend pas directement de la taille de

H : les calculs sont faits dans l'espace initial. La machine linéaire dans H peut être construite à partir

d'une fonction K sans qu'il soit nécessaire de définir explicitement : en pratique, on spécifiera directement K.

Cette idée permet d'étendre de nombreuses techniques linéaires au non linéaire: il suffit de trouver des noyaux appropriés Exemples ACP, Analyse discriminante, regression, etc


Caractérisation des noyaux

Quand peut on utiliser cette idée ? Cas d'un espace fini Soit X = x1,…, xN, K(x,x') une fonction symétrique sur X,

K est une fonction noyau ssi la matrice est positive semi-définie (valeurs propres 0)

Cas général : Conditions de Mercer (noyaux de Mercer) Il existe une application et un développement

ssi est fini

Nji

ji xxK 1,)),((K

1)'(.)()',(

iii xxxxK

dxxgg 2)(/

0')'()()',( dxdxxgxgxxK


Caractérisation des noyauxEspace de Hilbert à noyau autoreproduisant Une fonction K: X*X R qui est soit continue soit définie sur un domaine

fini peut s’écrire sous la forme d’un produit scalaire :

avec Φ : x Φ(x) F espace de Hilbert ssi c’est une fonction symétrique et toutes les matrices formées par la

restriction de K à un échantillon fini sur X sont semi-définies positives).

Résultat à la base de la caractérisation effective des fonctions noyaux Il permet de caractériser K comme un noyau sans passer par Φ C’est une formulation équivalente aux conditions de Mercer

)(),(),( zxzxK


L’espace de Hilbert associé à K :

Le produit scalaire défini sur cet espace :

l

iiiii liRXxNlxKF

1..1,,,/,.)(

l

iij

n

jii

l

ijiji

n

j

n

jjj

l

iii

zfxgzxKgf

xKgxKf

1 11 1

11

)()(),( ,

,.)((.) ,,.)((.)Soient

Noyau auto-reproduisant

Si on prend g(.) = K(x,.), alors

)(),( ,.)(,1

xfxxKxKfl

iii


Exemples de noyaux

2 d de polynomes des ensemble ss i.e.

),)2(,).(()(/ avec )().(),(

).(),(

21n

: 2 d de monomes les tousi.e.

).()(/)( avec )().(),(

).)(.(.),(

.),(

,1,1,,

2

,1,,

1,

2

1

2

ccxxxx(x)zxzxK

czxzxK

xxxxzxzxK

zzxxzxzxK

zxzxK

niinjijiji

njijiji

n

jijiji

n

iii


Exemples de noyaux

).(

gaussien noyau exp

d ordred' polynome )1.(

),(2

cxvxSigmoïde

xx

xx

xxK

i

i

di

i


Construction des noyaux en pratique

Les résultats de Mercer servent à prouver les propriétés des fonctions noyaux. En pratique, elles sont peu utiles

Pour construire des noyaux, on procède par combinaison à partir de noyaux connus

Si K1 et K2 sont des noyaux sur X2, K3 défini sur F, les fonctions suivantes sont des noyaux : K(x, z) = K1 (x, z) + K2 (x, z) K(x, z) = K1 (x, z) . K2 (x, z)* K(x, z) = aK1 (x, z) K(x, z) = K3 (Φ(x), Φ(z)) …..


Machines à vecteurs support

Exposé du cours : discrimination 2 classes Cas général : discrimination multi-classes, régression,

densité Idées Projeter -non linéairement- les données dans un espace de

"très" grande taille H Faire une séparation linéaire de bonne qualité dans cet

espace Raisonner dans H, mais résoudre le problème

d'optimisation dans l'espace de départ (noyaux)


Notion de marge

WxF )(

W

Wb

H : F(x) = W.x + b = 0

Marge géométrique pour xi :

Marge de W pr à ens. D :Mini(M(xi))

Hyperplan de marge maximale :

MaxW(Mini(M(xi)))

)()(Wbx

WWdxM iii


Marge géométrique vs marge fonctionnelle

Marge géométrique di.F(xi)/||w||

Marge fonctionnelle di.F(xi)

Remplacer w par k.w ne change pas la fonction de décision ou la marge géométrique, mais change la marge fonctionnelle.

Pour les SVM, on fixera la marge fonctionnelle à 1 et on optimisera la marge géométrique.


Prémisses : Séparation linéaire à hyperplan optimal (1974) Hyp : D linéairement séparable

Fonction de décision : F(x) = W.x + b Pb apprentissage : trouver l'hyperplan optimal H* qui sépare D i.e. di.F(xi) 1 , i

avec une marge maximale M =

i.e. : Problème Primal :

1 avec , 1.. i

Niii ddxD

wwxFd ii

i

1)(.min

1)(...

Minimiser 2

ii xFdCS

W


Solution : W* dépend uniquement des points supports i.e. points sur la marge qui vérifient : di.F*(xi) = 1

Rq: Quelque soit la dimension de l'espace, le nombre de degrés de liberté est "égal" au nombre de points de support

F* dépend uniquement du produit scalaire xi.x

support support

i i .x)(* x*i i

ii

ii xdxFdw

Marge

Vecteurs Supports


Apprentissage :

On résoud le problème d'optimisation dit dual :

Problème minimisation quadratique sous contraintes

0et 0.

.)( Maximiser

ii

,

ii

ji

jjji

ii

dCS

xxddL ii


Machines à vecteurs supports

Faire une séparation à marge max. dans un espace défini par une fonction noyau.

Tous les résultats sur le classifieur linéaire à marge max. se transposent en remplaçant par .xxi ),( xxK i

bxxKdxF

xxKxx

bxxdxFxdW

RR

SVx

ii

i

SVx SVx

ii

iii

i

pn

i

i i

..

.. ..

),()(

)',()'().(

)()()( )(

:


Apprentissage : On résoud le problème d'optimisation dual :

Problème minimisation quadratique sous contraintes dans l ’espace de départ

Difficile en pratique : différents algorithmes. Dans la solution optimale i > 0 uniquement pour les points

support. Seuls les produits scalaires K apparaissent, et pas les .

0et 0.

),()( Maximiser

ii

,

ii

ji

jijiji

ii

dCS

xxKddL


Propriétés de généralisation -exemples

Th 1 peu de points support meilleure généralisation indépendant de la taille de l'espace de départ

Th 2 Si l'hyperplan optimal passe par l'origine et a pour marge

Alors

Dans les 2 cas, E[P()] est l'espérance sur tous les ensembles de taille l-1, et E[membre droit] est l'espérance sur tous les ensembles d'apprentissage de taille l (leave one out).

1ageapprentissexemples#supports]vecteurs[#))](([

ExerreurPE

qxNiq i ,1../

N

][))](([

2

2

qExerreurPE


Cas non linéairement séparable

Marges molles L'algorithme est instable Dans les cas non linéairement séparables Dans le cas de données réelles même linéairement séparables Solution adoptée en pratique autoriser des erreurs, i.e. prendre pour contraintes :

ηi = 0, xi est correctement classifié et est du bon coté de la marge 0 < ηi <= 1, xi est correctement classifié, est à l’intérieur de la marge ηi > 1, xi est mal classé ηi : slack variable

0

1))(.(

i

iii bxWd


But Maximiser la marge tout en pénalisant les points qui sont mal

classés Formalisation Plusieurs expressions possibles du problème L’une des plus courantes :

C fixé par validation croisée joue le rôle de paramètre de régularisation

NiNibxwd

CS

CwwMin

ii

N

i

..1,0 ..1,1).(

..

marge) lamax (i.e. ).(

i

i

1

i


Marges molles – formulation duale

0et 0.

),()( Maximiser

ii

,

ii

ji

jijiji

ii

dCCS

xxKddL


Algorithmes d’optimisation

Algorithmes d’optimisation standard pour la programmation quadratique sous contrainte e.g. Sequential Minimal Optimization (SMO)

Algorithmes stochastiques - SVM Results –(Bottou 2007) Task : Document classification - RCV1 documents belonging to

the class CCAT (2 classes classification task) Programs SVMLight and SVMPerf are well known SVM solvers written by Thorsten

Joachims. SVMLight is suitable for SVMs with arbitrary kernels. Similar results could be achieved using Chih-Jen Lin‘s LibSVM software. SVMPerf is a specialized solver for linear SVMs. It is considered to be one of the most efficient optimizer for this particular problem.

Algorithm (hinge loss) Training Time Primal cost Test Error

SVMLight 23642 secs 0.2275 6.02%

SVMPerf 66 secs 0.2278 6.03%

Stochastic Gradient (svmsgd) 1.4 secs 0.2275 6.02%

Stochastic Gradient (svmsgd2 1.4 secs 0.2275 6.01%


Annexe : OptimisationProblèmes sous contraintes égalités, inégalités

Soient f, gi, i = 1..k, hj, j = 1 ..n des fonctions définies sur Rn à valeur dans R

On considère le problème primal suivant (Pb. 0) :

mjwhkiwg

RwwfMin

j

i

n

..1,0)(..1,0)(

sContrainte Sous )),((


Optimisation non contrainte

Fermat Une C.N. pour que w* soit un min. de f(w) est

Si f est convexe c’est une Condition Suffisante

F est convexe si ∀ ∈ 0,1 , 1 1

0*)(

wwf


OptimisationLagrangien On considère le (Pb. 1) :

On définit le Lagrangien L pour (Pb. 1) par

les βi sont les coefficients de Lagrange

mjwhCS

RwwfMin

j

n

..1,0)( ..

)),((

m

ijj whwfwL

1)()(),(


OptimisationTh. Lagrange

Une CN pour que w*, * soit solution de (Pb. 1) est que en ce point

Si L(w, *) est une fonction convexe de w, c’est une C.S.

0*)*,(

0*)*,(

wLw

wL

OptimisationLagrangien augmenté De même, on définit le Lagrangien augmenté pour (Pb. 0) :

m

jjj

k

iii whwgwfwL

11

)()()(),(


OptimisationTh. Kuhn et Tucker

On considère (Pb. 0) avec Ω convexe et f C1 convexe, gi, hjaffines (hi = A.w – b)

1 CNS pour que w* soit un optimum est qu’il existe α* et β* /

kikiwg

kiwg

wLw

wL

i

i

ii

..1,0*..1,0*)(

..1,0*)(*

0*)*,*,(

0*)*,*,(

Rq :

Soit une contrainte est active (αi* ≠ 0) et gi(w*) = 0), w* est un point frontière de la région admissible

Soit elle est inactive ((αi* = 0) et w* est dans la région admissible


Formulation duale du problème d’optimisation Le (Pb. 0 _ formulation primale) est équivalent à la forme duale

suivante :

Rq : est une fonction de , uniquement

0 S.C.

)),,(inf ( Maximiser ,

wLw

),,(inf wLw


SVM – formulations primale et duale

SVM Ω, f, contraintes sont convexes, L est quadratique On étudie le cas, D = (xi ,di)i = 1..N linéairement séparables Formulation similaire pour le cas non linéairement séparable

Pb. Primal

Lagrangien primal

Lagrangien dual

Nibxwd

CSwwMin

ii ..1,1).(

.. marge) lamax (i.e. ).(

0

)1).((.21),,(

1

i

N

i

iii bxwdwwbwL

N

i

jiji

jiN

ii xxddbwL

11).(

21),,(


SVM – formulations primale et duale

Pb. Dual

Fonction de décision

Ni

d

CS

xxddbwL

i

N

ii

i

N

i

jiji

jiN

ii

..1,0

0

..

).(21),,(

1

11

VSi

ii

i bxxdxF.

*).(**)*,,(


Algorithme EM et mélange de densitésProbabilistic Latent Semantic AnalysisLatent Dirichlet AllocationSpectral clusteringNon Negative Matrix Factorization


Applications

analyse des données quand il n'y a pas de connaissance sur la classe. e.g. pas d'étiquetage des données (problème nouveau)

trop de données ou étiquetage trop compliqué e.g. traces utilisateur (web), documents web, parole, etc

réduction de la quantité d'information e.g. quantification

découverte de régularités sur les données ou de similarités.


Algorithme Espérance Maximisation (EM)Application aux mélanges de densités


Algorithme E. M. (Espérance Maximisation)

On dispose de données D = xii = 1..N On n’a pas d’étiquette di

d’un modèle génératif, de paramètres W : FW Le modèle « explique » la génération des données

On veut trouver les paramètres du modèle qui expliquent au mieux lagénération des données

On se donne un critère Ici on considère la vraisemblance des données qui est le critère le plus

fréquent P(D| W) = P(x1, …, xN| W)

D’autres critères sont également couramment utilisés On va essayer de déterminer les paramètres W de façon à maximiser la

vraisemblance


Exemple

On recueille des données sur deux populations e.g. taille d’individus D = xii = 1..N

Hypothèse les données de chaque population sont gaussiennes Elles ont la même variance 2

Problème estimer les i et les à partir des données Si les di sont connus, i.e. D = (xi, dii = 1..N la solution est simple On a deux population séparées (2 classes) C1, C2

La maximisation de la vraisemblance donne l’estimateur classique de la moyenne

Difficulté : les di sont inconnus

),(),,( 22

21 IdNIdN

ji Cx

i

jj x

C1

Cas où l’appartenance est connue

Vraisemblance ∏ |∈ ∏ |∈

En pratique on maximise la log-vraisemblance log ∑ ∑ ∈∈

Cas des gaussiennes

exp

0 ⇔| |

∑ ∈


Cas où la probabilité d’appartenance est connue On connait | ,k 1,2

Log-vraisemblance log ∑ log

Cas des gaussiennes

0 ⇔∑ .

∑ |

Rq : si on ne connait les | ,k 1,2 leséquationsformentunsystèmenonlinéairecouplé,insoluble.



Variables cachées (ou latentes)

On postule l’existence de variables cachées h responsables de la

génération des données À chaque xi, on associe sa classe cachée hi

H = hiI = 1..N

l’existence d’une fonction densité jointe sur les données observées et cachées p(x, h)

P(D, H| W) sera appelé vraisemblance complète des données pour le modèle W.

Remarque Les variables h sont inconnues et sont considérées comme

des variables aléatoires P(D, H| W) sera elle même une variable aléatoire


Algorithme EM

On veut maximiser P(D/W)à partir de l'observation des données visibles Problème la maximisation directe de P(D/W) ne conduit pas à des formules calculatoires

(algorithme) Solution : on maximise de façon itérative une fonction auxiliaire Q L’espérance de la vraisemblance des données complètes connaissant le modèle

courant L’espérance est calculée par rapport à la distribution des variables cachées h Le modèle courant à l’étape t est noté W(t)

Remarque : dans cette expression D et W(t) sont des constantes h est une variable aléatoire de densité p(h|x, W(t)) W est les paramètres du modèle que l’on veut estimer

H

ttt WHDpWDHpWDWHDpEWWQ )/,(log),/(,)//,(log)/( )()()(


Algorithme EM

L’algorithme converge vers un maximum local de la fonction Q et de P(D/W)

Initialiser W = W(0)

1. Etape E : EspéranceOn calculeOn en déduitL'espérance est calculée par rapport à la distribution de H

2. Etape M : MaximisationEtant donnée la distribution courante sur H, trouver les paramètres quimaximisent Q

),/( )(tWDHp)/( )(tWWQ

)(1)( ,)//,(logmaxarg t

W

t WDWHDpEW


Remarques Lors de l'étape E, on estime la distribution de H, à

partir des valeurs courantes des paramètres W(t). Au lieu d'essayer de maximiser directement, on utilise

la fonction auxiliaire Q. On peut montrer la convergence de l'algorithme par :

L'algorithme est utilisé pour les algorithmes non supervisés, semi - supervisés les données manquantes ou les composantes manquantes dans les

données les HMM ...

),/( )(tWDHp

)/( WDp

)/()/()/()/( tttt WDpWDpWWQWWQ


Exemple

Mélange de densités - Cas de deux classe gaussiennes, connu But (MV) : trouver On considère , les hi sont les données

cachées Algorithme Initialisation itérer Etape E

Etape M

NiixD ..1)( ),/(maxarg, 2121 Dp

Niii hxHD ..1),(

calculer i = 1..N, j = 1,2)/( ii xjhp )],,/([),,,,( 212121

tttttt HDPEQ

Trouver les μ1, μ2 qui maximisent Qcalculer

Ni

Nitj i

ii

xjhp

xxjhp

..1

..1)1(

)/(

)/(

(0)2 ,)0(

1


Remarques Etape E : calcul de la responsabilité de chaque gaussienne pour

chaque point

Etape M : chaque centre est défini comme le centre de toutes lesdonnées, chacune étant pondérée par cette responsabilité

Cas limite : = 0 : algorithme des k-moyennes

k

iii

iiiii

khxpkhpjhxpjhpxjhp

)/()()/()()/(


Mélange de densités – cas gaussien

On suppose que le modèle génératif des données est un mélange de densités gaussiennes On fixe a priori le nombre de composantes du mélange à k on suppose que les données x sont unidimensionnelles

Paramètres Coefficients du mélange p(l| x), moyennes et écarts types

k

llxplpxp

1)/()()( 2

2

2)(

2/12 )2(1)/( l

lx

l

elxp

kllllpW

1..,),(


Vraisemblance

Vraisemblance complète variables cachées : hi classe de xi

N

i

k

l

i WlxpWlpWDp1 1

),/()/()/(

)),/()/((

)),/()/(()/,(

1 1

1

N

i

ik

l lh

N

i

iii

WlxpWlp

WhxpWhpWHDp

i log

loglog


Mélange de densité – Etapes E et M

Etape E

Etape M

),/()/(log),/(

),/()/,(log...)],(log[)/(

1 1

)(

1 1 1

)(,/

)(

1)(

WlxpWlpWxlp

WxhpWHDpWHDpEWWQ

iN

i

k

l

ti

k

h

k

h

N

i

tiiWXH

t

Nt

kl

tti

ttit

i Wlp(hWlhxp

Wjp(hWjhxpWxjhp

1..

)()(

)()()(

)).,/(

)),/(),/(

))1)/(((1)/( contrainte sous

)(

11

k

l

k

l

WlpQMinWlp

QMin


Mélange de densités – Reestimation dans l’étape M

i

titi

tii

tj

iti

tj

i

tii

iti

tj

WxjpN

jp

Wxjp

xWxjp

n

Wxjp

xWxjp

),/(1)(

),/(

),/(1

),/(

),/(

)()1(

)(

2)1()(2)1(

)(

)(

)1(


Mélange de densitésApprentissage par échantillonnage de Gibbs


Les méthodes MCMCMarkov Chain Monte CarloMéthodes de calcul intensif basées sur la simulation

pour Echantillonnage de variables aléatoires x(t)t=1..T qui suivent une certaine distribution p(x)

Calcul de l’espérance de fonctions suivant cette distribution

E[f(x)] sera estimé par 1/T . Σt=1..Tf(x(t)) e.g. moyenne, marginales, …

Maximisation de fonctions Argmaxxp(x)


Echantillonneur de Gibbs

On veut estimer une densité p(x) avec x = (x1,..,xn) Hyp On connait les lois conditionnelles p(xi| x1,.., xi -1, xi+1,..., xn) = p(xi| x - i)

Algorithme Initialiser xi, i = 1..n Pour t = 1 …T faire

)(~nner Echantillo

........

)(~nner Echantillo

1

111

1

tnn

tn

tt

xxpx

xxpx


Propriétés Sous certaines conditions de régularité, la procédure

converge vers la distribution cible p(x) Les échantillons résultants sont des échantillons de la loi

jointe p(x) On n’a pas besoin de connaitre la forme analytique des

p(xi| x - i) mais uniquement de pouvoir échantillonner à partir de ces distributions Mais la forme analytique permet d’avoir de meilleurs estimés

Avant de retenir les points échantillons, on autorise souvent une période de “burn-in” pendant laquelle on fait simplement tourner l’algorithme “à vide”

Gibbs facile à implémenter, adapté aux modèles hierarchiques (cf LDA)


Cas du mélange de deux lois gaussiennes

Modèle

On va considérer un modèle augmenté en ajoutant une variable cachée h Les données complètes sont les (xi, hi)

Les paramètres à estimer sont :

On va utiliser Gibbs en échantillonnant sur les densités conditionnelles Pour simplifier on suppose dans l’example que les proportions p(l) et

les variances σ sont fixées, on estime juste les moyennes μ1 et μ2

Pour cela, on va échantillonner suivant la distribution jointe (h(t), μ1(t),

μ2(t))

2

1)/()()(

llxplpxp

2..1,),( llllpW


Echantillonneur de Gibbs pour le modèle de mélange de deux gaussiennes

2,1),,ˆ(~générer 2.

2,1,)1(

).1(ˆ

calculer

2,1,),(),(

),()

selon 1,0générer 1.

1Pour 1...T Répéter t

, initiales valeursdesChoisir

j(t)j

1

)(

1

)(

j

2)1(

2)1(

21)1(

1)1(

1

)1()1(

)(

)0(2

)0(1

jN

jh

xh

jxppxpp

xppjp(h

h

...N i

j

N

i

ti

N

ii

ti

ti

tti

tj

tji

tj

i

ti


Lien avec l’algorithme EM

Les étapes pour cet exemple sont les mêmes que avec EM

Différence Au lieu de maximiser la vraisemblance, aux étapes 1 et 2,

on échantillonne Etape 1 : on simule les variables cachées h au lieu de calculer

E(h|W, D) Etape 2 : on simule à partir de p(μ1, μ2|h, D) au lieu de calculer

le max. vraisemblance p(μ1, μ2| D) dans EM


Algorithmes à variables latentes Probabilistic Latent Semantic Analysis Latent Dirichlet Allocation


Preliminaries : unigram model

Generative model of a document

Select document length Pick a word w with probability p(w) Continue until the end of the document

Applications Classification Clustering Ad-hoc retrieval (language models)

i

i dwpdp )()(


Preliminaries - Unigram model – geometric interpretation

P(w1|d)

P(w3|d)

P(w2|d)

Document d

Word simplex

2/1)(

4/1)(

4/1)(

3

2

1

tionrepresenta d doc

dwp

dwp

dwp


Latent models for document generation

Several factors influence the creation of a document (authors, topics, mood, etc). They are usually unknown

Generative statistical models Associate the factors with latent variables Identifying (learning) the latent variables allows us to

uncover (inference) complex latent structures


Probabilistic Latent Semantic Analysis -PLSA (Hofmann 99)

Motivations Several topics may be present in a document or in a

document collection Learn the topics from a training collection Applications Identify the semantic content of documents, documents

relationships, trends, … Segment documents, ad-hoc IR, …


PLSA

The latent structure is a set of topics Each document is generated as a set of words chosen from

selected topics A latent variable z (topic) is associated to each word occurrence

in the document

Generative Process Select a document d, P(d) Iterate Choose a latent class z, P(z|d) Generate a word w according to P(w| z)

Note : P(w| z) and P(z|d) are multinomial distributions over the V words and the T topics


PLSA - Topic

A topic is a distribution over words

Remark A topic is shared by several words A word is associated to several topics

P(w|z)

words

word P(w|z)

machine 0.04

learning 0.01

information 0.09

retrieval 0.02

…… …….


PLSA as a graphical model

z

dzPzwPdwP

dwPdPwdP

)()()(

)(*)(),(

Boxes represent repeated samplingd wz

Corpus level

Document level

P(z|d) P(w|z)

DNd


PLSA model

Hypothesis # values of z is fixed a priori Bag of words Documents are independent No specific distribution on the documents

Conditional independence z being known, w and d are independent

Learning Maximum Likelihood : p(Doc-collection) EM algorithm and variants


PLSA - geometric interpretation

Topici is a point on the word simplex Documents are constrained to lie on the topic simplex Creates a bottleneck in document representation

Topic simplex

topic2

topic1

topic3w2 w1

w3

Word simplex

Document d

z

dzPzwPdwP )()()(


Applications

Thematic segmentation Creating documents hierarchies IR : PLSI model Clustering and classification Image annotation Learn and infer P(w|image)

Collaborative filtering

Note : #variants and extensions E.g. Hierarchical PLSA (see Gaussier et al.)


Latent Dirichlet Allocation - LDA (Blei et al. 2003)

LDA is also a topic model Extends PLSA

Motivations Generalization over unseen documents Define a probabilistic model over documents Not present in PLSA

Allows to generate (model) unseen documents Overtraining In PLSA, the number of parameters grows with the corpus

size LDA constrains the distribution of topics for each document

and words for each topic


LDA - model

Similar to PLSA with the addition of a prior distribution on the topic distribution

Generative process For a document Topic distribution Choose θ ~ Dirichlet () a distribution over topics

Words For each document word w Choose a topic z ~ multinomial (θ) Choose a word w from p(w | θ, ) multinomial probability

conditioned on topic z


LDA - model

ddzwpzpppWp

zwpzpppWZp

d

i

d

N

i ziii

N

iiii

1

1

),()()()(),(

),()()()(),,,,(

θ wz

Corpus level

Document level

Ф(z)

Multinomial

Dirichlet Multinomial

Nd

D

βT

Dirichlet


LDA – model - unfolded

P(w|z1,1)

words

P(z|1)

topics

1 2

Z1,1 Z1,2Z2,1

w1,1 w1,2 w2,1

Doc1 Doc2

………


PLSA vs LDA - geometric interpretation

PLSA provides a sampling of the document distribution on the topic simplex

LDA provides an estimate of the document distribution on the topic simple

topic2

topic1

topic3w2 w1

w3

Observed documents

topic2

topic1

topic3w2 w1

w3

Document distribution


Dirichlet etc…

, are priors on the distributions and Perform a smoothing of and distributions , control the amount of smoothing

Dirichlet and multinomial Dirichlet is a conjugate prior for multinomial Allows to compute closed forms for posterior distributions


LDA applications

Exploratory analysis Discovering topics Topic evolution Document tagging by most relevant topic words

Classification Collaborative filtering Image annotation IR All latent models Inference on latent variables


LDA tagging (Blei et al 2003)


Finding topics in PNAS (Griffith et al. 2004)

PNAS categories

LDA topics

Mean θi value for the most significant topic i on this

category


Peer to Peer document download analysis (Denoyer 2008)

Nodes are files Two nodes are connected if they have been dowloaded

by at least 20 peers (500 K peers in total and 2.5 K files) Colors indicate the thematic clustering performed by

LDA using the key words associated to files Results Strong correspondance between download (connections)

and thematic communities


Peer to Peer document download analysis (Denoyer 2008)


Author-recipient topic model (McCallum et al. 2004)

Learning from Enron data

Identify

•Topic

•Author-recipient


LDA – learning and inference

Exact learning and inference are intractable Approximate models Variational models Gibbs sampling Expectation propagation…


Other latent models

Image annotation Author-topic model Author-Recipient-Topic…


Example: Discovering e-communities (Zhou et al 2006)

Usual methods Rely mostly on graph and connectivity analysis

Machine learning Introduce semantic relationships e.g. shared documents in e-mails or linked documents for the

web Common interests

Example : e-mail analysis Recipient list (connectivity) Message body (Semantic information) Identify communities of users based on their exchanges,

and topics


A document is characterized by 3 latent variables Content t Author u Community c

Goal Compute p(c, u, z | w)

Message generation d Choose a community c Choose an author in the community Choose a topic t Choose a word according to topic distribution w


Community-user-topic model

di wzCorpus level

Document level

cNd

D

ФβT

C

U

Distribution of users over communities


Example ( Zhou 06)


Spectral Clustering


Spectral Clustering (after Von Luxburg 2007)

Intuition x1, …, xn data points, wij similarity between xi and xj

G = (V, E) graph vertex vi corresponds to data point xi

Edges are weighted by wij

Clustering amounts at finding a graph partition such that Edges between clusters have low weights Edges among points inside a cluster have high values


Graphs notations G = (V, E) undirected graph V = v1, …, vn) Edges are weighted, W = (wij)I, j = 1…n , wij ≥ 0 is the weight

matrix D : diagonal matrix with ∑


Building similarity graphs from data points Different ways to build a similarity graph Locally connected graphs: k-nearest neighbor graphs Two vertices are connected if one of them is among the k-

nearest neighbor of the other Or two vertices are connected if both are in the k-

neighborhood of the other Edges are then weighted using the similarity of the vertices

Fully connected graphs

exp /2 )


Graph Laplacians Unnormalized graph Laplacian

Normalized graph Laplacians

I symmetric interpretation : random

walk on the graph


Properties of the unnormalized graph Laplacian L satisfies:

∀ ∈ , ∑ ,

L is symmetric, positive semi-definite The smallest eigenvalue of L is 0, the corresponding

eigenvector is 1 (vector with n 1) L has n non negative eigenvalues 0 …


Properties of the normalized graph Laplacians

∀ ∈ , ∑ ,

Lsym and Lrw are positive semi-definite and have n non negative eigenvalues 0 …

is an eigenvalue of Lrw with eigenvector u iff is an eigenvalue of Lsym with eigenvector D1/2u


Unnormalized spectral clustering

Idée Projeter les points x ∈ , i 1…n, dans un espace de

dimension k dans lequel le clustering se fait facilement


Unnormalized spectral clustering

Input: n points x1, …, xn, similarity matrix S Output: clusters Construct similarity graph and corresponding weight matrix W Compute unnormalized Laplacian L Compute first eigenvectors of L (corresponding to smallest

eigenvalues): u1, …, uk

U: n x k matrix with columns u1, …, uk

For i = 1…n, ∈ i-th row of U Cluster yi, i = 1…n with k-means into clusters C1, …, Ck

k clusters in the initial space: C’1, …, C’k / C’i = xj / yj Ci

Note: Similar algorithms with normalized Laplacians



Non Negative Matrix Factorization


Non Negative Matrix Factorization

Idea Project data vectors in a latent space of dimension k < m

size of the original space Axis in this latent space represent a new basis for data

representation Each original data vector will be approximated as a linear

combination of k basis vectors in this new space Data are assigned to the nearest axis This provide a clustering of the data


x1,…, xn, ∈ , 0 X m x n non negative matrix with columns the xi s Find non negative factors U, V, / With U an m x k matrix, U a k x n matrix, k < m, n

x

m x n m x k k x n

vvApprentissage Statistique - P. Gallinari 175

X U V

, ∑

Columns ofU,uj arebasisvectors,the arethecoefficientofxi inthis basis

Loss function Solve

, Underconstraints , 0

Convex loss function inUandinV,butnotinboth UandV


Algorithm Constrained optimization problem Can be solved by a Lagrangian formulation Iterative multiplicative algorithm (Xu et al. 2003)

U, V initialized at random values Iterate until convergence

←

←

Or by projected gradient formulations The solution U, V is not unique, if U, V is solution, then UD,

D-1V for D diagonal positive is also solution


Using NMF for Clustering Normalize U as a column stochastic matrix (each column

vector is of norm 1)

←∑

← ∑

Under the constraint “U normalized” the solution U, V is unique

Associate xi to cluster j if


Note many different versions and extensions of NMF Different loss functions e.g. different constraints on the decomposition

Different algorithms Applications Clustering Recommendation Link prediction Etc

Specific forms of NMF can be shown equivalent to PLSA Spectral clustering


Illustration (Lee & Seung 1999)

Basis images for

NMF

Vector Quantization

Principal Component Analysis


Apprentissage Semi supervisé

Méthodes génératives et discriminantesMéthodes basées sur les graphes


Problématique

Cadre Problème de discrimination, i.e. on veut estimer P(C| x)

pour toutes les classes CMotivation Apprendre à classifier des données en utilisant un faible

nombre de données étiquetées et un grand nombre de données non étiquetées

L’etiquetage coûte cher, les données non étiquetées sont souvent largement disponibles

Utilisation Nombreux problèmes du web Ressources (temps, moyens humains etc) non disponibles

pour construire des ensembles annotés


Méthodes

Très nombreuses méthodes Self learning Méthodes génératives Méthodes discriminantes SVM, CEM

Méthodes à base de graphes …


Apprentissage semi-superviséModèles génératifs Approche générale : Maximiser la vraisemblance jointe des données étiquetées

et non étiquetées Utiliser un algorithme EM On en déduit P(C|x) pour tout x On regarde ici le cas à 2 classes

Notations D = DLU DU DL : Labeled data DU : Unlabeled data

C1 et C2 sont les deux classes considérées p1 et p2 sont les probabilités a priori des deux classes C1 et

C2


Apprentissage semi-superviséModèles génératifs Log Vraisemblance des données

uiU

LLL

UL

Dx kkik

Dx

CDxCDxDx

DxDxM

DxM

Cxpxp

CxpCxpxp

xpxpL

xpL

))/(.(log)(log

),(log),(log)(log

)(log)(log

)(log

2

1

2121

Vraisemblance des données non étiquetées.

C’est un modèle de mélange

Vraisemblance des données

étiquetées


Apprentissage semi-superviséModèles génératifs La vraisemblance totale s’écrit

Important Les modèles pour les densités p(x| C) sont les mêmes pour

les données supervisées et non supervisées C’est ce qui permet de capturer dans une même fonction

nles informations supervisées et non supervisées

uiki Dx k

kikk Cx

kikM CxpCxpL ))/(.(log))/(.log(2

1

2

1

Somme sur les données

étiquetées

Somme sur les données non étiquetées

Modèle de mélange


Apprentissage semi-superviséModèles dicriminants (Amini 2004)

Au lieu de maximiser la vraisemblance, on va maximiser la vraisemblance classifiante (Symons et al. 71).

But classifier les exemples en c groupes en prenant une

décision “dure”.

avec T=(t1,…,tc) le vecteur des indicateurs de classe:

Vraisemblance classifiante vraisemblance des données complètes (donnée, classe) :

0,et1 hkk tkhtCx

8

c

k

N

ikkkikkiC CxptCL

1 1

)),,/(.log(.),,(


Comparer avec la vraisemblance usuelle pour un mélange de densités :

N c

kkkkikkiC CxptCL

11 1

)),,/(..(log),,(


Vraisemblance classifiante pour le cas semi-supervisé Pour un classifieur discriminant maximiser LC est

equivalent à maximiser

n étiquetés, m non étiquetés Algorithme : CEM

c

k

mn

nikkikki

c

k kCixkkikC xCptxCpCL

1 11)),,/(log(.)),,/(log(),,(~

9


Mesures d’évaluation

Caractéristique des ensembles de données

Critère de performance

Pertinent

Non pertinent

Decision du système

+

PGC = ++

Precision =

Classification

Text summarization

IJCAI’03


Exemple : Email spam

IJCAI’03

5%

65%

73%

82%


Exemple : Résumé de texte

IJCAI’03


Apprentissage semi-superviséModèles de graphes Les modèles génératifs ou discriminants précédants ne

prennent pas en compte la densité locale des données. Ils ne considèrent que la cohérence globale des données Vraisemblance

Sans considérer la cohérence locale Voisinage des points, densité locale

Cela peut conduire à des erreurs importantes si les densités ne sont pas bien séparées

Plusieurs familles de modèles ont été proposées pour prendre en compte à la fois les cohérences globales et locales des données Parmi elles, les méthodes à base de graphes


Data consistency (Zhou et al. 2003)

SSL rely on local (neighbors share the same label) and global (data structure) data consistency

Fig. from Zhou et al. 2003


Graph methods general idea Create a graph G = (V, E) Compute a similarity matrix W: Wij is the similarity between

nodes i and j Propagate observed labels to unlabeled nodes


Example (Zhou et al 2003)

Compute an affinity matrix W

a normalized affinity matrix S

Iterate

Converges to Y* final labels on unlabeled data

0),2

exp(: 2

2

iiji

ij Wxx

WW

21

21

WDDS

)0()1()(.)1( YtYStY

D is a diagonal matrix whose ith element is the sum of ith row of W

Y(0) matrix of initial labels and 0 for unlabeled data


Iterations

Fig. from Zhou et al. 2003


Apprentissage en présence de données positives uniquement Problème Discrimination avec des étiquetages dans une seule classe

-positifs- et en faible nombre Nombreuses instances dans la réalité

Méthode pratique générale On considère que les exemples les plus éloignés des

exemples étiquetés sont négatifs On applique un algorithme d’apprentissage semi-supervisé


Quelques liens utiles

Livres Cornuéjols, A and Miclet L.: Apprentissage Artificiel. Concepts et

algorithmes (2nd Ed.with revisions and additions - 2006 Eyrolles, 650 p Christopher M. Bishop, Pattern Recognition and Machine Learning,

Springer (2006). David Barber, 2012, Bayesian Reasoning and Machine Learning,

Cambridge Univ. Press. Software General Weka 3: Data Mining Software in Java

http://www.cs.waikato.ac.nz/ml/weka/ Lush (Leon Bottou)

http://lush.sourceforge.net) SVM http://www.csie.ntu.edu.tw/~cjlin/libsvm/

http://svmlight.joachims.org/http://www.torch.ch/

Test sets UCI machine learning repository …..