perceptron classiﬁcation lineaire)´

Perceptron Classification linéaire)Nicolas Baskiotis [email protected]
http://webia.lip6.fr/˜baskiotisn
equipe MLIA, Laboratoire d’Informatique de Paris 6 (LIP6) Sorbonne Universite - Universite Pierre et Marie Curie (UPMC)
S2 (2017-2018)
Resume des episodes Notions abordees
Ensemble d’apprentissage : D = {(xi, yi) ∈ X × Y}i=1,...,N ,X ∈ Rd
Ensemble de test Regression : Y ∈ R Apprentissage supervisee : Y discret Apprentissage non supervisee : pas de Y Apprentissage : trouver f : X → Y qui fait le moins d’erreurs Erreur : 0− 1, moindres carres Selection de modele : validation croisee
Approches et algorithmes
Plan
On reflechit un peu Quelle approche correspond a quelle frontiere ?
3 2 1 0 1 2 3
3
2
1
0
1
2
3
3
2
1
0
1
2
3
3
2
1
0
1
2
3
4
2
0
2
4
Espace lineairement separable
2
1
0
1
2
3
4
2
0
2
4
Conclusion (temporaire)
Importance : de l’espace de fonctions considere (choisi a priori) du parametrage des algorithmes
→ notion d’expressivite . . . a suivre.
N. Baskiotis (LIP6, UPMC) ARF S2 (2017-2018) 5 / 24
Plan
Inspiration biologique Le cerveau
Robuste, tolerant aux fautes Flexible, sait s’adapter Gere les informations incompletes Capable d’apprendre
Compose de neurones !
Problemes Opacite des raisonnements Opacite des resultats
Historique Premisses
McCullogh et Pitts (1943) : 1er modele de neurone formel. Base de l’IA Regle de Hebb (1949) : apprentissage par renforcement du couplage synaptique
Premieres realisations Adaline (Widrow-Hoff, 1960) Perceptron (Rosenblatt, 1958-1962) Analyse de Minsky et Papert (1969)
Developpement
Deuxieme renaissance Reseaux profonds (2000-)
Le perceptron de Rosenblatt (1960)
L’idee Reconaissance de forme (pattern) entre deux classes Inspiree du cortex visuel
Chaque cellule d’association produit une sortie fi(S) en fonction d’un stimulus La cellule de decision repond selon une fonction seuil fd(
∑ wifi(Si))
Formalisation
x0
x1
x2
x3
xd
w0
w1
w2
w3
wd
Algorithme d’apprentissage
Algorithme du perceptron
Initialiser au hasard w Tant qu’il n’y a pas convergence :
I pour tous les exemples (xi, yi) : F si (yi× < w.xi >) < 0 alors w = w + εyixi
Decision : f (x) = sign(< wx >)
Theoreme de convergence (Novikov, 1962)
Si I ∃R, ∀x : x ≤ R I les donnees peuvent etre separees avec une marge ρ I l’ensemble d’apprentissage est presente au perceptron un nombre suffisant
de fois
Autre formulation
A quoi correspond la regle de mise a jour :
Si (y < w.x >) > 0 ne rien faire Si (y < w.x >) < 0 corriger w = w + yx ?
Autre formulation
A quoi correspond la regle de mise a jour :
Si (y < w.x >) > 0 ne rien faire Si (y < w.x >) < 0 corriger w = w + yx ?
Hinge loss
Descente de gradient !
∇wl(fw(x), y) =
Pourquoi ce changement dans la fonction de cout ?
Et pourquoi pas d’autres erreurs ?
Exploration de l’espace des solutions Vision duale de l’espace des exemples
Rhinge(fw) = E(lhinge(fw(x), y)) = E(max(0,−fw(x)y))
Rmse(fw) = E(lmse(fw(x), y)) = E((fw(x)− y)2)
Pour un ensemble fixe de donnees, le risque est vu comme une fonction de w.
3 2 1 0 1 2 3
4
3
2
1
0
1
2
3
0.0
12.5
25.0
37.5
50.0
62.5
75.0
87.5
100.0
4
3
2
1
0
1
2
3
0
1
2
3
4
5
6
7
8
Variantes de l’algorithme
Cas hors-ligne (ou batch) : Pour chaque epoque (correction de w), on itere sur toute la base d’exemples Cas en-ligne (stochastique) : Une correction de w est fate par rapport a un exemple tire au hasard dans la base. hybride : mini-batch Des petits sous-ensembles d’exemples sont tires au hsard, la correction se fait selon le gradient calcule sur ces exemples.
Avantages et inconvenients ?
Batch : plus stable, plus rapide Stochastique : bien meilleur tolerance au bruit !
Plan
Considerations geometriques
Soit y la sortie attendue : Que represente w par rapport a la separatrice ? Que represente < w.x > ? Que represente y < w.x > ?
Considerations geometriques Soit y la sortie attendue :
Que represente w par rapport a la separatrice ? Que represente < w.x > ? Que represente y < w.x > ? A quoi correspond la regle de mise a jour :
I Si (y < w.x >) > 0 ne rien faire I Si (y < w.x >) < 0 corriger w = w + yx ?
i=0 wixi, prediction : sign(fw(x))
Problemes “durs” Non lineairement separable
Que faire ?
Problemes “durs”
Transformation de la representation
On augmente d’une dimension : (x1, x2)→ (x2 1, x1x2, x2)
Le probleme est de nouveau separable lineairement ! Autre solution ?
Deux neurones
w01w02 w03x1
⇒ Est-il facile d’apprendre ses reseaux ?
Deux neurones
w01w02 w03x1
⇒ Est-il facile d’apprendre ses reseaux ?
Et pour ce probleme ?
4
2
0
2
4
Si vous aviez droit a n’importe quelle fonction dans un neurone ?
Apéro
Perceptron

perceptron classiﬁcation lineaire)´

Documents