apprentissage avancé - agroparistechcourse « inductions » (a. cornuéjols) 5 / 122 organisamon du...

AntoineCornuéjols

AgroParisTech–INRAMIA518

[email protected]

Cours

apprentissage avancé

2 / 122 Course « InductionS » (A. Cornuéjols)

Lecours

n  Documents

–  Le livre "L'apprentissage artificiel. Deep Learning, concepts et algorithmes" A. Cornuéjols & L. Miclet & V. Barra

Eyrolles. 3ème éd. 2018

–  Les transparents + Informations sur :

hBp://www2.agroparistech.fr/ufr-info/membres/cornuejols/Teaching/Master-AIC/M2-AIC-advanced-ML.html

3 / 122 Course « InductionS » (A. Cornuéjols) 4 / 122 Course « InductionS » (A. Cornuéjols)

Planducours

Construire un critère inductif • Apprentissage semi-supervisé • Apprentissage de modèles parcimonieux

L’induction • Comment ça marche ? • Quelles garanties ? • Le no-fre-lunch theorem

Apprentissage en-ligne • Approche théorique : nouveau critère inductif • Approche pratique : autre type de critère inductif • Classification précoce de séries temporelles

Apprentissage par transfert • Scénarios • Quels échanges d’information ? • Comment trouver des garanties ?

Méthodes d’ensemble • Comment construire l’algorithme • Quels échanges d’information ? • Et dans le cas non supervisé ?


OrganisaMonducours

6Cours

1séanced’exposésd’arMcles

n  5quizz (5x5=25%)

n  Projets :75%

–  06/12/2018:descrip4onduprojetretenu(2pages)

–  31/01/2019:rapportdemi-parcours(5à8pages)

–  28/02/2019:rapportfinal(10pagesstrict.FormatpapierICML)

n  DontrapportcriMquesurarMcles :25%

A.Cornuéjols

AgroParisTech–INRAMIA518

ReflecMonson

INDUCTION-S

hBp://www.agroparistech.fr/ufr-info/membres/cornuejols/Teaching/Master-AIC/M2-AIC-advanced-ML.html


Outline

1.  InducMon

2.  ThestaMsMcalTheoryofLearning

3.  Otherscenarios

4.  Theno-free-lunchtheorem

5.  ExplanaMon-Basedlearning:whatkindofvalidaMon?

6.  QuesMons



SupervisedinducMon


Learningbyheart

11 / 122 Course « InductionS » (A. Cornuéjols) 12 / 122 Course « InductionS » (A. Cornuéjols)

Whentherearefewdatapoints

n  Learningatable

Exemple x1 x2 x3 x4 Etiquette

1 0 0 1 0 0

2 0 1 0 0 0

3 0 0 1 1 1

4 1 0 0 1 1

5 0 1 1 0 0

6 1 1 0 0 0

7 0 1 0 1 0


Whenthereisahugenumberofdatapoints

n  LearningafuncMonf:x->y

Buthow?

WhichfuncMon?


Supervisedlearning:

Simpleornotsosimple?


n  Examplesdescribedusing:

Number(1or2);size(smallorlarge);shape(circleorsquare);color(redorgreen)

n  Theybelongeithertoclass‘+’ortoclass‘-’

Oneexamplethattellsalot…


Description Your answer True answer

1largeredsquare -

1largegreensquare

2smallredsquares

2largeredcircles

1largegreencircle

1smallredcircle

1smallgreensquare

1smallredsquare

2largegreensquares

+

+

+

-

+

+

+

-

Yet another exercise n  Examplesdescribedusing:


n  Theybelongeithertoclass‘+’ortoclass‘-’


Description Your prediction True class

1 large red square -



1largegreensquare

2smallredsquares

2largeredcircles

1largegreencircle

1smallredcircle

+

+

+

-

+


HowmanypossiblefuncMonsaltogetherfromXtoY?

HowmanyfuncMonsdoremainaner8trainingexamples?

22=216=65,5364

26=1024





Description Yourprediction Trueclass1largeredsquare -1largegreensquare +2smallredsquares +2largeredcircles -1largegreencircle +1smallredcircle +1smallgreensquare -1smallredsquare +2largegreensquares +2smallgreensquares +2smallredcircles +1smallgreencircle -2largegreencircles -2smallgreencircles +1largeredcircle -2largeredsquares ?

Howmany

remaining

func4ons?

15

?


Description Your prediction True class

1 large red square -



1largegreensquare

2smallredsquares

2largeredcircles

1largegreencircle

1smallredcircle

+

+

+

-

+


HowmanypossiblefuncMonswith2descriptorsfromXtoY?

HowmanyfuncMonsdoremainaner3≠trainingexamples?

22=24=162

21=2


InducMon:animpossiblegame?

n  Abiasisneed

n  Typesofbias

–  Representa4onbias (declaraMve)

–  Researchbias (procedural)


InterprétaMon–compléMondepercepts



!"#$%&'()%*+,-./01%-2%3#4/1-5-64/701%85697,5%-:%#0;9.2%$97-<2/=-23%>?@%#91/11-A%

&)B'CB&'()%

ED%

6R(&,(-%"U8"-,"%&(7&'!"&"%%"-'.+#.%'&+%%81$'.(-&.-&;i&

!/2*29924#&'(&9#* '##&#"32*/'9*/'3* #1$*0'>$%* -$492Z"24-29*1/&-/*8%2'#(@*-$4#%&J"#23*#$*9/'?2*#/2*?'##2%4*%2-$84&#&$4*V2(3*&4*#/2*?'9#*A21*32-'329B**

!! &#* /'9* (23* #/2* -$00"4&#@* #$* A$-"9* 0'&4(@* $4* 7"+'8)"_*",'()&)"$)"%"-'+'.(-%+* 1/2%2+* 2'-/* $J>2-#* &9* 329-%&J23* &4* #2%09* $A* '*C2-#$%*$A*4"02%&-'(*'##%&J"#29*'43*&9*#/2%2A$%2*0'??23*#$*'*?$&4#*&4*'*S"-(&32'4*G82$02#%&-I*C2-#$%*9?'-2**

!! &#*/'9*(23*%292'%-/2%9*#$*0'&4#'&4*'*)"98,'.(-.%'&$(%.'.(-+*1/2%2J@*$J>2-#9*'%2*9224* &4* &9$('#&$4*'43*1/&-/*#/2%2A$%2*#2439*#$*$C2%($$.*#/2*%$(2*$A*-$4#2a#"'(+*$%*%2('#&$4'(+*&4A$%0'#&$4*

Y(-'"='&!"#$%&]&

!"#$%&'()%*+,-./01%-2%3#4/1-5-64/701%85697,5%-:%#0;9.2%$97-<2/=-23%>?@%#91/11-A%

&)B'CB&'()%

ED%

6R(&,(-%"U8"-,"%&(7&'!"&"%%"-'.+#.%'&+%%81$'.(-&.-&;i&

!/2*29924#&'(&9#* '##&#"32*/'9*/'3* #1$*0'>$%* -$492Z"24-29*1/&-/*8%2'#(@*-$4#%&J"#23*#$*9/'?2*#/2*?'##2%4*%2-$84&#&$4*V2(3*&4*#/2*?'9#*A21*32-'329B**

!! &#* /'9* (23* #/2* -$00"4&#@* #$* A$-"9* 0'&4(@* $4* 7"+'8)"_*",'()&)"$)"%"-'+'.(-%+* 1/2%2+* 2'-/* $J>2-#* &9* 329-%&J23* &4* #2%09* $A* '*C2-#$%*$A*4"02%&-'(*'##%&J"#29*'43*&9*#/2%2A$%2*0'??23*#$*'*?$&4#*&4*'*S"-(&32'4*G82$02#%&-I*C2-#$%*9?'-2**

!! &#*/'9*(23*%292'%-/2%9*#$*0'&4#'&4*'*)"98,'.(-.%'&$(%.'.(-+*1/2%2J@*$J>2-#9*'%2*9224* &4* &9$('#&$4*'43*1/&-/*#/2%2A$%2*#2439*#$*$C2%($$.*#/2*%$(2*$A*-$4#2a#"'(+*$%*%2('#&$4'(+*&4A$%0'#&$4*

Y(-'"='&!"#$%&]&

!"#$%&'()%*+,-./01%-2%3#4/1-5-64/701%85697,5%-:%#0;9.2%$97-<2/=-23%>?@%#91/11-A%

&)B'CB&'()%

ED%

6R(&,(-%"U8"-,"%&(7&'!"&"%%"-'.+#.%'&+%%81$'.(-&.-&;i&

!/2*29924#&'(&9#* '##&#"32*/'9*/'3* #1$*0'>$%* -$492Z"24-29*1/&-/*8%2'#(@*-$4#%&J"#23*#$*9/'?2*#/2*?'##2%4*%2-$84&#&$4*V2(3*&4*#/2*?'9#*A21*32-'329B**

!! &#* /'9* (23* #/2* -$00"4&#@* #$* A$-"9* 0'&4(@* $4* 7"+'8)"_*",'()&)"$)"%"-'+'.(-%+* 1/2%2+* 2'-/* $J>2-#* &9* 329-%&J23* &4* #2%09* $A* '*C2-#$%*$A*4"02%&-'(*'##%&J"#29*'43*&9*#/2%2A$%2*0'??23*#$*'*?$&4#*&4*'*S"-(&32'4*G82$02#%&-I*C2-#$%*9?'-2**

!! &#*/'9*(23*%292'%-/2%9*#$*0'&4#'&4*'*)"98,'.(-.%'&$(%.'.(-+*1/2%2J@*$J>2-#9*'%2*9224* &4* &9$('#&$4*'43*1/&-/*#/2%2A$%2*#2439*#$*$C2%($$.*#/2*%$(2*$A*-$4#2a#"'(+*$%*%2('#&$4'(+*&4A$%0'#&$4*

Y(-'"='&!"#$%&]&




Illusionsd’opMque


InducMonanditsillusions

IllustraMon


Clustering


Clustering


IwillbequesMonedon

onenewpoint

(Transduc/velearning)


TransducMvelearning

n  IknowinadvancewhereIwillbequeried

x

y

!


Vous connaissez la question à l’avance.

n  Quelle est l’étiquette pour la question ?

Transduction (1)

Description Étiquette

1 grand carré rouge ≠1 grand carré vert +

2 petits carrés rouges +

2 grands cercles rouges ≠1 grand cercle vert +

1 petit cercle rouge +

1 petit carré vert ≠1 petit carré rouge +

Nb Taille Forme Couleur Étiquette


2 petit carré rouge +

2 grand cercle rouge ≠1 grand cercle vert +



Négatif : (petit & vert) ‚ (grand & rouge)

Positif : (grand & vert) ‚ (petit & rouge)

Positif (plus spécifique) : (grand & carré) & vert) ‚ (1 & petit & rouge) ‚(2 & petit & carré & rouge)







2 petit cercle rouge ?







2 petit cercle vert ?

2



n  Quelle est l’étiquette pour la question ?

Transduction (2)

Description Étiquette


2 petits carrés rouges +

2 grands cercles rouges ≠1 grand cercle vert +









Négatif : (petit & vert) ‚ (grand & rouge)

Positif : (grand & vert) ‚ (petit & rouge)

Positif (plus spécifique) : (grand & carré) & vert) ‚ (1 & petit & rouge) ‚(2 & petit & carré & rouge)







2 petit cercle rouge ?







2 petit cercle vert ?

2



Transduction (3)







1 - cercle - ?

Supposons que nous considérions une tâche de discrimination entre deux

classes, et qu’après apprentissage, on observe sur un ensemble de test constitués

de 105 exemples positifs et 60 exemples négatifs, les performances suivantes :

Remarque : on a besoin des packages : array et slashbox

SVM :

XXXXXXXXXXEstimé

Réel

+ ≠

+ 94 37

≠ 11 23

Bayésien naïf :

XXXXXXXXXXEstimé

Réel

+ ≠

+ 72 29

≠ 33 31

Apparemment, le système SVM (voir chapitre ??) est plus performant sur

cette tâche, puisque son taux d’erreur est de :

11+37165 = 0.29 au lieu de

29+33165 =

0.375 pour le classifieur bayésien naïf (voir chapitre ??). Pourtant, ce critère

d’erreur n’est peut-être pas celui qui nous intéresse en priorité.

Date 5/31 6/1 6/2 6/3 6/4

Room

Meeting Room

Auditorium

Seminar Room

Table 1 – Room availability vs dates.

2.2 Et maintenant quelques figures

3 Résultats

4 Conclusion

3



Transduction (3)







1 - cercle - ?

Supposons que nous considérions une tâche de discrimination entre deux

classes, et qu’après apprentissage, on observe sur un ensemble de test constitués

de 105 exemples positifs et 60 exemples négatifs, les performances suivantes :

Remarque : on a besoin des packages : array et slashbox

SVM :

XXXXXXXXXXEstimé

Réel

+ ≠

+ 94 37

≠ 11 23

Bayésien naïf :

XXXXXXXXXXEstimé

Réel

+ ≠

+ 72 29

≠ 33 31

Apparemment, le système SVM (voir chapitre ??) est plus performant sur

cette tâche, puisque son taux d’erreur est de :

11+37165 = 0.29 au lieu de

29+33165 =

0.375 pour le classifieur bayésien naïf (voir chapitre ??). Pourtant, ce critère

d’erreur n’est peut-être pas celui qui nous intéresse en priorité.

Date 5/31 6/1 6/2 6/3 6/4

Room

Meeting Room

Auditorium

Seminar Room

Table 1 – Room availability vs dates.

2.2 Et maintenant quelques figures

3 Résultats

4 Conclusion

3

Iamgoingtobequeriedthere,

sothisistheimportantaspect


WhichprincipleshouldguidetransducMon?

n  Shouldwefeelmorecertainabouttheinducedanswerif

1.  thequeryisclosetosomedatapoints?

2.  theanswerdoesnotchangewhenthequerypointischanged

aliBlebit?

3.  theanswerdoesnotchangewhenthedatapointsarechangeda

liBlebit?

4.  …



1-Proximitytodatapoints

h(xm+1) =mX

i=1

↵i (xi,xm+1) yi

h(xm+1) = sign

⇢ mX

i=1

↵i (xi,xm+1) yi

�

HowtochooseK ?



2-theanswerdoesnotchangewhenthequerypointischanged

aliBlebit?

–  CapacityofH

–  RegularizaMononthehypotheses

!

!! !!

!

!!

!

!

!!

!

! !!

!

!

!

!!! !

""

"""

""

""

"

"""

"

"

"

"

""

"

"

"

""

"

"

"""

"

"

" "

"

"

"

!

!! !!

!

!!

!

!

!!

!

! !!

!

!

!

!!! !

""

"""

""

""

"

"""

"

"

"

"

""

"

"

"

""

"

"

"""

"

"

" "

"

"

"

!

!! !!

!

!!

!

!

!!

!

! !!

!

!

!

!!! !

""

"""

""

""

"

"""

"

"

"

"

""

"

"

"

""

"

"

"""

"

"

" "

"

"

"

!

!! !!

!

!!

!

!

!!

!

! !!

!

!

!

!!! !

""

"""

""

""

"

"""

"

"

"

"

""

"

"

"

""

"

"

"""

"

"

" "

"

"

"



3-theanswerdoesnotchangewhenthetrainingdatapointsare

changedaliBlebit?

–  CapacityofH

–  RegularizaMononthehypotheses

!

!! !!

!

!!

!

!

!!

!

! !!

!

!

!

!!! !

""

"""

""

""

"

"""

"

"

"

"

""

"

"

"

""

"

"

"""

"

"

" "

"

"

"

!

!! !!

!

!!

!

!

!!

!

! !!

!

!

!

!!! !

""

"""

""

""

"

"""

"

"

"

"

""

"

"

"

""

"

"

"""

"

"

" "

"

"

"

!

!! !!

!

!!

!

!

!!

!

! !!

!

!

!

!!! !

""

"""

""

""

"

"""

"

"

"

"

""

"

"

"

""

"

"

"""

"

"

" "

"

"

"

!

!! !!

!

!!

!

!

!!

!

! !!

!

!

!

!!! !

""

"""

""

""

"

"""

"

"

"

"

""

"

"

"

""

"

"

"""

"

"

" "

"

"

"



1-2-3-closenessorrobustnesstosmallchangesinthetestortraining

datapointsCHAPITRE 1. UNE VUE D’ENSEMBLE DE LA SCIENCE DES DONNÉES

Figure 1.8 – À gauche, la fonction de démarcation entre les deux groupes est très ir-régulière, mais très fine : elle “colle au données”, mais ne sera pas bien généralisableà d’autres situations, au contraire de celle de droite, beaucoup plus régulière.

changer (cela correspond à une situation de forte variance, mais de faible biais). Enrevanche, une minimisation moins fine et plus régulière se généralisera mieux (biaisplus important, mais variance faible), tel qu’illustré sur la Fig. 1.8.

Maintenant, faisons le lien avec la malédiction de la dimensionnalité, brièvementdécrite plus haut : dès que la dimensionnalité augmente un peu, il devient beaucoupplus di�cile d’avoir un échantillonnage su�sant de X , de sorte que le compromisbiais-variance prend toute son importance. Ainsi, dans les premières analyses géno-miques du milieu des années 90, l’objectif était d’apprendre une fonction permettantde discriminer les patients atteints d’une maladie génétique des personnes saines, surla base de la liste de leurs gènes. Face aux milliers de gènes humains, qui dans notreproblèmes d’apprentissage, correspondent à autant de variables, le nombre de pa-tients atteints d’une maladie et dont on dispose du génome peut être incroyablementfaible (une dizaine), notamment pour des maladies rares. Dans un tel contexte, il estimpossible d’espérer des performances correctes. La solution consiste donc à réduirela dimensionnalité de F , en forçant une certaine régularité dans la fonction apprise,tel qu’illustré sur la Fig. 1.8. Concrètement, la complexité de chaque fonction can-didate doit être prise en compte, et incluse dans l’optimisation, afin de choisir, àrisque empirique égal, le modèle le plus simple, et donc le plus généralisable :

f = mingœF

Re(g) + fl(g) (1.28)

où fl pénalise les fonctions de F en fonction de leur complexité. Dans un tel contexte,le minimiseur f sera naturellement de complexité moindre, et se généralisera mieux.Historiquement, dans les premières études génomiques susnommées, fl pénalisait lesfonctions en proportion du nombre de variables qu’elles faisaient intervenir [Tib96],et la pénalité correspondante, dénommée LASSO (Least Absolute Shrinkage andSelection Operator) est encore de nos jours parmi les pénalités les plus populaires.

Finalement, la réduction de dimensionnalité peut soit être explicite, soit passerpar la recherche d’un modèle parcimonieux, avec peu de degrés de liberté. Cettedernière option nous permet un ultime lien vers l’analyse harmonique (Sec. 4) : afinde remplacer une famille génératrice quelconque par un dictionnaire spécifique, onapprend ce dernier en optimisant son pouvoir expressif pénalisé par sa complexité.

33

x?


WhichprincipletoguidetransducMon?

Howtoformallytranslate:

–  Ifthisistheques4on,Iknowthisis

•  Important

•  Irrelevant


OtherscenariosforlaterexaminaMon

–  Semi-supervisedlearning

–  On-linetransducMon<->tracking

–  On-linelearning

–  Transferlearningandlearningbyanalogy


InducMoneverywhere


Lerôledel’inducMon

n  [LeslieValiant,«ProbablyApproximatelyCorrect.Nature’sAlgorithmsforLearningandProsperinginaComplexWorld»,BasicBooks,2013]

«Fromthis,wehavetoconcludethatgeneraliza4onorinduc4onis

apervasivephenomenon(…).ItisasrouMneandreproduciblea

phenomenonasobjectsfallingundergravity.

Itisreasonabletoexpectaquan4ta4vescien4ficexplana4on

ofthishighlyreproduciblephenomenon.»


Lerôledel’inducMon

n  [EdwinT.Jaynes,«Probabilitytheory.Thelogicofscience»,CambridgeU.

Press,2003],p.3

«Wearehardlyabletogetthroughonewakinghourwithoutfacingsome

situaMon(e.g.willitrainorwon’tit?)wherewedonothaveenough

informa4ontopermitdeduc4vereasoning;butsMllwemustdecide

immediately.

Inspiteofitsfamiliarity,theformaMonofplausibleconclusionsisavery

subtleprocess.»


Sequences

n  1123581321…

n  1235...

n  1 1 1 2 1 1 2 1 1 1 1 1 2 2 1 3 1 2 2 1 1 …

–  Comment?

–  Pourquoiserait-ilpossibledefairedel’inducMon?

–  Est-cequ’unexemplesupplémentaire

doitaugmenterlaconfiancedanslarègleinduite?

–  Combienfaut-ild’exemples?


InducMonsupervisée

n  CommentchoisirlafoncMondedécision?

x

y


InterrogaMons

Àchaquefois:

CasparMculiers=>loigénéraleouadaptaMonànouveaucas

1.   Qu’est-cequiautorisecepassage?

2.   Est-cequel’onpeutgaran4rquelquechose?


WhatkindoftheoreMcalguarantees

oninducMoncanweget?


Analysisoftheperceptron


Leperceptron

{ biais

x

y

w1w2

w3 w4 w5

w0

wd

1

x1 x2 x3 x4 x5 xd

x0

neurone de biais

1

yi

x(1)

x(2)

x(3)

x(d)

w1i

w2i

w3i

wdi

σ(i) =d∑

j=0

wjix(j)w0i

–  Rosenblatt (1958-1962)


Leperceptron:undiscriminantlinéaire

w


Leperceptron

n  Appren4ssagedespoids

–  Principe(règledeHebb):encasdesuccès,ajouteràchaqueconnexionquelquechosedeproporMonnelàl’entréeetàlasorMe

Règleduperceptron:apprendreseulementencasd’échec

+


Despropriétésremarquables!!

n  Convergenceenunnombrefinid’étapes

–  Indépendammentdunombred’exemples

–  Indépendammentdeladistribu4ondesexemples

–  (quasi)indépendammentdeladimensiondel’espaced’entrée

Siilexisteaumoinsuneséparatricelinéairedesexemples

!!!


GaranMedegénéralisaMon??

n  Théorèmessurlaperformance

parrapportàl’échanMllond’apprenMssage

n  Maisqu’enest-ilpourdesexemplesàvenir?


–  RosenblaB(1958-1962)

LePerceptron


PAClearning

ProbablyApproximaMvelyCorrect


Targetclass:rectanglesinR2

n  Sample

–  PosiMveinstances

–  NegaMveinstances

P+X

P�X

x

y


Targetclass:unknown

n  Whatdowewanttolearn?

AdecisionfoncMon(predic4on)

x

y

!


Targetclass:unknown

n  Howtolearn?

x

y



n  Howtolearn?

–  IfIknowthatthetargetconceptisarectangle

x

y



n  Howtolearn?


x

y

Most general hypotheses



n  Howtolearn?


x

y

Most specific hypotheses



n  Howtolearn?

–  Choiceofonehypothesish

Version

space



n  Learning:choicedeh

–  Whichperformancetoexpect?

x

y

h


ThestaMsMcaltheoryoflearning

Whichperformance?

n  CostforapredicMonerror

–  Thelossfunc3on

n  WhichexpectedcostifIchooseh?

–  The«realrisk»(ortruerisk)

R(h) =�

X�Y��h(x), y

�pXY(x, y) dx dy

��h(x), y

�



n  Whichexpectedcostwhenhischosen?

–  AssumingthatthereisnotrainingerroronS

x

y

h

The«empiricalrisk»

R(h) =1m

m�

i=1

��h(xi), yi

�


StaMsMcaltheoryoflearning:theERM

n  Learningstrategy:

–  Selectanhypothesiswithnullempiricalrisk(notrainingerror)

–  WhichgeneralizaMonperformancetoexpectforh?

x

y

h

x

y

f

h


StaMsMcaltheoryoflearning:theERM

–  Selectanhypothesiswithnullempiricalrisk(notrainingerror)

–  WhichgeneralizaMonperformancetoexpectforh?

–  WhatistheriskofgeTngerrorR(h)>ε?

x

y

f

h

h � f

x

y

f

h



QuesMoncentrale:leprincipeinducMf

n  LeprincipedeminimisaMondurisqueempirique(ERM)

…est-ilsain?

–  Sijechoisishtelleque

–  Est-cequehestbonnerelaMvementaurisqueréel?

–  Est-cequej’auraispufairebeaucoupmieux?

R(h)? ! R(h)


Théoriesta4s4quedel’apprenMssage

Le1ertemps

Unindividu


Étudesta4s4quepourUNEhypothèse

–  choixd’unehypothèsederisqueempiriquenul(pasd’erreursur

l’échanMllond’apprenMssageS)

–  QuelleperformanceaBenduepourh?

–  Quelestlerisqued’avoiruneerreurR(h)>ε?

x

y

f

h

h � f

x

y

f

h



n  Supposonshtq.(h«mauvaise»)

n  QuelleestlaprobabilitéquepourtanthaitétésélecMonnée?

x

y

f

h

h � f

R(h) � �

R(h) = pX (h � f)

Aprèsunexemple: p�R(h

�= 0) � 1� �

Aprèsmexemple(i.i.d.):

pm�R(h

�= 0) � (1� �)m

Onveut: � ⇥, � � [0, 1] : pm�R(h

�� ⇥) � �

«tombe»endehorsdeh � f



n  Oncherche:

x

y

f

h

h � f

Soit:

D’où:

� ⇥, � � [0, 1] : pm�R(h

�� ⇥) � �

(1 � �)m � �

e�� m � �

�⇥ m � ln(�)

m � ln(1/�)⇥

<



Le2èmetemps

QuelindividudanslaFoule


Étudesta4s4quepour|H|hypothèses

n  Quelleestlaprobabilitéquejechoisisseunehypothèseherrderisqueréel>ε

etquejenem’enaperçoivepasaprèsl’observaMondemexemples?

n  Probabilitédesurviedeherraprès1exemple:

n  Probabilitédesurviedeherraprèsmexemples:

n  Probabilitédesurvied’aumoinsunehypothèsedansH:

–  OnuMliselaprobabilitédel’union

n  Onveutquelaprobabilitéqu’ilresteaumoinsunehypothèsede

risqueréel>εdansl’espacedesversionssoitbornéeparδ:


L’analyse«PAClearning»

n  Onarriveà:

=0

Casréalisable:ilexisteaumoinsunefoncMonhderisque0

LeprincipedeminimisaMondurisqueempirique

n’estsainquesiilyadescontraintessurl’espacedeshypothèses


PAClearning:definiMon

n  Worstcaseanalysis

–  Againstalldistribu4onsP

–  Foranytargethypothesisinaclassofhypotheses

n  NoMonofcomputa/onalcomplexity

Given 0 < �, " < 1, a concept class C is learnable by a polynomial time algorithm A if,

for any distribution P of samples and any concept c 2 C,

there exists a polynomial p(·, ·, ·) such that

A will produce with probability at least 1� � a hypothesis h 2 C whose error is "

when given at least p(m, 1/�, 1") independent random examples drawn according to P .

[Valiant,1984]



Uniformconvergencebounds

(fortheunrealizablecase)


Generalizingthelawoflargenumbers:uniformconvergence

Theoreme 1 (Inegalite de Hoe�ding). Si les �i sont des variables aleatoires,tirees independamment et selon une meme distribution et prenant leurvaleur dans l’intervalle [a, b], alors :

P

��1m

m�

i=1

�i � E(�)�� ⇥

�� 2 exp

�� 2 m ⇥2

(b� a)2

�

Appliquee au risque empirique et au risque reel, cette inegalite nous donne :

P�|REmp(h)�RReel(h)| ⇤ �

�⇥ 2 exp

�� 2 m �2

(b� a)2�

(1)

si la fonction de perte ⇥ est definie sur l’intervalle [a, b].

Pm[⌅h ⇤ H : RReel(h)�REmp(h) > ⇥] ⇥|H|�

i=1

Pm[RReel(hi)�REmp(hi) > ⇥]

⇥ |H| exp(�2 m ⇥2) = �

en supposant ici que la fonction de perte ⇤ prend ses valeurs dans l’intervalle[0, 1].

« H fini »


Boundingthetrueriskwiththeempiricalrisk+…

n  Hfinite,realizablecase

n  Hfinite,nonrealizablecase

⌅h ⇤ H,⌅� ⇥ 1 : Pm

�RReel(h) ⇥ REmp(h) +

�log |H|+ log 1

�

2 m

�> 1� �

⌅h ⇤ H,⌅� ⇥ 1 : Pm


log |H|+ log 1�

m

�> 1� �


Tosumup:for|H|finite

n  Nonrealizablecase

� =

�log |H|+ log 1

�

2 m and

� =log |H|+ log 1

�

mm �

log |H|+ log 1�

�

m �log |H|+ log 1

�

2 �2

n  Realizablecase

and



|H|infinite!!

n  EffecMvedimensionofH=theVapnik-Chervonenkisdimension

–  Combinatorialcriterion

–  Sizeofthelargestsetofpoints(ingeneralconfiguraMon)thatcanbelabeledinanywaybyhypothesesdrawnfrom H

Boundonthetruerisk

dV C(H) = max�m : �H(m) = 2m

�

⌅h ⇤ H,⌅� ⇥ 1 : Pm


�8 dV C(H) log 2 e m

dV C(H) + 8 log 4�

m

�> 1� �


VCdim:illustraMons

n  dVC(linearseparator)=?

+

+ -

+

+

--

+

+

-

+

+

(a) (b) (c)

•  dVC(rectangles) = ?

+

+

-- +

+

-

++

+

-

+

+

-

(a) (b) (c) (d)

+



Le3èmetemps

QuelleFoule?


SRM:StructuralRiskMinimizaMon

n  Stra4fica4ondesespaces

d’hypothèses

–  Faiteapriori(indépendam-

mentdesdonnées)

–  ParexempleenuMlisantladVC

H1 H2 H3 H4

Risque

H

Risque réel

Risque

empirique

Intervalle

de confiance

Optimum


L’analyse«PAClearning»oustaMsMque

n  Nouveaucritèreinduc/f:

–  Lerisqueempiriquerégularisé

1.  SaMsfairelescontraintesposéesparlesexemples

2.  Choisirlemeilleurespaced’hypothèses(capacitédeH)


Lecompromisbiais-variance

n  IllustraMon

H

F

×

×

×

f

h*

fb = f + bruit

×h

Erreur d'estimation

(Variance)

Erreur d'approximation

(Biais)

Erreur totale

Erreur intrinsèque

{hS}S^

^



Le4èmetemps

Maissil’espacedesFoules

dépenddesexemples?


The«luckinessframework»

n  Principe:définirunordresurHquidépenddesdonnées(≠SRM)

–  Sinousavonsdelachance

–  Alors,iln’yaurapastropd’hypothèsesmauvaises

aussicompaMblesaveclaciblequelesbonnes

[Shawe-Tayloretal.,1998],[Mendelsson&Philips,2003]


L’apprenMssagedevient…

1.  Lechoixdel’espacedeshypothèsesH

–  Nécessairementcontraint

2.  Lechoixd’uncritèreinduc4f

–  Risqueempiriquenécessairementrégularisé

3.  Unestratégied’explora4ondeHpourminimiser

lerisqueempiriquerégularisé

–  Fairecequ’ilfautpourquel’exploraMonsoitefficace

•  Rapide•  SipossibleunseulopMmum


Unparadigmetriomphant

ApprenMssage=choixdenormes+opMmisaMon

(~1995-~20??)


n  Poserunproblèmed’appren4ssage,c’est:

1.  L’exprimersousformed’uncritèreinduc4fàopMmiser

•  Risqueempirique

–  avecunefonc4ond’erreuradéquate

•  Untermederégularisa4on

–  exprimantlescontraintes

–  etconnaissancesapriori–  sipossibleconduisantàproblèmeconvexe

2.  Trouverunalgorithmed’op4misa4onadapté

NouvelleperspecMve


Cadreséduisant

n  Algorithmed’appren4ssage

–  Générique:minimisa3ondurisqueempiriquerégularisé

–  ApprenMssage=opMmisaMon

n  Faibleapriorisurlemonde

–  Supposedonnées(etquesMons)i.i.d.

–  f∈Houf∉H

–  Valabledanslepirecas:contretoutedistribuMoncible

n  BornesengénéralisaMon

–  FormalisaMonmathémaMquesupportantsonbien-fondé


Unparadigmegénéral

n  BoosMng

n  Arbresdedécisions(randomforests)

n  RégressionlogisMque

n  Réseauxdeneurones

n  SéparateursàVastesMarges(SVM)

n  …


«TraducMon»:préférencepourleshypothèsesparcimonieuses

n  Recherched’hypothèselinéaireparcimonieuse

n  MéthodesdetypeLASSO

Normel1:


«TraducMon»:apprenMssagemulM-tâches

n  TtâchesdeclassificaMonbinairedéfiniessurXxY

Partageentretâches

Hypothèseslinéaires



QuellesgaranMesexactement?


ApprenMssagestaMsMque:quellesgaranMes?

n  Lienentrerisqueempiriqueetrisqueréel

–  Coûtd’usagedeh(e.g.tauxd’erreur)

n  Seulementsi

–  MondestaMonnaire

–  Donnéesi.i.d.

–  Ques4onsi.i.d.!!?

Neditriensur:

-  Intelligibilité

-  Fécondité

-  Insertion dans une théorie du domaine


Limites

n  ApprenMssagepassifetdonnéesetques4onsi.i.d.

–  Agentssitués:lemonden’estpasi.i.d.

n  Requiertbeaucoupd’exemples

–  Noussommesbeaucoupplusefficaces

–  «Producteursdethéories»,théoriesquenoustestonsensuite

n  Pasadaptéàlarecherchedecausalités

n  Pasintégréavecunraisonnement

Cesmachinesapprenantesnesontpasdesmachinespensantes


Leno-free-lunchtheorem



Chapitre 2 Première approche théorique de l’induction 75

de l’« écart » entre le résultat de l’apprentissage et la nature est alors :

E[RRéel|S] =

Z

h,f

Z

x 62Sp(x) [1 � �(f(x), h(x)] p(h|S)p(f |S) (2.66)

où le symbole de Kronecker � dénote la fonction nulle partout sauf là où ses arguments sont égaux,où elle vaut 1. Nous noterons ici que la somme ne fait intervenir que les formes x non vues enapprentissage, ce qui est différent de l’espérance de risque i.i.d. dans laquelle le tirage aléatoiredes formes peut permettre le tirage de la même forme en apprentissage et en reconnaissance.Les deux expressions sont équivalentes dans le cas où l’échantillon S est de mesure nulle surl’espace des entrées possibles X . L’équation 2.66 exprime que l’espérance de risque réel étantdonné un échantillon d’apprentissage S est liée à la somme de toutes les entrées possibles x

pondérées par leur probabilité p(x), et à un « alignement » entre l’algorithme d’apprentissagecaractérisé par p(h|S) et la vraie probabilité a posteriori de la nature p(f |S). De ce fait, enl’absence d’information a priori sur la distribution p(f |S), il est impossible de dire quoi que cesoit sur la performance en généralisation de l’algorithme d’apprentissage.

Si l’affirmation précédente n’a pas suffi à plonger le lecteur dans la consternation, le corollaire15

suivant devrait achever de le faire. Nous noterons :

Ek[RRéel|f,m] =

Z

x 62Sp(x) [1 � �(f(x), h(x)] pk(h(x)|S)

l’espérance de risque associée à l’algorithme d’apprentissage Ak étant donné l’échantillon d’ap-prentissage S, et la vraie fonction de la nature f .

Théorème 2.1 (No-free-lunch theorem (Wolpert, 1992))

Pour tout couple d’algorithmes d’apprentissage A1

et A2

, caractérisés par leur distribution deprobabilité a posteriori p

1

(h|S) et p2

(h|S), et pour toute distribution dX des formes d’entrées x

et tout nombre m d’exemples d’apprentissage, les propositions suivantes sont vraies :1. En moyenne uniforme sur toutes les fonctions cible f dans F :

E1

[RRéel|f,m] � E2

[RRéel|f,m] = 0.2. Pour tout échantillon d’apprentissage S donné, en moyenne uniforme sur toutes les fonc-

tions cible f dans F : E1

[RRéel|f,S] � E2

[RRéel|f,S] = 0.3. En moyenne uniforme sur toutes les distributions possibles P(f) :

E1

[RRéel|m] � E2

[RRéel|m] = 0.4. Pour tout échantillon d’apprentissage S donné, en moyenne uniforme sur toutes les distri-

butions possibles p(f) : E1

[RRéel|S] � E2

[RRéel|S] = 0.

Pour une preuve de ce théorème, nous renvoyons le lecteur à [Wol92a]. De manière qualitative,le premier point de ce théorème exprime que quel que soit notre choix d’un « bon » algorithmed’apprentissage et d’un « mauvais » algorithme (par exemple un algorithme prédisant au hasard,ou bien une fonction constante sur X ), si toutes les fonctions cible f sont également probables,alors le « bon » algorithme aura la même performance en moyenne que le « mauvais ». Celasignifie aussi qu’il existe au moins une fonction cible pour laquelle la prédiction au hasard estmeilleure que n’importe quelle autre stratégie de prédiction.

Le deuxième point du théorème affirme la même absence de supériorité d’un algorithme d’ap-prentissage sur tout autre algorithme, même quand l’échantillon d’apprentissage est connu. En15 Du latin corollarium : « petite couronne donnée comme gratification ».



Possible

76 PARTIE 1 : Les fondements de l’apprentissage

d’autres termes, celui-ci n’apporte pas plus d’informations à un algorithme plutôt qu’à un autre,fût-il à nouveau l’algorithme de prédiction au hasard. Les points trois et quatre ne font querenforcer ces résultats en affirmant l’égalité de tous les algorithmes, si l’on prend en compte desdistributions non uniformes de fonctions cible, mais que l’on moyenne sur toutes ces distribu-tions. Bien sûr, pour une distribution donnée, un algorithme va être meilleur que les autres, àsavoir celui qui a la même distribution que P(f |S). Mais comment le deviner a priori ?

Avant de discuter des leçons à tirer du no-free-lunch theorem, il est utile d’en illustrer la forceà nouveau sur un exemple. Nous avons là en effet une sorte de loi de conservation (comme ledit Cullen Schaffer [SA94]). De même que pour chaque classe de problèmes pour laquelle unalgorithme d’apprentissage est meilleur qu’un algorithme de prédiction au hasard, il existe uneclasse de problèmes pour laquelle cet algorithme est moins bon (voir figure 2.13). De même, pourchaque algorithme d’apprentissage, il existe des problèmes pour lesquels la courbe de performanceen généralisation est ascendante et des problèmes pour lesquels cette courbe est descendante,c’est-à-dire pour lesquels plus l’algorithme apprend et plus il est mauvais en généralisation !

Systèmes

d'apprentissage

possibles

Systèmes

d'apprentissage

impossibles

0

0

0

00

0

0

0

0

00

0

00

0

0

0

00

Fig. 2.13: Le no-free-lunch-theorem prouve que pour chaque région de l’espace des problèmespour laquelle un algorithme d’apprentissage a une performance supérieure au hasard(indiqué ici par un smiley « heureux »), il existe une région pour laquelle la per-formance est moins bonne que le hasard (indiqué ici par un smiley « triste »). Un« 0 » indique ici la performance d’un algorithme au hasard, donc la performancemoyenne. Les trois figures du dessus correspondent à des situations possibles pour unalgorithme d’apprentissage, tandis que les trois figures du dessous correspondent à dessituations impossibles : celles d’un algorithme qui serait intrinsèquement supérieur àun algorithme au hasard quand on le considère sur l’ensemble des problèmes possibles(d’après [SA94]).

Exemple Algorithme d’apprentissage de plus en plus mauvais

Considérons l’algorithme de classification binaire majoritaire qui attribue à un nouveau pointl’étiquette de la classe la plus représentée dans les exemples d’apprentissage de S. Intuiti-vement, cet algorithme s’attend à ce que la classe la mieux représentée sur l’échantillond’apprentissage soit de fait majoritaire. Cet algorithme simple peut-il n’être qu’équivalentà un algorithme tirant ses prédictions au hasard ? Sans en donner une preuve formelle, ilest possible de s’en convaincre intuitivement. En effet, dans les problèmes pour lesquels uneclasse est nettement majoritaire, on peut s’attendre à ce que dans la plupart des cas l’algo-



Impossible




Systèmes

d'apprentissage

possibles

Systèmes

d'apprentissage

impossibles

0

0

0

00

0

0

0

0

00

0

00

0

0

0

00







Systèmes

d'apprentissage

possibles

Systèmes

d'apprentissage

impossibles

0

0

0

00

0

0

0

0

00

0

00

0

0

0

00




Possible


DéducMon!

1.  TouslesalgorithmesinducMfssevalent

2.  Ilnepeutyavoiraucunegaran4esurlesinduc4onsréalisées

Allons à la plage !!


Unpointdevueindépassable?

Quefaisait-onavant?

Lecasdel’EBL


Unpeud’histoire

IAetrésolu4onautoma4quedeproblèmes

n  Arch[Winston,1972]

–  StratégiederechercheguidéedansunespacededescripMonsstructurées

n  [Simon&Lea(1979)«Problem-solvingandruleinduc/on:aunifiedview»]

–  Sefocalisentsurlesmécanismesderaisonnement(generate_and_test,heurisMcsearch,hypothesis_and_match)

–  Aulieudechercheràrésoudreunproblème,onchercheà«couvrir»desexemples,

maismêmestypesdeprocédures

–  GPS->GRI(GeneralizedRuleInducMon)

n  [TomMichell(1980,1982)«Generaliza/onasSearch»,«Theneedforbiasesinlearninggeneraliza/ons»]

–  Commentorganiserlarecherched’une(bonne)hypothèse

–  Sipasdebiais,l’apprenMssagenepeutpasfairemieuxquel’apprenMssageparcœur

n  [DavidHaussler(1988)«Quan/fyinginduc/vebias:AIlearningalgorithmsandValiant’slearning»]

–  QuanMficaMondubiais(parladimensiondeVapnik-Cervonenkis)declassesd’expressionslogiques


L’apprenMssage…

…comme

l’amélioraMondel’efficacitéd’unrésolveurdeproblème


Apprendreàpar4rd’unexemple

1.  Unexempleunique

2.   Recherchedelapreuvedela

«fourcheBe»

3.   Généralisa4on

ExplanaMon-BasedLearning



Ex:apprendreleconceptempilable(Objet1, Objet2)

n  Théorie:

(T1) : poids(X, W) :- volume(X, V), densité(X, D), W is V*D.

(T2) : poids(X, 50) :- est-un(X, table).

(T3) : plus-léger(X, Y) :- poids(X, W1), poids(X, W2), W1 < W2.

n  Contrainted’opéra4onalité:

•  Conceptàexprimeràl’aidedesprédicatsvolume,densité,couleur,…

n  Exempleposi4f(soluMon):

sur(obj1, obj2). volume(objet1, 1).

est_un(objet1, boîte). volume(objet2, 0.1).

est_un(objet2, table). propriétaire(objet1, frederic).

couleur(objet1, rouge). densité(objet1, 0.3).

couleur(objet2, bleu). matériau(objet1, carton).

matériau(objet2, bois). propriétaire(objet2, marc).



Arbredepreuvegénéraliséobtenuparrégressionduconceptcibledansl’arbredepreuve

encalculantàchaqueétapelesliBérauxlesplusgénérauxpermeBantceBeétape.



n  InducMonàpar4rd’unseulexemple

–  …etd’unethéoriefortedudomaine

n  Langagedelalogique

n  Opérateursderaisonnement(déducMon,…)

n  Maintenantu/liséesdansles«solveurs»deproblèmesSAT.



n  Quecherche-t-onàprouver?

n  Qu’est-cequiestunebonne(moinsbonne)théorie/méthode?



n  Quecherche-t-onàprouver?

n  Qu’est-cequiestunebonne(moinsbonne)théorie/méthode?

1.  Méthodeaméliorantlesperformancesderésolu4ondeproblème

–  [SteveMinton(1990)«Quan/ta/veresultsconcerningtheu3lityofExplana/on-BasedLearning»]

2.  Méthode«reproduisant»lesperformances(etlimites)

d’unagentcogni4fnaturel(animalouhumain)

–  [Laird,Rosenbloom,Newell(1986)«ChunkinginSOAR:Theanatomyofagenerallearningmechanism»]

–  [Anderson(1993)«Rulesofthemind»;Taatgen(2003)«Learningrulesandproduc/ons»]



1.  Onnes’interrogepasdirectementsurlavaliditédeshypothèses

induites(i.e.espérancedecoût)

2.  «UMlity»~espéranced’u4lité

entermesdesituaMonsderésolu4ondeproblèmes



n  QuesMonstraitéesdanslespublicaMons

–  Queltyped’inducMonenfoncMondelano4ondeconséquencelogique

uMlisée?

–  Commentu4liserlathéoriedudomaine?

–  Quefairesilathéoriedudomaineestincomplèteouerronée?

–  CommentuMliserdescontre-exemples?

–  Quelestlerôleducritèred’opéra4onnalité?

–  QuefairesionobMentplusieursarbresdepreuves?



n  Est-cedel’inducMon?

DéducMonguidéepardescritèresd’opéraMonnalité