apprentissage avancé - agroparistechcourse « inductions » (a. cornuéjols) 5 / 122 organisamon du...

30
Antoine Cornuéjols AgroParisTech – INRA MIA 518 [email protected] Cours apprentissage avancé 2 / 122 Course « InductionS » (A. Cornuéjols) Le cours n Documents Le livre "L'apprentissage artificiel. Deep Learning, concepts et algorithmes" A. Cornuéjols & L. Miclet & V. Barra Eyrolles. 3 ème éd. 2018 Les transparents + Informations sur : hBp://www2.agroparistech.fr/ufr-info/membres/cornuejols/Teaching/Master-AIC/M2-AIC-advanced-ML.html 3 / 122 Course « InductionS » (A. Cornuéjols) 4 / 122 Course « InductionS » (A. Cornuéjols) Plan du cours Construire un critère inductif Apprentissage semi-supervisé Apprentissage de modèles parcimonieux L’induction Comment ça marche ? Quelles garanties ? Le no-fre-lunch theorem Apprentissage en-ligne Approche théorique : nouveau critère inductif Approche pratique : autre type de critère inductif Classification précoce de séries temporelles Apprentissage par transfert Scénarios Quels échanges d’information ? Comment trouver des garanties ? Méthodes d’ensemble Comment construire l’algorithme Quels échanges d’information ? Et dans le cas non supervisé ?

Upload: others

Post on 06-Aug-2021

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: apprentissage avancé - AgroParisTechCourse « InductionS » (A. Cornuéjols) 5 / 122 OrganisaMon du cours 6 Cours 1 séance d’exposés d’arMcles n 5 quizz (5 x 5 = 25%) n Projets

AntoineCornuéjols

AgroParisTech–INRAMIA518

[email protected]

Cours

apprentissage avancé

2 / 122 Course « InductionS » (A. Cornuéjols)

Lecours

n  Documents

–  Le livre "L'apprentissage artificiel. Deep Learning, concepts et algorithmes" A. Cornuéjols & L. Miclet & V. Barra

Eyrolles. 3ème éd. 2018

–  Les transparents + Informations sur :

hBp://www2.agroparistech.fr/ufr-info/membres/cornuejols/Teaching/Master-AIC/M2-AIC-advanced-ML.html

3 / 122 Course « InductionS » (A. Cornuéjols) 4 / 122 Course « InductionS » (A. Cornuéjols)

Planducours

Construire un critère inductif • Apprentissage semi-supervisé • Apprentissage de modèles parcimonieux

L’induction • Comment ça marche ? • Quelles garanties ? • Le no-fre-lunch theorem

Apprentissage en-ligne • Approche théorique : nouveau critère inductif • Approche pratique : autre type de critère inductif • Classification précoce de séries temporelles

Apprentissage par transfert • Scénarios • Quels échanges d’information ? • Comment trouver des garanties ?

Méthodes d’ensemble • Comment construire l’algorithme • Quels échanges d’information ? • Et dans le cas non supervisé ?

Page 2: apprentissage avancé - AgroParisTechCourse « InductionS » (A. Cornuéjols) 5 / 122 OrganisaMon du cours 6 Cours 1 séance d’exposés d’arMcles n 5 quizz (5 x 5 = 25%) n Projets

5 / 122 Course « InductionS » (A. Cornuéjols)

OrganisaMonducours

6Cours

1séanced’exposésd’arMcles

n  5quizz (5x5=25%)

n  Projets :75%

–  06/12/2018:descrip4onduprojetretenu(2pages)

–  31/01/2019:rapportdemi-parcours(5à8pages)

–  28/02/2019:rapportfinal(10pagesstrict.FormatpapierICML)

n  DontrapportcriMquesurarMcles :25%

A.Cornuéjols

AgroParisTech–INRAMIA518

ReflecMonson

INDUCTION-S

hBp://www.agroparistech.fr/ufr-info/membres/cornuejols/Teaching/Master-AIC/M2-AIC-advanced-ML.html

7 / 122 Course « InductionS » (A. Cornuéjols)

Outline

1.  InducMon

2.  ThestaMsMcalTheoryofLearning

3.  Otherscenarios

4.  Theno-free-lunchtheorem

5.  ExplanaMon-Basedlearning:whatkindofvalidaMon?

6.  QuesMons

8 / 122 Course « InductionS » (A. Cornuéjols)

Page 3: apprentissage avancé - AgroParisTechCourse « InductionS » (A. Cornuéjols) 5 / 122 OrganisaMon du cours 6 Cours 1 séance d’exposés d’arMcles n 5 quizz (5 x 5 = 25%) n Projets

9 / 122 Course « InductionS » (A. Cornuéjols)

SupervisedinducMon

10 / 122 Course « InductionS » (A. Cornuéjols)

Learningbyheart

11 / 122 Course « InductionS » (A. Cornuéjols) 12 / 122 Course « InductionS » (A. Cornuéjols)

Whentherearefewdatapoints

n  Learningatable

Exemple x1 x2 x3 x4 Etiquette

1 0 0 1 0 0

2 0 1 0 0 0

3 0 0 1 1 1

4 1 0 0 1 1

5 0 1 1 0 0

6 1 1 0 0 0

7 0 1 0 1 0

Page 4: apprentissage avancé - AgroParisTechCourse « InductionS » (A. Cornuéjols) 5 / 122 OrganisaMon du cours 6 Cours 1 séance d’exposés d’arMcles n 5 quizz (5 x 5 = 25%) n Projets

13 / 122 Course « InductionS » (A. Cornuéjols)

Whenthereisahugenumberofdatapoints

n  LearningafuncMonf:x->y

Buthow?

WhichfuncMon?

14 / 122 Course « InductionS » (A. Cornuéjols)

Supervisedlearning:

Simpleornotsosimple?

15 / 122 Course « InductionS » (A. Cornuéjols)

n  Examplesdescribedusing:

Number(1or2);size(smallorlarge);shape(circleorsquare);color(redorgreen)

n  Theybelongeithertoclass‘+’ortoclass‘-’

Oneexamplethattellsalot…

16 / 122 Course « InductionS » (A. Cornuéjols)

Description Your answer True answer

1largeredsquare -

1largegreensquare

2smallredsquares

2largeredcircles

1largegreencircle

1smallredcircle

1smallgreensquare

1smallredsquare

2largegreensquares

+

+

+

-

+

+

+

-

Yet another exercise n  Examplesdescribedusing:

Number(1or2);size(smallorlarge);shape(circleorsquare);color(redorgreen)

n  Theybelongeithertoclass‘+’ortoclass‘-’

Page 5: apprentissage avancé - AgroParisTechCourse « InductionS » (A. Cornuéjols) 5 / 122 OrganisaMon du cours 6 Cours 1 séance d’exposés d’arMcles n 5 quizz (5 x 5 = 25%) n Projets

17 / 122 Course « InductionS » (A. Cornuéjols)

Description Your prediction True class

1 large red square -

n  Examplesdescribedusing:

Number(1or2);size(smallorlarge);shape(circleorsquare);color(redorgreen)

1largegreensquare

2smallredsquares

2largeredcircles

1largegreencircle

1smallredcircle

+

+

+

-

+

Oneexamplethattellsalot…

HowmanypossiblefuncMonsaltogetherfromXtoY?

HowmanyfuncMonsdoremainaner8trainingexamples?

22=216=65,5364

26=1024

18 / 122 Course « InductionS » (A. Cornuéjols)

n  Examplesdescribedusing:

Number(1or2);size(smallorlarge);shape(circleorsquare);color(redorgreen)

Oneexamplethattellsalot…

Description Yourprediction Trueclass1largeredsquare -1largegreensquare +2smallredsquares +2largeredcircles -1largegreencircle +1smallredcircle +1smallgreensquare -1smallredsquare +2largegreensquares +2smallgreensquares +2smallredcircles +1smallgreencircle -2largegreencircles -2smallgreencircles +1largeredcircle -2largeredsquares ?

Howmany

remaining

func4ons?

15

?

19 / 122 Course « InductionS » (A. Cornuéjols)

Description Your prediction True class

1 large red square -

n  Examplesdescribedusing:

Number(1or2);size(smallorlarge);shape(circleorsquare);color(redorgreen)

1largegreensquare

2smallredsquares

2largeredcircles

1largegreencircle

1smallredcircle

+

+

+

-

+

Oneexamplethattellsalot…

HowmanypossiblefuncMonswith2descriptorsfromXtoY?

HowmanyfuncMonsdoremainaner3≠trainingexamples?

22=24=162

21=2

20 / 122 Course « InductionS » (A. Cornuéjols)

InducMon:animpossiblegame?

n  Abiasisneed

n  Typesofbias

–  Representa4onbias (declaraMve)

–  Researchbias (procedural)

Page 6: apprentissage avancé - AgroParisTechCourse « InductionS » (A. Cornuéjols) 5 / 122 OrganisaMon du cours 6 Cours 1 séance d’exposés d’arMcles n 5 quizz (5 x 5 = 25%) n Projets

21 / 122 Course « InductionS » (A. Cornuéjols)

InterprétaMon–compléMondepercepts

22 / 122 Course « InductionS » (A. Cornuéjols)

InterprétaMon–compléMondepercepts

!"#$%&'()%*+,-./01%-2%3#4/1-5-64/701%85697,5%-:%#0;9.2%$97-<2/=-23%>?@%#91/11-A%

&)B'CB&'()%

ED%

6R(&,(-%"U8"-,"%&(7&'!"&"%%"-'.+#.%'&+%%81$'.(-&.-&;i&

!/2*29924#&'(&9#* '##&#"32*/'9*/'3* #1$*0'>$%* -$492Z"24-29*1/&-/*8%2'#(@*-$4#%&J"#23*#$*9/'?2*#/2*?'##2%4*%2-$84&#&$4*V2(3*&4*#/2*?'9#*A21*32-'329B**

!! &#* /'9* (23* #/2* -$00"4&#@* #$* A$-"9* 0'&4(@* $4* 7"+'8)"_*",'()&)"$)"%"-'+'.(-%+* 1/2%2+* 2'-/* $J>2-#* &9* 329-%&J23* &4* #2%09* $A* '*C2-#$%*$A*4"02%&-'(*'##%&J"#29*'43*&9*#/2%2A$%2*0'??23*#$*'*?$&4#*&4*'*S"-(&32'4*G82$02#%&-I*C2-#$%*9?'-2**

!! &#*/'9*(23*%292'%-/2%9*#$*0'&4#'&4*'*)"98,'.(-.%'&$(%.'.(-+*1/2%2J@*$J>2-#9*'%2*9224* &4* &9$('#&$4*'43*1/&-/*#/2%2A$%2*#2439*#$*$C2%($$.*#/2*%$(2*$A*-$4#2a#"'(+*$%*%2('#&$4'(+*&4A$%0'#&$4*

Y(-'"='&!"#$%&]&

!"#$%&'()%*+,-./01%-2%3#4/1-5-64/701%85697,5%-:%#0;9.2%$97-<2/=-23%>?@%#91/11-A%

&)B'CB&'()%

ED%

6R(&,(-%"U8"-,"%&(7&'!"&"%%"-'.+#.%'&+%%81$'.(-&.-&;i&

!/2*29924#&'(&9#* '##&#"32*/'9*/'3* #1$*0'>$%* -$492Z"24-29*1/&-/*8%2'#(@*-$4#%&J"#23*#$*9/'?2*#/2*?'##2%4*%2-$84&#&$4*V2(3*&4*#/2*?'9#*A21*32-'329B**

!! &#* /'9* (23* #/2* -$00"4&#@* #$* A$-"9* 0'&4(@* $4* 7"+'8)"_*",'()&)"$)"%"-'+'.(-%+* 1/2%2+* 2'-/* $J>2-#* &9* 329-%&J23* &4* #2%09* $A* '*C2-#$%*$A*4"02%&-'(*'##%&J"#29*'43*&9*#/2%2A$%2*0'??23*#$*'*?$&4#*&4*'*S"-(&32'4*G82$02#%&-I*C2-#$%*9?'-2**

!! &#*/'9*(23*%292'%-/2%9*#$*0'&4#'&4*'*)"98,'.(-.%'&$(%.'.(-+*1/2%2J@*$J>2-#9*'%2*9224* &4* &9$('#&$4*'43*1/&-/*#/2%2A$%2*#2439*#$*$C2%($$.*#/2*%$(2*$A*-$4#2a#"'(+*$%*%2('#&$4'(+*&4A$%0'#&$4*

Y(-'"='&!"#$%&]&

!"#$%&'()%*+,-./01%-2%3#4/1-5-64/701%85697,5%-:%#0;9.2%$97-<2/=-23%>?@%#91/11-A%

&)B'CB&'()%

ED%

6R(&,(-%"U8"-,"%&(7&'!"&"%%"-'.+#.%'&+%%81$'.(-&.-&;i&

!/2*29924#&'(&9#* '##&#"32*/'9*/'3* #1$*0'>$%* -$492Z"24-29*1/&-/*8%2'#(@*-$4#%&J"#23*#$*9/'?2*#/2*?'##2%4*%2-$84&#&$4*V2(3*&4*#/2*?'9#*A21*32-'329B**

!! &#* /'9* (23* #/2* -$00"4&#@* #$* A$-"9* 0'&4(@* $4* 7"+'8)"_*",'()&)"$)"%"-'+'.(-%+* 1/2%2+* 2'-/* $J>2-#* &9* 329-%&J23* &4* #2%09* $A* '*C2-#$%*$A*4"02%&-'(*'##%&J"#29*'43*&9*#/2%2A$%2*0'??23*#$*'*?$&4#*&4*'*S"-(&32'4*G82$02#%&-I*C2-#$%*9?'-2**

!! &#*/'9*(23*%292'%-/2%9*#$*0'&4#'&4*'*)"98,'.(-.%'&$(%.'.(-+*1/2%2J@*$J>2-#9*'%2*9224* &4* &9$('#&$4*'43*1/&-/*#/2%2A$%2*#2439*#$*$C2%($$.*#/2*%$(2*$A*-$4#2a#"'(+*$%*%2('#&$4'(+*&4A$%0'#&$4*

Y(-'"='&!"#$%&]&

23 / 122 Course « InductionS » (A. Cornuéjols)

InterprétaMon–compléMondepercepts

24 / 122 Course « InductionS » (A. Cornuéjols)

Illusionsd’opMque

Page 7: apprentissage avancé - AgroParisTechCourse « InductionS » (A. Cornuéjols) 5 / 122 OrganisaMon du cours 6 Cours 1 séance d’exposés d’arMcles n 5 quizz (5 x 5 = 25%) n Projets

25 / 122 Course « InductionS » (A. Cornuéjols)

InducMonanditsillusions

IllustraMon

26 / 122 Course « InductionS » (A. Cornuéjols)

Clustering

27 / 122 Course « InductionS » (A. Cornuéjols)

Clustering

28 / 122 Course « InductionS » (A. Cornuéjols)

IwillbequesMonedon

onenewpoint

(Transduc/velearning)

Page 8: apprentissage avancé - AgroParisTechCourse « InductionS » (A. Cornuéjols) 5 / 122 OrganisaMon du cours 6 Cours 1 séance d’exposés d’arMcles n 5 quizz (5 x 5 = 25%) n Projets

29 / 122 Course « InductionS » (A. Cornuéjols)

TransducMvelearning

n  IknowinadvancewhereIwillbequeried

x

y

!

30 / 122 Course « InductionS » (A. Cornuéjols)

Vous connaissez la question à l’avance.

n  Quelle est l’étiquette pour la question ?

Transduction (1)

Description Étiquette

1 grand carré rouge ≠1 grand carré vert +

2 petits carrés rouges +

2 grands cercles rouges ≠1 grand cercle vert +

1 petit cercle rouge +

1 petit carré vert ≠1 petit carré rouge +

Nb Taille Forme Couleur Étiquette

1 grand carré rouge ≠1 grand carré vert +

2 petit carré rouge +

2 grand cercle rouge ≠1 grand cercle vert +

1 petit cercle rouge +

1 petit carré vert ≠1 petit carré rouge +

Négatif : (petit & vert) ‚ (grand & rouge)

Positif : (grand & vert) ‚ (petit & rouge)

Positif (plus spécifique) : (grand & carré) & vert) ‚ (1 & petit & rouge) ‚(2 & petit & carré & rouge)

Nb Taille Forme Couleur Étiquette

1 grand carré rouge ≠1 grand carré vert +

2 petit carré rouge +

2 grand cercle rouge ≠1 grand cercle vert +

1 petit cercle rouge +

1 petit carré vert ≠1 petit carré rouge +

2 petit cercle rouge ?

Nb Taille Forme Couleur Étiquette

1 grand carré rouge ≠1 grand carré vert +

2 petit carré rouge +

2 grand cercle rouge ≠1 grand cercle vert +

1 petit cercle rouge +

1 petit carré vert ≠1 petit carré rouge +

2 petit cercle vert ?

2

31 / 122 Course « InductionS » (A. Cornuéjols)

Vous connaissez la question à l’avance.

n  Quelle est l’étiquette pour la question ?

Transduction (2)

Description Étiquette

1 grand carré rouge ≠1 grand carré vert +

2 petits carrés rouges +

2 grands cercles rouges ≠1 grand cercle vert +

1 petit cercle rouge +

1 petit carré vert ≠1 petit carré rouge +

Nb Taille Forme Couleur Étiquette

1 grand carré rouge ≠1 grand carré vert +

2 petit carré rouge +

2 grand cercle rouge ≠1 grand cercle vert +

1 petit cercle rouge +

1 petit carré vert ≠1 petit carré rouge +

Négatif : (petit & vert) ‚ (grand & rouge)

Positif : (grand & vert) ‚ (petit & rouge)

Positif (plus spécifique) : (grand & carré) & vert) ‚ (1 & petit & rouge) ‚(2 & petit & carré & rouge)

Nb Taille Forme Couleur Étiquette

1 grand carré rouge ≠1 grand carré vert +

2 petit carré rouge +

2 grand cercle rouge ≠1 grand cercle vert +

1 petit cercle rouge +

1 petit carré vert ≠1 petit carré rouge +

2 petit cercle rouge ?

Nb Taille Forme Couleur Étiquette

1 grand carré rouge ≠1 grand carré vert +

2 petit carré rouge +

2 grand cercle rouge ≠1 grand cercle vert +

1 petit cercle rouge +

1 petit carré vert ≠1 petit carré rouge +

2 petit cercle vert ?

2

32 / 122 Course « InductionS » (A. Cornuéjols)

Vous connaissez la question à l’avance.

Transduction (3)

Nb Taille Forme Couleur Étiquette

1 grand carré rouge ≠1 grand carré vert +

2 petit carré rouge +

2 grand cercle rouge ≠1 grand cercle vert +

1 petit cercle rouge +

1 petit carré vert ≠1 petit carré rouge +

1 - cercle - ?

Supposons que nous considérions une tâche de discrimination entre deux

classes, et qu’après apprentissage, on observe sur un ensemble de test constitués

de 105 exemples positifs et 60 exemples négatifs, les performances suivantes :

Remarque : on a besoin des packages : array et slashbox

SVM :

XXXXXXXXXXEstimé

Réel

+ ≠

+ 94 37

≠ 11 23

Bayésien naïf :

XXXXXXXXXXEstimé

Réel

+ ≠

+ 72 29

≠ 33 31

Apparemment, le système SVM (voir chapitre ??) est plus performant sur

cette tâche, puisque son taux d’erreur est de :

11+37165 = 0.29 au lieu de

29+33165 =

0.375 pour le classifieur bayésien naïf (voir chapitre ??). Pourtant, ce critère

d’erreur n’est peut-être pas celui qui nous intéresse en priorité.

Date 5/31 6/1 6/2 6/3 6/4

Room

Meeting Room

Auditorium

Seminar Room

Table 1 – Room availability vs dates.

2.2 Et maintenant quelques figures

3 Résultats

4 Conclusion

3

Page 9: apprentissage avancé - AgroParisTechCourse « InductionS » (A. Cornuéjols) 5 / 122 OrganisaMon du cours 6 Cours 1 séance d’exposés d’arMcles n 5 quizz (5 x 5 = 25%) n Projets

33 / 122 Course « InductionS » (A. Cornuéjols)

Vous connaissez la question à l’avance.

Transduction (3)

Nb Taille Forme Couleur Étiquette

1 grand carré rouge ≠1 grand carré vert +

2 petit carré rouge +

2 grand cercle rouge ≠1 grand cercle vert +

1 petit cercle rouge +

1 petit carré vert ≠1 petit carré rouge +

1 - cercle - ?

Supposons que nous considérions une tâche de discrimination entre deux

classes, et qu’après apprentissage, on observe sur un ensemble de test constitués

de 105 exemples positifs et 60 exemples négatifs, les performances suivantes :

Remarque : on a besoin des packages : array et slashbox

SVM :

XXXXXXXXXXEstimé

Réel

+ ≠

+ 94 37

≠ 11 23

Bayésien naïf :

XXXXXXXXXXEstimé

Réel

+ ≠

+ 72 29

≠ 33 31

Apparemment, le système SVM (voir chapitre ??) est plus performant sur

cette tâche, puisque son taux d’erreur est de :

11+37165 = 0.29 au lieu de

29+33165 =

0.375 pour le classifieur bayésien naïf (voir chapitre ??). Pourtant, ce critère

d’erreur n’est peut-être pas celui qui nous intéresse en priorité.

Date 5/31 6/1 6/2 6/3 6/4

Room

Meeting Room

Auditorium

Seminar Room

Table 1 – Room availability vs dates.

2.2 Et maintenant quelques figures

3 Résultats

4 Conclusion

3

Iamgoingtobequeriedthere,

sothisistheimportantaspect

34 / 122 Course « InductionS » (A. Cornuéjols)

WhichprincipleshouldguidetransducMon?

n  Shouldwefeelmorecertainabouttheinducedanswerif

1.  thequeryisclosetosomedatapoints?

2.  theanswerdoesnotchangewhenthequerypointischanged

aliBlebit?

3.  theanswerdoesnotchangewhenthedatapointsarechangeda

liBlebit?

4.  …

35 / 122 Course « InductionS » (A. Cornuéjols)

WhichprincipleshouldguidetransducMon?

1-Proximitytodatapoints

h(xm+1) =mX

i=1

↵i (xi,xm+1) yi

h(xm+1) = sign

⇢ mX

i=1

↵i (xi,xm+1) yi

HowtochooseK ?

36 / 122 Course « InductionS » (A. Cornuéjols)

WhichprincipleshouldguidetransducMon?

2-theanswerdoesnotchangewhenthequerypointischanged

aliBlebit?

–  CapacityofH

–  RegularizaMononthehypotheses

!

!! !!

!

!!

!

!

!!

!

! !!

!

!

!

!!! !

""

"""

""

""

"

"""

"

"

"

"

""

"

"

"

""

"

"

"""

"

"

" "

"

"

"

!

!! !!

!

!!

!

!

!!

!

! !!

!

!

!

!!! !

""

"""

""

""

"

"""

"

"

"

"

""

"

"

"

""

"

"

"""

"

"

" "

"

"

"

!

!! !!

!

!!

!

!

!!

!

! !!

!

!

!

!!! !

""

"""

""

""

"

"""

"

"

"

"

""

"

"

"

""

"

"

"""

"

"

" "

"

"

"

!

!! !!

!

!!

!

!

!!

!

! !!

!

!

!

!!! !

""

"""

""

""

"

"""

"

"

"

"

""

"

"

"

""

"

"

"""

"

"

" "

"

"

"

Page 10: apprentissage avancé - AgroParisTechCourse « InductionS » (A. Cornuéjols) 5 / 122 OrganisaMon du cours 6 Cours 1 séance d’exposés d’arMcles n 5 quizz (5 x 5 = 25%) n Projets

37 / 122 Course « InductionS » (A. Cornuéjols)

WhichprincipleshouldguidetransducMon?

3-theanswerdoesnotchangewhenthetrainingdatapointsare

changedaliBlebit?

–  CapacityofH

–  RegularizaMononthehypotheses

!

!! !!

!

!!

!

!

!!

!

! !!

!

!

!

!!! !

""

"""

""

""

"

"""

"

"

"

"

""

"

"

"

""

"

"

"""

"

"

" "

"

"

"

!

!! !!

!

!!

!

!

!!

!

! !!

!

!

!

!!! !

""

"""

""

""

"

"""

"

"

"

"

""

"

"

"

""

"

"

"""

"

"

" "

"

"

"

!

!! !!

!

!!

!

!

!!

!

! !!

!

!

!

!!! !

""

"""

""

""

"

"""

"

"

"

"

""

"

"

"

""

"

"

"""

"

"

" "

"

"

"

!

!! !!

!

!!

!

!

!!

!

! !!

!

!

!

!!! !

""

"""

""

""

"

"""

"

"

"

"

""

"

"

"

""

"

"

"""

"

"

" "

"

"

"

38 / 122 Course « InductionS » (A. Cornuéjols)

WhichprincipleshouldguidetransducMon?

1-2-3-closenessorrobustnesstosmallchangesinthetestortraining

datapointsCHAPITRE 1. UNE VUE D’ENSEMBLE DE LA SCIENCE DES DONNÉES

Figure 1.8 – À gauche, la fonction de démarcation entre les deux groupes est très ir-régulière, mais très fine : elle “colle au données”, mais ne sera pas bien généralisableà d’autres situations, au contraire de celle de droite, beaucoup plus régulière.

changer (cela correspond à une situation de forte variance, mais de faible biais). Enrevanche, une minimisation moins fine et plus régulière se généralisera mieux (biaisplus important, mais variance faible), tel qu’illustré sur la Fig. 1.8.

Maintenant, faisons le lien avec la malédiction de la dimensionnalité, brièvementdécrite plus haut : dès que la dimensionnalité augmente un peu, il devient beaucoupplus di�cile d’avoir un échantillonnage su�sant de X , de sorte que le compromisbiais-variance prend toute son importance. Ainsi, dans les premières analyses géno-miques du milieu des années 90, l’objectif était d’apprendre une fonction permettantde discriminer les patients atteints d’une maladie génétique des personnes saines, surla base de la liste de leurs gènes. Face aux milliers de gènes humains, qui dans notreproblèmes d’apprentissage, correspondent à autant de variables, le nombre de pa-tients atteints d’une maladie et dont on dispose du génome peut être incroyablementfaible (une dizaine), notamment pour des maladies rares. Dans un tel contexte, il estimpossible d’espérer des performances correctes. La solution consiste donc à réduirela dimensionnalité de F , en forçant une certaine régularité dans la fonction apprise,tel qu’illustré sur la Fig. 1.8. Concrètement, la complexité de chaque fonction can-didate doit être prise en compte, et incluse dans l’optimisation, afin de choisir, àrisque empirique égal, le modèle le plus simple, et donc le plus généralisable :

f = mingœF

Re(g) + fl(g) (1.28)

où fl pénalise les fonctions de F en fonction de leur complexité. Dans un tel contexte,le minimiseur f sera naturellement de complexité moindre, et se généralisera mieux.Historiquement, dans les premières études génomiques susnommées, fl pénalisait lesfonctions en proportion du nombre de variables qu’elles faisaient intervenir [Tib96],et la pénalité correspondante, dénommée LASSO (Least Absolute Shrinkage andSelection Operator) est encore de nos jours parmi les pénalités les plus populaires.

Finalement, la réduction de dimensionnalité peut soit être explicite, soit passerpar la recherche d’un modèle parcimonieux, avec peu de degrés de liberté. Cettedernière option nous permet un ultime lien vers l’analyse harmonique (Sec. 4) : afinde remplacer une famille génératrice quelconque par un dictionnaire spécifique, onapprend ce dernier en optimisant son pouvoir expressif pénalisé par sa complexité.

33

x?

39 / 122 Course « InductionS » (A. Cornuéjols)

WhichprincipletoguidetransducMon?

Howtoformallytranslate:

–  Ifthisistheques4on,Iknowthisis

•  Important

•  Irrelevant

40 / 122 Course « InductionS » (A. Cornuéjols)

OtherscenariosforlaterexaminaMon

–  Semi-supervisedlearning

–  On-linetransducMon<->tracking

–  On-linelearning

–  Transferlearningandlearningbyanalogy

Page 11: apprentissage avancé - AgroParisTechCourse « InductionS » (A. Cornuéjols) 5 / 122 OrganisaMon du cours 6 Cours 1 séance d’exposés d’arMcles n 5 quizz (5 x 5 = 25%) n Projets

41 / 122 Course « InductionS » (A. Cornuéjols)

InducMoneverywhere

42 / 122 Course « InductionS » (A. Cornuéjols)

Lerôledel’inducMon

n  [LeslieValiant,«ProbablyApproximatelyCorrect.Nature’sAlgorithmsforLearningandProsperinginaComplexWorld»,BasicBooks,2013]

«Fromthis,wehavetoconcludethatgeneraliza4onorinduc4onis

apervasivephenomenon(…).ItisasrouMneandreproduciblea

phenomenonasobjectsfallingundergravity.

Itisreasonabletoexpectaquan4ta4vescien4ficexplana4on

ofthishighlyreproduciblephenomenon.»

43 / 122 Course « InductionS » (A. Cornuéjols)

Lerôledel’inducMon

n  [EdwinT.Jaynes,«Probabilitytheory.Thelogicofscience»,CambridgeU.

Press,2003],p.3

«Wearehardlyabletogetthroughonewakinghourwithoutfacingsome

situaMon(e.g.willitrainorwon’tit?)wherewedonothaveenough

informa4ontopermitdeduc4vereasoning;butsMllwemustdecide

immediately.

Inspiteofitsfamiliarity,theformaMonofplausibleconclusionsisavery

subtleprocess.»

44 / 122 Course « InductionS » (A. Cornuéjols)

Sequences

n  1123581321…

n  1235...

n  1 1 1 2 1 1 2 1 1 1 1 1 2 2 1 3 1 2 2 1 1 …

–  Comment?

–  Pourquoiserait-ilpossibledefairedel’inducMon?

–  Est-cequ’unexemplesupplémentaire

doitaugmenterlaconfiancedanslarègleinduite?

–  Combienfaut-ild’exemples?

Page 12: apprentissage avancé - AgroParisTechCourse « InductionS » (A. Cornuéjols) 5 / 122 OrganisaMon du cours 6 Cours 1 séance d’exposés d’arMcles n 5 quizz (5 x 5 = 25%) n Projets

45 / 122 Course « InductionS » (A. Cornuéjols)

InducMonsupervisée

n  CommentchoisirlafoncMondedécision?

x

y

46 / 122 Course « InductionS » (A. Cornuéjols)

InterrogaMons

Àchaquefois:

CasparMculiers=>loigénéraleouadaptaMonànouveaucas

1.   Qu’est-cequiautorisecepassage?

2.   Est-cequel’onpeutgaran4rquelquechose?

47 / 122 Course « InductionS » (A. Cornuéjols)

WhatkindoftheoreMcalguarantees

oninducMoncanweget?

48 / 122 Course « InductionS » (A. Cornuéjols)

Analysisoftheperceptron

Page 13: apprentissage avancé - AgroParisTechCourse « InductionS » (A. Cornuéjols) 5 / 122 OrganisaMon du cours 6 Cours 1 séance d’exposés d’arMcles n 5 quizz (5 x 5 = 25%) n Projets

49 / 122 Course « InductionS » (A. Cornuéjols)

Leperceptron

{ biais

x

y

w1w2

w3 w4 w5

w0

wd

1

x1 x2 x3 x4 x5 xd

x0

neurone de biais

1

yi

x(1)

x(2)

x(3)

x(d)

w1i

w2i

w3i

wdi

σ(i) =d∑

j=0

wjix(j)w0i

–  Rosenblatt (1958-1962)

50 / 122 Course « InductionS » (A. Cornuéjols)

Leperceptron:undiscriminantlinéaire

w

51 / 122 Course « InductionS » (A. Cornuéjols)

Leperceptron

n  Appren4ssagedespoids

–  Principe(règledeHebb):encasdesuccès,ajouteràchaqueconnexionquelquechosedeproporMonnelàl’entréeetàlasorMe

Règleduperceptron:apprendreseulementencasd’échec

+

52 / 122 Course « InductionS » (A. Cornuéjols)

Despropriétésremarquables!!

n  Convergenceenunnombrefinid’étapes

–  Indépendammentdunombred’exemples

–  Indépendammentdeladistribu4ondesexemples

–  (quasi)indépendammentdeladimensiondel’espaced’entrée

Siilexisteaumoinsuneséparatricelinéairedesexemples

!!!

Page 14: apprentissage avancé - AgroParisTechCourse « InductionS » (A. Cornuéjols) 5 / 122 OrganisaMon du cours 6 Cours 1 séance d’exposés d’arMcles n 5 quizz (5 x 5 = 25%) n Projets

53 / 122 Course « InductionS » (A. Cornuéjols)

GaranMedegénéralisaMon??

n  Théorèmessurlaperformance

parrapportàl’échanMllond’apprenMssage

n  Maisqu’enest-ilpourdesexemplesàvenir?

54 / 122 Course « InductionS » (A. Cornuéjols)

–  RosenblaB(1958-1962)

LePerceptron

55 / 122 Course « InductionS » (A. Cornuéjols)

PAClearning

ProbablyApproximaMvelyCorrect

56 / 122 Course « InductionS » (A. Cornuéjols)

Targetclass:rectanglesinR2

n  Sample

–  PosiMveinstances

–  NegaMveinstances

P+X

P�X

x

y

Page 15: apprentissage avancé - AgroParisTechCourse « InductionS » (A. Cornuéjols) 5 / 122 OrganisaMon du cours 6 Cours 1 séance d’exposés d’arMcles n 5 quizz (5 x 5 = 25%) n Projets

57 / 122 Course « InductionS » (A. Cornuéjols)

Targetclass:unknown

n  Whatdowewanttolearn?

AdecisionfoncMon(predic4on)

x

y

!

58 / 122 Course « InductionS » (A. Cornuéjols)

Targetclass:unknown

n  Howtolearn?

x

y

59 / 122 Course « InductionS » (A. Cornuéjols)

Targetclass:rectanglesinR2

n  Howtolearn?

–  IfIknowthatthetargetconceptisarectangle

x

y

60 / 122 Course « InductionS » (A. Cornuéjols)

Targetclass:rectanglesinR2

n  Howtolearn?

–  IfIknowthatthetargetconceptisarectangle

x

y

Most general hypotheses

Page 16: apprentissage avancé - AgroParisTechCourse « InductionS » (A. Cornuéjols) 5 / 122 OrganisaMon du cours 6 Cours 1 séance d’exposés d’arMcles n 5 quizz (5 x 5 = 25%) n Projets

61 / 122 Course « InductionS » (A. Cornuéjols)

Targetclass:rectanglesinR2

n  Howtolearn?

–  IfIknowthatthetargetconceptisarectangle

x

y

Most specific hypotheses

62 / 122 Course « InductionS » (A. Cornuéjols)

Targetclass:rectanglesinR2

n  Howtolearn?

–  Choiceofonehypothesish

Version

space

63 / 122 Course « InductionS » (A. Cornuéjols)

Targetclass:rectanglesinR2

n  Learning:choicedeh

–  Whichperformancetoexpect?

x

y

h

64 / 122 Course « InductionS » (A. Cornuéjols)

ThestaMsMcaltheoryoflearning

Whichperformance?

n  CostforapredicMonerror

–  Thelossfunc3on

n  WhichexpectedcostifIchooseh?

–  The«realrisk»(ortruerisk)

R(h) =�

X�Y��h(x), y

�pXY(x, y) dx dy

��h(x), y

Page 17: apprentissage avancé - AgroParisTechCourse « InductionS » (A. Cornuéjols) 5 / 122 OrganisaMon du cours 6 Cours 1 séance d’exposés d’arMcles n 5 quizz (5 x 5 = 25%) n Projets

65 / 122 Course « InductionS » (A. Cornuéjols)

ThestaMsMcaltheoryoflearning

n  Whichexpectedcostwhenhischosen?

–  AssumingthatthereisnotrainingerroronS

x

y

h

The«empiricalrisk»

R(h) =1m

m�

i=1

��h(xi), yi

66 / 122 Course « InductionS » (A. Cornuéjols)

StaMsMcaltheoryoflearning:theERM

n  Learningstrategy:

–  Selectanhypothesiswithnullempiricalrisk(notrainingerror)

–  WhichgeneralizaMonperformancetoexpectforh?

x

y

h

x

y

f

h

67 / 122 Course « InductionS » (A. Cornuéjols)

StaMsMcaltheoryoflearning:theERM

–  Selectanhypothesiswithnullempiricalrisk(notrainingerror)

–  WhichgeneralizaMonperformancetoexpectforh?

–  WhatistheriskofgeTngerrorR(h)>ε?

x

y

f

h

h � f

x

y

f

h

68 / 122 Course « InductionS » (A. Cornuéjols)

Page 18: apprentissage avancé - AgroParisTechCourse « InductionS » (A. Cornuéjols) 5 / 122 OrganisaMon du cours 6 Cours 1 séance d’exposés d’arMcles n 5 quizz (5 x 5 = 25%) n Projets

69 / 122 Course « InductionS » (A. Cornuéjols)

QuesMoncentrale:leprincipeinducMf

n  LeprincipedeminimisaMondurisqueempirique(ERM)

…est-ilsain?

–  Sijechoisishtelleque

–  Est-cequehestbonnerelaMvementaurisqueréel?

–  Est-cequej’auraispufairebeaucoupmieux?

R(h)? ! R(h)

70 / 122 Course « InductionS » (A. Cornuéjols)

Théoriesta4s4quedel’apprenMssage

Le1ertemps

Unindividu

71 / 122 Course « InductionS » (A. Cornuéjols)

Étudesta4s4quepourUNEhypothèse

–  choixd’unehypothèsederisqueempiriquenul(pasd’erreursur

l’échanMllond’apprenMssageS)

–  QuelleperformanceaBenduepourh?

–  Quelestlerisqued’avoiruneerreurR(h)>ε?

x

y

f

h

h � f

x

y

f

h

72 / 122 Course « InductionS » (A. Cornuéjols)

Étudesta4s4quepourUNEhypothèse

n  Supposonshtq.(h«mauvaise»)

n  QuelleestlaprobabilitéquepourtanthaitétésélecMonnée?

x

y

f

h

h � f

R(h) � �

R(h) = pX (h � f)

Aprèsunexemple: p�R(h

�= 0) � 1� �

Aprèsmexemple(i.i.d.):

pm�R(h

�= 0) � (1� �)m

Onveut: � ⇥, � � [0, 1] : pm�R(h

�� ⇥) � �

«tombe»endehorsdeh � f

Page 19: apprentissage avancé - AgroParisTechCourse « InductionS » (A. Cornuéjols) 5 / 122 OrganisaMon du cours 6 Cours 1 séance d’exposés d’arMcles n 5 quizz (5 x 5 = 25%) n Projets

73 / 122 Course « InductionS » (A. Cornuéjols)

Étudesta4s4quepourUNEhypothèse

n  Oncherche:

x

y

f

h

h � f

Soit:

D’où:

� ⇥, � � [0, 1] : pm�R(h

�� ⇥) � �

(1 � �)m � �

e�� m � �

�⇥ m � ln(�)

m � ln(1/�)⇥

<

74 / 122 Course « InductionS » (A. Cornuéjols)

Théoriesta4s4quedel’apprenMssage

Le2èmetemps

QuelindividudanslaFoule

75 / 122 Course « InductionS » (A. Cornuéjols)

Étudesta4s4quepour|H|hypothèses

n  Quelleestlaprobabilitéquejechoisisseunehypothèseherrderisqueréel>ε

etquejenem’enaperçoivepasaprèsl’observaMondemexemples?

n  Probabilitédesurviedeherraprès1exemple:

n  Probabilitédesurviedeherraprèsmexemples:

n  Probabilitédesurvied’aumoinsunehypothèsedansH:

–  OnuMliselaprobabilitédel’union

n  Onveutquelaprobabilitéqu’ilresteaumoinsunehypothèsede

risqueréel>εdansl’espacedesversionssoitbornéeparδ:

76 / 122 Course « InductionS » (A. Cornuéjols)

L’analyse«PAClearning»

n  Onarriveà:

=0

Casréalisable:ilexisteaumoinsunefoncMonhderisque0

LeprincipedeminimisaMondurisqueempirique

n’estsainquesiilyadescontraintessurl’espacedeshypothèses

Page 20: apprentissage avancé - AgroParisTechCourse « InductionS » (A. Cornuéjols) 5 / 122 OrganisaMon du cours 6 Cours 1 séance d’exposés d’arMcles n 5 quizz (5 x 5 = 25%) n Projets

77 / 122 Course « InductionS » (A. Cornuéjols)

PAClearning:definiMon

n  Worstcaseanalysis

–  Againstalldistribu4onsP

–  Foranytargethypothesisinaclassofhypotheses

n  NoMonofcomputa/onalcomplexity

Given 0 < �, " < 1, a concept class C is learnable by a polynomial time algorithm A if,

for any distribution P of samples and any concept c 2 C,

there exists a polynomial p(·, ·, ·) such that

A will produce with probability at least 1� � a hypothesis h 2 C whose error is "

when given at least p(m, 1/�, 1") independent random examples drawn according to P .

[Valiant,1984]

78 / 122 Course « InductionS » (A. Cornuéjols)

ThestaMsMcaltheoryoflearning

Uniformconvergencebounds

(fortheunrealizablecase)

79 / 122 Course « InductionS » (A. Cornuéjols)

Generalizingthelawoflargenumbers:uniformconvergence

Theoreme 1 (Inegalite de Hoe�ding). Si les �i sont des variables aleatoires,tirees independamment et selon une meme distribution et prenant leurvaleur dans l’intervalle [a, b], alors :

P

�����1m

m�

i=1

�i � E(�)���� � ⇥

�� 2 exp

�� 2 m ⇥2

(b� a)2

Appliquee au risque empirique et au risque reel, cette inegalite nous donne :

P�|REmp(h)�RReel(h)| ⇤ �

�⇥ 2 exp

�� 2 m �2

(b� a)2�

(1)

si la fonction de perte ⇥ est definie sur l’intervalle [a, b].

Pm[⌅h ⇤ H : RReel(h)�REmp(h) > ⇥] ⇥|H|�

i=1

Pm[RReel(hi)�REmp(hi) > ⇥]

⇥ |H| exp(�2 m ⇥2) = �

en supposant ici que la fonction de perte ⇤ prend ses valeurs dans l’intervalle[0, 1].

« H fini »

80 / 122 Course « InductionS » (A. Cornuéjols)

Boundingthetrueriskwiththeempiricalrisk+…

n  Hfinite,realizablecase

n  Hfinite,nonrealizablecase

⌅h ⇤ H,⌅� ⇥ 1 : Pm

�RReel(h) ⇥ REmp(h) +

�log |H|+ log 1

2 m

�> 1� �

⌅h ⇤ H,⌅� ⇥ 1 : Pm

�RReel(h) ⇥ REmp(h) +

log |H|+ log 1�

m

�> 1� �

Page 21: apprentissage avancé - AgroParisTechCourse « InductionS » (A. Cornuéjols) 5 / 122 OrganisaMon du cours 6 Cours 1 séance d’exposés d’arMcles n 5 quizz (5 x 5 = 25%) n Projets

81 / 122 Course « InductionS » (A. Cornuéjols)

Tosumup:for|H|finite

n  Nonrealizablecase

� =

�log |H|+ log 1

2 m and

� =log |H|+ log 1

mm �

log |H|+ log 1�

m �log |H|+ log 1

2 �2

n  Realizablecase

and

82 / 122 Course « InductionS » (A. Cornuéjols)

83 / 122 Course « InductionS » (A. Cornuéjols)

|H|infinite!!

n  EffecMvedimensionofH=theVapnik-Chervonenkisdimension

–  Combinatorialcriterion

–  Sizeofthelargestsetofpoints(ingeneralconfiguraMon)thatcanbelabeledinanywaybyhypothesesdrawnfrom H

Boundonthetruerisk

dV C(H) = max�m : �H(m) = 2m

⌅h ⇤ H,⌅� ⇥ 1 : Pm

�RReel(h) ⇥ REmp(h) +

�8 dV C(H) log 2 e m

dV C(H) + 8 log 4�

m

�> 1� �

84 / 122 Course « InductionS » (A. Cornuéjols)

VCdim:illustraMons

n  dVC(linearseparator)=?

+

+ -

+

+

--

+

+

-

+

+

(a) (b) (c)

•  dVC(rectangles) = ?

+

+

-- +

+

-

++

+

-

+

+

-

(a) (b) (c) (d)

+

Page 22: apprentissage avancé - AgroParisTechCourse « InductionS » (A. Cornuéjols) 5 / 122 OrganisaMon du cours 6 Cours 1 séance d’exposés d’arMcles n 5 quizz (5 x 5 = 25%) n Projets

85 / 122 Course « InductionS » (A. Cornuéjols)

Théoriesta4s4quedel’apprenMssage

Le3èmetemps

QuelleFoule?

86 / 122 Course « InductionS » (A. Cornuéjols)

SRM:StructuralRiskMinimizaMon

n  Stra4fica4ondesespaces

d’hypothèses

–  Faiteapriori(indépendam-

mentdesdonnées)

–  ParexempleenuMlisantladVC

H1 H2 H3 H4

Risque

H

Risque réel

Risque

empirique

Intervalle

de confiance

Optimum

87 / 122 Course « InductionS » (A. Cornuéjols)

L’analyse«PAClearning»oustaMsMque

n  Nouveaucritèreinduc/f:

–  Lerisqueempiriquerégularisé

1.  SaMsfairelescontraintesposéesparlesexemples

2.  Choisirlemeilleurespaced’hypothèses(capacitédeH)

88 / 122 Course « InductionS » (A. Cornuéjols)

Lecompromisbiais-variance

n  IllustraMon

H

F

×

×

×

f

h*

fb = f + bruit

×h

Erreur d'estimation

(Variance)

Erreur d'approximation

(Biais)

Erreur totale

Erreur intrinsèque

{hS}S^

^

Page 23: apprentissage avancé - AgroParisTechCourse « InductionS » (A. Cornuéjols) 5 / 122 OrganisaMon du cours 6 Cours 1 séance d’exposés d’arMcles n 5 quizz (5 x 5 = 25%) n Projets

89 / 122 Course « InductionS » (A. Cornuéjols)

Théoriesta4s4quedel’apprenMssage

Le4èmetemps

Maissil’espacedesFoules

dépenddesexemples?

90 / 122 Course « InductionS » (A. Cornuéjols)

The«luckinessframework»

n  Principe:définirunordresurHquidépenddesdonnées(≠SRM)

–  Sinousavonsdelachance

–  Alors,iln’yaurapastropd’hypothèsesmauvaises

aussicompaMblesaveclaciblequelesbonnes

[Shawe-Tayloretal.,1998],[Mendelsson&Philips,2003]

91 / 122 Course « InductionS » (A. Cornuéjols)

L’apprenMssagedevient…

1.  Lechoixdel’espacedeshypothèsesH

–  Nécessairementcontraint

2.  Lechoixd’uncritèreinduc4f

–  Risqueempiriquenécessairementrégularisé

3.  Unestratégied’explora4ondeHpourminimiser

lerisqueempiriquerégularisé

–  Fairecequ’ilfautpourquel’exploraMonsoitefficace

•  Rapide•  SipossibleunseulopMmum

92 / 122 Course « InductionS » (A. Cornuéjols)

Unparadigmetriomphant

ApprenMssage=choixdenormes+opMmisaMon

(~1995-~20??)

Page 24: apprentissage avancé - AgroParisTechCourse « InductionS » (A. Cornuéjols) 5 / 122 OrganisaMon du cours 6 Cours 1 séance d’exposés d’arMcles n 5 quizz (5 x 5 = 25%) n Projets

93 / 122 Course « InductionS » (A. Cornuéjols)

n  Poserunproblèmed’appren4ssage,c’est:

1.  L’exprimersousformed’uncritèreinduc4fàopMmiser

•  Risqueempirique

–  avecunefonc4ond’erreuradéquate

•  Untermederégularisa4on

–  exprimantlescontraintes

–  etconnaissancesapriori–  sipossibleconduisantàproblèmeconvexe

2.  Trouverunalgorithmed’op4misa4onadapté

NouvelleperspecMve

94 / 122 Course « InductionS » (A. Cornuéjols)

Cadreséduisant

n  Algorithmed’appren4ssage

–  Générique:minimisa3ondurisqueempiriquerégularisé

–  ApprenMssage=opMmisaMon

n  Faibleapriorisurlemonde

–  Supposedonnées(etquesMons)i.i.d.

–  f∈Houf∉H

–  Valabledanslepirecas:contretoutedistribuMoncible

n  BornesengénéralisaMon

–  FormalisaMonmathémaMquesupportantsonbien-fondé

95 / 122 Course « InductionS » (A. Cornuéjols)

Unparadigmegénéral

n  BoosMng

n  Arbresdedécisions(randomforests)

n  RégressionlogisMque

n  Réseauxdeneurones

n  SéparateursàVastesMarges(SVM)

n  …

96 / 122 Course « InductionS » (A. Cornuéjols)

«TraducMon»:préférencepourleshypothèsesparcimonieuses

n  Recherched’hypothèselinéaireparcimonieuse

n  MéthodesdetypeLASSO

Normel1:

Page 25: apprentissage avancé - AgroParisTechCourse « InductionS » (A. Cornuéjols) 5 / 122 OrganisaMon du cours 6 Cours 1 séance d’exposés d’arMcles n 5 quizz (5 x 5 = 25%) n Projets

97 / 122 Course « InductionS » (A. Cornuéjols)

«TraducMon»:apprenMssagemulM-tâches

n  TtâchesdeclassificaMonbinairedéfiniessurXxY

Partageentretâches

Hypothèseslinéaires

98 / 122 Course « InductionS » (A. Cornuéjols)

99 / 122 Course « InductionS » (A. Cornuéjols)

QuellesgaranMesexactement?

100 / 122 Course « InductionS » (A. Cornuéjols)

ApprenMssagestaMsMque:quellesgaranMes?

n  Lienentrerisqueempiriqueetrisqueréel

–  Coûtd’usagedeh(e.g.tauxd’erreur)

n  Seulementsi

–  MondestaMonnaire

–  Donnéesi.i.d.

–  Ques4onsi.i.d.!!?

Neditriensur:

-  Intelligibilité

-  Fécondité

-  Insertion dans une théorie du domaine

Page 26: apprentissage avancé - AgroParisTechCourse « InductionS » (A. Cornuéjols) 5 / 122 OrganisaMon du cours 6 Cours 1 séance d’exposés d’arMcles n 5 quizz (5 x 5 = 25%) n Projets

101 / 122 Course « InductionS » (A. Cornuéjols)

Limites

n  ApprenMssagepassifetdonnéesetques4onsi.i.d.

–  Agentssitués:lemonden’estpasi.i.d.

n  Requiertbeaucoupd’exemples

–  Noussommesbeaucoupplusefficaces

–  «Producteursdethéories»,théoriesquenoustestonsensuite

n  Pasadaptéàlarecherchedecausalités

n  Pasintégréavecunraisonnement

Cesmachinesapprenantesnesontpasdesmachinespensantes

102 / 122 Course « InductionS » (A. Cornuéjols)

Leno-free-lunchtheorem

103 / 122 Course « InductionS » (A. Cornuéjols)

Leno-free-lunchtheorem

Chapitre 2 Première approche théorique de l’induction 75

de l’« écart » entre le résultat de l’apprentissage et la nature est alors :

E[RRéel|S] =

Z

h,f

Z

x 62Sp(x) [1 � �(f(x), h(x)] p(h|S)p(f |S) (2.66)

où le symbole de Kronecker � dénote la fonction nulle partout sauf là où ses arguments sont égaux,où elle vaut 1. Nous noterons ici que la somme ne fait intervenir que les formes x non vues enapprentissage, ce qui est différent de l’espérance de risque i.i.d. dans laquelle le tirage aléatoiredes formes peut permettre le tirage de la même forme en apprentissage et en reconnaissance.Les deux expressions sont équivalentes dans le cas où l’échantillon S est de mesure nulle surl’espace des entrées possibles X . L’équation 2.66 exprime que l’espérance de risque réel étantdonné un échantillon d’apprentissage S est liée à la somme de toutes les entrées possibles x

pondérées par leur probabilité p(x), et à un « alignement » entre l’algorithme d’apprentissagecaractérisé par p(h|S) et la vraie probabilité a posteriori de la nature p(f |S). De ce fait, enl’absence d’information a priori sur la distribution p(f |S), il est impossible de dire quoi que cesoit sur la performance en généralisation de l’algorithme d’apprentissage.

Si l’affirmation précédente n’a pas suffi à plonger le lecteur dans la consternation, le corollaire15

suivant devrait achever de le faire. Nous noterons :

Ek[RRéel|f,m] =

Z

x 62Sp(x) [1 � �(f(x), h(x)] pk(h(x)|S)

l’espérance de risque associée à l’algorithme d’apprentissage Ak étant donné l’échantillon d’ap-prentissage S, et la vraie fonction de la nature f .

Théorème 2.1 (No-free-lunch theorem (Wolpert, 1992))

Pour tout couple d’algorithmes d’apprentissage A1

et A2

, caractérisés par leur distribution deprobabilité a posteriori p

1

(h|S) et p2

(h|S), et pour toute distribution dX des formes d’entrées x

et tout nombre m d’exemples d’apprentissage, les propositions suivantes sont vraies :1. En moyenne uniforme sur toutes les fonctions cible f dans F :

E1

[RRéel|f,m] � E2

[RRéel|f,m] = 0.2. Pour tout échantillon d’apprentissage S donné, en moyenne uniforme sur toutes les fonc-

tions cible f dans F : E1

[RRéel|f,S] � E2

[RRéel|f,S] = 0.3. En moyenne uniforme sur toutes les distributions possibles P(f) :

E1

[RRéel|m] � E2

[RRéel|m] = 0.4. Pour tout échantillon d’apprentissage S donné, en moyenne uniforme sur toutes les distri-

butions possibles p(f) : E1

[RRéel|S] � E2

[RRéel|S] = 0.

Pour une preuve de ce théorème, nous renvoyons le lecteur à [Wol92a]. De manière qualitative,le premier point de ce théorème exprime que quel que soit notre choix d’un « bon » algorithmed’apprentissage et d’un « mauvais » algorithme (par exemple un algorithme prédisant au hasard,ou bien une fonction constante sur X ), si toutes les fonctions cible f sont également probables,alors le « bon » algorithme aura la même performance en moyenne que le « mauvais ». Celasignifie aussi qu’il existe au moins une fonction cible pour laquelle la prédiction au hasard estmeilleure que n’importe quelle autre stratégie de prédiction.

Le deuxième point du théorème affirme la même absence de supériorité d’un algorithme d’ap-prentissage sur tout autre algorithme, même quand l’échantillon d’apprentissage est connu. En15 Du latin corollarium : « petite couronne donnée comme gratification ».

104 / 122 Course « InductionS » (A. Cornuéjols)

Leno-free-lunchtheorem

Possible

76 PARTIE 1 : Les fondements de l’apprentissage

d’autres termes, celui-ci n’apporte pas plus d’informations à un algorithme plutôt qu’à un autre,fût-il à nouveau l’algorithme de prédiction au hasard. Les points trois et quatre ne font querenforcer ces résultats en affirmant l’égalité de tous les algorithmes, si l’on prend en compte desdistributions non uniformes de fonctions cible, mais que l’on moyenne sur toutes ces distribu-tions. Bien sûr, pour une distribution donnée, un algorithme va être meilleur que les autres, àsavoir celui qui a la même distribution que P(f |S). Mais comment le deviner a priori ?

Avant de discuter des leçons à tirer du no-free-lunch theorem, il est utile d’en illustrer la forceà nouveau sur un exemple. Nous avons là en effet une sorte de loi de conservation (comme ledit Cullen Schaffer [SA94]). De même que pour chaque classe de problèmes pour laquelle unalgorithme d’apprentissage est meilleur qu’un algorithme de prédiction au hasard, il existe uneclasse de problèmes pour laquelle cet algorithme est moins bon (voir figure 2.13). De même, pourchaque algorithme d’apprentissage, il existe des problèmes pour lesquels la courbe de performanceen généralisation est ascendante et des problèmes pour lesquels cette courbe est descendante,c’est-à-dire pour lesquels plus l’algorithme apprend et plus il est mauvais en généralisation !

Systèmes

d'apprentissage

possibles

Systèmes

d'apprentissage

impossibles

0

0

0

00

0

0

0

0

00

0

00

0

0

0

00

Fig. 2.13: Le no-free-lunch-theorem prouve que pour chaque région de l’espace des problèmespour laquelle un algorithme d’apprentissage a une performance supérieure au hasard(indiqué ici par un smiley « heureux »), il existe une région pour laquelle la per-formance est moins bonne que le hasard (indiqué ici par un smiley « triste »). Un« 0 » indique ici la performance d’un algorithme au hasard, donc la performancemoyenne. Les trois figures du dessus correspondent à des situations possibles pour unalgorithme d’apprentissage, tandis que les trois figures du dessous correspondent à dessituations impossibles : celles d’un algorithme qui serait intrinsèquement supérieur àun algorithme au hasard quand on le considère sur l’ensemble des problèmes possibles(d’après [SA94]).

Exemple Algorithme d’apprentissage de plus en plus mauvais

Considérons l’algorithme de classification binaire majoritaire qui attribue à un nouveau pointl’étiquette de la classe la plus représentée dans les exemples d’apprentissage de S. Intuiti-vement, cet algorithme s’attend à ce que la classe la mieux représentée sur l’échantillond’apprentissage soit de fait majoritaire. Cet algorithme simple peut-il n’être qu’équivalentà un algorithme tirant ses prédictions au hasard ? Sans en donner une preuve formelle, ilest possible de s’en convaincre intuitivement. En effet, dans les problèmes pour lesquels uneclasse est nettement majoritaire, on peut s’attendre à ce que dans la plupart des cas l’algo-

Page 27: apprentissage avancé - AgroParisTechCourse « InductionS » (A. Cornuéjols) 5 / 122 OrganisaMon du cours 6 Cours 1 séance d’exposés d’arMcles n 5 quizz (5 x 5 = 25%) n Projets

105 / 122 Course « InductionS » (A. Cornuéjols)

Leno-free-lunchtheorem

Impossible

76 PARTIE 1 : Les fondements de l’apprentissage

d’autres termes, celui-ci n’apporte pas plus d’informations à un algorithme plutôt qu’à un autre,fût-il à nouveau l’algorithme de prédiction au hasard. Les points trois et quatre ne font querenforcer ces résultats en affirmant l’égalité de tous les algorithmes, si l’on prend en compte desdistributions non uniformes de fonctions cible, mais que l’on moyenne sur toutes ces distribu-tions. Bien sûr, pour une distribution donnée, un algorithme va être meilleur que les autres, àsavoir celui qui a la même distribution que P(f |S). Mais comment le deviner a priori ?

Avant de discuter des leçons à tirer du no-free-lunch theorem, il est utile d’en illustrer la forceà nouveau sur un exemple. Nous avons là en effet une sorte de loi de conservation (comme ledit Cullen Schaffer [SA94]). De même que pour chaque classe de problèmes pour laquelle unalgorithme d’apprentissage est meilleur qu’un algorithme de prédiction au hasard, il existe uneclasse de problèmes pour laquelle cet algorithme est moins bon (voir figure 2.13). De même, pourchaque algorithme d’apprentissage, il existe des problèmes pour lesquels la courbe de performanceen généralisation est ascendante et des problèmes pour lesquels cette courbe est descendante,c’est-à-dire pour lesquels plus l’algorithme apprend et plus il est mauvais en généralisation !

Systèmes

d'apprentissage

possibles

Systèmes

d'apprentissage

impossibles

0

0

0

00

0

0

0

0

00

0

00

0

0

0

00

Fig. 2.13: Le no-free-lunch-theorem prouve que pour chaque région de l’espace des problèmespour laquelle un algorithme d’apprentissage a une performance supérieure au hasard(indiqué ici par un smiley « heureux »), il existe une région pour laquelle la per-formance est moins bonne que le hasard (indiqué ici par un smiley « triste »). Un« 0 » indique ici la performance d’un algorithme au hasard, donc la performancemoyenne. Les trois figures du dessus correspondent à des situations possibles pour unalgorithme d’apprentissage, tandis que les trois figures du dessous correspondent à dessituations impossibles : celles d’un algorithme qui serait intrinsèquement supérieur àun algorithme au hasard quand on le considère sur l’ensemble des problèmes possibles(d’après [SA94]).

Exemple Algorithme d’apprentissage de plus en plus mauvais

Considérons l’algorithme de classification binaire majoritaire qui attribue à un nouveau pointl’étiquette de la classe la plus représentée dans les exemples d’apprentissage de S. Intuiti-vement, cet algorithme s’attend à ce que la classe la mieux représentée sur l’échantillond’apprentissage soit de fait majoritaire. Cet algorithme simple peut-il n’être qu’équivalentà un algorithme tirant ses prédictions au hasard ? Sans en donner une preuve formelle, ilest possible de s’en convaincre intuitivement. En effet, dans les problèmes pour lesquels uneclasse est nettement majoritaire, on peut s’attendre à ce que dans la plupart des cas l’algo-

76 PARTIE 1 : Les fondements de l’apprentissage

d’autres termes, celui-ci n’apporte pas plus d’informations à un algorithme plutôt qu’à un autre,fût-il à nouveau l’algorithme de prédiction au hasard. Les points trois et quatre ne font querenforcer ces résultats en affirmant l’égalité de tous les algorithmes, si l’on prend en compte desdistributions non uniformes de fonctions cible, mais que l’on moyenne sur toutes ces distribu-tions. Bien sûr, pour une distribution donnée, un algorithme va être meilleur que les autres, àsavoir celui qui a la même distribution que P(f |S). Mais comment le deviner a priori ?

Avant de discuter des leçons à tirer du no-free-lunch theorem, il est utile d’en illustrer la forceà nouveau sur un exemple. Nous avons là en effet une sorte de loi de conservation (comme ledit Cullen Schaffer [SA94]). De même que pour chaque classe de problèmes pour laquelle unalgorithme d’apprentissage est meilleur qu’un algorithme de prédiction au hasard, il existe uneclasse de problèmes pour laquelle cet algorithme est moins bon (voir figure 2.13). De même, pourchaque algorithme d’apprentissage, il existe des problèmes pour lesquels la courbe de performanceen généralisation est ascendante et des problèmes pour lesquels cette courbe est descendante,c’est-à-dire pour lesquels plus l’algorithme apprend et plus il est mauvais en généralisation !

Systèmes

d'apprentissage

possibles

Systèmes

d'apprentissage

impossibles

0

0

0

00

0

0

0

0

00

0

00

0

0

0

00

Fig. 2.13: Le no-free-lunch-theorem prouve que pour chaque région de l’espace des problèmespour laquelle un algorithme d’apprentissage a une performance supérieure au hasard(indiqué ici par un smiley « heureux »), il existe une région pour laquelle la per-formance est moins bonne que le hasard (indiqué ici par un smiley « triste »). Un« 0 » indique ici la performance d’un algorithme au hasard, donc la performancemoyenne. Les trois figures du dessus correspondent à des situations possibles pour unalgorithme d’apprentissage, tandis que les trois figures du dessous correspondent à dessituations impossibles : celles d’un algorithme qui serait intrinsèquement supérieur àun algorithme au hasard quand on le considère sur l’ensemble des problèmes possibles(d’après [SA94]).

Exemple Algorithme d’apprentissage de plus en plus mauvais

Considérons l’algorithme de classification binaire majoritaire qui attribue à un nouveau pointl’étiquette de la classe la plus représentée dans les exemples d’apprentissage de S. Intuiti-vement, cet algorithme s’attend à ce que la classe la mieux représentée sur l’échantillond’apprentissage soit de fait majoritaire. Cet algorithme simple peut-il n’être qu’équivalentà un algorithme tirant ses prédictions au hasard ? Sans en donner une preuve formelle, ilest possible de s’en convaincre intuitivement. En effet, dans les problèmes pour lesquels uneclasse est nettement majoritaire, on peut s’attendre à ce que dans la plupart des cas l’algo-

Possible

106 / 122 Course « InductionS » (A. Cornuéjols)

DéducMon!

1.  TouslesalgorithmesinducMfssevalent

2.  Ilnepeutyavoiraucunegaran4esurlesinduc4onsréalisées

Allons à la plage !!

107 / 122 Course « InductionS » (A. Cornuéjols)

Unpointdevueindépassable?

Quefaisait-onavant?

Lecasdel’EBL

108 / 122 Course « InductionS » (A. Cornuéjols)

Unpeud’histoire

IAetrésolu4onautoma4quedeproblèmes

n  Arch[Winston,1972]

–  StratégiederechercheguidéedansunespacededescripMonsstructurées

n  [Simon&Lea(1979)«Problem-solvingandruleinduc/on:aunifiedview»]

–  Sefocalisentsurlesmécanismesderaisonnement(generate_and_test,heurisMcsearch,hypothesis_and_match)

–  Aulieudechercheràrésoudreunproblème,onchercheà«couvrir»desexemples,

maismêmestypesdeprocédures

–  GPS->GRI(GeneralizedRuleInducMon)

n  [TomMichell(1980,1982)«Generaliza/onasSearch»,«Theneedforbiasesinlearninggeneraliza/ons»]

–  Commentorganiserlarecherched’une(bonne)hypothèse

–  Sipasdebiais,l’apprenMssagenepeutpasfairemieuxquel’apprenMssageparcœur

n  [DavidHaussler(1988)«Quan/fyinginduc/vebias:AIlearningalgorithmsandValiant’slearning»]

–  QuanMficaMondubiais(parladimensiondeVapnik-Cervonenkis)declassesd’expressionslogiques

Page 28: apprentissage avancé - AgroParisTechCourse « InductionS » (A. Cornuéjols) 5 / 122 OrganisaMon du cours 6 Cours 1 séance d’exposés d’arMcles n 5 quizz (5 x 5 = 25%) n Projets

109 / 122 Course « InductionS » (A. Cornuéjols)

L’apprenMssage…

…comme

l’amélioraMondel’efficacitéd’unrésolveurdeproblème

110 / 122 Course « InductionS » (A. Cornuéjols)

Apprendreàpar4rd’unexemple

1.  Unexempleunique

2.   Recherchedelapreuvedela

«fourcheBe»

3.   Généralisa4on

ExplanaMon-BasedLearning

111 / 122 Course « InductionS » (A. Cornuéjols)

ExplanaMon-BasedLearning

Ex:apprendreleconceptempilable(Objet1, Objet2)

n  Théorie:

(T1) : poids(X, W) :- volume(X, V), densité(X, D), W is V*D.

(T2) : poids(X, 50) :- est-un(X, table).

(T3) : plus-léger(X, Y) :- poids(X, W1), poids(X, W2), W1 < W2.

n  Contrainted’opéra4onalité:

•  Conceptàexprimeràl’aidedesprédicatsvolume,densité,couleur,…

n  Exempleposi4f(soluMon):

sur(obj1, obj2). volume(objet1, 1).

est_un(objet1, boîte). volume(objet2, 0.1).

est_un(objet2, table). propriétaire(objet1, frederic).

couleur(objet1, rouge). densité(objet1, 0.3).

couleur(objet2, bleu). matériau(objet1, carton).

matériau(objet2, bois). propriétaire(objet2, marc).

112 / 122 Course « InductionS » (A. Cornuéjols)

ExplanaMon-BasedLearning

Arbredepreuvegénéraliséobtenuparrégressionduconceptcibledansl’arbredepreuve

encalculantàchaqueétapelesliBérauxlesplusgénérauxpermeBantceBeétape.

Page 29: apprentissage avancé - AgroParisTechCourse « InductionS » (A. Cornuéjols) 5 / 122 OrganisaMon du cours 6 Cours 1 séance d’exposés d’arMcles n 5 quizz (5 x 5 = 25%) n Projets

113 / 122 Course « InductionS » (A. Cornuéjols)

ExplanaMon-BasedLearning

n  InducMonàpar4rd’unseulexemple

–  …etd’unethéoriefortedudomaine

n  Langagedelalogique

n  Opérateursderaisonnement(déducMon,…)

n  Maintenantu/liséesdansles«solveurs»deproblèmesSAT.

114 / 122 Course « InductionS » (A. Cornuéjols)

ExplanaMon-BasedLearning

n  Quecherche-t-onàprouver?

n  Qu’est-cequiestunebonne(moinsbonne)théorie/méthode?

115 / 122 Course « InductionS » (A. Cornuéjols)

ExplanaMon-BasedLearning

n  Quecherche-t-onàprouver?

n  Qu’est-cequiestunebonne(moinsbonne)théorie/méthode?

1.  Méthodeaméliorantlesperformancesderésolu4ondeproblème

–  [SteveMinton(1990)«Quan/ta/veresultsconcerningtheu3lityofExplana/on-BasedLearning»]

2.  Méthode«reproduisant»lesperformances(etlimites)

d’unagentcogni4fnaturel(animalouhumain)

–  [Laird,Rosenbloom,Newell(1986)«ChunkinginSOAR:Theanatomyofagenerallearningmechanism»]

–  [Anderson(1993)«Rulesofthemind»;Taatgen(2003)«Learningrulesandproduc/ons»]

116 / 122 Course « InductionS » (A. Cornuéjols)

ExplanaMon-BasedLearning

1.  Onnes’interrogepasdirectementsurlavaliditédeshypothèses

induites(i.e.espérancedecoût)

2.  «UMlity»~espéranced’u4lité

entermesdesituaMonsderésolu4ondeproblèmes

Page 30: apprentissage avancé - AgroParisTechCourse « InductionS » (A. Cornuéjols) 5 / 122 OrganisaMon du cours 6 Cours 1 séance d’exposés d’arMcles n 5 quizz (5 x 5 = 25%) n Projets

117 / 122 Course « InductionS » (A. Cornuéjols)

ExplanaMon-BasedLearning

n  QuesMonstraitéesdanslespublicaMons

–  Queltyped’inducMonenfoncMondelano4ondeconséquencelogique

uMlisée?

–  Commentu4liserlathéoriedudomaine?

–  Quefairesilathéoriedudomaineestincomplèteouerronée?

–  CommentuMliserdescontre-exemples?

–  Quelestlerôleducritèred’opéra4onnalité?

–  QuefairesionobMentplusieursarbresdepreuves?

118 / 122 Course « InductionS » (A. Cornuéjols)

ExplanaMon-BasedLearning

n  Est-cedel’inducMon?

DéducMonguidéepardescritèresd’opéraMonnalité