classification supervisée et données fonctionnelles

47
Classification supervisée et données fonctionnelles Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC Conservatoire National des Arts et Métiers 292 rue Saint Martin F 75141 Paris Cedex 03 [email protected] http://cedric.cnam.fr/~saporta

Upload: others

Post on 29-Jan-2022

14 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Classification supervisée et données fonctionnelles

Classification supervisée et

données fonctionnelles

Gilbert SaportaChaire de Statistique Appliquée & CEDRICConservatoire National des Arts et Métiers292 rue Saint Martin F 75141 Paris Cedex [email protected]://cedric.cnam.fr/~saporta

Page 2: Classification supervisée et données fonctionnelles

Plan

1. Introduction2. Régression MCO sur données fonctionnelles3. Régression PLS fonctionnelle4. Méthodes linéaires de discrimination5. Prédiction anticipée

SFC 2010 2

5. Prédiction anticipée6. Conclusion et perspectives

Travaux réalisés en collaboration avec C.Preda(Univ . Lille2) et D.Costanzo (Univ.Calabria)

Page 3: Classification supervisée et données fonctionnelles

1. Introduction

Données fonctionnelles: courbes ou trajectoires d’un processus stochastique Xt

Réponse Y

SFC 2010 3

Réponse Y Y numérique: régression

Y catégorielle: classification supervisée, discrimination

Intervalle de temps commun [0;T], variables centrées

Page 4: Classification supervisée et données fonctionnelles

Précurseurs:

R.A. Fisher – 1924J. C. Deville – 1974P. Besse – 1979G. Saporta – 1981

Plus récemment:

SFC 2010 4

Plus récemment:

Aguilera, Valderrama – 1993, 1995, 1998Ramsay, Silverman – 1995, 1997Van der Heijden – 1997Preda, Cohen – 1999Cardot, Ferraty, Vieu - 1999, 2005

Page 5: Classification supervisée et données fonctionnelles

Régression sur données fonctionnelles

Exemple 1: Y= récolte

SFC 2010 5

Xt = température

p= ∞∞∞∞

R.A.Fisher (1924)

Page 6: Classification supervisée et données fonctionnelles

Données de très grande dimension: infinité non dénombrable (en principe..) de prédicteurs

Combinaison linéaire

« Integral regression »

SFC 2010 6

« Integral regression »

Au lieu d’une somme finie

0

ˆ ( )T

tY t X dtβ= ∫

1

ˆp

j jj

Y Xβ=

=∑

Page 7: Classification supervisée et données fonctionnelles

SFC 2010 7

R.A.Fisher « The Influence of Rainfall on the Yield of Wheat at Rothamsted »Philosophical Transactions of the Royal Society, B, 213, 89-142 (1924)

Page 8: Classification supervisée et données fonctionnelles

•Discrimination sur données fonctionnelles

Exemple 2: courbes de pétrissage pour biscuits (Danone Vitapole)

SFC 2010 8

Page 9: Classification supervisée et données fonctionnelles

SFC 2010 9

Comment prédire la qualité des biscuits?

Après lissage par B-splines cubiques

(Lévéder & al, 2004)

Page 10: Classification supervisée et données fonctionnelles

Discrimination sur données fonctionnelles

Cas particulier de la régression sur données fonctionnelles pour deux classes

Anticipation

déterminer t*<T tel que l’analyse sur [0;t*]

SFC 2010 10

déterminer t*<T tel que l’analyse sur [0;t*] donne des prédictions semblables à l’analyse sur [0;T]

Page 11: Classification supervisée et données fonctionnelles

2. Régression MCO sur

données fonctionnelles

Y ; Xt (E(Y)=E(Xt) =0 )

2.1 Les mco Equations normales ou de Wiener-Hopf:

SFC 2010 11

C(t,s)= cov(Xt, Xs)=E(XtXs)

0

ˆ ( )T

tY t X dtβ= ∫

0cov( , ) ( , ) ( )

T

tX Y C t s s dsβ= ∫

Page 12: Classification supervisée et données fonctionnelles

2.2 décomposition de Karhunen-Loeve

facteurs:

Composantes principales:

1

( )t i ii

X f t ξ∞

=

=∑

0( , ) ( ) ( )

T

i i iC t s f s ds f tλ=∫

( )T

f t X dtξ = ∫

SFC 2010 12

Composantes principales:

Covariance avec une composante principale:

0( )

T

i i tf t X dtξ = ∫

0 0cov( , ) cov( , ( ) ) ( ) ( )

T T

i i i t t ic Y Y f t X dt E X Y f t dtξ= = =∫ ∫

Page 13: Classification supervisée et données fonctionnelles

Résolution numérique:

Equations intégrales non explicites dans le cas général: C(t,s) connu point par point

Fonctions en escalier: nombre fini de variables et d’individus: opérateurs

SFC 2010 13

variables et d’individus: opérateurs matriciels mais de grande taille

Approximations par discrétisation du temps

Page 14: Classification supervisée et données fonctionnelles

Une solution exacte:

W matrice des produits scalaires entre trajectoires ( ) ( )

0

, 1,2,..,T

uv u vw x t x t dt u v n= =∫

SFC 2010 14

Composantes principales: vecteur propres de W

Facteurs principaux

( ) ( )1

1 1 n

u uu

f t X tn

ξλ =

= ∑

Page 15: Classification supervisée et données fonctionnelles

Theorème de Picard: β unique si et seulement si:

2

21

i

i i

c

λ

=

< ∞∑

SFC 2010 15

Géneralement faux ... Surtout quand n est fini car p >n. Ajustement parfait en minimisant:

( )2

01

1( ) ( )

n T

i ii

y t x t dtn

β=

−∑ ∫

Page 16: Classification supervisée et données fonctionnelles

Même quand β est unique, « L’équation de Wiener-Hopf n’est pas une équation intégrale ordinaire mais un accouplement entre fonction et distribution dont la solution est plus souvent une distribution qu’une fonction » Paul Kree, 1972

SFC 2010 16

qu’une fonction » Paul Kree, 1972

Nécessité de contraintes. (cf Green & Silverman 1994, Ramsay & Silverman 1997).

Page 17: Classification supervisée et données fonctionnelles

2.3 Régression sur composantes principales

1 1

cov( , )ˆ i ii i

i ii i

Y cY

ξ ξ ξλ λ

∞ ∞

= =

= =∑ ∑

22 2ˆ( , ) ( , ) i

i

cR Y Y r Y ξ

λ

∞ ∞

= =∑ ∑

SFC 2010 17

Approximation de rang q:

1 1i

i i iλ= =∑ ∑

( ) ( )

1 1

cov( ; ) cov( ; )ˆˆ ( ) ( )q q

q qi ii i

i ii i

Y YY t f t

ξ ξξ βλ λ= =

= =∑ ∑

Page 18: Classification supervisée et données fonctionnelles

Quelles composantes? Les q premières?

Les q plus corrélées?

SFC 2010 18

Les composantes principales sont calculées sans tenir compte de la réponse Y

Page 19: Classification supervisée et données fonctionnelles

3. Régression PLS fonctionnelle

Utiliser les composantes PLS au lieu des composantes principales

Première composante PLS :T

∫2

1w =

SFC 2010 19

Puis itération sur les résidus

2

0max cov ( , ( ) )

T

w tY w t X dt∫2

1w =

2

0

cov( , )( )

cov ( , )

t

T

t

X Yw t

X Y dt=

∫ 1 0( )

T

tt w t X dt= ∫

Page 20: Classification supervisée et données fonctionnelles

Approximation de Y par Xt d’ordre q:

Convergence :

( ) 1 1 ( )0

ˆˆ ... ( ) dt T

PLS q q q PLS q tY c t c t t Xβ= + + = ∫

2ˆ ˆlim ( ) 0E Y Y− =

SFC 2010 20

Mais q doit être fini pour avoir une formule!

q déterminé par validation croisée(Preda & Saporta, 2005)

( )ˆ ˆlim ( ) 0q PLS qE Y Y→∞ − =

Page 21: Classification supervisée et données fonctionnelles

Première composante PLS facilement interprétable: coefficients du même signe que r(y;xt)

Pas d’équation intégrale

Meilleur ajustement par PLS que par ACP:

2 2ˆ ˆ( ; ) ( ; )R Y Y R Y Y≥

SFC 2010 21

(De Jong 1993)

2 2( ) ( )

ˆ ˆ( ; ) ( ; )PLS q PCR qR Y Y R Y Y≥

Page 22: Classification supervisée et données fonctionnelles

4. Discrimination linéaire

4.1 ADL fonctionnelle

ADL : combinaison linéaire

maximisant le rapport 0

( )T

tt X dtβ∫

SFC 2010 22

variance inter/variance intra

Pour 2 groupes la FLD de Fisher s’obtient en régressant Y codé sur Xt

eg(Preda & Saporta, 2005a)

01

0 1

and pp

p p−

Page 23: Classification supervisée et données fonctionnelles

La régression PLS avec q composantes donne une approximation de β(t) et du score:

SFC 2010 23

score:

Pour plus de 2 groupes: régression PLS2 entre k-1 indicatrices de Y et Xt

T 0

ˆd ( ) ( )T

PLS PLS tX t X dtβ= Φ = ∫

Page 24: Classification supervisée et données fonctionnelles

Régression PLS2

Y multiple: (Y1, Y2, …,Yp)

Critère de Tucker:

2

0max cov ( ( ) ; )

p

t i iw t X dt c Y∞

∑∫

SFC 2010 24

Composantes PLS :

01

max cov ( ( ) ; )t i ii

w t X dt c Y=∑∫

1

p

i ii

s c Y=

=∑0( ) tt w t X dt

∞= ∫

Page 25: Classification supervisée et données fonctionnelles

Première composante PLS: premiervecteur propre du produit des opérateurs d’Escoufier WxWY

SFC 2010 25

Preda & Saporta, 2002 & 2005a ; Barker & Rayens , 2003

Page 26: Classification supervisée et données fonctionnelles

4.2 Mesures de qualité

Pour k=2 : courbe ROC et AUC

Pour un seuil s , x est classé en 1 si dT(x)>s

Sensibilité ou taux de vrais positifs:

SFC 2010 26

Sensibilité ou taux de vrais positifs: P(dT(x)>s/Y=1)=1-β

1- Spécificité ou 1-taux de vrais négatifs: P(dT(x)>s/Y=0)=α

Page 27: Classification supervisée et données fonctionnelles

Courbe ROC

SFC 2010 27

• En cas de discrimination parfaite :courbe confondue avec les côtés du carré• Si distribution conditionnelles identiques, courbe confondue avec la diagonale

Page 28: Classification supervisée et données fonctionnelles

Courbe ROC invariante pour toute transformation

monotone croissante

Surface sous la courbe: mesure de performance permettant de comparer (partiellement) des modèles

1 2((1 ) ( )( ) )

s

sAUC Xd s P Xsβ α

=−∞

=+∞= − = >∫

SFC 2010 28

On tire une obs de G1 et une de G2

AUC estimée par la proportion de paires concordantes

nc statistique de Wilcoxon-Mann-Whitney

U+W= n1n2+0.5n1(n1+1) AUC=U/n1n2

s=+∞∫

1 2cc n n n=

Page 29: Classification supervisée et données fonctionnelles

courbes de pétrissage

Après T= 480s de pétrissage, on obtient des biscuits de qualités Y

115 observations: 50 « bon », 40 «mauvais » and 25 «indéterminés »

241 mesures à pas constant

Lissage avec B-splines cubiques , 16 nœuds

SFC 2010 29

Page 30: Classification supervisée et données fonctionnelles

Performance pour Y=bon,mauvais

On divise 100 fois les données en apprentissage et test (60, 30)

Taux d’erreur moyen

SFC 2010 30

Taux d’erreur moyen

0.142 avec 3 composantes principales

0.112 avec 3 composantes PLS

AUC moyen= 0.746

Page 31: Classification supervisée et données fonctionnelles

4.3 Régression logistique fonctionnelle

0ln ( ) ( )d ; 1, ,

1

Ti

ii

x t t t i nπ α β

π

= + = − ∫ K

) );(|1( TttxXYP ii ∈===π

SFC 2010 31

Hypothèse: β(t) et les trajectoires sont dans le même espace de dimension fini (Ramsay et al., 1997)

ψψβ b′==∑=

p

qqq tbt

1

)()( ψψ i

p

qqiqi tctx c′==∑

=1

)()(

Page 32: Classification supervisée et données fonctionnelles

D’où une régression logistique classique:

avec

ln1

π απ

= + Φ − 1 C b

)( iqc=C )d)()(( ∫==ΦT

qkkq ttt ψψφ

SFC 2010 32

Aguilera et al. (2006) utilisent les composantes principales de Xt comme base

Page 33: Classification supervisée et données fonctionnelles

5. Prédiction anticipée

Chercher t*<T tel que l’analyse sur [0;t*]donne des prédictions semblables à l’analyse sur [0;T]

SFC 2010 33

Solution:

En augmentant s depuis 0 , chercher la première valeur telle que AUC(s) ne diffère pas significativement de AUC(T)

Page 34: Classification supervisée et données fonctionnelles

Test d’égalité via une procédure bootstrap

Rééchantillonnage des données, stratifié pour conserver les proportions des classes

A chaque réplication b on calcule AUCb(s) et AUCb(T)

Test basé sur les différences (Student ou

SFC 2010 34

Test basé sur les différences (Student ou Wilcoxon pour données appariées) δb=AUCb(s)- AUCb(T)

Page 35: Classification supervisée et données fonctionnelles

5.2 Données simulées

Deux classes équiprobables

W(t) brownien standard

SFC 2010 35

W(t) brownien standard

Page 36: Classification supervisée et données fonctionnelles

SFC 2010 36

Page 37: Classification supervisée et données fonctionnelles

Avec B=50

SFC 2010 37

Page 38: Classification supervisée et données fonctionnelles

Prédiction anticipée B=50

t*=186

• Il est donc possible

5.3 Courbes de pétrissage

SFC 2010 38

• Il est donc possible de réduire de plus de moitié la durée d’étude! P value of the Wilcoxon test

Page 39: Classification supervisée et données fonctionnelles

5.4 Prévision adaptative

Au lieu d’un t* commun, adapter t* à chaque trajectoire nouvelle ω , connaissant le début de la trajectoire. Pour certaines trajectoires il pourra être

SFC 2010 39

Pour certaines trajectoires il pourra être nécessaire d’observer le processus plus longtemps que sur [0, t*] , pour d’autres non.

t* devient une v.a. t*(ω)

Page 40: Classification supervisée et données fonctionnelles

Procédure proche dans son esprit des tests séquentiels:

On discrétise [0, T] avec un pas h

Si à t, on arrête d’observer X(ω) et que l’on prend une décision de classement alors t*=t , sinon on continue jusqu’à t+h etc.

La décision dépend de la similarité de

SFC 2010 40

La décision dépend de la similarité de X(ω) avec des observations xi en tenant compte de la prédiction que l’on peut faire de Y

Page 41: Classification supervisée et données fonctionnelles

« Taux de conservation »

dt score discriminant calculé sur [0,t]

Ωω(t) ensemble des observations prédites comme ω au temps t.

SFC 2010 41

comme ω au temps t.

proportion classée dans le groupe Y=0 au temps T . Idem pour

0| ( )tpωΩ

1| ( ) 0| ( ) 1| ( ) t t tp p pω ω ωΩ Ω Ω

Page 42: Classification supervisée et données fonctionnelles

On a

Deux taux de conservation:

0| ( ) 1| ( ) 0| ( ) 1| ( )=1 et + =1 t t t tp p p pω ω ω ωΩ Ω Ω Ω+

SFC 2010 42

Taux global de conservation

Pour tout t

( )( ) ( )min ;t tC Cω ωΩ Ω

Page 43: Classification supervisée et données fonctionnelles

Règle de décision

En prenant un niveau de confiance γ, ici 0.9, on définit la règle adaptative pour ω à l’instant t:

(1) Si CΩ(ω,t)> γ alors l’observation de ω sur [0, t] suffit pour prédire Y(ω) car la prédiction à t est la même que la prédiction à T du sous-groupe Ω (t)

SFC 2010 43

même que la prédiction à T du sous-groupe Ωω(t)

(2) Si CΩ(ω,t)< γ , on continue d’observer jusqu’à t+h et on recommence jusqu’à satisfaction de (1)

Page 44: Classification supervisée et données fonctionnelles

Application

une nouvelle farine

SFC 2010 44

taux de conservation

Page 45: Classification supervisée et données fonctionnelles

25 « nouvelles » farines

Distribution cumulée empirique de t*(ω) . 5 points plus en avance que t= 186, temps

SFC 2010 45

que t= 186, temps optimal pour la prédiction anticipée. 10 prédites comme «mauvaise».

Page 46: Classification supervisée et données fonctionnelles

6.Conclusions et perspectives

La régression PLS permet d’effectuer une prédiction linéaire de manière simple et efficace

Nécessité de prétraitements pour données bruitées

SFC 2010 46

bruitées

Prédiction anticipée via une procédure bootstrap, possibilité de prédiction « on-line »: adapter t* pour chaque nouvelle courbe

En cours: Comparaison avec régression logistique PLS

fonctionnelle et autres approches

Page 47: Classification supervisée et données fonctionnelles

Références Aguilera A.M., Escabias, M. ,Valderrama M.J. (2006) Using principal

components for estimating logistic regression with high-dimensional multicollinear data, Computational Statistics & Data Analysis, 50,1905-1924

Barker M., Rayens W. (2003) Partial least squares for discrimination. J. of Chemometrics 17:166–173

Dabo-Niang S., Ferraty F. (2008): Functional and Operatorial Statistics, Springer-Verlag

Costanzo D., Preda C. , Saporta G. (2006) Anticipated prediction in discriminant analysis on functional data for binary response . In

SFC 2010 47

Costanzo D., Preda C. , Saporta G. (2006) Anticipated prediction in discriminant analysis on functional data for binary response . In COMPSTAT2006, p. 821-828, Physica-Verlag

Lévéder C., Abraham C., Cornillon P. A., Matzner-Lober E., Molinari N. (2004) Discrimination de courbes de pétrissage. Chimiometrie 2004, 37–43.

Preda C. , Saporta G. (2005) PLS regression on a stochastic process, Computational Statistics and Data Analysis, 48, 149-158.

Preda C., Saporta G., Lévéder C., (2007) PLS classification offunctional data, Computational Statistics, 22(2), 223-235

Ramsay J.O. , Silverman (2005) Functional data analysis, 2nd edition,Springer