régression pls bootstrap et planif adaptative · 2018. 1. 24. · abdelaziz faraj atelier plan...

Abdelaziz FARAJ Atelier Plan d'expériences – Villeneuve Lès Avignon 14 au 16 septembre 2010

Algorithme PLS1


X = (x1, x2, ..., xJ) y

yw ' X=

X = t p' + E

2

'

ttXp =

E = X – t p'

Les variables xj et y sont centrées

y

y = c t + e

2

' c

tty=

e = y – c t

Calcul de la composante PLS (scores)

Régressions des xj et y sur la composante PLS t

Coefficients de régression (loadings)

Résidus de régression

= Σ Σ Σ Σ ajxj

www / ← Le vecteur w est normé à 1

t = X w

y = c t + e

><= 2, ctty

?

= Xa

Xet

yso

nt re

mpl

acés

par

les

rési

dus

Eet

e

xj = pj t + ej

><= 2jj , pttx

�=j

jj xw t

( ) cov jj xy,=w

( )( )�

=

jj

2

jj

,cov

,cov

yx

yxw

�=existent et :i

iijjiij

y x

yxw

Si données manquantes

�

�=

existe :j

2j

existe :jijj

i

ij

ij t

x

x

w

xw


h h

+ 1

y(0) = c1 t1 + … + cH tH + y(H) �� y ≅≅≅≅ a1 x1 + … + aJ xJ

Pour h = 1Éta

pe 0

1)(h1)-(hh ' −= yw X

X(h-1) = th ph' + X(h)

2h

h1)-(hh

'

t

tXp =

X(h) = X(h-1) – th ph'

X(0) = X y(0) = y

y(h-1)

y(h-1) = ch th + y(h)

2h

h1)-(hh

' c

t

ty=

y(h) = y(h-1) – ch th

Calcul des composantes PLS (scores)

Régressions de x(h-1) j et y(h-1)sur la composante PLS th



Variables xj et y centrées

, ..., H

hhh / www ← Le vecteur w est normé à 1

th = X(h-1) wh

y = Σ Σ Σ Σ ajxj= XaX = (x1, x2, ..., xJ)


Algorithme PLS1 avec réduction de y


X = (x1, x2, ..., xJ) y

2

'

yyw X=

X = t p' + E

2

'

ttXp =

E = X – t p'

Les variables xj et y sont centrées

y

y = c t + e

2

' c

tty=

e = y – c t

Calcul de la composante PLS (scores)

Régressions des xj et y sur la composante PLS t



= Σ Σ Σ Σ ajxj

www / ← Le vecteur w est normé à 1

t = X w

><= 2jj , yyxw

y = c t + e

><= 2, ctty

?

= Xa

Xet

yso

nt re

mpl

acés

par

les

rési

dus

Eet

e

xj = pj t + ej

><= 2jj , pttx

�=j

jj xw t

( )

�

,cov 2

jj

y

yx=w

�

�=

existent et :i

2i

existent et :iiij

j

iij

iij

y x

y x

y

yx

w

Si données manquantes

�

�=

existe :j

2j

existe :jijj

i

ij

ij t

x

x

w

xw


h h

+ 1

y(0) = c1 t1 + … + cH tH + y(H) �� y ≅≅≅≅ a1 x1 + … + aJ xJ

Pour h = 1Éta

pe 0

2

1)(h

1)(h1)-(hh

'

−

−=y

yw

X

X(h-1) = th ph' + X(h)

2h

h1)-(hh

'

t

tXp =

X(h) = X(h-1) – th ph'

X(0) = X y(0) = y

y(h-1)

y(h-1) = ch th + y(h)

2h

h1)-(hh

' c

t

ty=

y(h) = y(h-1) – ch th

Calcul des composantes PLS (scores)

Régressions de x(h-1) j et y(h-1)sur la composante PLS th



Variables xj et y centrées

, ..., H

hhh / www ← Le vecteur w est normé à 1

th = X(h-1) wh

y = Σ Σ Σ Σ ajxj= XaX = (x1, x2, ..., xJ)


Sélection du nombre de composantes PLS


Le nombre H de composantes PLS est déterminé par validation croisée (leave-one-out ou K-folds) à partir du minimum de la courbe du PRESS (PRediction Error Sum of Squares)

n

yXXb=y

(-i)y

( )2

i(-i)i ˆ� y-y

( )2

i

(h)(-i)

(h)i ˆ� y-y

PRESS =

PRESSh =

K = n

Xb=y(-i)y

Xb=y

(-i)y

hPRESS

Leave-one-out

On se donne un nombre K

Partitionnement de l'ensemble des données

en K ensembles

Validation croiséepar K-folds

Données d'apprentissage

h = numéro de la composante PLS

(ex. K = 4) La valeur minimum de la courbe indique le nombre de composantes PLS optimal


• Le nombre des expériences peut être inférieur à celui des variables explicatives x• Les coefficients du modèle respectent les signes (et intensités) des corrélations des variables

explicatives x avec la variable à expliquer y� Le coefficient aj peut être interprété comme étant la contribution de xj à la construction de y

• Méthode multidimensionnelle descriptive� Représentation des individus par des points dans l'espace orthonormé des composantes PLS� Représentation des variables x et y en tant que vecteurs par leurs corrélations avec les

composantes PLS ( cercle de corrélations) • On peut calculer :

� Ry2 : la part de variance de y expliquée par le modèle

� σσσσx2 : variance explicative des x (i.e. du nuage de points dans l'espace des composantes PLS)

• Les calculs statistiques propres aux MC ne sont pas applicables à la régression PLS� Pas de tests statistiques sur le modèle ou sur le LOF (équivalents du test de Fisher)� Pas de tests statistiques sur les coefficients (équivalents du test de Student)� Pas d'intervalle de confiance pour :

o les coefficients du modèleo les valeurs prédites par le modèle

• Pas de possibilité de réaliser directement des plans d'expériences pour la PLS

Avantages

Limites

Avantages et limites


Algorithme PLS bootsrap pour la sélection de variables


Données initialesn expériences


Données "out-of-bag" (oob)

Échantillon bootstrap (X ��, y ��

)

tirési individus n de ensemble *�C

non tirés i individus des ensemble C*�Échantillon non tiré

2*)i(−σ�*

)i(e −�*

(-i)y

Construction d’un modèle par apprentissage

Données de test�*

testy

Utilisation du modèle*expy

2*testσ�*etest

[+ Interv. de confiance de prédiction]

Tirage aléatoire uniforme avec remise

d'un échantillon de taille nn

nyXalgo. PLS+ K-folds

xtest ytest

xexp yexp

?

aX =y

y = Xαααα + εεεε

�� = 1, ..., L�� **ˆ aX* =y




tirési individus n des ensemble *�C

�� **ˆ aX* =yModèle PLS

T)a ..., ,a,a( tscoefficien *J

*2

*1

* �� =a

{ } L..., 1, ,a *j =��Pour toute variable xj on a

La variable xj sera éliminée si Prob ( aj = 0 ) ≥≥≥≥ αααα

où α est un seuil fixé

n

Pour �� = 1, ..., L bootstraps


Données out-of-bag (oob)non tirés i individus des ensemble C*�

Données out-of-bag

Erreur quadratique moyenne de prédiction out-of-bag : �

∈− −=

�

�

�

�

*

2*)(*

)(1

Ciii

*oob yy

CEQM

Erreur de prédiction : iii yye −= −−�� *

)(*

)( ˆ

Prédiction : �� ***)( )(ˆ i

Tiy xa=−

Q2oob sur données oob : ),ˆ( * yy �� 22 *

oob Cor Q =

Variance de prédiction

( )�=

−=L

1

2

i*i

2*i ˆ

L1

�

� yyσ

Indicateurs globaux de la qualité de prédiction du modèle

Indicateur ponctuel (en chaque point i) de la qualité de prédiction du modèle

Pour une expérience i

Pour �� = 1, ..., L bootstraps

�=

=L

1

*ii L

1ˆ�

�yy

Moyenne des prédictions en i


Variables X = (x1, x2, …, xJ) → y

Non

convergence ?

�� **ˆ modèledu on Constructi bX* =y

� bootstrap néchantillol' de Tirage

? L =�

Sélection des variables pertinentes

Oui

OuiNon

1 +← ��

X ←← ←←

Var

iabl

es sé

lect

ionn

ées

Analyse des critères de qualité des modèlesiter = iter +1

Algorithme PLS-boostrap

Calcul des critères de qualité du modèle2*

)i( : −σ variance{ } L ..., 1, ;e *

(-i) =��

L = nombre de bootstrapsααααoptimal = seuil fixé

Distributions relatives aux individus

{ } L ..., 1, ; t *ih =��

Composantes PLS t1, t2, ..., tH

{ } L ..., 1, ;ˆ *(-i) =��y

{ }LEQM oob ,...,1 ; * =��

{ }LQ oob ,...,1 ; 2* =��

{ }L ,...,1 ; * =��a

Prédictions sur individus de test xtest

{ } L..., 1, ;ˆ *test =��y

A chaque itérationDistributions relatives au modèle


Planification expérimentale adaptative pour régression PLS


Planification expérimentale adaptative pour régression PLSÉtape 0

)0(yσ)0(

candidaty

Étape 1Can

dida

ts

Étape K

...

)( ˆ (0))0()0( xy f=

Donné

es de

test

Donné

es

d'ap

pren

tissa

ge

X y

Candi

datsCan

dida

ts

)( ˆ (1))1()1( xy f= )( ˆ (K))K()K( xy f=

)1(yσ)1(

candidatyDon

nées

de te

st

Donné

es de

test

Donné

es

d'ap

pren

tissa

ge

X y

Donné

es

d'ap

pren

tissa

ge

X y

max )0(yσ max )1(

candidatσ

)0(ooby )0(

oobσ)0(e oob

(0)oobEQM2)0(

oobQ

)1(ooby )1(

oobσ)1(e oob

(1)oobEQM2)1(

oobQ

)(oobˆ Ky )( K

oobσ)(e Koob

(K)oobEQM2)(K

oobQ

)K(testy )K(

testσ)K(e test

(K)testEQM2)K(

testQ

)1(testy )1(

testσ)1(e test

(1)testEQM2)1(

testQ

)0(testy )0(

testσ)0(e test

(0)testEQM2)0(

testQ


• Nouvelles expériences à réaliser• BdD expérimentale• Simulateur numérique

Sélection de modèlepar PLS bootstrap

Sélection de modèlepar PLS bootstrap

Modèle bon ? ouinon Modèle optimal

Algorithme de planification adaptative

Candidats

Donné

es

d'ap

pren

tissa

ge

Donné

es de

test

Nouve

lles

expé

rienc

es +€ €€

Validation sur donnéesout-of-bagSélectionner

des nouvelles expériences

€

Critères statistiques

Étapes


• Wold H. (1966), Estimation of principal components and related models by iterative least squares. In P. Krishnaiah, editors. Multivariate Analysis, Academic Press, 391–420.

• Wold S., Esbensen K. and Geladi P. (1987), Principal component analysis Chemometrics and Intelligent Laboratory Systems, 2, 37–52. • Tenenhaus M. (1998), Ed. Technips, Paris• Mevik B., Wehrens R. (2007), The pls Package: Principal Component and Partial Least Squares Regression in R, Journal of Statistical

Software, January 2007, Volume 18, Issue 2., http://www.jstatsoft.org/• Lazraq A., Cléroux R., Gauchy J.-P. (2003), Selecting both latent and explanatory variables in PLS1 regression model, Chemometrics and

Intelligent Laboratory Systems 66 (2003) 117-126.• Gauchi J.-P., Chagnon P. (2001), Comparison of selection methods of explanatory variables in PLS regression with application to

manufacturing process data, Chemometrics and Intelligent Laboratory Systems 58 (2001) 171-193.• Faraj A., Noçairi H., Constant M. (2007), Sélection de modèle PLS par ré-échantillonnage bootstrap in Classification : points de vue croisés,

Revue des Nouvelles Technologies de l'Information, RNTI-C-2, Ed. M. Nadif.• Bastien P., Vinzi Esposito V., Tenehaus M. (2005), PLS generalised linear regression, Computational Statistics and Data Analysis 48 (2005)

17-46, Elsevier

• Droesbeke J.J., Fine J. et Saporta G. Éd (1997), Plans d'expériences : Applications à l'entreprise, Éditions Technip, Paris• Lewis G.A., Mathieu D., Phan-Tan-Luu R.(1999). - Pharmaceutical experimental design, Marcel Dekker Inc., New York• Myers R.H., Montgomery D.C. (2002), Response Surface Methodology : Process and Product Optimization Using Designed Experiments, J.

Wiley Ed., N-Y

PLANS D'EXPERIENCES POUR SURFACE DE REPONSE

• Efron B., Tibshirani R. (1993), An introduction to the Bootstrap, Chapman and Hall, London.

BOOTSTRAP

• NEMROD-W (LPRAI) : http:// www.nemrodw.com• Design Expert : http://www.statease.com/• http://www.r-project.org/ : site du projet cran [cf. librairie pls : Partial Least Squares Regression (PLSR) and Principal Component

Regression (PCR)]

Logiciels

REGRESSION PLS / Sélection de modèle pour régression PLS

Références bibliographiques

régression pls bootstrap et planif adaptative · 2018. 1. 24. · abdelaziz faraj atelier plan...

Documents