régression pls bootstrap et planif adaptative · 2018. 1. 24. · abdelaziz faraj atelier plan...
TRANSCRIPT
Abdelaziz FARAJ Atelier Plan d'expériences – Villeneuve Lès Avignon 14 au 16 septembre 2010
Algorithme PLS1
Abdelaziz FARAJ Atelier Plan d'expériences – Villeneuve Lès Avignon 14 au 16 septembre 2010
X = (x1, x2, ..., xJ) y
yw ' X=
X = t p' + E
2
'
ttXp =
E = X – t p'
Les variables xj et y sont centrées
y
y = c t + e
2
' c
tty=
e = y – c t
Calcul de la composante PLS (scores)
Régressions des xj et y sur la composante PLS t
Coefficients de régression (loadings)
Résidus de régression
= Σ Σ Σ Σ ajxj
www / ← Le vecteur w est normé à 1
t = X w
y = c t + e
><= 2, ctty
?
= Xa
Xet
yso
nt re
mpl
acés
par
les
rési
dus
Eet
e
xj = pj t + ej
><= 2jj , pttx
�=j
jj xw t
( ) cov jj xy,=w
( )( )�
=
jj
2
jj
,cov
,cov
yx
yxw
�=existent et :i
iijjiij
y x
yxw
Si données manquantes
�
�=
existe :j
2j
existe :jijj
i
ij
ij t
x
x
w
xw
Abdelaziz FARAJ Atelier Plan d'expériences – Villeneuve Lès Avignon 14 au 16 septembre 2010
h h
+ 1
y(0) = c1 t1 + … + cH tH + y(H) ���� y ≅≅≅≅ a1 x1 + … + aJ xJ
Pour h = 1Éta
pe 0
1)(h1)-(hh ' −= yw X
X(h-1) = th ph' + X(h)
2h
h1)-(hh
'
t
tXp =
X(h) = X(h-1) – th ph'
X(0) = X y(0) = y
y(h-1)
y(h-1) = ch th + y(h)
2h
h1)-(hh
' c
t
ty=
y(h) = y(h-1) – ch th
Calcul des composantes PLS (scores)
Régressions de x(h-1) j et y(h-1)sur la composante PLS th
Coefficients de régression (loadings)
Résidus de régression
Variables xj et y centrées
, ..., H
hhh / www ← Le vecteur w est normé à 1
th = X(h-1) wh
y = Σ Σ Σ Σ ajxj= XaX = (x1, x2, ..., xJ)
Abdelaziz FARAJ Atelier Plan d'expériences – Villeneuve Lès Avignon 14 au 16 septembre 2010
Algorithme PLS1 avec réduction de y
Abdelaziz FARAJ Atelier Plan d'expériences – Villeneuve Lès Avignon 14 au 16 septembre 2010
X = (x1, x2, ..., xJ) y
2
'
yyw X=
X = t p' + E
2
'
ttXp =
E = X – t p'
Les variables xj et y sont centrées
y
y = c t + e
2
' c
tty=
e = y – c t
Calcul de la composante PLS (scores)
Régressions des xj et y sur la composante PLS t
Coefficients de régression (loadings)
Résidus de régression
= Σ Σ Σ Σ ajxj
www / ← Le vecteur w est normé à 1
t = X w
><= 2jj , yyxw
y = c t + e
><= 2, ctty
?
= Xa
Xet
yso
nt re
mpl
acés
par
les
rési
dus
Eet
e
xj = pj t + ej
><= 2jj , pttx
�=j
jj xw t
( )
�
,cov 2
jj
y
yx=w
�
�=
existent et :i
2i
existent et :iiij
j
iij
iij
y x
y x
y
yx
w
Si données manquantes
�
�=
existe :j
2j
existe :jijj
i
ij
ij t
x
x
w
xw
Abdelaziz FARAJ Atelier Plan d'expériences – Villeneuve Lès Avignon 14 au 16 septembre 2010
h h
+ 1
y(0) = c1 t1 + … + cH tH + y(H) ���� y ≅≅≅≅ a1 x1 + … + aJ xJ
Pour h = 1Éta
pe 0
2
1)(h
1)(h1)-(hh
'
−
−=y
yw
X
X(h-1) = th ph' + X(h)
2h
h1)-(hh
'
t
tXp =
X(h) = X(h-1) – th ph'
X(0) = X y(0) = y
y(h-1)
y(h-1) = ch th + y(h)
2h
h1)-(hh
' c
t
ty=
y(h) = y(h-1) – ch th
Calcul des composantes PLS (scores)
Régressions de x(h-1) j et y(h-1)sur la composante PLS th
Coefficients de régression (loadings)
Résidus de régression
Variables xj et y centrées
, ..., H
hhh / www ← Le vecteur w est normé à 1
th = X(h-1) wh
y = Σ Σ Σ Σ ajxj= XaX = (x1, x2, ..., xJ)
Abdelaziz FARAJ Atelier Plan d'expériences – Villeneuve Lès Avignon 14 au 16 septembre 2010
Sélection du nombre de composantes PLS
Abdelaziz FARAJ Atelier Plan d'expériences – Villeneuve Lès Avignon 14 au 16 septembre 2010
Le nombre H de composantes PLS est déterminé par validation croisée (leave-one-out ou K-folds) à partir du minimum de la courbe du PRESS (PRediction Error Sum of Squares)
n
yXXb=y
(-i)y
( )2
i(-i)i ˆ� y-y
( )2
i
(h)(-i)
(h)i ˆ� y-y
PRESS =
PRESSh =
K = n
Xb=y(-i)y
Xb=y
(-i)y
hPRESS
Leave-one-out
On se donne un nombre K
Partitionnement de l'ensemble des données
en K ensembles
Validation croiséepar K-folds
Données d'apprentissage
h = numéro de la composante PLS
(ex. K = 4) La valeur minimum de la courbe indique le nombre de composantes PLS optimal
Abdelaziz FARAJ Atelier Plan d'expériences – Villeneuve Lès Avignon 14 au 16 septembre 2010
• Le nombre des expériences peut être inférieur à celui des variables explicatives x• Les coefficients du modèle respectent les signes (et intensités) des corrélations des variables
explicatives x avec la variable à expliquer y� Le coefficient aj peut être interprété comme étant la contribution de xj à la construction de y
• Méthode multidimensionnelle descriptive� Représentation des individus par des points dans l'espace orthonormé des composantes PLS� Représentation des variables x et y en tant que vecteurs par leurs corrélations avec les
composantes PLS ( cercle de corrélations) • On peut calculer :
� Ry2 : la part de variance de y expliquée par le modèle
� σσσσx2 : variance explicative des x (i.e. du nuage de points dans l'espace des composantes PLS)
• Les calculs statistiques propres aux MC ne sont pas applicables à la régression PLS� Pas de tests statistiques sur le modèle ou sur le LOF (équivalents du test de Fisher)� Pas de tests statistiques sur les coefficients (équivalents du test de Student)� Pas d'intervalle de confiance pour :
o les coefficients du modèleo les valeurs prédites par le modèle
• Pas de possibilité de réaliser directement des plans d'expériences pour la PLS
Avantages
Limites
Avantages et limites
Abdelaziz FARAJ Atelier Plan d'expériences – Villeneuve Lès Avignon 14 au 16 septembre 2010
Algorithme PLS bootsrap pour la sélection de variables
Abdelaziz FARAJ Atelier Plan d'expériences – Villeneuve Lès Avignon 14 au 16 septembre 2010
Données initialesn expériences
Données d'apprentissage
Données "out-of-bag" (oob)
Échantillon bootstrap (X ����, y ����
)
tirési individus n de ensemble *�C
non tirés i individus des ensemble C*�Échantillon non tiré
2*)i(−σ�*
)i(e −�*
(-i)y
Construction d’un modèle par apprentissage
Données de test�*
testy
Utilisation du modèle*expy
2*testσ�*etest
[+ Interv. de confiance de prédiction]
Tirage aléatoire uniforme avec remise
d'un échantillon de taille nn
nyXalgo. PLS+ K-folds
xtest ytest
xexp yexp
?
aX =y
y = Xαααα + εεεε
���� = 1, ..., L��� **ˆ aX* =y
Abdelaziz FARAJ Atelier Plan d'expériences – Villeneuve Lès Avignon 14 au 16 septembre 2010
Données d'apprentissage
Données d'apprentissage
tirési individus n des ensemble *�C
��� **ˆ aX* =yModèle PLS
T)a ..., ,a,a( tscoefficien *J
*2
*1
* ���� =a
{ } L..., 1, ,a *j =��Pour toute variable xj on a
La variable xj sera éliminée si Prob ( aj = 0 ) ≥≥≥≥ αααα
où α est un seuil fixé
n
Pour ���� = 1, ..., L bootstraps
Abdelaziz FARAJ Atelier Plan d'expériences – Villeneuve Lès Avignon 14 au 16 septembre 2010
Données out-of-bag (oob)non tirés i individus des ensemble C*�
Données out-of-bag
Erreur quadratique moyenne de prédiction out-of-bag : �
∈− −=
�
�
�
�
*
2*)(*
)(1
Ciii
*oob yy
CEQM
Erreur de prédiction : iii yye −= −−�� *
)(*
)( ˆ
Prédiction : ��� ***)( )(ˆ i
Tiy xa=−
Q2oob sur données oob : ),ˆ( * yy �� 22 *
oob Cor Q =
Variance de prédiction
( )�=
−=L
1
2
i*i
2*i ˆ
L1
�
� yyσ
Indicateurs globaux de la qualité de prédiction du modèle
Indicateur ponctuel (en chaque point i) de la qualité de prédiction du modèle
Pour une expérience i
Pour ���� = 1, ..., L bootstraps
�=
=L
1
*ii L
1ˆ�
�yy
Moyenne des prédictions en i
Abdelaziz FARAJ Atelier Plan d'expériences – Villeneuve Lès Avignon 14 au 16 septembre 2010
Variables X = (x1, x2, …, xJ) → y
Non
convergence ?
��� **ˆ modèledu on Constructi bX* =y
� bootstrap néchantillol' de Tirage
? L =�
Sélection des variables pertinentes
Oui
OuiNon
1 +← ��
X ←← ←←
Var
iabl
es sé
lect
ionn
ées
Analyse des critères de qualité des modèlesiter = iter +1
Algorithme PLS-boostrap
Calcul des critères de qualité du modèle2*
)i( : −σ variance{ } L ..., 1, ;e *
(-i) =��
L = nombre de bootstrapsααααoptimal = seuil fixé
Distributions relatives aux individus
{ } L ..., 1, ; t *ih =��
Composantes PLS t1, t2, ..., tH
{ } L ..., 1, ;ˆ *(-i) =��y
{ }LEQM oob ,...,1 ; * =��
{ }LQ oob ,...,1 ; 2* =��
{ }L ,...,1 ; * =��a
Prédictions sur individus de test xtest
{ } L..., 1, ;ˆ *test =��y
A chaque itérationDistributions relatives au modèle
Abdelaziz FARAJ Atelier Plan d'expériences – Villeneuve Lès Avignon 14 au 16 septembre 2010
Planification expérimentale adaptative pour régression PLS
Abdelaziz FARAJ Atelier Plan d'expériences – Villeneuve Lès Avignon 14 au 16 septembre 2010
Planification expérimentale adaptative pour régression PLSÉtape 0
)0(yσ)0(
candidaty
Étape 1Can
dida
ts
Étape K
...
)( ˆ (0))0()0( xy f=
Donné
es de
test
Donné
es
d'ap
pren
tissa
ge
X y
Candi
datsCan
dida
ts
)( ˆ (1))1()1( xy f= )( ˆ (K))K()K( xy f=
)1(yσ)1(
candidatyDon
nées
de te
st
Donné
es de
test
Donné
es
d'ap
pren
tissa
ge
X y
Donné
es
d'ap
pren
tissa
ge
X y
max )0(yσ max )1(
candidatσ
)0(ooby )0(
oobσ)0(e oob
(0)oobEQM2)0(
oobQ
)1(ooby )1(
oobσ)1(e oob
(1)oobEQM2)1(
oobQ
)(oobˆ Ky )( K
oobσ)(e Koob
(K)oobEQM2)(K
oobQ
)K(testy )K(
testσ)K(e test
(K)testEQM2)K(
testQ
)1(testy )1(
testσ)1(e test
(1)testEQM2)1(
testQ
)0(testy )0(
testσ)0(e test
(0)testEQM2)0(
testQ
Abdelaziz FARAJ Atelier Plan d'expériences – Villeneuve Lès Avignon 14 au 16 septembre 2010
• Nouvelles expériences à réaliser• BdD expérimentale• Simulateur numérique
Sélection de modèlepar PLS bootstrap
Sélection de modèlepar PLS bootstrap
Modèle bon ? ouinon Modèle optimal
Algorithme de planification adaptative
Candidats
Donné
es
d'ap
pren
tissa
ge
Donné
es de
test
Nouve
lles
expé
rienc
es +€ €€
Validation sur donnéesout-of-bagSélectionner
des nouvelles expériences
€
Critères statistiques
Étapes
Abdelaziz FARAJ Atelier Plan d'expériences – Villeneuve Lès Avignon 14 au 16 septembre 2010
• Wold H. (1966), Estimation of principal components and related models by iterative least squares. In P. Krishnaiah, editors. Multivariate Analysis, Academic Press, 391–420.
• Wold S., Esbensen K. and Geladi P. (1987), Principal component analysis Chemometrics and Intelligent Laboratory Systems, 2, 37–52. • Tenenhaus M. (1998), Ed. Technips, Paris• Mevik B., Wehrens R. (2007), The pls Package: Principal Component and Partial Least Squares Regression in R, Journal of Statistical
Software, January 2007, Volume 18, Issue 2., http://www.jstatsoft.org/• Lazraq A., Cléroux R., Gauchy J.-P. (2003), Selecting both latent and explanatory variables in PLS1 regression model, Chemometrics and
Intelligent Laboratory Systems 66 (2003) 117-126.• Gauchi J.-P., Chagnon P. (2001), Comparison of selection methods of explanatory variables in PLS regression with application to
manufacturing process data, Chemometrics and Intelligent Laboratory Systems 58 (2001) 171-193.• Faraj A., Noçairi H., Constant M. (2007), Sélection de modèle PLS par ré-échantillonnage bootstrap in Classification : points de vue croisés,
Revue des Nouvelles Technologies de l'Information, RNTI-C-2, Ed. M. Nadif.• Bastien P., Vinzi Esposito V., Tenehaus M. (2005), PLS generalised linear regression, Computational Statistics and Data Analysis 48 (2005)
17-46, Elsevier
• Droesbeke J.J., Fine J. et Saporta G. Éd (1997), Plans d'expériences : Applications à l'entreprise, Éditions Technip, Paris• Lewis G.A., Mathieu D., Phan-Tan-Luu R.(1999). - Pharmaceutical experimental design, Marcel Dekker Inc., New York• Myers R.H., Montgomery D.C. (2002), Response Surface Methodology : Process and Product Optimization Using Designed Experiments, J.
Wiley Ed., N-Y
PLANS D'EXPERIENCES POUR SURFACE DE REPONSE
• Efron B., Tibshirani R. (1993), An introduction to the Bootstrap, Chapman and Hall, London.
BOOTSTRAP
• NEMROD-W (LPRAI) : http:// www.nemrodw.com• Design Expert : http://www.statease.com/• http://www.r-project.org/ : site du projet cran [cf. librairie pls : Partial Least Squares Regression (PLSR) and Principal Component
Regression (PCR)]
Logiciels
REGRESSION PLS / Sélection de modèle pour régression PLS
Références bibliographiques