regression pls 1 2 disc logist
DESCRIPTION
Regression PlsTRANSCRIPT
-
1
PierrePierre--Louis Gonzalez Louis Gonzalez
Michel Michel TenenhausTenenhaus
Les Mthodes PLS
-
2
Les mthodes PLSinities par Herman et Svante Wold
I. NIPALS (Nonlinear Iterative Partial Least Squares)II. Rgression PLS (Partial Least Squares Regression)
II.1 PLS1II.2 PLS2
III Analyse discriminante PLSIV. Rgression logistique PLS
-
3
Analyse en composantes principales Possibilit de donnes manquantes. Validation croise pour choisir le nombre
de composantes. Identification des outliers avec
- une carte de contrle des observations,- des tests sur les carts au modle de lACP.
I. La mthode NIPALS
-
4
Utilisation de NIPALS :Exemple voitures
Modle Cylindre Puissance Vitesse Poids Longueur LargeurHonda Civic . 90 174 850 369 166Renault 19 1721 . 180 965 415 169Fiat Tipo 1580 83 . 970 395 170
Citron AX Sport 1294 95 184 730 350 .
Il y a une observation manquante par vhicule !
Le principe de NIPALS: Comment projeter un point avec donnes manquantes ?
-
5
**
*
*
**
**
0
xi
ti
xi
u
u
usur xde constante sans carrs moindres des
droite la de penteu'uu'xt
i
ii ==
0
oo
o
o o
o
Projection sur un axe
-
6
**
*
*
**
**
0
xi
ti
xi
u
u
sdisponible
donnes lessur calculest ''
manquantes donnes des ay ilS'
uuuxt ii =
0
oo
o
oo
o
Valeur manquante
Projection dun point avec donnes manquantes sur un axe
-
7
L algorithme NIPALSRecherche des composantes principales
Donnes :X = {xij} tableau nk , xj = variable j xi = observation i
Modle de l ACP :X = t1p1 + + tkpk avec (1) p1, , pk orthonorms ( axes )et (2) t1, , tk orthogonaux
( composantes principales )
-
8
L algorithme NIPALSRecherche de la premire composante principale
Modle : X = t1p1 + rsidu, avec p1 norm Algorithme : les quations de base
(1) Si t1 connu, calcul de p1j par rgression :xj = p1jt1 + rsidu
(2) Normalisation de p1 = (p11,,p1k)(3) Si p1 connu, calcul de t1i par rgression :
xi = t1ip1 + rsidu
Algorithme : fonctionnement- Prendre t1 = x1 , puis itrer sur (1), (2), (3).- Si donnes manquantes, faire les calculs sur toutes les donnes
disponibles.
-
9
Commentaires:
Les relations cycliques dcoulant des quations de base de lalgorithme montrent que 1 est la plus grande valeur propre vrifiant les quations suivantes:
Nous avons divis par n-1 pour retrouver les rsultats de SIMCA.Ce calcul est une application de la mthode de la puissance itre pour le calcul du vecteur propre dune matrice associ la plus grande valeur propre ( Hotelling-1936; Anderson-1958)
1 1 1
1 1 1
1 '1
1 '1
X X p pn
X X t tn
=
=
-
10
**
*
*
**
**
0
xi
t1i
xip1
11
1 1
i 1
' p p e n te d e la d ro i te p 'p
d e s m o in d re s c a r r s s a n s c o n s ta n te d e x s u r p
ii
xt = =
0
oo
o
o o
o
Projection sur l axe 1
p1
-
11
L algorithme NIPALSRecherche des autres composantes principales
La premire tape donne :
X = t1p1 + X1 On rpte les oprations prcdentes sur la matrice
des rsidus X1 de la rgression de X sur t1.
On obtient : X1 = t2p2 + X2et X = t1p1 + t2p2 + X2
On obtient de mme les autres composantes.
-
12
RESSh et PRESSh
Residual Sum of Squares : 2ijj,i
ijh )xx(RESS =
Les cases de X sont partages en G groupes, et on ralise G factorisationsen enlevant chaque fois un seul des groupes.
Predicted Residual Sum of Squares :
2)ij(
j,iijh )xx(PRESS =
o est calcul dans lanalyse ralise sans le groupecontenant la case (i,j).
)ij (x
A chaque tape on tudie la reconstitution du tableau X :
'hh
'22
'11 pt...ptptX +++=
-
13
L algorithme NIPALSChoix du nombre de composantes
On choisit le nombre de composantes principales par validation croise.
La composante th est retenue si
limiteRESSPRESS1Q
1h
h2 =
-
14
Q2(cum) et R2(validation croise)
=
=h
a a
ahcum RESS
PRESSQ1 1
2 1][
peu diffrent de
=
j
2j
h2croise validation s
1n/PRESS1R
CONSEIL : Modle h composantes acceptable si [Q2cum]h > 0.5
La composante h est retenue si :
122 ][ suprieur nettement est ][ hcumhcum QQ
-
15
Utilisation de NIPALS :Exemple voitures
La validation croise conduit deux composantes.
0.00
0.20
0.40
0.60
0.80
1.00
Comp[1] Comp[2] Comp[3] Comp[4]
R2X
(cum
) & Q
2(cu
m)
autobis.M1 (PC), Untitled, Work setModel Overview (cum)
R2X(cum)Q2(cum)
Simca-P 8.0 by Umetrics AB 2000-05-30 18:38
-
16
0.0 0.1 0.2 0.3 0.4
-0.4
-0.2
0.0
0.2
0.4
0.6
CYLINDRE
PUISSANCE
VITESSE
POIDSLONGUEUR
LARGEUR
Sim
ca-P
3.0
1 by
Um
etri
AB
199
8-11
-21
14:2
6
NIPALS : Exemple Voitures
Carte des variables ("les vecteurs propres")p[
2]
p[1]
-
17
-4 -2 0 2 4
-2
-1
0
1
2
honda cirenault
fiat tip peugeot renault citroen
bmw 530irover 82renault
opel ome
peugeot
ford sie
bmw 325i
audi 90
ford sco
renault
nissan vvw carav
ford fie
fiat uno
peugeot
peugeot
seat ibi
citroen
Ellipse: Hotelling T2 (0.05)
Sim
ca-P
3.0
1 by
Um
etri
AB
1998
-11-
21 1
4:29
NIPALS : Exemple VoituresCarte des voitures (les 2 premires "composantes principales")
t[2]
t[1]
-
18
NIPALS : Identification des outliersCarte de contrle des distances au modle normalises
0.00
0.20
0.40
0.60
0.80
1.00
1.20
1.40
1.60
1.80
2.00
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
DM
odX
[2]
Dcrit [2] = 2.00746, Normalized distances, Non weighted residuals
DCrit (0.05)
honda civic
renault 19fiat tipo
peugeot 405renault 21
citroen bxbmw 530i
rover 827i
renault 25
opel omega
peugeot 405bford sierra
bmw 325ix
audi 90 quat
ford scorpio
renault espa
nissan vanet
vw caravelle
ford fiesta
fiat uno
peugeot 205
peugeot 205r
seat ibiza scitroen a
Simca-P 8.0 by Umetrics AB 2000-05-30 19:00
-
19
Calcul de la limite de contrleProprit :
Limite de contrle :
**
*
*
** *
*
xi
yi)k,k(F
)y,x(dn1
)y,x(d
DModX
21n
1iii
2
ii2
=
=
)k,k(F 2195.0
-
20
Probabilit dappartenir au modle
Test : H0 : lobservation i appartient au modle de lACPH1 : lobservation i nappartient pas au modle
Dcision : On rejette H0 au risque de se tromper si
),( DModX 211 kkF
Niveau de signification ou probabilit dappartenir au
modle : Plus petit conduisant au rejet de H0= Prob (F(k1,k2) DModX2)
Lindividu i est exactement sur la limite de contrle DCrit(min)
-
21PModX(Nissan Vanette) = 0.08
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0.90
1.00
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
M1.
PM
odX
[2]
M1.Num
NIPALS : Exemple Voitures"Probabilit" d'appartenir au modle ACP (2 composantes)
honda civic
renault 19
fiat tipopeugeot 405
renault 21
citroen bxbmw 530i
rover 827i
renault 25
opel omega
peugeot 405bford sierra
bmw 325ix
audi 90 quat
ford scorpio
renault espa
nissan vanet
vw caravelle
ford fiesta
fiat uno
peugeot 205
peugeot 205r
seat ibiza scitroen a
Simca-P 8.0 by Umetrics AB 2000-05-22 11:34
-
22
II. La rgression PLS Relier un bloc de variables expliquer Y un
bloc de variables explicatives X. Possibilit de donnes manquantes. Il peut y avoir beaucoup plus de variables X que
dobservations. Il peut y avoir beaucoup plus de variables Y que
dobservations. Meilleure rponse au problme de la
multicolinarit.
-
23
La rgression PLS : vocabulaire
Rgression PLS1 : un seul Y
Rgression PLS2 : plusieurs Y
Analyse discriminante PLS : Y qualitatif transform en variables indicatrices des modalits
-
24
II.1. La rgression PLS1 :une ide de lalgorithme
Etape 1 : Recherche de m composantes orthogonales th = Xah bien explicatives de leur propre groupe et bien corrles y. Le nombre m est obtenu par validation croise.
Etape 2 : Rgression de Y sur les composantes PLS th .
Etape 3 : Expression de la rgression en fonction de X.
-
25
Objectif de ltape 1 de la rgression PLS1
***
***
X2
X1
CPX1t1
*** **
*
*y
CPX1
t1
y
**
*** *
-
26
La rgression PLS1 : une ide de ltape 1 lorsquil ny a pas de donnes manquantes
Pour chaque h = 1 m, on recherche descomposantes th = Xah maximisantle critre
Cov (Xah , y)
sous des contraintes de norme ( ) etdorthogonalit entre th et les composantesprcdentes t1 ,, th-1.
1=ha
-
27
Proprits de la rgression PLS1
De Cov2(Xah , y) = Cor2(Xah , y)*Var(Xah)*Var(y)
on dduit que la rgression PLS1 ralise un
compromis entre la rgression multiple de y sur X et
lanalyse en composantes principales de X.
-
28
Rgression PLS1: tape 11. Calcul de la premire composante PLS t1 :
==j
jj xxycorXat ),(11
2. Normalisation du vecteur a1= (a11,,a1k)
3. Rgression de y sur t1=Xa1 exprime en fonction des x
4. Calcul des rsidus y1 et X1 des rgressions de y et X sur t1 :- y = c1t1 + y1- X = t1p1 + X1
Lors de cette tape les covariances sont gales aux corrlations, puisque toutes les donnes sont centres rduites
-
29
Rgression PLS1: tape 21. Calcul de la deuxime composante PLS t2 :
==j
jj xxybXt 111212 ),cov(
2. Normalisation du vecteur b2= (b21,,b2k)
3. Calcul de a2 tel que : t2 = X1b2 = Xa24. Rgression de y1 sur t2 = Xa2 exprime en fonction des x
5. Calcul des rsidus y2 et X2 des rgressions de y et X1sur t2 :
- y1 = c2t2 + y2- X1 = t2p2 + X2
-
30
Rgression PLS1: tapes suivantes
Do le modle de rgression PLS m composantes :y = c1t1 + c2t2 + + cmtm + Rsidu
= c1Xa1 + c2Xa2 + + cmXam + Rsidu = X(c1a1 + c2a2 + + cmam) + Rsidu= b1x1 + b2x2 + + bkxk + Rsidu
On procde de la mme manire pourles autres composantes.
y
-
31
Calcul de RESSh et PRESSh ltape h
Les observations sont partages en G groupes, et on ralise G fois ltapecourante de lalgorithme sur yh-1 et Xh-1 en enlevant chaque fois un groupe.
Predicted Residual Sum of Squares :
2i),1h(
ii),1h(h )yy(PRESS =
o est calcul dans lanalyse ralise sans le groupe
contenant lobservation (i).i),1h(y
Residual Sum of Squares : 2i),1h(i
i),1h(h )yy(RESS = o hihi),1h( tcy = est la prvision de y(h-1),i
-
32
Choix du nombre de composantes
On choisit le nombre de composantespar validation croise.
La composante h est retenue si
[PRESSh] 0.95[RESSh-1]
Soit :05.0
RESSPRESS1Q
1h
h2 =
-
33
Q2(cum) et R2(validation croise)
=
=h
a a
ahcum RESS
PRESSQ1 1
2 1][
peu diffrent de
=
ii
h
yyPRESSR 2
2croise validation )(
1
Modle h composantes acceptable si [Q2cum]h > 0.5
La composante h est retenue si :
122 ][ suprieur nettement est ][ hcumhcum QQ
-
34
Variable Importance in the Prediction(VIP)
Importance de la variable xj (j=1,, p) pour la prdiction de y dans un modle m composantes :
==
=m
hhjhm
hh
mj btyRtyR
pVIP1
22
1
2),(
),(
Composantes PLS : th = Xh-1bh, avec ||bh|| = 1
Moyenne des carrs des VIP = 1 Variable importante pour la prdiction si VIP > 0.8
-
35
Rgression PLS1 : Exemple VoituresProblmes : multicolinarit, donnes manquantes
Modle Prix Cylindre Puissance Vitesse Poids Longueur LargeurHonda Civic 83700 . 90 174 850 369 166Renault 19 83800 1721 . 180 965 415 169Fiat Tipo 70100 1580 83 . 970 395 170
Citron AX Sport 66800 1294 95 184 730 350 .
Modle Prix Cylindre Puissance Vitesse Poids Longueur LargeurHonda Civic 83700 1396 90 174 850 369 166Renault 19 83800 1721 92 180 965 415 169Fiat Tipo 70100 1580 83 170 970 395 170
Citron AX Sport 66800 1294 95 184 730 350 160
Donnes compltes
Donnes incompltes
-
36
Rgression multiple sur les donnes compltes
R2 = 0.847, F = 15.730 Sig. = 0.0001
Coefficientsa
12070.406 194786.6 .062 .951-1.936 33.616 -.018 -.058 .955
1315.906 613.510 .888 2.145 .047-472.507 740.319 -.207 -.638 .532
45.923 100.047 .184 .459 .652209.653 504.152 .151 .416 .683
-505.429 1501.589 -.067 -.337 .741
(Constant)CYLINDREPUISSANCVITESSEPOIDSLONGUEURLARGEUR
Model B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: PRIXa.
-
37
Corrlations entre les variablesCorrelation Matrix
1.000 .852 .891 .720 .813 .747 .611.852 1.000 .861 .693 .905 .864 .709.891 .861 1.000 .894 .746 .689 .552.720 .693 .894 1.000 .491 .532 .363.813 .905 .746 .491 1.000 .917 .791.747 .864 .689 .532 .917 1.000 .864.611 .709 .552 .363 .791 .864 1.000
PRIXCYLINDREPUISSANCVITESSEPOIDSLONGUEURLARGEUR
PRIX CYLINDRE PUISSANC VITESSE POIDS LONGUEUR LARGEURCorrelation
-
38
Rgression PLS sur les donnes incompltesChoix du nombre de composantes
0.00
0.20
0.40
0.60
0.80
1.00
Comp[1] Comp[2] Comp[3]
R2Y
(cum
) & Q
2(cu
m)
autopbis.M1 (PLS), Untitled, Work setModel Overview (cum)
R2Y(cum)Q2(cum)
Simca-P 8.0 by Umetrics AB 2000-05-30 18:11
On retient une composante PLS
-
39
Rgression PLS sur les donnes incompltesR2 = 0.761
*ur0.129Large *eur0.153Longu *0.165Poids
*se0.146Vites *ance0.206Puiss *dre0.183Cylin 2.18 )(Pr
Pr
+++
+++=ix
ix
quation sur les donnes centres-rduites (CoeffCS)
quation sur les donnes dorigine (Coeff)
Prix = -316 462 + 23Cylindre + 328Puissance + 339Vitesse
+ 40Poids + 205Longueur + 1007Largeur
quation sur les donnes dorigine pour Y et centres pour X (CoeffC)
Prix = 125513 + 23(Cylindre - 1888) + 328(Puissance - 112) + 339(Vitesse - 182)
+ 40(Poids - 1113) + 205(Longueur - 422) + 1007(Largeur - 168)
-
40
Rsultats de la validation croisesur les coefficients de rgression PLS
0.10
0.12
0.14
0.16
0.18
0.20
0.22
0.24
CYLIN
DR
E
PU
ISS
AN
C
VITE
SS
E
PO
IDS
LON
GU
EU
R
LAR
GE
UR
PRIX
Audi 90 Quattro
-
41
Rsultats de la validation croisesur les coefficients de rgression PLS
B SE Student T p-valueCylindrePuissanceVitessePoidsLongueurLargeur
0.18270.20600.14650.16530.15250.1286
0.03710.05700.04300.01810.01750.0299
4.9253.6143.4079.1338.7144.301
0.00010.00050.00020.00010.00010.0001
-
42
Carte des variables
-0.60
-0.40
-0.20
0.00
0.20
0.40
0.60
-0.80 -0.70 -0.60 -0.50 -0.40 -0.30 -0.20 -0.10 0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80
w*c
[2]
w*c[1]
XY
CYLINDRE
PUISSANCE
VITESSEPOIDS
LONGUEUR
LARGEUR
PRIX
-
43
Validation globale
- Abscisse : Corrlation entre Y et Y permut- Ordonne : R2 et Q2 de la rgression PLS de Y permut sur X- Les droites noire et rouge sont les droites des moindres carrs
-0.20
-0.10
0.00
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00
Autoprib.M1 (PLS): Validate ModelPRIX Intercepts: R2=(0.0, -0.0144), Q2=(0.0, -0.192)
200 permutations 1 components
R2Q2
-
44
0.00
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0.90
1.00
1.10
1.20P
UIS
SA
NC
CY
LIN
DR
E
PO
IDS
LON
GU
EU
R
VIT
ES
SE
LAR
GE
UR
VIP
[1]
Exemple VoituresVariable Importance in the Projection (1 composante)
Simca-P 8.0 by Umetrics AB 2000-05-22 12:05
-
45
Rgression PLS sur les donnes incompltes
50000
100000
150000
200000
250000
40000 60000 80000 100000 120000 140000 160000 180000 200000 220000 240000
Y
Predicted
AUTOPRIB.M1 (PLS), Modle 1, Work setPRIX, Comp 1(Cum)
RMSEE=28979
honda ci renault fiat tip
peugeot renault citroen
bmw 530i
rover 82
renault
opel omepeugeot ford sie
bmw 325i
audi 90
ford scorenault
nissan v
vw carav
ford fiefiat unopeugeot peugeot seat ibicitroen
Simca-P 7.01 by Umetri AB 1998-11-23 09:40
-
46
Intervalle de confiance 95% du prix moyen(fourni par SIMCA)
prvision
3000002000001000000
PR
IX300000
200000
100000
0
-
47
Intervalle de prvision 95% du prix ( calculer)
prvision
3000002000001000000
PR
IX
300000
200000
100000
0
audi 90 quattro
-
48
Prdiction du prix de la HONDA CIVIC(Problme : certains X sont manquants)
Prix de vente : 83 700 FF
Caractristiquesde la Honda Civic
Caractristiquescentres-rduites
CylindrePuissanceVitessePoidsLongueurLargeur
?90
174850369166
?-.61009-.32011
-1.10172-1.23196-.32679
-
49
Prdiction du Prix de la HONDA CIVIC
Calcul de tPS1 pour la HONDA CIVIC :
- Rgression : Xj = p1jt1 + erreur, j = 1,, p
p1 = (p11, , p1p)
- Rgression : xi = tPS1ip1 + erreur
sur les donnes disponibles; d o le calcul de tPS1i tPS1(Honda Civic) = -1.84262 est lestimation de t1i
Prdiction du prix de la HONDA CIVIC- On utilise tPS1 la place de t1
Prdiction du Prix = 82 644.5 FF
Rgression du Prix sur t1 :
1 0.4045789 503 57512 125 -Prix t
-
50
Prdiction du Prix de la HONDA CIVIC : calcul de tPS1 (Honda Civic)
=
36.039.039.037.045.048.0
)(
33.23.110.1
32.61.?
1 HondatPSxHonda tPS1(Honda) = -1.84262
P1CylindrePuissanceVitessePoidsLongueurLargeur
0.480.450.370.390.390.36
-
51
Rgression PLS1 : Cas UOP Guided WaveProblme : 226 variables X et 26 observations
Les donnes : Y = indice doctane X1, X2, , X226 :
valeurs dabsorbance diffrentes longueurs donde
Donnes de calibration :26 chantillons dessence (dont 2 avec alcool)
Donnes de validation :13 chantillons dessence (dont 4 avec alcool)
-
52
Cas UOP Guided Wave Visualisation des X
Octane - Matrix Plot, Sam.Set: All Samples, Var.Set: Selected Variables
H17
H36
S.016
11001200
13001400
1500
a
m
p
l
e
s X -V a r
i ab l e
s
-4.469e-03 0.113 0.231 0.349 0.467 0.585
-
53
Cas UOP Guided Wave Visualisation des X : Donnes de calibration
Sequence number
217
205
193
181
169
157
145
133
121
109
97
85
73
61
49
37
25
13
1
.7
.6
.5
.4
.3
.2
.1
0.0
-.1
M52
H59
Les chantillons M52 et H59 contiennent de l alcool
-
54
Cas UOP Guided Wave Visualisation des X : Donnes de validation
Les chantillons avec alcool sont en rouge
Numro de la longueur d'onde
217
205
193
181
169
157
145
133
121
109
97
85
73
61
49
37
25
13
1
.7
.6
.5
.4
.3
.2
.1
0.0
-.1
-
55
Rgression PLS1 : les rsultats
Donnes de spectroscopieLes donnes sont centres, mais non rduites
Validation croise :3 composantes PLS
-
56
UOP Guided Wave : Les composantes PLS
-0.40
-0.20
0.00
0.20
0.40
-0.40 -0.30 -0.20 -0.10 0.00 0.10 0.20 0.30 0.40 0.50 0.60
t[2]
t[1]
OCTANE.M4 (PLS), Untitled, Work setScores: t[1]/t[2]
Ellipse: Hotelling T2 (0.05)
M01M02
M05
L06
H11H12
L13
L14L15
H17
M18
H20
L21
H24H27
L29L31
H32
L35
H36
L37
H38
H39
L40
M52 H59
Simca-P 7.01 by Umetri AB 1998-11-23 12:14
- Indice d octane : L = Low, M = Medium, H = High- Les chantillons M52 et H59 contiennent de lalcool
-
57
UOP Guided Wave : les composantes PLS
-0.100
-0.050
0.000
0.050
0.100
-0.50 -0.40 -0.30 -0.20 -0.10 0.00 0.10 0.20 0.30 0.40 0.50
t[3]
t[2]
OCTANE.M4 (PLS), Untitled, Work setScores: t[2]/t[3]
Ellipse: Hotelling T2 (0.05)
M01M02 M05
L06H11
H12L13
L14L15
H17
M18
H20
L21
H24H27L29
L31
H32
L35
H36
L37
H38
H39
L40M52
H59
Simca-P 7.01 by Umetri AB 1998-11-23 12:41
Indice d octane : L = Low, M = Medium, H = High
-
58
Cas UOP Guided Wave : PrvisionDonnes de calibration
87
88
89
90
91
92
87 88 89 90 91 92
Y
Predicted
OCTANE.M4 (PLS), Untitled, Work setOCTANE, Comp 3(Cum)
RMSEE=0.290788
M01M02M05
L06
H11H12
L13L14L15
H17
M18
H20
L21
H24 H27
L29L31
H32
L35
H36
L37
H38H39
L40
M52
H59
Simca-P 7.01 by Umetri AB 1998-11-23 12:53
-
59
Cas UOP Guided Wave : PrvisionDonnes de validation
87
88
89
90
91
92
87 88 89 90 91 92
Obs
erve
d
Predicted
OCTANE.M5 (PLS), Untitled, PS-OCTANEOCTANE, Comp 3 (Cum)
RMSEP=0.256792
S.003S.004
S.010
S.016
S.019
S.022
S.025
S.026
S.034
S.055
S.056
S.057S.058
Simca-P 7.01 by Umetri AB 1998-11-23 13:11
Prsence d alcool : OUI / NON
-
60
II.2 La rgression PLS2
Relier un bloc de variables expliquer Y un bloc de variables explicatives X.
Possibilit de donnes manquantes. Il peut y avoir beaucoup plus de variables X que
dobservations. Il peut y avoir beaucoup plus de variables Y que
dobservations.
-
61
La rgression PLS2 : une ide de lalgorithme
Etape 3 : Expression de la rgression en fonction de X.
Etape 1 : Recherche de m composantes orthogonalesth = Xah et m composantes uh= Ybh bien corrlesentre elles et explicatives de leur propre groupe.
Le nombre m est obtenu par validation croise.
Etape 2 : Rgression de Y sur les composantes th .
-
62
Objectif de ltape 1 de la rgression PLS2
***
***
X2
X1
CPX1t1
*** **
*
*CPY1u1
Y2
Y1
t1
u1
**
*** *
-
63
La rgression PLS2 : une ide de ltape 1 lorsquil ny a pas de donnes manquantes
Pour chaque h = 1 m, on recherche descomposantes th = Xah et uh= Ybh maximisantle critre
Cov (Xah , Ybh )sous des contraintes de norme et dorthogonalitentre th et les composantes prcdentes t1 ,, th-1.
-
64
Interprtation du critre de Tucker
De Cov2(Xah , Ybh ) = Cor2(Xah , Ybh )* Var(Xah)*Var(Ybh)
on dduit que la rgression PLS ralise uncompromis entre lanalyse canoniquede X et Y, une ACP de X, et une ACP oblique de Y.
-
65
Variable Importance in the Prediction (VIP)
Importance de la variable xj (j=1, p) pour la prdiction des yk (k=1, q) dans un modle m composantes :
= == =
=m
hhj
q
khkm
h
q
khk
mj btyRtyR
pVIP1
2
1
2
1 1
2]),([
);(
Composantes PLS : th = Xh-1bh , avec ||bh|| = 1
Moyenne des carrs des VIP = 1 Variable importante pour la prvision si VIP > 0.8
-
66
Rgression PLS2Exemple 1: Dgustation de th
Les donnesObs Temprature Sucr Force Citron Sujet 1 Sujet 61 1 1 1 1 4 52 1 2 2 1 2 83 1 3 3 2 6 6
11 1 2 1 1 1 14
18 3 3 1 2 12 15
Temprature Sucr Force Citron1 = Chaud2 = Tide3 = Glac
1 = Pas de sucre2 = 1 sucre3 = 2 sucres
1 = Fort2 = Moyen3 = Faible
1 = Avec2 = Sans
-
67
Cas Dgustation de th
Bloc XVariables indicatrices des modalitsde Temprature, Sucr, Force et Citron
Bloc YLes classements des sujets
-
68
Cas Dgustation de thRsultats de la rgression PLS
Validation croise :
3 composantes : th = Xwh* et uh = Ych
quation de rgression de Yk sur t1, , th :
Yk = c1kt1 + c2kt 2+ c3kt3 + c4kt4 + rsidu
Les variables X et Y sont reprsentes laidedes vecteurs wh* et ch.
-
69
Cas Dgustation de thCarte des variables
-0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 0.8-0.6
-0.4
-0.2
0.0
0.2
0.4
0.6
CHAUD
TIEDE
GLACSUCRE0
SUCRE1
SUCRE2
FORTMOYEN
LEGER
CITRON1
CITRON0Y1
Y2
Y3
Y4
Y5
Y6
Sim
ca-P
3.0
1 by
Um
etri
AB
199
8-11
-23
18:1
1
THE.M1 (PLS), rgression PLS, WorksetLoadings: w*c[1]/w*c[2]
w*c
[2]
w*c[1]
-
70
Cas dgustation de thVisualisation de la rgression PLS de Y1 sur X
-0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 0.8-0.6
-0.4
-0.2
0.0
0.2
0.4
0.6
CHAUD
TIEDE
FROIDSUCRE0
SUCRE1
SUCRE2
FORTMOYEN
LEGER
CITRON1
CITRON0Y1
Y2
Y3
Y4
Y5
Y6
Sim
ca-P
3.0
1 by
Um
etri
AB
1998
-11-
23 1
8:11
THE.M1 (PLS), rgression PLS, WorksetLoadings: w*c[1]/w*c[2]
w*c
[2]
w*c[1]
CH
AUD
TIED
E
FRO
ID
SUC
RE0
SUC
RE1
SUC
RE2
FOR
T
MO
YEN
LEG
ER
CIT
RO
N1
CIT
RO
N0
-0.6
-0.4
-0.2
0.0
0.2
0.4
Coe
ffCS5
[4]
Sim
ca-P
3.0
1 by
Um
etri
AB
1998
-11-
23 1
9:14
THE rgression PLS M1.Y1 (CoeffCS) [4]
Rgle dinterprtation:Les projections des variables X sur les variables Y refltent le signe et lordre de grandeur des coefficients de rgression PLS des Y sur X.Le juge 1 aime son th chaud et rejette le th tide
-
71
Validation du modle pour le juge 1
-0.60
-0.40
-0.20
0.00
0.20
0.40
0.60
CH
AUD
TIED
E
FRO
ID
SUC
RE0
SUC
RE1
SUC
RE2
FOR
T
MO
YEN
LEG
ER
CIT
RO
N1
CIT
RO
N0
Coe
ffCS[
4](Y
1)
Var ID (Primary)
-
72
Cas dgustation de thVisualisation de la rgression PLS de Y5 sur X
-0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 0.8-0.6
-0.4
-0.2
0.0
0.2
0.4
0.6
CHAUD
TIEDE
FROIDSUCRE0
SUCRE1
SUCRE2
FORTMOYEN
LEGER
CITRON1
CITRON0Y1
Y2
Y3
Y4
Y5
Y6
Sim
ca-P
3.0
1 by
Um
etri
AB
1998
-11-
23 1
8:11
THE.M1 (PLS), rgression PLS, WorksetLoadings: w*c[1]/w*c[2]
w*c
[2]
w*c[1]
CH
AU
D
TIED
E
FRO
ID
SU
CR
E0
SU
CR
E1
SU
CR
E2
FOR
T
MO
YEN
LEG
ER
CIT
RO
N1
CIT
RO
N0
-0.4
-0.2
0.0
0.2
0.4
Coe
ffCS9
[4]
Sim
ca-P
3.0
1 by
Um
etri
AB
1998
-11-
23 1
9:26
THE rgression PLS M1.Y5 (CoeffCS) [4]
Le juge 5 prfre son th sans citron, fort;il est indiffrent au th tide; il rejette le th lger, avec du citron.
-
73
Validation du modle pour le juge 5
-0.40
-0.20
0.00
0.20
0.40
CH
AUD
TIED
E
FRO
ID
SUC
RE0
SUC
RE1
SUC
RE2
FOR
T
MO
YEN
LEG
ER
CIT
RO
N1
CIT
RO
N0
Coe
ffCS[
4](Y
5)
Var ID (Primary)
-
74
Carte des produits dans lespace des juges
-2
-1
0
1
2
-2 -1 0 1 2
u[2]
u[1]
Dgustation de thsScores: u[1]/u[2]
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
Simca-P 8.0 by Umetrics AB 2000-11-27 10:19
-
75
Variable Importance in the Projection (VIP)
0.00
0.20
0.40
0.60
0.80
1.00
1.20
1.40
1.60
TIE
DE
CH
AU
D
SU
CR
E0
SU
CR
E2
LEG
ER
CIT
RO
N1
CIT
RO
N0
FOR
T
FRO
ID
MO
YE
N
SU
CR
E1
VIP
[4]
THE.M1 (PLS), Untitled, Work setVIP, Comp 4(Cum)
Simca-P 8.0 by Umetrics AB 2000-03-08 08:01
-
76
III. Analyse discriminante PLS
Bloc YLa variable qualitative Y est remplace par lensemble des variables indicatrices de ses modalits.
Bloc XVariables numriques ou indicatrices des modalits des variables qualitatives.
Rgression PLS de Y sur X
-
77
Analyse discriminante PLS : exemple
16 biopsies de tumeurs de cerveau humain. Chaque tumeur est classe par un mdecin anatomo-
pathologiste comme bnigne ou maligne. Chaque biopsie est analyse par chromatographie en phase
gazeuse : on obtient un profil mtabolique de la biopsie form de 156 pics.
Quelques donnes manquantesArticle:
Jellum E., Bjrnson I., Nesbakken R., Johanson E., Wold S. Classification of human cancer cells by means of capillary gas chromatography and pattern recognition analysis. ( Journal of Chromatography, 1981)
Les donnes
-
78
Analyse discriminante PLSProfils mtaboliques des biopsies
Sequence number
153145
137129
121113
10597
8981
7365
5749
4133
2517
91
1400
1200
1000
800
600
400
200
0
N1
N4
N5
N13
N14
N15
Sequence number
153145
137129
121113
10597
8981
7365
5749
4133
2517
91
1200
1000
800
600
400
200
0
T2
T3
T6
T7
T8
T9
T10
T11
T12
T16
Tumeurs bnignes Tumeurs malignes
-
79
Analyse en composantes principales des 16 biopsiesComposantes principales 1 et 2
-10
-5
0
5
10
-10 0 10
t[2]
t[1]
EGI1.M4 (PC), Untitled, Work setScores: t[1]/t[2]
Ellipse: Hotelling T2 (0.05)
N1
T2
T3 N4
N5
T6T7
T8
T9T10
T11
T12
N13
N14
N15
T16
Simca-P 7.01 by Umetri AB 1998-11-24 15:17
-
80
Analyse en composantes principales des 16 biopsiesComposantes principales 1 et 3
-10
-5
0
5
10
-10 0 10
t[3]
t[1]
EGI1.M4 (PC), Untitled, Work setScores: t[1]/t[3]
Ellipse: Hotelling T2 (0.05)
N1
T2
T3N4
N5
T6T7
T8T9
T10T11
T12N13
N14
N15T16
Simca-P 7.01 by Umetri AB 1998-11-24 15:19
-
81
Analyse discriminante PLSComposantes PLS 1 et 2
-10
-5
0
5
10
-10 0 10
t[2]
t[1]
EGI1.M5 (PLS), Untitled, Work setScores: t[1]/t[2]
Ellipse: Hotelling T2 (0.05)
N1
T2
T3
N4
N5T6T7
T8
T9T10
T11
T12 N13
N14
N15T16
Simca-P 7.01 by Umetri AB 1998-11-24 15:22
-
82
IV. Rgression logistique PLS
Bonne solution au problme de la multicolinarit.
Il peut y avoir beaucoup plus de variables que dobservations.
Il peut y avoir des donnes manquantes. Prsentation de trois algorithmes
-
83
Qualit des vins de Bordeaux
Variables observes sur 34 annes (1924 - 1957)
TEMPERATURE : Somme des tempratures moyennes journalires
SOLEIL : Dure dinsolation CHALEUR : Nombre de jours de grande chaleur PLUIE : Hauteur des pluies
QUALITE DU VIN : Bon, Moyen, Mdiocre
-
84
Rgression logistique ordinale
Pluie4Chaleur3Soleil2eTempratur1i
Pluie4Chaleur3Soleil2eTempratur1i
e1e
++++
++++
+
PROB(Y i) =
Y = Qualit : Bon (1), Moyen (2), Mdiocre (3)
-
85
Rgression logistique ordinaleRsultats SAS
Score Test for the Proportional Odds Assumption
Chi-Square = 2.9159 with 4 DF (p=0.5720)
Analysis of Maximum Likelihood Estimates
Parameter Standard Wald Pr >Variable DF Estimate Error Chi-Square Chi-Square
INTERCP1 1 -2.6638 0.9266 8.2641 0.0040INTERCP2 1 2.2941 0.9782 5.4998 0.0190TEMPERA 1 3.4268 1.8029 3.6125 0.0573SOLEIL 1 1.7462 1.0760 2.6335 0.1046CHALEUR 1 -0.8891 1.1949 0.5536 0.4568PLUIE 1 -2.3668 1.1292 4.3931 0.0361
-
86
Rgression logistique ordinaleQualit de prvision du modle
QUALITE PREVISIONOBSERVEEEffectif 1 2 3 Total 1 8 3 0 11 2 2 8 1 11 3 0 1 11 12Total 10 12 12 34
Rsultat : 7 annes mal classes
-
87
Rgression logistique ordinaleCommentaires
Le modle pentes gales est acceptable(p = 0.572).
La chaleur a une influence positive sur la qualit du vin de Bordeaux, alors quelle apparat comme non significative et avec un coefficient ngatif dans le modle.
C est un problme de multicolinarit. Il y a 7 annes mal classes.
-
88
Algorithme 1 : La rgression logistique PLS
Etape 3 : Expression de la rgression logistique en fonction de X.
Etape 1 : Recherche de m composantes orthogonalesTh = Xah explicatives de leur propre groupeet bien prdictives de y.
Le nombre m est obtenu par validation croise.
Etape 2 : Rgression logistique de Y sur les composantes Th .
-
89
Rgression logistique PLStape 1
1. Rgression logistique de y sur chaque xj :
les coefficients de rgression a1j2. Normalisation du vecteur a1= (a11,,a1k)
3. Rgression logistique de y sur T1=Xa1 exprime en fonction des X
4. Calcul du rsidu X1 de la rgression de X sur T1
-
90
1. Rgression logistique de y sur T1 et chaquersidu x1j : les coefficients de rgression b2j
2. Normalisation du vecteur b2= (b21,,b2k)3. Calcul de a2 tel que : T2 = X1b2 = Xa24. Rgression logistique de y sur T1= Xa1 et T2 = Xa2
exprime en fonction des X5. Calcul du rsidu X2 de la rgression de X sur T1 , T2
Rgression logistique PLStape 2
-
91
Rgression logistique PLSChoix du nombre de composantes
0975.01 21-h tape on,substituti
2h tape croise, validation2 =
Q
On choisit le nombre de composantes par validation croise : la composante h est retenue si
0.95Soit :
2/12 )]h tape croise, validation([ Pearson2/12 )]1-h tape on,substituti([ Pearson
On procde de la mme manire pour les autres tapes.
-
92
Rgression logistique PLSRsultats de lalgorithme
La temprature de 1924 est suppose inconnue. La rgression logistique PLS de Y sur X a conduit
deux composantes PLS T1 et T2 :T1 = 0.57Temprature + 0.63Soleil + 0.41Chaleur
- 0.34Pluie
T2 = - 0.14Temprature + 0.45Soleil - 0.69Chaleur - 0.52Pluie
-
93
Rgression logistique ordinale sur T1, T2Rsultats SAS
Analysis of Maximum Likelihood Estimates
Parameter Standard Wald Pr >Variable DF Estimate Error Chi-Square Chi-Square
INTERCP1 1 -2.5490 0.8768 8.4507 0.0036INTERCP2 1 2.1349 0.8955 5.6837 0.0171T1 1 3.0797 0.8350 13.6032 0.0002T2 1 1.4148 0.8849 2.5563 0.1099
TABLEAU CROISANT QUALIT OBSERVE ET PRDITE
QUALIT PRDICTION
Effectif 1 2 3 Total 1 9 2 0 11 2 1 9 1 11 3 0 1 11 12Total 10 12 12 34
Rsultat :5 annes mal classes
-
94
Rgression logistique PLSLe modle
Prob (Y i)
2T42.11T08.314.255.2
2T42.11T08.314.255.2
e1e
+++
+++
+= MoyenBon
MoyenBon
PluieChaleurSoleilTemp.MoyenBon
PluieChaleurSoleilTemp.MoyenBon
++++
++++
+= 77.126.073.257.114.255.2
77.126.073.257.114.255.2
e1e
-
95
Algorithme 2 Rgression logistique sur composantes PLS
(1) Rgression PLS des indicatrices de Y sur les X.
(2) Rgression logistique de Y sur lescomposantes PLS des X.
-
96
Rgression logistique sur les composantes PLSRsultats
La temprature de 1924 est suppose inconnue. La rgression PLS des indicatrices de Y sur X
a conduit une seule composante PLS t1(rsultat de la validation croise).
t1 = 0.55Temprature + 0.55Soleil +0.48Chaleur 0.40Pluie
Pour lanne 1924 : t1 = (0.55Soleil +0.48Chaleur 0.40Pluie)/0.69
-
97
Utilisation de la rgression PLS pour la prvision de la qualit du vin de Bordeaux
The PLS ProcedureCross Validation for the Number of Latent Variables
Test for largerresiduals than
minimumNumber of RootLatent Mean Prob >
Variables PRESS PRESS
0 1.0313 01 0.8304 1.00002 0.8313 0.49903 0.8375 0.44504 0.8472 0.3500
Minimum Root Mean PRESS = 0.830422 for 1 latent variableSmallest model with p-value > 0.1: 1 latent
TABLE OF QUALITE BY PREV
QUALITE PREV
Frequency 1 3 Total
1 11 0 11
2 4 7 11
3 1 11 12Total 16 18 34
Rsultat :12 annes mal classes
Choix dune composante PLS
-
98
Rsultats de la rgression logistiquede Y sur la composante PLS t1
Analysis of Maximum Likelihood Estimates
Parameter Standard Wald Pr >Variable DF Estimate Error Chi-Square Chi-Square
INTERCP1 1 -2.1492 0.8279 6.7391 0.0094INTERCP2 1 2.2845 0.8351 7.4841 0.0062t1 1 2.6592 0.7028 14.3182 0.0002
TABLEAU CROISANT QUALIT OBSERVE ET PRDITE
QUALIT PRDICTION
Effectif 1 2 3 Total 1 9 2 0 11 2 2 8 1 11 3 0 1 11 12Total 11 11 12 34
Rsultat :6 annes mal classes
-
99
Rgression logistique sur composantes PLSLe modle
Prob (Y i)
1t66.228.215.2
1t66.228.215.2
e1e
++
++
+= MoyenBon
MoyenBon
Pluie07.1Chaleur28.1Soleil46.1Temp.47.1Moyen28.2Bon15.2
Pluie07.1Chaleur28.1Soleil46.1Temp.47.1Moyen28.2Bon15.2
e1e
++++
++++
+=
-
100
Conclusion 1: Rgression logistique PLSvs rgression logistique sur composantes PLS
Les deux algorithmes prsents devraient avoir des qualits comparables.
L algorithme 2 est beaucoup plus simple :Deux tapes :(1) Rgression PLS des indicatrices de Y sur X(2) Rgression logistique de Y sur les
composantes PLS
-
101
Conclusion 2:Le modle linaire gnralis PLS
Le modle linaire gnralis PLS peut tre construit selon les mmes procdures.
Approche beaucoup plus simple que la mthode de Brian Marx : Iteratively Reweighted Partial Least Square Estimation for Generalized Linear Regression ,Technometrics, 1996.
-
102
Algorithme 3 (donnes groupes) Rgression PLS du logit de la variable de
rponse sur les prdicteurs
Exemple : Job satisfaction (Zelterman, 1999) 9949 employees in the craft job within a company Response : Satisfied/Dissatisfied Factors : Sex, Race (White/Nonwhite),
Age (44)Region (Northeast, Mid-Atlantic, Southern, Midwest, Northwest, Southwest, Pacific)
Explain Job satisfaction with all the main effects and the interactions.
-
103
Une approche exploratoire
(1) Rgression PLS de Y1 = Logit(proportion of satisfied people)Y2 = Logit(proportion of non satisfied people)sur les 4 facteurs et toutes les interactions.
(2) limination itrative des termes petits VIP, en vrifiant laugmentation du Q2(cum)
(3) Carte des variables finalement retenues
-
104
Rsultat de la Rgression PLS sur les logits
-0.50
-0.40
-0.30
-0.20
-0.10
0.00
0.10
0.20
0.30
-0.30 -0.20 -0.10 0.00 0.10 0.20 0.30
w*c
[2]
w*c[1]
MEN
NORTHEAST
MID-ATLANTIC
YOUNG
SOUTHERN
WOMEN
YOUNG WHITE
OLD WHITE
WHITE in MID-ATLANTIC
YOUNG WOMEN
YOUNG in NORTHEAST
YOUNG in MIDWEST
OLD in MID-ATLANTIC
OLD in SOUTHERN
WOMEN in NORTHEAST
WOMEN in MIDWESTNONWHITE WOMEN
NONWHITE MEN
SATISFIED
NON SATISFIED
Y1 = Logit (Proportion of Satisfied)Y2 = Logit (Proportion of Non Satisfied)X = Explanatory variables kept after elimination of small VIP terms
-
105
Quelques rfrences sur les mthodes PLS
- J.-B. Lohmller : Latent variable path modeling with partial least squares, Physica-Verlag, 1989
- LVPLS 1.8 : Software for Latent variables path analysis with partial least-squares estimation, J.-B. Lohmller, 1989
- M. Tenenhaus : Lapproche PLS, R.S.A., 47 (2), 5-40, 1999
Rgression PLS - L. Eriksson, E. Johansson, N. Kettaneh-Wold & S. Wold : Multi- and
Megavariate Data Analysis using Projection Methods (PCA & PLS),Umetrics, 1999.
- H. Martens & M. Martens : Multivariate Analysis of Quality, Wiley, 2000- H. Martens & T. Ns : Multivariate calibration, Wiley, 1989- SIMCA 12.0 : PLS Software, S. WOLD, UMETRI (Sweden),
distribu par SIGMA PLUS- M. Tenenhaus : La rgression PLS, Editions Technip, 1998
Approche PLS (PLS Path modelling)