anova : analyse de variance univariée · anova : analyse de variance univariée dans tout le...
Embed Size (px)
TRANSCRIPT
-
ANOVA : analyse de variance univarie
ANOVA : analyse de variance univarie
Rsum
Le chapitre 3 est consacr aux plans factoriels. Il sagit de lap-pellation approprie, bien quassez peu employe, de lanalyse devariance, appele par les anglo-saxons ANalysis Of VAriance et,pour cette raison, bien connue sous lacronyme dANOVA.
Retour au plan du cours
1 IntroductionLANOVA correspond un modle linaire gaussien dans lequel toutes les
variables explicatives (les Xj) sont qualitatives. Dans ce contexte, elles sontappeles facteurs (do le terme de plans factoriels) et leurs modalits sontappeles niveaux. Ces niveaux sont supposs choisis, fixs, par lutilisateur,de sorte que lon parle souvent de facteurs contrls. De son ct, la variablealatoire rponse Y est toujours quantitative et suppose gaussienne.
Seuls seront traits dans ce chapitre les cas de lanalyse de variance unfacteur, deux facteurs croiss et trois facteurs croiss. Dans un dernier pa-ragraphe, nous donnerons quelques indications sur les cas plus gnraux dontcertains seront tudis au chapitre 4.
Les rfrences bibliographiques du chapitre 3 sont les mmes que celles duchapitre 2.
Les problmes abords dans chacun des paragraphes de ce chapitre seront, chaque fois, les trois problmes cls du modle linaire gaussien : estima-tion ponctuelle, estimation par intervalle de confiance et tests. Ils seront traitsdans cet ordre, en particulier parce quon a besoin de certaines estimationsponctuelles pour construire un intervalle de confiance et pour faire un test.Mais, dans la pratique, on commence en gnral par faire diffrents tests pourchoisir le modle le plus adapt aux donnes considres, puis on dtermineles estimations des paramtres dans le modle ainsi choisi.
Les paramtres que lon va utiliser en ANOVA vont reprsenter des effetsparticuliers du modle pris en compte : effet gnral et effets principaux des
niveaux du facteur dans un plan un seul facteur ; effet gnral, effets princi-paux des niveaux de chaque facteur et effets dinteractions dans un plan deuxfacteurs... Ces diffrents effets ne peuvent tre pris en compte si on conservele paramtrage standard du modle linaire (par exemple, dans un modle deux facteurs, Yijk = jk + Uijk). Do la ncessit dutiliser dautres para-mtrages. Il en existe plusieurs et nous en prsentons deux dans ce chapitre :le paramtrage dit centr, car il fait intervenir des paramtres centrs, et leparamtrage SAS, utilis systmatiquement dans le logiciel SAS.
Ainsi, pour un plan deux facteurs croiss, le paramtrage centr consiste poser : jk = +1j +
2k+jk. Le paramtre reprsente leffet gnral, les
paramtres 1j et 2k les effets principaux des deux facteurs et les paramtres
jk les effets dinteractions. Les 1j sont centrs selon j, les 2k selon k et les
jk selon j et selon k.
Le paramtrage SAS, tel quon le trouve en particulier dans la procdureGLM, consiste, de son ct, rcrire : jk = m + a1j + a
2k + cjk. Les pa-
ramtres m, a1j , a2k et cjk reprsentent les mmes notions que celles prcises
ci-dessus, mais ils sont dfinis en se callant sur la dernire cellule, dindice(J,K).
2 Cas dun seul facteurLorsque ncessaire, le facteur considr sera not F ; cette notation est
certes la mme que celle de la statistique du test de Fisher, mais, dans lecontexte, il ne devrait pas y avoir de confusion ; de plus, la notation du fac-teur sera peu utilise. Par ailleurs, le nombre des niveaux de F sera not J(J 2) et lindice du niveau courant not j (j = 1, . . . , J).
Pour chaque niveau j, on ralise nj observations indpendantes de la v.a.r.(quantitative) expliquer Y (nj 1), notes yij , i = 1, . . . , nj ; on pose enfinn =
Jj=1 nj : n est le nombre total dobservations ralises dans lexp-
rience.
Si nj = n0,j, j = 1, . . . , J , on dit que le plan est quilibr ; sinon, onparle de plan dsquili-br. Dans un plan quilibr, n0 sappelle le nombre derptitions.Remarque. On a utilis ci-dessus le terme de plan. Cest le terme utilis
1
http://wikistat.frhttp://wikistat.fr/pdf/st-m-modmixt0-intro.pdf -
ANOVA : analyse de variance univarie
dans tout le contexte de lANOVA, o lon parle de plan dexpriences 1 ou deplan factoriel, voire, tout simplement, de plan. En fait, ce terme est dorigineindustrielle et, dans un tel environnement, on parle galement dexprienceplanifie, ce qui sous-entend, dailleurs, que les niveaux du (ou des) facteurspris en compte sont totalement contrls (do le terme de facteur contrl).
2.1 criture initiale du modle
On commence par crire le modle sous la forme :
Yij = j + Uij .
j est le paramtre associ au niveau j du facteur F ; il est inconnu, estimer ; ce paramtre reprsente un effet non alatoire, encore appeleffet fixe.
Uij est la v.a.r. erreur associe lobservation numro i du niveau j deF ; on suppose Uij N (0, 2), 2 tant aussi un paramtre estimer(il ne dpend pas de j, autrement dit le modle est homoscdastique) ;par ailleurs, les v.a.r. Uij sont supposes indpendantes (elles sont donci.i.d.).
Yij est la v.a.r. rponse associe lobservation numro i du niveau j deF ; on obtient donc Yij N (j , 2), les Yij tant indpendantes.
On peut rcrire le modle sous la forme matricielle
Y = X + U,
o Y et U sont des vecteurs de Rn, est un vecteur de RJ (ici, p = J) et X,appele matrice dincidence, est une matrice nJ ne comportant que des 0 etdes 1 ; en fait, chaque colonne de X est lindicatrice du niveau correspondantde F et nous noterons Zj lindicatrice courante. On peut ainsi rcrire :
Y =
Jj=1
jZj + U.
1. Dans lexpression plan dexpriences, on trouve le terme dexprience tantt au singulieret tantt au pluriel ; nous prfrons utiliser le pluriel, dune part parce que le mme plan peutservir plusieurs expriences, dautre part parce que le petit Robert cite lexpression Laboratoiredexpriences.
EXEMPLE 1 Considrons le cas J = 3, n1 = 2, n2 = 3, n3 = 1 (n = 6). Ilvient :
X =
1 0 01 0 00 1 00 1 00 1 00 0 1
.
Remarque. Sous la dernire forme donne ci-dessus, on voit que le modleest quivalent un modle de rgression multiple, sans coefficient constant,dont les rgresseurs sont les J variables indicatrices Zj .
Remarque. On vrifie que les colonnes de X sont deux deux orthogonales.On en dduit que XX = diag (n1 nJ) : il sagit dune matrice rgulire.
2.2 Paramtrage centr
Le paramtrage initial ne permet pas de dissocier dune part les effets desdiffrents niveaux du facteur F , dautre part leffet gnral (et les choses se-ront encore plus problmatiques en prsence de deux facteurs ou plus). Dola ncessit de rcrire le modle, le problme tant quil existe plusieurs r-critures distinctes (mais, bien sr, quivalentes).
Dans le paramtrage centr, on pose :
=1
J
Jj=1
j (moyenne non pondre des j) ; j = j .
On obtient ainsi j = + j et on rcrit le modle sous la forme :
Yij = + j + Uij .
On notera la relationJ
j=1 j = 0. Le paramtre est appel leffet gnral, ou encore leffet moyen gnral. Les paramtres j (j = 1, . . . , J) sont appels les effets principaux
du facteur F , ou encore les effets diffrentiels. La littrature statistiqueanglo-saxonne parle frquemment de contrastes, dans la mesure o ilsagit de paramtres de somme nulle.
2
http://wikistat.fr -
ANOVA : analyse de variance univarie
Dans Rn, on peut rcrire le modle sous la forme suivante :
Y =
Jj=1
jZj + U = 1n +
Jj=1
jZj + U
= 1n +J1j=1
jZj ZJ
J1j=1
j + U
= 1n +J1j=1
j(Zj ZJ) + U.
On obtient maintenant un modle de rgression linaire sur les J 1variables Zj ZJ , avec coefficient constant.
2.2.1 Notation
On notera c le vecteur des J paramtres dans ce paramtrage ( et les j ,j = 1, . . . , J 1) et Xc la matrice dincidence correspondante, de sorte quonpourra rcrire Y = Xcc + U .
EXEMPLE 2 Dans lexemple introduit plus haut, Xc et c ont pour expres-sion :
Xc = (1n (Z1 Z3) (Z2 Z3)) =
1 1 01 1 01 0 11 0 11 0 11 1 1
; c = 1
2
.
La matrice Xc est toujours de rang 3, mais ses colonnes ne sont plus orthogo-nales. Toutefois, elles le seraient dans un plan quilibr.
2.3 Paramtrage SAS
Le principe de ce paramtrage est de se caller sur le dernier niveau J dufacteur F . On pose ainsi
Yij = m+ aj + Uij ,
avec m = J et aj = j J , j = 1, . . . , J (de sorte que aJ = 0). On peutalors rcrire :
Y =
Jj=1
jZj + U = J1n +
Jj=1
ajZj + U = m1n +
J1j=1
ajZj + U.
On voit quil sagit dun modle de rgression sur les J 1 indicatrices Zj(j = 1, . . . , J1), avec coefficient constant. Pour cette raison, le paramtremest appel intercept dans SAS, comme le coefficient constant dune rgression.
2.3.1 Notation
On notera maintenant s le vecteur des J paramtres de ce paramtrage (met les aj , j = 1, . . . , J 1) et Xs la matrice dincidence correspondante, desorte quon pourra rcrire Y = Xss + U .
EXEMPLE 3 En considrant toujours le mme exemple, Xs et s ont pourexpression :
Xs = (1n Z1 Z2) =
1 1 01 1 01 0 11 0 11 0 11 0 0
; s = ma1
a2
.
La matrice Xs est encore de rang 3, ses colonnes ntant pas non plus ortho-gonales. On notera quelles ne le seraient pas davantage dans le cas dun planquilibr.
2.4 Estimation des paramtres
En applicant les rsultats gnraux relatifs lestimation dans le modlelinaire gaussien, on obtient les rsultats indiqus ci-dessous.
3
http://wikistat.fr -
ANOVA : analyse de variance univarie
Vecteur des paramtres dans le paramtrage initial.
= (XX)1Xy, avec XX = diag(n1 nJ) et Xy =
n1y1...nJyJ
,o yj =
1
nj
nji=1
yij . On obtient ainsi j = yj . De plus B
NJ(, 2diag(1
n1 1
nJ)), de sorte que les composantes Bj sont indpen-
dantes.
Paramtrage centr.
Il vient : =1
J
Jj=1
yj (attention : si les effectifs nj ne sont pas tous gaux,
autrement dit si le plan est dsquilibr, nest pas la moyenne gnrale desobservations de Y , note y). Dautre part, j = yj , de sorte quonretrouve
Jj=1 j = 0.
Paramtrage SAS.
On obtient maintenant m = yJ et aj = yj yJ , de sorte quon vrifiebien aJ = 0.
Valeurs prdites.
Elles sont dfinies par yij = j = yj . Elles ne dpendent pas du param-trage considr.
Rsidus.
On obtient uij = yij yij = yij yj (mme remarque que ci-dessus).
Variance.
Comme pour les valeurs prdites et les rsidus, lestimation de la variancene dpend pas du paramtrage choisi. Il vient :
2 =1
n J
Jj=1
nji=1
(uij)2 =
1
n J
Jj=1
nji=1
(yij yj)2.
Intervalle de confiance de j , de coefficient de scurit 1 .
On obtient lintervalle de type Student suivant :
yj njtnJ(1
2),
o tnJ(1
2) dsigne le quantile dordre 1
2dune loi de Student nJ
d.d.l. On notera quenj
est lerreur-type de Bj .
Erreurs-types
Un calcul simple permet de vrifier que lerreur-type de Yij est encorenj
,
tandis que celle de Uij est nj 1nj
. On notera que ces erreurs-types sont
constantes dans le cas quilibr.
2.5 Test de leffet du facteur F
Tester la significativit du facteur F revient tester la significativit du mo-dle envisag. Dans le paramtrage initial du modle, lhypothse nulle se metsous la forme {H0 : 1 = = J}, lalternative tant le contraire de H0.
Dans les autres paramtrages, H0 est quivalente aux contraintes suivantes : dans le paramtrage centr, 1 = = J = 0 ; dans le paramtrage SAS, a1 = = aJ = 0.Dans tous les cas, le nombre de contraintes indpendantes, q, imposes par
H0 est gal J 1.
4
http://wikistat.fr -
ANOVA : analyse de variance univarie
Sous H0, le modle scrit Yij = + Uij (il sagit du modle constant, oumodle blanc), et lon obtient :
0 = y =1
n
Jj=1
nji=1
yij
(attention : si le plan est dsquilibr, 0 6= ).On prend alors pour expression de la statistique du test de Fisher la quantit
f =y y02
q2,
y et y0 dsignant, dans Rn, les vecteurs des valeurs prdites respectivementdans le modle considr (modle avec le seul facteur F ) et dans le modlesous H0 (modle constant). Il vient (voir le 3.1.4)
f =1
(J 1)2J
j=1
nj(yj y)2, avec 2 =1
n J
Jj=1
nji=1
(yij yj)2.
On compare enfin cette statistique avec fJ1 ; nJ (1 ), quantile dordre1 dune loi de Fisher J 1 et n J d.d.l.
2.5.1 Synthse des rsultats prcdents : le tableau danalyse de lavariance
Il est frquent de rsumer la construction de la statistique du test de Fisherau sein dun tableau, appel tableau danalyse de la variance, qui se prsentesous la forme ci-dessous (on notera que la plupart des logiciels fournissent cetableau).
sources de sommes des d.d.l. carrs moyens valeur de lavariation carrs statistique
de Fisher
Facteur F SSF J 1 MSF = SSFJ 1
MSF
MSE
Erreur SSE n J MSE = SSEn J
= 2
Total SST n 1
Les sommes de carrs apparaissant ci-dessus sont dfinies de la faon sui-vante :
SSF =
Jj=1
nj(yj y)2;
on notera que dans le cas dun plan quilibr (tous les nj sont gaux n0 et,par suite, = y), on peut encore crire : SSF = n0
Jj=1(j)
2 ;
SSE =
Jj=1
nji=1
(yij yj)2;
SST = SSF + SSE =
Jj=1
nji=1
(yij y)2.
2.6 Autres tests
Si lhypothse nulle considre ci-dessus a t rejete, autrement dit si lemodle un facteur est significatif, on peut tre amen tester dautres hypo-thses nulles, dans le but de simplifier le modle. Par exemple, on peut consi-drer des hypothses nulles du type : j = j ; j = 0 ; aj = 0.
Pour cela, on utilise en gnral un test de Student (rappelons que, lorsqueq = 1, le test de Fisher est quivalent un test de Student). En particulier, le
5
http://wikistat.fr -
ANOVA : analyse de variance univarie
logiciel SAS propose, pour chaque valeur de j (j = 1, . . . , J 1), le test deStudent de lhypothse nulle {H0 : j = J} ; cela se fait avec la procdureGLM, au sein de la commande model, lorsquon rajoute loption solution.
Avec des options spcifiques de la commande model, on peut aussi tester lasignificativit de lcart entre deux niveaux quelconques du facteur F . Enfin,on peut utiliser la technique de Bonferroni (prsente en 2.2.9) pour construiredes intervalles de confiance conjoints pour les carts j j .
2.7 Illustration
2.7.1 Les donnes
Il sagit dun exemple fictif danalyse de variance un seul facteur. La va-riable rponse, en premire colonne, prend des valeurs entires comprises entre10 et 25. Le facteur est trois niveaux, nots 1,2,3 et figure en seconde colonne.Il y a 9 individus observs, donc 9 lignes dans le fichier des donnes reproduitci-aprs.
11 113 115 218 221 219 320 322 323 3
2.7.2 Le programme SAS
Le programme SAS ci-dessous permet de faire les principaux traitements(graphiques compris) dans le cadre dune ANOVA un seul facteur. Les com-mentaires permettent de discerner les diffrentes phases du programme.
* ----------------------------------------------------- ;
* options facultatives pour la mise en page des sorties ;
* ----------------------------------------------------- ;options pagesize=64 linesize=76 nodate;title;
footnote ANOVA 1 facteur - Exemple fictif;
* ----------------------------------------------------- ;
* lecture des donnees ;
* (le fichier "fic.don" contient les donnees ;
* et se trouve dans le repertoire de travail) ;
* ----------------------------------------------------- ;data fic;infile fic.don;input y f;run;
* ----------------------------------------------------- ;
* procedure GLM pour lANOVA ;
* ----------------------------------------------------- ;proc glm data=fic;class f;model y = f / ss3;run;quit;
* ----------------------------------------------------- ;
* on relance avec loption "solution" ;
* ----------------------------------------------------- ;proc glm data=fic;class f;model y = f / ss3 solution;run;quit;
* ----------------------------------------------------- ;
* on relance avec la commande "output" ;
* pour archiver diverses quantites ;
* ----------------------------------------------------- ;proc glm data=fic noprint;class f;model y = f;output out=sortie p=yy r=uu stdr=erty student=rest;proc print data=sortie;run;quit;
* ----------------------------------------------------- ;
* graphique valeurs predites vs valeurs observees ;
* ----------------------------------------------------- ;
6
http://wikistat.fr -
ANOVA : analyse de variance univarie
proc gplot data=sortie;axis1 label=(valeurs observees)
order=(10 to 25 by 5) length=7cm;axis2 label=(valeurs justify=right predites)
order=(10 to 25 by 5) length=7cm;symbol1 i=none v=dot;symbol2 i=rl v=none;plot yy*y y*y / haxis=axis1 vaxis=axis2
hminor=4 vminor=4overlay;
run;goptions reset=all;quit;
* ----------------------------------------------------- ;
* graphique des residus ;
* ----------------------------------------------------- ;proc gplot data=sortie;axis1 label=(valeurs predites)
order=(10 to 25 by 5) length=7cm;axis2 label=(resisus justify=right studentises)
order=(-3 to 3 by 1) length=7cm;symbol v=dot;plot rest*yy / haxis=axis1 vaxis=axis2
hminor=4 vminor=0vref=-2 vref=0 vref=2;
run;goptions reset=all;quit;
2.7.3 Les sorties de la procdure GLMPAGE 1 The GLM Procedure------
Class Level Information
Class Levels Values
f 3 1 2 3
Number of observations 9
PAGE 2 The GLM Procedure
------
Dependent Variable: y
Sum ofSource DF Squares Mean Square F Value Pr > F
Model 2 108.0000000 54.0000000 10.80 0.0103
Error 6 30.0000000 5.0000000
Corrected Total 8 138.0000000
R-Square Coeff Var Root MSE y Mean
0.782609 12.42260 2.236068 18.00000
Source DF Type III SS Mean Square F Value Pr > F
f 2 108.0000000 54.0000000 10.80 0.0103
PAGE 3 The GLM Procedure------
StandardParameter Estimate Error t Value Pr > |t|
Intercept 21.00000000 B 1.11803399 18.78
-
ANOVA : analyse de variance univarie
2.7.4 Estimation des paramtres
Loption solution de la commande model de la procdure GLM permetdobtenir lestimation des paramtres du modle correspondant. Ici, SAS nousfournit les valeurs de m (21), de a1 (9) et de a2 (3). On en dduit lesestimations des paramtres j (1 = 9 + 21 = 12 ; 2 = 3 + 21 =18 ; 3 = 21), donc des valeurs prdites (yy) et des rsidus (uu).
2.7.5 La commande output
Dans le fichier obtenu avec loption out= de la commande output dela procdure GLM (ici, il sappelle sortie), on rcupre les valeurs prdites(p=), les rsidus (r=), les erreurs-types des rsidus (stdr=) et les rsidusstudentiss (student=) (on laisse le soin au lecteur de retrouver toutes cesvaleurs).
2.7.6 Les graphiques
Les figures 3.1 et 3.2 donnent les graphiques tels quon les obtient en sortiede SAS.
3 Cas de deux facteurs croiss
3.1 Notations Le premier facteur est not F1 et son nombre de niveaux est not J (J 2) ; ces niveaux seront indics par j.
Le second facteur est not F2 et son nombre de niveaux est not K (K 2) ; les niveaux de F2 seront indics par k.
Les deux facteurs sont croiss, cest--dire dune part quils sont sym-triques (on peut permuter leurs rles), dautre part quon ralise des ob-servations pour chacun des croisements (j, k) ; on notera njk le nombredobservations ralises pour le croisement (j, k), le nombre total dob-servations tant not n, de sorte que lon aura : n =
Jj=1
Kk=1 njk.
Lorsque njk = n0 (j, k), on dit que le plan est quilibr ; sinon, on ditquil est dsquilibr.
Chaque croisement (j, k) est en gnral appel une cellule du plan facto-riel.
Les observations de la variable rponse Y , ralises au sein de chaque
v a l e u r sp r e d i t e s
1 0
1 5
2 0
2 5
v a l e u r s o b s e r v e e s
1 0 1 5 2 0 2 5
FIGURE 1 Graphique valeurs prdites vs valeurs observes.
FIGURE 2 Graphique des rsidus.
8
http://wikistat.fr -
ANOVA : analyse de variance univarie
cellule, seront supposes indpendantes et seront notes yijk, i =1, . . . , njk ; elles seront galement supposes indpendantes sur len-semble des cellules.
Remarque. On supposera, dans tout ce chapitre, njk 1, autrement dittoute cellule est observe au moins une fois ; on dit, dans ce cas, que le planest complet. Lorsquau moins une cellule est telle que njk = 0, on dit que leplan est incomplet. Le cas des plans incomplets sera abord au chapitre 4.
3.2 criture initiale du modle
On crit chaque v.a.r. sous la forme :
Yijk = jk + Uijk.
Matriciellement, cela peut scrire :
Y = X + U.
Y et U sont deux vecteurs de Rn, est un vecteur de RJK (ici, p = JK) etX, matrice dincidence, est de dimension n JK.
La matrice X ne contient que des 0 et des 1, ses colonnes tant constituesdes indicatrices Zjk des cellules. Elle est de rang JK et ses colonnes sontdeux deux orthogonales. Les lments jk du vecteur sont les paramtresinconnus du modle, estimer. Enfin, on suppose toujours Uijk N (0, 2),les Uijk tant i.i.d., le paramtre 2 tant lui aussi inconnu et estimer. On adonc Yijk N (jk, 2), les Yijk tant indpendantes.
EXEMPLE 4 Considrons le cas trs simple J = 2, K = 3 et n0 = 1 (uneseule observation dans chacune des 6 cellules). Dans ce cas, la matrice din-cidence X est tout simplement gale la matrice identit I6.
3.3 Paramtrage centr
On introduit tout dabord les quantits suivantes : j = 1K
Kk=1 jk ; cest la valeur moyenne des paramtres au niveau j
de F1 ; k = 1J
Jj=1 jk ; valeur moyenne des paramtres au niveau k de F2 ;
= 1JKJ
j=1
Kk=1 jk ; valeur moyenne gnrale.
On notera que les diffrentes moyennes dfinies ci-dessus sont toujours desmoyennes non pond-res.
On dfinit ensuite les paramtres centrs de la faon suivante : = : cest leffet gnral, ou effet moyen gnral ; 1j = j : effet principal, ou diffrentiel, du niveau j de F1 ; 2k = k : effet principal, ou diffrentiel, du niveau k de F2 ; jk = jk 1j 2k = jk j k + : effet dinteraction
des niveaux j de F1 et k de F2.On vrifie, de faon immdiate, les relations de centrage suivantes :
Jj=1
1j =
Kk=1
2k = 0 ;
Jj=1
jk = 0, k = 1, . . . ,K ;K
k=1
jk = 0, j = 1, . . . , J.
Finalement, on peut rcrire le modle sous la forme suivante :
Yijk = jk + Uijk = + 1j +
2k + jk + Uijk.
Dautre part, un raisonnement analogue celui fait en 3.1.2, mais un peuplus lourd (il ncessite lusage des indicatrices Zj1 pour les niveaux de F1 etZk2 pour les niveaux de F2), nous permet maintenant dcrire :
Y = 1n +J1j=1
1j (Zj1 ZJ1 ) +
K1k=1
2k(Zk2 ZK2 )
+
J1j=1
K1k=1
jk(Zj1 ZJ1 )(Zk2 ZK2 ) + U.
On retrouve ainsi un modle de rgression linaire avec coefficient constant.
EXEMPLE 5 Reprenons le cas de lexemple 4. Sous forme matricielle, oncrira le modle Y = Xcc + U , avec :
Xc =
1 1 1 0 1 01 1 0 1 0 11 1 1 1 1 11 1 1 0 1 01 1 0 1 0 11 1 1 1 1 1
; c =
1121221112
.
9
http://wikistat.fr -
ANOVA : analyse de variance univarie
Le plan tant quilibr, deux colonnes de Xc extraites de deux blocs diff-rents sont toujours orthogonales. Par ailleurs, toujours parce que le plan estquilibr, toutes les colonnes, lexception de la premire, sont centres.
Remarque. Le paramtrage centr fait intervenir un paramtre , (J 1)paramtres 1j indpendants, (K 1) paramtres 2k indpendants et (J 1)(K 1) paramtres jk indpendants. Au total, il y a bien JK paramtresindpendants, comme dans le paramtrage initial en jk.
Remarque. Considrons maintenant deux indices distincts j et j, quel-conques mais fixs. On peut crire :
jk jk = (1j 1j) + (jk jk), k = 1, . . . ,K.
On remarque que le premier terme est indpendant de k et que le second dis-parat dans un modle sans interaction. Do lide de raliser un graphiqueavec en abscisses les diffrents indices k, en ordonnes les valeurs moyennesyjk (estimations des jk, voir plus loin) et une courbe pour chaque indicej (courbes superposes). Si ces courbes sont sensiblement parallles, on peutngliger les effets dinteractions dans le modle considr (voir les figures 3.5et 3.6).
3.4 Paramtrage SAS
On rcrit maintenant :
jk = JK + (jK JK) + (Jk JK) + (jk jK Jk + JK)= m+ a1j + a
2k + cjk.
Les paramtres dfinis ci-dessus vrifient ainsi les relations :
a1J = a2K = 0 ; cjK = 0, j = 1, . . . , J ; cJk = 0, k = 1, . . . ,K.
Bien sr, il y a toujours JK paramtres indpendants dans ce nouveau para-mtrage.
On peut encore vrifier que lon obtient maintenant
Y = m1n +J1j=1
a1jZj1 +
K1k=1
a2kZk2 +
J1j=1
K1k=1
cjkZj1Z
k2 + U,
m tant toujours appel intercept dans SAS.
EXEMPLE 6 Reprenons une dernire fois lexemple 4. Sous forme matricielle,le modle scrit maintenant Y = Xss + U , avec :
Xs =
1 1 1 0 1 01 1 0 1 0 11 1 0 0 0 01 0 1 0 0 01 0 0 1 0 01 0 0 0 0 0
; s =
ma11a21a22c11c12
.
On notera que les colonnes de Xs ne sont ni centres ni orthogonales.
3.5 Estimation des paramtres
3.5.1 Paramtrage initial
partir des rsultats gnraux relatifs au modle linaire, on dduit :
jk = yjk =1
njk
njki=1
yijk.
On sait que lon a
Bjk N (jk,2
njk),
les diffrents estimateurs tant indpendants. Enfin, lerreur-type de Bjk estnjk
, ce qui permet de construire un intervalle de confiance pour jk.
3.5.2 Paramtrage centr
Les estimations des paramtres se dduisent dans ce cas de celles ci-dessus.Il vient :
= =1
JK
Jj=1
Kk=1
yjk. Comme dans le cas dun seul facteur, on
notera que nest gal la moyenne gnrale des observations de Y quesi le plan est quilibr.
1j = j =1
K
Kk=1
yjk (les 1j sont centrs selon j).
10
http://wikistat.fr -
ANOVA : analyse de variance univarie
2k = k =1
J
Jj=1
yjk (les 2k sont centrs selon k).
jk = jk 1j 2k = jk j k +
= yjk 1
K
Kk=1
yjk 1
J
Jj=1
yjk +1
JK
Jj=1
Kk=1
yjk
(les jk sont centrs selon j et selon k).
3.5.3 Paramtrage SAS
De la mme manire, on obtient maintenant : m = yJK ; a1j = yjK yJK (a1J = 0) ; a2k = yJk yJK (a2K = 0) ; cjk = yjk yjK yJk + yJK
(cjk = 0, ds que lun au moins des deux indices est maximum).
3.5.4 Valeurs prdites et rsidus
De faon standard, les valeurs prdites yijk valent jk (= yjk) et les rsidus
uijk valent yijk yjk. Lerreur-type de yijk vautnjk
et celle de uijk vaut
njk 1njk
. On notera que ces expressions (indpendantes du paramtrage
choisi) ne sont plus valables avec un modle autre que le modle complet.
3.5.5 Variance
Lestimation de la variance 2 est la suivante :
2 =1
n JK
Jj=1
Kk=1
njki=1
(uijk)2 =
1
n JK
Jj=1
Kk=1
njki=1
(yijk yjk)2.
3.6 Tests dhypothses
Dans un modle deux facteurs croiss, trois hypothses nulles peuvent treenvisages afin de simplifier le modle considr.
3.6.1 Hypothse H0 : absence deffet des interactions
Cette hypothse peut prendre les diffrentes formes suivantes, quivalentes :
H0 jk = 0,(j, k) cjk = 0,(j, k) jk jkest indpendant dek, (j, j) jk jkest indpendant dej,(k, k).
Ainsi, avec le paramtrage centr, H0 conduit rcrire le modle sous laforme :
Yijk = + 1j +
2k + U
0ijk,
que lon appelle le modle additif.La valeur de la statistique du test de H0 est
f =1
(J 1)(K 1)2J
j=1
Kk=1
njki=1
(yijk y0ijk)2,
o y0ijk est la valeur prdite de yijk dans le modle additif. Cette statistique est comparer avec le quantile f(J1)(K1) ; nJK (1 ).
3.6.2 Hypothse H 0 : absence deffet du facteur F1
Cette autre hypothse peut prendre les diffrentes formes suivantes :
H 0 1 = = J 1j = 0,j = 1, . . . , J a1j = 0,j = 1, . . . , J.
ConventionDans tout ce cours, nous ferons les tests de faon hirarchique, cest--dire
que, dans le cas prsent, nous ne testerons lhypothseH 0 que si, au pralable,lhypothse H0 na pas t rejete ; ainsi, le modle de rfrence pour testerH 0 sera le modle additif. Cette faon de procder nest pas universelle, maiselle a le mrite dtre cohrente et simple interprter.
Sous H 0, le modle scrit donc :
Yijk = + 2k + U
0
ijk.
11
http://wikistat.fr -
ANOVA : analyse de variance univarie
La valeur de la statistique du test est maintenant
f =1
(J 1)(0)2J
j=1
Kk=1
njki=1
(y0ijk y0
ijk)2,
o (0)2 dsigne lestimation de 2 dans le modle additif,
(0)2 =1
n (J +K 1)
Jj=1
Kk=1
njki=1
(yijk y0ijk)2,
et o y0
ijk est la valeur prdite de yijk dans le modle avec F2 comme seulfacteur. La valeur f est comparer au quantile fJ1 ; n(J+K1) (1 ).
3.6.3 Hypothse H 0 : absence deffet du facteur F2
Cette dernire hypothse peut prendre les diffrentes formes suivantes :
H 0 1 = = K 2k = 0,k = 1, . . . ,K a2k = 0,k = 1, . . . ,K.
On raisonne alors de faon symtrique par rapport ce qui a t fait au pointprcdent.
Remarque. Le test de Fisher est galement utilis pour tester la significati-vit du modle finalement retenu, autrement dit pour tester le modle constantcontre ce modle.
Remarque. Si lon choisit le modle additif pour un jeu de donnes, lesestimations des paramtres jk avec le paramtrage centr sont obtenues di-rectement en posant jk = + 1j +
2k, o les estimations ,
1j et
2k
sont celles obtenues dans le modle complet. Il suffit donc dannuler les esti-mations des paramtres dinteractions pour trouver, partir du modle com-plet, les nouvelles estimations des jk. Par contre, il en va diffremmentavec le paramtrage SAS : la matrice dincidence Xs doit tre modifie (parsuppression des colonnes relatives aux interactions), on doit ensuite calculers = (X
sXs)
1Xsy et en dduire les nouvelles estimations des paramtresm, a1j et a
2k. Ainsi, le paramtrage centr apparat comme plus naturel que le
paramtrage SAS (ou que tout autre paramtrage).
3.7 Cas particulier dun plan quilibr
On dit quun plan deux facteurs croiss est quilibr sil vrifie njk =n0,(j, k). Dans ce cas, n = n0JK et diverses critures se simplifient. Onobtient ainsi :
jk = yjk =1
n0
n0i=1
yijk;
j =1
K
Kk=1
yjk =1
n0K
Kk=1
n0i=1
yijk = yj
(moyenne de toutes les observations de Y au niveau j du facteur F1) ;
K = yk (mme chose) ;
=1
JK
Jj=1
Kk=1
yjk =1
n
Jj=1
Kk=1
n0i=1
yijk = y
(moyenne gnrale de toutes les observations de Y ).
Les calculs des statistiques des tests vus prcdemment peuvent encore sesynthtiser, dans ce cas, sous la forme dun tableau danalyse de la variance(voir plus loin).
Les sommes de carrs apparaissant dans ce tableau sont dfinies de la faonsuivante :
12
http://wikistat.fr -
ANOVA : analyse de variance univarie
TABLE 1 Tableau danalyse de la variance (cas quilibr)sources de sommes des d.d.l. carrs moyens valeurs desvariation carrs statistiques
de Fisher
F1 SSF1 J 1 MSF1 =SSF1
J 1MSF1
MSE
F2 SSF2 K 1 MSF2 =SSF2
K 1MSF2
MSE
F1 F2 SSF12 (J 1)(K 1) MSF12 =SSF12
(J 1)(K 1)MSF12
MSE
Erreur SSE n JK MSE =SSE
n JK= 2
Total SST n 1
SSF1 = n0 K
Jj=1
(yj y)2 = n0 KJ
j=1
(1j )2 ;
SSF2 = n0 J
Kk=1
(yk y)2 = n0 JK
k=1
(2k)2 ;
SSF12 = n0
Jj=1
Kk=1
(yjk yj yk + y)2 = n0J
j=1
Kk=1
(jk)2 ;
SSE =
Jj=1
Kk=1
n0i=1
(yijk yjk)2 ;
SST =
Jj=1
Kk=1
n0i=1
(yijk y)2.
Remarque. Dans le tableau ci-dessu, les tests de significativit des facteursF1 et F2 sont faits avec, pour modle de rfrence, le modle complet (cest--dire, le modle comportant tous les effets initialement introduits ; on lappelle
encore le modle plein). Si lhypothse de nullit des interactions nest pasrejete et quon souhaite faire ces tests (significativit de chaque facteur) avecle modle additif comme rfrence, au dnominateur de la statistique de Fisher,
on doit remplacer MSE parSSE + SSF12n J K + 1
= (0)2, estimation de 2 dans
le modle additif.
Remarque. Dans le cas dsquilibr, on ne peut pas construire de tableauanalogue. En effet, le dveloppement de SST (la somme des carrs totale)en fonction des autres sommes de carrs fait aussi intervenir dans ce cas lesdoubles produits (qui sont nuls dans le cas quilibr). Ces doubles produitsne pouvant pas tre affects un effet spcifique, le tableau danalyse de lavariance na plus de raison dtre dans ce cas.
Remarque. La dfinition mme des sommes de carrs nest plus trs clairedans le cas dsqui-libr. Cela conduit introduire diverses sommes de carrs(trois), appeles de type I, de type II et de type III (toutes gales dans le casquilibr). De plus, des sommes de carrs spcifiques au cas des plans incom-plets existent galement et sont appeles sommes de type IV. On trouvera enAnnexe B quelques prcisions sur les trois premiers types de sommes de car-rs. Sauf indication contraire, il est recommand dutiliser les sommes de typeIII.
3.8 Illustration
3.8.1 Les donnes
Il sagit dun clbre exemple (fictif) danalyse de variance deux facteurscroiss. La variable rponse, en dernire colonne, est le rendement laitier me-sur sur un chantillon de 40 vaches laitires de la mme espce. Il y a deuxfacteurs contrls, tous deux lis lalimentation des vaches : la dose, en pre-mire colonne, 2 niveaux (1 = dose faible, 2 = dose forte) ; le rgime alimen-taire, en deuxime colonne, 4 niveaux (1 = paille, 2 = foin, 3 = herbe, 4 =aliments ensils). Pour chaque dose et chaque rgime (8 cellules), on a observle rendement de 5 vaches. On a donc affaire un plan complet, quilibr, avec5 rptitions. Les donnes sont reproduites ci-dessous.
1 1 8 2 1 81 1 11 2 1 9
13
http://wikistat.fr -
ANOVA : analyse de variance univarie
1 1 11 2 1 81 1 10 2 1 101 1 7 2 1 91 2 12 2 2 101 2 13 2 2 71 2 14 2 2 101 2 11 2 2 121 2 10 2 2 111 3 10 2 3 111 3 12 2 3 91 3 12 2 3 111 3 13 2 3 111 3 14 2 3 121 4 17 2 4 171 4 13 2 4 191 4 17 2 4 171 4 14 2 4 161 4 13 2 4 21
3.8.2 Le programme SAS
Le programme ci-dessous ralise la procdure GLM sur les donnes desvaches laitires, trace les deux graphiques de contrle du modle choisi (lemodle complet), puis les deux graphiques des interactions. On trouvera descomplments sur cet exemple en Annexe A.
options pagesize=64 linesize=76 nodate;title;footnote ANOVA 2 facteurs - vaches laitieres;
* -------------------------------------------------- ;data vach;infile vach.don;input f1 f2 y;run;
* -------------------------------------------------- ;proc glm;class f1 f2;model y = f1 f2 f1*f2 / ss3 solution;output out=sortie p=yy r=uu stdr=erty student=rest;
lsmeans f1 f2 f1*f2 / out=graph;run;quit;
* -------------------------------------------------- ;
* graphiques de controle du modele ;
* -------------------------------------------------- ;goptions device=psepsf gend=0ax gaccess=gsasfile;filename gsasfile vach1.eps;goptions colors=(black) hsize=13cm vsize=10cm;proc gplot data=sortie;axis1 label=(valeurs observees) order=(6 to 22 by 2)
minor=none length=7cm;axis2 label=(valeurs justify=right predites)
order=(6 to 22 by 2) minor=none length=7cm;symbol1 v=dot i=none;symbol2 v=none i=rl;plot yy*y y*y / haxis=axis1 vaxis=axis2 overlay;run;goptions reset=all;quit;
* -------------------------------------------------- ;goptions device=psepsf gend=0ax gaccess=gsasfile;filename gsasfile vach2.eps;goptions colors=(black) hsize=13cm vsize=10cm;proc gplot data=sortie;axis1 label=(valeurs predites)
order=(6 to 20 by 2) minor=none length=7cm;axis2 label=(resisus justify=right studentises)
order=(-3 to 3 by 1) minor=none length=7cm;symbol v=dot;plot rest*yy / haxis=axis1 vaxis=axis2
vref=-2 vref=0 vref=2;run;goptions reset=all;quit;
* -------------------------------------------------- ;
* graphiques des interactions ;
* -------------------------------------------------- ;goptions device=psepsf gend=0ax gaccess=gsasfile;filename gsasfile vach3.eps;
14
http://wikistat.fr -
ANOVA : analyse de variance univarie
goptions colors=(black) hsize=13cm vsize=10cm;proc gplot data=graph;axis1 label=(premier facteur) order=(1 to 2 by 1)
minor=none length=6cm;axis2 label=(moyenne justify=right des effets)
order=(8 to 20 by 2) minor=none length=6cm;symbol1 i=join v=dot;symbol2 i=join v=triangle;symbol3 i=join v=circle;symbol4 i=join v=#;symbol5 i=join v=%;plot lsmean*f1=f2 / haxis=axis1 vaxis=axis2;run;goptions reset=all;quit;
* -------------------------------------------------- ;goptions device=psepsf gend=0ax gaccess=gsasfile;filename gsasfile vach4.eps;goptions colors=(black) hsize=13cm vsize=10cm;proc gplot data=graph;axis1 label=(second facteur) order=(1 to 4 by 1)
minor=none length=6cm;axis2 label=(moyenne justify=right des effets)
order=(8 to 20 by 2) minor=none length=6cm;symbol1 i=join v=dot;symbol2 i=join v=triangle;symbol3 i=join v=circle;plot lsmean*f2=f1 / haxis=axis1 vaxis=axis2;run;goptions reset=all;quit;
3.8.3 Les sorties de la procdure GLMPAGE 1 The GLM Procedure------
Class Level Information
Class Levels Values
f1 2 1 2
f2 4 1 2 3 4
Number of observations 40PAGE 2------
Dependent Variable: y
Sum ofSource DF Squares Mean Square F Value Pr > F
Model 7 331.6000000 47.3714286 17.54 F
f1 1 0.4000000 0.4000000 0.15 0.7029f2 3 290.2000000 96.7333333 35.83 |t|
Intercept 18.00000000 B 0.73484692 24.49
-
ANOVA : analyse de variance univarie
1 12.10000002 11.9000000
f2 y LSMEAN
1 9.10000002 11.00000003 11.50000004 16.4000000
f1 f2 y LSMEAN
1 1 9.40000001 2 12.00000001 3 12.20000001 4 14.80000002 1 8.80000002 2 10.00000002 3 10.80000002 4 18.0000000
3.8.4 Commentaires
La commande lsmeans de la procdure GLM permet, dune part, dob-tenir en sortie certaines moyennes des yijk (ici, selon les niveaux de chaquefacteur, puis selon les cellules), dautre part, de rcuprer la table SAS, iciappele graph, qui permet de raliser les graphiques dinteractions.
3.8.5 Les graphiques
Le programme ci-dessus produit les quatre graphiques 3.3 3.6.
4 Cas de trois facteurs croiss
4.1 Notations Les trois facteurs considrs sont nots F1, F2 et F3. Le nombre de niveaux de F1 est not J , celui de F2 est not K et celui deF3 est not L (J 2 ; K 2 ; L 2).
Les niveaux de F1 sont indics par j, ceux de F2 par k et ceux de F3 par`.
Les trois facteurs tant croiss, on considre les JKL cellules (ou triplets)(j, k, `).
v a l e u r sp r e d i t e s
6
8
1 0
1 2
1 4
1 6
1 8
2 0
2 2
v a l e u r s o b s e r v e e s
6 8 1 0 1 2 1 4 1 6 1 8 2 0 2 2
FIGURE 3 Graphique valeurs prdites vs valeurs observes.
FIGURE 4 Graphique des rsidus.
16
http://wikistat.fr -
ANOVA : analyse de variance univarie
f 2 . 1 23 4
m o y e n n ed e s e f f e t s
8
1 0
1 2
1 4
1 6
1 8
2 0
p r e m i e r f a c t e u r
1 2
FIGURE 5 Premier graphique des interactions.
Dans chaque cellule, on ralise njk` observations de la variable expli-quer Y et on pose n =
Jj=1
Kk=1
L`=1 njk`. On suppose toujours que
le plan est complet : (j, k, `), njk` 1 ; de plus, si (j, k, `), njk` =n0, alors le plan est quilibr.
On notera Yijk` (i = 1, . . . , njk`) les v.a.r. associes aux observations deY dans la cellule (j, k, `).
4.2 Modle
4.2.1 Paramtrage initial
Dans un premier temps, on crit le modle sous la forme
Yijk` = jk` + Uijk`,
avec toujours les mmes hypothses sur les v.a.r. Uijk` (elles sont i.i.d.,N (0, 2)). Il y a donc JKL paramtres jk` indpendants estimer, en plusde 2 (ici, p = JKL).
f 1 . 1 2
m o y e n n ed e s e f f e t s
8
1 0
1 2
1 4
1 6
1 8
2 0
s e c o n d f a c t e u r
1 2 3 4
FIGURE 6 Second graphique des interactions.
4.2.2 Paramtrage centr
Il fait intervenir toutes les moyennes partielles (non pondres) des para-mtres jk`. Dfinissons tout dabord ces moyennes :
k` =1
J
Jj=1
jk` ; j` =1
K
Kk=1
jk` ; jk =1
L
L`=1
jk` ;
` =1
JK
Jj=1
Kk=1
jk` ; k =1
JL
Jj=1
L`=1
jk` ; j =1
KL
Kk=1
L`=1
jk` ;
=1
JKL
Jj=1
Kk=1
L`=1
jk`.
On rcrit alors le modle sous la forme :
Yijk` = +1j +
2k +
3` +
12jk +
13j` +
23k` + jk` +Uijk` = jk` +Uijk`.
Le paramtre est leffet gnral (1 paramtre). Il est dfini par : =.
17
http://wikistat.fr -
ANOVA : analyse de variance univarie
Les paramtres 1j , 2k et
3` sont les effets principaux associs aux diff-
rents niveaux de chacun des trois facteurs. Ils sont dfinis par les relationssuivantes :
1j = j ; 2k = k ; 3` = ` .
Ils vrifient :J
j=1
1j =
Kk=1
2k =
L`=1
3` = 0.
Il y a donc (J 1) + (K 1) + (L 1) paramtres indpendants. Les paramtres 12jk ,
13j` et
23k` sont les effets dinteractions dordre 2
(entre 2 facteurs). Ils sont dfinis par les relations suivantes :
12jk = jk j k + ;13j` = j` j ` + ;23k` = k` k ` + .
Ils vrifient :
Jj=1
12jk =
Kk=1
12jk =
Jj=1
13j` =
L`=1
13j` =
Kk=1
23k` =
L`=1
23k` = 0.
Il y a donc (J1)(K1)+(J1)(L1)+(K1)(L1) paramtres indpendants.
Les paramtres jk` sont les effets dinteractions dordre 3 (entre 3 fac-teurs). Ils sont dfinis par :
jk` = jk` k` j` jk + ` + k + j .
Ils vrifient :J
j=1
jk` =
Kk=1
jk` =
L`=1
jk` = 0.
Il y a donc (J 1)(K 1)(L 1) paramtres indpendants.
Au total, ce nouveau paramtrage fait intervenir
1 + (J 1) + (K 1) + (L 1)+ (J 1)(K 1) + (J 1)(L 1) + (K 1)(L 1)+ (J 1)(K 1)(L 1)= JKL
paramtres indpendants, ce qui est cohrent.
4.2.3 Paramtrage SAS
Le paramtrage SAS utilise toujours, dans ce cas, le principe consistant prendre le dernier niveau de chaque facteur comme niveau de rfrence. DansSAS, on rcrit le modle sous la forme :
Yijk` = m+ a1j + a
2k + a
3` + c
12jk + c
13j` + c
23k` + djk` +Uijk` = jk` +Uijk`.
De faon logique (compte tenu de ce qui a dj t fait avec deux facteurscroiss), les paramtres sont dfinis de la manire suivante :
m = JKL ;
a1j = jKL JKL ; a2k = JkL JKL ; a3` = JK` JKL ;(a1J = a
2K = a
3L = 0) ;
c12jk = jkL jKL JkL + JKL ; c13j` = jK` jKL JK` + JKL ;c23k` = Jk` JkL JK` + JKL ;
(c12jK = 0,j ; c12Jk = 0,k ;c13jL = 0,j ; c13J` = 0, ` ; c23kL = 0, k ; c23K` = 0, `) ;djk` = jk` jkL jK` Jk` + jKL + JkL + JK` JKL ;(djk` = 0, ds quau moins un des indices j, k ou ` est maximum).
Il y a toujours un total de JKL paramtres indpendants dans le paramtrageSAS.
4.3 Estimations
Selon le mme principe que celui vu dans les cas de un ou de deux facteurs,on obtient, comme estimation de chaque paramtre jkl, la quantit :
jk` = yjk` =1
njk`
njk`i=1
yijk`.
18
http://wikistat.fr -
ANOVA : analyse de variance univarie
Pour le paramtrage centr, on calcule ensuite toutes les moyennes partielles(toujours non pondres) de ces estimations, respectivement notes :
k` j` jk ` k j .
Les estimations des paramtres , 1j , 2k,
3` ,
12jk ,
13j` ,
23k` et jk`
sobtiennent, partir des estimations prcdentes, en utilisant les mmes for-mules que celles ayant permis de dfinir ces paramtres partir des moyennespartielles des jk`.
Dans le paramtrage SAS, selon le mme principe, on utilise les mmes for-mules que celles donnes plus haut en remplaant les par leurs estimations.On obtient ainsi les estimations des paramtres dfinis par SAS.
4.4 Tests
L encore, nous prconisons de procder de faon hirarchique pour faireles tests (de Fisher) de nullit des diffrentes catgories de paramtres.
On commence donc par tester la nullit des effets dinteractions dordre3 :
{H0 : jk` = 0 , (j, k, `)}.Si cette hypothse est rejete, on garde le modle complet et les tests sonttermins.
Si, au contraire, lhypothse ci-dessus nest pas rejete, on prend commemodle de rfrence le modle sans interactions dordre 3. Dans ce mo-dle, on teste successivement la nullit des diffrents effets dinteractionsdordre 2 :
{H120 : 12jk = 0 , (j, k)} ;{H130 : 13j` = 0 , (j, `)} ;{H230 : 23k` = 0 , (k, `)}.
Si les trois hypothses sont rejetes, on garde le modle avec les troissries deffets dinteractions dordre 2 et les tests sont termins.
Si deux hypothses sont rejetes, on enlve seulement du modle les effetsdinteractions supposs nuls et les tests sont termins (chacun des troisfacteurs doit tre conserv car il intervient dans au moins une des sriesdinteractions dordre deux).
Si une seule hypothse est rejete, on enlve les effets dinteractions sup-poss nuls et on teste la nullit des effets du facteur nintervenant pas dansles interactions (il y en a un et un seul). Si cette dernire hypothse est re-jete, les tests sont termins. Sinon, on enlve le facteur correspondant eton se retrouve dans un modle dANOVA deux facteurs (les tests sontgalement termins).
Si aucune hypothse nest rejete, on prend alors le modle additif (sansaucune interaction) pour rfrence et on teste sparment la nullit deseffets de chaque facteur.
Remarque. On utilisera encore le test de Fisher pour tester la significativitdu modle retenu.
Remarque. Dans le cadre dun plan trois facteurs, on appelle toujoursmodle additif le modle sans aucune interaction.
5 GnralisationConceptuellement, il nest pas difficile de dfinir des plans factoriels quatre
facteurs croiss ou plus. Toutefois, leur criture devient trs vite inextricable.
Il faut noter que, dans la pratique, notamment industrielle, il nest pas rarede trouver de tels plans au moins quatre facteurs. Toutefois, dans ce genre desituations, on a le plus souvent affaire des plans incomplets, les plans com-plets tant trop coteux mettre en uvre. Il convient alors de choisir de faonspcifique les cellules dans lesquelles on ralise les observations, de manire obtenir un maximum de proprits statistiques avec un minimum dobserva-tions. Ltude de certains de ces plans factoriels incomplets est aborde dansle chapitre 4.
Enfin, signalons quon rencontre galement, dans la pratique, des plans deux ou plusieurs facteurs hirarchiss (les niveaux dun facteur sont condi-tionns par les niveaux dun autre facteur). Nous nabordons pas ce type deplans dans ce cours, mais signalons nanmoins quil est trs simple de lesmettre en uvre avec la procdure GLM de SAS et que cest dans ce cas queles sommes de carrs de type I savrent utiles (voir lAnnexe B).
19
http://wikistat.frIntroductionCas d'un seul facteurcriture initiale du modleParamtrage centrNotationParamtrage SASNotationEstimation des paramtresTest de l'effet du facteur FSynthse des rsultats prcdents : le tableau d'analyse de la varianceAutres testsIllustrationLes donnesLe programme SASLes sorties de la procdure GLMEstimation des paramtresLa commande outputLes graphiquesCas de deux facteurs croissNotationscriture initiale du modleParamtrage centrParamtrage SASEstimation des paramtresParamtrage initialParamtrage centrParamtrage SASValeurs prdites et rsidusVarianceTests d'hypothsesHypothse H0 : absence d'effet des interactionsHypothse H'0 : absence d'effet du facteur F1Hypothse H''0 : absence d'effet du facteur F2Cas particulier d'un plan quilibrIllustrationLes donnesLe programme SASLes sorties de la procdure GLMCommentairesLes graphiquesCas de trois facteurs croissNotationsModleParamtrage initialParamtrage centrParamtrage SASEstimationsTestsGnralisation