analyse de la variance › ~mchave100p › wordpress › wp-content › u… · on peut...

37
Plan Analyse de la variance - Chapitre VI - Notes de cours Mod´ elisation Statistique L3 MIASHS - Universit´ e de Bordeaux - Chapitre VI - L3 MIASHS- Analyse de la variance 1/37

Upload: others

Post on 05-Jul-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Analyse de la variance › ~mchave100p › wordpress › wp-content › u… · On peut classiquement introduire l’analyse de la variance oul’ANOVA (ANalysis Of VAriance) de deux

Plan

Analyse de la variance

- Chapitre VI -

Notes de cours

Modelisation Statistique

L3 MIASHS - Universite de Bordeaux

- Chapitre VI - L3 MIASHS- Analyse de la variance 1/37

Page 2: Analyse de la variance › ~mchave100p › wordpress › wp-content › u… · On peut classiquement introduire l’analyse de la variance oul’ANOVA (ANalysis Of VAriance) de deux

Plan

Plan

1 Introduction

2 Representation des donnees et notations

3 Modelisation

4 Estimation des parametres

5 Variabilite et significativite

- Chapitre VI - L3 MIASHS- Analyse de la variance 2/37

Page 3: Analyse de la variance › ~mchave100p › wordpress › wp-content › u… · On peut classiquement introduire l’analyse de la variance oul’ANOVA (ANalysis Of VAriance) de deux

IntroductionRepresentation des donnees et notations

ModelisationEstimation des parametresVariabilite et significativite

Introduction

Plan

1 Introduction

2 Representation des donnees et notations

3 Modelisation

4 Estimation des parametres

5 Variabilite et significativite

- Chapitre VI - L3 MIASHS- Analyse de la variance 3/37

Page 4: Analyse de la variance › ~mchave100p › wordpress › wp-content › u… · On peut classiquement introduire l’analyse de la variance oul’ANOVA (ANalysis Of VAriance) de deux

IntroductionRepresentation des donnees et notations

ModelisationEstimation des parametresVariabilite et significativite

Introduction

Introduction

On peut classiquement introduire l’analyse de la variance ou l’ANOVA(ANalysis Of VAriance) de deux manieres.

On cherche a expliquer une variable quantitative Y au moyen d’unevariable explicative qualitative X .

Generalement, la variable explicative est appelee facteur (explicatif). Lesmodalites sont appelees niveaux de facteur

On verra que l’on peut faire “apparaıtre” un modele lineaire sous-jacent.

On desire comparer differentes populations ou differentes conditionsexperimentales. La question que l’on se pose est : “Y-a-t-il desdifferences en moyenne entre les divers groupes ?”

Exemple : un agronome veut etudier l’effet de 3 types d’engrais sur lerendement a l’hectare de parcelles de ble. Ici,

Y = rendement a l’hectare (en tonnes), variable quantitative,X = type d’engrais (A, B ou C), variable qualitative ou facteur.

Quel modele lineaire pour etudier cette problematique ?

- Chapitre VI - L3 MIASHS- Analyse de la variance 4/37

Page 5: Analyse de la variance › ~mchave100p › wordpress › wp-content › u… · On peut classiquement introduire l’analyse de la variance oul’ANOVA (ANalysis Of VAriance) de deux

IntroductionRepresentation des donnees et notations

ModelisationEstimation des parametresVariabilite et significativite

Introduction

Tableau recapitulatif

Type de la variable Type de la ou des Modele lineairea expliquer variables explicatives correspondant

quantitative quantitative (1) regression lineaire simplequantitative quantitatives (p) regression lineaire multiplequantitative qualitative (1) ANOVA a un facteurquantitative qualitatives (p) ANOVA a plusieurs facteursquantitative quantitative(s) analyse de la covariance

+ qualitative(s) (ANCOVA)

qualitative a 2 quantitative(s) regression logistiquemodalites (codees 0/1)

qualitative qualitative(s) regression binomiale

Dans ce cours, ANOVA a 1 facteur uniquement.

- Chapitre VI - L3 MIASHS- Analyse de la variance 5/37

Page 6: Analyse de la variance › ~mchave100p › wordpress › wp-content › u… · On peut classiquement introduire l’analyse de la variance oul’ANOVA (ANalysis Of VAriance) de deux

IntroductionRepresentation des donnees et notations

ModelisationEstimation des parametresVariabilite et significativite

Introduction

Reprenons l’exemple des engrais. Supposons que ni observations du rendementa l’hectare ont ete obtenues pour chaque type d’engrais i . Un modele peuts’ecrire sous la forme :

Yij = µi + εij

avec i = A,B,C et j = 1, . . . , ni .

Yij est le rendement observe de la parcelle j traitee avec l’engrais i ;

µi represente le rendement moyen d’une parcelle traitee avec l’engrais i ;

εij est un terme d’erreur aleatoire.

Ce modele peut aussi s’ecrire sous la forme alternative suivante :

Yij = µ+ αi + εij

ou µ est le rendement moyen global (quel que soit l’engrais) et αi est l’effetdifferentiel du niveau i du facteur “engrais”.

- Chapitre VI - L3 MIASHS- Analyse de la variance 6/37

Page 7: Analyse de la variance › ~mchave100p › wordpress › wp-content › u… · On peut classiquement introduire l’analyse de la variance oul’ANOVA (ANalysis Of VAriance) de deux

IntroductionRepresentation des donnees et notations

ModelisationEstimation des parametresVariabilite et significativite

Introduction

Une hypothese interessante a tester ici est :

H0 : µA = µB = µC

ou de maniere equivalente :

H0 : αA = αB = αC = 0.

Le but sera donc :

tester si deux niveaux differents du facteur entraınent une differencesignificative dans la variable a expliquer Y .

ou de maniere equivalente tester l’effet du facteur X (”engrais”) sur lavariable a expliquer Y (”rendement”),

- Chapitre VI - L3 MIASHS- Analyse de la variance 7/37

Page 8: Analyse de la variance › ~mchave100p › wordpress › wp-content › u… · On peut classiquement introduire l’analyse de la variance oul’ANOVA (ANalysis Of VAriance) de deux

IntroductionRepresentation des donnees et notations

ModelisationEstimation des parametresVariabilite et significativite

Representation des donneesNotations

Plan

1 Introduction

2 Representation des donnees et notations

3 Modelisation

4 Estimation des parametres

5 Variabilite et significativite

- Chapitre VI - L3 MIASHS- Analyse de la variance 8/37

Page 9: Analyse de la variance › ~mchave100p › wordpress › wp-content › u… · On peut classiquement introduire l’analyse de la variance oul’ANOVA (ANalysis Of VAriance) de deux

IntroductionRepresentation des donnees et notations

ModelisationEstimation des parametresVariabilite et significativite

Representation des donneesNotations

Representation des donnees

→ On suppose que l’on dispose de k echantillons de tailles respectivesn1, . . . , nk , correspondant aux k niveaux d’un facteur. La taille de lapopulation est donc

n =k∑

i=1

ni .

→ Les variables aleatoires de notre n–echantillon (Yij) sont alors indicees par2 dimensions (1 ≤ i ≤ k est le niveau d’appartenance de Yij et 1 ≤ j ≤ ni

est le numero d’apparition de Yij dans le niveau i). Il s’ensuit que ni est”l’effectif” du niveau i .

→ Nous pouvons ainsi representer nos donnees sous forme de tableau.

Niveaux Effectifs Variables a expliquer

1 n1 Y11,Y12, . . . ,Y1n1

2 n2 Y21,Y22, . . . ,Y2n2

......

...

k nk Yk1,Yk2, . . . ,Yknk

- Chapitre VI - L3 MIASHS- Analyse de la variance 9/37

Page 10: Analyse de la variance › ~mchave100p › wordpress › wp-content › u… · On peut classiquement introduire l’analyse de la variance oul’ANOVA (ANalysis Of VAriance) de deux

IntroductionRepresentation des donnees et notations

ModelisationEstimation des parametresVariabilite et significativite

Representation des donneesNotations

→ Par exemple, le tableau ci-dessous donne le rendement en quintaux parhectare d’une variete de ble cultivee avec les engrais A, B et C .

Niveaux Effectifs Rendements

A 4 48, 49, 50, 49

B 4 47, 49, 48, 48

C 4 49, 51, 50, 50

L’agriculteur se demande :

si le type d’engrais (A, B ou C ) a un effet sur le rendementmoyen de la variete de ble qu’il cultive ?quel type d’engrais est lui permet d’obtenir un meilleurrendement a l’hectare ?

⇒ La variable explicative qualitative (le facteur) definit des groupes(classes) d’appartenances des variables a expliquer Yij .

- Chapitre VI - L3 MIASHS- Analyse de la variance 10/37

Page 11: Analyse de la variance › ~mchave100p › wordpress › wp-content › u… · On peut classiquement introduire l’analyse de la variance oul’ANOVA (ANalysis Of VAriance) de deux

IntroductionRepresentation des donnees et notations

ModelisationEstimation des parametresVariabilite et significativite

Representation des donneesNotations

Notations

→ au niveau de chaque groupe i (pour i = 1, . . . , k),

Yi. =

ni∑j=1

Yij et Yi. =1

ni

ni∑j=1

Yij

representent la somme ainsi que la moyenne empirique du niveau i .

→ au niveau de l’ensemble des observations,

Y.. =k∑

i=1

Yi. =k∑

i=1

ni∑j=1

Yij et Y.. =1

n

k∑i=1

Yi. =1

n

k∑i=1

ni∑j=1

Yij

representent la somme sur tous les niveaux ainsi que la moyenneempirique de l’echantillon global.

- Chapitre VI - L3 MIASHS- Analyse de la variance 11/37

Page 12: Analyse de la variance › ~mchave100p › wordpress › wp-content › u… · On peut classiquement introduire l’analyse de la variance oul’ANOVA (ANalysis Of VAriance) de deux

IntroductionRepresentation des donnees et notations

ModelisationEstimation des parametresVariabilite et significativite

Premiere modelisationSeconde modelisation

Plan

1 Introduction

2 Representation des donnees et notations

3 Modelisation

4 Estimation des parametres

5 Variabilite et significativite

- Chapitre VI - L3 MIASHS- Analyse de la variance 12/37

Page 13: Analyse de la variance › ~mchave100p › wordpress › wp-content › u… · On peut classiquement introduire l’analyse de la variance oul’ANOVA (ANalysis Of VAriance) de deux

IntroductionRepresentation des donnees et notations

ModelisationEstimation des parametresVariabilite et significativite

Premiere modelisationSeconde modelisation

Premiere modelisation

La premiere modelisation est donnee par :

Yi j = µi + εij pour i = 1, . . . , k et j = 1, . . . , ni

ou

→ les erreurs εij sont des variables aleatoires independantes, gaussiennes,centrees, homoscedastiques de variance σ2 > 0,

→ les observations Yij sont des variables aleatoires centrees autour d’unemoyenne µi propre au niveau i avec :

Yij ∼ N (µi , σ2) et que Cov(Yij ,Yk`) =

{σ2 si i = k et j = `0 sinon.

⇒Les variables aleatoires Yij sont donc independantes mais nonidentiquement distribuees (puisque leur esperance depend de leur niveaud’appartenance).

→ la moyenne theorique µi de la variable a expliquer Y dans le groupe deniveau i est appelee l’effet du niveau i du facteur X .

- Chapitre VI - L3 MIASHS- Analyse de la variance 13/37

Page 14: Analyse de la variance › ~mchave100p › wordpress › wp-content › u… · On peut classiquement introduire l’analyse de la variance oul’ANOVA (ANalysis Of VAriance) de deux

IntroductionRepresentation des donnees et notations

ModelisationEstimation des parametresVariabilite et significativite

Premiere modelisationSeconde modelisation

Seconde modelisation

Objectif : Mettre en evidence la presence d’un effet global, ne dependant pasdu niveau i , puis d’effets marginaux propres a chaque niveau.

⇒ On utilise la decomposition de µi suivante :

µi = µ+ αi pour i = 1, . . . , k

ou

- µ est l’effet global ne dependant pas du niveau i ,

- αi est l’effet marginal propre a chaque niveau i .

Le probleme : Il existe une infinite de decompositions et donc de choix de

parametres µ, α1, . . . , αk . Il faudra donc ajouter une condition d’identifiabilite

sur les parametres.

- Chapitre VI - L3 MIASHS- Analyse de la variance 14/37

Page 15: Analyse de la variance › ~mchave100p › wordpress › wp-content › u… · On peut classiquement introduire l’analyse de la variance oul’ANOVA (ANalysis Of VAriance) de deux

IntroductionRepresentation des donnees et notations

ModelisationEstimation des parametresVariabilite et significativite

Premiere modelisationSeconde modelisation

Seconde modelisation

La seconde modelisation est alors donnee par :

Yij = µ+ αi + εij pour i = 1, . . . , k et j = 1, . . . , ni

ou les erreurs (εij) forment toujours un bruit blanc gaussien de variance σ2 > 0et donc

Yij ∼ N (µ+ αi , σ2) avec Cov(Yij ,Yk`) =

{σ2 si i = k et j = `0 sinon.

→ L’interpretation de l’effet global µ et de l’effet marginal αi dependent duchoix de la decomposition de µi = µ+ αi ,

→ Deux decompositions classiques de µi

- Chapitre VI - L3 MIASHS- Analyse de la variance 15/37

Page 16: Analyse de la variance › ~mchave100p › wordpress › wp-content › u… · On peut classiquement introduire l’analyse de la variance oul’ANOVA (ANalysis Of VAriance) de deux

IntroductionRepresentation des donnees et notations

ModelisationEstimation des parametresVariabilite et significativite

Premiere modelisationSeconde modelisation

Une premiere decomposition classique est donnee par :

µi = µ. + αi pour i = 1, . . . , k

avec

- l’effet global µ. = 1n

∑ki=1 niµi qui est appele l’effet moyen.

→ µ. = 1k

∑ki=1 µi si tous les ni sont egaux.

- l’effet marginal αi = µi − µ. qui est appele l’effet differentiel du niveau i .→ On a par construction la condition d’identifiabilite :

k∑i=1

αi = 0 si tous les ni sont egaux etk∑

i=1

niαi = 0 sinon.

La modelisation avec calage sur l’effet moyen est alors :

Yij = µ. + αi + εij pour i = 1, . . . , k et j = 1, . . . , ni

- Chapitre VI - L3 MIASHS- Analyse de la variance 16/37

Page 17: Analyse de la variance › ~mchave100p › wordpress › wp-content › u… · On peut classiquement introduire l’analyse de la variance oul’ANOVA (ANalysis Of VAriance) de deux

IntroductionRepresentation des donnees et notations

ModelisationEstimation des parametresVariabilite et significativite

Premiere modelisationSeconde modelisation

Une seconde decomposition classique est donnee par :

µi = µk + αi pour i = 1, . . . , k

avec

- l’effet global µk qui est la moyenne propre au dernier niveau k.

- l’effet marginal αi = µi − µk qui est l’effet differentiel du niveau i .→ On a par construction la condition d’identifiabilite :

αk = 0.

La modelisation avec calage sur le groupe k est alors :

Yij = µk + αi + εij pour i = 1, . . . , k et j = 1, . . . , ni

- Chapitre VI - L3 MIASHS- Analyse de la variance 17/37

Page 18: Analyse de la variance › ~mchave100p › wordpress › wp-content › u… · On peut classiquement introduire l’analyse de la variance oul’ANOVA (ANalysis Of VAriance) de deux

IntroductionRepresentation des donnees et notations

ModelisationEstimation des parametresVariabilite et significativite

Le premier modeleLe second modele

Plan

1 Introduction

2 Representation des donnees et notations

3 Modelisation

4 Estimation des parametres

5 Variabilite et significativite

- Chapitre VI - L3 MIASHS- Analyse de la variance 18/37

Page 19: Analyse de la variance › ~mchave100p › wordpress › wp-content › u… · On peut classiquement introduire l’analyse de la variance oul’ANOVA (ANalysis Of VAriance) de deux

IntroductionRepresentation des donnees et notations

ModelisationEstimation des parametresVariabilite et significativite

Le premier modeleLe second modele

Estimation des parametres du premier modele

Le premier modele

Yij = µi + εij pour i = 1, . . . , k et j = 1, . . . , ni

contient k parametres a estimer : µ1, . . . , µk et σ2.

1 Ecriture sous la forme d’un modele lineaire gaussien

2 Ecriture matricielle du modele,

3 Estimation de µ1, . . . , µk par la methode des moindres carres.

- Chapitre VI - L3 MIASHS- Analyse de la variance 19/37

Page 20: Analyse de la variance › ~mchave100p › wordpress › wp-content › u… · On peut classiquement introduire l’analyse de la variance oul’ANOVA (ANalysis Of VAriance) de deux

IntroductionRepresentation des donnees et notations

ModelisationEstimation des parametresVariabilite et significativite

Le premier modeleLe second modele

Le premier modele s’ecrit sous la forme du modele linaire gaussien suivant(allegee des indices) :

Y = µ1I1 + · · ·+ µkIk + ε,

ou Ii est l’indicatrice d’appartenance au niveau i du facteur, c’est a dire

Ii (j) =

{1 si l’observation j a le niveau i du facteur0 sinon.

Ceci est un modele de regression lineaire multiple avec

une ordonnee a l’origine β0 = 0,

k variables explicatives X1 = I1, . . . , Xk = Ik ,

le role des βi etant joue par les µi (pour i = 1, . . . , k).

- Chapitre VI - L3 MIASHS- Analyse de la variance 20/37

Page 21: Analyse de la variance › ~mchave100p › wordpress › wp-content › u… · On peut classiquement introduire l’analyse de la variance oul’ANOVA (ANalysis Of VAriance) de deux

IntroductionRepresentation des donnees et notations

ModelisationEstimation des parametresVariabilite et significativite

Le premier modeleLe second modele

Le premier modele s’ecrit alors sous la forme matricielle

Y = Xβ + ε

avec :

Y11

...Y1n1

Y21

...Y2n2

...

...Yk1

...Yknk

︸ ︷︷ ︸

Y

=

1 0 0 . . . 0...

......

...1 0 0 . . . 00 1 0 . . . 0...

......

...0 1 0 . . . 0...

......

......

......

...0 0 0 . . . 1...

......

...0 0 0 . . . 1

︸ ︷︷ ︸

X

µ1

µ2

...µk

︸ ︷︷ ︸

β

+

ε11

...ε1n1

ε21

...ε2n2

...

...εk1

...εknk

︸ ︷︷ ︸

ε

.

- Chapitre VI - L3 MIASHS- Analyse de la variance 21/37

Page 22: Analyse de la variance › ~mchave100p › wordpress › wp-content › u… · On peut classiquement introduire l’analyse de la variance oul’ANOVA (ANalysis Of VAriance) de deux

IntroductionRepresentation des donnees et notations

ModelisationEstimation des parametresVariabilite et significativite

Le premier modeleLe second modele

Par calcul direct, on obtient :

X tX =

n1 0 . . . 0

0 n2

. . ....

.... . .

. . . 00 . . . 0 nk

et X tY =

Y1.

Y2.

...Yk.

Il est donc tres facile d’obtenir l’estimateur des moindres carres de β :

(X tX )−1 =

1/n1 0 . . . 0

0 1/n2

. . ....

.... . .

. . . 00 . . . 0 1/nk

et β = (X tX )−1 X tY =

Y1.

Y2.

...Yk.

.

d’ou

βi = µi = Yi. =1

ni

ni∑j=1

Yij .

→ l’effet moyen d’un niveau est estime par la moyenne empirique des

observations dans ce niveau.- Chapitre VI - L3 MIASHS- Analyse de la variance 22/37

Page 23: Analyse de la variance › ~mchave100p › wordpress › wp-content › u… · On peut classiquement introduire l’analyse de la variance oul’ANOVA (ANalysis Of VAriance) de deux

IntroductionRepresentation des donnees et notations

ModelisationEstimation des parametresVariabilite et significativite

Le premier modeleLe second modele

Estimation des parametres du second modele

Le second modele

Yij = µ+ αi + εij pour i = 1, . . . , k et j = 1, . . . , ni

contient k + 1 parametres a estimer : µ, α1, . . . , αk et σ2.

1 Ecriture sous la forme d’un modele lineaire gaussien

2 Ecriture matricielle du modele,

3 Estimation de µ, α1, . . . , αk selon la contrainte sur les parametres :

-∑k

i=1 niαi = 0 (calage sur la moyenne globale)- αk = 0 (calage sur le groupe k)

→ k parametres a estimer.

- Chapitre VI - L3 MIASHS- Analyse de la variance 23/37

Page 24: Analyse de la variance › ~mchave100p › wordpress › wp-content › u… · On peut classiquement introduire l’analyse de la variance oul’ANOVA (ANalysis Of VAriance) de deux

IntroductionRepresentation des donnees et notations

ModelisationEstimation des parametresVariabilite et significativite

Le premier modeleLe second modele

Le second modele s’ecrit sous la forme du modele linaire gaussien suivant(allegee des indices) :

Y = µ1 + α1I1 + · · ·+ αkIk + ε,

ou Ii est l’indicatrice d’appartenance au niveau i du facteur, c’est a dire

Ii (j) =

{1 si l’observation j a le niveau i du facteur0 sinon.

Ceci est un modele de regression lineaire multiple avec

une ordonnee a l’origine β0 = µ,

k variables explicatives X1 = I1, . . . , Xk = Ik ,

le role des βi etant joue par les αi (pour i = 1, . . . , k).

- Chapitre VI - L3 MIASHS- Analyse de la variance 24/37

Page 25: Analyse de la variance › ~mchave100p › wordpress › wp-content › u… · On peut classiquement introduire l’analyse de la variance oul’ANOVA (ANalysis Of VAriance) de deux

IntroductionRepresentation des donnees et notations

ModelisationEstimation des parametresVariabilite et significativite

Le premier modeleLe second modele

Le second modele s’ecrit alors sous la forme matricielle

Y = Xβ + ε

avec :

Y11

...Y1n1

Y21

...Y2n2

...Yk1

...Yknk

=

1 1 0 · · · 0...

......

...1 1 0 · · · 01 0 1 · · · 0...

......

...1 0 1 · · · 0...

......

...1 0 0 · · · 1...

......

...1 0 0 · · · 1

µ.α1

...αk

+

ε11

...ε1n1

ε21

...ε2n2

...εk1

...εknk

→ par construction rang(X ) = k < k + 1 (la premiere colonne de X etant

egale a la somme des autres colonnes) et k + 1 parametres inconnus a estimer.

→ il faut donc imposer une contrainte sur les parametres.

- Chapitre VI - L3 MIASHS- Analyse de la variance 25/37

Page 26: Analyse de la variance › ~mchave100p › wordpress › wp-content › u… · On peut classiquement introduire l’analyse de la variance oul’ANOVA (ANalysis Of VAriance) de deux

IntroductionRepresentation des donnees et notations

ModelisationEstimation des parametresVariabilite et significativite

Le premier modeleLe second modele

On reprend les deux exemples de contraintes rencontrees usuellement dans leslogiciels de statistique :

∑ki=1 niαi = 0 (calage sur la moyenne globale).

Avec ce choix, l’ordonnee a l’origine est l’effet moyen µ. = 1I

∑Ii=1 niµi

et on considere le modele lineaire gaussien

Y = µ.1 + α1I1 + · · ·+ αkIk + ε avec αi = µi − µ.

et

- l’ordonnee a l’origine µ. est estime par µ. = Y..- les effets differentiels αi sont estimes par αi = Yi. − Y..

- Chapitre VI - L3 MIASHS- Analyse de la variance 26/37

Page 27: Analyse de la variance › ~mchave100p › wordpress › wp-content › u… · On peut classiquement introduire l’analyse de la variance oul’ANOVA (ANalysis Of VAriance) de deux

IntroductionRepresentation des donnees et notations

ModelisationEstimation des parametresVariabilite et significativite

Le premier modeleLe second modele

αk = 0 (calage sur le groupe k).

Avec ce choix, l’ordonnee a l’origine n’est plus l’effet moyen µ. maisl’effet du dernier niveau µk et on considere le modele lineaire gaussien :

Y = µk1 + α?1 I1 + · · ·+ α?k−1Ik−1 + ε avec αi? = µi − µk

et

- l’ordonnee a l’origine µk est estime par µk = Yk.

- les effets differentiels αi sont estimes par α?i = Yi. − Yk.

- Chapitre VI - L3 MIASHS- Analyse de la variance 27/37

Page 28: Analyse de la variance › ~mchave100p › wordpress › wp-content › u… · On peut classiquement introduire l’analyse de la variance oul’ANOVA (ANalysis Of VAriance) de deux

IntroductionRepresentation des donnees et notations

ModelisationEstimation des parametresVariabilite et significativite

Le premier modeleLe second modele

Predictions, residus, et estimation de σ2

Quel que soit le modele utilise, nous aboutissons a la meme reconstruction denos donnees.

En effet, on construit les predictions

Yij = µi = Yi. ou encore Yij = µ+ αi = Y.. + Yi. − Y.. = Yi.

et les residus

εij = Yij − Yij = Yij − Yi.

L’estimateur usuel de la variance σ2 des erreurs εij est donne par

σ 2 =1

n − k

k∑i=1

ni∑j=1

ε 2ij =

1

n − k

k∑i=1

ni∑j=1

(Yij − Yi.)2.

- Chapitre VI - L3 MIASHS- Analyse de la variance 28/37

Page 29: Analyse de la variance › ~mchave100p › wordpress › wp-content › u… · On peut classiquement introduire l’analyse de la variance oul’ANOVA (ANalysis Of VAriance) de deux

IntroductionRepresentation des donnees et notations

ModelisationEstimation des parametresVariabilite et significativite

VariabiliteSignificativite

Plan

1 Introduction

2 Representation des donnees et notations

3 Modelisation

4 Estimation des parametres

5 Variabilite et significativite

- Chapitre VI - L3 MIASHS- Analyse de la variance 29/37

Page 30: Analyse de la variance › ~mchave100p › wordpress › wp-content › u… · On peut classiquement introduire l’analyse de la variance oul’ANOVA (ANalysis Of VAriance) de deux

IntroductionRepresentation des donnees et notations

ModelisationEstimation des parametresVariabilite et significativite

VariabiliteSignificativite

Decomposition de la variabilite

La variabilite des n observations (des k echantillons reunis) est mesuree par lasomme totale des carres des ecarts definie par :

SCT =k∑

i=1

ni∑j=1

(Yij − Y..)2.

C’est le numerateur de la variance empirique totale.

Cependant on peut remarquer que cette variabilite a deux sources :

variabilite a l’interieur de chacun des k groupes (appelee variation intraou variation residuelle),

variabilite entre les differents k groupes (appelee variation inter ouvariation factorielle).

- Chapitre VI - L3 MIASHS- Analyse de la variance 30/37

Page 31: Analyse de la variance › ~mchave100p › wordpress › wp-content › u… · On peut classiquement introduire l’analyse de la variance oul’ANOVA (ANalysis Of VAriance) de deux

IntroductionRepresentation des donnees et notations

ModelisationEstimation des parametresVariabilite et significativite

VariabiliteSignificativite

Decomposition de la variabilite

Ces deux sources de variabilite sont mesurees respectivement par :

la somme des carres des residus qui mesure la variabilite intra ouresiduelle :

SCR =k∑

i=1

SCRi =k∑

i=1

ni∑j=1

(Yij − Yi.)2.

ou SCRi est le numerateur de la variance empirique du groupe i .

la somme des carres expliques par le facteur qui mesure la variabilite interou factorielle :

SCE =k∑

i=1

ni (Yi. − Y..)2.

- Chapitre VI - L3 MIASHS- Analyse de la variance 31/37

Page 32: Analyse de la variance › ~mchave100p › wordpress › wp-content › u… · On peut classiquement introduire l’analyse de la variance oul’ANOVA (ANalysis Of VAriance) de deux

IntroductionRepresentation des donnees et notations

ModelisationEstimation des parametresVariabilite et significativite

VariabiliteSignificativite

Equation de l’analyse de la variance.

On a la decomposition :

SCT︸︷︷︸ = SCR︸︷︷︸ + SCE︸︷︷︸Variabilite Variabilite Variabilite

totale residuelle (intra) factorielle (inter)

On obtient facilement cette decomposition en remarquant que

Yij − Y.. = (Yij − Yi.) + (Yi. − Y..)

et en l’incorporant dans la quantite SCT .

- Chapitre VI - L3 MIASHS- Analyse de la variance 32/37

Page 33: Analyse de la variance › ~mchave100p › wordpress › wp-content › u… · On peut classiquement introduire l’analyse de la variance oul’ANOVA (ANalysis Of VAriance) de deux

IntroductionRepresentation des donnees et notations

ModelisationEstimation des parametresVariabilite et significativite

VariabiliteSignificativite

Significativite du modele

La statistique de test a utiliser est donnee par

F =(SCT− SCR)/(k − 1)

SCR/(n − k)=

SCE/(k − 1)

SSR/(n − k)

qui suit sous H0 la loi de Fisher F (k − 1, n − k).

Ainsi la zone de rejet est donnee par

R = ]fk−1, n−k, 1−α , +∞[

ou fk−1, n−k, 1−α est le quantile d’ordre 1−α de la loi de Fisher a (k − 1, n− k)degres de liberte.

Rejeter H0 signifie admettre que le facteur qualitatif X joue un role significatif

sur Y .

- Chapitre VI - L3 MIASHS- Analyse de la variance 33/37

Page 34: Analyse de la variance › ~mchave100p › wordpress › wp-content › u… · On peut classiquement introduire l’analyse de la variance oul’ANOVA (ANalysis Of VAriance) de deux

IntroductionRepresentation des donnees et notations

ModelisationEstimation des parametresVariabilite et significativite

VariabiliteSignificativite

Tableau d’analyse de la variance

La plupart des logiciels de statistiques presentent leurs sorties d’ANOVA de lamaniere suivante :

Source Degres de Somme des carres Carres moyens Statistique Fde variation liberte (DF) (sum of squares) (mean square)

Inter k − 1 SCE SCEk−1

F = SCE/(k−1)SCR/(n−k)

(factorielle)

Intra n − I SCR SCRn−k

(residuelle)

Totale n − 1 SCT

- Chapitre VI - L3 MIASHS- Analyse de la variance 34/37

Page 35: Analyse de la variance › ~mchave100p › wordpress › wp-content › u… · On peut classiquement introduire l’analyse de la variance oul’ANOVA (ANalysis Of VAriance) de deux

IntroductionRepresentation des donnees et notations

ModelisationEstimation des parametresVariabilite et significativite

VariabiliteSignificativite

Application numerique

Reprendre les donnees de l’exemple.

Estimer les parametres du modele d’analyse de variance a unfacteur correspondant.

Tester l’hypothese H0 contre H1.

→ Code R dans le fichier Chapitre6.R

- Chapitre VI - L3 MIASHS- Analyse de la variance 35/37

Page 36: Analyse de la variance › ~mchave100p › wordpress › wp-content › u… · On peut classiquement introduire l’analyse de la variance oul’ANOVA (ANalysis Of VAriance) de deux

IntroductionRepresentation des donnees et notations

ModelisationEstimation des parametresVariabilite et significativite

VariabiliteSignificativite

Remarques pratiques sur les hypotheses de l’ANOVA

La methode d’analyse de la variance est dite robuste en ce sens qu’elle est peusensible a des ecarts (raisonnables) par rapport aux hypotheses mentionnees.

La normalite. Bien que la normalite des k populations fasse partie deshypotheses d’application de l’analyse de variance il faut reconnaıtre quel’ANOVA est peu sensible, dans l’ensemble, a la non-normalite des populationsconsiderees. Il suffit en pratique d’eviter d’employer l’analyse lorsque lespopulations sont tres differentes des distributions normales, et lorsque cesdistributions sont de formes tres differentes d’une population a une autre(disymetries de sens opposes par exemple), surtout pour des petits echantillons.

- Chapitre VI - L3 MIASHS- Analyse de la variance 36/37

Page 37: Analyse de la variance › ~mchave100p › wordpress › wp-content › u… · On peut classiquement introduire l’analyse de la variance oul’ANOVA (ANalysis Of VAriance) de deux

IntroductionRepresentation des donnees et notations

ModelisationEstimation des parametresVariabilite et significativite

VariabiliteSignificativite

Remarques pratiques sur les hypotheses de l’ANOVA

L’homoscedasticite (egalite des variances). De meme, l’hypothese d’egalitedes variances est d’importance relativement secondaire lorsque les effectifs desechantillons sont tous egaux. Par contre, dans le cas d’echantillons d’effectifsinegaux, on doit s’assurer de la validite de cette hypothese surtout lorsque lesechantillons d’effectifs les plus reduits correspondent aux populations devariance maximum.

Remarque. Ces deux hypotheses peuvent etre testees : par exemple, on a letest de Shapiro-Wilk pour tester la normalite et le test de Bartlett pour testerl’egalite des variances.

- Chapitre VI - L3 MIASHS- Analyse de la variance 37/37