2006/2007270 plan du cours 1.introduction 2.statistique descriptive 3.echantillonnage 4.calcul des...

43
2006/2007 1 Plan du cours Plan du cours 1. Introduction 2. Statistique descriptive 3. Echantillonnage 4. Calcul des probabilités et variables aléatoires 5. Inférence statistique 6. Estimation 7. Tests d’hypothèses 8. Régression linéaire

Upload: anatole-loison

Post on 04-Apr-2015

104 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique

2006/2007 1

Plan du coursPlan du cours

1. Introduction2. Statistique descriptive3. Echantillonnage4. Calcul des probabilités et variables

aléatoires5. Inférence statistique6. Estimation7. Tests d’hypothèses8. Régression linéaire

Page 2: 2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique

2006/2007 2

IntroductionIntroduction

• Objectifs– Expliquer : Mettre en relation une

variable dépendante et plusieurs variables explicatives.

– Prévoir : Estimer la valeur de la variable dépendante en fonction de valeurs prises par les variables explicatives.

• Modèle linéaire– Généralisation de la régression simple

(une seule variable explicative).

Page 3: 2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique

2006/2007 3

ModèleModèle

• y : variable dépendante (à expliquer, endogène),• x1,…, xp : variables indépendantes (explicatives,

exogènes),• : terme d’erreur, perturbation.• Estimer les paramètres 1,…,p à partir d’un

échantillon de n observations :

1 1 2 2 p py x x x

1 1 1 2 2, , ,

i i ip i i i p ip iy x x y x x x

1,2, ,i n

Page 4: 2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique

2006/2007 4

Exemple 1 – MBAExemple 1 – MBA

Page 5: 2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique

2006/2007 5

Exemple 2 – La QuintaExemple 2 – La Quinta

Page 6: 2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique

2006/2007 6

Exemple 2 Exemple 2 (suite)(suite)

Page 7: 2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique

2006/2007 7

ModèleModèle

• y : variable dépendante (à expliquer, endogène),• x1,…, xp : variables indépendantes (explicatives,

exogènes),• : terme d’erreur, perturbation.• Estimer les paramètres 1,…,p à partir d’un

échantillon de n observations :

1 1 2 2 p py x x x

1 1 1 2 2, , ,

i i ip i i i p ip iy x x y x x x

1,2, ,i n

Page 8: 2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique

2006/2007 8

Ecriture matricielleEcriture matricielle1 1 2 2

1, ,i i i p ip i

y x x x i n

y X

1 11 1

1

1 1

p

n n p

n n np

p n

p n

y x x

y X

y x x

Avec :

Page 9: 2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique

2006/2007 9

HypothèsesHypothèses

• H1:

• H2: Variables explicatives prédéterminées, données. Indépendantes de l’erreur .

• H3: Homoscédasticité :

0 1,2, ,i

E i n

2 , 0 , 1,2, ,i i j

Var Cov i j n

Page 10: 2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique

2006/2007 10

ExemplesExemples

1. MBA

2. La Quinta

1 2 3 41MBA GPA GMAT Work

0.47 0.06 0.01 0.09

MBA

GPA GMAT Work

Page 11: 2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique

2006/2007 11

ExemplesExemples

• Régression simple

• Régression polynomiale

1 2

1 2

2

1

py x

x x x

2 1

1 2 1

p

p py x x x

Page 12: 2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique

2006/2007 12

Variables indicatrices Variables indicatrices (0-1)(0-1)

1

2

3

4

note moyenne en 2ème candi

sexe 0 ,1

note moyenne en 1ère candi

ˆ1 si age 20, 0 sinon

ˆ1 si age 22, 0 sinon

y

x

x

x

x

1 1 2 2 3 3 4 4 5y x x x x

Page 13: 2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique

2006/2007 13

Estimation des Estimation des paramètresparamètres

• Principe des moindres carrés (MC) :

• Sous forme matricielle :

2

1 1 2 21

min n

i i i p ipbi

Q b y b x b x b x

2

Q b y Xb y Xb

y y Xb y b X Xb

1 2, , ,

pb b b b

Page 14: 2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique

2006/2007 14

Estimation des Estimation des paramètresparamètres

2 2 0dQ b

X y X X bdb

X X b X y

2

2

1

2 définie positive

ˆ

d Q bX X

db

X X X y

Page 15: 2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique

2006/2007 15

DéfinitionsDéfinitions

• Résidus

• Estimateur de 2

1 1 2 2

ˆ

ˆ ˆ ˆ

ˆ

i i i

i i i p ip

i i

r y x

y x x x

y y

2 2

1

n

ii

rn p

Valeur observée Valeur ajustée

Page 16: 2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique

2006/2007 16

• Comparaison de 2 modèles :

• Qualité du modèle M1 par rapport à M2 ?

Coefficient de Coefficient de déterminationdétermination

1 1 2 2

1

1:

2 :i i i p i

i i

M y x x

M y

Page 17: 2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique

2006/2007 17

• Ecart-type du terme d’erreur :

Coefficient de Coefficient de déterminationdétermination

22

1 1 11

2

1

222

2 11 1

1 ˆ ˆˆ1:

1

1 1ˆˆ2 :1 1

n

i i pi

n

ii

n n

i ii i

M y xn p

rn p

M y y yn n

Page 18: 2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique

2006/2007 18

• Mesure de qualité de M1 par rapport à M2 :

• Coefficient de détermination corrigé(« adjusted R-square »)

Coefficient de Coefficient de déterminationdétermination

2

21 21

22

2

1

1 11ˆ ( )

1

n

ii

n

ii

rn p

Ry y

n

Page 19: 2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique

2006/2007 19

• Interprétation :–

qualité M1 qualité M2

qualité M1 >> qualité M2

Coefficient de Coefficient de déterminationdétermination

2 2 2

1 2ˆ ˆ0R

2 2 2

1 2ˆ ˆ1R

Page 20: 2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique

2006/2007 20

• Autre mesure :

• Interprétation plus intuitive :

Coefficient de Coefficient de déterminationdétermination

2

2 1

2

1

1( )

n

ii

n

ii

rR

y y

2 2 2

1 1 1

ˆ ˆ ˆ( ) ( ) ( )n n n

i i i ii i i

y y y y y y

2

2 1

2

1

ˆ ˆ( ) ˆ

( )

n

iii

n

ii

i

y y Var yR

Var yy y

Page 21: 2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique

2006/2007 21

• Problème :– R2 augmente lorsque l’on ajoute une

variable, même non pertinente, dans le modèle.

• Tableau d’analyse de variance (ANOVA) :

Coefficient de Coefficient de déterminationdétermination

Source Somme des carrés

Degrés de liberté

Carrés moyens

Variables ex.

Résidus

Total

1p

n p

1n

2

1

n

ii

r 2

1

n

ii

r n p

2

1

( )n

ii

y y

2

1

( ) 1n

ii

y y n

2

1

ˆ ˆ( )n

ii

y y

2

1

ˆ ˆ( ) 1n

ii

y y p

Page 22: 2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique

2006/2007 22

PrévisionPrévision

• Prévision de la variable endogène y pour un jeu de valeurs x0 :

• Modèle linéaire :

• Erreur de prévision :

0 01 02 0, , ,

px x x x

0 1 01 2 02 0 0ˆ ˆ ˆ ˆˆ

p py x x x x

2

0 0 0 0avec 0,y x N

0 0y y

Page 23: 2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique

2006/2007 23

Erreur de prévisionErreur de prévision

• Moyenne :

• Variance :

0 0 0 0 0

0 0

ˆˆ

0 0

E y y E x x

x x

0 0 0 0

0 0

2

0 0

12 2

0 0

ˆˆ

ˆ

ˆ

Var y y Var x

Var x Var

x Cov x

x X X x

Page 24: 2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique

2006/2007 24

Intervalle de prévisionIntervalle de prévision

• A 95%, approximativement :

• Pour la moyenne de y0, à 95% :

12

0 0 0ˆ ˆ2 1x x X X x

12

0 0 0ˆ ˆ2x x X X x

0 0 0 0E y E x x

Page 25: 2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique

2006/2007 25

Exemple – La QuintaExemple – La Quinta

Number 3815Nearest 0,9Office space 476Enrollment 24,5Income 35Distance 11,2

Prévision 37,1

Intervalle de prévision25,448,8

Intervalle pour la moyenne33,041,2

Pas rentable !

Page 26: 2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique

2006/2007 26

Tests et intervalles de Tests et intervalles de confianceconfiance

• Hypothèse supplémentaire :

• Pour un paramètre :

iid

2

1, , 0,

nN

1

ˆ

ˆj j

j n p

jj

T tX X

Page 27: 2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique

2006/2007 27

Tests et intervalles de Tests et intervalles de confianceconfiance

• Test de nullité de j :

• Intervalle de confiance pour j :

0 1: 0 : 0

j jH H

0 ;1 2 si ou si P-value

j n pRH T t

1

;1 2ˆ ˆ

j n p jjt X X

Page 28: 2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique

2006/2007 28

Tests et intervalles de Tests et intervalles de confianceconfiance

• P-value :

Page 29: 2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique

2006/2007 29

Tests et intervalles de Tests et intervalles de confianceconfiance

• Test de l’ensemble du modèle :

• Test en F (ANOVA) :

0 1 2 1

1

: 0

: au moins un 0p

j

H

H

2

2

1

1

R pF

R n p

0 1; ;1 si ou si P-value

p n pRH F F

1p

x

Page 30: 2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique

2006/2007 30

ModélisationModélisation

• Vérification des hypothèses de base– Analyse des résidus– Analyse des valeurs extrêmes

• Sélection des variables explicatives– Comparaison de modèles– Méthodes de sélection

Page 31: 2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique

2006/2007 31

Analyse des résidusAnalyse des résidus

• Idée : les résidus devraient ne présenter aucune structure particulière.

• Graphiques :– Normalité des résidus,– Résidus en fonction des valeurs prédites,– Résidus en fonction des variables

explicatives,– Résidus en fonction du temps (séries

chronologiques).

Page 32: 2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique

2006/2007 32

Analyse des résidusAnalyse des résidus

• Normalité du terme d’erreur ?– Représentation graphique de la

distribution des résidus :

Page 33: 2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique

2006/2007 33

Analyse des résidusAnalyse des résidus• Linéarité de la relation entre y et les

variables explicatives ?– Résidus en fonction des valeurs prédites,– Résidus en fonction des variables explicatives.

Page 34: 2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique

2006/2007 34

Analyse des résidusAnalyse des résidus

• Homoscédasticité ?– Résidus en fonction des valeurs prédites.

– Remèdes :• Changement de variable (log y, …),• Moindres carrés pondérés…

Pas Ok : hétéroscédasticité Ok : homoscédasticité

Page 35: 2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique

2006/2007 35

Analyse des résidusAnalyse des résidus

• Corrélation entre erreurs ?– Pour une série chronologique,

autocorrélation d’ordre 1 :

– Statistique de Durbin-Watson :

1 1,

t tCorr

10

10

1ˆ2 1DW

Page 36: 2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique

2006/2007 36

Analyse des résidusAnalyse des résidus

• En cas d’autocorrélation :– Introduire yt-1 comme variable explicative

(autorégression),– Prendre les différences :

– Modéliser le terme d’erreur :

1t t t t ty y y x

1t t t

2,

iid

t tN O

Page 37: 2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique

2006/2007 37

Valeurs extrêmesValeurs extrêmes

• Valeur extrême (outlier) = observation qui ne suit pas le modèle valeur très grande ou très petite…– Erreur d’encodage ?– Observation à ne pas inclure dans

l’échantillon ?– Cas extrême mais normal ?

• Identification :– Graphiquement,– A l’aide des résidus.

Page 38: 2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique

2006/2007 38

Valeurs extrêmes vs Valeurs extrêmes vs influentesinfluentes

• Valeurs influentes : ont une grande influence sur l’estimation des paramètres.

• Exemples :

outlier Avec et sans valeur influente

Page 39: 2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique

2006/2007 39

Exemples d’AscombeExemples d’Ascombe

4

5

6

7

8

9

10

11yA

2 4 6 8 10 12 14 16xA

Y = 3 + ,5 * X; R^2 = ,667

Graphe de régression

2

3

4

5

6

7

8

9

10

yB

2 4 6 8 10 12 14 16xB

Y = 3,001 + ,5 * X; R^2 = ,666

Graphe de régression

5

6

7

8

9

10

11

12

13

yC

2 4 6 8 10 12 14 16xC

Y = 3,002 + ,5 * X; R^2 = ,666

Graphe de régression

5

6

7

8

9

10

11

12

13

yD

6 8 10 12 14 16 18 20xD

Y = 3,002 + ,5 * X; R^2 = ,667

Graphe de régression

Page 40: 2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique

2006/2007 40

Sélection des variablesSélection des variables

• Variables explicatives doivent être pertinentes.

• Risque de multicolinéarité si les variables explicatives sont fortement corrélées entre elles.

Page 41: 2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique

2006/2007 41

Exemple 3 – MaisonsExemple 3 – Maisons

• Un agent immobilier veut essayer de prédire le prix de vente d’une maison.

• Variables explicatives potentielles :– Surface habitable,– Nombre de chambres,– Superficie du terrain.

• Données historiques sur 100 maisons vendues.

Page 42: 2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique

2006/2007 42

Sélection de variablesSélection de variables

• Variables explicatives pertinentes :– Tests individuels sur les paramètres .– Attention à la multicolinéarité.

• Principe de parcimonie :– Réduire le nombre de variables

explicatives le plus possible (interprétation du modèle).

• Méthodes de sélection.

Page 43: 2006/2007270 Plan du cours 1.Introduction 2.Statistique descriptive 3.Echantillonnage 4.Calcul des probabilités et variables aléatoires 5.Inférence statistique

2006/2007 43

Méthodes de sélectionMéthodes de sélection• « Backward elimination »

– Éliminer progressivement les variables explicatives dont les coefficients sont non significativement différents de 0.

• « Forward selection »– Introduire progressivement les variables

explicatives les plus corrélées (corrélation partielle significative) avec y.

• « Stepwise selection »– Méthode « pas à pas » : combine « forward » et

« backward ».

• Exemple : La Quinta