msv31 { statistiques i statistiques descriptives i ... · 2. des statistiques pour quoi faire?...

170
1/158 MSV31 – Statistiques I Statistiques descriptives I Estimateurs I tests statistiques Vincent Runge [email protected] IBGBI – 4 ` eme ´ etage Cours L2 Bio. 2019 – 2020 Vincent Runge Statistiques 1 / 158

Upload: others

Post on 04-Jul-2020

52 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

1/158

MSV31 – StatistiquesI Statistiques descriptives

I EstimateursI tests statistiques

Vincent [email protected]

IBGBI – 4eme etageCours L2 Bio. 2019 – 2020

Vincent Runge Statistiques 1 / 158

Page 2: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

2/158

Plan du cours

1 Introduction

2 Des statistiques pour quoi faire?

3 Statistiques descriptives

4 Estimateurs et estimations

5 Tests statistiques

Vincent Runge Statistiques 2 / 158

Page 3: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

3/158

1. Introduction

Plan

1 Introduction

2 Des statistiques pour quoi faire?

3 Statistiques descriptives

4 Estimateurs et estimations

5 Tests statistiques

Vincent Runge Statistiques 3 / 158

Page 4: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

4/158

1. Introduction Qu’est-ce que la statistique?

Plan

1 IntroductionQu’est-ce que la statistique?Courte histoire des mathematiquesStatistiques dans l’histoire des mathematiques

Vincent Runge Statistiques 4 / 158

Page 5: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

5/158

1. Introduction Qu’est-ce que la statistique?

Qu’est-ce que la statistique?

Statistique : ensemble des methodes de reduction des donnees

Definition V. Runge

Ses objectifs:

Reveler la structure des donnees

Permettre une prise de decision eclairee

Rendre possible la validation d’une theorie scientifique

Vincent Runge Statistiques 5 / 158

Page 6: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

5/158

1. Introduction Qu’est-ce que la statistique?

Qu’est-ce que la statistique?

Statistique : ensemble des methodes de reduction des donnees

Definition V. Runge

Complements:

I La science statistique fait le lien entre l’abstraction mathematique etla realite physique du monde

I Science en hyper-croissance + numerisation du monde

Vincent Runge Statistiques 5 / 158

Page 7: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

6/158

1. Introduction Courte histoire des mathematiques

Plan

1 IntroductionQu’est-ce que la statistique?Courte histoire des mathematiquesStatistiques dans l’histoire des mathematiques

Vincent Runge Statistiques 6 / 158

Page 8: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

7/158

1. Introduction Courte histoire des mathematiques

Courte histoire des mathematiques

I Les statistiques sont une branche recente des mathematiques

I Grece antique (VIeme a IVeme siecles avant JC)

Arithmetique et geometrie

Naissance de la demonstration

Thales, Euclide, Pythagore, Archimede

Figure: Les Elements d’Euclide et la machine d’Anticythere

Vincent Runge Statistiques 7 / 158

Page 9: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

7/158

1. Introduction Courte histoire des mathematiques

Courte histoire des mathematiques

I Mathematique arabes (∼ 800 a 1500)

Systeme decimal indo-arabe

Developpement de l’algebre, des algorithmes, de la trigonometrie

Al-Khawarizmi, Al-Kashi

Figure: Al-Khawarizmi (780 (Ouzbekistan) – 850 (Bagdad)). Son nom a donne lemot algorithme. Le titre d’un de ses ouvrages est a l’origine du mot algebre

Vincent Runge Statistiques 7 / 158

Page 10: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

7/158

1. Introduction Courte histoire des mathematiques

Courte histoire des mathematiques

I Renaissance europeenne

Traduction des textes arabesResolution d’equation et nombres complexes

I XVIIeme XVIIIeme siecles. Epoque des Lumieres

Debut de l’analyse (derivee, integrale, equation differentielle)Mathematisation de la physique (Newton)L’Encyclopedie (Jean le Rond d’Alembert)

Figure: Isaac Newton (1642– 1727); Leonhard Euler (1707 – 1783); Joseph-LouisLagrange (1736 – 1813); Carl Friedrich Gauss (1777–1855)

Vincent Runge Statistiques 7 / 158

Page 11: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

7/158

1. Introduction Courte histoire des mathematiques

Courte histoire des mathematiques

I XIXeme siecle. Professionnalisation des mathematiques

Mise en equation du monde (Navier-stokes, Maxwell)

Equation de la chaleur et series de Fourier

Decouverte par le calcul de Neptune (par Le Verrier)

...

Figure: Augustin Louis Cauchy (1789 – 1857); Bernhard Riemann (1826 – 1866);Georg Cantor (1845 – 1918)

Vincent Runge Statistiques 7 / 158

Page 12: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

7/158

1. Introduction Courte histoire des mathematiques

Courte histoire des mathematiques

I XXeme siecle. Developpement exponentiel des mathematiques

Theorie des probabilites, theorie du chaos

Analyse fonctionnelle, analyse numerique

Optimisation, controle optimal, calcul variationnel

Theorie de l’information, cryptographie

... ... ... ... ... ...

Figure: David Hilbert (1862–1943); Andrei Kolmogorov (1903-1987); John vonNeumann (1903–1957); Paul Erdos (1913–1996)

Vincent Runge Statistiques 7 / 158

Page 13: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

8/158

1. Introduction Courte histoire des mathematiques

Il reste beaucoup a faire...

1) congres international des mathematiciens, tenu a Paris en aout 1900,David Hilbert propose 23 problemes pour le XXeme siecle

2) Prix du millenaire de l’institut Clay (106$ par probleme)

Hypothese de Riemann

Conjecture de Poincare (resolu)

Probleme ouvert P = NP

Conjecture de Hodge

Conjecture de Birch et Swinnerton-Dyer

Equations de Navier-Stokes

Equations de Yang-Mills

Vincent Runge Statistiques 8 / 158

Page 14: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

9/158

1. Introduction Statistiques dans l’histoire des mathematiques

Plan

1 IntroductionQu’est-ce que la statistique?Courte histoire des mathematiquesStatistiques dans l’histoire des mathematiques

Vincent Runge Statistiques 9 / 158

Page 15: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

10/158

1. Introduction Statistiques dans l’histoire des mathematiques

Statistiques dans l’histoire des mathematiques

Et les statistiques ? I 3 grandes periodes historiques

I ? – XIXeme siecle. Statistiques descriptives

”Statistique” = recensement betails...Chine, Egypte (XVIIIeme siecle avant JC)

Statistique = Staatskunde (service de l’Etat) XVIIIeme siecle= collecte de donnees tenue par les intendants de l’Etat

William Playfair (1759–1823)Commercial and Political Atlas

(1786). Le 1er histogramme connu

Karl Pearson impose (1893) l’ecart-type (standard deviation) σ

Statistiques descriptives → Analyse des donnees (XXeme siecle)

Vincent Runge Statistiques 10 / 158

Page 16: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

10/158

1. Introduction Statistiques dans l’histoire des mathematiques

Statistiques dans l’histoire des mathematiques

Et les statistiques ? I 3 grandes periodes historiques

I 1880 – 1925. Debut des statistiques inferentielles/mathematiques

Rationalisation de la production (industrielle et agricole)

Gestion des empires coloniaux, recensements,...

Developpement des sondages d’opinion

Vincent Runge Statistiques 10 / 158

Page 17: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

10/158

1. Introduction Statistiques dans l’histoire des mathematiques

Statistiques dans l’histoire des mathematiques

Et les statistiques ? I 3 grandes periodes historiques

I 1880 – 1925. Debut des statistiques inferentielles/mathematiques

Election USA (1936)

I Magazine hebdomadaireLiterary Digest

I Sondage 2 300 000 reponses :Landon 55% vs Roosevelt 45%.En theorie erreur < 0.1%

I Roosevelt reelu avec 61% !

Vincent Runge Statistiques 10 / 158

Page 18: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

10/158

1. Introduction Statistiques dans l’histoire des mathematiques

Statistiques dans l’histoire des mathematiques

Et les statistiques ? I 3 grandes periodes historiques

I 1880 – 1925. Debut des statistiques inferentielles/mathematiques

Election USA (1936)

I Magazine hebdomadaireLiterary Digest

I Sondage 2 300 000 reponses :Landon 55% vs Roosevelt 45%.En theorie erreur < 0.1%

I Roosevelt reelu avec 61% !

+ Probleme : Echantillon = lecteur du journal + listes de proprietaires devoitures et d’abonnes au telephone

Vincent Runge Statistiques 10 / 158

Page 19: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

10/158

1. Introduction Statistiques dans l’histoire des mathematiques

Statistiques dans l’histoire des mathematiques

Et les statistiques ? I 3 grandes periodes historiques

I 1950 – aujourd’hui. Statistiques en grandes dimensions

Influence de l’informatique

Big data

Analyse exploratoire des donnees (multi-d)Efficacite des algorithmes

Apprentissage automatique

Machine LearningDeep LearningIntelligence artificielle

Vincent Runge Statistiques 10 / 158

Page 20: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

11/158

1. Introduction Statistiques dans l’histoire des mathematiques

Statistiques dans l’histoire des mathematiques

I Statistiques en grandes dimensions. Exemple

Reseaux de neurones ≈ Intelligence artificielle

Vincent Runge Statistiques 11 / 158

Page 21: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

11/158

1. Introduction Statistiques dans l’histoire des mathematiques

Statistiques dans l’histoire des mathematiques

I Analyse des donnees (cf statistique descriptive). Exemple

Analyse en composante principale (ACP)

Projeter au mieux les grandes dimensions sur la dimension 2 (pourvisualiser, analyser,...).

Vincent Runge Statistiques 11 / 158

Page 22: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

12/158

1. Introduction Statistiques dans l’histoire des mathematiques

De nombreux nouveaux metiers :

Computer scientist, data scientist, data analyst, bio-informaticien,astro-statisticien, machine learning engineer, data mining expert, AIResearcher...

Statut :

Au debut peu consideree, la statistique est aujourd’hui en tres forteexpansion et integree au bagage standard du mathematicien

Aujourd’hui :

Plus de distinction nette entre mathematiques appliquees etmathematiques pures

Vincent Runge Statistiques 12 / 158

Page 23: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

13/158

2. Des statistiques pour quoi faire?

Plan

1 Introduction

2 Des statistiques pour quoi faire?

3 Statistiques descriptives

4 Estimateurs et estimations

5 Tests statistiques

Vincent Runge Statistiques 13 / 158

Page 24: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

14/158

2. Des statistiques pour quoi faire? Mission du statisticien

Plan

2 Des statistiques pour quoi faire?Mission du statisticienExemplesStatistiques et probabilitesObjectifs du cours!

Vincent Runge Statistiques 14 / 158

Page 25: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

15/158

2. Des statistiques pour quoi faire? Mission du statisticien

Mission du statisticien

+ Experience statistique classique

Planification de l’experience

Recueil des donnees

Organisation des donnees (statistiques descriptives)

Analyse des donnees (statistiques inferentielles)

Vincent Runge Statistiques 15 / 158

Page 26: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

16/158

2. Des statistiques pour quoi faire? Exemples

Plan

2 Des statistiques pour quoi faire?Mission du statisticienExemplesStatistiques et probabilitesObjectifs du cours!

Vincent Runge Statistiques 16 / 158

Page 27: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

17/158

2. Des statistiques pour quoi faire? Exemples

Exemples

+ Tester une hypothese

Statistiques routieres

Efficacite des images violentes pour les spots de prevention routiere ?

Baisse de la mortalite sur la route avec la limitation a 80km/h ?

Efficacite du casque pour les cyclistes ?

Sante

Dangerosite du glyphosate pour la sante ?

Evaluer l’impact des OGM sur la sante

Balance benefice/risque d’un vaccin

Vincent Runge Statistiques 17 / 158

Page 28: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

18/158

2. Des statistiques pour quoi faire? Exemples

+ La maıtrise des statistiques est essentielle au biologiste, al’economiste, au sociologue, au physicien...

Biologie

Combien de souris sacrifier pour prouver une hypothese? Ou quands’arreter de les sacrifier?

Economie

Mesurer l’effet economique des Jeux Olympiques?

Sociologie

Performance et mesure d’inegalite des systemes d’education?

Physique fondamentale

Separer le bruit des ondes gravitationnelles?

Vincent Runge Statistiques 18 / 158

Page 29: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

19/158

2. Des statistiques pour quoi faire? Statistiques et probabilites

Plan

2 Des statistiques pour quoi faire?Mission du statisticienExemplesStatistiques et probabilitesObjectifs du cours!

Vincent Runge Statistiques 19 / 158

Page 30: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

20/158

2. Des statistiques pour quoi faire? Statistiques et probabilites

Statistiques et probabilites

La statisique se base sur une modelisation probabiliste des donnees

On observe une variable aleatoire X de loi partiellement inconnueplusieurs fois

On veut en tirer des conclusions globales (intrinseques) sur X

+ Exemple : jete de desOn jette 100 fois un de avec pour resultats

numero 1 2 3 4 5 6

probabilite theorique 1/6 1/6 1/6 1/6 1/6 1/6

occurrences sur 100 lances 13 16 15 30 14 12

Le de est-il equilibre?+ Autre exemple : Petits pois de Mendel

Vincent Runge Statistiques 20 / 158

Page 31: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

21/158

2. Des statistiques pour quoi faire? Objectifs du cours!

Plan

2 Des statistiques pour quoi faire?Mission du statisticienExemplesStatistiques et probabilitesObjectifs du cours!

Vincent Runge Statistiques 21 / 158

Page 32: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

22/158

2. Des statistiques pour quoi faire? Objectifs du cours!

Objectifs du cours!

Statistiques= 4 types de problemes= Statistique exploratoire, Estimation, Classification, Regression.

Nos 3 objectifs :

I Statistiques descriptives

Objectif : ”voir” un ensemble de donnees

Statistiques inferentielles

I Estimation statistiqueObjectif : generaliser ”au mieux” du ”petit nombre au grand nombre”I Tests statistiquesObjectif : Prendre une decision raisonnee

Vincent Runge Statistiques 22 / 158

Page 33: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

23/158

2. Des statistiques pour quoi faire? Objectifs du cours!

References internet

1 Correlations bizarres :http://tylervigen.com/spurious-correlations

2 Chaıne Youtube : la statistique expliquee a mon chat3 MOOC FUN. Introduction a la statistique avec R

Vincent Runge Statistiques 23 / 158

Page 34: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

24/158

3. Statistiques descriptives

Plan

1 Introduction

2 Des statistiques pour quoi faire?

3 Statistiques descriptives

4 Estimateurs et estimations

5 Tests statistiques

Vincent Runge Statistiques 24 / 158

Page 35: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

25/158

3. Statistiques descriptives

C’est quoi les statistiques descriptives?

1) C’est determiner le cadre d’etude :

Population, echantillon

Type de variable

2) construire des resumes (de 3 types) :

Indicateurs de position

Indicateurs de dispersion

Representations graphiques

+ La statistique descriptive se concentre sur le cas de la dimension 1.Une observation = un nombre.

Vincent Runge Statistiques 25 / 158

Page 36: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

26/158

3. Statistiques descriptives Cadre d’Etude

Plan

3 Statistiques descriptivesCadre d’EtudeLes differentes moyennesIndicateurs de dispersionOrdonnerRepresentations graphiques

Vincent Runge Statistiques 26 / 158

Page 37: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

27/158

3. Statistiques descriptives Cadre d’Etude

Vocabulaire

Population : ensemble (grand, voire infini) d’individus ou d’objets dememe natureEchantillon : sous-ensemble de la populationVariable : une caracteristique de la population pouvant prendredifferentes modalitesModalite : toute valeur que peut prendre une variableSerie statistique : Ensemble des donnees recueillies pour une variabledonnee

Complements

On utilise parfois le mot caractere a la place de variable

Le mode est la modalite la plus presente

Vincent Runge Statistiques 27 / 158

Page 38: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

28/158

3. Statistiques descriptives Cadre d’Etude

Types de variables

Variable quantitative : les modalites sont des nombres

discrete : elles prennent un nombre fini ou denombrable de valeurscontinue : elles prennent toutes les valeurs d’un intervalle des reels

Variable qualitative : les modalites ne sont pas des nombres

ordinale : elles peuvent etre ordonneesnominale : elles ne peuvent pas etre ordonnees

Vincent Runge Statistiques 28 / 158

Page 39: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

29/158

3. Statistiques descriptives Cadre d’Etude

Exercice

Exercice 1 : les variables suivantes sont-elles quantitatives ouqualitatives. Discretes, continues, ordinales ou nominales ?

Les marques de smartphone des etudiants de l’Universite d’Evry

La nationalite des touristes visitant le musee Picasso de Paris

L’age des utilisateurs du site www.arte.tv

La taille des poissons peches par une equipe de biologistes marins

Les notes sur 20 obtenues a ce cours de Statistiques

Le niveau de satisfaction des utilisateurs d’un service de livraison (5niveaux : faible – moyen – bon – tres bon – excellent)

Exercice 2 : Definir la population, un echantillon (possible), la variableetudiee et les modalites de chaque exemple precedent.

Vincent Runge Statistiques 29 / 158

Page 40: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

30/158

3. Statistiques descriptives Les differentes moyennes

Plan

3 Statistiques descriptivesCadre d’EtudeLes differentes moyennesIndicateurs de dispersionOrdonnerRepresentations graphiques

Vincent Runge Statistiques 30 / 158

Page 41: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

31/158

3. Statistiques descriptives Les differentes moyennes

Les differentes moyennes

Moyenne arithmetique

x =1

n

n∑i=1

xi .

+ La moyenne arithmetique a le desavantage d’etre sensible aux valeursextremes : on la dit alors peu robuste. Si dans la serie 1, 2, 3 uneerreur de saisie est faite et 3 devient 30, la moyenne passera de 2 a 11!(mais la mediane est inchangee)

Vincent Runge Statistiques 31 / 158

Page 42: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

32/158

3. Statistiques descriptives Les differentes moyennes

Les differentes moyennes

Moyenne geometrique

xG = n√x1 × . . .× xn

Moyenne harmonique

xH =n

1x1

+ · · ·+ 1xn

Moyenne quadratique

xQ =

√√√√1

n

n∑i=1

x2i

I Theoreme : Si x1, ..., xn > 0, alors

min(x1, . . . , xn) ≤ xH ≤ xG ≤ x ≤ xQ ≤ max(x1, . . . , xn)

Vincent Runge Statistiques 32 / 158

Page 43: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

33/158

3. Statistiques descriptives Les differentes moyennes

Les differentes moyennes

Theoreme : Si x1, ..., xn > 0, alors

min(x1, . . . , xn) ≤ xH ≤ xG ≤ x ≤ xQ ≤ max(x1, . . . , xn)

Figure: Moyennes de x1 et x2: harmonique OH, geometrique OG , arithmetiqueOA et quadratique OQ

Vincent Runge Statistiques 33 / 158

Page 44: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

34/158

3. Statistiques descriptives Les differentes moyennes

Exercice

I Calcul de rendement

Votre banquier vous propose de placer 1000e pendant 5 ans aux tauxannuels progressifs de 1%, 2%, 3%, 4% et 5%. Il annonce que lepourcentage annuel moyen est de 3%. Le croyez-vous?

I Vitesse moyenne

Un cycliste parcourt un kilometre a l’aller et un autre au retour auxvitesses respectives de 30 km/h puis 20 km/h. Quelle est sa vitessemoyenne?

I Des cables

On sait que la resistance d’un cable est proportionnel a sa section.Par quel diametre de cable faut-il replacer 3 cables de diametres3 cm, 5 cm, et 7 cm?

Vincent Runge Statistiques 34 / 158

Page 45: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

35/158

3. Statistiques descriptives Indicateurs de dispersion

Plan

3 Statistiques descriptivesCadre d’EtudeLes differentes moyennesIndicateurs de dispersionOrdonnerRepresentations graphiques

Vincent Runge Statistiques 35 / 158

Page 46: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

36/158

3. Statistiques descriptives Indicateurs de dispersion

Variance et ecart-type

Pour les donnees x1, ..., xn la dispersion est mesuree par la variance Var

Var =1

n

n∑i=1

(xi − x)2

Theoreme de Konig-Huygens

Var = x2 − x2

avec

x2 =1

n

n∑i=1

x2i et x =

1

n

n∑i=1

xi

On a par ailleurs l’ecart-type σ defini par σ2 = Var :

σ =

√√√√1

n

n∑i=1

(xi − x)2

Vincent Runge Statistiques 36 / 158

Page 47: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

37/158

3. Statistiques descriptives Indicateurs de dispersion

Propriete de la variance

Donnees de taille n1, moyenne x1 et variance σ21

Donnees de taille n2, moyenne x2 et variance σ22

Donnees de taille n1 + n2, moyenne x variance σ2

σ2 =n1σ

21 + n2σ

22

n1 + n2+

n1(x1 − x)2 + n2(x2 − x)2

n1 + n2

C’est la somme de la moyenne (ponderee) des variances et de la variance(ponderee) des moyennes.

x =n1x1 + n2x2

n1 + n2

On ecrit aussi

σ2 = (Var(x1),Var(x2)) + Var(x1, x2) ,

Vincent Runge Statistiques 37 / 158

Page 48: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

38/158

3. Statistiques descriptives Indicateurs de dispersion

Propriete de la variance

On introduit la suite xkk=1...(n1+n2) dans laquelle les n1 premiersnombres sont issus de la premiere collection. On calcule

(n1 + n2)σ2 =

n1∑k=1

(xk − x)2 +

n1+n2∑k=n1+1

(xk − x)2

=

n1∑k=1

((xk − x1) + (x1 − x))2 +

n1+n2∑k=n1+1

((xk − x2) + (x2 − x))2

= n1σ21 + 2

n1∑k=1

(xk − x1)(x1 − x) + n1(x1 − x)2

+n2σ22 + 2

n1+n2∑k=n1+1

(xk − x2)(x2 − x) + n2(x2 − x)2 ,

en utilisant la definition des moyennes x1 et x2 chacune des deux sommesrestantes s’annule et le resultat est demontre.

Vincent Runge Statistiques 38 / 158

Page 49: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

39/158

3. Statistiques descriptives Indicateurs de dispersion

Analyse de la variance ANOVA (Hors programme)

Interpretation de la formule

σ2 = variance intrapopulation + variance interpopulation

σ2 =n1σ

21 + n2σ

22

n1 + n2+

n1(x1 − x)2 + n2(x2 − x)2

n1 + n2.

(n1 + n2)σ2 = SCE = somme des carres des ecarts

SCEtotal = SCEresidu + SCEfacteur

I EtudierSCEfacteur

SCEresidupour savoir si x1 et x2 sont ”les memes”!

I C’est une possibilite de test statistique...

Vincent Runge Statistiques 39 / 158

Page 50: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

40/158

3. Statistiques descriptives Indicateurs de dispersion

Ecart moyen

e =1

n

n∑i=1

|xi − x |

+ : facile a comprendre que σ2

- : il est peu utilise : probleme algebrique du calcul + problemestatistique

Donnees de taille n1, moyenne x1 et ecart moyen e1

Donnees de taille n2, moyenne x2 et ecart moyen e2

Donnee n1 + n2, moyenne x ecart moyen = ?

Vincent Runge Statistiques 40 / 158

Page 51: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

41/158

3. Statistiques descriptives Indicateurs de dispersion

Les moments

Moments centres d’ordre r

mr =1

n

n∑k=1

(xk − x)r

coefficient d’asymetrie de Fisher (skewness) :

γ1 =m3

σ3

coefficient d’aplatissement de Fisher (kurtosis) :

γ2 =m4

σ4− 3

I Distribution etalee vers la droite si γ1 > 0, vers la gauche si γ1 < 0.I Pour γ2, la soustraction par 3 correspond a une comparaison avec laserie etalon (issue d’une loi normale pour laquelle γ2 = 0).

Vincent Runge Statistiques 41 / 158

Page 52: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

42/158

3. Statistiques descriptives Indicateurs de dispersion

Exercice : Transformation affine

Soient a et b des nombres reels. On a :

x =1

n

n∑i=1

xi et Var(x) =1

n

n∑i=1

(xi − x)2

Monter que pour les donnees yi = axi + b on obtient les formules:

y = ax + b

Var(y) = a2Var(x)

L’ecart moyen ne possede pas de telle propriete

Vincent Runge Statistiques 42 / 158

Page 53: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

43/158

3. Statistiques descriptives Indicateurs de dispersion

Remarque de vocabulaire

les moyennes

On parle de

Moyenne observee pour x , xG , xH ...

Esperance de la variable aleatoire X pour E[X ]

Moyenne empirique (pour un estimateur...voir plus loin...)

les variances

On parle de

Variance observee pour Var en statistiques descriptives

Variance de la variable aleatoire X pour V (X )

Variance empirique (pour un estimateur...voir plus loin...)

I DANGER!!! Le vocabulaire de la statistique est tres instable, on utilisesouvent le meme mot de ”moyenne” pour des notions differentes...

Vincent Runge Statistiques 43 / 158

Page 54: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

44/158

3. Statistiques descriptives Ordonner

Plan

3 Statistiques descriptivesCadre d’EtudeLes differentes moyennesIndicateurs de dispersionOrdonnerRepresentations graphiques

Vincent Runge Statistiques 44 / 158

Page 55: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

45/158

3. Statistiques descriptives Ordonner

Quantiles

On note x(1), x(2), ..., x(n), avec des indices entres parentheses, les donneestriees par ordre croissant.

Par exemple 7, 3, 2, 4, 7 on aura x(1) = 2, x(2) = 3, x(3) = 4, x(4) = 7 etx(5) = 7

Le quantile d’ordre α ∈ ]0, 1[, note qα, est defini comme etant ”la pluspetite valeur” de la serie permettant d’avoir au moins αn nombresinferieurs (ou egaux) a lui-meme.

qα =

x(dαne) si αn 6∈ N

x(αn) + x(αn+1)

2si αn ∈ N

avec d·e designant l’operation partie entiere superieure.

Vincent Runge Statistiques 45 / 158

Page 56: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

46/158

3. Statistiques descriptives Ordonner

Quantiles

Principaux quantiles

4 parts egales, on a 3 quartiles (Q1,Q2,Q3) = (q 14, q 2

4, q 3

4)

10 parts egales, on a 9 deciles (D1, ...,D9) = (q 110, ..., q 9

10)

100 parts egales, on a 99 centiles (C1, ...,C99) = (q 1100, ..., q 99

100)

La mediane

Indicateur de position centrale Me :

Me = Q2 = D5 = C50 = q 12

Vincent Runge Statistiques 46 / 158

Page 57: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

47/158

3. Statistiques descriptives Ordonner

De nouveaux indicateurs de dispersion

Interquartiles

Intervalle interquartile :

IIQ = [Q1,Q3]

Ecart interquartile :IQ = Q3 − Q1

Etendue

e = maxi=1,...,n

xi − mini=1,...,n

xi = e(n) − e(1)

Vincent Runge Statistiques 47 / 158

Page 58: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

48/158

3. Statistiques descriptives Ordonner

Exercice

Soient les deux series statistiques triees suivantes

(1) : 1 2 3 11 12 13 21 22 23 31 32 33 34

(2) : 1 2 3 11 12 13 21 22 23 31 32 33

Determiner les 3 quartiles de ces deux series, l’ecart interquartile etl’etendue. Voir que l’introduction du cas αn ∈ N est justifiee par laserie (2)

Vincent Runge Statistiques 48 / 158

Page 59: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

49/158

3. Statistiques descriptives Representations graphiques

Plan

3 Statistiques descriptivesCadre d’EtudeLes differentes moyennesIndicateurs de dispersionOrdonnerRepresentations graphiques

Vincent Runge Statistiques 49 / 158

Page 60: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

50/158

3. Statistiques descriptives Representations graphiques

Boıte a moustaches (boxplot)

Le long d’un axe gradue, on represente un rectangle delimite par lesquartiles Q1 et Q3 et coupe en deux par un trait a hauteur de Me;

Cette boıte est completee par des moustaches (des traits reliant laboıte) s’arretant (selon la definition choisie):

au minimum et au maximum des xia D1 et D9 ou C2 et C98

a la valeur x(a) realisant le minimum des x(i) dans [Q1 − 1.5 IQ,Q1] etx(b) realisant le maximum des x(i) dans [Q3,Q3 + 1.5 IQ]

La derniere definition est souvent preferee. Les valeurs en dehors desmoustaches sont reperees par des croix ou des ronds. Ce sont desvaleurs dites extremes (outliers).

Vincent Runge Statistiques 50 / 158

Page 61: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

51/158

3. Statistiques descriptives Representations graphiques

Boıte a moustaches (boxplot)

Figure: Nombre d’heures de sommeil pour 20 lyceens pendant une semaine.

Vincent Runge Statistiques 51 / 158

Page 62: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

52/158

3. Statistiques descriptives Representations graphiques

Histogrammes

I Rectangles adjacents, uniquement pour les variables continuesI Aire de chaque rectangle proportionnelle a l’effectif de la classe

En notant hi la hauteur de la classe i ([ai−1, ai [) d’effectif ni , defini parni = #xk tels que xk ∈ [ai−1, ai [, on obtient

hi =ni

ai − ai−1

Histogramme des differents taux de fecondite de tous les pays (225)estimes en 2013 (source: World Factbook)

Figure: Histogramme des taux de fecondite dans le monde.Vincent Runge Statistiques 52 / 158

Page 63: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

53/158

3. Statistiques descriptives Representations graphiques

Diagrammes en batons

I Batons adjacents, uniquement pour les variables discretesI Hauteur de chaque baton proportionnelle au nombre d’occurrences de lamodalite placee sous le baton

Exemple : On jette 20 fois de suite un de equilibre a 6 faces et on reportele resultat sur le diagramme suivant

Figure: Resultat de 20 lances d’un de equilibre

Vincent Runge Statistiques 53 / 158

Page 64: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

54/158

3. Statistiques descriptives Representations graphiques

Fonction de repartition empirique

I = Graphique des frequences cumuleesI Pour n donnees,

F (x) =nombre d’elements ≤ x

n

Figure: (gauche) fonction de repartition des taux de fecondite. (droite) fonctionde repartition des 20 lances de de

Vincent Runge Statistiques 54 / 158

Page 65: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

55/158

3. Statistiques descriptives Representations graphiques

Tableaux

I Tableau de contingenceI On croise deux variables d’une population

Figure: Repartition couleur des yeux et type de cheveux dans une classe de 30eleves

+ Objectif : detection d’eventuelles dependances entre variables

Vincent Runge Statistiques 55 / 158

Page 66: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

56/158

3. Statistiques descriptives Representations graphiques

Aller plus loin...

La statistique descriptive est unidimensionnelle+ On organise les reels x1, ..., xnL’analyse de donnee est multidimensionnelle+ On organise les donnees (x11, ...x1p), ..., (xn1, ...xnp)De nouvelles questions emergent:

Comment mesurer la liaison entre 2 variables?

Comment visualiser des donnees en dimension 10?

Vincent Runge Statistiques 56 / 158

Page 67: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

57/158

4. Estimateurs et estimations

Plan

1 Introduction

2 Des statistiques pour quoi faire?

3 Statistiques descriptives

4 Estimateurs et estimations

5 Tests statistiques

Vincent Runge Statistiques 57 / 158

Page 68: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

58/158

4. Estimateurs et estimations Generer l’aleatoire

Plan

4 Estimateurs et estimationsGenerer l’aleatoireL’echantillonnage et problematiqueEstimation ponctuelleEstimation par intervalleLe theoreme central limitePropagation des incertitudes

Vincent Runge Statistiques 58 / 158

Page 69: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

59/158

4. Estimateurs et estimations Generer l’aleatoire

Generer des donnees de loi uniforme X ∼ U([0, 1])

I Une variable aleatoire X = (Ω, ω ∈ Ω, P(X = ω))Ω est l’univers, l’ensemble des valeurs possibles pour X

Sources d’aleatoires (generer X ∼ U([0, 1]) loi uniforme)

L’aleatoire dans la nature https://www.random.org/

Bruit atmospherique genere par les eclairs! (capte par une simpleradio)

ou l’instant d’une desintegration radioactive

Les algorithmes (!) pseudo-aleatoires (tres tres utilises)

Vincent Runge Statistiques 59 / 158

Page 70: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

60/158

4. Estimateurs et estimations Generer l’aleatoire

Exemples d’algorithmes pseudo-aleatoires

I Generateur congruentiel lineaire (Lehmer 1948)

xn+1 = (axn + c) mod m

Set the seed x0 using the current system time in microsecondsx0 < − as.numeric(Sys.time()) * 1000

Figure: Le generateur d’UNIX et GCC. a = 1103515245, c = 12345, m = 231

Ici : seed = x0 = 99, 216 = 65536 valeurs. xi/(231) ∈ [0, 1[

I Etat de l’art : algorithme Mersenne Twister(Makoto Matsumoto et Takuji Nishimura 1997)

utilise par Python, Ruby, R, PHP, MATLAB, Stata, C++

Vincent Runge Statistiques 60 / 158

Page 71: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

61/158

4. Estimateurs et estimations Generer l’aleatoire

Comparaisons

source : https://www.random.org/

Vincent Runge Statistiques 61 / 158

Page 72: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

62/158

4. Estimateurs et estimations L’echantillonnage et problematique

Plan

4 Estimateurs et estimationsGenerer l’aleatoireL’echantillonnage et problematiqueEstimation ponctuelleEstimation par intervalleLe theoreme central limitePropagation des incertitudes

Vincent Runge Statistiques 62 / 158

Page 73: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

63/158

4. Estimateurs et estimations L’echantillonnage et problematique

L’echantillonnage

Definitions

Echantillon aleatoire : variables aleatoires (X1, ...,Xn) avec Xi = XEchantillon : realisations x1, ..., xn des variables X1, ...,Xn

Modelisation : Xi ∼ L(θ) (loi qui depend d’un parametre θ)

Estimateur : variable aleatoire T = f (X1, ...,Xn)Estimation : realisation t de T : t = f (x1, ..., xn)

I Hypothese : Les variables aleatoires X1, ...,Xn sont independantes etidentiquement distribuees (on note i.i.d.). Elles ont toutes la meme loique la variable aleatoire X appelee variable aleatoire parente.

Vincent Runge Statistiques 63 / 158

Page 74: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

64/158

4. Estimateurs et estimations L’echantillonnage et problematique

Problematique de l’estimation

Notre objectif

Soit X une variable aleatoire de loi L(θ)

Soit x1, ..., xn une observation de l’echantillon X1, ...,Xn, copies de X

Comment estimer θ a partir de x1, ..., xn ?

Deux etapes :

I Estimation ponctuelle

I Estimation par intervalle de confiance

Vincent Runge Statistiques 64 / 158

Page 75: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

65/158

4. Estimateurs et estimations Estimation ponctuelle

Plan

4 Estimateurs et estimationsGenerer l’aleatoireL’echantillonnage et problematiqueEstimation ponctuelleEstimation par intervalleLe theoreme central limitePropagation des incertitudes

Vincent Runge Statistiques 65 / 158

Page 76: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

66/158

4. Estimateurs et estimations Estimation ponctuelle

Exemples a connaıtre

Moyenne empirique :

X =1

n

n∑i=1

Xi

Variance empirique : S2 =1

n

n∑i=1

(Xi − X

)2=

1

n

n∑i=1

X 2i − X

2

Variance empirique corrigee : S?2 =1

n − 1

n∑i=1

(Xi − X

)2=

n

n − 1S2

Vincent Runge Statistiques 66 / 158

Page 77: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

67/158

4. Estimateurs et estimations Estimation ponctuelle

Definition

Estimateur ponctuel= estimateur dont la realisation est une estimation du parametre θ

Notation

On note generalement θ ou θn l’estimateur (=une variable aleatoire) de θ.

θ = θn = f (X1, ...,Xn)

Vincent Runge Statistiques 67 / 158

Page 78: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

68/158

4. Estimateurs et estimations Estimation ponctuelle

Proprietes d’un estimateur

Definitions

On appelle biais d’un estimateur la quantite :

b(θn) = E[θn]− θ

I Un estimateur est dit sans biais si

b(θn) = 0

I Un estimateur est dit asymptotiquement sans biais si

limn→+∞

b(θn) = 0

Vincent Runge Statistiques 68 / 158

Page 79: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

69/158

4. Estimateurs et estimations Estimation ponctuelle

Proprietes d’un estimateur

Definitions

On appelle erreur quadratique moyenne la quantite :

EQM(θn) = E[(θn − θ)2] = V (θn) + [b(θn)]2

I Un estimateur est dit consistant (ou convergent en moyennequadratique) si :

limn→∞

EQM(θn) = 0

Remarque

Pour montrer qu’un estimateur sans biais est consistant, il suffit demontrer que lim

n→∞Var(θn) = 0

Vincent Runge Statistiques 69 / 158

Page 80: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

70/158

4. Estimateurs et estimations Estimation ponctuelle

Exercice

Soit (X1, ...,Xn) un echantillon de loi quelconque tel queE[Xi ] = µ et V (Xi ) = σ2

Montrer que X = 1n

∑ni=1 Xi est un estimateur sans biais et

consistant de µ

Montrer que S2 = 1n

∑ni=1

(Xi − X

)2est un estimateur biaise de σ2

En deduire un estimateur sans biais de σ2

Vincent Runge Statistiques 70 / 158

Page 81: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

71/158

4. Estimateurs et estimations Estimation ponctuelle

Estimateur de la moyenne

Moyenne empirique

X =1

n

n∑i=1

Xi

Proprietes

Soit (X1, ...,Xn) un echantillon aleatoire tel que E[Xi ] = µ et V (Xi ) = σ2

E[X ] = µ et V (X ) =σ2

n

Remarque

X est un estimateur sans biais et consistant de µ

Vincent Runge Statistiques 71 / 158

Page 82: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

72/158

4. Estimateurs et estimations Estimation ponctuelle

Estimateur de la variance

Variance empirique et variance empirique corrigee

S2 =1

n

n∑i=1

(Xi − X

)2et S?2 =

1

n − 1

n∑i=1

(Xi − X

)2

Proprietes

Soit (X1, ...,Xn) un echantillon tel que E[Xi ] = µ et V (Xi ) = σ2

E[S2] =n − 1

nσ2 et V (S2) =

n − 1

n3((n − 1)µ4 − (n − 3)σ2)

Remarque

S?2 =n

n − 1S2 est un estimateur sans biais et consistant de σ2

Vincent Runge Statistiques 72 / 158

Page 83: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

73/158

4. Estimateurs et estimations Estimation ponctuelle

Maximum de vraisemblance (Hors programme)

I Existe-il une methode generale pour choisir l’estimateur des parametresd’un loi?+ Oui! C’est la methode du maximum de vraisemblance!(maximum likelihood)

Pour une densite de probabilite f = f (x , θ).Exemple distribution exponentielle:

f (x , θ) =

θe−θx si x ≥ 00 si x < 0

Exemple distribution normale:

f (x , θ = (µ, σ2)) =1√

2πσ2e−

(x−µ)2

2σ2

L(x1, ..., xn, θ) = f (x1, θ)× · · · × f (xn, θ)

Resoudre maxθ L(x1, ..., xn, θ)ou d

dθL(x1, ..., xn, θ) = 0 ou ddθ log(L(x1, ..., xn, θ)) = 0

Vincent Runge Statistiques 73 / 158

Page 84: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

74/158

4. Estimateurs et estimations Estimation ponctuelle

Maximum de vraisemblance (Hors programme)

Exemple avec la loi exponentielle:Avec

f (x , θ) =

θe−θx si x ≥ 00 si x < 0

On obtient (par integration par parties) :

E[X ] =

∫ +∞

x=0θxe−θxdx =

1

θ

Une bonne idee (?) serait d’utiliser θ = 1X

. Mais est-ce un bon choix?

Vincent Runge Statistiques 74 / 158

Page 85: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

75/158

4. Estimateurs et estimations Estimation ponctuelle

Maximum de vraisemblance (Hors programme)

Exemple avec la loi exponentielle : f (x , θ) =

θe−θx si x ≥ 00 si x < 0

L(x1, ..., xn, θ) =n∏

i=1

θ exp(−θxi ) = θn exp

(−θ

n∑i=1

xi

)= θn exp (−θnx)

Et on a :d

dθ(log(L)) =

d

dθ(n log(θ)− θnx) =

n

θ− nx

Ainsid

dθ(log(L)) = 0 ⇐⇒ θ =

1

x

Un meilleur estimateur qui minimise l’erreur quadratique moyenne sera

θ =n − 2

n

1

X

Vincent Runge Statistiques 75 / 158

Page 86: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

76/158

4. Estimateurs et estimations Estimation par intervalle

Plan

4 Estimateurs et estimationsGenerer l’aleatoireL’echantillonnage et problematiqueEstimation ponctuelleEstimation par intervalleLe theoreme central limitePropagation des incertitudes

Vincent Runge Statistiques 76 / 158

Page 87: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

77/158

4. Estimateurs et estimations Estimation par intervalle

Estimation par intervalle

Principe

Trouver une variable aleatoire B(θ) de loi connu (independante de θ)

pour laquelle le parametre θ inconnu intervient

Recherche les quantiles qα2

et q1−α2

qui permettent d’ecrireP(qα

2< B(θ) < q1−α

2) = 1− α

Transformer l’inegalite en une inegalite du typeP(B1 < θ < B2) = 1− α

I Les bornes B1 et B2 de l’intervalle sont des variables aleatoiresI [B1,B2] est un intervalle de probabilite de niveau 1− α pour θ

Vincent Runge Statistiques 77 / 158

Page 88: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

78/158

4. Estimateurs et estimations Estimation par intervalle

Estimation par intervalle

Definition

Soient B1 = f1(X1, ...,Xn) et B2 = f2(X1, ...,Xn).[B1,B2] est un intervalle de probabilite de niveau 1− α du parametre θsi :

P(B1 < θ < B2) = 1− α

Definition

Un intervalle de confiance de niveau 1− α du parametre θ est unerealisation [b1, b2] de l’intervalle [B1,B2].

Vincent Runge Statistiques 78 / 158

Page 89: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

79/158

4. Estimateurs et estimations Estimation par intervalle

Exercice

Pour determiner la teneur en potassium d’une solution, on effectue desdosages a l’aide d’une technique experimentale donnee.On admet que le resultat d’un dosage est une variable aleatoire suivantune distribution normale N (µ, σ2) dont l’esperance µ est la valeur que l’oncherche a determiner, et dont l’ecart-type σ est de 1 mg/litre si l’onsuppose que le protocole experimental a ete suivi scrupuleusement.Les resultats pour cinq dosages independants sont les suivants (enmg/litre): 74.0, 71.6, 73.4, 74.3, 72.2.

Determiner a partir de ces mesures un intervalle de confiance pour µavec un coefficient de securite de 95%.

Quelle taille d’echantillon est necessaire pour avoir un intervalle pluspetit que 0.1. (en mg/litre) ?

Vincent Runge Statistiques 79 / 158

Page 90: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

80/158

4. Estimateurs et estimations Estimation par intervalle

Estimation par intervalle de la moyenne

Famille gaussienne, variance connue

Soit (X1, ...,Xn) un echantillon de loi N (µ, σ2). on suppose σ2 connu.L’intervalle :

IC(1−α) =

[X − q1−α/2

σ√n,X + q1−α/2

σ√n

]est un intervalle de probabilite de niveau (1− α) pour µ

Avec q1−α/2 le quantile d’ordre 1− α/2 de la loi normale centree reduite.

I Que faire si la variance est inconnue?

Vincent Runge Statistiques 80 / 158

Page 91: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

80/158

4. Estimateurs et estimations Estimation par intervalle

Estimation par intervalle de la moyenne

Famille gaussienne, variance connue

Soit (X1, ...,Xn) un echantillon de loi N (µ, σ2). on suppose σ2 connu.L’intervalle :

IC(1−α) =

[X − q1−α/2

σ√n,X + q1−α/2

σ√n

]est un intervalle de probabilite de niveau (1− α) pour µ

Avec q1−α/2 le quantile d’ordre 1− α/2 de la loi normale centree reduite.

I Que faire si la variance est inconnue?

Vincent Runge Statistiques 80 / 158

Page 92: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

81/158

4. Estimateurs et estimations Estimation par intervalle

Loi du χ2

Definition

Soient X1, ...,Xn n variables aleatoires independantes et identiquementdistribuees de loi normale centree reduite: Xi ∼ N (0, 1)La variable aleatoire Y = X 2

1 + ...+X 2n suit une loi continue appelee loi du

χ2 a n degres de liberte :

Y =n∑

i=1

X 2i ∼ χ2

n

.

Proprietes

Si Y1 ∼ χ2n1

et Y2 ∼ χ2n2

avec Y1 ⊥⊥ Y2, alors Y = Y1 + Y2 ∼ χ2n1+n2

Si Y ∼ χ2n, alors E[Y ] = n et V (Y ) = 2n

Vincent Runge Statistiques 81 / 158

Page 93: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

82/158

4. Estimateurs et estimations Estimation par intervalle

Loi du χ2

Densite

f (x) =1

2n/2Γ(n/2)x (n−2)/2e−x/2

0 2 4 6 8

0.0

0.2

0.4

0.6

0.8

1.0

x

f(x)

0 2 4 6 8

0.0

0.2

0.4

0.6

0.8

1.0

x

f(x)

0 2 4 6 8

0.0

0.2

0.4

0.6

0.8

1.0

x

f(x)

0 2 4 6 8

0.0

0.2

0.4

0.6

0.8

1.0

x

f(x)

0 2 4 6 8

0.0

0.2

0.4

0.6

0.8

1.0

x

f(x)

0 2 4 6 8

0.0

0.2

0.4

0.6

0.8

1.0

k=1k=2k=3k=4k=5

Vincent Runge Statistiques 82 / 158

Page 94: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

83/158

4. Estimateurs et estimations Estimation par intervalle

Loi de Student

Definition

Soient X et Y deux variables aleatoires independantes telles queX ∼ N (0, 1) et Y ∼ χ2

n. La variable aleatoire T = X√Y /n

suit une loi

continue appelee loi de Student a n degres de liberte :

T =X√Y /n

∼ tn

Proprietes

E[T ] = 0

V (T ) = nn−2 si n > 2

Vincent Runge Statistiques 83 / 158

Page 95: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

84/158

4. Estimateurs et estimations Estimation par intervalle

Loi de Student

Densite

C’est une loi ”proche” de la loi normale centree reduite

f (x) =Γ(n+1

2 )√nπΓ(n2 )(1 + x2

n )n+1

2

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

0.5

x

f(x)

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

0.5

x

f(x)

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

0.5

x

f(x)

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

0.5

x

f(x)

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

0.5

x

f(x)

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

0.5

k=1k=2k=5k=10k=1e+05

Vincent Runge Statistiques 84 / 158

Page 96: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

85/158

4. Estimateurs et estimations Estimation par intervalle

Theoreme de Cochran

Theoreme

Soit (X1, ...,Xn) un echantillon de la variable aleatoire X ouX ∼ N (µ, σ2).On sait que

X ∼ N(µ, σ

2

n

)Q2

σ2 = 1σ2

∑ni=1

(Xi − X

)2 ∼ χ2n−1

Q2 et X sont independants.

Ainsi avec U = X−µσ√n∼ N (0, 1) et V = Q2

σ2 ∼ χ2n−1 on obtient

T =U√V

n−1

∼ tn−1 etU√V

n−1

=X − µ

S∗√n

∼ tn−1

Vincent Runge Statistiques 85 / 158

Page 97: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

85/158

4. Estimateurs et estimations Estimation par intervalle

Theoreme de Cochran

Theoreme

Soit (X1, ...,Xn) un echantillon de la variable aleatoire X ouX ∼ N (µ, σ2).On sait que

X ∼ N(µ, σ

2

n

)Q2

σ2 = 1σ2

∑ni=1

(Xi − X

)2 ∼ χ2n−1

Q2 et X sont independants.

Ainsi avec U = X−µσ√n∼ N (0, 1) et V = Q2

σ2 ∼ χ2n−1 on obtient

T =U√V

n−1

∼ tn−1 etU√V

n−1

=X − µ

S∗√n

∼ tn−1

Vincent Runge Statistiques 85 / 158

Page 98: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

86/158

4. Estimateurs et estimations Estimation par intervalle

Estimation par intervalle de la moyenne

Famille gaussienne, variance inconnue

Soit (X1, ...,Xn) un echantillon de loi N (µ, σ2). on suppose σ2 inconnu.L’intervalle :

IC(1−α) =

[X − q

tn−1

1−α/2

S∗√n,X + q

tn−1

1−α/2

S∗√n

]est un intervalle de probabilite de niveau (1− α) pour µ

Avec qtn−1

1−α/2 le quantile d’ordre 1− α/2 de la loi de Student a n − 1degres de liberte.

Vincent Runge Statistiques 86 / 158

Page 99: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

87/158

4. Estimateurs et estimations Estimation par intervalle

Estimation par intervalle

Pour determiner la concentration en glucose d’un echantillon sanguin, oneffectue des dosages a l aide d’une technique experimentale donnee. Onconsidere que le resultat de chaque dosage est une variable aleatoirenormale. On effectue 10 dosages independants, qui donnent les resultatssuivants (en g/l) :

0.96, 1.04, 1.08, 0.92, 1.04, 1.18, 0.99, 0.99, 1.25, 1.08

Calculer une estimation de la concentration en glucose de cetechantillon.

Calculer un interval de confiance de cette concentration de niveau95%.

Vincent Runge Statistiques 87 / 158

Page 100: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

88/158

4. Estimateurs et estimations Estimation par intervalle

Estimation par intervalle de la variance

Famille gaussienne, variance inconnue

Soit (X1, ...,Xn) un echantillon de loi N (µ, σ2). On suppose σ2 inconnu.L’intervalle :

IC(1−α)(σ2) =

(n − 1)S∗2

qχ2n−1

1−α2

,(n − 1)S∗2

qχ2n−1α2

est un intervalle de probabilite de niveau (1− α) pour σ2.

(n − 1)S∗2

σ2∼ χ2

n−1

Avec qχ2n−1

1−α2

le quantile d’ordre 1− α/2 et qχ2n−1α2

le quantile d’ordre α/2 de

la loi du Khi-2 a n − 1 degres de liberte.Vincent Runge Statistiques 88 / 158

Page 101: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

89/158

4. Estimateurs et estimations Le theoreme central limite

Plan

4 Estimateurs et estimationsGenerer l’aleatoireL’echantillonnage et problematiqueEstimation ponctuelleEstimation par intervalleLe theoreme central limitePropagation des incertitudes

Vincent Runge Statistiques 89 / 158

Page 102: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

90/158

4. Estimateurs et estimations Le theoreme central limite

Le theoreme central limite

Soient X1, ...,Xn n variables aleatoires independantes et identiquementdistribuees d’esperance µ et de variance σ2 :

S =n∑

i=1

XiL−→N

(nµ, nσ2

)

⇔ Z =X − µ

σ√n

L−→N (0, 1)

Vincent Runge Statistiques 90 / 158

Page 103: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

91/158

4. Estimateurs et estimations Le theoreme central limite

Le theoreme central limite

⇔ Z =X − µ

σ√n

L−→N (0, 1)

Xi ∼ B(m = 3, p = 0.5) Xi ∼ U([0, 1])

Vincent Runge Statistiques 91 / 158

Page 104: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

92/158

4. Estimateurs et estimations Le theoreme central limite

Exercice

I Jouer a pile ou faceVous relevez 100 resultats pile-face lors du lance successif de 100 pieces.La variable aleatoire associee X = 1

n

∑ni=1 Xi avec Xi ∼ B(p) donne une

realisation de x = 0.4.

Construire un intervalle de confiance a 95% autour de cetteproportion observee.

Pensez vous que la piece soit equilibree?

Reponse :L’intervalle de confiance a construire avec une approximation de p par xest : [

x − 1.96

√x(1− x)√

n, x + 1.96

√x(1− x)√

n

]= [0.304, 0.496]

Vincent Runge Statistiques 92 / 158

Page 105: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

93/158

4. Estimateurs et estimations Propagation des incertitudes

Plan

4 Estimateurs et estimationsGenerer l’aleatoireL’echantillonnage et problematiqueEstimation ponctuelleEstimation par intervalleLe theoreme central limitePropagation des incertitudes

Vincent Runge Statistiques 93 / 158

Page 106: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

94/158

4. Estimateurs et estimations Propagation des incertitudes

Propagation des incertitudes

Il est courant de vouloir estimer la variance s2f du resultat d’un calcul

impliquant plusieurs mesures (variables aleatoires)

f = f (X ,Y ,Z , ...)

Cela generalise le calcul de la variance pour X = X1+···Xnn

Formule de la variance

Si f = f (X ,Y ,Z , ...) et les variables aleatoires X , Y , Z ,... sontindependantes, alors

s2f =

(∂f

∂x

)2

s2x +

(∂f

∂y

)2

s2y +

(∂f

∂z

)2

s2z + · · ·

Vincent Runge Statistiques 94 / 158

Page 107: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

95/158

4. Estimateurs et estimations Propagation des incertitudes

Propagation des incertitudes

source :https://en.wikipedia.org/wiki/Propagation_of_uncertainty

Vincent Runge Statistiques 95 / 158

Page 108: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

96/158

5. Tests statistiques

Plan

1 Introduction

2 Des statistiques pour quoi faire?

3 Statistiques descriptives

4 Estimateurs et estimations

5 Tests statistiques

Vincent Runge Statistiques 96 / 158

Page 109: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

97/158

5. Tests statistiques Exemples introductifs

Plan

5 Tests statistiquesExemples introductifsPrincipeTests sur l’esperance d’un echantillonTests sur la variance d’un echantillonTests de comparaison de deux echantillonsTests du Khi-2

Vincent Runge Statistiques 97 / 158

Page 110: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

98/158

5. Tests statistiques Exemples introductifs

Exemple introductif 1

I Esperance de souris

On suppose que l’esperance de vie de souris de laboratoire suit unevariable aleatoire gaussienne dont l’esperance est de µ = 2 ans dansdes conditions normales. Son ecart-type est une quantite connueegale a σ = 0.5 an (6 mois).

Un specialiste propose une alimentation qui - selon lui - augmente laduree de vie moyenne de ces souris. Pour s’en assurer un laboratoiresoumet 10 souris au regime propose. A la fin de l’experience, lesdurees de vie de ces 10 souris sont les suivantes (en annees):3.1, 2.0, 1.6, 3.2, 2.3, 1.7, 2.7, 3.2, 1.4, 2.2.

I Proposer un test au niveau 5% permettant de determiner si le regimepropose par le specialiste a un effet significatif ou non.

Vincent Runge Statistiques 98 / 158

Page 111: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

99/158

5. Tests statistiques Exemples introductifs

Exemple introductif 1

Resolution: ce qu’on peut faire...

I La moyenne observee est egale a x = 2.34I On fait l’hypothese que µ = 2I On teste par le calcul P(X > 2.34) =?

Notre objectif est de s’apercevoir si, dans les conditions normales, il estabsurde/peu probable d’observer les donnees qu’on a.

Z ∼ N (0, 1), et on obtient P(Z > 2.34−20.5√

10

) = 0.0157638, que conclure?

Vincent Runge Statistiques 99 / 158

Page 112: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

100/158

5. Tests statistiques Exemples introductifs

Exemple introductif 2

I Une temperature de crabe

On note X la temperature interieure (en C ) d’une espece de crabesdu Pacifique prise a une temperature ambiante de 24.3C . Onsuppose que X suit une loi normale N (µ, σ2) dont on ne connaıt pasles parametres.

On a mesure cette temperature sur un echantillon de 21 crabes prisau hasard :

24.6, 26.1, 25.1, 27.3, 24.0, 24.5, ...

On donne∑

i xi = 526.9 et∑

i x2i = 13255.53.

I Proposer un test au niveau 5% permettant de determiner si cetteespece de crabes possede sa propre temperature interieure ou si cettederniere est la meme que la temperature ambiante.

Vincent Runge Statistiques 100 / 158

Page 113: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

101/158

5. Tests statistiques Exemples introductifs

Exemple introductif 2

Resolution: ce qu’on peut faire...

I La moyenne observee est egale a x ≈ 25.09 et l’estimation de lavariance empirique corrigee s ≈ 1.33I On fait l’hypothese que µ = 24.3CI On teste par le calcul P(X > 25.09) =?

T ∼ t20, et on obtient P(T > 25.09−24.31.33√

21

= 2.7220) = 0.006565, que

conclure?

Difference importante : On ne cherche pas ici a voir qu’un parametrereel est plus grand que ce qu’on pensait, mais seulement qu’il differed’une valeur de reference.

Vincent Runge Statistiques 101 / 158

Page 114: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

102/158

5. Tests statistiques Exemples introductifs

Definitions

A la vue des deux exemples precedents on peut definir:

Une hypothese statistique est un enonce (”litteraire”) portant surles caracteristiques d’une population (parametre ou forme d’unedistribution).

Un test statistique est une procedure (”calculatoire”) permettant detrancher entre deux hypotheses basees sur l’observation de donnees.

Vincent Runge Statistiques 102 / 158

Page 115: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

103/158

5. Tests statistiques Principe

Plan

5 Tests statistiquesExemples introductifsPrincipeTests sur l’esperance d’un echantillonTests sur la variance d’un echantillonTests de comparaison de deux echantillonsTests du Khi-2

Vincent Runge Statistiques 103 / 158

Page 116: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

104/158

5. Tests statistiques Principe

Principe

(a) Choisir un niveau de risque du test α

(b) Choisir les hypotheses a tester (H0 et H1) selon le probleme a resoudre

(c) Determiner la variable (aleatoire) de test (Statistique de test)

(d) Determiner la region de rejet

(e) Calculer la realisation et la p-valeur associee

(f) Conclure

Vincent Runge Statistiques 104 / 158

Page 117: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

105/158

5. Tests statistiques Principe

(a) Risques d’erreurs

Resultats possibles

Decision Ne pas rejeter H0 Rejeter H0

Realite (conclure H0) (conclure H1)

H0 vraie OK Erreur de type I

H1 vraie Erreur de type II OK

Definitions

Risque de premiere espece : α = P(rejeter H0|H0 vraie)(= probabilite de commettre une erreur de type I)

Risque de seconde espece : β = P(ne pas rejeter H0|H1 vraie)(= probabilite de commettre une erreur de type II)

Puissance : P = 1− β = P(rejeter H0|H1 vraie)(probabilite de prendre la bonne decision en rejetant H0)

Vincent Runge Statistiques 105 / 158

Page 118: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

106/158

5. Tests statistiques Principe

(a) Focus sur α

Choix du niveau du test

Le niveau de signification du test est le risque de premiere espece αconsenti.

Le niveau de signification du test est souvent fixe a 0.05 ou 0.01,mais ce seuil est arbitraire et toute autre valeur peut etre choisie.

Vincent Runge Statistiques 106 / 158

Page 119: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

107/158

5. Tests statistiques Principe

(b) Les Hypotheses H0 et H1

Hypothese nulle et hypothese alternative

L’hypothese nulle (notee H0) est l’hypothese privilegiee. C’est cellequi est supposee vraie par defaut.

L’hypothese alternative (notee H1) contredit l’hypothese nulle.C’est l’hypothese que l’on cherche a montrer.

I Asymetrie : On cherche a montrer que H0 est fausse, c’est-a-dire trespeu probable. Cette hypothese sera conservee dans le cas contraire.

I Ne pas rejeter, ce n’est pas accepter : On ne peut jamais montrer laverite d’une hypothese avec certitude

Vincent Runge Statistiques 107 / 158

Page 120: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

108/158

5. Tests statistiques Principe

(b) Hypothese simple/composite

Exemple d’hypotheses simples

H : θ = θ0

Exemple d’hypotheses composites (i.e. plusieurs θ dans l’hypothese)

H : θ < θ0

H : θ > θ0

H : θ 6= θ0

H : θ ∈ [a, b]

Vincent Runge Statistiques 108 / 158

Page 121: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

109/158

5. Tests statistiques Principe

(b) Tests unilateraux / bilateraux

Cas tres courants :

Test unilateral (a droite)

H0 : θ = θ0

H1 : θ > θ0

Test bilateral

H0 : θ = θ0

H1 : θ 6= θ0

Vincent Runge Statistiques 109 / 158

Page 122: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

110/158

5. Tests statistiques Principe

(c) Statistique de test

Definition

Une statistique de test est une statistique (dont la loi est connue sousH0) qui permet de mesurer l’ecart a l’hypothese nulle.

Vincent Runge Statistiques 110 / 158

Page 123: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

111/158

5. Tests statistiques Principe

(d) Region de rejet

Definition

La Region de rejet est l’ensemble Rα (depend du choix de α) des valeurs(de la statistique de test) pour lesquelles l’hypothese nulle est rejetee.

Vincent Runge Statistiques 111 / 158

Page 124: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

112/158

5. Tests statistiques Principe

Risques d’erreurs

Figure: Erreur de type I et II et region critique de la forme Ralpha =]−∞, a]

Vincent Runge Statistiques 112 / 158

Page 125: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

113/158

5. Tests statistiques Principe

Tests unilateraux / bilateraux

Test unilateral (a droite)

H0 : θ = θ0

H1 : θ > θ0

Test bilateral

H0 : θ = θ0

H1 : θ 6= θ0

Vincent Runge Statistiques 113 / 158

Page 126: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

114/158

5. Tests statistiques Principe

(e) Degre de signification (p-valeur)

Definition

Le degre de signification (ou p-valeur) est defini par :

p = minα|t ∈ Rα

Test unilateral a droite Test unilateral a gauche Test bilateral

p = P(T > t|H0) p = P(T < t|H0) p = P(|T | > |t||H0)

Remarques

La p-valeur est la probabilite d’obtenir une valeur de la statistique detest au moins aussi extreme que celle observee lorsque H0 est vraie

Concretement, on rejette H0 lorsque p < α

Vincent Runge Statistiques 114 / 158

Page 127: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

115/158

5. Tests statistiques Principe

(e) Degre de signification

Figure: p-valeur associee a la realisation t de la statistique de decision pour untest unilateral a gauche.

Vincent Runge Statistiques 115 / 158

Page 128: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

116/158

5. Tests statistiques Principe

Etude de la puissance

Remarque

Le calcul de la puissance ne peut se faire que si l’on connaıt ladistribution de la statistique de test sous l’hypothese alternative (H1)

L’etude de la puissance permet de determiner, pour une alternativedonnee, le nombre d’observations necessaires pour conclure H1 (avecune certaine puissance)

L’etude de la puissance permet de determiner, pour un nombred’observations donnees, l’effet minimum pouvant etre montre (avecune certaine puissance)

Vincent Runge Statistiques 116 / 158

Page 129: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

117/158

5. Tests statistiques Tests sur l’esperance d’un echantillon

Plan

5 Tests statistiquesExemples introductifsPrincipeTests sur l’esperance d’un echantillonTests sur la variance d’un echantillonTests de comparaison de deux echantillonsTests du Khi-2

Vincent Runge Statistiques 117 / 158

Page 130: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

118/158

5. Tests statistiques Tests sur l’esperance d’un echantillon

Test sur l’esperance d’un echantillon gaussien

Cas 1 : variance connue (test z)

Modelisation : X1, ...,Xn iid avec Xi ∼ N (µ, σ20), σ2

0 connue.

Hypothese nulle : H0 : µ = µ0, H1 : ? (plusieurs choix selonl’enonce)

Statistique de test :X − µ0

σ0√n

∼H0

N (0, 1)

Vincent Runge Statistiques 118 / 158

Page 131: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

119/158

5. Tests statistiques Tests sur l’esperance d’un echantillon

(Ex 1) Test sur l’esperance d’un echantillon gaussien

I Esperance de souris

On suppose que l’esperance de vie de souris de laboratoire suit unevariable aleatoire gaussienne dont l’esperance est de µ = 2 ans dansdes conditions normales. Son ecart-type est une quantite connueegale a σ = 0.5 an (6 mois).

Un specialiste propose une alimentation qui - selon lui - augmente laduree de vie moyenne de ces souris. Pour s’en assurer un laboratoiresoumet 10 souris au regime propose. A la fin de l’experience, lesdurees de vie de ces 10 souris sont les suivantes (en annees):3.1, 2.0, 1.6, 3.2, 2.3, 1.7, 2.7, 3.2, 1.4, 2.2.

I Proposer un test au niveau 5% permettant de determiner si le regimepropose par le specialiste a un effet significatif ou non.

Vincent Runge Statistiques 119 / 158

Page 132: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

120/158

5. Tests statistiques Tests sur l’esperance d’un echantillon

Test sur l’esperance d’un echantillon gaussien

Cas 2 : variance inconnue (test de Student ou test t)

Modelisation : X1, ...,Xn iid avec Xi ∼ N (µ, σ2), σ2 inconnue.

Hypothese nulle : H0 : µ = µ0, H1 : ? (plusieurs choix selonl’enonce)

Statistique de test :X − µ0

S?√n

∼H0

tn−1

Vincent Runge Statistiques 120 / 158

Page 133: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

121/158

5. Tests statistiques Tests sur l’esperance d’un echantillon

(Ex 2) Test sur l’esperance d’un echantillon gaussien

I Une temperature de crabe

On note X la temperature interieure (en C ) d’une espece de crabesdu Pacifique prise a une temperature ambiante de 24.3C . Onsuppose que X suit une loi normale N (µ, σ2) dont on ne connaıt pasles parametres.

On a mesure cette temperature sur un echantillon de 21 crabes prisau hasard : 24.6, 26.1, 25.1, 27.3, 24.0, 24.5, ...On donne

∑i xi = 526.9 et

∑i x

2i = 13255.53.

I Proposer un test au niveau 5% permettant de determiner si cetteespece de crabes possede sa propre temperature interieure ou si cettederniere est la meme que la temperature ambiante.I On suppose qu’en realite la temperature moyenne des crabes est de25C . Quelle est la puissance du test construit pour detecter une telledifference ?

Vincent Runge Statistiques 121 / 158

Page 134: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

122/158

5. Tests statistiques Tests sur l’esperance d’un echantillon

Test sur l’esperance d’un echantillon de loi quelconque - ngrand

Modelisation : X1, ...,Xn iid avec Xi ∼ L inconnue.

Hypothese nulle : H0 : µ = µ0, H1 : ? (plusieurs choix selonl’enonce)

Statistique de test :

Si σ20 connue

X − µ0σ0√n

L→H0

N (0, 1) (TLC)

Si σ20 inconnue

X − µ0

S?√n

L→H0

N (0, 1) (TLC)

Vincent Runge Statistiques 122 / 158

Page 135: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

123/158

5. Tests statistiques Tests sur l’esperance d’un echantillon

(Ex 3) Test sur l’esperance d’un echantillon de loiquelconque

Le delai de survie, pour un certain type de cancer, peut etre modelisepar une variable aleatoire de loi exponentielle. L’esperance de vie avecle traitement de reference est de 4 ans.

Un nouveau traitement est teste dans le cadre d’un essai clinique surn = 60 patients. On observe un delai de survie moyen de 4.7 ans.

I Peut-on conclure que le nouveau traitement est significativementmeilleur que le traitement de reference ?

Vincent Runge Statistiques 123 / 158

Page 136: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

124/158

5. Tests statistiques Tests sur l’esperance d’un echantillon

Test sur un pourcentage - n grand

Modelisation : X1, ...,Xn iid avec Xi ∼ B(p), p inconnue.

Hypothese nulle : H0 : p = p0, , H1 : ? (plusieurs choix selonl’enonce)

Statistique de test (p = X ) :

p − p0√p0(1−p0)

n

L→H0

N (0, 1) (TLC)

Remarque

Tester un pourcentage revient a tester l’esperance d’une Bernoulli

Vincent Runge Statistiques 124 / 158

Page 137: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

125/158

5. Tests statistiques Tests sur l’esperance d’un echantillon

(Ex 4) Test sur un pourcentage - n grand

Le pourcentage d’anomalies chromosomiques dans les naissancesd’une population donnee, etait de 1% il y a 10 ans.

On effectue un depistage systematique (obtention des caryotypes apartir de prelevements de sang) sur 500 naissances tirees au sort dansla population actuelle. On observe 7 caryotypes anormaux.

I Le pourcentage d’anomalies chromosomique est-il significativementdifferent d’il y a 10 ans.I On suppose que le pourcentage d’anomalies est en realite passe de 1 a1,2%. Sur l’observation des 500 naissances, quelle probabilite a-t-on dedetecter cette difference ?

Vincent Runge Statistiques 125 / 158

Page 138: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

126/158

5. Tests statistiques Tests sur l’esperance d’un echantillon

Test sur un pourcentage - n petit

Modelisation : X1, ...,Xn iid avec Xi ∼ B(p), p inconnue.

Hypothese nulle : H0 : p = p0

Statistique de test :

np =∑

Xi ∼H0

B(n, p0)

Remarque

Avec une loi discrete on ne peut plus trouver tous les quantiles exactement.

Vincent Runge Statistiques 126 / 158

Page 139: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

127/158

5. Tests statistiques Tests sur l’esperance d’un echantillon

(Ex 5) Test sur un pourcentage - n petit

On croise des descendants directs du croisement [fleurs rouges × fleursblanches]. Sous l’hypothese que le gene ’rouge’ est dominant, laprobabilite p d’obtenir une plante a fleurs blanches est de 1/4 alors quesous l’hypothese que le gene ’blanc’ est dominant, la probabilite pd’obtenir une plante a fleurs blanche est de 3/4.Sur n = 23 croisements (supposes independants), on a observe 8 plantes afleurs blanches.

1 L’hypothese admise jusqu’a present est que le gene ’rouge’ estdominant. Un geneticien aimerait montrer qu’en realite, c’est le gene’blanc’ qui est dominant. Tester cette hypothese au niveau α = 5%.

2 Quelle est la puissance du test construit ?

Vincent Runge Statistiques 127 / 158

Page 140: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

128/158

5. Tests statistiques Tests sur la variance d’un echantillon

Plan

5 Tests statistiquesExemples introductifsPrincipeTests sur l’esperance d’un echantillonTests sur la variance d’un echantillonTests de comparaison de deux echantillonsTests du Khi-2

Vincent Runge Statistiques 128 / 158

Page 141: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

129/158

5. Tests statistiques Tests sur la variance d’un echantillon

Tests sur la variance d’un echantillon gaussien

Hypotheses :X1, ...,Xn iid avec Xi ∼ N (µ, σ2)

Hypothese nulle : H0 : σ2 = σ20

Statistique de test :(n − 1)S?2

σ20

∼H0

χ2n−1

Si H1 : σ2 > σ20, alors on cherche u tel que P( (n−1)S?2

σ20

> u) = α

Si H1 : σ2 < σ20, alors on cherche u tel que P( (n−1)S?2

σ20

< u) = α

Si H1 : σ2 6= σ20, alors on cherche u1 et u2 tels que

P( (n−1)S?2

σ20

< u1) = P( (n−1)S?2

σ20

> u2) = α2

Vincent Runge Statistiques 129 / 158

Page 142: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

130/158

5. Tests statistiques Tests sur la variance d’un echantillon

(Ex 6) Test sur la variance

Une nouvelle technique de dosage du glucose sanguin vient d’etre mise aupoint. Pour un meme echantillon de sang, sept dosages effectues a l’aidede cette nouvelle technique ont donne les resultats suivants (en g/l) :

1.17 1.16 1.16 1.19 1.21 1.19 1.18

On admet que les sept mesures sont des variables aleatoires independanteset identiquement distribuees de loi N (µ, σ2) ou σ2 caracterise la precisiondu procede. La technique utilisee jusqu’alors etait caracterisee par unecart-type de 0.05 mg/l. Peut-on dire que la nouvelle technique est plusprecise que l’ancienne ?

Vincent Runge Statistiques 130 / 158

Page 143: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

131/158

5. Tests statistiques Tests de comparaison de deux echantillons

Plan

5 Tests statistiquesExemples introductifsPrincipeTests sur l’esperance d’un echantillonTests sur la variance d’un echantillonTests de comparaison de deux echantillonsTests du Khi-2

Vincent Runge Statistiques 131 / 158

Page 144: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

132/158

5. Tests statistiques Tests de comparaison de deux echantillons

Test sur l’esperance de deux echantillons independants

Independance des echantillons

Deux echantillons sont independants s’ils sont constitues independammentl’un de l’autre

Remarque

Les sujets de l’echantillon 1 ne sont pas les memes que les sujets del’echantillon 2

Les effectifs des echantillons 1 et 2 ne sont pas necessairement lesmemes

Vincent Runge Statistiques 132 / 158

Page 145: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

133/158

5. Tests statistiques Tests de comparaison de deux echantillons

Comparaison des esperances de deux echantillons gaussiens

Test de Student

Modelisation :X1, ...,Xn1 iid avec Xi ∼ N (µ1, σ

21)

Y1, ...,Yn2 iid avec Yi ∼ N (µ2, σ22)

σ21 = σ2

2 = σ2 inconnue.

Hypothese nulle : H0 : µ1 = µ2

Statistique de test :

X − Y√( 1n1

+ 1n2

)(n1−1)S?2

1 +(n2−1)S?22

n1+n2−2

∼H0

tn1+n2−2

Vincent Runge Statistiques 133 / 158

Page 146: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

134/158

5. Tests statistiques Tests de comparaison de deux echantillons

(Ex 7) Comparaison des esperances de deux echantillonsgaussiens

On a preleve une solution plusieurs fois en utilisant deux pipettes calibreesde meme volume. On a pese le contenu du volume delivre par la pipette.Les resultats des differents pipettages, qui sont supposes normalementdistribues, sont exprimes en grammes.

Pipette 1 0.0987 0.0990 0.0996 0.0995 0.0998 0.0984

Pipette 2 0.1016 0.1008 0.1002 0.0995 0.0990 0.1023

On suppose que les variances sont les memes dans les deux groupes.

Les quantites moyennes prelevees par chacune des deux pipettessont-elles identiques ? (comparer les esperances)

Vincent Runge Statistiques 134 / 158

Page 147: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

135/158

5. Tests statistiques Tests de comparaison de deux echantillons

Comparaison des esperances de deux echantillons - n1 et n2

grands

Modelisation :X1, ...,Xn1 iid avec Xi ∼ L1

Y1, ...,Yn2 iid avec Yi ∼ L2

Hypothese nulle : H0 : µ1 = µ2

Statistique de test :

X − Y√S?2

1n1

+S?2

2n2

L→H0

N (0, 1) (TLC)

Vincent Runge Statistiques 135 / 158

Page 148: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

136/158

5. Tests statistiques Tests de comparaison de deux echantillons

(Ex 8) Comparaison des esperances de deux echantillons -n1 et n2 grands

Dans le but d’etudier l’influence eventuelle de la lumiere sur la croissancedu poisson Lebistes Reticulus, on a eleve deux lots de ce poisson dans desconditions d’eclairage differentes. Au 95eme jour, on a mesure (en mm) leslongueurs xi des poissons. On a obtenu les resultats suivants :

Lot 1 (180 individus) : eclairage a 400 lux∑xi = 3780

∑x2i = 84884

Lot 2 (90 individus) : eclairage a 3 000 lux.∑yi = 2043

∑y2i = 46586

Que peut-on conclure ?

Vincent Runge Statistiques 136 / 158

Page 149: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

137/158

5. Tests statistiques Tests de comparaison de deux echantillons

Comparaison de deux pourcentages - n1 et n2 grands

Modelisation :X1, ...,Xn1 iid avec Xi ∼ B(p1)Y1, ...,Yn2 iid avec Yi ∼ B(p2)

Hypothese nulle : H0 : p1 = p2 = p

Statistique de test :

p1 − p2√( 1n1

+ 1n2

)p(1− p)

L→H0

N (0, 1) (TLC)

ou

p =n1p1 + n2p2

n1 + n2

Remarque

Ce test est equivalent au test du khi-2 (voir plus loin)

Vincent Runge Statistiques 137 / 158

Page 150: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

138/158

5. Tests statistiques Tests de comparaison de deux echantillons

(Ex 9) Comparaison de deux pourcentages - n1 et n2

grands

Dans un groupe de 200 malades, on a constitue par tirage au sort uneserie soumise a un nouveau traitement A et une serie soumise autraitement classique B. On a :

Traitement A : nA = 102 ; 20 echecs soit pA = 19.6%Traitement B : nB = 98 ; 29 echecs soit pB = 29, 6%

Au niveau α = 5%, les traitements A et B ont-ils un taux d’echecssignificativement different ?

Vincent Runge Statistiques 138 / 158

Page 151: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

139/158

5. Tests statistiques Tests de comparaison de deux echantillons

Comparaison des esperances de deux echantillons apparies

Echantillons apparies

Deux echantillons sont apparies s’il existe une correspondance entre lesobservations du premier echantillon et les observations du second.

Exemple

Mesure avant traitement et apres traitement (chez les memes sujets)

Vincent Runge Statistiques 139 / 158

Page 152: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

140/158

5. Tests statistiques Tests de comparaison de deux echantillons

Comparaison des esperances de deux echantillons apparies

Modelisation :X1, ...,Xn iid avec Xi ∼ N (µ1, σ

21)

Y1, ...,Yn iid avec Yi ∼ N (µ2, σ22)

Soit Di = Xi − Yi

Hypothese nulle : H0 : µd = 0

Statistique de test

n petitD − µd

S?d√n

∼H0

tn−1

n grand, loi quelconque

D − µd

S?d√n

L→H0

N (0, 1)

Vincent Runge Statistiques 140 / 158

Page 153: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

141/158

5. Tests statistiques Tests de comparaison de deux echantillons

(Ex 10) Comparaison des esperances de deux echantillonsapparies

On veut comparer chez 10 malades la pression arterielle systoliquemoyenne apres administration d’un nouveau medicament hypotenseur etapres administration du traitement de reference. Le tableau suivant donneles resultats :

Malade 1 2 3 4 5 6 7 8 9 10

Reference 17 15 15 13 12 17 15 16 19 11

Nouveau traitement 16 11 12 13 14 11 13 13 17 10

On suppose les observations normalement distribuees. Le nouveaumedicament est-il efficace ?

Vincent Runge Statistiques 141 / 158

Page 154: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

142/158

5. Tests statistiques Tests de comparaison de deux echantillons

Comparaison des variances de deux echantillons gaussiens

Modelisation :X1, ...,Xn1 iid avec Xi ∼ N (µ1, σ

21)

Y1, ...,Yn2 iid avec Yi ∼ N (µ2, σ22)

Hypothese nulle : H0 : σ21 = σ2

2

Statistique de test :

S?21

S?22

∼H0

F(n1 − 1, n2 − 1)

Vincent Runge Statistiques 142 / 158

Page 155: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

143/158

5. Tests statistiques Tests de comparaison de deux echantillons

Loi de Fisher

Definition

Soient Y1 et Y2 deux variables aleatoires independantes telles queY1 ∼ χ2

n1et Y2 ∼ χ2

n2. La variable aleatoire Z = (Y1/n1)/(Y2/n2) suit

une loi continue appelee loi de Fisher a n1 et n2 degres de liberte :

Z =Y1/n1

Y2/n2∼ F(n1, n2)

Remarques

Z1 ∼ F(n2, n1)⇒ Z2 = 1/Z1 ∼ F(n1, n2)

T ∼ tn ⇒ Z = T 2 ∼ F(1, n)

Vincent Runge Statistiques 143 / 158

Page 156: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

144/158

5. Tests statistiques Tests de comparaison de deux echantillons

Loi de Fisher

Densite

f (x) =Γ(n1+n2

2

)Γ(n12

)Γ(n22

)nn1/21 n

n2/22

xn1/2−1

(n2 + n1x)

0 1 2 3 4 5

0.0

0.5

1.0

1.5

2.0

x

f(x)

0 1 2 3 4 5

0.0

0.5

1.0

1.5

2.0

x

f(x)

0 1 2 3 4 5

0.0

0.5

1.0

1.5

2.0

x

f(x)

0 1 2 3 4 5

0.0

0.5

1.0

1.5

2.0

x

f(x)

0 1 2 3 4 5

0.0

0.5

1.0

1.5

2.0

x

f(x)

0 1 2 3 4 5

0.0

0.5

1.0

1.5

2.0

d1=1 // d2=1d1=2 // d2=1d1=5 // d2=2d1=100 // d2=1d1=100 // d2=100

Vincent Runge Statistiques 144 / 158

Page 157: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

145/158

5. Tests statistiques Tests de comparaison de deux echantillons

(Ex 11) Comparaison des variances de deux echantillonsgaussiens

On a preleve une solution plusieurs fois en utilisant deux pipettes calibreesde meme volume. On a pese le contenu du volume delivre par la pipette.Les resultats des differents pipettages, qui sont supposes normalementdistribues, sont exprimes en grammes.

Pipette 1 0.0987 0.0990 0.0996 0.0995 0.0998 0.0984

Pipette 2 0.1016 0.1008 0.1002 0.0995 0.0990 0.1023

On suppose que les variances sont les memes dans les deux groupes.

Les deux pipettes ont-elles la meme precision de mesure ? (comparerles variances)

Vincent Runge Statistiques 145 / 158

Page 158: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

146/158

5. Tests statistiques Tests du Khi-2

Plan

5 Tests statistiquesExemples introductifsPrincipeTests sur l’esperance d’un echantillonTests sur la variance d’un echantillonTests de comparaison de deux echantillonsTests du Khi-2

Vincent Runge Statistiques 146 / 158

Page 159: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

147/158

5. Tests statistiques Tests du Khi-2

Loi du χ2 (Rappel)

Definition

Soient X1, ...,Xn n variables aleatoires independantes et identiquementdistribuees de loi normale centree reduite: Xi ∼ N (0, 1)La variable aleatoire Y = X 2

1 + ...+X 2n suit une loi continue appelee loi du

χ2 a n degres de liberte :

Y =n∑

i=1

X 2i ∼ χ2

n

.

Proprietes

Si Y1 ∼ χ2n1

et Y2 ∼ χ2n2

avec Y1 ⊥⊥ Y2, alors Y = Y1 + Y2 ∼ χ2n1+n2

Si Y ∼ χ2n, alors E[Y ] = n et V (Y ) = 2n

Vincent Runge Statistiques 147 / 158

Page 160: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

148/158

5. Tests statistiques Tests du Khi-2

(Ex 12) Test d’adequation

Le tableau ci-dessous donne les resultats d’une des experiences de Mendelportant sur des pois : A est le phenotype ’graines spheriques’, a lephenotype ’graines ridees’ ; B le phenotype ’albumen jaune’ et b est lephenotype ’albumen vert’.

AB Ab aB ab

315 103 101 32

On se demande si la distribution observee est compatible avec ladistribution theorique 9/16, 3/16, 3/16, 1/16.

Vincent Runge Statistiques 148 / 158

Page 161: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

149/158

5. Tests statistiques Tests du Khi-2

Test d’adequation

Modelisation: X1, ...,Xn sont des variables aleatoires discretes iid avaleurs dans les classes E = x1, x2, . . . , xk.Hypotheses testees :

H0 : X ∼ LH1 : X ne suit pas la loi L

Statistique de test :

Dk,n =k∑

i=1

(Ni − npi )2

npi

L→H0

χ2k−1

avec P(X = xi ) = pi et Ni le nombre d’observations dans la classe xi .

Vincent Runge Statistiques 149 / 158

Page 162: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

150/158

5. Tests statistiques Tests du Khi-2

Test d’adequation

Remarques

L’approximation de la distribution de Dk,n par χ2k−1 n’est valable que si :

n est grand

npi ≥ 5 pour tout i (si npi < 5, on regroupe des classes de valeurpour se ramener a un cas ou npi ≥ 5)

Vincent Runge Statistiques 150 / 158

Page 163: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

151/158

5. Tests statistiques Tests du Khi-2

Test d’adequation a une famille de lois

Degres de liberte

Lorsque la loi theorique (c’est-a-dire les pi ) depend d’un ou plusieursparametres inconnu (par exemple N (µ, σ2), P(λ)), il est possibled’estimer ces parametres a partir des memes donnees que celles utiliseespour le test d’adequation. Dans ce cas, le nombre de degres de liberte deDk,n est diminue d’autant que de parametres estimes.

Vincent Runge Statistiques 151 / 158

Page 164: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

152/158

5. Tests statistiques Tests du Khi-2

(Ex 13) Test d’adequation a une famille de lois

On souhaite etudier la contamination du lait par des spores de clostridia.Pour cela on analyse des tubes de 1 ml de lait et, pour chaque tube, oncompte le nombre X de spores presents. L’analyse est effectuee sur unechantillon de n = 100 tubes provenant du meme lait.

Nombre de spores 0 1 2 3

Nombre de tubes 64 25 9 2

1 Donner une estimation du nombre moyen de spores par ml de lait.

2 Peut-on considerer au vu des observations que le nombre de sporescontenu dans un ml de lait suit une loi de Poisson (repondre a l’aided’un test de niveau 5%) ?

Vincent Runge Statistiques 152 / 158

Page 165: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

153/158

5. Tests statistiques Tests du Khi-2

(Ex 14) Test d’independance

Le tableau ci-dessous indique le resultat de l’examen de 6800 sujets classesd’apres la couleur de leurs yeux et celle de leurs cheveux :

YeuxCheveux Blonds Bruns Noirs Roux Total

Bleus 1768 807 189 47 2811Gris ou verts 946 1387 746 53 3132Bruns 115 438 288 16 857

Total 2829 2632 1223 116 6800

Existe-t-il une liaison entre ces deux caracteres ? De maniere equivalente,la repartition de la couleur des yeux est-elle la meme quelle que soit lacouleur des cheveux ou, reciproquement, la repartition de la couleur descheveux est-elle la meme quelle que soit la couleur des yeux ?

Vincent Runge Statistiques 153 / 158

Page 166: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

154/158

5. Tests statistiques Tests du Khi-2

Test d’independance

X et Y sont deux variables aleatoires discretes a valeurs dansE = x1, . . . , xk et F = y1, . . . , y`Hypotheses testees :

H0 : X et Y sont independantes,H1 : X et Y ne sont pas independantes.

Statistique de test :

Dk,`,n =k∑

i=1

∑j=1

(Nij −

Ni+N+j

n

)2

Ni+N+j

n

L→H0

χ2(k−1)(`−1)

Vincent Runge Statistiques 154 / 158

Page 167: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

155/158

5. Tests statistiques Tests du Khi-2

Test d’independance

Remarques

L’approximation de la distribution de Dk,`,n par un χ2(k−1)(`−1) n’est

valable que si :

n est grandNi+N+j

n ≥ 5 pour tout couple (i , j)

Vincent Runge Statistiques 155 / 158

Page 168: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

156/158

5. Tests statistiques Tests du Khi-2

(Ex 15) Test d’homogeneite

On veut comparer les reactions produites par deux vaccins BCG designespar A et B. Un groupe de 348 enfants a ete divise par tirage au sort en 2series qui ont ete vaccinees, l’une par A, l’autre par B. Les resultatsfigurent dans le tableau suivant :

Vaccin Reaction Reaction Ulceration Abces Totallegere moyenne

A 12 156 8 1 177B 29 135 6 1 171

Total 41 291 14 2 348

Existe-t-il une difference entre les deux vaccins ou, de maniere equivalente,la repartition des reactions est-elle la meme pour les deux vaccins ?

Vincent Runge Statistiques 156 / 158

Page 169: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

157/158

5. Tests statistiques Tests du Khi-2

Test d’homogeneite

Independance : deux variables mesurees conjointement sont-ellesindependantes?Homogeneite : Les differentes series mesurees proviennent-elles de lameme distribution?

Proposition

Un test d’homogeneite est identique a un test d’independance

Vincent Runge Statistiques 157 / 158

Page 170: MSV31 { Statistiques I Statistiques descriptives I ... · 2. Des statistiques pour quoi faire? Objectifs du cours! Objectifs du cours! Statistiques = 4 types de probl emes = Statistique

158/158

5. Tests statistiques Tests du Khi-2

Remerciements

+ Un grand merci a Cyril Dalmassohttp://www.math-evry.cnrs.fr/members/cdalmasso/welcome

Pour les slides (en particulier la section Tests statistiques”)

Les exercices de TD

Vincent Runge Statistiques 158 / 158