distributions d’échantillonnage terminologie statistique€¦ · une estimation d’un...

1

Terminologie statistique Distribution de la moyenne: théorème central- limite

distribution Khi-deux (χ2)

distribution T de Student

distribution F de Fisher

résumé des distributions

Distributions d’échantillonnage

Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques

hors programme : distribution de S / distribution de R

2

Constats et terminologie statistique

• les populations statistiques sont modélisées par des distributions de• probabilités dont les paramètres sont toujours inconnus;• le mieux que l’on puisse faire: estimer les paramètres avec des

données échantillonnales (observations) provenant de la même distribution

(population);

• les données (Y1, Y2, …) sont transformées en statistique W par une fonctionW = h (Y1, Y2 ,…. ) W est une variable aléatoire

le choix de h dépend de l’application envisagée (ESTIMATION ou TEST)la loi de probabilité de W s’appelle distribution d’échantillonnage;

exemple : 2 échantillons de taille n provenant de la même population

(Y1, Y2, …, Yn) et (Y1’, Y2’ , ….., Yn’) auront une moyenne (xbar),différente, un écart type s différent, un histogramme différent : c’est l’influence de la variabilité de l’échantillonnage;


3

Constats et terminologie statistique

• on dispose toujours que d’un seul échantillon de taille n pour la mise en œuvre d’une procédure statistique:

ESTIMATION chapitre 10

TEST D’HYPOTHÈSES chapitre 11

• paramètre statistique ξ :

quantité associée à une distribution

exemplesξ = μ moyenne distribution : exemple normale

ξ = σ écart type distribution quelconque

ξ = θ moyenne distribution Bernoulli (θ)

ξ = θ(1- θ) variance distribution Bernoulli (θ)

ξ = xp p-ième percentile d’une variable X


4

Terminologie statistique

Échantillon aléatoire (définition)

un ensemble de variables aléatoires Y 1 , Y 2 , .., Y n telles que(a) les variables sont soumises à une même loi f(y) (b) les variables sont indépendantes

loi conjointe : g (Y1, Y2, …, Yn) = f( Y1)* f(Y2) * …* f(Yn)

Statistique : toute fonction aléatoire établie sur l’échantillonW = h (Y1 , Y2 , …., Y n )

remarque : W est une variable aléatoire

Estimateur : une statistique particulière conçue de façon à fournirune estimation d’un paramètre d’une loi de probabilité

Aplications: EstimationTest d’hypothèsesRégressionAnalyse de la variance

Bernard CLÉMENT, PhDMTH2302 Probabilités et méthodes statistiques

5

Résultat 1 Soit Y 1 , Y 2,, ….. , Y n des v. a. indépendantes telles que(rappel) E(Yi ) = μi et Var (Yi ) = σi

2 i = 1, 2, …, nsoient a 1, a 2,, …. , a n des constantes et

i=nsoit W = ∑ ai Yi une combinaison linéaire des Yi

i=1

Alors E( W ) = μ W = ∑ ai μi et Var ( W ) = σw2 = ∑ ai

2 σi2

remarque 1 : aucune hypothèse est nécessaire sur les lois des Yiremarque 2 : si les Yi sont gaussiennes alors W est gaussienne

Résultat 3 Si les Yi sont gaussiennes Yi ~ N (μ , σ2 )

alors Y est gaussienne N (μ , σ2 / n )

Résultat 2 Soit ai = 1 / n E(Yi ) = μ Var( Yi ) = σ2 alors i=n

W = Y = Ybar = ∑ (1/n ) Yi vérifie E(Y) = μ et Var(Y) = σ2 / ni=1


6

Distribution de la moyenne échantillonnale : Théorème central limite

Résultat 4 : théorème central – limite

Soit W = ∑ Yi avec E(Yi ) = μi , Var (Yi ) = σi2 i = 1, 2, … , n

Si « n est assez grand » (au moins 30)

Alors W suit approximativement une loi gaussienne N(μW , σW2 )

avec μW = ∑ μi et σY2 = ∑ σi

2

remarque : il n’y a aucune condition spécifique sur les lois des Yi

Résultat 5 Si E( Yi) = μ , Var (Yi) = σ2 i = 1, 2 ,… , n

alors Y suit approximativement loi gaussienne N (μ , σ2 / n)

remarque on peut écrire le résultat sous la forme équivalente

Y - μ_ suit approximativement une loi N (0, 1) σ / √ n


7

Histogram (chap06.sta 31v*30000c)

-1.7318-1.4547

-1.1776-0.9005

-0.6234-0.3462

-0.06910.2080

0.48510.7622

1.03931.3164

1.5935

uniforme

0

100

200

300

400

500

600

700

No of obs

Histogram (chap06.sta 21v*30000c)unif2 = 15000*0.0689*normal(x; 7.9327E-5; 0.706)

-1.7286-1.4530

-1.1773-0.9017

-0.6260-0.3504

-0.07470.2009

0.47650.7522

1.02781.3035

1.5791

unif2

0

100

200

300

400

500

600

700

No of obs


-1.4455-1.2165

-0.9876-0.7587

-0.5297-0.3008

-0.07190.1570

0.38600.6149

0.84381.0727

1.3017

unif5

0

50

100

150

200

250

300

350

No of obs

Distribution

de Y


-0.7560-0.6298

-0.5035-0.3772

-0.2510-0.1247

0.00160.1278

0.25410.3804

0.50660.6329

0.7592

unif15

0

20

40

60

80

100

120

No of obs


-0.6378-0.5380

-0.4382-0.3384

-0.2387-0.1389

-0.03910.0607

0.16050.2603

0.36010.4599

0.5597

unif30

0

10

20

30

40

50

60

70

No of obs

n = 1

n = 2

n = 5

n = 15

n = 30

uniformeHistogram (chap06.sta 31v*30000c)

-1.00000.0273

1.05462.0819

3.10924.1365

5.16386.1911

7.21848.2457

9.273010.3003

11.3276

exponentielle

0

1000

2000

3000

4000

5000

6000

7000

8000

No of obs

exponentielle

Histogram (chap06.sta 31v*30000c)

-0.9961-0.3735

0.24910.8717

1.49442.1170

2.73963.3622

3.98484.6074

5.23015.8527

6.4753

expo2

0

200

400

600

800

1000

1200

1400

1600

1800

2000

No of obs

Histogram (chap06.sta 31v*30000c)expo5 = 6000*0.0774*normal(x; 0.0031; 0.4455)

-0.9355-0.6259

-0.3162-0.0066

0.30300.6126

0.92221.2318

1.54141.8510

2.16062.4703

2.7799

expo5

0

100

200

300

400

500

600

No of obs


-0.6499-0.5023

-0.3548-0.2073

-0.05980.0878

0.23530.3828

0.53030.6778

0.82540.9729

1.1204

expo15

0

20

40

60

80

100

120

140

160

No of obs


-0.5145-0.4176

-0.3208-0.2239

-0.1270-0.0302

0.06670.1636

0.26040.3573

0.45420.5510

0.6479

expo30

0

10

20

30

40

50

60

No of obs

gaussienneP O P U L A T I O N

Histogram (chap06.sta 31v*30000c)gaussienne = 30000*0.1715*normal(x; -0.0018; 1.0078)

-3.9095-3.2235

-2.5375-1.8514

-1.1654-0.4794

0.20660.8926

1.57872.2647

2.95073.6367

4.3227

gaussienne

0

200

400

600

800

1000

1200

1400

1600

1800

2000

2200

2400

No of obs

Histogram (chap06.sta 31v*30000c)norm2 = 15000*0.1032*normal(x; -0.0018; 0.7139)

-2.6496-2.2367

-1.8237-1.4107

-0.9978-0.5848

-0.17190.2411

0.65411.0670

1.48001.8929

2.3059

norm2

0

100

200

300

400

500

600

700

800

900

1000

No of obs


-1.6782-1.4096

-1.1409-0.8723

-0.6037-0.3350

-0.06640.2022

0.47090.7395

1.00811.2767

1.5454

norm5

0

50

100

150

200

250

300

350

400

No of obs


-1.0046-0.8604

-0.7161-0.5718

-0.4275-0.2832

-0.13890.0054

0.14970.2940

0.43820.5825

0.7268

norm15

0

20

40

60

80

100

120

140

No of obs


-0.6652-0.5701

-0.4750-0.3799

-0.2848-0.1897

-0.09460.0005

0.09560.1907

0.28580.3809

0.4760

norm30

0

10

20

30

40

50

60

No of obs

Bernard CLÉMENT, PhD 7

8

approximation de la distribution binomiale par une normalecas particulier de l’application du théorème central – limite.Y = nombre de succès dans une suite de n essais de Bernoulli indépendants

Posons Yi v. a. de Bernoulli associée a essai i i = 1, 2,…, n

1 avec probabilité θ Yi =

0 avec probabilité 1 - θ

E ( Yi ) = 0 * (1 - θ ) + 1 * θ = θ Var ( Yi) = θ(1 – θ )

Y = ∑ Yi est une v. a binomiale b(n, θ)

On applique le résultat 5 : Y suit approximativement dist. N(n θ , n θ (1 - θ))

Donc Y – n θ = Y - θ

√ n θ ( 1- θ ) √ θ ( 1- θ ) / n

suit approximativement distribution N ( 0, 1)


9

Exemple la demande quotidienne d’énergie électrique ( KWh ) pour un logement estune variable de moyenne 200 et d’écart type 20. Posons D = demande totale d’énergie électrique dans un

arrondissement de 500 logements.

Calculer une limite supérieure D0 pour D qui ne serait pas dépasséeavec probabilité 0,99

solution D = ∑ Yi ou Yi est la demande du logement i = 1, 2, …., 500

D suit approximativement une loi gaussienne N(μ , σ2)

μ = 500 * 200 = 100 000 et σ2 = 500 * 202 = 200 000 = ( 447,2 )2

P (D ≤ D0 ) = 0,99 Φ [(D0 - 100 000 ) / 447,2 )] = 0,99

D0 = 100 000 + z0.99 * 447,2 = 100 00 + 2.33 * 447,2 = 101 042


10Bernard CLÉMENT, PhD

Exemple : la durée de vie Y d’un composant électronique suit une loiexponentielle de moyenne 100 heures

(a) Quelle est la probabilité que la durée moyenne Y de 36 composants dépasse125 heures?

(b) Combien de composants (n) doit- on avoir fin que la différence entre Y et 100

n’excède pas 10 avec une probabilité de 0,95?

solution : si Y suit une loi exponentielle , l’écart type de Y = moyenne de X = 100 alors Y suit approximativement une distribution N (100, 100 2 / 36 )

(a) P ( Y > 125 ) = 1 – Φ [ (125 – 100) / (100 / 6 )] = 1 - Φ (1,5 ) = 1 - 0,933 = 0,067

(b) P ( │ Y - 100 │ < 10 ) = 0,95 alors P ( │ Y - 100 │ < 10 __ ) = 0,95

100 / √ n 100 / √ n

2 Φ (√ n / 10) - 1 = 0,95 donne Φ (√ n / 10) = 0,975

√ n / 10 = Φ -1 (0,975) n = 384

MTH2302 Probabilités et méthodes statistiques

11

Distribution Khi-deuxUne variable aléatoire χ2 dont la densité de probabilité est définie par

f χ2 ( u ) = c(ν) u (ν / 2) - 1 exp (- u / 2 ) 0 < u < ∞s’ appelle une variable Khi-deux (χ2 ) avec ν degrés de liberté (ddl

ν = 1, 2,3, …, ∞ c(ν ) est une constante qui dépend de ν

Propriétés• E ( χ2 ) = ν et Var ( χ2 ) = 2 ν

• si Z ~ N( 0,1 ) alors Z 2 suit une loi Khi-deux avec 1 ddl

• la somme de variables Khi-deux indépendantes est une Khi-deux

• si Zi ~ N ( 0, 1 ) i = 1, 2, …, n alors ∑ Zi2 ~ Khi-deux avec n ddl

• si Yi ~ N ( μ, σ2 ) i = 1, 2, …, n alors ∑ [ (Yi – μ )/ σ] 2 ~ Khi- deux avec n ddl

Bernard CLÉMENT, PhD

12

Table des quantiles d’une Khi-deuxQuantile

HMGB p. 478

Notation : χ2 p, νquantile d’ordre p

d’une variable χ2ν

avec ν degré de liberté

P ( χ 2ν ≤ Χ2

p, ν ) = p

Exemple

P ( χ25 ≤ 9,24 ) = 0.90


13

Distribution Student Une variable aléatoire T dont la densité de probabilité est définie par

f T ( t ) = c(ν) ( 1 + t 2 / ν ) - ( ν + 1 ) / 2 - ∞ < t < ∞s’appelle une variable de Student avec ν degrés de liberté , ν = 1, 2, 3,…., ∞c(ν) est une constante qui dépend de ν

Propriétés• densité symétrique p.r à 0

• E (T ) = 0

• Var (T) = ν / ( ν - 2 ) (ν > 2)

• si Z est une N(0,1) alors

T = Z / √ χv2 / v suit loi T avec v ddl

• si ν = ∞ la variable de Student

est une variable normale centrée réduite

• si ν > 30 la distribution Student est quasi

identique à une loi normale centré-réduite

la lettre T est généralement consacrée pour représenter la variable de Student

14

HMGB p. 479

table des quantiles d’une variable Student

t p , ν :

quantile d’ordre p

variable Student Tνν degrés de liberté

P ( Tν ≤ t p , ν ) = p

Exemple

P ( T5 ≤ 2.015 ) = 0.95


15

Résultat 7 application importante de la Student

soit Y i i = 1, 2,…, n un échantillon aléatoire d’une population N( μ, σ2 )

Soit Y = ∑ Y i / n et S2 = ∑ ( Y i – Y ) 2 / ( n - 1 )

Alors T = Y - μ_ s / √ n

suit une loi de Student avec ν = n – 1 degrés de liberté


Résultat 6 application importante de la Khi-deux

soit Y i i = 1, 2,…, n un échantillon aléatoire d’une population N( μ, σ2 )

soit S 2 = 1 / ( n – 1 ) ∑ ( Y i – Y ) 2 la variance échantillonnale

alors (n-1) S 2 / σ2 = ∑ ( Y i – Y ) 2 / σ2

suit une loi Khi-deux avec (n – 1) ddl

16

distribution F de Fisher-SnedecorUne variable aléatoire X dont la densité de probabilité f est définie par

f X ( x) = c(ν1,ν2) x ( ν1 / 2 ) - 1 [ 1 + ( ν1/v2 )x ] - ( v1 + v2 ) /2 0 < x < ∞est appelée une variable aléatoire distribuée selon une loi de Fisher-Snedecor avecv1 ddl au numérateur et v2 ddl au dénominateur; c(v1,v2) est une constante

Propriétés• E ( F ) = v2 / ( v2 – 2 )

• si Y1 suit une loi Khi-deux avec v1 ddlY2 suit une loi Khi-deux avec v2 ddlY1 et Y2 sont indépendantes alors

( Y1 / v1) / ( Y2 / v2) suit une loi F(v1,v2)

• T2v = F (1, v) : le carré d’une loi de Student

avec v ddl est une loi F(1,v)

Densité de probabilité de Fisher-Snedecor


17

Quantiles d’une F de Fisher-Snedecor

HMGB p. 480-489

Notation

F p, v1, v2 :

quantile d’ordre p d‘unevariable de Fischer- SnedecorF v1 , v2 avec

v1 ddl au numérateurv2 ddl au dénominateur

Exemple

P ( F8 , 3 ≤ 5.25 ) = 0.90


F0.90, 8 , 3 = 5.25

18

-2 0 2 4 6 8 10 12 14 16 18 20 22 24 26

U

-0.02

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

GAUS

S

Résultat 8 ( SY2 / σY

2 ) / (SZ2 / σZ

2) suit une loi F n1-1 , n2-1

-2 0 2 4 6 8 10 12 14 16 18 20 22 24 26

U

-0.02

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

GAUS

S

Y1, Y2 , … , Yn1

Y ~ N ( μY, σY2) Z ~ N ( μZ, σZ

2)

σY σZ

μy μZ

Z1, Z2 , … , Zn2

distribution d’échantillonnage du quotient de 2 variances

échantillonsindépendants

Y = ∑ Yi / n1 Z = ∑ Zi / n2moyennes

SY2 = (1/( n1 – 1)) ∑ ( Yi – Y )2 variances SZ

2 = 1/( n2 – 1 ) ∑ ( Zi – Z )2


19Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques

RÉSUMÉ des DISTRIBUTIONS



DISTRIBUTIONS D’ÉCHANTILLONNAGE



APPROXIMATIONS



RÉSUMÉ des DISTRIBUTIONSAPPLICATIONS

Y - μ_ suit approximativement une loi N (0, 1) σ / √ n

• si Z ~ N( 0,1 ) alors Z 2 suit une loi Khi-deux avec 1 ddl

• la somme de variables Khi-deux indépendantes est une Khi-deux

• si Zi ~ N ( 0, 1 ) i = 1, 2, …, n alors ∑ Zi2 ~ Khi-deux avec n ddl

• si Yi ~ N ( μ, σ2 ) i = 1, 2, …, n alors ∑ [ (Yi – μ )/ σ] 2 ~ Khi- deux avec n ddl

(n-1) S 2 / σ2 = ∑ ( Y i – Y ) 2 / σ2 suit une loi Khi-deux avec (n – 1) ddl

Y1 suit une loi Khi-deux avec v1 ddlY2 suit une loi Khi-deux avec v2 ddlY1 et Y2 sont indépendantes alors

( Y1 / v1) / ( Y2 / v2) suit une loi F(v1,v2)

T = Y - μ_ suit une loi de Student avec ν = n – 1 degrés de liberté s / √ n




LIAISONS entre les distributions

Processus de POISSON et la distribution exponentielle

Distribution binomiale et distribution géométrique

25

Distribution d’échantillonnage de l’écart type SRésultat : soit X i un échantillon de n observations d’une population N ( μ, σ2 )

S = [ (1 / ( n – 1 )) ∑ ( Yi – Y ) 2 ] 0.5 : l’écart type échantillonnalalors E (S) = c4σ et Var (S) = c5

2 σ2

n 2 3 4 5 6 7 8 9 10 15 20 25c4 0.798 0.886 0.921 0.940 0.952 0.959 0.965 0.969 0.973 0.982 0.987 0.990c5 0.603 0.463 0.389 0.341 0.308 0.282 0.262 0.246 0.232 0.187 0.161 0.144

Résultat : application - cartes de contrôle de Shewhart

(a) σ = S / c 4 est une estimation sans biais de σ : E ( S /c 4 ) = σ(b) soit k groupes de n données, S j l’écart type du groupe j = 1, 2,..., k

S = ∑ S j / k la moyenne des écart types

σ = S / c 4 est une estimation sans biais de σ

S

f S distribution d’échantillonnage de S : n fixé

0 E( S )

remarque : si n > = 10 c 4 ≈ 1


HORS PROGRAMME

26

Distribution d’échantillonnage de l’étendue RRésultat : soit Y i un échantillon de n observations d’une population N ( μ, σ2 )

R = max ( Y i) - min (Yi) : étendue échantillonnalealors E ( R ) = d 2 σ et Var ( R ) = d 32 σ2

n 2 3 4 5 6 7 8 9 10 15 20 25d 2 1.128 1.693 2.059 2.326 2.534 2.704 2.847 2.970 3.078 3.472 3.735 3.931d 3 0.853 0.888 0.880 0.864 0.848 0.833 0.820 0.808 0.797 0.755 0.729 0.709

Résultat : application - cartes de contrôle de Shewhart

(a) σ = R / d 2 est une estimation sans biais de σ : E ( R / d 2 ) = σ(b) soit k groupes de n données, R j l’étendue du groupe j = 1, 2,..., k

R = ∑ R j / k moyenne des étenduesσ = R / d 2 est une estimation sans biais de σ

R

f R distribution d’échantillonnage de R : n fixé

0 E( R )

remarque: il n’est pas recommandé d’utiliser R pour estimer σ avec n > 10

l’écart type s est préférable car il est plus précis


HORS PROGRAMME

distributions d’échantillonnage terminologie statistique€¦ · une estimation d’un...

Documents