mth 2301 méthodes statistiques en ingénierie...1 terminologie statistique rappels distribution de...
TRANSCRIPT
1
terminologie statistique rappels
distribution de la moyenne: théorème central- limite
distribution Khi-deux (χ2)
distribution T de Student
distribution F de Fisher
résumé des distributions
approximations distribution de S - distribution de R
Distributions d’échantillonnage
Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques
Page
1
5
6
11
13
16
19
20
21
2
terminologie statistique
• les populations statistiques sont modélisées par des distributionsdont les paramètres sont toujours inconnus
• à faire: estimer les paramètres avec des données échantillonnales(observations) provenant de la distribution (population);
• données (Y1, Y2, …) transformées en statistique W par une fonction
W = h (Y1, Y2 ,…. ) W = variable aléatoirechoix de h ? : dépend de l’applicationdistribution de W = distribution d’échantillonnage
exemple : 2 échantillons de taille n provenant de la même population(Y1, Y2, …, Yn) (Y1’, Y2’ , ….., Yn’)
auront - moyenne Y différente- écart type s différent- histogramme différent
cause = influence de la variabilité de l’échantillonnage
Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques
3
terminologie statistique
on a toujours UN seul échantillon de taille n pour uneétude statistique estimation test d’hypothèse modèle statistique Y = H(X1, X2, …, Xk ; θ1, θ2 … , θk ) + ε
X1, X2, …, Xk : variables explicatives de Yθ1, θ2 … , θk : constantes inconnues
modèle de régression - modèle d’analyse de variance
paramètre statistique: quantités associées distribution
exemplesθ = μ moyenne distribution (normale ou autre)
θ = σ écart type distribution
θ = p paramètre distribution Bernoulli
θ = xp p-ième percentile distribution
θ1, θ2 … , θk constantes inconnues de H
Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques
4
Terminologie statistique
Échantillon aléatoire (définition) de taille nensemble de n variables aléatoires Y 1 , Y 2 , .., Y n(a) Yi suivent toutes la même distribution fY(y)
sont identiquement distribuéesfYi (yi) = fY (yi) i = 1 , 2,.., n
(b) Yi sont mutuellement indépendantesfY1, Y2,.., Yn (y1, y2, …, yn) = fY1 (y1)*fY2 (y2)* …*fYn (yn)
= fY (y1)*fY (y2)* …*fY (yn)
Statistique toute fonction h des YiW = h (Y1, Y2 , …., Yn )
W : nouvelle variable aléatoireproblème important : connaitre distribution de W
Applications: - estimation- test d’hypothèses- modèles de régression- modèles d’analyse de la variance
Bernard CLÉMENT, PhDMTH2302 Probabilités et méthodes statistiques
5
Résultat 1 Y 1 , Y 2,, ….. , Y n des v. a. indépendantesE(Yi ) = μi et Var (Yi ) = σi
2 i = 1, 2, …, na 1, a 2,, …. , a n des constantes et
i=nW = ∑ ai Yi une combinaison linéaire des Yi
i=1E( W ) = μW = ∑ ai μi Var ( W ) = σw
2 = ∑ ai2 σi
2
remarque 1 : aucune hypothèse nécessaire sur les distributions des Yiremarque 2 : si les Yi sont normales alors W est normale
Résultat 3 si les Yi sont normales Yi ~ N (μ , σ2 )
Y est normale N (μ , σ2 / n )
Résultat 2 ai = 1 / n E(Yi ) = μ Var( Yi ) = σ2
i=nW = Y = Ybar = ∑ (1/n ) Yi alors E(Y) = μ Var(Y) = σ2 / n
i=1
Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques
Rappels
6
Distribution de la moyenne échantillonnale : Théorème central limite
Résultat 4 : théorème central – limite
Soit W = ∑ Yi avec E(Yi ) = μi Var (Yi ) = σi2 i = 1, 2, … , n
Si « n est assez grand » (au moins 30) alors
W suit approximativement distribution normale N(μW , σW2 )
avec μW = ∑ μi et σY2 = ∑ σi
2
remarque : les variables Yi doivent être indépendantes
Résultat 5 Si E( Yi) = μ Var (Yi) = σ2 i = 1, 2 ,… , n
alors Y suit approximativement distribution normale N (μ , σ2 / n)
remarque résultat sous forme équivalente
Y - μ_ suit approximativement une distribution N (0, 1) σ / √ n
Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques
7
Histogram (chap06.sta 31v*30000c)
-1.7318-1.4547
-1.1776-0.9005
-0.6234-0.3462
-0.06910.2080
0.48510.7622
1.03931.3164
1.5935
uniforme
0
100
200
300
400
500
600
700
No of obs
Histogram (chap06.sta 21v*30000c)unif2 = 15000*0.0689*normal(x; 7.9327E-5; 0.706)
-1.7286-1.4530
-1.1773-0.9017
-0.6260-0.3504
-0.07470.2009
0.47650.7522
1.02781.3035
1.5791
unif2
0
100
200
300
400
500
600
700
No of obs
Histogram (chap06.sta 21v*30000c)unif5 = 6000*0.0572*normal(x; 7.9327E-5; 0.4506)
-1.4455-1.2165
-0.9876-0.7587
-0.5297-0.3008
-0.07190.1570
0.38600.6149
0.84381.0727
1.3017
unif5
0
50
100
150
200
250
300
350
No of obs
Distri--bution
de
Y
simulations
Histogram (chap06.sta 21v*30000c)unif15 = 2000*0.0316*normal(x; 7.9327E-5; 0.2586)
-0.7560-0.6298
-0.5035-0.3772
-0.2510-0.1247
0.00160.1278
0.25410.3804
0.50660.6329
0.7592
unif15
0
20
40
60
80
100
120
No of obs
Histogram (chap06.sta 21v*30000c)unif30 = 1000*0.0249*normal(x; 7.9327E-5; 0.1825)
-0.6378-0.5380
-0.4382-0.3384
-0.2387-0.1389
-0.03910.0607
0.16050.2603
0.36010.4599
0.5597
unif30
0
10
20
30
40
50
60
70
No of obs
n = 1
n = 2
n = 5
n = 15
n = 30
uniformeHistogram (chap06.sta 31v*30000c)
-1.00000.0273
1.05462.0819
3.10924.1365
5.16386.1911
7.21848.2457
9.273010.3003
11.3276
exponentielle
0
1000
2000
3000
4000
5000
6000
7000
8000
No of obs
exponentielle
Histogram (chap06.sta 31v*30000c)
-0.9961-0.3735
0.24910.8717
1.49442.1170
2.73963.3622
3.98484.6074
5.23015.8527
6.4753
expo2
0
200
400
600
800
1000
1200
1400
1600
1800
2000
No of obs
Histogram (chap06.sta 31v*30000c)expo5 = 6000*0.0774*normal(x; 0.0031; 0.4455)
-0.9355-0.6259
-0.3162-0.0066
0.30300.6126
0.92221.2318
1.54141.8510
2.16062.4703
2.7799
expo5
0
100
200
300
400
500
600
No of obs
Histogram (chap06.sta 31v*30000c)expo15 = 2000*0.0369*normal(x; 0.0031; 0.2567)
-0.6499-0.5023
-0.3548-0.2073
-0.05980.0878
0.23530.3828
0.53030.6778
0.82540.9729
1.1204
expo15
0
20
40
60
80
100
120
140
160
No of obs
Histogram (chap06.sta 31v*30000c)expo30 = 1000*0.0242*normal(x; 0.0031; 0.1816)
-0.5145-0.4176
-0.3208-0.2239
-0.1270-0.0302
0.06670.1636
0.26040.3573
0.45420.5510
0.6479
expo30
0
10
20
30
40
50
60
No of obs
gaussienneP O P U L A T I O N
Histogram (chap06.sta 31v*30000c)gaussienne = 30000*0.1715*normal(x; -0.0018; 1.0078)
-3.9095-3.2235
-2.5375-1.8514
-1.1654-0.4794
0.20660.8926
1.57872.2647
2.95073.6367
4.3227
gaussienne
0
200
400
600
800
1000
1200
1400
1600
1800
2000
2200
2400
No of obs
Histogram (chap06.sta 31v*30000c)norm2 = 15000*0.1032*normal(x; -0.0018; 0.7139)
-2.6496-2.2367
-1.8237-1.4107
-0.9978-0.5848
-0.17190.2411
0.65411.0670
1.48001.8929
2.3059
norm2
0
100
200
300
400
500
600
700
800
900
1000
No of obs
Histogram (chap06.sta 31v*30000c)norm5 = 6000*0.0672*normal(x; -0.0018; 0.4489)
-1.6782-1.4096
-1.1409-0.8723
-0.6037-0.3350
-0.06640.2022
0.47090.7395
1.00811.2767
1.5454
norm5
0
50
100
150
200
250
300
350
400
No of obs
Histogram (chap06.sta 31v*30000c)norm15 = 2000*0.0361*normal(x; -0.0018; 0.2586)
-1.0046-0.8604
-0.7161-0.5718
-0.4275-0.2832
-0.13890.0054
0.14970.2940
0.43820.5825
0.7268
norm15
0
20
40
60
80
100
120
140
No of obs
Histogram (chap06.sta 31v*30000c)norm30 = 1000*0.0238*normal(x; -0.0018; 0.1854)
-0.6652-0.5701
-0.4750-0.3799
-0.2848-0.1897
-0.09460.0005
0.09560.1907
0.28580.3809
0.4760
norm30
0
10
20
30
40
50
60
No of obs
Bernard CLÉMENT, PhD 7
n = 1
n = 2
n = 5
n = 15
n = 30
n = 1
n = 2
n = 5
n = 15
n = 30
8
approximation : distribution binomiale par distribution normalecas particulier : application du théorème central - limiteY = nombre de succès dans une suite de n essais
indépendants Bernoulli Yi v. a. de Bernoulli associée essai i i = 1, 2,…, n
1 avec probabilité θ Yi =
0 avec probabilité 1 - θ
E (Yi) = 0*(1 - θ) + 1*θ = θ Var ( Yi) = θ(1 – θ )
W = ∑ Yi distribuée binomiale (n, θ)
résultat 4 : Y distribuée approximativement N (µ = n θ , σ2 = n θ (1 - θ))
Y - n θ = Y - θ ~ N (0, 1) approximativement
√ n θ ( 1- θ ) √ θ ( 1- θ ) / n condition : nθ(1 - θ) > 5
Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques
9
Exemple demande quotidienne d’énergie électrique ( KWh ) pour un logementest une variable de moyenne 200 et d’écart type 20. Posons D = demande totale d’énergie électrique dans un
arrondissement de 500 logements.
question Calculer une limite supérieure D0 pour D qui ne serait pas dépasséeavec probabilité 0,99
solution D = ∑ Yi ou Yi est la demande du logement i = 1, 2, …., 500
D suit approximativement une loi gaussienne N(μ , σ2)
μ = 500 * 200 = 100 000 et σ2 = 500 * 202 = 200 000 = ( 447,2 )2
P (D ≤ D0 ) = 0,99 Φ [(D0 - 100 000 ) / 447,2 )] = 0,99
D0 = 100 000 + z0.99 * 447,2 = 100 00 + 2.33 * 447,2 = 101 042
Bernard CLÉMENT, PhDMTH2302 Probabilités et méthodes statistiques
10Bernard CLÉMENT, PhD
Exemple : la durée de vie Y d’un composant électronique suit distributionexponentielle de moyenne 100 heures
(a) Quelle est la probabilité que la durée moyenne Y de 36 composants dépasse125 heures?
(b) Combien de composants (n() doit- on avoir fin que la différence entre Y et 100
n’excède pas 10 avec une probabilité de 0,95?
solution : si Y suit une loi exponentielle ET(Y) = E(Y) = 100 alors Y suit approximativement une distribution N (100, 1002 / 36 )
(a) P ( Y > 125 ) = 1 – Φ [ (125 – 100) / (100 / 6 )] = 1 - Φ (1,5 ) = 1 - 0,933 = 0,067
(b) P ( │ Y - 100 │ < 10 ) = 0,95 alors P ( │ Y - 100 │ < 10 __ ) = 0,95
100 / √ n 100 / √ n
2 Φ (√ n / 10) - 1 = 0,95 donne Φ (√ n / 10) = 0,975
√ n / 10 = Φ -1 (0,975) n = 384
MTH2302 Probabilités et méthodes statistiques
11
Distribution
Khi-deux
𝛘𝛘𝛎𝛎𝟐𝟐
variable aléatoire continue notée 𝛘𝛘ν𝟐𝟐
densité f𝛘𝛘ν𝟐𝟐 (y) = c(ν) y (ν/2) - 1 e - y/2 0 < y < ∞
distribution Khi-deux avec ν degrés de liberté (dl)
ν = 1, 2,3, …, ∞ c(ν ) = constante dépend de ν
Propriétés E ( 𝛘𝛘ν𝟐𝟐 ) = ν Var ( 𝛘𝛘ν𝟐𝟐 ) = 2 ν si Z ~ N( 0,1 ) alors Z2 ~ 𝛘𝛘𝟏𝟏𝟐𝟐
𝛘𝛘𝛎𝛎𝟏𝟏𝟐𝟐 + 𝛘𝛘𝛎𝛎𝟐𝟐𝟐𝟐 + … + 𝛘𝛘𝛎𝛎𝐤𝐤𝟐𝟐 = 𝛘𝛘ν𝟐𝟐 ν = ν1 + ν2 + … + νk
si Zi ~ N ( 0, 1 ) i = 1, 2, …, n alors ∑ Zi2 ~ 𝛘𝛘𝒏𝒏𝟐𝟐
si Yi ~ N ( μ, σ2 ) i = 1, 2, …, n alors ∑ [ (Yi - μ ) / σ]2 ~ 𝛘𝛘𝒏𝒏𝟐𝟐
Bernard CLÉMENT, PhD
table Khi-deux
𝛘𝛘α,𝛎𝛎𝟐𝟐
0 < α < 1α : probabilité dépasser
à droiteν degré de liberté
P ( 𝛘𝛘𝛎𝛎𝟐𝟐 ≥ 𝛘𝛘α,𝛎𝛎𝟐𝟐 ) = α
Exemple
P ( 𝛘𝛘𝟓𝟓𝟐𝟐 ≥ 𝛘𝛘𝟎𝟎.𝟏𝟏𝟎𝟎, 𝟓𝟓𝟐𝟐 ) = 0,10
𝛘𝛘𝟎𝟎.𝟏𝟏𝟎𝟎, 𝟓𝟓𝟐𝟐 = 9,24
Bernard CLÉMENT, PhD12
notation alternativeprobabilité à gauche
= percentile90ième percentile = 9,24
𝛘𝛘𝟎𝟎.𝟗𝟗𝟎𝟎, 𝟓𝟓𝟐𝟐 = 9,24
Distribution
Student variable aléatoire continue notée Tνdensité
fTν ( t ) = c(ν)(1 + t2 / ν )- ( ν + 1 ) / 2 - ∞ < t < ∞
c(ν) constante dépend de ν
paramètre ν = degrés de liberté ν = 1, 2, 3,…., ∞Propriétés densité symétrique
E (Tν) = 0 Var (Tν) = ν / ( ν - 2 ) (ν > 2)
ν = ∞ distribution Student= distribution normale N(0, 1)
ν ≥ 30 distribution Student est ≈ distribution normale N(0, 1)
autre définition pour applictionsZ distribuée normale centrée réduite N (0,1)𝛘𝛘ν𝟐𝟐 distribuée Khi-deux avec ν dl
indépendante de Z
Tν = Z / √ 𝛘𝛘ν𝟐𝟐 / ν = N(0,1) / √ 𝛘𝛘ν𝟐𝟐 / ν
distribuée Student avec v dlBernard CLÉMENT, PhD
ν = 1
ν = 30ν = 2
13
Exemple
P (T5 ≥ t0.05, 5) = 0,05
t0.05, 5 = 2,015
Bernard CLÉMENT, PhD 14
table Studentt α, ν
0 < α < 1α : probabilité dépasser
à droite ν degré de liberté
P (Tν ≥ tα, ν) = α
notation alternativeprobabilité à gauche
= percentile
t0.95, 5 = 2,015
15Bernard CLÉMENT, PhDMTH2302 Probabilités et méthodes statistiques
APPLICATIONSYi i = 1, 2,…, n échantillon aléatoire de N( μ, σ2 )Y = (1 / n) ∑ Yi moyenne échantillonnaleS2 = (1 / ( n – 1)) ∑ (Yi - Y )2 variance échantillonnale
Résultat 6 (n-1) S 2 / σ2 = ∑ ( Yi - Y )2 / σ2 ~ 𝛘𝛘𝐧𝐧−𝟏𝟏𝟐𝟐
Résultat 7 ( Y - µ ) / ( s / √ n ) ~ Tn-1
JUSTIFICATION de 7
( Y - µ ) / (σ / √ n) Z N(0,1)(Y - µ ) / (s / √ n) = --------------------------- = --------------- = --------------
√ (n-1)s2 / σ2 /(n-1) √ W / (n-1) √ 𝛘𝛘𝐧𝐧−𝟏𝟏𝟐𝟐 / n-1
car N(0,1) / √ 𝛘𝛘ν𝟐𝟐 / ν = Tν selon définition Student page 13
16
Distribution
F(v1, v2)
de Fisher
Y ~ F(v1, v2) : distribution Fisher avec paramètres (v1, v2)v1 = dl numérateur v2 = dl dénominateur
densité fY (y) = c(ν1,ν2) y(ν1 / 2) - 1 [1+(ν1/v2) y] – (ν1 + ν2) /2 y ≥ 0
c(v1,v2) constante dépend de v1, v2
Propriétés E (F) = v2 / ( v2 – 2 )
autre définition pour applicationssi Y1 suit une loi Khi-deux avec v1 dlsi Y2 suit une loi Khi-deux avec v2 dlsi Y1 et Y2 sont indépendantes
alors (Y1/v1) / (Y2/v2) ~ F(v1, v2)
T2v = F(v1 = 1, v2 = v)
densité F de Fisher
Bernard CLÉMENT, PhD MTH2302 Probabilités et méthodes statistiques
17
Fv1, v2, 0,05 : valeur 95ième percentile F(v1, v2)α = 0,05 = probabilité dépassement
Notation Fv1, v2, α(1 – α) percentile F(v1, v2)
α : probabilité dépassement
P (Fv1, v2 ≥ F v1, v2, α ) = αExemple
P ( F8 , 4 ≥ 6,04 ) = 0,95
Bernard CLÉMENT, PhD
F8, 4, 0,05 = 6,04
α = 0,05
18
-2 0 2 4 6 8 10 12 14 16 18 20 22 24 26
U
-0.02
0.00
0.02
0.04
0.06
0.08
0.10
0.12
0.14GA
USS
Résultat 8 ( Y1 - Y2 ) - (μ1 - μ2 )
√ (σ12/ n1 + σ2
2/ n2)
Résultat 9a (S12 / σ1
2 ) / (S22 / σ2
2) ~ Fn1-1 , n2-1
9b S12 / S2
2 ~ Fn1-1 , n2-1 si σ1 = σ2
-2 0 2 4 6 8 10 12 14 16 18 20 22 24 26
U
-0.02
0.00
0.02
0.04
0.06
0.08
0.10
0.12
0.14
GAUS
S
Y11, Y12 , … , Y1n1
Y1 ~ N ( μ1 , σ12) Y2 ~ N ( μ2 , σ2
2)
σ1σ2
μ1 μ2
Y21, Y22 , … , Y2n2
distribution d’échantillonnage : 2 échantillons indépendants
… distributions …
… échantillons …
… moyennes …
… variances …
Y1 = ∑ Y1i / n1 Y2 = ∑ Y2i / n2
S12 = (1/( n1 - 1)) ∑ (Y1i - Y1 )2 S2
2 = (1/( n2 - 1)) ∑ (Y2i - Y2 )2
Bernard CLÉMENT, PhD
= Z ~ N(0, 1)
échantillon 1:n1 observationsde Y1
Y1 ~ N (μ1, σ12) Y2 ~ N (μ2, σ2
2)
échantillon 2:n2 observationsde Y2
19Bernard CLÉMENT, PhD
RÉSUMÉ
DISTRIBUTIONS
20Bernard CLÉMENT, PhDMTH2302 Probabilités et méthodes statistiques
APPROXIMATIONS
LIAISONS ENTRE DISTRIBUTIONS
Processus de POISSON et distribution exponentielle
Distribution binomiale et distribution géométrique
21
Distribution d’échantillonnage de l’écart type S
Résultat 9 : Yi échantillon aléatoire de n observations de N ( μ, σ2 )S = [ (1 / ( n – 1 )) ∑ (Yi - Y ) 2 ] 0.5 l’écart type échantillonnalE (S) = c4σ et Var (S) = c5
2 σ2
n 2 3 4 5 6 7 8 9 10 15 20 c4 0.798 0.886 0.921 0.940 0.952 0.959 0.965 0.969 0.973 0.982 0.987c5 0.603 0.463 0.389 0.341 0.308 0.282 0.262 0.246 0.232 0.187 0.161
approximation n > = 10 c4 ≈ 1 c5 ≈ 1/√ 2n
S
fS
n ≥ 30
S ~ N (σ, σ2/2n)approximativement
0 E( S )
Bernard CLÉMENT, PhD
Distribution d’échantillonnage de l’étendue RRésultat 10: Yi échantillon aléatoire de n observations de N ( μ, σ2 )
R = max ( Y i) - min (Yi) : étendue échantillonnaleE (R ) = d2 σ et Var (R) = d3
2 σ2
n 2 3 4 5 6 7 8 9 10 15 20 d2 1.128 1.693 2.059 2.326 2.534 2.704 2.847 2.970 3.078 3.472 3.735 d3 0.853 0.888 0.880 0.864 0.848 0.833 0.820 0.808 0.797 0.755 0.729
remarque : R est employé dans les cartes de contrôle de Shewhart (SPC)
Estimateur de σ moyenne varianceR / d2 = estimateur1 E (R/d2) = σ Var (R/d2) = d3
2 σ2
S = estimateur2 E (S) = σ Var (S) = c52 σ2
S est meilleur que R1/d2 car Var(S) < Var (R/d2)pour n ≤ 5 : on peut employer R/d2 car Var (R/d2) ≈ Var (S)