Rappel du principe général (échantillonnage de moyenne)
Grand échantillon.
Si n ≥ 30, alors Mn ∼ N(µ;
se√n − 1
)= N
(µ;
se√n
)
−6 −4 −2 0 2 4 60
0.1
0.2
0.3
0.4 d.d.l = 100
d.d.l = 1
d.d.l = 2d.d.l = 5 Petit échantillon.
Si n < 30 et si X suit une loinormale, alors
Tn =Mn − µ
Sn
√n − 1
∼ Student(n − 1)
Une loi de Student à (n − 1)degrés de liberté (d.d.l)
S.Herrmann (UBFC) Echantillonnage et estimation 2 / 16
Cas d’une moyenne : estimation
La moyenne µ de la variable statistique X pour la population totale est inconnue.
Principe : grand échantillon n ≥ 30
1 Dans la table de la loi normale, chercher zα tel que F (zα) = 1− α2 .
confiance : c 0, 9 0, 95 0, 96 0, 98 0, 99 0, 995risque d’erreur : α 0, 1 0, 05 0, 04 0, 02 0, 01 0, 005zα 1, 645 1, 960 2, 054 2, 326 2, 575 2, 807
2 Avec la confiance c = 1− α, on affirme que µ se trouve dans l’intervalle :
Iα(µ) = [me − aα,me + aα] où aα = zα.se√n − 1
= zα.se√n
S.Herrmann (UBFC) Echantillonnage et estimation 3 / 16
Dans le cas d’un petit échantillon E (n < 30) la loi de probabilité de référenceest la loi de Student à (n − 1) d.d.l (taille de l’échantillon n).
−tα tα
Aire : 1− α
Aire : α
N (0; 1)
Student(1)
Soit Tn une variable aléatoire qui suit une loi de Student à (n − 1) d.d.l.On se donne une confiance c = 1− α (souvent c = 95%).
But : trouver tα tel que
P[−tα ≤ Tn ≤ tα] = 1− α.
S.Herrmann (UBFC) Echantillonnage et estimation 4 / 16
Trouver tα tel queP[−tα ≤ Tn ≤ tα] = 1− α.
revient à trouver tα tel queP[Tn ≥ tα] = α/2,
Relation entre la probabilité p = P[Tn ≥ tα] et la confiance c .
confiance : c 0, 9 0, 95 0, 96 0, 98 0, 99 0, 995risque d’erreur : α 0, 1 0, 05 0, 04 0, 02 0, 01 0, 005lire sur la table pour p = 0, 05 0, 025 0, 02 0, 01 0, 005 0, 0025
Table inverse de la loi de Student
p = P[Tn ≥ tα] . . . 0, 05 0, 04 0, 03 0, 025 . . .
d.d.l. 1 . . . 6, 3138 7, 9158 10, 5789 12, 7062 . . .d.d.l. 2 . . . 2, 9200 3, 3198 3, 8964 4, 3027 . . .d.d.l. 3 . . . 2, 3534 2, 6054 2, 9505 3, 1824 . . .
Exemple : Pour une loi de Student à 2 degrés de liberté, on a
P[−4, 3027 ≤ T3 ≤ 4, 3027] = 0, 95.
De manière générale, tα se lit donc dans la table inverse de la loi de Student.S.Herrmann (UBFC) Echantillonnage et estimation 5 / 16
Idée de l’estimation de la moyenne
Le principe est le même pour un grand échantillon ou un petit: seule la loi deprobabilité est différente. Lorsque n < 30 et X suit une loi normale
Tn =Xn − µSn
√n − 1 ∼ Student(n − 1).
Si µ est connu, avec confiance 1−α,
|Tn| ≤ tα.
Ainsi |Xn − µ| ≤ tαSn√n − 1
.
Si µ est inconnu, alors on mesureme et se sur un échantillon et
|me − µ| ≤ tαse√n − 1
,
avec une confiance 1− α.
L’intervalle de confiance Iα(µ) est:[me − tα
se√n − 1
;me + tαse√n − 1
]Intervalles de confiancesimilaires entre petiteou grande taille.
Seule différence :zα (loi normale)tα (Student)
S.Herrmann (UBFC) Echantillonnage et estimation 6 / 16
Récapitulatif : petit échantillon n < 30 et X suit une loi normale
1 Dans la table de la loi de Student, chercher tα tel que
P[−tα 6 Tn 6 tα] = c .
Cela revient à lire sur la table de Student la valeur tα avec p = α2 pour
n − 1 degrés de liberté (d.d.l).
confiance : c 0, 9 0, 95 0, 96 0, 98 0, 99 0, 995risque d’erreur : α 0, 1 0, 05 0, 04 0, 02 0, 01 0, 005lire sur la table pour p = 0, 05 0, 025 0, 02 0, 01 0, 005 0, 0025
2 Avec la confiance c = 1− α, on peut affirmer que µ se trouve dansl’intervalle :
Iα(µ) = [me − aα,me + aα] où aα = tα.se√n − 1
= tα.se√n
S.Herrmann (UBFC) Echantillonnage et estimation 7 / 16
Etude de cas : estime de soi et personnalité évitante
Au sein d’un échantillon de 25 individus ayant une personnalité évitante, le scoremoyen d’estime de soi est me = 31, 16 et l’écart-type est se = 5, 57. Enadmettant que les scores varient selon une loi normale, donner uneestimation du score moyen avec une confiance de 95%.
Petit échantillon : n = 25 < 30. Icic = 95% et α = 0, 05. On lit dans latable de la loi de Student à 24 d.d.lt0,05 = 2, 0639.la marge de l’estimation est
a0,05 = t0,05se√n − 1
= 2, 0639× 5, 57√24≈ 2, 34.
L’intervalle de confiance de µ:
[me − a0,05;me + a0,05] = [31, 16− 2, 34; 31, 16+ 2, 34] = [28, 82; 33, 5]S.Herrmann (UBFC) Echantillonnage et estimation 8 / 16
Discussion autour de la taille de l’échantillon
Dans l’exemple, la précision est
a0,05 ≈ 2, 34.
L’estimation de la moyenne est préciseà 2,34 près.
Augmenter la taille de l’échantillon,c’est augmenter la précision.
Pour avoir une précision inférieure à h,
on passe d’un petit à un grandéchantillon (si E est petit audépart)puis on utilise la marge suivante:
aα = zαse√n − 1
.
Taille minimale pour une précision h
Pour un précision h avec uneconfiance 1− α, la condition est:
n > z2α
s2e
h2 .
Il est nécessaire d’avoir un échantillonde référence !
Application à l’étude de cas (person-nalités évitantes) pour une précision deh = 0, 5 avec une confiance de 95%
n > 1, 962 × 5, 572
0, 52 ≈ 476, 7
Echantillon de taille 477 au minimum.
S.Herrmann (UBFC) Echantillonnage et estimation 9 / 16
5. Cas d’une variance : échantillonnage et estimation
Pour une variance, on se restreint à l’estimation. Dans la population française,le temps moyen de sommeil par jour est 7h 47 min (soit 118 jours par an) etl’écart-type est de 1,2 h.
Etude de cas : temps de sommeil
On s’intéresse à la population des étudiants enL1 et on cherche à savoir si leur temps desommeil est plus homogène que dans lapopulation francaise. Pour un échantillon E de30 étudiants de L1, on trouve me = 6, 36 (soit6h 21min 36s) et se = 1, 34 h.
Vn représente la variance d’un échantillon de taille n choisi au hasardσ2 la variance de la population P et µ sa moyenneme , se les moyennes et écart-types experimentaux observés sur unéchantillon particulier.
Ici me = 6, 36 et se = 1, 34.
S.Herrmann (UBFC) Echantillonnage et estimation 10 / 16
Echantillonnage
Si la variable statistique X (ici temps desommeil par personne et par jour) suitune loi normale N (µ;σ) alors
Y =nVn
σ2 ∼ χ2(n − 1)
Une loi du khi-deux à (n-1) d.d.l.
La variable Y ne prend que des valeurs positives puisqu’il s’agit d’un rapport devariance. La densité a une forme qui dépend du nombre de degrés de libertés.
0
0.1
0.2
0 1 2 3 4 5 6 7 8 9
1
Il est peu probable que Vn
et σ2 soient très éloignésl’un de l’autre.
La densité n’est pas symétrique...
S.Herrmann (UBFC) Echantillonnage et estimation 11 / 16
Description de la loi du Khi-deux χ2
Pour un risque α donné (confiance c = 1− α), il existe x1 et x2 qui satisfont :x1 < x2, P[Y ≤ x1] = P[Y ≥ x2] = α/2.
x1 x2
Aire : 1− α
Aire : q = α/2 Aire : p = α/2
Avec confiance 1− α, on a x1 ≤ Y ≤ x2
x1 ≤nVn
σ2 ≤ x2√Vn
√n
x2≤ σ ≤
√Vn
√n
x1
En observant l’échantillon E , onconnaît se et ainsi l’intervalle deconfiance est
Iα(σ) =[se√
nx2
; se√
nx1
]S.Herrmann (UBFC) Echantillonnage et estimation 12 / 16
Récapitulatif : estimation d’un écart-type lorsque X suit une loi normale
Soit se et se l’écart type et l’écart type corrigé de l’échantillon.1 On cherche dans la table inverse de la loi du χ2 à n − 1 ddl les valeurs :
x1 lu pour q =α
2=
1− c
2x2 lu pour p =
α
2=
1− c
2
Ce qui revient à lire sur la table du χ2 de la façon suivante :
confiance : c 0, 9 0, 95 0, 96 0, 98 0, 99 0, 995risque d’erreur : α 0, 1 0, 05 0, 04 0, 02 0, 01 0, 005Dans la table, p ou q = 0, 05 0, 025 0, 02 0, 01 0, 005 0, 0025
2 Avec la confiance c = 1− α, on peut affirmer que σ se trouve dansl’intervalle :
Iα(σ) =[se
√n
x2, se
√n
x1
]=[se
√n − 1x2
, se
√n − 1x1
]
S.Herrmann (UBFC) Echantillonnage et estimation 13 / 16
Etude de cas : temps de sommeil
On s’intéresse à la population des étudiants enL1 et on cherche à savoir si leur temps desommeil est plus homogène que dans lapopulation francaise. Pour un échantillon E de30 étudiants de L1, on trouve me = 6, 36 (soit6h 21min 36s) et se = 1, 34 h.
30 individus: loi du χ2 à29 d.d.l.choix d’une confiancec = 95% c-à-d un risqueα = 5% de se tromper.lecture de x1 et x2 dansla table inverse
q . . . 0, 025 . . . 0, 975 . . .p . . . 0, 975 . . . 0, 025 . . .
. . . . . . . . . . . . . . . . . .d .d .l . 28 . . . 15, 31 . . . 44, 46 . . .d .d .l . 29 . . . 16, 05 . . . 45, 72 . . .. . . . . . . . . . . . . . . . . .
Avec confiance c = 95%, σ appartient à
I0,05(σ) =[1, 34×
√30
45, 72; 1, 34×
√30
16, 05
]
On a l’intervalle de confiance:
I0,05(σ) ≈ [1, 09; 1, 83].
Sur l’ensemble de la pop.française, l’écart-type est de1, 2h qui appartient à I0,05(σ).
On ne peut pas assurer quel’écart-type parmi les étudiantssoit supérieur à celui de la pop-ulation générale française.
S.Herrmann (UBFC) Echantillonnage et estimation 14 / 16
1 On évalue le niveau de stress X d’un échantillon d’habitants d’un mêmequartier d’habitation péri-urbain. Parmi les 125 habitants intérrogés, 17d’entre eux subissent un niveau de stress supérieur à 120. Parmi lapopulation française péri-urbaine, quelle est la proportion d’habitants quiressentent un tel niveau de stress ?
Estim. p Gd E corr. cont. pe = 0, 1417 marge zα
√pe(1−pe)
125
2 Il y a en France 357 000 hommes et 685 000 femmes qui sont enseignants.Sur les 22 enseignants du lycée Stanislas qu’elle est la probabilité qu’il y aitmoins de 5 hommes ?
Echant. nPn Pt E corr. cont. p = 0, 3426 loi binomiale
3 Sur les 200 enseignants choisis au hasard pour une étude statistique, qu’elleest la probabilité qu’il y ait moins de 50 hommes ?
Echant. Pn Gd E corr. cont. p = 0, 3426 loi normale
S.Herrmann (UBFC) Echantillonnage et estimation 15 / 16
4 On considère un échantillon de 35 foyers de Bourgogne, leur revenu moyenest 1679 euros. Quel est le revenu moyen par foyer en Bourgogne ?
Estim. µ Gd E corr. cont. me = 1679 marge zαse√n − 1
5 On considère un échantillon de 25 foyers belges, leur revenu moyen est 1880euros. Quel est le revenu moyen par foyer en Belgique ?
Estim. µ Pt E corr. cont. me = 1880 marge tαse√n − 1
6 On considère un groupe de 75 adolescents de 15 ans. On fait une étude deleur QI standard. Le QI moyen est 98 et l’écart-type 14. Quel estl’écart-type pour le QI d’un adolescent choisi au hasard dans la populationfrançaise ?
Estim. σ Pt Gd E corr. cont. se = 14 Iα(σ) =[se√
75x2; se√
75x1
]
S.Herrmann (UBFC) Echantillonnage et estimation 16 / 16