0) ecart-type
TRANSCRIPT
Terminale S − 2019 / 2020 P3 – cours
Page 1
0) Ecart-type
Rappelons (ou découvrons) ce qu'est un écart-type.
En statistique il existe deux sortes d'indicateurs : les indicateurs de position, et ceux de dispersion.
Les indicateurs de position fournissent une valeur censée représenter, résumer, la série toute entière
en une seule valeur "positionnée à un endroit stratégique".
Parmi ceux-ci, vous connaissez évidemment la moyenne qui est "la valeur qu'auraient toutes les
valeurs de la série statistique si elles étaient égales" (oui oui c'est ça, la définition d'une moyenne,
réfléchissez…) ou la médiane qui est "une valeur centrale, telle qu'autant de valeurs de la série lui
sont supérieures qu'inférieures". Il existe également le mode qui est "la valeur d'effectif maximal".
Par exemple si les sept notes d'un élèves (dans l'ordre croissant) lors d'un trimestre sont 7 – 10 – 10
– 14 – 15 – 16 – 19 alors la moyenne est évidemment 7+10+10+14+15+16+19
7 = 13 et
effectivement, c'est bien la note qu'aurait eue l'élève si ses sept notes avaient été identiques… tandis
que la médiane est 14 puisqu'il y a bien trois notes inférieures à 14 et trois notes supérieures à 14.
Enfin le mode est 10 puisque c'est la note qui a été obtenue le plus grand nombre de fois.
Les indicateurs de dispersion sont complémentaires des précédents. Ils expriment de quelle façon,
dans quelle proportion, les valeurs de la série statistique s'écartent les unes des autres (se dispersent)
ou au contraire sont proches entre elles (se resserrent).
Il y a l'étendue ou amplitude (écart maximal dans la série, autrement dit entre la valeur la plus petite
et la valeur la plus grande) et l'écart-type, que l'on va voir.
Dans l'exemple précédent l'étendue est 19−7 = 12.
Pour parler de l'écart-type il faut réfléchir à des exemples pertinents qui en montrent l'utilité.
Imaginons un deuxième élève, que nous appellerons Jean-Eudes (et pourquoi pas ?) dont les six
notes (il a été absent à un devoir) ont été : 10 – 10 – 10 – 10 – 10 – 10.
Nous sommes d'accord pour dire que sa moyenne est … (on calcule, allez, vite…) 10 !
Son voisin, Calisthème (mais si, ça existe) quant à lui, a obtenu ce trimestre : 0 – 20 – 0 – 20 – 0 –
20.
Sa moyenne est … la même, ok !
Leur amie, Mairande, a pour notes : 0 – 10 – 10 – 10 – 10 – 20, et donc pour moyenne… encore la
même.
Pensez-vous pour autant que leur prof va rédiger la même remarque dans leurs bulletins ? Bien sûr
que non… la moyenne n'est pas un indicateur suffisant
Page 2
Comment les différencier ?
On voit bien que ce sont les écarts, donc ce qu'on appelle la dispersion, qui distingue les trois amis.
Essayons avec l'étendue.
Celle de Jean-Eudes est nulle : 10−10 = 0 !
Celle de Calisthème est maximale : 20−0 = 20.
On peut se dire que cet indicateur suffit, en l'associant à la moyenne, à caractériser la série.
Pourtant, Mairande a elle aussi pour étendue 20−0 = 20.
Mais son profil n'est pas du tout le même que Calisthème : lui est systématiquement dans les
extrêmes, alors qu'elle a été très régulière, comme Jean-Eudes, avec un accident et un coup d'éclat
qui s'annulent.
Il faut donc autre chose.
Puisque la moyenne est la même pour eux trois, à savoir 10, observons la façon dont les six notes se
dispersent autour de la cette moyenne.
Pour Jean-Eudes c'est simple : chaque note EST la moyenne ! Donc l'écart entre les notes et leur
moyenne est six fois le même : 0.
Ainsi, l'écart moyen entre les notes et leur moyenne vaut 0.
Pour Calisthème, c'est l'extrême inverse.
Quand il obtient 0, sa note est à 10 points (vers le bas) de la moyenne qui est à 10.
Quand il obtient 20, sa note est à 10 points (vers le haut) de la moyenne qui est à 10.
Donc en fait, chacune des six notes est située à un écart de 10 points de la moyenne qui est 10.
Ainsi, là aussi, l'écart moyen entre les notes et leur moyenne vaut 10.
Cet "écart moyen entre les valeurs de la série et leur moyenne" est, à peu de choses près, ce qu'on
appelle l'écart-type.
En pratique, c'est un tout petit peu différent même si ça revient presque au même :
L'écart-type d'une série statistique est la racine carrée de la moyenne des carrés des écarts entre les
valeurs de la série et leur moyenne.
Le fait de prendre les carrés puis ensuite la racine carrée annule en partie l'élévation au carré;
pourquoi le fait-on ? Pour des raisons totalement hors programme et qui ne doivent pas vous
préoccuper pour le moment.
En tout cas ça fonctionne.
Pour Jean-Eudes on commence par calculer la moyenne des carrés des écarts à la moyenne :
(10−10)
2+(10−10)2+(10−10)
2+(10−10)2+(10−10)
2+(10−10)2
6 = 0 : c'est ce qu'on appelle la
variance de la série statistique.
Ensuite, l'écart-type est donc la racine carrée de la variance : 0 = 0 !
Page 3
Pour Calisthème, la variance vaut (0−10)
2+(20−10)2+(0−10)
2+(20−10)2+(0−10)
2+(20−10)2
6
= 100+100+100+100+100+100
6 = 100 et l'écart-type vaut bien 100 = 10.
Calculons celui de Mairande.
Sa variance est (0−10)
2+(10−10)2+(10−10)
2+(10−10)2+(10−10)
2+(20−10)2
6
= 100+0+0+0+0+100
6 =
200
6 =
100
3 et donc son écart-type est
100
3 =
10
3
� 5,8.
Voilà donc un bon indicateur de dispersion :
• Chez Jean-Eudes, les notes sont en moyenne à 0 pt de leur moyenne qui vaut 10
• Chez Calisthème, les notes sont en moyenne à 10 pts de leur moyenne qui vaut 10
• Chez Mairande, les notes sont en moyenne à 5,8 pts de leur moyenne qui vaut 10
Intéressons-nous maintenant à la façon dont la moyenne et l'écart-type subissent (ou non) les
variations à l'intérieur des séries statistiques.
On se place désormais du côté du prof, un certain Monsieur C.
A la fin du trimestre, il constate que la moyenne de la classe est de 10 et que son écart-type est de 4.
Comme Monsieur C. est le plus gentil de tous les professeurs de la terre, il décide d'augmenter les
notes de chaque élève.
Il a deux possibilités pour mettre en pratique l'immensité de sa bienveillance.
• Premièrement, il va au plus simple, et augmente chaque élève d'un point.
Que deviennent la moyenne et l'écart-type de la classe ?
Il est à peu près évident que la moyenne augmente elle-aussi d'un point.
En effet, la moyenne étant "la note qu'auraient obtenue chaque élève s'ils avaient tous eu la
même note", on voit bien qu'ajouter 1 à toutes les notes, ajoute au final 1 à la moyenne des notes.
Celle-ci passe donc à 11.
Mais l'écart-type ?
L'élève qui avait 8, était à un écart de 2pts de la moyenne de 10.
Après l'intervention de Dieu, pardon de Monsieur C., cet élève a désormais 9 pour une moyenne
de classe de 11… donc il est toujours à 2 points de la moyenne.
Ainsi les écarts ne bougent pas : l'écart-type n'est pas sensible aux additions d'une même valeur,
ajoutée à chaque terme de la série statistique. Dans le cas de la classe de Monsieur C, il reste à 4.
Si on change de vocabulaire et qu'on passe à celui des probabilités, une série statistique est
simplement l'ensemble des valeurs d'une variable aléatoire X, la moyenne s'appelle alors
espérance et se note E(X) , tandis qu'on note usuellement σ(X) l'écart-type.
On vient d'expliquer la propriété suivante :
Si X est une variable aléatoire et que b est un nombre réel quelconque, alors :
E(X+b) = E(X)+b et σ(X+b) = σ(X)
En français dans le texte : si on augmente les valeurs d'une série X de b, alors la moyenne augmente
également de b, mais l'écart-type reste inchangé.
Page 4
• Deuxième possibilité, il décide de récompenser davantage les élèves plus méritants en les
augmentant "au pourcentage de la note initiale".
Il décide donc d'augmenter chaque élève de 10%.
Cela revient à multiplier toutes les notes par 1,1 !
L'élève qui avait 2 passe à …2,2.
Mais l'élève qui avait 15 passe à 16,5 !
C'est évidemment discutable mais ce n'est pas le propos.
Là aussi, on s'intéresse à ce que deviennent moyenne et écart-type.
La moyenne de 10 signifie que si tous les élèves avaient la même note, ils auraient 10, mais dans
ce cas chaque élève serait relevé de 10% donc d'1 point et chaque nouvelle note serait de 11 de
sorte que la nouvelle moyenne est elle-aussi passée à 11.
Donc comme dans la première méthode, la moyenne a été sensible, a suivi, l'opération effectuée
sur la série : elle-aussi a été augmentée de 10%.
Mais l'écart-type ?
Cette fois-ci les écarts changent.
En effet l'élève passé de 2 (écart de 8 à la moyenne 10) à 2,2 (écart de 8,8 à la moyenne 11) a vu
son écart augmenter de 8 à 8,8 c’est-à-dire … de 10 %.
L'élève passé de 15 (écart de 5) à 16,5 (écart de 5,5) a lui-aussi vu son écart augmenter de 10% !
Ainsi, les écarts augmentent dans les mêmes proportions que les notes : si celles-ci sont
multipliées par 1,1, alors les écarts entre les notes et leur moyenne, donc l'écart-type, également.
Le nouvel écart-type de la classe de Monsieur C. est donc désormais de 1,1×4 = 4,4 pour une
moyenne de 11.
En prenant le vocabulaire probabiliste :
Si X est une variable aléatoire et que a est un nombre réel strictement positif, alors :
E(aX) = aE(X) et σ(aX) = aσ(X)
En français dans le texte : si on multiplie les valeurs d'une série X par a > 0, alors la moyenne et
l'écart-type sont également multipliés par a.
On peut résumer ces deux propriétés en une seule, appelée le théorème de la transformation affine
d'une variable aléatoire :
Soit X une variable aléatoire.
Soit a un nombre réel strictement positif, et b un nombre réel quelconque.
On fait subir à X une transformation affine en posant Y = aX+b .
Alors on obtient les résultats suivants :
E(Y) = aE(X)+b
σ(Y) = aσ(X)
Nous allons être amenés à utiliser ce théorème.
Page 5
1) Introduction
La loi normale est le résultat d'une question simple (bon, ok, on ne se la pose pas tous les jours au
petit-déjeuner…) : que se passe-t-il si, dans une loi binomiale de paramètres n et p, le paramètre n
(le nombre de répétitions de l'expérience aléatoire) devient grand ? Voire même, tend vers l'infini ?
Essayons de contextualiser cette question ô combien existentielle…
Si on joue à pile ou face avec une pièce, nous sommes dans le cas typique d'une loi binomiale.
Disons qu'on parie sur "pile".
On note p la probabilité que la pièce tombe sur pile (p = 0,5 si la pièce est équilibrée, p > 0,5 si elle
est truquée en faveur de pile, p < 0,5 si elle est truquée en faveur de face).
On note n le nombre de fois qu'on décide de lancer la pièce.
On note X la variable aléatoire égale au nombre de fois que la pièce retombera sur pile parmi les n
lancers.
Alors X suit la loi binomiale de paramètres n et p (on la note B(n;p)).
Voilà ce que cela donne si on lance une pièce équilibrée (p = 0,5) quarante fois (n = 40) :
Les abscisses représentent les valeurs possibles de X : de 0 (si la pièce retombe à chaque lancer sur
face) à 40 (si elle retombe à chaque lancer sur pile) et les ordonnées sont la probabilité de chacune
de ses valeurs, calculée avec la formule que l'on connait.
Page 6
Par exemple P(X=15) =
40
15×p15×(1−p)
25 = 40225345056×0,515×0,525 � 0,037.
Si on monte à quatre-vingt lancers (n = 80) voilà le nouveau diagramme des valeurs de X :
Et si on lance la pièce cent fois cela devient:
Que remarque-t-on ?
Page 7
Que les diagrammes suivent un même mouvement : une montée assez tardive vers un maximum
d'où ils redescendent de façon symétrique par rapport à la montée.
Réfléchissons à ces constats.
• Les valeurs basses de X (de 0 à 10 sur le premier schéma, de 0 à 25 sur le second, de 0 à 35 sur le
troisième) sont très peu probables, de même que les valeurs hautes (de 30 à 40 sur le premier, de
55 à 80 sur le second, de 65 à 100 sur le troisième, sachant que la valeur maximale est la valeur n
elle-même).
C'est compréhensible.
Si on lance quarante fois la pièce, on conçoit volontiers qu'il est très improbable qu'elle retombe
quasi systématiquement du même côté (X = 1 signifierait 1 fois pile et 39 fois face, alors
qu'inversement X = 38 signifierait 38 fois pile et 2 fois face).
On dit que les valeurs extrêmes sont négligeables.
• Il y a une probabilité maximale dans chaque situation.
A quoi correspond-elle ?
Souvenons-nous que l'espérance d'une variable aléatoire "binomiale" est donnée par E(X) = np .
Dans le premier cas de figure, E(X) = 40×0,5 = 20 : c'est bien cette valeur qui a la probabilité
maximale.
Dans le deuxième cas, E(X) = 80×0,5 = 40 : là aussi, c'est sur cette valeur de X que le maximum
est atteint.
Dans le troisième cas, E(X) = 100×0,5 = 50… même constat.
Donc la valeur de X qui a la plus grande probabilité est son espérance. Quoi de plus logique ? La
valeur moyenne est en effet celle qui est la plus "représentative" d'une série statistique. La pièce
étant équilibrée, si on la lance cent fois, intuitivement, on sent bien que "50 fois pile et 50 fois
face" est une situation tout à fait crédible, bien davantage que "0 fois pile et 100 fois face" ou "3
fois pile et 97 fois face".
• La distribution des probabilités est symétrique par rapport à l'espérance.
En effet, là aussi c'est assez intuitif. Pour une pièce équilibrée qu'on lance 50 fois, tomber 10 fois
sur pile est exactement la même chose que tomber 10 fois sur face, puisque pile et face ont la
même probabilité.
Essayons maintenant des situations où la pièce n'est pas équilibrée : p � 0,5.
Commençons par un cas de figure où elle est légèrement en faveur de pile, en prenant p = 0,6.
On la lance quarante fois (n = 40).
Les valeurs de X vont donc de 0 (0 fois pile 40 fois face) à 40 (l'inverse).
Son espérance est E(X) = np = 40×0,6 = 24.
On constate (schéma page suivante) que les propriétés constatées précédemment demeurent
observables.
Le maximum est bien atteint pour la valeur de X égale à son espérance, 24, ce que l'on a mis en
évidence sur le diagramme.
La symétrie se fait toujours par rapport à la valeur maximale.
Et enfin les valeurs extrêmes restent négligeables (même si la pièce est truquée en tombant 60% des
fois sur pile, on imagine bien que sur quarante lancers, tomber systématiquement sur pile reste très
peu probable).
Page 8
Prenons maintenant une pièce truquée pour tomber 80% du temps sur face (autrement dit p = 0,2) et
lançons-la quarante fois (n = 40). On a E(X) = 40×0,2 = 8.
Page 9
Puis lançons-la désormais cent fois (n = 100, E(X) = 100×0,2 = 20).
Et enfin lançons-la deux cents fois (n = 200, E(X) = 200×0,2 = 40).
Page 10
Dans tous les cas de figure, le même constat s'impose.
Si X suit une loi B(n;p) alors :
• Les valeurs extrêmes de X sont négligeables (de probabilités proches de 0) ;
• La probabilité maximale est celle de la valeur de X égale à E(X) = np ;
• La distribution des probabilités pour l'ensemble des valeurs de X allant de 0 à n est symétrique
par rapport à l'espérance E(X).
Intéressons-nous plus précisément au cas où n = 200.
Le nombre de valeurs possibles de X est alors de 201 (de X = 0 à X = 200).
Prenons un cas avec n = 400 et p = 0,1. Il y a alors 401 valeurs possibles pour X.
Pour les grandes valeurs de n, il y a de très nombreuses valeurs possibles pour X (puisque le nombre
total de valeurs possibles de X est n+1 : de 0 à n).
Si n devait devenir vraiment très grand (tendre vers l'infini), la variable X prendrait alors une
quantité elle-même infinie de valeurs… et cesserait d'être une variable aléatoire discrète.
Le problème est que pour de grandes valeurs de n, les histogrammes vont courir le long de l'axe des
abscisses et les probabilités devenir très faibles (car réparties sur une quantité gigantesque de
valeurs possibles) donc imperceptibles.
L'idée est alors de réaliser une transformation affine de X afin de la normaliser, c’est-à-dire de la
forcer à se confronter à une norme de façon à ce que tous les cas de figures envisagés (selon n et p)
puissent facilement être comparés.
On va donc retrancher à X son espérance (ce qui, d'après le théorème de la transformation affine,
donnera une espérance nulle à la nouvelle variable aléatoire) et la diviser par son écart-type (ce qui,
toujours selon le même théorème, donnera un écart-type égal à 1 à la nouvelle variables aléatoire).
Page 11
On pose donc Y = X−E(X)
σ(X) =
X−np
np(1−p)
.
On a normalisé la variable X en lui imposant une espérance fixe (0) et un écart-type fixe (1).
Y est appelée une version de X centrée et réduite : E(Y) = 0 (centrée) et σ(Y) = 1 (réduite).
Sur le schéma suivant, les histogrammes bleus sont ceux uniquement centrés, et les verts
correspondent à Y.
Même chose mais avec p = 400 et p = 0,25 : les histogrammes correspondant à X ont disparu du
schéma (trop à droite) mais ceux de Y en vert semble analogues aux précédents.
Page 12
Augmentons encore n en prenant n = 700 :
puis n = 1000 :
Plus n est grand plus les histogrammes sont nombreux (car de plus en plus de valeurs possibles pour
X et donc pour Y) et plus on quitte le domaine des probabilités discrètes : les sommets des
histogrammes commencent à dessiner une sorte de courbe continue… celle d'une densité !
Page 13
Cette variable Y en vert, qui ne change visiblement pas quelles que soit les valeurs données à n et p,
possède donc, pour les valeurs élevées de n, une densité que l'on peut représenter en rouge :
Nous venons de faire apparaître la loi normale centrée réduite.
Cette loi est donc "ce que devient une loi binomiale qui a été centrée et réduite quand n devient très
grand".
De façon plus rigoureuse, elle est le passage au continu d'une variable aléatoire binomiale centrée
réduite quand n tend vers +õ .
Page 14
2) Lois normales
a) Loi normale centrée réduite
Notre introduction est récapitulée dans le :
Théorème de Moivre – Laplace
Soit une variable aléatoire X suivant une loi binomiale de paramètres n et p.
On a donc E(X) = np et σ(X) = np(1−p) .
Soit une variable aléatoire Yn = X−E(X)
σ(X) =
X−np
np(1−p)
.
Alors pour les grandes valeurs de n, la variable Yn peut être approximée par une variable aléatoire
continue dont la densité est f(t) = 1
2π
e-
t2
2
.
Autrement dit lim n−>+õ
P( )aÂYnÂb =
a
b
1
2π
e-
t2
2
dt
La loi continue ainsi définie est appelée loi normale centrée réduite, ou loi normale de paramètres 0
et 1 et on la note N(0;1).
Remarques
• La première chose qui frappe c'est ce 1
2π
dont on ne voit absolument pas ce qu'il fait là.
On a bien compris que la fonction f(t) = 1
2π
e-
t2
2
a une courbe en cloche (appelée courbe de
Gauss) compatible avec les propriétés attendues du passage au continu des histogrammes centrés
et réduits de la loi binomiale :
Page 15
En effet cette courbe est symétrique par rapport à l'axe des ordonnées (car f est paire), elle atteint
bien son maximum en 0 et les valeurs extrêmes sont négligeables, ce qui se traduit par les
asymptotes horizontales que sont l'axe des abscisses en –õ et +õ , car les deux limites de f y
sont nulles.
Le coefficient 1
2π
est simplement le nombre qui fait "vraiment" de f une densité.
f est évidemment continue et positive (c'est une exponentielle…) dont il faut encore, pour
achever le travail, que l'aire sous la courbe soit égale à 1.
Or il se trouve qu'on peut démontrer (mais il vous faudra attendre au moins trois ans pour y
parvenir) que :
-õ
+õe-
t2
2
dt = 2π
Ainsi, par linéarité, en divisant par 2π , on trouve bien :
-õ
+õf(t)dt =
-õ
+õ
1
2π
e-
t2
2
dt = 1
• Ensuite, intéressons-nous aux notations.
La loi normale centrée réduite se note donc N(0 ; 1).
Ces deux paramètres correspondent à l'espérance (0) et à l'écart-type (1) de la loi normale issue
du "centrage – réduction" de la loi binomiale.
Elles en sont donc la conséquence : on a fait en sorte, dans la construction de l'introduction, d'en
arriver là.
D'ailleurs un calcul permet de le vérifier :
0
xtf(t)dt =
1
2π
0
x
te-
t2
2
dt = 1
2π
−e
- t2
2
0
x
= 1
2π
( 1−e-
x2
2
).
Donc lim x−>+õ
0
x tf(t)dt =
1
2π
.
De même, - x
0tf(t)dt =
1
2π
−e
- t2
2
- x
0
= 1
2π
(-1+e-
x2
2
).
Donc lim x−>+õ
- x
0tf(t)dt = -
1
2π
.
Ainsi, l'espérance de N(0 ; 1) est :
-õ
+õtf(t)dt
= lim x−>+õ
- x
xtf(t)dt
= lim x−>+õ
- x
0tf(t)dt+
0
x tf(t)dt
= lim x−>+õ
- x
0tf(t)dt + lim
x−>+õ
0
x tf(t)dt
= 1
2π
− 1
2π
= 0.
Page 16
• D'un point de vue pratique, si on note désormais X une variable aléatoire de loi N(0 ; 1), alors :
P(aÂXÂb) =
a
b
1
2π
e-
t2
2
dt (principe de la densité).
Utilisation de la calculatrice
Bien évidemment, il est impossible de calculer
a
b
1
2π
e-
t2
2
dt "à la main" (je vous mets au défi de
trouver une primitive…) donc les calculs ne se feront qu'avec la calculatrice.
Cherchons par exemple la probabilité que X soit entre 0 et 2 : P(-2ÂXÂ-1).
On appuie sur la touche "2nde
" puis "distrib" (derrière la touche "var").
Cet écran apparait :
On choisit la commande 2 : normalFRép(
Ce nouvel écran apparait :
lower désignera toujours la borne du bas (-2 dans cet exemple).
upper désignera toujours la borne du haut (-1 dans cet exemple).
µ désigne le paramètre µ (la moyenne) donc 0 pour X dans cet exemple.
σ désgne le paramètre σ (l'écart-type) donc 1 pour X dans cet exemple.
Page 17
On remplit donc en conséquence de la probabilité cherchée, ici toujours P(2ÂXÂ-1) :
On clique sur "paste" pour "coller" la demande sous cette forme :
On valide :
Et ainsi, pour X suivant N(0 ; 1), on a : P(-2ÂXÂ-1) � 0,1359.
Dans ce qui suit, cette manipulation sera notée, comme elle apparait finalement à l'écran, sous la
forme normalFRép(-2,-1,0,1).
Pour une probabilité non pas d'un intervalle mais seulement d'une inégalité, on utilise le fait que les
valeurs extrêmes sont négligeables.
Par exemple on assimile P(XÃ1,5) à P( )1,5ÂXÂ109 puisque au-delà de 109 les valeurs sont
devenues négligeables. Ainsi on tape P(XÃ1,5) = normalFRép(1.5,109,0,1) � 0,00908.
De même P(XÂ0,5) = normalFRép(-109,1.5,0,1) � 0,69146.
Page 18
Bilan
On dit qu’une variable aléatoire suit une loi normale de paramètres N(0 ; 1) si sa densité est la
fonction f définie sur � par f( t) = 1
2π
e-
t2
2
.
La loi normale centrée réduite N(0 ; 1) correspond à des distributions de fréquences (donc de
probabilités) symétriques par rapport à leur moyenne nulle et d’écart type 1.
D’autre part si une variable aléatoire X suit une loi binomiale de paramètres (n ; p) et donc
d’espérance µ = np et d’écart-type σ = np(1−p) , on pose Y = X−µσ
.
Alors E(Y) = E(X)−µ
σ = 0 et σ(Y) =
1
σ σ = 1.
On peut démontrer (théorème de Moivre – Laplace) que pour les grandes valeurs de n (c'est-à-dire
si n tend vers +õ) Y suit une loi normale centrée réduite.
Exemple
Une usine fabrique des caisses de 20000 composants électroniques.
La probabilité qu’un composant soit défectueux est estimée à 0,08.
On note X le nombre de composants défectueux dans la caisse.
On cherche une estimation de P(XÂ1500).
On suppose le nombre de composants dans la caisse suffisamment grand pour que le fait qu'ils
soient ou non défectueux soit des événements indépendants.
Dans ces conditions, X suit une loi binomiale de paramètres n = 20000 et p = 0,08.
E(X) = np = 1600 et σ(X) = np(1−p) = 1472 .
n étant suffisamment grand, d’après le théorème de Moivre-Laplace, la variable Y = X−1600
1472
suit une loi proche de N(0 ; 1).
Ainsi : P(XÂ1500) = P(X−1600Â-100) = P
YÂ-
100
1472
� P(YÂ-2,60643) � normalFRep(-109,-2.60643,0,1) � 0,00457.
Concrètement cela signifie qu'il y a 0,457% de risque qu'il y ait moins de 1500 composants
défectueux parmi les 20000 de la caisse.
Page 19
Utilisation de la symétrie
La courbe (de Gauss) de la densité de la loi normale est symétrique par rapport à l’axe des
ordonnées (par rapport à 0).
Or par principe, les probabilités sont des aires sous la courbe de la densité :
Mais la symétrie impose que les aires sont les mêmes avant 0 et après 0.
Et comme l'aire totale vaut 1 on en déduit que :
On peut d'ailleurs généraliser ce constat à n'importe quelle valeur autre que 0 :
Ainsi :
Si X suit la loi N(0 ; 1), alors :
pour tout reél a, on a P(XÃa) = P(XÂ-a)
en particulier P(XÃ0) = P(XÂ0) = 0,5
Page 20
Par exemple, on constate à la calculatrice que :
P(-1,5ÂXÂ1,5) = NormalFRep(-1,5;1,5;0;1) � 0,866.
Par symétrie on en déduit que P(0ÂXÂ1,5) représente la moitié de la probabilité précédente :
Et donc P(0ÂXÂ1,5) = 0,866
2 = 0,433.
Mais alors P(XÂ1,5) peut être vu comme la somme de P(XÂ0) et de P(0ÂXÂ1,5) :
Ainsi, P(XÂ1,5) = P(XÂ0) + P(0ÂXÂ1,5) = 0,5+0,433 = 0,933.
Page 21
Enfin, (X>1,5) est l'événement contraire de (XÂ1,5) :
Donc P(X>1,5) = 1−P(XÂ1,5) = 1−0,933 = 0,067.
b) Inversion de la loi normale centrée réduite
Jusqu'à présent, nous avons vu comment calculer des probabilités d'événements de type P(XÂb)
ou P(XÃa) ou P(aÂXÂb), soit à l'aide de la calculatrice, soit en utilisant la symétrie de la
distribution normale.
On est parfois amenés à chercher non pas la probabilité d'un événement dont les bornes (a et b pour
l'événement (aÂXÂb)) sont connues, mais l'inverse.
En particulier on a souvent besoin, en pratique, de chercher la borne, la "frontière" t, telle que
P(XÂt) = p, le nombre p étant connu. Concrètement on cherche donc où il faut placer la frontière t
pour qu'une proportion p de la population soit inférieure à cette valeur t.
Par exemple, si X est la température en °C d'un jour de janvier et que X suit N(0 ; 1), chercher t tel
que P(XÂt) = 0,8 revient à chercher la température telle que 80% des jours de janviers lui soient
"davantage froids".
Pour ce genre d'opération on utilise la commande "FracNormale" :
On appuie sur la touche "2nde
" puis "distrib" (derrière la touche "var").
Cet écran apparait :
Page 22
On choisit la commande FracNormale(
Ce nouvel écran apparait :
area désigne la probabilité p connue (l'aire p sous la courbe avant l'abscisse t)
µ désigne le paramètre µ (la moyenne) donc 0 pour X dans cet exemple.
σ désigne le paramètre σ (l'écart-type) donc 1 pour X dans cet exemple.
On remplit donc avec la probabilité connue, ici 0,8 afin de chercher t tel que P(XÂt) = 0,8 :
On clique sur "paste" pour "coller" la demande sous cette forme :
On valide :
Page 23
Et ainsi, pour X suivant N(0 ; 1), on a : P(XÂ0,8416212335) = 0,8.
Dans notre exemple cela signifie qu'en janvier, 80% des journées enregistrent une température
inférieure à 0,84°C environ.
Dans ce qui suit, cette manipulation sera notée, comme elle apparait finalement à l'écran, sous la
forme FracNormale(0.8,0,1).
Ainsi :
Si X suit N(0 ; 1), alors
P(XÂt) = p ñ t = FracNormale(p,0,1)
Exemple
Soit X une variable aléatoire suivant N(0 ; 1).
Déterminer le réel t tel que P(X>t) = 0,05, et calculer la probabilité P(-tÂXÂt).
Premièrement, il faut se ramener à un événement du type (XÂt) pour pouvoir utiliser la
calculatrice.
L'événement (X> t) est le contraire de (XÂ t); on en déduit que P(XÂt) = 1−0,05 = 0,95.
Donc t = FracNormale(0.95,0,1) � 1,645.
Donc P(XÂ1,645) = 0,95 et ainsi P(X>1,645) = 0,05.
Page 24
Par symétrie on en déduit que P(X<-1,645) = 0,05.
Et donc P(-1,645ÂXÂ1,645) = 1−0,05−0,05 = 0,9
Si on cherche une interprétation avec les températures de janvier, on vient de déterminer que :
• 5% des jours de janvier, la température est supérieure à 1,6°C
• 5% des jours de janvier, la température est inférieure à -1,6°C
• 90% des jours de janvier, la température est entre -1,6°C et 1,6°C.
c) Calcul de seuil
Pour comprendre ce que l'on va appeler seuil, il faut déjà voir dans quel contexte, dans quel type de
problème, une réponse doit être apportée.
Reprenons l'exemple du paragraphe 2a.
Une usine fabrique des caisses de 20000 composants électroniques.
La probabilité qu’un composant soit défectueux est estimée à 0,08.
On note X le nombre de composants défectueux dans la caisse : X suit une loi binomiale de
paramètres n = 20000 et p = 0,08.
On a déjà montré à l'aide du théorème de Moivre-Laplace que P(XÂ1500) � 0,00457.
Le patron de l’usine qui fabrique les composants électroniques veut pouvoir annoncer à ses clients
une information fiable à au moins 95% sur le fait que la contenance de ses caisses s’éloigne le
moins possible de la moyenne de composants défectueux.
Il cherche donc m > 0 tel que P(1600−m<X<1600+m) Ã 0,95.
Page 25
Théorème du seuil
Soit X une variable aléatoire qui suit la loi normale centrée réduite N(0 ; 1).
Pour tout réel α ☻ ]0 ; 1[, il existe un unique nombre réel uα > 0 tel que P(-uαÂXÂuα) = 1−α .
f(t) = 1
2π
e-
t2
2
étant paire, P(-xÂXÂx) = - x
x f(t)dt = 2
0
x f(t)dt .
Posons F(x) =
0
x f(t)dt , où x ☻ [0 ; +õ[.
F est la primitive de f sur [0 ; +õ[ qui s’annule en 0.
Donc F ′(x) = f(x) > 0 et F est croissante sur [0 ; +õ[.
F est continue car dérivable sur [0 ; +õ[.
De plus, lim x−>+õ
F(x) = 1
2 car f est une densité de probabilité.
Soit α tel que 0 < α < 1.
Alors -1 < -α < 0, donc 0 < 1−α < 1 et 0 < 1−α
2 <
1
2 .
D’après le corollaire du théorème des valeurs intermédiaires, il existe un
unique réel uα ☻ ]0 ; +õ[ tel que F(uα) = 1−α
2 ñ P(-uαÂXÂuα) = 1−α .
Exemple
Cherchons le seuil correspondant à α = 0,05 c'est-à-dire l’intervalle I = [–u0,05 ; u0,05] tel que la
probabilité qu’une variable aléatoire X de loi N(0 ; 1) y soit située est 0,95.
On cherche donc u0,05 tel que P(-u0,05ÂXÂu0,05) = 1−0,05 = 0,95.
Or par symétrie, P(-u0,05ÂXÂu0,05) = 2P( )0ÂXÂu0,05 donc P( )0ÂXÂu0,05 = 0,95
2 = 0,475.
Ainsi, P( XÂu0,05) = P(XÂ0)+P( )0ÂXÂu0,05 = 0,5+0,475 = 0,975.
Donc u0,05 = FracNormale(0.975,0,1) � 1,96.
Si X suit la loi N(0 ; 1), alors 95% de ses valeurs sont dans l’intervalle [-1,96 ; 1,96].
Le seuil est la valeur α correspondant aux extrêmes (α est l'aire totale en bleu sur le
schéma ci-dessus). Plus α est petit, plus l'aire orange augmente, plus l'intervalle
s'ouvre et plus uα est grand.
Page 26
Résolution du problème
Le patron cherche m > 0 tel que P(1600−m<X<1600+m) � 0,95.
On avait vu que la variable Y = X−1600
1472
suit une loi proche de N(0 ; 1) (d'après le théorème de
Moivre-Laplace).
Donc P(1600−m<X<1600+m) � 0,95
ñ P(-mÂX−1600Âm) � 0,95
ñ P
-
m
1472
ÂYÂ m
1472
� 1−0,05.
Ainsi m
1472
= u0,05 et donc m = 1472 ×u0,05 � 1472 ×1,96 � 75.
Finalement P(1525ÂXÂ1675) � 0,95.
Le patron de l'usine peut donc annoncer que ses caisses contiennent entre 1525 et 1675 composants
défectueux : il sait qu'il a 95% de chances d'avoir raison.
Comme on le comprend, la question du seuil est donc celle de la maîtrise de la fiabilité d'une
information.
Si le seuil α est la "marge d'erreur" d'une information, c’est-à-dire la probabilité qu'elle a d'être
inexacte, alors 1−α est la probabilité qu'elle a d'être vraie.
Chercher uα consiste donc à chercher la précision de l'information (l'intervalle [-uα ; uα])
compatible avec ce degré de fiabilité (ou ce seuil d'erreur).
Et donc plus on veut une information fiable (risque α d'erreur faible) plus l'intervalle est grand et
donc moins l'information est précise (dire que X est entre -2 et 2 est moins précis que de dire qu'elle
est entre -1 et 1).
Les deux exigences de précision et de fiabilité d'une information sont donc des propriétés qui
s'excluent l'une l'autre…
De façon générale si on cherche le seuil correspondant à un réel α > 0 quelconque, on doit donc
chercher uα tel que :
P(-uαÂXÂuα) = 1−α
ñ P( )0ÂXÂuα = 1−α
2
ñ P(XÂuα) = P(XÂ0)+P( )0ÂXÂuα = 1
2 +
1−α2
= 1− α2
ñ uα = FracNormale(1− α2
,0,1).
uα = FracNormale(1− α2
,0,1)
Page 27
On avait déjà calculé u0,05 � 1,96.
Normalement, u0,01 doit être plus grand, puisque α = 0,01 est plus petit que 0,05 (information plus
fiable, donc moins précise).
Et en effet au seuil de 1% on trouve u0,01 = FracNormale(0.995,0,1) � 2,58.
u0,05 � 1,96 et u0,01 � 2,58.
d) Loi normale NNNN(µ ; σ 2)
Toutes les distributions statistiques n'ont pas une moyenne nulle et un écart-type égal à 1 (toutes les
températures étudiées ne sont pas celles d'un mois de janvier).
Il est donc nécessaire de trouver une transition mathématique vers les situations les plus générales,
qui conservent les mêmes caractéristiques que la loi N(0 ; 1) : une symétrie par rapport à la
moyenne (pas nécessairement nulle, donc) où le maximum de la probabilité est atteint, et des
valeurs extrêmes négligeables.
Cette "transition" se fait par cette définition :
Soit µ un réel et σ un réel strictement positif.
On dit qu’une variable aléatoire X suit la loi normale N(µ ; σ 2) si X−µσ
suit la loi normale centrée
réduite N(0 ; 1).
Cette définition est presque moins importante que les conséquences qui suivent, et qui sont
exactement celles qu'on attendait :
Si X suit N(µ ; σ 2) on pose Y = X−µσ
.
• E(X) = µ
• σ(X) = σ
• P(Xµ) = P(Xõ) = 0,5
Page 28
Autrement dit, si une variable aléatoire X qui une loi normale de paramètres µ et σ 2, alors son
premier paramètre (µ) correspond à son espérance, son deuxième paramètre (σ 2) correspond au
carré de l'écart-type (c’est-à-dire à ce qu'on appelle la variance), et par symétrie de la distribution, la
probabilité de tomber "avant l'espérance µ" et "après l'espérance µ" est la même : 0,5.
Prenons un exemple avec une situation très concrète : l’âge d’apparition des premiers mots chez un
enfant est donné, en mois, par une variable aléatoire X.
Des études ont montré que X suit une loi normale d’espérance 11,5 et d’écart type 3.
Cela signifie donc que l'âge moyen des premiers mots est de 11 mois et demi et qu'en moyenne les
enfants prononcent ce premier mot à un écart d'environ 3 mois par rapport à cette moyenne.
Les notations sont donc : X suit la loi N(11.5 ; 32).
Tous les calculs se font à la calculatrice, comme pour la loi normale centrée réduite; on adapte
simplement les paramètres.
• Calculer la probabilité qu’un enfant prononce ses premiers mots entre 8 et 10 mois.
On cherche P(8ÂXÂ10) donc on appuie sur la touche "2nde
" puis "distrib"
Page 29
On choisit la commande 2 : normalFRép(
µ désigne le paramètre µ (la moyenne) donc 11.5 pour X dans cet exemple.
σ désigne le paramètre σ (l'écart-type) donc 3 pour X dans cet exemple.
On remplit donc en conséquence de la probabilité cherchée, ici P(8ÂXÂ10) :
On clique sur "paste" pour "coller" la demande sous cette forme :
Page 30
On valide :
Et ainsi, pour X suivant N(11.5 ; 32), on a : P(8ÂXÂ10) � 0,187.
On note cette commande normalFRép(8,10,11.5,3).
Et 18,7% des enfants prononcent leur premier mot entre 8 mois et 10 mois.
• Calculer la probabilité qu’un enfant prononce ses premiers mots avant 7 mois.
P(XÂ7) = P(0ÂXÂ7) = normalFRép(0,7,11.5,3) � 0,067
Et 6,67% des enfants prononcent leur premier mot avant 7 mois.
• Calculer la probabilité qu’un enfant prononce ses premiers mots après 14 mois.
P(XÃ14) = normalFRép(14,109,11.5,3) � 0,202.
Et 20,2% des enfants prononcent leur premier mot après 14 mois.
• Afin de rassurer les parents impatients, déterminer l'âge t avant lequel 90% des enfants
prononcent leur premier mot.
On cherche donc t tel que P(XÂt) = 0,9.
Là aussi on utilise la commande FracNormale en l'adaptant aux nouveaux paramètres :
t = FracNormale(0.9,11.5,3) � 15,3
Donc 90% des enfants prononcent leur premier mot avant 15 mois et 10 jours.
Page 31
Retour aux problèmes de seuils
Comme on vient de le vois dans l'exemple de l'âge des premiers mots, même dans le cas d'une loi
normale quelconque N(µ ; σ 2), on peut toujours utiliser la fonction "FracNormale" pour déterminer
un rang t telle que la probabilité P(XÂt) est connue à l'avance et vaut p.
Les problèmes de seuils consistaient à trouver deux bornes –uα et uα symétriques par rapport à 0 (il
suffisait donc de trouver uα) telles que, pour X suivant N(0;1) on avait P( )-uαÂXÂuα = 1−α .
On est souvent ramenés à des situations comparables, avec une loi normale d'espérance µ, mais
alors l'encadrement cherché n'est plus de type –u ÂXÂu centré sur 0, mais plutôt centré sur la
nouvelle espérance µ donc de type : µ−uÂXµ+u .
Toutefois, contrairement au inégalités simples (P(XÂt) = p) la situation du seuil présentant deux
bornes, elle est plus contraignante à manipuler et nécessite de repasser par une variable aléatoire
suivant N(0;1). Ca tombe bien, puisque si X suit N(µ ; σ 2), on sait par définition qui suit N(0;1) : il
faut alors nommer Y = X−µσ
.
Poursuivons l'exemple des premiers mots chez un enfant.
Les parents voulant encore davantage se rassurer sur quelque chose qui pourrait être considéré
comme une situation "normale", on cherche un intervalle I centré sur la moyenne qui permette
d’affirmer que 80% des enfants y prononcent leurs premiers mots.
On cherche donc un réel u > 0 tel que P(11,5−uÂXÂ11,5+u) = 0,8.
Posons alors Y = X−11,5
3 .
Puisque X suit la loi N(11.5 ; 32), alors Y suit la loi N(0;1).
Ainsi on a :
P(11,5−uÂXÂ11,5+u) = 0,8
ñ P(-uÂX−11,5Âu) = 0,8
ñ P
-
u
3 Â
X−11,5
3 Â
u
3 = 0,8
ñ P
-
u
3 ÂYÂ
u
3 = 1−0,2
ñ u
3 = u0,2 = FracNormale(1−
0,2
2 ; 0 ; 1) = FracNormale(0,9 ; 0 ; 1) � 1,28
ñ u = 3u0,2 � 3,84.
Ainsi on a : P(11,5−3,84ÂXÂ11,5+3,84) = 0,8, et donc P(7,66ÂXÂ15,34) = 0,8.
On peut donc affirmer aux parents qu'en prenant aussi bien en compte les enfants légèrement en
avance par rapport à l'âge moyen (de 3,84 mois) ou légèrement en retard (idem), 80% d'entre eux
prononcent leur premier mot entre 7,66 mois (7 mois et 20 jours) et 15,34 mois (15 mis et 10 jours).
Page 32
Trois probabilités particulières
La méthode liée au seuil permet, on vient de le voir, de trouver des intervalles centrées sur
l'espérance, sur la valeur moyenne, dont la probabilité est connue à l'avance.
Inversement, il existe trois grands types d'intervalles, eux-mêmes centrés sur la moyenne,
d'amplitudes plus ou moins grandes, dont les probabilités sont fixes.
C'est exactement ce que nous dit le résultat suivant :
Si X suit une loi normale N(µ ; σ 2) alors :
• P( )X☻[µ−σ;µ+σ] = P(µ−σÂXµ+σ) � 0,683
• P( )X☻[µ−2σ;µ+2σ] = P(µ−2σÂXµ+2σ) � 0,954
• P( )X☻[µ−3σ;µ+3σ] = P(µ−3σÂXµ+3σ) � 0,997
Ainsi, pour une loi normale, 68,3% des valeurs sont à une distance de l'espérance inférieure à σ.
De même 95,4% des valeurs sont à une distance de l’espérance inférieure à 2σ et 99,7% le sont à
une distance inférieure à 3σ.
Page 33
Ces propriétés sont simples à démontrer.
En effet si X suit la loi N(µ ; σ 2), on pose Y = X−µσ
qui suit alors la loi N(0;1).
Ainsi :
• P(µ−σÂXµ+σ) = P(-σÂX−µÂσ) = P(-1ÂYÂ1) = NormalFRép(-1;1;0;1) � 0,683.
• P(µ−2σÂXµ+2σ) = P(-2ÂYÂ2) = NormalFRép(-2;2;0;1) � 0,954.
• P(µ−3σÂXµ+3σ) = P(-3ÂYÂ3) = NormalFRép(-3;3;0;1) � 0,997.
On revient encore une fois à l'âge X des premiers mots d'un enfant.
D'après le résultat précédent :
• P(8,5ÂXÂ14,5) = 0,683 autrement dit 68,3% des enfants prononcent leur premier mot entre 8
mois et demie et 14 mois et demie ;
• P(5,5ÂXÂ17,5) = 0,954 autrement dit 95,4% des enfants prononcent leur premier mot entre 5
mois et demie et 17 mois et demie ;
• P(2,5ÂXÂ20,5) = 0,997 autrement dit 99,7% des enfants prononcent leur premier mot entre 2
mois et demie et 20 mois et demie.
Quand on reconnait une probabilité d'une inégalité de type µ plus ou moins σ ou 2σ ou 3σ, il n'est
donc plus nécessaire de faire le calcul : ces trois cas particuliers doivent être connus par cœur.
Page 34
3) Echantillonnage et estimation
On va considérer la situation suivante : dans une urne sont disposées des boules noires et des boules
rouges. La proportion de boules rouges (autrement dit la probabilité d’en tirer une au hasard) est
égale à p ☻ ]0 ; 1[.
Remarques préliminaires
• Si Xn est une variable aléatoire suivant la loi binomiale B(n ; p) de paramètres n et p, alors Xn est
le nombre de succès (chacun de probabilité p) parmi les n tentatives, et donc Xn
n correspond à la
fréquence des succès parmi les n tentatives.
Par exemple si on tire avec remise 100 fois de suite une des boules, on peut définir X100 comme
le nombre de boules rouges tirées parmi les 100 tentatives.
Dans ces conditions, X100 suit la loi B(100 ; p) et si par exemple on a tiré 19 boules rouges, alors
X100
100 =
19
100 = 0,19 est bien la fréquence observée des boules rouges.
• Imaginons qu’on connaisse la proportion p de boules rouges. On effectue des séries de n tirages
et on note les fréquences d’apparition d’une boule rouge lors de chacune des séries. Cette
fréquence observée va « en général » être située dans un intervalle dit « de fluctuation » de
centre p dont l’amplitude diminue quand n augmente. On parle d’échantillonnage.
Par exemple, s'il y a 4% de boules rouges, alors p = 0,04 et on s’attend, dans une série de tirages,
à trouver une fréquence de boules rouges entre 0,03 et 0,05 ou entre 0,35 et 0,045, ou encore
dans un intervalle du type [0,037 ; 0,043].
De même si on ne connait pas la valeur de p, mais que l’on fait une hypothèse sur celle-ci, on fait
donc un « pari » sur cette valeur fictive de p, hypothèse que l’on teste grâce aux mesures de
fréquences et à l’intervalle de fluctuation.
Si par exemple on fait l’hypothèse que la proportion de boules rouges est p = 0,15 et qu’un calcul
(on verra plus tard lequel) nous conduit au constat que dans le cas de 200 lancers, la probabilité
que la fréquence observée soit entre 0,1 et 0,2, est égale à 80%, il y a deux possibilités :
soit la fréquence observée effectivement est entre 0,1 et 0,2 et on accepte l’hypothèse que
« p = 0,15 » au seuil de 20% d’erreur (c'est le fameux "seuil" 0,2 tel que 0,8 = 1−0,2) ;
soit la fréquence observée n’est pas entre 0,1 et 0,2 et on rejette l’hypothèse « p = 0,15 »
au seuil de 20% d’erreur.
Concrètement cela veut dire que dans un cas (on accepte) comme dans l'autre (on rejette) on a
une probabilité de prendre la mauvaise décision qui est égale à 0,2.
Ainsi si on effectue 200 lancers et qu’on tire 22 boules rouges, alors la fréquence observée est
F200 = 22
200 = 0,11 ☻ [0,1;0,2] donc on accepte l’hypothèse « p = 0,15 », mais si par contre on
tire 41 boules rouges, alors F200 = 41
200 = 0,205 � [0,1;0,2] et cette fois-ci on rejette l’hypothèse
« p = 0,15 », au seuil de 20% d’erreur.
Page 35
• Imaginons maintenant qu’on ne connaisse pas la proportion p, mais que l’on souhaite estimer sa
valeur par rapport aux fréquences observées. Il est naturel de situer p dans un intervalle centré
sur la fréquence observée, de dimension « vraisemblable ».
On réalise donc des tirages afin d’estimer cette proportion en la situant dans des intervalles dits
« de confiance » qui sont d’autant plus étroits que le nombre n de boules tirées est grand (plus on
réalise une expérience, plus ses conclusions sont fiables), et d’autant plus larges que le niveau de
confiance est élevé (c’est-à-dire avec une forte probabilité). Là aussi il faut comprendre que la
précision d'une information exclut que cette information soit très fiable. Imaginons les situations
extrêmes. Si l'information est " p = 0,17 ", c'est tellement précis que ça a peu de chance d'être
vrai. Si ça se trouve p vaut 0,172 … A l'inverse si l'information c'est " p ☻ ]0;1[" alors
l'information est 100% fiable (c'est évident que p est entre 0 et 1) mais n'a aucune précision
(précisément puisqu'elle est évidente).
On parle alors d’estimation.
Par exemple si on a tiré 400 boules dont 80 rouges, F400 = 80
400 = 0,2 donc il est vraisemblable
que p appartienne à un intervalle de type [0,1 ; 0,3] ou [0,15 ; 0,25] ou [0,17 ; 0,23] etc.
L’intervalle sera plus étroit pour un nombre de boules tiré est grand et plus large avec un niveau
de confiance plus élevé.
a) Echantillonnage, intervalle de fluctuation asymptotique (p connu ou
hypothèse faite sur la valeur de p)
Théorème et définition
Soit Xn une variable aléatoire de loi B(n ; p) et un réel α ☻ ]0 ; 1[.
On note In l’intervalle [ p−uα p(1−p)
n
; p+uα p(1−p)
n
].
Alors lim n−>+õ
P
Xn
n ☻In = 1−α .
L’intervalle In contient la fréquence Xn
n avec une probabilité qui se rapproche de 1−α lorsque n
augmente. On dit que In est un intervalle de fluctuation asymptotique de Xn
n au seuil 1−α , ou au
seuil d’erreur α.
Démontrons ça :
Posons Zn = Xn−np
np(1−p)
. D’après le théorème de Moivre-Laplace,
lim n−>+õ
P(-uαÂZnÂuα) = P(-uαÂZÂuα) où Z suit N(0 ; 1).
Donc lim n−>+õ
P(-uαÂZnÂuα) = 1−α .
Or P(-uαÂZnÂuα) = P(np−uα np(1−p)  Xn  np+uα np(1−p) )
= P(p−uα p(1−p)
n
 Xn
n Âp+uα
p(1−p)
n
).
Page 36
Exemple
Dans l’urne il y a une proportion p = 0,4 de boules rouges.
On tire 50 boules avec remise (donc n = 50) et on souhaite déterminer un intervalle de fluctuation
au seuil 0,9 (donc α = 0,1). On calcule u0,1 = FracNormale(0.95 , 0 , 1) � 1,645.
I50 = [ 0,4−1,645 0,4×0,6
50
; 0,4−1,645 0,4×0,6
50
] = [ 0,286 ; 0,514].
Ainsi avec 50 tirages la fréquence d’apparition de la boule rouge est entre 28,6% et 51,4% avec une
probabilité de 90%.
Pour 500 tirages on trouve :
I500 = [ 0,4−1,645 0,4×0,6
500
; 0,4+1,645 0,4×0,6
500
] = [ 0,364 ; 0,436].
L'intervalle s'est resserré car le nombre de tirages est plus élevé, comme prévu.
Pour 500 tirages mais au seuil de 95% on prend donc α = 0,05 et u0,05 = 1,96.
Normalement, l'intervalle doit s'élargir puisque l'information est davantage fiable qu'à 90% de
fiabilité, et en effet :
I500 = [ 0,4−1,96 0,4×0,6
500
; 0,4+1,96 0,4×0,6
500
] = [ 0,357 ; 0,443].
Remarques
• L’intervalle de fluctuation asymptotique au seuil de 95% pour la fréquence Xn
n d’une
variable aléatoire Xn de loi B(n ; p) est donc de façon générale :
In = [ p−1.96× p(1−p)
n
; p+1.96× p(1−p)
n
]
• Les conditions (à vérifier systématiquement !) pour lesquelles 1−α est une bonne valeur
approchée de P
Xn
n ☻In sont les suivantes : n à 30 ; np à 5 et n(1−p) à 5.
• On arrondit toujours la borne de gauche par défaut (on arrondit en-dessous de la valeur
lue) et la borne de gauche par excès (on arrondit au-dessus); en effet le but étant que
l'intervalle fournit contienne la fréquence observée Xn
n avec la probabilité demandée, il
faut le prendre, en arrondissant, au moins aussi grand que ce que fournissent les valeurs
exactes des bornes. Donc les approximations des bornes doivent l'agrandir et non le
rétrécir.
Page 37
Exemple
Un casino règle les machines à sous avec une probabilité de gain annoncée : g = 0,06.
Des contrôleurs se succèdent et veulent examiner l’hypothèse g = 0,06 au seuil de 95%.
• Un premier contrôleur a joué 50 fois et gagné 2 fois : n = 50Ã 30 et p = 0,06.
np = 1,8 < 5 donc son estimation ne sera pas probante.
• Un second contrôleur a joué 120 fois et gagné 14 fois : n = 120 Ã 30 et p = 0,06
np = 7,2 Ã 5 et n(1−p) = 112,8 Ã 5 donc on est dans les conditions optimales.
I120 = [ 0,06−1,96 0,06×0,94
120
; 0,06+1,96 0,06×0,94
120
] = [ 0,017 ; 0,103].
La fréquence observée est 14
120 � 0,117 � I120 donc il rejette l’hypothèse que g = 0,06 au
seuil de 95%.
Concrètement, il a "trop gagné" pour que l'hypothèse que g = 0,06 soit vraisemblable !
• Un troisième joue 400 fois et gagne 30 fois (n étant encore plus grand, les conditions
restent optimales).
I400 = [ 0,06−1,96 0,06 ×0,94
400
; 0,06+1,96 0,06 ×0,94
400
] = [ 0,036 ; 0,084].
La fréquence observée est 30
400 � 0,075 ☻ I400. Il accepte donc l’hypothèse que g = 0,06 au
seuil de 95%.