s2 - stat2var - cours - rev 2020 · iv-1 paramètres des séries à deux variables 12 iv-2 méthode...
TRANSCRIPT
____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – Cours – Rev2020 – page 1 sur 19
Département TECHNIQUES DE COMMERCIALISATION
MATHEMATIQUES
Semestre 2
________ Statistiques à deux variables ________
COURS
Cours en ligne : sur http://jff-dut-tc.weebly.com section DUT Maths S2.
____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – Cours – Rev2020 – page 2 sur 19
SOMMAIRE
COURS 3
I Introduction, vocabulaire 3
I-1 Objectifs 3
I-2 Mises en forme 3
I-3 Nuage de points 4
II Test d’indépendance du Khi-deux 5
II-1 Le cas particulier du test d’indépendance 5
II-2 Méthodologie du test 5
II-3 Autour du test d’indépendance dans un tableau 2x2 6
II-4 Précisions sur la loi du Khi-deux 9
III Ajustement : méthode de Mayer et moyennes mobiles 10
III-1 Moyennes mobiles 10
III-2 Problématique de l'ajustement linéaire 11
III-3 Méthode de Mayer 11
IV Ajustement linéaire : méthode des moindres carrés 12
IV-1 Paramètres des séries à deux variables 12
IV-2 Méthode des moindres carrés 13
IV-3 Coefficient de corrélation linéaire 14
V Ajustement non linéaire : le changement de variable 17
VI Statistiques prévisionnelles 18
VI-1 Estimation ponctuelle 18
VI-2 Estimation par intervalle de confiance 18
Formulaire p.19
____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – Cours – Rev2020 – page 3 sur 19
COURS
1 Introduction, vocabulaire
1.1 Objectifs Deux caractères seront ici étudiés simultanément sur chaque individu d'une population de taille n.
Les deux listes de valeurs des caractères forment deux variables X et Y.
Objectifs :
* mettre en évidence un lien, une relation, entre ces deux caractères : une corrélation ;
modéliser cette corrélation par une fonction mathématique : régression ;
utiliser cette relation à des fins prévisionnelles, confiance en cette prévision.
* tester l'hypothèse qu'il n'y a pas de lien entre ces deux variables croisées
Si un lien de cause à effet est à étudier, X représentera la cause et sera appelée variable explicative,
et Y représentera l’effet et sera appelée variable expliquée.
1.2 Mises en forme Une observation (n° i) se décrira comme un couple de valeurs (xi ; yi).
Deux mises en forme des résultats peuvent être employées, suivant l'étude menée :
* séries de valeurs données en listes
exemple : lien entre quantité d'engrais épandu et production récoltée quantité d'engrais production recueillie
parcelle n° X (kg.ha-1) Y (q.ha-1)
1 150 46
2 80 37
3 120 46
4 220 51
5 100 43
exemple de série chronologique : évolution annuelle des dépenses publicitaires d’une entreprise
X : année 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017
Y : dépense 41 60 55 66 87 61 90 95 82 120 125 118
* séries + effectifs : tableaux de contingence
exemple : lien entre âge et acuité visuelle (mesures prises sur 200 personnes)
X : âge
20 40 50 60
Y :
acuité
3/10 1 5 10 20
6/10 8 12 25 18
9/10 55 26 14 6
____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – Cours – Rev2020 – page 4 sur 19
1.3 Nuage de points Chaque série statistique à deux variables peut être représentée graphiquement par un nuage de points,
chaque variable étant représentée sur son axe.
* séries en listes : un couple (xi ; yi) correspond à un individu et se représente par un point du plan.
exemple n°2 page précédente :
* séries avec contingence : un couple (xi ; yi) correspond en général à plus d’un individu et se représente
par un objet dont la taille est fonction croissante de l’effectif correspondant.
exemple n°3 page précédente :
2006)
____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – Cours – Rev2020 – page 5 sur 19
2 Test d’indépendance du Khi-deux Un test statistique consiste à décider si une hypothèse, faite sur la population à partir des résultats obtenus
sur un échantillon, peut ou ne peut pas être rejetée. Cette hypothèse est nommée "hypothèse nulle", H0.
Si la décision conduit à un rejet de H0, cela se fait avec un certain risque de se tromper, risque dont la
probabilité est nommée "seuil de risque" et notée α. (On parle aussi de p-valeur d’un test).
2.1 Le cas particulier du test d'indépendance
Une étude croise deux variables quantitatives ou qualitatives (exemple du prochain TD : sexe et relation
au tabac), variables dont l'interdépendance au sein d'une population doit être estimée, à partir de la seule
distribution d'effectifs obtenue auprès d'un échantillon de répondants.
Dans le cas de l'indépendance (H0), les réponses théoriques sont supposées être distribuées en
conservant les sous-totaux trouvés dans l'échantillon (ex : un certain nombre d'hommes et un certain
nombre de femmes ont été interrogés, éventuellement des nombres différents) et proportionnellement à
ces sous-totaux.
Il s'agit ici de calculer l'écart entre la distribution observée et cette distribution théorique, écart noté
"χ²calc" (prononcer "Khi-deux calculé"), puis de décider si cet écart est anormalement important ou non -
en fait, une population dans laquelle deux variables sont indépendantes donne généralement des
échantillons présentant un léger écart (du fait de la nature aléatoire de la sélection de l'échantillon), mais
rarement un écart important.
2.2 Méthodologie du test n observations sont faites : n individus sont évalués sur deux variables X et Y.
On suppose que le caractère X présente l modalités différentes et que Y présente c modalités.
L'hypothèse nulle H0 est par convention : les variables sont indépendantes.
Le test compare la réalité à ce qu'aurait donné l'indépendance parfaite.
On rejette cette hypothèse lorsque les observations diffèrent trop de la distribution théorique.
1. Calcul du χ²
* tableau des observations sur n individus Y1 Y2 … Yc total X
X1 obs11 obs12 … obs1c total X1
X2 obs21 obs22 … obs2c total X2
… … … … … …
Xl obsl1 Obsl2 … Obslc total Xl
total Y total Y1 total Y2 … total Yc N
* tableau de répartition théorique dans le cas de l'indépendance
On construit un tableau sur le même modèle, où les sous-totaux et le total général sont
respectés, mais où les effectifs thij respectent les proportions des sous-totaux par rapport à n.
* calcul du χ² total entre observation et théorie : χ²calc = ( )2−
∑tableau
obs th
th
2. Zone de rejet
La variable χ² exprime l'infinité des valeurs χ² qu’il est possible d’obtenir à partir de n'importe quel
échantillon possible, sous l'hypothèse nulle. Cette variable est distribuée en probabilité, par une loi du
même nom, réglée par son nombre de degrés de liberté (ddl) : ddl = (l - 1)(c - 1)
A chaque χ² possible (dans [0 ; +∞[) correspond une probabilité "α " qu'un échantillon a de le dépasser.
On fait alors une lecture, dans la table de la loi du χ², du seuil χ²lim.
3. Comparaison et décision
Si χ²calc (calculé entre les tableaux) > χ²lim (donné par la table de la loi), alors on peut rejeter
l'hypothèse nulle (l'indépendance), mais au risque α de se tromper.
____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – Cours – Rev2020 – page 6 sur 19
2.3 Autour du test d’indépendance dans un tableau 2x2
(d’après : ENFA - Bulletin du GRES n°9 – février 2000)
Voyons les outils dont nous disposons pour effectuer un test d'indépendance de deux caractères dans le cas d'un
tableau 2 x 2 (deux variables qualitatives comportant chacune deux modalités – par exemple : masculin/féminin
pour l’une et fumeurs/non fumeurs pour l’autre).
Prenons l'exemple dû à YATES (1934) et cité dans [M.G. KENDALL et A. STUART The advanced theory of statistics Griffin
1960]. On considère un échantillon de 42 enfants, parmi lesquels 20 ont été nourris au sein et 22 au biberon. On
a observé la disposition des dents de ces enfants.
Dentition normale Dentition mal implantée Effectifs marginaux
Nourri au sein (S) 4 16 20
Nourri au biberon (B) 1 21 22
Effectifs marginaux 5 37 42
La question est de savoir si cet échantillon seul permet d’établir un lien, dans la population, entre la façon dont
un bébé est nourri et la qualité de sa dentition. Cette problématique est traitée par un test d’indépendance.
2.3.1 Test d’indépendance du Khi-deux
L'hypothèse nulle est “ il y a indépendance entre les deux caractères ” (mode de nourriture et implantation
des dents).
La méthodologie de ce test consiste d’abord à calculer la distance entre l’échantillon observé et l’échantillon
moyen qui serait issu d’une population vérifiant l’hypothèse nulle. Pour que les deux tableaux soient
comparables, il faut que les effectifs marginaux (on dit aussi les marges, donc : les sous-totaux) soient
identiques (c'est-à-dire que les nombres en gras et en italique dans le tableau sont fixés).
Le tableau d’effectifs « théoriques » (en fait : ceux de l’échantillon moyen mentionné ci-dessus) est :
Dentition normale Dentition mal implantée Effectifs marginaux
Nourri au sein (S) 2,38095238 17,6190476 20
Nourri au biberon (B) 2,61904762 19,3809524 22
Effectifs marginaux 5 37 42
Après comparaison avec l’échantillon observé, cela donne les khi-2 partiels et total suivants :
1,10095238 0,14877735
1,0008658 0,13525214
2,38584767
Cette valeur (2,386) de khi-deux calculé, pour 1 ddl, correspond à un seuil de risque supérieur à 10%.
La loi du khi-deux nous indique plus précisément que khi-deux = 2,386 correspond à une p-valeur de 12,24%
(autrement dit : dans une population où nos deux variables sont indépendantes, il y a 12,24% de chances qu’un
échantillon possédant les mêmes sous-totaux soit aussi différent ou plus différent de l’échantillon moyen).
Mais ici cela poserait un problème, car les effectifs théoriques sont “ trop petits ”, au sens où, d'après les
manuels, le test du Khi-2 n’est applicable que si les effectifs théoriques sont tous supérieurs ou égaux à 5 (au
passage, on peut se poser la question : pourquoi 5 ?).
Ce résultat de 12,24% est issu de la loi du Khi-deux, loi continue, qui n’est qu’une approximation de la réalité
qui est ici discrète (par exemple, l’effectif « nourri au sein/dentition normale » ne peut valoir que 0, 1, 2, 3, 4
ou 5, ce qui est une situation « trop discrète » pour pouvoir être efficacement suivie « de près » par une loi
continue).
La section 2.3.2 ci-dessous résout le problème.
____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – Cours – Rev2020 – page 7 sur 19
2.3.2 L’approche exacte : le test exact de Fisher
[R. A. FISHER Les méthodes expérimentales PUF 1947]
Si les effectifs marginaux sont fixés, alors les différents tableaux possibles sont au nombre de six :
0 20 1 19 2 18 3 17 4 16 5 15
5 17 4 18 3 19 2 20 1 21 0 22
La question qui se pose alors est de calculer, sous l’hypothèse d’indépendance des deux caractères, la
probabilité d’apparition de chacun des tableaux. Remarquons que, du fait que les effectifs marginaux sont
fixés, pour remplir un tableau, il suffit de connaître le nombre situé en première ligne première colonne.
On peut interpréter l’hypothèse d’indépendance de la façon suivante : parmi les 42 enfants, 20 sont nourris
au sein et 22 au biberon. Si le mode de nourriture n’a pas d’influence sur la dentition, alors les 5 enfants dont
la dentition est normale sont répartis selon les proportions des deux modes d’alimentation.
Choisissons au hasard 20 bébés parmi 42 et appelons « succès » l’événement « dentition normale ». Le nombre
de succès est décrit par la loi hypergéométrique H(42, 5, 20).
La probabilité qu’il y ait k succès (k compris entre 0 et 5) est 20
5 37
20
42
C C
C
k k−×.
Si on fait le calcul pour chacune de ces 6 valeurs, on obtient :
En résumé :
Valeur première ligne première colonne 0 1 2 3 4 5
Probabilité 0,0310 0,1719 0,3440 0,3096 0,1253 0,0182
Reprenons le tableau de données de l'échantillon considéré. Si l'hypothèse nulle est vraie, alors la probabilité
d'obtenir un tel tableau (k = 4) ou un tableau plus éloigné d’un tableau de proportionnalité (k = 5) est 0,1435.
On ne peut donc rejeter l’hypothèse nulle qu’à un seuil de risque supérieur ou égal à 14,35% (à comparer aux
12,24% donnés par la loi du Khi-deux), ce qui est trop élevé par rapport aux seuils de risque
conventionnellement utilisés (en général : 5% maximum).
Pour être plus complet, on peut dire que pour un risque de 5%, on a la règle de décision suivante :
Valeur première ligne
première colonne 0 1, 2, 3, 4 5
Décision rejet de l'hypothèse non rejet de
l'hypothèse
rejet de l'hypothèse
P. DAGNELIE dans [Statistique théorique et appliquée Tome II De Boeck 1998] indique que : “ Malgré ces
objections, comme de nombreux auteurs, nous conseillons toujours l’emploi de ce test pour les petits
échantillons ”. Les objections portent sur l’hypothèse très forte que les marges soient fixées.
“ Le traitement des fréquences par le moyen de χ2 est une approximation utile en pratique par la simplicité
relative des calculs. Le traitement exact, plus laborieux, mais nécessaire en cas de doute, montre la vraie nature
des inférences que suggère la méthode de χ2. “
0 20 La probabilité d'obtenir un 1 19 La probabilité d'obtenir un
5 17 tel tableau est 0,0310 4 18 tel tableau est 0,1719
2 18 La probabilité d'obtenir un 3 17 La probabilité d'obtenir un
3 19 tel tableau est 0,3440 2 20 tel tableau est 0,3096
4 16 La probabilité d'obtenir un 5 15 La probabilité d'obtenir un
1 21 tel tableau est 0,1253 0 22 tel tableau est 0,0182
____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – Cours – Rev2020 – page 8 sur 19
2.3.3 Quelques remarques complémentaires
1°) Une citation de M.J. Moroney dans [Comprendre la statistique Marabout 1970] :
“ Une distribution mathématique simple peut parfaitement être choisie en raison de sa simplicité, alors qu'elle
s'ajuste moins bien aux faits qu'une distribution plus complexe, pour autant qu'elle s'ajuste suffisamment pour
notre but. (...) Un homme qui part en voyage peut préférer emporter un croquis plutôt qu'une carte d'état-
major, parce que le croquis assez précis et plus simple à suivre répond mieux à ses besoins. ”
La statistique du χ2 n'est pas la mieux adaptée au test d'indépendance précédents. Rappelons que la
distribution du χ2 est une distribution continue alors que le khi-deux calculé ne peut prendre qu'un nombre
fini de valeurs, mais elle est très simple d'utilisation et suffisante au sens de l'auteur de la citation.
2°) A la place du terme d'indépendance, certains auteurs préfèrent le terme d'association. Le terme association
doit être compris dans le sens : “ est-ce que le fait d’avoir une mauvaise dentition est plus associé aux enfants
nourris au biberon qu’aux enfants nourris au sein ? ”. Pour mesurer le degré d’association de deux caractères
ayant chacun deux modalités, divers coefficients ont été proposés, on peut citer le coefficient d’association de
YULE et le coefficient d’association de FORBES-MARGALEF.
Considérons le tableau formel : Présence du caractère A Absence du caractère A
Présence du caractère B a c
Absence du caractère B b d
• Le coefficient d'association au sens de YULE (1900) est noté Q et par définition : ad bc
Qad bc
−=+
.
Remarquons que cette formule fait apparaître au numérateur la quantité ad bc− , différence des produits en
croix du tableau formel, qui s’annule s’il s’agit d’un tableau de proportion, c'est-à-dire lorsqu'il y a
indépendance des deux caractères.
De plus, Q est compris entre -1 et 1.
Si Q = 1, alors bc = 0. Si, par exemple, b = 0, cela signifie que si le caractère A est présent, le caractère B est
aussi présent (caractères associés).
Si Q = -1, alors ad = 0. Si, par exemple, a = 0, cela signifie que la présence de A entraîne l'absence de B
(caractères dissociés).
• Le coefficient de FORBES est défini par ( )
( )( )a a b c d
a b c d
+ + ++ +
.
Sa définition repose sur une approche fréquenciste et sur l’idée que si deux réels non nuls sont égaux, alors
leur quotient est égal à 1. La probabilité (déduite des observations) qu’un individu présente à la fois le caractère
A et le caractère B est égale à a
a b c d+ + +. Si les deux caractères sont indépendants (au sens des probabilités),
alors la probabilité qu’un individu présente à la fois le caractère A et le caractère B est égale au produit des
probabilités, cette probabilité (déduite des observations) est égale à ( )( )
( )2
a b a c
a b c d
+ +
+ + +. Par suite, si les deux
caractères sont indépendants, le quotient de ces deux probabilités observées doit être proche de 1, ce quotient
est égal à ( )
( )( )a a b c d
a b c d
+ + ++ +
.
En examinant les deux probabilités précédentes, vous ne manquerez pas de faire la rapprochement avec les
effectifs observés et les effectifs théoriques (il y a égalité à ( )a b c d+ + + près !).
3°) Dans le livre de R.A. FISHER et dans les livres destinés aux formations commerciales (par exemple [Y. FOURNIS
Les études de marché Dunod 1995]), on trouve une autre façon de calculer le χ2 observé.
Reprenons le tableau du 2°) et nommons 1 2 1 2n n m m les effectifs marginaux.
Alors la valeur du χ2 observé est égale à ( )2
1 2 1 2
ad bc n
n n m m
−, formule facile à mettre en application et automatiser.
Remarquons encore la présence du terme ad bc− au numérateur comme pour le coefficient d'association de
YULE.
____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – Cours – Rev2020 – page 9 sur 19
2.4 Précisions sur la loi du Khi-2
2.4.1 Définition
Une loi du Khi-2 à d degrés de liberté est la loi continue suivie par une variable, notée souvent K, définie comme
la somme des carrés de d variables aléatoires indépendantes Ui de loi normale centrée réduite :
( ) ( )2 2
1
Si 0 , 1 , alors d
i i
i
U N K U dχ=
=∑∼ ∼
(A l’instar de la loi exponentielle et d’autres, cette loi fait partie du groupe des lois « gamma » – Γ – dont nous
ne parlerons pas ici ; mentionnons simplement que la loi ( )2dχ est en fait la loi
1 ,
2 2
d Γ
).
2.4.2 Paramètres de la loi ( )2dχ
Moyenne : d Ecart type : 2d Mode : 2, si 2d d− ≥
La médiane dépend de d d’une manière plus complexe :
d 1 2 3 4 5 6d ≥
médiane (environ) 0,45 1,39 2,37 3,36 4,35 0,66d −
2.4.3 Allures des densités de probabilité
* Si d = 1 (bleu), la densité est strictement
décroissante sur ]0 ; +∞[ et tend vers l’infini en
zéro.
* Si d = 2 (vert), elle est également strictement
décroissante mais vaut 0,5 en zéro.
(La loi ( )22χ est en fait la loi exponentielle de
paramètre (intensité) 0,5)
* Si 3d ≥ (jaune : 3, rouge : 5, marron : 8), la
densité est d’abord croissante puis
décroissante et atteint son sommet à l’abscisse
2d − (mode)
A l’occasion d’un test d’indépendance du χ²,
n’oublions pas que nous prenons appui sur la loi
du même nom, qui est continue, pour évaluer
une situation discrète (nous testons en général des nombres de citations ou des nombres de succès, donc des
entiers). Cette loi ne peut, dans ces cas, donner qu’une approximation des probabilités qui nous intéressent
2.4.4 Liens avec d’autres lois (poursuites d’études)
* Le théorème central limit permet de donner une bonne approximation de la loi ( )2dχ par la loi normale
( ) , 2d dN lorsque d est « suffisamment grand » (critère ici : d > 100).
* définition d’une loi de Student : ( ) ( ) ( )2Si 0 , 1 et , alors U
U N K d T dK d
χ =∼ ∼ ∼ ST
* définition d’une loi de Fisher : ( ) ( ) ( )2 2 1 11 1 2 2 1 2
2 2
Si et , alors , K d
K d K d F d dK d
χ χ =∼ ∼ ∼ F
____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – Cours – Rev2020 – page 10 sur 19
3 Ajustement : méthode de Mayer et moyennes mobiles
3.1 Moyennes mobiles Elles s’emploient le plus fréquemment dans le cas de séries chronologiques montrant une certaine
cyclicité des valeurs. La variable X représente le temps et la variable Y une valeur évoluant dans le temps.
Lorsque les valeurs Y évoluent de façon fortement oscillante, il est difficile de visualiser une tendance
globale à la hausse ou à la baisse. Les moyennes mobiles sont alors là pour apporter une réponse, en
lissant cette courbe oscillante.
Méthode :
* regrouper des valeurs successives de Y par paquets, toujours du même nombre n (par exemple : prendre
des valeurs trois par trois, ou quatre par quatre, etc.) ; ce nombre est choisi en fonction de la
périodicité des phénomènes saisonniers. Lorsque cette périodicité est paire, la moyenne mobile est
calculée avec une valeur de plus, les deux observations extrêmes étant pondérés de moitié.
* le paquet suivant est constitué du paquet précédent, auquel on a retiré la première valeur et joint la
valeur suivante de Y (paquets glissants) ;
* on calcule la moyenne en Y de chaque paquet (ce sont les moyennes mobiles), ainsi que sa moyenne en
X (pour situer chaque paquet dans le temps) ;
* on représente graphiquement les points obtenus.
Exemple :
X (trimestres) 1 2 3 4 5 6 7 8
Y (milliers de touristes) 58 22 13 36 60 19 14 33
La périodicité est annuelle, donnée par quatre trimestres.
Etablissons la liste des moyennes mobiles prises cinq par cinq :
X 3 4 5 6
Y 32,5 32,375 32,125 31,875
Cette nouvelle liste de valeurs suggère une légère tendance à la baisse.
nb :
* la première moyenne mobile est la moyenne des valeurs n° 1 (coef 1/2), 2, 3, 4 et 5 (coef 1/2).
Ici : (1/2+2+3+4+5/2)/4 = 3 en x et (58/2+22+13+36+60/2)/4 = 32,5 en y
* la deuxième moyenne mobile est la moyenne des valeurs n° 2 (coef 0,5), 3, 4, 5 et 6 (coef 0,5).
Ici : (2/2+3+4+5+6/2)/4 = 4 en x et (22/2+13+36+60+19/2)/4 = 32,375 en y
* et ainsi de suite…
+
+
+
+
+
+ +
+ + + + +
____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – Cours – Rev2020 – page 11 sur 19
3.2 Problématique de l’ajustement linéaire Un nuage de points peut refléter un lien entre les deux variables si ses points ne sont apparemment pas
dispersés au hasard. Dans certains cas, ce nuage peut être de forme allongée, relativement fine, avec un
"axe" assez droit montrant une certaine tendance…
Peut-on trouver un axe, une droite, dans ce repère, qui "suive au mieux" l'ensemble du nuage ?
Imaginons que l'on ait tracé une
droite (D), d'équation y′ = ax + b.
Pour une valeur xi choisie, on observe
la valeur yi (ordonnée du point Mi du nuage)
et la valeur y′ = axi + b (sur la droite).
définition : on appelle résidu le nombre
ei = yi – iy′
Le résidu d’un point Mi sera donc positif si ce
point est en-dessus de la droite et négatif dans
le cas contraire.
L’objectif est alors de trouver la droite qui « minimise au mieux » les résidus, celle qui « passe au plus près »
de l’ensemble des points du nuage. On l'appellera droite d'ajustement ou droite de régression de la série
et on dira qu'on fait un ajustement linéaire (ou affine).
La pratique consistant à modéliser un nuage de points par une droite est appelée régression linéaire.
3.3 Méthode de Mayer Certains résidus sont positifs, d'autres négatifs. L'idée de Mayer est de dire que la "meilleure" droite est
celle pour laquelle la somme des résidus est nulle (les résidus négatifs compensent les résidus positifs).
définition : on appelle principe de Mayer celui dont l’ajustement conduit à n
i
i
e=
=∑1
0
étude mathématique :
( )i i i i ie y ax b y a x nb= − − = − −∑ ∑ ∑ ∑
Cette somme vaut zéro 1 1 1
ssi 0 ssi 0i iy a x n b y ax bn n n
− − = − − =∑ ∑
C’est-à-dire : pour obtenir une droite qui annule la somme des résidus, il faut et il suffit que celle-ci
contienne le point moyen du nuage, ( ),G x y . Cette propriété est en soi insuffisante pour rendre la droite
de Mayer unique, puisqu'elle ne porte que sur un point. Il existe une infinité de droites annulant la
somme des résidus !
Méthode de Mayer :
* Diviser le nuage de points en deux parties :
Le nuage est divisé en deux nuages de même nombre de points (n/2) si n est pair, ou si n est impair,
en un nuage de (n+1)/2 points et un autre de (n-1)/2 points. Les valeurs de x (abscisses) des points du
premier nuage sont toutes inférieures à celles des points du second ;
* Calculer les coordonnées de G1 et G2, points moyens des deux nuages ;
* Déterminer (si demandé) l’équation de la droite (G1G2), droite de Mayer (annulant la somme des
résidus) ; tracer cette droite.
remarque : On montre que la droite qui contient les points G1 et G2, points moyens de deux "demi-
nuages", est l'une d'entre elles car elle contient forcément G...
iy′
iy
ix
____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – Cours – Rev2020 – page 12 sur 19
4 Ajustement linéaire : méthode des moindres carrés
4.1 Paramètres des séries à deux variables
4.1.1
La moyenne de X et celle de Y sont bien entendu :
1
n
i
i
x
xn
==∑
et
n
i
i
y
yn
==∑
1 en l’absence de contingence (données sous forme de listes – voir p.3) ;
r
i i
i
n x
xn
==∑
1 et
k
j j
j
n y
yn
==∑
1 en présence de contingence (tableau croisé contenant des effectifs le plus
souvent supérieurs à 1 – voir p.3).
Le point particulier ( ),G x y est appelé point moyen du nuage de la série.
4.1.2
La variance de X et celle de Y sont le plus simplement (si on souhaite un calcul détaillé) obtenues par le
biais du théorème de Koenig :
( )
r
i
i
x
X xn
== −∑ 2
21V et ( )2
21V
r
i
i
y
Y yn
== −∑
en l’absence de contingence ;
( )2
21V
r
i i
i
n x
X xn
== −∑
et ( )2
21V
r
i i
i
n y
Y yn
== −∑
en présence de contingence.
Les écarts types de X et Y sont bien entendu les racines carrées de leurs variances.
4.1.3
On appelle covariance du couple (X,Y) le nombre : ( )( )( )
, 1Cov
n
i i
i
x x y y
X Yn
=
− −=∑
.
C’est une « variance commune » entre nos deux variables, paramètre indispensable pour étudier la
relation qu’elles entretiennent.
Le théorème de Koenig simplifie son calcul :
( ), 1Cov
n
i i
i
x y
X Y x yn
== − ×∑
(ici sans contingence) et ( ),
r k
ij i j
i j
n x y
X Y x yn
= == − ×∑∑
1 1Cov (avec)
4.1.4
Sur la calculatrice :
Les moyennes et écarts types seront obtenus directement grâce au mode Stat.
Malheureusement, la calculette ne donnera ni les variances, ni la covariance.
____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – Cours – Rev2020 – page 13 sur 19
4.2 Méthode des moindres carrés L'idée de cette méthode est de considérer le carré de chaque résidu, puis la somme de ces carrés, et enfin
de dire que la "meilleure" droite est celle qui rend cette somme minimale (obtenir la plus petite somme
possible, en considérant l'infinité des droites du plan).
définition : On appelle principe des moindres carrés celui qui consiste à trouver une droite d'ajustement
conduisant à 2
1
est minimum sur le nuagen
i
i
e=∑ (Gauss)
étude mathématique : posons : ( ) ( ),2
i iP a b y ax b= − −∑ : polynôme de deux variables a et b.
On peut développer ce polynôme d'au moins deux manières différentes :
( ) ( ) ( ) ( ), ( )i i i i i i
P a b y ax b nb b y ax y ax= − − = − − + −∑ ∑ ∑2 22 2 (1)
qui est un trinôme du second degré en b ;
( ) ( ) ( ) ( ), ( )i i i i i i iP a b y b ax a x a x y b x y b= − − = − − + −∑ ∑ ∑ ∑ ∑2 22 2 2 (2)
qui est un trinôme du second degré en a.
Dans ce contexte, on peut suivre cet itinéraire :
* considérons a constant et b variable. P(a,b) (1) est minimal lorsque sa dérivée par rapport à b s'annule
(son 1er coefficient, n, est positif), ce qui conduit à b y ax= −
* considérons que b a la valeur précédemment trouvée, et que a est variable. P(a,b) (2) est alors minimal
lorsque sa dérivée par rapport à a s'annule, ce qui conduit à
( )( )
.,i i
i
x y x y X YnaX
x xn
−= =
−
∑
∑ 2 2
1Cov
1 V
Pour les férus de calcul : essayez de retrouver les deux résultats précédents !
remarques :
* le calcul de b entraîne que la droite trouvée contient le point moyen G du nuage ; autrement dit : la
droite des moindres carrés respecte le critère de Mayer.
* la droite des moindres carrés est unique, pour un nuage donné, et est donc la plus utilisée.
méthode des moindres carrés :
* Calculer les coefficients ( )( )
,Cov
V
X Ya
X= et b y ax= − (on peut les obtenir sur calculatrice !)
* Ecrire l'équation de la droite de régression de Y en X, DY/X : y′ = ax + b
____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – Cours – Rev2020 – page 14 sur 19
4.3 Coefficient de corrélation linéaire Un nuage de points présente un lien plus ou moins fort entre deux variables X et Y, qui se révèle parfois
sous la forme d'un nuage de forme allongée et plutôt droite : dans ce cas on parle bien entendu de
corrélation linéaire.
Le but du coefficient de corrélation linéaire est de chiffrer cette tendance.
coefficient de corrélation linéaire entre X et Y : ( )
( ) ( ),Cov X Y
rX Yσ σ
=
On montre que quelle que soit la série statistique, on a toujours -1 ≤ r ≤ 1
(en pratique, la majuscule R ou la lettre grecque ρ peuvent aussi être employées pour désigner ce
coefficient)
Sur la calculatrice :
En général, une calculatrice le note r. Certains modèles ne le calculent pas.
On choisira donc toujours de calculer soi-même un coefficient de corrélation linéaire (ce qui implique
de calculer au préalable la covariance…).
Interprétation de sa valeur :
Plus la corrélation linéaire est forte (nuage tendant vers une droite), plus |r| est proche de 1.
ATTENTION : LA RECIPROQUE N’EST PAS FORCEMENT VRAIE !
Un coefficient proche de 1 peut être obtenu avec un nuage de points suivant un axe légèrement courbé,
dans une situation pour laquelle l’ajustement linéaire ne serait pas pertinent !
r est positif lorsque Y est globalement fonction croissante de X - "corrélation positive"
r est négatif lorsque Y est globalement fonction décroissante de X - "corrélation négative"
0 ≤ |r| ≤ 0,5 : corrélation linéaire faible, modèle linéaire inadapté.
0,5 ≤ |r| ≤ 0,75 : corrélation linéaire moyenne, modèle linéaire peu fiable.
0,75 ≤ |r| ≤ 0,95 : corrélation linéaire assez forte, modèle linéaire pas forcément le meilleur.
0,95 ≤ |r| ≤ 1 : corrélation linéaire très forte, modèle linéaire peut-être supérieur aux autres.
Remarques :
* lien concret ?
Un coefficient de corrélation linéaire proche de 1 (ou de -1) rend compte d'un nuage de points
presque alignés (il pourrait suivre une courbe), mais ne dit pas que les variables X et Y sont
concrètement liées.
exemple : en France, de 1974 à 1981, le taux de mariages a baissé de manière quasi linéaire, alors
que le PIB a augmenté de manière quasi linéaire. Le quatrième graphique, ci-dessous, montre le
nuage de points obtenu en croisant ces deux variables : la corrélation est très forte.
Cependant, il n'y a pas de relation de cause à effet entre les deux ! (l'évolution du taux de mariage
après 1981 ne correspond plus à la droite d'ajustement).
* corrélation linéaire
r ne rend compte que d'une corrélation linéaire. Il se peut que la corrélation entre X et Y soit très
forte, mais sans que le nuage de points suive une droite. Dans ce cas, r est éloigné de 1 et de -1, et il
faudra prolonger l'étude (voir II-4). Mais si |r| est éloigné de 1, il se peut que l’ajustement linéaire
soit plus adapté que tout autre pour modéliser le nuage de points – voir les deux premiers exemples
page suivante.
____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – Cours – Rev2020 – page 15 sur 19
Quelques exemples :
revenus (€)
r = 0,8449 ancienneté
taux de réussite en collège / % de CSP
défavorisées
r = -0,7457
marge unitaire (€/u)
r = 0,6438 quantité (milliers d'u)
r = -0,9875
Attention, encore une fois, à la pertinence d’un ajustement linéaire : le fait de connaître r, a et b n’est pas
suffisant pour nous donner le droit de représenter une série bivariée par une droite !
R. Tomassone, E. Lesquoy et C. Miller, dans leur remarquable ouvrage « La régression, nouveaux regards sur
une ancienne méthode statistique » (Masson, 1983), présentent (p.21) les cinq séries de la page suivante.
Il se trouve que toutes les cinq ont, jusqu’à la troisième décimale, le même coefficient de corrélation linéaire
et les mêmes coefficients de droite de régression des moindres carrés (un peu plus d’écarts pour b) ;
pourtant, les cinq nuages de points sont très différents !
(pour info, page suivante : 0,785 < r < 0,786 ; 0,808 < a < 0,809 ; 0,519 < b < 0,524)
____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – Cours – Rev2020 – page 16 sur 19
X1 Y1 X2 Y2 X3 Y3 X4 Y4 X5 Y5
7 5,535 7 0,113 7 7,399 7 3,864 13,715 5,654
8 9,942 8 3,77 8 8,546 8 4,942 13,715 7,072
9 4,249 9 7,426 9 8,468 9 7,504 13,715 8,491
10 8,656 10 8,792 10 9,616 10 8,581 13,715 9,909
12 10,737 12 12,688 12 10,685 12 12,221 13,715 9,909
13 15,144 13 12,889 13 10,607 13 8,842 13,715 9,909
14 13,939 14 14,253 14 10,529 14 9,919 13,715 11,327
14 9,45 14 16,545 14 11,754 14 15,86 13,715 11,327
15 7,124 15 15,62 15 11,676 15 13,967 13,715 12,746
17 13,693 17 17,206 17 12,745 17 19,092 13,715 12,746
18 18,1 18 16,281 18 13,893 18 17,198 13,715 12,746
19 11,285 19 17,647 19 12,59 19 12,334 13,715 14,164
19 21,365 19 14,21 19 15,04 19 19,761 13,715 15,582
20 15,692 20 15,577 20 13,737 20 16,382 13,715 15,582
21 18,977 21 14,652 21 14,884 21 18,945 13,715 17,001
23 17,69 23 13,947 23 29,431 23 12,187 33,281 27,435
série 1 série 2
série 3 série 4
série 5
____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – Cours – Rev2020 – page 17 sur 19
5 Ajustement non linéaire : le changement de variable Il est pratiqué lorsque le nuage de points semble suivre la courbe d'une fonction.
La fonction à envisager sera toujours indiquée dans un énoncé. Elle peut être notamment :
* une fonction logarithme ou exponentielle
* une fonction du second degré ou puissance
* une fonction trigonométrique
* Une des deux variables X ou Y (ou les deux !) est remplacée par une nouvelle variable, notée T par
exemple, selon un mode de calcul donné par l’énoncé.
Exemple :
X 2 3 5 8
Y 9 13 28 70
Y semblant varier comme le carré de X, plus 5, l’énoncé proposera le changement de variable T = X ².
On établira alors le tableau suivant, où T remplace X :
T 4 9 25 64
Y 9 13 28 70
* On effectue une régression linéaire entre ces deux nouvelles variables, en respectant leur ordre.
Exemple :
ici, il s’agit de déterminer une équation de droite de type y′ = at + b.
Si on nous impose la méthode des moindres carrés, les coefficients a et b sont simplement obtenus
grâce à la calculatrice : y′ = 1,02526 t + 3,856
* Enfin, on détermine la relation de régression de Y sur X, en réécrivant le changement de variable, pour
obtenir l’équation de la courbe de régression qu’on aura éventuellement à tracer.
Exemple :
Puisque y′ = 1,02526 t + 3,856, on obtient : y′ = 1,02526 x² + 3,856
(cette dernière est l’équation d’une parabole)
____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – Cours – Rev2020 – page 18 sur 19
6 Statistiques prévisionnelles
6.1 Estimation ponctuelle La droite d'ajustement obtenue (sans ou avec changement de variable) permet de par son équation
d'estimer une valeur de la variable expliquée Y en choisissant une valeur non explorée de la variable
explicative X (en général supérieure à celles récoltées dans la série). En l'occurrence, si X représente une
date, il est permis de faire une prévision sur le futur.
Par exemple : une droite d’ajustement a pour équation y = 0,85x + 22.
a. On veut une estimation de y pour x0 = 10. y’0 = 0,85×10 + 22 = 30,5.
b. On veut une estimation de x pour y0 = 39. x’0 = (39 – 22)/0,85 = 20.
6.2 Estimation par intervalle de confiance La valeur donnée par une estimation ponctuelle est à prendre avec du recul : suivant la valeur du
coefficient de corrélation linéaire (donc suivant la dispersion du nuage de points), on peut lui faire plus ou
moins confiance.
L'idée ici est de donner une fourchette pour l'estimation faite, plutôt qu'une valeur unique, et de savoir
dire quelle est la probabilité que la valeur réelle, non encore mesurée, se trouve dans cet intervalle.
Méthode des rapports (en corrélation linéaire, pour estimer y à partir de x) :
1. Pour chaque valeur xi du tableau de données :
* calculer les valeurs y'i d'après l'équation de la droite de régression
* calculer les rapports zi = yi / y'i
* calculer la moyenne et l'écart-type des valeurs zi de la variable Z
2. La variable Z est considérée comme distribuée par une loi normale. Il en découle entre autres que :
95 % des valeurs de Z se trouvent dans l'intervalle [ ];Z Z
z zσ σ− +1,96 1,96
99 % des valeurs de Z se trouvent dans l'intervalle [ ];2,58 2,58Z Z
z zσ σ− +
3. Calculer la valeur y'0 associée à la nouvelle valeur souhaitée x0, d'après la régression linéaire.
On estime alors la valeur réelle y0, inconnue, comme suit :
Il y a 95% de chances que y0 se trouve dans ( ) ( );0 01,96 1,96Z Zy z y zσ σ′ ′ − +
Il y a 99% de chances que y0 se trouve dans ( ) ( );0 02,58 2,58Z Zy z y zσ σ′ ′ − +
remarques :
* cette méthode n'est valable que pour r > 0 (corrélation positive)
* le taux (95%, 99%, etc.) s'appelle niveau de confiance de l'estimation.
Son complémentaire (5%, 1%, etc.) est le seuil de risque.
* l'amplitude d'un tel intervalle de confiance (donc l'incertitude) augmente lorsque :
. le niveau de confiance désiré augmente,
. |r| diminue,
. x0 s'éloigne des valeurs xi de la série relevée.
____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – Cours – Rev2020 – page 19 sur 19
IUT TC MATHEMATIQUES FORMULAIRE STATISTIQUES A DEUX VARIABLES
Table de la loi du χ²
Le tableau donne les valeurs χ²lim
telles que p(χ² > χ²lim) = α
α α α α
Lorsque d (nombre de ddl) est supérieur à 30, la valeur χ²lim s’obtient avec une bonne précision par :
( )2
2
lim
2 1
2
u dχ
+ −=
où u est le coefficient de loi normale centrée réduite :
α 1% 2,5% 5% 10%
u 2,3263 1,96 1,6449 1,2816
χ²lim
χ²
α (p-valeur) 1 − α