s2 - stat2var - cours - rev 2020 · iv-1 paramètres des séries à deux variables 12 iv-2 méthode...

____________________________________________________________________________ IUT de Saint-Etienne – Département TC –J.F.Ferraris – Math – S2 – Stat2Var – Cours – Rev2020 – page 1 sur 19

Département TECHNIQUES DE COMMERCIALISATION

MATHEMATIQUES

Semestre 2

________ Statistiques à deux variables ________

COURS

Cours en ligne : sur http://jff-dut-tc.weebly.com section DUT Maths S2.


SOMMAIRE

COURS 3

I Introduction, vocabulaire 3

I-1 Objectifs 3

I-2 Mises en forme 3

I-3 Nuage de points 4

II Test d’indépendance du Khi-deux 5

II-1 Le cas particulier du test d’indépendance 5

II-2 Méthodologie du test 5

II-3 Autour du test d’indépendance dans un tableau 2x2 6

II-4 Précisions sur la loi du Khi-deux 9

III Ajustement : méthode de Mayer et moyennes mobiles 10

III-1 Moyennes mobiles 10

III-2 Problématique de l'ajustement linéaire 11

III-3 Méthode de Mayer 11

IV Ajustement linéaire : méthode des moindres carrés 12

IV-1 Paramètres des séries à deux variables 12

IV-2 Méthode des moindres carrés 13

IV-3 Coefficient de corrélation linéaire 14

V Ajustement non linéaire : le changement de variable 17

VI Statistiques prévisionnelles 18

VI-1 Estimation ponctuelle 18

VI-2 Estimation par intervalle de confiance 18

Formulaire p.19


COURS

1 Introduction, vocabulaire

1.1 Objectifs Deux caractères seront ici étudiés simultanément sur chaque individu d'une population de taille n.

Les deux listes de valeurs des caractères forment deux variables X et Y.

Objectifs :

* mettre en évidence un lien, une relation, entre ces deux caractères : une corrélation ;

modéliser cette corrélation par une fonction mathématique : régression ;

utiliser cette relation à des fins prévisionnelles, confiance en cette prévision.

* tester l'hypothèse qu'il n'y a pas de lien entre ces deux variables croisées

Si un lien de cause à effet est à étudier, X représentera la cause et sera appelée variable explicative,

et Y représentera l’effet et sera appelée variable expliquée.

1.2 Mises en forme Une observation (n° i) se décrira comme un couple de valeurs (xi ; yi).

Deux mises en forme des résultats peuvent être employées, suivant l'étude menée :

* séries de valeurs données en listes

exemple : lien entre quantité d'engrais épandu et production récoltée quantité d'engrais production recueillie

parcelle n° X (kg.ha-1) Y (q.ha-1)

1 150 46

2 80 37

3 120 46

4 220 51

5 100 43

exemple de série chronologique : évolution annuelle des dépenses publicitaires d’une entreprise

X : année 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017

Y : dépense 41 60 55 66 87 61 90 95 82 120 125 118

* séries + effectifs : tableaux de contingence

exemple : lien entre âge et acuité visuelle (mesures prises sur 200 personnes)

X : âge

20 40 50 60

Y :

acuité

3/10 1 5 10 20

6/10 8 12 25 18

9/10 55 26 14 6


1.3 Nuage de points Chaque série statistique à deux variables peut être représentée graphiquement par un nuage de points,

chaque variable étant représentée sur son axe.

* séries en listes : un couple (xi ; yi) correspond à un individu et se représente par un point du plan.

exemple n°2 page précédente :

* séries avec contingence : un couple (xi ; yi) correspond en général à plus d’un individu et se représente

par un objet dont la taille est fonction croissante de l’effectif correspondant.

exemple n°3 page précédente :

2006)


2 Test d’indépendance du Khi-deux Un test statistique consiste à décider si une hypothèse, faite sur la population à partir des résultats obtenus

sur un échantillon, peut ou ne peut pas être rejetée. Cette hypothèse est nommée "hypothèse nulle", H0.

Si la décision conduit à un rejet de H0, cela se fait avec un certain risque de se tromper, risque dont la

probabilité est nommée "seuil de risque" et notée α. (On parle aussi de p-valeur d’un test).

2.1 Le cas particulier du test d'indépendance

Une étude croise deux variables quantitatives ou qualitatives (exemple du prochain TD : sexe et relation

au tabac), variables dont l'interdépendance au sein d'une population doit être estimée, à partir de la seule

distribution d'effectifs obtenue auprès d'un échantillon de répondants.

Dans le cas de l'indépendance (H0), les réponses théoriques sont supposées être distribuées en

conservant les sous-totaux trouvés dans l'échantillon (ex : un certain nombre d'hommes et un certain

nombre de femmes ont été interrogés, éventuellement des nombres différents) et proportionnellement à

ces sous-totaux.

Il s'agit ici de calculer l'écart entre la distribution observée et cette distribution théorique, écart noté

"χ²calc" (prononcer "Khi-deux calculé"), puis de décider si cet écart est anormalement important ou non -

en fait, une population dans laquelle deux variables sont indépendantes donne généralement des

échantillons présentant un léger écart (du fait de la nature aléatoire de la sélection de l'échantillon), mais

rarement un écart important.

2.2 Méthodologie du test n observations sont faites : n individus sont évalués sur deux variables X et Y.

On suppose que le caractère X présente l modalités différentes et que Y présente c modalités.

L'hypothèse nulle H0 est par convention : les variables sont indépendantes.

Le test compare la réalité à ce qu'aurait donné l'indépendance parfaite.

On rejette cette hypothèse lorsque les observations diffèrent trop de la distribution théorique.

1. Calcul du χ²

* tableau des observations sur n individus Y1 Y2 … Yc total X

X1 obs11 obs12 … obs1c total X1

X2 obs21 obs22 … obs2c total X2

… … … … … …

Xl obsl1 Obsl2 … Obslc total Xl

total Y total Y1 total Y2 … total Yc N

* tableau de répartition théorique dans le cas de l'indépendance

On construit un tableau sur le même modèle, où les sous-totaux et le total général sont

respectés, mais où les effectifs thij respectent les proportions des sous-totaux par rapport à n.

* calcul du χ² total entre observation et théorie : χ²calc = ( )2−

∑tableau

obs th

th

2. Zone de rejet

La variable χ² exprime l'infinité des valeurs χ² qu’il est possible d’obtenir à partir de n'importe quel

échantillon possible, sous l'hypothèse nulle. Cette variable est distribuée en probabilité, par une loi du

même nom, réglée par son nombre de degrés de liberté (ddl) : ddl = (l - 1)(c - 1)

A chaque χ² possible (dans [0 ; +∞[) correspond une probabilité "α " qu'un échantillon a de le dépasser.

On fait alors une lecture, dans la table de la loi du χ², du seuil χ²lim.

3. Comparaison et décision

Si χ²calc (calculé entre les tableaux) > χ²lim (donné par la table de la loi), alors on peut rejeter

l'hypothèse nulle (l'indépendance), mais au risque α de se tromper.


2.3 Autour du test d’indépendance dans un tableau 2x2

(d’après : ENFA - Bulletin du GRES n°9 – février 2000)

Voyons les outils dont nous disposons pour effectuer un test d'indépendance de deux caractères dans le cas d'un

tableau 2 x 2 (deux variables qualitatives comportant chacune deux modalités – par exemple : masculin/féminin

pour l’une et fumeurs/non fumeurs pour l’autre).

Prenons l'exemple dû à YATES (1934) et cité dans [M.G. KENDALL et A. STUART The advanced theory of statistics Griffin

1960]. On considère un échantillon de 42 enfants, parmi lesquels 20 ont été nourris au sein et 22 au biberon. On

a observé la disposition des dents de ces enfants.

Dentition normale Dentition mal implantée Effectifs marginaux

Nourri au sein (S) 4 16 20

Nourri au biberon (B) 1 21 22

Effectifs marginaux 5 37 42

La question est de savoir si cet échantillon seul permet d’établir un lien, dans la population, entre la façon dont

un bébé est nourri et la qualité de sa dentition. Cette problématique est traitée par un test d’indépendance.

2.3.1 Test d’indépendance du Khi-deux

L'hypothèse nulle est “ il y a indépendance entre les deux caractères ” (mode de nourriture et implantation

des dents).

La méthodologie de ce test consiste d’abord à calculer la distance entre l’échantillon observé et l’échantillon

moyen qui serait issu d’une population vérifiant l’hypothèse nulle. Pour que les deux tableaux soient

comparables, il faut que les effectifs marginaux (on dit aussi les marges, donc : les sous-totaux) soient

identiques (c'est-à-dire que les nombres en gras et en italique dans le tableau sont fixés).

Le tableau d’effectifs « théoriques » (en fait : ceux de l’échantillon moyen mentionné ci-dessus) est :

Dentition normale Dentition mal implantée Effectifs marginaux

Nourri au sein (S) 2,38095238 17,6190476 20

Nourri au biberon (B) 2,61904762 19,3809524 22

Effectifs marginaux 5 37 42

Après comparaison avec l’échantillon observé, cela donne les khi-2 partiels et total suivants :

1,10095238 0,14877735

1,0008658 0,13525214

2,38584767

Cette valeur (2,386) de khi-deux calculé, pour 1 ddl, correspond à un seuil de risque supérieur à 10%.

La loi du khi-deux nous indique plus précisément que khi-deux = 2,386 correspond à une p-valeur de 12,24%

(autrement dit : dans une population où nos deux variables sont indépendantes, il y a 12,24% de chances qu’un

échantillon possédant les mêmes sous-totaux soit aussi différent ou plus différent de l’échantillon moyen).

Mais ici cela poserait un problème, car les effectifs théoriques sont “ trop petits ”, au sens où, d'après les

manuels, le test du Khi-2 n’est applicable que si les effectifs théoriques sont tous supérieurs ou égaux à 5 (au

passage, on peut se poser la question : pourquoi 5 ?).

Ce résultat de 12,24% est issu de la loi du Khi-deux, loi continue, qui n’est qu’une approximation de la réalité

qui est ici discrète (par exemple, l’effectif « nourri au sein/dentition normale » ne peut valoir que 0, 1, 2, 3, 4

ou 5, ce qui est une situation « trop discrète » pour pouvoir être efficacement suivie « de près » par une loi

continue).

La section 2.3.2 ci-dessous résout le problème.


2.3.2 L’approche exacte : le test exact de Fisher

[R. A. FISHER Les méthodes expérimentales PUF 1947]

Si les effectifs marginaux sont fixés, alors les différents tableaux possibles sont au nombre de six :

0 20 1 19 2 18 3 17 4 16 5 15

5 17 4 18 3 19 2 20 1 21 0 22

La question qui se pose alors est de calculer, sous l’hypothèse d’indépendance des deux caractères, la

probabilité d’apparition de chacun des tableaux. Remarquons que, du fait que les effectifs marginaux sont

fixés, pour remplir un tableau, il suffit de connaître le nombre situé en première ligne première colonne.

On peut interpréter l’hypothèse d’indépendance de la façon suivante : parmi les 42 enfants, 20 sont nourris

au sein et 22 au biberon. Si le mode de nourriture n’a pas d’influence sur la dentition, alors les 5 enfants dont

la dentition est normale sont répartis selon les proportions des deux modes d’alimentation.

Choisissons au hasard 20 bébés parmi 42 et appelons « succès » l’événement « dentition normale ». Le nombre

de succès est décrit par la loi hypergéométrique H(42, 5, 20).

La probabilité qu’il y ait k succès (k compris entre 0 et 5) est 20

5 37

20

42

C C

C

k k−×.

Si on fait le calcul pour chacune de ces 6 valeurs, on obtient :

En résumé :

Valeur première ligne première colonne 0 1 2 3 4 5

Probabilité 0,0310 0,1719 0,3440 0,3096 0,1253 0,0182

Reprenons le tableau de données de l'échantillon considéré. Si l'hypothèse nulle est vraie, alors la probabilité

d'obtenir un tel tableau (k = 4) ou un tableau plus éloigné d’un tableau de proportionnalité (k = 5) est 0,1435.

On ne peut donc rejeter l’hypothèse nulle qu’à un seuil de risque supérieur ou égal à 14,35% (à comparer aux

12,24% donnés par la loi du Khi-deux), ce qui est trop élevé par rapport aux seuils de risque

conventionnellement utilisés (en général : 5% maximum).

Pour être plus complet, on peut dire que pour un risque de 5%, on a la règle de décision suivante :

Valeur première ligne

première colonne 0 1, 2, 3, 4 5

Décision rejet de l'hypothèse non rejet de

l'hypothèse

rejet de l'hypothèse

P. DAGNELIE dans [Statistique théorique et appliquée Tome II De Boeck 1998] indique que : “ Malgré ces

objections, comme de nombreux auteurs, nous conseillons toujours l’emploi de ce test pour les petits

échantillons ”. Les objections portent sur l’hypothèse très forte que les marges soient fixées.

“ Le traitement des fréquences par le moyen de χ2 est une approximation utile en pratique par la simplicité

relative des calculs. Le traitement exact, plus laborieux, mais nécessaire en cas de doute, montre la vraie nature

des inférences que suggère la méthode de χ2. “

0 20 La probabilité d'obtenir un 1 19 La probabilité d'obtenir un

5 17 tel tableau est 0,0310 4 18 tel tableau est 0,1719






2.3.3 Quelques remarques complémentaires

1°) Une citation de M.J. Moroney dans [Comprendre la statistique Marabout 1970] :

“ Une distribution mathématique simple peut parfaitement être choisie en raison de sa simplicité, alors qu'elle

s'ajuste moins bien aux faits qu'une distribution plus complexe, pour autant qu'elle s'ajuste suffisamment pour

notre but. (...) Un homme qui part en voyage peut préférer emporter un croquis plutôt qu'une carte d'état-

major, parce que le croquis assez précis et plus simple à suivre répond mieux à ses besoins. ”

La statistique du χ2 n'est pas la mieux adaptée au test d'indépendance précédents. Rappelons que la

distribution du χ2 est une distribution continue alors que le khi-deux calculé ne peut prendre qu'un nombre

fini de valeurs, mais elle est très simple d'utilisation et suffisante au sens de l'auteur de la citation.

2°) A la place du terme d'indépendance, certains auteurs préfèrent le terme d'association. Le terme association

doit être compris dans le sens : “ est-ce que le fait d’avoir une mauvaise dentition est plus associé aux enfants

nourris au biberon qu’aux enfants nourris au sein ? ”. Pour mesurer le degré d’association de deux caractères

ayant chacun deux modalités, divers coefficients ont été proposés, on peut citer le coefficient d’association de

YULE et le coefficient d’association de FORBES-MARGALEF.

Considérons le tableau formel : Présence du caractère A Absence du caractère A

Présence du caractère B a c

Absence du caractère B b d

• Le coefficient d'association au sens de YULE (1900) est noté Q et par définition : ad bc

Qad bc

−=+

.

Remarquons que cette formule fait apparaître au numérateur la quantité ad bc− , différence des produits en

croix du tableau formel, qui s’annule s’il s’agit d’un tableau de proportion, c'est-à-dire lorsqu'il y a

indépendance des deux caractères.

De plus, Q est compris entre -1 et 1.

Si Q = 1, alors bc = 0. Si, par exemple, b = 0, cela signifie que si le caractère A est présent, le caractère B est

aussi présent (caractères associés).

Si Q = -1, alors ad = 0. Si, par exemple, a = 0, cela signifie que la présence de A entraîne l'absence de B

(caractères dissociés).

• Le coefficient de FORBES est défini par ( )

( )( )a a b c d

a b c d

+ + ++ +

.

Sa définition repose sur une approche fréquenciste et sur l’idée que si deux réels non nuls sont égaux, alors

leur quotient est égal à 1. La probabilité (déduite des observations) qu’un individu présente à la fois le caractère

A et le caractère B est égale à a

a b c d+ + +. Si les deux caractères sont indépendants (au sens des probabilités),

alors la probabilité qu’un individu présente à la fois le caractère A et le caractère B est égale au produit des

probabilités, cette probabilité (déduite des observations) est égale à ( )( )

( )2

a b a c

a b c d

+ +

+ + +. Par suite, si les deux

caractères sont indépendants, le quotient de ces deux probabilités observées doit être proche de 1, ce quotient

est égal à ( )

( )( )a a b c d

a b c d

+ + ++ +

.

En examinant les deux probabilités précédentes, vous ne manquerez pas de faire la rapprochement avec les

effectifs observés et les effectifs théoriques (il y a égalité à ( )a b c d+ + + près !).

3°) Dans le livre de R.A. FISHER et dans les livres destinés aux formations commerciales (par exemple [Y. FOURNIS

Les études de marché Dunod 1995]), on trouve une autre façon de calculer le χ2 observé.

Reprenons le tableau du 2°) et nommons 1 2 1 2n n m m les effectifs marginaux.

Alors la valeur du χ2 observé est égale à ( )2

1 2 1 2

ad bc n

n n m m

−, formule facile à mettre en application et automatiser.

Remarquons encore la présence du terme ad bc− au numérateur comme pour le coefficient d'association de

YULE.


2.4 Précisions sur la loi du Khi-2

2.4.1 Définition

Une loi du Khi-2 à d degrés de liberté est la loi continue suivie par une variable, notée souvent K, définie comme

la somme des carrés de d variables aléatoires indépendantes Ui de loi normale centrée réduite :

( ) ( )2 2

1

Si 0 , 1 , alors d

i i

i

U N K U dχ=

=∑∼ ∼

(A l’instar de la loi exponentielle et d’autres, cette loi fait partie du groupe des lois « gamma » – Γ – dont nous

ne parlerons pas ici ; mentionnons simplement que la loi ( )2dχ est en fait la loi

1 ,

2 2

d Γ

).

2.4.2 Paramètres de la loi ( )2dχ

Moyenne : d Ecart type : 2d Mode : 2, si 2d d− ≥

La médiane dépend de d d’une manière plus complexe :

d 1 2 3 4 5 6d ≥

médiane (environ) 0,45 1,39 2,37 3,36 4,35 0,66d −

2.4.3 Allures des densités de probabilité

* Si d = 1 (bleu), la densité est strictement

décroissante sur ]0 ; +∞[ et tend vers l’infini en

zéro.

* Si d = 2 (vert), elle est également strictement

décroissante mais vaut 0,5 en zéro.

(La loi ( )22χ est en fait la loi exponentielle de

paramètre (intensité) 0,5)

* Si 3d ≥ (jaune : 3, rouge : 5, marron : 8), la

densité est d’abord croissante puis

décroissante et atteint son sommet à l’abscisse

2d − (mode)

A l’occasion d’un test d’indépendance du χ²,

n’oublions pas que nous prenons appui sur la loi

du même nom, qui est continue, pour évaluer

une situation discrète (nous testons en général des nombres de citations ou des nombres de succès, donc des

entiers). Cette loi ne peut, dans ces cas, donner qu’une approximation des probabilités qui nous intéressent

2.4.4 Liens avec d’autres lois (poursuites d’études)

* Le théorème central limit permet de donner une bonne approximation de la loi ( )2dχ par la loi normale

( ) , 2d dN lorsque d est « suffisamment grand » (critère ici : d > 100).

* définition d’une loi de Student : ( ) ( ) ( )2Si 0 , 1 et , alors U

U N K d T dK d

χ =∼ ∼ ∼ ST

* définition d’une loi de Fisher : ( ) ( ) ( )2 2 1 11 1 2 2 1 2

2 2

Si et , alors , K d

K d K d F d dK d

χ χ =∼ ∼ ∼ F


3 Ajustement : méthode de Mayer et moyennes mobiles

3.1 Moyennes mobiles Elles s’emploient le plus fréquemment dans le cas de séries chronologiques montrant une certaine

cyclicité des valeurs. La variable X représente le temps et la variable Y une valeur évoluant dans le temps.

Lorsque les valeurs Y évoluent de façon fortement oscillante, il est difficile de visualiser une tendance

globale à la hausse ou à la baisse. Les moyennes mobiles sont alors là pour apporter une réponse, en

lissant cette courbe oscillante.

Méthode :

* regrouper des valeurs successives de Y par paquets, toujours du même nombre n (par exemple : prendre

des valeurs trois par trois, ou quatre par quatre, etc.) ; ce nombre est choisi en fonction de la

périodicité des phénomènes saisonniers. Lorsque cette périodicité est paire, la moyenne mobile est

calculée avec une valeur de plus, les deux observations extrêmes étant pondérés de moitié.

* le paquet suivant est constitué du paquet précédent, auquel on a retiré la première valeur et joint la

valeur suivante de Y (paquets glissants) ;

* on calcule la moyenne en Y de chaque paquet (ce sont les moyennes mobiles), ainsi que sa moyenne en

X (pour situer chaque paquet dans le temps) ;

* on représente graphiquement les points obtenus.

Exemple :

X (trimestres) 1 2 3 4 5 6 7 8

Y (milliers de touristes) 58 22 13 36 60 19 14 33

La périodicité est annuelle, donnée par quatre trimestres.

Etablissons la liste des moyennes mobiles prises cinq par cinq :

X 3 4 5 6

Y 32,5 32,375 32,125 31,875

Cette nouvelle liste de valeurs suggère une légère tendance à la baisse.

nb :

* la première moyenne mobile est la moyenne des valeurs n° 1 (coef 1/2), 2, 3, 4 et 5 (coef 1/2).

Ici : (1/2+2+3+4+5/2)/4 = 3 en x et (58/2+22+13+36+60/2)/4 = 32,5 en y

* la deuxième moyenne mobile est la moyenne des valeurs n° 2 (coef 0,5), 3, 4, 5 et 6 (coef 0,5).

Ici : (2/2+3+4+5+6/2)/4 = 4 en x et (22/2+13+36+60+19/2)/4 = 32,375 en y

* et ainsi de suite…

+

+

+

+

+

+ +

+ + + + +


3.2 Problématique de l’ajustement linéaire Un nuage de points peut refléter un lien entre les deux variables si ses points ne sont apparemment pas

dispersés au hasard. Dans certains cas, ce nuage peut être de forme allongée, relativement fine, avec un

"axe" assez droit montrant une certaine tendance…

Peut-on trouver un axe, une droite, dans ce repère, qui "suive au mieux" l'ensemble du nuage ?

Imaginons que l'on ait tracé une

droite (D), d'équation y′ = ax + b.

Pour une valeur xi choisie, on observe

la valeur yi (ordonnée du point Mi du nuage)

et la valeur y′ = axi + b (sur la droite).

définition : on appelle résidu le nombre

ei = yi – iy′

Le résidu d’un point Mi sera donc positif si ce

point est en-dessus de la droite et négatif dans

le cas contraire.

L’objectif est alors de trouver la droite qui « minimise au mieux » les résidus, celle qui « passe au plus près »

de l’ensemble des points du nuage. On l'appellera droite d'ajustement ou droite de régression de la série

et on dira qu'on fait un ajustement linéaire (ou affine).

La pratique consistant à modéliser un nuage de points par une droite est appelée régression linéaire.

3.3 Méthode de Mayer Certains résidus sont positifs, d'autres négatifs. L'idée de Mayer est de dire que la "meilleure" droite est

celle pour laquelle la somme des résidus est nulle (les résidus négatifs compensent les résidus positifs).

définition : on appelle principe de Mayer celui dont l’ajustement conduit à n

i

i

e=

=∑1

0

étude mathématique :

( )i i i i ie y ax b y a x nb= − − = − −∑ ∑ ∑ ∑

Cette somme vaut zéro 1 1 1

ssi 0 ssi 0i iy a x n b y ax bn n n

− − = − − =∑ ∑

C’est-à-dire : pour obtenir une droite qui annule la somme des résidus, il faut et il suffit que celle-ci

contienne le point moyen du nuage, ( ),G x y . Cette propriété est en soi insuffisante pour rendre la droite

de Mayer unique, puisqu'elle ne porte que sur un point. Il existe une infinité de droites annulant la

somme des résidus !

Méthode de Mayer :

* Diviser le nuage de points en deux parties :

Le nuage est divisé en deux nuages de même nombre de points (n/2) si n est pair, ou si n est impair,

en un nuage de (n+1)/2 points et un autre de (n-1)/2 points. Les valeurs de x (abscisses) des points du

premier nuage sont toutes inférieures à celles des points du second ;

* Calculer les coordonnées de G1 et G2, points moyens des deux nuages ;

* Déterminer (si demandé) l’équation de la droite (G1G2), droite de Mayer (annulant la somme des

résidus) ; tracer cette droite.

remarque : On montre que la droite qui contient les points G1 et G2, points moyens de deux "demi-

nuages", est l'une d'entre elles car elle contient forcément G...

iy′

iy

ix


4 Ajustement linéaire : méthode des moindres carrés

4.1 Paramètres des séries à deux variables

4.1.1

La moyenne de X et celle de Y sont bien entendu :

1

n

i

i

x

xn

==∑

et

n

i

i

y

yn

==∑

1 en l’absence de contingence (données sous forme de listes – voir p.3) ;

r

i i

i

n x

xn

==∑

1 et

k

j j

j

n y

yn

==∑

1 en présence de contingence (tableau croisé contenant des effectifs le plus

souvent supérieurs à 1 – voir p.3).

Le point particulier ( ),G x y est appelé point moyen du nuage de la série.

4.1.2

La variance de X et celle de Y sont le plus simplement (si on souhaite un calcul détaillé) obtenues par le

biais du théorème de Koenig :

( )

r

i

i

x

X xn

== −∑ 2

21V et ( )2

21V

r

i

i

y

Y yn

== −∑

en l’absence de contingence ;

( )2

21V

r

i i

i

n x

X xn

== −∑

et ( )2

21V

r

i i

i

n y

Y yn

== −∑

en présence de contingence.

Les écarts types de X et Y sont bien entendu les racines carrées de leurs variances.

4.1.3

On appelle covariance du couple (X,Y) le nombre : ( )( )( )

, 1Cov

n

i i

i

x x y y

X Yn

=

− −=∑

.

C’est une « variance commune » entre nos deux variables, paramètre indispensable pour étudier la

relation qu’elles entretiennent.

Le théorème de Koenig simplifie son calcul :

( ), 1Cov

n

i i

i

x y

X Y x yn

== − ×∑

(ici sans contingence) et ( ),

r k

ij i j

i j

n x y

X Y x yn

= == − ×∑∑

1 1Cov (avec)

4.1.4

Sur la calculatrice :

Les moyennes et écarts types seront obtenus directement grâce au mode Stat.

Malheureusement, la calculette ne donnera ni les variances, ni la covariance.


4.2 Méthode des moindres carrés L'idée de cette méthode est de considérer le carré de chaque résidu, puis la somme de ces carrés, et enfin

de dire que la "meilleure" droite est celle qui rend cette somme minimale (obtenir la plus petite somme

possible, en considérant l'infinité des droites du plan).

définition : On appelle principe des moindres carrés celui qui consiste à trouver une droite d'ajustement

conduisant à 2

1

est minimum sur le nuagen

i

i

e=∑ (Gauss)

étude mathématique : posons : ( ) ( ),2

i iP a b y ax b= − −∑ : polynôme de deux variables a et b.

On peut développer ce polynôme d'au moins deux manières différentes :

( ) ( ) ( ) ( ), ( )i i i i i i

P a b y ax b nb b y ax y ax= − − = − − + −∑ ∑ ∑2 22 2 (1)

qui est un trinôme du second degré en b ;

( ) ( ) ( ) ( ), ( )i i i i i i iP a b y b ax a x a x y b x y b= − − = − − + −∑ ∑ ∑ ∑ ∑2 22 2 2 (2)

qui est un trinôme du second degré en a.

Dans ce contexte, on peut suivre cet itinéraire :

* considérons a constant et b variable. P(a,b) (1) est minimal lorsque sa dérivée par rapport à b s'annule

(son 1er coefficient, n, est positif), ce qui conduit à b y ax= −

* considérons que b a la valeur précédemment trouvée, et que a est variable. P(a,b) (2) est alors minimal

lorsque sa dérivée par rapport à a s'annule, ce qui conduit à

( )( )

.,i i

i

x y x y X YnaX

x xn

−= =

−

∑

∑ 2 2

1Cov

1 V

Pour les férus de calcul : essayez de retrouver les deux résultats précédents !

remarques :

* le calcul de b entraîne que la droite trouvée contient le point moyen G du nuage ; autrement dit : la

droite des moindres carrés respecte le critère de Mayer.

* la droite des moindres carrés est unique, pour un nuage donné, et est donc la plus utilisée.

méthode des moindres carrés :

* Calculer les coefficients ( )( )

,Cov

V

X Ya

X= et b y ax= − (on peut les obtenir sur calculatrice !)

* Ecrire l'équation de la droite de régression de Y en X, DY/X : y′ = ax + b


4.3 Coefficient de corrélation linéaire Un nuage de points présente un lien plus ou moins fort entre deux variables X et Y, qui se révèle parfois

sous la forme d'un nuage de forme allongée et plutôt droite : dans ce cas on parle bien entendu de

corrélation linéaire.

Le but du coefficient de corrélation linéaire est de chiffrer cette tendance.

coefficient de corrélation linéaire entre X et Y : ( )

( ) ( ),Cov X Y

rX Yσ σ

=

On montre que quelle que soit la série statistique, on a toujours -1 ≤ r ≤ 1

(en pratique, la majuscule R ou la lettre grecque ρ peuvent aussi être employées pour désigner ce

coefficient)

Sur la calculatrice :

En général, une calculatrice le note r. Certains modèles ne le calculent pas.

On choisira donc toujours de calculer soi-même un coefficient de corrélation linéaire (ce qui implique

de calculer au préalable la covariance…).

Interprétation de sa valeur :

Plus la corrélation linéaire est forte (nuage tendant vers une droite), plus |r| est proche de 1.

ATTENTION : LA RECIPROQUE N’EST PAS FORCEMENT VRAIE !

Un coefficient proche de 1 peut être obtenu avec un nuage de points suivant un axe légèrement courbé,

dans une situation pour laquelle l’ajustement linéaire ne serait pas pertinent !

r est positif lorsque Y est globalement fonction croissante de X - "corrélation positive"

r est négatif lorsque Y est globalement fonction décroissante de X - "corrélation négative"

0 ≤ |r| ≤ 0,5 : corrélation linéaire faible, modèle linéaire inadapté.

0,5 ≤ |r| ≤ 0,75 : corrélation linéaire moyenne, modèle linéaire peu fiable.

0,75 ≤ |r| ≤ 0,95 : corrélation linéaire assez forte, modèle linéaire pas forcément le meilleur.

0,95 ≤ |r| ≤ 1 : corrélation linéaire très forte, modèle linéaire peut-être supérieur aux autres.

Remarques :

* lien concret ?

Un coefficient de corrélation linéaire proche de 1 (ou de -1) rend compte d'un nuage de points

presque alignés (il pourrait suivre une courbe), mais ne dit pas que les variables X et Y sont

concrètement liées.

exemple : en France, de 1974 à 1981, le taux de mariages a baissé de manière quasi linéaire, alors

que le PIB a augmenté de manière quasi linéaire. Le quatrième graphique, ci-dessous, montre le

nuage de points obtenu en croisant ces deux variables : la corrélation est très forte.

Cependant, il n'y a pas de relation de cause à effet entre les deux ! (l'évolution du taux de mariage

après 1981 ne correspond plus à la droite d'ajustement).

* corrélation linéaire

r ne rend compte que d'une corrélation linéaire. Il se peut que la corrélation entre X et Y soit très

forte, mais sans que le nuage de points suive une droite. Dans ce cas, r est éloigné de 1 et de -1, et il

faudra prolonger l'étude (voir II-4). Mais si |r| est éloigné de 1, il se peut que l’ajustement linéaire

soit plus adapté que tout autre pour modéliser le nuage de points – voir les deux premiers exemples

page suivante.


Quelques exemples :

revenus (€)

r = 0,8449 ancienneté

taux de réussite en collège / % de CSP

défavorisées

r = -0,7457

marge unitaire (€/u)

r = 0,6438 quantité (milliers d'u)

r = -0,9875

Attention, encore une fois, à la pertinence d’un ajustement linéaire : le fait de connaître r, a et b n’est pas

suffisant pour nous donner le droit de représenter une série bivariée par une droite !

R. Tomassone, E. Lesquoy et C. Miller, dans leur remarquable ouvrage « La régression, nouveaux regards sur

une ancienne méthode statistique » (Masson, 1983), présentent (p.21) les cinq séries de la page suivante.

Il se trouve que toutes les cinq ont, jusqu’à la troisième décimale, le même coefficient de corrélation linéaire

et les mêmes coefficients de droite de régression des moindres carrés (un peu plus d’écarts pour b) ;

pourtant, les cinq nuages de points sont très différents !

(pour info, page suivante : 0,785 < r < 0,786 ; 0,808 < a < 0,809 ; 0,519 < b < 0,524)


X1 Y1 X2 Y2 X3 Y3 X4 Y4 X5 Y5

7 5,535 7 0,113 7 7,399 7 3,864 13,715 5,654

8 9,942 8 3,77 8 8,546 8 4,942 13,715 7,072

9 4,249 9 7,426 9 8,468 9 7,504 13,715 8,491

10 8,656 10 8,792 10 9,616 10 8,581 13,715 9,909

12 10,737 12 12,688 12 10,685 12 12,221 13,715 9,909

13 15,144 13 12,889 13 10,607 13 8,842 13,715 9,909

14 13,939 14 14,253 14 10,529 14 9,919 13,715 11,327

14 9,45 14 16,545 14 11,754 14 15,86 13,715 11,327

15 7,124 15 15,62 15 11,676 15 13,967 13,715 12,746

17 13,693 17 17,206 17 12,745 17 19,092 13,715 12,746

18 18,1 18 16,281 18 13,893 18 17,198 13,715 12,746

19 11,285 19 17,647 19 12,59 19 12,334 13,715 14,164

19 21,365 19 14,21 19 15,04 19 19,761 13,715 15,582

20 15,692 20 15,577 20 13,737 20 16,382 13,715 15,582

21 18,977 21 14,652 21 14,884 21 18,945 13,715 17,001

23 17,69 23 13,947 23 29,431 23 12,187 33,281 27,435

série 1 série 2

série 3 série 4

série 5


5 Ajustement non linéaire : le changement de variable Il est pratiqué lorsque le nuage de points semble suivre la courbe d'une fonction.

La fonction à envisager sera toujours indiquée dans un énoncé. Elle peut être notamment :

* une fonction logarithme ou exponentielle

* une fonction du second degré ou puissance

* une fonction trigonométrique

* Une des deux variables X ou Y (ou les deux !) est remplacée par une nouvelle variable, notée T par

exemple, selon un mode de calcul donné par l’énoncé.

Exemple :

X 2 3 5 8

Y 9 13 28 70

Y semblant varier comme le carré de X, plus 5, l’énoncé proposera le changement de variable T = X ².

On établira alors le tableau suivant, où T remplace X :

T 4 9 25 64

Y 9 13 28 70

* On effectue une régression linéaire entre ces deux nouvelles variables, en respectant leur ordre.

Exemple :

ici, il s’agit de déterminer une équation de droite de type y′ = at + b.

Si on nous impose la méthode des moindres carrés, les coefficients a et b sont simplement obtenus

grâce à la calculatrice : y′ = 1,02526 t + 3,856

* Enfin, on détermine la relation de régression de Y sur X, en réécrivant le changement de variable, pour

obtenir l’équation de la courbe de régression qu’on aura éventuellement à tracer.

Exemple :

Puisque y′ = 1,02526 t + 3,856, on obtient : y′ = 1,02526 x² + 3,856

(cette dernière est l’équation d’une parabole)


6 Statistiques prévisionnelles

6.1 Estimation ponctuelle La droite d'ajustement obtenue (sans ou avec changement de variable) permet de par son équation

d'estimer une valeur de la variable expliquée Y en choisissant une valeur non explorée de la variable

explicative X (en général supérieure à celles récoltées dans la série). En l'occurrence, si X représente une

date, il est permis de faire une prévision sur le futur.

Par exemple : une droite d’ajustement a pour équation y = 0,85x + 22.

a. On veut une estimation de y pour x0 = 10. y’0 = 0,85×10 + 22 = 30,5.

b. On veut une estimation de x pour y0 = 39. x’0 = (39 – 22)/0,85 = 20.

6.2 Estimation par intervalle de confiance La valeur donnée par une estimation ponctuelle est à prendre avec du recul : suivant la valeur du

coefficient de corrélation linéaire (donc suivant la dispersion du nuage de points), on peut lui faire plus ou

moins confiance.

L'idée ici est de donner une fourchette pour l'estimation faite, plutôt qu'une valeur unique, et de savoir

dire quelle est la probabilité que la valeur réelle, non encore mesurée, se trouve dans cet intervalle.

Méthode des rapports (en corrélation linéaire, pour estimer y à partir de x) :

1. Pour chaque valeur xi du tableau de données :

* calculer les valeurs y'i d'après l'équation de la droite de régression

* calculer les rapports zi = yi / y'i

* calculer la moyenne et l'écart-type des valeurs zi de la variable Z

2. La variable Z est considérée comme distribuée par une loi normale. Il en découle entre autres que :

95 % des valeurs de Z se trouvent dans l'intervalle [ ];Z Z

z zσ σ− +1,96 1,96

99 % des valeurs de Z se trouvent dans l'intervalle [ ];2,58 2,58Z Z

z zσ σ− +

3. Calculer la valeur y'0 associée à la nouvelle valeur souhaitée x0, d'après la régression linéaire.

On estime alors la valeur réelle y0, inconnue, comme suit :

Il y a 95% de chances que y0 se trouve dans ( ) ( );0 01,96 1,96Z Zy z y zσ σ′ ′ − +

Il y a 99% de chances que y0 se trouve dans ( ) ( );0 02,58 2,58Z Zy z y zσ σ′ ′ − +

remarques :

* cette méthode n'est valable que pour r > 0 (corrélation positive)

* le taux (95%, 99%, etc.) s'appelle niveau de confiance de l'estimation.

Son complémentaire (5%, 1%, etc.) est le seuil de risque.

* l'amplitude d'un tel intervalle de confiance (donc l'incertitude) augmente lorsque :

. le niveau de confiance désiré augmente,

. |r| diminue,

. x0 s'éloigne des valeurs xi de la série relevée.


IUT TC MATHEMATIQUES FORMULAIRE STATISTIQUES A DEUX VARIABLES

Table de la loi du χ²

Le tableau donne les valeurs χ²lim

telles que p(χ² > χ²lim) = α

α α α α

Lorsque d (nombre de ddl) est supérieur à 30, la valeur χ²lim s’obtient avec une bonne précision par :

( )2

2

lim

2 1

2

u dχ

+ −=

où u est le coefficient de loi normale centrée réduite :

α 1% 2,5% 5% 10%

u 2,3263 1,96 1,6449 1,2816

χ²lim

χ²

α (p-valeur) 1 − α

s2 - stat2var - cours - rev 2020 · iv-1 paramètres des séries à deux variables 12 iv-2 méthode...

Documents