statistique pour la logistique chapitre 2 : statistique ......•statistique descriptive cas des...
TRANSCRIPT
-
STATISTIQUE POUR LA LOGISTIQUEChapitre 2 : Statistique Descriptive© A. AIT EL CADI [email protected]
-
A. AIT EL CADI
Plan de la séance• Introduction à la statistique descriptive
• Le diagramme tige-feuille
• L’histogramme
• Les mesures de position
• Les mesures de dispersion
• Autres méthodes d’analyse
• Statistique descriptive Cas des données
groupées
-
A. AIT EL CADI
3
Introduction
Lors d’une analyse statistique on dispose d’un
grand nombre de données brutes inexploitable.
Le but de la statistique descriptive est de
résumer ces données et de les présenter sous
forme synthétique à pouvoir en dégager des
renseignement utile.
-
A. AIT EL CADI
4
Introduction
• Pour ce, la statistique descriptive dispose d’outils, tels que :
Représentations graphiques : le diagramme « tige-feuille», l’histogramme, etc…
Les mesures (indices) de position : la moyenne, la médiane, le mode, les quantiles.
Les mesures (indices) de dispersion : l’étendue, l’écart interquartile, la variance, l’écart-type.
Autre méthodes d’analyse : le diagramme « Box-Plot », le diagramme quantile-quantile, le diagramme de dispersion, la droite des moindres carrés, le coefficient de corrélation.
-
A. AIT EL CADI
5
Introduction
Durant tout ce chapitre, on considère une variable X et un échantillon de population associée : x1, x2, …, xn.
On suppose que les valeurs de cet échantillon sont classés selon un ordre croissant.
-
A. AIT EL CADI
Le diagramme tige-feuille
6
On l’appelle aussi le diagramme arborescent. C’est le diagramme le plus simple parmi toutes les représentation graphique.
-
A. AIT EL CADI
Le diagramme tige-feuille
7
• Construction▫ Ce dernier peut être vu comme une sorte
d’histogramme, retenant d’un côté d'avantage d’information que ce dernier, tout en étant plus rudimentaire d’un point de vue strictement graphique.
▫ C'est une sorte d’histogramme horizontal construit en prenant comme base une colonne d’entiers ordonnés (une tige) représentant les premiers chiffres des observations, puis en inscrivant à droite de chaque chiffre de la colonne le deuxième chiffre arrondi (une feuille) de chacune des observations commençant par ce chiffre.
-
A. AIT EL CADI
Le diagramme tige-feuille
8
• ExerciceOn considère l’échantillon, résumé dans le tableau ci-dessous, des durées de 34 opérations de picking en minutes.
Représenter ces données sous forme d’un diagramme tige-feuille.
-
A. AIT EL CADI
Le diagramme tige-feuille
9
• ExerciceLe diagramme tige-feuille associé est le suivant :
-
A. AIT EL CADI
L’histogramme
Le graphique le plus utilisé pour représenter des variables continues est l’histogramme. Celui-ci un outil très flexible permettant de se faire une bonne idée de la densité, de même que de la variabilité, de l’asymétrie et de l’aplatissement de la distribution des observations.
10
-
A. AIT EL CADI
L’histogramme• Tableau de distribution des fréquences▫ La longueur et le nombre des intervalles K sont
arbitraires. Mais leur choix influence de manière importante la représentation graphique.
▫ Après avoir choisi les intervalles et calculé pour chacun la fréquence, on ramène les données brutes à un tableau de fréquence de la forme suivante :
11
-
A. AIT EL CADI
L’histogramme
0
2
4
6
8
10
12
14
16
0,6 0,8 1,0 1,2 1,4 1,6
12
• Construction de l’histogramme des fréquences▫ Si on pose bj = aj - aj-1(diamètre de
l’intervalle), l’histogramme est construit en élevant au-dessus du jieme intervalle un rectangle de hauteur hj telle que l’aire bjhjest proportionnelle à la fréquence nj.
▫ On peut prendre par exemple hj = nj/bj .
▫ Si tous les intervalles sont de même longueur, cela revient à prendre hjproportionnelle (voir égale) à nj.
▫ Pour certaines données, il est souhaitable de définir des intervalles de longueurs inégales, mais nous ne considérerons pas ce cas ici.
Polygone des fréquences
-
A. AIT EL CADI
L’histogramme
13
• Exercice :
On considère le même exemple des opérations de picking :
▫ Déterminer la table de fréquence associée
▫ Dessiner l’histogramme.
▫ Quelle est la probabilité que la durée d’une opération de commande soit inférieur à 1,5 min.
-
A. AIT EL CADI
L’histogramme
14
• Exercice :
La table de fréquence associée est :
Intervalle EffectifsEffectifs
CumulésFréquences
Fréquence
cumulées
1 1 0,03 0,03
9 10 0,26 0,29
14 24 0,41 0,71
2 26 0,06 0,76
4 30 0,12 0,88
4 34 0,12 1,00
Total 34 - 1
-
A. AIT EL CADI
L’histogramme
15
0%
5%
10%
15%
20%
25%
30%
35%
40%
45%
0.6 0.8 1.0 1.2 1.4 1.6
• Exercice :
L’histogramme associée est :
-
A. AIT EL CADI
L’histogramme
16
• Exercice :
L’histogramme cumulé (Graphe en escalier) associée est :
Remarque : Comment déterminer le nombre d’intervalles (classes) K?
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0,6 0,8 1,0 1,2 1,4 1,6
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0,6 0,8 1,0 1,2 1,4 1,61.5
0.84
Ogive
-
A. AIT EL CADI
Les mesures de position
• Moyenne :
• Médiane :
• Mode : C’est la valeur la plus fréquente. Il n’est pas unique
pairestnsi
xx
impairestnsix
x nn
n
2
~)1
2()
2(
)2
1(
n
x
x
n
i
i 1
-
A. AIT EL CADI
Les mesures de position
18
• Les quantiles : xp (0
-
A. AIT EL CADI
Les mesures de position• Exercice :
Calculer, pour chacun de ces jeux de données, la moyenne, la médiane et les quartiles
-
A. AIT EL CADI
Les mesures de position• Exercice :
La réponse
-
A. AIT EL CADI
Les mesures de dispersion
)(min)(max11
i
n
ii
n
ixxR
• Étendue :
• Écart interquartile :
• Variance :
Avec
13 QQIQR
1
2
n
SSXs
n
i
i xxSSX1
2)(
-
A. AIT EL CADI
Les mesures de dispersion
• Écart-type :
• Coefficient de variation échantillonnal (C.V.):
2ss
x
sVC ..
-
A. AIT EL CADI
Les mesures de dispersion• Exercice :
Calculer, pour chacun de ces jeux de données, l’étendue, l’écart interquartile, la variance, l’écart-type et le coefficient de variation.
-
A. AIT EL CADI
Les mesures de dispersion
24
• Exercice :
La réponse
-
A. AIT EL CADI
Autres Méthodes d’analyseBox Plot (PoidsTaille_Pucerons.sta 4v*410c)
Median = 1,056
25%-75%
= (0,984, 1,244)
Non-Outlier Range
= (0,781, 1,619)
Outliers
ExtremesNewVar
0,0
0,2
0,4
0,6
0,8
1,0
1,2
1,4
1,6
1,8
2,0
• Le diagramme de Tukey (ou Box-Plot)
Q1Q2
Q3
I1
I2
IQR
1.5*IQR
1.5*IQR
3*IQR
3*IQR
E1
E2
-
A. AIT EL CADI
Autres Méthodes d’analyse
Quantile-Quantile Plot of Poids (PoidsTail le_Pucerons.sta 4v*410c)
Distribution: Normal
Poids = 1,1861+0,259*x
-2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5
Theoretical Quantile
0,01 0,05 0,10 0,25 0,50 0,75 0,90 0,95 0,99
0,4
0,6
0,8
1,0
1,2
1,4
1,6
1,8
2,0
Ob
se
rve
d V
alu
e
• Diagramme Quantile-Quantile
-
A. AIT EL CADI
Autres Méthodes d’analyse• Diagramme de dispersion (ou scatter plot)
Scatterplot (PoidsTaille_Pucerons.sta 3v*34c)
0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0
Poids
0,70
0,75
0,80
0,85
0,90
0,95
1,00
1,05
1,10
Taille
Scatterplot (PoidsTaille_Pucerons.sta 3v*34c)
0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0
Poids
9,5
10,0
10,5
11,0
11,5
12,0
12,5
13,0
13,5
14,0
14,5
age
-
A. AIT EL CADI
Autres Méthodes d’analyse
• Droite des moindres carrées▫ Lorsque le diagramme de dispersion indique une tendance
linéaire entre les deux variables étudiées soit X et Y, on peut alors déterminer l’équation de cette droite qui traduit le lien linéaire entre X et Y.
▫ Cette droite est unique et passe le plus près de tous les points.
▫ D’où la nomination Droite des moindres carrées (droite de régression).
-
A. AIT EL CADI
Autres Méthodes d’analyse
Scatterplot (PoidsTaille_Pucerons.sta 3v*34c)
Taille = 0,5676+0,2499*x
0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0
Poids
0,70
0,75
0,80
0,85
0,90
0,95
1,00
1,05
1,10
Ta
ille
Poids:Tail le: r2 = 0,8216; r = 0,9064; p = 0,0000; y = 0,567573127 + 0,24988182*x
• Droite des moindres carrées
-
A. AIT EL CADI
• Comment déterminer cette droite des moindres carrées
▫ Soit : y = b0 + b1 . x l’équation de cette droite.
▫ On sait que cette droite est la plus proche de tous les points (xi, yi).
▫ Calculons la somme des distance entre la droite et tous les points (xi, yi) qui représentent nos deux échantillon:
Autres Méthodes d’analyse
n
i
ii
b
bxbybbG
1
2
2
1
0110
1),(
-
A. AIT EL CADI
• Comment déterminer cette droite des moindres carrées▫ Donc pour trouver cette droite, il suffit de trouver b0 et b1
qui minimise l’expression ci-dessus, donc qui vérifient :
▫ On trouve :
Autres Méthodes d’analyse
0),(
0),(
1
10
0
10
b
bbG
b
bbG
xbyb
SSX
SPXY
xx
yyxx
bn
i
i
n
i
ii
10
1
2
11
)(
))((
-
A. AIT EL CADI
• La covariance échantillonnale :
• Coefficient de corrélation :
• Coefficient de détermination :
Autres Méthodes d’analyse
YX
XY
SS
S
SSYSSX
SPXYr
.
1
n
SPXYSXY
22 rR
-
A. AIT EL CADI
Autres Méthodes d’analysePoids Taille age
0,781 0,788 11
0,917 0,795 10
0,945 0,847 12
0,953 0,823 10
0,954 0,799 14
0,956 0,838 14
0,984 0,748 11
0,994 0,853 12
0,996 0,802 14
0,996 0,826 13
1,016 0,805 14
1,021 0,792 10
1,030 0,867 12
1,049 0,817 13
1,049 0,841 14
1,056 0,799 11
1,081 0,858 10
1,086 0,837 14
1,105 0,792 10
1,131 0,877 13
1,149 0,808 11
1,162 0,817 14
1,171 0,888 12
1,199 0,855 12
1,244 0,904 10
1,388 0,953 11
1,428 0,924 13
1,493 0,874 14
1,519 0,951 14
1,595 1,000 13
1,619 0,945 12
1,700 1,006 13
1,768 0,999 10
1,794 1,050 10 33
Droite des moindres carrées
• Exercice
On considère le tableau suivant qui résume les mesures de poids de taille et d'âge des pucerons. Et on s’intéresse à l’étude des liens entre ces différentes mesures deux à deux.
-
A. AIT EL CADI
Autres Méthodes d’analyse
Scatterplot (PoidsTaille_Pucerons.sta 3v*34c)
Taille = 0,5676+0,2499*x
0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0
Poids
0,70
0,75
0,80
0,85
0,90
0,95
1,00
1,05
1,10
Ta
ille
Poids:Tail le: r2 = 0,8216; r = 0,9064; p = 0,0000; y = 0,567573127 + 0,24988182*x
Droite des moindres carrées (Taille/ Poids)
• Solution
-
A. AIT EL CADI
Autres Méthodes d’analyseDroite des moindres carrées (Taille/ Poids)
• Solution
La droite des moindre carrés :
Taille = 0,5676+0,2499*poids
Le coefficient de corrélation :
r = 0,9064
Le coefficient de détermination :
R2 = 0,8216 (82,16 %)
-
A. AIT EL CADI
Autres Méthodes d’analyse
Scatterplot (PoidsTaille_Pucerons.sta 3v*34c)
age = 12,2465-0,1335*x
0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0
Poids
9,5
10,0
10,5
11,0
11,5
12,0
12,5
13,0
13,5
14,0
14,5
ag
e
Poids:age: r2 = 0,0005; r = -0,0233; p = 0,8957; y = 12,2465451 - 0,133465567*x
Droite des moindres carrées (Age/Poids)
• Solution
Le coefficient de corrélation :
r = -0,0233
Le coefficient de détermination :
R2 = 0,005 (0.5 %)
-
A. AIT EL CADI
Statistique descriptive - Cas des données groupées
• Cas de regroupement par valeur :
Dans ce cas la moyenne devient :
Et la variance :
Et idem pour les autres statistiques.
Valeurs (xi) Effectifs (ni) Fréquences (fi)
0,7 1 0,03
0,9 9 0,26
1,1 14 0,41
1,3 2 0,06
1,5 4 0,12
1,7 4 0,12
Total 34 1
p
i
iip
i
i
p
i
ii
xfou
n
xn
x1
1
1
p
i
iip
i
i
p
i
ii
xxfou
n
xxn
s1
2
1
1
2
2 )(
)(
-
A. AIT EL CADI
Statistique descriptive - Cas des données groupées
Classes Effectifs (ni) Fréquences (fi)
0,7 1 0,03
0,9 9 0,26
1,1 14 0,41
1,3 2 0,06
1,5 4 0,12
1,7 4 0,12
Total 34 1
• Cas de regroupement par classe :
Dans ce cas on remplace chaque classe par son milieu et on applique les formules ci-dessus.