opération et systèmes de décision faculté des sciences de l administration mqt-21919...
TRANSCRIPT
Opération et systèmes de décisionFaculté des Sciences de l ’administration
MQT-21919 Probabilités et statistique
Mesures caractéristiques
LecturesLectures
Livre du cours:– Sections 3.1, 3.2, 3.6 et annexe 3.2
Volume recommandé: "Statistique et gestion en économie"– Sections 2.3.1, 2.3.2
Étape 3 : Calcul des mesures Étape 3 : Calcul des mesures caractéristiquescaractéristiques
Si les données sont issues d’un échantillon de n éléments, les mesures numériques sont calculées en utilisant ces n observations– Ces mesures sont appelées des statistiques d’échantillon
Si elles sont issues d’une population, on parle alors de paramètres de la population– Paramètres souvent inconnus, on cherche à les estimer en
calculant des statistiques d'échantillon aussi appelées estimateurs ponctuels.
Calcul des mesures caractéristiquesCalcul des mesures caractéristiques
Méthodes numériques qui permettent de résumer les données
Ces nombres représentatifs que nous nommons caractéristiques des séries statistiques permettent d’ajouter une signification concrète à l’interprétation des résultats et faciliteront la comparaison de deux ou plusieurs séries de données
Calcul des mesures caractéristiquesCalcul des mesures caractéristiques
On distingue deux types de caractéristiques :– Les caractéristiques de tendance centrale (de position)
• Elles permettent d'obtenir une idée de l'ordre de grandeur des valeurs de la série et indiquent la position où semble se rassembler les valeurs de la série
– Les caractéristiques de dispersion:• Elle quantifient les fluctuations des valeurs observées et
leur étalement
Calcul des mesures caractéristiquesCalcul des mesures caractéristiques
Les caractéristiques de position (tendance centrale): – La moyenne arithmétique– La médiane– Le mode– Les percentiles (fractiles, quantiles)
La moyenne pour des données non-La moyenne pour des données non-groupéesgroupées
Lorsque les données à traiter sont celles de toute
une population
n
x
x
n
ii
1
N
xN
ii
1
Lorsque les données à traiter proviennent d’un
échantillon
Pour données non-groupées :(si on utilise les fréquences absolues)
La moyenne échantillonnaleLa moyenne échantillonnale
(si on utilise les fréquences relatives)
k
ii
i xn
fx
1
1
1i
k
ii xf
nx
k est le nombre de modalités différentes que prend la variable X
• La statistique la plus utilisée
• Affectée par les valeurs extrêmes
0 1 2 3 4 5 6 7 8 9 10
Moyenne = 5
0 1 2 3 4 5 6 7 8 9 10 12 14
Moyenne = 6
La moyenneLa moyenne
Notation n = le nombre total d’observations
fi = la fréquence absolue de la classe i
Mi = le centre de la classe i
xi = les différentes modalités d’un caractère ou les différentes valeurs prises par une variable statistique.
Moyenne pour données Moyenne pour données groupéesgroupées
Pour données groupées :
1
n
Mf
x
k
iii
Où Mi est le point milieu de la ième
classe
1
N
Mfk
iii
Moyenne pour données groupéesMoyenne pour données groupées
Lorsque les données proviennent d'une
population
Lorsque les données proviennent d'un
échantillon
La médianeLa médiane
La médiane est la valeur qui sépare, aussi exactement que possible, une série statistique en deux parties égales par rapport au nombre de données, une fois celles-ci classées en ordre ascendant
La médiane (pour valeurs non groupées)La médiane (pour valeurs non groupées)
Lorsque les données sont classées en ordre croissant, la médiane correspond à la valeur centrale. Si le nombre d’observations est pair, la médiane est la moyenne des deux observations centrales. S'il est impair, la médiane est la valeur de la série dont le rang est dans le classement ascendant
0 1 2 3 4 5 6 7 8 9 10
Médiane = 5
Médiane = 5
0 1 2 3 4 5 6 7 8 9 10 11 12
Pas affectée par les valeurs extrêmes
1
2
n
LMé: la limite inférieure de la classe contenant la médianen: le nombre total de données dans la série
FMé: la fréquence cumulée jusqu’à la classe médiane (excluant la fréquence de cette classe)
fMé: la fréquence de la classe médiane
C : l’amplitude de la classe
La médiane (pour valeurs groupées)La médiane (pour valeurs groupées)
La médiane (pour valeurs groupées)La médiane (pour valeurs groupées)par interpolation linéairepar interpolation linéaire
Classes Fréquences absolues
Fréquences cumulées croissantes
Moins de 25 ans
18 18
25≤X <30 54 72
30≤X < 35 72 144
35≤X <40 84 228
40≤X < 45 36 264
45≤X < 50 22 286
50 ans et plus 14 300
Cf
FnLMé Mé
Mé -0,5
Mé
= 35,36
5* 84
144-300)*(0,535Mé
Dans le cas de valeurs groupées, on pose l'hypothèse selon laquelle les valeurs sont uniformément réparties à l'intérieur de chaque classe.
Le mode (Mo)Le mode (Mo)
Le mode d’une série (s’il existe) est la valeur la plus fréquente.– Pour valeurs non groupées: exemple ci-dessous
– Pour valeurs groupées, on parle plutôt de classe modale
– Pas affecté par les valeurs extrêmes
– Il peut y avoir plusieurs modes
– Il peut ne pas y avoir de mode
– OK avec données qualitatives et quantitatives
Mode = 9
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14Aucun mode
Extrait du volume Martel et Nadeau (p. 55)
CLMo21
1Mo
LMo = la limite inférieure de la classe modale
= la différence entre la fréquence de la classe modale et la fréquence de la classe précédente
= la différence entre la fréquence de la classe modale et la fréquence de la classe suivante
C = l’amplitude de la classe modale
1
2
Le mode (pour valeurs groupées)Le mode (pour valeurs groupées) par interpolation linéaire par interpolation linéaire
Le mode (pour valeurs groupées)Le mode (pour valeurs groupées)
CLMo21
1Mo
ClassesSalaires
hebdomadaires
Fréquences Fréquences relatives
Fréquences relatives cumulées
215-234,99 4 0,0533 0,0533
235-254,99 6 0,0800 0,1333
255-274,99 13 0,1734 0,3067
275-294,99 22 0,2933 0,6000
295-314,99 15 0,2000 0,8000
315-334,99 6 0,0800 0,8800
335-354,99 5 0,0667 0,9467
355-374,99 4 0,0533 1
Mo = 286,25
02)1522()1322(
)1322(752Mo
Tableau 2.5 Extrait de Martel et Nadeau (p. 29) ,
Les percentiles (fractiles, quantiles) pour données Les percentiles (fractiles, quantiles) pour données non groupéesnon groupées
- Le pe percentile est une valeur telle qu’au moins p% des observations ont une valeur inférieure ou égale à cette valeur - Le percentile fournit des informations sur la manière dont les observations sont réparties dans l'intervalle entre la plus petite et la plus grande valeur
Étape 1 : classer les données en ordre croissant
Étape 2 : calculer un indice i
Étape 3 : - Si i n’est pas un nombre entier, l’arrondir. La position du pe percentile correspond à l’entier supérieur à i. - Si i est un nombre entier, la position du pe percentile correspond à la moyenne des valeurs des observations i et i+1.
np
i
100
Les percentiles (fractiles, quantiles) pour données Les percentiles (fractiles, quantiles) pour données non groupéesnon groupées
- Exemple: 85e percentile de la série des salaires mensuels :2350 2450 2550 2380 2255 2390 2630 2440 2825 2420 2380
Étape 1 : classer les données en ordre croissant2210 2255 2350 2380 2380 2390 2420 2440 2450 2550 2630 2825
Étape 2 : calculer un indice i
Étape 3 : - Si i n’est pas un nombre entier, l’arrondir. La position du pe percentile correspond à l’entier supérieur à i (i non arrondi).
i = 11, 85e percentile =2630 - Si i est un nombre entier, la position du pe percentile correspond à la moyenne des valeurs des observations i et i+1.
np
i
100
2,1012100
85
i
Percentiles pour les données groupéesPercentiles pour les données groupées
On peut utiliser la formule d'interpolation linéaire (règle de 3) pour estimer les valeurs individuelles dans une classe, et ensuite appliquer la formule pour calculer un percentile pour des données non-groupées.
Ou on peut calculer le pème percentile comme suit:
Cf
FpLx
px
px
pxp
Lxp: La limite inférieure de la classe qui contient xp
Fxp: La fréquence cumulative jusqu'à la classe
contenant xp (excluant la fréquence de cette classe)
fxp: La fréquence de la classe qui contient xp
C : L'amplitude de la classe qui contient xp
PercentilesPercentiles pour données groupéespour données groupées
Cas particulier de percentiles :
Q1 = premier quartile (p=25)
c’est donc la moyenne des valeurs des 3e et 4e observations = (2350+2380)/2= 2365.
Q2 = deuxième quartile (p=50) (médiane)
Q3 = troisième quartile (p=75)
Les quartilesLes quartiles
25% 25% 25% 25%
Q1 Q2 Q3
312100
25
in
pi
100
Les quartiles - données groupéesLes quartiles - données groupées
1
1
1
4
1
nQ
FQ L C
f
3
3
3
34
3
nQ
FQ L C
f
LQi :limite inférieure de la classe qui contient Qi
n: nombre de données dans la sérieFQi: somme des fréquences absolues des classes précédant la classe qui contient le premier (troisième) quartilefQi: fréquence absolue de la classe contenant le ième quartileC: amplitude de la classe
Les caractéristiques de dispersionLes caractéristiques de dispersion
Elles quantifient les fluctuations des valeurs observées et leur étalement.
Variation
Variance Écart type
Population:Variance =
Échantillon:
Variance=S
Population:Écart type =
Échantillon Écart type=S
Étendue
Étendue interquartile
Variation
Variance Écart type
Population:Variance =
Échantillon:
Variance=S
Population:Écart type =
Échantillon Écart type=S
Étendue
Étendue interquartile
C’est la différence entre la plus grande valeur et la plus petite valeur de la série statistique.
E =
*Ignore comment les données sont réparties
L’étendue (E)L’étendue (E)
minmax xx
7 8 9 10 11 12
Étendue = 12 - 7 = 5
7 8 9 10 11 12
Étendue = 12 - 7 = 5
Mesure l’étendue de la moitié centrale des observations
Étendue interquartile =
Pas affectée par les valeurs extrêmes.
Etendue interquartile EIQEtendue interquartile EIQ
13 QQ
Variance et écart typeVariance et écart type
Cette mesure (la variance) évalue l’étalement d’une série par rapport à la moyenne.
Variance pour données non groupées :
1
2
2
n
xxs
i N
xi
2
2
Variance d’un échantillon
Variance d’une population
Ou encore (pour données non groupées):
Variance et écart typeVariance et écart type
1
22
2
n
xnx
s ii
L’écart type est simplement la racine carrée de la variance.
Calcul de la variance d’échantillonCalcul de la variance d’échantillon
Salaire mensuel
Moyenne d’échantillon
Écart par rapport à la moyenne
Écart au carré par rapport à la moyenne
2350 2440 -90 8 1002450 2440 10 1002550 2440 110 12 1002380 2440 -60 3 600
2255 2440 -185 34 225
2210 2440 -230 52 900
2390 2440 -50 2 5002630 2440 190 36 1002440 2440 0 02825 2440 385 148 2252420 2440 -20 4002380 2440 -160 3 600
xxi 2xxi
0xxi 850 3012xxi
91,440 27
11
850 301
1
22
n
xxs i
Variance et écart typeVariance et écart type
Variance pour données groupées :
1
2
2
n
xMf
s iii
N
Mfi
ii
2
2
Si on a un élément par classe, alors Mi correspond à xi
VarianceVariance
Une autre façon de la calculer pour des données groupées:
1
22
2
n
xnMf
si
ii 2 2
2i i
i
f M N
N
Comparaison d’écarts typesComparaison d’écarts types
Moy. = 15,5 s = 3,338 11 12 13 14 15 16 17 18 19 20 21
11 12 13 14 15 16 17 18 19 20 21
Groupe B
Groupe A
Moy. = 15,5 s = 0,9258
11 12 13 14 15 16 17 18 19 20 21
Moy. = 15,5 s = 4,57
Groupe C
Le coefficient de variation est une mesure de dispersion relative, il permet d’apprécier la représentativité de la moyenne arithmétique par rapport à l’ensemble des observations (souvent
exprimé en %).
Le coefficient de variationLe coefficient de variation
100%
X
SCV
Exemple 3Exemple 3
Vous trouverez dans le tableau ci-dessous la distribution des fréquences de la taille en mm de 100 poissons choisis au hasard à partir de pêches effectuées au large de la Californie:
– Estimer la taille moyenne des poissons et l'écart type. 382,75; 32,31
– Trouver la taille médiane des poissons et le mode. 383,3; 387,5
– Dessiner l'histogramme de ces données
– Quels sont les premier et troisième quartiles?• Plusieurs réponses sont acceptées: Q1=362,5 ou 359,38 ou 358,85
• Plusieurs réponses sont acceptées: Q3=412,5 ou 405,68 ou 405,13
Longueur (mm) Nombre de poissons 275 à 300 1 300 à 325 1 325 à 350 14 350 à 375 24 375 à 400 30 400 à 425 22 425 à 450 6 450 à 475 2
Total 100
Exemple 4Exemple 4Selon une étude faite en septembre 1997 par l’Institut de recherche et d’information sur la
rémunération (IRIR), les employés municipaux gagnent cette année 30 % de plus que les
fonctionnaires provinciaux du Québec. Pour vérifier le bien-fondé de cette recherche, vous avez recueilli les
données suivantes:
Employés municipaux Fonctionnaires provinciaux
Classe de revenu Fréquence Classe de revenu Fréquence
25 000 ≤ X < 35 000 2 15 000 ≤ X < 25 000 1
35 000 ≤ X < 45 000 8 25 000 ≤ X < 35 000 4
45 000 ≤ X < 55 000 8 35 000 ≤ X < 45 000 10
55 000 ≤ X ≤ 65 000 7 45 000 ≤ X ≤ 55 000 5
a) Estimez le pourcentage des employés municipaux qui ont un salaire annuel supérieur à 48 150 $ 50%
b) Quel est le salaire annuel moyen des employés municipaux ? 48 000 $
c) Quel est l’écart type du salaire annuel des employés municipaux ? 9574,27 $
d) Trente-trois pour cent (33 %) des fonctionnaires provinciaux les mieux payés ont un salaire annuel
supérieur à quelle valeur ? 43 400 $
e) Si le salaire annuel moyen des fonctionnaires provinciaux est de 39 500 $ et si l’écart type de
ce salaire annuel est 8 255,78 $, est-il vrai de dire, d’après notre échantillonnage, que les
employés municipaux gagnent cette année 30 % de plus que les fonctionnaires provinciaux
du Québec ? Justifier votre réponse.