statistique descriptive et elements de...
TRANSCRIPT
1
2013/2014 1
STATISTIQUE DESCRIPTIVE
ET ELEMENTS DE
PROBABILITESBertrand Mareschal
http://homepages.ulb.ac.be/~bmaresc/STATS102.html
2013/2014 2
Gestion
Statistique
Mathématique
InformatiqueApproche quantitative
en gestion
2
2013/2014 3
Statistique à la SBS-EM
BA1, BA2
Mathématique
Statistique
Informatique
BA3
Statistique
Econométrie
MA
Cours avancés
Recherche opérationnelle
Econométrie
Mémoire
2013/2014 4
Statistique descriptive et
élements de probabilités• Notes de cours
– Copie des transparentshttp://homepages.ulb.ac.be/~bmaresc/STATS102.html
– Ouvrages de référence• Notes de cours et exercices PUB
• Eléments de Statistique (J.J. Droesbeke, Editions de l’ULB)
• Autres livres…
• Examen écrit sans notes (janvier)– Partie théorique
– Partie pratique
3
2013/2014 5
Plan du cours
1. Introduction
2. Statistique descriptive – séries univariées
3. Calcul des probabilités
4. Arbres de décision
5. Variables aléatoires et lois de probabilité
6. Statistique descriptive – séries bivariées
7. Méthodes de prévision
2013/2014 6
1. Introduction
• Contexte
• Historique
• Prise de décision
• Aide à la décision
• Modélisation
• Principaux outils
• Statistique
4
2013/2014 7
Contexte
• Augmentation de la taille et de la complexitédes organisations.
• Division du travail, spécialisation, décentralisation des responsabilités et de la gestion.
• Nouveaux problèmes liés à la spécialisation :– Plus grande autonomie des départements
au sein des organisations,
– Manque de coordination,
– Objectifs conflictuels,
– Difficulté d’allouer des ressources limitées aux départements d’une façon globalement optimale.
2013/2014 8
5
2013/2014 9
2013/2014 10
Historique
2ème guerre mondiale• Allocation de ressources limitées aux opérations
militaires.
• Idée : approche scientifique (UK - USA).
• “Research on Operations” par des équipes multidisciplinaires de scientifiques(Cf. “Blackett’s Circus”, UK).
• Grand succès : amélioration de l’efficacité des opérations militaires complexes– déploiement des radars en Angleterre,
– determination de la taille des convois,
– logistique …
6
2013/2014 11
Déploiement des radars
2013/2014 12
Déploiement des radars
7
2013/2014 13
Protection des convois
2013/2014 14
Débarquement
8
2013/2014 15
Historique
Après-guerre• Succès des applications militaires.
• Intérêt marqué des entreprises pour la RO.
• Applications civiles, d’abord dans les grandes entreprises industrielles :– Ex: industrie pétrolière - programmation linéaire
pour la gestion de la production
• Plus tard, resultats utilisés (à moindre coût) par des organisations plus petites.
• Facteur clé : développement de l’informatique.
2013/2014 16
Prise de Décision
• Décrire la Réalité,
• Comprendre la Réalité,
• Gérer la Réalité.
2 Approches :
• Approche Qualitative,
• Approche Quantitative.
Réalité•Sociale•Politique•Economique•Industrielle•Environnementale•Militaire
9
2013/2014 17
Aide à la Décision
• Décisions possibles ?
• Comment les comparer ?
• Préférences, Objectifs ?
Modèle quantitatif
Réalité•Sociale•Politique•Economique•Industrielle•Environnementale•Militaire
2013/2014 18
Aide à la Décision
• Approximation de la réalité !
�Aide à la décision.
Modèle quantitatif
Réalité•Sociale•Politique•Economique•Industrielle•Environnementale•Militaire
10
2013/2014 19
Quelques techniques
• Statistique
• Programmation mathématique (optimisation)
• Aide à la décision de type multicritère
• Simulation
• Gestion de projets : PERT/CPM
• Gestion des stocks et de la production
• Réseaux (transport)
• Fiabilité des équipements
2013/2014 20
Statistique ?
• Techniques et procédures pour la collecte, la description, l’analyse et l’interprétation de données.
• Transformer des données en information.
• Données, numériques ou non :
– démographie, emploi, ventes, production, stocks, index des prix, intentions de votes, habitudes de consommation, …
11
2013/2014 21
Sondages
2013/2014 22
Sondages
12
2013/2014 23
Sondages
2013/2014 24
Exemple 1 – Pepsi
13
2013/2014 25
Exemple 1 – Pepsi
2013/2014 26
Statistique – 2 composantes
• Statistique descriptive– Organiser, résumer, représenter un ensemble de
données.
– Représentations graphiques.
– Mesures statistiques (moyenne,…).
• Inférence statistique– Tirer des conclusions pour une population à partir
d’un échantillon prélevé dans cette population.
– Mesurer et prendre en compte l’erreur d’échantillonnage.
14
2013/2014 27
Terminologie
• Population– Ensemble des
éléments étudiés.(individus, pays, entreprises, …)
• Echantillon– Sous-ensemble de la
population pour lequel on récolte des observations et qui peut être analysé.
Echantillon
Population
2013/2014 28
Terminologie
• Variable– Caractéristique mesurable de la population. (chiffre
d’affaire d’une entreprise, temps consacré par un individu à l’utilisation d’une base de données, …)
• Paramètre– Quantité numérique qui résume un aspect de la
population. (valeur moyenne d’une variable)
• Statistique– Quantité numérique qui résume un aspect d’un
échantillon. (valeur moyenne observée sur un échantillon)
15
2013/2014 29
Types de données
• Nominales– Catégories
– Ex: sexe, état-civil, nationalité, secteur économique, …
– Dénombrement
• Ordinales– Catégories ordonnées
– Ex: mentions (Aj, S, D, GD, LPGD), tailles (S,M,L,XL), …
– Dénombrements, comparaison
• Numériques– Nombres
– Ex: cotes, quantités vendues, revenus, …
– Dénombrement, comparaison, différence, rapport, moyenne, …
2013/2014 30
Plan du cours
1. Introduction
2. Statistique descriptive – séries univariées
3. Calcul des probabilités
4. Arbres de décision
5. Variables aléatoires et lois de probabilité
6. Statistique descriptive – séries bivariées
7. Méthodes de prévision
16
2013/2014 31
2. Stat. Descriptive - 1 dim
• Objectif : Résumer les caractéristiques d’un (grand) ensemble de données. Mettre en évidence les points importants.
• Tableaux : Première étape. Tri et regroupement des observations. Distribution de fréquences.
• Graphiques : Visualisation des données. Lignes, barres, histogrammes, diagrammes en secteurs, …
• Mesures : Synthèse des données en quelques grandeurs représentatives.– Quel est l’ordre de grandeur des valeurs observées ?
Paramètres de position (moyenne, médiane, …)
– Y a-t-il de grands écarts entre les valeurs observées ?
Paramètres de dispersion (variance, écart-type, …)
2013/2014 32
Données brutes
• Données telles que recueillies– n observations d’une variable x : série statistique univariée
– Exemple 2 : Ages de 100 employés d’une entreprise (échantillon)
17
2013/2014 33
Série ordonnée
• Si x est ordinale ou quantitative
2013/2014 34
Distribution observée
• Données regroupées en classes (intervalles).
• Effectif d’une classe = nombre d’observations dans cette classe.
18
2013/2014 35
Exemple 3
• Nb de voitures dans 10 familles de même taille.
• Série observée :
• Série ordonnée :
2013/2014 36
Exemple 3
• Distribution observée :
Valeursobservées
Effectifsassociés
19
2013/2014 37
Représentations graphiques
• Diagramme en bâtons : exemple 3
2013/2014 38
Représentations graphiques
• Diagramme en barres : pour variables qualitatives
Cas ordinal
Cas nominal
20
2013/2014 39
Représentations graphiques
• Diagramme en secteurs (tarte, camembert)
2013/2014 40
Fréquences
• Définition :
• Exemple 3 : distribution de fréquences
21
2013/2014 41
Effectifs et fréquences cumulés
• Effectifs cumulés :
• Fréquences cumulées :
2013/2014 42
Effectifs et fréquences cumulés
• Exemple 3 :
Courbe cumulative
22
2013/2014 43
Effectifs et fréquences
cumulés à droite
• Effectifs cumulés à droite :
• Fréquences cumulées à droite :
2013/2014 44
Effectifs et fréquences
cumulés à droite
• Exemple 3 :
Courbe cumulative à droite
23
2013/2014 45
Distribution groupée
• Cf. exemple 2 :
– Grand nombre de valeurs distinctes,
– Petits effectifs.
• Regroupements des valeurs en classes
2013/2014 46
Exemple 4
• Série de 175 tailles
24
2013/2014 47
Diagramme en tiges et feuilles
• « Stem and leaf display »
2013/2014 48
Groupement en classes
• Intervalles disjoints
• Recouvrir toutes les valeurs observées
25
2013/2014 49
Groupement en classes
• J classes :
• J = ? Règle de Sturges :
2013/2014 50
Distribution groupée
26
2013/2014 51
Histogramme des effectifs
2013/2014 52
Histogramme des effectifs
• Attention à l’unité sur l’axe vertical !
• Cas de classes de longueurs différentes.
27
2013/2014 53
Polygone des effectifs
2013/2014 54
Histogramme des effectifs cumulés
28
2013/2014 55
Courbe cumulative
2013/2014 56
Utilisation de graphiques
• Inclure informations utiles.
• Eviter éléments inutiles !
• Préférer la simplicité à la sophistication.
• Choix des unités et des axes.
• …
29
2013/2014 57
Graphiques !
2013/2014 58
Graphiques !
30
2013/2014 59
Graphiques !
2013/2014 60
Graphiques !
31
2013/2014 61
Graphiques !
2013/2014 62
Graphiques !
32
2013/2014 63
2013/2014 64
33
2013/2014 65
2013/2014 66
34
2013/2014 67
2013/2014 68
35
2013/2014 69
Statistique du jour
2013/2014 70
Paramètres d’une série
• Résumer la série en quelques grandeurs-clé !
• 3 catégories de paramètres :– Position
• Valeur typique ? Valeur « centrale » ?
• Moyenne, médiane, mode, …
– Dispersion• Ecarts entre valeurs observées ?
• Etendue, écart interquartile, variance, écart-type, …
– Forme• Symétrie ? Asymétrie ?
36
2013/2014 71
Exemples
2013/2014 72
Paramètres de position
• Objectif : déterminer une valeur centrale
• � Moyenne arithmétique
– Exemple 3 :
– Définition :
37
2013/2014 73
Moyenne
• Propriétés de la moyenne arithmétique
– Uniquement pour données numériques !
– Fortement influencée par les valeurs extrêmes :
2013/2014 74
Moyenne
• Propriétés de la moyenne arithmétique
– Agrégation de 2 séries :
38
2013/2014 75
Moyenne
• Moyenne arithmétique pondérée
2013/2014 76
Moyenne
• Pour une distribution observée :
• Exemple 3 :
39
2013/2014 77
Moyenne
• Pour une distribution groupée :
� Approximation !
2013/2014 78
Paramètres de position
• � Médiane :Valeur telle que le nombre d’observations qui la précèdent est égal au nombre d’observations qui la suivent, dans la série ordonnée.
• Exemple :
40
2013/2014 79
Médiane
• Pour n impair :
• Pour n pair :(convention)
• Avantage de la médiane : pas influencée par les valeurs extrêmes.
2013/2014 80
Médiane
• Pour une distribution observée :
41
2013/2014 81
Médiane
• Pour une distribution groupée :
– Classe médiane :
– Valeur approchée de la médiane :
2013/2014 82
Médiane
• Exemple 4 :
42
2013/2014 83
Paramètres de position
• � Quantiles (percentiles) :
quantile d’ordre p :
2013/2014 84
Quantiles
• Quartiles :
• Déciles :
43
2013/2014 85
Paramètres de position
• � Mode : Valeur la plus fréquente.
2013/2014 86
Paramètres de position
• Autres paramètres :
– Moyenne tronquée d’ordre 1 :
– Moyenne harmonique :
– Moyenne géométrique :
44
2013/2014 87
Moyenne géométrique
• pour des ratios, des taux, des pourcentages (valeurs positives uniquement).
1,10 � 1,20 � 1,15 � 1,12�
2013/2014 88
Moments
• Moment d’ordre r par rapport à c :
• Moment par rapport à l’origine (c = 0) :
• Moment centré :
45
2013/2014 89
Paramètres de dispersion
• Etendue :
• Ecart interquartile :
• Ecart interdécile :
2013/2014 90
Paramètres de dispersion
• Box-Plot :
46
2013/2014 91
Box-Plots
2013/2014 92
Paramètres de dispersion
• Ecart moyen absolu :
• Ecart médian absolu :
47
2013/2014 93
Paramètres de dispersion
• Variance :
• Ecart-type :
• Coefficient de variation :
2013/2014 94
Variance
• Agrégation de deux séries
Variance dans les « groupes »
Variance entre les « groupes »
48
2013/2014 95
Variance
• Calcul :
• Pour une distribution observée :
2013/2014 96
Variance
• Exemple 3 :
49
2013/2014 97
Paramètres de forme
• Box-plot
• Graphique des quantiles
2013/2014 98
Graphique des quantiles
• Exemple C5 :
50
2013/2014 99
Asymétrie
Asymétrie à droite Asymétrie à gauche
Symétrie
2013/2014 100
Coefficients d’asymétrie
• Moment centré d’ordre 3 :
• Coefficient de Fisher (« skewness ») :
51
2013/2014 101
Coefficients d’asymétrie
• Coefficient empirique de Pearson :
• Coefficient empirique de Yule et Kendall :
2013/2014 102
Coefficients d’aplatissement
• Coefficient de Pearson :
• Coefficient de Fisher (Kurtosis) :
52
2013/2014 103
Exemples
2013/2014 104
Transformations de variables
• Transformation linéaire :
– Changement d’origine et d’unité
– Exemple :
53
2013/2014 105
Transformations de variables
• Influence sur les paramètres de position :
• Même transformation pour les autres paramètres de position :
2013/2014 106
Transformations de variables
• Influence sur les paramètres de dispersion :
– Changement d’origine : sur CV seulement,
– Changement d’unité : sur tous sauf CV.
• Exemple :
54
2013/2014 107
Transformations de variables
• Influence sur les paramètres de forme :
– Pas d’influence sur
• Autres transformations :
– Transformation logarithmique :
– Famille de transformations de Tukey :
– Différence (données chronologiques) :