statistique pour la logistique chapitre 2 : statistique ......•statistique descriptive cas des...

38
STATISTIQUE POUR LA LOGISTIQUE Chapitre 2 : Statistique Descriptive © A. AIT EL CADI 2017 [email protected]

Upload: others

Post on 18-Feb-2021

22 views

Category:

Documents


1 download

TRANSCRIPT

  • STATISTIQUE POUR LA LOGISTIQUEChapitre 2 : Statistique Descriptive© A. AIT EL CADI [email protected]

  • A. AIT EL CADI

    Plan de la séance• Introduction à la statistique descriptive

    • Le diagramme tige-feuille

    • L’histogramme

    • Les mesures de position

    • Les mesures de dispersion

    • Autres méthodes d’analyse

    • Statistique descriptive Cas des données

    groupées

  • A. AIT EL CADI

    3

    Introduction

    Lors d’une analyse statistique on dispose d’un

    grand nombre de données brutes inexploitable.

    Le but de la statistique descriptive est de

    résumer ces données et de les présenter sous

    forme synthétique à pouvoir en dégager des

    renseignement utile.

  • A. AIT EL CADI

    4

    Introduction

    • Pour ce, la statistique descriptive dispose d’outils, tels que :

    Représentations graphiques : le diagramme « tige-feuille», l’histogramme, etc…

    Les mesures (indices) de position : la moyenne, la médiane, le mode, les quantiles.

    Les mesures (indices) de dispersion : l’étendue, l’écart interquartile, la variance, l’écart-type.

    Autre méthodes d’analyse : le diagramme « Box-Plot », le diagramme quantile-quantile, le diagramme de dispersion, la droite des moindres carrés, le coefficient de corrélation.

  • A. AIT EL CADI

    5

    Introduction

    Durant tout ce chapitre, on considère une variable X et un échantillon de population associée : x1, x2, …, xn.

    On suppose que les valeurs de cet échantillon sont classés selon un ordre croissant.

  • A. AIT EL CADI

    Le diagramme tige-feuille

    6

    On l’appelle aussi le diagramme arborescent. C’est le diagramme le plus simple parmi toutes les représentation graphique.

  • A. AIT EL CADI

    Le diagramme tige-feuille

    7

    • Construction▫ Ce dernier peut être vu comme une sorte

    d’histogramme, retenant d’un côté d'avantage d’information que ce dernier, tout en étant plus rudimentaire d’un point de vue strictement graphique.

    ▫ C'est une sorte d’histogramme horizontal construit en prenant comme base une colonne d’entiers ordonnés (une tige) représentant les premiers chiffres des observations, puis en inscrivant à droite de chaque chiffre de la colonne le deuxième chiffre arrondi (une feuille) de chacune des observations commençant par ce chiffre.

  • A. AIT EL CADI

    Le diagramme tige-feuille

    8

    • ExerciceOn considère l’échantillon, résumé dans le tableau ci-dessous, des durées de 34 opérations de picking en minutes.

    Représenter ces données sous forme d’un diagramme tige-feuille.

  • A. AIT EL CADI

    Le diagramme tige-feuille

    9

    • ExerciceLe diagramme tige-feuille associé est le suivant :

  • A. AIT EL CADI

    L’histogramme

    Le graphique le plus utilisé pour représenter des variables continues est l’histogramme. Celui-ci un outil très flexible permettant de se faire une bonne idée de la densité, de même que de la variabilité, de l’asymétrie et de l’aplatissement de la distribution des observations.

    10

  • A. AIT EL CADI

    L’histogramme• Tableau de distribution des fréquences▫ La longueur et le nombre des intervalles K sont

    arbitraires. Mais leur choix influence de manière importante la représentation graphique.

    ▫ Après avoir choisi les intervalles et calculé pour chacun la fréquence, on ramène les données brutes à un tableau de fréquence de la forme suivante :

    11

  • A. AIT EL CADI

    L’histogramme

    0

    2

    4

    6

    8

    10

    12

    14

    16

    0,6 0,8 1,0 1,2 1,4 1,6

    12

    • Construction de l’histogramme des fréquences▫ Si on pose bj = aj - aj-1(diamètre de

    l’intervalle), l’histogramme est construit en élevant au-dessus du jieme intervalle un rectangle de hauteur hj telle que l’aire bjhjest proportionnelle à la fréquence nj.

    ▫ On peut prendre par exemple hj = nj/bj .

    ▫ Si tous les intervalles sont de même longueur, cela revient à prendre hjproportionnelle (voir égale) à nj.

    ▫ Pour certaines données, il est souhaitable de définir des intervalles de longueurs inégales, mais nous ne considérerons pas ce cas ici.

    Polygone des fréquences

  • A. AIT EL CADI

    L’histogramme

    13

    • Exercice :

    On considère le même exemple des opérations de picking :

    ▫ Déterminer la table de fréquence associée

    ▫ Dessiner l’histogramme.

    ▫ Quelle est la probabilité que la durée d’une opération de commande soit inférieur à 1,5 min.

  • A. AIT EL CADI

    L’histogramme

    14

    • Exercice :

    La table de fréquence associée est :

    Intervalle EffectifsEffectifs

    CumulésFréquences

    Fréquence

    cumulées

    1 1 0,03 0,03

    9 10 0,26 0,29

    14 24 0,41 0,71

    2 26 0,06 0,76

    4 30 0,12 0,88

    4 34 0,12 1,00

    Total 34 - 1

  • A. AIT EL CADI

    L’histogramme

    15

    0%

    5%

    10%

    15%

    20%

    25%

    30%

    35%

    40%

    45%

    0.6 0.8 1.0 1.2 1.4 1.6

    • Exercice :

    L’histogramme associée est :

  • A. AIT EL CADI

    L’histogramme

    16

    • Exercice :

    L’histogramme cumulé (Graphe en escalier) associée est :

    Remarque : Comment déterminer le nombre d’intervalles (classes) K?

    0%

    10%

    20%

    30%

    40%

    50%

    60%

    70%

    80%

    90%

    100%

    0,6 0,8 1,0 1,2 1,4 1,6

    0%

    10%

    20%

    30%

    40%

    50%

    60%

    70%

    80%

    90%

    100%

    0,6 0,8 1,0 1,2 1,4 1,61.5

    0.84

    Ogive

  • A. AIT EL CADI

    Les mesures de position

    • Moyenne :

    • Médiane :

    • Mode : C’est la valeur la plus fréquente. Il n’est pas unique

    pairestnsi

    xx

    impairestnsix

    x nn

    n

    2

    ~)1

    2()

    2(

    )2

    1(

    n

    x

    x

    n

    i

    i 1

  • A. AIT EL CADI

    Les mesures de position

    18

    • Les quantiles : xp (0

  • A. AIT EL CADI

    Les mesures de position• Exercice :

    Calculer, pour chacun de ces jeux de données, la moyenne, la médiane et les quartiles

  • A. AIT EL CADI

    Les mesures de position• Exercice :

    La réponse

  • A. AIT EL CADI

    Les mesures de dispersion

    )(min)(max11

    i

    n

    ii

    n

    ixxR

    • Étendue :

    • Écart interquartile :

    • Variance :

    Avec

    13 QQIQR

    1

    2

    n

    SSXs

    n

    i

    i xxSSX1

    2)(

  • A. AIT EL CADI

    Les mesures de dispersion

    • Écart-type :

    • Coefficient de variation échantillonnal (C.V.):

    2ss

    x

    sVC ..

  • A. AIT EL CADI

    Les mesures de dispersion• Exercice :

    Calculer, pour chacun de ces jeux de données, l’étendue, l’écart interquartile, la variance, l’écart-type et le coefficient de variation.

  • A. AIT EL CADI

    Les mesures de dispersion

    24

    • Exercice :

    La réponse

  • A. AIT EL CADI

    Autres Méthodes d’analyseBox Plot (PoidsTaille_Pucerons.sta 4v*410c)

    Median = 1,056

    25%-75%

    = (0,984, 1,244)

    Non-Outlier Range

    = (0,781, 1,619)

    Outliers

    ExtremesNewVar

    0,0

    0,2

    0,4

    0,6

    0,8

    1,0

    1,2

    1,4

    1,6

    1,8

    2,0

    • Le diagramme de Tukey (ou Box-Plot)

    Q1Q2

    Q3

    I1

    I2

    IQR

    1.5*IQR

    1.5*IQR

    3*IQR

    3*IQR

    E1

    E2

  • A. AIT EL CADI

    Autres Méthodes d’analyse

    Quantile-Quantile Plot of Poids (PoidsTail le_Pucerons.sta 4v*410c)

    Distribution: Normal

    Poids = 1,1861+0,259*x

    -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5

    Theoretical Quantile

    0,01 0,05 0,10 0,25 0,50 0,75 0,90 0,95 0,99

    0,4

    0,6

    0,8

    1,0

    1,2

    1,4

    1,6

    1,8

    2,0

    Ob

    se

    rve

    d V

    alu

    e

    • Diagramme Quantile-Quantile

  • A. AIT EL CADI

    Autres Méthodes d’analyse• Diagramme de dispersion (ou scatter plot)

    Scatterplot (PoidsTaille_Pucerons.sta 3v*34c)

    0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0

    Poids

    0,70

    0,75

    0,80

    0,85

    0,90

    0,95

    1,00

    1,05

    1,10

    Taille

    Scatterplot (PoidsTaille_Pucerons.sta 3v*34c)

    0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0

    Poids

    9,5

    10,0

    10,5

    11,0

    11,5

    12,0

    12,5

    13,0

    13,5

    14,0

    14,5

    age

  • A. AIT EL CADI

    Autres Méthodes d’analyse

    • Droite des moindres carrées▫ Lorsque le diagramme de dispersion indique une tendance

    linéaire entre les deux variables étudiées soit X et Y, on peut alors déterminer l’équation de cette droite qui traduit le lien linéaire entre X et Y.

    ▫ Cette droite est unique et passe le plus près de tous les points.

    ▫ D’où la nomination Droite des moindres carrées (droite de régression).

  • A. AIT EL CADI

    Autres Méthodes d’analyse

    Scatterplot (PoidsTaille_Pucerons.sta 3v*34c)

    Taille = 0,5676+0,2499*x

    0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0

    Poids

    0,70

    0,75

    0,80

    0,85

    0,90

    0,95

    1,00

    1,05

    1,10

    Ta

    ille

    Poids:Tail le: r2 = 0,8216; r = 0,9064; p = 0,0000; y = 0,567573127 + 0,24988182*x

    • Droite des moindres carrées

  • A. AIT EL CADI

    • Comment déterminer cette droite des moindres carrées

    ▫ Soit : y = b0 + b1 . x l’équation de cette droite.

    ▫ On sait que cette droite est la plus proche de tous les points (xi, yi).

    ▫ Calculons la somme des distance entre la droite et tous les points (xi, yi) qui représentent nos deux échantillon:

    Autres Méthodes d’analyse

    n

    i

    ii

    b

    bxbybbG

    1

    2

    2

    1

    0110

    1),(

  • A. AIT EL CADI

    • Comment déterminer cette droite des moindres carrées▫ Donc pour trouver cette droite, il suffit de trouver b0 et b1

    qui minimise l’expression ci-dessus, donc qui vérifient :

    ▫ On trouve :

    Autres Méthodes d’analyse

    0),(

    0),(

    1

    10

    0

    10

    b

    bbG

    b

    bbG

    xbyb

    SSX

    SPXY

    xx

    yyxx

    bn

    i

    i

    n

    i

    ii

    10

    1

    2

    11

    )(

    ))((

  • A. AIT EL CADI

    • La covariance échantillonnale :

    • Coefficient de corrélation :

    • Coefficient de détermination :

    Autres Méthodes d’analyse

    YX

    XY

    SS

    S

    SSYSSX

    SPXYr

    .

    1

    n

    SPXYSXY

    22 rR

  • A. AIT EL CADI

    Autres Méthodes d’analysePoids Taille age

    0,781 0,788 11

    0,917 0,795 10

    0,945 0,847 12

    0,953 0,823 10

    0,954 0,799 14

    0,956 0,838 14

    0,984 0,748 11

    0,994 0,853 12

    0,996 0,802 14

    0,996 0,826 13

    1,016 0,805 14

    1,021 0,792 10

    1,030 0,867 12

    1,049 0,817 13

    1,049 0,841 14

    1,056 0,799 11

    1,081 0,858 10

    1,086 0,837 14

    1,105 0,792 10

    1,131 0,877 13

    1,149 0,808 11

    1,162 0,817 14

    1,171 0,888 12

    1,199 0,855 12

    1,244 0,904 10

    1,388 0,953 11

    1,428 0,924 13

    1,493 0,874 14

    1,519 0,951 14

    1,595 1,000 13

    1,619 0,945 12

    1,700 1,006 13

    1,768 0,999 10

    1,794 1,050 10 33

    Droite des moindres carrées

    • Exercice

    On considère le tableau suivant qui résume les mesures de poids de taille et d'âge des pucerons. Et on s’intéresse à l’étude des liens entre ces différentes mesures deux à deux.

  • A. AIT EL CADI

    Autres Méthodes d’analyse

    Scatterplot (PoidsTaille_Pucerons.sta 3v*34c)

    Taille = 0,5676+0,2499*x

    0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0

    Poids

    0,70

    0,75

    0,80

    0,85

    0,90

    0,95

    1,00

    1,05

    1,10

    Ta

    ille

    Poids:Tail le: r2 = 0,8216; r = 0,9064; p = 0,0000; y = 0,567573127 + 0,24988182*x

    Droite des moindres carrées (Taille/ Poids)

    • Solution

  • A. AIT EL CADI

    Autres Méthodes d’analyseDroite des moindres carrées (Taille/ Poids)

    • Solution

    La droite des moindre carrés :

    Taille = 0,5676+0,2499*poids

    Le coefficient de corrélation :

    r = 0,9064

    Le coefficient de détermination :

    R2 = 0,8216 (82,16 %)

  • A. AIT EL CADI

    Autres Méthodes d’analyse

    Scatterplot (PoidsTaille_Pucerons.sta 3v*34c)

    age = 12,2465-0,1335*x

    0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0

    Poids

    9,5

    10,0

    10,5

    11,0

    11,5

    12,0

    12,5

    13,0

    13,5

    14,0

    14,5

    ag

    e

    Poids:age: r2 = 0,0005; r = -0,0233; p = 0,8957; y = 12,2465451 - 0,133465567*x

    Droite des moindres carrées (Age/Poids)

    • Solution

    Le coefficient de corrélation :

    r = -0,0233

    Le coefficient de détermination :

    R2 = 0,005 (0.5 %)

  • A. AIT EL CADI

    Statistique descriptive - Cas des données groupées

    • Cas de regroupement par valeur :

    Dans ce cas la moyenne devient :

    Et la variance :

    Et idem pour les autres statistiques.

    Valeurs (xi) Effectifs (ni) Fréquences (fi)

    0,7 1 0,03

    0,9 9 0,26

    1,1 14 0,41

    1,3 2 0,06

    1,5 4 0,12

    1,7 4 0,12

    Total 34 1

    p

    i

    iip

    i

    i

    p

    i

    ii

    xfou

    n

    xn

    x1

    1

    1

    p

    i

    iip

    i

    i

    p

    i

    ii

    xxfou

    n

    xxn

    s1

    2

    1

    1

    2

    2 )(

    )(

  • A. AIT EL CADI

    Statistique descriptive - Cas des données groupées

    Classes Effectifs (ni) Fréquences (fi)

    0,7 1 0,03

    0,9 9 0,26

    1,1 14 0,41

    1,3 2 0,06

    1,5 4 0,12

    1,7 4 0,12

    Total 34 1

    • Cas de regroupement par classe :

    Dans ce cas on remplace chaque classe par son milieu et on applique les formules ci-dessus.