initiation à lutilisation du logiciel statistica joseph larmarange intervention du 9 janvier 2004...

53
Initiation à l’utilisation du logiciel STATISTICA Joseph LARMARANGE http://joseph.larmarange.net Intervention du 9 janvier 2004 2 ème année en Ressources Humaines GEA (Gestion des Entreprises et des Administrations) IUT d’Orléans

Upload: celestin-leroux

Post on 03-Apr-2015

128 views

Category:

Documents


12 download

TRANSCRIPT

Page 1: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à l’utilisation du logiciel STATISTICA

Joseph LARMARANGEhttp://joseph.larmarange.net

Intervention du 9 janvier 20042ème année en Ressources HumainesGEA (Gestion des Entreprises et des Administrations)

IUT d’Orléans

Page 2: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 2

Plan

Saisie des donnéesStatistiques descriptivesCorrélation linéaireTest du Khi 2

Page 3: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 3

Principes d’un fichier STATISTICA

Les données sont saisies sous la forme d’un tableau.

En colonnes, des variables (soit le nombre d’information que nous avons pour chaque individu).

En lignes, des individus (cela peut-être des personnes physiques, des ménages, des institutions, etc.).

Page 4: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 4

Exemple de données à saisir

Il s’agit du montant des ventes d’une équipe de 15 vendeurs.Pour chacun d’eux, on dispose

du sexe, de l’âge et du chiffre d’affaire réalisé.

Page 5: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 5

Création d’un nouveau fichier (Fichier > Nouveau)

Indiquer le nombre de variables (3)

Et le nombre d’observations (ici 15)

Cliquez sur OK.

Page 6: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 6

Création d’un nouveau fichier

Apparition du fichier de données.

On va maintenant spécifier le nom des variables

Page 7: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 7

Nommer les variables

On donnera un nom court mais explicite. Mieux vaut éviter les caractères particuliers.

Il est aussi possible de faire une description détaillée des variables.

Page 8: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 8

Nommer les variables

On donnera un nom court mais explicite. Mieux vaut éviter les caractères particuliers.

Il est aussi possible de faire une description détaillée des variables.

Page 9: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 9

Les variables qualitatives

On privilégiera de saisir un code chiffre plutôt qu’un texte pour éviter les erreurs de saisie.

Cependant, il est toujours possible de donner une étiquette (valeurs-texte) aux différentes modalités.ATTENTION :Avant de cliquer, sur Valeurs-Texte, il faut d ’abord sélectionner la variable concernée.

Page 10: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 10

Donner un texte court pour la Valeur-Texte.

Préciser la correspondance numérique.

Une étiquette pour préciser la modalité est disponible.

<< & >> servent à passer d ’une variable à l’autre.

Le nom de la variable concernée apparaît en haut à droite

Modifier les Valeurs-Texte

Page 11: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 11

Saisie des données

Exemple 1 :

Sexe ÂgeChiffre

d’AffaireSexe Âge

Chiffred’Affaire

Homme 25 230 Homme 42 332Homme 32 257 Homme 34 165

Femme 23 200 Femme 36 352

Femme 35 197 Homme 29 318

Homme 41 409 Femme 24 400

Femme 28 287 Femme 31 255Femme 39 372 Homme 28 333

Femme 33 470

Page 12: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 12

Saisie des données

On peut choisir d’afficher les Valeurs-Texte ou leur équivalent numérique en allant dans le menu

Affichage > Afficher les Valeurs-Texte

ou en cliquant sur le bouton

Page 13: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 13

Statistiques descriptives

Aller dans le module Statistiques Élémentaires disponible dans le menu Statistiques.

Page 14: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 14

Statistiques descriptives

Choisir les statistiques descriptives.

Page 15: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 15

Choisir les variables

Un clic sur le bouton Variables.

Page 16: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 16

Choisir les variables

Sélectionner les variables retenues pour l’analyse

Pour une liste continue de variables, utilisez la touche SHIFT (ou ) et pour une liste discontinue la touche CTRL

Page 17: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 17

Statistiques descriptives

Cliquer sur le bouton Synthèse

Page 18: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 18

Résultats

Page 19: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 19

Pour poursuivre l’analyse

Cliquer sur ce bouton

Page 20: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 20

Onglet Avancé

Cet onglet donne accès à un nombre plus important de statistiques

Page 21: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 21

Petit rappel sur le coefficient de corrélation r

Page 22: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 22

Exemple 2 :

Corrélation

Page 23: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 23

Saisie des données

Page 24: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 24

Corrélation

Choisir les matrices de corrélation dans les Statistiques élémentaires.

Page 25: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 25

Définir les variables de l’analyse

Un clic sur le bouton 2 listes.

Page 26: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 26

Définir les variables de l’analyse

Page 27: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 27

Sous l’onglet Options, choisir Tableau détaillé.

Cliquer sur Synthèse.

Lancer l’analyse

Page 28: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 28

Résultats détaillés

r(X,Y) est le coefficient de corrélation. Les résultats sont en rouge si les résultats sont

significatifs avec un risque d’erreur de 5% (p<0.05, le seuil est paramétrable sous l’onglet options). La valeur de p est fournie. t correspond à la statistique du test utilisé.

Page 29: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 29

Résultats détaillés

N rappelle le nombre d’observations considérées.

La moyenne et l’écart-type de chacune des deux variables sont donnés à titre indicatif.

Page 30: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 30

Résultats détaillés

Rappelons que le principe est de trouver une droite qui représente le mieux les deux variables. On cherche donc à modéliser le rapport entre X et Y de la forme Y = a X + b.

Mais il est aussi possible de modéliser sous la forme X = c Y + d.

Page 31: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 31

Résultats détaillés

Statistica donne ces 4 coefficients :Y = a X + BX = c Y + d

Ainsi ici, Y = 0,18 X + 1,39 etX = 4,87 Y - 4,34

b a d c

Page 32: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 32

Afficher la droite de régression

Un clic sur Nuages de points en 2D.

Page 33: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 33

Afficher la droite de régression

Statistica trace la droite de régression ainsi que les valeurs observées représentées par un petit cercle.

Page 34: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 34

Autre exemple :

Un psychologue de l’armée américaine a remarqué que les soldats qui fumaient le plus avaient tendance à contracter plus de rhumes que les fumeurs légers. Par ailleurs il pense que les fumeurs sont des personnalités plus stressées que les non-fumeurs et que ce facteur ‘stress’ pourrait être responsable de leur santé fragile.

Variables relevées :

CIGA : nombre de cigarettes fumées par semaineRHUM : nombre de rhumes contractés dans l’année écouléeSTRE : mesure du stress sur une échelle de 1 (faible) à 5

(élevé)

Exemple 3 :

Page 35: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 35

Autre exemple :Exemple 3 :

Le tableau présente les résultatsobtenus par 20 soldats.

CIGA RHUM STRE CIGA RHUM STRE70 2 4 65 1 4

105 6 3 110 6 335 1 2 40 2 2

105 4 3 100 4 30 2 2 0 1 270 7 3 65 8 335 3 1 40 3 1

140 6 5 145 6 50 4 5 0 3 5

140 4 3 145 4 3

Page 36: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 36

Résultats Nous avons affiché la

matrice de corrélation simple.

Il apparaît à p=5% qu’il y a une corrélation significative entre le nombre de cigarettes et le nombre de rhumes.

Par contre, le stress n’enregistre aucune corrélation significative avec les deux autres variables.

Page 37: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 37

Test du Khi 2

Lors d'une étude sur la connaissance du sida chez les femmes guinéennes âgées de 15-49 ans, on a construit un indicateur de connaissance du sida répartie en quatre groupes : faible, moyenne, bonne et très bonne. Les données sont issues de l'Enquête de Démographie et de Santé 1999. On a comparé cet indicateur avec le niveau d'instruction des femmes. Les effectifs sont les suivants (elles portent sur 6.561 femmes) :

Exemple 4 :

Niveau d’instructionConnaissancedu sida Aucun Primaire Secondaire Supérieur

Faible 888 50 4 0Moyenne 2.230 204 99 9Bonne 1.018 170 114 16Très Bonne 1.142 249 267 101

Page 38: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 38

Saisie des données

Nous avons 6.561 individus et 2 variables. Nous devrions donc remplir un tableau comportant 6.561 lignes et 2 colonnes.

Cependant, il apparaît que certains individus sont identiques (c’est-à-dire présentant exactement les mêmes valeurs pour chaque variables).Ainsi, nous avons 888 femmes qui ont toute une faible connaissance du sida et aucun niveau d’instruction.

Nous constatons qu’il y a en tout 16 « profils d’individu » différents.

Au lieu de rentrer les caractéristiques des 6.561 femmes, nous allons saisir les caractéristiques des 16 profils type et indiquer dans une troisième variable (le poids) le nombre de femmes que ce profil représente.

C’est le principe de la pondération.

Page 39: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 39

Saisie des données

Nous allons donc créer un fichier comportant 16 observations et 3 variables.

Pour la connaissance du sida, nous coderons 1 une faible connaissance, 2 une moyenne, 3 une bonne et 4 une très bonne.

Pour le niveau d’instruction, 0 pour aucun, 1 pour primaire, 2 pour secondaire et 3 pour supérieur.

Page 40: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 40

Saisie des données

Voici le fichier de données que nous obtenons.

Page 41: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 41

Test du Khi 2

Choisir les tableaux et tris croisés dans les Statistiques élémentaires.

Page 42: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 42

Saisir les variables

Un clic sur Spécifier les tables.

Page 43: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 43

Saisir les variables

Sélectionner les variables de l’analyse

Page 44: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 44

Préciser la pondération

Cliquer sur ce bouton

Ce bouton est accessible dans toutes les fenêtres de Statistica, la pondération pouvant être utilisée pour n’importe quel calcul.

Page 45: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 45

Préciser la pondération

Sélectionner la variable de pondération

Activer la pondération Un double clic dans le champ

d’édition du nom de la variable ouvre une liste de l ’ensemble des variables du fichier.

Page 46: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 46

Lancer l’analyse

Cliquez deux fois sur OK. Aller sous l’onglet Options. Sélectionner Chi² & Pearson

et Effectifs théoriques

Page 47: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 47

Premier tableau de résultats

Pour naviguer d’un tableau à l’autre

Il s’agit du tableau croisé des effectifs.

Page 48: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 48

Second tableau de résultats

Affichage des effectifs théoriquesRappel : il s’agit des effectifs que l’on aurait si les deux variables étaient parfaitement indépendantes.

Ici p est inférieur à 0,05. On en déduit qu’avec une erreur de première espèce de 5% que les deux variables ne sont pas indépendantes.NB : petit hic, normalement on ne doit pas avoir d’effectifs inférieurs à 5 (ou à 10 pour plus de précision). Il serait donc préférable de regrouper auparavant certaines catégories.

Page 49: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 49

Autre exemple :

Dans une enquête sur le réseau Internet auprès de 1006 personnes, une des questions posées était la suivante:" Personnellement quelle est votre attitude à l'égard de cette nouvelle application de la micro-informatique ? Vous êtes... Passionné, Intéressé, Indifférent,Dépassé, Agacé,ou ne se prononce pas (NSP).

Les personnes interrogées ont été regroupées en 5 catégories d'âge :18-24 ans, 25-34 ans, 34-49 ans, 50-64 ans, plus de 65 ans.

Exemple 5 :

Page 50: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 50

Autre exemple :Exemple 5 :

Groupe d’âgesInternet

18-24 25-34 34-49 50-64 65&+Passionné 15 5 9 9 2Intéressé 72 84 112 96 28Indifférent 34 68 112 144 52Dépassé 10 10 23 21 16Agacé 7 7 26 24 6NSP 0 0 6 6 2

Voici les données observées.Étant donné le très faible nombre de NSP, nous n’en tiendrons pas compte.L’analyse portera donc sur 992 individus.

Page 51: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 51

Fichier de données

Tableau à 3 colonnes et 25 lignes(puisqu’on ne tient pas compte des NSP)

Page 52: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 52

Résultats

p < 0,05 L’attitude à l’égard de Internet diffère avec l ’âge.

Page 53: Initiation à lutilisation du logiciel STATISTICA Joseph LARMARANGE  Intervention du 9 janvier 2004 2 ème année en Ressources

Initiation à STATISTICA

Joseph LARMARANGE 53

Liens

Ce diaporama est disponible, ainsi que les fichiers des exemples, à l’adressehttp://joseph.larmarange.free.fr

Les statistiques élémentaires sont disponibles gratuitement dans la version de démonstration de statistica disponible sur internet :http://www.statsoft.com/french/welcome.html