29/11/2011 cours 13 · 2011-11-29 · 29/11/2011 1 la corrélation linéaire cours 13 retour sur...
TRANSCRIPT
29/11/2011
1
La corrélation linéaire
Cours 13
Retour sur cours 12
Corrélation
› Utilité et postulats d’utilisation
› Diagramme de dispersion
› R de Pearson et Rho de Spearman
Un exemple concret avec SPSS
Corrélation
2
Permet de savoir s’il existe un lien entre deux
variables quantitatives, si les valeurs des deux variables varient dans le même sens ou dans le
sens contraire
3
Une variable de type
…
En lien avec une
variable…
On utilise :
QUALITATIVE en lien
avec QUALITATIVE = Tableau croisé
QUALITATIVE en lien
avec QUANTITATIVE =
(ou ordinale)
Test de
moyennes
QUANTITATIVE en lien
avec QUANTITATIVE =
(ou ordinale) Corrélation
29/11/2011
2
Le choix d'analyses statistiques: Arbre décisionnel
Statistiques
descriptives
Mesures de
tendance centrale
et de dispersion
Une variable catégorielle
et une variable continue
(ou ordinale)?
Deux variables
catégorielles
Deux variables
ordinales ou continues
Famille des
Tests de moyenne
Conditions de recherche
Variances comparables
Distributions normales
Échelle intervalle et n>30
Variances non-comparables
Distributions non-normales
Échelle ordinale ou n<30
Nombre de
groupes à
comparer
Nombre de
groupes à
comparer
2 groupesPlus de
2 groupes2 groupes
Plus de
2 groupes
T
de Student
Oneway
ANOVA
U de Mann
Whitney
Kruskal
Wallis
Famille des tableaux de
contingence
Famille des
corrélations
Distributions
Distributions
normales
Distributions non
normales ou
variables ordinales
R
de Pearson
Rho
de Spearman
Statistiques
bivariées
Régression
linéaire
multiple
Statistiques
multivariées
Logique
sous-jacente de
Prédiction
Variable
dépendante
continue
Plusieurs
prédicteurs
continus ou
dichotomiques
Exercice:
Pour chaque question, trouvez la VD, la VI et dites si vous attendez à
trouvez une relation entre les variables et, si oui, dans quelle direction (+ ou -)
A) Y a-t-il une relation entre le taux de chômage et le taux de criminalité?
B) Y a-t-il une relation entre l’âge (de 18 à 50 ans) et le nombre de délits commis au cours d’une année ?
C) Y a-t-il une relation entre le nombre de vols d’ordinateurs et le nombre de livreurs de mets chinois en scooter ?
Sujet Nombre de placements
Lambda de Crimes à 25 ans
Échelle de dépression
1 3 11 3
2 4 14 11
3 1 4 5
4 6 16 9
5 1 5 14
6 0 3 2
7 2 7 1
8 1 4 8
9 4 9 9
10 3 8 13
11 5 13 16
12 2 5 2
13 3 5 5
14 1 2 7
15 4 6 8
On s’intéresse au possible lien entre les placements durant l’enfance (VI), la criminalité (VD) et la dépression (VD)
29/11/2011
3
0
2
4
6
8
10
12
14
16
18
0 1 2 3 4 5 6 7
Nombre de placements antérieurs
La
mb
da
à 2
5 a
ns
0
2
4
6
8
10
12
14
16
18
0 1 2 3 4 5 6 7
Nombre de placements antérieurs
Éc
he
lle
de
dé
pre
ss
ion
Voici de quoi aurait l’air nos données une fois combinées dans deux graphiques
On se questionne sur: La force de la relation
Relation nulle Relation forte Relation parfaite
On se questionne aussi sur: Le sens de la relation
Relation positive Relation négative
29/11/2011
4
Paramétrique = R de Pearson
Non paramétrique = Rho de Spearman
Le choix de l’analyse de corrélation dépend surtout de:
› De la nature des variables
› De la distribution des variables
Échantillonnage aléatoire
Les observations sont indépendantes (calculer une relation entre deux concepts issus des mêmes indicateurs est par conséquent sans valeur) › Calculer une corrélation entre un résultat à l’intra
et un résultat final est sans grande utilité…
› Calculer une corrélation entre le nombre de vol commis au mois de mai et le nombre de vol commis au mois juin
n > 30
Nécessite 2 variables quantitatives (discrètes ou continues)
Les 2 distributions doivent être normales
La relation doit être linéaire › Exemple de relations non-linéaires:
Le lien entre Stress et Performance Entre Quantité d’alcool dans le sang et Débit verbal
Absence de valeur(s) extrême(s) › Les valeurs extrêmes peuvent influencer les résultats (c’est
particulièrement vrai en corrélation)
› On doit agir face aux valeurs extrêmes… Cependant, on doit aussi les voir comme une information nouvelle et
pertinente… Qui sont vos valeurs extrêmes, comment constituent-ils l’exception à la
règle dans votre modèle?
29/11/2011
5
Interprétations du R de Pearson
Varie entre -1 et 1
Si R est POSITIF : alors les deux variables varient
dans le même sens, on dit alors que la relation est positive. En d’autres mots, quand la VI augmente
la VD augmentera aussi
Si R est NÉGATIF : alors les deux variables varient en sens contraire, on dit alors que la relation est négative. En d’autres mots, quand la VI augmente
la VD diminue
Un R près de 0 indique une absence de relation
Un R près de 1 (ou -1) indique une très forte relation, 1 étant une relation parfaite (connaître notre variable indépendante nous permet de connaître avec certitude notre variable dépendante)
Un R de 0,10 peut être significatif, tout dépend du nombre de sujets utilisé
Un bon R dépend du domaine d’étude dans lequel vous travaillez…
Qu’est-ce qui explique une corrélation significative? 3 principales explications (elles valent aussi pour l’ensemble de nos
efforts analytiques basé sur une logique hypothético-déductive):
› Hypothèse 1: Le nombre de placements durant l’enfance explique (cause) le volume de crime commis.
› Hypothèse 2: Le volume de crimes commis, on ne sait trop comment, explique (cause) le nombre de placements durant l’enfance .
› Hypothèse 3: Le nombre de placements durant l’enfance ainsi que le volume de crimes commis sont fonction d’une troisième variable, comme par exemple un trouble de personnalité antisociale.
29/11/2011
6
On ne peut affirmer hors de tout doute laquelle des trois premières hypothèses est vraie. On doit faire des analyses additionnelles pour mieux comprendre ces résultats.
Le chercheur est fréquemment tenté de conclure que c’est la première hypothèse qui est confirmée par l’observation d’une corrélation positive et forte entre nos deux concepts. Cependant, corrélation ne veut pas dire causalité.
L’interprétation des statistiques demande de la prudence…
› Il existe une corrélation négative entre la longueur des cheveux et le nombre de crimes commis ...
› Le nombre de crimes est associée positivement au nombre d’exterminateurs dans un quartier ...
Le coefficient de corrélation de rang (appelé coefficient de Spearman) examine s'il existe une relation entre le rang des observations pour deux caractères X et Y, ce qui permet de détecter l'existence de relations (croissante ou décroissante), quelle que soit leur forme précise (linéaire, exponentielle, puissance, ...).
On notera également qu'il est préférable au coefficient de Pearson lorsque les distributions X et Y sont dissymétriques et/ou comportent des valeurs exceptionnelles.
Ce coefficient est donc très utile lorsque l'analyse du nuage
de point révèle une forme curvilinéaire (non linéaire)dans une relation qui semble mal s'ajuster à une droite.
Il varie de -1 à 1 et s’interprète de la même façon que le R
de Pearson.
29/11/2011
7
Existe-t-il un lien entre mes 2 variables quantitatives ?
› Je regarde la signification du R ou du Rho.
Si oui, quel est la force de ce lien ?
› Je regarde la valeur du R de Pearson ou le rho de Spearman.
Quel est le sens (ou qu’est-ce que ça veut dire) ?
› Je regarde le + ou – et je réfléchis aux 3 hypothèses.
On veut savoir s’il existe un lien entre le % de familles monoparentales par quartier de Montréal et le nombre total
de crimes.
Pour avoir le droit de faire des corrélations:
1. Échantillon aléatoire
2. Observations (ou mesures) indépendantes
Pour faire du paramétrique (R de Pearson):
1. Variables quantitatives
2. Absence de valeur(s) extrême(s)
3. Distribution normale
On fait une
fréquence et un
histogramme
sur chaque
variable
quantitative.
29/11/2011
8
Pour avoir le droit de faire des corrélations:
1. Échantillon aléatoire
2. Observations (ou mesures) indépendantes
Pour faire du paramétrique (R de Pearson):
1. Variables continues
2. Absence de valeur(s) extrême(s)
3. Distribution normale
4. Linéarité de la relation
On fait une fréquence
et un histogramme
sur chaque variable
quantitative.
On fait un
diagramme de
dispersion.
29/11/2011
9
Graphes
Boîtes de
dialogue
ancienne
version
Dispersion/points…
Dispersion simple
Axes des X
(variable
indépendante)
Axes des Y
(variable
dépendante)
29/11/2011
10
Corrélation
Bivariée
Mettre la variable
quantitative
dépendante et
indépendante
Rho de Spearman pour
le non-paramétrique R de Pearson pour le
paramétrique
29/11/2011
11
1- Existe-t-il un lien entre mes variables ?
2- Quelle est la force de ce lien ?
3- Quelle est le sens ?
R = 0,372
Relation positive: plus le % de familles
monoparentales est élevé, plus il y a de
crimes dans un quartier.
Oui car p=0,001 et donc p<0,05
1- Existe-t-il un lien entre mes variables ?
2- Quelle est la force de ce lien ?
3- Quelle est le sens ?
Rho = 0,362
Relation positive: plus le % de familles
monoparentales est élevé, plus il y a de
crimes dans un quartier.
Oui car p=0,001 et donc p<0,05
On veut savoir s’il existe un lien entre le % de familles monoparentales par quartier de Montréal et le nombre total
de crimes.
› Il existe un lien positif et significatif entre le pourcentage de familles monoparentales et le nombre total de crimes dans un
quartier (r=0,37, p<0,01). En effet, plus le pourcentage de
familles monoparentales dans un quartier augmente, plus le
nombre total de crime augmente.
› Il existe un lien positif et significatif entre le pourcentage de familles monoparentales et le nombre total de crimes dans un
quartier (rho=0,36, p<0,01). En effet, plus le pourcentage de
familles monoparentales dans un quartier augmente, plus le
nombre total de crime augmente.
Paramétrique
Non
paramétrique
29/11/2011
12
Taux de
criminalité
Revenu moyen
Taux de
chômage
% de familles
ayant
déménagé
Taux de
criminalité ---
Revenu moyen -0.412** ---
Taux de
chômage 0.100* -0.536** ---
% de familles
ayant
déménagé
0.111* -0.183* 0.470** ---
34
* p≤0.05
**p≤0.01
Que doit-on conclure ?