estst nonparamétriquesudsmed.u-strasbg.fr/labiostat/img/pdf/non_param_eas_sb1.pdf · 2009. 9....

124

Upload: others

Post on 01-Jan-2021

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Tests nonparamétriques

Erik-André Sauleau - Nicolas Meyer

[email protected] - [email protected]

Laboratoire de Biostatistique - Faculté de Médecine

Pôle de Santé Publique CHU - STRASBOURG

Décembre 2008

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 2: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Plan

1 Notions de base

2 Comparaison de deux séries continues

3 Coe�cient de corrélation nonparamétrique

4 Autres situations et autres tests

5 Un mini TP

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 3: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

IntroductionModèle nonparamétriqueLes rangsLes tests nonparamétriques

Où en sommes nous ?

1 Notions de baseIntroductionModèle nonparamétriqueLes rangsLes tests nonparamétriques

2 Comparaison de deux séries continues

3 Coe�cient de corrélation nonparamétrique

4 Autres situations et autres tests

5 Un mini TPEA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 4: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

IntroductionModèle nonparamétriqueLes rangsLes tests nonparamétriques

Le programme

Compétence 4 : Tests statistiques

1 Tests d'hypothèses

2 Corrélation, régression3 Tests non paramétriques

1 Dé�nition, intérêt et utilisation des tests de rang2 Application à :

Comparaison de deux distributions de variables aléatoires

continues : test de Mann-Whitney, test de Wilcoxon

Coe�cient de corrélation de Spearman

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 5: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

IntroductionModèle nonparamétriqueLes rangsLes tests nonparamétriques

La situation

Pour pouvoir réaliser des estimations de paramètres ou pour fairede l'inférence

Hypothèses sur les populations et sur les sujets qui lacomposentRecours à des échantillons issus des populations d'intérêt pourtirer des conclusions sur ces populationsHypothèses courantes

Les valeurs recueillies sont la réalisation de variables aléatoiresindépendantes. Chaque variable ou vecteur aléatoire ainsiobtenu est une observation de la loi qui est censée régir cettevariable ou ce vecteur aléatoireUne autre hypothèse concerne l'ensemble des lois dedistribution possibles pour les variables aléatoires

Le choix de la loi des paramètresParfois facilité par le type de données considérées

si l'on traite des données binaires de types�présence/absence� : Bernoullimais souvent (données continues) choix di�cile

On choisit une loi, ce qui revient à choisir1 Un modèle pour les données2 Une méthode d'analyse, les méthodes statistiques étant

souvent adaptées au traitement d'une famille de loi

Le choix du modèle pour les données n'est donc pas anodinHypothèse quasi systématique : toutes les observationsobéissent à la même loi

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 6: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

IntroductionModèle nonparamétriqueLes rangsLes tests nonparamétriques

La situation

Le choix de la loi des paramètres

Parfois facilité par le type de données considérées

si l'on traite des données binaires de types�présence/absence� : Bernoullimais souvent (données continues) choix di�cile

On choisit une loi, ce qui revient à choisir1 Un modèle pour les données2 Une méthode d'analyse, les méthodes statistiques étant

souvent adaptées au traitement d'une famille de loi

Le choix du modèle pour les données n'est donc pas anodin

Hypothèse quasi systématique : toutes les observationsobéissent à la même loi

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 7: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

IntroductionModèle nonparamétriqueLes rangsLes tests nonparamétriques

Rappel sur les modèles paramétriques

Un modèle paramétrique pour une observation est un ensemble deloi qui forme une bijection avec ℝk. Cette famille de loi est telleque deux lois quelconques de cette famille ne di�èrent que par lavaleur de leur paramètre � appartenant à un sous-ensemble Θ deℝk. On note cet ensemble :

{F�; � ∈ Θ}

Un modèle très (trop) souvent retenu pour des données continuesest le modèle gaussien, modèle qui peut s'écrire :{

Il existe (�, �2) appartenant a ℝ× ℝ+∗ tel que :X est une observation de la loi N (�, �2)

On pourra facilement adapter ce schéma à d'autres familles de loi

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 8: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

IntroductionModèle nonparamétriqueLes rangsLes tests nonparamétriques

Rappel sur les modèles paramétriques

Un modèle très (trop) souvent retenu pour des données continuesest le modèle gaussien, modèle qui peut s'écrire :{

Il existe (�, �2) appartenant a ℝ× ℝ+∗ tel que :X est une observation de la loi N (�, �2)

On pourra facilement adapter ce schéma à d'autres familles de loi

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 9: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

IntroductionModèle nonparamétriqueLes rangsLes tests nonparamétriques

Qu'est ce qu'un modèle nonparamétrique ?

A contrario, un modèle nonparamétrique est un modèle qui ne peutpas se mettre sous forme paramétrique. Cela revient à utiliser untrès vaste ensemble de lois qui peuvent avoir des formes trèsvariées, voire même non précisées. Cet ensemble s'écrira de façongénérique : {

Il existe F appartenant a ℱ telle que :X est une observation de la loi F

Formulation extrêmement généraleGrand nombre de variantes de ce modèle avec dessous-familles ℱ0 caractérisées par une propriété particulièreportant par exemple sur la position par rapport à l'origine ousur la dispersion donnée

Remarque : Ces modèles ont été dé�nis pour un échantillon maison peut étendre leur dé�nition à des situations présentant deux ouplus de deux échantillons

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 10: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

IntroductionModèle nonparamétriqueLes rangsLes tests nonparamétriques

Qu'est ce qu'un modèle nonparamétrique ?

Formulation extrêmement générale

Grand nombre de variantes de ce modèle avec dessous-familles ℱ0 caractérisées par une propriété particulièreportant par exemple sur la position par rapport à l'origine ousur la dispersion donnée

Remarque : Ces modèles ont été dé�nis pour un échantillon maison peut étendre leur dé�nition à des situations présentant deux ouplus de deux échantillons

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 11: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

IntroductionModèle nonparamétriqueLes rangsLes tests nonparamétriques

Pourquoi des modèles nonparamétriques ?

Lois paramétriques → souplesse dans les calculs

L'usage de ces lois suppose que les données suivent de près lesdistributions représentées par les lois en question

Tout le monde y croit [à la loi de Gauss] car lesexpérimentateurs s'imaginent que c'est un théorème demathématique, et les mathématiciens que c'est un faitexpérimental.

Poincaré

Ce n'est pas forcément le cas et si les données ne véri�ent pasles hypothèses de base, la valeur de la statistique de test peutêtre éloignée de la vraie valeur de test et la validité du testdouteuse

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 12: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

IntroductionModèle nonparamétriqueLes rangsLes tests nonparamétriques

Transformation des données

En non paramétrique, très souvent, transformation des valeursUtilisation du rang de la valeur dans la série de données

La transformation

Echantillon aléatoire de valeurs quantitativesx1, . . . , xi, . . . , xn

Variable aléatoire R telle que ri est un entier entre 1 et n quireprésente la position de la valeur xi parmi les x1, . . . , xn

On remplace les valeurs xi par leur rang ri dans la sérieordonnée

La transformation en rang est donc une transformation ordinale

Exemple 1 : Soit les valeurs :1.1 2.3 1.4 1.7 0.9 1.8 2.1

La transformation en rang donne la série :2 7 3 4 1 5 6

Exemple 2 : Soit les valeurs :1.1 2.3 1.4 1.4 0.9 1.8 2.1

En attribuant aux ex aequos un rang moyen, latransformation donne la série :

2 7 3.5 3.5 1 5 6

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 13: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

IntroductionModèle nonparamétriqueLes rangsLes tests nonparamétriques

Transformation des données

Hypothèse de continuité

Hypothèse nécessaire pour la suite

Pas d'égalité entre rangs

En cas d'ex aequos : mettre des rangs moyens, distribuer les exaequos par randomisation, . . .

Situation di�cile sans solution univoque

Exemple 1 : Soit les valeurs :1.1 2.3 1.4 1.7 0.9 1.8 2.1

La transformation en rang donne la série :2 7 3 4 1 5 6

Exemple 2 : Soit les valeurs :1.1 2.3 1.4 1.4 0.9 1.8 2.1

En attribuant aux ex aequos un rang moyen, latransformation donne la série :

2 7 3.5 3.5 1 5 6

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 14: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

IntroductionModèle nonparamétriqueLes rangsLes tests nonparamétriques

Transformation des données

Exemple 1 : Soit les valeurs :1.1 2.3 1.4 1.7 0.9 1.8 2.1

La transformation en rang donne la série :2 7 3 4 1 5 6

Exemple 2 : Soit les valeurs :1.1 2.3 1.4 1.4 0.9 1.8 2.1

En attribuant aux ex aequos un rang moyen, latransformation donne la série :

2 7 3.5 3.5 1 5 6

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 15: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

IntroductionModèle nonparamétriqueLes rangsLes tests nonparamétriques

Intérêts de la transformation en rang

Perte d'information ⇒ gaspillage ?

Rangs peu sensibles aux valeurs des données

Dans la série ordonnée x1, . . . , xi, . . . , xn, quelle que soit lavaleur d'une mesure xi comprise entre la valeur xi−1 et lavaleur xi+1, son rang sera le même

In�uence des données extrêmes voire aberrantes limitée

Même si la distribution des xi change un peu, celle des rangsest pas ou peu modi�ée

La transformation en rang est donc stable, robuste

Une modi�cation même importante des valeurs de départ aune in�uence faible voire nulle sur les valeurs issues de latransformation et sur la statistique de test qui en découle

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 16: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

IntroductionModèle nonparamétriqueLes rangsLes tests nonparamétriques

Intérêts de la transformation en rang

Exemple

Soit xi : 10 15 9 8 7 18 100Rangs : 4 5 3 2 1 6 7On ordonne la série et on obtientxi : 7 8 9 10 15 18 100 et rangs : 1 2 3 4 5 6 7x4 = 10

Si, dans la série ordonnée, x4 = 14, alors le rang reste r4 = 4∀x4 ∈]9; 15[, r4 = 4

x7 = 100, r7 = 7Si x7 = 1000 la valeur de r7 est toujours 7Avec x7 = 100, la moyenne de la série vaut 23,9Avec x7 = 1000, la moyenne de la série vaut 152,4

Même si la distribution des xi change un peu, celle des rangsest pas ou peu modi�éeLa transformation en rang est donc stable, robusteUne modi�cation même importante des valeurs de départ aune in�uence faible voire nulle sur les valeurs issues de latransformation et sur la statistique de test qui en découle

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 17: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

IntroductionModèle nonparamétriqueLes rangsLes tests nonparamétriques

Intérêts de la transformation en rang

Même si la distribution des xi change un peu, celle des rangsest pas ou peu modi�ée

La transformation en rang est donc stable, robuste

Une modi�cation même importante des valeurs de départ aune in�uence faible voire nulle sur les valeurs issues de latransformation et sur la statistique de test qui en découle

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 18: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

IntroductionModèle nonparamétriqueLes rangsLes tests nonparamétriques

Loi de la variable aléatoire R

Le vecteur r1, . . . , rn est équidistribué sur l'ensemble despermutations de {1, . . . , n}

Exemple de n = 3

(1, 2, 3) 16 (2, 1, 3) 1

6 (3, 1, 2) 16

(1, 3, 2) 16 (2, 3, 1) 1

6 (3, 2, 1) 16

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 19: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

IntroductionModèle nonparamétriqueLes rangsLes tests nonparamétriques

Loi de la variable aléatoire R

Des calculs simples montrent

E(R) =1

n

n∑1

ri =1

2(n+ 1)

1

n

n∑1

r2i =1

6(n+ 1)(2n+ 1)

V ar(R) =1

n

n∑1

(ri − E(R))2 =1

n

n∑1

r2i − E(R)2 =1

12(n2 − 1)

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 20: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

IntroductionModèle nonparamétriqueLes rangsLes tests nonparamétriques

Loi de la variable aléatoire R

Démonstration de E(R) = 1n

∑n1 ri = 1

2(n+ 1)∑ri = 1 + 2 + ⋅ ⋅ ⋅+ (n− 1) + n∑ri = n + (n− 1) + ⋅ ⋅ ⋅+ 2 + 1

2∑ri = (n+ 1) + (n+ 1) + ⋅ ⋅ ⋅+ (n+ 1) + (n+ 1)︸ ︷︷ ︸

n termes

2∑ri = n ⋅ (n+ 1)∑ri = 1

2n ⋅ (n+ 1)

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 21: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

IntroductionModèle nonparamétriqueLes rangsLes tests nonparamétriques

Conditions d'application d'un test nonparamétrique

Une seule hypothèse sur les distributions des échantillons

Les échantillons suivent la même loi de distribution, quelle quesoit cette loiPas obligatoire ni nécessaire de préciser cette loi,contrairement aux tests paramétriquesHypothèse beaucoup moins forte que celles des testsparamétriques

Mais si la forme exacte de la loi importe peu, les distributionsdes échantillons doivent (généralement) avoir la même forme,et donc notamment même variance

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 22: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

IntroductionModèle nonparamétriqueLes rangsLes tests nonparamétriques

Puissance des tests nonparamétriques

Moins puissants que leurs équivalents paramétriques lorsque laloi des données est gaussienne

La perte de puissance est de l'ordre de 2 à 5 % selon lessituations

Presque systématiquement plus puissants que les testsparamétriques si la distribution des données est non gaussienne

Intérêt dans le domaine médical

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 23: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

IntroductionModèle nonparamétriqueLes rangsLes tests nonparamétriques

Echantillons de petite taille

Di�cile de véri�er la normalité des distributions si leséchantillons sont petits

→ utiliser un test nonparamétrique

Si n grand, les tests de normalité rejettent assez facilement lanormalité

→ utiliser un test nonparamétrique aussi !

Intérêt dans le domaine médical

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 24: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées

Où en sommes nous ?

1 Notions de base

2 Comparaison de deux séries continuesLa situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées

3 Coe�cient de corrélation nonparamétrique

4 Autres situations et autres tests

5 Un mini TP EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 25: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées

Comparaison de 2 séries continues : la situation

La formulation "paramétrique" du problème

Deux échantillons de taille ni, i ∈ {1, 2}Une variable résultat X quantitative (continue ou discrète)

1 Moyenne m1 et variance s21 dans l'échantillon 12 Moyenne m2 et variance s22 dans l'échantillon 2

Question : la moyenne de X, �1, dans la population dont estextrait l'échantillon 1 est-elle di�érente de la moyenne �2 dansla population dont est extrait l'échantillon 2 ?

La réponse nonparamétrique au problème

Deux tests parfaitement équivalents1 Le test de Wilcoxon (ne pas confondre avec le test des rangs

signés de Wilcoxon)2 Le test de Mann-Whitney

Le test de la médiane

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 26: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées

Comparaison de 2 séries continues : la situation

La réponse paramétrique au problème

Réponse en 3 cas1 n1 et n2 sont supérieurs à 30 : z = m1−m2√

s21n1

+s22n2

2 n1 ou n2 est inférieur à 30 et variances homogènes (test) :t = m1−m2

S2√

1n1

+ 1n2

3 n1 ou n2 est inférieur à 30 et variances inhomogènes (test) :test spéci�que (Welch)

La réponse nonparamétrique au problème

Deux tests parfaitement équivalents1 Le test de Wilcoxon (ne pas confondre avec le test des rangs

signés de Wilcoxon)2 Le test de Mann-Whitney

Le test de la médiane

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 27: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées

Comparaison de 2 séries continues : la situation

La formulation "nonparamétrique" du problème

Deux échantillons de taille ni, i ∈ {1, 2}Une variable résultat X quantitative (continue ou discrète)

Les données ne suivent pas une loi de Gauss

Remarque : une distribution gaussienne n'interdit pasl'utilisation de tests nonparamétriques

Question : Les deux groupes di�èrent-ils par leur position ?

Les valeurs de l'un des deux échantillons sont-elles plus élevéesque celles de l'autre échantillon ?Recherche d'un décalage de la distribution entre les deuxgroupes, ∀ la forme de la distributionDécalage sur l'ensemble des valeurs d'un groupe et nondi�érence de moyennes

La réponse nonparamétrique au problème

Deux tests parfaitement équivalents1 Le test de Wilcoxon (ne pas confondre avec le test des rangs

signés de Wilcoxon)2 Le test de Mann-Whitney

Le test de la médiane

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 28: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées

Comparaison de 2 séries continues : la situation

La réponse nonparamétrique au problème

Deux tests parfaitement équivalents1 Le test de Wilcoxon (ne pas confondre avec le test des rangs

signés de Wilcoxon)2 Le test de Mann-Whitney

Le test de la médiane

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 29: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées

Les hypothèses du test de Wilcoxon

L'utilisation du test de Wilcoxon fait les hypothèses suivantes :

1 - Echantillons aléatoires des populations

2 - Indépendance des données dans chaque échantillon

3 - Indépendance des deux échantillons

4 - Une di�érence entre les deux échantillons ne concerne que leparamètre de position

1 Variances homogènes entre les deux2 Même forme3 Décalage de l'une par rapport à l'autre d'une valeur �

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 30: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées

Les principes du test de Wilcoxon

Deux échantillons aléatoires A et BTaille respective n et mMesure x1, . . . , xi, . . . , xn et xn+1, . . . , xj , . . . , xn+m

Deux distributions issues de deux populationsFonction de répartition F (X) et G(X)Pas nécessaire de spéci�er F ou GG(X) est-elle une translation de F (X) telle queG(X) = F (X) + � ?Comparer les deux distributions ⇒ � = 0 ou non

La statistique W est la somme des rangs de l'un des deuxgroupes dans la série combinée, par exemple Ri(A)

WA =∑A

Ri(A)

On aE(WA) = 1

2n(n+m+ 1)

V ar(WA) = nm(n+m+112 )

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 31: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées

Les principes du test de Wilcoxon

Le test utilise les rangs des valeurs dans les échantillonsfusionnésOn calcule des sommes de rangsSous H0, les rangs sont similaires entre les deux groupesLes hypothèsesH0 F = GH1 F ∕= G, F ≺ G ou F ≻ G (en distribution)

La statistique W est la somme des rangs de l'un des deuxgroupes dans la série combinée, par exemple Ri(A)

WA =∑A

Ri(A)

On aE(WA) = 1

2n(n+m+ 1)

V ar(WA) = nm(n+m+112 )

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 32: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées

Les principes du test de Wilcoxon

La statistique W est la somme des rangs de l'un des deuxgroupes dans la série combinée, par exemple Ri(A)

WA =∑A

Ri(A)

On aE(WA) = 1

2n(n+m+ 1)

V ar(WA) = nm(n+m+112 )

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 33: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées

Le calcul amusant de l'espérance de WA

La plus petite somme∑

ARi(A) possible

A BObs. Rang Obs. Rang

1 1. . .

n n1 n+ 1

. . .m n+m∑

= 12n(n+ 1)

E(WA) est la moyenne des deux bornes (symétrie)

E(WA) = 12

[12n(n+ 1) + 1

2n(n+ 1) + nm]

E(WA) = 12 [n(n+ 1) + nm]

E(WA) = 12n(n+m+ 1)

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 34: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées

Le calcul amusant de l'espérance de WA

La plus grande somme possible

A B TotalObs. Rang Obs. Rang Rang

1 1 1. . . . . .

m m m1 m+ 1 m+ 1

. . . . . .n n+m n+m∑

=∑

T −∑

Y

∑Y = 1

2m(m+ 1)∑

T = 12(n+m)(n+m+ 1)∑

= 12n(n+m+ 1) + 1

2mn+ 12m(m+ 1)− 1

2m(m+ 1)∑= 1

2n(n+ 1) + nm

E(WA) est la moyenne des deux bornes (symétrie)

E(WA) = 12

[12n(n+ 1) + 1

2n(n+ 1) + nm]

E(WA) = 12 [n(n+ 1) + nm]

E(WA) = 12n(n+m+ 1)

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 35: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées

Le calcul amusant de l'espérance de WA

E(WA) est la moyenne des deux bornes (symétrie)

E(WA) = 12

[12n(n+ 1) + 1

2n(n+ 1) + nm]

E(WA) = 12 [n(n+ 1) + nm]

E(WA) = 12n(n+m+ 1)

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 36: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées

La statistique de test

On a donc WA =∑

ARi(A) avec E(WA) = 12n(n+m+ 1)

et V ar(WA) = nm(n+m+112 )

Statistique de test par approximation normale

z =WA − E(WA)√

V ar(WA)=WA − 1

2n(n+m+ 1)√nm(n+m+1

12 )∼ N (0; 1)

Approximation correcte pour des e�ectifs aussi faibles queN = 6Correction de continuité z =

WA+ 12−E(WA)√

V ar(WA)

Test exact, tabulation

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 37: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées

La tabulation du Wilcoxon

Pour � = 5%

n1 n23 4 5 6

3 5.5 5.9 6.4 7.14 9.9 10.8 11.6 12.45 15.4 16.6 17.8 18.96 22.1 23.4 24.9 26.4

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 38: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées

Un exemple

Un groupe de rats ⇒ toxique A et un groupe de rats ⇒toxique BMesure de l'e�et des toxiques sur un paramètre sanguinPour A : 10, 2 10, 3 14, 0 11, 0 12, 5Pour B : 13, 1 13, 9 14, 5 14, 8 15, 1On pose H0 et H1

On interclasse les deux séries de valeurs :

10, 2 10, 3 11, 0 12, 5 13, 1 13, 9 14, 0 14, 5 14, 8 15, 1A A A A B B A B B B

Somme des rangs de l'ensemble de deux groupes :(n+m)(n+m+ 1)/2, soit ici 55Les valeurs de WA et WB symétriques par rapport à la moitiéde cette somme des rangsOn véri�e que 17 + 38 = 55

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 39: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées

Un exemple

10, 2 10, 3 11, 0 12, 5 13, 1 13, 9 14, 0 14, 5 14, 8 15, 1A A A A B B A B B B1 2 3 4 5 6 7 8 9 10

WA = 1 + 2 + 3 + 4 + 7 = 17WB = 5 + 6 + 8 + 9 + 10 = 38

WA → z =17− 1

25(5+5+1)√

5⋅5( 5+5+112

)= 17−27,5√

22,9= −2, 193

WB → z =38− 1

25(5+5+1)√

5⋅5( 5+5+112

)= 2, 193

Pr(∣z∣ ≥ 2, 193) = 0, 028On rejette donc l'hypothèse nulle d'égalité des distributions

Somme des rangs de l'ensemble de deux groupes :(n+m)(n+m+ 1)/2, soit ici 55Les valeurs de WA et WB symétriques par rapport à la moitiéde cette somme des rangsOn véri�e que 17 + 38 = 55

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 40: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées

Un exemple

Somme des rangs de l'ensemble de deux groupes :(n+m)(n+m+ 1)/2, soit ici 55

Les valeurs de WA et WB symétriques par rapport à la moitiéde cette somme des rangs

On véri�e que 17 + 38 = 55

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 41: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées

Le test de Wilcoxon en présence d'ex-aequo

En présence d'ex-aequo → modi�er la statistique de test

la valeur de E(W ) ne change pasla variance de W doit elle être diminuéeOn regroupe, dans chaque groupe de valeurs égales, les sujetsayant les mêmes valeursOn obtient alors k paquets de taille t ou t est le nombred'ex-aequo de chaque groupe k

Correction de la variance : V ar(W ) = nm(n+m+1)12 −Q

Q = n⋅m∑T

12⋅(n+m)(n+m−1) avec∑T =

∑ki=1(t

3i − ti)

En l'absence d'ex-aequo, t3 − t = 0Exemple : 2 groupes de 2 et 3 ex-aequo →∑

k=2 T = 23 − 2 + 33 − 3 = 30

Cette correction est la plupart du temps réalisée automatiquementpar les logiciels

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 42: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées

Le test de Wilcoxon en présence d'ex-aequo

Correction de la variance : V ar(W ) = nm(n+m+1)12 −Q

Q = n⋅m∑T

12⋅(n+m)(n+m−1) avec∑T =

∑ki=1(t

3i − ti)

En l'absence d'ex-aequo, t3 − t = 0

Exemple : 2 groupes de 2 et 3 ex-aequo →∑k=2 T = 23 − 2 + 33 − 3 = 30

Cette correction est la plupart du temps réalisée automatiquementpar les logiciels

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 43: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées

On tra�que l'exemple

Un groupe de rats ⇒ toxique A et un groupe de rats ⇒toxique BMesure de l'e�et des toxiques sur un paramètre sanguinPour A : 10, 2 10, 3 14, 5 11, 0 12, 5Pour B : 13, 1 13, 9 14, 5 14, 8 15, 1On pose H0 et H1

On interclasse les deux séries de valeurs :

10, 2 10, 3 11, 0 12, 5 13, 1 13, 9 14, 5 14, 5 14, 8 15, 1A A A A B B A B B B

10, 2 10, 3 11, 0 12, 5 13, 1 13, 9 14, 5 14, 0 14, 8 15, 1A A A A B B A B B B1 2 3 4 5 6 7, 5 7, 5 9 10

WA = 1 + 2 + 3 + 4 + 7, 5 = 17, 5WB = 5 + 6 + 7, 5 + 9 + 10 = 37, 5

On a 1 paquet de taille 2 :∑T = 23 − 2 = 6

Q = n⋅m∑T

12⋅(n+m)(n+m−1) = 5⋅5⋅612⋅(5+5)⋅(5+5+1) = 5

44 = 0, 114

V ar(WA) = nm(n+m+112 )−Q = 5 ⋅ 55+5+1

12 − 0, 114 = 22, 79

z =17,5− 1

25(5+5+1)√22,79

= −2, 095

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 44: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées

On tra�que l'exemple

10, 2 10, 3 11, 0 12, 5 13, 1 13, 9 14, 5 14, 0 14, 8 15, 1A A A A B B A B B B1 2 3 4 5 6 7, 5 7, 5 9 10

WA = 1 + 2 + 3 + 4 + 7, 5 = 17, 5WB = 5 + 6 + 7, 5 + 9 + 10 = 37, 5

On a 1 paquet de taille 2 :∑T = 23 − 2 = 6

Q = n⋅m∑T

12⋅(n+m)(n+m−1) = 5⋅5⋅612⋅(5+5)⋅(5+5+1) = 5

44 = 0, 114

V ar(WA) = nm(n+m+112 )−Q = 5 ⋅ 55+5+1

12 − 0, 114 = 22, 79

z =17,5− 1

25(5+5+1)√22,79

= −2, 095

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 45: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées

Les principes du test de Mann-Whitney

Strictement équivalent au Wilcoxon

Hypothèses identiques au Wilcoxon

Comme le Wilcoxon, le Mann-Whitney est symétrique

Idée un peu di�érente de celle du Wilcoxon

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 46: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées

Le principe du test de Mann-Whitney

Fusion des 2 échantillonsNoter le groupe d'origine de chaque valeurDé�nir une statistique de test en comparant 2 à 2 les xi et xj

Variable indicatrice Dij :

Dij =

{1 , si yj < xi0 , si yj > xi

avec i = {1, . . . , n} et j = {n+ 1, . . . , n+m}Statistique U :

U =

n∑i=1

n+m∑j=n+1

Dij

On peut montrer que :

E(U) = nm2 et V ar(U) = nm(n+m+1)

12

D'où

z =U − nm

2√nm(n+m+1)

12

et z ∼ N (0; 1)

Approximation correcte pour des e�ectifs aussi faibles queN = 6Correction de continuité

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 47: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées

Le principe du test de Mann-Whitney

On peut montrer que :

E(U) = nm2 et V ar(U) = nm(n+m+1)

12

D'où

z =U − nm

2√nm(n+m+1)

12

et z ∼ N (0; 1)

Approximation correcte pour des e�ectifs aussi faibles queN = 6

Correction de continuité

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 48: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées

Le même exemple

Un groupe de rats ⇒ toxique A et un groupe de rats ⇒toxique BMesure de l'e�et des toxiques sur un paramètre sanguinPour A : 10, 2 10, 3 14, 0 11, 0 12, 5Pour B : 13, 1 13, 9 14, 5 14, 8 15, 1On pose H0 et H1

On interclasse les deux séries de valeurs :

10, 2 10, 3 11, 0 12, 5 13, 1 13, 9 14, 0 14, 5 14, 8 15, 1A A A A B B A B B B

Remarque

Le test est parfaitement symétriqueCalculons la valeur de UBA en cherchant les valeurs de Binférieures aux valeurs de AUBA = 2

z =2− 5⋅5

2√5⋅5(5+5+1)

12

= −2, 193

On passe de U à W par U = WA − n(n+1)2 = WB − m(m+1)

2

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 49: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées

Le même exemple

10, 2 10, 3 11, 0 12, 5 13, 1 13, 9 14, 0 14, 5 14, 8 15, 1A A A A B B A B B B

Calculons la valeur de UAB en cherchant les valeurs de Ainférieures aux valeurs de B

UAB = 5 + 5 + 5 + 5 + 3 = 23

z =23− 5⋅5

2√5⋅5(5+5+1)

12

= 2, 193

Remarque

Le test est parfaitement symétriqueCalculons la valeur de UBA en cherchant les valeurs de Binférieures aux valeurs de AUBA = 2

z =2− 5⋅5

2√5⋅5(5+5+1)

12

= −2, 193

On passe de U à W par U = WA − n(n+1)2 = WB − m(m+1)

2

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 50: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées

Le même exemple

Remarque

Le test est parfaitement symétrique

Calculons la valeur de UBA en cherchant les valeurs de Binférieures aux valeurs de A

UBA = 2

z =2− 5⋅5

2√5⋅5(5+5+1)

12

= −2, 193

On passe de U à W par U = WA − n(n+1)2 = WB − m(m+1)

2

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 51: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées

Le test de Mann-Whitney en présence d'ex-aequo

Même procédure que pour le test de Wilcoxon (même calcul de Q)

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 52: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées

Le principe du test de la médiane

Deux distributions continues de formes quelconques maisidentiques di�èrent-elles par leur paramètre de tendancecentrale ?Deux échantillons sont-ils tirés de deux populations ayantmême médiane p50(A) = p50(B)Hypothèses

H0 : p50(A) = p50(B)H1 : p50(A) ∕= p50(B)

Ou en unilatéralH0 : p50(A) ≥ p50(B)H1 : p50(A) < p50(B)

Fusion des deux séries de valeurs en un seul groupe dont ondétermine la médianeCompte des valeurs de part et d'autre de la médiane commune

Groupe A Groupe B

> p50(.) x z< p50(.) y t

Sous H0, x = y et z = tRéalisation pratique : test du �2 ou test de Fisher

Remarque : Test peu puissant mais très robuste aux écarts à lanormalité

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 53: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées

Le principe du test de la médiane

Fusion des deux séries de valeurs en un seul groupe dont ondétermine la médiane

Compte des valeurs de part et d'autre de la médiane commune

Groupe A Groupe B

> p50(.) x z< p50(.) y t

Sous H0, x = y et z = t

Réalisation pratique : test du �2 ou test de Fisher

Remarque : Test peu puissant mais très robuste aux écarts à lanormalité

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 54: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées

Un premier exemple

Durées de séjours de 67 séjours de type A et de 88 séjours detype B

Médiane commune des durées de séjours à 11 jours

Tableau des nombres de séjours :

A B Total

> 11 30 50 80< 11 37 38 75

Total 67 88 155

Test de �2 : 2, 21 avec p = 0, 1372

On ne rejette pas l'hypothèse d'égalité des médianes

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 55: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées

Un second exemple

Deux groupes expérimentauxPour A : 0 1 2 3 4 17Pour B : 2 6 7 8 9 15p50(.) = 5

A B Total

> 5 1 5 6< 5 5 1 6

Total 6 6 12

Fisher exact bilatéral : p = 0, 0801

Fisher exact unilatéral : p = 0, 0400�2 : p = 0, 021Mann-Whitney : p = 0, 128.Mann-Whitney exact : p = 0, 143Test de Student à variances égales : p = 0, 31Diversité conclusions → prudence dans le choix d'un teststatistique !

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 56: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées

Un second exemple

Fisher exact unilatéral : p = 0, 0400

�2 : p = 0, 021

Mann-Whitney : p = 0, 128.

Mann-Whitney exact : p = 0, 143

Test de Student à variances égales : p = 0, 31

Diversité conclusions → prudence dans le choix d'un teststatistique !

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 57: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées

Comparaison de deux séries appariées

Lorsque ce nombre de répétition est de 2, on utilise

Comparaison de deux séries de valeurs continues ⇒ sériesindépendantes

Répétition de la mesure d'intérêt sur les sujets de l'expérience⇒ séries appariées

Cas paramétrique → test de Student pour séries appariées

Deux tests nonparamétriques1 Le test des signes pour séries appariées2 Le test des rangs signés de Wilcoxon

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 58: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées

Le test des signes pour séries appariées

n couples de la forme (xi, yi)

X variable aléatoire associée à la première mesure et Yassociée à la seconde

Variable aléatoire D qui est la di�érence D = X − Yn valeurs di = xi − yiSi les deux séries ne di�èrent pas le nombre de di�érencespositives est le même que le nombre de di�érences négatives etla médiane des di�érences sera alors p50(D) = 0En pratique

1 Pour l'ensemble de la série on forme donc toutes les di�érences2 On comptabilise le nombre de valeurs positives (ou négatives

selon le contexte)3 H0 → loi binomiale ℬ(n; 0, 5) pour calculer la probabilité

d'avoir ce nombre de valeurs positives

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 59: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées

Un exemple

Traitement visant à diminuer la valeur d'un paramètre sanguinn = 6 sujets auxquels on applique le traitement

mesure 1 8, 4 8, 8 8, 2 8, 5 9, 3 9, 8mesure 2 7, 2 8, 1 6, 5 10, 6 9, 0 7, 4diffrence m1 −m2 + + + − + +

Si le traitement est e�cace, on devrait avoir plus de valeurspositives que de valeurs négativesFormulation unilatérale du testOn tabule la valeur de la loi binomiale ℬ(n; 0, 5)Remarque : Le test ne prend pas en compte l'importance de ladi�érence entre les deux mesures faites sur chaque sujet

Le test ne prend pas en compte l'importance de la di�érenceentre les deux mesures faites sur chaque sujetPour le quatrième couple de valeurs, la deuxième mesureaurait pu être 8,6 ou 18,9, le résultat aurait été le même alorsque pour le patient les deux situations ne sont pas du toutcomparablesOn véri�e si la médiane des di�érences di�ère de 0 ou pas, etceci quelle que soit l'ampleur des di�érencesLe test porte sur la médiane des di�érences pas sur ladi�érence des médianes

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 60: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées

Un exemple

K di�érences positivesPr(K = 0) = C0

6 ⋅ p6 = 0,0156Pr(K = 1) = C1

6 ⋅ p6 = 0,0938Pr(K = 2) = C2

6 ⋅ p6 = 0,2344Pr(K = 3) = C3

6 ⋅ p6 = 0,3125Pr(K = 4) = C4

6 ⋅ p6 = 0,2344Pr(K = 5) = C5

6 ⋅ p6 = 0,0938Pr(K = 6) = C6

6 ⋅ p6 = 0,0156

On observe k = 5 → Pr(S ≥ 5) = 0, 1094On accepte H0

Le test ne prend pas en compte l'importance de la di�érenceentre les deux mesures faites sur chaque sujetPour le quatrième couple de valeurs, la deuxième mesureaurait pu être 8,6 ou 18,9, le résultat aurait été le même alorsque pour le patient les deux situations ne sont pas du toutcomparablesOn véri�e si la médiane des di�érences di�ère de 0 ou pas, etceci quelle que soit l'ampleur des di�érencesLe test porte sur la médiane des di�érences pas sur ladi�érence des médianes

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 61: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées

Un exemple

Le test ne prend pas en compte l'importance de la di�érenceentre les deux mesures faites sur chaque sujet

Pour le quatrième couple de valeurs, la deuxième mesureaurait pu être 8,6 ou 18,9, le résultat aurait été le même alorsque pour le patient les deux situations ne sont pas du toutcomparables

On véri�e si la médiane des di�érences di�ère de 0 ou pas, etceci quelle que soit l'ampleur des di�érences

Le test porte sur la médiane des di�érences pas sur ladi�érence des médianes

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 62: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées

Le test des rangs signés de Wilcoxon

Le test des signes précédent ne prend pas en comptel'importance des di�érences entre valeurs d'un même coupleLe test des rangs signés de Wilcoxon rajoute cette information

Test plus puissantCeci suppose donc que les valeurs sont continues et passeulement ordinalesDi�érence entre rangs n'est pas pertinente

Sous H0, N = P , donc

E(T ) =n(n+ 1)

4et

V ar(T ) =n(n+ 1)(2n+ 1)

24On en déduit une statistique asymptotique :

z =T − n(n+1)

4√n(n+1)(2n+1)

24

et z ⇝ N (0, 1)

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 63: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées

Le test des rangs signés de Wilcoxon

1 - On calcule toutes les di�érences entre les valeurs dechaque couple de mesure

2 - On élimine les di�érences nulles3 - On prend les valeurs absolues des di�érences mais on

retient si la di�érence d'origine est positive ounégative

4 - On classe les valeurs absolues des di�érences de façoncroissante

5 - On calcule la somme P des rangs des valeurs positiveset la somme N des rangs des valeurs négatives

6 - On dé�nit T = min(P,N).

Sous H0, N = P , donc

E(T ) =n(n+ 1)

4et

V ar(T ) =n(n+ 1)(2n+ 1)

24On en déduit une statistique asymptotique :

z =T − n(n+1)

4√n(n+1)(2n+1)

24

et z ⇝ N (0, 1)

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 64: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées

Le test des rangs signés de Wilcoxon

Sous H0, N = P , donc

E(T ) =n(n+ 1)

4

et

V ar(T ) =n(n+ 1)(2n+ 1)

24

On en déduit une statistique asymptotique :

z =T − n(n+1)

4√n(n+1)(2n+1)

24

et z ⇝ N (0, 1)

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 65: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées

Un exemple

Soit une série de 8 couples de valeurs, dosage biologique avant etaprès l'application d'un traitement

A B DB−A ∣DB−A∣ rang P N

12 10 -2 2 3,5 3,511 12 1 1 1,5 1,514 11 -3 3 5 516 10 -6 6 8 812 8 -4 4 6 615 10 -5 5 7 718 20 2 2 3,5 3,513 12 -1 1 1,5 1,5∑

P = 5∑N = 31

On déduit de ces valeurs que : T = min(5; 31) = 5 et donc :

z =5− 8⋅9

4√8⋅9⋅(2⋅9+1)

24

= −1, 82

En regardant dans la table de la loi normale, on note que∣z∣ < z0,975. Donc on ne rejette pas H0.

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 66: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

La situationLe test de WilcoxonLe test de Mann-WhitneyLe test de la médianeComparaison de deux séries appariées

Un exemple

On déduit de ces valeurs que : T = min(5; 31) = 5 et donc :

z =5− 8⋅9

4√8⋅9⋅(2⋅9+1)

24

= −1, 82

En regardant dans la table de la loi normale, on note que∣z∣ < z0,975. Donc on ne rejette pas H0.

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 67: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Où en sommes nous ?

1 Notions de base

2 Comparaison de deux séries continues

3 Coe�cient de corrélation nonparamétrique

4 Autres situations et autres tests

5 Un mini TP

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 68: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Liaison entre deux variables quantitatives

Classiquement, on quanti�e l'intensité d'une relation entre deuxvariables quantitatives par le coe�cient de corrélation de Pearson

Dans le cas nonparamétrique il existe un équivalent basé surles rangs

Coe�cient de corrélation nonparamétrique de Spearman

Il s'agit en fait d'un coe�cient de corrélation calculé enremplaçant les valeurs d'origine par les rangs

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 69: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Coe�cient de corrélation de Spearman

On dispose de n couples de valeurs quantitatives, relevées sur nsujets

Variables aléatoires X et YChaque sujet présente une réalisation des 2 variables aléatoires(xi, yi), avec i = 1, ⋅ ⋅ ⋅ , nOn remplace chaque valeur xi par son rang ri dans la série desn mesures de la variable XOn remplace chaque valeur yi par son rang si dans la série desn mesures de la variable Y(xi, yi) remplacé par (ri, si)

Le coe�cient de Spearman suit le même principe que le coe�cientde Pearson : rapport de la covariance des deux variables par leproduit des racines des variances de chaque variable �p = CovXY

�X�Y

�p =

∑ni=1(Xi − X)(Yi − Y )[∑n

i=1 (Xi − X)2∑n

i=1 (Yi − Y )2]1/2

En substituant dans cette formule les rangs aux valeurs des X etdes Y , on obtient le coe�cient de corrélation de Spearman �s, soit :

�s =12∑n

i=1(ri − r)(si − s)n(n2 − 1)

(1)

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 70: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Coe�cient de corrélation de Spearman

On a∑n

i=1 ri =∑n

i=1 si =∑n

i=1 i = n(n+1)2

Rangs moyens dans chaque série : r = s = n+12

On a les égalités suivantes :

V ar(R) = V ar(S) =n2 − 1

12n∑i=1

(ri − r)2 =

n∑i=1

(si − s)2 =n(n2 − 1)

12

Le coe�cient de Spearman suit le même principe que le coe�cientde Pearson : rapport de la covariance des deux variables par leproduit des racines des variances de chaque variable �p = CovXY

�X�Y

�p =

∑ni=1(Xi − X)(Yi − Y )[∑n

i=1 (Xi − X)2∑n

i=1 (Yi − Y )2]1/2

En substituant dans cette formule les rangs aux valeurs des X etdes Y , on obtient le coe�cient de corrélation de Spearman �s, soit :

�s =12∑n

i=1(ri − r)(si − s)n(n2 − 1)

(1)

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 71: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Coe�cient de corrélation de Spearman

Le coe�cient de Spearman suit le même principe que le coe�cientde Pearson : rapport de la covariance des deux variables par leproduit des racines des variances de chaque variable �p = CovXY

�X�Y

�p =

∑ni=1(Xi − X)(Yi − Y )[∑n

i=1 (Xi − X)2∑n

i=1 (Yi − Y )2]1/2

En substituant dans cette formule les rangs aux valeurs des X etdes Y , on obtient le coe�cient de corrélation de Spearman �s, soit :

�s =12∑n

i=1(ri − r)(si − s)n(n2 − 1)

(1)

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 72: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Coe�cient de corrélation de Spearman : simpli�cations

On peut développer la formule (1) :

�s =12[∑n

i=1 risi − (1/4)n2(n+ 1)2]

n(n2 − 1)

Ce qui donne une première forme courante du coe�cient decorrélation de Spearman :

�s =12∑n

i=1 risin(n2 − 1)

− 3n(n+ 1)

(n− 1)

∃ encore une formulation plus courante (simplicité)

Notonsd'abord : D = R− S

di = ri − si = (ri − r)− (si − s)= ri − si − r + s= ri − si

Si on fait la somme des carrés des di�érences, on arrive à :n∑i=1

d2i =n∑i=1

(ri − r)2 +n∑i=1

(si − s)2 − 2n∑i=1

(ri − r)(si − s)

ce qui permet, après remplacement dans l'équation (1) de réécrire�s :

�s = 1−6∑n

i=1 d2i

n(n2 − 1)

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 73: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Coe�cient de corrélation de Spearman : simpli�cations

Notons d'abord : D = R− S

di = ri − si = (ri − r)− (si − s)= ri − si − r + s= ri − si

Si on fait la somme des carrés des di�érences, on arrive à :

n∑i=1

d2i =

n∑i=1

(ri − r)2 +

n∑i=1

(si − s)2 − 2

n∑i=1

(ri − r)(si − s)

ce qui permet, après remplacement dans l'équation (1) de réécrire�s :

�s = 1−6∑n

i=1 d2i

n(n2 − 1)

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 74: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Coe�cient de corrélation de Spearman : remarques

�p et �s ont même interprétation ou presque . . .Quanti�e la relation linéaire entre les rangs des deux variablesSi la relation entre les deux variables est régulièrementcroissante mais curviligne

1 �s aura une valeur très proche de 12 �p sera moins proche de 1 que �s, car il quanti�e la part

linéaire de la relation entre les deux variables d'origine

Si indépendance entre les deux variables X et Y , �s = 0Attention, le contraire n'est pas vrai !�s = 0 ne permet pas de conclure que les deux variables sontindépendantes

Comme �p, −1 ≤ �s ≤ 1Quand �s > 0 les rangs de Y augmentent quand les rangs deX augmententQuand �s < 0 les rangs de Y diminuent quand les rangs de Xaugmentent (ou l'inverse)

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 75: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Coe�cient de corrélation de Spearman : remarques

Si indépendance entre les deux variables X et Y , �s = 0

Attention, le contraire n'est pas vrai !�s = 0 ne permet pas de conclure que les deux variables sontindépendantes

Comme �p, −1 ≤ �s ≤ 1

Quand �s > 0 les rangs de Y augmentent quand les rangs deX augmententQuand �s < 0 les rangs de Y diminuent quand les rangs de Xaugmentent (ou l'inverse)

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 76: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Coe�cient de corrélation de Spearman : test

Test de �sH0 : �s ne di�ère pas de 0H1 : �s est di�érent de 0

Pour réaliser le test, on utilise le fait que :

E(�s∣H0) = 0

V ar(�s∣H0) =1

n− 1

z =r − E(�s∣H0)

V ar(�s∣H0)

=r − 0√

1n−1

= r√n− 1

La valeur de z suit une loi normale centrée réduite ce qui permet decalculer la valeur de p, la probabilité de rejeter l'hypothèse nulle

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 77: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Coe�cient de corrélation de Spearman : test

z =r − E(�s∣H0)

V ar(�s∣H0)

=r − 0√

1n−1

= r√n− 1

La valeur de z suit une loi normale centrée réduite ce qui permet decalculer la valeur de p, la probabilité de rejeter l'hypothèse nulle

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 78: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Un exemple

On dose chez des animaux la glycémie à deux temps di�érents eton souhaite savoir si les valeurs aux deux temps sont corrélées. Onobtient les valeurs des rangs suivantes :

H0 : �s = 0

�s = 1−6∑n

i=1D2i

n(n2 − 1)

Soit :

�s = 1− 6 ⋅ 34

9(92 − 1)= 0,717

On en déduit que :

z = 0,717√

8 = 2,028

Cette valeur est supérieure à celle d'une loi normale centrée réduiteau seuil de 97,5%. On rejette l'H0 : les deux séries de mesures sontcorrélées

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 79: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Un exemple

t1 t2 D D2

1 4 -3 92 1 1 13 5 -2 44 2 2 45 3 2 46 7 -1 17 8 -1 18 9 -1 19 6 3 9∑

= 0 34

H0 : �s = 0

�s = 1−6∑n

i=1D2i

n(n2 − 1)

Soit :

�s = 1− 6 ⋅ 34

9(92 − 1)= 0,717

On en déduit que :

z = 0,717√

8 = 2,028

Cette valeur est supérieure à celle d'une loi normale centrée réduiteau seuil de 97,5%. On rejette l'H0 : les deux séries de mesures sontcorrélées

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 80: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Un exemple

H0 : �s = 0

�s = 1−6∑n

i=1D2i

n(n2 − 1)

Soit :

�s = 1− 6 ⋅ 34

9(92 − 1)= 0,717

On en déduit que :

z = 0,717√

8 = 2,028

Cette valeur est supérieure à celle d'une loi normale centrée réduiteau seuil de 97,5%. On rejette l'H0 : les deux séries de mesures sontcorrélées

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 81: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Un autre exemple

2 paramètres de la coagulation : 2 protéines sanguines, corrélationattendue entre ces deux variables. On obtient les valeurs suivantes :

PA PB rangsA rangsB D D2

1,77 3,73 4 4 0 01,91 3,71 5 3 2 43,70 22,70 6 6 0 08,00 176,30 7 8 -1 10,98 3,74 2 5 -3 91,22 2,42 3 2 1 10,94 0,55 1 1 0 09,83 164,00 8 7 1 1∑

= 16

r = 1− 6⋅168(82−1) = 0,810

Le test z donne z = 0,810 ⋅√

7 = 1, 98On rejette H0 au seuil �=5%�p = 0, 968si x8,b = 27 alors �p = 0, 640 et �s = 0, 810

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 82: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Un autre exemple

r = 1− 6⋅168(82−1) = 0,810

Le test z donne z = 0,810 ⋅√

7 = 1, 98

On rejette H0 au seuil �=5%

�p = 0, 968

si x8,b = 27 alors �p = 0, 640 et �s = 0, 810

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 83: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests

Où en sommes nous ?

1 Notions de base

2 Comparaison de deux séries continues

3 Coe�cient de corrélation nonparamétrique

4 Autres situations et autres testsCas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests

5 Un mini TP

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 84: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests

Le test des séquences

Le test des séquences = test des "runs"

Teste le caractère aléatoire d'une distributionExemple : répartition des hommes et des femmes dans une �led'attenteSoit n = 10 le nombre de sujet et nH = nF = 5

Un exemple de séquence extrême : alternance systématique

M F M F M F M F M F

Absence d'alternance :

M M M M M F F F F F

Ou encore : F F M M F M F F M M

Attention Le test des runs ne teste pas un écart à une valeur de référencedonc on ne sait pas si l'on s'éloigne beaucoup ou peu de lavaleur de référencepermet �seulement� de savoir si la répartition des valeursautour d'une valeur de référence présente une organisation nonaléatoire

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 85: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests

Le test des séquences

Une séquence ou run est une succession de un ou plusieurséléments identiques qui sont précédés et/ou suivi d'un symboledi�érent (alternance)⎧⎨⎩

A A A → 1 séquence sans alternance

B A A A B B → 3 séquences et 2 alternances

B B A A B A → 4 séquences et 3 alternances

La série est non-aléatoire si les séquences sont trop longues ou tropcourtes ou si le nombre d'alternances est trop petit ou trop grand

Attention Le test des runs ne teste pas un écart à une valeur de référencedonc on ne sait pas si l'on s'éloigne beaucoup ou peu de lavaleur de référencepermet �seulement� de savoir si la répartition des valeursautour d'une valeur de référence présente une organisation nonaléatoire

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 86: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests

Le test des séquences

Soit R la variable aléatoire associée au nombre observé r deséquencesOn peut calculer exactement la Pr(R = r)Calcul de la zone de rejet du test en cumulant les probabilitésdes nombres de séquences ayant une probabilité d'apparaîtreinférieure ou égale à celle que l'on a observéeFormules fastidieuse → tables ont été crééesTrès peu de logiciels proposent le test des séquences(Minitab)H0 : la suite est aléatoire et H1 : la suite n'est pas aléatoireRejet du caractère aléatoire de la série si le nombre deséquences trop faible ou trop grand

Attention Le test des runs ne teste pas un écart à une valeur de référencedonc on ne sait pas si l'on s'éloigne beaucoup ou peu de lavaleur de référencepermet �seulement� de savoir si la répartition des valeursautour d'une valeur de référence présente une organisation nonaléatoire

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 87: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests

Le test des séquences

Attention Le test des runs ne teste pas un écart à une valeur de référence

donc on ne sait pas si l'on s'éloigne beaucoup ou peu de lavaleur de référence

permet �seulement� de savoir si la répartition des valeursautour d'une valeur de référence présente une organisation nonaléatoire

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 88: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests

Une autre situation : la recherche de tendance

Devant une série de valeurs : tendance à la hausse ? à labaisse ?Di�érents tests : coe�cient de corrélation dePearson/SpearmanLe test des séquence ne prend pas complètement en comptel'organisation des donnéesIl ne tient pas compte d'une éventuelle tendance dans lesdonnéesPour les valeurs situées d'un même côté de la valeur deréférence, s'il y a des augmentations et des diminutions desvaleurs (tout en restant par exemple au dessus de la valeur deréférences), ces variations ne seront pas prise en compte

→ le test des séquences up or downExemple de la température du patient : valeurs répartiesaléatoirement autour de la moyenneMais on peut vouloir chercher une tendance à la baisse(guérison) ou à la hausse (e�et secondaire d'un médicamentou toxicité)On peut aussi vouloir chercher une organisation particulièredes données (valeurs cycliques) comme dans le cas des �èvresquartes dans le paludisme ou bien un rythme circadien pourcertaines hormones

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 89: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests

Une autre situation : la recherche de tendance

→ le test des séquences up or down

Exemple de la température du patient : valeurs répartiesaléatoirement autour de la moyenne

Mais on peut vouloir chercher une tendance à la baisse(guérison) ou à la hausse (e�et secondaire d'un médicamentou toxicité)

On peut aussi vouloir chercher une organisation particulièredes données (valeurs cycliques) comme dans le cas des �èvresquartes dans le paludisme ou bien un rythme circadien pourcertaines hormones

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 90: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests

Le test des signes

Comparer une série de valeurs à une valeur de référence,comme par exemple une moyenne théoriqueSoit un échantillon {x1, . . . , xn} issue d'une populationX est une variable aléatoire de fonction de répartition F (X)Exemple : une moyenne observée m di�ère-t-elle d'unemoyenne théorique � ?

H0 : m = �H1 : m ∕= �

Basé sur la loi binomiale

Zone de rejet du test : l'ensemble des valeurs de k telles que ksoit trop éloigné de n/2Pour un test bilatéral, on calcule

k′�/2∑k=0

Ckn ⋅ 0,5n ≤�

2(1)

etn∑

k=k′′�/2

Ckn ⋅ 0,5n ≤�

2(2)

On trouve k′ et k′′ les bornes de la zone de rejetOn rejette H0 quand k ≤ k′�/2 ou quand k ≥ k′′�/2.Test peu puissant mais très pratique

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 91: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests

Le test des signes

Si la moyenne des données ne di�ère pas de la moyennethéorique, la moitié des valeurs de la série se situera au-dessusde la moyenne théorique et l'autre moitié des valeurs setrouvera en dessoussous H0 : les données se répartissent de part et d'autre de lavaleur théorique de façon symétrique :Pr(X < �) = Pr(X > �) = 0, 50Si K est le nombre de valeurs au dessus de �, utiliser K pourtester H0

Zone de rejet du test : l'ensemble des valeurs de k telles que ksoit trop éloigné de n/2Pour un test bilatéral, on calcule

k′�/2∑k=0

Ckn ⋅ 0,5n ≤�

2(1)

etn∑

k=k′′�/2

Ckn ⋅ 0,5n ≤�

2(2)

On trouve k′ et k′′ les bornes de la zone de rejetOn rejette H0 quand k ≤ k′�/2 ou quand k ≥ k′′�/2.Test peu puissant mais très pratique

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 92: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests

Le test des signes

Pour chaque sujet, sous H0, la probabilité que x soit plusgrand (ou plus petit) que la médiane suit une loi de Bernoullide paramètre p = 0,5Sur l'ensemble de l'échantillon de taille n, sous H0, le nombrede sujets ayant une valeur supérieure à la médiane suit une loibinomiale ℬ(n; 0, 5)Pour chaque xi, on calcule xi − � et on retient le signe de ladi�érence. On obtient donc une série de valeurs positives (+)et négatives (-) qui donnent son nom au test des signes

Zone de rejet du test : l'ensemble des valeurs de k telles que ksoit trop éloigné de n/2Pour un test bilatéral, on calcule

k′�/2∑k=0

Ckn ⋅ 0,5n ≤�

2(1)

etn∑

k=k′′�/2

Ckn ⋅ 0,5n ≤�

2(2)

On trouve k′ et k′′ les bornes de la zone de rejetOn rejette H0 quand k ≤ k′�/2 ou quand k ≥ k′′�/2.Test peu puissant mais très pratique

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 93: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests

Le test des signes

Zone de rejet du test : l'ensemble des valeurs de k telles que ksoit trop éloigné de n/2

Pour un test bilatéral, on calcule

k′�/2∑k=0

Ckn ⋅ 0,5n ≤�

2(1)

etn∑

k=k′′�/2

Ckn ⋅ 0,5n ≤�

2(2)

On trouve k′ et k′′ les bornes de la zone de rejet

On rejette H0 quand k ≤ k′�/2 ou quand k ≥ k′′�/2.Test peu puissant mais très pratique

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 94: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests

La situation

Dans les chapitres précédents1 Série unique de valeurs2 Deux séries de valeurs, éventuellement appariées

Test de Student sur trois groupes et plus ⇒ ANOVA

Comparaison nonparamétrique de plus de deux séries continues

1 Extension du test de la médiane2 ANOVA nonparamétrique à un facteur ⇒ test de

Kruskal-Wallis3 ANOVA nonparamétrique à deux facteurs ⇒ test de Friedman

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 95: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests

Extension du test de la médiane à plusieurs échantillons

Extension du test facile

Hypothèses

H0 : les groupes ont des médianes qui ne di�èrentpas

H1 : au moins un des groupes a une médiane quidi�ère des autres

Fusion des échantillons et calcul d'une médiane commune

Tableau 2 ⋅ k et �2k−1

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 96: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests

Le test de Kruskal-Wallis

Comparer de façon non paramétrique des valeurs continuesentre les di�érents niveaux (au moins 3) d'un facteurHypothèse que les distributions des groupes, si elles di�èrent,ne di�érent que par un décalage ⇒ les densités de probabilitésdoivent avoir les mêmes variancesFonctions de répartition F1(X), F2(X), ⋅ ⋅ ⋅ des variablesaléatoires associées aux mesures de chaque groupeCouple d'hypothèses :H0 : les paramètres de positions ne di�èrent pas : �1 = . . . = �k.H1 : il y a au moins un groupe pour lequel �i ∕= �j avec i ∕= j.

On localise les di�érences en comparant les moyennes par paire

∣∣∣∣∣ri.ni − rj.nj

∣∣∣∣∣ > t1−�/2

(S2 ⋅ N − 1−H

N − k

)1/2

(1

ni+

1

nj

)1/2

ri. et rj. sont les sommes des rangs respectifs des deuxgroupes à comparert1−�/2 est le quantile 1−�/2 d'une loi de Student à N − I ddlH est la statistique du test et S2 est la variance (calculésselon la présence ou non d'ex-aequo)Pour tout couple de groupes qui véri�ent cette relation, onpeut conclure à la di�érence entre les deux groupes au seuilglobal de décision �

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 97: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests

Le test de Kruskal-Wallis

Fusion des valeurs de l'ensemble des groupes en une seule sérieTransformation en rang en gardant la trace du groupe d'origineSi les groupes ont des valeurs proches, les rangs des valeursseront bien mélangés et les sommes des rangs de chaquegroupe seront proches les unes des autres

On localise les di�érences en comparant les moyennes par paire

∣∣∣∣∣ri.ni − rj.nj

∣∣∣∣∣ > t1−�/2

(S2 ⋅ N − 1−H

N − k

)1/2

(1

ni+

1

nj

)1/2

ri. et rj. sont les sommes des rangs respectifs des deuxgroupes à comparert1−�/2 est le quantile 1−�/2 d'une loi de Student à N − I ddlH est la statistique du test et S2 est la variance (calculésselon la présence ou non d'ex-aequo)Pour tout couple de groupes qui véri�ent cette relation, onpeut conclure à la di�érence entre les deux groupes au seuilglobal de décision �

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 98: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests

Le test de Kruskal-Wallis

Le test utilise une statistique, classiquement appelée H, qui vaut :

H =1

S2

(k∑i=1

r2i.ni− N(N + 1)2

4

)avec

1 ri. la somme des rangs du groupe i2 N l'e�ectif de la série commune N =

∑k1 ni

3 Variance S2 : S2 = 1N−1

(∑i,j r

2ij −

N(N+1)2

4

)

On localise les di�érences en comparant les moyennes par paire

∣∣∣∣∣ri.ni − rj.nj

∣∣∣∣∣ > t1−�/2

(S2 ⋅ N − 1−H

N − k

)1/2

(1

ni+

1

nj

)1/2

ri. et rj. sont les sommes des rangs respectifs des deuxgroupes à comparert1−�/2 est le quantile 1−�/2 d'une loi de Student à N − I ddlH est la statistique du test et S2 est la variance (calculésselon la présence ou non d'ex-aequo)Pour tout couple de groupes qui véri�ent cette relation, onpeut conclure à la di�érence entre les deux groupes au seuilglobal de décision �

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 99: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests

Le test de Kruskal-Wallis

S'il n'y a pas d'ex-aequo, alors

S2 =N(N + 1)

12et :

H =12

N(N + 1)

k∑i=1

r2i.ni− 3(N + 1)

La statistique H suit une loi du �2 à k − 1 ddl :

H ⇝ �2k−1

On localise les di�érences en comparant les moyennes par paire

∣∣∣∣∣ri.ni − rj.nj

∣∣∣∣∣ > t1−�/2

(S2 ⋅ N − 1−H

N − k

)1/2

(1

ni+

1

nj

)1/2

ri. et rj. sont les sommes des rangs respectifs des deuxgroupes à comparert1−�/2 est le quantile 1−�/2 d'une loi de Student à N − I ddlH est la statistique du test et S2 est la variance (calculésselon la présence ou non d'ex-aequo)Pour tout couple de groupes qui véri�ent cette relation, onpeut conclure à la di�érence entre les deux groupes au seuilglobal de décision �

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 100: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests

Le test de Kruskal-Wallis

On localise les di�érences en comparant les moyennes par paire

∣∣∣∣∣ri.ni − rj.nj

∣∣∣∣∣ > t1−�/2

(S2 ⋅ N − 1−H

N − k

)1/2

(1

ni+

1

nj

)1/2

ri. et rj. sont les sommes des rangs respectifs des deuxgroupes à comparer

t1−�/2 est le quantile 1−�/2 d'une loi de Student à N − I ddl

H est la statistique du test et S2 est la variance (calculésselon la présence ou non d'ex-aequo)

Pour tout couple de groupes qui véri�ent cette relation, onpeut conclure à la di�érence entre les deux groupes au seuilglobal de décision �

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 101: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests

Un exemple d'utilisation du test de Kruskal-Wallis

On veut comparer l'e�cacité de quatre traitements antidépresseurschez des patients atteints de dépression

Essai thérapeutique, on applique chacun des traitementspendant la même durée à chacun des 4 groupes de patientsOn cote la sévérité de la dépression à l'aide d'un score dedépressionLes valeurs (après transformation en rang) sont les suivantes :

On trouve un seuil de comparaison identique pour toutes lescomparaisons car ni = nj ,∀i, j. S'il en était autrement, il auraitfallu calculer les seuils pour chaque comparaison faite.

Echantillons comparés∣∣∣ ri.ni − rj.

nj

∣∣∣ Valeur seuil

1 et 2 13,8 4,711 et 3 17,0 "1 et 4 8,8 "2 et 3 3,2 "2 et 4 22,6 "3 et 4 25,8 "

En conclusion, au seuil global de 5%, seul les groupes 2 et 3 nedi�èrent pas.

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 102: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests

Un exemple d'utilisation du test de Kruskal-Wallis

Groupes 1 2 3 4

19 14 12 3822 21 1 3925 2 5 4024 6 8 3026 10 4 3137 16 13 3223 17 9 3327 11 15 3628 18 3 3429 7 20 35

ri. =∑rij 260 122 90 348

On trouve un seuil de comparaison identique pour toutes lescomparaisons car ni = nj ,∀i, j. S'il en était autrement, il auraitfallu calculer les seuils pour chaque comparaison faite.

Echantillons comparés∣∣∣ ri.ni − rj.

nj

∣∣∣ Valeur seuil

1 et 2 13,8 4,711 et 3 17,0 "1 et 4 8,8 "2 et 3 3,2 "2 et 4 22,6 "3 et 4 25,8 "

En conclusion, au seuil global de 5%, seul les groupes 2 et 3 nedi�èrent pas.

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 103: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests

Un exemple d'utilisation du test de Kruskal-Wallis

A partir de ces valeurs on peut déterminer la valeur de S2 et de H.On a :

S2 =40 ⋅ 41

12et

H = 12

40⋅41

(2602+1222+902+3482

10− 40⋅412

4

)= 31, 89

En comparant la valeur de H à un �2 à 3 ddl, on rejette H0. Onpeut donc entreprendre la localisation des di�érences pour toutesles paires de groupes.

On trouve un seuil de comparaison identiquepour toutes les comparaisons car ni = nj ,∀i, j. S'il en étaitautrement, il aurait fallu calculer les seuils pour chaquecomparaison faite.

Echantillons comparés∣∣∣ ri.ni − rj.

nj

∣∣∣ Valeur seuil

1 et 2 13,8 4,711 et 3 17,0 "1 et 4 8,8 "2 et 3 3,2 "2 et 4 22,6 "3 et 4 25,8 "

En conclusion, au seuil global de 5%, seul les groupes 2 et 3 nedi�èrent pas.

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 104: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests

Un exemple d'utilisation du test de Kruskal-Wallis

On trouve un seuil de comparaison identique pour toutes lescomparaisons car ni = nj ,∀i, j. S'il en était autrement, il auraitfallu calculer les seuils pour chaque comparaison faite.

Echantillons comparés∣∣∣ ri.ni − rj.

nj

∣∣∣ Valeur seuil

1 et 2 13,8 4,711 et 3 17,0 "1 et 4 8,8 "2 et 3 3,2 "2 et 4 22,6 "3 et 4 25,8 "

En conclusion, au seuil global de 5%, seul les groupes 2 et 3 nedi�èrent pas.

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 105: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests

Modèles paramétriques vs nonparamétriques

Un modèle paramétrique pour une observation est un ensemble deloi qui forme une bijection avec ℝk. Cette famille de loi est telleque deux lois quelconques de cette famille ne di�èrent que par lavaleur de leur paramètre � appartenant à un sous-ensemble Θ deℝk. Un modèle très (trop) souvent retenu pour des donnéescontinues est le modèle gaussien :{

Il existe (�, �2) appartenant a ℝ× ℝ+∗ tel que :X est une observation de la loi N (�, �2)

Formulation extrêmement généraleGrand nombre de variantes de ce modèle avec dessous-familles ℱ0 caractérisées par une propriété particulièreportant par exemple sur la position par rapport à l'origine ousur la dispersion donnéePrincipales variantes :

des modèles de localisation

des modèles d'échelledes modèles combinant les deux premiers, dit modèles delocalisation-échelle

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 106: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests

Modèles paramétriques vs nonparamétriques

A contrario, un modèle nonparamétrique est un modèle qui ne peutpas se mettre sous forme paramétrique. Cela revient à utiliser untrès vaste ensemble de lois qui peuvent avoir des formes trèsvariées, voire même non précisées. Cet ensemble s'écrira de façongénérique : {

Il existe F appartenant a ℱ telle que :X est une observation de la loi F

Formulation extrêmement généraleGrand nombre de variantes de ce modèle avec dessous-familles ℱ0 caractérisées par une propriété particulièreportant par exemple sur la position par rapport à l'origine ousur la dispersion donnéePrincipales variantes :

des modèles de localisation

des modèles d'échelledes modèles combinant les deux premiers, dit modèles delocalisation-échelle

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 107: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests

Modèles paramétriques vs nonparamétriques

Formulation extrêmement générale

Grand nombre de variantes de ce modèle avec dessous-familles ℱ0 caractérisées par une propriété particulièreportant par exemple sur la position par rapport à l'origine ousur la dispersion donnée

Principales variantes :

des modèles de localisation

des modèles d'échelledes modèles combinant les deux premiers, dit modèles delocalisation-échelle

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 108: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests

Le modèle de localisation

Le modèle de localisation s'écrit de la façon suivante :⎧⎨⎩Il existe F appartenant a ℱ0 et � ∈ ℝ tels que :X est une observation de la loi F� telle que∀ x ∈ ℝ, F�(x) = F (x− �)

Le paramètre � est appelé paramètre de localisation

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 109: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests

Le modèle d'échelle

Le modèle d'échelle s'écrit de la façon suivante :⎧⎨⎩Il existe F appartenant a ℱs et � ∈ ℝ+∗ tels que :X est une observation de la loi F� telle que∀ x ∈ ℝ, F�(x) = F (x/�)

Le paramètre � est appelé paramètre d'échelle

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 110: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests

Le modèle de localisation-échelle

Le modèle de localisation-échelle s'écrit :⎧⎨⎩Il existe F appartenant a ℱs et (�, �) ∈ ℝ× ℝ+∗ tels que :X est une observation de la loi F�,� telle que∀ x ∈ ℝ, F�,�(x) = F ((x− �)/�)

Les paramètres � et � sont appelé paramètres de localisation etd'échelle

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 111: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests

Conditions d'application d'un test nonparamétrique

Une erreur courante dans la littérature

Dans les tests de Mann-Whitney et de Kruskal-Wallis (tests delocalisation), on cherche un décalage entre les groupes : il fautque �i = �j

Sinon modèle de localisation-échelle

Si �i ∕= �j , le test ne correspond pas à l'hypothèse testée

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 112: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests

Rappel des tests et autres tests

Tests de LocalisationWilcoxon et Mann-WhitneyMédianeKruskal-Wallis et de FriedmanSignesScores normauxSavageScores générauxPour séries appariées

Signes pour séries appariées

Rangs signés de Wilcoxon

D'autres tests encoreCoe�cient de corrélation de SpearmanKolmogorov-SmirnovRuns de Wald-WolfowitzJonckheere et TerpstraTau de KendallCoe�cient gamma de (Goodman-)KruskalCoe�cient de concordance de Kendall

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 113: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests

Rappel des tests et autres tests

Tests d'échelleSiegel-Tukey et Ansary-BradleyMoodKlotzConover

Tests pour données censuréesWilcoxon-GehanLog-rank

D'autres tests encoreCoe�cient de corrélation de SpearmanKolmogorov-SmirnovRuns de Wald-WolfowitzJonckheere et TerpstraTau de KendallCoe�cient gamma de (Goodman-)KruskalCoe�cient de concordance de Kendall

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 114: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Cas d'une série unique de valeursComparaison de plus de deux séries continuesLe résumé et la classi�cation des tests

Rappel des tests et autres tests

D'autres tests encore

Coe�cient de corrélation de Spearman

Kolmogorov-Smirnov

Runs de Wald-Wolfowitz

Jonckheere et Terpstra

Tau de Kendall

Coe�cient gamma de (Goodman-)Kruskal

Coe�cient de concordance de Kendall

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 115: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Où en sommes nous ?

1 Notions de base

2 Comparaison de deux séries continues

3 Coe�cient de corrélation nonparamétrique

4 Autres situations et autres tests

5 Un mini TP

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 116: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Le problème

Le revenu de 5 hommes et 5 femmes sont les suivants

Hommes Femmes

35.000 37.00030.000 32.00037.500 39.50040.000 42.00042.500 44.500

⇒ Les hommes sont-ils mieux payés que les femmes ?

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 117: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Le traitement à la main

1 Quel test ? ⇒ test de Wilcoxon

2 Véri�cation préalable : homogénéité des variances (test delocalisation)

3 Quelles sont les hypothèses ?

H0 La distribution des revenus est la même chez les hommes quechez les femmes

H1 La distribution des revenus des hommes est décalée vers ladroite par rapport à celle des femmes

4 Valeur de la statistique ?1 Remplacer les valeurs par les rangs2 Calcul de WH , de E(WH) et de V ar(WH)

3 Calcul de z =WH+ 1

2−E(WH)√V ar(WH)

5 Lecture de la signi�cation du test (unilatéral) à 5%

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 118: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Le traitement à la main

Remplacer les valeurs par les rangs

H 3 1 5 7 9F 4 2 6 8 10

WH = 3 + 1 + 5 + 7 + 9 = 25

WF = 30 et on véri�e que WH +WF = 12n(n+ 1)

E(WH) = 12n(n+m+ 1) = 1

25(5 + 5 + 1) = 552 = 27, 5

V ar(WH) = nmn+m+112 = 5 ⋅ 55+5+1

12 = 27512 = 22, 97

z =WH+ 1

2−E(WH)√

V ar(WH)= −0, 418

Pr(∣z∣ = 0, 418) > 5% ⇒ On accepte H0 : les hommes nesont pas mieux payés que les femmes

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 119: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Le traitement avec R

H<-c(35000,30000,37500,40000,42500)

F<-c(37000,32000,39500,42000,44500)

wilcox.test(H,F,alternative="greater")

Wilcoxon rank sum test

data: H and F

W = 10, p-value = 0.7262

alternative hypothesis: true location shift is greater than 0

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 120: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Le traitement avec R

"W=10" ?

U = W − n(n+1)2

R utilise le test de Mann-Whitney et l'appelle test de Wilcoxon

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 121: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Le traitement avec SAS

data lecture;

input sexe $ revenu;

cards;

M 35000

M 30000

M 37500

M 40000

M 42500 proc Npar1way data = lecture wilcoxon;

F 37000 class sexe;

F 32000 var revenu;

F 39500 exact wilcoxon;

F 42000 run;

F 44500

;

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 122: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Le traitement avec SAS

The NPAR1WAY Procedure

Wilcoxon Scores (Rank Sums) for Variable revenu

Classified by Variable sexe

Sum of Expected Std Dev Mean

sexe N Scores Under H0 Under H0 Score

--------------------------------------------------------------------

M 5 25.0 27.50 4.787136 5.0

F 5 30.0 27.50 4.787136 6.0

Wilcoxon Two-Sample Test

Statistic (S) 25.0000

Normal Approximation

Z -0.4178

One-Sided Pr < Z 0.3381

Two-Sided Pr > |Z| 0.6761

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 123: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

Le traitement avec SAS

t Approximation

One-Sided Pr < Z 0.3429

Two-Sided Pr > |Z| 0.6859

Exact Test

One-Sided Pr <= S 0.3452

Two-Sided Pr >= |S - Mean| 0.6905

Z includes a continuity correction of 0.5.

Kruskal-Wallis Test

Chi-Square 0.2727

DF 1

Pr > Chi-Square 0.6015

EA. Sauleau - N. Meyer M2 Santé Publique - SB1

Page 124: estsT nonparamétriquesudsmed.u-strasbg.fr/labiostat/IMG/pdf/non_param_EAS_SB1.pdf · 2009. 9. 5. · 3 estsT non paramétriques 1 Dé nition, intérêt et utilisation des tests de

Notions de baseComparaison de deux séries continues

Coe�cient de corrélation nonparamétriqueAutres situations et autres tests

Un mini TP

En complément

On pourrait véri�er que les résultats ne sont pas impactés parun changement d'unité (diviser toutes les valeurs par 1000)

Plus étonnant : pas de changement si on oublie les virgules endivisant par 1000

Valeurs Rangs initiaux Nouveaux rangsHommes Femmes Hommes Femmes Hommes Femmes

35 37 3 4 3 430 32 1 2 1 2375 395 5 6 7 840 42 7 8 5 6425 445 9 10 9 10

Somme 25 30 25 30

EA. Sauleau - N. Meyer M2 Santé Publique - SB1