universités paris 5, 6, 7 et 12 mémoire pour letest de mann-whitney pour les groupes non...

33
1 Universités Paris 5, 6, 7 et 12 Mémoire pour le DIPLÔME INTER-UNIVERSITAIRE DE PÉDAGOGIE MÉDICALE Par Benjamin Wyplosz Lecture d’articles médicaux : évaluation des connaissances statistiques élémentaires des internes et d’une méthode d’apprentissage en stage hospitalier Soutenu le 19 octobre 2006

Upload: others

Post on 12-Jul-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Universités Paris 5, 6, 7 et 12 Mémoire pour letest de Mann-Whitney pour les groupes non appariés, et par le test de rang de Wilcoxon pour des échantillons appariés. Le seuil

1

Universités Paris 5, 6, 7 et 12

Mémoire

pour le

DIPLÔME INTER-UNIVERSITAIRE

DE PÉDAGOGIE MÉDICALE

Par

Benjamin Wyplosz

Lecture d’articles médicaux :

évaluation des connaissances statistiques élémentaires des internes

et d’une méthode d’apprentissage en stage hospitalier

Soutenu le 19 octobre 2006

Page 2: Universités Paris 5, 6, 7 et 12 Mémoire pour letest de Mann-Whitney pour les groupes non appariés, et par le test de rang de Wilcoxon pour des échantillons appariés. Le seuil

2

Table des matières

I. Introduction ___________________________________________________________ 3

II. Contexte et objectifs et du projet de recherche ______________________________ 3

Élaboration du questionnaire _________________________________________________ 4

III. Modalité de l’enseignement en stage______________________________________ 5

A. Choix des articles ________________________________________________________ 5

B. Présentation de l’article _____________________________________________________ 6

IV. Population___________________________________________________________ 6

A. Groupe d’intervention ____________________________________________________ 6

B. Groupe témoin _____________________________________________________________ 7

C. Analyse statistique__________________________________________________________ 7

V. Résultats ______________________________________________________________ 7

A. Structure du questionnaire_________________________________________________ 7

B. Population ________________________________________________________________ 81. Groupe d’intervention _____________________________________________________________ 8

2. Groupe témoin ___________________________________________________________________ 8

C. Réponse au questionnaire ____________________________________________________ 91. Comparaison des scores de performances ______________________________________________ 9

2. Comparaison des réponses par questions _______________________________________________ 9

D. Enseignement_____________________________________________________________ 10

E. Évaluation de l’enseignement à l’aide du questionnaire___________________________ 111. Comparaison des notes ___________________________________________________________ 11

2. Comparaison des réponses par question. ______________________________________________ 12

VI. Discussion__________________________________________________________ 13

VII. Remerciements ______________________________________________________ 15

VIII. Références________________________________________________________ 15

Page 3: Universités Paris 5, 6, 7 et 12 Mémoire pour letest de Mann-Whitney pour les groupes non appariés, et par le test de rang de Wilcoxon pour des échantillons appariés. Le seuil

3

I. Introduction

La lecture critique d’articles médicaux, préalable indispensable à la médecine

fondée sur les preuves (Evidence based medicine ou EBM), sera à la session de

l’examen classant national qui aura lieu en 2008. Depuis l’année 2005-2006, tous les

étudiants entrant en deuxième cycle d’études médicales sont formés à cet exercice

dans les universités françaises.

Si aucun interne actuellement en exercice n’a eu de formation universitaire

spécifique à la lecture critique, certains ont pu suivre des enseignements optionnels,

au cours de bibliographie dans des services, ou d’une année de recherche. Tous,

cependant, ont eu au moins une formation en statistiques au cours du premier cycle,

et ceux qui ont passé le concours de l’internat avaient des questions qui s’y

rapportaient (tableau 1).

Tableau 1. Questions de méthodologie aux programmes de l’internat 1998 et 2004.

Questions au programme de l’internat 1998

393. Mesure de l'état de santé de la population : principaux indicateurs de santé, taux d'incidence, de

prévalence, d'attaque, de morbidité et de mortalité ; facteurs de risque, groupes à risque, principales

caractéristiques de la morbidité et de la mortalité en France.

394. Interprétation d'une enquête épidémiologique : types d'enquête, notions de biais, causalité.

396. Évaluation des procédures de diagnostic ou de dépistage : validité d'un test, sensibilité,

spécificité, valeurs prédictives. Définition et indications d'un dépistage de masse.

Questions au programme de l’internat 2004

2. La méthodologie de la recherche clinique.

3. Le raisonnement et la décision en médecine. La médecine fondée sur des preuves. L'aléa

thérapeutique.

4. Évaluation des examens complémentaires dans la démarche médicale : prescriptions utiles et

inutiles.

II. Contexte et objectifs et du projet de recherche

Bien que théoriquement formés aux notions élémentaires de statistiques

médicales, les internes actuellement en exercice ne sont pas, ou peu, exercés à les

utiliser dans le cadre de la lecture d’articles médicaux et scientifiques. C’est pourquoi

une séance hebdomadaire est consacrée à cet exercice dans le département de

médecine interne de l’hôpital européen.

Page 4: Universités Paris 5, 6, 7 et 12 Mémoire pour letest de Mann-Whitney pour les groupes non appariés, et par le test de rang de Wilcoxon pour des échantillons appariés. Le seuil

4

Les objectifs de ce travail étaient :

1. Comparer, à l’aide d’un questionnaire, les connaissances des internes en stage

dans le département (groupe d’intervention) avant la formation, à celles d’un

groupe témoin d’internes en médecine non sélectionnés.

2. Évaluer les progrès accomplis après la formation chez 2 fournées successives

d’internes.

III. Élaboration du questionnaire

Le questionnaire d’évaluation des connaissances (annexe 1) a été élaboré à

partir de celui de Estellat C et al [1], qui avait fait l’objet du mémoire de pédagogie

médicale du Dr Christophe Faisy en 2005 (annexe 2). Il s’agissait d’un questionnaire

inspiré de celui de celui de Berwick DM et al publié en 1981 [2], qui a été validé par

un groupe d’experts francophones. Il avait pour but d’évaluer la compréhension de

notions statistiques simples chez des médecins habitués à la lecture critique, en

particulier chez des universitaires ayant dans leurs fonctions d’enseigner l’EBM. Il

comportait 18 questions (annexe 2) : 4 concernaient le traitement, 6 le diagnostic, 4

étaient d’ordre général et 4 se rapportaient aux méta-analyses (tableau 2).

Tableau 2. Nature et résultats du questionnaire de Estellat et al. [1]

Le questionnaire de Estellat et al. a été modifié pour des internes, peu ou pas

habitués à la lecture d’articles médicaux, tout en conservant une durée de réponse

inférieure à 30 minutes.

Page 5: Universités Paris 5, 6, 7 et 12 Mémoire pour letest de Mann-Whitney pour les groupes non appariés, et par le test de rang de Wilcoxon pour des échantillons appariés. Le seuil

5

Huit questions du questionnaire de Estellat C et al ont été reprises en l’état :

réductions de risque (Q 1-2), nombre de sujet à traiter (Q3), intervalle de confiance

(Q5), sensibilité (Q6), spécificité (Q7), calcul du rapport de vraisemblance signe

présent (Q9), rapport de côtes (13).

Dix questions ont été supprimées car elles semblaient trop difficiles pour des

internes novices en lecture critique : nombre du sujets pour un effet délétère (Q4),

définition du rapport de vraisemblance (Q8), concordance (Q10), valeur prédictive

(Q11), utilisation d’un rapport de vraisemblance (Q12), analyse à variables multiples

(Q14), méta-analyse (Q15-18).

Quatre nouvelles questions ont été ajoutées pour évaluer des connaissances

statistiques plus générales : petit p, écart-type, et calculs d’une moyenne, d’une

médiane et d’un quartile. Une question sur le référencement d’un article médical

selon la norme de Vancouver a été ajoutée, qui ne nécessitait pas d’avoir des

connaissances en lecture critique.

Le calcul du nombre de sujets n’était pas abordé (incluant les risques α et β),

ni des notions générales comme l’intention de traiter. Il n’y avait aucune question se

rapportant à l’épidémiologie, à l’étiologie ni au pronostic qui ne sont pas les articles

les plus lus en pratique courante en médecine. Le questionnaire final avait pour but

d’évaluer les grandes notions basiques nécessaires pour interpréter les résultats d’un

article thérapeutique ou diagnostique.

IV. Modalité de l’enseignement en stage

Un seul article était lu chaque semaine pendant tout le semestre par tous les

médecins du service (internes, chefs de clinique et professeurs) au cours d’une

séance de 2 heures. Les séances étaient dirigées par le chef département avec le

concours des autres médecins seniors.

A. Choix des articles

Les articles étaient choisis dans une revue médicale à comité de lecture pour leur

qualité didactique, leur apport pour la prise en charge des malades du département,

ou pour répondre à une question posée au cours d’une visite ou d’une réunion de

travail. Une photocopie de l’article était remise à chaque participant au moins une

semaine à l’avance.

Page 6: Universités Paris 5, 6, 7 et 12 Mémoire pour letest de Mann-Whitney pour les groupes non appariés, et par le test de rang de Wilcoxon pour des échantillons appariés. Le seuil

6

B. Présentation de l’article

Chaque séance de lecture critique était présentée en 4 parties sous forme d’un

diaporama. La 1ère séance était menée par un senior. Un exemple de présentation

d’interne est en annexe 3.

• Dans une 1ère partie, sont analysés le titre, les auteurs, la référence de l’article

selon la norme de Vancouver, les financements, et les conflits d’intérêts potentiels

et déclarés.

• Dans une 2e partie, l’introduction, les méthodes, et l’analyse statistique sont

critiquées.

L’article est repositionné dans un contexte historique, la question posée est

identifiée et critiquée.

Les internes sont spécifiquement questionnés sur le chapitre de méthodes

(population, critères d’inclusion, randomisation, effectifs, méthode employée). Les

notions fréquemment rencontrées en statistiques font l’objet d’un enseignement, y

compris celles présentes dans le questionnaire sans y répondre spécifiquement,

improvisé au tableau ou à l’aide d’un diaporama adapté à l’article choisi. Un

exemple est proposé en annexe 4 correspondant à l’article de l’annexe 3.

Le choix des tests statistiques rencontrés est discuté, ainsi que les calculs des

effectifs.

À la fin de cette partie, les problèmes éthiques sont abordés.

• Dans une 3e partie, les résultats sont présentés, le plus souvent à partir des

tableaux et figures de l’article original. Une discussion a lieu sur la significativité

statistique et la significativité clinique des résultats.

• Dans une 4e partie, la discussion, les conclusions et le résumé des auteurs sont

commentés. Chacun est invité à donner son opinion sur des changements

potentiels en pratique clinique.

V. Population

A. Groupe d’intervention

Le groupe d’intervention était composé des internes en stage dans le

département de Médecine interne de l’hôpital européen Georges Pompidou pendant

les semestres de novembre 2005 à avril 2006 (hiver 2005) et mai à octobre 2006

(été 2006). Ils ont répondu au questionnaire avant le début de l’enseignement. Un 2e

Page 7: Universités Paris 5, 6, 7 et 12 Mémoire pour letest de Mann-Whitney pour les groupes non appariés, et par le test de rang de Wilcoxon pour des échantillons appariés. Le seuil

7

questionnaire a été rempli fin avril 2006 pour les internes présents l’hiver 2005. En

revanche, les internes du semestre d’été 2006 l’ont rempli début septembre 2006 en

raison des nécessités rédactionnelles du mémoire.

B. Groupe témoin

Le niveau de connaissance des internes en stage dans le département a été

comparé à un groupe témoin. Tous les internes en stage dans un service de

médecine dans l’hôpital à la même période et ayant fait des études de médecine en

France étaient éligibles. Chaque interne du groupe témoin était sollicité en personne

par l’investigateur (BW), au début du semestre. Un questionnaire leur été remis en

main propre avec des explications sur les enjeux (participer à un mémoire de

pédagogie, anonymat des réponses), et sur la manière d’y répondre (30 minutes,

sans aide). L’investigateur repassait systématiquement voir les internes pour

récupérer les questionnaires. En raison du départ de l’investigateur en mai 2006 de

l’hôpital Georges Pompidou pour l’hôpital Paul Brousse à Villejuif, le groupe témoin

n’a pu être issu des mêmes services pour l’été 2006.

C. Analyse statistique

Un point était attribué par bonne réponse. Les réponses faussent ou « ne sait

pas » étaient groupées. Un score de performance était calculé par participant par la

somme des bonnes réponses (maximum de 14 points). Les variables catégorielles

étaient représentées par des proportions et les variables continues par une moyenne

avec un écart-type (âge) ou par une médiane avec écart interquartile (nombre de

semestres effectués). Les scores de performances aux tests ont été comparés par le

test de Mann-Whitney pour les groupes non appariés, et par le test de rang de

Wilcoxon pour des échantillons appariés. Le seuil de significativité statistique de p

était fixé à 0,05.

VI. Résultats

A. Structure du questionnaire

Le questionnaire final est disponible en annexe 2. Il comprenait 12 questions

réparties en 6 questions générales, 3 questions diagnostiques et 3 questions

thérapeutiques (tableau 3).

Page 8: Universités Paris 5, 6, 7 et 12 Mémoire pour letest de Mann-Whitney pour les groupes non appariés, et par le test de rang de Wilcoxon pour des échantillons appariés. Le seuil

8

Tableau 3. Catégories et contenu du questionnaire.

Questions Contenu Champ d’application

1 Petit p Général

2 Écart-type Général

3 Médiane Général

4 Quartile Général

5 Moyenne Général

6 Réduction de risque absolu Traitement

7 Réduction de risque relatif Traitement

8 Nombre de sujet à traiter Traitement

9 Intervalle de confiance Général

10 Sensibilité Diagnostic

11 Spécificité Diagnostic

12 Rapport de vraisemblance Diagnostic

13 Odds ratio Général

14 Référence journal Général

B. Population

1. Groupe d’intervention

Les 10 internes en stage dans le département entre novembre 2005 et octobre 2006

ont répondu au questionnaire. Cependant, un questionnaire d’évaluation initial n’a

pas été retrouvé au moment de l’analyse des résultats. Il restait donc 9 internes

évaluables pour l’étude.

2. Groupe témoin

Parmi les 27 internes effectuant un stage à l’hôpital Georges Pompidou en novembre

2005 dans les services de médecine sollicités (urgences, cardiologie, médecine

vasculaire, hépato-gastro-entérologie, néphrologie, gérontologie, pneumologie), 9 ont

remplis le questionnaire (33 %). Les autres ne souhaitaient pas participer, ont perdu

le questionnaire ou n’étaient pas joignables à plusieurs reprises.

Parmi les 6 internes sollicités à l’hôpital Paul Brousse (3 en psychiatrie, 1 en

médecine interne et 2 en maladies infectieuses), 5 ont répondu au questionnaire.

Page 9: Universités Paris 5, 6, 7 et 12 Mémoire pour letest de Mann-Whitney pour les groupes non appariés, et par le test de rang de Wilcoxon pour des échantillons appariés. Le seuil

9

Tableau 4. Comparaison des caractéristiques des internes étudiés.

Témoin

(n = 14)

Population étudiée

(n = 9)

Sexe féminin (%) 57 % 78 %

Âge : moyenne (écart-type) 26,6 (1,5) 25,2 (1,2)

Semestres, médiane [interquartile] 4 [2,25-5] 2 [1-2]

Interne en médecine générale (%) 33 % 71 %

Les internes du département étaient plus souvent de sexe féminin (78 % contre

57 %), et étaient en moyenne plus jeunes d’une année que la population témoin. Le

département de médecine interne est en effet plus souvent choisi par des jeunes

internes (2 semestres effectués contre 4) fréquemment inscrits en médecine

générale (71 % contre 33 %). Aucun interne des 2 groupes n’avaient suivi une

formation en statistique ou en lecture critique en dehors de l’enseignement dispensé

pendant les études médicales.

C. Réponse au questionnaire

1. Comparaison des scores de performances

Les internes du groupe témoin ont obtenu une moyenne globale de notes de 7,0/14

(intervalle de confiance à 95 % [IC 95] de 5,7-8,3 ; étendue de 3 à 12). Le groupe

d’intervention avait une moyenne globale de 6,4/14 (IC 95 : 5,7-7,1 ; étendue de 5

à 8). La comparaison des notes n’étaient pas statistiquement significative entres les

2 groupes (p = 0,64).

2. Comparaison des réponses par questions

Les proportions de bonnes réponses par question sont représentées dans le

tableau 5. Il n’y avait pas de différence significative entre les 2 groupes. Plus de

50 % des internes des 2 groupes ont bien répondu aux questions concernant la

moyenne, les réductions de risque, la sensibilité et la spécificité. Les questions qui

ont posé le plus de problème (≤ 25 % de bonnes réponses) concernaient l’écart-type,

le calcul d’un quartile et le rapport de vraisemblance diagnostique. Les internes du

groupe témoin ont mieux répondu, même si la différence n’était pas significative, aux

questions sur le nombre de sujet à traiter, l’intervalle de confiance et la référence

d’un journal.

Page 10: Universités Paris 5, 6, 7 et 12 Mémoire pour letest de Mann-Whitney pour les groupes non appariés, et par le test de rang de Wilcoxon pour des échantillons appariés. Le seuil

10

Tableau 5. Réponses aux questions dans le groupe témoin et le groupe d’intervention.

Témoin (n = 14) Groupe (n = 9) Total (n = 23)Questions Contenu

Nombre de bonnes réponses (%)

1 Petit p 5 (31) 4 (44) 9 (39)

2 Écart-type 2 (15) 2 (25) 4 (18)

3 Médiane 7 (46) 4 (44) 11 (48)

Quartile 2 (8) 0 (0) 2 (9)

Moyenne 11 (77) 5 (56) 16 (70)

4 Réduction de risque absolu 9 (62) 6 (67) 15 (65)

5 Réduction de risque relatif 9 (62) 5 (56) 14 (61)

6 Nombre de sujet à traiter 7 (54) 3 (33) 10 (43)

7 Intervalle de confiance 7 (54) 2 (22) 9 (39)

8 Sensibilité 12 (92) 9 (100) 21 (91)

9 Spécificité 12 (92) 9 (100) 21 (91)

10 Rapport de vraisemblance 2 (15) 1 (11) 3 (13)

11 Odds ratio 5 (38) 5 (56) 10 (43)

12 Référence journal 8 (62) 3 (33) 11 (48)

En gras, les proportion de bonnes réponses dépassant 50 %.

D. Enseignement

Les articles étaient majoritairement issus du New England Journal of Medicine et du

Lancet (tableau 6). Il s’agissait majoritairement (tableau 7) d’essais thérapeutiques

(63 %). Un petit nombre concernaient l’épidémiologie et le diagnostic. Aucun article

ne traitait d’étiologie ni de dépistage.

Tableau 6. Principaux journaux d'où ont été tirés les articles étudiés.

Journaux Novembre 2005-Avril 2006 Mai 2006-septembre 2006

N Engl J Med 14 7

Lancet 4 4

Autres 4 -

Page 11: Universités Paris 5, 6, 7 et 12 Mémoire pour letest de Mann-Whitney pour les groupes non appariés, et par le test de rang de Wilcoxon pour des échantillons appariés. Le seuil

11

Tableau 7. Catégories d'articles lus pendant les 2 périodes d'enseignement.

Catégories d’article Novembre 2005-Avril 2006 Mai 2006-août 2006

Épidémiologie 3 2

Étiologie - -

Diagnostic 3 1

Dépistage - -

Thérapeutique 14 7

Pronostic - 1

Autre 2 -

Total 22 11

E. Évaluation de l’enseignement à l’aide du questionnaire

1. Comparaison des notes

Les notes des internes avant et après la formation sont représentées dans le

tableau 8. Elles ont été améliorées (en gris clair, progression d’une bonne réponse ;

en gris foncé, progression de plus d’une bonne réponse) pour tous sauf un interne

(en blanc). Les performances étaient significativement augmentées (p = 0,004) mais

restaient égales ou inférieures à la moyenne (7/14) pour 3 d’entre eux.

Tableau 8. Comparaison des notes des 9 internes avant et après l’enseignement

Internes Moyenne avant

(note sur 14)

Moyenne après

(note sur 14)

1 7 7

2 5 6

3 5 7

4 6 8

5 8 13

6 6 9

7 7 8

8 7 10

9 7 10

Page 12: Universités Paris 5, 6, 7 et 12 Mémoire pour letest de Mann-Whitney pour les groupes non appariés, et par le test de rang de Wilcoxon pour des échantillons appariés. Le seuil

12

2. Comparaison des réponses par question.

Les résultats de l’évaluation après la formation sont montrées dans le tableau 9.

Les internes ont progressé, pour 9 questions, d’une bonne réponse (en gris clair) ou

de plus d’une bonne réponse (gris foncé). La progression concernait les statistiques

générales (petit p, médiane, quartile, moyenne, intervalle de confiance, et référence

du journal), le diagnostic (rapport de vraisemblance), et le traitement (réductions de

risques absolu et relatif).

En revanche, la proportion de bonnes réponses n’a pas varié concernant le nombre

de sujet à traiter (3 sur 9 soit 33 %), la sensibilité et la spécificité (9 sur 9 soit 100 %).

Elle a diminué d’une bonne réponse pour l’écart-type (de 2 à 1 bonne réponse) et

l’odds ratio (de 5 à 4).

Tableau 9. Comparaison des réponses de 9 internes après la formation.

Questions Contenu Avant Après Champ d’application

N bonnes réponses (%)

1 Petit p 4 (44) 5 (56) Général

2 Écart-type 2 (25) 1 (11) Général

3 Médiane 4 (44) 5 (56) Général

4 Quartile 0 (0) 3 (33) Général

5 Moyenne 5 (56) 7 (78) Général

6 Réduction de risque absolu 6 (67) 7 (78) Traitement

7 Réduction de risque relatif 5 (56) 6 (67) Traitement

8 Nombre de sujet à traiter 3 (33) 3 (33) Traitement

9 Intervalle de confiance 2 (22) 8 (89) Général

10 Sensibilité 9 (100) 9 (100) Diagnostic

11 Spécificité 9 (100) 9 (100) Diagnostic

12 Rapport de vraisemblance 1 (11) 3 (33) Diagnostic

13 Odds ratio 5 (56) 4 (44) Général

14 Référence journal 3 (33) 8 (89) Général

Page 13: Universités Paris 5, 6, 7 et 12 Mémoire pour letest de Mann-Whitney pour les groupes non appariés, et par le test de rang de Wilcoxon pour des échantillons appariés. Le seuil

13

VII. Discussion

Notre étude a montré une mauvaise connaissance globale des notions

élémentaires de statistiques nécessaires à la lecture critique chez les internes en

médecine. Le questionnaire utilisé a montré qu’Ils ont spontanément mieux répondu

(> 50 % de bonnes réponses) aux questions sur la moyenne, les réductions de

risques absolu et relatif, ainsi que la sensibilité et la spécificité. Des notions plus

modernes comme l’intervalle de confiance, le nombre de sujet à traiter, et le rapport

de vraisemblance diagnostique étaient particulièrement mal connues (< 50 % de

bonnes réponses).

La participation des internes éligibles dans le groupe témoin était de 33 % à

l’hôpital Pompidou essentiellement par manque de volonté. Comme le questionnaire

portait sur des notions considérées comme difficiles et rébarbatives par nombre

d’entre eux, ceux qui étaient le moins à l’aise ont probablement été plus enclin à ne

pas participer. L’étendue des scores des performances étant assez large avec une

moyenne comparable dans les 2 groupes, il est probable qu’il n’y a pas eu de biais

de recrutement lié à une augmentation du nombre internes se sentant à l’aise avec

les statistiques dans le groupe témoin. À l’hôpital Paul Brousse, la participation était

plus élevée car le nombre d’internes éligibles était plus petit et les relances incitatives

plus répétées.

Les réponses obtenus par Estellat et al aux mêmes items que dans notre

étude ont montré que les médecins seniors interrogés maîtrisaient mieux ces

notions. On constate, cependant, que les meilleurs scores ont été obtenus dans les

2 études pour les mêmes questions : réductions de risques absolu et relatif,

sensibilité et spécificité. Dans les 2 études, les questions sur l’intervalle de confiance,

le rapport de vraisemblance diagnostique et l’odds ratio ont obtenus moins de 50 %

de bonnes réponses. En revanche, les médecins interrogés par Estellat et al ont

mieux répondus que les internes à la question sur le calcul du nombre de sujet à

traiter (65 % contre 48 %).

La formation offerte aux internes était suivie avec beaucoup d’assiduité et très

appréciée par eux-mêmes et par les médecins seniors (données non mesurées dans

l’enquête). Les internes maîtrisaient rapidement les modalités de présentation sous

forme de diaporama en français, et affûtaient en quelques séances leur capacité

critique. La charge de préparation correspondaient à 2 à 3 soirées de travail en plus

Page 14: Universités Paris 5, 6, 7 et 12 Mémoire pour letest de Mann-Whitney pour les groupes non appariés, et par le test de rang de Wilcoxon pour des échantillons appariés. Le seuil

14

par internes toutes les 5 semaines. La lecture en anglais ne semblaient pas faire

obstacle à la compréhension. La mise en place de ce type d’enseignement dans un

service clinique semble une surcharge de travail et d’emploi du temps acceptable

pour une équipe médicale.

L’apprentissage des connaissances évaluées dans le questionnaire était

statistiquement significative mais encore insuffisante. Des progrès francs ont été

constatés pour des items relativement modernes comme l’intervalle de confiance et

le rapport de vraisemblance diagnostique. Comme les notions testées dans le

questionnaire ont été enseignées pendant les séances, sans en donner

spécifiquement les réponses, il faut en conclure que l’enseignement n’était assez

performant pour obtenir des progrès décisifs. La méthode utilisée a possiblement

encore été trop proche du paradigme d’enseignement et pas assez de celui

d’apprentissage [3]. En d’autres termes, les internes n’ont pas été mené jusqu’au

point où ils étaient capables de maîtriser suffisamment des connaissances nouvelles

pour résoudre un problème.

Le questionnaire n’a cependant pas évalué de nombreux points forts des

séances qui font l’objet de l’ECN et qui sont exposés dans le chapitre « présentation

de l’article » : identification de la question posée, validité de la méthodologie, analyse

des résultats, répercussion sur la prise en charge des malades. Nous n’avons pas

non plus évalué l’envie et le plaisir que les internes ont eu à lire des articles

médicaux issus directement de grandes revues médicales en anglais.

En conclusion, ce type d’enseignement par présentation d’articles dans les

services permet aux internes qui n’ont pas eu d’enseignement spécifique de lecture

critique de démythifier la lecture d’articles en langue anglaise et de progresser de

façon significative. Néanmoins, un effort doit être mis pour les faire participer encore

plus activement afin d’acquérir une meilleure autonomie concernant les notions

statistiques indispensables à la bonne interprétation des articles.

Page 15: Universités Paris 5, 6, 7 et 12 Mémoire pour letest de Mann-Whitney pour les groupes non appariés, et par le test de rang de Wilcoxon pour des échantillons appariés. Le seuil

15

VIII. Remerciements

Je remercie le Pr Loïc Capron qui a animé les séances de lecture critique

dans le département de médecine interne et qui m’a aidé à mettre au point le

questionnaire.

Je remercie le Dr Pierre Durieux pour m’avoir autorisé à utiliser le

questionnaire publié avec Candice Estellat et al, pour ses enrichissantes discussions

en matière de lecture critique, et pour m’avoir fait confiance dans le groupe

d’enseignement au sein de l’Université Paris 5.

Je remercie les internes qui ont bien voulu répondre au questionnaire.

IX. Références

1. Berwick DM, Fineberg HV, Weinstein MC. When doctors meet numbers. Am J

Med 1981 ; 71 : 991-8.

2. Estellat C, Faisy C, Colombet I, Chatellier G, Burnand B, Durieux P. French

academic physicians had a poor knowledge of terms used in clinical epidemiology. J

Clin Epidemiol 2006 ; 59 : 1009-14.

3. Jouquan J et Bail F. À quoi s’engage-t-on en basculant du paradigme

d’enseignement vers le paradigme d’apprentissage ? Pédagogie Médicale 2003 ; 4 :

163-75.

Page 16: Universités Paris 5, 6, 7 et 12 Mémoire pour letest de Mann-Whitney pour les groupes non appariés, et par le test de rang de Wilcoxon pour des échantillons appariés. Le seuil

16

Annexe 1

Questionnaire soumis aux internes

Élaboré avec l’aide de Loïc Capron à partir du questionnaire C. Estellat et al. [2]

Page 17: Universités Paris 5, 6, 7 et 12 Mémoire pour letest de Mann-Whitney pour les groupes non appariés, et par le test de rang de Wilcoxon pour des échantillons appariés. Le seuil

17

Évaluation des connaissances en lecture critiqueQuestionnaire à 1 seule réponse par question

Une étude a comparé deux groupes de malades hypertendus, l’un traité par un

diurétique (D) et l’autre traité par un β -bloquant (B). Elle a trouvé que la

cholestérolémie était significativement plus élevée (p < 0,05) dans le groupe D que

dans le groupe B.

Question 1 : p < 0,05 signifie exactement que :

A. Il y a plus de 95 chances sur 100 pour que la différence observée ne soitpas liée au hasard.

B. Il y a moins de 5 chances sur 100 pour que la différence observée soit liéeau hasard

C. Une cholestérolémie différant de moins de 5 % entre les deux groupesaurait échappé à cette étude

D. La probabilité de l’hypothèse d’identité (A semblable à B) est inférieure à5 %

E. La probabilité de l’hypothèse de non-identité (A différent de B) estsupérieure à 95 %

A B C D E nsp

Les résultats d’une mesure sont présentés sous la forme d’une moyenne avec un

écart-type : par exemple, pression artérielle systolique = 142 ± 2 mmHg

Question 2 : L’écart-type indique :

A. En pourcentage, la marge d’erreur de la moyenne mesurée

En mmHg, la fourchette de part et d’autre de la moyenne dans laquelle setrouvent :

B. Environ 68 % des valeurs mesurées

C. Environ 95 % des valeurs mesurées

D. La totalité des valeurs mesuréesA B C D nsp

Soit une série de 12 valeurs :

[22, 25, 27, 29, 31, 42, 46, 60, 70, 76, 85, 88]

Question 3 :

Quelle en est la médiane :

Quel en est le 3e quartile :

Quelle en est la moyenne :

Page 18: Universités Paris 5, 6, 7 et 12 Mémoire pour letest de Mann-Whitney pour les groupes non appariés, et par le test de rang de Wilcoxon pour des échantillons appariés. Le seuil

18

L’étude WHI (Woman Health Initiative), (JAMA 2002;28:321-333) est le premier essai

contrôlé randomisé, réalisé sur plus de 16 000 femmes américaines âgées en

moyenne de 63 ans, a avoir évalué les effets au long cours d’une association

œstroprogestative (E+P) prise durant 5 ans en traitement substitutif de la post-

ménopause, en la comparant à un placebo.

Le tableau suivant en présente quelques résultats.

Pourcentage d'évènements par patientes-année

Groupe E+P Groupe placebo

Maladies cardiovasculaires 1,57 % 1,32 %

Attaques cérébrales 0,29 % 0,21 %

Cancers du sein 0,38 % 0,30 %

Fracture de hanche 0,10 % 0,15 %

Cancer colorectal 0,10 % 0,16 %

Question 4 : Quelle est la réduction absolue du risque de fracture de hanche induite

par le traitement ?

0,05% 10% 33% 50% nsp1

Question 5 : Quelle est la réduction relative du risque de fracture de hanche induite

par le traitement ?

5 % 10 % 15 % 33 % nsp

Question 6 : Quel est le nombre estimé de sujets à traiter pendant un an pour

prévenir une fracture de hanche ?

5 100 2 000 10 000 nsp

Question 7 : Le risque relatif de maladie cardiovasculaire est 1,18 chez les patientessous traitement œstro-progestatif, par rapport à celles ne prenant pas de traitement.On se demande si cette différence est statistiquement significative et on a regardél’intervalle de confiance. Donnez un exemple d’intervalle de confiance à 95 % quipermettrait de conclure à une différence significative (p < 0,05) entre le groupeœstro-progestatif et le groupe témoin.

nsp

1 nsp : je ne sais pas répondre

Page 19: Universités Paris 5, 6, 7 et 12 Mémoire pour letest de Mann-Whitney pour les groupes non appariés, et par le test de rang de Wilcoxon pour des échantillons appariés. Le seuil

19

En 2001, une équipe genevoise a étudié les performances diagnostiques du scanner

spiralé dans le diagnostic d’embolie pulmonaire (A Perrier et al. Ann Intern Med

2001;135:88-9). Dans cette étude, la sensibilité et la spécificité du scanner spiralé

ont été comparées, chez 299 malades pris en charge aux urgences d’un hôpital pour

une suspicion d’embolie pulmonaire, à celles d’un algorithme diagnostique incluant

une évaluation clinique, une scintigraphie pulmonaire, une échographie-doppler des

membres inférieurs et une angiographie pulmonaire.

Les résultats sont représentés dans le tableau ci-dessous.

Nombre de pat ients

évalués

Nombre de scanners positifs/

nombre total de patients avec

une embolie

Nombre de scanners négatifs/

nombre total de patients sans

embolie

287 81/116 156/171

Question 8 : Quelle est la sensibilité du scanner dans le diagnostic de l’embolie

pulmonaire ?

81/116 156/171 35/116 15/171 nsp

(70 %) (91 %) (30 %) (9 %)

Question 9 : Quelle est la spécificité du scanner dans le diagnostic de l’embolie

pulmonaire ?

81/116 156/171 35/116 15/171 nsp

(70 %) (91 %) (30 %) (9 %)

Question 10 : Quelle est la valeur approximative du rapport de vraisemblance quand

le signe est présent dans l’étude ?

7,8 2,4 0,2 0,4 nsp

Page 20: Universités Paris 5, 6, 7 et 12 Mémoire pour letest de Mann-Whitney pour les groupes non appariés, et par le test de rang de Wilcoxon pour des échantillons appariés. Le seuil

20

Une étude (D Cook, N Engl J Med 1994;330:377-381) a examiné les variables qui

influencent le risque d’hémorragie digestive chez 2 252 malades (dont 502 avaient

eu une telle hémorragie). L’existence d’une détresse respiratoire a semblé la variable

la plus influente, avec un odds ratio (rapport de cotes) à 25.

Question 11 : Que signifie exactement cette observation ?

A. le risque de faire une hémorragie est 25 fois plus important chez les patientsayant une détresse respiratoire que chez ceux qui n’en ont pas.

B. le risque de faire une détresse respiratoire est 25 fois plus important chez les

patients ayant une hémorragie que chez ceux qui n’ont pas d’hémorragie.

C. Pour 25 personnes qui ont une détresse respiratoire et une hémorragie, il y a

une personne qui a une détresse respiratoire et pas d’hémorragie.

D. Le rapport du nombre de patients ayant une hémorragie au nombre despatients n’ayant pas d’hémorragie est 25 fois plus élevé chez les patients ayantune détresse respiratoire que ceux qui n’en ont pas.

A B C D nsp

Question 12 : Que signifie le nombre 330 dans la référence suivante :

N Engl J Med 1994;330:377-381

nsp

___________________________________________________________________

Vous êtes :

Une femme Un homme

Âge : ans

Nombre de semestres effectués :

Spécialité médicale ou chirurgicale :

Formation à la lecture critique (DEA, Sésame, etc.) :

Page 21: Universités Paris 5, 6, 7 et 12 Mémoire pour letest de Mann-Whitney pour les groupes non appariés, et par le test de rang de Wilcoxon pour des échantillons appariés. Le seuil

21

Annexe 2

Questionnaire de Estellat et al.

Ce questionnaire est destiné à évaluer votre capacité à comprendre un certain nombre de termesutilisés pour présenter les résultats issus de la recherche. Attention, certaines questions demandentune réponse à chaque proposition faite, d’autres questions n’appellent qu’une seule réponse, celle quivous semble correcte.

L’étude WHI (Woman Health Initiative), (JAMA 2002,288 :321-333) est le premier essai contrôlérandomisé, réalisé sur plus de 16 000 femmes américaines âgées en moyenne de 63 ans, a avoirévalué les effets au long cours d’une association oestroprogestative prise durant 5 ans en traitementsubstitutif de la ménopause.Le tableau suivant en présente quelques résultats.

Taux d'évènements par patientes-année

Groupe E+P Groupe Placebo

Maladies cardiovasculaires 1,57% 1,32%

Accidents cérébro-vasculaires 0,29% 0,21%

Cancer du sein invasif 0,38% 0,30%

Fracture de la hanche 0,10% 0,15%

Cancer colorectal 0,10% 0,16%

Question 1 : Quelle est la réduction absolue du risque de fracture de hanche induite par le traitement

0,05% 10% 33% 50% nsp2

Question 2 : Quelle est la réduction relative du risque de fracture de hanche induite par le traitement

5% 10% 15% 33% nsp

Question 3 : Quel est le nombre de sujets à traiter pendant un an pour prévenir une fracture

5 100 2000 10000 nsp

Question 4 : Quel est le NSTD (nombre de sujets à traiter pour un effet délétère) qui conduit à unemaladie cardiovasculaire supplémentaire?

10 400 20000 10000 nsp

Question 5. Le risque relatif de maladie cardio-vasculaire est 1,18 chez les patientes sous traitementoestro-progestatif, par rapport à celles qui ne prennent pas de traitement. On se demande si cettedifférence est statistiquement significative et on a regardé l’intervalle de confiance du résultat. Donnerun exemple d’un intervalle de confiance qui permettrait de conclure à une différence significative entrele groupe oestroprogestatif et le groupe témoin.

nsp

2 nsp = je ne sais pas répondre

Page 22: Universités Paris 5, 6, 7 et 12 Mémoire pour letest de Mann-Whitney pour les groupes non appariés, et par le test de rang de Wilcoxon pour des échantillons appariés. Le seuil

22

En 2001, une équipe Genevoise a publié les résultats d’une étude évaluant la performance duscanner spiralé dans le diagnostic de l’embolie (A Perrier et al. Ann Intern Med 2001;135:88-97). Danscette étude on a comparé, chez 299 malades suspects d’embolie pulmonaire vus aux urgences d’unhôpital, la valeur diagnostique du scanner spiralé à un algorithme diagnostique incluant l’évaluationclinique, la scintigraphie pulmonaire, l’échodoppler des membres inférieurs et l’angiographiepulmonaire. Les résultats sont dans le tableau ci-dessous.

Nombre de patientsévaluables

Nombre de scannerspositifs/nombre totald’embolies

Nombre de scannersnégatifs/nombre total depatients sans embolie

287 94/116 156/171

Question 6 : Quelle est la sensibilité du scanner dans le diagnostic de l’embolie pulmonaire ?

94/116 (80%) 156/171 (90%) 94/156 (60%) 22/116 (20%) nsp

Question 7 : Quelle est la spécificité du scanner dans le diagnostic de l’embolie pulmonaire ?

94/116 (80%) 156/171 (90%) 94/156 (60%) 22/116(20%) nsp

Question 8 : Que représente le rapport de vraisemblance dans l’étude de la valeur diagnostique d’unexamen

A. Il informe sur la probabilité que le résultat de l’étude donne la vraie valeur diagnostique d’untestB. Il donne une information sur la puissance de l’étudeC. Il permet de quantifier la vraisemblance d’un diagnostic connaissant le résultat de l’examenD. Il correspond à la valeur prédictive positive de l’examen, calculée en prenant en compte laprévalence de la maladie

A B C D nsp

Question 9 : Quelle est la valeur du rapport de vraisemblance positif dans l’étude de Perrier ?

8 2 0,2 0,4 nsp

Question 10. Dans cette même étude, les chercheurs ont évalués la concordance diagnostique entre

les radiologues qui interprétaient les scanners. Le coefficient kappa entre deux radiologues

investigateurs était de 0.83. Comment considérez vous la concordance?

Excellente bonne médiocre il manque la valeur nsp

de p pour répondre

Question 11

Un test diagnostique a une sensibilité de 95 % et une spécificité de 95 %. Ce test vous aide à

diagnostiquer une maladie plutôt rare (prévalence = 1 %).

Quelle est la probabilité qu'une personne avec un résultat positif du test ait la maladie ?

< 10% Entre 10% et 25% 50% 100% nsp

Question 12

Page 23: Universités Paris 5, 6, 7 et 12 Mémoire pour letest de Mann-Whitney pour les groupes non appariés, et par le test de rang de Wilcoxon pour des échantillons appariés. Le seuil

23

Chez les hommes adressés pour dysurie en consultation d’urologie, la prévalence d’une maladie

urologique est d'environ 20%. Un homme est adressé en consultation pour dysurie. Un examen révèle

une anomalie de la prostate. Sachant qu’un résultat positif est obtenu 4 fois plus fréquemment chez

les hommes qui ont la maladie que chez ceux qui ne l’ont pas, quelle est votre estimation de la

probabilité que ce patient ait la maladie ?

nsp

%

Dans une étude publiée en 1994, des auteurs canadiens ont cherché à savoir quels patientshospitalisés en réanimation étaient à risque d’avoir une hémorragie intestinale importante (D Cook, NEngl J Med 1994;330:377-381). Dans une étude de cohorte portant sur une population de 2252patients (dont 502 ont fait une hémorragie), ils ont étudié la relation entre certains facteurs et lasurvenue d’une hémorragie.

Le tableau ci dessous résume les résultats (régression logistique).

Analyse univariée Analyse multivariée

Facteurs de risque Rapport des cotes

(odds ratio)

P Rapport des cotes

(odds ratio)

p

Détresse respiratoire 25,0 < 0, 001 15,6 < 0,001

Coagulopathie 9,5 < 0, 001 4,3 0,002

Hypotension 5,0 0,03 2,1 0,08

Sepsis 7,3 < 0,001 NS

Traitement anticoagulant 3,3 0,004 NS

Insuffisance hépatique 6,5 < 0,001 NS

Alimentation entérale 3,8 0,002 NS

Traitement corticoïde 3,7 0,004 NS

Transplantation 3,6 0,006 NS

Question 13 :

Regardez le résultat de la colonne « analyse univariée » concernant le facteur de risque « détresserespiratoire ». Que signifie le rapport des cotes (donnez la réponse qui vous paraît la plus proche de laréalité)

A. le risque de faire une hémorragie est 25 fois plus important chez les patients ayant unedétresse respiratoire que chez ceux qui n’en ont pas.

B. le risque de faire une détresse respiratoire est 25 fois plus important chez les patients ayantune hémorragie que chez ceux qui n’ont pas d’hémorragie.

C. Pour 25 personnes qui ont une détresse respiratoire et une hémorragie, il y a une personnequi a une détresse respiratoire et pas d’ hémorragie.

D. Le rapport (% de patients ayant une hémorragie) ÷ (% de patients n’ayant pas d’ hémorragie)est 25 fois plus élevé chez les patients ayant une détresse respiratoire que chez ceux qui n’enont pas.

A B C D nsp

Page 24: Universités Paris 5, 6, 7 et 12 Mémoire pour letest de Mann-Whitney pour les groupes non appariés, et par le test de rang de Wilcoxon pour des échantillons appariés. Le seuil

24

Question 14

Quelle est l’information juste concernant l’analyse multivariée comparée à la régression simple

A. Les rapports des cotes sont toujours plus petits dans une analyse multivariée que dans uneanalyse univariée.

B. Dans le cas de la détresse respiratoire, le rapport des cotes de 15,6 traduit l’effet de cettevariable sur le risque d’hémorragie, une fois pris en compte l’effet de l’hypotension et de lacoagulopathie.

C. Les auteurs n’auraient pas dû inclure la variable coagulopathie.

D. L’effet de la variable « traitement anticoagulant » en analyse univariée est expliqué par sonassociation avec les autres variables non retenues dans le modèle.

A B C D nsp

Le tableau ci-dessous représente le résultat d’une méta-analyse comparant l’effet de la ventilation non

invasive en pression positive (NPPV) au traitement médical usuel dans la prise en charge des

exacerbations de la bronchite chronique ( Lightowler JV et al, Cochrane systematic review and meta-

analysis. BMJ. 2003; 326:185).

Question 15. Analyser le tableau. Quelles remarques faites vous ?

A - L’effet commun (RR = 0.51) est une estimation obtenue en prenant en compte l’effet dechacune des études, pondéré par un paramètre prenant en compte l’effectif

OUI NON NSP

B - Dans une métaanalyse utilisant un modèle à effet fixe, on fait l’hypothèse que chacun desessais fournit une estimation d’un même « effet vrai » commun à toutes les études.

OUI NON NSP

C - Le test d’hétérogénéité non significatif indique que la métaanalyse n’est pas valide au planstatistique

OUI NON NSP

D - Cette métaanalyse est inutile car deux essais avaient démontré l’efficacité de la ventilation enpression positive

OUI NON NSP

Page 25: Universités Paris 5, 6, 7 et 12 Mémoire pour letest de Mann-Whitney pour les groupes non appariés, et par le test de rang de Wilcoxon pour des échantillons appariés. Le seuil

25

Merci d’avoir répondu au questionnaire

Veuillez compléter maintenant quelques questions concernant votre exercice professionnel

En combien de temps avez-vous rempli le questionnaire ? Environ minutes

Sexe Homme Femme

Age ans

Pratique de Spécialité : Laquelle ? ……………………………………….

Fonction Interne / Résident

Chef de clinique / Assistant

PU

MCU

PH

Médecin libéral

Avec vous suivi une formation spécifique de,

Statistique

Epidémiologie

Lecture critique

Page 26: Universités Paris 5, 6, 7 et 12 Mémoire pour letest de Mann-Whitney pour les groupes non appariés, et par le test de rang de Wilcoxon pour des échantillons appariés. Le seuil

26

Annexe 3

Exemple de présentation d’article réalisée par un interne de médecine : essai

thérapeutique issu du New England Journal of Medicine.

Forte diminution du taux de lipides parl’atorvastatine chez les patients ayant une

maladie coronaire stable

N Engl J MedVolume 352;14:1425-1435

April 7, 2005

27/05/2005 Intensive Lipid Lowering with Atorvastatin in Patients with Stable Coronary Disease

Auteurs

• Américains, Australiens, Français, Allemands,Belges, Canadiens, Espagnols, Irlandais,Neerlandais

• Universités de médecine de NY, de Dallas,d’Amsterdam, de Glasgow et d’Atlanta

• Hôpital de San Francisco• Instituts de recherche : Pasteur à Lille, Heart

Research Institute à Sydney• Industrie pharmaceutique Pfizer (C.S.)

27/05/2005 Intensive Lipid Lowering with Atorvastatin in Patients with Stable Coronary Disease

Financement

Honoraires provenant de d’industriespharmaceutiques concurrentes (Pfizer,AstraZeneca, Merck,, Novartis, sanofi-Aventis,Eli Lilly…)

Conflit d’intérêt

1 auteur appartient au groupe Pfizer

Essai thérapeutique

27/05/2005 Intensive Lipid Lowering with Atorvastatin in Patients with Stable Coronary Disease

Introduction

λ La diminution du taux de LDL permet laprévention des accidents cardiovasculaires

λ Pas d’étude démontrant un bénéfice de ladiminution du taux de LDL en dessous de2.6mmol/l

λ Recommandations de NCEP, AHA et ACC :– LDL<2.6mmol/l pour risque élevé de MC– LDL<1.8mmol/l pour risque très élevé

(d’après les études HPS et PROVE IT)

27/05/2005 Intensive Lipid Lowering with Atorvastatin in Patients with Stable Coronary Disease

Introduction (2)

PROVE IT : population de patients ensyndrome coronarien aigu

HPS : évaluation de la diminutionLDL<2.6mmol/l versus placebo

Pas de preuve que la diminution du taux deLDL est bénéfique en deça du seuil de2.6mmol/l, chez les patients ayant unemaladie coronaire stable

Page 27: Universités Paris 5, 6, 7 et 12 Mémoire pour letest de Mann-Whitney pour les groupes non appariés, et par le test de rang de Wilcoxon pour des échantillons appariés. Le seuil

27

27/05/2005 Intensive Lipid Lowering with Atorvastatin in Patients with Stable Coronary Disease

Dessein de l’étude

Evaluer l’intérêt de la diminution du taux deLDL pour des valeurs inférieures à 2.6mmol/len prévention d’évènements cardio-vasculaires chez des coronariens

Durée : 5 ans Prospective Contrôlée, en double insu 2 groupes :

– A : dose de 10mg avec LDL cible de2.6mmol/l

– B : dose de 80mg avec LDL cible de1.9mmol/l

Patients ayant une maladie coronaire stable27/05/2005 Intensive Lipid Lowering with Atorvastatin in Patients with Stable Coronary Disease

Patients (1)

Multicentrique (256 sites dans 14 pays) Sélection des patients :

– Entre 35 et 75 ans– Maladie coronaire : atcd IDM, atcd angor

avec athérosclérose coronaire prouvée, atcdrevascularisation coronaire

Période de washout de 1 à 8 semaines Période de rodage de 8 sem pour les patients

ayant un LDL compris entre 3.4 et 6.5mmol/let un TG<6.8mmol/l : prise de 10mg/jd’atorvastatine

27/05/2005 Intensive Lipid Lowering with Atorvastatin in Patients with Stable Coronary Disease

Patients (2)

Critères d’inclusion :– Maladie coronaire stable chez patients entre 35 et 75 ans– Ayant LDL entre 3.4 et 6.5mmol/l et TG<6.8mmol/l après

période de washout– Ayant LDL<3.4mmol/l après la période de rodage

Critères d’exclusion :– LDL>6.5mmol/l ou TG>6.8mmol/l après washout– LDL>3.4mmol/l après rodage– Cytolyse (transa>1.5N)– Événement ischémique– Évènement indésirable (dont myalgies)– Non observance– décès

27/05/2005 Intensive Lipid Lowering with Atorvastatin in Patients with Stable Coronary Disease

Traitement

Randomisation Groupe A : 10mg/j atorvastatine Groupe B : 80mg/j atorvastatine Durée 5 ans Consentement éclairé écrit et signé

Suivi

1 visite à 12 semaines, 6, 9, puis 12 mois puischaque 6 mois

27/05/2005 Intensive Lipid Lowering with Atorvastatin in Patients with Stable Coronary Disease

Critères de jugement

Critère de jugement principal : apparition d’unévénement cardiovasculaire majeur, c.à.d :– Décès par maladie coronaire– IDM non fatal– Réanimation après arrêt cardiaque– AVC fatal ou non

Critères de jugement secondaires :

– Événement coronarien majeur (décès par maladiecoronaire, IDM non fatal, réa après arrêt cardiaque)

– Manifestation cérébro-vasculaire– Hospitalisation pour décompensation cardiaque– Maladie artérielle périphérique– Décès de toute cause– Manifestation cardio-vasculaire– Manifestation coronaire

27/05/2005 Intensive Lipid Lowering with Atorvastatin in Patients with Stable Coronary Disease

Analyse statistique

Nombre de patients à traiter– établi a priori : 8600 au minimum car on prévoit 750

évènements coronaires majeurs en 5 ans– Ne prend pas en compte les AVC (200 cas prévisibles en 5

ans)– Dans l’étude : 10003 patients inclus

Analyse unilatérale : A=B ou A<B Risque alpha = 5% Puissance de l’essai =85% Etude en intention de traiter Courbe de survie ou d’évènements de Kaplan-Meier

27/05/2005 Intensive Lipid Lowering with Atorvastatin in Patients with Stable Coronary Disease 27/05/2005 Intensive Lipid Lowering with Atorvastatin in Patients with Stable Coronary Disease

Composition des 2 groupes

Page 28: Universités Paris 5, 6, 7 et 12 Mémoire pour letest de Mann-Whitney pour les groupes non appariés, et par le test de rang de Wilcoxon pour des échantillons appariés. Le seuil

28

27/05/2005 Intensive Lipid Lowering with Atorvastatin in Patients with Stable Coronary Disease

Effet de chaque dosage sur le bilan lipidique

27/05/2005 Intensive Lipid Lowering with Atorvastatin in Patients with Stable Coronary Disease

Incidences cumulatives des manifestations cardiovasculaires

27/05/2005 Intensive Lipid Lowering with Atorvastatin in Patients with Stable Coronary Disease

Comparaison des résultats de chaque groupe

27/05/2005 Intensive Lipid Lowering with Atorvastatin in Patients with Stable Coronary Disease

Résultats

Réduction relative du risque de 22%d’apparition d’événement cardiovasculairemajeur sur une période de 5 ans dans legroupe 80mg comparé au groupe 10mg

Davantage d’effets indésirables dans le groupe80mg (8.1%) par rapport au groupe 10mg(5.8%), plus d’élévation des transaminases etplus d’arrêt du ttt à cause d’évènementsindésirables

27/05/2005 Intensive Lipid Lowering with Atorvastatin in Patients with Stable Coronary Disease

Discussion Il existe donc un réel bénéfice de la diminution

du taux de LDL dans des valeurs inférieures à2.6mmol/l

L’apparition d’événement cardiovasculairemajeur chez les patients recevant 10mgd’atorvastatine est plus faible dans cet essaique dans d’autres études

Réduire le taux de LDL de 2.6mmol/l à2mmol/l chez 1000 patients ayant unemaladie coronaire stable permettrait d’éviter34 événements cardiovasculaires majeurs surune période de 5 ans

Ou le traitement de 30 patients permetd’éviter un évènement

27/05/2005 Intensive Lipid Lowering with Atorvastatin in Patients with Stable Coronary Disease

Critiques / questions

L’observance n’est pas évaluée L’étude ne précise pas à partir de quel délai il

existe un bénéfice à l’utilisation du dosageélevé

En terme de santé publique, faut-ilrecommander la prescription de doses élevéesd’atorvastatine sachant que :– Il faut traiter 30 patients pour éviter 1

événement (efficacité)– 80mg = (8 fois ?) plus cher que 10mg

(coût)

Page 29: Universités Paris 5, 6, 7 et 12 Mémoire pour letest de Mann-Whitney pour les groupes non appariés, et par le test de rang de Wilcoxon pour des échantillons appariés. Le seuil

29

Annexe 4

Exemple d’enseignement dispensé à l’aide d’un court diaporama

Médiane

_ Méthode des rangs

_ La médiane est le rang qui sépare l’effectif endeux moitiés de même taille

_ Exemple

9986554444332222211Valeur

19181716151413121110987654321Rang

Moyenne

_ Méthode arithmétique

_ La moyenne est le rapport de la somme des valeurs (Σv) aunombre des observations (N): m = Σv/N

_ Moyenne et médiane peuvent être égales ou différentes

_ Exemple avec N = 19

766758504439343026221815121086421Cumul

9986554444332222211Valeur

Moyenne = 76/19 = 4

Les deux types de variables

_ Variables continues

– Valeurs numériques

– Exemples: âge, volume de verrue (en mm3)

_ Variables discontinues ou catégorielles

– Valeurs qualitatives (catégories) en nombre restreint(deux le plus souvent)

– Exemples: sexe, guéri/non guéri

Les deux types de statistiques

_ Statistique non paramétrique

– aucune hypothèse sur la distribution des valeurs

– et les lois (paramètres) auxquelles elle obéit

_ Statistique paramétrique

– distribution stéréotypée des valeurs par hypothèse oupar constat vérifié

– loi statistique (normale le plus souvent) avecparamètres ordonnançant les valeurs

Loi normale (distributiongaussienne)

_ m: moyenne

_ ÉT: écart-typestandard deviation

_ Pourcentage des valeurs contenuesdans le fourchettes

– m ± 1 ÉT = 68%

– m ± 1,96 ÉT = 95%

_ Paramètres de la loi normale

Distribution de la pression artérielle systolique (PAS)chez 800 individus

moyenne (M) = 136,6 mmHgécart-type (ÉT) = 19,9 mmHg

PAS (mmHg)

80 100 120 140 160 180 200 220

N cas

0

20

40

60

80

100

120

140

160

180

+ 2 ÉT+ 1 ÉTm- 1 ÉT- 2 ÉT

Statistiques

Médiane et extrêmes, ouquantiles

Moyenne et écart-type

Tests utilisant la somme desrangs (Wilcoxon, Mann-Whitney, Kruskal-Walis,corrélation de Spearman, etc.),test du χ2 et ses adaptations

Test de Student, analyse devariance, corrélation de Pearson,etc.

Comparaison des rangs (var cont)ou des proportions (var catég)

Comparaison des moyennes

Variables continues oucatégorielles

Variables continuesexclusivement

Non paramétriqueParamétrique

Page 30: Universités Paris 5, 6, 7 et 12 Mémoire pour letest de Mann-Whitney pour les groupes non appariés, et par le test de rang de Wilcoxon pour des échantillons appariés. Le seuil

30

Comparaison uni ou bilatéraleone-sided, two-sided

_ Comparaison des valeurs de deux groupes A et B, par exemple

– A, médicament

– B, placebo

_ Comparaison unilatérale = deux possibilités

– A = B identité, médicament inefficace

– A > B médicament efficace

_ Comparaison bilatérale = trois possibilités

– A = B

– A > B

– A < B médicament nuisible

_ Bilatéralité: approche la plus impartiale des résultatsmais statistiquement deux fois « plus coûteuse » que l’unilatéralité

p < 0,05

_ p: probabilité de l’hypothèse d’identité– A = B– Null hypothesis

_ Si p très faible– hypothèse d’identité rejetée– hypothèse de différence acceptée par défaut– A # B

_ Seuil habituellement choisi– 5% (1 shilling la livre, 1/20)– P < 0,05

Erreurs

Exact

vrais –

Erreur II, β

faux –A=B

Erreur I, αfaux +

Exactvrais +

A≠B

A=BA≠BRésulat de l’essai

« Vérité »

Erreur α, type I

Exact

vrais –

Erreur II, β

faux –A=B

Erreur I, αfaux +

Exactvrais +

A≠B

A=BA≠BRésulat de l’essai

« Vérité »

• Probabilité de l’hypothèse d’identité (A=B) quand l’essai dit A≠B

• Habituellement fixée à 5% (p<0,05)

Erreur β, type II

Exact

vrais –

Erreur II, β

faux –A=B

Erreur I, αfaux +

Exactvrais +

A≠B

A=BA≠BRésulat de l’essai

« Vérité »

• Probabilité de ne pas détecter une différence (A≠B) significative (p<0,05)quand il en existe une

• Habituellement fixée à 20%

• Puissance de l’essai = 1 – β (80%), probabilité de détecter une différencesignificative quand il en existe une

Taille de l’essai

_ Erreur α

_ Puissance (1 – β)

_ Incidence du critère primaire dans le groupetémoin

_ Amplitude de l’effet exercé par l’intervention

N malades

Test de Student bilatéral

_ Test du t de Student (William Sealy Gosset, 1876-1937)

_ Variables continues ayant une distribution normale (paramétique)

_ Deux groupes (A et B) ayant des variances proches (variance:carré de l’écart-type)

_ Trois possibilités (A = B; A > B; B > A)

_ Deux emplois:

– Apparié (paired), un seul groupe d’individus,2 valeurs par individu (avant,après), NA = NB

– Non apparié (unpaired), deux groupes d’individus, une seule valeur parindividu, NA = ou # NB

Test du χ2 à 1 degré de liberté

_ Test non paramétrique

_ Variables catégorielles (c catégories) appartenantà g groupes

_ Tableau de répartition (contingence) à c x g cases

_ Degrés de liberté: (c − 1) x (g − 1)

_ Exemple de table 2 x 2 (1 degré de liberté)

< 75%

≥ 75%

( Volume verrue PlaceboLactalb α Oléate

594

1588

Page 31: Universités Paris 5, 6, 7 et 12 Mémoire pour letest de Mann-Whitney pour les groupes non appariés, et par le test de rang de Wilcoxon pour des échantillons appariés. Le seuil

31

Test du χ2 et correction de Yates

• Comparaison entre la répartition observée (O) et la répartitionattendue (A)

• χ2 mesure la discordance entre O et A– table– p, probabilité que O soit identique à A

• Correction de Yates (( valeur de χ2) si– somme de toutes les cases < 100– valeur d’une case < 10

6359 384 35< 75%

74

15 46

Placebo

Total

≥ 75%

( Volume verrue TotalLactalb α Oléate

16692

10388 57

Puissance de l’essai

_ Erreur de type I (risque α)– Faux positif– A # B alors que A = B

– 5% (p < 0,05)

_ Erreur de type II (risque β)– Faux négatif– A = B alors que A # B

– 10 à 20%

_ Puissance (1 − β)

_ Calcul de l’effectif

_ Absent de l’articleà voir une autre fois

Atorvastatine (Tahor)

_ Laboratoire Pfizer

_ Coût unitaire

– Tahor 10 mg : 0,906 €

– Tahor 80 mg : 1,692 €

_ Profit accru de 86%

Comparaison 4S, TNT

atorva10 v 80 mg

placebo vsimva 10-40 mg

Traitement

4,9 ans5,4 ansRecul moyen

81%81%Hommes

secondairesecondairePrévention

10 0014 444N

TNTNEJM 2005

4SLancet 1994

Comparaison 4S, TNTvariations relatives de risque

1,01 (0,85-1,19)0,70 (0,58-0,85)All deaths

0,80 (0,69-0,92)0,58 (0,46-0,73)Major CHD

TNT (HR)atorva 10 v 80

4S (RR)simva v placebo

Comparaison 4S, TNTvariations absolues de risqueannuel

NàT = nsNàT = 164

NàT = 312NàT = 161

1,16%1,14%1,52%2,13%All deaths

1,37%1,69%0,95%1,57%Major CHD

atorva 80atorva 10simvaplacebo

TNT4S

NàT: nombre de sujets à traiter un an pour éviter un événement

Page 32: Universités Paris 5, 6, 7 et 12 Mémoire pour letest de Mann-Whitney pour les groupes non appariés, et par le test de rang de Wilcoxon pour des échantillons appariés. Le seuil

32

Page 33: Universités Paris 5, 6, 7 et 12 Mémoire pour letest de Mann-Whitney pour les groupes non appariés, et par le test de rang de Wilcoxon pour des échantillons appariés. Le seuil

33