validité d’un instrument de mesure sensibilité au changement
TRANSCRIPT
Validité d’un instrument de mesure
Sensibilité au changement
Cours théorique et atelier pratique
3.11.2021Simone Gafner
HEdS-Genève 2 novembre 2021
Imaginez vous que vous êtes en stage et vous devez faire un choix pour un instrument de mesure.
Quelles informations sur un instrument de mesure allez vous chercher pour faire un choix?
Ne trichez pas, n’allez pas voir sur le prochain dia, prenez 3min de temps pour réfléchir à cette question
Quelques exemples mais vous pouvez réfléchir à d’autres choses aussi en lien avec les lieux de stage etc.
Quand on utilise un instrument de mesure, quelles informations avons-nous besoin
pour décider si on l’utilise en clinique?
2
HEdS-Genève 2 novembre 2021
Informations pratique:
- Combien de temps prend le test?
- Est-ce que le matériel nécessaire pour le test est facilement disponible?
- Est-ce que on peut utiliser le test dans différents «settings»?
Reliability (fiabilité/ reproductibilité)
Validity (validité)
- Comparaison avec d’autres instruments de mesure qui mesurent ou pas le même construit
- Corrélations
- Comparaison avec le standard de référence («gold standard»)
- Sensibilité, Spécificité, valeur prédictive positive ou négative, likelihood ratio, etc
Quand on utilise un instrument de mesure, quelles informations avons-nous besoin
pour décider si on l’utilise en clinique?
3
HEdS-Genève 2 novembre 2021
Reliability (reproductibilité, fiabilité)
• Reliability is defined by the COSMIN panel as ‘the degree to which the measurement is free from measurement error’
• La fiabilité est définie comme le degré auquel la mesure est exempte d'erreur de mesureMokkink et al., 2010a
• Est-ce que le test mesure deux fois la même chose si l’état du patient n’a pas changé entre temps?
Validité vs reproductibilité (reliability)
4
HEdS-Genève 2 novembre 2021
Reliability (reproductibilité, fiabilité)
• Reliability is defined by the COSMIN panel as ‘the degree to which the measurement is free from measurement error’
• La fiabilité est définie comme le degré auquel la mesure est exempte d'erreur de mesureMokkink et al., 2010a
• Est-ce que le test mesure deux fois la même chose si l’état du patient n’a pas changé entre temps?
Validity (validité)
• Validity is defined by the COSMIN panel as ‘the degree to which an instrument truly measures the construct(s) it
purports to measure’
• La valeur qui décrit le degrés dans lequel un instrument de mesure, mesure ce qu'il prétend mesurer
Validité vs reproductibilité (reliability)
5
02.11.2021 Page 6
Objectifs de l’étude
Comparaisons
Tests paramétriques (N>25, distribution normale, égalité
des variances)
Tests non paramétriques
Tests pour données qualitatives
Lien entre 2 ou + variables
Corrélations de Pearson (linéaire)
Corrélation de Spearman (non linéaire)
Evaluation d’1 outil
ICC (quantitatif)
Kappa (qualitatif)
Bland et Altman
Calcul du nombre de sujets? Cohérence de la méthode
Valeurs calculées: « p value » « r value » « ICC or K value »
Dia «volé» de la présentation de Violette
Ici, dans ce flowchart on parle de reproductibilité
MAIS
dans le cours d’aujourd’hui surtout de validité qui fait partie aussi de l’évaluation de l’outil
02.11.2021 Page 7
Plan du cours
IntroductionLe traitement initial des donnéesLa description des donnéesLe calcul du nombre de sujetsL’intervalle de confianceLes tests de comparaisonLes tests de comparaison de fréquenceLes tests de co-varianceL’analyse de la qualité d’un test
Dia volé de la présentation de Violette, cours stats inférentiels
02.11.2021 Page 8
Analyse de la qualité d’un test
Caractéristiques d’un bon outil de mesure:
- Valide- Bonne reproductibilité intra-
évaluateur- Bonne reproductibilité inter-
évaluateurs- Sensible aux changements- Utilisable en pratique
clinique
Outil A Outil BValidité
Session 1 Session 2Intra-évaluateur
Eva 1 Eva 2Inter-évaluateurs
Dia volé de la présentation de Violette, cours stats inférentiels
02.11.2021 Page 9
Analyse de la qualité d’un test
Validation de l’outil Calcul d’un coefficient de corrélation (r) ou indice de corrélation intra-classes (ICC)
Reproductibilité intra-évaluateur
Reproductibilité inter-évaluateurs
Indice de corrélations intra-classes (ICC)ICC=1 = parfaite
ICC > 0,75 = bonne0,5 < ICC< 0,75 = moyenne
< 0,05 = mauvaise [Portney et Watkins 2009]
Rmq: IC90% 1.65IC95% 1.96
Dias volé de la présentation de Violette, cours stats inférentiels
02.11.2021 Page 10
Reproductibilité d’un outil
Dias volé de la présentation de Violette, cours stats inférentiels
02.11.2021 Page 11
Analyse de la qualité d’un test
Validation de l’outil Calcul d’un coefficient de corrélation (r) ou indice de corrélation intra-classes (ICC)
Dias volé de la présentation de Violette, cours stats inférentiels
+ Est-ce que l’instrument de mesure est capable
de différentier entre deux groupes?La différence entre deux groupes (t-test pour ce cours, mais il y a des méthodes plus précis voir ci-dessous).
mais certainement aussi sensibilité, spécificité, valeur prédictive positive, valeur prédictive négative, aire sous la courbe (AUC)
cours module 2007, semestre printemps 2022
Corrélations
02.11.2021 Page 12
Lien entre deux variablesValidité
Dias volé de la présentation de Violette, cours stats inférentiels
HEdS-Genève 2 novembre 2021
- Est un concept qui a de nombreuses applications dans la recherche de type expérimentale.
- Pertinence d’un instrument par rapport au concept mesuré ou au contenu
- Représentation de toutes les facettes importantes du concept/construit à mesurer
Un test est valide lorsqu'il mesure bien ce qu'il prétend mesurer. " (Bruchon-Schweitzer)
- Implique une absence d’erreur aléatoire ou systématique de mesure
- Met en relation la prise de mesure et les interprétations ou jugements possibles
- Validité n’existe pas de manière isolée –elle est liée aux circonstances et finalités
- Un instrument est valide pour mesurer dans une population spécifique dans un environnement spécifique
Validité- définition
13
HEdS-Genève 2 novembre 2021
- Distinguer (SF36: dépressifs – pas dépressif)
- Évaluer (capacité visuelle pour conduire)
- Prédire (chute)
- Dépister (scoliose âge scolaire)
- Établir un diagnostic (SEP)
- Etc.
Un instrument de mesure peut être valide pour:
14
HEdS-Genève 2 novembre 2021
Validité interne
− Capacité du design d’une étude à répondre précisément à la question de recherche et utiliser un outil de mesure qui
permet de mesurer ce qu’on souhaite mesurer
− A l’intérieur d’une étude. Est-ce que la bonne méthodologie était utilisé (design de l’étude, population même
population comme dans celle que j’aimerais utiliser les résultats, outil de mesure, etc.)
− Ex. du cours analyse critique étude de cohorte: RCT pour connaitre l’utilité d’un parachute quand on saute d’un avion…..
Validité externe
− Capacité de généraliser les résultats au-delà de l’échantillon étudié
«Types» de validités en regardant un article scientifique/ une étude
15
HEdS-Genève 2 novembre 2021
Validité, selon COSMIN
16
COnsensus-based Standards for the selection of health Measurement INstruments
HEdS-Genève 2 novembre 2021
Validité
17
The degree to which an instrumenttruly measures the construct it purposes to measure
De Vet p. 150-196
Exemples: - Risque de chute- Return to sport- Activité physique- Equilibre- Etc.
HEdS-Genève 2 novembre 2021
- Dépendant de la situation (nouvelle population cible nouvelle validation nécessaire) !!!
- Le test de validation nécessite la formulation d'une hypothèse, qui devrait être aussi précise que possible (pourquoi
un nouvel instrument devrait-il être meilleur? Quelle instrument va avoir une meilleur validité et pourquoi? etc.)
- Il faut toujours demander pourquoi? Spécifiez pour quelle raison vous voulez utiliser une mesure/ un outil
‒ Diagnostique‒ Discriminative‒ Screening
‒ Evaluative‒ Change over time
‒ Prediction
La validité
18
HEdS-Genève 2 novembre 2021
Face validity (Validité d’apparence)
− Est la méthode la moins rigoureuse pour évaluer la validité d’un test
− Appréciation de l’aspect visible de l’échelle (longueur, libellé items…)
− Adéquat pour des tests d’amplitude de mvt, longueur, force, sensations, marche, équilibre, etc.
− Basée sur un jugement subjectif, superficiel de l’utilisateur
Validité du contenu
19
HEdS-Genève 2 novembre 2021
Si un instrument a passé l’examen de la «face vailidity» on regarde plus spécifiquement le contenu:
− Le contenu représente-t-il adéquatement la variable d’intérêt?
− Le contenu semble-t-il cibler ce qu’il est supposé mesurer?
− Le contenu couvre-t-il assez de matière pour permettre de faire des jugements/interprétations concernant les
résultats?
− Particulièrement important pour des questionnaires, examens, inventaires et entretiens
Tests statistiques
- Pas de tests statistiques
Validité du contenu
20
HEdS-Genève 2 novembre 2021
Ex. questionnaire: Physical activity scale for the elderly (PASE)
21
HEdS-Genève 2 novembre 2021
Consiste à évaluer l’outil de mesure en l’opposant à un critère externe (le standard de référence (gold
standard)) qui évalue le même construit
Validité de critère
22
HEdS-Genève 2 novembre 2021
Validité concomitante (concurrent v.)
− Utilisation en même temps l’ outil/ échelle ET le critère externe = gold standard
− Chaque sujet, même jour
Validité prédictive (predictive v.)
− Prédiction des scores/ résultats du standard de référence dans le future
− Ex. Risque de chute des personnes âgées
− Utilisation décalée de l’outil / échelle + critère
− Intervalle de plusieurs semaines ou mois
(ROC curves (aire sous la courbe), sensibilité/ spécificité, valeurs prédictives positives et négatives, likelihood ratios,
correlation coefficients, Intraclass correlation Coefficients (ICC) )
Module 2007 semester printemps 2021
Validité de critère
23
HEdS-Genève 2 novembre 2021
Exemple:
Est-ce que un nouveau test théorique est-il suffisant pour décider si un individu est prêt à conduire?
Validité de critère
24
Client MVPT ROAD TEST
1 Pass Pass
2 Pass Pass
3 Fail Pass
4 Pass Fail
5 Fail Fail
6 Fail Fail
7 Pass Pass
8 Pass Fail
9 Fail Pass
10 Pass Fail
HEdS-Genève 2 novembre 2021
Dans les cas où un standard de référence (gold standard) est manquante, la validation de construction doit être utilisée.
La mesure dans laquelle les scores d'une mesure sont cohérents avec les hypothèses.
− Relations internes (ex. questionnaire) ou relations d'autres instruments ou différences entre les groupes pertinents
Validité de construit
25
HEdS-Genève 2 novembre 2021
- Décrivez le construit que vous aimeriez mesurer en détail (risque de chute par exemple)
- Formulez l’hypothèse sur la relation attendue avec l'instrument de mesure (lié (convergent); non lié (divergent),
différences de sous-groupes (groupes connus)
- Décrivez les instruments de mesures avec lesquels vous voulez comparer votre nouveau instrument de mesure
- Testez les participants
- Evaluez si les résultats sont cohérent avec les hypothèses
- Discutez les résultats
Tests statistiques:
− Corrélation coefficients ( corrélations de Spearman/ Pearson, ICC’s)
− Convergent
− Divergent
− Différences entre deux groups (ex. t-test)
Les hypothèses doivent être décrit a priori
Validité de construit- Tests des hypothèses
26
HEdS-Genève 2 novembre 2021
Le degré avec lequel les items (traduit et adapté à la culture) reflètent la version original
Principalement pour les questionnaires.
− Traduction dans la nouvelle langue (2 traducteurs bilingues)
− Synthèse de la traduction
− Retraduction dans la langue d’origine (2 traducteurs avec la langue original comme leur langue maternelle)
− Comité d’expert qui compose une version pré-finale
− Tester la version pré-finale (petit échantillon de la population cible: 15-30)
− Appréciation des gens qui ont développée l’outil /le questionnaire
− Validation cross-culturelle (ex. on peut penser de trouver des résultats similaires si le test est utilisé dans une
population similaire)
Validité de construit- adaptation culturelle (cross cultural validation)
27
HEdS-Genève 2 novembre 2021
La mesure dans laquelle les scores (d’un questionnaire) reflètent de manière adéquate la dimensionnalité du construit
mesuré (analyse factorielle)
Surtout important si on développe un nouveau questionnaire.
Ne pas abordé plus spécifiquement dans ce cours. Très spécifique aussi en terme des statistiques utilisés.
Validité de construit- validité structurelle
28
HEdS-Genève 2 novembre 2021
Pour la validité de critère et le test des hypothèses dans ce cours on utilise principalement les statistiques
suivantes:
− Corrélation de Pearson ou de Spearman
− ICC
− (test-t)
Validité de critère vu dans module 2007
− (test-t)− Receiver operating caracteristics curve (ROC), aire sous la courbe (AUC), regression logisitique− Sensitivity/Specificity/ PPV / NPV Cours module 2007, semestre printemps 2021
Validité- les statistiques
29
HEdS-Genève 2 novembre 2021
Responsiveness is defined by the COSMIN panel as ‘the ability of an instrument to detect change over time in the
construct to be measured’ (Mokkink et al., 2010a)
− Le groupe COSMIN a défini la sensibilité au changement comme «la capacité d’un instrument à détecter les changements d’un construit dans le temps».
Notez que la sensibilité au changement n'est pertinente que pour les instruments de mesure utilisé dans les applications
évaluatives (c’est-à-dire lorsque l’instrument est utilisé dans une étude pour mesurer l’évolution dans le temps). Si un
instrument est utilisé uniquement pour discrimination entre les patients à un moment donné, la sensibilité au
changement n’est pas important.
Responsiveness - sensibilité au changement
Not sensitivity
30
HEdS-Genève 2 novembre 2021
Capacité d’un outil de mesure de démontrer la même propension au changement sur toute sa portée
− Est-ce que la mesure reflète le changement de la même façon pour tous les sujets, aux deux extrêmes
de la portée de l’instrument? (jeune, âgée, diagnostique/atteinte sévère ou léger)
− Est-ce que l’instrument a la même «sensibilité» (≠ «sensitivity» comme c’est utilisé ensemble avec la
spécificité) au changement pour tous les personnes (jeune, âgée, diagnostique/atteinte sévère ou
léger)
Réponse similaire au changement
− Sur une durée déterminée
− Sur toute la portée des scores
− Il faut vérifier s’il y a des effets de plancher ou plafond
Sensibilité au changement
31
HEdS-Genève 2 novembre 2021
L’effet plafond:
− Lorsque les scores se répètent vers le sommet de l’échelle disponible (sur un score de 6, presque tous les
participants obtiennent 6)− TUG (en lien avec exemple risque de chute oui ou non)− SPPB (tous les participants atteignent 12 points)
L’effet plancher:
− Lorsque les scores se répètent vers le bas de l’échelle disponible− TUG(en lien avec exemple risque de chute oui ou non)− SPPB (tous les participant ont le minimum de l’échelle ex. patients alités)
Ces effets n’apparaissent généralement pas parce qu’une intervention est particulièrement efficace ou pas … mais:
− le test n’est pas suffisamment difficile
− le programme fonctionne particulièrement bien sur un problème spécifique qui a été testé
On peut détecter ces effets facilement si on connait les maxima et les minima d’une variable dépendante
Effet plancher/ plafond
32
HEdS-Genève 2 novembre 2021
− Différence minimale détectable = smallest detectable change = en lien avec la fiabilité =Différence minimale
détectable (minimal detectable change; MDC)
− Quelle est la différence minimale qui indique un changement cliniquement pertinent ? Minimal clinical important
différence (MCID)
− en lien avec un critère externe (patient, par exemple) = changement minimal pour une différence pertinente d’un
point de vue clinique
− est-ce que tous les sous-groupes de patients ont la même différence cliniquement important?
Souvent mentionné ensemble avec «Sensibilité au changement»
33
HEdS-Genève 2 novembre 2021
Exemple de la recherche
34
HEdS-Genève 2 novembre 2021
Gross Portney L, Watkins MP: Foundations of Clinical Research: Applications to practice, Uppper Saddle
River, New Jersey, 2000, 2nd Ed., Prentice Hall Health.
DePoy E, Gitlin LN: Introduction to Research: Multiple Strategies for Health and Human Services, St.
Louis, 1994, Mosby.
Ostelo RWJG, de Vet HCW and van Beek HJM: The architecture of scientific research. The Australian
Journal of Physiotherapy, 2004, Vol. 50, p.189-192.
De Vet, H., Terwee, C., Mokkink, L., & Knol, D. (2011). Frontmatter. In Measurement in Medicine: A Practical Guide (Practical Guides to Biostatistics and Epidemiology, pp. I-Iv). Cambridge: Cambridge
University Press.Peat J, Mellis C, Williams K and Xuan W. Health Science Research. A Handbook of Quantitative Methods, London, 2002, Sage Publications.
Creswell JW. Research Design. Qualitative, Quantitative and Mixed Method Approaches, Los Angeles,
2008, Sage Publications.
Références-validité
35
HEdS-Genève 2 novembre 2021
Gross Portney L, Watkins MP: Foundations of Clinical Research: Applications to practice, Uppper Saddle
River, New Jersey, 2000, 2nd Ed., Prentice Hall Health.
DePoy E, Gitlin LN: Introduction to Research: Multiple Strategies for Health and Human Services, St.
Louis, 1994, Mosby.
Ostelo RWJG, de Vet HCW and van Beek HJM: The architecture of scientific research. The Australian
Journal of Physiotherapy, 2004, Vol. 50, p.189-192.
Smidt N, de Vet HCW, Bouter LM and Dekker J. Effectiveness of exercise therapy: A best-evidencesummary of systematic reviews. The Australian Journal of Physiotherapy, 2005, Vol. 51, p. 71-83.
Peat J, Mellis C, Williams K and Xuan W. Health Science Research. A Handbook of Quantitative Methods, London, 2002, Sage Publications.
Creswell JW. Research Design. Qualitative, Quantitative and Mixed Method Approaches, Los Angeles,
2008, Sage Publications.
Références- Responsivness
36