validité d’un instrument de mesure sensibilité au changement

Validité d’un instrument de mesure

Sensibilité au changement

Cours théorique et atelier pratique

3.11.2021Simone Gafner

HEdS-Genève 2 novembre 2021

Imaginez vous que vous êtes en stage et vous devez faire un choix pour un instrument de mesure.

Quelles informations sur un instrument de mesure allez vous chercher pour faire un choix?

Ne trichez pas, n’allez pas voir sur le prochain dia, prenez 3min de temps pour réfléchir à cette question

Quelques exemples mais vous pouvez réfléchir à d’autres choses aussi en lien avec les lieux de stage etc.

Quand on utilise un instrument de mesure, quelles informations avons-nous besoin

pour décider si on l’utilise en clinique?

2


Informations pratique:

- Combien de temps prend le test?

- Est-ce que le matériel nécessaire pour le test est facilement disponible?

- Est-ce que on peut utiliser le test dans différents «settings»?

Reliability (fiabilité/ reproductibilité)

Validity (validité)

- Comparaison avec d’autres instruments de mesure qui mesurent ou pas le même construit

- Corrélations

- Comparaison avec le standard de référence («gold standard»)

- Sensibilité, Spécificité, valeur prédictive positive ou négative, likelihood ratio, etc

Quand on utilise un instrument de mesure, quelles informations avons-nous besoin

pour décider si on l’utilise en clinique?

3


Reliability (reproductibilité, fiabilité)

• Reliability is defined by the COSMIN panel as ‘the degree to which the measurement is free from measurement error’

• La fiabilité est définie comme le degré auquel la mesure est exempte d'erreur de mesureMokkink et al., 2010a

• Est-ce que le test mesure deux fois la même chose si l’état du patient n’a pas changé entre temps?

Validité vs reproductibilité (reliability)

4


Reliability (reproductibilité, fiabilité)

• Reliability is defined by the COSMIN panel as ‘the degree to which the measurement is free from measurement error’

• La fiabilité est définie comme le degré auquel la mesure est exempte d'erreur de mesureMokkink et al., 2010a

• Est-ce que le test mesure deux fois la même chose si l’état du patient n’a pas changé entre temps?

Validity (validité)

• Validity is defined by the COSMIN panel as ‘the degree to which an instrument truly measures the construct(s) it

purports to measure’

• La valeur qui décrit le degrés dans lequel un instrument de mesure, mesure ce qu'il prétend mesurer

Validité vs reproductibilité (reliability)

5

02.11.2021

Objectifs de l’étude

Comparaisons

Tests paramétriques (N>25, distribution normale, égalité

des variances)

Tests non paramétriques

Tests pour données qualitatives

Lien entre 2 ou + variables

Corrélations de Pearson (linéaire)

Corrélation de Spearman (non linéaire)

Evaluation d’1 outil

ICC (quantitatif)

Kappa (qualitatif)

Bland et Altman

Calcul du nombre de sujets? Cohérence de la méthode

Valeurs calculées: « p value » « r value » « ICC or K value »

Dia «volé» de la présentation de Violette

Ici, dans ce flowchart on parle de reproductibilité

MAIS

dans le cours d’aujourd’hui surtout de validité qui fait partie aussi de l’évaluation de l’outil

02.11.2021

Plan du cours

IntroductionLe traitement initial des donnéesLa description des donnéesLe calcul du nombre de sujetsL’intervalle de confianceLes tests de comparaisonLes tests de comparaison de fréquenceLes tests de co-varianceL’analyse de la qualité d’un test

Dia volé de la présentation de Violette, cours stats inférentiels

02.11.2021

Analyse de la qualité d’un test

Caractéristiques d’un bon outil de mesure:

- Valide- Bonne reproductibilité intra-

évaluateur- Bonne reproductibilité inter-

évaluateurs- Sensible aux changements- Utilisable en pratique

clinique

Outil A Outil BValidité

Session 1 Session 2Intra-évaluateur

Eva 1 Eva 2Inter-évaluateurs

Dia volé de la présentation de Violette, cours stats inférentiels

02.11.2021


Validation de l’outil Calcul d’un coefficient de corrélation (r) ou indice de corrélation intra-classes (ICC)

Reproductibilité intra-évaluateur

Reproductibilité inter-évaluateurs

Indice de corrélations intra-classes (ICC)ICC=1 = parfaite

ICC > 0,75 = bonne0,5 < ICC< 0,75 = moyenne

< 0,05 = mauvaise [Portney et Watkins 2009]

Rmq: IC90% 1.65IC95% 1.96

Dias volé de la présentation de Violette, cours stats inférentiels

02.11.2021

Reproductibilité d’un outil


02.11.2021


Validation de l’outil Calcul d’un coefficient de corrélation (r) ou indice de corrélation intra-classes (ICC)


+ Est-ce que l’instrument de mesure est capable

de différentier entre deux groupes?La différence entre deux groupes (t-test pour ce cours, mais il y a des méthodes plus précis voir ci-dessous).

mais certainement aussi sensibilité, spécificité, valeur prédictive positive, valeur prédictive négative, aire sous la courbe (AUC)

cours module 2007, semestre printemps 2022

Corrélations

02.11.2021

Lien entre deux variablesValidité



- Est un concept qui a de nombreuses applications dans la recherche de type expérimentale.

- Pertinence d’un instrument par rapport au concept mesuré ou au contenu

- Représentation de toutes les facettes importantes du concept/construit à mesurer

Un test est valide lorsqu'il mesure bien ce qu'il prétend mesurer. " (Bruchon-Schweitzer)

- Implique une absence d’erreur aléatoire ou systématique de mesure

- Met en relation la prise de mesure et les interprétations ou jugements possibles

- Validité n’existe pas de manière isolée –elle est liée aux circonstances et finalités

- Un instrument est valide pour mesurer dans une population spécifique dans un environnement spécifique

Validité- définition

13


- Distinguer (SF36: dépressifs – pas dépressif)

- Évaluer (capacité visuelle pour conduire)

- Prédire (chute)

- Dépister (scoliose âge scolaire)

- Établir un diagnostic (SEP)

- Etc.

Un instrument de mesure peut être valide pour:

14


Validité interne

− Capacité du design d’une étude à répondre précisément à la question de recherche et utiliser un outil de mesure qui

permet de mesurer ce qu’on souhaite mesurer

− A l’intérieur d’une étude. Est-ce que la bonne méthodologie était utilisé (design de l’étude, population même

population comme dans celle que j’aimerais utiliser les résultats, outil de mesure, etc.)

− Ex. du cours analyse critique étude de cohorte: RCT pour connaitre l’utilité d’un parachute quand on saute d’un avion…..

Validité externe

− Capacité de généraliser les résultats au-delà de l’échantillon étudié

«Types» de validités en regardant un article scientifique/ une étude

15


Validité, selon COSMIN

16

COnsensus-based Standards for the selection of health Measurement INstruments


Validité

17

The degree to which an instrumenttruly measures the construct it purposes to measure

De Vet p. 150-196

Exemples: - Risque de chute- Return to sport- Activité physique- Equilibre- Etc.


- Dépendant de la situation (nouvelle population cible nouvelle validation nécessaire) !!!

- Le test de validation nécessite la formulation d'une hypothèse, qui devrait être aussi précise que possible (pourquoi

un nouvel instrument devrait-il être meilleur? Quelle instrument va avoir une meilleur validité et pourquoi? etc.)

- Il faut toujours demander pourquoi? Spécifiez pour quelle raison vous voulez utiliser une mesure/ un outil

‒ Diagnostique‒ Discriminative‒ Screening

‒ Evaluative‒ Change over time

‒ Prediction

La validité

18


Face validity (Validité d’apparence)

− Est la méthode la moins rigoureuse pour évaluer la validité d’un test

− Appréciation de l’aspect visible de l’échelle (longueur, libellé items…)

− Adéquat pour des tests d’amplitude de mvt, longueur, force, sensations, marche, équilibre, etc.

− Basée sur un jugement subjectif, superficiel de l’utilisateur

Validité du contenu

19


Si un instrument a passé l’examen de la «face vailidity» on regarde plus spécifiquement le contenu:

− Le contenu représente-t-il adéquatement la variable d’intérêt?

− Le contenu semble-t-il cibler ce qu’il est supposé mesurer?

− Le contenu couvre-t-il assez de matière pour permettre de faire des jugements/interprétations concernant les

résultats?

− Particulièrement important pour des questionnaires, examens, inventaires et entretiens

Tests statistiques

- Pas de tests statistiques

Validité du contenu

20


Ex. questionnaire: Physical activity scale for the elderly (PASE)

21


Consiste à évaluer l’outil de mesure en l’opposant à un critère externe (le standard de référence (gold

standard)) qui évalue le même construit

Validité de critère

22


Validité concomitante (concurrent v.)

− Utilisation en même temps l’ outil/ échelle ET le critère externe = gold standard

− Chaque sujet, même jour

Validité prédictive (predictive v.)

− Prédiction des scores/ résultats du standard de référence dans le future

− Ex. Risque de chute des personnes âgées

− Utilisation décalée de l’outil / échelle + critère

− Intervalle de plusieurs semaines ou mois

(ROC curves (aire sous la courbe), sensibilité/ spécificité, valeurs prédictives positives et négatives, likelihood ratios,

correlation coefficients, Intraclass correlation Coefficients (ICC) )

Module 2007 semester printemps 2021


23


Exemple:

Est-ce que un nouveau test théorique est-il suffisant pour décider si un individu est prêt à conduire?


24

Client MVPT ROAD TEST

1 Pass Pass

2 Pass Pass

3 Fail Pass

4 Pass Fail

5 Fail Fail

6 Fail Fail

7 Pass Pass

8 Pass Fail

9 Fail Pass

10 Pass Fail


Dans les cas où un standard de référence (gold standard) est manquante, la validation de construction doit être utilisée.

La mesure dans laquelle les scores d'une mesure sont cohérents avec les hypothèses.

− Relations internes (ex. questionnaire) ou relations d'autres instruments ou différences entre les groupes pertinents

Validité de construit

25


- Décrivez le construit que vous aimeriez mesurer en détail (risque de chute par exemple)

- Formulez l’hypothèse sur la relation attendue avec l'instrument de mesure (lié (convergent); non lié (divergent),

différences de sous-groupes (groupes connus)

- Décrivez les instruments de mesures avec lesquels vous voulez comparer votre nouveau instrument de mesure

- Testez les participants

- Evaluez si les résultats sont cohérent avec les hypothèses

- Discutez les résultats

Tests statistiques:

− Corrélation coefficients ( corrélations de Spearman/ Pearson, ICC’s)

− Convergent

− Divergent

− Différences entre deux groups (ex. t-test)

Les hypothèses doivent être décrit a priori

Validité de construit- Tests des hypothèses

26


Le degré avec lequel les items (traduit et adapté à la culture) reflètent la version original

Principalement pour les questionnaires.

− Traduction dans la nouvelle langue (2 traducteurs bilingues)

− Synthèse de la traduction

− Retraduction dans la langue d’origine (2 traducteurs avec la langue original comme leur langue maternelle)

− Comité d’expert qui compose une version pré-finale

− Tester la version pré-finale (petit échantillon de la population cible: 15-30)

− Appréciation des gens qui ont développée l’outil /le questionnaire

− Validation cross-culturelle (ex. on peut penser de trouver des résultats similaires si le test est utilisé dans une

population similaire)

Validité de construit- adaptation culturelle (cross cultural validation)

27


La mesure dans laquelle les scores (d’un questionnaire) reflètent de manière adéquate la dimensionnalité du construit

mesuré (analyse factorielle)

Surtout important si on développe un nouveau questionnaire.

Ne pas abordé plus spécifiquement dans ce cours. Très spécifique aussi en terme des statistiques utilisés.

Validité de construit- validité structurelle

28


Pour la validité de critère et le test des hypothèses dans ce cours on utilise principalement les statistiques

suivantes:

− Corrélation de Pearson ou de Spearman

− ICC

− (test-t)

Validité de critère vu dans module 2007

− (test-t)− Receiver operating caracteristics curve (ROC), aire sous la courbe (AUC), regression logisitique− Sensitivity/Specificity/ PPV / NPV Cours module 2007, semestre printemps 2021

Validité- les statistiques

29


Responsiveness is defined by the COSMIN panel as ‘the ability of an instrument to detect change over time in the

construct to be measured’ (Mokkink et al., 2010a)

− Le groupe COSMIN a défini la sensibilité au changement comme «la capacité d’un instrument à détecter les changements d’un construit dans le temps».

Notez que la sensibilité au changement n'est pertinente que pour les instruments de mesure utilisé dans les applications

évaluatives (c’est-à-dire lorsque l’instrument est utilisé dans une étude pour mesurer l’évolution dans le temps). Si un

instrument est utilisé uniquement pour discrimination entre les patients à un moment donné, la sensibilité au

changement n’est pas important.

Responsiveness - sensibilité au changement

Not sensitivity

30


Capacité d’un outil de mesure de démontrer la même propension au changement sur toute sa portée

− Est-ce que la mesure reflète le changement de la même façon pour tous les sujets, aux deux extrêmes

de la portée de l’instrument? (jeune, âgée, diagnostique/atteinte sévère ou léger)

− Est-ce que l’instrument a la même «sensibilité» (≠ «sensitivity» comme c’est utilisé ensemble avec la

spécificité) au changement pour tous les personnes (jeune, âgée, diagnostique/atteinte sévère ou

léger)

Réponse similaire au changement

− Sur une durée déterminée

− Sur toute la portée des scores

− Il faut vérifier s’il y a des effets de plancher ou plafond

Sensibilité au changement

31


L’effet plafond:

− Lorsque les scores se répètent vers le sommet de l’échelle disponible (sur un score de 6, presque tous les

participants obtiennent 6)− TUG (en lien avec exemple risque de chute oui ou non)− SPPB (tous les participants atteignent 12 points)

L’effet plancher:

− Lorsque les scores se répètent vers le bas de l’échelle disponible− TUG(en lien avec exemple risque de chute oui ou non)− SPPB (tous les participant ont le minimum de l’échelle ex. patients alités)

Ces effets n’apparaissent généralement pas parce qu’une intervention est particulièrement efficace ou pas … mais:

− le test n’est pas suffisamment difficile

− le programme fonctionne particulièrement bien sur un problème spécifique qui a été testé

On peut détecter ces effets facilement si on connait les maxima et les minima d’une variable dépendante

Effet plancher/ plafond

32


− Différence minimale détectable = smallest detectable change = en lien avec la fiabilité =Différence minimale

détectable (minimal detectable change; MDC)

− Quelle est la différence minimale qui indique un changement cliniquement pertinent ? Minimal clinical important

différence (MCID)

− en lien avec un critère externe (patient, par exemple) = changement minimal pour une différence pertinente d’un

point de vue clinique

− est-ce que tous les sous-groupes de patients ont la même différence cliniquement important?

Souvent mentionné ensemble avec «Sensibilité au changement»

33


Exemple de la recherche

34


Gross Portney L, Watkins MP: Foundations of Clinical Research: Applications to practice, Uppper Saddle

River, New Jersey, 2000, 2nd Ed., Prentice Hall Health.

DePoy E, Gitlin LN: Introduction to Research: Multiple Strategies for Health and Human Services, St.

Louis, 1994, Mosby.

Ostelo RWJG, de Vet HCW and van Beek HJM: The architecture of scientific research. The Australian

Journal of Physiotherapy, 2004, Vol. 50, p.189-192.

De Vet, H., Terwee, C., Mokkink, L., & Knol, D. (2011). Frontmatter. In Measurement in Medicine: A Practical Guide (Practical Guides to Biostatistics and Epidemiology, pp. I-Iv). Cambridge: Cambridge

University Press.Peat J, Mellis C, Williams K and Xuan W. Health Science Research. A Handbook of Quantitative Methods, London, 2002, Sage Publications.

Creswell JW. Research Design. Qualitative, Quantitative and Mixed Method Approaches, Los Angeles,

2008, Sage Publications.

Références-validité

35


Gross Portney L, Watkins MP: Foundations of Clinical Research: Applications to practice, Uppper Saddle

River, New Jersey, 2000, 2nd Ed., Prentice Hall Health.

DePoy E, Gitlin LN: Introduction to Research: Multiple Strategies for Health and Human Services, St.

Louis, 1994, Mosby.

Ostelo RWJG, de Vet HCW and van Beek HJM: The architecture of scientific research. The Australian

Journal of Physiotherapy, 2004, Vol. 50, p.189-192.

Smidt N, de Vet HCW, Bouter LM and Dekker J. Effectiveness of exercise therapy: A best-evidencesummary of systematic reviews. The Australian Journal of Physiotherapy, 2005, Vol. 51, p. 71-83.

Peat J, Mellis C, Williams K and Xuan W. Health Science Research. A Handbook of Quantitative Methods, London, 2002, Sage Publications.

Creswell JW. Research Design. Qualitative, Quantitative and Mixed Method Approaches, Los Angeles,

2008, Sage Publications.

Références- Responsivness

36

validité d’un instrument de mesure sensibilité au changement

Documents