Échelles d’utilisabilité - unige

15
Échelles d’utilisabilité (usability scales) Mesurer la facilité d’utilisation d’un système constitue l’un des plus importants enjeux depuis les premiers travaux en ergonomie des IHM. Très vite, et en complément de mesures objectives, des échelles de mesure de l’utilisabilité perçue ont été créées afin de systématiser et cadrer les évaluations. SUS, WAMMI, QUIS ou autre DEEP sont autant d’échelles d’utilisabilité disponibles pour les professionnels et les chercheurs, qui permettent de recueillir le point de vue des utilisateurs. Leur passation se fait par questionnaire papier ou en ligne, et leur analyse nécessite généralement quelques bases en statistiques. Néanmoins, le plus grand défi est bien souvent de choisir l’échelle adaptée au système à évaluer, car même en design UX, ce sont les bons outils qui font les bons concepteurs ! Quoi Évaluer l’utilisabilité d’un système perçue par les utilisateurs. Qui L’évaluateur sélectionne, diffuse puis analyse les résultats de l’échelle. Un échantillon d’utilisateurs répond au questionnaire. Le questionnaire peut être administré par papier, ou en ligne. Quand Pendant de multiples cycles itératifs d’évaluation. Après la passation d’un test utilisateur ou simplement après une interaction réelle avec un système déjà fonctionnel. Comment Les utilisateurs répondent à un ensemble de questions, en se positionnant généralement sur une échelle de Likert qui recueille leur opinion sur le système. PLANIFICATION Très facile Durée : 2 à 4 h PASSATION Très facile Durée : 5 à 30 min./ utilisateur ANALYSE DES RÉSULTATS Facile Durée : 4 h pour 30 réponses EXPERTISE REQUISE Faible Fiche liée : 24. Échelles UX Planification – Exploration – Idéation – Génération – Évaluation

Upload: others

Post on 18-Jun-2022

12 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Échelles d’utilisabilité - UNIGE

Échellesd’utilisabilité

(usability scales)

Mesurer la facilité d’utilisation d’un système constitue l’un des plus importants enjeuxdepuis les premiers travaux en ergonomie des IHM. Très vite, et en complément de mesuresobjectives, des échelles de mesure de l’utilisabilité perçue ont été créées afin desystématiser et cadrer les évaluations. SUS, WAMMI, QUIS ou autre DEEP sont autantd’échelles d’utilisabilité disponibles pour les professionnels et les chercheurs, quipermettent de recueillir le point de vue des utilisateurs. Leur passation se fait parquestionnaire papier ou en ligne, et leur analyse nécessite généralement quelques bases enstatistiques. Néanmoins, le plus grand défi est bien souvent de choisir l’échelle adaptée ausystème à évaluer, car même en design UX, ce sont les bons outils qui font les bonsconcepteurs !

Quoi Évaluer l’utilisabilité d’un système perçue par les utilisateurs.

Qui L’évaluateur sélectionne, diffuse puis analyse les résultats de l’échelle. Un échantillon d’utilisateurs répond au questionnaire.

Où Le questionnaire peut être administré par papier, ou en ligne.

Quand Pendant de multiples cycles itératifs d’évaluation. Après la passation d’un test utilisateur ou simplement après une interaction réelle avec un système déjà fonctionnel.

Comment Les utilisateurs répondent à un ensemble de questions, en se positionnant généralement sur une échelle de Likert qui recueille leur opinion sur le système.

PLANIFICATION Très facile

Durée : 2 à 4 h

PASSATION Très facile

Durée : 5 à 30 min./utilisateur

ANALYSE DES RÉSULTATS Facile

Durée : 4 h pour 30 réponses

EXPERTISE REQUISE Faible

Fiche liée : 24. Échelles UX

Planification – Exploration – Idéation – Génération – Évaluation

Page 2: Échelles d’utilisabilité - UNIGE

ÉvaluationPARTIE E

352

Les échelles d’utilisabilité sont des outils standardisés qui recueillent l’avis des utilisateurs sur lafacilité d’utilisation perçue d’un système et la satisfaction liée à l’interaction. Ce sont des ques-tionnaires d’évaluation subjective auto-administrés : les utilisateurs y répondent eux-mêmes.

Fondements théoriquesDéfinie plus en détail dans l’introduction de cet ouvrage, rappelons simplement que l’utilisa-bilité est le « degré selon lequel un produit peut être utilisé par des utilisateurs identifiés, pouratteindre des buts définis avec efficacité, efficience et satisfaction, dans un contexte d’utilisationspécifié » (ISO 9241-11, 1998).

Les premiers questionnaires d’utilisabilité sont apparus dans le courant des années 1980 et ontrapidement séduit les concepteurs (Root & Draper, 1983). Très vite, les échelles standardisées,qui offrent une passation structurée et identique pour tous les utilisateurs (voir section suivante« Pourquoi utiliser cette méthode ? »), se sont démarquées des « questionnaires faits maison ».

De nombreux avantages plaident en faveur des questionnaires d’utilisabilité : c’est uneméthode indirecte, qui ne nécessite pas d’analyser le système en lui-même pour évaluer sonutilisabilité et qui permet de recueillir l’opinion des utilisateurs même à distance. Elle estaussi une mesure subjective de l’utilisabilité d’un système, complémentaire aux mesuresobjectives, qui repose entièrement sur la perception ou les attitudes de l’utilisateur vis-à-visdu système (Hornbæk, 2006).

La norme ISO 16 982 (2002) référence le questionnaire comme l’une des douze principalesméthodes d’utilisabilité. Elle recommande néanmoins d’administrer des questionnaires« fermés », c’est-à-dire qui comportent des questions auxquelles le répondant ne peut se posi-tionner que sur une échelle quantifiable (type échelle de Likert) ou dans une liste prédéfinie.Les questions « ouvertes », qui donnent la possibilité de réponses plus élaborées, sont parfoisdifficiles à traiter.

Pourquoi utiliser cette méthode ?

S’appuyer sur des échelles standardiséesLe principal intérêt des échelles de mesure de l’utilisabilité est leur format standardisé. Uneéchelle standardisée est un questionnaire qui reprend un ensemble de questions prédéfinies, tou-jours posées dans le même ordre, et qui dispose d’une grille de réponse et de cotation identiquepour tous les répondants. Ainsi, les échelles standardisées peuvent être répliquées afin de :• comparer plusieurs versions d’un même système, dans le cas d’un cycle de conception itératif ;• comparer différents systèmes entre eux, si l’on souhaite par exemple positionner son pro-

pre système par rapport à la concurrence ;• tester un système auprès de plusieurs catégories d’utilisateurs afin de différencier leur opi-

nion (séniors, juniors, hommes, femmes, statuts socioprofessionnels…).

Page 3: Échelles d’utilisabilité - UNIGE

23 – Échelles d’utilisabilité 353

Exploiter des mesures quantitativesLes échelles de mesure de l’utilisabilité standardisées recueillent des données quantitatives.Ces données permettent donc de réaliser différents traitements et comparaisons statistiques,et facilitent la communication des résultats auprès du commanditaire. Par exemple, des gra-phiques pourront illustrer les scores d’évaluation d’un système par rapport à un autre.

Ces mesures chiffrées sont très prisées des commanditaires et constituent des arguments fortspour convaincre.

Se reposer sur une validation scientifiquePour la plupart, les échelles standardisées sont validées scientifiquement. Cela signifie qu’ellesont été testées (puis corrigées si nécessaire) afin de répondre à deux critères essentiels :• la fiabilité (ou fidélité) correspond à la stabilité de la mesure : l’échelle, si elle est appliquée

dans les mêmes conditions auprès des mêmes utilisateurs, doit permettre d’obtenir lesmêmes scores ;

• la validité concerne ce qui est réellement mesuré par le questionnaire. Ainsi, les échellesde mesure de l’utilisabilité validées scientifiquement ont fait l’objet d’études préliminairesqui ont démontré qu’elles évaluaient bien l’opinion des utilisateurs vis-à-vis de l’utilisabi-lité d’un système donné.

CONVAINCRE VOTRE MANAGER OU CLIENT

1. La mesure de l’utilisabilité par questionnaire est un moyen fiable et reconnu scientifiquement pour recueillirl’avis des utilisateurs. Elle apporte un complément indispensable aux mesures d’évaluation objectives.

2. Les échelles standardisées sont parfaitement adaptées à la comparaison de différentes versions d’unmême système, ou de plusieurs systèmes entre eux.

3. Il existe une multitude d’échelles de mesure de l’utilisabilité, plus ou moins détaillées, dont une seratrès certainement adaptée à vos besoins !

Avantages Limites

• Les données recueillies sont comparables d’unsystème à l’autre, ou entre plusieurs versionsd’un même système. Cela permet de mesurerl’effet de modifications successives.

• La passation ne demande généralement quequelques minutes aux utilisateurs.

• La représentation des résultats sous forme degraphiques facilite leur interprétation et leurcommunication auprès du commanditaire.

• Les échelles d’utilisabilité peuvent être soumises à des biaisde passation (effet de halo, tendance à l’acquiescement, etc.),voir tableau 7-2 à la page 102.

• Les questionnaires trop longs sont souvent source d’ennuipour les utilisateurs, qui seront parfois tentés de répondre auplus vite pour se débarrasser de cette tâche.

• Les échelles d’utilisabilité ne permettent pas de comprendrepourquoi l’utilisateur attribue tel ou tel score à un système.Les raisons seront généralement détectées à l’aide de testsutilisateurs (fiche 30).

Page 4: Échelles d’utilisabilité - UNIGE

ÉvaluationPARTIE E

354

Les principales échelles de mesure de l’utilisabilitéIl existe aujourd’hui plusieurs dizaines d’échelles d’utilisabilité. Certaines ont près de trenteans (comme le QUIS), d’autres sont beaucoup plus récentes (comme le DEEP). Hormisquelques échelles spécialement conçues pour être appliquées à l’évaluation d’un système par-ticulier (un site web ou un site e-commerce), elles sont pour la plupart génériques et convien-nent à tous les types de systèmes.

Selon la manière dont elles ont été développées et validées, les échelles adoptent un format denotation particulier. Il est recommandé de toujours garder l’échelle telle qu’elle a été conçue,afin de préserver ses qualités psychométriques.

Nous présentons les principales échelles d’utilisabilité dans le tableau 23-1. Deux d’entre ellessont décrites plus en détail dans la section « Mise en pratique » : le DEEP (Design-orientedEvaluation of Perceived Usability) et le SUS (System Usability Scale).

Les échelles de mesure de la charge de travail mentale

Bien que la charge de travail mentale ne soit pas toujours intimement liée à l’utilisabilité d’un système,car elle peut aussi dépendre de la nature de la tâche de l’utilisateur, les échelles qui la mesurent sontquelquefois classées parmi les échelles d’utilisabilité (Sauro & Lewis, 2012). Elles restent en effet deséchelles d’évaluation subjective standardisées, qui évaluent la qualité des interactions homme-machineau cours de l’exécution d’une tâche (Martin, Hourlier & Cegarra, 2013). Elles complètent également defaçon pertinente les résultats issus des échelles d’utilisabilité.Il existe de nombreuses échelles de mesure de la charge de travail mentale. Deux d’entre elles sont sou-vent utilisées en IHM.• NASA-TLX (Task Load Index). Issue des travaux de la NASA (Hart & Staveland, 1988), cette échelle

regroupe six items : exigences mentales, exigences physiques, pression temporelle, performance, effortet frustration. L’utilisateur y répond en se positionnant sur une échelle de Likert allant de 1 à 100.

• SMEQ (Subjective Mental Effort Question). Cette échelle a la particularité de ne comporter qu’un seulitem (Zijlstra, 1993). L’utilisateur se positionne sur une échelle de Likert, allant de 1 à 150, comportantplusieurs échelons de graduation (« pas du tout difficile à faire », « un peu difficile à faire », « très trèsdifficile à faire », etc.).

Tableau 23–1 Les principales échelles d’utilisabilité

Nom de l’échelle Nombre d’items

Système évalué

Format d’échelle Référence

ASQ (After Scenario Questionnaire)

3 Tout type de système

Likert à 7 points Désaccord-Accord

Lewis (1995)

CSUQ (Computer Usability Satisfaction Questionnaire)

19 Tout type de système

Likert à 7 points Désaccord-Accord + NA

http://garyperlman.com/quest/quest.cgi?Lewis (1995)

DEEP (Design-oriented Evaluation of Perceived Usability)

19 Site web Likert à 5 points Désaccord-Accord + NA

http://discern.uits.iu.edu:8670/DEEP/deep.htmlYang, Linder & Bolchini (2012)

Page 5: Échelles d’utilisabilité - UNIGE

23 – Échelles d’utilisabilité 355

EUCS (End-User Computing Satisfaction)

12 Site web Likert à 5 points Jamais-Toujours

Doll & Torkzadeh (1988)

Perceived website usability measurement scale

8 Site web Likert à 7 points Désaccord-Accord

Wang & Senecal (2007)

PSSUQ v3 (Post-study System Usability Questionnaire)

16 Tout type de système

Likert à 7 points Désaccord-Accord

Lewis (2002)

PUTQ (Purdue Usability Testing Questionnaire)

100 Tout type de système

Likert à 9 points Désaccord-Accord

Lin, Choong & Salvendy (1997)

QUIS v7.0 (Questionnaire for User Interface Satisfaction)

41 (version courte)

Tout type de système

Likert à 9 points Désaccord-Accord + NA

www.lap.umd.edu/QUISChin, Diehl & Norman (1988)

SUMI (Software Usability Measurement Inventory)

50 Tout type de système

Likert à 3 points D’accord/Ne sait pas/Pas d’accord

http://sumi.ucc.ieKirakowski & Corbett (1993)

SUPR-Q (Standardized User Experience Percentile Rank Questionnaire)

8 Site web Likert à 5 points Désaccord-Accord

Sauro (2015)

SUS (System Usability Scale)

10 Tout type de système

Likert à 5 points Désaccord-Accord

Brooke (1996 ; 2013)

UMUX (Usability Metric for User Experience)

4 Tout type de système

Likert à 7 points Désaccord-Accord

Finstad (2010)

UMUX-LITE (Usability Metric for User Experience)

2 Tout type de système

Likert à 7 points Désaccord-Accord

Lewis, Utesch & Maher (2013)

USE (Usefulness, Satisfaction and Ease)

30 Tout type de système

Likert à 7 points Désaccord-Accord + NA

http://garyperlman.com/quest/quest.cgi?form=USE

User-perceived web quality instrument

25 Site web Likert à 7 points Désaccord-Accord

Aladwani & Palvia (2002)

WAMMI (Web Analysis and Measurement Inventory)

20 Site web Likert à 5 points Désaccord-Accord

www.wammi.com

Tableau 23–1 Les principales échelles d’utilisabilité (suite)

Nom de l’échelle Nombre d’items

Système évalué

Format d’échelle Référence

Page 6: Échelles d’utilisabilité - UNIGE

ÉvaluationPARTIE E

356

Mise en pratiqueDans cette partie, nous décrivons la mise en pratique de deux exemples de questionnaires :• le DEEP (Design-oriented Evaluation of Perceived Usability), qui est une échelle récente

(Yang, Linder & Bolchini, 2012) de mesure de l’utilisabilité des sites web ;• le SUS (System Usability Scale), qui est l’une des échelles les plus célèbres et les plus utili-

sées par les professionnels de l’UX (Brooke, 1996).

Format

Format du DEEPLe DEEP a été développé afin de pallier un défaut des principales autres échelles qui, selonles auteurs, ne permettent pas de proposer des recommandations de conception en se limitantuniquement à l’évaluation du système. Aussi, l’ambition du DEEP est-elle de mesurer :• la manifestation de l’expérience de l’utilisateur, que les auteurs nomment le « phénotype

de l’utilisabilité » ;• ce qui est à l’origine du problème dans l’interface, appelé le « génotype de l’utilisabilité ».

Le DEEP s’appuie sur la combinaison d’items extraits et adaptés d’autres échelles(tableau 23-1) : PHUE, CSUQ, QUIS, SUS, PUTQ, USE et WAMMI. Certains items ontégalement été inspirés de la méthode d’inspection de l’utilisabilité MiLE+ (Bolchini& Garzotto, 2008). L’échelle est ainsi constituée de dix-neuf items sous forme de phrasesaffirmatives, réparties en six catégories (figure 23-1). L’échelle DEEP est disponible gratuite-ment en ligne, en anglais uniquement.

Format du SUSLe SUS (System Usability Scale) a été l’une des premières échelles de mesure de l’utilisabilitéperçue (en 1996). Elle est libre de droits et comporte un nombre restreint d’items faciles àcomprendre pour les utilisateurs. Le créateur du SUS, John Brooke, explique que cette échellea été créée avec soin en se basant sur les éléments de la norme ISO 9241-11 sur l’utilisabilité(voir l’introduction de cet ouvrage), mais qu’elle se voulait quick and dirty pour les utilisateurs,c’est-à-dire rapide à remplir et facile à comprendre (Brooke, 2013).

Le SUS comprend dix items présentés sous la forme affirmative, dont un sur deux est inversé(figure 23-2).

Page 7: Échelles d’utilisabilité - UNIGE

23 – Échelles d’utilisabilité 357

Figure 23–1 Présentation et traduction libre du DEEP

Figure 23–2 Présentation et traduction libre du SUS

DEEP (Design-oriented Evaluation of Perceived Usability)1 = Pas du tout d’accord5 = Tout à fait d’accordNA = Non applicable

CONTENU PERÇU 1 2 3 4 5 NA

1. Le libellé du texte était clair.2. Le contenu (texte, images, sons, vidéos, etc.) était facile à comprendre.3. Le texte était utile.4. Le texte était pertinent.

STRUCTURE PERÇUE ET ARCHITECTURE DE L’INFORMATION 1 2 3 4 5 NA5. Je pouvais rapidement connaître la structure du site web en parcourant sa page d’accueil.6. L’organisation du site web était claire.7. Dans chaque section du site web, les pages étaient bien organisées.

NAVIGATION PERÇUE 1 2 3 4 5 NA8. Il était facile de trouver l’information dont j’avais besoin sur le site web.9. Le site web m’a aidé à trouver ce que je cherchais.10. J’ai obtenu ce à quoi je m’attendais quand je cliquais sur les éléments du site web.

EFFORT COGNITIF PERÇU 1 2 3 4 5 NA

12. Utiliser ce site web m’a fatigué.13. J’ai appris à utiliser ce site web rapidement.

COHERENCE DE LA MISE EN PAGE PERÇUE 1 2 3 4 5 NA14. La mise en page à travers tout le site web était cohérente.15. J’ai remarqué des changements soudains de mise en page à travers le site web.16. La mise en page de chaque section du site web était cohérente.

GUIDAGE VISUEL PERÇU 1 2 3 4 5 NA

18. Les zones mises en évidence d’une page m’ont aidé à repérer l’information dont j’avais besoin.19. J’ai appris à connaître le contenu d’une page en parcourant les zones mises en évidence.Note : Les items 12 et 15 sont inversés.

SUS (System Usability Scale)1 = Pas du tout d’accord5 = Tout à fait d’accord

1 2 3 4 5

1. Je pense que j’aimerais utiliser ce système fréquemment.2. J’ai trouvé ce système inutilement complexe.3. J’ai trouvé ce système facile à utiliser.4. Je pense que j’aurais besoin d’un support technique pour être capable d’utiliser ce système.

6. J’ai trouvé qu’il y avait trop d’incohérence dans ce système.7. Je suppose que la plupart des gens apprendraient très rapidement à utiliser ce système.8. J’ai trouvé ce système très contraignant à utiliser.

10. J’ai dû apprendre beaucoup de choses avant de me sentir familiarisé(e) avec ce système.Note : Les items 2, 4, 6, 8 et 10 sont inversés.

Page 8: Échelles d’utilisabilité - UNIGE

ÉvaluationPARTIE E

358

PlanificationAvant d’utiliser une échelle de mesure de l’utilisabilité, vous aurez à planifier trois étapes.

Choisir l’échelleChoisir l’échelle de mesure de l’utilisabilité adaptée à vos besoins est une étape fondamentale.Elle conditionnera votre recueil de données et, par conséquent, les recommandations quevous pourrez appliquer au système évalué. Posez-vous deux questions.• Quel est le type de système que vous souhaitez évaluer ? S’agit-il d’un site web ou d’une

application ? Certaines échelles sont conçues pour évaluer l’un ou l’autre de ces systèmes.• Quelle est la disponibilité de vos utilisateurs ? Ont-ils du temps à consacrer à votre ques-

tionnaire, ou vaut-il mieux les solliciter le moins possible avec des échelles courtes ?

Le tableau 23-1 vous aidera à répondre à chacune de ces questions et guidera votre choix.

Choisir le mode de passationLa deuxième étape consiste à choisir le mode de passation de votre questionnaire : sur papierou informatisé. Le papier présente l’avantage d’être rapide à préparer, mais vous perdrez dutemps à recoder les résultats sous forme informatique pour les analyser. À l’inverse, choisirune passation informatisée nécessitera d’implémenter votre questionnaire sur une plate-forme

UMUX : le SUS à quatre items !

En cherchant à réduire le plus possible le nombre d’items du SUS tout en gardant la même mesure descomposants de l’utilisabilité (efficacité, efficience, satisfaction), Finstad (2010) a développé et validél’échelle UMUX (Usability Metric for User Experience) qui comprend quatre items. L’utilisateur y réponden se positionnant sur une échelle allant de 1 (pas du tout d’accord) à 7 (tout à fait d’accord). L’UMUX seveut donc encore plus quick and dirty que le SUS et répondra parfaitement aux attentes des profession-nels les plus pressés et aux utilisateurs les moins disponibles (figure 23-3).Lewis et al. (2013) sont allés encore plus loin en cherchant à réduire le nombre d’items de l’UMUX. Leursrecherches n’ont ainsi retenu que les items 1 et 3 (les items non inversés) pour un UMUX-LITE.

Figure 23–3 Présentation et traduction libre de l’UMUX

UMUX (Usability Metric for User Experience)1 = Pas du tout d’accord7 = Tout à fait d’accord

1 2 3 4 5 6 7

1. Les fonctionnalités de ce système répondent à mes exigences.(This system’s capabilities meet my requirements).2. Utiliser ce système est une expérience frustrante.(Using this system is a frustrating experience).3. Ce système est facile à utiliser.(This system is easy to use).4. Je dois passer trop de temps à corriger des choses sur ce système.(I have to spend too much time correcting things with this system).Note : Les items 2 et 4 sont inversés.

Page 9: Échelles d’utilisabilité - UNIGE

23 – Échelles d’utilisabilité 359

en ligne. Des outils très performants et gratuits existent, tels que Limesurvey ou GoogleForms (voir encadré page 106).

Recruter des utilisateursLa troisième étape consiste à recruter des utilisateurs cibles pour votre étude (fiche 2. Recru-tement des utilisateurs). Les échelles d’utilisabilité sont des outils quantitatifs, il est doncnécessaire d’avoir un échantillon suffisamment grand pour faire des analyses statistiques.Dans le domaine académique, la limite basse se situe aux alentours de 30 participants, sou-vent décrite comme la taille d’échantillon minimale requise pour réaliser des statistiques infé-rentielles. Chez les professionnels, le nombre de participants est plus flexible et dépend sur-tout du budget de chaque projet. Cependant, si vous n’avez pas accès à un nombre suffisantde participants (moins de dix par groupe d’utilisateurs cibles), il est préférable d’utiliser uneméthode d’évaluation plutôt qualitative.

PassationTout comme les autres échelles d’utilisabilité, le DEEP et le SUS sont des outils auto-admi-nistrés, ce qui signifie que les utilisateurs remplissent le questionnaire seuls. Les participantspeuvent y répondre en présentiel (après un test utilisateur par exemple) ou en ligne. La passa-tion dure de 10 à 15 minutes pour le DEEP et 5 minutes pour le SUS.

Il est conseillé d’administrer le questionnaire aussitôt après l’interaction avec le système, afinque l’évaluation soit la plus spontanée et valide possible. Dans la majorité des cas, on utiliseune échelle d’utilisabilité à la fin d’un test utilisateur (fiche 30).

Dans le cas d’une passation en présentiel, on pourra la faire suivre d’un court entretien dedébriefing, pour explorer plus en profondeur l’opinion de l’utilisateur (fiche 4. Entretien).

Une étude sur la sensibilité des échelles SUS, QUIS et CSUQ

Les chercheurs Tullis et Stetson (2004) ont tenté de savoir quelle était la sensibilité des échelles SUS,QUIS et CSUQ, c’est-à-dire leur capacité à différencier l’utilisabilité perçue entre plusieurs systèmes. Ilsont présenté à des groupes d’utilisateurs deux versions d’un site web, l’une avec une très bonne utilisabi-lité et l’autre une très mauvaise. Les utilisateurs devaient remplir une échelle d’utilisabilité (SUS, QUIS ouCSUQ) après la passation de plusieurs scénarios d’usage. Les groupes d’utilisateurs avaient des taillesdifférentes, comprises entre 6 et 14 participants. Les chercheurs ont alors mesuré, pour chaque échelle, àpartir de combien de participants les réponses différenciaient de façon significative le bon site du mau-vais. Les résultats montrent que le SUS est l’échelle la plus sensible et qu’elle permet de différencier l’uti-lisabilité des deux sites à partir de 12 utilisateurs.

Page 10: Échelles d’utilisabilité - UNIGE

ÉvaluationPARTIE E

360

Analyse et interprétation des résultats

Analyse et interprétation du DEEPPour chaque item, il faut commencer par faire la moyenne des scores donnés par les utilisa-teurs. Des moyennes peuvent également être calculées pour chacune des six catégories duDEEP, afin d’établir un profil général des problèmes d’utilisabilité du système.

Attention, les items 12 et 15 du DEEP sont inversés : pour que leurs scores soient cohérentsavec ceux des autres items, il faut les recoder pour qu’ils correspondent aux scores des itemsnon inversés (tableau 23-2).

Toutes les moyennes inférieures ou égales à 3 peuvent être considérées comme les valeursseuils à partir desquelles un problème d’utilisabilité doit être corrigé.

Analyse et interprétation du SUS

Comment calculer un score au SUS ?Le SUS utilise un système de cotation particulier, qui permet non seulement de recalculer lesscores des items inversés, mais aussi de donner un score total compris entre 0 et 100 (Brooke,1996). Le calcul du score au SUS est décomposé en quatre étapes :• pour les items impairs, soustrayez un point au score brut coché par l’utilisateur ;• pour les items pairs, calculez cinq moins le score brut coché par l’utilisateur ;• faites la somme des dix nouveaux scores ainsi recalculés ;• multipliez la somme des scores recalculés par 2,5. Vous obtenez ainsi un score total com-

pris entre 0 et 100.

Une fois que vous avez obtenu le score total pour chacun des utilisateurs à qui vous avezsoumis le SUS, calculez une moyenne de tous les scores obtenus, qui représentera l’évaluationglobale de votre système.

Tableau 23–2 Correspondance des scores aux items inversés par rapport aux items normaux

Item normal 1 2 3 4 5

Item inversé 5 4 3 2 1

Page 11: Échelles d’utilisabilité - UNIGE

23 – Échelles d’utilisabilité 361

L’interprétation du score au SUSUne étude a confronté plusieurs centaines d’utilisateurs à l’échelle du SUS et à l’appréciationgénérale d’un système (Bangor, Kortum & Miller, 2008). Cela a permis d’établir une inter-prétation fiable du score au SUS. Ainsi, par exemple, un système est jugé mauvais pour unscore d’environ 39/100, bon pour un score de 73, excellent à partir de 86 (figure 23-5).

Dans son guide SUS, Jeff Sauro (www.measuringu.com/products/SUSpack) (2011) a établi que lescore moyen du SUS est de 68/100. Ce score de référence peut vous aider à situer votre sys-tème.

Exploitation des résultatsLes scores obtenus à une échelle de mesure de l’utilisabilité sont présentés de manière la plusgraphique possible. Puisque les données sont quantitatives, n’hésitez pas à insérer dans voslivrables des diagrammes, des histogrammes ou des courbes.

Exemple de calcul du score au SUS

Pour l’évaluation d’un système, le SUS a été soumis à un utilisateur. La figure 23-4 reprend les scoresbruts et recalculés. Le score total obtenu est de 25/100.

Figure 23–4 Exemple de calcul du score au SUS

SUS (System Usability Scale) Score brut coché parl’utilisateur

Scorerecalculé

1. Je pense que j’aimerais utiliser ce système fréquemment. 2-1=12. J’ai trouvé ce système inutilement complexe. 5-5=03. J’ai trouvé ce système facile à utiliser. 3-1=24. Je pense que j’aurais besoin d’un support technique pour être capable d’utiliser ce système. 5-4=1

1-1=06. J’ai trouvé qu’il y avait trop d’incohérence dans ce système. 5-4=17. Je suppose que la plupart des gens apprendraient très rapidement à utiliser ce système. 2-1=18. J’ai trouvé ce système très contraignant à utiliser. 5-5=0

3-1=210. J’ai dû apprendre beaucoup de choses avant de me sentir familiarisé(e) avec ce système. 5-3=2

Somme = 10Score total : 10 × 2,5 = 25 / 100

Figure 23–5Échelle d’interprétation du score total au SUS (adaptée de Bangor et al., 2008)

Page 12: Échelles d’utilisabilité - UNIGE

ÉvaluationPARTIE E

362

Les échelles plus longues, comme le DEEP, recueillent des données plus fines sur les pro-blèmes d’utilisabilité rencontrés par les utilisateurs. Si les raisons de ces problèmes ne sont pasexpliquées par les réponses à l’échelle, il est néanmoins possible d’en connaître la nature. Parexemple avec le DEEP, de faibles scores à la catégorie Guidage visuel sont un bon indicateurque les utilisateurs ont du mal à s’orienter dans le site. En revanche, ces scores n’indiquent pasquels éléments du système posent le plus problème ni pourquoi les utilisateurs se sentent malguidés. Pour identifier les raisons des problèmes d’utilisabilité, d’autres méthodes complé-mentaires, comme les tests utilisateurs (fiche 30), sont nécessaires.

Exemple de représentation des scores pour le DEEP

Il est parfois utile de donner une représentation graphique des scores d’un test d’utilisabilité. Non seule-ment les représentations restituent en un coup d’œil les scores des items ou des catégories, mais ellesfacilitent aussi la comparaison entre plusieurs évaluations (figure 23-6).

Figure 23–6Exemple de représentation graphique en radar des scores du DEEP par catégorie, pour trois versions d’un système

TRUCS ET ASTUCES

• N’hésitez pas à tester une autre échelle que celles auxquelles vous êtes habitué ! Elles fonctionnenttoutes sur le même principe et leur traitement statistique reste simple pour une utilisation courante.Cela peut vous aider à découvrir de nouvelles facettes des systèmes que vous testez.

• Si vous utilisez une échelle anglophone que vous traduisez vous-même, suivez un processus de traduc-tion rigoureux pour préserver les qualités psychométriques de votre échelle (Vallerand, 1989).

• Si vous souhaitez évaluer l’expérience utilisateur globale, et pas uniquement les aspects liés à l’utilisa-bilité du système, choisissez une échelle standardisée d’évaluation UX (fiche 24).

Page 13: Échelles d’utilisabilité - UNIGE

23 – Échelles d’utilisabilité 363

Exemple d’applicationDans le cadre d’un projet de recherche, trois versions successives de l’appli BuildIT destinéeaux métiers de la construction ont été développées (figure 23-7).

Chacune des versions a fait l’objet de tests utilisateurs auprès de quinze participants, quidevaient réaliser sept scénarios d’usage avec l’application. À la fin du test, les participantsétaient invités à donner leur opinion vis-à-vis de l’utilisabilité du système à l’aide du ques-tionnaire SUS. Les résultats ont permis de déterminer quelle version du système avait étéperçue comme la plus facile d’utilisation (tableau 23-3).

Comme le montrent les résultats, la première version de l’appli est évaluée comme bien moinsutilisable en moyenne que les deux versions subséquentes. Ce n’est pas surprenant puisque laversion 1 est la première itération du processus. C’est la version 2 de l’appli qui a obtenu lescore au SUS le plus élevé et qui a donc été perçue comme ayant la meilleure utilisabilité. Sonscore de 88,9/100 traduit une évaluation « excellente ». Une analyse détaillée item par itemmontre que les utilisateurs semblent préférer cette version car elle est plus cohérente que lesautres. Bien que la version 3 ait subi une itération de plus (et devrait donc être meilleure), lesitems révèlent qu’elle est perçue comme plus contraignante et plus difficile à maîtriser que laprécédente. C’est donc bel et bien la version 2 qui a été retenue pour ce projet.

Figure 23–7Exemple d’un même écran pour trois versions successives de l’appli BuildIT

Tableau 23–3 Scores au SUS pour chaque version de l’appli BuildIT

Version de BuildIT Moyenne au SUS Écart-type

Version 1 78,4 12,5

Version 2 88,9 9,5

Version 3 85,5 11,2

Page 14: Échelles d’utilisabilité - UNIGE

ÉvaluationPARTIE E

364

Exercice pratiqueL’évaluation de l’utilisabilité s’applique à tout type de système ou de produit : de l’interfaced’un site web à celle de votre micro-ondes en passant par la signalétique des lieux publics.Choisissez un système (un peu) au hasard : appli mobile, site web ou logiciel, par exemple lesite web de la ville de Paris.• Demandez à 15 utilisateurs de réaliser quelques scénarios d’usage : trouver les informa-

tions relatives aux chantiers sur voirie dans le 1er arrondissement, consulter votre éligibilitéà l’aide au logement, ou trouver les bibliothèques de prêt du 10e arrondissement.

• Demandez-leur ensuite de remplir en ligne trois questionnaires de mesure de l’utilisabilitéperçue, afin que vous puissiez comparer leurs scores globaux : le SUS, le DEEP et leSUMI (version française officielle disponible à l’adresse http://sumi.ucc.ie/fr).

• Analysez vos données et représentez-les sous forme graphique.• Comparez les scores et observez si l’une de ces échelles vous apporte plus d’informations

que les autres sur ce que vous pourriez améliorer sur le site de la ville de Paris.

BibliographieAladwani, A.M., & Palvia, P.C. (2002). Developing and validating an instrument for measu-ring user-perceived web quality. Information and Management, 39(6), 467–476.

Bangor, A., Kortum, P.T., & Miller, J.T. (2008). An Empirical Evaluation of the SystemUsability Scale. International Journal of Human-Computer Interaction, 24(6), 574–594.

Bolchini, D., & Garzotto, F. (2008). Quality and Potential for Adoption of Usability Evalua-tion Methods: An Empirical Study on MiLE+. Journal of Web Engineering, 7(4), 299–317.

Brooke. (1996). SUS: A "quick and dirty" usability scale. In P.W. Jordan, B. Thomas,B.A. Weerdmeester & I. McClelland (Eds.), Usability evaluation in industry (pp. 189–194).London: Taylor & Francis.

Brooke, J. (2013). SUS: A Retrospective. Journal of Usability Studies, 8(2), 29–40.

Chin, J.P., Diehl, V., & Norman, L.K. (1988). Development of an instrument measuringuser satisfaction of the human-computer interface. Proc. of CHI 1988, 213–218.

Doll, W.J., & Torkzadeh, G. (1988). The measurement of end-user computing satisfaction.MIS Quarterly, 12(2), 259–274.

QUESTIONS SUR LA FICHE

1. Qu’est-ce que la validité et la fidélité d’une échelle ? Pourquoi ces critères sont-ils importants ?2. Quels critères prendre en compte pour choisir une échelle d’utilisabilité adaptée à son projet ?3. L’échelle DEEP est-elle adaptée à l’évaluation d’un système expert ? Pourquoi ?4. Quels sont les principaux avantages des échelles d’utilisabilité ?

Page 15: Échelles d’utilisabilité - UNIGE

23 – Échelles d’utilisabilité 365

Finstad, K. (2010). The Usability Metric for User Experience. Interacting with Computers,22(5), 323–327.

Hart, S.G., & Staveland, L.E. (1988). Development of NASA-TLX (Task Load Index):Results of empirical and theoretical research. Human Mental Workload, 1, 139–183.

Hornbæk, K. (2006). Current practice in measuring usability: Challenges to usability studiesand research. International Journal of Human-Computer Studies, 64(2), 79–102.

International Organization for Standardization. (1998). ISO 9241-11:1998, Ergonomicrequirements for office work with visual display terminals (VDTs) -- Part 11: Guidance onusability. Geneva, Switzerland: International Organization for Standardization.

ISO 16 982. (2002). Méthodes d’utilisabilité pour la conception centrée sur l’opérateur humain.

Kirakowski, J., & Corbett, M. (1993). SUMI: the software usability measurement inventory.British Journal of Educational Technology, 24(3), 210–212.

Lewis, J. (1995). IBM Computer usability satisfaction questionnaires: psychometric evaluationand instructions for use. International Journal of Human-Computer Interaction, 7(1), 57–78.

Lewis, J. (2002). Psychometric Evaluation of the PSSUQ Using Data from Five Years ofUsability Studies. International Journal of Human-Computer Interaction, 14(3), 463–488.

Lewis, J., Utesch, B., & Maher, D. (2013). UMUX-LITE: when there’s no time for theSUS. Proc. of CHI 2013, 2099–2102.

Lin, H., Choong, Y.-Y., & Salvendy, G. (1997). A proposed index of usability: A method forcomparing the relative usability of different software systems. Behaviour & Information Tech-nology, 16(4), 267–277.

Martin, C., Hourlier, S., & Cegarra, J. (2013). La charge mentale de travail : un concept quireste indispensable, l’exemple de l’aéronautique. Le Travail Humain, 76(4), 285.

Root, R.W., & Draper, S. (1983). Questionnaires as a Software Evaluation Tool. Proc. ofCH1’83, 83–87.

Sauro, J. (2015). SUPR-Q: A Comprehensive Measure of the Quality of the Website UserExperience. Journal of Usability Studies, 10(2), 68–86.

Sauro, J., & Lewis, J.R. (2012). Quantifying the User Experience. Elsevier.

Tullis, T.S., & Stetson, J.N. (2004). A Comparison of Questionnaires for Assessing WebsiteUsability. Proc. of Usability Professional Association Conference.

Vallerand, R.J. (1989). Vers une méthodologie de validation trans-culturelle de question-naires psychologiques : Implications pour la recherche en langue française. Psychologie Cana-dienne, 30(4), 662–680.

Wang, J., & Senecal, S. (2007). Measuring Perceived Website Usability. Journal of InternetCommerce, 6(4), 97–112.

Yang, T., Linder, J., & Bolchini, D. (2012). DEEP : Design-oriented evaluation of perceivedusability. International Journal of Human Resource Management, 28(5), 308–346.

Zijlstra, F. (1993). Efficiency in work behaviour: a design approach for modern tools.