utilité, utilisabilité, acceptabilité : l'évaluation...

50
Utilité, utilisabilité, acceptabilité : l'évaluation ergonomique appliquée aux EIAL André Tricot IUFM de Midi Pyrénées & Laboratoire CLLE Cognition Langage Langues & Ergonomie UMR 5263 CNRS, EPHE & Université Toulouse 2 [email protected]

Upload: tranquynh

Post on 12-Sep-2018

222 views

Category:

Documents


0 download

TRANSCRIPT

Utilité, utilisabilité, acceptabilité : l'évaluation

ergonomique appliquée aux EIAL

André TricotIUFM de Midi Pyrénées & Laboratoire CLLECognition Langage Langues & Ergonomie

UMR 5263 CNRS, EPHE & Université Toulouse [email protected]

Le problème

• Je développe un outil (un EIAL) ou j’ai envie d’équiper mon école d’un outil

– comment savoir s’il va permettre aux usagers de faire (d’apprendre) ce que j’ai envie qu’ils fassent ?

– est-ce qu’il va permettre de faire mieux que l’outil existant ?

– si problème, comment améliorer l’outil ?

1er exemple : le WAP

• Le marché en 1998-99• L’évaluation en 1999-2000 (NNgroup)

– Sentiment d’insatisfaction– Besoin de réapprendre à utiliser– Perte de temps– Ça plante trop souvent (connexion) – Information trop pauvre

L’évaluation ergonomique

• Évaluer l'utilisation et la pertinence d'un artefact dans une situation

• Dans le but d'améliorer celui-ci (l'artefact) ou celle-là (la situation)

• Les dimensions d'utilité, d'utilisabilité, d’acceptabilité

Quand évalue-t-on ?

• L’évaluation en cours de conception – Évaluation comme élément du processus de

conception– L’exemple de l’évaluation de Landauer & Nielsen

(1994) : évaluer trois fois au cours de la conception avec un échantillon de 5 utilisateurs

• L’évaluation en fin de conception– Évaluation de validation, béta-tests, …

• L’évaluation a posteriori– Évaluation des usages effectifs, non-prévus,

préparation d’un nouveau projet, …

Comment évalue-t-on ?

• L’évaluation par inspection : réalisée par un « expert » qui applique des critères– repérer rapidement des erreurs grossières – diagnostiquer « pourquoi » ça ne va pas

• L’évaluation empirique : interpréter les performances, attitudes, opinions, des usagers – voir moins rapidement l’ensemble des erreurs– diagnostiquer sans nécessairement expliquer

2ème exemple

• Exerciseur en électricité en 1ère année d’IUT

Exerciseur en électricité en 1ère année d’IUT

• Apport notionnel en 15 minutes• Pré-test de connaissances (en 5 minutes)• Série d’exercices avec leur solution• Post-test de connaissances (idem: 2 versions

différentes du même test sont réalisées)• Les étudiants (300) travaillent systématiquement en

binôme• Répartition équilibrée de chacune des quatre

versions sur chacune des trois séances.• Les enseignants notent le nombre et la nature de

leurs interventions

Les versions

• Version A : version papier originale : exos + solutions en dernière page

• Version B : cahier de TP papier correspondant à une impression de l’ensemble des diapositives PowerPoint de la version C + solutions en dernière page

• Version C : diaporama PowerPoint où un exercice par diapositive est donné. Ces exercices sont précédés d’un rappel des lois + solutions au tableau.

• Version D : intégration d’aides à la compréhension de l’énoncé et de la solution dans l’exercice

Les tests

• Deux types d’exercices :

• D’application du cours : mise en œuvre de connaissances littérales

• Application directe des concepts et procédures étudiés sur des exercices similaires.

• Notés sur 5 points.

• D’utilisation du cours : mise en œuvre de connaissances plus conceptuelles

• Utilisation des concepts et procédures étudiés sur des exercices nouveaux.

• Notés sur 5 points.

Versions x Exercices et Gain…

25

20

GA

IN (%

)

15

Gain « littérales »

Gain « conceptuelles »

10

5

0A B C D

VERSIONS

Les interventions des enseignants.

NOMBRE TOTAL D'INTERVENTION DES PROFESSEURS DURANT LA SEANCE TD

0

2

4

6

8

10

12

14

16

18

A B C D

VERSIONS

Conclusion

• Il y a apprentissage (à court terme)• Les étudiants ne posent plus de

questions aux enseignants : ils sont autonomes

Donc…

• Réplication de l’expérience en situation d’autonomie…– Préparer le TD à la maison ou en salles

libres-accès

3ème exemple

• Site d’autoformation en maintenance véhicule automobile

Site d’autoformation en maintenance véhicule automobile

• Grand nombre de personnels répartis dans le monde entier (environ 75 000)

• Accroissement de la vitesse de l'innovation -> plus de mise à jour des connaissances,

• Mise en place des formations sur un site Web, pré-requis aux formations délivrées en présentiel.

• Mais, le centre de formation constate une sous-utilisation du site par les techniciens en France.

Méthode

• Evaluation par inspection et empirique de type expérimentale

• + Enquête par questionnaire menée auprès de ceux prescrivent la formation (400 conseillers)– utilité – utilisabilité– variables « tous azimuts » (sociales, personnelles,

techniques, scolaires, organisationnelles, etc.)

Résultats

• L'engagement en formation est influencé par – la taille du garage, – son organisation, – le matériel disponible

• Mais aussi par – le niveau de diplôme du conseiller – sa familiarité avec l'informatique– sentiment de reconnaissance, – croyance en l'utilisabilité et l'utilité de l'outil– motivation intrinsèque.

Donc, les trois grandes familles de variables pour

l’évaluation ergonomique…

L’utilité

• Conformité à la finalité du dispositif : est-ce que l’on fait réellement apprendre ce que l’on veut faire apprendre ?– Problème à résoudre à la fin– Pré-test -> post test– …– …

L’utilisabilité

• Possibilité de manipuler, de mettre en œuvre le dispositif : est-ce que le dispositif est aisément manipulable par les apprenants ?– Peu d’erreurs de manipulation– Prise en main rapide– Pas besoin de réapprendre à utiliser– Sentiment de satisfaction– Pas de perte de temps

Tests utilisateurs• Une des étapes les plus importantes du cycle de

développement.• Seule technique permettant d’identifier les difficultés réelles.• Le test utilisateur se déroule dans un environnement spécifique,

plus ou moins contrôlé et plus ou moins outillé.• Différents types (ex., exploratoires, d’évaluation, de validation,

de comparaison).• Mise en place :

– développer le plan du test, – prévoir la sélection des participants, – préparer le matériel de test, – conduire le test (c’est-à-dire préciser les procédures à mettre en

place)– présenter les résultats de ce dernier.

Tests utilisateurs• L’environnement de test

– Les tests utilisateurs se déroulent généralement en « laboratoire », bien que les tests puissent aussi se dérouler sur le terrain.

• Plusieurs configurations physiques sont possibles, chaque configuration ayant ses avantages et ses inconvénients : – salle unique,– salle double, avec ou sans salle d’observation,– laboratoire mobile.

• Équipements– caméras vidéo, moniteurs, caméscopes, microphones, etc.– logiciels spécialisés pour coder les enregistrements vidéo.

Tests utilisateurs

Tests utilisateurs

Tests utilisateurs

L’acceptabilité

• Possibilité d’accéder et de prendre la décision d’utiliser le dispositif, d’être motivé pour utiliser celui-ci, de persister à l’utiliser même si des difficultés se présentent

• Est-ce que le dispositif est compatible avec les pratiques, les ressources, les contraintes, les objectifs des usagers potentiels et de leur situation de travail ?

Degré d’acceptabilité

• Possibilité d’accéder à• Prise de décision d’utiliser• Prise de décision de s’engager dans

une activité de qualité• Persistance en cas de difficultés,

d’obstacles

Évaluer l’acceptabilité

Critères de compatibilité organisationnelle – Temps : les usagers potentiels disposent-ils du

temps nécessaire à la réalisation de la tâche ?– Espace : les usagers potentiels disposent-ils de

l’espace nécessaire à la réalisation de la tâche ? (salle réservée, calme, etc.)

– Matériel : les usagers potentiels disposent-ils du matériel nécessaire à la réalisation de la tâche ? (ordinateur qui fonctionne, etc.)

Évaluer l’acceptabilité

Critères de compatibilité sociale et culturelle– L’outil est-il compatible avec les représentations,

les valeurs, les intérêts, les besoins réels, des usagers potentiels ?

– Et ceux de leur employeur, ou de l’institution qui achète l’outil ?

– Conflits d’intérêts : la tâche envisagée est-elle concurrente du rendement, du travail, etc. ? Est-elle reconnue comme pertinente ?

Évaluer l’acceptabilité

Critères de compatibilité personnelle– Les usagers potentiels ont-ils des motifs

sérieux de s’engager sérieusement dans cette tâche ?

– Les usagers potentiels ont-ils des motifs sérieux persister dans la réalisation de la tâche s’ils sont découragés, s’ils rencontrent des difficultés?

Les relations entre les trois dimensions de l’évaluation

Les relations standards entre les dimensions : Nielsen

Etc.

Acceptabilité du système

Acceptabilité sociale

Acceptabilité pratique

Utilité pratique

Compatibilité

Coût

Fiabilité

Utilité théorique

Utilisabilité

Facilité à apprendre

Efficience

Mémorisation

Prévention des erreurs

Sentiment de satisfaction

Relations entre les trois dimensions (Dillon & Morris, 1996)

Utilité

Utilisabilité

Perception Intention d'usage (acceptabilité) Usage

Conclusion

• Il faudrait pouvoir interpréter les relations entre ces trois dimensions

Un exemple en EIAL

Evalution de l’utilité des baladeurs MP3 en classe d’allemand LV1

Question

• L’écoute individuelle (autorégulée) avec est-elle plus efficace que l’écoute collective (non régulée) dans une tâche de compréhension ?

• Pour tous les élèves ?

(avec Stéphanie Roussel, Jean-Luc Nespoulous, Angelika Rieussec)

Hypothèse générale

Bonnes (appropriées,

nécessaires) connaissances

antérieures en L2

Stratégies d’écoute efficaces

Bonne compréhension

auditive

Conditions d’écoute (Exp. 1, 2, 3)& Caractéristiques linguistiques (Exp. 4 )

facilitent

facilitent

permettent ou non

facilitent

Traitement des données vidéo

• Événement 1 : l’individu écoute un texte de 251’ du début jusqu’à la fin– E1 = {0 ; 251 ; 251}

• Événement 2 : l’individu revient au début et écoute 6’ du texte– E2 = {0 ; 6 ; 6}

• Événement 3 : l’individu fait une pause de 17’– E3 = {6 ; 6 ; 17}

• Événement 4 : l’individu revient au début et fait une pause de 1’– E4 = {6 ; 0 ; 1}

Analyse propositionnelle des rappels des élèves (Kintsch et Van dijk, 1978)

30 (oiseaux migrateurs, 29)31 (venir d’autres pays, 30)32 (s'arrêter Allemagne, 30)33 (cause)34 (poulets, volailles, 35)35 (contaminer, passif, négatif, 34)36 (contamination, contact, 34, 35)

Apprenant : « (…) le virus est apporté (29) par des oiseaux migrateurs (30) et qu’il faut être en contact avec des oiseaux pour l’attraper (36). »

24 (ministre) 25 (ministre, agriculture)26 (se rendre, 25, 1, 2, 3)27 (cause, macro-proposition)28 (s'informer)

Apprenant : « (…) une personne va (26) sur cette île pour (27) essayer de comprendre (28) ».

Sur l’île de Rügen, dans la mer baltique, on a trouvé ces derniers jours de plus en plus d’oiseaux morts, les pompiers ont rassembléplusieurs centaines d’oiseaux, de cygnes, d’oies…

1 (Lieu : île)2 (lieu : Rügen, 1)3 (Lieu : mer baltique, 1, 2) 3 (temps : ces derniers jours)4 (On, trouver, 1, 2,3)6 (oiseaux)7 (de plus en plus de 6)8 (morts, 6) 9 (Pompier)10 (Pompier, rassembler)11 (plusieurs centaines 6) 12 (cygnes, sorte de 6)13 (oies)

Méthode• On neutralise les variables utilisabilité et acceptabilité• 30 élèves de seconde LV1 / Rappel en français du contenu du document sonore « dites

tout ce que vous avez compris de ce texte » / analyse propositionnelle / analyse des vidéos par repérage des time codes

Document 1 / 121 propositions / 681 mots

Document 2 / 91 propositions / 481 mots

Document 363 propositions / 445

mots

Groupe A Imposée 1 fois Autorégulée Imposée 2 fois

Groupe B Imposée 2 fois Imposée 1 fois Autorégulée

Groupe C Autorégulée Imposée 2 fois Imposée 1 fois

Groupe 1 Écoute deux fois

Groupe 2 Écoute en écoute autorégulée

Tous les élèves écoutent le même texte en écoute autoréguléeLe niveau initial des élèves est contrôlé : A Bon niveauB Niveau intermédiaireC Niveau faible

Résultats

-1,5

-1

-0,5

0

0,5

1

Groupe AGroupe BGroupe C

0

5

10

15

20

25

0

10

20

30

40

50

60

1 fois 2 fois autorégulée 2 fois autorégulée

Groupe A Groupe B Groupe C

Typologies des stratégies d’écoute pour les trois expérimentations

0

50

100

150

200

250

300

0 200 400 600 800 1000 1200

Type 2 : (m=27% ; E=16)

0

50

100

150

200

250

300

0 200 400 600 800 1000

Type 1 : (m=33% ; E=22)

Type 3 : (m=25% ; E=16)

020406080

100

120140160180200

0 50 100 150 200 250 300 350 400

Type 4 : (m=18% ; E=22)

0

20

40

60

80

100

120

140

0 100 200 300 400 500 600

Expérimentation 4 : Hypothèse

Connaissances antérieures en L2

Stratégies d’écoute

Compréhension auditive

Difficultés linguistiquesStatut des mots composés

Méthode• Matériel :

– 1er discours : les mots composés ont un statut non-saillant• Hypothèse : les apprenants mettront en œuvre des stratégies de type 1

– 2ième discours : les mots composés ont un statut saillant• Hypothèse : les apprenants mettront en œuvre des stratégies de type 2

• Carnet pour l’ évaluation de la compréhension et la mémorisation(littérale) (Kintsch, Welsh, Schmalhofer, Zimny, 1990)

– Rappel en français du contenu du document sonore (Analyse propositionnelle et du modèle de situation)

– Questions ciblées sur les mots composés choisis – Reconnaissance

• Participants :: 40 40 apprenants de seconde LV1 et première LV2• Protocole expérimental : Deux groupes de même niveau, chaque

groupe écoute les deux discours en écoute autorégulée• Analyse des données : fichiers vidéo de l’écoute des élèves / analyse

par repérages des time codes

Résultats

0

5

10

15

20

25

30

mots non-saillants

mots saillants

Rappel Modèle de situation

Mots cibles Questions Reconnaissance

Analyse a posteriori

• Pas d’effet direct des stratégies utilisées – Analyse en clusters – Résultat : il faut croiser les stratégies et le niveau

initial pour expliquer la performance• Corrélation entre nombre d’événements et

compréhension– Discours 1 : plus il y a d’événements, et moins le

rappel est bon (r = -0,36), moins le modèle de situation est bon (r = -0,21)

– Discours 2 : plus il y a d’événements, et plus le rappel est bon (r = 0,28) => pas de corrélation avec le modèle de situation (r = 0,06)

Exemples de parcours d’écoute

D1 : Jean stratégie minutieuse, s’arrête sur les mots cibles, Marion stratégie adaptée ne s’arrête pas, très bon score en compréhension

D2 : Justine stratégie adaptée, s’arrête sur les mots cibles. Aurélien, inadapté, ne s’arrête pas, score faible en compréhension

Conclusion• Autorégulation permet d’améliorer la compréhension, mais le niveau initial

garde un rôle fort (Expérimentation 1, 2, 3)

• 4 grands types de stratégies :

o Type 1 : planification efficace de la tâche d’écoute (niveau initial élevé)

o Type 2 : réécoute dans la globalité après une écoute analytique

o Type 3 : très bons ou très faibles, pas de mouvement d’autorégulation

o Type 4 : très analytique mais correspond manifestement à une absence de planification, signe de saturation de la mémoire de travail

• Statut de difficultés lexicales en L2 Saturation de la mémoire de travail Nécessité d’une stratégie adaptée (Expérimentation 4)

• Structure, nature et longueur du discours jouent un rôle dans l’utilisation des stratégies (pauses ou retours en arrière peuvent témoigner d’unereconnaissance de la structure)

Implications didactiques

• L’écoute individuelle est utile, mais pas pour tous les élèves

• Problèmes possibles d’utilisabilité et d’acceptabilité• Nécessité d’enseigner l’écoute et/ou d’aider les

apprenants à réduire le coût cognitif lié à l’autorégulation ?– En leur enseignant une stratégie adaptée– En fournissant un guidage aux plus faibles– En les faisant réfléchir sur leur stratégies d’écoute (MALQ,

Vandergrift, Goh, Mareschal, Tafaghodatari , 2006)