datashop & tatiana: expériences communes de deux outils de partage de données et danalyses...
TRANSCRIPT
DataShop & Tatiana:expériences communes de deux outils de partage de
données et d’analyses
Gregory Dyke, John Stamper, Carolyn RoséCarnegie Mellon University / PSLC
Plan
1. PSLC DataShop
2. Tatiana
3. Quelles similarités? Quelles leçons en tirer?
PSLC DataShop
Domain Files Papers DatasetsStudent Actions
StudentsStudent Hours
Language 51 10 63 3,099,149 4,768 4,788
Math 140 45 103 36,994,755 19,097 109,513
Science 90 19 50 6,274,897 8,036 22,699
Other 13 12 29 4,840,743 8,087 18,053
Total 294 86 245 51,209,544 39,988 155,054
Utilisation
Concepts• Problem
– Composé de Step
• Step– Partie différentiable et évaluable d’un problème
• Transaction– 1 étudiant + 1 step– Indice / autre
• KC (knowledge component)– Compétence ou connaisance
• Knowledge Model– Mapping entre step et KC
Outils
• Manipulation de corpus– Import/Export– Selection de sous-corpus
• Analyses– Courbes d’apprentissage– Rapport d’erreurs– Profil de performances
Courbe d’apprentissage
Rapport d’erreurs
Profil de performance
Actualité / avenir
• Services web• Autres types de données• Intégration d’informations
supplémentaires• Compétitions (e.g. SIGKDD)
• http://pslcdatashop.org
Tatiana
Concepts
• Environnement de manipulation de rejouables – séquence d’évènements (« lignes »)– chaque événement a des facettes (« colonnes »)– Date, UID
• Operations (= points d’extension/API)– Visualisation (application d’une feuille de style)– Transformation (créer nouveaux rejouables)– Synchronisation (coordination de visualisations)– Enrichissement (ajout de colonnes ou de relations
sur rejouables existants)
Utilisation
• Lyon, Paris, Denmark, Netherlands, England, Hong-Kong, USA, Corée
• Médiatisé par ordinateur, face à face, les deux• Blogs, forums, chat, text editing, graphs, video, etc.• Co-conception, argumentation, prise de notes, FLE,
biologie, chimie, rédaction• Workshops Multivocality @ CSCL/Alpine RDV/ICLS
• Extensible et disponible:– http://code.google.com/p/tatiana
Conclusions communes?
Pourquoi partager?
• Répondre à nos propres besoins d’analyse– Partage entre chercheurs– Analyse collaborative
• Mise à disposition de données existantes– Quantité et puissance statistique– Coût de collecte– Educational data mining– Analyses à la croisée d’épistémologies
Que partager ?
Données qui rentrent dans un certain moule:• DataShop
– ITS = juste/faux, annoté KC (facultatif)– Petit grain, longue durée– Analyses « typiques » de ces données
• Tatiana– Processus interactifs (particulièrement CSCL)– Coordination de représentations et d’annotations– Données peu structurées faisant sens pour le
chercheur– Analyse manuelle/assistée
Comment partager ?• Données + contexte pour réutilisation• DataShop
– Depôt de données– Application web
• Tatiana– Logiciel standalone (import+export corpus)
• Accepter des pré-réquis de base– Transactions, steps, KC, etc.– Rejouables, tranformations, visualisations, etc.
• Proposition d’outils exploitant ces préréquis
Facteurs de réussite ?
• Facilité d’import/export– Avec minima pré-réquis– En gardant données supplémentaires
• Être l’utilisateur primaire• Fournir les fonctionnalités équivalentes aux outils ad-hoc
existants• Fournir des fonctionnalités supplémentaires « gratuites »• Donner le moyen d’exploiter ce qui va « au-delà » du
minima• Plateforme avec données mises à disposition• Evènements et workshops• Financements adéquats (et pérennes)