un logiciel open source pour l’enseignement et la...
TRANSCRIPT
![Page 1: Un logiciel open source pour l’enseignement et la …eric.univ-lyon2.fr/~ricco/tanagra/fichiers/slides_tanagra.pdf · PLAN 1. Objectifs du projet 2. Le logiciel TANAGRA 3. Distribution](https://reader036.vdocuments.net/reader036/viewer/2022081505/5b9cf8f209d3f253158b573f/html5/thumbnails/1.jpg)
1 sur 23
Un logiciel open sourcepour l’enseignement et la recherche
Ricco RAKOTOMALALALaboratoire ERICUniversité Lumière Lyon 2
http://chirouble.univ-lyon2.fr/~ricco/tanagra/
![Page 2: Un logiciel open source pour l’enseignement et la …eric.univ-lyon2.fr/~ricco/tanagra/fichiers/slides_tanagra.pdf · PLAN 1. Objectifs du projet 2. Le logiciel TANAGRA 3. Distribution](https://reader036.vdocuments.net/reader036/viewer/2022081505/5b9cf8f209d3f253158b573f/html5/thumbnails/2.jpg)
2 sur 23
PLAN
1. Objectifs du projet
2. Le logiciel TANAGRA
3. Distribution et droits
4. Participer au développement
5. Utiliser le logiciel TANAGRA
6. Conclusions et perspectives
![Page 3: Un logiciel open source pour l’enseignement et la …eric.univ-lyon2.fr/~ricco/tanagra/fichiers/slides_tanagra.pdf · PLAN 1. Objectifs du projet 2. Le logiciel TANAGRA 3. Distribution](https://reader036.vdocuments.net/reader036/viewer/2022081505/5b9cf8f209d3f253158b573f/html5/thumbnails/3.jpg)
3 sur 23
![Page 4: Un logiciel open source pour l’enseignement et la …eric.univ-lyon2.fr/~ricco/tanagra/fichiers/slides_tanagra.pdf · PLAN 1. Objectifs du projet 2. Le logiciel TANAGRA 3. Distribution](https://reader036.vdocuments.net/reader036/viewer/2022081505/5b9cf8f209d3f253158b573f/html5/thumbnails/4.jpg)
4 sur 23
Objectifs
Les logiciels de DATA MINING
Le vrai filon de l’ECD : les logiciels de Data MiningEssayer une recherche « ’data mining software’ sur Google » : # 40,000 références
Sur la page « http://www.kdnuggets.com/software/suites.html » : 7 / 8 commerciaux
L’opposition « commercial » - « recherche »Interface graphique et fonctionnalités utilisatrices
Mode console et code source libre, installation folklorique
Véhiculer le dynamisme du laboSIPINA – 695 références sur Goggle
#4 e-mails par semaine à propos de SIPINA
Articles et études en coopération avec d’autres chercheurs
![Page 5: Un logiciel open source pour l’enseignement et la …eric.univ-lyon2.fr/~ricco/tanagra/fichiers/slides_tanagra.pdf · PLAN 1. Objectifs du projet 2. Le logiciel TANAGRA 3. Distribution](https://reader036.vdocuments.net/reader036/viewer/2022081505/5b9cf8f209d3f253158b573f/html5/thumbnails/5.jpg)
5 sur 23
Spécifications du logiciel TANAGRAA qui s’adresse TANAGRA ?
Objectifs
Un logiciel pour l’enseignement : le profil « chargé d’études »Les cours, explication des méthodes, outil pédagogique
Les études « réelles » - les « dossiers » - les chercheurs des autres domaines
(cf. tutoriaux études de cas)
Une plate-forme pour la recherche : le chercheur en DATA MININGPlate-forme d’expérimentation – Tester des méthodes et comparer les résultats
Modularité et accès au code – Programmer ses propres méthodes
(cf. tutoriaux évaluation des méthodes)
Un outil pédagogique pour l’apprentissage de la programmation Spécifications et conception de ce type de logiciel - Apprendre par l’exemple
Connaître les outils et les bibliothèques types
(cf. page web outils et bibliothèques)
![Page 6: Un logiciel open source pour l’enseignement et la …eric.univ-lyon2.fr/~ricco/tanagra/fichiers/slides_tanagra.pdf · PLAN 1. Objectifs du projet 2. Le logiciel TANAGRA 3. Distribution](https://reader036.vdocuments.net/reader036/viewer/2022081505/5b9cf8f209d3f253158b573f/html5/thumbnails/6.jpg)
6 sur 23
« Open Source » ?
Objectifs
Valider le code = valider les publicationsComparer les résultats
Lecture du code par d’autres chercheurs (ex. du text mining par SD)
Reproduire « exactement » les expérimentations (ex. tirage aléatoire)
Comparer les implémentationsComparer les interprétations d’un même problème (ex. Bayesien naïf, boosting)
Optimiser le code avec différentes versions
Outil ouvert = Outil vivantIntroduire ses propres algorithmes
Discuter sur la base de prototypes et d’évolutions
Monter et partager des bibliothèques types (ex. générateur de nombres aléatoires,
fonctions de répartitions, pourquoi pas des bibliothèques de DATA MINING ?…)
![Page 7: Un logiciel open source pour l’enseignement et la …eric.univ-lyon2.fr/~ricco/tanagra/fichiers/slides_tanagra.pdf · PLAN 1. Objectifs du projet 2. Le logiciel TANAGRA 3. Distribution](https://reader036.vdocuments.net/reader036/viewer/2022081505/5b9cf8f209d3f253158b573f/html5/thumbnails/7.jpg)
7 sur 23
![Page 8: Un logiciel open source pour l’enseignement et la …eric.univ-lyon2.fr/~ricco/tanagra/fichiers/slides_tanagra.pdf · PLAN 1. Objectifs du projet 2. Le logiciel TANAGRA 3. Distribution](https://reader036.vdocuments.net/reader036/viewer/2022081505/5b9cf8f209d3f253158b573f/html5/thumbnails/8.jpg)
8 sur 23
Logiciel TANAGRA
Fonctionnalités d’un logiciel de DATA MINING
Accès et préparation des donnéesAccéder à un fichier / une BD
Rassembler des sources différentes
Méthodes de Fouille de donnéesLancer les calculs avec différents algorithmes
Bibliothèque de méthodes
Logiciels commerciaux
Prototypes de recherche
Enchaîner les traitementsFaire coopérer les méthodes sans programmer
Évaluer les connaissancesValidation croisée, etc.
Exploiter les sortiesRapports, visualisation interactive, etc.
Appliquer/exploiter les modèlesModèles en XML, code C, DLL compilées
Prédiction directe sur de nouveaux fichiers
1/5
++/5
4/5
++/5
0/5
2/5
TANAGRA
![Page 9: Un logiciel open source pour l’enseignement et la …eric.univ-lyon2.fr/~ricco/tanagra/fichiers/slides_tanagra.pdf · PLAN 1. Objectifs du projet 2. Le logiciel TANAGRA 3. Distribution](https://reader036.vdocuments.net/reader036/viewer/2022081505/5b9cf8f209d3f253158b573f/html5/thumbnails/9.jpg)
9 sur 23
Logiciel TANAGRA
Mode de fonctionnement
Palette de composants
Chaîne de traitements
Résultats
![Page 10: Un logiciel open source pour l’enseignement et la …eric.univ-lyon2.fr/~ricco/tanagra/fichiers/slides_tanagra.pdf · PLAN 1. Objectifs du projet 2. Le logiciel TANAGRA 3. Distribution](https://reader036.vdocuments.net/reader036/viewer/2022081505/5b9cf8f209d3f253158b573f/html5/thumbnails/10.jpg)
10 sur 23
Logiciel TANAGRA
Accès aux données
Fichier texte (séparateur tabulation)Chargement en mémoire
500.000.000 individus théoriques
250.000 individus max pour les règles d’association – EZDL
500.000.000 variables théoriques
Variables continues codées SINGLE
Variables discrètes codées BYTE (255 modalités max)
Quelques éléments sur les performancesCOVTYPE – 581.102 ind x 55 var (discrètes) : 240 sec
WAVEFORM – 100.000 ind x 22 var (21 continues) : 20 sec
Formats de sauvegarde
Que sauvegarder ?La description du traitement - Pas les résultats
Nécessité de ré-exécuter à la prochaine ouverture
FormatsBinaire : intègre les données � rapidité (covtype = 1,5 sec)
Textuel (fichier INI) : script basique � souplesse
![Page 11: Un logiciel open source pour l’enseignement et la …eric.univ-lyon2.fr/~ricco/tanagra/fichiers/slides_tanagra.pdf · PLAN 1. Objectifs du projet 2. Le logiciel TANAGRA 3. Distribution](https://reader036.vdocuments.net/reader036/viewer/2022081505/5b9cf8f209d3f253158b573f/html5/thumbnails/11.jpg)
11 sur 23
Logiciel TANAGRA
Les méthodes
Les grandes familles aux affairesMéthodes statistiquesVisualisation
Description – Analyses factoriellesApprentissage non-supervisé (structuration)Apprentissage supervisé (prédiction - explication)Évaluation de l’apprentissage superviséRégressionAssociation
L’enchaînementdes méthodes
![Page 12: Un logiciel open source pour l’enseignement et la …eric.univ-lyon2.fr/~ricco/tanagra/fichiers/slides_tanagra.pdf · PLAN 1. Objectifs du projet 2. Le logiciel TANAGRA 3. Distribution](https://reader036.vdocuments.net/reader036/viewer/2022081505/5b9cf8f209d3f253158b573f/html5/thumbnails/12.jpg)
12 sur 23
Logiciel TANAGRA
Les sortiesPrivilégier le format HTMLSortie texte = minimum de codeFormatage HTML reconnu par tous les logicielsÉdition de rapports sans code supplémentaire
![Page 13: Un logiciel open source pour l’enseignement et la …eric.univ-lyon2.fr/~ricco/tanagra/fichiers/slides_tanagra.pdf · PLAN 1. Objectifs du projet 2. Le logiciel TANAGRA 3. Distribution](https://reader036.vdocuments.net/reader036/viewer/2022081505/5b9cf8f209d3f253158b573f/html5/thumbnails/13.jpg)
13 sur 23
![Page 14: Un logiciel open source pour l’enseignement et la …eric.univ-lyon2.fr/~ricco/tanagra/fichiers/slides_tanagra.pdf · PLAN 1. Objectifs du projet 2. Le logiciel TANAGRA 3. Distribution](https://reader036.vdocuments.net/reader036/viewer/2022081505/5b9cf8f209d3f253158b573f/html5/thumbnails/14.jpg)
14 sur 23
Distribution et licence
Qui protéger ?Les utilisateurs : ne pas soustraire un logiciel déjà proposéLes chercheurs : publier à partir d’un code vérifiableLes développeurs : garder la propriété de son développement
Accès au logiciel
Site
http://chirouble.univ-lyon2.fr/~ricco/tanagra/
Qu’est-ce qui est disponible ?Setup
Documentation des méthodes et didacticiels
Code source
Documentation du code source
(cf. le site)
Comment protéger ?Inspiration : GPL et OpenSource.org
Principaux points :
• TANAGRA toujours gratuit – Devoir de citation
• Code toujours accessible librement
• Développeur module = propriétaire module
• Module introduit = Module non soustrayable
(cf. le fichier de licence)
Licence
![Page 15: Un logiciel open source pour l’enseignement et la …eric.univ-lyon2.fr/~ricco/tanagra/fichiers/slides_tanagra.pdf · PLAN 1. Objectifs du projet 2. Le logiciel TANAGRA 3. Distribution](https://reader036.vdocuments.net/reader036/viewer/2022081505/5b9cf8f209d3f253158b573f/html5/thumbnails/15.jpg)
15 sur 23
![Page 16: Un logiciel open source pour l’enseignement et la …eric.univ-lyon2.fr/~ricco/tanagra/fichiers/slides_tanagra.pdf · PLAN 1. Objectifs du projet 2. Le logiciel TANAGRA 3. Distribution](https://reader036.vdocuments.net/reader036/viewer/2022081505/5b9cf8f209d3f253158b573f/html5/thumbnails/16.jpg)
16 sur 23
Développer
Le modèle d’organisation
![Page 17: Un logiciel open source pour l’enseignement et la …eric.univ-lyon2.fr/~ricco/tanagra/fichiers/slides_tanagra.pdf · PLAN 1. Objectifs du projet 2. Le logiciel TANAGRA 3. Distribution](https://reader036.vdocuments.net/reader036/viewer/2022081505/5b9cf8f209d3f253158b573f/html5/thumbnails/17.jpg)
17 sur 23
T M L C o m p o n en t
T M L C o m p L o ca lDa ta
T M L C o m p A s s o cRu le
T M L C o m p C l u ste r i n g
T M L C o m p FactA n a lys is
T M L C o m p FC
T M L C o m p FS
T M L C o m p IS
T M L C o m p M eta S p vL ea r n i n g
T M L C o m p R eg r essi o n
T M L C o m p SD
T M L C o m p Sp vA s s e s
T M L C o m p Sp vL e ar n in g
T M L C o m p Datas e t
Prede c es s o r
S uc c e s s eu r
i
Me taS pv LMLCompS uperv is ed
Familles de composants
Développer
![Page 18: Un logiciel open source pour l’enseignement et la …eric.univ-lyon2.fr/~ricco/tanagra/fichiers/slides_tanagra.pdf · PLAN 1. Objectifs du projet 2. Le logiciel TANAGRA 3. Distribution](https://reader036.vdocuments.net/reader036/viewer/2022081505/5b9cf8f209d3f253158b573f/html5/thumbnails/18.jpg)
18 sur 23
Développer
Ajouter un composant
![Page 19: Un logiciel open source pour l’enseignement et la …eric.univ-lyon2.fr/~ricco/tanagra/fichiers/slides_tanagra.pdf · PLAN 1. Objectifs du projet 2. Le logiciel TANAGRA 3. Distribution](https://reader036.vdocuments.net/reader036/viewer/2022081505/5b9cf8f209d3f253158b573f/html5/thumbnails/19.jpg)
19 sur 23
Développer
Les outils de développement
Points communs ?(1) Gratuits(2) Si possible accès au sources(3) Compatibles KYLIX(cf. le site)
Type d'outil Outil Caractéristiques
Compilateur Borland Delphi 6 passage KYLIX aisé ?
Bibliothèque de calcul ATHANOR Calcul matriciel, optimisation, nombres aléatoires
Bibilothèque de classes EZDSL Table de hachage, tableau de bits
Bibliothèque graphique LMD SE à remplacer par JEDI
Parser XML XML Parser Lecture et v alidation d'un fichier XML
Visionneuse HTML HTML Lite Affichage rapide page WEB (string)
![Page 20: Un logiciel open source pour l’enseignement et la …eric.univ-lyon2.fr/~ricco/tanagra/fichiers/slides_tanagra.pdf · PLAN 1. Objectifs du projet 2. Le logiciel TANAGRA 3. Distribution](https://reader036.vdocuments.net/reader036/viewer/2022081505/5b9cf8f209d3f253158b573f/html5/thumbnails/20.jpg)
20 sur 23
![Page 21: Un logiciel open source pour l’enseignement et la …eric.univ-lyon2.fr/~ricco/tanagra/fichiers/slides_tanagra.pdf · PLAN 1. Objectifs du projet 2. Le logiciel TANAGRA 3. Distribution](https://reader036.vdocuments.net/reader036/viewer/2022081505/5b9cf8f209d3f253158b573f/html5/thumbnails/21.jpg)
21 sur 23
Utiliser TANAGRA
1. Données, régression et sorties HTML (autompg)
2. Comparer deux algorithmes supervisés, K-ppv et ID3 (heart)
3. Un exemple de régularisation pour la LDA (wave)
4. Caractérisation d’un clustering (vote)
5. Performances et capacités de calcul (covtype)
Quelques scénarios d’utilisation
![Page 22: Un logiciel open source pour l’enseignement et la …eric.univ-lyon2.fr/~ricco/tanagra/fichiers/slides_tanagra.pdf · PLAN 1. Objectifs du projet 2. Le logiciel TANAGRA 3. Distribution](https://reader036.vdocuments.net/reader036/viewer/2022081505/5b9cf8f209d3f253158b573f/html5/thumbnails/22.jpg)
22 sur 23
![Page 23: Un logiciel open source pour l’enseignement et la …eric.univ-lyon2.fr/~ricco/tanagra/fichiers/slides_tanagra.pdf · PLAN 1. Objectifs du projet 2. Le logiciel TANAGRA 3. Distribution](https://reader036.vdocuments.net/reader036/viewer/2022081505/5b9cf8f209d3f253158b573f/html5/thumbnails/23.jpg)
23 sur 23
Conclusions
Un support pour les coursNe plus dépendre du bon vouloir des dinosaures
Un outil que l’étudiant peut reprendre en stage et en entreprise
Un outil pour les publications à venirMonter les expérimentations
Discuter des implémentations
Perspectives
Diffuser - documenterObtenir le maximum de retour
Déboguer3-4 mois minimum
Ajouter des fonctionnalités « utilisateurs »Exécution batch
Format XML du fichier de sauvegarde : script
Ajouter / tester des nouvelles méthodesCela dépend de la recherche et des idées