equipe tatoo : extraction de connaissances dans les bases de données : motifs séquentiels et...
DESCRIPTION
Anne Laurent (LIRMM) présente les compétences de l'équipe TATOO en extraction de connaissances dans les bases de données.TRANSCRIPT
Equipe‐projet TATOO Extrac3on de connaissances dans les bases de données : mo3fs séquen3els et ontologies
Responsable : Pascal Poncelet
Extrac'on de connaissances dans de grandes bases de données
PROBLEME Fouille de données
CONNAISSANCE DECISION
Visualisation
EXPERTISE
DONNEES
Représentation
Traitement
Mots clés : extrac'on de connaissances, fouille de données, mo'fs séquen'els, entrepôts de données, logique floue, ontologie, annota'on automa'que
Fouille de données / Extrac'on de Connaissance
Fayyad (1996) : the non-trivial process of identifying valid, potentially useful and ultimately understandable patterns in data
Nombreuses applications : marketing, santé, etc.
Algorithmes supervisés/non supervisés
Algorithmes prédictifs/descriptifs
Problématiques associées : nettoyage des données, présentation des résultats, évaluation des méthodes, …
Thèmes scien'fiques
Motifs séquentiels (Contraintes temporelles)
Fouille de données complexes Textes (Text Mining) Arborescentes (Schema - Web Structure Mining) Multidimensionnelles (Cube - Web Usage Mining) Flots (Stream Mining)
Fouille de données approximative
Exemple : Les mo'fs séquen'els
Recherche de corréla'ons au sein de gros volumes de données historisées
⟨(Lecteur DVD) (Ecran LCD, DVD1, DVD2) (Magnétoscope)⟩
Prise en compte d’informations spatio-temporelles
Données mul'‐dimensionnelles
Des données disponibles de plus en plus rapidement
Comment maintenir la connaissance extraite ? Eviter de recommencer « from scratch »
Comment faire face à des données disponibles sous la forme d’un flot ?
Impossible de stocker les données (capteurs, clickstream, RFID, news, …) !
Comment extraire de la connaissance ?
Comment résumer ces données ?
Fouille de données environnementales : CEMAGREF‐LIRMM (M. Teisseire) Quelques exemples …
Suivi de l’évolu'on de phénomènes via des dépêches de presses (exemple H1N1 traité dans l’équipe)
Evolu'on de la Dengue (Nevantropic, CEMAGREF) A par'r d’une base de données de l’INVS, iden'fica'on des quar'ers à risque et des
périodes caractéris'ques précédant une propaga'on de l’épidémie
Données Teru'‐Lucas
Connaître les différentes catégories d’occupa'on du sol et d’usage de l’ensemble du territoire (agricole, naturel et urbanisé)
Conclusion
Défis de la fouille de données :
Volume, rapidité et complexité/hétérogénéité des données
Temps réel
Présenta'on de la connaissance extraite
Quelle est la qualité des données collectées ?
Imprécisions/incer'tudes
Comment insérer d’autres connaissances ?
Données externes (e.g. météo)
Connaissance experte