les logiciels de gestion et visualisation de l'information de l'i.r.i.t. : la plate-forme...
TRANSCRIPT
Les logiciels de gestion et Les logiciels de gestion et visualisation de l'information visualisation de l'information
de l'I.R.I.T. :de l'I.R.I.T. : La Plate-forme TETRALOGIE La Plate-forme TETRALOGIE
Bernard DOUSSETBernard [email protected]@irit.fr
Institut de Recherche en Informatique de Toulouse (IRIT)Institut de Recherche en Informatique de Toulouse (IRIT)
Equipe Systèmes d’Information Généralisés (SIG)Equipe Systèmes d’Information Généralisés (SIG)
Université Paul Sabatier (Toulouse III)Université Paul Sabatier (Toulouse III)
07/11/2003 TETRALOGIE 2
Plan de la présentationPlan de la présentationHistorique
Architecture
Contribution
Conclusion
en analyse textuelle
en analyse exploratoire
en visualisation
bilan
perspectives
Interactivité
Travail en équipe
Principe général
Définitions et buts
La veille stratégique
L’analyse de données
La plate-forme
07/11/2003 TETRALOGIE 3
Cycle de l’intelligence économique
Scénarios
élaborer
Stratégie
choisir
Cibles
déterminer & hiérarchiser
Sources identifier & sélectionner
Informations utiles
évaluer & collecter
Informations élaborées
analyser & interpréter
Décideur
synthétiser
Connaissance
mémoriser&
organiser
valider et diffuser l’information
exogène
Connaissancediffuser l’information endogène
Connaissance
diffusionrestreinte
Veille stratégique
Secteurs d’activitéSecteurs d’activité
Historique Architecture Contribution ConclusionHistoriqueDéfinitions et buts I
07/11/2003 TETRALOGIE 4
Etudier l’environnement et l’évolutionEtudier l’environnement et l’évolution
– Des marchésDes marchés
– Des coopérationsDes coopérations
– Des alliancesDes alliances
– Des participationsDes participations
– De l'innovationDe l'innovation
– Des rupturesDes ruptures
– Des modesDes modes
– Des implantationsDes implantations
– Des transferts de technologie Des transferts de technologie
– Des dépôts de brevetsDes dépôts de brevets
– Des équipes de rechercheDes équipes de recherche
– De la terminologieDe la terminologie
– Des bases documentaires Des bases documentaires
– Des publicationsDes publications
– De la publicitéDe la publicité
– Des appels d'offresDes appels d'offres
Historique Architecture Contribution ConclusionHistoriqueDéfinitions et buts II
07/11/2003 TETRALOGIE 5
Le processus de veille stratégique comporte cinq phases : Le processus de veille stratégique comporte cinq phases :
– la sélection des données utiles :la sélection des données utiles :• terminologie, dates, acteurs (auteurs, organismes, pays…)terminologie, dates, acteurs (auteurs, organismes, pays…)
– la préparation des données :la préparation des données : • pré-traitements : nettoyages [Zipf49], synonymies [Porter80]pré-traitements : nettoyages [Zipf49], synonymies [Porter80]
• transformations : modèle de représentation des donnéestransformations : modèle de représentation des données [Salton89][Salton89]
– l’analyse des données:l’analyse des données: • classifications, règles d'associations, séquences, ...classifications, règles d'associations, séquences, ...
– l’interprétation et l’évaluation : l’interprétation et l’évaluation : • basées en grande partie sur les visualisationsbasées en grande partie sur les visualisations
– l’exploitation et donc l’exploitation et donc la prise de décisionla prise de décision
Historique Architecture Contribution ConclusionHistoriqueLa veille stratégique
07/11/2003 TETRALOGIE 6
Analyses multidimensionnellesAnalyses multidimensionnelles
– Fondements : Spearman & Pearson dès 1904Fondements : Spearman & Pearson dès 1904
– Analyse canonique et ACP : [Hotteling35]Analyse canonique et ACP : [Hotteling35]
– Analyse des correspondances : [Hirschfeld35] et [Guttman41]Analyse des correspondances : [Hirschfeld35] et [Guttman41]
– Analyse procustéennes : [Schonemann65]Analyse procustéennes : [Schonemann65]
– En FranceEn France
• Analyse Factorielle des Correspondances : [Benzécri73]Analyse Factorielle des Correspondances : [Benzécri73]
• Analyse de deux tableaux : [Lafosse85]Analyse de deux tableaux : [Lafosse85]
• Compléments en analyse procustéenne : [Fichet87]Compléments en analyse procustéenne : [Fichet87]
Historique Architecture Contribution ConclusionHistoriqueL’analyse de données
07/11/2003 TETRALOGIE 7
ClassificationsClassifications
– Taxonomie par CAH [Sokal63]Taxonomie par CAH [Sokal63]
– Centres mobiles [Forgy65] Centres mobiles [Forgy65]
– Nuées dynamiques [Diday71]Nuées dynamiques [Diday71]
– PartitionnementsPartitionnements
• Itératifs : Minimisation de la coupure [KL70], [FM82] Itératifs : Minimisation de la coupure [KL70], [FM82]
• Spectraux : VP de la matrice de Laplace [Hall70], [Hagen91]Spectraux : VP de la matrice de Laplace [Hall70], [Hagen91]
• Multi-niveaux : regroupement + itératif Multi-niveaux : regroupement + itératif KMETISKMETIS [Karypis98] [Karypis98]
• Stochastiques :Stochastiques : M Markovarkov CL CLustering [Van Dongen00]ustering [Van Dongen00]
Historique Architecture Contribution ConclusionHistoriqueL’analyse de données
07/11/2003 TETRALOGIE 8
1985-87 Espace paramétrique en 3D : 1985-87 Espace paramétrique en 3D : T. BenjamaàT. Benjamaà (Thèse) (Thèse) 19871987 Trilogie Trilogie 3D (ACP, AFC, CAH, CPP) 3D (ACP, AFC, CAH, CPP) 1989-93 Analyse textuelle, évolution : 1989-93 Analyse textuelle, évolution : T. DkakiT. Dkaki (Thèse) (Thèse) 1993 1993 1° Plate-forme1° Plate-forme TétralogieTétralogie 4D 4D 1998 Visualisation interactive de CAH (DEA), signaux faibles (Stage)1998 Visualisation interactive de CAH (DEA), signaux faibles (Stage) 1999 Conception de système d’IE : 1999 Conception de système d’IE : M. SalleM. Salle (Thèse et (Thèse et Medesiie)Medesiie) 2002 Ingénierie du besoin en IE : 2002 Ingénierie du besoin en IE : T. ZidT. Zid (Thèse et (Thèse et MedesiieMedesiie)) 2003 Grands graphes, géostratégie : 2003 Grands graphes, géostratégie : S. KarouachS. Karouach (Thèse) (Thèse) 2004 Adéquation aux profile des entreprises : 2004 Adéquation aux profile des entreprises : S. HusseinS. Hussein (Thèse) (Thèse) 2005 Morphing de graphes évolutifs : 2005 Morphing de graphes évolutifs : E. LoubierE. Loubier (en Thèse) (en Thèse) 2007 Le portail Xplor (Analyses en ligne) : 2007 Le portail Xplor (Analyses en ligne) : I. GhalamallahI. Ghalamallah (en Thèse) (en Thèse)
Historique Architecture Contribution ConclusionHistoriquePlate-forme Tétralogie
07/11/2003 TETRALOGIE 9
Pourquoi un système interactif?Pourquoi un système interactif? En Amont de l’analyse l’interactivité sert à :En Amont de l’analyse l’interactivité sert à :
– mettre au point les équations de recherchemettre au point les équations de recherche
– évaluer les corpus (volume, pertinence, bruit)évaluer les corpus (volume, pertinence, bruit)
– choisir et valider le ou les formats de sortiechoisir et valider le ou les formats de sortie
– superviser la collecte du corpussuperviser la collecte du corpus
– contrôler les dictionnaires (forme et volume)contrôler les dictionnaires (forme et volume)
– choisir les filtres +, -, thématiques, ...choisir les filtres +, -, thématiques, ...
– valider les synonymies et l’indexation (Multi-termes)valider les synonymies et l’indexation (Multi-termes)
Historique Etat de l’art Contribution ConclusionArchitectureInteractivité I
07/11/2003 TETRALOGIE 10
Pourquoi un système interactif?Pourquoi un système interactif? Pendant l’analyse l’interactivité permet dePendant l’analyse l’interactivité permet de
– sélectionner et contrôler les matrices de croisementsélectionner et contrôler les matrices de croisement
– choisir des méthodes à déployerchoisir des méthodes à déployer
– piloter ces méthodes (localement ou à distance)piloter ces méthodes (localement ou à distance)
– extraire les connaissances via les visualisationsextraire les connaissances via les visualisations
– choisir des vues à conserver choisir des vues à conserver
– consulter les consulter les expertsexperts via le réseau via le réseau
– restituer l’analyse au restituer l’analyse au décideurdécideur
Historique Etat de l’art Contribution ConclusionArchitectureInteractivité II
07/11/2003 TETRALOGIE 11
BD
Web
CD
Documentaliste
Analyste
Décideur
Expert
Serveur
Connexions entre acteurs de la veilleConnexions entre acteurs de la veille
Historique Etat de l’art Contribution ConclusionArchitectureTravail en équipe
07/11/2003 TETRALOGIE 12
X
3
D
Cooc
Dico
3
Dico
1
Dico
2
Méta
2°
Niv.
Corpus
4
Corpus
3
Corpus
2
1'
Corpus
1
BD
Web
CD
Méta-données
Méta-données
Méta-données
Méta-données
Méta-données
Méta-données
Historique Etat de l’art Contribution ConclusionArchitecturePrincipe général
07/11/2003 TETRALOGIE 13
Historique Architecture Contribution ConclusionContributionen analyse textuelle
Extraction des dictionnairesExtraction des dictionnaires
Courbe de charge
Dictionnaire de synonymes
Dictionnaire + ou -
07/11/2003 TETRALOGIE 14
Historique Architecture Contribution ConclusionContributionen analyse textuelle
Détection des multi-termesDétection des multi-termes
Dictionnaire de multi-termes
Dictionnaire de synonymes
Dictionnaire de mots vides
Seuil de détection statistique
Traitement statistique
Traitement morphologique
Traitement syntaxique
07/11/2003 TETRALOGIE 15
Historique Architecture Contribution ConclusionContributionen analyse textuelle
Croisements 2DCroisements 2D
Matrice carrée
Matrice asymétrique
Filtre positif ou négatif Dictionnaire de synonymes
Courbe de charge
07/11/2003 TETRALOGIE 16
Historique Architecture Contribution ConclusionContributionen analyse textuelle
Croisements 3DCroisements 3D
Troisième variable
Dictionnaire de synonymes
Filtre
07/11/2003 TETRALOGIE 17
Historique Architecture Contribution ConclusionContributionen analyse exploratoire
Algorithmes de tris de matricesAlgorithmes de tris de matricesTri par classes de connexité Tri par blocs diagonaux
07/11/2003 TETRALOGIE 18
Historique Architecture Contribution ConclusionContributionen analyse exploratoire
Cartes des coordonnées en 4D
Cercle des corrélations
Synchronisation
Analyse en composantes principales (ACP)Analyse en composantes principales (ACP) Analyse en composantes principales (ACP)Analyse en composantes principales (ACP)– s’applique aux données quantitatives’applique aux données quantitative
comme les tableaux individus x variablescomme les tableaux individus x variables– elle utilise un espace réduit de 2 à 4 Delle utilise un espace réduit de 2 à 4 D– deux cartes en sont déduitesdeux cartes en sont déduites
• celle des coordonnées des individuscelle des coordonnées des individus• cercle de corrélation des variablescercle de corrélation des variables
07/11/2003 TETRALOGIE 19
Historique Architecture Contribution ConclusionContributionen analyse exploratoire
Analyse factorielle des correspondances (AFC)Analyse factorielle des correspondances (AFC) Analyse factorielle des correspondances (AFC)Analyse factorielle des correspondances (AFC)
– s’applique aux données qualitativess’applique aux données qualitativescomme les matrices binaires, de contingence, de cooccurrencecomme les matrices binaires, de contingence, de cooccurrence
– c’est un ACP sur les profilsc’est un ACP sur les profils– elle ne génère qu’une carteelle ne génère qu’une carte– la proximité entre modalités des deux variables a un sensla proximité entre modalités des deux variables a un sens– on peut manipuler séparément la carte des colonneson peut manipuler séparément la carte des colonnes– et exporter son azimut sur la carte complèteet exporter son azimut sur la carte complète
07/11/2003 TETRALOGIE 20
Historique Architecture Contribution ConclusionContributionen analyse exploratoire
Analyse factorielle des correspondances multiple (AFCM)Analyse factorielle des correspondances multiple (AFCM) Analyse factorielle des correspondances multiple (AFCM)Analyse factorielle des correspondances multiple (AFCM)
– nous l’appliquons aux matrices de cooccurrences 3Dnous l’appliquons aux matrices de cooccurrences 3D– la 3° variable est le plus souvent le tempsla 3° variable est le plus souvent le temps– L ’AFC peut être appliquéeL ’AFC peut être appliquée
• à un des tableaux (les autres sont projetés)à un des tableaux (les autres sont projetés)• à tous les tableaux empilésà tous les tableaux empilés• à la somme des tableaux (à la somme des tableaux ( cas statique) cas statique)
– Chaque ligne est représentée par une série de pointsChaque ligne est représentée par une série de points– On peut tracer des trajectoiresOn peut tracer des trajectoires
07/11/2003 TETRALOGIE 21
Historique Architecture Contribution ConclusionContributionen analyse exploratoire
Analyse procustéenne (de Procuste ou Procrustes)Analyse procustéenne (de Procuste ou Procrustes)– Celui qui allonge en tirant, devenu le symbole de l’Celui qui allonge en tirant, devenu le symbole de l’uniformitéuniformité – "Dans la légende grecque, Procruste est un bandit qui hante la route "Dans la légende grecque, Procruste est un bandit qui hante la route
près d'Eleusis. Il invite des voyageurs, qu’il étend sur un des deux lits près d'Eleusis. Il invite des voyageurs, qu’il étend sur un des deux lits qui meublent son logis, l'un très long, l'autre très court. Si l'hôte est trop qui meublent son logis, l'un très long, l'autre très court. Si l'hôte est trop grand pour le petit lit, Procuste lui ampute les jambes, s'il occupe grand pour le petit lit, Procuste lui ampute les jambes, s'il occupe l'autre, Procuste l'étire jusqu'à ce qu’il cadre avec le lit."l'autre, Procuste l'étire jusqu'à ce qu’il cadre avec le lit."
07/11/2003 TETRALOGIE 22
Historique Architecture Contribution ConclusionContributionen analyse exploratoire
Analyse procustéenneAnalyse procustéenne
Enlever:Enlever:– la translation moyennela translation moyenne– la rotation moyennela rotation moyenne– l’homothétie moyennel’homothétie moyenne
G1
G2G3
G4
G1
G2G3
G4G4
Evolution non standard
07/11/2003 TETRALOGIE 23
ni
iiee hghgdBAd,1
)²(),(),( ),
,(),( lke
lk
m yxdBAd Min ),
,(),( lke
lk
M yxdBAd MaxBA
yxdBAd k l
lke
),(),(
Historique Architecture Contribution ConclusionContributionen analyse exploratoire
Niveau de coupure à 4 classesNiveau de coupure à 8 classes
Classification ascendante hiérarchique (CAH)Classification ascendante hiérarchique (CAH) Classification ascendante hiérarchique (CAH)Classification ascendante hiérarchique (CAH)
– méthode non superviséeméthode non supervisée– on a le choix de la distance (euclidienne, max , sigma, …)on a le choix de la distance (euclidienne, max , sigma, …)– on a le choix du mode d’agrégation (centre, inf, sup, moyenne)on a le choix du mode d’agrégation (centre, inf, sup, moyenne)– elle part des éléments disjoints et agrège les plus procheselle part des éléments disjoints et agrège les plus proches– elle construit des classes imbriquéeselle construit des classes imbriquées– la hiérarchie peut être représentée par un dendogrammela hiérarchie peut être représentée par un dendogramme– plusieurs niveaux de coupure sont possiblesplusieurs niveaux de coupure sont possibles– on peut exporter la classificationon peut exporter la classification
07/11/2003 TETRALOGIE 24
Historique Architecture Contribution ConclusionContributionen analyse exploratoire
Classification par partition CPP (Centres mobiles)Classification par partition CPP (Centres mobiles)
– superviséesupervisée– k classesk classes– 1 représentant1 représentant– choix en 3D choix en 3D – colorationcoloration– icônesicônes
– 4 classes4 classes– 6 classes6 classes
07/11/2003 TETRALOGIE 25
Historique Architecture Contribution ConclusionContributionen visualisation
faibles.
Distribution linéaire
Choix d’une échelle non linéaire
Mise en évidence de signaux faibles
Sélection des données
Evolution de la coloration
Cartes géostratégiquesCartes géostratégiques
07/11/2003 TETRALOGIE 26
Carte pondérée par le PNB
Historique Architecture Contribution ConclusionContributionen visualisation
Carte en valeurs absolues Carte pondérée par la population
Carte pondérée par la superficie
Choix de la pondération
Pondération par des données externesPondération par des données externes
07/11/2003 TETRALOGIE 27
Etude de l’évolution par animationEtude de l’évolution par animation
– en fonction du temps: matrice PA-DPen fonction du temps: matrice PA-DP
– par défilement de chaque variablepar défilement de chaque variable
– par sélection de groupes de variablespar sélection de groupes de variables
– en mode absolu ou relatifen mode absolu ou relatif
– en fonction du codageen fonction du codage
– en fonction du niveau de coupure (CAH)en fonction du niveau de coupure (CAH)
Historique Architecture Contribution ConclusionContributionen visualisation
07/11/2003 TETRALOGIE 28
Historique Architecture Contribution ConclusionContributionen visualisation
.
Exportation d’une classification
Niveau de coupureEffectifs des classes
Carte en mode relatif : étude de tendances
Pays non présents dans la dernière période
Pays en récession
Pays en forte croissance
Segmentation et importation de classesSegmentation et importation de classes
07/11/2003 TETRALOGIE 29
Placement initial aléatoire
Historique Architecture Contribution ConclusionContributionen visualisation
.
Placement circulaire en fonction d’un triConvergence rapide du placement des sommets Dessins de graphesDessins de graphes
kdavvf
aijij
jia
,
rij
jirdkvvf ²),(
Algorithme de [Fruchterman91]
Force d’attraction :
Force de répulsion :
07/11/2003 TETRALOGIE 30
Historique Architecture Contribution ConclusionContributionen visualisation
Graphe partitionné
Graphe des classes Partitionnement MCLPartitionnement MCL
Extraction des classes
07/11/2003 TETRALOGIE 31
Historique Architecture Contribution ConclusionConclusionBilan
Philosophie de notre plate-forme TétralogiePhilosophie de notre plate-forme Tétralogie– c’est un ensemble cohérent de c’est un ensemble cohérent de prototypesprototypes inter-opérants, inter-opérants,– qui utilise unqui utilise un standard unique standard unique pour le format des données, pour le format des données, – sonson interface graphique interface graphique est homogène, est homogène,– et permet le partage des ressources et des méthodes et permet le partage des ressources et des méthodes via le réseauvia le réseau..
Son utilisation en rechercheSon utilisation en recherche– support d’évaluationsupport d’évaluation de méthodes, d’outils et de produits d’IE, de méthodes, d’outils et de produits d’IE,– vaste base d’exemples, à l’vaste base d’exemples, à l’échelleéchelle, déjà analysés., déjà analysés.
Domaine d’application : la veille stratégiqueDomaine d’application : la veille stratégique– veille veille scientifiquescientifique (scientométrie, indicateurs, évaluation) (scientométrie, indicateurs, évaluation)– veille veille technologiquetechnologique (propriété industrielle, produits, procédés) (propriété industrielle, produits, procédés)– veille veille économiqueéconomique (marchés, concurrents, substituts, …) (marchés, concurrents, substituts, …)
07/11/2003 TETRALOGIE 32
Historique Architecture Contribution ConclusionConclusionPerspectives
En pré-traitementEn pré-traitement– prendre en compte d’autres prendre en compte d’autres mesuresmesures de proximités de proximités– améliorer le améliorer le traitement sémantiquetraitement sémantique => indexation à jour => indexation à jour– rechercher les passages pertinents (Web, texte intégral, …)rechercher les passages pertinents (Web, texte intégral, …)
En analyses multidimensionnellesEn analyses multidimensionnelles– étendre l’utilisation des analyses multiples (3D)étendre l’utilisation des analyses multiples (3D)– mieux naviguer dans le corpus depuis les cartes factoriellesmieux naviguer dans le corpus depuis les cartes factorielles– mieux utiliser la visualisation des connexions localesmieux utiliser la visualisation des connexions locales
En classificationsEn classifications– implanter d’autres algorithmes (fourmis, k-means, k-metis, ...)implanter d’autres algorithmes (fourmis, k-means, k-metis, ...)– réaliser la classification conjointe des lignes et des colonnesréaliser la classification conjointe des lignes et des colonnes– proposer un partitionnement adapté aux matrices 3Dproposer un partitionnement adapté aux matrices 3D
07/11/2003 TETRALOGIE 33
Historique Architecture Contribution ConclusionConclusionPerspectives
En amont des analysesEn amont des analyses– reformulationreformulation de requêtes par les classes sémantiques (Thèse) de requêtes par les classes sémantiques (Thèse)– filtragefiltrage par analyse de la variance => éliminer le bruit par analyse de la variance => éliminer le bruit– amélioration des techniques de amélioration des techniques de synonymiesynonymie (DEA) (DEA)– analyse du analyse du besoinbesoin en intelligence économique (Thèse fin 2003) en intelligence économique (Thèse fin 2003)– prise en compte directe des formats prise en compte directe des formats htmlhtml et et xmlxml
En restitution des analysesEn restitution des analyses– génération automatique de rapports en génération automatique de rapports en hypertextehypertexte (DEA) (DEA)– mise en lignemise en ligne des analyses (Collaborations) des analyses (Collaborations)– bases de données bases de données multidimensionnellesmultidimensionnelles (Collaboration, Thèse?) (Collaboration, Thèse?)– mise au point d’mise au point d’indicateursindicateurs spécifiques (scientométrie, ...) spécifiques (scientométrie, ...)– produits ciblésproduits ciblés d’intelligence économique (brevets, alertes, …) d’intelligence économique (brevets, alertes, …)