5 décembre 2002tia - prise en compte de l'application - assises i31 prise en compte de...
TRANSCRIPT
5 décembre 2002 TIA - prise en compte de l'application - Assises I3 1
Prise en compte de l’application dans la constitution de produits terminologiques
Groupe TIA Nathalie Aussenac-Gilles – IRIT
Anne Condamines – ERSS
Sylvie Szulman – LIPN
L’application et les utilisateurs sont-ils mal pris en compte ? Passage du corpus à une application Différents types d’impacts
Corpus Techniques linguistiques Choix des outils Représentation des connaissances Contenu du modèle – niveaux linguistique / conceptuel
5 décembre 2002 TIA - prise en compte de l'application - Assises I3 2
L’application est-elle mal prise en compte ?
« la construction d’ontologies à partir de textes ne permet pas de construire des ontologies adaptées aux utilisateurs »
Application ou utilisateur de l’application ? Vocabulaire des textes serait celui des experts, non celui
des utilisateurs L’utilisateur ne serait pas prévu pour évaluer le modèle
Application ou type d’application ? Éventail de types de modèles : terminologies, thésaurus … Éventail de types d’applications : gestion des
connaissances, RI, classement documentaire, SBC, indexation
5 décembre 2002 TIA - prise en compte de l'application - Assises I3 3
Variétés des applications, variétés des ressources terminologiques utilisées…
Point de vue classique : des ressources terminologiques dédiées pour des types d’application particulières la base de données terminologiques pour le traducteur le langage documentaire pour le documentaliste, …
Renouvellement : des ressources terminologiques de types variés pour des applications variées : Bases de données terminologiques multilingues pour traduction
automatique Thesaurus pour indexation automatique Index hypertextuels pour documents électroniques Réseaux de termes pour moteurs de recherche spécialisés Ontologies pour systèmes à base de connaissances
5 décembre 2002 TIA - prise en compte de l'application - Assises I3 4
… une approche unifiée
Assurer des fondements linguistiques à un réseau conceptuel Construction à partir de l’analyse d’un corpus de textes Processus supervisé par l’analyste en concertation avec experts
et utilisateurs Utilisation de techniques linguistiques et de logiciels de TAL
Recherches nécessairement pluridisciplinaires Terminologie Linguistique Traitement automatique des langues Ingénierie des connaissances (en dehors de TIA) Recherche d’information et sciences de
l’information
5 décembre 2002 TIA - prise en compte de l'application - Assises I3 5
Problématique du passage du corpus à une application
Type d’application
Usages
•Méthodes•Outils de TAL•Outils de modélisation•Principes linguistiques
Intégration
Ressources terminologiques
Corpus
5 décembre 2002 TIA - prise en compte de l'application - Assises I3 6
Points d’impact de l’application et de son usage
Type d’application
Usages
•Méthodes•Outils de TAL• Outils de modélisation•Principes linguistiques
Intégration
Ressources terminologiques •Contenu•Représentation des connaissances
Corpus
5 décembre 2002 TIA - prise en compte de l'application - Assises I3 7
Objectifs de la présentation
Illustrer, sur des études de cas, l’impact de l’application visée sur des aspects de la démarche de construction de ressources terminologiques
1) Profil du « constructeur »2) Construction du corpus 3) Utilisation des techniques d’analyse linguistique et d’outils de TAL 4) Choix de la structure de données
représentation des connaissances – contenu du modèle5) Utilisation des outils de modélisation 6) Validation, évaluation
Dresser des perspectives vers une meilleure maîtrise et adéquation du processus de
construction et des ressources construites aux besoins et aux types d’application
5 décembre 2002 TIA - prise en compte de l'application - Assises I3 8
Etudes de cas : les applications
VERRE : Classement de documents et veille stratégique sur la fabrication de la fibre de verre Ontologie : formuler des recherches, représenter des documents
REA : codage des diagnostics et actes médicaux traumatologie en réanimation chirurgicale Ontologie comme squelette conceptuel d’un thésaurus
DROIT : recherche d’information sur www.droit.org (édition Lois et décrets du J.O. de la République française) Réseau sémantique du droit pour la reformulation de requêtes
SAMOVAR : mémoire d’entreprise, domaine automobile plusieurs ontologies pour l’accès à des comptes rendus d’incidents de test
COMMA : SMA pour la gestion des connaissances : veille et formation ontologie pour consultation et pour agents logiciels
5 décembre 2002 TIA - prise en compte de l'application - Assises I3 9
Etude de cas : les applications
Application de traitement de l’information textuelle. Cas « idéal » pour une approche basée sur les textes
Projets de R&D Pas toujours de « vrais » utilisateurs au début du
projet L’application elle-même est définie plus ou moins
au cours du projet L’objectif est aussi de tester des méthodes et outils.
5 décembre 2002 TIA - prise en compte de l'application - Assises I3 10
2) Construction du corpus
Etape cruciale Le corpus est (une des) source(s) de connaissances Le corpus va servir à documenter la ressources construite
Paramètres de construction Homogénéité avec les textes traités dans l’application cible
(diversité de vocabulaire) Recours aux experts, disponibilité Diversité de genre, taille Préparation, balisage, pour les outils de TAL Traitement global ou par parties différentiées
Importance du balisage : localiser les phrases à interpréter dans l’ensemble du document
5 décembre 2002 TIA - prise en compte de l'application - Assises I3 11
2) Construction du corpus – étude de cas
REA 600 compte rendus d’hospitalisation (CRH) en réanimation chirurgicale
(380 000 mots), balisés de façon homogène (<Motif>, <Histoire de la maladie>, <Conséquence>, …)
VERRE 3 sous-corpus (250 000 mots) : livre (découpé en chapitres), brevets,
dépêches d’agence de presse pour la veille regroupées par mois
Vocabulaire générique de la fibre de verre
Livre
Vocabulaire technique des procédés du verre textile
Brevets
Vocabulaire technique des dépôts de brevets
Veille
Vocabulaire de la finance et économie
5 décembre 2002 TIA - prise en compte de l'application - Assises I3 12
3) Utilisation des techniques d’analyse linguistique et d’outils de TAL
Dépendances application-corpus et corpus-technique d’analyse : ex de la recherche de relation par marqueurs
Ex : marqueur de relation EST-UNtous les N1 sauf dét N2 (tous les mammifères sauf la
baleine)
Tous les marqueurs d’un même type de relation ne fournissent pas les mêmes résultats sur un corpus
Ex : l’anaphore, marqueur de la relation EST-UN fournit des génériques de plus haut niveau (La baleine s’approchait. Ce mammifère…)
Un corpus contient des marqueurs et des relations spécifiques Ex : relation de « production » entre « process » et « product » dans
Verre
5 décembre 2002 TIA - prise en compte de l'application - Assises I3 13
3) Utilisation des techniques d’analyse linguistique et d’outils de TAL
SAMOVAR : Nomino et patrons de fouille Première conceptualisation « manuelle » du domaine Extraction de termes avec Nomino : ontologies des pièces Patrons d’extraction d’instances ou de concepts et de relations spécifiques
pour enrichir l’ontologie à partir de textes
BRUIT DE CRISSEMENT DU VOLANT PENDANT SON REGLAGE EN HAUTEUR
Nom[ type= Problème, n= i] Prep[ lemme=« de »] Nom[ type Problème, n= i+1]
Si on rencontre l’expression <Terme1 de Terme2>où <Terme1> est connu comme correspondantà un concept <Concept1> dans l’ontologie Problème,alors suggérer d’attacher le concept dénoté par le terme <Terme2>comme fils de <Concept1> dans l’ontologie Problème
5 décembre 2002 TIA - prise en compte de l'application - Assises I3 14
3) Utilisation des techniques d’analyse linguistique et d’outils de TAL
Différents types d’outils de TAL pour la constructions de ressources terminologique Extraction de candidats termes, ex : Termino, Syntex Extraction de relations candidates, ex : Caméléon, Likes Analyse distributionnelle, ex : Upery Outils statistiques de repérage de classes (concepts) et de relations
Ces outils s’appuient sur des techniques linguistiques (morphosyntaxiques) et/ou statistiques (apprentissage)
Difficultés Dépouiller les résultats de ces outils Faire face au volume de données Trouver des indices pour repérer des données pertinentes Mettre au point des outils spécifiques
5 décembre 2002 TIA - prise en compte de l'application - Assises I3 15
3) Utilisation des techniques d’analyse linguistique et d’outils de TAL
REA : Syntex et Upery analyse humaine (200 h) guidée par les résultats de l’analyse
distributionnelle
DROIT : Syntex et Upery Pas de validation humaine : on conserve le réseau de
candidats termes nominaux extrait par Syntex enrichi des liens de proximité distributionnelle, de
coordination et de cooccurrence statistique. Elimination des éléments reliés à aucun autre (300 000
100 000)
5 décembre 2002 TIA - prise en compte de l'application - Assises I3 16
4) Structure de données
Types de ressources : Thesaurus, index, taxonomie, réseau sémantique, ontologie, etc. Composantes : texte, composante lexicale, composante
conceptuelle Degré de formalisation :
Ontologie formelle ---Réseau de termes avec relations non étiquetées Contenu : couverture, choix de priorité entre la fidélité au texte,
la fidélité aux experts et l’adéquation aux utilisateurs Rôle de la ressource
Le contenu, la forme, la couverture, le degré de formalisation, etc. sont choisis en fonction du rôle que doit jouer la ressource terminologique ou ontologique dans l’application cible.
5 décembre 2002 TIA - prise en compte de l'application - Assises I3 17
4) Structure de données – Ontologies pour la mémoire d’entreprise
Un composant de la mémoire, destiné à être exploré par l’utilisateur final. Contenu : définitions ou de liens vers des textes explicatifs, compréhensibles par un
utilisateur humain adapté aux tâches des utilisateurs (degré de détail, niveau de visibilité…)
Une référence pour indexer/ annoter sémantiquement la mémoire afin d’améliorer la recherche de ressources ou d’information. Contenu : concepts importants pour l’annotation faits (relations entre instances particulières …) heuristiques (inférences pour la recherche d’info)
Une base pour la communication et l'échange d’information entre des programmes, des agents logiciels ontologie formelle contenu : besoins en messages des agents logiciels
5 décembre 2002 TIA - prise en compte de l'application - Assises I3 18
4) Contenu du modèle : Fibre de verre
PROCESS
ManufacturingProcess
WashingScraps
ManufacturingGlassYarns
DRAWINGPROCESS
CONVERSIONINTO
SALEABLEPRODUCTS
GLASSMANUFACTURING
PROCESS
MouldingProcess
PressMouldingProcessWashingScrapsSteps
SheetMouldingProcess
ManufacturingThinProfiles
OpenLayUpMouldingProcess
ReinforcedReactionInjectionMouldingProcess
ReinforcedPlasticMouldingProcess
CompositeMouldingProcess
InjectionMouldingProcess
SeparatingFibresOfYarns
UnwindingGlassYarns
DippingSheetOfGlassFibres
HotShaping
HeatingSheet
ReCirculatingSolvent
TransferringResine
FeedingScraps
AddingCleanSolvent
CirculatingScraps
CollectingResinLoadedSolvent
DryingWashedScraps
DetectingLossSolvent
PROCESS
ManufacturingProcess
WashingScraps
ManufacturingGlassYarns
DRAWINGPROCESS
CONVERSIONINTO
SALEABLEPRODUCTS
GLASSMANUFACTURING
PROCESS
MouldingProcess
PressMouldingProcessWashingScrapsSteps
SheetMouldingProcess
ManufacturingThinProfiles
OpenLayUpMouldingProcess
ReinforcedReactionInjectionMouldingProcess
ReinforcedPlasticMouldingProcess
CompositeMouldingProcess
InjectionMouldingProcess
SeparatingFibresOfYarns
UnwindingGlassYarns
DippingSheetOfGlassFibres
HotShaping
HeatingSheet
ReCirculatingSolvent
TransferringResine
FeedingScraps
AddingCleanSolvent
CirculatingScraps
CollectingResinLoadedSolvent
DryingWashedScraps
DetectingLossSolvent
PROCESS
ManufacturingProcess
WashingScraps
ManufacturingGlassYarns
DRAWINGPROCESS
CONVERSIONINTO
SALEABLEPRODUCTS
GLASSMANUFACTURING
PROCESS
MouldingProcess
PressMouldingProcessWashingScrapsSteps
SheetMouldingProcess
ManufacturingThinProfiles
OpenLayUpMouldingProcess
ReinforcedReactionInjectionMouldingProcess
ReinforcedPlasticMouldingProcess
CompositeMouldingProcess
InjectionMouldingProcess
SeparatingFibresOfYarns
UnwindingGlassYarns
DippingSheetOfGlassFibres
HotShaping
HeatingSheet
ReCirculatingSolvent
TransferringResine
FeedingScraps
AddingCleanSolvent
CirculatingScraps
CollectingResinLoadedSolvent
DryingWashedScraps
DetectingLossSolvent
5 décembre 2002 TIA - prise en compte de l'application - Assises I3 19
4) Contenu du modèle - VERRE
Décisions de modélisation liées aux textes ET à l’application Concepts individuel ou générique ? Concept ou relation ?
TransferringResine, FeedingScrap, … sont étapes de WashingScraps : texte
Relation has-steps ou concept WashingScrapsSteps ?
Les définitions d’instances peuvent modifier celles des concepts génériques
Un ou plusieurs concepts Faut-il définir 2 concepts différents Process et ManufacturingProcess ?
Concepts de structuration non terminologiques : process
5 décembre 2002 TIA - prise en compte de l'application - Assises I3 20
Conclusion
Première analyse pragmatique : comment aller plus loin Trouver un cadre de présentation plus formel Une piste pour un groupe de travail et non pour une seule
équipe de recherche Points non résolus
Impact du TYPE d’application Généraliser des observations à des classes de situations
Perspectives Renouveler les expériences, s’appuyer sur plus de projets Confrontation upper level ontologies / connaissances acquises Vers des ressources dynamiques, évolutives
5 décembre 2002 TIA - prise en compte de l'application - Assises I3 21
4) Structure de données – VERRE
Demande Profils : classes définies par les utilisateurs, caractérisées par des concepts
(ou des sous-graphes de l’ontologie) ; Documents à classer caractérisés par l’ensemble des concepts reconnus
Modèle de données : ontologie TERMINAE ontologie formalisée, contenant des concepts et relations (pas de règles ou
d’axiomes) composante lexicale riche : relations de synonymie et marqueurs pour
retrouver les formes lexicales associées à un concept ou à une relation Composante textuelle inutile dans le modèle opérationnel
Formalisation Nécessaire pour parcourir les liens sémantiques entre concepts et associer
un profil et un texte Réalisée au sein du système de classification et non dans l’environnement
de modélisation