normalisation des échanges de données en terminologie le cas des relations dites « conceptuelles...
TRANSCRIPT
Normalisation des échanges de Normalisation des échanges de données en terminologiedonnées en terminologie
Le cas des relations dites Le cas des relations dites « conceptuelles »« conceptuelles »
Laurent Romary & Marc Van CampenhoudtLaurent Romary & Marc Van Campenhoudtavec la voix d ’André Schaaffavec la voix d ’André Schaaff
Représentation et échange des relations : état des lieux
Kif (Knowledge Interchange Format)
CGS (Conceptual Graph Standard)
Oil (Ontology Inference Layer)
XTM (XML Topic Maps : Iso 13250
2000)
Normes d ’échanges : bref historique
Micromater
TEI, chapitre 13
Martif (ISO 12 200, 1999) Fondé sur Iso 12620
Nouveaux projets ISO : Geneter, MSC - DXLT (projet Salt),TMF
Olif 2
TMF - Terminological Markup Framework
Principes généraux
Expression de contraintes au niveau de la représentation de terminologies informatisées
Quelle est la structure sous-jacente des terminologies informatisées ?
Quelle sont les catégories de données utilisées et sous quelles conditions ?
Maintient de l’interopérabilité entre représentations
Proposer un outil conceptuel pour la comparaison de deux formats donnés
Définitions
TMF: Terminological Mark-up Framework Définition de structures sous-jacentes et de mécanismes
nécessaires à la représentation informatisée de données terminologiques
Indépendance vis-à-vis des formats spécifiques
GMT: Generic Mapping Tool Un format XML abstrait équivalent au modèle sous-jacent de
TMF
TML: Terminological Mark-up Language Une représentation spécifique générée dans le cadre de TMF
Une famille de formats…
TMF
TML1 TML2 TML3 TMLi…
(DXLT)(Geneter)
GMT
Meta-modèle
Représentation de la structure sous-jacente de données terminologiques
Modèle conceptuel : structure typique
1 concept
Décrit et défini dans n langues
Désigné par n termes
Langue 1 Langue 2
Langue 3
Définition
Terme 1 Terme 2 Terme...
UsageGrammaire Contexte ...
« Concept »
Langue ...
Exemple : la fiche Dhydro
Le squelette structurel
Terminological Data Collection (TDC)
Global Information (GI) Complementary Information (CI)
Terminological Entry (TE)
Language Section (LS)
Term Level (TL)
Term Component Level (TCL)
*
*
*
*
Comment cela fonctionne ?
Étudions un exemple…
Exemple DXLT :<termEntry id="ID67">
<descrip type="subjectField">manufacturing</descrip><descrip type="definition">A value between 0 and 1 used in ... </descrip><langSet lang="en">
<tig><term>alpha smoothing factor</term><termNote type="termType">fullForm</termNote>
</tig></langSet><langSet lang="hu">
<tig><term>Alfa ... </term>
</tig></langSet>
</termEntry>
Identification du squelette structurel
id=‘ID67’ [attribute]subjectField=‘ manufacturing ’ [typedElement]definition=‘A value…’ [typedElement]
lang=‘ hu ’ [attribute]lang=‘ en ’ [attribute]
term=‘…’ [element]
term=‘alpha smoothing factor’ [element]termType=‘fullForm’ [typedElement]
TE
LS
TStig
langSet
tig
langSet
termEntry
TE: Terminological EntryLS: Language SectionTS: Term Section
Modèle TMF niveau information
TE
TS
LSLS
TS
id=‘ID67’subjectField=‘ manufacturing ’definition=‘A value…’
lang=‘ hu ’lang=‘ en ’
term=‘…’term=‘alpha smoothing factor’termType=‘fullForm’
Représentation GMT<struct type="TE">
<feat type="id">ID67</feat><feat type="subjectField">manufacturing</feat><feat type="definition">A value between 0 and 1 used in ... </feat><struct type="LS">
<feat type="lang">en</feat><struct type="TS">
<feat type="term">alpha smoothing factor</feat> <feat type="termType">fullForm</feat>
</struct></struct><struct type="LS">
<feat type="lang">hu</feat><struct type="TS">
<feat type="term">Alfa ... </feat></struct>
</struct></struct>
Structural Skeleton DCRref (ISO12620)
DCRi
- DCRref subset- Application dependent DCR
Interoperability conditionsGMT
Dialecti
- Expansion structures- DatCat structural styles- DatCat vocabulary styles
Terminological Markup Language (TML)
Catégories de données
Une description formelle
Quel modèle pour les catégories de données ?
Utilisation de XML : Cohérence avec les principes de TMF Utilisation de feuilles de style pour la génération
de schémas et de filtres
Utilisation de RDF (Resource Description Framework) Futur format pour la représentation de méta-
données : La description de catégories de données est synonyme
de méta-donnée dans l’approche TMF
Description d’une catégorie de données
DCDefinition
DCName
Content
dcsd:DCDefinition
dcsd:DCName
dcsd:Content
dcsd:DCIdentifier
dcsd:Level
DCType (S, C)dcsd:DCType
Salt 2000-11-08/SEW
dcsd:DCAdmin
DCComment
dcsd:DCComment
Data Category
Locus
DCAdmin
DCIdentifierDCParent
dcsd:DCParent
DCExample
dcsd:DCExample
Niveaux et contenus
Content
DataType TargetType
Ref to other datcat(s)
dcsd:DataType dcsd:TargetType
rdf:Alt
rdf:li
List of References
List of References
Ref to other datcats
rdf:Alt
rdf:li
Level/Loci
rdf:Alt
Ref to other datcat(s)
rdf:li
List of References
Relations implicites et explicites
Relations implicites Synonymie Équivalence
Relations à expliciter liens lexicaux entre termes :
‘abréviation de’, ‘troncation de’, ‘symbole de’, etc. liens sémantiques entre « concepts »
‘type de’, ‘cause de’, ‘au-dessus de’, etc.
Situer les relations conceptuelles
Au niveau interlangue la relation est valide pour tout équivalent
Concept = noyau de sens commun
Au niveau de chaque langue la relation est valide pour tout synonyme
Concept = unité de compréhension
Au niveau de chaque terme La relation est valide pour un terme donné
Concept = ?
Quelle typologie des relations?
ISO 12620 (1999) typologie élémentaire
espèce-genre, partie-tout, séquentielle (spatiales, temporelles, causales) et associative
imprécision la place de chaque concept dans la relation n’est pas
toujours précisée
Olif 2 (2000)
Open Lexicon Interchange Format inventaire nettement plus étoffé prenant en
compte : les théories de la méronymie l’interaction entre relations sémantiques et syntaxe
mélange des relations lexicales : ‘abréviation de’ sémantiques : ‘synonyme de’ conceptuelles : ‘ fils de’
Quelles informations échanger?
classification typologique du lien
niveau de validité « concept », langue, terme?
autres informations direction éventuelle du «vecteur» formulation du lien dans chaque langue propriétés de la relation restriction trait distinctif ...
Conclusion
Un modèle général pour l’analyse et la représentation de collections de données terminologiques
Un formalisme sous-jacent exprimé en XML, RDF Outils associés
DCSEditor, DCSBrowser, Génération automatique de filtres XSLT et de schémas
XML pour une spécification donnée de TML