interface syntaxe-sémantique pour l ’extraction d ’information

31
Interface syntaxe-sémantique pour l ’extraction d ’information Amalia Todirascu Equipe Langue et Dialogue LORIA

Upload: tanith

Post on 17-Jan-2016

25 views

Category:

Documents


0 download

DESCRIPTION

Interface syntaxe-sémantique pour l ’extraction d ’information. Amalia Todirascu Equipe Langue et Dialogue LORIA. Plan. Contexte problématique des systèmes d ’extraction d ’information objectifs Syntaxe analyse superficielle vs. analyse classique grammaire & lexique TAG Ontologies - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Interface syntaxe-sémantique pour l ’extraction d ’information

Interface syntaxe-sémantique pour l ’extraction d ’information

Amalia TodirascuEquipe Langue et DialogueLORIA

Page 2: Interface syntaxe-sémantique pour l ’extraction d ’information

Plan Contexte

problématique des systèmes d ’extraction d ’information

objectifs

Syntaxe analyse superficielle vs. analyse classique grammaire & lexique TAG

Ontologies formalismes de représentation:logiques de description

Interface syntaxe-sémantique Perspectives

Page 3: Interface syntaxe-sémantique pour l ’extraction d ’information

Systèmes d ’extraction d ’information

But: identification des informations pertinentes

pour un domaine structurer ces informations

applications: recherche documentaire extraction d ’ontologies filtrage - projet Vulcain

Page 4: Interface syntaxe-sémantique pour l ’extraction d ’information

Systèmes d ’extraction d ’information

Documents

valider

Analyse syntaxique locale

Lexique

conceptscandidats

Ontologie

Extraction d ’information

Patronsmorpho-

syntaxiques

Ressources linguistiques

Identification des noms

Heuristiques

“the hacker had the root password”

(and password (some hasP root))hacker

Page 5: Interface syntaxe-sémantique pour l ’extraction d ’information

Objectifs du projet Vulcain

But: Filtrage des messages électroniques sur le domaine de sécurité des systèmes

Augmenter la portabilité : réutilisation des ressources linguistiques

(grammaire et lexique TAG) maintenir dynamiquement l ’ontologie du

domaine (inférences en logiques de description)

Augmenter la précision: ressources linguistiques validés par linguistes

(grammaires TAG)

concepts validés par l ’ontologie

Page 6: Interface syntaxe-sémantique pour l ’extraction d ’information

Un exemple

« Trond Hasle Amundsen wrote How can one run a DOS program when lilo and the BIOS are password

protected ? ...Remains the question how are you going to run DOS if the first thing that the computer does after the password protected BIOS is coming up with a

lilo prompt for a password ?»Corpus:

erreurs de syntaxe, d ’orthographe corpus de grande taille construction syntaxiques spécifiques (noms de

places, personnes, organisations, fonctions)

Page 7: Interface syntaxe-sémantique pour l ’extraction d ’information

Plan

Contexte problématique systèmes d ’extraction d ’information

Syntaxe analyse superficielle vs. analyse classique grammaire & lexique TAG

Ontologies formalismes de représentation:logiques de

description

Interface syntaxe-sémantique Perspectives

Page 8: Interface syntaxe-sémantique pour l ’extraction d ’information

Syntaxe (I)

techniques d ’analyse syntaxique robuste pour gérer les erreurs: patrons morpho-

syntaxiques automates à états finis statistiques (collocations)

difficile à construire une représentation sémantique structure syntaxique

primitive

analyse syntaxique classique structure syntaxique

et structure de dépendances

besoin de ressources linguistiques adaptées pour les textes spécialisés

mal adaptée pour des textes non-spécialisés: besoin de ressources

de grande taille, complètes

Page 9: Interface syntaxe-sémantique pour l ’extraction d ’information

Syntaxe (II)

Grammaires TAGs: localité arbres dérivés et de dérivation grammaires TAGs disponibles

combinaison des techniques statistiques et des grammaires locales liste des mots pertinents filtrage sur des mots pertinents choisir les arbres communs aux mots pertinents

Page 10: Interface syntaxe-sémantique pour l ’extraction d ’information

Syntaxe (III)

« the root password was used by an unknown user»

N

A N*

root

N

A N*

unknown

N

user

N

password

Page 11: Interface syntaxe-sémantique pour l ’extraction d ’information

Syntaxe (IV)

Modification de l’analyseur Lopez: modularité ressources en format standard (TAGML -

XML) optimisations

adapter les ressources pour les besoins lexique spécifique grammaire locale

Page 12: Interface syntaxe-sémantique pour l ’extraction d ’information

Plan

Contexte problématique systèmes d ’extraction d ’information

Syntaxe analyse superficielle vs. analyse classique grammaire & lexique TAG

Ontologies formalismes de représentation:logiques de

description

Interface syntaxe-sémantique Perspectives

Page 13: Interface syntaxe-sémantique pour l ’extraction d ’information

Ontologies

Définition: une description simplifiée des connaissances du domaine

portabilité réduitedéveloppement des méthodes

d ’extraction d ’ontologies à partir des textes: identification des termes (instances des

concepts) relation termes-concepts relations entre termes

Page 14: Interface syntaxe-sémantique pour l ’extraction d ’information

Formalismes de représentation d ’ontologies

structurer les connaissances (hiérarchie des concepts)

manipuler des connaissances incomplètes ou incorrectes

mise à jours dynamique des connaissances mécanismes d ’inférence mécanismes de vérification

éviter les redondances

Page 15: Interface syntaxe-sémantique pour l ’extraction d ’information

Logiques de description (I)

Plusieurs propriétés d ’autres formalismes: réseaux sémantiques logique du première ordre, logique modale systèmes de cadres et orientés-objet

organisation hiérarchique

syntaxe et sémantique bien définies

Page 16: Interface syntaxe-sémantique pour l ’extraction d ’information

Logiques de description (II)

organisation hiérarchique: conceptuel (T-Box)

conceptsrôles

asertionnel (A-Box)instances

procédures d ’inférences et de vérification décidables implémentation disponibles: FaCT, Racer, CLASSIC

Page 17: Interface syntaxe-sémantique pour l ’extraction d ’information

Constructeurs

LD Syntaxe Sémantique

D = (SOME R C) x (xRC) {x| y <x,y>RI et y CI }

D = (ALL R C) x(xRC) {x|y <x,y>RI => y CI}

D = (AND C1 C2) C1 C2 Conjonction des concepts C1 et C2

D = (OR C1 C2) C1 C2 Disjonction des concepts C1 et C2

D = (NOT C) C le complément de C

D = (at-least n R C) x1…xn (xiRC), 1i n

{x|y |<x,y>RI et y CI | n }

C1 C2 C1 C2 C1 sont de conditions nécessaires pourC2

Page 18: Interface syntaxe-sémantique pour l ’extraction d ’information

Définitions

Commandes Arguments

(define-concept C CN) CN = (ALL R C)| (SOME RC)| (AND C1 C2)| (OR C1 C2)

(instance I C) I est une instance de C

(concept-subsumes C1 C2) Verifie si C1 soubsume C2

(concept-instance C) Retrouve tous les instances duconcept C

(concept-coherence C TBox) Verifie si la T-Box est coerente

(concept-consistent C A-Box) Vérifie si la A-Box est consistante

Page 19: Interface syntaxe-sémantique pour l ’extraction d ’information

Exemples de définitions

(define-concept OperatingSystem

(and top (ALL hasFS FileSystem)

(ALL hasCommands Command) (SOME hasType Type)))

(define-concept PC

(and Computer (ALL hasOS (and OperatingSystem

(SOME hasType (OR Windows Linux)))))

(define-concept Net1 (AND Network (SOME hasIde « x11»)) )

(implies (and (and Person (SOME hasRootPasswd (and Password (SOME hasApply Net1)))) (not Admin))

(and Hacker (SOME hasAttacked Net1))

)

Page 20: Interface syntaxe-sémantique pour l ’extraction d ’information

LD - Inférences

hiérarchie basée sur la subsomption (organisation de la hiérarchie)

mécanismes de vérification cohérence appartenance des instances aux concepts algorithmes décidables pour certains expressivités

définitions des rôles et des concepts (ALC)hiérarchie des rôles (H)rôles transitives (f+)rôles inverses (I)contraintes numériques (Q)

Page 21: Interface syntaxe-sémantique pour l ’extraction d ’information

Applications LD

Applications: recherche documentaire sémantique du langage naturel bases de données avec schéma évolutive terminologies, ontologies

données semi-structurées ou incomplètes raisonnement au niveau d ’instanceexploitation des hyponymies/hyperonymieshypothèse du « monde ouverte »

Page 22: Interface syntaxe-sémantique pour l ’extraction d ’information

Données semi-structurés ou incomplètes

(define-concept Root (AND Administrator

(ALL hasAge Age)

(ALL hasAdmin Network)

(SOME hasRights Unlimited)))

(instance y0 (AND Root

(SOME hasAdmin (AND Network (SOME hasType WinNT))) ))

Page 23: Interface syntaxe-sémantique pour l ’extraction d ’information

Plan

Contexte problématique systèmes d ’extraction d ’information

Syntaxe analyse superficielle vs. analyse classique grammaire & lexique TAG

Ontologies formalismes de représentation:logiques de

description

Interface syntaxe-sémantique Perspectives

Page 24: Interface syntaxe-sémantique pour l ’extraction d ’information

Interface syntaxe-sémantique

Besoin de relier les grammaires TAG et l ’ontologie

Ressources nécessaires: lexique spécifique au domaine (mots-

arbres élémentaires) lexique sémantique (pairs mots-concepts) module d ’interface entre les arbres

dérivés et de dérivation

Page 25: Interface syntaxe-sémantique pour l ’extraction d ’information

L ’architecture

Extraction du Lexique

Corpus de Référence

Grammaire et Lexique TAG

Analyseur LTAG

Lexique spécifique

au domaine et

grammaire locale TAG

Extraction du lexique sémantique

Interface Syntaxe-

Sémantique

Entrée texte

représentationsconceptuelles

Page 26: Interface syntaxe-sémantique pour l ’extraction d ’information

L’ontologie

À partir de la liste des mots pertinents (verbes et noms)

les performances du système dépendent de la granularité de l’ontologie

concepts complexes découverts pendant l ’exploitation doivent être ajoutés à l ’ontologie

Page 27: Interface syntaxe-sémantique pour l ’extraction d ’information

Le lexique TAG

Méthode qui utilise grammaire TAG corpus de référence de 80000 mots TreeTagger (catégoriseur lexical)

Taille: 2500 noms, 750 adjectifs verbes ajoutés manuellement

Page 28: Interface syntaxe-sémantique pour l ’extraction d ’information

Le lexique sémantique

Chaque entrée lexicale contient des descriptions LD des contraintes (ajoutées par la méta-

grammaire)

<sem concept="system" lemma=”system”/><sem concept="(some hasMod main) ”  lemma=”main”/><sem concept="connect” lemma=”connect”>

<constr arg0="Substitution" address = "1"/><constr arg1="Substitution" address = "3"/>

</sem>

Page 29: Interface syntaxe-sémantique pour l ’extraction d ’information

Interface syntaxe-sémantique (II)

A

B C

Subst Adjonction

Sem(Tree) = (and Sem(A) (Some hasSubst Sem(B)) Sem(C)) (constraints A)

Arbre élémentaire

Interface syntaxesémantique

Classifieur LD

Page 30: Interface syntaxe-sémantique pour l ’extraction d ’information

Interface syntaxe-sémantique (exemple)

Sem(connected_to) = (and Connect (some hasSubst A)(some hasSubst B))(implies (some hasSubst A)(some arg0 A))(implies (some hasSubst B)(some arg1 B))

Sem(hacker) = HackerSem(server) = ServerSem(the) = (some hasDefine Defined)

Sem (the hacker)= (and Hacker (some hasDefine Defined)

Sem(the server)= (and Server (some hasDefine Defined))

(concept-satisfiable? (and Connect

(some arg0 (and hacker (some hasDefine Defined)))

(some arg1 (and server (some hasDefine Defined)) )))

Connect_to

hacker server

Substitution Substitution

the the

Page 31: Interface syntaxe-sémantique pour l ’extraction d ’information

Perspectives

optimisations possibles de l ’analyseur

développement du lexique sémantique

Intégration du système dans plusieurs projets: MIAMM, XMiner