approche numérique et approche symbolique de lacquisition de connaissances sémantiques en corpus :...

Approche numérique et approche symbolique de l’acquisition de connaissances sémantiques en

corpus : opposition ou combinaison ?

Pascale Sébillot

Équipe TexMex, IRISA, Rennes

Plan I- Approche numérique versus symbolique

précisions terminologiques principes généraux de l’approche numérique principes généraux de l’approche symbolique

II- Une expérience d’acquisition de relations sémantiques nomino-verbales par programmation logique inductive (PLI)

principes de la PLI expérimentation et résultats

III- Opposition définitive ? quelle approche dans quels cas ? tentatives de rapprochements

Précisions terminologiques Opposition numérique vs symbolique et non

numérique vs linguistique Techniques d’acquisition fondées sur la notion de

classifieur couples (n-uplets) respectant ou non la relation cible classifieurs regroupables selon les attributs utilisés pour

repérer les éléments respectant la relation

Exploitation de l’aspect fréquentiel (app. numérique) ou d’indices structurels (app. symbolique)

L’aspect des données exploitées par le classifieur ne préjuge pas de la technique qu’il utilise (techniques d’apprentissage numérique produisant des classifieurs symboliques)

Approche numérique

I.e. acquisition à partir d’indices numériques

Exploitation de l’aspect fréquentiel des données

Utilisation de techniques statistiques Extraction d’éléments respectant la

relation réalisée au niveau du corpus

Indices statistiques Cooccurrences dans une fenêtre (ou contexte syntaxique)

Mots apparaissant ensemble de manière statistiquement

significative

Coefficients d’association table de contingence

coefficient d’information mutuelle IM= log2(a/(a+b)(a+c))

test du 2 (Church-Gale 91) = (ad-bc)2/((a+b)(a+c)(b+c)(b+d))

(Church-Hanks 89) : extraction de termes complexes par variante

de l’IM prenant en compte la précédence linéaire

Segments répétés (Lebart-Salem 94)

m2 mk≠m2

m1 a b

ml≠m1 c d

Analyse distributionnelle

Linguistique Harrissienne (Harris et al. 89) Approches en 3 étapes

extraction des cooccurrents d'un mot mise en évidence de la

proximité/distance des mots 2 à 2 selon leurs cooccurrents

regroupement en classes Classes sémantiques… Grefenstette 94,

Bouaud et al. 97…

Points faibles et forts de l’approche numérique

Manque d’interprétabilité Détection au niveau du corpus…

Caractère automatique Portabilité

Approche symbolique I.e. acquisition à partir d’indices structurels Exploitation de l’aspect structurel des données Utilisation d’indices collectés sur le contexte

d’une occurrence de mots en relation Classifieur : souvent un ensemble de règles

s’appuyant sur des indices lexicaux, morphosyntaxiques…

Deux grandes familles approche linguistique approche par apprentissage

Approche linguistique

Définitions opérationnelles des éléments à acquérir, établies par expertise linguistique

Indices structurels donnés a priori Patrons, marqueurs Lexter (Bourigault 94)…

Approche linguistique

Seek (Jouis 95) : règles d'exploration contextuelle plus de 220 règles SI <condition de co-

présence de marqueurs linguistiques> ALORS <actions> OU <conclusions> manipulant plus de 3300 marqueurs linguistiques, construites manuellement

détection de couples de mots en relation binaire (localisation, tout à partie…)

Approche par apprentissage

Marqueurs de la relation issus d’une analyse d’exemples et non d’une connaissance linguistique a priori extraction de patrons à partir d’exemples

Hearst (92) : méthodologie en 5 étapes1. choisir une relation cible R2. réunir une liste de paires en relation R3. trouver les phrases contenant ces paires ; enregistrer

leurs contextes lexical et syntaxique4. trouver les points communs entre ces contextes ;

supposer que c’est un schéma de R5. appliquer les schémas pour avoir de nouvelles paires et

retourner en 3

Approche par apprentissage

Patrons inférés appliqués sur le corpus pour extraire des unités en relation

Hearst : phase 4 manuelle Hyponymie – Prométhée (Morin 99)

Automatisation par calcul de similarité entre contextes lexico-syntaxiques d’occurrences de paires N-N en relation classes

Schémas représentatifs obtenus par généralisation d’un contexte de chaque classe par suppression des attributs non communs aux autres contextes

SN tel que LISTE (arbres fruitiers tels que des pommiers, des poiriers…)

Points faibles et forts de l’approche symbolique

Nécessité de données en entrée (patrons, exemples) Hypothèse de l’approche linguistique : indices de

relations ne dépendent pas des domaines Interprétabilité, détection au niveau de l’occurrence Définition opérationnelle d’un concept Intérêt quand une relation est connue partiellement

en extension et pas en intention, c’est-à-dire non formalisée par une règle

Assise théorique de la généralisation automatique à partir d’exemples apprentissage artificiel (automatique) symbolique

Principes de la PLI

Induction – rappel a) Tous les hommes sont mortels mortel(X) :-

homme(X). b) Or Socrate est un homme homme(Socrate). c) Donc Socrate est mortel mortel(Socrate).

À partir de a) et b), déduction de c) (ex. démonstration automatique)

À partir de a) et c), abduction de b) (ex. diagnostic automatique)

À partir de b) et c), induction de a)

Principes de la PLI [Muggleton & De Raedt 94]

Technique d’apprentissage symbolique supervisée E+ et E- : exemples positifs et négatifs (contre-exemples) B : connaissances préalables (background knowledge) B, E+, E- exprimés en logique des prédicats

But : l’algorithme de PLI infère, par généralisation des exemples positifs, des règles (hypothèses, clauses) H qui caractérisent les exemples positifs par rapport aux négatifs

possibilité d’autoriser un peu de bruit (exemples négatifs couverts)

Intérêt : exemples à manipuler contenant un nombre variables d’objets et relations entre objets importantes

Exemple : apprendre quels animaux volent

E+ = {vole(canari). vole(chauve-souris).} E- = {:-vole(chien).} B = {oiseau(canari). mamm(chien). mamm(chauve-

souris). ailé(chauve-souris). ailé(canari).} H = {vole(X) :- ailé(X).}

vole(X).

vole(X) :- oiseau(X).

vole(X) :- mamm(X).

vole(X) :- oiseau(X), mamm(X).

vole(X) :- ailé(X).

Eh

général

spécifique

Un peu plus formellement…

Choix du langage des exemples et du langage des hypothèses

Lien entre les deux espaces : notion de couverture Hypothèses organisées par une notion de

généralisation Algorithme de PLI (ALEPH - Srinivasan 00)

1. choisir un exemple dans E+ ; arrêt s’il n’y en a plus

2. définir un espace de recherche d’hypothèses à partir de l’exemple et du langage d’hypothèses

3. rechercher l’hypothèse h dans l’espace de solutions maximisant une fonction de score Sc

4. conserver cette hypothèse et ôter les exemples qu’elle couvre (explique) ; retourner en 1

Expérience d’acquisition de relations sémantiques N-V par PLI

Travail réalisé avec C. Fabre (Erss), P. Bouillon (Tim/Issco) et V. Claveau (Olst) logiciel ASARES

Acquisition de couples N-V sémantiquement liés Liens définis dans la structure des qualia du

Lexique génératif (Pustejovsky 95) : rôles qualia télique : fonction ou but d’un objet (couper – couteau) agentif : mode de création d’un objet (construire – maison) couple N-V qualia par la suite

Pas d’a priori sur les structures portant les rôles qualia dans un corpus

Méthode symbolique d’acquisition : intérêt linguistique (schémas porteurs, verbalisation des rôles)

Extraction symbolique supervisée

Concept à apprendre : distinguer les paires N-V qualia des non-qualia en contexte (en corpus)

Informations utilisées contexte (informations apportées par étiquetages) ordre et distance entre N et V, succession des mots

Construction d’ensembles d’exemples E+ et E- par un expert

e+ : « À l’aide des manettes, déverrouiller le siège et ... » e- : « Gonfler la roue à la pression prescrite... »

Règles générées = patrons d’extraction interprétables

fonction

?

couples qualia


E+ et E-

expert LG

corpus

corpus étiquetéÉtiquetage

s

système PLI

patrons d’extraction

B

?

Corpus et étiquetages Manuel de maintenance d’hélicoptères de MATRA-CCR

corpus technique : nombreux termes concrets vocabulaire et structures syntaxiques homogènes 104 000 mots, 700 Koctets

Étiquetage catégoriel segmentation, lemmatisation, étiquetage (moins de 2%

d’erreurs) manettes est un nom commun au pluriel

Étiquetage sémantique (Bouillon et al. 00)

construction d’une hiérarchie d'étiquettes (à partir de WordNet) ex : un instrument est un type d’artefact, d’objet... manettes désigne un instrument moins de 1.5% d’erreurs

Corpus et étiquetages

Exemple de phrase étiquetée # (SENT <S> 114\3 COMP À_l'aide_des BOS à_l'aide_de#prep\rman 114\18 TOK manettes manette#noun_pl\ins 114\26 PUNCT , ,#wpunct\virg 114\28 TOK déverrouiller déverrouiller#verb_inf\acp 114\42 TOK le le#det_sg\ddef 114\45 TOK siège siège#noun_sg\art 114\52 TOK et et#conj_coord\rconj 114\55 LSPLIT l' il#pron\ppers 114\57 TOK avancer avancer#verb_inf\acp 115\1 TOK pour pour#prep\rpour ...

identifiant lemmeétiquette

catégorielle

étiquette sémantiqu

e

Exemples et connaissances a priori

Exemples description des mots de la phrase

étiquettes catégorielles étiquettes sémantiques

description des successions de mots distance en nombre de mots et verbes entre N et

V

Connaissances préalables : entre autres les hiérarchies des étiquettes catégorielles et sémantiques pour permettre des généralisations

Spécificités

Hypothèse bien formée pour identifier une paire N-V qualia clause donnant des informations sur les mots (N, V,

mots du contexte) ou sur les positions respectives du N et du V dans la phrase

Prise en compte des connaissances hiérarchiques

Règles linguistiquement pertinentes concision : au plus une information catégorielle et

sémantique par mot introduction de variables uniquement si contraintes

Mise en œuvre Codage exemple

dans E+

is_qualia(m114_18, m114_28).

Background knowledge

instrument(M) :- tags(M,_,ins).

artifact(M) :- instrument(M).

object(M) :- artifact(M).

...

dans Bsentence_beginning(m114_ 3).

tags(m114_3, prep, rman).

suc(m114_3, m114_18).

tags(m114_18, noun_pl, ins).

suc(m114_18, m_114_26).

...À l’aide des manettes, déverrouiller le siège et l’avancer pour…

Inférence des patrons d’extraction

Supervision : 3000 exemples positifs et 3000 négatifs

Apprentissage : 20min (vs 12h+ sans modifications)

Résultats : 9 patrons inférés is_qualia(N,V) :- precedes(V,N), near_verb(N,V),

infinitive(V), action_verb(V). V d’action à l’infinitif + (tout sauf un verbe)* + N obturer avec les bouchons is_qualia(N,V) :- precedes(V,N), suc(V,C), colon(C),

pred(N,D), punctuation(D), singular_common_noun(N). V + : + (tout mot)* + [:,;] + N ouvrir : le capot coulissant, le capot droit et…

Résultats - validation Validation théorique de

l’apprentissage et de ses paramétrages (validation croisée)

Validation empirique jeu de test sous-corpus de 32 000 mots focus sur 7 noms : vis, écrou, porte,

voyant… 286 paires annotées par des experts du

LG, dont 66 qualia

Résultats - validation Application des 9 patrons et comparaison

des résultats d’extraction des patrons inférés à ceux des experts

Calcul taux de rappel taux de précision F-mesure (2PR/(P+R)) coefficient Φ ( ((TP*TN)-(FP*FN))/

sqr(PrP*PrN*AP*AN) )

Résultats - validation

Application des 9 patrons d’extraction au sous-corpus

Résultats sous forme de liste ordonnée de couples N-V associés à un score (nb de détections)

un couple détecté plusieurs fois est plus « sûr » qu’un couple détecté 1 fois

N1-V1 score1

N2-V2 score2

...

Ni-Vi scorei

...

qualia

précision rappel

non-qualiaqualia

précision rappel non-qualia


Application des 9 patrons d’extraction au sous-corpus

Résultats sous forme de liste ordonnée de couples N-V associés à un score (nb de détections)

un couple détecté plusieurs fois est plus « sûr » qu’un couple détecté 1 fois

Influence du choix d’un seuil s sur R et P

Rappel et précision pour toutes les valeurs de s possibles courbe rappel-précision

Choix : valeur optimisant le coefficient Φ


Étalon : densité (précision moyenne obtenue par un système aléatoire)


Système Précision (P)

Rappel (R) F-mesure Φ

PLI 62.2% 92.4% 0.744 0.671

Comparaison avec des méthodes d’extraction statistiques

Cooccurrences de N et V dans une phrase, basées sur les lemmes

Meilleure précision mais taux de rappel plus faible Travail uniquement sur les lemmes alors que la PLI

bénéficie d’informations sémantiques et catégorielles Pas besoin de supervision

Système Précision (P) Rappel (R) F-mesure

PLI 62.2% 92.4% 0.744

coeff Ochiai 82.4% 42.4% 0.56

coeff IM3 92.3% 36.4% 0.522

test chi2 78.1% 37.9% 0.464

coeff loglike 80% 42.4% 0.554

Rappel-précision Asares/IM3

Comparaison avec une méthode syntaxique manuelle

Extraction basée sur une analyse syntaxique : annotation syntaxique (sujet, objet, modifieur) manuelle des paires N-V

Paire N-V détectée (qualia) si en relation syntaxique

Le lien qualia est plus qu’un simple lien syntaxique (rappel) (poser l’ensemble : rondelle, vis et serrer au couple)

Système Précision (P)

Rappel (R)

F-mesure

PLI 62.2% 92.4% 0.744

lien synt. 79.2% 86.4% 0.826

Pertinence linguistique des patrons d’extraction

1. is_qualia(N,V) :- precedes(V, N), near_verb(N, V), infinitive(V), action_verb(V).

2. is_qualia(N, V) :- contiguous(N, V).3. is_qualia(N, V) :- precedes(V, N), near_word(N, V), near_ verb(N,

V), suc(V,C), preposition(C).4. is_qualia(N, V) :- near_word(N, V), sentence_beginning(N).5. is_qualia(N, V) :- precedes(V, N), singular_common_noun(N),

suc(V,C), colon(C), pred(N,D), punctuation(D).6. is_qualia(N, V) :- near_word(N, V), suc(V,C), suc(C,D),

action_verb(D).7. is_qualia(N, V) :- precedes(N, V), near_word(N, V), pred(N,C),

punctuation(C).8. is_qualia(N, V) :- near_verb(N, V), pred(V,C), pred(C,D),

pred(D,E), preposition(E), sentence_beginning(N).9. is_qualia(N, V) :- precedes(N, V), near_verb(N, V), pred(N,C),

subordinating_conjunction(C).


À ce niveau de généralisation, peu de marqueurs linguistiques usuels sauf informations morphologiques et sémantiques pour les verbes

infinitifs et verbes d’action privilégiés

Autres critères proximité : N et V proches dans la phrase, sans verbe entre eux position : N ou V souvent en début de phrase (en particulier V) ponctuations telles que « : » « , » « ; » catégorisation morphosyntaxique

1e clause verbe d’action à l’infinitif débrancher les prises, déposer les obturateurs…


Patrons propres au corpus et interprétables Recoupement en partie de structures trouvées

manuellement (Galy 00) V infinitif + déterminant + N (visser le bouchon) N + V (un bouchon obture) être + V participe passé + par + déterminant + N (sont obturées par

les bouchons) …

Pertinence des structures infinitives, patrons avec N et V proches

Généralisations des structures de Galy (actif et passif clause 2)

Non trouvés : marqueurs polylexicaux (avoir pour but de…)

Mais indices nouveaux par rapport à l’analyse manuelle

Quelle approche dans quels cas ?

Numérique méthodes portables, automatiques résultats peu interprétables détection au niveau du corpus : une occurrence (retenue

ou non) pas explicable cas rares potentiellement problématiques

Symbolique connaissances a priori (patrons, exemples) résultats interprétables détection au niveau de l’occurrence cas rares pouvant être pris en compte

Quelle approche dans quels cas ?

Approche statistique très fréquemment efficace

… mais problème si relation sémantique très spécifique (cf. transparent suivant)

Recours dans ce cas à une approche symbolique

Idem quand besoin d’explication Autres contraintes (ou indices)

taille du corpus nombre d’exemples patrons a priori

Structuration au sein d’une classe sémantique

Construction automatique de classes par similarité de vecteurs de contexte

Mélange de synonymes, antonymes, hyperonymes… potentiellement problématique dans un cadre applicatif

Apprentissage symbolique de ces relations ou approche numérique possible ?

Structuration a posteriori au sein d’une classe

Résultats très préliminaires

Exemple Découpage automatique du corpus du Monde diplomatique en

sous-corpus thématiquement homogènes focus sur les nouvelles technologies

Classe {bouleversement, évolution, explosion, innovation, mutation, progrès, révolution}

Conservation des mots dans les contextes de tous les membres de la classe pour définir une distance

Classification hiérarchique groupant d’abord les mots les moins proches des autres

bouleversement, explosion, puis mutation, puis révolution, puis évolution ; {progrès, innovation} à part

Pas forcément convaincant…

Idées…

Appliquer des patrons connus pour structurer les éléments de la classe si nécessaire

Combiner du numérique et du symbolique Cumuler les avantages des approches

statistiques (automaticité) supervisées symboliques (qualité des résultats,

interprétabilité)

Travail effectué dans le cadre de l’apprentissage de patrons d’extraction de couples qualia

couples qualia


E+ et E-

expert LG

système PLI

patrons d’extraction

corpus

corpus étiquetéÉtiquetage

s

Acquisition statistique

couples

E+

E-

Extraction semi-supervisée

Mises en pratique de la combinaison par deux algorithmes

combinaison séquentielle : bootstrapping mutuel (Riloff 99)

combinaison intégrée

B

Extraction symbolique séquentielle

Combinaison séquentielle de l’extraction statistique et symbolique

Bootstrapping mutuel (Riloff 99) : chaque technique utilise en entrée la sortie de l’autre

Contrainte : débuter par la méthode statistique qui ne nécessite que le corpus

Mise en œuvre simple aucune modification des techniques

d’extraction

Algorithme d’extraction séquentielle

Itération extraction statistique à l’aide des fréquences

(scores) indiquées dans LPLI → LIM3

constitution de E+ et E- à partir de LIM3

apprentissage par PLI sur E+ et E- → LR

application des règles de LR au corpus → LPLI

Initialisation LR = {is_qualia(N,V).}

application des règles de LR au corpus → LPLI

Arrêt quand LPLI identique 2 tours de suite

Extraction mixte séquentielle

ens. E+ et E-

système PLI +

B

(patrons) LR

corpus étiqueté

LPLI (couples)

extraction

statistique

LIM3 (couples)

Initialisation

E+

E-

Extraction symbolique intégrée

Retour aux pas 2 et 3 de l’algorithme de PLI 2- définir un espace de recherche d’hypothèses Eh à

partir de l’exemple et du langage d’hypothèses 3- rechercher l’hypothèse h dans l’espace de solutions

maximisant une fonction de score Sc

Sc(h) = fct(|E+h|, |E-

h|) Sc(h) = |E+h| - |E-

h|

Poids associé à chaque exemple ou contre-exemple selon son score IM3 : w(e)

Sc(h) redéfinie en fct( w(e), w(e)) e Eh

+ e Eh-

Sc(h) = w(e) - w(e) e Eh

+ e Eh-

Extraction symbolique intégrée

Intégration des résultats statistiques dans la phase d’apprentissage

Forte influence des paires les plus statistiquement significatives sur l’inférence

Normalisation des poids (somme de poids des exemples positifs = somme de poids des exemples négatifs)

Une extraction statistique + une phase d’apprentissage par PLI ; moins coûteux

Évaluation des performances

Performances optimales des 4 systèmes

Précision Rappel F-mesure

Asaressupervisé

62.2% 92.4% 0.744

IM3 92.3% 36.4% 0.522

mixte séquentiel

62.0% 93.9% 0.747

mixte intégré

60.2% 89.4% 0.720

Évaluation des performances

Résultats d’extraction similaires à la version supervisée

Grande similitude entre les patrons générés par

le système supervisé et les semi-supervisés

Apprentissage entièrement automatique plus de phases de supervision nécessaires

Remarques conclusives

Ce que j’ai dit ne pas faire l’impasse sur l’approche symbolique

Ce que je n’ai surtout pas dit oublier l’approche numérique

Ce en que je crois fortement combiner

Approche numérique et approche symbolique de l’acquisition de connaissances sémantiques en

corpus : opposition ou combinaison ?

Pascale Sébillot

Équipe TexMex, IRISA, Rennes

Merci de votre attention

approche numérique et approche symbolique de lacquisition de connaissances sémantiques en corpus :...

Documents