cours sur le traitement automatique des langues

59
Cours sur le traitement automatique des langues La sémantique Violaine Prince Université de Montpellier 2 LIRMM-CNRS

Upload: lykhue

Post on 05-Jan-2017

241 views

Category:

Documents


2 download

TRANSCRIPT

Cours sur le traitement automatique des languesLa sémantique

Violaine PrinceUniversité de Montpellier 2LIRMM-CNRS

Introduction 2

Plan de l’exposé Introduction Les principes Les applications

recherche d’information interprétation de requêtes dialogues finalisés le contrôle de l’interprétation

morphosyntaxique Conclusion et perspectives

Introduction 3

Introduction Qu ’est-ce que la sémantique ?

affectation d ’un (ou plusieurs) sens à des formes

A quoi sert la sémantique ? l ’utilité dépend du domaine

Domaines de la sémantique linguistique logique langages

Introduction 4

Définitions de la sémantique (I)

Autant de définitions que de domaines en logique : affectation d’une interprétation à

un prédicat, une formule, un énoncé en logique classique : évaluation à vrai, faux en logique multivaluée : évaluation à une des

valeurs autorisées en logique floue : calcul de la valeur (numérique)

de la fonction de « fitness »

Introduction 5

Exemples (I) objet (ballon, rouge) évalué à vrai si

et seulement si : objet(x,y) et « ballon » appartient

au domaine de validité de x et « rouge » appartient au domaine

de validité de y sémantique vériconditionnelle ne traite pas du rapport avec le

monde

Introduction 6

Exemples (II) objet( ballon, rouge) évalué à

« inconnu » en logique non monotone

si on n ’a pas, dans la base, objet(ballon, rouge), comme une connaissance vraie.

Introduction 7

Définitions de la sémantique (II) langages de programmation : intervient après la vérification morpho-

syntaxique la sémantique est réalisée par le

compilateur ou l ’interpréteur interpréter une instruction revient à

• vérifier les contraintes d ’intégrité• produire un exécutable

Introduction 8

Définitions de la sémantique (III)

linguistique : il existe plusieurs définitions ordonner les significations d ’un mot (sens du

dictionnaire) exemple : pompe

• 1. appareil permettant l ’aspiration d’un liquide, ex : « une pompe de relevage »

• 2. par extension de 1, dispositif de fourniture d ’essence pour automobile , « la pompe à essence »

• 3. par extension de 2, représente les propriétés de l ’essence, « le prix à la pompe » 

• 4. par extension de 2, représente le lieu de fourniture d ’essence , « il y a une pompe pas loin  ».

Introduction 9

mais aussi , • 5.faste, luxe , « cérémonie en grande pompe »• 6. (familier) chaussures « des pompes en simili-

crocodile ».• 7. Exercice physique, parfois d ’aspect punitif « vous

me ferez 100 pompes » retrouver le (ou les sens) en contexte :

• Je me suis arrêté à la première pompe que j ’ai pu trouver. J’en ai profité pour nettoyer au jet mes pompes boueuses, d’autant plus que je devais assister ensuite à une cérémonie en grande pompe à la mairie.

Introduction 10

Qu’est-ce qu’un contexte ?

En linguistique : groupe de mots phrase paragraphe texte

mais aussi : le sous-ensemble des hypothèses de l’auditeur sur le

monde (Latraverse, 1987) les objets et individus présents dans la situation

d’énonciation ou évoqués par elle (Lyons, 1977)

Introduction 11

référent : objet linguistique

référé: objet mental objet référé: objet du monde

Langue

mondeindividu

triangle aristotélicientriangle aristotélicienLe contexte d’un objet linguistique est composé :1.du co-texte (autres objets linguistiques dans l ’entourage)2.du contexte mental (base de connaissances) où se trouve le référé3.du contexte externe (le monde) où se trouve l ’objet référé.

Introduction 12

En logique les prédicats du même énoncé les variables liées les valeurs de variables proposées

En logique, les contextes mental et externe sont confondus avec le co-texte

En programmation : il existe un « contexte mental » qui pourrait

correspondre à : l’état de la base de connaissances l’état de la machine

Introduction 13

A quoi sert la sémantique

En linguistique : mise en rapport des objets de langue

avec le monde• les enfants de Pierre et Marie sont blonds• La génération soixante-huit, ce sont les

enfants de Marx et du Coca-Cola En traitement automatique des langues

mise en rapport des objets de langue et d’une « forme » calculable

les principes 14

Les principes Les modèles

de la linguistique de l ’intelligence artificielle autres modèles en informatique

Les modes de résolution Les architectures

les principes 15

Les modèles Modèles linguistiques pour la

sémantique sémantique compositionnelle sémantique différentielle sémantique « interprétative »

les principes 16

Modèles linguistiques pour la sémantique Sémantique compositionnelle

Le sens de la phrase est une composition (plus ou moins formelle) des sens des mots

si un mot a plusieurs sens, cela génère autant de combinaisons possibles

le « bon » sens est celui dont la combinaison est plausible

les principes 17

Sémantique compositionnelle

Exemple« Je me suis arrêté à la première pompe

que j’ai pu trouver. »

lieuappareilchaussure

La condition de « plausibilité » exclut : « faste », et « exercicephysique ».

les principes 18

Sémantique compositionnelle

Exemple« Je me suis arrêté à la première pompe

que j ’ai pu trouver. » trois « phrases -sens » générées.

QUI DÉTERMINE LA PLAUSIBILITÉ ?UN PROCESSEUR HUMAINUNE CONNAISSANCE FORTE DU MONDE

les principes 19

Sémantique compositionnelle

Exemple« Je me suis arrêté à la première pompe

que j ’ai pu trouver. » Une deuxième « passe » de plausibilité

supprimera le sens « chaussure ».

EST PLAUSIBLE CE QUI :N ’EST PAS INCONGRUN ’EST PAS RIDICULE

les principes 20

Sémantique différentielle

Parmi tous les sens d ’un mot, c ’est le plus spécifique qui doit être choisi en premier.

S ’appuie sur une représentation très fine des sens des mots dans le dictionnaire

Pottier, Greimas (sémantique structuraliste), Barwise et Perry (sémantique des situations)

les principes 21

Sémantique différentielle

« Je me suis arrêté à la première pompe que j ’ai pu trouver. »

• 1. appareil permettant l’aspiration d’un liquide, ex : « une pompe de relevage »

• 2. par extension de 1, dispositif de fourniture d ’essence pour automobile , « la pompe à essence »

• 3. par extension de 2, représente les propriétés de l’essence, « le prix à la pompe » 

• 4. par extension de 2, représente le lieu de fourniture d ’essence , « il y a une pompe pas loin  ».

les principes 22

Sémantique différentielle

« Je me suis arrêté à la première pompe que j ’ai pu trouver. »

appareil

appareil à essenceaspiration liquide

1.

2.

les propriétés de l’essence

essence automobile3. lieu consacré à la ventestation d’essence

4.

Introduction 23

Sémantique différentielle

Les règles de différentiation qui s ’appliquent sont :

compatibles avec le co-texte arrêter, trouver

forcées par le co-texte (coercitive rules de Pustejovsky)

les principes 24

Sémantique interprétative

Le sens le plus spécifique garde en mémoire tous les sens génériques, et la récurrence du terme peut s ’appuyer sur le fond commun.

Rastier (1986)Fonctionne pour les mots à sens multiples et

dépendants. .

les principes 25

Sémantique interprétative

« Je me suis arrêté à la première pompe que j ’ai pu trouver. »

appareil

appareil à essenceaspiration liquide

1.

2.

les propriétés de l’essence

essence automobile3. lieu consacré à la ventestation d’essence

4.

les principes 26

Les modèles Les modèles de l’intelligence

artificielle Les schémas (frames) Les scénarios (scripts) Les ontologies arborescentes

(issues des réseaux sémantiques) Les graphes conceptuels

les principes 27

Les modèles de l ’intelligence artificielle

Les schémas (Minsky 1974) Un schéma (frame) est un ensemble de

connaissances autour d’un sujet donné (ici, un mot).

L ’usage des schémas en sémantique se fait de la manière suivante : sur une chaîne de classification donnée, on

associe à chaque terme son schéma.

les principes 28

C1n

valeurs par défaut pour C1n sous forme d ’{attribut

(facette, valeur)}

C1n-1

C11

lien « is-a »

SchémadeC1

n

Schéma de C1

1

Schémade

C1n-1

les principes 29

Exemple Chaise :

chaise-à-porteur

chaise

meublecomposé de:pieds (3, 4)dosseret (oui,

barreaux : oui,non non)assise :matière

fait en :matière (organique, minérale)type (naturelle, artificielle)prix:origine :

17ème sièclemode de transport

fauteuil

les principes 30

Beaucoup de connaissances à intégrer Problème des sens figurés du mot:

jouer aux chaises musicales mener une vie de bâton de chaise

Et de certains de ses dérivés : ambitionner le fauteuil présidentiel.

Les schémas sont adaptés en sémantique lorsqu ’il s ’agit d ’applications très limitées.

A éviter en recherche d’information ou indexation

les principes 31

Les modèles de l ’intelligence artificielle

Les scénarios (Schank 1978) Un scénario (script) est un ensemble de

connaissances autour d ’une situation donnée.

Le scénario comprend : des conditions initiales (de déclenchement) des actions (possibles) un résultat des exceptions (anomalies)

A chaque élément est associé un schéma.

les principes 32

Les scénarios pour l ’interprétation du LN

Les scénarios s’appliquent à l ’interprétation du langage naturel en fournissant les conditions pragmatiques d ’interprétation. Les conditions initiales peuvent être

exprimées par du texte Les actions sont des prédicats verbaux Le résultat est ce qui est attendu Les anomalies sont répertoriées lors qu ’elles

sont connues.

les principes 33

COMPRENDRE

événement

Ce qui est dit ce que l ’on sait déjà

Schémas

actionsélémentaires

référenceà d ’autresschémas

les principes 34

Exemple Scénario : « réviser une voiture »

ELEMENTS : voiture

ACTEURS : client, garagiste

CONDITIONS INITIALES le client amène sa voiture au garage il possède un moyen de paiement la voiture est dans un état donné

les principes 35

Exemple : réviser une voiture RESULTAT(ESCOMPTE)

le client reprend sa voiture au garage il a de l ’argent en moins la voiture est révisée

ANOMALIES le client ne reprend pas sa voiture la voiture n ’est pas révisée la voiture est révisée mais elle n ’est pas en

bon état

les principes 36

Exemple : réviser une voiture ACTIONS

Origine : CLIENT• AMENER (voiture, garage)• LAISSER-A (voiture, clés, papiers, garagiste)• CONVENIR-AVEC (rendez-vous, garagiste)• PARTIR• REVENIR• PAYER(facture)• PRENDRE (voiture, clé, papiers)

les principes 37

Exemple : réviser une voiture Origine : GARAGISTE

• pour chaque partie de Voiture (schéma VOITURE) faire :

– VERIFIER (partie)– si partie à changer alors CHANGER(partie)– si partie à réparer alors REPARER (partie)

• fin• pour tous les éléments changés et réparés,

MARQUER (partie)• FACTURER (partie)• DONNER (facture, client).

les principes 38

Les difficultés Des situations stéréotypées Ambiguïté du déclenchement

Jean est allé chez le garagiste.

acheter une voiture

louer unevoiture

réparer unevoiture

réviser unevoiture

Introduction 39

Extensions : plans et thèmes

Repérer le thème du texte acteurs, éléments premiers prédicats verbaux

Considérer un scénario comme un plan possible, modifiable (déroutable)

planification

les principes 40

Conclusion sur les schémas et les scénarios Essaient d ’intégrer des connaissances

« contextuelles » de type pragmatique Mais

lourdeur des structures rigidité aspect trop détailliste par certains côtés pas assez

par d ’autres énorme quantité de connaissances structuration dépendant fortement des concepteurs

les principes 41

Les modèles de l ’intelligence artificielle

Les « ontologies » arborescentes après l ’échec d’une structuration trop

importante et trop large restriction des années 90

à une application à un domaine, de préférence technique et défini à une structure arborescente

plusieurs « arbres de connaissance » plutôt qu ’un seul réseau

les principes 42

Exemple domaine : chimie application : enseignement secondaire de la

chimie atomique: agrégats « partie-de »

particule

atome

molécule substance

les principes 43

Exemple domaine : chimie application : enseignement secondaire de la

chimie atomique: agrégat « sorte-de »

particuleparticulechargée particule neutre

proton électron neutron

les principes 44

relations typées sorte-de selon un critère sorte-de : inclusion de classe sorte-de : membre-de partie-de

Les ontologies arborescentes supposent : un mot un sens

ce qui correspond qu ’à un sous-ensemble très faible du langage naturel

les principes 45

Les modèles de l ’intelligence artificielle

Les graphes conceptuels (Sowa 1984) l ’idée que l ’esprit et le langage s ’organisent

de la même manière (ressemblance des contextes linguistique et mental)

il existe une représentation en lambda-calcul du contexte mental

application à la langue

objet du prochain cours

les applications 46

Les applications Recherche d’information

recherche d ’une information I représentée par un texte T, dans une base de documents D

Indexation par un texte T d ’une information I, applicable à toute base de documents Dk

Les deux problèmes ne sont pas exactement symétriques

les applications 47

Recherche d ’information

base de documents(corpus)

recherche d’occurrences

texte TI1

InI2

les Ij sont dessens possiblesde T, ou contenusdans des sens de T

l ’algorithme de recherched ’occurrence est celui d ’un motif M/ M◊d ’un sous-motif K de M/ MT = K

les applications 48

Problèmes L ’information I recherchée

n ’est pas représentée par un unique texte T n ’est pas le seul sens possible de T n ’est pas la composition des sens des éléments

de T Les occurrences de T récupérées, sont, au

mieux des sur-textes de T, parfois des sous-textes.

La recherche d ’information est donc parasitée par la non unicité sémantique.

les applications 49

Exemple L ’information I recherchée concerne « l ’Hôtel

de Ville », c ’est-à-dire, la mairie principale du lieu (s ’il s ’agit d ’une ville à arrondissements). La séquence « hôtel de ville » a pour sens :

I1 :mairie I2:sorte d ’hôtel I3:sorte d ’hôtel en milieu urbain.

Sont récupérées dans le corpus des chaînes : rue de l ’Hôtel de Ville l ’hôtel de Mussy est dans la ville de Gordes

les applications 50

Exemple (suite) Si, de manière sophistiquée, un analyseur

accepte les formes accordées, on récupère en plus : tous les hôtels de la ville de Paris sont chers. l ’hôtel est en dehors de la ville. au métro Hôtel-de-Ville, vous trouverez le bazar

de l ’Hôtel-de-Ville. mais aussi, avec un pourcentage affaibli de

concordance, tout ce qui va contenir « hôtel » et « ville », dans la fenêtre donnée.

les applications 51

L ’indexation l ’indexation est le marquage d ’un texte T

comme motif pour tout corpus de documents Dk, dans le but de récupérer une information I.

Il faut donc choisir, pour indexer, le meilleur T parmi les Ti représentant I, mais rechercher sur les Ti (avoir un dictionnaire T:Ti)

La qualité intrinsèque de T n ’est cependant pas suffisante, elle est dépendante de la confrontation avec chaque corpus.

les applications 52

L ’indexation Ainsi, par exemple il vaut mieux indexer par :

mairie que par « hôtel de ville » par :

coléoptère que par « papillon » à cause des sens multiples, mais, si vous

cherchez dans un corpus scientifique, la qualité de votre index n ’est pas la même que dans un corpus général.

les applications 53

Dans un corpus de biologie, le mot « mère »a souvent le sens de « origine » ce qui n ’est pas le cas des corpus autres,

et le mot « charme » va souvent être associé aux propriétés des particules dans un corpus de

physique atomique, aux arbres dans un corpus d ’agronomie mais aussi à n ’importe quel autre sens possible. ex «  la démonstration/l ’expérience ne manque

pas de charme ».

les applications 54

Les applications L ’interprétation de requêtes

On suppose que l ’usager exprime une demande vis-à-vis d ’une : base de données base de connaissances base de documents

sous forme d ’une requête en langage naturel.

les applications 55

L’interprétation de requêtes

la sémantique consiste a : transformer la requête en structure toute ou partiellement appariable avec

la base de données : attribut/valeur la base de connaissances:

prémisse/conclusion la base de documents

dans le dernier cas, il s ’agit d ’identifier le texte T a rechercher, et le sens I le plus plausible de T.

les applications 56

Les dialogues finalisés

Le plus souvent, la requête est suffisamment mal formulée,

ou l ’on souhaite assister l ’usager dans la formulation ou la satisfaction de sa requête

Le dialogue est le plus haut niveau d ’intégration du TALN dans l ’interaction homme-machine l ’appariement de la requête devient l ’étape

ultime d ’un processus de communication

les applications 57

La sémantique au secours de l ’analysemorpho-syntaxique De nombreuses ambiguïtés morpho-

syntaxiques peuvent être levées grâce à l ’information sémantique, mais surtout pragmatique.

la ferme de Jean l ’usage désigne plus souvent le

bâtiment que la poutre.

conclusion 58

Conclusion(provisoire)

la sémantique est un élément qui, en TALN, devrait être indissociable de la pragmatique.

Les mots ont des significations possibles différentes, mais en contexte, ils ont un sens, qui peut être complexe.

les modèles logiques de la sémantique ont été insuffisants pour remplir leur rôle d ’interprétation

en revanche, ils sont très utiles comme systèmes d ’aide au raisonnement

conclusion 59

perspectives des modèles logiques descriptifs de la

sémantique : les graphes conceptuels les problèmes de la sémantique les modèles où le sens est calculé en contexte le modèle vectoriel : tourné vers la recherche

d ’information et l ’indexation.