Éric laporte laboratoire d'informatique gaspard-monge université paris-est marne-la-vallée...
TRANSCRIPT
Éric LaporteLaboratoire d'Informatique Gaspard-Monge
Université Paris-Est Marne-la-ValléeFrance
http://igm.univ-mlv.fr/~laporte/
Tendances actuelles du traitement des langues
Les Arts du spectacle de la francophonieUniversité Sung-kyun-kwan, 13 juin 2009
Session : la Linguistique française et ses applications
Applications du traitement des langues aujourd'hui
La linguistique et le traitement des langues
La linguistique pour le traitement des langues
L'évolution de la communauté scientifique Recherche fondamentale et appliquéeLa normalisation
Les débats actuelsLe Web sémantiqueL'évaluation
Sommaire
Moteurs de rechercheFouille d'opinionsTraduction automatiqueApprentissage en ligneClassification de documentsCorrection orthographiqueLecture vocaleReconnaissance vocaleAgents conversationnelsRésumé automatique
Applications du traitement des langues
Moteurs de recherche
Fouille d'opinions (1/3)
Les documents exprimant des opinionsPlus complexe que les documents techniquesOpinions rationnelles ou émotionnelles
Le film dure 3 h 30Un grand Almodovar
Opinions explicites ou implicitesdistribution brillantecinéma dans le cinéma
Fouille d'opinions (2/3)
Assumer ou rapporter une opinionOn nous avait prévenu. Les derniers jours,
à Cannes, sont généralement réservés aux films auxquels les sélectionneurs « ne croient pas vraiment ». En gros, aux plus mauvais films de la sélection.
Sur quoi porte l'opinion ?L'émotion tient à la beauté du personnage de
Lena
Fouille d'opinions (3/3)
Traduction automatique
Apprentissage en ligne
Classification de documents
Correction orthographique (1/2)
Correction orthographique (2/2)
Le TGV 847 à destination de Bordeaux partira voie L
Contrairement à ce qui a été annoncé, le TGV 847 à destination de Bordeaux partira voie M
Lecture vocale
Le TGV 847 à destination de Bordeaux partira voie L
Contrairement à ce qui a été annoncé, le TGV 847 à destination de Bordeaux partira voie M
Lecture vocale
En raison de la présence de manifestants sur le toit, le TGV 847 à destination de Bordeaux partira avec un retard d'au moins 15 minutes
Appeler Françoise
Je voudrais faire un appel en PCV
Écrire un nouveau message
De quel aéroport part le vol AF 8238 à destination de Séoul ?
Reconnaissance vocale
Agents conversationnels
Un faux agent conversationnel
Résumé (74 mots) de l'article de Wikipédia en français sur l'écriture coréenne (237 mots)
Le coréen utilise les « hanja » (mot coréen désignant les caractères chinois - « sinogrammes » - très proches de ceux utilisés en Chine et au Japon), bien qu'il tende aujourd’hui à ne plus s’écrire qu’avec le hangeul, l’alphabet coréen. L’alphabet hangeul comprend 40 lettres (19 consonnes et 21 voyelles). L'alphabet hangeul est utilisé en regroupant les lettres par syllabes occupant des blocs carrés, à raison de 2 à 4 lettres par syllabe.
Résumé automatique
Deux communautés scientifiques très différentes: les linguistes et les informaticiensUne difficulté à communiquer et interagir
Rapidité, efficacité ProfondeurMathématiques PhilosophieAnalyse Synthèse
Une familiarité avec la linguistique ou l'informatique nécessite au moins 4 années d'étudesPour les institutions, la pluridisciplinarité est difficile à gérerUn respect mutuelUne blague des années 1980 qui ridiculisait les linguistes: les problèmes NP-complets, VP-complets...
La linguistique et le traitement des langues (1/4)
Les informaticiens méfiants vis-à-vis des linguistes90 % du traitement des langues est sans dictionnaire« Un travail long, fastidieux et sujet à des erreurs »
Les linguistes réticents à codifier les informationsMarquage des séquences correctes et incorrectes
Je pense à Luc *Je lui pense« Une pluie d'étoiles exterminatrices »
La linguistique et le traitement des langues (2/4)
La méthode du « sac de mots »On représente un document par son vocabulaireOn néglige l'ordre des mots et la notion de phraseUn document est représenté par un tableau de chiffresDes résultats spectaculairesPeu d'efforts : aucune information linguistique, des algorithmes simplesUne explosion du nombre d'utilisateursUn effet de la popularisation d'Internet depuis 1995
Des échecs prévisibles sur certaines langues (arabe) et certains problèmes (traduction)
La linguistique et le traitement des langues (3/4)
Les méthodes fondées sur la linguistiqueLexiques : propriétés des mots et des expressionsGrammaires : propriétés des constructions« Ressources linguistiques »Une communauté minoritaireUne réserve de solutions à long terme pour les problèmes difficiles
La linguistique et le traitement des langues (4/4)
Des contraintes spécifiques
FormalisationSeules des données codifiées sont exploitables
Confrontation avec la réalité de l'usage linguistiqueL'exploitation technique des résultats est une forme supplémentaire d'évaluation
La linguistique pour le traitement des langues (1/4)
FormalisationSeules des données codifiées sont exploitablesExemple de données non codifiées
La linguistique pour le traitement des langues (2/4)
Exemple de données codifiées
La linguistique pour le traitement des langues (3/4)
Confrontation avec la réalité de l'usage linguistiqueL'application au traitement des langues donne une évaluation supplémentaire de la qualité des résultatsPrécautions méthodologiques :- Définition des notions par des critères- Observation de corpus- Entraînement du jugement d'acceptabilité- Entraînement à la construction d'exemples
La linguistique pour le traitement des langues (4/4)
Constructions à verbe support (CVS)Luc prend du reposLes immigrés prennent racine dans leur nouveau pays
Critère : l'emploi du nom sans le verbe
Prendre du repos a fait du bien à LucCe repos a fait du bien à Luc : CVS
Prendre racine dans un nouveau pays met du temps*Une racine dans un nouveau pays met du temps
Définition des notions par des critères
Observation de corpus
*Du repos m'a fait du bienCe repos m'a fait du bien
Du repos me ferait du bien?Ce repos me ferait du bien
Une forme qui n'apparaît dans aucun corpus peut être acceptableL'introspection est la seule source d'information disponibleL'entraînement et le contrôle mutuel compensent la subjectivité de l'introspection
Entraînement du jugement d'acceptabilité
Ce repos m'a fait du bienDu repos me ferait du bien
Une série d'exemples construite d'une façon non systématique a moins de valeur probante
Entraînement à la construction d'exemples
Passé composé Conditionnel
du*Du repos m'a fait du
bienDu repos me ferait du
bien
ceCe repos m'a fait du
bien?Ce repos me ferait du
bien
Une responsabilité collective, internationale, des chercheursL'évaluation par les pairsProgressivement adoptée par la communauté scientifiqueCette pratique favorise les recherches appréciées par les autres chercheurs du même domaineDes pratiques moins désirablesFavoriser les chercheurs qui ont des relationsFavoriser les chercheurs qui peuvent financer leurs publications
L'évolution de la communauté scientifique (1/2)
L'évaluation par les pairs n'est pas parfaiteCertains critères de qualité discutables favorisent les méthodes mathématico-informatiquesLa popularité auprès d'une population plus vasteLes informaticiens plus nombreux que les chercheurs pluridisciplinairesLa facilité, la simplicitéUn produit moins coûteux n'est pas forcément meilleurL'efficacité à court termeConstruction d'un dictionnaire : 5 à 15 ansLa « mode »
L'évolution de la communauté scientifique (2/2)
Les solutions exploitables à court termeRecherche privéeQuelques petites entreprises spécialiséesDes services de grandes entreprises :
- sac de mots- mémoire de traductions- achat de résultats de petites entreprises
Les universitésL'essentiel de l'activité universitaire en traitement des langues
Recherche appliquée
Problèmes fondamentaux, applications à long termeDictionnaires morpho-syntaxiques : 5 ans (Delaf)Dictionnaires syntaxico-sémantiques :
6 ans (Dicovalence)9 ans (Framenet, Verbnet)16 ans (Lexique-grammaire)25 ans (DiCo)
Une responsabilité de la recherche publiqueUne proportion minoritaire de l'activité universitaire en traitement des langues
Recherche fondamentale
La normalisation des formats de ressources linguistiquesFaire fonctionner ensemble des systèmes indépendantsUn effort collectif, international depuis 2001ISO (Association internationale de normalisation)
La normalisation
Le Web sémantiqueLes ontologiesL'intelligence artificielleL'évaluation
Les débats actuels
Le Web pour les internautesLe Web pour les programmesUn parallèleLes dictionnaires pour lecteurs humains et les dictionnaires pour le traitement des langues
Le Web sémantique
Le Web pour les internautes
Le Web pour les programmes (?)
Dictionnaires pour les lecteurs humains
Dictionnaires pour les programmes
Les ontologies (1/3)
Une ontologie représente une façon de conceptualiser un domaine : objets, classes, attributs, relations, évènements
Une ontologie spécifie une représentation logico-sémantique suffisamment formelle pour permettre des raisonnements automatiques
Une ontologie décrit une façon de communiquer sur le domaine dans une communauté
Une ontologie inclut un réseau sémantique et la terminologie associée
Les ontologies (2/3)
Questions logiques : quel système formel ?
Questions linguistiques : comment représenter les présuppositions ? les informations implicites ?
Faible interaction entre linguistes et informaticiens
Ces questions sont étudiées de manière indépendante
Les objectifs sont-ils compatibles entre eux ?
Les ontologies (3/3)
Simuler sur ordinateur l'intelligence, y compris le langageAnnées 1960, 1970 et 1980 : enthousiasme et débats
L'intelligence artificielle
Des « cousins » de l'intelligenceLa mémoire : les programmes de jeu d'échecs battent le champion du monde (2006)La perception : reconnaissance des visagesLa statistique : classification de documents, financeEst-ce de l'intelligence ?
Les systèmes expertsSystèmes capables de traiter un problème complexe propre à un domaineIls utilisent un modèle du problème
Programmation orientée objetLe génie logiciel moderne met l'accent sur la modélisation des données du problème à résoudre
Démesure et réalismeLes recherches sur l'intelligence artificielle ont créé des techniques de modélisation efficaces
Intelligence artificielle et génie logiciel
Concours et défisMorpholympics (1994) : étiqueteurs lexicaux de l'allemandGrace (1997) : étiqueteurs lexicaux du françaisTechnolangue/Easy (2004) : analyseurs syntaxiques
Évaluer la qualité des résultats de la rechercheUn effort collectif, internationalParallèle avec l'évaluation par les pairsUne évaluation de plus en plus objectiveÉvaluation, compétition, motivation
Traitement des langues et évaluation
La réflexion sur les indicateurs de qualité est pauvre en général
Pas d'indicateurs de qualitéLes recherches sans indicateurs de qualité sont dévalorisées
Indicateurs trompeurs
Indicateurs ludiquesLa compétition pour le plaisir
Imperfections de l'évaluation
Certaines recherches fondamentales ne produisent pas de résultats évaluables avant des annéesElles sont dévalorisées
Un progrès peut faire diminuer temporairement un indicateur de qualité
Exemple : l'étiquetage lexical
Pas d'indicateurs de qualité
Diminution d'un indicateur de qualité (1/3)
Diminution d'un indicateur de qualité (2/3)
De plus en plus d'informations dans les étiquettesLe nombre d'analyses augmenteUn des indicateurs de qualité, la précision de l'étiquetage, diminueUne entente implicite entre chercheurs dans les années 1990 : on n'augmente pas la quantité d'informations dans les étiquettes tant qu'on ne sait pas choisir parmi les analyses Énumérer des analyses et sélectionner des analyses : deux problèmes distinctsL'entente équivalait à interrompre des programmes de recherches pour une raison d'évaluation
Diminution d'un indicateur de qualité (3/3)
( (S (NP Battle-tested industrial managers here) always (VP buck up (NP nervous newcomers) (PP with (NP the tale (PP of (NP (NP the (ADJP first (PP of (NP their countrymen)))
Indicateurs trompeurs (1/2)
(S (NP *) to (VP visit (NP Mexico)))) , (NP (NP a boatload (PP of (NP (NP warriors) (VP-1 blown ashore (ADVP (NP 375 years) ago))))) (VP-1 *pseudo-attach*)))))))) .)
Évaluation par comparaison avec une référence
Le Penn Treebank (1993) : corpus de l'anglais muni d'annotations syntaxiques, souvent utilisé comme référence pour des évaluations
Le Penn Treebank néglige les expressions multi-mots, pourtant déjà étudiées depuis longtemps à l'époque
Cela a ralenti les recherches dans ce domaine
Indicateurs trompeurs (2/2)
La compétition pour le plaisir
Indicateurs ludiques (1/2)
Chaque juge doit dialoguer avec un agent conversationnel et avec une personne, puis deviner lequel des deux est la personne
L'agent conversationnel que les juges prennent pour une personne le plus souvent gagne 3000 euros
Indicateurs ludiques (2/2)
Des débats sur les ressources linguistiques et la représentation des connaissances : ontologies, normalisation, indicateurs de qualité...
Les débats purement informatiques sont perçus comme moins pertinents : automates finis/grammaires algébriques
La communauté s'habitue progressivement à la pluridisciplinarité du traitement des langues
Conclusion