ia et traitement automatique des langues (tal) -- quel panorama ?

34
INRIA IA et Traitement Automatique des Langues (TAL) Quel panorama ? Éric de la Clergerie <[email protected]> Almanach http://alpage.inria.fr Séminaire DIXIT Paris, 24 Février 2017 INRIA Éric de la Clergerie IA & NLP 07/12/15 1 / 34

Upload: eric-de-la-clergerie

Post on 15-Apr-2017

77 views

Category:

Science


2 download

TRANSCRIPT

Page 1: IA et Traitement Automatique des Langues (TAL) -- quel panorama ?

INRIA

IA et Traitement Automatique des Langues (TAL)Quel panorama ?

Éric de la Clergerie<[email protected]>

Almanachhttp://alpage.inria.fr

Séminaire DIXITParis, 24 Février 2017

INRIA Éric de la Clergerie IA & NLP 07/12/15 1 / 34

Page 2: IA et Traitement Automatique des Langues (TAL) -- quel panorama ?

INRIA

Analyse Linguistique Profonde À Grande Échelle

Outils + Ressources linguistiques vers Données + Apprentissage<?xml vers ion=" 1.0 " encoding=" ISO−8859−1 "?><dependencies i d ="E1" mode=" f u l l ">

< c l u s t e r i d = " E1c_1_2 " l e f t = " 1 " r i g h t = " 2 " token=" soyons " lex="E1F2 | soyons " / >

< c l u s t e r i d = " E1c_2_3 " l e f t = " 2 " r i g h t = " 3 " token=" i m a g i n a t i f s "l ex="E1F3 | i m a g i n a t i f s " / >

< c l u s t e r i d = " E1c_5_6 " l e f t = " 5 " r i g h t = " 6 " token=" déc lare " lex="E1F6 | déc lare " / >

<node de r i v = " E1d10 " xcat= "comp" i d =" E1n13 " cat= " ad j " t r ee =" 72" lemma=" i m a g i n a t i f " c l u s t e r = " E1c_2_3 " form=" i m a g i n a t i f s " / >

<node de r i v = " E1d104 " xcat= "S" i d =" E1n22 " cat= " v " t r ee =" 186 "lemma=" déc la re r " c l u s t e r = " E1c_5_6 " form=" déc lare " / >

<node de r i v = " E1d13 " xcat= "S" i d ="E1n7" cat= " v " t r ee =" 198 "lemma=" ê t re " c l u s t e r = " E1c_1_2 " form=" soyons " / >

<edge i d =" E1e029 " source=" E1n22 " t a r g e t = " E1n18 " type=" l e x i c a l" l a b e l = " sub jec t ">< de r i v names=" E1d104 " source_op="E1o5" target_op=" E1o20 "span=" 6 7 " / >

< / edge><edge i d =" E1e011 " source=" E1n007 " t a r g e t = " E1n013 " type=" subst

" l a b e l = "comp">< de r i v names=" E1d000013 " source_op=" E1o26 " target_op="E1o9"span=" 2 3 " / >

< / edge><edge i d =" E1e008 " source=" E1n022 " t a r g e t = " E1n007 " type=" subst

" l a b e l = "xcomp">< de r i v names=" E1d000104 " source_op="E1o5" target_op=" E1o26 "span=" 0 4 " / >

< / edge>< / dependencies >

à tester sur http://alpage.inria.fr/frmgwiki

Grammaire

FRMG

Lexique LEFFF

Entités NomméesALEDA

WordNetWOLF FrameNet

ASFALDA treebanks

INRIA Éric de la Clergerie IA & NLP 07/12/15 2 / 34

Page 3: IA et Traitement Automatique des Langues (TAL) -- quel panorama ?

INRIA

Quelles applications ?

Extraction d’information & Annotations

http://alpage.inria.fr/sapiens

Acquisition de connaissances (à partir de grands corpus)

http://alpage.inria.fr/Lbx

INRIA Éric de la Clergerie IA & NLP 07/12/15 3 / 34

Page 4: IA et Traitement Automatique des Langues (TAL) -- quel panorama ?

INRIA

Beaucoup d’applications potentielles . . .

recherche d’information, veille, extraction, questions-réponsesaccès à l’information : traduction, résumés, annotations/lienssémantiquesanalyse d’opinion, e-réputationanalyse de communautés (tweets, blogs, . . . )génération (articles journaux, rapports, ...)plagiat, authoring, détection spams & faux commentaires, fact checkingaide à la rédaction : correction grammaticale, stylistique ; saisie prédictiveaide pédagogique : apprentissage des langues, tutorat, évaluationinteraction : agents conversationnels, chatbots, assistants numériques,reconnaissance vocale, synthèse, dictée vocale

INRIA Éric de la Clergerie IA & NLP 07/12/15 4 / 34

Page 5: IA et Traitement Automatique des Langues (TAL) -- quel panorama ?

INRIA

Et déjà de bons résultats en bricolant . . .

Robot journaliste (inquiétudes !)

http://goo.gl/0cpFvC

Générer du non-sens new-age !

http://sebpearce.com/bullshit/

Eliza la thérapiste !

http://www.eliza.levillage.org/

INRIA Éric de la Clergerie IA & NLP 07/12/15 5 / 34

Page 6: IA et Traitement Automatique des Langues (TAL) -- quel panorama ?

INRIA

Mais de réelles difficultés !

Forte ambiguïté du langage (tous niveaux)⇒ besoin connaissances sur le monde, le contexte, . . . ,via ressources et statistiques

Diversité (langues, domaines, phénomènes),créativité (néologismes, expressions) et évolutivité⇒ besoin de robustesse

Ellipses (ce qui n’est pas dit/écrit)⇒ besoin connaissances partagées, aspects culturels

Jeux avec le language (métaphores, euphémismes, ironie, . . . )

Omar m’a tuer

Je voudrais leur dire qu’on a reçu le coup de pied au derrière mais quec’est pas parce que vous voulez renverser la table que vousdescendez de la voiture dont vous vous abstenez de choisir lechauffeur.

INRIA Éric de la Clergerie IA & NLP 07/12/15 6 / 34

Page 7: IA et Traitement Automatique des Langues (TAL) -- quel panorama ?

INRIA

Néanmoins des succès récents et des annonces

2010: Google translate2011: IBM Watsongagne à Jeopardy 2011: Assistants vocaux

Siri, Google Now, Cortana

2014: Le chatbot Eugene Goostmanréussit le test de Turing ?

http://goo.gl/hQSmmf

2015: une IA surveillewikipedia

http://goo.gl/zAvbSt

INRIA Éric de la Clergerie IA & NLP 07/12/15 7 / 34

Page 8: IA et Traitement Automatique des Langues (TAL) -- quel panorama ?

INRIA

IA ? On y est presque :-)

Réseaux de Neurones: leretour !Buzz sur Deep Learninget word embeddings

2013: Word embeddingsanalogies ≡ calcul vectoriel

Mikolov et al.2014: Analyse d’opinions

Socher et al.

2015: Google SmartReplysuggérer des réponses aux mails

http://goo.gl/d8R2LI

DeepMind (Google) annonce Neural Turing MachineLabo Facebook ParisToolkit Google TensorFlow libérénombreux autres toolkits

INRIA Éric de la Clergerie IA & NLP 07/12/15 8 / 34

Page 9: IA et Traitement Automatique des Langues (TAL) -- quel panorama ?

INRIA

Une conjonction de bons facteurs

Masses de donnéestextuelles (et autres)

Des algo d’apprentissagede + en + sophistiqués

De la puissance de calcul

Linked Open DataDes ressources structu-rées (RDF) et en réseau

INRIA Éric de la Clergerie IA & NLP 07/12/15 9 / 34

Page 10: IA et Traitement Automatique des Langues (TAL) -- quel panorama ?

INRIA

Une chronologie simplifiée

Symbolique

ApprentissageNeuronal

perfo

rman

ces

1950 ∼ 1980 ∼ 2000 ∼ 2010

INRIA Éric de la Clergerie IA & NLP 07/12/15 10 / 34

Page 11: IA et Traitement Automatique des Langues (TAL) -- quel panorama ?

INRIA

Outline

1 Approches symboliques

2 Apprentissage supervisé

3 Approches neuronales

4 Vers d’autres approches

INRIA Éric de la Clergerie IA & NLP 07/12/15 11 / 34

Page 12: IA et Traitement Automatique des Langues (TAL) -- quel panorama ?

INRIA

Aproches symboliques

S’appuyant sur des ressources linguistiques,(semi-) manuellement construites

grammaireFRMG

lexiqueLEFFF

ENALEDA

WordNetWOLF

FrameNetASFALDA

VerbNetVERBENET

INRIA Éric de la Clergerie IA & NLP 07/12/15 12 / 34

Page 13: IA et Traitement Automatique des Langues (TAL) -- quel panorama ?

INRIA

Vers des ressources sémantiques : ontologies

Rapprochement TAL et Web Sémantique

INRIA Éric de la Clergerie IA & NLP 07/12/15 13 / 34

Page 14: IA et Traitement Automatique des Langues (TAL) -- quel panorama ?

INRIA

Évènements et rôles : FrameNet Baker & Fillmore

Pour l’extraction d’information : qui fait QUOI, quand, comment, . . .Importance de connaissances sur des scénari d’évenements,avec indications sur les acteurs, leurs rôles, et constructions syntaxiques

FRAMENET (http://framenet.icsi.berkeley.edu/)COMMERCE_PAY This frame involves Buyers paying Money for Goods. Inthis frame the Money is the direct object, and is mapped to the theme ofthe transfer.COMMUNICATION A Communicator conveys a Message to an Addressee ;the Topic and Medium of the communication also may be expressed.

Relié aux rôles thématiques : agent, patient, theme, . . .

Ressources similaires : VERBNET, PROPBANK, . . .

ALPAGE : ASFALDA

INRIA Éric de la Clergerie IA & NLP 07/12/15 14 / 34

Page 15: IA et Traitement Automatique des Langues (TAL) -- quel panorama ?

INRIA

Aproches symboliques (pro & cons)

Ecosystèmes (complexes) de ressources linguistiques

grammaireFRMG

lexiqueLEFFF

ENALEDA

WordNetWOLF

FrameNetASFALDA

VerbNetVERBENET

4 expertise linguistique4 taille & complexité4 faible couverture4 trop fines4 non probabilisées

X compréhensiblesX évolutivesX ∼ dev. logiciel

INRIA Éric de la Clergerie IA & NLP 07/12/15 15 / 34

Page 16: IA et Traitement Automatique des Langues (TAL) -- quel panorama ?

INRIA

Outline

1 Approches symboliques

2 Apprentissage supervisé

3 Approches neuronales

4 Vers d’autres approches

INRIA Éric de la Clergerie IA & NLP 07/12/15 16 / 34

Page 17: IA et Traitement Automatique des Langues (TAL) -- quel panorama ?

INRIA

Succès et limites des approches supervisées

Courant majoritaire : données annotées et apprentissage supervisé

FTB12Ks

SequoiaBank3Ks

QuestionBank2Ks

SocialMediaBank

TimeBank

DiscourseTreeBank

RhapsodieTreeBank

X efficaceX découplageX robustesseX évaluationX autonome

4 coût humain4 fastidieux4 peu évolutif4 sensibilité domaine4 expertise traits4 boite noire

INRIA Éric de la Clergerie IA & NLP 07/12/15 17 / 34

Page 18: IA et Traitement Automatique des Langues (TAL) -- quel panorama ?

INRIA

Importance des jeux de traitsMéthodes (discriminantes) : apprentissage configuration vers décisionLes configurations abstraites par des propriétés (trait – features)

Tâche d’étiquetage syntaxique : la configuration c

Paul/PN pense/V que le chat dort

abstraite par

f1 le mot courant est quef2 le mot précedent est pensef3 le mot à -2 est Paulf4 l’étiquette du mot à -1 est vf5 le mot à -2 commence par une majuscule...

...f93 les 2 étiquettes précédentes sont pn vf100 les 2 mots précédents sont Paul pense...

...

; très gros jeux de traits ; très gros modèles et sur-entraînementINRIA Éric de la Clergerie IA & NLP 07/12/15 18 / 34

Page 19: IA et Traitement Automatique des Langues (TAL) -- quel panorama ?

INRIA

Outline

1 Approches symboliques

2 Apprentissage supervisé

3 Approches neuronales

4 Vers d’autres approches

INRIA Éric de la Clergerie IA & NLP 07/12/15 19 / 34

Page 20: IA et Traitement Automatique des Langues (TAL) -- quel panorama ?

INRIA

IA ? On y est presque :-)

Réseaux de Neurones: leretour !Buzz sur Deep Learninget word embeddings

2013: Word embeddingsanalogies ≡ calcul vectoriel

Mikolov et al.2014: Analyse d’opinions

Socher et al.

2015: Google SmartReplysuggérer des réponses aux mails

http://goo.gl/d8R2LI

DeepMind (Google) annonce Neural Turing MachineLabo Facebook ParisToolkit Google TensorFlow libérénombreux autres toolkits: Theano, Keras, Torch, . . .https://en.wikipedia.org/wiki/Comparison_of_deep_learning_software

INRIA Éric de la Clergerie IA & NLP 07/12/15 20 / 34

Page 21: IA et Traitement Automatique des Langues (TAL) -- quel panorama ?

INRIA

BaseModélisation des neurones biologiques :

les neurones portent des vecteurs (de réels) x = [−, · · · ,−]de dimension moyenne (d=100 à 500)les vecteurs xi associés à des neurones d’entrées sont combinés pourfournir un vecteur y à un neurone de sortie

y

x1 x2 x3 x4

Fow

ard

y = σ(ΣiAixi ) avec Ai matrice

Fonction d’activation σ : en générale non linéaireσ doit faire basculer l’état du neurone de sortie vers oui ou non

INRIA Éric de la Clergerie IA & NLP 07/12/15 21 / 34

Page 22: IA et Traitement Automatique des Langues (TAL) -- quel panorama ?

INRIA

Fonctions d’activation

Utilisation de fonctions proches d’une bascule oui/non mais dérivables

tanh(x) =ex − e−x

ex + e−x tanh′(x) = 1− tanh2(x)

tangente hyperbolique tanh

D’autres fonctions sont aussi utilisées (softmax, sigmoïde)

INRIA Éric de la Clergerie IA & NLP 07/12/15 22 / 34

Page 23: IA et Traitement Automatique des Langues (TAL) -- quel panorama ?

INRIA

Sorties multiples

On peut avoir plusieurs neurones de sortie

y1 y2

x1 x2 x3 x4

INRIA Éric de la Clergerie IA & NLP 07/12/15 23 / 34

Page 24: IA et Traitement Automatique des Langues (TAL) -- quel panorama ?

INRIA

Couches cachéesOn peut intercaler des couches cachées intermédiaires⇒ abstraction progressive des informations des neurones d’entrée ; traits

y1 y2

x1 x2 x3 x4

INRIA Éric de la Clergerie IA & NLP 07/12/15 24 / 34

Page 25: IA et Traitement Automatique des Langues (TAL) -- quel panorama ?

INRIA

Apprentissage : backpropagation

y1 y2

x1 x2 x3 x4

Backw

ard

Similaire au perceptronredescente des erreurs des neurones de sortie vers les neurones d’entrée(backpropagation)mise à jour des paramètres Wi par descente de gradient

W (t+1)i = W (t)

i − µ ∗∂y∂Wi

INRIA Éric de la Clergerie IA & NLP 07/12/15 25 / 34

Page 26: IA et Traitement Automatique des Langues (TAL) -- quel panorama ?

INRIA

Réseaux récurrentsPour le TAL, on veut des réseaux adaptés au traitement de séquences(charactères, mots, phrases, . . . )⇒ Réseaux récurrentsla sortie de la config à i est utilisée comme entrée pour calculer i + 1

(crédit illustration : http://colah.github.io/posts/2015-08-Understanding-LSTMs)INRIA Éric de la Clergerie IA & NLP 07/12/15 26 / 34

Page 27: IA et Traitement Automatique des Langues (TAL) -- quel panorama ?

INRIA

LSTM

Encore mieux : des réseaux récurrents avec mémoire à long terme (et oubli)Long-Short Term Memory – LSTM

INRIA Éric de la Clergerie IA & NLP 07/12/15 27 / 34

Page 28: IA et Traitement Automatique des Langues (TAL) -- quel panorama ?

INRIA

Agencer des briquesÉtat de l’art actuellement en TAL :

bi-LSTM (lecture gauche-droite + lecture droite-gauche)sur mots et si-besoin caractères+ convolution 1D (combine info autour du mot courant)

Crédits : Practical Neural Networks for NLP : From Theory to Code. Dyer, Goldberg, and Neubig

INRIA Éric de la Clergerie IA & NLP 07/12/15 28 / 34

Page 29: IA et Traitement Automatique des Langues (TAL) -- quel panorama ?

INRIA

Pro & Cons

X État de l’art en TAL sur de nombreuse tâches,mais proche d’autres méthodes d’apprentissage

X ouverture vers d’autres tâches (approches moins supervisées)

X4 agencement (+ en + complexe) de réseaux de basemais les premières couches utilisables pour plusieurs tâches

4 besoin de gros volumes de données

4 sensibles aux initialisations

4 entraînements longs

4 interprétation des modèles

INRIA Éric de la Clergerie IA & NLP 07/12/15 29 / 34

Page 30: IA et Traitement Automatique des Langues (TAL) -- quel panorama ?

INRIA

Outline

1 Approches symboliques

2 Apprentissage supervisé

3 Approches neuronales

4 Vers d’autres approches

INRIA Éric de la Clergerie IA & NLP 07/12/15 30 / 34

Page 31: IA et Traitement Automatique des Langues (TAL) -- quel panorama ?

INRIA

Hybridation

Mariage symbolique et apprentissage (tenté avec FRMG)

4 expertise forte requiseformel x linguistique

4 problème couverture(mais FRMG ∼ 90%, etintérêt des erreurs)

4X ressources linguistiquesrequises/exploitables

4 gestion des ambiguïtés

X compréhensibilité etadaptabilité

X développement initial rapideX moins sensible au domaineX possibilité de régler des

paramètres par apprentissage(hybridation) et couplage avecoutils statistiques

FTB testEuropar

annodis

emea-fr-dev

emea-fr-test

frwiki

8284868890

LAS

FRMG stat. FRMG+stat.

Divers analyseurs sur corpus SEQUOIA

INRIA Éric de la Clergerie IA & NLP 07/12/15 31 / 34

Page 32: IA et Traitement Automatique des Langues (TAL) -- quel panorama ?

INRIA

Approches non supervisées

Courant futuriste : emploi encore limité !

Partir de données brutes :

ok pour modèles de langue (saisie prédictive)⇒Word Embeddings (word2vec)

ok pour regroupements (clustering); ressourcesextraction terminologie, champs thématiques,réseaux sémantiques, morphologie, . . .en général besoin de validation

pas trop mal pour étiquetage et ségmentation

faible sur des décisions complexes(induction de grammaires)

http://stp.lingfil.uu.se/~bea/copiale/

INRIA Éric de la Clergerie IA & NLP 07/12/15 32 / 34

Page 33: IA et Traitement Automatique des Langues (TAL) -- quel panorama ?

INRIA

Vers des approches faiblement superviséesCourant prometteur : l’imagination au pouvoir

Exploitation de vues multiples et interactions

traduction : textes alignéstransfert multilingue (langue + dotée vers − dotée via textes, wikipedia, . . . )accès aux logs des moteurs de recherche + liens suivis + bouton chanceanalyse d’opinion : associer commentaires et notes données par lesutilisateurs (Google/Jigsaw Perspective)réseaux sociaux : méta-données associées (threads/discussions, date, . . . )séquences de mails ; Google SmartReplyPhotos & légendes ; Films & sous-titrescrowdsourcing : payant ou au travers de jeux

INRIA Éric de la Clergerie IA & NLP 07/12/15 33 / 34

Page 34: IA et Traitement Automatique des Langues (TAL) -- quel panorama ?

INRIA

Conclusion

Une époque faste (données, puissance, algo, ressources)mais quels acteurs ?

Une grande palette de techniques et des mariages possibles

De nouvelles approches à explorer pour des supervisions faibles

Proche d’IA spécialistes (go, poker,. . . ) mais loin d’IA généralistespb : agencement/interaction de très nombreux composants

Et encore très loin d’une compréhension du langage et du mondeapprendre à apprendre, adaptation à l’imprévu, . . . (; Almanach)

INRIA Éric de la Clergerie IA & NLP 07/12/15 34 / 34