l a narration en gÉnÉration automatique de texte pierre-luc vaudry 18 décembre 2012 ift6010 taln
TRANSCRIPT
![Page 1: L A NARRATION EN GÉNÉRATION AUTOMATIQUE DE TEXTE Pierre-Luc Vaudry 18 décembre 2012 IFT6010 TALN](https://reader035.vdocuments.net/reader035/viewer/2022062512/551d9dc3497959293b8e1b80/html5/thumbnails/1.jpg)
LA NARRATION EN GÉNÉRATION AUTOMATIQUE
DE TEXTEPierre-Luc Vaudry
18 décembre 2012
IFT6010 TALN
![Page 2: L A NARRATION EN GÉNÉRATION AUTOMATIQUE DE TEXTE Pierre-Luc Vaudry 18 décembre 2012 IFT6010 TALN](https://reader035.vdocuments.net/reader035/viewer/2022062512/551d9dc3497959293b8e1b80/html5/thumbnails/2.jpg)
Plan• Génération automatique de texte (NLG)– Applications– Phases de traitement
• Narration en NLG– Le problème– Améliorations
• Ressources à exploiter
2
![Page 3: L A NARRATION EN GÉNÉRATION AUTOMATIQUE DE TEXTE Pierre-Luc Vaudry 18 décembre 2012 IFT6010 TALN](https://reader035.vdocuments.net/reader035/viewer/2022062512/551d9dc3497959293b8e1b80/html5/thumbnails/3.jpg)
Génération de texte (NLG)• Intelligence artificielle et linguistique
informatique• Entrée : données sous forme non linguistique• Connaissance de la langue• Connaissance du domaine• Sortie : texte en langue naturelle• Produit : rapports, messages d'aide, pages
web, etc.
3
![Page 4: L A NARRATION EN GÉNÉRATION AUTOMATIQUE DE TEXTE Pierre-Luc Vaudry 18 décembre 2012 IFT6010 TALN](https://reader035.vdocuments.net/reader035/viewer/2022062512/551d9dc3497959293b8e1b80/html5/thumbnails/4.jpg)
Applications de NLG• Rapports et bulletins météorologiques• Description de modèles orientés objet• Lettres personnalisées pour l'arrêt du
tabagisme• Résumés par abstraction d'articles de presse• Rapports médicaux à partir de données
temporelles discrètes et continues• Dialogue libre dans un jeu vidéo
4
![Page 5: L A NARRATION EN GÉNÉRATION AUTOMATIQUE DE TEXTE Pierre-Luc Vaudry 18 décembre 2012 IFT6010 TALN](https://reader035.vdocuments.net/reader035/viewer/2022062512/551d9dc3497959293b8e1b80/html5/thumbnails/5.jpg)
Phases de traitement en NLG
• IA • Dépendant du
domaine
• Linguistique• Indépendant du
domaine
5
![Page 6: L A NARRATION EN GÉNÉRATION AUTOMATIQUE DE TEXTE Pierre-Luc Vaudry 18 décembre 2012 IFT6010 TALN](https://reader035.vdocuments.net/reader035/viewer/2022062512/551d9dc3497959293b8e1b80/html5/thumbnails/6.jpg)
Planification du document
• Sélection du contenu– But communicatif, public cible, données
disponibles, contraintes de longueur, etc.– Trier les données par importance
• Structuration du document– Regroupements– Relations sélection de contenus reliés➝– Ordre
6
![Page 7: L A NARRATION EN GÉNÉRATION AUTOMATIQUE DE TEXTE Pierre-Luc Vaudry 18 décembre 2012 IFT6010 TALN](https://reader035.vdocuments.net/reader035/viewer/2022062512/551d9dc3497959293b8e1b80/html5/thumbnails/7.jpg)
Microplanification
• Lexicalisation– Unités lexicales– Structures syntaxiques
• Génération d’expressions référentielles– Coréférence : anaphores, désignations variées– Deixis : contexte d’énonciation
• Aggrégation– Décider quoi factoriser– Comment le factoriser
7
![Page 8: L A NARRATION EN GÉNÉRATION AUTOMATIQUE DE TEXTE Pierre-Luc Vaudry 18 décembre 2012 IFT6010 TALN](https://reader035.vdocuments.net/reader035/viewer/2022062512/551d9dc3497959293b8e1b80/html5/thumbnails/8.jpg)
Réalisation de surface
• Réalisation linguistique– Syntaxe– Morphologie– Morphophonologie– Espacement, ponctuation, casse– Text-to-speech
• Réalisation de la structure du document– Paragraphes, sections, titres, sous-titres
8
![Page 9: L A NARRATION EN GÉNÉRATION AUTOMATIQUE DE TEXTE Pierre-Luc Vaudry 18 décembre 2012 IFT6010 TALN](https://reader035.vdocuments.net/reader035/viewer/2022062512/551d9dc3497959293b8e1b80/html5/thumbnails/9.jpg)
Narration en NLG
• Données temporelles événements➝• Présentation des données– Graphique : courbes à interpréter – Textuelle : récit fournit une interprétation
• Prise de décision– Texte rédigé par spécialiste > graphique
• Particulièrement pour les novices
– Texte généré ≈ graphique• Diagnostic : structure narrative déficiente
9
![Page 10: L A NARRATION EN GÉNÉRATION AUTOMATIQUE DE TEXTE Pierre-Luc Vaudry 18 décembre 2012 IFT6010 TALN](https://reader035.vdocuments.net/reader035/viewer/2022062512/551d9dc3497959293b8e1b80/html5/thumbnails/10.jpg)
Améliorer la narration
• Situation initiale et situation finale• Acteurs principaux au premier plan• Marqueurs temporels• Détails de mise en contexte• Enchaînement des thèmes (topical flow)
10
![Page 11: L A NARRATION EN GÉNÉRATION AUTOMATIQUE DE TEXTE Pierre-Luc Vaudry 18 décembre 2012 IFT6010 TALN](https://reader035.vdocuments.net/reader035/viewer/2022062512/551d9dc3497959293b8e1b80/html5/thumbnails/11.jpg)
Réalisation de la narration
• Sélection du contenu• Structure du document• Marqueurs de relation– Selon les relations découlant de la structure
• Structure syntaxique– Actants exprimés et mis au premier plan
• Coréférence
11
![Page 12: L A NARRATION EN GÉNÉRATION AUTOMATIQUE DE TEXTE Pierre-Luc Vaudry 18 décembre 2012 IFT6010 TALN](https://reader035.vdocuments.net/reader035/viewer/2022062512/551d9dc3497959293b8e1b80/html5/thumbnails/12.jpg)
Approche ascendante insuffisante
HistoireÉvénements importants
12
![Page 13: L A NARRATION EN GÉNÉRATION AUTOMATIQUE DE TEXTE Pierre-Luc Vaudry 18 décembre 2012 IFT6010 TALN](https://reader035.vdocuments.net/reader035/viewer/2022062512/551d9dc3497959293b8e1b80/html5/thumbnails/13.jpg)
Un problème apparenté
Génération de scénarios de fiction(Story plot generation)• BD de trames narratives provenant d’histoires
existantes• Requête pour créer une nouvelle histoire• Chercher des trames narratives semblables• Modifier et combiner avec BD et ontologie• Générer le texte
13
![Page 14: L A NARRATION EN GÉNÉRATION AUTOMATIQUE DE TEXTE Pierre-Luc Vaudry 18 décembre 2012 IFT6010 TALN](https://reader035.vdocuments.net/reader035/viewer/2022062512/551d9dc3497959293b8e1b80/html5/thumbnails/14.jpg)
Ressources pour l’anglais
• RST Discourse Treebank– Structure hiérarchique (arbre)– Pas de distinction entre les niveaux– Noyau Satellite➝– Feuilles : propositions (21,789 EDU)
• Penn Discourse Treebank– Marqueurs de relation explicites (16K) et
implicites (20K)– Prédicats discursifs entre deux événements, états ou
propositions
14
![Page 15: L A NARRATION EN GÉNÉRATION AUTOMATIQUE DE TEXTE Pierre-Luc Vaudry 18 décembre 2012 IFT6010 TALN](https://reader035.vdocuments.net/reader035/viewer/2022062512/551d9dc3497959293b8e1b80/html5/thumbnails/15.jpg)
Ressource pour le français
• Corpus ANODIS– 2 annotations• relations rhétoriques• structures multi-échelles
– 4 sources, dont : Est Républicain– Genre brèves, type narratif– 39 articles, 10 000 mots, 250 mots/texte
15
![Page 16: L A NARRATION EN GÉNÉRATION AUTOMATIQUE DE TEXTE Pierre-Luc Vaudry 18 décembre 2012 IFT6010 TALN](https://reader035.vdocuments.net/reader035/viewer/2022062512/551d9dc3497959293b8e1b80/html5/thumbnails/16.jpg)
Utilisation des corpus
• Apprentissage automatique– Taille suffisante, généralisation
• Marqueurs de relation– Microplanification (sentence planning)– Occurence, sélection, positionnement
• Structure narrative– Proposition : modèle de structure discursive– Planification descendante-ascendante
16
![Page 17: L A NARRATION EN GÉNÉRATION AUTOMATIQUE DE TEXTE Pierre-Luc Vaudry 18 décembre 2012 IFT6010 TALN](https://reader035.vdocuments.net/reader035/viewer/2022062512/551d9dc3497959293b8e1b80/html5/thumbnails/17.jpg)
Conclusion
• Relations entre événements– Peu d’exemples– Règles du domaine– Ontologie
• Marqueurs de relation et structure discursive– Corpus disponibles– Moins dépendants du domaine– Apprentissage automatique possible
17
![Page 18: L A NARRATION EN GÉNÉRATION AUTOMATIQUE DE TEXTE Pierre-Luc Vaudry 18 décembre 2012 IFT6010 TALN](https://reader035.vdocuments.net/reader035/viewer/2022062512/551d9dc3497959293b8e1b80/html5/thumbnails/18.jpg)
Références• A Gatt, E Reiter. (2009). SimpleNLG: A realisation engine for
practical applications. Proceedings of the 12th European Workshop on Natural Language Generation. ENLG 2009.
• A McKinlay, C McVittie, E Reiter, Y Freer, C Sykes, R Logie (2010). Design Issues for Socially Intelligent User-Interfaces: A Qualitative Analysis of a Data-to-Text System for Summarizing Clinical Data. Methods of Information in Medicine, 49:379-387.
• F Portet, E Reiter, A Gatt, J Hunter, S Sripada, Y Freer, C Sykes (2009). Automatic Generation of Textual Summaries from Neonatal Intensive Care Data. Artificial Intelligence, 173:789-816.
• JR Cristy (2011). SimpleNLG Google Code Wiki Tutorial, Appendix A, [https://code.google.com/p/simplenlg/wiki/AppendixA] (consulté le 17 décembre 2012).
18
![Page 19: L A NARRATION EN GÉNÉRATION AUTOMATIQUE DE TEXTE Pierre-Luc Vaudry 18 décembre 2012 IFT6010 TALN](https://reader035.vdocuments.net/reader035/viewer/2022062512/551d9dc3497959293b8e1b80/html5/thumbnails/19.jpg)
Références• P Gervás, B Díaz-Agudo, F Peinado, R Hervás (2005). Story plot
generation based on CBR. Knowledge-Based Systems, 18:235-242• R Prasad, A Joshi, N Dinesh, A Lee, E Miltsakaki, B Webber (2005). The
Penn Discourse TreeBank as a Resource for Natural Language Generation. Proceedings of the Corpus Linguistics Workshop on Using Corpora for Natural Language Generation. Birmingham, U.K., July 2005.
• L Carlson, D Marcu, ME Okurowski (2001). Building a Discourse-Tagged Corpus in the Framework of Rhetorical Structure Theory. Proceedings of the 2nd SIGDIAL Workshop on Discourse and Dialogue. Eurospeech 2001, Denmark, September 2001.
• CLLE-ERSS (2012). Corpus ANODIS. [http://redac.univ-tlse2.fr/corpus/annodis/] (consulté le 18 décembre 2012)
19