22/11/121 1 plan de la présentation 1.objectifs du groupe de travail 2.présentation des...

17
22/11/12 1 22/11/12 1 Plan de la Plan de la présentation présentation 1. Objectifs du groupe de travail 2. Présentation des différents types d’annotations et premier inventaire pour le français a. Annotations syntaxiques b. Annotations sémantiques c. Annotations du discours et de la référence 3. Actions envisagées 1

Upload: cesar-vaillant

Post on 04-Apr-2015

108 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: 22/11/121 1 Plan de la présentation 1.Objectifs du groupe de travail 2.Présentation des différents types d’annotations et premier inventaire pour le français

22/11/12 122/11/12 1

Plan de la présentationPlan de la présentation1. Objectifs du groupe de travail2. Présentation des différents types

d’annotations et premier inventaire pour le français

a. Annotations syntaxiquesb. Annotations sémantiquesc. Annotations du discours et de la référence

3. Actions envisagées

1

Page 2: 22/11/121 1 Plan de la présentation 1.Objectifs du groupe de travail 2.Présentation des différents types d’annotations et premier inventaire pour le français

22/11/12 222/11/12 2

1. Objectifs du groupe de 1. Objectifs du groupe de travail – Annotations de travail – Annotations de haut niveauhaut niveau

Recenser les corpus du français existants avec une annotation de « haut niveau »◦ Proposer une grille de description de ces

corpus (métadonnées) (Cf Wiki du groupe)Associer linguistes et spécialistes du TAL

dans la réflexion sur l’annotationRetour d’expériences sur les projets

constituant des corpus annotés ◦ Guide de « bonnes pratiques »

2

Page 3: 22/11/121 1 Plan de la présentation 1.Objectifs du groupe de travail 2.Présentation des différents types d’annotations et premier inventaire pour le français

22/11/12 322/11/12 3

Objectifs du groupe de travail – Objectifs du groupe de travail – Annotations de haut niveau (II)Annotations de haut niveau (II)Proposer des journées de formation

(aux normes, aux logiciels d’annotation, aux logiciels d’interrogation)

Proposer des journées d’information : journées thématiques, journées de travail

Page 4: 22/11/121 1 Plan de la présentation 1.Objectifs du groupe de travail 2.Présentation des différents types d’annotations et premier inventaire pour le français

22/11/12 4

Outils de communicationle wiki de la liste

◦ https://listes.cru.fr/wiki/corpus-ecrits/public/groupe-8

s'inscrire sur la liste ◦ [email protected]

Page 5: 22/11/121 1 Plan de la présentation 1.Objectifs du groupe de travail 2.Présentation des différents types d’annotations et premier inventaire pour le français

22/11/12 522/11/12 5

2. Les phénomènes de haut 2. Les phénomènes de haut niveau niveau

SyntaxeSémantiqueDiscours et relations textuelles,

Référence

5

Page 6: 22/11/121 1 Plan de la présentation 1.Objectifs du groupe de travail 2.Présentation des différents types d’annotations et premier inventaire pour le français

22/11/12 622/11/12 6

a. L’annotation a. L’annotation syntaxiquesyntaxique

Objectifs : ◦ création de ressources pour les analyseurs

automatiques◦ études des phénomènes linguistiques

Identification des constituants◦ catégories de constituants◦ ambiguïtés

Identification des fonctions syntaxiques/ dépendances

Indépendance par rapport aux modèles ? 6

Page 7: 22/11/121 1 Plan de la présentation 1.Objectifs du groupe de travail 2.Présentation des différents types d’annotations et premier inventaire pour le français

22/11/12 722/11/12 7

Corpus arborés - FRCorpus arborés - FRFrançais contemporain

◦French Treebank (Abeillé, et al 2003)extrait de Le Mondecorrection manuelleconstituants (continus)compatibilité avec plusieurs analyseurs

◦Séquoia (Candito et Seddah, 2012)multi-domaine, multi-genre, libre de droitconstituants et dépendances

7

Page 8: 22/11/121 1 Plan de la présentation 1.Objectifs du groupe de travail 2.Présentation des différents types d’annotations et premier inventaire pour le français

22/11/12 822/11/12 8

Corpus arborés – FR (II)Corpus arborés – FR (II)Corpus arborés de français

contemporain interrogeables en ligne◦L’arboratoire (syntaxe de contrainte)

: textes français interrogeables en ligne (Europarl)http://corp.hum.sdu.dk/arboratoire.html

◦Scientext (écrits scientifiques interrogeables en ligne) (analyse avec Syntex, syntaxe de dépendance, Bourigault)http://scientext.msh-alpes.fr

8

Page 9: 22/11/121 1 Plan de la présentation 1.Objectifs du groupe de travail 2.Présentation des différents types d’annotations et premier inventaire pour le français

22/11/12 922/11/12 9

b. L’annotation b. L’annotation sémantiquesémantique

L’annotation sémantique de corpus est très diverse :◦ Types sémantiques et référentiels

Exemples : Entités nommées, expressions calendaires et temporelles

Opinions et sentiments

◦ DésambiguïsationRepérage du « bon » sens du mot

Complexité de la tâche :◦ Difficulté à automatiser et à atteindre un bon

niveau d'accord interannotateurs

9

Page 10: 22/11/121 1 Plan de la présentation 1.Objectifs du groupe de travail 2.Présentation des différents types d’annotations et premier inventaire pour le français

22/11/12 1022/11/12 10

Quelques exemplesQuelques exemples

Sentiments et opinions (de très nombreux corpus) :◦Blogoscopie (ANR) (piloté par le LINA) :

annotation des blogs avec les concepts et les évaluations. Librement disponible : http://www.lina.univ-nantes.fr/?Corpus.html

◦Corpus DEFT 2007 : Annotation des opinions disponible à : http://deft.limsi.fr/

10

Page 11: 22/11/121 1 Plan de la présentation 1.Objectifs du groupe de travail 2.Présentation des différents types d’annotations et premier inventaire pour le français

22/11/12 1122/11/12 11

Expressions temporellesExpressions temporelles

Expressions temporelles :◦French TimeBank : Alpage &

Université Paris 7, Repérage des entités temporelles et des relations entre entités dans un corpus de textes journalistiques (Est Republicain)http://www.linguist.univ-paris-diderot.fr/~abittar/french-timebank/

◦Travaux sur l’annotation des expressions temporelles. Projet ANR Chronolines (http://www.chronolines.fr) (Modyco, LIMSI, Exalead, AFP, Xerox)

11

Page 12: 22/11/121 1 Plan de la présentation 1.Objectifs du groupe de travail 2.Présentation des différents types d’annotations et premier inventaire pour le français

22/11/12 1222/11/12 12

c. Annotation discursive et c. Annotation discursive et textuelletextuelle

De nombreux phénomènes :◦Structure textuelle : aspects

structurels◦Relations discursives, connecteurs,

relations rhétoriques (au sens de la RST)

Connecteurs implicites ou explicitesRelations de discours hiérarchiques ou

indépendantes ◦Référence, co-référence, phénomènes

anaphoriquesDélimitation des expressions

référentiellesRelations anaphoriques ou de co-

référenceTypologie d’expressions référentielles

12

Page 13: 22/11/121 1 Plan de la présentation 1.Objectifs du groupe de travail 2.Présentation des différents types d’annotations et premier inventaire pour le français

22/11/12 1322/11/12 13

Quelques exemplesQuelques exemples

Annotations textuelles

◦Annodis (Projet ANR) : relations de discours entre les unités minimales de discours, macro-structures, notamment les structures énumérativesCorpus variés. Disponible à : http://redac.univ-tlse2.fr/corpus/annodis/

◦Corpus Géopo :Corpus de 270 000 mots d’articles expositifs autour des relations internationales. Structure textuelles, sections, énumérations.http://redac.univ-tlse2.fr/corpus/geopo.html

13

Page 14: 22/11/121 1 Plan de la présentation 1.Objectifs du groupe de travail 2.Présentation des différents types d’annotations et premier inventaire pour le français

22/11/12 1422/11/12 14

Discours, relations discursives◦French Discourse Treebank

(Alpage) : le pendant français du Penn Discourse Treebank Analyse des connecteurs inspirée de SDRT et RST (en cours)

◦ ANNODIS (en partie)

◦LELIE, projet ANR (IRIT)Textes procéduraux (8000 textes)relations du discours, structure des

verbes Annotation automatique révisé

(partiellement)TextCoop + Dislog analyseur de

discours 14

Page 15: 22/11/121 1 Plan de la présentation 1.Objectifs du groupe de travail 2.Présentation des différents types d’annotations et premier inventaire pour le français

22/11/12 1522/11/12 15

Corpus annotés au plan de la Corpus annotés au plan de la coréférence et des anaphores coréférence et des anaphores ◦ Corpus ELRA (Xerox, U. Stendhal) :

Expressions anaphoriques grammaticales (presse, écrits scientifiques, ouvrages scientifiques). 1 million de mots

◦ Corpus DEDE : Descriptions définies (48 360 mots) http://www.cnrtl.fr/corpus/dede/

◦ Corpus ANNODIS : chaines topicalisées (614943 mots)

◦ Corpus EvalRefGen : (15 192 mots) multi-genre

15

Page 16: 22/11/121 1 Plan de la présentation 1.Objectifs du groupe de travail 2.Présentation des différents types d’annotations et premier inventaire pour le français

22/11/12 1622/11/12 16

D’autres types d’annotation D’autres types d’annotation de haut niveau?de haut niveau?

À discuter

16

Page 17: 22/11/121 1 Plan de la présentation 1.Objectifs du groupe de travail 2.Présentation des différents types d’annotations et premier inventaire pour le français

22/11/12 1722/11/12 17

3 Actions envisagées3 Actions envisagées

Séance de formation/information (janvier 2013) :◦Formation à Glozz, outil d’annotation

discursif◦Retour d’expérience sur l’annotation

de haut niveau : mise en œuvre, difficultés…

Journée d’études sur l’annotation de haut niveau (juin 2013)◦Présentation de quelques

réalisations 17