achille falaise corpora for human beings
TRANSCRIPT
Achille Falaise
Corpora for human beingsLingLunch, 21 juin 2018â linguists
â translatorsâ language teachersâ language learnersâ foreign language speakersâ touristsâ computer scientists
â linguistsâ translatorsâ language teachersâ language learnersâ foreign language speakersâ touristsâ computer scientists
Achille Falaise
Corpora for human beingsLingLunch, 21 juin 2018and byand by As long as itâs written :
â Computer chat, â Audio transcripts,â Unformal/popular/old/weird writing ... are welcome !
As long as itâs written :â Computer chat, â Audio transcripts,â Unformal/popular/old/weird writing ... are welcome !
Achille Falaise â https://pro.aiakide.net 5
1) Background
2) Past workâ Internet Relay Chat (corpora by humans)â Scientific texts (corpora for humans)â Corpora for teaching (corpora for humans)â « Old » French texts (corpora by humans)
3) Future workâ Self-made corpora for everyone
Achille Falaise â https://pro.aiakide.net 6
2000 2001 2002 2003 2004
2000 2001 2002 2003 2004
Background
Licence
MaĂźtrise
M2P
M2R
Stage
Vac.
Proj.
Stage
Stage
Linguistique/TAL (Nantes)
Linguistique/TAL (Grenoble-3)
Informatique (Grenoble-2)
Sciences cognitives (INPG)
Prosodie des nombres (CLIPS-GEOD)
Tchat multilingue (CLIPS-GETA)
Devis multilingues (HyperHorizon)
Génération de graphes algorithmiques (CESTI-LETI-CEA)
IHM pour un corpus de prises de notes (LIDILEM)
DEUG Lettres (Nantes)
Achille Falaise â https://pro.aiakide.net 7
2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017
2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017
Background
Doctorat : aide au dialogue en langue 2nde
OMNIA
Informatique (Grenoble-1)
(LIG-GETALP + Prosodie SA)
Opérationnalisation, traduction de sites Web
ATER
ThĂšse CIFRE
Presto
Scientext
Traouiero
CNRSASLANTraitement du français classique (XVIe-XVIIIe siÚcles) (ICAR)
Annotation sémantique interlingue
ScienQuest Production/outillage de corpus arborés (LIDILEM)
(LIG-GETALP)
Dicorpus
Achille Falaise â https://pro.aiakide.net 8
2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017
2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017
Background
Doctorat : aide au dialogue en langue 2nde
OMNIA
Informatique (Grenoble-1)
(LIG-GETALP + Prosodie SA)
ATER
ThĂšse CIFRE
Presto
Scientext
Traouiero
CNRSASLANTraitement du français classique (XVIe-XVIIIe siÚcles) (ICAR)
Annotation sémantique interlingue
ScienQuest Production/outillage de corpus arborés (LIDILEM)
(LIG-GETALP) Opérationnalisation, traduction de sites Web
Dicorpus
Achille Falaise â https://pro.aiakide.net 9
M2 Cognitive Science internship, LIG-GETALP
Multilingual chatâ Creating a (demo) translating service for chat : easyâ Making it usefull : a tougher nut to crack
2004 : Can Internet chat actually be translated ?â « Itâs too noisy »â « Itâs youth language, only them can understand »â « Itâs just (badly) transcripted speech »â « Itâs text with noise added to look like speech »
Corpusâ Collection from free (of charge) access IRC logs, no licenceâ 4M messages, 23M tokens, 105 chanels, 3 months, CC-BY-NC licence
Achille Falaise â https://pro.aiakide.net 11
Aperçu du français tchaté
5424
34
8
20
37
14
44
71 10
Standard
Autres
Emoticon
Fusion
Onomatopée
Abréviation
XĂ©nisme
Nom d'utilisateur
OrthographephonétiqueOrthographe malformée
783 mots sélectionnés aléatoirement sur le canal #18-25ans
Achille Falaise â https://pro.aiakide.net 12
Aperçu du français tchaté
5424
34
8
20
37
14
44
71 10
Standard
Autres
Emoticon
Fusion
Onomatopée
Abréviation
XĂ©nisme
Nom d'utilisateur
OrthographephonétiqueOrthographe malformée
783 mots sélectionnés aléatoirement sur le canal #18-25ans
Orthographe phonĂ©tiqueA> soir tlmA> kikoooooooo B :*)B> kikooo A :)<C vient de se connecter>A> yo CC> yop allC> yop AA> o y repond todayC> kikouuu BC> yop midam BC> yop DA> jâai de la chance loll
Orthographe phonĂ©tiqueA> soir tlmA> kikoooooooo B :*)B> kikooo A :)<C vient de se connecter>A> yo CC> yop allC> yop AA> o y repond todayC> kikouuu BC> yop midam BC> yop DA> jâai de la chance loll
Achille Falaise â https://pro.aiakide.net 13
Aperçu du français tchaté
5424
34
8
20
37
14
44
71 10
Standard
Autres
Emoticon
Fusion
Onomatopée
Abréviation
XĂ©nisme
Nom d'utilisateur
OrthographephonétiqueOrthographe malformée
783 mots sélectionnés aléatoirement sur le canal #18-25ans
Abréviations37 mots / 783
â lolâ dslâ tjrsâ âlutâ bnâ ++
Abréviations37 mots / 783
â lolâ dslâ tjrsâ âlutâ bnâ ++
Achille Falaise â https://pro.aiakide.net 14
Aperçu du français tchaté
5424
34
8
20
37
14
44
71 10
Standard
Autres
Emoticon
Fusion
Onomatopée
Abréviation
XĂ©nisme
Nom d'utilisateur
OrthographephonétiqueOrthographe malformée
783 mots sélectionnés aléatoirement sur le canal #18-25ans
Emoticons34 mots / 783
â ;)â :)â =))â :-*â :p
Emoticons34 mots / 783
â ;)â :)â =))â :-*â :p
Achille Falaise â https://pro.aiakide.net 15
Aperçu du français tchaté
542
4348
2037 14
44
71
10
Standard AutresEmoticon FusionOnomatopée AbréviationXénisme Nom d'utilisateurOrthographe phonétique Orthographe mal
formée
783 mots sélectionnés aléatoirement sur le canal #18-25ans
Corrections
A> B préfÚre sauce taratA> tartare*B> du touA> sisiA> a pointC> poivre rulezD> sauce bernaise c la meilleure :)A> frite moelleuseC> nan a point sauce poivreC> ça roxA> lolC> moelleuse mais croustillante stp
Corrections
A> B préfÚre sauce taratA> tartare*B> du touA> sisiA> a pointC> poivre rulezD> sauce bernaise c la meilleure :)A> frite moelleuseC> nan a point sauce poivreC> ça roxA> lolC> moelleuse mais croustillante stp
Achille Falaise â https://pro.aiakide.net 16
Aperçu du français tchaté
5424
34
8
20
37
14
44
71 10
Standard
Autres
Emoticon
Fusion
Onomatopée
Abréviation
XĂ©nisme
Nom d'utilisateur
OrthographephonétiqueOrthographe malformée
783 mots sélectionnés aléatoirement sur le canal #18-25ans
Corrections
A> B préfÚre sauce taratA> tartare*B> du touA> sisiA> a pointC> poivre rulezD> sauce bernaise c la meilleure :)A> frite moelleuseC> nan a point sauce poivreC> ça roxA> lolC> moelleuse mais croustillante stp
Corrections
A> B préfÚre sauce taratA> tartare*B> du touA> sisiA> a pointC> poivre rulezD> sauce bernaise c la meilleure :)A> frite moelleuseC> nan a point sauce poivreC> ça roxA> lolC> moelleuse mais croustillante stp
Intéressant à étudierPossible à traiter
Intéressant à étudierPossible à traiter
Achille Falaise â https://pro.aiakide.net 17
Industrial PhD (CIFRE) : spoken chat translation
â Nombreux projets scientifiques sur le sujet â C-STAR (1989-1993)â Verbmobil (1993-2000)â C-STAR II (1996-1999)â Nespole ! (2002-2004)
â Commercialisation ?â Prosodie (opĂ©rateur tĂ©lĂ©com grands comptes)
Reconnaissancevocale
SynthĂšsevocale
Traductionautomatique
Achille Falaise â https://pro.aiakide.net 18
Industrial PhD (CIFRE) : spoken chat translation
â Nombreux projets scientifiques sur le sujet â C-STAR (1989-1993)â Verbmobil (1993-2000)â C-STAR II (1996-1999)â Nespole ! (2002-2004)
â Commercialisation ?â Prosodie (opĂ©rateur tĂ©lĂ©com grands comptes)
Reconnaissancevocale
SynthĂšsevocale
Traductionautomatique
80 % * 5 80 %* = 26 %
Achille Falaise â https://pro.aiakide.net 19
Industrial PhD (CIFRE) : spoken chat translation
â Nombreux projets scientifiques sur le sujet â C-STAR (1989-1993)â Verbmobil (1993-2000)â C-STAR II (1996-1999)â Nespole ! (2002-2004)
â Commercialisation ?â Prosodie (opĂ©rateur tĂ©lĂ©com grands comptes)
Traductionautomatique
80 %
Achille Falaise â https://pro.aiakide.net 20
A second dimension ?
Speech Text
Conversation :Spontaneous
Interactive
Discourse :Planned
One-sided
Achille Falaise â https://pro.aiakide.net 21
What do people actually need ?
Travail sur corpusâ DifficultĂ©s du dialogue en langue Ă©trangĂšreâ StratĂ©gies de rĂ©solution des problĂšmes
â CoopĂ©ration, co-construction du sensâ MĂ©tadialogue
â Importance du feed-backâ Dans toutes les situations de dialogue
Achille Falaise â https://pro.aiakide.net 22
â BoĂźte Ă outilsâ Traduction automatiqueâ Dictionnaire intĂ©grĂ©, tenant compte :
â du contexte paradigmatique (mots ayant plusieurs dĂ©finitions) â du thĂšme (vocabulaire technique)
â Dialogue mĂ©talinguistiqueâ Coannotation des messagesâ CoĂ©dition des messages
BoĂźte Ă outilslinguistique
Industrial PhD (CIFRE) : assisted chat
Achille Falaise â https://pro.aiakide.net 23
â BoĂźte Ă outilsâ Traduction automatiqueâ Dictionnaire intĂ©grĂ©, tenant compte :
â du contexte paradigmatique (mots ayant plusieurs dĂ©finitions) â du thĂšme (vocabulaire technique)
â Dialogue mĂ©talinguistiqueâ Coannotation des messagesâ CoĂ©dition des messages
BoĂźte Ă outilslinguistique
Industrial PhD (CIFRE) : assisted chat
Soutenance en 2009â des spĂ©cifs, une dĂ©mo, maisâŠâ pas dâXPâ pas de traitement (POS-tagging / lemmatisation) du tchat
Soutenance en 2009â des spĂ©cifs, une dĂ©mo, maisâŠâ pas dâXPâ pas de traitement (POS-tagging / lemmatisation) du tchat
Achille Falaise â https://pro.aiakide.net 24
2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017
2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017
Background
Doctorat : aide au dialogue en langue 2nde
OMNIA
Informatique (Grenoble-1)
(LIG-GETALP + Prosodie SA)
Scientext
ATER
ThĂšse CIFRE
Presto
Traouiero
CNRSASLANTraitement du français classique (XVIe-XVIIIe siÚcles) (ICAR)
Annotation sémantique interlingue
ScienQuest Production/outillage de corpus arborés (LIDILEM)
(LIG-GETALP) Opérationnalisation, traduction de sites Web
Dicorpus
Achille Falaise â https://pro.aiakide.net 25
Projet ANR Scientext (2008-2009)LIDILEM (EA 609, Grenoble)
Ătude du positionnement et du raisonnement dans lâĂ©crit scientifique
â PhrasĂ©ologieâ Marques Ă©nonciativesâ Marques syntaxiquesâ ⊠liĂ©es Ă la causalitĂ©
Corpus de textes scientifiquesâ Français (5M mots, 8 disciplines)
â Anglais (14M mots, biologie + mĂ©decine)
â Textes argumentatifs d'apprenants de l'anglais (1M mots)
â Ăvaluations d'articles (502 Ă©vals)
Achille Falaise â https://pro.aiakide.net 27
Projet ANR Scientext (2008-2009)LIDILEM (EA 609, Grenoble)
Collection Exploitation
NormalisationAutomaticanalysis
XMLHTMLWordLatex
Achille Falaise â https://pro.aiakide.net 28
Projet ANR Scientext (2008-2009)LIDILEM (EA 609, Grenoble)
Collection Exploitation
NormalisationAutomaticanalysis
Titre
Discipline : sciences du langageType : article
Résumé
Introduction
DĂ©veloppement
NoteFigure
...
XML TEI
Achille Falaise â https://pro.aiakide.net 29
Projet ANR Scientext (2008-2009)LIDILEM (EA 609, Grenoble)
Collection Exploitation
NormalisationAutomaticanalysis
Analyseur Syntex
Achille Falaise â https://pro.aiakide.net 30
Projet ANR Scientext (2008-2009)LIDILEM (EA 609, Grenoble)
Collection Exploitation
NormalisationAutomaticanalysis
ScienQuesthttp://corpora.aiakide.net
Achille Falaise â https://pro.aiakide.net 31
Projet ANR Scientext (2008-2009)LIDILEM (EA 609, Grenoble)
Collection Exploitation
NormalisationAutomaticanalysis
ConcordancesVerbes ayant pour objet le lemme hypothĂšse
Achille Falaise â https://pro.aiakide.net 32
Projet ANR Scientext (2008-2009)LIDILEM (EA 609, Grenoble)
Collection
NormalisationAutomaticanalysis
Achille Falaise â https://pro.aiakide.net 33
Projet ANR Scientext (2008-2009)LIDILEM (EA 609, Grenoble)
Collection Exploitation
NormalisationAutomaticanalysis
StatistiquesRĂ©partition par structure
Achille Falaise â https://pro.aiakide.net 34
Projet ANR Scientext (2008-2009)LIDILEM (EA 609, Grenoble)
Collection Exploitation
NormalisationAutomaticanalysis
Assistant de sĂ©lection structurale Assistant de composition de requĂȘte
Assistants de recherche â InspirĂ©s de RusCorpora et Elicopâ Inspirant Frantext 2
Achille Falaise â https://pro.aiakide.net 35
ScienQuest (2010-2018) : Ă©volution
Ăvaluation avec des utilisateursâ Formations : Paris (2014), Grenoble (2017), Paris (2017)...
â DĂ©mos : Toth 2010, TALN 2015, Valence 2016 et 2017, Grenoble 2018âŠ
â TD : 2009 (M2 IdL Grenoble), 2014 (M1 IdL Grenoble), 2016 (doctorants SdL CUSO), 2017-2018 (L3 SdL Lyon)
â Retours dâutilisateurs
Ăvolution de lâoutilâ AmĂ©lioration de lâergonomieâ Ajout de fonctionnalitĂ©s
cf. changelog sur le site de ScienQuestâ Ajout de corpus
Achille Falaise â https://pro.aiakide.net 36
ScienQuest : stats dâutilisation 2016-2017https://corpora.aiakide.net
Pays(RĂ©gions)
Sessions
France(ARA, IdF, Occitanie, Grand Est...)
50 %
Suisse (NeuchĂątel, Vaud, Zurich...)
10 %
Tunisie(Tunis...)
9 %
Allemagne(Saxe, Saxe-Anhalt, Thuringe...)
4 %
Luxembourg 2 %
Espagne(Andalousie...)
2 %
Algérie(Batna, Alger...)
2 %
Canada(Québec, Ontario...)
2 %
~70 recherches / jourâ ~5 sessions / jour
â Pics dâutilisation > 25 session simultanĂ©es
â ~14 recherches / session
Ă venir
â Stats ++â Mais comment rester simple
et pédagogique ?
â Annotations/recherches portant au-delĂ de la syntaxe
Achille Falaise â https://pro.aiakide.net 37
2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017
2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017
ScienQuest : private Corpora
Doctorat : aide au dialogue en langue 2nde
OMNIA
Informatique (Grenoble-1)
(LIG-GETALP + Prosodie SA)
ATER
ThĂšse CIFRE
Presto
Scientext
Traouiero
CNRSASLANTraitement du français classique (XVIe-XVIIIe siÚcles) (ICAR)
Annotation sémantique interlingue
ScienQuest Production/outillage de corpus arborés (LIDILEM)
(LIG-GETALP) Opérationnalisation, traduction de sites Web
Dicorpus
Année Financement Type Langue Nb mots Analyse
2011 ANR ĂMOLEX LittĂ©rature, journaux Allemand 301M Connexor
Anglais 200M XIP
Espagnol 286M Connexor
Français 230M Connexor
Russe 554k DeSR
2013 ANR Termith Sciences humaines Français 5M XIP
2016 ANR Presto LittĂ©rature, lettres, essais, traitĂ©s Français(XVIeâXXIe s)
35M Presto
Le Monde (échantillon, 1945-2015) Français 16M Presto
Offices de tourisme (722 sites Web) Français 4M Presto
Trip Advisor (échantillon) Français 4M Presto
Wikitravel Français 5M Presto
2017 Labex TransferS
Articles et communiqués de presse, textes juridiques, sites Web
En/Es/Fr CoreNLP
2017 CORLI Articles sc. et transcriptions de conférences
En/Fr Talismane
Achille Falaise â https://pro.aiakide.net 38
2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017
2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017
Background
Doctorat : aide au dialogue en langue 2nde
OMNIA
Traouiero
Informatique (Grenoble-1)
(LIG-GETALP + Prosodie SA)
ATER
ThĂšse CIFRE
Presto
Scientext
CNRSASLANTraitement du français classique (XVIe-XVIIIe siÚcles) (ICAR)
Annotation sémantique interlingue
ScienQuest Production/outillage de corpus arborés (LIDILEM)
(LIG-GETALP) Opérationnalisation, traduction de sites Web
Dicorpus
Achille Falaise â https://pro.aiakide.net 39
OMNIA : annotation sémantique pour la RIANR : XEROX (Grenoble), LIG-GETALP (Grenoble-1), LIRIS (EC Lyon)
Situationâ TĂąche : indexation de textes indĂ©pendamment de la langueâ DifficultĂ© Ă intĂ©grer du lexique (objet linguistique) dans des ontologies (concept)â Approche par dictionnaire, outils et ressources dĂ©jĂ existants dans l'Ă©quipe
MĂ©thodeâ Inventaire des composants (outils, ressources, documentations)â CrĂ©ation
â du composant manquant : lemmatisationâ d'une ontologie de test et du processus d'alignement lexique-ontologieâ du format d'Ă©change (graphes-Q) et de son APIâ de la chaĂźne de traitement
fr
en
Docs
UniversalWord
Ontologie
fr
en
Concept
Dictionnaire universel
Annotation sémantique
Lemmatisation DésambAnnotationsémantique
Alignement automatique post-édité
Logiciels et ressources : Linux, Apache, Tomcat, MySQL, Eclipse, Subversion, DELA, DELAF, Wordnet, Pivax, Jibiki
Langages : Java, PHP, Perl, SystĂšmes-Q, UNL, RDF, OWL
Achille Falaise â https://pro.aiakide.net 40
Projet ANR Traouiero (2011-2012)LIG-GETALP (UMR 5217, Grenoble), Floralis (Grenoble)
Achille Falaise â https://pro.aiakide.net 41
Dicorpus : base de données lexicales basée sur corpus
En premier lieu, nous souhaitons dĂ©fendre la thĂšse selon laquelle les expressions polylexicales rĂ©pondent Ă des rĂ©gularitĂ©s. Nous remettons en question la thĂšse anomaliste et proposons jusquâĂ un certain point un point de vue analogiste.
- Expressions polylexicales
â absentes des dictionnaires
â trĂšs frĂ©quentes dans les textes scientifiques
- Utilisation de Dicorpus pour le FOU (français sur objectifs universitaires)
- Travaux existants sur lâutilisation de corpus pour lâenseignement des langues
Achille Falaise â https://pro.aiakide.net 42
Dicorpus : base de données lexicales basée sur corpus
Achille Falaise â https://pro.aiakide.net 43
Dicorpus : base de données lexicales basée sur corpus
Travail avecâ Hoai Tran (Grammatica, U. Artois)â AgnĂšs Tutin (LIDILEM, U. Grenoble-Alpes)â Cristelle Cavalla (DILTEC, Paris-3)
Plein de questionsâ Ergonomie de la rechercheâ PrĂ©sentation des exemplesâ Ăvaluation
Achille Falaise â https://pro.aiakide.net 44
2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017
2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017
Background
Doctorat : aide au dialogue en langue 2nde
OMNIA
Informatique (Grenoble-1)
(LIG-GETALP + Prosodie SA)
ATER
ThĂšse CIFRE
Presto
Scientext
Traouiero
CNRSASLANTraitement du français classique (XVIe-XVIIIe siÚcles) (ICAR)
Annotation sémantique interlingue
ScienQuest Production/outillage de corpus arborés (LIDILEM)
(LIG-GETALP)
Dicorpus
Opérationnalisation, traduction de sites Web
Modern FrenchOld Latin Classical Latin
Late Latin(Romance)
Vulgar Latin Old French(OĂŻl languages)
Middle Fr.Class. Fr.
100 BC 300 AD 800 1300 1600 1800 2000
Presto Project :1500-2000
1500-1800 : the rise of French as a national, standardised language
1500-1800 : the rise of French as a national, standardised language
Modern FrenchOld Latin Classical Latin
Late Latin(Romance)
Vulgar Latin Old French(OĂŻl languages)
Middle Fr.Class. Fr.
100 BC 300 AD 800 1300 1600 1800 2000
Presto Project :1500-2000
â 1440 : Printing Pressâ 1532 : Pantagruel, François Rabelaisâ 1539 : Ordinance of Villers-CotterĂȘts â French is now Franceâs official languageâ 1543 : TraitĂ© des reliques, Jean Calvinâ 1549 : La Deffence et Illustration de la Langue Francoyse, Joachim du Bellayâ 1550 : Briefve collection de l'administration anatomique, Ambroise ParĂ©â 1562 : Gramere, Pierre de la RamĂ©eâ 1572-1592 : Essais, Montaigneâ 1634 : AcadĂ©mie française â state-sponsored standardisation of French langageâ 1751-1772 : EncyclopĂ©die, Diderot & dâAlembertâ 1795 : Ăcole Normale de lâan III â standardisation of French education
XVIth Century French
SI LA NATURE (dont quelque Person- de grand'renommée non sans rayson a douté, si on la devoit appeller Mere, ou Maratre) eust donné aux Hommes un commun vouloir, & consentement, outre les innumerables commoditez, qui en feussent procedées, l'Inconstance humaine, n'eust eu besoing de se forger tant de manieres de parler. Laquéle diversité, & confusion, se peut à bon droict appeller la Tour de Babel.
DĂ©but de La deffence, et illustration de la langue francoyse, Joachim du Bellay, 1549.
XVIIIth Century French
LANGAGE, s. m. (Arts. Raisonn. Philos. Metaphys.)
modus & usus loquendi, maniere dont les hommes se communiquent leurs pensées, par une suite de paroles, de gestes & d'expressions adaptées à leur génie, leurs moeurs & leurs climats.
DÚs que l'homme se sentit entraßné par goût, par besoin & par plaisir à l'union de ses semblables, il lui étoit nécessaire de développer son ame à un autre, & lui en communiquer les situations. AprÚs avoir essayé plusieurs sortes d'expressions, il s'en tint à la plus naturelle, la plus utile & la plus étendue, celle de l'organe de la voix. Il étoit aise d'en faire usage en toute occasion, à chaque instant, & sans autre peine que celle de se donner des mouvemens de respiration, si doux à l'existence.
EncyclopĂ©die ou Dictionnaire raisonnĂ© des sciences, des arts et des mĂ©tiers, Diderot & dâAlembert (dir.), 1751-1765
Tagged diachronic corpora for French
Modern FrenchOld Latin Classical Latin
Late Latin(Romance)
Vulgar Latin Old French(OĂŻl languages)
Middle Fr.Class. Fr.
100 BC 300 AD 800 1300 1600 1800 2000
Presto Project :1500-2000
NCA (POS, Lemma)
BFM (POS)
Frantext(POS, Lemma)
Modern FrenchOld Latin Classical Latin
Late Latin(Romance)
Vulgar Latin Old French(OĂŻl languages)
Middle Fr.Class. Fr.
100 BC 300 AD 800 1300 1600 1800 2000
Presto Project :1500-2000
Presto (POS, Lemma, Syntax)
â Presto corpusâ Litterature, essays, memoirs, etc.â 339 texts (of which 53 under CC-BY-NC licence)
â 29M words
NCA (POS, Lemma)
BFM (POS)
Frantext(POS, Lemma)
Tagged diachronic corpora for French
Modern FrenchOld Latin Classical Latin
Late Latin(Romance)
Vulgar Latin Old French(OĂŻl languages)
Middle Fr.Class. Fr.
100 BC 300 AD 800 1300 1600 1800 2000
Presto Project :1500-2000
Presto (POS, Lemma, Syntax)
â Presto corpusâ Litterature, essays, memoirs, etc.â 339 texts (of which 53 under Creative Commons licence)
â 29M words
NCA (POS, Lemma)
BFM (POS)
Frantext(POS, Lemma)
PĂRIODE 1
[153
0-160
6]
PĂRIODE 2
[160
7 - 1
660]
PĂRIODE 3
[166
0-172
0]
PĂRIODE 4
[1720
-1761
]
PĂRIODE 5
[176
1-178
9]0
2
4
6
8
10
12
ARTFLBVHCNRTLCEPMFrantext
Tagged diachronic corpora for French
Jeu d'Ă©tiquettesĂtiquette niv 1 Ătiquette niv 2 Flexion
Nom (N) commun, propre
Verbe (V) ĂȘtre/avoir, autre conjuguĂ©, infinitif
Adjectif (A) général, possessif
Pronom (P) personnel, démonstratif, indéfini, possessif, interrogatif, relatif
Déterminant (D) article défini, démonstratif, article indéfini, article partitif, indéfini, relatif, interrogatif/exclamatif
Participe-Adjectif-GĂ©rondif (G)
part_présent/adjectif_verbal/gérondif, part_passé/adjectif_verbal
Adverbe (R) général, particule, interro-excalamatif
Adposition (S)
Conjonction (C) coordination, subordination
Numéral (M) cardinal, ordinal
Interjection (I)
Résidu (X) abréviation, mot étranger, symbole, préfixe, consonne intercalée
Ponctuation (F) forte, faible, autre
Jeu d'étiquettes (basé sur Multext/Eagles + Grace)
A classic workflow
54Resources
Flow
Agents
â Constraints :
â No feedback between agents
â Tokens are the minimal unit=> tokenisation ambiguities are not allowed
Lexicon Training corpus
Model Corpus
Annotatedcorpus
Tokens, POS, lemmas
A classic workflow
57Resources
Flow
Agents
â Constraints :
â No feedback between agents
â Tokens are the minimal unit=> tokenisation ambiguities are not allowed
Lexicon Training corpus
Model Corpus
Annotatedcorpus
Tokens, POS, lemmas
Lexical coverage
2 [1051-11
00]
5 [1101-11
50]
15 [1151-1
200]
8 [1201-1
250]
4 [1251-1
300]
31 [1301-1
350]
88 [1351-1
400]
75 [1401-1
450]
78 [1451-1
500]
65 [1501-1
550]
101 [1551-1
600]
229 [1601-1
650]
363 [1651-1
700]
215 [1701-1
750]
348 [1751-1
800]
480 [1801-1
850]
554 [1851-1
900]
951 [1901-1
950]
869 [1951-2
000]
50%
55%
60%
65%
70%
75%
80%
85%
90%
95%
100%
Modern Lexicon
Presto Lexicon
XVIth-XVIIIth
Couverture lexicale, mesurée sur le corpus Frantext, pour le lexique moderne (vert), les 3 itérations d'archaïsation
(pointillés), et le lexique Presto final (violet).
Archaisation rules
Gilles Souvay, ATILF, Nancy
Gilles Souvay, ATILF, Nancy
A classic workflow
Resources
Flow
Agents
Lexicon Training corpus
Model Corpus
Annotatedcorpus
Tokens, POS, lemmas
Corpus d'apprentissage
SĂ©lection de 5 textesâ 5 pĂ©riodesâ 5 genres
périodes
genres
10k10k
10k10k
10k
Corpus noyau
60
Total : 62k tokensSaulsaye (1547)
Lisandre et Caliste (1631)
Les Lettres de messire Roger de Rabutin, comte de Bussy (1681)
Essay sur l'histoire generale et sur les moeurs et sur l'esprit des nations (1756)
Le Paysan perverti ou les Dangers de la ville (1776)
Projection lexicale
remarques REMARQUE:Nc|REMARQUER:Vvc
sur SUR:Aq|SUR:Sp|SĂR:Aq|SĂR:R
les LE:Da|LES:Pp|LĂS:Sp|LĂ:Nc
groupements GROUPEMENT:Nc
Lexique
remarques â REMARQUE, Ncremarques â REMARQUER, Vvc
Texte Ă anoter
Remarques sur les groupements
DĂ©sambiguĂŻsation
Modernisation
LGERM
Lexiqueforme_anc => forme_mod
Corpusnormalisé
TreeTagger-threshold .1
ModĂšleFr moderne
66
quelques QUELQUE:Aq|QUELQUE:Di
remarques REMARQUE:Nc|REMARQUER:Vvc
sur SUR:Aq|SUR:Sp|SĂR:Aq|SĂR:R
les LE:Da|LES:Pp|LĂS:Sp|LĂ:Nc
groupements GROUPEMENT:Nc
Annotationautomatique
Modernisation
LGERM
Lexiqueforme_anc => forme_mod
Corpusnormalisé
TreeTagger-threshold .1
ModĂšleFr moderne
67
quelques QUELQUE:Aq|QUELQUE:Di
remarques REMARQUE:Nc|REMARQUER:Vvc
sur SUR:Aq|SUR:Sp|SĂR:Aq|SĂR:R
les LE:Da|LES:Pp|LĂS:Sp|LĂ:Nc
groupements GROUPEMENT:Nc
quelques QUELQUE:ADJ|QUELQUE:DET
remarques REMARQUE:NOM
sur SUR:PRE
les LE:DET
groupements GROUPEMENT:NOM
Annotationautomatique
DĂ©sambiguĂŻsation
Modernisation
LGERM
Lexiqueforme_anc => forme_mod
Corpusnormalisé
TreeTagger-threshold .1
ModĂšleFr moderne
68
quelques QUELQUE:Aq|QUELQUE:Diremarques REMARQUE:Nc|REMARQUER:Vvcsur SUR:Aq|SUR:Sp|SĂR:Aq|SĂR:Rles LE:Da|LES:Pp|LĂS:Sp|LĂ:Ncgroupements GROUPEMENT:Nc
quelques QUELQUE:ADJ|QUELQUE:DET
remarques REMARQUE:NOM
sur SUR:PRE
les LE:DET
groupements GROUPEMENT:NOM
Annotationautomatique
DĂ©sambiguĂŻsation
Annotation manuelle et fusion
â Fusion automatique pour les cas « Ă©vidents » :â Au moins 2 annotateurs
d'accordâ Diacritiques
70
Corpuspartiellementdésambiguïsé
Annotationmanuelle
Analog
Corpuspartiellementdésambiguïsé
CorpusCorpusCorpus
Fusionautomatique
Fusionmanuelle
20,4 %
5,7 %
9,0 %
Tx ambig
Tx ambig
Tx ambig
Corpusd'apprentissage
62k tokens0 %
Tx ambig
Manual annotation tool : Analog
à gauche (1), affichage des formes du corpus. Au centre (2), analyse retenue, validéeautomatiquement (VA/DS) ou manuellement (VM/DS). à droite (3), analyses suggérées pour les cas
Marie-HĂ©lĂšne Lay, Forell, Poitiers
Marie-HĂ©lĂšne Lay, Forell, Poitiers
A classic workflow
Resources
Flow
Agents
Lexicon Training corpus
Model Corpus
Annotatedcorpus
Tokens, POS, lemmas
â Training corpus divided in 3 partsâ Train (80% â 49 630 tokens)â Dev (10% â 6 164 tokens)â Eval (10% â 6 110 tokens)
â Autotuning to find the best parameters for TreeTaggerâ cl 2 ; dtg 0,5 ; sw 1 ; ecw 0,06 ; atg 1,15â Precision gain : +0,05 %
â Evaluationâ Train : 95,77 %â Dev : 94,28 %â Eval : 94,46 %
74
Model creation
Ăvaluation du modĂšle
PĂ©rio
de 1
(153
0-16
09)
PĂ©rio
de 2
(161
0-16
59)
PĂ©rio
de 3
(166
0-17
19)
PĂ©rio
de 4
(172
0-17
59)
PĂ©rio
de 5
(176
0-17
89)
0
10
20
30
40
50
60
70
80
90
100
62,28 61,3657,93 57,96 60,63
79,82 82,61 81,12 79,7 82,3881,99 82,35 82,65 83,71 85,8791,35
96,17 94,6 95,53 95,38
Analyseur idiot (projection lexicale + désambiguïsation aléatoire)Modernisation + modÚle français moderneModÚle Presto (sans correction)ModÚle Presto (corrigé)
A classic workflow
77Resources
Flow
Agents
Lexicon Training corpus
Model Corpus
Annotatedcorpus
Tokens, POS, lemmas
Prepositions dynamics
en
N
before 1550 after 1550
V
Ă
N
V
dedans
N
V
en
N
V
Ă
N
V
dedans
N
V
dans
N
V
Preposition dans arises between 1550 and 1650
Diagramme 1. Ăvolution des scores de spĂ©cificitĂ© de Laffon affectĂ©s aux prĂ©positions en, dans, dedans entre 1551 et 1900. Corpus Presto, partitionnĂ© en 13 tranches de 30 ans.
1550 1670 1910
EN
DANSDenis Vigier, ICAR, Lyon
Denis Vigier, ICAR, Lyon
Diagramme 1. Ăvolution des scores de spĂ©cificitĂ© de Laffon affectĂ©s aux prĂ©positions en, dans, dedans entre 1551 et 1900. Corpus Presto, partitionnĂ© en 13 tranches de 30 ans.
1550 19101700
EN + Det + Nc
EN + Nc
1830
Denis Vigier, ICAR, Lyon
Denis Vigier, ICAR, Lyon
Encore plein de questions...
ProblĂšmesâ AmbiguĂŻtĂ© des lemmes
â Les fils dâAriane. â FILS, Nc ou FIL, Ncâ Congres â CONGRĂS, Nc ou CONGRE, Ncâ Il faudrait un TreeTagger de la WSD.
â Annotation panchroniqueâ Comment couvrir diffĂ©rents Ă©tats de la langue ?â Utiliser des jeux dâĂ©tiquettes diffĂ©rents ?
â Annotation en dĂ©pendances syntaxiques
Achille Falaise â https://pro.aiakide.net 82
1) Background
2) Past workâ Internet Relay Chat (corpora by humans)â Scientific texts (corpora for humans)â Corpora for teaching (corpora for humans)â « Old » French texts (corpora by humans)
3) Future workâ Self-made corpora for everyone
Achille Falaise â https://pro.aiakide.net 83
Future work
Collection(Web)
Normalisation
Tokenisation Word sensedisambiguation
AutomaticAnalysis
Evaluation
Exploitation
Self-made corpora for everyone
Achille Falaise â https://pro.aiakide.net 84
Future work
Collection(Web)
Normalisation
Tokenisation Word sensedisambiguation
AutomaticAnalysis
Evaluation
ExploitationBootcatxxx2TextWord â TEI
Achille Falaise â https://pro.aiakide.net 85
Future work
Collection(Web)
Normalisation
Tokenisation Word sensedisambiguation
AutomaticAnalysis
Evaluation
Exploitation
Cleaning, filtering tools
Corpus structure editor
Achille Falaise â https://pro.aiakide.net 86
Future work
Collection(Web)
Normalisation
Tokenisation Word sensedisambiguation
AutomaticAnalysis
Evaluation
Exploitation
Tokenizer
Achille Falaise â https://pro.aiakide.net 87
Future work
Collection(Web)
Normalisation
Tokenisation Word sensedisambiguation
AutomaticAnalysis
Evaluation
Exploitation
MultiTagProcessing line
Annotationmanuelle
Préannotationautomatique
ModĂšlede langage
Corpusdâapprentissage
EntraĂźnementCampagne dâannotationAccord inter-annotateur
Achille Falaise â https://pro.aiakide.net 88
Future work
Collection(Web)
Normalisation
Tokenisation Word sensedisambiguation
AutomaticAnalysis
Evaluation
Exploitation
Achille Falaise â https://pro.aiakide.net 89
Future work
Collection(Web)
Normalisation
Tokenisation Word sensedisambiguation
AutomaticAnalysis
Evaluation
Exploitation
Achille Falaise â https://pro.aiakide.net 90
Future work
Collection(Web)
Normalisation
Tokenisation Word sensedisambiguation
AutomaticAnalysis
Evaluation
ExploitationScienQuestTXMAntconc
Achille Falaise â https://pro.aiakide.net 91
Future work
Collection(Web)
Normalisation
Tokenisation Word sensedisambiguation
AutomaticAnalysis
Evaluation
Exploitation1) polish these components2) add some glue3) add a GUI4) enjoy !
1) polish these components2) add some glue3) add a GUI4) enjoy !
Achille Falaise â https://pro.aiakide.net 92
Conclusion
Ce qui mâintĂ©resseâ Travailler avec des linguistes (mais pas que...)
â Passer Ă la moulinette de lâĂ©crit (si possible bizarre)
â CrĂ©er des outils/ressources utilisables
Perspectivesâ AccessibilitĂ© des corpusâ Outils qui vont voir au-delĂ de la phrase
â dimension textuelleâ dimension dialogique
â TAL en diachronie