![Page 1: Plate-formes logicielles pour le TAL 1 : TXM - …I MElt (2010) : pr es de 98 % [Denis and Sagot, 2010] Quelle di erence concr ete? 96 % d’exactitude, environ 10 mots par phrase!sur](https://reader034.vdocuments.net/reader034/viewer/2022042807/5f7da9302d34c41afa44e3e5/html5/thumbnails/1.jpg)
Plate-formes logicielles pour le TAL 1 :TXM - presentation et commandes de base
Karen Fort
[email protected] / http://karenfort.org
20 mars 2020
1 / 28
![Page 2: Plate-formes logicielles pour le TAL 1 : TXM - …I MElt (2010) : pr es de 98 % [Denis and Sagot, 2010] Quelle di erence concr ete? 96 % d’exactitude, environ 10 mots par phrase!sur](https://reader034.vdocuments.net/reader034/viewer/2022042807/5f7da9302d34c41afa44e3e5/html5/thumbnails/2.jpg)
Quelques sources d’inspirationpar ordre d’importance decroissant
I Atelier TXM du 25 et 26 septembre 2014
I Manuel de TXM : http://txm.sourceforge.net/doc/manual/manual1.xhtml
I Video : http://txm.sourceforge.net/enregistrement_atelier_initiation_TXM_fr.html
I B. Pincemin (IHRIM) et S. Heiden (IHRIM)
I Site de TXM : http://textometrie.ens-lyon.fr/
I Modele de TreeTagger : http://www.cis.uni-muenchen.de/%7Eschmid/tools/TreeTagger/
2 / 28
![Page 3: Plate-formes logicielles pour le TAL 1 : TXM - …I MElt (2010) : pr es de 98 % [Denis and Sagot, 2010] Quelle di erence concr ete? 96 % d’exactitude, environ 10 mots par phrase!sur](https://reader034.vdocuments.net/reader034/viewer/2022042807/5f7da9302d34c41afa44e3e5/html5/thumbnails/3.jpg)
Sources
IntroductionPresentationPremiers pas avec le corpus Vœux
Compter et voir en contexte
Pour finir
Bibliographie
3 / 28
![Page 4: Plate-formes logicielles pour le TAL 1 : TXM - …I MElt (2010) : pr es de 98 % [Denis and Sagot, 2010] Quelle di erence concr ete? 96 % d’exactitude, environ 10 mots par phrase!sur](https://reader034.vdocuments.net/reader034/viewer/2022042807/5f7da9302d34c41afa44e3e5/html5/thumbnails/4.jpg)
Une communaute active
I formations
I liste de diffusion activeI communaute d’utilisateurs et de developpeurs
I logiciel libreI supportant UnicodeI multi-plateformes (Java)I modulaire (R et CQP)
I documentation sous differentes formes (pdf, video, pagesWeb)
+ version portail Web :http://portal.textometrie.org/demo/?locale=fr
La documentation et la vitalite de la communaute sont descriteres fondamentaux dans le choix d’un logiciel
4 / 28
![Page 5: Plate-formes logicielles pour le TAL 1 : TXM - …I MElt (2010) : pr es de 98 % [Denis and Sagot, 2010] Quelle di erence concr ete? 96 % d’exactitude, environ 10 mots par phrase!sur](https://reader034.vdocuments.net/reader034/viewer/2022042807/5f7da9302d34c41afa44e3e5/html5/thumbnails/5.jpg)
Quelle communaute ?
Sciences humaines et sociales :
I archives historiques
I depouillement d’enquetes avec questions ouvertes
I œuvres litteraires
I corpus scientifiques
I etc.
5 / 28
![Page 6: Plate-formes logicielles pour le TAL 1 : TXM - …I MElt (2010) : pr es de 98 % [Denis and Sagot, 2010] Quelle di erence concr ete? 96 % d’exactitude, environ 10 mots par phrase!sur](https://reader034.vdocuments.net/reader034/viewer/2022042807/5f7da9302d34c41afa44e3e5/html5/thumbnails/6.jpg)
Textometrie ?
Specificite francaise
Historiquement, evolution et elargissement avec les avanceestechniques (annotations, structuration) :
I lexicometrie : statistiques lexicale (sur les mots)
I logometrie : statistiques sur les discours
I textometrie : statistiques sur les textes
→ les calculs sont delegues a l’ordinateur, mais le chercheur restemaıtre de l’interpretation
6 / 28
![Page 7: Plate-formes logicielles pour le TAL 1 : TXM - …I MElt (2010) : pr es de 98 % [Denis and Sagot, 2010] Quelle di erence concr ete? 96 % d’exactitude, environ 10 mots par phrase!sur](https://reader034.vdocuments.net/reader034/viewer/2022042807/5f7da9302d34c41afa44e3e5/html5/thumbnails/7.jpg)
Particularites de TXM
I interface tres complete
I robustesse : permet de traiter jusqu’a 10 millions de mots
I puissance : permet d’integrer toutes sortes de traitement viale logiciel R (de statistiques)
I rapidite : permet d’interroger des millions de mots tresefficacement via CQP (Corpus Query Processor)
7 / 28
![Page 8: Plate-formes logicielles pour le TAL 1 : TXM - …I MElt (2010) : pr es de 98 % [Denis and Sagot, 2010] Quelle di erence concr ete? 96 % d’exactitude, environ 10 mots par phrase!sur](https://reader034.vdocuments.net/reader034/viewer/2022042807/5f7da9302d34c41afa44e3e5/html5/thumbnails/8.jpg)
TXM et TAL
TXM n’est pas un outil de TAL 1 en tant que tel, mais
I il integre des fonctionnalites de TAL, via TreeTagger
(lesquelles ?)
I il permet d’explorer les corpus et de les analyser manuellement(prealable au TAL)
⇒ outil d’analyse tres pratique (indispensable ?)
1. Traitement Automatique des Langues8 / 28
![Page 9: Plate-formes logicielles pour le TAL 1 : TXM - …I MElt (2010) : pr es de 98 % [Denis and Sagot, 2010] Quelle di erence concr ete? 96 % d’exactitude, environ 10 mots par phrase!sur](https://reader034.vdocuments.net/reader034/viewer/2022042807/5f7da9302d34c41afa44e3e5/html5/thumbnails/9.jpg)
Telechargement et interface
Prealable
Telecharger le corpus Vœux :http://sourceforge.net/projects/txm/files/corpora/
voeux/voeux-bin.txm/download
Differents espaces, a explorer :
I onglets
I menuS (3 modes d’acces)
I console
9 / 28
![Page 10: Plate-formes logicielles pour le TAL 1 : TXM - …I MElt (2010) : pr es de 98 % [Denis and Sagot, 2010] Quelle di erence concr ete? 96 % d’exactitude, environ 10 mots par phrase!sur](https://reader034.vdocuments.net/reader034/viewer/2022042807/5f7da9302d34c41afa44e3e5/html5/thumbnails/10.jpg)
Commandes de bas niveau
I charger (un corpus deja importe auparavant)
I edition
I description
Corpus Vœux
Chargez le corpus VœuxQue pouvez-vous dire sur le corpus Vœux grace a TXM ?
Que manque-t-il ?
10 / 28
![Page 11: Plate-formes logicielles pour le TAL 1 : TXM - …I MElt (2010) : pr es de 98 % [Denis and Sagot, 2010] Quelle di erence concr ete? 96 % d’exactitude, environ 10 mots par phrase!sur](https://reader034.vdocuments.net/reader034/viewer/2022042807/5f7da9302d34c41afa44e3e5/html5/thumbnails/11.jpg)
Commandes de bas niveau
I charger (un corpus deja importe auparavant)
I edition
I description
Corpus Vœux
Chargez le corpus VœuxQue pouvez-vous dire sur le corpus Vœux grace a TXM ?
Que manque-t-il ?
→ le nombre entre parentheses apres id sous text donne lenombre de textes→ mais il manque la licence et un descriptif !
11 / 28
![Page 12: Plate-formes logicielles pour le TAL 1 : TXM - …I MElt (2010) : pr es de 98 % [Denis and Sagot, 2010] Quelle di erence concr ete? 96 % d’exactitude, environ 10 mots par phrase!sur](https://reader034.vdocuments.net/reader034/viewer/2022042807/5f7da9302d34c41afa44e3e5/html5/thumbnails/12.jpg)
Charger vs importer
Charger : corpus deja importes dans TXM auparavant
Importer : corpus brut (txt, XML, voire en provenance dupresse-papier)
Import via le presse-papier
I aller sur le site Web
I copier le contenu de la page (CTRL+C)
I dans TXM, selectionner Fichier/Importer/Presse-papier
I tada !
12 / 28
![Page 13: Plate-formes logicielles pour le TAL 1 : TXM - …I MElt (2010) : pr es de 98 % [Denis and Sagot, 2010] Quelle di erence concr ete? 96 % d’exactitude, environ 10 mots par phrase!sur](https://reader034.vdocuments.net/reader034/viewer/2022042807/5f7da9302d34c41afa44e3e5/html5/thumbnails/13.jpg)
Reglages
I vue interne
I ajout d’informations
I changement d’affichage
13 / 28
![Page 14: Plate-formes logicielles pour le TAL 1 : TXM - …I MElt (2010) : pr es de 98 % [Denis and Sagot, 2010] Quelle di erence concr ete? 96 % d’exactitude, environ 10 mots par phrase!sur](https://reader034.vdocuments.net/reader034/viewer/2022042807/5f7da9302d34c41afa44e3e5/html5/thumbnails/14.jpg)
Sources
Introduction
Compter et voir en contexteLexiqueConcordanceIndex et cooccurrences
Pour finir
Bibliographie
14 / 28
![Page 15: Plate-formes logicielles pour le TAL 1 : TXM - …I MElt (2010) : pr es de 98 % [Denis and Sagot, 2010] Quelle di erence concr ete? 96 % d’exactitude, environ 10 mots par phrase!sur](https://reader034.vdocuments.net/reader034/viewer/2022042807/5f7da9302d34c41afa44e3e5/html5/thumbnails/15.jpg)
Qu’est-ce que le lexique pour TXM ?
I liste de formes (par defaut, mais parametrable)
I frequences d’apparition
I lemmatisation et etiquetage (par defaut) avec TreeTagger
[Schmid, 1997], mais possibilite d’importer des corpuspre-annotes
I lien vers la concordance
Le contexte est fondamental dans TXM (seule la remise encontexte permet l’analyse)
15 / 28
![Page 16: Plate-formes logicielles pour le TAL 1 : TXM - …I MElt (2010) : pr es de 98 % [Denis and Sagot, 2010] Quelle di erence concr ete? 96 % d’exactitude, environ 10 mots par phrase!sur](https://reader034.vdocuments.net/reader034/viewer/2022042807/5f7da9302d34c41afa44e3e5/html5/thumbnails/16.jpg)
Qualite de l’etiquetage morpho-syntaxiqueou POS tagging
Exactitude (accuracy en anglais, a ne pas confondre avec laprecision) :
I TreeTagger (1994) : 95,7 %[Allauzen and Bonneau-Maynard, 2008]
I MElt (2010) : pres de 98 % [Denis and Sagot, 2010]
Quelle difference concrete ?
16 / 28
![Page 17: Plate-formes logicielles pour le TAL 1 : TXM - …I MElt (2010) : pr es de 98 % [Denis and Sagot, 2010] Quelle di erence concr ete? 96 % d’exactitude, environ 10 mots par phrase!sur](https://reader034.vdocuments.net/reader034/viewer/2022042807/5f7da9302d34c41afa44e3e5/html5/thumbnails/17.jpg)
Qualite de l’etiquetage morpho-syntaxiqueou POS tagging
Exactitude (accuracy en anglais, a ne pas confondre avec laprecision) :
I TreeTagger (1994) : 95,7 %[Allauzen and Bonneau-Maynard, 2008]
I MElt (2010) : pres de 98 % [Denis and Sagot, 2010]
Quelle difference concrete ?
96 % d’exactitude, environ 10 mots par phrase→ sur 10 phrases, un mot mal etiquete dans 4 phrases
98 % d’exactitude → deux fois moins d’erreurs
17 / 28
![Page 18: Plate-formes logicielles pour le TAL 1 : TXM - …I MElt (2010) : pr es de 98 % [Denis and Sagot, 2010] Quelle di erence concr ete? 96 % d’exactitude, environ 10 mots par phrase!sur](https://reader034.vdocuments.net/reader034/viewer/2022042807/5f7da9302d34c41afa44e3e5/html5/thumbnails/18.jpg)
Caracteristiques ?
Exporter et analyser
Exportez le lexique du corpus Vœux dans un tableur.Que pouvez-vous constater concernant la repartition desfrequences de mots ?
18 / 28
![Page 19: Plate-formes logicielles pour le TAL 1 : TXM - …I MElt (2010) : pr es de 98 % [Denis and Sagot, 2010] Quelle di erence concr ete? 96 % d’exactitude, environ 10 mots par phrase!sur](https://reader034.vdocuments.net/reader034/viewer/2022042807/5f7da9302d34c41afa44e3e5/html5/thumbnails/19.jpg)
Premiers pas en CQLCorpus Query Language
I expressions regulieres : Europe|europeen.∗, [] (un mot), & et |(booleens)
I neutralisations (a ajouter apres l’expression) :I %c pour neutraliser la casse (”europe”%c)I %d pour neutraliser les diacritiques (accents, cedille)I etc. (voir doc)
I assistant de requete
I tri du contexte droit et du contexte gauche
Trier, visualiser et chercher sont 3 actions differentes
19 / 28
![Page 20: Plate-formes logicielles pour le TAL 1 : TXM - …I MElt (2010) : pr es de 98 % [Denis and Sagot, 2010] Quelle di erence concr ete? 96 % d’exactitude, environ 10 mots par phrase!sur](https://reader034.vdocuments.net/reader034/viewer/2022042807/5f7da9302d34c41afa44e3e5/html5/thumbnails/20.jpg)
Frequences
Index permet de chercher la frequence d’une expression
Rechercher
Trouver en une seule recherche les frequences de � patrie �,� patriote �, � patriotisme �, � compatriotes �
→ permet de tester une formule de recherche (avant de se lanceren concordance)
20 / 28
![Page 21: Plate-formes logicielles pour le TAL 1 : TXM - …I MElt (2010) : pr es de 98 % [Denis and Sagot, 2010] Quelle di erence concr ete? 96 % d’exactitude, environ 10 mots par phrase!sur](https://reader034.vdocuments.net/reader034/viewer/2022042807/5f7da9302d34c41afa44e3e5/html5/thumbnails/21.jpg)
Les vœux dans le corpus Vœux
Rechercher les vœux
Trouver en une seule recherche le souhait de � bonne annee � dechaque President
21 / 28
![Page 22: Plate-formes logicielles pour le TAL 1 : TXM - …I MElt (2010) : pr es de 98 % [Denis and Sagot, 2010] Quelle di erence concr ete? 96 % d’exactitude, environ 10 mots par phrase!sur](https://reader034.vdocuments.net/reader034/viewer/2022042807/5f7da9302d34c41afa44e3e5/html5/thumbnails/22.jpg)
Les vœux dans le corpus Vœux
Rechercher les vœux
Trouver en une seule recherche le souhait de � bonne annee � dechaque President
[frlemma=”je”][] ∗ [frlemma=”souhaiter”][] ∗ [frlemma=”annee”]within ss = dans l’espace de la phrase
[frlemma=”je”][] ∗ [frlemma=”souhaiter”][] ∗ [frlemma=”annee”]within 25= dans l’espace de 25 mots
22 / 28
![Page 23: Plate-formes logicielles pour le TAL 1 : TXM - …I MElt (2010) : pr es de 98 % [Denis and Sagot, 2010] Quelle di erence concr ete? 96 % d’exactitude, environ 10 mots par phrase!sur](https://reader034.vdocuments.net/reader034/viewer/2022042807/5f7da9302d34c41afa44e3e5/html5/thumbnails/23.jpg)
Cooccurrences
Moyen de voir comment un mot � resonne � dans un corpus
23 / 28
![Page 24: Plate-formes logicielles pour le TAL 1 : TXM - …I MElt (2010) : pr es de 98 % [Denis and Sagot, 2010] Quelle di erence concr ete? 96 % d’exactitude, environ 10 mots par phrase!sur](https://reader034.vdocuments.net/reader034/viewer/2022042807/5f7da9302d34c41afa44e3e5/html5/thumbnails/24.jpg)
Sources
Introduction
Compter et voir en contexte
Pour finirCQFR : Ce Qu’il Faut RetenirLecture (obligatoire)
Bibliographie
24 / 28
![Page 25: Plate-formes logicielles pour le TAL 1 : TXM - …I MElt (2010) : pr es de 98 % [Denis and Sagot, 2010] Quelle di erence concr ete? 96 % d’exactitude, environ 10 mots par phrase!sur](https://reader034.vdocuments.net/reader034/viewer/2022042807/5f7da9302d34c41afa44e3e5/html5/thumbnails/25.jpg)
I lexicometrie, logometrie,textometrie
I manipulations de base :I lexiqueI concordanceI cooccurrencesI indexI CQL
Mais aussi :
I loi de Zipf
I qualite des taggers
25 / 28
![Page 26: Plate-formes logicielles pour le TAL 1 : TXM - …I MElt (2010) : pr es de 98 % [Denis and Sagot, 2010] Quelle di erence concr ete? 96 % d’exactitude, environ 10 mots par phrase!sur](https://reader034.vdocuments.net/reader034/viewer/2022042807/5f7da9302d34c41afa44e3e5/html5/thumbnails/26.jpg)
A lire
La textometrie par les textomaıtres :http://textometrie.ens-lyon.fr/spip.php?rubrique80
26 / 28
![Page 27: Plate-formes logicielles pour le TAL 1 : TXM - …I MElt (2010) : pr es de 98 % [Denis and Sagot, 2010] Quelle di erence concr ete? 96 % d’exactitude, environ 10 mots par phrase!sur](https://reader034.vdocuments.net/reader034/viewer/2022042807/5f7da9302d34c41afa44e3e5/html5/thumbnails/27.jpg)
Allauzen, A. and Bonneau-Maynard, H. (2008).Training and evaluation of pos taggers on the french multitagcorpus.In Nicoletta Calzolari (Conference Chair), Khalid Choukri, B.M. J. M. J. O. S. P. D. T., editor, Proceedings of the SixthInternational Conference on Language Resources andEvaluation (LREC’08), Marrakech, Morocco. EuropeanLanguage Resources Association (ELRA).http ://www.lrec-conf.org/proceedings/lrec2008/.
Denis, P. and Sagot, B. (2010).Exploitation d’une ressource lexicale pour la construction d’unetiqueteur morphosyntaxique etat-de-l’art du francais.InTraitement Automatique des Langues Naturelles : TALN 2010,Montreal, Canada.
Schmid, H. (1997).
27 / 28
![Page 28: Plate-formes logicielles pour le TAL 1 : TXM - …I MElt (2010) : pr es de 98 % [Denis and Sagot, 2010] Quelle di erence concr ete? 96 % d’exactitude, environ 10 mots par phrase!sur](https://reader034.vdocuments.net/reader034/viewer/2022042807/5f7da9302d34c41afa44e3e5/html5/thumbnails/28.jpg)
New Methods in Language Processing, Studies inComputational Linguistics, chapter Probabilistic part-of-speechtagging using decision trees, pages 154–164.UCL Press, London.
28 / 28