le traitement automatique des langues peu dotées - le cas...

139
Tal ` Oc Occitan Contexte Traitement automatique des langues peu dot´ ees Particularit´ es de l’occitan BaTel ` Oc Langues peu dot´ ees dans RESTAURE Nos travaux OCR Analyse mor- phosyntaxique Conclusions et perspectives Le traitement automatique des langues peu dot´ ees Le cas de l’occitan Marianne Vergez-Couret - Assaf Urieli UE TAL - Master 2 CLLE-ERSS - UMR 5263 Universit´ e de Toulouse and Joliciel Informatique Foix, France 20 octobre 2014 Vergez-Couret - Urieli CLLE-ERSS Tal ` Oc 1 / 59

Upload: others

Post on 15-Mar-2021

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Le traitement automatique des langues peudotees

Le cas de l’occitan

Marianne Vergez-Couret - Assaf Urieli

UE TAL - Master 2

CLLE-ERSS - UMR 5263Universite de Toulouse

and

Joliciel InformatiqueFoix, France

20 octobre 2014

Vergez-Couret - Urieli CLLE-ERSS TalOc 1 / 59

Page 2: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Table of contents

1 OccitanContexteTraitement automatique des langues peu doteesParticularites de l’occitan

2 BaTelOc

3 Langues peu dotees dans RESTAURE

4 Nos travauxOCRAnalyse morphosyntaxique

5 Conclusions et perspectives

Vergez-Couret - Urieli CLLE-ERSS TalOc 2 / 59

Page 3: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Occitan

1. Occitan

1 OccitanContexteTraitement automatique des langues peu doteesParticularites de l’occitan

Vergez-Couret - Urieli CLLE-ERSS TalOc 3 / 59

Page 4: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Occitan Contexte

Table of Contents

1 OccitanContexteTraitement automatique des langues peu doteesParticularites de l’occitan

2 BaTelOc

3 Langues peu dotees dans RESTAURE

4 Nos travauxOCRAnalyse morphosyntaxique

5 Conclusions et perspectives

Vergez-Couret - Urieli CLLE-ERSS TalOc 4 / 59

Page 5: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Occitan Contexte

Situation

Situation et contexte politique

• Langue romane• Organisee en dialectes• Couvrant 8 regions administratives• Pas de statut officiel en France

(Extrait de Diga-me, diag-li, Vent Terral, Enegas)

Vergez-Couret - Urieli CLLE-ERSS TalOc 5 / 59

Page 6: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Occitan Contexte

Contexte sociolinguistique

Contexte sociolinguistique

• Nombre de locuteurs : environ 500 000 sur une populationgenerale de 15 millions (3%)

• Enquete en Midi-Pyrenees : Natifs ou Bilingues : 4% ;Niveau intermediaire : 14% ; Locuteurs passifs : 32%

• Enseignement

• Presence dans les medias (presse, web, radio, tele)

• Reseaux associatifs

Vergez-Couret - Urieli CLLE-ERSS TalOc 6 / 59

Page 7: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Occitan Contexte

Developpement numerique de l’occitan

Developpement numerique de l’occitan

• Principaux acteurs (Formation Diagnostic numericoccitan)

• Lo congres permanent de la lenga occitana (dictionnaire enligne, conjugueur, corpus interrogeable via unconcordancier)

• CIRDOC (Occitanica, mediatheque numerique occitane)• Les medias (presse, radio, tele)

• Besoins• OCR (reconnaissance d’ecriture (manuscrit et tapuscrit))• Traduction automatique• Synthese vocale

Vergez-Couret - Urieli CLLE-ERSS TalOc 7 / 59

Page 8: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Occitan Traitement automatique des langues peu dotees

Table of Contents

1 OccitanContexteTraitement automatique des langues peu doteesParticularites de l’occitan

2 BaTelOc

3 Langues peu dotees dans RESTAURE

4 Nos travauxOCRAnalyse morphosyntaxique

5 Conclusions et perspectives

Vergez-Couret - Urieli CLLE-ERSS TalOc 8 / 59

Page 9: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Occitan Traitement automatique des langues peu dotees

Un veritable defi pour le TAL

• Faible rentabilite financiere de l’informatisation qui necompense pas les coups de developpement considerables(humains et financiers)

• Systemes robustes pour gerer le manque de ressources etla variation

... et pour l’occitan

• Assurer la collecte des donnees, utiliser des formatsnormalises pour diffusion, perennite, reutilisabilite

• Crucial pour la sauvegarde, la transmission etl’enseignement de l’occitan

• Enrichir les recherches en sciences humaines et sociales(linguistique, sociologie, litterature, histoire)

Vergez-Couret - Urieli CLLE-ERSS TalOc 9 / 59

Page 10: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Occitan Particularites de l’occitan

Table of Contents

1 OccitanContexteTraitement automatique des langues peu doteesParticularites de l’occitan

2 BaTelOc

3 Langues peu dotees dans RESTAURE

4 Nos travauxOCRAnalyse morphosyntaxique

5 Conclusions et perspectives

Vergez-Couret - Urieli CLLE-ERSS TalOc 10 / 59

Page 11: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Occitan Particularites de l’occitan

Langue ecrite

• 1000 ans de litterature

• Pas de standardisation pour la langue dans son ensemblemais emergence de formes plus ou moins standardiseespour chaque dialecte

• Plusieurs systemes graphiques :• Moyen-Age : graphie des troubadours• 19eme siecle : graphies inspirees de la graphie francaise• 20eme siecle : graphie classique

Vergez-Couret - Urieli CLLE-ERSS TalOc 11 / 59

Page 12: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Occitan Particularites de l’occitan

Langue romane

Langue romaneFrancais Italiano Castillano Portugues Catala Occitan

(Lengadocian)

mouche mosca mosca mosca mosca moscaamie amica amiga amiga amiga amigaamour amore amor amor amor amorchevre capra cabra cabra cabra cabrachateau castello castillo castelo castell casteltable tavolo mesa mesa taula taula

Vergez-Couret - Urieli CLLE-ERSS TalOc 12 / 59

Page 13: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Occitan Particularites de l’occitan

Varietes dialectales

Varietes dialectalesLengadocian Auvernhat Gascon Lemosin Provencau Vivaroaupenc

mosca moscha mosca moscha mosca moissaamiga amia amiga amiga mia amiaamor amor amor amor amor amorcabra chabra craba chabra cabra chabracastel chastel casteth chasteu casteu chasteutaula tala/taula taula taula taula taulanuech/nueit neut/nueit neit/nueit nuech nuech nuech/nuoch /nueit/neit

/net

Vergez-Couret - Urieli CLLE-ERSS TalOc 13 / 59

Page 14: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Occitan Particularites de l’occitan

Variantes graphiques

Variantes graphiquesgniu, gnoch, gnue, ne, nech, nei, neit, net, neyt, net, neyt, neit,net, neu, neuit, neut, ney, neyt, nie, niech, nieu, nio, nioch, niu,niue, niuech, niuit, noeyt, not, nou, noueit, nue, nuech, nue,nuech, nueit, nuet, nueyt, nuyt

Vergez-Couret - Urieli CLLE-ERSS TalOc 14 / 59

Page 15: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

BaTelOc

2. BaTelOc

2 BaTelOc

Vergez-Couret - Urieli CLLE-ERSS TalOc 15 / 59

Page 16: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

BaTelOc

BaTelOc (dirige par Myriam Bras)

Motivations

• Besoin de ressources pour travailler sur l’occitan

• Se constituer son propre corpus

• Construire une base textuelle pour l’occitan

Vergez-Couret - Urieli CLLE-ERSS TalOc 16 / 59

Page 17: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

BaTelOc

BaTelOc

Objectifs

• Etape 1• Rassembler des oeuvres ecrites de differents genres, des

epoques modernes et contemporaines• Accueillant toute la variation (dialectale et graphique)

possible

• Etape 2• Creation d’outils pour la selection des corpus et

l’exploration des textes (concordancier)

• Etape 3• Enrichir d’annotations linguistiques

Vergez-Couret - Urieli CLLE-ERSS TalOc 17 / 59

Page 18: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

BaTelOc

BaTelOc

Objectifs

• Etape 1• Rassembler des oeuvres ecrites de differents genres, des

epoques modernes et contemporaines• Accueillant toute la variation (dialectale et graphique)

possible

• Etape 2• Creation d’outils pour la selection des corpus et

l’exploration des textes (concordancier)

• Etape 3• Enrichir d’annotations linguistiques

Vergez-Couret - Urieli CLLE-ERSS TalOc 17 / 59

Page 19: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

BaTelOc

BaTelOc

Objectifs

• Etape 1• Rassembler des oeuvres ecrites de differents genres, des

epoques modernes et contemporaines• Accueillant toute la variation (dialectale et graphique)

possible

• Etape 2• Creation d’outils pour la selection des corpus et

l’exploration des textes (concordancier)

• Etape 3• Enrichir d’annotations linguistiques

Vergez-Couret - Urieli CLLE-ERSS TalOc 17 / 59

Page 20: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

BaTelOc

BaTelOc

Strategies pour la constitution de la base

• Commencer par les textes deja numerises, puis remonterdans le temps (scan et OCR)

• Codage XML (reutilisabilite)

• Batir des partenariats avec le milieu occitan (editeurs,bibliotheques virtuelles...)

Vergez-Couret - Urieli CLLE-ERSS TalOc 18 / 59

Page 21: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

BaTelOc

BaTelOc

Presentation

• Petite base (environ 60 textes, 2 millions de mots)

• Genres : roman, conte, poesie, essai, memoires

• Outils pour construire un corpus de travail

• Concordancier

• Sortie prevue printemps 2015

Vergez-Couret - Urieli CLLE-ERSS TalOc 19 / 59

Page 22: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

BaTelOc

BaTelOc

Strategies pour l’enrichissement avec des annotationslinguistiques

• Commencer par l’analyse morphosyntaxique

• Annotation d’un sous-ensemble de la base (coherent d’unpoint de vue dialectal)

• Etape 1 : Avec des outils existants (cf. Apertium)

• Etape 2 : Avec une plateforme generique d’entraınementpar apprentissage supervise

Vergez-Couret - Urieli CLLE-ERSS TalOc 20 / 59

Page 23: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Langues peu dotees dans RESTAURE

3. Langues peu dotees dans RESTAURE

3 Langues peu dotees dans RESTAURE

Vergez-Couret - Urieli CLLE-ERSS TalOc 21 / 59

Page 24: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Langues peu dotees dans RESTAURE

Strategie globale

• Travailler avec les autres langues peu dotees

• RESTAURE : Ressources informatisees et TraitementAUtomatique des langues REgionales de France

• Alsacien, Occitan, Picard

• Mutualiser les outils

• Mutualiser les experiences

Vergez-Couret - Urieli CLLE-ERSS TalOc 22 / 59

Page 25: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Langues peu dotees dans RESTAURE

Objectifs

Objectifs

• Acquisition et normalisation de ressources (corpus,lexiques, dictionnaires).

• Ressources representant un ensemble de varietes le pluslarge possible (genre, dialecte, graphie)

• Scan de textes imprimes et ocerisation• Encoder les ressources en suivant les formats standards

• Developpement d’outils de TAL• OCR,• Segmentation des textes en phrases et en mots,• Analyse morphosyntaxique,• Lemmatisation et normalisation,• Reconnaissance des entites nommees• Desambiguısation du sens des mots pour la traduction.

Vergez-Couret - Urieli CLLE-ERSS TalOc 23 / 59

Page 26: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Langues peu dotees dans RESTAURE

Methodes

Methodes

• Adapter les outils des langues proches

• Adapter les ressources des langues proches

• Meme chose pour les dialectes

Vergez-Couret - Urieli CLLE-ERSS TalOc 24 / 59

Page 27: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Langues peu dotees dans RESTAURE

Nos travaux

• En utilisant des methodes par apprentissage supervise

• Laboratoire experimental pour les langues peu dotees

• Ou mettre l’effort ? (constitution et gestion des ressources)

Vergez-Couret - Urieli CLLE-ERSS TalOc 25 / 59

Page 28: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux

4. Nos travaux

4 Nos travauxOCRAnalyse morphosyntaxique

Vergez-Couret - Urieli CLLE-ERSS TalOc 26 / 59

Page 29: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux OCR

Table of Contents

1 OccitanContexteTraitement automatique des langues peu doteesParticularites de l’occitan

2 BaTelOc

3 Langues peu dotees dans RESTAURE

4 Nos travauxOCRAnalyse morphosyntaxique

5 Conclusions et perspectives

Vergez-Couret - Urieli CLLE-ERSS TalOc 27 / 59

Page 30: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux OCR

OCR - Principes

OCR - Principes

• Jochre : Java Optical CHaracter REcognition• Logiciel libre developpe par Assaf Urieli

• Apprentissage automatique supervise• Annotation d’un corpus d’entraınement avec JochreWeb

• 3 etapes d’analyse :• segmentation des images en paragraphes, lignes, groupes

et formes• reconnaissance des lettres• correction des mots a l’aide du lexique (re-ranking)

Vergez-Couret - Urieli CLLE-ERSS TalOc 28 / 59

Page 31: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux OCR

OCR - Principes

OCR - Principes

• Jochre : Java Optical CHaracter REcognition• Logiciel libre developpe par Assaf Urieli

• Apprentissage automatique supervise• Annotation d’un corpus d’entraınement avec JochreWeb

• 3 etapes d’analyse :• segmentation des images en paragraphes, lignes, groupes

et formes• reconnaissance des lettres• correction des mots a l’aide du lexique (re-ranking)

Vergez-Couret - Urieli CLLE-ERSS TalOc 28 / 59

Page 32: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux OCR

OCR - Principes

OCR - Principes

• Jochre : Java Optical CHaracter REcognition• Logiciel libre developpe par Assaf Urieli

• Apprentissage automatique supervise• Annotation d’un corpus d’entraınement avec JochreWeb

• 3 etapes d’analyse :• segmentation des images en paragraphes, lignes, groupes

et formes• reconnaissance des lettres• correction des mots a l’aide du lexique (re-ranking)

Vergez-Couret - Urieli CLLE-ERSS TalOc 28 / 59

Page 33: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux OCR

OCR - Principes

OCR - Principes

• Jochre : Java Optical CHaracter REcognition• Logiciel libre developpe par Assaf Urieli

• Apprentissage automatique supervise• Annotation d’un corpus d’entraınement avec JochreWeb

• 3 etapes d’analyse :• segmentation des images en paragraphes, lignes, groupes

et formes• reconnaissance des lettres• correction des mots a l’aide du lexique (re-ranking)

Vergez-Couret - Urieli CLLE-ERSS TalOc 28 / 59

Page 34: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux OCR

OCR - Principes

OCR - Principes

• Jochre : Java Optical CHaracter REcognition• Logiciel libre developpe par Assaf Urieli

• Apprentissage automatique supervise• Annotation d’un corpus d’entraınement avec JochreWeb

• 3 etapes d’analyse :• segmentation des images en paragraphes, lignes, groupes

et formes• reconnaissance des lettres• correction des mots a l’aide du lexique (re-ranking)

Vergez-Couret - Urieli CLLE-ERSS TalOc 28 / 59

Page 35: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux OCR

OCR - Principes

OCR - Principes

• Jochre : Java Optical CHaracter REcognition• Logiciel libre developpe par Assaf Urieli

• Apprentissage automatique supervise• Annotation d’un corpus d’entraınement avec JochreWeb

• 3 etapes d’analyse :• segmentation des images en paragraphes, lignes, groupes

et formes• reconnaissance des lettres• correction des mots a l’aide du lexique (re-ranking)

Vergez-Couret - Urieli CLLE-ERSS TalOc 28 / 59

Page 36: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux OCR

Annotation OCR

Annotation OCR avec JochreWeb

Vergez-Couret - Urieli CLLE-ERSS TalOc 29 / 59

Page 37: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux OCR

Analyse OCR Etape 1 - Segmentation

Analyse OCR Etape 1 - Segmentation

Vergez-Couret - Urieli CLLE-ERSS TalOc 30 / 59

Page 38: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux OCR

Analyse OCR Etape 2 - Reconnaissance des lettres

Analyse OCR Etape 2 - Reconnaissance des lettres

• Apprentissage automatique supervise

• Annotation du corpus d’apprentissage sur JochreWeb

• Entraınement d’un modele statistique par langue

• Descripteurs :• Descripteurs generiques (noirceur relative des cases d’une

grille)• Descripteurs specialises (pour distinguer deux lettres

proches)

Vergez-Couret - Urieli CLLE-ERSS TalOc 31 / 59

Page 39: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux OCR

Analyse OCR Etape 2 - Reconnaissance des lettres

Analyse OCR Etape 2 - Reconnaissance des lettres

• Apprentissage automatique supervise

• Annotation du corpus d’apprentissage sur JochreWeb

• Entraınement d’un modele statistique par langue

• Descripteurs :• Descripteurs generiques (noirceur relative des cases d’une

grille)• Descripteurs specialises (pour distinguer deux lettres

proches)

Vergez-Couret - Urieli CLLE-ERSS TalOc 31 / 59

Page 40: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux OCR

Analyse OCR Etape 2 - Reconnaissance des lettres

Analyse OCR Etape 2 - Reconnaissance des lettres

• Apprentissage automatique supervise

• Annotation du corpus d’apprentissage sur JochreWeb

• Entraınement d’un modele statistique par langue

• Descripteurs :• Descripteurs generiques (noirceur relative des cases d’une

grille)• Descripteurs specialises (pour distinguer deux lettres

proches)

Vergez-Couret - Urieli CLLE-ERSS TalOc 31 / 59

Page 41: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux OCR

Analyse OCR Etape 2 - Reconnaissance des lettres

Analyse OCR Etape 2 - Reconnaissance des lettres

• Apprentissage automatique supervise

• Annotation du corpus d’apprentissage sur JochreWeb

• Entraınement d’un modele statistique par langue

• Descripteurs :• Descripteurs generiques (noirceur relative des cases d’une

grille)• Descripteurs specialises (pour distinguer deux lettres

proches)

Vergez-Couret - Urieli CLLE-ERSS TalOc 31 / 59

Page 42: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux OCR

Analyse OCR Etape 2 - Reconnaissance des lettres

Analyse OCR Etape 2 - Reconnaissance des lettres

• Apprentissage automatique supervise

• Annotation du corpus d’apprentissage sur JochreWeb

• Entraınement d’un modele statistique par langue

• Descripteurs :• Descripteurs generiques (noirceur relative des cases d’une

grille)• Descripteurs specialises (pour distinguer deux lettres

proches)

Vergez-Couret - Urieli CLLE-ERSS TalOc 31 / 59

Page 43: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux OCR

Analyse OCR Etape 2 - Reconnaissance des lettres

Analyse OCR Etape 2 - Reconnaissance des lettres

• Apprentissage automatique supervise

• Annotation du corpus d’apprentissage sur JochreWeb

• Entraınement d’un modele statistique par langue

• Descripteurs :• Descripteurs generiques (noirceur relative des cases d’une

grille)• Descripteurs specialises (pour distinguer deux lettres

proches)

Vergez-Couret - Urieli CLLE-ERSS TalOc 31 / 59

Page 44: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux OCR

Analyse OCR Etape 3 - Correction (Reranking)

Analyse OCR Etape 3 - Correction (Reranking)

• Recherche par faisceau : les n analyses les plus probables

• Utilisation du lexique pour � reranking �

• Possibilite de prendre en compte la frequence

Vergez-Couret - Urieli CLLE-ERSS TalOc 32 / 59

Page 45: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux OCR

Analyse OCR Etape 3 - Correction (Reranking)

Analyse OCR Etape 3 - Correction (Reranking)

• Recherche par faisceau : les n analyses les plus probables

• Utilisation du lexique pour � reranking �

• Possibilite de prendre en compte la frequence

Vergez-Couret - Urieli CLLE-ERSS TalOc 32 / 59

Page 46: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux OCR

Analyse OCR Etape 3 - Correction (Reranking)

Analyse OCR Etape 3 - Correction (Reranking)

• Recherche par faisceau : les n analyses les plus probables

• Utilisation du lexique pour � reranking �

• Possibilite de prendre en compte la frequence

Vergez-Couret - Urieli CLLE-ERSS TalOc 32 / 59

Page 47: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux OCR

OCR - parametres re-ranking

OCR - parametres re-ranking

• Largeur de faisceau : 1, 2, 5, 10, 20

• Coefficient de reduction pour mots inconnus : 0,75

• Prise en compte de la frequence ? Non

Vergez-Couret - Urieli CLLE-ERSS TalOc 33 / 59

Page 48: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux OCR

OCR - parametres re-ranking

OCR - parametres re-ranking

• Largeur de faisceau : 1, 2, 5, 10, 20

• Coefficient de reduction pour mots inconnus : 0,75

• Prise en compte de la frequence ? Non

Vergez-Couret - Urieli CLLE-ERSS TalOc 33 / 59

Page 49: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux OCR

OCR - parametres re-ranking

OCR - parametres re-ranking

• Largeur de faisceau : 1, 2, 5, 10, 20

• Coefficient de reduction pour mots inconnus : 0,75

• Prise en compte de la frequence ? Non

Vergez-Couret - Urieli CLLE-ERSS TalOc 33 / 59

Page 50: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux OCR

OCR - Preparation des corpus d’entraınement

OCR - Preparation des corpus d’entraınementCorpus OccitanAnnotateurs Marianne Vergez-CouretNombre de livres numerises 10Annees d’edition 1960-2000Lieu d’edition FranceNombre de pages 80Nombre de mots 20 400Nombre de lettres 85 500

Correction des erreurs humaines d’annotation apres unepremiere analyse automatique du corpus

Vergez-Couret - Urieli CLLE-ERSS TalOc 34 / 59

Page 51: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux OCR

OCR - Preparation des corpus d’entraınement

OCR - Preparation des corpus d’entraınementCorpus OccitanAnnotateurs Marianne Vergez-CouretNombre de livres numerises 10Annees d’edition 1960-2000Lieu d’edition FranceNombre de pages 80Nombre de mots 20 400Nombre de lettres 85 500

Correction des erreurs humaines d’annotation apres unepremiere analyse automatique du corpus

Vergez-Couret - Urieli CLLE-ERSS TalOc 34 / 59

Page 52: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux OCR

OCR - Ressources lexicales pour l’occitan

OCR - Ressources lexicales pour l’occitanDe quelles ressources dispose-t-on ?

• Textes BaTelOc → lexiques de flechies

• Dictionnaires sous format papier numerises → lexiques delemmes avec des informations grammaticales

• Nombre d’entree : 54 500• Generation des formes flechies : 84 400

Vergez-Couret - Urieli CLLE-ERSS TalOc 35 / 59

Page 53: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux OCR

OCR - Ressources lexicales pour l’occitan

OCR - Ressources lexicales pour l’occitanDe quelles ressources dispose-t-on ?

• Textes BaTelOc → lexiques de flechies

• Dictionnaires sous format papier numerises → lexiques delemmes avec des informations grammaticales

• Nombre d’entree : 54 500• Generation des formes flechies : 84 400

Vergez-Couret - Urieli CLLE-ERSS TalOc 35 / 59

Page 54: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux OCR

OCR - Ressources lexicales pour l’occitan

OCR - Ressources lexicales pour l’occitanDe quelles ressources dispose-t-on ?

• Textes BaTelOc → lexiques de flechies

• Dictionnaires sous format papier numerises → lexiques delemmes avec des informations grammaticales

• Nombre d’entree : 54 500• Generation des formes flechies : 84 400

Vergez-Couret - Urieli CLLE-ERSS TalOc 35 / 59

Page 55: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux OCR

OCR - Ressources lexicales pour l’occitan

OCR - Ressources lexicales pour l’occitanDe quelles ressources dispose-t-on ?

• Textes BaTelOc → lexiques de flechies

• Dictionnaires sous format papier numerises → lexiques delemmes avec des informations grammaticales

• Nombre d’entree : 54 500• Generation des formes flechies : 84 400

Vergez-Couret - Urieli CLLE-ERSS TalOc 35 / 59

Page 56: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux OCR

OCR - Ressources lexicales pour l’occitan

OCR - Ressources lexicales pour l’occitanDe quelles ressources dispose-t-on ?

• Textes BaTelOc → lexiques de flechies

• Dictionnaires sous format papier numerises → lexiques delemmes avec des informations grammaticales

• Nombre d’entree : 54 500• Generation des formes flechies : 84 400

Vergez-Couret - Urieli CLLE-ERSS TalOc 35 / 59

Page 57: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux OCR

OCR - Fusion des lexiques

OCR - Fusion des lexiques

• Lex Global (150 700)• Lex Lengadocian (135 300)

• Lex Rouquette (17 100)• Lex Laux (84 800)• Lex Molin (9 600)

• Lex Gascon (28 900)• Lex Blader (5 300)

Vergez-Couret - Urieli CLLE-ERSS TalOc 36 / 59

Page 58: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux OCR

OCR - Resultats

OCR - ResultatsEnsemble Corpus Corpusdu corpus Lengadocian Gascon

Mots Lettres Mots Lettres Mots Lettres

Sans Lexique 91,54 97,53 92,08 97,64 90,99 97,41Lex Gascon 92,72 97,81 93,07 97,85 92,36 97,78Lex Lengadocian 92,83 97,86 94,10 98,15 91,53 97,56Lex Global 93,13 97,93 94,08 98,13 92,16 97,71

Pour le corpus global :

• Apport systematique des lexiques

• Meilleure strategie : Lex Global

• Gain de 19% (mots) et 16% (lettres)

Vergez-Couret - Urieli CLLE-ERSS TalOc 37 / 59

Page 59: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux OCR

OCR - Resultats

OCR - ResultatsEnsemble Corpus Corpusdu corpus Lengadocian Gascon

Mots Lettres Mots Lettres Mots Lettres

Sans Lexique 91,54 97,53 92,08 97,64 90,99 97,41Lex Gascon 92,72 97,81 93,07 97,85 92,36 97,78Lex Lengadocian 92,83 97,86 94,10 98,15 91,53 97,56Lex Global 93,13 97,93 94,08 98,13 92,16 97,71

Pour le corpus global :

• Apport systematique des lexiques

• Meilleure strategie : Lex Global

• Gain de 19% (mots) et 16% (lettres)

Vergez-Couret - Urieli CLLE-ERSS TalOc 37 / 59

Page 60: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux OCR

OCR - Resultats

OCR - ResultatsEnsemble Corpus Corpusdu corpus Lengadocian Gascon

Mots Lettres Mots Lettres Mots Lettres

Sans Lexique 91,54 97,53 92,08 97,64 90,99 97,41Lex Gascon 92,72 97,81 93,07 97,85 92,36 97,78Lex Lengadocian 92,83 97,86 94,10 98,15 91,53 97,56Lex Global 93,13 97,93 94,08 98,13 92,16 97,71

Pour le sous-corpus lengadocian :

• Meilleure strategie : Lexique du lengadocian

• Gain de 25,5% (mots) et 21,6% (lettres)

• Lexique du gascon = gain de 6%

Vergez-Couret - Urieli CLLE-ERSS TalOc 38 / 59

Page 61: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux OCR

OCR - Resultats

OCR - ResultatsEnsemble Corpus Corpusdu corpus Lengadocian Gascon

Mots Lettres Mots Lettres Mots Lettres

Sans Lexique 91,54 97,53 92,08 97,64 90,99 97,41Lex Gascon 92,72 97,81 93,07 97,85 92,36 97,78Lex Lengadocian 92,83 97,86 94,10 98,15 91,53 97,56Lex Global 93,13 97,93 94,08 98,13 92,16 97,71

Pour le sous-corpus lengadocian :

• Meilleure strategie : Lexique du lengadocian

• Gain de 25,5% (mots) et 21,6% (lettres)

• Lexique du gascon = gain de 6%

Vergez-Couret - Urieli CLLE-ERSS TalOc 38 / 59

Page 62: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux OCR

OCR - Resultats

OCR - ResultatsEnsemble Corpus Corpusdu corpus Lengadocian Gascon

Mots Lettres Mots Lettres Mots Lettres

Sans Lexique 91,54 97,53 92,08 97,64 90,99 97,41Lex Gascon 92,72 97,81 93,07 97,85 92,36 97,78Lex Lengadocian 92,83 97,86 94,10 98,15 91,53 97,56Lex Global 93,13 97,93 94,08 98,13 92,16 97,71

Pour le sous-corpus gascon :

• Meilleure strategie : Lexique du gascon

• Gain de 15,2% (mots) et 14,2% (lettres)

• Lexique du lengadocian = gain de 12%

Vergez-Couret - Urieli CLLE-ERSS TalOc 39 / 59

Page 63: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux OCR

OCR - Resultats

OCR - ResultatsEnsemble Corpus Corpusdu corpus Lengadocian Gascon

Mots Lettres Mots Lettres Mots Lettres

Sans Lexique 91,54 97,53 92,08 97,64 90,99 97,41Lex Gascon 92,72 97,81 93,07 97,85 92,36 97,78Lex Lengadocian 92,83 97,86 94,10 98,15 91,53 97,56Lex Global 93,13 97,93 94,08 98,13 92,16 97,71

Pour le sous-corpus gascon :

• Meilleure strategie : Lexique du gascon

• Gain de 15,2% (mots) et 14,2% (lettres)

• Lexique du lengadocian = gain de 12%

Vergez-Couret - Urieli CLLE-ERSS TalOc 39 / 59

Page 64: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux OCR

OCR - Conclusion et perspectives

OCR - Conclusion et perspectives

• Role des lexiques dans la tache d’ocerisation• Apport des lexiques par dialectes (occitan)

• Effort lexical• Difficultes intrinseques a reconnaıtre les mots inconnus• Analyse et typologie des mots inconnus• Pour viser l’effort lexical le plus utile• Quelle est notre marge d’amelioration ?

• Pour le reste, effort d’ingenierie (segmentation, traitsspecialises)

• Apprentissage d’un modele par police ? (italique, . . . )

Vergez-Couret - Urieli CLLE-ERSS TalOc 40 / 59

Page 65: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux OCR

OCR - Conclusion et perspectives

OCR - Conclusion et perspectives

• Role des lexiques dans la tache d’ocerisation• Apport des lexiques par dialectes (occitan)

• Effort lexical• Difficultes intrinseques a reconnaıtre les mots inconnus• Analyse et typologie des mots inconnus• Pour viser l’effort lexical le plus utile• Quelle est notre marge d’amelioration ?

• Pour le reste, effort d’ingenierie (segmentation, traitsspecialises)

• Apprentissage d’un modele par police ? (italique, . . . )

Vergez-Couret - Urieli CLLE-ERSS TalOc 40 / 59

Page 66: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux OCR

OCR - Conclusion et perspectives

OCR - Conclusion et perspectives

• Role des lexiques dans la tache d’ocerisation• Apport des lexiques par dialectes (occitan)

• Effort lexical• Difficultes intrinseques a reconnaıtre les mots inconnus• Analyse et typologie des mots inconnus• Pour viser l’effort lexical le plus utile• Quelle est notre marge d’amelioration ?

• Pour le reste, effort d’ingenierie (segmentation, traitsspecialises)

• Apprentissage d’un modele par police ? (italique, . . . )

Vergez-Couret - Urieli CLLE-ERSS TalOc 40 / 59

Page 67: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Table of Contents

1 OccitanContexteTraitement automatique des langues peu doteesParticularites de l’occitan

2 BaTelOc

3 Langues peu dotees dans RESTAURE

4 Nos travauxOCRAnalyse morphosyntaxique

5 Conclusions et perspectives

Vergez-Couret - Urieli CLLE-ERSS TalOc 41 / 59

Page 68: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Pos-tagging : Lengadocian and Gascon dialects

Pos-tagging : Lengadocian and Gascon dialects

• Examples of lexical variations : filh/hilh ; luna/lua ;cabra/craba

• Examples of syntactic variations :• Enonciative particles

• Example : “I’m buying bread and apples”.• Gascon : “ Que crompi pans e pomas.”• Lengadocian : “Compri de pans e de pomas.”

• Indefinite and partitive articles• Example : “I want some water.”• Gascon : “Que voli aiga.”• Lengadocian : “Voli d’aiga.”

• Double/triple negation mandatory• Example : “He can’t hear anything.”• Gascon : “ N’enten pas arren.”• Lengadocian : “Enten pas ren.”

• Additional intra-dialectal and spelling variations

Vergez-Couret - Urieli CLLE-ERSS TalOc 42 / 59

Page 69: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Pos-tagging : Lengadocian and Gascon dialects

Pos-tagging : Lengadocian and Gascon dialects

• Examples of lexical variations : filh/hilh ; luna/lua ;cabra/craba

• Examples of syntactic variations :• Enonciative particles

• Example : “I’m buying bread and apples”.• Gascon : “ Que crompi pans e pomas.”• Lengadocian : “Compri de pans e de pomas.”

• Indefinite and partitive articles• Example : “I want some water.”• Gascon : “Que voli aiga.”• Lengadocian : “Voli d’aiga.”

• Double/triple negation mandatory• Example : “He can’t hear anything.”• Gascon : “ N’enten pas arren.”• Lengadocian : “Enten pas ren.”

• Additional intra-dialectal and spelling variations

Vergez-Couret - Urieli CLLE-ERSS TalOc 42 / 59

Page 70: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Pos-tagging : Lengadocian and Gascon dialects

Pos-tagging : Lengadocian and Gascon dialects

• Examples of lexical variations : filh/hilh ; luna/lua ;cabra/craba

• Examples of syntactic variations :• Enonciative particles

• Example : “I’m buying bread and apples”.• Gascon : “ Que crompi pans e pomas.”• Lengadocian : “Compri de pans e de pomas.”

• Indefinite and partitive articles• Example : “I want some water.”• Gascon : “Que voli aiga.”• Lengadocian : “Voli d’aiga.”

• Double/triple negation mandatory• Example : “He can’t hear anything.”• Gascon : “ N’enten pas arren.”• Lengadocian : “Enten pas ren.”

• Additional intra-dialectal and spelling variations

Vergez-Couret - Urieli CLLE-ERSS TalOc 42 / 59

Page 71: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Pos-tagging : Lengadocian and Gascon dialects

Pos-tagging : Lengadocian and Gascon dialects

• Examples of lexical variations : filh/hilh ; luna/lua ;cabra/craba

• Examples of syntactic variations :• Enonciative particles

• Example : “I’m buying bread and apples”.• Gascon : “ Que crompi pans e pomas.”• Lengadocian : “Compri de pans e de pomas.”

• Indefinite and partitive articles• Example : “I want some water.”• Gascon : “Que voli aiga.”• Lengadocian : “Voli d’aiga.”

• Double/triple negation mandatory• Example : “He can’t hear anything.”• Gascon : “ N’enten pas arren.”• Lengadocian : “Enten pas ren.”

• Additional intra-dialectal and spelling variations

Vergez-Couret - Urieli CLLE-ERSS TalOc 42 / 59

Page 72: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Pos-tagging : Lengadocian and Gascon dialects

Pos-tagging : Lengadocian and Gascon dialects

• Examples of lexical variations : filh/hilh ; luna/lua ;cabra/craba

• Examples of syntactic variations :• Enonciative particles

• Example : “I’m buying bread and apples”.• Gascon : “ Que crompi pans e pomas.”• Lengadocian : “Compri de pans e de pomas.”

• Indefinite and partitive articles• Example : “I want some water.”• Gascon : “Que voli aiga.”• Lengadocian : “Voli d’aiga.”

• Double/triple negation mandatory• Example : “He can’t hear anything.”• Gascon : “ N’enten pas arren.”• Lengadocian : “Enten pas ren.”

• Additional intra-dialectal and spelling variations

Vergez-Couret - Urieli CLLE-ERSS TalOc 42 / 59

Page 73: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Pos-tagging : Software

Pos-tagging : Software• Talismane (Urieli, 2013)

• Supervised machine learning approach• Linear start-to-end pos-tagging• Open source• http ://redac.univ-tlse2.fr/talismane.html• ≈ 97% accuracy on English and French

• Lexicon usage :• As features, to help the statistical model• As rules, to override the statistical model

• Machine learning :• Linear SVM• Parameters : ε = 0.1, C = 0.5

Vergez-Couret - Urieli CLLE-ERSS TalOc 43 / 59

Page 74: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Pos-tagging : Software

Pos-tagging : Software• Talismane (Urieli, 2013)

• Supervised machine learning approach• Linear start-to-end pos-tagging• Open source• http ://redac.univ-tlse2.fr/talismane.html• ≈ 97% accuracy on English and French

• Lexicon usage :• As features, to help the statistical model• As rules, to override the statistical model

• Machine learning :• Linear SVM• Parameters : ε = 0.1, C = 0.5

Vergez-Couret - Urieli CLLE-ERSS TalOc 43 / 59

Page 75: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Pos-tagging : Software

Pos-tagging : Software• Talismane (Urieli, 2013)

• Supervised machine learning approach• Linear start-to-end pos-tagging• Open source• http ://redac.univ-tlse2.fr/talismane.html• ≈ 97% accuracy on English and French

• Lexicon usage :• As features, to help the statistical model• As rules, to override the statistical model

• Machine learning :• Linear SVM• Parameters : ε = 0.1, C = 0.5

Vergez-Couret - Urieli CLLE-ERSS TalOc 43 / 59

Page 76: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Features

Features

• Same base features as for English and French :• W : the word form• P : the pos-tag (assigned or in lexicon)• L : the lemma (assigned or in lexicon)• U : if the token is unknown in the lexicon• Prefn / Sfxn : the first/last n letters• 1st / Last : if the token is 1st/last in the sentence• 2- and 3-grams built from tokens at positions -2, -1, 0, +1,

+2

Vergez-Couret - Urieli CLLE-ERSS TalOc 44 / 59

Page 77: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Features

Features

• Same base features as for English and French :• W : the word form• P : the pos-tag (assigned or in lexicon)• L : the lemma (assigned or in lexicon)• U : if the token is unknown in the lexicon• Prefn / Sfxn : the first/last n letters• 1st / Last : if the token is 1st/last in the sentence• 2- and 3-grams built from tokens at positions -2, -1, 0, +1,

+2

Vergez-Couret - Urieli CLLE-ERSS TalOc 44 / 59

Page 78: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Features

Features

• Same base features as for English and French :• W : the word form• P : the pos-tag (assigned or in lexicon)• L : the lemma (assigned or in lexicon)• U : if the token is unknown in the lexicon• Prefn / Sfxn : the first/last n letters• 1st / Last : if the token is 1st/last in the sentence• 2- and 3-grams built from tokens at positions -2, -1, 0, +1,

+2

Vergez-Couret - Urieli CLLE-ERSS TalOc 44 / 59

Page 79: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Features

Features

• Same base features as for English and French :• W : the word form• P : the pos-tag (assigned or in lexicon)• L : the lemma (assigned or in lexicon)• U : if the token is unknown in the lexicon• Prefn / Sfxn : the first/last n letters• 1st / Last : if the token is 1st/last in the sentence• 2- and 3-grams built from tokens at positions -2, -1, 0, +1,

+2

Vergez-Couret - Urieli CLLE-ERSS TalOc 44 / 59

Page 80: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Features

Features

• Same base features as for English and French :• W : the word form• P : the pos-tag (assigned or in lexicon)• L : the lemma (assigned or in lexicon)• U : if the token is unknown in the lexicon• Prefn / Sfxn : the first/last n letters• 1st / Last : if the token is 1st/last in the sentence• 2- and 3-grams built from tokens at positions -2, -1, 0, +1,

+2

Vergez-Couret - Urieli CLLE-ERSS TalOc 44 / 59

Page 81: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Features

Features

• Same base features as for English and French :• W : the word form• P : the pos-tag (assigned or in lexicon)• L : the lemma (assigned or in lexicon)• U : if the token is unknown in the lexicon• Prefn / Sfxn : the first/last n letters• 1st / Last : if the token is 1st/last in the sentence• 2- and 3-grams built from tokens at positions -2, -1, 0, +1,

+2

Vergez-Couret - Urieli CLLE-ERSS TalOc 44 / 59

Page 82: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Features

Features

• Same base features as for English and French :• W : the word form• P : the pos-tag (assigned or in lexicon)• L : the lemma (assigned or in lexicon)• U : if the token is unknown in the lexicon• Prefn / Sfxn : the first/last n letters• 1st / Last : if the token is 1st/last in the sentence• 2- and 3-grams built from tokens at positions -2, -1, 0, +1,

+2

Vergez-Couret - Urieli CLLE-ERSS TalOc 44 / 59

Page 83: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Features

Features

• Same base features as for English and French :• W : the word form• P : the pos-tag (assigned or in lexicon)• L : the lemma (assigned or in lexicon)• U : if the token is unknown in the lexicon• Prefn / Sfxn : the first/last n letters• 1st / Last : if the token is 1st/last in the sentence• 2- and 3-grams built from tokens at positions -2, -1, 0, +1,

+2

Vergez-Couret - Urieli CLLE-ERSS TalOc 44 / 59

Page 84: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Rules

Rules

• Rules from lexicon for :• Closed classes (non-productive functional categories)• Open classes (productive lexical categories)

• Three rules :

1 Closed classes : only assign preposition, conjunction, etc. ifthe form is listed in the lexicon for this pos-tag = Don’tinvent new prepositions

2 Open classes : don’t assign common noun, adjective, etc. ifthe form is only listed with closed classes in lexicon =Don’t assign common noun to “lo” (“the”).

3 Automatically assign Card and Pct respectively tonumbers and punctuation.

Vergez-Couret - Urieli CLLE-ERSS TalOc 45 / 59

Page 85: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Rules

Rules

• Rules from lexicon for :• Closed classes (non-productive functional categories)• Open classes (productive lexical categories)

• Three rules :

1 Closed classes : only assign preposition, conjunction, etc. ifthe form is listed in the lexicon for this pos-tag = Don’tinvent new prepositions

2 Open classes : don’t assign common noun, adjective, etc. ifthe form is only listed with closed classes in lexicon =Don’t assign common noun to “lo” (“the”).

3 Automatically assign Card and Pct respectively tonumbers and punctuation.

Vergez-Couret - Urieli CLLE-ERSS TalOc 45 / 59

Page 86: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Rules

Rules

• Rules from lexicon for :• Closed classes (non-productive functional categories)• Open classes (productive lexical categories)

• Three rules :

1 Closed classes : only assign preposition, conjunction, etc. ifthe form is listed in the lexicon for this pos-tag = Don’tinvent new prepositions

2 Open classes : don’t assign common noun, adjective, etc. ifthe form is only listed with closed classes in lexicon =Don’t assign common noun to “lo” (“the”).

3 Automatically assign Card and Pct respectively tonumbers and punctuation.

Vergez-Couret - Urieli CLLE-ERSS TalOc 45 / 59

Page 87: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Rules

Rules

• Rules from lexicon for :• Closed classes (non-productive functional categories)• Open classes (productive lexical categories)

• Three rules :

1 Closed classes : only assign preposition, conjunction, etc. ifthe form is listed in the lexicon for this pos-tag = Don’tinvent new prepositions

2 Open classes : don’t assign common noun, adjective, etc. ifthe form is only listed with closed classes in lexicon =Don’t assign common noun to “lo” (“the”).

3 Automatically assign Card and Pct respectively tonumbers and punctuation.

Vergez-Couret - Urieli CLLE-ERSS TalOc 45 / 59

Page 88: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Rules

Rules

• Rules from lexicon for :• Closed classes (non-productive functional categories)• Open classes (productive lexical categories)

• Three rules :

1 Closed classes : only assign preposition, conjunction, etc. ifthe form is listed in the lexicon for this pos-tag = Don’tinvent new prepositions

2 Open classes : don’t assign common noun, adjective, etc. ifthe form is only listed with closed classes in lexicon =Don’t assign common noun to “lo” (“the”).

3 Automatically assign Card and Pct respectively tonumbers and punctuation.

Vergez-Couret - Urieli CLLE-ERSS TalOc 45 / 59

Page 89: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Rules

Rules

• Rules from lexicon for :• Closed classes (non-productive functional categories)• Open classes (productive lexical categories)

• Three rules :

1 Closed classes : only assign preposition, conjunction, etc. ifthe form is listed in the lexicon for this pos-tag = Don’tinvent new prepositions

2 Open classes : don’t assign common noun, adjective, etc. ifthe form is only listed with closed classes in lexicon =Don’t assign common noun to “lo” (“the”).

3 Automatically assign Card and Pct respectively tonumbers and punctuation.

Vergez-Couret - Urieli CLLE-ERSS TalOc 45 / 59

Page 90: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Rules

Rules

• Rules from lexicon for :• Closed classes (non-productive functional categories)• Open classes (productive lexical categories)

• Three rules :

1 Closed classes : only assign preposition, conjunction, etc. ifthe form is listed in the lexicon for this pos-tag = Don’tinvent new prepositions

2 Open classes : don’t assign common noun, adjective, etc. ifthe form is only listed with closed classes in lexicon =Don’t assign common noun to “lo” (“the”).

3 Automatically assign Card and Pct respectively tonumbers and punctuation.

Vergez-Couret - Urieli CLLE-ERSS TalOc 45 / 59

Page 91: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Resources

Resources

• For Talismane to function properly, various resources arerequired :

• A training corpus from which the statistical model islearned : Lengadocian Training Corpus

• One or more evaluation corpora to evaluate performance :2 Lengadocian (Rouergue and Lot), 1 Gascon

• Optionally a lexicon for wide-coverage features and rules :Lengadocian Lexicon

• All rely on a tagset specifically designed for Occitan.

Vergez-Couret - Urieli CLLE-ERSS TalOc 46 / 59

Page 92: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Resources

Resources

• For Talismane to function properly, various resources arerequired :

• A training corpus from which the statistical model islearned : Lengadocian Training Corpus

• One or more evaluation corpora to evaluate performance :2 Lengadocian (Rouergue and Lot), 1 Gascon

• Optionally a lexicon for wide-coverage features and rules :Lengadocian Lexicon

• All rely on a tagset specifically designed for Occitan.

Vergez-Couret - Urieli CLLE-ERSS TalOc 46 / 59

Page 93: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Resources

Resources

• For Talismane to function properly, various resources arerequired :

• A training corpus from which the statistical model islearned : Lengadocian Training Corpus

• One or more evaluation corpora to evaluate performance :2 Lengadocian (Rouergue and Lot), 1 Gascon

• Optionally a lexicon for wide-coverage features and rules :Lengadocian Lexicon

• All rely on a tagset specifically designed for Occitan.

Vergez-Couret - Urieli CLLE-ERSS TalOc 46 / 59

Page 94: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Resources

Resources

• For Talismane to function properly, various resources arerequired :

• A training corpus from which the statistical model islearned : Lengadocian Training Corpus

• One or more evaluation corpora to evaluate performance :2 Lengadocian (Rouergue and Lot), 1 Gascon

• Optionally a lexicon for wide-coverage features and rules :Lengadocian Lexicon

• All rely on a tagset specifically designed for Occitan.

Vergez-Couret - Urieli CLLE-ERSS TalOc 46 / 59

Page 95: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Resources

Resources

• For Talismane to function properly, various resources arerequired :

• A training corpus from which the statistical model islearned : Lengadocian Training Corpus

• One or more evaluation corpora to evaluate performance :2 Lengadocian (Rouergue and Lot), 1 Gascon

• Optionally a lexicon for wide-coverage features and rules :Lengadocian Lexicon

• All rely on a tagset specifically designed for Occitan.

Vergez-Couret - Urieli CLLE-ERSS TalOc 46 / 59

Page 96: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Tagset

Tagset

Tag Description Lexicon sizeA Adjective 29,638Adv Adverb 751Cc Coordinating conjunction 8Cs Subordinating conjunction 150Det Article 127Card Cardinal number 42Cli Clitic 72CliRef Reflexive pronoun 17Inj Interjection 7Nc Common noun 25,817Np Proper noun 4,603Pct Punctuation 15Pe Enunciative particle (Gascon only) 0Pp Present participle 4,530Pr Preposition 521Prel Relative pronoun 37Pro Pronoun 81Ps Past participle 17,963PrepDet Amalgamated preposition and article 499Vc Conjugated verb 135,731Vi Infinitive verb 4,643Z Consonant for phonetic liaison 3Total 225,386

Vergez-Couret - Urieli CLLE-ERSS TalOc 47 / 59

Page 97: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Training Corpus

Training Corpus

• Lengadocian Dialect - Rouergue Varieties from E la bartafloriguet by Enric Molin

• 2500 tokens (lemma + pos-tags)

Index Token Lemma Pos-tag Morphology1 Li li Cli P3-m-sg2 semblava semblar Vc Imi-P3-sg3 que que Cs4 sos son D Poss-P3-m-pl5 pes pe Nc m-pl6 tocavan tocar Vc Imi-P3-pl7 pas pas Adv8 terra terra Nc f-sg9 . . Pct

Vergez-Couret - Urieli CLLE-ERSS TalOc 48 / 59

Page 98: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Training Corpus

Training Corpus

• Lengadocian Dialect - Rouergue Varieties from E la bartafloriguet by Enric Molin

• 2500 tokens (lemma + pos-tags)

Index Token Lemma Pos-tag Morphology1 Li li Cli P3-m-sg2 semblava semblar Vc Imi-P3-sg3 que que Cs4 sos son D Poss-P3-m-pl5 pes pe Nc m-pl6 tocavan tocar Vc Imi-P3-pl7 pas pas Adv8 terra terra Nc f-sg9 . . Pct

Vergez-Couret - Urieli CLLE-ERSS TalOc 48 / 59

Page 99: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Training Corpus

Training Corpus

• Lengadocian Dialect - Rouergue Varieties from E la bartafloriguet by Enric Molin

• 2500 tokens (lemma + pos-tags)

Index Token Lemma Pos-tag Morphology1 Li li Cli P3-m-sg2 semblava semblar Vc Imi-P3-sg3 que que Cs4 sos son D Poss-P3-m-pl5 pes pe Nc m-pl6 tocavan tocar Vc Imi-P3-pl7 pas pas Adv8 terra terra Nc f-sg9 . . Pct

Vergez-Couret - Urieli CLLE-ERSS TalOc 48 / 59

Page 100: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Evaluation Corpora

Evaluation Corpora

• Lengadocian Dialect - Rouergue Varieties from Loscrocants de Roergue by Ferran Deleris700 tokens (lemma + pos-tag)

• Lengadocian Dialect - Lot Varieties from Dels caminsbartassiers by Marceu Esquieu460 tokens (lemma + pos-tag)

• Gascon Dialect from Hont Blanc by Jan Loıs Lavit460 tokens (lemma + pos-tag)

Vergez-Couret - Urieli CLLE-ERSS TalOc 49 / 59

Page 101: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Evaluation Corpora

Evaluation Corpora

• Lengadocian Dialect - Rouergue Varieties from Loscrocants de Roergue by Ferran Deleris700 tokens (lemma + pos-tag)

• Lengadocian Dialect - Lot Varieties from Dels caminsbartassiers by Marceu Esquieu460 tokens (lemma + pos-tag)

• Gascon Dialect from Hont Blanc by Jan Loıs Lavit460 tokens (lemma + pos-tag)

Vergez-Couret - Urieli CLLE-ERSS TalOc 49 / 59

Page 102: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Evaluation Corpora

Evaluation Corpora

• Lengadocian Dialect - Rouergue Varieties from Loscrocants de Roergue by Ferran Deleris700 tokens (lemma + pos-tag)

• Lengadocian Dialect - Lot Varieties from Dels caminsbartassiers by Marceu Esquieu460 tokens (lemma + pos-tag)

• Gascon Dialect from Hont Blanc by Jan Loıs Lavit460 tokens (lemma + pos-tag)

Vergez-Couret - Urieli CLLE-ERSS TalOc 49 / 59

Page 103: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Corpus comparison

Corpus comparison

Corpus Training Rouergue Lot GasconSize 2501 701 467 469

Size (without punct.) 2078 591 388 399% unknown in training 46.4% 49.0% 56.4%% unknown in lexicon 0.1% 16.6% 19.9% 40.1%

Open class tokens 1111 324 201 203% unknown in training 76.2% 82.6% 87.7%% unknown in lexicon 0.2% 29.0% 37.3% 59.1%Closed class tokens 967 267 187 196% unknown in training 10.2% 12.8% 24.0%% unknown in lexicon 0.0% 1.5% 1.1% 20.4%

Table: Training and evaluation corpora

Vergez-Couret - Urieli CLLE-ERSS TalOc 50 / 59

Page 104: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Experiments

ExperimentsQuestions for experiments :

• Which is the best strategy for each evaluation corpus ?

• Is it always useful to apply closed-class rules ?

• To what extent can a model built from a training corpusfor a single dialectal variety be applied to other varietiesand dialects ?

• To what extent can a lexicon for one dialect be applied toanother dialect ?

• What methods can be used to improve analysis for adialect different from the training/lexicon dialect ?

• Given limited resources, is it better to annotate a largertraining corpus, or compile a larger lexicon ?

Vergez-Couret - Urieli CLLE-ERSS TalOc 51 / 59

Page 105: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Experiments

ExperimentsQuestions for experiments :

• Which is the best strategy for each evaluation corpus ?

• Is it always useful to apply closed-class rules ?

• To what extent can a model built from a training corpusfor a single dialectal variety be applied to other varietiesand dialects ?

• To what extent can a lexicon for one dialect be applied toanother dialect ?

• What methods can be used to improve analysis for adialect different from the training/lexicon dialect ?

• Given limited resources, is it better to annotate a largertraining corpus, or compile a larger lexicon ?

Vergez-Couret - Urieli CLLE-ERSS TalOc 51 / 59

Page 106: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Experiments

ExperimentsQuestions for experiments :

• Which is the best strategy for each evaluation corpus ?

• Is it always useful to apply closed-class rules ?

• To what extent can a model built from a training corpusfor a single dialectal variety be applied to other varietiesand dialects ?

• To what extent can a lexicon for one dialect be applied toanother dialect ?

• What methods can be used to improve analysis for adialect different from the training/lexicon dialect ?

• Given limited resources, is it better to annotate a largertraining corpus, or compile a larger lexicon ?

Vergez-Couret - Urieli CLLE-ERSS TalOc 51 / 59

Page 107: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Experiments

ExperimentsQuestions for experiments :

• Which is the best strategy for each evaluation corpus ?

• Is it always useful to apply closed-class rules ?

• To what extent can a model built from a training corpusfor a single dialectal variety be applied to other varietiesand dialects ?

• To what extent can a lexicon for one dialect be applied toanother dialect ?

• What methods can be used to improve analysis for adialect different from the training/lexicon dialect ?

• Given limited resources, is it better to annotate a largertraining corpus, or compile a larger lexicon ?

Vergez-Couret - Urieli CLLE-ERSS TalOc 51 / 59

Page 108: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Experiments

ExperimentsQuestions for experiments :

• Which is the best strategy for each evaluation corpus ?

• Is it always useful to apply closed-class rules ?

• To what extent can a model built from a training corpusfor a single dialectal variety be applied to other varietiesand dialects ?

• To what extent can a lexicon for one dialect be applied toanother dialect ?

• What methods can be used to improve analysis for adialect different from the training/lexicon dialect ?

• Given limited resources, is it better to annotate a largertraining corpus, or compile a larger lexicon ?

Vergez-Couret - Urieli CLLE-ERSS TalOc 51 / 59

Page 109: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Experiments

ExperimentsQuestions for experiments :

• Which is the best strategy for each evaluation corpus ?

• Is it always useful to apply closed-class rules ?

• To what extent can a model built from a training corpusfor a single dialectal variety be applied to other varietiesand dialects ?

• To what extent can a lexicon for one dialect be applied toanother dialect ?

• What methods can be used to improve analysis for adialect different from the training/lexicon dialect ?

• Given limited resources, is it better to annotate a largertraining corpus, or compile a larger lexicon ?

Vergez-Couret - Urieli CLLE-ERSS TalOc 51 / 59

Page 110: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Experiments

ExperimentsQuestions for experiments :

• Which is the best strategy for each evaluation corpus ?

• Is it always useful to apply closed-class rules ?

• To what extent can a model built from a training corpusfor a single dialectal variety be applied to other varietiesand dialects ?

• To what extent can a lexicon for one dialect be applied toanother dialect ?

• What methods can be used to improve analysis for adialect different from the training/lexicon dialect ?

• Given limited resources, is it better to annotate a largertraining corpus, or compile a larger lexicon ?

Vergez-Couret - Urieli CLLE-ERSS TalOc 51 / 59

Page 111: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Overall Results

Overall Results

Rouergue Lot Gascon

60

80

100

73.75

69.38

58.64

80.17

81.37

63.11

80.88

81.37

63.54

85.88

88.01

66.1

87.02

89.08

67.16

Acc

ura

cy

empty closed closed+rules full full+rules

Figure: Pos-tagging lexicon/rules comparison : accuracy by corpus

Vergez-Couret - Urieli CLLE-ERSS TalOc 52 / 59

Page 112: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Closed Class Rules

Closed Class Rules

• When adding closed class rules :• Rouergue : 85.88% to 87.02%• Lot : 88.01% to 89.08%• Gascon : 66.10% to 67.16%

• Always helpful, even for a corpus (Gascon) with 20%unknown closed class tokens

Vergez-Couret - Urieli CLLE-ERSS TalOc 53 / 59

Page 113: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Closed Class Rules

Closed Class Rules

• When adding closed class rules :• Rouergue : 85.88% to 87.02%• Lot : 88.01% to 89.08%• Gascon : 66.10% to 67.16%

• Always helpful, even for a corpus (Gascon) with 20%unknown closed class tokens

Vergez-Couret - Urieli CLLE-ERSS TalOc 53 / 59

Page 114: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Closed Class Rules

Closed Class Rules

• When adding closed class rules :• Rouergue : 85.88% to 87.02%• Lot : 88.01% to 89.08%• Gascon : 66.10% to 67.16%

• Always helpful, even for a corpus (Gascon) with 20%unknown closed class tokens

Vergez-Couret - Urieli CLLE-ERSS TalOc 53 / 59

Page 115: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Lexicons

Lexicons

• Gain : no lexicon → closed-class lexicon• Rouergue : 7.13%• Lot : 11.99%• Gascon : 4.90%

• Gain : closed-class lexicon → full lexicon• Rouergue : 6.14%• Lot : 7.71%• Gascon : 3.62%

• Mean gain for unknown words (mostly through n-grams) :half lexicon → full lexicon

• Rouergue : 8.54%• Lot : 17.96%

Vergez-Couret - Urieli CLLE-ERSS TalOc 54 / 59

Page 116: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Lexicons

Lexicons

• Gain : no lexicon → closed-class lexicon• Rouergue : 7.13%• Lot : 11.99%• Gascon : 4.90%

• Gain : closed-class lexicon → full lexicon• Rouergue : 6.14%• Lot : 7.71%• Gascon : 3.62%

• Mean gain for unknown words (mostly through n-grams) :half lexicon → full lexicon

• Rouergue : 8.54%• Lot : 17.96%

Vergez-Couret - Urieli CLLE-ERSS TalOc 54 / 59

Page 117: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Lexicons

Lexicons

• Gain : no lexicon → closed-class lexicon• Rouergue : 7.13%• Lot : 11.99%• Gascon : 4.90%

• Gain : closed-class lexicon → full lexicon• Rouergue : 6.14%• Lot : 7.71%• Gascon : 3.62%

• Mean gain for unknown words (mostly through n-grams) :half lexicon → full lexicon

• Rouergue : 8.54%• Lot : 17.96%

Vergez-Couret - Urieli CLLE-ERSS TalOc 54 / 59

Page 118: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Other Dialects

Other Dialects

• Gascon : new part-of-speech, the enunciative particle (Pe)

• Most common for “que”, only possibility for “be”

• New rule :• Always annotate “be” as Pe• Annotate “que” as Pe at start-of-sentence, after

conjunction and after comma• Result : 17 true positives, 1 false positive, 13 false

negatives• F-score = 70.83%, Total accuracy from 67.16% to 69.72%

• Next steps for dialect• More rules, full closed-class lexicon for Gascon, training

corpus for Gascon• Better to use lexicon per dialect or full lexicon ?• Better to use training corpus per dialect or full training

corpus ?

Vergez-Couret - Urieli CLLE-ERSS TalOc 55 / 59

Page 119: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Other Dialects

Other Dialects

• Gascon : new part-of-speech, the enunciative particle (Pe)

• Most common for “que”, only possibility for “be”

• New rule :• Always annotate “be” as Pe• Annotate “que” as Pe at start-of-sentence, after

conjunction and after comma• Result : 17 true positives, 1 false positive, 13 false

negatives• F-score = 70.83%, Total accuracy from 67.16% to 69.72%

• Next steps for dialect• More rules, full closed-class lexicon for Gascon, training

corpus for Gascon• Better to use lexicon per dialect or full lexicon ?• Better to use training corpus per dialect or full training

corpus ?

Vergez-Couret - Urieli CLLE-ERSS TalOc 55 / 59

Page 120: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Other Dialects

Other Dialects

• Gascon : new part-of-speech, the enunciative particle (Pe)

• Most common for “que”, only possibility for “be”

• New rule :• Always annotate “be” as Pe• Annotate “que” as Pe at start-of-sentence, after

conjunction and after comma• Result : 17 true positives, 1 false positive, 13 false

negatives• F-score = 70.83%, Total accuracy from 67.16% to 69.72%

• Next steps for dialect• More rules, full closed-class lexicon for Gascon, training

corpus for Gascon• Better to use lexicon per dialect or full lexicon ?• Better to use training corpus per dialect or full training

corpus ?

Vergez-Couret - Urieli CLLE-ERSS TalOc 55 / 59

Page 121: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Other Dialects

Other Dialects

• Gascon : new part-of-speech, the enunciative particle (Pe)

• Most common for “que”, only possibility for “be”

• New rule :• Always annotate “be” as Pe• Annotate “que” as Pe at start-of-sentence, after

conjunction and after comma• Result : 17 true positives, 1 false positive, 13 false

negatives• F-score = 70.83%, Total accuracy from 67.16% to 69.72%

• Next steps for dialect• More rules, full closed-class lexicon for Gascon, training

corpus for Gascon• Better to use lexicon per dialect or full lexicon ?• Better to use training corpus per dialect or full training

corpus ?

Vergez-Couret - Urieli CLLE-ERSS TalOc 55 / 59

Page 122: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Other Dialects

Other Dialects

• Gascon : new part-of-speech, the enunciative particle (Pe)

• Most common for “que”, only possibility for “be”

• New rule :• Always annotate “be” as Pe• Annotate “que” as Pe at start-of-sentence, after

conjunction and after comma• Result : 17 true positives, 1 false positive, 13 false

negatives• F-score = 70.83%, Total accuracy from 67.16% to 69.72%

• Next steps for dialect• More rules, full closed-class lexicon for Gascon, training

corpus for Gascon• Better to use lexicon per dialect or full lexicon ?• Better to use training corpus per dialect or full training

corpus ?

Vergez-Couret - Urieli CLLE-ERSS TalOc 55 / 59

Page 123: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Other Dialects

Other Dialects

• Gascon : new part-of-speech, the enunciative particle (Pe)

• Most common for “que”, only possibility for “be”

• New rule :• Always annotate “be” as Pe• Annotate “que” as Pe at start-of-sentence, after

conjunction and after comma• Result : 17 true positives, 1 false positive, 13 false

negatives• F-score = 70.83%, Total accuracy from 67.16% to 69.72%

• Next steps for dialect• More rules, full closed-class lexicon for Gascon, training

corpus for Gascon• Better to use lexicon per dialect or full lexicon ?• Better to use training corpus per dialect or full training

corpus ?

Vergez-Couret - Urieli CLLE-ERSS TalOc 55 / 59

Page 124: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Other Dialects

Other Dialects

• Gascon : new part-of-speech, the enunciative particle (Pe)

• Most common for “que”, only possibility for “be”

• New rule :• Always annotate “be” as Pe• Annotate “que” as Pe at start-of-sentence, after

conjunction and after comma• Result : 17 true positives, 1 false positive, 13 false

negatives• F-score = 70.83%, Total accuracy from 67.16% to 69.72%

• Next steps for dialect• More rules, full closed-class lexicon for Gascon, training

corpus for Gascon• Better to use lexicon per dialect or full lexicon ?• Better to use training corpus per dialect or full training

corpus ?

Vergez-Couret - Urieli CLLE-ERSS TalOc 55 / 59

Page 125: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Other Dialects

Other Dialects

• Gascon : new part-of-speech, the enunciative particle (Pe)

• Most common for “que”, only possibility for “be”

• New rule :• Always annotate “be” as Pe• Annotate “que” as Pe at start-of-sentence, after

conjunction and after comma• Result : 17 true positives, 1 false positive, 13 false

negatives• F-score = 70.83%, Total accuracy from 67.16% to 69.72%

• Next steps for dialect• More rules, full closed-class lexicon for Gascon, training

corpus for Gascon• Better to use lexicon per dialect or full lexicon ?• Better to use training corpus per dialect or full training

corpus ?

Vergez-Couret - Urieli CLLE-ERSS TalOc 55 / 59

Page 126: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Other Dialects

Other Dialects

• Gascon : new part-of-speech, the enunciative particle (Pe)

• Most common for “que”, only possibility for “be”

• New rule :• Always annotate “be” as Pe• Annotate “que” as Pe at start-of-sentence, after

conjunction and after comma• Result : 17 true positives, 1 false positive, 13 false

negatives• F-score = 70.83%, Total accuracy from 67.16% to 69.72%

• Next steps for dialect• More rules, full closed-class lexicon for Gascon, training

corpus for Gascon• Better to use lexicon per dialect or full lexicon ?• Better to use training corpus per dialect or full training

corpus ?

Vergez-Couret - Urieli CLLE-ERSS TalOc 55 / 59

Page 127: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Other Dialects

Other Dialects

• Gascon : new part-of-speech, the enunciative particle (Pe)

• Most common for “que”, only possibility for “be”

• New rule :• Always annotate “be” as Pe• Annotate “que” as Pe at start-of-sentence, after

conjunction and after comma• Result : 17 true positives, 1 false positive, 13 false

negatives• F-score = 70.83%, Total accuracy from 67.16% to 69.72%

• Next steps for dialect• More rules, full closed-class lexicon for Gascon, training

corpus for Gascon• Better to use lexicon per dialect or full lexicon ?• Better to use training corpus per dialect or full training

corpus ?

Vergez-Couret - Urieli CLLE-ERSS TalOc 55 / 59

Page 128: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Training Corpus vs. Lexicon

Training Corpus vs. Lexicon

• Given limited time, should we annotate more trainingcorpus or build a larger lexicon ?

• Experiment : Create 2 lexicon halves, 2 training corpushalves.

• Mean gain when doubling training corpus from 1250 to2500 tokens : 1.46%

• Mean gain when doubling the lexicon from 110K to 220Kentries : 4.16%

• But : can always annotate more data, finding more lexicalitems more difficult

Vergez-Couret - Urieli CLLE-ERSS TalOc 56 / 59

Page 129: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Training Corpus vs. Lexicon

Training Corpus vs. Lexicon

• Given limited time, should we annotate more trainingcorpus or build a larger lexicon ?

• Experiment : Create 2 lexicon halves, 2 training corpushalves.

• Mean gain when doubling training corpus from 1250 to2500 tokens : 1.46%

• Mean gain when doubling the lexicon from 110K to 220Kentries : 4.16%

• But : can always annotate more data, finding more lexicalitems more difficult

Vergez-Couret - Urieli CLLE-ERSS TalOc 56 / 59

Page 130: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Training Corpus vs. Lexicon

Training Corpus vs. Lexicon

• Given limited time, should we annotate more trainingcorpus or build a larger lexicon ?

• Experiment : Create 2 lexicon halves, 2 training corpushalves.

• Mean gain when doubling training corpus from 1250 to2500 tokens : 1.46%

• Mean gain when doubling the lexicon from 110K to 220Kentries : 4.16%

• But : can always annotate more data, finding more lexicalitems more difficult

Vergez-Couret - Urieli CLLE-ERSS TalOc 56 / 59

Page 131: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Training Corpus vs. Lexicon

Training Corpus vs. Lexicon

• Given limited time, should we annotate more trainingcorpus or build a larger lexicon ?

• Experiment : Create 2 lexicon halves, 2 training corpushalves.

• Mean gain when doubling training corpus from 1250 to2500 tokens : 1.46%

• Mean gain when doubling the lexicon from 110K to 220Kentries : 4.16%

• But : can always annotate more data, finding more lexicalitems more difficult

Vergez-Couret - Urieli CLLE-ERSS TalOc 56 / 59

Page 132: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Training Corpus vs. Lexicon

Training Corpus vs. Lexicon

• Given limited time, should we annotate more trainingcorpus or build a larger lexicon ?

• Experiment : Create 2 lexicon halves, 2 training corpushalves.

• Mean gain when doubling training corpus from 1250 to2500 tokens : 1.46%

• Mean gain when doubling the lexicon from 110K to 220Kentries : 4.16%

• But : can always annotate more data, finding more lexicalitems more difficult

Vergez-Couret - Urieli CLLE-ERSS TalOc 56 / 59

Page 133: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Pos-tagging : Conclusion and perspectives

Pos-tagging : Conclusion and perspectives

• Reasonable results (> 89%) with very little annotatedmaterial (2500 tokens), if wide-coverage lexicon isavailable

• It is better to construct a larger lexicon than to annotatemore training material

• Functioning pos-tagger + annotation guide

• Cross-dialect pos-tagging (in our case, Gascon)• Rules (e.g. for enunciative particle)• Complete closed-class lexicon• Open-class lexicon + training corpus• But : separate by dialect or not ?

• Semi-supervised cross-language methods (Catalan) : moregains ?

Vergez-Couret - Urieli CLLE-ERSS TalOc 57 / 59

Page 134: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Pos-tagging : Conclusion and perspectives

Pos-tagging : Conclusion and perspectives

• Reasonable results (> 89%) with very little annotatedmaterial (2500 tokens), if wide-coverage lexicon isavailable

• It is better to construct a larger lexicon than to annotatemore training material

• Functioning pos-tagger + annotation guide

• Cross-dialect pos-tagging (in our case, Gascon)• Rules (e.g. for enunciative particle)• Complete closed-class lexicon• Open-class lexicon + training corpus• But : separate by dialect or not ?

• Semi-supervised cross-language methods (Catalan) : moregains ?

Vergez-Couret - Urieli CLLE-ERSS TalOc 57 / 59

Page 135: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Pos-tagging : Conclusion and perspectives

Pos-tagging : Conclusion and perspectives

• Reasonable results (> 89%) with very little annotatedmaterial (2500 tokens), if wide-coverage lexicon isavailable

• It is better to construct a larger lexicon than to annotatemore training material

• Functioning pos-tagger + annotation guide

• Cross-dialect pos-tagging (in our case, Gascon)• Rules (e.g. for enunciative particle)• Complete closed-class lexicon• Open-class lexicon + training corpus• But : separate by dialect or not ?

• Semi-supervised cross-language methods (Catalan) : moregains ?

Vergez-Couret - Urieli CLLE-ERSS TalOc 57 / 59

Page 136: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Pos-tagging : Conclusion and perspectives

Pos-tagging : Conclusion and perspectives

• Reasonable results (> 89%) with very little annotatedmaterial (2500 tokens), if wide-coverage lexicon isavailable

• It is better to construct a larger lexicon than to annotatemore training material

• Functioning pos-tagger + annotation guide

• Cross-dialect pos-tagging (in our case, Gascon)• Rules (e.g. for enunciative particle)• Complete closed-class lexicon• Open-class lexicon + training corpus• But : separate by dialect or not ?

• Semi-supervised cross-language methods (Catalan) : moregains ?

Vergez-Couret - Urieli CLLE-ERSS TalOc 57 / 59

Page 137: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Nos travaux Analyse morphosyntaxique

Pos-tagging : Conclusion and perspectives

Pos-tagging : Conclusion and perspectives

• Reasonable results (> 89%) with very little annotatedmaterial (2500 tokens), if wide-coverage lexicon isavailable

• It is better to construct a larger lexicon than to annotatemore training material

• Functioning pos-tagger + annotation guide

• Cross-dialect pos-tagging (in our case, Gascon)• Rules (e.g. for enunciative particle)• Complete closed-class lexicon• Open-class lexicon + training corpus• But : separate by dialect or not ?

• Semi-supervised cross-language methods (Catalan) : moregains ?

Vergez-Couret - Urieli CLLE-ERSS TalOc 57 / 59

Page 138: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Conclusions et perspectives

5. Conclusions et perspectives

5 Conclusions et perspectives

Vergez-Couret - Urieli CLLE-ERSS TalOc 58 / 59

Page 139: Le traitement automatique des langues peu dotées - Le cas …w3.erss.univ-tlse2.fr/UETAL/2014-2015/Taloc.pdfTraitement automatique des langues peu dot ees Particularit es de l’occitan

TalOc

Occitan

Contexte

Traitementautomatiquedes langues peudotees

Particularites del’occitan

BaTelOc

Langues peudotees dansRESTAURE

Nos travaux

OCR

Analyse mor-phosyntaxique

Conclusionsetperspectives

Conclusions et perspectives

• Methodes et resultats encourageants pour demarrerRESTAURE

• Perfectionner les outils (OCR)

• Aller plus loin en exploitant les ressources des languesproches

• Aller plus loin dans la gestion des dialectes et cie (pourcreer des systemes robustes)

• Trouver des methodes pour adapter les ressourcesdisponibles aux differentes variantes

Vergez-Couret - Urieli CLLE-ERSS TalOc 59 / 59