traitement automatique des langues appliqué à l’acquisition du langage

25
Traitement Automatique des Langues appliqué à l’Acquisition du Langage Apports d’une pluridisciplinarité Luiggi SANSONETTI EA 2290 SYLED – EA 170 CALIPSO Colloque International APLIC – 25/26 Juin 2004 – Paris

Upload: carol-york

Post on 30-Dec-2015

35 views

Category:

Documents


0 download

DESCRIPTION

Colloque International APLIC – 25/26 Juin 2004 – Paris. Traitement Automatique des Langues appliqué à l’Acquisition du Langage. Apports d’une pluridisciplinarité. Luiggi SANSONETTI EA 2290 SYLED – EA 170 CALIPSO. Plan. 1. Corpus utilisés - PowerPoint PPT Presentation

TRANSCRIPT

Traitement Automatique des Languesappliqué

à l’Acquisition du Langage

Apports d’une pluridisciplinarité

Luiggi SANSONETTI

EA 2290 SYLED – EA 170 CALIPSO

Colloque International APLIC – 25/26 Juin 2004 – Paris

Colloque International APLIC Paris, 25-26 Juin 2004

2

PlanPlan• 1. Corpus utilisés1. Corpus utilisés• 2. Repérage automatique des 2. Repérage automatique des

reprises et reformulationsreprises et reformulations• 3. Etiquetage morphosyntaxique3. Etiquetage morphosyntaxique• 4. Evolution du langage et 4. Evolution du langage et

ajustement des locuteursajustement des locuteurs• 5. Limites de l’automatisation de 5. Limites de l’automatisation de

certaines tâches et « remèdes » certaines tâches et « remèdes » possiblespossibles

Colloque International APLIC Paris, 25-26 Juin 2004

3

IntroductionIntroduction

• Corpus d’interactions verbales Corpus d’interactions verbales adulte/enfantadulte/enfant– Enregistrement Enregistrement (K7, DAT, VIDEO)(K7, DAT, VIDEO)

– Transcription Transcription (conventions suivant objectifs)(conventions suivant objectifs)

– Analyses Analyses (grilles, courbes, tableaux)(grilles, courbes, tableaux)• Logiciels et programmes informatiquesLogiciels et programmes informatiques

– Correcteur orthographique Correcteur orthographique (syntaxe, grammaire)(syntaxe, grammaire)

– Statistique textuelle Statistique textuelle (lexicométrie, évolution du (lexicométrie, évolution du vocabulaire)vocabulaire)

– Traitement du signal Traitement du signal (phonologie, prosodie)(phonologie, prosodie)

Colloque International APLIC Paris, 25-26 Juin 2004

4

1. Corpus utilisés1. Corpus utilisés

• JulienJulien– 3 dialogues de 5 ans 10 mois à 6 ans 4 mois3 dialogues de 5 ans 10 mois à 6 ans 4 mois– Transcriptions imprimées et sauvegardées sur Transcriptions imprimées et sauvegardées sur

disquettedisquette– Analyses, grilles, courbes, tableauxAnalyses, grilles, courbes, tableaux

• MathildeMathilde– 3 dialogues de 4 ans 9 mois à 4 ans 11 mois3 dialogues de 4 ans 9 mois à 4 ans 11 mois– Transcriptions imprimées et sauvegardées sur Transcriptions imprimées et sauvegardées sur

disquettedisquette– Analyses, grilles, courbes, tableauxAnalyses, grilles, courbes, tableaux

Colloque International APLIC Paris, 25-26 Juin 2004

5

Extrait d’une transcription d’un Extrait d’une transcription d’un autre corpusautre corpus

1. Corpus1. Corpus

Colloque International APLIC Paris, 25-26 Juin 2004

6

Extrait d’une grille d’analyseExtrait d’une grille d’analyse1. Corpus1. Corpus

Colloque International APLIC Paris, 25-26 Juin 2004

7

Exemple d’un tableau récapitulatifExemple d’un tableau récapitulatif1. Corpus1. Corpus

Colloque International APLIC Paris, 25-26 Juin 2004

8

Exemple d’un graphique Exemple d’un graphique d’évolutiond’évolution

1. Corpus1. Corpus

Colloque International APLIC Paris, 25-26 Juin 2004

9

2. Repérage automatique2. Repérage automatique

• Logiciel utilisé :Logiciel utilisé :– Lexico3 Lexico3 (SYLED 2290 – A. Salem, W. Martinez, (SYLED 2290 – A. Salem, W. Martinez,

C. Lamalle, S. Fleury)C. Lamalle, S. Fleury)

http://www.cavi.univ-paris http://www.cavi.univ-paris 3.fr/ilpga/ilpga/tal/lexicoWWW3.fr/ilpga/ilpga/tal/lexicoWWW

• Corpus utilisés :Corpus utilisés :– JulienJulien– MathildeMathilde

Colloque International APLIC Paris, 25-26 Juin 2004

10

Phases de Préparation du Phases de Préparation du corpuscorpus

2. Reprises et 2. Reprises et ReformulationsReformulations

Colloque International APLIC Paris, 25-26 Juin 2004

11

Dictionnaire des formesDictionnaire des formes2. Reprises et 2. Reprises et

ReformulationsReformulations

Colloque International APLIC Paris, 25-26 Juin 2004

12

Carte des énoncésCarte des énoncés

Qui parle

Dialogue n°

Enoncé n°

Forme recherchée

2. Reprises et 2. Reprises et ReformulationsReformulations

Colloque International APLIC Paris, 25-26 Juin 2004

13

Repérage des Feed-backRepérage des Feed-back2. Reprises et 2. Reprises et

ReformulationsReformulations

Colloque International APLIC Paris, 25-26 Juin 2004

14

Repérage des tentativesRepérage des tentatives2. Reprises et 2. Reprises et

ReformulationsReformulations

Colloque International APLIC Paris, 25-26 Juin 2004

15

3. Etiquetage de l’oral3. Etiquetage de l’oral

• Corpus utilisés :Corpus utilisés :– JulienJulien– MathildeMathilde

• Logiciels utilisés :Logiciels utilisés :– Cordial Université 6Cordial Université 6 (Synapse Developpement)(Synapse Developpement)

http://www.synapse-fr.comhttp://www.synapse-fr.com

– MkCorpus MkCorpus (CLA2T/SYLED – S. Fleury)(CLA2T/SYLED – S. Fleury)http://www.cavi.univ-paris3.fr/ilpga/ilpga/sfleury/http://www.cavi.univ-paris3.fr/ilpga/ilpga/sfleury/

mkcorpusProject.htmmkcorpusProject.htm

Colloque International APLIC Paris, 25-26 Juin 2004

16

Forme-Cat et Lemme-CatForme-Cat et Lemme-Cat3. Corpus étiquetés3. Corpus étiquetés

Colloque International APLIC Paris, 25-26 Juin 2004

17

Concordance des PREPConcordance des PREP3. Corpus étiquetés3. Corpus étiquetés

Colloque International APLIC Paris, 25-26 Juin 2004

18

Repérage SubjonctifRepérage Subjonctif3. Corpus étiquetés3. Corpus étiquetés

Colloque International APLIC Paris, 25-26 Juin 2004

19

4. Evolution et 4. Evolution et AjustementAjustement

Adulte« Claire »

Livre illustré« CRICTOR »

Julien1 Julien2 Julien3

EnoncésAdultead1-1

EnoncésJulienju1-1

EnoncésAdultead1-2

EnoncésJulienju1-2

EnoncésAdultead1-3

EnoncésJulienju1-3

Juli

en

Juli

en

Math

ild

eM

ath

ild

e

Adulte« Claire »

Livre illustré« CRICTOR »

Mathilde1Mathilde2Mathilde3

EnoncésAdultead2-1

EnoncésJulienma2-1

EnoncésAdultead2-2

EnoncésJulienma2-2

EnoncésAdultead2-3

EnoncésJulienma2-3

Colloque International APLIC Paris, 25-26 Juin 2004

20

Prep+VInfPrep+VInf4. Evolution et Ajustement4. Evolution et Ajustement

Colloque International APLIC Paris, 25-26 Juin 2004

21

Ajustement du langageAjustement du langage4. Evolution et Ajustement4. Evolution et Ajustement

Colloque International APLIC Paris, 25-26 Juin 2004

22

5. Limites de la 5. Limites de la rechercherecherche

• Peu de corpus et corpus trop petitsPeu de corpus et corpus trop petits

• Transcriptions et représentationsTranscriptions et représentations

• Etiquetage automatiqueEtiquetage automatique

Colloque International APLIC Paris, 25-26 Juin 2004

23

Mots inconnusMots inconnus5. Limites5. Limites

Colloque International APLIC Paris, 25-26 Juin 2004

24

Erreurs d’étiquetageErreurs d’étiquetage5. Limites5. Limites

« en fait » a trois étiquetages différents :– en fait_ADV (7 occurrences) uniquement dans le discours de l’adulte ;– en_PREP fait_NCMS (13 occurrences) ;– en_PREP fait_ADJMS (3 occurrences) uniquement en début d’énoncé avec le segment « madame Bodot » à la suite.

« pour » :– pour (11 occurrences) en contexte « pour que_SUB » ;– pour_PREP (88 occurrences) dont une en contexte « pour_PREP que_SUB » ;– pour_NCMS (2 occurrences) dans les énoncés suivants :- <ma207> […] elle l’amena des palmiers pour euh remettre sa / pour- <ad=337> euh on a que cinq doigts dans une main six comme les / pour les six pattes d’un insecte […].

Colloque International APLIC Paris, 25-26 Juin 2004

25

MerciMerci

[email protected]@noos.fr

http://mapage.noos.fr/luiggi.sansonetti/http://mapage.noos.fr/luiggi.sansonetti/