le projet anacal
DESCRIPTION
Le projet ANACAL. ANalyse Automatique de Corpus d’Acquisition du Langage. Luiggi SANSONETTI – Maîtrise 2000-2001. SOMMAIRE. Présentation du Projet ANACAL Interdisciplinarité Intentions du projet Etat de l’art Structure générale En-tête Perspectives de recherche. - PowerPoint PPT PresentationTRANSCRIPT
Le projet ANACAL
ANalyse Automatique de Corpus d’Acquisition du Langage.
Luiggi SANSONETTI – Maîtrise 2000-2001
SOMMAIRE
• Présentation du Projet ANACAL• Interdisciplinarité• Intentions du projet
• Etat de l’art• Structure générale• En-tête
• Perspectives de recherche
Linguistique Informatique
Linguistique de l’acquisition
Interdisciplinarité
Linguistique informatique appliquée à la linguistique de l’acquisition
Programmes informatiques
Traitement automatique
Données linguistiques
Interactions langagières
Adulte/Enfant
Observables linguistiques
Intentions du projet
Banque de données normalisées Données électroniques Corpus d’interaction langagière de langue française Entre adulte/enfant en cours d’acquisition Format adapté aux échanges par Internet
Programmes informatiques Traitements textuels Préparation de corpus Analyses automatiques
Structure générale
Présentation Situation Transcription
Présentation
<PRESENTATION> <ENREGISTREMENT>
<NOM>Luiggi Sansonetti</NOM><DATE>2 décembre 1998</DATE>
</ENREGISTREMENT><TRANSCRIPTION>
<NOM>Luiggi Sansonetti</NOM><DATE>10-30 décembre 1998</DATE>
</TRANSCRIPTION><APPRENANT>
<NOM>Corentin D</NOM><DATE>24 décembre 1998</DATE><AGE>03,11,09</AGE>
</APPRENANT>
<LEGENDES><NoCORPUS>1</NoCORPUS><A>Adulte</A><E>Corentin</E><nA>67</nA><nE>65</nE>
</LEGENDES></PRESENTATION>
Situation
<SITUATION><ENFANT> Corentin est le fils (…).</ENFANT><ENTRETIEN> Le 4 novembre (…).</ENTRETIEN><SUPPORT> Je n'ai pas (…).</SUPPORT><ENREGISTREMENT> Sur(…).</ENREGISTREMENT>
</SITUATION>
Transcription<TRANSCRIP>
<ENF num="1">
<COMM> (il revient en courant) </COMM> i(l) faudra chanter celles-là aussi d'accord? <COMM> (il pose les livres sur le micro) </COMM> </ENF>
<ADULT num="1">Alors, Trois Fables de La Fontaine.</ADULT>
<ENF num="2">humm mais i(l) faut pas <COMM> (il bouge un livre sur le micro) </COMM> acore (=encore) la lire i(l) faut lire celle-là d'abord </ENF>
</ TRANSCRIP >
En-tête
Description du fichier Description du codage Description du profil Description de la révision
Description du fichier
<FILEDESC> <TITLESTMT> <H.TITLE>Etude longitudinale de Corentin</H.TITLE> <RESPSTMT> <RESPTYPE>Conversion et balisage XML</RESPTYPE>
<RESPNAME>Corpus recueilli et édité en XML par Luiggi Sansonetti </RESPNAME> </RESPSTMT> </TITLESTMT> <EXTENT> <WORDCOUNT>2407 mots et 387 lignes</WORDCOUNT> <BYTECOUNT>18.0 Ko</BYTECOUNT> </EXTENT>
<PUBLICATIONSTMT>
<DISTRIBUTION>ILPGA TAL Université Paris III France </DISTRIBUTION>
<PUBADRESSE>ILPGA 19 rue des Bernardins 75005 Paris </PUBADRESSE>
<EADRESSE>[email protected]</EADRESSE>
<EADRESSE type="www">http://www.cavi.univ-paris3.fr/ilpga/ ilpga/tal/</EADRESSE> </PUBLICATIONSTMT></FILEDESC>
Description du codage
<ENCODINGDESC>
<PROJETDESC>Le corpus de Corentin a été normalisé dans le but d'analyser automatiquement les corpus d'interaction Adulte/Enfant en cours d'acquisition du langage</PROJETDESC>
<SAMPLINGDESC>Ce corpus a été recueilli et normalisés par Luiggi Sansonetti</SAMPLINGDESC>
</ENCODINGDESC>
Description du profil
<PROFILEDESC><CREATIONDATE>2001</CREATIONDATE><LANGUEUSAGE>
<LANGUAGE iso639="fr" type="corpus d'interaction Adulte/Enfant en cours d'acquisition du langage"/>
</LANGUEUSAGE></PROFILEDESC>
Description de la révision
<REVISIONDESC><CHANGE>
<CHANGEDATE>26/05/2001</CHANGEDATE><RESPNAME>Luiggi Sansonetti</RESPNAME>
</CHANGE></REVISIONDESC>
Représentation hiérarchique du document normalisé
corp u sg rou p h ead corp u sg rou p b od y
corp u sg rou p
corpusgrouphead
filed esc en cod in g d esc p ro filed esc revis ion d esc
corp u sg rou p h ead
corpusgroupbody
corp u s
p resen ta tion s itu a tion tran sc rip
corp u s corp u s
corp u sg rou p b od y
Définition du Type de Document <!ELEMENT CORPUSGROUP (CORPUSGROUPSHEAD, CORPUSGROUPBODY)>
<!ELEMENT CORPUSGROUPHEAD (FILEDESC, ENCODINGDESC, PROFILEDESC, REVISIONDESC)>
<!ELEMENT CORPUSGROUPBODY (CORPUS+)>
<!ELEMENT CORPUS (PRESENTATION, SITUATION, TRANSCRIP)>
<!ELEMENT PRESENTATION (ENREGISTREMENT, TRANSCRIPTION, APPRENANT, LEGENDES)>
<!ELEMENT SITUATION (ENFANT, ENTRETIEN, SUPPORT, ENREGISTREMENT)>
<!ELEMENT TRANSCRIP (ADULT+ | ENF+ | COMM+)>
Perspectives de recherche
Finition de l’en-tête Programmes de balisages automatiques Programmes d’analyse et de traitement
A suivre …
Luiggi SansonettiLuiggi Sansonetti - 29 juin 2001