vers un système de traduction automatique du langage texto centre de recherche en linguistique et...

Post on 03-Apr-2015

116 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Vers un système de traduction automatique du

langage texto

Centre de recherche en linguistique et traitement automatique des langues

Lucien TesnièreUniversité de Franche-Comté – Besançon -

FRANCE

http://tesniere.univ-fcomte.fr

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Ciprian MELIANciprian@melian.org

Séverine VIENNEYseverine.vienney@univ-fcomte.fr

Sommaire

● Problématique : –Le langage texto–La traduction automatique

● Notre système● Résultats et Démonstration● Conclusions et Perspectives

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Sommaire

● Problématique : –Le langage texto–La traduction automatique

● Notre système● Résultats et Démonstration● Conclusions et Perspectives

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

● Apparition du langage texto avec le développement des nouvelles formes de communication écrite : – Sur internet : chat, forum de discussion, courrier électronique (e-mail)

– Sur téléphone portable : sms ( En 2003 : 8 milliards de SMS envoyés [Que choisir, déc. 2003] )

Le langage texto

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

● simplification de la langue : phénomène de troncations, absence des flexions, phonétisation, pictogrammes...

● une situation de communication particulière nécessitant une certaine précision de langage et une rapidité de réponse– objectifs :➔ retrouver une « cadence orale »➔ être concis et compris

Le langage texto : caractéristiques

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

➔ être concis et compris

– Exemple : Elle est allée au restaurant

Le langage texto : correction automatique / traduction automatique ?

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

➔ être concis et compris

– Exemple : Elle est allée au restaurant

● A priori, besoin d'un correcteur automatique

– Elle est allé au restaurant

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Le langage texto : correction automatique / traduction automatique ?

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

➔ être concis et compris

– Exemple : Elle est allée au restaurant

● A priori, besoin d'un correcteur automatique

– Elle est allé au restaurant

● En réalité, besoin d'un traducteur automatique

– L et alé au resto - L è alé o resto

– L E alé O resto

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Le langage texto : correction automatique / traduction automatique ?

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

● Utilité d'un tel système :

– Langage contrôlé mais contrôlé par qui ?

● Plusieurs niveaux d'utilisateurs : novice, expert. (sur les 8 milliards de SMS envoyés en 2003, 75% l’ont été par les 8-24 ans. Les utilisateurs qui en envoient le plus sont les 8-15 ans : 55 textos par mois et par personne. [Que choisir, déc. 2003] )

● Connaître les nouvelles tendances de troncation, de symboles utilisés.

● Si on ne connait pas la “norme” alors difficile de lire le texto :

➔ gain de temps à écrire➔ perte de temps à déchiffrer

Le langage texto : traduction automatique

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

➔ perte de temps à déchiffrer

● Intérêt d'un traducteur automatique

– C T ki ?

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Le langage texto : traduction automatique

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

➔ perte de temps à déchiffrer

● Intérêt d'un traducteur automatique

– C T ki ? --> c'était qui ?

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Le langage texto : traduction automatique

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

➔ perte de temps à déchiffrer

● Intérêt d'un traducteur automatique

– C T ki ? --> c'était qui ?– kestufé ? -->

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Le langage texto : traduction automatique

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

➔ perte de temps à déchiffrer

● Intérêt d'un traducteur automatique

– C T ki ? --> c'était qui ?– kestufé ? --> qu'est-ce que tu fais ?

● Publicité pour Nokia, 2002 :

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Le langage texto : traduction automatique

Sommaire

● Problématique : –Le langage texto–La traduction automatique

● Notre système● Résultats et Démonstration● Conclusions et Perspectives

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

Journée d’étude de l’ATALA – Paris - 5 juin 2004

● Bi-directionnel : français-texto / texto-français

● Architecture générale– Trois étapes :

● 1 : lecture du texte source● 2 : langage pivot● 3 : génération du texte cible

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

Notre système

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Etape 1 : Lecture du texte source

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

● L'utilisateur entre son texte :

– Soit sous forme texto :

● HT du p1 E D poiro (acheter du pain et des poireaux)

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Etape 1 : Lecture du texte source

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

● L'utilisateur entre son texte :

– Soit sous forme texto :

● HT du p1 E D poiro (acheter du pain et des poireaux)

– Soit en français :

● J'ai une bonne idée (G 1 bon ID)

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Etape 2 : Langage pivot

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

● Transcription à l'aide d'un système de règles

● Utilisation d'un langage pivot adéquat

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Etape 3 : Génération du texte cible

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

● A partir du langage pivot :

– Système de règles pour générer le texte

– Système de validation des formes produites

● Pour sms-français : désambiguïsation lexico-syntaxique et sémantique

● Pour français-sms : plusieurs productions sont possibles (ce qui correspond à la réalité)

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Sommaire

● Problématique : –Le langage texto–La traduction automatique

● Notre système● Résultats et Démonstration● Conclusions et Perspectives

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Résultats

● Phrase de départ : G 1 ID

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Résultats

● Phrase de départ : G 1 ID

● Langage pivot : – G –> Ze– 1 –> U~/ yn yn@– ID –> ide

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Résultats

● Génération du Français :– Ze –> jé, jet, jei, jai, jais, jay, j'é, j'ai...

– U~/ –> un, ein, ain, in...– yn –> une, hune...– Yn@ –> une, hune...

– Ide –> idé, idée, idai...

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Résultats

● Validation lexicale :– J'ai un/une idée(s)– Jet un/une idée(s)– Geai un/une idée(s)– Jais un/une idée(s)

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Résultats

● Analyses morpho-syntaxiques et sémantiques :– J'ai un/une idée(s)– Jet un/une idée(s)– Geai un/une idée(s)– Jais un/une idée(s)

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Résultats

● Phrase de départ :

– G 1 ID

● Phrase après analyses :

- J'ai une idée

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Sommaire

● Problématique : –Le langage texto–La traduction automatique

● Notre système● Résultats et Démonstration● Conclusions et Perspectives

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Sommaire

● Problématique : –Le langage texto–La traduction automatique

● Notre système● Résultats et Démonstration● Conclusions et Perspectives

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Conclusions

Journées linguistiques vdu Centre L. Tesnière – 05 et 06 mars 2004

● Nouvelles formes de communication écrite

➔ nouvelles façons d'écrire➔ nouveaux outils TAL

● Premiers travaux dans ce domaine. Peu de chercheurs se sont penchés sur ce problème.

● Premiers résultats (après seulement quelques mois de recherches) sont encourageants

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Perspectives● Premier prototype à développer● Applicable à d'autres langues ● Au niveau industriel :

– téléphone mobile-traducteur– traducteur : e-mail, forum, chat...– modules en première étape de toute correction automatique

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Merci de votre attention...

des questions ?

Centre de recherche en linguistique et traitement automatique des

languesLucien TesnièreUniversité de Franche-Comté –

Besançon - FRANCE

http://tesniere.univ-fcomte.fr Journées linguistiques du

Centre L. Tesnière – 05 et 06 mars 2004

Ciprian MELIANciprian@melian.org

Séverine VIENNEYseverine.vienney@univ-fcomte.fr

Journée d’étude de l’ATALA – Paris - 5 juin 2004

top related