vers un système de traduction automatique du langage texto centre de recherche en linguistique et...

31
Vers un système de traduction automatique du langage texto Centre de recherche en linguistique et traitement automatique des langues Lucien Tesnière Université de Franche-Comté – Besançon - FRANCE http://tesniere.univ-fcomte.fr Journée d’étude de l’ATALA – Paris - 5 juin 2004 Ciprian MELIAN [email protected] Séverine VIENNEY severine.vienney@univ- fcomte.fr

Upload: mathis-masse

Post on 03-Apr-2015

116 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Vers un système de traduction automatique du langage texto Centre de recherche en linguistique et traitement automatique des langues Lucien Tesnière Université

Vers un système de traduction automatique du

langage texto

Centre de recherche en linguistique et traitement automatique des langues

Lucien TesnièreUniversité de Franche-Comté – Besançon -

FRANCE

http://tesniere.univ-fcomte.fr

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Ciprian [email protected]

Séverine [email protected]

Page 2: Vers un système de traduction automatique du langage texto Centre de recherche en linguistique et traitement automatique des langues Lucien Tesnière Université

Sommaire

● Problématique : –Le langage texto–La traduction automatique

● Notre système● Résultats et Démonstration● Conclusions et Perspectives

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Page 3: Vers un système de traduction automatique du langage texto Centre de recherche en linguistique et traitement automatique des langues Lucien Tesnière Université

Sommaire

● Problématique : –Le langage texto–La traduction automatique

● Notre système● Résultats et Démonstration● Conclusions et Perspectives

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Page 4: Vers un système de traduction automatique du langage texto Centre de recherche en linguistique et traitement automatique des langues Lucien Tesnière Université

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

● Apparition du langage texto avec le développement des nouvelles formes de communication écrite : – Sur internet : chat, forum de discussion, courrier électronique (e-mail)

– Sur téléphone portable : sms ( En 2003 : 8 milliards de SMS envoyés [Que choisir, déc. 2003] )

Le langage texto

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Page 5: Vers un système de traduction automatique du langage texto Centre de recherche en linguistique et traitement automatique des langues Lucien Tesnière Université

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

● simplification de la langue : phénomène de troncations, absence des flexions, phonétisation, pictogrammes...

● une situation de communication particulière nécessitant une certaine précision de langage et une rapidité de réponse– objectifs :➔ retrouver une « cadence orale »➔ être concis et compris

Le langage texto : caractéristiques

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Page 6: Vers un système de traduction automatique du langage texto Centre de recherche en linguistique et traitement automatique des langues Lucien Tesnière Université

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

➔ être concis et compris

– Exemple : Elle est allée au restaurant

Le langage texto : correction automatique / traduction automatique ?

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Page 7: Vers un système de traduction automatique du langage texto Centre de recherche en linguistique et traitement automatique des langues Lucien Tesnière Université

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

➔ être concis et compris

– Exemple : Elle est allée au restaurant

● A priori, besoin d'un correcteur automatique

– Elle est allé au restaurant

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Le langage texto : correction automatique / traduction automatique ?

Page 8: Vers un système de traduction automatique du langage texto Centre de recherche en linguistique et traitement automatique des langues Lucien Tesnière Université

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

➔ être concis et compris

– Exemple : Elle est allée au restaurant

● A priori, besoin d'un correcteur automatique

– Elle est allé au restaurant

● En réalité, besoin d'un traducteur automatique

– L et alé au resto - L è alé o resto

– L E alé O resto

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Le langage texto : correction automatique / traduction automatique ?

Page 9: Vers un système de traduction automatique du langage texto Centre de recherche en linguistique et traitement automatique des langues Lucien Tesnière Université

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

● Utilité d'un tel système :

– Langage contrôlé mais contrôlé par qui ?

● Plusieurs niveaux d'utilisateurs : novice, expert. (sur les 8 milliards de SMS envoyés en 2003, 75% l’ont été par les 8-24 ans. Les utilisateurs qui en envoient le plus sont les 8-15 ans : 55 textos par mois et par personne. [Que choisir, déc. 2003] )

● Connaître les nouvelles tendances de troncation, de symboles utilisés.

● Si on ne connait pas la “norme” alors difficile de lire le texto :

➔ gain de temps à écrire➔ perte de temps à déchiffrer

Le langage texto : traduction automatique

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Page 10: Vers un système de traduction automatique du langage texto Centre de recherche en linguistique et traitement automatique des langues Lucien Tesnière Université

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

➔ perte de temps à déchiffrer

● Intérêt d'un traducteur automatique

– C T ki ?

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Le langage texto : traduction automatique

Page 11: Vers un système de traduction automatique du langage texto Centre de recherche en linguistique et traitement automatique des langues Lucien Tesnière Université

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

➔ perte de temps à déchiffrer

● Intérêt d'un traducteur automatique

– C T ki ? --> c'était qui ?

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Le langage texto : traduction automatique

Page 12: Vers un système de traduction automatique du langage texto Centre de recherche en linguistique et traitement automatique des langues Lucien Tesnière Université

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

➔ perte de temps à déchiffrer

● Intérêt d'un traducteur automatique

– C T ki ? --> c'était qui ?– kestufé ? -->

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Le langage texto : traduction automatique

Page 13: Vers un système de traduction automatique du langage texto Centre de recherche en linguistique et traitement automatique des langues Lucien Tesnière Université

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

➔ perte de temps à déchiffrer

● Intérêt d'un traducteur automatique

– C T ki ? --> c'était qui ?– kestufé ? --> qu'est-ce que tu fais ?

● Publicité pour Nokia, 2002 :

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Le langage texto : traduction automatique

Page 14: Vers un système de traduction automatique du langage texto Centre de recherche en linguistique et traitement automatique des langues Lucien Tesnière Université

Sommaire

● Problématique : –Le langage texto–La traduction automatique

● Notre système● Résultats et Démonstration● Conclusions et Perspectives

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Page 15: Vers un système de traduction automatique du langage texto Centre de recherche en linguistique et traitement automatique des langues Lucien Tesnière Université

● Bi-directionnel : français-texto / texto-français

● Architecture générale– Trois étapes :

● 1 : lecture du texte source● 2 : langage pivot● 3 : génération du texte cible

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

Notre système

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Page 16: Vers un système de traduction automatique du langage texto Centre de recherche en linguistique et traitement automatique des langues Lucien Tesnière Université

Etape 1 : Lecture du texte source

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

● L'utilisateur entre son texte :

– Soit sous forme texto :

● HT du p1 E D poiro (acheter du pain et des poireaux)

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Page 17: Vers un système de traduction automatique du langage texto Centre de recherche en linguistique et traitement automatique des langues Lucien Tesnière Université

Etape 1 : Lecture du texte source

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

● L'utilisateur entre son texte :

– Soit sous forme texto :

● HT du p1 E D poiro (acheter du pain et des poireaux)

– Soit en français :

● J'ai une bonne idée (G 1 bon ID)

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Page 18: Vers un système de traduction automatique du langage texto Centre de recherche en linguistique et traitement automatique des langues Lucien Tesnière Université

Etape 2 : Langage pivot

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

● Transcription à l'aide d'un système de règles

● Utilisation d'un langage pivot adéquat

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Page 19: Vers un système de traduction automatique du langage texto Centre de recherche en linguistique et traitement automatique des langues Lucien Tesnière Université

Etape 3 : Génération du texte cible

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

● A partir du langage pivot :

– Système de règles pour générer le texte

– Système de validation des formes produites

● Pour sms-français : désambiguïsation lexico-syntaxique et sémantique

● Pour français-sms : plusieurs productions sont possibles (ce qui correspond à la réalité)

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Page 20: Vers un système de traduction automatique du langage texto Centre de recherche en linguistique et traitement automatique des langues Lucien Tesnière Université

Sommaire

● Problématique : –Le langage texto–La traduction automatique

● Notre système● Résultats et Démonstration● Conclusions et Perspectives

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Page 21: Vers un système de traduction automatique du langage texto Centre de recherche en linguistique et traitement automatique des langues Lucien Tesnière Université

Résultats

● Phrase de départ : G 1 ID

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Page 22: Vers un système de traduction automatique du langage texto Centre de recherche en linguistique et traitement automatique des langues Lucien Tesnière Université

Résultats

● Phrase de départ : G 1 ID

● Langage pivot : – G –> Ze– 1 –> U~/ yn yn@– ID –> ide

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Page 23: Vers un système de traduction automatique du langage texto Centre de recherche en linguistique et traitement automatique des langues Lucien Tesnière Université

Résultats

● Génération du Français :– Ze –> jé, jet, jei, jai, jais, jay, j'é, j'ai...

– U~/ –> un, ein, ain, in...– yn –> une, hune...– Yn@ –> une, hune...

– Ide –> idé, idée, idai...

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Page 24: Vers un système de traduction automatique du langage texto Centre de recherche en linguistique et traitement automatique des langues Lucien Tesnière Université

Résultats

● Validation lexicale :– J'ai un/une idée(s)– Jet un/une idée(s)– Geai un/une idée(s)– Jais un/une idée(s)

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Page 25: Vers un système de traduction automatique du langage texto Centre de recherche en linguistique et traitement automatique des langues Lucien Tesnière Université

Résultats

● Analyses morpho-syntaxiques et sémantiques :– J'ai un/une idée(s)– Jet un/une idée(s)– Geai un/une idée(s)– Jais un/une idée(s)

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Page 26: Vers un système de traduction automatique du langage texto Centre de recherche en linguistique et traitement automatique des langues Lucien Tesnière Université

Résultats

● Phrase de départ :

– G 1 ID

● Phrase après analyses :

- J'ai une idée

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Page 27: Vers un système de traduction automatique du langage texto Centre de recherche en linguistique et traitement automatique des langues Lucien Tesnière Université

Sommaire

● Problématique : –Le langage texto–La traduction automatique

● Notre système● Résultats et Démonstration● Conclusions et Perspectives

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Page 28: Vers un système de traduction automatique du langage texto Centre de recherche en linguistique et traitement automatique des langues Lucien Tesnière Université

Sommaire

● Problématique : –Le langage texto–La traduction automatique

● Notre système● Résultats et Démonstration● Conclusions et Perspectives

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Page 29: Vers un système de traduction automatique du langage texto Centre de recherche en linguistique et traitement automatique des langues Lucien Tesnière Université

Conclusions

Journées linguistiques vdu Centre L. Tesnière – 05 et 06 mars 2004

● Nouvelles formes de communication écrite

➔ nouvelles façons d'écrire➔ nouveaux outils TAL

● Premiers travaux dans ce domaine. Peu de chercheurs se sont penchés sur ce problème.

● Premiers résultats (après seulement quelques mois de recherches) sont encourageants

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Page 30: Vers un système de traduction automatique du langage texto Centre de recherche en linguistique et traitement automatique des langues Lucien Tesnière Université

Perspectives● Premier prototype à développer● Applicable à d'autres langues ● Au niveau industriel :

– téléphone mobile-traducteur– traducteur : e-mail, forum, chat...– modules en première étape de toute correction automatique

Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004

Journée d’étude de l’ATALA – Paris - 5 juin 2004

Page 31: Vers un système de traduction automatique du langage texto Centre de recherche en linguistique et traitement automatique des langues Lucien Tesnière Université

Merci de votre attention...

des questions ?

Centre de recherche en linguistique et traitement automatique des

languesLucien TesnièreUniversité de Franche-Comté –

Besançon - FRANCE

http://tesniere.univ-fcomte.fr Journées linguistiques du

Centre L. Tesnière – 05 et 06 mars 2004

Ciprian [email protected]

Séverine [email protected]

Journée d’étude de l’ATALA – Paris - 5 juin 2004