vers un système de traduction automatique du langage texto centre de recherche en linguistique et...
TRANSCRIPT
Vers un système de traduction automatique du
langage texto
Centre de recherche en linguistique et traitement automatique des langues
Lucien TesnièreUniversité de Franche-Comté – Besançon -
FRANCE
http://tesniere.univ-fcomte.fr
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Ciprian [email protected]
Séverine [email protected]
Sommaire
● Problématique : –Le langage texto–La traduction automatique
● Notre système● Résultats et Démonstration● Conclusions et Perspectives
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Sommaire
● Problématique : –Le langage texto–La traduction automatique
● Notre système● Résultats et Démonstration● Conclusions et Perspectives
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
● Apparition du langage texto avec le développement des nouvelles formes de communication écrite : – Sur internet : chat, forum de discussion, courrier électronique (e-mail)
– Sur téléphone portable : sms ( En 2003 : 8 milliards de SMS envoyés [Que choisir, déc. 2003] )
Le langage texto
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
● simplification de la langue : phénomène de troncations, absence des flexions, phonétisation, pictogrammes...
● une situation de communication particulière nécessitant une certaine précision de langage et une rapidité de réponse– objectifs :➔ retrouver une « cadence orale »➔ être concis et compris
Le langage texto : caractéristiques
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
➔ être concis et compris
– Exemple : Elle est allée au restaurant
Le langage texto : correction automatique / traduction automatique ?
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
➔ être concis et compris
– Exemple : Elle est allée au restaurant
● A priori, besoin d'un correcteur automatique
– Elle est allé au restaurant
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Le langage texto : correction automatique / traduction automatique ?
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
➔ être concis et compris
– Exemple : Elle est allée au restaurant
● A priori, besoin d'un correcteur automatique
– Elle est allé au restaurant
● En réalité, besoin d'un traducteur automatique
– L et alé au resto - L è alé o resto
– L E alé O resto
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Le langage texto : correction automatique / traduction automatique ?
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
● Utilité d'un tel système :
– Langage contrôlé mais contrôlé par qui ?
● Plusieurs niveaux d'utilisateurs : novice, expert. (sur les 8 milliards de SMS envoyés en 2003, 75% l’ont été par les 8-24 ans. Les utilisateurs qui en envoient le plus sont les 8-15 ans : 55 textos par mois et par personne. [Que choisir, déc. 2003] )
● Connaître les nouvelles tendances de troncation, de symboles utilisés.
● Si on ne connait pas la “norme” alors difficile de lire le texto :
➔ gain de temps à écrire➔ perte de temps à déchiffrer
Le langage texto : traduction automatique
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
➔ perte de temps à déchiffrer
● Intérêt d'un traducteur automatique
– C T ki ?
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Le langage texto : traduction automatique
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
➔ perte de temps à déchiffrer
● Intérêt d'un traducteur automatique
– C T ki ? --> c'était qui ?
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Le langage texto : traduction automatique
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
➔ perte de temps à déchiffrer
● Intérêt d'un traducteur automatique
– C T ki ? --> c'était qui ?– kestufé ? -->
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Le langage texto : traduction automatique
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
➔ perte de temps à déchiffrer
● Intérêt d'un traducteur automatique
– C T ki ? --> c'était qui ?– kestufé ? --> qu'est-ce que tu fais ?
● Publicité pour Nokia, 2002 :
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Le langage texto : traduction automatique
Sommaire
● Problématique : –Le langage texto–La traduction automatique
● Notre système● Résultats et Démonstration● Conclusions et Perspectives
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
Journée d’étude de l’ATALA – Paris - 5 juin 2004
● Bi-directionnel : français-texto / texto-français
● Architecture générale– Trois étapes :
● 1 : lecture du texte source● 2 : langage pivot● 3 : génération du texte cible
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
Notre système
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Etape 1 : Lecture du texte source
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
● L'utilisateur entre son texte :
– Soit sous forme texto :
● HT du p1 E D poiro (acheter du pain et des poireaux)
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Etape 1 : Lecture du texte source
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
● L'utilisateur entre son texte :
– Soit sous forme texto :
● HT du p1 E D poiro (acheter du pain et des poireaux)
– Soit en français :
● J'ai une bonne idée (G 1 bon ID)
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Etape 2 : Langage pivot
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
● Transcription à l'aide d'un système de règles
● Utilisation d'un langage pivot adéquat
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Etape 3 : Génération du texte cible
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
● A partir du langage pivot :
– Système de règles pour générer le texte
– Système de validation des formes produites
● Pour sms-français : désambiguïsation lexico-syntaxique et sémantique
● Pour français-sms : plusieurs productions sont possibles (ce qui correspond à la réalité)
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Sommaire
● Problématique : –Le langage texto–La traduction automatique
● Notre système● Résultats et Démonstration● Conclusions et Perspectives
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Résultats
● Phrase de départ : G 1 ID
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Résultats
● Phrase de départ : G 1 ID
● Langage pivot : – G –> Ze– 1 –> U~/ yn yn@– ID –> ide
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Résultats
● Génération du Français :– Ze –> jé, jet, jei, jai, jais, jay, j'é, j'ai...
– U~/ –> un, ein, ain, in...– yn –> une, hune...– Yn@ –> une, hune...
– Ide –> idé, idée, idai...
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Résultats
● Validation lexicale :– J'ai un/une idée(s)– Jet un/une idée(s)– Geai un/une idée(s)– Jais un/une idée(s)
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Résultats
● Analyses morpho-syntaxiques et sémantiques :– J'ai un/une idée(s)– Jet un/une idée(s)– Geai un/une idée(s)– Jais un/une idée(s)
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Résultats
● Phrase de départ :
– G 1 ID
● Phrase après analyses :
- J'ai une idée
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Sommaire
● Problématique : –Le langage texto–La traduction automatique
● Notre système● Résultats et Démonstration● Conclusions et Perspectives
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Sommaire
● Problématique : –Le langage texto–La traduction automatique
● Notre système● Résultats et Démonstration● Conclusions et Perspectives
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Conclusions
Journées linguistiques vdu Centre L. Tesnière – 05 et 06 mars 2004
● Nouvelles formes de communication écrite
➔ nouvelles façons d'écrire➔ nouveaux outils TAL
● Premiers travaux dans ce domaine. Peu de chercheurs se sont penchés sur ce problème.
● Premiers résultats (après seulement quelques mois de recherches) sont encourageants
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Perspectives● Premier prototype à développer● Applicable à d'autres langues ● Au niveau industriel :
– téléphone mobile-traducteur– traducteur : e-mail, forum, chat...– modules en première étape de toute correction automatique
Journées linguistiques du Centre L. Tesnière – 05 et 06 mars 2004
Journée d’étude de l’ATALA – Paris - 5 juin 2004
Merci de votre attention...
des questions ?
Centre de recherche en linguistique et traitement automatique des
languesLucien TesnièreUniversité de Franche-Comté –
Besançon - FRANCE
http://tesniere.univ-fcomte.fr Journées linguistiques du
Centre L. Tesnière – 05 et 06 mars 2004
Ciprian [email protected]
Séverine [email protected]
Journée d’étude de l’ATALA – Paris - 5 juin 2004