traitement automatique des langues - limsi.frtraitement automatique des langues. 1. aurélien max...

24
1 Aurélien Max [email protected] Master Recherche en Informatique Parcours Technologies de l’Information et Sciences Cognitives Traitement Automatique des Langues Multilinguisme et TAL 2 Plan Première partie – Langue et TAL Représentation des langues sur Internet Dotations des langues en moyens informatiques Deuxième Partie – Production de documents multilingues Rédaction de documents multilingues La traduction automatique Principales difficultés linguistiques de la traduction Principales stratégies de traduction automatique Stratégies complémentaires Génération multilingue interactive

Upload: others

Post on 15-Mar-2021

6 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Traitement Automatique des Langues - limsi.frTraitement Automatique des Langues. 1. Aurélien Max aurelien.max@limsi.fr Master Recherche en Informatique Parcours Technologies de l’Information

1

Aurélien Max

[email protected]

Master Recherche en Informatique

Parcours Technologies de l’Information et Sciences Cognitives

Traitement Automatique des Langues

Multilinguisme et TAL

2

Plan

Première partie – Langue et TAL

Représentation des langues sur InternetDotations des langues en moyens informatiques

Deuxième Partie – Production de documents multilingues

Rédaction de documents multilinguesLa traduction automatique

Principales difficultés linguistiques de la traductionPrincipales stratégies de traduction automatiqueStratégies complémentaires

Génération multilingue interactive

Page 2: Traitement Automatique des Langues - limsi.frTraitement Automatique des Langues. 1. Aurélien Max aurelien.max@limsi.fr Master Recherche en Informatique Parcours Technologies de l’Information

2

3

Langues et locuteurs

4

Langues sur Internet

• Etude par Alis Technologies sur un extrait de 3239 pages d’accueil (texte de plus de 500 caractères)

• Le nombre de serveurs pour chaque langue est estimé à partir du nombre total d'adresses IP, du nombre sondé et du nombre de serveurs trouvé en cette langue.

Page 3: Traitement Automatique des Langues - limsi.frTraitement Automatique des Langues. 1. Aurélien Max aurelien.max@limsi.fr Master Recherche en Informatique Parcours Technologies de l’Information

3

5

Observations sur la répartition des langues sur Internet

• La répartition des usagers d’Internet reflète la date de l’arrivée de cette technologie dans les pays concernés

• Beaucoup de non-anglophones (individus et compagnies) ont recours à l’anglais pour atteindre un public international

• La réelle problématique est de savoir si les locuteurs peuvent trouver l’information qu’ils recherchent dans leur langue sur Internet [Nunberg2002]

319121 82324Espagne

88875 63125Allemagne

186292 09626France

29284 47840Suède

37137 00846Danemark

41 6195 99884Roumanie

8 6295 18475Lettonie

2111 829 14199,7Etats-Unis

Nb habitants/serveurNb serveurs% d’anglaisDomaine

Communautés linguistiques larges

Petites communautés linguistiques, haut niveau de

développement

Pays à faible pénétration d’Internet et à langues locales peu

employées à l’extérieur

6

Droits linguistiques

Déclaration Universelle des Droits Linguistiques (Barcelone, 1996) proposée par des ONG issues de 90 pays et visant à établir « les droits inaliénables de toute communauté linguistique afin de préserver son identité culturelle ». – Article 9 : Toute communauté a le droit de codifier, de standardiser, de

préserver, de développer et de promouvoir son système linguistique, sans interférences induites ou forcées.

– Article 10-3 : En application du principe d'égalité il faut disposer les moyens indispensables pour que cette égalité soit effective.

– Article 38 : Toutes les langues et les cultures des communautés scientifiques doivent recevoir un traitement équitable et non discriminatoire dans les contenus des moyens de communication mondiaux.

– Article 40 : Toute communauté linguistique a le droit de disposer, dans le domaine de l'informatique, d'équipements adaptés à son système linguistique et d'outils de production dans sa langue, afin de profiter pleinement du potentiel qu'offrent ces technologies pour l'auto-expression, l'éducation, la communication, l'édition, la traduction, et en général le traitement de l'information et de la diffusion culturelle.

Page 4: Traitement Automatique des Langues - limsi.frTraitement Automatique des Langues. 1. Aurélien Max aurelien.max@limsi.fr Master Recherche en Informatique Parcours Technologies de l’Information

4

7

Dotation des langues en moyens informatiques

Dotation minimale pour le traitement de la langue écrite [Berment 2004]: – saisie et visualisation: polices de caractères, saisie verticale,

claviers virtuels, etc.– recherche et remplacement de texte: problème pour les langues

dont les mots peuvent être écrits de différentes manières (orthographe non fixée ou problème inhérent au mode de saisie): normalisation des formes possibles

– sélection du texte: problème pour les systèmes d’écriture non segmentée: segmenteur adapté

– tri lexicographique: problème pour les langues non segmentées, et pour celles pour lesquelles il n’existe pas de tri lexicographique ou il en existe plusieurs

– correction orthographique– (correction grammaticale et stylistique)

8

Problèmes pour le TAL multilingue

Exemples de problèmes fondamentaux à résoudre pour le TAL multilingue:– codage des caractères– identification de langues– segmentation et étiquetage

Page 5: Traitement Automatique des Langues - limsi.frTraitement Automatique des Langues. 1. Aurélien Max aurelien.max@limsi.fr Master Recherche en Informatique Parcours Technologies de l’Information

5

9

Codage des caractères (1/2)

• Problèmes de représentation et de compatibilité• Norme la plus utilisée: ASCII (American Standard Code for

Information Interchange) (ISO 646):– 7 bits permettent de coder 128 caractères: alphabet latin sans accent,

chiffres, caractères de contrôle non imprimables, signes de ponctuation

– extension à 8 bits par l’ISO (depuis 1987) permettant de coder 128 caractères supplémentaires pour coder les caractères propres à chaque langue (à écriture latine, cyrillique, arabe, grecque, hébraïque): ISO 8859-1 (Latin-1) jusqu’à ISO-8859-10

– exemples de problèmes restants: • ISO 8859-1 ne contient pas la ligature œ , et tout suite « oe » ne doit pas

nécessairement être remplacée (ex: coexister)• les jeux de caractères sont parfois difficiles à obtenir: les Estoniens (pour

lesquels existent l’ISO-Latin-4) sont souvent amenés à utiliser ISO-Latin-1 ou ISO-Latin-2 où il manque respectivement 2 et 1 caractères…

– les autres langues ne disposaient alors le plus souvent que de normes nationales (chinois, japonais, coréen, russe et arabe)

10

Codage des caractères (2/2)

• Apparition de la norme ISO 10646 (Universal multiple-octetCoded character Set (UCS)):– sur 2 octets (UCS2): 65,536 caractères– sur 4 octets (UCS4): 2 milliards de caractères– ex: 21,204 codes pour les idéogrammes chinois, japonais et coréen

• Apparition d’Unicode:– consortium créé en 1989: palier la multiplicité des codages

incompatibles pour l’édition de logiciels multilingues– codage Unicode: UCS2 au niveau d’implémentation 3 (totalité des

jeux de caractères) (norme ISO-10646-UCS-2)– pour chaque code, une cinquantaine d’informations sont associées

(nom du caractère, type de caractère (chiffre, lettre, ponctuation, etc.), etc.)

• Cependant, beaucoup de documents électroniques existants ne sont pas codés en Unicode, et il existe beaucoup de disparités dans certaines langues…

Page 6: Traitement Automatique des Langues - limsi.frTraitement Automatique des Langues. 1. Aurélien Max aurelien.max@limsi.fr Master Recherche en Informatique Parcours Technologies de l’Information

6

11

Identification automatique des langues

• Problématique: connaître la langue d’un document (ou d’une partie d’un document) pour lui faire subir le traitement linguistique approprié

• Informations fréquemment utilisées:– codes de caractères– mots outils– probabilité indépendante d’apparition de caractères– probabilité jointe de combinaisons de plusieurs caractères– n-grams de caractères ou de mots– caractères accentués et caractères spéciaux (ex: ñ, ß, œ)– caractéristiques des syllables

• Exemple de système: http://www.xrce.xerox.com/competencies/content-analysis/tools/guesser-ISO-8859-1.en.html

• Problèmes:– présence nécessaire d’un certain nombre de mots– plusieurs langues dans un même document (segmentation en langues)

12

Segmentation et étiquetage

• Segmentation (tokenization): découper les phrases en mots (difficile pour les langues sans séparateurs)

• Etiquetage morphologique (part-of-speech tagging anddisambiguation): trouver les catégories morphologiques possibles pour les mots, les lemmes, et désambiguïser

• Exemple: http://www.xrce.xerox.com/competencies/content-analysis/toolhome.fr.html

Page 7: Traitement Automatique des Langues - limsi.frTraitement Automatique des Langues. 1. Aurélien Max aurelien.max@limsi.fr Master Recherche en Informatique Parcours Technologies de l’Information

7

13

Plan

Première partie – Langue et TAL

Représentation des langues sur InternetDotations des langues en moyens informatiques

Deuxième Partie – Production de documents multilingues

Rédaction de documents multilinguesLa traduction automatique

Principales difficultés linguistiques de la traductionPrincipales stratégies de traduction automatiqueStratégies complémentaires

Génération multilingue interactive

14

Processus de rédaction et de traduction

Langue de production des documents:– soit dans une langue véhiculaire (essentiellement l’anglais):

• les rédacteurs rédigent souvent dans une langue étrangère• problèmes d’uniformisation linguistique entre des locuteurs de communautés

linguistiques différentes• nécessité d’une phase de traduction• les mises à jour requièrent une modification de l’ensemble des documents traduits

– soit dans la langue du rédacteur• documents maîtres de meilleur qualité• nécessité d’une phase de traduction• les mises à jour requièrent une modification de l’ensemble des documents traduits

– scénario idéal: la rédaction technique parallèle:• des rédacteurs techniques de langues différentes reçoivent l’information

simultanément• ces rédacteurs rédigent ensuite indépendamment les uns des autres le document

adapté à une communauté linguistique et culturelle• nécessite de nombreux rédacteurs, et des mises à jour sur toutes les versions

parallèles des documents

Page 8: Traitement Automatique des Langues - limsi.frTraitement Automatique des Langues. 1. Aurélien Max aurelien.max@limsi.fr Master Recherche en Informatique Parcours Technologies de l’Information

8

15

Contraintes sur la rédaction

• Conventions de « bonne rédaction »: assurer la bonne compréhension des documents et l’homogénéité de documents rédigés par plusieurs rédacteurs– conventions d’écriture (ex: emplois des abréviations)

– préférer la répétition de mots plutôt que l’emploi de synonymes

– préférences terminologiques (ex: décourager les abstractions inutiles, frequency selector Vs frequency channel selecting device)

– constructions syntaxiques (ex: décourager l’usage de la voix passive)

– recommandations stylistiques (ex: longueur des phrases)

• Mais ces conventions restent souvent difficiles à interpréter et à appliquer, et elles ne facilitent pas toujours la traduction des documents.

16

Langues contrôlées

• Les objectifs sont de garantir (essentiellement par des restrictions syntaxiques et terminologiques): – la compréhensibilité des textes – la traductibilité des textes, par le traducteur humain et la machine

(diminution des ambiguïtés lors de l’analyse d’un texte)• Limitations des langues contrôlées:

– manque de formalisation, et en général pas d’explicitation claire entre des relations entre les règles d’une langue contrôlée et celles de la langue dont elle est issue

– difficulté à faire évoluer suffisamment rapidement la terminologie ainsi que d’anticiper toutes les utilisations des mots par les auteurs

– les rédacteurs peuvent faire des erreurs (ex: utiliser un mot dans un sens non approuvé)

– outils de vérification de conformité à une langue contrôlée:• corrections non propagées à l’ensemble d’un texte• certaines corrections sont très difficiles à faire automatiquement (ex:

respecter une longueur maximale des phrases)

Page 9: Traitement Automatique des Langues - limsi.frTraitement Automatique des Langues. 1. Aurélien Max aurelien.max@limsi.fr Master Recherche en Informatique Parcours Technologies de l’Information

9

17

Exemples de contraintes de langues contrôlées

• ...• use only approved terminology, e.g. windscreen rather than

windshield• use only approved sense: follow only as ‘come after’, not

‘obey’• avoid ambiguous words: replace, either (a) remove and put

back, or (b) remove and put something else in place• only one ‘topic’ per sentence, e.g. one instruction, command• do not omit articles• do not use pronouns instead of nouns if possible• do not omit implied nouns• use short sentences, e.g. maximum 20 words• avoid co-ordination of phrases and clauses• …

18

Aides à la traduction

• Dictionnaires (monolingues et bilingues)• Vérificateurs orthographiques et grammaticaux• Bases terminologiques multilingues (termes autorisés)• Mémoires de traduction:

– alignement de phrases déjà traduites en plusieurs langues et proposition de phrases candidates au traducteur puis post-édition

– ressources difficiles à construire– comparaisons au niveau de la phrase (peu flexibles et non prise en

compte du contexte)– la combinaison de fragments de phrase doit être faite manuellement– la base de textes alignés peut contenir des informations en conflit– les traducteurs préfèrent souvent traduire une phrase en partant de

rien plutôt que de partir de traductions trop « mauvaises » (échec du « fuzzy matching »)

– cependant, les mémoires de traductions sont très répandues dans le domaine de la rédaction technique multilingue

Page 10: Traitement Automatique des Langues - limsi.frTraitement Automatique des Langues. 1. Aurélien Max aurelien.max@limsi.fr Master Recherche en Informatique Parcours Technologies de l’Information

10

19

La Traduction Automatique

20

Bref historique de la traduction automatique

• La traduction automatique est l’une des toutes premières applications du TAL (~1950)

• Objectifs initiaux:– traduction complètement automatique de grande qualité– application à une tâche d’assimilation de grande quantité de données

(recherche motivée par l’espionnage russo-américain)

• Rapport Alpac (1966):– constate des besoins très importants en post-édition– recommande des aides à la traduction– identification de différents besoins: assimilation (traduction

automatique) Vs dissémination (traduction assistée par ordinateur)– conséquences principales:

• arrêt du financement à grande échelle en Amérique du Nord• concentration sur le développement d’outils opérationnels (post-édition,

langues contrôlées, domaines contraints, etc.)• incitation à la recherche de nouvelles méthodes pour la traduction

Page 11: Traitement Automatique des Langues - limsi.frTraitement Automatique des Langues. 1. Aurélien Max aurelien.max@limsi.fr Master Recherche en Informatique Parcours Technologies de l’Information

11

21

La traduction automatique post-rapport Alpac

• 1967-1989:– descriptions d’approches par règles:

• traduction par pivot et par transfert• efforts importants de création de ressources linguistiques

(grammaires et dictionnaires)

• depuis 1989:– utilisation croissante de la traduction automatique par

l’industrie et les institutions– combinaison de méthodes (approches hybrides)– utilisation de méthodes utilisant des corpus (mémoires de

traduction, traduction statistique, traduction par l’exemple)– vulgarisation de la traduction automatique par sa diffusion

sur Internet

22

Principales difficultés linguistiques de la traduction

• Analyse morphologique• Ambiguïtés lexicales• Ambiguïtés structurelles• Résolutions d’anaphores• Ambiguïtés de portée des quantificateurs

Page 12: Traitement Automatique des Langues - limsi.frTraitement Automatique des Langues. 1. Aurélien Max aurelien.max@limsi.fr Master Recherche en Informatique Parcours Technologies de l’Information

12

23

Analyse morphologique

• L’analyse morphologique permet la reconnaissance de mots inconnus (par opposition à la mémorisation de l’ensemble des formes fléchies), par exemple par analyse dérivationnelle

• Problèmes des termes composés– ex: le terme allemand Dampfschiffahrtsgesellschaft

(~compagnie de bâteaux à vapeur): une traduction correcte peut ici être obtenue à partir des termes composant le terme complexe

24

Ambiguïtés lexicales

• Problème d’étiquetage: un mot peut appartenir à plusieurs catégories– ex: le mot anglais round peut être un nom, un verbe, une préposition,

une particule, un adjectif, ou un adverbe

• Homographes: mots ayant la même orthographe mais des sens différents– ex: le nom anglais bank peut être un établissement financier ou la

berge d’une rivière

• Polysèmes: mots ayant des sens plus ou moins différents– ex: les noms français et anglais grue et crane peuvent être un

animal ou un appareil de levage

• Ambiguïté lexicales en transfert: un mot en langue source a plusieurs traductions possibles en langue cible– ex: le nom anglais river peut se traduire par rivière ou fleuve en

français

Page 13: Traitement Automatique des Langues - limsi.frTraitement Automatique des Langues. 1. Aurélien Max aurelien.max@limsi.fr Master Recherche en Informatique Parcours Technologies de l’Information

13

25

Ambiguïtés structurelles

• Ambiguïtés structurelles « réelles »: il existe plusieurs structures et interprétations possibles:– ex: la phrase française Il atteint la grange et la ferme

peut être interprétée et traduite en anglais par 1) Hereaches the barn and the farm ou 2) He reaches thebarn and closes it

• Ambiguïtés structurelles « accidentelles »: ambiguïtés souvent non perçues en contexte par l’humain:– ex: la phrase anglaise He noticed her shaking hands

peut être interprétée et traduite en français par 1) Il a remarqué ses mains tremblantes ou 2) Il a remarqué qu’elle serrait des mains

26

Résolutions d’anaphores

• Référence à une entité précédemment mentionnée dans un texte

• Exemples:The monkey ate the banana because it was hungry.� Le singe a mangé la banane parce qu’il avait faim.The monkey ate the banana because it was ripe.� Le singe a mangé la banane parce qu’elle était mûre.The monkey ate the banana because it was tea-time.� Le singe a mangé la banane parce que c’était l’heure du thé.

The soldiers shot at the women and some of them fell.� Les soldats ont tiré sur les femmes et quelques-unes sont tombées.The soldiers shot at the women and some of them missed.� Les soldats ont tiré sur les femmes et quelques-uns ont raté.

Page 14: Traitement Automatique des Langues - limsi.frTraitement Automatique des Langues. 1. Aurélien Max aurelien.max@limsi.fr Master Recherche en Informatique Parcours Technologies de l’Information

14

27

Ambiguïtés de portée des quantificateurs

• Ambiguïtés qui surviennent lorsque la portée d’un quantificateur peut mener à plusieurs interprétations

• Exemples:No smoking seats are available on domestic flights.1) There are no seats where you may smoke on domestic flights.

Il n’y a aucun siège pour fumeur sur les vols intérieurs.2) There are "no smoking" sections on domestic flights.

Il y a des zones « non fumeurs » sur les vols domestiques.

Tous les câbles sont reliés à un connecteur.1) Il y a un (gros) connecteur auquel tous les câbles sont attachés.

There is one (large) pin to which all wires are attached.2) Chaque câble est attaché à son propre connecteur.

Each wire is attached to its own pin.

28

Principales stratégies de la traduction automatique

• Stratégies basées sur des règles:– traduction directe– traduction par pivot (interlingue)– traduction par transfert

• Stratégies basées sur des données:– traduction statistique– traduction par l’exemple

• Stratégies hybrides

Page 15: Traitement Automatique des Langues - limsi.frTraitement Automatique des Langues. 1. Aurélien Max aurelien.max@limsi.fr Master Recherche en Informatique Parcours Technologies de l’Information

15

29

Traduction directe (1/2)

• Traduction dite « directe » car on passe du texte source au texte cible sans passer par une représentation intermédiaire

• Analyse du texte source très superficielle:– réduction des mots du texte source à leur forme de base– les mots de l’énoncé source sont recherchés dans un dictionnaire

bilingue et remplacés par leur traduction la plus fréquente– réagencement de certains éléments de l’énoncé cible en fonction de

la langue cible: la structure de l’énoncé cible est très proche de celle de l’énoncé source

– en général, aucune information sur les relations grammaticales

• Possibilité de produire de très mauvaises traductions, ex:– exemple de traduction de l’anglais vers le russe (mythe?):

• The spirit is willing, but the flesh is weak (L’esprit est fort, mais la chair est faible)

• The vodka is good, but the steak is lousy (La vodka est bonne, mais le steak est infect)

30

Traduction directe (2/2)

• Néanmoins, l’approche directe s’avère suffisante dans certains cas très particuliers:– système Météo (groupe TAUM, Université de Montréal):

• traduction de bulletins météorologiques de l’anglais vers le français

• le style télégraphique des bulletins en anglais est très proche du style des bulletins en français

• le vocabulaire est très limité• utilisation quotidienne (environ 40,000 mots traduits par jour),

moins de 3% de corrections manuelles en post-édition

Page 16: Traitement Automatique des Langues - limsi.frTraitement Automatique des Langues. 1. Aurélien Max aurelien.max@limsi.fr Master Recherche en Informatique Parcours Technologies de l’Information

16

31

Traduction indirecte

• Traduction dite « indirecte » car on passe du texte source au texte cible par une représentation intermédiaire

• Différences au niveau du degré d’analyse depuis le texte source, et du degré de génération nécessaire pour produire le texte cible

• Diagramme pyramidal de la traduction automatique:

32

Traduction par pivot

• L’addition d’une langue dans une architecture par pivot implique l’ajout de deux modules, l’un pour l’analyse, l’autre pour la génération de cette langue

• Une telle architecture requiert donc 2n modules pour nlangues:

Page 17: Traitement Automatique des Langues - limsi.frTraitement Automatique des Langues. 1. Aurélien Max aurelien.max@limsi.fr Master Recherche en Informatique Parcours Technologies de l’Information

17

33

Difficultés de l’approche par pivot (1/2)

• Difficile de définir un tel langage pivot:– dès le 17ème siècle, les philosophes (comme Descartes)

et les linguistes tentent de créer un langage universel non-ambigu

– aucune langue naturelle ne peut être utilisée– en pratique, les langages pivots utilisés ont pour but de

neutraliser les différences entre les langues manipulées par un système particulier (intéressant lorsque les langues d’un système partagent des lexiques et des constructions syntaxiques)

34

Difficultés de l’approche par pivot (2/2)

• La représentation pivot doit contenir suffisamment d’informations pour permettre la génération du texte cible– nécessité d’identifier précisément les sens des mots

• ex: le verbe anglais to wear peut avoir jusqu’à 8 traductions différentes en japonais en fonction de la chose qui est portée: il est donc nécessaire de pouvoir encoder tous ces sens pour un système par pivot comprenant ces deux langues

– nécessiter d’encoder les fonctions grammaticales et/ou les rôlesthématiques pour prendre en compte les variations entre langues

• ex: le français et l’anglais expriment les verbes de mouvement différemment (donc une langue pivot ne peut représenter cela en choisissant une structure particulière et demeurer neutre):

He walked across the road.Il traversa la rue à pied.

Page 18: Traitement Automatique des Langues - limsi.frTraitement Automatique des Langues. 1. Aurélien Max aurelien.max@limsi.fr Master Recherche en Informatique Parcours Technologies de l’Information

18

35

Traduction par transfert (1/2)

• L’addition d’une langue dans une architecture par transfert implique l’ajout d’un module l’analyse de cette langue, d’un autre module pour sa génération, et de modules pour le transfert depuis et vers les autres langues du système

• Une telle architecture requiert donc n(n-1) modules de transfert et 2nmodules d’analyse et de génération pour n langues:

36

Traduction par transfert (2/2)

• Analyse morphologique et syntaxique pour obtenir une représentation du texte source:– contient si possible des relations entre les constituants– reste dépendante de la langue source (elle contient des mots de la langue

source et reflète plus ou moins la structure d’origine)

• Transfert lexical:– substitution des mots de la langue source par des mots de la langue cible– besoin de prise de décision pour les mots ayant plusieurs traductions

• Transfert structurel:– entre langues proches, certaines structures peuvent être conservées– certains cas demandent des transformations structurelles importantes, ex:

• la phrase anglaise A short walk will take you to the station ne peut pas être traduite littéralement en japonais car le sujet n’est pas animé: il faut donc exprimer le sujet implicite (ou l’omettre) et transformer le sujet anglais de façon approprié.

• la phrase japonaise obtenue serait équivalente à la phrase anglaise By walking a short way, you will arrive at the station.

Page 19: Traitement Automatique des Langues - limsi.frTraitement Automatique des Langues. 1. Aurélien Max aurelien.max@limsi.fr Master Recherche en Informatique Parcours Technologies de l’Information

19

37

Génération du texte cible

• En traduction par pivot, la représentation pivot doit d’abord être transformée en structure syntaxique profonde (génération sémantique).

• La génération syntaxique transforme une structure syntaxique profonde en structure syntaxique de surface dans laquelle les constituants sont ordonnés en fonction de la langue cible.

• La génération morphologique produit ensuite les formes fléchies des mots.

• En général, la génération est déterministe, i.e. elle associe lemême texte pour une même représentation (pivot ou de transfert).

• En traduction par transfert, les structures de la langue cible sont généralement conservées, donnant des traductions souvent trop « littérales ».

38

Stratégies complémentaires

Les recherches en traduction automatiques sont très actives, notamment dans les champs suivants:– Traduction fondée sur les connaissances (Knowledge-

based Machine Translation (KBMT))– Traduction statistique– Traduction par l’exemple (Example-based Machine

Translation (EBMT))– Traduction multi-moteurs (Multi-Engine Machine

Translation (MEMT))– Traduction fondée sur le dialogue (Dialogue-based

Machine Translation (DBMT))

Page 20: Traitement Automatique des Langues - limsi.frTraitement Automatique des Langues. 1. Aurélien Max aurelien.max@limsi.fr Master Recherche en Informatique Parcours Technologies de l’Information

20

39

Traduction fondée sur les connaissances

• Utilisation de grandes bases de connaissances pour lever les ambiguïtés.

• Plus adaptée à l’approche par pivot (plus grande abstraction par rapport à la langue source).

• Exemple: KANT (Université Carnegie Mellon)– utilisation de descriptions conceptuelles pour éliminer des

interprétations lors de l’analyse, ex:(*E-CLEAN (is-a *EVENT) (agent *USER) (theme *PHYSICAL-LOCATION *physical-object) (instrument *O-CLEANING-INSTRUMENT))

Clean the ventilation slots with your vacuum cleaner.� l’interprétation Clean (the ventilation slots with you vacuum cleaner) est

éliminée car elle ne permet pas d’instancier cette description, alors que Clean (with you vacuum cleaner) (the ventilation slots) le permet

40

Traduction statistique

• Différents modèles statistiques ont été proposés à la suite des modèles originels proposés par IBM (système CANDIDE, 1988):– utilisation d’un corpus bilingue aligné– modèle de traduction: probabilité qu’une chaîne dans la langue cible soit la

traduction d’une chaîne dans la langue source, utilisant (au moins):• la fréquence de cooccurrence des mots entre les deux langues dans les textes

alignés du corpus• la position des mots dans la chaîne en langue cible et la position des mots dans la

chaîne en langue source– modèle de langue: probabilité qu’une chaîne en langue cible soit une phrase

valide dans cette langue, utilisant:• des fréquences d’apparition de mots à la suite appris sur corpus représentatifs (n-

grams)– recherche d’une chaîne en langue cible maximisant les probabilités du

modèle de traduction et du modèle de langue (algorithmiquement coûteux)• Limitations:

– ces approches plafonnent en évaluation car elles ne semblent pas capables de modéliser certains phénomènes

– difficultés d’obtention de grands corpus bilingues alignés

Page 21: Traitement Automatique des Langues - limsi.frTraitement Automatique des Langues. 1. Aurélien Max aurelien.max@limsi.fr Master Recherche en Informatique Parcours Technologies de l’Information

21

41

Aide à la traduction par des méthodes statistiques

Exemple: le système TransType fait des propositions « à la volée » au traducteur en utilisant un modèle de traduction et un modèle de langue.

42

Traduction par l’exemple

• Utilisation de corpus alignés au niveau des phrases et des syntagmes• Algorithme de mise en correspondance entre une entrée en langue source et

des exemples en langue cible (calcul de distance ou de similarité)• Algorithme de (re)combinaison pour obtenir une phrase en langue cible à partir

de fragments retrouvés dans le corpus alignés• Exemple: traduction de structures de la forme A no B en japonais vers l’anglais

Fragment anglaisStructure anglaiseFragment japonais

three hotelsA Bthree no hotel

the hotel reservationA Bhotel no reservation

a week’s holidayA’s Ba week no holiday

the conference in KyotoB in AKyoto no conference

the fee for the conferenceB for Aconfence no fee

the afternoon of the 8thB of A8th no afternoon

• Limitations: – par manque d’exemples ou défaut de mise en correspondance, la traduction par

l’exemple peut fournir des résultats incomplets et doit donc être combinée avec les approches traditionnelles

– utilisation de patrons devant être obtenus automatiquement, ex:X o onegai shimasu

����may I speak to the X (if X=jimukyoku ‘office’ or … )

please give me the X (if X= ��������� ‘number’ or … )

Page 22: Traitement Automatique des Langues - limsi.frTraitement Automatique des Langues. 1. Aurélien Max aurelien.max@limsi.fr Master Recherche en Informatique Parcours Technologies de l’Information

22

43

Traduction multi-moteurs

• Certaines approches de traduction proposées ont de meilleures performances en fonction des textes et d’autres paramètres, ex:– les systèmes à base de règles pour l’analyse du texte source

– les systèmes à base d’exemple pour le transfert– les systèmes statistiques pour la génération du texte cible

• Architecture:– plusieurs moteurs de traduction traduisent en parallèle chaque phrase– un score est calculé pour chaque segment des phrases candidates en

utilisant un modèle statistique

– la phrase cible est combinée à partir des fragmentsayant obtenu les meilleurs scores

44

Traduction fondée sur le dialogue

• Les traductions réalisées par les systèmes de TA correspondent aux interprétations retenues par l’analyse

• La traduction fondée sur le dialogue a recours à l’expertise d’un humain pour résoudre les problèmes d’interprétation difficiles, et garantir ainsi le succès de l’étape d’analyse

• Cette approche se justifie lorsque:– la qualité de la traduction doit être bonne– le contexte est fortement multilingue (plusieurs langues cibles)– le texte source n’est pas trop contraint

– l’utilisateur accepte de répondre à des dialogues de clarification

• Exemple: LIDIA (GETA, 1994):

Page 23: Traitement Automatique des Langues - limsi.frTraitement Automatique des Langues. 1. Aurélien Max aurelien.max@limsi.fr Master Recherche en Informatique Parcours Technologies de l’Information

23

45

Génération multilingue interactive

• Evolution de la tâche de création de document [Hartley et Paris, 1997]:– un auteur spécifie le « contenu » d’un document par interaction avec un

système dans sa langue via un texte de contrôle (feedback text)– cette interaction construit une représentation du contenu du document– le système produit ensuite les textes en plusieurs langues à partir de la

représentation du contenu

• Avantages principaux:– pas d’analyse du texte source– un seul travail en une langue pour obtenir des documents en plusieurs

langues– les mises-à-jour des documents se font par modification du contenu et

(re)génération des textes en différentes langues

• Limitations:– limitation de l’expressivité de l’auteur en fonction des capacités de

représentation du système– pas de saisie de texte libre pour réanalyse

46

Exemple: WYWISYM

WYWIWYM (What You See Is What You Meant) (ITRI, Université de Brighton)

Page 24: Traitement Automatique des Langues - limsi.frTraitement Automatique des Langues. 1. Aurélien Max aurelien.max@limsi.fr Master Recherche en Informatique Parcours Technologies de l’Information

24

47

Exemple: MDA

MDA (Multilingual Document Authoring) (XRCE)

48

Références du cours

Berment, V. (2004) Méthodes pour informatiser des langues et des groupes de langues « peu dotées », Thèse de doctorat, Université Joseph Fourier, Grenoble.

Brun, C. et M. Dymetman (2002) Rédaction multilingue assistée dans le modèle MDA, in Multilinguisme et Traitement de l’Information, F. Segond ed., Hermès Lavoisier.

De Loupy, C. (1999) Multilinguisme et document numérique: la dimension technique à l’épreuve du codage des caractères, Solaris n°6.

Hartley, H. et C. Paris (1997) Multilingual Document Production – From Support to Translating to