invited speaker, atala 2014 ph. d. thesis award
TRANSCRIPT
Traduction assistee par ordinateur et corpuscomparables
Conference invitee : Prix de these ATALA 2014
Estelle DelpechResponsable scientifique, Nomao
www.nomao.com/labs
Travaux de these effectues au LINA sous la direction de B. Daille et E. Morin
TALN’14 – 2 juillet 2014 – Marseille, France
Traduction assistee par ordinateur et corpus comparables
Introduction
Contexte
Lingua et Machina logiciels de Traduction Assistee par Ordinateuret Traduction Automatique[Brown de Colstoun et al., 2011]
ANR Metricc exploitation des corpus comparables pour:
I recherche d’information interlingueI categorisation multilingueI traduction assistee par ordinateur
2 / 41
Traduction assistee par ordinateur et corpus comparables
Introduction
La Traduction Assistee par Ordinateur (TAO)
TAO Technologies permettant aux humains de mieuxtraduire
I pre-traductionI logiciels de gestion terminologiqueI memoires de traduction
6= TA Traduction sans intervention humaine
3 / 41
Traduction assistee par ordinateur et corpus comparables
Introduction
Materiau de base : historique de traductions (corpusparallele)
4 / 41
Traduction assistee par ordinateur et corpus comparables
Introduction
Limite des corpus paralleles
I DisponibiliteI nouveaux domaines ?I langues peu dotees ?
I Risque qualitatifI Partie Cible : variante de la langue cible appelee translecte
(“translationese”)[Baker, 1996, Zanettin, 1998, Mc Enery and Xiao, 2007]
5 / 41
Traduction assistee par ordinateur et corpus comparables
Introduction
Solution possible : corpus comparables
Texte FR cancer du sein Texte EN cancer du sein
Ipsen is participating in studiesconducted under the auspices of theIBCSG for the treatment ofpremenopausal breast cancer. Thesestudies compare conventionaltreatment methods with hormonetherapy combining Decapeptyl R©with estrogen suppressor agents.Their findings could lead to arevision of treatment guidelines forbreast cancer in pre-menopausalwomen expressing hormonalreceptors.
HormonotherapieDans environ deux tiers des cancersdu sein, les cellules cancereusespresentent des recepteurshormonaux en exces. La tumeur estalors dite hormonosensible car lesœstrogenes stimulent la proliferationcancereuse par l’intermediaire desrecepteurs. Les traitements agirontsoit en diminuant le tauxd’œstrogenes dans le sang, soit enbloquant les recepteurs hormonaux
6 / 41
Traduction assistee par ordinateur et corpus comparables
Introduction
Solution possible : corpus comparables
Texte FR cancer du sein Texte EN cancer du sein
Ipsen is participating in studiesconducted under the auspices of theIBCSG for the treatment ofpremenopausal breast cancer.These studies compare conventionaltreatment methods with hormonetherapy combining Decapeptyl R©with estrogen suppressor agents.Their findings could lead to arevision of treatment guidelines forbreast cancer in pre-menopausalwomen expressing hormonalreceptors.
HormonotherapieDans environ deux tiers des cancersdu sein, les cellules cancereusespresentent des recepteurshormonaux en exces. La tumeur estalors dite hormonosensible car lesœstrogenes stimulent laproliferation cancereuse parl’intermediaire des recepteurs. Lestraitements agiront soit endiminuant le taux d’œstrogenes dansle sang, soit en bloquant lesrecepteurs hormonaux
6 / 41
Traduction assistee par ordinateur et corpus comparables
Introduction
Exploitation des corpus comparables
TA extraction de lexiques pour l’adaptation au domaine :+0.02 a 0.03 BLEU [Carpuat et al., 2012]
CLIR augmentation du lexique bilingue utilise par lesysteme de RI : +0.016 MAP [Li et al., 2011]
Traduction non assistee ameliorations qualitatives[Zanettin, 1998, Friedbichler and Friedbichler, 1997,Mc Enery and Xiao, 2007]
TAO ?
7 / 41
Traduction assistee par ordinateur et corpus comparables
Introduction
Exploitation des corpus comparables
TA extraction de lexiques pour l’adaptation au domaine :+0.02 a 0.03 BLEU [Carpuat et al., 2012]
CLIR augmentation du lexique bilingue utilise par lesysteme de RI : +0.016 MAP [Li et al., 2011]
Traduction non assistee ameliorations qualitatives[Zanettin, 1998, Friedbichler and Friedbichler, 1997,Mc Enery and Xiao, 2007]
TAO ?
7 / 41
Traduction assistee par ordinateur et corpus comparables
Introduction
Exploitation des corpus comparables
TA extraction de lexiques pour l’adaptation au domaine :+0.02 a 0.03 BLEU [Carpuat et al., 2012]
CLIR augmentation du lexique bilingue utilise par lesysteme de RI : +0.016 MAP [Li et al., 2011]
Traduction non assistee ameliorations qualitatives[Zanettin, 1998, Friedbichler and Friedbichler, 1997,Mc Enery and Xiao, 2007]
TAO ?
7 / 41
Traduction assistee par ordinateur et corpus comparables
Introduction
Exploitation des corpus comparables
TA extraction de lexiques pour l’adaptation au domaine :+0.02 a 0.03 BLEU [Carpuat et al., 2012]
CLIR augmentation du lexique bilingue utilise par lesysteme de RI : +0.016 MAP [Li et al., 2011]
Traduction non assistee ameliorations qualitatives[Zanettin, 1998, Friedbichler and Friedbichler, 1997,Mc Enery and Xiao, 2007]
TAO ?
7 / 41
Traduction assistee par ordinateur et corpus comparables
Introduction
Exploitation des corpus comparables
TA extraction de lexiques pour l’adaptation au domaine :+0.02 a 0.03 BLEU [Carpuat et al., 2012]
CLIR augmentation du lexique bilingue utilise par lesysteme de RI : +0.016 MAP [Li et al., 2011]
Traduction non assistee ameliorations qualitatives[Zanettin, 1998, Friedbichler and Friedbichler, 1997,Mc Enery and Xiao, 2007]
TAO ?
7 / 41
Traduction assistee par ordinateur et corpus comparables
Introduction
Objectifs de la these
1. Evaluer l’interet des corpus comparables pour la TAO
2. Ameliorer/Proposer des modalites d’exploitation pour la TAO
8 / 41
Traduction assistee par ordinateur et corpus comparables
Introduction
Plan
1. Methode classique d’extraction de lexiques bilingues a partir decorpus comparables
2. Evaluation applicative des lexiques bilingues destines a latraduction humaine
3. Extraction de lexiques bilingues par l’approche compositionnelle
Conclusion
9 / 41
Traduction assistee par ordinateur et corpus comparables
1. Methode classique d’extraction de lexiques bilingues a partir de corpus comparables
Plan
1. Methode classique d’extraction de lexiques bilingues a partir decorpus comparables
2. Evaluation applicative des lexiques bilingues destines a latraduction humaine
3. Extraction de lexiques bilingues par l’approche compositionnelle
Conclusion
10 / 41
Traduction assistee par ordinateur et corpus comparables
1. Methode classique d’extraction de lexiques bilingues a partir de corpus comparables
Methode d’extraction classique
11 / 41
Traduction assistee par ordinateur et corpus comparables
1. Methode classique d’extraction de lexiques bilingues a partir de corpus comparables
Alignement par similarite contextuelle
I Premiers travaux : [Rapp, 1999, Fung, 1997]
I Hypothese distributionnelle : deux mots de sens prochetendent a apparaıtre dans des contextes similaires
biallelic : {instability : 5.14, tamoxifen: 2.13, cell-type: 2.1 ...}{instabilite: 5.14, tamoxifene: 2.13, ?: 2.1 ...}
l calcul similarite : 0.34
biallelique : {instabilite: 5.78, traitement : 6.33, tamoxifene: 1.2 ...}
12 / 41
Traduction assistee par ordinateur et corpus comparables
1. Methode classique d’extraction de lexiques bilingues a partir de corpus comparables
Alignement par similarite contextuelle
I Premiers travaux : [Rapp, 1999, Fung, 1997]
I Hypothese distributionnelle : deux mots de sens prochetendent a apparaıtre dans des contextes similaires
biallelic : {instability : 5.14, tamoxifen: 2.13, cell-type: 2.1 ...}
{instabilite: 5.14, tamoxifene: 2.13, ?: 2.1 ...}
l calcul similarite : 0.34
biallelique : {instabilite: 5.78, traitement : 6.33, tamoxifene: 1.2 ...}
12 / 41
Traduction assistee par ordinateur et corpus comparables
1. Methode classique d’extraction de lexiques bilingues a partir de corpus comparables
Alignement par similarite contextuelle
I Premiers travaux : [Rapp, 1999, Fung, 1997]
I Hypothese distributionnelle : deux mots de sens prochetendent a apparaıtre dans des contextes similaires
biallelic : {instability : 5.14, tamoxifen: 2.13, cell-type: 2.1 ...}
{instabilite: 5.14, tamoxifene: 2.13, ?: 2.1 ...}
l calcul similarite : 0.34
biallelique : {instabilite: 5.78, traitement : 6.33, tamoxifene: 1.2 ...}
12 / 41
Traduction assistee par ordinateur et corpus comparables
1. Methode classique d’extraction de lexiques bilingues a partir de corpus comparables
Alignement par similarite contextuelle
I Premiers travaux : [Rapp, 1999, Fung, 1997]
I Hypothese distributionnelle : deux mots de sens prochetendent a apparaıtre dans des contextes similaires
biallelic : {instability : 5.14, tamoxifen: 2.13, cell-type: 2.1 ...}{instabilite: 5.14, tamoxifene: 2.13, ?: 2.1 ...}
l calcul similarite : 0.34
biallelique : {instabilite: 5.78, traitement : 6.33, tamoxifene: 1.2 ...}
12 / 41
Traduction assistee par ordinateur et corpus comparables
1. Methode classique d’extraction de lexiques bilingues a partir de corpus comparables
Alignement par similarite contextuelle
I Premiers travaux : [Rapp, 1999, Fung, 1997]
I Hypothese distributionnelle : deux mots de sens prochetendent a apparaıtre dans des contextes similaires
biallelic : {instability : 5.14, tamoxifen: 2.13, cell-type: 2.1 ...}{instabilite: 5.14, tamoxifene: 2.13, ?: 2.1 ...}
l calcul similarite : 0.34
biallelique : {instabilite: 5.78, traitement : 6.33, tamoxifene: 1.2 ...}
12 / 41
Traduction assistee par ordinateur et corpus comparables
1. Methode classique d’extraction de lexiques bilingues a partir de corpus comparables
Evaluation et performances
I Precision sur le TopN : % de termes avec un traductioncorrecte parmi les N premieres traductions candidates
I Corpus specialises <700k mots : 41% a 76% sur Top20I Difficulte (vs. corpus paralleles) :
I espace de recherche tres vasteI traduction peut etre absente
I Evaluation par reference :I capacite a reproduire un lexique construit a prioriI quid de l’apport en contexte d’utilisation reel ?
13 / 41
Traduction assistee par ordinateur et corpus comparables
1. Methode classique d’extraction de lexiques bilingues a partir de corpus comparables
Evaluation et performances
I Precision sur le TopN : % de termes avec un traductioncorrecte parmi les N premieres traductions candidates
I Corpus specialises <700k mots : 41% a 76% sur Top20I Difficulte (vs. corpus paralleles) :
I espace de recherche tres vasteI traduction peut etre absente
I Evaluation par reference :I capacite a reproduire un lexique construit a prioriI quid de l’apport en contexte d’utilisation reel ?
13 / 41
Traduction assistee par ordinateur et corpus comparables
1. Methode classique d’extraction de lexiques bilingues a partir de corpus comparables
Evaluation et performances
I Precision sur le TopN : % de termes avec un traductioncorrecte parmi les N premieres traductions candidates
I Corpus specialises <700k mots : 41% a 76% sur Top20
I Difficulte (vs. corpus paralleles) :I espace de recherche tres vasteI traduction peut etre absente
I Evaluation par reference :I capacite a reproduire un lexique construit a prioriI quid de l’apport en contexte d’utilisation reel ?
13 / 41
Traduction assistee par ordinateur et corpus comparables
1. Methode classique d’extraction de lexiques bilingues a partir de corpus comparables
Evaluation et performances
I Precision sur le TopN : % de termes avec un traductioncorrecte parmi les N premieres traductions candidates
I Corpus specialises <700k mots : 41% a 76% sur Top20I Difficulte (vs. corpus paralleles) :
I espace de recherche tres vasteI traduction peut etre absente
I Evaluation par reference :I capacite a reproduire un lexique construit a prioriI quid de l’apport en contexte d’utilisation reel ?
13 / 41
Traduction assistee par ordinateur et corpus comparables
1. Methode classique d’extraction de lexiques bilingues a partir de corpus comparables
Evaluation et performances
I Precision sur le TopN : % de termes avec un traductioncorrecte parmi les N premieres traductions candidates
I Corpus specialises <700k mots : 41% a 76% sur Top20I Difficulte (vs. corpus paralleles) :
I espace de recherche tres vasteI traduction peut etre absente
I Evaluation par reference :I capacite a reproduire un lexique construit a prioriI quid de l’apport en contexte d’utilisation reel ?
13 / 41
Traduction assistee par ordinateur et corpus comparables
2. Evaluation applicative des lexiques bilingues destines a la traduction humaine
Plan
1. Methode classique d’extraction de lexiques bilingues a partir decorpus comparables
2. Evaluation applicative des lexiques bilingues destines a latraduction humaine
3. Extraction de lexiques bilingues par l’approche compositionnelle
Conclusion
14 / 41
Traduction assistee par ordinateur et corpus comparables
2. Evaluation applicative des lexiques bilingues destines a la traduction humaine
Lexique evalue
I Extrait d’un corpus comparable cancer du sein EN-FR
I Interface riche [Delpech and Daille, 2010]: acces auxcontextes, recherche en corpus, variantes orthographiques,termes proches, frequence, etc.
15 / 41
Traduction assistee par ordinateur et corpus comparables
2. Evaluation applicative des lexiques bilingues destines a la traduction humaine
Methodologie d’evaluation[Delpech, 2011a, Delpech, 2011b]
16 / 41
Traduction assistee par ordinateur et corpus comparables
2. Evaluation applicative des lexiques bilingues destines a la traduction humaine
Methodologie d’evaluation
I Objet evalue : expressions problematiques
I Mesure : % de traductions exactes, acceptables, fausses
17 / 41
Traduction assistee par ordinateur et corpus comparables
2. Evaluation applicative des lexiques bilingues destines a la traduction humaine
Resultats
18 / 41
Traduction assistee par ordinateur et corpus comparables
2. Evaluation applicative des lexiques bilingues destines a la traduction humaine
Difficultes d’usage et resistances
I Trop de termes sources non couverts
⇒ collecte du corpus
I Pas assez d’information pour choisir la bonne traduction
⇒ contextualiser les traductions
I Pas assez precis, trop de traductions candidates
⇒ diminuer le nombre de traductions⇒ approche compositionnelle [Morin and Daille, 2010]
19 / 41
Traduction assistee par ordinateur et corpus comparables
2. Evaluation applicative des lexiques bilingues destines a la traduction humaine
Difficultes d’usage et resistances
I Trop de termes sources non couverts
⇒ collecte du corpus
I Pas assez d’information pour choisir la bonne traduction
⇒ contextualiser les traductions
I Pas assez precis, trop de traductions candidates
⇒ diminuer le nombre de traductions⇒ approche compositionnelle [Morin and Daille, 2010]
19 / 41
Traduction assistee par ordinateur et corpus comparables
2. Evaluation applicative des lexiques bilingues destines a la traduction humaine
Difficultes d’usage et resistances
I Trop de termes sources non couverts
⇒ collecte du corpus
I Pas assez d’information pour choisir la bonne traduction
⇒ contextualiser les traductions
I Pas assez precis, trop de traductions candidates
⇒ diminuer le nombre de traductions⇒ approche compositionnelle [Morin and Daille, 2010]
19 / 41
Traduction assistee par ordinateur et corpus comparables
2. Evaluation applicative des lexiques bilingues destines a la traduction humaine
Difficultes d’usage et resistances
I Trop de termes sources non couverts
⇒ collecte du corpus
I Pas assez d’information pour choisir la bonne traduction
⇒ contextualiser les traductions
I Pas assez precis, trop de traductions candidates
⇒ diminuer le nombre de traductions⇒ approche compositionnelle [Morin and Daille, 2010]
19 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Plan
1. Methode classique d’extraction de lexiques bilingues a partir decorpus comparables
2. Evaluation applicative des lexiques bilingues destines a latraduction humaine
3. Extraction de lexiques bilingues par l’approche compositionnelle
Conclusion
20 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Principe
“ab” “blue dye”Decomposition {a, b} {blue, dye}
Traduction {A, B} {bleu, colorant}Recomposition {AB, BA} {bleu colorant, colorant bleu}Selection “BA” “colorant bleu”
21 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Principe
“ab” “blue dye”
Decomposition {a, b} {blue, dye}Traduction {A, B} {bleu, colorant}Recomposition {AB, BA} {bleu colorant, colorant bleu}Selection “BA” “colorant bleu”
21 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Principe
“ab” “blue dye”Decomposition {a, b} {blue, dye}
Traduction {A, B} {bleu, colorant}Recomposition {AB, BA} {bleu colorant, colorant bleu}Selection “BA” “colorant bleu”
21 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Principe
“ab” “blue dye”Decomposition {a, b} {blue, dye}
Traduction {A, B} {bleu, colorant}
Recomposition {AB, BA} {bleu colorant, colorant bleu}Selection “BA” “colorant bleu”
21 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Principe
“ab” “blue dye”Decomposition {a, b} {blue, dye}
Traduction {A, B} {bleu, colorant}Recomposition {AB, BA} {bleu colorant, colorant bleu}
Selection “BA” “colorant bleu”
21 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Principe
“ab” “blue dye”Decomposition {a, b} {blue, dye}
Traduction {A, B} {bleu, colorant}Recomposition {AB, BA} {bleu colorant, colorant bleu}Selection “BA” “colorant bleu”
21 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Interet pour les corpus comparables
I Peu/pas dependant de la frequence des termes
I Meilleure precision : 88% sur Top1 vs. 20% sur Top20[Morin and Daille, 2010]
I Concerne de nombreux cas :I 60% des nouveaux termes sont complexes
[Namer and Baud, 2007]I 48,7% des composes Nom Nom ont une traduction
compositionnelle [?]I 75,1% des unites polylexicales ont une traduction
compositionnelle [Robitaille et al., 2006]
22 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Interet pour les corpus comparables
I Peu/pas dependant de la frequence des termes
I Meilleure precision : 88% sur Top1 vs. 20% sur Top20[Morin and Daille, 2010]
I Concerne de nombreux cas :I 60% des nouveaux termes sont complexes
[Namer and Baud, 2007]I 48,7% des composes Nom Nom ont une traduction
compositionnelle [?]I 75,1% des unites polylexicales ont une traduction
compositionnelle [Robitaille et al., 2006]
22 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Interet pour les corpus comparables
I Peu/pas dependant de la frequence des termes
I Meilleure precision : 88% sur Top1 vs. 20% sur Top20[Morin and Daille, 2010]
I Concerne de nombreux cas :I 60% des nouveaux termes sont complexes
[Namer and Baud, 2007]I 48,7% des composes Nom Nom ont une traduction
compositionnelle [?]I 75,1% des unites polylexicales ont une traduction
compositionnelle [Robitaille et al., 2006]
22 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Interet pour les corpus comparables
I Peu/pas dependant de la frequence des termes
I Meilleure precision : 88% sur Top1 vs. 20% sur Top20[Morin and Daille, 2010]
I Concerne de nombreux cas :I 60% des nouveaux termes sont complexes
[Namer and Baud, 2007]I 48,7% des composes Nom Nom ont une traduction
compositionnelle [?]I 75,1% des unites polylexicales ont une traduction
compositionnelle [Robitaille et al., 2006]
22 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Travaux existantsGestion de la variation
I Morpho-syntaxique [Cartoni, 2009, Morin and Daille, 2010]I gene therapy Õ therapie genique
I Divergence lexicale [Robitaille et al., 2006, S. Vintar, 2010]I machine translation Õ traduction automatique
I Fertilite :
I composes nominaux allemands Õ SN [Weller et al., 2011]I [ML] composes neoclassiques [Claveau and Kijak, 2011] :
alignements de type 菌 Õ {bacterie, bacterio, bacteri}
⇒ Ameliorer le traitement de la fertilite dans l’approchecompositionnelle
23 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Travaux existantsGestion de la variation
I Morpho-syntaxique [Cartoni, 2009, Morin and Daille, 2010]I gene therapy Õ therapie genique
I Divergence lexicale [Robitaille et al., 2006, S. Vintar, 2010]I machine translation Õ traduction automatique
I Fertilite :
I composes nominaux allemands Õ SN [Weller et al., 2011]I [ML] composes neoclassiques [Claveau and Kijak, 2011] :
alignements de type 菌 Õ {bacterie, bacterio, bacteri}
⇒ Ameliorer le traitement de la fertilite dans l’approchecompositionnelle
23 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Travaux existantsGestion de la variation
I Morpho-syntaxique [Cartoni, 2009, Morin and Daille, 2010]I gene therapy Õ therapie genique
I Divergence lexicale [Robitaille et al., 2006, S. Vintar, 2010]I machine translation Õ traduction automatique
I Fertilite :
I composes nominaux allemands Õ SN [Weller et al., 2011]I [ML] composes neoclassiques [Claveau and Kijak, 2011] :
alignements de type 菌 Õ {bacterie, bacterio, bacteri}
⇒ Ameliorer le traitement de la fertilite dans l’approchecompositionnelle
23 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Travaux existantsGestion de la variation
I Morpho-syntaxique [Cartoni, 2009, Morin and Daille, 2010]I gene therapy Õ therapie genique
I Divergence lexicale [Robitaille et al., 2006, S. Vintar, 2010]I machine translation Õ traduction automatique
I Fertilite :
I composes nominaux allemands Õ SN [Weller et al., 2011]I [ML] composes neoclassiques [Claveau and Kijak, 2011] :
alignements de type 菌 Õ {bacterie, bacterio, bacteri}⇒ Ameliorer le traitement de la fertilite dans l’approche
compositionnelle
23 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Travaux existantsGestion de la variation
I Morpho-syntaxique [Cartoni, 2009, Morin and Daille, 2010]I gene therapy Õ therapie genique
I Divergence lexicale [Robitaille et al., 2006, S. Vintar, 2010]I machine translation Õ traduction automatique
I Fertilite :I composes nominaux allemands Õ SN [Weller et al., 2011]
I [ML] composes neoclassiques [Claveau and Kijak, 2011] :alignements de type 菌 Õ {bacterie, bacterio, bacteri}
⇒ Ameliorer le traitement de la fertilite dans l’approchecompositionnelle
23 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Travaux existantsGestion de la variation
I Morpho-syntaxique [Cartoni, 2009, Morin and Daille, 2010]I gene therapy Õ therapie genique
I Divergence lexicale [Robitaille et al., 2006, S. Vintar, 2010]I machine translation Õ traduction automatique
I Fertilite :I composes nominaux allemands Õ SN [Weller et al., 2011]I [ML] composes neoclassiques [Claveau and Kijak, 2011] :
alignements de type 菌 Õ {bacterie, bacterio, bacteri}
⇒ Ameliorer le traitement de la fertilite dans l’approchecompositionnelle
23 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Travaux existantsGestion de la variation
I Morpho-syntaxique [Cartoni, 2009, Morin and Daille, 2010]I gene therapy Õ therapie genique
I Divergence lexicale [Robitaille et al., 2006, S. Vintar, 2010]I machine translation Õ traduction automatique
I Fertilite :I composes nominaux allemands Õ SN [Weller et al., 2011]I [ML] composes neoclassiques [Claveau and Kijak, 2011] :
alignements de type 菌 Õ {bacterie, bacterio, bacteri}⇒ Ameliorer le traitement de la fertilite dans l’approche
compositionnelle
23 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Traitement de la fertilite [Delpech et al., 2012b]Propositions
I Decoupage en morphemesI antioxydant Õ anti+oxydantI mouthwash Õ mouth+wash
I Equivalence morpheme lie → morpheme libreI tumorectomy Õ ablation (de la) tumeurI randomly Õ (de) maniere randomiseeI postmenopause Õ apres (la) menopause
I Ne pas necessairement conserver la frontiere de morpheme :I mouth+wash Õ bain (de) bouche
24 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Traitement de la fertilite [Delpech et al., 2012b]Propositions
I Decoupage en morphemesI antioxydant Õ anti+oxydantI mouthwash Õ mouth+wash
I Equivalence morpheme lie → morpheme libreI tumorectomy Õ ablation (de la) tumeurI randomly Õ (de) maniere randomiseeI postmenopause Õ apres (la) menopause
I Ne pas necessairement conserver la frontiere de morpheme :I mouth+wash Õ bain (de) bouche
24 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Traitement de la fertilite [Delpech et al., 2012b]Propositions
I Decoupage en morphemesI antioxydant Õ anti+oxydantI mouthwash Õ mouth+wash
I Equivalence morpheme lie → morpheme libreI tumorectomy Õ ablation (de la) tumeurI randomly Õ (de) maniere randomiseeI postmenopause Õ apres (la) menopause
I Ne pas necessairement conserver la frontiere de morpheme :I mouth+wash Õ bain (de) bouche
24 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Traitement de la fertilite [Delpech et al., 2012b]Propositions
I Decoupage en morphemesI antioxydant Õ anti+oxydantI mouthwash Õ mouth+wash
I Equivalence morpheme lie → morpheme libreI tumorectomy Õ ablation (de la) tumeurI randomly Õ (de) maniere randomiseeI postmenopause Õ apres (la) menopause
I Ne pas necessairement conserver la frontiere de morpheme :I mouth+wash Õ bain (de) bouche
24 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Traitement de la fertilite
Limite : fertilite “de surface” (bijection entre morphemes sourceset cibles)
traite non traite
25 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Traitement de la fertilite
Limite : fertilite “de surface” (bijection entre morphemes sourceset cibles)
traite non traite
25 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Travaux existantsStructures traitees
I SN Õ SN [Robitaille et al., 2006, Leon, 2008]
I N N Õ N N [Baldwin and Tanaka, 2004]
I N Adj Õ N Adj ou N N [Morin and Daille, 2010]
I compose neoclassique Õ compose neoclassique[Harastani, 2014]
I prefixe Õ prefixe [Cartoni, 2009]
I compose nominal Õ compose nominal ou SN[Weller et al., 2011]
⇒ Ameliorer la genericite
26 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Travaux existantsStructures traitees
I SN Õ SN [Robitaille et al., 2006, Leon, 2008]
I N N Õ N N [Baldwin and Tanaka, 2004]
I N Adj Õ N Adj ou N N [Morin and Daille, 2010]
I compose neoclassique Õ compose neoclassique[Harastani, 2014]
I prefixe Õ prefixe [Cartoni, 2009]
I compose nominal Õ compose nominal ou SN[Weller et al., 2011]
⇒ Ameliorer la genericite
26 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Travaux existantsStructures traitees
I SN Õ SN [Robitaille et al., 2006, Leon, 2008]
I N N Õ N N [Baldwin and Tanaka, 2004]
I N Adj Õ N Adj ou N N [Morin and Daille, 2010]
I compose neoclassique Õ compose neoclassique[Harastani, 2014]
I prefixe Õ prefixe [Cartoni, 2009]
I compose nominal Õ compose nominal ou SN[Weller et al., 2011]
⇒ Ameliorer la genericite
26 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Travaux existantsStructures traitees
I SN Õ SN [Robitaille et al., 2006, Leon, 2008]
I N N Õ N N [Baldwin and Tanaka, 2004]
I N Adj Õ N Adj ou N N [Morin and Daille, 2010]
I compose neoclassique Õ compose neoclassique[Harastani, 2014]
I prefixe Õ prefixe [Cartoni, 2009]
I compose nominal Õ compose nominal ou SN[Weller et al., 2011]
⇒ Ameliorer la genericite
26 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Travaux existantsStructures traitees
I SN Õ SN [Robitaille et al., 2006, Leon, 2008]
I N N Õ N N [Baldwin and Tanaka, 2004]
I N Adj Õ N Adj ou N N [Morin and Daille, 2010]
I compose neoclassique Õ compose neoclassique[Harastani, 2014]
I prefixe Õ prefixe [Cartoni, 2009]
I compose nominal Õ compose nominal ou SN[Weller et al., 2011]
⇒ Ameliorer la genericite
26 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Travaux existantsStructures traitees
I SN Õ SN [Robitaille et al., 2006, Leon, 2008]
I N N Õ N N [Baldwin and Tanaka, 2004]
I N Adj Õ N Adj ou N N [Morin and Daille, 2010]
I compose neoclassique Õ compose neoclassique[Harastani, 2014]
I prefixe Õ prefixe [Cartoni, 2009]
I compose nominal Õ compose nominal ou SN[Weller et al., 2011]
⇒ Ameliorer la genericite
26 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Travaux existantsStructures traitees
I SN Õ SN [Robitaille et al., 2006, Leon, 2008]
I N N Õ N N [Baldwin and Tanaka, 2004]
I N Adj Õ N Adj ou N N [Morin and Daille, 2010]
I compose neoclassique Õ compose neoclassique[Harastani, 2014]
I prefixe Õ prefixe [Cartoni, 2009]
I compose nominal Õ compose nominal ou SN[Weller et al., 2011]
⇒ Ameliorer la genericite
26 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Travaux existantsStructures traitees
I SN Õ SN [Robitaille et al., 2006, Leon, 2008]
I N N Õ N N [Baldwin and Tanaka, 2004]
I N Adj Õ N Adj ou N N [Morin and Daille, 2010]
I compose neoclassique Õ compose neoclassique[Harastani, 2014]
I prefixe Õ prefixe [Cartoni, 2009]
I compose nominal Õ compose nominal ou SN[Weller et al., 2011]
⇒ Ameliorer la genericite
26 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Amelioration de la genericite
I Pas d’a priori sur les structures : pas de patrons de traductionsI Approche par “force brute”:
I generation de toutes les traductions possiblesI filtrage sur le corpus cible + ranking
27 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Amelioration de la genericite
I Pas d’a priori sur les structures : pas de patrons de traductions
I Approche par “force brute”:I generation de toutes les traductions possiblesI filtrage sur le corpus cible + ranking
27 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Amelioration de la genericite
I Pas d’a priori sur les structures : pas de patrons de traductionsI Approche par “force brute”:
I generation de toutes les traductions possiblesI filtrage sur le corpus cible + ranking
27 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Generation [Delpech et al., 2012a]
28 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Generation [Delpech et al., 2012a]
28 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Generation [Delpech et al., 2012a]
28 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Generation [Delpech et al., 2012a]
28 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Generation [Delpech et al., 2012a]
28 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Generation [Delpech et al., 2012a]
28 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Generation [Delpech et al., 2012a]
28 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Generation [Delpech et al., 2012a]
28 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Generation [Delpech et al., 2012a]
28 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Generation [Delpech et al., 2012a]
28 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Filtrage
cytotoxic↓
toxique cellule
↓toxique (prep|det|num|conj){0,3} cellule
Projection corpus :
I “...substance est toxique pour les cellules de cancer...”
I “...medicaments toxiques pour la cellule cancereuse...”
⇒toxique/Adj pour/Prep le/Det cellule/Nom
29 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Filtrage
cytotoxic↓
toxique cellule↓
toxique (prep|det|num|conj){0,3} cellule
Projection corpus :
I “...substance est toxique pour les cellules de cancer...”
I “...medicaments toxiques pour la cellule cancereuse...”
⇒toxique/Adj pour/Prep le/Det cellule/Nom
29 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Filtrage
cytotoxic↓
toxique cellule↓
toxique (prep|det|num|conj){0,3} cellule
Projection corpus :
I “...substance est toxique pour les cellules de cancer...”
I “...medicaments toxiques pour la cellule cancereuse...”
⇒toxique/Adj pour/Prep le/Det cellule/Nom
29 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Filtrage
cytotoxic↓
toxique cellule↓
toxique (prep|det|num|conj){0,3} cellule
Projection corpus :
I “...substance est toxique pour les cellules de cancer...”
I “...medicaments toxiques pour la cellule cancereuse...”
⇒toxique/Adj pour/Prep le/Det cellule/Nom
29 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Ranking multi-criteres [Delpech et al., 2012a]
C similarite des Contextes source et cible
F Frequence traduction
P probabilite traduction Parties du discours
M fiabilite Modes de traduction
I Combinaison : C + F + P + M apres standardisation
30 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Experimentation
I Corpus cancer du sein EN FR DE1, '400k mots par langue
I Traduction ENÕ FR et EN Õ DEI Unites monolexicales morphologiquement complexes
I composes neoclassiques : tumorectomyI composes populaires : docetaxel-inducedI prefixes : anti-oestrogenI suffixes : colourless
I Selection :I non traduites par le dictionnaire bilingueI traduction non presente dans le corpus cible
1en collaboration avec Claire Lemaire, Universite Stendhal, Grenoble31 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Experimentation
I Corpus cancer du sein EN FR DE1, '400k mots par langue
I Traduction ENÕ FR et EN Õ DEI Unites monolexicales morphologiquement complexes
I composes neoclassiques : tumorectomyI composes populaires : docetaxel-inducedI prefixes : anti-oestrogenI suffixes : colourless
I Selection :I non traduites par le dictionnaire bilingueI traduction non presente dans le corpus cible
1en collaboration avec Claire Lemaire, Universite Stendhal, Grenoble31 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Experimentation
I Corpus cancer du sein EN FR DE1, '400k mots par langue
I Traduction ENÕ FR et EN Õ DE
I Unites monolexicales morphologiquement complexesI composes neoclassiques : tumorectomyI composes populaires : docetaxel-inducedI prefixes : anti-oestrogenI suffixes : colourless
I Selection :I non traduites par le dictionnaire bilingueI traduction non presente dans le corpus cible
1en collaboration avec Claire Lemaire, Universite Stendhal, Grenoble31 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Experimentation
I Corpus cancer du sein EN FR DE1, '400k mots par langue
I Traduction ENÕ FR et EN Õ DEI Unites monolexicales morphologiquement complexes
I composes neoclassiques : tumorectomyI composes populaires : docetaxel-inducedI prefixes : anti-oestrogenI suffixes : colourless
I Selection :I non traduites par le dictionnaire bilingueI traduction non presente dans le corpus cible
1en collaboration avec Claire Lemaire, Universite Stendhal, Grenoble31 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Experimentation
I Corpus cancer du sein EN FR DE1, '400k mots par langue
I Traduction ENÕ FR et EN Õ DEI Unites monolexicales morphologiquement complexes
I composes neoclassiques : tumorectomyI composes populaires : docetaxel-inducedI prefixes : anti-oestrogenI suffixes : colourless
I Selection :I non traduites par le dictionnaire bilingueI traduction non presente dans le corpus cible
1en collaboration avec Claire Lemaire, Universite Stendhal, Grenoble31 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Evaluation a priori vs. a posteriori [Ozdowska, 2006]
A priori I utilisation d’un lexique de referenceI ideal pour comparaisonI evaluation du rappel⇒ vision biaisee des performances en situation
d’utilisation : traduction se trouve dans lapartie cible
A posteriori I annotation des sorties par des jugesI plus subjectifI seuls couverture et precision evaluables⇒ plus fidele a la performances en situation
d’utilisation
32 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Evaluation a priori vs. a posteriori [Ozdowska, 2006]
A priori I utilisation d’un lexique de referenceI ideal pour comparaisonI evaluation du rappel⇒ vision biaisee des performances en situation
d’utilisation : traduction se trouve dans lapartie cible
A posteriori I annotation des sorties par des jugesI plus subjectifI seuls couverture et precision evaluables⇒ plus fidele a la performances en situation
d’utilisation
32 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Evaluation a priori vs. a posteriori [Ozdowska, 2006]
A priori I utilisation d’un lexique de referenceI ideal pour comparaisonI evaluation du rappel⇒ vision biaisee des performances en situation
d’utilisation : traduction se trouve dans lapartie cible
A posteriori I annotation des sorties par des jugesI plus subjectifI seuls couverture et precision evaluables⇒ plus fidele a la performances en situation
d’utilisation
32 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Evaluation a prioriResultats
UMLSR Pmax P@1 alea P@1 rank F1 @1 rank
EN-FR .52 .80 .65 .75 .61
EN-DE .51 .70 .53 .58 .54
UMLS + annotations juges, ex. : bioavailable Õ biodisponibiliteR Pmax P@1 alea P@1 rank F1 @1 rank
EN-FR .63 .95 .92 .95 .76
EN-DE .66 .89 .81 .87 .75
33 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Evaluation a prioriResultats
UMLSR Pmax P@1 alea P@1 rank F1 @1 rank
EN-FR .52 .80 .65 .75 .61
EN-DE .51 .70 .53 .58 .54
UMLS + annotations juges, ex. : bioavailable Õ biodisponibiliteR Pmax P@1 alea P@1 rank F1 @1 rank
EN-FR .63 .95 .92 .95 .76
EN-DE .66 .89 .81 .87 .75
33 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Evaluation a prioriTravaux similaires
Compositionnelle P R F1[Robitaille et al., 2006] SN .81 .82 .81
[Baldwin and Tanaka, 2004] N N .51 .47 .49
+ trad. acceptables .78 .72 .75
[Cartoni, 2009] prefixes .42-.94
[Morin and Daille, 2010] N ADJ .88 .13 .23
[Harastani, 2014] neoclassique .95-1 .2-.12 .5-.22
ML P R F1[Claveau and Kijak, 2011] neoclassique .63 .45 .53
+ autres ressources .89 .64 .74
34 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Evaluation a posteriori
I Mesures :
PrecisionCouverture % termes sources avec au moins 1 traduction
(qq soit sa qualite)Utilisabilite % termes sources avec au moins 1 traduction
correcte (C× P)
I Resultats :
C P UEN-FR .40 .59 .24
EN-DE .36 .48 .18
PA UA
.69 .28
.56 .20
35 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Evaluation a posteriori
I Mesures :
PrecisionCouverture % termes sources avec au moins 1 traduction
(qq soit sa qualite)Utilisabilite % termes sources avec au moins 1 traduction
correcte (C× P)
I Resultats :
C P UEN-FR .40 .59 .24
EN-DE .36 .48 .18
PA UA
.69 .28
.56 .20
35 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Evaluation a posteriori
I Mesures :
Precision
Couverture % termes sources avec au moins 1 traduction(qq soit sa qualite)
Utilisabilite % termes sources avec au moins 1 traductioncorrecte (C× P)
I Resultats :
C P UEN-FR .40 .59 .24
EN-DE .36 .48 .18
PA UA
.69 .28
.56 .20
35 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Evaluation a posteriori
I Mesures :
PrecisionCouverture % termes sources avec au moins 1 traduction
(qq soit sa qualite)
Utilisabilite % termes sources avec au moins 1 traductioncorrecte (C× P)
I Resultats :
C P UEN-FR .40 .59 .24
EN-DE .36 .48 .18
PA UA
.69 .28
.56 .20
35 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Evaluation a posteriori
I Mesures :
PrecisionCouverture % termes sources avec au moins 1 traduction
(qq soit sa qualite)Utilisabilite % termes sources avec au moins 1 traduction
correcte (C× P)
I Resultats :
C P UEN-FR .40 .59 .24
EN-DE .36 .48 .18
PA UA
.69 .28
.56 .20
35 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Evaluation a posteriori
I Mesures :
PrecisionCouverture % termes sources avec au moins 1 traduction
(qq soit sa qualite)Utilisabilite % termes sources avec au moins 1 traduction
correcte (C× P)
I Resultats :
C P UEN-FR .40 .59 .24
EN-DE .36 .48 .18
PA UA
.69 .28
.56 .20
35 / 41
Traduction assistee par ordinateur et corpus comparables
3. Extraction de lexiques bilingues par l’approche compositionnelle
Evaluation a posteriori
I Mesures :
PrecisionCouverture % termes sources avec au moins 1 traduction
(qq soit sa qualite)Utilisabilite % termes sources avec au moins 1 traduction
correcte (C× P)
I Resultats :
C P UEN-FR .40 .59 .24
EN-DE .36 .48 .18
PA UA
.69 .28
.56 .20
35 / 41
Traduction assistee par ordinateur et corpus comparables
Conclusion
Plan
1. Methode classique d’extraction de lexiques bilingues a partir decorpus comparables
2. Evaluation applicative des lexiques bilingues destines a latraduction humaine
3. Extraction de lexiques bilingues par l’approche compositionnelle
Conclusion
36 / 41
Traduction assistee par ordinateur et corpus comparables
Conclusion
Peut-on utiliser les corpus comparables pour extraire deslexiques bilingues utiles pour les traducteurs ?
I Approche par similarite contextuelle :I forte couverture mais lexiques trop ambigus
I Approche compositionnelle :I reduit le nombre de traductions mais cantonnee aux elements
avec traduction compositionnelleI 20% a 28% avec une traduction correcte
37 / 41
Traduction assistee par ordinateur et corpus comparables
Conclusion
Tres ambitieux en l’etat actuel
I Lexique obtenu tres reduit ou trop ambiguI Difficile d’augmenter le corpus
I thematique fine, forte comparabiliteI peu de textes specialises
I Difficulte inherente aux corpus comparables :I seulement une partie du vocabulaire en commun
38 / 41
Traduction assistee par ordinateur et corpus comparables
Conclusion
Perspectives I
I Peu utile pour la phase de traduction proprement dite
I Utile pour :I phase d’exploration / familiarisation avec le domaine
[Durieux, 2010]I assistance a la consistution de ressources lexicales
specialisees/terminologiques
39 / 41
Traduction assistee par ordinateur et corpus comparables
Conclusion
Perspectives II
I Conclusion : aider a l’exploration de corpus comparablesI extraction, alignement de contextes pertinentsI outils de recherche avances, concordanciersI travailler avec les traducteurs/terminologues : automatiser les
techniques
I Projet ANR CRISTAL : extraction de contextes richesen connaissance dans les corpus comparables (LINA,Lingua et Machina, CLLE-ERSS, FTI)
40 / 41
Merci pour votre attention
Slides complementaires
Traduction assistee par ordinateur et corpus comparables
Taille donnees
Donnees evaluation
S termes sources
R reference a priori
P reference aposterioriR ∩ P 6= ∅
T donneesapprentissagerankkingT = P \ R
E donneesevaluation dumod rankingE = P ∩ R
43 / 41
Traduction assistee par ordinateur et corpus comparables
Taille donnees
Lexiques evaluation
EN-FR EN-DE
1839 1824
Table: Termes sources a traduire
EN-FR EN-DE
126 Õ 163 90 Õ 104
Table: Lexique evaluation a priori
EN-FR EN-DE
730 Õ 2129 654 Õ 2016
Table: Lexique evaluation a posteriori
44 / 41
Traduction assistee par ordinateur et corpus comparables
Apport modele generique
Genericite du modele : methodes testees
I Prefixation : pretreatment Õ pre-traitement
I Composition savante : hypercalcaemia Õ hypercalcemie
I Composition populaire : acute-phase Õ Akutphase, akutenPhase
I Cognat : t-test Õ t-Test
45 / 41
Traduction assistee par ordinateur et corpus comparables
Apport modele generique
Genericite du modele : resultats
I Composition savante, prefixation : methodes tres precises(>0.92) mais petite couverture (<0.03)
I Composition populaire : petite couverture, moyennementprecise (0.62 a 0.65)
I Cognats : meilleure couverture (0.10 a 0.13), precisionmoyenne a bonne (0.66 a 0.81)
I Notre methode :I large couverture : 0.36 a 0.40I precision moyenne : 0.68 a 0.56I utilisabilite meilleure : 0.20 a 0.28 vs. cognats 0.07 a 0.10
46 / 41
Genericite I
C PE UE PEA UEA
Composition savante (18%) ,03 ,95 ,03 1 ,03Cognat ,13 ,66 ,08 ,81 ,10Composition populaire (48 %) ,05 ,63 ,03 ,65 ,03Prefixation (31%) ,02 ,90 ,02 ,97 ,02
Notre methode ,40 ,59 ,24 ,69 ,28
Table: anglais Õ francais
Genericite II
C PE UE PEA UEA
Composition savante (18%) ,03 ,96 ,02 ,98 ,02Cognat ,10 ,58 ,06 ,66 ,07Composition populaire (49 %) ,04 ,55 ,02 ,62 ,03Prefixation (32%) ,03 ,86 ,02 ,92 ,03
Notre methode ,36 ,48 ,17 ,56 ,20
Table: anglais Õ allemand
Traduction assistee par ordinateur et corpus comparables
Apport modele generique
Genericite du modele : discussion
I Variation morphologique : pretreatment Õ pretraiter,cardiotoxicityÕ cardiotoxique, time-consumingÕ consommateur de temps
I Fertilite : pretreatment Õ avant le traitement,hypercalcaemia Õ zu viel calcium in das blut
I Cognats : aromatase-inhibiting Õ hemmung deraromatase‘inhibition de l’aromatase’
I Suffixes : colorless Õ sans colorant, randomly Õ (de)maniere randomisee
I Strategie de repli : ribosome Õ ribosomique
49 / 41
Traduction assistee par ordinateur et corpus comparables
Apport ressources linguistiques
Apport des ressources linguistiques
Systeme de base : dictionnaire generaliste et table de traductiondes morphemes
I Synonymes : pas adaptes (bloodstream Õ courant sanguinÕ circulation sanguine)
I Familles morphologiques : +0.09 a 0.11 de couverture ; +0.04a 0.06 d’utilisabilite
I Cognats : + 0.12 de couverture ; +0.06 a 0.09 d’utilisabilite
I Combinaison : + 0.17 a 0.24 couverture ; +0.10 a 0.16utilisabilite
50 / 41
Ressources linguistiques I
C PE UE PEA UEA
Base ,16 ,73 ,12 ,77 ,12Base + dictionnaire de cognats ,28 ,71 ,19 ,77 ,21Base + familles morphologiques ,27 ,56 ,15 ,66 ,18Base + dictionnaire synonymes ,17 ,69 ,12 ,72 ,13
Toutes les ressources ,40 ,59 ,24 ,69 ,28
Table: anglais Õ francais
Ressources linguistiques II
C PE UE PEA UEA
Base ,15 ,60 ,09 ,63 ,10Base + dictionnaire de cognats ,27 ,56 ,15 ,61 ,16Base + familles morphologiques ,24 ,48 ,12 ,57 ,14Base + dictionnaire synonymes ,17 ,55 ,09 ,60 ,10
Toutes les ressources ,36 ,48 ,17 ,56 ,20
Table: anglais Õ allemand
Traduction assistee par ordinateur et corpus comparables
Apport traductions fertiles
Apport des traductions fertiles
I Traductions fertiles nettement moins precises (-0.20 a -0.39)I Combinaison aux traductions non fertiles interessante (+6 a 10
points utilisabilite)
53 / 41
Traductions fertiles I
C PE UE PEA UEA
Traductions non fertiles ,24 ,58 ,14 ,75 ,18Traductions fertiles ,24 ,52 ,12 ,55 ,13
Traductions non fertiles ,24 ,58 ,14 ,75 ,18Toutes les traductions ,40 ,59 , 24 ,69 ,28
Table: anglais Õ francais
Traductions fertiles II
C PE UE PEA UEA
Traductions non fertiles ,24 ,58 ,14 ,69 ,16Traductions fertiles ,20 ,26 ,05 ,30 ,06
Traductions non fertiles ,24 ,58 ,14 ,69 ,16Toutes les traductions ,36 ,48 ,17 ,56 ,20
Table: anglais Õ allemand
Traduction assistee par ordinateur et corpus comparables
Experiences ranking
Nombre de traductions candidates
56 / 41
Traduction assistee par ordinateur et corpus comparables
Experiences ranking
Donnees experimentales
57 / 41
Traduction assistee par ordinateur et corpus comparables
Experiences ranking
Resultats
I Comparaison des criteres :I Contextes : moins bon critere (0.80 a 0.88 Top1)I Fiabilite des modes de traduction : meilleur critere (0.82 a
0.93 Top1)
I Meilleures methodes (0.85 a 0.93, +5 a 9 points vs. aleatoire,Top1) :
I Combinaison non pondereeI Combinaison pondereeI Coordinate Ascent, AdaRank
58 / 41
Traduction assistee par ordinateur et corpus comparables
Experiences ranking
Resultats anglais Õ francais
Top1 Top2 Top3 RPM
Meilleure precision possible ,94 ,94 ,94 1
Combinaison non ponderee ,928 ,94 ,94 2Combinaison ponderee ,928 ,94 ,94 2Coordinate Ascent ,928 ,94 ,94 2Lambda MART ,928 ,94 ,94 2M ,928 ,94 ,94 2F ,916 ,928 ,94 3
AdaRank ,892 ,904 ,928 4
P ,892 ,904 ,928 4
C ,88 ,904 ,928 4
Aleatoire ,836 ,898 ,928 13
59 / 41
Traduction assistee par ordinateur et corpus comparables
Experiences ranking
Resultats anglais Õ allemand
Top1 Top2 Top3 RPM
Meilleure precision possible ,879 ,879 ,879 1
Combinaison ponderee ,848 ,879 ,879 2Lambda MART ,848 ,864 ,864 5Combinaison non ponderee ,833 ,864 ,879 3Coordinate Ascent ,833 ,864 ,879 3F ,833 ,848 ,879 3AdaRank ,833 ,848 ,848 17
P ,833 ,848 ,848 17
M ,818 ,864 ,879 3C ,803 ,864 ,864 28
Aleatoire ,77 ,832 ,846 28
60 / 41
Traduction assistee par ordinateur et corpus comparables
References
Principales publications
I TheseFR Delpech (2013) : “Traduction assistee par ordinateur et corpus comparables”,
These de doctorat en Informatique, Universite de Nantes, France, 265 pages.EN Delpech (2014) : “Comparable Corpora and Computer-assisted Translation”, ISTE
Wiley, London, 287 pages.
I Evaluation applicativeFR, long Delpech (2011) : “Un protocole d’evaluation applicative des terminologies bilingues
destinees a la traduction specialisee”, Revue des Nouvelles Technologies del’Information (RNTI), vol. RNTI-E-22, pp. 23–48.
EN, court Delpech (2011) : “Evaluation of Terminologies acquired from Comparable Copora:an Application Perspective”, Proc. of the 18th Nordic Conference of ComputationalLinguistics (NODALIDA), pp. 66–73, Riga, Lettonie.
I Generation de lexiques bilinguesEN, Fertilite Delpech et al. (2012) : “Identification of Fertile Translation in Medical Comparable
Corpora”, 10th biennial Conference of the Association for Machine Translation inthe Americas (AMTA’12), 10 pages, San Diego, CA.
EN,Generation+Ranking Delpech et al. (2012) : “Extraction of domain-specific bilingual lexicon fromcomparable corpora: compositional translation and ranking”, Proc. of the 24thInternational Conference on Computational Linguistics, Long papers (COLING’12),pp. 745–762, Mumbia, India.
61 / 41
References I
Baker, M. (1996).
Corpus-based translation studies: The challenges that lie ahead.In Somers, H., editor, Terminology, LSP and Translation: Studies in Language Engineering in Honour ofJuan C. Sager. John Benjamins, Amsterdam, Pays-Bas et Philadelphia, Etats-Unis d’Amerique.
Baldwin, T. and Tanaka, T. (2004).
Translation by machine of complex nominals.In Proceedings of the ACL 2004 Workshop on Multiword expressions: Integrating Processing, pages 24–31,Barcelona, Spain.
Brown de Colstoun, F., Delpech, E., and Monneret, E. (2011).
Libellex : une plateforme multiservices pour la gestion des contenus multilingues.In Lafourcade, M. and Prince, V., editors, Actes de la 18eme conferences sur le traitement automatique deslangues naturelles, volume 2, page 319, Montpellier, France.
Carpuat, M., III, H. D., Fraser, A., Quirk, C., Braune, F., Clifton, A., Irvine, A., Jagarlamudi, J., Morgan,
J., Razmara, M., Tamchyna, A., Henry, K., and Rudinger, R. (2012).Domain adaptation in machine translation: Final report.In 2012 Johns Hopkins Summer Workshop Final Report.derniere consultation le 01/02/2013.
Cartoni, B. (2009).
Lexical morphology in machine translation: A feasibility study.In Proceedings of the 12th Conference of the European Chapter of the ACL, pages 130–138, Athenes, Grece.
Claveau, V. and Kijak, E. (2011).
Morphological analysis of biomedical terminology with Analogy-Based alignment.In Proceedings of the International Conference Recent Advances in Natural Language Processing 2011,pages 347–354, Hissar, Bulgaria.
References II
Delpech, E. (2011a).
Evaluation of terminologies acquired from comparable corpora : an application perspective.In Pedersen B.S., Nespore G., S. I., editor, Proceedings of the 18th Nordic Conference of ComputationalLinguistics (NODALIDA 2011), volume 11 of NEALT Proceedings Series,, pages 66–73, Riga, Latvia.
Delpech, E. (2011b).
Un protocole d’evaluation applicative des terminologies bilingues destinees a la traduction specialisee.Revue des Nouvelles Technologies de l’Information (RNTI) - Numero special : Evaluation des methodesd’Extraction de Connaissances dans les Donnees (Eval’ECD).
Delpech, E. and Daille, B. (2010).
Dealing with lexicon acquired from comparable corpora : validation and exchange.In Proceedings of the 2010 Terminology and Knowledge Engineering Conference (TKE 2010), pages211–223, Dublin, Ireland.
Delpech, E., Daille, B., Morin, E., and Lemaire, C. (2012a).
Extraction of domain-specific bilingual lexicon from comparable corpora: a compositional translation andranking.In Proceedings of the 24th International Conference on Computational Linguistics, pages 745–762, Mumbai,Inde.
Delpech, E., Daille, B., Morin, E., and Lemaire, C. (2012b).
Identification of fertile translations in medical comparable corpora: a morpho-compositional approach.In Proceedings of the 10th biennial conference of the Association for Machine Translation in the Americas,San Diego, California.
Durieux, C. (2010).
Fondement didactique de la traduction technique.La maison du dictionnaire, Paris, France.
References III
Friedbichler, I. and Friedbichler, M. (1997).
The potential of domain-specific target-language corpora for the translator’s workbench.In First international conference on Corpus Use and Learning to Translate, Bertinoro, Italie.
Fung, P. (1997).
Finding terminology translations from non-parallel corpora.In Proceedings of the 5th Annual Workshop on Very Large Corpora, pages 192–202, Hong Kong.
Harastani, R. (2014).
Alignement lexical en corpus comparables : le cas des composes savants et des adjectifs relationnels.These de doctorat en informatique, Universite de Nantes, Nantes, France.
Leon, S. (2008).
Acquisition automatique de traductions d’unites lexicales complexes a partir du Web.These en sciences du langage - traitement automatique des langues, Universite de Provence - Aix-MarseilleI, Marseille, France.
Li, B., Gaussier, E., Morin, E., and Hazem, A. (2011).
Degre de comparabilite, extraction lexicale et recherche d’information interlingue.In Actes de la 18eme conferences sur le traitement automatique des langues naturelles, pages 283–293,Montpellier, France.
Mc Enery, A. M. and Xiao, R. Z. (2007).
Parallel and comparable corpora: What is happening?In G. Anderman, M. R., editor, Incorporating Corpora: The Linguist and the Translator., TranslatingEurope, pages 18–31. Multilingual Matters, Clevedon, UK.
Morin, E. and Daille, B. (2010).
Compositionality and lexical alignment of multi-word terms.In Rayson, P., Piao, S., Sharoff, S., Evert, S., and B., V., editors, Language Resources and Evaluation(LRE), volume 44 of Multiword expression: hard going or plain sailing, pages 79–95. Springer Netherlands.
References IV
Namer, F. and Baud, R. (2007).
Defining and relating biomedical terms: Towards a cross-language morphosemantics-based system.International Journal of Medical Informatics, 76(2-3):226–33.
Ozdowska, S. (2006).
ALIBI, un systeme d’ALIgnement BIlingue a base de regles de propapagation syntaxique.These de doctorat en sciences du langage, Universite Toulouse II Le Mirail, Toulouse, France.
Rapp, R. (1999).
Automatic Identification of Word Translations from Unrelated English and German Corpora.In Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics (ACL’99),pages 519–526, College Park, MD, USA.
Robitaille, X., Sasaki, X., Tonoike, M., Sato, S., and Utsuro, S. (2006).
Compiling French-Japanese terminologies from the web.In Proceedings of the 11th Conference of the European Chapter of the Association for ComputationalLinguistics, pages 225–232, Trento, Italy.
S. Vintar (2010).
Bilingual term recognition revisited the bag-of-equivalents term alignment approach and its evaluation.Terminology, 16(2):141–158.
Weller, M., Gojun, A., Heid, U., Daille, B., and Harastani, R. (2011).
Simple methods for dealing with term variation and term alignment.In Proceedings of the 9th International Conference on Terminology and Artificial Intelligence, pages 87–93,Paris, France.
Zanettin, F. (1998).
Bilingual comparable corpora and the training of translators.Meta : journal des traducteurs / Meta: Translator’s Journal, 43(4):616–630.