invited speaker, atala 2014 ph. d. thesis award

133
Traduction assist´ ee par ordinateur et corpus comparables Conf´ erence invit´ ee : Prix de th` ese ATALA 2014 Estelle Delpech Responsable scientifique, Nomao www.nomao.com/labs Travaux de th` ese effectu´ es au LINA sous la direction de B. Daille et E. Morin TALN’14 – 2 juillet 2014 – Marseille, France

Upload: estelle-delpech

Post on 04-Jun-2015

324 views

Category:

Technology


3 download

TRANSCRIPT

Page 1: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpuscomparables

Conference invitee : Prix de these ATALA 2014

Estelle DelpechResponsable scientifique, Nomao

www.nomao.com/labs

Travaux de these effectues au LINA sous la direction de B. Daille et E. Morin

TALN’14 – 2 juillet 2014 – Marseille, France

Page 2: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

Introduction

Contexte

Lingua et Machina logiciels de Traduction Assistee par Ordinateuret Traduction Automatique[Brown de Colstoun et al., 2011]

ANR Metricc exploitation des corpus comparables pour:

I recherche d’information interlingueI categorisation multilingueI traduction assistee par ordinateur

2 / 41

Page 3: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

Introduction

La Traduction Assistee par Ordinateur (TAO)

TAO Technologies permettant aux humains de mieuxtraduire

I pre-traductionI logiciels de gestion terminologiqueI memoires de traduction

6= TA Traduction sans intervention humaine

3 / 41

Page 4: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

Introduction

Materiau de base : historique de traductions (corpusparallele)

4 / 41

Page 5: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

Introduction

Limite des corpus paralleles

I DisponibiliteI nouveaux domaines ?I langues peu dotees ?

I Risque qualitatifI Partie Cible : variante de la langue cible appelee translecte

(“translationese”)[Baker, 1996, Zanettin, 1998, Mc Enery and Xiao, 2007]

5 / 41

Page 6: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

Introduction

Solution possible : corpus comparables

Texte FR cancer du sein Texte EN cancer du sein

Ipsen is participating in studiesconducted under the auspices of theIBCSG for the treatment ofpremenopausal breast cancer. Thesestudies compare conventionaltreatment methods with hormonetherapy combining Decapeptyl R©with estrogen suppressor agents.Their findings could lead to arevision of treatment guidelines forbreast cancer in pre-menopausalwomen expressing hormonalreceptors.

HormonotherapieDans environ deux tiers des cancersdu sein, les cellules cancereusespresentent des recepteurshormonaux en exces. La tumeur estalors dite hormonosensible car lesœstrogenes stimulent la proliferationcancereuse par l’intermediaire desrecepteurs. Les traitements agirontsoit en diminuant le tauxd’œstrogenes dans le sang, soit enbloquant les recepteurs hormonaux

6 / 41

Page 7: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

Introduction

Solution possible : corpus comparables

Texte FR cancer du sein Texte EN cancer du sein

Ipsen is participating in studiesconducted under the auspices of theIBCSG for the treatment ofpremenopausal breast cancer.These studies compare conventionaltreatment methods with hormonetherapy combining Decapeptyl R©with estrogen suppressor agents.Their findings could lead to arevision of treatment guidelines forbreast cancer in pre-menopausalwomen expressing hormonalreceptors.

HormonotherapieDans environ deux tiers des cancersdu sein, les cellules cancereusespresentent des recepteurshormonaux en exces. La tumeur estalors dite hormonosensible car lesœstrogenes stimulent laproliferation cancereuse parl’intermediaire des recepteurs. Lestraitements agiront soit endiminuant le taux d’œstrogenes dansle sang, soit en bloquant lesrecepteurs hormonaux

6 / 41

Page 8: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

Introduction

Exploitation des corpus comparables

TA extraction de lexiques pour l’adaptation au domaine :+0.02 a 0.03 BLEU [Carpuat et al., 2012]

CLIR augmentation du lexique bilingue utilise par lesysteme de RI : +0.016 MAP [Li et al., 2011]

Traduction non assistee ameliorations qualitatives[Zanettin, 1998, Friedbichler and Friedbichler, 1997,Mc Enery and Xiao, 2007]

TAO ?

7 / 41

Page 9: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

Introduction

Exploitation des corpus comparables

TA extraction de lexiques pour l’adaptation au domaine :+0.02 a 0.03 BLEU [Carpuat et al., 2012]

CLIR augmentation du lexique bilingue utilise par lesysteme de RI : +0.016 MAP [Li et al., 2011]

Traduction non assistee ameliorations qualitatives[Zanettin, 1998, Friedbichler and Friedbichler, 1997,Mc Enery and Xiao, 2007]

TAO ?

7 / 41

Page 10: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

Introduction

Exploitation des corpus comparables

TA extraction de lexiques pour l’adaptation au domaine :+0.02 a 0.03 BLEU [Carpuat et al., 2012]

CLIR augmentation du lexique bilingue utilise par lesysteme de RI : +0.016 MAP [Li et al., 2011]

Traduction non assistee ameliorations qualitatives[Zanettin, 1998, Friedbichler and Friedbichler, 1997,Mc Enery and Xiao, 2007]

TAO ?

7 / 41

Page 11: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

Introduction

Exploitation des corpus comparables

TA extraction de lexiques pour l’adaptation au domaine :+0.02 a 0.03 BLEU [Carpuat et al., 2012]

CLIR augmentation du lexique bilingue utilise par lesysteme de RI : +0.016 MAP [Li et al., 2011]

Traduction non assistee ameliorations qualitatives[Zanettin, 1998, Friedbichler and Friedbichler, 1997,Mc Enery and Xiao, 2007]

TAO ?

7 / 41

Page 12: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

Introduction

Exploitation des corpus comparables

TA extraction de lexiques pour l’adaptation au domaine :+0.02 a 0.03 BLEU [Carpuat et al., 2012]

CLIR augmentation du lexique bilingue utilise par lesysteme de RI : +0.016 MAP [Li et al., 2011]

Traduction non assistee ameliorations qualitatives[Zanettin, 1998, Friedbichler and Friedbichler, 1997,Mc Enery and Xiao, 2007]

TAO ?

7 / 41

Page 13: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

Introduction

Objectifs de la these

1. Evaluer l’interet des corpus comparables pour la TAO

2. Ameliorer/Proposer des modalites d’exploitation pour la TAO

8 / 41

Page 14: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

Introduction

Plan

1. Methode classique d’extraction de lexiques bilingues a partir decorpus comparables

2. Evaluation applicative des lexiques bilingues destines a latraduction humaine

3. Extraction de lexiques bilingues par l’approche compositionnelle

Conclusion

9 / 41

Page 15: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

1. Methode classique d’extraction de lexiques bilingues a partir de corpus comparables

Plan

1. Methode classique d’extraction de lexiques bilingues a partir decorpus comparables

2. Evaluation applicative des lexiques bilingues destines a latraduction humaine

3. Extraction de lexiques bilingues par l’approche compositionnelle

Conclusion

10 / 41

Page 16: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

1. Methode classique d’extraction de lexiques bilingues a partir de corpus comparables

Methode d’extraction classique

11 / 41

Page 17: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

1. Methode classique d’extraction de lexiques bilingues a partir de corpus comparables

Alignement par similarite contextuelle

I Premiers travaux : [Rapp, 1999, Fung, 1997]

I Hypothese distributionnelle : deux mots de sens prochetendent a apparaıtre dans des contextes similaires

biallelic : {instability : 5.14, tamoxifen: 2.13, cell-type: 2.1 ...}{instabilite: 5.14, tamoxifene: 2.13, ?: 2.1 ...}

l calcul similarite : 0.34

biallelique : {instabilite: 5.78, traitement : 6.33, tamoxifene: 1.2 ...}

12 / 41

Page 18: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

1. Methode classique d’extraction de lexiques bilingues a partir de corpus comparables

Alignement par similarite contextuelle

I Premiers travaux : [Rapp, 1999, Fung, 1997]

I Hypothese distributionnelle : deux mots de sens prochetendent a apparaıtre dans des contextes similaires

biallelic : {instability : 5.14, tamoxifen: 2.13, cell-type: 2.1 ...}

{instabilite: 5.14, tamoxifene: 2.13, ?: 2.1 ...}

l calcul similarite : 0.34

biallelique : {instabilite: 5.78, traitement : 6.33, tamoxifene: 1.2 ...}

12 / 41

Page 19: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

1. Methode classique d’extraction de lexiques bilingues a partir de corpus comparables

Alignement par similarite contextuelle

I Premiers travaux : [Rapp, 1999, Fung, 1997]

I Hypothese distributionnelle : deux mots de sens prochetendent a apparaıtre dans des contextes similaires

biallelic : {instability : 5.14, tamoxifen: 2.13, cell-type: 2.1 ...}

{instabilite: 5.14, tamoxifene: 2.13, ?: 2.1 ...}

l calcul similarite : 0.34

biallelique : {instabilite: 5.78, traitement : 6.33, tamoxifene: 1.2 ...}

12 / 41

Page 20: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

1. Methode classique d’extraction de lexiques bilingues a partir de corpus comparables

Alignement par similarite contextuelle

I Premiers travaux : [Rapp, 1999, Fung, 1997]

I Hypothese distributionnelle : deux mots de sens prochetendent a apparaıtre dans des contextes similaires

biallelic : {instability : 5.14, tamoxifen: 2.13, cell-type: 2.1 ...}{instabilite: 5.14, tamoxifene: 2.13, ?: 2.1 ...}

l calcul similarite : 0.34

biallelique : {instabilite: 5.78, traitement : 6.33, tamoxifene: 1.2 ...}

12 / 41

Page 21: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

1. Methode classique d’extraction de lexiques bilingues a partir de corpus comparables

Alignement par similarite contextuelle

I Premiers travaux : [Rapp, 1999, Fung, 1997]

I Hypothese distributionnelle : deux mots de sens prochetendent a apparaıtre dans des contextes similaires

biallelic : {instability : 5.14, tamoxifen: 2.13, cell-type: 2.1 ...}{instabilite: 5.14, tamoxifene: 2.13, ?: 2.1 ...}

l calcul similarite : 0.34

biallelique : {instabilite: 5.78, traitement : 6.33, tamoxifene: 1.2 ...}

12 / 41

Page 22: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

1. Methode classique d’extraction de lexiques bilingues a partir de corpus comparables

Evaluation et performances

I Precision sur le TopN : % de termes avec un traductioncorrecte parmi les N premieres traductions candidates

I Corpus specialises <700k mots : 41% a 76% sur Top20I Difficulte (vs. corpus paralleles) :

I espace de recherche tres vasteI traduction peut etre absente

I Evaluation par reference :I capacite a reproduire un lexique construit a prioriI quid de l’apport en contexte d’utilisation reel ?

13 / 41

Page 23: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

1. Methode classique d’extraction de lexiques bilingues a partir de corpus comparables

Evaluation et performances

I Precision sur le TopN : % de termes avec un traductioncorrecte parmi les N premieres traductions candidates

I Corpus specialises <700k mots : 41% a 76% sur Top20I Difficulte (vs. corpus paralleles) :

I espace de recherche tres vasteI traduction peut etre absente

I Evaluation par reference :I capacite a reproduire un lexique construit a prioriI quid de l’apport en contexte d’utilisation reel ?

13 / 41

Page 24: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

1. Methode classique d’extraction de lexiques bilingues a partir de corpus comparables

Evaluation et performances

I Precision sur le TopN : % de termes avec un traductioncorrecte parmi les N premieres traductions candidates

I Corpus specialises <700k mots : 41% a 76% sur Top20

I Difficulte (vs. corpus paralleles) :I espace de recherche tres vasteI traduction peut etre absente

I Evaluation par reference :I capacite a reproduire un lexique construit a prioriI quid de l’apport en contexte d’utilisation reel ?

13 / 41

Page 25: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

1. Methode classique d’extraction de lexiques bilingues a partir de corpus comparables

Evaluation et performances

I Precision sur le TopN : % de termes avec un traductioncorrecte parmi les N premieres traductions candidates

I Corpus specialises <700k mots : 41% a 76% sur Top20I Difficulte (vs. corpus paralleles) :

I espace de recherche tres vasteI traduction peut etre absente

I Evaluation par reference :I capacite a reproduire un lexique construit a prioriI quid de l’apport en contexte d’utilisation reel ?

13 / 41

Page 26: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

1. Methode classique d’extraction de lexiques bilingues a partir de corpus comparables

Evaluation et performances

I Precision sur le TopN : % de termes avec un traductioncorrecte parmi les N premieres traductions candidates

I Corpus specialises <700k mots : 41% a 76% sur Top20I Difficulte (vs. corpus paralleles) :

I espace de recherche tres vasteI traduction peut etre absente

I Evaluation par reference :I capacite a reproduire un lexique construit a prioriI quid de l’apport en contexte d’utilisation reel ?

13 / 41

Page 27: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

2. Evaluation applicative des lexiques bilingues destines a la traduction humaine

Plan

1. Methode classique d’extraction de lexiques bilingues a partir decorpus comparables

2. Evaluation applicative des lexiques bilingues destines a latraduction humaine

3. Extraction de lexiques bilingues par l’approche compositionnelle

Conclusion

14 / 41

Page 28: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

2. Evaluation applicative des lexiques bilingues destines a la traduction humaine

Lexique evalue

I Extrait d’un corpus comparable cancer du sein EN-FR

I Interface riche [Delpech and Daille, 2010]: acces auxcontextes, recherche en corpus, variantes orthographiques,termes proches, frequence, etc.

15 / 41

Page 29: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

2. Evaluation applicative des lexiques bilingues destines a la traduction humaine

Methodologie d’evaluation[Delpech, 2011a, Delpech, 2011b]

16 / 41

Page 30: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

2. Evaluation applicative des lexiques bilingues destines a la traduction humaine

Methodologie d’evaluation

I Objet evalue : expressions problematiques

I Mesure : % de traductions exactes, acceptables, fausses

17 / 41

Page 31: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

2. Evaluation applicative des lexiques bilingues destines a la traduction humaine

Resultats

18 / 41

Page 32: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

2. Evaluation applicative des lexiques bilingues destines a la traduction humaine

Difficultes d’usage et resistances

I Trop de termes sources non couverts

⇒ collecte du corpus

I Pas assez d’information pour choisir la bonne traduction

⇒ contextualiser les traductions

I Pas assez precis, trop de traductions candidates

⇒ diminuer le nombre de traductions⇒ approche compositionnelle [Morin and Daille, 2010]

19 / 41

Page 33: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

2. Evaluation applicative des lexiques bilingues destines a la traduction humaine

Difficultes d’usage et resistances

I Trop de termes sources non couverts

⇒ collecte du corpus

I Pas assez d’information pour choisir la bonne traduction

⇒ contextualiser les traductions

I Pas assez precis, trop de traductions candidates

⇒ diminuer le nombre de traductions⇒ approche compositionnelle [Morin and Daille, 2010]

19 / 41

Page 34: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

2. Evaluation applicative des lexiques bilingues destines a la traduction humaine

Difficultes d’usage et resistances

I Trop de termes sources non couverts

⇒ collecte du corpus

I Pas assez d’information pour choisir la bonne traduction

⇒ contextualiser les traductions

I Pas assez precis, trop de traductions candidates

⇒ diminuer le nombre de traductions⇒ approche compositionnelle [Morin and Daille, 2010]

19 / 41

Page 35: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

2. Evaluation applicative des lexiques bilingues destines a la traduction humaine

Difficultes d’usage et resistances

I Trop de termes sources non couverts

⇒ collecte du corpus

I Pas assez d’information pour choisir la bonne traduction

⇒ contextualiser les traductions

I Pas assez precis, trop de traductions candidates

⇒ diminuer le nombre de traductions⇒ approche compositionnelle [Morin and Daille, 2010]

19 / 41

Page 36: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Plan

1. Methode classique d’extraction de lexiques bilingues a partir decorpus comparables

2. Evaluation applicative des lexiques bilingues destines a latraduction humaine

3. Extraction de lexiques bilingues par l’approche compositionnelle

Conclusion

20 / 41

Page 37: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Principe

“ab” “blue dye”Decomposition {a, b} {blue, dye}

Traduction {A, B} {bleu, colorant}Recomposition {AB, BA} {bleu colorant, colorant bleu}Selection “BA” “colorant bleu”

21 / 41

Page 38: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Principe

“ab” “blue dye”

Decomposition {a, b} {blue, dye}Traduction {A, B} {bleu, colorant}Recomposition {AB, BA} {bleu colorant, colorant bleu}Selection “BA” “colorant bleu”

21 / 41

Page 39: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Principe

“ab” “blue dye”Decomposition {a, b} {blue, dye}

Traduction {A, B} {bleu, colorant}Recomposition {AB, BA} {bleu colorant, colorant bleu}Selection “BA” “colorant bleu”

21 / 41

Page 40: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Principe

“ab” “blue dye”Decomposition {a, b} {blue, dye}

Traduction {A, B} {bleu, colorant}

Recomposition {AB, BA} {bleu colorant, colorant bleu}Selection “BA” “colorant bleu”

21 / 41

Page 41: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Principe

“ab” “blue dye”Decomposition {a, b} {blue, dye}

Traduction {A, B} {bleu, colorant}Recomposition {AB, BA} {bleu colorant, colorant bleu}

Selection “BA” “colorant bleu”

21 / 41

Page 42: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Principe

“ab” “blue dye”Decomposition {a, b} {blue, dye}

Traduction {A, B} {bleu, colorant}Recomposition {AB, BA} {bleu colorant, colorant bleu}Selection “BA” “colorant bleu”

21 / 41

Page 43: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Interet pour les corpus comparables

I Peu/pas dependant de la frequence des termes

I Meilleure precision : 88% sur Top1 vs. 20% sur Top20[Morin and Daille, 2010]

I Concerne de nombreux cas :I 60% des nouveaux termes sont complexes

[Namer and Baud, 2007]I 48,7% des composes Nom Nom ont une traduction

compositionnelle [?]I 75,1% des unites polylexicales ont une traduction

compositionnelle [Robitaille et al., 2006]

22 / 41

Page 44: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Interet pour les corpus comparables

I Peu/pas dependant de la frequence des termes

I Meilleure precision : 88% sur Top1 vs. 20% sur Top20[Morin and Daille, 2010]

I Concerne de nombreux cas :I 60% des nouveaux termes sont complexes

[Namer and Baud, 2007]I 48,7% des composes Nom Nom ont une traduction

compositionnelle [?]I 75,1% des unites polylexicales ont une traduction

compositionnelle [Robitaille et al., 2006]

22 / 41

Page 45: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Interet pour les corpus comparables

I Peu/pas dependant de la frequence des termes

I Meilleure precision : 88% sur Top1 vs. 20% sur Top20[Morin and Daille, 2010]

I Concerne de nombreux cas :I 60% des nouveaux termes sont complexes

[Namer and Baud, 2007]I 48,7% des composes Nom Nom ont une traduction

compositionnelle [?]I 75,1% des unites polylexicales ont une traduction

compositionnelle [Robitaille et al., 2006]

22 / 41

Page 46: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Interet pour les corpus comparables

I Peu/pas dependant de la frequence des termes

I Meilleure precision : 88% sur Top1 vs. 20% sur Top20[Morin and Daille, 2010]

I Concerne de nombreux cas :I 60% des nouveaux termes sont complexes

[Namer and Baud, 2007]I 48,7% des composes Nom Nom ont une traduction

compositionnelle [?]I 75,1% des unites polylexicales ont une traduction

compositionnelle [Robitaille et al., 2006]

22 / 41

Page 47: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Travaux existantsGestion de la variation

I Morpho-syntaxique [Cartoni, 2009, Morin and Daille, 2010]I gene therapy Õ therapie genique

I Divergence lexicale [Robitaille et al., 2006, S. Vintar, 2010]I machine translation Õ traduction automatique

I Fertilite :

I composes nominaux allemands Õ SN [Weller et al., 2011]I [ML] composes neoclassiques [Claveau and Kijak, 2011] :

alignements de type 菌 Õ {bacterie, bacterio, bacteri}

⇒ Ameliorer le traitement de la fertilite dans l’approchecompositionnelle

23 / 41

Page 48: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Travaux existantsGestion de la variation

I Morpho-syntaxique [Cartoni, 2009, Morin and Daille, 2010]I gene therapy Õ therapie genique

I Divergence lexicale [Robitaille et al., 2006, S. Vintar, 2010]I machine translation Õ traduction automatique

I Fertilite :

I composes nominaux allemands Õ SN [Weller et al., 2011]I [ML] composes neoclassiques [Claveau and Kijak, 2011] :

alignements de type 菌 Õ {bacterie, bacterio, bacteri}

⇒ Ameliorer le traitement de la fertilite dans l’approchecompositionnelle

23 / 41

Page 49: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Travaux existantsGestion de la variation

I Morpho-syntaxique [Cartoni, 2009, Morin and Daille, 2010]I gene therapy Õ therapie genique

I Divergence lexicale [Robitaille et al., 2006, S. Vintar, 2010]I machine translation Õ traduction automatique

I Fertilite :

I composes nominaux allemands Õ SN [Weller et al., 2011]I [ML] composes neoclassiques [Claveau and Kijak, 2011] :

alignements de type 菌 Õ {bacterie, bacterio, bacteri}

⇒ Ameliorer le traitement de la fertilite dans l’approchecompositionnelle

23 / 41

Page 50: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Travaux existantsGestion de la variation

I Morpho-syntaxique [Cartoni, 2009, Morin and Daille, 2010]I gene therapy Õ therapie genique

I Divergence lexicale [Robitaille et al., 2006, S. Vintar, 2010]I machine translation Õ traduction automatique

I Fertilite :

I composes nominaux allemands Õ SN [Weller et al., 2011]I [ML] composes neoclassiques [Claveau and Kijak, 2011] :

alignements de type 菌 Õ {bacterie, bacterio, bacteri}⇒ Ameliorer le traitement de la fertilite dans l’approche

compositionnelle

23 / 41

Page 51: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Travaux existantsGestion de la variation

I Morpho-syntaxique [Cartoni, 2009, Morin and Daille, 2010]I gene therapy Õ therapie genique

I Divergence lexicale [Robitaille et al., 2006, S. Vintar, 2010]I machine translation Õ traduction automatique

I Fertilite :I composes nominaux allemands Õ SN [Weller et al., 2011]

I [ML] composes neoclassiques [Claveau and Kijak, 2011] :alignements de type 菌 Õ {bacterie, bacterio, bacteri}

⇒ Ameliorer le traitement de la fertilite dans l’approchecompositionnelle

23 / 41

Page 52: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Travaux existantsGestion de la variation

I Morpho-syntaxique [Cartoni, 2009, Morin and Daille, 2010]I gene therapy Õ therapie genique

I Divergence lexicale [Robitaille et al., 2006, S. Vintar, 2010]I machine translation Õ traduction automatique

I Fertilite :I composes nominaux allemands Õ SN [Weller et al., 2011]I [ML] composes neoclassiques [Claveau and Kijak, 2011] :

alignements de type 菌 Õ {bacterie, bacterio, bacteri}

⇒ Ameliorer le traitement de la fertilite dans l’approchecompositionnelle

23 / 41

Page 53: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Travaux existantsGestion de la variation

I Morpho-syntaxique [Cartoni, 2009, Morin and Daille, 2010]I gene therapy Õ therapie genique

I Divergence lexicale [Robitaille et al., 2006, S. Vintar, 2010]I machine translation Õ traduction automatique

I Fertilite :I composes nominaux allemands Õ SN [Weller et al., 2011]I [ML] composes neoclassiques [Claveau and Kijak, 2011] :

alignements de type 菌 Õ {bacterie, bacterio, bacteri}⇒ Ameliorer le traitement de la fertilite dans l’approche

compositionnelle

23 / 41

Page 54: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Traitement de la fertilite [Delpech et al., 2012b]Propositions

I Decoupage en morphemesI antioxydant Õ anti+oxydantI mouthwash Õ mouth+wash

I Equivalence morpheme lie → morpheme libreI tumorectomy Õ ablation (de la) tumeurI randomly Õ (de) maniere randomiseeI postmenopause Õ apres (la) menopause

I Ne pas necessairement conserver la frontiere de morpheme :I mouth+wash Õ bain (de) bouche

24 / 41

Page 55: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Traitement de la fertilite [Delpech et al., 2012b]Propositions

I Decoupage en morphemesI antioxydant Õ anti+oxydantI mouthwash Õ mouth+wash

I Equivalence morpheme lie → morpheme libreI tumorectomy Õ ablation (de la) tumeurI randomly Õ (de) maniere randomiseeI postmenopause Õ apres (la) menopause

I Ne pas necessairement conserver la frontiere de morpheme :I mouth+wash Õ bain (de) bouche

24 / 41

Page 56: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Traitement de la fertilite [Delpech et al., 2012b]Propositions

I Decoupage en morphemesI antioxydant Õ anti+oxydantI mouthwash Õ mouth+wash

I Equivalence morpheme lie → morpheme libreI tumorectomy Õ ablation (de la) tumeurI randomly Õ (de) maniere randomiseeI postmenopause Õ apres (la) menopause

I Ne pas necessairement conserver la frontiere de morpheme :I mouth+wash Õ bain (de) bouche

24 / 41

Page 57: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Traitement de la fertilite [Delpech et al., 2012b]Propositions

I Decoupage en morphemesI antioxydant Õ anti+oxydantI mouthwash Õ mouth+wash

I Equivalence morpheme lie → morpheme libreI tumorectomy Õ ablation (de la) tumeurI randomly Õ (de) maniere randomiseeI postmenopause Õ apres (la) menopause

I Ne pas necessairement conserver la frontiere de morpheme :I mouth+wash Õ bain (de) bouche

24 / 41

Page 58: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Traitement de la fertilite

Limite : fertilite “de surface” (bijection entre morphemes sourceset cibles)

traite non traite

25 / 41

Page 59: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Traitement de la fertilite

Limite : fertilite “de surface” (bijection entre morphemes sourceset cibles)

traite non traite

25 / 41

Page 60: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Travaux existantsStructures traitees

I SN Õ SN [Robitaille et al., 2006, Leon, 2008]

I N N Õ N N [Baldwin and Tanaka, 2004]

I N Adj Õ N Adj ou N N [Morin and Daille, 2010]

I compose neoclassique Õ compose neoclassique[Harastani, 2014]

I prefixe Õ prefixe [Cartoni, 2009]

I compose nominal Õ compose nominal ou SN[Weller et al., 2011]

⇒ Ameliorer la genericite

26 / 41

Page 61: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Travaux existantsStructures traitees

I SN Õ SN [Robitaille et al., 2006, Leon, 2008]

I N N Õ N N [Baldwin and Tanaka, 2004]

I N Adj Õ N Adj ou N N [Morin and Daille, 2010]

I compose neoclassique Õ compose neoclassique[Harastani, 2014]

I prefixe Õ prefixe [Cartoni, 2009]

I compose nominal Õ compose nominal ou SN[Weller et al., 2011]

⇒ Ameliorer la genericite

26 / 41

Page 62: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Travaux existantsStructures traitees

I SN Õ SN [Robitaille et al., 2006, Leon, 2008]

I N N Õ N N [Baldwin and Tanaka, 2004]

I N Adj Õ N Adj ou N N [Morin and Daille, 2010]

I compose neoclassique Õ compose neoclassique[Harastani, 2014]

I prefixe Õ prefixe [Cartoni, 2009]

I compose nominal Õ compose nominal ou SN[Weller et al., 2011]

⇒ Ameliorer la genericite

26 / 41

Page 63: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Travaux existantsStructures traitees

I SN Õ SN [Robitaille et al., 2006, Leon, 2008]

I N N Õ N N [Baldwin and Tanaka, 2004]

I N Adj Õ N Adj ou N N [Morin and Daille, 2010]

I compose neoclassique Õ compose neoclassique[Harastani, 2014]

I prefixe Õ prefixe [Cartoni, 2009]

I compose nominal Õ compose nominal ou SN[Weller et al., 2011]

⇒ Ameliorer la genericite

26 / 41

Page 64: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Travaux existantsStructures traitees

I SN Õ SN [Robitaille et al., 2006, Leon, 2008]

I N N Õ N N [Baldwin and Tanaka, 2004]

I N Adj Õ N Adj ou N N [Morin and Daille, 2010]

I compose neoclassique Õ compose neoclassique[Harastani, 2014]

I prefixe Õ prefixe [Cartoni, 2009]

I compose nominal Õ compose nominal ou SN[Weller et al., 2011]

⇒ Ameliorer la genericite

26 / 41

Page 65: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Travaux existantsStructures traitees

I SN Õ SN [Robitaille et al., 2006, Leon, 2008]

I N N Õ N N [Baldwin and Tanaka, 2004]

I N Adj Õ N Adj ou N N [Morin and Daille, 2010]

I compose neoclassique Õ compose neoclassique[Harastani, 2014]

I prefixe Õ prefixe [Cartoni, 2009]

I compose nominal Õ compose nominal ou SN[Weller et al., 2011]

⇒ Ameliorer la genericite

26 / 41

Page 66: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Travaux existantsStructures traitees

I SN Õ SN [Robitaille et al., 2006, Leon, 2008]

I N N Õ N N [Baldwin and Tanaka, 2004]

I N Adj Õ N Adj ou N N [Morin and Daille, 2010]

I compose neoclassique Õ compose neoclassique[Harastani, 2014]

I prefixe Õ prefixe [Cartoni, 2009]

I compose nominal Õ compose nominal ou SN[Weller et al., 2011]

⇒ Ameliorer la genericite

26 / 41

Page 67: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Travaux existantsStructures traitees

I SN Õ SN [Robitaille et al., 2006, Leon, 2008]

I N N Õ N N [Baldwin and Tanaka, 2004]

I N Adj Õ N Adj ou N N [Morin and Daille, 2010]

I compose neoclassique Õ compose neoclassique[Harastani, 2014]

I prefixe Õ prefixe [Cartoni, 2009]

I compose nominal Õ compose nominal ou SN[Weller et al., 2011]

⇒ Ameliorer la genericite

26 / 41

Page 68: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Amelioration de la genericite

I Pas d’a priori sur les structures : pas de patrons de traductionsI Approche par “force brute”:

I generation de toutes les traductions possiblesI filtrage sur le corpus cible + ranking

27 / 41

Page 69: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Amelioration de la genericite

I Pas d’a priori sur les structures : pas de patrons de traductions

I Approche par “force brute”:I generation de toutes les traductions possiblesI filtrage sur le corpus cible + ranking

27 / 41

Page 70: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Amelioration de la genericite

I Pas d’a priori sur les structures : pas de patrons de traductionsI Approche par “force brute”:

I generation de toutes les traductions possiblesI filtrage sur le corpus cible + ranking

27 / 41

Page 71: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Generation [Delpech et al., 2012a]

28 / 41

Page 72: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Generation [Delpech et al., 2012a]

28 / 41

Page 73: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Generation [Delpech et al., 2012a]

28 / 41

Page 74: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Generation [Delpech et al., 2012a]

28 / 41

Page 75: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Generation [Delpech et al., 2012a]

28 / 41

Page 76: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Generation [Delpech et al., 2012a]

28 / 41

Page 77: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Generation [Delpech et al., 2012a]

28 / 41

Page 78: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Generation [Delpech et al., 2012a]

28 / 41

Page 79: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Generation [Delpech et al., 2012a]

28 / 41

Page 80: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Generation [Delpech et al., 2012a]

28 / 41

Page 81: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Filtrage

cytotoxic↓

toxique cellule

↓toxique (prep|det|num|conj){0,3} cellule

Projection corpus :

I “...substance est toxique pour les cellules de cancer...”

I “...medicaments toxiques pour la cellule cancereuse...”

⇒toxique/Adj pour/Prep le/Det cellule/Nom

29 / 41

Page 82: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Filtrage

cytotoxic↓

toxique cellule↓

toxique (prep|det|num|conj){0,3} cellule

Projection corpus :

I “...substance est toxique pour les cellules de cancer...”

I “...medicaments toxiques pour la cellule cancereuse...”

⇒toxique/Adj pour/Prep le/Det cellule/Nom

29 / 41

Page 83: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Filtrage

cytotoxic↓

toxique cellule↓

toxique (prep|det|num|conj){0,3} cellule

Projection corpus :

I “...substance est toxique pour les cellules de cancer...”

I “...medicaments toxiques pour la cellule cancereuse...”

⇒toxique/Adj pour/Prep le/Det cellule/Nom

29 / 41

Page 84: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Filtrage

cytotoxic↓

toxique cellule↓

toxique (prep|det|num|conj){0,3} cellule

Projection corpus :

I “...substance est toxique pour les cellules de cancer...”

I “...medicaments toxiques pour la cellule cancereuse...”

⇒toxique/Adj pour/Prep le/Det cellule/Nom

29 / 41

Page 85: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Ranking multi-criteres [Delpech et al., 2012a]

C similarite des Contextes source et cible

F Frequence traduction

P probabilite traduction Parties du discours

M fiabilite Modes de traduction

I Combinaison : C + F + P + M apres standardisation

30 / 41

Page 86: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Experimentation

I Corpus cancer du sein EN FR DE1, '400k mots par langue

I Traduction ENÕ FR et EN Õ DEI Unites monolexicales morphologiquement complexes

I composes neoclassiques : tumorectomyI composes populaires : docetaxel-inducedI prefixes : anti-oestrogenI suffixes : colourless

I Selection :I non traduites par le dictionnaire bilingueI traduction non presente dans le corpus cible

1en collaboration avec Claire Lemaire, Universite Stendhal, Grenoble31 / 41

Page 87: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Experimentation

I Corpus cancer du sein EN FR DE1, '400k mots par langue

I Traduction ENÕ FR et EN Õ DEI Unites monolexicales morphologiquement complexes

I composes neoclassiques : tumorectomyI composes populaires : docetaxel-inducedI prefixes : anti-oestrogenI suffixes : colourless

I Selection :I non traduites par le dictionnaire bilingueI traduction non presente dans le corpus cible

1en collaboration avec Claire Lemaire, Universite Stendhal, Grenoble31 / 41

Page 88: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Experimentation

I Corpus cancer du sein EN FR DE1, '400k mots par langue

I Traduction ENÕ FR et EN Õ DE

I Unites monolexicales morphologiquement complexesI composes neoclassiques : tumorectomyI composes populaires : docetaxel-inducedI prefixes : anti-oestrogenI suffixes : colourless

I Selection :I non traduites par le dictionnaire bilingueI traduction non presente dans le corpus cible

1en collaboration avec Claire Lemaire, Universite Stendhal, Grenoble31 / 41

Page 89: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Experimentation

I Corpus cancer du sein EN FR DE1, '400k mots par langue

I Traduction ENÕ FR et EN Õ DEI Unites monolexicales morphologiquement complexes

I composes neoclassiques : tumorectomyI composes populaires : docetaxel-inducedI prefixes : anti-oestrogenI suffixes : colourless

I Selection :I non traduites par le dictionnaire bilingueI traduction non presente dans le corpus cible

1en collaboration avec Claire Lemaire, Universite Stendhal, Grenoble31 / 41

Page 90: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Experimentation

I Corpus cancer du sein EN FR DE1, '400k mots par langue

I Traduction ENÕ FR et EN Õ DEI Unites monolexicales morphologiquement complexes

I composes neoclassiques : tumorectomyI composes populaires : docetaxel-inducedI prefixes : anti-oestrogenI suffixes : colourless

I Selection :I non traduites par le dictionnaire bilingueI traduction non presente dans le corpus cible

1en collaboration avec Claire Lemaire, Universite Stendhal, Grenoble31 / 41

Page 91: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Evaluation a priori vs. a posteriori [Ozdowska, 2006]

A priori I utilisation d’un lexique de referenceI ideal pour comparaisonI evaluation du rappel⇒ vision biaisee des performances en situation

d’utilisation : traduction se trouve dans lapartie cible

A posteriori I annotation des sorties par des jugesI plus subjectifI seuls couverture et precision evaluables⇒ plus fidele a la performances en situation

d’utilisation

32 / 41

Page 92: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Evaluation a priori vs. a posteriori [Ozdowska, 2006]

A priori I utilisation d’un lexique de referenceI ideal pour comparaisonI evaluation du rappel⇒ vision biaisee des performances en situation

d’utilisation : traduction se trouve dans lapartie cible

A posteriori I annotation des sorties par des jugesI plus subjectifI seuls couverture et precision evaluables⇒ plus fidele a la performances en situation

d’utilisation

32 / 41

Page 93: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Evaluation a priori vs. a posteriori [Ozdowska, 2006]

A priori I utilisation d’un lexique de referenceI ideal pour comparaisonI evaluation du rappel⇒ vision biaisee des performances en situation

d’utilisation : traduction se trouve dans lapartie cible

A posteriori I annotation des sorties par des jugesI plus subjectifI seuls couverture et precision evaluables⇒ plus fidele a la performances en situation

d’utilisation

32 / 41

Page 94: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Evaluation a prioriResultats

UMLSR Pmax P@1 alea P@1 rank F1 @1 rank

EN-FR .52 .80 .65 .75 .61

EN-DE .51 .70 .53 .58 .54

UMLS + annotations juges, ex. : bioavailable Õ biodisponibiliteR Pmax P@1 alea P@1 rank F1 @1 rank

EN-FR .63 .95 .92 .95 .76

EN-DE .66 .89 .81 .87 .75

33 / 41

Page 95: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Evaluation a prioriResultats

UMLSR Pmax P@1 alea P@1 rank F1 @1 rank

EN-FR .52 .80 .65 .75 .61

EN-DE .51 .70 .53 .58 .54

UMLS + annotations juges, ex. : bioavailable Õ biodisponibiliteR Pmax P@1 alea P@1 rank F1 @1 rank

EN-FR .63 .95 .92 .95 .76

EN-DE .66 .89 .81 .87 .75

33 / 41

Page 96: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Evaluation a prioriTravaux similaires

Compositionnelle P R F1[Robitaille et al., 2006] SN .81 .82 .81

[Baldwin and Tanaka, 2004] N N .51 .47 .49

+ trad. acceptables .78 .72 .75

[Cartoni, 2009] prefixes .42-.94

[Morin and Daille, 2010] N ADJ .88 .13 .23

[Harastani, 2014] neoclassique .95-1 .2-.12 .5-.22

ML P R F1[Claveau and Kijak, 2011] neoclassique .63 .45 .53

+ autres ressources .89 .64 .74

34 / 41

Page 97: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Evaluation a posteriori

I Mesures :

PrecisionCouverture % termes sources avec au moins 1 traduction

(qq soit sa qualite)Utilisabilite % termes sources avec au moins 1 traduction

correcte (C× P)

I Resultats :

C P UEN-FR .40 .59 .24

EN-DE .36 .48 .18

PA UA

.69 .28

.56 .20

35 / 41

Page 98: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Evaluation a posteriori

I Mesures :

PrecisionCouverture % termes sources avec au moins 1 traduction

(qq soit sa qualite)Utilisabilite % termes sources avec au moins 1 traduction

correcte (C× P)

I Resultats :

C P UEN-FR .40 .59 .24

EN-DE .36 .48 .18

PA UA

.69 .28

.56 .20

35 / 41

Page 99: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Evaluation a posteriori

I Mesures :

Precision

Couverture % termes sources avec au moins 1 traduction(qq soit sa qualite)

Utilisabilite % termes sources avec au moins 1 traductioncorrecte (C× P)

I Resultats :

C P UEN-FR .40 .59 .24

EN-DE .36 .48 .18

PA UA

.69 .28

.56 .20

35 / 41

Page 100: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Evaluation a posteriori

I Mesures :

PrecisionCouverture % termes sources avec au moins 1 traduction

(qq soit sa qualite)

Utilisabilite % termes sources avec au moins 1 traductioncorrecte (C× P)

I Resultats :

C P UEN-FR .40 .59 .24

EN-DE .36 .48 .18

PA UA

.69 .28

.56 .20

35 / 41

Page 101: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Evaluation a posteriori

I Mesures :

PrecisionCouverture % termes sources avec au moins 1 traduction

(qq soit sa qualite)Utilisabilite % termes sources avec au moins 1 traduction

correcte (C× P)

I Resultats :

C P UEN-FR .40 .59 .24

EN-DE .36 .48 .18

PA UA

.69 .28

.56 .20

35 / 41

Page 102: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Evaluation a posteriori

I Mesures :

PrecisionCouverture % termes sources avec au moins 1 traduction

(qq soit sa qualite)Utilisabilite % termes sources avec au moins 1 traduction

correcte (C× P)

I Resultats :

C P UEN-FR .40 .59 .24

EN-DE .36 .48 .18

PA UA

.69 .28

.56 .20

35 / 41

Page 103: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

3. Extraction de lexiques bilingues par l’approche compositionnelle

Evaluation a posteriori

I Mesures :

PrecisionCouverture % termes sources avec au moins 1 traduction

(qq soit sa qualite)Utilisabilite % termes sources avec au moins 1 traduction

correcte (C× P)

I Resultats :

C P UEN-FR .40 .59 .24

EN-DE .36 .48 .18

PA UA

.69 .28

.56 .20

35 / 41

Page 104: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

Conclusion

Plan

1. Methode classique d’extraction de lexiques bilingues a partir decorpus comparables

2. Evaluation applicative des lexiques bilingues destines a latraduction humaine

3. Extraction de lexiques bilingues par l’approche compositionnelle

Conclusion

36 / 41

Page 105: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

Conclusion

Peut-on utiliser les corpus comparables pour extraire deslexiques bilingues utiles pour les traducteurs ?

I Approche par similarite contextuelle :I forte couverture mais lexiques trop ambigus

I Approche compositionnelle :I reduit le nombre de traductions mais cantonnee aux elements

avec traduction compositionnelleI 20% a 28% avec une traduction correcte

37 / 41

Page 106: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

Conclusion

Tres ambitieux en l’etat actuel

I Lexique obtenu tres reduit ou trop ambiguI Difficile d’augmenter le corpus

I thematique fine, forte comparabiliteI peu de textes specialises

I Difficulte inherente aux corpus comparables :I seulement une partie du vocabulaire en commun

38 / 41

Page 107: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

Conclusion

Perspectives I

I Peu utile pour la phase de traduction proprement dite

I Utile pour :I phase d’exploration / familiarisation avec le domaine

[Durieux, 2010]I assistance a la consistution de ressources lexicales

specialisees/terminologiques

39 / 41

Page 108: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

Conclusion

Perspectives II

I Conclusion : aider a l’exploration de corpus comparablesI extraction, alignement de contextes pertinentsI outils de recherche avances, concordanciersI travailler avec les traducteurs/terminologues : automatiser les

techniques

I Projet ANR CRISTAL : extraction de contextes richesen connaissance dans les corpus comparables (LINA,Lingua et Machina, CLLE-ERSS, FTI)

40 / 41

Page 109: Invited speaker, ATALA 2014 Ph. D. Thesis award

Merci pour votre attention

Page 110: Invited speaker, ATALA 2014 Ph. D. Thesis award

Slides complementaires

Page 111: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

Taille donnees

Donnees evaluation

S termes sources

R reference a priori

P reference aposterioriR ∩ P 6= ∅

T donneesapprentissagerankkingT = P \ R

E donneesevaluation dumod rankingE = P ∩ R

43 / 41

Page 112: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

Taille donnees

Lexiques evaluation

EN-FR EN-DE

1839 1824

Table: Termes sources a traduire

EN-FR EN-DE

126 Õ 163 90 Õ 104

Table: Lexique evaluation a priori

EN-FR EN-DE

730 Õ 2129 654 Õ 2016

Table: Lexique evaluation a posteriori

44 / 41

Page 113: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

Apport modele generique

Genericite du modele : methodes testees

I Prefixation : pretreatment Õ pre-traitement

I Composition savante : hypercalcaemia Õ hypercalcemie

I Composition populaire : acute-phase Õ Akutphase, akutenPhase

I Cognat : t-test Õ t-Test

45 / 41

Page 114: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

Apport modele generique

Genericite du modele : resultats

I Composition savante, prefixation : methodes tres precises(>0.92) mais petite couverture (<0.03)

I Composition populaire : petite couverture, moyennementprecise (0.62 a 0.65)

I Cognats : meilleure couverture (0.10 a 0.13), precisionmoyenne a bonne (0.66 a 0.81)

I Notre methode :I large couverture : 0.36 a 0.40I precision moyenne : 0.68 a 0.56I utilisabilite meilleure : 0.20 a 0.28 vs. cognats 0.07 a 0.10

46 / 41

Page 115: Invited speaker, ATALA 2014 Ph. D. Thesis award

Genericite I

C PE UE PEA UEA

Composition savante (18%) ,03 ,95 ,03 1 ,03Cognat ,13 ,66 ,08 ,81 ,10Composition populaire (48 %) ,05 ,63 ,03 ,65 ,03Prefixation (31%) ,02 ,90 ,02 ,97 ,02

Notre methode ,40 ,59 ,24 ,69 ,28

Table: anglais Õ francais

Page 116: Invited speaker, ATALA 2014 Ph. D. Thesis award

Genericite II

C PE UE PEA UEA

Composition savante (18%) ,03 ,96 ,02 ,98 ,02Cognat ,10 ,58 ,06 ,66 ,07Composition populaire (49 %) ,04 ,55 ,02 ,62 ,03Prefixation (32%) ,03 ,86 ,02 ,92 ,03

Notre methode ,36 ,48 ,17 ,56 ,20

Table: anglais Õ allemand

Page 117: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

Apport modele generique

Genericite du modele : discussion

I Variation morphologique : pretreatment Õ pretraiter,cardiotoxicityÕ cardiotoxique, time-consumingÕ consommateur de temps

I Fertilite : pretreatment Õ avant le traitement,hypercalcaemia Õ zu viel calcium in das blut

I Cognats : aromatase-inhibiting Õ hemmung deraromatase‘inhibition de l’aromatase’

I Suffixes : colorless Õ sans colorant, randomly Õ (de)maniere randomisee

I Strategie de repli : ribosome Õ ribosomique

49 / 41

Page 118: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

Apport ressources linguistiques

Apport des ressources linguistiques

Systeme de base : dictionnaire generaliste et table de traductiondes morphemes

I Synonymes : pas adaptes (bloodstream Õ courant sanguinÕ circulation sanguine)

I Familles morphologiques : +0.09 a 0.11 de couverture ; +0.04a 0.06 d’utilisabilite

I Cognats : + 0.12 de couverture ; +0.06 a 0.09 d’utilisabilite

I Combinaison : + 0.17 a 0.24 couverture ; +0.10 a 0.16utilisabilite

50 / 41

Page 119: Invited speaker, ATALA 2014 Ph. D. Thesis award

Ressources linguistiques I

C PE UE PEA UEA

Base ,16 ,73 ,12 ,77 ,12Base + dictionnaire de cognats ,28 ,71 ,19 ,77 ,21Base + familles morphologiques ,27 ,56 ,15 ,66 ,18Base + dictionnaire synonymes ,17 ,69 ,12 ,72 ,13

Toutes les ressources ,40 ,59 ,24 ,69 ,28

Table: anglais Õ francais

Page 120: Invited speaker, ATALA 2014 Ph. D. Thesis award

Ressources linguistiques II

C PE UE PEA UEA

Base ,15 ,60 ,09 ,63 ,10Base + dictionnaire de cognats ,27 ,56 ,15 ,61 ,16Base + familles morphologiques ,24 ,48 ,12 ,57 ,14Base + dictionnaire synonymes ,17 ,55 ,09 ,60 ,10

Toutes les ressources ,36 ,48 ,17 ,56 ,20

Table: anglais Õ allemand

Page 121: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

Apport traductions fertiles

Apport des traductions fertiles

I Traductions fertiles nettement moins precises (-0.20 a -0.39)I Combinaison aux traductions non fertiles interessante (+6 a 10

points utilisabilite)

53 / 41

Page 122: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traductions fertiles I

C PE UE PEA UEA

Traductions non fertiles ,24 ,58 ,14 ,75 ,18Traductions fertiles ,24 ,52 ,12 ,55 ,13

Traductions non fertiles ,24 ,58 ,14 ,75 ,18Toutes les traductions ,40 ,59 , 24 ,69 ,28

Table: anglais Õ francais

Page 123: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traductions fertiles II

C PE UE PEA UEA

Traductions non fertiles ,24 ,58 ,14 ,69 ,16Traductions fertiles ,20 ,26 ,05 ,30 ,06

Traductions non fertiles ,24 ,58 ,14 ,69 ,16Toutes les traductions ,36 ,48 ,17 ,56 ,20

Table: anglais Õ allemand

Page 124: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

Experiences ranking

Nombre de traductions candidates

56 / 41

Page 125: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

Experiences ranking

Donnees experimentales

57 / 41

Page 126: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

Experiences ranking

Resultats

I Comparaison des criteres :I Contextes : moins bon critere (0.80 a 0.88 Top1)I Fiabilite des modes de traduction : meilleur critere (0.82 a

0.93 Top1)

I Meilleures methodes (0.85 a 0.93, +5 a 9 points vs. aleatoire,Top1) :

I Combinaison non pondereeI Combinaison pondereeI Coordinate Ascent, AdaRank

58 / 41

Page 127: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

Experiences ranking

Resultats anglais Õ francais

Top1 Top2 Top3 RPM

Meilleure precision possible ,94 ,94 ,94 1

Combinaison non ponderee ,928 ,94 ,94 2Combinaison ponderee ,928 ,94 ,94 2Coordinate Ascent ,928 ,94 ,94 2Lambda MART ,928 ,94 ,94 2M ,928 ,94 ,94 2F ,916 ,928 ,94 3

AdaRank ,892 ,904 ,928 4

P ,892 ,904 ,928 4

C ,88 ,904 ,928 4

Aleatoire ,836 ,898 ,928 13

59 / 41

Page 128: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

Experiences ranking

Resultats anglais Õ allemand

Top1 Top2 Top3 RPM

Meilleure precision possible ,879 ,879 ,879 1

Combinaison ponderee ,848 ,879 ,879 2Lambda MART ,848 ,864 ,864 5Combinaison non ponderee ,833 ,864 ,879 3Coordinate Ascent ,833 ,864 ,879 3F ,833 ,848 ,879 3AdaRank ,833 ,848 ,848 17

P ,833 ,848 ,848 17

M ,818 ,864 ,879 3C ,803 ,864 ,864 28

Aleatoire ,77 ,832 ,846 28

60 / 41

Page 129: Invited speaker, ATALA 2014 Ph. D. Thesis award

Traduction assistee par ordinateur et corpus comparables

References

Principales publications

I TheseFR Delpech (2013) : “Traduction assistee par ordinateur et corpus comparables”,

These de doctorat en Informatique, Universite de Nantes, France, 265 pages.EN Delpech (2014) : “Comparable Corpora and Computer-assisted Translation”, ISTE

Wiley, London, 287 pages.

I Evaluation applicativeFR, long Delpech (2011) : “Un protocole d’evaluation applicative des terminologies bilingues

destinees a la traduction specialisee”, Revue des Nouvelles Technologies del’Information (RNTI), vol. RNTI-E-22, pp. 23–48.

EN, court Delpech (2011) : “Evaluation of Terminologies acquired from Comparable Copora:an Application Perspective”, Proc. of the 18th Nordic Conference of ComputationalLinguistics (NODALIDA), pp. 66–73, Riga, Lettonie.

I Generation de lexiques bilinguesEN, Fertilite Delpech et al. (2012) : “Identification of Fertile Translation in Medical Comparable

Corpora”, 10th biennial Conference of the Association for Machine Translation inthe Americas (AMTA’12), 10 pages, San Diego, CA.

EN,Generation+Ranking Delpech et al. (2012) : “Extraction of domain-specific bilingual lexicon fromcomparable corpora: compositional translation and ranking”, Proc. of the 24thInternational Conference on Computational Linguistics, Long papers (COLING’12),pp. 745–762, Mumbia, India.

61 / 41

Page 130: Invited speaker, ATALA 2014 Ph. D. Thesis award

References I

Baker, M. (1996).

Corpus-based translation studies: The challenges that lie ahead.In Somers, H., editor, Terminology, LSP and Translation: Studies in Language Engineering in Honour ofJuan C. Sager. John Benjamins, Amsterdam, Pays-Bas et Philadelphia, Etats-Unis d’Amerique.

Baldwin, T. and Tanaka, T. (2004).

Translation by machine of complex nominals.In Proceedings of the ACL 2004 Workshop on Multiword expressions: Integrating Processing, pages 24–31,Barcelona, Spain.

Brown de Colstoun, F., Delpech, E., and Monneret, E. (2011).

Libellex : une plateforme multiservices pour la gestion des contenus multilingues.In Lafourcade, M. and Prince, V., editors, Actes de la 18eme conferences sur le traitement automatique deslangues naturelles, volume 2, page 319, Montpellier, France.

Carpuat, M., III, H. D., Fraser, A., Quirk, C., Braune, F., Clifton, A., Irvine, A., Jagarlamudi, J., Morgan,

J., Razmara, M., Tamchyna, A., Henry, K., and Rudinger, R. (2012).Domain adaptation in machine translation: Final report.In 2012 Johns Hopkins Summer Workshop Final Report.derniere consultation le 01/02/2013.

Cartoni, B. (2009).

Lexical morphology in machine translation: A feasibility study.In Proceedings of the 12th Conference of the European Chapter of the ACL, pages 130–138, Athenes, Grece.

Claveau, V. and Kijak, E. (2011).

Morphological analysis of biomedical terminology with Analogy-Based alignment.In Proceedings of the International Conference Recent Advances in Natural Language Processing 2011,pages 347–354, Hissar, Bulgaria.

Page 131: Invited speaker, ATALA 2014 Ph. D. Thesis award

References II

Delpech, E. (2011a).

Evaluation of terminologies acquired from comparable corpora : an application perspective.In Pedersen B.S., Nespore G., S. I., editor, Proceedings of the 18th Nordic Conference of ComputationalLinguistics (NODALIDA 2011), volume 11 of NEALT Proceedings Series,, pages 66–73, Riga, Latvia.

Delpech, E. (2011b).

Un protocole d’evaluation applicative des terminologies bilingues destinees a la traduction specialisee.Revue des Nouvelles Technologies de l’Information (RNTI) - Numero special : Evaluation des methodesd’Extraction de Connaissances dans les Donnees (Eval’ECD).

Delpech, E. and Daille, B. (2010).

Dealing with lexicon acquired from comparable corpora : validation and exchange.In Proceedings of the 2010 Terminology and Knowledge Engineering Conference (TKE 2010), pages211–223, Dublin, Ireland.

Delpech, E., Daille, B., Morin, E., and Lemaire, C. (2012a).

Extraction of domain-specific bilingual lexicon from comparable corpora: a compositional translation andranking.In Proceedings of the 24th International Conference on Computational Linguistics, pages 745–762, Mumbai,Inde.

Delpech, E., Daille, B., Morin, E., and Lemaire, C. (2012b).

Identification of fertile translations in medical comparable corpora: a morpho-compositional approach.In Proceedings of the 10th biennial conference of the Association for Machine Translation in the Americas,San Diego, California.

Durieux, C. (2010).

Fondement didactique de la traduction technique.La maison du dictionnaire, Paris, France.

Page 132: Invited speaker, ATALA 2014 Ph. D. Thesis award

References III

Friedbichler, I. and Friedbichler, M. (1997).

The potential of domain-specific target-language corpora for the translator’s workbench.In First international conference on Corpus Use and Learning to Translate, Bertinoro, Italie.

Fung, P. (1997).

Finding terminology translations from non-parallel corpora.In Proceedings of the 5th Annual Workshop on Very Large Corpora, pages 192–202, Hong Kong.

Harastani, R. (2014).

Alignement lexical en corpus comparables : le cas des composes savants et des adjectifs relationnels.These de doctorat en informatique, Universite de Nantes, Nantes, France.

Leon, S. (2008).

Acquisition automatique de traductions d’unites lexicales complexes a partir du Web.These en sciences du langage - traitement automatique des langues, Universite de Provence - Aix-MarseilleI, Marseille, France.

Li, B., Gaussier, E., Morin, E., and Hazem, A. (2011).

Degre de comparabilite, extraction lexicale et recherche d’information interlingue.In Actes de la 18eme conferences sur le traitement automatique des langues naturelles, pages 283–293,Montpellier, France.

Mc Enery, A. M. and Xiao, R. Z. (2007).

Parallel and comparable corpora: What is happening?In G. Anderman, M. R., editor, Incorporating Corpora: The Linguist and the Translator., TranslatingEurope, pages 18–31. Multilingual Matters, Clevedon, UK.

Morin, E. and Daille, B. (2010).

Compositionality and lexical alignment of multi-word terms.In Rayson, P., Piao, S., Sharoff, S., Evert, S., and B., V., editors, Language Resources and Evaluation(LRE), volume 44 of Multiword expression: hard going or plain sailing, pages 79–95. Springer Netherlands.

Page 133: Invited speaker, ATALA 2014 Ph. D. Thesis award

References IV

Namer, F. and Baud, R. (2007).

Defining and relating biomedical terms: Towards a cross-language morphosemantics-based system.International Journal of Medical Informatics, 76(2-3):226–33.

Ozdowska, S. (2006).

ALIBI, un systeme d’ALIgnement BIlingue a base de regles de propapagation syntaxique.These de doctorat en sciences du langage, Universite Toulouse II Le Mirail, Toulouse, France.

Rapp, R. (1999).

Automatic Identification of Word Translations from Unrelated English and German Corpora.In Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics (ACL’99),pages 519–526, College Park, MD, USA.

Robitaille, X., Sasaki, X., Tonoike, M., Sato, S., and Utsuro, S. (2006).

Compiling French-Japanese terminologies from the web.In Proceedings of the 11th Conference of the European Chapter of the Association for ComputationalLinguistics, pages 225–232, Trento, Italy.

S. Vintar (2010).

Bilingual term recognition revisited the bag-of-equivalents term alignment approach and its evaluation.Terminology, 16(2):141–158.

Weller, M., Gojun, A., Heid, U., Daille, B., and Harastani, R. (2011).

Simple methods for dealing with term variation and term alignment.In Proceedings of the 9th International Conference on Terminology and Artificial Intelligence, pages 87–93,Paris, France.

Zanettin, F. (1998).

Bilingual comparable corpora and the training of translators.Meta : journal des traducteurs / Meta: Translator’s Journal, 43(4):616–630.