1 tal (traitement automatique des langues) présenté par: l.berdjeghloul

73
1 TAL (Traitement TAL (Traitement automatique des automatique des langues) langues) Présenté par: Présenté par: L.BERDJEGHLOUL L.BERDJEGHLOUL

Upload: igraine-gueguen

Post on 04-Apr-2015

112 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

11

TAL (Traitement automatique TAL (Traitement automatique des langues) des langues)

Présenté par:Présenté par:

L.BERDJEGHLOULL.BERDJEGHLOUL

Page 2: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

22

SommaireSommaire

Introduction à TALIntroduction à TAL Traduction AutomatiqueTraduction Automatique Correction automatiqueCorrection automatique Recherche d’information et fouille de texteRecherche d’information et fouille de texte Résumé automatiqueRésumé automatique Reconnaissance vocaleReconnaissance vocale Synthèse vocaleSynthèse vocale Conclusion et bibliographieConclusion et bibliographie

Page 3: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

33

Introduction à TALIntroduction à TAL

Page 4: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

44

DéfinitionDéfinition

Application des programmes et techniques Application des programmes et techniques informatiques sur le langage naturel [Wikipedia]informatiques sur le langage naturel [Wikipedia]

« Le TAL s’intéresse aux traitements informatisés « Le TAL s’intéresse aux traitements informatisés mettant en jeu du matériau linguistique. » mettant en jeu du matériau linguistique. » (Jacquemin & Zweigenbaum 2000).(Jacquemin & Zweigenbaum 2000).

TALLinguistique Informatique

Intelligence Artificielle

Page 5: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

55

Applications TALApplications TAL

Traduction automatiqueTraduction automatique Correction automatiqueCorrection automatique Recherche de l’information et Fouille de texteRecherche de l’information et Fouille de texte Résumé automatique de texteRésumé automatique de texte Synthèse de la paroleSynthèse de la parole Reconnaissance vocaleReconnaissance vocale ……etc.etc.

Page 6: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

66

Traduction automatiqueTraduction automatique

Page 7: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

77

DéfinitionDéfinition

Premier domaine de TAL (1950)Premier domaine de TAL (1950) TA a pour entrée un texte "t1", ou texte source TA a pour entrée un texte "t1", ou texte source

écrit dans une langue « L1 » ou langue cible.écrit dans une langue « L1 » ou langue cible. TA a pour sortie un texte "t2" ou texte traduit TA a pour sortie un texte "t2" ou texte traduit

écrit dans une langue « L2 » ou langue cibleécrit dans une langue « L2 » ou langue cible Exemples:Exemples:

SYSTRANSYSTRAN ALPSALPS TranslatorTranslator

Page 8: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

88

HistoriqueHistorique

1950:1950: Traduction mot à motTraduction mot à mot

1970:1970: Moteur de traduction: SystranMoteur de traduction: Systran

1990:1990: Systèmes à mémoire de traductionSystèmes à mémoire de traduction

Page 9: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

99

MéthodesMéthodes

TA : Traduction automatiqueTA : Traduction automatique Traduire entièrement un texte Traduire entièrement un texte sans sans

intervention de l’humainintervention de l’humain

TAO : Traduction TAO : Traduction assistéeassistée par ordinateur par ordinateur L’humain traduit, avec l’aide du support L’humain traduit, avec l’aide du support

informatiqueinformatique

Page 10: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

1010

DifficultésDifficultés

Écueils linguistiques propres à la langue Écueils linguistiques propres à la langue naturellenaturelle

AmbiguïtésAmbiguïtés LexicalesLexicales SyntaxiquesSyntaxiques SémantiqueSémantique

Nécessité du contexte ! Mais comment le Nécessité du contexte ! Mais comment le représenter informatiquement ?représenter informatiquement ?

Page 11: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

1111

TechniquesTechniques

Mot à mot + arrangement de surfaceMot à mot + arrangement de surface Syntagmes + arrangement de surfaceSyntagmes + arrangement de surface

Dictionnaire (ou base de données)Dictionnaire (ou base de données) Régles Régles

Alignement de corpusAlignement de corpus Meilleure prise en compte du contexteMeilleure prise en compte du contexte Réalisations linguistiques « attestées »Réalisations linguistiques « attestées »

Page 12: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

1212

Évaluation des logiciels TAÉvaluation des logiciels TA

Quelques campagnes d’évaluation existantes :Quelques campagnes d’évaluation existantes : OpenMT (Open Machine Translation,OpenMT (Open Machine Translation, NIST)NIST) CESTA (Technolangue)CESTA (Technolangue)

Tâche à accomplir : Tâche à accomplir : traduction d’un texte d’une traduction d’un texte d’une langue source vers une langue ciblelangue source vers une langue cible

Protocole : Protocole : on donne un texte au système, on on donne un texte au système, on compare le résultat (texte candidat) à une traduction compare le résultat (texte candidat) à une traduction faite par l’humain (texte référent), et on attribue une faite par l’humain (texte référent), et on attribue une notenote

RessourcesRessources Textes en langue sourceTextes en langue source Traduction référence pour chaque texteTraduction référence pour chaque texte

Page 13: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

1313

EurotraEurotra

La France participe actuellement à un projet La France participe actuellement à un projet expérimental de Traduction Automatique de expérimental de Traduction Automatique de grande envergure, le projet "Eurotra".grande envergure, le projet "Eurotra".

lancé vers 1975lancé vers 1975 objectif de mettre au point un système objectif de mettre au point un système

informatique multilingue capable de traduire des informatique multilingue capable de traduire des textes relatifs au fonctionnement de la textes relatifs au fonctionnement de la Communauté Européenne depuis - et vers - Communauté Européenne depuis - et vers - chacune des langue de la Communauté : anglais, chacune des langue de la Communauté : anglais, allemand, danois, français, espagnol, grec, allemand, danois, français, espagnol, grec, italien, néerlandais, portugais, soit 72 couples de italien, néerlandais, portugais, soit 72 couples de langues.langues.

Page 14: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

1414

Correction automatiqueCorrection automatique

Page 15: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

1515

Correction automatiqueCorrection automatique

Correcteur orthographique vs grammaticalCorrecteur orthographique vs grammatical

1. 1. Orthographe d’usage ou lexicaleOrthographe d’usage ou lexicale• • écriture du mot en lui-même, sans considération des écriture du mot en lui-même, sans considération des rapportsrapports

qu’il entretient avec le reste de la phrasequ’il entretient avec le reste de la phrase – – ex. ex. fôte, ortografe, lappin, fôte, ortografe, lappin, etc.etc.

2. 2. Orthographe grammaticaleOrthographe grammaticale partie qui dépend des relations grammaticalespartie qui dépend des relations grammaticales – – accords : accords : des des faute faute d’orthographe, nous sommes d’orthographe, nous sommes venuvenu – – conjugaisons : conjugaisons : je vous aimje vous aimezez, nous avons mang, nous avons mangerer – – homographes grammaticaux : homographes grammaticaux : c’est – ces –ses, à – a, c’est – ces –ses, à – a, etc.etc.

Page 16: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

1616

TechniquesTechniques

DistinguerDistinguer

Vérification (détection des erreurs Vérification (détection des erreurs potentielles)potentielles)

– – Approche statistique de la détectionApproche statistique de la détection

– – Consultation de dictionnairesConsultation de dictionnaires

Correction (suggestions ordonnées pourCorrection (suggestions ordonnées pour

corriger l’erreur identifiée)corriger l’erreur identifiée)

Page 17: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

1717

Techniques : distance Techniques : distance lexicographiquelexicographique

Calcul du nombre minimum d’insertion, suppression et Calcul du nombre minimum d’insertion, suppression et substitution de lettres nécessaires pour transformer un mot en un substitution de lettres nécessaires pour transformer un mot en un autre:autre:

– – Suppression : beaSuppression : beauououpup– – Insertion : beaInsertion : beazzcoupcoup– – Substitution : beSubstitution : bezzucoupucoup– – Interversion : bInterversion : baeaeucoupucoup

Puis vérification au dictionnairePuis vérification au dictionnaire Principe de base: les mots les plus proches serontPrincipe de base: les mots les plus proches seront proposésproposés

Exemple: – *Prèferrer préférer (distance=1) puis préféré, préfèreExemple: – *Prèferrer préférer (distance=1) puis préféré, préfère (distance=2) puis préférée (distance=3)(distance=2) puis préférée (distance=3)Exemple: prèferreExemple: prèferre

Page 18: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

1818

Techniques : réinterprétation phonétique

Algorithme:

1. mot inconnu phonétiseur transcription phonétique (ex.*puit /pyi/)

2. transcription phonétique = clé pour rechercher dansdictionnaire toutes les orthographes pour cetteséquence de sons3. si aucun mot n’est trouvé avec la transcriptionphonétique entière, quels mots orthographiquessont proches de la chaîne phonétique?4. on propose comme correction le(s) mot(s) ainsiréinterprété(s) (puis, puits)

Page 19: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

1919

EvaluationEvaluation

Page 20: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

2020

caractéristiquescaractéristiques

L’analyse en temps réelL’analyse en temps réel Attirer l’attention de l’utilisateur afin de Attirer l’attention de l’utilisateur afin de

corrigercorriger

Des propositions de correctionDes propositions de correction L’utilisateur peut être amener à compléter L’utilisateur peut être amener à compléter

le dictionnaire intégré (noms propres)le dictionnaire intégré (noms propres) Spécifiés de la langue:Spécifiés de la langue:

Anglais: Les mots s’écrivent toujours de la Anglais: Les mots s’écrivent toujours de la même façonmême façon

Page 21: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

2121

AntidoteAntidote

AntidoteAntidote est un logiciel de correction est un logiciel de correction grammaticale et d’aide à la rédaction en grammaticale et d’aide à la rédaction en français qui réunit :français qui réunit :

un correcteur : fait une analyse par phrase, un correcteur : fait une analyse par phrase, souligne les erreurs et propose des corrections.souligne les erreurs et propose des corrections.

dix dictionnaires: pour les dix dictionnaires: pour les définitions ,synonymes,antonymes,…définitions ,synonymes,antonymes,…

Dix guides linguistiques: pour la syntaxe, Dix guides linguistiques: pour la syntaxe, ponctuation,…ponctuation,…

Page 22: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

2222

AntidoteAntidote

Le prisme de révision: pour améliorer le Le prisme de révision: pour améliorer le contenu et le contenucontenu et le contenu

Filtre de style: phrases longuesFiltre de style: phrases longues Filtre pour l’abréviationFiltre pour l’abréviation

Page 23: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

2323

Recherche de l’information et fouille Recherche de l’information et fouille de textede texte

Page 24: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

2424

DéfinitionsDéfinitions

Définition:Définition: retrouver des documents textuels retrouver des documents textuels répondant à un besoin d’information spécifié par une répondant à un besoin d’information spécifié par une requêterequête

recherche recherche d'd'information : « Ensemble des méthodes, information : « Ensemble des méthodes, procédures et techniques permettant, en fonction de procédures et techniques permettant, en fonction de critères de recherche propres à l’usager, de critères de recherche propres à l’usager, de sélectionner l’information dans un ou plusieurs fonds sélectionner l’information dans un ou plusieurs fonds de documents plus ou moins structurés ». de documents plus ou moins structurés ».

recherche recherche de l'de l'information : « Ensemble des information : « Ensemble des méthodes, procédures et techniques ayant pour objet méthodes, procédures et techniques ayant pour objet d’extraire d’un document ou d’un ensemble de d’extraire d’un document ou d’un ensemble de documents les informations pertinentes ». documents les informations pertinentes ».

Page 25: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

2525

Méthodes de RIMéthodes de RI

Deux aspects:Deux aspects: Indexation des corpusIndexation des corpus l'interrogation du fonds documentaire ainsi l'interrogation du fonds documentaire ainsi

constitué. constitué. Les étapes de la RILes étapes de la RI

Prétraitement: indexation du documentPrétraitement: indexation du document Recherche: l’approche ensembliste (SQL)Recherche: l’approche ensembliste (SQL) Mesures: pour sélectionner les meilleurs Mesures: pour sélectionner les meilleurs

documentsdocuments Prise en compte de l'utilisateurPrise en compte de l'utilisateur

Page 26: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

2626

Moteur de rechercheMoteur de recherche

Le modèle de l’Information RetrievalLe modèle de l’Information Retrieval : : Constitué de l’usager,la BDD des documents,et Constitué de l’usager,la BDD des documents,et

le spécialiste de l’informationle spécialiste de l’information Un Un moteur de recherchemoteur de recherche est un logiciel est un logiciel

permettant de retrouver des ressources, permettant de retrouver des ressources, constitué des étapes:constitué des étapes: L’explorationL’exploration IndexationIndexation Recherche Recherche

Page 27: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

2727

Fouille de TexteFouille de Texte

définition: extraction des définition: extraction des connaissances dans des textesconnaissances dans des textes

Constituée des deux étapes:Constituée des deux étapes: Analyse:reconnaître les mots, les phrasesAnalyse:reconnaître les mots, les phrases Interprétation de l’analyse:pour faire la Interprétation de l’analyse:pour faire la

sélectionsélection Exemple: classification des courriers Exemple: classification des courriers

en spamsen spams

Page 28: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

Architecture KENiAArchitecture KENiA®® : Knowledge : Knowledge Extraction and Notification Extraction and Notification ArchitectureArchitecture

développée dans le langage Java en tenant développée dans le langage Java en tenant compte de techniques et de compte de techniques et de ressources ressources exclusivement linguistiques (aucun appel à la exclusivement linguistiques (aucun appel à la statistique)statistique)

2828

Page 29: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

2929

Résumé automatiqueRésumé automatique

Page 30: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

3030

Résumé automatique (Définition)Résumé automatique (Définition)

Une transformation réductrice d’un Une transformation réductrice d’un texte source vers un résumé par texte source vers un résumé par compression du contenu à l’aide compression du contenu à l’aide d’une sélection et/ou généralisation d’une sélection et/ou généralisation de ce qui est important dans le texte de ce qui est important dans le texte source.source.

Page 31: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

3131

Fonction AutoSummarize Fonction AutoSummarize de MS Officede MS Office

Page 32: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

3232

Caractéristiques d’un Caractéristiques d’un résumérésumé Indicatif ou InformatifIndicatif ou Informatif

Indicatif: indique la nature du texteIndicatif: indique la nature du texte Informatif: tente de se substituer au texteInformatif: tente de se substituer au texte

Extrait ou abrégéExtrait ou abrégé Extrait: phrases ou passages tirés du texteExtrait: phrases ou passages tirés du texte Abrégé: reformule, compresse le texteAbrégé: reformule, compresse le texte

Court ou longCourt ou long Taux de compression = Taux de compression = ||

||

Texte

Résumé

Page 33: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

3333

Mécanique de construction Mécanique de construction d’un résuméd’un résumé

Document Document → Repr. interne du → Repr. interne du documentdocument

Repr. interne du documentRepr. interne du document → Repr. → Repr. interne du rinterne du réésumsuméé

Repr. interne du rRepr. interne du réésumsuméé → Texte du → Texte du rréésumsuméé

Page 34: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

3434

Facteurs à considérerFacteurs à considérer

Facteurs d’entrée:Facteurs d’entrée: Forme: structure, type de langue,…Forme: structure, type de langue,… Type de sujet: ordinaire, spécialisé.Type de sujet: ordinaire, spécialisé.

Facteurs d’intentions:Facteurs d’intentions: Audience: ciblée, non cibléeAudience: ciblée, non ciblée Utilisation: Tache (recherche, sommaire,…)Utilisation: Tache (recherche, sommaire,…)

Facteurs de sortie:Facteurs de sortie: Contenu: tous le sujet ou bien le sujet centralContenu: tous le sujet ou bien le sujet central Style: indicatif, informatif,..Style: indicatif, informatif,..

Page 35: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

3535

Approches étalonApproches étalon

Approche aléatoireApproche aléatoire On sélectionne n phrases au hasard On sélectionne n phrases au hasard

dans le documentdans le document Approche en-têteApproche en-tête

On sélectionne les n premières phrases On sélectionne les n premières phrases du documentdu document

Page 36: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

3636

Approche basée sur la RIApproche basée sur la RI

Luhn 1958Luhn 1958 Extrait = phrases Extrait = phrases

significativessignificatives Une phrase Une phrase

significative significative contient des mots contient des mots significatifs (mots-significatifs (mots-clés)clés)

Mots significatifs = Mots significatifs = entre A et Bentre A et B

Page 37: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

3737

Approches basée sur la Approches basée sur la structure du textestructure du texte

Edmundson 69Edmundson 69 Mots-repères (cues)Mots-repères (cues)

Mots-bonus: Mots-bonus: greatest, significant, …greatest, significant, … Mots-malus: Mots-malus: hardly, impossible, …hardly, impossible, …

Mots-titreMots-titre Mots-clés se trouvant dans le titre et les Mots-clés se trouvant dans le titre et les

sous-titressous-titres

Page 38: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

3838

Approches basée sur la Approches basée sur la structure du textestructure du texte

PositionnementPositionnement Début du texteDébut du texte Fin du texteFin du texte Première phrase d’un paragraphePremière phrase d’un paragraphe Dernière phrase d’un paragrapheDernière phrase d’un paragraphe

Toutes les méthodes!Toutes les méthodes! 11Mots-repère + Mots-repère + 22Mots-clés + Mots-clés + 33Mots-titre + Mots-titre +

44PositionnementPositionnement

Page 39: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

3939

Évaluation (Edmundson)Évaluation (Edmundson)

Corpus d’entraînement avec des Corpus d’entraînement avec des extraits sélectionnés manuellement extraits sélectionnés manuellement (compression 25%)(compression 25%)

Comparaison entre les résumés Comparaison entre les résumés obtenus manuellement et obtenus manuellement et automatiquementautomatiquement

Page 40: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

4040

ExempleExemple

Pertinence SummarizerPertinence Summarizer

Page 41: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

4141

Système de traduction automatique du Système de traduction automatique du langage textolangage texto

Page 42: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

4242

Système de traduction automatique du Système de traduction automatique du langage textolangage texto

Proposé à Proposé à Université de Franche-Comté – Université de Franche-Comté – Besançon – FRANCEBesançon – FRANCE

Apparition du langage texto avec le développement Apparition du langage texto avec le développement des nouvelles formes de communication écrite : des nouvelles formes de communication écrite : Sur internetSur internet : : chatchat, , forum de discussionforum de discussion, , courrier courrier

électroniqueélectronique (e-mail) (e-mail) Sur téléphone portableSur téléphone portable : : smssms ( En 2003 : 8 ( En 2003 : 8

milliards de SMS envoyés )milliards de SMS envoyés )

Page 43: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

4343

Le langage texto : caractéristiquesLe langage texto : caractéristiques

simplification de la languesimplification de la langue une situation de communication particulière une situation de communication particulière

nécessitant une certaine précision de langage nécessitant une certaine précision de langage et une rapidité de réponseet une rapidité de réponse

Objectif:Objectif: Être concis et comprisÊtre concis et compris

Besoin d’un traducteur et correcteur automatiqueBesoin d’un traducteur et correcteur automatique

Page 44: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

4444

Traduction automatiqueTraduction automatique

Utilité d'un tel système :Utilité d'un tel système :

Plusieurs niveaux d'utilisateurs : novice, expert. (sur les 8 Plusieurs niveaux d'utilisateurs : novice, expert. (sur les 8 milliards de SMS envoyés en 2003, 75% l’ont été par les milliards de SMS envoyés en 2003, 75% l’ont été par les 8-24 8-24 ansans. Les utilisateurs qui en envoient le plus sont les 8-15 ans : . Les utilisateurs qui en envoient le plus sont les 8-15 ans : 55 textos par mois et par personne. [Que choisir, déc. 2003] )55 textos par mois et par personne. [Que choisir, déc. 2003] )

Connaître les nouvelles tendances de troncation, de symboles Connaître les nouvelles tendances de troncation, de symboles utilisés. utilisés.

Si on ne connait pas la “norme” alors difficile de lire le texto :Si on ne connait pas la “norme” alors difficile de lire le texto :➔ gain de temps à écriregain de temps à écrire➔ perte de temps à déchiffrerperte de temps à déchiffrer

perte de temps à déchiffrerperte de temps à déchiffrer

Page 45: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

4545

Traduction automatiqueTraduction automatique

Intérêt d'un traducteur automatiqueIntérêt d'un traducteur automatique

C T ki ? --> c'était qui ?C T ki ? --> c'était qui ? kestufé ? --> qu'est-ce que tu fais ?kestufé ? --> qu'est-ce que tu fais ?

Publicité pour Nokia, 2002 :Publicité pour Nokia, 2002 :

Page 46: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

4646

La démarcheLa démarche

Bi-directionnel : français-texto / texto-françaisBi-directionnel : français-texto / texto-français Architecture généraleArchitecture générale

Trois étapes :Trois étapes : 1 : lecture du texte source1 : lecture du texte source 2 : langage pivot2 : langage pivot 3 : génération du texte cible3 : génération du texte cible

Page 47: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

4747

La démarcheLa démarche

Etape 1 : Lecture du texte sourceEtape 1 : Lecture du texte source L'utilisateur entre son texte :L'utilisateur entre son texte :

Soit sous forme texto :Soit sous forme texto :

HT du p1 E D poiro (acheter du pain et des poireaux)HT du p1 E D poiro (acheter du pain et des poireaux)

Soit en français :Soit en français :

J'ai une bonne idée (G 1 bon ID)J'ai une bonne idée (G 1 bon ID)

Page 48: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

4848

La démarcheLa démarche

Etape 2 : Langage pivotEtape 2 : Langage pivot Transcription à l'aide d'un système de règlesTranscription à l'aide d'un système de règles

Utilisation d'un langage pivot adéquatUtilisation d'un langage pivot adéquat

Page 49: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

4949

La démarcheLa démarche

Etape 3 : Génération du texte cibleEtape 3 : Génération du texte cible A partir du langage pivot :A partir du langage pivot :

Système de règles pour générer le texteSystème de règles pour générer le texte

Système de validation des formes produitesSystème de validation des formes produites

Pour sms-français : désambiguïsation lexico-syntaxique et Pour sms-français : désambiguïsation lexico-syntaxique et sémantiquesémantique

Pour français-sms : plusieurs productions sont possibles (ce qui Pour français-sms : plusieurs productions sont possibles (ce qui correspond à la réalité)correspond à la réalité)

Page 50: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

5050

ExempleExemple

Phrase de départ : G 1 IDPhrase de départ : G 1 ID

Langage pivot : Langage pivot :

G –> ZeG –> Ze 1 –> U~/ yn yn@1 –> U~/ yn yn@ ID –> ideID –> ide

Génération du Français :Génération du Français : Ze –> jé, jet, jei, jai, jais, jay, j'é, j'ai...Ze –> jé, jet, jei, jai, jais, jay, j'é, j'ai...

U~/ –> un, ein, ain, in...U~/ –> un, ein, ain, in... yn –> une, hune...yn –> une, hune... Yn@ –> une, hune...Yn@ –> une, hune...

Ide –> idé, idée, idai...Ide –> idé, idée, idai...

Page 51: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

5151

ExempleExemple

Validation lexicale :Validation lexicale :

J'ai un/une idée(s)J'ai un/une idée(s)

Jet un/une idée(s)Jet un/une idée(s)

Geai un/une idée(s)Geai un/une idée(s)

Jais un/une idée(s)Jais un/une idée(s)

Analyses morpho-syntaxiques et sémantiques :Analyses morpho-syntaxiques et sémantiques :

J'ai J'ai un/un/une idéeune idée(s)(s)

Jet un/une idée(s)Jet un/une idée(s)

Geai un/une idée(s)Geai un/une idée(s)

Jais un/une idée(s)Jais un/une idée(s)

Page 52: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

5252

Traitement de la paroleTraitement de la parole

1.1. Reconnaissance vocaleReconnaissance vocale

2.2. Synthèse vocaleSynthèse vocale

Page 53: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

5353

Traitement de la paroleTraitement de la parole

Définition: des techniques permettent Définition: des techniques permettent notamment de réaliser des interfaces notamment de réaliser des interfaces vocales c'est-à-dire des IHM où une partie vocales c'est-à-dire des IHM où une partie de l'interaction se fait à la voixde l'interaction se fait à la voix

Constituée de:Constituée de: Reconnaissance vocaleReconnaissance vocale Synthèse vocaleSynthèse vocale Identification de locuteurIdentification de locuteur Vérification de locuteurVérification de locuteur

Page 54: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

5454

Traitement de la parole(exemples)Traitement de la parole(exemples)

Dictée vocale sur PC: a pour Dictée vocale sur PC: a pour difficulté, la taille de vocabulaire et la difficulté, la taille de vocabulaire et la taille des phrasestaille des phrases

Applications téléphonique de type Applications téléphonique de type serveur vocal: a pour difficulté, la serveur vocal: a pour difficulté, la nécessité de reconnaître n’importe nécessité de reconnaître n’importe quelle voix dans toutes les quelle voix dans toutes les conditions.conditions.

Page 55: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

5555

La reconnaissance vocaleLa reconnaissance vocale

La reconnaissance vocale sert à retranscrire les La reconnaissance vocale sert à retranscrire les mots prononcés par un locuteur lors de mots prononcés par un locuteur lors de traitement de textes. Cette fonction permet à traitement de textes. Cette fonction permet à l’utilisateur un gain de temps considérable.l’utilisateur un gain de temps considérable.

« Parlez à votre ordinateur et il retranscrit vos « Parlez à votre ordinateur et il retranscrit vos paroles à l’écran »paroles à l’écran »

-1952 : reconnaissance des 10 chiffres, par un dispositif câblé.-1952 : reconnaissance des 10 chiffres, par un dispositif câblé.

-1994 : IBM lance son premier système de reconnaissance -1994 : IBM lance son premier système de reconnaissance vocale sur PC.vocale sur PC.

-1997 : lancement de la dictée vocale en continue par IBM-1997 : lancement de la dictée vocale en continue par IBM

Page 56: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

5656

Les principes de fonctionnementLes principes de fonctionnement

Principe de fonctionnementPrincipe de fonctionnement

Page 57: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

5757

Les principes de fonctionnementLes principes de fonctionnement

1.1. Le locuteur émet une phrase, une fois le son Le locuteur émet une phrase, une fois le son émis, il est capté par un microphone.émis, il est capté par un microphone.

2.2. Le signal vocal est ensuite numérisé à l’aide Le signal vocal est ensuite numérisé à l’aide d’un convertisseur analogique-numérique.d’un convertisseur analogique-numérique.

3.3. Le paramétrage du signal permet d’avoir une Le paramétrage du signal permet d’avoir une empreinte.empreinte.

4.4. Le décodage consiste à décrire le signal Le décodage consiste à décrire le signal acoustique en termes d’unités linguistiques. Il a acoustique en termes d’unités linguistiques. Il a pour but de segmenter le signal, l’identification pour but de segmenter le signal, l’identification des différents segments se fait en fonction des des différents segments se fait en fonction des contraintes phonétiques et linguistiques.contraintes phonétiques et linguistiques.

Page 58: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

5858

PrincipePrincipe

Traitement acoustique: Traitement acoustique: numériser le signal de numériser le signal de parole sous forme de vecteurs acoustiques de 30 parole sous forme de vecteurs acoustiques de 30 ms par les techniques de traitement du signalms par les techniques de traitement du signal

Apprentissage automatique:Apprentissage automatique: réalise une réalise une association entre les segments élémentaires de association entre les segments élémentaires de paroles et les éléments lexicaux par la technique paroles et les éléments lexicaux par la technique des Modèles MARKOV cachés ou réseaux de des Modèles MARKOV cachés ou réseaux de neuronesneurones

Reconnaissance:Reconnaissance: en concaténant les segments en concaténant les segments élémentaires de paroles précédemment appris élémentaires de paroles précédemment appris reconstitue le discours le plus probable reconstitue le discours le plus probable

Page 59: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

5959

Les facteursLes facteurs

Page 60: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

6060

Les mots isolésLes mots isolés

La phase d’apprentissageLa phase d’apprentissage : Le locuteur prononce l’ensemble du : Le locuteur prononce l’ensemble du vocabulaire souvent plusieurs fois afin de créer un dictionnaire de vocabulaire souvent plusieurs fois afin de créer un dictionnaire de référence.référence.

La phase de reconnaissanceLa phase de reconnaissance : Le locuteur un mot énoncé auparavant. : Le locuteur un mot énoncé auparavant.

Pour reconnaître les mots émis par le locuteur il y a trois parties :Pour reconnaître les mots émis par le locuteur il y a trois parties :

Le CAPTEUR permettant d’appréhender le phonème physique considéré, Le CAPTEUR permettant d’appréhender le phonème physique considéré, nous dans notre cas c’est le microphone.Un signal est émis au microphone nous dans notre cas c’est le microphone.Un signal est émis au microphone lorsque le locuteur parle.lorsque le locuteur parle.

La PARAMETRISATION des formes qui nous donne une empreinte c’est-à-La PARAMETRISATION des formes qui nous donne une empreinte c’est-à-dire la caractéristique du son (Temps/Fréquence/Intensité).dire la caractéristique du son (Temps/Fréquence/Intensité).

Et enfin l’IDENTIFICATION des formesEt enfin l’IDENTIFICATION des formes « Tout les mots prononcés sont séparés par des silences de durée « Tout les mots prononcés sont séparés par des silences de durée

supérieures à quelques dixièmes de seconde ».supérieures à quelques dixièmes de seconde ».

Page 61: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

6161

La parole continueLa parole continue

1ère approche : ASCENCANTE1ère approche : ASCENCANTE Reconstruction de la phrase à partir du signal. On se Reconstruction de la phrase à partir du signal. On se

contente de le décrypter, cette approche est souvent contente de le décrypter, cette approche est souvent utilisée pour un vocabulaire très restreint.utilisée pour un vocabulaire très restreint.

2ème approche : DESCENDANTE2ème approche : DESCENDANTE Une sorte de prédiction du mot qu’il va falloir Une sorte de prédiction du mot qu’il va falloir

reconnaître. Cette approche permet à ne pas reconnaître. Cette approche permet à ne pas avoir à tester tout le dictionnaire de la machineavoir à tester tout le dictionnaire de la machine

« C’est un discours de phrases où les mots « C’est un discours de phrases où les mots s’enchaînent sans moyen de se séparer, s’enchaînent sans moyen de se séparer, contrairement aux mots isolés ».contrairement aux mots isolés ».

Page 62: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

6262

ApplicationsApplications

Chaque application a ses propres Chaque application a ses propres caractéristiques et ses caractéristiques et ses performances :performances : Débit du flux de la parole. Pause entre Débit du flux de la parole. Pause entre

les mots (mots isolés) ou non (parole les mots (mots isolés) ou non (parole continue).continue).

Taille du vocabulaire reconnu.Taille du vocabulaire reconnu. Acceptation du bruit de fond.Acceptation du bruit de fond.

Page 63: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

6363

ApplicationsApplications

n IMB :IMB : Avec un taux de reconnaissance à 97%, la dictée d’IBM est Avec un taux de reconnaissance à 97%, la dictée d’IBM est

assez performante avec pour cadence 70 à 100 mots par assez performante avec pour cadence 70 à 100 mots par minute.Par contre ce logiciel est incapable de retrouver le minute.Par contre ce logiciel est incapable de retrouver le découpage des mots par leur sens comme pourrait le faire le découpage des mots par leur sens comme pourrait le faire le cerveau humain.cerveau humain.

n Dragon Naturally Speaking :Dragon Naturally Speaking : Ce logiciel est à la pointe de la technologie qui est marquée Ce logiciel est à la pointe de la technologie qui est marquée

par une avancée très significative.Il permet une diction la plus par une avancée très significative.Il permet une diction la plus naturelle possible, sans avoir à marquer de pauses entre les naturelle possible, sans avoir à marquer de pauses entre les mots avec une cadence d’environ 130 mots par minute et mots avec une cadence d’environ 130 mots par minute et même voir plus.Il possède un dictionnaire très varié (240000 même voir plus.Il possède un dictionnaire très varié (240000 mots) qui recouvre un vocabulaire accessible à tous. Et mots) qui recouvre un vocabulaire accessible à tous. Et surtout, il peut accueillir plusieurs locuteurs.surtout, il peut accueillir plusieurs locuteurs.

Page 64: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

6464

Synthèse vocaleSynthèse vocale

La synthèse vocale est une technologie La synthèse vocale est une technologie qui permet d'automatiser la production qui permet d'automatiser la production d'une parole artificielle par une machine.d'une parole artificielle par une machine.

• • Processus qui permet de transformer un Processus qui permet de transformer un message symbolique ou un ensemble de message symbolique ou un ensemble de paramètres de commandes, en message paramètres de commandes, en message acoustique.acoustique.

• • Synthèse à partir du texte :Text to Synthèse à partir du texte :Text to speechspeech

Page 65: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

6565

ApplicationsApplications

– – lecture d ’e-mails ou de faxlecture d ’e-mails ou de fax– – sorties vocales pour tout type d ’information sorties vocales pour tout type d ’information

présente dans une Base de Donnéesprésente dans une Base de Données– – sorties vocales pour tout type d ’information sorties vocales pour tout type d ’information

présente dans une interfaceprésente dans une interface– – livres et sites web parlantslivres et sites web parlants– – Utile pour les mal-voyants ou en cas d Utile pour les mal-voyants ou en cas d

’éclairage insuffisant’éclairage insuffisant

Page 66: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

6666

Situations favorablesSituations favorables

Message courtMessage court• • Interprétation du message simple (pas de Interprétation du message simple (pas de

répétition à la demande de l ’usager)répétition à la demande de l ’usager)• • Action relative au message immédiateAction relative au message immédiate• • Les conditions ne favorisent pas la Les conditions ne favorisent pas la

représentation visuelle (mauvais éclairage,représentation visuelle (mauvais éclairage,l ’utilisateur bouge fréquemment, écran déjà l ’utilisateur bouge fréquemment, écran déjà

surchargé d ’informations visuelles)surchargé d ’informations visuelles)• • L ’opérateur à les mains occupéesL ’opérateur à les mains occupées

Page 67: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

6767

Situations défavorablesSituations défavorables

Messages trop longsMessages trop longs

– – lecture préférable alors…lecture préférable alors…

• • Messages complexes par le sens qu’ilsMessages complexes par le sens qu’ils

véhiculentvéhiculent

– – schéma ou explication textuelle détailléeschéma ou explication textuelle détaillée

préférablespréférables

• • Environnement très bruyantEnvironnement très bruyant

• • Confidentialité nécessaireConfidentialité nécessaire

Page 68: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

6868

Les différentes générationsLes différentes générations

Synthèses vocales par règles (formants):Synthèses vocales par règles (formants):générer générer un spectre sonore artificiel à partir duquel on génère le un spectre sonore artificiel à partir duquel on génère le

signal acoustique de synthèsesignal acoustique de synthèse La seconde génération: La seconde génération: consisté à assembler des consisté à assembler des

petits segments élémentaires de parole naturelle pour petits segments élémentaires de parole naturelle pour constituer n'importe quel énoncé synthétique souhaité. constituer n'importe quel énoncé synthétique souhaité.

synthèse vocale par diphones: synthèse vocale par diphones: Les sons Les sons synthétisés sont en fait des segments d'enregistrement synthétisés sont en fait des segments d'enregistrement de parole artificiellement attachés les uns à la suite de parole artificiellement attachés les uns à la suite des autres des autres

Page 69: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

6969

Techniques de synthèseTechniques de synthèse

Traitements linguistiques:Traitements linguistiques:

1.1. Le prétraitement du texteLe prétraitement du texte

2.2. La transcription orthographiqueLa transcription orthographique

3.3. L’analyse grammaticale et lexicaleL’analyse grammaticale et lexicale

4.4. L’analyse prosodiqueL’analyse prosodique Traitements acoustiques:Traitements acoustiques:

1.1. Les méthodes de fabrication du signalLes méthodes de fabrication du signal

2.2. Modifications des paramètres prosodiquesModifications des paramètres prosodiques

Page 70: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

7070

Synthèse à partir de texteSynthèse à partir de texte

Page 71: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

7171

D’autres types de synthèsesD’autres types de synthèses

Synthèse par assemblage de motsSynthèse par assemblage de mots Synthèse par unité stockéesSynthèse par unité stockées Synthèse audio visuelleSynthèse audio visuelle

Le mouvement des lèvresLe mouvement des lèvres Agents visuelsAgents visuels

Page 72: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

7272

ConclusionConclusion

Explosion du domaineExplosion du domaine Intégration des technologies connexesIntégration des technologies connexes

Traitement en langue naturelleTraitement en langue naturelle Recherche d’informationRecherche d’information LinguistiqueLinguistique

Avenir prometteurAvenir prometteur Encore beaucoup de travailEncore beaucoup de travail

Page 73: 1 TAL (Traitement automatique des langues) Présenté par: L.BERDJEGHLOUL

7373

BibliographieBibliographie

http://fr.wikipedia.org/wiki/http://fr.wikipedia.org/wiki/Traitement_automatique_du_langage_naturelTraitement_automatique_du_langage_naturel

http://fr.wikipedia.org/wiki/Fouille_de_texteshttp://fr.wikipedia.org/wiki/Fouille_de_textes http://halshs.archives-ouvertes.fr/docs/00/03/07/47/PDF/http://halshs.archives-ouvertes.fr/docs/00/03/07/47/PDF/

b52p165.pdfb52p165.pdf http://eprints.pascal-network.org/archive/00001071/01/http://eprints.pascal-network.org/archive/00001071/01/

Usunier_RsmTxt.pdfUsunier_RsmTxt.pdf http://www.multitel.be/TTS/Download/plaquettes/http://www.multitel.be/TTS/Download/plaquettes/

synthesis_fr.pdfsynthesis_fr.pdf http://deptinfo.unice.fr/twiki/pub/Linfo/http://deptinfo.unice.fr/twiki/pub/Linfo/

PlanningDesSoutenances20032004/Benguigui-Ismais-PlanningDesSoutenances20032004/Benguigui-Ismais-Hamdan.pdfHamdan.pdf

……