Transcript
Page 1: Master IAD - perso.telecom-paristech.fr · Applications de téléservicessimples (ex. remplacement des DTMF..) Indépendant du locuteurs, grands vocabulaires, Langage naturel Dictée

1

Master IADModule PS

Gaël RICHARD

Février 2008

IV. Reconnaissance de la parole

Page 2: Master IAD - perso.telecom-paristech.fr · Applications de téléservicessimples (ex. remplacement des DTMF..) Indépendant du locuteurs, grands vocabulaires, Langage naturel Dictée

Gaël RICHARD – IAD - PS – Fev. 2008 2

Contenu

� Introduction aux technologies vocales

� Production et Perception de la parole

� Modélisation articulatoire

� Synthèse de la parole

� Reconnaissance de la parole

Page 3: Master IAD - perso.telecom-paristech.fr · Applications de téléservicessimples (ex. remplacement des DTMF..) Indépendant du locuteurs, grands vocabulaires, Langage naturel Dictée

Gaël RICHARD – IAD - PS – Fev. 2008 3

Reconnaissance de la paroleReconnaissance de la paroleReconnaissance de la paroleReconnaissance de la parole

� Introduction� Approches pour la reconnaissance vocale� Paramétrisation� Distances et mesure de distortion spectrale� Alignement Temporel et Programmation dynamique (DTW)� Introduction aux modèles de Markov Cachés� Base de données pour la reconnaissance� Exemples d’applications

Page 4: Master IAD - perso.telecom-paristech.fr · Applications de téléservicessimples (ex. remplacement des DTMF..) Indépendant du locuteurs, grands vocabulaires, Langage naturel Dictée

Gaël RICHARD – IAD - PS – Fev. 2008 4

Reconnaissance de la paroleReconnaissance de la paroleReconnaissance de la paroleReconnaissance de la parole

� La reconnaissance de la parole consiste à� “Transcrire en texte un message vocal (identifie la séquence de mots la plus probable)”

� S’apparente aux domaines de la compréhension:� Identifier une action/requête

� Inclut les applications de dialogue “naturel”

� S’apparente aux domaines de l’Identification/Vérification du locuteur� Identification: retrouver l’identité d’une personne parmi N� Vérification: dire si oui ou non le locuteur correspond à l’identitéprétendue

Page 5: Master IAD - perso.telecom-paristech.fr · Applications de téléservicessimples (ex. remplacement des DTMF..) Indépendant du locuteurs, grands vocabulaires, Langage naturel Dictée

Gaël RICHARD – IAD - PS – Fev. 2008 5

Reconnaissance de la parole : Quelques

applications

� Dépendant du locuteur, petits vocabulaires

� Applications de contrôle/commande (ex. téléphone portable...)

� Indépendant du locuteur, petits vocabulaires

� Applications de contrôle/commande (ex. téléphone portable...)� Applications de téléservices simples (ex. remplacement des DTMF..)

� Indépendant du locuteurs, grands vocabulaires, Langage naturel

� Dictée vocale� Téléservices plus complexes (cotes de la bourse, météo, réservation de billets, etc…)

� Indexation audio� Tri d ’appels: « How May I Help You »

Page 6: Master IAD - perso.telecom-paristech.fr · Applications de téléservicessimples (ex. remplacement des DTMF..) Indépendant du locuteurs, grands vocabulaires, Langage naturel Dictée

Gaël RICHARD – IAD - PS – Fev. 2008 6

Reconnaissance: petit historique

� Depuis le début Méthodes basées sur les connaissances des années 70 (knowledge-based, décodage

acoustico-phonétique)

� A partir du milieu Reconnaissance de mots isolés, des années 70 utilisation de la programmation

dynamique (DTW)� Début des Modèles de Markov Cachés (HMM)

années 80

� Depuis dix ans Parole continue, grands vocabulaires, techniques d'adaptation, et plus récemment dialogue naturel

Page 7: Master IAD - perso.telecom-paristech.fr · Applications de téléservicessimples (ex. remplacement des DTMF..) Indépendant du locuteurs, grands vocabulaires, Langage naturel Dictée

Gaël RICHARD – IAD - PS – Fev. 2008 7

Reconnaissance de la paroleReconnaissance de la paroleReconnaissance de la paroleReconnaissance de la parole

Niveau acoustique signal

➲➲➲➲(niveau phonétique) suite de phonèmes,

syllabes,…

➲➲➲➲Niveau Lexical Mots, suite de mots,

hypothèses de mots

Compréhension de la parole (dialogue)

➲➲➲➲Niveau sémantique concepts (intentions)

Page 8: Master IAD - perso.telecom-paristech.fr · Applications de téléservicessimples (ex. remplacement des DTMF..) Indépendant du locuteurs, grands vocabulaires, Langage naturel Dictée

Gaël RICHARD – IAD - PS – Fev. 2008 8

Complexité de la tâche de

reconnaissance

� Problèmes de variabilité� Variabilité intra-locuteur� Variabilité inter-locuteur

ð Particulièrement sensible au niveau temporel

� Co-articulation (y compris aux frontières de mots)

� Influence des conditions d’enregistrements� Téléphone, PC,..� Utilisation mobile (rue, voiture, bureau,…) / Fixe� …..

� Influence du style d’élocution� Parole lue,� Parole spontanée

Page 9: Master IAD - perso.telecom-paristech.fr · Applications de téléservicessimples (ex. remplacement des DTMF..) Indépendant du locuteurs, grands vocabulaires, Langage naturel Dictée

Gaël RICHARD – IAD - PS – Fev. 2008 9

� Caractéristiques vocales du locuteur

expression, humeur.........

� Variabilité phonologiques:

inter-locuteur ( ) intra-loc ( ), contextuel

� Bruits extérieurs

�Spontanéité

bonjour (seul)

bruit (seul)

bonjour + bruit

conversation vent ?

stop éric

rire

prononciations

hésitations reprises

scénario

accentsenfant

femme

homme

VariabilitVariabilitVariabilitVariabilitéééé: : : : quelquesquelquesquelquesquelques exemplesexemplesexemplesexemples(extraits d’exemples d’un prototype d’annuaire automatique, IBM-France)

Page 10: Master IAD - perso.telecom-paristech.fr · Applications de téléservicessimples (ex. remplacement des DTMF..) Indépendant du locuteurs, grands vocabulaires, Langage naturel Dictée

Gaël RICHARD – IAD - PS – Fev. 2008 10

Variabilité intra-locuteur

Page 11: Master IAD - perso.telecom-paristech.fr · Applications de téléservicessimples (ex. remplacement des DTMF..) Indépendant du locuteurs, grands vocabulaires, Langage naturel Dictée

Gaël RICHARD – IAD - PS – Fev. 2008 11

Variabilité inter-locuteurs

Page 12: Master IAD - perso.telecom-paristech.fr · Applications de téléservicessimples (ex. remplacement des DTMF..) Indépendant du locuteurs, grands vocabulaires, Langage naturel Dictée

Gaël RICHARD – IAD - PS – Fev. 2008 12

Environnements difficiles: résumé

� Bruits d’environnements� Bruits stationnaires (bruit de fond…), bruit non-stationnaires (bruit de porte, sonneries de téléphone, etc…)

� Déformations acoustiques� Distorsions non-linéaires (qualité et dynamique variables des microphones), réverbération, etc..

� Largeur de bande du signal de parole

� Variation d’élocution� Effet Lombard� Stress physique/émotionnel� Vitesse d’élocution� Hésitations� Bruits de bouche….

Page 13: Master IAD - perso.telecom-paristech.fr · Applications de téléservicessimples (ex. remplacement des DTMF..) Indépendant du locuteurs, grands vocabulaires, Langage naturel Dictée

Gaël RICHARD – IAD - PS – Fev. 2008 13

Les approches en reconnaissance de la

parole

� 3 principaux types d’approches

� Les approches basées sur les connaissances

� Les approches statistiques de reconnaissance des formes

� Les approches d’intelligence artificielle

Page 14: Master IAD - perso.telecom-paristech.fr · Applications de téléservicessimples (ex. remplacement des DTMF..) Indépendant du locuteurs, grands vocabulaires, Langage naturel Dictée

Gaël RICHARD – IAD - PS – Fev. 2008 14

Approches basées sur les connaissances

� Parfois appelées approches acoustico-phonétiques� Approche basée sur les connaissances phonétiques� Fait l’hypothèse

� qu’il existe un nombre finis d’unités phonétiques distinctes par langue parlée

� Que ces unités sont grossièrement caractérisées par un ensemble de propriétés visibles (ou analysables) par exemple àl’aide de la représentation spectrale

� Que les variabilités intra et inter locuteurs peuvent être décrites par des règles simples

Page 15: Master IAD - perso.telecom-paristech.fr · Applications de téléservicessimples (ex. remplacement des DTMF..) Indépendant du locuteurs, grands vocabulaires, Langage naturel Dictée

Gaël RICHARD – IAD - PS – Fev. 2008 15

Approches basées sur les connaissances

Schéma bloc d’un système de reconnaissance basée sur les connaissance (d’après L. Rabiner & B. Juang. Fundamentals of Speech

recognition. Signal prcessing series. Prentice Hall,1993.)

Page 16: Master IAD - perso.telecom-paristech.fr · Applications de téléservicessimples (ex. remplacement des DTMF..) Indépendant du locuteurs, grands vocabulaires, Langage naturel Dictée

Gaël RICHARD – IAD - PS – Fev. 2008 16

� Bilan de cette approche

� Nombreux intérêts

� Permet de générer des systèmes à vocabulaire illimité� Approche générique et peut être appliquée à d’autres langues (même si un travail important d’analyse devra être fait)

� Permet d’affiner les connaissances sur la parole (production/perception).

Approches basées sur les connaissances

Page 17: Master IAD - perso.telecom-paristech.fr · Applications de téléservicessimples (ex. remplacement des DTMF..) Indépendant du locuteurs, grands vocabulaires, Langage naturel Dictée

Gaël RICHARD – IAD - PS – Fev. 2008 17

� Bilan de cette approche

� Mais de nombreux problèmes pratiques existent. Parmi ces problèmes on peut citer:

� La nécessité d'avoir des connaissances approfondies des propriétés acoustiques des unités phonétiques et cette connaissance est, bien évidemment,incomplète.

� Le choix des caractéristiques est fait principalement sur des considérations ad hoc et est généralement le fruit de l'intuition => choix non-optimal

� Il n'existe pas de méthodes automatiques pour régler les différents paramètres du système (i.e. ajuster les seuils de décision, etc.) sur des données labellisées de parole.

ðððððððð Perspectives intPerspectives intééressantes mais nressantes mais néécessite cessite encore des efforts importants de rechercheencore des efforts importants de recherche

Approches basées sur les connaissances

Page 18: Master IAD - perso.telecom-paristech.fr · Applications de téléservicessimples (ex. remplacement des DTMF..) Indépendant du locuteurs, grands vocabulaires, Langage naturel Dictée

Gaël RICHARD – IAD - PS – Fev. 2008 18

� Approche hybride: incorporation de connaissances àpartir d’une grande variété de sources de connaissances

� Connaissances acoustiques: utilisation de connaissances spectrales, présence/absence de traits distinctifs

� Connaissances lexicales: utilisation d’un lexique� Connaissances syntaxiques: utilisation d’un modèle de langage� Connaissances sémantiques: utilisation d’un modèle sémantique

� Connaissances pragmatiques: Résolution des ambiguités de sens

Approches d’intelligence artificielle

Page 19: Master IAD - perso.telecom-paristech.fr · Applications de téléservicessimples (ex. remplacement des DTMF..) Indépendant du locuteurs, grands vocabulaires, Langage naturel Dictée

Gaël RICHARD – IAD - PS – Fev. 2008 19

Illustration des sources de

connaissances

� « Va me chercher un livre dans le frigidaire »� Syntaxe correcte mais sémantique inconsistante

� « Les cadets ont écrasé les poussins »� Interprétation pragmatique différente suivant le contexte (sportif, ferme,…)

� « voiture la contente est bleue »� Syntaxe incorrecte, sémantique inconsistante

� « La musique aboutit les mœurs »� Syntaxe correcte, Sémantique inconsistante

Page 20: Master IAD - perso.telecom-paristech.fr · Applications de téléservicessimples (ex. remplacement des DTMF..) Indépendant du locuteurs, grands vocabulaires, Langage naturel Dictée

Gaël RICHARD – IAD - PS – Fev. 2008 20

� 3 approches principales: (d’après L. Rabiner & B. Juang. Fundamentals of Speech recognition. Signal processing series. Prentice Hall,1993 )

� Approche « bottom-up »

Approches d’intelligence artificielle

Page 21: Master IAD - perso.telecom-paristech.fr · Applications de téléservicessimples (ex. remplacement des DTMF..) Indépendant du locuteurs, grands vocabulaires, Langage naturel Dictée

Gaël RICHARD – IAD - PS – Fev. 2008 21

� 3 approches principales (2/3):(d’après L. Rabiner & B. Juang. Fundamentals of Speech recognition. Signal processing series. Prentice Hall,1993 )

� Approche « top-down »

Approches d’intelligence artificielle

Page 22: Master IAD - perso.telecom-paristech.fr · Applications de téléservicessimples (ex. remplacement des DTMF..) Indépendant du locuteurs, grands vocabulaires, Langage naturel Dictée

Gaël RICHARD – IAD - PS – Fev. 2008 22

� 3 approches principales (3/3) (d’après L. Rabiner & B. Juang. Fundamentals of Speech recognition. Signal processing series. Prentice Hall,1993 )

� Approche « tableau noir »

Approches d’intelligence artificielle

Page 23: Master IAD - perso.telecom-paristech.fr · Applications de téléservicessimples (ex. remplacement des DTMF..) Indépendant du locuteurs, grands vocabulaires, Langage naturel Dictée

Gaël RICHARD – IAD - PS – Fev. 2008 23

Approches statistiques

� 2 phases principales

� L’apprentissage des unités élémentaires

� Les unités peuvent être un son, un mot, une phrase, etc…� Concept de base: un nombre suffisamment grand de chaque unitéest inclus dans l’ensemble d’apprentissage.

� Suppose que l’apprentissage est capable de caractériser les propriétés acoustiques de chaque unité

� La reconnaissance

� Reconnaissance des unités par « comparaison »

Page 24: Master IAD - perso.telecom-paristech.fr · Applications de téléservicessimples (ex. remplacement des DTMF..) Indépendant du locuteurs, grands vocabulaires, Langage naturel Dictée

Gaël RICHARD – IAD - PS – Fev. 2008 24

Approches statistiques

� Schéma bloc d’un système reconnaissance par une approche statistique (d’après L. Rabiner & B. Juang. Fundamentals of Speech recognition. Signal processing series. Prentice Hall,1993 )

Page 25: Master IAD - perso.telecom-paristech.fr · Applications de téléservicessimples (ex. remplacement des DTMF..) Indépendant du locuteurs, grands vocabulaires, Langage naturel Dictée

Gaël RICHARD – IAD - PS – Fev. 2008 25

Approches statistiques

� Approches les plus répandues actuellement en reconnaissance

� Quelques raisons de ce succès:

� Simplicité de mise en œuvre� Méthodes accessibles� Bases mathématiques rigoureuses

� Robustesse et invariance de l’approche� Aux différents vocabulaires, utilisateurs, unités choisies.� À l’environnement, aux conditions de transmission

� Performances: les résultats obtenus sur des bases de données ont maintes fois la puissance de cette approche

Page 26: Master IAD - perso.telecom-paristech.fr · Applications de téléservicessimples (ex. remplacement des DTMF..) Indépendant du locuteurs, grands vocabulaires, Langage naturel Dictée

Gaël RICHARD – IAD - PS – Fev. 2008 26

Approches statistiques

� Importance du choix de :

� La paramétrisation acoustique� Des modèles et de la classification utilisés

� Quelques remarques:

� Les performances sont dépendantes des données� Qualité, spécificité, taille

� Peu de connaissances directement liées au signal de parole sont utilisées ð relativement insensible au choix des mots du vocabulaire, de la tâche, de la syntaxe,…

� Contraintes en coût calcul peuvent devenir importantes

Page 27: Master IAD - perso.telecom-paristech.fr · Applications de téléservicessimples (ex. remplacement des DTMF..) Indépendant du locuteurs, grands vocabulaires, Langage naturel Dictée

Gaël RICHARD – IAD - PS – Fev. 2008 27

Modèles acoustiques

signal de parole

Analyse

Structure Structure Structure Structure ggggéééénnnnééééraleraleralerale

Décodage

Modèles linguistiques

séquence de mots reconnue

Page 28: Master IAD - perso.telecom-paristech.fr · Applications de téléservicessimples (ex. remplacement des DTMF..) Indépendant du locuteurs, grands vocabulaires, Langage naturel Dictée

Gaël RICHARD – IAD - PS – Fev. 2008 28

Modèles acoustiques

AnalyseDécodage

Modèles linguistiques

séquence de mots reconnue

utilisateur

reconnaissance intégrée

(téléphonemobile, assistant personnel, PC)

TroisTroisTroisTrois types types types types dddd’’’’architecturearchitecturearchitecturearchitecture (1/3) (1/3) (1/3) (1/3)

Architecture locale Architecture locale Architecture locale Architecture locale

Page 29: Master IAD - perso.telecom-paristech.fr · Applications de téléservicessimples (ex. remplacement des DTMF..) Indépendant du locuteurs, grands vocabulaires, Langage naturel Dictée

Gaël RICHARD – IAD - PS – Fev. 2008 29

séquence de mots reconnue

TroisTroisTroisTrois types types types types dddd’’’’architecturearchitecturearchitecturearchitecture (2/3) (2/3) (2/3) (2/3)

Architecture Architecture Architecture Architecture distribudistribudistribudistribuééééeeee

Modèles acoustiques

AnalyseDécodage

Modèles linguistiques

utilisateur

Calcul en local et transmission des paramètres

(codés)(téléphone mobile)

Décodage distant (serveur)

Page 30: Master IAD - perso.telecom-paristech.fr · Applications de téléservicessimples (ex. remplacement des DTMF..) Indépendant du locuteurs, grands vocabulaires, Langage naturel Dictée

Gaël RICHARD – IAD - PS – Fev. 2008 30

séquence de mots reconnue

TroisTroisTroisTrois types types types types dddd’’’’architecturearchitecturearchitecturearchitecture (3/3) (3/3) (3/3) (3/3)

Architecture Architecture Architecture Architecture distantedistantedistantedistante

Modèles acoustiques

AnalyseDécodage

Modèles linguistiques

utilisateur

transmission du signal de parole

via canal téléphonique, voix

sur IP, ...

Analyse et Décodage

distants (serveur)


Top Related