master iad - perso.telecom- .applications de téléservicessimples (ex. remplacement des dtmf..)

Download Master IAD - perso.telecom- .Applications de téléservicessimples (ex. remplacement des DTMF..)

Post on 12-Sep-2018

212 views

Category:

Documents

0 download

Embed Size (px)

TRANSCRIPT

  • 1

    Master IADModule PS

    Gal RICHARD

    Fvrier 2008

    IV. Reconnaissance de la parole

  • Gal RICHARD IAD - PS Fev. 2008 2

    Contenu

    Introduction aux technologies vocales

    Production et Perception de la parole

    Modlisation articulatoire

    Synthse de la parole

    Reconnaissance de la parole

  • Gal RICHARD IAD - PS Fev. 2008 3

    Reconnaissance de la paroleReconnaissance de la paroleReconnaissance de la paroleReconnaissance de la parole

    Introduction Approches pour la reconnaissance vocale Paramtrisation Distances et mesure de distortion spectrale Alignement Temporel et Programmation dynamique (DTW) Introduction aux modles de Markov Cachs Base de donnes pour la reconnaissance Exemples dapplications

  • Gal RICHARD IAD - PS Fev. 2008 4

    Reconnaissance de la paroleReconnaissance de la paroleReconnaissance de la paroleReconnaissance de la parole

    La reconnaissance de la parole consiste Transcrire en texte un message vocal (identifie la squence de mots la plus probable)

    Sapparente aux domaines de la comprhension: Identifier une action/requte

    Inclut les applications de dialogue naturel

    Sapparente aux domaines de lIdentification/Vrification du locuteur Identification: retrouver lidentit dune personne parmi N Vrification: dire si oui ou non le locuteur correspond lidentitprtendue

  • Gal RICHARD IAD - PS Fev. 2008 5

    Reconnaissance de la parole : Quelques

    applications

    Dpendant du locuteur, petits vocabulaires

    Applications de contrle/commande (ex. tlphone portable...)

    Indpendant du locuteur, petits vocabulaires

    Applications de contrle/commande (ex. tlphone portable...) Applications de tlservices simples (ex. remplacement des DTMF..)

    Indpendant du locuteurs, grands vocabulaires, Langage naturel

    Dicte vocale Tlservices plus complexes (cotes de la bourse, mto, rservation de billets, etc)

    Indexation audio Tri d appels: How May I Help You

  • Gal RICHARD IAD - PS Fev. 2008 6

    Reconnaissance: petit historique

    Depuis le dbut Mthodes bases sur les connaissances des annes 70 (knowledge-based, dcodage

    acoustico-phontique)

    A partir du milieu Reconnaissance de mots isols, des annes 70 utilisation de la programmation

    dynamique (DTW) Dbut des Modles de Markov Cachs (HMM)

    annes 80

    Depuis dix ans Parole continue, grands vocabulaires, techniques d'adaptation, et plus rcemment dialogue naturel

  • Gal RICHARD IAD - PS Fev. 2008 7

    Reconnaissance de la paroleReconnaissance de la paroleReconnaissance de la paroleReconnaissance de la parole

    Niveau acoustique signal

    (niveau phontique) suite de phonmes,

    syllabes,

    Niveau Lexical Mots, suite de mots,

    hypothses de mots

    Comprhension de la parole (dialogue)

    Niveau smantique concepts (intentions)

  • Gal RICHARD IAD - PS Fev. 2008 8

    Complexit de la tche de

    reconnaissance

    Problmes de variabilit Variabilit intra-locuteur Variabilit inter-locuteur

    Particulirement sensible au niveau temporel

    Co-articulation (y compris aux frontires de mots)

    Influence des conditions denregistrements Tlphone, PC,.. Utilisation mobile (rue, voiture, bureau,) / Fixe ..

    Influence du style dlocution Parole lue, Parole spontane

  • Gal RICHARD IAD - PS Fev. 2008 9

    Caractristiques vocales du locuteur

    expression, humeur.........

    Variabilit phonologiques:

    inter-locuteur ( ) intra-loc ( ), contextuel

    Bruits extrieurs

    Spontanit

    bonjour (seul)

    bruit (seul)

    bonjour + bruit

    conversation vent ?

    stop ric

    rire

    prononciations

    hsitations reprises

    scnario

    accentsenfant

    femme

    homme

    VariabilitVariabilitVariabilitVariabilit: : : : quelquesquelquesquelquesquelques exemplesexemplesexemplesexemples(extraits dexemples dun prototype dannuaire automatique, IBM-France)

  • Gal RICHARD IAD - PS Fev. 2008 10

    Variabilit intra-locuteur

  • Gal RICHARD IAD - PS Fev. 2008 11

    Variabilit inter-locuteurs

  • Gal RICHARD IAD - PS Fev. 2008 12

    Environnements difficiles: rsum

    Bruits denvironnements Bruits stationnaires (bruit de fond), bruit non-stationnaires (bruit de porte, sonneries de tlphone, etc)

    Dformations acoustiques Distorsions non-linaires (qualit et dynamique variables des microphones), rverbration, etc..

    Largeur de bande du signal de parole

    Variation dlocution Effet Lombard Stress physique/motionnel Vitesse dlocution Hsitations Bruits de bouche.

  • Gal RICHARD IAD - PS Fev. 2008 13

    Les approches en reconnaissance de la

    parole

    3 principaux types dapproches

    Les approches bases sur les connaissances

    Les approches statistiques de reconnaissance des formes

    Les approches dintelligence artificielle

  • Gal RICHARD IAD - PS Fev. 2008 14

    Approches bases sur les connaissances

    Parfois appeles approches acoustico-phontiques Approche base sur les connaissances phontiques Fait lhypothse

    quil existe un nombre finis dunits phontiques distinctes par langue parle

    Que ces units sont grossirement caractrises par un ensemble de proprits visibles (ou analysables) par exemple laide de la reprsentation spectrale

    Que les variabilits intra et inter locuteurs peuvent tre dcrites par des rgles simples

  • Gal RICHARD IAD - PS Fev. 2008 15

    Approches bases sur les connaissances

    Schma bloc dun systme de reconnaissance base sur les connaissance (daprs L. Rabiner & B. Juang. Fundamentals of Speech

    recognition. Signal prcessing series. Prentice Hall,1993.)

  • Gal RICHARD IAD - PS Fev. 2008 16

    Bilan de cette approche

    Nombreux intrts

    Permet de gnrer des systmes vocabulaire illimit Approche gnrique et peut tre applique dautres langues (mme si un travail important danalyse devra tre fait)

    Permet daffiner les connaissances sur la parole (production/perception).

    Approches bases sur les connaissances

  • Gal RICHARD IAD - PS Fev. 2008 17

    Bilan de cette approche

    Mais de nombreux problmes pratiques existent. Parmi ces problmes on peut citer:

    La ncessit d'avoir des connaissances approfondies des proprits acoustiques des units phontiques et cette connaissance est, bien videmment,incomplte.

    Le choix des caractristiques est fait principalement sur des considrations ad hoc et est gnralement le fruit de l'intuition => choix non-optimal

    Il n'existe pas de mthodes automatiques pour rgler les diffrents paramtres du systme (i.e. ajuster les seuils de dcision, etc.) sur des donnes labellises de parole.

    Perspectives intPerspectives intressantes mais nressantes mais ncessite cessite encore des efforts importants de rechercheencore des efforts importants de recherche

    Approches bases sur les connaissances

  • Gal RICHARD IAD - PS Fev. 2008 18

    Approche hybride: incorporation de connaissances partir dune grande varit de sources de connaissances

    Connaissances acoustiques: utilisation de connaissances spectrales, prsence/absence de traits distinctifs

    Connaissances lexicales: utilisation dun lexique Connaissances syntaxiques: utilisation dun modle de langage Connaissances smantiques: utilisation dun modle smantique

    Connaissances pragmatiques: Rsolution des ambiguits de sens

    Approches dintelligence artificielle

  • Gal RICHARD IAD - PS Fev. 2008 19

    Illustration des sources de

    connaissances

    Va me chercher un livre dans le frigidaire Syntaxe correcte mais smantique inconsistante

    Les cadets ont cras les poussins Interprtation pragmatique diffrente suivant le contexte (sportif, ferme,)

    voiture la contente est bleue Syntaxe incorrecte, smantique inconsistante

    La musique aboutit les murs Syntaxe correcte, Smantique inconsistante

  • Gal RICHARD IAD - PS Fev. 2008 20

    3 approches principales: (daprs L. Rabiner & B. Juang. Fundamentals of Speech recognition. Signal processing series. Prentice Hall,1993 )

    Approche bottom-up

    Approches dintelligence artificielle

  • Gal RICHARD IAD - PS Fev. 2008 21

    3 approches principales (2/3):(daprs L. Rabiner & B. Juang. Fundamentals of Speech recognition. Signal processing series. Prentice Hall,1993 )

    Approche top-down

    Approches dintelligence artificielle

  • Gal RICHARD IAD - PS Fev. 2008 22

    3 approches principales (3/3) (daprs L. Rabiner & B. Juang. Fundamentals of Speech recognition. Signal processing series. Prentice Hall,1993 )

    Approche tableau noir

    Approches dintelligence artificielle

  • Gal RICHARD IAD - PS Fev. 2008 23

    Approches statistiques

    2 phases principales

    Lapprentissage des units lmentaires

    Les units peuvent tre un son, un mot, une phrase, etc Concept de base: un nombre suffisamment grand de chaque unitest inclus dans lensemble dapprentissage.

    Suppose que lapprentissage est capable de caractriser les proprits acoustiques de chaque unit

    La reconnaissance

    Reconnaissance des units par comparaison

  • Gal RICHARD IAD - PS Fev. 2008 24

    Approches statistiques

    Schma bloc dun systme reconnaissance par une approche statistique (daprs L. Rabiner & B. Juang. Fundamentals of Speech recognition. Signal processing series. Prentice Hall,1993 )

  • Gal RICHARD IAD - PS Fev. 2008 25

    Approches statistiques

    Approches les plus rpandues actuellement en reconnaissance

    Quelques