multimédia - sorbonne-universiteetape 3 : la communication • essentiellement monomédia, la...
TRANSCRIPT
![Page 1: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/1.jpg)
Multimédia Licence LIOVIS
Parole Modélisation & reconnaissance
![Page 2: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/2.jpg)
Plan du cours
1. Introduction au multimédia et à la parole
2. Acquisition
3. Codage
4. Reconnaissance
![Page 3: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/3.jpg)
L’avènement du « tout numérique » • Montée en puissance progressive du « tout numérique »
Informatique
Télécommunications Médias et industries de la communication
![Page 4: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/4.jpg)
Etape 1 : l’informatique • La machine à différences de Babbage (1791) • Les ordinateurs à lampes (1950) • Les microprocesseurs (1980)
Un outil dont l’utilisation se propage à un nombre croissant d’utilisateurs
![Page 5: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/5.jpg)
Etape 2 : les télécommunications • L’évolution de l’informatique catalyse les télécommunications • Les lignes téléphoniques ne supportent que le signal analogique
TELEMATIQUE = TELEcommunications + inforMATIQUE
• Numérisation des lignes téléphoniques : Modulation par impulsion et codage (MIC) ou PCM (Pulse Code Modulation) • Cable, fibre optique, liaison hertzienne, satellite
1ère cohabitation données/son : utilisation d’un convertisseur ou MODulateur/DEModulateur : Le MODEM
![Page 6: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/6.jpg)
Etape 3 : la communication
• Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur
• Le numérique est une opportunité pour les industries de la communication : - informatisation des procédés et techniques de travail, - élargissement des supports (compression de l’information = plus de place
aux médias) • Mais également une menace : les frontières des différents secteurs s’estompent.
• Le développement de la communication est directement le fruit d’innovations
L’écrit Le son L’image
manuscrits livre
presse radio disque dessin et peinture
cinéma photographie
télévision
Imprimerie Gutemberg
Phonographe Cros
Liaison hertzienne Hertz
Tube cathodique Edison, Senlecq
![Page 7: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/7.jpg)
Du « tout numérique » au multimédia
• MULTIMEDIA : élaboration de documents comprenant de MULTiples MEDIAS
De nouveaux types de produits et services émergent peu à peu
Nouveaux modes de représentation du réel
• Synthèse, simulations, réalité virtuelle
Enrichissement et redimensionnement
de l’information
Encyclopédie : texte + image
+ commentaire oral + séquence vidéo
Synthèse : jeux vidéo
Presse électronique
Interactivité et navigation
Cours magistral Dialogue conversation
Sens multiples : texte et hypertexte
Enchaînement linéaire des idées
Assemblage d’explorations possibles autour d’une idée
![Page 8: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/8.jpg)
Support technologique de l’émergence du multimédia
• L’acquisition et la numérisation permettent la création des objets multimédia
• Compression et codage réduisent la quantité de données de façon réversible et non réversible
• L’objet multimédia peut être stocké sur un support ou utilisé comme un service
• Le service multimédia nécessite des structures de transmission adaptées à des flux importants de données numériques
Création distribution Numérisation Codage compression
Stockage infrastructure
Émergence du multimédia
Commercialisation
produits services
![Page 9: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/9.jpg)
Numérisation du son • Le son est une information complexe car dynamique • Analogique, à variations continues, on peut représenter le son comme un flux
d’ondes • Étendue du spectre auditif : de 20Hz à 20kHz • Bande passante du téléphone : entre 300Hz et 3400Hz • Bande passante du disque CD : jusqu’à 20kHz
![Page 10: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/10.jpg)
Conversion AN-NA • Étape difficile : sensibilité au bruit et perturbations, coût élevé • Instabilités temporelles : le jitter
• du 16 au 24 bits : fiabilité limitée dans les bits de poids faibles
• Repliement du spectre ou aliasing
Tops théoriques
Tops échantillons
-60dB
0dB
16 bits = 65536 niveaux (96dB) ~ 14 bits réels 24bits = 16777216 niveaux (144dB) ~ 21.22 bits réels
• Dynamique limitée : problème de la saturation des signaux numériques
![Page 11: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/11.jpg)
Multimédia
La parole
![Page 12: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/12.jpg)
Mécanisme de la phonation
![Page 13: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/13.jpg)
Production de la parole
Trois grandes étapes
La souflerie
Le voisement
La gestuelle articulatoire poumons
Cordes vocales
Conduit vocal et
fosses nasales
![Page 14: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/14.jpg)
Les sons de la parole
Mécanismes de production
Vibration des cordes vocales
Turbulences de l’air dans le conduit vocal
Relâchement d’une occlusion dans le conduit vocal
Source de voisement
Sources de bruit
Caractéristiques acoustiques de la parole
![Page 15: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/15.jpg)
Description phonétique
Établir des distinctions entre les unités de signification
Les phonèmes sont les éléments sonores les plus brefs qui permettent de distinguer différents mots
[k] dans « qui » == [k] dans « cou »
Articulations différentes
même phonème en français
phonèmes différents en hongrois
Les phonèmes ne tiennent compte que des caractéristiques acoustiques pertinentes
pour les distinctions de signification
Les 36 phonèmes français
![Page 16: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/16.jpg)
Classification en traits distinctifs Les phonèmes et les traits distinctifs sont des éléments abstraits
Liés aux éléments de signification. Ils ne spécifient pas Complètement le signal acoustique
nasalité
Degré d’ouverture Du conduit vocal Position de la constriction principale
Du conduit vocal
Protrusion des lèvres (arrondissement)
voisement Mode d’articulation
Position de la constriction principale (lieu d’articulation)
voyelles
consonnes
- orales - nasales
- antérieures - postérieures
- arrondies - non arrondies
- voisées - non voisées - occlusif
- nasal - fricatif - glissant - liquide
- labiales - dentales - vélo-palatales
![Page 17: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/17.jpg)
Audition
![Page 18: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/18.jpg)
Analyse acoustique descriptive L’analyse fréquentielle
Équivalence des représentations Temps et fréquences
Exemple : le « la 440 Hz »
![Page 19: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/19.jpg)
Signal de la parole
« She had your dark suit in greasy Wash water all year »
temps
temps
« Suit »
![Page 20: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/20.jpg)
Spectre
« Suit »
![Page 21: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/21.jpg)
Représentation spectrographique
![Page 22: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/22.jpg)
Applications en parole
Reconnaissance de la parole Transmission
de la parole
Reconnaissance du locuteur
- IHM - Parole continue - Mots isolés - Locuteur
(Vérification) (identification)
- Téléphonie filaire - GSM, GPRS, UMTS - Transmissions audiovisuelles - Stockage, restitution de message vocaux
- IHM - Synthèse à partir du texte
(lecture automatique de messages écrits) (questionnement de bases de données) (alarmes dans les centres de surveillance) (aide aux handicapés) (etc.)
![Page 23: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/23.jpg)
Pré-traitement pour la reconnaissance
Preacc. fenêtrage Codage Vecteurs acoustiques
Segmentation Découpage en trames signal
![Page 24: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/24.jpg)
0 0.5 1 1.5 2 2.5 3 3.5
x 104
-1
-0.5
0
0.5
1
0 0.5 1 1.5 2 2.5 3 3.5
x 104
-1
-0.5
0
0.5
1
1.25 1.3 1.35 1.4 1.45 1.5 1.55
x 104
-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0 50 100 150 200 250 300-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
Élimination du bruit
Découpage en trames
acquisition
![Page 25: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/25.jpg)
Détection parole / bruit
Variance court terme du mot parenthèse
Variance du signal à comparer avec la variance du bruit
![Page 26: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/26.jpg)
Segmentation phonétique
1.25 1.3 1.35 1.4 1.45 1.5 1.55
x 104
-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
Découpage du signal en trames entrelacées
Occurrences Du même phonème
Phonème
Décision sur plusieurs trames
![Page 27: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/27.jpg)
0 50 100 150 200 250 300-1
0
1
0 50 100 150 200 250 3000
20
40
0 50 100 150 200 250 300-0.2
0
0.2
0 50 100 150 200 250 3000
2
4
0 50 100 150 200 250 300-0.2
0
0.2
0 50 100 150 200 250 3000
1
2
trame
spectre
Pré-accentuation
Fenêtrage (Hamming)
![Page 28: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/28.jpg)
0 50 100 150 200 250 300-0.1
-0.05
0
0.05
0.1
0.15
a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12
Preacc. fenêtre Codage Vecteurs acoustiques
signal
Codages MFCC LPC FFT …
![Page 29: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/29.jpg)
Codage LPC
a) Conduit vocal b) Modèle acoustique à
réflexion c) Modélisation par
lignes électriques
Modèle du conduit vocal
![Page 30: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/30.jpg)
Modélisation linéaire (LPC)
Coefficients LPC
![Page 31: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/31.jpg)
Reconnaissance niveaux de complexité
• Dépendance du locuteur
• Mots isolés ou parole continue
• Taille du vocabulaire
• Conditions d’acquisition
Variabilité inter et intra-locuteur
Détection et reconnaissance de mots clés
Le degré de confusion augmente avec la taille
Dégradation rapide des performances
![Page 32: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/32.jpg)
Robustesse des reconnaisseurs de parole
• Bruits d’environnement • Bruits corrélés au signal de parole (ex :reverb.)
• Microphones, prise de son • Bande passante fréquentielle limitée • Élocution inhabituelle
![Page 33: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/33.jpg)
Etapes de la reconnaissance
Acquisition des vecteurs acoustiques
Classification des vecteurs
Alignement temporel
Analyse syntaxique, sémantique, pragmatique
Hypothèses locales
Score global au niveau de la phrase
Contraintes vocabulaire, grammaire, sens
Acquisition et Codage
![Page 34: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/34.jpg)
Méthodes de reconnaissance
• Statistiques
• Directes
• Connexionnistes
• Structurelles
Décision Bayésienne Chaînes de Markov cachées (HMM)
K-ppv et Distances Fonctions discriminantes
Modélisation Discrimination
Programmation dynamique (DTW)
![Page 35: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/35.jpg)
Décision par les plus proches voisins
Aucune hypothèse sur la forme des classes ou sur celle de leurs séparatrices
Simple à mettre en oeuvre
Statistiquement efficace
Temps de calcul prohibitifs
Problème de la métrique
![Page 36: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/36.jpg)
Méthodes structurelles : DTW
Classification phonétique
Étape intermédiaire (classification locale)
Etape entachée d’erreurs (variabilité spectrale importante)
Contraintes de niveau supérieur Nécessaires pour réduire les erreurs
Reconnaissance de mots
![Page 37: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/37.jpg)
Reconnaissance de mots
Comparaison de séquences de vecteurs acoustiques
5000 6000 7000 8000 9000 10000 11000 12000 13000 14000-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
Séquence de 59 trames 59 vecteurs acoustiques
« sept »
![Page 38: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/38.jpg)
Reconnaissance de mots (suite)
1.2 1.25 1.3 1.35 1.4 1.45 1.5 1.55 1.6
x 104
-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
« un »
Séquence de 25 trames 25 vecteurs acoustiques
Séquences de longueurs différentes
![Page 39: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/39.jpg)
Distance entre chaînes : la distance d’édition
• On note S(u,v) la substitution de u par v • X.$ = $.x = x pour tout mot x • Insertion = substitution de $ (S($,u)) • Suppression = substitution par $ (S(u,$)) • Matrice des coûts : C(u,v) : C(u,u) = 0 et C(u,v) > 0
La matrice des coûts permet de palier aux problèmes de mauvaise Segmentation si la différence de coût est faible pour une erreur donnée
![Page 40: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/40.jpg)
Distance d’édition : algorithme
Calcul par récurrence d’une fonction D(i,j) : les distances cumulées
X = a1a2a3…an Y = b1b2b3…bm
X(i) = a1a2a3…ai Y(j) = b1b2b3…bj
X(0) = y(0) = $ D(n,m) = d(x,y) D(0,0) = d($,$) = 0
D(i-1,j) + C(ai,$) D(i,j) = min D(i,j-1) + C($,bj) D(i-1,j-1) + C(ai,bj)
![Page 41: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/41.jpg)
$ a a b c c b d e e a b b d $ 0 1 2 3 4 5 6 7 8 9 10 11 12 13 a 1 0 1 2 3 4 5 6 7 8 9 10 11 12 b 2 1 1 1 2 3 4 5 6 7 8 9 10 11 c 3 2 2 2 1 2 3 4 5 6 7 8 9 10 b 4 3 3 2 2 2 2 3 4 5 6 7 8 9 d 5 4 4 3 3 3 3 2 3 4 5 6 7 8 e 6 5 5 4 4 4 4 3 2 3 4 5 6 7 e 7 6 6 5 5 5 5 4 3 2 3 4 5 6 b 8 7 7 6 6 6 5 5 4 3 3 3 4 5 d 9 8 8 7 7 7 6 5 5 4 4 4 4 4 a 10 9 8 8 8 8 7 6 6 5 4 5 5 5
Distance d’édition : exemple x = aabccbdeeabbd y=abcbdeebda Les coûts non nuls sont tous égaux à 1
Distance = 5
![Page 42: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/42.jpg)
$ a a b a c $ 0 0.5 1 1.5 2 2.5 a 0.5 0 0.5 1 1.5 2 b 1 0.5 1 0.5 1 1.5 d 1.5 1 1.5 1 1.5 2
x = aabac y=abd
Distance d’édition : autre exemple
Coûts d’insertion/suppression : 0.5,
Coûts de substitution si symboles différents : 1, sinon 0
Distance = 2
![Page 43: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/43.jpg)
Distance d’édition : les limites de cette métrique
• Limitation aux substitutions d’ordre 1 • Non prise en compte de paramètres numériques
On ne dispose que de l’alphabet des symboles pour représenter la réalité des formes
![Page 44: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/44.jpg)
Distance d’édition avec attributs numériques :
Distance de Bellman :
D(i-1,j) + C(ai,$) D(i,j) = min D(i,j-1) + C($,bj) D(i-1,j-1) + C(ai,bj)
D(i-1,j) + d(ai,bj) D(i,j) = min D(i,j-1) + d(ai,bj) D(i-1,j-1) + 2d(ai,bj)
C(ai,$) = || ai || C($,bj) = || bj || C(ai,bj) = || bj – ai ||
Exemple : d(ai,bj) = || bj – ai ||
![Page 45: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/45.jpg)
Algorithme DTW (Dynamic Time Warping)
D(i-2,j-1) + 2d(i-1,j) D(i,j) = d(i,j) + min D(i-1,j-1) + d(i,j) D(i-1,j-2) + 2d(i,j-1)
D(i-1,j) D(i,j) = d(i,j) + min D(i-1,j-1) D(i-1,j-2)
D(i-1,j) D(i,j) = d(i,j) + min D(i,j-1) + d(i,j) D(i-1,j-1) 1
1 2
1
1
2
2 2
1 1 1
i-2
i-1
i j j-1 j-2
j j-1 j-2
j j-1 j-2
i-2
i-1
i
i-2
i-1
i
Bellman
Itakura
![Page 46: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/46.jpg)
Distances locales
Distance euclidienne
Distance de Mahalanobis (Euclidienne pondérée : toutes les classes ont même matrice de covariance)
Distance d’Itakura (vecteurs LPC)
Le choix de la distance influence fortement la classification
Ex (problème des distances cumulées dans le temps): Bé, Cé, Dé, Gué, Té, Vé
Vers des métriques perceptives
![Page 47: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/47.jpg)
Distances associées aux normes Ln
n = 1 (simple à évaluer)
n = 2 (euclidienne : la plus utilisée)
n = infini (tchebichef)
Problème des distances cumulées dans le temps
![Page 48: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/48.jpg)
Distance de Mahalanobis
Prise en compte des densités de probabilité
Estimation des densités de probabilité
Méthode paramétrique : hypothèse gaussienne
Grand nombre d’exemples nécessaire pour l’estimation des moyennes et variances
d(a,b) = (b-a) Γ-1 (b-a)T
dM dE
mx my
![Page 49: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/49.jpg)
Distance d’Itakura
Coefficients d’autocorrélation Du signal à reconnaître
Coefficients du filtre modélisant le signal à reconnaître
Coefficients du filtre modélisant le signal de référence
![Page 50: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/50.jpg)
Distance d’Itakura (suite)
a = 1/A Erreur de prédiction
Signal de parole
A Signal de parole
Bruit blanc ou Peigne de Dirac
a = 1/A
b = 1/B
Signal de parole à reconnaître
Xb Erreurs de prédiction
![Page 51: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/51.jpg)
Filtre inverse
![Page 52: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/52.jpg)
DTW : contraintes
Longueur du mot de référence
Longueur du kème mot testé
Contraintes locales : prédécesseurs limités garantissant un chemin strictement gauche-droite
Contraintes globales : réduction de l’espace de recherche
Contraintes de monotonicité du chemin : Début en (1,1), fin en (N,J(k))
![Page 53: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/53.jpg)
0 0.5 1 1.5 2 2.5 3 3.5
x 104
-1
0
1
0 0.5 1 1.5 2 2.5 3 3.5 4
x 104
-1
0
1
0 0.5 1 1.5 2 2.5 3 3.5 4
x 104
-1
0
1
0 0.5 1 1.5 2 2.5 3 3.5 4
x 104
-1
0
1
0 0.5 1 1.5 2 2.5 3 3.5 4
x 104
-1
0
1
0 0.5 1 1.5 2 2.5 3 3.5 4
x 104
-1
0
1
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5
x 104
-1
0
1
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5
x 104
-1
0
1
1
2
3
4
5
6
7
8
Modèles
![Page 54: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/54.jpg)
1 2 3 4 5 6 7 80
20
40
1 2 3 4 5 6 7 80
10
20
1 2 3 4 5 6 7 80
20
40
1 2 3 4 5 6 7 80
10
20
1 2 3 4 5 6 7 80
50
1 2 3 4 5 6 7 80
20
40
1 2 3 4 5 6 7 80
10
20
1 2 3 4 5 6 7 80
20
40
1
2
3
6
4
5
7
8
Les 8 modèles
Les 8 tests
![Page 55: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/55.jpg)
Méthodes connexionnistes
Réseaux prédictifs
Réseaux MLP
Réseaux à poids partagés (TDNN)
![Page 56: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/56.jpg)
Classification phonétique
Par discrimination Par modélisation
Trames codées
Réseau
phonème
Trames codées
Erreurs de prédiction
C4
C3
C2
C1
e2
e1
e3
e4
![Page 57: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/57.jpg)
Réseaux prédictifs
Erreurs de prédiction
C4
C3
C2
C1
e2
e1
e3
e4 Trames codées
classes
Réseaux prédictifs
![Page 58: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/58.jpg)
• But de l’apprentissage : déterminer les paramètres des prédicteurs pour minimiser l’erreur de prédiction
• Approche par modélisation : chaque réseau modélise un
phonème, un groupe de phonèmes ou un mot • Reconnaissance : comparaison des traits acoustiques avec
Chacun des modèles par calcul de l’erreur de prédiction
![Page 59: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/59.jpg)
MLP
Trames précédentes Trames suivantes
Trames acoustiques
Trames prédites
Matrice de distorsions
![Page 60: Multimédia - sorbonne-universiteEtape 3 : la communication • Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur • Le numérique est](https://reader036.vdocuments.net/reader036/viewer/2022062603/5f72f4d6601b126b792c9f0f/html5/thumbnails/60.jpg)
Performances en vérification du locuteur