![Page 1: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d81497959293b8baa2b/html5/thumbnails/1.jpg)
Indexation Parole / Musique / Bruit
Julien PINQUIER
Responsables de stage : Régine André-Obrecht et Christine Sénac
Equipe ART.ps
Institut de Recherche en Informatique de Toulouse
Soutenance DEA 2IL - 27 juin 2001
![Page 2: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d81497959293b8baa2b/html5/thumbnails/2.jpg)
2Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Plan
Cadre de l’étude
Etat de l’art
Le système
Réalisations et expériences
Conclusion et perspectives
![Page 3: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d81497959293b8baa2b/html5/thumbnails/3.jpg)
3Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Plan
Cadre de l’étude
Etat de l’art
Le système
Réalisations et expériences
Conclusion et perspectives
![Page 4: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d81497959293b8baa2b/html5/thumbnails/4.jpg)
4Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Cadre de l’étude
Importance de l’indexation
Accroissement du volume des données numériquesDescription du contenu (« norme »
ISO_MPEG7)
Analogie avec la recherche textuelle
Méthodes actuelles d’indexation : manuelles
Réduire le temps de recherche
Bande sonore souvent très complexeDiscrimination entre parole et musique
![Page 5: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d81497959293b8baa2b/html5/thumbnails/5.jpg)
5Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Signaturesmultimédia
Application et
validation
Signatures images
Signatures vidéo
Signatures texte
Signatures son
Moteur d’indexation
et de recherche
Signatures son
Documentsmultimédia
Cadre de l’étude
Le Projet de recherche : AGIR (RNRT)
Le sujet de DEA Caractérisation : Parole / Musique Un système d’indexation basé sur la modélisation différenciée Approche statistique (Modèles de Mélanges de lois Gaussiennes)
![Page 6: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d81497959293b8baa2b/html5/thumbnails/6.jpg)
6Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Plan
Cadre de l’étude
Etat de l’art
Le système
Réalisations et expériences
Conclusion et perspectives
![Page 7: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d81497959293b8baa2b/html5/thumbnails/7.jpg)
7Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Etat de l’art
Parole Structure formantique [Calliope89] Formants = Fréquences de résonance du conduit vocal
Formants
![Page 8: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d81497959293b8baa2b/html5/thumbnails/8.jpg)
8Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Etat de l’art
Musique Structure harmonique
Harmoniques
![Page 9: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d81497959293b8baa2b/html5/thumbnails/9.jpg)
9Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Etat de l ’art
Paramètres Temporels : ZCR et Energie [Saunders96], [Scheirer97] et [Zhang98] Fréquentiels : issus de la DSP [Saunders96] et [Scheirer97] Mixtes : modulation de l’énergie à 4 Hz [Scheirer97]
représente le rythme syllabique
Issus de modélisation : MFCC [Foote97]
Classification Fonctions à seuils Approche statistique
Méthodes paramétriques : mélanges de gaussiennes, MMC
Méthodes non paramétriques : k plus proches voisins...
Réseaux de neurones
musique
parole
![Page 10: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d81497959293b8baa2b/html5/thumbnails/10.jpg)
10Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Plan
Cadre de l’étude
Etat de l’art
Le système
Réalisations et expériences
Conclusion et perspectives
![Page 11: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d81497959293b8baa2b/html5/thumbnails/11.jpg)
11Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Le système
Pré traitement
Signal DécisionClassification
Modélisation Différenciée 1 classe = {Espace de représentation, Modèle}
Décomposition Parole / Musique
Description du système
2 systèmes : parole et musique
![Page 12: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d81497959293b8baa2b/html5/thumbnails/12.jpg)
12Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Le pré traitement
Parole : analyse cepstrale MFCC (18 coefficients par vecteur d’observation) Soustraction cepstrale
Musique : analyse spectrale SPL (29 coefficients par vecteur d’observation)
Accentuation Fenêtrage FFT Filtrage+Mel Log FFT -1
CoefficientsSignal
Cepstraux
Accentuation Fenêtrage FFT FiltrageCoefficientsSignal
Spectraux
![Page 13: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d81497959293b8baa2b/html5/thumbnails/13.jpg)
13Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Reconnaissance
Méthode de classification
Approche statistiqueClasse
2 modèles
NonClasse
MMG
Maximum de vraisemblance (vecteur observation - modèles)
![Page 14: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d81497959293b8baa2b/html5/thumbnails/14.jpg)
14Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
La reconnaissance
Classification Fenêtre d’analyse (256 ou 512 points)
Exemple de classification Parole / NonParole
![Page 15: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d81497959293b8baa2b/html5/thumbnails/15.jpg)
15Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
La reconnaissance
Assemblage
![Page 16: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d81497959293b8baa2b/html5/thumbnails/16.jpg)
16Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
La reconnaissance
1er Lissage (20 ms)
![Page 17: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d81497959293b8baa2b/html5/thumbnails/17.jpg)
17Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
La reconnaissance
2ème Lissage (indexation) Parole (environ 400 ms) et musique (environ 2 s)
![Page 18: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d81497959293b8baa2b/html5/thumbnails/18.jpg)
18Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
La reconnaissance
![Page 19: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d81497959293b8baa2b/html5/thumbnails/19.jpg)
19Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Le système
Pré traitement
Signal DécisionClassification
Modèles
Apprentissage
![Page 20: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d81497959293b8baa2b/html5/thumbnails/20.jpg)
20Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
L’apprentissage des MMG (supervisé)
Etiquetage manuel Transcriber (C. Barras)
http://www.etca.fr/CTA/gip/Projets/Transcriber/
Affectation des paramètres 3 fichiers labels fichiers de paramètres
![Page 21: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d81497959293b8baa2b/html5/thumbnails/21.jpg)
21Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
L’apprentissage des GMM
Initialisation des modèles : algorithme VQ Représenter les éléments d’une classe par son centroïde
Optimisation des paramètres : algorithme EM Estimation : calcul des probabilités Pnk que le vecteur yn soit généré par
la loi gaussienne k.
Maximisation : Ré-estimation des paramètres k, mk et k à partir des probabilités Pnk
K
kknk
tkn
kd
k
knkt
kn
kd
k
nk
mymy
mymy
P
1''
1''2/1
'2/
'
12/12/
)()(21
exp)2(
)()(21
exp)2(
![Page 22: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d81497959293b8baa2b/html5/thumbnails/22.jpg)
22Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
L’apprentissage des GMM
Pré traitementSignal
Coeff. Cepstraux
18
Etiquetage manuel (parole)
Affectation
Paramètres indicés
(Parole)Paramètres
indicés
(NonParole)
VQ EM
VQ EM
Parole
NonParole
Affectation
Paramètres indicés
(Musique)Paramètres
indicés
(NonMusique)
VQ EM
VQ EM
Musique
NonMusique
29
Coeff. spectraux
MODELES
16 lois gaussiennes
32 lois gaussiennes
Etiquetage manuel (musique)
![Page 23: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d81497959293b8baa2b/html5/thumbnails/23.jpg)
23Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Plan
Cadre de l’étude
Etat de l’art
Le système
Réalisations et expériences
Conclusion et perspectives
![Page 24: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d81497959293b8baa2b/html5/thumbnails/24.jpg)
24Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Réalisations et expériences
Première expérience Corpus : épisode de la série « Chapeau Melon et Bottes de Cuir »
durée totale : 50mncomposition : parole pure, musique pure et zones « mixtes »parole : téléphonique, enregistrements extérieurs, foule, poursuites de voitures…musique : cordes, vents, basses, guitare électrique, batterie …locuteurs : 4 hommes + 1 femme
Apprentissagedurée : 35mncomposante parole : zone parole pure + non parolecomposante musique : zone musique pure + non musique
Reconnaissance15mn différentes de celles de l’apprentissage
![Page 25: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d81497959293b8baa2b/html5/thumbnails/25.jpg)
25Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Réalisations et expériences
291 segments < 20 cs < 40 cs < 100 cs Omissions InsertionsParole 14 54NonParole
250 9 612 7
80 segments < 20 cs < 40 cs < 100 cs < 220 cs Omissions InsertionsMusique 0 20NonMusique
73 3 4 00 16
L’accuracy est de 95 % pour la parole et de 93 % pour la musique.
86 %
91 %
RésultatsCalcul des délais (frontières automatiques / manuelles)
Omissions et insertions
Calcul de l’accuracy : (durée corpus test - durée insertions - durée omissions ) / durée corpus test .
![Page 26: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d81497959293b8baa2b/html5/thumbnails/26.jpg)
26Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Réalisations et expériences
Exemple d’indexation automatique
Problème la parole superposée au bruit et / ou à la musique
Délai 70 cs
Lissage
Omission
![Page 27: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d81497959293b8baa2b/html5/thumbnails/27.jpg)
27Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Réalisations et expériences
Deuxième expérience Corpus
Journaux télévisés sportifs : 34mn environ
Apprentissage : 14mn
Reconnaissance : 20mn
< 20 cs < 40 cs < 100 cs Omissions InsertionsParole 1 4NonParole
446 13 50 0
Résultats (465 segments)
96 %
L’accuracy est excellente : 99,5 %.
Evolution nécessaire adapter les modèles à n’importe quelle source
apprentissage volumineux et diversifié
![Page 28: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d81497959293b8baa2b/html5/thumbnails/28.jpg)
28Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Plan
Cadre de l’étude
Etat de l’art
Le système
Réalisations et expériences
Conclusion et perspectives
![Page 29: Indexation Parole / Musique / Bruit Julien PINQUIER Responsables de stage : Régine André-Obrecht et Christine Sénac Equipe ART.ps Institut de Recherche](https://reader036.vdocuments.net/reader036/viewer/2022062404/551d9d81497959293b8baa2b/html5/thumbnails/29.jpg)
29Soutenance DEA 2IL - 27 juin 2001 Indexation Parole / Musique / Bruit
Conclusion et perspectives
Conclusion Résultats excellents, validation de la modélisation différenciée Intérêt du stage : de la recherche à l’intégration
Perspectives Adaptation des modèles à des corpus différents Indexation multimédia basée sur la fusion audio / vidéo Reconnaissance du locuteur Détection mots clés, jingles