1
Grégory [email protected]
Dilatation et transposition sous contraintes perceptives
des signaux audio :application au transfert cinéma-vidéo
2
Objectif de la thèse
CinémaCinéma(24 images/s)
VidéoVidéo(25 images/s)
Accélération du son AVEC modification
de la hauteur tonale et des formants
20%
Accélération du son SANS modificationde la hauteur tonale
ni des formants
Harmoniseur
3
II. Classification des méthodes
III. Innovations algorithmiques
IV. Conception de l’HARMO
V. Conclusion et résultats
I. Problématique
4
II. Classification des méthodes
III. Innovations algorithmiques
IV. Conception de l’HARMO
V. Conclusion et résultats
I. Problématique
5
I. Problématique Problématique liée à la hauteur tonale
- Durée T- Fréquence F
Dilatation simple
- Durée T- Fréquence F/
- Durée T- Fréquence F
Transposition-p
Dilatation-p
6
DéfinitionZones de résonance du conduit vocal, faisant partiedes caractéristiques du timbre des locuteurs.
Le traitement d’harmonisation devra compenser l’altération de la hauteur tonale et des formants
I. Problématique
Problématique liée aux formants
Expérience illustrant le rôle des formantsInhalation d’hélium (chélium > cair)
• Modification des formants (altération du timbre)• Conservation hauteur tonale
7
Format sonore multi-HP
Dolby Digital 5.1 (Cinéma, DVD)
Spatialisation de scènes sonores• Canaux indépendants• Relations de phases entre canaux
I. Problématique
Aspect multicanal
Traitement synchronisé entre canaux
8
I. Problématique
Evaluations sonores
Evaluation des algorithmes• Appréciation personnelle
• Tests informels en interne
• Tests « grandeur nature » en auditorium
Difficultés pour évaluer les algorithmes • Pas d’évaluation automatique
• Oreille unique juge de la qualité
• Inexistence de banque de sons spécifique
9
Pas de traitement • Modification de hauteur tonale de 4%
• Modification des formants
Traitement par la Lexicon 2400 • Entrées/sorties analogiques (coloration, bruit)
• Pas de possibilité de multicanal
• Qualité des sons impulsifs peu satisfaisante
• Problèmes sur certains sons complexes
I. Problématique
La technologie (non-) disponible
10
Algorithme
Machine
Qualitésonore
Formatmulticanal
EconomiqueTemps-réel
Validation sur unebanque de sons-test
Délai de réalisation
Contraintes imposéesI. Problématique
11
II. Classification des méthodes
III. Innovations algorithmiques
IV. Conception de l’HARMO
V. Conclusion et résultats
I. Problématique
Méthodes temporellesMéthodes fréquentielles
12
II. Classification - Introduction
• Problèmes abordés depuis longtemps (1928), mais résolus ?
• Bibliographie : Nombreuses études, chacun sa méthode
• Nécessité de réaliser une classification
Méthodes de dilatation-p et transposition-p
13
II. Classification – Méthodes temporelles
Méthodes temporelles « aveugles »
Avantage : SimplicitéInconvénient : Discontinuité de désynchronisation
duplication
[French 28], [Freund 35], [Schuller 44], [Lee 72]
Principe : Dupliquer et insérer des segments de durée constante
discontinuité
14
Méthodes temporelles « adaptatives »
duplication
II. Classification – Méthodes temporelles
[Malah 79], [Roucos & Wilgus 85], [Verhelst & Roelands 93], [Hejna 92]
redoublement de transitoire
Principe : Adapter le segment inséré à une période fondamentale
Avantage : Haute qualité pour les rapports <20%Inconvénient : Redoublement de transitoire
15
Compromis et hypothèses desméthodes temporelles
II. Classification – Méthodes temporelles
Compromis sur la durée du segment inséréSegment trop court :
• Discontinuité de désynchronisation sur BFSegment trop long :
•Anisochronie (irrégularité rythmique dans tempo)
Hypothèse sous-jacentePrésence d’une période fondamentale
Discontinuité sur sons inharmoniques
16
II. Classification – Méthodes fréquentielles
Méthodes fréquentielles « aveugles »
Vocodeur de phase classique
[Schroeder 66], [Flanagan & Golden 66], [Moorer 78], [Portnoff 81], [Dolson 86], [Depalle 91]…
L
t
A
F
F
E
t
A
=E/L
Principe : Espacer les spectres à court terme en modifiant les phases
Avantage : Adapté à un contexte musical (taux élevés)Inconvénient : Coloration et réverbération sur sons complexes
Etalement des transitoires
17
II. Classification – Méthodes fréquentielles
Méthodes fréquentielles « adaptatives »
Temps
Am
plit
ude
Fréquence
Am
plit
ude
A - Verrouillage de phase ([Puckette 95], [Laroche & Dolson 97])
But: Eviter coloration et réverbération sur des sons complexes
Principe: Conservation des phases dans les canaux fréquentiels d’un lobe correspondant à un partiel
Représentation temporelle Représentation fréquentielle
Fourier
18
II. Classification – Méthodes fréquentielles
B - Détection de transitoires
But : Eviter étalement des transitoires
Principe : 1. Conservation des transitoires par segmentation
[Settel 95], [Duxbury 02]
2. Conservation des relations de phase originales hors des pics [Bonada 00]
Méthodes fréquentielles « adaptatives »
19
II. Classification – Méthodes fréquentielles
Compromis temps-fréquence durée de la fenêtre temporelle d’analyse
bonnemauvaiseRésolution fréquentielle
mauvaisebonneRésolution temporelle
Fenêtre longueFenêtre courte
Adapté aux HF Adapté aux BF
Hypothèse sous-jacentePrésence d’une seule sinusoïde par canal fréquentiel
• Pas respectée pour sons complexes• Pas respectée pour sons impulsifs
Compromis et hypothèses desméthodes fréquentielles
20
II. Classification - RécapitulatifA
van
tag
es
• Hypothèse sous-jacente(présence d’une période
fondamentale)• Problème d’anisochronie
• Conservation de la forme d’onde • Puissance de calcul modérée
Inco
nvé
nie
nts
Méthodes temporelles Méthodes fréquentielles
• Bons résultats pour des taux élevés• Pas de problème d’anisochronie
• Hypothèse sous-jacente (présence d’une seule sinusoïde
par canal fréquentiel)• Puissance de calcul élevée
Co
mp
rom
is
• Courts segments insérés (adapté aux HF, transitoires,
évite anisochronie)• Longs segments insérés
(adapté uniquement aux BF)
• Courtes fenêtres d’analyse(adapté uniquement aux transitoires)
• Longues fenêtres d’analyse(adapté aux BF et sons harmoniques)
21
II. Classification - Conclusion
• Etat de l’art, revisite des méthodes
• Relations entre techniques existantes (formalisme commun)
• Expérimentation et évaluation de nombreuses méthodes
Aucune des méthodes totalement adaptée au problème Classification à l’origine d’innovations algorithmiques
22
II. Classification des méthodes
III. Innovations algorithmiques
IV. Conception de l’HARMO
V. Conclusion et résultats
I. Problématique
Méthodes coupléesMéthode temps-fréquenceMéthode HARMO
23
III. Innovations – Méthodes couplées
A - Décomposition en sous-bandes
Combinaison de méthodes temporelles / fréquentielles
Décomposition (Fc=500Hz)
BF
Reconstruction
Dilatationpar méthodefréquentielle
HF
Dilatationpar méthodetemporelle
Signal original Signal dilaté
Avantage : Evite anisochronie, discontinuités BFInconvénient : Problèmes de phase à Fc
24
III. Innovations – Méthodes couplées
B - Décomposition hybride
Dilatationpar méthodetemporelle
Dilatationpar méthodefréquentielle
Décomposition
résidu
transitoire
Reconstruction
Signal original Signal dilaté
Combinaison de méthodes temporelles / fréquentielles
Avantage : Evite l’étalement de transitoireInconvénient : Problèmes de phase à la reconstruction
25
III. Innovations – Méthode temps-fréquence
Généralisation de la méthode fréquentielle
Analyse fréquentielle adaptée à l’oreille humaine (Bark)
A
f
500Hz 20Hz
• f = constant pour f < 500 Hz : bonne résolution fréquentielle pour BF
• f/f = constant pour f > 500 Hz : bonne résolution temporelle pour HF
Avantage : Améliorations sur - sons complexes - sons transitoires
Inconvénient : Qualité insuffisante pour notre application
26
III. Innovations – Méthode HARMO
Principe de la méthode HARMOBasée sur une méthode temporelle
3 paramètres principaux :FE : Durée du fondu-enchaîné
I : Décalage du point d’insertion
K : Durée du segment inséré
I K K
FE
insertion
27
III. Innovations – Méthode HARMO
Détermination du paramètre FE
Forme du fondu-enchaîné :• Adaptée aux signaux corrélés• Adaptée aux signaux décorrélés• Adaptative
Durée du fondu-enchaîné : Adaptative• K long (segments similaires) FE long• K court (transitoire ou HF) FE court
FE
Courbes depondération
K
28
III. Innovations – Méthode HARMO
Détermination du paramètre I
Utilisation de la détection de transitoires Amélioration dans certains cas,mais pas de garantie de succès (échéance d’insertion pas repoussée indéfiniment) Pour I constant : Nécessité de trouver une solution !
I
29
III. Innovations – Méthode HARMO
Détermination du paramètre K
Estimation de similarité entre 2 segments successifs (détection de la période fondamentale) :
• Fonction de différence d’amplitude moyenne• Fonctions d’autocorrélation• Fonctions d’autocorrélation normalisée
Signaux quasi-stationnaires
Avantage : Améliorations sur les très basses fréquences Améliorations sur certains sons inharmoniques
Inconvénient : Redoublement de transitoire plus audibleAnisochronie plus audible
Ajustement des paramètres : Augmentation de K par rapport aux méthodes classiques
30
III. Innovations – Méthode HARMO
Détermination du paramètre K
2 critères de stationnarité :
• Critère de corrélation (seuillage)
• Critère énergétique (détection de transitoire)
Signal considéré stationnaire Insertion d’un segment long
Signal considéré non-stationnaire Insertion d’un segment court
Signaux transitoires
Avantages : Redoublement moins audible (masquage temporel) Anisochronie diminuée
31
III. Innovations - Conclusion
Méthode HARMOMeilleur compromis, satisfaisant les contraintes
• de qualité sonore• temps-réel• multicanal• économiques
Algorithme sélectionné pour implantation sur HARMO
Méthodes couplées & méthodes temps-fréquence• Résultats encourageants• Mais qualité actuellement insuffisante pour l’application
Conclusion
32
II. Classification des méthodes
III. Innovations algorithmiques
IV. Conception de l’HARMO
V. Conclusion et résultats
I. Problématique
Matériel Logiciel
33
IV. Conception de l’HARMO
Processeurs : 2 DSP : « Analog Device SHARC 21065L », 60MHz • 1 pour l’algorithme• 1 pour l’IHM et la communication entre machines
DSP
Matériel [Deschamps]
Rééchantillonnage : Composant spécialisé (SRC) : « Crystal CS8420 »
SRC
Multicanal: Lien physique synchronisant les paramètres
Liens
34
IV. Conception de l’HARMO
Codage:• Mémoire interne limitée :
Program Memory (PM) : 36KoData Memory (DM) : 32Ko
Traitement de l’ autocorrélation normalisée « au vol » Traitement du fondu-enchaîné « au vol »
• Optimisation Mise de données en PM pour la Multiplication-Accumulation Certaines routines en assembleur (le reste en C)
Logiciel [Monteil, Adam, Pallone]
Multicanal: • 1 machine « maître », les autres « esclave » ou « indépendant »• Création d’un signal de référence (respect des relations de phase)
Liaison entre machines:• Création d’un protocole de communication
35
II. Classification des méthodes
III. Innovations algorithmiques
IV. Conception de l’HARMO
V. Conclusion et résultats
I. Problématique
36
Des contraintes respectées…
Algorithme
Machine
Contraintede qualité
sonore
Contraintede formatmulticanal
Contrainte économique
Contraintetemps-réel
Validation sur unebanque de sons-test
Contrainte de délai de réalisation
V. Conclusion
37
… et des contributions apportées.
Algorithme
V. Conclusion
Classificationdes méthodes
Innovationsalgorithmique
s
Elaboration d’une banque
de sons-test spécifique
38
Films traités par l’HARMO(liste non-exhaustive des films sortis jusqu’en janvier 2002)
Réalisateur Date de sortie
Conversion cinéma --> vidéoLe stade de Wimbledon Mathieu Almaric 30/01/2002L'emploi du temps Laurent Cantet 14/11/2001Va savoir Jacques Rivette 10/10/2001Une hirondelle a fait le printemps Christian Carion 05/09/2001Mauvais genre Francis Girod 08/08/2001Trouble every day Claire Denis 11/07/2001Eloge de l'amour Jean-Luc Godart 16/05/2001Les visiteurs en Amérique (just visiting) Jean-Marie Gaubert 11/04/2001Yamakasi Ariel Zeitoun 04/04/2001Intimité (Intimacy) Patrice Chereau 28/03/2001Barnie et ses petites contrariétés Bruno Chiche 21/02/2001Le pacte des loups Christophe Gans 31/01/2001Calle 54 Fernando Trueba 13/12/2000Harry un ami qui vous veut du bien Dominik Moll 15/08/2000Taxi 2 Gérard Krawczyk 29/03/2000
Conversion vidéo --> cinémaSuper 8 stories Emir Kusturica 10/10/2001Loin André Techiné 29/08/2001
V. Conclusion
39
V. Conclusion
VOIXSuzanne Vega« Tom’s diner »
MUSIQUE(Voix + accordéon)
Jacques Brel« Vesoul »
Démonstration temps-réel de l’HARMO
Dilatationsimple(+20%)
Transposition-p(+20%)
Dilatation-p(+20%)
Dilatation-p(-20%)
Original Harmonisé
Dilatationsimple(-20%)
Transposition-p(-20%)
Original Harmonisé