2 theme : le son chapitre emetteurs et recepteurs...
TRANSCRIPT
2ème THEME : LE SON
CHAPITRE EMETTEURS ET RECEPTEURS SONORES
TP RECONNAISSANCE VOCALE
NOTIONS ABORDEES :
Utilisation d’Audacity
Etude d’un spectrogramme
I. TENTATIVE DE RECONNAISSANCE VOCALE
L’analyse temporelle d’un son vocal permet a priori la reconnaissance vocale
1. Manipulation
Brancher le casque avec microphone au PC
Ouvrir le logiciel Audacity
Enregistrer sous Audacity des phrases vocales à bases de syllabes, prononcées très distinctement : « ma-te-pi-ka-
mion »
Visualiser le signal temporel obtenu
Identifier les signaux correspondant à chaque syllabe, et créer de nouvelles pistes pour chaque syllabe (sélectionner la
partie correspondant à la syllabe, puis menu édition -> scinder dans une nouvelle piste)
Enlever les blancs (sélectionner la partie vide, et cliquer sur l’icone )
Zoomer de façon à bien observer les signaux correspondant à chaque syllabe
Prononcer et enregistrer les mots suivants : « camion », « maman », « tapis »
Refaire l’enregistrement avec une autre personne prononçant les mêmes mots
2. Exploitation
1) Evaluer la proportion de silence dans les signaux. Est-elle conforme à l’impression perçue ?
2) Distinguer dans chaque syllabe la partie associée à la voyelle de celle associée à la consonne. Laquelle est la plus facile à
reconnaître ? Proposer une explication
3) Identifier sur les courbes chacun des sons prononcés (t, m, i, a, …)
4) Comparer les signaux correspondant aux mots issus des phrases vocales afin de reconnaître les syllabes prononcées
5) Comparer les deux signaux temporels obtenus pour un même mot
6) Présenter les contraintes rencontrées lors d’une reconnaissance vocale
II. PRINCIPE ET APPLICATIONS : ETUDE D’UN SPECTROGRAMME
1. Principe
Les logiciels de reconnaissance vocale utilisent une analyse spectrale du signal numérique associé au son. Le spectrogramme
d’un mot est comparé à une table de formants
Le premier formant (F1) est déterminé par la position de la mandibule, le deuxième (F2) par celle de la langue et des lèvres et
le troisième (F3) par celles des lèvres
1) Déterminer les fréquences des formants aux dates t = 0,3 s ; t = 0,5 s et t = 0,7 s
Date 0,3 0,5 0,7
Fréquences (Hz)
2) En déduire les voyelles correspondantes
Il existe plusieurs types de consonnes, réparties en trois groupes :
Les fricatives (s, f, v,…). Le son engendré est turbulent et riche en hautes fréquences
Les occlusives (b, p, d, g…). Lors de leur prononciation, le conduit phonatoire est brièvement fermé, un silence est
donc visible
Les vocaliques (r, l, m, n …). Elles ont une structure formantique (comme les voyelles)
3) Justifier que les trois consonnes appartenant au mot prononcé aux dates t = 0,2 s ; t = 0,4 s, et t = 0,6 s peuvent être
m, s et d
4) En déduire le mot prononcé
Enfin, il faut que l’ordinateur reconnaisse le mot prononcé dans son dictionnaire
5) Justifier qu’il est nécessaire de procéder à plusieurs enregistrements avant d’utiliser un logiciel de reconnaissance
vocale
6) Enoncer les difficultés rencontrées lorsque le logiciel retranscrit ce qui a été dit
2. Application
Sur Audacity, enregistrer un mot et identifier les différentes lettres, en traçant le spectre :
III. ANALYSE ET SYNTHESE DE DOCUMENTS SCIENTIFIQUES