tdnn for speech recognition

Time Delay Neural Networks for Speech Recognition

Víctor González PachecoTécnicas de IA con Inspiración Biológica

Máster en Ciencia y Tecnología InformáticaEnero 2009

Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 2

Índice Introducción Arquitectura de una TDNN Aplicación a clasificación de Fonemas Interpretación de la representación espacio-

temporal de una TDNN Conclusiones


Introducción Redes Neuronales “clásicas”

− Clasificación− Patrones no variables en el tiempo

¿Cómo clasifico patrones variables en el tiempo?

− Time-Delay Neural Networks


Arquitectura de la TDNN Waibel et al. (trabajos de 1988-1989) Reconocimiento de Fonemas

− Clasificación de los fonemas /b, d, g/ en japonés Red Neuronal construida

− 3 capas− Cada capa enlaza una serie de “celdas” de

retardo temporal


Arquitectura interna de una Celda Cada celda de entrada aplica una función

sigmoide a pesos− N =Número de características del vector f(t)− K = Número de vectores retrasados

La entrada se compone de − K+1 vectores {f

j(t),...,f

j(t-k),...,f

j(t-K)}

− Con características 1 ≤ j ≤ N

N∗K١


Arquitectura Interna de una Celda

K = vectores retrasados N = Características vector


Arquitectura de la TDNN Clasificación fonemas /b, d, g/ Entrada de la red N=16, K=2

− Las celdas de la 1ª capa oculta No reciben datos hasta que hay 3 vectores

Vectores separados 10ms− 1ª capa oculta genera datos a los 30ms− Genera salidas cada 10ms


Arquitectura de la TDNN 1ª capa oculta

− 8 celdas organizadas en una columna− Celdas totalmente conect. a las 16 celdas de la capa de entrada− Generan salida con 3 vectores de la capa de entrada

2ª capa oculta− 3 celdas por columna− Totalmente conectadas a las 8 celdas de la 1ª capa oculta− Generan salida con 5 vectores de la 1ª C.O.

Capa de salida

− 3 celdas de salida (/b,d,g/)− Conectadas a sólo 1 celda de la 2ª C.O.− Salida con 9 vectores de la 2ª C.O.


Arquitectura de la TDNN


Aplicación para clasificación de fonemas Vocabulario Japonés (fonemas /b,d,g/) 3 anunciantes profesionales (800 fonemas

por hablante) Red neuronal entrenada para cada

hablante Sonidos proporcionaban 15 vectores

espaciados 10ms. Fiabilidad de la red 98,5% Otros métodos (HMM): 93,5%


Interpretación de la representación espacio-temporal de una TDNN Red distingue fonemas en condiciones

difíciles Contextos fonéticos varían según palabras

− Posicionamiento de la boca varía para fonemas según sus fonemas anteriores y posteriores

Clasificación del fonema /d/− /da/− /do/


Interpretación de la representación espacio-temporal de una TDNN Input Layer

/da/ /do/


Interpretación de la representación espacio-temporal de una TDNN

1ª C.O.

/da/ /do/

2ª C.O.


Interpretación de la representación espacio-temporal de una TDNN

Varianza temporal− ±30ms

/do/

+30ms -30ms


Resumen Método eficiente (98,5% en las pruebas) Robusto

− Variaciones contextuales− Variaciones temporales

Otras pruebas realizadas mejoran métodos anteriores en diferentes contextos.

Difícil escalar para vocabularios extensos


Referencias[1] A. Waibel, T. Hanazawa, G.E. Hinton, K. Shikano and K.J. Lang,

“Phoneme recognition using time-delay neural networks,” IEEE Trans. Acoust., Speech, Signal Processing, vol 37 (3), March 1989, pp. 328-339

[2] D.P. Morgan, C.L. Scofield, “Neural Networks and Speech Processing”, Kluwer Academic Publishers, 1991, pp. 230-242.


Gracias por su atención

tdnn for speech recognition

Education