tdnn for speech recognition
DESCRIPTION
Presentación de Víctor González para la asignatura Técnicas de Inteligencia Artificial con Inspiración Biológica del Máster en Ciencia y Tecnología Informática.En la presentación se habla de un Paper de Waibel (1989) sobre Redes Neuronales de Retardo Temporal (TDNN) para el reconocimiento de voz.TRANSCRIPT
![Page 1: TDNN for speech recognition](https://reader033.vdocuments.net/reader033/viewer/2022042816/559751311a28abb94f8b45b1/html5/thumbnails/1.jpg)
Time Delay Neural Networks for Speech Recognition
Víctor González PachecoTécnicas de IA con Inspiración Biológica
Máster en Ciencia y Tecnología InformáticaEnero 2009
![Page 2: TDNN for speech recognition](https://reader033.vdocuments.net/reader033/viewer/2022042816/559751311a28abb94f8b45b1/html5/thumbnails/2.jpg)
Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 2
Índice Introducción Arquitectura de una TDNN Aplicación a clasificación de Fonemas Interpretación de la representación espacio-
temporal de una TDNN Conclusiones
![Page 3: TDNN for speech recognition](https://reader033.vdocuments.net/reader033/viewer/2022042816/559751311a28abb94f8b45b1/html5/thumbnails/3.jpg)
Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 3
Índice Introducción Arquitectura de una TDNN Aplicación a clasificación de Fonemas Interpretación de la representación espacio-
temporal de una TDNN Conclusiones
![Page 4: TDNN for speech recognition](https://reader033.vdocuments.net/reader033/viewer/2022042816/559751311a28abb94f8b45b1/html5/thumbnails/4.jpg)
Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 4
Introducción Redes Neuronales “clásicas”
− Clasificación− Patrones no variables en el tiempo
¿Cómo clasifico patrones variables en el tiempo?
− Time-Delay Neural Networks
![Page 5: TDNN for speech recognition](https://reader033.vdocuments.net/reader033/viewer/2022042816/559751311a28abb94f8b45b1/html5/thumbnails/5.jpg)
Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 5
Índice Introducción Arquitectura de una TDNN Aplicación a clasificación de Fonemas Interpretación de la representación espacio-
temporal de una TDNN Conclusiones
![Page 6: TDNN for speech recognition](https://reader033.vdocuments.net/reader033/viewer/2022042816/559751311a28abb94f8b45b1/html5/thumbnails/6.jpg)
Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 6
Arquitectura de la TDNN Waibel et al. (trabajos de 1988-1989) Reconocimiento de Fonemas
− Clasificación de los fonemas /b, d, g/ en japonés Red Neuronal construida
− 3 capas− Cada capa enlaza una serie de “celdas” de
retardo temporal
![Page 7: TDNN for speech recognition](https://reader033.vdocuments.net/reader033/viewer/2022042816/559751311a28abb94f8b45b1/html5/thumbnails/7.jpg)
Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 7
Arquitectura interna de una Celda Cada celda de entrada aplica una función
sigmoide a pesos− N =Número de características del vector f(t)− K = Número de vectores retrasados
La entrada se compone de − K+1 vectores {f
j(t),...,f
j(t-k),...,f
j(t-K)}
− Con características 1 ≤ j ≤ N
N∗K١
![Page 8: TDNN for speech recognition](https://reader033.vdocuments.net/reader033/viewer/2022042816/559751311a28abb94f8b45b1/html5/thumbnails/8.jpg)
Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 8
Arquitectura Interna de una Celda
K = vectores retrasados N = Características vector
![Page 9: TDNN for speech recognition](https://reader033.vdocuments.net/reader033/viewer/2022042816/559751311a28abb94f8b45b1/html5/thumbnails/9.jpg)
Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 9
Arquitectura de la TDNN Clasificación fonemas /b, d, g/ Entrada de la red N=16, K=2
− Las celdas de la 1ª capa oculta No reciben datos hasta que hay 3 vectores
Vectores separados 10ms− 1ª capa oculta genera datos a los 30ms− Genera salidas cada 10ms
![Page 10: TDNN for speech recognition](https://reader033.vdocuments.net/reader033/viewer/2022042816/559751311a28abb94f8b45b1/html5/thumbnails/10.jpg)
Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 10
Arquitectura de la TDNN 1ª capa oculta
− 8 celdas organizadas en una columna− Celdas totalmente conect. a las 16 celdas de la capa de entrada− Generan salida con 3 vectores de la capa de entrada
2ª capa oculta− 3 celdas por columna− Totalmente conectadas a las 8 celdas de la 1ª capa oculta− Generan salida con 5 vectores de la 1ª C.O.
Capa de salida
− 3 celdas de salida (/b,d,g/)− Conectadas a sólo 1 celda de la 2ª C.O.− Salida con 9 vectores de la 2ª C.O.
![Page 11: TDNN for speech recognition](https://reader033.vdocuments.net/reader033/viewer/2022042816/559751311a28abb94f8b45b1/html5/thumbnails/11.jpg)
Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 11
Arquitectura de la TDNN
![Page 12: TDNN for speech recognition](https://reader033.vdocuments.net/reader033/viewer/2022042816/559751311a28abb94f8b45b1/html5/thumbnails/12.jpg)
Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 12
Índice Introducción Arquitectura de una TDNN Aplicación a clasificación de Fonemas Interpretación de la representación espacio-
temporal de una TDNN Conclusiones
![Page 13: TDNN for speech recognition](https://reader033.vdocuments.net/reader033/viewer/2022042816/559751311a28abb94f8b45b1/html5/thumbnails/13.jpg)
Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 13
Aplicación para clasificación de fonemas Vocabulario Japonés (fonemas /b,d,g/) 3 anunciantes profesionales (800 fonemas
por hablante) Red neuronal entrenada para cada
hablante Sonidos proporcionaban 15 vectores
espaciados 10ms. Fiabilidad de la red 98,5% Otros métodos (HMM): 93,5%
![Page 14: TDNN for speech recognition](https://reader033.vdocuments.net/reader033/viewer/2022042816/559751311a28abb94f8b45b1/html5/thumbnails/14.jpg)
Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 14
Índice Introducción Arquitectura de una TDNN Aplicación a clasificación de Fonemas Interpretación de la representación espacio-
temporal de una TDNN Conclusiones
![Page 15: TDNN for speech recognition](https://reader033.vdocuments.net/reader033/viewer/2022042816/559751311a28abb94f8b45b1/html5/thumbnails/15.jpg)
Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 15
Interpretación de la representación espacio-temporal de una TDNN Red distingue fonemas en condiciones
difíciles Contextos fonéticos varían según palabras
− Posicionamiento de la boca varía para fonemas según sus fonemas anteriores y posteriores
Clasificación del fonema /d/− /da/− /do/
![Page 16: TDNN for speech recognition](https://reader033.vdocuments.net/reader033/viewer/2022042816/559751311a28abb94f8b45b1/html5/thumbnails/16.jpg)
Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 16
Interpretación de la representación espacio-temporal de una TDNN Input Layer
/da/ /do/
![Page 17: TDNN for speech recognition](https://reader033.vdocuments.net/reader033/viewer/2022042816/559751311a28abb94f8b45b1/html5/thumbnails/17.jpg)
Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 17
Interpretación de la representación espacio-temporal de una TDNN
1ª C.O.
/da/ /do/
2ª C.O.
![Page 18: TDNN for speech recognition](https://reader033.vdocuments.net/reader033/viewer/2022042816/559751311a28abb94f8b45b1/html5/thumbnails/18.jpg)
Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 18
Interpretación de la representación espacio-temporal de una TDNN
Varianza temporal− ±30ms
/do/
+30ms -30ms
![Page 19: TDNN for speech recognition](https://reader033.vdocuments.net/reader033/viewer/2022042816/559751311a28abb94f8b45b1/html5/thumbnails/19.jpg)
Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 19
Índice Introducción Arquitectura de una TDNN Aplicación a clasificación de Fonemas Interpretación de la representación espacio-
temporal de una TDNN Conclusiones
![Page 20: TDNN for speech recognition](https://reader033.vdocuments.net/reader033/viewer/2022042816/559751311a28abb94f8b45b1/html5/thumbnails/20.jpg)
Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 20
Resumen Método eficiente (98,5% en las pruebas) Robusto
− Variaciones contextuales− Variaciones temporales
Otras pruebas realizadas mejoran métodos anteriores en diferentes contextos.
Difícil escalar para vocabularios extensos
![Page 21: TDNN for speech recognition](https://reader033.vdocuments.net/reader033/viewer/2022042816/559751311a28abb94f8b45b1/html5/thumbnails/21.jpg)
Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 21
Referencias[1] A. Waibel, T. Hanazawa, G.E. Hinton, K. Shikano and K.J. Lang,
“Phoneme recognition using time-delay neural networks,” IEEE Trans. Acoust., Speech, Signal Processing, vol 37 (3), March 1989, pp. 328-339
[2] D.P. Morgan, C.L. Scofield, “Neural Networks and Speech Processing”, Kluwer Academic Publishers, 1991, pp. 230-242.
![Page 22: TDNN for speech recognition](https://reader033.vdocuments.net/reader033/viewer/2022042816/559751311a28abb94f8b45b1/html5/thumbnails/22.jpg)
Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 22
Gracias por su atención