tdnn for speech recognition

22
Time Delay Neural Networks for Speech Recognition Víctor González Pacheco Técnicas de IA con Inspiración Biológica Máster en Ciencia y Tecnología Informática Enero 2009

Upload: victor-pacheco

Post on 04-Jul-2015

683 views

Category:

Education


4 download

DESCRIPTION

Presentación de Víctor González para la asignatura Técnicas de Inteligencia Artificial con Inspiración Biológica del Máster en Ciencia y Tecnología Informática.En la presentación se habla de un Paper de Waibel (1989) sobre Redes Neuronales de Retardo Temporal (TDNN) para el reconocimiento de voz.

TRANSCRIPT

Page 1: TDNN for speech recognition

Time Delay Neural Networks for Speech Recognition

Víctor González PachecoTécnicas de IA con Inspiración Biológica

Máster en Ciencia y Tecnología InformáticaEnero 2009

Page 2: TDNN for speech recognition

Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 2

Índice Introducción Arquitectura de una TDNN Aplicación a clasificación de Fonemas Interpretación de la representación espacio-

temporal de una TDNN Conclusiones

Page 3: TDNN for speech recognition

Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 3

Índice Introducción Arquitectura de una TDNN Aplicación a clasificación de Fonemas Interpretación de la representación espacio-

temporal de una TDNN Conclusiones

Page 4: TDNN for speech recognition

Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 4

Introducción Redes Neuronales “clásicas”

− Clasificación− Patrones no variables en el tiempo

¿Cómo clasifico patrones variables en el tiempo?

− Time-Delay Neural Networks

Page 5: TDNN for speech recognition

Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 5

Índice Introducción Arquitectura de una TDNN Aplicación a clasificación de Fonemas Interpretación de la representación espacio-

temporal de una TDNN Conclusiones

Page 6: TDNN for speech recognition

Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 6

Arquitectura de la TDNN Waibel et al. (trabajos de 1988-1989) Reconocimiento de Fonemas

− Clasificación de los fonemas /b, d, g/ en japonés Red Neuronal construida

− 3 capas− Cada capa enlaza una serie de “celdas” de

retardo temporal

Page 7: TDNN for speech recognition

Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 7

Arquitectura interna de una Celda Cada celda de entrada aplica una función

sigmoide a pesos− N =Número de características del vector f(t)− K = Número de vectores retrasados

La entrada se compone de − K+1 vectores {f

j(t),...,f

j(t-k),...,f

j(t-K)}

− Con características 1 ≤ j ≤ N

N∗K١

Page 8: TDNN for speech recognition

Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 8

Arquitectura Interna de una Celda

K = vectores retrasados N = Características vector

Page 9: TDNN for speech recognition

Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 9

Arquitectura de la TDNN Clasificación fonemas /b, d, g/ Entrada de la red N=16, K=2

− Las celdas de la 1ª capa oculta No reciben datos hasta que hay 3 vectores

Vectores separados 10ms− 1ª capa oculta genera datos a los 30ms− Genera salidas cada 10ms

Page 10: TDNN for speech recognition

Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 10

Arquitectura de la TDNN 1ª capa oculta

− 8 celdas organizadas en una columna− Celdas totalmente conect. a las 16 celdas de la capa de entrada− Generan salida con 3 vectores de la capa de entrada

2ª capa oculta− 3 celdas por columna− Totalmente conectadas a las 8 celdas de la 1ª capa oculta− Generan salida con 5 vectores de la 1ª C.O.

Capa de salida

− 3 celdas de salida (/b,d,g/)− Conectadas a sólo 1 celda de la 2ª C.O.− Salida con 9 vectores de la 2ª C.O.

Page 11: TDNN for speech recognition

Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 11

Arquitectura de la TDNN

Page 12: TDNN for speech recognition

Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 12

Índice Introducción Arquitectura de una TDNN Aplicación a clasificación de Fonemas Interpretación de la representación espacio-

temporal de una TDNN Conclusiones

Page 13: TDNN for speech recognition

Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 13

Aplicación para clasificación de fonemas Vocabulario Japonés (fonemas /b,d,g/) 3 anunciantes profesionales (800 fonemas

por hablante) Red neuronal entrenada para cada

hablante Sonidos proporcionaban 15 vectores

espaciados 10ms. Fiabilidad de la red 98,5% Otros métodos (HMM): 93,5%

Page 14: TDNN for speech recognition

Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 14

Índice Introducción Arquitectura de una TDNN Aplicación a clasificación de Fonemas Interpretación de la representación espacio-

temporal de una TDNN Conclusiones

Page 15: TDNN for speech recognition

Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 15

Interpretación de la representación espacio-temporal de una TDNN Red distingue fonemas en condiciones

difíciles Contextos fonéticos varían según palabras

− Posicionamiento de la boca varía para fonemas según sus fonemas anteriores y posteriores

Clasificación del fonema /d/− /da/− /do/

Page 16: TDNN for speech recognition

Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 16

Interpretación de la representación espacio-temporal de una TDNN Input Layer

/da/ /do/

Page 17: TDNN for speech recognition

Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 17

Interpretación de la representación espacio-temporal de una TDNN

1ª C.O.

/da/ /do/

2ª C.O.

Page 18: TDNN for speech recognition

Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 18

Interpretación de la representación espacio-temporal de una TDNN

Varianza temporal− ±30ms

/do/

+30ms -30ms

Page 19: TDNN for speech recognition

Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 19

Índice Introducción Arquitectura de una TDNN Aplicación a clasificación de Fonemas Interpretación de la representación espacio-

temporal de una TDNN Conclusiones

Page 20: TDNN for speech recognition

Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 20

Resumen Método eficiente (98,5% en las pruebas) Robusto

− Variaciones contextuales− Variaciones temporales

Otras pruebas realizadas mejoran métodos anteriores en diferentes contextos.

Difícil escalar para vocabularios extensos

Page 21: TDNN for speech recognition

Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 21

Referencias[1] A. Waibel, T. Hanazawa, G.E. Hinton, K. Shikano and K.J. Lang,

“Phoneme recognition using time-delay neural networks,” IEEE Trans. Acoust., Speech, Signal Processing, vol 37 (3), March 1989, pp. 328-339

[2] D.P. Morgan, C.L. Scofield, “Neural Networks and Speech Processing”, Kluwer Academic Publishers, 1991, pp. 230-242.

Page 22: TDNN for speech recognition

Máster en Ciencia y Tecnología Informática Técnicas de IA con Insp. Biológica 22

Gracias por su atención