anÁlisis en las variaciones en las seÑales de la voz en

66
ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN CONDICIONES NORMALES Y ANTE LA PRESENCIA DE AFECCIONES EN LAS CUERDAS VOCALES MARÍA DEL PILAR GALEANO CARRILLO PREGRADO EN INGENIERÍA ELECTRÓNICA FACULTAD DE INGENIERÍA UNIVERSIDAD DE LOS ANDES 2003 1

Upload: others

Post on 29-Jul-2022

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE

LA VOZ EN CONDICIONES NORMALES Y ANTE LA

PRESENCIA DE AFECCIONES EN LAS CUERDAS

VOCALES

MARÍA DEL PILAR GALEANO CARRILLO

PREGRADO EN INGENIERÍA ELECTRÓNICA

FACULTAD DE INGENIERÍA

UNIVERSIDAD DE LOS ANDES

2003

1

Page 2: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

ANÁLISIS DE LAS VARIACIONES EN LAS SEÑALES DE LA VOZ

EN CONDICIONES NORMALES Y ANTE LA PRESENCIA DE

AFECCIONES EN LAS CUERDAS VOCALES

MARÍA DEL PILAR GALEANO CARRILLO

Director: ING. ALFREDO RESTREPO PALACIOS

PREGRADO EN INGENIERÍA ELECTRÓNICA

FACULTAD DE INGENIERÍA

UNIVERSIDAD DE LOS ANDES

2003

2

Page 3: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

A

MARYLAND, JAIRO

NEGRO, SANTIAGO

3

Page 4: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

DEPRONTO SENTÍ ESE LLAMADO QUE ME

PERSIGUE COMO SI DEPENDIERA DE MI,

PARECE NO QUERER DESPRENDERSE DE LO SUYO

NI TENER QUE ENFRENTARSE A LO DECISIVO.

AÚN NO LO COMPRENDO , NO ME ASUSTA, NI ME CONDENA,

PERO ME SIGUE RECORDANDO

A MÍ MISMA Y A TODOS LOS QUE HAN CONTRIBUIDO A COLOCAR

LAS PIEZAS DE MI FORMACIÓN EN SU LUGAR.

GRACIA SEÑOR POR PONER EN MI CAMINO

TANTA GENTE MARAVILLOSA QUE

SIEMPRE LLEVARÉ EN EL CORAZÓN

4

Page 5: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

1. INTRODUCCIÓN

Dentro de la rama de la otorrinolaringología, en medicina, los profesionales especializados

en la materia, se ven enfrentados a solucionar, o bien, dar mejoría a problemas en la voz,

causados por afecciones en la laringe. Nombrando algunas de ellas, se encuentran el cáncer

de laringe, el reflujo nasal, papilomatosis, entre otras [5].

Una de las prácticas usadas para comprobar la mejoría del paciente después de someterlo a

una cirugía o tratamiento, consiste en grabar la voz en diferentes etapas y realizar un

análisis auditivo [2] (y por lo tanto subjetivo) del “ antes y el después”.

Es allí donde nace la idea de caracterizar la voz , pretendiendo crear criterios cuantificables,

con ayuda de técnicas matemáticas y de programación para llegar a calificar diferentes

voces no patológicas y diferenciar entre una voz enferma y una que no lo está.

Así pues, el proyecto de grado que presento, tiene como objetivo principal mostrar los

resultados de un proceso analítico que persigue caracterizar y cuantificar las señales

correspondientes a los fonemas vocálicos (a e i o u) producidos por la voz, bajo condiciones

normales y en presencia de afecciones en el área de la laringe, que perturban el

funcionamiento normal de las cuerdas vocales.

Este proceso de caracterización, consiste en el desarrollo y optimización de un programa en

matlab, el cual se encarga tanto de capturar y archivar el sonido de las vocales y algunas de

sus combinaciones (diptongos, triptongos); como de procesarlo, realizando observaciones

en el dominio del tiempo y de la frecuencia. Para las pruebas del programa, se utilizó mi

voz (autora), por simplicidad y disposición.

Las siguientes pruebas se realizaron con dos voces femeninas y tres masculinas sin

síntomas patológicos y por último tres pacientes con padecimientos en el área de la laringe

(reflujo nasal, papilomas y cáncer en la laringe).

5

Page 6: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

2. ALCANCES DEL ESTUDIO

Crear un programa en Matlab que permita archivar señales (fonemas) de voz

pronunciadas a través de un micrófono unidireccional conectado a la tarjeta de sonido y

analizarlas en el dominio del tiempo y la frecuencia.

Caracterizar y calificar fonemas vocálicos femeninos y masculinos, para

determinar sus similitudes y diferencias.

Caracterizar y calificar fonemas vocálicos pertenecientes a señales de voz

con síntomas patológicos.

Observar comportamiento de las señales obtenidas en el dominio del tiempo,

determinando así su periodicidad o no periodicidad.

Observar el comportamiento de las señales obtenidas en el dominio de la

frecuencia, aplicando FFT a cada una de ellas, ver su distribución en el plano complejo

y en el eje de frecuencia.

Determinar las diferencias en las gráficas al multiplicar las señales en el

tiempo por diferentes tipos de ventanas y volver a aplicar FFT.

Indicar los cambios que se pueden presentar en las gráficas de

espectrogramas ante signos patológicos.

6

Page 7: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

3. PRIMERA ETAPA: PROGRAMACIÓN Para el desarrollo e implementación de la primera etapa se utilizó mi voz (autora).

3.1. GRABACIÓN El software elegido para realizar la digitalización y estudio de las señales vocálicas fue

Matlab [3].

El programa como primera medida, recoge la señal de voz proveniente de un micrófono

unidireccional, conectado a la tarjeta de sonido del computador y lo guarda en un archivo

.wav.

Los parámetros de grabación fueron: frecuencia de muestreo de 44100Hz, con una

resolución de 16 bits, monofónico, el tiempo de muestra fueron 8 segundos con variaciones

dependiendo de cada persona, el resto de parámetros prevalecieron.

La Rutina 1 graba la señal de voz, la convierte en un arreglo (a_u) y la guarda en

un archivo .wav.

La

clear all; FS=44100; Seconds=8; bits=16; a_u=wavrecord(FS*Seconds,FS); wavwrite(a_u,FS,bits,'C:\prueba\María\AmatlabMaría.wav');

Rutina 2 lee el archivo .wav, lo grafica y lo sonoriza.

7

Rutina 1

n=352800 [vocal]=wavread('C:\prueba\María\AmatlabMaría.wav',n); plot(vocal) wavplay(vocal,FS);

Rutina 2

Page 8: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

En la figura 3.1, correspondiente a una “a”, se hace evidente la introducción de un nivel DC que no permite que la señal sea simétrica respecto al eje de tiempo.

figura 3.1

(AMPLITUD VRS. Nº. DE MUESTRAS (t))

3.2. FILTRO

Los archivos grabados se sometieron a un proceso de filtraje, para rechazar cualquier tipo

de información por fuera del rango de frecuencias de interés que pudiesen afectar al

análisis.

Se eligió un filtro digital Butterworth de grado 6 entre 20 Hz y 9 KHz,

A este tipo de filtro también se le conoce como filtro máximamente plano o planoplano y

evita distorsiones en la amplitud [1].

La Rutina 3 corresponde a un filtro Butterworth de grado 6, por el cual pasa la

señal de voz.

La figura 3.2 grafica el filtro diseñado.

Rutina 3 ff=2000/(2*512)*(0:512-1); passband=[.01 .96]; [b,a]=butter(6,passband); h=abs(freqz(b,a,512)); plot(ff,h) A=filter(b,a,vocal); plot(A)

8

Page 9: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

figura 3.2

F. BUTTERWORTH, GRADO 6

La figura 3.3 muestra la corrección en la señal de la ”a” después de pasar por el filtro.

figura 3.3

(AMPLITUD VRS. Nº. DE MUESTRAS (t))

Figura 3.4: Señales de las vocales en el dominio del tiempo.

9

Page 10: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

figura 3.4

A E I O U

(AMPLITUD VRS. Nº. DE MUESTRAS (t))

Figura 3.5: Cambios en la señal ante la presencia de diptongos y triptongos.

figura 3.5

AE IO AEI

(AMPLITUD VRS. Nº. DE MUESTRAS (t))

3.3. TRANSFORMADA RÁPIDA DE FOURIER (FFT) A la señal filtrada se le aplicó una fft para pasarla al dominio de la frecuencia con una

ventana rectangular de ancho N=32768=2exp(15).

Normalmente el resultado X(k) de una FFT se muestra graficando magnitud y fase contra k;

en este caso se consideró conveniente mostrar todos los valores X(k) en el plano complejo.

La rutina 4 grafica los coeficientes de la FFT en el plano complejo

N1=32768; VA=fft(A,N1); plot(VA,'ro')

Figura 3.6: Coeficientes de la FFT en el plano complejo

10

Rutina 4

Page 11: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

figura 3.6

A E I O U

(P. IMAGINARIA VRS. P. REAL)

La forma estándar de representación de la FFT (representación en el eje de frecuencia)

permite visualizar el comportamiento de los armónicos a lo largo de las frecuencias.

De esta manera, determinar la frecuencia en que se presenta el primero de ellos, la misma a

la que vibran las cuerdas vocales al producir el sonido del fonema.

La rutina 5 grafica la FFT en el eje de frecuencia.

Rutina 5 ABS_VAf=abs(VA(1:FS/2)); freq=0:1:(FS-1)/2; plot(freq,ABS_VAf)

Figura 3.7: FFT en el eje de frecuencia.

figura 3.7

A E I O U

(MAGNITUD VRS. FRECUENCIA)

11

Page 12: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

3.4. VENTANAS La más simple y más comúnmente usada es la rectangular que implica oscilaciones en el

dominio de la frecuencia debido al fenómeno de Gibbs trae consigo oscilaciones en la

función de transferencia [4][6].

Para eliminar dicho fenómeno se utilizan las llamadas ventanas espectrales que suavizan la

reconstrucción de la función. [7] [6].

3.4.1. Ventana de Gauss Las señales filtradas (a excepción de los triptongos) se multiplicaron por una campana de

Gauss. Para las vocales (a e i o u), la ventana se centró en 15000 y en los diptongos en el

instante de cambio de vocal que varió el rango de 88200 y 350000 .

Para todos, el ancho de la ventana (desviación estándar) fue de 1000.

La rutina 6 crea una campana de Gauss que multiplica las señales de voz en el

dominio del tiempo

media=150000; desvia=10000; for i=n:-1:1 x(i)=i; end for j=n:-1:1 campana(j)=12500*(1/(2*pi*desvia^2)^(1/2))*(exp(-(media-x(j))^2/(2*des end plot(x,campana) for j=n:-1:1 gauss(j)=campana(j)*A(j); end plot(gauss)

Figura 3.8: Campana de Gauss

12

Rutina 6

via^2)));

Page 13: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

figura 3.8

CAMPANA DE GAUSS ~N (15000,1000)

Figura 3.9: Señales multiplicadas por la ventana de Gauss

figura 3.9

A E I O U

AE EI

(AMPLITUD VRS. Nº. DE MUESTRAS (t))

La Rutina 7 realiza la FFT de la señal multiplicada por la ventana de Gauss y grafica los coeficientes en el plano complejo.

Fig

VHA=fft(gauss,N1); plot(VHA,'ro')

ura 3.10: Coeficientes de la FFT en el plano complejo.

13

Rutina 7

Page 14: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

figura 3.10

A E I O U

(P. IMAGINARIA VRS. P. REAL)

La Rutina 8 realiza la FFT de la señal multiplicada por la ventana de Gauss y grafica sobre el eje de frecuencia.

Rutina 8 ABS_VHAf=abs(VHA(1:FS/2)); freq=0:1:(FS-1)/2; plot(freq,ABS_VHAf)

Figura 3.11:FFT en el eje de frecuencia.

figura 3.11

A E I O U

(MAGNITUD VRS. FRECUENCIA)

14

Page 15: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

3.4.2. Ventana Hamming Cada una de las señales filtradas se multiplicó por una ventana Hamming, que no es más

que un coseno y trunca suavemente la respuesta impulso deseada, produciendo una función

de transferencia bastante aceptable [6].

La Rutina 9 crea una ventana Hamming que multiplica las señales filtradas.

for i=n:-1:1 hamming(i)=0.54-0.46*cos(2*pi*i/(n-1));end plot(hamming) for j=n:-1:1 ventana(j)=hamming(j)*A(j); end plot(ventana)

Figura 3.12: Ventana Hamming

figura 3.12

VENTANA HAMMING

Figura 3.13: Señales multiplicadas por la ventana Hamming.

15

Rutina 9

Page 16: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

figura 3.13

A E I O U

AE IO

(AMPLITUD VRS. Nº. DE MUESTRAS (t))

La Rutina 10 realiza la FFT de la señal multiplicada por la ventana Hamming y grafica los coeficientes en el plano complejo.

Rutina 10 VHA=fft(ventana,N1); plot(VHA,'ro')

Figura 3.14: Coeficientes de la FFT en el plano complejo

figura 3.14

A E I O U

(P. IMAGINARIA VRS. P. REAL)

La Rutina 11 realiza la FFT de la señal multiplicada por la ventana Hamming y grafica sobre el eje de frecuencia.

Rutina 11 ABS_VHAf=abs(VHA(1:FS/2)); freq=0:1:(FS-1)/2; plot(freq,ABS_VHAf)

16

Page 17: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

Figura 3.15: FFT en el eje de frecuencia.

figura 3.15

A E I O U

(MAGNITUD VRS. FRECUENCIA)

3.4.3. Espectrograma en dos dimensiones El espectrograma permite ver la concentración de las frecuencias, en las diferentes etapas

de la grabación.

Para una mejor visualización, se hizo uso de la señal obtenida con la ventana Hamming. La Rutina12 grafica el espectrograma en dos dimensiones.

%A=filter(b,a,vocal); specgram(ventana,N1,FS);

Figura 3.16:Espectrogramas en dos dimensiones de las señales en un diptongo

figura 3.16

A E I O

17

Rutina 12

vocálicas y el efecto

U

Page 18: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

EI

(FRECUENCIA VRS. TIEMPO)

3.4.4. Espectrograma en tres dimensiones El espectrograma en tres dimensiones tiene como función observar el comportamiento

dinámico de la señal a lo largo del tiempo y las frecuencias; el tercer componente es la

magnitud de los armónicos.

La Rutina 13 grafica el espectrograma en tres dimensiones de las señales vocálicas,

con ayuda de una ventana Kaiser.

[S, f, t] = specgram(A,N1,FS,kaiser(N1/2,5),2000); mesh(t,f,abs(S));

Figura 3.17: Espectrograma en tres dimensiones.

figura 3.17

A E I O

(X: TIEMPO, Y: FRECUENCIA, Z: MAGNITUD )

18

Rutina 13

U

Page 19: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

3.5. ANÁLISIS PRIMERA ETAPA

Las gráficas de amplitud contra tiempo muestran periodicidad en las señales.

En el caso de la ventana rectangular, cada fonema tiene una distribución

diferente en el plano complejo, tanto en el eje real como en el imaginario. La mayor

concentración de coeficientes están alrededor del punto 0+j0.

A es la vocal con mayor cantidad de valores diferentes en los coeficientes

tiene, e I la de menor variedad.

Teniendo en cuenta la tabla 3.1: De menor a mayor frecuencia, el orden en

que aparece el primer armónico en cada una de las vocales es: E A O I U y sus

combinaciones: AEI OI EI AE EA OU IOU IE IO UO.

Tabla 3.1

Fonema Frecuencia Primer

armónico A 170 E 168

I 180 O 170 U 185

AE 169 EA 172 EI 165 IE 174 IO 177 OI 165 OU 172 UO 183 AEI 163 IOU 173

19

Page 20: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

La distribución de coeficientes de la FFT en el plano complejo de la ventana

gaussiana, para todas las vocales, describe anillos de diferentes tamaños, cuyo lugar de

encuentro es el punto 0+j0.

Los armónicos de la FFT a lo largo del eje de frecuencia, de la ventana

gaussiana, tienen un aspecto “montañoso”, ya que la transformada de una campana de

Gauss, es otra campana de Gauss.

La distribución de los coeficientes en el plano complejo en la ventana

Hamming, muestran en la A la mayor dispersión y en la I menor. La mayoría de valores

están cercanos a 0+j0, para todas las vocales.

Los armónicos a lo largo del eje de frecuencia en la ventana Hamming,

tienen un aspecto de tipo “alfiler”. De acuerdo a la tabla 3.2: La vocal con mayor

número de armónicos es la A y la de menor número la I, la que presenta el armónico de

mayor magnitud es la I y el de menor magnitud la O.

Tabla 3.2

Fonema Máx. amp. de

armónicos N. Arm. más del 10%

de amp. Máx Frecuencia

Último armónico

A 0.57 6 1018 E 0.828 3 507 I 0.973 2 362 O 0.089 4 680 U 0.871 3 556

Los colores cálidos en los espectrogramas de dos dimensiones muestran altas

concentraciones de las frecuencias a lo largo del tiempo, en las frecuencias más bajas

(entre 0 y 2Khz) el espectrograma muestra manchas horizontales rojas, en el caso de los

diptongos, en el tiempo en que estos ocurren hay una pequeña muestra vertical del

cambio, también en rojo.

20

Page 21: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

Los espectrogramas de tres dimensiones dan la impresión de ver cordilleras

separadas por llanura, con variaciones a lo largo del tiempo y diferenciación entre los

armónicos, no hay sobrelapo.

21

Page 22: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

4. SEGUNDA ETAPA: ANÁLISIS DE VOCES FEMENINAS Y MASCULINAS

En esta etapa se sometieron al mismo proceso de la primera, dos voces femeninas y tres masculinas sin síntomas patológicos.

4.1 . VOCES FEMENINAS La primera de ellas es auditivamente similar a la de la primera etapa, la segunda es diferente.

4.1.1. Voz femenina 1

Figura 4.1: Señales en el tiempo

figura 4.1 A E I O U

(AMPLITUD VRS. Nº. DE MUESTRAS (t))

Figura 4.2: Coeficientes FFT

figura 4.2 A E I O U

(P. IMAGINARIA VRS. P. REAL)

Figura 4.3: FFT en el eje de frecuencia.

22

Page 23: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

figura 4.3

A E I O U

(MAGNITUD VRS. FRECUENCIA)

De acuerdo a la tabla 4.1 Orden de menor a mayor frecuencia en el primer armónico:

Vocales:

E A O I U

Combinaciones:

AEI IOU AE OI EI EA OU IE IO UO.

Tabla 4.1

Fonema Frecuencia

Primer armónico A 170 E 166 I 193 O 174 U 198

AE 167 EA 172 EI 171 IE 183 IO 183 OI 170 OU 173 UO 188 AEI 160 IOU 164

Figura 4.4: Coeficientes de la FFT en el plano complejo, ventana Gauss.

23

Page 24: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

figura 4.4

A E I O U

(P. IMAGINARIA VRS. P. REAL)

Figura 4.5:FFT en el eje de frecuencia, ventana Gauss.

figura 4.5

A E I O U

(MAGNITUD VRS. FRECUENCIA)

Figura 4.6: Coeficientes de la FFT en el plano complejo, ventana Hamming.

figura 4.6 A E I O U

(P. IMAGINARIA VRS. P. REAL)

Figura 4.7: FFT en el eje de frecuencia, ventana Hamming.

24

Page 25: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

figura 4.7

A E I O U

(MAGNITUD VRS. FRECUENCIA)

Tabla 4.2

Fonema Máxima amplitud

de armónicos N. Arm. más del 10% de

amp. Máx

Frecuencia Último

armónico A 0.688 8 1706 E 0.906 3 496 I 0.96 2 385 O 0.810 4 696 U 0.811 3 594

Figura 4.8:Espectrogramas en dos dimensiones

figura 4.8

A E I O U

(FRECUENCIA VRS. TIEMPO) Figura 4.9: Espectrograma en tres dimensiones.

25

Page 26: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

figura 4.9

A E I O U

(X: TIEMPO, Y: FRECUENCIA, Z: MAGNITUD )

4.1.2. Voz femenina 2

Figura 4.10: Señales en el tiempo

figura 4.12

A E I O U

(AMPLITUD VRS. Nº. DE MUESTRAS (t))

Figura 4.11: Coeficientes FFT

figura 4.11 A E I O U

(P. IMAGINARIA VRS. P. REAL)

Figura 4.12: FFT en el eje de frecuencia.

26

Page 27: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

figura 4.12

A E I O U

(MAGNITUD VRS. FRECUENCIA)

De acuerdo a la tabla 4.3 Orden de menor a mayor frecuencia en el primer armónico:

Vocales:

A E O U I

Combinaciones:

AEI EA OU AE OI EI IOU IE UO IO.

Tabla 4.3

Fonema Frecuencia

Primer armónico A 143 E 154 I 200 O 175 U 195

AE 162 EA 160 EI 164 IE 178 IO 185 OI 163 OU 160 UO 182 AEI 157 IOU 169

Figura 4.13: Coeficientes de la FFT en el plano complejo, ventana Gauss.

27

Page 28: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

figura 4.13

A E I O U

(P. IMAGINARIA VRS. P. REAL)

Figura 4.14:FFT en el eje de frecuencia, ventana Gauss.

figura 4.14 A E I O U

(MAGNITUD VRS. FRECUENCIA)

Figura 4.15: Coeficientes de la FFT en el plano complejo, ventana Hamming.

figura 4.15

A E I O U

(P. IMAGINARIA VRS. P. REAL)

Figura 4.16: FFT en el eje de frecuencia, ventana Hamming.

28

Page 29: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

figura 4.16

A E I O U

(MAGNITUD VRS. FRECUENCIA)

Tabla 4.4

Fonema Máxima amplitud

de armónicos N. Arm. más del 10% de

amp. Máx

Frecuencia Último

armónico A 0.531 9 1286 E 0.794 4 617 I 0.989 2 402 O 0.769 4 699 U 0.905 3 594

Figura 4.17:Espectrogramas en dos dimensiones

figura 4.17

A E I O U

(FRECUENCIA VRS. TIEMPO)

Figura 4.18: Espectrograma en tres dimensiones.

29

Page 30: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

figura 4.18

A E I O U

(X: TIEMPO, Y: FRECUENCIA, Z: MAGNITUD )

4.2. VOCES MASCULINAS Se eligieron tres voces diferentes la primera de ellas corresponde a un niño de siete años, la segunda a un adulto de 48 años y la tercera a un adulto de 21 años.

4.2.1. Voz masculina 1:

Figura 4.19: Señales en el tiempo

figura 4.19

(AMPLITUD VRS. Nº. DE MUESTRAS (t)) Figura 4.20: Coeficientes FFT

figura 4.20

A E I O U

(P. IMAGINARIA VRS. P. REAL)

30

Page 31: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

Figura 4.21: FFT en el eje de frecuencia.

figura 4.21

A E I O U

(MAGNITUD VRS. FRECUENCIA)

De acuerdo a la tabla 4.5 Orden de menor a mayor frecuencia en el primer armónico:

Vocales:

E A O I U

Combinaciones:

EI EA OI OU UO AEI AE IO IE IOU.

Tabla 4.5

Fonema Frecuencia

Primer armónico A 171 E 167 I 183 O 175 U 197

AE 175 EA 152 EI 151 IE 183 IO 181 OI 160 OU 160 UO 162 AEI 163 IOU 189

31

Page 32: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

Figura 4.22: Coeficientes de la FFT en el plano complejo, ventana Gauss.

figura 4.22

A E I O U

(P. IMAGINARIA VRS. P. REAL)

Figura 4.23:FFT en el eje de frecuencia, ventana Gauss.

figura 4.23

A E I O U

(MAGNITUD VRS. FRECUENCIA)

Figura 4.24: Coeficientes de la FFT en el plano complejo, ventana Hamming.

figura 4.24

A E I O U

(P. IMAGINARIA VRS. P. REAL)

Figura 4.25: FFT en el eje de frecuencia, ventana Hamming.

32

Page 33: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

figura 4.25

A E I O U

(MAGNITUD VRS. FRECUENCIA)

Tabla 4.6

Fonema

Máxima amplitud de armónicos

N. Arm. más del 10% de amp. Máx

Frecuencia Último

armónico A 0.621 8 1365 E 0.908 2 331 I 0.955 2 364 O 0.545 4 633 U 0.96 2 394

Figura 4.26:Espectrogramas en dos dimensiones

figura 4.26

A E I O U

(FRECUENCIA VRS. TIEMPO)

Figura 4.27: Espectrograma en tres dimensiones.

33

Page 34: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

figura 4.27

A E I O U

(X: TIEMPO, Y: FRECUENCIA, Z: MAGNITUD )

4.2.2. Voz masculina 2:

Figura 4.28: Señales en el tiempo

figura 4.29

A E I O U

(AMPLITUD VRS. Nº. DE MUESTRAS (t))

Figura 4.29: Coeficientes FFT

figura 4.29

A E I O U

(P. IMAGINARIA VRS. P. REAL)

34

Page 35: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

Figura 4.30: FFT en el eje de frecuencia.

figura 4.30

A E I O U

(MAGNITUD VRS. FRECUENCIA)

De acuerdo a la tabla 4.7 Orden de menor a mayor frecuencia en el primer armónico:

Vocales:

A E O I U.

Combinaciones:

AEI EI IOU IO AE OI OU UO EA IE.

Tabla 4.7

Fonema Frecuencia

Primer armónico A 169 E 170 I 182 O 177 U 200

AE 157 EA 161 EI 153 IE 168 IO 154 OI 157 OU 157 UO 158 AEI 151 IOU 154

35

Page 36: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

Figura 4.31: Coeficientes de la FFT en el plano complejo, ventana Gauss.

figura 4.31

A E I O U

(P. IMAGINARIA VRS. P. REAL)

Figura 4.32:FFT en el eje de frecuencia, ventana Gauss.

figura 4.32

A E I O U

(MAGNITUD VRS. FRECUENCIA)

Figura 4.33: Coeficientes de la FFT en el plano complejo, ventana Hamming.

figura 4.33

A E I O U

(P. IMAGINARIA VRS. P. REAL)

Figura 4.34: FFT en el eje de frecuencia, ventana Hamming.

36

Page 37: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

figura 4.34

A E I O U

(MAGNITUD VRS. FRECUENCIA)

Tabla 4.8

Fonema

Máxima amplitud de armónicos

N. Arm. más del 10% de amp. Máx

Frecuencia Último

armónico A 0.484 12 1093 E 0.472 4 425 I 0.948 2 273 O 0.764 4 443

Figura 4.35:Espectrogramas en dos dimensiones

figura 4.35

A E I O U

(FRECUENCIA VRS. TIEMPO)

Figura 4.36: Espectrograma en tres dimensiones.

37

Page 38: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

figura 4.36

A E I O U

(X: TIEMPO, Y: FRECUENCIA, Z: MAGNITUD )

4.2.3. Voz masculina 3:

Figura 4.37: Señales en el tiempo

figura 4.37

A E I O U

(AMPLITUD VRS. Nº. DE MUESTRAS (t))

Figura 4.38: Coeficientes FFT

figura 4.38

A E I O U

(P. IMAGINARIA VRS. P. REAL)

38

Page 39: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

Figura 4.39: FFT en el eje de frecuencia.

figura 4.39

1 A E I O U

(MAGNITUD VRS. FRECUENCIA)

De acuerdo a la tabla 4.7 Orden de menor a mayor frecuencia en el primer armónico:

Vocales:

A E O I U.

Combinaciones:

AEI OU UO IO AE EA OI IOU EI IE.

Tabla 4.9

Fonema Frecuencia

Primer armónico A 171 E 175 I 203 O 178 U 209

AE 168 EA 168 EI 173 IE 181 IO 167 OI 169 OU 166 UO 169 AEI 158 IOU 171

39

Page 40: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

Figura 4.40: Coeficientes de la FFT en el plano complejo, ventana Gauss.

figura 4.40

A E I O U

(P. IMAGINARIA VRS. P. REAL)

Figura 4.41:FFT en el eje de frecuencia, ventana Gauss.

figura 4.41

A E I O U

(MAGNITUD VRS. FRECUENCIA)

Figura 4.42: Coeficientes de la FFT en el plano complejo, ventana Hamming.

figura 4.42

A E I O U

(P. IMAGINARIA VRS. P. REAL)

Figura 4.43: FFT en el eje de frecuencia, ventana Hamming.

40

Page 41: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

figura 4.43

A E I O U

(MAGNITUD VRS. FRECUENCIA)

Tabla 4.10

Fonema

Máxima amplitud de armónicos

N. Arm. más del 10% de amp. Máx

Frecuencia Último

armónico A 0.685 11 1026 E 0.911 3 351 I 0.978 2 301 O 0.758 6 621 U 0.825 4 522

Figura 4.44:Espectrogramas en dos dimensiones

figura 4.44

A E I O U

(FRECUENCIA VRS. TIEMPO)

Figura 4.45: Espectrograma en tres dimensiones.

41

Page 42: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

figura 4.45

A E I O U

(X: TIEMPO, Y: FRECUENCIA, Z: MAGNITUD )

4.3. ANÁLISIS SEGUNDA ETAPA

Las gráficas de amplitud contra tiempo muestran periodicidad en las señales.

En el caso de la ventana rectangular, cada fonema tiene una distribución

diferente en el plano complejo, tanto en el eje real como en el imaginario. La mayor

concentración de coeficientes están alrededor del punto 0+j0.

A es la vocal con mayor cantidad de valores diferentes en los coeficientes

tiene, e I la de menor variedad.

En todos los casos, el primer armónico de las vocales abiertas tiene menor

frecuencia que la cerradas.

La distribución de coeficientes de la FFT en el plano complejo de la ventana

gaussiana, para todas las vocales, describe anillos de diferentes tamaños, cuyo lugar de

encuentro es el punto 0+j0.

Los armónicos de la FFT a lo largo del eje de frecuencia, de la ventana

gaussiana, tienen un aspecto “montañoso”, ya que la transformada de una campana de

Gauss, es otra campana de Gauss.

La distribución de los coeficientes en el plano complejo en la ventana

Hamming, muestran en la A la mayor dispersión y en la I menor. La mayoría de valores

están cercanos a 0+j0, para todas las vocales.

Los armónicos a lo largo del eje de frecuencia en la ventana Hamming,

tienen un aspecto de tipo “alfiler”. La vocal con mayor número de armónicos es la A y

42

Page 43: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

la de menor número la I, la que presenta el armónico de mayor magnitud es la I y el de

menor magnitud la O en la mayoría de los casos.

Los colores cálidos en los espectrogramas de dos dimensiones muestran altas

concentraciones de las frecuencias a lo largo del tiempo, en las frecuencias más bajas

(entre 0 y 2Khz) el espectrograma muestra manchas horizontales rojas.

Los espectrogramas de tres dimensiones dan la impresión de ser cordilleras

separadas por llanura, con variaciones a lo largo del tiempo y diferenciación entre los

armónicos, no hay sobrelapo.

43

Page 44: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

5. TERCERA ETAPA: ANÁLISIS DE VOCES PATOLÓGICAS

Las voces patológicas elegidas tienen diferentes grados gravedad, que se presentarán en su orden.

5.1. REFLUJO NASAL

Figura 5.1: Señales en el tiempo

figura 5.1

A E I O U

(AMPLITUD VRS. Nº. DE MUESTRAS (t))

Figura 5.2: Coeficientes FFT

figura 5.2 A E I O U

(P. IMAGINARIA VRS. P. REAL)

Figura 5.3: FFT en el eje de frecuencia.

44

Page 45: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

figura 5.3

A E I O U

(MAGNITUD VRS. FRECUENCIA)

De acuerdo a la tabla 5.1 Orden de menor a mayor frecuencia en el primer armónico:

Vocales:

A E O U I

Tabla 5.1

Fonema

Frecuencia Primer

armónico A 156 E 157 I 160 O 158 U 159

Figura 5.4: Coeficientes de la FFT en el plano complejo, ventana Gauss.

figura 5.4

A E I O U

(P. IMAGINARIA VRS. P. REAL)

45

Page 46: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

Figura 5.5:FFT en el eje de frecuencia, ventana Gauss.

figura 5.5

A E I O U

(MAGNITUD VRS. FRECUENCIA)

Figura 5.6: Coeficientes de la FFT en el plano complejo, ventana Hamming.

figura 5.6

A E I O U

(P. IMAGINARIA VRS. P. REAL)

Figura 5.7: FFT en el eje de frecuencia, ventana Hamming.

figura 5.7

A E I O U

(MAGNITUD VRS. FRECUENCIA)

46

Page 47: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

Tabla 5.2

Fonema

Máxima amplitud de armónicos

N. Arm. más del 10% de amp. Máx

Frecuencia Último

armónico A 0.571 10 859 E 0.632 5 468 I 0.881 3 321 O 0.963 7 632 U 0.848 6 542

Figura 5.8:Espectrogramas en dos dimensiones

figura 5.8

A E I O U

(FRECUENCIA VRS. TIEMPO)

Figura 5.9: Espectrograma en tres dimensiones.

figura 5.9

A E I O U

(X: TIEMPO, Y: FRECUENCIA, Z: MAGNITUD )

47

Page 48: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

5.2. PAPILOMAS

Figura 5.10: Señales en el tiempo

figura 5.11

A E I O U

1.1.1 (AMPLITUD VRS. Nº. DE MUESTRAS (t))

Figura 5.11: Coeficientes FFT

figura 5.11 A E I O U

(P. IMAGINARIA VRS. P. REAL)

Figura 5.12: FFT en el eje de frecuencia.

figura 5.12

A E I O U

(MAGNITUD VRS. FRECUENCIA)

De acuerdo a la tabla 5.3 Orden de menor a mayor frecuencia en el primer armónico:

48

Page 49: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

Vocales:

A E O U I

Tabla 5.3

Fonema Frecuencia Primer

armónico A 161 E 168 I 193 O 168 U 176

Figura 5.13: Coeficientes de la FFT en el plano complejo, ventana Gauss.

figura 5.13

A E I O U

(P. IMAGINARIA VRS. P. REAL)

Figura 5.14:FFT en el eje de frecuencia, ventana Gauss.

figura 5.14

A E I O U

(MAGNITUD VRS. FRECUENCIA)

Figura 5.15: Coeficientes de la FFT en el plano complejo, ventana Hamming.

49

Page 50: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

figura 5.15

A E I O U

(P. IMAGINARIA VRS. P. REAL)

Figura 5.16: FFT en el eje de frecuencia, ventana Hamming.

figura 5.16

A E I O U

(MAGNITUD VRS. FRECUENCIA)

Tabla 5.4

Fonema

Máxima amplitud de armónicos

N. Arm. más del 10% de amp. Máx

Frecuencia Último

armónico A 0.078 10 891 E 0.744 4 424 I 0.98 2 276 O 0.871 6 588 U 0.846 4 439

Figura 5.17:Espectrogramas en dos dimensiones

50

Page 51: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

figura 5.17

A E I O U

(FRECUENCIA VRS. TIEMPO)

Figura 5.18: Espectrograma en tres dimensiones.

figura 5.18

A E I O U

(X: TIEMPO, Y: FRECUENCIA, Z: MAGNITUD )

5.3. CÁNCER

Figura 5.19: Señales en el tiempo

figura 5.19 A E I O U

(AMPLITUD VRS. Nº. DE MUESTRAS (t))

Figura 5.20: Coeficientes FFT

51

Page 52: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

figura 5.20 A E I O U

(P. IMAGINARIA VRS. P. REAL)

Figura 5.21: FFT en el eje de frecuencia.

figura 5.21

A E I O U

(MAGNITUD VRS. FRECUENCIA)

La ventana rectangular no permite diferenciar unos armónicos de otros en varias regiones, por lo tanto no fue posible determinar la frecuencia fundamental de las vocales.

Figura 5.22: Coeficientes de la FFT en el plano complejo, ventana Gauss.

figura 5.22

A E I O U

(P. IMAGINARIA VRS. P. REAL)

Figura 5.23:FFT en el eje de frecuencia, ventana Gauss.

52

Page 53: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

figura 5.23

A E I O U

(MAGNITUD VRS. FRECUENCIA)

Figura 5.24: Coeficientes de la FFT en el plano complejo, ventana Hamming.

figura 5.24

A E I O U

(P. IMAGINARIA VRS. P. REAL)

Figura 5.25: FFT en el eje de frecuencia, ventana Hamming.

figura 5.25

A E I O U

(MAGNITUD VRS. FRECUENCIA)

Figura 5.26:Espectrogramas en dos dimensiones

53

Page 54: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

figura 5.26

A E I O U

(FRECUENCIA VRS. TIEMPO)

Figura 5.27: Espectrograma en tres dimensiones.

figura 5.27

A E I O U

(X: TIEMPO, Y: FRECUENCIA, Z: MAGNITUD )

5.4. ANÁLISIS TERCERA ETAPA

Las gráficas de amplitud contra tiempo pierden peridiocidad a medida que la

enfermedad en más grave.

En el caso de la ventana rectangular, cada fonema tiene una distribución

diferente en el plano complejo, tanto en el eje real como en el imaginario. La mayor

concentración de coeficientes están alrededor del punto 0+j0.

A es la vocal con mayor cantidad de valores diferentes en los coeficientes

tiene, e I la de menor variedad.

La frecuencia del primer armónico de las vocales abiertas es menor que la de

las cerradas.

54

Page 55: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

La distribución de coeficientes de la FFT en el plano complejo de la ventana

gaussiana, para todas las vocales, describe anillos de diferentes tamaños, cuyo lugar de

encuentro es el punto 0+j0. Presenta más variedad de valores que las voces no

patológicas .

Los armónicos de la FFT a lo largo del eje de frecuencia, van perdiendo

orden y separación a medida que la enfermedad de la voz es más delicada.

La distribución de los coeficientes en el plano complejo en la ventana

Hamming, muestran en la A la mayor dispersión y en la I menor. La mayoría de valores

están cercanos a 0+j0, para todas las vocales.

Los armónicos a lo largo del eje de frecuencia en la ventana Hamming,

tienen un aspecto de tipo “alfiler”. En el paciente con cáncer en la laringe el orden en

los armónicos se pierde en su totalidad.

El espectrograma va mostrando más tonos cálidos (rojizos) en las bandas de

separación, lo que indica que hay mayor concentración de energía en todo el plano,

debido a la desorganización en los armónicos.

Los espectrogramas de tres dimensiones, los valles van perdiendo área a

medida que la enfermedad es más grave. Hay sobrelapo entre montañas.

55

Page 56: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

6. ANÁLISIS DE GRÁFICAS Y DATOS

Las señales de voz sin síntomas patológicos en el dominio del tiempo, tienen

un comportamiento periódico; en las gráficas de voz patológica esto varía, las señales

no se muestran periódicas y aparece una envolvente en ciertos rangos, particularmente

en el paciente con cáncer en la laringe.

En las gráficas de coeficientes en el plano complejo de la fft en la ventana

rectangular, se observó que a pesar de que el plano de la A es el de menor longitud en

ambos ejes, es la que muestra mayor dispersión de los coeficientes; las vocales I y U

tienen más desplazamiento en el eje de los valores reales, que en el de los imaginarios;

comportamiento que varía en las gráficas de voces enfermas, volviéndose más

simétricas (más variedad de valores en los ejes, particularmente el real).

En las gráficas de fft con eje de frecuencia, después de hallar el primer

armónico de cada una de las señales. De acuerdo a la tabla 6.1, se observó que la

organización de las vocales (de menor a mayor) siempre van de las abiertas a las

cerradas, en las combinaciones no se encontraron parámetros de comportamiento, la

única que en la mayoría de los casos se presentó en la misma ubicación (menor

frecuencia) fue AEI.

tabla 6.1.

VOCES VOCALES COMBINACIONES

V. femenina 1 e a o i u aei oi ei ae ea ou iou ie io uo

V. femenina 2 e a o i u aei ea ou ae oi ei iou ie uo io

V. femenina 3 e a o i u ei ea oi ou uo aei ae io ie iou

V. masculina 1 a e o i u aei ei iou io ae oi ou uo ea ie

V. masculina 2 e a o i u ei ea oi ou uo aei ae io ie iou

V. masculina 3 e a o i u aei ou uo io ae ea oi iou ei ie

V. patológica 1 a e o u i

V. patológica 2 a e o u i

V. patológica 3

56

Page 57: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

La frecuencia del primer armónico de los fonemas vocálicos en las voces

patológicas aparece antes que las de las voces sanas, es decir la frecuencia fundamental

es más baja; adicionalmente no fue posible determinar la distribución de los armónicos

de la tercera voz patológica (cáncer de laringe).

Las gráficas de coeficientes en el plano complejo de la fft de ventana de

Gauss, muestra anillos no concéntricos que pasan por el punto 0+j0.

La fft, de la ventana gaussiana, respeta las frecuencias en que deben aparecer

los armónicos, pero no brinda ninguna información adicional.

En las gráficas de coeficientes de la fft de ventana Hamming, el plano de la

vocal A, a pesar de ser el de menor longitud en ambos ejes, es el que mayor dispersión

presenta en la mayoría de los casos y los de menor dispersión de valores son los de la A

y la U.

De acuerdo con los datos tomados de la fft (eje de frecuencia) de la ventana

Hamming y con el fin de observar la distribución de los fonemas vocálicos procesados,

unos respecto de otros, se ubicaron en un plano tri-dimensional cuyos ejes están

distribuidos de la siguiente manera: x: Magnitud máxima normalizada de los armónicos,

y: Frecuencia en que se verificó el último armónico y z: Nº. De armónicos (cuya

magnitud normalizada sea mayor o igual al 10% del mayor) los armónicos.

Voces femeninas :

57

Page 58: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

figura 6.1

A E I O U

O Voz 1 * Voz 2 + Voz 3

(X: MAGNITUD MÁXIMA NORMALIZADA, Y: Nº. ARMÓNICOS, Z:FRECUENCIA ÚLTIMO

ARMÓNICO)

58

Page 59: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

Voces masculinas :

figura 6.2

A E I O U

(

A

O Voz 1 * Voz 2 + Voz 3

X: MAGNITUD MÁXIMA NORMALIZADA, Y: Nº. ARMÓNICOS, Z:FRECUENCIA ÚLTIMO

RMÓNICO)

59

Page 60: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

Voces patológicas:

figura 6.3

U

A E I O

O Reflujo * Papilomas

(X: MAGNITUD MÁXIMA NORMALIZADA, Y: Nº. ARMÓNICOS, Z:FRECUENCIA ÚLTIMO

ARMÓNICO)

60

Page 61: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

Comparación de voces:

figura 6.4

A E I O U

O Voz sana 1 * Papilomas

(X: MAGNITUD MÁXIMA NORMALIZADA, Y: Nº. ARMÓNICOS, Z:FRECUENCIA ÚLTIMO

ARMÓNICO)

Se deduce que: las voces masculinas tienen más armónicos (particularmente en la A), que

las voces femeninas y la infantil.

Le frecuencia en que aparece el último armónico es menor en las voces patológicas que en

las sanas.

El espectrograma de dos dimensiones en las voces patológicas muestra mayor

concentración de energía en las bandas de separación y las líneas que representan los

armónicos a lo largo de tiempo van perdiendo su organización hasta confundirse con el

fondo como en el caso del paciente con cáncer en la laringe.

El espectrograma en tres dimensiones, corrobora lo observado en el de dos

dimensiones, y es la pérdida en el orden de ubicación de los armónicos a lo largo del

tiempo, dependiendo del estado de gravedad del paciente.

Hipótesis: Teniendo en cuenta que las voces sanas registraron un comportamiento

periódico y las patológicas fueron perdiendo periodicidad, dependiendo del nivel de

61

Page 62: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

gravedad (reflujo, papilomas, cáncer en su orden), se observó al aplicar la fft y analizarla a

lo largo del eje de frecuencia, que los armónicos fueron perdiendo su organización hasta

sobrelaparse unos con otros. Por lo tanto a medida que el área de la laringe se vea más

afectada, las cuerdas vocales pierden su funcionamiento normal, provocando desorden en la

localización de los armónicos.

62

Page 63: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

7. RECOMENDACIONES

Ante el hecho de que las gráficas de distribución de coeficientes en el plano

complejo de la fft presentó diferencias importantes, principalmente en las ventanas de

Gauss y Hamming, sería importante revisar las líneas de código de matlab para

corroborar en buen funcionamiento de estas, eliminando así cualquier posible error en

ellas.

Realizar grabaciones de voces patológicas en diferentes etapas, partiendo del

momento previo a ser los pacientes sometidos a intervención quirúrgica o tratamiento

médico, hasta llegar a su recuperación y de acuerdo a los parámetros de análisis

propuestos en este proyecto, observar dicho comportamiento y determinar de manera

más precisa los cambios, para así continuar con el objetivo de cuantificar criterios para

determinar la mejoría en la calidad de la voz.

63

Page 64: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

8. CONCLUSIONES

Dentro de los análisis realizados, se llegan a las siguientes conclusiones:

En este artículo se mostró paso a paso el proceso que se realizó a la

obtención de las señales proveniente de la voz, digitalización y procesamiento.

Las señales en tiempo de voces patológicas van perdiendo las características

de periodicidad que se observaron en las voces sanas.

Las gráficas de coeficientes de la fft (ventana rectangular) en el plano

complejo, permiten dar una primera idea de las diferencias entre los diferente fonemas

vocálicos, dependiendo de la forma en como se organizaron en el plano.

Las gráficas de eje de frecuencia de la fft muestran la manera en que se

distribuyen los armónicos a lo largo de este, de esta manera es posible determinar

diferencias entre los fonemas vocálicos y sus combinaciones.

Las gráficas de distribución de coeficientes en el plano complejo de la fft de

la ventana de Gauss, ofrece una manera distinta de observación, especialmente en

vocales como la A y la I, ya que la primera de ellas tiene mayor número de anillos que

la segunda, para el resto de vocales, es un poco más complejo realizar la distinción.

En la gráfica de coeficientes de la fft de la ventana Hamming, el

comportamiento de las vocales es similar a la de la ventana rectangular.

Las gráficas de eje de frecuencia de la fft de la ventana Hamming, son las

más útiles para extraer información del comportamiento de los armónicos, ya que

respetando la organización frecuencial, son más delgados y sus llanuras son más

planas.

Los espectrogramas en dos y tres dimensiones son herramientas útiles para

observar el comportamiento dinámico de los armónicos a lo largo del tiempo y de esta

manera determinar diferencias entre voces sanas y patológicas.

64

Page 65: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

9. REFERENCIAS

[1] Filtros, introducción al filtro butterworth

http://quantum.ucting.udg.mx/~yvg61925/Filtros/filtros.html, marzo 2003.

[2] Lucent Technologies provides speech recognition software

www.bell-labs.com/press/1101/011105.bla.html, diciembre 2002.

[3] MATLAB Functions

www.mathworks.com/access/helpdesk/help/techdoc, abril 2003.

[4] Medidas en telecomunicaciones

http://einstein.univalle.edu.co/~ctelecom/Transmission/Medidas%20en%20Telecomunicaci

ones.doc

marzo 2003.

[5] Otolaryngology - Vocal Cord

Disorderswww.uuhsc.utah.edu/healthinfo/spanish/Ent/vocal.htm, diciembre 2003.

[6] Restrepo, Alfredo, "FILTROS DIGITALES Lineales y no lineales",

UNIVERSIDAD DE LOS ANDES. Bogotá, 2001, marzo 2003.

[7] SERIES Y TRANSFORMADA DE FOURIER

http://www.tecnun.com/asignaturas/tratamiento%20digital/tema3.pdf, enero 2003

65

Page 66: ANÁLISIS EN LAS VARIACIONES EN LAS SEÑALES DE LA VOZ EN

TABLA DE CONTENIDO

1. INTRODUCCIÓN ........................................................................5 2. ALCANCES DEL ESTUDIO..........................................................6 3. PRIMERA ETAPA: PROGRAMACIÓN...........................................7

3.1. GRABACIÓN ........................................................................7 3.2. FILTRO ...............................................................................8 3.3. TRANSFORMADA RÁPIDA DE FOURIER (FFT)....................10 3.4. VENTANAS ........................................................................12

3.4.1. Ventana de Gauss........................................................12 3.4.2. Ventana Hamming.......................................................15 3.4.3. Espectrograma en dos dimensiones .............................17 3.4.4. Espectrograma en tres dimensiones ............................18

3.5. ANÁLISIS PRIMERA ETAPA ...............................................19 4. SEGUNDA ETAPA: ANÁLISIS DE VOCES FEMENINAS Y MASCULINAS ...................................................................................22

4.1 . VOCES FEMENINAS............................................................22 4.1.1. Voz femenina 1 ...........................................................22 4.1.2. Voz femenina 2 ...........................................................26

4.2. VOCES MASCULINAS.........................................................30 4.2.1. Voz masculina 1: .........................................................30 4.2.2. Voz masculina 2: .........................................................34 4.2.3. Voz masculina 3 ..........................................................38

5. TERCERA ETAPA: ANÁLISIS DE VOCES PATOLÓGICAS ...........44 5.1. REFLUJO NASAL ...............................................................44 5.2. PAPILOMAS.......................................................................48 5.3. CÁNCER............................................................................51 5.4. ANÁLISIS TERCERA ETAPA...............................................54

6. ANÁLISIS DE GRÁFICAS Y DATOS...........................................56 7. RECOMENDACIONES ..............................................................63 8. CONCLUSIONES ......................................................................64 9. REFERENCIAS ........................................................................65

66