an efficient model-based multirate method for reconstruction of audio signals across long gaps...

An Efficient Model-Based Multirate Method for Reconstruction of Audio

Signals Across Long Gaps

Processamento Digital de Sinais de Áudio

Alan Dantas de Medeiros EndalécioNilson Carvalho Silva Junior

Victor Pereira da CostaVitor Borges Coutinho da Silva

Motivação

Problemas: Erros de transmissão -> perda de partes do sinal Degradação de sinal em gravações antigas de gramofones

Necessária a reconstrução localizada de sinais.

Reconstrução Localizada de Sinais

Técnicas: Interpolação de banda limitada (Band-limited interpolation); Esquemas de substituição de forma de onda (Waveform substitution

schemes); Interpolação com base em modelagem senoidal (Interpolation based on

sinusoidal modeling); Métodos de Subbanda (Subband methods); Interpolação com base em modelagem autorregressiva

(Autoregressive-based interpolation).

Interpolação com base em Modelagem Autorregressiva Adequado para reconstrução de fragmentos curtos de sinais de

áudio. Fragmento curto

Limitado pela suposição de estacionariedade. Estacionariedade em sinais de áudio => janelas de 20 a 50 ms. Casos extremos:

comprimento da lacuna ≈ período de estacionariedade

Interpolação com base em Modelagem Autorregressiva - Casos Extremos

Problemas: Meio da lacuna não é bem modelado

Energia do sinal interpolado decresce Minimização do erro de modelagem AR Ordem do modelo AR insuficiente => raio dos pólos do modelo subestimados

Características espectrais antes e depois da lacuna muito diferentes

Interpolação com base em Modelagem Autorregressiva - Casos Extremos

Soluções: Aumentar ordem do modelo AR

Raio dos pólos aumentam: resposta ao impulso decai mais lentamente Dois modelos AR

Modelo para o fragmento antes da lacuna Modelo para o fragmento depois da lacuna

Proposta

Modificação no esquema de Interpolação com base em Modelagem Autorregressiva (AR) proposto em [1]-[3].

Objetivo: Reduzir ordem de modelos AR usados em métodos de interpolação.

Extrapolação pura do modelo AR:Condição InicialResposta relaxada

x Proposta:Sinal excitando filtro de sínteseResposta forçada

Core Interpolation Method


Algoritmo Supondo

-> Número de Amostras intactas antes e depois da lacuna -> Número de Amostras corrompidas -> Ordem do modelo

1.Modelo AR calculado com o Método de Burg 2.Computar por filtragem inversa 3.Construir o sinal de excitação estendido 4.Utilizar o sinal de excitação estendido no modelo AR para gerar as

últimas G amostras 5.Inverter a ordem das amostras e realizar as etapas 1 a 4 6.Reconstruir o trecho da lacuna utilizando os dois sinais gerados

Cross-fading window do artigo “Reconstruction method for missing or damaged long portions in audio signal”


Em uma das referências Sinal de excitação estendido é formado concatenando G 0’s

Para o caso de N < G Necessário concatenar 0’s ao sinal até que hajam G amostras para

reconstrução


Excitação Espelhada Inspirada em técnicas de processamento por blocos Feitas para minimizar erros transitórios (indesejáveis) Considerações

Modelos AR de ordem baixa Sinais longos Sinais típicos: energia e componentes frequenciais variantes


É importante notar que a reflexão do sinal de excitação garante que o sinal reconstruído é coerente com o sinal intacto O começo do gap parece mais com o sinal anterior à lacuna O fim do gap parece mais com o sinal após a lacuna Trecho reconstruído livre de distorções impulsivas

Pós-Processamento Multitaxa

Objetivo: Reduzir audibilidade dos artefatos em baixa frequência Descrição:1. Decompor o sinal em 6 subbandas => Banco de Filtros Maximamente

Decimado em oitavas2. Reaplicar o processo de interpolação convencional nas duas

subbandas de menor frequência. (1ª 0 – 690 Hz) (2ª 690 - 1380 Hz) Interpolação na subbanda mais fácil (modelo AR de menor ordem)1. Menor número de modos ressonantes a serem modelados2. Comprimento da lacuna a ser preenchida menor 32 vezes (fator de

decimação das subbandas)


Interpolação na subbanda mais fácil !? Melhor fazer apenas o método convencional nas subbandas, assim não

tem erro nas frequências baixas. Certo!? Errado! Mais custoso computacionalmente.

Lacuna da subbanda de menor frequência /= 32 Mas, Lacuna da subbanda de maior frequência /= 2 Não faz sentido se esforçar mais para recuperar as frequências altas que

as baixas.


E passando o sinal pelo Banco de Filtros no início? Aplica a proposta nas 4 subbandas superiores e o convencional nas duas

inferiores, melhor!? Não! Mais custoso computacionalmente. Artigo: 3 interpolações de baixo custo (1º estágio e 1ª e 2ª subbandas) Ideia: 6 interpolações de baixo custo (1 por subbanda)


Como decompor sinal em subbandas? Banco de filtro estruturado em árvore binária:

Interpolação convencional => subbandas de baixa frequência Banco de Filtro de reconstrução perfeita

Filtros de síntese e análise projetados para formar CQFs (Conjugate Quadrature Filters)

Filtros de ordem 15

Estudo de Caso Sinal utilizado: tom de piano em baixa frequência Estudo de Caso:

(a) insatisfatório (b) Energia ok, desvio de fase em relação ao

sinal original => Som “bump-like” baixa frequência

(c) Desvio de fase corrigido pelo pós-processamento, efeito colateral => porção modificada do sinal maior que a lacuna original

(d) Melhor resultado

Custo Computacional: Interpolação proposta (p=50) => Ci Pós-processamento => Cp Cp = 0,7*Ci Custo total do esquema = 1,7 Ci Custo equivalente ao esquema convencional

para p=85, que é insuficiente para restaurar o sinal.

G = 1800, N = 2100 @44,1 kHz (a) Interpolador Convencional – p = 100 (b) Método Proposto – p = 50 (c) Método Proposto – p = 50, pós

processamento (d) Interpolador Convencional – p = 1000

Comparação com Outros Métodos

LSAR (Least-Square Autoregressive) p = 100 3 iterações de processamento foram utilizadas para refinar os resultados de

interpolação LSAR-E (LSAR com sinal de excitação com energia constante)

p = 100, energia do sinal de excitação automaticamente ajustada 3 iterações de processamento foram utilizadas para refinar os resultados de

interpolação LSAR + SIN (LSA com base senoidal adicional)

LSAR com bases senoidais extras p = 60 40 bases senoidais (frequências estimadas pela STFT)

Métodos concorrentes

= 100

Comparação com Outros Métodos

Pela Figura, as soluções (b), (c) e (d) tem desempenhos comparáveis

(d) é o que apresenta menor custo computacional

G = 1800, N = 2100 @44,1 kHz (a) – LSAR

Péssimo resultado, como esperado (b) – LSAR + SIN

Sinal reconstruído um pouco suavizado, devido à predominância de componentes senoidais

(c) – LSAR-E Apresenta mais ruído e fora de

fase comparado ao sinal original (d) - PM

Comparação com Outros Métodos Realizando outros testes: Sinais utilizados: 40 trechos de sinais

de instrumentos e musica com acompanhamento vocal.

Usou-se a SNR para avaliar o desempenho dos métodos analisados. Cada sinal possui aproximadamente

6000 amostras; Foram gerados 10 diferentes sinais

corrompidos para cada sinal; As lacunas em cada sinal variam

randomicamente de 400 a 1800 amostras;

OBS: Em todos os casos, os piores resultados para erros de restauração obtidos forammaiores do que se tivessem deixado do jeito que estava!

Avaliação Subjetiva Objetivo: Comparar os resultados

obtidos pelo método utilizado tradicionalmente e pelo proposto no artigo;

Sinais utilizados: 2 trechos de 10 a 20s de musica do tipo

pop ou clássica; Uma voz feminina a capella; Um tom de piano em baixa frequência;

Um grupo de 5 sinais foram criados para cada sinal de teste:

COR Sinal CorrompidoCM1K Restaurado com método

convencional com p = 1000CM100 Restaurado com método

convencional com p = 100PM Restaurado com método propostoREF Sinal Original

Avaliação Subjetiva – Realização do teste 12 pessoas aproximadamente

participaram dos testes; Sem problemas auditivos; Entre 24 a 35 anos; Possuem certa experiência com musica; Estão familiarizados a esse tipo de teste;

Avaliação Subjetiva – Resultados Gerais

O resultado obtido para o método proposto, na média, apresentou melhor resultado que o método convencional com mesmo custo computacional;

O resultado obtido para o método proposto se compara ao obtido pelo método convencional com p = 1000;

Avaliação Subjetiva – Resultados por sinal

Para os sinais “Classical” e “Pop” o PM foi considerado melhor que o CM1K;

Avaliação Subjetiva – Resultados por sinal

Para os sinais “Piano” e “Singing” o PM foi considerado pior que o CM1K, mas com uma discrepância menor neste último;

Utilizando o PM, nota-se uma maior presença de artefatos nos sinais restaurados a partir destes dois sinais;

Avaliação Subjetiva – Resultados (SNR)

Algumas inconsistências: A avaliação subjetiva mostrou melhor

resultado para “classical” e “pop” para PM se comparado ao CM1K, diferente da avaliação objetiva;

Diferença entre PM e CM1K: análise subjetiva >> análise objetiva

Resultado para “Singing” diferente nas análises:Análise Subjetiva: PM melhor que CM100Análise Objetiva: PM pior que CM100

Conclusão

Este trabalho apresenta um eficiente método de interpolação para longos trechos de amostras perdidas em sinais de áudio;

Os resultados obtidos demonstram que é possível obter resultados igualmente satisfatórios com um custo computacional bastante inferior;

Bibliografia

[1] I. Kauppinen, J. Kauppinen, and P. Saarinen, “A method for long extrapolation of audio signals,” J. Audio Eng. Soc., vol. 49, no. 12, pp.1167–1180, Dec. 2001.

[2] I. Kauppinen and J. Kauppinen, “Reconstruction method for missing or damaged long portions in audio signal,” J. Audio Eng. Soc., vol. 50, no. 7/8, pp. 594–602, Jul./Aug. 2002.

[3] I. Kauppinen and K. Roth, “Audio signal extrapolation—theory and applications,” in Proc. 5th Int. Conf. on Digital Audio Effects, Hamburg,Germany, Sep. 2002, pp. 105–110.

an efficient model-based multirate method for reconstruction of audio signals across long gaps...

Documents