an efficient model-based multirate method for reconstruction of audio signals across long gaps...
TRANSCRIPT
An Efficient Model-Based Multirate Method for Reconstruction of Audio
Signals Across Long Gaps
Processamento Digital de Sinais de Áudio
Alan Dantas de Medeiros EndalécioNilson Carvalho Silva Junior
Victor Pereira da CostaVitor Borges Coutinho da Silva
Motivação
Problemas: Erros de transmissão -> perda de partes do sinal Degradação de sinal em gravações antigas de gramofones
Necessária a reconstrução localizada de sinais.
Reconstrução Localizada de Sinais
Técnicas: Interpolação de banda limitada (Band-limited interpolation); Esquemas de substituição de forma de onda (Waveform substitution
schemes); Interpolação com base em modelagem senoidal (Interpolation based on
sinusoidal modeling); Métodos de Subbanda (Subband methods); Interpolação com base em modelagem autorregressiva
(Autoregressive-based interpolation).
Interpolação com base em Modelagem Autorregressiva Adequado para reconstrução de fragmentos curtos de sinais de
áudio. Fragmento curto
Limitado pela suposição de estacionariedade. Estacionariedade em sinais de áudio => janelas de 20 a 50 ms. Casos extremos:
comprimento da lacuna ≈ período de estacionariedade
Interpolação com base em Modelagem Autorregressiva - Casos Extremos
Problemas: Meio da lacuna não é bem modelado
Energia do sinal interpolado decresce Minimização do erro de modelagem AR Ordem do modelo AR insuficiente => raio dos pólos do modelo subestimados
Características espectrais antes e depois da lacuna muito diferentes
Interpolação com base em Modelagem Autorregressiva - Casos Extremos
Soluções: Aumentar ordem do modelo AR
Raio dos pólos aumentam: resposta ao impulso decai mais lentamente Dois modelos AR
Modelo para o fragmento antes da lacuna Modelo para o fragmento depois da lacuna
Proposta
Modificação no esquema de Interpolação com base em Modelagem Autorregressiva (AR) proposto em [1]-[3].
Objetivo: Reduzir ordem de modelos AR usados em métodos de interpolação.
Extrapolação pura do modelo AR:Condição InicialResposta relaxada
x Proposta:Sinal excitando filtro de sínteseResposta forçada
Core Interpolation Method
Core Interpolation Method
Algoritmo Supondo
-> Número de Amostras intactas antes e depois da lacuna -> Número de Amostras corrompidas -> Ordem do modelo
1.Modelo AR calculado com o Método de Burg 2.Computar por filtragem inversa 3.Construir o sinal de excitação estendido 4.Utilizar o sinal de excitação estendido no modelo AR para gerar as
últimas G amostras 5.Inverter a ordem das amostras e realizar as etapas 1 a 4 6.Reconstruir o trecho da lacuna utilizando os dois sinais gerados
Cross-fading window do artigo “Reconstruction method for missing or damaged long portions in audio signal”
Core Interpolation Method
Em uma das referências Sinal de excitação estendido é formado concatenando G 0’s
Para o caso de N < G Necessário concatenar 0’s ao sinal até que hajam G amostras para
reconstrução
Core Interpolation Method
Excitação Espelhada Inspirada em técnicas de processamento por blocos Feitas para minimizar erros transitórios (indesejáveis) Considerações
Modelos AR de ordem baixa Sinais longos Sinais típicos: energia e componentes frequenciais variantes
Core Interpolation Method
É importante notar que a reflexão do sinal de excitação garante que o sinal reconstruído é coerente com o sinal intacto O começo do gap parece mais com o sinal anterior à lacuna O fim do gap parece mais com o sinal após a lacuna Trecho reconstruído livre de distorções impulsivas
Pós-Processamento Multitaxa
Objetivo: Reduzir audibilidade dos artefatos em baixa frequência Descrição:1. Decompor o sinal em 6 subbandas => Banco de Filtros Maximamente
Decimado em oitavas2. Reaplicar o processo de interpolação convencional nas duas
subbandas de menor frequência. (1ª 0 – 690 Hz) (2ª 690 - 1380 Hz) Interpolação na subbanda mais fácil (modelo AR de menor ordem)1. Menor número de modos ressonantes a serem modelados2. Comprimento da lacuna a ser preenchida menor 32 vezes (fator de
decimação das subbandas)
Pós-Processamento Multitaxa
Interpolação na subbanda mais fácil !? Melhor fazer apenas o método convencional nas subbandas, assim não
tem erro nas frequências baixas. Certo!? Errado! Mais custoso computacionalmente.
Lacuna da subbanda de menor frequência /= 32 Mas, Lacuna da subbanda de maior frequência /= 2 Não faz sentido se esforçar mais para recuperar as frequências altas que
as baixas.
Pós-Processamento Multitaxa
E passando o sinal pelo Banco de Filtros no início? Aplica a proposta nas 4 subbandas superiores e o convencional nas duas
inferiores, melhor!? Não! Mais custoso computacionalmente. Artigo: 3 interpolações de baixo custo (1º estágio e 1ª e 2ª subbandas) Ideia: 6 interpolações de baixo custo (1 por subbanda)
Pós-Processamento Multitaxa
Como decompor sinal em subbandas? Banco de filtro estruturado em árvore binária:
Interpolação convencional => subbandas de baixa frequência Banco de Filtro de reconstrução perfeita
Filtros de síntese e análise projetados para formar CQFs (Conjugate Quadrature Filters)
Filtros de ordem 15
Pós-Processamento Multitaxa
Estudo de Caso Sinal utilizado: tom de piano em baixa frequência Estudo de Caso:
(a) insatisfatório (b) Energia ok, desvio de fase em relação ao
sinal original => Som “bump-like” baixa frequência
(c) Desvio de fase corrigido pelo pós-processamento, efeito colateral => porção modificada do sinal maior que a lacuna original
(d) Melhor resultado
Custo Computacional: Interpolação proposta (p=50) => Ci Pós-processamento => Cp Cp = 0,7*Ci Custo total do esquema = 1,7 Ci Custo equivalente ao esquema convencional
para p=85, que é insuficiente para restaurar o sinal.
G = 1800, N = 2100 @44,1 kHz (a) Interpolador Convencional – p = 100 (b) Método Proposto – p = 50 (c) Método Proposto – p = 50, pós
processamento (d) Interpolador Convencional – p = 1000
Comparação com Outros Métodos
LSAR (Least-Square Autoregressive) p = 100 3 iterações de processamento foram utilizadas para refinar os resultados de
interpolação LSAR-E (LSAR com sinal de excitação com energia constante)
p = 100, energia do sinal de excitação automaticamente ajustada 3 iterações de processamento foram utilizadas para refinar os resultados de
interpolação LSAR + SIN (LSA com base senoidal adicional)
LSAR com bases senoidais extras p = 60 40 bases senoidais (frequências estimadas pela STFT)
Métodos concorrentes
= 100
Comparação com Outros Métodos
Pela Figura, as soluções (b), (c) e (d) tem desempenhos comparáveis
(d) é o que apresenta menor custo computacional
G = 1800, N = 2100 @44,1 kHz (a) – LSAR
Péssimo resultado, como esperado (b) – LSAR + SIN
Sinal reconstruído um pouco suavizado, devido à predominância de componentes senoidais
(c) – LSAR-E Apresenta mais ruído e fora de
fase comparado ao sinal original (d) - PM
Comparação com Outros Métodos Realizando outros testes: Sinais utilizados: 40 trechos de sinais
de instrumentos e musica com acompanhamento vocal.
Usou-se a SNR para avaliar o desempenho dos métodos analisados. Cada sinal possui aproximadamente
6000 amostras; Foram gerados 10 diferentes sinais
corrompidos para cada sinal; As lacunas em cada sinal variam
randomicamente de 400 a 1800 amostras;
OBS: Em todos os casos, os piores resultados para erros de restauração obtidos forammaiores do que se tivessem deixado do jeito que estava!
Avaliação Subjetiva Objetivo: Comparar os resultados
obtidos pelo método utilizado tradicionalmente e pelo proposto no artigo;
Sinais utilizados: 2 trechos de 10 a 20s de musica do tipo
pop ou clássica; Uma voz feminina a capella; Um tom de piano em baixa frequência;
Um grupo de 5 sinais foram criados para cada sinal de teste:
COR Sinal CorrompidoCM1K Restaurado com método
convencional com p = 1000CM100 Restaurado com método
convencional com p = 100PM Restaurado com método propostoREF Sinal Original
Avaliação Subjetiva – Realização do teste 12 pessoas aproximadamente
participaram dos testes; Sem problemas auditivos; Entre 24 a 35 anos; Possuem certa experiência com musica; Estão familiarizados a esse tipo de teste;
Avaliação Subjetiva – Resultados Gerais
O resultado obtido para o método proposto, na média, apresentou melhor resultado que o método convencional com mesmo custo computacional;
O resultado obtido para o método proposto se compara ao obtido pelo método convencional com p = 1000;
Avaliação Subjetiva – Resultados por sinal
Para os sinais “Classical” e “Pop” o PM foi considerado melhor que o CM1K;
Avaliação Subjetiva – Resultados por sinal
Para os sinais “Piano” e “Singing” o PM foi considerado pior que o CM1K, mas com uma discrepância menor neste último;
Utilizando o PM, nota-se uma maior presença de artefatos nos sinais restaurados a partir destes dois sinais;
Avaliação Subjetiva – Resultados (SNR)
Algumas inconsistências: A avaliação subjetiva mostrou melhor
resultado para “classical” e “pop” para PM se comparado ao CM1K, diferente da avaliação objetiva;
Diferença entre PM e CM1K: análise subjetiva >> análise objetiva
Resultado para “Singing” diferente nas análises:Análise Subjetiva: PM melhor que CM100Análise Objetiva: PM pior que CM100
Conclusão
Este trabalho apresenta um eficiente método de interpolação para longos trechos de amostras perdidas em sinais de áudio;
Os resultados obtidos demonstram que é possível obter resultados igualmente satisfatórios com um custo computacional bastante inferior;
Bibliografia
[1] I. Kauppinen, J. Kauppinen, and P. Saarinen, “A method for long extrapolation of audio signals,” J. Audio Eng. Soc., vol. 49, no. 12, pp.1167–1180, Dec. 2001.
[2] I. Kauppinen and J. Kauppinen, “Reconstruction method for missing or damaged long portions in audio signal,” J. Audio Eng. Soc., vol. 50, no. 7/8, pp. 594–602, Jul./Aug. 2002.
[3] I. Kauppinen and K. Roth, “Audio signal extrapolation—theory and applications,” in Proc. 5th Int. Conf. on Digital Audio Effects, Hamburg,Germany, Sep. 2002, pp. 105–110.