análise comparativa: mp3 e aac

Análise Comparativa: MP3 e AAC

Bernardo de Campos Vidal CamiloPedro de Vasconcellos

Rachel Gonçalves de Castro

15/04/2023 1Universidade Federal do Rio de Janeiro

Roteiro

• Introdução– Motivação– MPEG– Janela

• Codificador perceptivo• MP3• AAC• Conclusão

– Vantagens e desvantagens• Bibliografia• Dúvidas

Introdução - Motivação

• Grande evolução na codificação de áudio• Mais “populares”– MP3 e AAC

• “Qual codec apresenta maior qualidade?”

Introdução - MPEG

• Moving Pictures Expert Group– Organização Internacional de Normalização– Estabelecer normas internacioanis para codificação de áudio

• MP3– MPEG-1 Layer 3

• AAC– MPEG-2

• Compressão com perdas– Irrelevância perceptiva do sistema auditivo– Redundância estatística

Introdução - MPEG

• Evolução:

Introdução - MPEG

• Aplicações:– Produção de áudio– Transmissão de som televiso– Armazenamento digital

Janela

10Hz Senoidal

Janela

FFT 10Hz Senoidal

Janela

Senoidal 9.5Hz

Janela

FFT Senoidal 9.5Hz

Janela

Senoidal 9.5Hz Fim-a-Fim

Janela

Hanning window

Janela

Senoidal multiplicada pela janela

Janela

FFT Senoidal 9.5Hz (após janela)

Janela

FFT Senoidal 10Hz (após janela)

Janela

Senoidal 10Hz, evento curto de 100Hz

Janela

50% overlapping

Janela

Spectro com 0% e 50% overlapping

Janela

Janela curta: boa resolução por tempo

Janela

Janela longa: boa resolução por frequência

Janela

Codificador Perceptivo

Banco de Filtros:• Domínio do tempo domínio da frequência

Modelo perceptivo:• Computar estimativa do limiar de mascaramento usando regras da psico-acústica

Quantização e Codificação:• Componentes espectrais são quantizados e codificados com o objetivo de manter o ruído, introduzido pela quantização, abaixo do limiar de mascaramento

Codificação de bitstream:• Juntar o bitstream (coeficientes espectrais + outras informações)

• Banco de Filtro polifásico– Divide o sinal em 32 sub-bandas

15/04/2023 Universidade Federal do Rio de Janeiro 25

• MDCT (Modified Discrete Cosine Transform)– Converte o sinal para o domínio da frequência– Divide cada sub-banda em 18 mais finas

– Melhor eliminação de redundância

32 * 18 = 576 linhas de frequência

• FFT 1024 Points (Fast Fourier Transform)– Converte o sinal para o dimínio da frequência– Maior resolução da frequência– Cálculo do limiar de mascaramento

• Modelo Psico-Acústico– Leva em consideração a sensibilidade do ouvido

humano– Frequências entre 20Hz a 20KHz– Limiar de audição

• Modelo Psico-Acústico– Mascaramento em frequência

– Mascaramento temporal

• Modelo Psico-Acústico– Limiar de mascaramento

• Codificação de Huffman– Utiliza a probabilidade de ocorrência para

construir uma árvore de codificação

• Quantização e codificação– Codifica com menor precisão valores grandes– Dois loops: • Rate Control Loop • Distortion Control Loop

• Rate Control Loop – Número de bits resultante deve ser menor que

número de bits disponível– Passo de quantização aumenta valores

quantizados diminuem

• Distortion Control Loop – Controla ruído causado pelo processo de

quantização– Ruído abaixo do limiar de mascaramento– Fatores de escala

• Formatação de Bitstream – Armazena o som codificado em frames– Cada frame contem informação de 1152 amostras

de áudio

Gain Control

Filter Bank TNS

Intensity/

CouplingPrediction M/S

Scale Factors

Quant.Noiseless

Coding

Rate/Distortion Control

Bitstream Multiplexer

Perceptual Model

Input time

signal Spectral Processing

Quantization and Noiseless Coding

Bitstream Output Data

Control

• Gain Control– Opcional– Normalmente não usado– PQF (filtro polifásico de quadratura)• 4 bandas de frequência igualmente espaçadas• Taxas de amostragem ajustáveis

Gain Control

Filter Bank TNS

Intensity/

Scale Factors

Quant.Noiseless

Coding

Perceptual Model

Input time

Control

• Filter Bank– MDCT Puro, 50% sobreposição• Aplicado diretamente sobre os frames, antes da divisão

em 32 sub-bandas• Long window: 2048 amostras• Short window: 256 amostras (x8)

– 1024 linhas de frequência

Gain Control

Filter Bank TNS

Intensity/

Scale Factors

Quant.Noiseless

Coding

Perceptual Model

Input time

Control

• TNS (Temporal Noise Shaping)– Opcional– Molda o ruído de quantização no domínio do

• TNS (Temporal Noise Shaping)

Sinal Original Ruído quantizado com TNS Ruído quantizado sem TNS

• TNS (Temporal Noise Shaping)

Sinal Original

Quantizado com TNS

Quantizado sem TNS

Gain Control

Filter Bank TNS

Intensity/

Scale Factors

Quant.Noiseless

Coding

Perceptual Model

Input time

Control

• Intensity/Coupling– Opcional– Combina dois canais stereo (left/right) em um só

(mono)– Explora redudâncias na região de alta frequência

Gain Control

Filter Bank TNS

Intensity/

Scale Factors

Quant.Noiseless

Coding

Perceptual Model

Input time

Control

• Prediction– Opcional– Usado para minimizar redundâncias– Eficiente em sinal estacionário/periódico– Aproveita semelhanças dos coeficientes

quantizados de blocos adjacentes

• Prediction

2 frames seguidos com um mesmo padrão

• Prediction

Comparação

• Prediction

Transformada

• Prediction

Coeficientes divididos em bandas

Resíduo enviado (acima)

Gain Control

Filter Bank TNS

Intensity/

Scale Factors

Quant.Noiseless

Coding

Perceptual Model

Input time

Control

• M/S– Opcional– Converte um sinal stereo em dois formatos:• Middle (soma, L + R)• Side (diferença, L – R)

– Não altera o sinal de cada canal (diferentemente do intensity/coupling), que pode ser reconstruído

– Aplicado o mascaramento, verifica qual codificação (L/R, M/S) exige menos bits

Conclusão

• O AAC é, possivelmente, o sucessor do MP3

A melhoria da compressão oferece resultados de alta qualidade com menores tamanhos de arquivoSuporte para multicanais de áudio (até 48 canais de frequência)

Melhoria na eficiência da decodificação, requerendo menos potência

Conclusão

• Por que o MP3 continua forte?

Familiaridade com o formato

Grande quantidade de música disponível no formato MP3

Grande variedade de hardware e software que “tira vantagem” do formatoAusência de restrições DRM (Digital Rights Management)

A maioria dos utilizadores não conhece ou ignora as desvantagens do formato

Dúvidas

?15/04/2023 56Universidade Federal do Rio de Janeiro

Dúvidas

Obrigado!

análise comparativa: mp3 e aac

aac mpeg

codificao deudio mp3

populares mp3

mpeg aplicaes

janelafft senoidal

janelasenoidal multiplicada

mp3 banco de filtro

udio transmisso

Engineering

subject: aac encoder on trimedia tm-1300 - mp3-tech.org ·...

touch screen multimedia phone with qwerty …music music...

satelitný prijímač dvb-s / s2 hdtv / iptv / ott mediálny...

zte -...

aac/wma/mp3 +sd memory card + ipod -...

fsc-bt806 - feasycomaudio interfaces: i²s/pcm and spdif...

broadcast processors 2-11 - bswusa.comencode directly to mp3...

adafruit vs1053 mp3 aac ogg midi wav play-and-record codec...

prestigio multiphone pap3500 duo - asbis...multimedija radio...

vs1053b datasheet - elecrow · vs1053b datasheet vs1053b -...

vs1053b - ogg vorbis/mp3/aac/wma/midi audio codec · 2019....

flyer 2015 - kenwood-electronics.fr · wma aac wav mp3 wma...

adafruit vs1053 mp3/aac/ogg/midi/wav codec breakout tutorial

quick start guide - at&t€¦ · 1. make sure your music is...

vs1033 - mp3/aac/wma/midi audio codec - vlsi solution...

adafruit vs1053 mp3/aac/ogg/midi/wav codec breakout tutorial...

rate-distortion optimization for mp3 and aac audio coding...

mp3 --- mpc --- aac --- ogg inhalt - ba-skripte · mp3---...

convert midi to mp3, wav, flac, aac, mp4 and ogg

jakość transmisji multimedialnej · pcm mp3, aac, flac...