cacchuanaudio
TRANSCRIPT
5/17/2018 CacchuanAudio - slidepdf.com
http://slidepdf.com/reader/full/cacchuanaudio 1/7
T ẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC Đ À N ẴNG - SỐ 4(39).2010
235
TỔNG QUAN VỀ CÁC K Ỹ THUẬT NÉN AUDIO CHẤT LƯỢ NG CAOMP3 VÀ AAC DÙNG TRONG THIẾT BỊ SỐ HIỆN NAY
OVERVIEW OF HIGH QUALITY AUDIO COMPRESSION TECHNOLOGIES MP3AND AAC FOR TODAY’S DIGITAL MEDIA
Hoàng Lê Uyên Thục, Phạm V ăn Tuấ nTr ườ ng Đại học Bách khoa, Đại học Đà N ẵ ng
TÓM TẮT
Trong vài năm gần đây, chúng ta đã chứng kiến sự gia tăng không ngừng của kỹ thuậtnén tín hiệu audio số, đặc biệt là MP3 (Moving Picture Experts Group 1 - Layer 3) và AAC
(Moving Picture Experts Group 2 - Advanced Audio Coding). MP3 và AAC là hai chuẩn nénaudio số chất lượng cao, tín hiệu audio khôi phục nghe được gần giống với tín hiệu gốc tr ướckhi nén. Tùy thuộc vào yêu cầu về chất lượng mà tỷ lệ nén có thể được chọn lựa thích hợp. Vớichất lượng gần giống CD, tỷ lệ nén có thể đạt được khoảng 11:1. Bài báo trình bày tổng quanvề cách thực hiện mã hóa/giải mã MP3 và AAC trên cơ sở lợi dụng những đặc điểm cảm quancủa tai người. Đồng thời tiến hành so sánh MP3 và AAC về chất lượng tín hiệu audio, tốc độ bit và tỷ lệ nén bằng phương pháp đánh giá chất lượng chủ quan là nghe thử. Kết quả thựcnghiệm hoàn toàn phù hợp với các nghiên cứu đã được công bố tr ước đó.
ABSTRACT
There has been a widespread proliferation of digital audio signal compressiontechnologies in the past few years, especially MP3 (Moving Picture Experts Group 1 - Layer 3)
and AAC (Moving Picture Experts Group 2 - Advanced Audio Coding). The MP3 and AACstandards are two high quality compression technologies in which AAC performs better thanMP3. The reconstructed audio signal almost sounds similarly to the original one beforecompression. The compression ratio can be chosen according to the sound quality requirement.The near-CD sound quality can be reached at the compression ratio of 11:1. This articlepresents an overview of human perception of sound, based on which, the encoding anddecoding of MP3 and AAC are implemented. The article also makes the comparison of severalproperties of MP3 and AAC, such as audio quality, bit rate, compression ratio using thesubjective evaluation which is based on the listening test. The experimental results are quite inaccordance with previous publications.
1. Đặt vấn đề
Năm 1982, hai công ty điện tử Philips và Sony đã thành công vang dội vớ i việc
tung ra thị tr ườ ng phươ ng tiện mớ i để lưu tr ữ tín hiệu audio dướ i dạng số - đĩ a compact
(CD). Yêu cầu dung lượ ng cần thiết để ghi âm tín hiệu audio số vào khoảng 1.411
Mbps, ngh ĩ a là:
44100 (mẫu/giây) x 16 (bit/mẫu) x 3600 (giây/giờ ) x 2 kênh = 1.411 Mbps.
Sự phát triển nhanh chóng của các phươ ng tiện nghe nhạc bỏ túi, các dịch vụ chia sẻ file
audio giữa các máy tính qua internet, các dịch vụ truyền hình số (đi kèm audio)… đã
5/17/2018 CacchuanAudio - slidepdf.com
http://slidepdf.com/reader/full/cacchuanaudio 2/7
T ẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC Đ À N ẴNG - SỐ 4(39).2010
236
gây ảnh hưở ng sâu sắc đến các ứng dụng truyền/lưu tr ữ audio. Điều này thúc đẩy các
chuẩn mã hóa nén audio mớ i ra đờ i; trong đó phổ biến nhất là chuẩn MP3 và AAC.
Chuẩn MP3 đượ c ứng dụng để truyền tín hiệu audio qua internet và để lưu tr ữ tín hiệu
audio trong các thiết bị nghe nhạc bỏ túi. Chuẩn AAC là chuẩn nén audio tiế p theo
MP3, đang đượ c sử dụng trong cửa hàng âm nhạc tr ực tuyến của Apple là iTunes.
2. Mã hóa cảm quan tín hiệu audio
Mã hóa audio cảm quan (perceptual encoding) là một k ỹ thuật lợ i dụng những
đặc điểm cảm quan của tai
ngườ i để đạt đượ c tỷ lệ nén cao
vớ i chất lượ ng nén tốt.
Nghiên cứu [1] cho thấy:
độ nhạy của tai khác nhau đối
vớ i các thành phần tần số khácnhau, nên có thể lợ i dụng điều
này để lượ ng tử hóa tín hiệu
audio vớ i số bit khác nhau cho
mỗi băng con, dẫn đến số bit
trung bình giảm xuống (hình 1)
Khi nghe hai âm thanh
mạnh yếu khác nhau vớ i tần số khác nhau xảy ra cùng lúc, âm mạnh hơ n có thể “che
khuất” khiến tai không nghe đượ c âm yếu hơ n. Hiệu ứng này gọi là mặt nạ t ần số
(frequency masking). Tươ ng tự như vậy, nếu âm yếu hơ n đượ c phát ra ngay
tr ướ c hoặc ngay sau âm mạnh hơ n thì
cũng bị “che khuất”. Hiệu ứng này gọi
là mặt nạ thờ i gian (temporal
masking). Hình 2 minh họa sự k ết hợ phai hiệu ứng này.
2.1. Chuẩ n mã hóa audio MP3
MPEG là nhóm các chuẩn mã
hóa audio cảm quan chất lượ ng cao. MPEG-1 hoạt động ở ba chế độ khác nhau gọi làl ớ p (layer), vớ i mức độ phức tạ p và hiệu quả tăng dần từ lớ p 1 đến lớ p 3 [1]. MPEG-1
lớ p 3 (còn gọi là MP3) là nhóm MPEG-1 phức tạ p nhất, cung cấ p chất lượ ng audio gần
vớ i chất lượ ng CD ở tốc độ bit thấ p.
MP3 hỗ tr ợ các tần số lấy mẫu khác nhau như 32kHz, 44.1kHz và 48kHz; tốc
độ bit có thể thay đổi từ 32 đến 448 kbps; mode mã hóa có thể thay đổi, bao gồm:
mono, dual mono, stereo và joint stereo.
Hình 3 là sơ đồ khối của một bộ mã hóa MP3 điển hình.
Hình 1. Phân chia d ải t ần nghe đượ c thành các
băng con và l ượ ng t ử hóa các mẫ u trong t ừ ng
băng vớ i số bit khác nhau [1]
Hình 2. K ế t hợ p hiệu ứ ng mặt nạ t ần số vớ imặt nạ thờ i gian [1]
5/17/2018 CacchuanAudio - slidepdf.com
http://slidepdf.com/reader/full/cacchuanaudio 3/7
T ẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC Đ À N ẴNG - SỐ 4(39).2010
237
- Giàn lọc (Filterbank): phân tích tín hiệu vào thành 32 băng con, đầu ra của các
bộ lọc băng con đượ c nối vớ i bộ biế n đổ i Cosin r ờ i r ạc MDCT (Modified
Discrete Cosine Transform). MDCT chia tiế p các đầu ra của giàn lọc thành 576
băng con nhằm đạt độ phân giải tốt hơ n trong miền tần số. Việc phân chia băng
con là nhằm lợ i dụng đặc điểm độ nhạy của tai thay đổi đối vớ i các thành phần
tần số khác nhau.
- Lập mô hình cảm quan (Psychoacoustic model): khâu này quyết định chất
lượ ng của tín hiệu MP3. Bộ mã hóa MP3 tiến hành ánh xạ từ miền thờ i gian
sang miền tần số bằng phép biế n đổ i Fourier nhanh FFT (Fast Fourier
Trasform) 1024 điểm, để giúp phân giải tần số tốt hơ n nhằm ướ c lượ ng ngưỡ ng
mặt nạ chính xác hơ n.
Hình 3. S ơ đồ khố i bộ mã hóa audio theo chuẩ n MP3 [2]
- Lượ ng tử hóa và mã hóa (Quantization and Coding): thực hiện lượ ng tử hóa
và mã hóa các thành phần phổ vớ i yêu cầu nhiễu lượ ng tử hóa thấ p hơ n ngưỡ ng
mặt nạ. Các giá tr ị lượ ng tử hóa đượ c mã hóa Huffman vớ i bảng mã thay đổi đối
vớ i những dải tần số khác nhau, để thích nghi tốt hơ n vớ i tín hiệu. Vì mã
Huffman là mã có độ dài từ mã thay đổi và cần giữ cho nhiễu thấ p hơ n ngưỡ ng
mặt nạ nên phải tính độ lợ i và các hệ số tỷ lệ tr ướ c khi lượ ng tử hóa. Để tìm
đượ c độ lợ i và các hệ số tỷ lệ tối ưu đối vớ i một khối cho tr ướ c, MP3 dùng hai
vòng lặ p lồng vào nhau.
- Vòng lặp trong hay vòng lặp điều khiển tốc độ (rate control loop): hiệu
chỉnh độ lợ i để tăng dần kích thướ c bướ c lượ ng tử hóa, giảm dần số mức lượ ng
tử hóa cho đến khi số bit yêu cầu cho mã hóa Huffman đủ nhỏ, dẫn đến bit tốc
độ bit của tín hiệu MP3 đủ nhỏ.
- Vòng lặp ngoài hay vòng lặp điều khiển nhiễu (distortion control loop): hiệu
chỉnh hệ số tỷ lệ để giảm dần nhiễu lượ ng tử hóa, lúc đó số mức lượ ng tử hóa
tăng dần lên, làm tốc độ bit tăng dần lên, dẫn đến vòng lặ p trong phải hiệu chỉnh
độ lợ i. Nếu không đồng thờ i thỏa mãn đượ c yêu cầu về tốc độ bit và chất lượ ng
5/17/2018 CacchuanAudio - slidepdf.com
http://slidepdf.com/reader/full/cacchuanaudio 4/7
T ẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC Đ À N ẴNG - SỐ 4(39).2010
238
audio thì hai vòng lặ p sẽ không có điểm hội tụ. Để tránh tr ườ ng hợ p này, phải
hiệu chỉnh các thông số mã hóa khi bộ mã hóa hoạt động ở các tốc độ bit khác
nhau.
- Định dạng dòng bit (bitstream formatting): dòng bit MP3 đượ c định dạngtheo từng khung, gồm các hệ số phổ đã đượ c mã hóa, đầu khung là header gồm:
từ mã đồng bộ, tốc độ bit, tần số lấy mẫu, lớ p, mode mã hóa. Do các thông tin
trên đượ c lặ p lại trong tất cả các khung nên ta có thể giải mã vào bất cứ lúc nào.
2.2. Chuẩ n mã hóa audio AAC
AAC có kiến trúc tươ ng tự như MP3 nhưng khác vớ i MP3 ở chỗ AAC dùng
phươ ng pháp modul hóa (hình 4), phát triển thêm nhiều công cụ mã hóa mớ i, giúp cải
thiện chất lượ ng audio ở tốc độ bit thấ p:
- Giàn lọc: AAC thay giàn lọc trong MP3 bằng MDCT vớ i kích thướ c cửa sổ
dài 1024 (thay cho 576 trong MP3). Điều này làm tăng độ phân giải tần số so
vớ i MP3.
Hình 4. S ơ đồ khố i bộ mã hóa audio theo chuẩ n MPEG-2 AAC [2]
- TNS (Temporal Noise Shaping): là một công nghệ mớ i r ất thành công trong
việc cải thiện chất lượ ng tiếng nói ở tốc độ bit thấ p. TNS tạo dạng nhiễu trong
miền thờ i gian bằng một vòng lặ p hở dự đoán trong miền tần số [1]
- Dự đoán (prediction): có thể dùng khối dự đoán để tăng tỷ lệ nén bằng cách
hướ ng cho bộ lượ ng tử hóa tậ p trung vào những mẫu tín hiệu đáng quan tâm [1].
- Mã hóa audio: mã hóa M/S (mid/side) và ghép cặ p (coupling) mềm dẻo hơ ntrong MP3, cho phép giảm tốc độ bit.
- Mã hóa Huffman: dùng từ mã có độ dài thay đổi để giảm hơ n nữa độ dư trong
hệ số tỷ lệ và trong giá tr ị của các vạch phổ lượ ng tử hóa.
- Bitstream multiplexer: tươ ng tự MP3, dòng bit AAC đượ c định dạng thành
5/17/2018 CacchuanAudio - slidepdf.com
http://slidepdf.com/reader/full/cacchuanaudio 5/7
T ẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC Đ À N ẴNG - SỐ 4(39).2010
239
các khung, trong khung AAC cũng có từ mã đồng bộ và các tham số mã hóa
nhưng không gắn liền vớ i nhau mà thay đổi tùy ứng dụng cụ thể. Ví dụ như:
ADIF (Audio Data Interchange Format) đặt tất cả thông tin điều khiển giải mã
vào trong một header đơ n tr ướ c dòng audio, giúp cho việc trao đổi file dễ dàng
hơ n, nhưng không thể giải mã vào bất cứ lúc nào ta muốn. Hay ADTS (Audio
Data Transport Stream) định dạng header tươ ng tự như MP3, cho phép giải mã
bất cứ lúc nào cần.
3. So sánh MP3 và AAC
3.1. Chấ t l ượ ng mã hóa
Để đánh giá chất lượ ng mã hóa tín hiệu audio, về cơ bản có ba phươ ng pháp là:
nghe thử (đánh giá chủ quan), đánh giá khách quan và đo cảm quan.
Cho đến nay thì nghe thử vẫn là phươ ng pháp đơ n giản và hiệu quả để đánh giá
chất lượ ng của các thuật toán mã hóa audio khác nhau. ITU-R (International
Telecommunications Union, Radiocommunications sector) cùng vớ i các phát thanh viên
và nhóm MPEG audio đã đề xuất một loạt các quy tắc phức tạ p để đánh giá chất lượ ng
bằng cách nghe thử.
Đánh giá khách quan là phươ ng pháp dựa vào tỷ số tín hiệu trên nhiễu SNR. Tuy
nhiên làm thế này có thể xem là không tuân theo mục đích của mã hóa cảm quan, vì mã
hóa cảm quan cải thiện chất lượ ng audio bằng cách tạo thêm nhiễu miền thờ i gian và tần
số dựa trên cơ chế cảm quan của tai, nên có thể dẫn đến SNR thấ p.
ITU-R đã chuẩn hóa một phươ ng pháp đánh giá chất lượ ng dựa gọi là đo cảm quan,
dựa vào mô hình cảm quan của tai để đánh giá chất lượ ng của tín hiệu audio nén [5].
3.2. T ố c độ bit
MPEG không làm việc vớ i tốc độ bit cố định mà ngườ i dùng có thể tùy chọn tốc
độ bit. Tốc độ bit thấ p hơ n sẽ dẫn đến tỷ lệ nén tốt hơ n nhưng chất lượ ng thấ p hơ n. Tuy
nhiên, ta có thể tìm đượ c những tốc độ bit đặc biệt gọi là “sweet spots”, tại đó thuật toán
có thể làm việc tốt nhất. Tại các tốc độ bit lớ n hơ n “sweet spots”, chất lượ ng tín hiệu
audio tăng r ất chậm, trong khi đó tại các tốc độ bit thấ p hơ n, chất lượ ng lại giảm r ất
nhanh.
3.3. K ế t quả so sánh MP3 và AAC bằng thự c nghi ệm
Dùng chức năng “Recoring” trong module “Audio Compression” của chươ ng
trình [1] để ghi âm 20 file âm nhạc ở dạng *.wav, trong đó có 10 file nhạc cổ điển và
10 file nhạc Rap. Chế độ thu đượ c chọn là stereo, tần số lấy mẫu lần lượ t là 32kHz và
44.1kHz. Sau đó tiến hành nén các file wav bằng chức năng “Audio codec”, lần lượ tchọn thuật toán nén MP3 và AAC. Đối vớ i MP3, tiến hành nén ở tốc độ bit 32kbps,
64kbps và 128kbps. Đối vớ i AAC, tiến hành nén ở tốc độ bit 64kbps, 128kbps và
192kbps. Sau đó, so sánh chất lượ ng bằng phươ ng pháp nghe thử nhằm kiểm tra tiếng
ồn, độ méo, cao độ của các nốt, sự ổn định,…, chúng tôi nhận thấy k ết quả như sau:
5/17/2018 CacchuanAudio - slidepdf.com
http://slidepdf.com/reader/full/cacchuanaudio 6/7
T ẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC Đ À N ẴNG - SỐ 4(39).2010
240
Bảng 1. K ế t quả so sánh chấ t l ượ ng của các file MP3
Tốc độ bit
Nhạc cổ điển lấymẫu ở 32kHz
Nhạc cổ điển lấymẫu ở 44.1kHz
Nhạc Rap lấy mẫu ở 32kHz
Nhạc Rap lấy mẫuở 44.1kHz
32kbps
R ất méo, r ất ồn vànhững nốt dài bị đứt
đoạn
Không cải thiện mấyso vớ i tần số lấy mẫu
32kHz
R ất méo, r ất ồn vànhững đoạn nói dài bị
đứt đoạn
Không cải thiệnmấy so vớ i tần số
lấy mẫu 32kHz
64kbps
Vẫn méo và ồn,
những nốt dài ít bị đứt đoạn hơ n
Méo và bị đứt đoạnmột ít ở các nốt dài,
tốt hơ n so vớ i tần số lấy mẫu 32kHz, tốc
độ 64kbps
Vẫn còn méo và ồn,
những đoạn nói dài bớ t bị đứt đoạn
Tốt hơ n so vớ i raplấy mẫu ở tần số
32kHz, nhưng vẫncòn nhận ra méo, ồn
và đứt đoạn
128kb ps
Còn méo một ít,nhưng hầu như các
nốt dài không còn
bị đứt đoạn
Chất lượ ng gần vớ ifile gốc, khó phân
biệt vớ i file wav
Còn méo, ổn và bị đứtđoạn nhưng có thể
chấ p nhận đượ c
Chất lượ ng gần vớ ifile gốc, khó phân
biệt vớ i file gốc
3.4. Nhận xét
K ết quả đánh giá chất lượ ng đối vớ i file nén MP3 ở bảng 1 cho thấy: khi thu âm
ở tần số lấy mẫu 32kHz thì chất lượ ng âm nhạc tất tệ. Cả hai loại nhạc thử nghiệm đều
đạt chất lượ ng chấ p nhận đượ c ở tần số lấy mẫu 44.1kHz và tốc độ bit 64kbps, nhưng
muốn chất lượ ng khá phải nén ở tốc độ bit 128kbps. Lúc này tỷ lệ nén đạt đượ c khá cao
là: 1.411 (Mbps) : 128 (kbps) = 11 : 1.
Đối vớ i AAC, như k ết quả trình bày trong bảng 2, nhạc cổ điển thu âm ở tần số
lấy mẫu 44.1kHz và nén ở tốc độ bit 64kbps có chất lượ ng chấ p nhận đượ c và tốt hơ n sovớ i Rap, vì những nốt cao nghe rõ và trong hơ n; hơ n nữa những đoạn nói trong nhạc
Rap bị méo nhiều hơ n so vớ i nhạc. Cả hai loại nhạc thử nghiệm khi thu âm ở tần số lấy
mẫu 44.1kHz và nén ở tốc độ bit 128kbps và 192kbps đều cho chất lượ ng r ất tuyệt, đặc
biệt r ất khó phân biệt chất lượ ng giữa tốc độ 128kbps và 192kbps.
Bảng 2. K ế t quả so sánh chấ t l ượ ng của các file AAC
Tốc độ bit
Nhạc cổ điển lấymẫu ở 32kHz
Nhạc cổ điển lấymẫu ở 44.1kHz
Nhạc Rap lấy mẫu ở 32kHz
Nhạc Rap lấy mẫu ở 44.1kHz
64kbpsCó ồn một ít và
một số nốt cao bị phô
R ất ít nhiễu, còn ítméo, nghe khá tốt
Có ồn một ít và mộtsố nốt cao bị phô
Có ồn một ít và mộtsố nốt cao bị phô
128kbps
Gần vớ i chấtlượ ng gốc, khó
phân biệt vớ i filewav
Gần vớ i chất lượ nggốc, khó phân biệt
vớ i file wav
Gần vớ i chất lượ nggốc, khó phân biệt
vớ i file wav
Gần vớ i chất lượ nggốc, khó phân biệt
vớ i file wav
192kbps
Gần vớ i chấtlượ ng gốc, khó
phân biệt vớ i tốc
độ 128kbps
Gần vớ i chất lượ nggốc, khó phân biệt
vớ i tốc độ 128kbps
Gần vớ i chất lượ nggốc, khó phân biệt
vớ i tốc độ 128kbps
Gần vớ i chất lượ nggốc, khó phân biệt
vớ i tốc độ 128kbps
5/17/2018 CacchuanAudio - slidepdf.com
http://slidepdf.com/reader/full/cacchuanaudio 7/7
T ẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC Đ À N ẴNG - SỐ 4(39).2010
241
Như vậy, k ết quả đánh giá chất lượ ng của các file nhạc nén bằng MP3 và AAC
bằng thực nghiệm là phù hợ p vớ i các k ết quả nghiên cứu đượ c công bố tại [1], [2], [3].
4. K ết luận
Cả hai chuẩn mã hóa MP3 và MPEG-2 AAC đều có thể nén tín hiệu audio vớ ichất lượ ng gần chất lượ ng của CD. Trong hai chuẩn trên, MP3 ít phức tạ p hơ n AAC,
AAC cung cấ p chất lượ ng tốt hơ n MP3 vớ i cùng tần số lấy mẫu và tỷ lệ nén.
Hướ ng nghiên cứu tiế p theo: tìm hiểu và phát triển các chuẩn nén audio mớ i dựa
trên MPEG-4, thực hiện đầy đủ các phươ ng pháp đánh giá chất lượ ng như: single
stimulus rating, paired rating with reference, multiple stimulus rating, ITU-R BS.1116-1,
MUSHRA.
TÀI LIỆU THAM KHẢO
[1] Jenq-Neng Hwang, “Multimedia Networking”, Cambridge University Press 2009.
[2] Karl-Heinz Brandenburg, “MP3 and AAC explained”, AES 17th International
Conference on High Quality Audio Coding.
[3] Stephen Bunting, “A subjective comparison of MPEG-4 AAC codecs”, 4B
Technical Project 2004.
[4] Serkan Kiranyaz, Mathieu Aubazac, Moncef Gabbouj, “Unsupervised
Segmentation and Classification over MP3 and AAC Audio Bitstreams”, WIAMIS
2003.
[5] C. Colomes, C. Schmidmer, and W.C. Treurniet, “Perceptual quality assessment
for digital audio: PEAQ-the proposed ITU standard for objective measurement of
perceived audio quality”, AES 17th International Conference.