第 6 章多媒体数据的压缩

第 6 章多媒体数据的压缩6.1 数据压缩概述

数据压缩的必要性数据冗余

6.2 数据压缩的基本原理信息编码基础数据压缩方法

6.3 数据压缩的编码算法统计编码（行程编码哈夫曼编码算术编码）预测编码变换编码

6.4 常用多媒体数据压缩标准音频压缩编码标准静态图像压缩标准动态图像压缩标准视频压缩编码标准

6.1 数据压缩概述 1 、压缩的必要性

声音、图像、视频和动画的数据量太大声音

1 分钟立体声音乐采样频率为 44.1KHZ ， 16 位量化精度的数据量为 44.1 * 1000 * 16 * 2 *60 / 8 =10.09MB 存储一首 4 分钟的歌曲约需 40MB

图像 1 副 640*480 的 RGB 彩色图像的存储容量为 640*480 * 24 / 8 = 900KB 视频 1 秒钟（ 25 帧 / 秒）的视频数据量为

25*900KB = 21.97 MB1 张 650MB 的 CD ROM 光盘只能存储约 650 / 21.97 = 29.59 秒的视

频

2 数据冗余空间冗余：图像内部相邻像素之间的相关性时间冗余：视频序列中前后帧之间的相关性视觉或听觉冗余（人眼或人耳具有一定的掩蔽效应）知识冗余（具有规律性的结构，用于图像理解上，如人脸）统计冗余（出现的频率具有一定的规律性，如元音多，有些辅音很

少出现）结构冗余（具有纹理结构的图像区域）信息熵冗余（又叫编码冗余，用相同位数进行编码产生的冗余）

6.2 数据压缩的基本原理1 、信息编码基础压缩的实质：根据数据的内在联系将数据从一种编码映射为另一种编码，

又叫压缩编码。

编码器

（压缩）

存储器

或网络

解码器

（解压缩）输入数据输出数据

数据压缩过程

数据压缩方法的衡量指标压缩率：越大越好压缩质量：数据失真越小越好压缩与解压缩的速度：速度越快越好

2 、数据压缩方法

无损压缩有损压缩

混合编码预测编码变换编码PCM 编码

DPCM 编码

ADPCM编码

帧间预测编码

离散余弦变换

K-L 变换

小波变换

JPEG

MPEG

H.261

行程编码

哈夫曼编码

算术编码

香农编码

LZW编码

统计编码

6.3 数据压缩的编码算法一、无损压缩：减少或去除数据中的冗余，可以无失真地还

原成原来的数据，一般适合压缩数据或程序，但是压缩比较小，一般在 2 ： 1 到 5 ： 1 之间。

序号编码方法基本原理

1行程编码

将重复出现的数值序列采用出现次数和单个数值来表示

2 哈夫曼编码利用不同码字出现的概率不同，出现概率大的码字短，出现概率小的码字长。

3 算术编码将编码的消息表示成 0 到 1 之间的一个间隔，消息越长，间隔就越小，编码所需二进制位数越多。

1. 行程编码（游程编码）原理 : 将连续相同的数据序列用重复次数和单个数据来表示。应用：用于图像文件的压缩（尤其适合于由计算机生成的图像）

如 bmp 和 tiff 等图像格式。

（ 1 ）多值信息的编码编码格式：信息重复次数 + 被重复的信息

例：字符串为： atttefppppppddddss 行程编码为： a3tef6p4d2s

（ 2 ）二值信息的编码编码格式： 0 或 1 重复的次数例如二进制数据流为 000111111000001111 假设行程约定以 0 开始，则编码为： 3654 若约定以 1 开始，则编码为： 03654

2. 哈夫曼（ Huffman）编码算法步骤：

（ 1 ）按照符号出现的概率大小进行排序（ 2 ）把最小的两个概率值相加，得到一个新的概率序列（ 3 ）重复上述两个步骤，直到概率值为 1 （ 4 ）从后往前进行编码，概率大的赋予 1 ，概率小的赋予 0 。（反过来也可以 )（ 5 ）写出每个符号的码字例 1 ：字母 A B C D E 出现的概率分别为 0.15 、 0.25 、 0.1 、 0.37 和 0.13 ，其哈夫曼编码为：

P(C)=0.1 P(E)=0.13

P(CE)=0.23P(A)=0.15

P(ACE)=0.38

P(B)=0.25 P(D)=0.37

P(BD)=0.62

P(ACEBD)=1

0

0

0

0

1

1

1

1

A: 00

B: 10

C: 010

D: 11

E: 011

假设共有 100 个字符 , 若采用等长编码，每个字符至少需要 3 位二进制， 100 个字母需要 300 位，采用哈夫曼编码则只需要 15*2+25*2+10*3+37*2+13*3=223 位。

压缩比为 300 ： 223 = 1.34 ： 1

例 2 ：字母 A B C D E 出现的概率分别为 0.53 、 0.25 、 0.07 、 0.05 和 0.1 ，其哈夫曼编码为：

A: 1

B: 01

C: 0011

D: 0010

E: 000

若采用等长编码，至少需要 3位二进制， 100 个字母需要 300位，采用哈夫曼编码则需要 :

53*1+25*2+7*4+5*4+10*3=181位

压缩比为 300 ： 181 = 1.65:1

0

P(E)=0.1

P(D)=0.05 P(C)=0.07

P(DC)=0.12

P(EDC)=0.22 P(B)=0.25

P(EDCBA)=1

0

0

0

1

1

1

P(EDCB)=0.47 P(A)=0.53

0 1

3 、算术编码编码原理：将被编码信源表示为 [0 ， 1 ）区间的一个实数，根

据各符号出现的概率构造其所在区间，随着信息字符的不断出现，其所在区间越来越小，对应表示的实数也越来越小，那么表示这一消息所需的二进制位数就越多。

例：假设一个 4 个符号的信源 A={a1 ， a2 ， a3 ， a4 } ，各符号出现的概率及起始编码区间如下表。

信号字符出现概率编码范围a1 0.2 [ 0 , 0.2 )

a2 0.4 [ 0.2 , 0.6 )

a3 0.2 [ 0.6 , 0.8 )

a4 0.2 [ 0.8 , 1.0 )

如果要传送的消息为 a1a2a3a2 ，算术编码过程为：区间计算方法：新区间起始位置：前面区间起始位置 + 当前区间左端 * 前面区间长度新区间长度：当前符号的概率 * 前面区间长度

① a1 ，取值区间为 [0 ， 0.2)② a2 ，起点： 0+0.2*0.2=0.04 ，长度 0.4*0.2=0.08 ，新区间为 [0.04 ， 0.12)③ a3 ，起点： 0.04+0.6*0.08=0.088 ，长度 0.2*0.08=0.016 ，新区间为 [0.088 ， 0.104)④ a2 ，起点： 0.088+0.2*0.016=0.0912 ，长度 0.4*0.016=0.0064 ，新区间为 [0.0912 0.0976)

信息： a1 a2 a3 a2

信源符号 0.2 0.12 0.104 0.0976

0 0.04 0.088 0.0912

输出区间内任一数

编码区间

a4a3

a2

a1

0.2

0.6

0.8

0

1

二、有损压缩：压缩时会丢失部分数据，且丢失的数据无法恢复。是不可逆的压缩，即解压缩以后的数据与原始数据不完全一致。

序号编码方法基本原理

1PCM 编码

（脉冲编码调制）将模拟量经过采样、量化和编码得到其数字编码。

2 预测编码

根据算法模型，用已有的样本值对新样本进行预测，得到一个预测值，将实际值与预测值相减得到预测误差，再对该误差值进行编码，如果预测越准确，误差值就越小（那误差的幅度肯定小于原始信号），那编码所需的位数就可以减少，达到压缩的目的。

3 变换编码将原始信号从一个域（如时间域）变换到另一个域（如频率域），然后对变换后的信号进行编码。主要用于图像数据的压缩。

1. PCM （ Pulse Code Modulation, 脉冲编码调制）

采样：按固定时间间隔获取一个样本值量化：按允许的误差将样本对应到近似的数值（幅度上的离散化）。有均匀

量化和非均匀量化。编码：用二进制代码表示采样量化后的样本值。

2. 预测编码（ 1 ） DPCM （差分脉冲编码调制）

编码器量化器输入

预测器

编码器信道

信道

s +

-

e e’

+

+

s’

s”

编码器

预测器

+

+s’

s”

e’输出解码器

原始信号为： s ，预测器产生的预测值为：s”预测误差： e=s-s”发送端：发送经过量化的误差 e’接收端：用相同的预测器获得预测值 s”, 输出 s’=s”+e’

最终误差为： s’-s = s”+e’-s = e’ – (s-s”) = e’-e

（即量化器产生的量化误差）

（ 2 ） ADPCM （自适应脉冲编码调制）

自适应量化：当信号分布不均匀时，能随输入信号的变化改变量化区间的大小。

自适应预测：采用过去的样本值估算下一个输入样本的预测值，得到最小的实际样本值与预测值之间的差值。

（ 3 ）帧间预测编码利用视频图像各帧之间的时间相关性，减少帧内图像信号的冗余，即不直接传送当前帧的像素值，而是传送 x和其前一帧或后一帧对应像素 x’ 之间的差值。

运动补偿的帧间预测

帧间内插法

（ 4 ）线性预测编码（ Linear Predictive Coding,LPC ）采用过去的样本值，以一种前向反馈的方式预测当前采样值，预测值可以用过去 p 个样本值的线性组合来表示。该方法被广泛应用于语音处理。

3. 变换编码将图像信号从一个域（如时间域）变换到另外一个域（如频率域），然后对变换后

的信号进行量化与编码。

正交变换前两个样本的联合事件正交变换后两个样本的联合事件

例 : 有两个相邻的数据样本 x1 和 x2, 每个样本采用 3bit 编码 , 各自都有 8 个幅度等级 , 两个样本的联合事件共有 64 种可能 , 用 64 个点表示。对一般的像来说 ,两个相邻的数据样本很有可能出现近似的幅度 , 即很可能出现在 x1=x2 直线附近。

对该数据进行正交变换，将坐标系逆时针旋转 45 度，在新坐标系中 y1 对应到 x1=x2 这条直线，那么变换后的数据样本集中在 y1轴上，对这部分数据进行量化、编码和传输，其他数据不做处理，这样就达到了压缩数据的目的。

常用的变换编码方法有：1 、 K-L 变换2 、傅立叶变换3 、离散余弦变换等

1．电话语音压缩标准数据：带宽为 200Hz ～ 3.4kHz ，采样频率为 8kHz，

8 位量化，传输速率为 64kb/s 语音压缩标准： G.722 （ 64kb/s ）、 G.721 （ 32kb/s ）、G.728 （ 16kb/s ）和 G.729（ 8kb/s ）

应用：数字电话通信。

6.4 常用多媒体数据压缩标准6.4.1 音频压缩标准

2. 调幅广播语音压缩标准

数据：带宽为 50hz ～ 7khz的调幅广播语音，使用 16kHz采样频率和 14 位量化位数时，所对应的速率为 224kb/s 。语音压缩标准： G.722应用：优质语音、音乐、音频会议和视频会议等。

3．高保真立体声的宽带音频压缩标准数据：采样频率 44.1kHz，用 16 位量化，速率为每声道 705 kb/s 。

语音压缩标准： MPEG音频MPEG-1音频：层Ⅰ（简化的 ASPEC ）层Ⅱ（即 MUSICAM ，又称MP2 ）

层Ⅲ（又称MP3 ）。

MPEG-2音频：多声道， 5.1声道形式及 7.1声道形式

应用：影剧院、家庭影院系统，及将来的高清晰度电视（ HDTV）。

6.4.2 静态图像压缩标准JPEG （ joint photographic experts group ）联合照片专家组

1.JPEG 标准适应于彩色和单色多灰度或连续色调的静止数字图像。支持很高的

图像分辨率和量化精度，具有较高的压缩比和图像质量。包含了基于 DC

T 的有损压缩方法和基于预测方法的无损压缩方法。

2.JPEG2000 标准特征：支持低比特率传输，支持无损和有损压缩，象素精度和分辨

率的渐进式传输，感兴趣域编码，随机码流访问和处理。

经典算法：包含三个部分：小波变换、画布坐标系统、嵌入式优化截断编码（ EBCOT）。

压缩标准屏幕比例分辨率帧频备注

MPEG-1 4 ： 3 352x240 29.97 NTSC制式MPEG-1 4 ： 3 352x288 25 PAL 制式

MPEG-2 4 ： 3 720×480 29.97 NTSC制式

MPEG-2 4 ： 3 720×576 25 PAL 制式

HDTV 16 ： 9 1920*1080p 60 逐行，但并没有信号源

HDTV 16 ： 9 1920*1080i 60 隔行扫描，中国标准

HDTV 16 ： 9 1280*720p 60 逐行，中国标准

6.4.3 运动图像和视频压缩编码标准MPEG ：运动图像专家组（ Moving Picture Experts Group ）

MPEG 标准和 HDTV 标准

视频压缩标准1． H.261 和 H.263 标准国际电信联盟电信标准组织 ITU-T 制定

H.261 ：主要用来支持在 ISDN上进行可视电话、视频会议和其它视听服务。

H.263 ：主要用于公共电话交换网络（ PSTN）上的视频会议和其它可视化服务，旨在以尽可能低的码率（ 64kpbs 以下）进行通信。

2． H.26L 标准在所有码率下都能持续提供较高的视频质量。

支持的图像格式常用的有 CIF和 QCIF。更高的压缩效率，更灵活的网络适应性，增强对于差错的鲁棒性。

3． AVS标准 2002.6 国家信息产业部科学技术司批准成立数字音

视频编解码技术标准工作组，简称 AVS工作组。

2006.3 成为中国音视频编解码技术标准。

2007.5 成为国际上四个可选视频编码标准之一。

第 6 章 多媒体数据的压缩

Documents

第 6 章多媒体数据的压缩