第 6 章 多媒体数据的压缩

23
第 6 第 第第 第第第第第 6.1 第第第第第第 第第第第第第第第 第第第第 6.2 第第第第第第第第第 第第第第第第 第第第第第第 6.3 第第第第第第第第第 第第第第 第第第第 第第第第第 第第第第 第第第第 第第第第 6.4 第第第第 第第第第第第 第第第第第第第第 第第第第第第第第 第第第第第第第第第第第第第第第第

Upload: donal

Post on 25-Jan-2016

95 views

Category:

Documents


5 download

DESCRIPTION

第 6 章 多媒体数据的压缩. 6.1 数据压缩概述 数据压缩的必要性 数据冗余 6.2 数据压缩的基本原理 信息编码基础 数据压缩方法 6.3 数据压缩的编码算法 统计编码( 行程编码 哈夫曼编码 算术编码) 预测编码 变换编码 6.4 常用多媒体数据压缩标准 音频压缩编码标准 静态图像压缩标准 动态图像压缩标准视频压缩编码标准. 6.1 数据压缩概述. 1 、 压缩的必要性 声音、图像、视频和动画的数据量太大 声音 1 分钟立体声音乐采样频率为 44.1KHZ , 16 位量化精度的数据量为 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 第 6 章 多媒体数据的压缩

第 6 章 多媒体数据的压缩6.1 数据压缩概述

数据压缩的必要性 数据冗余

6.2 数据压缩的基本原理 信息编码基础 数据压缩方法

6.3 数据压缩的编码算法 统计编码(行程编码 哈夫曼编码 算术编码) 预测编码 变换编码

6.4 常用多媒体数据压缩标准 音频压缩编码标准 静态图像压缩标准 动态图像压缩标准视频压缩编码标准

Page 2: 第 6 章 多媒体数据的压缩

6.1 数据压缩概述 1 、 压缩的必要性

声音、图像、视频和动画的数据量太大 声音

1 分钟立体声音乐采样频率为 44.1KHZ , 16 位量化精度的数据量为 44.1 * 1000 * 16 * 2 *60 / 8 =10.09MB 存储一首 4 分钟的歌曲约需 40MB

图像 1 副 640*480 的 RGB 彩色图像的存储容量为 640*480 * 24 / 8 = 900KB 视频 1 秒钟( 25 帧 / 秒)的视频数据量为

25*900KB = 21.97 MB1 张 650MB 的 CD ROM 光盘只能存储约 650 / 21.97 = 29.59 秒的视

Page 3: 第 6 章 多媒体数据的压缩

2 数据冗余 空间冗余:图像内部相邻像素之间的相关性 时间冗余:视频序列中前后帧之间的相关性 视觉或听觉冗余(人眼或人耳具有一定的掩蔽效应) 知识冗余(具有规律性的结构,用于图像理解上,如人脸) 统计冗余(出现的频率具有一定的规律性,如元音多,有些辅音很

少出现) 结构冗余(具有纹理结构的图像区域) 信息熵冗余(又叫编码冗余,用相同位数进行编码产生的冗余)

Page 4: 第 6 章 多媒体数据的压缩

6.2 数据压缩的基本原理1 、信息编码基础压缩的实质:根据数据的内在联系将数据从一种编码映射为另一种编码,

又叫压缩编码。

编码器

(压缩)

存储器

或网络

解码器

(解压缩)输入数据 输出数据

数据压缩过程

数据压缩方法的衡量指标压缩率:越大越好压缩质量:数据失真越小越好压缩与解压缩的速度:速度越快越好

Page 5: 第 6 章 多媒体数据的压缩

2 、数据压缩方法

无损压缩 有损压缩

混合编码预测编码 变换编码PCM 编码

DPCM 编码

ADPCM编码

帧间预测编码

离散余弦变换

K-L 变换

小波变换

JPEG

MPEG

H.261

行程编码

哈夫曼编码

算术编码

香农编码

LZW编码

统计编码

Page 6: 第 6 章 多媒体数据的压缩

6.3 数据压缩的编码算法一、无损压缩:减少或去除数据中的冗余,可以无失真地还

原成原来的数据,一般适合压缩数据或程序,但是压缩比较小,一般在 2 : 1 到 5 : 1 之间。

序号 编码方法 基本原理

1行程编码

将重复出现的数值序列采用出现次数和单个数值来表示

2 哈夫曼编码利用不同码字出现的概率不同,出现概率大的码字短,出现概率小的码字长。

3 算术编码 将编码的消息表示成 0 到 1 之间的一个间隔,消息越长,间隔就越小,编码所需二进制位数越多。

Page 7: 第 6 章 多媒体数据的压缩

1. 行程编码(游程编码) 原理 : 将连续相同的数据序列用重复次数和单个数据来表示。 应用:用于图像文件的压缩(尤其适合于由计算机生成的图像)

如 bmp 和 tiff 等图像格式。

( 1 )多值信息的编码 编码格式:信息重复次数 + 被重复的信息

例: 字符串为: atttefppppppddddss 行程编码为: a3tef6p4d2s

( 2 )二值信息的编码 编码格式: 0 或 1 重复的次数 例如二进制数据流为 000111111000001111 假设行程约定以 0 开始,则编码为: 3654 若约定以 1 开始,则编码为: 03654

Page 8: 第 6 章 多媒体数据的压缩

2. 哈夫曼( Huffman)编码 算法步骤:

( 1 )按照符号出现的概率大小进行排序( 2 )把最小的两个概率值相加,得到一个新的概率序列( 3 )重复上述两个步骤,直到概率值为 1 ( 4 )从后往前进行编码,概率大的赋予 1 ,概率小的赋予 0 。 (反过来也可以 )( 5 )写出每个符号的码字例 1 :字母 A B C D E 出现的概率分别为 0.15 、 0.25 、 0.1 、 0.37 和 0.13 ,其哈夫曼编码为:

P(C)=0.1 P(E)=0.13

P(CE)=0.23P(A)=0.15

P(ACE)=0.38

P(B)=0.25 P(D)=0.37

P(BD)=0.62

P(ACEBD)=1

0

0

0

0

1

1

1

1

A: 00

B: 10

C: 010

D: 11

E: 011

假设共有 100 个字符 , 若采用等长编码,每个字符至少需要 3 位二进制, 100 个字母需要 300 位,采用哈夫曼编码则只需要 15*2+25*2+10*3+37*2+13*3=223 位。

压缩比为 300 : 223 = 1.34 : 1

Page 9: 第 6 章 多媒体数据的压缩

例 2 :字母 A B C D E 出现的概率分别为 0.53 、 0.25 、 0.07 、 0.05 和 0.1 , 其哈夫曼编码为:

A: 1

B: 01

C: 0011

D: 0010

E: 000

若采用等长编码,至少需要 3位二进制, 100 个字母需要 300位,采用哈夫曼编码则需要 :

53*1+25*2+7*4+5*4+10*3=181位

压缩比为 300 : 181 = 1.65:1

0

P(E)=0.1

P(D)=0.05 P(C)=0.07

P(DC)=0.12

P(EDC)=0.22 P(B)=0.25

P(EDCBA)=1

0

0

0

1

1

1

P(EDCB)=0.47 P(A)=0.53

0 1

Page 10: 第 6 章 多媒体数据的压缩

3 、算术编码 编码原理:将被编码信源表示为 [0 , 1 )区间的一个实数,根

据各符号出现的概率构造其所在区间,随着信息字符的不断出现,其所在区间越来越小,对应表示的实数也越来越小,那么表示这一消息所需的二进制位数就越多。

例:假设一个 4 个符号的信源 A={a1 , a2 , a3 , a4 } ,各符号出现的概率及起始编码区间如下表。

信号字符 出现概率 编码范围a1 0.2 [ 0 , 0.2 )

a2 0.4 [ 0.2 , 0.6 )

a3 0.2 [ 0.6 , 0.8 )

a4 0.2 [ 0.8 , 1.0 )

Page 11: 第 6 章 多媒体数据的压缩

如果要传送的消息为 a1a2a3a2 ,算术编码过程为: 区间计算方法: 新区间起始位置:前面区间起始位置 + 当前区间左端 * 前面区间长度 新区间长度:当前符号的概率 * 前面区间长度

① a1 ,取值区间为 [0 , 0.2)② a2 ,起点: 0+0.2*0.2=0.04 ,长度 0.4*0.2=0.08 ,新区间为 [0.04 , 0.12)③ a3 ,起点: 0.04+0.6*0.08=0.088 ,长度 0.2*0.08=0.016 ,新区间为 [0.088 , 0.104)④ a2 ,起点: 0.088+0.2*0.016=0.0912 ,长度 0.4*0.016=0.0064 ,新区间为 [0.0912 0.0976)

信息: a1 a2 a3 a2

信源符号 0.2 0.12 0.104 0.0976

0 0.04 0.088 0.0912

输出区间内任一数

编码区间

a4a3

a2

a1

0.2

0.6

0.8

0

1

Page 12: 第 6 章 多媒体数据的压缩

二、有损压缩:压缩时会丢失部分数据,且丢失的数据无法恢复。是不可逆的压缩,即解压缩以后的数据与原始数据不完全一致。

序号 编码方法 基本原理

1PCM 编码

(脉冲编码调制)将模拟量经过采样、量化和编码得到其数字编码。

2 预测编码

根据算法模型,用已有的样本值对新样本进行预测,得到一个预测值,将实际值与预测值相减得到预测误差,再对该误差值进行编码,如果预测越准确,误差值就越小(那误差的幅度肯定小于原始信号),那编码所需的位数就可以减少,达到压缩的目的。

3 变换编码将原始信号从一个域(如时间域)变换到另一个域(如频率域),然后对变换后的信号进行编码。主要用于图像数据的压缩。

Page 13: 第 6 章 多媒体数据的压缩

1. PCM ( Pulse Code Modulation, 脉冲编码调制)

采样:按固定时间间隔获取一个样本值 量化:按允许的误差将样本对应到近似的数值(幅度上的离散化) 。有均匀

量化和非均匀量化。 编码:用二进制代码表示采样量化后的样本值。

Page 14: 第 6 章 多媒体数据的压缩

2. 预测编码( 1 ) DPCM (差分脉冲编码调制)

编码器量化器输入

预测器

编码器 信道

信道

s +

-

e e’

+

+

s’

s”

编码器

预测器

+

+s’

s”

e’输出解码器

原始信号为: s ,预测器产生的预测值为:s”预测误差: e=s-s”发送端:发送经过量化的误差 e’接收端:用相同的预测器获得预测值 s”, 输出 s’=s”+e’

最终误差为: s’-s = s”+e’-s = e’ – (s-s”) = e’-e

(即量化器产生的量化误差)

Page 15: 第 6 章 多媒体数据的压缩

( 2 ) ADPCM (自适应脉冲编码调制)

自适应量化:当信号分布不均匀时,能随输入信号的变化改变量化区间的大小。

自适应预测:采用过去的样本值估算下一个输入样本的预测值,得到最小的实际样本值与预测值之间的差值。

( 3 )帧间预测编码 利用视频图像各帧之间的时间相关性,减少帧内图像信号的冗余,即不直接传送当前帧的像素值,而是传送 x和其前一帧或后一帧对应像素 x’ 之间的差值。

运动补偿的帧间预测

帧间内插法

( 4 ) 线性预测编码( Linear Predictive Coding,LPC ) 采用过去的样本值,以一种前向反馈的方式预测当前采样值,预测值可以用过去 p 个样本值的线性组合来表示。该方法被广泛应用于语音处理。

Page 16: 第 6 章 多媒体数据的压缩

3. 变换编码 将图像信号从一个域(如时间域)变换到另外一个域(如频率域),然后对变换后

的信号进行量化与编码。

正交变换前两个样本的联合事件 正交变换后两个样本的联合事件

例 : 有两个相邻的数据样本 x1 和 x2, 每个样本采用 3bit 编码 , 各自都有 8 个幅度等级 , 两个样本的联合事件共有 64 种可能 , 用 64 个点表示。对一般的像来说 ,两个相邻的数据样本很有可能出现近似的幅度 , 即很可能出现在 x1=x2 直线附近。

对该数据进行正交变换,将坐标系逆时针旋转 45 度,在新坐标系中 y1 对应到 x1=x2 这条直线,那么变换后的数据样本集中在 y1轴上,对这部分数据进行量化、编码和传输,其他数据不做处理,这样就达到了压缩数据的目的。

常用的变换编码方法有:1 、 K-L 变换2 、傅立叶变换3 、离散余弦变换等

Page 17: 第 6 章 多媒体数据的压缩

1.电话语音压缩标准 数据:带宽为 200Hz ~ 3.4kHz ,采样频率为 8kHz,

8 位量化,传输速率为 64kb/s 语音压缩标准: G.722 ( 64kb/s )、 G.721 ( 32kb/s )、G.728 ( 16kb/s )和 G.729( 8kb/s )

应用:数字电话通信。

6.4 常用多媒体数据压缩标准6.4.1 音频压缩标准

Page 18: 第 6 章 多媒体数据的压缩

2. 调幅广播语音压缩标准

数据:带宽为 50hz ~ 7khz的调幅广播语音,使用 16kHz采样频率和 14 位量化位数时,所对应的速率为 224kb/s 。 语音压缩标准: G.722应用:优质语音、音乐、音频会议和视频会议等。

Page 19: 第 6 章 多媒体数据的压缩

3.高保真立体声的宽带音频压缩标准 数据:采样频率 44.1kHz,用 16 位量化,速率为每声道 705 kb/s 。

语音压缩标准: MPEG音频MPEG-1音频: 层Ⅰ(简化的 ASPEC ) 层Ⅱ(即 MUSICAM ,又称MP2 )

层Ⅲ(又称MP3 )。

MPEG-2音频:多声道, 5.1声道形式及 7.1声道形式

应用:影剧院、家庭影院系统,及将来的高清晰度电视( HDTV)。

Page 20: 第 6 章 多媒体数据的压缩

6.4.2 静态图像压缩标准JPEG ( joint photographic experts group )联合照片专家组

1.JPEG 标准 适应于彩色和单色多灰度或连续色调的静止数字图像。支持很高的

图像分辨率和量化精度,具有较高的压缩比和图像质量。包含了基于 DC

T 的有损压缩方法和基于预测方法的无损压缩方法。

2.JPEG2000 标准 特征:支持低比特率传输,支持无损和有损压缩,象素精度和分辨

率的渐进式传输,感兴趣域编码,随机码流访问和处理。

经典算法:包含三个部分:小波变换、画布坐标系统、嵌入式优化截断编码( EBCOT)。

Page 21: 第 6 章 多媒体数据的压缩

压缩标准 屏幕比例 分辨率 帧频 备注

MPEG-1 4 : 3 352x240 29.97 NTSC制式MPEG-1 4 : 3 352x288 25 PAL 制式

MPEG-2 4 : 3 720×480 29.97 NTSC制式

MPEG-2 4 : 3 720×576 25 PAL 制式

HDTV 16 : 9 1920*1080p 60 逐行,但并没有信号源

HDTV 16 : 9 1920*1080i 60 隔行扫描,中国标准

HDTV 16 : 9 1280*720p 60 逐行,中国标准

6.4.3 运动图像和视频压缩编码标准MPEG :运动图像专家组( Moving Picture Experts Group )

MPEG 标准和 HDTV 标准

Page 22: 第 6 章 多媒体数据的压缩

视频压缩标准1. H.261 和 H.263 标准 国际电信联盟电信标准组织 ITU-T 制定

H.261 :主要用来支持在 ISDN上进行可视电话、视频会议和其它视听服务。

H.263 :主要用于公共电话交换网络( PSTN)上的视频会议和其它可视化服务,旨在以尽可能低的码率( 64kpbs 以下)进行通信。

2. H.26L 标准 在所有码率下都能持续提供较高的视频质量。

支持的图像格式常用的有 CIF和 QCIF。 更高的压缩效率,更灵活的网络适应性,增强对于差错的鲁棒性。

Page 23: 第 6 章 多媒体数据的压缩

3. AVS标准 2002.6 国家信息产业部科学技术司批准成立数字音

视频编解码技术标准工作组,简称 AVS工作组。

2006.3 成为中国音视频编解码技术标准。

2007.5 成为国际上四个可选视频编码标准之一。