第 6 章 多媒体数据的压缩
DESCRIPTION
第 6 章 多媒体数据的压缩. 6.1 数据压缩概述 数据压缩的必要性 数据冗余 6.2 数据压缩的基本原理 信息编码基础 数据压缩方法 6.3 数据压缩的编码算法 统计编码( 行程编码 哈夫曼编码 算术编码) 预测编码 变换编码 6.4 常用多媒体数据压缩标准 音频压缩编码标准 静态图像压缩标准 动态图像压缩标准视频压缩编码标准. 6.1 数据压缩概述. 1 、 压缩的必要性 声音、图像、视频和动画的数据量太大 声音 1 分钟立体声音乐采样频率为 44.1KHZ , 16 位量化精度的数据量为 - PowerPoint PPT PresentationTRANSCRIPT
第 6 章 多媒体数据的压缩6.1 数据压缩概述
数据压缩的必要性 数据冗余
6.2 数据压缩的基本原理 信息编码基础 数据压缩方法
6.3 数据压缩的编码算法 统计编码(行程编码 哈夫曼编码 算术编码) 预测编码 变换编码
6.4 常用多媒体数据压缩标准 音频压缩编码标准 静态图像压缩标准 动态图像压缩标准视频压缩编码标准
6.1 数据压缩概述 1 、 压缩的必要性
声音、图像、视频和动画的数据量太大 声音
1 分钟立体声音乐采样频率为 44.1KHZ , 16 位量化精度的数据量为 44.1 * 1000 * 16 * 2 *60 / 8 =10.09MB 存储一首 4 分钟的歌曲约需 40MB
图像 1 副 640*480 的 RGB 彩色图像的存储容量为 640*480 * 24 / 8 = 900KB 视频 1 秒钟( 25 帧 / 秒)的视频数据量为
25*900KB = 21.97 MB1 张 650MB 的 CD ROM 光盘只能存储约 650 / 21.97 = 29.59 秒的视
频
2 数据冗余 空间冗余:图像内部相邻像素之间的相关性 时间冗余:视频序列中前后帧之间的相关性 视觉或听觉冗余(人眼或人耳具有一定的掩蔽效应) 知识冗余(具有规律性的结构,用于图像理解上,如人脸) 统计冗余(出现的频率具有一定的规律性,如元音多,有些辅音很
少出现) 结构冗余(具有纹理结构的图像区域) 信息熵冗余(又叫编码冗余,用相同位数进行编码产生的冗余)
6.2 数据压缩的基本原理1 、信息编码基础压缩的实质:根据数据的内在联系将数据从一种编码映射为另一种编码,
又叫压缩编码。
编码器
(压缩)
存储器
或网络
解码器
(解压缩)输入数据 输出数据
数据压缩过程
数据压缩方法的衡量指标压缩率:越大越好压缩质量:数据失真越小越好压缩与解压缩的速度:速度越快越好
2 、数据压缩方法
无损压缩 有损压缩
混合编码预测编码 变换编码PCM 编码
DPCM 编码
ADPCM编码
帧间预测编码
离散余弦变换
K-L 变换
小波变换
JPEG
MPEG
H.261
行程编码
哈夫曼编码
算术编码
香农编码
LZW编码
统计编码
6.3 数据压缩的编码算法一、无损压缩:减少或去除数据中的冗余,可以无失真地还
原成原来的数据,一般适合压缩数据或程序,但是压缩比较小,一般在 2 : 1 到 5 : 1 之间。
序号 编码方法 基本原理
1行程编码
将重复出现的数值序列采用出现次数和单个数值来表示
2 哈夫曼编码利用不同码字出现的概率不同,出现概率大的码字短,出现概率小的码字长。
3 算术编码 将编码的消息表示成 0 到 1 之间的一个间隔,消息越长,间隔就越小,编码所需二进制位数越多。
1. 行程编码(游程编码) 原理 : 将连续相同的数据序列用重复次数和单个数据来表示。 应用:用于图像文件的压缩(尤其适合于由计算机生成的图像)
如 bmp 和 tiff 等图像格式。
( 1 )多值信息的编码 编码格式:信息重复次数 + 被重复的信息
例: 字符串为: atttefppppppddddss 行程编码为: a3tef6p4d2s
( 2 )二值信息的编码 编码格式: 0 或 1 重复的次数 例如二进制数据流为 000111111000001111 假设行程约定以 0 开始,则编码为: 3654 若约定以 1 开始,则编码为: 03654
2. 哈夫曼( Huffman)编码 算法步骤:
( 1 )按照符号出现的概率大小进行排序( 2 )把最小的两个概率值相加,得到一个新的概率序列( 3 )重复上述两个步骤,直到概率值为 1 ( 4 )从后往前进行编码,概率大的赋予 1 ,概率小的赋予 0 。 (反过来也可以 )( 5 )写出每个符号的码字例 1 :字母 A B C D E 出现的概率分别为 0.15 、 0.25 、 0.1 、 0.37 和 0.13 ,其哈夫曼编码为:
P(C)=0.1 P(E)=0.13
P(CE)=0.23P(A)=0.15
P(ACE)=0.38
P(B)=0.25 P(D)=0.37
P(BD)=0.62
P(ACEBD)=1
0
0
0
0
1
1
1
1
A: 00
B: 10
C: 010
D: 11
E: 011
假设共有 100 个字符 , 若采用等长编码,每个字符至少需要 3 位二进制, 100 个字母需要 300 位,采用哈夫曼编码则只需要 15*2+25*2+10*3+37*2+13*3=223 位。
压缩比为 300 : 223 = 1.34 : 1
例 2 :字母 A B C D E 出现的概率分别为 0.53 、 0.25 、 0.07 、 0.05 和 0.1 , 其哈夫曼编码为:
A: 1
B: 01
C: 0011
D: 0010
E: 000
若采用等长编码,至少需要 3位二进制, 100 个字母需要 300位,采用哈夫曼编码则需要 :
53*1+25*2+7*4+5*4+10*3=181位
压缩比为 300 : 181 = 1.65:1
0
P(E)=0.1
P(D)=0.05 P(C)=0.07
P(DC)=0.12
P(EDC)=0.22 P(B)=0.25
P(EDCBA)=1
0
0
0
1
1
1
P(EDCB)=0.47 P(A)=0.53
0 1
3 、算术编码 编码原理:将被编码信源表示为 [0 , 1 )区间的一个实数,根
据各符号出现的概率构造其所在区间,随着信息字符的不断出现,其所在区间越来越小,对应表示的实数也越来越小,那么表示这一消息所需的二进制位数就越多。
例:假设一个 4 个符号的信源 A={a1 , a2 , a3 , a4 } ,各符号出现的概率及起始编码区间如下表。
信号字符 出现概率 编码范围a1 0.2 [ 0 , 0.2 )
a2 0.4 [ 0.2 , 0.6 )
a3 0.2 [ 0.6 , 0.8 )
a4 0.2 [ 0.8 , 1.0 )
如果要传送的消息为 a1a2a3a2 ,算术编码过程为: 区间计算方法: 新区间起始位置:前面区间起始位置 + 当前区间左端 * 前面区间长度 新区间长度:当前符号的概率 * 前面区间长度
① a1 ,取值区间为 [0 , 0.2)② a2 ,起点: 0+0.2*0.2=0.04 ,长度 0.4*0.2=0.08 ,新区间为 [0.04 , 0.12)③ a3 ,起点: 0.04+0.6*0.08=0.088 ,长度 0.2*0.08=0.016 ,新区间为 [0.088 , 0.104)④ a2 ,起点: 0.088+0.2*0.016=0.0912 ,长度 0.4*0.016=0.0064 ,新区间为 [0.0912 0.0976)
信息: a1 a2 a3 a2
信源符号 0.2 0.12 0.104 0.0976
0 0.04 0.088 0.0912
输出区间内任一数
编码区间
a4a3
a2
a1
0.2
0.6
0.8
0
1
二、有损压缩:压缩时会丢失部分数据,且丢失的数据无法恢复。是不可逆的压缩,即解压缩以后的数据与原始数据不完全一致。
序号 编码方法 基本原理
1PCM 编码
(脉冲编码调制)将模拟量经过采样、量化和编码得到其数字编码。
2 预测编码
根据算法模型,用已有的样本值对新样本进行预测,得到一个预测值,将实际值与预测值相减得到预测误差,再对该误差值进行编码,如果预测越准确,误差值就越小(那误差的幅度肯定小于原始信号),那编码所需的位数就可以减少,达到压缩的目的。
3 变换编码将原始信号从一个域(如时间域)变换到另一个域(如频率域),然后对变换后的信号进行编码。主要用于图像数据的压缩。
1. PCM ( Pulse Code Modulation, 脉冲编码调制)
采样:按固定时间间隔获取一个样本值 量化:按允许的误差将样本对应到近似的数值(幅度上的离散化) 。有均匀
量化和非均匀量化。 编码:用二进制代码表示采样量化后的样本值。
2. 预测编码( 1 ) DPCM (差分脉冲编码调制)
编码器量化器输入
预测器
编码器 信道
信道
s +
-
e e’
+
+
s’
s”
编码器
预测器
+
+s’
s”
e’输出解码器
原始信号为: s ,预测器产生的预测值为:s”预测误差: e=s-s”发送端:发送经过量化的误差 e’接收端:用相同的预测器获得预测值 s”, 输出 s’=s”+e’
最终误差为: s’-s = s”+e’-s = e’ – (s-s”) = e’-e
(即量化器产生的量化误差)
( 2 ) ADPCM (自适应脉冲编码调制)
自适应量化:当信号分布不均匀时,能随输入信号的变化改变量化区间的大小。
自适应预测:采用过去的样本值估算下一个输入样本的预测值,得到最小的实际样本值与预测值之间的差值。
( 3 )帧间预测编码 利用视频图像各帧之间的时间相关性,减少帧内图像信号的冗余,即不直接传送当前帧的像素值,而是传送 x和其前一帧或后一帧对应像素 x’ 之间的差值。
运动补偿的帧间预测
帧间内插法
( 4 ) 线性预测编码( Linear Predictive Coding,LPC ) 采用过去的样本值,以一种前向反馈的方式预测当前采样值,预测值可以用过去 p 个样本值的线性组合来表示。该方法被广泛应用于语音处理。
3. 变换编码 将图像信号从一个域(如时间域)变换到另外一个域(如频率域),然后对变换后
的信号进行量化与编码。
正交变换前两个样本的联合事件 正交变换后两个样本的联合事件
例 : 有两个相邻的数据样本 x1 和 x2, 每个样本采用 3bit 编码 , 各自都有 8 个幅度等级 , 两个样本的联合事件共有 64 种可能 , 用 64 个点表示。对一般的像来说 ,两个相邻的数据样本很有可能出现近似的幅度 , 即很可能出现在 x1=x2 直线附近。
对该数据进行正交变换,将坐标系逆时针旋转 45 度,在新坐标系中 y1 对应到 x1=x2 这条直线,那么变换后的数据样本集中在 y1轴上,对这部分数据进行量化、编码和传输,其他数据不做处理,这样就达到了压缩数据的目的。
常用的变换编码方法有:1 、 K-L 变换2 、傅立叶变换3 、离散余弦变换等
1.电话语音压缩标准 数据:带宽为 200Hz ~ 3.4kHz ,采样频率为 8kHz,
8 位量化,传输速率为 64kb/s 语音压缩标准: G.722 ( 64kb/s )、 G.721 ( 32kb/s )、G.728 ( 16kb/s )和 G.729( 8kb/s )
应用:数字电话通信。
6.4 常用多媒体数据压缩标准6.4.1 音频压缩标准
2. 调幅广播语音压缩标准
数据:带宽为 50hz ~ 7khz的调幅广播语音,使用 16kHz采样频率和 14 位量化位数时,所对应的速率为 224kb/s 。 语音压缩标准: G.722应用:优质语音、音乐、音频会议和视频会议等。
3.高保真立体声的宽带音频压缩标准 数据:采样频率 44.1kHz,用 16 位量化,速率为每声道 705 kb/s 。
语音压缩标准: MPEG音频MPEG-1音频: 层Ⅰ(简化的 ASPEC ) 层Ⅱ(即 MUSICAM ,又称MP2 )
层Ⅲ(又称MP3 )。
MPEG-2音频:多声道, 5.1声道形式及 7.1声道形式
应用:影剧院、家庭影院系统,及将来的高清晰度电视( HDTV)。
6.4.2 静态图像压缩标准JPEG ( joint photographic experts group )联合照片专家组
1.JPEG 标准 适应于彩色和单色多灰度或连续色调的静止数字图像。支持很高的
图像分辨率和量化精度,具有较高的压缩比和图像质量。包含了基于 DC
T 的有损压缩方法和基于预测方法的无损压缩方法。
2.JPEG2000 标准 特征:支持低比特率传输,支持无损和有损压缩,象素精度和分辨
率的渐进式传输,感兴趣域编码,随机码流访问和处理。
经典算法:包含三个部分:小波变换、画布坐标系统、嵌入式优化截断编码( EBCOT)。
压缩标准 屏幕比例 分辨率 帧频 备注
MPEG-1 4 : 3 352x240 29.97 NTSC制式MPEG-1 4 : 3 352x288 25 PAL 制式
MPEG-2 4 : 3 720×480 29.97 NTSC制式
MPEG-2 4 : 3 720×576 25 PAL 制式
HDTV 16 : 9 1920*1080p 60 逐行,但并没有信号源
HDTV 16 : 9 1920*1080i 60 隔行扫描,中国标准
HDTV 16 : 9 1280*720p 60 逐行,中国标准
6.4.3 运动图像和视频压缩编码标准MPEG :运动图像专家组( Moving Picture Experts Group )
MPEG 标准和 HDTV 标准
视频压缩标准1. H.261 和 H.263 标准 国际电信联盟电信标准组织 ITU-T 制定
H.261 :主要用来支持在 ISDN上进行可视电话、视频会议和其它视听服务。
H.263 :主要用于公共电话交换网络( PSTN)上的视频会议和其它可视化服务,旨在以尽可能低的码率( 64kpbs 以下)进行通信。
2. H.26L 标准 在所有码率下都能持续提供较高的视频质量。
支持的图像格式常用的有 CIF和 QCIF。 更高的压缩效率,更灵活的网络适应性,增强对于差错的鲁棒性。
3. AVS标准 2002.6 国家信息产业部科学技术司批准成立数字音
视频编解码技术标准工作组,简称 AVS工作组。
2006.3 成为中国音视频编解码技术标准。
2007.5 成为国际上四个可选视频编码标准之一。