NCMMSC2014 新加坡 2014 年 9 月
一种混响环境下的鲁棒高精度语者声源到达角估计方法*
郭轶凡,邹月娴,王永庆
(北京大学信息工程学院 ADSPLAB/ELIP,深圳 518055)
文 摘:语者声源到达角(Direction of Arrival ,DOA)估计是服务机器人听觉系统的关键技术之一。本文基于声学
矢量传感器(Acoustic Vector Sensor,AVS)和空间声源稀疏表示理论,开展了鲁棒高精度语者声源定位方法研究。
在混响和加性噪声模型下,推导出 AVS 通道传感器之间的时频点数值比近似模型,获得语者声源 DOA 与 AVS 接收
时频点数值比之间的一一对应关系。为了达到鲁棒的语者声源定位,本文采用提取语音信号帧的基频及谐波并进行函
数拟合的方法获取可信的高信噪比时频点,并依此建立 DOA 估计的空间稀疏表示模型并求解获得高精度 DOA 估计。
通过在不同混响和加性噪声条件下的实验结果表明,本文提出的语者声源 DOA 估计方法在加性信噪比 5dB~30dB 范
围内可获得均方根误差(RMSE)小于 0.5°的估计精度,在实际环境中也取得了较好的结果。此外,该方法具有与
声源频率无关以及对混响不敏感的优点,且 AVS 具有体积小,传感器数目少的特点,该 DOA 估计方法有可能为在家
庭自然环境条件下的服务机器人语者声源 DOA 估计提供解决方案。
关键词:声学矢量传感器;到达角估计;空间稀疏表示;传感器间数值比;时频稀疏性
中图分类号:TN912.3
*基金项目:国家自然科学基金项目(No: 61271309)
作者简介:郭轶凡(1989-),女(汉),河北
通讯联系人:邹月娴,教授,邮箱:[email protected]
随着信息技术、视觉技术和语音技术的快速发展,智
能服务机器人成为工业界和学术界的研究热点。其中,听
觉感知则是一项具有挑战的技术,快速、精确的进行空间
语者声源目标的方位识别是服务机器人听觉感知系统的基
本且重要的功能。然而,基于传统麦克风阵列的声源 DOA
估计技术在此应用中面临诸多问题:1)服务机器人通常工
作在较为嘈杂和具有混响的环境(客厅、卧室、医院等);
2)空间声源目标为语者,语音信号为宽带信号;3)服务
机器人能够安装传感器的空间有限(通常为机器人头部大
小)。因此,开展新型 DOA 估计技术具有重要的意义。本
文采用一种新型传感器阵列——AVS [1]作为音频信号传感
器,其结构示意图如图 1 所示。与传统的麦克风阵列相比,
AVS 具有体积小、近似空间同位、各通道间无时间差且存
在三角函数关系等特殊优点,成为实现声源 DOA 估计以
及空间干扰噪声抑制的新研究点[2]-[6]。
基于 AVS 的独特优点,本实验室团队也开展了相关研
究工作。在空间稀疏表示(Spatial Sparsity Representation,
SSR)框架下,充分利用了 AVS 阵列接收数据模型与其子
阵列流形矩阵的关系,提出了一种采用较低复杂度获得较
高 DOA 估计精度的算法。但该方法采用了 8 个间隔半波
长的 AVS 阵列,体积较大,不能应用于小型移动设备上。
为了满足便携式设备的声源 DOA 估计需求,我们提出了
一种基于单个 AVS 以及语音时频(Time-Frequency ,TF)
图 1 AVS 结构图
稀疏特性的 DOA 估计新算法。该方法推导了时频域 AVS
的不同通道传感器之间的数值比(Inter-Sensor Data Ratio,
ISDR)与声源 DOA 之间的一一对应关系。为了获得稳定
的 DOA 估计,该方法利用语音正弦迹提取具有高局部信
噪比(High Local SNR,HLSNR)的时频点,并对具有
HLSNR 的时频点对应的 ISDR 值进行聚类,计算其均值,
则获得 DOA 的估计。然而,实际环境下,计算出的 ISDR
值会受到噪声和混响干扰,因此,通过聚类方法估计出的
DOA 也随之会偏离真实的 DOA 值。此外,研究表明,对
于传统的基于麦克风阵列的 DOA 估计方法,混响和强噪
声同样会降低 DOA 估计精度[7]。
本文开展混响和噪声环境中的语者声源 DOA 估计研
究,在 ISDR 模型基础上,采用 SSR 理论框架建立语者声源
的稀疏模型,通过求解稀疏向量获得高精度 DOA 估计。为
了减少噪声和混响对 DOA 估计的影响,我们将只对具有语
音特征的时频点进行稀疏模型的建立,即通过提取基频来获
得 HLSNR 时频点。为了进一步降低噪声对基频时频点的影
响,我们采用了曲线拟合的思想来进一步规整用于估计
DOA 的有效 HLSNR 时频点。因此,本文提出的鲁棒高精
度的语者声源 DOA 估计方法具有以下优点:1)同时估计
俯仰角和方位角。因为采用 SSR 理论框架,获得的 DOA 精
度要高于传统的 DOA 估计算法[8];2)仅仅采用具有高信噪
比的基频时频点所对应的 ISDR 值进行 DOA 估计,因此,
极大地降低了混响对 DOA 估计精度的影响;3)因为基于
AVS 提取的 ISDR 值与声音频率无关,因此避免了 DOA 估
计的空间混叠问题。
1 AVS 数据模型
基于单个 AVS 的声源定位系统设置如图 1 所示,其
中 AVS 位于直角坐标系原点。由图 1 可见,单个 AVS 是
由 1 个全向传感器及 3 个正交指向的指向性传感器组成,
全向传感器被称为 o 分量,指向 x、y 及 z 轴的指向性传感
器分别称作 u 分量、v 分量及 w 分量[9]。本文假设空间存
在单个目标语音声源 s(t)(服务机器人应用场景),该目标
声源的 DOA 表示为(s, s)。因此,AVS 对目标声源的流
形矢量为
4 1( , ) [ , , ,1] ,Ts s s s su v w R a a (1)
其中,
sin cos , sin sin , coss s s s s s s su v w (2)
被称为声源的 x、y及 z方向余弦,且设定俯仰角s[0, 180),
方位角s[0, 360)。考虑混响和背景噪声,AVS 在时刻 t
接收到的数据可表示为:
( ) ( , ) ( ) ( ) ( )s st s t h t t x a n (3)
其中 x (t)=[xu(t) xv(t) xw(t) xo(t)]T,分别是 u、v、w、o 传感
器的输出,*为卷积操作,h(t)代表房间的冲击响应,
n(t)=[nu(t) nv(t) nw(t) no(t)]T是分别在 o、u、v、w 传感器上
的加性噪声,假设它们互不相关,且与目标语音信号不相
关。
2 DOA估计算法
2.1 ISDR 数据模型
研究表明,语音信号具有时频稀疏性,即在时频点(,
处是单一声源主导[10]。语音时频稀疏性的假设也被广泛
用于声源定位技术研究、语音增强[11][12]和语音识别技术[13]
研究中。定义 AVS 的 ISDR[5]如下:
( , ) ( , ) ( , )uo u oI X X (4)
( , ) ( , ) ( , )vo v oI X X (5)
( , ) ( , ) ( , )wo w oI X X (6)
其中,Xu(、Xv(、Xw(和 Xo(是对(3)式两边
进行短时傅里叶变换变换(Short-time Fourier Transform,
STFT)得到。
根据文献[5][6],ISDR 数据模型可以简化如下,详细过
程本文不再叙述:
( , ) ( , ) ( , ) ( , )s s I b ε (7)
其中
( , ) [ ( , ), ( , ), ( , )]Tuo vo woI I I I (8)
1
( , )1 ( , ) ( , ) ( )oN S H
(9)
( , ) [ , , ]Ts s s s su v w b (10)
( , ) [ ( , ), ( , ), ( , )]Tu v w ε (11)
从(10)式看出 b(s,s)是语音信号 s(t)对 u、v 和 w 传感器的
流形矢量。由(4)~(6)式,ISDR 可以计算获得,如果能够选
取时频点(使得(7)式中的加性噪声项可以被忽略,则式
(7)给出了 ISDR 与 DOA 参数的一一对应关系。
2.2 高信噪比时频点选取
根据语音发音原理可知,浊音的声带振动频率称为基
音频率,简称基频,它是语音信号的重要特征。语音信号
的能量并不是在整个频域均匀分布,而是大部的能量集中
在基频及其一系列谐波上[14],如图 2 纯净语音信号的语谱
图所示,在低频部分(1kHz 以下)的能量很明显高于高频
部分,另外在 100Hz 附近的蓝色点指的是当前语音帧提取
到的基频位置,可以看出基频处能量不一定最强,研究表
明与共振峰位置有关系。语音的第 1 共振峰通常在
300~1000Hz 范围内,基频的有效范围通常是 60~400Hz
[15],也就是说,10 次谐波之内的谐波成分常常会有些比基
波分量还强,它们的位置和幅度与第 1 共振峰的位置(频
率)和强度是密切相关的。从图 3 的语谱图来看,纯净语
音加了 20dB 高斯噪声后,高频部分受影响严重,而基频
及其谐波处能量仍然很强。因此,我们认为通过基频及其
谐波结构提取的数据点,具有较高的局部信噪比,并满足
时频稀疏性的条件。
本文选用语音处理工具箱 VOICEBOX 中自带的鲁棒
图 2 纯净语音信号的语谱图(含基频) 图 3 带噪语音(20dB)的语谱图(含基频)
0.5 1 1.5 2 2.50
1000
2000
3000
4000
5000
6000
7000
8000
Time
Freq
uenc
y (H
z)
0.5 1 1.5 2 2.50
1000
2000
3000
4000
5000
6000
7000
8000
Time
Freq
uenc
y (H
z)
的基频跟踪算法[16],假设信号中共有 L 个语音帧,计算出
每一帧的基频,定义(f)表示为第帧语音的基频为 f,用
数据集合{(ifi), i=1,…, L} 表示。为了降低噪声对基频估
计的影响,我们对提取的数据集合采用三次多项式进行基
频曲线拟合。
假设选取了 N 次谐波,则通过本方法提取的 HLSNR
TF 点集合则为{(ifi’), (ifi’), …, (ifi’), i=1,…, L },将
频率 f’转为角频率,则最终选取计算 ISDR 的时频点为
{(ii’), (ii’), …, (ii’), i=1,…, L }。
2.3 DOA 稀疏表示模型
根据 2.2 节,在 HLSNR TF 点()处,我们有
S(H(No()。由(9)式可得(≈。因此重写(7)
式为
1( , ) ( , ) ( , )s s I b ε (12)
其中,误差(由附加的高斯噪声、房间混响和 SSR 模
型误差共同影响。下面将详细介绍基于 ISDR 数据模型(12)
式的 DOA 稀疏表示模型。
首先将整个空间的方位角和俯仰角等间隔划分为 N1
和 N2个候选网格,形成 M=N1N2个网格角度集(i,j),
i=1,…, N1, j=1,…, N2},且 N1>>1, N2 >>1。根据构造
u、v、w 传感器的过完备流形矩阵如下:
1 2
31 1( , ), , ( , ), , ( , ) , M
i j N N R Ψ b b b Ψ (13)
假设网格间距足够的小,用取代式中的 b(s,s),则
重写(12)式 ISDR 数据模型为
3 1
1( , ) ( , ), ,M MR R I Ψz ε Ψ z (14)
其中,z 是稀疏矢量,其非零行所在位置对应的是语者声
源 Dss。因此,称(14)式为目标声源的 DOA 空间稀
疏表示模型。为了区别于其他算法,本文称其为
Pitch-ISDR-SSR 模型。基于语者声源的空间稀疏性,对(14)
式进行稀疏求解,重构出稀疏矢量 z,获得其非零位置,
即可以估计出(s,s)。显然,N1 和 N2 的取值会影响 DOA
估计精度。N1或 N2越大,网格间距越小,语者 DOA 与
中预定义的角度就越接近,与之对应的计算复杂度会增加。
显然,对每个(点,(14)式中的 z 都有同样的稀疏
结构。利用这个特性,我们定义联合 Pitch-ISDR-SSR 模型
如下:
A ΨΖ Ε (15)
3
1 1[ ( , ), , ( , )], LL L R A I I A (16)
3
1 1 1 1[ ( , ), , ( , )], LL L R E ε ε E (17)
1[ , , ], M LL R Z z z Z (18)
对于单目标声源的情况,(15)式中的 Z只有一个非零
行,对应于目标语者的 DOA (s,s)。因此,DOA 估计问题
被转换为寻找重构矩阵 Z 的非零行位置。
2.4 DOA 估计方法
研究表明,(15)式中的稀疏矩阵 Z可以通过求解下面
的优化问题来重构
2
2 1ˆ argmin
ZA ZΨZ Z (19)
考虑到计算效率和对噪声的鲁棒性,本文选用 l1-SVD[17]
方法,利用奇异值分解技术获取信号子空间,以降低重构
问题的维度,降低后续重构的运算复杂度。对 Z的重构,
本文选用斯坦福大学推出的 CVX 工具包[18]。
为了估计 DOA,计算稀疏空间谱
2
1
ˆ( ) 10log ( , ), 1, ,L
jP i i j i M
Z Z (20)
用 ip 来表示 PZ.的峰值,即重构的稀疏矩阵 Z 的主导非零
行,用它可以计算与估计出的 DOA 所在的网格(i, j),最后,
我们得到
ˆ ˆ, , ,s i s j i j (21)
本文提出的 Pitch-ISDR-SSR DOA 估计算法流程总结
如下:
1) 对 xu(t)、 xv(t)、 xw(t) 和 xo(t)进行 STFT 变换;
2) 提取基频及谐波,并拟合曲线,确定 HLSNR TF 点;
3) 计算 HLSNR 时频点对应的 ISDR 值;
4) 构造(15)式中的数据矩阵 A;
5) 构造(13)式中的过完备流形矩阵;
6) 利用 l1-SVD 方法求解(19)式中的 Z ;
7) 计算 PZ 和 ip;
8) 从 ip中计算语者声源所在网格(i, j),并估计出 DOA。
3 实验与分析
为了评估本文提出的 Pitch-ISDR-SSR DOA 估计算法
的性能,我们开展了 3 个仿真实验和 1 个实际环境中的
DOA 测试。我们选择 GMDA-Laplace 算法[10]进行性能比
较。仿真实验的语者声源为男性,长度为 3 秒,采样率为
32KHz。语音信号分帧长度为 30ms,20ms 重叠,加窗函
数采用汉明窗,窗长为 30ms,STFT 长度为 1024 点。对本
文提出的 Pitch-ISDR-SSR 算法,相关参数设置为
s[0,180°],s[0,180°], N1=N2=180,选取 4 次谐波(即
N=4)进行 HLSNR 时频点计算,正则化参数=20。对
GMDA-Laplace 算法,参数设置为:两个麦克风沿着 z 轴
放置,间隔 8cm。因 GMDA-Laplace 算法只能估计 1 个声
源,则需对 GMDA-Laplace 计算 2 次才能获得俯仰角和方
位角。选用绝对值误差(Absolute Error,AER)和均方根
误差(Root Mean Square Error,RMSE)作为 DOA 估计性
能的标准,定义如下
ˆ ˆAER (| | | |) 2 (22)
2 2
1
ˆ ˆRMSE 0.5 ( ) ( ) )TN
i i TiN
(23)
其中 NT是独立试验的次数。
3.1 实验 1:算法的 DOA估计精度
该实验旨在展示提出的 Pitch-ISDR-SSR 算法在不同
角度下的 DOA 估计准确率。信噪比 SNR 为 10dB,不考
虑混响,60°,在每次试验中从°到 180°随机生成,共
进行 100 次。因此,目标语者声源覆盖了整个 0°~180°,
实验结果见图,可以看出, Pitch-ISDR-SSR 算法几乎在
所有角度的估计精度优于 GMDA-Laplace 算法,尤其是当
在 0°~20°和 160°~180°的范围内。实验结果表明在当前条
件下 Pitch-ISDR-SSR 算法可以获得 0.5°的平均误差。
3.2 实验 2:算法的噪声鲁棒性
该实验的目的是评估 Pitch-ISDR-SSR 算法在无混响
条件下对加性噪声的鲁棒性。目标语音声源位于(60°,45°),
信噪比 SNR 从 0dB 变化到 30dB, 每个 SNR 下进行 100
次独立试验,RMSE 结果如图 5 所示。可以看到,本文提
出的 Pitch-ISDR-SSR 算法,其 RMSE 在所有的 SNR 下都
要远小于 GMDA-Laplace 算法。尤其是,当 SNR<5dB 时,
Pitch-ISDR-SSR 算法的 RMSE 小于 1°,当 SNR>25dB 时,
Pitch-ISDR-SSR 算法的 RMSE 接近于 0°。此结果表明,本
文提出的 Pitch-ISDR-SSR 算法对加性噪声不敏感。
3.3 实验 3:算法的混响鲁棒性
本实验将验证 Pitch-ISDR-SSR 算法在不同混响条件
下的 DOA 估计性能。实验设置为:采用[19]所述的 Image
方法产生混响信号,在 10×5×4 的房间中,AVS 位于房间
正中,语音声源在距 AVS 为 2m 的(60°,45°)方向,SNR 设
为 10dB。采用 5 个不同的混响时间(RT60)设置,如表 1
所示。每个混响条件下进行 100 次独立试验后平均获得
RMSE 性能曲线,如图 6 所示。图中我们清楚地看到
Pitch-ISDR-SSR算法的RMSE曲线基本不随混响时间而变
化,即该算法对混响具有很好的鲁棒性,这在 DOA 估计
中是极大的优势。而 GMDA-Laplace 算法的性能随着混响
时间的增加急剧下降,说明了用传统的麦克风阵列进行
DOA 估计会受到混响的严重影响。
表 1 RT60和相应的反射系数
RT60 (ms) 0 95 206 328 494
反射
系数
墙壁 0 0.3 0.6 0.8 0.9
房顶 0 0.2 0.5 0.6 0.7
地板 0 0.1 0.3 0.4 0.7
3.4 实验 4:实际环境中的 DOA 估计
在本实验中,我们测试了 Pitch-ISDR-SSR 算法在实
际场景中的定位效果,采用的是本实验室开发的 AVS 数据
采集系统录制的数据,如图 7 所示,其中用红色方框分别
标示出了实测定位界面、采集器和本实验室自制的 AVS。
在约 8.5×3×5 m3的房间里,条件不可控制,同时存在背景
噪声和混响。SNR 测量值约为 20dB,目标语音声源和 AVS
的距离为 0.5m,采样率为 32kHz,STFT 点数为 1024。在
s=90°、方位角s 分别为 0°、45°、90°、135°和 180°的方
向进行了测试,DOA 估计结果分别为(87°,4°)、(93°,37°)、
(90°,91°)、 (86°,142°) 、(83°,179°)。这些初步的实验结果
进一步验证了本文所提出算法的有效性。
4 结论
本文提出了一种混响环境下的鲁棒高精度语者声源
DOA 估计方法,称为 Pitch-ISDR-SSR 算法。该算法首先
推导出 AVS 的通道间数值比模型(ISDR)与目标语者的
DOA 之间的一一对应关系,进一步利用语音信号的基频和
谐波结构以及时频稀疏性假设,提取在基频及谐波上的高
局部信噪比时频点(HLSNR TF 点),选取 HLSNR 时频点
所对应的 ISDR 进行空间稀疏表示,最后求解稀疏矢量以
获得高精度 DOA 估计。仿真实验和实测实验初步结果表
明,本文提出的 Pitch-ISDR-SSR 算法具有高精度、噪声鲁
棒和混响鲁棒的特性,这些特性在实际应用中将具有优势。
未来的工作将进一步开展算法性能的理论分析。
20 40 60 80 100 120 140 160
1
2
3
4
5
6
Azimuth angle
AE
R o
f DO
A e
stim
atio
n (d
egre
e)
AVS-Pitch-ISDR
GMDA-Laplace
0 5 10 15 20 25 30
0
0.5
1
1.5
2
2.5
3
3.5
4
SNR (dB)
RM
SE
of D
OA
est
imat
ion
(deg
ree)
AVS-Pitch-ISDR
GMDA-Laplace
图 4:不同声源 DOA 处的绝对值误差 AER 图 5:不同信噪比 SNR 下的 DOA 估计 RMSE
0 100 200 300 400 5000
0.5
1
1.5
2
2.5
3
3.5
4
4.5
RT60(ms)
RM
SE
of D
OA
est
imat
ion
(deg
ree)
AVS-Pitch-ISDR
GMDA-Laplace
图 6:不同混响条件下的 DOA 估计 RMSE 图 7: 实际环境中实验设置
参 考 文 献
[1] Hawkes, M. and Nehorai, A., “Acoustic vector-sensor beam-
forming and Capon direction estimation”, Signal Processing,
IEEE Transactions on, 46(9): 2291-2304, 1998.
[2] Lockwood, M.E. and Jones, D.L., “Beamformer performance
with acoustic vector sensors in air”, The Journal of the Acousti-
cal Society of America, 119(1): 608-619,2006.
[3] Shujau, M., Ritz, C.H. and Burnett, I.S., “Designing Acoustic
Vector Sensors for localization of sound sources in air”, EU-
SIPCO 2009, 2009.
[4] Li, B. and Zou, Y.X., “Improved DOA estimation with acoustic
vector sensor arrays using spatial sparsity and subarray mani-
fold”, Acoustics, Speech and Signal Processing (ICASSP), 2012
IEEE International Conference on. IEEE, 2557-2560, 2012.
[5] Zou, Y.X, Shi, W., Li, B., et al, “Multisource DOA estimation
based on time-frequency sparsity and joint inter-sensor data ra-
tio with single acoustic vector sensor”, Acoustics, Speech and
Signal Processing (ICASSP), IEEE International Conference on.
IEEE, 4011-4015, 2013.
[6] Zou, Y.X., Guo Y.F., Zheng W.Q. et al, “An Effective Doa
Estimation By Exploring The Spatial Sparse Representation Of
The Inter-Sensor Data Ratio Model”, Signal And Information
Processing (ChinaSIP), IEEE China Summit & International
Conference on. IEEE, 2014.
[7] Benesty, J., Chen, J. and Huang, Y., “Microphone Array Sig-
nal Processing”, Springer, 2008.
[8] Zheng, J. and Kaveh, M., “Direction-of-arrival estimation using
a sparse spatial spectrum model with uncertainty”, IEEE Inter-
national Conference on Acoustics, Speech and Signal Pro-
cessing, 2848-2851, 2011.
[9] Wong, K.T. and Zoltowski, M.D., “Closed-form underwater
acoustic direction-finding with arbitrarily spaced vector hydro-
phones at unknown locations”, Oceanic Engineering, IEEE
Journal of, 22(3), 566-575, 1997.
[10] Zhang, W. and Rao, B.D., “A two microphone-based approach
for source localization of multiple speech sources”, IEEE
Transactions on Audio, Speech, and Language Processing, 18(8),
1913-1928, 2010.
[11] Zou, Y.X., Wang, P., Wang, Y.Q., et al.,“Speech Enhancement
with an Acoustic Vector Sensor: An Effective Adaptive Beam-
forming and Post Filtering Approach”,EURASIP Journal on
Audio, Speech, and Music Processing, 2014.
[12] 邹月娴, 王鹏, 王文敏, “基于单 AVS 的空间目标语音增强
方法”, 清华大学学报, 53(6), 883-887, 2013.
[13] 胡旭琰, 邹月娴, 王文敏, “一种基于 MDT 特征补偿的噪
声鲁棒语音识别算法”, 清华大学学报, 53(6), 753-756, 2013.
[14] McAulay, R. and Quatieri, T. “Speech analysis/synthesis based
on a sinusoidal representation”, IEEE Transactions on Acoustics,
Speech and Signal Processing, 34, 744-754, 1986.
[15] Ahmadi, S. and Spanias, A.S., “Cepstrum-based pitch detection
using a new statistical V/UV classification algorithm”, Speech
and Audio Processing, IEEE Transactions on, 7(3): 333-338,
1999.
[16] Talkin, D., “A robust algorithm for pitch tracking (RAPT)”,
Speech coding and synthesis, 495-518, 1995.
[17] Malioutov, D., Cetin, M. and Willsky, A., “A sparse signal
reconstruction perspective for source localization with sensor
arrays”, Signal Processing, IEEE Transactions on ,
53(8):3010–3022, 2005.
[18] Grant, M. and Boyd, S., “CVX: MATLAB Software for Disci-
plined Convex Programming”, Online: http://cvxr.com/, ac-
cessed on 19 May 2014.
[19] Allen, J.B., and Berkley, D.A., “Image method for efficiently
simulating small room acoustics”, The Journal of the Acoustical
Society of America, 65(4), 943-950, 1997