object recognition based on multiple-data fusion

4
基于多信息融合的目标辨识研究 王海军,朱军利, 张帆, 雷鹏 电子信息学院 E-mail: [email protected] 作为智能移动机器人,具有视觉和测距的信息获取 能力是非常重要的,才能够可靠完成未知环境探索和作 业任务。 SIFTScale Invariant Feature Transform,尺度 不变特征变换)算法是一种强大的图像处理与匹配的工 具,机器人需要利用辨识的路标为自身进行导航和定 位。激光扫描数据对环境的噪音和明暗变化具有鲁棒 性,机器人通常使用激光测距仪进行导航和定位。本文 提出了一种基于视觉与测距数据融合的方法,以对环境 目标进行有效辨识。实验结果表明该算法的有效性。 关键词:即时定位和地图创建,尺度不变特征变换,图 像识别,数据融合 Research on object recognition based on multi-data fusion AbstractAs autonomous robot, possessing visual and range information acquisition capability is very crucial to explore unknown environments reliably, SIFT (Scale Invariant Feature Transform) algorithm is a powerful tool in detecting objects under various imaging conditions, robot can use the recognized object as landmarks to navigate and localize itself. The laser scanning data is not sensitive to noise and lightness of the environment, most of the robots use laser rangefinder for its navigation and localization. This paper presents a method to recognize local environment based on data fusion, experimental results demonstrate the effectiveness of the proposed algorithm. Keywords-Simultaneous Localization and mapping Scale Invariant Feature TransformImage RecognitionData Fusion 1. 概述 机器人的同步定位与地图创建(Simultaneous Localization And Mapping)是一个非常复杂的问题,因为 它必须估计机器人移动时的位姿概率,并且保持与环境地 图的一致性和有效性。这种定位与地图估计之间的依赖 性,使得研究 SLAM 问题的难度增大,因为如果更好地解 决这个问题,则需要在高维状态空间求解。在移动机器人 的研究领域中,对于地点(或称为路标、场所)的识别, 往往被称为拓扑节点定位技术。在这方面,较多的研究集 中在利用图像序列进行对周围环境目标的识别,因为这些 图像序列有一定的自然连续性和次序性,这使得移动机器 人可以按照所给的具有一定连续性的图像序列进行拓扑节 点的识别,从而完成有效的定位。 对于移动机 器人来说,能够利用自身所携带的视觉传感 器对某一个路标或地点进行识别,是一个非常重要的功 能。基于所获取的外界视觉信息,对不同的环境路标进行 匹配检测,从而进一步判断机器人目前所处的位置,以及 决定下一步应该向哪 个方向移动。 通常情况下,对两幅图像的检测匹配,是通过提取图像 的“关键点”或是“兴趣点”来进行的,这种被称为关键 兴趣点提取的图像匹配算法是最为常见的。这种算 法涉及到对取自于同一个场景的多个不同的图像进行可靠 的特征点提取,只有有效地取得图像的特征点,才能进行 两幅图像的匹配。 加拿大学者 Lowe[1] 提出了基于模板的图像匹配检测算 --SIFT 算法。 通过 SIFT(Scale Invariant Feature Transform)法所得到的图像描述符,对于图像的转换、平移、缩放和 旋转都具有不变性。这些描述符对光照和 3-D 投影的变化 也具有一定的恒定性。Mikolajczyk Schmid [2]曾经比较了 SIFT 描述符与其他不变特征的描述符,最后他们得出的结 论是 SIFT 算法在针对图像缩放,旋转和光照的变化等条件 下是最好的。罗威提出了通过计算描述符的匹配来检测图 像目标,首先,要做到这一点,必须从被检测的场景中取 得一个模板图像,提取其描述符。然后提取待测试图像的 描述符。通过一对一的模板和被测试图像的检测,从而进 一步确定环境中的目标(路标),实现机器人和定位。 本文内容组织如下: 第二节简要介绍了 SIFT 特征算法,并分析了原 SIFT 法下的特征向量,通过对其特征向量的维度进行裁剪,提 出了一种优化的 SIFT 特征向量,以提高算法的实时计算速 度。第三节主要讨论了激光测距数据处理算法,对算法进 行优化。将测距的处理数据与基于图像处理的 STFT 特征向 量结合,用于对环境目标的识别试验。实验结果见第四 节。最后进行了总结,并讨论了未来的研究方向和工作。 2. SIFT 算法 在不同尺度的高斯差图像的对比中,关键点被确定为 某一局部的极大值或极小值。在不同的相邻尺度的高斯差 图像中,每一个像素点需要在一个 3x3 的子区域内,同与它 相邻的 26 个点的像素灰度值进行对比,在这 26 个点中,有 8 个是来自于同一尺度的相邻点,其余 18 个点位于相邻尺 度的图像上,如果其值为最大或是最小,那么可以作为一 基金支持:上海市大学生科创项目基金(10scx26),上海电机学院重点学科建设 (07XKJ01),上海电机学院科研项目基金(10C401)

Upload: fan-zhang

Post on 24-Mar-2016

219 views

Category:

Documents


4 download

DESCRIPTION

Object Recognition Based On Multiple-Data Fusion

TRANSCRIPT

Page 1: Object Recognition Based On Multiple-Data Fusion

基于多信息融合的目标辨识研究 王海军,朱军利, 张帆, 雷鹏

电子信息学院

E-mail: [email protected]

作为智能移动机器人,具有视觉和测距的信息获取

能力是非常重要的,才能够可靠完成未知环境探索和作

业任务。 SIFT(Scale Invariant Feature Transform,尺度

不变特征变换)算法是一种强大的图像处理与匹配的工

具,机器人需要利用辨识的路标为自身进行导航和定

位。激光扫描数据对环境的噪音和明暗变化具有鲁棒

性,机器人通常使用激光测距仪进行导航和定位。本文

提出了一种基于视觉与测距数据融合的方法,以对环境

目标进行有效辨识。实验结果表明该算法的有效性。

关键词:即时定位和地图创建,尺度不变特征变换,图

像识别,数据融合

Research on object

recognition based on multi-data

fusion

Abstract—As autonomous robot, possessing visual and range

information acquisition capability is very crucial to explore

unknown environments reliably, SIFT (Scale Invariant Feature

Transform) algorithm is a powerful tool in detecting objects under

various imaging conditions, robot can use the recognized object as

landmarks to navigate and localize itself. The laser scanning data is

not sensitive to noise and lightness of the environment, most of the

robots use laser rangefinder for its navigation and localization. This

paper presents a method to recognize local environment based on

data fusion, experimental results demonstrate the effectiveness of

the proposed algorithm.

Keywords-Simultaneous Localization and mapping , Scale

Invariant Feature Transform, Image Recognition,Data Fusion

1. 概述

机器人的同步定位与地图创建(Simultaneous

Localization And Mapping)是一个非常复杂的问题,因为

它必须估计机器人移动时的位姿概率,并且保持与环境地

图的一致性和有效性。这种定位与地图估计之间的依赖

性,使得研究 SLAM 问题的难度增大,因为如果更好地解

决这个问题,则需要在高维状态空间求解。在移动机器人

的研究领域中,对于地点(或称为路标、场所)的识别,

往往被称为拓扑节点定位技术。在这方面,较多的研究集

中在利用图像序列进行对周围环境目标的识别,因为这些

图像序列有一定的自然连续性和次序性,这使得移动机器

人可以按照所给的具有一定连续性的图像序列进行拓扑节

点的识别,从而完成有效的定位。

对于移动机 器人来说,能够利用自身所携带的视觉传感

器对某一个路标或地点进行识别,是一个非常重要的功

能。基于所获取的外界视觉信息,对不同的环境路标进行

匹配检测,从而进一步判断机器人目前所处的位置,以及

决定下一步应该向哪 个方向移动。

通常情况下,对两幅图像的检测匹配,是通过提取图像

的“关键点”或是“兴趣点”来进行的,这种被称为“关键

点”或“兴趣点”提取的图像匹配算法是最为常见的。这种算

法涉及到对取自于同一个场景的多个不同的图像进行可靠

的特征点提取,只有有效地取得图像的特征点,才能进行

两幅图像的匹配。

加拿大学者 Lowe[1]提出了基于模板的图像匹配检测算

法--SIFT 算法。 通过 SIFT(Scale Invariant Feature Transform)算

法所得到的图像描述符,对于图像的转换、平移、缩放和

旋转都具有不变性。这些描述符对光照和 3-D 投影的变化

也具有一定的恒定性。Mikolajczyk 和 Schmid [2]曾经比较了

SIFT 描述符与其他不变特征的描述符,最后他们得出的结

论是 SIFT 算法在针对图像缩放,旋转和光照的变化等条件

下是最好的。罗威提出了通过计算描述符的匹配来检测图

像目标,首先,要做到这一点,必须从被检测的场景中取

得一个模板图像,提取其描述符。然后提取待测试图像的

描述符。通过一对一的模板和被测试图像的检测,从而进

一步确定环境中的目标(路标),实现机器人和定位。

本文内容组织如下:

第二节简要介绍了 SIFT 特征算法,并分析了原 SIFT 算

法下的特征向量,通过对其特征向量的维度进行裁剪,提

出了一种优化的 SIFT 特征向量,以提高算法的实时计算速

度。第三节主要讨论了激光测距数据处理算法,对算法进

行优化。将测距的处理数据与基于图像处理的 STFT 特征向

量结合,用于对环境目标的识别试验。实验结果见第四

节。最后进行了总结,并讨论了未来的研究方向和工作。

2. SIFT 算法

在不同尺度的高斯差图像的对比中,关键点被确定为

某一局部的极大值或极小值。在不同的相邻尺度的高斯差

图像中,每一个像素点需要在一个 3x3 的子区域内,同与它

相邻的 26 个点的像素灰度值进行对比,在这 26 个点中,有

8 个是来自于同一尺度的相邻点,其余 18 个点位于相邻尺

度的图像上,如果其值为最大或是最小,那么可以作为一

基金支持:上海市大学生科创项目基金(10scx26),上海电机学院重点学科建设

(07XKJ01),上海电机学院科研项目基金(10C401)

Page 2: Object Recognition Based On Multiple-Data Fusion

个预选的极值点。去除一个低对比度的点和边缘效应点,

以此增加匹配的稳定性和提高抗噪声干扰能力,最后可以

得到一些关键点或兴趣点。

图1.相邻尺度空间的极值检测

尺度空间的极值检测方法:

首先确定高斯差函数,也称为高斯卷积核,见公式一,

利用此函数对所有尺度空间的图像进行计算,进一步确定

潜在的关键点,而这些关键点对尺度和方向是不变的。

2 2 2( ) / 2

2

1( , , )

2

x yG x y e

(1)

其中(x,y)是空间坐标,σ是尺度因子。

( , , ) ( , , ) ( , )L x y G x y I x y (2)

其中 ( , , )G x y 是尺度可变高斯函数

( , , ) ( ( , , ) ( , , )) ( , )

( , , ) ( , , )

D x y G x y k G x y I x y

L x y k L x y

(3)

2 2( , ) ( ( 1, ) ( 1, )) ( ( , 1) ( , 1))

( , ) arctan(( ( , 1) ( , 1)) / ( ( 1, ) ( 1, )))

m x y L x y L x y L x y L x y

x y L x y L x y L x y L x y

(4)

其中公式 4 计算出特征点的方向幅值。

同其它的图像描述符相比,由于 SIFT 特征向量是 128

维的,因此基于 SIFT 特征向量的计算成本高,尤其不利于

实时在线的快速计算。如果降低特征向量的高维数,将节

省计算时间和计算资源需求。同时在 SIFT 特征点提取过程

中也产生了大量冗余信息,也就是说有很多的特征点被检

测出来,在大多数的图像检测应用中都会涉及到此类冗余

问题。在机器人 SLAM 环境下,对同一场景所取得的图

像,都会产生大量的关键点,这其中大约有 80%的特征点

不能正确的匹配,因此,希望在不影响正确的关键点匹配

的数量情况下,减少所产生的关键点的数量将提高计算能

力。

图2. SIFT关键点特征向量示意图

在上图中,箭头方向代表该像素的梯度方向,箭头长

度代表梯度模值,其中黑点为关键点,在其 2 × 2 子区域

内,每个子区域内有 8 个梯度方向,原始的 SIFT 算法取关

键点周围的 4× 4 子区域,图 2 中只画出了 2 × 2 子区域,

因此对于原始的 SIFT 关键点来说,其特征向量的维度为

4× 4× 8=128。

比较两幅图像是否匹配,其实就是计算两个 SIFT 特征

点的特征向量之间的距离,如果其距离小于预先设定的某

一域值,那么就可以认为这两个点是匹配的,一般来说,

当两幅图像图像中有 3-5 个关键点匹配时,就可以认为两幅

图像是匹配的[1]。

接下来对 SIFT 特征向量的维度进行优化和改进,本文

中采取的方法是进一步减少 SIFT 特征向量的维数,维度降

低了,向量计算的时间也会大幅减少。文中仅计算关键点

周围的 2 × 2 子区域内的梯度,并且在每个子区域中,取四

个梯度向量,将原来的 8 个梯度向量合成为 4 个向量,并

且这 4 个向量的方向与坐标轴的上下左右 4 个方向相对

应。相比标准 SIFT 的 128 维向量而言,向量的维度就降低

到只有 2 × 2 ×4 = 16,再将所获得的向量经过旋转和规范

化操作,以增加其对图像的明暗变化、旋转产生鲁棒性,

取其中包含最大梯度在内的四个梯度方向进行图像的匹

配,这种方法可以显着降低的关键点向量的维度。

图3.原SIFT与改进简化后的匹配效果比较

Page 3: Object Recognition Based On Multiple-Data Fusion

因为 SIFT 特征向量的维度减少了,特征点匹配的可靠

性和准确性也有所降低,因为毕竟省略了其它梯度的的有

效信息,这在医学图像检测中是不合适的,医学图像所对

比的往往是非常细微的地方。但在移动机器人探测环境

中,对于目标图像的检测不像医学图像中要求到具体细微

的地方,当省略了某些梯度信息时,牺牲了辨识的精度而

提高辨识的速度,在不影响对环境中目标的辨识效果的基

础上,能够提高机器人在线的实时运算速度是可取的。

3. 激光测距数据处理算法

激光测距仪具有很高的测量速度和精度特性,它对噪

音和环境的亮度是不敏感的,具有较强的稳定性,因此基

于其精度高和鲁棒性的优点,在机器人定位和地图创建的

研究应用中,激光测距仪被广泛的采用,成为机器人的主

要携带传感器之一。

在实验室的移动机器人平台上带有一个测距范围为 30

米的激光传感测距仪,在每次扫描中可以得到 180 个测距

数据,每个数据的扫描间隔角为 1 度。设 N 激光测距获得

的数据,有以下的定义:

设 D 是测量的数据点,有:

{ ( , ) | 1 }i i iD D x y i N

每一个点的子集都 代表一个线段,每一个线段有 Ni 个

数据点,数据点集和线段都是一一对应。

在图 4 中,rj 表示一个点到一条线段的垂直距离,当其

值小于预设的阈值时,就认为这个点属于此条直线。在实

验中,可以把激光数据点到某一线段的垂直距离做为参考

值,以确定它是否属于该线段。在实验中,激光传感器一

次扫描 180 度,相当于半个平面,这些数据点可能会分布

在不同的线段上,利用上面和算法,可以得到一组激光测

距数据所对应的相应的线段,这些线段往往是墙或是物体

的边缘所产生的。接下来的工作是将线段集与以前测量得

到的模板线段进行对比,以确定机器人所处的场景或是对

某一目标进行边缘检测和匹配。

Li

Dj

Ds

Dj+1

rj

X

Y

O

Ds-1

图4.线段Li的示意图

4. 实验结果分析

经过 SIFT 算法的优化阶段后,基于 SIFT 特征点的两幅

图像的匹配计算时间比以前减少了很多,这是非常关键的

一个步骤,因为智能移动机器人在探测环境时,需要实时

在线计算处理大量数据,这种算法的改进优化对机器人实

时完成任务提供了保障。利用改进后的方法,在不同观测

角度、明暗、变形和噪声的情况下,实验结果如下:

100 200 300 400 500 600

50

100

150

200

图 5.图像加噪及明暗变化的匹配结果

100 200 300 400 500 600

50

100

150

200

图 6.图像扭曲、视角变化下的匹配结果

0 10 20 30 40 50 60 70 80 90 1000

10

20

30

40

50

60

70

80

90

100

repeata

bili

ty(%

)

Line Weight matched(%)

Find nearest keypoints in database

under relative LineWeight matched

图 7.基于多信息的特征匹配示意图

当移动机器人进入到一个新的局部环境时,这个局部

环境可以是一个房间,或是属于移动机器人传感器测量范

Page 4: Object Recognition Based On Multiple-Data Fusion

围内的一个地方,将这样的一个局部环境称为是一个拓扑

节点。对于每一个节点,机器人利用自身携带的视觉传感

器,每 45 度就拍取一幅图像,同时每隔 90 度,激光扫描

一次,所以在一个新的节点环境下,在 360 度的范围内,

共有 4 个激光扫描数据集和 8 个图像与所在的节点相关

联。

机器人捕获当前拓扑节点内的图像信息和环境的距离信

息后,利用前面所讲的算法,对传感器信息进行优化处

理,以多传感器数据融合为基础,将当前的处理数据与以

前存储的环境信息进行比较,最后得出环境目标匹配的结

果,如果匹配成功,则识别出原来的环境目标,如果在数

据库内没有匹配结果,有可能目前的节点是一个新的节

点,也就是说机器人不能在存储数据库中找到匹配的数

据,新的节点将被添加到数据库中。

5. 结论

作为一个自主移动的机器人,在已知或未知环境中作业

时,具有视觉和测距的信息获取能力是非常重要的,在机

器人 SLAM 问题的研究中,能够有效可靠的分析传感器的

信息,是机器人完成各种任务的前提和保障。

在图像处理方面,由于具有清晰独特的关键特征和准确

度高的数字图像匹配方法,SIFT 算法是一个辨识局部环境

目标的有力工具。由于每个数字图像都 会产生大量 SIFT 特

征点,与此同时每个特征点的向量具有多达 128 维的数据

维度,因此对于 SIFT 特征点的提取、基于特征向量的图像

匹配来说,这是一个非常耗时的计算任务。如何删除多余

的信息是非常重要的,在本文中,提出了减少原始 SIFT 算

法下的特征点的数量,简化特征向量的维度,极大地提高

了机器人实时在线的计算速度,提高了对环境中目标的识

别效率。

另外本文提出了一个基于距离数据和图像数据融合的目

标辨识的算法,将一个局部环境节点与图像信息和距离信

息关联起来,为进一步对局部环境进行准确辨识起到了有

效的作用,这些策略可以有效地降低内存要求和算法的复

杂性,增强实时在线的计算能力。实验证明了算法的有效

性。

6. 参考文献

[1] D. Lowe. Distinctive image features from scale-invariant key points.

International Journal of Computer Vision, 2004. 60(2): 91-110.

[2] Mikolajczyk, K. and C. Schmid. A performance evaluation of local

descriptors [J]. IEEE Transactions on Pattern Analysis and Machine

Intelligence, 2005. 27(10): 1615-1630.

[3] Stioupe, A.W., M.C. Martin, and T.B. T. Distributed sensor fusion for

object position estimation by multi-robot systems [C]. Proceedings of the

IEEE International Conference on Robotics and Automation (ICRA 01)

[C]. Seoul, Korea, M ay 2001: 1092-1098.

[4] A. Davidson and D. Murrray. Simultaneous localization and map building

using active vision. IEEE Transactions on PAMI, 24(7):865–880, 2002.

[5] M. Montemerlo, S. Thrun, D. Koller, B. Wegbreit, FastSLAM: A factored

solution to simultaneous localization and mapping, in: Proc. of the

National Conference on Artificial Intelligence (AAAI), Edmonton, Canada,

2002, pp. 593–598.

[6] WANG Yu-quan, XIA Gui-hua, ZHU Qi-dan,,Monte Carlo Localization

of Mobile Robot with �odified SIFT, 2009 International Conference on

Measuring Technology and Mechatronics Automation,400-403

[7] Vadakkepat, P. and L. Jing. Improved Particle Filter in Sensor Fusion for

Tracking Randomly Moving Object [J]. IEEE Transactions on

Instrumentation and Measurement, 2006. 55 (5):1823-1832.

[8] 袁勃,王殿君,姜永成,张秀.SIFT算法在不同维数下的图像匹配效率.科

技导报,2010年第14期

[9] 刘立,彭复员,赵坤,万亚平.采用简化SIFT算法实现快速图像匹配.红外

与激光工程,2008,37(1):181-184.