CN108256463A

CN108256463A - 基于esn神经网络的移动机器人场景识别方法

Info

Publication number: CN108256463A
Application number: CN201810028630.8A
Authority: CN
Inventors: 苑晶; 杨少坤; 董星亮; 孙沁璇
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2018-01-10
Filing date: 2018-01-10
Publication date: 2018-07-06
Anticipated expiration: 2038-01-10
Also published as: CN108256463B

Abstract

一种基于ESN神经网络的移动机器人场景识别方法：从构成场景的图像序列中，提取ORB特征点，再从提取到的ORB特征点中，提取PIRF特征点；对从图像序列中提取的PIRF特征点，使用词袋模型建立词袋码本，使用词袋码本为图像序列中的每幅图像计算编码向量；构建ESN神经网络，以每幅图像的编码向量作为ESN神经网络的输入，在线训练ESN神经网络，根据输出结果识别和提取图像序列中的场景信息。本发明以场景中的动态物体对场景识别带来的随机性，对于高动态环境有很强的适应性。本发明大大减小了搜索规模和难度，提高了搜索和识别的效率。本发明有很好的适用性，可以方便有效地完成场景序列的识别和分类，保证识别的准确性同时，提高了识别速度。

Description

基于ESN神经网络的移动机器人场景识别方法

技术领域

本发明涉及一种移动机器人场景序列识别方法。特别是涉及一种基于ESN神经网络的移动机器人场景识别方法。

背景技术

基于视觉的场景识别是指机器人利用视觉传感器所采集到的图像，让机器人判断和识别出当前所处的场景是否曾经经过的过程。在众多基于视觉的场景识别算法中，所识别的场景是单一的一副图像，也就是对图像与图像之间进行匹配，进而完成识别。为了解决这个问题，人们往往从这两个方面入手：第一设计具有区分性的图像特征，比如SURF、SIFT、MLSD等描述子；第二设计识别匹配的策略，比如最近邻、概率模型，HMM等。虽然这些方法在一定程度上实现了场景的识别与匹配，但是由于环境的多变性，机器人运动等因素的影响，而产生大量的误识别的情况。比如，机器人连续采集的若干幅图像，由于机器人运动速度的原因导致采集的图像都极为相似，这种情况往往对识别造成了很大影响。这也间接的表明了单一图像的局限性。

实际上机器人所经过的“场景”并非单一图像所刻画的，是由连续的一组描述具有相同内容的图像序列描述的，我们将其定义为“场景序列”。

为了实现基于场景序列的场景识别，要解决的问题一共有三个：一是如何描述和表征一幅图像；二是如何划分出场景序列；三是如何实现场景序列的匹配。本文也将从这三个方面展开研究，

基于视觉的场景识别算法在近年来倍受人们的关注，不仅仅是因为视觉传感器的价格低廉，更是因为由视觉传感器所采集到的图片往往包含了丰富的信息。与此同时，随着数字图像处理领域的算法日益成熟，其在机器人的场景识别这个应用也广泛受到人们的研究。

从特征的角度来看,Jin Han Lee使用了一种名为MLSD的直线描述子，利用词袋模型，构造图像特征；并根据图像的相似度筛选出若干候选图像；最后利用描述子空间变换的匹配思想完成细粒度的匹配。Roberto Arroyo1设计并改进了原始的LDB特征，将其命名为D-LDB，由于这种特征具有一定程度的区分性，进而提升了场景识别的准确性。

从模型的角度来看，Mark Cummins使用贝叶斯概率模型来计算新的图片与已有的图片之间的概率值，并通过概率值来完成场景的识别。Elena Stumm则利用信息检索的模型来完成图像的匹配与识别。

不同于上面单一图像层次的逐一匹配，Michael Milford等人将单一图像的匹配，转化为图像序列的匹配。通过建立图像与图像之间的相似度矩阵来挖掘出当前序列与模板序列的匹配程度，即寻找一条最优的匹配路径。最终的匹配结果仍然是寻找两个图像序列中一一匹配的图像对。该类算法的实验室数据集本身即为很多段不同的图像序列，并不需要对整个数据集进行场景序列的划分，也因此一定程度的回避了场景序列划分的问题。

然而这些算法的本质均是在图像的粒度上进行场景的识别。即使考虑了序列的信息，也是将序列的匹配转化为图像与图像之间匹配的问题上。

发明内容

本发明所要解决的技术问题是，提供一种能够在保证识别的准确性同时，提高了识别速度的基于ESN神经网络的移动机器人场景识别方法。

本发明所采用的技术方案是：一种基于ESN神经网络的移动机器人场景识别方法，包括如下步骤：

1)从构成场景的图像序列中，提取ORB特征点，再从提取到的ORB特征点中，提取PIRF特征点；

2)对从图像序列中提取的PIRF特征点，使用词袋模型建立词袋码本，使用词袋码本为图像序列中的每幅图像计算编码向量；

3)构建ESN神经网络，以每幅图像的编码向量作为ESN神经网络的输入，在线训练ESN神经网络，根据输出结果识别和提取图像序列中的场景信息。

步骤1)包括：

(1)设有图像序列I＝{I₁,I₂,I₃,…,I_i,…,I_N},对于每幅图像I_i分别提取ORB特征点，每个ORB特征点都用一个特征向量来表示，得到每幅图像I_i的ORB特征点的集合S_i＝{S_i1,S_i2,S_i3,…,S_in}；

(2)分别从每幅图像I_i的ORB特征点的集合S_i＝{S_i1,S_i2,S_i3,…,S_in}中，提取PIRF特征点，分别得到每幅图像I_i的PIRF特征点的集合P_i＝{P_i1,P_i2,P_i3,…,P_im}。

步骤2)包括：

(1)对从所有图像中提取到的全部PIRF特征点使用K-means聚类的方法进行聚类，设聚类后的集合WP为：

WP＝{WP₁,WP₂,WP₃,…,WP_i,…,WP_K}

则词袋码本即为WP，其中WP_i被称为第i个词条；

(2)使用词袋码本为图像序列中的每幅图像I_i计算编码向量，包括：

(2.1)设从图像I_i中提取到的PIRF特征点集合为P_i＝{P_i1,P_i2,P_i3,…,P_ij,…,P_im}，对其中的每个PIRF特征点P_ij，在集合WP中找到与该特征点P_ij欧氏距离最小的词条，最后得到与所有特征点欧氏距离最小的词条集合H_i＝{WP_i1,WP_i2,WP_i3,…,WP_ij,…WP_im}，其中WP_ij表示集合WP中与特征点P_ij欧氏距离最小的词条，WP_ij∈WP；

(2.1)对词条集合H_i中的元素做频率统计，得到统计向量T_i＝{T_i1,T_i2,T_i3,…,T_in,…，T_iK}，其中T_in表示第n个词条在集合H_i中出现的频率；称统计向量T_i为图像I_i的编码向量。

步骤3)包括：

(1)建立一个ESN神经网络，表示为：

scene＝f(para,T)

其中，T为一幅图像的编码向量，scene是ESN神经网络的输出结果，是一个设定维度的向量，para表示ESN神经网络的相关参数；

(2)从图像序列I＝{I₁,I₂,I₃,…,I_i,…,I_N}中取出前m幅图像{I₁,I₂,I₃,…,I_m}，分别计算每幅图像的编码向量{T₁,T₂,T₃,…,T_m}，并将计算得到的编码向量作为训练样本，对ESN神经网络进行训练，设训练完成后ESN神经网络的参数为para_1,2,3,…,m，设第m幅图像的编码向量T_m的输出结果为scene_m，令SC_current＝scene_m；

(3)分别创建集合SC和集合Para，将scene_m加入到集合SC中，将para_1,2,3,…,m加入到集合Para中，设scene_m与para_1,2,3,…,m相对应；

(4)对图像序列中剩余的图像分别做以下处理，具体为：

(4.1)设当前处理的图像为I_n，编码向量为T_n；把编码向量T_n输入到ESN神经网络中，得到输出结果记为scene_n；

(4.2)将scene_n与SC_current做比较，若两者的欧氏距离小于设定阈值，则返回第(4.1)步继续处理下一张图像，否则进入下一步；

(4.3)用图像序列{I_n,I_n+1,I_n+2,…,I_n+c}中的每一个图像的编码向量T_n,T_n+1,T_n+2,…,T_n+c作为训练样本，对ESN神经网络进行训练，设训练完成后的ESN神经网络的参数为para_{n,n+1,…,n+c}，其中，编码向量T_n+c的输出结果为scene_n+c，将scene_n+c与集合SC的元素做比较，如果scene_n+c与集合SC中的每个元素的欧氏距离均大于预先设定的阈值，则将scene_n+c作为新元素加入到集合SC中，将para_{n,n+1,…,n+c}作为新元素加入到集合Para中，设scene_n+c与para_{n,n+1,…,n+c}相对应，否则，找出集合SC中与scene_n欧氏距离最小的元素，设为scene_min；在集合Para中找到与scene_min对应的元素，记为para_min，用para_min替换当前的ESN神经网络参数，令SC_current＝scene_min；

(4.4)对所有图像处理完毕后，得到集合SC，以及所有图像的输出结果。

本发明的基于ESN神经网络的移动机器人场景识别方法，从场景序列中提取时空稳定性特征，而非从单个图像中直接提取特征，可以场景中的动态物体(如行人或车辆)对场景识别带来的随机性，对于高动态环境有很强的适应性。对特征使用增量式词袋模型构建词袋索引树，用于场景序列的搜索和匹配，大大减小了搜索规模和难度，提高了搜索和识别的效率。ESN(Echo State Network)神经网络训练相对简单，且有延时记忆的特性，这对于场景序列的识别问题来说，有很好的适用性，可以方便有效地完成场景序列的识别和分类，保证识别的准确性同时，提高了识别速度。

附图说明

图1是从图片序列中提取PIRF特征示意图；

图2 a是词袋模型的计算过程示意图；

图2 b是词袋模型的编码过程示意图；

图3是ESN神经网络示意图；

图4是在线训练ESN神经网络进行场景识别流程图。

具体实施方式

下面结合实施例和附图对本发明的基于ESN神经网络的移动机器人场景识别方法做出详细说明。

本发明的基于ESN神经网络的移动机器人场景识别方法是基于场景序列的场景识别，将场景立足于序列上，从场景序列的角度出发，提出了一种基于ESN神经网络的移动机器人场景识别方法。

本发明的基于ESN神经网络的移动机器人场景识别方法，包括如下步骤：

1)从构成场景的图像序列中，提取ORB特征点，再从提取到的ORB特征点中，提取PIRF特征点；包括：

在计算机图形学领域内，提取特征点是很常见的方法。通过提取特征点，可以提取图像中的抽象信息，以供后续计算使用。

ORB(Oriented FAST and Rotated BRIEF)是一种快速特征点提取和描述的算法,由Ethan Rublee,Vincent Rabaud,Kurt Konolige以及Gary R.Bradski在2011年一篇名为《ORB：An Efficient Alternative to SIFTor SURF》的文章中提出。ORB算法分为两部分，分别是特征点提取和特征点描述。特征提取是由FAST(Features from AcceleratedSegment Test)算法发展来的，特征点描述是根据BRIEF(Binary RobustIndependentElementary Features)特征描述算法改进的。ORB特征是将FAST特征点的检测方法与BRIEF特征描述子结合起来，并在它们原来的基础上做了改进与优化。该算法提出后，以很快的速度得到业界认可，并广为应用。

综上所述，考虑到ORB特征的种种优越性，所以采取ORB来提取图像特征点。

考虑到环境中的动态物体(如行人或动物)，本发明的方法从ORB特征点中进一步提取PIRF特征点。PIRF(Position Invariant Robust Feature)特征是位置不变鲁棒特征，比如在图像序列中连续出现的特征点。通过这种方式，可以提取场景中相对稳定的静态物体，有效去除动态物体对场景识别的干扰。

图1中描述了提取PIRF特征的过程。对于某一给定时刻t的图像I_t，***会找出I_t与I_t-1中所有匹配的特征点。使用的匹配方法是基于最近邻的匹配思想——对于在图像I_t中的任意一个特征点d，在图像I_t-1中寻找其欧式距离最近特征点d₁，如果两个描述符的欧式距离小于某一阈值，我们就认为两个特征点是匹配的。随后存储在图像I_t和图像I_t-1中所有匹配的特征点，然后***会在一个滑动窗口内匹配跟踪这些匹配的特征点，即将图像I_t-1中所匹配的特征点进一步向前与图像I_t-2中的特征点进行匹配。这样最后所得到的连续匹配的特征点即为PIRF特征点。这样提取的PIRF特征点，在连续序列中均出现且成功匹配。

词袋模型(BoW,Bag-of-words model)最早出现在自然语言处理(NaturalLanguage Processing)和信息检索(Information Retrieval)领域.。该模型忽略掉文本的语法和语序等要素，将其仅仅看作是若干个词汇的集合，文档中每个单词的出现都是独立的。词袋模型使用一组无序的单词(words)来表达一段文字或一个文档.。

近年来，词袋模型被广泛应用于计算机视觉领域。如图2所示，利用词袋模型做视觉图像处理，通常包括两个过程:一是提取所有图像的特征点并进行聚类，产生词袋码本；二是对照词袋码本，对每幅图片的特征点做数量统计，以计算编码向量。

具体包括：

WP＝{WP₁,WP₂,WP₃,…,WP_i,…,WP_K}

则词袋码本即为WP，其中WP_i被称为第i个词条；

所有图像提取到的PIRF特征点数量庞大，且有大量重复项，所以使用K-means的方式进行聚类，也是计算机图形学中很常见的方法。

3)构建ESN神经网络，以每幅图像的编码向量作为ESN神经网络的输入，在线训练ESN神经网络，根据输出结果识别和提取图像序列中的场景信息。整个过程的流程图如图4所示。具体包括：

(1)建立一个ESN神经网络，表示为：

scene＝f(para,T)

ESB神经网络(Echo State Network)是由Jaeger和Haas所提出的。ESN神经网络具有“延时记忆”的特性，表现在近期ESN神经网络的所有输入，都会对其输出结果产生影响。而对于图片序列而言，往往是连续的多张图片都属于一个场景序列，与ESN神经网络的特性可以很好结合，所以使用ESN神经网络处理图片序列，可以从连续的多张图片中提取场景信息，并且可以在线无监督式学习，提高效率的同时降低了执行难度。

基本的ESN拓扑结构如图3所示。图3中左侧为K个输入节点u₁,u₂,u₃,…,u_K；中间是储备池网络，由N个内部节点x₁,x₂,x₃,…,x_N以及稀疏的节点连接权值矩阵W构成；右侧是L个输出节点y₁,y₂,y₃,…,y_L。图中实线表示了网络的必要连接，而虚线则表示了不同情况下还可能存在的连接，但它们对于构成ESN并不是必需的。在ESN中，在训练阶段会改变的只有输出连接权值。

储备池状态依照下式进行更新：

x(t+1)＝f(W_inu(t+1)+Wx(t)+W_backy(t))

其中，x(t)为第t步的储备池状态向量，u(t)和y(t)则分别为第t步的输入和输出向量，f(·)为储备池结点的激励函数，W_in、W_back和W分别为输入连接、输出反馈连接和储备池内部连接的权值矩阵。

网络的输出按下式计算：

y(t+1)＝f(W_out(u(t+1),x(t+1),y(t)))

其中，W_out为输出权值矩阵，f(·)为输出节点的激励函数。

ESN的基本思想，就是由储备池生成一个随输入而不断变化着的复杂动态空间。当这个状态空间足够复杂时，就可以利用这些内部状态，线性地组合出所需要的对应输出。相对于调整内部连接矩阵权值而言，ESN的训练要简单得多，在网络初始化之后，唯一会在训练中发生变化的只有输出连接的权值。对于输出权值的调整，主要是基于最小均方误差的原则独立地调整每个输出节点.

在一个典型的ESN网络中，当其储备池的规模较大时，网络所能表现的***越复杂，反之网络所表现的***越简单。其次是输入连接的权值大小以及内部连接矩阵的谱半径。这些关键参数会影响到网络短期记忆时间的长短。输入权值越小而内部矩阵的谱半径越接近1，网络短期记忆时间越长。但是，增强记忆能力的同时，这种操作也造成了网络对“快速变化”***的建模能力下降。在实际应用中，要通过分析被建模***的实际变化特征来选取相应的数值。

该步骤被认为是ESN神经网络的初始化阶段。图像序列的前m幅图像{I₁,I₂,I₃,…,I_m}被认为属于同一个场景，称之为“初始场景”。用这些图片对ESN神经网络进行训练，训练后ESN神经网络的参数为para_1,2,3,…,m，T_m的输出结果为scene_m。前者可以认为是“初始场景”所训练出来的ESN神经网络的参数，后者认为是“初始场景”经过ESN神经网络的输出结果。

集合SC用以存储场景经过ESN神经网络计算后的输出结果，集合Para用于存储场景训练ESN神经网络的参数。当使用图像序列对ESN神经网络进行训练时，会更新ESN神经网络参数para并会产生输出结果scene。

(4)对图像序列中剩余的图像分别做以下处理，具体为：

本步骤中，将场景序列划分与识别融合在一起。SC_current记录近期场景的输出信息，当T_n的输出结果scene_n与SC_current差别较小时，认为当前图片依然属于“旧”场景；相差较大时，认为T_n属于“新”场景，所以利用新的连续采集的c幅连续的图像{I_n,I_n+1,I_n+2,…,I_n+c}进行识别，识别出当前的“新”场景是否为曾经经过的场景，即判断新场景是否属于集合SC。当识别出为新场景时，即识别率小于设定的阈值Thinf₂时，使用新的连续采集的c幅连续的图像序列训练一个全新的ESN网络，并存储为新的场景“场景i”，之后使用该网络再次用于场景序列的划分；反之，当识别出为旧场景时，则使用旧场景所对应的ESN网络参数代替通过重新训练所得到的网络参数，来指导场景序列的划分。该模式反复执行，直到机器人获取环境图像完毕，便可以得到利用ESN网络所划分出的场景序列。

Claims

1.一种基于ESN神经网络的移动机器人场景识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于ESN神经网络的移动机器人场景识别方法，其特征在于，步骤1)包括：

3.根据权利要求1所述的基于ESN神经网络的移动机器人场景识别方法，其特征在于，步骤2)包括：

WP＝{WP₁,WP₂,WP₃,…,WP_i,…,WP_K}

则词袋码本即为WP，其中WP_i被称为第i个词条；

4.根据权利要求1所述的基于ESN神经网络的移动机器人场景识别方法，其特征在于，步骤3)包括：

(1)建立一个ESN神经网络，表示为：

scene＝f(para,T)

(4)对图像序列中剩余的图像分别做以下处理，具体为：