CN108256463A - 基于esn神经网络的移动机器人场景识别方法 - Google Patents
基于esn神经网络的移动机器人场景识别方法 Download PDFInfo
- Publication number
- CN108256463A CN108256463A CN201810028630.8A CN201810028630A CN108256463A CN 108256463 A CN108256463 A CN 108256463A CN 201810028630 A CN201810028630 A CN 201810028630A CN 108256463 A CN108256463 A CN 108256463A
- Authority
- CN
- China
- Prior art keywords
- scene
- image
- neural networks
- para
- esn
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 66
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 239000000284 extract Substances 0.000 claims abstract description 10
- 238000004364 calculation method Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims description 6
- RZVAJINKPMORJF-UHFFFAOYSA-N Acetaminophen Chemical compound CC(=O)NC1=CC=C(O)C=C1 RZVAJINKPMORJF-UHFFFAOYSA-N 0.000 claims description 3
- 241000208340 Araliaceae Species 0.000 claims 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims 1
- 235000003140 Panax quinquefolius Nutrition 0.000 claims 1
- 235000008434 ginseng Nutrition 0.000 claims 1
- 239000011159 matrix material Substances 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 3
- HUTDUHSNJYTCAR-UHFFFAOYSA-N ancymidol Chemical compound C1=CC(OC)=CC=C1C(O)(C=1C=NC=NC=1)C1CC1 HUTDUHSNJYTCAR-UHFFFAOYSA-N 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 210000004218 nerve net Anatomy 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 241000529895 Stercorarius Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
- G06V10/464—Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Image Analysis (AREA)
Abstract
一种基于ESN神经网络的移动机器人场景识别方法:从构成场景的图像序列中,提取ORB特征点,再从提取到的ORB特征点中,提取PIRF特征点;对从图像序列中提取的PIRF特征点,使用词袋模型建立词袋码本,使用词袋码本为图像序列中的每幅图像计算编码向量;构建ESN神经网络,以每幅图像的编码向量作为ESN神经网络的输入,在线训练ESN神经网络,根据输出结果识别和提取图像序列中的场景信息。本发明以场景中的动态物体对场景识别带来的随机性,对于高动态环境有很强的适应性。本发明大大减小了搜索规模和难度,提高了搜索和识别的效率。本发明有很好的适用性,可以方便有效地完成场景序列的识别和分类,保证识别的准确性同时,提高了识别速度。
Description
技术领域
本发明涉及一种移动机器人场景序列识别方法。特别是涉及一种基于ESN神经网络的移动机器人场景识别方法。
背景技术
基于视觉的场景识别是指机器人利用视觉传感器所采集到的图像,让机器人判断和识别出当前所处的场景是否曾经经过的过程。在众多基于视觉的场景识别算法中,所识别的场景是单一的一副图像,也就是对图像与图像之间进行匹配,进而完成识别。为了解决这个问题,人们往往从这两个方面入手:第一设计具有区分性的图像特征,比如SURF、SIFT、MLSD等描述子;第二设计识别匹配的策略,比如最近邻、概率模型,HMM等。虽然这些方法在一定程度上实现了场景的识别与匹配,但是由于环境的多变性,机器人运动等因素的影响,而产生大量的误识别的情况。比如,机器人连续采集的若干幅图像,由于机器人运动速度的原因导致采集的图像都极为相似,这种情况往往对识别造成了很大影响。这也间接的表明了单一图像的局限性。
实际上机器人所经过的“场景”并非单一图像所刻画的,是由连续的一组描述具有相同内容的图像序列描述的,我们将其定义为“场景序列”。
为了实现基于场景序列的场景识别,要解决的问题一共有三个:一是如何描述和表征一幅图像;二是如何划分出场景序列;三是如何实现场景序列的匹配。本文也将从这三个方面展开研究,
基于视觉的场景识别算法在近年来倍受人们的关注,不仅仅是因为视觉传感器的价格低廉,更是因为由视觉传感器所采集到的图片往往包含了丰富的信息。与此同时,随着数字图像处理领域的算法日益成熟,其在机器人的场景识别这个应用也广泛受到人们的研究。
从特征的角度来看,Jin Han Lee使用了一种名为MLSD的直线描述子,利用词袋模型,构造图像特征;并根据图像的相似度筛选出若干候选图像;最后利用描述子空间变换的匹配思想完成细粒度的匹配。Roberto Arroyo1设计并改进了原始的LDB特征,将其命名为D-LDB,由于这种特征具有一定程度的区分性,进而提升了场景识别的准确性。
从模型的角度来看,Mark Cummins使用贝叶斯概率模型来计算新的图片与已有的图片之间的概率值,并通过概率值来完成场景的识别。Elena Stumm则利用信息检索的模型来完成图像的匹配与识别。
不同于上面单一图像层次的逐一匹配,Michael Milford等人将单一图像的匹配,转化为图像序列的匹配。通过建立图像与图像之间的相似度矩阵来挖掘出当前序列与模板序列的匹配程度,即寻找一条最优的匹配路径。最终的匹配结果仍然是寻找两个图像序列中一一匹配的图像对。该类算法的实验室数据集本身即为很多段不同的图像序列,并不需要对整个数据集进行场景序列的划分,也因此一定程度的回避了场景序列划分的问题。
然而这些算法的本质均是在图像的粒度上进行场景的识别。即使考虑了序列的信息,也是将序列的匹配转化为图像与图像之间匹配的问题上。
发明内容
本发明所要解决的技术问题是,提供一种能够在保证识别的准确性同时,提高了识别速度的基于ESN神经网络的移动机器人场景识别方法。
本发明所采用的技术方案是:一种基于ESN神经网络的移动机器人场景识别方法,包括如下步骤:
1)从构成场景的图像序列中,提取ORB特征点,再从提取到的ORB特征点中,提取PIRF特征点;
2)对从图像序列中提取的PIRF特征点,使用词袋模型建立词袋码本,使用词袋码本为图像序列中的每幅图像计算编码向量;
3)构建ESN神经网络,以每幅图像的编码向量作为ESN神经网络的输入,在线训练ESN神经网络,根据输出结果识别和提取图像序列中的场景信息。
步骤1)包括:
(1)设有图像序列I={I1,I2,I3,…,Ii,…,IN},对于每幅图像Ii分别提取ORB特征点,每个ORB特征点都用一个特征向量来表示,得到每幅图像Ii的ORB特征点的集合Si={Si1,Si2,Si3,…,Sin};
(2)分别从每幅图像Ii的ORB特征点的集合Si={Si1,Si2,Si3,…,Sin}中,提取PIRF特征点,分别得到每幅图像Ii的PIRF特征点的集合Pi={Pi1,Pi2,Pi3,…,Pim}。
步骤2)包括:
(1)对从所有图像中提取到的全部PIRF特征点使用K-means聚类的方法进行聚类,设聚类后的集合WP为:
WP={WP1,WP2,WP3,…,WPi,…,WPK}
则词袋码本即为WP,其中WPi被称为第i个词条;
(2)使用词袋码本为图像序列中的每幅图像Ii计算编码向量,包括:
(2.1)设从图像Ii中提取到的PIRF特征点集合为Pi={Pi1,Pi2,Pi3,…,Pij,…,Pim},对其中的每个PIRF特征点Pij,在集合WP中找到与该特征点Pij欧氏距离最小的词条,最后得到与所有特征点欧氏距离最小的词条集合Hi={WPi1,WPi2,WPi3,…,WPij,…WPim},其中WPij表示集合WP中与特征点Pij欧氏距离最小的词条,WPij∈WP;
(2.1)对词条集合Hi中的元素做频率统计,得到统计向量Ti={Ti1,Ti2,Ti3,…,Tin,…,TiK},其中Tin表示第n个词条在集合Hi中出现的频率;称统计向量Ti为图像Ii的编码向量。
步骤3)包括:
(1)建立一个ESN神经网络,表示为:
scene=f(para,T)
其中,T为一幅图像的编码向量,scene是ESN神经网络的输出结果,是一个设定维度的向量,para表示ESN神经网络的相关参数;
(2)从图像序列I={I1,I2,I3,…,Ii,…,IN}中取出前m幅图像{I1,I2,I3,…,Im},分别计算每幅图像的编码向量{T1,T2,T3,…,Tm},并将计算得到的编码向量作为训练样本,对ESN神经网络进行训练,设训练完成后ESN神经网络的参数为para1,2,3,…,m,设第m幅图像的编码向量Tm的输出结果为scenem,令SCcurrent=scenem;
(3)分别创建集合SC和集合Para,将scenem加入到集合SC中,将para1,2,3,…,m加入到集合Para中,设scenem与para1,2,3,…,m相对应;
(4)对图像序列中剩余的图像分别做以下处理,具体为:
(4.1)设当前处理的图像为In,编码向量为Tn;把编码向量Tn输入到ESN神经网络中,得到输出结果记为scenen;
(4.2)将scenen与SCcurrent做比较,若两者的欧氏距离小于设定阈值,则返回第(4.1)步继续处理下一张图像,否则进入下一步;
(4.3)用图像序列{In,In+1,In+2,…,In+c}中的每一个图像的编码向量Tn,Tn+1,Tn+2,…,Tn+c作为训练样本,对ESN神经网络进行训练,设训练完成后的ESN神经网络的参数为paran,n+1,…,n+c,其中,编码向量Tn+c的输出结果为scenen+c,将scenen+c与集合SC的元素做比较,如果scenen+c与集合SC中的每个元素的欧氏距离均大于预先设定的阈值,则将scenen+c作为新元素加入到集合SC中,将paran,n+1,…,n+c作为新元素加入到集合Para中,设scenen+c与paran,n+1,…,n+c相对应,否则,找出集合SC中与scenen欧氏距离最小的元素,设为scenemin;在集合Para中找到与scenemin对应的元素,记为paramin,用paramin替换当前的ESN神经网络参数,令SCcurrent=scenemin;
(4.4)对所有图像处理完毕后,得到集合SC,以及所有图像的输出结果。
本发明的基于ESN神经网络的移动机器人场景识别方法,从场景序列中提取时空稳定性特征,而非从单个图像中直接提取特征,可以场景中的动态物体(如行人或车辆)对场景识别带来的随机性,对于高动态环境有很强的适应性。对特征使用增量式词袋模型构建词袋索引树,用于场景序列的搜索和匹配,大大减小了搜索规模和难度,提高了搜索和识别的效率。ESN(Echo State Network)神经网络训练相对简单,且有延时记忆的特性,这对于场景序列的识别问题来说,有很好的适用性,可以方便有效地完成场景序列的识别和分类,保证识别的准确性同时,提高了识别速度。
附图说明
图1是从图片序列中提取PIRF特征示意图;
图2 a是词袋模型的计算过程示意图;
图2 b是词袋模型的编码过程示意图;
图3是ESN神经网络示意图;
图4是在线训练ESN神经网络进行场景识别流程图。
具体实施方式
下面结合实施例和附图对本发明的基于ESN神经网络的移动机器人场景识别方法做出详细说明。
本发明的基于ESN神经网络的移动机器人场景识别方法是基于场景序列的场景识别,将场景立足于序列上,从场景序列的角度出发,提出了一种基于ESN神经网络的移动机器人场景识别方法。
本发明的基于ESN神经网络的移动机器人场景识别方法,包括如下步骤:
1)从构成场景的图像序列中,提取ORB特征点,再从提取到的ORB特征点中,提取PIRF特征点;包括:
(1)设有图像序列I={I1,I2,I3,…,Ii,…,IN},对于每幅图像Ii分别提取ORB特征点,每个ORB特征点都用一个特征向量来表示,得到每幅图像Ii的ORB特征点的集合Si={Si1,Si2,Si3,…,Sin};
在计算机图形学领域内,提取特征点是很常见的方法。通过提取特征点,可以提取图像中的抽象信息,以供后续计算使用。
ORB(Oriented FAST and Rotated BRIEF)是一种快速特征点提取和描述的算法,由Ethan Rublee,Vincent Rabaud,Kurt Konolige以及Gary R.Bradski在2011年一篇名为《ORB:An Efficient Alternative to SIFTor SURF》的文章中提出。ORB算法分为两部分,分别是特征点提取和特征点描述。特征提取是由FAST(Features from AcceleratedSegment Test)算法发展来的,特征点描述是根据BRIEF(Binary RobustIndependentElementary Features)特征描述算法改进的。ORB特征是将FAST特征点的检测方法与BRIEF特征描述子结合起来,并在它们原来的基础上做了改进与优化。该算法提出后,以很快的速度得到业界认可,并广为应用。
综上所述,考虑到ORB特征的种种优越性,所以采取ORB来提取图像特征点。
(2)分别从每幅图像Ii的ORB特征点的集合Si={Si1,Si2,Si3,…,Sin}中,提取PIRF特征点,分别得到每幅图像Ii的PIRF特征点的集合Pi={Pi1,Pi2,Pi3,…,Pim}。
考虑到环境中的动态物体(如行人或动物),本发明的方法从ORB特征点中进一步提取PIRF特征点。PIRF(Position Invariant Robust Feature)特征是位置不变鲁棒特征,比如在图像序列中连续出现的特征点。通过这种方式,可以提取场景中相对稳定的静态物体,有效去除动态物体对场景识别的干扰。
图1中描述了提取PIRF特征的过程。对于某一给定时刻t的图像It,***会找出It与It-1中所有匹配的特征点。使用的匹配方法是基于最近邻的匹配思想——对于在图像It中的任意一个特征点d,在图像It-1中寻找其欧式距离最近特征点d1,如果两个描述符的欧式距离小于某一阈值,我们就认为两个特征点是匹配的。随后存储在图像It和图像It-1中所有匹配的特征点,然后***会在一个滑动窗口内匹配跟踪这些匹配的特征点,即将图像It-1中所匹配的特征点进一步向前与图像It-2中的特征点进行匹配。这样最后所得到的连续匹配的特征点即为PIRF特征点。这样提取的PIRF特征点,在连续序列中均出现且成功匹配。
2)对从图像序列中提取的PIRF特征点,使用词袋模型建立词袋码本,使用词袋码本为图像序列中的每幅图像计算编码向量;
词袋模型(BoW,Bag-of-words model)最早出现在自然语言处理(NaturalLanguage Processing)和信息检索(Information Retrieval)领域.。该模型忽略掉文本的语法和语序等要素,将其仅仅看作是若干个词汇的集合,文档中每个单词的出现都是独立的。词袋模型使用一组无序的单词(words)来表达一段文字或一个文档.。
近年来,词袋模型被广泛应用于计算机视觉领域。如图2所示,利用词袋模型做视觉图像处理,通常包括两个过程:一是提取所有图像的特征点并进行聚类,产生词袋码本;二是对照词袋码本,对每幅图片的特征点做数量统计,以计算编码向量。
具体包括:
(1)对从所有图像中提取到的全部PIRF特征点使用K-means聚类的方法进行聚类,设聚类后的集合WP为:
WP={WP1,WP2,WP3,…,WPi,…,WPK}
则词袋码本即为WP,其中WPi被称为第i个词条;
所有图像提取到的PIRF特征点数量庞大,且有大量重复项,所以使用K-means的方式进行聚类,也是计算机图形学中很常见的方法。
(2)使用词袋码本为图像序列中的每幅图像Ii计算编码向量,包括:
(2.1)设从图像Ii中提取到的PIRF特征点集合为Pi={Pi1,Pi2,Pi3,…,Pij,…,Pim},对其中的每个PIRF特征点Pij,在集合WP中找到与该特征点Pij欧氏距离最小的词条,最后得到与所有特征点欧氏距离最小的词条集合Hi={WPi1,WPi2,WPi3,…,WPij,…WPim},其中WPij表示集合WP中与特征点Pij欧氏距离最小的词条,WPij∈WP;
(2.1)对词条集合Hi中的元素做频率统计,得到统计向量Ti={Ti1,Ti2,Ti3,…,Tin,…,TiK},其中Tin表示第n个词条在集合Hi中出现的频率;称统计向量Ti为图像Ii的编码向量。
3)构建ESN神经网络,以每幅图像的编码向量作为ESN神经网络的输入,在线训练ESN神经网络,根据输出结果识别和提取图像序列中的场景信息。整个过程的流程图如图4所示。具体包括:
(1)建立一个ESN神经网络,表示为:
scene=f(para,T)
其中,T为一幅图像的编码向量,scene是ESN神经网络的输出结果,是一个设定维度的向量,para表示ESN神经网络的相关参数;
ESB神经网络(Echo State Network)是由Jaeger和Haas所提出的。ESN神经网络具有“延时记忆”的特性,表现在近期ESN神经网络的所有输入,都会对其输出结果产生影响。而对于图片序列而言,往往是连续的多张图片都属于一个场景序列,与ESN神经网络的特性可以很好结合,所以使用ESN神经网络处理图片序列,可以从连续的多张图片中提取场景信息,并且可以在线无监督式学习,提高效率的同时降低了执行难度。
基本的ESN拓扑结构如图3所示。图3中左侧为K个输入节点u1,u2,u3,…,uK;中间是储备池网络,由N个内部节点x1,x2,x3,…,xN以及稀疏的节点连接权值矩阵W构成;右侧是L个输出节点y1,y2,y3,…,yL。图中实线表示了网络的必要连接,而虚线则表示了不同情况下还可能存在的连接,但它们对于构成ESN并不是必需的。在ESN中,在训练阶段会改变的只有输出连接权值。
储备池状态依照下式进行更新:
x(t+1)=f(Winu(t+1)+Wx(t)+Wbacky(t))
其中,x(t)为第t步的储备池状态向量,u(t)和y(t)则分别为第t步的输入和输出向量,f(·)为储备池结点的激励函数,Win、Wback和W分别为输入连接、输出反馈连接和储备池内部连接的权值矩阵。
网络的输出按下式计算:
y(t+1)=f(Wout(u(t+1),x(t+1),y(t)))
其中,Wout为输出权值矩阵,f(·)为输出节点的激励函数。
ESN的基本思想,就是由储备池生成一个随输入而不断变化着的复杂动态空间。当这个状态空间足够复杂时,就可以利用这些内部状态,线性地组合出所需要的对应输出。相对于调整内部连接矩阵权值而言,ESN的训练要简单得多,在网络初始化之后,唯一会在训练中发生变化的只有输出连接的权值。对于输出权值的调整,主要是基于最小均方误差的原则独立地调整每个输出节点.
在一个典型的ESN网络中,当其储备池的规模较大时,网络所能表现的***越复杂,反之网络所表现的***越简单。其次是输入连接的权值大小以及内部连接矩阵的谱半径。这些关键参数会影响到网络短期记忆时间的长短。输入权值越小而内部矩阵的谱半径越接近1,网络短期记忆时间越长。但是,增强记忆能力的同时,这种操作也造成了网络对“快速变化”***的建模能力下降。在实际应用中,要通过分析被建模***的实际变化特征来选取相应的数值。
(2)从图像序列I={I1,I2,I3,…,Ii,…,IN}中取出前m幅图像{I1,I2,I3,…,Im},分别计算每幅图像的编码向量{T1,T2,T3,…,Tm},并将计算得到的编码向量作为训练样本,对ESN神经网络进行训练,设训练完成后ESN神经网络的参数为para1,2,3,…,m,设第m幅图像的编码向量Tm的输出结果为scenem,令SCcurrent=scenem;
该步骤被认为是ESN神经网络的初始化阶段。图像序列的前m幅图像{I1,I2,I3,…,Im}被认为属于同一个场景,称之为“初始场景”。用这些图片对ESN神经网络进行训练,训练后ESN神经网络的参数为para1,2,3,…,m,Tm的输出结果为scenem。前者可以认为是“初始场景”所训练出来的ESN神经网络的参数,后者认为是“初始场景”经过ESN神经网络的输出结果。
(3)分别创建集合SC和集合Para,将scenem加入到集合SC中,将para1,2,3,…,m加入到集合Para中,设scenem与para1,2,3,…,m相对应;
集合SC用以存储场景经过ESN神经网络计算后的输出结果,集合Para用于存储场景训练ESN神经网络的参数。当使用图像序列对ESN神经网络进行训练时,会更新ESN神经网络参数para并会产生输出结果scene。
(4)对图像序列中剩余的图像分别做以下处理,具体为:
(4.1)设当前处理的图像为In,编码向量为Tn;把编码向量Tn输入到ESN神经网络中,得到输出结果记为scenen;
(4.2)将scenen与SCcurrent做比较,若两者的欧氏距离小于设定阈值,则返回第(4.1)步继续处理下一张图像,否则进入下一步;
(4.3)用图像序列{In,In+1,In+2,…,In+c}中的每一个图像的编码向量Tn,Tn+1,Tn+2,…,Tn+c作为训练样本,对ESN神经网络进行训练,设训练完成后的ESN神经网络的参数为paran,n+1,…,n+c,其中,编码向量Tn+c的输出结果为scenen+c,将scenen+c与集合SC的元素做比较,如果scenen+c与集合SC中的每个元素的欧氏距离均大于预先设定的阈值,则将scenen+c作为新元素加入到集合SC中,将paran,n+1,…,n+c作为新元素加入到集合Para中,设scenen+c与paran,n+1,…,n+c相对应,否则,找出集合SC中与scenen欧氏距离最小的元素,设为scenemin;在集合Para中找到与scenemin对应的元素,记为paramin,用paramin替换当前的ESN神经网络参数,令SCcurrent=scenemin;
(4.4)对所有图像处理完毕后,得到集合SC,以及所有图像的输出结果。
本步骤中,将场景序列划分与识别融合在一起。SCcurrent记录近期场景的输出信息,当Tn的输出结果scenen与SCcurrent差别较小时,认为当前图片依然属于“旧”场景;相差较大时,认为Tn属于“新”场景,所以利用新的连续采集的c幅连续的图像{In,In+1,In+2,…,In+c}进行识别,识别出当前的“新”场景是否为曾经经过的场景,即判断新场景是否属于集合SC。当识别出为新场景时,即识别率小于设定的阈值Thinf2时,使用新的连续采集的c幅连续的图像序列训练一个全新的ESN网络,并存储为新的场景“场景i”,之后使用该网络再次用于场景序列的划分;反之,当识别出为旧场景时,则使用旧场景所对应的ESN网络参数代替通过重新训练所得到的网络参数,来指导场景序列的划分。该模式反复执行,直到机器人获取环境图像完毕,便可以得到利用ESN网络所划分出的场景序列。
Claims (4)
1.一种基于ESN神经网络的移动机器人场景识别方法,其特征在于,包括如下步骤:
1)从构成场景的图像序列中,提取ORB特征点,再从提取到的ORB特征点中,提取PIRF特征点;
2)对从图像序列中提取的PIRF特征点,使用词袋模型建立词袋码本,使用词袋码本为图像序列中的每幅图像计算编码向量;
3)构建ESN神经网络,以每幅图像的编码向量作为ESN神经网络的输入,在线训练ESN神经网络,根据输出结果识别和提取图像序列中的场景信息。
2.根据权利要求1所述的基于ESN神经网络的移动机器人场景识别方法,其特征在于,步骤1)包括:
(1)设有图像序列I={I1,I2,I3,…,Ii,…,IN},对于每幅图像Ii分别提取ORB特征点,每个ORB特征点都用一个特征向量来表示,得到每幅图像Ii的ORB特征点的集合Si={Si1,Si2,Si3,…,Sin};
(2)分别从每幅图像Ii的ORB特征点的集合Si={Si1,Si2,Si3,…,Sin}中,提取PIRF特征点,分别得到每幅图像Ii的PIRF特征点的集合Pi={Pi1,Pi2,Pi3,…,Pim}。
3.根据权利要求1所述的基于ESN神经网络的移动机器人场景识别方法,其特征在于,步骤2)包括:
(1)对从所有图像中提取到的全部PIRF特征点使用K-means聚类的方法进行聚类,设聚类后的集合WP为:
WP={WP1,WP2,WP3,…,WPi,…,WPK}
则词袋码本即为WP,其中WPi被称为第i个词条;
(2)使用词袋码本为图像序列中的每幅图像Ii计算编码向量,包括:
(2.1)设从图像Ii中提取到的PIRF特征点集合为Pi={Pi1,Pi2,Pi3,…,Pij,…,Pim},对其中的每个PIRF特征点Pij,在集合WP中找到与该特征点Pij欧氏距离最小的词条,最后得到与所有特征点欧氏距离最小的词条集合Hi={WPi1,WPi2,WPi3,…,WPij,…WPim},其中WPij表示集合WP中与特征点Pij欧氏距离最小的词条,WPij∈WP;
(2.1)对词条集合Hi中的元素做频率统计,得到统计向量Ti={Ti1,Ti2,Ti3,…,Tin,…,TiK},其中Tin表示第n个词条在集合Hi中出现的频率;称统计向量Ti为图像Ii的编码向量。
4.根据权利要求1所述的基于ESN神经网络的移动机器人场景识别方法,其特征在于,步骤3)包括:
(1)建立一个ESN神经网络,表示为:
scene=f(para,T)
其中,T为一幅图像的编码向量,scene是ESN神经网络的输出结果,是一个设定维度的向量,para表示ESN神经网络的相关参数;
(2)从图像序列I={I1,I2,I3,…,Ii,…,IN}中取出前m幅图像{I1,I2,I3,…,Im},分别计算每幅图像的编码向量{T1,T2,T3,…,Tm},并将计算得到的编码向量作为训练样本,对ESN神经网络进行训练,设训练完成后ESN神经网络的参数为para1,2,3,…,m,设第m幅图像的编码向量Tm的输出结果为scenem,令SCcurrent=scenem;
(3)分别创建集合SC和集合Para,将scenem加入到集合SC中,将para1,2,3,…,m加入到集合Para中,设scenem与para1,2,3,…,m相对应;
(4)对图像序列中剩余的图像分别做以下处理,具体为:
(4.1)设当前处理的图像为In,编码向量为Tn;把编码向量Tn输入到ESN神经网络中,得到输出结果记为scenen;
(4.2)将scenen与SCcurrent做比较,若两者的欧氏距离小于设定阈值,则返回第(4.1)步继续处理下一张图像,否则进入下一步;
(4.3)用图像序列{In,In+1,In+2,…,In+c}中的每一个图像的编码向量Tn,Tn+1,Tn+2,…,Tn+c作为训练样本,对ESN神经网络进行训练,设训练完成后的ESN神经网络的参数为paran,n+1,…,n+c,其中,编码向量Tn+c的输出结果为scenen+c,将scenen+c与集合SC的元素做比较,如果scenen+c与集合SC中的每个元素的欧氏距离均大于预先设定的阈值,则将scenen+c作为新元素加入到集合SC中,将paran,n+1,…,n+c作为新元素加入到集合Para中,设scenen+c与paran,n+1,…,n+c相对应,否则,找出集合SC中与scenen欧氏距离最小的元素,设为scenemin;在集合Para中找到与scenemin对应的元素,记为paramin,用paramin替换当前的ESN神经网络参数,令SCcurrent=scenemin;
(4.4)对所有图像处理完毕后,得到集合SC,以及所有图像的输出结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810028630.8A CN108256463B (zh) | 2018-01-10 | 2018-01-10 | 基于esn神经网络的移动机器人场景识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810028630.8A CN108256463B (zh) | 2018-01-10 | 2018-01-10 | 基于esn神经网络的移动机器人场景识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108256463A true CN108256463A (zh) | 2018-07-06 |
CN108256463B CN108256463B (zh) | 2022-01-04 |
Family
ID=62726637
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810028630.8A Expired - Fee Related CN108256463B (zh) | 2018-01-10 | 2018-01-10 | 基于esn神经网络的移动机器人场景识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108256463B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109800692A (zh) * | 2019-01-07 | 2019-05-24 | 重庆邮电大学 | 一种基于预训练卷积神经网络的视觉slam回环检测方法 |
CN110110245A (zh) * | 2019-05-06 | 2019-08-09 | 山东大学 | 一种家庭环境下动态物品搜索方法及装置 |
CN111126504A (zh) * | 2019-12-27 | 2020-05-08 | 西北工业大学 | 多源不完备信息融合图像目标分类方法 |
CN111324819A (zh) * | 2020-03-24 | 2020-06-23 | 北京字节跳动网络技术有限公司 | 一种媒体内容搜索的方法、装置、计算机设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130216098A1 (en) * | 2010-09-17 | 2013-08-22 | Tokyo Institute Of Technology | Map generation apparatus, map generation method, moving method for moving body, and robot apparatus |
CN103942573A (zh) * | 2014-02-18 | 2014-07-23 | 西安电子科技大学 | 一种基于空间关系的潜在狄利克雷模型自然场景图像分类方法 |
CN104700078A (zh) * | 2015-02-13 | 2015-06-10 | 武汉工程大学 | 一种基于尺度不变特征极限学习机的机器人场景识别方法 |
CN104915714A (zh) * | 2014-03-13 | 2015-09-16 | 杨凤琴 | 一种基于回声状态网络的预测方法及装置 |
US20150294157A1 (en) * | 2012-11-06 | 2015-10-15 | Tokyo Institute Of Technology | Feature value extraction apparatus and place estimation apparatus |
CN106529583A (zh) * | 2016-11-01 | 2017-03-22 | 哈尔滨工程大学 | 一种基于视觉词袋模型的室内场景认知方法 |
CN107194437A (zh) * | 2017-06-22 | 2017-09-22 | 重庆大学 | 基于Gist特征提取与概念机递归神经网络的图像分类方法 |
-
2018
- 2018-01-10 CN CN201810028630.8A patent/CN108256463B/zh not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130216098A1 (en) * | 2010-09-17 | 2013-08-22 | Tokyo Institute Of Technology | Map generation apparatus, map generation method, moving method for moving body, and robot apparatus |
US20150294157A1 (en) * | 2012-11-06 | 2015-10-15 | Tokyo Institute Of Technology | Feature value extraction apparatus and place estimation apparatus |
CN103942573A (zh) * | 2014-02-18 | 2014-07-23 | 西安电子科技大学 | 一种基于空间关系的潜在狄利克雷模型自然场景图像分类方法 |
CN104915714A (zh) * | 2014-03-13 | 2015-09-16 | 杨凤琴 | 一种基于回声状态网络的预测方法及装置 |
CN104700078A (zh) * | 2015-02-13 | 2015-06-10 | 武汉工程大学 | 一种基于尺度不变特征极限学习机的机器人场景识别方法 |
CN106529583A (zh) * | 2016-11-01 | 2017-03-22 | 哈尔滨工程大学 | 一种基于视觉词袋模型的室内场景认知方法 |
CN107194437A (zh) * | 2017-06-22 | 2017-09-22 | 重庆大学 | 基于Gist特征提取与概念机递归神经网络的图像分类方法 |
Non-Patent Citations (1)
Title |
---|
ARAM KAWEWONG等: "PIRF-Nav 2.0: Fast and online incremental appearance-based loop-closure detection in an indoor environment", 《ROBOTICS AND AUTONOMOUS SYSTEMS》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109800692A (zh) * | 2019-01-07 | 2019-05-24 | 重庆邮电大学 | 一种基于预训练卷积神经网络的视觉slam回环检测方法 |
CN109800692B (zh) * | 2019-01-07 | 2022-12-27 | 重庆邮电大学 | 一种基于预训练卷积神经网络的视觉slam回环检测方法 |
CN110110245A (zh) * | 2019-05-06 | 2019-08-09 | 山东大学 | 一种家庭环境下动态物品搜索方法及装置 |
CN110110245B (zh) * | 2019-05-06 | 2021-03-16 | 山东大学 | 一种家庭环境下动态物品搜索方法及装置 |
CN111126504A (zh) * | 2019-12-27 | 2020-05-08 | 西北工业大学 | 多源不完备信息融合图像目标分类方法 |
CN111324819A (zh) * | 2020-03-24 | 2020-06-23 | 北京字节跳动网络技术有限公司 | 一种媒体内容搜索的方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108256463B (zh) | 2022-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gorokhovatskyi et al. | Search for visual objects by request in the form of a cluster representation for the structural image description | |
Wang et al. | Depth pooling based large-scale 3-d action recognition with convolutional neural networks | |
Chen et al. | Video person re-identification with competitive snippet-similarity aggregation and co-attentive snippet embedding | |
Tao et al. | Principal component 2-D long short-term memory for font recognition on single Chinese characters | |
CN106126581B (zh) | 基于深度学习的手绘草图图像检索方法 | |
US10963685B2 (en) | Generating variations of a known shred | |
Hu et al. | Learning activity patterns using fuzzy self-organizing neural network | |
CN108256463A (zh) | 基于esn神经网络的移动机器人场景识别方法 | |
CN109858406A (zh) | 一种基于关节点信息的关键帧提取方法 | |
CN113326731A (zh) | 一种基于动量网络指导的跨域行人重识别算法 | |
US20170076152A1 (en) | Determining a text string based on visual features of a shred | |
Chen et al. | SS-HCNN: Semi-supervised hierarchical convolutional neural network for image classification | |
CN111160163B (zh) | 一种基于区域关系建模和信息融合建模的表情识别方法 | |
Dai Nguyen et al. | Recognition of online handwritten math symbols using deep neural networks | |
Kumar Verma et al. | Generative model for zero-shot sketch-based image retrieval | |
CN113298186A (zh) | 融合流模型对抗生成网络和聚类算法的网络异常流量检测方法 | |
Wang et al. | Prototype-based intent perception | |
Farooqui et al. | Offline hand written Urdu word spotting using random data generation | |
Sun et al. | Weak supervised learning based abnormal behavior detection | |
Dziri et al. | Late fusion of multiple convolutional layers for pedestrian detection | |
CN113887509B (zh) | 一种基于图像集合的快速多模态视频人脸识别方法 | |
Liu et al. | Chart classification by combining deep convolutional networks and deep belief networks | |
Liu et al. | Multi-digit recognition with convolutional neural network and long short-term memory | |
CN115188080A (zh) | 基于骨架识别和门控循环网络的交警手势识别方法及*** | |
Wibowo et al. | Heteroscedastic probabilistic linear discriminant analysis for manifold learning in video-based face recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220104 |
|
CF01 | Termination of patent right due to non-payment of annual fee |