CN112084353A

CN112084353A - 一种快速陆标-卷积特征匹配的词袋模型方法

Info

Publication number: CN112084353A
Application number: CN202010991242.7A
Authority: CN
Inventors: 王燕清; 石朝侠
Original assignee: Nanjing Xiaozhuang University
Current assignee: Nanjing Xiaozhuang University
Priority date: 2020-09-20
Filing date: 2020-09-20
Publication date: 2020-12-15

Abstract

本发明公开了一种快速陆标‑卷积特征匹配的词袋模型方法，针对SLAM算法需要提高实时性的需求，通过采用词袋模型提升图像检索速度，将陆标的卷积特征进行聚类，生成卷积特征的单词，得到基于陆标‑卷积特征的词典，从而加速卷积特征的匹配，采用投票机制加快查询帧和图像数据库之间的查询速度。在Gardens Point和Campus Loop这两个数据集上，通过对词袋模型和线性搜索方法闭环检测的准确率和性能进行比较，验证了词袋模型框架能显著加快基于陆标‑卷积特征表示图像的检索过程。提出的闭环检测方法可在大范围环境的同时定位与建图消除场景的累积误差，不仅能准确的识别到闭环，而且还具有实时性。

Description

一种快速陆标-卷积特征匹配的词袋模型方法

技术领域

本发明涉及基于视觉的同时定位与建图领域，具体为一种快速陆标-卷积特征匹配的词袋模型方法。

背景技术

基于视觉的同时定位与建图VSLAM，Visual Simultaneous localization andmapping是应用在移动机器人领域中的关键技术。其中基于直接法的单目视觉SLAM因使用的传感器结构简单，价格低廉，可灵活地在各类场景中自由切换以及直接法SLAM可实时重建半稠密的环境地图等诸多优点，成为了视觉SLAM中的研究热点。但由于单目传感器具有尺度不确定性，直接法对光照变化特别敏感，可能会造成机器人的定位和建图失败，为了提升大规模环境中SLAM的精度和鲁棒性，利用卷积特征结合陆标生成图像表示的方式可以很大程度的提升场景的识别精确度，尤其是在具有显著的外观变化和视点变化的环境下。但是当机器人在大规模的环境中移动时，在闭环的过程中查找当前的查询帧对应的参考帧需要检索的数据库势必会随着场景规模的增长而增大。为了获得令人满意的场景识别能力，通常需要检测足够数量的陆标和提取足够尺寸的卷积特征，如果采用暴力匹配数据库中每一幅图像，直接根据图像之间的卷积特征计算相似性以期查找到最相似的参考帧，面对如此大的数据库和高维的卷积特征，检索数据库中与当前查询帧对应的参考帧将是非常耗时。为了保证SLAM算法的实时性，需要一种有效的方案，能够实现快速的场景图像之间的匹配和检索。

在传统的闭环检测中，通常一幅图像能提取到数百个局部的视觉特征，如果直接对特征匹配比较费时，当光照变化时，特征的表示也不够稳定，所以会借助词袋模型生成计算量更小、更稳定的视觉单词的图像表达。本发明采用陆标-卷积特征表示图像的词袋模型方法以加快图像查询的速度。

发明内容

本发明的目的在于提供一种快速陆标-卷积特征匹配的词袋模型方法，以解决上述背景技术中提出的问题，为实现上述目的，本发明提供如下技术方案。

1.主成分分析

卷积特征和传统的词袋模型中的视觉特征存在一些不同的地方：

a.卷积特征属于高维向量。本发明提取到的卷积特征维度为1064维，而传统的视觉特征的维度通常比较低，比如sift特征有128维；

b.卷积特征具有更好的语义识别能力。本发明每幅图像中设置提取200个陆标，而传统方法中通常提取的局部特征多达数百个。

在训练词典时，为了构建基于卷积特征的词袋模型，首先需要对训练词典的卷积特征做降维处理。主成分分析PCA, Principal Component Analysis是一种广泛使用且有效的降维方法，能将一个高维的特征向量重新进行构造，映射成一个低维的特征向量。该方法能将一个高维的特征向量重新进行构造，映射成一个低维的特征向量，采用这种方法保留图像中有用的信息还减少图像表示的信息损失。

利用PCA实现特征降维：首先从高维特征向量中选择其中具有最大方差的方向作为第一个新的坐标轴，然后再从与第一个坐标轴正交的平面中选择其中方差最大的作为第二个新的坐标轴，而第三个坐标轴则要求是同时与前两个轴正交且方差最大的那个，以此类推，第i个新的坐标轴应该满足与前i-1个坐标轴正交且方差最大。最终丢弃掉后面方差为0的坐标轴，即得到了降维后的特征向量。利用主成分高维特征向量的协方差矩阵对应的特征值和特征向量，然后选择出前256个最大的特征值对应的特征向量组成降维后的低维特征向量。

2.离线训练生成词典

字典的生成过程就是一个聚类问题，常用的聚类方式有K均值聚类、层次聚类等，经过聚类之后，大量特征点就聚类成一个词典。但是考虑到词典的规模通常都很大，在查找特征点对应单词的过程中不可能和词典中的每一单词都进行对比，因为这种线性查找的方式将耗费大量的时间。为了提高查找效率，在训练字典的过程中，将其组织成树形结构。为了理解树形结构的词典是如何加速特征匹配的，以一种简单且实用的K叉树词典，描述训练一个词典和查找特征对应的单词的过程，训练的流程图如图1所示。

训练步骤可以描述为：

a. 在根结点，使用K-means++聚类把从图像中提取到的所有的特征点聚为k类，得到聚类后的第一层。

b. 对第一层的每个节点再进行K-means++聚类，得到聚类后的下一层。

c.逐层对产生的每一个节点使用K-means++聚类，直至叶子结点，叶子结点即为单词。图2所示的是一棵具有k个分支，深度为d的树，可以容纳k^d个单词，在查找某个特征对应的单词时，只需要将这个特征与每一层汉明距离最小的中间节点进行比较，总共需要比较d次，即可查找到对应的单词，实现了对数级别的查找效率。而如果采用线性查找的方式则需要比较k^d次。所以采用树形结构组织词典可以大大加速特征匹配的速度。

为了训练词典，使用Places dataset作为训练数据集，该数据集包含了超过800万张的场景数据集，有室内环境也有室外环境。首先从训练集中识别生成陆标，然后对这些陆标提取卷积特征并做降维处理，采用近似K均值聚类降维后的卷积特征，生成一个包含30000个视觉单词的词典。

3.单词形式的图像表示

词袋模型实际上就是利用反复训练特征向量进行聚类，最终生成对应各种类别特征的单词，组成一个词典，然后对任意一张图片，在词典中进行查找检索，都能得到独一无二的直方图向量，从而产生具有高度差异的模型。假设对于一幅图像I中的任意一个特征点f，都能在词典中逐层查找得到对应的单词W_f，不同的单词在区分性上的重要程度并不相同，如果能对单词的区分性或重要性加以评估，给这些单词不同的权值将更有利于图像检索。一个单词在字典中出现的频率越高就意味着它的区分度就越高，出现的频率越低则在对图像进行分类时区分度就越低。在词袋模型中，每个单词的权重由词频率-逆文档频率（TF-IDF）来决定的。其中TF是指某个单词在单幅图像中出现的频率，是在线生成直方图向量时产生的权重分量。TF可以定义为：

其中

表示图像I中单词W_f出现的个数，k表示图片中总共包含的单词个数。

IDF是生成字典时离线产生的权重分量，只和训练集有关，不会因为查询集而改变，IDF定义为：

其中，M表示生成字典时包含的训练数据集的图片数量，

表示训练集中出现单词 W_f的图片个数。这个权重分量主要凸显了差异性，说明在训练时经常出现的单词差异性较小，给它的权重赋予的就小一些。结合单词的TF和IDF，单词W_f的权重就定义为：

考虑权重以后，图像I可以用一个由单词和对应的权重组成的向量v_I来表示：

其中，n表示从图像中提取到的特征的数量。

所以对于查询帧I_q和每一帧数据库图像

经过词典查询和单词权重分配后的直方图向量可以记为：

其中，

，表示陆标的索引。

在得到了两幅图像的向量表达方式以后，利用L₁范数计算两幅图像之间的相似性：

4数据库查询

利用树形结构的词典，可以加快图像之间陆标的匹配速度，但是要检索到和查询帧最相似的数据库图像，需要将查询帧和数据库中的图像进行一一对比，当数据库比较大时，这仍然需要耗费大量的时间。本发明提出通过数据库图像构建一个逆索引单词数据库，当有新的帧加入数据库中时进行在线更新和维护，在这个数据库中覆盖了图像中出现的所有单词，每一个单词指向它包含的一系列图像，在查询时采取投票机制在逆索引单词数据库中搜索图像数据库中与查询帧I_q包含相同单词的图像，假设得到X帧符合要求的数据库图像，然后对这X帧图像计算与查询帧I_q的相似性，而非采用暴力匹配的方法与数据库中的图像逐个计算相似度，从而加快了图像的检索过程。

为了缓解词袋模型方法中存在的感知偏差的问题，本发明采取两个步骤找到最终最匹配的数据库图像。第一步，分别计算查询帧I_q和X帧数据库图像中每一帧的相似性，取最相似的前K个作为候选参考帧。第二步，计算图像之间相似性的方法依次计算I_q和这K个候选帧的相似度，从而得到与I_q最相似的图像结果。实验表明，这个基于陆标-卷积特征的词袋模型是一种高效的方法，不仅能实现快速的图像检索，而且能达到和线性搜索差不多的查询效果。

有益效果

根据词袋模型在图像检索上的优越性能提出了一种快速的图像查询方法应用在基于陆标-卷积的图像表示的检索中，用来提升传统的视觉特征表示图像的查询速度的词袋模型框架。实验表明了该方法即使是在图像数据集规模非常大的情况下仍然能快速检索到与查询帧最相似的数据库图像，从而证明了本发明提出的闭环检测方法能作为SLAM***中实时运行的模块。

附图说明

图1为描述训练一个词典和查找特征对应的单词的训练流程图；

图2为用树形结构组织词典的k叉树字典示意图；

图3为线性搜索和词袋模型平均查询时间对比图；

图4为图像查询时间对比图。

具体实施方式

本发明提出一个能加速查找查询帧对应数据库图像的方法，查询时间是一个重要的评价指标。测试用词袋模型的框架替换原来的线性搜索后的闭环检测方法的准确性和鲁棒性，用准确率-召回率曲线的曲线下面积(AUC)，在100%的精确率下的最大召回率以及当有较高的召回率时的准确率作为实验的评估指标。

(1) 回环检测的准确性评估

为了评估用词袋模型的框架替代线性搜索后闭环检测的性能，两个数据集分别从视点变化的鲁棒性、光照变化的鲁棒性、视点和光照变化的鲁棒性以及综合变化的鲁棒性这四个角度对这两种方法生成准确率-召回率曲线表明均具有较好的准确率。

(2) 图像查询时间评估

为了评估提出的基于卷积特征的词袋模型框架图像检索能加快图像的检索速度，首先对比了运用词袋模型框架和运用线性搜索这两种方法的平均查询时间，如图3所示，Campus Loop 集中将雪天拍摄的轨迹序列作为图像数据库，另一个在晴天采集到的图像序列作为查询集，The Gardens Point 数据集中分别将白天沿着道路左侧的轨迹作为数据库，右侧的轨迹序列作为查询集；将晚间的序列作为数据库，白天的两个轨迹序列作为查询集进行验证,结果表明使用词袋模型能实现快速的图像查询，在包含200幅场景图像的数据库中的查询时间比使用线性搜索能节省近一半的时间,注意实验中使用的CPU型号为i7-8700。

提出的基于陆标-卷积的词袋模型方法的有效性，将其与表现较好的另一种回环检测方法FAB-MAP在KITTY数据集的sequences 00上进行了对比，图4展示了这两种方法的平均查询时间。即使是面对如此大规模的图像数据库，基于陆标-卷积特征的词袋模型的方法仍然是高效的，说明本文提出的闭环检测方法非常适合在大范围环境的同时定位与建图过程中用来消除场景的累积误差，不仅能准确的识别到闭环，而且还具有实时性。

Claims

1.一种快速陆标-卷积特征匹配的词袋模型方法，其特征在于：词袋模型分为生成词典和字典查询两个步骤，通过采用词袋模型离线训练词典、在线查询的框架结构，将卷积特征量化为视觉单词加速索引过程，对于一个查询帧 I_q和一组具有N幅图像的数据库图像I_d，

，通过深度学习网络生成图像特征的T个陆标，并对陆标提取了卷积特征，从基于陆标-卷积形式的图像方法到借助词袋模型框架，从数据库图像I_d中检索到与查询帧I_q相似的参考帧

的过程如下：

(1) 特征降维：传统词袋模型中的视觉特征的维度低，卷积特征属于高维向量，提取到的卷积特征有1064维，利用词袋模型的框架，对提取到的高维卷积特征做降维处理；

(2) 训练词典：用卷积特征对应的单词来表示一幅图像而非直接用卷积特征，能加快特征的匹配速度，把特征归类为单词并训练描述词典，词典中包含了所有单词，从图像中提取的特征通过词典查找到对应的单词，一个单词不是一个单独的特征，而是一类特征的组合，一幅图像中有几类特征就用相应的几个单词进行描述，通过比较两幅图像之间出现的单词是否一致来判断这两幅图像是否是同一个场景；

(3)生成单词形式的图像描述：用组成图像的特征对应的单词表示一幅图像，忽略图像中不同的特征点在识别图像时的作用；

(4)权重设定：单词出现的频率设定不同的权重，利用单词和对应的权重描述一幅图像；

(5)数据库查询：在线维护一个与数据库中的图像对应的逆索引单词数据库，在查找查询帧对应的数据库参考帧时，首先根据投票机制选择出与查询帧包含有相同单词的数据库图像，然后计算查询帧和选择出来的图像之间的相似性；先通过图像的基于卷积特征的单词形式的图像表示筛选出最为相似的k个场景图像帧作为候选帧，计算相似性的方法找到最终匹配的场景图像，实现查询帧和图像数据库之间的图像检索。

2.根据权利要求1所述一种快速陆标-卷积特征匹配的词袋模型方法，其特征在于：利用PCA实现特征降维，步骤如下：首先从高维特征向量中选择其中具有最大方差的方向作为第一个新的坐标轴，然后再从与第一个坐标轴正交的平面中选择其中方差最大的作为第二个新的坐标轴，而第三个坐标轴则要求是同时与前两个轴正交且方差最大的那个，以此类推，第i个新的坐标轴应该满足与前i-1个坐标轴正交且方差最大；最终丢弃掉后面方差为0的坐标轴，即得到了降维后的特征向量;利用主成分高维特征向量的协方差矩阵对应的特征值和特征向量，然后选择出前256个最大的特征值对应的特征向量组成降维后的低维特征向量。

3.根据权利要求1所述一种快速陆标-卷积特征匹配的词袋模型方法，其特征在于：离线训练生成词典，采用 K叉树词典，描述训练一个词典和查找特征对应的单词的过程,训练步骤可以描述为：

a. 在根结点，使用K-means++聚类把从图像中提取到的所有的特征点聚为k类，得到聚类后的第一层；

b. 对第一层的每个节点再进行K-means++聚类，得到聚类后的下一层；

c.逐层对产生的每一个节点使用K-means++聚类，直至叶子结点，叶子结点即为单词；一棵具有k个分支，深度为d的树，可以容纳k^d个单词，在查找某个特征对应的单词时，只需要将这个特征与每一层汉明距离最小的中间节点进行比较，总共需要比较d次，即可查找到对应的单词，实现了对数级别的查找效率，采用线性查找的方式则需要比较k^d次。

4.根据权利要求1所述的一种改进的基于陆标-卷积特征的图像方法，其特征在于：词袋模型就是利用反复训练特征向量进行聚类，最终生成对应各种类别特征的单词，组成一个词典，然后对任意一张图片，在词典中进行查找检索，都能得到独一无二的直方图向量，从而产生具有高度差异的模型；假设对于一幅图像I中的任意一个特征点f，都能在词典中逐层查找得到对应的单词W_f，不同的单词在区分性上的重要程度并不相同，如果能对单词的区分性或重要性加以评估，给这些单词不同的权值将更有利于图像检索；一个单词在字典中出现的频率越高就意味着它的区分度就越高，出现的频率越低则在对图像进行分类时区分度就越低；在词袋模型中，每个单词的权重由词频率-逆文档频率（TF-IDF）来决定的；其中TF是指某个单词在单幅图像中出现的频率，是在线生成直方图向量时产生的权重分量；TF可以定义为：

其中

表示图像I中单词W_f出现的个数，k表示图片中总共包含的单词个数；

其中，M表示生成字典时包含的训练数据集的图片数量，

表示训练集中出现单词W_f的图片个数；这个权重分量主要凸显了差异性，说明在训练时经常出现的单词差异性较小，给它的权重赋予的就小一些；结合单词的TF和IDF，单词W_f的权重就定义为：

其中，n表示从图像中提取到的特征的数量；所以对于查询帧I_q和每一帧数据库图像

经过词典查询和单词权重分配后的直方图向量可以记为：

其中，

，表示陆标的索引；在得到了两幅图像的向量表达方式以后，利用L₁范数计算两幅图像之间的相似性。