CN114723977A

CN114723977A - 一种用于视觉slam***的稳定特征点识别方法

Info

Publication number: CN114723977A
Application number: CN202210368112.7A
Authority: CN
Inventors: 管贻生; 邹海华; 何力
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2022-04-08
Filing date: 2022-04-08
Publication date: 2022-07-08

Abstract

本发明涉及特征点识别技术领域，更具体地，涉及一种用于视觉SLAM***的稳定特征点识别方法，包括如下步骤：S1.构建训练样本；S2.建立预测神经网络并使用所述训练样本进行预训练，然后对待处理图像通过预测神经网络进行预测。本发明能够针对不规律的环境变化保留具有高度可重复的视觉特征点，从而减少内存消耗以及错误的数据关联，实现提升移动机器人视觉导航的鲁棒性。

Description

一种用于视觉SLAM***的稳定特征点识别方法

技术领域

本发明涉及特征点识别技术领域，更具体地，涉及一种用于视觉SLAM***的稳定特征点识别方法。

背景技术

视觉传感器具备信息量大且成本低廉的特性，在许多移动机器人应用中都扮演着重要的作用，例如视觉SLAM***、场景识别以及视觉导航定位等等。其中，视觉SLAM***和视觉导航是实现移动机器人自主化的两大关键技术。

目前，为了实现移动机器人的视觉导航定位，大多数方案会先利用视觉SLAM***技术来对环境建立地图，然后提取当前帧图像的视觉特征点并通过描述符匹配以及RANSAC剔除来与地图中的特征点建立正确的数据关联，实现定位功能。由于传统视觉特征点检测方法的局限性，环境的变化使得很多特征点只能在时间跨度很短的情况下被重复检测出来并被匹配上，即便只是在几个小时后，能够正确关联上的特征点数量也会大大减少。现有的大部分基于特征点法的视觉SLAM***方案在运行过程中并没有考虑环境接下来将会发生的光照变化、物体移动以及植被生长等情况，所生成的地图中会包含大量随着时间的推移而变得不稳定的特征点。这种地图对于需要长期在同一个区域执行例行任务式的机器人应用来说，例如巡检和清洁，往往会在导航定位过程中引入大量的错误关联。这些错误的关联会导致RANSAC找到正确假设的迭代次数变长以及如果错误比例超过一定百分比后，RANSAC也会失效，从而造成机器人无法可靠的工作。此外，在对大场景环境进行建图时，存储不稳定的特征点及其描述符往往会消耗大量的内存空间，这对于资源有限的移动机器人来说也是一个巨大的限制。

现有技术公开了一种胶囊胃镜轨迹跟踪方法及装置，该方法包括：获取胶囊胃镜拍摄到的视频图片序列；将所述视频图片序列中每一帧图片依次输入到训练好的图片特征提取模型中，得到每一帧图片的图片特征点和对应的特征描述符；根据所述图片特征点和所述特征描述符，通过ORB SLAM3算法，对胶囊胃镜进行轨迹跟踪。本发明通过将深度学习网络和ORB SLAM3算法结合，实现在使用卷积神经网络提取特征向量的基础上，通过ORBSLAM3算法对图片特征进行匹配跟踪，提高所提取特征的鲁棒性，从而对胶囊胃镜的轨迹跟踪实现精密定位。

但上述方案无法用于对视觉SLAM***的稳定特征点进行识别。

发明内容

本发明的目的在于克服现有技术的不足，提供一种用于视觉SLAM***的稳定特征点识别方法，能够针对不规律的环境变化保留具有高度可重复的视觉特征点，从而减少内存消耗以及错误的数据关联，实现提升移动机器人视觉导航的鲁棒性。

为解决上述技术问题，本发明采用的技术方案是：

提供一种用于视觉SLAM***的稳定特征点识别方法，包括如下步骤：

S1.构建训练样本；其中，步骤S1包括以下步骤：

S11.选取具有已知图像位姿的图像数据集，并在所述图像数据集中选取多个图像序列；

S12.对每个图像序列中的所有图像均进行多个特征点的提取；

S13.在已提取特征点的图像序列中选取具有分离视角的图像序列；

S14.通过重投影对已提取特征点的图像序列进行特征点匹配，并在具有分离视角的图像中得到稳定特征点，并随机选取等量的不稳定特征点，形成训练样本；

S2.建立预测神经网络并使用所述训练样本进行预训练，然后对待处理图像通过预测神经网络进行预测；其中，步骤S2包括以下步骤：

S21.建立预测神经网络，然后使用所述步骤S1得到的训练样本进行预训练；其中，所述预测神经网络具有特征提取模块和逻辑判断模块；

S22.对待处理图像进行多个特征点的提取；

S23.将已提取特征点的待处理图像进行图像区域的选取，然后输入至所述特征提取模块中，得到第一特征向量；

S24.将所述特征点的描述符进行标准化处理，得到第二特征向量；

S25.将所述第一特征向量与第二特征向量进行拼接，然后将完成拼接的特征向量输入至所述逻辑判断模块中，得到特征点稳定的可能性表述。

进一步地，在步骤S11中，所述图像序列的时间跨度为大于或等于90天。

进一步地，所述步骤S13具体包括如下步骤：

S131.选取其中一个已提取特征点的图像序列，并在其中以一定时间间隔选取多张图像，得到第一分离视角图像序列；

S132.根据所述第一分离视角图像序列中的每张图像，在其余已提取特征点的图像序列中一一对应地进行最近视角选取，得到对应的其余的分离视角图像序列。

进一步地，在步骤S132中，满足最近视角的选取条件：该图像视角距离所述第一分离视角图像序列中的图像的视角小于等于1米、且偏航角在0～30°之间，以及在同一分离视角图像序列中，若对应所述第一分离视角图像序列中的同一张图像，具有超过一张满足最近视角选取条件的图像，那么便选取视角最近的一张图像。

进一步地，所述步骤S14具体包括如下步骤：

S141.对每个已提取特征点的图像序列进行稀疏重建，使每个分离视角图像序列中的每个特征点均获得对应的三维坐标；

S142.任意选取一个分离视角图像序列，将其中具有三维坐标的特征点通过相机模型同时投影到其余的分离视角图像序列中对应视角的图像上形成投影点，然后通过K-D树在该对应视角的图像中进行匹配特征点查找，若其余的分离视角图像序列中对应视角的图像上均无法查找到满足匹配要求的匹配特征点，则执行步骤S143，否则执行步骤S144；

S143.将该特征点标记为不稳定特征点，然后执行步骤S145；

S144.若在其余的分离视角图像序列中对应视角的图像上均能够查找到至少一个满足匹配要求的匹配特征点，便将该特征点标记为稳定特征点，否则不对该特征点进行标记；然后执行步骤S145；

S145.重复步骤S142～S144，直至所有分离视角图像序列的图像均完成特征点标记后，执行步骤S146；

S146.根据得到的稳定特征点的数量，随机选取等量的不稳定特征点，形成训练样本。

进一步地，在步骤S142中，所述匹配要求为：所述投影点与待匹配特征点之间的距离小于5个像素、且特征点描述符向量的距离小于0.7个阈值。

进一步地，在步骤S21中，所述特征提取模块为去掉全连接层的ResNet18网络，所述逻辑判断模块为由两个全连接层组成的MLP网络。

进一步地，所述步骤S23具体包括：对已提取特征点的待处理图像提取特征点周围的图像区域(R^64×64×3)，然后输入至所述ResNet18网络中，得到512维的特征向量。

进一步地，所述步骤S24具体包括：将所述特征点的描述符的每一维进行Z-Score标准化处理，得到128维的特征向量。

进一步地，所述步骤S25具体包括：将所述512维的特征向量与128维的特征向量进行拼接得到640维的特征向量，然后将所述640维的特征向量输入至所述MLP网络中，通过逻辑回归得到特征点稳定的可能性表述。

与现有技术相比，本发明的有益效果是：

本发明为一种用于视觉SLAM***的稳定特征点识别方法，能够在SLAM***建图过程中针对不规律的环境变化保留具有高度可重复的视觉特征点，从而减少内存消耗以及错误的数据关联，实现提升移动机器人视觉导航的鲁棒性。

附图说明

图1为本发明一种用于视觉SLAM***的稳定特征点识别方法的流程图；

图2为本发明一种用于视觉SLAM***的稳定特征点识别方法步骤S2的流程图。

具体实施方式

下面结合具体实施方式对本发明作进一步的说明。其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本专利的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

实施例1

如图1所示为本发明一种用于视觉SLAM***的稳定特征点识别方法的第一实施例，包括如下步骤：

S1.构建训练样本；其中，步骤S1包括以下步骤：

S11.选取具有已知图像位姿的图像数据集，并在图像数据集中选取多个图像序列；

S12.对每个图像序列中的所有图像均进行多个特征点的提取；

S14.通过重投影对已提取特征点的图像序列进行特征点匹配，并在具有分离视角的图像中得到稳定特征点，并随机选取等量的不稳定特征点，形成训练样本。

S2.建立预测神经网络并使用训练样本进行预训练，然后对待处理图像通过预测神经网络进行预测；其中，步骤S2包括以下步骤：

S21.建立预测神经网络，然后使用步骤S1得到的训练样本进行预训练；其中，预测神经网络具有特征提取模块和逻辑判断模块；

S22.对待处理图像进行多个特征点的提取；

S23.将已提取特征点的待处理图像进行图像区域的选取，然后输入至特征提取模块中，得到第一特征向量；

S24.将特征点的描述符进行标准化处理，得到第二特征向量；

S25.将第一特征向量与第二特征向量进行拼接，然后将完成拼接的特征向量输入至逻辑判断模块中，得到特征点稳定的可能性表述。

实施例2

本实施例与实施例1类似，所不同之处在于，本实施例中步骤S1具体包括如下步骤：

S11.选取具有已知图像位姿的图像数据集，并在图像数据集中选取多个图像序列；其中，图像序列的时间跨度为大于或等于90天；大于90天的设置使得选取的图像序列中具有季节变化。

S12.对每个图像序列中的所有图像均进行多个SIFT特征点的提取；

S13.在已提取特征点的图像序列中选取具有分离视角的图像序列；步骤S13具体包括如下步骤：

S132.根据第一分离视角图像序列中的每张图像，在其余已提取特征点的图像序列中一一对应地进行最近视角选取，得到对应的其余的分离视角图像序列；其中，满足最近视角选取条件为：该图像视角距离第一分离视角图像序列中的图像的视角小于等于1米、且偏航角在0～30°之间，以及在同一分离视角图像序列中，若对应第一分离视角图像序列中的同一张图像，具有超过一张满足最近视角选取条件的图像，那么便选取视角距离更小、偏航角更小的一张图像。

S14.通过重投影对已提取特征点的图像序列进行特征点匹配，并在具有分离视角的图像中得到稳定特征点，并随机选取等量的不稳定特征点，形成训练样本；步骤S14具体包括如下步骤：

S142.任意选取一个分离视角图像序列，将其中具有三维坐标的特征点通过相机模型同时投影到其余的分离视角图像序列中对应视角的图像上形成投影点，然后通过K-D树在该对应视角的图像中进行匹配特征点查找；若其余的分离视角图像序列中对应视角的图像上均无法查找到满足匹配要求的匹配特征点，则执行步骤S143，否则执行步骤S144；其中，匹配要求为：投影点与待匹配特征点之间的距离小于5个像素、且特征点描述符向量的距离小于0.7个阈值。

S143.将该特征点标记为不稳定特征点，然后执行步骤S145；

具体地，步骤S11中所选取的图像数据集为CMU Seasons图像数据集，CMU Seasons图像数据集包含12个图像序列，这些图像序列为以车载相机在12次不同的时间、从Pittsburgh(USA)市中心开出至郊区进行拍摄，并依序连续获取的系列图像，所得到的12个图像序列具有不同程度的环境变化，包括光照，天气，季节等，同时也具备真实的图像位姿。在本实施例中，选取其中的3个图像序列用于训练样本的构建，分别编号为第一图像序列、第二图像序列、第三图像序列；且选取的这3个图像序列中需要满足跨季节、即大于90天的时间跨度。

具体地，在步骤S12中，对第一图像序列、第二图像序列、第三图像序列均提取2000个SIFT特征点。

具体地，在步骤S13中，根据图像的真实位姿从第一图像序列中以相同的时间间隔选取一定数量的图像，得到第一分离视角图像序列；对于第一分离视角图像序列中的每一张图像，分别在第二图像序列、第三图像序列中一一对应地找到与其视角距离最近的图像，分别得到对应的第二分离视角图像序列、第三分离视角图像序列；需要说明的是，所选取的视角距离最近的图像需要满足的视角条件为：与第一分离视角图像序列中的图像视角小于等于1米、且偏航角在0～30°之间的图像。对于每一个视角，需要同时包含来自第一、第二、第三分离视角图像序列这三个序列的各一张图像。如果对于第一分离视角图像序列中的某一张图像，无法在第二图像序列或第三图像序列中找到满足视角条件的图像，那么便需要在第一分离视角图像序列中将该图像删除；当第一分离视角图像序列中的图像数量较少，那么便对第一图像序列以另一时间间隔重新选取图像，得到新的第一分离视角图像序列。

具体地，在步骤S14中，利用SFM分别对第一图像序列、第二图像序列、第三图像序列进行稀疏重建来获得各个特征点对应的三维坐标；本实施例中SFM的操作包括：图像特征点提取、图像匹配、三角化；为保证所有的图像均在同一坐标系下，本实施例中利用图像的真实位姿来对匹配上的特征点进行三角化，以此得到特征点对应的三维坐标。接着，将第一分离视角图像序列中具有三维坐标的特征点通过相机模型分别同时投影到第二、第三分离视角图像序列中对应视角的图像上形成投影点，然后使用K-D树在该对应视角的两张图像中进行快速搜索，查找是否具有满足匹配要求的匹配特征点：

若第二、第三分离视角图像序列中对应视角的图像上均能够查找到至少一个匹配特征点，则将第一分离视角图像序列中图像上的该特征点标记为稳定特征点；

若第二、第三分离视角图像序列中对应视角的图像上均不能够查找到匹配特征点，则将第一分离视角图像序列中图像上的该特征点标记为不稳定特征点；

若不属于上述两种情况，则不对该特征点进行标记。

当完成对第一分离视角图像序列中所有特征点的标记后，将第二分离视角图像序列中具有三维坐标的所有特征点通过相机模型分别投影到第一、第三分离视角图像序列的图像中进行匹配特征点查找，然后在第二分离视角图像序列中得到稳定特征点和不稳定特征点。接着，再将第三分离视角图像序列中具有三维坐标的所有特征点通过相机模型分别投影到第一、第二分离视角图像序列的图像中进行匹配特征点查找，也得到稳定特征点和不稳定特征点；此时便完成稳定特征点以及不稳定特征点的标记。最后，为了产生类别均衡的训练样本，根据得到的稳定特征点的数量，随机选取等量的不稳定特征点，形成最终的训练样本。

实施例3

本实施例与实施例2类似，所不同之处在于，本实施例中步骤S2具体包括如下步骤：

S21.建立预测神经网络，然后使用步骤S1得到的训练样本进行预训练；其中，预测神经网络具有特征提取模块和逻辑判断模块；本实施例中，特征提取模块为去掉全连接层的ResNet18网络，逻辑判断模块为由两个全连接层组成的MLP网络。需要说明的是，ResNet18网络的初始参数已预先在ImageNet数据集上完成训练，且为了减少训练的参数量，本实施例中将ResNet18网络的全连接层进行删除。

S22.对待处理图像提取K个SIFT特征点；本实施例中，待处理图像可以为移动机器人在运动过程中，通过其上的相机捕捉到的图像。

S23.对已提取特征点的待处理图像提取特征点周围的图像区域(R^64×64×3)，并缩放到224×224的尺寸然后输入至ResNet18网络中，得到第一特征向量，本实施例中，第一特征向量为512维的特征向量。

S24.将SIFT特征点的描述符的每一维按照均值等于0、方差等于1的Z-Score标准化进行处理，得到第二特征向量，本实施例中，第二特征向量为得到128维的特征向量。

S25.将512维的特征向量与128维的特征向量进行拼接得到640维的特征向量，然后将640维的特征向量输入至由两个全连接层组成的MLP网络中，最后MLP网络通过逻辑回归得到一个在0～1区间内的分数表达作为该特征点稳定性的可能性表述。根据标注情况，当标注稳定特征点为1，不稳定特征点为0，那么此时可以设置0.5的阈值；若输出的分数小于或等于0.5，则认为该特征点为不稳定特征点；若输出的分数大于0.5，则认为该特征点为稳定特征点。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种用于视觉SLAM***的稳定特征点识别方法，其特征在于，包括如下步骤：

S1.构建训练样本；其中，步骤S1包括以下步骤：

S12.对每个图像序列中的所有图像均进行多个特征点的提取；

S22.对待处理图像进行多个特征点的提取；

2.根据权利要求1所述的用于视觉SLAM***的稳定特征点识别方法，其特征在于，在步骤S11中，所述图像序列的时间跨度为大于或等于90天。

3.根据权利要求1所述的用于视觉SLAM***的稳定特征点识别方法，其特征在于，所述步骤S13具体包括如下步骤：

4.根据权利要求3所述的用于视觉SLAM***的稳定特征点识别方法，其特征在于，在步骤S132中，满足最近视角的选取条件为：该图像视角距离所述第一分离视角图像序列中的图像的视角小于等于1米、且偏航角在0～30°之间，以及在同一分离视角图像序列中，若对应所述第一分离视角图像序列中的同一张图像，具有超过一张满足最近视角选取条件的图像，那么便选取视角最近的一张图像。

5.根据权利要求3或4所述的用于视觉SLAM***的稳定特征点识别方法，其特征在于，所述步骤S14具体包括如下步骤：

S143.将该特征点标记为不稳定特征点，然后执行步骤S145；

6.根据权利要求5所述的用于视觉SLAM***的稳定特征点识别方法，其特征在于，在步骤S142中，所述匹配要求为：所述投影点与待匹配特征点之间的距离小于5个像素、且特征点描述符向量的距离小于0.7个阈值。

7.根据权利要求1所述的用于视觉SLAM***的稳定特征点识别方法，其特征在于，在步骤S21中，所述特征提取模块为去掉全连接层的ResNet18网络，所述逻辑判断模块为由两个全连接层组成的MLP网络。

8.根据权利要求7所述的用于视觉SLAM***的稳定特征点识别方法，其特征在于，所述步骤S23具体包括：对已提取特征点的待处理图像提取特征点周围的图像区域(R^64×64×3)，然后输入至所述ResNet18网络中，得到512维的特征向量。

9.根据权利要求8所述的用于视觉SLAM***的稳定特征点识别方法，其特征在于，所述步骤S24具体包括：将所述特征点的描述符的每一维进行Z-Score标准化处理，得到128维的特征向量。

10.根据权利要求9所述的用于视觉SLAM***的稳定特征点识别方法，其特征在于，所述步骤S25具体包括：将所述512维的特征向量与128维的特征向量进行拼接得到640维的特征向量，然后将所述640维的特征向量输入至所述MLP网络中，通过逻辑回归得到特征点稳定的可能性表述。