CN115393603A

CN115393603A - 一种动态环境下基于改进SuperPoint的视觉SLAM方法

Info

Publication number: CN115393603A
Application number: CN202210835231.9A
Authority: CN
Inventors: 李福生; 黄杰
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-07-15
Filing date: 2022-07-15
Publication date: 2022-11-25

Abstract

本发明属于视觉SLAM技术领域，具体提供一种动态环境下基于改进SuperPoint的视觉SLAM方法，用以解决现有动态环境下的视觉SLAM方法鲁棒性不足的问题；本发明首先在SuperPoint网络的基础上，构建了添加残差权重分支的特征点及描述子提取网络，将网络残差权重分支输出与特征点分支输出进行加权融合，使构建的网络具有剔除动态特征点的功能；之后将构建的网络应用于ORB‑SLAM2的跟踪线程，代替ORB方法提取图像特征点和描述子；结合ORB‑SLAM2的局部建图和回环检测线程，实现了动态环境下鲁棒视觉SLAM***，提高了视觉SLAM***在动态环境下位姿估计的准确性和鲁棒性。

Description

一种动态环境下基于改进SuperPoint的视觉SLAM方法

技术领域

本发明属于视觉SLAM技术领域，具体提供一种动态环境下基于改进SuperPoint的视觉SLAM方法。

背景技术

同步定位与建图(Simultaneous Localization And Mapping,SLAM)作为机器人和计算机视觉领域的热点话题，广泛应用于增强现实、室内服务机器人以及无人驾驶；视觉SLAM使用相机图像作为输入，根据图像之间的变化，同时实现相机位姿的估计以及周边地图的构建。当前大多数视觉SLAM方法均是基于观测环境为静态的强假设，由于现实环境中的动态对象的存在，导致许多不稳定的数据关联，出现累计漂移甚至丢失。

当前针对动态环境的视觉SLAM***中，基于语义的方法通过目标检测或者语义分割来获得先验动态对象的像素级掩码或边界框，对场景中运动的物体上的特征点当作“坏点”处理，剔除动态对象上的特征点，以减少动态对象对位姿估计的影响，提高了动态环境下的定位精度；同时，目前主流的视觉SLAM***主要依靠人工设计的点特征进行图像间的匹配跟踪，在面对视角变化距离，光照环境变化大的环境下，易导致跟踪失败；近年来，基于深度学习特征点和描述子提取网络在光照和视角变化剧烈的场景下表现优异；因此，本发明提供一种动态环境下基于改进SuperPoint的视觉SLAM方法。

发明内容

本发明的目的在于针对现有动态环境下的视觉SLAM方法鲁棒性不足的问题，提出了一种动态环境下基于改进SuperPoint的视觉SLAM方法；本发明在特征点和描述子提取网络SuperPoint的基础上，加入了残差权重图，利用语义信息剔除动态特征点、引导SuperPoint检测稳定的静态特征点，显著改善视觉SLAM方法在动态场景下的准确性和鲁棒性。

为实现上述目的，本发明采用的技术方案如下：

一种动态环境下基于改进SuperPoint的视觉SLAM方法，其特征在于，包括以下步骤：

步骤1、构建带标签数据集；

将无标签的真实图像作为输入，使用端到端的视觉重定位方法PixLoc生成输入图像的残差权重图作为残差权重标签，使用特征点自标注方法得到特征点伪标签；

步骤2、构建图像静态特征点及描述子提取网络，并在带标签数据集上完成离线训练；

所述图像静态特征点及描述子提取网络包括：共享编码器、残差权重分支、特征点分支及描述子分支，输入图像经过共享编码器进行进行下采样得到初步特征图，残差权重分支、特征点分支与描述子分支分别对初步特征图进行解码，得到残差权重图、特征点概率图与描述子特征图，其中，残差权重图与特征点概率图进一步加权融合得到特征点置信度图，再设定置信度阈值、并通过快速近似非极大值抑制算法得到特征点；对描述子特征图进行双三次线性插值，再通过L2归一化为单位长度，得到稠密描述子向量；

步骤3、将训练完成的图像静态特征点及描述子提取网络用于ORB-SLAM2的特征点和描述子提取过程，实现基于改进SuperPoint的视觉SLAM方法。

进一步的，所述共享编码器从的输入图像中得到初步特征图，具体由依次连接的Conv3×3×1×64/s2、Conv3×3×64×64、Conv3×3×64×128/s2、Conv3×3×128×128、Conv3×3×128×256/s2、Conv3×3×256×256构成，且每个卷积层后均设置非线性函数Relu层。

进一步的，所述残差权重分支中通过残差权重解码器对初步特征图进行解码，解码过程中使用PixelShuffle操作对残差权重图进行上采样、使其还原到输入图像的原始尺寸，最后通过Sigmoid函数将输出映射到[0,1]范围，得到残差权重图；所述残差权重解码器由依次连接的Conv3×3×256×256、Conv3×3×64×64、Conv3×3×16×16、Conv1×1×4×1构成，且卷积层Conv3×3×256×256、Conv3×3×64×64、Conv3×3×16×16后均设置非线性函数Relu层。

进一步的，所述特征点提取分支中通过特征点解码器对初步特征图进行解码得到输出，再通过Softmax操作丢弃回收通道，最后使用Reshape操作进行维度切换，得到特征点概率图；所述特征点解码器由Conv 3×3×256×256、Conv1×1×256×65构成，且Conv 3×3×256×256后设置非线性函数Relu层。

进一步的，所述描述子检测分支中通过描述子解码器对初步特征图进行解码，得到维度为(H/8)×(W/8)×256的描述子特征图，再进行双三次线性插值以及L2归一化得到单位长度的稠密描述子向量(维度为H×W×256)；所述描述子解码器由Conv 3×3×256×256、Conv1×1×256×256构成，且Conv 3×3×256×256后设置非线性函数Relu层。

进一步的，所述离线训练具体为：

将带标签数据集中真实图像进行随机单应性变换得到副本图像，将真实图像与副本图像组成图像对、输入图像静态特征点及描述子提取网络；设置损失函数，对图像静态特征点及描述子提取网络进行离线训练；

所述损失函数L在SuperPoint损失函数中增加了残差权重损失，即损失函数由特征点损失L_p、描述子损失L_d与残差权重损失L_w三部分构成，具体为：

L(X_p,X′_p,X_w,X′_w,D,D′；Y_p,Y′_p,Y_w,Y′_w,S)＝L_p(X_p,Y_p)+L_p(X′_p,Y′_p)+λ₁L_w(X_w,Y_w)+λ₁L_w(X′_w,Y′_w)+λ₂L_d(D,D′,S)

其中，X_p与Y_p为真实图像的特征点预测输出与标签值，X′_p与Y′_p为副本图像的特征点预测输出与标签值，X_w与Y_w则为真实图像的残差权重预测输出与标签值，X′_w与Y′_w为副本图像的残差权重预测输出与标签值，D与D′为真实图像与副本图像输入网络后得到的描述子特征图，S表示D与D′的位置关系；λ₁与λ₂为超参数、用以平衡损失函数，具体为1.2和0.001；

L_p为特征点预测的损失函数，采用全卷积交叉熵损失，具体为：

其中，其中，H_c＝H/8，W_c＝W/8，H与W为图像的高和宽；(h,w)表示特征点概率图位置坐标，x_hwk表示特征点概率图(维度为(H/8)×(W/8)×65)中第k通道(h,w)位置的预测值，

表示特征点概率图在特征点标签值y_hw对应通道(h,w)位置的预测值；

L_w为残差权重预测损失函数，采用逐像素L1损失，具体为：

其中，x_hw为残差权重图中(h,w)位置的预测值，y_hw为残差权重标签图中(h,w)位置的标签值；

L_d为特征点描述损失函数，采用铰链损失，具体为：

其中，d_hw表示描述子特征图D中(h,w)位置的描述子单元，d′_h′w′表示描述子特征图D′中(h′,w′)位置的描述子单元；

s_hwh′w′用以表征d_hw与d′_h′w′位置是否相近：

p_hw表示描述子单元d_hw在真实图像上的坐标位置，

表示将描述子单元位置p_hw进行相应单应性变换(与真实图像与副本图像间变换一致)后的描述子单元位置；p_h′w′表示描述子单元d_h′w′在副本图像的坐标位置；

l_d为：l_d(d,d′；s)＝λ_d×s×max(0,m_p-d^Td′)+(1-s)×max(0,d^Td′-m_n)，m_p与m_n为正裕度与负裕度，λ_d为超参数、用以平衡描述子损失中的正例损失和负例损失。

进一步的，所述步骤1中，使用特征点自标注方法得到特征点伪标签，具体为：将无标签的真实图像作为MagicPoint网络的输入，先对输入图像进行N次随机单应性变换操作得到图像副本，使用MagicPoint网络在变换后的图像副本上提取特征点，将包含了特征点的图像副本通过相应的逆向单应性变化还原，再与真实图像的特征点合并作为特征点伪标签。

进一步的，所述步骤3具体为：在ORB-SLAM2的Tracking线程中，采用训练完成的图像静态特征点及描述子提取网络代替ORB方法，对摄像头捕获的图像提取特征点和描述子。

与现有技术相比，本发明的有益效果在于：

本发明提供一种动态环境下基于改进SuperPoint的视觉SLAM方法，首先在SuperPoint网络中加入残差权重分支，制作特征点标签和残差权重图标签对构建的网络进行离线训练；将残差权重分支的输出与特征点分支输出加权融合，使网络具有剔除动态特征点的功能；之后将改进的网络应用于ORB-SLAM2的特征点及描述子提取过程，结合ORB-SLAM2的局部建图以及回环检测线程，实现了动态环境下鲁棒视觉SLAM***，提高视觉SLAM***在动态环境下位姿估计的鲁棒性。

附图说明

图1为本发明中动态环境下基于改进SuperPoint的视觉SLAM方法的流程示意图。

图2为本发明中结合残差权重的图像静态特征点及描述子提取网络的结构示意图。

具体实施方式

为使本发明的目的、技术方案与有益效果更加清楚明白，下面结合附图和实施例对本发明进行进一步详细说明。

本实施例提供一种动态环境下基于改进SuperPoint的视觉SLAM方法，其流程如图1所示，具体包括以下步骤：

步骤1、构建带标签数据集；

具体而言，无标签的真实图像作为PixLoc算法的输入，生成残差权重标签图，残差权重ω_h,w∈[0,1]；PixLoc是一种端到端的视觉重定位方法，利用不确定性图产生的残差权重反映了不同特征对于定位的重要性，它更关注路标、轮廓或突出结构，对于汽车、落叶等动态对象，残差权重越接近于0；

无标签的真实图像作为输入，使用特征点自标注方法得到特征点伪标签，具体为：在由立方体、多边形、星形、棋盘和直线合成的虚拟数据集上训练忽略描述子分支的SuperPoint网络，使其具有角点提取能力，称这个网络为MagicPoint；无标签的真实图像作为MagicPoint网络的输入，为了检测到更多潜在特征点，先对输入图像进行N次随机单应性变换操作得到图像副本，使用MagicPoint网络在变换后的图像副本上提取特征点，将包含了特征点的图像副本通过相应的逆向单应性变化还原，再与原图(输入图像)的特征点合并作为后续工作的伪标签；

步骤2、构建图像静态特征点及描述子提取网络，并在带标签数据集上进行离线训练；具体为：

所述图像静态特征点及描述子提取网络如图2所示，能够实现特征点以及描述子提取同步进行，同时结合产生的残差权重预测对特征点概率图进行加权，实现剔除动态特征点的效果；具体包括：共享编码器、残差权重分支、特征点分支及描述子分支，输入图像经过共享编码器进行进行下采样得到初步特征图，残差权重分支、特征点分支与描述子分支分别对初步特征图进行解码，得到残差权重图、特征点概率图与描述子特征图，其中，残差权重图与特征点概率图进一步加权融合得到特征点置信度图，再设定置信度阈值、并通过快速近似非极大值抑制算法得到特征点；对得到的描述子特征图进行双三次线性插值，再通过L2归一化为单位长度，最终得到稠密描述子向量；

所述共享编码器由3×3卷积层和非线性Relu函数层组成，经过3个步长为2的3×3卷积层进行下采样，从H×W的输入图像得到(H/8)×(W/8)尺寸的初步特征图；具体由依次连接的Conv3×3×1×64/s2、Conv3×3×64×64、Conv3×3×64×128/s2、Conv3×3×128×128、Conv3×3×128×256/s2、Conv3×3×256×256构成，且每个卷积层后均设置非线性函数Relu层；

所述残差权重分支中通过残差权重解码器对初步特征图进行解码，解码过程中使用PixelShuffle操作对残差权重图进行采样尺度为2的3次上采样、使其还输入图像的原始尺寸H×W，最后通过Sigmoid函数将输出映射到[0,1]范围，得到残差权重图；残差权重图能够通过视觉先验引导兴趣点提取，使网络学会忽略汽车、落叶这样的动态对象；所述残差权重解码器由依次连接的Conv3×3×256×256、Conv3×3×64×64、Conv3×3×16×16、Conv1×1×4×1构成，且卷积层Conv3×3×256×256、Conv3×3×64×64、Conv3×3×16×16后均设置非线性函数Relu层；

所述特征点提取分支中通过特征点解码器对初步特征图进行解码，得到维度为(H/8)×(W/8)×65的输出，其中，通道数65对应输入图像中不重叠的局部8×8像素块区域、以及1个表示无特征点的回收通道；再通过Softmax操作丢弃回收通道，最后使用Reshape操作将输出从(H/8)×(W/8)×64维度转换回H×W×1维度，得到特征点概率图；所述特征点解码器由Conv 3×3×256×256、Conv1×1×256×65构成，且Conv 3×3×256×256后设置非线性函数Relu层；

所述描述子检测分支中通过描述子解码器对初步特征图进行解码，得到维度为(H/8)×(W/8)×256的描述子特征图，再进行双三次线性插值以及L2归一化得到单位长度的稠密描述子向量(维度为H×W×256)；所述描述子解码器Conv3×3×256×256、Conv1×1×256×256构成，且Conv 3×3×256×256后设置非线性函数Relu层；

所述快速非极大值抑制算法具体为：先创建一个尺寸为H×W的网格，将经过置信度阈值筛选得到的特征点坐标作为输入；把网格中对应坐标的值设置为1，其余坐标的值设置为0；然后对网格中值为1的位置进行遍历，遍历过的网格对应值设置为-1，遍历位置领域坐标的值设置为0；遍历结束后得到网格中所有值为1的坐标，以实现特征点的快速非极大值抑制；

更为准确的讲：上述网络中所有卷积层如下表所示，其中，“a×a×b×c/s2”中“a×a”表示卷积核大小、“×b”表示输入通道数、“×c”表示输出通道数、“/s”表示步长；以“3×3×1×64/s2”为例进行说明，具体表示卷积核大小为3×3、输入通道数为1、输出通道数为64、步长为2的卷积层；并且，每个3×3卷积层后均设置非线性函数Relu层，未标注步长的其他卷积层默认步长设置为1；

共享编码器	特征点解码器	描述子解码器	残差权重解码器
				3×3×1×64/s2	3×3×256×256	3×3×256×256	3×3×256×256
3×3×64×64	1×1×256×65	1×1×256×256	3×3×64×64
				3×3×64×128/s2			3×3×16×16
3×3×128×128			1×1×4×1
				3×3×128×256/s2
3×3×256×256

所述离线训练具体为：

L(X_p,X′_p,X_w,X′_w,D,D′；Y_p,Y_p′,Y_w,Y_w′,S)＝

L_p(X_p,Y_p)+L_p(X′_p,Y_p′)+λ₁L_w(X_w,Y_w)+λ₁L_w(X′_w,Y_w′)+λ₂L_d(D,D′,S)

其中，X_p与Y_p为真实图像的特征点预测输出与标签值，X_p′与Y_p′为副本图像的特征点预测输出与标签值，X_w与Y_w则为真实图像的残差权重预测输出与标签值，X′_w与Y_w′为副本图像的残差权重预测输出与标签值，D与D′为真实图像与副本图像输入网络后得到的描述子特征图，S表示D与D′的位置关系；λ₁与λ₂为超参数、用来平衡损失函数，具体为1.2和0.001；

其中，H_c＝H/8，W_c＝W/8，H与W为图像的高和宽；(h,w)表示特征点概率图位置坐标，x_hwk表示特征点概率图(维度为(H/8)×(W/8)×65)中第k通道(h,w)位置的预测值，

L_w为残差权重预测损失函数，采用逐像素L1损失，具体为：

其中，x_hw为残差权重图中(h,w)位置的预测值，y_hw为每个残差权重标签图中(h,w)位置的标签值；

L_d为特征点描述损失函数，采用铰链损失，具体为：

s_hwh′w′用以表征d_hw与d′_h′w′位置是否相近：

p_hw表示描述子单元d_hw在真实图像上的坐标位置，

l_d为：l_d(d,d′；s)＝λ_d×s×max(0,m_p-d^Td′)+(1-s)×max(0,d^Td′-m_n)，m_p与m_n为正裕度与负裕度，λ_d为超参数，用来平衡描述子损失中的正例损失和负例损失；

步骤3、将训练完成的图像静态特征点及描述子提取网络用于ORB-SLAM2的特征点和描述子提取过程，实现基于改进SuperPoint的视觉SLAM方法；具体为：

将摄像头捕获的图像作为输入，使用构建的静态特征点和描述子提取网络对图像提取特征点，即在ORB-SLAM2的Tracking线程中，视觉前端部分使用构建的静态特征点及描述子提取网络代替ORB提取特征点和描述子，通过最近邻匹配描述子实现相邻图像帧的特征点跟踪；结合ORB-SLAM2的Local Mapping、Loop Closing线程，实现动态环境下鲁棒视觉SLAM***。

综上，本发明在SuperPoint网络基础上，结合残差权重建立图像静态特征点提取及描述子网络结构，并进行离线训练；再使用改进的网络得到图像特征点并进行跟踪，结合后端优化、回环检测以及地图构建构成完整的SLAM***。本发明实现了在SLAM视觉前端环节使用深度学习提取特征点的同时有效剔除动态特征点，能够减少动态物体对于SLAM定位的影响，提高在光度变化场景下***的鲁棒性。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.一种动态环境下基于改进SuperPoint的视觉SLAM方法，其特征在于，包括以下步骤：

步骤1、构建带标签数据集；

2.按权利要求1所述动态环境下基于改进SuperPoint的视觉SLAM方法，其特征在于，所述共享编码器从的输入图像中得到初步特征图，具体由依次连接的Conv3×3×1×64/s2、Conv3×3×64×64、Conv3×3×64×128/s2、Conv3×3×128×128、Conv3×3×128×256/s2、Conv3×3×256×256构成，且每个卷积层后均设置非线性函数Relu层。

3.按权利要求1所述动态环境下基于改进SuperPoint的视觉SLAM方法，其特征在于，所述残差权重分支中通过残差权重解码器对初步特征图进行解码，解码过程中使用PixelShuffle操作对残差权重图进行上采样、使其还原到输入图像的原始尺寸，最后通过Sigmoid函数将输出映射到[0,1]范围，得到残差权重图；所述残差权重解码器由依次连接的Conv3×3×256×256、Conv3×3×64×64、Conv3×3×16×16、Conv1×1×4×1构成，且卷积层Conv3×3×256×256、Conv3×3×64×64、Conv3×3×16×16后均设置非线性函数Relu层。

4.按权利要求1所述动态环境下基于改进SuperPoint的视觉SLAM方法，其特征在于，所述特征点提取分支中通过特征点解码器对初步特征图进行解码得到输出，再通过Softmax操作丢弃回收通道，最后使用Reshape操作进行维度切换，得到特征点概率图；所述特征点解码器由Conv3×3×256×256、Conv1×1×256×65构成，且Conv3×3×256×256后设置非线性函数Relu层。

5.按权利要求1所述动态环境下基于改进SuperPoint的视觉SLAM方法，其特征在于，所述描述子检测分支中通过描述子解码器对初步特征图进行解码，得到维度为(H/8)×(W/8)×256的描述子特征图，再进行双三次线性插值以及L2归一化得到单位长度的稠密描述子向量；所述描述子解码器由Conv3×3×256×256、Conv1×1×256×256构成，且Conv3×3×256×256后设置非线性函数Relu层。

6.按权利要求1所述动态环境下基于改进SuperPoint的视觉SLAM方法，其特征在于，所述离线训练具体为：

其中，X_p与Y_p为真实图像的特征点预测输出与标签值，X′_p与Y′_p为副本图像的特征点预测输出与标签值，X_w与Y_w则为真实图像的残差权重预测输出与标签值，X′_w与Y′_w为副本图像的残差权重预测输出与标签值，D与D′为真实图像与副本图像输入网络后得到的描述子特征图，S表示D与D′的位置关系，λ₁与λ₂为超参数；

其中，其中，H_c＝H/8，W_c＝W/8，H与W为图像的高和宽；(h,w)表示位置坐标，x_hwk表示特征点概率图(维度为(H/8)×(W/8)×65)中第k通道(h,w)位置的预测值，

L_w为残差权重预测损失函数，采用逐像素L1损失，具体为：

L_d为特征点描述损失函数，采用铰链损失，具体为：

s_hwh′w′用以表征d_hw与d′_h′w′位置是否相近：

p_hw表示描述子单元d_hw在真实图像的坐标位置，

表示将描述子单元位置p_hw进行相应单应性变换后的描述子单元位置；p_h′w′表示描述子单元d_h′w′在副本图像的坐标位置；

l_d为：l_d(d,d′；s)＝λ_d×s×max(0,m_p-d^Td′)+(1-s)×max(0,d^Td′-m_n)，m_p与m_n为正裕度与负裕度，λ_d为超参数。

7.按权利要求1所述动态环境下基于改进SuperPoint的视觉SLAM方法，其特征在于，所述步骤1中，使用特征点自标注方法得到特征点伪标签，具体为：将无标签的真实图像作为MagicPoint网络的输入，先对输入图像进行N次随机单应性变换操作得到图像副本，使用MagicPoint网络在变换后的图像副本上提取特征点，将包含了特征点的图像副本通过相应的逆向单应性变化还原，再与真实图像的特征点合并作为特征点伪标签。

8.按权利要求1所述动态环境下基于改进SuperPoint的视觉SLAM方法，其特征在于，所述步骤3具体为：在ORB-SLAM2的Tracking线程中，采用训练完成的图像静态特征点及描述子提取网络代替ORB方法，对摄像头捕获的图像提取特征点和描述子。