CN115393603A - 一种动态环境下基于改进SuperPoint的视觉SLAM方法 - Google Patents
一种动态环境下基于改进SuperPoint的视觉SLAM方法 Download PDFInfo
- Publication number
- CN115393603A CN115393603A CN202210835231.9A CN202210835231A CN115393603A CN 115393603 A CN115393603 A CN 115393603A CN 202210835231 A CN202210835231 A CN 202210835231A CN 115393603 A CN115393603 A CN 115393603A
- Authority
- CN
- China
- Prior art keywords
- descriptor
- image
- map
- feature
- conv3
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000000007 visual effect Effects 0.000 title claims abstract description 43
- 238000000605 extraction Methods 0.000 claims abstract description 32
- 238000001514 detection method Methods 0.000 claims abstract description 8
- 230000004927 fusion Effects 0.000 claims abstract description 4
- 230000003068 static effect Effects 0.000 claims description 23
- 230000009466 transformation Effects 0.000 claims description 14
- 238000002372 labelling Methods 0.000 claims description 6
- 230000004580 weight loss Effects 0.000 claims description 6
- 230000001629 suppression Effects 0.000 claims description 5
- 238000011084 recovery Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 29
- 230000008859 change Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010367 cloning Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明属于视觉SLAM技术领域,具体提供一种动态环境下基于改进SuperPoint的视觉SLAM方法,用以解决现有动态环境下的视觉SLAM方法鲁棒性不足的问题;本发明首先在SuperPoint网络的基础上,构建了添加残差权重分支的特征点及描述子提取网络,将网络残差权重分支输出与特征点分支输出进行加权融合,使构建的网络具有剔除动态特征点的功能;之后将构建的网络应用于ORB‑SLAM2的跟踪线程,代替ORB方法提取图像特征点和描述子;结合ORB‑SLAM2的局部建图和回环检测线程,实现了动态环境下鲁棒视觉SLAM***,提高了视觉SLAM***在动态环境下位姿估计的准确性和鲁棒性。
Description
技术领域
本发明属于视觉SLAM技术领域,具体提供一种动态环境下基于改进SuperPoint的视觉SLAM方法。
背景技术
同步定位与建图(Simultaneous Localization And Mapping,SLAM)作为机器人和计算机视觉领域的热点话题,广泛应用于增强现实、室内服务机器人以及无人驾驶;视觉SLAM使用相机图像作为输入,根据图像之间的变化,同时实现相机位姿的估计以及周边地图的构建。当前大多数视觉SLAM方法均是基于观测环境为静态的强假设,由于现实环境中的动态对象的存在,导致许多不稳定的数据关联,出现累计漂移甚至丢失。
当前针对动态环境的视觉SLAM***中,基于语义的方法通过目标检测或者语义分割来获得先验动态对象的像素级掩码或边界框,对场景中运动的物体上的特征点当作“坏点”处理,剔除动态对象上的特征点,以减少动态对象对位姿估计的影响,提高了动态环境下的定位精度;同时,目前主流的视觉SLAM***主要依靠人工设计的点特征进行图像间的匹配跟踪,在面对视角变化距离,光照环境变化大的环境下,易导致跟踪失败;近年来,基于深度学习特征点和描述子提取网络在光照和视角变化剧烈的场景下表现优异;因此,本发明提供一种动态环境下基于改进SuperPoint的视觉SLAM方法。
发明内容
本发明的目的在于针对现有动态环境下的视觉SLAM方法鲁棒性不足的问题,提出了一种动态环境下基于改进SuperPoint的视觉SLAM方法;本发明在特征点和描述子提取网络SuperPoint的基础上,加入了残差权重图,利用语义信息剔除动态特征点、引导SuperPoint检测稳定的静态特征点,显著改善视觉SLAM方法在动态场景下的准确性和鲁棒性。
为实现上述目的,本发明采用的技术方案如下:
一种动态环境下基于改进SuperPoint的视觉SLAM方法,其特征在于,包括以下步骤:
步骤1、构建带标签数据集;
将无标签的真实图像作为输入,使用端到端的视觉重定位方法PixLoc生成输入图像的残差权重图作为残差权重标签,使用特征点自标注方法得到特征点伪标签;
步骤2、构建图像静态特征点及描述子提取网络,并在带标签数据集上完成离线训练;
所述图像静态特征点及描述子提取网络包括:共享编码器、残差权重分支、特征点分支及描述子分支,输入图像经过共享编码器进行进行下采样得到初步特征图,残差权重分支、特征点分支与描述子分支分别对初步特征图进行解码,得到残差权重图、特征点概率图与描述子特征图,其中,残差权重图与特征点概率图进一步加权融合得到特征点置信度图,再设定置信度阈值、并通过快速近似非极大值抑制算法得到特征点;对描述子特征图进行双三次线性插值,再通过L2归一化为单位长度,得到稠密描述子向量;
步骤3、将训练完成的图像静态特征点及描述子提取网络用于ORB-SLAM2的特征点和描述子提取过程,实现基于改进SuperPoint的视觉SLAM方法。
进一步的,所述共享编码器从的输入图像中得到初步特征图,具体由依次连接的Conv3×3×1×64/s2、Conv3×3×64×64、Conv3×3×64×128/s2、Conv3×3×128×128、Conv3×3×128×256/s2、Conv3×3×256×256构成,且每个卷积层后均设置非线性函数Relu层。
进一步的,所述残差权重分支中通过残差权重解码器对初步特征图进行解码,解码过程中使用PixelShuffle操作对残差权重图进行上采样、使其还原到输入图像的原始尺寸,最后通过Sigmoid函数将输出映射到[0,1]范围,得到残差权重图;所述残差权重解码器由依次连接的Conv3×3×256×256、Conv3×3×64×64、Conv3×3×16×16、Conv1×1×4×1构成,且卷积层Conv3×3×256×256、Conv3×3×64×64、Conv3×3×16×16后均设置非线性函数Relu层。
进一步的,所述特征点提取分支中通过特征点解码器对初步特征图进行解码得到输出,再通过Softmax操作丢弃回收通道,最后使用Reshape操作进行维度切换,得到特征点概率图;所述特征点解码器由Conv 3×3×256×256、Conv1×1×256×65构成,且Conv 3×3×256×256后设置非线性函数Relu层。
进一步的,所述描述子检测分支中通过描述子解码器对初步特征图进行解码,得到维度为(H/8)×(W/8)×256的描述子特征图,再进行双三次线性插值以及L2归一化得到单位长度的稠密描述子向量(维度为H×W×256);所述描述子解码器由Conv 3×3×256×256、Conv1×1×256×256构成,且Conv 3×3×256×256后设置非线性函数Relu层。
进一步的,所述离线训练具体为:
将带标签数据集中真实图像进行随机单应性变换得到副本图像,将真实图像与副本图像组成图像对、输入图像静态特征点及描述子提取网络;设置损失函数,对图像静态特征点及描述子提取网络进行离线训练;
所述损失函数L在SuperPoint损失函数中增加了残差权重损失,即损失函数由特征点损失Lp、描述子损失Ld与残差权重损失Lw三部分构成,具体为:
L(Xp,X′p,Xw,X′w,D,D′;Yp,Y′p,Yw,Y′w,S)=Lp(Xp,Yp)+Lp(X′p,Y′p)+λ1Lw(Xw,Yw)+λ1Lw(X′w,Y′w)+λ2Ld(D,D′,S)
其中,Xp与Yp为真实图像的特征点预测输出与标签值,X′p与Y′p为副本图像的特征点预测输出与标签值,Xw与Yw则为真实图像的残差权重预测输出与标签值,X′w与Y′w为副本图像的残差权重预测输出与标签值,D与D′为真实图像与副本图像输入网络后得到的描述子特征图,S表示D与D′的位置关系;λ1与λ2为超参数、用以平衡损失函数,具体为1.2和0.001;
Lp为特征点预测的损失函数,采用全卷积交叉熵损失,具体为:
其中,其中,Hc=H/8,Wc=W/8,H与W为图像的高和宽;(h,w)表示特征点概率图位置坐标,xhwk表示特征点概率图(维度为(H/8)×(W/8)×65)中第k通道(h,w)位置的预测值,表示特征点概率图在特征点标签值yhw对应通道(h,w)位置的预测值;
Lw为残差权重预测损失函数,采用逐像素L1损失,具体为:
其中,xhw为残差权重图中(h,w)位置的预测值,yhw为残差权重标签图中(h,w)位置的标签值;
Ld为特征点描述损失函数,采用铰链损失,具体为:
其中,dhw表示描述子特征图D中(h,w)位置的描述子单元,d′h′w′表示描述子特征图D′中(h′,w′)位置的描述子单元;
shwh′w′用以表征dhw与d′h′w′位置是否相近:
phw表示描述子单元dhw在真实图像上的坐标位置,表示将描述子单元位置phw进行相应单应性变换(与真实图像与副本图像间变换一致)后的描述子单元位置;ph′w′表示描述子单元dh′w′在副本图像的坐标位置;
ld为:ld(d,d′;s)=λd×s×max(0,mp-dTd′)+(1-s)×max(0,dTd′-mn),mp与mn为正裕度与负裕度,λd为超参数、用以平衡描述子损失中的正例损失和负例损失。
进一步的,所述步骤1中,使用特征点自标注方法得到特征点伪标签,具体为:将无标签的真实图像作为MagicPoint网络的输入,先对输入图像进行N次随机单应性变换操作得到图像副本,使用MagicPoint网络在变换后的图像副本上提取特征点,将包含了特征点的图像副本通过相应的逆向单应性变化还原,再与真实图像的特征点合并作为特征点伪标签。
进一步的,所述步骤3具体为:在ORB-SLAM2的Tracking线程中,采用训练完成的图像静态特征点及描述子提取网络代替ORB方法,对摄像头捕获的图像提取特征点和描述子。
与现有技术相比,本发明的有益效果在于:
本发明提供一种动态环境下基于改进SuperPoint的视觉SLAM方法,首先在SuperPoint网络中加入残差权重分支,制作特征点标签和残差权重图标签对构建的网络进行离线训练;将残差权重分支的输出与特征点分支输出加权融合,使网络具有剔除动态特征点的功能;之后将改进的网络应用于ORB-SLAM2的特征点及描述子提取过程,结合ORB-SLAM2的局部建图以及回环检测线程,实现了动态环境下鲁棒视觉SLAM***,提高视觉SLAM***在动态环境下位姿估计的鲁棒性。
附图说明
图1为本发明中动态环境下基于改进SuperPoint的视觉SLAM方法的流程示意图。
图2为本发明中结合残差权重的图像静态特征点及描述子提取网络的结构示意图。
具体实施方式
为使本发明的目的、技术方案与有益效果更加清楚明白,下面结合附图和实施例对本发明进行进一步详细说明。
本实施例提供一种动态环境下基于改进SuperPoint的视觉SLAM方法,其流程如图1所示,具体包括以下步骤:
步骤1、构建带标签数据集;
将无标签的真实图像作为输入,使用端到端的视觉重定位方法PixLoc生成输入图像的残差权重图作为残差权重标签,使用特征点自标注方法得到特征点伪标签;
具体而言,无标签的真实图像作为PixLoc算法的输入,生成残差权重标签图,残差权重ωh,w∈[0,1];PixLoc是一种端到端的视觉重定位方法,利用不确定性图产生的残差权重反映了不同特征对于定位的重要性,它更关注路标、轮廓或突出结构,对于汽车、落叶等动态对象,残差权重越接近于0;
无标签的真实图像作为输入,使用特征点自标注方法得到特征点伪标签,具体为:在由立方体、多边形、星形、棋盘和直线合成的虚拟数据集上训练忽略描述子分支的SuperPoint网络,使其具有角点提取能力,称这个网络为MagicPoint;无标签的真实图像作为MagicPoint网络的输入,为了检测到更多潜在特征点,先对输入图像进行N次随机单应性变换操作得到图像副本,使用MagicPoint网络在变换后的图像副本上提取特征点,将包含了特征点的图像副本通过相应的逆向单应性变化还原,再与原图(输入图像)的特征点合并作为后续工作的伪标签;
步骤2、构建图像静态特征点及描述子提取网络,并在带标签数据集上进行离线训练;具体为:
所述图像静态特征点及描述子提取网络如图2所示,能够实现特征点以及描述子提取同步进行,同时结合产生的残差权重预测对特征点概率图进行加权,实现剔除动态特征点的效果;具体包括:共享编码器、残差权重分支、特征点分支及描述子分支,输入图像经过共享编码器进行进行下采样得到初步特征图,残差权重分支、特征点分支与描述子分支分别对初步特征图进行解码,得到残差权重图、特征点概率图与描述子特征图,其中,残差权重图与特征点概率图进一步加权融合得到特征点置信度图,再设定置信度阈值、并通过快速近似非极大值抑制算法得到特征点;对得到的描述子特征图进行双三次线性插值,再通过L2归一化为单位长度,最终得到稠密描述子向量;
所述共享编码器由3×3卷积层和非线性Relu函数层组成,经过3个步长为2的3×3卷积层进行下采样,从H×W的输入图像得到(H/8)×(W/8)尺寸的初步特征图;具体由依次连接的Conv3×3×1×64/s2、Conv3×3×64×64、Conv3×3×64×128/s2、Conv3×3×128×128、Conv3×3×128×256/s2、Conv3×3×256×256构成,且每个卷积层后均设置非线性函数Relu层;
所述残差权重分支中通过残差权重解码器对初步特征图进行解码,解码过程中使用PixelShuffle操作对残差权重图进行采样尺度为2的3次上采样、使其还输入图像的原始尺寸H×W,最后通过Sigmoid函数将输出映射到[0,1]范围,得到残差权重图;残差权重图能够通过视觉先验引导兴趣点提取,使网络学会忽略汽车、落叶这样的动态对象;所述残差权重解码器由依次连接的Conv3×3×256×256、Conv3×3×64×64、Conv3×3×16×16、Conv1×1×4×1构成,且卷积层Conv3×3×256×256、Conv3×3×64×64、Conv3×3×16×16后均设置非线性函数Relu层;
所述特征点提取分支中通过特征点解码器对初步特征图进行解码,得到维度为(H/8)×(W/8)×65的输出,其中,通道数65对应输入图像中不重叠的局部8×8像素块区域、以及1个表示无特征点的回收通道;再通过Softmax操作丢弃回收通道,最后使用Reshape操作将输出从(H/8)×(W/8)×64维度转换回H×W×1维度,得到特征点概率图;所述特征点解码器由Conv 3×3×256×256、Conv1×1×256×65构成,且Conv 3×3×256×256后设置非线性函数Relu层;
所述描述子检测分支中通过描述子解码器对初步特征图进行解码,得到维度为(H/8)×(W/8)×256的描述子特征图,再进行双三次线性插值以及L2归一化得到单位长度的稠密描述子向量(维度为H×W×256);所述描述子解码器Conv3×3×256×256、Conv1×1×256×256构成,且Conv 3×3×256×256后设置非线性函数Relu层;
所述快速非极大值抑制算法具体为:先创建一个尺寸为H×W的网格,将经过置信度阈值筛选得到的特征点坐标作为输入;把网格中对应坐标的值设置为1,其余坐标的值设置为0;然后对网格中值为1的位置进行遍历,遍历过的网格对应值设置为-1,遍历位置领域坐标的值设置为0;遍历结束后得到网格中所有值为1的坐标,以实现特征点的快速非极大值抑制;
更为准确的讲:上述网络中所有卷积层如下表所示,其中,“a×a×b×c/s2”中“a×a”表示卷积核大小、“×b”表示输入通道数、“×c”表示输出通道数、“/s”表示步长;以“3×3×1×64/s2”为例进行说明,具体表示卷积核大小为3×3、输入通道数为1、输出通道数为64、步长为2的卷积层;并且,每个3×3卷积层后均设置非线性函数Relu层,未标注步长的其他卷积层默认步长设置为1;
共享编码器 | 特征点解码器 | 描述子解码器 | 残差权重解码器 |
3×3×1×64/s2 | 3×3×256×256 | 3×3×256×256 | 3×3×256×256 |
3×3×64×64 | 1×1×256×65 | 1×1×256×256 | 3×3×64×64 |
3×3×64×128/s2 | 3×3×16×16 | ||
3×3×128×128 | 1×1×4×1 | ||
3×3×128×256/s2 | |||
3×3×256×256 |
所述离线训练具体为:
将带标签数据集中真实图像进行随机单应性变换得到副本图像,将真实图像与副本图像组成图像对、输入图像静态特征点及描述子提取网络;设置损失函数,对图像静态特征点及描述子提取网络进行离线训练;
所述损失函数L在SuperPoint损失函数中增加了残差权重损失,即损失函数由特征点损失Lp、描述子损失Ld与残差权重损失Lw三部分构成,具体为:
L(Xp,X′p,Xw,X′w,D,D′;Yp,Yp′,Yw,Yw′,S)=
Lp(Xp,Yp)+Lp(X′p,Yp′)+λ1Lw(Xw,Yw)+λ1Lw(X′w,Yw′)+λ2Ld(D,D′,S)
其中,Xp与Yp为真实图像的特征点预测输出与标签值,Xp′与Yp′为副本图像的特征点预测输出与标签值,Xw与Yw则为真实图像的残差权重预测输出与标签值,X′w与Yw′为副本图像的残差权重预测输出与标签值,D与D′为真实图像与副本图像输入网络后得到的描述子特征图,S表示D与D′的位置关系;λ1与λ2为超参数、用来平衡损失函数,具体为1.2和0.001;
Lp为特征点预测的损失函数,采用全卷积交叉熵损失,具体为:
其中,Hc=H/8,Wc=W/8,H与W为图像的高和宽;(h,w)表示特征点概率图位置坐标,xhwk表示特征点概率图(维度为(H/8)×(W/8)×65)中第k通道(h,w)位置的预测值,表示特征点概率图在特征点标签值yhw对应通道(h,w)位置的预测值;
Lw为残差权重预测损失函数,采用逐像素L1损失,具体为:
其中,xhw为残差权重图中(h,w)位置的预测值,yhw为每个残差权重标签图中(h,w)位置的标签值;
Ld为特征点描述损失函数,采用铰链损失,具体为:
其中,dhw表示描述子特征图D中(h,w)位置的描述子单元,d′h′w′表示描述子特征图D′中(h′,w′)位置的描述子单元;
shwh′w′用以表征dhw与d′h′w′位置是否相近:
phw表示描述子单元dhw在真实图像上的坐标位置,表示将描述子单元位置phw进行相应单应性变换(与真实图像与副本图像间变换一致)后的描述子单元位置;ph′w′表示描述子单元dh′w′在副本图像的坐标位置;
ld为:ld(d,d′;s)=λd×s×max(0,mp-dTd′)+(1-s)×max(0,dTd′-mn),mp与mn为正裕度与负裕度,λd为超参数,用来平衡描述子损失中的正例损失和负例损失;
步骤3、将训练完成的图像静态特征点及描述子提取网络用于ORB-SLAM2的特征点和描述子提取过程,实现基于改进SuperPoint的视觉SLAM方法;具体为:
将摄像头捕获的图像作为输入,使用构建的静态特征点和描述子提取网络对图像提取特征点,即在ORB-SLAM2的Tracking线程中,视觉前端部分使用构建的静态特征点及描述子提取网络代替ORB提取特征点和描述子,通过最近邻匹配描述子实现相邻图像帧的特征点跟踪;结合ORB-SLAM2的Local Mapping、Loop Closing线程,实现动态环境下鲁棒视觉SLAM***。
综上,本发明在SuperPoint网络基础上,结合残差权重建立图像静态特征点提取及描述子网络结构,并进行离线训练;再使用改进的网络得到图像特征点并进行跟踪,结合后端优化、回环检测以及地图构建构成完整的SLAM***。本发明实现了在SLAM视觉前端环节使用深度学习提取特征点的同时有效剔除动态特征点,能够减少动态物体对于SLAM定位的影响,提高在光度变化场景下***的鲁棒性。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。
Claims (8)
1.一种动态环境下基于改进SuperPoint的视觉SLAM方法,其特征在于,包括以下步骤:
步骤1、构建带标签数据集;
将无标签的真实图像作为输入,使用端到端的视觉重定位方法PixLoc生成输入图像的残差权重图作为残差权重标签,使用特征点自标注方法得到特征点伪标签;
步骤2、构建图像静态特征点及描述子提取网络,并在带标签数据集上完成离线训练;
所述图像静态特征点及描述子提取网络包括:共享编码器、残差权重分支、特征点分支及描述子分支,输入图像经过共享编码器进行进行下采样得到初步特征图,残差权重分支、特征点分支与描述子分支分别对初步特征图进行解码,得到残差权重图、特征点概率图与描述子特征图,其中,残差权重图与特征点概率图进一步加权融合得到特征点置信度图,再设定置信度阈值、并通过快速近似非极大值抑制算法得到特征点;对描述子特征图进行双三次线性插值,再通过L2归一化为单位长度,得到稠密描述子向量;
步骤3、将训练完成的图像静态特征点及描述子提取网络用于ORB-SLAM2的特征点和描述子提取过程,实现基于改进SuperPoint的视觉SLAM方法。
2.按权利要求1所述动态环境下基于改进SuperPoint的视觉SLAM方法,其特征在于,所述共享编码器从的输入图像中得到初步特征图,具体由依次连接的Conv3×3×1×64/s2、Conv3×3×64×64、Conv3×3×64×128/s2、Conv3×3×128×128、Conv3×3×128×256/s2、Conv3×3×256×256构成,且每个卷积层后均设置非线性函数Relu层。
3.按权利要求1所述动态环境下基于改进SuperPoint的视觉SLAM方法,其特征在于,所述残差权重分支中通过残差权重解码器对初步特征图进行解码,解码过程中使用PixelShuffle操作对残差权重图进行上采样、使其还原到输入图像的原始尺寸,最后通过Sigmoid函数将输出映射到[0,1]范围,得到残差权重图;所述残差权重解码器由依次连接的Conv3×3×256×256、Conv3×3×64×64、Conv3×3×16×16、Conv1×1×4×1构成,且卷积层Conv3×3×256×256、Conv3×3×64×64、Conv3×3×16×16后均设置非线性函数Relu层。
4.按权利要求1所述动态环境下基于改进SuperPoint的视觉SLAM方法,其特征在于,所述特征点提取分支中通过特征点解码器对初步特征图进行解码得到输出,再通过Softmax操作丢弃回收通道,最后使用Reshape操作进行维度切换,得到特征点概率图;所述特征点解码器由Conv3×3×256×256、Conv1×1×256×65构成,且Conv3×3×256×256后设置非线性函数Relu层。
5.按权利要求1所述动态环境下基于改进SuperPoint的视觉SLAM方法,其特征在于,所述描述子检测分支中通过描述子解码器对初步特征图进行解码,得到维度为(H/8)×(W/8)×256的描述子特征图,再进行双三次线性插值以及L2归一化得到单位长度的稠密描述子向量;所述描述子解码器由Conv3×3×256×256、Conv1×1×256×256构成,且Conv3×3×256×256后设置非线性函数Relu层。
6.按权利要求1所述动态环境下基于改进SuperPoint的视觉SLAM方法,其特征在于,所述离线训练具体为:
将带标签数据集中真实图像进行随机单应性变换得到副本图像,将真实图像与副本图像组成图像对、输入图像静态特征点及描述子提取网络;设置损失函数,对图像静态特征点及描述子提取网络进行离线训练;
所述损失函数L在SuperPoint损失函数中增加了残差权重损失,即损失函数由特征点损失Lp、描述子损失Ld与残差权重损失Lw三部分构成,具体为:
L(Xp,X′p,Xw,X′w,D,D′;Yp,Y′p,Yw,Y′w,S)=Lp(Xp,Yp)+Lp(X′p,Y′p)+λ1Lw(Xw,Yw)+λ1Lw(X′w,Y′w)+λ2Ld(D,D′,S)
其中,Xp与Yp为真实图像的特征点预测输出与标签值,X′p与Y′p为副本图像的特征点预测输出与标签值,Xw与Yw则为真实图像的残差权重预测输出与标签值,X′w与Y′w为副本图像的残差权重预测输出与标签值,D与D′为真实图像与副本图像输入网络后得到的描述子特征图,S表示D与D′的位置关系,λ1与λ2为超参数;
Lp为特征点预测的损失函数,采用全卷积交叉熵损失,具体为:
其中,其中,Hc=H/8,Wc=W/8,H与W为图像的高和宽;(h,w)表示位置坐标,xhwk表示特征点概率图(维度为(H/8)×(W/8)×65)中第k通道(h,w)位置的预测值,表示特征点概率图在特征点标签值yhw对应通道(h,w)位置的预测值;
Lw为残差权重预测损失函数,采用逐像素L1损失,具体为:
其中,xhw为残差权重图中(h,w)位置的预测值,yhw为残差权重标签图中(h,w)位置的标签值;
Ld为特征点描述损失函数,采用铰链损失,具体为:
其中,dhw表示描述子特征图D中(h,w)位置的描述子单元,d′h′w′表示描述子特征图D′中(h′,w′)位置的描述子单元;
shwh′w′用以表征dhw与d′h′w′位置是否相近:
ld为:ld(d,d′;s)=λd×s×max(0,mp-dTd′)+(1-s)×max(0,dTd′-mn),mp与mn为正裕度与负裕度,λd为超参数。
7.按权利要求1所述动态环境下基于改进SuperPoint的视觉SLAM方法,其特征在于,所述步骤1中,使用特征点自标注方法得到特征点伪标签,具体为:将无标签的真实图像作为MagicPoint网络的输入,先对输入图像进行N次随机单应性变换操作得到图像副本,使用MagicPoint网络在变换后的图像副本上提取特征点,将包含了特征点的图像副本通过相应的逆向单应性变化还原,再与真实图像的特征点合并作为特征点伪标签。
8.按权利要求1所述动态环境下基于改进SuperPoint的视觉SLAM方法,其特征在于,所述步骤3具体为:在ORB-SLAM2的Tracking线程中,采用训练完成的图像静态特征点及描述子提取网络代替ORB方法,对摄像头捕获的图像提取特征点和描述子。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210835231.9A CN115393603A (zh) | 2022-07-15 | 2022-07-15 | 一种动态环境下基于改进SuperPoint的视觉SLAM方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210835231.9A CN115393603A (zh) | 2022-07-15 | 2022-07-15 | 一种动态环境下基于改进SuperPoint的视觉SLAM方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115393603A true CN115393603A (zh) | 2022-11-25 |
Family
ID=84117183
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210835231.9A Pending CN115393603A (zh) | 2022-07-15 | 2022-07-15 | 一种动态环境下基于改进SuperPoint的视觉SLAM方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115393603A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116740488A (zh) * | 2023-05-16 | 2023-09-12 | 北京交通大学 | 一种用于视觉定位的特征提取模型的训练方法及装置 |
CN117671022A (zh) * | 2023-11-02 | 2024-03-08 | 武汉大学 | 一种室内弱纹理环境的移动机器人视觉定位***及方法 |
-
2022
- 2022-07-15 CN CN202210835231.9A patent/CN115393603A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116740488A (zh) * | 2023-05-16 | 2023-09-12 | 北京交通大学 | 一种用于视觉定位的特征提取模型的训练方法及装置 |
CN116740488B (zh) * | 2023-05-16 | 2024-01-05 | 北京交通大学 | 一种用于视觉定位的特征提取模型的训练方法及装置 |
CN117671022A (zh) * | 2023-11-02 | 2024-03-08 | 武汉大学 | 一种室内弱纹理环境的移动机器人视觉定位***及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112435325B (zh) | 基于vi-slam和深度估计网络的无人机场景稠密重建方法 | |
CN111968129B (zh) | 具有语义感知的即时定位与地图构建***及方法 | |
CN111862126B (zh) | 深度学习与几何算法结合的非合作目标相对位姿估计方法 | |
CN107154023B (zh) | 基于生成对抗网络和亚像素卷积的人脸超分辨率重建方法 | |
WO2022111219A1 (zh) | 一种域自适应设备运检***和方法 | |
Chen et al. | Convolutional neural network-based place recognition | |
CN115393603A (zh) | 一种动态环境下基于改进SuperPoint的视觉SLAM方法 | |
CN110298884B (zh) | 一种适于动态环境中单目视觉相机的位姿估计方法 | |
CN110705344B (zh) | 一种基于深度学习的人群计数模型及其实现方法 | |
Nakajima et al. | Fast and accurate semantic mapping through geometric-based incremental segmentation | |
CN113657388B (zh) | 一种融合图像超分辨率重建的图像语义分割方法 | |
CN112115783A (zh) | 基于深度知识迁移的人脸特征点检测方法、装置及设备 | |
JP7439153B2 (ja) | 全方位場所認識のためのリフトされたセマンティックグラフ埋め込み | |
CN113610087B (zh) | 一种基于先验超分辨率的图像小目标检测方法及存储介质 | |
CN116758130A (zh) | 一种基于多路径特征提取和多尺度特征融合的单目深度预测方法 | |
CN109712071A (zh) | 基于航迹约束的无人机图像拼接与定位方法 | |
CN111160291A (zh) | 基于深度信息与cnn的人眼检测方法 | |
CN109657538B (zh) | 基于上下文信息指导的场景分割方法和*** | |
CN115761734A (zh) | 基于模板匹配和概率分布的物***姿估计方法 | |
CN104966274A (zh) | 一种采用图像检测与区域提取的局部模糊复原方法 | |
CN114677479A (zh) | 一种基于深度学习的自然景观多视图三维重建方法 | |
CN116503709A (zh) | 一种基于改进YOLOv5的雾霾天气下车辆检测方法 | |
CN111767854A (zh) | 一种结合场景文本语义信息的slam回环检测方法 | |
Gopal et al. | Tiny object detection: Comparative study using single stage CNN object detectors | |
CN117710806A (zh) | 一种基于语义分割和光流的语义视觉slam方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |