CN114187447A

CN114187447A - 一种基于实例分割的语义slam方法

Info

Publication number: CN114187447A
Application number: CN202111497853.7A
Authority: CN
Inventors: 牛毅; 吴腾飞; 马明明; 李甫; 石光明
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-12-09
Filing date: 2021-12-09
Publication date: 2022-03-15

Abstract

本申请涉及ORB‑SLAM2***和深度学习实例分割领域，具体提供了一种基于实例分割的语义SLAM方法。该方法的步骤为：S1，获取图像序列；S2，提取特征点信息和语义信息；S3，融合特征点信息和语义信息；S4，动态物体检测与去除；S5，物体级的帧间匹配；S6，物体级的回环检测。该方法能够在场景中准确的识别各种目标，使用目标的类别，包围框，掩膜信息帮助去除动态物体，并使用留下的静态物体更好的帮助***进行帧间匹配以及回环检测。使用物体级匹配来约束帧间匹配，有效的解决了一些场景下特征点匹配错误导致丢失的情况。本发明方法使用神经网络对场景进行实例分割，在单双目情况下均能有效的识别动态物体，提高了SLAM***在动态场景下的鲁棒性。

Description

一种基于实例分割的语义SLAM方法

技术领域

本申请涉及ORB-SLAM2***和深度学习实例分割领域，具体而言，涉及一种基于实例分割的语义SLAM方法。

背景技术

随着当代社会科技水平的不断进步，人们对生活便捷度的需求也在不断提升。随着人工智能的兴起，小到家用的服务型机器人，大到RoboTaxi，如何帮助机器人更好更准确的建立周围环境变得日益重要，对于同时定位和建图任务，视觉SLAM是最好的选择之一。例如，ORB-SLAM2，RGB-D SLAM-V2等，其具有传感器采集速度快、成本低、时延短、准确率高等优点已经被广泛应用。以ORB-SLAM2为例，该***在高动态场景下容易丢失，并且由于其底层视觉信息采用的是ORB特征描述子，只能对最基础的特征点进行比对，而对于物体级信息没有加以利用。

随着深度学习技术的快速发展，使得很多视觉性的问题有了更好更快的解决方法，基于神经网络的可以轻易的识别一副图像中感兴趣的物体，具体是什么类别，精确的边界。这些结果可以将神经网络与视觉SLAM技术相结合，结合语义信息，更好的帮助SLAM***感知世界。

近年来，有许多研究者提出了多种不同的语义SLAM方法。Raul Mur-Artal提出的ORB-SLAM2***是基于特征点的单目，双目，RGB-D一套完整的SLAM方案，其采用词袋(DBoW2)模型对特征点进行聚类，在帧间匹配和回环检测时进行特征点的匹配。由于ORB特征点是32维的01向量，基于向量距离的匹配并不符合人类的直观感受，比如，在车上的特征点和地面上的特征点的向量距离非常相近，以人类的角度来看并不会将这些特征点进行匹配。同样对于回环检测来说，基于DBoW2模型的回环检测在回环时只考虑了比对的两帧在词向量上是否吻合，而对于两帧的空间结构没有做任何要求。

东京大学的Masaya Kaneko提出的MASK-SLAM是一种结合了MASK-RCNN的单目SLAM***，其能有效的分割出天空，车辆等语义级别的信息，并对属于动态物体的特征点做去除，把动态场景下的SLAM***转化成静态场景下的SLAM***。但是该方法仅适用于单目SLAM***，并且对语义动态的特征点全部做了去除，没有考虑多类物体的不同状态，导致了相关信息的丢失，导致了相机位姿的丢失，在一些场景下并不适用。

Berta Bescos提出的DynaSLAM将MASK-RCNN与ORB-SLAM2进行了结合，提高了SLAM***对动态场景的适应性，该方法也是单目时为物体赋予了先验动态信息，在跟踪时将这些特征点排除；双目时采用了多视几何的方式，计算当前帧与参考帧对应点的夹角大小，若大于30°则认为其为动态点进行排除。在建图时也去除了这些点的影响，并利用背景修复的方法，得到静态地图。但是该方法并没有从物体级考虑物体对参考点的约束，存在很多误匹配，因此也会导致对物体运动状态的错误判断。

综上所述，现有技术中存在动态场景下未考虑帧间约束和物体级信息导致特征点匹配错误，鲁棒性差的问题。

发明内容

本发明的目的在于，针对上述现有技术中的不足，提供一种基于实例分割的语义SLAM方法，以解决现有技术中存在的在动态场景下未考虑帧间约束和物体级信息导致特征点匹配错误，鲁棒性差的问题。

为实现上述目的，本发明采用的技术方案如下：

本申请提供一种基于实例分割的语义SLAM方法，所述方法包括以下步骤：S1，获取图像序列；S2，提取特征点信息和语义信息；S3，融合特征点信息和语义信息；S4，动态物体检测与去除；S5，物体级的帧间匹配；S6，物体级的回环检测。

更进一步地，步骤S2中特征点信息和语义信息的提取是同时进行的。

更进一步地，语义信息的提取通过网络实例分割模块完成。

更进一步地，网络实例分割为物体级的分割。

更进一步地，网络实例分割结合了MASK-RCNN网络。

更进一步地，步骤S2中对MASK-RCNN网络进行训练。

更进一步地，步骤S3对图像中每个物体内部的特征点进行细粒度特征点分类。

更进一步地，细粒度特征点分类通过KD-TREE数据结构完成。

更进一步地，步骤S5使用物体级匹配约束帧间匹配。

更进一步地，步骤S5采用KM算法寻找最优匹配。

与现有技术相比，本发明的有益效果：

第一，本发明使用神经网络对场景进行实例分割，在单双目情况下均能有效的识别动态物体，提高了SLAM***在动态场景下的鲁棒性；

第二，本发明针对于DBoW2模型仅关注向量层次信息的缺点，无法在更高层次对特征点匹配进行区分，提出了使用物体级匹配来约束帧间匹配，有效的解决了一些场景下特征点匹配错误导致丢失的情况；

第三，本发明提出了对图像进行网格划分，与语义信息相关联，建立Object_KeyFrame_DataBase的三维数据结构，能够有效使用物体的位置信息而不止是类别信息，在回环检测时可以高效的进行关联关键帧的检索，使得回环检测效率更高。

第四，本发明使用了libtorch库，可以分离网络的训练与部署，同时将网络模型与SLAM***解耦，方便对网络模型进行修改，修改的同时不影响SLAM***直接使用，本发明方法的适用性较强。

附图说明

图1为本发明提供的一种基于实例分割的语义SLAM方法的示意图；

图2为本发明提供的一种基于实例分割的语义SLAM方法的步骤S32中对图像网格划分的示意图；

图3为本发明提供的一种基于实例分割的语义SLAM方法中在双目***下对三维地图点变换方式的示意图；

图4为现有技术中的基于词袋模型的关键帧关联方式示意图；

图5为本发明提供的一种基于实例分割的语义SLAM方法的本发明中三维关键帧数据库KeyFrame DataBase的空间结构；

图6为本发明提供的一种基于实例分割的语义SLAM方法的流程图。

具体实施方式

为了使本发明的实施过程更加清楚，下面将会结合附图进行详细说明。

实施例1：

本发明提供了一种基于实例分割的语义SLAM方法，如图1所示，该方法包括以下步骤：

S1，获取图像序列；

相机捕捉图像，组成图像序列，图像序列可以为多幅静态场景下的图像，也可以为多幅动态场景下的图像，动态场景下的图像可以为多幅差异较大的图像，也可以为多幅差异较小的图像；本发明实施例使用RGB相机获取动态场景下的图像序列。将使用ROS***发布的相机捕捉到的图像及时间戳信息传入SLAM***中。由于ORB特征点提取需要在灰度图上进行，在SLAM***中，首先图像转化为灰度图像，再同时进入ORB特征点提取线程和网络实例分割线程。ORB特征点提取线程和网络实例分割线程的输入图像的区别仅在于ORB特征点提取线程的输入图像需要转化为灰度图，而网络实例分割线程的输入图像可以转化为灰度图，也可以不转化为灰度图。

S2，提取特征点信息和语义信息；

特征点信息的提取通过ORB特征点提取模块完成，语义信息的提取通过网络实例分割模块完成，其中网络实例分割为物体级的分割，即能够区分不同相同种类的不同物体，相比于仅能区分种类的语义分割，物体级的分割更贴近实际情况，更具有应用价值。特征点信息和语义信息的提取同时进行，即如下步骤S21和步骤S22同时进行。

S21，利用ORB特征点提取模块提取图像的特征点信息；

ORB特征点由关键点和特征描述子组成。它的关键点也叫“Oriented FAST”，是FAST角点的改进形式。特征描述子也叫BRIFE。其中FAST角点以速度快著称，只需要判断一个像素点是否与其周围像素点像素值差异较大，因此可以快速的提取出很多特征点，为了避免特征点过于集中的问题，还应在之后进行非极大值抑制。因为FAST角点不具有尺度不变性和旋转不变性，本发明采用的ORB特征点提取模块引入了特征金字塔和灰度质心法来解决上述问题，具有尺度不变性和旋转不变性，这样能够有效地应对在运动场景中带来的图像中特征点的位置、尺度、方向的变化，更贴近实际情景。对于特征描述子，BRIFE描述子是一种二进制描述子，其描述向量由01组成，其编码了关键点附近的两个随机像素，若前者大，则取1，反之取0。由于使用了二进制表达，其计算速度和存储都非常快速。

由于考虑了旋转和缩放，以及其快速的提取能力，ORB特征点更能满足实际需求，广泛的应用于SLAM***。

S22，利用网络实例分割模块提取图像的物体级语义信息。

图像的网络实例分割通过MASK-RCNN网络实现。通过MASK-RCNN网络得到类别信息，包围框信息和MASK掩膜信息，通过这些信息对特征点进行筛选分类，实现物体级语义信息的提取。构建MASK-RCNN网络的步骤如下：

S221，搭建MASK-RCNN网络；

具体搭建步骤如下：

步骤一：搭建主干网络为ResNet101的FPN网络作为特征提取部分，主要由四个尺度组成，两两之间长宽都是二倍的比值，其目的主要在于提取不同尺度的特征图，以供RPN网络和之后的任务使用。

步骤二：搭建RPN网络，接收FPN网络输出的多尺度的特征图，通过将每个像素位置都分配不同大小锚框并进行前背景区分，以判断是否存在目标。随后通过ROI Align对提出的目标框进行回归，以获取更加精确的目标框位置。

步骤三：将RPN网络提取出的目标框内的特征图输入目标检测分支以及掩膜预测分支，完成分类、定位、掩膜获取的任务。

S222，对搭建好的MASK-RCNN网络进行训练；

针对不同的任务，采用不同的数据集对MASK-RCNN网络进行训练，这样可以提高MASK-RCNN网络在不同任务中完成分类任务的准确率，以提取更准确的物体级语义信息。使用PyTorch与本地数据集对MASK-RCNN网络进行训练。本地数据集包括KITTI数据集和TUM数据集；室外场景下对MASK-RCNN网络训练时的本地数据集采用KITTI数据集，KITTI数据集是卡尔斯鲁厄理工学院与丰田工业大学芝加哥分校联合建立的适用于多种计算机视觉任务的一组数据集，其中包括车辆，路牌等多种目标信息；室内场景下对MASK-RCNN网络训练时的本地数据集采用TUM数据集，TUM数据集是德国慕尼黑工业大学利用深度相机采集的一组连续的室内图像集，其中包括电脑，桌子，椅子等多种目标信息。

通过损失函数判断对MASK-RCNN网络的训练是否完成。MASK-RCNN的网络分为三个分支，有三个输出，所以对应的损失函数由三部分组成，分别为：

L＝L_cls+L_box+L_mask

其中L_cls为分类的损失函数，具体形式为：

L_cls(pi，pi*)＝-log(pipi*+(1-pi)(1-pi*))

pi表示是当前类别的概率，pi*表示不是当前类别的概率；

其中L_box为包围框的损失函数，其具体形式为：

L_box＝smooth_L1(ti-ti*)

ti为预测的包围框位置，ti*为真实值；

其中L_mask掩膜的损失函数，其具体形式为：

L_mask＝-(tlog(o)+(1-t)log(1-o))

t为真实值，o为预测值。

正样本为交并比(IOU)大于0.6的包围框，负样本为IOU小于0.6的包围框。在训练时，将正负样本比例设定为1：3，当损失函数趋近收敛时，训练完成。

S223，在SLAM***中调用步骤S222中训练好的MASK-RCNN网络。使用libtorch将训练好的MASK-RCNN网络保存为script文件，在SLAM***中进行加载。

S3，融合特征点信息和语义信息；具体步骤如下：

S31，遍历所有提取到的特征点，通过其二维坐标信息p(x,y)，在对应MASK掩膜上得到其对应位置的目标信息，并将其索引Index加入对应物体的数据结构中，每个物体对应一个数据结构。

S32，对每个物体内部的特征点使用KD-TREE数据结构进行细粒度特征点分类，即特征点的描述向量层次分类为细粒度特征点分类，物体内部的特征点描述的向量信息为细粒度，这样可以在特征点匹配时去除很多不必要的判断，从而加速匹配过程。同时对当前图像进行网格划分，如图2所示，将其划分为28*32的网格图像。根据MASK掩膜对应的语义信息为每一个网格赋予语义类别，建立物体级的关键帧数据库，供回环检测使用，具体关联方式于S61中介绍。

S4，动态物体检测与去除；

本发明是单目双目结合在一起的***。其中，单目一次输入一张图像，初始化的信息就会少；双目一次输入两张图像，初始化的信息多。本发明在单双目情况下均能有效的识别动态物体，提高了SLAM***在动态场景下的鲁棒性。

S41，单目***；

由于单目***的尺度不确定性，无法通过单帧信息得知特征点的距离信息，因此采用根据先验语义类别筛选，去除先验动态的物体。通过语义类别将一类别的所有物体去除。例如，在室内时，若该物体的类别为人，则去除人这个类别；在室外时，若该物体的类别为车，则去除车这个类别。这会导致在部分场景下，例如停车场时，SLAM***的识别精确度。

S42，双目***。

S421，通过行扫描的方式得到左右视图特征点的对应关系。统计右侧图像每一行的特征点，使用立体匹配的方式匹配。随后对左侧图像第i行的特征点pi在右侧图像的第i行上进行搜索得到最匹配的点qi，i表示任一行的行数，p和q分别表示图像左侧和右侧的特征点。以qi为中心，r为半径进一步搜索，搜索半径为10pixel，对结果进行亚像素插值优化，这样可以获得更加准确的匹配点。

S422，通过对应特征点进行特征点的三角化，三角化后得到左右视图对应的特征点，通过光心到特征点的两条射线在空间中汇聚到一点，则可以获得距离，即得到该特征点的距离信息。通过三角化，将左右视图上的二维点在转化为建立出的三维空间中的点，称为三维地图点。

S423，在SLAM***运行时之前的与当前帧最接近的一帧为参考帧，参考帧作为参考信息，每输入新的一帧都需要和之前的参考帧计算变换。通过背景特征点计算当前帧与参考帧的变换矩阵，将参考帧对应的三维地图点进行相应变换，判断其与当前帧对应的地图间误差是否小于阈值，当超过90％的三维地图点误差大于阈值则认为当前物体为真实运动物体。具体地，通过语义信息找出属于绝对静止的物体，使用属于这些物体对应的三维地图点进行初步位姿计算得到初始位姿变换矩阵Tinit，初步估计的从参考帧到当前帧的变换方式。通过Tinit对当前帧与参考帧间对应的三维地图点进行变化，记Plast为参考帧对应的特征点，Pcurr为当前帧对应的特征点，若：

|Plast-Pcurr|>th

如图3所示，其中C1，C2分别表示左右相机，深色为原相机位置，浅色为当前位置，原点表示空间中的地图点，相机移动时，若地图点的变化关系符合相机的变换矩阵，则认为为静态点，若误差大于阈值，则认为该特征点为动态点，th为阈值，由先验信息决定。若一个物体的90％及以上特征点都为动态点，则认为其属于动态物体，需要去除该动态物体对应的所有特征点。

S5，物体级的帧间匹配；

S51，由于静态物体之间符合同一个变换矩阵可以进行求解，而动态物体之间不符合同一个变换矩阵不能进行求解。在进行了当前帧的动态物体去除后，保留下的都是可以用来匹配的静态物体。接着采用KM算法，将IOU作为两帧间物体是否为同一物体的权重信息，寻找最优匹配，这样总权重最大，匹配的准确度较高。本发明考虑到了动态场景下的帧间约束，特征点匹配准确率较高，提高了鲁棒性。

具体地，首先，计算两帧之间两两物体匹配的权重信息W，即计算两物体包围框的交并比数值，并加上一定的偏移量使得匹配具有更好的平移不变性，使得匹配准确率较高，不易误匹配，进而鲁棒性较好；然后，通过KM算法求出一组最优匹配，具体做法为令V1为参考帧中所有物体的Index信息，V2为当前帧中所有物体的Index信息，所有的边<i,j>∈G,其中W(i,j)表示V1中的第i个顶点到V2中第j个顶点的匹配权重。用邻接矩阵存储图信息，运用贪心算法初始化顶标，使用匈牙利算法找到完备匹配，若找不到则通过修改顶标，增加边再次寻找，达到完备匹配时则结束，即一一对应关系已找到，KM算法中的左子集中的所有顶标都有了对应关系。这样，即得到两帧之间物体的两两匹配信息。

S52，在匹配好的对应物体内使用KD-TREE数据结构进行特征点细粒度的匹配；同时遍历当前帧与参考帧的词向量，当单词ID相同时，则对特征点进行匹配。对当前帧当前单词内部的特征点逐个寻找其对应的特征点，寻找时需要满足最小距离Dist₁<th并且Dist₁<0.8*Dist₂。

S53，匹配成功后，通过上一帧对应特征点对应的三维地图点优化当前帧的位姿信息。在运动模型中会计算速度矢量作为初始值，通过固定三维地图点，使用图优化的方式优化当前帧位姿。

S54，对位姿优化成功后，通过将在当前帧的相邻帧关联的三维地图点进行投影，并计算与当前帧对应处特征点的向量距离，若距离小于th，则认为找到了新的一组匹配点，若最终总的匹配点大于30，则认为追踪成功，否则认为丢失，进行重定位。

S6，物体级的回环检测。

S61，关键帧指每成功建立一帧，并且追踪成功，关键帧具有足够多的新信息。每获得一帧关键帧，就需要进入回环检测线程，将当前关键帧信息添加到关键帧数据库KeyFrame DataBase中。现有的基于词袋模型的关键帧关联方式如图4所示，ABCD为四种不同类别，右侧为当前关键帧，其包含四种类别。对应的关键帧数据库KeyFrame DataBase也包含四种类别，每种类别分别关联一些关键帧，通过这种关联方式可以找到回环匹配时相似的关键帧。但是这种关联方式对位置信息没有考虑，存在一定程度的误匹配。改进后的方法如图5所示，深色，灰色，浅色分别代表3个类别，白色代表背景，左侧表示当前关键帧观测到的信息，通过网格划分，不同颜色代表不同类别。右侧的三维数据结构是关键帧数据库KeyFrame DataBase，其长宽与图像的网格划分方式一致，深度则为所有类别数量，背景不计，例如有3个类别，则建立深度是3的该数据结构，由此可以在不同位置不同类别关联到不同关键帧，通过该三维数据结构保存所有关键帧在相应位置的语义信息。

S62，统计所有有关联的关键帧的最大相似数量，将其进行一定系数的缩放后设定为阈值，大于该阈值的关键帧进入下一步筛选。具体地，统计与当前帧在相应位置具有同样类别的关键帧，CommonGrids为两帧匹配的网格数量。统计出所有符合要求的关键帧，组成关联帧后，统计其最大网格数量(MaxCommonGrids)，令0.8*MaxCommonGrids作为阈值，小于该阈值的则不进入下一步，即去除了不符合要求的关键帧，这样即可选出和当前关键帧在位置和类别上都最接近的关键帧，相比于如图4所示的通过词向量考虑最接近的情况，本发明考虑到了位置信息，具有较高的筛选效率。

S63，进行非极大值抑制，对于有关联关系的关键帧选出其匹配效果最好的一帧。具体地，计算当前所有待选帧的共视信息，对于有共视关系的关键帧将其认为是一组，一组关键帧中只保留拥有最大CommonGrids的关键帧。

S64，进行连续性检测，对于连续三帧当前帧进行回环检测后，如果求得的关键帧也具有共视关系，则认为当前回环匹配成功，进行Sim3矩阵的计算。即，图像层面的回环匹配成功，计算两个关键帧之间的变换矩阵与关联的三维地图点是否一致，若一致则进行地图的修正。

图6展示了本发明方法的整体流程图。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于实例分割的语义SLAM方法，其特征在于，所述方法包括以下步骤：S1，获取图像序列；S2，提取特征点信息和语义信息；S3，融合特征点信息和语义信息；S4，动态物体检测与去除；S5，物体级的帧间匹配；S6，物体级的回环检测。

2.根据权利要求1所述的基于实例分割的语义SLAM方法，其特征在于，所述步骤S2中所述特征点信息和所述语义信息的提取是同时进行的。

3.根据权利要求2所述的基于实例分割的语义SLAM方法，其特征在于，所述语义信息的提取通过网络实例分割模块完成。

4.根据权利要求3所述的基于实例分割的语义SLAM方法，其特征在于，所述网络实例分割为物体级的分割。

5.根据权利要求4所述的基于实例分割的语义SLAM方法，其特征在于，所述网络实例分割结合了MASK-RCNN网络。

6.根据权利要求5所述的基于实例分割的语义SLAM方法，其特征在于，所述步骤S2中对所述MASK-RCNN网络进行训练。

7.根据权利要求6所述的基于实例分割的语义SLAM方法，其特征在于，所述步骤S3对图像中每个物体内部的特征点进行细粒度特征点分类。

8.根据权利要求7所述的基于实例分割的语义SLAM方法，其特征在于，所述细粒度特征点分类通过KD-TREE数据结构完成。

9.根据权利要求8所述的基于实例分割的语义SLAM方法，其特征在于，所述步骤S5使用物体级匹配约束帧间匹配。

10.根据权利要求9所述的基于实例分割的语义SLAM方法，其特征在于，所述步骤S5采用KM算法寻找最优匹配。