CN110084850A

CN110084850A - 一种基于图像语义分割的动态场景视觉定位方法

Info

Publication number: CN110084850A
Application number: CN201910270280.0A
Authority: CN
Inventors: 潘树国; 盛超; 曾攀; 黄砺枭; 赵涛; 王帅; 高旺
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-04-04
Filing date: 2019-04-04
Publication date: 2019-08-02
Anticipated expiration: 2039-04-04
Also published as: CN110084850B

Abstract

本发明公开了一种基于图像语义分割的动态场景视觉定位方法，属于SLAM（Simultaneous Localization and Mapping，同步定位与建图）领域。本发明首先采用深度学习中的有监督学习方式对原始图像中的动态物体进行分割，得到语义图像；在此基础上，从原始图像中提取ORB特征点并根据语义图像对动态物体特征点进行剔除；最后，基于剔除后的特征点采用基于点特征的单目SLAM方法对相机运动进行定位跟踪。定位结果表明，相比于传统方法，本发明公开的方法在动态场景中的定位精度提高13%到30%。

Description

一种基于图像语义分割的动态场景视觉定位方法

技术领域

本发明涉及深度学习在视觉SLAM中的应用，属于SLAM(SimultaneousLocalization and Mapping，同步定位与建图)领域。

背景技术

同时定位与建图(SLAM)是机器人在未知环境下自主运行的关键技术。基于机器人外部传感器检测到的环境数据，SLAM构造了机器人的周围环境图，同时给出了机器人在环境图中的位置。与雷达、声纳等测距仪器相比，视觉传感器具有体积小、功耗低、信息采集丰富等特点，能够在外部环境中提供丰富的纹理信息。因此，视觉SLAM已经成为当前研究的热点，并应用于自主导航、VR/AR等领域。

传统的基于点特征的视觉SLAM算法在恢复场景信息和相机运动时是基于静态环境假设的。场景中的动态物体会影响定位精度。目前，传统的基于点特征的视觉SLAM算法通过检测动态点并将其标记为外点来处理简单的动态场景问题。ORB-SLAM通过RANSAC、卡方检验、关键帧法和局部地图减少了动态物体对定位精度的影响。直接法通过优化代价函数来处理动态物体引起的遮挡问题。2013年，有学者提出了一种新的关键帧表达和更新方法，用于对动态环境进行自适应建模，有效地检测和处理动态环境中的外观或结构变化。同年，有学者引入了多摄像机间姿态估计和建图的方法用于处理动态场景。然而传统SLAM方法在动态场景下的定位精度和鲁棒性有待提升。

发明内容

本发明所要解决的技术问题是：

为了提升传统SLAM方法在动态场景下的定位精度和鲁棒性，提供一种基于图像语义分割的动态场景视觉定位方法，能够对场景中的动态物体进行分割，剔除动态物体特征点。

本发明为解决上述技术问题采用以下技术方案：

本发明提出一种基于图像语义分割的动态场景视觉定位方法，包括以下步骤：

步骤1、采集原始图像，构建卷积神经网络，并利用所述卷积神经网络分割所述原始图像中的动态物体，获得语义图像；

步骤2、在所述原始图像中提取ORB特征点；

步骤3、根据步骤1所得语义图像对步骤2所得ORB特征点中的动态物体特征点进行剔除，仅保留静态物体特征点；

步骤4、基于步骤3所得的静态物体特征点，采用传统的基于点特征的SLAM方法对相机运动进行定位跟踪。

如前所述的一种基于图像语义分割的动态场景视觉定位方法，进一步地：步骤1中，所述构建卷积神经网络的步骤包括：

步骤1.1.1、将原始图像降采样到1/4，输入PSPNet，逐级得到大小为1/8和1/16的特征图，最后输出1/32大小的特征图F1；

步骤1.1.2、将原始图像降采样到1/2，输入所述PSPNet，逐级得到大小为1/4和1/8的特征图，最后输出1/16大小的特征图F2；

步骤1.1.3、将特征图F1、F2以及尺寸为原始图像1/16的真值标签输入第一CFF单元融合，输出大小为1/16的特征图F¹和第一分支的损失项L₁；

步骤1.1.4、将原始图像输入所述PSPNet，逐级得到大小为1/2和1/4的特征图，最后输出1/8大小的特征图F3；将特征图F¹和特征图F3以及尺寸为原始图像1/8的真值标签输入第二CFF单元融合，输出大小为1/8的特征图F²和第二分支的损失项L₂；

步骤1.1.5、所述特征图F²经过上采样，得到大小为1/4的特征图F³，所述特征图F³经1/4大小的真值标签处理后输出第三分支的损失项L₃；

步骤1.1.6、将所述损失项L₁、L₂、L₃叠加用于训练所述卷积神经网络。

如前所述的一种基于图像语义分割的动态场景视觉定位方法，进一步地：步骤1.1.3以及步骤1.1.4所述CFF单元包含的图像处理步骤包括：

将两个输入特征图中尺寸较小的特征图以采样率为2进行上采样，分别输入分类卷积层和膨胀卷积层，所述分类卷积层的卷积核尺寸为1*1*1，所述膨胀卷积层的卷积核尺寸为3*3*C₃，膨胀率为2；将两个输入特征图中尺寸较大的特征图输入卷积核尺寸为1*1*C₃的投影卷积层；对于所述膨胀卷积层和投影卷积层的输出结果分别批归一化然后求和，再将所述求和结果输入RELU函数，输出特征图F_c，将所述分类卷积层的输出结果和真值标签代入Softmax函数，得到所述CFF单元对应分支的损失项。

如前所述的一种基于图像语义分割的动态场景视觉定位方法，进一步地：步骤1.6所述将所述损失项L₁、L₂、L₃叠加用于训练所述卷积神经网络的具体步骤包括：

对损失项L₁、L₂、L₃求和，得到最终的损失项L_total：

其中i为分支数，ω_i为每个分支损失项的权重，为每个分支中用于计算损失函数的特征图，Y_i×X_i为的尺寸，N为预先设定的图像中待分割的物体种类数，为在特征图的(n，y，x)位置的数值，为在(y，x)处对应的真值标签。

如前所述的一种基于图像语义分割的动态场景视觉定位方法，进一步地：步骤1所述利用所述卷积神经网络分割所述原始图像中的动态物体，获得语义图像包括以下步骤：

步骤1.2.1、将原始图像降采样到1/4，输入PSPNet，逐级得到大小为1/8和1/16的特征图，最后输出1/32大小的特征图F1；

步骤1.2.2、将原始图像降采样到1/2，输入所述PSPNet，逐级得到大小为1/4和1/8的特征图，最后输出1/16大小的特征图F2；

步骤1.2.3、将特征图F1、F2以及尺寸为原始图像1/16的真值标签输入第一CFF单元融合，输出大小为1/16的特征图F¹；

步骤1.2.4、将原始图像输入所述PSPNet，逐级得到大小为1/2和1/4的特征图，最后输出1/8大小的特征图F3；将特征图F¹和特征图F3输入第二CFF单元融合，输出大小为1/8的特征图F²；

步骤1.2.5、所述特征图F²经过上采样，得到大小为1/4的特征图F³，当测试过程时，将F³进行上采样，输出尺寸大小为1的特征图，该特征图即为语义分割图；

步骤1.2.6、对所述语义分割图进行二值化处理：对所述语义分割图中的动态物体利用黑色像素0进行标记，其他物体利用白色像素1进行标记，得到一张仅包含动态物体的黑白语义图像i′_t；

步骤1.2.7、对由原始图像组成的图像序列进行所述步骤1.1至1.7的操作，最终得到仅包含动态物体的语义图像序列I′＝{i′_t，i′₂，i′₃，i′₄，...，i′_t}。

如前所述的一种基于图像语义分割的动态场景视觉定位方法，进一步地：所述步骤2中，在原始图像中提取ORB特征点具体步骤包括：

根据场景的复杂程度，设定待提取的特征数量，利用ORB特征提取器提取输入图像i_t中的特征点i_t(x，y)，其中x，y为特征点的横纵坐标。

如前所述的一种基于图像语义分割的动态场景视觉定位方法，进一步地：所述步骤3中，根据步骤1所得语义图像对步骤2所得ORB特征点中的动态物体特征点进行剔除，仅保留静态物体特征点的步骤包括：

对于原始图像i_t中的每一个特征点i_t(x，y)，在其语义图像i′_t中确定对应位置i′_t(x，y)；

若i′_t(x，y)＝0，该点为黑色像素点，即属于动态物体特征，执行剔除操作；

若i′_t(x，y)＝1，该点为白色像素点，即属于静态物体特征，执行保留操作。

如前所述的一种基于图像语义分割的动态场景视觉定位方法，进一步地：所述步骤4中，基于步骤3所得的静态物体特征点，采用传统的基于点特征的SLAM方法对相机运动进行定位跟踪，具体为：

对于图像序列I＝{i₁,i₂,i₃,i₄,…,i_t}，基于步骤3剔除后的ORB特征点，采用传统基于点特征的SLAM框架计算并优化相机位姿，完成相机的定位与跟踪。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1、本发明首先采用深度学习中的有监督学习方式对原始图像中的动态物体进行分割，得到语义图像；在此基础上，从原始图像中提取ORB特征点并根据语义图像对动态物体特征点进行剔除，从而提升了传统SLAM方法在动态场景下的定位精度和鲁棒性；

2、本发明提出的方法定位结果优于传统的ORB-SLAM的定位结果，定位精度提高13％到30％。

附图说明

图1是本方法流程图；

图2是本方法图像语义分割网络结构图；

图3是本方法级联特征融合单元结构图；

图4是本方法动态物体分割流程图；

图5是本方法图像语义分割结果图；

图6是本方法动态物体特征点剔除结果图；

图7是本方法与完整的ORB-SLAM在四个序列中的定位轨迹平面图；

图8是本方法与不完整的ORB-SLAM在四个序列中的定位轨迹平面图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

本技术领域技术人员可以理解的是，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

随着深度学习技术的发展，人们对图像的语义信息进行了探索，借此提高视觉SLAM的性能。语义分割是计算机视觉中的基本任务，在语义分割中需要将视觉输入分为不同的语义可解释类别。本发明提出一种基于图像语义分割的动态场景视觉定位方法，旨在剔除动态物体特征点的基础上，提高动态场景下SLAM的定位精度，同时可以获得场景丰富的语义信息。

本发明提出一种基于图像语义分割的动态场景视觉定位方法，图1是本方法流程图，图4是本方法动态物体分割流程图。首先采用深度学习中的有监督学习方式对原始图像中的动态物体进行分割，得到语义图像；在此基础上，从原始图像中提取ORB特征点并根据语义图像对动态物体特征点进行剔除；最后，基于剔除后的特征点采用基于点特征的单目SLAM方法对相机运动进行定位跟踪。

步骤1，构建卷积神经网络对原始图像中的动态物体进行分割，获得语义图像：

步骤1.1、构建用于语义分割的卷积神经网络

所构建的神经网络结构如图2所示。在图2描述的网络结构中，包括顶部、中部、底部三层分支；括号里的数字为相较于原始输入图像的尺寸比值；’CFF’为级联特征融合单元；顶层和中层分支的前三层网络共享相同的参数。

现对网络结构作进一步详细说明：

级联图像输入：在图2所描述网络的顶部分支，首先将原始图像降采样到1/4大小的图像，然后输入PSPNet，输出1/32大小的特征图，这是一种粗糙的分割结果，缺失许多细节和边界。在中部和底部分支，采用1/2大小的图像和原始图像对上述粗糙结果进行细节恢复和细化。虽然顶部分支的分割结果较为粗略，但包含了丰富的语义部分。因此，用于细节恢复和细化的中部和底部分支网络是轻量级的。利用级联特征融合单元(CFF)融合不同分支的输出特征图，采用级联标签引导增强不同分支的学习过程。

级联特征融合：图3展示了级联特征融合单元的具体结构，其中F1和F2为不同分支输出的特征图，F2的空间尺寸大小是F1的两倍。级联特征融合单元用于融合不同分支输出的特征图，此单元的输入包括两张特征图F1、F2和一个真值标签，F1的尺寸为Y₁×X₁×C₁，，F2的尺寸为Y₂×X₂×C₂，标签的尺寸为Y₁×X₁×1。对于特征图F1，首先以采样率为2进行上采样，输出和F2相同尺寸的特征图。然后一个核尺寸为3×3×C₃、扩张率为2的扩张卷积层用于对上述输出特征图进行细化，因此F1的尺寸变为Y₂×X₂×C₃。对于特征图F2，通过一个核尺寸为1×1×C₃的卷积层，输出Y₂×X₂×C₃尺寸的特征图。对F1和F2的输出同时进行批标准化，并通过求和层和’RELU’函数层，最终输出融合的特征图F2’。

级联标签引导；在图2描述的网络结构中，三个尺寸不同的(相对原始图像的尺寸大小分别为1/16，1/8，1/4)的真值标签用于在网络的顶部、中部和底部分支产生三个独立的损失项，并对三个损失项进行求和，得到最终的损失项：

其中ω_t为每个分支损失项的权重，F^t为每个分支输出的特征图，Y_t×X_t为F^t的尺寸，N为预先设定的图像中待分割的物体种类数，为在特征图F^t的(n，y，x)位置的数值，为在(y，x)处对应的真值标签。

步骤1.2、分割原始输入图像中的动态物体：

图3展示了这一步骤的实现过程。对于给定的一组图像序列I＝{i₁，i₂，i₃，i₄，...，i_t}，其中i_t为t时刻相机拍摄的图像：

(1)向步骤1.1所构建的语义分割网络输入一幅图像i_t，输出一幅分割后的彩色语义图像，在语义图像中，汽车、行人、建筑物、指示牌等物体均以不同颜色的像素进行标注；

(2)对(1)中的语义图像进行二值化处理，对图像中的动态物体(行人、汽车)利用黑色像素0进行标记，其他物体利用白色像素1进行标记，得到一张仅包含动态物体的黑白语义图像i′_t；

(3)对图像序列I中的每一张图像，重复步骤(1)和(2)；

最终得到仅包含动态物体的语义图像序列I′＝{i′_t，i′₂，i′₃，i′₄，...，i′_t}。

步骤2，在原始图像中提取ORB特征点，根据语义图像对动态物体特征点进行剔除，仅保留静态物体特征点：

步骤2.1、提取原始图像中的ORB特征点：

步骤3，根据语义图像对动态物体特征点进行剔除，仅保留静态物体特征点：

(1)对于i_t中的每一个特征点i_t(x，y)，在语义图像i′_t中确定对应位置i′_t(x，y)；

(2)若i_t(x，y)＝0，该点为黑色像素点，即属于动态物体特征，执行剔除操作；

(3)若i_t(x，y)＝1，该点为白色像素点，即属于静态物体特征，执行保留操作。

步骤4，基于步骤3剔除后的ORB特征点，采用传统的基于点特征的SLAM框架对相机进行定位跟踪：

对于图像序列I＝{i₁，i₂，i₃，i₄，...，i_t}，基于步骤2剔除后的ORB特征点，采用传统基于点特征的SLAM框架计算并优化相机位姿，完成相机的定位与跟踪。

实施例一

本发明利用Frankfurt单目图像序列进行了评估，该序列是Cityscapes数据集的一部分。整个Frankfurt序列提供了超过10万帧的室外环境图像，并提供了可作为真值的的定位结果。将该序列划分为几个较小的序列，其中包含1300-2500帧的动态对象序列，如驾驶汽车或行人。实验平台的配置为：英特尔XeonE5-2690V4；128GB的RAM；英伟达TitanVGPU。

从原始Frankfurt序列中分离出来的序列如下：

Seq.01:frankfurt_000001_054140_leftImg8bit.png-frankfurt_000001_056555_leftImg8bit.png

Seq.02:frankfurt_000001_012745_leftImg8bit.png-frankfurt_000001_014100_leftImg8bit.png

Seq.03:frankfurt_000001_003311_leftImg8bit.png-frankfurt_000001_005555_leftImg8bit.png

Seq.04:frankfurt_000001_010580_leftImg8bit.png-frankfurt_000001_012739_leftImg8bit.png

图5展示了语义分割的结果。中间栏显示场景中的树木、建筑、道路、交通标志和其他物体被很好地分割。右侧只保留动态对象(汽车和行人)的分割结果。虽然边界不完全精确，但结果足以用于剔除特征点。

图6展示了动态物体特征点剔除的结果。白色汽车是行驶在在道路上的动态物体。左列的两幅图像为剔除前的结果，其中有许多属于动态汽车的特征点。右列为剔除结果，汽车的特征点已经被完全剔除。

图7展示了基于完整的ORB-SLAM的本方法和完整的ORB-SLAM在Seq.01、Seq.02、Seq.03、Seq.04四段视频序列中的定位轨迹平面图。由四幅图可知，本发明提出的方法得出的定位轨迹(Ours)相比于完整的ORB-SLAM计算出的轨迹(ORB-SLAM Full)与真实轨迹(Ground Truth)之间的偏差更小。由于Seq.01序列中动态车辆和行人较多，两种方法结果皆与真值之间偏差较大，但本方法在定位精度上仍优于完整的ORB-SLAM。由于***基于关键帧进行位置跟踪，定位轨迹会出现部分不连续。

完整的ORB-SLAM使用了卡方检验，在一定程度上减弱了动态特征点对定位精度的影响，图8展示了基于去除卡方检验的不完整ORB-SLAM的本方法和不完整ORB-SLAM在Seq.01、Seq.02、Seq.03、Seq.04四段视频序列中的定位轨迹平面图。由四幅图可知，本发明提出的方法得出的定位轨迹(Ours)相比于不完整的ORB-SLAM计算出的轨迹(ORB-SLAMImcomplete)与真实轨迹(Ground Truth)之间的偏差更小。由于场景中行人较多，场景中存在大量的动态特征点，不完整的ORB-SLAM在Seq.02中定位完全失败，证明本发明提出的方法鲁棒性更好。由于***基于关键帧进行位置跟踪，定位轨迹会出现部分不连续。

最后给出四段图像序列在完整的ORB-SLAM、不完整的ORB-SLAM及本方法中的定位结果。由表1和表2可知本发明提出的方法定位结果优于传统的ORB-SLAM的定位结果，定位精度提高13％到30％。

表1：两种方法在Seq01-Seq04图像序列上定位结果对比

表2：两种方法在Seq01-Seq04图像序列上定位结果对比

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于图像语义分割的动态场景视觉定位方法，其特征在于，包括以下步骤：

步骤2、在所述原始图像中提取ORB特征点；

2.根据权利要求1所述一种基于图像语义分割的动态场景视觉定位方法，其特征在于：步骤1中，所述构建卷积神经网络的步骤包括：

3.根据权利要求2所述一种基于图像语义分割的动态场景视觉定位方法，其特征在于：步骤1.1.3以及步骤1.1.4所述CFF单元包含的图像处理步骤包括：

4.根据权利要求2所述一种基于图像语义分割的动态场景视觉定位方法，其特征在于：步骤1.1.6所述将所述损失项L₁、L₂、L₃叠加用于训练所述卷积神经网络的具体步骤包括：

对损失项L₁、L₂、L₃求和，得到最终的损失项L_total：

5.根据权利要求1所述一种基于图像语义分割的动态场景视觉定位方法，其特征在于：步骤1所述利用所述卷积神经网络分割所述原始图像中的动态物体，获得语义图像包括以下步骤：

步骤1.2.7、对由原始图像组成的图像序列进行所述步骤1.2.1至1.2.7的操作，最终得到仅包含动态物体的语义图像序列I′＝{i′_t，i′₂，i′₃，i′₄，...，i′_t}。

6.根据权利要求1所述一种基于图像语义分割的动态场景视觉定位方法，其特征在于：所述步骤2中，在原始图像中提取ORB特征点具体步骤包括：

7.根据权利要求1所述一种基于图像语义分割的动态场景视觉定位方法，其特征在于：所述步骤3中，根据步骤1所得语义图像对步骤2所得ORB特征点中的动态物体特征点进行剔除，仅保留静态物体特征点的步骤包括：

8.根据权利要求1所述一种基于图像语义分割的动态场景视觉定位方法，其特征在于：所述步骤4中，基于步骤3所得的静态物体特征点，采用传统的基于点特征的SLAM方法对相机运动进行定位跟踪，具体为：

对于图像序列I＝{i₁，i₂，i₃，i₄，...，i_t}，基于步骤3剔除后的ORB特征点，采用传统基于点特征的SLAM框架计算并优化相机位姿，完成相机的定位与跟踪。