CN111311708A

CN111311708A - 一种基于语义光流和逆深度滤波的视觉slam方法

Info

Publication number: CN111311708A
Application number: CN202010065930.0A
Authority: CN
Inventors: 崔林艳; 马朝伟; 郭政航
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2020-06-19
Anticipated expiration: 2040-01-20
Also published as: CN111311708B

Abstract

本发明涉及一种基于语义光流和逆深度滤波的视觉SLAM方法，包括以下步骤：(1)视觉传感器采集图像，并对采集到的图像进行特征提取和语义分割，得到提取的特征点与语义分割结果。(2)根据所述特征点与分割结果，用语义光流法进行地图初始化，剔除动态特征点，创建出可靠的初始化地图。(3)将所述初始化地图采用逆深度滤波器对地图中3D地图点是否为动态点进行评估，并根据逆深度滤波器的评估结果扩展地图。(4)针对深度滤波器扩展后的地图继续依次序进行跟踪、局部建图以及回环检测，最终实现基于语义光流和逆深度滤波的面向动态场景的视觉SLAM。

Description

一种基于语义光流和逆深度滤波的视觉SLAM方法

技术领域

本发明涉及一种基于语义光流和逆深度滤波的视觉SLAM方法，这是一种结合了语义光流和逆深度滤波技术的视觉SLAM新方法，适用于解决传统视觉SLAM***在高动态场景下失效以及缺少对场景理解等问题。

背景技术

同时定位与地图构建(SLAM)是指机器人在没有环境先验信息的情况下，通过获取的传感器数据，估计机器人自身的位姿，同时构建一个全局一致的环境地图。其中基于视觉传感器的SLAM***被称为视觉SLAM，因其具有的硬件成本低，定位精度高，可实现完全自主的定位导航等优势，使这项技术在人工智能和虚拟现实等领域广受关注，也诞生了例如RTAB-MAP、DVO-SLAM、ORB-SLAM2等诸多优秀的视觉SLAM***。

传统的视觉SLAM***通常假设***所处环境是静态的，难以应对长时间，大空间尺度，高动态场景等日常生活中常见情况。尤其是在高动态场景中，基于静态世界假设的视觉SLAM无法辨别***所处的动态场景，更无法分辨出该场景内的动态物体，导致SLAM***在动态环境下的精度大幅降低，严重时甚至导致整个SLAM***失效，影响视觉SLAM***在日常生活中的广泛应用。因此如何改善动态场景下视觉SLAM***的精度与稳定性、增强***对周围环境理解能力这一课题至关重要，也是成为视觉SLAM领域中一个亟待解决的问题。

近年来，随着深度学习算法的进步和运算能力的提高，计算机对于处理如图像分类、语义分割等图像处理能力日渐提高。将传统视觉SLAM技术和基于深度学习的语义分割技术进行结合，可以极大地提升SLAM***的鲁棒性和实用性。结合了语义信息的SLAM算法通常被统称为语义SLAM，这是一个新兴的研究领域，如何使用语义信息，目前也没有比较成熟和一致的方案。目前的难点有如下几个方面：(1)如何保证高动态场景下语义视觉SLAM***的精度和稳定性；(2)如何在增强语义视觉SLAM***应对高动态场景能力的同时，使***在应对静态场景时旧有良好的表现。

发明内容

本发明的技术解决问题是：克服现有技术不足，针对动态场景条件下***视觉定位***易受干扰问题，提供一种基于语义光流和逆深度滤波的视觉SLAM方法，改善SLAM***应对动态场景能力，提升***对场景理解能力，提高***在动态场景下的定位精度。

本发明的技术解决方案为一种基于语义光流和逆深度滤波的视觉SLAM方法，实现步骤如下：包括以下步骤：

步骤(1)视觉传感器采集图像，并对采集到的图像进行特征提取和语义分割，得到提取的特征点与语义分割结果；

步骤(2)根据所述特征点与分割结果，通过语义光流法进行地图初始化，剔除动态特征点，创建出可靠的初始化地图；

步骤(3)将所述初始化地图采用逆深度滤波器对初始化地图中3D地图点是否为动态点进行评估，并根据逆深度滤波器的评估结果扩展地图；

步骤(4)针对逆深度滤波器扩展后的扩展地图继续依次序进行跟踪、局部建图以及回环检测，进而在动态场景下构建出准确地图，最终实现基于语义光流和逆深度滤波的面向动态场景的视觉SLAM。

进一步的，所述步骤(1)中，图像进行特征提取和语义分割方法如下：

当获取传感器采集的图像数据后，提取图像特征点，并使用SegNet语义分割网络对当前帧的RGB图像进行语义分割；通过语义信息将特征点分为静态、潜在动态和动态三类；其中SegNet由编码器网络和解码器网络两个模块组成，输入图像首先被送到编码器网络，编码器网络中的每个编码器都通过卷积操作生成一系列特征图，即得到输入特征图，再进行批归一化处理、ReLU激活函数激活操作后，解码器网络中的解码器使用来自相应编码器特征图所存储的最大池化索引值对输入特征图进行上采样，产生稀疏特征图；然后将这些稀疏特征图通过一个可训练的卷积模块生成稠密的特征图；解码器网络最后一个解码器所输出的高维特征表示将被传递给softmax分类器，产生每个像素的语义标签，完成图像的语义分割进程。

进一步的，所述步骤(2)中，用语义光流法进行地图初始化并创建可靠的初始化地图，方法如下：

首先在采集得到的图像上的特征点已被语义分割方法分为“静态、潜在动态和动态”三类的基础上，用当前帧的图像数据和上一帧的图像数据，对当前帧图像上的语义静态特征点计算稀疏光流；随后计算出一个基础矩阵F，这是对极几何约束的关键；最后根据极线约束对静态特征点、潜在动态特征点和动态特征点的运动特性再次进行判断，判断结果通过由刚才计算出的基础矩阵F进行检验；在检验过程中设定一个像素作为阈值，如果当前帧图像中的特征点到它对应极线的直线距离超过这个阈值，那么该特征点就被判定为真正的动态特征点，从而得到一个可靠的初始化地图。

进一步的，所述步骤(3)中，采用逆深度滤波器对初始化地图中3D地图点进行评估和扩展地图，方法如下：

将基于高斯-均匀混合分布假设的深度滤波器应用于SLAM，首先，将地图点逆深度的观测值用高斯分布和均匀分布的混合模型进行建模：

p(x|Z，π)＝πN(x|Z，τ2)+(1-π)U(x|Z_min，Z_max)

上边公式中各个量的含义为：

x是地图点逆深度的观测值，是一个随机变量；Z是地图点的真实逆深度，是需要计算出的值；π是该地图点为内点的概率，简称为内点率，内点是指地图中一个静态地图点，且其深度是通过正确的匹配点进行三角化得到的点；p(x|Z，π)表示地图点逆深度观测值的分布；N(x|Z，τ²)表示以地图点真实逆深度Z为均值，τ²为方差的高斯分布；U(x|Z_min，Z_max)表示均匀分布，Z_min和Z_max为均匀分布的下界和上界，即最小逆深度和最大逆深度；

计算当前时刻(Z，π)的后验概率分布得到：

p(Z，π|x₁，...，x_n)∝p(Z，π|x₁，...，x_n-1)p(x_n|Z，π)

其中x₁，...，x_n为一个地图点逆深度的系列互相独立的观测值，n为观测值的序号；p(Z，π|x₁，...，x_n)是当前时刻(Z，π)的后验概率分布，p(Z，π|x₁，...，x_n-1)是前一时刻(Z，π)的后验概率分布，p(x_n|Z，π)是当前时刻深度测量值的似然概率；为估计出参数Z和π且简化运算，将p(Z，π|x₁，...，x_n)近似于一个高斯-贝塔形式的分布：

q(Z，π|a，b，μ，σ²)＝N(Z|μ，σ²)Beta(π|a，b)

其中q(Z，π|a，b，μ，σ²)表示(Z，π)服从参数为(a，b，μ，σ²)的高斯-贝塔分布，N(Z|μ，σ²)为高斯分布，Beta(π|a，b)为贝塔分布。高斯-贝塔分布一共有4个参数(a，b，μ，σ²)，其中a，b为概率论中贝塔分布里两个大于零的参数，μ，σ²是高斯分布中的期望与方差，在获取新的逆深度观测值后，对这4个参数进行更新获取新的高斯-贝塔分布；先用

求出Z和π的一、二阶矩，再用p(Z，π|x₁，...，x_n)求得Z和π的一、二阶矩，其中

表示此时(Z，π)服从参数为

的高斯-贝塔分布；再使用矩比较法对p(Z，π|x₁，...，x_n)和q(Z，π|a，b，μ，σ²)分别求得的Z和π的一、二阶矩进行比较，求出新的参数

当

小于一个设定的阈值时，即认为地图点的逆深度已经收敛；内点率π的一阶矩可以作为π的估计值：

当地图点的逆深度收敛时，内点率π低于设定的阈值，则仍然认为该地图点是一个动态点，将其剔除；只有地图点的逆深度收敛时，内点率π高于设定的阈值，才认为该地图点是一个可靠的静态地图点，并以此为依据对之前获得的可靠初始地图进行更新。

进一步的，所述步骤(4)中，根据逆深度滤波器扩展地图结果进行动态场景下的跟踪和局部建图线程，方法如下：

通过之前经过语义光流和逆深度滤波得到的初始地图进行***的初始位姿估计或重定位，然后跟踪已经重建的局部地图，优化位姿，再确定新的关键帧；确定关键帧后，在局部建图线程中完成关键帧***，剔除冗余的地图点和关键帧，并在此之后进行局部集束调整步骤；在回环检测线程中，包含候选帧检测，计算Sim3，闭环融合与闭环优化；最终构建出动态场景下的准确地图，实现基于语义光流和逆深度滤波的面向动态场景的视觉SLAM。

本发明与现有技术相比的优点在于：

(1)本发明采用了语义光流法，将语义信息和光流信息通过“紧耦合”方式很好的融入了视觉SLAM***，解决了传统视觉SLAM不能理解场景信息，不能应对动态场景等问题。提升了动态场景下的位姿解算精度，且精度优于现有方法。

(2)本发明采用了逆深度滤波的方法，考虑了能观测到地图点的所有图像帧，通过概率框架不断地对新的观测数据进行累积，使得单独的、较小的动态地图点也可以被检测并处理。

总之，本发明采用的方法应对高动态场景时表现良好，可达到对动态场景下的视觉SLAM***精确定位的目的。

附图说明

图1为本发明一种基于语义光流和逆深度滤波的视觉SLAM方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅为本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例，都属于本发明的保护范围。

如图1所示，本发明的具体实现步骤如下：

步骤1、将获取传感器采集的图像数据，提取图像特征点，并使用SegNet语义分割网络对当前帧的RGB图像进行语义分割。通过语义信息将特征点分为静态、潜在动态和动态三类。其中SegNet由编码器网络和解码器网络两个模块组成。输入图像首先被送到编码器网络，编码器网络中的每个编码器都通过卷积操作生成一系列特征图，再进行批归一化处理、ReLU激活函数激活等操作后，解码器网络中的解码器使用来自相应编码器特征图所存储的最大池化索引值对输入特征图进行上采样，产生稀疏特征图。然后将这些特征图通过一个可训练的卷积模块生成稠密的特征图。解码器网络最后一个解码器所输出的高维特征表示将被传递给softmax分类器，产生每个像素的语义标签，完成图像的语义分割进程。

步骤2、语义光流法是将语义信息和几何信息进行“紧耦合”，用以检测动态特征点的一种方法，这一方法弥补了传统动态特征点检测算法的不足。语义光流法首先在采集得到的图像上的特征点已被语义分割方法分为“静态、潜在动态和动态”三类的基础上，用当前帧的图像数据和上一帧的图像数据，对当前帧图像上的语义静态特征点计算稀疏光流。随后计算出一个基础矩阵F，这是对极几何约束的关键。最后根据极线约束对静态特征点、潜在动态特征点和动态特征点的运动特性再次进行判断，判断结果通过刚才计算出的基础矩阵F进行检验。在检验过程中设定一个像素为阈值，如果当前帧图像中的特征点到它对应极线的直线距离超过这个阈值，那么该特征点就被判定为真正的动态特征点。这样就得到了一个可靠的初始地图。

步骤3、采用逆深度滤波器对初始化地图中3D地图点进行评估和扩展地图。将基于高斯-均匀混合分布假设的深度滤波器应用于SLAM，使得***不仅能够处理错误匹配对地图点构建的影响，也能够处理运动元素对地图点构建的影响。

将地图点逆深度的观测值用高斯分布和均匀分布的混合模型进行建模：

p(x|Z，π)＝πN(x|Z，τ²)+(1-π)U(x|Z_min，Z_max)

上边公式中各个量的含义为：

x是地图点逆深度的观测值，是一个随机变量；Z是地图点的真实逆深度，是需要计算出的值；π是该地图点为内点的概率，内点是指地图中一个静态地图点且其深度是通过正确的匹配点进行三角化得到的点；p(x|Z,π)表示地图点逆深度观测值的分布；N(x|Z,τ²)表示以地图点真实逆深度Z为均值，τ²为方差的高斯分布；U(x|Z_min,Z_max)表示均匀分布，Z_min和Z_max为均匀分布的下界和上界，即最小逆深度和最大逆深度。

计算当前时刻(Z,π)的后验概率分布得到：

p(Z，π|x₁，...，x_n)∝p(Z，π|x₁，...，x_n-₁)p(x_n|Z，π)

其中x₁,...,x_n为一个地图点逆深度的系列互相独立的观测值,n为观测值的序号；p(Z,π|x₁,...,x_n)是当前时刻(Z,π)的后验概率分布，p(Z,π|x₁,...,x_n-1)是前一时刻(Z,π)的后验概率分布，p(x_n|Z,π)是当前时刻深度测量值的似然概率。为估计出参数Z和π且简化运算，将p(Z,π|x₁,…,x_n)近似为高斯-贝塔分布：

q(Z,π|a,b,μ,σ²)＝N(Z|μ,σ²)Beta(π|a,b)

其中q(Z,π|a,b,μ,σ²)表示(Z,π)服从参数为(a,b,μ,σ²)的高斯-贝塔分布，N(Z|μ,σ²)为高斯分布，Beta(π|a,b)为贝塔分布。高斯-贝塔分布一共有4个参数(a,b,μ,σ²)，其中a,b为概率论中贝塔分布里两个大于零的参数，μ,σ²是高斯分布中的期望与方差，所以获取新的逆深度观测值后，只需要对这4个参数进行更新就可以获取新的高斯-贝塔分布。先用

求出Z和π的一、二阶矩，再用p(Z,π|x₁,…,x_n)求得Z和π的一、二阶矩，其中

表示此时(Z,π)服从参数为

的高斯-贝塔分布。再使用矩比较法对两种方式分别求得的Z和π的一、二阶矩进行比较，求出新的参数

当

小于一个设定的阈值时，即可认为地图点的逆深度已经收敛。内点率π的一阶矩可以作为π的估计值：

当地图点的逆深度收敛时，内点率π低于设定的阈值，则仍然认为该地图点是一个动态点，将其剔除。只有地图点的逆深度收敛时，内点率π高于设定的阈值，才认为该地图点是一个可靠的静态地图点，并以此为依据对之前获得的可靠初始地图进行更新。

步骤4、利用语义光流和逆深度滤波得到的初始地图进行***的初始位姿估计或重定位，然后跟踪已经重建的局部地图，优化位姿，再确定新的关键帧。确定关键帧后，在局部建图线程中主要完成关键帧***、剔除冗余的地图点和关键帧以及局部集束调整等步骤。在回环检测线程中，包含候选帧检测，计算Sim3，闭环融合与闭环优化等内容。经过上述几个线程，最终构建出动态场景下的准确地图，实现基于语义光流和逆深度滤波的面向动态场景的视觉SLAM。

如表1所示，将本发明方法与现有面向动态场景的视觉SLAM***(这里选取了4种最具有代表性的算法，包括DS-SLAM、DynaSLAM、Detect-SLAM、L.Zhang等提出的算法)在TUMRGB-D数据集上进行定量对比，其中TUM RGB-D数据集包含一个低动态场景视频序列s_static以及四个高动态场景视频序列w_halfsphere、w_rpy、w_static和w_xyz。定量对比结果表明，本发明无论是在低动态场景还是高动态场景中均具有最高的精度，能更加有效地改善视觉SLAM***应对动态场景的能力，提高***在动态场景下的定位精度。

表1为采用本发明方法与其他经典视觉SLAM方法在TUM RGB-D数据集的五个动态场景视频序列上运行结果精度对比。

表1

(注：表中百分数表示该列视觉SLAM方法相比经典ORB-SLAM2精度提升量的百分比，“-”表示对应算法未在该视频序列上进行实验)

本发明将传统视觉SLAM技术和基于深度学习的语义光流技术、逆深度滤波技术相结合，提出了一种基于语义光流和逆深度滤波的视觉SLAM新方法，实验表明本发明可以使整个视觉SLAM***更有效地处理高动态场景，在静态场景下依然有着良好的表现，大幅增加了视觉SLAM***在日常生活场景下的精度与稳定性。本发明对基于视觉传感器的SLAM***进行的创新与改进具有着很强的实用性，对于视觉SLAM***在未来更广泛的应用有着重要意义。

本发明说明书中未作详细描述的内容属于本领域专业技术人员的公知技术。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，且应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于语义光流和逆深度滤波的视觉SLAM方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于语义光流和逆深度滤波的视觉SLAM方法，其特征在于：所述步骤(1)中，图像进行特征提取和语义分割方法如下：

3.根据权利要求1所述的一种基于语义光流和逆深度滤波的视觉SLAM方法，其特征在于：所述步骤(2)中，用语义光流法进行地图初始化并创建可靠的初始化地图，方法如下：

4.根据权利要求1所述的一种基于语义光流和逆深度滤波的视觉SLAM方法，其特征在于：所述步骤(3)中，采用逆深度滤波器对初始化地图中3D地图点进行评估和扩展地图，方法如下：

p(x|Z,π)＝πN(x|Z,τ²)+(1-π)U(x|Z_min,Z_max)

上边公式中各个量的含义为：

x是地图点逆深度的观测值，是一个随机变量；Z是地图点的真实逆深度，是需要计算出的值；π是该地图点为内点的概率,简称为内点率，内点是指地图中一个静态地图点，且其深度是通过正确的匹配点进行三角化得到的点；p(x|Z,π)表示地图点逆深度观测值的分布；N(x|Z,τ²)表示以地图点真实逆深度Z为均值，τ²为方差的高斯分布；U(x|Z_min,Z_max)表示均匀分布，Z_min和Z_max为均匀分布的下界和上界，即最小逆深度和最大逆深度；

计算当前时刻(Z,π)的后验概率分布得到：

p(Z,π|x₁,…,x_n)∝p(Z,π|x₁,…,x_n-1)p(x_n|Z,π)

其中x₁,…,x_n为一个地图点逆深度的系列互相独立的观测值,n为观测值的序号；p(Z,π|x₁,…,x_n)是当前时刻(Z,π)的后验概率分布，p(Z,π|x₁,…,x_n-1)是前一时刻(Z,π)的后验概率分布，p(x_n|Z,π)是当前时刻深度测量值的似然概率；为估计出参数Z和π且简化运算，将p(Z,π|x₁,…,x_n)近似于一个高斯-贝塔形式的分布：

q(Z,π|a,b,μ,σ²)＝N(Z|μ,σ²)Beta(π|a,b)

其中q(Z,π|a,b,μ,σ²)表示(Z,π)服从参数为(a,b,μ,σ²)的高斯-贝塔分布，N(Z|μ,σ²)为高斯分布，Beta(π|a,b)为贝塔分布，高斯-贝塔分布一共有4个参数(a,b,μ,σ²)，其中a,b为概率论中贝塔分布里两个大于零的参数，μ,σ²是高斯分布中的期望与方差，在获取新的逆深度观测值后，对这4个参数进行更新获取新的高斯-贝塔分布；先用

表示此时(Z,π)服从参数为

的高斯-贝塔分布；再使用矩比较法对p(Z,π|x₁,…,x_n)和q(Z,π|a,b,μ,σ²)分别求得的Z和π的一、二阶矩进行比较，求出新的参数

当

5.根据权利要求1所述的一种基于语义光流和逆深度滤波的视觉SLAM方法，其特征在于：所述步骤(4)中，根据逆深度滤波器扩展地图结果进行动态场景下的跟踪和局部建图线程，方法如下：