CN115619826A

CN115619826A - 一种基于重投影误差和深度估计的动态slam方法

Info

Publication number: CN115619826A
Application number: CN202211265048.6A
Authority: CN
Inventors: 白克强; 邓子犇; 王国鹏; 蒋和松; 姜官武; 张静; 李涛; 李旭春
Original assignee: Southwest University of Science and Technology
Current assignee: Southwest University of Science and Technology
Priority date: 2022-10-17
Filing date: 2022-10-17
Publication date: 2023-01-17

Abstract

本发明公开了一种基于重投影误差和深度估计的动态SLAM方法，包括以下步骤：获取RGB图像，提取RGB图像的ORB特征点；对RGB图像预处理，得到静态背景、目标标签、像素点还原至世界坐标系的坐标和进行帧间匹配后的像素点；根据RGB图像的ORB特征点、静态背景、目标标签、像素点还原至世界坐标系的坐标和进行帧间匹配后的像素点计算并根据重投影误差和深度残差识别动态目标和静态目标；根据动态目标、静态背景和静态目标，完成SLAM并实时估计动态目标位姿；对动态目标位姿进行光束平差优化。本发明提高了识别动态目标的准确度和求取的轨迹精度。

Description

一种基于重投影误差和深度估计的动态SLAM方法

技术领域

本发明涉及机器人技术领域，主要包括一种基于重投影误差和深度估计的动态SLAM方法。

背景技术

视觉SLAM算法框架中的里程计模块主要有两种实现方法：特征点法和直接法。特征点法根据空间点在相邻帧图像的投影位置，通过最小化重投影误差优化相机运动，这要求计算机必须完成相邻帧之间的特征点匹配；直接法则避免了这一过程，通过最小化光度误差求解。Klein等提出了算法PTAM，该算法首次引入关键帧的概念，大大降低了计算量，同时采用多线程模式，并行处理跟踪与建图，为视觉SLAM框架成型打下基础，此外还首次用非线性优化取代过去的滤波方法，该算法是SLAM领域的一项重要成果；Raúl等在PTAM的基础上提出算法ORB-SLAM，这是一个面向单目相机的SLAM算法，提取ORB特征点，通过对极几何实现位姿跟踪，并引入回环检测模块消除累计误差；随后Raúl对算法进行了更新，使其对双目相机和RGB-D也有了较好的支持；Kerl等提出一种基于直接法的SLAM算法DVO-SLAM，对于RGB-D采集的RGB图像和深度图，算法会先设定一个运动变换量，再从前一帧和关键帧中选取梯度变化明显的点作为参考点，并根据运动变换在新一帧图像中找到对应点，通过一个最小化残差函数来优化运动变换量；Jakob等提出算法LSD-SLAM，该算法在光度误差代价函数中引入了归一化方差，用于降低深度估计和图像噪声造成的不确定性影响。以上方法均基于对环境的静态假设，然而大部分实际环境都会存在动态物体，这将对整个SLAM过程产生干扰，尤其是直接法，因缺少特征提取的环节，当环境中存在动态物体时，其定位和建图精度都会受到影响，特征点法有相对较好的鲁棒性，但在动态物体多、移动速度快的场景下依然难以满足要求。

Yu等人结合深度学习提出了算法DS-SLAM，首先通过语义分割网络SegNet识别图像中的潜在动态目标，随后通过极线几何检测相邻两帧图像识别外点，若某一潜在动态目标内外点数量过多，则认为该目标为动态目标并将其剔除，但是当目标沿极线方向运动时，算法将难以识别出外点；Bescós等同时使用两种方式判断图像中的动态区域，先使用Mask-CNN进行语义分割，滤除环境中所有潜在动态目标，对于不具备先验知识，无法进行分割的目标，采用多视图几何方法判断相邻帧图像像素点的深度变化以检测外点，但该算法将部分处于静态的目标也一并滤除，造成了信息的损失；Zhang等提出了算法VDO-SLAM，该方法通过语义分割网络过滤潜在动态目标，利用静态背景完成SLAM过程，此外作者还对通过场景流的方式识别环境中的动态目标，并对其位姿进行实时估计，通过一种因子图模型实现了静态地图、相机位姿和动态目标的全局优化，该算法在室外大规模场景下能基本满足功能需求，但其动态目标识别过程中的准确率和召回率有待提升。

当前，针对动态场景的SLAM算法框架已基本成熟，其中直接滤除所有潜在动态目标的策略会损失大量信息，在静态背景纹理不丰富或目标数目较多的场景下，跟踪的精度将受到影响。解决该问题的一种有效方法是，将静态目标作为SLAM解算过程的输入，而该策略将高度依赖对动态目标的正确识别，此外识别精度也是影响动态目标跟踪结果的关键因素，因此如何提高动态目标的识别精度是研究的关键问题。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于重投影误差和深度估计的动态SLAM方法解决了动态目标识别精度低、动态目标跟踪难度大的问题。

为了达到上述发明目的，本发明采用的技术方案为：

S1、获取RGB图像，提取RGB图像的ORB特征点；

S2、对RGB图像预处理，得到静态背景、目标标签、像素点还原至世界坐标系的坐标和进行帧间匹配后的像素点；

S3、根据RGB图像的ORB特征点、静态背景、目标标签、像素点还原至世界坐标系的坐标和进行帧间匹配后的像素点计算并根据重投影误差和深度残差得到动态目标和静态目标；

S4、根据动态目标、静态背景和静态目标，完成SLAM并实时估计动态目标位姿；

S5、对动态目标位姿进行光束平差优化。

进一步地，对RGB图像预处理通过以下三个网络完成：

深度生成网络，通过PSMNet网络的一个CNN通道分别提取左目和右目图像特征，并通过SPP模块收集上下文信息，将左目和右目特征图连接成一个代价容量函数，输入3D CNN进行正则化，通过视差回归生成深度图，根据深度图将RGB图像中所有像素点还原至世界坐标系，得到像素点还原至世界坐标系的坐标；

实例分割网络，在Mask R-CNN网络中引入RPN模块和ROI Align模块对RGB图像进行分割，并将分割后的RGB图像划分为静态背景和目标掩膜；

光流网络，通过PWC-Net网络对RGB图像中随机采样的像素点进行帧间匹配，得到进行帧间匹配后的像素点。

进一步地，步骤S3的具体实现方式如下：

相机和动态目标沿不同方向运动时：

S3-1、根据公式：

T_i＝T_i-1X_i＝T_i-1X_i-1

得到相机当前位姿T_i；其中，上一帧相机的变换矩阵为X_i-1，位姿为T_i-1，i为目标在上一帧的第i个ORB特征点；

S3-2、根据公式：

得到

在世界坐标系下的齐次坐标

其中，k表示ORB特征点的序号；i-1表示该点由第i-1帧图像逆投影得到；

S3-3、根据公式：

得到重投影误差e_r；其中，n为目标采样点的个数；

为目标采样点在当前帧的像素位置；||·||²为二范数；

S3-4、当重投影误差小于设定阈值时，目标为静态；当重投影误差大于设定阈值时，目标为动态；

相机和动态目标沿相同方向运行时：

S3-5、根据公式：

得到当前帧相机坐标系下的位置

其中，j-1表示该点由第j-1帧图像逆投影得到；j表示目标在上一帧第j个ORB特征点；k’表示ORB特征点的序号；

S3-6、根据公式：

得到经光流网络找到目标在当前帧的像素位置并逆投影至三维世界得到目标在当前帧相机坐标系下的位置

其中，

为目标采样点在当前帧的像素位置；

S3-7、根据公式：

得到深度残差e_d；其中，z(·)表示取齐次坐标z轴上的值；n’表示目标采样点的个数；

S3-8、当深度残差超过设定的阈值时，该目标为动态目标；当深度残差低于设定的阈值时，该目标为静态目标；

进一步地，S4-1、将静态背景和静态目标输入视觉里程计模块，得到相机位姿和ORB特征点；

S4-2、将动态目标输入目标位姿估计模块，得到动态目标当前位姿。

进一步地，步骤S4-2的具体实现方式如下：

S4-2-1、根据公式：

m_a＝X_om_a'

得到动态目标变换矩阵X_o；其中，m_a＝(x_a,y_a,z_a)^T为动态目标在上一帧的第a个ORB特征点的齐次坐标；相机当前位姿为T_c∈SE(3)；第a个ORB特征点在当前帧相机的归一化平面投影的齐次坐标p_a＝(u_a,v_a,1)^T；m_a'为ORB特征点m_a在当前帧世界坐标系的齐次坐标；

S4-2-2、根据目标变换矩阵和动态目标在上一帧的齐次坐标得到动态目标在当前帧的位姿，即动态目标当前位姿。

提供一种电子设备，设备包括：

存储器，存储有可执行指令；以及

处理器，被配置为执行存储器中可执行指令以实现基于重投影误差和深度估计的动态SLAM方法。

本发明的有益效果为：本发明的识别动态目标的准确度和求取的轨迹精度高；在静态目标多、图像平面上占据的面积较大时，本发明能够提取更多静态特征点，显著提升识别准确度；本发明的相对位姿误差变化幅度和最大误差更小，在运行过程中偏移量更小且更加平稳；本发明降低了假阳性样本数量，提升了识别精确率，对位姿误差产生了优化效果，提高了相机在动态场景下的定位精度。

附图说明

图1为本发明流程图；

图2为相对位姿误差对比图，其中，图2(a)为ORB-SLAM2的相对位姿误差图，图2(b)为本发明的相对位姿误差图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，S1、获取RGB图像，提取RGB图像的ORB特征点；

S5、对动态目标位姿进行光束平差优化。

进一步地，对RGB图像预处理通过以下三个网络完成：

进一步地，步骤S3的具体实现方式如下：

相机和动态目标沿不同方向运动时：

S3-1、根据公式：

T_i＝T_i-1X_i＝T_i-1X_i-1

S3-2、根据公式：

得到

在世界坐标系下的齐次坐标

S3-3、根据公式：

得到重投影误差e_r；其中，n为目标采样点的个数；

为目标采样点在当前帧的像素位置；||·||²为二范数；；

相机和动态目标沿相同方向运行时：

S3-5、根据公式：

得到当前帧相机坐标系下的位置

S3-6、根据公式：

其中，

为目标采样点在当前帧的像素位置；

S3-7、根据公式：

进一步地，步骤S4-2的具体实现方式如下：

S4-2-1、根据公式：

m_a＝X_om_a'

如图2所示，相较于ORB-SLAM2，本发明的相对位姿误差变化幅度和最大误差更小，说明ORB-SLAM2在动态环境下的运行更加稳定，同时可以注意到，ORB-SLAM2在序列起始阶段误差较大，随着时间推进逐步趋于平缓，这意味着ORB-SLAM2在初始化过程中就产生了较大偏移，使得最终生成轨迹的误差，即ATE值偏大。

在本发明的一个实施例中，视觉里程计模块，采用与ORB-SLAM 2相同的设计求解相机位姿。

本发明以绝对轨迹误差和相对位姿误差作为评价指标，在部分满足条件的视频序列上进行了实验，这些序列的共同特点是：环境中存在大量动态目标且相机处于运动状态。根据公式：

得到每个动态目标位姿的绝对轨迹误差ATE和相对位姿误差RPE；其中，T_esti,μ表示第μ个动态目标位姿的测量值，T_gt,μ表示第μ个位姿的真实值；N表示总共有多少帧；gt表示位姿真实值；Δt表示所隔时间差，

表示动态目标从μ时刻到μ+Δt时刻位姿的变换矩阵；v表示将反对称矩阵转变为对应向量；在Tracking数据集下的表现如表1所示，标记为“-”的部分表明算法无法在该序列中完成跟踪。

表1

从表1可以得到，本发明求取的轨迹精度整体更高，但在部分序列中表现不及ORB-SLAM2，序列0000虽为室外场景，但动态目标较少，且相机移动距离小，在所有序列中属于小规模低动态场景，ORB-SLAM2在这类场景下依然能保持较好的性能，同时小规模场景意味着动态目标与相机距离更接近，在图像平面上占据的像素也更多，致使本发明可以参考的静态背景面积更小，最终性能略次于ORB-SLAM2；序列0020的数据采集于拥堵的高速公路，该场景属于大规模场景，车辆占据大部分视野，且大部分车辆处于缓慢移动的状态，同时车辆以外区域纹理信息不丰富，这种环境下，VDO-SLAM能参考的静态特征点数目少，且分布较为集中，因此表现效果最差，本发明虽保留了部分静止目标的特征点，但大量区域的缺失使得效果同样不佳，而ORB-SLAM2依然能在这类低动态场景下保持良好的性能。剩余的序列中，本发明均能保持较高的定位精度，相较于原始的ORB-SLAM2，本文发明有较为显著的提升，且动态程度越高提升越明显。值得注意的是，在不同的序列中，本发明相对于VDO-SLAM的提升有所变化，当环境中动态目标占比较多时提升不明显，如序列0003为公路上的车辆超车场景，该序列中动态目标多，静态目标几乎不存在，这种场景下本发明不得不将几乎所有的车辆滤除，与VDO-SLAM的过滤策略效果相近，而在动态目标占比较少的场景中，如序列0007，静态目标多，在图像平面上占据的面积较大，此时本发明能提取更多的静态特征点，故算法能有较明显的提升。

根据公式：

得到精确率P和召回率R；其中，对样本的每一帧进行分割，得到真阳性样本TP、假阳性样本FP和假阴性样本FN；

根据精确度和召回率将本发明和VDO-SLAM的对动态目标识别准确度进行对比，其结果如表2所示，其中Precision为精确率，Recall为召回率。

表2

实验选取的序列均包含足够数量的正样本和负样本，根据数据不难看出，本发明在保持召回率与VDO-SLAM基本持平的情况下，明显降低了假阳性样本数量，提升了识别精确率，结合表1可以发现，精确率的提升又间接提高了轨迹精度，并对位姿误差产生了一定的优化效果。

实验中，序列0000属于小规模场景，物体与相机距离较近，能够进行稳定的动态目标识别与跟踪；序列0011是跟车行驶场景，动态目标数目多，场景规模较大，但由于前车与相机距离较近，且对部分距离较远的目标形成了遮挡，减少了正样本数量，因此有较高的召回率。

当静态目标因光照变化、视角变化和图像模糊等原因出现较大帧间差异时，容易被错误识别为动态目标。在实验中，这类假阳性检测主要发生在图像的两侧区域，这是因为重投影误差和深度估计的输入是点集的三维坐标，而三维坐标的求解依赖于PWC-Net生成的深度图，同时深度在图像边缘区域的预测是离散的，存在较大误差，因此误差结果容易超过阈值，致使静态目标被错误识别为动态目标。在静态目标占比小的序列里，假阳性检测的数目下降，故精确率提升。

本发明的识别动态目标的准确度和求取的轨迹精度高；在静态目标多、在图像平面上占据的面积较大时，本发明能够提取更多静态特征点，显著提升识别准确度；本发明的相对位姿误差变化幅度和最大误差更小，在运行过程中偏移量更小且更加平稳；本发明降低了假阳性样本数量，提升了识别精确率，对位姿误差产生了优化效果，提高了相机在动态场景下的定位精度。

Claims

1.一种基于重投影误差和深度估计的动态SLAM方法，其特征在于，包括以下步骤：

S1、获取RGB图像，提取RGB图像的ORB特征点；

S5、对动态目标位姿进行光束平差优化。

2.根据权利要求1所述的一种基于重投影误差和深度估计的动态SLAM方法，其特征在于，对RGB图像预处理通过以下三个网络完成：

3.根据权利要求2所述的一种基于重投影误差和深度估计的动态SLAM方法，其特征在于，步骤S3的具体实现方式如下：

相机和动态目标沿不同方向运动时：

S3-1、根据公式：

T_i＝T_i-1X_i＝T_i-1X_i-1

S3-2、根据公式：

得到

在世界坐标系下的齐次坐标

S3-3、根据公式：

得到重投影误差e_r；其中，n为目标采样点的个数；

为目标采样点在当前帧的像素位置；||·||²为二范数；

相机和动态目标沿相同方向运行时：

S3-5、根据公式：

得到当前帧相机坐标系下的位置

S3-6、根据公式：

其中，

为目标采样点在当前帧的像素位置；

S3-7、根据公式：

S3-8、当深度残差超过设定的阈值时，该目标为动态目标；当深度残差低于设定的阈值时，该目标为静态目标。

4.根据权利要求2所述的一种基于重投影误差和深度估计的动态SLAM方法，其特征在于，步骤S4的具体实现方式如下：

S4-1、将静态背景和静态目标输入视觉里程计模块，得到相机位姿和ORB特征点；

5.根据权利要求4所述的一种基于重投影误差和深度估计的动态SLAM方法，其特征在于，步骤S4-2的具体实现方式如下：

S4-2-1、根据公式：

m_a＝X_om_a'

得到动态目标变换矩阵X_o；其中，m_a＝(x_a,y_a,z_a)^T为动态目标在上一帧的第a个ORB特征点的三维点齐次坐标为一个四维向量，最后一维是1；相机当前位姿为T_c∈SE(3)；第a个ORB特征点在当前帧相机的归一化平面投影的齐次坐标p_a＝(u_a,v_a,1)^T；m_a'为ORB特征点m_a在当前帧世界坐标系的齐次坐标；

6.一种电子设备其特征在于，所述设备包括：

存储器，存储有可执行指令；以及

处理器，被配置为执行所述存储器中可执行指令以实现权利要求1～5中任一项所述的方法。