CN117029802A

CN117029802A - 一种基于深度学习的多模态slam方法

Info

Publication number: CN117029802A
Application number: CN202211380256.0A
Authority: CN
Inventors: 朱杰; 刘弨; 段章领; 王梦然; 杨建文; 仰劲涛; 夏浩源; 王坤
Original assignee: Hefei Turing Era Technology Co ltd
Current assignee: Hefei Turing Era Technology Co ltd
Priority date: 2022-11-05
Filing date: 2022-11-05
Publication date: 2023-11-10

Abstract

本发明涉及矿山智能定位与导航技术领域，解决了井下SLAM的特征提取准确度和难度变大的技术问题，尤其涉及一种基于深度学习的多模态SLAM方法，包括以下步骤：S1、通过相机提取当前帧图像帧的信息，生成图像特征金字塔；S2、获取激光雷达当前帧激光帧的信息，并通过逆深度缩放算法对点云进行逆深度缩放后生成点云特征金字塔；S3、将图像特征金字塔和点云特征金字塔作为输入进入双向相机‑激光雷达融合模块，得到融合后的图像和点云特征输出图像特征点。本发明能够在矿山井下非结构化、弱光照、无纹理的环境特征下，提高井下SLAM的特征提取准确度，同时降低提取难度，满足井下机器人感知和定位的需求。

Description

一种基于深度学习的多模态SLAM方法

技术领域

本发明涉及矿山智能定位与导航技术领域，尤其涉及一种基于深度学习的多模态SLAM方法。

背景技术

煤矿巷道、采掘工作面等作业区域具有典型的非结构化环境特征，且GPS技术无法直接应用于井下，进而导致煤矿开采时矿难频发，急需机械化换人、自动化减人和提高矿山智能化水平。而构建适用于煤矿机器人的自主定位***方案，解决井下机器人精准定位、姿态感知等问题。如何快速突破惯导、激光和相机等多信息融合的井下机器人精准感知与定位技术，是实现井下机器人局部自主的关键。

然而正由于矿山井下非结构化、弱光照、无纹理的环境特征下，井下SLAM的特征提取准确度和难度变大，成为井下机器人感知和定位的主要难点。

发明内容

针对现有技术的不足，本发明提供了一种基于深度学习的多模态SLAM方法，解决了井下SLAM的特征提取准确度和难度变大的技术问题，能够在矿山井下非结构化、弱光照、无纹理的环境特征下，提高井下SLAM的特征提取准确度，同时降低提取难度，满足井下机器人感知和定位的需求。

为解决上述技术问题，本发明提供了如下技术方案：一种基于深度学习的多模态SLAM方法，包括以下步骤：

S1、通过相机提取当前帧图像帧的信息，生成图像特征金字塔；

S2、获取激光雷达当前帧激光帧的信息，并通过逆深度缩放算法对点云进行逆深度缩放后生成点云特征金字塔；

S3、将图像特征金字塔和点云特征金字塔作为输入进入双向相机-激光雷达融合模块，得到融合后的图像和点云特征输出图像特征点；

S4、对得到的图像特征点使用KLT光流跟踪法进行跟踪，利用重投影误差做误差状态迭代卡尔曼滤波状态更新得到最新的相机位姿；

利用IMU先验对激光雷达进行位姿预测和误差状态迭代卡尔曼滤波更新位姿估计，随后生成视觉里程计因子和激光雷达里程计因子；

S5、将视觉里程计因子、激光雷达里程计因子和IMU预积分因子加入因子图中进行优化；

S6、根据优化后的因子图进行三维地图建模。

进一步地，在步骤S1中，通过相机提取当前帧图像帧的信息，生成图像特征金字塔，具体过程包括以下步骤：

S11、订阅当前相机获得的相邻两帧图像帧的信息；

S12、以PWCNet神经网络结构为基础为图像生成图像特征金字塔。

进一步地，在步骤S2中，获取激光雷达当前帧激光帧的信息，并通过逆深度缩放算法对点云进行逆深度缩放后生成点云特征金字塔，具体过程包括以下步骤：

S21、订阅当前激光雷达获得的帧点云的信息；

S22、先对得到的点云进行逆深度缩放以保证图像和点云一一对应；

S23、以PointPWC-Net神经网络结构为基础，为经过逆深度缩放后的点云生成点云特征金字塔。

进一步地，在步骤S4中，具体过程包括以下步骤：

S41、对步骤三融合的图像帧的特征点进行KLT光流跟踪；

S42、将一个特征点最新的观测帧与在滑动窗口中最老的一帧、两帧对应的IMU位姿估计做重投影误差建立残差关系，最后用误差状态卡尔曼滤波对重投影误差建立的残差关系进行状态更新；

S43、发布视觉里程计因子；

S44、利用IMU先验对激光雷达进行位姿预测和误差状态迭代卡尔曼滤波更新位姿估计；

S45、发布雷达里程计因子。

进一步地，在步骤S5中，将视觉里程计因子、激光雷达里程计因子和IMU预积分因子加入因子图中进行优化，具体过程包括：

S51、向因子图中添加IMU预积分因子；

S52、向因子图中添加相机里程计因子；

S53、向因子图中添加激光雷达里程计因子；

S54、分别求取激光雷达里程计因子、相机里程计因子以及IMU预积分因子关于状态量的雅克比矩阵，使用Levenberg-Marquardt法求解状态量完成因子图的优化。

进一步地，在步骤S6中，根据优化后的因子图进行三维地图建模，具体过程包括：

在ros***中利用map_server服务器配置rgbdslam包并联合因子图优化后的全部数据进行三维地图建模。

借由上述技术方案，本发明提供了一种基于深度学习的多模态SLAM方法，至少具备以下有益效果：

本发明使用基于深度学习的激光雷达、相机和IMU的SLAM方法，将激光雷达的点云特征与相机的图像特征通过深度神经网络提取，解决了井下SLAM的特征提取准确度和难度变大的技术问题，能够在矿山井下非结构化、弱光照、无纹理的环境特征下，提高井下SLAM的特征提取准确度，同时降低提取难度，满足井下机器人感知和定位的需求。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明多模态SLAM方法的步骤流程图；

图2为本发明多模态SLAM方法的原理框图；

图3为本发明图像特征金字塔的示意图；

图4为本发明点云特征金字塔的示意图；

图5为本发明图像特征金字塔与点云特征金字塔由双向相机-激光雷达融合模块的融合示意图；

图6为本发明双向相机-激光雷达融合模块的原理框图；

图7为本发明融合感知插值算法的原理图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。借此对本申请如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本实施例充分考虑了矿山井巷非结构化环境特征且GPS技术无法直接运用的因素，由于矿山井巷非结构化环境特征，所以在一定情况下，激光雷达无法采集到足够的特征点云，但是IMU可以不依赖于外部信息，独立于其它传感器存在，故IMU可以在无足够的特征点云时进行预积分，弥补没有足够特征点云的缺陷。进而对激光雷达进行点云的特征提取，相机也可以提供视觉特征与点云特征进行匹配。同时，运用神经网络对相机和激光雷达帧进行特征提取，能够显著提高特征提取的效率，从而优化整个***，从而使整个***保持稳定。

请参照图1-图7，示出了本实施例的一种具体实施方式，本实施例将激光雷达的点云特征与相机的图像特征通过深度神经网络提取并融合后的特征信息进行一同优化运算，结合神经网络在特征提取较传统方法的的显著优势和一种新的相机、雷达数据融合的双向融合管道在多模态数据联合的新方法，对矿山井下非结构化、弱光照、无纹理环境下SLAM问题中，关于特征提取难以及多模态数据融合难作出有效的解决。

请参照图1和图2，本实施例提出了一种基于深度学习的多模态SLAM方法，包括以下步骤：

在步骤S1中，通过相机提取当前帧图像帧的信息，生成图像特征金字塔，具体过程包括以下步骤：

S11、订阅当前相机获得的相邻两帧图像帧的信息；

S12、以PWCNet神经网络结构为基础为图像生成图像特征金字塔；

为图像生成一个如示意图3结构的图像特征金字塔，图像特征金字塔遵循最初的PWCNet神经网络结构，其修改在于对于图像分支，用残差块替换前馈cnn，并对每个卷积层进行批处理归一化。

图像特征金字塔由顶层作为输入，对于每一级，图像特征使用残差块进行因子为2的下采样。

在步骤S2中，获取激光雷达当前帧激光帧的信息，并通过逆深度缩放算法对点云进行逆深度缩放后生成点云特征金字塔，具体过程包括以下步骤：

S21、订阅当前激光雷达获得的帧点云的信息；

具体的，设(P_x,P_y,P_z)和(P_x',P_y',P_z')分别为变换前后点的坐标，逆深度缩放算法通过深度的倒数相等地缩放所有三个维度，即：

变换后的坐标(P_x',P_y',P_z')可通过对上式积分得到：

其中C_x和C_y都设为0，C_z设为1以避免深度为零。

具体的，为经过逆深度缩放后的点云生成一个如图4结构的点云特征金字塔，点云特征金字塔遵循最初的PointPWC-Net神经网络结构。修改在于，原始的PointPWC-Net构建一个三层金字塔，并对点云进行4倍的下采样，如今构建一个六层金字塔，下采样因子为2，以匹配图像特征金字塔各级的级别，然后使用PointConv神经网络来聚合特征。

如图5所示，从级别6到级别2的功能由双向相机-激光雷达融合模块融合以传递补充信息。从顶层开始处理，执行从粗到细的估计方案，直到第2级。

本实施例在激光雷达信息提取中因为点云分布稀疏不符合规则网络而图像特征组织在一个稠密的网格结构中，故难以保证图像像素和点云是一一对应的，为两个模态的融合造成了难题。因此提出了一种逆深度缩放算子用于平衡点云的分布，对点云信息和图像信息的融合在融合前的变换造成了有益效果。

在步骤S3中，具体过程包括：

具体的，将图像特征金字塔点云特征金字塔以及点位置P＝{p_i|i＝1,...N}∈R^N×3作为输入按图5所示的方式匹配进入到图6所示的双向相机-激光雷达融合模块，其中N为点数。

通过将图像特征融合到点云特征上和将点云特征融合到图像特征上，两个分支分别融合图像和点云特征得到融合后的图像和点云特征输出图像特征点。

具体的，将图像特征融合到点云特征上：

首先，将点投影到像平面(表示为X＝{x_i|i＝1,...N}∈R^N×2)来检索对应的二维特征：

其中F(x)表示x点的图像特征，如果坐标不是整数，则可以通过双线性插值得到。然后将提取到的特征H与输入的三维特征g进行拼接，最后通过1×1卷积对融合后的三维特征进行降维处理。

其次，将点云特征融合到图像特征上：

类似地，首先将点投影到像平面(表示为X＝{x_i|i＝1,...N}∈R^N×2)。

由于点云稀疏，提出融合感知插值算法，从稀疏的3D特征创建一个密集的特征映射然后，将“插值”的点云特征与输入图像特征进行串联，最后进行1×1卷积以降低特征维数。

融合感知插值算法的细节在于如图7所示。

对于每个目标像素，找到它周围最近的k个点。采用可学习的MLP和MEAN来聚合特征。

如图7，对于密集图中的每个目标像素q，在图像平面上的投影点中找到它的k个最近邻。使用MLP和MEAN来聚合特征，可以表述为：

其中N_q表示所有邻点，g_i表示点i的三维特征，[·]表示拼接。MLP的输入还包括q与其相邻点之间的2D相似度度量，定义为：

S(q,x_i)＝F(q)·F(x_i)

本实施例为更好地融合相机和雷达特征信息，提出了一种双向相机-激光雷达融合算法，以提高整个***在非结构化环境中的精度。并且由于点云稀疏，在融合时提出了一种感知融合插值算法，以提高相机和激光雷达信息融合的充分性，使得整个***输出更准确的位姿估计，保证地图重建了的准确性。

在步骤S4中，具体过程包括以下步骤：

S41、对步骤三融合的图像帧的特征点进行KLT光流跟踪；

具体的，判断上一帧图像的特征点数量，若上一帧图像的特征点少于10个，直接设为跟踪失败；若跟踪点的数量满足预设阈值，则直接进行LK光流跟踪。

通过视差判断采取何种边缘化的方法，新帧与上一帧视差大则边缘化最老帧，视差小则边缘化上一帧。

在IMU中加入新特征点的先验，按照IMU先验的位姿估计将一个特征点的所有观测加入三角化计算得到最新的观测帧。

随后进行误差状态卡尔曼滤波的实现：一个迭代周期的大致流程：

1、计算平面的参数方程。将计算得到的平面与上一帧的平面点互相匹配得到认为是同一个平面，即位姿变换的观测量。以IMU积分作为先验做误差卡尔曼滤波更新。更新协方差，得到误差的最优估计以及状态向量。在求解增益矩阵K后，得到误差量的后验，进而计算其变化量。当变化量小于阈值时判断其收敛。

2、当误差状态卡尔曼滤波结束退出时更新后验的协方差矩阵。

3、在完成本次状态估计后，将新的帧中的一些点云加入到kd树中，并更新下一帧在地图中查找它的标志。

4、通过若干次迭代逼近结果，用最新的误差状态卡尔曼滤波后验更新滑窗。

S43、发布视觉里程计因子；

S45、发布雷达里程计因子。

在步骤S5中，将视觉里程计因子、激光雷达里程计因子和IMU预积分因子加入因子图中进行优化，具体过程包括：

S51、向因子图中添加IMU预积分因子；

具体的，考虑滑动窗口内两个连续帧b_k和b_k-1之间的IMU测量，IMU预积分测量残差定义如下：

其中[.]_xyz提取了用于误差状态表示的四元数q的向量部分(虚部)。是四元数的三阶误差状态表示。/>是两个连续图像帧的时间间隔内只采用带噪声的加速度计和陀螺仪测量的IMU预积分测量值，加速度计和陀螺仪偏差还包括在残差项中用于在线矫正。

上式中，表示残差的定义；/>分别是对于IMU的位置速度方向预积分量的差值；δb_a、δb_g分别是对于IMU加速度和角速度的偏置量差值；分别是k-1帧IMU坐标系在世界坐标系下对应的位置、速度、旋转；分别是k-1时刻到k时刻两时刻间位置、速度、角速度的预积分估计值；g^W是世界坐标系下的重力矢量；/>是k时刻IMU加速度的偏置量；/>是k时刻IMU角速度的偏置量。

S52、向因子图中添加相机里程计因子；

具体的，考虑第i^th幅图像中第一个观测到的第l^th个特征，在第j^th幅图像中特征观测的残差定义为：

上式中，表示视觉残差的定义，b1，b2为正切平面的两个正交基也就是原点到测量单位球面点的向量a，在球面上的切向单位向量。/>为第l个特征在第j张图像中的像素通过相机内参反向投影到单位球面上的三维坐标。/>为第l个特征在第j张图像中的像素的三维坐标。/>表示从IMU坐标系到相机坐标系的旋转转换矩阵三维坐标表示。/>表示从世界坐标系到IMU坐标系的旋转转换矩阵三维坐标表示。/>表示从相机坐标系到IMU坐标系的位置转换矩阵三维坐标表示。/>表示从IMU坐标系到世界坐标系的位置转换矩阵三维坐标表示。

其中，是使用相机内参将像素坐标转变为单位向量的反投影函数。/>是第i^th幅图像中第l^th个特征的第一次观测。/>是第j^th幅图像中相同特征的观测。由于视觉残差的自由度是2，因此将残差向量投影到切平面上。

S53、向因子图中添加激光雷达里程计因子；

具体的，激光雷达里程计因子为其中ΔT_k,k+1为状态节点X_k与X_k+1之间的相对变换关系。

S6、根据优化后的因子图进行三维地图建模。

在步骤S6中，根据优化后的因子图进行三维地图建模，具体过程包括：

以上实施方式对本发明进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于深度学习的多模态SLAM方法，其特征在于，包括以下步骤：

S6、根据优化后的因子图进行三维地图建模。

2.根据权利要求1所述的多模态SLAM方法，其特征在于：在步骤S1中，通过相机提取当前帧图像帧的信息，生成图像特征金字塔，具体过程包括以下步骤：

S11、订阅当前相机获得的相邻两帧图像帧的信息；

3.根据权利要求1所述的多模态SLAM方法，其特征在于：在步骤S2中，获取激光雷达当前帧激光帧的信息，并通过逆深度缩放算法对点云进行逆深度缩放后生成点云特征金字塔，具体过程包括以下步骤：

S21、订阅当前激光雷达获得的帧点云的信息；

4.根据权利要求1所述的多模态SLAM方法，其特征在于：在步骤S4中，具体过程包括以下步骤：

S41、对步骤三融合的图像帧的特征点进行KLT光流跟踪；

S43、发布视觉里程计因子；

S45、发布雷达里程计因子。

5.根据权利要求1所述的多模态SLAM方法，其特征在于：在步骤S5中，将视觉里程计因子、激光雷达里程计因子和IMU预积分因子加入因子图中进行优化，具体过程包括：

S51、向因子图中添加IMU预积分因子；

S52、向因子图中添加相机里程计因子；

S53、向因子图中添加激光雷达里程计因子；

6.根据权利要求1所述的多模态SLAM方法，其特征在于：在步骤S6中，根据优化后的因子图进行三维地图建模，具体过程包括：