CN116824433A

CN116824433A - 基于自监督神经网络的视觉-惯导-雷达融合自定位方法

Info

Publication number: CN116824433A
Application number: CN202310495293.4A
Authority: CN
Inventors: 韩松芮; 刘华巍; 童官军; 宋尧哲
Original assignee: Shanghai Institute of Microsystem and Information Technology of CAS
Current assignee: Shanghai Institute of Microsystem and Information Technology of CAS
Priority date: 2023-05-05
Filing date: 2023-05-05
Publication date: 2023-09-29

Abstract

本发明涉及一种基于自监督神经网络的视觉‑惯导‑雷达融合自定位方法，包括：获取视频帧序列、惯导数据和激光雷达点云图；将视频帧序列、惯导数据和激光雷达点云图输入至位姿估计网络模型，得到输入视频帧的相对位姿估计；其中，位姿估计网络模型包括：深度预测网络，用于根据输入的视频帧序列得到深度图；特征提取网络，用于分别对输入的视频帧序列、惯导数据和激光雷达点云图提取特征信息，得到视觉特征、动量特征和雷达特征；特征融合网络，用于将视觉特征和雷达特征进行融合得到预融合特征，再将预融合特征与动量特征进行融合，得到融合特征；位姿估计网络，用于根据融合特征预测位姿变换矩阵。本发明提升了自监督深度定位算法的定位精度。

Description

基于自监督神经网络的视觉-惯导-雷达融合自定位方法

技术领域

本发明涉及自定位技术领域，特别是涉及一种基于自监督神经网络的视觉-惯导-雷达融合自定位方法。

背景技术

自定位技术在自动驾驶，SLAM等领域中应用广泛。在某些场景(城市中的楼宇，隧道，山地中的密林，山洞或卫星拒址)中难以使用卫星、北斗、GPS等无线电波技术定位，此时就需要依靠汽车，无人机或机器人随身搭载的摄像头进行自主定位。传统的基于视觉传感器的自定位算法基本流程为：特征提取-特征匹配-位姿计算-后端优化。传统自定位算法依靠完整的全局建图优化固然能取得较高的定位精度，但其计算过程复杂，计算速度缓慢，难以实现实时推理。随着深度学习的流行和不断发展，基于神经网络的视觉自定位算法——深度视觉里程计VO能事先利用数据集通过线下训练出模型，再将训练好的模型直接用于推理，使算法不再需要特征匹配和后端优化步骤，从而易于实现实时推理。深度VO通过通过有监督或无监督学习方式训练优化目标损失函数来提升定位性能。其中，无监督(或自监督)学习不需要获取真实位姿标签就能训练模型，从而能够利用大量的未标注数据，相比于有监督方式其训练成本更低。

自监督VO最早由Tinghui Zhou在2017年提出。自监督VO首先将输入的连续帧图像分别送入一个用于位姿估计的神经网络和一个用于深度估计的神经网络计算得到输入图像的深度图和图像之间的位姿变换，然后利用该深度图和位姿通过对极几何建立的投影关系计算连续帧图像之间的重投影误差，最后通过计算该误差相对于位姿估计和深度估计神经网络各参数的梯度并反向传播更新参数从而达到优化估计的效果。

然而，仅仅依靠单一模态数据进行定位可能会面临数据缺失，信息不足等问题。在当今大数据时代，越来越多的传感器被发明，可以被获取的数据种类越来越多，多模态传感器融合是未来定位技术发展的主要趋势。相比于单模态传感器定位技术，多模态传感器融合定位技术能集合各模态数据的优势进行信息融合和信息补偿，从而实现更高准确度的定位。视频帧信号能够提供最直观的RGB时序信息，对于神经网络学习特征检测至关重要，然而视频帧中可能会存在动态物体从而导致错误判断运动速度，且单目视频帧信号缺少深度信息；惯导信号能提供个体加速度，速度的直接信息，但是惯导自身内部存在各种参数偏置，且会产生误差积累，不利于长时间工作使用；激光雷达信号能提供深度图信息，但是缺少彩色视觉特征，因此激光雷达信号对于缺少深度信息的单目视频帧信号能作为很好的信息补充。双目视频信号虽然也能提供深度信息，但其需要借助左右目匹配算法，因此计算复杂度很高，同时双目相机对光照变化和纹理细节十分敏感，左右目光照不一致和过于单调的纹理场景都可能导致匹配失败。目前已有各种各样的基于神经网络的双模态传感器融合定位算法。例如：深度视觉-动量里程计VIO，深度雷达视觉里程计VLO，深度动量雷达里程计LIO，这些基于双模态传感器融合的深度里程计都或多或少缺乏了某些重要信息的输入，而三个及以上模态传感器融合定位技术的研究都还停留在传统算法阶段。

发明内容

本发明提供一种基于自监督神经网络的视觉-惯导-雷达融合自定位方法，解决了依靠单一模态或双模态自定位信息不足的问题。

本发明解决其技术问题所采用的技术方案是：提供一种基于自监督神经网络的视觉-惯导-雷达融合自定位方法，包括以下步骤：

获取视频帧序列、惯导数据和激光雷达点云图；

将所述视频帧序列、惯导数据和激光雷达点云图输入至位姿估计网络模型，得到输入视频帧的相对位姿估计；

其中，所述位姿估计网络模型包括：

深度预测网络，用于根据输入的所述视频帧序列得到深度图；

特征提取网络，用于分别对输入的视频帧序列、惯导数据和激光雷达点云图提取特征信息，得到视觉特征、动量特征和雷达特征；

特征融合网络，用于将所述视觉特征和雷达特征进行融合得到预融合的修正视觉特征和修正雷达特征，再将预融合的修正视觉特征和修正雷达特征与所述动量特征进行融合，得到融合特征；

位姿估计网络，用于根据所述融合特征预测位姿变换矩阵；

参数优化模块，用于根据所述深度图、位姿变换矩阵以及视频帧计算损失函数，并根据损失函数调整所述位姿估计网络模型的参数。

所述特征提取网络包括：

第一特征提取部分，采用第一卷积网络从所述视频帧序列中提取出视觉特征；

第二特征提取部分，采用LSTM网络从所述惯导数据中提取出动量特征；

第三特征提取部分，将所述激光雷达点云图投影到2D平面，再采用三通道编码的方式将投影到2D平面的激光雷达点云图进行编码，并采用第二卷积网络提取出雷达特征；

其中，所述第一卷积网络和第二卷积网络的结构相同，并共享除了BN层以外的所有网络层的权重；

其中，所述第一卷积网络和第二卷积网络的结构相同，并共享除了BN层以外的所有网络层的权重。

所述特征融合网络包括：

第一融合部分，用于采用通道交换策略将所述视觉特征和雷达特征进行融合得到预融合的修正视觉特征和修正雷达特征；

第二融合部分，用于预融合的修正视觉特征和修正雷达特征与所述动量特征进行进行通道上的拼接，得到融合特征。

所述通道交换策略为其中，V′_k,c表示经过交换策略后的第k层卷积层输出的第c个通道的视觉特征，V_k,c表示第k层卷积层输出的第c个通道的视觉特征，L_k,c表示第k层卷积层输出的第c个通道的雷达特征，a_v,k,c、b_v,k,c、σ_v,k,c和μ_v,k,c分别表示第一卷积网络中BN层的斜率、偏置、均值和方差；a_l,k,c、b_l,k,c、σ_l,k,c和μ_l,k,c分别表示第二卷积网络中BN层的斜率、偏置、均值和方差；δ为阈值。

所述损失函数包括重建误差、深度平滑损失和几何一致性损失，表达式为：其中，L_all为损失函数，L_pe表示重建误差，L_smooth表示深度平滑损失，L_geo表示几何一致性损失，l表示尺度编号，ω₁,ω₂,ω₃分别表示重建误差、深度平滑损失和几何一致性损失的权重。

所述重建误差的表达式为：其中，I_s为源图像，p_s为源图像I_s上的点，I_t为目标图像，p′_s为源图像I_s上的点p_s对应到目标图像I_t的点，SSIM()为结构相似性函数，λ₁和λ₂为权重系数。

所述重建误差的表达式为：L_pe＝λ₁|I′_s-I_s|+λ₂SSIM(I′_s,I_s)，其中，I_s为源图像，I′_s为基于目标图像I_t重建的源图像，SSIM()为结构相似性函数，λ₁和λ₂为权重系数。

所述深度平滑损失的表达式为：其中，D_t为视频帧序列S中t时刻的图像对应的深度图，I_t为目标图像，/>和/>分别表示对二维图像坐标的x方向和y方向求偏导数。

所述几何一致性损失的表达式为：其中，D_t为视频帧序列S中t时刻的图像对应的深度图，D′_t表示利用后续时刻深度图通过位姿变换重建生成的当前t时刻的深度图。

有益效果

由于采用了上述的技术方案，本发明与现有技术相比，具有以下的优点和积极效果：本发明通过设计各模态特征提取网络和多模数据融合网络，利用相似模态优先融合策略和通道交换策略实现了多模态信息之间的充分交互和完善，提升了自监督深度定位算法的定位精度。

附图说明

图1是本发明实施方式基于自监督神经网络的视觉-惯导-雷达融合自定位方法的流程图；

图2是本发明实施方式中位姿估计网络模型的框架图；

图3是本发明实施方式中特征融合的原理图；

图4是本发明实施方式在KITTI数据集seq09和seq10上测试输出的路径轨迹和真实路径的比较图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明的实施方式涉及一种基于自监督神经网络的视觉-惯导-雷达融合自定位方法，如图1所示，包括以下步骤：

步骤1，获取视频帧序列、惯导数据和激光雷达点云图；

步骤2，将所述视频帧序列、惯导数据和激光雷达点云图输入至位姿估计网络模型，得到输入视频帧的相对位姿估计。

其中，位姿估计网络模型如图2所示，该位姿估计网络模型以视频帧序列、惯导数据和激光雷达点云图作为输入，输出为输入序列每一时刻的相对位姿估计。对于输入中的视频帧序列，有三条并行处理支路，其一为经过深度预测网络DepthNet得到的深度图D；其二是和惯导数据以及激光雷达点云图一起输入到多模态特征提取网络，然后经过具有特征融合功能的位姿估计网络PoseNet得到对应时刻的相对位姿估计(位姿变换矩阵T)；其三是结合深度图D，位姿变换T来计算损失函数。该位姿估计网络模型利用视频帧、深度图和位姿计算自监督损失函数并通过梯度下降反向传播优化网络参数。经过多次训练迭代直到模型收敛。

本实施方式中的位姿估计网络模型包括：深度预测网络、特征提取网络、特征融合网络、位姿估计网络和参数优化模块。

特征提取网络实现对各模态特征的提取。

对来自单目摄像头的视频帧序列采用七层卷积网络(ConvNet)提取视觉特征，每一层卷积层后面都紧接着一层批归一化层(BN层)和一层非线性激活函数层(relu层)。将输入视频帧序列中的每一帧视频帧F_t和它的后一帧F_t+1按通道拼接以后输入网络提取空间信息和时序信息，得到视觉特征V_t：

V_t＝ConvNet(F_t,F_t+1)

对来自惯导的IMU信号X_t采用LSTM网络进行时域信息提取，取LSTM网络最后一个隐藏层的值作为输出动量特征I_t：

I_t＝LSTM(X_t)

对来自激光雷达数据格式为(x,y,z,i)的点云信号，其中，x,y,z代表三维空间坐标，i代表强度(和物体表面照度，反射度有关)，采用柱坐标投影的方式先将稀疏无序的点云投影到2D平面：

α和β分别表示柱坐标的俯仰角和偏航角，同时也是平面投影图的横纵坐标。当有多个3D点映射到同一坐标时，只取离坐标原点(激光雷达传感器中心)最近的3D点作为对应投影点。采用三通道编码的方式将投影后的2D投影图编码为(投影图中每个坐标处的三通道像素值)。有些坐标处没有任何3D点与之对应，则将这些坐标处的通道值设置为默认值0。直接采用和处理视频信号相同的ConvNet网络对投影后的雷达投影图M_t提取特征L_t，其中除了BN层以外的所有网络的权重共享：

L_t＝ConvNet(M_t,M_t+1)

常见的基于神经网络的多模态特征融合手段是先分别用不同的特征编码器提取各模态数据的特征并按某个维度对齐，然后将各模态特征按该维度拼接后送入融合网络进行处理。这种做法在基于双模态融合的深度里程计中最常见。然而在三模态融合中，直接使用三模态数据通道拼接的方法对于模型来说除了需要去学习某个模态如何去和另外两个模态进行融合(即融合方式)，还需要学习该模态何时应该和哪一个模态进行融合(或者和另外两个模态同时融合)(即融合顺序)，因此会使得模型的训练变得更加困难和迟缓。

本实施方式中的特征融合网络遵循一个固定的融合顺序：先进行较为简单，直观的相似模态之间的融合，再进行较为复杂，抽象的非相似模态之间的融合。由于雷达点云数据可以通过投影变换转化为2D的图像表征继而可以先和相似模态的视频帧序列信号的特征进行融合，然后再将融合结果与数据格式差异较大的IMU信号的特征做进一步融合。

在进行视频特征和雷达特征的融合时，首先将两种相似模态的数据分别输入除了BN层以外所有权重共享的特征提取网络(ConvNet)，并采用通道交换策略：

上式的两行分别表示第k层卷积层输出的第c个通道的视觉特征V_k,c和雷达特征L_k,c经过的BN层的表达式(a_v,k,c、b_v,k,c、σ_v,k,c和μ_v,k,c分别表示第一卷积网络中BN层的斜率、偏置、均值和方差；a_l,k,c、b_l,k,c、σ_l,k,c和μ_l,k,c分别表示第二卷积网络中BN层的斜率、偏置、均值和方差)，通道交换策略根据BN层权重值中斜率a的大小来判断其前一层卷积层输出特征图的各通道信息的重要程度和完整程度，斜率值过小(这里设置阈值为δ)意味着在梯度回传参数更新的时候模型在该通道处的参数更新权重小，即该通道的信息不完整或不重要，因此在下一次迭代的时候将该卷积层输出的特征图在该通道处的分量替换为另一个相似模态特征图对应位置处的通道分量(上式中第二行对应的情况就是将视觉特征通道更换为了雷达特征通道)，以达到补充缺失信息的效果，这是因为相似模态经历了某些相同网络层(权重共享)之后输出的特征图对应通道处的特征分量应当包含相似的语义信息(光照，深度等)，因此模态之间的这些信息可以相互补充和完善。

经过相似模态融合得到了预融合的修正视觉特征V′_t和雷达特征L′_t，然后再将预融合的视觉特征和雷达特征，再与IMU特征提取网络输出的动量特征I_t进行通道上的拼接，得到融合特征。

本实施方式中的位姿估计网络由SE模块和LSTM组成的PoseNet，其将上述融合特征作为输入，得到预测位姿变换矩阵T_t：

T_t＝PoseNet(V′_t,L′_t,I_t)

本实施方式中的深度预测网络在进行预测时，给定一张视频帧图像I_t，将它和它的下一帧图像I_s拼接起来输入深度预测网络(DepthNet)，深度预测网络通过对比前后帧图像计算出I_t的深度图D_t：

D_t＝DepthNet(I_t,I_s)

本实施方式中的参数优化模块根据所述深度图、位姿变换矩阵以及视频帧计算损失函数，并根据损失函数调整所述位姿估计网络模型的参数。其中，损失函数包括重建误差、深度平滑损失和几何一致性损失。

在计算重建误差时，给定两张连续帧图片I_t(目标图像)和I_s(源图像)，现在通过深度预测网络(DepthNet)和位姿估计网络(PoseNet)已经得到了它们的深度图D_t和D_s，以及它们之间的位姿变换T_t→s，对于I_s中的任意一点p_s∈I_s，根据像素——相机坐标变换公式可得到其在I_t上的位置p′_s：

其中，～代表位置对应关系，即I_t上的点p′_s和I_s上的点p_s是真实世界中的同一点，K表示相机内参矩阵。类似的，将所有I_s上的点都投影到I_t上(忽略掉投影后超出边界的点)就能得到所有I_s上的点在I_t上的位置，此时就能根据I_t上相应位置的像素点的RGB值来重建I′_s，进而将重建的I′_s和I_s进行比较计算重建误差L_pe，重建误差L_pe即为：

或L_pe＝λ₁|I′_s-I_s|+λ₂SSIM(I′_s,I_s)

其中，SSIM()为结构相似性函数，λ₁和λ₂为权重系数，I′_s满足：

为了使深度预测网络DepthNet输出的深度图具有平滑和尺度一致性，需要采用深度平滑损失L_smooth和几何一致性损失L_geo对DepthNet进行额外的约束：

其中，D_t为视频帧序列S中t时刻的图像对应的深度图，和/>分别表示对二维图像坐标的x方向和y方向求偏导数，D′_t表示利用后续时刻深度图通过位姿变换重建生成的当前t时刻的深度图。

为了减少投影过程中的无效点匹配，最终的损失函数L_all的表达式为：

其中，l表示尺度编号，ω₁,ω₂,ω₃分别表示重建误差、深度平滑损失和几何一致性损失的权重。通过计算L_all相对于所有网络参数的梯度，反向传播更新网络参数，经过多次迭代直到模型收敛。

为了验证本实施方式的有效性，比较了本实施方式和近几年其他基于无监督深度学习的定位算法在KITTI数据集上的性能，如表1和表2所示。

表1多种无监督神经网络定位算法的平均平移误差和平均旋转误差比较

表2多种无监督神经网络定位算法的绝对轨迹误差和相对位姿误差比较

表1为在KITTI数据集seq09和seq10上的测试结果，所有算法均使用KITTI数据集的seq00到seq08进行训练，用seq09和seq10进行测试，其中t_rel代表旋转偏移误差，t_tel代表平移偏移误差，分别代表平均每行进100米产生多少米的平移偏差和旋转偏差。(单位：m/100m)。

表2为本实施方式和其他算法在KITTI数据集seq09和seq10上的测试结果，其中ATE代表预测相机位姿和真实相机位姿差值的均方根，RPE代表帧与帧之间的相对位姿误差。

图4为本实施方式在KITTI数据集seq09和seq10上测试输出的路径轨迹和真实路径的比较示意图，通过图4可以看出两条曲线基本吻合，表示本实施方式的定位准确。

Claims

1.一种基于自监督神经网络的视觉-惯导-雷达融合自定位方法，其特征在于，包括以下步骤：

获取视频帧序列、惯导数据和激光雷达点云图；

其中，所述位姿估计网络模型包括：

位姿估计网络，用于根据所述融合特征预测位姿变换矩阵；

2.根据权利要求1所述的基于自监督神经网络的视觉-惯导-雷达融合自定位方法，其特征在于，所述特征提取网络包括：

第三特征提取部分，将所述激光雷达点云图投影到2D平面，再采用三通道编码的方式将投影到2D平面的激光雷达点云图进行编码，并采用第二卷积网络提取出雷达特征；其中，所述第一卷积网络和第二卷积网络的结构相同，并共享除了BN层以外的所有网络层的权重。

3.根据权利要求1或2所述的基于自监督神经网络的视觉-惯导-雷达融合自定位方法，其特征在于，所述特征融合网络包括：

4.根据权利要求3所述的基于自监督神经网络的视觉-惯导-雷达融合自定位方法，其特征在于，所述通道交换策略为其中，V′_k,c表示经过交换策略后的第k层卷积层输出的第c个通道的视觉特征，V_k,c表示第k层卷积层输出的第c个通道的视觉特征，L_k,c表示第k层卷积层输出的第c个通道的雷达特征，a_v,k,c、b_v,k,c、σ_v,k,c和μ_v,k,c分别表示第一卷积网络中BN层的斜率、偏置、均值和方差；a_l,k,c、b_l,k,c、σ_l,k,c和μ_l,k,c分别表示第二卷积网络中BN层的斜率、偏置、均值和方差；δ为阈值。

5.根据权利要求1所述的基于自监督神经网络的视觉-惯导-雷达融合自定位方法，其特征在于，所述损失函数包括重建误差、深度平滑损失和几何一致性损失，表达式为：其中，L_all为损失函数，L_pe表示重建误差，L_smooth表示深度平滑损失，L_geo表示几何一致性损失，l表示尺度编号，ω₁,ω₂,ω₃分别表示重建误差、深度平滑损失和几何一致性损失的权重。

6.根据权利要求5所述的基于自监督神经网络的视觉-惯导-雷达融合自定位方法，其特征在于，所述重建误差的表达式为：其中，I_s为源图像，p_s为源图像I_s上的点，I_t为目标图像，p′_s为源图像I_s上的点p_s对应到目标图像I_t的点，SSIM()为结构相似性函数，λ₁和λ₂为权重系数。

7.根据权利要求5所述的基于自监督神经网络的视觉-惯导-雷达融合自定位方法，其特征在于，所述重建误差的表达式为：L_pe＝λ₁|I′_s-I_s|+λ₂SSIM(I′_s,I_s)，其中，I_s为源图像，I′_s为基于目标图像I_t重建的源图像，SSIM()为结构相似性函数，λ₁和λ₂为权重系数。

8.根据权利要求5所述的基于自监督神经网络的视觉-惯导-雷达融合自定位方法，其特征在于，所述深度平滑损失的表达式为：其中，D_t为视频帧序列S中t时刻的图像对应的深度图，I_t为目标图像，/>和/>分别表示对二维图像坐标的x方向和y方向求偏导数。

9.根据权利要求5所述的基于自监督神经网络的视觉-惯导-雷达融合自定位方法，其特征在于，所述几何一致性损失的表达式为：其中，D_t为视频帧序列S中t时刻的图像对应的深度图，D_t′表示利用后续时刻深度图通过位姿变换重建生成的当前t时刻的深度图。