CN115046545A

CN115046545A - 一种深度网络与滤波结合的定位方法

Info

Publication number: CN115046545A
Application number: CN202210348112.0A
Authority: CN
Inventors: 徐博; 戴秋阳; 赵玉新; 李浩泽; 吴磊; 周广涛
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2022-03-29
Filing date: 2022-03-29
Publication date: 2022-09-13

Abstract

本发明公开了一种深度网络与滤波结合的定位方法，步骤一：建议视觉惯性里程计运动学模型；步骤二：将时序上相邻k+1帧图像视频序列输入堆叠网络，组合相邻帧的图像得到k组图像对；步骤三：k组图像对输入CNN‑LSTM‑ATT‑VO网络后输出6‑dof的位姿估计Δx,Δy,Δz,

Δλ,Δψ，其中Δx,Δy,Δz分别为x轴、y轴和z轴平移量，

Δλ,Δψ分别为绕x轴、y轴和z轴旋转量；所述网络依次包括卷积神经网络、CBAM模块、LSTM网络和全连接层；步骤四：通过基于李群的以机器人为中心的Kalman滤波算法进行视觉惯性里程计的融合定位。本发明提高了***的鲁棒性并提高了协同定位精度，避免了传统EKF算法的不一致性。

Description

一种深度网络与滤波结合的定位方法

技术领域

本发明属于视觉惯性传感器VIO导航领域，涉及一种深度网络与滤波结合的定位方法，特别是一种基于视觉惯性里程计的深度网络与滤波结合的定位方法。

背景技术

传统的视觉惯性融合框架中的VO位姿估计部分基本上都是手工数学建模并根据时间情况进行参数调节，在很多复杂情况尤其是快速运动以及外界图像信息找不到特征点时，容易在特征匹配环节就出现故障。经过深度学习神经网络训练的VO具有参数学习和非线性模型拟合的能力，本质上就是根据输入的场景图像与导航参数之间的关系进行建模，经过数据的训练来优化整个网络模型的参数量。同时由于IMU信息与图像信息的复杂程度相比属于低维信息，因此利用基于滤波的松耦合方法将深度学习的VO结合IMU的经典框架进行组合导航，不仅能减少状态向量的维度，同时也能增强***的鲁棒性。通过研究基于深度学习的VO通过端到端学习方法在相邻帧图像之间完成位姿估计。在考虑视觉惯性融合方面传统滤波算法更具有实际物理意义，因此将深度学习的VO估计的位姿信息与经过物理建模的IMU模型通过经典的传统滤波算法融合并加以改进使***整体框架具有将两全其美的优势结合在一起的潜力。

发明内容

针对上述现有技术，本发明要解决的技术问题是提供一种基于视觉惯性里程计的深度网络与滤波结合的定位方法，采用基于李群的以机器人为中心的滤波算法(R-EKF)，避免了传统EKF算法的不一致性。通过建立***整体的状态模型，并接受来自深度网络CNN-LSTM-ATT-VO网络的量测信息完成量测更新。

为解决上述技术问题，本发明的一种深度网络与滤波结合的定位方法，包括：

步骤一：建议视觉惯性里程计运动学模型；

步骤二：将时序上相邻k+1帧图像视频序列输入堆叠网络，组合相邻帧的图像得到k组图像对；

步骤三：k组图像对输入CNN-LSTM-ATT-VO网络后输出6-dof的位姿估计 △x,△y,△z,

△λ,△ψ，其中△x,△y,△z分别为x轴、y轴和z轴平移量，

△λ,△ψ分别为绕 x轴、y轴和z轴旋转量；所述网络依次包括卷积神经网络、CBAM模块、LSTM网络和全连接层；

步骤四：通过基于李群的以机器人为中心的Kalman滤波算法进行视觉惯性里程计的融合定位。

进一步的，步骤一具体为：

IMU***状态方程为：

其中，a_m为测量到的加速度计值，ω_m为陀螺仪测量值，是基于载体B系在τ时刻定义的，分别受到噪声n_a和n_ω、随机游走b_a和b_ω的影响；加速度计和陀螺仪上的随机噪声以及随机游走在偏差上的导数为零均值高斯分，i为惯性坐标系，定义局部参考坐标系r_k，r_k是k 时刻的参考系，其中时间k,k+1,...对应于接收图像的时间点，载体坐标系记为B系，B_τ为 τ时刻的载体系，其中τ,τ+1,...对应于时间k和k+1之间接收IMU测量的时间；

为k时刻的局部参考坐标系相对于τ时刻的载体系的旋转矩阵，

为重力矢量，

是τ时刻的载体系相对于惯性系的加速度在载体系上的表示；

在惯性状态保持恒定的情况下，载体的标准状态在连续时间上演变为：

进一步的，卷积神经网络对图像对进行几何关系特征提取，输出表示相邻帧之间几何关系的张量序列。

进一步的，CBAM模块对特征图进行操作为：

F′＝σ(MLP(AP(F))+MLP(MP(F)))⊙F

F″＝σ(f^7×7[AP(F′),MP(F′)])⊙F′

表示输入特征图，

表示经过通道注意力后的一维特征图，

表示最终经过空间注意力机制后的特征图，σ表示sigmoid函数，MLP为FC层，MP表示最大池化，AP表示平均池化。

进一步的，LSTM网络包含两层LSTM，每个LSTM中含有1024个隐藏单元，LSTM 中三个门默认激活函数为Relu函数。

进一步的，全连接层含有128个隐藏单元并在其后加入一个Relu激活函数，对接受特征进行降维。

进一步的，步骤四具体为：

定义状态为：

分别为惯性状态

和载体状态

具体为：

对于惯性状态，

包括I系在参考系r系中k时刻中的姿态，其中

是I 系相对于参考系r系中k时刻的旋转矩阵，

是I系相对于参考系r系中k时刻的平移在参考系中的表示，

是用k时刻r系表示的重力矢量；对于载体状态，

包括B系在k时刻的参考是r系中的姿势，

分别为载体系B系中的载体速度、陀螺仪偏置和加速度计偏置；

标准状态的误差状态向量为：

旋转状态的扰动定义为：

其中C∈SO(3)、

(·)∧为反对称的操作符；

其中，两个误差状态量分别表示如下：

求得连续时间误差状态方程：

式中，F和G分别是经过线性化的***状态和误差的Jacobian矩阵，n为噪声且

将连续模型的***标准状态量与误差状态进行离散化得到，

其中，

为陀螺仪偏置，

为加速度偏置，

是B系相对于参考系r系中k时刻的旋转矩阵，

为k时刻B系相对于I系的速度在k时刻的参考系r系中的表示，△t＝t_k+1-t_k，小标s表示为定值；

将τ到τ+1时刻的状态转移矩阵Φ_τ+1,τ进行一阶表达:

式中,δt＝t_τ+1-t_τ；

求取中间状态的协方差矩阵为：

式中，将噪声假设加速计和陀螺仪上的随机噪声，以及偏置上的随机游走导数被假定为零均值高斯白噪声Q，具体为：

观测量

为深度学习CNN-LSTM-ATT-VO网络输出的相对位姿测量值，其对应的协方差矩阵R简化为对角阵，将量测信息的误差

表示为：

其中，

分别表示K+1时刻的载体系相对于k时刻的参考系的旋转以及平移的估计量；

应用一阶Baker-Campbell-Hausdorff(BCH)公式将对数映射近似为两个旋转向量的相减：

通过上式的微分过程找到量测的jacobian矩阵

量测矩阵H_k+1的具体形式为：

进行常规EKF的更新，得到误差

的估计值：

然后，将

注入到预测的标准状态中得到

最后，将所有状态的参考帧从帧r_k向前移动到帧r_k+1，得到参考帧k+1时刻的状态量

上式中，

为k+1时刻的载体系相对于k时刻的参考系的旋转，

以及

为 k+1时刻的载体系相对于参考系的旋转与平移；当经过误差补偿后得到当前时刻的姿态后，进行下一次EKF迭代。s

本发明的有益效果：本发明涉及一种利用端到端的深度网络结合基于李群的robocentric Kalman滤波算法(R-EKF)完成视觉惯性之间的融合定位，提高***的鲁棒性并提高协同定位精度的方法。本发明中提出了基于李群的以机器人为中心的滤波算法用于深度网络估计的 VO与IMU的位姿估计融合，算法通过已知的IMU的运动学模型状态信息，用深度VO网络的估计作为量测更新。

1.与传统的视觉里程计算法相比，采用深度学习算法具有更强的鲁棒性和无纹理环境的适用性。

2.在深度学习网络中加入注意力机制变为CNN-LSTM-ATT-VO网络，通过注意力机制优化卷积层提取的几何关系特征图，提高定位精度。

3.通过深度学习结合基于传统滤波改进的融合算法，深度学习的VO估计的位姿信息与经过物理建模的IMU模型通过经典的传统滤波算法融合并加以改进使***整体框架将两者算法的优势结合在一起了。

附图说明

图1是以机器人为中心的vio参考系；

图2是CNN-LSTM-VO网络结构图；

图3是CNN-LSTM-ATT-VO网络结构图；

图4是CBAM处理过程

图5是从k到k+1的给定时间步长的***概述；

图6是KITTI序列10轨迹图；

图7是XYZ三方向上的位移图；

图8是绝对轨迹误差图；

图9是轨迹的均方根误差、中位数误差、平均误差、标准差对比。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述。

步骤一：视觉惯性里程计坐标系定义与运动学模型建立；

在本发明中设计的是视觉惯性里程计位姿估计器的目标是相对于惯性参考系来估计载体的位姿信息。惯性坐标系此处为了方便定义为小写i，它是固定在地球上的。此处根据以机器人为中心的滤波算法定义局部参考坐标系r_k是k时刻的参考系，见图1，其中时间k；k+1；... 对应于接收图像的时间点。B系是载体坐标系，是时间τ的车辆框架，其中τ,τ+1,...对应于时间k和k+1之间接收IMU测量的时间。上标和下标用于跟踪物理量的坐标框架。例如，

是B系相对于C系的速度，用A系表示，C_ab是B系相对于A系的旋转矩阵。上标也被用来区分不同类型的量.比如：

用于表示噪声量，

用于表示整个EKF预测过程中的传播量，

用于表示EKF更新后的修正量。

IMU***状态方程的建模根据需求表达如下式(1)，B_τ为τ时刻的载体系，

是τ时刻的载体系相对于惯性系的加速度在载体系上的表示。测量到的加速度计值a_m和陀螺仪测量值ω_m是基于载体B系在τ 时刻定义的，它们分别受到噪声n_a和n_ω、随机游走b_a和b_ω的影响。加速度计的测量还结合了一个固定的重力矢量

并通过旋转矩阵旋转到了B系上，假设加速度计和陀螺仪上的随机噪声以及随机游走在偏差上的导数为零均值高斯分布。

在惯性状态保持恒定的情况下，载体的标准状态在连续时间上演变如式(2)所示：

步骤二：采用深度学习的方式搭建基于视觉里程计的VO网络进行位姿估计；

本发明根据目前现有的卷积网络基础先设计了一种CNN-LSTM-VO网络用于提取图像之间的几何特征关系。针对VO输入的一系列视频序列的信息进行位姿估计，也就是说不再是仅仅针对两张图片之间进行相对位姿估计，而是要对含时间顺序的多帧图像之间的位置姿态进行相对位姿估计的持续输出。网络结构如图2所示，输入的为时序上相邻帧的图像，经过堆叠网络进入CNN-LSTM-VO网络，其中为了适应网络结构事先对输入图像进行预处理，由于不同场景下的图像尺寸不一致为了更好的调节网络结构统一调整图像尺寸大小为1280× 384。预处理后的图像由卷积网络中的卷积部分提取相邻图像帧之间的运动关系特征，假设输入的视频序列长度为k+1，经过堆叠之后组合出相邻帧的图像得到k组图像对，将其经过卷积网络进行特征提取，得到表示相邻帧之间几何关系的张量，并将张量序列输入两层LSTM 网络通过一个FC层来稳固特征并达到降维的目的。最后输出一个6-DOF的相对位姿估计。

(1)卷积网络

为了设计出更有效的CNN架构来学习相邻帧图像之间的几何关系特征，本发明借鉴于 Dosoviskiy提出的Flownet光流网络结构，同时也参考了DeepVO。网络结构中的CNN架构部分，本发明设计CNN-VO时在卷积层预设十层的Conv层，每一层卷积的后面均有一个Relu 函数，同时随着网络深入，特征图谱也随之越发抽象，最后将卷积层提取的特征经过一个最大池化后输入到全连接层得到位姿估计。

表1卷积层相关参数设置

(2)LSTM网络

本发明中考虑添加两层LSTM的主要目的是为了让整个深度网络能够通过数据自主的学习连续多个相邻帧之间位姿的内在联系。LSTM层不仅能学习到历史数据中的状态(即前面多个帧图像之间的位姿关系)，在对当前时刻位姿进行估计时达到传统算法上多帧图像之间的几何约束效果；而且LSTM网络在长序列的数据学习过程中因为其门结构的特殊性，不会产生梯度消失的问题，可以持续保持网络的学习效果。其中第一层LSTM用于接收CNN的输出特征数据，第二层则用于接收第一层的输出并将信息传递给全连接层输出位姿估计的结果。每个LSTM中含有1024个隐藏单元。根据本发明实际需要，将LSTM中三个门默认激活函数从Sigmoid函数改成Relu函数用于更高级的位姿信息表示。

(3)全连接层

在本发明中全连接层的目的主要起强化几何关系特征信息并且对特征进行降维的作用，从LSTM层输出的是高维的特征表示，因此需要将特征信息通过输出到全连接层进行降维操作。本发明中在整个网络的最后只设计了一层FC层，其中含有128个隐藏单元并在其后加入了一个Relu激活函数，最后将降维后的特征信息输出映射为6-dof的位姿估计表示。

△x,△y,△z,

△λ,△ψ

其中△x,△y,△z为平移量，

△λ,△ψ为旋转量。最后经过对输出的6-DOF的位姿信息进行损失函数的设计与优化。

(4)损失函数设计与优化

根据输入时序视频信息，在本发明中，假设输入有n+1组图片，则网络输入的数据为 X＝(X₁,X₂,...,X_n+1)，而输出的位姿估计结果为Y＝(Y₁,Y₂,...,Y_n)，因此在得知输入数据为视频序列的情况下，求得位姿估计结果的概率为下式(3)：

P(Y|X)＝P(Y₁,Y₂,...,Y_n|X₁,X₂,...,X_n+1) (3)

因此整个网络的需要解决的问题就是求出最优的参数w^*要将上式的概率最大化，即如下式(4)所示：

其中w为需要学习的参数，为了找到针对VO位姿估计问题的最优参数w^*，将损失函数设计为基于网络估计位姿与真实轨迹的均方误差MSE的最小化表达如式(5)所示：

其中

表示真实轨迹的位置与姿态，β为加权平衡参数用于平衡位置与姿态之间的关系，||·||₂为2范数。

为了更适应VO的深度网络位姿估计问题，从现行的方法中选取关注图像区域特征的空间自注意力以及注重于学习特征通道来提高表达特征能力的SENet，以及同时关注空间和通道特征学习的CBMA。经过一些论文的验证简单的利用resnet网络与两者结合分别进行注意力标注，早期的论文研究中实验结果表明ResNet加入注意力之后识别率明显提升，且CBAM 比SENet的识别率在图像的特征识别上有更好的性能，因此本发明基于更好的提取相邻帧图像特征的几何关系，决定在原有网络的基础上加入CBAM注意力机制以求得更精确的特征图从而求出精度更高的位姿估计结果，网络结构如图4所示：

CBAM的主要原理就是对特征图进行如式(6)和式(7)所示的操作：

F′＝σ(MLP(AP(F))+MLP(MP(F)))⊙F (6)

F″＝σ(f^7×7[AP(F′),MP(F′)])⊙F′ (7)

CBAM对于图像特征的处理过程。其中通道注意力机制为式(6)的处理过程,空间注意力为式(7)的处理过程。

表示输入特征图，

表示经过通道注意力后的一维特征图，

最终经过空间注意力机制后的特征图。σ表示sigmoid函数，MLP为 FC层，MP表示最大池化，AP表示平均池化，两者均是为了降低参数量而设计。

将CBAM机制加入CNN-LSTM-VO中，加入注意力机制后网络本身并没有在整体结构上有较大的变化，主要是对每一个conv层的输出进行特征优化从而使整个CNN网络预测出来的特征图更符合后续位姿估计的真实精度。

步骤三：通过基于李群的以机器人为中心的Kalman滤波算法(R-EKF算法)进行视觉惯性里程计的融合定位并避免传统kalman不一致性问题。

通过融合视觉和惯性信息该估计器的核心是在提出的以机器人为中心的EKF公式，以机器人为中心的EKF公式相对于局部参考系定义了其所有状态。这包括相对于最新参考状态作为“特征”进行跟踪的惯性状态。在EKF预测期间，车辆状态会在本地参考系中传递。在随着每个新图像的到来执行EKF更新之后，以机器人为中心的EKF在构图步骤中将参考帧从一个时间步移动到下一个时间步。然后，该过程在新的参考帧中重复。预测，更新和组成的三步过程如图5右侧所示。

以机器人为中心的基于李群的误差状态扩展卡尔曼滤波(R-EKF)公式采用了机器人为中心的视觉惯性里程计(VIO)。与其他具有与地球参考惯性系相关的状态的常见公式不同， R-EKF的状态是与与机器人一起移动的参考坐标系相关的。这个公式允许我们融合测量，在本质上是相对的，而不是使用在惯性系中参考的绝对测量。R-EKF也是一个误差状态EKF。误差状态EKF将状态分为标准状态和误差状态。标准状态跟踪全局数据的动态。误差状态跟踪由噪声引起的误差，它们被表述为标准状态的扰动。这意味着误差状态总是在0附近运行，这减少了远离任何奇点的误差，并减少了线性化和离散化相关的误差。

定义状态如(8)所示，分为惯性状态

和载体状态

对于惯性状态

包括I系在参考系r系中k时刻中的姿态，其中

是I系相对于参考系r系中k时刻的旋转矩阵，

是I系相对于参考系r系中k时刻的平移在参考系中的表示，

是用k时刻r 系表示的重力矢量。对于载体状态，

包括B系在k时刻的参考是r系中的姿势，

分别假设为载体系B系中的载体速度、陀螺仪偏置和加速度计偏置。

式中两个状态量分别表示如式(9)所示：

标准状态对应的误差状态向量如式(10)所示。误差状态定义为对标称状态的扰动，除旋转外，其余均定义在欧几里得空间。旋转状态的扰动定义为式(11),其中C∈SO(3)、

而 (·)^是反对称的操作符。

式中两个误差状态量分别表示如下：

将定义的误差扰动代入(11)和(12)求解误差状态，经过一阶Taylor展开并去除所有二阶项，可得连续时间误差状态方程如式(13)所示：

式中F和G分别是经过线性化的***状态和误差的Jacobian矩阵，n为噪声且

其中

为陀螺仪偏置，

为加速度偏置，

是B系相对于参考系r系中k时刻的旋转矩阵，

为k时刻B系相对于I系的速度在k时刻的参考系r系中的表示。

为了进行R-EKF的预测将上式13展示得到连续模型的***标准状态量与误差状态进行离散化可得如式(14)，其中△t＝t_k+1-t_k，小标s表示为定值。

根据EKF的一般步骤求状态转移矩阵，R-EKF将τ到τ+1时刻的状态转移矩阵Φ_τ+1,τ进行一阶进行表达如下(15)所示，式中δt＝t_τ+1-t_τ。

然后我们根据上式的状态转移矩阵求取中间状态的协方差矩阵如式(16)所示，式中我们将噪声假设加速计和陀螺仪上的随机噪声，以及偏置上的随机游走导数被假定为零均值高斯白噪声Q如式(17)。

量测模型：

观测量

来自于深度学习CNN-LSTM-ATT-VO网络输出的相对位姿测量值，其对应的协方差矩阵R假设深度学习输出的6-DOF之间的量测噪声不相关可以简化为对角阵，将量测信息的误差

表示为下式(18)所示：

其中

分别表示K+1时刻的载体系相对于k时刻的参考系的旋转以及平移的估计量。

因为当φ→π时φ＝ln(C)不可微。为了避免这个问题，本发明中应用式(19)所示的一阶Baker-Campbell-Hausdorff(BCH)公式，该公式将对数映射近似为两个旋转向量的相减。这个近似是有效的，因为两个旋转都是极小量。

通过上式的微分过程我们可以找到量测的jacobian矩阵

推导过程如式(20) 与(21)所示，量测矩阵H_k+1的具体形式如式(22)所示。

量测更新：

按照式(23)进行常规EKF的更新，得到误差

的估计值。

然后，根据上述定义的扰动，将

注入到预测的标准状态中，得到

如式24所示。当经过误差补偿后得到当前时刻的姿态后，就可以进行下一次EKF迭代了。

上式中

为k+1时刻的载体系相对于k时刻的参考系的旋转，

以及

为k+1 时刻的载体系相对于参考系的旋转与平移。

同时状态协方差矩阵也必须被传播到下一时刻来反映上式中的操作。

为进一步说明本发明的有益效果，完成了以下仿真对比验证。将KITTI数据集中的序列 10进行算法的验证，IMU的频率为10HZ，相机的频率为100HZ。深度网络训练数据采用序列00-06进行训练。经过算法得出了这些序列的位姿信息，下面是这些序列经过EVO评估工具画出来的轨迹，并与传统视觉里程计单目算法VINS作为比较。从图6、图7可以看出本发明提出的定位算法能够准确估计载体的位置信息。图8、图9给出了本发明定位提出R-EKF 算法估计的轨迹与真实估计之间求取绝对轨迹误差APE，并分别计算轨迹的均方根误差、中位数误差、平均误差、标准差，同时与单目VINS算法对比。可以看出本发明的定位精度更高，因此本发明提供的方法能够比传统的单目视觉惯性里程计算法提高更高的定位精度。

Claims

1.一种深度网络与滤波结合的定位方法，其特征在于，包括：

步骤一：建议视觉惯性里程计运动学模型；

步骤三：k组图像对输入CNN-LSTM-ATT-VO网络后输出6-dof的位姿估计

其中Δx,Δy,Δz分别为x轴、y轴和z轴平移量，

分别为绕x轴、y轴和z轴旋转量；所述网络依次包括卷积神经网络、CBAM模块、LSTM网络和全连接层；

2.根据权利要求1所述的一种深度网络与滤波结合的定位方法，其特征在于：步骤一具体为：

IMU***状态方程为：

其中，a_m为测量到的加速度计值，ω_m为陀螺仪测量值，是基于载体B系在τ时刻定义的，分别受到噪声n_a和n_ω、随机游走b_a和b_ω的影响；加速度计和陀螺仪上的随机噪声以及随机游走在偏差上的导数为零均值高斯分，i为惯性坐标系，定义局部参考坐标系r_k，r_k是k时刻的参考系，其中时间k,k+1,...对应于接收图像的时间点，载体坐标系记为B系，B_τ为τ时刻的载体系，其中τ,τ+1,...对应于时间k和k+1之间接收IMU测量的时间；