WO2022262878A1

WO2022262878A1 - 基于ltc-dnn的视觉惯导组合导航***与自学习方法

Info

Publication number: WO2022262878A1
Application number: PCT/CN2022/112625
Authority: WO
Inventors: 胡斌杰; 丘金光
Original assignee: 华南理工大学
Priority date: 2021-06-16
Filing date: 2022-08-15
Publication date: 2022-12-22
Also published as: CN113392904A; CN113392904B

Abstract

一种基于LTC-DNN的视觉惯导组合导航***与自学习方法，该视觉惯导组合导航***包含深度学习网络模型，其中，深度学习网络模型由视觉特征提取模块、惯导特征提取模块、位姿回归模块构成；视觉特征提取模块用于提取相邻两帧RGB图片的视觉特征；惯导特征提取模块用于提取惯导数据的惯导特征；位姿回归模块包括注意力机制融合子模块、液态时间常量递归神经网络(LTC-RNN)、全连接回归子模块，用于预测相对位移、相对旋转。所述方法对视觉惯导组合导航***进行训练，与同类型算法相比降低对真实标签的依赖性；且深度学习网络模型相对位移和相对位姿估计精度高、对数据损坏的鲁棒性好。

Description

基于LTC-DNN的视觉惯导组合导航***与自学习方法

技术领域

本发明涉及传感器融合和运动估计技术领域，具体涉及一种基于LTC-DNN的视觉惯导组合导航***与自学习方法。

背景技术

随着自动驾驶、无人机的不断发展，实现高精度、高鲁棒性的定位是完成自主导航、探索未知区域的等任务的重要前提，纯视觉里程计方法，利用视觉传感器获取周围的环境信息，通过对视觉数据进行分析，估计运动状态，但是一旦场景中出现遮挡物或者由于数据传输的原因导致视觉数据丢失，运动状态的估计无疑为受到很严重的干扰，误差会原来越大。视觉惯导里程计在纯视觉里程计的基础上添加和惯性测量单元(IMU)信息，可以在视觉失去作用的情况下来提高运动状态估计的精度。

近年来，深度学习技术在计算机视觉领域取得了巨大成就，广泛应用于各个领域中。视觉惯导组合导航作为一项回归任务，同样可以采用深度学习的方法进行训练，但是现有的基于深度学习的视觉惯导组合导航算法在训练过程中，受限于真实标签数量，泛化能力较弱；同时现有的基于深度学习的视觉惯导组合导航任务中需要大量的可训练参数，对其实际应用有着十分巨大的影响。

发明内容

本发明的目的是为了解决现有技术中的上述缺陷，提供一种基于LTC-DNN的视觉惯导组合导航***与自学习方法。

本发明的第一个目的可以通过采取如下技术方案达到：

一种基于LTC-DNN的视觉惯导组合导航***，该视觉惯导组合导航***用于自动驾驶、无人机的自主导航，所述视觉惯导组合导航***包括深度学习网络模型，所述深度学习网络模型由依次顺序连接的视觉特征提取模块、惯导特征提取模块、位姿回归模块组成，其中，

所述视觉特征提取模块用于提取1024维视觉特征，所述视觉特征提取模块的输入为沿着通道叠加的相邻两帧RGB图片，输出1024维视觉特征；

所述惯导特征提取模块包括1024维隐藏状态的第一单层LTC-RNN；所述惯导特征提取模块的输入为所述相邻两帧RGB图片之间的惯导数据，输出为1024维惯导特征；

所述位姿回归模块包括依照顺序连接的注意力机制融合子模块、1000维隐藏状态的第二单层LTC-RNN、全连接回归子模块，其中，注意力机制融合子模块的输入是视觉特征和惯导特征串联得到的串联特征，用于对视觉特征及惯导特征进行加权得到加权融合特征；第二单层LTC-RNN的输入是加权融合特征，输出回归特征；全连接回归子模块的输入是回归特征，输出相对位移、相对旋转的估计。

进一步地，所述视觉特征提取模块由10层卷积神经网络顺序堆叠而成，10层卷积神经网络中前三层卷积神经网络的卷积核大小依次是7×7、5×5、5×5，后面七层卷积神经网络的卷积核大小均是3×3，其中，第四层、第六层和第八层卷积神经网络的卷积步长为1，其余卷积神经网络的卷积步长为2；10层卷积神经网络都使用ReLU激活函数。

进一步地，所述RGB图片在输入特征提取模块前转换成416×128的尺寸。

进一步地，所述第一单层LTC-RNN和第二单层LTC-RNN的计算公式如下：

h(t)为当前时刻LTC-RNN的隐藏状态，τ为常量时间常数，Δt为时间步长，x(t)为当前时刻的输入数据，f(h(t)，x(t)，t，θ)为深度学习网络，θ为其可训练参数，t为当前时刻，第一单层LTC-RNN和第二单层LTC-RNN的计算方式在每次计算的开始阶段将数据x(t)和h(t)输入至上述计算公式中，将该公式的当前输出h(t+Δt)作为下次该公式的输入h(t)继续进行计算，并重复执行6次；将第6次的输出h(t+Δt)作为第一单层LTC-RNN和第二单层LTC-RNN的计算结果。

进一步地，所述注意力机制融合子模块包括两个相同结构的子网络，每个子网络由两层全连接网络叠加而成，第一层全连接网络维度为2048，后接ReLU激活函数，第二层全连接网络维度为1024，后接Sigmoid激活函数。

进一步地，所述全连接回归子模块由四层全连接网络组成，其中，第一层全连接网络维度为512，第二层全连接网络维度为128，第三层全连接网络维度为64，第四层全连接网络维度为6；所述全连接回归子模块内的前三层全连接网络后接ReLU激活函数，第四层全连接网络不接任何激活函数。

本发明的另一个目的可以通过采取如下技术方案达到：

一种基于LTC-DNN的视觉惯导组合导航***的自学习方法，所述自学习方法包括以下步骤：

S1、将具有真实相对位移、相对旋转的真实标签转换到标准正态分布，得到真实标准化标签、均值1、方差1，使用真实标准化标签对深度学习网络模型进行第一次训练；

S2、将第一次训练完成的深度学习网络模型对无标签数据进行预测，并使用均值1、方差1对预测结果进行第一次逆标准化计算，得到伪标签；

S3、随机选取一定数量的伪标签和真实标签根据0.2:1的比例进行混合，得到混合标签；

S4、将混合标签转换到标准正态分布，得到混合标准化标签、均值2、方差2，使用混合标准化标签对深度学习网络模型进行第二次训练。

进一步地，所述伪标签、真实标签、混合标签包含x、y、z轴上的相对位移、相对旋转。

进一步地，所述真实标签、混合标签转换到标准正态分布的操作是将x、y、z轴上的相对位移、相对旋转分别转换到标准正态分布。

进一步地，所述深度学习网络模型的训练使用Adam优化器，Adam优化器动量设置为(0.9,0.99)；第一单层LTC-RNN与第二单层LTC-RNN的学习率设置为0.001，其余模块的学习率设置成0.00001；损失函数为smooth_l1_loss。

本发明相对于现有技术具有如下的优点及效果：

(1)本发明提出一种基于LTC-DNN的视觉惯导组合导航***，包含深度学习网络模型，该深度学习网络模型引入第一单层LTC-RNN与第二单层LTC-RNN，达到降低深度学习网络模型可训练参数量及提高深度学习网络模型鲁棒性的目的。

(2)本发明提出一种基于LTC-DNN的视觉惯导组合导航***的自学习方法，该自学习方法与同类型算法相比降低对真实标签的依赖性。

附图说明

图1是本发明实施例中公开的一种基于LTC-DNN的视觉惯导组合导航***中深度学习网络模型结构示意图；

图2是本发明实施例中注意力机制融合子模块结构示意图；

图3是本发明实施例中全连接回归子模块结构示意图；

图4是本发明实施例中公开的一种基于LTC-DNN的视觉惯导组合导航***的自学习方法流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本实施例公开了一种基于LTC-DNN的视觉惯导组合导航***，图1是该基于LTC-DNN的视觉惯导组合导航***的结构示意图。

参见图1，所述深度学习网络模型由依次顺序连接的视觉特征提取模块、惯导特征提取模块、位姿回归模块组成。

所述视觉特征提取模块用于提取1024维视觉特征，所述视觉特征提取模块的输入为沿着通道叠加的相邻两帧RGB图片，输出1024维视觉特征。

所述视觉特征提取模块由10层卷积神经网络顺序堆叠而成，10层卷积神经网络中前三层卷积神经网络的卷积核大小依次是7×7、5×5、5×5，后面七层卷积神经网络的卷积核大小均是3×3，其中，第四层、第六层和第八层卷积神经网络的卷积步长为1，其余卷积神经网络的卷积步长为2；10层卷积神经网络都使用ReLU激活函数。

所述惯导特征提取模块包括1024维隐藏状态的第一单层LTC-RNN(液态时间常量递归神经网络)；所述惯导特征提取模块的输入为所述相邻两帧RGB图片之间的惯导数据，输出为1024维惯导特征；

所述第一单层LTC-RNN和第二单层LTC-RNN的计算公式：

图2是本发明实施例注意力机制融合子模块示意图，参加图2，所述注意力机制融合子模块包括两个相同结构的子网络，每个子网络由两层全连接网络叠加而成，第一层全连接网络维度为2048，后接ReLU激活函数，第二层全连接网络维度为1024，后接Sigmoid激活函数。

图3是本发明实施例全连接回归子模块结构示意图，参加图3，所述全连接回归子模块由四层全连接网络组成，其中，第一层全连接网络维度为512，第二层全连接网络维度为128，第三层全连接网络维度为64，第四层全连接网络维度为6；所述全连接回归子模块内的前三层全连接网络后接ReLU激活函数，第四层全连接网络不接任何激活函数。

实施例二

本实施例基于上述实施例中公开的一种基于LTC-DNN的视觉惯导组合导航***，公开了该视觉惯导组合导航***的自学习方法。图4是本发明实施例自学习方法流程图，参加图4，该自学习方法由四个步骤组成，过程如下：

其中，伪标签、真实标签、混合标签包含x、y、z轴上的相对位移、相对旋转。

真实标签、混合标签转换到标准正态分布的操作是将x、y、z轴上的相对位移、相对旋转分别转换到标准正态分布。

深度学习网络模型的训练使用Adam优化器，Adam优化器动量设置为(0.9,0.99)；第一单层LTC-RNN与第二单层LTC-RNN的学习率设置为0.001，其余模块的学习率设置成0.00001；损失函数为smooth_l1_loss。

在第二次训练完成的深度学习网络模型中的视觉特征提取模块输入沿着通道叠加的相邻两帧RGB图片，得到视觉特征；同时在惯导特征提取模块输入相邻两帧RGB图片之间的惯导数据，得到惯导特征；然后把视觉特征和惯导特征沿着行方向进行串联并输入至位姿回归模块，得到相对位移1、相对旋转1；接下来通过均值2、方差2对相对位移1和相对旋转1进行第二次逆标准化，得到相对位移2、相对旋转2。

综上所述，本实施例中自学习方法引入伪标签与真实标签一起训练深度学习网络模型，降低了对真实标签数量的需求，而不像其他方法需要大量真实标签进行训练。本发明利用第一单层LTC-RNN和第二单层LTC-RNN分别进行惯导特征的提取和位姿回归，其优点在于第一单层LTC-RNN和第二单层LTC-RNN内部的迭代计算方式增加了提取特征的能力，而不像其他递归神经网络只是单次计算方式来提取特征。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

一种基于LTC-DNN的视觉惯导组合导航***，该视觉惯导组合导航***用于自动驾驶、无人机的自主导航，其特征在于，所述视觉惯导组合导航***包括深度学习网络模型，所述深度学习网络模型由依次顺序连接的视觉特征提取模块、惯导特征提取模块、位姿回归模块组成，其中，

所述视觉特征提取模块用于提取1024维视觉特征，所述视觉特征提取模块的输入为沿着通道叠加的相邻两帧RGB图片，输出1024维视觉特征；

所述惯导特征提取模块包括1024维隐藏状态的第一单层LTC-RNN；所述惯导特征提取模块的输入为所述相邻两帧RGB图片之间的惯导数据，输出为1024维惯导特征；

所述位姿回归模块包括依照顺序连接的注意力机制融合子模块、1000维隐藏状态的第二单层LTC-RNN、全连接回归子模块，其中，注意力机制融合子模块的输入是视觉特征和惯导特征串联得到的串联特征，用于对视觉特征及惯导特征进行加权得到加权融合特征；第二单层LTC-RNN的输入是加权融合特征，输出回归特征；全连接回归子模块的输入是回归特征，输出相对位移、相对旋转的估计。
根据权利要求1所述的基于LTC-DNN的视觉惯导组合导航***，其特征在于，所述视觉特征提取模块由10层卷积神经网络顺序堆叠而成，10层卷积神经网络中前三层卷积神经网络的卷积核大小依次是7×7、5×5、5×5，后面七层卷积神经网络的卷积核大小均是3×3，其中，第四层、第六层和第八层卷积神经网络的卷积步长为1，其余卷积神经网络的卷积步长为2；10层卷积神经网络都使用ReLU激活函数。
根据权利要求1所述的基于LTC-DNN的视觉惯导组合导航***，其特征在于，所述RGB图片在输入特征提取模块前转换成416×128的尺寸。
根据权利要求1所述的基于LTC-DNN的视觉惯导组合导航***，其特征在于，所述第一单层LTC-RNN和第二单层LTC-RNN的计算公式如下：

h(t)为当前时刻LTC-RNN的隐藏状态，τ为常量时间常数，Δt为时间步长，x(t)为当前时刻的输入数据，f(h(t),x(t),t,θ)为深度学习网络，θ为其可训练参数，t为当前时刻，第一单层LTC-RNN和第二单层LTC-RNN的计算方式在每次计算的开始阶段将数据x(t)和h(t)输入至上述计算公式中，将该公式的当前输出h(t+Δt)作为下次该公式的输入h(t)继续进行计算，并重复执行6次；将第6次的输出h(t+Δt)作为第一单层LTC-RNN和第二单层LTC-RNN的计算结果。
根据权利要求1所述的基于LTC-DNN的视觉惯导组合导航***，其特征在于，所述注意力机制融合子模块包括两个相同结构的子网络，每个子网络由两层全连接网络叠加而成，第一层全连接网络维度为2048，后接ReLU激活函数，第二层全连接网络维度为1024，后接Sigmoid激活函数。
根据权利要求1所述的基于LTC-DNN的视觉惯导组合导航***，其特征在于，所述全连接回归子模块由四层全连接网络组成，其中，第一层全连接网络维度为512，第二层全连接网络维度为128，第三层全连接网络维度为64，第四层全连接网络维度为6；所述全连接回归子模块内的前三层全连接网络后接ReLU激活函数，第四层全连接网络不接任何激活函数。
一种根据权利要求1至6任一所述的基于LTC-DNN的视觉惯导组合导航***的自学习方法，所述自学习方法包括以下步骤：

S1、将具有真实相对位移、相对旋转的真实标签转换到标准正态分布，得到真实标准化标签、均值1、方差1，使用真实标准化标签对深度学习网络模型进行第一次训练；

S2、将第一次训练完成的深度学习网络模型对无标签数据进行预测，并使用均值1、方差1对预测结果进行第一次逆标准化计算，得到伪标签；

S3、随机选取一定数量的伪标签和真实标签根据0.2:1的比例进行混合，得到混合标签；

S4、将混合标签转换到标准正态分布，得到混合标准化标签、均值2、方差2，使用混合标准化标签对深度学习网络模型进行第二次训练。
据权利要求7所述的一种基于LTC-DNN的视觉惯导组合导航***的自学习方法，其特征在于，所述伪标签、真实标签、混合标签包含x、y、z轴上的相对位移、相对旋转。
据权利要求7所述的一种基于LTC-DNN的视觉惯导组合导航***的自学习方法，其特征在于，所述真实标签、混合标签转换到标准正态分布的操作是将x、y、z轴上的相对位移、相对旋转分别转换到标准正态分布。
据权利要求7所述的一种基于LTC-DNN的视觉惯导组合导航***的自学习方法，其特征在于，所述深度学习网络模型的训练使用Adam优化器，Adam优化器动量设置为(0.9,0.99)；第一单层LTC-RNN与第二单层LTC-RNN的学习率设置为0.001，其余模块的学习率设置成0.00001；损失函数为smooth_l1_loss。