CN111583305B

CN111583305B - 神经网络训练及运动轨迹确定方法、装置、设备和介质

Info

Publication number: CN111583305B
Application number: CN202010393945.XA
Authority: CN
Inventors: 李顺恺; 查红彬
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2020-05-11
Filing date: 2020-05-11
Publication date: 2022-06-21
Anticipated expiration: 2040-05-11
Also published as: CN111583305A

Abstract

本申请的公开一种神经网络训练及运动轨迹确定方法、装置、设备和介质。该方法可以包括，获取至少两个图像序列，上述至少两个图像序列可以包括第一图像序列，以及与上述第一图像序列相邻的第二图像序列。根据上述第一图像序列以及上述第二图像序列，对上述神经网络进行训练，以得到目标网络参数。

Description

神经网络训练及运动轨迹确定方法、装置、设备和介质

技术领域

本申请涉及计算机视觉技术，具体涉及一种神经网络训练及运动轨迹确定方法、装置、设备和介质。

背景技术

在相关技术中，在进行神经网络训练时通常运用单一场景下的样本进行预训练。然而，由于实际场景和预训练时使用的场景往往有较大的区别，进行过预训练的神经网络在实际使用时，其性能往往会大幅下降。因此，在实际使用中，当针对不同场景时，上述神经网络的泛化性将变得较差。

发明内容

有鉴于此，本申请至少公开一种神经网络训练及运动轨迹确定方法、装置、设备和介质。

根据本申请实施例的第一方面，本申请提出一种神经网络训练方法，上述方法可以包括：

获取至少两个图像序列，上述至少两个图像序列可以包括第一图像序列，以及与上述第一图像序列相邻的第二图像序列；

根据上述第一图像序列以及上述第二图像序列，对上述神经网络进行训练，以得到目标网络参数；

采用上述目标网络参数配置上述神经网络。

在示出的一实施例中，上述根据上述第一图像序列以及上述第二图像序列，对上述神经网络进行训练，以得到目标网络参数，可以包括：

根据上述第一图像序列以及上述第二图像序列，对上述神经网络进行迭代训练，直至上述神经网络收敛，得到上述目标网络参数；

其中，在一次迭代训练中，通过上述神经网络，获取上述第一图像序列中相邻两帧图像之间的相对位姿，上述相邻两帧图像可以包括第一图像以及采集时刻位于上述第一图像之后的第二图像；

根据上述第一图像序列中上述第二图像对应的深度图像，以及上述第一图像与上述第二图像之间的相对位姿，得到上述第二图像对应的合成图像；

根据上述第一图像序列中多帧上述第二图像以及与多帧上述第二图像对应的上述合成图像，确定第一训练误差；

基于上述第一训练误差，得到第一中间网络参数。

在示出的一实施例中，在上述得到第一中间网络参数后，上述方法还可以包括：

通过采用上述第一中间网络参数配置的上述神经网络，获取上述第二图像序列中相邻两帧图像之间的相对位姿，上述相邻两帧图像可以包括第三图像以及采集时刻位于上述第三图像之后的第四图像；

根据上述第二图像序列中上述第四图像对应的深度图像，以及上述第三图像与上述第四图像之间的相对位姿，得到上述第四图像对应的合成图像；

根据上述第二图像序列中多帧上述第四图像以及与多帧上述第四图像对应的上述合成图像，确定第二训练误差；

基于上述第二训练误差，得到第二中间网络参数。

在示出的一实施例中，上述基于上述第一训练误差，得到第一中间网络参数，可以包括：

基于梯度下降法，以及上述第一训练误差，对上述神经网络进行一次梯度下降，得到第一中间网络参数；

和/或，

上述基于上述第二训练误差，得到第二中间网络参数，可以包括：

基于梯度下降法，以及上述第二训练误差，对上述神经网络进行一次梯度下降，得到第二中间网络参数。

在示出的一实施例中，上述神经网络可以包括深度神经网络，上述深度神经网络，可以包括卷积神经网络、以及卷积长短时序记忆网络；其中，上述卷积神经网络的输出为上述卷积长短时序记忆网络的输入。

在示出的一实施例中，上述根据上述神经网络，获取上述第一图像序列中相邻两帧图像之间的相对位姿，可以包括：

将上述第一图像序列中的相邻两帧图像的深度图像，以及上述相邻两帧图像，输入上述神经网络，确定上述相对位姿；

其中，在确定上述相对位姿的过程中，输入上述卷积长短时序记忆网络记忆的上述相邻两帧图像之前的至少部分图像的图像特征；

和/或，

上述根据采用上述第一中间网络参数配置的神经网络，获取上述第二图像序列中相邻两帧图像之间的相对位姿，可以包括：

将上述第二图像序列中的相邻两帧图像的深度图像，以及上述相邻两帧图像，输入采用上述第一中间网络参数配置的神经网络，确定上述相对位姿；

其中，在确定上述相对位姿的过程中，输入上述卷积长短时序记忆网络记忆的上述相邻两帧图像之前的至少部分图像的图像特征。

在示出的一实施例中，在根据上述第一图像序列中上述第二图像对应的深度图像，以及上述第一图像与上述第二图像之间的相对位姿，得到上述第二图像对应的合成图像之前，上述方法还可以包括：

将上述第一图像序列中上述第二图像，输入上述神经网络，确定第一图像序列中上述第二图像的深度图像；

其中，在确定上述深度图像的过程中，输入上述卷积长短时序记忆网络记忆的上述第二图像之前至少部分图像的图像特征；

和/或，

在根据上述第二图像序列中上述第四图像对应的深度图像，以及上述第三图像与上述第四图像之间的相对位姿，得到上述第四图像对应的合成图像之前，上述方法还可以包括：

将上述第二图像序列中上述第四图像，输入采用上述第一中间网络参数配置的神经网络，确定上述第四图像的深度图像；

其中，在确定上述深度图像的过程中，输入上述卷积长短时序记忆网络记忆的上述第四图像之前至少部分图像的图像特征。

在示出的一实施例中，上述神经网络可以包括若干卷积层；

上述方法还可以包括：

在一次迭代训练中，在将上述第一图像序列中的多帧图像作为训练样本，输入上述神经网络后，通过上述神经网络可以包括的各卷积层输出的特征图，得到上述各卷积层输出的特征图对应的分布情况；

在将上述第二图像序列中的多帧图像作为训练样本，输入采用上述第一中间网络参数配置的神经网络的情况下，基于得到的上述分布情况，对上述第一中间网络参数配置的上述神经网络的各卷积层输出的特征图进行特征对齐处理；

通过采用上述第一中间网络参数配置的上述神经网络，基于特征对齐后的各特征图，输出上述第二图像序列中相邻两帧图像之间的相对位姿，和/或上述第二图像序列中图像的深度图像。

在示出的一实施例中，在确定第一估计训练误差之前，上述方法还可以包括：

根据上述第二图像以及与上述第二图像对应的上述合成图像，构建残差图；

基于上述残差图，确定上述第二图像对应的掩膜区域；

和/或，

在确定第二估计训练误差之前，上述方法还可以包括：

根据上述第四图像以及与上述第四图像对应的上述合成图像，构建残差图；

基于上述残差图，确定上述第四图像对应的掩膜区域。

在示出的一实施例中，上述第一图像序列与上述第二图像序列在时序上相邻，且上述第一图像序列的最后一帧图像的拍摄时间，在上述第二图像序列的第一帧图像的拍摄时间之前。

在示出的一实施例中，上述第一图像序列可以包括训练样本，上述第二图像序列可以包括测试样本。

在示出的一实施例中，上述神经网络用于构建视觉里程计。

根据本申请实施例的第二方面，本申请公开一种运动轨迹确定方法，上述方法可以包括：

获取移动设备采集的待处理连续图像序列；

将上述待处理连续图像序列输入神经网络，以得到上述移动设备的运动轨迹；

其中，上述神经网络为根据上述第一方面中任意一项进行训练得到的神经网络。

在示出的一实施例中，上述将上述待处理连续图像序列输入神经网络，以得到上述移动设备的运动轨迹，可以包括：

根据上述神经网络，获取上述待处理连续图像序列中相邻两帧图像之间的相对位姿；

对获取到的上述待处理连续图像序列中所有相邻两帧图像之间的相对位姿进行累加，得到上述移动设备的运动轨迹。

根据本申请实施例的第三方面，本申请提出一种神经网络训练装置。上述装置可以包括：

获取模块，获取至少两个图像序列，上述至少两个图像序列可以包括第一图像序列，以及与上述第一图像序列相邻的第二图像序列；

训练模块，根据上述第一图像序列以及上述第二图像序列，对上述神经网络进行训练，以得到目标网络参数；

配置模块，采用上述目标网络参数配置上述神经网络。

在示出的一实施例中，上述训练模块，可以包括：

迭代训练子模块，根据上述第一图像序列以及上述第二图像序列，对上述神经网络进行迭代训练，直至上述神经网络收敛，得到上述目标网络参数；

基于上述第一训练误差，得到第一中间网络参数。

在示出的一实施例中，上述迭代训练子模块，还可以包括：

在上述得到第一中间网络参数后，通过采用上述第一中间网络参数配置的上述神经网络，获取上述第二图像序列中相邻两帧图像之间的相对位姿，上述相邻两帧图像可以包括第三图像以及采集时刻位于上述第三图像之后的第四图像；

基于上述第二训练误差，得到第二中间网络参数。

在示出的一实施例中，上述迭代训练子模块，进一步可以包括：

和/或，

在根据上述第一图像序列中上述第二图像对应的深度图像，以及上述第一图像与上述第二图像之间的相对位姿，得到上述第二图像对应的合成图像之前，将上述第一图像序列中上述第二图像，输入上述神经网络，确定第一图像序列中上述第二图像的深度图像；

和/或，

在根据上述第二图像序列中上述第四图像对应的深度图像，以及上述第三图像与上述第四图像之间的相对位姿，得到上述第四图像对应的合成图像之前，将上述第二图像序列中上述第四图像，输入采用上述第一中间网络参数配置的神经网络，确定上述第四图像的深度图像；

在示出的一实施例中，上述神经网络可以包括若干卷积层。上述装置还可以包括：

统计分布模块，在一次迭代训练中，在将上述第一图像序列中的多帧图像作为训练样本，输入上述神经网络后，通过上述神经网络可以包括的各卷积层输出的特征图，得到上述各卷积层输出的特征图对应的分布情况。

特征对齐模块，在将上述第二图像序列中的多帧图像作为训练样本，输入采用上述第一中间网络参数配置的神经网络的情况下，基于得到的上述分布情况，对上述第一中间网络参数配置的上述神经网络的各卷积层输出的特征图进行特征对齐处理。

输出模块，通过采用上述第一中间网络参数配置的上述神经网络，基于特征对齐后的各特征图，输出上述第二图像序列中相邻两帧图像之间的相对位姿，和/或上述第二图像序列中图像的深度图像。

基于上述残差图，确定上述第二图像对应的掩膜区域；

和/或，

在确定第二估计训练误差之前，上述方法还可以包括：

基于上述残差图，确定上述第四图像对应的掩膜区域。

在示出的一实施例中，上述神经网络用于构建视觉里程计。

根据本申请实施例的第四方面，本申请公开一种神经网络训练装置，上述装置可以包括：

获取模块，获取移动设备采集的待处理连续图像序列；

输入模块，将上述待处理连续图像序列输入神经网络，以得到上述移动设备的运动轨迹；

在示出的一实施例中，上述输入模块可以包括：

根据本申请实施例的第五方面，本申请提出一种计算机可读存储介质，上述存储介质存储有计算机程序，上述计算机程序用于执行上述第一方面中任一上述的神经网络训练方法。

根据本申请实施例的第六方面，本申请公开一种计算机可读存储介质，上述存储介质存储有计算机程序，上述计算机程序用于执行上述第二方面中任一项上述的运动轨迹确定方法。

根据本申请实施例的第七方面，本申请提出一种神经网络训练设备。上述设备可以包括：

处理器；

用于存储上述处理器可执行指令的存储器；

其中，上述处理器被配置为调用上述存储器中存储的可执行指令，实现上述第一方面中任一项上述的神经网络训练方法。

根据本申请实施例的第八方面，本申请公开一种运动轨迹确定设备，该设备可以包括处理器；

用于存储上述处理器可执行指令的存储器；

其中，上述处理器被配置为调用上述存储器中存储的可执行指令，实现上述第二方面中任一项上述的运动轨迹确定方法。

由上述技术方案可知，在训练上述神经网络时，由于根据相邻的至少两个图像序列，对上述神经网络进行训练，以得到目标网络参数，并采用上述目标网络参数配置上述神经网络，因此，配置完成的上述神经网络在适应新场景的同时，仍对历史场景有较好的估计，从而提升了上述神经网络的泛化性能与实用性。

在确定运动轨迹时，由于根据上述第一方面中任意一项进行训练得到的神经网络的泛化性能和实用性能均有提高，因此，将待处理连续图像序列，输入上述神经网络中确定移动设备的运动轨迹，可以提升运动轨迹确定精确度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请一个或多个实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请一个或多个实施例中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请示出的一种神经网络训练方法的方法流程图；

图2为本申请示出的一种神经网络的结构示意图；

图3为本申请示出的一种神经网络的结构示意图；

图4为本申请示出的一种深度图像估计网络的结构示意图；

图5为本申请示出的一种相对位姿估计网络的结构示意图；

图6为本申请示出的一种运动轨迹确定方法的方法流程图；

图7为本申请示出的一种神经网络训练装置的结构图；

图8为本申请示出的一种运动轨迹确定装置的结构图；

图9为本申请示出的一种神经网络训练设备的硬件结构图；

图10为本申请示出的一种运动轨迹确定设备的硬件结构图。

具体实施方式

为了使本技术领域的人员更好地理解本申请一个或多个实施例中的技术方案，下面将结合本申请一个或多个实施例中的附图，对本申请一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请一个或多个实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

例如，在基于视觉里程计进行运动轨迹估计的场景中，通过单一场景下的样本对上述视觉里程计中的神经网络进行预训练后。由于实际场景和预训练时使用的场景往往有较大的区别，进行过预训练的视觉里程计在实际使用时，其性能往往会大幅下降。因此，在实际使用中，当针对不同场景时，视觉里程计的泛化性将变得较差，从而无法正确估计当前场景下移动设备的运动轨迹，这严重影响了视觉里程计的实用性。

其中，上述视觉里程计，具体是指利用采集的图像序列完成对移动设备的位姿估计或运动轨迹估计的***。

在实际应用中，在估计移动设备运动轨迹时，上述视觉里程计通过对上述移动设备采集的图像序列进行计算，得到采集上述图像序列中相邻两张图像时，上述移动设备的相对位姿估计。然后将得到的各相对位姿进行累加，从而估计出在采集上述图像序列时，上述移动设备的运动轨迹。

基于此，在本申请的第一方面提出一种神经网络训练方法。该方法通过将相邻两各图像序列作为训练样本，对上述神经网络进行训练，使上述神经网络可以在实际使用过程中适应不同的图像序列对应的场景，从而提升上述神经网络的泛化能力与实用性。

以下结合具体实施例对本申请公开的技术方案进行说明。

请参见图1，图1为本申请示出的一种神经网络训练方法的方法流程图。如图1所示，上述方法可以包括：

S102，获取至少两个图像序列，上述至少两个图像序列可以包括第一图像序列，以及与上述第一图像序列相邻的第二图像序列；

S104，根据上述第一图像序列以及上述第二图像序列，对上述神经网络进行训练，以得到目标网络参数；

S106，采用上述目标网络参数配置上述神经网络。

上述神经网络，可以是对图像序列进行处理的神经网络。例如，上述神经网络可以是确定图像序列中图像的深度图像的深度图像估计网络。又例如，上述神经网络可以是确定图像序列中相邻两帧图像之间的相对位姿的相对位姿估计网络。再例如，上述神经网络是可以构建视觉里程计的神经网络。

需要说明的是，上述神经网络通常搭载在硬件设备(以下简称为“设备”)中。其中，上述硬件设备可以是基于CPU、MCU、FPGA等器件搭载的移动设备，在此不作限定。可以理解的是，一方面，上述硬件设备可以为上述神经网络执行轨迹估计时提供算力。另一方面，上述硬件设备可以针对上述神经网络进行更新。以下以执行主体为搭载上述神经网络的设备进行实施例说明。

在一实施例中，上述神经网络可以包括用于估计与图像对应的深度图像的深度图像估计子网络(DepthNet)，以及用于估计采集相邻两帧图像时，上述移动设备的相对位姿的相对位姿估计子网络(PoseNet)；其中，上述深度图像估计子网络的输出是上述相对位姿估计子网络的输入。例如，上述神经网络可以为基于深度神经网络构建的神经网络。上述深度神经网络可以为基于卷积神经网络构建的卷积深度神经网络。

可以理解的是，一方面，本申请涉及的对上述神经网络的训练，实际上为对上述深度图像估计子网络，以及相对位姿估计子网络的训练。在本申请中为了方便说明实施例，使用对上述神经网络进行训练的说法。另一方面，在上述神经网络进入实际场景进行使用前，通常都会经过预训练。当然为了提升神经网络的训练准确性，上述预训练的训练方法可以是本申请示出的任一实施例中的训练方法。

图像序列包括多帧图像，多帧图像可以在时序上相邻，或是从时序上相邻的多帧图像中按照预设的采样方式，按照一定频次或是随机抽取的多帧在时序上存在先后顺序的多帧图像。通常情况下，不同图像序列(比如，第一图像序列和第二图像序列)可以为相同场景下的多个图像序列，或是不同场景下的多个图像序列(比如，第一图像序列的场景与第二图像序列的场景不同)。

在实际应用中，上述神经网络可以接收移动设备采集到的连续图像帧，并将接收到的当前帧图像输入上述深度图像估计子网络进行计算，估计出与上述当前帧图像对应的深度图像(上述深度图像是指，将前帧图像中各图像点至上述移动设备的距离作为像素值的图像)。然后上述神经网络可以将当前帧图像，以及其对应的深度图像，和当前帧图像的前一帧图像对应的深度图像，以及其对应的深度图像输入上述相对位姿估计子网络中进行计算，估计出采集上述相邻两帧图像时，上述移动设备的相对位姿。其中，相对位姿指的是，能够反映同一移动设备分别采集相邻两帧图像时的位姿(即两个位姿，分别为采集相邻两帧图像中一帧时的位姿，以及采集相邻两帧图像中另一帧时的位姿)差异的参数。

当上述神经网络完成对目标图像序列中所有相邻两帧图像之间的相对位的确定后，可以将上述相对位姿进行累加，得到上述移动设备的运动轨迹。

请参见图2，图2为本申请示出的一种神经网络的结构示意图。

如图2所示，上述神经网络可以包括的神经网络由上述深度图像估计子网络和上述相对位姿估计子网络组成。其中，上述深度图像估计子网络输入为当前时刻t采集的图像为I_t。上述深度图像估计子网络输出为与上述图像I_t对应的深度图像

上述相对位姿估计子网络的输入为图像I_t，以及其对应的

和图像I_t-1，以及其对应的

上述相对位姿估计子网络的输出为采集相邻两帧图像I_t和I_t-1时，上述移动设备的相对位姿

当上述神经网络接收到图像I_t时，可以将该图像输入至上述深度图像估计子网络中进行计算，得到与该图像对应的深度图像

然后上述神经网络可以将图像I_t，以及其对应的

和图像I_t-1，以及其对应的

输入上述相对位姿估计子网络进行计算，估计出采集相邻两帧图像I_t和I_t-1时，上述移动设备的相对位姿

此时，当需要确定移动设备在采集某一图像序列中的图像的运动轨迹时，可以将该图像序列中各相邻图像对应的相对位姿进行累加。

在一实施例中，为了使用较少的标注真值的训练样本来训练上述神经网络，在对上述神经网络进行训练时采用自监督学习训练的方法。

以下介绍如何实现自监督学习训练。

在本实施例中，实现自监督学习训练可以参考SfMLearner算法。

请继续参见图2，基于前述内容，上述神经网络可以估计出与真实图像I_t对应的深度图像

以及采集相邻两帧图像I_t和I_t-1时，上述移动设备的相对位姿

上述图像合成网络可以基于空间几何计算关系，将上述相对位姿

以及与真实图像I_t对应的深度图像

进行计算，将前一时刻的图像I_t-1可以包括的各像素点对应映射在一张合成图像中，从而形成可以当前时刻的合成图像

在构造上述自监督学习训练对应的损失函数时，可以基于上述合成图像

与真实图像I_t之间的误差进行构造。

此时，在对网络进行训练时，无需通过将当前图像I_t对应的深度图像和相对位姿的真实值，与网络的输出结果之间的误差来进行训练，而是直接通过上述合成图像

与真实图像I_t之间的误差来进行训练，从而实现自监督学习训练。

在实际应用中，在构造损失函数时，可以基于上述合成图像与真实图像之间的光度损失差异，以及结构的相似度度量(SSIM，Structural Similarity Index)差异来构建。可以理解的是，当上述神经网络的输入是图像序列中各图像时，上述损失函数可以是上述图像序列中的各真实图像与其对应的合成图像的误差的累计。其中，上述损失函数的具体表达在此不作特别限定。

由于在自监督学习训练时，可以只利用移动设备采集的图像即可完成训练，从而到的无需标注真值的训练样本进行训练的目的。

由上述技术方案可知，由于根据相邻的至少两个图像序列，对上述神经网络进行训练，以得到目标网络参数，并采用上述目标网络参数配置上述神经网络，因此，配置完成的上述神经网络在适应新场景的同时，仍对历史场景有较好的估计，从而提升了上述神经网络的泛化性能与实用性。

在对基于上述神经网络构建的视觉里程计进行更新的场景中，由于采用了上述技术方案，使上述视觉里程计可以在实际使用过程中适应不同的图像序列对应的场景，从而提升视觉里程计的泛化能力与实用性。

在一实施例中，上述设备在执行上述S104时，可以将上述第一图像序列以及上述第二图像序列构成一个训练样本集对上述神经网络进行自监督学习训练。

在实际应用中，上述设备可以预先构造一个损失函数。其中，上述损失函数指示，通过上述神经网络，计算出的相邻两帧图像之间的相对位姿和上述两帧图像的前一帧图像的深度图像构建的合成图像，与真实图像的测试误差。

此时，在对上述神经网络进行训练时，上述设备可以先设置一个迭代训练次数(例如，20000次)。然后在每次迭代中，从由上述第一图像序列和上述第二图像序列构建的训练样本集中随机选取样本，并基于梯度下降法，通过反向传播对上述神经网络进行训练。

在本实施例中，由于上述训练样本集是基于上述第一图像序列以及上述第二图像序列构建，因此，收敛的上述神经网络对上述第一图像序列，以及上述第二图像序列各自对应的场景均有较好的估计，从而提升上述神经网络的泛化性与实用性。

在一实施例中，为了进一步提升上述神经网络的泛化性与实用性，在本实施例中，可以使用多个(大于2个)具有相邻关系的图像序列构成同一训练样本对所述神经网络进行训练(具体训练过程可以参照上述步骤，在此不作详述)。通过使用多个(大于2个)具有相邻关系的图像序列对所述神经网络进行训练，可以使收敛的上述神经网络对多个图像序列对应的场景均有较好的估计，从而进一步提升上述神经网络的泛化性与实用性。

在一实施例中，上述第一图像序列与上述第二图像序列在时序上相邻，且上述第一图像序列的最后一帧图像的拍摄时间，在上述第二图像序列的第一帧图像的拍摄时间之前。

为了提升对上述神经网络的收敛速度，以及进一步提升上述神经网络的泛化性，在对上述神经网络进行训练时可以参照元学习的概念。此时，上述第一图像序列基于可以包括训练样本，上述第二图像序列可以包括测试样本。

在上述情形下，在针对神经网络进行迭代训练时，在每次迭代中，可以先将包括训练样本的第一图像序列对神经网络进行训练，得到中间网络参数；然后再将包括测试样本的第二图像序列输入基于上述中间网络参数配置的神经网络进行训练，得到训练误差。在每次迭代训练后得到的上述训练误差后，可以基于该训练误差判断所述神经网络是否收敛。

在实际应用中，针对上述神经网络进行训练时对应的目标函数可以为，最小化将上述第二图像序列输入，以上述第一图像序列作为训练样本对上述神经网络进行N次梯度下降后得到的神经网络中，再进行M次梯度下降后的训练误差。

其中，上述N、M为预设常数。

上述训练误差为，上述第二图像序列中的多帧图像对应的合成图像，与上述多帧图像之间的误差累计；

上述合成图像为，根据神经网络，获取的图像序列中的相邻图像之间的相对位姿，上述相邻图像中后一帧图像的深度图像，以及上述相邻图像中前一帧图像合成的图像。

可以理解的是，在一种方式中，在确定上述合成图像与真实图像之间的误差时，可以基于上述合成图像与真实图像之间的光度损失差异，以及结构的相似度度量(SSIM，Structural Similarity Index)差异来确定。

上述估计误差可以用

表征。其中，上述

表示图像序列

θ_i表示对上述图像序列

进行计算时，上述神经网络对应的网络参数。

假设使用

表示前一次生成的上述第一图像序列，θ_i-1表示对上述图像序列

进行计算时，上述神经网络对应的网络参数。此时，将上述图像序列

输入网络参数为θ_i-1的神经网络中进行计算，得到当前损失函数

然后，基于上述当前损失函数可以计算出对应梯度

根据梯度下降法，此时更新后的网络参数为：

其中，α为学习率，通常为0至1之间的自然数。

假设使用

来表示本次生成的上述第二图像序列，θ_i表示对上述图像序列

进行计算时，上述神经网络对应的网络参数。此时，上述目标函数即可以表示为：

将公式1代入上述公式，即可得到上述目标函数：

在基于上述目标函数进行自监督学习训练时，可以根据上述第一图像序列以及上述第二图像序列，对上述神经网络进行迭代训练，直至上述神经网络收敛，得到上述目标网络参数；

基于上述第一训练误差，得到第一中间网络参数。

可选的，在基于上述第一训练误差，得到第一中间网络参数时，可以基于梯度下降法，以及上述第一训练误差，对上述神经网络进行一次梯度下降，得到第一中间网络参数。

在执行上述步骤时，上述设备可以将上述第一图像序列

中的各图像作为训练样本，输入上述神经网络(此时，神经网络的网络参数为θ_i-1)中进行一次计算，并根据计算结果构建第一损失函数

在此步骤中，上述设备可以针对上述第一图像序列

中的各图像执行以下步骤：

将上述图像输入至上述神经网络进行计算，输出各图像对应的相对位姿估计和深度图像估计。

然后，再根据空间几何关系，基于上述图像的前一帧图像，上述图像与其前一帧图像对应相对位姿估计，以及上述图像对应的深度图像进行图像合成，得到与上述图像对应的合成图像。

当针对上述第一图像序列中各帧图像执行完上述步骤后，可以将得到的上述合成图像形成对应的合成图像序列；其中，上述合成图像序列中的各合成图像与上述第一图像序列中的各图像一一对应。

在得到上述合成图像序列后，可以基于上述第一图像序列中的各图像对应的合成图像，与上述第一图像序列中的各图像之间的误差累计来计算上述第一损失函数

然后，上述设备可以基于上述第一损失函数确定当前梯度。

在确定当前梯度后，上述设备可以基于梯度下降法，计算当前梯度下降时的第一梯度下降幅度

其中，α为学习率，通常取值范围为0至1。

接着，上述设备可以将上述神经网络当前的网络参数θ_i-1，减去上述第一梯度下降幅度，得到第一中间网络参数θ_i。

在上述得到第一中间网络参数后，上述设备可以通过采用上述第一中间网络参数配置的上述神经网络，获取上述第二图像序列中相邻两帧图像之间的相对位姿，上述相邻两帧图像可以包括第三图像以及采集时刻位于上述第三图像之后的第四图像；

基于上述第二训练误差，得到第二中间网络参数。

可选的，在基于上述第二训练误差，得到第二中间网络参数时，可以基于梯度下降法，以及上述第二训练误差，对上述神经网络进行一次梯度下降，得到第二中间网络参数。

在执行上述步骤时，上述设备可以将上述第二图像序列

中的各图像作为训练样本，输入由上述第一中间网络参数θ_i构建的神经网络中进行一次计算，并根据计算结果构建第二损失函数

在此步骤中，上述设备可以针对上述第二图像序列

中的各帧图像执行以下步骤：

将上述图像输入至，由上述第一中间网络参数θ_i构建的神经网络中进行计算，输出各图像对应的相对位姿估计和深度图像估计。

当针对上述第二图像序列中各帧图像执行完上述步骤后，可以将得到的上述合成图像形成对应的合成图像序列；其中，上述合成图像序列中的各合成图像与上述第二图像序列中的各图像一一对应。

在得到上述合成图像序列后，可以将上述第二图像序列中的各真实图像，与上述合成图像序列中与上述各真实图像对应的合成图像的误差进行累加计算，得到上述第二损失函数

在得到上述第二损失函数后，上述设备可以基于上述第二损失函数确定当前梯度。

在确定当前梯度后，上述设备可以基于梯度下降法，计算当前梯度下降时的第二梯度下降幅度。

在得到上述第二梯度下降幅度后，上述设备可以将上述中间网络参数，减去上述第二梯度下降幅度，得到第二中间网络参数，并基于上述第二中间网络参数对上述神经网络的网络参数进行更新。

至此，上述设备完成了对上述神经网络的一次迭代训练。

在完成一次迭代训练后，上述设备可以基于上述目标函数(公式2)进行持续迭代训练，直至上述神经网络收敛。

以下进一步分析本申请产生网络快速收敛效果的原因。

将上述公式2进行泰勒展开，可以得到：

其中，

表示向量内积运算。由于损失函数

的高阶导数为0，因此上述公式3中的含有黑塞矩阵(Hessian Matrix)的项可以被忽略。

此时，根据公式3可以得出，如果需要最小化

即公式3中的第一项最小，第二项最大。而由于第二项中向量内积最大时为向量方向一致，此时对应梯度一致。

也即通过上述目标函数最小化

可以使本实施例示出的自监督训练方法在针对不同的图像序列

和图像序列

进行神经网络训练时的梯度一致，避免做无效的迭代测试，从而可以加快上述神经网络的收敛速度。

由上述分析可知，采用公式2示出的目标函数对上述神经网络进行自监督学习训练可以提升网络训练效率，从而提升该神经网络的收敛速度。

在对基于上述神经网络构建的视觉里程计进行更新的场景中，上述视觉里程计需要执行两个任务。其中，任务一为对上述移动设备采集到的连续图像帧进行运动估计；任务二为进行在线更新。上述两个任务可以在上述视觉里程计中同时运作。

在一种实施方式中，上述视觉里程计可以实时接收移动设备采集到的连续图像帧。此时，一方面，上述视觉里程计可以实时计算采集当前帧图像时，上述移动设备的相对位姿。另一方面，当上述视觉里程计接收到图像数量达到Q帧时，可以启动一次在线更新。其中，Q为预设阈值(可以根据经验设定)。

在实际应用中，上述设备可以获取图像采集设备采集到的连续图像帧，并在获取到的连续图像帧中的图像帧数量达到N帧时，基于获取到的N帧连续图像生成图像序列；其中，N为预设阈值。

在每次生成图像序列后，上述设备执行以下步骤：

将上一次生成的第一图像序列，以及本次生成的第二图像序列作为训练样本，对上述神经网络进行一次自监督学习训练，并迭代该训练步骤，直到上述神经网络收敛。

在上述神经网络收敛后，上述设备可以基于收敛得到的神经网络更新上述视觉里程计，并使用更新后的上述视觉里程计对上述图像采集设备采集到的连续图像帧进行运动估计。

在另一种实施方式中，上述视觉里程计可以周期性的启动在线更新。此时，搭载视觉里程计的硬件设备可以启动一个定时任务，来周期性触发上述视觉里程计的在线更新任务。

可以理解的是，一方面，对视觉里程计的在线更新实际是在视觉里程计在实际使用过程中对上述神经网络的在线训练。另一方面，在线训练神经网络时后一次训练中使用的上述第一图像序列中的图像与前一次训练使用的上述第二图像序列中图像大致相似。

由上述技术方案可知，由于每次针对神经网络进行训练时使用的图像序列为相邻的两个图像序列，且在后一次训练中使用的上述第一图像序列中的图像与前一次训练使用的上述第二图像序列中图像大致相似，因此，在对神经网络进行训练时可以保持梯度传递，从而一方面，加速了上述神经网络的收敛速度；另一方面，进一步提升了上述神经网络的泛化性能与实用性。

在对基于上述神经网络构建的视觉里程计进行更新的场景中，由于对上述神经网络的训练采用上述技术方案，因此，一方面，可以加速了对上述视觉里程计的更新效率。另一方面，进一步提升了视觉里程计的泛化性能与实用性。

在一实施例中，为了进一步提升上述神经网络的泛化性与实用性，在上述任一实施例中，可以使用多个(大于2个)具有相邻关系的图像序列对所述神经网络进行训练。

具体地，在执行一次迭代训练过程中，可以按照上述多个具有相邻关系的图像序列的采集顺序，先由最采集的图像序列对上述神经网络进行梯度下降，得到第一中间模型参数。然后，再由第二顺位的图像序列对基于上述第一中间模型参数配置的神经网络进行梯度下降，得到第二中间模型参数。以此类推，直至针对上述多个图像序列中的最后顺位的图像序列对神经网络进行训练，得到相应中间模型参数。至此则完成一次迭代训练，然后重复上述步骤，直至神经网络收敛。

在此需要说明的是，在迭代训练过程中，在针对图像训练对神经网络进行梯度下降的次数可以是1次。

通过使用多个(大于2个)具有相邻关系的图像序列对所述神经网络进行训练，可以使收敛的上述神经网络对多个图像序列对应的场景均有较好的估计，从而进一步提升上述神经网络的泛化性与实用性。

在一实施例中，请参见图3，图3为本申请示出的一种神经网络的结构示意图。如图3所示，上述神经网络包括上述深度图像估计子网络，上述相对位姿估计子网络，以及掩膜神经网络(MaskNet)。

当上述神经网络获取与真实图像I_t对应的合成图像

后，可以将上述合成图像与上述真实图像进行第一范数运算

确定上述视觉里程计估计的残差图(warpingresidual)。然后，上述视觉里程计可以将上述残差图输入作为上述掩膜神经网络的输入，估计出图像I_t中的掩膜

在实际应用中，上述设备在确定第一训练误差之前，可以根据上述第二图像以及与上述第二图像对应的上述合成图像，构建残差图；

基于上述残差图，确定上述第二图像对应的掩膜区域；

和/或，

上述设备在在确定第二训练误差之前，可以根据上述第四图像以及与上述第四图像对应的上述合成图像，构建残差图；

基于上述残差图，确定上述第四图像对应的掩膜区域。

在本实施例中，由于在计算训练误差时，可以不计算掩膜

指示的区域，从而避免由于动态物体、模糊区域、遮挡区域等不稳定的情况造成训练误差失真、误差大等不稳定情形，以提升训练上述神经网络时的收敛速度。

在一实施例中，由于在线训练神经网络时，遇到的场景是全新的，且由于移动设备的不断运动每一阶段的场景可能完全不同，即相邻时刻的图像序列

往往并不具有相似的特点。这将会影响对上述神经网络的训练效率，导致上述神经网络收敛较慢。

基于此，在本实施例中使用了卷积长短时序记忆网络(ConvLSTM)使在每次针对网络进行自监督学习训练时，可以结合历史训练信息和经验，从而克服网络遗忘性，以及训练效率。

在本实施例中，上述神经网络为基于卷积神经网络、以及卷积长短时序记忆网络构建的深度神经网络；其中，上述卷积神经网络的输出为上述卷积长短时序记忆网络的输入。

请参见图4，图4为本申请示出的一种深度图像估计网络的结构示意图。

如图4所示，上述深度图像估计网络可以包括若干卷积层41，反向卷积层43以及卷积长短时序记忆层42，其中，上述卷积层的输出可以是上述卷积长短时序记忆层的输入。图中每个方块的纵向长度代表分辨率的高低，横向宽度代表提取到的特征的维度。

在此，需要说明的是，图4中示出的网络结构仅为示意性说明，不对本申请作出特别限定。

请参见图5，图5为本申请示出的一种相对位姿估计网络的结构示意图。

如图5所示，上述相对位姿估计网络可以包括若干卷积层51，以及卷积长短时序记忆层52，其中，上述卷积层的输出可以是上述卷积长短时序记忆层的输入。图中每个方块的纵向长度代表分辨率的高低，横向宽度代表提取到的特征的维度。

在此，需要说明的是，图5中示出的网络结构仅为示意性说明，不对本申请作出特别限定。

在上述情形下，上述设备在根据上述神经网络，获取上述第一图像序列中相邻两帧图像之间的相对位姿时，可以将上述第一图像序列中的相邻两帧图像的深度图像，以及上述相邻两帧图像，输入上述神经网络，确定上述相对位姿。

上述设备在根据采用上述第一中间网络参数配置的神经网络，获取上述第二图像序列中相邻两帧图像之间的相对位姿时，可以将上述第二图像序列中的相邻两帧图像的深度图像，以及上述相邻两帧图像，输入采用上述第一中间网络参数配置的神经网络，确定上述相对位姿。

其中，在确定上述相对位姿的过程中，输入上述卷积长短时序记忆网络记忆的上述相邻两帧图像之前的至少部分图像的图像特征。即输入卷积长短时序记忆网络的图像特征，可以包括至少部分图像的图像特征，或是全部图像的图像特征。在本实施例中，对于输入图像特征的数量不予限定，可以结合承载神经网络的硬件设备的处理能力，和/或应用场景的实际需求进行调整。

上述设备在计算图像对应的深度图像时，可以将图像序列中图像，输入上述神经网络，确定图像序列中图像的深度图像。

其中，在确定上述深度图像的过程中，输入上述卷积长短时序记忆网络记忆的图像序列中上述图像之前至少部分图像的图像特征。

可以理解的是，上述图像序列可以是指上述第一图像序列，或上述第二图像序列，上述图像可以是指上述第一图像、第二图像、第三图像或第四图像。

需要说明的是，为了更加精准的确定深度图像或相对位姿，在基于上述卷积长短时序记忆网络确定深度图像或相对位姿的过程中还可以引入注意力机制，从而从历史信息中筛选出更加有用的信息，精准确定深度图像或相对位姿。

由上述技术方案可知，由于上述卷积层后接入了卷积长短时序记忆层，因此，一方面，对确定深度图像或相对位姿时，上述神经网络可以结合上述卷积长短时序记忆层记忆的对历史图像的相关估计，从而对当前帧图像的深度图像估计和相对位姿估计更加准确。另一方面，当训练上述网络时，可以结合上述卷积长短时序记忆层记忆的历史信息和经验帮助当前训练，从而提升了网络训练效率，加快了收敛速度。

在对基于上述神经网络构建的视觉里程计进行更新的场景中，由于采用了上述技术方案，可以提升上述视觉里程计的更新效率，并增加其对运动轨迹估计的准确性。

的特征分布往往不同，这将导致在对上述神经网络进行训练时，收敛速度较慢。

在本实施中，为了解决上述问题，在一次迭代训练中，在将上述第一图像序列中的多帧图像作为训练样本，输入上述神经网络后，通过上述神经网络可以包括的各卷积层输出的特征图，得到上述各卷积层输出的特征图对应的分布情况。

在实际应用中，在对上述神经网络可以包括的各卷积层输出的特征图进行统计分析时，上述设备可以针对各卷积层输出的特征图

执行以下步骤：

获取特征图

可以包括的数据f_j∈{f₁，…，f_n}；其中，n＝H×W×C，H、W、C分别代表特征图的宽、高以及通道数。

在获取特征图

可以包括的数据后，可以计算其对应的均值μ_s，以及方差

具体地，将上述特征图

可以包括的各数据代入均值公式

以及方差公式

中，进行计算得到

对应的均值μ_s，以及方差

其中，

代表第S张特征图。μ_s代表基于第S张特征图包括的数据计算出的均值。

代表基于第S张特征图包括的数据计算出的方差。

为了方便说明实施例，在上述神经网络针对上述第一图像序列

中的各图像进行计算时，上述各特征图的分布特性通过

来表示。

在确定各卷积层输出的特征图对应的分布特性后，上述设备可以在将上述第二图像序列中的多帧图像作为训练样本，输入采用上述第一中间网络参数配置的神经网络的情况下，基于得到的上述分布情况，对上述第一中间网络参数配置的上述神经网络的各卷积层输出的特征图进行特征对齐处理。

在实际应用中，上述设备可以根据上述均值公式和方差公式，计算对上述第二图像序列

中的各图像进行计算时，上述神经网络的各卷积层输出的特征图的特征分布

然后，上述设备可以根据特征对齐公式

将处理上述第一图像序列和上述第二图像序列时，上述神经网络各卷积层输出的特征进行对齐。其中，上述β为超参数。

接着，上述设备可以根据特征标准化公式

对当前上述神经网络各卷积层输出的特征图进行标准哈鱼。其中，上述∈是预设的常数，上述γ、δ可以是在特征对齐过程中进行调整的参数。

在标准化处理后，上述设备可以通过采用上述第一中间网络参数配置的上述神经网络，基于特征对齐后的各特征图，输出上述第二图像序列中相邻两帧图像之间的相对位姿，和/或上述第二图像序列中图像的深度图像。

由上述技术方案可知，由于在对上述第二图像序列中的各图像进行计算时，基于在对上述第一图像序列中的各图像进行计算时，上述神经网络可以包括的各卷积层输出的特征图的分布特性，对当前上述神经网络各卷积层输出的特征图进行了特征对齐处理，因此，可将相邻的两个场景的数据特征分布特性对齐，让相邻的场景的特征具有一致性和连续性，从而使将相邻两个图像序列作为训练样本，对上述神经网络进行训练时，可以提升训练效率，加快收敛速度。

在对基于上述神经网络构建的视觉里程计进行更新的场景中，由于采用上述技术方案，可以提升上述视觉里程计的更新效率。

本申请还提出一种运动轨迹确定方法，该方法通过将待处理连续图像序列，输入根据上述方法实施例进行训练得到的神经网络中确定移动设备的运动轨迹，从而提升了运动轨迹确定精确度。

请参见图6，图6为本申请示出的一种运动轨迹确定方法的方法流程图。如图6所示，上述方法可以包括，

S602，获取移动设备采集的待处理连续图像序列；

S604，将上述待处理连续图像序列输入神经网络，以得到上述移动设备的运动轨迹；

其中，上述神经网络为根据上述方法实施例进行训练得到的神经网络。

在实际应用中，在执行上述S604时，根据上述神经网络，获取上述待处理连续图像序列中相邻两帧图像之间的相对位姿；

由于根据上述方法实施例进行训练得到的神经网络的泛化性能和实用性能均有提高，因此，将待处理连续图像序列，输入上述神经网络中确定移动设备的运动轨迹，可以提升运动轨迹确定精确度。

本申请还提出一种神经网络训练装置。请参见图7，图7为本申请示出的一种神经网络训练装置的结构图。如图7所示，上述装置700可以包括：

获取模块710，获取至少两个图像序列，上述至少两个图像序列可以包括第一图像序列，以及与上述第一图像序列相邻的第二图像序列；

训练模块720，根据上述第一图像序列以及上述第二图像序列，对上述神经网络进行训练，以得到目标网络参数；

配置模块730，采用上述目标网络参数配置上述神经网络。

在示出的一实施例中，上述训练模块710，可以包括：

基于上述第一训练误差，得到第一中间网络参数。

在示出的一实施例中，上述迭代训练子模块，还可以包括：

基于上述第二训练误差，得到第二中间网络参数。

和/或，

在示出的一实施例中，上述神经网络可以包括若干卷积层。上述装置700还可以包括：

基于上述残差图，确定上述第二图像对应的掩膜区域；

和/或，

在确定第二估计训练误差之前，上述方法还可以包括：

基于上述残差图，确定上述第四图像对应的掩膜区域。

在示出的一实施例中，上述神经网络用于构建视觉里程计。

本申请还提出一种运动轨迹确定装置。请参见图8，图8为本申请示出的一种运动轨迹确定装置的结构图。如图8所示，上述装置800可以包括：

获取模块810，获取移动设备采集的待处理连续图像序列；

输入模块820，将上述待处理连续图像序列输入神经网络，以得到上述移动设备的运动轨迹；

在示出的一实施例中，上述输入模块820可以包括：

本申请示出的神经网络训练装置实施例可以应用于设备上。该装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图9所示，为本申请示出的一种神经网络训练设备的硬件结构图，除了图9所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的电子设备通常根据该电子设备的实际功能，还可以包括其他硬件，对此不再赘述。

请参考图9所示的神经网络训练设备，该设备可以包括处理器；

用于存储上述处理器可执行指令的存储器；

其中，上述处理器被配置为调用上述存储器中存储的可执行指令，实现上述方法实施例提供的神经网络训练方法。

本申请提出一种计算机可读存储介质，上述存储介质存储有计算机程序，上述计算机程序用于执行上述方法实施例提供的神经网络训练方法。

本申请示出的运动轨迹确定装置实施例可以应用于设备上。该装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图10所示，为本申请示出的一种运动轨迹确定设备的硬件结构图，除了图10所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的电子设备通常根据该电子设备的实际功能，还可以包括其他硬件，对此不再赘述。

请参考图10所示的运动轨迹确定设备，该设备可以包括处理器；

用于存储上述处理器可执行指令的存储器；

其中，上述处理器被配置为调用上述存储器中存储的可执行指令，实现上述方法实施例提供的运动轨迹确定方法。

本申请提出一种计算机可读存储介质，上述存储介质存储有计算机程序，上述计算机程序用于执行上述方法实施例提供的运动轨迹确定方法。

本领域技术人员应明白，本申请一个或多个实施例可提供为方法、***或计算机程序产品。因此，本申请一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(可以包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例还提供一种计算机可读存储介质，该存储介质上可以存储有计算机程序，上述程序被处理器执行时实现本申请任一实施例描述的用于文字识别的神经网络的训练方法的步骤，和/或，实现本申请任一实施例描述的文字识别方法的步骤。其中，上述的“和/或”表示至少具有两者中的其中一个，例如，“A和/或B”可以包括三种方案A、B、以及“A和B”。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于数据处理设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的行为或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本申请中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、可以包括本申请中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本申请中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本申请中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。上述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或多SIC(专用集成电路)来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机可以包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件可以包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将可以包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位***(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质可以包括所有形式的非易失性存储器、媒介和存储器设备，例如可以包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本申请包含许多具体实施细节，但是这些不应被解释为限制任何公开的范围或所要求保护的范围，而是主要用于描述特定公开的具体实施例的特征。本申请内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上上述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种***模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和***通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上上述仅为本申请一个或多个实施例的较佳实施例而已，并不用以限制本申请一个或多个实施例，凡在本申请一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请一个或多个实施例保护的范围之内。

Claims

1.一种神经网络训练方法，其特征在于，所述方法包括：

多次获取至少两个图像序列，其中，相邻两次获取的至少两个图像序列中，前一次获取的至少两个图像序列中顺位靠后的图像序列与后一次获取的至少两个图像序列中顺位靠前的图像序列相同；每次获取的至少两个图像序列包括第一图像序列，以及与所述第一图像序列相邻的第二图像序列；

在每次获取至少两个图像序列之后，根据所述第一图像序列以及所述第二图像序列，对所述神经网络进行训练，以得到目标网络参数；其中，在一次迭代训练中，利用所述第一图像序列，对所述神经网络进行训练，得到中间网络参数，利用所述第二图像序列，对基于所述中间网络参数配置的神经网络进行训练；

采用所述目标网络参数配置所述神经网络。

2.根据权利要求1所述的方法，其特征在于，所述利用所述第一图像序列，对所述神经网络进行训练，得到中间网络参数，包括：

根据所述第一图像序列以及所述第二图像序列，对所述神经网络进行迭代训练，直至所述神经网络收敛，得到所述目标网络参数；

其中，在一次迭代训练中，通过所述神经网络，获取所述第一图像序列中相邻两帧图像之间的相对位姿，所述相邻两帧图像包括第一图像以及采集时刻位于所述第一图像之后的第二图像；

根据所述第一图像序列中所述第二图像对应的深度图像，以及所述第一图像与所述第二图像之间的相对位姿，得到所述第二图像对应的合成图像；

根据所述第一图像序列中多帧所述第二图像以及与多帧所述第二图像对应的所述合成图像，确定第一训练误差；

基于所述第一训练误差，得到第一中间网络参数。

3.根据权利要求2所述的方法，其特征在于，所述利用所述第二图像序列，对基于所述中间网络参数配置的神经网络进行训练，包括：

通过采用所述第一中间网络参数配置的所述神经网络，获取所述第二图像序列中相邻两帧图像之间的相对位姿，所述相邻两帧图像包括第三图像以及采集时刻位于所述第三图像之后的第四图像；

根据所述第二图像序列中所述第四图像对应的深度图像，以及所述第三图像与所述第四图像之间的相对位姿，得到所述第四图像对应的合成图像；

根据所述第二图像序列中多帧所述第四图像以及与多帧所述第四图像对应的所述合成图像，确定第二训练误差；

基于所述第二训练误差，得到第二中间网络参数。

4.根据权利要求3所述的方法，其特征在于，所述基于所述第一训练误差，得到第一中间网络参数，包括：

基于梯度下降法，以及所述第一训练误差，对所述神经网络进行一次梯度下降，得到第一中间网络参数；

和/或，

所述基于所述第二训练误差，得到第二中间网络参数，包括：

基于梯度下降法，以及所述第二训练误差，对所述神经网络进行一次梯度下降，得到第二中间网络参数。

5.根据权利要求3所述的方法，其特征在于，所述神经网络包括深度神经网络，所述深度神经网络，包括卷积神经网络、以及卷积长短时序记忆网络；其中，所述卷积神经网络的输出为所述卷积长短时序记忆网络的输入。

6.根据权利要求5所述的方法，其特征在于，所述根据所述神经网络，获取所述第一图像序列中相邻两帧图像之间的相对位姿，包括：

将所述第一图像序列中的相邻两帧图像的深度图像，以及所述相邻两帧图像，输入所述神经网络，确定所述相对位姿；

其中，在确定所述相对位姿的过程中，输入所述卷积长短时序记忆网络记忆的所述相邻两帧图像之前的至少部分图像的图像特征；

和/或，

所述根据采用所述第一中间网络参数配置的神经网络，获取所述第二图像序列中相邻两帧图像之间的相对位姿，包括：

将所述第二图像序列中的相邻两帧图像的深度图像，以及所述相邻两帧图像，输入采用所述第一中间网络参数配置的神经网络，确定所述相对位姿；

其中，在确定所述相对位姿的过程中，输入所述卷积长短时序记忆网络记忆的所述相邻两帧图像之前的至少部分图像的图像特征。

7.根据权利要求6所述的方法，其特征在于，在根据所述第一图像序列中所述第二图像对应的深度图像，以及所述第一图像与所述第二图像之间的相对位姿，得到所述第二图像对应的合成图像之前，所述方法还包括：

将所述第一图像序列中所述第二图像，输入所述神经网络，确定第一图像序列中所述第二图像的深度图像；

其中，在确定所述深度图像的过程中，输入所述卷积长短时序记忆网络记忆的所述第二图像之前至少部分图像的图像特征；

和/或，

在根据所述第二图像序列中所述第四图像对应的深度图像，以及所述第三图像与所述第四图像之间的相对位姿，得到所述第四图像对应的合成图像之前，所述方法还包括：

将所述第二图像序列中所述第四图像，输入采用所述第一中间网络参数配置的神经网络，确定所述第四图像的深度图像；

其中，在确定所述深度图像的过程中，输入所述卷积长短时序记忆网络记忆的所述第四图像之前至少部分图像的图像特征。

8.根据权利要求3所述的方法，其特征在于，所述神经网络包括若干卷积层；

所述方法还包括：

在一次迭代训练中，在将所述第一图像序列中的多帧图像作为训练样本，输入所述神经网络后，通过所述神经网络包括的各卷积层输出的特征图，得到所述各卷积层输出的特征图对应的分布情况；

在将所述第二图像序列中的多帧图像作为训练样本，输入采用所述第一中间网络参数配置的神经网络的情况下，基于得到的所述分布情况，对所述第一中间网络参数配置的所述神经网络的各卷积层输出的特征图进行特征对齐处理；

通过采用所述第一中间网络参数配置的所述神经网络，基于特征对齐后的各特征图，输出所述第二图像序列中相邻两帧图像之间的相对位姿，和/或所述第二图像序列中图像的深度图像。

9.根据权利要求3所述的方法，其特征在于，在确定第一估计训练误差之前，所述方法还包括：

根据所述第二图像以及与所述第二图像对应的所述合成图像，构建残差图；

基于所述残差图，确定所述第二图像对应的掩膜区域；

和/或，

在确定第二估计训练误差之前，所述方法还包括：

根据所述第四图像以及与所述第四图像对应的所述合成图像，构建残差图；

基于所述残差图，确定所述第四图像对应的掩膜区域。

10.根据权利要求1所述的方法，其特征在于，所述第一图像序列与所述第二图像序列在时序上相邻，且所述第一图像序列的最后一帧图像的拍摄时间，在所述第二图像序列的第一帧图像的拍摄时间之前。

11.根据权利要求1所述的方法，其特征在于，所述第一图像序列包括训练样本，所述第二图像序列包括测试样本。

12.根据权利要求1-11任一所述的方法，其特征在于，所述神经网络用于构建视觉里程计。

13.一种运动轨迹确定方法，其特征在于，所述方法包括：

获取移动设备采集的待处理连续图像序列；

将所述待处理连续图像序列输入神经网络，以得到所述移动设备的运动轨迹；

其中，所述神经网络为根据权利要求1至12中任意一项进行训练得到的神经网络。

14.根据权利要求13所述的方法，其特征在于，所述将所述待处理连续图像序列输入神经网络，以得到所述移动设备的运动轨迹，包括：

根据所述神经网络，获取所述待处理连续图像序列中相邻两帧图像之间的相对位姿；

对获取到的所述待处理连续图像序列中所有相邻两帧图像之间的相对位姿进行累加，得到所述移动设备的运动轨迹。

15.一种神经网络训练装置，其特征在于，所述装置包括：

获取模块，多次获取至少两个图像序列，其中，相邻两次获取的至少两个图像序列中，前一次获取的至少两个图像序列中顺位靠后的图像序列与后一次获取的至少两个图像序列中顺位靠前的图像序列相同；每次获取的至少两个图像序列包括第一图像序列，以及与所述第一图像序列相邻的第二图像序列；

训练模块，在每次获取至少两个图像序列之后，根据所述第一图像序列以及所述第二图像序列，对所述神经网络进行训练，以得到目标网络参数；其中，在一次迭代训练中，利用所述第一图像序列，对所述神经网络进行训练，得到中间网络参数，利用所述第二图像序列，对基于所述中间网络参数配置的神经网络进行训练；

配置模块，采用所述目标网络参数配置所述神经网络。

16.一种运动轨迹确定装置，其特征在于，所述装置包括：

获取模块，获取移动设备采集的待处理连续图像序列；

输入模块，将所述待处理连续图像序列输入神经网络，以得到所述移动设备的运动轨迹；

17.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行所述权利要求1-12任一所述的神经网络训练方法。

18.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行所述权利要求13或14所述的运动轨迹确定方法。

19.一种神经网络训练设备，其特征在于，所述设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为调用所述存储器中存储的可执行指令，实现权利要求1至12中任一项所述的神经网络训练方法。

20.一种运动轨迹确定设备，其特征在于，所述设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为调用所述存储器中存储的可执行指令，实现权利要求13或14所述的运动轨迹确定方法。