CN112967317A

CN112967317A - 一种动态环境下基于卷积神经网络架构的视觉里程计方法

Info

Publication number: CN112967317A
Application number: CN202110257421.2A
Authority: CN
Inventors: 李妮; 张甜甜; 龚光红
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-03-09
Filing date: 2021-03-09
Publication date: 2021-06-15
Anticipated expiration: 2041-03-09
Also published as: CN112967317B

Abstract

本发明提出一种动态环境下基于卷积神经网络价架构的视觉里程计方法，该方法设计了一个由两个串联的卷积神经网络构建的视觉里程计***DCVO，通过端到端的方式对AR设备进行快速稳定准确的跟踪定位。其中第一个网络同时进行特征点提取与像素级语义分割，记为Multitask‑Net；第二个网络估计相机相对运动，记为Pose‑Net。该方法通过剔除语义动态特征点的方式减轻了运动物体对位姿估计的干扰，保证了后续位姿估计的稳定性；同时以端到端的方式避免了常规特征法中描述子计算与匹配的耗时，有效缩短了位姿估计的时间。

Description

一种动态环境下基于卷积神经网络架构的视觉里程计方法

技术领域

本发明属于基于自然图像处理的三维空间跟踪注册领域，涉及一种动态环境下连续运动相机的实时定位方法，具体涉及一种基于卷积神经网络架构的静态特征点提取与相对位姿估计的视觉里程计方法。

背景技术

增强现实(Augmented Reality,AR)技术借助光电显示、人机交互等技术将计算机生成的虚拟物体或辅助性图文信息与用户周围的真实环境相融合，从感官效果上实现对真实世界的增强，被广泛应用于军事，医疗，教育等领域。一个完整的AR***具备三个关键技术：跟踪注册，虚实融合，实时交互。其中跟踪注册是指在用户的运动过程中保持虚拟物体与真实场景的无缝叠加，需要对用户佩戴的AR设备进行三维空间中的定位跟踪，然后在此基础上进行虚拟物体在真实空间中的定位。跟踪注册通常由基于自然图像识别的同时定位与建图(Simultaneous Localization and Mapping,SLAM)技术实现。

用于AR跟踪注册的视觉SLAM(Visual SLAM,VSLAM)***以AR设备装配的相机作为采集设备，负责对相机所处的位置与姿态做出实时估计，并构建周围环境的三维点云地图。一个常规的VSLAM***主要分为前端视觉里程计(Visual Odometry,VO)和后端优化两部分，其中VO负责提取相机采集图像的特征点，然后基于前后图像帧的特征点的匹配关系估计相机位姿矩阵，由于相机的观测误差不可避免，需要将带有误差的位姿估计值送入后端进行非线性优化。VSLAM的采集设备可分为单个(单目)相机、双目相机和深度相机。

目前，在静止的小规模场景下，一些以ORB_SLAM2为代表的单目SLAM能够实现快速稳定准确的跟踪，但在AR应用场景中需要继续改进，主要有两个方面的改进需求。一是AR***的虚拟场景刷新频率应不低于10帧每秒，这样才不会让用户在观察增强场景的过程中有跳动感，而以ORB_SLAM2为代表的单目SLAM的跟踪注册速度难以满足这个要求。二是实际的AR场景并不能保持静止，会存在人、车辆这些运动物体。由于运动物体与AR相机的运动不具备一致性，因此用不同时刻的运动物体上的特征点的匹配关系会估计出错误的相机位姿，导致相机定位不准，用户会观察到虚拟物体的抖动或漂移现象。

综上所述，对于AR设备在含有运动物体场景中的定位问题，传统的单目SLAM很难实时修正运动物体干扰，难以保持稳定准确的定位。因此需要一种能够有效去除运动干扰，同时保持实时运行的跟踪注册方法，以实现在用户佩戴AR设备运动的过程中，虚拟物体能保持与真实场景的正确融合。

发明内容

为了解决上述单目SLAM技术在AR跟踪注册中存在的不足，本发明结合SLAM与深度学习技术，提出通过卷积神经网络(Convolutional Neural Network,CNN)构建一个VO***，记为DCVO，以实现短时间内的实时准确稳定的跟踪。

该跟踪注册方法描述的DCVO***由两个串联的CNN构成，首先第一个CNN是一个多任务网络，记为Multitask-Net，用来同时检测图像特征点并进行像素级语义分割。该方法将语义分割的类别归类为静态与动态两类，根据特征点所属的动静类别，仅保留静态类的特征点。第二个网络是一个轻量型的CNN，记为Pose-Net，以相邻两幅图像经Multitask-Net提取的静态特征点为输入，输出为这两幅图像之间的相机相对位姿。最后，将相对位姿转换为世界坐标系下的绝对位姿，实现时间上连续的相机定位。

本发明提供一种动态环境下基于卷积神经网络架构的视觉里程计方法，具体包括以下步骤：

步骤1、生成特征点位置数据集，然后对特征点检测和语义分割多任务网络Multitask-Net进行训练；

步骤2、通过步骤1训练好的Multitask-Net，生成位姿估计网络Pose-Net训练所需的静态特征点数据和相对位姿数据；

步骤3、用步骤2生成的静态特征点数据和相对位姿数据，对Pose-Net进行训练；

步骤4、用步骤1和步骤3训练好的网络构建VO***，记为DCVO***，计算时序的图像帧数据对应的AR设备装配的相机的运动轨迹。

所述Multitask-Net用来同时检测图像特征点和像素级语义分割，其语义分割的类别归类为静态与动态两类，根据特征点所属的动静类别，仅保留静态类的特征点。

所述Pose-Net以相邻两幅图像经Multitask-Net提取的静态特征点为输入，输出这两幅图像之间的相机相对位姿，将相对位姿转换为世界坐标系下的绝对位姿，实现时间上连续的相机定位。

所述步骤1包括以下步骤：

步骤101、提取大型开源的语义分割数据集中彩色图像的SIFT特征点；

步骤102、根据步骤101提取的特征点结果，按照特征点处像素强度为1，非特征点处像素强度为0的对应关系，将彩色图像转换为特征点位置二值图，得到特征点位置数据集；

步骤103、以步骤101中的语义分割数据集和步骤102生成的特征点位置数据集对Multitask-Net进行多次迭代训练，并记录每一次迭代的验证集的语义分割平均交并比和网络参数，其中彩色图像作为网络的输入数据，语义分割数据集中的分割标签图与步骤102生成的特征点位置二值图作为网络学习的真实值；

步骤104、以每次迭代的验证集的语义分割平均交并比作为网络拟合指标，选取训练过程中最高的平均交并比对应的网络参数，作为训练好的Multitask-Net；

所述步骤2包括以下步骤：

步骤201、以大型开源的街景数据集中的彩色图像作为步骤1训练好的Multitask-Net的输入数据，进行特征点检测和语义分割；

步骤202、对步骤201提取的分布密集的特征点进行非极大值抑制的稀疏化处理；

步骤203、将语义分割类别归类为运动与静止两类，按步骤201的语义分割结果，对步骤202稀疏化处理后的特征点进行语义分类；

步骤204、将静态类特征点处像素强度设为255，动态特征点和非特征点处像素设为0，构建静态特征点位置的二值图；

步骤205、按照世界坐标系到局部坐标系的转换关系，将步骤201中使用的街景数据集提供的相机绝对位姿数据转换为连续的相邻两两帧之间的相对位姿数据。

所述步骤3包括以下步骤：

步骤301、将步骤204生成的静态特征点位置二值图作为Pose-Net的输入，将步骤205生成的相对位姿数据作为网络学习的真实值，进行多次迭代训练，记录每次迭代后的验证集损失和网络参数；

步骤302、将验证集损失作为网络拟合质量指标，取最小损失的网络参数作为训练好的Pose-Net。

所述步骤4包括以下步骤：

步骤401、以一个时序的彩色图像序列中的图像依次作为步骤1训练好的Multitask-Net的输入，网络检测的特征点经过非极大值抑制的稀疏化处理、语义分割动静分类后，生成静态特征点二值图；

步骤402、将图像序列中每一对相邻两帧图像的静态特征点二值图作为步骤3训练好的Pose-Net的输入，网络输出这两帧图像之间的相机相对位姿；

步骤403、将第一帧图像的坐标系作为世界坐标系，将步骤402生成的每一对相邻两帧之间的相对位姿转化为相对于世界坐标系的绝对位姿，然后绘制相机的运动轨迹。

相比于现有技术，本发明的有益效果在于：

1.本发明提供一种动态环境下基于卷积神经网络架构的视觉里程计方法，该方法通过端到端的方式估计相机运动，避免了基于特征法的SLAM跟踪线程中描述子的计算和匹配过程，能够有效的缩短位姿计算的时间，能够满足AR位置刷新实时性的要求。

2.本发明提供一种动态环境下基于卷积神经网络的视觉里程计方法，该方法通过一个多任务网络同时检测特征点并进行语义分割，避免了语义分割与特征点提取时间不一致的问题，在连续运动的场景下比人工设计的特征点提取方法有更高的重复率；通过剔除语义上动态的特征点，能够有效减少场景中运动物体对位姿估计的干扰，能够在运动场景中保持AR设备的稳定准确的跟踪定位。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，通过参考附图会更加清楚的理解本发明的特征和优点，附图是示意性的而不应理解为对本发明进行任何限制，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，可以根据这些附图获得其他的附图。其中：

图1是本发明一种基于卷积神经网络架构的VO***的总体结构图；

图2是本发明一种基于卷积神经网络架构的VO***的Multitask-Net网络结构图；

图3是本发明一种动态环境下基于卷积神经网络架构的视觉里程计方法的特征点稀疏化算法流程图；

图4是本发明对开源街景数据集KITTI进行静态特征点提取的结果显示；

图5是本发明一种基于卷积神经网络架构的VO***的Pose-Net网络结构图；

图6是本发明在开源街景数据集KITTI下生成的相机运动轨迹，与ORB_SLAM2的跟踪线程生成轨迹的对比结果。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

一种动态环境下基于卷积神经网络架构的视觉里程计方法，具体包括以下步骤：

步骤1、生成特征点位置数据集，然后对特征点检测和语义分割多任务网络Multitask-Net进行训练。

具体步骤如下：

步骤101、提取语义分割数据集CityScapes中彩色图像的SIFT特征点；

步骤103、以CityScapes数据集和步骤102生成的特征点位置数据集对Multitask-Net(结构如图2所示)进行多次迭代训练，并记录每一次迭代的验证集的语义分割平均交并比和网络参数。其中彩色图像作为网络的输入数据，语义分割数据集中的分割标签图与步骤102生成的特征点位置二值图作为网络学习的真实值；

步骤104、以每次迭代的验证集的语义分割mIoU作为网络拟合指标，其中第147次迭代取得最高的mIoU＝0.69，因此选取第147次迭代学习到的网络参数，作为训练好的Multitask-Net模型；

步骤2、通过步骤1训练好的Multitask-Net，生成位姿估计网络Pose-Net训练所需的静态特征点数据和相对位姿数据。

具体步骤如下：

步骤201、以KITTI数据集中的彩色图像作为步骤1训练好的Multitask-Net的输入数据，进行特征点检测和语义分割；

步骤202、对步骤201提取的密集特征点进行非极大值抑制(Non-MaximumSuppression，NMS)稀疏化处理，算法流程如图3所示；

步骤203、将CityScapes数据集提供的语义分割类别归类为运动与静止两类，如表1所示，按步骤201的语义分割结果，对步骤202稀疏化处理后的特征点进行语义分类；

表1

步骤204、将静态类特征点处像素强度设为255，非静态类(包括动态特征点和非特征点)处像素设为0，构建静态特征点位置的二值图，如图4所示，其中第一列为输入的彩色图像，第二列为特征点检测与语义分割结果，第三列为最终生成的语义静态特征点二值图；

步骤205、按照世界坐标系到局部坐标系的转换关系(如式(1)所示)，将KITTI数据集提供的相机绝对位姿数据，转换为连续的相邻两两帧之间的相对位姿数据，位姿数据用运动矩阵表示；

式中，T_i、T_j是相邻的i第帧、第j帧图像相对于世界坐标系下的运动矩阵，△T_ij为第j帧图像相对于第i帧图像的运动矩阵。

步骤3、用步骤2生成的静态特征点数据和相对位姿数据，对Pose-Net进行训练。

具体步骤如下：

步骤301、将步骤204生成的静态特征点二值图作为Pose-Net(结构如图5所示)的输入，将步骤205生成的相对位姿数据作为网络学习的真实值，进行多次迭代训练，记录每次迭代后的验证集损失和网络参数；

步骤302、将验证集损失作为网络拟合质量指标，取最小损失的网络参数作为训练好的Pose-Net模型；

步骤4、用步骤1和步骤3训练好的DCVO***(结构如图1所示)，计算时序的图像帧数据对应的AR设备装配的相机的运动轨迹。

具体步骤如下：

步骤401、分别将KITTI/00数据集的第300-700帧图像、第850-1150帧图像、第1250-1450帧图像、第1600-1800帧图像组成四组图像序列，将第一组图像序列中的每张图像依次作为步骤1训练好的Multitask-Net的输入，网络检测的特征点经过NMS稀疏化处理、语义分割动静分类后，生成静态特征点二值图；

步骤403、将第一帧图像的坐标系作为世界坐标系，将步骤402生成的每一对相邻两帧之间的相对位姿，按式(2)转化为相对于世界坐标系的绝对位姿，然后绘制相机的运动轨迹。依次选取另外三组图像序列，重复步骤4的相应操作，生成对应的4个运动轨迹。

T_i＝ΔT_ij·T_j (2)

为了检验DCVO的性能，将目前代表性的单目SLAM***——ORB_SLAM2的完整跟踪线程(记为full)、ORB_SLAM2跟踪线程无局部位姿优化(记为lb)、无全局位姿优化(记为lp)、无局部与全局位姿优化(记为lblp)设置为4个对比组，以相同的四组图像序列作为输入，在相同运算平台上运行并生成运动轨迹。其中，在第四组实验数据上，由于提取的ORB特征点数过少，ORB_SLAM2的跟踪线程跟踪丢失，另外三组轨迹与对应的真实值和DCVO轨迹的对比结果如图6所示。在这四组数据上，DCVO的平均运行时间为30ms，ORB_SLAM2跟踪线程的平均运行时间为56ms。可见DCVO的跟踪准确率与ORB-SLAM2跟踪线程相当，但有更好的实时性和稳定性，并且实时性满足AR设备定位的要求。

基于以上步骤实现了在含有运动物体的场景下，对AR设备进行实时稳定准确跟踪。本方法的简要使用步骤如下，在训练好的DCVO***的基础上，首先以AR设备装配的相机采集的图像序列中的每张图像作为特征点提取与语义分割多任务网络Multitask-Net的输入，通过NMS稀疏化和语义分类，提取语义静态的特征点；然后按时间顺序依次将一对相邻图像的静态特征点作为位姿估计网络Pose-Net的输入，生成这两帧图像之间的相机相对位姿数据；以第一帧图像坐标系为世界坐标系，将相对位姿数据转换为世界坐标系下的绝对位姿数据，并绘制相机运动轨迹进行可视化。

此外，前述仅说明了一些实施方式，可进行改变、修改、增加和/或变化而不偏离所公开的实施方式的范围和实质，该实施方式是示意性的而不是限制性的。此外，所说明的实施方式涉及当前考虑为最实用和最优选的实施方式，其应理解为实施方式不应限于所公开的实施方式，相反地，旨在覆盖包括在该实施方式的实质和范围内的不同的修改和等同设置。此外，上述说明的多种实施方式可与其它实施方式共同应用，如，一个实施方式的方面可与另一个实施方式的方面结合而实现再另一个实施方式。另外，任何给定组件的各独立特征或构件可构成另外的实施方式。

为了示意和说明的目的提供实施方式的前述说明，其不意图穷举或限制本公开。具体实施方式的各元件或特征通常不限于该具体实施方式，但是在可应用的情况下，即使没有具体地示出或说明，各元件或特征也是可互换且可用于选择的实施方式，还可以多种方式改变。该改变不看作从本公开偏离，且所有该改变都包括在本公开的范围内。

因此，应理解这里通过示例的方式提供了附图和说明书，以有助于对本发明的理解，且不应构成对其范围的限制。

Claims

1.一种动态环境下基于卷积神经网络架构的视觉里程计方法，包括以下步骤：

2.根据权利要求1所述的视觉里程计方法，其特征在于，所述Multitask-Net用来同时检测图像特征点和像素级语义分割，其语义分割的类别归类为静态与动态两类，根据特征点所属的动静类别，仅保留静态类的特征点。

3.根据权利要求1所述的视觉里程计方法，其特征在于，所述Pose-Net以相邻两幅图像经Multitask-Net提取的静态特征点为输入，输出这两幅图像之间的相机相对位姿，将相对位姿转换为世界坐标系下的绝对位姿，实现时间上连续的相机定位。

4.根据权利要求1所述的视觉里程计方法，其特征在于，所述步骤1包括以下步骤：

步骤104、以每次迭代的验证集的语义分割平均交并比作为网络拟合指标，选取训练过程中最高的平均交并比对应的网络参数，作为训练好的Multitask-Net。

5.根据权利要求1所述的视觉里程计方法，其特征在于，所述步骤2包括以下步骤：

6.根据权利要求1所述的视觉里程计方法，其特征在于，所述步骤3包括以下步骤：

7.根据权利要求1所述的视觉里程计方法，其特征在于，所述步骤4包括以下步骤：