CN111325794B - 一种基于深度卷积自编码器的视觉同时定位与地图构建方法 - Google Patents

一种基于深度卷积自编码器的视觉同时定位与地图构建方法 Download PDF

Info

Publication number
CN111325794B
CN111325794B CN202010109809.3A CN202010109809A CN111325794B CN 111325794 B CN111325794 B CN 111325794B CN 202010109809 A CN202010109809 A CN 202010109809A CN 111325794 B CN111325794 B CN 111325794B
Authority
CN
China
Prior art keywords
image
network
map
optical flow
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010109809.3A
Other languages
English (en)
Other versions
CN111325794A (zh
Inventor
叶东
吕旭冬
王硕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202010109809.3A priority Critical patent/CN111325794B/zh
Publication of CN111325794A publication Critical patent/CN111325794A/zh
Application granted granted Critical
Publication of CN111325794B publication Critical patent/CN111325794B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/004Predictors, e.g. intraframe, interframe coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20228Disparity calculation for image-based rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30204Marker
    • G06T2207/30208Marker matrix
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度卷积自编码器的视觉同时定位与地图构建方法(Visual‑SLAM)。步骤1:训练数据进行数据预处理;步骤2:建立多任务学习网络;步骤3:将图像序列中相邻的三帧双目图像作为网络输入;步骤4:构建损失函数;步骤5:多任务网络的训练、验证和测试;步骤6:训练后的共享编码器网络用于回环检测;步骤7:上述六个步骤构造了一个新的Visual‑SLAM***前端,利用位姿图优化或因子图优化来构造Visual‑SLAM***的后端,进而搭建一个完整的***,步骤8:验证定位准确性和鲁棒性。使用深度卷积自编码器,以一种半监督多任务的学习方法来构建SLAM***的前端,包括深度估计、相机位姿估计、光流估计和语义分割,并利用网络的特征图构建图像表征进行回环检测。

Description

一种基于深度卷积自编码器的视觉同时定位与地图构建方法
技术领域
本发明属于图像处理技术领域;具体涉及一种基于深度卷积自编码器的视觉同时定位与地图构建方法。
背景技术
同时定位与地图构建技术是指搭载特定传感器的移动机器人在没有后环境先验条件下,于运动过程中利用传感器恢复场景的三维信息,同时定位自身位姿的关键技术,是实现机器人路径规划、自主导航以及完成其他复杂任务的基础要求。
一个完整的视觉同时定位与地图构建(Visual-SLAM,VSLAM)***理论上可以分成两个部分:前端和后端,其关系图如图1所示。前端部分主要包含视觉里程计、局部地图构建和回环检测。视觉里程计主要考虑连续数据帧间的匹配及相对姿态估计问题,利用位姿信息可以构建当前帧的局部地图,而回环检测主要是根据观测数据判断机器人是否处在之前已访问区域。后端部分主要包含位姿图优化和全局地图构建。由于观测噪声以及配准误差的存在,通过观测信息配准得到的位姿参数往往不具备一致性。为获得较小的位姿估计误差需要进行相应的最优化操作,优化过程等价于计算位姿后验概率的最大似然估计(maximum-a-posteriori,MAP)问题。与位姿优化相似,全局地图构建将所有的局部地图点与位姿同时进行优化,获得最优的全局地图。
在视觉里程计方面,目前的主流方法大多基于多视图几何,包含特征点法、直接法和半直接法。尽管这些传统算法在精度和鲁棒性方面都取得了很好的结果,但这类方法或多或少都存在着一定的缺点。特征点法依赖特征描述子来建立相邻帧之间同一关键点的联系,在缺乏纹理信息、图像模糊等场景下会出现特征缺失,容易导致相机位姿估计失败,并且特征点的提取和匹配的计算量非常大,不易实现实时定位。直接法依赖图像的灰度不变性假设,在光照变化剧烈的场景下会严重影响定位和地图构建的准确性。
传统的视觉里程计,深度图的计算通常利用双目相机或者RGB-D相机来直接获得,双目相机利用多视图几何中的双目图像匹配方法来计算,其成像的有效范围和准确率有限受到相机的成像单元尺寸和双目相机的基线大小制约,此外,获得稠密的深度图还需要大量的计算资源。而RGB-D相机受到其工作原理的制约,其有效测量范围较小,无法用于室外环境。相机的位姿估计则依赖于相邻帧图像的图像匹配算法:基于特征描述子的特征点法和基于光照不变假设的直接法。此外,深度估计的误差也会影响相机的位姿估计准确性。深度图的计算不准确除了会影响位姿估计的准确性外,还会使建立的地图出现偏差、扭曲、不连续、甚至无法建图的问题。相机的位姿估计则会影响整个视觉里程计的定位与建图,如果位姿估计偏差较大,利用后端优化也只能在一定范围内降低整个地图和轨迹的偏差。在回环检测方面,基于外观的回环检测方式能够有效地在不同场景工作,成为了视觉SLAM中的主流做法,其中基于视觉词袋模型的回环检测方法是目前基于外观的方法中表现最好的。但是基于视觉词袋模型的方法都使用人工设计的特征,如SIFT、ORB等来构造视觉字典。尽管这些精心设计的特征在简单场景下具有很好的表现,但是在遇到一些包含光照变化、部分遮挡、视角变化、季节变换等复杂场景时,这些方法的性能将受到严重影响。此外,传统的视觉里程计还无法获得语义信息,进而无法用于更高级别的场景理解、多机协同和人机交互等任务。
近年来,随着深度学习技术的发展,其在计算机视觉领域内取得了诸多成果,而如何将深度学习与经典SLAM算法相结合来改善传统方法的不足也成为了当前的研究热点。目前大多研究主要集中在利用深度学习技术来进行图像的深度估计和相机的位姿估计。利用卷积神经网络来直接获得深度图和位姿,并与给定的深度真值和位姿真值进行比较来构造损失函数,通过有监督的方式来分别训练深度估计网络和位姿估计网络。这种基于有监督学习的方式需要大量的标注数据,并且真值标签的获得具有一定的难度。深度图真值可以使用三角测量的方式获得,但其有效测量范围和测量精度受到传感器和测量算法制约,此外还可以利用激光雷达来获得准确的深度图,但利用这种方式获得的深度图是非常稀疏。相机位姿的真值可以利GPS、IMU或者多传感器融合的方式获得,但GPS绝对误差较大且无法在室内或有大量遮挡的室外环境中使用,即使使用多传感融合的方式也不易获得准确的位姿真值。为解决大量真值数据不易获得的问题,利用多视图几何方法和图像之间的几何约束关系合成中间图像作为网络训练的监督信号,进而实现无监督的学习方式逐渐成为热点。在只有原始的RGB图像的情况下,依然可以通过这种无监督的方式来进行深度预测、光流预测、位姿估计的自监督训练。
发明内容
本发明解决现有SLAM***中存在的问题,为此,使用深度卷积自编码器,以一种半监督多任务学习方法来构建SLAM***的前端,包括深度估计、相机位姿估计、光流估计和语义分割,并利用网络的特征图构建图像表征进行回环检测。其中相机的位姿估计、深度估计和光流估计采用无监督的学习方式,通过几何约束关系来构建损失函数,而语义分割则采用有监督的学习方式。上述的四个任务均需要对网络进行训练,然后再进行推理应用,回环检测则利用训练后的模型所输出的图像表征实现检测任务。
本发明通过以下技术方案实现:
一种基于深度卷积自编码器的视觉同时定位与地图构建方法,所述方法包括以下步骤:
步骤1:根据需求选择不同的训练数据进行数据预处理;
步骤2:建立基于深度卷积自编码器的多任务学习网络;
步骤3:将图像序列中相邻的三帧双目图像作为网络输入,其中,中间帧为目标帧图像Io,相邻的前后两帧为参考帧图像Is,将目标帧与参考帧图像输入多任务学习网络,获得目标帧图像的深度图、目标帧与参考帧之间的相机位姿和光流图、目标帧图像的语义分割图;
步骤4:构建损失函数;
步骤5:多任务网络的训练、验证和测试;
步骤6:多任务网络的训练结束后,利用网络编码器的作为图像表征向量的特征提取器,选择合适的特征图构建图像表征,用于回环检测;
步骤7:上述六个步骤构造了一个新的视觉同时定位与地图构建***前端,利用位姿图优化或因子图优化来构造视觉同时定位与地图构建***的后端,进而搭建一个完整的视觉同时定位与地图构建***,
步骤8:验证搭建的视觉同时定位与地图构建***的定位准确性和鲁棒性。
进一步的,所述步骤1:训练数据包含两部分:通用的公开数据集和移动机器人平台采集的室内外多传感器数据集;
数据预处理包含数据增强和改变图像尺寸,所述数据增强包括图像旋转、翻转、色彩调整、局部裁剪和加入噪声。
进一步的,所述通用的公开数据集包含KITTI数据集、Cityscape数据集和Synthia数据集,其中KITTI与Cityscape数据集是在真实场景下采集到的城市内街道数据,而Synthia数据集则是虚拟场景下的仿真城市街道数据集。
进一步的,所述步骤2,建立基于深度卷积自编码器的多任务学习网络有多种实施方案具体为:方案一:该方案中使用四个单独的网络,分别为深度估计网络、光流估计网络、相机位姿估计网络和语义分割网络;
方案二:该方案中使用与方案一中相同的深度估计网络,语义分割网络与深度估计网络共享编码器网络,二者具有独立的解码器网络,光流估计网络和相机位姿估计网络为两个独立的网络;
方案三:该方案中使用与方案一中相同的深度估计网络,语义分割、光流估计网络与深度估计网络共享编码器网络,三者具有独立的解码器网络,相机位姿估计网络为独立的网络;
方案四:该方案中使用与方案一中相同的深度估计网络,语义分割、光流估计、相机位姿估计网络与深度估计网络共享编码器网络,四者具有独立的解码器网络。
进一步的,所述步骤3多任务网络的训练的输出包含四个部分:输入图像对应的左右深度图、目标帧与参考帧之间的相机位姿、目标帧与参考帧之间的光流图、输入图像的语义分割图;其中,深度预测网络同时预测输入图像的左深度图和右深度图,因此相邻三帧图像输出6幅深度图;相机位姿预测网络按照参考帧的数目共输出前后2个相机位姿参数;光流预测网络同时输出前向光流和反向光流,按照参考帧的数目共输出四幅光流图像;语义分割网络的输出与输入图像一一对应,共输出三幅语义分割图像。
进一步的,所述步骤4构建多任务学习网络的损失函数,利用输入图像和网络预测出的视差图和位姿向量,通过空间反向映射的方式重构目标图像,并构建相应的损失函数,实现深度预测、光流预测和位姿预测三个任务的无监督学习,语义分割任务的损失函数则利用网络预测出的语义分割图与真值标签相比较的有监督学习方式,构建二者的交叉熵损失函数,搭建的多任务损失函数主要由五部分组成:
Lmulti=Ld+Lp+Lf+Ls+Lwc(1)
其中Ld是视差图的损失函数,Lp是位姿的损失函数,Lp是位姿的损失函数,Ls是语义分割的损失函数,Lcw是循环重构图像光度一致性的损失函数;
步骤4.1:视差图损失函数:
所述视差图损失函数由三部分组成:
Figure GDA0004142962490000041
其中Lsp是空间图像光度重构误差,用于评估重构图像与输入图像之间的相似度;Lds是视差图平滑度误差,保证预测出视差图的平滑性;Ldc是视差图的左右一致性误差,保证预测出的左右视差图的一致性,每一组训练数据包含前后两帧的左右图像,共计四幅图像,但在训练的过程中只有两幅左图被输入网络;
步骤4.1.1:空间图像光度重构误差:
在训练网络时,使用的输入数据来自一个标定好的双目相机在同一时刻采集到的左右两幅图像
Figure GDA0004142962490000051
和/>
Figure GDA0004142962490000052
评估重构图像与原图像之间的差异性,从而构造空间图像光度重构误差损失函数
Figure GDA0004142962490000053
Figure GDA0004142962490000054
其中
Figure GDA0004142962490000055
是输入图像,/>
Figure GDA0004142962490000056
为/>
Figure GDA0004142962490000057
的重构图像,N是图像中像素的个数,W和H分别为图像的宽和高,SSIM的权重为λSSIM=0.85;
步骤4.1.2:视差图平滑度误差;
利用视差图梯度的L1范数来构造损失函数,因为深度图的局部不连续经常发生在图像梯度比较大的地方,使用图像的梯度作为损失函数中各项的权重因子,使用视差图的一阶导数和二阶导数的L1范数共同构造视差图平滑度误差损失函数,
Figure GDA0004142962490000058
其中
Figure GDA0004142962490000059
为视差图的一阶导数,/>
Figure GDA00041429624900000510
为视差图的二阶偏导数,/>
Figure GDA00041429624900000511
为原图像的一阶导数,/>
Figure GDA00041429624900000512
为原图像的二阶偏导数,
步骤4.1.3:视差图的左右一致性误差;
为了获得更准确的视差图,在训练时仅将左视角的图像输入网络,但网络的输出为左右两幅视差图,为保证两幅视差图的一致性,额外增加了一个L1 penalty损失函数来限制左右视差图的一致性,对于左视差图而言,通过右视差图向左视差图投影,即在右视差图上利用左视差图的灰度值进行坐标运算,左视角的视差图与投影的右视角视差图相等,反之亦然,
Figure GDA00041429624900000513
在获得了视差图之后,利用已知的相机基线b和焦距f,可以将视差图
Figure GDA00041429624900000514
变换为深度图/>
Figure GDA00041429624900000515
步骤4.2:相邻帧图像的位姿误差:
与构造视差图的损失函数相似,在构造相机位姿的损失函数时,也使用几何约束条件构造的合成图像作为监督信号,进而实现无监督的学习方式,与视差图的预测问题不同,位姿预测需要使用前后两幅图像作为训练数据的输入,而输出是相机的位姿参数,的多任务网络输出一个六自由度的向量T=(tx,tt,tz,α,β,γ)来表示两帧图像的相机相对位姿,利用原图像,深度图和相对位姿参数构建连续图像的位姿损失函数,该损失函数由两部分组成:时间图像光度重构误差Ltp和三维几何配准误差Lgr,即Lp=Ltp+Lgr
步骤4.2.1:时间图像光度重构误差:
令输入的两帧图像分别为参考帧图像
Figure GDA0004142962490000061
和目标帧图像/>
Figure GDA0004142962490000062
根据多视图几何原理,采用反向映射的方式来构造图像,利用预测深度图/>
Figure GDA0004142962490000063
和相对位姿To→s,将/>
Figure GDA0004142962490000064
中的各个像素po投影到/>
Figure GDA0004142962490000065
所在的坐标系下,
Figure GDA0004142962490000066
其中,ps表示投影到
Figure GDA0004142962490000067
后的齐次坐标(homogeneous coordinates),po表示某像素在图像/>
Figure GDA0004142962490000068
中的齐次坐标,K是相机的内参矩阵,与正常的图像映射方式不同,在获得目标帧图像的重构图时不是直接由参考帧图像进行映射,而是采取反方向的方式,先将目标帧图像坐标投影(project)到参考帧图像上,然后再将投影后图像对应坐标的灰度值映射回(warp)原始目标帧图像作为最终的重构图像,如公式(6)所述,/>
Figure GDA0004142962490000069
为将目标帧的图像坐标系变换为相机坐标系,To→sDo(po)K-1po为将目标帧的相机坐标系再变换为参考帧的相机坐标系,最后再利用相机内参矩阵K变换为参考帧的图像坐标系,经过投影之后的po坐标值是连续的,因此需要使用可微的双线性插值方法来获得近似的整数坐标,
Figure GDA00041429624900000610
其中po是图像
Figure GDA00041429624900000619
中的某个像素点,K是相机的内参矩阵,/>
Figure GDA00041429624900000611
为目标帧图像/>
Figure GDA00041429624900000612
对应的深度图,To→s是从目标帧图像到参考帧图像的相机坐标变换矩阵,fbs代表双线性差值。若将t时刻的图像作为/>
Figure GDA00041429624900000613
t-1和t+1时刻的图像作为/>
Figure GDA00041429624900000614
可以利用公式(7),分别从图像/>
Figure GDA00041429624900000615
和/>
Figure GDA00041429624900000616
中合成图像/>
Figure GDA00041429624900000617
和/>
Figure GDA00041429624900000618
三幅连续图像序列的时间图像光度重构误差可以表示为
Figure GDA0004142962490000071
其中,
Figure GDA0004142962490000072
Figure GDA0004142962490000073
其中SSIM的权重因子为
Figure GDA0004142962490000074
步骤4.2.2:三维几何配准误差:
也使用3D几何匹配误差来评估预测出的相机参数,假设Pt(X,Y,Z)是在第t帧图像在其相机坐标系下的三维坐标,利用Tt→t+1很容易的将该点变换到第t+1帧图像所在的相机坐标系下Pt′(X,Y,Z),把Pt+1(X,Y,Z)投影到第t帧图像所在的相机坐标系下Pt+1(X,Y,Z),因此,两幅连续图像序列之间的三维几何匹配误差表示为:
Figure GDA0004142962490000075
步骤4.3:光流图损失函数:
构造光流图的损失函数与构造相机为位姿损失函数相似,使用几何约束条件构造的合成图像作为监督信号,进而实现光流图的无监督学***滑度误差Lfs和光流一致性误差Lfc,即Lf=LfdfsLfsfcLfc
步骤4.3.1:光流图光度重构误差(Flow Photometric Error):
光流图光度重构误差是利用光流图将第一幅图像映射到第二幅图像之后,映射图与原始图像之间的差值构成了的无监督损失函数。但是,遮挡区域的像素在相邻图像中的对应像素上是无法被观察到的。因此在这类遮挡区域上,需要去除遮挡对于损失函数的影响,从而避免网络学习到错误的光流信息。遮挡区域的检测是基于前向和反正光流图的一致性检测,即对于非遮挡区域像素,前向光流应该是第二幅图像对应像素点反向光流的相反数。当二者之间的差异性很大时,认为该区域是遮挡区域,反之为非遮挡区域,进而构造光流图的掩码图像。因此,对于前向方向的遮挡,当前向光流和反向光流满足下述条件时,定义掩码图像of的像素为1,反之,则为0:
|Ff(x)+Fb(x+Ff(x))|2<α1(|Ff(x)|2+|Fb(x+Ff(x))|2)+α2 (11)
其中,前向光流为Ff,反向光流为Fb,前向光流掩码图像为of,反向光流掩码图像为ob,常数参数α1=0.01,α2=0.5。对于反向光流掩码图像ob,只需要将公式(11)中的前向光流为Ff和反向光流Fb交换位置即可。
利用原始图像、生成的光流图和光流掩码图来构造光流的抗遮挡损失函数:
Figure GDA0004142962490000081
其中fD(I1(x),I2(x′))=I1(x)-I2(x)表示两幅图像对应像素光度误差,ρ(x)=(x22)γ是标准化Charbonnier惩罚函数,γ=0.45,λp为一个惩罚常数,在所有的遮挡像素上增加该参数,可以有效地避免所有的像素都变成遮挡像素,并且惩罚所有未遮挡像素光度误差。
步骤4.3.2:光流图平滑度误差:
希望最终获得的光流图是局部平滑的,因此利用光流场的二阶平滑约束来鼓励相邻流的共线性,从而实现更有效的正则化:
Figure GDA0004142962490000082
其中,N(x)由图像的水平、垂直和x的两个对角线邻域共四个部分组成,ρ(x)=(x22)γ是标准化Charbonnier惩罚函数,γ=0.40。
步骤4.3.3:光流一致性误差(Forward-Backward Flow Consistency Loss):
对于非遮挡区域的像素,增加了一个前向-反向一致性惩罚损失函数:
Figure GDA0004142962490000083
步骤4.4:语义分割误差:
在语义分割任务中,使用交叉熵损失函数作为多任务目标函数的一部分用于训练基于深度卷积自编码器的视觉同时定位与地图构建***,语义分割交叉熵损失函数计算方式是,在一个小批次中将所有的像素的损失值相加起来。
步骤4.5:循环重构图像光度一致性误差:
为了提高视差图估计和光流估计的准确性,引入了一个新的损失函数:循环重构图像光度一致性误差。利用视差图和光流图进行两次重构,遮挡掩码图只在光流图重构时使用,而视差图重构则不使用。从图像
Figure GDA0004142962490000091
经过图像/>
Figure GDA0004142962490000092
重构图像/>
Figure GDA0004142962490000093
重构出的图像和遮挡掩码图分别为:
Figure GDA0004142962490000094
Figure GDA0004142962490000095
其中,图像
Figure GDA0004142962490000096
为图像/>
Figure GDA0004142962490000097
对应的重构图像,or,t→l,t+1为相邻帧/>
Figure GDA0004142962490000098
与/>
Figure GDA0004142962490000099
之间的前向光流图,W为投影函数,/>
Figure GDA00041429624900000910
为t时刻预测出的左视差图,/>
Figure GDA00041429624900000911
为t+1时刻的前向光路图。
通过比较从图像
Figure GDA00041429624900000912
经过图像/>
Figure GDA00041429624900000913
重构出的对应图像/>
Figure GDA00041429624900000914
与直接从/>
Figure GDA00041429624900000915
重构的对应图像
Figure GDA00041429624900000916
之间的差值来构造抗遮挡的循环重构图像光度损失函数:
Figure GDA00041429624900000917
SSIM的权重因子为
Figure GDA00041429624900000918
最后,把所有上述的误差进行加和,获得提出的多任务网络的总的损失函数,提出的方法与其他方法相比,只使用一个网络来同时完成四个任务,而不是一个任务一个网络,提出的方法是第一个将多任务网络的思想用于SLAM***的前端模块中,并且在构造损失函数时,同时考虑了视差重构误差、视差图平滑度误差、视差图左右一致性误差、光流重构误差、光流图平滑度误差以及三维匹配误差,并结合了语义分割的交叉熵损失函数,在训练网络时,对多种损失函数进行联合优化。
进一步的,所述步骤6利用训练完成后的多任务网络的编码器作为图像表征向量的特征提取器,选择合适的特征图构建图像表征,用于回环检测;
所述回环检测的具体方法,包括的步骤如下:
步骤6.1:利用训练好的多任务学习网络的编码器网络作为输入图像的特征提取器,选取网络合适层的特征图作为图像的原始全局表征张量:
Figure GDA00041429624900000919
其中Fi l为第i个特征图,h和w分别为特征图的长和宽,l表示选取网络的第l层作为图像表征,将所有的特征图展平为特征向量,并将所有的特征向量进行拼接:
Figure GDA0004142962490000101
其中Fl为拼接之后的图像表征向量,
Figure GDA0004142962490000102
为将第i个特征图Fi l展开后的特征向量,c为原始全局表征张量的深度,即特征图的个数,
步骤6.2:将所有输入图像的表征向量组合成一个表征矩阵,并对矩阵进行去中心化:
Figure GDA0004142962490000103
其中X为去中心化后的表征矩阵,m为输入图像的数目,n=h×w×c为表征向量的长度,
Figure GDA0004142962490000104
为表征矩阵的平均值向量:
Figure GDA0004142962490000105
步骤6.3:对去中心化的表征矩阵X先进行二范数规范化,然后进行自适应的主成分分析压缩:
Figure GDA0004142962490000106
其中cov为表征矩阵X的协方差矩阵,Σ和U分别为对协方差矩阵X进行奇异值分解后获得的特征值矩阵和特征向量矩阵,利用特征向量矩阵对原始图像表征矩阵进行压缩:
Figure GDA0004142962490000107
其中Y为压缩后的图像表征矩阵,k为压缩之后表征向量长度,Uk=[u1 u2…uk]为前k个特征值对应的特征向量矩阵,不直接设置k值,而是通过信息压缩比来自适应的设置该值:
Figure GDA0004142962490000108
其中γ为信息压缩比,λi为协方差矩阵的第i个特征值,
步骤6.4:对压缩后的图像表征矩阵Y进行白化操作,减小特征之间的相关性:
Figure GDA0004142962490000111
其中ε∈(0,1)是一个很小的常数,用于防止除数为0。
基于深度卷积自编码器构建一个多任务学习网络视觉里程计和回环检测模块之后,利用位姿图优化或因子图优化来构造视觉同时定位与地图构建***的后端,进而搭建一个完整的视觉同时定位与地图构建***。
本发明的有益效果是:
1.本发明建立一个基于深度卷积自编码器的完整视觉同时定位与地图构建(视觉同时定位与地图构建)***。
2.本发明利用几何约束构建网络的损失函数,实现无监督方式的学习。
3.本发明利用图像的语义信息提高深度预测、光流预测的准确性。
4.本发明提出一种循环重构图像光度误差(circle-warp)的损失函数,建立深度、光流和相机位姿之间的联系。
5.本发明使用多任务网络的编码器作为图像表征提取器,用于回环检测。
6.与传统方法比较:提高定位的准确性和鲁棒性,提高回环检测准确性(不受复杂场景变化的影响:纹理特征缺失、光照变化剧烈等)。
附图说明
图1完整的视觉SLAM***前端-后端框架图。
图2基于MS-DCA的视觉里程计***基于深度卷积自编码器的视觉同时定位与地图构建的网络结构图。
图3共享残差表征编码器网络中的scSE-Resblock模块。
图4scSE模块网络结构。
图5共享残差表征编码器网络中的ASPP和scSE模块。
图6视差图和光流图解码器网络的网络结构图。
图7视差图和光流图解码器网络多尺度合成模块的网络结构图。
图8语义分割解码器网络的网络结构图。
图9基于深度卷积自编码器的视觉同时定位与地图构建***的损失函数构建框图。
图10可微的空间反向映射方法框图。
图11循环重构图像光度一致性损失函数的构建框图。
具体实施方式
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于深度卷积自编码器的视觉同时定位与地图构建方法,所述方法包括以下步骤:
步骤1:根据需求选择不同的训练数据进行数据预处理;如图像的翻转、压缩扭曲、局部截取和高斯噪声等
步骤2:建立基于深度卷积自编码器的多任务学习网络;该网络能选择不同的网络模块和网络设计方案来构建于深度卷积自编码器网络,可以选择的使用预训练模型初始化网络参数;
步骤3:将图像序列中相邻的三帧双目图像作为网络输入,其中,中间帧为目标帧图像Io,相邻的前后两帧为参考帧图像Is,将目标帧与参考帧图像输入多任务学习网络,获得目标帧图像的深度图、目标帧与参考帧之间的相机位姿和光流图、目标帧图像的语义分割图;
步骤4:构建损失函数;该损失函数由多个部分组成,其中相机的位姿估计、深度估计和光流估计采用无监督的学习方式,通过几何约束关系来构建损失函数,而语义分割则采用有监督的学习方式;
步骤5:多任务网络的训练、验证和测试;
步骤6:多任务网络的训练结束后,利用网络编码器的作为图像表征向量的特征提取器,选择合适的特征图构建图像表征,用于回环检测;
步骤7:上述六个步骤构造了一个新的视觉同时定位与地图构建***前端,利用位姿图优化或因子图优化来构造视觉同时定位与地图构建***的后端,进而搭建一个完整的视觉同时定位与地图构建***,
步骤8:验证搭建的视觉同时定位与地图构建***的定位准确性和鲁棒性。
进一步的,所述步骤1:训练数据包含两部分:通用的公开数据集和移动机器人平台采集的室内外多传感器数据集;
数据预处理包含数据增强和改变图像尺寸,所述数据增强包括图像旋转、翻转、色彩调整、局部裁剪和加入噪声。在数据集的量不够理想的情况下扩充数据集同时加入适当干扰增加训练模型的泛化能力;改变图像尺寸是为了保证不同数据集中输入图像的大小一致,同时可以减小输入图像的大小,进而减小网络的计算量,
进一步的,所述通用的公开数据集包含KITTI数据集、Cityscape数据集和Synthia数据集,其中KITTI与Cityscape数据集是在真实场景下采集到的城市内街道数据,而Synthia数据集则是虚拟场景下的仿真城市街道数据集。
KITTI数据集包含双目相机图像数据、激光雷达点云数据、GPS和IMU数据,利用激光点云投影获得稀疏的深度图和GPS/IMU融合获得的相机位姿作为训练数据的深度真值和相机位姿真值,所述Cityscape数据集包含双目相机图像数据、算法合成的视差图、GPS和IMU数据,尽管利用视差图可以获得粗略的深度图,但该深度图的精度不足以作为深度图真值,因此该数据集只能用于网络训练,而不能用于测试,相比上述两个真实场景数据集,Synthia数据集包含更多样的场景数据,能作为多任务网络的补充数据集对训练好的网络参数进行微调,此外该数据集包含准确的语义分割图像,可用于多任务学习网络中语义分割任务的训练。
所述步骤2,基于深度卷积自编码器的视觉同时定位与地图构建是基于MS-DCA的视觉里程计***,因此,基于深度卷积自编码器的视觉同时定位与地图构建是一个可以进行多任务学习的深度学习架构,基于深度卷积自编码器的视觉同时定位与地图构建由五部分组成,分别是:共享表征编码器、相机位姿解码器、视差图解码器、光流图解码器和语义分割解码器。如图2所示,基于深度卷积自编码器的视觉同时定位与地图构建***在训练过程中,只使用来自双目传感器的左视角的连续三帧图像作为MS-DCA网络的输入,而相应的右视角图像作为MS-DCA训练过程中的监督信号的一部分,基于深度卷积自编码器的视觉同时定位与地图构建***将预测左右视角连续三帧图像的视差图、左视角的连续三帧的语义分割掩码以及相机的两个位姿参数和四幅光流图。
共享残差表征编码器网络。在基于MS-DCA的基于深度卷积自编码器的视觉同时定位与地图构建***中,位姿预测任务、视差预测任务以及语义分割预测任务共享一个表征编码器编码出的表征。在基于深度卷积自编码器的视觉同时定位与地图构建中,共享的表征编码器是一个基于深度残差神经网络(deep residual neural network)的卷积神经网络,残差编码器的卷积神经网络结构类似于经典的ResNet-34的神经网络结构,ResNet-34被设计用于目标分类任务。但是与经典的ResNet-34的结构略有不同的是,在经典的ResNet-34中使用一个滑动步长为2的卷积层和一个滑动步长为1的卷积层实现特征图压缩,而在基于深度卷积自编码器的视觉同时定位与地图构建的表征编码器中使用一个滑动步长为2的最大池化层实现特征图压缩。两个相邻的最大池化层之间的残差模块构成一个表征编码器,经过最大池化层生成的一组特征图作为其它的解码器的共享特征。共享的特征图能够获得和保留边缘信息,边缘信息对于视差图预测和语义分割十分重要。该网络由四个空间和通道挤压和激励残差模块(scSE-Resblock)、空洞卷积金字塔池化层(AtrousSpatial PyramidPooling,ASPP)和空间和通道挤压和激励块组成(Spatial and ChannelSqueeze&Excitation Block,scSE)。scSE-Resblock的结构如图3所示,该模块中包含一个scSE模块位于整个模块最下端的激活层之前,其网络结构如图4所示。ASPP和其后端连接的scSE模块的网络图如图5所示。
相机位姿解码器网络。在基于深度卷积自编码器的视觉同时定位与地图构建***中,将双目传感器中左视角的连续两帧图像通过串联的方式相连接,以这种连接方式作为共享残差表征编码器,相机位姿解码器预测的是连续两帧图像间的相对位姿。相对位姿由两部分组成,分别是具有高非线性的转角(rotation)以及平移(translation)。相机位姿解码器由两个全连接层组成,并使用非线性激活函数ReLU进行激活,最后输出一个6通道(相应的3个欧拉转角,以及3个3-D转移向量)的相对位姿向量。
视差图解码器网络。视差图解码器与共享残差表征解码器构成编码器与解码器结构,在视差图解码器后使用一个Sigmoid函数进行视差图预测估计。视差图解码器网络结构与共享残差表征解码器网络结构成对称镜像关系,解码器网络实际上是一种生成器。与共享残差表征解码器不同的是,视差图解码器网络需要利用来自于共享残差表征解码器网络的特征图生成重构目标,因此使用反卷积操作应用于共享表征。两个相邻反卷积层之间的残差模块作为一个解码器。每个解码器将相应的编码器输出的共享特征图作为输入,经过反卷积操作后生成稀疏特征图。然后,这些生成的稀疏特征图经过每个解码器中的一系列卷积操作后生成稠密的特征图。最后,使用Sigmoid函数进行视差图预测。在视差图解码器网络中,能够同时预测左右图像的视差图,因此,Sigmoid的输出通道数为2。该网络的网络结构图如图6所示,因为本发明中使用的是多尺度的方式来进行预测,因此需要将多个尺度下的视差图输出进行合并进而生成最终的视差图,该合成模块的网络结构如图7所示。
光流图解码器网络。光流图解码器网络与视差图解码器网络相似,只是光流解码器网络预测相邻两帧图像直接的前后光流图,因此,Sigmoid的输出通道数为4。
语义分割解码器网络。语义分割解码器网络的结构与视差图解码器网络结构类似,但是由于预测任务的不同,因此在网络的顶端使用Softmax分类器进行逐像素分类,将语义分割解码器最后输出的特征图输入到softmax多类别分类器中用于独立生成每个像素的类别概率。最后的一个语义分割解码器与第一个表征编码器相对应,该语义分割解码器生成一组多通道特征图。将这组多通道特征图输入一个可训练的softmax分类器。这个softmax对每个像素进行独立分类。Softmax分类器输出是一个C个通道的概率图像,其中C与类别个数相等。最后,预测出的分类结果是根据在每个像素点上具有最大类别概率的类别决定。该网络的网络结构图如图8所示。
进一步的,所述步骤2,建立基于深度卷积自编码器的多任务学习网络有多种实施方案具体为:方案一:该方案中使用四个单独的网络,分别为深度估计网络、光流估计网络、相机位姿估计网络和语义分割网络;
方案二:该方案中使用与方案一中相同的深度估计网络,语义分割网络与深度估计网络共享编码器网络,二者具有独立的解码器网络,光流估计网络和相机位姿估计网络为两个独立的网络;
方案三:该方案中使用与方案一中相同的深度估计网络,语义分割、光流估计网络与深度估计网络共享编码器网络,三者具有独立的解码器网络,相机位姿估计网络为独立的网络;
方案四:该方案中使用与方案一中相同的深度估计网络,语义分割、光流估计、相机位姿估计网络与深度估计网络共享编码器网络,四者具有独立的解码器网络。
进一步的,所述步骤3多任务网络的训练的输出包含四个部分:输入图像(RGB)对应的左右深度图(left Depth,right Depth)、目标帧与参考帧之间的相机位姿(Pose)、目标帧与参考帧之间的光流图(Forwar Flow,Backward Flow)、输入图像的语义分割图(Segmentation mask);其中,深度预测网络同时预测输入图像的左深度图和右深度图,因此相邻三帧图像输出6幅深度图;相机位姿预测网络按照参考帧的数目共输出前后2个相机位姿参数;光流预测网络同时输出前向光流和反向光流,按照参考帧的数目共输出四幅光流图像;语义分割网络的输出与输入图像一一对应,共输出三幅语义分割图像。
进一步的,所述步骤4构建多任务学习网络的损失函数,利用输入图像和网络预测出的视差图和位姿向量,通过空间反向映射的方式重构目标图像,并构建相应的损失函数,实现深度预测、光流预测和位姿预测三个任务的无监督学习,语义分割任务的损失函数则利用网络预测出的语义分割图与真值标签相比较的有监督学习方式,构建二者的交叉熵损失函数,搭建的多任务损失函数由四部分组成,其构建框图如图9所示:
Lmulti=Ld+Lp+Lf+Ls+Lwc (1)
其中Ld是视差图的损失函数,Lp是位姿的损失函数,Lp是位姿的损失函数,Ls是语义分割的损失函数,Lcw是循环重构图像光度一致性的损失函数。
进一步的,步骤4.1:视差图损失函数:
所述视差图损失函数只针对目标帧图像
Figure GDA0004142962490000161
和/>
Figure GDA0004142962490000162
该损失函数由三部分组成:
Figure GDA0004142962490000163
其中Lsp是空间图像光度重构误差,用于评估重构图像与输入图像之间的相似度;Lds是视差图平滑度误差,保证预测出视差图的平滑性;Ldc是视差图的左右一致性误差,保证预测出的左右视差图的一致性,每一组训练数据包含前后两帧的左右图像,共计四幅图像,但在训练的过程中只有两幅左图被输入网络,接下来,将会详细描述式子(2)中左图对应的每一个损失函数,而右图的损失函数与左图相对应,只需从相反的方向对图像进行warping即可,
步骤4.1.1:所述空间图像光度重构误差(Spatial Photometric Error):
大多数基于学习的方法都将深度预测问题作为一个有监督的学习问题,在训练的过程中使用RGB图像和相应的深度图作为***的输入和真值标签,但是,在大尺度的场景下,很难获得理想的深度图真值标签,即使是使用昂贵的激光雷达,在复杂的动态场景中,测量结果也依然不够准确,并且采集到的深度图通常是稀疏的,无法直接作为真值标签,因此,在本文中尝试将深度估计的问题转换为一个无监督的学习问题,其核心思想为:在训练网络时,使用的输入数据来自一个标定好的双目相机在同一时刻采集到的左右两幅图像
Figure GDA0004142962490000164
和/>
Figure GDA0004142962490000165
与其他直接预测深度图的方法不同,尝试从原始的输入图像生成视差图,再利用已知的双目相机焦距和基线参数,获得对应的深度图,与(左右一致性paper)相类似,将左图Il输入网络,输出左右两幅视差图
Figure GDA0004142962490000166
和/>
Figure GDA0004142962490000167
根据双目相机左右图像与视差图的关系,可以利用左图Il和右视差图/>
Figure GDA0004142962490000168
重构右图/>
Figure GDA0004142962490000169
同样的也可以重构出左图/>
Figure GDA00041429624900001610
在重构的过程中,因为使用的视差图是通过网络生成的,利用该视差图直接进行warping而重构出的图像像素坐标不是整数,因此无法直接进行相似性比较,因此对重构图像进行双线性差值(如图5所示),这一操作同时也保证了构造损失函数的可微性,
使用L1范数和结构相似性(SSIM)两种方法来评估重构图像与原图像之间的差异性,从而构造空间图像光度重构误差损失函数
Figure GDA0004142962490000171
Figure GDA0004142962490000172
/>
其中
Figure GDA0004142962490000173
是输入图像,/>
Figure GDA0004142962490000174
为/>
Figure GDA0004142962490000175
的重构图像,N是图像中像素的个数,W和H分别为图像的宽和高,SSIM的权重为λSSIM=0.85;
步骤4.1.2:视差图平滑度误差(一阶+二阶);
希望最终获得的视差图是局部平滑的,因此利用视差图梯度的L1范数来构造损失函数,因为深度图的局部不连续经常发生在图像梯度比较大的地方,使用图像的梯度作为损失函数中各项的权重因子,使用视差图的一阶导数和二阶导数的L1范数共同构造视差图平滑度误差损失函数,
Figure GDA0004142962490000176
其中
Figure GDA0004142962490000177
为视差图的一阶导数,/>
Figure GDA0004142962490000178
为视差图的二阶偏导数,/>
Figure GDA0004142962490000179
为原图像的一阶导数,/>
Figure GDA00041429624900001710
为原图像的二阶偏导数,
步骤4.1.3:视差图的左右一致性误差(Left-Right Depth Consistency Loss):
为了获得更准确的视差图,在训练时仅将左视角的图像输入网络,但网络的输出为左右两幅视差图,为保证两幅视差图的一致性,额外增加了一个L1 penalty损失函数来限制左右视差图的一致性,对于左视差图而言,通过右视差图向左视差图投影,即在右视差图上利用左视差图的灰度值进行坐标运算,左视角的视差图与投影的右视角视差图相等,反之亦然,,
Figure GDA00041429624900001711
在获得了视差图之后,利用已知的相机基线b和焦距f(来源于训练数据集),可以将视差图
Figure GDA0004142962490000181
变换为深度图/>
Figure GDA0004142962490000182
步骤4.2:相邻帧图像的位姿误差:
与构造视差图的损失函数相似,在构造相机位姿的损失函数时,也使用几何约束条件构造的合成图像作为监督信号,进而实现无监督的学习方式,与视差图的预测问题不同,位姿预测需要使用前后两幅图像作为训练数据的输入,而输出是相机的位姿参数,的多任务网络输出一个六自由度的向量T=(tx,tt,tz,α,β,γ)来表示两帧图像的相机相对位姿,利用原图像,深度图和相对位姿参数构建连续图像的位姿损失函数,该损失函数由两部分组成:时间图像光度重构误差Ltp和三维几何配准误差Lgr,即Lp=Ltp+Lgr
步骤4.2.1:时间图像光度重构误差(Temporal Photometric Error):
令输入的两帧图像分别为参考帧图像
Figure GDA0004142962490000183
和目标帧图像/>
Figure GDA0004142962490000184
根据多视图几何原理,采用反向映射的方式来构造图像,利用预测深度图/>
Figure GDA0004142962490000185
和相对位姿To→s,将/>
Figure GDA0004142962490000186
中的各个像素po投影到/>
Figure GDA0004142962490000187
所在的坐标系下,
Figure GDA0004142962490000188
其中,ps表示投影到
Figure GDA0004142962490000189
后的齐次坐标(homogeneous coordinates),po表示某像素在图像/>
Figure GDA00041429624900001815
中的齐次坐标,K是相机的内参矩阵。与正常的图像映射方式不同,在获得目标帧图像的重构图时不是直接由参考帧图像进行映射,而是采取反方向的方式(如图10所示),先将目标帧图像坐标投影(project)到参考帧图像上,然后再将投影后图像对应坐标的灰度值映射回(warp)原始目标帧图像作为最终的重构图像。如公式(6)所述,/>
Figure GDA00041429624900001810
为将目标帧的图像坐标系变换为相机坐标系,To→sDo(po)K-1po为将目标帧的相机坐标系再变换为参考帧的相机坐标系,最后再利用相机内参矩阵K变换为参考帧的图像坐标系。经过投影之后的po坐标值是连续的,因此需要使用可微的双线性插值方法来获得近似的整数坐标,
Figure GDA00041429624900001811
其中po是图像
Figure GDA00041429624900001812
中的某个像素点,K是相机的内参矩阵,/>
Figure GDA00041429624900001813
为目标帧图像/>
Figure GDA00041429624900001814
对应的深度图,To→s是从目标帧图像到参考帧图像的相机坐标变换矩阵,fbs代表双线性差值。若将t时刻的图像作为/>
Figure GDA0004142962490000191
t-1和t+1时刻的图像作为/>
Figure GDA0004142962490000192
可以利用公式(7),分别从图像/>
Figure GDA0004142962490000193
和/>
Figure GDA0004142962490000194
中合成图像/>
Figure GDA0004142962490000195
和/>
Figure GDA0004142962490000196
三幅连续图像序列的时间图像光度重构误差可以表示为
Figure GDA0004142962490000197
其中
Figure GDA0004142962490000198
Figure GDA0004142962490000199
其中SSIM的权重因子为
Figure GDA00041429624900001910
步骤4.2.2:三维几何配准误差:
也使用3D几何匹配误差来评估预测出的相机参数,假设Pt(X,Y,Z)是在第t帧图像在其相机坐标系下的三维坐标,利用Tt→t+1很容易的将该点变换到第t+1帧图像所在的相机坐标系下Pt′(X,Y,Z),把Pt+1(X,Y,Z)投影到第t帧图像所在的相机坐标系下Pt+1(X,Y,Z),因此,两幅连续图像序列之间的三维几何匹配误差表示为:
Figure GDA00041429624900001911
步骤4.3:光流图损失函数:
构造光流图的损失函数与构造相机为位姿损失函数相似,使用几何约束条件构造的合成图像作为监督信号,进而实现光流图的无监督学***滑度误差Lfs和光流一致性误差Lfc,即Lf=LfdfsLfsfcLfc
步骤4.3.1:光流图光度重构误差(Flow Photometric Error):
光流图光度重构误差是利用光流图将第一幅图像映射到第二幅图像之后,映射图与原始图像之间的差值构成了的无监督损失函数。但是,遮挡区域的像素在相邻图像中的对应像素上是无法被观察到的。因此在这类遮挡区域上,需要去除遮挡对于损失函数的影响,从而避免网络学习到错误的光流信息。遮挡区域的检测是基于前向和反正光流图的一致性检测,即对于非遮挡区域像素,前向光流应该是第二幅图像对应像素点反向光流的相反数。当二者之间的差异性很大时,认为该区域是遮挡区域,反之为非遮挡区域,进而构造光流图的掩码图像。因此,对于前向方向的遮挡,当前向光流和反向光流满足下述条件时,定义掩码图像of的像素为1,反之,则为0:
|Ff(x)+Fb(x+Ff(x))|2<α1(|Ff(x)|2+|Fb(x+Ff(x))|2)+α2 (11)
其中,前向光流为Ff,反向光流为Fb,前向光流掩码图像为of,反向光流掩码图像为ob,常数参数α1=0.01,α2=0.5。对于反向光流掩码图像ob,只需要将公式(11)中的前向光流为Ff和反向光流Fb交换位置即可。
利用原始图像、生成的光流图和光流掩码图来构造光流的抗遮挡损失函数:
Figure GDA0004142962490000201
其中fD(I1(x),I2(x′))=I1(x)-I2(x)表示两幅图像对应像素光度误差,ρ(x)=(x22)γ是标准化Charbonnier惩罚函数,γ=0.45,λp为一个惩罚常数,在所有的遮挡像素上增加该参数,可以有效地避免所有的像素都变成遮挡像素,并且惩罚所有未遮挡像素光度误差。
步骤4.3.2:光流图平滑度误差:
希望最终获得的光流图是局部平滑的,因此利用光流场的二阶平滑约束来鼓励相邻流的共线性,从而实现更有效的正则化:
Figure GDA0004142962490000202
其中,N(x)由图像的水平、垂直和x的两个对角线邻域共四个部分组成,ρ(x)=(x22)γ是标准化Charbonnier惩罚函数,γ=0.40。
步骤4.3.3:光流一致性误差(Forward-Backward Flow Consistency Loss):
对于非遮挡区域的像素,增加了一个前向-反向一致性惩罚损失函数:
Figure GDA0004142962490000203
步骤4.4:语义分割误差:
在语义分割任务中,使用交叉熵损失函数作为多任务目标函数的一部分用于训练基于深度卷积自编码器的视觉同时定位与地图构建***,语义分割交叉熵损失函数计算方式是,在一个小批次中将所有的像素的损失值相加起来。
步骤4.5:循环重构图像光度一致性误差:
为了提高视差图估计和光流估计的准确性,引入了一个新的损失函数:循环重构图像光度一致性误差。利用视差图和光流图进行两次重构,遮挡掩码图只在光流图重构时使用,而视差图重构则不使用。从图像
Figure GDA0004142962490000211
经过图像/>
Figure GDA0004142962490000212
重构图像/>
Figure GDA0004142962490000213
重构出的图像和遮挡掩码图分别为:
Figure GDA0004142962490000214
Figure GDA0004142962490000215
其中,图像
Figure GDA0004142962490000216
为图像/>
Figure GDA0004142962490000217
对应的重构图像,or,t→l,t+1为相邻帧/>
Figure GDA0004142962490000218
与/>
Figure GDA0004142962490000219
之间的前向光流图,W为投影函数,/>
Figure GDA00041429624900002110
为t时刻预测出的左视差图,/>
Figure GDA00041429624900002111
为t+1时刻的前向光路图。
通过比较从图像
Figure GDA00041429624900002112
经过图像/>
Figure GDA00041429624900002113
重构出的对应图像/>
Figure GDA00041429624900002114
与直接从/>
Figure GDA00041429624900002115
重构的对应图像
Figure GDA00041429624900002116
之间的差值来构造抗遮挡的循环重构图像光度损失函数(该损失函数的构建框图如图11所示):
Figure GDA00041429624900002117
SSIM的权重因子为
Figure GDA00041429624900002118
最后,把所有上述的误差进行加和,获得提出的多任务网络的总的损失函数,提出的方法与其他方法相比,只使用一个网络来同时完成四个任务,而不是一个任务一个网络,提出的方法是第一个将多任务网络的思想用于SLAM***的前端模块中,并且在构造损失函数时,同时考虑了视差重构误差、视差图平滑度误差、视差图左右一致性误差、光流重构误差、光流图平滑度误差以及三维匹配误差,并结合了语义分割的交叉熵损失函数,在训练网络时,对多种损失函数进行联合优化。
进一步的,所述步骤6利用训练完成后的多任务网络的编码器作为图像表征向量的特征提取器,选择合适的特征图构建图像表征,用于回环检测;
所述回环检测的具体方法,包括的步骤如下:
步骤6.1:利用训练好的多任务学习网络的编码器网络作为输入图像的特征提取器,选取网络合适层的特征图作为图像的原始全局表征张量:
Figure GDA0004142962490000221
其中Fi l为第i个特征图,h和w分别为特征图的长和宽,l表示选取网络的第l层作为图像表征,将所有的特征图展平为特征向量,并将所有的特征向量进行拼接:
Figure GDA0004142962490000222
其中Fl为拼接之后的图像表征向量,
Figure GDA0004142962490000223
为将第i个特征图Fil展开后的特征向量,c为原始全局表征张量的深度,即特征图的个数,
步骤6.2:将所有输入图像的表征向量组合成一个表征矩阵,并对矩阵进行去中心化:
Figure GDA0004142962490000224
其中X为去中心化后的表征矩阵,m为输入图像的数目,n=h×w×c为表征向量的长度,
Figure GDA0004142962490000225
为表征矩阵的平均值向量:
Figure GDA0004142962490000226
步骤6.3:对去中心化的表征矩阵X先进行二范数规范化,然后进行自适应的主成分分析压缩:
Figure GDA0004142962490000227
其中cov为表征矩阵X的协方差矩阵,Σ和U分别为对协方差矩阵X进行奇异值分解后获得的特征值矩阵和特征向量矩阵,利用特征向量矩阵对原始图像表征矩阵进行压缩:
Figure GDA0004142962490000228
其中Y为压缩后的图像表征矩阵,k为压缩之后表征向量长度,Uk=[u1 u2…uk]为前k个特征值对应的特征向量矩阵,不直接设置k值,而是通过信息压缩比来自适应的设置该值:
Figure GDA0004142962490000231
其中γ为信息压缩比,λi为协方差矩阵的第i个特征值,
步骤6.4:对压缩后的图像表征矩阵Y进行白化操作,减小特征之间的相关性:
Figure GDA0004142962490000232
/>
其中ε∈(0,1)是一个很小的常数,用于防止除数为0。
基于深度卷积自编码器构建一个多任务学习网络视觉里程计和回环检测模块之后,利用位姿图优化或因子图优化来构造视觉同时定位与地图构建***的后端,进而搭建一个完整的视觉同时定位与地图构建***。

Claims (5)

1.一种基于深度卷积自编码器的视觉同时定位与地图构建方法,其特征在于,所述方法包括以下步骤:
步骤1:根据需求选择不同的训练数据进行数据预处理;
步骤2:建立基于深度卷积自编码器的多任务学习网络;
步骤3:将图像序列中相邻的三帧双目图像作为网络输入,其中,中间帧为目标帧图像Io,相邻的前后两帧为参考帧图像Is,将目标帧与参考帧图像输入多任务学习网络,获得目标帧图像的深度图、目标帧与参考帧之间的相机位姿和光流图、目标帧图像的语义分割图;
步骤4:构建损失函数;
步骤5:多任务网络的训练、验证和测试;
步骤6:多任务网络的训练结束后,利用网络编码器的作为图像表征向量的特征提取器,选择合适的特征图构建图像表征,用于回环检测;
步骤7:上述六个步骤构造了一个新的视觉同时定位与地图构建***前端,利用位姿图优化或因子图优化来构造视觉同时定位与地图构建***的后端,进而搭建一个完整的视觉同时定位与地图构建***,
步骤8:验证搭建的视觉同时定位与地图构建***的定位准确性和鲁棒性;
所述步骤4构建多任务学习网络的损失函数,利用输入图像和网络预测出的视差图和位姿向量,通过空间反向映射的方式重构目标图像,并构建相应的损失函数,实现深度预测、光流预测和位姿预测三个任务的无监督学习,语义分割任务的损失函数则利用网络预测出的语义分割图与真值标签相比较的有监督学习方式,构建二者的交叉熵损失函数,搭建的多任务损失函数由五部分组成:
Lmulti=Ld+Lp+Lf+Ls+Lwc(1)
其中Ld是视差图的损失函数,Lp是位姿的损失函数,Ls是语义分割的损失函数;Lwc为循环重构图像光度一致性的损失函数;
步骤4.1:视差图损失函数:
所述视差图损失函数由三部分组成:
Figure FDA0004186255050000011
其中Lsp是空间图像光度重构误差,用于评估重构图像与输入图像之间的相似度;Lds是视差图平滑度误差,保证预测出视差图的平滑性;Ldc是视差图的左右一致性误差,保证预测出的左右视差图的一致性,每一组训练数据包含前后两帧的左右图像,共计四幅图像,但在训练的过程中只有两幅左图被输入网络;
步骤4.1.1:空间图像光度重构误差:
在训练网络时,使用的输入数据来自一个标定好的双目相机在同一时刻采集到的左右两幅图像
Figure FDA0004186255050000021
和/>
Figure FDA0004186255050000022
评估重构图像与原图像之间的差异性,从而构造空间图像光度重构误差损失函数
Figure FDA0004186255050000023
Figure FDA0004186255050000024
其中
Figure FDA0004186255050000025
是输入图像,/>
Figure FDA0004186255050000026
为/>
Figure FDA0004186255050000027
的重构图像,N是图像中像素的个数,W和H分别为图像的宽和高,SSIM的权重为λSSIM=0.85;
步骤4.1.2:视差图平滑度误差;
利用视差图梯度的L1范数来构造损失函数,因为深度图的局部不连续经常发生在图像梯度比较大的地方,使用图像的梯度作为损失函数中各项的权重因子,使用视差图的一阶导数和二阶导数的L1范数共同构造视差图平滑度误差损失函数,
Figure FDA0004186255050000028
其中
Figure FDA0004186255050000029
为视差图的一阶导数,/>
Figure FDA00041862550500000210
为视差图的二阶偏导数,/>
Figure FDA00041862550500000211
为原图像的一阶导数,/>
Figure FDA00041862550500000212
为原图像的二阶偏导数,
步骤4.1.3:视差图的左右一致性误差;
为了获得更准确的视差图,在训练时仅将左视角的图像输入网络,但网络的输出为左右两幅视差图,为保证两幅视差图的一致性,额外增加了一个L1 penalty损失函数来限制左右视差图的一致性,对于左视差图而言,通过右视差图向左视差图投影,即在右视差图上利用左视差图的灰度值进行坐标运算,左视角的视差图与投影的右视角视差图相等,反之亦然,
Figure FDA0004186255050000031
在获得了视差图之后,利用已知的相机基线b和焦距f,可以将视差图
Figure FDA0004186255050000032
变换为深度图
Figure FDA0004186255050000033
步骤4.2:相邻帧图像的位姿误差:
与构造视差图的损失函数相似,在构造相机位姿的损失函数时,也使用几何约束条件构造的合成图像作为监督信号,进而实现无监督的学习方式,与视差图的预测问题不同,位姿预测需要使用前后两幅图像作为训练数据的输入,而输出是相机的位姿参数,的多任务网络输出一个六自由度的向量T=(tx,tt,tz,α,β,γ)来表示两帧图像的相机相对位姿,利用原图像,深度图和相对位姿参数构建连续图像的位姿损失函数,该损失函数由两部分组成:时间图像光度重构误差Ltp和三维几何配准误差Lgr,即Lp=Ltp+Lgr
步骤4.2.1:时间图像光度重构误差:
令输入的两帧图像分别为参考帧图像
Figure FDA0004186255050000034
和目标帧图像/>
Figure FDA0004186255050000035
根据多视图几何原理,采用反向映射的方式来构造图像,利用预测深度图/>
Figure FDA0004186255050000036
和相对位姿To→s,将/>
Figure FDA0004186255050000037
中的各个像素po投影到
Figure FDA0004186255050000038
所在的坐标系下,
Figure FDA0004186255050000039
/>
其中,ps表示投影到
Figure FDA00041862550500000310
后的齐次坐标,po表示某像素在图像/>
Figure FDA00041862550500000311
中的齐次坐标,K是相机的内参矩阵,与正常的图像映射方式不同,在获得目标帧图像的重构图时不是直接由参考帧图像进行映射,而是采取反方向的方式,先将目标帧图像坐标投影到参考帧图像上,然后再将投影后图像对应坐标的灰度值映射回原始目标帧图像作为最终的重构图像,如公式(6)所述,/>
Figure FDA00041862550500000312
为将目标帧的图像坐标系变换为相机坐标系,To→sDo(po)K-1po为将目标帧的相机坐标系再变换为参考帧的相机坐标系,最后再利用相机内参矩阵K变换为参考帧的图像坐标系,经过投影之后的po坐标值是连续的,因此需要使用可微的双线性插值方法来获得近似的整数坐标,
Figure FDA00041862550500000313
其中po是图像
Figure FDA0004186255050000041
中的某个像素点,K是相机的内参矩阵,/>
Figure FDA0004186255050000042
为目标帧图像/>
Figure FDA0004186255050000043
对应的深度图,To→s是从目标帧图像到参考帧图像的相机坐标变换矩阵,fbs代表双线性差值,若将t时刻的图像作为/>
Figure FDA0004186255050000044
t-1和t+1时刻的图像作为/>
Figure FDA0004186255050000045
可以利用公式(7),分别从图像/>
Figure FDA0004186255050000046
和/>
Figure FDA0004186255050000047
中合成图像/>
Figure FDA0004186255050000048
和/>
Figure FDA0004186255050000049
三幅连续图像序列的时间图像光度重构误差可以表示为
Figure FDA00041862550500000410
其中,
Figure FDA00041862550500000411
Figure FDA00041862550500000412
其中SSIM的权重因子为
Figure FDA00041862550500000413
步骤4.2.2:三维几何配准误差:
也使用3D几何匹配误差来评估预测出的相机参数,假设Pt(X,Y,Z)是在第t帧图像在其相机坐标系下的三维坐标,利用Tt→t+1很容易的将该点变换到第t+1帧图像所在的相机坐标系下Pt′(X,Y,Z),把Pt+1(X,Y,Z)投影到第t帧图像所在的相机坐标系下Pt+1(X,Y,Z),因此,两幅连续图像序列之间的三维几何匹配误差表示为:
Figure FDA00041862550500000414
步骤4.3:光流图损失函数:
构造光流图的损失函数与构造相机为位姿损失函数相似,使用几何约束条件构造的合成图像作为监督信号,进而实现光流图的无监督学***滑度误差Lfs和光流一致性误差Lfc,即Lf=LfdfsLfsfcLfc
步骤4.3.1:光流图光度重构误差:
光流图光度重构误差是利用光流图将第一幅图像映射到第二幅图像之后,映射图与原始图像之间的差值构成了的无监督损失函数,但是,遮挡区域的像素在相邻图像中的对应像素上是无法被观察到的,因此在这类遮挡区域上,需要去除遮挡对于损失函数的影响,从而避免网络学习到错误的光流信息,遮挡区域的检测是基于前向和反正光流图的一致性检测,即对于非遮挡区域像素,前向光流应该是第二幅图像对应像素点反向光流的相反数,当二者之间的差异性很大时,认为该区域是遮挡区域,反之为非遮挡区域,进而构造光流图的掩码图像,因此,对于前向方向的遮挡,当前向光流和反向光流满足下述条件时,定义掩码图像of的像素为1,反之,则为0:
|Ff(x)+Fb(x+Ff(x))|2<α1(|Ff(x)|2+|Fb(x+Ff(x))|2)+α2(11)
其中,前向光流为Ff,反向光流为Fb,前向光流掩码图像为of,反向光流掩码图像为ob,常数参数α1=0.01,α2=0.5,对于反向光流掩码图像ob,只需要将公式(11)中的前向光流为Ff和反向光流Fb交换位置即可,
利用原始图像、生成的光流图和光流掩码图来构造光流的抗遮挡损失函数:
Figure FDA0004186255050000051
其中fD(I1(x),I2(x′))=I1(x)-I2(x)表示两幅图像对应像素光度误差,ρ(x)=(x22)γ是标准化Charbonnier惩罚函数,γ=0.45,λp为一个惩罚常数,在所有的遮挡像素上增加该参数,可以有效地避免所有的像素都变成遮挡像素,并且惩罚所有未遮挡像素光度误差;
步骤4.3.2:光流图平滑度误差:
希望最终获得的光流图是局部平滑的,因此利用光流场的二阶平滑约束来鼓励相邻流的共线性,从而实现更有效的正则化:
Figure FDA0004186255050000052
其中,N(x)由图像的水平、垂直和x的两个对角线邻域共四个部分组成,ρ(x)=(x22)γ是标准化Charbonnier惩罚函数,γ=0.40;
步骤4.3.3:光流一致性误差:
对于非遮挡区域的像素,增加了一个前向-反向一致性惩罚损失函数:
Figure FDA0004186255050000053
步骤4.4:语义分割误差:
在语义分割任务中,使用交叉熵损失函数作为多任务目标函数的一部分用于训练基于深度卷积自编码器的视觉同时定位与地图构建***,语义分割交叉熵损失函数计算方式是,在一个小批次中将所有的像素的损失值相加起来;
步骤4.5:循环重构图像光度一致性误差:
为了提高视差图估计和光流估计的准确性,引入了一个新的损失函数:循环重构图像光度一致性误差,利用视差图和光流图进行两次重构,遮挡掩码图只在光流图重构时使用,而视差图重构则不使用,从图像
Figure FDA0004186255050000061
经过图像/>
Figure FDA0004186255050000062
重构图像/>
Figure FDA0004186255050000063
重构出的图像和遮挡掩码图分别为:
Figure FDA0004186255050000064
/>
Figure FDA0004186255050000065
其中,图像
Figure FDA0004186255050000066
为图像/>
Figure FDA0004186255050000067
对应的重构图像,or,t→l,t+1为相邻帧/>
Figure FDA0004186255050000068
与/>
Figure FDA0004186255050000069
之间的前向光流图,W为投影函数,/>
Figure FDA00041862550500000610
为t时刻预测出的左视差图,/>
Figure FDA00041862550500000611
为t+1时刻的前向光路图,通过比较从图像/>
Figure FDA00041862550500000612
经过图像/>
Figure FDA00041862550500000613
重构出的对应图像/>
Figure FDA00041862550500000614
与直接从/>
Figure FDA00041862550500000615
重构的对应图像/>
Figure FDA00041862550500000616
之间的差值来构造抗遮挡的循环重构图像光度损失函数:
Figure FDA00041862550500000617
SSIM的权重因子为
Figure FDA00041862550500000618
最后,把所有上述的误差进行加和,获得提出的多任务网络的总的损失函数,提出的方法与其他方法相比,只使用一个网络来同时完成四个任务,而不是一个任务一个网络,提出的方法是第一个将多任务网络的思想用于SLAM***的前端模块中,并且在构造损失函数时,同时考虑了视差重构误差、视差图平滑度误差、视差图左右一致性误差、光流重构误差、光流图平滑度误差以及三维匹配误差,并结合了语义分割的交叉熵损失函数,在训练网络时,对多种损失函数进行联合优化;
所述步骤6利用训练完成后的多任务网络的编码器作为图像表征向量的特征提取器,选择合适的特征图构建图像表征,用于回环检测;
所述回环检测的具体方法,包括的步骤如下:
步骤6.1:利用训练好的多任务学习网络的编码器网络作为输入图像的特征提取器,选取网络合适层的特征图作为图像的原始全局表征张量:
Figure FDA0004186255050000071
其中Fi l为第i个特征图,h和w分别为特征图的长和宽,l表示选取网络的第l层作为图像表征,将所有的特征图展平为特征向量,并将所有的特征向量进行拼接:
Figure FDA0004186255050000072
其中Fl为拼接之后的图像表征向量,
Figure FDA0004186255050000078
为将第i个特征图Fi l展开后的特征向量,c为原始全局表征张量的深度,即特征图的个数,
步骤6.2:将所有输入图像的表征向量组合成一个表征矩阵,并对矩阵进行去中心化:
Figure FDA0004186255050000073
其中X为去中心化后的表征矩阵,m为输入图像的数目,n=h×w×c为表征向量的长度,
Figure FDA0004186255050000074
为表征矩阵的平均值向量:
Figure FDA0004186255050000075
步骤6.3:对去中心化的表征矩阵X先进行二范数规范化,然后进行自适应的主成分分析压缩:
Figure FDA0004186255050000076
其中cov为表征矩阵X的协方差矩阵,Σ和U分别为对协方差矩阵X进行奇异值分解后获得的特征值矩阵和特征向量矩阵,利用特征向量矩阵对原始图像表征矩阵进行压缩:
Figure FDA0004186255050000077
其中Y为压缩后的图像表征矩阵,k为压缩之后表征向量长度,Uk=[u1 u2...uk]为前k个特征值对应的特征向量矩阵,不直接设置k值,而是通过信息压缩比来自适应的设置该值:
Figure FDA0004186255050000081
其中γ为信息压缩比,λi为协方差矩阵的第i个特征值,
步骤6.4:对压缩后的图像表征矩阵Y进行白化操作,减小特征之间的相关性:
Figure FDA0004186255050000082
其中ε∈(0,1)是一个很小的常数,用于防止除数为0,
基于深度卷积自编码器构建一个多任务学习网络视觉里程计和回环检测模块之后,利用位姿图优化或因子图优化来构造视觉同时定位与地图构建***的后端,进而搭建一个完整的视觉同时定位与地图构建***。
2.根据权利要求1所述一种基于深度卷积自编码器的视觉同时定位与地图构建方法,其特征在于,所述步骤1:训练数据包含两部分:通用的公开数据集和移动机器人平台采集的室内外多传感器数据集;
数据预处理包含数据增强和改变图像尺寸,所述数据增强包括图像旋转、翻转、色彩调整、局部裁剪和加入噪声。
3.根据权利要求2所述一种基于深度卷积自编码器的视觉同时定位与地图构建方法,其特征在于,所述通用的公开数据集包含KITTI数据集、Cityscape数据集和Synthia数据集,其中KITTI与Cityscape数据集是在真实场景下采集到的城市内街道数据,而Synthia数据集则是虚拟场景下的仿真城市街道数据集。
4.根据权利要求1所述一种基于深度卷积自编码器的视觉同时定位与地图构建方法,其特征在于,所述步骤2,建立基于深度卷积自编码器的多任务学习网络有多种实施方案具体为:方案一:该方案中使用四个单独的网络,分别为深度估计网络、光流估计网络、相机位姿估计网络和语义分割网络;
方案二:该方案中使用与方案一中相同的深度估计网络,语义分割网络与深度估计网络共享编码器网络,二者具有独立的解码器网络,光流估计网络和相机位姿估计网络为两个独立的网络;
方案三:该方案中使用与方案一中相同的深度估计网络,语义分割、光流估计网络与深度估计网络共享编码器网络,三者具有独立的解码器网络,相机位姿估计网络为独立的网络;
方案四:该方案中使用与方案一中相同的深度估计网络,语义分割、光流估计、相机位姿估计网络与深度估计网络共享编码器网络,四者具有独立的解码器网络。
5.根据权利要求1所述一种基于深度卷积自编码器的视觉同时定位与地图构建方法,其特征在于,所述步骤3多任务网络的训练的输出包含四个部分:输入图像对应的左右深度图、目标帧与参考帧之间的相机位姿、目标帧与参考帧之间的光流图、输入图像的语义分割图;其中,深度预测网络同时预测输入图像的左深度图和右深度图,因此相邻三帧图像输出6幅深度图;相机位姿预测网络按照参考帧的数目共输出前后2个相机位姿参数;光流预测网络同时输出前向光流和反向光流,按照参考帧的数目共输出四幅光流图像;语义分割网络的输出与输入图像一一对应,共输出三幅语义分割图像。
CN202010109809.3A 2020-02-23 2020-02-23 一种基于深度卷积自编码器的视觉同时定位与地图构建方法 Active CN111325794B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010109809.3A CN111325794B (zh) 2020-02-23 2020-02-23 一种基于深度卷积自编码器的视觉同时定位与地图构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010109809.3A CN111325794B (zh) 2020-02-23 2020-02-23 一种基于深度卷积自编码器的视觉同时定位与地图构建方法

Publications (2)

Publication Number Publication Date
CN111325794A CN111325794A (zh) 2020-06-23
CN111325794B true CN111325794B (zh) 2023-05-26

Family

ID=71167109

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010109809.3A Active CN111325794B (zh) 2020-02-23 2020-02-23 一种基于深度卷积自编码器的视觉同时定位与地图构建方法

Country Status (1)

Country Link
CN (1) CN111325794B (zh)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931689B (zh) * 2020-08-26 2021-04-23 北京建筑大学 一种在线提取视频卫星数据鉴别特征的方法
US11321862B2 (en) * 2020-09-15 2022-05-03 Toyota Research Institute, Inc. Systems and methods for multi-camera modeling with neural camera networks
US11494927B2 (en) 2020-09-15 2022-11-08 Toyota Research Institute, Inc. Systems and methods for self-supervised depth estimation
US11615544B2 (en) 2020-09-15 2023-03-28 Toyota Research Institute, Inc. Systems and methods for end-to-end map building from a video sequence using neural camera models
CN112022066A (zh) * 2020-09-25 2020-12-04 电子科技大学 一种基于深度学习的消化道钩虫发现方法及***
CN112183325B (zh) * 2020-09-27 2021-04-06 哈尔滨市科佳通用机电股份有限公司 基于图像对比的公路车辆检测方法
US11734837B2 (en) * 2020-09-30 2023-08-22 Shanghai United Imaging Intelligence Co., Ltd. Systems and methods for motion estimation
CN112233179B (zh) * 2020-10-20 2022-08-19 湘潭大学 一种视觉里程计测量方法
CN112149757B (zh) * 2020-10-23 2022-08-19 新华三大数据技术有限公司 一种异常检测方法、装置、电子设备及存储介质
CN112270249B (zh) * 2020-10-26 2024-01-23 湖南大学 一种融合rgb-d视觉特征的目标位姿估计方法
CN112288789B (zh) * 2020-10-26 2024-03-29 杭州电子科技大学 基于遮挡区域迭代优化的光场深度自监督学习方法
CN112330693B (zh) * 2020-11-13 2023-12-29 北京伟景智能科技有限公司 一种煤矸石检测方法及***
CN112697158A (zh) * 2020-12-03 2021-04-23 南京工业大学 一种用于室内外场景的人为回环即时定位和建图方法及***
CN112634341B (zh) * 2020-12-24 2021-09-07 湖北工业大学 多视觉任务协同的深度估计模型的构建方法
CN112396167B (zh) * 2020-12-30 2022-07-15 桂林电子科技大学 一种外观相似度与空间位置信息融合的回环检测方法
CN112819911B (zh) * 2021-01-23 2022-10-25 西安交通大学 基于N-net和CycN-net网络结构的四维锥束CT重建图像增强算法
CN112967317B (zh) * 2021-03-09 2022-12-06 北京航空航天大学 一种动态环境下基于卷积神经网络架构的视觉里程计方法
CN113096176B (zh) * 2021-03-26 2024-04-05 西安交通大学 一种语义分割辅助的双目视觉无监督深度估计方法
CN113093221A (zh) * 2021-03-31 2021-07-09 东软睿驰汽车技术(沈阳)有限公司 占据栅格地图的生成方法及装置
CN113129373B (zh) * 2021-04-02 2024-03-19 南京航空航天大学 一种基于卷积神经网络的室内移动机器人视觉定位方法
CN113077505B (zh) * 2021-04-19 2023-11-17 大连理工大学人工智能大连研究院 一种基于对比学习的单目深度估计网络的优化方法
CN113011525B (zh) * 2021-04-20 2023-09-19 上海应用技术大学 一种基于依赖性解码的轨道板裂缝语义分割模型
CN112950481B (zh) * 2021-04-22 2022-12-06 上海大学 一种基于图像拼接网络的水花遮挡图像数据集采集方法
CN113240743B (zh) * 2021-05-18 2022-03-25 浙江大学 基于神经网络的异构图像位姿估计及配准方法、装置及介质
CN113469495A (zh) * 2021-05-28 2021-10-01 视辰信息科技(上海)有限公司 一种视觉定位***的自动化评估方法及其***
CN113379750A (zh) * 2021-06-22 2021-09-10 北京百度网讯科技有限公司 语义分割模型的半监督学习方法、相关装置及产品
CN113436251B (zh) * 2021-06-24 2024-01-09 东北大学 一种基于改进的yolo6d算法的位姿估计***及方法
CN113222124B (zh) * 2021-06-28 2023-04-18 重庆理工大学 用于图像语义分割的SAUNet++网络与图像语义分割方法
CN113505829B (zh) * 2021-07-09 2024-04-26 南京大学 一种基于变分自编码器的表情序列自动生成方法
WO2023015414A1 (zh) * 2021-08-09 2023-02-16 中国科学院深圳先进技术研究院 一种消除自监督三维重建不确定性的方法
CN113822954B (zh) * 2021-09-10 2024-04-02 西安交通大学 一种面向资源约束下人机协同场景的深度学习图像编码方法
CN113781582B (zh) * 2021-09-18 2023-09-19 四川大学 基于激光雷达和惯导联合标定的同步定位与地图创建方法
CN114046790A (zh) * 2021-10-22 2022-02-15 南京航空航天大学 一种因子图双重回环的检测方法
WO2023118943A1 (en) * 2021-12-21 2023-06-29 Bosch Car Multimedia Portugal, S.A. Joint object detection and simultaneous localization and mapping method for automated perception
CN114485417B (zh) * 2022-01-07 2022-12-13 哈尔滨工业大学 一种结构振动位移识别方法及***
CN114418886B (zh) * 2022-01-19 2023-05-05 电子科技大学 一种基于深度卷积自编码器的鲁棒性去噪方法
CN114742987B (zh) * 2022-06-08 2022-09-27 苏州市洛肯电子科技有限公司 一种用于非金属材料切割的自动定位控制方法及***
CN115311530B (zh) * 2022-07-15 2023-08-29 哈尔滨工业大学 一种基于深度卷积自编码器的流场特征提取方法
CN115556110A (zh) * 2022-10-25 2023-01-03 华中科技大学 基于主动半监督迁移学习的机器人位姿误差感知方法
CN116245927B (zh) * 2023-02-09 2024-01-16 湖北工业大学 一种基于ConvDepth的自监督单目深度估计方法及***
CN116593162B (zh) * 2023-04-26 2023-12-19 西安交通大学 一种航空发动机机匣相对位姿的视觉测量方法
CN116630901B (zh) * 2023-07-24 2023-09-22 南京师范大学 一种基于潜在图预测无监督学习框架的视觉里程计方法
CN116649159B (zh) * 2023-08-01 2023-11-07 江苏慧岸信息科技有限公司 一种食用菌生长参数寻优的***和方法
CN117555979B (zh) * 2024-01-11 2024-04-19 人民中科(北京)智能技术有限公司 一种高效的自底向上的地图位置缺失识别方法
CN117576665B (zh) * 2024-01-19 2024-04-16 南京邮电大学 一种面向自动驾驶的单摄像头三维目标检测方法及***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103202018A (zh) * 2010-09-10 2013-07-10 汤姆逊许可公司 使用基于样本的数据修剪的视频编码
CN109579825A (zh) * 2018-11-26 2019-04-05 江苏科技大学 基于双目视觉和卷积神经网络的机器人定位***及方法
CN109615698A (zh) * 2018-12-03 2019-04-12 哈尔滨工业大学(深圳) 基于互回环检测的多无人机slam地图融合算法
CN110335337A (zh) * 2019-04-28 2019-10-15 厦门大学 一种基于端到端半监督生成对抗网络的视觉里程计的方法
CN110782395A (zh) * 2019-10-28 2020-02-11 西安电子科技大学 图像处理方法及装置、电子设备和计算机可读存储介质
CN110827415A (zh) * 2019-11-11 2020-02-21 吉林大学 一种全天候未知环境无人自主工作平台

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11205103B2 (en) * 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US11676296B2 (en) * 2017-08-11 2023-06-13 Sri International Augmenting reality using semantic segmentation
US10643492B2 (en) * 2018-06-20 2020-05-05 NEX Team Inc. Remote multiplayer interactive physical gaming with mobile computing devices

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103202018A (zh) * 2010-09-10 2013-07-10 汤姆逊许可公司 使用基于样本的数据修剪的视频编码
CN109579825A (zh) * 2018-11-26 2019-04-05 江苏科技大学 基于双目视觉和卷积神经网络的机器人定位***及方法
CN109615698A (zh) * 2018-12-03 2019-04-12 哈尔滨工业大学(深圳) 基于互回环检测的多无人机slam地图融合算法
CN110335337A (zh) * 2019-04-28 2019-10-15 厦门大学 一种基于端到端半监督生成对抗网络的视觉里程计的方法
CN110782395A (zh) * 2019-10-28 2020-02-11 西安电子科技大学 图像处理方法及装置、电子设备和计算机可读存储介质
CN110827415A (zh) * 2019-11-11 2020-02-21 吉林大学 一种全天候未知环境无人自主工作平台

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于北斗RDSS的核辐射监测应急通讯方法;王廷银;林明贵;陈达;吴允平;;计算机***应用(第12期) *
深度学习在视觉SLAM中应用综述;李少朋;张涛;;空间控制技术与应用(第02期) *

Also Published As

Publication number Publication date
CN111325794A (zh) 2020-06-23

Similar Documents

Publication Publication Date Title
CN111325794B (zh) 一种基于深度卷积自编码器的视觉同时定位与地图构建方法
Kuznietsov et al. Semi-supervised deep learning for monocular depth map prediction
CN113160375B (zh) 一种基于多任务学习算法的三维重建及相机位姿估计方法
Zhuang et al. Learning structure-and-motion-aware rolling shutter correction
CN111489287A (zh) 图像转换方法、装置、计算机设备和存储介质
CN110381268B (zh) 生成视频的方法,装置,存储介质及电子设备
CN113283444B (zh) 一种基于生成对抗网络的异源图像迁移方法
WO2022198684A1 (en) Methods and systems for training quantized neural radiance field
Klenk et al. E-nerf: Neural radiance fields from a moving event camera
CN114429555A (zh) 由粗到细的图像稠密匹配方法、***、设备及存储介质
Karpov et al. Exploring efficiency of vision transformers for self-supervised monocular depth estimation
Ubina et al. Intelligent underwater stereo camera design for fish metric estimation using reliable object matching
CN114996814A (zh) 一种基于深度学习与三维重建的家具设计***
CN104463962B (zh) 基于gps信息视频的三维场景重建方法
Zhou et al. PADENet: An efficient and robust panoramic monocular depth estimation network for outdoor scenes
CN114663880A (zh) 基于多层级跨模态自注意力机制的三维目标检测方法
Deng et al. Neslam: Neural implicit mapping and self-supervised feature tracking with depth completion and denoising
Li et al. Three-dimensional motion estimation via matrix completion
Wang et al. Recurrent neural network for learning densedepth and ego-motion from video
CN117523100A (zh) 基于神经网络与多视图一致性的三维场景重建方法和装置
Nouduri et al. Deep realistic novel view generation for city-scale aerial images
Khan et al. Towards monocular neural facial depth estimation: Past, present, and future
CN116310228A (zh) 一种针对遥感场景的表面重建与新视图合成方法
Khan et al. A robust light-weight fused-feature encoder-decoder model for monocular facial depth estimation from single images trained on synthetic data
Zhang et al. CUDA acceleration of 3D dynamic scene reconstruction and 3D motion estimation for motion capture

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant