CN111369608A - 一种基于图像深度估计的视觉里程计方法 - Google Patents

一种基于图像深度估计的视觉里程计方法 Download PDF

Info

Publication number
CN111369608A
CN111369608A CN202010478460.0A CN202010478460A CN111369608A CN 111369608 A CN111369608 A CN 111369608A CN 202010478460 A CN202010478460 A CN 202010478460A CN 111369608 A CN111369608 A CN 111369608A
Authority
CN
China
Prior art keywords
image
depth
estimation
loss
pose
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010478460.0A
Other languages
English (en)
Inventor
王燕清
陈长伟
王寅同
石朝侠
杨鑫
徐创
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Xiaozhuang University
Original Assignee
Nanjing Xiaozhuang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Xiaozhuang University filed Critical Nanjing Xiaozhuang University
Priority to CN202010478460.0A priority Critical patent/CN111369608A/zh
Publication of CN111369608A publication Critical patent/CN111369608A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于图像深度估计的视觉里程计方法,针对单目视觉里程计中常见的尺度模糊问题,提出了将深度图像与单目图像结合实现尺度一致性约束的算法思想。在网络结构设计中,将长短时记忆单元融合到卷积神经单元中,利用单目图像进行深度估计网络的训练,在损失函数中不仅引入了光度一致性损失,还加入了平滑度损失的计算,以捕捉更多的图像特征,生成更为精确的深度图像。再结合估计的深度图像与原始的单目图像实现尺度一致性约束,进行位姿估计网络的训练并分别对深度估计网络和位姿估计网络进行了实验以及结果分析,其结果表明了结合深度图像估计的视觉里程计能够在一定程度上解决单目视觉里程计中的尺度模糊问题。

Description

一种基于图像深度估计的视觉里程计方法
技术领域
本发明涉及视觉里程计技术领域,具体为一种基于图像深度估计的视觉里程计方法。
背景技术
单目的视觉里程计(即从单视图的图像序列对车辆、机器人进行自运动估计)采用的输入是RGB图像,但在计算机视觉与机器人领域,深度图像(Depth Map)信息的使用也为各种应用,如自动驾驶、虚拟现实VR、增强现实AR应用等提供了至关重要的信息。所谓深度图像,又名距离图像(Range Image)就是指包含与视点场景中与对象表面的距离信息的图像或图像通道,其像素值代表的是传感器距离物体的实际距离。传统的单目视觉里程计在进行位姿估计时,与双目视觉里程计相比有一大非常明显的缺陷,就是尺度模糊(ScaleAmbiguity)问题。尺度模糊就是指单目视觉里程计仅仅通过特征之间的相关性无法判断平移运动的具体长度,也就是尺度因子。大多数已有的解决这一问题的方法,就是融合图像测量信息与其它传感器信息,如融合惯导信息(Inertial Navigation System,INS),GNSS传感器信息等。虽然额外使用其它传感器虽然能够解决尺度模糊问题,但是这样的方法打破了单目视觉里程计结构的一个最大优点——体积小,成本低。
传统的深度估计方法通常是手工测算的阶段式***,依靠关联性搜索和多视角几何约束进行估计。而近年来卷积神经网络CNN开始应用于深度估计,且计算出的结果与传统几何方法估计出的结果质量相当,甚至能够通过学习先验信息在比较模糊的区域获取更加完整的结果。但是,大部分基于卷积神经网络CNN的方法只将深度估计作为一个单视图的任务,而忽略了在单目或双目视频中重要的时序信息。单视角的深度估计方法的基本原理是人类通过单个图像感知深度的可能性,但却忽略了对于人类来说,推断距离时更重要的是运动。并且在单目视觉里程计中进行几何图像重建时,存在的运动目标会影响场景的静态假设,从而影响性能。因此本发明提出了一种方案,通过采集到的RGB图像进行深度图像估计,将得到的深度图像与RGB图像相结合输入到深度神经网络中以得到一个6自由度的相机位姿估计,并随后转换成4×4的位姿变换矩阵。根据得到的连续两帧之间的位姿转换矩阵和估计的前一帧深度图像计算下一帧的深度图像,并与深度估计网络输出是下一帧的深度图像相对比,作为模型中用于实现尺度一致性的几何损失约束。接下来的部分主要介绍了该方案的模型设计及其具体实现,实验结果等工作。
发明内容
1.网络架构设计
网络架构包括单目深度图像的神经网络和单目RGB图像,通过使用单目的图像帧序列对深度图像估计网络和自运动估计网络进行训练,实现尺度一致性约束,整体流程是:
S1、根据给定的两个连续帧的图像
Figure 100002_DEST_PATH_IMAGE001
,使用深度估计网络分别对其深度估计,得到对应的深度图像
Figure 100002_DEST_PATH_IMAGE002
S2、将原始的图像
Figure 100002_DEST_PATH_IMAGE003
与对应的深度图像估计
Figure 100002_DEST_PATH_IMAGE004
共同作为自运动估计网络的输入,并输出对t时刻相机的位姿预测
Figure 100002_DEST_PATH_IMAGE005
S3、将估计的位姿转化为4×4的位姿变换矩阵
Figure 100002_DEST_PATH_IMAGE006
,根据变换矩阵计算出
Figure 212245DEST_PATH_IMAGE004
下一帧的深度图像
Figure 100002_DEST_PATH_IMAGE007
,通过计算
Figure 100002_DEST_PATH_IMAGE008
之间的一致性损失,进行模型训练改进位姿预测的尺度一致性,如图1所示。
2. 深度估计网络
深度估计网络运用了自编码-解码的U型网络架构,如图2所示。本发明将循环神经单元与编码器单元融合组成长短时记忆单元,作为网络的自编码部分,从而实现同时利用空间信息和时间信息;由编码器计算得到的空间-时间特征随后输入到解码器网络中进行精确的深度图像估计与重建,解码器的部分使用跳接的方法来融合来自编码器不同层级的低等级特征表示,图3展示了用于深度估计的神经网络架构的具体参数设置。
3.位姿估计网络
用于位姿估计的神经网络使用的是VGG16卷积神经网络架构并融合循环神经单元进行设计,视觉里程计网络的特点有:1)该方案中视觉里程计的输入包含了当前帧的深度图像信息,保证了深度与位姿之间场景的尺度一致性;2)视觉里程计采用的输入是单个时间点所对应的图像帧与深度图像的联合表示,前一帧的信息均存放在隐藏层中;3)视觉里程计网络在整个图像序列上运行时能够维持同一个场景尺度。
4.损失函数
计算预测的深度图像
Figure 100002_DEST_PATH_IMAGE009
和已知的深度图像数据之间的光度一致性损失,对深度估计神经网络进行有监督的训练;光度损失在低纹理环境中提供的信息量较少,在进行深度估计时还加入了平滑度损失的计算;在视觉里程计的部分,网络估计的位姿信息与数据集中提供的真值信息进行位姿估计损失的计算,实现位姿估计网络的监督训练;引入几何一致性损失,将前一帧估计的深度图像根据位姿变换矩阵进行扭转变换,并计算与估计的下一帧深度图像之间的差异;整体的目标损失函数计算如下所示:
Figure 100002_DEST_PATH_IMAGE010
(1)
其中则分别代表光度一致性损失和平滑度损失,
Figure 100002_DEST_PATH_IMAGE012
表示位姿 估计损失,表示几何一致性损失;为了平衡各损失计算结果的尺度和大小,为每个类别 的损失的计算添加了对应的权重参数;还添加了参数来控制深度图像的平滑程度。
4.1光度一致性损失与平滑度损失
稠密关联算法中使用的亮度一致性和空间平滑先验,对估计的深度图像与真实采集的深度图像信息进行光度差异的计算,并作为网络训练的损失函数,光度一致性损失函数的计算公式进行如下表示:
Figure 100002_DEST_PATH_IMAGE015
(2)
其中,
Figure 100002_DEST_PATH_IMAGE016
表示图像中像素点的数目,V则表示图像中所有像素点的集合;在该损失函数的计算中选择了L1范数损失函数;L1范数损失函数也叫作最小绝对值偏差或最小绝对值误差,计算的是估计值与目标值之间的差值绝对值的总和,并使其最小化;与计算差值的平方和的L2范数损失函数相比,L1损失函数的计算方法在处理异常值时有着更加良好的鲁棒性,在该光度一致性差异中L1范数损失可按照如下公式进行计算:
Figure 100002_DEST_PATH_IMAGE017
(3)
光度损失在场景均匀分布、纹理较少时提供的信息量较少,需要通过计算多重差异来产生较多信息,引入了平滑度损失的计算,使网络能够更加敏感地感知图像中的边缘信息,以保证输出结果在低纹理环境下的准确率;平滑度损失的计算公式如下所示:
Figure 100002_DEST_PATH_IMAGE018
(4)
其中
Figure 100002_DEST_PATH_IMAGE019
表示沿着空间方向的一阶导数,通过一阶导数保证了平滑度是由图像中的边缘引导的。
4.2位姿估计损失
位姿估计损失,将估计的绝对位姿以六维向量的形式表示,该六 维位姿向量由表示位置的三维向量和表示姿态的三维向量 两个部分组成;将提供的真值位姿向量
Figure 100002_DEST_PATH_IMAGE023
和与估计的位姿向量进 行拟合,计算两者之间的误差作为位姿估计的损失函数:
Figure 100002_DEST_PATH_IMAGE025
(5)
其中参数
Figure 100002_DEST_PATH_IMAGE026
代表尺度因子,用来平衡位移误差与旋转误差之间不同的单位。
4.3 几何一致性损失
几何一致性损失,对预测的结果进行了几何一致性的增强,要求相邻时刻两帧的深度图像
Figure 768734DEST_PATH_IMAGE009
Figure 172034DEST_PATH_IMAGE027
符合同一场景架构,并将两者之间的差异最小化;能够提高同一批训练的样本图像之间的几何一致性,通过其传递性实现整个图像序列的几何一致性,例如同一训练批次中It与It+1的深度图像保持一致,而It+1与It+2的深度图像在另一个训练批次中相一致,那么It与It+2虽然不一定在同一个训练批次中,也能够保证其深度图像的一致性,实现了整个图像序列的深度图像的一致性;在训练过程中位姿估计网络与深度估计网络是自然耦合的,能够在整个图像序列生成尺度一致的预测结果;根据这一约束,进行相邻帧的深度图像不一致性的计算,对于深度图像中任一像素点P,相邻帧的深度图像差
Figure 100002_DEST_PATH_IMAGE028
其公式定义如下:
Figure 100002_DEST_PATH_IMAGE029
(6)
其中,
Figure 368660DEST_PATH_IMAGE027
表示的是通过深度估计神经网络计算出的t+1时刻图像帧对应的深度图像,
Figure 100002_DEST_PATH_IMAGE030
表示的是深度估计神经网络对t时刻图像帧进行深度图像估计得到
Figure 591831DEST_PATH_IMAGE009
,并根据自运动估计神经网络输出的当前时刻到下一时刻的位姿变换矩阵
Figure 100002_DEST_PATH_IMAGE031
Figure 540894DEST_PATH_IMAGE009
进行变换后的深度图像,即
Figure 100002_DEST_PATH_IMAGE032
(7)
由于相机在不断运动,采集到的图像场景是在不断变化的,通过对深度图像进行裁剪保证计算不一致性像素点的有效性,每个像素点对应算出的
Figure 533121DEST_PATH_IMAGE028
进行求和,规范深度图像的计算差异;在优化时将不同绝对深度的点进行同等处理,使其比计算绝对距离更加直观;并且该函数是一个对称函数,函数的值域在0到1之间,有助于保证训练数值的稳定性;根据上述的不一致性映射,提出的几何一致性损失定义如下:
Figure 100002_DEST_PATH_IMAGE033
(8)
其中V表示对深度图像进行矩阵变换计算并裁剪后的所有像素点,
Figure 100002_DEST_PATH_IMAGE034
表示V中像素点的数量;该公式算法通过最小化预测深度的几何距离来保证相邻图像对之间尺度一致性,并通过训练,将一致性传播到整个图像序列之中。自运动估计网络与深度估计网络之间存在紧密的联系,自运动估计网络最终能够预测出全局范围内尺度一致的轨迹。
有益效果
本发明公开了一种基于图像深度估计的视觉里程计方法,针对单目视觉里程计中常见的尺度模糊问题,提出了将深度图像与单目图像结合实现尺度一致性约束的算法思想。在网络结构设计中,将长短时记忆单元融合到卷积神经单元中,利用单目图像进行深度估计网络的训练,在损失函数中不仅引入了光度一致性损失,还加入了平滑度损失的计算,以捕捉更多的图像特征,生成更为精确的深度图像。再结合估计的深度图像与原始的单目图像实现尺度一致性约束,进行位姿估计网络的训练并分别对深度估计网络和位姿估计网络进行了实验以及结果分析,其结果表明了结合深度图像估计的视觉里程计能够在一定程度上解决单目视觉里程计中的尺度模糊问题。
附图说明
图1 为结合深度图像估计的视觉里程计网络架构图。
图2 为深度估计网络的架构设计图。
图3 为深度估计网络的参数设置图。
图4 为位姿估计网络架构图。
图5 为位姿估计网络的参数设置图。
图6为Eigen分割数据集下的测试结果图。
图7为KITTI Odometry数据集下的测试结果图。
图8为序列01位姿估计网络模型在各序列的轨迹重建结果图。
图9为序列05位姿估计网络模型在各序列的轨迹重建结果图。
图10为序列09位姿估计网络模型在各序列的轨迹重建结果图。
具体实施方式
1.数据集介绍
本发明将展示实验结果提出的框架性能进行分析评估,并与现有的一些工作进行深度估计与视觉里程计位姿估计的比较。***主要在KITTI原始数据集(raw data)上进行训练,该数据集的采集频率为10Hz,其中包括原始的双目彩色和灰度图像序列(未进行同步和校正)和经过同步和校正处理后的双目彩色和灰度图像序列,3D点云地图信息(每帧对应约有10万个点,以二进制浮点矩阵的形式存储)、3D GPS/IMU数据信息(存储有定位信息、速度、加速度、元信息的txt文件)、相关的相机标定信息以及3D物体的标签信息。整个数据集中共有61个视频序列。进行单目深度图像估计网络的实验时,同时参照了Eigen数据集分割方法和KITTI Odometry数据集分割方法。在进行视觉里程计部分的性能评估时,实验基于KITTIOdometry的数据集,同时结合数据集中的图像与深度估计网络生成的深度图像进行网络模型训练。并且要注意的是Eigen分割数据集与Odometry数据集之间有相互重叠的部分,两种分割方法的如下所述。
数据集分割法
在Eigen等人的工作中,一共从28个图像序列中选择了697张帧图像作为单目深度估计的测试集。其余的33个场景序列,共23488帧双目图像对作为训练集,将双目图像分别作为两个单目相机采集的图像。由于图像重投影损失是由运动时的视差造成的,因此在数据准备阶段将所有与基线运动s小于0.3米的静态帧图像丢弃。
Odometry数据集中共有11个包含相机位姿真值数据的图像序列。在进行位姿估计网络的评估时,将数据集中00-08(不包含03)图像序列作为训练数据集,09-10图像序列作为测试评估的数据集。
3.实验结果与分析
图6分别展示了输入不同图像后输出的深度估计图像的结果,可以看出在不同的场景中模型均能输出较为精确的深度估计结果。为了展现模型较高的鲁棒性,图7中分别输入两张相同场景中同一物体处于不同光照条件下的图像(图中圈出的车辆在两张图像中分别处在阳光照射和树木阴影遮挡的条件下),对应的输出结果表明模型能够在不同的光照条件下依然能够精确地检测出图像中的物体。
在对深度估计神经网络进行性能评估并与其他已有的方法进行比较时,同时使用了Eigen分割和KITTI分割两种测试集分割方法。对比指标分为误差指标部分和精度指标部分,误差指标部分包括绝对相对误差Abs Rel,平方相对误差Sq Rel,均方根误差RMSE以及均方根对数误差RMSE log,误差值越小表示性能越好;精度指标部分包括值越大性能越好。在KITTI分割方法中,测试数据集共包含从28个不同场景中采集的200张图像,每张图像都有对应的真值数据。图6和图7分别展示了深度估计网络在Eigen分割数据集和KITTIOdometry数据集下的测试结果,并与现有的方法进行了对比。
在进行深度估计网络训练之后,结合其输出的深度图像与原始的RGB图像对位姿估计网络,即视觉里程计部分进行模型训练。图8-10展示了最后的轨迹重建效果,其结果表明了结合深度图像估计的视觉里程计能够在一定程度上解决单目视觉里程计中的尺度模糊问题。
需要说明的是,在本发明中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (7)

1.一种基于图像深度估计的视觉里程计方法,其特征在于:网络架构包括单目深度图像的神经网络和单目RGB图像,通过使用单目的图像帧序列对深度图像估计网络和自运动估计网络进行训练,实现尺度一致性约束,整体流程是:
S1、根据给定的两个连续帧的图像
Figure DEST_PATH_IMAGE001
,使用深度估计网络分别对其深度估计,得到对应的深度图像
Figure DEST_PATH_IMAGE002
S2、将原始的图像
Figure DEST_PATH_IMAGE003
与对应的深度图像估计
Figure DEST_PATH_IMAGE004
共同作为自运动估计网络的输入,并输出对t时刻相机的位姿预测
Figure DEST_PATH_IMAGE005
S3、将预测的位姿转化为4×4的位姿变换矩阵
Figure DEST_PATH_IMAGE006
,根据变换矩阵计算出
Figure 698773DEST_PATH_IMAGE004
下一帧的深度图像
Figure DEST_PATH_IMAGE007
,通过计算
Figure DEST_PATH_IMAGE008
之间的一致性损失,进行模型训练改进位姿预测的尺度一致性。
2.根据权利要求1所述的一种基于图像深度估计的视觉里程计方法,其特征在于:深度估计网络运用了自编码-解码的U型网络架构,将循环神经单元与编码器单元融合组成长短时记忆单元,作为网络的自编码部分,实现同时利用空间信息和时间信息;由编码器计算得到的空间-时间特征,输入到解码器网络中进行精确的深度图像估计与重建,解码器的部分使用跳接的方法来融合来自编码器不同层级的低等级特征表示。
3.根据权利要求1所述的一种基于图像深度估计的视觉里程计方法,其特征在于:用于位姿估计的神经网络使用的是VGG16卷积神经网络架构并融合循环神经单元进行设计,视觉里程计网络的特点有:1)视觉里程计的输入包含了当前帧的深度图像信息,保证了深度与位姿之间场景的尺度一致性;2)视觉里程计采用的输入是单个时间点所对应的图像帧与深度图像的联合表示,前一帧的信息均存放在隐藏层中;3)视觉里程计网络在整个图像序列上运行时能够维持同一个场景尺度。
4.根据权利要求1所述的一种基于图像深度估计的视觉里程计方法,其特征在于:计算预测的深度图像
Figure DEST_PATH_IMAGE009
和已知的深度图像数据之间的光度一致性损失,对深度估计神经网络进行有监督的训练;光度损失在低纹理环境中提供的信息量较少,在进行深度估计时还加入了平滑度损失的计算;在视觉里程计的部分,网络估计的位姿信息与数据集中提供的真值信息进行位姿估计损失的计算,实现位姿估计网络的监督训练;引入几何一致性损失,将前一帧估计的深度图像根据位姿变换矩阵进行扭转变换,并计算与估计的下一帧深度图像之间的差异;整体的目标损失函数计算如下所示:
Figure DEST_PATH_IMAGE010
(1)
其中则分别代表光度一致性损失和平滑度损失,
Figure DEST_PATH_IMAGE012
表示位姿 估计损失,表示几何一致性损失;为了平衡各损失计算结果的尺度和大小,为每个类 别的损失的计算添加了对应的权重参数,还添加了参数来控制深度图像的平滑程度。
5.根据权利要求4所述的一种基于图像深度估计的视觉里程计方法,其特征在于:光度一致性损失与平滑度损失,稠密关联算法中使用的亮度一致性和空间平滑先验,对估计的深度图像与真实采集的深度图像信息进行光度差异的计算,并作为网络训练的损失函数,光度一致性损失函数的计算公式进行如下表示:
Figure DEST_PATH_IMAGE015
(2)
其中,
Figure DEST_PATH_IMAGE016
表示图像中像素点的数目,V则表示图像中所有像素点的集合;在该损失函数的计算中选择了L1范数损失函数;L1范数损失函数也叫作最小绝对值偏差或最小绝对值误差,计算的是估计值与目标值之间的差值绝对值的总和,并使其最小化;与计算差值的平方和的L2范数损失函数相比,L1损失函数的计算方法在处理异常值时有着更加良好的鲁棒性,在该光度一致性差异中L1范数损失可按照如下公式进行计算:
Figure DEST_PATH_IMAGE017
(3)
光度损失在场景均匀分布、纹理较少时提供的信息量较少,需要通过计算多重差异来产生较多信息,引入了平滑度损失的计算,使网络能够更加敏感地感知图像中的边缘信息,以保证输出结果在低纹理环境下的准确率;平滑度损失的计算公式如下所示:
Figure DEST_PATH_IMAGE018
(4)
其中
Figure DEST_PATH_IMAGE019
表示沿着空间方向的一阶导数,P为图像中的任意像素。
6.根据权利要求4所述的一种基于图像深度估计的视觉里程计方法,其特征在于:位姿 估计损失,将估计的绝对位姿以六维向量的形式表示,该六维位姿 向量由表示位置的三维向量和表示姿态的三维向量两个部 分组成;将提供的真值位姿向量
Figure DEST_PATH_IMAGE023
和与估计的位姿向量进行拟 合,计算两者之间的误差作为位姿估计的损失函数:
Figure DEST_PATH_IMAGE025
(5)
其中参数
Figure DEST_PATH_IMAGE026
代表尺度因子,用来平衡位移误差与旋转误差之间不同的单位。
7.根据权利要求4所述的一种基于图像深度估计的视觉里程计方法,其特征在于:几何一致性损失,对预测的结果进行了几何一致性的增强,要求相邻时刻两帧的深度图像
Figure 756858DEST_PATH_IMAGE009
Figure DEST_PATH_IMAGE027
符合同一场景架构,并将两者之间的差异最小化;能够提高同一批训练的样本图像之间的几何一致性,通过其传递性实现整个图像序列的几何一致性,例如同一训练批次中It与It+1的深度图像保持一致,而It+1与It+2的深度图像在另一个训练批次中相一致,那么It与It+2虽然不一定在同一个训练批次中,也能够保证其深度图像的一致性,实现了整个图像序列的深度图像的一致性;在训练过程中位姿估计网络与深度估计网络是自然耦合的,能够在整个图像序列生成尺度一致的预测结果;根据这一约束,进行相邻帧的深度图像不一致性的计算,对于深度图像中任一像素点P,相邻帧的深度图像差
Figure DEST_PATH_IMAGE028
其公式定义如下:
Figure DEST_PATH_IMAGE029
(6)
其中,
Figure 97448DEST_PATH_IMAGE027
表示的是通过深度估计神经网络计算出的t+1时刻图像帧对应的深度图像,
Figure DEST_PATH_IMAGE030
表示的是深度估计神经网络对t时刻图像帧进行深度图像估计得到
Figure 289395DEST_PATH_IMAGE009
,并根据自运动估计神经网络输出的当前时刻到下一时刻的位姿变换矩阵
Figure DEST_PATH_IMAGE031
Figure 697242DEST_PATH_IMAGE009
进行变换后的深度图像,即
Figure DEST_PATH_IMAGE032
(7)
由于相机在不断运动,采集到的图像场景是在不断变化的,通过对深度图像进行裁剪保证计算不一致性像素点的有效性,每个像素点对应算出的相邻帧的深度图像差
Figure 988546DEST_PATH_IMAGE028
进行求和,规范深度图像的计算差异;在优化时将不同绝对深度的点进行同等处理,使其比计算绝对距离更加直观;并且该函数是一个对称函数,函数的值域在0到1之间,有助于保证训练数值的稳定性;根据上述的不一致性映射,提出的几何一致性损失定义如下:
Figure DEST_PATH_IMAGE033
(8)
其中V表示对深度图像进行矩阵变换计算并裁剪后的所有像素点,
Figure DEST_PATH_IMAGE034
表示V中像素点的数量;该公式算法通过最小化预测深度的几何距离来保证相邻图像对之间尺度一致性,并通过训练,将一致性传播到整个图像序列之中。
CN202010478460.0A 2020-05-29 2020-05-29 一种基于图像深度估计的视觉里程计方法 Pending CN111369608A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010478460.0A CN111369608A (zh) 2020-05-29 2020-05-29 一种基于图像深度估计的视觉里程计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010478460.0A CN111369608A (zh) 2020-05-29 2020-05-29 一种基于图像深度估计的视觉里程计方法

Publications (1)

Publication Number Publication Date
CN111369608A true CN111369608A (zh) 2020-07-03

Family

ID=71211134

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010478460.0A Pending CN111369608A (zh) 2020-05-29 2020-05-29 一种基于图像深度估计的视觉里程计方法

Country Status (1)

Country Link
CN (1) CN111369608A (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111899280A (zh) * 2020-07-13 2020-11-06 哈尔滨工程大学 采用深度学习和混合型位姿估计的单目视觉里程计方法
CN112052626A (zh) * 2020-08-14 2020-12-08 杭州未名信科科技有限公司 一种神经网络自动设计***和方法
CN112102399A (zh) * 2020-09-11 2020-12-18 成都理工大学 一种基于生成式对抗网络的视觉里程计算法
CN112150531A (zh) * 2020-09-29 2020-12-29 西北工业大学 一种鲁棒的自监督学习单帧图像深度估计方法
CN112184611A (zh) * 2020-11-03 2021-01-05 支付宝(杭州)信息技术有限公司 图像生成模型训练方法以及装置
CN112308918A (zh) * 2020-10-26 2021-02-02 杭州电子科技大学 一种基于位姿解耦估计的无监督单目视觉里程计方法
CN112561978A (zh) * 2020-12-18 2021-03-26 北京百度网讯科技有限公司 深度估计网络的训练方法、图像的深度估计方法、设备
CN112819853A (zh) * 2021-02-01 2021-05-18 太原理工大学 一种基于语义先验的视觉里程计方法
CN113012191A (zh) * 2021-03-11 2021-06-22 中国科学技术大学 一种基于点云多视角投影图的激光里程计算法
CN113160294A (zh) * 2021-03-31 2021-07-23 中国科学院深圳先进技术研究院 图像场景深度的估计方法、装置、终端设备和存储介质
CN113538335A (zh) * 2021-06-09 2021-10-22 香港中文大学深圳研究院 一种无线胶囊内窥镜的体内相对定位方法和装置
CN113570658A (zh) * 2021-06-10 2021-10-29 西安电子科技大学 基于深度卷积网络的单目视频深度估计方法
CN114463420A (zh) * 2022-01-29 2022-05-10 北京工业大学 一种基于注意力卷积神经网络的视觉里程计算法
CN114526728A (zh) * 2022-01-14 2022-05-24 浙江大学 一种基于自监督深度学习的单目视觉惯导定位方法
CN114663509A (zh) * 2022-03-23 2022-06-24 北京科技大学 一种关键点热力图引导的自监督单目视觉里程计方法
CN114998411A (zh) * 2022-04-29 2022-09-02 中国科学院上海微***与信息技术研究所 结合时空增强光度损失的自监督单目深度估计方法和装置
WO2023109221A1 (zh) * 2021-12-14 2023-06-22 北京地平线信息技术有限公司 确定单应性矩阵的方法、装置、介质、设备和程序产品
WO2023165093A1 (zh) * 2022-03-01 2023-09-07 上海商汤智能科技有限公司 视觉惯性里程计模型的训练方法、位姿估计方法、装置、电子设备、计算机可读存储介质及程序产品
CN117197229A (zh) * 2023-09-22 2023-12-08 北京科技大学顺德创新学院 一种基于亮度对齐的多阶段估计单目视觉里程计方法
WO2024012405A1 (zh) * 2022-07-11 2024-01-18 华为技术有限公司 一种标定方法及装置
CN117456531A (zh) * 2023-12-25 2024-01-26 乐山职业技术学院 多视图纯旋转异常识别和自动标记训练方法、设备和介质

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111899280A (zh) * 2020-07-13 2020-11-06 哈尔滨工程大学 采用深度学习和混合型位姿估计的单目视觉里程计方法
CN111899280B (zh) * 2020-07-13 2023-07-25 哈尔滨工程大学 采用深度学习和混合型位姿估计的单目视觉里程计方法
CN112052626B (zh) * 2020-08-14 2024-01-19 杭州未名信科科技有限公司 一种神经网络自动设计***和方法
CN112052626A (zh) * 2020-08-14 2020-12-08 杭州未名信科科技有限公司 一种神经网络自动设计***和方法
CN112102399A (zh) * 2020-09-11 2020-12-18 成都理工大学 一种基于生成式对抗网络的视觉里程计算法
CN112102399B (zh) * 2020-09-11 2022-07-19 成都理工大学 一种基于生成式对抗网络的视觉里程计算法
CN112150531A (zh) * 2020-09-29 2020-12-29 西北工业大学 一种鲁棒的自监督学习单帧图像深度估计方法
CN112308918B (zh) * 2020-10-26 2024-03-29 杭州电子科技大学 一种基于位姿解耦估计的无监督单目视觉里程计方法
CN112308918A (zh) * 2020-10-26 2021-02-02 杭州电子科技大学 一种基于位姿解耦估计的无监督单目视觉里程计方法
CN112184611A (zh) * 2020-11-03 2021-01-05 支付宝(杭州)信息技术有限公司 图像生成模型训练方法以及装置
CN112561978A (zh) * 2020-12-18 2021-03-26 北京百度网讯科技有限公司 深度估计网络的训练方法、图像的深度估计方法、设备
CN112561978B (zh) * 2020-12-18 2023-11-17 北京百度网讯科技有限公司 深度估计网络的训练方法、图像的深度估计方法、设备
CN112819853A (zh) * 2021-02-01 2021-05-18 太原理工大学 一种基于语义先验的视觉里程计方法
CN112819853B (zh) * 2021-02-01 2023-07-25 太原理工大学 一种基于语义先验的视觉里程计方法
CN113012191B (zh) * 2021-03-11 2022-09-02 中国科学技术大学 一种基于点云多视角投影图的激光里程计算法
CN113012191A (zh) * 2021-03-11 2021-06-22 中国科学技术大学 一种基于点云多视角投影图的激光里程计算法
CN113160294A (zh) * 2021-03-31 2021-07-23 中国科学院深圳先进技术研究院 图像场景深度的估计方法、装置、终端设备和存储介质
CN113538335A (zh) * 2021-06-09 2021-10-22 香港中文大学深圳研究院 一种无线胶囊内窥镜的体内相对定位方法和装置
CN113570658A (zh) * 2021-06-10 2021-10-29 西安电子科技大学 基于深度卷积网络的单目视频深度估计方法
WO2023109221A1 (zh) * 2021-12-14 2023-06-22 北京地平线信息技术有限公司 确定单应性矩阵的方法、装置、介质、设备和程序产品
CN114526728B (zh) * 2022-01-14 2023-12-05 浙江大学 一种基于自监督深度学习的单目视觉惯导定位方法
CN114526728A (zh) * 2022-01-14 2022-05-24 浙江大学 一种基于自监督深度学习的单目视觉惯导定位方法
CN114463420A (zh) * 2022-01-29 2022-05-10 北京工业大学 一种基于注意力卷积神经网络的视觉里程计算法
WO2023165093A1 (zh) * 2022-03-01 2023-09-07 上海商汤智能科技有限公司 视觉惯性里程计模型的训练方法、位姿估计方法、装置、电子设备、计算机可读存储介质及程序产品
CN114663509A (zh) * 2022-03-23 2022-06-24 北京科技大学 一种关键点热力图引导的自监督单目视觉里程计方法
CN114998411B (zh) * 2022-04-29 2024-01-09 中国科学院上海微***与信息技术研究所 结合时空增强光度损失的自监督单目深度估计方法和装置
CN114998411A (zh) * 2022-04-29 2022-09-02 中国科学院上海微***与信息技术研究所 结合时空增强光度损失的自监督单目深度估计方法和装置
WO2024012405A1 (zh) * 2022-07-11 2024-01-18 华为技术有限公司 一种标定方法及装置
CN117197229A (zh) * 2023-09-22 2023-12-08 北京科技大学顺德创新学院 一种基于亮度对齐的多阶段估计单目视觉里程计方法
CN117197229B (zh) * 2023-09-22 2024-04-19 北京科技大学顺德创新学院 一种基于亮度对齐的多阶段估计单目视觉里程计方法
CN117456531A (zh) * 2023-12-25 2024-01-26 乐山职业技术学院 多视图纯旋转异常识别和自动标记训练方法、设备和介质
CN117456531B (zh) * 2023-12-25 2024-03-19 乐山职业技术学院 多视图纯旋转异常识别和自动标记训练方法、设备和介质

Similar Documents

Publication Publication Date Title
CN111369608A (zh) 一种基于图像深度估计的视觉里程计方法
Shamwell et al. Unsupervised deep visual-inertial odometry with online error correction for RGB-D imagery
CN111311666B (zh) 一种融合边缘特征和深度学习的单目视觉里程计方法
CN108961327B (zh) 一种单目深度估计方法及其装置、设备和存储介质
CN107945204B (zh) 一种基于生成对抗网络的像素级人像抠图方法
US20210142095A1 (en) Image disparity estimation
US20180308240A1 (en) Method for estimating the speed of movement of a camera
CN110689562A (zh) 一种基于生成对抗网络的轨迹回环检测优化方法
US11082633B2 (en) Method of estimating the speed of displacement of a camera
CN110675418A (zh) 一种基于ds证据理论的目标轨迹优化方法
CN113272713B (zh) 用于执行自改进的视觉测程法的***和方法
Shamwell et al. Vision-aided absolute trajectory estimation using an unsupervised deep network with online error correction
CN112233179B (zh) 一种视觉里程计测量方法
Chen et al. A stereo visual-inertial SLAM approach for indoor mobile robots in unknown environments without occlusions
CN111998862A (zh) 一种基于bnn的稠密双目slam方法
CN112184767A (zh) 对运动物体进行轨迹跟踪的方法、装置、设备及存储介质
CN117274515A (zh) 基于ORB和NeRF映射的视觉SLAM方法及***
CN117367427A (zh) 一种适用于室内环境中的视觉辅助激光融合IMU的多模态slam方法
CN103839280B (zh) 一种基于视觉信息的人体姿态跟踪方法
CN116188550A (zh) 一种基于几何约束的自监督深度视觉里程计
Yuan et al. RGB-D DSO: Direct sparse odometry with RGB-D cameras for indoor scenes
Koch Automatic reconstruction of buildings from stereoscopic image sequences
CN115482252A (zh) 基于运动约束的slam闭环检测和位姿图优化方法
Pirvu et al. Depth distillation: unsupervised metric depth estimation for UAVs by finding consensus between kinematics, optical flow and deep learning
CN112731503A (zh) 一种基于前端紧耦合的位姿估计方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200703