CN110009674B - 基于无监督深度学习的单目图像景深实时计算方法 - Google Patents

基于无监督深度学习的单目图像景深实时计算方法 Download PDF

Info

Publication number
CN110009674B
CN110009674B CN201910256117.9A CN201910256117A CN110009674B CN 110009674 B CN110009674 B CN 110009674B CN 201910256117 A CN201910256117 A CN 201910256117A CN 110009674 B CN110009674 B CN 110009674B
Authority
CN
China
Prior art keywords
image
depth
neural network
convolutional neural
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910256117.9A
Other languages
English (en)
Other versions
CN110009674A (zh
Inventor
仲训昱
杨德龙
殷昕
彭侠夫
邹朝圣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Winjoin Technology Co ltd
Xiamen University
Original Assignee
Xiamen Winjoin Technology Co ltd
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Winjoin Technology Co ltd, Xiamen University filed Critical Xiamen Winjoin Technology Co ltd
Priority to CN201910256117.9A priority Critical patent/CN110009674B/zh
Publication of CN110009674A publication Critical patent/CN110009674A/zh
Application granted granted Critical
Publication of CN110009674B publication Critical patent/CN110009674B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于无监督深度学习的单目图像景深实时计算方法,利用双目序列图像之间的几何约束关系构造监督信号,取代传统的人工标记数据集,完成了无监督算法设计;在Depth‑CNN网络中的,损失函数除了考虑图像之间的几何约束,还设计了针对左右图像的景深估计结果一致性约束项,提高算法精确度;以Depth‑CNN的输出作为Pose‑CNN输入的一部分,构造整体的目标函数,同时使用双目图像之间的几何关系和序列图像之间的几何关系构造监督信号,进一步提高的算法的精确度以及鲁棒性。

Description

基于无监督深度学习的单目图像景深实时计算方法
技术领域
本发明涉及人工智能技术领域,具体涉及一种基于无监督深度学习的单目图像景深实时计算方法。
背景技术
摄像机由于其低廉的采购价格,实时获取场景完整信息等特点,被广泛应用于服务机器人、自主导航机器人以及无人驾驶汽车的场景感知技术研究中。随着高性能计算设备的发展,使用深度神经网络分析2D图像信息的人工智能技术在无人驾驶以及机器人导航等领域日益发挥着不可替代的作用。其中基于单目图像的场景景深实时计算问题是三维场景感知技术的前提。DavidEigen在2014年首先使用深度神经网络计算2D图像所对应的场景景深,建立了2D到3D的映射关系。
目前,基于单目图像的场景景深计算算法主要分为有监督算法和无监督算法两类。有监督算法需要大量带有人工标记的数据,在文献“D.Eigen,C.Puhrsch,andR.Fergus.Depth map prediction from a single image using a multi-scale deepnetwork.In NIPS,2014.”中,David Eigen提出了使用两个深度卷积神经网络分步骤对图像进行粗估计和精细估计的方法获取场景景深。但是此类人工标记数据多依靠激光扫描仪,采集成本高,且不易获取,使用范围有限。无监督算法仅仅使用针对场景的场景图像作为训练集,应用广泛,在文献“T.Zhou,M.Brown,N.Snavely,and D.G.Lowe.Unsupervisedlearning of depth and ego motion from video.In CVPR,2017.”中,Zhou Tinghui等人使用序列图像作为输入,不需要人工标记即可直接计算场景景深。但是由于深度神经网络仅仅通过大量图像分析场景信息,获取场景景深,精确度无法达到指定要求。
通过对以上问题的分析发现:它们或者需要大量人工标记图像作为训练数据集,或者无法完成精确计算的要求,在细节上存在不同程度的丢失。高精度实时景深计算结果在基于图像的无人驾驶应用场景中具有重要意义,因此,需要开发一种无监督的无人驾驶场景景深实时计算方法。
发明内容
本发明针对室外无人驾驶汽车或无人自主机器人中的三维场景感知问题,人工标记数据集不容易大量获取以及应用场景有限等问题,提供一种基于无监督深度学习的单目图像景深实时计算方法,其仅仅使用无人标记图像作为训练数据集,完成精确、快速估计场景景深的方法。
为解决上述问题,本发明是通过以下技术方案实现的:
基于无监督深度学习的单目图像景深实时计算方法,包括步骤如下:
步骤1、使用无人驾驶数据集KITTI中的双目序列图像作为输入数据,并通过数据预处理将双目序列图像分类为两种类型,即用于景深估计卷积神经网络的立体图像对和用于相机姿态估计卷积神经网络的序列图像;
步骤2、基于残差网络建立景深估计卷积神经网络,构造一个端到端***,以立体图像对作为输入,输出对应的景深估计图像,设计景深估计卷积神经网络对应的损失函数用于反馈传播;
步骤3、基于卷积神经网络模块建立相机姿态估计卷积神经网络,构造一个端到端***,以序列图像和景深估计图像作为输入,输出序列图像之间的姿态变化矩阵,设计相机姿态估计卷积神经网络对应的损失函数用于反馈传播;
步骤4、基于步骤2所设计的景深估计卷积神经网络对应的损失函数和步骤3所设计的相机姿态估计卷积神经网络对应的损失函数,构造目标函数;
步骤5、基于步骤2的景深估计卷积神经网络和步骤3的相机姿态估计卷积神经网络完成深度神经网络的搭建,并基于步骤4完成目标函数的设计后,利用步骤1所得无人驾驶数据集KITTI中全部数据对深度神经网络中的景深估计卷积神经网络和相机姿态估计卷积神经网络进行同时训练,以固定深度神经网络的网络参数值和网络结构,得到最终的计算模型;
步骤6、将摄像头实际所得到的单目图像输入到步骤5所得到的计算模型中,则计算模型的输出即为图像对应的场景景深图像。
上述步骤4中,所构造的目标函数为:
Lossfinal=λ1depth_loss+λ2pose_loss
Figure BDA0002013789720000021
Figure BDA0002013789720000031
其中,λ1表示景深估计卷积神经网络损失函数的权值,λ2表示相机姿态估计卷积神经网络损失函数的权值,depth_loss表示景深估计卷积神经网络的损失函数,pose_loss表示相机姿态估计卷积神经网络的损失函数;α表示在景深估计卷积神经网络中,衡量图像表面重建结果与正则项重要性的权值;β表示在相机姿态估计卷积神经网络中,衡量图像表面重建结果与正则项重要性的权值;s表示图像尺度;N表示像素点的总数;||·||1表示L1范数;T表示图像的转置;SSIM()是衡量图像表面结构化差异的函数;Il和Ir分别表示立体图像的左图和右图;
Figure BDA0002013789720000032
Figure BDA0002013789720000033
分别表示利用双目相机几何原理重建的立体图像的左图和右图;dl和dr分别表示由景深估计卷积神经网络生成的左视差图和右视差图;
Figure BDA0002013789720000034
Figure BDA0002013789720000035
分别表示左视差图在横坐标和纵坐标方向的梯度图像;
Figure BDA0002013789720000036
Figure BDA0002013789720000037
分别表示右视差图在横坐标和纵坐标方向的梯度图像;
Figure BDA0002013789720000038
Figure BDA0002013789720000039
分别表示立体图像的左图在横坐标和纵坐标方向的梯度图像;
Figure BDA00020137897200000310
Figure BDA00020137897200000311
分别表示立体图像的右图在横坐标和纵坐标方向的梯度图像;
Figure BDA00020137897200000312
Figure BDA00020137897200000313
分别表示序列图像的左图和右图;
Figure BDA00020137897200000314
Figure BDA00020137897200000315
分别表示s尺度下序列图像中的参考图像所对应的目标图像的左图和右图;
Figure BDA00020137897200000316
表示深度图像的梯度图,
Figure BDA00020137897200000317
Figure BDA00020137897200000318
分别表示序列图像的左图和右图的梯度图像。
上述步骤1中,针对景深估计卷积神经网络,从双目序列图像中提取对应立体图像对,作为训练数据集的一个输入数据;针对相机姿态估计卷积神经网络,从双目序列图像的两个序列图像中,每个序列图像分别提取三幅连续图像,其中第二幅图像作为目标图像,第一和第三幅图像作为参考图像,以这两个序列图像作为训练数据集的一个输入数据。
与现有技术相比,本发明具有如下特点:
1、利用双目序列图像之间的几何约束关系构造监督信号,取代传统的人工标记数据集,完成了无监督算法设计。
2、在Depth-CNN网络中的,损失函数除了考虑图像之间的几何约束,还设计了针对左右图像的景深估计结果一致性约束项,提高算法精确度。
3、以Depth-CNN的输出作为Pose-CNN输入的一部分,构造整体的目标函数,同时使用双目图像之间的几何关系和序列图像之间的几何关系构造监督信号,进一步提高的算法的精确度以及鲁棒性。
附图说明
图1为基于无监督深度学习的单目图像景深实时计算方法流程图。
图2是Depth-CNN网络框架图。
图3是Pose-CNN网络框架图。
图4是目标函数构造整体结构图。
图5是算法结果图。
图5(a)是输入的双目序列图像,图5(b)是Zhou Tinghui的算法结果,图5(c)是本发明的算法结果。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实例,并参照附图,对本发明进一步详细说明。
一种基于无监督深度学习的单目图像景深实时计算方法,如图1所示,其具体包括如下步骤:
步骤1:训练数据预处理。
使用无人驾驶数据集KITTI中的双目序列图像作为输入数据,通过数据预处理将所需图像分类为两种类型:(1)用于Depth-CNN网络的立体图像对;(2)用于Pose-CNN网络的序列图像。
对KITTI数据库中的所有数据进行预处理,首先将原始图像转换为大小为256×512、R、G、B三个通道上图像的灰度值在0-1之间图像。根据深度神经网络的不同重新组织数据。针对Depth-CNN,从双目序列图像中提取对应立体图像对,作为训练数据集的一个输入数据。针对Pose-CNN,从双目序列图像的两个序列图像(分别对应左、右摄像头)中,每个序列图像分别提取三幅连续图像,其中第二幅图像作为目标图像,第一和第三幅图像作为参考图像,以这两个序列图像作为训练数据集的一个输入数据。
步骤2:建立Depth-CNN网络(景深估计卷积神经网络),如图2所示。
基于残差网络建立Depth-CNN网络,构造一个端到端***,以步骤1中所提及的立体图像对作为输入,输出对应的景深估计图像,设计对应的损失函数用于反馈传播。
建立基于残差网络的编码-解码模型,在编码过程中使用卷积核逐次提取输入图像的高维特征,生成多尺度特征图像,在解码过程中使用反卷积核对上层特征图像做反卷积,所生成目标图像尺度和编码过程中的特征图像为一一对应关系。编码解码过程是一个端到端的学习过程,目的是通过网络学习出一个目标函数d=f(I),该函数建立一个像素级别的对应关系,获取输入图像每一个像素对应的景深值。
目标函数d=f(I)的求解过程是一个迭代过程,这里我们使用视差图disp代替景深图像depth进行运算,两者之间的关系为depth(i,j)=bf/disp(i,j),其中b和f分别指双目相机对应的基线和焦距,i,j指像素在图像中的坐标。令Il和Ir是Depth-CNN网络的输入立体图像对,输出为对应的视差图像displeft和dispright
损失函数分为三部分,分别是左图和右图对应的图像重建部分和视差图一致性部分。左图和右图对应的图像重建部分原理一样,以左图重建右图构造损失项为例,将左图Il输入Depth-CNN中,输出结果为左图对应的视差图像displeft,由双目相机的几何原理可以得到如下对应关系:
Figure BDA0002013789720000051
其中,Ωl知图像像素所属区域,Il,Ir分别为左、右输入图像,
Figure BDA0002013789720000052
分别为左、右重建图像。公式(1)建立了由左输入图像和Depth-CNN输出的视差图重建右输入图像的关系式
Figure BDA0002013789720000053
再对比所重建右图和原输入右图之间的差异,作为深度卷积神经网络的监督信号,即:
Figure BDA0002013789720000054
其中,α是参数值函数,SSIM()是衡量两幅输入图像结构化差异结果的函数(具体参考论文Wang Z,Boyik A C,Sheikh H R,et al.Image Quality Assessment:From ErrorVisibility to Structural Similarity[J].IEEE Transactions on Image Processing,2004,13(4))。同时考虑到场景景深值在物体边缘区域多出现不连续性,为了保持图像细节信息,利用图像边缘信息构造损失项:
Figure BDA0002013789720000055
其中,N为图像像素数,x,y表示图像沿横、纵坐标方向求梯度。
由公式(2)(3)可得针对右图的重建损失函数为:
Figure BDA0002013789720000056
与公式(4)同理可以得出针对左图的重建损失函数为:
Figure BDA0002013789720000057
这里s为图像尺度,在本实施例中,s=4,即提取四个尺度的对应图像作为输出结果。
由于左图和右图是由双目摄像机在同一时刻采集,所以左右视差图标量值应一样,利用该原理设计视差一致性损失项,即:
Figure BDA0002013789720000061
联立公式(4)(5)(6)可得Depth-CNN对应的损失函数为:
depth_loss=depthriqht+depthleft+LR_losss (7)
步骤3:建立Pose-CNN网络(相机姿态估计卷积神经网络),如图3所示。
基于卷积神经网络模块建立Pose-CNN网络,构造一个端到端***,以步骤1中所提及的序列图像和步骤2中所提及的景深估计图像作为输入,输出序列图像之间的姿态变化矩阵,设计对应的损失函数用于反馈传播。
建立基于卷积神经网络模块的深度卷积神经网络,该网络使用步骤1中数据预处理结果中的序列图像作为输入,输出为四个变换矩阵,对应左、右序列图像中参考图像到目标图像的变换矩阵。每个变换矩阵包含六个自由度,对应摄像头的空间旋转和平移。通过步骤2中的景深图像和Pose-CNN网络输出的矩阵重建图像,作为网络的监督信号。
左、右序列图像的重建过程类似,以左序列图像为例,令{I1,I2,I3}表示左序列图像,其中I2为目标图像,I1和I3为参考图像。我们的目的是通过Depth-CNN输出的以上三幅图像对应的景深图和Pose-CNN输出的I1和I3到I2的变化矩阵重建目标图像I2,再与原输入目标图形I2对比构造损失函数。其构造原理为:
Is1→t(pt)=It(KTs1→tDs1(ps1)K-1ps1) (8)
Is2→t(pt)=It(KTs2→tDs2(ps2)K-1ps2) (9)
其中,ps1和ps2分别指参考图像I1和I3中的像素,Dss(ps1)和Ds2(ps2)分别指步骤2中得到的参考图像中像素对应的深度值,Ts1→t和Ts2→t分别指Pose-CNN输出的参考图像I1和I3到目标图像I2的变换矩阵。Is1→t(pt)和Is2→t(pt)分别指尺度s下通过参考图像重建的目标图像。
类似步骤2的图像差异函数构造,这里针对序列图像设计损失项作为监督信号:
Figure BDA0002013789720000062
其中,β是参数值,在本实施例中β=0.85。
与步骤2类似,利用图像边缘信息构造损失项:
Figure BDA0002013789720000063
由式(10)(11)可得在尺度s下,左序列图像对应的损失项为:
Figure BDA0002013789720000064
同理可得在尺度s下,右序列图像对应的损失项为:
Figure BDA0002013789720000065
因此,有式(12)(13)的针对序列图像,总的损失函数为:
Figure BDA0002013789720000066
所构造的目标函数针对四个尺度分别求设计,最后求和。
步骤4:目标函数构造。
在网络的训练过程中,Depth-CNN和Pose-CNN是同时训练的,以上两部分的损失项作为最终损失函数的一部分全部参与网络的反馈传播过程,如图4所示。最终的目标函数由Depth-CNN和Pose-CNN两部分的损失函数项组成,如式(15)所示:
Lossfinal=λ1depth_loss+λ2pose_loss (15)
其中,λ1表示景深估计卷积神经网络损失函数的权值,λ2表示相机姿态估计卷积神经网络损失函数的权值,在本实施例中,λ1=1.0,λ2=0.8,该目标函数同时考虑了立体图像对和序列图像对图像重建过程的几何约束条件。
景深估计卷积神经网络的损失函数为:
Figure BDA0002013789720000071
相机姿态估计卷积神经网络的损失函数为:
Figure BDA0002013789720000081
其中,α表示在景深估计卷积神经网络中,衡量图像表面重建结果与正则项重要性的权值;β表示在相机姿态估计卷积神经网络中,衡量图像表面重建结果与正则项重要性的权值;s表示图像尺度;T表示图像的转置;||·||1表示L1范数;SSIM()是衡量图像表面结构化差异的函数;i和j分别表示图像中像素点的横坐标和纵坐标;N表示像素点的总数;
Figure BDA0002013789720000082
表示输入立体图像对中的左图,
Figure BDA0002013789720000083
表示输入体力图像对中的右图;
Figure BDA0002013789720000084
Figure BDA0002013789720000085
分别表示由景深估计卷积神经网络生成的左视差图和右视差图;
Figure BDA0002013789720000086
表示以
Figure BDA0002013789720000087
Figure BDA0002013789720000088
为输入,利用双目相机几何原理重建的左图;
Figure BDA0002013789720000089
表示以
Figure BDA00020137897200000810
Figure BDA00020137897200000811
为输入,利用双目相机几何原理重建的右图;
Figure BDA00020137897200000812
Figure BDA00020137897200000813
分别表示左摄像头和右摄像头对应的输入序列图像中的目标图像;
Figure BDA00020137897200000814
Figure BDA00020137897200000815
分别表示在左、右输入序列图像中,以参考图像、参考图像对应的深度图像,相机姿态变化矩阵为输入,结合相机参数矩阵获取的左目标图像和右目标图像重建结果;
Figure BDA00020137897200000816
分别表示左视差图在横坐标、纵坐标方向的梯度图像;
Figure BDA00020137897200000817
分别表示右视差图在横坐标、纵坐标方向的梯度图像;
Figure BDA00020137897200000818
分别表示左输入图像在横坐标、纵坐标方向的梯度图像;
Figure BDA00020137897200000819
分别表示右输入图像在横坐标、纵坐标方向的梯度图像;
Figure BDA00020137897200000820
表示深度图像的提取图,
Figure BDA00020137897200000821
分别表示左、右输入图像的梯度图像;pt表示像素点在图像中的坐标;n→t表示两幅参考图像到目标图像的变换。
步骤5:深度神经网络训练。
通过步骤2-4完成深度卷积神经网络搭建和目标函数设计之后,进入网络训练过程。选取KITTI数据集中全部数据共计约180GB,经过预处理后可得22600对立体图像对,每次输入三组立体图像对进入网络用于训练网络参数,参数数量大约为6500万个。这里我们设置网络一共迭代300000次,最终获取计算模型用于实际测试过程。
步骤6:实际测试。
完成深度神经网络的设计以及网络参数的计算,在实际使用过程中使用单目图像作为输入数据,直接获取图像对应的场景景深图像。
步骤5完成之后,固定网络参数值和网络结构,此时直接输入单目图像,网络可以直接输出对应的景深图像,且速度达到35ms每幅图像,达到了处理视频数据的要求。由此建立了2D图像到三维空间感知之间的对应关系。
本发明的效果由以下仿真结果进一步说明。
1.仿真条件
(1)选取KITTI数据集中的任意一副图像,转化256×512的RGB图像。
(3)实验参数设置:λ1=1.0,λ2=0.8,α=0.85,β=0.85
2.仿真内容与结果
仿真内容:利用256×512的RGB图像作为输入,使用统一的误差评价标准对比两种经典的算法结果。误差评价结果如下:
·绝对差值(Abs Rel):
Figure BDA0002013789720000091
·均方误差(Sq Rel):
Figure BDA0002013789720000092
·均方根误差(RMSE):
Figure BDA0002013789720000093
·对数均方根误差(RMSE log10):
Figure BDA0002013789720000094
·阈值:%of
Figure BDA0002013789720000095
其中,N是像素数量,y是景深预测值,y*是景深真实值。
实验结果:
实验结果如表1所示,本发明在David Eigen提出的有监督算法和Zhou Tinghui提出的无监督算法相比,精确度上升,在实时性和精度上满足无人驾驶汽车和室外无人自主机器人导航的应用要求。
表1
方法 Abs Rel Sq Rel RMSE RMSE log10 阈值
DavidEigen 0.214 1.605 6.563 0.292 0.957
ZhouTinghui 0.208 1.768 6.856 0.283 0.957
本发明 0.151 1.325 5.653 0.231 0.975
表1中的评价指标绝对差值(Abs Rel),均方误差(Sq Rel),均方根误差(RMSE)和对数均方根误差(RMSE log10)表示算法误差值,用于衡量算法的精度,误差值越小表示精度越高。阈值表示景深预测值与真实值的接近程度,阈值越高表明算法稳定性越好。实验结果表明本发明在精度上明显超过以上两种方法。考虑到David Eigen的算法为有监督算法,因此我们只对比本发明与Zhou Tinghui算法的试验结果,如图5(a)-(c)所示。试验结果表明本发明在目标图像细节检测上明显优于Zhou Tinghui的方法。
神经网络训练过程中,激活函数的选择对结果影响较大,几乎所有的方法都使用线性修正单元(Relu)作为激活函数。本发明经过多次试验,选择指数修正单元(Elu)作为激活函数,实验结果如表2所示,使用指数修正单元作为激活函数,其结果明显优于使用线性修正单元作为激活函数的结果。在本实施例中,指数线性修正单元
Figure BDA0002013789720000101
作为激活函数。
表2
激活函数 Abs Rel Sq Rel RMSE RMSE log10 阈值
Relu 0.204 2.078 7.004 0.343 0.922
Elu 0.151 1.325 5.653 0.231 0.975
针对当前无人驾驶及室外无人机器人自主导航中的三维空间感知问题,及采用激光雷达带来的高昂成本问题,本发明提供一种低成本的适用于无人驾驶及无人机器人自主导航的场景景深实时计算方法。该方法使用单目摄像机作为传感器,通过线下训练的深度卷积神经网络直接计算场景景深,是一个从输入图像到场景景深图像的端到端方法。该方法具有实时性、高精确性等特点,仅仅依托低成本图像传感器解决了三维场景感知中的景深计算问题,为无人驾驶及无人机器人自主导航技术提供了一种经济可靠的场景景深实时计算方法。
需要说明的是,尽管以上本发明所述的实施例是说明性的,但这并非是对本发明的限制,因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下,凡是本领域技术人员在本发明的启示下获得的其它实施方式,均视为在本发明的保护之内。

Claims (2)

1.基于无监督深度学习的单目图像景深实时计算方法,其特征是,包括步骤如下:
步骤1、使用无人驾驶数据集KITTI中的双目序列图像作为输入数据,并通过数据预处理将双目序列图像分类为两种类型,即用于景深估计卷积神经网络的立体图像对和用于相机姿态估计卷积神经网络的序列图像;
步骤2、基于残差网络建立景深估计卷积神经网络,构造一个端到端***,以立体图像对作为输入,输出对应的景深估计图像,设计景深估计卷积神经网络对应的损失函数用于反馈传播;
步骤3、基于卷积神经网络模块建立相机姿态估计卷积神经网络,构造一个端到端***,以序列图像和景深估计图像作为输入,输出序列图像之间的姿态变化矩阵,设计相机姿态估计卷积神经网络对应的损失函数用于反馈传播;
步骤4、基于步骤2所设计的景深估计卷积神经网络对应的损失函数和步骤3所设计的相机姿态估计卷积神经网络对应的损失函数,构造目标函数;其中所构造的目标函数为:
Lossfinal=λ1depth_loss+λ2pose_loss
Figure FDA0002660258710000011
Figure FDA0002660258710000021
其中,λ1表示景深估计卷积神经网络损失函数的权值,λ2表示相机姿态估计卷积神经网络损失函数的权值,depth_loss表示景深估计卷积神经网络的损失函数,pose_loss表示相机姿态估计卷积神经网络的损失函数;α表示在景深估计卷积神经网络中,衡量图像表面重建结果与正则项重要性的权值;β表示在相机姿态估计卷积神经网络中,衡量图像表面重建结果与正则项重要性的权值;s表示图像尺度;N表示像素点的总数;||·||1表示L1范数;T表示图像的转置;SSIM()是衡量图像表面结构化差异的函数;Il和Ir分别表示立体图像的左图和右图;
Figure FDA0002660258710000022
Figure FDA0002660258710000023
分别表示利用双目相机几何原理重建的立体图像的左图和右图;dl和dr分别表示由景深估计卷积神经网络生成的左视差图和右视差图;
Figure FDA0002660258710000024
Figure FDA0002660258710000025
分别表示左视差图在横坐标和纵坐标方向的梯度图像;
Figure FDA0002660258710000026
Figure FDA0002660258710000027
分别表示右视差图在横坐标和纵坐标方向的梯度图像;
Figure FDA0002660258710000028
Figure FDA0002660258710000029
分别表示立体图像的左图在横坐标和纵坐标方向的梯度图像;
Figure FDA00026602587100000210
Figure FDA00026602587100000211
分别表示立体图像的右图在横坐标和纵坐标方向的梯度图像;
Figure FDA00026602587100000212
Figure FDA00026602587100000213
分别表示序列图像的左图和右图;
Figure FDA00026602587100000214
Figure FDA00026602587100000215
分别表示s尺度下序列图像中的参考图像所对应的目标图像的左图和右图;
Figure FDA00026602587100000216
表示深度图像的梯度图,
Figure FDA00026602587100000217
Figure FDA00026602587100000218
分别表示序列图像的左图和右图的梯度图像;
步骤5、基于步骤2的景深估计卷积神经网络和步骤3的相机姿态估计卷积神经网络完成深度神经网络的搭建,并基于步骤4完成目标函数的设计后,利用步骤1所得无人驾驶数据集KITTI中全部数据对深度神经网络中的景深估计卷积神经网络和相机姿态估计卷积神经网络进行同时训练,以固定深度神经网络的网络参数值和网络结构,得到最终的计算模型;
步骤6、将摄像头实际所得到的单目图像输入到步骤5所得到的计算模型中,则计算模型的输出即为图像对应的场景景深图像。
2.根据权利要求1所述的基于无监督深度学习的单目图像景深实时计算方法,其特征是,步骤1中,针对景深估计卷积神经网络,从双目序列图像中提取对应立体图像对,作为训练数据集的一个输入数据;针对相机姿态估计卷积神经网络,从双目序列图像的两个序列图像中,每个序列图像分别提取三幅连续图像,其中第二幅图像作为目标图像,第一和第三幅图像作为参考图像,以这两个序列图像作为训练数据集的一个输入数据。
CN201910256117.9A 2019-04-01 2019-04-01 基于无监督深度学习的单目图像景深实时计算方法 Active CN110009674B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910256117.9A CN110009674B (zh) 2019-04-01 2019-04-01 基于无监督深度学习的单目图像景深实时计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910256117.9A CN110009674B (zh) 2019-04-01 2019-04-01 基于无监督深度学习的单目图像景深实时计算方法

Publications (2)

Publication Number Publication Date
CN110009674A CN110009674A (zh) 2019-07-12
CN110009674B true CN110009674B (zh) 2021-04-13

Family

ID=67169169

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910256117.9A Active CN110009674B (zh) 2019-04-01 2019-04-01 基于无监督深度学习的单目图像景深实时计算方法

Country Status (1)

Country Link
CN (1) CN110009674B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112258565B (zh) * 2019-07-22 2023-03-28 华为技术有限公司 图像处理方法以及装置
CN110503680B (zh) * 2019-08-29 2023-08-18 大连海事大学 一种基于非监督的卷积神经网络单目场景深度估计方法
CN110751100A (zh) * 2019-10-22 2020-02-04 北京理工大学 一种体育场馆辅助训练方法与***
CN111311664B (zh) * 2020-03-03 2023-04-21 上海交通大学 一种深度、位姿与场景流的联合无监督估计方法及***
CN113393510B (zh) * 2020-03-12 2023-05-12 武汉Tcl集团工业研究院有限公司 一种图像处理方法、智能终端及存储介质
CN111583345B (zh) * 2020-05-09 2022-09-27 吉林大学 一种相机参数的获取方法、装置、设备及存储介质
CN111753961B (zh) 2020-06-26 2023-07-28 北京百度网讯科技有限公司 模型训练方法和装置、预测方法和装置
CN112150531B (zh) * 2020-09-29 2022-12-09 西北工业大学 一种鲁棒的自监督学习单帧图像深度估计方法
CN112561947A (zh) * 2020-12-10 2021-03-26 中国科学院深圳先进技术研究院 一种图像自适应运动估计方法及应用
CN113763474B (zh) * 2021-09-16 2024-04-09 上海交通大学 一种基于场景几何约束的室内单目深度估算方法
CN114332187B (zh) * 2022-03-09 2022-06-14 深圳安智杰科技有限公司 单目目标测距方法及装置
CN114967121B (zh) * 2022-05-13 2023-02-03 哈尔滨工业大学 一种端到端的单透镜成像***设计方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106210450A (zh) * 2016-07-20 2016-12-07 罗轶 基于slam的影视人工智能
CN109377530A (zh) * 2018-11-30 2019-02-22 天津大学 一种基于深度神经网络的双目深度估计方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107204010B (zh) * 2017-04-28 2019-11-19 中国科学院计算技术研究所 一种单目图像深度估计方法与***
CN108961327B (zh) * 2018-05-22 2021-03-30 深圳市商汤科技有限公司 一种单目深度估计方法及其装置、设备和存储介质
CN109063746A (zh) * 2018-07-14 2018-12-21 深圳市唯特视科技有限公司 一种基于深度无监督学习的视觉相似性学习方法
CN109472830A (zh) * 2018-09-28 2019-03-15 中山大学 一种基于无监督学习的单目视觉定位方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106210450A (zh) * 2016-07-20 2016-12-07 罗轶 基于slam的影视人工智能
CN109377530A (zh) * 2018-11-30 2019-02-22 天津大学 一种基于深度神经网络的双目深度估计方法

Also Published As

Publication number Publication date
CN110009674A (zh) 2019-07-12

Similar Documents

Publication Publication Date Title
CN110009674B (zh) 基于无监督深度学习的单目图像景深实时计算方法
CN108416840B (zh) 一种基于单目相机的三维场景稠密重建方法
CN111325797B (zh) 一种基于自监督学习的位姿估计方法
CN108921926B (zh) 一种基于单张图像的端到端三维人脸重建方法
CN111862126B (zh) 深度学习与几何算法结合的非合作目标相对位姿估计方法
CN110853075B (zh) 一种基于稠密点云与合成视图的视觉跟踪定位方法
CN110675423A (zh) 一种基于孪生神经网络和注意力模型的无人机跟踪方法
CN110689562A (zh) 一种基于生成对抗网络的轨迹回环检测优化方法
CN112150521B (zh) 一种基于PSMNet优化的图像立体匹配方法
CN113160375B (zh) 一种基于多任务学习算法的三维重建及相机位姿估计方法
CN108171249B (zh) 一种基于rgbd数据的局部描述子学习方法
CN113962858A (zh) 一种多视角深度获取方法
CN114359509A (zh) 一种基于深度学习的多视图自然场景重建方法
CN113313732A (zh) 一种基于自监督学习的前视场景深度估计方法
CN112767467B (zh) 一种基于自监督深度学习的双图深度估计方法
CN113762358A (zh) 一种基于相对深度训练的半监督学习三维重建方法
CN113570658A (zh) 基于深度卷积网络的单目视频深度估计方法
CN114299405A (zh) 一种无人机图像实时目标检测方法
CN114996814A (zh) 一种基于深度学习与三维重建的家具设计***
CN116958420A (zh) 一种数字人教师三维人脸的高精度建模方法
CN115984349A (zh) 一种基于中心像素梯度融合和全局代价聚合的深度立体匹配算法
CN116772820A (zh) 一种基于slam和语义分割的局部细化建图***及方法
CN115375838A (zh) 一种基于无人机的双目灰度图像的三维重建方法
CN114663880A (zh) 基于多层级跨模态自注意力机制的三维目标检测方法
Jia et al. Depth measurement based on a convolutional neural network and structured light

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant