CN110009674B

CN110009674B - 基于无监督深度学习的单目图像景深实时计算方法

Info

Publication number: CN110009674B
Application number: CN201910256117.9A
Authority: CN
Inventors: 仲训昱; 杨德龙; 殷昕; 彭侠夫; 邹朝圣
Original assignee: Xiamen Winjoin Technology Co ltd; Xiamen University
Current assignee: Xiamen Winjoin Technology Co ltd; Xiamen University
Priority date: 2019-04-01
Filing date: 2019-04-01
Publication date: 2021-04-13
Anticipated expiration: 2039-04-01
Also published as: CN110009674A

Abstract

本发明公开一种基于无监督深度学习的单目图像景深实时计算方法，利用双目序列图像之间的几何约束关系构造监督信号，取代传统的人工标记数据集，完成了无监督算法设计；在Depth‑CNN网络中的，损失函数除了考虑图像之间的几何约束，还设计了针对左右图像的景深估计结果一致性约束项，提高算法精确度；以Depth‑CNN的输出作为Pose‑CNN输入的一部分，构造整体的目标函数，同时使用双目图像之间的几何关系和序列图像之间的几何关系构造监督信号，进一步提高的算法的精确度以及鲁棒性。

Description

基于无监督深度学习的单目图像景深实时计算方法

技术领域

本发明涉及人工智能技术领域，具体涉及一种基于无监督深度学习的单目图像景深实时计算方法。

背景技术

摄像机由于其低廉的采购价格，实时获取场景完整信息等特点，被广泛应用于服务机器人、自主导航机器人以及无人驾驶汽车的场景感知技术研究中。随着高性能计算设备的发展，使用深度神经网络分析2D图像信息的人工智能技术在无人驾驶以及机器人导航等领域日益发挥着不可替代的作用。其中基于单目图像的场景景深实时计算问题是三维场景感知技术的前提。DavidEigen在2014年首先使用深度神经网络计算2D图像所对应的场景景深，建立了2D到3D的映射关系。

目前，基于单目图像的场景景深计算算法主要分为有监督算法和无监督算法两类。有监督算法需要大量带有人工标记的数据，在文献“D.Eigen,C.Puhrsch,andR.Fergus.Depth map prediction from a single image using a multi-scale deepnetwork.In NIPS,2014.”中，David Eigen提出了使用两个深度卷积神经网络分步骤对图像进行粗估计和精细估计的方法获取场景景深。但是此类人工标记数据多依靠激光扫描仪，采集成本高，且不易获取，使用范围有限。无监督算法仅仅使用针对场景的场景图像作为训练集，应用广泛，在文献“T.Zhou,M.Brown,N.Snavely,and D.G.Lowe.Unsupervisedlearning of depth and ego motion from video.In CVPR,2017.”中，Zhou Tinghui等人使用序列图像作为输入，不需要人工标记即可直接计算场景景深。但是由于深度神经网络仅仅通过大量图像分析场景信息，获取场景景深，精确度无法达到指定要求。

通过对以上问题的分析发现：它们或者需要大量人工标记图像作为训练数据集，或者无法完成精确计算的要求，在细节上存在不同程度的丢失。高精度实时景深计算结果在基于图像的无人驾驶应用场景中具有重要意义，因此，需要开发一种无监督的无人驾驶场景景深实时计算方法。

发明内容

本发明针对室外无人驾驶汽车或无人自主机器人中的三维场景感知问题，人工标记数据集不容易大量获取以及应用场景有限等问题，提供一种基于无监督深度学习的单目图像景深实时计算方法，其仅仅使用无人标记图像作为训练数据集，完成精确、快速估计场景景深的方法。

为解决上述问题，本发明是通过以下技术方案实现的：

基于无监督深度学习的单目图像景深实时计算方法，包括步骤如下：

步骤1、使用无人驾驶数据集KITTI中的双目序列图像作为输入数据，并通过数据预处理将双目序列图像分类为两种类型，即用于景深估计卷积神经网络的立体图像对和用于相机姿态估计卷积神经网络的序列图像；

步骤2、基于残差网络建立景深估计卷积神经网络，构造一个端到端***，以立体图像对作为输入，输出对应的景深估计图像，设计景深估计卷积神经网络对应的损失函数用于反馈传播；

步骤3、基于卷积神经网络模块建立相机姿态估计卷积神经网络，构造一个端到端***，以序列图像和景深估计图像作为输入，输出序列图像之间的姿态变化矩阵，设计相机姿态估计卷积神经网络对应的损失函数用于反馈传播；

步骤4、基于步骤2所设计的景深估计卷积神经网络对应的损失函数和步骤3所设计的相机姿态估计卷积神经网络对应的损失函数，构造目标函数；

步骤5、基于步骤2的景深估计卷积神经网络和步骤3的相机姿态估计卷积神经网络完成深度神经网络的搭建，并基于步骤4完成目标函数的设计后，利用步骤1所得无人驾驶数据集KITTI中全部数据对深度神经网络中的景深估计卷积神经网络和相机姿态估计卷积神经网络进行同时训练，以固定深度神经网络的网络参数值和网络结构，得到最终的计算模型；

步骤6、将摄像头实际所得到的单目图像输入到步骤5所得到的计算模型中，则计算模型的输出即为图像对应的场景景深图像。

上述步骤4中，所构造的目标函数为：

Loss_final＝λ₁depth_loss+λ₂pose_loss

其中，λ₁表示景深估计卷积神经网络损失函数的权值，λ₂表示相机姿态估计卷积神经网络损失函数的权值，depth_loss表示景深估计卷积神经网络的损失函数，pose_loss表示相机姿态估计卷积神经网络的损失函数；α表示在景深估计卷积神经网络中，衡量图像表面重建结果与正则项重要性的权值；β表示在相机姿态估计卷积神经网络中，衡量图像表面重建结果与正则项重要性的权值；s表示图像尺度；N表示像素点的总数；||·||₁表示L1范数；T表示图像的转置；SSIM()是衡量图像表面结构化差异的函数；I^l和I^r分别表示立体图像的左图和右图；

和

分别表示利用双目相机几何原理重建的立体图像的左图和右图；d^l和d^r分别表示由景深估计卷积神经网络生成的左视差图和右视差图；

和

分别表示左视差图在横坐标和纵坐标方向的梯度图像；

和

分别表示右视差图在横坐标和纵坐标方向的梯度图像；

和

分别表示立体图像的左图在横坐标和纵坐标方向的梯度图像；

和

分别表示立体图像的右图在横坐标和纵坐标方向的梯度图像；

和

分别表示序列图像的左图和右图；

和

分别表示s尺度下序列图像中的参考图像所对应的目标图像的左图和右图；

表示深度图像的梯度图，

和

分别表示序列图像的左图和右图的梯度图像。

上述步骤1中，针对景深估计卷积神经网络，从双目序列图像中提取对应立体图像对，作为训练数据集的一个输入数据；针对相机姿态估计卷积神经网络，从双目序列图像的两个序列图像中，每个序列图像分别提取三幅连续图像，其中第二幅图像作为目标图像，第一和第三幅图像作为参考图像，以这两个序列图像作为训练数据集的一个输入数据。

与现有技术相比，本发明具有如下特点：

1、利用双目序列图像之间的几何约束关系构造监督信号，取代传统的人工标记数据集，完成了无监督算法设计。

2、在Depth-CNN网络中的，损失函数除了考虑图像之间的几何约束，还设计了针对左右图像的景深估计结果一致性约束项，提高算法精确度。

3、以Depth-CNN的输出作为Pose-CNN输入的一部分，构造整体的目标函数，同时使用双目图像之间的几何关系和序列图像之间的几何关系构造监督信号，进一步提高的算法的精确度以及鲁棒性。

附图说明

图1为基于无监督深度学习的单目图像景深实时计算方法流程图。

图2是Depth-CNN网络框架图。

图3是Pose-CNN网络框架图。

图4是目标函数构造整体结构图。

图5是算法结果图。

图5(a)是输入的双目序列图像，图5(b)是Zhou Tinghui的算法结果，图5(c)是本发明的算法结果。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实例，并参照附图，对本发明进一步详细说明。

一种基于无监督深度学习的单目图像景深实时计算方法，如图1所示，其具体包括如下步骤：

步骤1：训练数据预处理。

使用无人驾驶数据集KITTI中的双目序列图像作为输入数据，通过数据预处理将所需图像分类为两种类型：(1)用于Depth-CNN网络的立体图像对；(2)用于Pose-CNN网络的序列图像。

对KITTI数据库中的所有数据进行预处理，首先将原始图像转换为大小为256×512、R、G、B三个通道上图像的灰度值在0-1之间图像。根据深度神经网络的不同重新组织数据。针对Depth-CNN，从双目序列图像中提取对应立体图像对，作为训练数据集的一个输入数据。针对Pose-CNN，从双目序列图像的两个序列图像(分别对应左、右摄像头)中，每个序列图像分别提取三幅连续图像，其中第二幅图像作为目标图像，第一和第三幅图像作为参考图像，以这两个序列图像作为训练数据集的一个输入数据。

步骤2：建立Depth-CNN网络(景深估计卷积神经网络)，如图2所示。

基于残差网络建立Depth-CNN网络，构造一个端到端***，以步骤1中所提及的立体图像对作为输入，输出对应的景深估计图像，设计对应的损失函数用于反馈传播。

建立基于残差网络的编码-解码模型，在编码过程中使用卷积核逐次提取输入图像的高维特征，生成多尺度特征图像，在解码过程中使用反卷积核对上层特征图像做反卷积，所生成目标图像尺度和编码过程中的特征图像为一一对应关系。编码解码过程是一个端到端的学习过程，目的是通过网络学习出一个目标函数d＝f(I)，该函数建立一个像素级别的对应关系，获取输入图像每一个像素对应的景深值。

目标函数d＝f(I)的求解过程是一个迭代过程，这里我们使用视差图disp代替景深图像depth进行运算，两者之间的关系为depth(i，j)＝bf/disp(i，j)，其中b和f分别指双目相机对应的基线和焦距，i，j指像素在图像中的坐标。令I^l和I^r是Depth-CNN网络的输入立体图像对，输出为对应的视差图像disp^left和disp^right，

损失函数分为三部分，分别是左图和右图对应的图像重建部分和视差图一致性部分。左图和右图对应的图像重建部分原理一样，以左图重建右图构造损失项为例，将左图I^l输入Depth-CNN中，输出结果为左图对应的视差图像disp^left，由双目相机的几何原理可以得到如下对应关系：

其中，Ω_l知图像像素所属区域，I_l，I_r分别为左、右输入图像，

分别为左、右重建图像。公式(1)建立了由左输入图像和Depth-CNN输出的视差图重建右输入图像的关系式

再对比所重建右图和原输入右图之间的差异，作为深度卷积神经网络的监督信号，即：

其中，α是参数值函数，SSIM()是衡量两幅输入图像结构化差异结果的函数(具体参考论文Wang Z，Boyik A C，Sheikh H R，et al.Image Quality Assessment：From ErrorVisibility to Structural Similarity[J].IEEE Transactions on Image Processing，2004，13(4))。同时考虑到场景景深值在物体边缘区域多出现不连续性，为了保持图像细节信息，利用图像边缘信息构造损失项：

其中，N为图像像素数，x，y表示图像沿横、纵坐标方向求梯度。

由公式(2)(3)可得针对右图的重建损失函数为：

与公式(4)同理可以得出针对左图的重建损失函数为：

这里s为图像尺度，在本实施例中，s＝4，即提取四个尺度的对应图像作为输出结果。

由于左图和右图是由双目摄像机在同一时刻采集，所以左右视差图标量值应一样，利用该原理设计视差一致性损失项，即：

联立公式(4)(5)(6)可得Depth-CNN对应的损失函数为：

depth_loss＝depth_riqht+depth_left+LR_loss_s (7)

步骤3：建立Pose-CNN网络(相机姿态估计卷积神经网络)，如图3所示。

基于卷积神经网络模块建立Pose-CNN网络，构造一个端到端***，以步骤1中所提及的序列图像和步骤2中所提及的景深估计图像作为输入，输出序列图像之间的姿态变化矩阵，设计对应的损失函数用于反馈传播。

建立基于卷积神经网络模块的深度卷积神经网络，该网络使用步骤1中数据预处理结果中的序列图像作为输入，输出为四个变换矩阵，对应左、右序列图像中参考图像到目标图像的变换矩阵。每个变换矩阵包含六个自由度，对应摄像头的空间旋转和平移。通过步骤2中的景深图像和Pose-CNN网络输出的矩阵重建图像，作为网络的监督信号。

左、右序列图像的重建过程类似，以左序列图像为例，令{I₁，I₂，I₃}表示左序列图像，其中I₂为目标图像，I₁和I₃为参考图像。我们的目的是通过Depth-CNN输出的以上三幅图像对应的景深图和Pose-CNN输出的I₁和I₃到I₂的变化矩阵重建目标图像I₂，再与原输入目标图形I₂对比构造损失函数。其构造原理为：

I_s1→t(p_t)＝I_t(KT_s1→tD_s1(p_s1)K^-1p_s1) (8)

I_s2→t(p_t)＝I_t(KT_s2→tD_s2(p_s2)K^-1p_s2) (9)

其中，p_s1和p_s2分别指参考图像I₁和I₃中的像素，D_ss(p_s1)和D_s2(p_s2)分别指步骤2中得到的参考图像中像素对应的深度值，T_s1→t和T_s2→t分别指Pose-CNN输出的参考图像I₁和I₃到目标图像I₂的变换矩阵。I_s1→t(p_t)和I_s2→t(pt)分别指尺度s下通过参考图像重建的目标图像。

类似步骤2的图像差异函数构造，这里针对序列图像设计损失项作为监督信号：

其中，β是参数值，在本实施例中β＝0.85。

与步骤2类似，利用图像边缘信息构造损失项：

由式(10)(11)可得在尺度s下，左序列图像对应的损失项为：

同理可得在尺度s下，右序列图像对应的损失项为：

因此，有式(12)(13)的针对序列图像，总的损失函数为：

所构造的目标函数针对四个尺度分别求设计，最后求和。

步骤4：目标函数构造。

在网络的训练过程中，Depth-CNN和Pose-CNN是同时训练的，以上两部分的损失项作为最终损失函数的一部分全部参与网络的反馈传播过程，如图4所示。最终的目标函数由Depth-CNN和Pose-CNN两部分的损失函数项组成，如式(15)所示：

Loss_final＝λ₁depth_loss+λ₂pose_loss (15)

其中，λ₁表示景深估计卷积神经网络损失函数的权值，λ₂表示相机姿态估计卷积神经网络损失函数的权值，在本实施例中，λ₁＝1.0，λ₂＝0.8，该目标函数同时考虑了立体图像对和序列图像对图像重建过程的几何约束条件。

景深估计卷积神经网络的损失函数为：

相机姿态估计卷积神经网络的损失函数为：

其中，α表示在景深估计卷积神经网络中，衡量图像表面重建结果与正则项重要性的权值；β表示在相机姿态估计卷积神经网络中，衡量图像表面重建结果与正则项重要性的权值；s表示图像尺度；T表示图像的转置；||·||₁表示L1范数；SSIM()是衡量图像表面结构化差异的函数；i和j分别表示图像中像素点的横坐标和纵坐标；N表示像素点的总数；

表示输入立体图像对中的左图，

表示输入体力图像对中的右图；

和

分别表示由景深估计卷积神经网络生成的左视差图和右视差图；

表示以

和

为输入，利用双目相机几何原理重建的左图；

表示以

和

为输入，利用双目相机几何原理重建的右图；

和

分别表示左摄像头和右摄像头对应的输入序列图像中的目标图像；

和

分别表示在左、右输入序列图像中，以参考图像、参考图像对应的深度图像，相机姿态变化矩阵为输入，结合相机参数矩阵获取的左目标图像和右目标图像重建结果；

分别表示左视差图在横坐标、纵坐标方向的梯度图像；

分别表示右视差图在横坐标、纵坐标方向的梯度图像；

分别表示左输入图像在横坐标、纵坐标方向的梯度图像；

分别表示右输入图像在横坐标、纵坐标方向的梯度图像；

表示深度图像的提取图，

分别表示左、右输入图像的梯度图像；p_t表示像素点在图像中的坐标；n→t表示两幅参考图像到目标图像的变换。

步骤5：深度神经网络训练。

通过步骤2-4完成深度卷积神经网络搭建和目标函数设计之后，进入网络训练过程。选取KITTI数据集中全部数据共计约180GB，经过预处理后可得22600对立体图像对，每次输入三组立体图像对进入网络用于训练网络参数，参数数量大约为6500万个。这里我们设置网络一共迭代300000次，最终获取计算模型用于实际测试过程。

步骤6：实际测试。

完成深度神经网络的设计以及网络参数的计算，在实际使用过程中使用单目图像作为输入数据，直接获取图像对应的场景景深图像。

步骤5完成之后，固定网络参数值和网络结构，此时直接输入单目图像，网络可以直接输出对应的景深图像，且速度达到35ms每幅图像，达到了处理视频数据的要求。由此建立了2D图像到三维空间感知之间的对应关系。

本发明的效果由以下仿真结果进一步说明。

1.仿真条件

(1)选取KITTI数据集中的任意一副图像，转化256×512的RGB图像。

(3)实验参数设置：λ₁＝1.0，λ₂＝0.8，α＝0.85，β＝0.85

2.仿真内容与结果

仿真内容：利用256×512的RGB图像作为输入，使用统一的误差评价标准对比两种经典的算法结果。误差评价结果如下：

·绝对差值(Abs Rel)：

·均方误差(Sq Rel)：

·均方根误差(RMSE)：

·对数均方根误差(RMSE log10)：

·阈值：％of

其中，N是像素数量，y是景深预测值，y^*是景深真实值。

实验结果：

实验结果如表1所示，本发明在David Eigen提出的有监督算法和Zhou Tinghui提出的无监督算法相比，精确度上升，在实时性和精度上满足无人驾驶汽车和室外无人自主机器人导航的应用要求。

表1

方法	Abs Rel	Sq Rel	RMSE	RMSE log10	阈值
						DavidEigen	0.214	1.605	6.563	0.292	0.957
ZhouTinghui	0.208	1.768	6.856	0.283	0.957
						本发明	0.151	1.325	5.653	0.231	0.975

表1中的评价指标绝对差值(Abs Rel)，均方误差(Sq Rel)，均方根误差(RMSE)和对数均方根误差(RMSE log10)表示算法误差值，用于衡量算法的精度，误差值越小表示精度越高。阈值表示景深预测值与真实值的接近程度，阈值越高表明算法稳定性越好。实验结果表明本发明在精度上明显超过以上两种方法。考虑到David Eigen的算法为有监督算法，因此我们只对比本发明与Zhou Tinghui算法的试验结果，如图5(a)-(c)所示。试验结果表明本发明在目标图像细节检测上明显优于Zhou Tinghui的方法。

神经网络训练过程中，激活函数的选择对结果影响较大，几乎所有的方法都使用线性修正单元(Relu)作为激活函数。本发明经过多次试验，选择指数修正单元(Elu)作为激活函数，实验结果如表2所示，使用指数修正单元作为激活函数，其结果明显优于使用线性修正单元作为激活函数的结果。在本实施例中，指数线性修正单元

作为激活函数。

表2

激活函数	Abs Rel	Sq Rel	RMSE	RMSE log10	阈值
						Relu	0.204	2.078	7.004	0.343	0.922
Elu	0.151	1.325	5.653	0.231	0.975

针对当前无人驾驶及室外无人机器人自主导航中的三维空间感知问题，及采用激光雷达带来的高昂成本问题，本发明提供一种低成本的适用于无人驾驶及无人机器人自主导航的场景景深实时计算方法。该方法使用单目摄像机作为传感器，通过线下训练的深度卷积神经网络直接计算场景景深，是一个从输入图像到场景景深图像的端到端方法。该方法具有实时性、高精确性等特点，仅仅依托低成本图像传感器解决了三维场景感知中的景深计算问题，为无人驾驶及无人机器人自主导航技术提供了一种经济可靠的场景景深实时计算方法。

需要说明的是，尽管以上本发明所述的实施例是说明性的，但这并非是对本发明的限制，因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下，凡是本领域技术人员在本发明的启示下获得的其它实施方式，均视为在本发明的保护之内。

Claims

1.基于无监督深度学习的单目图像景深实时计算方法，其特征是，包括步骤如下：

步骤4、基于步骤2所设计的景深估计卷积神经网络对应的损失函数和步骤3所设计的相机姿态估计卷积神经网络对应的损失函数，构造目标函数；其中所构造的目标函数为：

Loss_final＝λ₁depth_loss+λ₂pose_loss

和

和

分别表示左视差图在横坐标和纵坐标方向的梯度图像；

和

分别表示右视差图在横坐标和纵坐标方向的梯度图像；

和

和

和

分别表示序列图像的左图和右图；

和

表示深度图像的梯度图，

和

分别表示序列图像的左图和右图的梯度图像；

2.根据权利要求1所述的基于无监督深度学习的单目图像景深实时计算方法，其特征是，步骤1中，针对景深估计卷积神经网络，从双目序列图像中提取对应立体图像对，作为训练数据集的一个输入数据；针对相机姿态估计卷积神经网络，从双目序列图像的两个序列图像中，每个序列图像分别提取三幅连续图像，其中第二幅图像作为目标图像，第一和第三幅图像作为参考图像，以这两个序列图像作为训练数据集的一个输入数据。