CN113570658A

CN113570658A - 基于深度卷积网络的单目视频深度估计方法

Info

Publication number: CN113570658A
Application number: CN202110648477.0A
Authority: CN
Inventors: 陈渤; 曾泽群
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2021-10-29

Abstract

本发明属于视频处理技术领域，公开了一种基于深度卷积网络的单目视频深度估计方法，包括步骤：获取训练数据和待测试单目视频；构建深度估计网络模型，包含深度预测子网络和相机位姿估计子网络，解码器包含上采样模块和密集空洞金字塔模块；利用训练数据对深度预测子网络和相机位姿估计子网络进行联合训练，采用损失函数对两个子网络的网络参数进行迭代更新；估计待测试单目视频的深度图。本发明利用更多的原图空间信息，有效的提高了深度预测的精度。

Description

基于深度卷积网络的单目视频深度估计方法

技术领域

本发明属于视频处理技术领域，更进一步涉及基于深度卷积网络的单目视频深度估计方法，可用于三维重建、机器人导航和自动驾驶。

背景技术

深度估计在许多任务中有着不可或缺的地位，如在三维重建，自动驾驶，机器人导航等重要领域。双目深度估计算法通过模拟人眼，用立体摄像机或者多个摄像机所拍不同视角的图片之间的视差来进行深度估计，是现在最为常见的深度估计算法。然而，双目深度估计算法存在着大量问题，如计算复杂度高，双目图片获取难度大，低纹理区域匹配较难等等。单视角图片获取难度往往比多视角图片要低。单目深度估计算法从单摄像头所拍的图片或者视频中获取深度，能极大的降低成本和数据获取难度。

此外，在深度估计问题中，深度真值的获取成本非常高，通常通过光传感器(室内)和激光雷达(室外)获取深度信息来给图像做标注。基于视频序列的无监督深度估计方法将视频序列的深度预测问题视为相邻帧之间图像合成过程的中间过程，所以不需要深度真值进行训练。

Zhou.T.H，Brown.M，Snavely.N，Lowe.D等人发表的论文“Unsupervised Learningof Depth and Ego-Motion from Video”(The IEEE Conference on Computer Visionand Pattern Recognition，2017)公开了一种基于深度学习的无监督视频深度估计算法。此算法无需深度真值，基于视频序列之间的多角度匹配关系预测深度，在考虑了前有工作的输出尺度不一致性的问题后，提出了几何一致性约束，并在此基础上提出了一个自发现的掩码模块，解决了输出深度图帧与帧之间尺度不一致的问题，并且在深度预测上有较高的精度。

但是仍然存在的不足之处是：该方法所用的网络没有充分的利用到多尺度的特征融合信息，来提高深度预测的精度。骨干网络的特征重用效果有限，不能充分的提取图像特征。

发明内容

针对现有技术存在的问题，本发明的目的在于提供一种基于深度卷积网络的单目视频深度估计方法及***，利用深层卷积网络结构，提高最终得到的深度图的精确度。

为了达到上述目的，本发明采用以下技术方案予以实现。

基于深度卷积网络的单目视频深度估计方法，包括以下步骤：

步骤1，获取训练数据和待测试单目视频；

其中，训练数据包含RGB光学视频序列I＝{I_t，0≤t≤T，t∈Z}和对应的深度真值图序列D＝{D_t，0≤t≤T，t∈Z}，Z表示时间集合，I_t代表t时刻的RGB图像，D_t代表t时刻的深度真值图像；

步骤2，构建深度估计网络模型，所述深度估计网络模型包含深度预测子网络和相机位姿估计子网络，所述深度预测子网络为自编码网络，包含编码器和解码器，所述编码器为密集连接的深度卷积网络，所述解码器包含上采样模块和密集空洞金字塔模块；所述相机位姿估计子网络为深层卷积神经网络；

步骤3，利用训练数据对深度预测子网络和相机位姿估计子网络进行联合训练，采用损失函数对两个子网络的网络参数进行迭代更新，得到训练好的深度预测子网络；

其中，所述损失函数包含图像重构误差L_p、尺度一致性误差L_GC和光滑项误差L_s；

步骤4，将待测试单目视频输入训练好的深度预测子网络，输出归一化后的深度预测图；根据实际物理尺度，对输出的归一化深度图进行校准，得到最终的预测深度图。

与现有技术相比，本发明的有益效果为：

本发明由于构建的深度预测子网络具有密集连接的深层结构和多尺度金字塔特征融合模块，可以提取更多的图像信息，克服了现有技术中仅仅只用跳级连接利用多尺度信息进行深度预测的缺陷，以及特征提取网络无法进行特征重用的不足，使得本发明所利用的原图空间信息更多，有效的提高了深度预测的精度。

附图说明

下面结合附图和具体实施例对本发明做进一步详细说明。

图1是本发明的实现流程图；

图2是本发明的深度卷积网络结构图；

图3是本发明实施例中输入的相邻帧RGB图像；

图4是采用本发明得到的相邻帧图像的输出深度图；

图5是本发明的图像重构过程示意图。

具体实施方式

下面将结合实施例对本发明的实施方案进行详细描述，但是本领域的技术人员将会理解，下列实施例仅用于说明本发明，而不应视为限制本发明的范围。

参考图1，本发明提供的一种基于深度卷积网络的单目视频深度估计方法，包括以下步骤：

步骤1，获取训练数据和待测试单目视频；

本实施例从KITTI数据集中RGB图像序列和3D激光雷达点云数据随机划分为训练集和测试集。测试集内样本相当于待测试单目视频。

在训练集中随机采样获取相邻两帧t时刻和t-1时刻的RGB图像I_t，I_t-1，再利用3D激光雷达点云数据恢复的对应t时刻和t-1时刻的深度真值图D_t，D_t-1。

具体地，深度估计网络模型的结构如图2所示：

所述深度预测子网络为自编码网络，所述编码器为密集连接的深度卷积网络DenseNet；解码器的主体为图像上采样，加上额外引入的密集空洞金字塔模块DenseASPP来进行多尺度特征融合。相邻两帧的RGB图像I_t，I_t-1作为深度预测子网路输入，如图3所示，其网络输出为对应的深度预测图

如图4所示，其中I_t和

的下标t代表着t时刻，

的上标代表这是深度预测网络预测的结果，与传感器所得到的深度真值D_t做区分。

所述相机位姿预测子网络为深层卷积网路，该网络的输入为相邻两帧的RGB图像I_t，I_t-1，输出为从t时刻到t-1时刻的相机运动矩阵T_t→_t-1。

(3.1)从均值为0、方差为0.01的高斯分布中随机采样，将随机采样的数组作为深度估计网络模型的初始化参数；

(3.2)将相邻两帧的RGB图像I_t，I_t-1分别输入深度预测子网络和相机姿态预测子网络，然后分别计算每个子网络的掩模权重、尺度一致性误差、图像重构误差和光滑正则项误差；

(3.3)通过最小化整体误差联合训练深度预测子网络和相机姿态估计子网络，使得深度预测子网络能够输出高精度的深度图；

(3.4)利用批量随机梯度下降方法，对(3.3)得到的深度预测子网络和相机位姿估计子网络中的所有参数进行迭代更新，直至模型收敛，完成网络模型的优化。

损失函数主要包括图像重构误差L_p，尺度一致性误差L_GC，光滑项误差L_s。图像重构过程中，相邻帧之间的运动物体，遮挡区域或者是其他难以解释的复杂的像素点往往会造成图像重构性能差。所以需要先将这些部分的像素点检测出来，然后给予这些像素点较低的权重，这一步将复杂像素点检测出来的步骤称之为掩模(mask)模块，具体实施流程如(3.2a)所示。

(3.2a)t时刻深度预测子网络的输出图

和相机位姿估计子网络的输出t时刻到t-1时刻的相机运动矩阵T_t→_t-1，可以重构出t-1时刻相机视角下的深度图

然后将

和t-1时刻深度预测子网络的输出

做归一化差值，得到基于像素点p的深度预测误差D_diff(p)如下：

上式中，p代表着某个像素。D_diff(p)是属于[0，1]之间的值，其中，运动物体，遮挡区域或者是其他难以解释的像素点D_diff(p)越大接近于1，而不属于这些像素点的D_diff(p)越小越接近于0，为了给予D_diff(p)值大的像素点较低的权重，基于像素点p的掩模权重M(p)计算如下式：

M(p)＝1-D_diff(p)

这个权重将应用到(3.3)中的尺度图像重构误差中去

(3.2b)对整张图的像素深度预测误差D_diff(p)取均值就得到了尺度一致性误差：

其中V为整张图片的有效像素集合，Num(V)代表着有效像素的个数。

(3.2c)如图5所示，图像重构过程如下所示，结合t时刻的RGB图像I_t，预测的深度图

相机运动矩阵T_t→t-1，可以重构出t-1时刻的RGB图像

图像重构误差除了灰度值误差，还引入了结构相似性误差SSIM，在结合(3a)中得到的掩模权重M(p)，图像重构误差公式如下：

其中λ_i＝0.15，λ_s＝0.85分别为对应误差的权重参数，上式中加号左边为图像重构的绝对值误差，右边SSIM(p)为t-1时刻两张图的结构相似性误差。

其中，SSIM(Structural Similarity)，结构相似性，是一种衡量两幅图像相似度的指标。该指标首先由德州大学奥斯丁分校的图像和视频工程实验室(Laboratory forImage and Video Engineering)提出。

给定两个图像x和y，两张图像的结构相似性可按照以下方式求出：

其中μ_x是x的平均值，μ_y是y的平均值，

是x的方差，

是y的方差，σ_xy是x和y的协方差。c₁＝(k₁L)，c₂＝(k₂L)是用来维持稳定的常数。L是像素值的动态范围。k₁＝0.01，k2＝0.03。两张图片越相似，SSIM值越接近于1。

(3.2d)为了解决噪声和低纹理区域梯度消失的问题，引入了光滑项误差，光滑项误差如下所示：

其中，

为输入RGB图像中在像素点p处的梯度，

是深度图中像素点p的梯度。

将图像重构误差L_p，尺度一致性误差L_GC，光滑项误差L_s取加权和，整体损失函数如下所示：

L＝aL_p+βL_s+γL_GC

其中α＝1.0，β＝0.1，γ＝0.5。α、β、γ分别表示对应误差的权重，其取值在[0，1]之间。

通过最小化损失函数即整体误差L对网络模型进行训练优化。

(4.1)将测试样本的单张RGB图片输入深度预测子网络，输出对应归一化后的深度图。

(4.2)根据实际物理尺度对输出的归一化后的深度图进行校准，得到最终的预测深度图。

仿真实验

以下通过仿真实验验证本发明的有效性

1.仿真条件：

本发明的仿真试验是在GPU为Tesla P4的linux操作环境下进行的。图片划分，训练集：5240张图片，验证集：2070张图片，测试集200张图片。

2.仿真内容：

仿真1，用本发明对来自于KITTI图像集的图3所示RGB图像进行深度预测，得到预测深度图，如图4所示。从图4可见本发明能够从单张图片恢复出深度图。

仿真2，用本发明的方法和现有基于视频的无监督单目深度估计算法SC-sfmlearner对KITTI图像集进行深度预测实验，并将预测结果的相对平方误差SqRel，均方根误差RMSE，均方根对数误差RMSE_log作为比较标准，比较两种方法进行单目视频深度估计的精度，其中SqRel，RMSE，RMSE_log的值越低，表明深度预测的精度越高，实验结果如表1：

表1本发明方法和传统SC-sfmlearner的预测精度对比

估计方法	SqRel	RMSE	RMSE_log
				SC-sfmlearner	0.1834	6.8903	0.2630
本发明	0.1751	6.4451	0.2496

从表1结果可见：与现有的SC-sfmlearner图像深度预测方法相比，本发明预测的相对平方误差SqRel，均方根误差RMSE，均方根对数误差RMSE_log更小，表示本发明提出方法的有效性，本发明能够改进现有方法的不足，提高深度预测的精度。

虽然，本说明书中已经用一般性说明及具体实施方案对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。