CN111325782A

CN111325782A - 一种基于多尺度统一的无监督单目视图深度估计方法

Info

Publication number: CN111325782A
Application number: CN202010099283.5A
Authority: CN
Inventors: 丁萌; 姜欣言; 曹云峰; 李旭; 张振振
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2020-02-18
Filing date: 2020-02-18
Publication date: 2020-06-23

Abstract

本发明属于图像处理技术领域，公开了一种基于多尺度统一的无监督单目视图深度估计方法，包括以下：S1：对输入立体图像对进行金字塔多尺度处理；S2：构建编码解码的网络框架；S3：将在编码阶段提取的特征输送至反向卷积神经网络实现不同尺度输入图像的特征提取；S4：将不同尺度的视差图统一上采样至原输入尺寸；S5：使用输入的原图与对应的视差图进行图像重建；S6：约束图像重建的准确性；S7：采用梯度下降法训练网络模型；S8：根据输入图像与预训练模型拟合对应的视差图。本发明设计无需利用真实深度数据监督网络训练，容易获取的双目图像作为训练样本，大大降低网络训练的获取难度，解决了由低尺度视差图模糊带来的深度图空洞的问题。

Description

一种基于多尺度统一的无监督单目视图深度估计方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于多尺度统一的无监督单目视图深度估计方法。

背景技术

随着科技的发展，信息的***式增长，人们对于图像场景的注意力慢慢由二维向三维转换，物体的三维信息在日常生活中起到了极大的便利，其中，三维信息应用最广泛的莫过于驾驶场景的辅助驾驶***。由于图像中包含丰富的信息，视觉传感器几乎覆盖了驾驶所需的所有相关信息，包括但不限于车道几何形状、交通标志、灯光，物***置和速度等。在所有形式的视觉信息中，深度信息在驾驶辅助***中起着非常重要的作用。例如，防撞***通过计算障碍物与车辆之间的深度信息来发出碰撞警告。当行人与车辆之间的距离过小时，行人保护***将自动采取措施使车辆减速。因此，只有获取到当前车辆与驾驶场景中其他交通参与者之间的深度信息，驾驶辅助***才能准确地获得与外部环境的连接，从而使预警子***能够正常工作。

目前市面上出现了许多可以获取深度信息的传感器，比如Sick公司的激光雷达。激光雷达可以生成稀疏的三维点云数据，但是它的缺点在于成本高昂，且使用场景十分有限，因此人们将目光转向从图像中恢复场景的三维结构信息。

传统的基于图像的深度估计所采用的方法，多是基于拍摄环境假设的几何约束和手工特征，应用较为广泛的方法如从运动中恢复结构，这种方法的优点在于实现的成本低，对拍摄环境要求不高、便于操作，但该方法的缺点是极易受到特征提取与匹配误差的影响，且只能获得较为稀疏的深度数据。

随着卷积神经网络在其他视觉任务上大放异彩，许多研究人员开始探索深度学习方法在单目图像深度估计上的应用。人们利用神经网络的强大学习能力，设计各种模型来充分挖掘原图与深度图之间的联系，从而训练出可以根据输入图像预测场景深度，但是正如上文已经说过，场景的真实深度信息十分难得，也就意味着我们需要脱离场景的真实深度标签，采用无监督的方法来完成深度估计任务。其中一种无监督的方法是使用单目视频的时序信息作为监督信号，但是此类无监督的深度估计方法，由于采用的是运动过程中采集的视频信息，所以相机本身存在运动，图像序列之间相机的相对姿态是未知的，这就导致除了深度估计的网络之外，该方法还需要另外训练一个姿态估计网络，这无疑增加了原本就复杂的深度估计任务的难度。另外，由于单目视频的尺度不确定性，该方法只能得到相对的深度结果，即只能获得图像中各像素之间的相对远近，而无法获得图像中物体到相机的距离。另外，无监督深度估计的方法存在由于低尺度特征图细节模糊而导致得深度图纹理缺失乃至空洞的情况，直接影响了深度估计的精度。

发明内容

本发明的目的是为了解决现有技术的缺点，而提出的一种基于多尺度统一的无监督单目视图深度估计方法。

为了实现上述目的，本发明采用了如下技术方案：

一种基于多尺度统一的无监督单目视图深度估计方法，包括以下步骤：

步骤S1：对输入立体图像对进行金字塔多尺度处理，以此进行多个尺度的特征提取；

步骤S2：构建编码解码的网络框架，获得可用于获取深度图的视差图；

步骤S3：将在编码阶段提取的特征输送至反向卷积神经网络实现不同尺度输入图像的特征提取，在解码阶段拟合不同尺度输入图像的视差图；

步骤S4：将不同尺度的视差图统一上采样至原输入尺寸；

步骤S5：使用输入立体图像原图与对应的视差图进行图像重建；

步骤S6：通过外观匹配损失，左右视差转换损失，以及视差平滑损失来约束图像重建的准确性；

步骤S7：使用最小化损失的思想，采用梯度下降法训练网络模型；

步骤S8：在测试阶段，根据输入图像与预训练模型拟合对应的视差图；利用双目成像的三角测量原理，由视差图计算得到对应场景深度图。

优选的，所述步骤S1中，将输入图像下采样至原图像的1，1/2，1/4，1/8 此四个尺寸，形成金字塔输入结构，随后送至编码模型中进行特征提取。

优选的，所述步骤S2中，采用ResNet-101网络结构作为编码阶段的网络模型，ResNet网络结构采用残差设计，在网络加深的同时，减少信息丢失。

优选的，所述步骤S3中，在编码阶段对不同尺度的输入图像进行特征提取，将提取的特征输送至解码阶段的反向卷积神经网络实现视差图拟合，具体为：

步骤S41：在编码阶段对金字塔结构的输入图像分别通过ResNet-101网络进行特征提取，并在提取过程中相对于不同尺寸的输入图像缩小至1/16，获得尺寸为原输入图像1/16，1/32，1/64，1/128的特征；

步骤S42：将编码阶段获得的四个尺寸的特征输入到解码阶段的网络中，在此过程中逐层对输入特征进行反卷积，使其恢复至原输入图像1，1/2，1/4，1/8 尺寸的金字塔结构，根据输入特征与反卷积网络分别拟合此4个尺寸图像的视差图；

优选的，所述步骤S4中，将尺寸为原输入图像的1，1/2，1/4，1/8的视差图统一上采样至原输入图像的尺寸。

优选的，所述步骤S5中，由于4个尺寸的视差图统一上采样至原输入尺寸，使用原本输入的左图I^l与右视差图d^r重建出右图

原右图I^r与左视差图d^l重建出左图

优选的，所述步骤S6中，利用原输入的左右视图以及重构所得左右视图计算损失约束图像重建的准确性；

采用梯度下降法最小化损失函数，以此训练图像重建网络，具体为：

步骤S71：损失函数由三部分构成，分别为外观匹配损失外观损失C_a，平滑损失C_s和视差转换损失C_t；对于每一项损失，左图和右图的计算方式相同，最终的损失函数由三项组合而成：

步骤S72：在原输入尺寸上的不同视差图与输入原图分别计算损失，得到对应4个损失C_i，i＝1,2,3,4，总的损失函数为

优选的，所述步骤S7中，使用最小化损失的思想，采用梯度下降法训练网络模型。

优选的，所述步骤S8中，在测试阶段，使用输入的单张图像以及预训练模型拟合输入图像对应的视差图，根据双目成像的三角测量原理，利用视差图生成对应的深度图像，具体为：

其中，(i,j)为图像中任一点的像素级坐标，D(i,j)为该点的深度值，d(i,j)为该点的视差值，b为已知的两个相机之间的距离，f为相机已知焦距。

本发明所述的基于多尺度统一的无监督单目视图深度估计方法，在通常的深度学习方法在解决深度估计问题时，需要输入图像对应的真实深度图像，但该真实深度数据获取代价昂贵，且只能获得稀疏的点云深度，无法完全满足应用需求；在这样的情况下，本文采用图像重建损失来监督模型的训练过程，使用相对易获取双目图像代替真实深度来进行训练，从而解决实现无监督的深度估计；

本发明所述的基于多尺度统一的无监督单目视图深度估计方法，通过在编码阶段对输入立体图像对进行金字塔多尺度处理，减小不同尺寸目标对深度估计的影响；

本发明所述的基于多尺度统一的无监督单目视图深度估计方法，在针对低尺度深度图模糊的情况，将所有的视差图统一采样至原输入尺寸，并在此尺寸上进行图像的重建以及损失的计算，改善了深度图空洞的问题；

本发明设计合理，无需利用真实深度数据监督网络训练，以容易获取的双目图像作为训练样本，大大降低了网络训练的获取难度，同时也解决了由于低尺度视差图模糊带来的深度图空洞的问题。

附图说明

图1为本发明提出的一种基于多尺度统一的无监督单目视图深度估计方法流程图；

图2为本发明提出的一种基于多尺度统一的无监督单目视图深度估计方法的网络模型结构图；

图3为本发明提出的一种基于多尺度统一的无监督单目视图深度估计方法的网络结构瓶颈模块示意图；

图4为本发明提出的一种基于多尺度统一的无监督单目视图深度估计方法的尺度统一示意图；

图5为本发明提出的一种基于多尺度统一的无监督单目视图深度估计方法在经典驾驶数据集KITTI上的估计结果图，(a)为输入图像，(b)为深度估计结果图；

图6为本发明提出的一种基于多尺度统一的无监督单目视图深度估计方法在道路场景实时拍摄图片上的泛化效果图，(a)为输入图像，(b)为深度估计结果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

参照图1-6，一种基于多尺度统一的无监督单目视图深度估计方法，其中的无监督深度单目深度估计网络模型在本实验室台式工作站上进行，显卡采用 NVIDIA GeForceGTX 1080Ti，训练***为Ubuntu14.04，采用TensorFlow 1.4.0 作为框架搭建平台；在经典的驾驶数据集KITTI 2015立体数据集上进行训练。

如图1所示，本发明的一种基于多尺度统一的无监督单目视图深度估计方法，具体包括以下步骤：

步骤S1：采用经典驾驶KITTI中的双目数据集作为训练集，设置尺度参数为4，将图像下采样至输入图像的1/2，1/4，1/8，加上原图共有4个尺寸的输入图像，形成金字塔结构，随后送至ResNet-101神经网络模型中进行特征提取；

步骤S2：构建编码解码的网络框架，获得可用于获取深度图的视差图；具体过程为：

采用ResNet-101网络结构作为编码阶段的网络模型，ResNet网络结构采用残差设计，在网络加深的同时，减少信息丢失；ResNet网络中的残差结构如图 3(a)所示，先使用1×1的卷积降低特征维度，之后再通过1×1的卷积恢复，则参数量为：

1×1×256×64+3×3×64×64+1×1×64×256＝69632

而通常的ResNet模块如图3(b)所示，参数量为：

3×3×256×256×2＝1179648

由此可见，使用带有瓶颈结构的残差模块可以大大的降低参数量；

步骤S3：将在编码阶段提取的特征输送至反向卷积神经网络实现不同尺度输入图像的特征提取，在解码阶段拟合不同尺度输入图像的视差图，具体为：

步骤S31：网络解码过程中，为确保反卷积神经网络中特征图的尺寸与 ResNet-101残差网络特征图尺寸相对应，本网络使用跳跃连接将ResNet-101 编码过程中的部分特征图直接连接到反卷积神经网络中；

步骤S32：在编码阶段对金字塔结构的输入图像分别通过ResNet-101网络进行特征提取，并在提取过程中相对于不同尺寸的输入图像缩小至1/16，获得尺寸为原输入图像1/16，1/32，1/64，1/128的特征；

步骤S33：将编码阶段获得的四个尺寸的特征输入到解码阶段的网络中，在此过程中逐层对输入特征进行反卷积，使其恢复至原输入图像1，1/2，1/4，1/8 尺寸的金字塔结构，根据输入特征与反卷积网络分别拟合此4个尺寸图像的近似视差图；

步骤S4：将尺寸为原输入图像的1，1/2，1/4，1/8的视差图统一上采样至原输入图像的尺寸；

步骤S5：使用输入的原图与对应的视差图进行图像重建，利用视差图和其对应的左视图，重构出右视图，再使用原右图与左视差图重建出左图，最后将重建出的左图右图分别与输入的左右原图进行比较；

步骤S6：再利用外观匹配损失，左右视差转换损失，以及视差平滑损失来约束图像合成的准确性；具体为：

步骤S61：损失函数由三部分构成，分别为外观匹配损失C_a，平滑损失C_s和视差转换损失C_t；

在图像重建过程中，首先要使用外观匹配损失C_a，逐像素地判断重建出的图像与对应输入图像之间的准确度，该损失由结构相似度指标和L₁损失共同组成，以输入左图为例：

其中S为结构相似度指标，由亮度测量、对比度测量和结构对比三个部分组成，用于衡量两幅图像之间的相似度，两幅图像越相似，则相似度指标值越高； L₁损失为最小化绝对误差损失，用于逐像素地比较两幅图像之间的差距，相对与L₂损失来说对异常点更加不敏感；α为结构相似度在外观匹配损失中的权重系数，N为图像中像素总数；

其次，平滑损失α_s可以减轻局部梯度过大导致视差图不连续的情况，确保所成视差图的平滑性，以左图为例，具体公式如下：

视差转换损失C_t的目的是为了减小根据左图生成的右视差图，与根据右图生成的左视差图之间的转换误差，确保两视差图之间的一致性，具体公式如下：

对于每一项损失，左图和右图的计算方式相同，最终的损失函数由三项组合而成：

其中α_a为外观匹配损失在总体损失中所占权重，α_s为平滑损失在总体损失中所占权重，α_t为转换损失在总体损失中所占权重；

步骤S62：在原输入尺寸上的不同视差图与输入原图分别计算损失，得到对应4个损失C_i，i＝1,2,3,4，总的损失函数为

步骤S7：使用最小化损失的思想，采用梯度下降法训练网络模型，具体为：在立体图像对的训练过程中，我们采用开源的TensorFlow 1.4.0平台搭建深度估计模型，使用具有立体图像对的KITTI数据集进行作为训练集,将该数据集中的29000对用于模型的训练；在训练时，设置初始学***台上花费34个小时完成所有的训练；

表1损失函数及训练参数

步骤S8：在测试阶段，根据输入图像与预训练模型拟合对应的视差图；利用双目成像的三角测量原理，由视差图计算得到对应场景深度图；在本实验采用的KITTI道路驾驶数据集中，相机的基线距离固定为0.54m，相机的焦距根据所摄相机型号不同而改变，不同的相机型号在KITTI数据集中体现为不同的图像尺寸，对应关系如下表：

则深度与视差的转换公式具体为：

其中，(i,j)为图像中任一点的像素坐标，D(i,j)为该点的深度值，d(i,j)为该点的视差值；

由此，根据输入图像与利用双目图像重建原理预训练的网络模型，拟合出输入图像对应的视差图，根据已知的相机焦距和基线距离，即可计算出该相机所拍摄输入图像的对应场景深度图。

本发明使用到的标准零件均可以从市场上购买，异形件根据说明书的和附图的记载均可以进行订制，各个零件的具体连接方式均采用现有技术中成熟的螺栓、铆钉、焊接等常规手段，机械、零件和设备均采用现有技术中，常规的型号，加上电路连接采用现有技术中常规的连接方式，在此不再详述。

Claims

1.一种基于多尺度统一的无监督单目视图深度估计方法，其特征在于，包括以下步骤：

步骤S2：构建编码解码的网络框架，获得可用于计算出深度图的视差图；

步骤S4：将不同尺度的视差图统一上采样至原输入尺寸；

步骤S5：使用输入的原图与对应的视差图进行图像重建；

2.如权利要求1所述的一种基于多尺度统一的无监督单目视图深度估计方法，其特征在于，所述步骤S1中，将输入图像下采样至原图像的1，1/2，1/4，1/8此四个尺寸，形成金字塔输入结构，随后送至编码模型中进行特征提取。

3.如权利要求1所述的一种基于多尺度统一的无监督单目视图深度估计方法，其特征在于，所述步骤S2中，采用ResNet-101网络结构作为编码阶段的网络模型。

4.如权利要求1所述的一种基于多尺度统一的无监督单目视图深度估计方法，其特征在于，所述步骤S3中，在编码阶段对不同尺度的输入图像进行特征提取，将提取的特征输送至解码阶段的反向卷积神经网络实现视差图拟合，具体为：

步骤S42：将编码阶段获得的四个尺寸的特征输入到解码阶段的网络中，在此过程中逐层对输入特征进行反卷积，使其恢复至原输入图像1，1/2，1/4，1/8尺寸的金字塔结构，根据输入特征与反卷积网络分别拟合此4个尺寸图像的视差图。

5.如权利要求1所述的一种基于多尺度统一的无监督单目视图深度估计方法，其特征在于，所述步骤S4中，将尺寸为原输入图像的1，1/2，1/4，1/8的视差图统一上采样至原输入图像的尺寸。

6.如权利要求1所述的一种基于多尺度统一的无监督单目视图深度估计方法，其特征在于，所述步骤S5中，由于4个尺寸的视差图统一上采样至原输入尺寸，使用原本输入的左图I^l与右视差图d^r重建出右图

原右图I^r与左视差图d^l重建出左图

7.如权利要求1所述的一种基于多尺度统一的无监督单目视图深度估计方法，其特征在于，所述步骤S6中，利用原输入的左右视图以及重构所得左右视图计算损失约束图像重建的准确性；

8.如权利要求1所述的一种基于多尺度统一的无监督单目视图深度估计方法，其特征在于，所述步骤S7中，使用最小化损失的思想，采用梯度下降法训练网络模型。

9.如权利要求1所述的一种基于多尺度统一的无监督单目视图深度估计方法，其特征在于，所述步骤S8中，在测试阶段，使用输入的单张图像以及预训练模型拟合输入图像对应的视差图，根据双目成像的三角测量原理，利用视差图生成对应的深度图像，具体为：