CN112991450B

CN112991450B - 一种基于小波的细节增强无监督深度估计方法

Info

Publication number: CN112991450B
Application number: CN202110321996.6A
Authority: CN
Inventors: 肖春霞; 罗飞; 郑旭辉
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-03-25
Filing date: 2021-03-25
Publication date: 2022-11-01
Anticipated expiration: 2041-03-25
Also published as: CN112991450A

Abstract

本发明涉及一种基于视频的无监督深度估计方法，将视频中的某一帧图像输入到深度网络中得到对应的深度图，同时将该帧与相邻的一帧输入到位姿网络中得到相机位姿，同时将图像的小波分解出的高频整合到网络中增强深度细节的信息。本实施例还利用光流估计辨别并处理遮挡区域。训练阶段利用深度图和相机位姿以及原图合成目标帧，通过合成帧与原帧之间计算损失来监督网络的训练。本发明解决了目前深度估计中对于深度图的边界扭曲以及细节的丢失的问题，能很好地从单目视图中估计出对应的深度图。

Description

一种基于小波的细节增强无监督深度估计方法

技术领域

本发明属于图像处理领域，具体地指一种基于视频的无监督单目深度估计方法，仅用单幅RGB图片即可估算出图片中每个像素点对应的深度值。

背景技术

随着计算机技术的飞速发展，计算机视觉领域的热度也达到了前所未有的高度。深度估计能预测出被观察物体与相机之间距离，是计算视觉机版本中的一项基本任务。如今，深度估计已广泛应用于许多计算机前沿技术中，诸如自动驾驶，三维重建，新视图合成，增强现实和MR。深度估计是这些领域感知空间信息的第一步，深度图预测的精确性将直接影响这些领域的最终生成结果。深度图预测地更加精确能极大促进相关领域的发展与应用。现如今，一些智能设备上也搭载了估计场景中深度信息的传感器，然而这些硬件设备需要耗费大量的成本；基于多视立体几何的深度估计方法需要在多个位置对目标进行拍摄，对拍摄的方式约束限制多，无法满足实际应用的要求。基于深度学习技术，可以从图像线索中推断出图像中物体距离相机的相对远近，非常适用于只需要获取相对距离的应用。基于深度学习的深度估计大体上分为有监督和无监督两种方法。有监督的单目深度估计将深度估计视为数据集导向的问题。这些方法使用彩色图像作为网络模型的输入，并使用相应的深度图作为标签。无监督(自监督)的单目深度估计网络预测一个视图的深度并基于深度合成新视图的图像，并通过其他视图的原始图像计算图像重建误差最小化来约束合成的图像，从而达到网络训练的目的。通过对现有的深度估计方法中存在的问题进行分析，基于小波系数熵的二维单视图像深度估计方法利用传统的算法来进行深度估计，旨在解决二维单视图像深度估计方法的准确度低，以及对不同的边缘类型泛化能力较差的问题，本发明这是将小波分析融合到神经网络中，旨在利用小波分解的高频信息引导神经网络的训练，让网络能在深度细节出得出更准确的结果。本发明的深度估计方法属于无监督类别，特别地提出了包括小波处理与光流处理的深度神经网络模型，能得到更加精确的深度估计结果。

发明内容

本发明提供了一种基于视频的无监督深度估计方法，旨在解决现有的深度估计方法中深度图中物体的深度细节不够清晰，视频中物体的运动会产生像素的遮挡的问题。

根据本发明的基于单目深度估计的基本框架，其包括深度图的生成，相机位姿的估计，视频中前后帧视图的合成，计算损失做反向传播进行网络的训练以及利用训练好的神经网络进行深度图的预测本发明在训练的时候网络输入的是多幅图像，在测试的时候输入的是单幅图像。

此外，本发明提供了两个方法分别解决现有的深度估计方法中深度图中物体的深度细节不够清晰和视频中物体的运动会产生像素的遮挡这两个问题。对于第一个问题，本发明通过图像的小波分解让生成的深度图轮廓更加清晰。小波分解得到的图像高频对应于图像轮廓边界等高频信息，而深度图中物体结构和边界的深度不准确的地方也是属于图像的高频区域。图像在网络中做卷积的时候，会丢失一些高频信息。而丢失的这些高频信息，能够在小波中得到补充。同时在计算损失的时候，需要在图像和深度的梯度之间做一个损失，保证图像和深度的梯度一致，从而保证物体内部的深度的连续性。当小波对深度的边界做了结构的描述之后，再通过梯度的损失，能够保证物体的结构的完整性和物体轮廓的清晰度。对于第二个问题，本发明利用光流估计来处理运动物体产生的遮挡区。光流记录的是像素点的移动。如果两幅图像的像素点未发生遮挡，则通过两幅图像之间的光流信息可以将一副图像毫无误差地合成另一幅图像。视频中的物体如果产生运动，前后两帧之间会存在一些原有的像素点的遮挡和新的像素点的出现，而这些像素点没有光流信息。利用光流将视频的前一帧合成后一帧的图像时，对于未发生遮挡的区域，这些像素点会在下一视图中找到对应的位置，而对于遮挡的区域，在利用光流合成图像的时候，这些区域找不到下一帧对应的区域，于是就会产生误差，通过误差的产生就能准确地判断出哪些区域发生的遮挡。对于无穷远的区域，这些区域在视频前后两帧中几乎不会产生变化，因此也不会再光流合成图像中产生误差，这样在生成遮罩的时候这些区域也就不会被排除掉。

基于本发明构建的深度估计网络，本发明还完成了神经网络的训练和测试，其包括以下步骤：

步骤S1：利用图像的小波分解，将输入的单幅图像分解成一个低频和三个高频的子带，并对低频进行进一步的分解，得到多级的小波分解的高低频子带；

步骤S2：将图像输入到深度估计网络中，并且将步骤S1中得到的高频子带整合到网络的解码器中，得到图像的深度图；

步骤S3：将视频中的前后两帧输入到位姿估计网络中，估算出对应的相机位姿；

步骤S4：将步骤S3中输入的前后帧图像输入到光流网络中，估算前后帧的光流，生成图像遮挡区域的遮罩；

步骤S5：利用当前帧图像以及步骤S2得到的图像的深度图和步骤S3得到的相机位姿，并通过双线性插值的方式合成目标帧的图像；

步骤S6：利用步骤S5得到的合成图像与原图像，以及步骤S4得到的遮罩计算损失，通过反向传播的方式训练网络；

步骤S7：步骤S6经过多次的迭代完成对网络的训练，将单幅图片输入到训练好的网络中得到对应的深度图。

通过本发明的深度估计方法，可以完成对单幅图像的深度估计。与现有技术相比，本发明注重于对物体深度边界的准确度的估计，已经视频中运动物体所带来的遮挡像素的处理。本发明利用图像的小波分解，将图像的高频信息提取出来，并且将高频信息整合到网络中，能对最终的深度图中物体的边界轮廓起到增强的作用，使得深度图中物体的轮廓更加清晰，深度更加准确。本发明还利用相邻图像的光流估计，辨别图像中运动物体带来的遮挡像素，通过对遮挡像素的处理，降低这些像素点在网络训练中带来的误差，使得网络能更好地训练并达到收敛。

附图说明

图1为本发明的深度估计和相机位姿估计的网络结构。

图2为本发明的光流估计网络结构。

具体实施方式

为进一步了解本发明的内容，使本发明的目的、技术方案及优点更加清晰明了，以下结合附图和实施例对本发明进行详细说明。应当理解的是，此处仅是对本发明进行解释而并非限定。

本发明提供的一种视频的单目深度估计实施例，能较好地实现对单幅图像的深度估计。

如图1所示，其为本实施例的深度估计网络。本实施例的深度估计网络包含深度解码器和位姿解码器，它们分别预测深度图和相对姿态，这两个解码器共享同一个编码器。编码器在视频中获取相邻帧I_t0和I_t1，并输出相应的特征F_t0和F_t1。深度解码器采用特征F_t0来生成对应的深度图D_t。另外，本实施例使用多级小波变换分解图像I_t0，并将高频子带集成到深度解码器中。高频子带包含图像的水平，垂直和对角线细节，有助于深度解码器保留几何结构并增强深度边缘。位姿解码器从编码器获取两个特征F_t0和F_t1，并生成相邻帧I_t0和I_t1之间的相机位姿。

如图2所示，其为本实施例的光流网络。光流网络在视频中获取相邻帧I_t0和I_t1，然后输出对应的光流和遮罩。首先，相邻帧I_t0和I_t1在编码器部分生成对应的6层特征，两幅图像的每个特征都会计算出对应的相关系数。相关系数将会用于生成光流和遮罩。

本实施例的一种基于视频的深度估计方法中，神经网络在对多幅图像的信息进行整合处理，从多幅图像中提取出三维信息，在测试阶段能根据图像的特征预测出图像的三维结构，从而能较好地预测出图像的深度图。

如图一图二所示，本实施例提供了一种基于视频的深度估计方法。其包括以下步骤：

步骤S1：利用哈尔小波对图像进行小波分解，将输入的单幅图像分解成一个低频和三个高频的子带，并对低频进行进一步的分解，得到多级的小波分解的高低频子带；

步骤S3：将步骤S1中输入的图像以及其相邻的一帧图像输入到位姿估计网络中，估算出对应的相机位姿；

步骤S4：将步骤S3中输入的前后帧图像输入到光流网络中，估算前后帧的光流，并生成图像遮挡区域的遮罩；

步骤S5：利用当前帧图像以及步骤S2得到的图像的深度图和步骤S3得到的相机位姿，利用StmcturefromMotion(运动恢复结构)的理论，并通过双线性插值的方式合成目标帧的图像；

步骤S6：利用步骤S5得到的合成图像与原图像，以及步骤S4得到的遮罩计算损失合成图与原图之间的重投影损失、梯度损失和小波高频损失，通过反向传播的方式训练网络；

本实施例的步骤S1中，本发明利用哈尔小波进行图像的多级分解，将图像分解成高低频的子带。

具体的，本实施例利用一维的高通和低通滤波器对图像分别进行水平和垂直方向的卷积。其中低通滤波器记为D＝(11)，高通滤波器记为G＝(-11)，*记为卷积运算，X为输入图像，因此分解出来的高低频分别为：

H＝G*X；L＝D*X

对图像进行小波分解后得到一个低频和三个高频子带，分别记为：

LL＝D_y*(D_x*x)；LH＝G_y*(D_x*X)；

HL＝D_y*(G_x*X)；HH＝G_y*(G_x*X)；

其中，LL为小波分解出来的低频子带，LH、HL和HH为三个高频子带，分别对应水平、垂直和对角线的高频信息。D_x和D_y分别表示用低通滤波器在水平和垂直方向做卷积，G_x和G_y分别表示用高通滤波器在水平和垂直方向做卷积。

本实施例的步骤S2中，利用图像的小波分解提取出图像的高频信息，增强生成的深度图细节以及物体的轮廓。

具体的，为了解决深度图模糊以及物体边界扭曲的问题，本专利提出了小波解码器的网络框架。小波分解可以将图像分解成一个低频和三个高频部分，低频部分包含图像的内容信息，高频部分包含图像的水平、垂直和对角线信息，同时小波还可以进行多级分解，将图像分解出来的低频部分进行进一步分解。本文利用小波的多级分解，每级分解都会将图像的尺寸降低为分解前的尺寸的一半，网络的解码器部分对网络的特征进行上采样，一共有6层，将图像进行6级分解后，得到的6级特征与网络的尺寸刚好与解码器部分的特征相同，于是可以将多级小波的高频部分与解码器的特征进行整合，在特征中对图像的高频部分进行加强，从而使网络最终得到的结果在图像边界区域的细节更加明显。

本实施例的步骤S4中，利用视频前后帧生成帧之间的光流和处理遮挡区域的遮罩。

其中，本发明在网络框架中中加上一个光流估计网络，生成光流，同时处理像素遮挡，遮罩用于损失计算中处理遮挡像素。网络的输入：视频帧的前后两帧，首先将网络输入到光流估计的网络编码器中，编码器部分有6层卷积层，最后分别得到两帧图像对应的特征f1，f2。然后对得到的特征计算一个相关系数，具体公式如下：c(x₁，x₂)＝∑_{o∈[-k，k]×[-k，k]}＜f₁(x₁+o)，f₂(x₂+o)＞，其中，f₁，f₂是两张特征图，比较的是在f₁以x₁为中心，在f₂以x₂为中心，o为大小的图像块，通过计算两个特征图中所有的图像块的相关系数得到全局的相关系数。网络的解码器部分输入是之前计算的相关系数。解码器部分一共有6个卷积层，通过6次上采样得到原图尺寸大小的光流和遮罩。每个卷积层都会生成一个光流估计的结果和一个遮罩，并且经过上采样之后输入到下一层中。解码器的每一层输入之前都会计算一次相关系数，除了第一层外，后面的每一层在计算相关系数的时候都会结合光流做一次变形卷积并且乘上遮罩。最后得到的遮罩做一个二值化处理，用于去掉图像重建中的遮挡区域。光流则利用geonet论文中的损失监督光流网络的训练。

本实施例的步骤S6中，通过网络估计出来的深度图、相机位姿和当前帧图像合成目标帧图像。合成图像与原图计算损失后以达到网络训练的目标。

具体的，利用StructurefromMotion的理论合成目标帧图像，具体公式如下：

I_t0→t1～KT_t0→t1D_tK^-1I_t0

其中，I_t0→t1表示合成的目标帧图像，I_t0表示当前帧图像，K表示相机的内参，T_t0→t1表示从当前帧到目标帧的相机位姿，D_t表示I_t0对应的深度图。

利用合成的图像和原图计算损失并进行反向传播，本实施例的网络能得到较好的训练。本实施例一共计算了三项损失，分别为重投影损失、梯度损失和小波高频损失。计算损失时，本实施例还利用步骤S4得到的遮罩做处理排除遮挡像素点造成的误差。

重投影损失的公式如下：

L_rep＝(αL_SSIM+(1-α)||I_t1-I_t0→t1||₁)*mask

其中，α的值一般取0.85，I_t0→t1表示合成的目标帧，I_t1表示目标帧的远图像，||*||₁表示L1范式。SSIM为两幅图像之间的结构相似性，是一种衡量两幅图像相似度的指标。

梯度损失的公式如下：

其中，

和

分别表示求水平方向和垂直方向的梯度。

小波高频损失的公式如下：

L_wave＝||DWT_high(I_t1)-DWT_high(I_t0→t1)||₁

其中，DWT_high(*)表示小波分解出来的高频子带。

本实施例提供了一种基于视频的无监督深度估计方法，将视频中的某一帧图像输入到深度网络中得到对应的深度图，同时将该帧与相邻的一帧输入到位姿网络中得到相机位姿，同时将图像的小波分解出的高频整合到网络中增强深度细节的信息。本实施例还利用光流估计辨别并处理遮挡区域。训练阶段利用深度图和相机位姿以及原图合成目标帧，通过合成帧与原帧之间计算损失来监督网络的训练。本实施例解决了目前深度估计中对于深度图的边界扭曲以及细节的丢失的问题，能很好地从单目视图中估计出对应的深度图。

Claims

1.一种基于小波的细节增强无监督深度估计方法，其特征在于，包括以下步骤：

步骤S4：将步骤S3中输入的前后帧图像输入到光流网络中，估算前后帧的光流，生成图像遮挡区域的遮罩；步骤S4的具体过程如下：在网络框架中中加上一个光流估计网络，生成光流，同时处理像素遮挡，遮罩用于损失计算中处理遮挡像素；

其中，网络的输入：视频帧的前后两帧，首先将网络输入到光流估计的网络编码器中，编码器部分有6层卷积层，最后分别得到两帧图像对应的特征f1，f2；然后对得到的特征计算一个相关系数，具体公式为：c(x₁，x₂)＝∑_{o∈[-k，k]×[-k，k]}＜f₁(x₁+o)，f₂(x₂+o)＞，其中，f₁，f₂是两张特征图，比较的是在f₁以x₁为中心，在f₂以x₂为中心，以k为大小的图像块，通过计算两个特征图中所有的图像块的相关系数得到全局的相关系数；

网络的解码器部分输入是之前计算的相关系数，解码器部分一共有6个卷积层，通过6次上采样得到原图尺寸大小的光流和遮罩，每个卷积层都会生成一个光流估计的结果和一个遮罩，并且经过上采样之后输入到下一层中，解码器的每一层输入之前都会计算一次相关系数，除了第一层外，后面的每一层在计算相关系数的时候都会结合光流做一次变形卷积并且乘上遮罩，最后得到的遮罩做一个二值化处理，用于去掉图像重建中的遮挡区域；

2.根据权利要求1所述的方法，其特征在于：

所述步骤S1中低频子带包含图像的内容信息，高频子带包含图像的水平、垂直和对角线信息。

3.根据权利要求2所述的方法，其特征在于：

步骤S1中的多级分解为6级，分解过程中将图像的尺寸降低为分解前的尺寸的一半，网络的解码器部分对网络的特征进行上采样，将图像进行6级分解后，得到的6级特征与网络的尺寸刚好与解码器部分的特征相同。

4.根据权利要求3所述的方法，其特征在于：

步骤S6中，通过网络估计出来的深度图、相机位姿和当前帧图像合成目标帧图像，合成图像与原图计算损失后以达到网络训练的目标；

具体的，利用Structure from Motion(运动恢复结构)的理论合成目标帧图像，具体公式如下：

I_t0→t1～KT_t0→t1D_tK^-1I_t0

5.根据权利要求1所述的方法，其特征在于：

本方案计算了三项损失，分别为重投影损失、梯度损失和小波高频损失；计算损失时，利用步骤S4得到的遮罩做处理排除遮挡像素点造成的误差。

6.根据权利要求5所述的方法，其特征在于：

所述重投影损失的公式如下：

L_rep＝(αl_SSIM+(1-α)||I_t1-I_t0→t1||₁)*mask

其中，α的值取0.85，I_t0→t1表示合成的目标帧，I_t1表示目标帧的远图像，||*||₁表示L1范式；SSIM为两幅图像之间的结构相似性，是一种衡量两幅图像相似度的指标。

7.根据权利要求5所述的方法，其特征在于：

所述梯度损失的公式如下：

其中，

和

分别表示求水平方向和垂直方向的梯度，I_t0表示当前帧图像，D_t表示I_t0对应的深度图。

8.根据权利要求5所述的方法，其特征在于：

所述小波高频损失的公式如下：

L_wave＝||DWT_high(I_t1)-DWT_high(I_t0→t1)||₁

其中，DWT_high(*)表示小波分解出来的高频子带。