CN112991450B - 一种基于小波的细节增强无监督深度估计方法 - Google Patents

一种基于小波的细节增强无监督深度估计方法 Download PDF

Info

Publication number
CN112991450B
CN112991450B CN202110321996.6A CN202110321996A CN112991450B CN 112991450 B CN112991450 B CN 112991450B CN 202110321996 A CN202110321996 A CN 202110321996A CN 112991450 B CN112991450 B CN 112991450B
Authority
CN
China
Prior art keywords
image
network
loss
depth
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110321996.6A
Other languages
English (en)
Other versions
CN112991450A (zh
Inventor
肖春霞
罗飞
郑旭辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202110321996.6A priority Critical patent/CN112991450B/zh
Publication of CN112991450A publication Critical patent/CN112991450A/zh
Application granted granted Critical
Publication of CN112991450B publication Critical patent/CN112991450B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/10Image enhancement or restoration using non-spatial domain filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20048Transform domain processing
    • G06T2207/20064Wavelet transform [DWT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20172Image enhancement details
    • G06T2207/20192Edge enhancement; Edge preservation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于视频的无监督深度估计方法,将视频中的某一帧图像输入到深度网络中得到对应的深度图,同时将该帧与相邻的一帧输入到位姿网络中得到相机位姿,同时将图像的小波分解出的高频整合到网络中增强深度细节的信息。本实施例还利用光流估计辨别并处理遮挡区域。训练阶段利用深度图和相机位姿以及原图合成目标帧,通过合成帧与原帧之间计算损失来监督网络的训练。本发明解决了目前深度估计中对于深度图的边界扭曲以及细节的丢失的问题,能很好地从单目视图中估计出对应的深度图。

Description

一种基于小波的细节增强无监督深度估计方法
技术领域
本发明属于图像处理领域,具体地指一种基于视频的无监督单目深度估计方法,仅用单幅RGB图片即可估算出图片中每个像素点对应的深度值。
背景技术
随着计算机技术的飞速发展,计算机视觉领域的热度也达到了前所未有的高度。深度估计能预测出被观察物体与相机之间距离,是计算视觉机版本中的一项基本任务。如今,深度估计已广泛应用于许多计算机前沿技术中,诸如自动驾驶,三维重建,新视图合成,增强现实和MR。深度估计是这些领域感知空间信息的第一步,深度图预测的精确性将直接影响这些领域的最终生成结果。深度图预测地更加精确能极大促进相关领域的发展与应用。现如今,一些智能设备上也搭载了估计场景中深度信息的传感器,然而这些硬件设备需要耗费大量的成本;基于多视立体几何的深度估计方法需要在多个位置对目标进行拍摄,对拍摄的方式约束限制多,无法满足实际应用的要求。基于深度学习技术,可以从图像线索中推断出图像中物体距离相机的相对远近,非常适用于只需要获取相对距离的应用。基于深度学习的深度估计大体上分为有监督和无监督两种方法。有监督的单目深度估计将深度估计视为数据集导向的问题。这些方法使用彩色图像作为网络模型的输入,并使用相应的深度图作为标签。无监督(自监督)的单目深度估计网络预测一个视图的深度并基于深度合成新视图的图像,并通过其他视图的原始图像计算图像重建误差最小化来约束合成的图像,从而达到网络训练的目的。通过对现有的深度估计方法中存在的问题进行分析,基于小波系数熵的二维单视图像深度估计方法利用传统的算法来进行深度估计,旨在解决二维单视图像深度估计方法的准确度低,以及对不同的边缘类型泛化能力较差的问题,本发明这是将小波分析融合到神经网络中,旨在利用小波分解的高频信息引导神经网络的训练,让网络能在深度细节出得出更准确的结果。本发明的深度估计方法属于无监督类别,特别地提出了包括小波处理与光流处理的深度神经网络模型,能得到更加精确的深度估计结果。
发明内容
本发明提供了一种基于视频的无监督深度估计方法,旨在解决现有的深度估计方法中深度图中物体的深度细节不够清晰,视频中物体的运动会产生像素的遮挡的问题。
根据本发明的基于单目深度估计的基本框架,其包括深度图的生成,相机位姿的估计,视频中前后帧视图的合成,计算损失做反向传播进行网络的训练以及利用训练好的神经网络进行深度图的预测本发明在训练的时候网络输入的是多幅图像,在测试的时候输入的是单幅图像。
此外,本发明提供了两个方法分别解决现有的深度估计方法中深度图中物体的深度细节不够清晰和视频中物体的运动会产生像素的遮挡这两个问题。对于第一个问题,本发明通过图像的小波分解让生成的深度图轮廓更加清晰。小波分解得到的图像高频对应于图像轮廓边界等高频信息,而深度图中物体结构和边界的深度不准确的地方也是属于图像的高频区域。图像在网络中做卷积的时候,会丢失一些高频信息。而丢失的这些高频信息,能够在小波中得到补充。同时在计算损失的时候,需要在图像和深度的梯度之间做一个损失,保证图像和深度的梯度一致,从而保证物体内部的深度的连续性。当小波对深度的边界做了结构的描述之后,再通过梯度的损失,能够保证物体的结构的完整性和物体轮廓的清晰度。对于第二个问题,本发明利用光流估计来处理运动物体产生的遮挡区。光流记录的是像素点的移动。如果两幅图像的像素点未发生遮挡,则通过两幅图像之间的光流信息可以将一副图像毫无误差地合成另一幅图像。视频中的物体如果产生运动,前后两帧之间会存在一些原有的像素点的遮挡和新的像素点的出现,而这些像素点没有光流信息。利用光流将视频的前一帧合成后一帧的图像时,对于未发生遮挡的区域,这些像素点会在下一视图中找到对应的位置,而对于遮挡的区域,在利用光流合成图像的时候,这些区域找不到下一帧对应的区域,于是就会产生误差,通过误差的产生就能准确地判断出哪些区域发生的遮挡。对于无穷远的区域,这些区域在视频前后两帧中几乎不会产生变化,因此也不会再光流合成图像中产生误差,这样在生成遮罩的时候这些区域也就不会被排除掉。
基于本发明构建的深度估计网络,本发明还完成了神经网络的训练和测试,其包括以下步骤:
步骤S1:利用图像的小波分解,将输入的单幅图像分解成一个低频和三个高频的子带,并对低频进行进一步的分解,得到多级的小波分解的高低频子带;
步骤S2:将图像输入到深度估计网络中,并且将步骤S1中得到的高频子带整合到网络的解码器中,得到图像的深度图;
步骤S3:将视频中的前后两帧输入到位姿估计网络中,估算出对应的相机位姿;
步骤S4:将步骤S3中输入的前后帧图像输入到光流网络中,估算前后帧的光流,生成图像遮挡区域的遮罩;
步骤S5:利用当前帧图像以及步骤S2得到的图像的深度图和步骤S3得到的相机位姿,并通过双线性插值的方式合成目标帧的图像;
步骤S6:利用步骤S5得到的合成图像与原图像,以及步骤S4得到的遮罩计算损失,通过反向传播的方式训练网络;
步骤S7:步骤S6经过多次的迭代完成对网络的训练,将单幅图片输入到训练好的网络中得到对应的深度图。
通过本发明的深度估计方法,可以完成对单幅图像的深度估计。与现有技术相比,本发明注重于对物体深度边界的准确度的估计,已经视频中运动物体所带来的遮挡像素的处理。本发明利用图像的小波分解,将图像的高频信息提取出来,并且将高频信息整合到网络中,能对最终的深度图中物体的边界轮廓起到增强的作用,使得深度图中物体的轮廓更加清晰,深度更加准确。本发明还利用相邻图像的光流估计,辨别图像中运动物体带来的遮挡像素,通过对遮挡像素的处理,降低这些像素点在网络训练中带来的误差,使得网络能更好地训练并达到收敛。
附图说明
图1为本发明的深度估计和相机位姿估计的网络结构。
图2为本发明的光流估计网络结构。
具体实施方式
为进一步了解本发明的内容,使本发明的目的、技术方案及优点更加清晰明了,以下结合附图和实施例对本发明进行详细说明。应当理解的是,此处仅是对本发明进行解释而并非限定。
本发明提供的一种视频的单目深度估计实施例,能较好地实现对单幅图像的深度估计。
如图1所示,其为本实施例的深度估计网络。本实施例的深度估计网络包含深度解码器和位姿解码器,它们分别预测深度图和相对姿态,这两个解码器共享同一个编码器。编码器在视频中获取相邻帧It0和It1,并输出相应的特征Ft0和Ft1。深度解码器采用特征Ft0来生成对应的深度图Dt。另外,本实施例使用多级小波变换分解图像It0,并将高频子带集成到深度解码器中。高频子带包含图像的水平,垂直和对角线细节,有助于深度解码器保留几何结构并增强深度边缘。位姿解码器从编码器获取两个特征Ft0和Ft1,并生成相邻帧It0和It1之间的相机位姿。
如图2所示,其为本实施例的光流网络。光流网络在视频中获取相邻帧It0和It1,然后输出对应的光流和遮罩。首先,相邻帧It0和It1在编码器部分生成对应的6层特征,两幅图像的每个特征都会计算出对应的相关系数。相关系数将会用于生成光流和遮罩。
本实施例的一种基于视频的深度估计方法中,神经网络在对多幅图像的信息进行整合处理,从多幅图像中提取出三维信息,在测试阶段能根据图像的特征预测出图像的三维结构,从而能较好地预测出图像的深度图。
如图一图二所示,本实施例提供了一种基于视频的深度估计方法。其包括以下步骤:
步骤S1:利用哈尔小波对图像进行小波分解,将输入的单幅图像分解成一个低频和三个高频的子带,并对低频进行进一步的分解,得到多级的小波分解的高低频子带;
步骤S2:将图像输入到深度估计网络中,并且将步骤S1中得到的高频子带整合到网络的解码器中,得到图像的深度图;
步骤S3:将步骤S1中输入的图像以及其相邻的一帧图像输入到位姿估计网络中,估算出对应的相机位姿;
步骤S4:将步骤S3中输入的前后帧图像输入到光流网络中,估算前后帧的光流,并生成图像遮挡区域的遮罩;
步骤S5:利用当前帧图像以及步骤S2得到的图像的深度图和步骤S3得到的相机位姿,利用StmcturefromMotion(运动恢复结构)的理论,并通过双线性插值的方式合成目标帧的图像;
步骤S6:利用步骤S5得到的合成图像与原图像,以及步骤S4得到的遮罩计算损失合成图与原图之间的重投影损失、梯度损失和小波高频损失,通过反向传播的方式训练网络;
步骤S7:步骤S6经过多次的迭代完成对网络的训练,将单幅图片输入到训练好的网络中得到对应的深度图。
本实施例的步骤S1中,本发明利用哈尔小波进行图像的多级分解,将图像分解成高低频的子带。
具体的,本实施例利用一维的高通和低通滤波器对图像分别进行水平和垂直方向的卷积。其中低通滤波器记为D=(11),高通滤波器记为G=(-11),*记为卷积运算,X为输入图像,因此分解出来的高低频分别为:
H=G*X;L=D*X
对图像进行小波分解后得到一个低频和三个高频子带,分别记为:
LL=Dy*(Dx*x);LH=Gy*(Dx*X);
HL=Dy*(Gx*X);HH=Gy*(Gx*X);
其中,LL为小波分解出来的低频子带,LH、HL和HH为三个高频子带,分别对应水平、垂直和对角线的高频信息。Dx和Dy分别表示用低通滤波器在水平和垂直方向做卷积,Gx和Gy分别表示用高通滤波器在水平和垂直方向做卷积。
本实施例的步骤S2中,利用图像的小波分解提取出图像的高频信息,增强生成的深度图细节以及物体的轮廓。
具体的,为了解决深度图模糊以及物体边界扭曲的问题,本专利提出了小波解码器的网络框架。小波分解可以将图像分解成一个低频和三个高频部分,低频部分包含图像的内容信息,高频部分包含图像的水平、垂直和对角线信息,同时小波还可以进行多级分解,将图像分解出来的低频部分进行进一步分解。本文利用小波的多级分解,每级分解都会将图像的尺寸降低为分解前的尺寸的一半,网络的解码器部分对网络的特征进行上采样,一共有6层,将图像进行6级分解后,得到的6级特征与网络的尺寸刚好与解码器部分的特征相同,于是可以将多级小波的高频部分与解码器的特征进行整合,在特征中对图像的高频部分进行加强,从而使网络最终得到的结果在图像边界区域的细节更加明显。
本实施例的步骤S4中,利用视频前后帧生成帧之间的光流和处理遮挡区域的遮罩。
其中,本发明在网络框架中中加上一个光流估计网络,生成光流,同时处理像素遮挡,遮罩用于损失计算中处理遮挡像素。网络的输入:视频帧的前后两帧,首先将网络输入到光流估计的网络编码器中,编码器部分有6层卷积层,最后分别得到两帧图像对应的特征f1,f2。然后对得到的特征计算一个相关系数,具体公式如下:c(x1,x2)=∑o∈[-k,k]×[-k,k]<f1(x1+o),f2(x2+o)>,其中,f1,f2是两张特征图,比较的是在f1以x1为中心,在f2以x2为中心,o为大小的图像块,通过计算两个特征图中所有的图像块的相关系数得到全局的相关系数。网络的解码器部分输入是之前计算的相关系数。解码器部分一共有6个卷积层,通过6次上采样得到原图尺寸大小的光流和遮罩。每个卷积层都会生成一个光流估计的结果和一个遮罩,并且经过上采样之后输入到下一层中。解码器的每一层输入之前都会计算一次相关系数,除了第一层外,后面的每一层在计算相关系数的时候都会结合光流做一次变形卷积并且乘上遮罩。最后得到的遮罩做一个二值化处理,用于去掉图像重建中的遮挡区域。光流则利用geonet论文中的损失监督光流网络的训练。
本实施例的步骤S6中,通过网络估计出来的深度图、相机位姿和当前帧图像合成目标帧图像。合成图像与原图计算损失后以达到网络训练的目标。
具体的,利用StructurefromMotion的理论合成目标帧图像,具体公式如下:
It0→t1~KTt0→t1DtK-1It0
其中,It0→t1表示合成的目标帧图像,It0表示当前帧图像,K表示相机的内参,Tt0→t1表示从当前帧到目标帧的相机位姿,Dt表示It0对应的深度图。
利用合成的图像和原图计算损失并进行反向传播,本实施例的网络能得到较好的训练。本实施例一共计算了三项损失,分别为重投影损失、梯度损失和小波高频损失。计算损失时,本实施例还利用步骤S4得到的遮罩做处理排除遮挡像素点造成的误差。
重投影损失的公式如下:
Lrep=(αLSSIM+(1-α)||It1-It0→t1||1)*mask
Figure BDA0002993222920000061
其中,α的值一般取0.85,It0→t1表示合成的目标帧,It1表示目标帧的远图像,||*||1表示L1范式。SSIM为两幅图像之间的结构相似性,是一种衡量两幅图像相似度的指标。
梯度损失的公式如下:
Figure BDA0002993222920000062
其中,
Figure BDA0002993222920000063
Figure BDA0002993222920000064
分别表示求水平方向和垂直方向的梯度。
小波高频损失的公式如下:
Lwave=||DWThigh(It1)-DWThigh(It0→t1)||1
其中,DWThigh(*)表示小波分解出来的高频子带。
本实施例提供了一种基于视频的无监督深度估计方法,将视频中的某一帧图像输入到深度网络中得到对应的深度图,同时将该帧与相邻的一帧输入到位姿网络中得到相机位姿,同时将图像的小波分解出的高频整合到网络中增强深度细节的信息。本实施例还利用光流估计辨别并处理遮挡区域。训练阶段利用深度图和相机位姿以及原图合成目标帧,通过合成帧与原帧之间计算损失来监督网络的训练。本实施例解决了目前深度估计中对于深度图的边界扭曲以及细节的丢失的问题,能很好地从单目视图中估计出对应的深度图。

Claims (8)

1.一种基于小波的细节增强无监督深度估计方法,其特征在于,包括以下步骤:
步骤S1:利用图像的小波分解,将输入的单幅图像分解成一个低频和三个高频的子带,并对低频进行进一步的分解,得到多级的小波分解的高低频子带;
步骤S2:将图像输入到深度估计网络中,并且将步骤S1中得到的高频子带整合到网络的解码器中,得到图像的深度图;
步骤S3:将视频中的前后两帧输入到位姿估计网络中,估算出对应的相机位姿;
步骤S4:将步骤S3中输入的前后帧图像输入到光流网络中,估算前后帧的光流,生成图像遮挡区域的遮罩;步骤S4的具体过程如下:在网络框架中中加上一个光流估计网络,生成光流,同时处理像素遮挡,遮罩用于损失计算中处理遮挡像素;
其中,网络的输入:视频帧的前后两帧,首先将网络输入到光流估计的网络编码器中,编码器部分有6层卷积层,最后分别得到两帧图像对应的特征f1,f2;然后对得到的特征计算一个相关系数,具体公式为:c(x1,x2)=∑o∈[-k,k]×[-k,k]<f1(x1+o),f2(x2+o)>,其中,f1,f2是两张特征图,比较的是在f1以x1为中心,在f2以x2为中心,以k为大小的图像块,通过计算两个特征图中所有的图像块的相关系数得到全局的相关系数;
网络的解码器部分输入是之前计算的相关系数,解码器部分一共有6个卷积层,通过6次上采样得到原图尺寸大小的光流和遮罩,每个卷积层都会生成一个光流估计的结果和一个遮罩,并且经过上采样之后输入到下一层中,解码器的每一层输入之前都会计算一次相关系数,除了第一层外,后面的每一层在计算相关系数的时候都会结合光流做一次变形卷积并且乘上遮罩,最后得到的遮罩做一个二值化处理,用于去掉图像重建中的遮挡区域;
步骤S5:利用当前帧图像以及步骤S2得到的图像的深度图和步骤S3得到的相机位姿,并通过双线性插值的方式合成目标帧的图像;
步骤S6:利用步骤S5得到的合成图像与原图像,以及步骤S4得到的遮罩计算损失,通过反向传播的方式训练网络;
步骤S7:步骤S6经过多次的迭代完成对网络的训练,将单幅图片输入到训练好的网络中得到对应的深度图。
2.根据权利要求1所述的方法,其特征在于:
所述步骤S1中低频子带包含图像的内容信息,高频子带包含图像的水平、垂直和对角线信息。
3.根据权利要求2所述的方法,其特征在于:
步骤S1中的多级分解为6级,分解过程中将图像的尺寸降低为分解前的尺寸的一半,网络的解码器部分对网络的特征进行上采样,将图像进行6级分解后,得到的6级特征与网络的尺寸刚好与解码器部分的特征相同。
4.根据权利要求3所述的方法,其特征在于:
步骤S6中,通过网络估计出来的深度图、相机位姿和当前帧图像合成目标帧图像,合成图像与原图计算损失后以达到网络训练的目标;
具体的,利用Structure from Motion(运动恢复结构)的理论合成目标帧图像,具体公式如下:
It0→t1~KTt0→t1DtK-1It0
其中,It0→t1表示合成的目标帧图像,It0表示当前帧图像,K表示相机的内参,Tt0→t1表示从当前帧到目标帧的相机位姿,Dt表示It0对应的深度图。
5.根据权利要求1所述的方法,其特征在于:
本方案计算了三项损失,分别为重投影损失、梯度损失和小波高频损失;计算损失时,利用步骤S4得到的遮罩做处理排除遮挡像素点造成的误差。
6.根据权利要求5所述的方法,其特征在于:
所述重投影损失的公式如下:
Lrep=(αlSSIM+(1-α)||It1-It0→t1||1)*mask
Figure FDA0003824489020000021
其中,α的值取0.85,It0→t1表示合成的目标帧,It1表示目标帧的远图像,||*||1表示L1范式;SSIM为两幅图像之间的结构相似性,是一种衡量两幅图像相似度的指标。
7.根据权利要求5所述的方法,其特征在于:
所述梯度损失的公式如下:
Figure FDA0003824489020000022
其中,
Figure FDA0003824489020000031
Figure FDA0003824489020000032
分别表示求水平方向和垂直方向的梯度,It0表示当前帧图像,Dt表示It0对应的深度图。
8.根据权利要求5所述的方法,其特征在于:
所述小波高频损失的公式如下:
Lwave=||DWThigh(It1)-DWThigh(It0→t1)||1
其中,DWThigh(*)表示小波分解出来的高频子带。
CN202110321996.6A 2021-03-25 2021-03-25 一种基于小波的细节增强无监督深度估计方法 Active CN112991450B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110321996.6A CN112991450B (zh) 2021-03-25 2021-03-25 一种基于小波的细节增强无监督深度估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110321996.6A CN112991450B (zh) 2021-03-25 2021-03-25 一种基于小波的细节增强无监督深度估计方法

Publications (2)

Publication Number Publication Date
CN112991450A CN112991450A (zh) 2021-06-18
CN112991450B true CN112991450B (zh) 2022-11-01

Family

ID=76333707

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110321996.6A Active CN112991450B (zh) 2021-03-25 2021-03-25 一种基于小波的细节增强无监督深度估计方法

Country Status (1)

Country Link
CN (1) CN112991450B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115049666B (zh) * 2022-08-16 2022-11-08 浙江卡易智慧医疗科技有限公司 基于彩色小波协方差深度图模型的内镜虚拟活检装置
CN115272438A (zh) * 2022-08-19 2022-11-01 中国矿业大学 一种面向三维场景重建的高精度单目深度估计***及方法
CN115187638B (zh) * 2022-09-07 2022-12-27 南京逸智网络空间技术创新研究院有限公司 一种基于光流遮罩的无监督单目深度估计方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10958869B1 (en) * 2019-11-14 2021-03-23 Huawei Technologies Co., Ltd. System, device and method for video frame interpolation using a structured neural network

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559702B (zh) * 2013-09-26 2016-04-20 哈尔滨商业大学 基于小波系数熵的二维单视图像深度估计方法
EP3680858A1 (en) * 2019-01-11 2020-07-15 Tata Consultancy Services Limited Dynamic multi-camera tracking of moving objects in motion streams
CN111739078B (zh) * 2020-06-15 2022-11-18 大连理工大学 一种基于上下文注意力机制的单目无监督深度估计方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10958869B1 (en) * 2019-11-14 2021-03-23 Huawei Technologies Co., Ltd. System, device and method for video frame interpolation using a structured neural network

Also Published As

Publication number Publication date
CN112991450A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN112991450B (zh) 一种基于小波的细节增强无监督深度估计方法
Yang et al. Scale-free single image deraining via visibility-enhanced recurrent wavelet learning
CN110223242B (zh) 一种基于时空域残差生成对抗网络的视频湍流移除方法
Hsu et al. Single image dehazing using wavelet-based haze-lines and denoising
US11687773B2 (en) Learning method and recording medium
CN110443761B (zh) 一种基于多尺度聚合特征的单幅图像去雨方法
US9483812B2 (en) Enhancing motion pictures with accurate motion information
Zhang et al. Sparse representation-based video quality assessment for synthesized 3D videos
CN111951195A (zh) 图像增强方法及装置
CN116205962B (zh) 基于完整上下文信息的单目深度估计方法及***
Fan et al. Multiscale cross-connected dehazing network with scene depth fusion
CN116596792B (zh) 一种面向智能船舶的内河雾天场景恢复方法、***及设备
CN113362338A (zh) 铁轨分割方法、装置、计算机设备和铁轨分割处理***
Lu et al. Underwater image enhancement method based on denoising diffusion probabilistic model
Li et al. Efficient burst raw denoising with variance stabilization and multi-frequency denoising network
CN114598833B (zh) 基于时空联合注意力的视频插帧方法
Yu et al. Deep learning-based RGB-thermal image denoising: review and applications
Kumar et al. Underwater image enhancement using deep learning
Alshammri et al. Three-dimensional video super-resolution reconstruction scheme based on histogram matching and recursive Bayesian algorithms
Leduc et al. Adaptive motion-compensated wavelet filtering for image sequence coding
Zhang et al. WTVI: A Wavelet-Based Transformer Network for Video Inpainting
Gu et al. Quality Assessment of Visual Content
Mohamed et al. A collaborative adaptive Wiener filter for multi-frame super-resolution
CN117058049B (zh) 新视角图像合成方法、合成模型训练方法及存储介质
Swamy et al. UNDERWATER IMAGE ENHANCEMENT THROUGH DEHAZING AND COLOR CORRECTION TECHNIQUES

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant