CN113658062A - 一种视频去模糊方法、装置及计算设备 - Google Patents

一种视频去模糊方法、装置及计算设备 Download PDF

Info

Publication number
CN113658062A
CN113658062A CN202110857776.5A CN202110857776A CN113658062A CN 113658062 A CN113658062 A CN 113658062A CN 202110857776 A CN202110857776 A CN 202110857776A CN 113658062 A CN113658062 A CN 113658062A
Authority
CN
China
Prior art keywords
cnn
fam
module
frame
layers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110857776.5A
Other languages
English (en)
Inventor
樊硕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yingpu Technology Co Ltd
Original Assignee
Shanghai Yingpu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yingpu Technology Co Ltd filed Critical Shanghai Yingpu Technology Co Ltd
Priority to CN202110857776.5A priority Critical patent/CN113658062A/zh
Publication of CN113658062A publication Critical patent/CN113658062A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/73Deblurring; Sharpening
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20048Transform domain processing
    • G06T2207/20056Discrete and fast Fourier transform, [DFT, FFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种视频去模糊方法、装置及计算设备。所述方法包括:建立3D CNN模块,所述3D CNN模块包括19层3D卷积层,其中,第2层至第10层为编码器,第11层至第19层为解码器;对所述3D CNN模块进行预训练;建立傅里叶积累模块FAM,形成3D CNN+FAM网络,所述3D CNN+FAM网络包括5个3D CNN模块和1个FAM,所述FAM包括4层2D卷积层,所述5个3D CNN模块的输入分别为一个视频中相邻的5帧图像,所述相邻的5帧图像经过5个3D CNN模块处理后形成1帧中间去模糊图像,所述FAM用于对所述中间去模糊图像进行处理,并输出1帧最终的去模糊图像;对所述3DCNN+FAM网络进行训练,得到最终的3D CNN+FAM网络。

Description

一种视频去模糊方法、装置及计算设备
技术领域
本申请涉及视频去模糊技术,特别是涉及利用卷积神经网络(CNN)进行视频去模糊的技术。
背景技术
由于摄像机抖动、成像***退化和物体移动等原因造成了不希望看到的模糊,因此视频清模糊是一个具有挑战性的问题。利用视频的时空相关性来锐化模糊帧的方法已经有很多了。在不同的帧数下,同一区域可能存在清晰和模糊的像素。通过提高像素锐化的影响和降低模糊像素的影响,可以提高视频质量。根据这一思想,提出了一种傅里叶突发积累方法,即建立对齐的相邻帧,然后在傅里叶域内融合这些相邻帧。类似地,如基于块的累加方法来融合相邻帧,恢复模糊区域。和基于运动流的像素变化核参数化方法,并将其推广到逐帧图像去模糊。为了保证去模糊的质量,许多去模糊方法都需要精确的对齐(例如,同调对齐),光流对准)视频中的多帧和复杂的运动流。这种预处理方法计算量大,大大降低了图像去模糊的效率。
卷积神经网络(CNNs)及其扩展在计算机视觉领域取得了前所未有的进展。一些工作已经证明CNNs可以产生最先进的视频去模糊性能。现有的去模糊方法如,基于U-net的去模糊网络(DBN)。将相邻帧叠加到DBN中,恢复中心帧。和一种基于深度CNN的非盲去模糊方法,该方法将传统的基于优化的去模糊算法转化为网络。利用CNN对修补后的模糊核进行预测,然后对整个图像的模糊核进行估计。此外还有一种利用CNN作为生成对抗性网络(GAN)进行视频去模糊的方法,这有助于实现主观视觉去模糊性能。用于视像去模糊的生成器,有助于实现主观视觉去模糊性能。另外,曾经有人提出了一种基于递归神经网络(RNN)的在线视频去模糊方法,他们将动态的时间混合层附加到二维网络中,以增强时间一致性,从而获得准确的时空信息。但是,这些去模糊方法为了保证去模糊质量,都需要对视频中的多帧和复杂运动流进行精确的对齐(如单应对齐、光流对齐),导致预处理计算量大,大大降低视频去模糊的效率。
发明内容
本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。
根据本申请的一个方面,提供了一种视频去模糊方法,包括:
建立3D CNN模块,所述3D CNN模块包括19层3D卷积层,其中,第2 层至第10层为编码器,第11层至第19层为解码器;
对所述3D CNN模块进行预训练;
建立傅里叶积累模块FAM,形成3D CNN+FAM网络,所述3D CNN+FAM 网络包括5个3DCNN模块和1个FAM,所述FAM包括4层2D卷积层,所述5个3D CNN模块的输入分别为一个视频中相邻的5帧图像,所述相邻的5 帧图像经过5个3D CNN模块处理后形成1帧中间去模糊图像,所述FAM用于对所述中间去模糊图像进行处理,并输出1帧最终的去模糊图像;
对所述3D CNN+FAM网络进行训练,得到最终的3D CNN+FAM网络。
可选地,所述3D CNN模块的每层3D卷积层和所述傅里叶积累模块的每层2D卷积层均包括批处理归一化和整线性单元。
可选地,所述编码器和解码器之间还设置有跳跃连接。
可选地,对所述3D CNN模块进行预训练的过程中,使的损失函数为:
Figure 100002_1
其中x表示模糊输入,ti(x)表示当前视频第i帧的原始灰度值,
Figure BDA0003184744830000022
表示当前视频第i帧的灰度预测值,f为帧索引,v为视频的索引,p和q分别为训练视频的数量和每个视频的帧数,tv,f(x)表示训练数据的原始灰度值,
Figure BDA0003184744830000023
表示训练数据的预测值。
根据本申请的另一个方面,提供了一种视频去模糊装置,包括:
3D CNN模块建立模块,其配置成建立3D CNN模块,所述3D CNN模块包括19层3D卷积层,其中,第2层至第10层为编码器,第11层至第19层为解码器;
预训练模块,其配置成对所述3D CNN模块进行预训练;
傅里叶积累模块FAM建立模块,其配置成建立傅里叶积累模块FAM,形成3D CNN+FAM网络,所述3D CNN+FAM网络包括5个3D CNN模块和1 个FAM,所述FAM包括4层2D卷积层,所述5个3D CNN模块的输入分别为一个视频中相邻的5帧图像,所述相邻的5帧图像经过5个3D CNN模块处理后形成1帧中间去模糊图像,所述FAM用于对所述中间去模糊图像进行处理,并输出1帧最终的去模糊图像;
训练模块,其配置成对所述3D CNN+FAM网络进行训练,得到最终的3D CNN+FAM网络。
可选地,所述3D CNN模块的每层3D卷积层和所述傅里叶积累模块的每层2D卷积层均包括批处理归一化和整线性单元。
可选地,所述编码器和解码器之间还设置有跳跃连接。
可选地,对所述3D CNN模块进行预训练的过程中,使的损失函数为:
Figure 100002_2
其中x表示模糊输入,ti(x)表示当前视频第i帧的原始灰度值,
Figure BDA0003184744830000032
表示当前视频第i帧的灰度预测值,f为帧索引,v为视频的索引,p和q分别为训练视频的数量和每个视频的帧数,tv,f(x)表示训练数据的原始灰度值,
Figure BDA0003184744830000033
表示训练数据的预测值。
根据本申请的第三个方面,提供了一种计算设备,包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序,其中,所述处理器执行所述计算机程序时实现本申请所述的方法。
本申请的视频去模糊方法、装置及计算设备,由于利用相邻帧的时空信息进行视频的清模糊,利用视频的时空相关性来锐化模糊帧,不需要精确的对准和对齐预处理,因此,该方法能够简化计算,缩短去模糊处理时间,从而提高视频去模糊的效率。
根据下文结合附图对本申请的具体实施例的详细描述,本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。
附图说明
后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:
图1是根据本申请一个实施例的一种视频去模糊方法的示意性流程图;
图2是根据本申请一个实施例的3D CNN模块的结构示意图;
图3是根据本申请一个实施例3D CNN+FAM网络的结构示意图;
图4是根据本申请一个实施例的一种视频去模糊装置的结构示意图;
图5是根据本申请一个实施例的一种计算设备的结构示意图;
图6是根据本申请一个实施例的一种计算机可读存储介质的结构示意图。
具体实施方式
本实施例的基于三维CNN和傅里叶累积学习的视频去模糊方法,所采用的实验数据集为视频去模糊数据集,包括模糊帧和相应的地面真相。该数据集中的图像由各种成像设备采集,包括iPhone 6S、GoPro Hero 4和Nexue 5x等,每组包含100帧,每组持续时间为3-5秒,每帧的尺寸为1280×720。该数据集包含两个子集:定量数据集和定性数据集。定量数据集有71个视频,共包含 6708个模糊帧及其相应的地面真实帧。对于3D数据(例如视频),需要同时从空间和时间维度捕获特征。本实施例将71个视频分成61个训练集和10个测试集。定性数据集包含22个视频,每个视频有100多个帧。定性数据集中的模糊框架没有对应的地面真实。采用数据增强方法,通过翻转、旋转来增加训练集。 (0°,90°,180°,270°)缩放(1/4,1/3,1/2)录像。
图1是根据本申请一个实施例的一种视频去模糊方法的示意性流程图。所述视频去模糊方法一般性地可包括如下步骤S1至S4。
步骤S1、建立3D CNN模块
如图2所示,所述3D CNN模块包括19层3D卷积层,其中,第2层至第10层为编码器,第11层至第19层为解码器。
3D卷积层是3D CNN的基础层,在每个3D卷积层中加入批处理归一化(BN) 和整线性单元(ReLU),使得训练更加有效。
本实施例的3D CNN模块够提取分层时空特征用于视频去模糊。如图2所示,在3DCNN模块中,假设模糊输入X包含N帧{x1,x2,···,xN}∈RH×W×C×L, X与Y=y中心∈RH×W×C×L是对应的输出张量集,其中H、W、C分别表示采样帧的宽度、高度和通道,N为帧窗口的大小,L为训练样本的数量。为了充分利用视频的时空信息,将RGB通道分割成3个立方体,通过换位获取时间信息。T表示第一维度向第二维度的移位。
图2中L1至L19分别表示第1层至第19层,每层上面的数字表示对应的特征尺度。编码器-解码器结构包括空时特征学习部分(第1层和第2层)和17 层三维卷积层(第3层-第19层)。编、解码器各层均由3D卷积、BN和ReLU 组成,在编码器和解码器之间增加跳跃连接(从输入到L19、L1到L17、L4到 L14、L7到L11),这有助于加快网络的收敛速度。在编码器部分,学习了第1 层输入图像(即输入至L1的图像)的时空特征,交换了第1层输出图像的时空维度,然后同样学习了第2层的时空特征。在多尺度空间中提取深度特征有利于视频去模糊,因此与U-net类似,在编码器中,通过卷积层来学习图像特征,逐步降低特征,从较粗的尺度中学习特征。在解码器部分(第11-19层)的每一层均为反卷积层,可以用来还原特征图的尺寸。本步骤构建的三维卷积码编码器-解码器结构,能够提取多尺度时空深度特征,生成具有互补信息的中间去模糊图像,有利于每帧图像的去模糊。
步骤S2、对所述3D CNN模块进行预训练,得到中间去模糊图像。
预训练过程中采用均方误差(MSE)作为损失函数:
Figure 3
其中x表示模糊输入,ti(x)表示当前视频第i帧的原始灰度值,
Figure BDA0003184744830000052
表示当前视频第i帧的灰度预测值,f为帧索引,v为视频的索引,p和q分别为训练视频的数量和每个视频的帧数,tv,f(x)表示训练数据的原始灰度值,
Figure BDA0003184744830000053
表示训练数据的预测值。总共预训练了100000次迭代,并在每500次迭代后重新设置3D CNN的权重。在前训练的20000次迭代中,将学习率设置为0.001。之后每迭代10000次学习率衰减一半,直到衰减至10-5
步骤S3、建立傅里叶积累模块FAM,形成3D CNN+FAM网络
所述3D CNN+FAM网络包括5个3D CNN模块和1个FAM,所述FAM 包括4层2D卷积层,所述5个3D CNN模块的输入分别为一个视频中相邻的 5帧图像,所述相邻的5帧图像经过5个3D CNN模块处理后形成1帧中间去模糊图像,所述FAM用于对所述中间去模糊图像进行处理,并输出1帧最终的去模糊图像。
融合相邻帧可以消除模糊,通过对相邻帧的傅里叶系数加权累加,能够得到具有清晰边缘和细节的后验框架的傅里叶系数,因此,本实施例在三维CNN 的末尾增加了若干个傅里叶加权学习层。
如图3所示,在FAM中设置了4个卷积层(L20-L23)。在此网络中,以九个相邻帧作为一个单元,将这九个相邻帧分成五个重叠组,每个组有五个相邻帧,例如{fi-4、fi-3、fi-2、fi-1、fi}为一组,{fi-3、fi-2、fi-1、fi、fi+1}为一组,……, {fi、fi+1、fi+2、fi+3、fi+4}为一组。首先将第一组模糊图像输入至5个3D CNN 模块中,5个3D CNN模块输出1帧中间去模糊图像(由图中带下角标的字母O 表示),然后将这个中间去模糊图像输入至入FAM,FAM输出一帧最终的去模糊图像;然后将第二组模糊图像输入至5个3D CNN模块中,同样地,FAM 输出一帧最终的去模糊图像……。不同组出现的重叠帧使用相同的3D CNN网络。首先应用傅里叶变换的FAM输入H×W×15,其中15表示5帧的RGB信道。FAM中的每一层都包含一个2D卷积作为傅立叶权值学习层、一个BN和一个relu,每个卷积的核大小为5×5,使用FAM中学习到的权值计算第i帧的傅里叶系数
Figure BDA0003184744830000061
Figure BDA0003184744830000062
其中N为相邻窗口的半长,M为FAM中的网络层数。wj(ζ)代表第j层的网络参数,
Figure BDA0003184744830000063
是9个连续帧中第k帧的傅里叶系数。FAM以非线性的方式学习聚合的权重。最后,通过傅里叶反变换得到融合后的傅里叶系数,得到估计的去模糊帧。
步骤S4、对所述3D CNN+FAM网络进行训练,得到最终的3D CNN+FAM 网络。
使用与3D CNN模块相同的损失函数对所述3D CNN+FAM网络进行端到端(从输入端到输出端)的训练,生成最终估计的去模糊帧。训练50000次迭代,每迭代1000次更新所有权重,学习率为10-4。训练后的网络可以从模糊的视频中推断出清晰的帧。
本实施例提出的三维卷积译码器能够从帧立方体中提取深度时空特征,并生成包含伪影的中间去模糊图像,这些中间去模糊图像被馈给FAM以进一步增强。在FAM中,将傅里叶域的不同中间帧融合在一起,增强了视频的清模糊效果。将本实施例所提出的方法与已有的算法进行了定性和定量比较,实验结果表明,本实施例的方法具有良好的视频去模糊性能。对帧间共配对3D CNN+FAM网络的影响进行分析,分析结果表明,即使不进行共配预处理,本实施例的3D CNN+FAM网络也具有很强的竞争性能,大大缩短了视频去模糊的处理时间。
图4是根据本申请一个实施例的一种视频去模糊装置的结构示意图,所述的一种视频去模糊装置包括:
3D CNN模块建立模块1,其配置成建立3D CNN模块,所述3D CNN模块包括19层3D卷积层,其中,第2层至第10层为编码器,第11层至第19 层为解码器;
预训练模块2,其配置成对所述3D CNN模块进行预训练;
傅里叶积累模块FAM建立模块3,其配置成建立傅里叶积累模块FAM,形成3D CNN+FAM网络,所述3D CNN+FAM网络包括5个3D CNN模块和1 个FAM,所述FAM包括4层2D卷积层,所述5个3D CNN模块的输入分别为一个视频中相邻的5帧图像,所述相邻的5帧图像经过5个3D CNN模块处理后形成1帧中间去模糊图像,所述FAM用于对所述中间去模糊图像进行处理,并输出1帧最终的去模糊图像;
训练模块4,其配置成对所述3D CNN+FAM网络进行训练,得到最终的 3D CNN+FAM网络。
作为本申请的优选实施例,所述3D CNN模块的每层3D卷积层和所述傅里叶积累模块的每层2D卷积层均包括批处理归一化和整线性单元。
作为本申请的优选实施例,所述编码器和解码器之间还设置有跳跃连接。
作为本申请的优选实施例,对所述3D CNN模块进行预训练的过程中,使的损失函数为:
Figure 4
其中x表示模糊输入,ti(x)表示当前视频第i帧的原始灰度值,
Figure BDA0003184744830000072
表示当前视频第i帧的灰度预测值,f为帧索引,v为视频的索引,p和q分别为训练视频的数量和每个视频的帧数,tv,f(x)表示训练数据的原始灰度值,
Figure BDA0003184744830000073
表示训练数据的预测值。
本申请实施例还提供了一种计算设备,参照图4,该计算设备包括存储器 1120、处理器1110和存储在所述存储器1120内并能由所述处理器1110运行的计算机程序,该计算机程序存储于存储器1120中的用于程序代码的空间1130,该计算机程序在由处理器1110执行时实现用于执行任一项根据本发明的方法步骤1131。
本申请实施例还提供了一种计算机可读存储介质。参照图5,该计算机可读存储介质包括用于程序代码的存储单元,该存储单元设置有用于执行根据本发明的方法步骤的程序1131′,该程序被处理器执行。
本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时,使得计算机执行根据本发明的方法步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成,所述的程序可以存储于计算机可读存储介质中,所述存储介质是非短暂性(英文:non-transitory)介质,例如随机存取存储器,只读存储器,快闪存储器,硬盘,固态硬盘,磁带(英文:magnetic tape),软盘(英文:floppy disk),光盘(英文:optical disc)及其任意组合。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (9)

1.一种视频去模糊方法,包括:
建立3D CNN模块,所述3D CNN模块包括19层3D卷积层,其中,第2层至第10层为编码器,第11层至第19层为解码器;
对所述3D CNN模块进行预训练;
建立傅里叶积累模块FAM,形成3D CNN+FAM网络,所述3D CNN+FAM网络包括5个3D CNN模块和1个FAM,所述FAM包括4层2D卷积层,所述5个3D CNN模块的输入分别为一个视频中相邻的5帧图像,所述相邻的5帧图像经过5个3D CNN模块处理后形成1帧中间去模糊图像,所述FAM用于对所述中间去模糊图像进行处理,并输出1帧最终的去模糊图像;
对所述3D CNN+FAM网络进行训练,得到最终的3D CNN+FAM网络。
2.根据权利要求1所述的方法,其特征在于,所述3D CNN模块的每层3D卷积层和所述傅里叶积累模块的每层2D卷积层均包括批处理归一化和整线性单元。
3.根据权利要求1所述的方法,其特征在于,所述编码器和解码器之间还设置有跳跃连接。
4.根据权利要求1-3中任一项所述的方法,其特征在于,对所述3D CNN模块进行预训练的过程中,使的损失函数为:
Figure 1
其中x表示模糊输入,ti(x)表示当前视频第i帧的原始灰度值,
Figure FDA0003184744820000012
表示当前视频第i帧的灰度预测值,f为帧索引,v为视频的索引,p和q分别为训练视频的数量和每个视频的帧数,tv,f(x)表示训练数据的原始灰度值,
Figure FDA0003184744820000013
表示训练数据的预测值。
5.一种视频去模糊装置,包括:
3D CNN模块建立模块,其配置成建立3D CNN模块,所述3D CNN模块包括19层3D卷积层,其中,第2层至第10层为编码器,第11层至第19层为解码器;
预训练模块,其配置成对所述3D CNN模块进行预训练;
傅里叶积累模块FAM建立模块,其配置成建立傅里叶积累模块FAM,形成3D CNN+FAM网络,所述3D CNN+FAM网络包括5个3D CNN模块和1 个FAM,所述FAM包括4层2D卷积层,所述5个3D CNN模块的输入分别为一个视频中相邻的5帧图像,所述相邻的5帧图像经过5个3DCNN模块处理后形成1帧中间去模糊图像,所述FAM用于对所述中间去模糊图像进行处理,并输出1帧最终的去模糊图像;
训练模块,其配置成对所述3D CNN+FAM网络进行训练,得到最终的3D CNN+FAM网络。
6.根据权利要求5所述的装置,其特征在于,所述3D CNN模块的每层3D卷积层和所述傅里叶积累模块的每层2D卷积层均包括批处理归一化和整线性单元。
7.根据权利要求5所述的装置,其特征在于,所述编码器和解码器之间还设置有跳跃连接。
8.根据权利要求5-7中任一项所述的装置,其特征在于,对所述3D CNN模块进行预训练的过程中,使的损失函数为:
Figure 2
其中x表示模糊输入,ti(x)表示当前视频第i帧的原始灰度值,
Figure FDA0003184744820000022
表示当前视频第i帧的灰度预测值,f为帧索引,v为视频的索引,p和q分别为训练视频的数量和每个视频的帧数,tv,f(x)表示训练数据的原始灰度值,
Figure FDA0003184744820000023
表示训练数据的预测值。
9.一种计算设备,包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如权利要求1-4中任一项所述的方法。
CN202110857776.5A 2021-07-28 2021-07-28 一种视频去模糊方法、装置及计算设备 Pending CN113658062A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110857776.5A CN113658062A (zh) 2021-07-28 2021-07-28 一种视频去模糊方法、装置及计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110857776.5A CN113658062A (zh) 2021-07-28 2021-07-28 一种视频去模糊方法、装置及计算设备

Publications (1)

Publication Number Publication Date
CN113658062A true CN113658062A (zh) 2021-11-16

Family

ID=78490773

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110857776.5A Pending CN113658062A (zh) 2021-07-28 2021-07-28 一种视频去模糊方法、装置及计算设备

Country Status (1)

Country Link
CN (1) CN113658062A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106934769A (zh) * 2017-01-23 2017-07-07 武汉理工大学 基于近景遥感的去运动模糊方法
WO2019214381A1 (zh) * 2018-05-09 2019-11-14 腾讯科技(深圳)有限公司 一种视频去模糊方法、装置、存储介质和电子装置
CN111199521A (zh) * 2019-12-10 2020-05-26 南京理工大学 嵌入傅立叶聚合的视频去模糊三维卷积深度网络方法
US20200357099A1 (en) * 2019-05-09 2020-11-12 Adobe Inc. Video inpainting with deep internal learning

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106934769A (zh) * 2017-01-23 2017-07-07 武汉理工大学 基于近景遥感的去运动模糊方法
WO2019214381A1 (zh) * 2018-05-09 2019-11-14 腾讯科技(深圳)有限公司 一种视频去模糊方法、装置、存储介质和电子装置
US20200357099A1 (en) * 2019-05-09 2020-11-12 Adobe Inc. Video inpainting with deep internal learning
CN111199521A (zh) * 2019-12-10 2020-05-26 南京理工大学 嵌入傅立叶聚合的视频去模糊三维卷积深度网络方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
F. YANG, L. XIAO AND J. YANG: "Video Deblurring Via 3d CNN and Fourier Accumulation Learning", 《ICASSP 2020》, pages 2443 - 2447 *

Similar Documents

Publication Publication Date Title
CN110008817B (zh) 模型训练、图像处理方法、装置、电子设备及计算机可读存储介质
CN108122197B (zh) 一种基于深度学习的图像超分辨率重建方法
CN106127688B (zh) 一种超分辨率图像重建方法及其***
CN110969589A (zh) 基于多流注意对抗网络的动态场景模糊图像盲复原方法
CN108346133B (zh) 一种面向视频卫星超分辨率重建的深度学习网络训练方法
CN110148088B (zh) 图像处理方法、图像去雨方法、装置、终端及介质
CN110189260B (zh) 一种基于多尺度并行门控神经网络的图像降噪方法
CN114463218B (zh) 一种基于事件数据驱动的视频去模糊方法
CN109949234B (zh) 基于深度网络的视频复原模型训练方法及视频复原方法
CN116681584A (zh) 一种多级扩散图像超分辨算法
CN114723630A (zh) 基于空洞双残差多尺度深度网络的图像去模糊方法及***
CN114596233A (zh) 基于注意引导和多尺度特征融合的低照度图像增强方法
Ma et al. Forgetting to remember: A scalable incremental learning framework for cross-task blind image quality assessment
CN106981046A (zh) 基于多层梯度约束回归的单幅图像超分辨率重建方法
CN112200752B (zh) 一种基于er网络多帧图像去模糊***及其方法
Karthick et al. Deep RegNet-150 Architecture for Single Image Super Resolution of Real-time Unpaired Image Data
CN113096032A (zh) 一种基于图像区域划分的非均匀一致模糊去除方法
CN117422653A (zh) 一种基于权重共享和迭代数据优化的低光照图像增强方法
CN116977200A (zh) 视频去噪模型的处理方法、装置、计算机设备和存储介质
CN113658062A (zh) 一种视频去模糊方法、装置及计算设备
CN115018726A (zh) 一种基于U-Net的图像非均匀模糊核的估计方法
CN110648291B (zh) 一种基于深度学习的无人机运动模糊图像的复原方法
CN115409721A (zh) 暗光视频增强方法及装置
CN113935910A (zh) 一种基于深度学习的图像模糊长度测量方法
CN113012072A (zh) 一种基于注意力网络的图像运动去模糊方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination