CN112200732A

CN112200732A - 一种清晰特征融合的视频去模糊方法

Info

Publication number: CN112200732A
Application number: CN202010368483.6A
Authority: CN
Inventors: 魏颢; 项欣光; 潘金山
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2021-01-08
Anticipated expiration: 2040-04-30
Also published as: CN112200732B

Abstract

本发明公开了一种清晰特征融合的视频去模糊方法。首先选取连续的多个模糊视频帧，使用光流估计的网络估计出连续帧之间的光流，并通过估计出来的光流对相邻帧进行图像扭转，然后将扭转后的结果和原始模糊帧序列作为去模糊网络的输入，再然后选取多个清晰帧通过一个清晰特征提取模块，得到清晰特征并融入去模糊的网络，最后去模糊网络输出相对清晰的视频帧。该方法对清晰帧的场景鲁棒、任意场景的清晰帧都可以用来做特征融合并有助于视频帧的重建，方便有效。

Description

一种清晰特征融合的视频去模糊方法

技术领域

本发明涉及端到端的视频去模糊网络，具体是一种基于清晰特征融合的视频去模糊算法。

背景技术

近年来，随着便携式成像设备，如手机，相机的发展，图像/视频去模糊技术受到了更多的关注。模糊的形成原因有很多，其中包括成像过程中物体的运动，相机的抖动以及景深，这给计算机视觉的研究 (目标检测，物体识别)带来了很多阻力。因此，进行去模糊算法的研究是非常有必要的。

目前去模糊算法主要分成两类，一类是基于物理模型的方法，另一类是基于学习的方法。早期，根据退化模型(B＝K*S+N),其中B表示模糊图像，K表示模糊核，S表示清晰图像，N表示附加噪声。在已知模糊图像B的情况下，求解出模糊核K和清晰图像S非常困难的，会出现多解的情况，所以这是一个病态的问题。为了约束解空间，人们设计一些自然图像的先验，包括L0梯度先验，暗通道先验等来约束自然图像，并在最大后验框架下进行求解。但是，该方法基于物理模型优化困难，耗时，没有通用性，需要人为设计的先验信息进行约束。

另外一种基于学习的方法是现如今比较流行的方法。人们通过设计合理的神经网络，从数据集中学习自然图像的内在分布，最终达到去模糊的目的。

本发明提出了一种端到端的视频去模糊的网络，不同于图像去模糊，视频去模糊需要考虑相邻帧之间的关系。

发明内容

本发明目的在于提供一个端到端的基于清晰特征融合的视频去模糊算法，输入多张连续的模糊视频帧，恢复出清晰的中间帧。

实现本发明目的的技术解决方案为：一种基于清晰特征融合的视频去模糊算法该方法，包括以下步骤：

步骤A：设计光流估计模块，将连续模糊的三帧输入该模块，输出的是两张邻帧进行图像扭转(image warp)后的结果；

步骤B：设计清晰特征融合模块，将任意清晰的三帧输入该模块，输出不同尺度的清晰特征图；

步骤C：设计去模糊模块，将步骤A的结果和原始输入堆叠后送入该模块，并将步骤B的结果融入整个去模糊的过程，最终就可以得到清晰的的中间帧。

本发明与现有技术相比，其显著优点为：本发明分别从运动补偿和图像去模糊两个方面同时考虑。本发明对清晰帧的场景鲁棒，任意场景的清晰帧都可以用来做特征融合并有助于视频帧的重建，方便有效。

附图说明

图1是本发明的整体流程图。

图2是本发明所设计的网络结构图。

图3是本发明的去模糊效果对比图。(a)是模糊视频帧，(b) 是重建结果。

具体实施方式

下面结合说明书附图对本发明作进一步说明。

由图2所示，整个网络包括3个模块，分别为光流估计模块，清晰特征融合模块和去模糊模块。

根据图1的第一个板块，数据准备的步骤如下：

步骤1.下载GOPRO_Su的数据集作为训练样本，其中包括71个视频集，每个视频里面有多个成对的模糊-清晰的视频帧；

步骤2.将71个视频分为两个部分，其中61个视频作为训练样本，10个视频作为测试样本。

根据图1的第二个板块，光流估计模块的步骤如下：

步骤1.预先设定好训练参数，包括光流估计模块的学习率1e-6，去模糊模块的学习率1e-4，最大迭代epoch＝500；

步骤2.选取连续的三张模糊图像{I₁,I₂,I₃}，通过FlowNetS估计出相邻两帧之间的光流{f_1→2,f_3→2}，分别得到两张2通道的光流图，将光流与邻帧做图像扭转(image warp)的操作，将邻帧扭转到中间帧最终得到两张3通道的RGB图像{warp_1→2,warp_3→2}。该过程可描述如下：

f_1→2＝F([I₁,I₂]),f_3→2＝F([I₃,I₂]),

warp_1→2＝W([f_1→2,I₁]),warp_3→2＝W([f_3→2,I₃])；

其中F()表示光流估计网络，[]表示图像concat的操作，W()表示warp 操作。

根据图1的第三个板块，清晰特征融合模块的步骤如下：

选取三张清晰图像{S₁,S₂,S₃},这三张图像应该与之前模糊图像的内容是不同的，将这三张清晰图像通过一个特征提取模块，该特征提取模块分别由两层卷积组成，最终分别得到32张256×256的特征图 {feature_coarse}和64张64×64的特征图{feature_fine}。该过程可描述如下：

Feature_coarse,feature_fine＝E([S₁,S₂,S₃])

其中E()表示特征提取网络，[]表示图像concat的操作。

根据图1的第四个板块，去模糊模块的步骤如下：

步骤1.将光流估计模块中得到的warp后的结果{warp_1→2,warp_3→2} 和原始模糊视频帧{I₁,I₂,I₃}一同送入去模糊模块；

步骤2.去模糊模块是一个编解码的结构，每一个编码块由1层卷积外加三个残差块，每一个解码块由三个残差块外加一个反卷积。在去模糊的过程中，将清晰特征融合模块得到的清晰特征图{feature_coarse,feature_fine}嵌入到去模糊模块中的编码器和解码器部分，最终得到一张与I₂对应的清晰图像R₂。通过计算生成的清晰图像R₂与原始I₂的参考清晰图像G₂的误差来更新整个网络。该过程可描述如下：

input＝[warp_1→2,I₁,I₂,I₃,warp_3→2],

En_out＝En(input,feature_coarse,feature_fine),

De_out＝De(En_out,feature_coarse,feature_fine)；

其中En()表示编码器部分，De()表示解码器部分。

步骤3.按照以上的步骤进行训练，直至训练到最大迭代数，至此生成模型就训练完成。

根据图1的第五个板块，测试步骤如下：

步骤1.将数据准备部分所得到10个视频的测试样本输入到训练好的模型中；

步骤2.关于清晰帧的选取，可以是任意的不同于模糊场景的清晰帧，同样的也输入到训练好的模型中，最终得到清晰的图像。图3 是本发明的视觉效果图。

Claims

1.一种清晰特征融合的视频去模糊方法，具体步骤包含如下

步骤A：设计光流估计模块，将连续模糊的三帧输入该模块，输出的是两张邻帧进行图像扭转image warp后的结果；

2.根据权利要求1所描述的方法，其中步骤A具体包括如下步骤：

步骤A01.预先设定好训练参数，包括光流估计模块的学习率1e-6，去模糊模块的学习率1e-4，最大迭代epoch＝500；

步骤A02.选取连续的三张模糊图像{I₁,I₂,I₃}，通过FlowNetS估计出相邻两帧之间的光流{flow_1→2,flow_3→2}，分别得到两张2通道的光流图，将光流与邻帧做图像扭转(imagewarp)的操作，将邻帧扭转到中间帧最终得到两张3通道的RGB图像{warp_1→2,warp_3→2}。

3.根据权利要求1所描述的方法，其中步骤B具体包括如下步骤：

步骤B01.选取三张清晰图像{S₁,S₂,S₃},这三张图像应该与步骤A02中模糊图像的内容是不同的，将这三张清晰图像通过一个特征提取模块，分别得到32张256×256的特征图{feature_coarse}和64张64×64的特征图{feature_fine}。

4.根据权利要求1所描述的方法，其中步骤C具体包括如下步骤：

步骤C01.将步骤A02得到的warp后的结果{warp_1→2,warp_3→2}和原始模糊视频帧{I₁,I₂,I₃}一同送入去模糊模块；在去模糊的过程中，将步骤B01得到的清晰特征图{feature_coarse,feature_fine}嵌入到去模糊模块之中，最终得到一张与I₂对应的清晰图像R₂；通过计算生成的清晰图像R₂与原始I₂的参考清晰图像G₂的误差来更新整个网络；

步骤C02.按照以上的步骤进行训练，直至训练到最大迭代数，至此生成模型就训练完成；

步骤C03.模型训练完成后，输入三张连续的模糊视频帧，并选取任意场景的清晰帧来进行清晰特征提取，最终得到清晰的图像。