CN111008939B

CN111008939B - 一种基于可控特征空间的神经网络视频去模糊方法

Info

Publication number: CN111008939B
Application number: CN201911177488.4A
Authority: CN
Inventors: 张笑钦; 蒋润华; 王涛; 王金鑫; 赵丽
Original assignee: Wenzhou University
Current assignee: Wenzhou University
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2022-04-05
Anticipated expiration: 2039-11-27
Also published as: CN111008939A

Abstract

本发明公开了一种基于可控特征空间的神经网络视频去模糊方法，包括以下步骤：从部分输入中获取短期时序信息，并从所有输入中获取长期时序信息；从所有输入中获取全局空间信息，并对长期时序信息再次进行检测；利用长期时序信息和短期时序信息计算多帧之间的联系，之后，使用全局空间信息在特征空间中进行去模糊，并将全局信息再次注入特征空间以控制特征空间；将去模糊后的多帧序列从特征空间中还原为清晰视频序列。上述技术方案，充分考虑了输入序列中帧与帧的时序信息。对此，本发明专门设计了一个时域处理模块，用于提取输入序列中的长短期时空信息，这对最后的恢复结果有重要影响。

Description

一种基于可控特征空间的神经网络视频去模糊方法

技术领域

本发明涉及图像处理技术领域，具体涉及一种基于可控特征空间的神经网络视频去模糊方法。

背景技术

随着计算机技术的迅猛发展，视频逐渐成为最主要的多媒体信息，成为目标跟踪、安防监控、识别取证等重要任务的输入。然而，由于拍摄过程中物体运动或相机晃动等原因，作为输入的视频往往含有一定程度的模糊影响，而这些模糊内容往往严重影响了视频的可应用价值。

视频去模糊是一个经典的视频处理问题，最早被提出的视频去模糊算法是逆滤波(Inverse Filter)反卷积算法。Nathan采用二位逆滤波算法来进行还原处理，随着研究的不断深入，Donatelli等人将偏微分方程(Partial Differential Equation,PDE)理论应用于视频序列的恢复处理。此后，Fergus等人深入研究对比了运动模糊退化的视频图像以及原始清晰的视频图像各自的梯度分布，提出一种基于分布统计模型的盲运动去模糊算法。而Takeda针对视频图像序列的特性，充分利用时域上的信息，建立三维的时空不变的点扩散函数模型来对视频序列进行去模糊处理。在深度学习浪潮兴起之后，2D卷积以及3D卷积操作被广泛应用于时域信息的获取，并通过卷积神经网络强大的学习能力学习模糊视频到清晰视频的映射。

上述方法在视频去模糊领域均取得了一定的成效，但由于神经网络在前向传播过程中的信息丢失问题，恢复的清晰视频系列往往会丢失单帧之上的空间信息，造成图像失真的问题。

此外，由于对时序信息建模的不准确性，现有方法的复原视频往往会出现跳帧等问题。

发明内容

针对现有技术存在的不足，本发明的目的在于提供一种基于可控特征空间的神经网络视频去模糊方法，该方法是通过对神经网络特征空间进行控制防止空间信息的丢失，并通过循环神经网络与卷积神经网络相互配合的形式获取长短期时空信息的神经网络视频去模糊方法。

为实现上述目的，本发明提供了如下技术方案：一种基于可控特征空间的神经网络视频去模糊方法，包括以下步骤：

(1)从部分输入中获取短期时序信息，并从所有输入中获取长期时序信息；

(2)从所有输入中获取全局空间信息，并对长期时序信息再次进行检测；

(3)利用长期时序信息和短期时序信息计算多帧之间的联系，之后，使用全局空间信息在特征空间中进行去模糊，并将全局信息再次注入特征空间以控制特征空间；

(4)将去模糊后的多帧序列从特征空间中还原为清晰视频序列。

作为优选的，步骤(1)，利用若干卷积层和非线性激活层组成一个轻量级的VGG网络，从所有输入序列中获取长期时序联系，并通过若干循环神经网络结构从部分序列中获取相应的短期时序联系，所有视频序列将会平均分配给所有循环神经网络结构；同时，利用循环神经网络结构将检测到的短期时序联系与长期时序联系进行融合，得到长短期时序联系。

作为优选的，步骤(2)，将所有输入序列作为整体输入到若干卷积层中，利用堆叠的卷积层擅于获取高维度信息的能力，获取每一帧上像素之间的空间信息以及帧与帧之间的全局信息。

作为优选的，步骤(3)，将步骤(1)中获取到的长短期时序联系作为输入，通过若干卷积层计算帧与帧之间的相互联系，并初步实现输入序列的去模糊操作。接着，将步骤(2)中获取到的全局信息和初步去模糊结果作为输入，通过循环神经网络实现进一步的去模糊操作。其中，全局信息被平均分配给循环神经网络中的循环单元，以此实现对特征空间的控制。

作为优选的，步骤(4)，在得到去模糊后的神经网络特征之后，通过若干卷积层实现清晰视频序列的恢复；同时，通过两个全局跳跃连接保持恢复序列的基本特性。

本发明的优点是：与现有技术相比，本发明充分考虑了输入序列中帧与帧的时序信息。对此，本发明专门设计了一个时域处理模块，用于提取输入序列中的长短期时空信息，通过对神经网络特征空间的控制防止空间信息的丢失，通过循环神经网络与卷积神经网络相互配合的形式获取长短期时空信息，这对最后的恢复结果有重要影响。

下面结合说明书附图和具体实施例对本发明作进一步说明。

附图说明

图1为本发明实施例整体流程图；

图2为本发明实施例网络结构示意图；

图3为本发明实施例网络模型中两个生成器的详细结构示意图；

图4为本发明实施例网络模型时域处理模块的工作流程图；

图5为本发明实施例网络模型空域处理模块的工作流程图；

图6为本发明实施例去除不同部分的复原效果图；

图7为本发明实施例与视频去模糊领域一流方法的视觉效果比较示意图。

具体实施方式

在本实施例的描述中，需要说明的是，如出现术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”、“前”、“后”等，其所指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此，不能理解为对本发明的限制。此外，如出现术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

参见图1至图7，本发明公开的一种基于可控特征空间的神经网络视频去模糊方法，包括以下步骤：

下面对本发明实施例的技术方案进一步详细说明：

本发明实施过程中需要一台有Intel Xeon Silver 4114CPU,32GB RAM和INVIDIATesla P100GPU的计算机。

参见图2，网络结构示意图，共包括一个时域处理模块，一个空域处理模块和一个视频重构模块。

步骤(1)，具体包括：

将五帧视频作为输入时，时域处理模块中的时序信息生成器将五帧视频作为输入，得到长期时序联系，同时，三个循环神经单元——ConvGRU分别将连续的三帧作为输入获取短期时序联系，并将长短期联系进行融合。

上述描述参见图2，图4，时序信息生成器由图3表述。

所述步骤(2)具体包括：

空间权重生成器结构参见图3，在模型前向传播时，空间权重生成器将所有视频序列作为输入，从中检测全局时空信息，并将检测到的信息平均分配给空域处理模块中的循环神经单元。

所述步骤(3)具体包括：

空域处理模块将由时域处理模块产生的特征层作为输入，通过六个卷积层和四个循环神经单元进行进一步的去模糊操作。

在去模糊过程中，通过将空间权重生成器生成的全局信息再次输入到特征空间中，实现对神经网络中特征空间的控制，并进一步提升去模糊效果，具体操作参见图2。

所述步骤(4)具体包括：

在时域和空域处理模块进行去模糊操作之后，需要将去模糊后的特征恢复至图像空间，在图2中，两个卷积层被用于实现上述操作。

此外，两个全局跳跃链接被用于加速网络的训练和信息的前向传播。

实际应用时，本发明通过控制神经网络的特征空间来进一步提高视频去模糊效果，同时，利用循环神经网络考虑不同输入之间联系的能力，该方法充分考虑了不同视频单帧像素之间的联系。具体来说，为了实现对神经网络特征空间的控制，在网络的前端通过若干网络结构抽取视频帧之间的长短使时空联系，在网络的中间部分，通过特定的卷积层等结构从输入序列中抽取全局联系，并将抽取到的全局联系注入特征空间。为了考虑单帧像素之间的联系，使用若干循环神经网络结构进行去模糊操作，并通过两个全局跳跃连接进一步缓解神经网络中信息丢失的问题。

实验表明，上述方法可以有效地利用视频帧与帧之间的联系及每帧像素之间的联系，并在指标和视觉效果上达到了视频去模糊领域一流水平。

上述实施例对本发明的具体描述，只用于对本发明进行进一步说明，不能理解为对本发明保护范围的限定，本领域的技术工程师根据上述发明的内容对本发明作出一些非本质的改进和调整均落入本发明的保护范围之内。

Claims

1.一种基于可控特征空间的神经网络视频去模糊方法，其特征在于：包括以下步骤：

（1）从部分输入中获取短期时序信息，并从所有输入中获取长期时序信息；

（2）从所有输入中获取全局空间信息，并对长期时序信息再次进行检测；

（3）利用长期时序信息和短期时序信息计算多帧之间的联系，之后，使用全局空间信息在特征空间中进行去模糊，并将全局信息再次注入特征空间以控制特征空间；

（4）将去模糊后的多帧序列从特征空间中还原为清晰视频序列；

步骤（1），利用若干卷积层和非线性激活层组成一个轻量级的VGG网络，从所有输入序列中获取长期时序联系，并通过若干循环神经网络结构从部分序列中获取相应的短期时序联系，所有视频序列将会平均分配给所有循环神经网络结构；同时，利用循环神经网络结构将检测到的短期时序联系与长期时序联系进行融合，得到长短期时序联系；具体包括：

将五帧视频作为输入时，时域处理模块中的时序信息生成器将五帧视频作为输入，得到长期时序联系，同时，三个循环神经单元——ConvGRU分别将连续的三帧作为输入获取短期时序联系，并将长短期联系进行融合；

步骤（2），将所有输入序列作为整体输入到若干卷积层中，利用堆叠的卷积层擅于获取高维度信息的能力，获取每一帧上像素之间的空间信息以及帧与帧之间的全局信息；

将步骤（2）中获取到的全局信息和初步去模糊结果作为输入，通过循环神经网络实现进一步的去模糊操作；

全局信息被平均分配给循环神经网络中的循环单元，以此实现对特征空间的控制；

步骤（3），将步骤（1）中获取到的长短期时序联系作为输入，通过若干卷积层计算帧与帧之间的相互联系，并初步实现输入序列的去模糊操作。

2.根据权利要求1所述的一种基于可控特征空间的神经网络视频去模糊方法，其特征在于：步骤（4），在得到去模糊后的神经网络特征之后，通过若干卷积层实现清晰视频序列的恢复；同时，通过两个全局跳跃链接被用于加速网络的训练和信息的前向传播。