CN113012072A

CN113012072A - 一种基于注意力网络的图像运动去模糊方法

Info

Publication number: CN113012072A
Application number: CN202110339479.1A
Authority: CN
Inventors: 许勇; 祝叶
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-03-30
Filing date: 2021-03-30
Publication date: 2021-06-22

Abstract

本发明提供了一种基于注意力网络的图像运动去模糊方法，包括S1，对待去模糊运动图像进行预处理；S2，将待去模糊运动图像输入至已训练好的注意力网络模型中，得到恢复图像；S3，将得到的恢复图像与真实清晰图像进行对比，计算衡量指标；本发明提出的端到端的注意力网络模型，将真实场景下图像运动模糊在空间域所表现的非一致性用空间域注意力机制进行刻画，并通过注意力权重引导模型对非一致运动模糊进行不同的处理，能够得到更好的效果。

Description

一种基于注意力网络的图像运动去模糊方法

技术领域

本发明属于数字图像处理的技术领域，具体涉及一种基于注意力网络的图像运动去模糊方法，该方法能够将相机获得的带有失焦模糊的数字图像恢复成清晰的数字图像。

背景技术

图像作为视觉信息的载体，在日常生活中有着重要的作用。在信息化的时代，日常生活离不开图像及其传播，通过图像分享来沟通和联系。数字图像的获取一般是通过传感器如相机，手机等设备，在获取图像的过程中，很多因素都能造成图像的退化，例如设备的抖动或者拍摄物体的移动，就会导致获取的图像存在运动模糊。运动模糊的存在不仅影响图像的清晰度及美感，还降低了图像所表示信息的可理解程度。在这种情况下，如何将运动模糊的图像恢复到清晰图像，是一个不可缺少且具有价值的研究课题。

图像运动去模糊大致可以分为两类方法，其中第一类是基于模糊核估计的方法，该类方法会先估计模糊图像的模糊核，例如运动模糊的方向和幅度，然后根据估计得到的模糊核进行非盲的去模糊。其中估计模糊核又可以根据使用的方法分为优化学习方法和深度学习方法，前者通过对图像的一些自然先验，如稀疏假设，图像的边等对优化方法进行限制得到优化解，后者通过数据驱动学习模糊图像的模糊核。基于模糊核的方法往往假设运动模糊是一致的或者是局部一致的，这个假设往往在现实场景中是不存在的。所以另一类方法直接学习模糊图像到清晰图像的复原，该类方法一般是深度学习方法，通过数据驱动学习模糊图像到清晰图像的映射。该类方法能够解决与现实场景符合的非一致性运动去模糊。

现实场景的运动模糊往往表现为非一致性，即图像上不同位置的运动模糊表现不同，例如不同物体的运动模糊方向不一致，以及运动模糊幅度不一致。目前大部分深度学习的方法没有考虑将运动模糊在空间上的不一致性体现在网络结构设计中，这也使得目前方法对非一致性运动去模糊的表现没有达到较佳效果。

因此，行业内急需研发一种能对不同空间位置的运动模糊具有不同的处理能力的去模糊方法或者***。

发明内容

本发明的主要目的是设计一种可以有效进行图像运动模糊恢复的端到端的基于注意力网络的图像运动去模糊方法。

为了达到上述目的，本发明采用以下技术方案：

一种基于注意力网络的图像运动去模糊方法，包括下述步骤：

S1，对待去模糊运动图像进行预处理；

S2，将待去模糊运动图像输入至已训练好的注意力网络模型中，得到恢复图像；

S3，将得到的恢复图像与真实清晰图像进行对比，计算衡量指标；

其中，注意力网络模型的训练包括下述步骤：

(1)获取运动模糊图像数据库；

(2)将数据库内的运动模糊图像进行预处理，将预处理后的运动模糊图像划分为训练集和验证集；

(3)利用训练集对注意力网络模型进行训练，保存训练完成的网络参数；

(4)利用验证集对注意力网络模型进行验证。

优选地，步骤(1)中包括：选择并下载在真实场景下采集的高分辨率运动模糊图像数据集。

优选地，步骤(2)中，在训练集中，清晰图像及对应的运动模糊图像为一组。

优选地，将数据库内的运动模糊图像的预处理包括：尺寸裁剪、随机翻转并进行归一化处理。

优选地，步骤(3)包括：将训练集的运动模糊图像输入已搭建好的注意力网络模型中，注意力网络模型输出恢复图像，并将恢复图像与对应的清晰图像进行对比，计算损失函数，根据损失函数计算梯度，利用梯度反向传播和梯度下降更新模型参数，通过多次迭代，模型收敛至对应的真实清晰图像。

优选地，注意力网络模型包括：编码器和解码器；编码器和解码器之间还采用跳跃连接来传递消息；编码器通过卷积和注意力模块不断减少特征图的分辨率并增加特征图个数，编码器为网络的前半部分，编码器包括3个卷积层及9个注意力模块；解码器通过将编码器得到的特征渐上采样和减少通道数来恢复清晰图像，解码器为网络后半部分，解码器包括3个卷积层和9个注意力模块。

优选地，注意力网络模型包括：

卷积层1：卷积核大小为5*5，卷积核个数为32，步长stride＝1，padding＝2；

注意力模块1-1：该模块卷积层的卷积核大小为5*5，卷积核个数为32；

注意力模块1-2：该模块卷积层的卷积核大小为5*5，卷积核个数为32；

注意力模块1-3：该模块卷积层的卷积核大小为5*5，卷积核个数为32；

卷积层2：卷积核大小为5*5，卷积核个数为64，步长stride＝2，padding＝2；

注意力模块2-1：该模块卷积层的卷积核大小为5*5，卷积核个数为64；

注意力模块2-2：该模块卷积层的卷积核大小为5*5，卷积核个数为64；

注意力模块2-3：该模块卷积层的卷积核大小为5*5，卷积核个数为64；

卷积层3：卷积核大小为5*5，卷积核个数为128，步长stride＝2，padding＝2；

注意力模块3-1：该模块卷积层的卷积核大小为5*5，卷积核个数为128；

注意力模块3-2：该模块卷积层的卷积核大小为5*5，卷积核个数为128；

注意力模块3-3：该模块卷积层的卷积核大小为5*5，卷积核个数为128；

注意力模块4-1：该模块卷积层的卷积核大小为5*5，卷积核个数为128；

注意力模块4-2：该模块卷积层的卷积核大小为5*5，卷积核个数为128；

注意力模块4-3：该模块卷积层的卷积核大小为5*5，卷积核个数为128；

上采样操作1：将特征图上采样到x2的分辨率；

卷积层4：卷积核大小为5*5，卷积核个数为64，步长stride＝1，padding＝2；

注意力模块5-1：该模块卷积层的卷积核大小为5*5，卷积核个数为64；

注意力模块5-2：该模块卷积层的卷积核大小为5*5，卷积核个数为64；

注意力模块5-3：该模块卷积层的卷积核大小为5*5，卷积核个数为64；

上采样操作2：将特征图上采样到x2的分辨率；

卷积层5：卷积核大小为5*5，卷积核个数为32，步长stride＝1，padding＝2；

注意力模块6-1：该模块卷积层的卷积核大小为5*5，卷积核个数为32；

注意力模块6-2：该模块卷积层的卷积核大小为5*5，卷积核个数为32；

注意力模块6-3：该模块卷积层的卷积核大小为5*5，卷积核个数为32；

卷积层6：卷积核大小为5*5，卷积核个数为3，步长stride＝1，padding＝2；

跳跃连接1：注意力模块2-3的输出与注意力卷积层4的输出级联，作为注意力模块5-1的输入；

跳跃连接2：注意力模块1-3的输出与注意力卷积层5的输出级联，作为注意力模块6-1的输入。

优选地，注意力网络模型的注意力模块由两个卷积层和一个注意力机制组成，其中注意力机制计算通过两个卷积核为1*1的卷积得到一个注意力权重。

优选地，注意力网络中的激活函数为ReLu函数，ReLu函数表达式为：f(x)＝max(0，x)，非线性激活函数用于增加模型的非线性，加快模型收敛。

优选地，损失函数为：

L＝L_ccont+λ₁L_cgrad

其中λ₁＝0.85；L_ccont为内容损失函数，L_cgrad为梯度损失函数；

内容损失函数为：

其中i代表每个像素的下标，

代表二范数的平方，M·N表示图像的大小，C_g是真实清晰的图像，C′是网络恢复的图像；

梯度损失函数为：

其中

和

分别表示图像上在特征图X方向及y方向上的梯度，

代表二范数的平方，M·N表示图像的大小，C_g是真实清晰的图像，C′是网络恢复图像。

本发明与现有的技术相比，具有以下优点：

本发明提出的端到端的注意力网络模型，将真实场景下图像运动模糊在空间域所表现的非一致性用空间域注意力机制进行刻画，并通过注意力权重引导模型对非一致运动模糊进行不同的处理，能够得到更好的效果。

本发明注意力网络模型的端到端训练，直接从输入经过模型得到输出，无须分阶段估计模糊核再进行非盲去模糊，网络可根据训练集的输入模糊图像和对应的清晰图像自动提取各种特征和学到输入到输出的映射，无须人为干预。

本发明相比于传统优化算法具有更低的时间复杂度，本发明训练好的网络模型能够很快地得到恢复结果，而传统方法需要进行迭代优化，需要更高的时间复杂度。本发明相对于其他深度学习方法，引入注意力机制，能够更好的处理非一致性运动模糊，去模糊效果更好。

附图说明

图1为本发明的基于注意力网络的图像运动去模糊方法的示意性流程图。

图2为本发明整体网络模型结构图。

图3为本发明采用的注意力机制结构图。

图4为本发明的注意力机制图。

具体实施方式

下面结合实例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

参见图1，一种基于注意力网络的图像运动去模糊方法，包括下述步骤：

S1，对待去模糊运动图像进行预处理；预处理包括：尺寸裁剪、随机翻转并进行归一化处理。

S3，将得到的恢复图像与真实清晰图像进行对比，计算衡量指标(PSNR，SSIM)；

其中，注意力网络模型的训练包括下述步骤：

(1)获取运动模糊图像数据库；具体为，选择并下载在真实场景下采集的高分辨率运动模糊图像数据集。该数据集由高速相机拍摄自真实场景后合成得到模糊图像。本发明将数据划分为训练集，测试集。

(2)将数据库内的运动模糊图像进行预处理，预处理包括：尺寸裁剪、随机翻转并进行归一化处理。将预处理后的运动模糊图像划分为训练集和验证集，分别为70％，30％；本发明是通过有监督的学***翻转和随机垂直翻转，最后将图像像素值归一化到[0，1]，才可以输入网络进行计算。

(4)利用验证集对注意力网络模型进行验证。

在本实施例，为了完成网络模型的端到端学习，让网络能够有效地学习到运动模糊图像到清晰图像的映射，本发明构建了适合其图像总体特征及内容的损失函数。

损失函数为：

L＝L_ccont+λ₁ L_cgrad

其中λ₁＝0.85；L_ccont为内容损失函数，内容损失函数能准确地衡量和有效训练网络模型，L_cgrad为梯度损失函数；梯度损失函数能更好的使恢复的图像保有清晰的边及减少恢复图像的响铃效应。

内容损失函数为：

其中i代表每个像素的下标，

梯度损失函数为：

其中

和

分别表示图像上在特征图X方向及y方向上的梯度，

将训练集的运动模糊图像输入已搭建好的注意力网络模型中，注意力网络模型输出恢复图像，并将恢复图像与对应的清晰图像进行对比，计算损失函数，根据损失函数计算梯度，利用梯度反向传播和梯度下降更新模型参数，通过多次迭代，模型收敛至对应的真实清晰图像。参见图2，注意力网络模型包括：编码器和解码器；编码器和解码器之间还采用跳跃连接来传递消息，以保证解码器能够获取低层的图像特征，确保图像细节不会丢失。编码器通过卷积和注意力模块不断减少特征图的分辨率并增加特征图个数，编码器为网络的前半部分，编码器包括3个卷积层及9个注意力模块；解码器通过将编码器得到的特征渐上采样和减少通道数来恢复清晰图像，解码器为网络后半部分，解码器包括3个卷积层和9个注意力模块。注意力网络模型具体包括：

上采样操作1：将特征图上采样到x2的分辨率；

上采样操作2：将特征图上采样到x2的分辨率；

综上，注意力机制通过对输入图像特征进行处理计算得到一个空间域的注意力权重图，然后根据这个注意力权重图对图像特征在空间域进行重加权操作，从而引导模型具有处理非一致性模糊的能力。

在本实施例，注意力网络模型的注意力模块如图3所示，由两个卷积层和一个注意力机制组成，其中注意力机制计算如图4所示，通过两个卷积核为1*1的卷积得到一个注意力权重。

在本实施例，注意力网络中的激活函数为ReLu函数，ReLu函数表达式为：f(x)＝max(0,x)，非线性激活函数用于增加模型的非线性，加快模型收敛。

本发明训练注意力网络模型时，将训练集图像分批输入网络，得到恢复后的清晰图像，并将恢复图像与对应的清晰图像进行对比，计算损失函数，根据损失函数计算梯度，利用梯度反向传播和梯度下降更新模型参数，通过多次迭代，模型能够学习到越来越接近真实清晰图像的恢复结果。

本发明构建端到端的注意力网络模型，直接从输入经过模型得到输出，直接从运动模糊图像计算清晰图像，没有分阶段。该模型以三通道RGB彩色运动模糊图像作为输入，通过执行一系列卷积、池化和非线性激活操作提取特征，再通过一系列卷积、池化和非线性激活操作得到深度感知信息，最后利用深度感知信息辅助，通过一系列卷积、池化和非线性激活操作恢复得到清晰图像。

本发明可以运用到如下领域：

相机算法，本发明能够嵌入到相机算法以缓解相机获取的图像中的失焦模糊；

图像理解任务，更清晰的图像有助于其他图像理解任务的准确性。

本发明提出一种注意力网络的图像运动去模糊方法利用注意力机制，将运动模糊的空间不一致性通过一个空间域的注意力机制进行刻画，使得网络在对图像或特征图进行处理时能够具有不同幅度的表现，从而在一定程度上使得网络模型对不同空间位置的运动模糊具有不同的处理能力。

上述具体实施方式为本发明的优选实施例，并不能对本发明进行限定，其他的任何未背离本发明的技术方案而所做的改变或其它等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于注意力网络的图像运动去模糊方法，其特征在于，包括下述步骤：

S1，对待去模糊运动图像进行预处理；

其中，注意力网络模型的训练包括下述步骤：

(1)获取运动模糊图像数据库；

(4)利用验证集对注意力网络模型进行验证。

2.根据权利要求1所述的一种基于注意力网络的图像运动去模糊方法，其特征在于，步骤(1)中包括：选择并下载在真实场景下采集的高分辨率运动模糊图像数据集。

3.根据权利要求1所述的一种基于注意力网络的图像运动去模糊方法，其特征在于，步骤(2)中，在训练集中，清晰图像及对应的运动模糊图像为一组。

4.根据权利要求3所述的一种基于注意力网络的图像运动去模糊方法，其特征在于，将数据库内的运动模糊图像的预处理包括：尺寸裁剪、随机翻转并进行归一化处理。

5.根据权利要求1所述的一种基于注意力网络的图像运动去模糊方法，其特征在于，步骤(3)包括：将训练集的运动模糊图像输入已搭建好的注意力网络模型中，注意力网络模型输出恢复图像，并将恢复图像与对应的清晰图像进行对比，计算损失函数，根据损失函数计算梯度，利用梯度反向传播和梯度下降更新模型参数，通过多次迭代，模型收敛至对应的真实清晰图像。

6.根据权利要求5所述的一种基于注意力网络的图像运动去模糊方法，其特征在于，注意力网络模型包括：编码器和解码器；编码器和解码器之间还采用跳跃连接来传递消息；

编码器通过卷积和注意力模块不断减少特征图的分辨率并增加特征图个数，编码器为网络的前半部分，编码器包括3个卷积层及9个注意力模块；

解码器通过将编码器得到的特征渐上采样和减少通道数来恢复清晰图像，解码器为网络后半部分，解码器包括3个卷积层和9个注意力模块。

7.根据权利要求6所述的一种基于注意力网络的图像运动去模糊方法，其特征在于，注意力网络模型包括：