CN114331913A

CN114331913A - 基于残差注意力块的运动模糊图像复原方法

Info

Publication number: CN114331913A
Application number: CN202210011777.2A
Authority: CN
Inventors: 郑茜颖; 魏海云; 俞金铃; 程树英; 林培杰; 郑巧
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2022-01-06
Filing date: 2022-01-06
Publication date: 2022-04-12
Anticipated expiration: 2042-01-06
Also published as: CN114331913B

Abstract

本发明提出一种基于残差注意力块的运动模糊图像复原方法，采用的网络包括由粗到细三个尺度，首先对图像进行预处理，然后在第一级尺度的网络上的编码端通过下采样提取模糊图像的主要特征，网络的基本结构由残差注意力块组成，可以更有效的提取出图像特征，再连接上循环模块，用以获取图像的空间信息，每个尺度的循环模块通过上采样方式连接，最后通过解码端上采样得到输出的结果。每个尺度的网络结构相同，通过跨尺度共享权重来减少参数量，来加快网络的训练速度，通过构建的运动模糊图像复原模型有效的恢复出清晰的图像边缘和一些细节的图像纹理信息。提高了运动模糊图像复原的质量。

Description

基于残差注意力块的运动模糊图像复原方法

技术领域

本发明属于图像处理技术领域，尤其涉及一种基于残差注意力块的运动模糊图像复原方法。

背景技术

使用相机或手机拍摄照片时，由于技术限制，得到的不会是单一时间的即时图像，表现出来的应该是一段时间内的场景，所以在相机曝光的这段时间里，如果该场景中的人或物体产生了移动，或相机发生了抖动，抑或者景深产生了变化等，都会导致之前采集到的像素点发生变化，也就是说在得到的图片中，任何沿着相机相对方向运动的物体将会看起来模糊或被晃动，这就是运动模糊，也称为动态模糊。这种情况在生活中经常会碰到，例如跟拍奔跑中的运动员，在高速运行的动车上拍摄窗外景物等都很可能获得运动模糊的图像，因此，模糊图像的复原被广泛用于生产生活、工业制造、天文观测、医学影像等领域，对运动模糊图像复原的研究具有重要价值。

随着深度学习被广泛应用到计算机视觉领域，并取得很好的结果。利用卷积神经网络(Convolutional Neural Network)估计模糊核，堆叠多个CNN以模拟迭代优化来预测频域中的反卷积核，这类方法虽然在实验中得到恢复的清晰图像，但是实际应用效果并不好。不仅是因为简化了实际情况中复杂的模糊情况，而且这些方法没有真实的模糊-清晰图像对用于监督学习，因此，通常使用的是自定义的由清晰图像卷积模糊核而生成的图像来进行训练，这样导致得到的模型仅仅只能处理空间均匀或几种特定类型的模糊，这就限制了模型处理真实模糊图像的能力。虽然这些方法都能在一定程度上对非均匀运动模糊图像进行复原，但是这些方法的网络结构比较复杂，参数量多，因此计算量较大，网络训练耗时长，且实际情况下的复原图像在细节方面并不理想。

发明内容

为了弥补现有技术的空白和不足，本发明提出一种基于残差注意力块的运动模糊图像复原方法，用以实现提高运动模糊图像复原质量的技术效果。

其采用的网络包括由粗到细三个尺度，首先对图像进行预处理，然后在第一级尺度的网络上的编码端通过下采样提取模糊图像的主要特征，网络的基本结构由残差注意力块组成，可以更有效的提取出图像特征，再连接上循环模块，用以获取图像的空间信息，每个尺度的循环模块通过上采样方式连接，最后通过解码端上采样得到输出的结果。每个尺度的网络结构相同，通过跨尺度共享权重来减少参数量，来加快网络的训练速度，通过构建的运动模糊图像复原模型有效的恢复出清晰的图像边缘和一些细节的图像纹理信息。提高了运动模糊图像复原的质量。

本发明具体采用以下技术方案：

一种基于残差注意力块的运动模糊图像复原方法，其特征在于：采用包括由粗到细三个尺度的网络，其基本结构由残差注意力块组成，再连接上循环模块，用以获取图像的空间信息，每个尺度的循环模块通过上采样方式连接，最后通过解码端上采样得到输出的结果，且每个尺度的网络结构相同；具体包括以下步骤

步骤S1：对输入的模糊图像进行预处理，以防止网络训练过程发生过拟合；

步骤S2：将步骤S1获得的低分辨率图像作为尺度一网络的输入，编码端通过下采样操作从运动模糊图像中提取主要特征；能够有效提取出模糊图像特征信息

步骤S3：将步骤S2通过编码端的输出，再经过一个卷积门控循环模块ConvGRU，通过该模块对编码部分提取的特征图进行处理，获取图像空间信息，把有用的隐藏历史信息给提取出来；

步骤S4：将步骤S3输出的图像进行上采样，作为下一尺度网络的输入，解码端的输出作为尺度三网络的输入；

步骤S5：将步骤S4的输出再输入到最后一个尺度的网络中，经过编码端进行特征提取，将步骤S3中的循环模块进行两次上采样，把编码端的输出再通过上采样后的循环模块进行图像空间信息提取，然后再经过解码端，最终得到复原的清晰图像；

步骤S6：通过混合损失函数对所述运动模糊图像的复原算法进行优化。

进一步地，在步骤S1中，对输入的模糊图像先进行随机裁剪，大小为256×256，并且对这些图像进行随机旋转。

进一步地，在步骤S1中，原始运动模糊图像通过随机剪切操作，将图像裁剪为大小为256×256，使用随机90°、180°或270°翻转操作，对输入图像进行处理，来增加所能训练的图像数量，防止网络训练过程中出现过拟合现象。

进一步地，在步骤S2中，编码端和解码端均由残差注意力基本模块组成：该模块包含一个卷积层，使用3×3的卷积核提取图像特征，以及级联排列的通道注意力和空间注意力模块；为了优化特征提取，增加感受野，在编码端特征提取后还包括有SPP层，不仅能够提高任务精度，还可以加快网络收敛。

进一步地，在步骤S3中，所述卷积门控循环模块ConvGRU包含由粗到细的三个不同尺度的网络，相邻的两个尺度差2倍，以尺度一编码端输出x^t作为循环模块的输入，y^t表示输出，该模块的网络状态表示为：

y^t,h^t＝convGRU(h^(t-1)↑,x^t)

其中，t表示尺度规模，t＝1代表最粗的尺度，表示从第t到第(t+1)级网络的比例调整，隐藏状态h^t可能包含有关中间结果和模糊模式的有用信息，这些信息被传递到下一个尺度。有利于精细尺度问题。

进一步地，在步骤S4中，所述解码端将得到的输出再进行上采样作为下一级网络的输入，包含三个由3个3×3的卷积层和一个反卷积层级联的模块，卷积层的步幅为2，所有卷积层的内核数都为5，反卷积层用于将特征图的空间大小加倍，并将通道减半。

进一步地，在步骤S5中，编码端将上一层的内核数量加倍，并将特征图下采样到一半；多尺度网络包含了三个相同结构的编解码网络，通过循环结构合并循环模块，其中隐藏状态捕获有用的信息并有益于跨规模恢复；隐藏状态可能包含有关中间结果和模糊模式的有用信息，这些信息被传递到下一个尺度并有利于精细尺度问题。

进一步地，在步骤S6中，混合损失函数为：由L2损失和感知损失共同组成的损失函数。

进一步地，在步骤S6中，所述混合损失函数当中：

L2损失的表达式为：

式中，yⁱ和

分别表示第i个尺度上网络输出的结果和真实结果；

感知损失的表达式为：

其中φ_i(yⁱ),

分别表示与每一尺度输出的去模糊图像yⁱ和实际图像

相关联的三个VGG16特征图，C_i,H_i,W_i分别表示特征图尺寸；

总的损失函数是结合了L2损失和感知损失得到的，表示为：

L＝L_S+αL_P

其中α是为了调整损失函数相对权重的参数，设置为0.05。

本发明及其优选方案包括由粗到细三个尺度，首先对图像进行预处理，然后在第一级尺度的网络上的编码端通过下采样提取模糊图像的主要特征，网络的基本结构由残差注意力块组成，可以更有效的提取出图像特征，再连接上循环模块，用以获取图像的空间信息，每个尺度的循环模块通过上采样方式连接，最后通过解码端上采样得到输出的结果。每个尺度的网络结构相同，通过跨尺度共享权重来减少参数量，来加快网络的训练速度，通过构建的运动模糊图像复原模型有效的恢复出清晰的图像边缘和一些细节的图像纹理信息。提高了运动模糊图像复原的质量。

附图说明

图1为本发明实施例提供的运动模糊图像复原流程的结构示意图。

图2为本发明实施例提供的基于残差注意力块的运动模糊图像复原方法的流程示意图。

图3为本发明实施例提供的非对称编解码网络的网络结构示意图。

图4为本发明实施例提供的残差注意力模块的网络结构示意图。

图5为本发明实施例提供的卷积门控循环模块的拓扑结构示意图。

图6为本发明实施例在GoPro数据集的测试图像在各种算法复原的测试结果对比图。

具体实施方式

为让本专利的特征和优点能更明显易懂，下文特举实施例，作详细说明如下：

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本实施例使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

参见图1和图2，图1为本发明实施例提供的一种基于残差注意力块的运动模糊图像复原方法的流程的结构示意图。图2为本发明实施例提供的一种基于残差注意力块的运动模糊图像复原方法的流程示意图。

经发明人研究发现，现有的很多深度学习方法都能在一定程度上对非均匀运动模糊图像进行复原，但是这些方法的网络结构比较复杂，参数量较多，因此计算量较大，网络训练耗时长，且实际情况下的复原图像在细节方面并不理想，因此本发明实施例提供了一种基于残差注意力块的运动模糊图像复原模型，以解决上述问题。

在一种实施方式中，本发明实施例提供的运动模糊图像复原模型包括由粗到细多尺度网络，网络一共包括三个尺度，除了输入图片的尺寸大小不同外，每个尺度的网络结构都一样，使用融合了注意力机制的残差块作为基本单元，编码端使用引入了注意力机制的残差块，会放大卷积神经网络结构的优点，增加网络收敛速度，产生很大的感受野，在编码解码中间加入循环模块，通过对编码部分提取的特征图进行处理，获取图像空间信息，把有用的隐藏历史信息给提取出来，从而利用图像空间的连续性来进行运动模糊图像复原。

如图3所示，在每一个尺度上都使用了相同的非对称编解码网络，从第一级输入开始，编码端有四个卷积模块，每个模块中包含了3个步长为2，卷积核为5的卷积层。解码端将得到的输出再进行上采样作为下一级网络的输入。因为多尺度网络结构大，会增加训练难度，使用跨尺度共享权重来减少参数量，且在编码端输出也增加了空间金字塔池化层，使得网络的训练速度大大提高。

在残差注意力模块中包含了通道注意力和空间注意力模块，这两个模块的排列有级联或者并行两种方式，因为已经有实验测试表明级联排列的网络训练得到的结果会更好，且通道注意力模块在前的结果会略优。如图4所示，对于残差注意力模块，给定F作为输入的特征图，就可以依次计算得到一维通道注意力图M_C，和二维空间注意力图M_S，计算过程如下所示：

其中:

表示矩阵中对应的元素相乘，F”表示最终精细的输出特征图。除了引入注意力机制来增强对输入图像特征的提取之外，对残差模块也进行了修剪和优化，去除了归一化层和最后一层激活层，这样可以让网络在训练过程中增加收敛速度。为了优化特征提取，增加感受野，在编码端特征提取后还增加了空间金字塔池化层，不仅能够提高任务精度，还可以加快网络收敛。

图像在空间上是具有连续性，即使是已经发生变形的模糊图像，其每个点的像素分布与周围像素点之间也是有着连续性的关系，因此，可以通过获取图像空间信息来对模糊图像进行恢复。门控循环单元，是对循环神经网络的改进，解决其在反向传播期间可能会梯度消失的问题，将卷积神经网络与门控循环网络相结合，希望通过将能够抽取空间特征的卷积操作加入能够抽取时序特征的门控循环网络中，在编码端和解码端之间***卷积门控循环模块，通过该模块对编码部分提取的特征图进行处理，获取图像空间信息，把有用的隐藏历史信息给提取出来。因为本实施例采用的是多尺度架构，每一层都具有相同的网络结构，整个网络卷积门控循环模块之间的连接方式如图5所示。

在一种实施方式中，本发明实施例还提供了一种应用于上述运动模糊图像复原模型上的运动模糊图像复原方法，其具体内容如下所述。

步骤S1：对输入的模糊图像进行预处理，先是随机裁剪，大小为256×256，并且对这些图像进行随机旋转，以防止网络训练过程会发生过拟合。

具体地，将图像裁剪为大小为256×256，使用随机90°、180°或270°翻转操作，对输入图像进行处理，来增加所训练的图像数量。

步骤S2：将所获得的低分辨率图像作为尺度一网络的输入，编码端和解码端都是由残差注意力基本模块组成的，该模块首先是一个卷积层，使用的是3×3的卷积核来提取图像特征，还包含了级联排列的通道注意力和空间注意力模块。为了优化特征提取，增加感受野，在编码端特征提取后还增加了SPP层，不仅能够提高任务精度，还可以加快网络收敛。

步骤S3：将所述卷积门控循环模块，也是包含了由粗到细的三个不同尺度的网络，相邻的两个尺度差2倍，以尺度一编码端输出x^t作为循环模块的输入，该模块的网络状态可以表示为：

y^t,h^t＝convGRU(h^(t-1)↑,x^t)

其中，t表示尺度规模，t＝1代表最粗的尺度，表示从第t到第(t+1)级网络的比例调整，隐藏状态h^t可能包含有关中间结果和模糊模式的有用信息，这些信息被传递到下一个尺度，有利于精细尺度问题。

步骤S4：将步骤S3输出的图像进行上采样，作为下一尺度网络的输入，尺度二的网络结构与尺度一相同，解码端的输出同样作为尺度三网络的输入；

步骤S6：混合损失函数由L2损失和感知损失共同组成的损失函数，因为L2损失鲁棒性更好，L2损失的表达式为：

式中，yⁱ和

分别表示第i个尺度上网络输出的结果和真实结果。而感知损失与一般使用的损失函数不同，是利用从预训练的深度神经网络提取多尺度特征来量化估计图像和真实图像之间的视觉差异。感知损失的表达式为：

其中φ_i(yⁱ),

分别表示与每一尺度输出的去模糊图像yⁱ和实际图像

相关联的三个VGG16特征图，C_i,H_i,W_i分别表示特征图尺寸。

总的损失函数是结合了L2损失和感知损失得到的，表示为：

L＝L_S+αL_P

其中α是为了调整损失函数相对权重的参数，设置为0.05。

为了更好地说明本发明的有效性，本发明实施例还采用对比实验的方式进行复原效果的比较。

具体地，本发明实例使用了两组数据集来对网络进行训练和测试，一个是常用的GOPRO数据集，该数据集的模糊图像是通过GoPro摄像机从若干张清晰帧图像中求平均得到的，每一张模糊图像对应的清晰图像为中间帧。一共包含了3214对模糊-清晰图像对，其中2103对用作训练集，另外1111对用作测试集。另外一组blur数据集是利用各种手持设备，包括手机、相机等拍摄的71个视频，并通过积累一些短曝光来综合创建的，以近似更长的曝光。一共包含6708图像对，其中4472对用作训练集，另外2236对用于测试集。

选择的评价指标有峰值信噪比(PSNR)、结构相似度(SSIM)和复原时间，PSNR和SSIM的值越高，表明复原效果越好。此外为了验证该算法对真实模糊图像是否也具有很好的复原效果，还使用手机拍摄了一系列模糊图像，用于进行定性分析。

训练过程中首先将输入图像随机裁剪为256×256，并且随机进行90°、180°或270°旋转，以防止网络会过拟合。该网络包含了三个尺度的编解码网络，由粗到细每个尺度输入图像尺寸分别为64×64，128×128，256×256，最终输出复原后的图像尺寸与输入保持一致，训练和测试采用的图片分辨率都是1280×720。

使用的是基于pytorch的深度学***性，所有实验都是在相同训练配置环境的同一数据集上进行。因为内存限制，训练过程中的批大小设置为4。学习率初始值设置为1×10^-4，每200个epoch降低一半，使用Adam优化器，总的训练周期为1000。

本发明使用GOPRO数据集中的100张图片来测试模型性能，对比实验选取了Ankit等提出的传统盲去模糊算法，Sun等提出的非均匀运动模糊CNN去除卷积神经网络，以及去模糊效果很好的尺度递归网络SRN，和用于图像去模糊的深度层次化多patch网络DMPHN，实验结果如表1所示，4个对比方法如下：

传统盲去模糊算法：Ankit等人提出的方法，参考文献“ANKIT G,NEEL J,LAWRRENCE Z C,et al.Single image deblurring using motion density functions[C]//Proceedings of the 2010IEEE Conference on European Conference onComputer Vision.Cham:Springer,2010:171-184.”

CNN算法：Sun等人提出的去除卷积神经方法，参考文献“SUN J,CAO W F,XU Z B,et al.Learning a Convolutional Neural Network for Non-uniform Motion BlurRemoval[C]//Proceedings of the 2015IEEE Conference on Computer Vision andPattern Recognition.Piscataway:IEEE,2015:769-777.”

SRN算法：Tao等人提出的尺度递归方法，参考文献“TAO X,GAO H Y,SH EN X Y,etal.Scale-recurrent network for deep image deblurring[C]//Proceedings of the2018IEEE Conference on Computer Vision and Patt ern Recognition.Piscataway:IEEE,2018:8174-8182.”

DMPHN算法：Zhang等人提出的方法，参考文献“ZHANG H G,DAI Y C,LI HD,etal.Deep stacked hierarchical multi-patch network for image deblurring[C]//Proceedings of the 2019IEEE Conference on Computer Vision and PatternRecognition.Piscataway:IEEE,2019:5971-5979.”

从表1可以看出(最优的值和排名第二优的值分别用黑色加粗和下划线表示)，，本发明的PSNR和SSIM是最高的，重建效果显著优于目前具有代表性的一些运动模糊图像复原方法。

表1本发明方法与其他方法在GoPro测试集和Blur测试集上的PSNR和SSIM的结果对比

结果如图6所示，相较于目前去模糊效果良好的算法，本实施例方法有一定提升，尤其是在与真实图像更接近的GoPro数据集上，相比较较新的DMPHN算法，PSNR提升了1.22dB,SSIM提升了0.0186，而在利用模糊核生成的Blur数据集上的表现就没有那么好，可能是因为利用网络模拟生成的模糊图像丢失了一部分细节信息，导致在图像复原中无法提取出更精细的特征。

综上所述，本发明实施例提供了一种基于残差注意力块的运动模糊图像复原方法，在每一尺度采用是相同的非对称编码解码网络，在编码端使用引入了注意力机制的残差块，会放大卷积神经网络结构的优点，增加感受野，加快网络收敛速度，编码解码端中间加入ConvGRU模块，可以通过对编码部分提取的特征图进行处理，获取图像空间信息，把有用的隐藏历史信息给提取出来，从而利用图像空间的连续性来进行模糊图像复原。其次，还采用跨尺度共享网络权重，减少了网络中可训练的参数量，加快了训练速度。

本专利不局限于上述最佳实施方式，任何人在本专利的启示下都可以得出其它各种形式的基于残差注意力块的运动模糊图像复原方法，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本专利的涵盖范围。

Claims

1.一种基于残差注意力块的运动模糊图像复原方法，其特征在于：采用包括由粗到细三个尺度的网络，其基本结构由残差注意力块组成，再连接上循环模块，用以获取图像的空间信息，每个尺度的循环模块通过上采样方式连接，最后通过解码端上采样得到输出的结果，且每个尺度的网络结构相同；具体包括以下步骤

步骤S2：将步骤S1获得的低分辨率图像作为尺度一网络的输入，编码端通过下采样操作从运动模糊图像中提取主要特征；

2.根据权利要求1所述的基于残差注意力块的运动模糊图像复原方法，其特征在于：在步骤S1中，对输入的模糊图像先进行随机裁剪，大小为256×256，并且对这些图像进行随机旋转。

3.根据权利要求2所述的基于残差注意力块的运动模糊图像复原方法，其特征在于：在步骤S1中，原始运动模糊图像通过随机剪切操作，将图像裁剪为大小为256×256，使用随机90°、180°或270°翻转操作，对输入图像进行处理，来增加所能训练的图像数量，防止网络训练过程中出现过拟合现象。

4.根据权利要求1所述的基于残差注意力块的运动模糊图像复原方法，其特征在于：在步骤S2中，编码端和解码端均由残差注意力基本模块组成：该模块包含一个卷积层，使用3×3的卷积核提取图像特征，以及级联排列的通道注意力和空间注意力模块；所述编码端特征提取后还包括SPP层。

5.根据权利要求1所述的基于残差注意力块的运动模糊图像复原方法，其特征在于：在步骤S3中，所述卷积门控循环模块ConvGRU包含由粗到细的三个不同尺度的网络，相邻的两个尺度差2倍，以尺度一编码端输出x^t作为循环模块的输入，y^t表示输出，该模块的网络状态表示为：

y^t,h^t＝convGRU(h^(t-1)↑,x^t)

其中，t表示尺度规模，t＝1代表最粗的尺度，表示从第t到第(t+1)级网络的比例调整，隐藏状态h^t可能包含有关中间结果和模糊模式的有用信息，这些信息被传递到下一个尺度。

6.根据权利要求1所述的基于残差注意力块的运动模糊图像复原方法，其特征在于：在步骤S4中，所述解码端将得到的输出再进行上采样作为下一级网络的输入，包含三个由3个3×3的卷积层和一个反卷积层级联的模块，卷积层的步幅为2，所有卷积层的内核数都为5，反卷积层用于将特征图的空间大小加倍，并将通道减半。

7.根据权利要求1所述的基于残差注意力块的运动模糊图像复原方法，其特征在于：在步骤S5中，编码端将上一层的内核数量加倍，并将特征图下采样到一半；多尺度网络包含了三个相同结构的编解码网络，通过循环结构合并循环模块，其中隐藏状态捕获有用的信息并有益于跨规模恢复；隐藏状态可能包含有关中间结果和模糊模式的有用信息，这些信息被传递到下一个尺度并有利于精细尺度问题。

8.根据权利要求1所述的基于残差注意力块的运动模糊图像复原方法，其特征在于：在步骤S6中，混合损失函数为：由L2损失和感知损失共同组成的损失函数。

9.根据权利要求8所述的基于残差注意力块的运动模糊图像复原方法，其特征在于：在步骤S6中，所述混合损失函数当中：

L2损失的表达式为：

式中，yⁱ和

分别表示第i个尺度上网络输出的结果和真实结果；

感知损失的表达式为：

其中φ_i(yⁱ),

分别表示与每一尺度输出的去模糊图像yⁱ和实际图像

相关联的三个VGG16特征图，C_i,H_i,W_i分别表示特征图尺寸；

总的损失函数是结合了L2损失和感知损失得到的，表示为：

L＝L_S+αL_P

其中α是为了调整损失函数相对权重的参数，设置为0.05。