CN114202473A

CN114202473A - 一种基于多尺度特征和注意力机制的图像复原方法及装置

Info

Publication number: CN114202473A
Application number: CN202111393366.6A
Authority: CN
Inventors: 赵丽; 张笑钦
Original assignee: Wenzhou University
Current assignee: Wenzhou University
Priority date: 2021-11-23
Filing date: 2021-11-23
Publication date: 2022-03-18

Abstract

本发明提供了一种基于多尺度特征和注意力机制的图像复原方法，该方法包括：步骤Step1：获取样本数据集，所述样本数据集包括真实图像和模糊样本图像；步骤Step2：将样本数据集输入图像复原模型，所述图像复原模型将模糊样本图像进行去模糊处理，生成潜在的清晰图像，并计算所述潜在的清晰图像和真实图像之间的EM距离，以对抗方式训练所述图像复原模型；步骤Step3：将待复原的图像数据分组输入训练好的图像复原模型进行图像复原，得到复原后的图像数据，相应地，提出一种图像复原装置，本发明设计了一种带有不同扩张因子的小卷积模块，在增大感野的同时，还能提取不同尺度的特征信息。

Description

一种基于多尺度特征和注意力机制的图像复原方法及装置

技术领域

本发明涉及图像处理技术领域，具体涉及到一种基于多尺度特征和注意力机制的图像复原方法及装置。

背景技术

近年来，由于自然环境遭到严重破坏，空气质量大幅下降，雾霾天气频频发生。雾中的气溶胶颗粒对光存在散射以及吸收，自然场景中产生了劣化的雾效应，使得拍摄的场景图像物体对比度降低，场景难以辨认，无法满足人们日常生活中记录生活的需求，更重要的是无法满足安防监控、医疗、太空探测及交通导航等领域的要求。

除了由于雾霾等自然环境造成的图像模糊需要用到去雾技术，摄像机本身的品质不同，拍出来的画面清晰度也不同，对于那些有需要而画面又不够清晰地图像，进行去雾处理，或者说是对图像的模糊处理法，也是目前需要的。

目前，关于图像复原领域，图像复原模型存在准确率不高、预测不准确、鲁棒性不强等问题。

综上所述，提供一种可提取不同尺度的特征信息，去模糊处理效率更高、结果更加有效和可靠的基于多尺度特征和注意力机制的图像复原方法及装置，是本领域技术人员急需解决的问题。

发明内容

本方案针对上文提到的问题和需求，提出一种基于多尺度特征和注意力机制的图像复原方法，其由于采取了如下技术方案而能够解决上述技术问题。

为实现上述目的，本发明提供如下技术方案：一种基于多尺度特征和注意力机制的图像复原方法，包括：步骤Step1：获取样本数据集，所述样本数据集包括真实图像和模糊样本图像；

步骤Step2：将样本数据集输入图像复原模型，所述图像复原模型将模糊样本图像进行去模糊处理，生成潜在的清晰图像，并计算所述潜在的清晰图像和真实图像之间的EM距离，以对抗方式训练所述图像复原模型；

步骤Step3：将待复原的图像数据分组输入训练好的图像复原模型进行图像复原，得到复原后的图像数据。

进一步地，所述图像复原模型包括生成器和判别器；所述生成器用于对模糊样本图像进行去雾处理，生成潜在的清晰图像；所述判别器用于将生成的所述潜在的清晰图像图像作为输入计算所述潜在的清晰图像和真实图像之间的EM距离。

更进一步地，所述生成器为一个多尺度的残差网络，所述多尺度的残差网络包括五个ResInception模块、九个残差模块、两个个尺寸为7×7卷积核、两个3×3卷积核、两个上采样层和两个跳跃连接模块；

所述多尺度的残差网络先通过7×7的卷积将输入图像的通道数变宽由3转换成64，然后经过步长为2、大小为3×3的卷积，将特征图由256×256大小收缩为128×128，通道数再次加宽变成128，随后利用两个残差模块提取特征，接着第2个步长为2、大小为3×3卷积的收缩层，将特征图由128×128收缩为64×64，通道数第3次加宽变成256，然后经过五个ResInception网络模块，得到不同尺寸的感受野以增加学习的多样性，再通过上采样将图像尺寸由64×64扩展到128×128，同时通道数变窄从256收缩到128，然后经过两个残差模块在128×128尺度提取特征，再通过一个上采样将图像大小从128×128拓展到原始大小256×256，通道数再次变窄由128收缩到64，然后再次使用大小为7×7的卷积将图像通道数从64转换回图像原始维度3，最后在特征图尺寸为256×256和特征图尺寸为128×128的收缩图像之前和扩展图像之后的同尺寸特征图之间，加入跳跃连接模块。

更进一步地，每个ResInception网络模块包括ResInception模块、ResBlock模块和ResAttention模块；

所述ResInception模块包括三个分支，每个分支包含不同尺寸的卷积核组合，第一个分支包括大小依次为1×1、3×3、3×3的卷积核，第二个分支包括大小依次为1×1、3×3的非线性卷积；第三个分支包括一个1×1卷积核，然后通过级联层将三个分支提取的特征进行融合，最后通过一个1×1的线性卷积并加上输入得到输出结果；

所述ResBlock模块由两个大小为3×3的卷积级联组成的简单残差块，第一个是带有ReLU和归一化的3×3的卷积核，第二个是一个3×3的线性卷积；

所述ResAttention模块包括一个包含有两个ResBlock模块的分支和一个包含有下采样模块和上采样模块的分支，将两个分支的输出像素相加送入2个1×1卷积，输出对输入的注意力系数，将所述注意力系数与包含有两个ResBlock模块的分支输出相乘再相加，最后再经过一个ResBlock模块后与输入相加得到输出结果。

更进一步地，所述ResInception模块、所述ResBlock模块和所述ResAttention模块依次连接。

更进一步地，所述判别器包括五个4×4卷积，每层卷积之后跟随一个组归一化GN层和激活函数LeakyReLU，最后一层卷积将35×35尺寸的判别数矩阵求均值输出判别器的输出得分，将所述得分传给判别器损失函数，计算损失后调整网络权重和偏置的分布。

更进一步地，所述图像复原模型的损失函数包括：L＝Loss_a+λLoss_p+αLoss₁,其中，

G₁和D₁分别表示生成器和判别器,

φ_i,j是VGG-19网络在ImageNet数据集上预训练的第i个最大化层之前通过第j个卷积之后获得的特征图，特征图大小为W_i,j×H_i,j，

S_i和B_i分别为清晰图像和模糊图像，估测图像为f(B_i)，λ设置为100，Loss₁为范数损失函数。

一种基于多尺度特征和注意力机制的图像复原装置，包括：数据库模块、图像复原模块和输入输出模块；

所述数据库模块用于获取样本数据集，所述样本数据集包括真实图像和模糊样本图像；

所述图像复原模块用于将样本数据集输入图像复原模型，所述图像复原模型将模糊样本图像进行去模糊处理，生成潜在的清晰图像，并计算所述潜在的清晰图像和真实图像之间的EM距离，以对抗方式训练所述图像复原模型；

所述输入输出模块用于将待复原的图像数据分组输入训练好的图像复原模型进行图像复原，并输出复原后的图像数据。

从上述的技术方案可以看出，本发明的有益效果是：本发明通过基于多尺度特征和注意力机制的图像复原模型，可提取不同尺度的特征信息，使得去模糊处理效率更高、结果更加有效和可靠。

除了上面所描述的目的、特征和优点之外，下文中将结合附图对实施本发明的最优实施例进行更详尽的描述，以便能容易地理解本发明的特征和优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下文将对本发明实施例或现有技术描述中所需要使用的附图作简单地介绍，其中，附图仅仅用于展示本发明的一些实施例，而非将本发明的全部实施例限制于此。

图1为本发明一种基于多尺度特征和注意力机制的图像复原方法的具体步骤示意图。

图2为本实施例中生成器的结构示意图。

图3为本实施例中ResAttention模块的结构示意图。

图4为本发明中一种基于多尺度特征和注意力机制的图像复原装置的组成结构示意图。

附图标记：

数据库模块1、图像复原模块2和输入输出模块3。

具体实施方式

为了使得本发明的技术方案的目的、技术方案和优点更加清楚，下文中将结合本发明具体实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。附图中相同的附图标记代表相同的部件。需要说明的是，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

雾霾天气会使得基于视觉的应用***性能将急剧降低，给社会带来严重的安全隐患。因此，去雾算法作为现代视觉应用***中的一部分，具有广阔的应用前景。除了由于雾霾等自然环境造成的图像模糊需要用到去雾技术，摄像机本身的品质不同，拍出来的画面清晰度也不同，对于那些有需要而画面又不够清晰地图像，进行去雾复原处理，或者说是对图像的模糊处理法，也是目前需要的。目前，图像恢复技术已渗透到案件侦破、病例检测、天文遥感、医学图像和安全监测等各个领域。因此，图像复原技术的研究具有重要的实用意义。

传统的图像去模糊方法一般通过对模糊源做出简单的假设来参数化模糊模型，并利用不同的自然图像先验，例如，高斯尺度混合模型，全变差正则化，0范数和基于暗通道的正则化器等来约束解空间，然而，传统方法仍然存在局限性，大多数方法需要不断迭代优化来无限接近原始图像，致使计算过程繁琐且计算量很大。目前，卷积神经网络被广泛应用于解决计算机视觉问题，其中包括去模糊问题。但这些方法都是先预测未知运动模糊核，再执行去模糊，若违反假设的模型，会导致效果不理想。一些还因为特定场景情况下训练出来的效果很好，对场景具有很强的依赖性导致泛化能力不足，因此，本申请提出一种基于多尺度特征和注意力机制的图像复原方法，以解决上述问题。

如附图1所示，本发明该方法具体包括以下步骤：步骤Step1：获取样本数据集，所述样本数据集包括真实图像和模糊样本图像。本实施例利用GoPro数据集构建样本数据集，其很好的模拟了现实生活中的非均匀运动模糊，数据集共2000对1280×720×3的模糊--清晰图像对，并根据训练需要对数据集进行扩展，扩展时，随机选取若干个图像对，对其进行下采样缩小后随机裁剪得到训练模糊图像，测试输出时通过线性插值还原图像大小即可。

图像去模糊的目的是从退化图像中恢复清晰图像。具体地，步骤Step2：将样本数据集输入图像复原模型，所述图像复原模型将模糊样本图像进行去模糊处理，生成潜在的清晰图像，并计算所述潜在的清晰图像和真实图像之间的EM距离，以对抗方式训练所述图像复原模型。

在本实施例中，所述图像复原模型包括生成器和判别器；训练时，所述生成器用于对模糊样本图像进行去雾处理，生成潜在的清晰图像。所述判别器用于将生成的所述潜在的清晰图像图像作为输入计算所述潜在的清晰图像和真实图像之间的EM距离，进而判断是否与真实图像数据相似，两者互相对抗来优化网络权重和偏置。生成器的目的是生成感知上逼真的样本，从而使得判别器无法区分真实样本与生成样本。

具体地，如附图2所示，所述附图2为生成器的结构示意图，所述生成器为一个多尺度的残差网络，所述多尺度的残差网络包括五个ResInception模块、九个残差模块(ResBlock)、两个个尺寸为7×7卷积核、两个3×3卷积核、两个上采样层和两个跳跃连接模块(SkipBlock)；

所述多尺度的残差网络先通过7×7的卷积将输入图像的通道数变宽由3转换成64，然后经过步长为2、大小为3×3的卷积，将特征图由256×256大小收缩为128×128，通道数再次加宽变成128，随后利用两个残差模块提取特征，接着第2个步长为2、大小为3×3卷积的收缩层，将特征图由128×128收缩为64×64，通道数第3次加宽变成256，然后经过五个ResInception网络模块，得到不同尺寸的感受野以增加学习的多样性，再通过上采样将图像尺寸由64×64扩展到128×128，同时通道数变窄从256收缩到128，然后经过两个残差模块在128×128尺度提取特征，再通过一个上采样将图像大小从128×128拓展到原始大小256×256，通道数再次变窄由128收缩到64，然后再次使用大小为7×7的卷积将图像通道数从64转换回图像原始维度3，最后在特征图尺寸为256×256和特征图尺寸为128×128的收缩图像之前和扩展图像之后的同尺寸特征图之间，加入跳跃连接模块，其中，每个ResInception网络模块包括ResInception模块、ResBlock模块和ResAttention模块，所述ResInception模块、所述ResBlock模块和所述ResAttention模块依次连接。

所述ResInception模块包括三个分支，每个分支包含不同尺寸的卷积核组合，第一个分支包括大小依次为1×1、3×3、3×3的卷积核，第二个分支包括大小依次为1×1、3×3的非线性卷积；第三个分支包括一个1×1卷积核，然后通过级联层将三个分支提取的特征进行融合，最后通过一个1×1的线性卷积并加上输入得到输出结果。

所述ResBlock模块由两个大小为3×3的卷积级联组成的简单残差块，第一个是带有ReLU和归一化的3×3的卷积核，第二个是一个3×3的线性卷积。

在本实施例中，使用的归一化方式均为组归一化。归一化有提高模型收敛速度和模型精度等优势，在CNN网络中中起着至关重要的作用。归一化方式有批量归一化、实例归一化和组归一化等。批量归一化当批量变小时，由于批次统计估计不准确其错误率会迅速增加，限制了其在大型网络结构中小批量训练的应用，虽然在小批量数据的情况下，实例归一化性能要高于批量归一化。但是组归一化准确性在小批量的情况下性能稳定且优于实例归一化。

如附图3所示，附图3为ResAttention模块的结构示意图，所述ResAttention模块包括一个包含有两个ResBlock模块的分支和一个包含有下采样模块和上采样模块的分支，将两个分支的输出像素相加送入2个1×1卷积，输出对输入的注意力系数，将所述注意力系数与包含有两个ResBlock模块的分支输出相乘再相加，最后再经过一个ResBlock模块后与输入相加得到输出结果。

在本实施例中，包含有两个ResBlock模块的分支除了进行特征处理，还可以适应Inception，残差结构等先进的网络结构。因为简单的堆叠卷积层会导致明显的网络性能下降，故该模块应用了残差结构，变为残差注意力模块。残差注意力模块可以提高注意力模块处理图像特征的性能。并且随着层数的加深，不同模块的特征会自适应的改变。还可以广泛捕获不同类型的注意力。

所述判别器包括五个4×4卷积，每层卷积之后跟随一个组归一化GN层和激活函数LeakyReLU，最后一层卷积将35×35尺寸的判别数矩阵求均值输出判别器的输出得分，将所述得分传给判别器损失函数，计算损失后调整网络权重和偏置的分布。

所述图像复原模型的损失函数包括：L＝Loss_a+λLoss_p+αLoss₁,其中，

G₁和D₁分别表示生成器和判别器,在卷积神经网络中仅仅使用L1或者L2范数损失函数会使图像丢失边缘信息而过于平滑，不利于图像去模糊。而对抗损失Loss_a可以保留边缘并产生更逼真的颜色分布。但是如果仅单独使用该损失可能会因为未考虑清晰--模糊图像对应分布，而导致恢复图像与清晰图像之间的差距较大。因此，还需要加入感知损失，来计算经过深度卷积神经网络的真实图像和生成潜在图像之间的欧氏距离，便于恢复图像的内容。

如附图4所示，本申请还公开了一种基于多尺度特征和注意力机制的图像复原装置，包括：数据库模块1、图像复原模块2和输入输出模块3。

所述数据库模块1用于获取样本数据集，所述样本数据集包括真实图像和模糊样本图像。构建数据库模块可较快的帮助网络完成训练和参数优化。

所述图像复原模块2用于将样本数据集输入图像复原模型，所述图像复原模型将模糊样本图像进行去模糊处理，生成潜在的清晰图像，并计算所述潜在的清晰图像和真实图像之间的EM距离，以对抗方式训练所述图像复原模型。

所述输入输出模块3用于将待复原的图像数据分组输入训练好的图像复原模型进行图像复原，并输出复原后的图像数据。

数据库模块通过输入输出模块与图像复原模块相连接。本申请的技术方案可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备或者其它可运行计算机程序的硬件设备执行本申请各个实施例所述方法的全部或部分步骤。

应当说明的是，本发明所述的实施方式仅仅是实现本发明的优选方式，对属于本发明整体构思，而仅仅是显而易见的改动，均应属于本发明的保护范围之内。

Claims

1.一种基于多尺度特征和注意力机制的图像复原方法，其特征在于，包括以下步骤：

步骤Step1：获取样本数据集，所述样本数据集包括真实图像和模糊样本图像；

2.如权利要求1所述的基于多尺度特征和注意力机制的图像复原方法，其特征在于，所述图像复原模型包括生成器和判别器；所述生成器用于对模糊样本图像进行去雾处理，生成潜在的清晰图像；所述判别器用于将生成的所述潜在的清晰图像图像作为输入计算所述潜在的清晰图像和真实图像之间的EM距离。

3.如权利要求2所述的基于多尺度特征和注意力机制的图像复原方法，其特征在于，所述生成器为一个多尺度的残差网络，所述多尺度的残差网络包括五个ResInception模块、九个残差模块、两个个尺寸为7×7卷积核、两个3×3卷积核、两个上采样层和两个跳跃连接模块；

4.如权利要求3所述的基于多尺度特征和注意力机制的图像复原方法，其特征在于，每个ResInception网络模块包括ResInception模块、ResBlock模块和ResAttention模块；

5.如权利要求3所述的基于多尺度特征和注意力机制的图像复原方法，其特征在于，所述ResInception模块、所述ResBlock模块和所述ResAttention模块依次连接。

6.如权利要求5所述的基于多尺度特征和注意力机制的图像复原方法，其特征在于，所述判别器包括五个4×4卷积，每层卷积之后跟随一个组归一化GN层和激活函数LeakyReLU，最后一层卷积将35×35尺寸的判别数矩阵求均值输出判别器的输出得分，将所述得分传给判别器损失函数，计算损失后调整网络权重和偏置的分布。

7.如权利要求6所述的基于多尺度特征和注意力机制的图像复原方法，其特征在于，所述图像复原模型的损失函数包括：L＝Loss_a+λLoss_p+αLoss₁，其中，

G₁和D₁分别表示生成器和判别器，

φ_i，j是VGG-19网络在ImageNet数据集上预训练的第i个最大化层之前通过第j个卷积之后获得的特征图，特征图大小为W_i，j×H_i，j，

8.一种基于多尺度特征和注意力机制的图像复原装置，其特征在于，包括：数据库模块、图像复原模块和输入输出模块；