CN117575915A

CN117575915A - 一种图像超分辨率重建方法、终端设备及存储介质

Info

Publication number: CN117575915A
Application number: CN202410056441.7A
Authority: CN
Inventors: 谢瀚荣; 吴昌徽; 黄育明; 廖源; 陈颖频; 宋彬辉; 胡浩荣; 陈晶晶; 张钦洪; 陈星萍; 李倩; 张妹珠
Original assignee: Minnan Normal University
Current assignee: Minnan Normal University
Priority date: 2024-01-16
Filing date: 2024-01-16
Publication date: 2024-02-20

Abstract

本发明涉及一种图像超分辨率重建方法、终端设备及存储介质，该方法中包括：构建图像超分辨率重建模型，通过训练集对模型进行训练后，用于图像的超分辨率重建；模型的网络结构依次包括浅层特征提取模块、深层特征提取模块和上采样模块；深层特征提取模块由若干个增强型Swin Transformer模块组成，特征在其中交替进行局部特征提取与全局特征提取；提取的全局特征为使用块稀疏全局感知模块、窗口多尺度自注意力和低参数残差通道注意力模块提取的通道注意力特征。本发明提高了模型的长距离建模能力，且使模型能够利用不同层次局部信息。

Description

一种图像超分辨率重建方法、终端设备及存储介质

技术领域

本发明涉及图像处理领域，尤其涉及一种图像超分辨率重建方法、终端设备及存储介质。

背景技术

单幅图像超分辨率重建是图像处理领域的经典问题，其主要功能是生成具有高空间分辨率且细节清晰的图像。图像超分辨率本质是把低分辨率图像中丢失的高频信号恢复出来，从而获取高质量图像。图像超分辨率重建技术被广泛应用于遥感成像、红外成像、医学成像等领域。

图像超分辨率有基于插值、模型驱动和数据驱动的方法。基于插值的算法由于简单和高效，得到了广泛的应用。但基于插值算法的重建结果存在锯齿和模糊等问题，严重影响SR图像质量。基于模型驱动的算法利用图像先验知识恢复细节信息，由于其较大的计算复杂度，导致该类方法在工程应用上受限。随着并行计算技术的发展和成熟，数据驱动的算法受到学者的关注。例如，Dong等人提出仅采用三个卷积层的SRCNN模型进行图像超分辨率重建（C. Dong, C. C. Loy, K. He, et al. Learning a deep convolutional networkfor image super-resolution[C]. Computer Vision–ECCV 2014, Zurich,Switzerland, 2014, 184-199.）。首先将卷积神经网络用于图像超分辨率重建，相比基于插值和模型驱动的方法取得了更好的重建效果。随后，研究人员通过增加网络深度提高网络模型的特征表达能力，Simonyan等人提出深度达到19层的VGG网络（K. Simonyan and A.Zisserman. Very deep convolutional networks for large-scale image recognition[C]. International Conference on Learning Representations, San Diego, CA,USA, 2015, 1-14.）。He等人提出的ResNet模型更是达到了152层（K. He, X. Zhang, S.Ren, et al. Deep residual learning for image recognition[C]. Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas,NV, USA, 2016, 770-778.），该网络提出残差学习避免网络梯度消失或***以保证信息的完整性。Ledig等人基于残差模块提出一个SRResNet网络，在此基础上配合判别器网络提出具有生成对抗结构的SRGAN模型。该模型在较大尺度因子重建任务中可恢复更具纹理细节的SR图像（C. Ledig, L. Theis, F. Huszár, et al. Photo-realistic single imagesuper-resolution using a generative adversarial network[C]. Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, HI,USA, 2017, 4681-4690.）。Wang等人在SRGAN模型中引入残差密集块（Residual-in-Residual Dense Block，RRDB）提出ESRGAN模型，该模型通过加大网络深度学习更精细的边缘信息（X. Wang, K. Yu, S. Wu, et al. Esrgan: Enhanced super-resolutiongenerative adversarial networks[C]. Proceedings of the European Conference onComputer Vision (ECCV), Munich, Germany, 2018, 63-79.）。但是，由于RRDB需消耗大量内存，且连结操作带来大量计算，这些问题使其难以在工程上得到广泛应用。上述工作在网络的最后一层扩大图像的空间分辨率。有别于前面的工作，Lai等人提出Laplacian金字塔超分辨率网络（LapSRN）。该网络通过渐进式重建的方式重构高分辨率图像子频带细节信息，这种从粗到细的图像超分辨率重建方法更高效（W.-S. Lai, J.-B. Huang, N. Ahuja,et al. Deep laplacian pyramid networks for fast and accurate super-resolution[C]. Proceedings of the IEEE Conference on Computer Vision and PatternRecognition, Honolulu, HI, USA, 2017, 624-632.）。大多数基于CNN的方法侧重于精心设计的架构，如残差学习和密集连接。尽管与传统基于模型的方法相比，它们的性能得到了显著提升，但它们通常面临着两个基本问题：首先，图像和卷积核之间的相互作用是与内容无关的。使用相同的卷积核来恢复不同的图像区域可能不是一个好的选择。其次，基于局部处理原则，卷积对于长距离依赖建模有限（J. Liang, J. Cao, G. Sun, et al. Swinir:Image restoration using swin transformer[C]. Proceedings of the IEEE/CVFInternational Conference on Computer Vision, Montreal, QC, Canada, 2021,1833-1844.），若要扩大感受野，需增加网络层数，引起较大的计算资源开销。

上述方法均采用卷积结构，只感知图像局部信息不能直接得到较大范围的特征。

发明内容

为了解决上述问题，本发明提出了一种图像超分辨率重建方法、终端设备及存储介质。

具体方案如下：

一种图像超分辨率重建方法，包括：构建图像超分辨率重建模型，通过训练集对模型进行训练后，用于图像的超分辨率重建；

模型的网络结构依次包括浅层特征提取模块、深层特征提取模块和上采样模块；低分辨率图像输入浅层特征提取模块得到浅层特征，浅层特征输入深层特征提取模块得到深层特征，浅层特征和深层特征相加后输入上采样模块得到超分辨率图像；

深层特征提取模块由若干个增强型Swin Transformer模块组成，特征在增强型Swin Transformer模块中交替进行局部特征提取与全局特征提取；增强型SwinTransformer模块中提取局部特征时使用两个移位卷积及移位卷积之间的RELU激活函数提取，提取的全局特征为使用块稀疏全局感知模块、窗口多尺度自注意力和低参数残差通道注意力模块提取的通道注意力特征。

进一步的，浅层特征提取模块采用3×3卷积提取浅层特征。

进一步的，上采样模块由一个3×3卷积和像素混洗组成。

进一步的，模型的损失函数采用L1损失。

进一步的，块稀疏全局感知模块中对输入张量依次进行层归一化、通道维度特征映射和GELU激活函数后，得到中间张量；之后通过多层感知机对中间张量进行空间特征映射；最后对空间特征映射后的张量进行通道方向的全连接特征映射，并将全连接特征映射结果与中间张量进行残差连接得到输出张量。

进一步的，窗口多尺度自注意力中采用移位窗口多尺度自注意力。

进一步的，低参数残差通道注意力模块中首先采用1×1卷积对输入特征进行扩维；然后采用3×3卷积对扩维后的特征进行学习并将特征恢复至与输入特征相同的维度；最后使用通道注意力模块对特征的通道进行选择。

进一步的，低参数残差通道注意力模块表示为：

其中，表示第i个低参数残差通道注意力模块的输出特征；/>表示第i个低参数残差通道注意力模块的输入特征；/>表示扩张特征通道维度的1×1卷积核；/>表示压缩通道维度的3×3卷积核；/>表示扩张特征通道维度的1×1卷积核；/>表示压缩通道维度的1×1卷积核；下标c1和c2均表示压缩通道卷积层的序号；下标e1和e2均表示扩张通道卷积层的序号；/>表示RELU激活函数；/>表示二维全局平均池化；/>表示中间函数，/>表示函数/>的输入；/>表示激活函数；符号/>表示通道方向数乘。

一种图像超分辨率重建终端设备，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例上述的方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例上述的方法的步骤。

本发明采用如上技术方案，并具有有益效果：

（1）提出的图像超分辨率重建模型可以稀疏地学习全局信息，提高了模型的长距离建模能力。

（2）将Swin Transformer模块中的多头自注意力替换为多尺度自注意力，使得模型能够利用不同层次局部信息。

（3）设计了一个低参数残差通道注意力模块LRCAB，用于重新分配特征的通道权重，引导模型关注有效的信息。

附图说明

图1所示为本发明实施例一中Swin Transformer 模块的结构示意图。

图2所示为该实施例中窗口多头自注意力和移位窗口多头自注意力的示意图。

图3所示为该实施例中图像超分辨率重建模型的结构示意图。

图4所示为该实施例中通道扩张移位卷积的示意图。

图5所示为该实施例中通道压缩移位卷积的示意图。

图6所示为该实施例中块稀疏全局感知模块的示意图。

图7所示为该实施例中窗口多尺度自注意力示意图。

图8所示为该实施例中自注意力映射示意图。

图9所示为该实施例中低参数残差通道注意力模块示意图。

图10所示为该实施例中移位窗口多尺度自注意力计算示意图。

图11所示为该实施例中局部归因图示意图。

图12所示为该实施例中第一幅图片x4尺度与最新轻量级SR模型的定性比较结果。

图13所示为该实施例中第二幅图片在x4尺度与最新轻量级SR模型的定性比较结果。

图14所示为该实施例中第三幅图片在x4尺度与最新轻量级SR模型的定性比较结果。

图15所示为该实施例中低参数残差通道注意力模块与其他类型的通道注意力模块的比较结果。

图16所示为该实施例中基于Swin Transformer的轻量级SR网络的SR结果和局部归因图结果。

具体实施方式

为进一步说明各实施例，本发明提供有附图。这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。

现结合附图和具体实施方式对本发明进一步说明。

实施例一：

本发明实施例提供了一种图像超分辨率重建方法，下面首先对相关知识进行介绍。

（1）图像超分辨率重建

图像在传输的过程中往往会受到多种因素的干扰，导致信息丢失从而影响图像的质量。从高分辨率（High-Resolution, HR）图像到低分辨率（Low-Resolution, LR）图像的退化中可能会出现模糊、噪声干扰和下采样等影响。图像超分辨率重建技术把低分辨率图像中丢失的高频信号恢复出来，从而获取超分辨率（Super-Resolution, SR）图像。

为了克服图像退化问题，国内外学者在图像超分辨率重建领域进行了大量的研究。近年来，基于深度学习的图像超分辨率重建技术迅速发展，其从大规模的成对数据集中学习LR图像到HR图像的映射，取得了不错的重建效果。为了提高模型的超分辨率重建性能，一些重建算法加入更精细的神经网络架构，如残差学习、密集连接等。另一些超分辨率重建算法在CNN框架中应用注意力机制，也取得不错的重建性能。

（2） Swin Transformer模块

最近，自然语言处理领域的Transformer模型在计算机视觉领域得到了广泛的应用，其通过注意力机制关注图像的重要区域，在图像处理领域取得了较好的性能，Transformer模型开始被用于图像超分辨率重建领域。

最近，在目标检测、目标分类、视频分类等相关研究显示了Transformer模型在计算机视觉领域的巨大潜力。最近对视觉变换器（ViT）的研究探索证明了它们作为CNN模型的替代品的巨大潜力。Vit模型通过将图片分成不重叠的图像块，实现将视觉问题转化为序列到序列问题，完全使用Transformer结构实现了很好的图像分类性能。Swin Transformer提出移位窗口自注意力，降低计算量的同时使相邻窗口实现信息交互。

视觉变换器通过叠加多个Transformer块，对不重叠的图像块进行处理，获得了优越的分类性能，然而，具有输入长度的二次复杂度的普通注意力难以适应高分辨率图像作为输入的视觉任务。Liu等人提出Swin Transformer模型（Z. Liu, Y. Lin, Y. Cao, etal. Swin transformer: Hierarchical vision transformer using shifted windows[C]. Proceedings of the IEEE/CVF International Conference on Computer Vision,Montreal, QC, Canada, 2021, 10012-10022.），通过在窗口中计算图像块的自注意力，这样减少计算复杂度和提高模型的局部特征建模能力。然而，固定的窗口尺寸约束了Transformer处理不同尺度物体的能力。为此，本实施例中引入具有多尺度窗口的SwinTransformer块提高模型的多尺度学习能力。

如图1和图2所示，一个Swin Transformer块先后计算窗口多头自注意力 (WindowMulti-head Self Attention, W-MSA)、移位窗口多头自注意力 (Shifted Window Multi-head Self Attention, SW-MSA)建模图像局部区域纹理信息。然后使用一个两层的多层感知机（MLP）做进一步特征变换，两层MLP之间使用GELU激活函数。在W/SW-MSA模块和MLP模块之前分别应用一个层归一化(LayerNorm, LN)层，在每个模块之后应用一个残差连接。因Swin Transformer的窗口注意力计算量较小，该模型具有处理大尺度图像的优势。SwinIR图像恢复模型将Swin Transformer模型应用在超分辨率重建中，实现了较好的性能。

由于多头自注意力直接对序列计算自注意力，这使得模型的计算复杂度和训练时间增加。Swin Transformer提出的W-MSA将注意力计算的范围限制在窗口内，使其在处理大规模数据或长序列时更具优势，计算复杂度更低。但是，Swin Transformer的窗口多头自注意力使得特征映射的长程信息交互能力不足，导致感受野受到限制。为此，本实施例在SwinTransformer基础上引入稀疏感知和多尺度机制提高模型长程信息交互能力。

基于上述背景知识，为了使构建的图像超分辨率重建模型具有全局感知能力并且避免增加过多的参数，本实施例中提出了用于超分辨率的多尺度视角下带块稀疏全局感知的增强型Swin Transformer 网络（Enhanced Swin Transformer Network，简称为ESTN）。此外，为分析提出的ESTN网络对于感受野的影响，本实施例还引入了局部归因图（LocalAttribution Map, LAM）来可视化重建网络的稀疏全局感知能力。

如图3所示，本实施例所提出的图像超分辨率重建网络ESTN由3个部分组成，分别为：浅层特征提取模块（Shallow Feature Extraction Module，SFEM）、深层特征提取模块（Deep Feature Extraction Module，DFEM）和上采样模块（Up-sampling Module，UM）。

浅层特征提取模块采用3×3卷积提取浅层特征。

深层特征提取模块由若干个增强型Swin Transformer模块（Enhanced SwinTransformer Module，ESTM）组成，特征在ESTM中交替进行局部特征与全局特征提取。首先，使用两个具有改变特征通道数的移位卷积（Shift-Conv，SC）及它们之间的激活函数RELU提取局部特征，这有利于模型恢复出精细的纹理。然后，使用块稀疏全局感知模块（BlockSparse Global-Awareness Module, BSGM）、窗口多尺度自注意力（Window Multi-ScaleSelf Attention, W-MSSA）和低参数残差通道注意力（Low-parametric Residual ChannelAttention Block, LRCAB）提取通道注意力特征。其中，BSGM的稀疏全局感知可以高效提高模型的感受野，W-MSSA则通过不同尺寸的窗口挖掘更多的物体信息，通过改变LRCAB的构建方式实现高效的通道选择。最后，再次交替对特征进行局部和全局特征提取，其中全局特征提取中的多尺度自注意力模块采用的是移位窗口多尺度自注意力（Shifted WindowMulti-Scale Self Attention, SW-MSSA），通过对特征进行移位操作实现跨窗口的信息交互。

上采样模块由一个3×3卷积和像素混洗（Pixel Shuffle）组成，可以实现将图像按指定的倍率放大图像，从而输出超分辨率图像。

（1）浅层和深层特征提取

给定一张低分辨率图像输入（Low-resolution，LR），使用空间分辨率为3×3的卷积核提取浅层特征，因此，其中每个切片卷积操作定义为：

(1)

其中表示卷积核组/>中的第/>个卷积核，其空间分辨率为/>；/>表示卷积操作；/>为浅层特征；/>表示卷积结果的第/>个水平切片；/>表示中间特征的通道数。为简化表达，后续的卷积仅采用类似于/>的方式表达卷积核、被卷积张量、卷积结果之间的关系。

(2)

其中表示深度特征提取模块；/>表示深层特征。

(3)

其中表示第/>个ESTM模块;/>表示第/>个ESTM模块输出特征。

（2）上采样模块

将浅层特征和深层特征/>相加，然后经过3×3卷积和像素混洗即可恢复出超分辨率图像。

(4)

其中表示像素混洗操作；/>表示尺度变大/>倍的超分辨率图像；表示空间分辨率为3×3的卷积核。

（3）损失函数

本实施例中使用Adam作为优化器，通过最小化L1损失来优化ESTN重建网络的参数：

(5)

其中，分别表示批量中第/>(/>表示批处理数)张超分辨率和高分辨率图片。

（4）增强型Swin Transformer模块

现有基于Swin Transformer的图像超分辨率重建网络受限于注意力窗口的尺寸较小，其构建长距离依赖的能力十分有限，因此恢复的SR图像质量不佳。为解决这一问题，本实施例在Swin Transformer中引入BSGM，使重建网络能够较好地构建长距离依赖。同时，将Swin Transformer的MSA替换为MSSA关注多尺度信息。如图3所示，ESTM具有SC、BSGM、W/SW-MSSA和LRCAB。

阶段1：局部特征提取阶段

图4和图5展示了图3中第一阶段局部特征提取的细节。如图4所示，特征经过移位卷积和1×1卷积分别提取局部特征和扩张通道维度，如式(6)所示：

(6)

其中表示沿通道上五组卷积核堆叠起来的移位卷积核，如图4所示；表示通道方向逐层卷积算子；/>表示扩张特征通道维度的1×1卷积核；表示RELU激活函数；/>表示扩张通道维度后的特征。

如图5所示，对特征做移位卷积后，并使用1×1卷积核将特征的通道维度压缩至与输入的特征/>的通道维度一致，如式(7)所示。

(7)

其中表示在空间上移动特征的卷积核；/>表示压缩通道数维度的1×1卷积核；/>表示压缩通道维度后的特征。

将特征与压缩通道维度后的特征/>进行残差连接得到移位局部特征/>。

(8)

阶段2：全局特征提取阶段

（a）阶段2中的块稀疏全局感知模块

本实施例采用BSGM对特征构建稀疏全局感知。

(9)

其中表示第/>个ESTM模块中第二阶段的BSGM。

BSGM如图6所示，假定输入的张量为。/>经过层归一化、通道维度特征映射和GELU激活函数后得到/>：

(10)

其中表示全连接特征映射层。

对进行空间特征映射：

(11)

其中表示将张量按指定尺寸进行划分；/>表示改变张量的空间排列。

(12)

其中表示多层感知机的空间映射操作。

(13)

其中表示将张量的尺寸恢复至原始大小。

最后，对张量做通道方向的全连接特征映射并与/>做残差连接输出张量/>：

(14)

（b）阶段2中的窗口多尺度自注意力模块

本实施例引入MSSA使得模型可以学习多尺度信息。

(15)

其中表示第/>个ESTM模块中阶段2的W-MSSA模块。

BSGM对特征建立稀疏全局感知后计算多尺度自注意力。如图7所示，首先将张量从通道维度平均分成三份。然后分别使用三个不同尺度的窗口自注意力模块（W-SAs (s=0,1,2)）计算注意力矩阵处理不同尺度的物体，其中自注意力范围使用黄色标注。自注意力矩阵获取如图8所示，分别使用1×1卷积获取查询矩阵、键矩阵/>和值矩阵/>。为确保模型能够处理不同分辨率的图像，本实施例在图像的边界使用反射填充使得图像尺寸是各窗口尺寸的整数倍。

(16)

其中为沿列方向的激活函数；/>表示局部窗口的尺寸大小。

（c）阶段2中的低参数残差通道注意力模块

近年来，注意力机制因其出色的性能被广泛使用。由于各通道特征的对超分辨率重建结果贡献度不同，本实施例希望引入通道注意力对特征的通道加以选择。同时，为避免增加过多的网络参数和计算量，本实施例重新构建通道注意力提出LRCAB。

如图9所示，采用1×1卷积对输入特征扩张维度。扩张特征的维度可以获得更丰富特征，比如不同方向，不同频率的纹理特征。然后使用3×3卷积对这些特征进行学习并将特征恢复至与输入特征相同维度。最后使用通道注意力模块对特征的通道进行选择。

(17)

其中表示扩张特征通道维度的1×1卷积核；/>表示压缩通道维度的3×3卷积核。

(18)

其中表示扩张特征通道维度的1×1卷积核；/>表示减少通道维度的1×1卷积核；/>表示二维全局平均池化函数；/>为激活函数；符号/>表示通道方向数乘。

阶段3：局部特征提取阶段

式(22)-(23)阐述了图3中第三阶段局部特征提取的数学表达式。

(19)

(20)

其中表示扩张特征通道数的1×1卷积核；/>表示压缩通道数的1×1卷积核；/>表示ESTM中第三阶段移位卷积输出的局部特征。

阶段4：全局特征提取阶段

（a）阶段4中的块稀疏全局感知模块

式(24)阐述了图3中ESTM的阶段4学习稀疏全局感知的数学表达式，与阶段2类似。

(21)

其中表示第/>个ESTM模块第4阶段中的BSGM模块。

（b）阶段4中的移位窗口多尺度自注意力模块

如图10所示，SW-MSSA相较于W-MSSA多了循环移位和逆循环移位操作。循环移位的距离为当前窗口尺寸的一半。通过式(22)计算移位窗口多尺度注意力。

(22)

其中表示第/>个ESTM模块阶段4中的SW-MSSA模块。

（c）阶段4中的低参数残差通道注意力模块

与阶段2类似，计算通道注意力以重新分配通道权重。

(23)

其中表示第/>个ESTM模块第4阶段中的LRCAB。

（5）局部归因图

为了探究提出的BSGM模块的全局信息建模能力，本实施例中引入LAM进行验证。LAM使用路径积分进行梯度回传，计算输出图像中局部特征的产生与LR图像像素关系。

如图11所示，低分辨率图像被超分辨率重建网络重建成超分辨率图像/>。然后，选择超分辨率图像/>中一个关注的区域提取特征，分析该特征与低分辨率图像/>中像素的关系。LAM结果中深色的像素表明其对恢复选定区域的特征贡献值较大。第/>维的LAM结果可由式(24)计算。

(24)

其中，分别表示超分辨率网络和局部特征提取器；/>表示平滑路径函数，/>表示对输入图像模糊化处理的图像/>，/>表示没做模糊化处理的输入的图像/>；/>表示第/>组图像计算得到的局部归因图结果，计算完成后取平均值作为LAM结果。

实验分析

本实施例在五个数据集上进行两倍、三倍和四倍尺度单幅图像超分辨率实验，将所提出的网络与最先进的网络进行了比较，定量和定性地验证了提出的ESTN重建网络的优越性能。本实施例提供了全面的消融实验评估提出的ESTN重建网络各组件作用。最后，采用局部归因图对所提出ESTN网络的感受野可视化并加以分析。

本实施例使用包括了800个LR-HR图像对的DIV2K的超分辨数据集训练提出的ESTN网络。HR的图像裁剪为256×256，小批量数据大小为。使用5个测试数据集与最先进方法进行比较：Set5、Set14、BSD100、Urban100和Manga109。

（1）训练设置

本实施例对两倍、三倍、四倍尺度超分辨率重建任务分别进行训练。ESTN重建网络由12个通道数的ESTM块组成，BSGM的窗口设置为4×4，W/SW-MSSA的多尺度窗口设置为4×4、8×8和16×16。在一个ESTM中，W-MSSA中计算的注意力分数共享给SW-MSSA使用以减少计算量。采用双三次下采样生成训练图像对，从LR图像随机裁剪64个大小为64×64的图像块作为ESTN网络的训练批量。本实施例以0.0002的初始学习率训练的网络，在第250，400，425，450，475代将学习率衰减一半，总共训练500代。对于优化，本实施例使用Adam优化器基于/>且权重衰减为1e-8。所有实验均在两张NVIDIA RTX3090GPU上进行。

（2）测试设置

本实施例主要关注模型的轻量化性能和重构效果，轻量化性能主要关注参数量（Params）和浮点运算数（Floating point operations，FLOPs）。FLOPs的结果是在输出SR分辨率为1280×720进行计算的。重构效果通过广泛使用的PSNR和SSIM指标进行评价，将超分辨率图像从RGB通道转换为YCbCr空间，然后在Y通道上进行计算。

（3）实验结果

本实施例将ESTN重建网络与7种最先进的单幅图像超分辨率轻量级SR模型进行比较：SRCNN、CARN、IMDN、LAPAR-A、ESRT、ELAN-light和SwinIR-light。

（a）定量比较

如表1（在基准数据集上与轻量化图像超分辨率方法进行定量比较（平均PSNR/SSIM））所示，本实施例提出的ESTN重建网络在5个测试集上三种尺度超分辨率重建中均取得了最先进的性能指标。在4×尺度超分辨率的结果中，在重建难度较大的Urban100和Manga109数据集上的性能指标提升较大。在Manga109数据集的4倍尺度超分辨率重建结果中，我们的ESTN重建网络PSNR较ELAN-light和SwinIR-light提升0.21dB，在Set5、Set14、BSD100和Urban100数据集上也取得不错的性能提升。本实施例提出的ESTN超分辨率重建网络与SwinIR-light相比，使用较少的参数量取得了更好的性能。

表1

（b）定性比较

如图12、图13和图14所示，本实施例对Urban100中的img044、img078和img092三幅图像上的×4 SR结果进行定性比较。

如图12所示，基于CNN模型的CARN、IMDN和LAPAR-A的SR图像放大部分十分模糊，视觉效果较差。基于Transformer模型的ESRT、ELAN-light和SwinIR-light的SR图像放大部分虽然可以恢复出图像的纹理，但依然存在边缘模糊。本实施例的ESTN能够恢复出边缘清晰、尖锐的SR图像。如图13所示，仅本实施例的ESTN在SR图像放大部分恢复出正确的纹理。基于CNN的CARN、IMDN、LAPAR-A的SR模型与基于Transformer的ESRT、ELAN-light、SwinIR-light的SR图像放大部分均恢复出错误的纹理。在图14中，仅本实施例的ESTN在SR图像放大部分能够兼顾几种不同方向的图像纹理恢复。基于CNN的CARN、IMDN和LAPAR-A恢复出的SR图像纹理方向完全是错误模糊的。基于Transformer的ESRT、ELAN-light、SwinIR-light的SR图像放大部分则无法兼顾不同方向的纹理恢复。

综上所述，基于CNN的SR模型可能由于感受野较小，其重建效果最差。而基于Transformer模型的算法较基于CNN的SR图像恢复性能有一定的提升，但仍存在进步空间。基于此，本实施例方法从改善模型的感受野出发，引入稀疏全局感知，使得模型具有全局感受野，因此恢复出的SR图像在放大区域内纹理更为准确。

通过以上定性和定量分析，表明本实施例方法优于其他先进方法，重建的SR图像更接近HR图像，证明了稀疏全局感知建模的有效性。

消融实验

为了更好理解ESTN是如何工作的，本实施例进行了全面的消融实验评估ESTN的各组成部分作用，以及低参数通道注意力模块不同设计的实验结果。消融实验中的模型均采用的批量为4进行训练，其余参数与上述实验设置保持一致。

（1）ESTN的组成部分

浮点运算总数FLOPs和参数量Params是衡量轻量级网络的参考指标。因此，为了直观展示所提出的改进策略的效率，本实施例进行有无BSGM和低参数量残差通道注意力模块LRCAB的消融实验。如表2（数据集manga109在x4分辨率下的模块消融实验）所示，有BSGM模块的网络较ELAN-light网络PSNR提升了0.12 dB，参数量仅增加了114 K，浮点运算总数则增加17 G。有LRCAB模块的网络则较有BSGM的ELAN-light网络PSNR提升了0.09 dB，浮点运算总数仅增加了4 G，参数量增加了168 K。

表2

（2）低参数通道注意力消融实验

展示LRCAB的效率，本实施例中给出了如图15所示的四种通道注意力进行对比。如表3（数据集manga109在x4分辨率下的通道注意力模块消融实验）所示，首先，与残差通道注意力模块（Residual Channel Attention Block, RCAB）相比，图15 后三种通道注意力模块均对特征进行升降维后再计算通道注意力能够提升PSNR指标。其次，图15中第二种通道注意力模块中使用两个1×1卷积对特征升降维后计算通道注意力的提升较为有限。而图15中第三种通道注意力模块中使用两个3×3卷积分别对通道数进行升降维后计算通道注意力虽然性能最好，但较原始RCAB增加173 K的参数量。本实施例提出的LRCAB如图15中第四种通道注意力模块所示，使用1×1卷积对通道数扩张再使用3×3卷积进行压缩后计算通道注意力较为高效，较原始RCAB的参数量和浮点运算总数分别增加20 K和4 G。

表3

（3）实际感受野分析

如图16所示，本实施例展示了基于Transformer模型的SR和LAM结果。LAM结果中，深色像素表明其对选定的关注区域的恢复结果的有较大影响。从基于Swin Transformer的ELAN-light和SwinIR-light的LAM结果可以看出，深色像素主要分布在选定的区域周围，全局感知感知能力较为有限。而本实施例提出的ESTN模型的LAM的结果中可以看出，除了选定关注区域的周围存在密集的深色像素外，整个区域都稀疏分布有深色像素。这表明本实施例提出的模型可以利用整个输入LR图像的信息对所选定的关注区域进行恢复，这对于重建出准确、锐利的纹理是有利的。

本发明实施例提出了多尺度视角下带块稀疏全局信息感知的ESTN。首先设计的ESTM仅增加较少参数量实现全局信息感知与局部多尺度信息感知。在此基础上，设计一个低参数残差通道注意力模块对特征的通道权重进行重新分配。然后，使用局部归因图对所提ESTM模块的稀疏全局感知效果进行可视化。最后，实验表明，所提ESTN网络在Set5、Set14、BSD100、Urban100和Manga109公开的图像超分辨率数据集上有较好的性能提升。

本发明实施例具有以下技术效果：

（1）基于Swin Transformer的图像超分辨率模型感受野较小，通过引入稀疏全局感知和多尺度自注意力信息弥补这一不足，增加较少的参数量获得更好的图像超分辨率重建效果。此外，将Swin Transformer模块中的MSA替换为MSSA使模型能够利用不同层次局部信息。

（2）为使模型能对特征通道加以选择，同时不引入过多的参数量。提出的LRCAB仅增加较少参数量，实现更好的超分辨率重建性能。

（3）神经网络现阶段的可解释性较为有限，为证明提出的BSGM对提升网络感受野的优越性能。引入LAM对选定的关注区域进行归因结果可视化。实验表明所提出的BSGM 能够构建稀疏全局感知，使ESTN重建网络能有效利用LR图像的全局信息进行图像超分辨率重建。

实施例二：

本发明还提供一种图像超分辨率重建终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例一的上述方法实施例中的步骤。

进一步地，作为一个可执行方案，所述图像超分辨率重建终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述图像超分辨率重建终端设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，上述图像超分辨率重建终端设备的组成结构仅仅是图像超分辨率重建终端设备的示例，并不构成对图像超分辨率重建终端设备的限定，可以包括比上述更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述图像超分辨率重建终端设备还可以包括输入输出设备、网络接入设备、总线等，本发明实施例对此不做限定。

进一步地，作为一个可执行方案，所称处理器可以是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital SignalProcessor，DSP)、专用集成电路 (Application Specific Integrated Circuit，ASIC)、现场可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述图像超分辨率重建终端设备的控制中心，利用各种接口和线路连接整个图像超分辨率重建终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述图像超分辨率重建终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序；存储数据区可存储根据手机的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例上述方法的步骤。

所述图像超分辨率重建终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，Random Access Memory）以及软件分发介质等。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种图像超分辨率重建方法，其特征在于，包括：构建图像超分辨率重建模型，通过训练集对模型进行训练后，用于图像的超分辨率重建；

深层特征提取模块由若干个增强型Swin Transformer模块组成，特征在增强型SwinTransformer模块中交替进行局部特征提取与全局特征提取；增强型Swin Transformer模块中提取局部特征时使用两个移位卷积及移位卷积之间的RELU激活函数提取，提取的全局特征为使用块稀疏全局感知模块、窗口多尺度自注意力和低参数残差通道注意力模块提取的通道注意力特征；低参数残差通道注意力模块表示为：

其中，表示第i个低参数残差通道注意力模块的输出特征；/>表示第i个低参数残差通道注意力模块的输入特征；/>表示扩张特征通道维度的1×1卷积核；/>表示压缩通道维度的3×3卷积核；/> 表示扩张特征通道维度的1×1卷积核；/>表示压缩通道维度的1×1卷积核；下标c1和c2均表示压缩通道卷积层的序号；下标e1和e2均表示扩张通道卷积层的序号；/> 表示RELU激活函数；/> 表示二维全局平均池化；/>表示中间函数，/>表示函数/>的输入；/>表示激活函数；符号/>表示通道方向数乘。

2.根据权利要求1所述的图像超分辨率重建方法，其特征在于：浅层特征提取模块采用3×3卷积提取浅层特征。

3.根据权利要求1所述的图像超分辨率重建方法，其特征在于：上采样模块由一个3×3卷积和像素混洗组成。

4.根据权利要求1所述的图像超分辨率重建方法，其特征在于：模型的损失函数采用L1损失。

5.根据权利要求1所述的图像超分辨率重建方法，其特征在于：块稀疏全局感知模块中对输入张量依次进行层归一化、通道维度特征映射和GELU激活函数后，得到中间张量；之后通过多层感知机对中间张量进行空间特征映射；最后对空间特征映射后的张量进行通道方向的全连接特征映射，并将全连接特征映射结果与中间张量进行残差连接得到输出张量。

6.根据权利要求1所述的图像超分辨率重建方法，其特征在于：窗口多尺度自注意力中采用移位窗口多尺度自注意力。

7.根据权利要求1所述的图像超分辨率重建方法，其特征在于：低参数残差通道注意力模块中首先采用1×1卷积对输入特征进行扩维；然后采用3×3卷积对扩维后的特征进行学习并将特征恢复至与输入特征相同的维度；最后使用通道注意力模块对特征的通道进行选择。

8.一种图像超分辨率重建终端设备，其特征在于：包括处理器、存储器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1~7中任一所述方法的步骤。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1~7中任一所述方法的步骤。