CN111861880B

CN111861880B - 基于区域信息增强与块自注意力的图像超分与融合方法

Info

Publication number: CN111861880B
Application number: CN202010506835.XA
Authority: CN
Inventors: 李华锋; 岑悦亮; 余正涛; 张亚飞; 原铭
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2022-08-30
Anticipated expiration: 2040-06-05
Also published as: CN111861880A

Abstract

本发明涉及一种基于区域信息增强与块自注意力的图像超分与融合方法，属于数字图像处理技术领域。本方法包含源图像超分辨率分支与融合超分辨率分支。在源图像超分辨率分支中，迭代使用特征提取块提取源图像特征图，并使用密集连接以充分利用前后的特征图信息。每个特征提取块的输出还将经过区域信息增强块以探索源图像中各个物体所在的区域，这些信息将辅助融合超分辨率分支精确预测融合决策图。在融合超分辨率分支中，两张源图像拼接在一起输入，结合源图像超分辨率分支中输入的区域增强后的源图像信息，迭代使用基于块自注意力机制的融合块，以更好地区分聚焦与非聚焦区域。每个分支的最后使用亚像素卷积，产生超分辨率的源图像及融合图像。

Description

基于区域信息增强与块自注意力的图像超分与融合方法

技术领域

本发明涉及一种基于区域信息增强与块自注意力的图像超分与融合方法，属于图像信息处理技术领域。

背景技术

图像融合的目的是将不同相机在同一场景中捕捉到的两个或多个源图像的信息融合为一幅图像，并保证每个源图像的信息都能被保留。图像融合在安全监控图像、医学图像以及卫星遥感图像等领域有着非常广泛的应用。近年来，许多研究取得了很好的融合效果，但现有的方法通常是基于高分辨率的多聚焦源图像数据集去融合的，然而，现实中的成像***得到的图像并不一定是高分辨率的图像。当融合低分辨率的源图像时，融合图像也将是低分辨率的，甚至是模糊和缺少细节信息的，这就降低了图像融合技术的实用性。为了将低分辨率源图像输入传统的融合方法进行融合，通常采用双三次插值和最近邻插值作为上采样操作来统一源图像的分辨率。但是，这些插值方法过于简单，对不同的数据不具有针对性，会引入错误的信息从而降低图像纹理细节的准确性，导致融合效果较差；另外，对于多聚焦图像的融合任务，还会降低融合决策图的准确性。因此，为了解决这些缺点，使低分辨率图像融合任务更加高效，迫切需要一种能精确超分辨率并融合图像的方法。

近年来，许多基于深度学习的图像融合方法被提出，对比基于变换域和空间域的融合方法，这些方法拥有更加强大的提取纹理和细节的能力。在这些方法中，有一类是采用编码器-解码器网络，利用编码器提取源图像的特征，利用解码网络融合特征，逐步放大得到融合后的图像。一类方法采用预训练好的分类卷积网络，将图像块输入其中来预测图像块是否聚焦，从而产生融合决策图。一类方法将源图像分解为基础层和细节层分别进行融合，其中基础层包含大规模的轮廓或强度变化，细节层包含重要的纹理。还有一些方法基于生成对抗网络，与生成器实现融合图像，而鉴别器仅用于区分融合图像与可见光图像的差异，从可见光图像中提取更多纹理。这些方法虽有创新和成功之处，但仍存在两个主要缺点：1)源图像分辨率低，融合后的图像分辨率低，缺乏纹理细节；2)不能精确的估计出图像中显著特征的区域范围，从而导致融合结果图像包含的源图像显著特征不够完整。

为克服前两方面的不足，一些工作将超分辨率与图像融合任务结合起来。基于字典学习的方法从高分辨率图像中学习一组多尺度字典，然后使用基于局部信息内容来融合低分辨率图像块的稀疏系数，但是这些方法需要将低分辨率图像到高分辨率图像之间的字典存储起来，从而消耗了内存。某些方法通过压缩感知来融合图像，然而，这些方法一方面需要经过两个步骤，即把这个任务分解成图像的超分辨率和融合，这是非常耗时的。还有些方法利用结构张量、分数阶微分和变分技术，将图像融合和超分辨率融合为一步，但是这些方法都只能进行整数倍的超分辨率，不够灵活和实用，其融合结果也不够好。

发明内容

本发明要解决的技术问题是提供一种基于区域信息增强与块自注意力的图像超分与融合方法，以解决源图像分辨率低时的图像融合问题，以提高融合结果的质量。

本发明采用的技术方案是：一种基于区域信息增强与块自注意力的图像超分与融合方法，以低分辨率多聚焦图像融合方法为例，流程图如图1所示，所述方法具体步骤如下：

Step1、在多聚焦图像的超分与融合任务时，如图1所示，低分辨率的源图像

分别输入到源图像超分辨率分支中，同时，

按通道拼接在一起输入到融合与超分辨率分支中。在源图像超分辨率分支和融合与超分辨率分支的最开始，是一层3×3的卷积层，用于初步提取特征。之后，源图像超分辨率分支中含有17个特征提取块、17个区域信息增强块，融合与超分辨率分支中含有17个基于块自注意力机制的融合块。17个特征提取块、17个区域信息增强块、17个基于块自注意力机制的融合块一一对应，定义i(0≤i≤16)为第i个特征提取块/区域信息增强块/基于块自注意力机制的融合块。

Step2、在源图像超分辨率分支中，初始的特征图将经过17个特征提取块，并且，这17个特征提取块之间将采用密集连接的方式连接起来。第i-1个特征提取块的输出

除了会继续输入到第i个特征提取块以构建出超分辨率的源图像以外，还将输入到第i个区域信息增强块中以辅助融合与超分辨率分支获取决策权重图。区域信息增强块将增强显著特征区域的信息，尤其是聚焦区域的特征信息。区域信息增强块输出的这些信息将输入到融合与超分辨率分支中第i个基于块自注意力机制的融合块；

Step3、在融合与超分辨率分支中，初始的特征图将经过17个基于块自注意力机制的融合块，充分地提取特征并自适应地融合信息；

Step4、在源图像超分辨率分支中的17个特征提取块之后，以及源图像超分辨率分支中的17个基于块自注意力机制的融合块之后，是一层1×1的卷积以及一层亚像素卷积。1×1的卷积缩减

(第17个基于块自注意力机制的融合块的输出)的通道数到放大倍数r的平方，其中

分别是

在源图像超分辨率分支的第17个特征提取块的输出、

在源图像超分辨率分支的第17个特征提取块的输出、融合与超分辨率分支的第17个基于块自注意力机制的融合块的输出，亚像素卷积再对上述1×1卷积层的输出进行上采样，达到目标尺寸H×W，H和W分别表示目标尺寸的高和宽，经过亚像素卷积之后，源图像超分辨率分支得到

的超分辨率结果

而在融合与超分辨率分支中，还需要经过Sigmoid函数进行归一化，并经过阈值划分得到多聚焦图像融合的决策权重图W^SR，最后结合源图像得到超分辨率融合结果图像

Step5、在网络参数训练过程中，经过Step4得到

的超分辨率结果

以及决策权重图W^SR、超分辨率融合结果图像

之后，将计算它们与标签之间的损失，并使用基于梯度下降法的优化器最小化该损失，从而优化网络的参数，当损失逐渐降低趋于平缓时，网络训练完成，测试即可以得到高质量的超分辨率和融合结果。

具体地，所述Step2中提出的密集连接方式，是指源图像超分辨率分支中第一层卷积层输出的初始特征图f₀，以及前面i-1个特征提取块的输出都将作为第i个特征提取块的输入。最后，f₀以及所有块的输出拼接起来，通过1×1的卷积进行降维和信息整合。特征提取块的结构如图2(a)所示，其由三个3×3的卷积层构成，并使用残差学习的方式以缓解深度网络带来的退化问题；

具体地，所述Step2中提出的区域信息增强块如图2(c)所示。首先，一层卷积层作用在输入特征图上，其输出特征图的维度为输入特征图维度的2倍；输出特征图再按通道切片得到相同维度两个特征图，这两个特征图就是输入特征图水平、垂直方向的偏移量；即这层卷积层学***、垂直方向上的偏移量，水平与垂直偏移量和输入特征图将输入到可变形卷积中，从而得到更加贴近物体的形状和尺寸的特征图。定义

分别为

的水平、垂直方向的偏移量，

分别为

的水平、垂直方向的偏移量，其中

分别是

在源图像超分辨率分支的第i个特征提取块的输出、

在源图像超分辨率分支的第i个特征提取块的输出。因此，第i次输入到超分辨率与融合分支的凸显物体区域信息的特征图

计算方式如下：

其中split(·)为通道切片操作，DConv(·)表示可变形卷积，Conv(·)表示卷积层，其卷积核大小k为3，LeakyRelu(·)为一种常用的非线性激活函数，其斜率s设置为0.2。

具体地，所述Step3中提出的块自注意力机制是指，考虑一个像素的局部特征时，应该将注意力放在那些对它影响较大的像素上。在本发明中，将探索每个位置与其7×7的邻域范围内的特征关系。在

中，对于位置p，定义

是以p为中心点的7×7的邻域范围；

为

区域对应的特征值，δ(·)将邻域范围内的信息融合在一起；Sigmoid(·)为块内规范化函数，用于计算出邻域内其他位置特征对中心点p处特征的权重；经过块自注意力机制后，p位置的特征值y_p可以计算为：

其中

即使用转置相乘的方式计算出p位置的特征向量x_p与q位置的特征向量x_q的相关性。BatchNormalize(·)为批归一化操作。

所述Step3中提出的基于块自注意力机制的融合块，是指前面输出的融合特征图与源图像超分辨率分支输入的凸显聚焦区域的特征图拼接起来，经过1×1的卷积和几层3×3的卷积进行信息整合之后，使用基于块范围的自注意力机制以更精确地凸显出显著物体的范围。

具体地，所述Step4中Sigmoid函数进行归一化指的是：

其中

表示超分辨率与融合分支中亚像素卷积后的结果，该特征图是单通道的，并且是目标尺寸大小的；(m,n)表示坐标位置，然后，使用阈值t划分得到多聚焦图像融合的决策权重图。本发明将t设为0.5，决策权重图W^SR可以通过以下公式得到：

之后，融合结果

可以通过决策权重图W^SR得到：

具体地，所述Step5中提出的损失计算，采用具有更好凸优化性质的L1范数来计算损失，并使用Adam优化器去最小化损失值。定义

为标签值，分别为

对应的高分辨率图像、

对应的高分辨率图像、高分辨率融合图像，W^SR、W^HR分别为决策权重图和高分辨率标签融合决策图，则损失计算如下：

具体地，除了特别说明以外，所有的卷积层后都使用Relu作为非线性激活函数；卷积层都为SAME类型卷积，即卷积层的输入输出都将保持尺寸一致，所有源图像共用一个源图像超分辨率分支。

本发明的有益效果是：本方法包含源图像超分辨率分支与融合超分辨率分支，其中，图像超分辨率分支辅助融合超分辨率分支以得到准确的融合决策图。在源图像超分辨率分支中，迭代使用特征提取块提取源图像特征图，并使用密集连接以充分利用前后的特征图信息。每个特征提取块的输出还将经过区域信息增强块从而探索到源图像中各个物体的范围和区域，这些信息将传输到融合超分辨率分支中，以精确预测融合的决策权重图。在融合超分辨率分支中，两张源图像拼接在一起输入，结合源图像超分辨率分支中输入的区域增强后的源图像的信息，迭代使用基于块自注意力机制的融合块，从而更好地区分聚焦与非聚焦的区域。每个分支的最后使用亚像素卷积作为上采样层，产生超分辨率的源图像以及融合图像。

附图说明

图1为本发明结合具体例子的总体架构图；

图2是各个子模块结构图：(a)为源图像超分辨率分支中特征提取块的结构图；(b)为超分辨率与融合分支中基于自注意力机制的融合块的结构图；(c)为区域信息增强块结构图。

具体实施方式

下面将详细地对实施例进行说明，具体示例及流程表示在附图1中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下实施例中描述的实施方式并不代表与本申请相一致的所有实施方式。仅是与权利要求书中所详述的、本申请的一些方面相一致的***和方法的示例。

实施例1：参见图1为本申请基于区域信息增强与块自注意力的图像超分与融合方法步骤示意图，具体实例的输入源图像和输出结果图像也在该图中画出。由图1知，本申请由源图像超分辨率分支以及超分辨率与融合分支构成，提供了基于区域信息增强与块自注意力的图像超分与融合方法，包括：

分别输入到源图像超分辨率分支中，同时，

Step4、在经过源图像超分辨率分支中的17个特征提取块之后，以及源图像超分辨率分支中的17个基于块自注意力机制的融合块之后，是一层1×1的卷积层以及一层亚像素卷积。1×1的卷积缩减

的通道数到放大倍数r的平方，其中

分别是

在源图像超分辨率分支的第17个特征提取块的输出、

的超分辨率结果

Step5、在网络参数训练过程中，经过Step4得到

的超分辨率结果

以及决策权重图W^SR、超分辨率融合结果图像

进一步地，所述Step2中，密集连接方式是指源图像超分辨率分支中第一层卷积层输出的初始特征图f₀，以及前面i-1个特征提取块的输出都将作为第i个特征提取块的输入。最后，f₀以及所有块的输出拼接起来，通过1×1的卷积进行降维和信息整合。特征提取块的结构如图2(a)所示，其由三个3×3的卷积层构成，并使用残差学习的方式以缓解深度网络带来的退化问题；

进一步地，所述Step2中，提出的区域信息增强块如图2(c)所示。首先，一层卷积层作用在输入特征图上，其输出特征图的维度为输入特征图维度的2倍；输出特征图再按通道切片得到相同维度两个特征图，这两个特征图就是输入特征图水平、垂直方向的偏移量；即这层卷积层学***、垂直方向上的偏移量，水平与垂直偏移量和输入特征图将输入到可变形卷积中，从而得到更加贴近物体的形状和尺寸的特征图。定义

分别为

的水平、垂直方向的偏移量，

分别为

的水平、垂直方向的偏移量，其中

分别是

在源图像超分辨率分支的第i个特征提取块的输出、

计算方式如下：

进一步地，所述Step3中，块自注意力机制是指，考虑一个像素的局部特征时，应该将注意力放在那些对它影响较大的像素上。在本发明中，将探索每个位置与其7×7的邻域范围内的特征关系。在

中，对于位置p，定义

是以p为中心点的7×7的邻域范围；

为

其中

进一步地，所述Step3中，基于块自注意力机制的融合块是指前面输出的融合特征图与源图像超分辨率分支输入的凸显聚焦区域的特征图拼接起来，经过1×1的卷积和几层3×3的卷积进行信息整合之后，使用基于块范围的自注意力机制以更精确地凸显出显著物体的范围。

所述Step4中，Sigmoid函数进行归一化指的是：

其中

之后，融合结果

可以通过决策权重图W^SR得到：

进一步地，所述Step5中，关于损失计算，本发明采用具有更好凸优化性质的L1范数来计算损失，并使用Adam优化器去最小化损失值。定义

为标签值，分别为

对应的高分辨率图像、

所述Step5中，输入测试图像即图1中左侧的两张低分辨率源图像，就是具体实例的输入低分辨率源图像，图1右侧中间图像即具体实例的融合结果图像，可以看出，该超分辨率融合结果包含了两张低分辨率源图像丰富的纹理细节信息，说明本发明能深层次地捕获低分辨率源图像中的信息，并且进一步生成自然的高质量的细节。聚焦与非聚焦边界也被较为精确地估算出来了，说明本发明的区域信息增强块起到了精确估计物体轮廓的效果，基于块自注意力机制的融合块起到了精确估计聚焦区域的效果，两者的结合保证了两张源图像聚焦区域的信息融合。

进一步地，除了特别说明以外，所有的卷积层后都使用Relu作为非线性激活函数；卷积层都为SAME类型卷积，即卷积层的输入输出都将保持尺寸一致，所有源图像共用一个源图像超分辨率分支。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于区域信息增强与块自注意力的图像超分与融合方法，其特征在于：具体步骤如下：

Step1、在多聚焦图像的超分与融合任务时，低分辨率的源图像

分别输入到源图像超分辨率分支中，同时，

按通道拼接在一起输入到融合与超分辨率分支中，在源图像超分辨率分支和融合与超分辨率分支的最开始，是一层3×3的卷积层，用于初步提取特征，之后，源图像超分辨率分支中含有17个特征提取块、17个区域信息增强块，融合与超分辨率分支中含有17个基于块自注意力机制的融合块，17个特征提取块、17个区域信息增强块、17个基于块自注意力机制的融合块一一对应，定义i,0≤i≤16为第i个特征提取块或区域信息增强块或基于块自注意力机制的融合块；

Step2、在源图像超分辨率分支中，初始的特征图将经过17个特征提取块，并且，这17个特征提取块之间将采用密集连接的方式连接起来，第i-1个特征提取块的输出

除了会继续输入到第i个特征提取块以构建出超分辨率的源图像以外，还将输入到第i个区域信息增强块中以辅助融合与超分辨率分支获取决策权重图，区域信息增强块将增强显著特征区域的信息，聚焦区域的特征信息，区域信息增强块输出的这些信息将输入到融合与超分辨率分支中第i个基于块自注意力机制的融合块；

Step4、在源图像超分辨率分支中的17个特征提取块之后，以及源图像超分辨率分支中的17个基于块自注意力机制的融合块之后，是一层1×1的卷积以及一层亚像素卷积，1×1的卷积缩减

的通道数到放大倍数r的平方，其中

分别是

在源图像超分辨率分支的第17个特征提取块的输出、

的超分辨率结果

Step5、在网络参数训练过程中，经过Step4得到

的超分辨率结果

以及决策权重图W^SR、超分辨率融合结果图像

之后，将计算它们与标签之间的损失，并使用基于梯度下降法的优化器最小化该损失，从而优化网络的参数，当损失逐渐降低趋于平缓时，网络训练完成，测试即可以得到高质量的超分辨率和融合结果；

所述Step2中提出的区域信息增强块为：首先，一层卷积层作用在输入特征图上，其输出特征图的维度为输入特征图维度的2倍；输出特征图再按通道切片得到相同维度两个特征图，这两个特征图就是输入特征图水平、垂直方向的偏移量；即这层卷积层学***、垂直方向上的偏移量，水平与垂直偏移量和输入特征图将输入到可变形卷积中，从而得到更加贴近物体的形状和尺寸的特征图，定义

分别为

的水平、垂直方向的偏移量，

分别为

的水平、垂直方向的偏移量，其中

分别是

在源图像超分辨率分支的第i个特征提取块的输出、

在源图像超分辨率分支的第i个特征提取块的输出，因此，第i次输入到超分辨率与融合分支的凸显物体区域信息的特征图

计算方式如下：

其中split(·)为通道切片操作，DConv(·)表示可变形卷积，Conv(·)表示卷积层，其卷积核大小k为3，LeakyRelu(·)为一种常用的非线性激活函数，其斜率s设置为0.2；

所述Step3中提出的块自注意力机制是指，考虑一个像素的局部特征时，应该将注意力放在那些对它影响较大的像素上，将探索每个位置与其7×7的邻域范围内的特征关系，在

中，对于位置p，定义

是以p为中心点的7×7的邻域范围；

为

其中

即使用转置相乘的方式计算出p位置的特征向量x_p与q位置的特征向量x_q的相关性，BatchNormalize(·)为批归一化操作；

2.根据权利要求1所述的基于区域信息增强与块自注意力的图像超分与融合方法，其特征在于：

所述Step2中提出的密集连接方式是指：源图像超分辨率分支中第一层卷积层输出的初始特征图f₀，以及前面i-1个特征提取块的输出都将作为第i个特征提取块的输入，最后，f₀以及所有块的输出拼接起来，通过1×1的卷积进行降维和信息整合；特征提取块的结构由三个3×3的卷积层构成，并使用残差学习的方式以缓解深度网络带来的退化问题。

3.根据权利要求1所述的基于区域信息增强与块自注意力的图像超分与融合方法，其特征在于：所述Step4中Sigmoid函数进行归一化指的是：

其中

表示超分辨率与融合分支中亚像素卷积后的结果，该特征图是单通道的，并且是目标尺寸大小的；(m,n)表示坐标位置，然后，使用阈值t划分得到多聚焦图像融合的决策权重图，将t设为0.5，决策权重图W^SR可以通过以下公式得到：

之后，融合结果

可以通过决策权重图W^SR得到：

4.根据权利要求1所述的基于区域信息增强与块自注意力的图像超分与融合方法，其特征在于：所述Step5中提出的损失计算，采用具有更好凸优化性质的L1范数来计算损失，并使用Adam优化器去最小化损失值，定义

为标签值，分别为

对应的高分辨率图像、

5.根据权利要求1-4任一项所述的基于区域信息增强与块自注意力的图像超分与融合方法，其特征在于：所有的卷积层后都使用Relu作为非线性激活函数；卷积层都为SAME类型卷积，即卷积层的输入输出都将保持尺寸一致，所有源图像共用一个源图像超分辨率分支。