CN117593199A

CN117593199A - 一种基于高斯先验分布自注意力的双流遥感图像融合方法

Info

Publication number: CN117593199A
Application number: CN202311614009.7A
Authority: CN
Inventors: 赵坤鹏; 张冬梅; 姜文斌; 成建梅
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2023-11-27
Filing date: 2023-11-27
Publication date: 2024-02-23

Abstract

本发明提供了一种基于高斯先验分布自注意力的双流遥感图像融合方法。遥感图像融合的目的是在特征域将高空间分辨率的全色图像和低空间分辨率的多光谱图像结合起来生成高分辨率的多光谱图像，从融合的特征重构融合图像。融合网络包括编码器和解码器，在编码器中，创新性地使用CNN‑Swin Transformer结构分别从局部和全局提取特征，并且在Swin Transformer结构中引入高斯分布自注意力作为先验知识，实现全局特征提取。在解码器中使用全连接层将输入的数据映射到权重空间，然后再使用转置卷积进行上采样重构。最后输出为融合后的图像。本发明的有益效果为，所提出的GSTFNet可以有效地融合PAN和MS图像，从而提升了融合结果的图像质量。

Description

一种基于高斯先验分布自注意力的双流遥感图像融合方法

技术领域

本发明属于数字图像处理技术领域，涉及一种遥感图像融合方法，特别涉及一种基于高斯先验分布自注意力的双流遥感图像融合方法。

背景技术

大多数遥感应用要求在空间域和光谱域都具有最高分辨率的图像，这是很难通过单一传感器实现的。为了解决这一问题，许多光学对地观测卫星(如QuickBird、GeoEye和GaoFen-2)搭载了两种光学传感器，获取特征不同但互补的多模态数据，其中全色传感器只获取高空间分辨率图像，而多光谱传感器只获取低空间分辨率多波段图像。这些形态分别被称为全色(PAN)图像和多光谱(MS)图像。PAN和MS图像融合技术是将PAN和MS的信息融合，同时生成具有PAN图像空间分辨率和相应MS图像光谱分辨率的图像。

近年来，卷积神经网络被广泛应用在遥感图像融合领域，并取得了显著的效果。Yang等人提出PanNet网络结构，其根据图像的特点，将全色图像与多光谱图进行高通滤波处理，并使用残差网络作为融合网络以保留光谱和空间信息。Yuan等人将多尺度特征提取和残差学习引入到卷积神经网络(CNN)的基本架构中，提出了用于遥感图像融合的多尺度多深度卷积神经网络(MSDCNN)。Liu等人提出PSGAN，该网络在生成器中建立了两个网络分别对全色和多光谱图像进行处理，判别器则采用全卷积网络学习损失函数变化。Ma等人提出Pan-GAN用来进行全色和多光谱图像的融合，该方法不同于GAN的一个生成器一个判别器模式，采用了两个判别器，一个判别器用来判别生成图像的空间信息是否与全色图像保持一致，另一个判别器用来判别生成图像的光谱信息是否与多光谱图像保持一致。

遥感图像融合方法主要包含三类：基于成分替换的融合方法、基于多分辨率分析的融合方法与基于深度学习的融合方法。基于成分替换的图像融合算法简单有效，通过图像域变换进行成分替换；基于多分辨率分析的融合方法从全色光图像中提取细节注入到上采样的多光谱图像中；基于深度学习的融合方法训练卷积神经网络模型来实现遥感图像的融合。基于成分替换的融合方法通常伴有严重的光谱失真现象，基于多分辨率分析的融合方法因分解过程中的空间信息冗余而造成融合结果图像出现空间模糊现象，而基于深度学习的方法需要依靠大量的训练数据。实现高质量、低成本的遥感图像融合是非常具有挑战性的。

发明内容

针对以上问题，本发明提供一种基于高斯先验分布自注意力的双流遥感图像融合方法来解决遥感图像融合问题，基于高斯先验分布自注意力的双流遥感图像融合网络(Gaussian distribution Self-Attention Two-stream Fusion Network,GSTFNet)可以有效地融合高空间分辨率的全色(PAN)和低空间分辨率的多光谱(MS)图像，从而提升融合结果的图像质量。

一种基于高斯先验分布自注意力的双流遥感图像融合方法，包括如下步骤：

S1、获取初始待融合的高空间分辨率全色图像和低空间分辨率多光谱图像；

S2、对步骤S1中的高空间分辨率全色图像和低空间分辨率多光谱图像进行预处理，将全色图像和上采样处理后的多光谱图像裁剪为指定大小的尺寸；

S3、将步骤S2得到的全色图像和多光谱图像输入至双流遥感图像融合网络中，该双流遥感图像融合网络包括编码器和解码器；

S4、利用步骤S3的编码器分别获得局部特征和全局特征，然后将提取的全局特征与局部特征进行解码；

S5、通过解码器对步骤S4解码后的特征进行上采样，然后进行图像重建来获得融合图像。

进一步地，步骤S3中编码器包括CNN和Swin Transformer结构；CNN的结构包括：两个子网络，分别用于从PAN和MS图像中提取特征；这两个子网络结构相似，其中一个子网络以MS图像为输入，另一个子网络以PAN图像为输入；每个子网络由一个残差单元组成，残差单元包含两个卷积层，每个卷积层后面都有一个批量归一化和一个激活函数；这两个卷积层之间有一个跳跃连接，将输入直接加到输出中；然后利用下采样层，将子网络提取的信息特征进行拼接；其中，残差单元为：

y_l＝h(x_l)+R(x_l,w_l)，

x_l+1＝f(y_l)，

其中，x_l和x_l+1是第l个残差单元的输入和输出，R(·)是残差函数,f(y_l)是激活函数，h(x_l)是恒等映射函数，y_l表示恒等映射函数和残差函数的和，w_l表示残差块内所有的权重。

进一步地，利用如下公式进行特征拼接：

其中，X_P和X_M分别表示PAN和MS的两幅图像，和/>分别表示PAN和MS的两幅图像被CNN提取的特征，上标l表示从第l层提取特征，φ_f(X_P,X_M)表示融合的特征，表示连接操作。

进一步地，步骤S3中Swin Transformer结构用于通过计算自注意力获取全局语义信息，并加入高斯分布自注意力机制作为先验知识进行特征提取；为了让不同窗口的信息能够充分沟通，还引入了移动窗口，在l层中，采用常规窗口分区方案，并计算每个窗口内的注意力，在l+1层，窗口分区将移动，从而生成新窗口；因此，新窗口中的注意力计算跨越了层中窗口的边界，提供它们之间的连接，实现全局建模。

进一步地，加入高斯分布自注意力机制的过程为：首先将高斯先验加入自注意力机制，然后将其与软注意力相乘，最后得到后验注意力分布；

Swin Transformer结构包含两个连续的Swin Transformer块，每个SwinTransformer块包括归一化层、多头自注意力模块、残差连接和多层感知器；在两个连续的Swin Transformer块中，使用了W-MGSA和SW-MGSA，可表示如下：

其中，和z^l分别表示l层W-MGSA和MLP的输出，/>和z^l+1分别表示l+1层W-MGSA和MLP的输出，z^l-1分别表示l-1层MLP的输出，MLP表示多层感知器，LN表示归一化层，W-MGSA和SW-MGSA分别表示基于高斯分布的窗口多头自注意力机制和移动窗口自注意力机制，l为大于等于2的正整数；

自注意力机制的软注意力计算方式如下：

其中，q,k分别表示查询和键矩阵，d表示键的维度，T表示转置，a^l表示自注意力，则可计算后验概率b^l：

因此最终的attention输出为：

其中，g^l为先验概率，为值矩阵，/>为矩阵相乘。

进一步地，步骤S5中，图像重建的具体过程为：双流遥感图像融合网络的最后一个阶段是从融合特征中恢复所需的高分辨率MS图像；特征图的基本分辨率应逐步上采样，以满足融合图像的分辨率；使用转置卷积层作为解码器来重建高质量融合图像，并对双流遥感图像融合网络编码后的特征图进行上采样，得到最终的融合图像。

一种存储设备，其特征在于：所述存储设备存储指令及数据用于实现所述的基于高斯先验分布自注意力的双流遥感图像融合方法。

一种基于高斯先验分布自注意力的双流遥感图像融合设备，其特征在于：包括：处理器及存储设备；所述处理器加载并执行所述存储设备中的指令及数据用于实现所述的基于高斯先验分布自注意力的双流遥感图像融合方法。

本发明具有以下有益效果：

为了解决遥感图像融合问题，本发明提出了基于高斯先验分布自注意力的双流遥感图像融合网络，其创新点主要体现在：GSTFNet包括编码器和解码器，为了得到局部特征和全局特征，编码器通过CNN和Swin Transformer结构分别对局部和全局进行建模，生成更精细的特征输出。在CNN结构中引入残差单元，提高了模型在遥感图像融合问题上的特征提取能力。在Swin Transformer结构中，提出了基于高斯分布的自注意力机制作为先验知识，将其与软注意力相乘，得到最终的后验注意力分布。解码器使用转置卷积对提取的特征重建，逐步上采样后得到最终融合的图像，降低了成本，提高了融合后图像的质量。

附图说明

图1为本发明提出的一种基于高斯先验分布自注意力的双流遥感图像融合网络的示意图；

图2为本发明提出的一种基于高斯先验分布自注意力的双流遥感图像融合网络的详细架构图；

图3为CNN结构中的残差模块结构示意图；

图4为基于GSA的Swin Transformer Block示意图；

图5为用本发明实例中对低空间分辨率多光谱图像和高空间分辨率全色图像融合的结果对比图；其中，图5(a)是低空间分辨率的多光谱图像；图5(b)是高空间分辨率的全色图像；图5(c)是GroundTruth，即融合结果的参考图像；图5(d)为采用本发明对图5(a)和图5(b)进行融合后获得的高空间分辨率的多光谱图像；

图6(a)～图6(d)为4组采用本发明融合前后的对比图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述：

参阅图1-2，图1为本发明提出的一种基于高斯先验分布自注意力的双流遥感图像融合网络的示意图，图2为本发明提出的一种基于高斯先验分布自注意力的双流遥感图像融合网络的详细架构图。一种基于高斯先验分布自注意力的双流遥感图像融合方法，包括如下步骤：

步骤1、获取初始待融合的高空间分辨率全色图像和低空间分辨率多光谱图像；

步骤2、数据预处理，将全色图像和上采样后的多光谱图像裁剪为指定大小的尺寸。

步骤3、将处理后的全色图像和多光谱图像输入至双流遥感图像融合网络中，该双流遥感图像融合网络包括编码器和解码器，编码器包括CNN和Swin Transformer结构。

步骤4、利用编码器从双流遥感图像融合网络中分别获得局部特征和全局特征，然后将提取的全局特征与局部特征进行解码。

步骤5、通过解码器对解码后的特征进行上采样，然后进行图像重建来获得融合图像。

步骤3中的CNN的结构包括两个子网络，使用两个子网络分别从PAN和MS图像中提取特征。这两个子网络结构相似，其中一个子网络以MS图像为输入，另一个子网络以PAN图像为输入。每个子网络由一个残差单元组成，残差单元包含两个卷积层，每个卷积层后面都有一个批量归一化(BN)和一个激活函数(ReLU)，如图3所示。这两个卷积层之间有一个跳跃连接，将输入直接加到输出中。这样，即使网络很深，信息也可以很容易地从输入传递到输出。后面是下采样层，然后将子网络提取的信息特征进行拼接。残差单元可以表示为：

y_l＝h(x_l)+R(x_l,w_l)，

x_l+1＝f(y_l)，

其中，x_l和x_l+1是第l个残差单元的输入和输出，R(·)是残差函数，f(y_l)是激活函数，h(x_l)是恒等映射函数，y_l表示恒等映射函数和残差函数的和，w_l表示残差块内所有的权重。大多数CNN结构利用最大或平均池化来获得尺度和旋转不变性特征，但在图像融合中细节信息更重要，因此本发明在整个CNN结构中，使用步幅为2的卷积核来进行下采样，而不是简单的池化策略。

特征拼接的过程为：在获得PAN和MS的特征后，接下来的步骤是将它们融合在一起。由于CNN提取的特征是通道特征图的形式，一种可能的融合方式是在两个特征图上应用池化操作，例如最大池化或平均池化。然而，这种融合方式会丢失信息，应该在泛锐化过程中避免。因此本发明考虑了另一种融合策略，将它们连接在一起：

对于代表PAN和MS的两幅图像X_P和X_M，它们被CNN提取的特征被写作和其中，上标l表示从第l层提取特征，φ_f(X_P,X_M)是融合的特征，/>表示连接操作。

经过特征提取，得到了两个特征图和/>分别表示PAN图像和MS图像。这两个特征图明确地捕获了PAN和MS的互补信息，两个特征映射按上式拼接在一起。在此基础上，采用三层卷积将拼接后的特征图编码成更紧凑的表示形式。

步骤3的Swin Transformer结构包括：CNN受限于卷积核的固定大小，无法对全局语义信息进行建模，引入Swin Transformer模型通过计算自注意力获取全局语义信息，并加入高斯分布自注意力机制作为先验知识进行特征提取。Swin Transformer结构充分利用了window的设计，将CNN的局部性引入transformer，transformer是利用注意力机制来提高模型训练速度的模型，把一个图像划分成许多个小块,每个小块被称为一个patch。将注意力(attention)的计算限制在每个窗口(window)中，使得window内patch之间的信息可以充分交流，大大减少了计算量。

此外，为了让不同窗口的信息能够充分沟通，还引入了移动窗口，在l层中，采用常规窗口分区方案，并计算每个窗口内的注意力。在下一层(即l+1层)，窗口分区将移动，从而生成新窗口。因此，新窗口中的注意力计算跨越了层中窗口的边界，提供它们之间的连接。与传统方法相比，Swin Transformer结构不仅考虑了patch内的信息交互，还考虑了patch间的信息流，从而实现全局建模。Swin Transformer结构采用分层设计，包括四个阶段。每个阶段都会降低特征图的分辨率并增加感受野以提供多个层次特征图。

Swin Transformer结构可以通过自注意力计算获得全局语义信息，但是自注意力计算需要将patches拉伸成一维的token，patches的局部平滑性、稀疏性等先验信息会遭到破坏。token是指图像中的小块，每个patch被看作是一个token，每个token代表图像中特定位置的信息，Swin Transformer通过这些token来进行全局的自注意力操作。受高斯分布的启发，将高斯先验加入自注意力机制，将其与软注意力相乘，得到最终的后验注意力分布，更好地利用了图像的先验信息，可以将更多注意力放在更利于融合的特征上，从而得到更精确的融合结果。

Swin Transformer结构包含两个连续的Swin Transformer块(Swin TransformerBlock)。每个Swin Transformer块包括LayerNorm(LN)层、多头自注意力模块、残差连接和多层感知器(MLP)。在两个连续的Swin Transformer块中，使用了基于窗口的高斯分布多头自注意力(W-MGSA)机制和基于移位窗口的多头自注意力(SW-MGSA)机制，如图4所示，可表示如下：

其中，和z^l分别表示l层W-MGSA或SW-MGSA和MLP的输出，/>和z^l+1分别表示l+1层W-MGSA或SW-MGSA和MLP的输出，z^l-1分别表示l-1层MLP的输出，MLP表示多层感知器，LN表示归一化层，W-MGSA和SW-MGSA分别代表基于窗口的高斯分布多头自注意力机制和基于移位窗口的高斯分布多头自注意力机制，l为大于等于2的正整数。

自注意力机制(self-attention)的软注意力计算方式如下：

其中，分别表示查询和键矩阵，N²和d分别表示窗口中的补丁数和键的维度。同时引入图像的高斯分布g^l作为先验概率，给定先验概率g^l和自注意力a^l，则可计算后验概率b^l：

因此最终的attention输出为：

其中，为值矩阵，/>为矩阵相乘。

步骤5中图像重建的过程为：网络的最后一个阶段是从融合特征中恢复所需的高分辨率MS图像。特征图的基本分辨率应逐步上采样，以满足融合图像的分辨率。使用转置卷积层作为解码器来重建高质量融合图像，并利用双流遥感图像融合网络编码后的特征图进行上采样，得到最终的融合图像。

1.实例

实验研究对象是深圳市高分2号图像集，高分2号卫星于2014年8月19日发射，是我国自主研制的首颗空间分辨率优于1米的光学遥感卫星，搭载有两台高分辨率1米全色、4米多光谱相机。所用的高分2号数据，实验使用128×128的图像来训练融合网络，数据集包括8000张图像，我们按照4:1将数据集分为训练集和验证集。

(1)软硬件环境

实验软硬件配置：操作***为Windows10(64bit)；处理器为Intel Core i5-7500，3.4GHz；深度学习平台是Pytorch1.13；编程语言为Python3.8。

(2)参数设置

在测试阶段，首先对图像进行分割，将图像都分割为128×128的尺寸大小，生成了8000个样本。使用Adam优化器将损失最小化,学习率为0.0001，迭代次数设置为200，batchsize大小设置为8。

(3)实例分析

为了证明本发明的融合效果，分别将融合前后的图像进行客观指标评价，评价指标如下：

平均梯度(Average Gradient,AG)：用于衡量融合图像的清晰程度，可以认为平均梯度越大，图像清晰度越好，融合质量越好。

空间频率(Spatial Frequency,SF)：用于反映图像灰度的变化率，空间频率越大表示图像越清晰，融合图像质量越好。

信息熵(Entropy,EN)：主要是用于度量图像包含信息量多少的一个客观评价指标,信息熵越高表示融合图像的信息量越丰富，质量越好。

结构相似性(Structural Similarity,SSIM)：可以衡量融合图像和参考图像之间的相似度，取值范围为[-1,1]，越接近1，代表相似度越高，融合质量越好。

峰值信噪比(Peak signal to noise ration,PSNR)：用于衡量图像有效信息与噪声之间的比率，能够反映图像是否失真。PSNR的值越大，表示融合图像的质量越好。

均方根误差均方根误差(Root Mean Square Error,RMSE)：RMSE是一个翻译空间细节信息的评价指标，用于衡量融合图像和理想参考图像之间的差异，RMSE越小，表示融合图像质量越好。

根据上述评价指标对融合前后的图像结果进行评价，结果如下表：

表1.融合图像评价指标

评价指标	融合前	融合后
			AG↑	1.885657	5.296454
SF↑	6.228855	9.709029
			EN↑	5.175655	5.764699
SSIM↑	0.569261	0.992339
			PSNR↑	24.856875	43.109028
RMSE↓	14.796178	1.896231

由表中实验数据可见，本发明融合后图像的平均梯度AG，空间频率SF，信息熵EN，结构相似性SSIM和峰值信噪比PSNR都大于融合前图像的评价值，均方根误差RMSE小于融合前图像的评价值。这表明融合后的图像较好的保留了原始多光谱图像丰富的光谱信息，同时也融合了全色图像较高的分辨率，无论是在视觉效果上还是图像质量上都优于原始的多光谱图像。总而言之，本发明通过CNN和Swin Transformer结构的融合网络，并且在SwinTransformer结构中创新性地引入高斯分布自注意力机制作为先验知识，提升了融合效果，使得融合后的图像质量有较大提升。

Claims

1.一种基于高斯先验分布自注意力的双流遥感图像融合方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于高斯先验分布自注意力的双流遥感图像融合方法，其特征在于，步骤S3中编码器包括CNN和Swin Transformer结构；CNN的结构包括：两个子网络，分别用于从PAN和MS图像中提取特征；这两个子网络结构相似，其中一个子网络以MS图像为输入，另一个子网络以PAN图像为输入；每个子网络由一个残差单元组成，残差单元包含两个卷积层，每个卷积层后面都有一个批量归一化和一个激活函数；这两个卷积层之间有一个跳跃连接，将输入直接加到输出中；然后利用下采样层，将子网络提取的信息特征进行拼接；其中，残差单元为：

y_l＝h(x_l)+R(x_l,w_l)，

x_l+1＝f(y_l)，

3.根据权利要求2所述的一种基于高斯先验分布自注意力的双流遥感图像融合方法，其特征在于，利用如下公式进行特征拼接：

其中，X_P和X_M分别表示PAN和MS的两幅图像，和/>分别表示PAN和MS的两幅图像被CNN提取的特征，上标l表示从第l层提取特征，φ_f(X_P,X_M)表示融合的特征，/>表示连接操作。

4.根据权利要求2所述的一种基于高斯先验分布自注意力的双流遥感图像融合方法，其特征在于，步骤S3中Swin Transformer结构用于通过计算自注意力获取全局语义信息，并加入高斯分布自注意力机制作为先验知识进行特征提取；为了让不同窗口的信息能够充分沟通，还引入了移动窗口，在l层中，采用常规窗口分区方案，并计算每个窗口内的注意力，在l+1层，窗口分区将移动，从而生成新窗口；因此，新窗口中的注意力计算跨越了层中窗口的边界，提供它们之间的连接，实现全局建模。

5.根据权利要求4所述的一种基于高斯先验分布自注意力的双流遥感图像融合方法，其特征在于，加入高斯分布自注意力机制的过程为：首先将高斯先验加入自注意力机制，然后将其与软注意力相乘，最后得到后验注意力分布；

Swin Transformer结构包含两个连续的Swin Transformer块，每个Swin Transformer块包括归一化层、多头自注意力模块、残差连接和多层感知器；在两个连续的SwinTransformer块中，使用了W-MGSA和SW-MGSA，可表示如下：

自注意力机制的软注意力计算方式如下：

因此最终的attention输出为：

其中，g^l为先验概率，为值矩阵，/>为矩阵相乘。

6.根据权利要求1所述的一种基于高斯先验分布自注意力的双流遥感图像融合方法，其特征在于，步骤S5中，图像重建的具体过程为：双流遥感图像融合网络的最后一个阶段是从融合特征中恢复所需的高分辨率MS图像；特征图的基本分辨率应逐步上采样，以满足融合图像的分辨率；使用转置卷积层作为解码器来重建高质量融合图像，并对双流遥感图像融合网络编码后的特征图进行上采样，得到最终的融合图像。

7.一种存储设备，其特征在于：所述存储设备存储指令及数据用于实现权利要求1～6任一项所述的基于高斯先验分布自注意力的双流遥感图像融合方法。

8.一种基于高斯先验分布自注意力的双流遥感图像融合设备，其特征在于：包括：处理器及存储设备；所述处理器加载并执行所述存储设备中的指令及数据用于实现权利要求1～6任一项所述的基于高斯先验分布自注意力的双流遥感图像融合方法。