CN115861749A

CN115861749A - 一种基于窗***叉注意力的遥感图像融合方法

Info

Publication number: CN115861749A
Application number: CN202211491547.7A
Authority: CN
Inventors: 柯成杰; 田昕; 李松
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2022-11-25
Filing date: 2022-11-25
Publication date: 2023-03-28

Abstract

本发明提出了一种基于窗***叉注意力的遥感图像融合方法，利用基于窗***叉注意的新型遥感图像融合网络，将全色和多光谱图像融合为高分辨率的多光谱图像。我们将高通滤波与深层特征提取相结合，以挖掘更多的纹理信息，克服了浅层提取对高频信息提取不充分的问题，根据特征相似度得到的多光谱和全色图像之间的关系更加准确。然后，我们在多光谱和全色图像的局部窗口之间通过像素级的窗***叉注意机制建立了全色图像和多光谱图像间跨模态关系。与补丁级注意力相比，像素级注意力更有助于保存细粒度的特征。因此，更多来自全色图像的空间细节转移到多光谱图像中，融合后的多光谱图像更加清晰。

Description

一种基于窗***叉注意力的遥感图像融合方法

技术领域

本发明属于遥感图像融合领域，涉及一种基于窗***叉注意力的遥感图像融合，适用于各种多光谱和全色图像融合应用场景。

背景技术

随着卫星传感器技术的飞速发展，多光谱图像在军事***和环境分析等领域得到了广泛的应用。然而，受限于卫星传感器技术的限制，只能捕获到高空间分辨率、低光谱分辨率的全色(PAN)图像，或者光谱信息丰富、空间分辨率低的多光谱(MS)图像。为了生成具有高空间分辨率的多光谱图像，融合多光谱和全色图像的遥感图像融合技术得到了广泛的研究。

现有的遥感图像融合技术主要分为四类:成分替代法(CS)、多分辨率分析法(MRA)、基于模型(model based)的方法和基于深度学习(DL)的方法。成分替代法是将多光谱图像分解为多个分量，然后用空间分量替换为全色图像。然而，由于组分分离不完全，多光谱图像中的一些光谱信息可能会丢失。多分辨率分析法是将全色图像的高频信息在变换域注入到多光谱图像中。多分辨率分析法能更好地保存光谱信息，但有时会产生空间畸变。基于模型的方法通过构建先验约束来建立优化模型，但是大量的计算成本和选择最优手工参数的难度限制了它们在实际应用中的应用。目前主流的深度学习网络仍然是基于卷积神经网络的，这类方法在将多光谱和全色图像输入网络之前直接将它们连接起来。该策略不能充分利用多光谱和全色图像之间的跨模态相关性。此外，卷积核在所有像素点上的操作是相同的，不能集中于有效特征，抑制冗余信息。因此，在高纹理的遥感图像中容易造成模糊。因此，如何设计一个端到端的深度学习网络来探索全色图像和多光谱图像之间的跨模态相关性，将全色图像的空间纹理细节更好地转移到多光谱图像中，得到纹理信息丰富、同时光谱失真尽可能小的多光谱图像是遥感图像融合领域的一个重要问题。

发明内容

为了解决上述现有技术存在的问题，本发明提供一种基于窗***叉注意力的遥感图像融合方法。

本发明提供一种基于窗***叉注意力的遥感图像融合方法，包括以下步骤：

步骤1，基于多光谱图像、全色图像特性构建深度纹理特征提取模块，将输入图像转换到特征域；

步骤2，构建窗***叉注意力模块获取多光谱图像、全色图像间的跨模态细粒度关系，输出特征图像；

步骤3，构建图像解码模块将生成的特征图像传输回图像域，得到最终的融合图像；

步骤4，构建目标函数驱动图像融合模型的训练，所述图像融合模型包括深度纹理特征提取模块，窗***叉注意力模块和图像解码模块；

步骤5，利用仿真数据训练上述图像融合模型，并用训练好的模型在仿真测试集和真实测试集上进行测试。

进一步的，步骤1的具体实现方式如下；

步骤1.1，构建高通滤波器提取输入图像的高频信息，所述输入图像包括多光谱图像M、模糊后的全色图像P、全色图像P，多光谱图像M、模糊后的全色图像P和全色图像P经过高通滤波器处理之后分别得到G(M)，G(P)和G(P)；

步骤1.2，构建单通道纹理提取模块提取G(P)和G(P)的高频特征，得到K和V，单通道纹理提取模块中三个卷积层，卷积核的数量逐层变大，卷积核的感受野逐层变小，以提取多尺度的细节信息；

步骤1.3，构建多通道纹理提取模块提取G(M)的高频特征，得到Q，多通道纹理提取模块同样包括三个卷积层，卷积核的数量逐层变大，卷积核都采用1×1大小。

进一步的，步骤1.1中模糊后的全色图像通过对原始的全色图像进行下采样再上采样得到，高通滤波器是通过原始图像减去对原始图像进行平均滤波得到的低频内容实现，平均滤波通过一个全局池化层实现。

进一步的，步骤1.2中，三个卷积层中卷积核数量从32、64变化到128，卷积核的感受野从7×7、5×5变化到3×3。

进一步的，步骤2的具体实现方式如下；

步骤2.1，将输入的高频特征Q/K/V∈R^H，W，C划分成n个窗口：

Q＝[q¹，q²，…，qⁿ]

K＝[k¹，k²，…，kⁿ]

V＝[v¹，v²，…，vⁿ]

其中，qⁱ/kⁱ/vⁱ∈R^h，w，C，

C是特征通道数量，H、w是图像的图像大小，h、w是窗口大小；

步骤2.2，为了提取细粒度特征，通过维度变换将每个窗口qⁱ、vⁱ、vⁱ展开成像素序列，对于序列中第m个像素

和第n个像素/>

计算它们之间的特征相似度：

其中，

代表着在窗口i内的像素级跨模态相关性；

步骤2.3，将步骤2.2得到的像素间的相关性通过softmax函数进行归一化：

其中，

代表从全色图像的第/>

个像素点到多光谱图像的第/>

个像素点的注入增益；

步骤2.4，根据注入增益

提取全色图像的纹理信息，因此输出特征图像的第i个窗口的第m个像素计算如下：

步骤2.5，将展开的像素序列通过维度变换折叠成原像素窗口，得到输出图像的第i个窗口：

步骤2.6，通过窗***叉注意力，分别得到每个窗口的输出特征图像，最后将所有窗口的特征图像拼接起来，得到最后的输出特征图像：

O＝[O¹，O²，…，Oⁿ]。

进一步的，步骤3的具体实现方式如下；

步骤3.1，为了保留多光谱图像中的高频特征信息，通过一个跳跃连接，将窗***叉注意力得到的输出特征图像与多光谱特征图像Q相加，得到高频特征图像；

步骤3.2，融合得到的高频特征图像经过一个卷积层，得到更高维度的多通道的特征图像；

步骤3.3，采用4个大小为1×1的卷积层将多通道的特征图像重新映射为四通道图像，得到重建的高频图像，然后重建得到的高频图像加上低频的多光谱图像就得到了最终的融合图像。

进一步的，步骤3.2中卷积层的通道为256、卷积核大小为3×3。

进一步的，步骤3.3中，4个卷积层的卷积核数量分别是128、64、32、4。

进一步的，步骤4中的构造的损失函数如下；

其中，F_n和G_n分别代表融合图像和参考图像，b是批次大小。

进一步的，步骤5中还包括将通过客观评价指标将测试结果与现有的算法进行比较，客观评价指标包括峰值信噪比和无参考指标。

与现有技术相比，本发明的优点和有益效果：

本发明首先将上采样的多光谱图像和模糊的全色图像、原始全色图像送入高通滤波器，再分别送入多通道和单通道深度特征提取模块，将图像转换为特征域，提取深度高频特征；然后将提取的高频特征表示为查询向量Q、键向量K和值向量V，通过窗***叉注意力获取多光谱图像和全色图像间的跨模态相关性；最后进行图像重建，将融合得到的高频特征图像转回图像域。由于将高通滤波与深层特征提取相结合，可以挖掘更多的纹理信息，从而根据特征相似度得到的多光谱和全色图像之间的关系更加准确。此外，在多光谱和全色图像的局部窗口之间通过像素级的窗***叉注意机制建立了跨模态关系。与补丁级注意力相比，像素级注意力有助于保存细粒度的特征，能将更多来自全色图像的空间细节转移到多光谱图像中。因此，融合得到的多光谱图像更加清晰，光谱信息保存良好。

附图说明

图1是实施例的基于窗***叉注意力的遥感图像融合网络的整体框架图。

图2是实施例的窗***叉注意力模块的网络架构图。其中SM是Softmax归一化函数，RS是维度变换模块。

图3是实施例的仿真数据的测试结果图，其中(a)是低分辨率多光谱图像，(b)为IHS的结果，(c)为PNN的结果，(d)为FuionNet的结果，(e)为本发明提出的方法的结果，(f)为参考图像。

图4是实施例的真实数据的测试结果图，其中(a)是低分辨率多光谱图像，(b)为IHS的结果，(c)为PNN的结果，(d)为FuionNet的结果，(e)为本发明提出的方法的结果，(f)为全色图像。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明做进一步的详细描述，应当理解的是，此处所描述的实施例仅用于解释本发明，并不用于限定本发明。

本发明主要针对获取高分辨率的多光谱图像的应用需求。我们利用高通滤波与深层特征提取相结合，以挖掘更多的纹理信息，然后，我们在多光谱和全色图像的局部窗口之间，通过像素级的窗***叉注意机制建立了全色图像和多光谱图像间跨模态关系。从而实现将更多的全色图像纹理细节转移到多光谱图像中，获得空间细节丰富且光谱失真小的多光谱融合图像。

附图1是实施例的基于窗***叉注意力的遥感图像融合网络的整体框架图，附图2是实施例的窗***叉注意力模块的网络架构图。本实施例提供一种基于窗***叉注意力的遥感图像融合方法来实现不多光谱图像和全色图像的融合，具体包括以下步骤：

步骤1：基于多光谱图像、全色图像特性构建深度纹理特征提取模块，将输入图像转换到特征域。具体实现包括以下子步骤：

步骤1.1：构建高通滤波器提取输入图像的高频信息。所述输入图像包括多光谱图像M、模糊后的全色图像

全色图像P，其中模糊后的全色图像通过对原始的全色图像进行下采样再上采样得到，高通滤波器是通过原始图像减去对原始图像进行平均滤波得到的低频内容而设计的，平均滤波通过一个全局池化层实现，多光谱图像M、模糊后的全色图像/>

和全色图像P经过高通滤波器处理之后分别得到G(M)，/>

和G(P)。

步骤1.2：构建单通道纹理提取模块提取

和G(P)的高频特征，得到K和V。单通道纹理提取模块中三个卷积层，卷积核的数量逐层变大，逐步提取图像的轮廓特征和高维度特征，此过程中图像的分辨率保持不变，卷积核数量从32、64变化到128。卷积核的感受野逐层变小，从7×7、5×5变化到3×3，以提取多尺度的细节信息，卷积核先覆盖到图像较大的区域，提取更多的区域信息，再逐级减小，对更小区域进行学习更深的细节信息。

步骤1.3：构建多通道纹理提取模块提取G(M)的高频特征，得到Q。与步骤1.2相似，多通道纹理提取模块卷积核的数量逐层变大，卷积核数量从32、64变化到128。卷积核都采用1×1大小来保持空间保真度，最大限度地利用多光谱图像的空间信息。

步骤2：构建窗***叉注意力模块(WCA)获取多光谱图像、全色图像间的跨模态细粒度关系。具体实现包括以下子步骤：

步骤2.1：将输入的高频特征Q/K/V∈R^H，W，C划分成n个窗口：

Q＝[q¹，q²，…，qⁿ]

K＝[k¹，k²，…，kⁿ]

V＝[v¹，v²，…，vⁿ]

其中，qⁱ/kⁱ/vⁱ∈R^h，w，C，

C是特征通道数量。在本实施例中，H＝256，W＝256，h＝2，w＝2，C＝128，n＝16384。H、W是图像的图像大小，h、w是窗口大小，是代表把图像划分成16384个2x2大小的图像块。

步骤2.2：为了提取细粒度特征，通过维度变换(RS)将每个窗口qⁱ、vⁱ、vⁱ展开成像素序列。对于序列中第m个像素

和第n个像素/>

在相似关系计算(CRM)中通过内积运算计算它们之间的特征相似度：

其中，

代表着在窗口i内的像素级跨模态相关性。

步骤2.3：将步骤2.2得到的像素间的相关性通过softmax函数(SM)进行归一化：

其中，

代表从全色图像的第/>

个像素点到多光谱图像的第/>

个像素点的注入增益。

步骤2.4：根据注入增益

可以提取全色图像的纹理信息。因此输出特征图像的第i个窗口的第m个像素计算如下：

步骤2.5：将展开的像素序列通过维度变换(RS)折叠成像素窗口，得到输出图像的第i个窗口：

步骤2.6：通过窗***叉注意力，分别得到每个窗口的输出特征图像，最后将所有窗口的特征图像拼接起来，得到最后的输出特征图像：

O＝[O¹，O²，…，Oⁿ]

步骤3：构建图像解码模块将生成的特征图像传输回图像域。具体实现包括以下子步骤：

步骤3.1：为了保留多光谱图像中的高频特征信息，通过一个跳跃连接，将窗***叉注意力得到的输出特征图像与多光谱特征图像Q相加，得到高频特征图像。

步骤3.2：融合得到的高频特征图像首先经过一个通道为256、大小为3×3的卷积核，得到更高维度的多通道的特征图像。

步骤3.3：采用4个大小为1×1的卷积核，4个层的卷积核数量分别是128、64、32、4，将多通道的特征图像重新映射为四通道图像，得到重建的高频图像，然后重建得到的高频图像加上低频的多光谱图像就得到了最终的融合图像。

步骤4：构建图像融合的模型目标函数驱动模型训练。具体实现包括以下子步骤：

步骤4.1：构造损失函数。构造基于L2的损失函数：

其中，F_n和G_n分别代表融合图像和参考图像，b是批次大小。在本实施例中，b＝8。

步骤4.2：从训练集中随机选择b个数据输入网络，完成一次迭代，并调整网络参数。

步骤5：利用仿真数据训练上述网络，并用训练好的模型在仿真测试集和真实测试集上进行测试，与其他算法进行比较。具体实现包括以下子步骤：

步骤5.1：利用仿真数据训练网络，将得到的测试结果与各对比方法进行视觉和客观评价指标上的比较。在本实施例中，实验中我们主要利用高分二号卫星的图像，4000个图像对被分成90％用于训练，剩下的10％用于验证。参考图像采用分辨率为256×256的原始MS图像，取因子为4的下采样多光谱和全色图像作为输入，输入图像大小为256×256。仿真测试图像大小为512×512的图像。为了验证所提方法的有效性，我们将所提方法与传统方法和基于深度学***均结果如表1所示。

步骤5.2：利用真实数据测试网络性能，将得到的测试结果与各对比方法进行视觉和客观评价指标上的比较。选取210张大小为512×512的真实图像进行测试，以验证所提方法在真实世界的性能。对比方法为IHS、PNN、FusionNet。视觉比较结果如附图4所示。客观评价指标为无参考指标(QNR)，在真实测试集上平均结果如表2所示。

表1仿真数据不同方法的平均PSNR(dB)对比(理想值：+∞)

表2真实数据不同方法的平均PSNR(dB)对比(理想值：+∞)

可以看到，我们提出的方法首先进行高频特征提取，然后通过窗***叉注意力得到像素级的全色、多光谱图像间的跨模态相关性，最后将全色图像的纹理细节转移到多光谱图像中，实现了遥感图像融合的最佳效果。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。