CN117593199A - 一种基于高斯先验分布自注意力的双流遥感图像融合方法 - Google Patents
一种基于高斯先验分布自注意力的双流遥感图像融合方法 Download PDFInfo
- Publication number
- CN117593199A CN117593199A CN202311614009.7A CN202311614009A CN117593199A CN 117593199 A CN117593199 A CN 117593199A CN 202311614009 A CN202311614009 A CN 202311614009A CN 117593199 A CN117593199 A CN 117593199A
- Authority
- CN
- China
- Prior art keywords
- image
- attention
- remote sensing
- self
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 25
- 230000004927 fusion Effects 0.000 claims abstract description 69
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 230000007246 mechanism Effects 0.000 claims description 23
- 238000000034 method Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 238000005192 partition Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 4
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000009977 dual effect Effects 0.000 claims 2
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000013527 convolutional neural network Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 13
- 238000011156 evaluation Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000003595 spectral effect Effects 0.000 description 6
- 238000011176 pooling Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于高斯先验分布自注意力的双流遥感图像融合方法。遥感图像融合的目的是在特征域将高空间分辨率的全色图像和低空间分辨率的多光谱图像结合起来生成高分辨率的多光谱图像,从融合的特征重构融合图像。融合网络包括编码器和解码器,在编码器中,创新性地使用CNN‑Swin Transformer结构分别从局部和全局提取特征,并且在Swin Transformer结构中引入高斯分布自注意力作为先验知识,实现全局特征提取。在解码器中使用全连接层将输入的数据映射到权重空间,然后再使用转置卷积进行上采样重构。最后输出为融合后的图像。本发明的有益效果为,所提出的GSTFNet可以有效地融合PAN和MS图像,从而提升了融合结果的图像质量。
Description
技术领域
本发明属于数字图像处理技术领域,涉及一种遥感图像融合方法,特别涉及一种基于高斯先验分布自注意力的双流遥感图像融合方法。
背景技术
大多数遥感应用要求在空间域和光谱域都具有最高分辨率的图像,这是很难通过单一传感器实现的。为了解决这一问题,许多光学对地观测卫星(如QuickBird、GeoEye和GaoFen-2)搭载了两种光学传感器,获取特征不同但互补的多模态数据,其中全色传感器只获取高空间分辨率图像,而多光谱传感器只获取低空间分辨率多波段图像。这些形态分别被称为全色(PAN)图像和多光谱(MS)图像。PAN和MS图像融合技术是将PAN和MS的信息融合,同时生成具有PAN图像空间分辨率和相应MS图像光谱分辨率的图像。
近年来,卷积神经网络被广泛应用在遥感图像融合领域,并取得了显著的效果。Yang等人提出PanNet网络结构,其根据图像的特点,将全色图像与多光谱图进行高通滤波处理,并使用残差网络作为融合网络以保留光谱和空间信息。Yuan等人将多尺度特征提取和残差学习引入到卷积神经网络(CNN)的基本架构中,提出了用于遥感图像融合的多尺度多深度卷积神经网络(MSDCNN)。Liu等人提出PSGAN,该网络在生成器中建立了两个网络分别对全色和多光谱图像进行处理,判别器则采用全卷积网络学习损失函数变化。Ma等人提出Pan-GAN用来进行全色和多光谱图像的融合,该方法不同于GAN的一个生成器一个判别器模式,采用了两个判别器,一个判别器用来判别生成图像的空间信息是否与全色图像保持一致,另一个判别器用来判别生成图像的光谱信息是否与多光谱图像保持一致。
遥感图像融合方法主要包含三类:基于成分替换的融合方法、基于多分辨率分析的融合方法与基于深度学习的融合方法。基于成分替换的图像融合算法简单有效,通过图像域变换进行成分替换;基于多分辨率分析的融合方法从全色光图像中提取细节注入到上采样的多光谱图像中;基于深度学习的融合方法训练卷积神经网络模型来实现遥感图像的融合。基于成分替换的融合方法通常伴有严重的光谱失真现象,基于多分辨率分析的融合方法因分解过程中的空间信息冗余而造成融合结果图像出现空间模糊现象,而基于深度学习的方法需要依靠大量的训练数据。实现高质量、低成本的遥感图像融合是非常具有挑战性的。
发明内容
针对以上问题,本发明提供一种基于高斯先验分布自注意力的双流遥感图像融合方法来解决遥感图像融合问题,基于高斯先验分布自注意力的双流遥感图像融合网络(Gaussian distribution Self-Attention Two-stream Fusion Network,GSTFNet)可以有效地融合高空间分辨率的全色(PAN)和低空间分辨率的多光谱(MS)图像,从而提升融合结果的图像质量。
一种基于高斯先验分布自注意力的双流遥感图像融合方法,包括如下步骤:
S1、获取初始待融合的高空间分辨率全色图像和低空间分辨率多光谱图像;
S2、对步骤S1中的高空间分辨率全色图像和低空间分辨率多光谱图像进行预处理,将全色图像和上采样处理后的多光谱图像裁剪为指定大小的尺寸;
S3、将步骤S2得到的全色图像和多光谱图像输入至双流遥感图像融合网络中,该双流遥感图像融合网络包括编码器和解码器;
S4、利用步骤S3的编码器分别获得局部特征和全局特征,然后将提取的全局特征与局部特征进行解码;
S5、通过解码器对步骤S4解码后的特征进行上采样,然后进行图像重建来获得融合图像。
进一步地,步骤S3中编码器包括CNN和Swin Transformer结构;CNN的结构包括:两个子网络,分别用于从PAN和MS图像中提取特征;这两个子网络结构相似,其中一个子网络以MS图像为输入,另一个子网络以PAN图像为输入;每个子网络由一个残差单元组成,残差单元包含两个卷积层,每个卷积层后面都有一个批量归一化和一个激活函数;这两个卷积层之间有一个跳跃连接,将输入直接加到输出中;然后利用下采样层,将子网络提取的信息特征进行拼接;其中,残差单元为:
yl=h(xl)+R(xl,wl),
xl+1=f(yl),
其中,xl和xl+1是第l个残差单元的输入和输出,R(·)是残差函数,f(yl)是激活函数,h(xl)是恒等映射函数,yl表示恒等映射函数和残差函数的和,wl表示残差块内所有的权重。
进一步地,利用如下公式进行特征拼接:
其中,XP和XM分别表示PAN和MS的两幅图像,和/>分别表示PAN和MS的两幅图像被CNN提取的特征,上标l表示从第l层提取特征,φf(XP,XM)表示融合的特征,表示连接操作。
进一步地,步骤S3中Swin Transformer结构用于通过计算自注意力获取全局语义信息,并加入高斯分布自注意力机制作为先验知识进行特征提取;为了让不同窗口的信息能够充分沟通,还引入了移动窗口,在l层中,采用常规窗口分区方案,并计算每个窗口内的注意力,在l+1层,窗口分区将移动,从而生成新窗口;因此,新窗口中的注意力计算跨越了层中窗口的边界,提供它们之间的连接,实现全局建模。
进一步地,加入高斯分布自注意力机制的过程为:首先将高斯先验加入自注意力机制,然后将其与软注意力相乘,最后得到后验注意力分布;
Swin Transformer结构包含两个连续的Swin Transformer块,每个SwinTransformer块包括归一化层、多头自注意力模块、残差连接和多层感知器;在两个连续的Swin Transformer块中,使用了W-MGSA和SW-MGSA,可表示如下:
其中,和zl分别表示l层W-MGSA和MLP的输出,/>和zl+1分别表示l+1层W-MGSA和MLP的输出,zl-1分别表示l-1层MLP的输出,MLP表示多层感知器,LN表示归一化层,W-MGSA和SW-MGSA分别表示基于高斯分布的窗口多头自注意力机制和移动窗口自注意力机制,l为大于等于2的正整数;
自注意力机制的软注意力计算方式如下:
其中,q,k分别表示查询和键矩阵,d表示键的维度,T表示转置,al表示自注意力,则可计算后验概率bl:
因此最终的attention输出为:
其中,gl为先验概率,为值矩阵,/>为矩阵相乘。
进一步地,步骤S5中,图像重建的具体过程为:双流遥感图像融合网络的最后一个阶段是从融合特征中恢复所需的高分辨率MS图像;特征图的基本分辨率应逐步上采样,以满足融合图像的分辨率;使用转置卷积层作为解码器来重建高质量融合图像,并对双流遥感图像融合网络编码后的特征图进行上采样,得到最终的融合图像。
一种存储设备,其特征在于:所述存储设备存储指令及数据用于实现所述的基于高斯先验分布自注意力的双流遥感图像融合方法。
一种基于高斯先验分布自注意力的双流遥感图像融合设备,其特征在于:包括:处理器及存储设备;所述处理器加载并执行所述存储设备中的指令及数据用于实现所述的基于高斯先验分布自注意力的双流遥感图像融合方法。
本发明具有以下有益效果:
为了解决遥感图像融合问题,本发明提出了基于高斯先验分布自注意力的双流遥感图像融合网络,其创新点主要体现在:GSTFNet包括编码器和解码器,为了得到局部特征和全局特征,编码器通过CNN和Swin Transformer结构分别对局部和全局进行建模,生成更精细的特征输出。在CNN结构中引入残差单元,提高了模型在遥感图像融合问题上的特征提取能力。在Swin Transformer结构中,提出了基于高斯分布的自注意力机制作为先验知识,将其与软注意力相乘,得到最终的后验注意力分布。解码器使用转置卷积对提取的特征重建,逐步上采样后得到最终融合的图像,降低了成本,提高了融合后图像的质量。
附图说明
图1为本发明提出的一种基于高斯先验分布自注意力的双流遥感图像融合网络的示意图;
图2为本发明提出的一种基于高斯先验分布自注意力的双流遥感图像融合网络的详细架构图;
图3为CNN结构中的残差模块结构示意图;
图4为基于GSA的Swin Transformer Block示意图;
图5为用本发明实例中对低空间分辨率多光谱图像和高空间分辨率全色图像融合的结果对比图;其中,图5(a)是低空间分辨率的多光谱图像;图5(b)是高空间分辨率的全色图像;图5(c)是GroundTruth,即融合结果的参考图像;图5(d)为采用本发明对图5(a)和图5(b)进行融合后获得的高空间分辨率的多光谱图像;
图6(a)~图6(d)为4组采用本发明融合前后的对比图。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细描述:
参阅图1-2,图1为本发明提出的一种基于高斯先验分布自注意力的双流遥感图像融合网络的示意图,图2为本发明提出的一种基于高斯先验分布自注意力的双流遥感图像融合网络的详细架构图。一种基于高斯先验分布自注意力的双流遥感图像融合方法,包括如下步骤:
步骤1、获取初始待融合的高空间分辨率全色图像和低空间分辨率多光谱图像;
步骤2、数据预处理,将全色图像和上采样后的多光谱图像裁剪为指定大小的尺寸。
步骤3、将处理后的全色图像和多光谱图像输入至双流遥感图像融合网络中,该双流遥感图像融合网络包括编码器和解码器,编码器包括CNN和Swin Transformer结构。
步骤4、利用编码器从双流遥感图像融合网络中分别获得局部特征和全局特征,然后将提取的全局特征与局部特征进行解码。
步骤5、通过解码器对解码后的特征进行上采样,然后进行图像重建来获得融合图像。
步骤3中的CNN的结构包括两个子网络,使用两个子网络分别从PAN和MS图像中提取特征。这两个子网络结构相似,其中一个子网络以MS图像为输入,另一个子网络以PAN图像为输入。每个子网络由一个残差单元组成,残差单元包含两个卷积层,每个卷积层后面都有一个批量归一化(BN)和一个激活函数(ReLU),如图3所示。这两个卷积层之间有一个跳跃连接,将输入直接加到输出中。这样,即使网络很深,信息也可以很容易地从输入传递到输出。后面是下采样层,然后将子网络提取的信息特征进行拼接。残差单元可以表示为:
yl=h(xl)+R(xl,wl),
xl+1=f(yl),
其中,xl和xl+1是第l个残差单元的输入和输出,R(·)是残差函数,f(yl)是激活函数,h(xl)是恒等映射函数,yl表示恒等映射函数和残差函数的和,wl表示残差块内所有的权重。大多数CNN结构利用最大或平均池化来获得尺度和旋转不变性特征,但在图像融合中细节信息更重要,因此本发明在整个CNN结构中,使用步幅为2的卷积核来进行下采样,而不是简单的池化策略。
特征拼接的过程为:在获得PAN和MS的特征后,接下来的步骤是将它们融合在一起。由于CNN提取的特征是通道特征图的形式,一种可能的融合方式是在两个特征图上应用池化操作,例如最大池化或平均池化。然而,这种融合方式会丢失信息,应该在泛锐化过程中避免。因此本发明考虑了另一种融合策略,将它们连接在一起:
对于代表PAN和MS的两幅图像XP和XM,它们被CNN提取的特征被写作和其中,上标l表示从第l层提取特征,φf(XP,XM)是融合的特征,/>表示连接操作。
经过特征提取,得到了两个特征图和/>分别表示PAN图像和MS图像。这两个特征图明确地捕获了PAN和MS的互补信息,两个特征映射按上式拼接在一起。在此基础上,采用三层卷积将拼接后的特征图编码成更紧凑的表示形式。
步骤3的Swin Transformer结构包括:CNN受限于卷积核的固定大小,无法对全局语义信息进行建模,引入Swin Transformer模型通过计算自注意力获取全局语义信息,并加入高斯分布自注意力机制作为先验知识进行特征提取。Swin Transformer结构充分利用了window的设计,将CNN的局部性引入transformer,transformer是利用注意力机制来提高模型训练速度的模型,把一个图像划分成许多个小块,每个小块被称为一个patch。将注意力(attention)的计算限制在每个窗口(window)中,使得window内patch之间的信息可以充分交流,大大减少了计算量。
此外,为了让不同窗口的信息能够充分沟通,还引入了移动窗口,在l层中,采用常规窗口分区方案,并计算每个窗口内的注意力。在下一层(即l+1层),窗口分区将移动,从而生成新窗口。因此,新窗口中的注意力计算跨越了层中窗口的边界,提供它们之间的连接。与传统方法相比,Swin Transformer结构不仅考虑了patch内的信息交互,还考虑了patch间的信息流,从而实现全局建模。Swin Transformer结构采用分层设计,包括四个阶段。每个阶段都会降低特征图的分辨率并增加感受野以提供多个层次特征图。
Swin Transformer结构可以通过自注意力计算获得全局语义信息,但是自注意力计算需要将patches拉伸成一维的token,patches的局部平滑性、稀疏性等先验信息会遭到破坏。token是指图像中的小块,每个patch被看作是一个token,每个token代表图像中特定位置的信息,Swin Transformer通过这些token来进行全局的自注意力操作。受高斯分布的启发,将高斯先验加入自注意力机制,将其与软注意力相乘,得到最终的后验注意力分布,更好地利用了图像的先验信息,可以将更多注意力放在更利于融合的特征上,从而得到更精确的融合结果。
Swin Transformer结构包含两个连续的Swin Transformer块(Swin TransformerBlock)。每个Swin Transformer块包括LayerNorm(LN)层、多头自注意力模块、残差连接和多层感知器(MLP)。在两个连续的Swin Transformer块中,使用了基于窗口的高斯分布多头自注意力(W-MGSA)机制和基于移位窗口的多头自注意力(SW-MGSA)机制,如图4所示,可表示如下:
其中,和zl分别表示l层W-MGSA或SW-MGSA和MLP的输出,/>和zl+1分别表示l+1层W-MGSA或SW-MGSA和MLP的输出,zl-1分别表示l-1层MLP的输出,MLP表示多层感知器,LN表示归一化层,W-MGSA和SW-MGSA分别代表基于窗口的高斯分布多头自注意力机制和基于移位窗口的高斯分布多头自注意力机制,l为大于等于2的正整数。
自注意力机制(self-attention)的软注意力计算方式如下:
其中,分别表示查询和键矩阵,N2和d分别表示窗口中的补丁数和键的维度。同时引入图像的高斯分布gl作为先验概率,给定先验概率gl和自注意力al,则可计算后验概率bl:
因此最终的attention输出为:
其中,为值矩阵,/>为矩阵相乘。
步骤5中图像重建的过程为:网络的最后一个阶段是从融合特征中恢复所需的高分辨率MS图像。特征图的基本分辨率应逐步上采样,以满足融合图像的分辨率。使用转置卷积层作为解码器来重建高质量融合图像,并利用双流遥感图像融合网络编码后的特征图进行上采样,得到最终的融合图像。
1.实例
实验研究对象是深圳市高分2号图像集,高分2号卫星于2014年8月19日发射,是我国自主研制的首颗空间分辨率优于1米的光学遥感卫星,搭载有两台高分辨率1米全色、4米多光谱相机。所用的高分2号数据,实验使用128×128的图像来训练融合网络,数据集包括8000张图像,我们按照4:1将数据集分为训练集和验证集。
(1)软硬件环境
实验软硬件配置:操作***为Windows10(64bit);处理器为Intel Core i5-7500,3.4GHz;深度学习平台是Pytorch1.13;编程语言为Python3.8。
(2)参数设置
在测试阶段,首先对图像进行分割,将图像都分割为128×128的尺寸大小,生成了8000个样本。使用Adam优化器将损失最小化,学习率为0.0001,迭代次数设置为200,batchsize大小设置为8。
(3)实例分析
为了证明本发明的融合效果,分别将融合前后的图像进行客观指标评价,评价指标如下:
平均梯度(Average Gradient,AG):用于衡量融合图像的清晰程度,可以认为平均梯度越大,图像清晰度越好,融合质量越好。
空间频率(Spatial Frequency,SF):用于反映图像灰度的变化率,空间频率越大表示图像越清晰,融合图像质量越好。
信息熵(Entropy,EN):主要是用于度量图像包含信息量多少的一个客观评价指标,信息熵越高表示融合图像的信息量越丰富,质量越好。
结构相似性(Structural Similarity,SSIM):可以衡量融合图像和参考图像之间的相似度,取值范围为[-1,1],越接近1,代表相似度越高,融合质量越好。
峰值信噪比(Peak signal to noise ration,PSNR):用于衡量图像有效信息与噪声之间的比率,能够反映图像是否失真。PSNR的值越大,表示融合图像的质量越好。
均方根误差均方根误差(Root Mean Square Error,RMSE):RMSE是一个翻译空间细节信息的评价指标,用于衡量融合图像和理想参考图像之间的差异,RMSE越小,表示融合图像质量越好。
根据上述评价指标对融合前后的图像结果进行评价,结果如下表:
表1.融合图像评价指标
评价指标 | 融合前 | 融合后 |
AG↑ | 1.885657 | 5.296454 |
SF↑ | 6.228855 | 9.709029 |
EN↑ | 5.175655 | 5.764699 |
SSIM↑ | 0.569261 | 0.992339 |
PSNR↑ | 24.856875 | 43.109028 |
RMSE↓ | 14.796178 | 1.896231 |
由表中实验数据可见,本发明融合后图像的平均梯度AG,空间频率SF,信息熵EN,结构相似性SSIM和峰值信噪比PSNR都大于融合前图像的评价值,均方根误差RMSE小于融合前图像的评价值。这表明融合后的图像较好的保留了原始多光谱图像丰富的光谱信息,同时也融合了全色图像较高的分辨率,无论是在视觉效果上还是图像质量上都优于原始的多光谱图像。总而言之,本发明通过CNN和Swin Transformer结构的融合网络,并且在SwinTransformer结构中创新性地引入高斯分布自注意力机制作为先验知识,提升了融合效果,使得融合后的图像质量有较大提升。
Claims (8)
1.一种基于高斯先验分布自注意力的双流遥感图像融合方法,其特征在于,包括如下步骤:
S1、获取初始待融合的高空间分辨率全色图像和低空间分辨率多光谱图像;
S2、对步骤S1中的高空间分辨率全色图像和低空间分辨率多光谱图像进行预处理,将全色图像和上采样处理后的多光谱图像裁剪为指定大小的尺寸;
S3、将步骤S2得到的全色图像和多光谱图像输入至双流遥感图像融合网络中,该双流遥感图像融合网络包括编码器和解码器;
S4、利用步骤S3的编码器分别获得局部特征和全局特征,然后将提取的全局特征与局部特征进行解码;
S5、通过解码器对步骤S4解码后的特征进行上采样,然后进行图像重建来获得融合图像。
2.根据权利要求1所述的一种基于高斯先验分布自注意力的双流遥感图像融合方法,其特征在于,步骤S3中编码器包括CNN和Swin Transformer结构;CNN的结构包括:两个子网络,分别用于从PAN和MS图像中提取特征;这两个子网络结构相似,其中一个子网络以MS图像为输入,另一个子网络以PAN图像为输入;每个子网络由一个残差单元组成,残差单元包含两个卷积层,每个卷积层后面都有一个批量归一化和一个激活函数;这两个卷积层之间有一个跳跃连接,将输入直接加到输出中;然后利用下采样层,将子网络提取的信息特征进行拼接;其中,残差单元为:
yl=h(xl)+R(xl,wl),
xl+1=f(yl),
其中,xl和xl+1是第l个残差单元的输入和输出,R(·)是残差函数,f(yl)是激活函数,h(xl)是恒等映射函数,yl表示恒等映射函数和残差函数的和,wl表示残差块内所有的权重。
3.根据权利要求2所述的一种基于高斯先验分布自注意力的双流遥感图像融合方法,其特征在于,利用如下公式进行特征拼接:
其中,XP和XM分别表示PAN和MS的两幅图像,和/>分别表示PAN和MS的两幅图像被CNN提取的特征,上标l表示从第l层提取特征,φf(XP,XM)表示融合的特征,/>表示连接操作。
4.根据权利要求2所述的一种基于高斯先验分布自注意力的双流遥感图像融合方法,其特征在于,步骤S3中Swin Transformer结构用于通过计算自注意力获取全局语义信息,并加入高斯分布自注意力机制作为先验知识进行特征提取;为了让不同窗口的信息能够充分沟通,还引入了移动窗口,在l层中,采用常规窗口分区方案,并计算每个窗口内的注意力,在l+1层,窗口分区将移动,从而生成新窗口;因此,新窗口中的注意力计算跨越了层中窗口的边界,提供它们之间的连接,实现全局建模。
5.根据权利要求4所述的一种基于高斯先验分布自注意力的双流遥感图像融合方法,其特征在于,加入高斯分布自注意力机制的过程为:首先将高斯先验加入自注意力机制,然后将其与软注意力相乘,最后得到后验注意力分布;
Swin Transformer结构包含两个连续的Swin Transformer块,每个Swin Transformer块包括归一化层、多头自注意力模块、残差连接和多层感知器;在两个连续的SwinTransformer块中,使用了W-MGSA和SW-MGSA,可表示如下:
其中,和zl分别表示l层W-MGSA和MLP的输出,/>和zl+1分别表示l+1层W-MGSA和MLP的输出,zl-1分别表示l-1层MLP的输出,MLP表示多层感知器,LN表示归一化层,W-MGSA和SW-MGSA分别表示基于高斯分布的窗口多头自注意力机制和移动窗口自注意力机制,l为大于等于2的正整数;
自注意力机制的软注意力计算方式如下:
其中,q,k分别表示查询和键矩阵,d表示键的维度,T表示转置,al表示自注意力,则可计算后验概率bl:
因此最终的attention输出为:
其中,gl为先验概率,为值矩阵,/>为矩阵相乘。
6.根据权利要求1所述的一种基于高斯先验分布自注意力的双流遥感图像融合方法,其特征在于,步骤S5中,图像重建的具体过程为:双流遥感图像融合网络的最后一个阶段是从融合特征中恢复所需的高分辨率MS图像;特征图的基本分辨率应逐步上采样,以满足融合图像的分辨率;使用转置卷积层作为解码器来重建高质量融合图像,并对双流遥感图像融合网络编码后的特征图进行上采样,得到最终的融合图像。
7.一种存储设备,其特征在于:所述存储设备存储指令及数据用于实现权利要求1~6任一项所述的基于高斯先验分布自注意力的双流遥感图像融合方法。
8.一种基于高斯先验分布自注意力的双流遥感图像融合设备,其特征在于:包括:处理器及存储设备;所述处理器加载并执行所述存储设备中的指令及数据用于实现权利要求1~6任一项所述的基于高斯先验分布自注意力的双流遥感图像融合方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311614009.7A CN117593199A (zh) | 2023-11-27 | 2023-11-27 | 一种基于高斯先验分布自注意力的双流遥感图像融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311614009.7A CN117593199A (zh) | 2023-11-27 | 2023-11-27 | 一种基于高斯先验分布自注意力的双流遥感图像融合方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117593199A true CN117593199A (zh) | 2024-02-23 |
Family
ID=89916400
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311614009.7A Pending CN117593199A (zh) | 2023-11-27 | 2023-11-27 | 一种基于高斯先验分布自注意力的双流遥感图像融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117593199A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118014844A (zh) * | 2024-04-09 | 2024-05-10 | 临沂大学 | 一种结合超分辨率技术的遥感图像语义分割方法 |
-
2023
- 2023-11-27 CN CN202311614009.7A patent/CN117593199A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118014844A (zh) * | 2024-04-09 | 2024-05-10 | 临沂大学 | 一种结合超分辨率技术的遥感图像语义分割方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112507997B (zh) | 一种基于多尺度卷积和感受野特征融合的人脸超分辨*** | |
Li et al. | Survey of single image super‐resolution reconstruction | |
CN111127374B (zh) | 一种基于多尺度密集网络的Pan-sharpening方法 | |
CN114119444B (zh) | 一种基于深度神经网络的多源遥感图像融合方法 | |
CN109214989B (zh) | 基于多方向特征预测先验的单幅图像超分辨率重建方法 | |
CN111161141B (zh) | 基于频带间注意力机制对抗学习高光谱单图超分辨率方法 | |
CN112330724A (zh) | 一种基于集成注意力增强的无监督多模态图像配准方法 | |
CN117593199A (zh) | 一种基于高斯先验分布自注意力的双流遥感图像融合方法 | |
CN104899835A (zh) | 基于盲模糊估计与锚定空间映射的图像超分辨处理方法 | |
CN112669248A (zh) | 基于cnn与拉普拉斯金字塔的高光谱与全色图像融合方法 | |
Khan et al. | An encoder–decoder deep learning framework for building footprints extraction from aerial imagery | |
CN113538246A (zh) | 基于无监督多阶段融合网络的遥感图像超分辨率重建方法 | |
CN115375711A (zh) | 基于多尺度融合的全局上下文关注网络的图像分割方法 | |
CN113240683A (zh) | 基于注意力机制的轻量化语义分割模型构建方法 | |
Xue et al. | TC-net: transformer combined with cnn for image denoising | |
CN114266957A (zh) | 一种基于多降质方式数据增广的高光谱图像超分辨率复原方法 | |
CN112598575A (zh) | 一种基于特征处理的图像信息融合及超分辨率重建方法 | |
CN115578262A (zh) | 基于afan模型的偏振图像超分辨率重建方法 | |
CN116309227A (zh) | 基于残差网络与空间注意力机制的遥感图像融合方法 | |
CN117333750A (zh) | 空间配准与局部全局多尺度的多模态医学图像融合方法 | |
Luo et al. | A fast denoising fusion network using internal and external priors | |
Cang et al. | Research on hyperspectral image reconstruction based on GISMT compressed sensing and interspectral prediction | |
CN116862765A (zh) | 一种医学影像超分辨率重建方法及*** | |
CN114764880A (zh) | 多成分gan重建的遥感图像场景分类方法 | |
Xu et al. | AS 3 ITransUNet: Spatial-Spectral Interactive Transformer U-Net with Alternating Sampling for Hyperspectral Image Super-Resolution |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |