CN117474781A - 一种基于注意力机制的高光谱与多光谱图像融合方法 - Google Patents

一种基于注意力机制的高光谱与多光谱图像融合方法 Download PDF

Info

Publication number
CN117474781A
CN117474781A CN202311469057.1A CN202311469057A CN117474781A CN 117474781 A CN117474781 A CN 117474781A CN 202311469057 A CN202311469057 A CN 202311469057A CN 117474781 A CN117474781 A CN 117474781A
Authority
CN
China
Prior art keywords
feature
attention
image
hyperspectral
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311469057.1A
Other languages
English (en)
Inventor
徐炳洁
石静芸
傅安特
陈施施
吴海军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Eastern Communication Co Ltd
Original Assignee
Eastern Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Eastern Communication Co Ltd filed Critical Eastern Communication Co Ltd
Priority to CN202311469057.1A priority Critical patent/CN117474781A/zh
Publication of CN117474781A publication Critical patent/CN117474781A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/58Extraction of image or video features relating to hyperspectral data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10032Satellite or aerial image; Remote sensing
    • G06T2207/10036Multispectral image; Hyperspectral image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A40/00Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
    • Y02A40/10Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in agriculture

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于注意力机制的高光谱与多光谱图像融合方法,包括以下步骤:步骤1:获取低空间分辨率的高光谱图像和高空间分辨率的多光谱图像,构建训练集和测试集;步骤2:构建基于注意力机制的双流高光谱与多光谱图像融合模型;步骤3:使用训练集和Adam优化器对构建的图像融合模型进行训练,通过损失函数反向传播训练模型得到最优模型;步骤4:将测试集中待融合的低空间分辨率的高光谱图像和高空间分辨率的多光谱图像输入训练好的图像融合模型中,得到高空间分辨率的高光谱图像。本发明的方法在处理复杂地物时表现出良好的融合性能,在关注细节的同时,也有效地降低了融合结果的整体误差,获得高质量的高分辨率高光谱图像。

Description

一种基于注意力机制的高光谱与多光谱图像融合方法
技术领域
本发明涉及遥感图像处理及深度学习技术领域,尤其涉及一种基于注意力机制的高光谱与多光谱图像融合方法。
背景技术
由于成像传感器的局限性,遥感图像的光谱分辨率和空间分辨率互相制约,没有任何单一传感器能同时获取具有高空间分辨率、高光谱分辨率以及高时间分辨率的数据。高光谱图像拥有数百个光谱波段,能提供丰富的光谱信息,可以进行更精细的材料识别和分类,但其空间分辨率较低。多光谱图像的空间分辨率较高,能够捕获更清晰的地面特征,但其光谱波段较少,无法提供详细的光谱信息。通过将高光谱图像与多光谱图像进行融合,可以生成既具有高空间分辨率又具有高光谱分辨率的图像,这将极大地提高对地面物体的分类和识别能力,并拓宽图像应用的范围。
目前高光谱与多光谱图像融合方法可以分为传统方法和基于深度学习的方法。传统融合方法包括基于全色锐化、基于矩阵分解和基于张量表示等方法,基于深度学习的方法能自动学习和提取数据的复杂特征,有效地处理高维数据,但由于卷积核固定大小的限制,无法对全局语义信息进行建模,注意力机制被引入高光谱与多光谱融合,以捕获高光谱和多光谱图像的远程细节。
现有的高光谱与多光谱融合方法存在一定的局限性,主要体现在:
1)大多数传统方法基于手工提取的特征,依靠先验假设,通常对参数选择很敏感,如果这些假设并不适用于当前问题,可能会导致质量退化。
2)遥感图像光谱波段之间有高度相关性和空间位置上具有非局部相似性,卷积神经网络由于感受野的限制,提取的是窗口内的局部特征信息,没有充分利用遥感图像的内在特征。
3)由于高光谱图像和多光谱图像都含有空间信息和光谱信息,两者之间包含着冗余和互补信息,不应只关注如何分别提取空间信息或光谱信息,要考虑高光谱和多光谱图像之间的信息交互。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提出了一种基于注意力机制的高光谱与多光谱图像融合方法,充分利用遥感图像在光谱波段间的强相关性以及在空间位置上的非局部相似性,捕获远程依赖性和自相似性先验,捕捉高光谱图像和多光谱图像的冗余和互补信息,实现更好的融合效果,其具体技术方案如下:
一种基于注意力机制的高光谱与多光谱图像融合方法,包括以下步骤:
步骤1:获取低空间分辨率的高光谱图像和高空间分辨率的多光谱图像,构建训练集和测试集;
步骤2:构建基于注意力机制的双流高光谱与多光谱图像融合模型;
步骤3:使用训练集和Adam优化器对构建的图像融合模型进行训练,通过损失函数反向传播训练模型得到最优模型;
步骤4:将测试集中待融合的低空间分辨率的高光谱图像和高空间分辨率的多光谱图像输入训练好的图像融合模型中,得到高空间分辨率的高光谱图像。
进一步的,所述图像融合模型包括双分支网络、特征融合模块和图像重建模块;
所述低空间分辨率的高光谱图像上采样到与高空间分辨率的多光谱图像相同大小后输入双分支网络进行特征提取;
所述特征融合模块将提取的特征进行融合,后通过图像重建模块从融合的特征中重建出高空间分辨率的高光谱图像。
进一步的,所述低空间分辨率的高光谱图像的上采样使用双线性插值算法。
进一步的,所述双分支网络包括空间特征提取分支和光谱特征提取分支;
所述空间特征提取分支和光谱特征提取分支分别对高空间分辨率的多光谱图像和上采样后的低空间分辨率的高光谱图像依次进行浅层特征提取、深度特征提取;
其中的浅层特征提取采用两个独立的浅层特征提取模块,分别从高空间分辨率的多光谱图像和上采样后的低空间分辨率的高光谱图像中提取浅层空间特征和浅层光谱特征并将特征数据映射到高维特征;
所述的深度特征提取采用两个注意力引导的跨域特征提取模块,交替提取浅层空间特征和浅层光谱特征中的全局特征域内信息与跨域信息,以及跨特征域交互特征信息,获得深层空间特征和深层光谱特征。
进一步的,所述浅层特征提取模块由两个连续的卷积层组成,卷积核大小为3×3,步长为1,卷积层之间叠加一个参数校正线性单元激活函数。
进一步的,所述注意力引导的跨域特征提取模块由通过级联的基于自注意力机制的Swin Transformer和基于交叉注意力机制的Swin Transformer组成。
进一步的,所述的基于自注意力机制的Swin Transformer包括首层的常规窗口层及其下一层的移位窗口层,其中常规窗口层包括:基于窗口机制的多头自注意力W-MSA模块和多层感知器MLP模块,每个模块应用一个残差连接,在W-MSA和MLP前面有一个LN层;与常规窗口层对应的,所述移位窗口层包括:基于移位窗口机制的多头自注意力SW-MSA模块和多层感知器MLP模块,每个模块应用一个残差连接,在W-MSA和MLP前面有一个LN层。
进一步的,所述常规窗口层的特征数据处理的具体过程为:假设输入基于自注意力机制的Swin Transformer的特征F,F的大小为H×W×C,C表示通道数,首先将输入特征划分为不重叠的M×M个局部窗口的特征即将输入重塑为/>的特征,其中/>是窗口的总数;接下来,分别为每个窗口执行标准的自注意力;对于局部窗口特征使用在不同窗口之间共享的三个可学习权重矩阵/>通过以下方式将其投影到查询Q、键K和值V中:
Q=XWQ,K=XWK,V=XWV#(1)
通过计算查询Q与所有键K的点积,然后使用softmax函数进行规范化,得到相应的注意力分数,将注意力机制定义如下:
dk是keys的维度,B是可学习的相对位置编码;
将自注意力SA扩展到多头自注意力MSA,因此,局部窗口特征X在常规窗口层的整个过程公式化为:
SA(X)=Attention(Q(X),K(X),V(X))#(3)
其中Z1表示以X作为输入的自注意力机制的Swin Transformer的常规窗口层的输出。
进一步的,所述移位窗口层的特征数据处理的具体过程表达式为:
其中Z2是以X作为输入的自注意力机制的Swin Transformer的输出,多层感知器MLP模块的表达式如下:
MLP(X)=GELU(W1X+b1)W2+b2#(8)
其中GELU是高斯误差线性单位,其中W1和W2是全连接层的可学习权重,而b1和b2为可学习偏置参数。
进一步的,所述的基于交叉注意力机制的Swin Transformer层结构与所述基于自注意力机制的Swin Transformer相似,其中的注意力模块采用多头交叉注意力MCA模块,则基于交叉注意力机制的Swin Transformer的具体特征数据处理过程为:
对于分别来自不同域的特征域1和特征域2的两个局部窗口特征X1和X2,交叉注意力机制定义为:
CA(X1,X2)=Attention(Q(X2),K(X1),V(X1))#(9)
其中CA(·)是计算X1与X2之间关系的注意力函数,特征X1与X2通过以下方式将其投影到查询Q、键K和值V中:
如公式(10)(11)所示,特征X1用于生成键K1和值V1,特征X2则被用于生成查询Q2,然后利用生成的键、值和查询执行注意力加权操作,从而实现跨模态信息的融合;同时,采用残差连接方式保留了特征域1中原有的信息,实现了信息的保存和传递,同样的处理也应用于特征域2;
因此,基于交叉注意力机制的Swin Transformer的整个过程定义为:
其中表示特征X1经过第一层MCA的输出,/>表示特征X2经过第一层MCA的输出;将特征沿两个方向分别移动/>个像素,重新划分窗口,计算每个窗口内的注意力,计算公式为:
其中,表示特征域1中的特征X1经过基于交叉注意力机制的Swin Transformer的输出,/>是特征域2中的特征X2经过基于交叉注意力机制的Swin Transformer的输出。
进一步的,所述特征融合模块包括基于Transformer的深度特征融合模块和基于CNN的特征融合模块,将深层光谱特征和深层空间特征拼接后输入基于Transformer的深度特征融合模块,得到融合深度光谱空间特征,利用长跳跃连接将融合深度光谱空间特征与浅层空间特征和浅层光谱特征相结合得到拼接后的特征信息,最后将拼接后的特征信息输入基于CNN的特征融合模块,在包含全局信息的特征中再一次提取局部信息,以融合不同域中的局部信息,获得融合的空间光谱特征。
进一步的,所述图像重建模块包括3个卷积层,每个卷积层的滤波器大小为3×3,步幅为1,在每个卷积层之后应用PReLU激活,该模块将融合的深层光谱特征和深层空间特征映射回图像空间,对融合的浅层空间特征和浅层光谱特征进行恢复,获得高空间分辨率的高光谱图像。
与现有技术相比,本发明采用Swin Transformer充分提取高光谱和多光谱图像的全局信息,采用交叉注意力机制充分利用特征域内和域间的全局信息,在全局范围内的误差分布均匀,在处理复杂地域时表现出良好的融合性能,在关注细节的同时,也有效地降低了融合结果的整体误差,获得高质量的高分辨率高光谱图像。
附图说明
图1是本发明的一种基于注意力机制的高光谱与多光谱图像融合方法的主要流程示意图;
图2是本发明实施例的图像融合模型进行图像特征提取、融合及重建图像的具体流程示意图;
图3是本发明实施例的图像融合模型的数据处理流程图;
图4是本发明实施例的基于自注意力机制的Swin Transformer的数据处理流程图;
图5是本发明实施例的基于交叉注意力机制的Swin Transformer的数据处理流程图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图和实施例,对本发明作进一步详细说明。
如图1所示,本发明的一种基于注意力机制的高光谱与多光谱图像融合方法,主要包括以下步骤内容:
步骤1:获取低空间分辨率的高光谱图像和高空间分辨率的多光谱图像,构建训练集和测试集;
步骤2:构建基于注意力机制的双流高光谱与多光谱图像融合模型;
步骤3:使用训练集和Adam优化器对构建的图像融合模型进行训练,通过损失函数反向传播训练模型得到最优模型;
步骤4:将测试集中待融合的低空间分辨率的高光谱图像和高空间分辨率的多光谱图像输入训练好的图像融合模型中,得到高空间分辨率的高光谱图像。
具体的,假定表示有S个光谱波段的w×h的LR-HSI(Low ResolutionHyperspectral Image,低空间分辨率的高光谱图像),每个光谱波段具有较低的空间分辨率;/>表示有s个光谱波段的W×H的HR-MSI(High Resolution MultispectralImage,高空间分辨率的多光谱图像),但具有较高的空间分辨率。其中,H和h表示图像高度,W和w表示图像宽度,S和s表示光谱波段数,且h<<H,w<<W,s<<S。
如图2和图3所示,在图像融合模型中,首先,使用双线性插值将LR-HSI上采样到与HR-MSI相同的大小,得到再将HR-MSI和上采样后的LR-HSI分别输入双分支网络中的空间特征提取分支和光谱特征提取分支。
然后,分别对HR-MSI和上采样后的LR-HSI进行浅层特征提取,获得高分辨率的浅层空间特征和浅层光谱特征。其中,所述浅层特征提取采用两个独立的浅层特征提取模块,分别从HR-MSI和上采样后的LR-HSI中获得空间纹理特征和光谱特征。两个浅层特征提取模块分别由两个连续的卷积层组成,卷积层提供了一种简单方便的方式来增加特征维度,然后是卷积层之间的参数校正线性单元(PReLU)激活函数,卷积核大小为3×3,步长为1,提取浅层的局部语义信息,并将浅层特征的特征数据映射到高维特征,提取的浅层光谱特征为浅层空间特征为/>C表示通道数,在本实施例中C为192。
接着,将浅层光谱特征和浅层空间特征输入深度特征提取模块,交替提取MSI(Multispectral Image,多光谱图像)与HSI(Hyperspectral Image,高光谱图像)的全局特征域内信息与跨域信息,以及跨特征域交互特征信息,获得深层光谱特征和深层空间细节特征。所述的深度特征提取模块部署有2个注意力引导的跨域特征提取(Attention-guidedCross-domain Feature Extraction,ACFE)模块;所述ACFE模块由通过级联的基于自注意力机制的Swin Transformer(Self-Attention Swin Transformer,SAST)和基于交叉注意力机制的Swin Transformer(Cross-Attention Swin Transformer,CAST)组成,鼓励两个特征之间的信息交换,在空间细节分支和光谱分支之间进行交互特征融合提取,捕捉HSI和MSI的冗余和互补信息。
高光谱图像HSI在整个图像范围内,不同区域间的光谱特性和特征之间可能存在一致性或相似性。由于CNN的感受野局限,在建模图像中的长程依赖性方面受到限制,只能对图像的局部信息进行建模,无法有效捕捉全局语义信息,且缺乏筛选和区分有用特征与冗余信息的能力。因此本发明在进行初步的浅层特征提取后,使用Swin Transformer来进一步提取包含全局信息的特征,因为Swin Transformer具有获取长程依赖性信息的能力,所以每个提取出的特征都融合了全局的信息。
因此,将浅层空间特征和浅层光谱特征/>输入深度特征提取模块,通过基于自注意力的Swin Transformer模块和基于交叉注意力的Swin Transformer模块获得深层光谱特征/>和深层空间细节特征/>包含MSI与HSI的全局特征域内信息和跨特征域全局信息。
再将浅层空间特征浅层光谱特征/>深层光谱特征/>和深层空间细节特征/>输入特征融合模块,进行特征融合获得光谱空间融合特征。所述特征融合模块包括基于Transformer的深度特征融合模块和基于CNN的特征融合模块,分别将提取的深层全局特征进行融合,并将融合后的深层全局特征与局部特征进行融合。具体的,将深层光谱特征/>和深层空间特征/>拼接后输入基于Transformer的深度特征融合模块,得到融合深度光谱空间特征/>由于Transformer自注意力计算需要将patch拉伸成一维token,patch内部的空间信息会丢失。利用长跳跃连接将融合信息FFDF与浅层特征信息/>相结合得到拼接后的特征信息/>在保留局部信息的同时,还为特征融入中长距信息。将拼接后的特征FCF输入基于CNN的特征融合模块,在包含全局信息的特征中再一次提取局部信息,以融合不同域中的局部信息,获得融合的空间光谱特征/>
最后,将所述空间光谱融合特征输入图像重建模块,从融合的特征中重建出所需要的高空间分辨率的高光谱图像。具体地,将空间光谱融合特征FFF输入图像重建模块,图像重建模块有3个卷积层,每个卷积层的滤波器大小为3×3,
步幅为1,在每个卷积层之后应用PReLU激活。将FFF中融合的深层特征映射回图像空间,对融合的浅层特征进行恢复,获得高分辨率高光谱图像
由上所述,基于注意力机制的双流高光谱与多光谱图像融合方法采用双分支网络,结合CNN和Swin Transformer提取包含局部信息和全局信息的特征,分别从多光谱图像和高光谱图像中提取空间细节和光谱信息。引入交叉注意力机制,能够交互高光谱图像和多光谱图像两个分支的特征,利用两者的相似性和冗余信息进行特征增强,更好地提取两种图像的特征。应用Swin Transformer合并空间和光谱全局特征,与CNN提取的局部信息进行拼接,更好地进行特征融合。最后,借助图像重建网络,从融合的特征中重建高空间分辨率的高光谱图像。充分利用特征域内和域间的全局信息,能够获得更好的融合效果,获得更高质量的高分辨率高光谱图像。
如图4所示,上述的基于自注意力机制的Swin Transformer的处理流程与SwinTransformer层相同,包括基于窗口的MSA(Multi-head Self Attention,多头自注意力)模块和基于移位窗口的MSA模块,基于移位窗口机制的注意力是设计SAST的基本组成部分,分别在HR-MSI和LR-HSI特征提取分支捕获全局信息,以有效整合同一特征域内的全局信息。具体的,假设输入为给定的特征F,F的大小为H×W×C,首先将输入划分为不重叠的M×M个局部窗口,将输入重塑为的特征,其中/>是窗口的总数。接下来,分别为每个窗口执行标准的自注意力。对于局部窗口特征/>使用在不同窗口之间共享的三个可学习权重矩阵/>和/>通过以下方式将其投影到查询Q、键K和值V中:
Q=XWQ,K=XWK,V=XWV#(1)
注意力机制基本上是通过计算查询Q与所有键K的点积,然后使用softmax函数进行规范化,得到相应的注意力分数。将注意力机制定义如下:
dk是keys的维度,B是可学习的相对位置编码。将自注意力扩展到多头自注意力MSA,使注意力机制能够考虑各种注意力分布,并使模型从不同角度捕获信息。在实践中,并行执行h次注意力函数,并将结果连接到多头自注意力,其中h设置为8。
Swin Transformer层包括:W-MSA模块和多层感知器MLP模块,每个模块应用一个残差连接,在W-MSA和MLP前面有一个LN(LayerNorm)层。因此,局部窗口特征X的SAST模块的整个过程公式化为:
SA(X)=Attention(Q(X),K(X),V(X))#(3)
其中Z1表示以X作为输入的第一层Swin Transformer的输出。
如果各层的分区保持固定,则无法在跨本地窗口之间建立连接。为实现跨窗口连接,采用了交替使用的常规窗口和移位窗口分区方法。在首层的常规窗口层中,使用标准的窗口分区方案,并在每个窗口内进行自注意力计算。然后,在下一层的移位窗口层,通过移动窗口分区来创建新的窗口。在执行这种移动窗口分区前,将特征沿两个方向分别移动个像素,重新划分窗口,计算每个窗口内的注意力,新窗口内的注意力计算就能跨越第1层窗口的边界,实现它们之间的连接。计算公式为:
其中Z2是以X作为输入的SAST的输出。多层感知器MLP层如下
MLP(X)=GELU(W1X+b1)W2+b2#(8)
其中GELU是高斯误差线性单位,其中W1和W2是全连接层的可学习权重,而b1和b2为可学习偏置参数。
利用SAST模块提取HSI和MSI的长程依赖信息,这样可以有效学习MSI和HSI的空间和光谱的长程依赖,从而提升空间和光谱质量。
如图5所示,所述的CAST即基于交叉注意力机制的Swin Transformer和SAST都遵循着相似的基线,但有着关键的不同,具体来说,CAST采用多头交叉注意力(Multi-headCross Attention,MCA),而非多头自注意力MSA,以实现跨特征域的全局上下文交换。
通过双分支网络可以分别从多光谱图像和高光谱图像中提取空间和光谱信息,但多光谱图像也包含了一定的光谱信息,双分支网络忽略了多光谱图像和高光谱图像之间的互补性,可能导致特征信息的提取不够全面,重建的图像可能仍存在空间失真或光谱失真的问题。因此,本发明设计一种基于交叉注意力机制的Swin Transformer(CAST),对HSI和MSI之间跨模态的关系进行精准建模。
在针对HSI的深层特征提取分支中,HSI特征被用于生成K和V,而MSI特征则被用于生成Q;对于MSI的深度特征提取分支,MSI特征被用于生成K和V,HSI特征被用于生成Q。其中Q表示查询向量,K表示关键字向量,V表示值向量。
分别给定两个特征X1和X2,它们之间的关系可以用注意力机制来建模,定义如下:
CA(X1,X2)=Attention(Q(X2),K(X1),V(X1))#(9)
其中CA(·)是计算X1与X2之间关系的注意力函数。使用与公式(2)相同的注意力函数来计算CA(·)。其中,特征X1与X2通过以下方式将其投影到查询Q、键K和值V中:
如公式(10)(11)所示,特征域1中的特征X1用于生成键K1和值V1。而在特征域2中,特征X2则被用于生成查询Q2。然后,利用这些生成的键、值和查询执行注意力加权操作,从而实现跨模态信息的融合。同时,采用残差连接方式保留了特征域1中原有的信息,实现了信息的保存和传递,同样的处理也应用于特征域2。这种设计有效地捕获了两个特征域中的互补信息,并将其有机融合,以提升模型的表达能力。
因此,给定来自不同域的两个局部窗口特征X1和X2,CAST的整个过程定义为:
其中表示特征域1中的特征X1经过第一层MCA的输出,/>表示特征域2中的特征X2经过第一层MCA的输出。将特征沿两个方向分别移动/>个像素,重新划分窗口,计算每个窗口内的注意力,计算公式为:
其中,表示特征域1中的特征X1经过CAST的输出,/>是特征域2中的特征X2经过CAST的输出。
与MSA的输入K、Q、V都来自同一图像特征不同,MCA的输入K、Q、V则来自不同图像的特征。举例来说,K、V来自HSI的特征,而Q来自MSI的特征,在经过MCA计算后,HSI的特征信息将被MSI的特征信息所影响。通过空间和光谱注意力的相互作用,两个子网络之间的特征冗余度得以降低,同时也增进了特征之间的互补性,可以实现HSI和MSI两类特征信息的有效融合。
交叉注意力机制被有效应用于空间和光谱信息的解耦,以增强所提取特征的互补性并减少冗余。通过空间和光谱注意力的相互作用,两个子网络之间的特征冗余度得以降低,同时也增进了特征之间的互补性,从而优化了信息的整合和处理。这种设计方式有助于在保证特征提取的独立性的同时,最大限度地利用HSI和MSI之间的互补性,从而实现高效的特征融合,优化最终的图像质量。
由上述可见,本发明的基于注意力机制的高光谱与多光谱图像融合方法,首先设计了一种具有注意力机制的双流空谱融合网络,结合CNN和Swin Transformer的优势,充分挖掘HSI和MSI中的局部和全局依赖关系。其次引入交叉注意力机制,能够跨HSI和MSI模式建模冗余信息和互补信息,捕获HSI和MSI之间的复杂相关关系,获取光谱波段之间的高度相关性和空间位置上的非局部相似性。然后利用Swin Transformer融合空间细节和光谱的全局特征,与CNN提取的局部信息进行拼接,更好地进行特征融合。最后,利用图像重建网络从融合的特征中重建所需的高空间分辨率的高光谱图像(HR-HSI:High ResolutionHyperspectral Image)。
虽然卷积操作在深层网络中能够恰当地融合纹理特征,但无法在全局视野上调整每个像素值,与现有技术相比,本发明通过引入Swin Transformer捕获全局信息,通过交叉注意力机制能够充分利用特征域内和域间的全局信息,在全局范围内的误差分布均匀,在处理复杂地物时表现出良好的融合性能,在关注细节的同时,也有效地降低了融合结果的整体误差,获得更高质量的高分辨率高光谱图像。
以上所述,仅为本发明的优选实施案例,并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明,对于熟悉本领域的人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种基于注意力机制的高光谱与多光谱图像融合方法,其特征在于,包括以下步骤:
步骤1:获取低空间分辨率的高光谱图像和高空间分辨率的多光谱图像,构建训练集和测试集;
步骤2:构建基于注意力机制的双流高光谱与多光谱图像融合模型;
步骤3:使用训练集和Adam优化器对构建的图像融合模型进行训练,通过损失函数反向传播训练模型得到最优模型;
步骤4:将测试集中待融合的低空间分辨率的高光谱图像和高空间分辨率的多光谱图像输入训练好的图像融合模型中,得到高空间分辨率的高光谱图像。
2.如权利要求1所述的一种基于注意力机制的高光谱与多光谱图像融合方法,其特征在于,所述图像融合模型包括双分支网络、特征融合模块和图像重建模块;
所述低空间分辨率的高光谱图像上采样到与高空间分辨率的多光谱图像相同大小后输入双分支网络进行特征提取;
所述特征融合模块将提取的特征进行融合,后通过图像重建模块从融合的特征中重建出高空间分辨率的高光谱图像。
3.如权利要求2所述的一种基于注意力机制的高光谱与多光谱图像融合方法,其特征在于,所述低空间分辨率的高光谱图像的上采样使用双线性插值算法。
4.如权利要求2所述的一种基于注意力机制的高光谱与多光谱图像融合方法,其特征在于,所述双分支网络包括空间特征提取分支和光谱特征提取分支;
所述空间特征提取分支和光谱特征提取分支分别对高空间分辨率的多光谱图像和上采样后的低空间分辨率的高光谱图像依次进行浅层特征提取、深度特征提取;
其中的浅层特征提取采用两个独立的浅层特征提取模块,分别从高空间分辨率的多光谱图像和上采样后的低空间分辨率的高光谱图像中提取浅层空间特征和浅层光谱特征并将特征数据映射到高维特征;
所述的深度特征提取采用两个注意力引导的跨域特征提取模块,交替提取浅层空间特征和浅层光谱特征中的全局特征域内信息与跨域信息,以及跨特征域交互特征信息,获得深层空间特征和深层光谱特征。
5.如权利要求4所述的一种基于注意力机制的高光谱与多光谱图像融合方法,其特征在于,所述浅层特征提取模块由两个连续的卷积层组成,卷积核大小为3×3,步长为1,卷积层之间叠加一个参数校正线性单元激活函数。
6.如权利要求4所述的一种基于注意力机制的高光谱与多光谱图像融合方法,其特征在于,所述注意力引导的跨域特征提取模块由通过级联的基于自注意力机制的SwinTransformer和基于交叉注意力机制的Swin Transformer组成。
7.如权利要求6所述的一种基于注意力机制的高光谱与多光谱图像融合方法,其特征在于,所述的基于自注意力机制的Swin Transformer包括首层的常规窗口层及其下一层的移位窗口层,其中常规窗口层包括:基于窗口机制的多头自注意力W-MSA模块和多层感知器MLP模块,每个模块应用一个残差连接,在W-MSA和MLP前面有一个LN层;与常规窗口层对应的,所述移位窗口层包括:基于移位窗口机制的多头自注意力SW-MSA模块和多层感知器MLP模块,每个模块应用一个残差连接,在W-MSA和MLP前面有一个LN层。
8.如权利要求7所述的一种基于注意力机制的高光谱与多光谱图像融合方法,其特征在于,所述常规窗口层的特征数据处理的具体过程为:假设输入基于自注意力机制的SwinTransformer的特征F,F的大小为H×W×C,C表示通道数,首先将输入特征划分为不重叠的M×M个局部窗口的特征即将输入重塑为/>的特征,其中/>是窗口的总数;然后分别为每个窗口执行标准的自注意力SA;对于局部窗口特征/>使用在不同窗口之间共享的三个可学习权重矩阵/>和/>通过以下方式将其投影到查询Q、键K和值V中:
Q=XWQ,K=XWK,V=XWV#(1)
通过计算查询Q与所有键K的点积,然后使用softmax函数进行规范化,得到相应的注意力分数,将注意力机制定义如下:
dk是keys的维度,B是可学习的相对位置编码;
将自注意力SA扩展到多头自注意力MSA,因此,局部窗口特征X在常规窗口层的整个过程公式化为:
SA(X)=Attention(Q(X),K(X),V(X))#(3)
其中Z1表示以X作为输入的自注意力机制的Swin Transformer的常规窗口层的输出。
9.如权利要求8所述的一种基于注意力机制的高光谱与多光谱图像融合方法,其特征在于,所述移位窗口层的特征数据处理的具体过程表达式为:
其中Z2是以X作为输入的自注意力机制的Swin Transformer的输出,多层感知器MLP模块的表达式如下:
MLP(X)=GELU(W1X+b1)W2+b2#(8)
其中GELU是高斯误差线性单位,其中W1和W2是全连接层的可学习权重,而b1和b2为可学习偏置参数。
10.如权利要求7所述的一种基于注意力机制的高光谱与多光谱图像融合方法,其特征在于,所述的基于交叉注意力机制的Swin Transformer层结构与所述基于自注意力机制的Swin Transformer相似,其中的注意力模块采用多头交叉注意力MCA模块,则基于交叉注意力机制的Swin Transformer的具体特征数据处理过程为:
对于分别来自不同域的特征域1和特征域2的两个局部窗口特征X1和X2,交叉注意力机制定义为:
CA(X1,X2)=Attention(Q(X2),K(X1),V(X1))#(9)
其中CA(·)是计算X1与X2之间关系的注意力函数,特征X1与X2通过以下方式将其投影到查询Q、键K和值V中:
Q1=X1W1 Q,K1=X1W1 K,V1=X1W1 K#(10)
Q2=X2W2 Q,K2=X2W2 K,V2=X2W2 V#(11)
如公式(10)(11)所示,特征X1用于生成键K1和值V1,特征X2则被用于生成查询Q2,然后利用生成的键、值和查询执行注意力加权操作,从而实现跨模态信息的融合;同时,采用残差连接方式保留了特征域1中原有的信息,实现了信息的保存和传递,同样的处理也应用于特征域2;
因此,基于交叉注意力机制的Swin Transformer的整个过程定义为:
其中表示特征X1经过第一层MCA的输出,/>表示特征X2经过第一层MCA的输出;将特征沿两个方向分别移动/>个像素,重新划分窗口,计算每个窗口内的注意力,计算公式为:
其中,表示特征域1中的特征X1经过基于交叉注意力机制的Swin Transformer的输出,/>是特征域2中的特征X2经过基于交叉注意力机制的Swin Transformer的输出。
11.如权利要求10所述的一种基于注意力机制的高光谱与多光谱图像融合方法,其特征在于,所述特征融合模块包括基于Transformer的深度特征融合模块和基于CNN的特征融合模块,将深层光谱特征和深层空间特征拼接后输入基于Transformer的深度特征融合模块,得到融合深度光谱空间特征,利用长跳跃连接将融合深度光谱空间特征与浅层空间特征和浅层光谱特征相结合得到拼接后的特征信息,最后将拼接后的特征信息输入基于CNN的特征融合模块,在包含全局信息的特征中再一次提取局部信息,以融合不同域中的局部信息,获得融合的空间光谱特征。
12.如权利要求11所述的一种基于注意力机制的高光谱与多光谱图像融合方法,其特征在于,所述图像重建模块包括3个卷积层,每个卷积层的滤波器大小为3×3,步幅为1,在每个卷积层之后应用PReLU激活,该模块将融合的深层光谱特征和深层空间特征映射回图像空间,对融合的浅层空间特征和浅层光谱特征进行恢复,获得高空间分辨率的高光谱图像。
CN202311469057.1A 2023-11-06 2023-11-06 一种基于注意力机制的高光谱与多光谱图像融合方法 Pending CN117474781A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311469057.1A CN117474781A (zh) 2023-11-06 2023-11-06 一种基于注意力机制的高光谱与多光谱图像融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311469057.1A CN117474781A (zh) 2023-11-06 2023-11-06 一种基于注意力机制的高光谱与多光谱图像融合方法

Publications (1)

Publication Number Publication Date
CN117474781A true CN117474781A (zh) 2024-01-30

Family

ID=89636029

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311469057.1A Pending CN117474781A (zh) 2023-11-06 2023-11-06 一种基于注意力机制的高光谱与多光谱图像融合方法

Country Status (1)

Country Link
CN (1) CN117474781A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117726916A (zh) * 2024-02-18 2024-03-19 电子科技大学 一种图像分辨率融合增强的隐式融合方法
CN117911830A (zh) * 2024-03-20 2024-04-19 安徽大学 一种光谱保真的全局交互高光谱多光谱跨模态融合方法
CN117953312A (zh) * 2024-03-25 2024-04-30 深圳航天信息有限公司 基于视觉识别的零件检测方法、装置、设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117726916A (zh) * 2024-02-18 2024-03-19 电子科技大学 一种图像分辨率融合增强的隐式融合方法
CN117726916B (zh) * 2024-02-18 2024-04-19 电子科技大学 一种图像分辨率融合增强的隐式融合方法
CN117911830A (zh) * 2024-03-20 2024-04-19 安徽大学 一种光谱保真的全局交互高光谱多光谱跨模态融合方法
CN117911830B (zh) * 2024-03-20 2024-05-28 安徽大学 一种光谱保真的全局交互高光谱多光谱跨模态融合方法
CN117953312A (zh) * 2024-03-25 2024-04-30 深圳航天信息有限公司 基于视觉识别的零件检测方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
Wang et al. Ultra-dense GAN for satellite imagery super-resolution
CN117474781A (zh) 一种基于注意力机制的高光谱与多光谱图像融合方法
CN113673590B (zh) 基于多尺度沙漏密集连接网络的去雨方法、***和介质
Gao et al. Cross-scale mixing attention for multisource remote sensing data fusion and classification
CN112669248B (zh) 基于cnn与拉普拉斯金字塔的高光谱与全色图像融合方法
Zhang et al. LR-Net: Low-rank spatial-spectral network for hyperspectral image denoising
Yan et al. When pansharpening meets graph convolution network and knowledge distillation
CN111951195A (zh) 图像增强方法及装置
CN116343052B (zh) 一种基于注意力和多尺度的双时相遥感图像变化检测网络
Li et al. RGB-induced feature modulation network for hyperspectral image super-resolution
Pan et al. Structure–color preserving network for hyperspectral image super-resolution
de Souza Brito et al. Combining max-pooling and wavelet pooling strategies for semantic image segmentation
Long et al. Dual self-attention Swin transformer for hyperspectral image super-resolution
CN114972024A (zh) 一种基于图表示学习的图像超分辨率重建装置及方法
CN114757862B (zh) 用于红外光场设备的图像增强渐进式融合方法
Nathan et al. Light weight residual dense attention net for spectral reconstruction from RGB images
CN115578262A (zh) 基于afan模型的偏振图像超分辨率重建方法
Choudhary et al. From conventional approach to machine learning and deep learning approach: an experimental and comprehensive review of image fusion techniques
Gong et al. Learning deep resonant prior for hyperspectral image super-resolution
Yang et al. Variation learning guided convolutional network for image interpolation
Wu et al. Hprn: Holistic prior-embedded relation network for spectral super-resolution
Cheng et al. StyleFuse: An unsupervised network based on style loss function for infrared and visible image fusion
CN112734645B (zh) 一种基于特征蒸馏复用的轻量化图像超分辨率重建方法
Wang et al. SCGRFuse: An infrared and visible image fusion network based on spatial/channel attention mechanism and gradient aggregation residual dense blocks
CN116563187A (zh) 一种基于图神经网络的多光谱图像融合

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination