CN115690002A - 一种基于Transformer和密集特征融合的遥感图像变化检测方法及*** - Google Patents

一种基于Transformer和密集特征融合的遥感图像变化检测方法及*** Download PDF

Info

Publication number
CN115690002A
CN115690002A CN202211243801.1A CN202211243801A CN115690002A CN 115690002 A CN115690002 A CN 115690002A CN 202211243801 A CN202211243801 A CN 202211243801A CN 115690002 A CN115690002 A CN 115690002A
Authority
CN
China
Prior art keywords
network
attention
token
semantic
transformer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211243801.1A
Other languages
English (en)
Inventor
石爱业
江颖
赵梓浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN202211243801.1A priority Critical patent/CN115690002A/zh
Publication of CN115690002A publication Critical patent/CN115690002A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Complex Calculations (AREA)

Abstract

本发明公开了图像处理技术领域的一种基于Transformer和密集特征融合的遥感图像变化检测方法及***。首先,使用基于ResNeT18的骨干网络进行初步的特征提取,然后将提取到的两个特征图通过语义Tokenize生成两组tokens序列,将序列拼接后输入到Transformer编码器,通过改进的多头注意力,在保证多头多样性的前提下,进行不同头间的交互,帮助网络在基于token的空间对图像的全局信息进行建模,接着将富含上下文信息的tokens进行分割后输入到孪生的Transformer解码器,重新投影回像素空间,得到两个增强后的特征图,通过密集特征融合模块,帮助网络生成变化区域并增强边缘信息。最后,经过特征融合和浅层的卷积网络生成变化结果图。所提的方法能够提升网络的性能,提高了变化检测的精度。

Description

一种基于Transformer和密集特征融合的遥感图像变化检测 方法及***
技术领域
本发明属于图像处理技术领域,具体涉及一种基于Transformer和密集特征融合的遥感图像变化检测方法及***。
背景技术
遥感影像的变化检测就是从不同时期的遥感数据中,定量地分析和确定地表变化的特征与过程。高分辨率遥感图像由于不同的成像条件以及场景中物体具有复杂多样的特点,具有相同语义概念的物体在不同的时间和空间位置上可能表现出不同的光谱特征,这对变化检测任务仍具有很大挑战。为了准确识别复杂场景中的变化区域,变化检测模型需要识别场景中变化区域的高级语义信息,从复杂的无关变化区域中区分真实的变化。
通过利用自注意力对时空中像素对间的语义关系进行建模,可以取得较好的检测效果。2020年,北京航空航天大学的Hao Chen等人提出STANet,它是一种新的基于度量和时空注意力的孪生网络,将网络划分不同尺度,在每个小区域内嵌入自注意力,用于建模像素间的长距离依赖关系,使用批量平衡对比损失函数缓解样本不平衡的问题,帮助网络提取富含上下文信息的特征。但模型的计算效率很低,计算复杂度很高且随着像素的数量呈二次比例增长。
目前许多基于深度卷积神经网络的变化检测方法无法有效捕获像素间远距离的依赖关系的问题,北京航空航天大学的Hao Chen等人在此背景下提出了双时相图像Transformer(Bitemporal Image Transformer,BIT)检测算法,在变化检测任务中取得了不错的效果。但由于Transformer中多头注意力的每个头只负责输入token序列的一个子集,当子集的通道维度较小时query和key的点积无法构成信息函数,会导致网络性能降低。同时BIT采用直接相减的特征融合方式不仅容易对特征结构造成破坏,还可能产生噪音干扰。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种基于Transformer和密集特征融合的遥感图像变化检测方法及***,使得双时相多光谱遥感影像的最终变化检测结果更加精确。
为达到上述目的,本发明所采用的技术方案是:一种基于Transformer和密集特征融合的遥感图像变化检测方法,包括:
a、针对已经配准的双时相光学遥感影像,首先通过基于卷积神经网络(CNN)骨干网络进行初步特征提取,其中,骨干网络采用基于改进残差块的ResNeT18网络;
b、采用语义符化器(Tokenizer)将步骤a图像特征生成对应的token组,即图像特征可以用token组来表示。
c、通过改进的Transformer编码器在基于token的时空中建模上下文信息,接着通过Transformer解码器对富含上下文信息的tokens进行解码,重新投影到像素空间获得细化后的原始特征。
d、对于Transformer解码器增强后的特征图
Figure BSA0000286231360000021
使用密集融合模块(DenseFusion Module,DFM)对直接相减取绝对值的融合方式进行改进,集成多个特性,帮助网络做出更好的决策,提高模型的鲁棒性。
e、在训练阶段,选用二分类交叉熵函数作为网络的损失函数,通过最小化损失函数对模型参数进行优化。网络的预测阶段采用一个浅层的卷积网络,其中分类器由两个带有批量归一化的3×3卷积层构成,卷积层的输出通道分别为32、2,分类器后接Softmax函数输出变化概率图。
所述步骤a中的改进残差块的ResNeT18,原本的ResNet有五个阶段,每个阶段进行2倍下采样,为了减少图像空间细节信息的损失,特征提取仅用ResNeT18的前四个阶段,并将ResNeT18中最后两个阶段中的步幅设置为1,随后在ResNet末端加入输出通道数为32的逐点卷积对图像进行降维,通过上采样得到输出特征图。
所述步骤b,采用孪生的语义Tokenizer,使双时相图像共享语义概念,对初步提取到的特征图进行转化,将其表达为紧凑的语义tokens。在NLP中Tokenizer把输入的句子划分为其他元素,即单词或短语,并用token向量表示。类似地,本项发明中使用语义Tokenizer将初步提取的特征图转化为可视化的单词,每个单词对应一个token向量,通过语义Tokenizer学习一组空间注意映射,将特征图转化为紧凑的token组。
Figure BSA0000286231360000031
分别为对应两个时相遥感图像的输入特征图,H、W、C分别对应特征图的高度,宽度与通道维数。
Figure BSA0000286231360000032
为两组tokens,L为token词汇组的大小。具体流程为:首先对特征图Xi(i=1,2)上的每个像素
Figure BSA0000286231360000033
使用逐点卷积得到L个语义组,每个组表示一个语义概念,然后对每个维度为HW的语义组使用Softmax函数计算空间注意力图,最后利用注意力图计算Xi中像素的加权平均和,得到大小为L的紧凑词汇组,即语义tokensTi
Ti=(Ai)TXi=(σ(Φ(Xi;W)))TXi (1)
其中Φ表示输入图像Xi与卷积核W进行逐点卷积,σ表示Softmax函数。
所述步骤c中的Transformer编码器、解码器包括:
ca、编码器通常由N个相同的层组成,并且每个层又包含两个带有残差结构的子层,其中第一个子层由多头注意力(MSA)和层归一化(LN)组成,第二个子层由前馈网络(FFN)和LN组成。解码器与编码器结构类似,不同的是在解码器中存在CrossAttention的第三个子层,它的作用是与编码器进行信息交互。常规的每个head只负责输入tokens的一个子集,尤其是当token embedding维度较小时,query和key的点积无法构成信息函数,降低网络的性能。本发明采用改进的MSA:
在Softmax函数之后对点积矩阵加入实例归一化来重建多头注意力的多样性能力。通过这样的方式,建模不同头间的交互,同时保持多头的多样性,数学表达式为:
Figure BSA0000286231360000041
式中,Q、K、V分别表示查询矩阵、表示键矩阵、表示值矩阵;IN表示实例归一化,对H、W维度数据单独进行计算,在帮助网络收敛的同时,能保持每个图像实例及通道间的独立性;Conv(·)是一个标准的1×1卷积运算,它具有跨通道信息交互的特点,用它来建模不同头之间的交互,达到注意力每个头可以依赖于所有的keys和queries的效果;dk是query和key的向量维度。
Transformer编码器由NE层改进的多头注意力和多层感知机(MultilayerPerceptron,MLP)组成,与标准transformer采用的Post-LN结构不同,本发明采用Pre-LN结构将层归一化LN前置,即层归一化分别放置在MSA与MLP之前,可以帮助网络训练过程更稳定,收敛速度更快。
Transformer中每层l的自注意力的输入为三元组形式,即(Q,K,V),其通过(l-1)层的输入
Figure BSA0000286231360000042
计算得到,计算公式如下:
Q=T(l-1)Wq (3)
K=T(l-1)Wk (4)
V=T(l-1)Wv (5)
式中
Figure BSA0000286231360000051
为Q,K,V对应线性投影层的参数,d为通道维数。
Transformer编码器的核心思想是多头注意力,多头注意力先以并行的方式执行多个独立的注意力头,然后对多个独立注意力头的输出进行拼接,最后经过投影得到最后输出,其优点是可以联合处理不同表示子空间上不同位置的信息,第j个头headj计算公式如下:
Figure BSA0000286231360000052
式中
Figure BSA0000286231360000053
为第j个Q,K,V对应线性投影层的参数。
经过ESA的多个头进行拼接,再经过第二个子层中MLP神经网络得到相应的Token序列。
cb、本发明采用孪生的Transformer解码器来提取每幅输入图像的特征图,和标准的Transformer解码器不同,所采用的Transformer解码器由ND层Multi-head Cross-Attention(MA)和MLP blocks组成,去掉了多头注意力从而避免了Xi中像素间的大量计算,层归一化的位置和编码器一样采用Pre-LN结构。在Transformer编码器的MSA中,查询、键和值来自相同的输入序列,在Transformer解码器中,查询来自输入图像特征Xi,键和值则来自编码器的输出,即
Figure BSA0000286231360000054
输入图像的每个像素可以通过紧凑的语义tokens组合来表示,输入一个特征序列Xi,将其中的像素点作为查询,将tokens作为键,Transformer解码器利用每个像素点与token组
Figure BSA0000286231360000055
间的关系得到精确的特征图
Figure BSA0000286231360000056
所述步骤d中的密集特征模块DFM中,DFM模块由两个分支(branch)组成:和分支和差分支,每个分支包含两个流(stream),且分支内部的两个流权值共享。模块利用求和分支可以获得增强的边缘信息,利用差值分支可以生成变化的区域。所有的卷积操作都使用3×3的卷积核,在最后的卷积层后使用批量归一化(BN)。除此之外,由于密集连接中存在残差连接,每个流中的最后两个特征可以看作是前一个特征的残差,这在一定程度上修正了前一个特征,使得新的特征图更加对齐。
所述步骤e二分类交叉损失函数,计算公式如下:
Figure BSA0000286231360000061
式中,BceLoss为二分类交叉损失,
Figure BSA0000286231360000062
为预测值,y为真实值,预测与真实值相差越大,loss越大。
一种基于Transformer和密集特征融合的遥感图像变化检测方法及***,包括处理器和存储设备,所述存储设备中存储有多条指令,用于所述处理器加载并执行上述任一项所述方法的步骤。
与现有技术相比,本发明所达到的有益效果:本法所述基于Transformer和密集特征融合的遥感图像变化检测方法及***。首先使用基于ResNeT18的backbone进行初步的特征提取,然后将提取到的两个特征图通过语义Tokenize生成两组tokens序列,将序列拼接后输入到Transformer编码器,通过改进的多头注意力,在保证多头多样性的前提下,进行不同头间的交互,帮助网络在基于token的空间对图像的全局信息进行建模,接着将富含上下文信息的tokens进行分割后输入到孪生的Transformer解码器,重新投影回像素空间,得到两个增强后的特征图,最后通过密集特征融合模块,帮助网络生成变化区域并增强边缘信息。该法使得双时相遥感影像的最终变化检测结果更加可靠、稳健,检测精度更高。
附图说明
图1是本发明实施例的一种基于Transformer和密集特征融合的遥感图像变化检测方法及***的总体框图。
图2是本发明实施例的一种基于Transformer和密集特征融合的的遥感图像变化检测方法的中的ESA(改进的MSA)结构图。
图3是本发明实施例的一种基于Transformer和密集特征融合的遥感图像变化检测方法的中密集融合模块DFM的示意图。
图4是本发明实施例所采用的LEVER光学遥感影像变化数据集及检测结果。其中图4(a)、(b)、(c)、(d)、(e)分别表示变化前影像、变化后影像、变化参考图、FC-Siam-Conc算法检测结果、STANet检测结果和本发明检测结果。
具体实施方式
一种基于Transformer和密集特征融合的遥感图像变化检测方法,主要包括:首先,使用基于ResNeT18的骨干网络进行初步的特征提取,然后将提取到的两个特征图通过语义Tokenize生成两组tokens序列,将序列拼接后输入到Transformer编码器,通过改进的多头注意力,在保证多头多样性的前提下,进行不同头间的交互,帮助网络在基于token的空间对图像的全局信息进行建模,接着将富含上下文信息的tokens进行分割后输入到孪生的Transformer解码器,重新投影回像素空间,得到两个增强后的特征图,通过密集特征融合模块,帮助网络生成变化区域并增强边缘信息。最后,经过特征融合和浅层的卷积网络生成变化结果图。所提的方法能够提升网络的性能,提高了变化检测的精度。
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图1所示,是本发明所述基于Transformer和密集特征融合的遥感图像变化检测方法的实现流程示意图,包括如下步骤:
步骤1:输入同一区域、不同时相的已配准的两幅光学遥感影像,分别记为I(1)和I(2)。考虑到残差结构可以解决网络层数不断加深时导致的梯度消失问题,本发明初步特征提取骨干网络,采用ResNet18网络并对其进行改进,原本的ResNet18有五个阶段,每个阶段进行2倍下采样,为了减少图像空间细节信息的损失,特征提取仅用ResNeT18的前四个阶段,并将ResNeT18中最后两个阶段中的步幅设置为1,随后在ResNet末端加入输出通道数为32的逐点卷积对图像进行降维,通过上采样得到输出特征图。
步骤2:采用孪生的语义Tokenizer使双时相图像共享语义概念,对初步提取到的特征图进行转化,将其表达为紧凑的语义tokens。在NLP中Tokenizer把输入的句子划分为其他元素,即单词或短语,并用token向量表示。类似地,本项发明中使用语义Tokenizer将初步提取的特征图转化为可视化的单词,每个单词对应一个token向量,通过语义Tokenizer学习一组空间注意映射,将特征图转化为紧凑的token组。
Figure BSA0000286231360000081
分别为对应两个时相遥感图像的经过步骤1处理的特征图,H、W、C分别对应特征图的高度,宽度与通道维数。
Figure BSA0000286231360000082
为两组tokens,L为token词汇组的大小。具体流程为:首先对特征图Xi(i=1,2)上的每个像素
Figure BSA0000286231360000083
使用逐点卷积得到L个语义组,每个组表示一个语义概念,然后对每个维度为HW的语义组使用Softmax函数计算空间注意力图,最后利用注意力图计算Xi中像素的加权平均和,得到大小为L的紧凑词汇组,即语义tokensTi
Ti=(Ai)TXi=(σ(Φ(Xi;W)))TXi (1)
式中Φ表示输入图像Xi与卷积核W进行逐点卷积,σ表示Softmax函数。
步骤3:分别构建Transformer的编码器和解码器。
步骤3.1:构建Transformer编码器中的改进多头注意力ESA
编码器通常由N个相同的层组成,并且每个层又包含两个带有残差结构的子层,其中第一个子层由MSA和LN组成,第二个子层由FFN和LN组成。解码器与编码器结构类似,不同的是在解码器中存在包含Cross Attention的第三个子层,它的作用是与编码器进行信息交互。
由于多头注意力(MSA)存在两个缺点:①计算量随着token的数量或维度成二次方比例,在训练过程中产生大量计算和推理开销;②每个head只负责输入tokens的一个子集,尤其是当token embedding维度较小时,query和key的点积无法构成信息函数,降低网络的性能。BIT网络为了权衡模型的效率和精度,将模型编码器深度(即Transformer layer的数量)设置为1,解码器深度设置为8,且不同于标准的Transformer实现,Transformer解码器由ND个Multi-head Cross-Attention(MA)和MLP blocks组成,移除了MSA从而避免像素间的大量计算。
本发明在此基础之上对MSA中上述第二个缺点进行改进,如附图2所示。Conv(·)是一个标准的1×1卷积运算,它具有跨通道信息交互的特点,用它来建模不同头之间的交互,达到注意力每个头可以依赖于所有的keys和queries的效果,然而这会削弱多头注意力对不同表示子集不同位置的联合处理能力。最初实例归一化IN用于图像的风格化迁移,它的归一化计算方式不同于批归一化BN和层归一化LN,与批量维度和通道维度无关,它是对H、W维度数据单独进行计算,在帮助网络收敛的同时,能保持每个图像实例及通道间的独立性。本发明采用的改进MSA称为ESA,其在Softmax函数之后对点积矩阵加入实例归一化来重建多头注意力的多样性能力。通过这样的方式,建模不同头间的交互,同时保持多头的多样性,数学表达式为:
Figure BSA0000286231360000101
式中,Q、K、V分别表示查询矩阵、表示键矩阵、表示值矩阵;IN表示实例归一化,对H、W维度数据单独进行计算,在帮助网络收敛的同时,能保持每个图像实例及通道间的独立性;Conv(·)是一个标准的1×1卷积运算,它具有跨通道信息交互的特点,用它来建模不同头之间的交互,达到注意力每个头可以依赖于所有的keys和queries的效果;dk是query和key的向量维度。
步骤3.2:构建Transformer编码器
Transformer编码器由NE层ESA和多层感知机(Multilayer Perceptron,MLP)组成,与标准transformer采用的Post-LN结构不同,本发明采用Pre-LN结构将层归一化LN前置,即层归一化分别放置在ESA与MLP之前,可以帮助网络训练过程更稳定,收敛速度更快。
Transformer中每层l的自注意力的输入为三元组形式,即(Q,K,V),其通过(l-1)层的输入
Figure BSA0000286231360000102
计算得到,计算公式如下:
Q=T(l-1)Wq (3)
K=T(l-1)Wk (4)
V=T(l-1)Wv (5)
式中
Figure BSA0000286231360000103
为Q,K,V对应线性投影层的参数,d为通道维数。
Transformer编码器的核心思想是多头注意力,多头注意力先以并行的方式执行多个独立的注意力头,然后对多个独立注意力头的输出进行拼接,最后经过投影得到最后输出,其优点是可以联合处理不同表示子空间上不同位置的信息,第j个头headj计算公式如下:
Figure BSA0000286231360000111
式中
Figure BSA0000286231360000112
为第j个Q,K,V对应线性投影层的参数。
经过ESA的多个头进行拼接,再经过第二个子层中MLP神经网络得到相应的Token序列。
步骤3.3:构建Transformer解码器
采用孪生的Transformer解码器来提取每幅输入图像的特征图,和标准的Transformer解码器不同,所采用的Transformer解码器由ND层Multi-head Cross-Attention(MA)和MLP blocks组成,去掉了多头注意力从而避免了Xi中像素间的大量计算,层归一化的位置和编码器一样采用Pre-LN结构。在Transformer编码器的MSA中,查询、键和值来自相同的输入序列,在Transformer解码器中,查询来自输入图像特征Xi,键和值则来自编码器的输出,即
Figure BSA0000286231360000113
输入图像的每个像素可以通过紧凑的语义tokens组合来表示,输入一个特征序列Xi,将其中的像素点作为查询,将tokens作为键,Transformer解码器利用每个像素点与token组
Figure BSA0000286231360000114
间的关系得到精确的特征图
Figure BSA0000286231360000115
步骤4:构建密集融合模块DFM
附图3为DFM模块示意图,由两个分支(branch)组成:和分支和差分支。DFM模块的输入为双时相图像Transformer解码器输出的特征Z(1)和Z(2),每个分支包含两个流(stream),且分支内部的两个流权值共享。模块利用求和分支可以获得增强的边缘信息,利用差值分支可以生成变化的区域。所有的卷积操作都使用3×3的卷积核,在最后的卷积层后使用批量归一化(BN)。除此之外,由于密集连接中存在残差连接,每个流中的最后两个特征可以看作是前一个装征的残差,这在一定程度上修正了前一个特征,使得新的特征图更加对齐。
步骤5:网络训练阶段,采用二分类交叉损失函数,计算公式如下:
Figure BSA0000286231360000121
式中,BceLoss为二分类交叉损失,
Figure BSA0000286231360000122
为预测值,y为真实值,预测与真实值相差越大,loss越大。
步骤6:将两幅不同时相的多光谱图像归一化处理后输入到训练好的Transformer网络进行变化和非变化类别的划分。
下面结合具体实验数据对本发明做进一步详细说明。本次实验采用的实验数据为LEVER变化检测数据,图像大小裁剪为256×256。实验基于Pytorch框架,模型选择批量大小为8,epoch设置为200,学习速率设置为0.01,线性衰减至0,优化器采用随机梯度下降(SGD)。实验中语义token的长度L设置为4,Transformer编码器的层数为1,解码器的层数为8,MSA和MA中头的数量设置为8,其中每个head的通道维度设置为8。预测阶段采用浅层卷积网络进行变化区域的判别,训练阶段损失函数采用二分类交叉熵损失函数优化网络参数。。
为了验证本发明的有效性,将本发明变化检测方法与下述变化检测方法进行比对:
(1)Hao Chen等人所提的STANet检测方法[“A Spatial-Temporal Attention-Based Method and a New Dataset for Remote Sensing Image Change Detection.(Remote Sensing,2020,12(10)中所提的检测方法]
(2)Hao Chen等人所提的BIT检测方法(GAN)[Hao Chen等.在文章“Remotesensing image change detection with transformers.(IEEE Transactions onGeoscience and Remote Sensing,2022,60中所提的检测方法]
(4)本发明方法。
检测性能用精确率(Precision)、召回率(Recall)、F1分数指标。F1是变化检测的综合评价指标,其值越接近于1,表明变化检测方法的性能越好。检测结果如表1所示。
表1 LEVIR数据集上的变化检测结果性能(%)
Figure BSA0000286231360000131
由表1可见,本发明所提的检测方法F1分数最大,比其他三种检测算法相比更接近于1。另外,本发明的Precision和Recall在对比算法中是最大的,更接近于1。综上,本发明变化检测算法的性能优于其他三种检测方法,这表明本发明所提的变化检测方法是有效的。
图4(a)和(b)是LEVER数据集中前、后时相影像,图4(c)是变化检测的参考图。图4(d)、(e)、(f)分别是STANet算法、BIT算法和本发明的变化检测结果,从图4的参考图的对比来看,目视效果上,本发明所提算法的检测效果是最好的。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (7)

1.一种基于Transformer和密集特征融合的遥感图像变化检测方法及***,其特征包括:
a、针对已经配准的双时相光学遥感影像,首先通过基于卷积神经网络(CNN)骨干网络进行初步特征提取,其中,骨干网络采用基于改进残差块的ResNeT18网络;
b、采用语义符化器(Tokenizer)将步骤a图像特征生成对应的token组,即图像特征可以用token组来表示。
c、通过改进Transformer编码器中的多头注意力MSA为ESA,在基于token的时空中建模上下文信息,接着通过Transformer解码器对富含上下文信息的tokens进行解码,重新投影到像素空间获得细化后的原始特征。
d、对于Transformer解码器增强后的特征图
Figure FSA0000286231350000011
使用密集融合模块(Dense FusionModule,DFM)对直接相减取绝对值的融合方式进行改进,集成多个特性,帮助网络做出更好的决策,提高模型的鲁棒性。
e、在训练阶段,选用二分类交叉熵函数作为网络的损失函数,通过最小化损失函数对模型参数进行优化。网络的预测阶段采用一个浅层的卷积网络,其中分类器由两个带有批量归一化的3×3卷积层构成,卷积层的输出通道分别为32、2,分类器后接Softmax函数输出变化概率图。
2.根据权利要求1,所述步骤a中的改进残差块ResNeT18模型,其目的为了增加图像空间细节信息,从而可为后续变化检测提供较好的特征。在原本的ResNet18五个阶段Stage,丢弃最后一个阶段,特征提取仅用ResNeT18的前四个阶段,并将ResNeT18中最后两个阶段中的步幅设置为1,随后在ResNet末端加入输出通道数为32的逐点卷积对图像进行降维,通过上采样得到输出特征图。
3.根据权利要求书1,所述步骤b中的采用孪生的语义Tokenizer,使双时相图像共享语义概念,对初步提取到的特征图进行转化,将其表达为紧凑的语义tokens。在NLP中Tokenizer把输入的句子划分为其他元素,即单词或短语,并用token向量表示。类似地,本项发明中使用语义Tokenizer将初步提取的特征图转化为可视化的单词,每个单词对应一个token向量,通过语义Tokenizer学习一组空间注意映射,将特征图转化为紧凑的token组。
Figure FSA0000286231350000021
分别为对应两个时相遥感图像的输入特征图,H、W、C分别对应特征图的高度,宽度与通道维数。
Figure FSA0000286231350000022
为两组tokens,L为token词汇组的大小。具体流程为:首先对特征图Xi(i=1,2)上的每个像素
Figure FSA0000286231350000023
使用逐点卷积得到L个语义组,每个组表示一个语义概念,然后对每个维度为HW的语义组使用Softmax函数计算空间注意力图,最后利用注意力图计算Xi中像素的加权平均和,得到大小为L的紧凑词汇组,即语义tokens Ti
Ti=(Ai)TXi=(σ(Φ(Xi;W)))TXi (1)
其中Φ表示输入图像Xi与卷积核W进行逐点卷积,σ表示Softmax函数。
4.根据权利要求书1,所述步骤c中编码器、解码器构建包括:
ca、构建改进的多头注意力ESA
常规的多头注意力中,每个head只负责输入tokens的一个子集,尤其是当tokenembedding维度较小时,query和key的点积无法构成信息函数,降低网络的性能。针对此缺点,本发明在常规的多头注意力的Softmax函数之后对点积矩阵加入实例归一化来重建多头注意力的多样性能力。通过这样的方式,建模不同头间的交互,同时保持多头的多样性,数学表达式为:
Figure FSA0000286231350000031
式中,Q、K、V分别表示查询矩阵、表示键矩阵、表示值矩阵;IN表示实例归一化,对H、W维度数据单独进行计算,在帮助网络收敛的同时,能保持每个图像实例及通道间的独立性;Conv(·)是一个标准的1×1卷积运算,它具有跨通道信息交互的特点,用它来建模不同头之间的交互,达到注意力每个头可以依赖于所有的keys和queries的效果;dk是query和key的向量维度。
cb、基于本发明所提的改进多头注意力ESA,构建Transformer编码器
Transformer编码器由NE层改进的多头注意力和多层感知机(Multilayer Perceptron,MLP)组成,与标准transformer采用的Post-LN结构不同,本发明采用Pre-LN结构将层归一化LN前置,即层归一化分别放置在MSA与MLP之前,可以帮助网络训练过程更稳定,收敛速度更快。
Transformer中每层l的自注意力的输入为三元组形式,即(Q,K,V),其通过(l-1)层的输入
Figure FSA0000286231350000032
计算得到,计算公式如下:
Q=T(l-1)Wq (3)
K=T(l-1)Wk (4)
V=T(l-1)Wv (5)
式中
Figure FSA0000286231350000033
为Q,K,V对应线性投影层的参数,d为通道维数。
Transformer编码器的核心思想是多头注意力,多头注意力先以并行的方式执行多个独立的注意力头,然后对多个独立注意力头的输出进行拼接,最后经过投影得到最后输出,其优点是可以联合处理不同表示子空间上不同位置的信息,第j个头headj计算公式如下:
Figure FSA0000286231350000041
式中
Figure FSA0000286231350000042
为第j个Q,K,V对应线性投影层的参数。
经过ESA的多个头进行拼接,再经过第二个子层中MLP神经网络得到相应的Token序列。
cc、构建Transformer解码器
本发明采用孪生的Transformer解码器来提取每幅输入图像的特征图,和标准的Transformer解码器不同,所采用的Transformer解码器由ND层Multi-head Cross-Attention(MA)和MLP blocks组成,去掉了多头注意力从而避免了Xi中像素间的大量计算,层归一化的位置和编码器一样采用Pre-LN结构。在Transformer编码器的MSA中,查询、键和值来自相同的输入序列,在Transformer解码器中,查询来自输入图像特征Xi,键和值则来自编码器的输出,即
Figure FSA0000286231350000043
输入图像的每个像素可以通过紧凑的语义tokens组合来表示,输入一个特征序列Xi,将其中的像素点作为查询,将tokens作为键,Transformer解码器利用每个像素点与token组
Figure FSA0000286231350000044
间的关系得到精确的特征图
Figure FSA0000286231350000045
5.根据权利要求书1所述DFM模块中,DFM模块由两个分支(branch)组成:和分支和差分支,每个分支包含两个流(stream),且分支内部的两个流权值共享。模块利用求和分支可以获得增强的边缘信息,利用差值分支可以生成变化的区域。所有的卷积操作都使用3×3的卷积核,在最后的卷积层后使用批量归一化(BN)。除此之外,由于密集连接中存在残差连接,每个流中的最后两个特征可以看作是前一个特征的残差,这在一定程度上修正了前一个特征,使得新的特征图更加对齐。
6.根据权利要求书1所述在训练阶段,针对变化和非变化两分类变化检测,采用二分类交叉损失函数,计算公式如下:
Figure FSA0000286231350000051
式中,BceLoss为二分类交叉损失,
Figure FSA0000286231350000052
为预测值,y为真实值,预测与真实值相差越大,loss越大。
7.一种基于深度学习的多光谱遥感图像变化检测***,其特征是,包括处理器和存储设备,所述存储设备中存储有多条指令,用于所述处理器加载并执行权力要求1~6任一项所述方法的步骤。
CN202211243801.1A 2022-10-11 2022-10-11 一种基于Transformer和密集特征融合的遥感图像变化检测方法及*** Pending CN115690002A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211243801.1A CN115690002A (zh) 2022-10-11 2022-10-11 一种基于Transformer和密集特征融合的遥感图像变化检测方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211243801.1A CN115690002A (zh) 2022-10-11 2022-10-11 一种基于Transformer和密集特征融合的遥感图像变化检测方法及***

Publications (1)

Publication Number Publication Date
CN115690002A true CN115690002A (zh) 2023-02-03

Family

ID=85064102

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211243801.1A Pending CN115690002A (zh) 2022-10-11 2022-10-11 一种基于Transformer和密集特征融合的遥感图像变化检测方法及***

Country Status (1)

Country Link
CN (1) CN115690002A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115861762A (zh) * 2023-02-27 2023-03-28 中国海洋大学 一种即插即用无限形变融合特征提取的方法及其应用
CN116052007A (zh) * 2023-03-30 2023-05-02 山东锋士信息技术有限公司 一种融合时间和空间信息的遥感图像变化检测方法
CN116258658A (zh) * 2023-05-11 2023-06-13 齐鲁工业大学(山东省科学院) 基于Swin Transformer的图像融合方法
CN116310863A (zh) * 2023-02-18 2023-06-23 广东技术师范大学 一种多尺度差分特征增强的遥感图像变化检测方法和装置
CN116343052A (zh) * 2023-05-30 2023-06-27 华东交通大学 一种基于注意力和多尺度的双时相遥感图像变化检测网络
CN116452972A (zh) * 2023-03-17 2023-07-18 兰州交通大学 一种基于Transformer端到端的遥感图像车辆目标检测方法
CN116483036A (zh) * 2023-04-25 2023-07-25 西北师范大学 一种基于Transformer的自编码器软测量建模方法
CN116503620A (zh) * 2023-05-11 2023-07-28 中国科学院空天信息创新研究院 高分遥感图像变化检测方法、装置、电子设备及介质
CN116703786A (zh) * 2023-08-09 2023-09-05 天津工业大学 一种基于改进UNet网络的图像去模糊方法和***
CN116978011A (zh) * 2023-08-23 2023-10-31 广州新华学院 一种用于智能目标识别的图像语义通信方法及***
CN117151084A (zh) * 2023-10-31 2023-12-01 山东齐鲁壹点传媒有限公司 一种中文拼写、语法纠错方法、存储介质及设备
CN117237623A (zh) * 2023-08-04 2023-12-15 山东大学 一种无人机遥感图像语义分割方法及***

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116310863A (zh) * 2023-02-18 2023-06-23 广东技术师范大学 一种多尺度差分特征增强的遥感图像变化检测方法和装置
CN115861762A (zh) * 2023-02-27 2023-03-28 中国海洋大学 一种即插即用无限形变融合特征提取的方法及其应用
CN116452972A (zh) * 2023-03-17 2023-07-18 兰州交通大学 一种基于Transformer端到端的遥感图像车辆目标检测方法
CN116052007A (zh) * 2023-03-30 2023-05-02 山东锋士信息技术有限公司 一种融合时间和空间信息的遥感图像变化检测方法
CN116052007B (zh) * 2023-03-30 2023-08-11 山东锋士信息技术有限公司 一种融合时间和空间信息的遥感图像变化检测方法
CN116483036B (zh) * 2023-04-25 2023-10-03 西北师范大学 一种基于Transformer的自编码器软测量建模方法
CN116483036A (zh) * 2023-04-25 2023-07-25 西北师范大学 一种基于Transformer的自编码器软测量建模方法
CN116258658A (zh) * 2023-05-11 2023-06-13 齐鲁工业大学(山东省科学院) 基于Swin Transformer的图像融合方法
CN116503620A (zh) * 2023-05-11 2023-07-28 中国科学院空天信息创新研究院 高分遥感图像变化检测方法、装置、电子设备及介质
CN116503620B (zh) * 2023-05-11 2023-12-08 中国科学院空天信息创新研究院 高分遥感图像变化检测方法、装置、电子设备及介质
CN116343052A (zh) * 2023-05-30 2023-06-27 华东交通大学 一种基于注意力和多尺度的双时相遥感图像变化检测网络
CN117237623A (zh) * 2023-08-04 2023-12-15 山东大学 一种无人机遥感图像语义分割方法及***
CN117237623B (zh) * 2023-08-04 2024-03-29 山东大学 一种无人机遥感图像语义分割方法及***
CN116703786B (zh) * 2023-08-09 2023-10-20 天津工业大学 一种基于改进UNet网络的图像去模糊方法和***
CN116703786A (zh) * 2023-08-09 2023-09-05 天津工业大学 一种基于改进UNet网络的图像去模糊方法和***
CN116978011A (zh) * 2023-08-23 2023-10-31 广州新华学院 一种用于智能目标识别的图像语义通信方法及***
CN116978011B (zh) * 2023-08-23 2024-03-15 广州新华学院 一种用于智能目标识别的图像语义通信方法及***
CN117151084A (zh) * 2023-10-31 2023-12-01 山东齐鲁壹点传媒有限公司 一种中文拼写、语法纠错方法、存储介质及设备
CN117151084B (zh) * 2023-10-31 2024-02-23 山东齐鲁壹点传媒有限公司 一种中文拼写、语法纠错方法、存储介质及设备

Similar Documents

Publication Publication Date Title
CN115690002A (zh) 一种基于Transformer和密集特征融合的遥感图像变化检测方法及***
CN111639692B (zh) 一种基于注意力机制的阴影检测方法
CN112926396B (zh) 一种基于双流卷积注意力的动作识别方法
CN113888744A (zh) 一种基于Transformer视觉上采样模块的图像语义分割方法
CN112100346B (zh) 基于细粒度图像特征和外部知识相融合的视觉问答方法
CN111027576B (zh) 基于协同显著性生成式对抗网络的协同显著性检测方法
CN115147598B (zh) 目标检测分割方法、装置、智能终端及存储介质
CN115222998B (zh) 一种图像分类方法
CN113076957A (zh) 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法
CN113159023A (zh) 基于显式监督注意力机制的场景文本识别方法
CN114973222B (zh) 基于显式监督注意力机制的场景文本识别方法
CN113066089B (zh) 一种基于注意力引导机制的实时图像语义分割方法
CN116168329A (zh) 基于关键帧筛选像素块的视频动作检测方法、设备及介质
CN114241274A (zh) 一种基于超分辨率多尺度特征融合的小目标检测方法
CN111899203A (zh) 基于标注图在无监督训练下的真实图像生成方法及存储介质
KR20220056707A (ko) 얼굴의 정렬 형태에 강인한 얼굴 인식 방법 및 그 장치
CN114972363A (zh) 图像分割方法、装置、电子设备及计算机存储介质
US20230154005A1 (en) Panoptic segmentation with panoptic, instance, and semantic relations
Wangi et al. Autoencoder for Image Retrieval System using Deep Learning Technique with Tensorflow and Kears
CN112801029B (zh) 基于注意力机制的多任务学习方法
CN114170154A (zh) 基于Transformer的遥感VHR图像变化检测方法
CN117058392A (zh) 一种基于卷积局部增强的多尺度Transformer图像语义分割方法
CN115984700A (zh) 一种基于改进Transformer孪生网络的遥感图像变化检测方法
Zhu et al. Dc-net: Divide-and-conquer for salient object detection
Fan et al. Attention-modulated triplet network for face sketch recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination