CN116665065B - 基于十字交叉注意力的高分辨率遥感影像变化检测方法 - Google Patents
基于十字交叉注意力的高分辨率遥感影像变化检测方法 Download PDFInfo
- Publication number
- CN116665065B CN116665065B CN202310934058.2A CN202310934058A CN116665065B CN 116665065 B CN116665065 B CN 116665065B CN 202310934058 A CN202310934058 A CN 202310934058A CN 116665065 B CN116665065 B CN 116665065B
- Authority
- CN
- China
- Prior art keywords
- change detection
- attention
- spatial
- remote sensing
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008859 change Effects 0.000 title claims abstract description 69
- 238000001514 detection method Methods 0.000 title claims abstract description 59
- 238000000034 method Methods 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 16
- 230000011218 segmentation Effects 0.000 claims abstract description 14
- 238000011176 pooling Methods 0.000 claims abstract description 11
- 238000010586 diagram Methods 0.000 claims abstract description 10
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 238000012360 testing method Methods 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 45
- 230000006870 function Effects 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000006116 polymerization reaction Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims 1
- 230000007246 mechanism Effects 0.000 description 5
- 230000002123 temporal effect Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/28—Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明提供了基于十字交叉注意力的高分辨率遥感影像变化检测方法,属于遥感科学技术领域。包括以下步骤:采集高分辨率遥感影像变化检测数据集,将训练集高分辨率遥感影像变化检测数据集数据进行数据增强。构建变化检测模型,所述变化检测模型包括编码器、时空注意力模块和解码器;将训练集数据输入变化检测模型中编码器进行特征提取,获取相邻两时相多尺度地物特征图、,将多尺度地物特征图、输入时空注意力模块,得到特征、。将特征、通过金字塔池化模块处理,获取训练完成的变化检测模型。将测试集数据输入到训练完成的变化检测模型,获取检测结果。本发明提高了语义分割的效率,减少了计算资源的消耗。
Description
技术领域
本发明涉及基于十字交叉注意力的高分辨率遥感影像变化检测方法,属于遥感科学技术领域。
背景技术
变化检测是遥感领域中的一个重要研究方向,它采用影像、图像处理方法及数理模型,结合地物特性和相应的遥感成像机理,在同一地表区域的多期遥感影像和相关地理空间数据中滤除作为干扰因素的不相干变化信息,进而找出感兴趣的变化信息。变化检测通过识别不同时期地面物体的影像变化,为城市规划和重建、环境监测、以及灾害评估等多领域提供了研究依据,具有广泛的应用场景。
随着深度学习技术的发展,基于深度学习的变化检测方法已经成为遥感影像变化检测研究热点。人们将其应用于高光谱影像的变化检测中使检测精度得到一定程度的提升。Wang等(2022)提出了一个名为Y-Net的端到端密集连接网络,该网络采用孪生结构进行多类变化检测。所提出的网络使用双流DenseNet在编码阶段提取双时间变化特征,并在解码阶段引入注意力融合机制以增强对变化特征的注意力。Chen等(2021)提出了一种新的方法,即双注意全卷积孪生网络,用于高分辨率图像中的变化检测。通过双注意机制,捕获长距离依赖性以获得更多的判别特征表示,以增强模型的识别性能。但是这些模型向模型中引入了较多参数,模型的复杂度大大提升,因此模型的精度较低,并且对模型的后续部署会造成一定影响。
总体来说,现有注意力方法不能有效地突出影像差异信息,并且不能很有效的突出感兴趣的语义信息,这在一定的程度上影响了检测精度的提升。
发明内容
本发明目的是提供了基于十字交叉注意力的高分辨率遥感影像变化检测方法,提高了语义分割的效率,减少了计算资源的消耗。
本发明为实现上述目的,通过以下技术方案实现:
步骤1:采集高分辨率遥感影像变化检测影像对和其对应的二值语义分割标签,得到高分辨率遥感影像变化检测数据集,获取同一地区两时相影像数据和地物变化标签数据。
步骤2:将高分辨率遥感影像变化检测数据集划分为训练集、验证集和测试集,对训练集数据进行数据增强。
步骤3:构建变化检测模型,所述变化检测模型包括编码器、时空注意力模块和解码器。
步骤4:将训练集数据输入变化检测模型中编码器进行特征提取,获取相邻两时相多尺度地物特征图、/>,所述编码器为去除最后池化层和全连接层的ESNET模型。
步骤5:将多尺度地物特征图、/>输入时空注意力模块,所述时空注意力模块包括十字交叉空间注意力模块和十字交叉时间注意力模块。
先将多尺度地物特征图、/>分别通过十字交叉空间注意力模块获取精化空间信息的多尺度空间特征图/>、/>。
再将精化空间信息的多尺度空间特征图、/>分别通过十字交叉时间注意力模块聚合横纵方向上和时空方向上的像素,得到特征/>、/>。
步骤6:将特征、/>通过金字塔池化模块处理,再通过双线性内插将宽高拉伸至和标签相同的尺寸,得到变化地物分割图,通过最小化最终张量和标签的损失训练该模型,并获取训练完成的变化检测模型。
步骤7:将测试集数据输入到训练完成的变化检测模型,获取检测结果。
优选的,所述数据增强方式包括:随机翻转、随机旋转、随机透明、HSV转变、随机噪声、随机交换两幅影像顺序。
优选的,所述将多尺度地物特征图、/>分别通过十字交叉空间注意力模块获取对应的精化空间信息的多尺度空间特征图/>、/>的具体方式如下:
将多尺度地物特征图通过三个1 x 1卷积层获取空间维度张量、/>、/>,其中,,/>是特征的通道数,/>表示全体实数集,/>表示特征的宽度,/>表示特征的高度。
计算空间维度张量、/>的相似度/>,将softmax函数应用于得到空间注意力权重矩阵/>,所述softmax函数指归一化指数函数将数字映射为0到1的数字。
所述相似度为空间维度张量/>、/>第/>标量值位置/>的相似度/>的集合,其中,/>。
其中,表示空间维度张量/>在每个位置/>上可以得到的向量,/>。/>表示第/>标量值的向量/>,所述向量/>表示空间维度张量/>对应于位置/>横纵方向上的向量,/>。
将空间维度张量和空间注意力权重矩阵/>进行聚合,具体公式如下:
其中,是位置/>上的特征/>,/>是位置/>第/>个标量值的空间注意力权重矩阵/>,/>是位置/>第/>个标量值的向量/>,所述向量/>为空间维度张量/>对应于位置/>的横纵方向上的向量,/>,/>是位置/>的向量/>。
获取每个位置的特征/>得到特征/>,并将特征/>再次作为初始特征输入十字交叉空间注意力模块获取精化空间信息的多尺度空间特征图。
优选的,所述将精化空间信息的多尺度空间特征图、/>分别通过十字交叉时间注意力模块聚合横纵方向上和时空方向上的像素,得到聚合信息更强具备更全面的特征空间表达能力的特征/>、/>的具体方式如下:
将精化空间信息的多尺度空间特征图通过两个不同的1 x 1卷积层得到空间维度张量/>、/>。将精化空间信息的多尺度空间特征图/>通过两个不同的1 x 1卷积层得到空间维度张量/>、/>。其中,/>,/>。
计算和/>的相似度/>,将softmax函数应用于/>获得时间注意力矩阵/>。
所述相似度为空间维度张量/>和/>第/>标量值位置的相似度/>的集合,
,
其中,表示空间维度张量/>在每个位置/>上的向量,/>,/>表示第标量值的向量/>,其中,/>表示空间维度张量/>对应于位置/>横纵方向上的向量。
将空间维度张量、/>分别与空间注意力权重矩阵/>进行聚合,具体公式如下:
,
,
其中,是位置/>上的特征/>,/>是位置/>第/>个标量值的空间注意力权重矩阵/>,/>是位置/>第/>个标量值的向量/>,所述向量/>为空间维度张量/>对应于位置/>的横纵方向上的向量,/>,/>是位置/>的向量/>。
是位置/>上的特征/>,/>是位置/>第/>个标量值的向量/>,所述向量/>为空间维度张量/>对应于位置/>的横纵方向上的向量,/>,/>是位置的向量/>。
获取每个位置的特征/>得到特征/>,获取每个位置/>的特征/>得到特征,并将特征/>、/>再次作为初始特征输入十字交叉时间注意力模块获取特征/>、/>。
对特征、/>简单的绝对值求差获取精化多尺度变化特征图。
优选的,所述金字塔池化模块包括3个尺度的卷积层、批标准化层、修正线性单元,将这三层相连形成ConvBNReLU模块。
对输入的精化多尺度变化特征图分别经过ConvBNReLU模块,然后采用双线性插值进行上采样,来获得金字塔模块前相同尺寸的特征图,并在通道上进行拼接。之后再经过一个ConvBNReLU模块获得形状为(N,2,W,H)的特征,经过argmax函数后输出变化检测二值分割图。
有益效果
本发明的优点在于:
1、在双时相的遥感影像检测过程中,引入一种十字交叉时空注意力机制,并对模型的结构进行优化,本发明构建时空注意力模块时,首先分解时空注意力,采用串联或并行两种结构连接两种注意力模型,这可以大大降低显存与计算资源消耗。其次使用十字交叉原理设计两种时空注意力模块,更高效的关注于语义分割结果与变化检测结果。
2、在特征提取阶段,采用去除池化和全连接层的esnet模型作为孪生卷积神经网络通过权重共享的方式进行特征提取,可以极大的降低训练阶段所需的时间,提高训练效率。
3、我们提出的时空注意力模块可以将此种时空注意力模型方便高效的应用于各级多尺度特征,而不必下采样到固定的尺度。并结合金字塔池化模型得到分割表现较好的变化检测结果。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1是本发明整体网络结构与流程图。
图2是本发明十字交叉空间注意力模型结构图。
图3是本发明十字交叉时间注意力模型结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
基于十字交叉注意力的高分辨率遥感影像变化检测方法,该方法不同于以往时空注意力机制,通过基于十字交叉原理的交叉注意力提取双时相特征来建模双时相特征的关系来实现时间注意力,通过基于十字交叉原理的交叉注意力提取各时相空间特征来实现空间注意力,实现对高分辨率遥感影像的变化检测。
步骤1:采集高分辨率遥感影像变化检测影像对和其对应的二值语义分割标签,得到高分辨率遥感影像变化检测数据集,获取同一地区两时相影像数据和地物变化标签数据。
步骤2:将高分辨率遥感影像变化检测数据集划分为训练集、验证集和测试集,对训练集数据进行数据增强;所述数据增强方式包括:随机翻转、随机旋转、随机透明、HSV转变、随机噪声、随机交换两幅影像顺序。
步骤3:构建变化检测模型,所述变化检测模型包括编码器、时空注意力模块和解码器。
步骤4:将训练集数据输入变化检测模型中编码器进行特征提取,获取相邻两时相多尺度地物特征图、/>,所述编码器为去除最后池化层和全连接层的ESNET模型。
步骤5:将多尺度地物特征图、/>输入时空注意力模块,所述时空注意力模块包括十字交叉空间注意力模块和十字交叉时间注意力模块。
先将多尺度地物特征图、/>分别通过十字交叉空间注意力模块获取精化空间信息的多尺度空间特征图/>、/>;具体方式如下:
将多尺度地物特征图通过三个1 x 1卷积层获取空间维度张量、/>、/>,其中,/>是特征的通道数,/>表示全体实数集,/>表示特征的宽度,/>表示特征的高度。
计算空间维度张量、/>的相似度/>,将softmax函数应用于D得到空间注意力权重矩阵/>,所述softmax函数指归一化指数函数将数字映射为0到1的数字。
所述相似度为空间维度张量/>、/>第/>标量值位置/>的相似度/>的集合,其中,/>。
其中,表示空间维度张量/>在每个位置/>上可以得到的向量,/>;/>表示第/>位置的向量/>,所述向量/>表示空间维度张量/>对应于该位置/>横纵方向上的向量,/>。
将空间维度张量和空间注意力权重矩阵/>进行聚合,具体公式如下:
,
其中,是/>位置上的特征/>,/>是/>位置第/>个标量值的空间注意力权重矩阵/>,/>是/>位置第/>个标量值的向量/>,所述向量/>为空间维度张量/>对应于位置/>的横纵方向上的向量,/>,/>是/>位置的向量/>。
获取每个位置的特征/>得到特征/>,并将特征/>再次作为初始特征输入十字交叉空间注意力模块获取精化空间信息的多尺度空间特征图。
再将精化空间信息的多尺度空间特征图、/>分别通过十字交叉时间注意力模块聚合横纵方向上和时空方向上的像素,得到聚合信息更强具备更全面的特征空间表达能力的特征/>、/>;具体方式如下:
将精化空间信息的多尺度空间特征图通过两个不同的1 x 1卷积层得到空间维度张量/>、/>;将精化空间信息的多尺度空间特征图/>通过两个不同的1 x 1卷积层得到空间维度张量/>、/>;其中/>,/>。
计算和/>的相似度/>,将softmax函数应用于/>获得时间注意力矩阵/>。
所述相似度为空间维度张量/>和/>第/>标量值位置的相似度/>的集合,其中,/>。
其中表示空间维度张量/>在每个位置/>上的向量,/>,/>表示第位置的向量/>,其中/>表示空间维度张量/>对应于该位置/>横纵方向上的向量。
将空间维度张量、/>分别与空间注意力权重矩阵/>进行聚合,具体公式如下:
,
,
其中,是/>位置上的特征/>,/>是/>位置第/>个标量值的空间注意力权重矩阵/>,/>是/>位置第/>个标量值的向量/>,所述向量/>为空间维度张量/>对应于位置/>的横纵方向上的向量,/>,/>是/>位置的向量/>。
是/>位置上的特征/>,/>是/>位置第/>个标量值的向量/>,所述向量/>为空间维度张量/>对应于位置/>的横纵方向上的向量,/>,/>是/>位置的向量/>。
获取每个位置的特征/>得到特征/>,获取每个/>位置的特征/>得到特征,并将特征/>、/>再次作为初始特征输入十字交叉时间注意力模块获取特征/>、/>;
对特征、/>简单的绝对值求差获取精化多尺度变化特征图。
步骤6:将特征、/>通过金字塔池化模块处理,再通过双线性内插将宽高拉伸至和标签相同的尺寸,得到变化地物分割图,通过最小化最终张量和标签的损失训练该模型,并获取训练完成的变化检测模型;所述金字塔分割模块包括3个尺度的卷积层、批标准化层、修正线性单元,将这三层相连形成ConvBNReLU模块。
对输入的精化多尺度变化特征图分别经过ConvBNReLU模块,然后采用双线性插值进行上采样,来获得金字塔模块前相同尺寸的特征图,并在通道上进行拼接;之后再经过一个ConvBNReLU模块获得形状为(N,2,W,H)的特征,经过argmax函数后输出变化检测二值分割图。
步骤7:将测试集数据输入到训练完成的变化检测模型,获取检测结果。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
与现有技术对比:
本方法与其他几种变化检测方法在LEVIR-CD数据集上的结果比较, 包括FC-EF、STANet、BIT、ChangeFormer。定量比较结果如表1所示,Precision、Recall、F1-Score、OA的单位为%。总参数量单位为MB。本文方法的召回率和F1分数高于其他4 种方法,与FC-EF相比,Precision、Recall、F1、OA分别提升了3.33%、11.96%、7.78%,7.78%。与STANet相比,Precision、Recall、F1、OA分别提升了6.43%、1.13%、3.92%,0.45%。与BIT相比,Precision、Recall、F1、OA分别提升了1.00%、2.76%、1.87%,0.19%。与ChangeFormer相比,Recall、F1,OA分别提升了3.33%、0.78%,0.07%,Precision降低了1.81%。
表1在LEVIR-CD 数据集上对比实验定量结果。
Claims (7)
1.一种基于十字交叉注意力的高分辨率遥感影像变化检测方法,其特征在于,包括以下步骤:
步骤1:采集高分辨率遥感影像变化检测影像对和其对应的二值语义分割标签,得到高分辨率遥感影像变化检测数据集,获取同一地区两时相影像数据和地物变化标签数据;
步骤2:将高分辨率遥感影像变化检测数据集划分为训练集、验证集和测试集,对训练集数据进行数据增强;
步骤3:构建变化检测模型,所述变化检测模型包括编码器、时空注意力模块和解码器;
步骤4:将训练集数据输入变化检测模型中编码器进行特征提取,获取相邻两时相多尺度地物特征图、/>,所述编码器为去除最后池化层和全连接层的ESNET模型;
步骤5:将多尺度地物特征图、/>输入时空注意力模块,所述时空注意力模块包括十字交叉空间注意力模块和十字交叉时间注意力模块;
先将多尺度地物特征图、/>分别通过十字交叉空间注意力模块获取精化空间信息的多尺度空间特征图/>、/>;
再将精化空间信息的多尺度空间特征图、/>分别通过十字交叉时间注意力模块聚合横纵方向上和时空方向上的像素,得到特征/>、/>;
步骤6:将特征、/>通过金字塔池化模块处理,再通过双线性内插将宽高拉伸至和标签相同的尺寸,得到变化地物分割图,通过最小化最终张量和标签的损失训练该模型,并获取训练完成的变化检测模型;
步骤7:将测试集数据输入到训练完成的变化检测模型,获取检测结果。
2.根据权利要求1所述的基于十字交叉注意力的高分辨率遥感影像变化检测方法,其特征在于,所述数据增强方式包括:随机翻转、随机旋转、随机透明、HSV转变、随机噪声、随机交换两幅影像顺序。
3.根据权利要求1所述的基于十字交叉注意力的高分辨率遥感影像变化检测方法,其特征在于,所述将多尺度地物特征图、/>分别通过十字交叉空间注意力模块获取对应的精化空间信息的多尺度空间特征图/>、/>的具体方式如下:
将多尺度地物特征图通过三个1 x 1卷积层获取空间维度张量、/>、/>,其中,,/>是特征的通道数,/>表示全体实数集,/>表示特征的宽度,/>表示特征的高度;
计算空间维度张量、/>的相似度/>,将softmax函数应用于得到空间注意力权重矩阵/>,所述softmax函数指归一化指数函数将数字映射为0到1的数字;
所述相似度为空间维度张量/>、/>第/>标量值位置/>的相似度/>的集合,其中,/>;
其中,表示空间维度张量/>在每个位置/>上可以得到的向量,/>;/>表示第标量值的向量/>,所述向量/>表示空间维度张量/>对应于位置/>横纵方向上的向量,/>;
将空间维度张量和空间注意力权重矩阵/>进行聚合,具体公式如下:
其中,是位置/>上的特征/>,/>是位置/>第/>个标量值的空间注意力权重矩阵/>,/>是位置/>第/>个标量值的向量/>,所述向量/>为空间维度张量/>对应于位置的横纵方向上的向量,/>,/>是位置/>的向量/>;
获取每个位置的特征/>得到特征/>,并将特征/>再次作为初始特征输入十字交叉空间注意力模块获取精化空间信息的多尺度空间特征图。
4.根据权利要求3所述的基于十字交叉注意力的高分辨率遥感影像变化检测方法,其特征在于,所述将精化空间信息的多尺度空间特征图、/>分别通过十字交叉时间注意力模块聚合横纵方向上和时空方向上的像素,得到特征/>、/>的具体方式如下:
将精化空间信息的多尺度空间特征图通过两个不同的1 x 1卷积层得到空间维度张量/>、/>;将精化空间信息的多尺度空间特征图/>通过两个不同的1 x 1卷积层得到空间维度张量/>、/>;其中,/>,/>;
计算和/>的相似度/>,将softmax函数应用于/>获得时间注意力矩阵/>;
所述相似度为空间维度张量/>和/>第/>标量值位置/>的相似度/>的集合,
,
其中,表示空间维度张量/>在每个位置/>上的向量,/>,/>表示第标量值的向量/>,其中,/>表示空间维度张量/>对应于位置/>横纵方向上的向量;
将空间维度张量、/>分别与空间注意力权重矩阵/>进行聚合,具体公式如下:
,
,
其中,是位置/>上的特征/>,/>是位置/>第/>个标量值的空间注意力权重矩阵/>,/>是位置/>第/>个标量值的向量/>,所述向量/>为空间维度张量/>对应于位置/>的横纵方向上的向量,/>,/>是位置/>的向量/>;
是位置/>上的特征/>,/>是位置/>第/>个标量值的向量/>,所述向量/>为空间维度张量/>对应于位置/>的横纵方向上的向量,/>,/>是位置/>的向量/>;
获取每个位置的特征/>得到特征/>,获取每个位置/>的特征/>得到特征/>,并将特征/>、/>再次作为初始特征输入十字交叉时间注意力模块获取特征/>、/>;
对特征、/>简单的绝对值求差获取精化多尺度变化特征图。
5.根据权利要求1所述的基于十字交叉注意力的高分辨率遥感影像变化检测方法,其特征在于,所述金字塔池化模块包括3个尺度的卷积层、批标准化层、修正线性单元,将这三层相连形成ConvBNReLU模块;
对输入的精化多尺度变化特征图分别经过ConvBNReLU模块,然后采用双线性插值进行上采样,来获得金字塔模块前相同尺寸的特征图,并在通道上进行拼接;之后再经过一个ConvBNReLU模块获得形状为(N,2,W,H)的特征,经过argmax函数后输出变化检测二值分割图。
6.一种基于十字交叉注意力的高分辨率遥感影像变化检测的装置,包括处理器和存储有程序指令的存储器,其特征在于,所述处理器被配置为在运行所述程序指令时,执行如权利要求1至5任一项所述的基于十字交叉注意力的高分辨率遥感影像变化检测方法。
7.一种存储介质,存储有程序指令,其特征在于,所述程序指令在运行时,执行如权利要求1至5任一项所述的基于十字交叉注意力的高分辨率遥感影像变化检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310934058.2A CN116665065B (zh) | 2023-07-28 | 2023-07-28 | 基于十字交叉注意力的高分辨率遥感影像变化检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310934058.2A CN116665065B (zh) | 2023-07-28 | 2023-07-28 | 基于十字交叉注意力的高分辨率遥感影像变化检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116665065A CN116665065A (zh) | 2023-08-29 |
CN116665065B true CN116665065B (zh) | 2023-10-17 |
Family
ID=87720914
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310934058.2A Active CN116665065B (zh) | 2023-07-28 | 2023-07-28 | 基于十字交叉注意力的高分辨率遥感影像变化检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116665065B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117372879B (zh) * | 2023-12-07 | 2024-03-26 | 山东建筑大学 | 基于自监督增强的轻量级遥感影像变化检测方法和*** |
CN117522884B (zh) * | 2024-01-05 | 2024-05-17 | 武汉理工大学三亚科教创新园 | 一种海洋遥感图像语义分割方法、装置及电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112183360A (zh) * | 2020-09-29 | 2021-01-05 | 上海交通大学 | 高分辨率遥感影像的轻量化语义分割方法 |
CN113706482A (zh) * | 2021-08-16 | 2021-11-26 | 武汉大学 | 一种高分辨率遥感影像变化检测方法 |
CN114049335A (zh) * | 2021-11-18 | 2022-02-15 | 感知天下(北京)信息科技有限公司 | 一种基于时空注意力的遥感影像变化检测方法 |
US11482048B1 (en) * | 2022-05-10 | 2022-10-25 | INSEER Inc. | Methods and apparatus for human pose estimation from images using dynamic multi-headed convolutional attention |
CN115471467A (zh) * | 2022-08-31 | 2022-12-13 | 核工业北京地质研究院 | 一种高分辨率光学遥感影像建筑物变化检测方法 |
CN116166642A (zh) * | 2022-11-29 | 2023-05-26 | 北京航空航天大学 | 基于引导信息的时空数据填补方法、***、设备及介质 |
CN116187561A (zh) * | 2022-04-13 | 2023-05-30 | 北京工业大学 | 一种基于空间时域卷积网络的pm10浓度精细化预测方法 |
-
2023
- 2023-07-28 CN CN202310934058.2A patent/CN116665065B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112183360A (zh) * | 2020-09-29 | 2021-01-05 | 上海交通大学 | 高分辨率遥感影像的轻量化语义分割方法 |
CN113706482A (zh) * | 2021-08-16 | 2021-11-26 | 武汉大学 | 一种高分辨率遥感影像变化检测方法 |
CN114049335A (zh) * | 2021-11-18 | 2022-02-15 | 感知天下(北京)信息科技有限公司 | 一种基于时空注意力的遥感影像变化检测方法 |
CN116187561A (zh) * | 2022-04-13 | 2023-05-30 | 北京工业大学 | 一种基于空间时域卷积网络的pm10浓度精细化预测方法 |
US11482048B1 (en) * | 2022-05-10 | 2022-10-25 | INSEER Inc. | Methods and apparatus for human pose estimation from images using dynamic multi-headed convolutional attention |
CN115471467A (zh) * | 2022-08-31 | 2022-12-13 | 核工业北京地质研究院 | 一种高分辨率光学遥感影像建筑物变化检测方法 |
CN116166642A (zh) * | 2022-11-29 | 2023-05-26 | 北京航空航天大学 | 基于引导信息的时空数据填补方法、***、设备及介质 |
Non-Patent Citations (3)
Title |
---|
A Spatial-Temporal Attention-Based Method and a New Dataset for Remote Sensing Image Change Detection;Hao Chen等;《Remote Sensing》;第12卷(第10期);全文 * |
基于双注意力机制的遥感图像目标检测;周幸;陈立福;;计算机与现代化(第08期);全文 * |
基于深度编-解码结构的高分辨遥感影像变化检测研究;余江南;《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116665065A (zh) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhao et al. | Discrete cosine transform network for guided depth map super-resolution | |
Yang et al. | Lego: Learning edge with geometry all at once by watching videos | |
Fan et al. | Balanced two-stage residual networks for image super-resolution | |
CN116665065B (zh) | 基于十字交叉注意力的高分辨率遥感影像变化检测方法 | |
Shah et al. | Stacked U-Nets: a no-frills approach to natural image segmentation | |
Li et al. | Single-image super-resolution for remote sensing images using a deep generative adversarial network with local and global attention mechanisms | |
Zhao et al. | A deep cascade of neural networks for image inpainting, deblurring and denoising | |
Zhang et al. | An unsupervised remote sensing single-image super-resolution method based on generative adversarial network | |
Khan et al. | An encoder–decoder deep learning framework for building footprints extraction from aerial imagery | |
Ye et al. | Efficient point cloud segmentation with geometry-aware sparse networks | |
He et al. | Degradation-resistant unfolding network for heterogeneous image fusion | |
Duan et al. | Research on the natural image super-resolution reconstruction algorithm based on compressive perception theory and deep learning model | |
Xu et al. | Haar wavelet downsampling: A simple but effective downsampling module for semantic segmentation | |
Xu et al. | Efficient image super-resolution integration | |
Zhou et al. | Adaptive weighted locality-constrained sparse coding for glaucoma diagnosis | |
CN117372879B (zh) | 基于自监督增强的轻量级遥感影像变化检测方法和*** | |
Shao et al. | Generative image inpainting with salient prior and relative total variation | |
Zhou et al. | A superior image inpainting scheme using Transformer-based self-supervised attention GAN model | |
Afzal et al. | Discriminative feature abstraction by deep L2 hypersphere embedding for 3D mesh CNNs | |
Zhou et al. | Msra-sr: Image super-resolution transformer with multi-scale shared representation acquisition | |
Qiao et al. | Depth super-resolution from explicit and implicit high-frequency features | |
Pu et al. | Hyperspectral image classification with localized spectral filtering-based graph attention network | |
Guo et al. | Udtiri: An open-source road pothole detection benchmark suite | |
CN114782336A (zh) | 基于图卷积神经网络的纤维束取向分布的预测方法和装置 | |
Ahn et al. | Multi-branch neural architecture search for lightweight image super-resolution |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |