CN116452936A - 融合光学和sar影像多模态信息的旋转目标检测方法 - Google Patents
融合光学和sar影像多模态信息的旋转目标检测方法 Download PDFInfo
- Publication number
- CN116452936A CN116452936A CN202310446031.9A CN202310446031A CN116452936A CN 116452936 A CN116452936 A CN 116452936A CN 202310446031 A CN202310446031 A CN 202310446031A CN 116452936 A CN116452936 A CN 116452936A
- Authority
- CN
- China
- Prior art keywords
- output
- convolution
- feature
- image
- sar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 77
- 230000003287 optical effect Effects 0.000 claims abstract description 92
- 238000000034 method Methods 0.000 claims abstract description 45
- 230000004927 fusion Effects 0.000 claims abstract description 26
- 238000000605 extraction Methods 0.000 claims abstract description 19
- 238000005070 sampling Methods 0.000 claims description 78
- 238000010586 diagram Methods 0.000 claims description 37
- 238000011176 pooling Methods 0.000 claims description 30
- 230000007246 mechanism Effects 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 20
- 238000012360 testing method Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 230000002787 reinforcement Effects 0.000 claims description 6
- 238000002360 preparation method Methods 0.000 claims description 4
- 238000012800 visualization Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 abstract description 3
- 239000003086 colorant Substances 0.000 abstract description 3
- 238000005286 illumination Methods 0.000 abstract 1
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及融合光学和SAR影像多模态信息的旋转目标检测方法,该方法相较于现有技术能够有效地解决由于遥感图像采集和传输过程中受到各种干扰导致目标无法精确识别的问题,同时该方法也能够应对不同类别目标具有不同的形状、大小、颜色等特征,或是存在重叠、遮挡等问题。本发明包括以下步骤:SAR影像数据集和光学影像数据集的特征提取;跨模态多尺度特征融合;两阶段旋转预测头定位和分类不同角度的目标。本发明可以有效解决因天气、光照、物体颜色等单一模态目标无法精确检测目标的问题,以及旋转框定位目标精度不高等问题,从而提高目标检测的准确率和效率。
Description
技术领域
本发明涉及遥感影像目标检测领域,具体来说是一种融合光学和SAR影像多模态信息的旋转目标检测方法。
背景技术
遥感图像目标检测是一种利用遥感图像数据进行目标识别和定位的技术,其在许多领域中具有重要的应用价值,如城市规划、农业资源管理和环境监测等。然而,因遥感图像的采集和传输过程中可能受到各种干扰,以及不同的目标类别具有不同的形状、大小、颜色等特征,也可能存在重叠、遮挡等情况而导致目标无法精准识别的缺陷。而跨模态遥感目标检测则是指在不同的遥感图像模态之间进行目标检测和识别的技术,它不仅可以提高遥感图像目标检测的准确性和鲁棒性,还可以扩展遥感图像目标检测的应用范围和场景。
跨模态遥感目标检测是一种利用多源遥感数据进行信息融合的技术,通过将来自不同传感器或不同波段的遥感图像相互结合,获得更全面、更准确的目标信息。跨模态遥感图像相较于单模态遥感图像具有更多的波段和特征信息,可以在目标检测和分类方面提供更好的结果。在单模态遥感图像中,由于传感器所采集到的数据只能提供特定波段的信息,因此对于一些复杂目标的检测和分类任务来说,其表现可能并不理想。而跨模态遥感图像则可以通过利用多种波段和特征信息,有效地提高目标检测和分类的准确度和鲁棒性。
遥感目标检测通常需要在高精度和高效率之间进行权衡。精确的目标检测要求检测结果的位置和形状精度高,能够准确地表示目标的位置、形态和尺寸等信息。然而单模态目标检测受遥感数据质量、数据标注和目标类别等影响,容易无法很精确的进行识别,从而限制后续应用。本发明利用同一目标多个模态图像提取特征,利用不同模态特征的不同,使融合后的特征图具备更多的特征信息,从而使后续的二阶段旋转头可以更准确的对目标进行定位分类。目前国内仍缺少对融合光学和SAR多模态影像的旋转目标检测方法的论文和专利。
发明内容
本发明的目的是为了解决单模态遥感目标检测受数据采集、传输等方式产生的误差而导致目标检测不精确的问题,提供融合光学和SAR影像多模态信息的旋转目标检测方法来解决上述问题。
为了实现上述目的,本发明的技术方案如下:
一种融合光学和SAR影像多模态信息的旋转目标检测方法,包括以下步骤:
11)融合光学和SAR影像多模态信息的旋转目标检测数据准备和特征提取:对获取的遥感影像数据集进行划分裁剪;构建基于编码器和解码器结构的transformer-UNet网络对遥感数据进行特征提取;
12)建立多模态多尺度特征融合模块:构建一个多模态特征融合的框架,使用差分增强模块和公共选择模块提取多模态的差异特征和相同特征,融合成多模态特征图;
13)建立二阶段旋转预测头模块:构建一个二阶段预测头模块,在第一阶段分类与定位的基础上进行二次精调;
14)利用划分好的训练集及其对应的标签对所建立的融合光学和SAR影像多模态信息的旋转目标检测网络进行相应的训练并调整参数,直到训练达到预设的epoch,最后保留相应的参数与训练好的网络;
15)利用步骤14)得到的训练好的融合光学和SAR影像多模态信息的旋转目标检测网络,将预处理过的测试数据集输入加载好的模型进行预测,通过可视化将目标预测框和目标类别标在原图上。
所述融合光学和SAR影像多模态信息的旋转目标检测数据准备和特征提取包括以下步骤:
21)将数据集按6:2:2比例划分为训练集、验证集和测试集,尺寸不重叠的统一裁剪大小为256*256;
22)构建并行的编码器解码器transformer-UNet网络AB,其中网络A处理光学遥感图像,网络B处理SAR遥感图像;
221)构建DoubleConv双层卷积模块,该模块结构包含两个卷积层,两个个归一化层和,两个ReLU激活函数;每个卷积层结构为kernel size为3,padding为1,stride为1;
222)构建用于特征提取的下采样结构,其结构包括一个DoubleConv双层卷积模块,一个最大池化层;
223)构建用于连接上采样和下采样阶段的特征图的Bottleneck层,Bottleneck层结构包括两个kernel size为1,stride为1的卷积层,一个kernel size为3,stride为1的卷积层;
224)构建用于特征提取的上采样结构,其结构包括ConvLSTM层,一个卷积层;ConvLSTM单元包括输入门、遗忘门和输出门,kernel_size是(3,3),strides是(2,2);
23)其中融合光学和SAR影像多模态信息的旋转目标检测特征提取的具体步骤如下:
231)将预处理后的光学遥感图像,SAR遥感图像以及标签数据输入卷积神经网络中,训练一个有自注意力机制的下采样特征提取模型,具体步骤如下:
232)执行一次卷积核大小为1x1的普通卷积层,将光学遥感图像转换为VOPT、QOPT、KOPT三通道特征;将SAR遥感图像转换为VSAR、QSAR、KSAR三通道特征;执行一次编码器结构,得到4个下采样输出;
对输入图片执行一个卷积核大小为3×3的普通卷积,一个实例归一化一个ReLu,一个stride为1的最大池化操作,得到第一个下采样输出;
对第一个下采样输出执行一次卷积核大小为3×3的普通卷积,一个实例归一化一个ReLu,一个stride为1的最大池化操作,得到第二个下采样输出;
对第二个下采样输出执行一次卷积核大小为3×3的普通卷积,一个实例归一化一个ReLu,一个stride为1的最大池化操作,得到第三个下采样输出;
对第三个下采样输出执行一次卷积核大小为3×3的普通卷积,一个实例归一化一个ReLu,一个stride为1的最大池化操作,得到第四个下采样输出;
B3)在第一个下采样输出,第二个下采样输出,第三个下采样输出之后执行自注意机制模块以及互相关模块,具体步骤如下:
执行一次卷积核大小为1x1的卷积,将光学遥感图像转换为VOPT、QOPT、KOPT三通道特征矩阵;将SAR遥感图像转换为VSAR、QSAR、KSAR三通道特征矩阵;
将QOPT转置与KOPT点积相乘,结果进行softmax,与VOPT点积相乘后与原始特征图进行加权求和,得到光学影像自注意力机制特征图;SAR影像自注意力机制特征图过程同上;
自注意力机制特征图提取支持特征图像和查询特征图像,对图像进行reshape,利用余弦距离生成二者之间的联系,通过全局平均池化以及一个包含2个卷积层,一个RELU层的非线性网络,得到对应权重,经过点积相乘,归一化之后,得到特征的相互关系;SAR遥感影像互相关模块与光学遥感影像互相关模块相同;
24)构建用于连接上采样和下采样阶段的特征图的Bottleneck层,Bottleneck层由三个卷积层组成:
第一个卷积层的卷积核大小为1x1,用于降维,将输入的通道数降低,减少模型参数数量;
第二个卷积层的卷积核大小为3x3,用于卷积特征图,进行特征提取;
第三个卷积层的卷积核大小为1x1,用于升维,将卷积后的特征图的通道数增加,增加模型的表达能力;
25)构建上采样convLSTM,具体步骤如下:
对第四个下采样输出进行反卷积操作(又称转置卷积),使其上采样为原始图像的1/8大小(对于4倍下采样的情况,即4倍上采样),得到上采样输出1;
对上采样输出1和第三个下采样输出进行拼接操作,得到合并输出1;
对合并输出1执行一次卷积核大小为3×3的普通卷积,一个实例归一化一个LeakyReLu,得到卷积输出1;
对卷积输出1进行ConvLSTM操作,得到LSTM输出1;
对LSTM输出1进行一次卷积核大小为3×3的普通卷积,一个实例归一化一个LeakyReLu,得到卷积输出2;
对卷积输出2进行反卷积操作,使其上采样为原始图像的1/4大小(对于4倍下采样的情况,即2倍上采样),得到上采样输出2;
对上采样输出2和第二个下采样输出进行拼接操作,得到合并输出2;
对合并输出2执行一次卷积核大小为3×3的普通卷积,一个实例归一化一个LeakyReLu,得到卷积输出3;
对卷积输出3进行ConvLSTM操作,得到LSTM输出2;
对LSTM输出2进行一次卷积核大小为3×3的普通卷积,一个实例归一化一个LeakyReLu,得到卷积输出4;
对卷积输出4进行反卷积操作,使其上采样为原始图像的1/2大小(对于4倍下采样的情况,即2倍上采样),得到上采样输出3;
对上采样输出3和第一个下采样输出进行拼接操作,得到合并输出3;
对合并输出3执行一次卷积核大小为3×3的普通卷积,一个实例归一化一个LeakyReLu,得到卷积输出5;
对卷积输出5进行ConvLSTM操作,得到LSTM输出3;
对LSTM输出3进行一次卷积核大小为3×3的普通卷积,一个实例归一化一个LeakyReLu,得到最终的上采样输出。
所述融合光学和SAR影像多模态信息的旋转目标检测多模态特征融合模块包括以下步骤:
31)构建用于光学遥感图像和SAR遥感图像多模态特征融合框架,该框架包括差分增强模块和公共选择模块;
311)差分增强模块具体步骤如下:
对提取的光学图像特征和SAR图像特征进行差值运算,得到差异部分的特征图;
通过沙漏型1*1卷积,计算注意力权重,得到分别的注意力图;
将得到的注意力图,通过残差的方式加到原本的特征图上,得到加强的特征图;
将光学遥感图像和SAR遥感图像的加强特征图进行加权求和,得到差分增强特征图;
312)公共选择模块具体步骤如下:
对提取的光学图像特征和SAR图像特征进行相加运算,得到公共部分的特征图;
将得到的公共部分的特征图,通过softmax的方式得到光学遥感图像的注意力图和SAR遥感图像的注意力图;
分别将光学遥感图像的注意力图和SAR遥感图像的注意力图和他们的输入特征图相乘,得到各自新的特征图;
将光学遥感图像和SAR遥感图像的新特征图进行加权求和,得到公共模块特征图。
所述融合光学和SAR影像多模态信息的旋转目标检测二阶段旋转预测头网络包括以下步骤:
41)构建特征金字塔结果来实现特征拼接,给head作为输入,具体步骤如下:
411)输入4个不同尺寸的特征图,将最高层的特征图经过一个C3+conv得到一组与下一层特征图同样大小的特征图,将其和下一层的特征图拼接在一起,再经过一个C3+conv得到一组新的特征图,重复这一过程直到到达最底层;
412)对于最底层的特征图,将其输出到各个head,同时将其和上一层输出的信息拼接在一起,经过一个C3+conv作为新的输出,同时作为下一层的输入,与上一层经过一个C3+conv输出的信息再次进行拼接,经过一个C3+conv作为新的输出,重复这一过程直到到达最高层;
42)构建遥感目标检测旋转框,通过两阶段来实现目标定位,具体步骤如下:
421)第一阶段锚点优化模块(ARM)使用自适应训练样本选择(ATSS)策略来调整水平锚点为高质量的旋转锚点,步骤如下:
对于输入的特征图像,提取出所有水平的锚点,并将这些锚点视为第一阶段的候选样本;
计算每个候选样本和所有真实目标之间的中心点距离和目标大小之间的比例,根据这两个因素的综合考虑,将所有候选样本分为正样本和负样本两类;
对于正样本,以其对应的真实目标为中心,生成一组高质量的旋转锚点作为第一阶段的正样本;
422)经过第一阶段的调整后,ARM得到了一组旋转锚点作为第二阶段的候选样本,这些候选样本会被输入目标检测网络进行分类和回归,并根据其预测结果和真实目标的IoU进行筛选,最终选择IoU最大的样本作为正样本进行调整,具体步骤如下:
将第一阶段得到的旋转锚点输入目标检测网络,得到检测结果;
根据检测结果计算每个旋转锚点与其对应的真实目标的IoU值,并选择IoU值最大的正样本作为第二阶段的正样本;
将第二阶段得到的正样本作为输入的正样本,然后再次通过目标检测网络进行分类和回归,以进一步提高检测的准确率。
所述所述网络模型训练与结果获取步骤如下:
51)将预处理后的遥感影像数据输入融合光学和SAR影像多模态信息的旋转目标检测网络中;
52)执行一次卷积核大小为1x1的普通卷积层,将光学遥感图像转换为VOPT、QOPT、KOPT三通道特征;将SAR遥感图像转换为VSAR、QSAR、KSAR三通道特征执行一次编码器结构,得到4个下采样输出;
对输入图片执行一个卷积核大小为3×3的普通卷积,一个实例归一化一个ReLu,一个stride为1的最大池化操作,得到第一个下采样输出;
对第一个下采样输出执行一次卷积核大小为3×3的普通卷积,一个实例归一化一个ReLu,一个stride为1的最大池化操作,得到第二个下采样输出;
对第二个下采样输出执行一次卷积核大小为3×3的普通卷积,一个实例归一化一个ReLu,一个stride为1的最大池化操作,得到第三个下采样输出;
对第三个下采样输出执行一次卷积核大小为3×3的普通卷积,一个实例归一化一个ReLu,一个stride为1的最大池化操作,得到第四个下采样输出;
53)在第一个下采样输出,第二个下采样输出,第三个下采样输出之后执行自注意机制模块以及互相关模块;
54)对第四个下采样输出进行反卷积操作,使其上采样为原始图像的1/8大小(对于4倍下采样的情况,即4倍上采样),得到上采样输出1;
对上采样输出1和第三个下采样输出进行拼接操作,得到合并输出1;
对合并输出1执行一次卷积核大小为3×3的普通卷积,一个实例归一化一个LeakyReLu,得到卷积输出1;
对卷积输出1进行ConvLSTM操作,得到LSTM输出1;
对LSTM输出1进行一次卷积核大小为3×3的普通卷积,一个实例归一化一个LeakyReLu,得到卷积输出2;
对卷积输出2进行反卷积操作,使其上采样为原始图像的1/4大小(对于4倍下采样的情况,即2倍上采样),得到上采样输出2;
对上采样输出2和第二个下采样输出进行拼接操作,得到合并输出2;
对合并输出2执行一次卷积核大小为3×3的普通卷积,一个实例归一化一个LeakyReLu,得到卷积输出3;
对卷积输出3进行ConvLSTM操作,得到LSTM输出2;
对LSTM输出2进行一次卷积核大小为3×3的普通卷积,一个实例归一化一个LeakyReLu,得到卷积输出4;
对卷积输出4进行反卷积操作,使其上采样为原始图像的1/2大小(对于4倍下采样的情况,即2倍上采样),得到上采样输出3;
对上采样输出3和第一个下采样输出进行拼接操作,得到合并输出3;
对合并输出3执行一次卷积核大小为3×3的普通卷积,一个实例归一化一个LeakyReLu,得到卷积输出5;
对卷积输出5进行ConvLSTM操作,得到LSTM输出3;
对LSTM输出3进行一次卷积核大小为3×3的普通卷积,一个实例归一化一个LeakyReLu,得到最终的上采样输出;
55)将两种模态提取出来的多模态多尺度特征图输入跨模态特征融合模块;
56)差分增强模块通过差值运算得到光学图像和SAR图像的差异部分特征图,并通过注意力权重加强原特征图得到增强的特征图,进行加权求和得到差分增强特征图;
57)公共选择模块通过相加运算得到光学图像和SAR图像的公共部分特征图,再通过softmax得到注意力图,将注意力图相乘到原特征图上得到新特征图;
58)差分增强特征图和公共选择特征图进行加权求和得到跨模态特征图;
59)将4个不同尺寸的特征图进行特征拼接:最高层的特征图经过一个C3+conv得到一组与下一层特征图同样大小的特征图,将其和下一层的特征图拼接在一起,再经过一个C3+conv得到一组新的特征图,重复这一过程直到到达最底层;
510)对于最底层的特征图,将其输出到各个head,同时将其和上一层输出的信息拼接在一起,经过一个C3+conv作为新的输出,同时作为下一层的输入,与上一层经过一个C3+conv输出的信息再次进行拼接,经过一个C3+conv作为新的输出,重复这一过程直到到达最高层;
511)将特征图输入预测头,第一阶段ARM模块使用ATSS策略来调整水平锚点为高质量的旋转锚点;
512)经过第一阶段的调整后,ARM得到了一组旋转锚点作为第二阶段的候选样本,输入目标检测网络进行分类和回归,并根据其预测结果和真实目标的IoU进行筛选,选择IoU最大的样本作为正样本进行调整;
513)计算损失函数,对权重参数进行反向传播;
514)判断是否达到设定的轮数,是则得到训练好的分割模型,否则返回52)步重新加载数据继续训练;
515)利用得到的训练好的融合光学和SAR影像多模态信息的旋转目标检测网络,将预处理过的测试数据集输入加载好的模型进行预测,通过可视化将目标预测框和目标类别标在原图。
有益效果
本发明一种融合光学和SAR影像多模态信息的旋转目标检测方法,与现有技术相比通过融合光学和SAR影像多模态信息的旋转目标检测方法中,先让得到的光学遥感图像和SAR遥感图像经过带有注意力机制和互相关机制的下采样网络,能够获取良好的局部特征和全局结构信息,通过上采样ConvLSTM,使特征能够更好地捕捉不同位置和时间点之间的关系和交互,通过跨模态特征融合,使两种模态提取出来的特征进行不同模态的融合,提高了特征的表达能力和鲁棒性,使模型适用于更加复杂和多变的应用场景,融合好的多尺度特征图通过两阶段旋转框,使目标定位和分类更加精确。此外,在遥感图像目标检测中,由于遥感图像采集和传输过程中受到各种干扰导致目标无法精确识别的问题,同时也存在不同类别目标具有不同的形状、大小、颜色等特征,或是重叠、遮挡等问题。本发明提供的方法使不同模态的遥感图像可以跨模态进行特征融合,使目标在检测时有更多特征被检测到,大大提高了定位和分类的精度。
附图说明
图1为融合光学和SAR影像多模态信息的旋转目标检测方法顺序图;
图2为融合光学和SAR影像多模态信息的旋转目标检测方法模型结构的示意图;
图3为融合光学和SAR影像多模态信息的旋转目标检测特征提取自注意力机制模块的示意图;
图4为融合光学和SAR影像多模态信息的旋转目标检测特征提取互相关模块的示意图;
图5为融合光学和SAR影像多模态信息的旋转目标检测特征融合结构的示意图;
图6为融合光学和SAR影像多模态信息的旋转目标检测特征融合差分增强模块结构的示意图;
图7为融合光学和SAR影像多模态信息的旋转目标检测特征融合公共选择模块结构的示意图;
图8为融合光学和SAR影像多模态信息的旋转目标检测二阶段旋转框结构的示意图;
图9为融合光学和SAR影像多模态信息的旋转目标检测网络结果示意图。
具体实施方式
为使对本发明的结构特征及所达成的功效有更进一步的了解与认识,用以较佳的实施例及附图配合详细的说明,说明如下:
如图1所示,本发明所述的一种融合光学和SAR影像多模态信息的旋转目标检测方法,包括以下步骤:
第一步,融合光学和SAR影像多模态信息的旋转目标检测数据准备和特征提取:对获取的遥感影像数据集进行划分裁剪;构建基于编码器和解码器结构的transformer-UNet网络对遥感数据进行特征提取。其具体步骤如下:
(1)将数据集按6:2:2比例划分为训练集、验证集和测试集,尺寸不重叠的统一裁剪大小为256*256;
(2)构建并行的编码器和解码器结构transformer-UNet,其中,网络A处理光学遥感图像,网络B处理SAR遥感图像;
(2-1)构建DoubleConv双层卷积模块,该模块结构包含两个卷积层,两个个归一化层和,两个ReLU激活函数;每个卷积层结构为kernel size为3,padding为1,stride为1;
(2-2)构建用于特征提取的下采样结构,其结构包括一个DoubleConv双层卷积模块,一个最大池化层;
(2-3)构建用于连接上采样和下采样阶段的特征图的Bottleneck层,Bottleneck层结构包括两个kernel size为1,stride为1的卷积层,一个kernel size为3,stride为1的卷积层,
(2-4)构建用于特征提取的上采样结构,其结构包括ConvLSTM层,一个卷积层;ConvLSTM单元包括输入门、遗忘门和输出门,kernel_size是(3,3),strides是(2,2);
(3)其中融合光学和SAR影像多模态信息的旋转目标检测特征提取的具体步骤如下:
(3-1)将预处理后的光学遥感图像,SAR遥感图像以及标签数据输入卷积神经网络中,训练一个有自注意力机制的下采样特征提取模型,具体步骤如下:
(3-2)执行一次卷积核大小为1x1的普通卷积层,将光学遥感图像转换为VOPT、QOPT、KOPT三通道特征;将SAR遥感图像转换为VSAR、QSAR、KSAR三通道特征;执行一次编码器结构,得到4个下采样输出;
对输入图片执行一个卷积核大小为3×3的普通卷积,一个实例归一化一个ReLu,一个stride为1的最大池化操作,得到第一个下采样输出;
对第一个下采样输出执行一次卷积核大小为3×3的普通卷积,一个实例归一化一个ReLu,一个stride为1的最大池化操作,得到第二个下采样输出;
对第二个下采样输出执行一次卷积核大小为3×3的普通卷积,一个实例归一化一个ReLu,一个stride为1的最大池化操作,得到第三个下采样输出;
对第三个下采样输出执行一次卷积核大小为3×3的普通卷积,一个实例归一化一个ReLu,一个stride为1的最大池化操作,得到第四个下采样输出;
(3-3)在第一个下采样输出,第二个下采样输出,第三个下采样输出之后执行自注意机制模块以及互相关模块,具体步骤如下:
执行一次卷积核大小为1x1的卷积,将光学遥感图像转换为VOPT、QOPT、KOPT三通道特征矩阵;将SAR遥感图像转换为VSAR、QSAR、KSAR三通道特征矩阵;
将QOPT转置与KOPT点积相乘,结果进行softmax,与VOPT点积相乘后与原始特征图进行加权求和,得到光学影像自注意力机制特征图;SAR影像自注意力机制特征图过程同上;
自注意力机制特征图提取支持特征图像和查询特征图像,对图像进行reshape,利用余弦距离生成二者之间的联系,通过全局平均池化以及一个包含2个卷积层,一个RELU层的非线性网络,得到对应权重,经过点积相乘,归一化之后,得到特征的相互关系;SAR遥感影像互相关模块与光学遥感影像互相关模块相同;
(4)构建用于连接上采样和下采样阶段的特征图的Bottleneck层,Bottleneck层由三个卷积层组成:
第一个卷积层的卷积核大小为1x1,用于降维,将输入的通道数降低,减少模型参数数量;
第二个卷积层的卷积核大小为3x3,用于卷积特征图,进行特征提取;
第三个卷积层的卷积核大小为1x1,用于升维,将卷积后的特征图的通道数增加,增加模型的表达能力;
(5)构建上采样convLSTM,具体步骤如下:
对第四个下采样输出进行反卷积操作(又称转置卷积),使其上采样为原始图像的1/8大小(对于4倍下采样的情况,即4倍上采样),得到上采样输出1;
对上采样输出1和第三个下采样输出进行拼接操作,得到合并输出1;
对合并输出1执行一次卷积核大小为3×3的普通卷积,一个实例归一化一个LeakyReLu,得到卷积输出1;
对卷积输出1进行ConvLSTM操作,得到LSTM输出1;
对LSTM输出1进行一次卷积核大小为3×3的普通卷积,一个实例归一化一个LeakyReLu,得到卷积输出2;
对卷积输出2进行反卷积操作,使其上采样为原始图像的1/4大小(对于4倍下采样的情况,即2倍上采样),得到上采样输出2;
对上采样输出2和第二个下采样输出进行拼接操作,得到合并输出2;
对合并输出2执行一次卷积核大小为3×3的普通卷积,一个实例归一化一个LeakyReLu,得到卷积输出3;
对卷积输出3进行ConvLSTM操作,得到LSTM输出2;
对LSTM输出2进行一次卷积核大小为3×3的普通卷积,一个实例归一化一个LeakyReLu,得到卷积输出4;
对卷积输出4进行反卷积操作,使其上采样为原始图像的1/2大小(对于4倍下采样的情况,即2倍上采样),得到上采样输出3;
对上采样输出3和第一个下采样输出进行拼接操作,得到合并输出3;
对合并输出3执行一次卷积核大小为3×3的普通卷积,一个实例归一化一个LeakyReLu,得到卷积输出5;
对卷积输出5进行ConvLSTM操作,得到LSTM输出3;
对LSTM输出3进行一次卷积核大小为3×3的普通卷积,一个实例归一化一个LeakyReLu,得到最终的上采样输出;
第二步,构建一个多模态特征融合的框架,使用差分增强模块和公共选择模块提取多模态的差异特征和相同特征,融合成多模态特征图。其具体步骤如下:
(1)构建用于光学遥感图像和SAR遥感图像多模态特征融合框架,该框架包括差分增强模块和公共选择模块;
(1-1)构建用于差分增强模块结构,对提取的光学图像特征和SAR图像特征进行差值运算,得到差异部分的特征图;
通过沙漏型1*1卷积,计算注意力权重,得到分别的注意力图;
将得到的注意力图,通过残差的方式加到原本的特征图上,得到加强的特征图;
将光学遥感图像和SAR遥感图像的加强特征图进行加权求和,得到差分增强特征图;
(1-2)构建用于公共选择模块结构,对提取的光学图像特征和SAR图像特征进行相加运算,得到公共部分的特征图;
将得到的公共部分的特征图,通过softmax的方式得到光学遥感图像的注意力图和SAR遥感图像的注意力图;
分别将光学遥感图像的注意力图和SAR遥感图像的注意力图和他们的输入特征图相乘,得到各自新的特征图;
将光学遥感图像和SAR遥感图像的新特征图进行加权求和,得到公共模块特征图。
第三步,建立二阶段旋转预测头模块:构建一个二阶段预测头模块,在第一阶段分类与定位的基础上进行二次精调,其具体步骤如下:
(1)第一阶段锚点优化模块(ARM)使用自适应训练样本选择(ATSS)策略来调整水平锚点为高质量的旋转锚点;
(2)经过第一阶段的调整后,ARM得到了一组旋转锚点作为第二阶段的候选样本,这些候选样本会被输入目标检测网络进行分类和回归,并根据其预测结果和真实目标的IoU进行筛选,最终选择IoU最大的样本作为正样本进行调整。
第四步,训练融合光学和SAR影像多模态信息的旋转目标检测模型:
构建一种融合光学和SAR影像多模态信息的旋转目标检测模模型,将处理好的遥感数据影像以及标签输入到融合光学和SAR影像多模态信息的旋转目标检测模型中,得到训练好的目标检测网络模型,其训练流程如图1所示,其目标检测网络结构图如图2所示,基于transformer-Unet结构的自注意力特征提取,如图5所示的多模态特征融合,得到特征信息更丰富的特征图使目标在检测时有更多特征被检测到,如图8所示的二阶段旋转预测头大大提高了定位和分类的精度。
其具体步骤如下:
51)将预处理后的遥感影像数据输入融合光学和SAR影像多模态信息的旋转目标检测网络中;
52)执行一次卷积核大小为1x1的普通卷积层,将光学遥感图像转换为VOPT、QOPT、KOPT三通道特征;将SAR遥感图像转换为VSAR、QSAR、KSAR三通道特征执行一次编码器结构,得到4个下采样输出;
对输入图片执行一个卷积核大小为3×3的普通卷积,一个实例归一化一个ReLu,一个stride为1的最大池化操作,得到第一个下采样输出;
对第一个下采样输出执行一次卷积核大小为3×3的普通卷积,一个实例归一化一个ReLu,一个stride为1的最大池化操作,得到第二个下采样输出;
对第二个下采样输出执行一次卷积核大小为3×3的普通卷积,一个实例归一化一个ReLu,一个stride为1的最大池化操作,得到第三个下采样输出;
对第三个下采样输出执行一次卷积核大小为3×3的普通卷积,一个实例归一化一个ReLu,一个stride为1的最大池化操作,得到第四个下采样输出;
53)在第一个下采样输出,第二个下采样输出,第三个下采样输出之后执行自注意机制模块以及互相关模块;
54)对第四个下采样输出进行反卷积操作,使其上采样为原始图像的1/8大小(对于4倍下采样的情况,即4倍上采样),得到上采样输出1;
对上采样输出1和第三个下采样输出进行拼接操作,得到合并输出1;
对合并输出1执行一次卷积核大小为3×3的普通卷积,一个实例归一化一个LeakyReLu,得到卷积输出1;
对卷积输出1进行ConvLSTM操作,得到LSTM输出1;
对LSTM输出1进行一次卷积核大小为3×3的普通卷积,一个实例归一化一个LeakyReLu,得到卷积输出2;
对卷积输出2进行反卷积操作,使其上采样为原始图像的1/4大小(对于4倍下采样的情况,即2倍上采样),得到上采样输出2;
对上采样输出2和第二个下采样输出进行拼接操作,得到合并输出2;
对合并输出2执行一次卷积核大小为3×3的普通卷积,一个实例归一化一个LeakyReLu,得到卷积输出3;
对卷积输出3进行ConvLSTM操作,得到LSTM输出2;
对LSTM输出2进行一次卷积核大小为3×3的普通卷积,一个实例归一化一个LeakyReLu,得到卷积输出4;
对卷积输出4进行反卷积操作,使其上采样为原始图像的1/2大小(对于4倍下采样的情况,即2倍上采样),得到上采样输出3;
对上采样输出3和第一个下采样输出进行拼接操作,得到合并输出3;
对合并输出3执行一次卷积核大小为3×3的普通卷积,一个实例归一化一个LeakyReLu,得到卷积输出5;
对卷积输出5进行ConvLSTM操作,得到LSTM输出3;
对LSTM输出3进行一次卷积核大小为3×3的普通卷积,一个实例归一化一个LeakyReLu,得到最终的上采样输出;
55)将两种模态提取出来的多模态多尺度特征图输入跨模态特征融合模块;
56)差分增强模块通过差值运算得到光学图像和SAR图像的差异部分特征图,并通过注意力权重加强原特征图得到增强的特征图,进行加权求和得到差分增强特征图;
57)公共选择模块通过相加运算得到光学图像和SAR图像的公共部分特征图,再通过softmax得到注意力图,将注意力图相乘到原特征图上得到新特征图;
58)差分增强特征图和公共选择特征图进行加权求和得到跨模态特征图;
59)将4个不同尺寸的特征图进行特征拼接:最高层的特征图经过一个C3+conv得到一组与下一层特征图同样大小的特征图,将其和下一层的特征图拼接在一起,再经过一个C3+conv得到一组新的特征图,重复这一过程直到到达最底层;
510)对于最底层的特征图,将其输出到各个head,同时将其和上一层输出的信息拼接在一起,经过一个C3+conv作为新的输出,同时作为下一层的输入,与上一层经过一个C3+conv输出的信息再次进行拼接,经过一个C3+conv作为新的输出,重复这一过程直到到达最高层;
511)将特征图输入预测头,第一阶段ARM模块使用ATSS策略来调整水平锚点为高质量的旋转锚点;
512)经过第一阶段的调整后,ARM得到了一组旋转锚点作为第二阶段的候选样本,输入目标检测网络进行分类和回归,并根据其预测结果和真实目标的IoU进行筛选,选择IoU最大的样本作为正样本进行调整;
513)计算损失函数,对权重参数进行反向传播;
514)判断是否达到设定的轮数,是则得到训练好的分割模型,否则返回52)步重新加载数据继续训练。
第五步,融合光学和SAR影像多模态信息的旋转目标检测网络结果的获得:将预处理过的测试数据集输入加载好的模型进行预测,通过可视化将目标预测框和目标类别标在原图上。
如图9所示,其为融合光学和SAR影像多模态信息的旋转目标检测网络结果示意图,其中包括码头、汽车和船只从图9可以看出,所述方法可以很好的在影像中达到定位和分类目标的目的。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。
Claims (5)
1.一种融合光学和SAR影像多模态信息的旋转目标检测方法,其特征在于,包括以下步骤:
11)融合光学和SAR影像多模态信息的旋转目标检测数据准备和特征提取:对获取的遥感影像数据集进行划分裁剪;构建基于编码器和解码器结构的transformer-UNet网络对遥感数据进行特征提取;
12)建立多模态多尺度特征融合模块:构建一个多模态特征融合的框架,使用差分增强模块和公共选择模块提取多模态的差异特征和相同特征,融合成多模态特征图;
13)建立二阶段旋转预测头模块:构建一个二阶段预测头模块,在第一阶段分类与定位的基础上进行二次精调;
14)融合光学和SAR影像多模态信息的旋转目标检测网络模型训练与结果获取:利用划分好的训练集及其对应标签对所建立的网络模型进行训练并调整参数,直到训练达到预设的epoch,最后保留相应的参数与训练好的网络,对其他目标影像检测获取结果。
2.根据权利要求1所述的一种融合光学和SAR影像多模态信息的旋转目标检测方法,其特征在于,所述融合光学和SAR影像多模态信息的旋转目标检测数据准备和特征提取包括以下步骤:
21)将数据集按6:2:2比例划分为训练集、验证集和测试集,尺寸不重叠的统一裁剪大小为256*256;
22)构建并行的编码器和解码器结构transformer-UNet,其中,网络A处理光学遥感图像,网络B处理SAR遥感图像;
221)构建DoubleConv双层卷积模块,该模块结构包含两个卷积层,两个个归一化层和,两个ReLU激活函数;每个卷积层结构为kernel size为3,padding为1,stride为1;
222)构建用于特征提取的下采样结构,其结构包括一个DoubleConv双层卷积模块,一个最大池化层;
223)构建用于连接上采样和下采样阶段的特征图的Bottleneck层,Bottleneck层结构包括两个kernel size为1,stride为1的卷积层,一个kernel size为3,stride为1的卷积层;
224)构建用于特征提取的上采样结构,其结构包括ConvLSTM层,一个卷积层;ConvLSTM单元包括输入门、遗忘门和输出门,kernel_size是(3,3),strides是(2,2);
23)其中融合光学和SAR影像多模态信息的旋转目标检测特征提取的具体步骤如下:
231)将预处理后的光学遥感图像,SAR遥感图像以及标签数据输入卷积神经网络中,训练一个有自注意力机制的下采样特征提取模型,具体步骤如下:
232)执行一次卷积核大小为1x1的普通卷积层,将光学遥感图像转换为光学图像提供序列中每个元素的信息VOPT、光学图像提供序列中每个元素的权重QOPT、光学图像中用于计算Q和K之间的相似度KOPT三通道特征;将SAR遥感图像转换为SAR图像提供序列中每个元素的信息VSAR、SAR图像提供序列中每个元素的权重QSAR、SAR图像中用于计算Q和K之间的相似度KSAR三通道特征;执行一次编码器结构,得到4个下采样输出;
对输入图片执行一个卷积核大小为3×3的普通卷积,一个实例归一化一个ReLu,一个stride为1的最大池化操作,得到第一个下采样输出;
对第一个下采样输出执行一次卷积核大小为3×3的普通卷积,一个实例归一化一个ReLu,一个stride为1的最大池化操作,得到第二个下采样输出;
对第二个下采样输出执行一次卷积核大小为3×3的普通卷积,一个实例归一化一个ReLu,一个stride为1的最大池化操作,得到第三个下采样输出;
对第三个下采样输出执行一次卷积核大小为3×3的普通卷积,一个实例归一化一个ReLu,一个stride为1的最大池化操作,得到第四个下采样输出;
233)在第一个下采样输出,第二个下采样输出,第三个下采样输出之后执行自注意机制模块以及互相关模块,具体步骤如下:
执行一次卷积核大小为1x1的卷积,将光学遥感图像转换为VOPT、QOPT、KOPT三通道特征矩阵;将SAR遥感图像转换为VSAR、QSAR、KSAR三通道特征矩阵;
将QOPT转置与KOPT点积相乘,结果进行softmax,与VOPT点积相乘后与原始特征图进行加权求和,得到光学影像自注意力机制特征图;SAR影像自注意力机制特征图过程同上;
自注意力机制特征图提取支持特征图像和查询特征图像,对图像进行reshape,利用余弦距离生成二者之间的联系,通过全局平均池化以及一个包含2个卷积层,一个RELU层的非线性网络,得到对应权重,经过点积相乘,归一化之后,得到特征的相互关系;SAR遥感影像互相关模块与光学遥感影像互相关模块相同;
24)构建用于连接上采样和下采样阶段的特征图的Bottleneck层,Bottleneck层由三个卷积层组成:
第一个卷积层的卷积核大小为1x1,用于降维,将输入的通道数降低,减少模型参数数量;
第二个卷积层的卷积核大小为3x3,用于卷积特征图,进行特征提取;
第三个卷积层的卷积核大小为1x1,用于升维,将卷积后的特征图的通道数增加,增加模型的表达能力;
25)构建上采样convLSTM,具体步骤如下:
对第四个下采样输出进行反卷积操作(又称转置卷积),使其上采样为原始图像的1/8大小(对于4倍下采样的情况,即4倍上采样),得到上采样输出1;
对上采样输出1和第三个下采样输出进行拼接操作,得到合并输出1;
对合并输出1执行一次卷积核大小为3×3的普通卷积,一个实例归一化一个LeakyReLu,得到卷积输出1;
对卷积输出1进行ConvLSTM操作,得到LSTM输出1;
对LSTM输出1进行一次卷积核大小为3×3的普通卷积,一个实例归一化一个LeakyReLu,得到卷积输出2;
对卷积输出2进行反卷积操作,使其上采样为原始图像的1/4大小(对于4倍下采样的情况,即2倍上采样),得到上采样输出2;
对上采样输出2和第二个下采样输出进行拼接操作,得到合并输出2;
对合并输出2执行一次卷积核大小为3×3的普通卷积,一个实例归一化一个LeakyReLu,得到卷积输出3;
对卷积输出3进行ConvLSTM操作,得到LSTM输出2;
对LSTM输出2进行一次卷积核大小为3×3的普通卷积,一个实例归一化一个LeakyReLu,得到卷积输出4;
对卷积输出4进行反卷积操作,使其上采样为原始图像的1/2大小(对于4倍下采样的情况,即2倍上采样),得到上采样输出3;
对上采样输出3和第一个下采样输出进行拼接操作,得到合并输出3;
对合并输出3执行一次卷积核大小为3×3的普通卷积,一个实例归一化一个LeakyReLu,得到卷积输出5;
对卷积输出5进行ConvLSTM操作,得到LSTM输出3;
对LSTM输出3进行一次卷积核大小为3×3的普通卷积,一个实例归一化一个LeakyReLu,得到最终的上采样输出。
3.根据权利要求1所述的一种融合光学和SAR影像多模态信息的旋转目标检测方法,其特征在于,所述融合光学和SAR影像多模态信息的旋转目标检测多模态特征融合模块包括以下步骤:
31)构建用于光学遥感图像和SAR遥感图像多模态特征融合框架,该框架包括差分增强模块和公共选择模块;
311)差分增强模块具体步骤如下:
对提取的光学图像特征和SAR图像特征进行差值运算,得到差异部分的特征图;
通过沙漏型1*1卷积,计算注意力权重,得到分别的注意力图;
将得到的注意力图,通过残差的方式加到原本的特征图上,得到加强的特征图;
将光学遥感图像和SAR遥感图像的加强特征图进行加权求和,得到差分增强特征图;
312)公共选择模块具体步骤如下:
对提取的光学图像特征和SAR图像特征进行相加运算,得到公共部分的特征图;
将得到的公共部分的特征图,通过softmax的方式得到光学遥感图像的注意力图和SAR遥感图像的注意力图;
分别将光学遥感图像的注意力图和SAR遥感图像的注意力图和他们的输入特征图相乘,得到各自新的特征图;
将光学遥感图像和SAR遥感图像的新特征图进行加权求和,得到公共模块特征图。
4.根据权利要求1所述的一种融合光学和SAR影像多模态信息的旋转目标检测方法,其特征在于,所述建立二阶段旋转预测头模块包括以下步骤:
41)构建特征金字塔结果来实现特征拼接,给head作为输入,具体步骤如下:
411)输入4个不同尺寸的特征图,将最高层的特征图经过一个C3+conv得到一组与下一层特征图同样大小的特征图,将其和下一层的特征图拼接在一起,再经过一个C3+conv得到一组新的特征图,重复这一过程直到到达最底层;
412)对于最底层的特征图,将其输出到各个head,同时将其和上一层输出的信息拼接在一起,经过一个C3+conv作为新的输出,同时作为下一层的输入,与上一层经过一个C3+conv输出的信息再次进行拼接,经过一个C3+conv作为新的输出,重复这一过程直到到达最高层;
42)构建遥感目标检测旋转预测头,通过两阶段来实现目标定位,具体步骤如下:
421)第一阶段ARM模块使用ATSS策略来调整水平锚点为高质量的旋转锚点,步骤如下:
对于输入的特征图像,提取出所有水平的锚点,并将这些锚点视为第一阶段的候选样本;
计算每个候选样本和所有真实目标(ground-truth)之间的中心点距离和目标大小之间的比例,根据这两个因素的综合考虑,将所有候选样本分为正样本和负样本两类;
对于正样本,以其对应的真实目标为中心,生成一组高质量的旋转锚点作为第一阶段的正样本;
422)经过第一阶段的调整后,ARM得到了一组旋转锚点作为第二阶段的候选样本,这些候选样本会被输入目标检测网络进行分类和回归,并根据其预测结果和真实目标的IoU进行筛选,最终选择IoU最大的样本作为正样本进行调整,具体步骤如下:
将第一阶段得到的旋转锚点输入目标检测网络,得到检测结果;
根据检测结果计算每个旋转锚点与其对应的真实目标的IoU值,并选择IoU值最大的正样本作为第二阶段的正样本;
将第二阶段得到的正样本作为输入的正样本,然后再次通过目标检测网络进行分类和回归,以进一步提高检测的准确率。
5.根据权利要求1所述的一种融合光学和SAR影像多模态信息的旋转目标检测方法,其特征在于,所述网络模型训练与结果获取步骤如下:
51)将预处理后的遥感影像数据输入融合光学和SAR影像多模态信息的旋转目标检测网络中;
52)执行一次卷积核大小为1x1的普通卷积层,将光学遥感图像转换为VOPT、QOPT、KOPT三通道特征;将SAR遥感图像转换为VSAR、QSAR、KSAR三通道特征执行一次编码器结构,得到4个下采样输出;
对输入图片执行一个卷积核大小为3×3的普通卷积,一个实例归一化一个ReLu,一个stride为1的最大池化操作,得到第一个下采样输出;
对第一个下采样输出执行一次卷积核大小为3×3的普通卷积,一个实例归一化一个ReLu,一个stride为1的最大池化操作,得到第二个下采样输出;
对第二个下采样输出执行一次卷积核大小为3×3的普通卷积,一个实例归一化一个ReLu,一个stride为1的最大池化操作,得到第三个下采样输出;
对第三个下采样输出执行一次卷积核大小为3×3的普通卷积,一个实例归一化一个ReLu,一个stride为1的最大池化操作,得到第四个下采样输出;
53)在第一个下采样输出,第二个下采样输出,第三个下采样输出之后执行自注意机制模块以及互相关模块;
54)对第四个下采样输出进行反卷积操作,使其上采样为原始图像的1/8大小(对于4倍下采样的情况,即4倍上采样),得到上采样输出1;
对上采样输出1和第三个下采样输出进行拼接操作,得到合并输出1;
对合并输出1执行一次卷积核大小为3×3的普通卷积,一个实例归一化一个LeakyReLu,得到卷积输出1;
对卷积输出1进行ConvLSTM操作,得到LSTM输出1;
对LSTM输出1进行一次卷积核大小为3×3的普通卷积,一个实例归一化一个LeakyReLu,得到卷积输出2;
对卷积输出2进行反卷积操作,使其上采样为原始图像的1/4大小(对于4倍下采样的情况,即2倍上采样),得到上采样输出2;
对上采样输出2和第二个下采样输出进行拼接操作,得到合并输出2;
对合并输出2执行一次卷积核大小为3×3的普通卷积,一个实例归一化一个LeakyReLu,得到卷积输出3;
对卷积输出3进行ConvLSTM操作,得到LSTM输出2;
对LSTM输出2进行一次卷积核大小为3×3的普通卷积,一个实例归一化一个LeakyReLu,得到卷积输出4;
对卷积输出4进行反卷积操作,使其上采样为原始图像的1/2大小(对于4倍下采样的情况,即2倍上采样),得到上采样输出3;
对上采样输出3和第一个下采样输出进行拼接操作,得到合并输出3;
对合并输出3执行一次卷积核大小为3×3的普通卷积,一个实例归一化一个LeakyReLu,得到卷积输出5;
对卷积输出5进行ConvLSTM操作,得到LSTM输出3;
对LSTM输出3进行一次卷积核大小为3×3的普通卷积,一个实例归一化一个LeakyReLu,得到最终的上采样输出;
55)将两种模态提取出来的多模态多尺度特征图输入跨模态特征融合模块;
56)差分增强模块通过差值运算得到光学图像和SAR图像的差异部分特征图,并通过注意力权重加强原特征图得到增强的特征图,进行加权求和得到差分增强特征图;
57)公共选择模块通过相加运算得到光学图像和SAR图像的公共部分特征图,再通过softmax得到注意力图,将注意力图相乘到原特征图上得到新特征图;
58)差分增强特征图和公共选择特征图进行加权求和得到跨模态特征图;
59)将4个不同尺寸的特征图进行特征拼接:最高层的特征图经过一个C3+conv得到一组与下一层特征图同样大小的特征图,将其和下一层的特征图拼接在一起,再经过一个C3+conv得到一组新的特征图,重复这一过程直到到达最底层;
510)对于最底层的特征图,将其输出到各个head,同时将其和上一层输出的信息拼接在一起,经过一个C3+conv作为新的输出,同时作为下一层的输入,与上一层经过一个C3+conv输出的信息再次进行拼接,经过一个C3+conv作为新的输出,重复这一过程直到到达最高层;
511)将特征图输入预测头,第一阶段ARM模块使用ATSS策略来调整水平锚点为高质量的旋转锚点;
512)经过第一阶段的调整后,ARM得到了一组旋转锚点作为第二阶段的候选样本,输入目标检测网络进行分类和回归,并根据其预测结果和真实目标的IoU进行筛选,选择IoU最大的样本作为正样本进行调整;
513)计算损失函数,对权重参数进行反向传播;
514)判断是否达到设定的轮数,是则得到训练好的分割模型,否则返回52)步重新加载数据继续训练;
515)利用得到的训练好的融合光学和SAR影像多模态信息的旋转目标检测网络,将预处理过的测试数据集输入加载好的模型进行预测,通过可视化将目标预测框和目标类别标在原图上。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310446031.9A CN116452936B (zh) | 2023-04-22 | 2023-04-22 | 融合光学和sar影像多模态信息的旋转目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310446031.9A CN116452936B (zh) | 2023-04-22 | 2023-04-22 | 融合光学和sar影像多模态信息的旋转目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116452936A true CN116452936A (zh) | 2023-07-18 |
CN116452936B CN116452936B (zh) | 2023-09-29 |
Family
ID=87120068
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310446031.9A Active CN116452936B (zh) | 2023-04-22 | 2023-04-22 | 融合光学和sar影像多模态信息的旋转目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116452936B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117528233A (zh) * | 2023-09-28 | 2024-02-06 | 哈尔滨航天恒星数据***科技有限公司 | 变焦倍数识别及目标重识别数据集制作方法 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012185712A (ja) * | 2011-03-07 | 2012-09-27 | Mitsubishi Electric Corp | 画像照合装置または画像照合方法 |
US20190138786A1 (en) * | 2017-06-06 | 2019-05-09 | Sightline Innovation Inc. | System and method for identification and classification of objects |
CN112307901A (zh) * | 2020-09-28 | 2021-02-02 | 国网浙江省电力有限公司电力科学研究院 | 一种面向滑坡检测的sar与光学影像融合方法及*** |
CN112434745A (zh) * | 2020-11-27 | 2021-03-02 | 西安电子科技大学 | 基于多源认知融合的遮挡目标检测识别方法 |
CN113283435A (zh) * | 2021-05-14 | 2021-08-20 | 陕西科技大学 | 一种基于多尺度注意力融合的遥感图像语义分割方法 |
CN113469094A (zh) * | 2021-07-13 | 2021-10-01 | 上海中科辰新卫星技术有限公司 | 一种基于多模态遥感数据深度融合的地表覆盖分类方法 |
CN114387439A (zh) * | 2022-01-13 | 2022-04-22 | 中国电子科技集团公司第五十四研究所 | 一种基于光学和PolSAR特征融合的语义分割网络 |
CN114565856A (zh) * | 2022-02-25 | 2022-05-31 | 西安电子科技大学 | 基于多重融合深度神经网络的目标识别方法 |
WO2022142297A1 (en) * | 2021-01-04 | 2022-07-07 | Guangzhou Institute Of Advanced Technology, Chinese Academy Of Sciences | A robot grasping system and method based on few-shot learning |
US20220230322A1 (en) * | 2021-01-21 | 2022-07-21 | Dalian University Of Technology | Depth-aware method for mirror segmentation |
CN115496928A (zh) * | 2022-09-30 | 2022-12-20 | 云南大学 | 基于多重特征匹配的多模态图像特征匹配方法 |
CN115497005A (zh) * | 2022-09-05 | 2022-12-20 | 重庆邮电大学 | 一种融合特征转移与注意力机制的yolov4遥感目标检测方法 |
CN115830471A (zh) * | 2023-01-04 | 2023-03-21 | 安徽大学 | 一种多尺度特征融合和对齐的域自适应云检测方法 |
US11631238B1 (en) * | 2022-04-13 | 2023-04-18 | Iangxi Electric Power Research Institute Of State Grid | Method for recognizing distribution network equipment based on raspberry pi multi-scale feature fusion |
-
2023
- 2023-04-22 CN CN202310446031.9A patent/CN116452936B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012185712A (ja) * | 2011-03-07 | 2012-09-27 | Mitsubishi Electric Corp | 画像照合装置または画像照合方法 |
US20190138786A1 (en) * | 2017-06-06 | 2019-05-09 | Sightline Innovation Inc. | System and method for identification and classification of objects |
CN112307901A (zh) * | 2020-09-28 | 2021-02-02 | 国网浙江省电力有限公司电力科学研究院 | 一种面向滑坡检测的sar与光学影像融合方法及*** |
CN112434745A (zh) * | 2020-11-27 | 2021-03-02 | 西安电子科技大学 | 基于多源认知融合的遮挡目标检测识别方法 |
WO2022142297A1 (en) * | 2021-01-04 | 2022-07-07 | Guangzhou Institute Of Advanced Technology, Chinese Academy Of Sciences | A robot grasping system and method based on few-shot learning |
US20220230322A1 (en) * | 2021-01-21 | 2022-07-21 | Dalian University Of Technology | Depth-aware method for mirror segmentation |
CN113283435A (zh) * | 2021-05-14 | 2021-08-20 | 陕西科技大学 | 一种基于多尺度注意力融合的遥感图像语义分割方法 |
CN113469094A (zh) * | 2021-07-13 | 2021-10-01 | 上海中科辰新卫星技术有限公司 | 一种基于多模态遥感数据深度融合的地表覆盖分类方法 |
CN114387439A (zh) * | 2022-01-13 | 2022-04-22 | 中国电子科技集团公司第五十四研究所 | 一种基于光学和PolSAR特征融合的语义分割网络 |
CN114565856A (zh) * | 2022-02-25 | 2022-05-31 | 西安电子科技大学 | 基于多重融合深度神经网络的目标识别方法 |
US11631238B1 (en) * | 2022-04-13 | 2023-04-18 | Iangxi Electric Power Research Institute Of State Grid | Method for recognizing distribution network equipment based on raspberry pi multi-scale feature fusion |
CN115497005A (zh) * | 2022-09-05 | 2022-12-20 | 重庆邮电大学 | 一种融合特征转移与注意力机制的yolov4遥感目标检测方法 |
CN115496928A (zh) * | 2022-09-30 | 2022-12-20 | 云南大学 | 基于多重特征匹配的多模态图像特征匹配方法 |
CN115830471A (zh) * | 2023-01-04 | 2023-03-21 | 安徽大学 | 一种多尺度特征融合和对齐的域自适应云检测方法 |
Non-Patent Citations (2)
Title |
---|
KAI XU; SIYUAN LIU; ZIYI WANG: "《Geometric Auto-Calibration of SAR Images Utilizing Constraints of Symmetric Geometry》", 《IEEE GEOSCIENCE AND REMOTE SENSING LETTERS》 * |
周波;童海鹏;陈晓;薛巍;徐凯: "《多模态MRI评价胶质母细胞瘤中组织因子表达水平的价值》", 《第三军医大学学报》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117528233A (zh) * | 2023-09-28 | 2024-02-06 | 哈尔滨航天恒星数据***科技有限公司 | 变焦倍数识别及目标重识别数据集制作方法 |
CN117528233B (zh) * | 2023-09-28 | 2024-05-17 | 哈尔滨航天恒星数据***科技有限公司 | 变焦倍数识别及目标重识别数据集制作方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116452936B (zh) | 2023-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112287940B (zh) | 一种基于深度学习的注意力机制的语义分割的方法 | |
CN115294038A (zh) | 一种基于联合优化与混合注意力特征融合的缺陷检测方法 | |
CN116665176B (zh) | 一种面向车辆自动驾驶的多任务网络道路目标检测方法 | |
CN114241274B (zh) | 一种基于超分辨率多尺度特征融合的小目标检测方法 | |
CN116452936B (zh) | 融合光学和sar影像多模态信息的旋转目标检测方法 | |
CN113901900A (zh) | 一种同源或异源遥感图像用无监督变化检测方法及*** | |
CN113239736B (zh) | 一种基于多源遥感数据的土地覆盖分类标注图获取方法 | |
CN113610070A (zh) | 一种基于多源数据融合的滑坡灾害识别方法 | |
CN115049640B (zh) | 一种基于深度学习的道路裂缝检测方法 | |
CN115238758A (zh) | 一种基于点云特征增强的多任务三维目标检测方法 | |
CN117372898A (zh) | 一种基于改进yolov8的无人机航拍图像目标检测方法 | |
CN113673556A (zh) | 一种基于多尺度密集卷积网络的高光谱图像分类方法 | |
CN117788296B (zh) | 基于异构组合深度网络的红外遥感图像超分辨率重建方法 | |
CN115861260A (zh) | 一种面向广域城市场景下的深度学习变化检测方法 | |
CN112633123B (zh) | 一种基于深度学习的异源遥感影像变化检测方法及装置 | |
CN114170526A (zh) | 基于轻量化网络的遥感影像多尺度目标检测识别方法 | |
CN116977747B (zh) | 基于多路多尺度特征孪生网络的小样本高光谱分类方法 | |
CN114743023B (zh) | 一种基于RetinaNet模型的麦蜘蛛图像检测方法 | |
CN114663654B (zh) | 一种改进YOLOv4网络模型及小目标检测方法 | |
CN115456957B (zh) | 一种全尺度特征聚合的遥感影像变化检测的方法 | |
CN111274936A (zh) | 多光谱图像地物分类方法、***、介质及终端 | |
CN112989919B (zh) | 一种从影像中提取目标对象的方法及*** | |
CN115410089A (zh) | 自适应局部上下文嵌入的光学遥感小尺度目标检测方法 | |
CN116665033A (zh) | 一种卫星遥感影像建筑物提取方法 | |
CN117576567B (zh) | 一种使用多层级差异特征自适应融合的遥感图像变化检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |