CN116229295A

CN116229295A - 基于融合卷积注意力机制的遥感图像目标检测方法

Info

Publication number: CN116229295A
Application number: CN202310176483.XA
Authority: CN
Inventors: 朱虎明; 王晨; 王金成; 缪孔苗; 李秋明; 薛怡煜; 侯彪; 焦李成
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2023-02-28
Filing date: 2023-02-28
Publication date: 2023-06-06

Abstract

本发明公开了一种基于融合卷积注意力机制的遥感图像目标检测方法，解决了小目标检测精度低，收敛速度慢的问题。实现包括：收集并处理遥感图像数据；搭建特征提取主干网络、融合卷积的Transformer编码‑解码架构；组成融合卷积注意力机制目标检测网络模型；训练、测试目标检测网络模型。本发明采用金字塔结构的下采样特征提取主干网络，对不同大小的输入图像输出大小相同的特征矩阵；搭建了具有深度卷积、逐点卷积的卷积模块，增强了对遥感图像局部特征的信息提取能力；将部分注意力头替换为卷积模块，降低了矩阵运算的大参数量，降低了训练耗时。用在航空飞机、遥感卫星、智慧交通、智慧农业等对遥感图像目标检测实时性和准确率要求高的领域。

Description

基于融合卷积注意力机制的遥感图像目标检测方法

技术领域

本发明属于遥感图像目标检测技术领域，主要涉及光学遥感图像的目标检测，具体是一种基于融合卷积注意力机制的遥感图像目标检测方法。应用于航空飞机对地面目标实时检测等领域。

背景技术

遥感技术是一种利用非接触方式获取远距离目标特征信息的技术。它通过在一定的技术设备和***的支持下，对被测目标的电磁波特性进行非接触式记录和分析，以获得目标特征信息。在过去几十年的发展中，遥感技术已经广泛应用于多个领域，如农业发展、地质分析、海洋监测、军事侦察和环境保护等。

目标检测已成为遥感图像地物识别、计算机视觉等领域的重要研究热点。通过目标检测，可以识别图像中的特定目标，并获得其类型和具***置，在智能交通、智慧城市、公共安全、军事战争等领域中发挥着重要作用。因此，对遥感图像数据进行目标检测的研究在海洋、军事、农业等领域具有重大意义，比如能够降低成本、提高效率，推进本领域的科技进步。随着高分辨率卫星的快速发展，高分辨率遥感图像数量急剧增加，因此基于大数据的遥感图像目标检测是当前高分辨率遥感图像检测领域的紧迫需求。

目标检测技术的发展起源可以追溯到20世纪90年代。当时的目标检测方法主要基于人工特征提取和分类器训练，如SVM、AdaBoost等，但这些方法难以适应复杂的场景变化。随着深度学习技术的普及，目标检测技术取得了长足的进步。深度学习是一种有效的机器学习方法，具有很强的学习复杂数据表示的能力。在深度学习目标检测中，卷积神经网络(CNN)是最常用的模型之一，它可以学习图像中各个目标底层的复杂特征表示。

早期的目标检测方法如R-CNN系列、Fast R-CNN、Faster R-CNN等充分利用了CNN的学习能力，大大提高了目标检测的准确率。然而，这些方法仍然存在计算复杂度高、推理速度慢等问题。

针对这些问题，后来遥感图像目标检测技术的发展已经转向单阶段目标检测方法，如YOLO、SSD、RetinaNet等。这些方法可以在单阶段进行目标检测，降低了计算复杂度，提高了检测精度以及推理速度。此外，在各类目标检测基准测试中也取得了较优秀的性能。

基于Transformer的目标检测方法是近年来流行起来的目标检测领域的一个新方向。这类方法背后的主要思想是将最初为自然语言处理(NLP)任务提出的编码-解码架构应用于目标检测任务。

视觉Transformer相比卷积而言，突破了传统卷积神经网络目标检测模型不能并行计算的限制；Transformer对两个目标位置之间的关联性的计算次数不随距离增长；自注意力机制可以产生更具可解释性的模型，编码器模块会根据特征图计算注意力矩阵，该矩阵上的每个值其实已经构建出了预测框坐标，可以直接对目标框进行预测。

Transformer方法的核心是自注意力机制(self-attention)，使模型可以关注输入图像的不同区域并动态调整每个区域的重要性。与传统的基于卷积神经网络(CNN)的方法相比，基于Transformer的目标检测方法更加灵活，能够处理具有多个对象的复杂场景。

该领域的首批工作之一是DETR，它提出了一个基于Transformer的端到端目标检测框架。DETR使用一组队列来预测对象位置和类别，并使用编码-解码架构来处理图像并输出预测。自注意力机制使得DETR可以处理不同尺度和形状的实例，并在一个阶段进行目标检测，使其比传统的两阶段方法更有效。

尽管在遥感图像目标检测领域，目前基于DETR的Transformer遥感图像端到端目标检测框架可以取得较好的检测效果，但仍存在一些难题，如注意力机制难以收敛导致的训练时间过长，注意力机制不能有效获取局部信息导致模型对小目标检测精度低等。

综上，尽管DETR提出简化了遥感图像目标检测的框架并且提升了整体的检测性能，但对小目标检测性能低和模型收敛速度慢等问题仍没有得到解决。

发明内容

本发明的目的在于克服上述现有技术存在的缺陷，提出一种对图像局部特征获取能力更强，模型收敛速度更快的基于融合卷积注意力机制的遥感图像目标检测方法。

本发明是一种基于融合卷积注意力机制的遥感图像目标检测方法，其特征在于，包括有如下步骤：

步骤1，收集并处理遥感图像数据：从公开网站中获取公开的遥感图像，将其划分为训练数据集、验证数据集、测试数据集，总体构成遥感图像数据集，该遥感图像数据集共包含十五类目标，分别是：飞机、船、存储罐、棒球场、网球场、篮球场、操场、港口、桥梁、大型车辆、小型车辆、直升飞机、环岛、足球场、游泳池；将遥感图像数据集中的原始图像数据所有目标的坐标和类别信息生成txt文件，并和原始图像数据一起输入到搭建的特征提取主干网络中；

步骤2，搭建特征提取主干网络：搭建的特征提取主干网络由四个卷积组顺序连接构成，第一个卷积组依次通过卷积层、Norm层、激活函数层、最大池化层构成残差连接单元；其中，第二、三、四卷积组分别由不同数目的残差连接单元顺序连接构成，每个残差连接单元的结构为卷积层、GN层、激活函数层顺序堆叠而成；输入的原始图像数据经过搭建的特征提取主干网络下采样操作后输出遥感图像特征矩阵；

步骤3，搭建融合卷积的Transformer编码器：搭建的Transformer编码器包含有卷积模块和注意力模块并行连接构成的融合卷积多头注意力模块，该编码器从输入端依次包括有融合卷积多头注意力模块、残差连接和层归一化模块、前向传播模块、残差连接和层归一化模块，其中，所述融合卷积多头注意力模块中的卷积模块包括有顺序连接的第一卷积层、第一激活函数层、第二卷积层、BN层、第二激活函数层、第三卷积层，注意力模块包括有顺序连接的LN层、自注意力层、前馈网络层；其中，卷积模块和注意力模块的比例为4：4，卷积模块与注意力模块输出后的矩阵大小相同，通过concat级联后形成与融合卷积的Transformer编码器模块输入矩阵大小相同的输出矩阵；

步骤4，搭建混合注意力机制的Transformer解码器：解码器通过自注意力机制对输入的目标查询矩阵进行冗余信息处理，交叉注意力机制对编码器输出的特征矩阵和目标查询矩阵进行关系建模，通过前向传播模块对图像特征和预测框进行特征变换；

步骤5，组成融合卷积注意力机制目标检测网络模型：建立依次由特征提取主干网络、融合卷积的Transformer编码器、混合注意力机制的Transformer解码器组成的融合卷积注意力机制目标检测网络模型，简称网络模型；

步骤6，训练网络模型：用训练数据集对网络模型进行训练，得到训练好的融合卷积注意力机制目标检测网络模型；

步骤7，测试网络模型：用训练好的融合卷积注意力机制目标检测网络模型对测试数据集进行检测，即将测试集输入到训练好的网络模型中，得到遥感图像数据集每一类目标的检测结果，包括平均精度AP及所有类目标的平均精度均值mAP。

本发明解决了端到端遥感图像目标检测框架中训练模型收敛速度慢、检测模型对小目标精度低的技术问题。

与现有技术相比，本发明的优点如下：

提高了模型对小目标的检测精度：本发明设计了一个编码器中的卷积模块，由逐点卷积、深度卷积、激活函数、归一化层组成，该模块在不改变编码器输入矩阵大小的前提下获取了图像的局部信息；由卷积模块和注意力模块并行连接而成的编码器，对图像的全局特征和局部特征都有较好的特征提取能力；本发明在保证融合卷积注意力机制目标检测网络模型对大目标检测精度的前提下提高了对小目标的检测精度。

降低了模型的训练耗时：现有技术中，基于注意力机制的编码器对图像进行编码时会进行图像像素量二次幂的计算，使得模型的计算复杂度高，参数量大；本发明设计的编码器中的卷积模块，使用的逐点卷积和深度卷积具有参数量小的优点，降低了模型的计算复杂度，加快了模型的收敛速度，降低了模型的训练耗时。

附图说明

图1是本发明的实现流程框图；

图2是本发明中提取图像特征的主干网络结构图；

图3是本发明构建的融合卷积的Transformer编码器结构图；

图4是本发明的编码器中构建的卷积模块结构图；

图5是本发明的编码器-解码器的流程关系图；

图6是本发明的实验结果图，其中图6(a)是对DOTA数据集的测试集中包含小车辆、大车辆目标的遥感图像检测结果图片，图6(b)是对DOTA数据集的测试集中包含小车辆、环形回路目标的遥感图像检测结果图片。

具体实施方式

实施例1

现有技术中，基于Transformer的目标检测方法可以分为两种，一种是基于Transformer的主干网提取图像特征，另一种是基于Transformer的集预测方法。DETR是Facebook团队于2020年提出的第一个基于Transformer的集预测方法的端对端目标检测框架，图像经过主干网提取特征，然后加上位置编码一起送入到编码器，编码器输出矩阵和目标序列一起输入到解码器中，解码器的输出送入预测头，由前馈神经网络进行物体类别和边界框的预测。DETR使用一组队列来预测对象位置和类别，并使用编码-解码架构来处理图像并输出预测，框架简单明了，直接对图像序列预测检测框，解决了传统目标检测需要进行非极大值抑制的缺点。然而，DETR使用注意力机制更关注图像的全局特征，导致模型对小目标的检测精度不高；此外，注意力机制需要更大的参数量，相比传统卷积目标检测网络更难以收敛。本发明对上述问题进行研究与实验，提出一种基于融合卷积注意力机制的遥感图像目标检测方法。

本发明是一种基于融合卷积注意力机制的遥感图像目标检测方法，参见图1，图1是本发明的实现流程框图；包括有如下步骤：

步骤1，收集并处理遥感图像数据：从公开网站中获取公开的遥感图像，将其图像按照4:2:3的比例划分为训练数据集、验证数据集、测试数据集，总体构成遥感图像数据集，该遥感图像数据集中的图像称为原始图像数据；该遥感图像数据集共包含十五类目标，分别是：飞机、船、存储罐、棒球场、网球场、篮球场、操场、港口、桥梁、大型车辆、小型车辆、直升飞机、环岛、足球场、游泳池。本发明将遥感图像数据集中的每一张原始图像数据所有目标的坐标和类别信息生成txt文件，并和原始图像数据一起输入到搭建的特征提取主干网络中。本发明数据集采用斜框方式进行标注，每张图像的像素尺寸分布不同，其中包含不同尺度、方向和形状的物体。

步骤2，搭建特征提取主干网络：搭建的特征提取主干网络由四个卷积组顺序连接构成，第一个卷积组依次通过卷积层、Norm层、激活函数层、最大池化层构成残差连接单元；其中，第二、三、四卷积组依次对上一个卷积组输出的特征图进行下采样；输入的原始图像数据经过搭建的特征提取主干网络下采样操作后输出遥感图像特征矩阵。主干网络的设计需要满足图像多尺度的要求，为了使主干网对不同尺寸图像特征提取后输出相同大小的特征矩阵，本发明在特征提取主干网中加入了部分下采样操作。

步骤3，搭建融合卷积的Transformer编码器：参见图3，搭建的Transformer编码器包含有卷积模块和注意力模块并行连接构成的融合卷积多头注意力模块，该编码器从输入端依次包括有融合卷积多头注意力模块、残差连接和层归一化模块、前向传播模块、残差连接和层归一化模块，其中，所述融合卷积多头注意力模块中的卷积模块包括有顺序连接的第一逐点卷积层、第一激活函数层、深度卷积层、BN层、第二激活函数层、第二逐点卷积层，注意力模块包括有顺序连接的LN层、自注意力层、前馈网络层；其中，卷积模块和注意力模块的比例为4：4，卷积模块与注意力模块输出后的矩阵大小相同，通过concat级联后形成与融合卷积的Transformer编码器输入矩阵大小相同的输出矩阵。本例中改进的多头注意力模块选择八个头，多头注意力模块选择的注意力头数可以根据模型训练时间与检测精度选择，八个头达到了模型参数量与检测精度的平衡，其中卷积模块与注意力模块数量相等保证了编码器对图像特征提取时不会更偏向于全局特征或者局部特征。其中，卷积模块通过使用逐点卷积的方式不改变特征图大小，通过使用深度卷积的方式不改变特征图通道数，保证经过卷积模块输出的矩阵与经过注意力模块输出的矩阵大小相等，可以直接相加。

步骤4，搭建混合注意力机制的Transformer解码器：解码器通过自注意力机制对输入的目标查询矩阵进行冗余信息处理，交叉注意力机制对编码器输出的特征矩阵和目标查询矩阵进行关系建模，通过前向传播模块对图像特征和预测框进行特征变换。解码器通过六个解码器单元顺序连接构成，每一个解码器单元在矩阵经过前向传播模块后都会输出一组对图像中各个目标的类别和位置的预测信息。将编码器输出的基于图像像素区域的注意力系数矩阵转换为基于图像中各目标之间的注意力系数矩阵。

步骤5，组成融合卷积注意力机制目标检测网络模型：建立依次由特征提取主干网络、融合卷积的Transformer编码器、混合注意力机制的Transformer解码器组成的融合卷积注意力机制目标检测网络模型，简称网络模型。

步骤6，训练融合卷积注意力机制目标检测网络模型：用训练数据集对由特征提取主干网络、融合卷积注意力机制编码器、混合注意力机制解码器顺序连接构成的融合卷积注意力机制目标检测网络模型进行训练，得到训练好的融合卷积注意力机制目标检测网络模型。本发明中由于注意力模块的参数量相对较大，在进行训练参数设置时要在保证模型收敛速度的前提下尽量减小每一个训练批次的图像数目。

步骤7，测试融合卷积注意力机制目标检测网络模型：用训练好的融合卷积注意力机制目标检测网络模型对测试数据集进行检测，即将测试集输入到训练好的融合卷积注意力机制目标检测网络模型中，得到遥感图像数据集每一类目标的检测结果，包括平均精度AP及所有类目标的平均精度均值mAP。

本发明的技术思路是：通过对编码器融合卷积层，增加模型对图像局部特征的提取，提高了模型对小目标的检测精度；使用参数量小的卷积模块替换部分参数量大的注意力模块，减小模型参数，加快模型训练速度。

为了解决现有端到端遥感图像目标检测框架的缺点，本发明引入卷积模块替换了Transformer编码器中多头注意力模块的部分自注意力模块，特别设计一种融合卷积注意力机制的遥感图像目标检测方法，相比现有的主流Transformer目标检测端到端框架，本发明增强了模型对图像局部信息的提取能力，提升了在小目标的准确率，减少了模型参数量，加快了模型的收敛速度。可应用于航空飞机对地面目标实时检测等领域。

实施例2

基于融合卷积注意力机制的遥感图像目标检测方法同实施例1，本发明在步骤2中搭建的特征提取主干网络，参见图2，图2是本发明中提取图像特征的主干网络结构图，搭建的特征提取主干网络由四个卷积组顺序连接构成；本例中第一卷积组由一个卷积核大小为6×6，卷积核个数为32，步长为1的卷积层、一个GroupNorm层、一个ReLU激活函数层、一个窗口大小为3×3步长为2的最大池化层顺序组成；第二卷积组由三个相同的残差模块1顺序连接构成，每一个残差模块1由一个卷积核大小为1×1，卷积核个数为128，步长为1的卷积层、卷积核大小为3×3，卷积核个数为128，步长为1的卷积层、卷积核大小为2×2，卷积核个数为128，步长为1的卷积层顺序连接构成；第三卷积组由四个相同的残差模块2顺序连接构成，每一个残差模块2由一个卷积核大小为1×1，卷积核个数为128，步长为1的卷积层、卷积核大小为3×3，卷积核个数为128，步长为1的卷积层、卷积核大小为1×1，卷积核个数为512，步长为1的卷积层顺序连接构成；第四卷积组由九个相同的残差模块3顺序连接构成，每一个残差模块3由一个卷积核大小为1×1，卷积核个数为128，步长为2的卷积层、卷积核大小为3×3，卷积核个数为256，步长为1的卷积层、卷积核大小为1×1，卷积核个数为512，步长为1的卷积层顺序连接构成。本例给出的网络结构参数是针对于遥感图像目标检测任务性能较好的一组参数，根据具体任务的不同，特征提取主干网络的参数可以进行调整。

由于遥感图像具有俯视视角、高分辨率、目标尺度不均匀、目标旋转多方向、图像背景复杂等特点，主干网络的设计需要满足图像多尺度的要求，对不同输入尺寸的图片进行下采样处理，使得特征提取主干网络输出的特征矩阵维度大小相同。

实施例3

基于融合卷积注意力机制的遥感图像目标检测方法同实施例1-2，步骤3中搭建的融合卷积的Transformer编码器，参见图3，图3是本发明构建的融合卷积的Transformer编码器，本发明搭建的融合卷积的Transformer编码器由六个编码器单元顺序连接构成。特征提取主干网络的输出序列加上位置编码后生成位置编码特征序列，作为整个编码器的输入；输入到第一个编码器单元中，本发明中每一个编码器单元的结构完全相同，由一个融合卷积多头注意力模块、第一残差连接和层归一化模块、一个前向传播模块、第二残差连接和层归一化模块顺序连接构成。其中，第一残差连接和层归一化模块将所属编码器单元的输入矩阵与多头注意力模块的输出矩阵进行相加短接，接着将短接后的矩阵进行归一化处理；前向传播模块由一个linear线形层、relu激活函数层、dropout层顺序连接构成。第二残差连接和层归一化模块将第一残差连接和层归一化模块的输出矩阵与前向传播模块的输出矩阵进行相加短接，接着将短接后的矩阵进行归一化处理。对于第一、二、三、四、五编码器单元，当前编码器单元的输出矩阵作为下一个编码器模单元的输入矩阵；特殊的，第六编码器单元的输出矩阵分别作为解码器中六个解码器单元的输入矩阵。

本发明设计的卷积模块由深度卷积、逐点卷积、激活函数、归一化层构成，该卷积模块在满足提取图像局部特征的前提下，保证了输出矩阵与输入矩阵的大小相同。同样的，注意力模块的输出矩阵与输入矩阵大小相同，在都不改变输入矩阵大小的情况下，卷积模块才能与注意力模块并行相加。

实施例4

基于融合卷积注意力机制的遥感图像目标检测方法同实施例1-3，参见图4，图4是本发明的编码器中构建的卷积模块结构图，本发明融合卷积的Transformer编码器中的融合卷积多头注意力模块，由四个自注意力单元与四个卷积单元并行构成；其中，四个自注意力单元结构相同，每个自注意力单元首先通过将输入矩阵与三个不同参数的矩阵相乘即对输入矩阵进行三种不同的线性变换，得到三个大小相同参数不同的矩阵Q、K、V，然后通过softmax函数对Q、K、V三个矩阵进行计算获得注意力参数矩阵，公式如下所示：

四个卷积单元结构相同，每个卷积单元由卷积核大小为1×1，卷积核数目为128，步长为1的逐点卷积层、GLU激活函数层、卷积核大小为3×3、卷积核数目为256，步长为1的深度卷积层、BN归一化层、Swish激活函数层、卷积核大小为1×1，卷积核数目为256，步长为1的逐点卷积层顺序连接构成。

本发明通过卷积模块与注意力模块并行提取图像特征的方式，不仅能获取图像的全局信息，还可以获取图像的局部信息，在保证训练好的模型对大目标检测精度的前提下提升了模型对小目标的检测精度。同时，注意力机制的计算量是对图像特征维度进行二次幂等计算，参数量过大，引入局部卷积模块降低了模型的参数量，加快了模型的收敛速度，降低了模型的训练耗时。

实施例5

基于融合卷积注意力机制的遥感图像目标检测方法同实施例1-4，参见图5，图5是本发明的编码器-解码器的流程关系图；本发明步骤4中的混合注意力机制的Transformer解码器，由六个解码器单元顺序连接构成；每个解码器单元结构相同，由多头自注意力模块、第一残差连接和层归一化模块、多头交叉注意力模块、第二残差连接和层归一化模块、前向传播模块、第三残差连接和层归一化模块顺序连接构成，即按照输入到输出的顺序依次连接构成。

本例中输入的目标查询矩阵大小为100×256，编码器输出矩阵大小为850×256，mask矩阵大小为25×34，输出矩阵大小为100×256，本发明多头自注意力模块对输入的目标查询序列进行冗余信息去除，经过残差连接和层归一化后，再和编码器输出的特征矩阵进行多头交叉注意力计算，将图像区域的注意力转为对图像中物体的注意力。简化了目标检测任务对图像生成目标检测框的流程。

实施例6

基于融合卷积注意力机制的遥感图像目标检测方法同实施例1-5，本发明步骤6中的训练网络模型是用遥感图像训练数据集对融合卷积注意力机制目标检测网络进行训练，具体是：

6.1超参数设置：设初始学习率为R，学习率调整设置为steps方式，权重衰减参数为a，批次大小为B，训练轮次为E；

6.2训练方法：使用随机梯度下降算法更新整个网络模型的权重和偏置，每输入B张训练图像更新一次权重和偏置，共迭代

次停止更新，训练结束；

6.3得到最终训练好的网络模型：迭代停止时，得到训练好的融合卷积注意力机制目标检测网络模型。

本例中设初始学习率为0.001，学习率调整设置为steps方式，权重衰减参数为0.0001，批次大小为4，训练轮次为100；使用随机梯度下降算法更新整个网络模型的权重和偏置，每输入4张训练图像更新一次权重和偏置，共迭代40000次停止更新，得到最终训练好的网络模型。上述参数是本例中训练效果较好的一组参数，本发明针对不同的目标检测任务可以进行调整。

下面给出一个更加详尽的例子，对本发明进一步说明

实施例7

基于融合卷积注意力机制的遥感图像目标检测方法同实施例1-6，

本发明提出的一种基于融合卷积注意力机制的遥感图像目标检测方法，参见图1，图1是本发明的实现流程框图；包括有如下步骤：

步骤1，收集并处理遥感图像数据：从公开网站中获取公开的遥感图像，将其图像按照3:1:2的比例划分为训练数据集、验证数据集、测试数据集，总体构成遥感图像数据集，该遥感图像数据集中的图像称为原始图像数据；该遥感图像数据集共包含十五类目标，分别是：飞机、船、存储罐、棒球场、网球场、篮球场、操场、港口、桥梁、大型车辆、小型车辆、直升飞机、环岛、足球场、游泳池。将遥感图像数据集中的每一张原始图像数据所有目标的坐标和类别信息生成txt文件，并和原始图像数据一起输入到搭建的特征提取主干网络中。

步骤2，搭建特征提取主干网络：搭建的特征提取主干网络由四个卷积组顺序连接构成，第一个卷积组依次通过卷积层、Norm层、激活函数层、最大池化层顺序连接构成；第二、三、四卷积组分别由不同数目的残差连接单元顺序连接构成，每个残差连接单元的结构为卷积层、GN层、激活函数层顺序堆叠而成；主干网采用不同卷积模块残差连接堆叠的特征金字塔模块，对不同大小的输入图片进行下采样操作后生成相同的特征矩阵；主干网输出的特征矩阵经过降维处理和相同维度的位置编码相加后送入编码器。

参见图2，本发明搭建的特征提取主干网络，由四个卷积组顺序连接构成；第一卷积组由一个卷积层、一个GroupNorm层、一个激活函数层、一个最大池化层顺序组成；第二卷积组由三个相同的残差模块1顺序连接构成，每一个残差模块1由三个不同的卷积层以及归一化层和激活函数层顺序连接构成；第三卷积组由四个相同的残差模块2顺序连接构成，每一个残差模块2由三个不同的卷积层以及归一化层和激活函数层顺序连接构成；第四卷积组由九个相同的残差模块3顺序连接构成，每一个残差模块3由三个不同的卷积层以及归一化层和激活函数层顺序连接构成。

第一卷积组由一个卷积核大小为7×7，卷积核个数为64，步长为2的卷积层、一个GroupNorm层、一个ReLU激活函数层、一个窗口大小为3×3步长为2的最大池化层顺序组成。第二卷积组由三个相同的残差模块1顺序连接构成，每一个残差模块1由一个卷积核大小为1×1，卷积核个数为128，步长为1的卷积层、卷积核大小为3×3，卷积核个数为128，步长为1的卷积层、卷积核大小为1×1，卷积核个数为256，步长为1的卷积层顺序连接构成。第三卷积组由四个相同的残差模块2顺序连接构成，每一个残差模块2由一个卷积核大小为1×1，卷积核个数为128，步长为1的卷积层、卷积核大小为3×3，卷积核个数为128，步长为1的卷积层、卷积核大小为1×1，卷积核个数为512，步长为1的卷积层顺序连接构成。第四卷积组由九个相同的残差模块3顺序连接构成，每一个残差模块3由一个卷积核大小为1×1，卷积核个数为256，步长为1的卷积层、卷积核大小为3×3，卷积核个数为256，步长为1的卷积层、卷积核大小为1×1，卷积核个数为1024，步长为1的卷积层顺序连接构成。

本发明设计的特征提取主干网络，通过堆叠残差单元模块，对输入的图像进行下采样操作，使得不同大小的输入图片经过主干网络后输出相同大小的特征矩阵，解决了遥感图像目标多尺度的检测难点。

步骤3，搭建融合卷积的Transformer编码器：参见图3，本发明搭建的Transformer编码器由六个编码器单元顺序连接构成，每个编码器单元包含有卷积模块和注意力模块并行连接构成的融合卷积多头注意力模块，该编码器从输入端依次包括有融合卷积多头注意力模块、第一残差连接和层归一化模块、前向传播模块、第二残差连接和层归一化模块，其中，第一残差连接和层归一化模块将所属编码器单元的输入矩阵与多头注意力模块的输出矩阵进行相加短接，接着将短接后的矩阵进行归一化处理。前向传播模块由一个linear线形层、relu激活函数层、dropout层顺序连接构成；第二残差连接和层归一化模块将第一残差连接和层归一化模块的输出矩阵与前向传播模块的输出矩阵进行相加短接，接着将短接后的矩阵进行归一化处理；对于第一、二、三、四、五编码器模块，当前编码器模块的输出矩阵作为下一个编码器模块的输入矩阵；特殊的，第六编码器模块的输出矩阵分别作为解码器模块中六个解码器单元的输入矩阵。

融合卷积的Transformer编码器中的融合卷积多头注意力模块，由四个自注意力单元与四个卷积单元并行构成。其中，四个自注意力单元结构相同，每个自注意力单元包括有顺序连接的LN层、自注意力层、前馈网络层，首先通过将输入矩阵与三个不同参数的矩阵相乘即对输入矩阵进行三种不同的线性变换，得到三个大小相同参数不同的矩阵Q、K、V，其中，Q矩阵为对图像特征矩阵进行线性变换的查询矩阵，K矩阵为对图像特征矩阵进行线性变换的键矩阵，V矩阵为对图像特征矩阵进行线性变换的值矩阵，然后通过softmax函数对Q、K、V三个矩阵进行计算获得注意力参数矩阵，公式如下所示：

四个卷积单元结构相同，参见图4，每个卷积单元包括有顺序连接的逐点卷积层、激活函数层、深度卷积层、BN层、激活函数层、逐点卷积层。卷积模块和注意力模块的比例为4：4，卷积模块与注意力模块输出后的矩阵大小相同，通过concat级联后形成与融合卷积的Transformer编码器模块输入矩阵大小相同的输出矩阵。

步骤4，搭建混合注意力机制的Transformer解码器模块：解码器通过自注意力机制对输入的目标查询矩阵进行冗余信息处理，交叉注意力机制对编码器输出的特征矩阵和目标查询矩阵进行关系建模，通过前向传播模块对图像特征和预测框进行特征变换。

参见图5，本发明搭建的混合注意力机制的Transformer解码器模块，由六个解码器单元顺序连接构成；每个解码器单元结构相同，由多头自注意力模块、第一残差连接和层归一化模块、多头交叉注意力模块、第二残差连接和层归一化模块、前向传播模块、第三残差连接和层归一化模块顺序连接构成。首先，目标查询矩阵输入到多头自注意力模块进行冗余信息处理，处理后的目标查询矩阵和编码器输出的矩阵一起输入到多头交叉注意力模块进行交叉注意力计算，将图像区域的注意力矩阵转为图像目标的注意力矩阵，每个解码器单元通过前向传播模块输出对图像的预测矩阵，由前向传播模块进行目标的预测。

步骤5，组成融合卷积注意力机制目标检测网络模型：建立依次由特征提取主干网络、融合卷积的Transformer编码器模块、混合注意力机制的Transformer解码器模块组成的融合卷积注意力机制目标检测网络模型，简称网络模型。

步骤6，训练融合卷积注意力机制目标检测网络模型：用训练数据集对由特征提取主干网络、融合卷积注意力机制编码器、混合注意力机制解码器顺序连接构成的融合卷积注意力机制目标检测网络模型进行训练，得到训练好的融合卷积注意力机制目标检测网络模型。具体包括有如下步骤：

次停止更新，训练结束；

本例中设初始学习率为0.0025，学习率调整设置为steps方式，权重衰减参数为0.0001，批次大小为8，训练轮次为100；使用随机梯度下降算法更新整个网络模型的权重和偏置，每输入8张训练图像更新一次权重和偏置，共迭代20000次停止更新，得到最终训练好的网络模型。

本发明加快了模型收敛速度，降低了模型训练耗时。

本发明采用金字塔结构的包含下采样操作的特征提取主干网络，对不同大小的输入图像输出大小相同的特征矩阵，解决了遥感图像目标多尺度的检测难点；搭建了包含深度卷积、逐点卷积的卷积模块，增强了模型对遥感图像局部特征的信息提取能力；将编码器中的部分注意力头替换为搭建的卷积模块，降低了完全由注意力机制构成的编码器引起的大参数量，提高了模型的收敛速度，降低了模型的训练耗时。用在航空飞机、遥感卫星、智慧交通、智慧农业等对遥感图像目标检测实时性和准确率要求都比较高的领域。

下面通过实验及其结果数据对本发明的技术效果再作说明

实施例8

基于融合卷积注意力机制的遥感图像目标检测方法同实施例1-7，

实验条件：所有实验均在同一平台下进行，该平台硬件配置的CPU为Intel8358P，GPU为NVIDIA GeForce RTX 3090，显存为24G。实验所使用的操作***为Ubuntu 18.04LTS，使用的深度学***台为CUDA 11.0，GPU加速库为cuDNN8.0.5。

实验内容：采用本发明的基于融合卷积注意力机制的遥感图像目标检测方法，对公开遥感数据集DOTA进行目标检测，使用本发明的训练方法获得训练好的模型，对DOTA数据集中测试集的937张图片进行目标类别和位置准确率测试，随机抽取两张检测结果图片如图6所示，其中，图6(a)是用本发明检测的含有小车辆、大车辆目标的检测结果图片，

实验结果与分析：参见图6(a)，从图6(a)可以看出，所有被检遥感图像中的小车辆、大车辆目标均被检出，且大部分检测框的置信度较高，对于旋转方向的目标以及旋转多方向的目标都能用旋转框准确检测，没有目标漏检情况，本发明对遥感数据集中的大目标和小目标均有良好的检测性能。

实施例9

基于融合卷积注意力机制的遥感图像目标检测方法同实施例1-7，实验条件和实验内容同实施例8。

实验结果与分析：参见图6(b)，图6(b)是用本发明检测出的含有小车辆、环形路段目标的检测结果图片。具体是本发明针对遥感图像目标类别和位置准确率的检测，从图6(b)可以看出，所有被检遥感图像中的小车辆、环形回路目标均被检出，且大部分检测框的置信度较高，图中可见，本发明对于小车辆和环形回路这两种尺度差距巨大的目标都能准确检出，没有目标漏检情况，验证了本发明设计的特征提取主干网络通过下采样操作提取图像多尺度特征的能力，本发明对遥感数据集中的大目标和小目标均有良好的检测性能。

实施例10

基于融合卷积注意力机制的遥感图像目标检测方法同实施例1-7，实验条件同实施例8。

实验内容：分别使用本发明的基于融合卷积注意力机制的遥感图像目标检测方法、基于注意力机制的遥感图像目标检测方法DETR以及基于卷积的感图像目标检测方法ReDet在DOTA数据集上进行对比试验，对比实验结果见表1。

表1DOTA遥感数据集上的对比实验结果

实验结果与分析：从表1可以看出，无论对于场地、交通工具、路段的目标相比基于卷积的遥感图像目标检测方法，本发明在大部分目标包括尺度差别大的目标的检测精度上均有提升，相比基于注意力机制的遥感图像目标检测方法，本发明在大目标上与其有差不多的检测精度，在小目标上有更好的检测精度。

综上所述，本发明是一种基于融合卷积注意力机制的遥感图像目标检测方法，解决了现有端到端遥感图像目标检测技术中，模型对遥感图像小目标物体检测精度低，模型训练时收敛速度慢的技术问题。实现包括：收集并处理遥感图像数据；搭建特征提取主干网络；搭建融合卷积的Transformer编码器；搭建混合注意力机制的Transformer解码器；组成融合卷积注意力机制目标检测网络模型；训练融合卷积注意力机制目标检测网络模型；测试融合卷积注意力机制目标检测网络模型。本发明采用金字塔结构的下采样特征提取主干网络，对不同大小的输入图像输出大小相同的特征矩阵，解决了遥感图像目标多尺度的检测难点；搭建了由深度卷积、逐点卷积、激活函数、归一化层组成的卷积模块，增强了模型对遥感图像局部特征的信息提取能力；将多头注意力模块中的部分注意力头替换为搭建的卷积模块，降低了由注意力机制对图像像素量二次幂矩阵点积运算的大参数量，提高了模型的收敛速度，降低了模型的训练耗时。用在航空飞机、遥感卫星、智慧交通、智慧农业等对遥感图像目标检测实时性和准确率要求都比较高的领域。

Claims

1.一种基于融合卷积注意力机制的遥感图像目标检测方法，其特征在于，包括有如下步骤：

步骤1，收集并处理遥感图像数据：从公开网站中获取公开的遥感图像，将其划分为训练数据集、验证数据集、测试数据集，总体构成遥感图像数据集；该遥感图像数据集共包含十五类目标，分别是：飞机、船、存储罐、棒球场、网球场、篮球场、操场、港口、桥梁、大型车辆、小型车辆、直升飞机、环岛、足球场、游泳池；将遥感图像数据集中的原始图像数据所有目标的坐标和类别信息生成txt文件，并和原始图像数据一起输入到搭建的特征提取主干网络中；

步骤2，搭建特征提取主干网络：搭建的特征提取主干网络由四个卷积组顺序连接构成，第一个卷积组依次通过卷积层、Norm层、激活函数层、最大池化层构成；其中，第二、三、四卷积组分别由不同数目的残差连接单元顺序连接构成，每个残差连接单元的结构为卷积层、GN层、激活函数层顺序堆叠而成；输入的原始图像数据经过搭建的特征提取主干网络下采样操作后输出遥感图像特征矩阵；

步骤3，搭建融合卷积的Transformer编码器：搭建的Transformer编码器包含有卷积模块和注意力模块并行连接构成的融合卷积多头注意力模块，该编码器从输入端依次包括有融合卷积多头注意力模块、残差连接和层归一化模块、前向传播模块、残差连接和层归一化模块，其中，所述融合卷积多头注意力模块中的卷积模块包括有顺序连接的第一卷积层、第一激活函数层、第二卷积层、BN层、第二激活函数层、第三卷积层，注意力模块包括有顺序连接的LN层、自注意力层、前馈网络层；其中，卷积模块和注意力模块的比例为4：4，卷积模块与注意力模块输出后的矩阵大小相同，通过concat级联后形成与融合卷积的Transformer编码器输入矩阵大小相同的输出矩阵；

步骤6，训练融合卷积注意力机制目标检测网络模型：用训练数据集对由特征提取主干网络、融合卷积注意力机制编码器、混合注意力机制解码器顺序连接构成的融合卷积注意力机制目标检测网络模型进行训练，得到训练好的融合卷积注意力机制目标检测网络模型；

2.根据权利要求1所述的基于融合卷积注意力机制的遥感图像目标检测方法，其特征在于，步骤2中搭建的特征提取主干网络，由四个卷积组顺序连接构成；第一卷积组由一个卷积层、一个GroupNorm层、一个激活函数层、一个最大池化层顺序组成；第二卷积组由三个相同的残差模块1顺序连接构成，每一个残差模块1由三个不同的卷积层顺序连接构成；第三卷积组由四个相同的残差模块2顺序连接构成，每一个残差模块2由三个不同的卷积层顺序连接构成；第四卷积组由九个相同的残差模块3顺序连接构成，每一个残差模块3由三个不同的卷积层顺序连接构成。

3.根据权利要求1所述的基于融合卷积注意力机制的遥感图像目标检测方法，其特征在于，步骤3中搭建的融合卷积的Transformer编码器，由六个相同的编码器单元顺序连接构成；每一个编码器单元的结构完全相同，由一个融合卷积多头注意力模块、第一残差连接和层归一化模块、一个前向传播模块、第二残差连接和层归一化模块顺序连接构成；特征提取主干网络的输出序列加上位置编码后生成位置编码特征序列，作为整个编码器的输入，输入到第一编码器单元；编码器单元中，第一残差连接和层归一化模块将所属编码器单元的输入矩阵与多头注意力模块的输出矩阵进行相加短接，接着将短接后的矩阵进行归一化处理；前向传播模块由一个linear线形层、relu激活函数层、dropout层顺序连接构成；第二残差连接和层归一化模块将第一残差连接和层归一化模块的输出矩阵与前向传播模块的输出矩阵进行相加短接，接着将短接后的矩阵进行归一化处理；对于第一、二、三、四、五编码器单元，当前编码器单元的输出矩阵作为下一个编码器单元的输入矩阵；特殊的，第六编码器单元的输出矩阵分别作为解码器中六个解码器单元的输入矩阵。

4.根据权利要求1或3所述的融合卷积的Transformer编码器，其特征在于，融合卷积的Transformer编码器中的融合卷积多头注意力模块，由四个自注意力单元与四个卷积单元并行构成；其中，四个自注意力单元结构相同，每个自注意力单元首先通过将输入矩阵与三个不同参数的矩阵相乘即对输入矩阵进行三种不同的线性变换，得到三个大小相同参数不同的矩阵Q、K、V，然后通过softmax函数对Q、K、V三个矩阵进行计算获得注意力参数矩阵，公式如下所示：

四个卷积单元结构相同，每个卷积单元由第一卷积层、第一激活函数层、第二卷积层、Norm层、第二激活函数层、第三卷积层顺序连接构成。

5.根据权利要求1所述的基于融合卷积注意力机制的遥感图像目标检测方法，其特征在于，步骤4中的混合注意力机制的Transformer解码器，由六个解码器单元顺序连接构成；每个解码器单元结构相同，由多头自注意力模块、第一残差连接和层归一化模块、多头交叉注意力模块、第二残差连接和层归一化模块、前向传播模块、第三残差连接和层归一化模块顺序连接构成。

6.根据权利要求1所述的基于融合卷积注意力机制的遥感图像目标检测方法，其特征在于，步骤6中的训练网络模型是用遥感图像训练数据集对融合卷积注意力机制目标检测网络进行训练，具体是：

次停止更新，训练结束；