CN115861756A

CN115861756A - 基于级联组合网络的大地背景小目标识别方法

Info

Publication number: CN115861756A
Application number: CN202211656006.5A
Authority: CN
Inventors: 张维光; 苏鹏创; 冀文欢
Original assignee: Xian Technological University
Current assignee: Xian Technological University
Priority date: 2022-12-22
Filing date: 2022-12-22
Publication date: 2023-03-28

Abstract

本发明公开了一种基于级联组合网络的大地背景小目标识别方法，主要解决现有技术在对地观测动态和复杂大地背景下不易实现与小目标区域粗分割和小目标识别的问题。其方案是：构建、增强、标注、转换和划分大地背景小目标可见光图片数据集；基于现有的语义分割模型，通过引入注意力机制、多尺度小目标特征融合结构、残差网络构建大地背景小目标分割模型，并对其进行训练实现对背景和小目标的区域粗分割；对现有的小目标检测模型进行训练得到大地背景下小目标识别模型，使用该模型完成对粗分割后且经预处理后图片的再识别。本发明提高了空对地观测复杂、多变大地背景与小目标间的区域粗分割和识别精度，可用于遥感图像、交通监控、自动驾驶多种场景。

Description

基于级联组合网络的大地背景小目标识别方法

技术领域

本发明属于目标检测技术领域，特别涉及一种大地背景小目标识别方法，可用军工航空、遥感图像、土地和房屋测量规划、交通监控、自动驾驶的多样化场景。

背景技术

近年来，随着目标检测领域的技术发展，小目标识别逐渐成为目标检测领域中的热点和难点，而对于大地背景下的小目标识别也已逐渐成为目标检测领域中极具挑战的任务之一，语义分割技术是实现对大地背景和小目标间区域粗分割的关键技术，而目标识别模型则是对于基于分割结果的进一步识别的有效方式，最终可进一步提高大地背景下的小目标的识别效果。此发明在军工航空、遥感图像、土地和房屋测量规划、交通监控、自动驾驶等未来多样化的场景领域中有着重要的研究意义和越来越广泛的应用价值。

针对在复杂、多变大地背景下的小目标存在分辨率低、灰暗、不易被定位且难以看见、大地背景和小目标难以区分的问题。现有技术主要采用目标检测模型或语义分割进行目标识别，其中目标检测模型是用矩形框来标注和预测图像中的小目标，且存在只会标出目标的大致位置的问题；语义分割是对像素级别进行分类，即告诉图片中某一块像素的label具体是什么，比如会告诉这个像素是某个目标，例如：car的像素，但是对于更小的目标存在分割覆盖率不高且边缘分割效果还有优化空间。因而对于同类不同形态小目标识别、不同建筑物的小识别，使用单一的语义分割或目标识别模型无法实现对大地背景的小目标进行准确的分割和识别。

申请号为：CN202210296396.3的专利公开了一种基于改进DeepLabV3+的遥感影像建筑物提取方法，其提出了密集ASPP模块，即在分割模型中的ASPP结构选用6、12、18这几种不同的空洞卷积率，并通过级联方式组合，每一层空洞卷积的输入与前面所有并行空洞卷积层的输出拼接在一起作为当空洞卷积层的输入。但这样的空洞率大小未能捕获到更多尺度的有效小目标特征，并不利于分割深层的低分辨率小目标特征图，也未能实现将浅层和深层特征高效融合。

申请号为CN202210030581.8的专利公开了一种基于通道-空间注意力和DeepLabV3plus的遥感影像语义分割方法，其将Xception主干网络模型提取出的深层特征作为通道注意力卷积结构的输入，输出的结果与深层特征的乘积作为空间注意力卷积结构的输入，空间注意力卷积模块输出的结果与深层特征的乘积作为通道-空间注意卷积模块的输出。这种方式仅仅对于主干网络提取出的部分深层小目标特征进行了处理，却忽略了主干网络中的浅层特征。而由于高分辨率特征大的特征图由于感受野较小，同时特征包含位置信息丰富，更适合检测小物体。

申请号为CN202210677113.X的文献公开了一种基于DeepLabv3+的改进语义分割方法，其在空间金字塔模块分别使用一个1x1的卷积，三个膨胀率分别为6、12、18的膨胀卷积以及一个ImagePooling(全局平均池化)模块组成，三个膨胀卷积用来捕获不同尺度的感受野信息并捕获不同尺度的特征信息，全局平局池化和1x1卷积被用于提取特征。但随着模型层数的加深，尤其在小目标在整张图片中占比小的场景，仅仅三个膨胀卷积对于更小分辨率的深层和高级语义小目标特征的提取能力依旧有限。

申请号为CN202210704308.9的专利公开了一种小目标识别算法，将图像划分为重点区和非重点区，将这些区域进行网格化，按照3x3为一个单元，使用神经元对每个读取单元的特征量进行读取，并与数据库进行对比，使***对于每一个目标都能根据体积数据，判别目标是否足够清洗捕捉。但这种单图像分割区域方法和网格化的图像识别算法，在复杂多变背景和的小目标的灰度值或颜色相似的场景，可能会忽略图像中的一些小目标边缘信息，同时，相同和不同的目标特征重叠之后也无法有效区分，最终会影响实现背景和小目标识别效果。

发明内容

本发明的目的在于针对上述现有技术的不足，提出一种基于级联组合网络的大地背景小目标识别方法，以通过融合检测方式，解决对于大地背景和目标区域粗分割问题，实现在空对地观测复杂、多变大地背景下的小目标识别。

实现本发明目的技术方案包括如下：

(1)构建语义分割模型和yolov5-s小目标检测网络模型的大地背景小目标图片数据集：

1a)对大地背景下的小目标可见光图像数据集进行图像增强和软件标注的预处理；

1b)将预处理后数据集按照8：2的比例划分为语义分割模型的训练集和验证集；

1c)将预处理后的数据集按照8：1：1的比例划分为yolov5-s小目标检测网络模型的训练集、验证集和测试集；

(2)对现有的Deeplabv3plus语义分割模型进行改进，构建大地背景小目标分割模型：

2a)对语义分割网络模型的主干网络中1个浅层高分辨率特征层和2个深层低分辨率特征层，引用注意力机制进行处理，得到更深层的特征层；

2b)在语义分割模型中的小目标特征融合ASPP特征融合结构的基础上增加一个新的小目标特征融合分支，并调整其内部空洞卷积的空洞率参数为4、8、12、16，形成多尺度小目标特征融合ASPP-6结构,用于以加强融合后的第一个深层低分辨率特征层；

2c)利用语义分割网络模型中的主干网络提取适合小目标分割的浅层高分辨率特征层，使用1x1卷积对通道数进行调整处理，并将该通道数调整后的浅层高分辨率特征层与2b)中加强融合后的低分辨率特征层引用concat函数进行堆叠处理，形成残差网络结构；

2d)将步骤2a)通过注意力机制处理后的主干网络、步骤2b)形成的多尺度小目标特征融合ASPP-6结构、步骤2c)形成的残差网络结构依次级联，构成大地背景小目标分割模型；

(3)对大地背景小目标分割模型进行训练：

(3a)利用现有的Pascal VOC2007公开数据集的训练集，采用先前向传播、再反向传播的训练方式对大地背景小目标分割模型进行预训练，得到预训练后的大地背景小目标分割模型；

3b)利用语义分割模型的训练集，使用先冻结骨干网络、再解冻骨干网络的两阶段训练方式，对预训练后的大地背景小目标分割模型再进行训练,得到训练好的大地背景小目标语义分割模型，并生成经由语义分割模型的训练集训练的模型权重文件；

(4)基于语义分割模型的验证集，对训练好的大地背景小目标语义分割模型，使用大地背景小目标分割模型的预测脚本文件进行验证，实现大地背景和小目标的区域粗分割；

(5)基于1c)中的yolov5-s小目标检测网络模型的训练集，使用混合精度训练方法对yolov5-s小目标检测网络模型进行训练，获得训练好的大地背景下小目标识别模型，并生成经由小目标检测网络模型的训练集训练的模型权重文件；

(6)使用训练好的大地背景下小目标识别模型对大地背景小目标语义分割模型粗分割后的图片数据集进行检测，检测出图片数据集中大地背景下小目标的位置和类别，即在大地背景和小目标的区域粗分割的基础上再对大地背景下小目标的识别，实现背景分割和目标识别的级联组合检测。

本发明与现有技术相比，具有如下优点：

第一，本发明由于对大地背景下的小目标可见光图像数据集进行图像增强和软件标注的预处理，可提高小目标边缘清晰度和小目标在图片数据集中的类别占比。

第二，本发明由于基于现有的Deeplabv3plus语义分割模型，构建了大地背景小目标分割模型，即对于分割模型主干网络提取的不同尺度和深度的3个特征引用通道注意力机制和空间注意力机制进行处理，使得网络更容易注意到小目标的特征，提高小目标的深度特征权重；同时由于在特征融合结构中增加了一个新的小目标特征融合分支，并构成ASPP-6结构，可保留更多尺度特征信息预防边界细节信息丢失，不仅对于空洞率较大的卷积核有利于分割大目标，而且对于空洞率较小的卷积核，更有利于分割小目标；此外由于设计了残差网络结构，可有效提高模型泛化能力。

第三，本发明由于采用大型公开数据集Pascal VOC2007预训练，用混合精度训练的方式对级联组合的大地背景小目标分割模型进行有效训练，可大幅减少显存消耗，加快模型的训练速度，利用其训练好的小目标分割模型和小目标识别模型，提高了空对地观测复杂、多变大地背景和小目标间的分割和识别精度。

附图说明

图1是本发明的实现流程图；

图2是本发明中的大地背景小目标分割模型图：

图3是本发明中多尺度小目标特征融合ASPP-6结构图；

图4是本发明中的注意力机制与残差结构图；

图5是现有Deeplabv3plus模型和本发明大地背景语义分割模型的平均交并比指标图；

图6现有的Deeplabv3plus模型和本发明大地背景语义分割模型对小目标的平均分类准确度指标图。

具体实施方式

以下结合附图对本发明的实施例和效果作进一步详细描述。

参照图1，本实例的实现步骤如下：

步骤1，构建大地背景小目标图片数据集。

本步骤的具体实现如下：

1.1)获取大地背景下的小目标可见光图像数据集：

根据模拟机载、弹载空对地观测时，小目标本身模糊、难识别，且在整张图片中所占比例小、甚至在光线暗、复杂多变的大地的背景中难被区分的场景，使用工业相机获取图像并构建大地背景小目标数据集总计15000张；

1.2)对获取的小目标可见光图像数据集进行图像增强的预处理：

针对图片中小目标本身灰暗、模糊、在整张图片中占比小、占比少的问题，使用Mosaic算法，从构建的大地背景小目标数据集中随机选取四张图片为一组分别对四张图片进行翻转、缩放、色域变化，并按照四个方向位置摆好，将四张图片随机拼接成分辨率为1024像素x768像素的一张图片，以丰富小目标的特征，且在模型计算的时候一次可计算四张图片的数据，不仅丰富了小目标和背景和特征信息，而且提升了模型运算速率与泛化能力；

针对小目标被干扰、轮廓清晰度差，且与大地背景难以区分的问题，使用Opencv库的中值滤波算法对数据集进行处理，以提高house、plane、tank、car四类小目标的边缘清晰度。

针对图片中大、小目标类别不平衡的问题，使用平铺小目标方法，增加小目标在图片中的数量,提高模型对于小目标的权重，以使网络更平等地对待不同尺度的目标。

步骤2，对获取的小目标可见光图像数据集按照不同的模型进行标注、转换和划分。

本实例使用现有Deeplabv3plus语义分割模型和yolov5-s小目标检测网络模型。

所述语义分割模型，其由编码和解码两大部分级联而成。

该编码部分由分割主干网络、特征融合ASPP结构和一个1x1卷积依次级联构成。其中，分割主干网络用于提取小目标特征层，主要由卷积、批量归一化、激活函数和池化模块级联而成；特征融合ASPP结构由一个1x1卷积、3个不同空洞率大小的3x3空洞卷积和一个池化模块级联而成，用于实现高级层和低级特征层的融合，加强特征层提取能力；

该解码部分由若干1x1卷积、concat函数、3x3卷积和上采样模块依次级联构成，1x1卷积调整特征层的通道数为小目标分割类别数，concat函数用于融合特征层，上采样利用resize函数输出宽高和输入图片一样的特征层。

所述yolov5-s小目标检测网络模型，包括检测主干网络、加强特征提取和融合、检测头三大部分。

该检测主干网络结构主要通过一系列的卷积、批量归一化、激活函数和池化来提取图像中不同尺度小目标的特征；

该加强特征提取和融合结构，由一个金字塔和若干上采样和下采样模块组成，用于实现对小目标多尺度特征的加强提取和融合目的；

该检测头部分，主要是多个尺度的检测头，用作预测大地背景中小目标的位置和类别。

本步骤的具体实现如下：

2.1)对获取的小目标可见光图像数据集进行软件标注的预处理：

目标分割需要精确级别的像素级标注，包括用点和线条勾画出每一个小目标的轮廓等详细信息，本实例中使用Labelme软件进行标注对不同数据集进行标注，其中：

对于语义分割模型的数据集，使用Labelme软件为每一种小目标赋予一个颜色，共5类目标，分别为"car"、"house"、"plane"、"tank",对应颜色依次为红色、绿色、黄色、蓝色、背景默认为黑色。标注完成后生成json格式文件；

对于yolov5-s小目标检测网络模型数据集，使用LabelImg软件用不同大小的矩形框将house、plane、tank、car这4类的小目标框出，标注完成后生成xml格式文件。

由于制作数据集成本过高，本实例目前只标注了语义分割模型数据集4000张，标注了yolov5-s小目标检测网络模型数据集12000张，后续工作中会根据网络模型的效果再进行背景分割数据集的标注。

2.2)对预处理后标注文件进行转换:

标注后的文件只有转换为标签文件才能进行模型训练，本实例对不同标注文件分别进行转换：

对于语义分割模型数据集的标注文件的转换，是将输入的json标注文件和对应的原jpg图片通过分割转换脚本文件转换为输出为png标签文件，例如，输入为1.json标注文件和1.jpg图片，通过分割转换脚本文件得到输出为1.png标签文件，即完成了标签文件的转换工作；

对于yolov5-s小目标检测网络模型数据集标注文件的转换，是将输入为xml的标注文件通过检测转换脚本文件转换为输出为txt格式的文件，即完成标签文件的转换工作。

2.3)划分数据集为训练集和验证集

对语义分割模型数据集和yolov5-s小目标检测网络模型数据集按照不同的比例进行训练集和验证集的划分，其中：

对于语义分割模型数据集的划分是基于分割划分脚本文件，将2.1)生成的png标签文件按照8:2的比例划分为训练集和验证集，生成train.txt和val.txt图片，其中train.txt用于模型的输入训练数据val.txt用于验证模型和可视化分割小目标结果；

对于yolov5-s小目标检测网络模型数据集的划分是基于检测划分脚本文件，将2.2)生成的txt格式文件按照为8:1:1的比例划分训练集、验证集、测试集；生成train.txt和val.txt和test.txt图片，其中train.txt用于训练模型，val.txt用于评估模型，test.txt用于可视化小目标检测结果。

步骤3，构建大地背景小目标分割模型。

参照图2，本步骤基于对现有的Deeplabv3plus语义分割模型进行改进，其实现如下：

3.1)对语义分割网络模型的主干网络中1个浅层高分辨率特征层采用通道注意力机制进行处理：

3.1.1)对浅层高分辨率特征层先进行全局平均池化，再进行两次全连接的处理；

3.1.2))对经2.1.1)处理后的浅层高分辨率特征层引用sigmoid函数计算每一个特征点的权值w，并将该权值与输入的浅层高分辨率特征层相乘，完成对浅层高分辨率特征层的注意力机制处理，其中w取值在0-1之间；

3.2)对语义分割网络模型的主干网络中2个深层低分辨率特征层，采用通道注意力机制与空间注意力机制进行处理：

3.2.1)对2个深层低分辨率特征层的通道注意力机制处理：

所述通道注意力机制的处理分为2条支路，每个深层低分辨率特征层先通过第一条支路依次进行全局平均池化、第一全连接层、relu激活函数、第二全连接层的处理；再通过第二条支路依次进行最大池化、第一全连接层、relu激活函数、第二个全连接层的处理；

之后，将两条支路的处理结果进行相加，并经过sigmoid函数计算每个输入深层低分辨率特征层的每一个通道权值w^,,其中w^,取值在0-1之间；

3.2.2)对2个深层低分辨率特征层的空间注意力机制处理：

在每个深层低分辨率特征层的每一个特征点的通道上先取最大值和平均值，并将这最大值和平均值引用concat函数进行堆叠，即通过concat函数将两者的通道数进行相加，并利用一次通道数为1的卷积调整通道数；

对通道数调整后的每个深层低分辨率特征层，通过sigmoid函数计算其每一个特征点的权值w^,,,其中w^,,的取值在0-1之间；

3.2.3)将每个输入的深层低分辨率特征层均依次与通道注意力机制获得的权值w^,和空间注意力机制获得的权值w^,,进行相乘，完成对2个深层低分辨率特征层的注意力机制处理；

通过步骤2.1)和步骤2.2)对语义分割网络模型的主干网络中1个浅层高分辨率特征层和2个深层低分辨率特征层的注意力机制处理，得到更深层的特征层。

3.3)在语义分割模型中的小目标特征融合ASPP特征融合结构的基础上增加一个新的小目标特征融合分支，并调整其内部空洞卷积的空洞率参数为4、8、12、16，形成多尺度小目标特征融合ASPP-6结构,如图3所示，其包括前、后两部分，该前半部分由1x1卷积、空洞率为4的3x3卷积、空洞率为8的3x3卷积、空洞率为12的3x3卷积、空洞率为16的3x3卷积、全局平均池化这6个分支依次级联组成，其中每一个分支会生成一个特征层，每一个3x3卷积分支由卷积、批量归一化和relu激活函数构成；该后半部分为引用conact函数对这6个分支处理后的特征层进行小目标特征融合操作，以加强融合后的第一个深层低分辨率特征层；

3.4)利用语义分割网络模型中的主干网络提取适合小目标分割的浅层高分辨率特征层，使用1x1卷积对通道数进行调整处理，并将该通道数调整后的浅层高分辨率特征层与2.3)中加强融合后的低分辨率特征层引用concat函数进行堆叠处理，形成由一个浅层高分辨率特征层和ASPP-6结构得到的低分辨率特征层并联而成的残差网络结构，如图4所示；

3.5)将步骤3.1)和步骤3.2)通过注意力机制处理后的主干网络、步骤3.3)形成的多尺度小目标特征融合ASPP-6结构、步骤3.4)形成的残差网络结构和1x1卷积依次级联，构成改进后的语义分割模型编码部分，该编码部分和原模型的解码部分组成大地背景小目标分割模型。

步骤4，对大地背景小目标分割模型进行训练。

本实例中大地背景小目标分割模型和yolov5-s小目标检测网络模型的测试和评估等工作均基于python3.9、pytorch1.11和pycharm平台搭建。

3.1)利用现有的Pascal VOC2007公开数据集的训练集，采用先前向传播、再反向传播的训练方式对大地背景小目标分割模型进行预训练，得到预训练后的大地背景小目标分割模型，且生成预训练权重文件：

3.1.1)将现有的Pascal VOC2007公开数据集的训练集放置到模型的训练文件路径下；

3.1.2)设置模型的相关训练参数：

设置训练轮数为50，最大学习率为0.001，最小学习率为0.0001，选用adam优化器、输入图片大小为640像素x 640像素、分割小目标和背景类别总数为21、下采样倍数为8、训练线程数为8、引用统一计算设备架构加速模块；

3.1.3)开始训练：

训练轮数从1开始，整个模型的训练将依次进行前向传播和反向传播过程，即先依次经大地背景小目标分割模型的主干网络部分、残差网络结构、多尺度小目标特征融合ASPP-6结构进行前向传播；再依次经多尺度小目标特征融合ASPP-6结构、残差网络结构、主干网络部分进行反向传播；

每完成一次前向和反向传播，将当前训练轮数加1，直到当训练轮数达到训练轮数50时，完成对大地背景小目标分割模型的预训练，并生成基于Pascal VOC2007公开数据集训练的预训练权重文件。

3.2)用语义分割数据集的训练集对大地背景小目标分割模型再训练，得到再训练后的大地背景小目标分割模型，且生成再训练权重文件：

为了使大地背景小目标分割模型学习语义分割数据集的训练集中图片的小目标的特征，并用训练后的模型对于验证集中的图片进行分割，需要用语义分割数据集的训练集对大地背景小目标分割模型再训练，再训练模型使用的权重文件为3.1.3)得到的预训练权重文件、使用的数据集是将语义分割数据集的训练集放置到大地背景小目标分割模型的训练文件路径下，设置大地背景小目标分割模型的总训练轮数为50，其具体实现是分为冻结训练和解冻训练这两阶段：

3.2.1)冻结训练：

设前25个训练轮数为冻结训练阶段，最大学***衡，引用统一计算设备架构加速模块；

运行训练脚本文件表示训练开始，此时训练轮数从1开始，当大地背景小目标分割模型完成对语义分割数据集中训练集的一次遍历即代表一个训练轮数结束，然后开始下一轮的训练，以此递增，当训练轮数达到25时，完成冻结训练阶段；

3.2.2)解冻训练：

从训练轮数为26开始解冻训练阶段，相比于3.2.1)的冻结训练阶段，不同之处是调整模型的训练参数，主要如学习率为0.0005、一次训练所抓取的数据样本数量为2、且占用显卡内存翻一倍。当训练轮数达到50时，完成解冻训练阶段，同时，也代表完成整个大地背景小目标分割模型的再训练，生成再训练权重文件，该文件用于对模型的验证和对语义分割模型验证集的分割。

步骤4，基于语义分割模型的验证集，对训练好的大地背景小目标语义分割模型，使用大地背景小目标分割模型的验证脚本文件进行验证，实现大地背景和小目标的区域粗分割。

4.1)利用平均交并比和平均粗分割准确度指标对大地背景小目标分割模型进行有效的验证：

选用语义分割模型的验证集来验证大地背景小目标分割模型，其具体实现为引用模型中现有的验证脚本文件，先将文件内部的分割类别数参数设置为5，再将其内部权重文件调整为3.2)生成的再训练权重文件，然后运行验证脚本文件，最终得出平均交并比指标和目标与背景的区域平均粗分割准确度指标，通过这两个指标即完成基于语义分割验证集对大地背景小目标分割模型的验证。所述平均交并比即为标注的小目标面积和模型预测出的小目标面积这两者的交集和并集之比；

4.2)实现大地背景和小目标的区域粗分割：

通过现有的预测脚本对于验证集中的任一张图片中实现，即通过运行预测脚本弹出一个窗口，在窗口以“img/图片名称.图片格式”的格式输入，输出一张带有分割效果的图片，其里面包含的每一个小目标被一种颜色覆盖，例如背景被黑色区域覆盖，装甲车被红色区域覆盖，房子被绿色区域覆盖，飞机被黄色区域覆盖，坦克被蓝色区域覆盖，即完成大地背景与小目标间的粗分割，依次证明本发明中的大地背景小目标分割模型已经实现了对复杂、多变大地背景和小目标间的区域粗分割的功能。

步骤5，对yolov5-s小目标检测网络模型进行训练。

5.1)将标注好的xml格式的标签文件放在建立好的VOCdevkit文件夹下的VOC2007文件夹下的Annotation文件中；将原图文件放在VOCdevkit文件夹下的VOC2007文件夹下的JPEGImages中；之后建立了一个cls_classes.txt文件，该文件里面写有yolov5-s小目标检测网络模型所需要区分识别的4种目标，即house、car、plane、tank。

5.2)设置该模型的相关训练参数：

设置训练总轮数为50，最大学习率为0.001，最小学习率为0.0001，选用adam优化器，模型权重为已有的模型权重文件、输入图片大小640x 640像素、识别小目标类别数为4、下采样倍数为8、GPU线程数为8、引用统一计算设备架构加速模块；

5.3)开始训练模型：

该部分模型的训练是一方面是为了使模型能够学习到图片中的小目标特征，另一方面是用yolov5-s小目标检测网络模型对分割后的图片进行检测。

在模型训练的前半部分，引用深度学习pytorch框架自带的torch.cuda.amp模块实现，即将模型训练过程中主干网络所使用的梯度下降函数作为torch.cuda.amp函数的输入，依次经yolov5-s小目标检测网络模型的主干网络、加强小目标特征提取部分和检测头部分，对其进行优化处理；

每完成一次对这三部分的迭代，训练轮数加1，当训练轮数到达50或torch.cuda.amp函数收敛时停止模型训练，获得训练好的大地背景下小目标识别模型，同时，生成大地背景下小目标识别模型权重文件。

步骤6，使用训练好的大地背景下小目标识别模型对经大地背景小目标语义分割模型粗分割后的图片数据集进行检测。

在复杂多变、动态及随机的大地背景环境中，对同类别不同形态的小目标分割与识别、不同建筑物的分割与识别，可仅使用现有的Deeplabv3plus语义分割模型进行；

面对小目标体积小，在图片中占比小、且其边缘轮廓不清晰等场景时，会出现错分割甚至漏分割小目标的问题，可使用yolov5-s目标检测模型进行检测，但面对小目标混合在一起或相互被遮挡等场景时，会出现检测精度低、错检测甚至漏检测的问题。

可见，单一的语义分割模型或目标检测模型均存在优化空间，且无法实现对小目标和大地背景的精准的分割和识别。

本实例针对现有技术使用仅分割或仅检测的单一模型存在的问题，提出面向特殊大地场景的小目标级联检测技术，即先实现目标与大地背景分割再进行目标识别的的策略，具体实现如下：

6.1)对于4.2)分割后的任一图片，经过随机翻转、裁剪、融合、色域变化的预处理，得到处理后的分割图片；

6.2)使用训练好的大地背景下小目标识别模型对6.1)处理后的分割图片进一步的检测，识别出图片中大地背景下小目标的位置和类别，即在目标粗分割的基础上取得大地背景下小目标识别的良好效果，最终完成空对地观测复杂、多变的大地背景与小目标间的区域粗分割和小目标识别任务。

本发明的效果可通过以下对比仿真实验进一步说明:

一，仿真条件

本发明进行的所有仿真实验基于Intel i9-10980XE 3.0GHz*18处理器、128G RAM和NVIDIA RTX3090 24G显存的实验平台、jupyter notebook、Python3.9、Pytorch1.11深度学习框架、cuda10模块库、cudnn11模块库和Pycharm2020集成开发环境软件。

二，仿真内容

仿真1，在上述仿真条件下，利用现有的分割验证脚本，基于语义分割数据集的验证集，分别用现有的Deeplabv3plus模型和本发明的大地背景语义分割模型在复对杂多变的特殊大地背景环境下对background、car、house、plane和tank这五类小目标进行识别，得到其平均交并比指标参数如图5所示。其中图5(a)是现有Deeplabv3plus模型的平均交并比指标图；图5(b)是本发明大地背景语义分割模型的平均交并比指标图。

从图5可以看出，现有的Deeplabv3plus模型对tank类的目标的平均交并比为0、85，plane类的目标的平均交并比为0、84，house类的目标的平均交并比为0、77,car类的目标的平均交并比为0、86，整体平均交并比为86.42％的。而本发明的大地背景语义分割网络模型可达到87.38％的平均交并比，比现有技术整体上提升了0.96％，，其中对tank、plane、house、car类的小目标的均有所提升。

实验结果表明：本发明的大地背景语义分割网络模型可使得覆盖在各个小目标上的不同颜色的面积覆盖更准确，覆盖率也更大，交并比更高。

仿真2，在上述仿真条件下，利用现有的分割验证脚本，基于语义分割数据集的验证集，分别用现有的Deeplabv3plus模型和大地背景语义分割模型分别在复杂多变的特殊大地背景环境下对background、car、house、plane和tank这五类小目标进行识别，得到平均粗分割准确度指标参数如图6所示。其中图6(a)为现有的Deeplabv3plus模型对小目标的平均分类准确度指标图；图6(b)为本发明大地背景语义分割模型对小目标的平均分类准确度指标图。

从图6可以看出，现有的Deeplabv3plus模型对tank类的目标的平均分类准确度为0、91，plane类的目标的平均交并比为0、90，house类的目标的平均交并比为0、75,car类的目标的平均交并比为0、83，平均分类准确度为89.93％。而本发明的大地背景语义分割网络模型可达到90.98％的平均分类准确度，比现有技术整体上提升了1.05％。

实验结果表明：本发明的大地背景语义分割模型可对大地背景与小目标实现高准确度的区域间粗分割分类。

以上描述仅是本发明的一个具体实例，不构成对本发明的任何限制，显然对于本领域的专业人员来说，在了解了本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修正和改变，但是这些基于本发明思想的修正和改变仍在本发明的权利要求的保护范围之内。

Claims

1.一种基于级联组合网络的大地背景小目标识别方法，其特征在于，包括以下步骤：

(3)对大地背景小目标分割模型进行训练：

3b)利用语义分割模型的训练集，使用先冻结骨干网络、再解冻骨干网络的两阶段训练方式，对预训练后的大地背景小目标分割模型再进行训练,得到训练好的大地背景小目标语义分割模型，并生成经由语义分割模型的训练集训练的模型权重文件。

(5)基于1c)中的yolov5-s小目标检测网络模型的训练集，使用混合精度训练方法对yolov5-s小目标检测网络模型进行训练，获得训练好的大地背景下小目标识别模型，并生成经由小目标检测网络模型的训练集训练的模型权重文件。

2.根据权利要求1所述的方法，其特征在于，步骤1a)中对大地背景下的小目标可见光图像数据集进行图像增强和软件标注的预处理，实现如下：

1a1)引用OpenCv库的中值滤波函数，使用中值滤波的滤波核与待处理图片中的每一个像素进行卷积操作，并增加各类小目标在图片中的数量，随机对于一些图片中的小目标进行翻转和缩放，实现对数据集的图像增强处理：

1a2)用Labelme软件标注是用线条勾画出每一个小目标的轮廓，即用矩形框框出待检测的小目标，并为每一类小目标设置一种类别，生成地背景小目标检测模型的图像标注数据集。

3.根据权利要求1所述的方法，其特征在于，步骤2a)中引用注意力机制对浅层高分辨率特征层的处理，采用通道注意力机制进行，具体实现如下：

2a1)对浅层高分辨率特征层先进行全局平均池化，再进行两次全连接的处理；

2a2)引用sigmoid函数计算经3a1)处理后特征层每一个特征点的权值w，并将该权值与输入的浅层高分辨率特征层相乘，完成对浅层高分辨率特征层的注意力机制处理，其中w取值在0-1之间。

4.根据权利要求1所述的方法，其特征在于，步骤2a)中引用注意力机制对2个深层低分辨率特征层的处理，采用通道注意力机制与空间注意力机制进行，具体实现如下：

2a3)对2个深层低分辨率特征层的通道注意力机制处理：

所述通道注意力机制的处理分为2条支路，每个深层低分辨率特征层先通过第一条支路依次进行全局平均池化、第一全连接层、relu激活函数、第二全连接层的处理；再通过第二条支路依次进行最大池化、第一全连接层、relu激活函数、第二个全连接层的处理；之后，将两条支路的处理结果进行相加，并经过sigmoid函数计算每个输入深层低分辨率特征层的每一个通道权值w’,其中w’取值在0-1之间；

2a4)对2个深层低分辨率特征层的空间注意力机制处理：

在每个深层低分辨率特征层的每一个特征点的通道上先取最大值和平均值，并将这最大值和平均值引用concat函数进行堆叠；再利用一次通道数为1的卷积调整通道数；然后经过sigmoid函数计算获得每个输入深层低分辨率特征层每一个特征点的权值w”’其中w”的取值在0-1之间；

2a5)将每个输入的深层低分辨率特征层均依次与通道注意力机制获得的权值w’和空间注意力机制获得的权值w,,进行相乘，完成对2个深层低分辨率特征层的注意力机制处理。

5.根据权利要求1所述的方法，其特征在于，步骤2b)中形成的多尺度小目标特征融合ASPP-6结构，包括前、后两部分：

该前半部分由1x1卷积、空洞率为4的3x3卷积、空洞率为8的3x3卷积、空洞率为12的3x3卷积、空洞率为16的3x3卷积、全局平均池化这6个分支依次级联组成，其中每一个分支会生成一个特征层，每一个3x3卷积分支由卷积、批量归一化和relu激活函数构成；

该后半部分为引用conact函数对这6个分支处理后的特征层进行小目标特征融合操作。

6.根据权利要求1所述的方法，其特征在于，步骤2c)中将通道数调整后的浅层高分辨率特征层与加强融合后的低分辨率特征层引用concat函数进行堆叠处理，是通过concat函数将两者的通道数进行相加。

7.根据权利要求1所述的方法，其特征在于，步骤(3a)中利用现有的Pascal VOC2007公开数据集的训练集，采用先前向传播、再反向传播的训练方式对大地背景小目标分割模型进行预训练，实现如下：

3a1)将现有的Pascal VOC2007公开数据集的训练集放置到模型的训练文件路径下；

3a2)设置模型的相关训练参数：

3a3)开始训练模型

8.根据权利要求1所述的方法，其特征在于，步骤4)中基于语义分割模型的验证集，对训练好的大地背景小目标语义分割模型，使用大地背景小目标分割模型的预测脚本文件进行验证，是先将模型中已有验证文件脚本的内部权重文件调整为最终获得的模型权重文件；再随机从验证集中选取一张图片，运行其验证脚本文件，弹出一个终端窗口，在该窗口以“img/图片名称”的格式完成输入，输出为一张经过分割后的图片，即完成对大地背景小目标分割模型的验证。

9.根据权利要求1所述的方法，其特征在于，步骤(5)基于1c)中的yolov5-s小目标检测网络模型的训练集，使用混合精度训练方法对yolov5-s小目标检测网络模型进行训练，实现如下：

5a)将yolov5-s小目标检测网络模型数据集的训练集放置到该模型的训练文件路径下；

5b)设置该模型的相关训练参数：

设置训练总轮数为50。最大学习率为0.001，最小学习率为0.0001，选用adam优化器，模型权重为已有的模型权重文件、输入图片大小640x 640像素、识别小目标类别数为4、下采样倍数为8、GPU线程数为8、引用统一计算设备架构加速模块；

5c)开始训练模型

每完成一次对这三部分的迭代，训练轮数加1，当训练轮数到达50或torch.cuda.amp函数收敛时停止模型训练，获得训练好的大地背景下小目标识别模型。