CN116681983A

CN116681983A - 一种基于深度学习的狭长目标检测方法

Info

Publication number: CN116681983A
Application number: CN202310648368.8A
Authority: CN
Inventors: 焦文华; 骆园; 田玉宇; 李瑞林; 谢小浩; 蔡晓异
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2023-06-02
Filing date: 2023-06-02
Publication date: 2023-09-01
Anticipated expiration: 2043-06-02
Also published as: CN116681983B

Abstract

本发明公开了一种基于深度学习的狭长目标检测方法，涉及狭长目标检测技术领域，将测试图像输入至检测模型中，检测出图像中的目标物体，所述检测模型包括数据采集及预处理模块、狭长目标检测网络训练模块和测试图像检测框生成模块。本发明采用上述结构通过对数据预处理，得到合适大小的图像和增加训练样本，提高网络模型的泛化能力；在BackBone主干网络和Neck之间添加全局注意力机制GAM，增强网络对目标物体特征的提取能力，进而提高对目标的检测精度；引入定向边界框表示方法，进行检测框的准确回归，采用控制阈值去除生成的重复检测框，采用CIoU损失函数，获取更加精准的检测框结果。

Description

一种基于深度学习的狭长目标检测方法

技术领域

本发明涉及狭长目标检测技术领域，尤其是涉及一种基于深度学习的狭长目标检测方法。

背景技术

计算机视觉目标检测旨在识别和定位图像中存在的目标物体，属于计算机视觉领域的经典任务，在信息化智能农业、工业智能化、自动驾驶等领域具有重要的应用价值，成为后续视觉任务的重要前提。随着深度学习技术的飞速发展，目标检测任务也在一步步向新领域突破，陆续解决过去的人工检测方式效率低，准确率差，耗时耗力的问题。

近年来，多领域出现狭长密集目标检测的情况，例如，农业场景下存在粘连的小麦籽粒检测和密集小麦穗检测、从卫星影像下采集的飞机船舰等遥感目标图像以及工业场景下，工业品密集裂纹检测，由于目标之间相互遮挡且目标排布方向不一，目标物体的可分辨度降低，采用常用的单阶段YOLO、SSD以及RetinaNet、双阶段Fast RCNN和Faster RCNN目标检测方法存在精度不高和漏检的问题。

现有的狭长目标检测方法，公开号CN113326763A其公开一种基于边界框一致性的遥感目标检测方法，该方法主要是使用ResNet101 Conv1-5网络模型作为base网络，通过热点图、偏移量信息、预测框信息、方向信息生成预测边界框，根据预测边界框进行定位展示，提高了回归效果及检测速度。但这种方法对于数据集的依赖性强、泛化能力较弱，当场景切换为方向各异的狭长且密集目标数据集时，效率低下、漏检率较高。

因此，有必要提供一种基于深度学习的狭长目标检测方法，来解决上述问题。

发明内容

本发明的目的是提供一种基于深度学习的狭长目标检测方法，着重解决了排布不均、方向各异的狭长目标进行检测时产生的效率低下和漏检问题。

为实现上述目的，本发明提供了一种基于深度学习的狭长目标检测方法，将测试图像输入至检测模型中，检测出图像中的目标物体，所述检测模型包括数据采集及预处理模块、狭长目标检测网络训练模块和测试图像检测框生成模块。

优选的，所述数据采集及预处理模块包括数据采集模块和数据预处理模块，所述数据采集模块，通过相机拍摄的若干张目标图像作为模型训练、验证和测试的数据集；所述数据预处理模块，采用目标检测工具roLabelImg对目标图像进行标注，并对数据集进行裁剪和旋转，将数据集随机分为训练集、验证集和测试集。

优选的，所述检测模型采用卷积、归一化和激活操作提取特征映射，结合信道信息融合运算，将不同降采样率的特征图发送到Neck结构。

优选的，所述检测模型基于初始YOLOX训练进行改进，所述检测模型在训练与推理过程中的检测与回归方式改进为定向边界框检测，采用全局注意力机制GAM并优化损失函数。

优选的，所述定向边界框检测，在常规矩形框的基础上加一个旋转角度θ，其代数表示为(x_c,y_c,w,h,θ)，其中(x_c,y_c)表示范围框中心点的坐标，(w,h)表示范围框的宽和高。

优选的，所述全局注意力机制GAM添加在Backbone主干网络和Neck网络之间。

优选的，所述全局注意力机制GAM，包括以下步骤：

S1：使用全局平均池化GAP模块对目标图像的特征图进行压缩处理；

S2：使用S_D下采样模块，降低特征维度；

S3：使用ReLU函数进行激活；

S4：使用S_U上采样模块，通过全连接层返回原来的维度；

S5：通过sigmoid函数获得归一化的权重；

S6：使用Scale将归一化后的权重加权到每个通道上，输出和输入特征同样数目的权重。

优选的，所述损失函数，采用多任务损失形式，主要由定位损失L_obj、分类损失L_cls和置信度损失L_reg组成，总损失L_total表示如下：

L_total＝L_obj+L_cls+L_reg

式中，定位损失L_obj计算图像目标物体预测框的定位误差，包括边界框的坐标误差和宽高误差；置信度损失L_reg计算目标物体预测框的位置误差；分类损失L_cls计算检测目标预测框的类别误差；

分类损失L_cls由目标类别损失和角度损失组成，用二元交叉熵损失表示如下：

其中，S²为特征图的尺寸，B为锚点的个数，θ为角度的类别，I_ij表示该网络中第j个锚检测目标物体，第j个锚检测到目标物体，I_ij＝1；第j个锚未检测到目标物体，I_ij＝0；P_i(c)表示检测为目标物体的概率，P_i(θ)表示目标物体旋转角度为θ的概率。

优选的，基于交并比改进检测层置信度损失L_obj，使用CIoU计算定位损失和box之间的真实空间关系，交并比计算公式：

式中，pred代表目标物体预测框，targ代表目标物体真实边界框；

式中，用来度量长宽比的相似性；

权重函数：

CIoU损失函数：

其中，l(O_b,O_gt)表示锚框中心点和边界框中心点之间的欧氏距离，w_gt和h_gt为边界框的宽度和高度，w_b和h_b为锚框的宽度和高度。

优选的，所述测试图像检测框生成模块包括检测框的生成和检测结果展示，所述检测框的生成过程中采用控制阈值对检测框进行去重处理。

因此，本发明采用上述一种基于深度学习的狭长目标检测方法，具备以下有益效果：

(1)本发明检测模型在训练与推理过程中的检测与回归方式改进为定向边界框检测，以满足狭长目标物体的检测要求。

(2)本发明采用全局注意力机制提高图像的表征能力，以获取更丰富的目标特性。

(3)本发明采用定向边界框，可以得到矩形在图像中的具***置，从而实现提高旋转目标检测的性能和精度，并减小相应模型的大小，通过定向边界框的检测方法，提高检测准确率。

(4)本发明使用CIoU损失函数，考虑到检测框和真实框之间的位置信息，提高检测性能。

(5)本发明采用控制阈值去重，解决可视化结果存在目标物体出现多个检测框的问题。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1是本发明一种基于深度学习的狭长目标检测方法整体实现流程图；

图2是本发明一种基于深度学习的狭长目标检测方法的数据标注图；

图3是本发明一种基于深度学习的狭长目标检测方法的CBS模块架构图；

图4是本发明一种基于深度学习的狭长目标检测方法的定向边界框示意图；

图5是本发明一种基于深度学习的狭长目标检测方法的GAM示意图；

图6是本发明一种基于深度学习的狭长目标检测方法的解耦合检测头；

图7是本发明一种基于深度学习的狭长目标检测方法的去重处理对比图；

图8是本发明一种基于深度学习的狭长目标检测方法的模型结构图；

具体实施方式

以下通过附图和实施例对本发明的技术方案作进一步说明。

除非另外定义，本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

实施例

如图1-图8所示，本发明提供了一种基于深度学习的狭长目标检测方法，将测试图像输入至检测模型中，检测出图像中的目标物体，检测模型包括数据采集及预处理模块、密集数据检测网络及训练模块和图像检测框生成模块。

数据采集及预处理模块包括数据采集模块和数据预处理模块，数据采集模块，通过相机拍摄的若干张目标图像作为模型训练、验证和测试的数据集；数据预处理模块，采用目标检测工具roLabelImg对目标图像进行标注，并对数据集进行裁剪和旋转，将数据集分别进行旋转30°、60°、90°、120°以及180°预处理操作，并且将大小为2688*2688的图像进行裁剪，最终图像大小为1024*1024，裁剪图像的重合度为200，将数据集随机分为训练集、验证集和测试集，比例为7：2：1。

检测模型基于卷积、批量归一化和SiLlu激活(CBS)模块、跨阶段部分(CSP)结构、特征金字塔网络(FPN)、路径聚合网络(PAN)模块和空间金字塔池化(SPP)模块构建初始模型网络，CBS模块的架构如图3所示，检测模型采用卷积、归一化和激活操作提取特征映射，结合信道信息融合运算，将不同降采样率的特征图发送到Neck结构。可以得到矩形在图像中的具***置，从而实现提高旋转目标检测的性能和精度，并减小相应模型的大小，通过定向边界框的检测方法，提高检测准确率。

检测模型基于初始YOLOX训练进行改进，检测模型在训练与推理过程中的检测与回归方式改进为定向边界框检测，骨干网络延续使用YOLOX-Darknet53，采用全局注意力机制GAM并优化损失函数。

定向边界框检测，在常规矩形框的基础上加一个旋转角度θ，其代数表示为(x_c,y_c,w,h,θ)，其中(x_c,y_c)表示范围框中心点的坐标，(w,h)表示范围框的宽和高。

全局注意力机制GAM添加在Backbone主干网络和Neck网络之间。

全局注意力机制GAM，包括以下步骤：

S2：使用S_D下采样模块，降低特征维度；

S3：使用ReLU函数进行激活；

S4：使用S_U上采样模块，通过全连接层返回原来的维度；

S5：通过sigmoid函数获得归一化的权重；

损失函数，采用多任务损失形式，主要由定位损失L_obj、分类损失L_cls和置信度损失L_reg组成，总损失L_total表示如下：

L_total＝L_obj+L_cls+L_reg

基于交并比改进检测层置信度损失L_obj，使用CIoU计算定位损失和box之间的真实空间关系，交并比计算公式：

式中，用来度量长宽比的相似性；

权重函数：

CIoU损失函数：

测试图像检测框生成模块包括检测框的生成和检测结果展示，检测框的生成过程中采用控制阈值对检测框进行去重处理。

实施例一

以对密集小麦籽粒及杂质检测为例，即对目标物体的所有检测框取最小外接矩形，取外接矩形的圆心即旋转矩形检测框的中心点坐标，根据中心点坐标之间的距离以及置信度进行筛选，具体如下伪代码所示：

因此，本发明采用上述一种基于深度学习的狭长目标检测方法，通过对数据预处理，得到合适大小的图像和增加训练样本，提高网络模型的泛化能力；在BackBone主干网络和Neck之间添加GAM全局注意力机制，增强网络对目标物体特征的提取能力，进而提高对目标的检测精度；引入定向检测框表示方法，进行检测框的准确回归，并采用控制阈值去除重复框，采用CIoU损失函数，获取更加精准的检测框结果，着重解决了排布不均、方向各异的狭长目标进行检测时产生的效率低下和漏检问题。

最后应说明的是：以上实施例仅用以说明本发明的技术方案而非对其进行限制，尽管参照较佳实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对本发明的技术方案进行修改或者等同替换，而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims

1.一种基于深度学习的狭长目标检测方法，其特征在于：将测试图像输入至检测模型中，检测出图像中的目标物体，所述检测模型包括数据采集及预处理模块、狭长目标检测网络训练模块和测试图像检测框生成模块。

2.根据权利要求1所述的一种基于深度学习的狭长目标检测方法，其特征在于：所述数据采集及预处理模块包括数据采集模块和数据预处理模块，所述数据采集模块，通过相机拍摄的若干张目标图像作为模型训练、验证和测试的数据集；所述数据预处理模块，采用目标检测工具roLabelImg对目标图像进行标注，并对数据集进行裁剪和旋转，将数据集随机分为训练集、验证集和测试集。

3.根据权利要求1所述的一种基于深度学习的狭长目标检测方法，其特征在于：所述检测模型采用卷积、归一化和激活操作提取特征映射，结合信道信息融合运算，将不同降采样率的特征图发送到Neck结构。

4.根据权利要求1所述的一种基于深度学习的狭长目标检测方法，其特征在于：所述检测模型基于初始YOLOX训练进行改进，所述检测模型在训练与推理过程中的检测与回归方式改进为定向边界框检测，采用全局注意力机制GAM并优化损失函数。

5.根据权利要求4所述的一种基于深度学习的狭长目标检测方法，其特征在于：所述定向边界框检测，在常规矩形框的基础上加一个旋转角度θ，其代数表示为(x_c,y_c,w,h,θ)，其中(x_c,y_c)表示范围框中心点的坐标，(w,h)表示范围框的宽和高。

6.根据权利要求4所述的一种基于深度学习的狭长目标检测方法，其特征在于：所述全局注意力机制GAM添加在Backbone主干网络和Neck网络之间。

7.根据权利要求6所述的一种基于深度学习的狭长目标检测方法，其特征在于：所述全局注意力机制GAM，包括以下步骤：

S2：使用S_D下采样模块，降低特征维度；

S3：使用ReLU函数进行激活；

S4：使用S_U上采样模块，通过全连接层返回原来的维度；

S5：通过sigmoid函数获得归一化的权重；

8.根据权利要求4所述的一种基于深度学习的狭长目标检测方法，其特征在于：所述损失函数，采用多任务损失形式，主要由定位损失L_obj、分类损失L_cls和置信度损失L_reg组成，总损失L_total表示如下：

L_total＝L_obj+L_cls+L_reg

9.根据权利要求8所述的一种基于深度学习的狭长目标检测方法，其特征在于：基于交并比改进检测层置信度损失L_obj，使用CIoU计算定位损失和box之间的真实空间关系，交并比计算公式：

式中，用来度量长宽比的相似性；

权重函数：

CIoU损失函数：

10.根据权利要求1所述的一种基于深度学习的狭长目标检测方法，其特征在于：所述测试图像检测框生成模块包括检测框的生成和检测结果展示，所述检测框的生成过程中采用控制阈值对检测框进行去重处理。