CN117392375A

CN117392375A - 一种针对微小物体的目标检测算法

Info

Publication number: CN117392375A
Application number: CN202311365427.7A
Authority: CN
Inventors: 何啸; 邵李焕; 郑晓隆
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2023-10-20
Filing date: 2023-10-20
Publication date: 2024-01-12

Abstract

本发明公开了一种针对微小物体的目标检测算法，涉及机器视觉和目标识别技术领域。所用方法采用YOLOv5模型架构，包括以下步骤：S1、获取待检测图像，分为训练集和测试集，其中存在大量小目标；S2、以YOLOv5模型为基本架构，在颈部网络嵌入SE‑CBAM空间增强注意力机制模块；在多尺度特征融合处，加入上下文信息池化增强模块，即CIE‑Pool；在检测头部分添加一层尺寸160×160的小目标检测层，并将特征提取网络中提取到的浅层特征图经过自适应特征处理，即AFP后融入该层；S3、利用训练集对改进的YOLOv5模型进行训练；S4、用测试集中的图像对训练好的S3中的模型进行测试，并将测试结果可视化。本发明的有益效果在于：获取较多为丰富的小目标信息，提升检测精度。

Description

一种针对微小物体的目标检测算法

技术领域

本发明主要涉及机器视觉和目标识别技术领域，具体是一种针对微小物体的目标检测算法。

背景技术

目标检测是计算机视觉领域的重要问题之一，它可以应用于诸如自动驾驶、安防监控、人脸识别等领域。

传统的目标检测方法通常采用滑动窗口和金字塔等方式对图像进行多次扫描，再使用分类器对每个窗口进行分类。但是，对于小目标来说，由于其尺寸较小，存在多种问题，如低分辨率、模糊和严重的遮挡等问题，这些问题使得传统的目标检测方法在小目标检测上的效果很难得到保证。

而深度学习技术的兴起为小目标检测带来了新的机遇，深度学习技术通过神经网络的训练，可以从大量数据中学习到特征，进而提高目标检测的准确率和速度。在小目标检测中，研究者们提出了一系列基于深度学习的方法，如Faster R-CNN、YOLO、SSD等，这些方法在一定程度上解决了小目标检测的问题。

但是，由于小目标的尺寸和特征与背景的差异较小，使得小目标占像素面积小、轮廓模糊，所包含的特征信息少。这些方法仍然存在一些限制，例如检测精度不高、漏检率高等问题。

因此，在目标检测领域中，小目标检测一直是难点问题。

发明内容

为解决现有技术的不足，本发明提供了一种针对微小物体的目标检测算法，它能够获取较多为丰富的小目标信息，提升小目标检测精度。

本发明为实现上述目的，通过以下技术方案实现：

一种针对微小物体的目标检测算法，所用方法采用YOLOv5模型架构，包括以下步骤：

S1、获取待检测图像，分为训练集和测试集，其中存在大量小目标；

S2、以YOLOv5模型为基本架构，在颈部网络嵌入SE-CBAM空间增强注意力机制模块，以强化网络的特征提取能力；

在多尺度特征融合处，加入上下文信息池化增强模块，即CIE-Pool，提取并增强目标的背景信息，提高小目标识别率；

在检测头部分添加一层尺寸160×160的小目标检测层，并将特征提取网络中提取到的浅层特征图经过自适应特征处理，即AFP后融入该层，以此获取较多为丰富的小目标信息；

S3、利用训练集对改进的YOLOv5模型进行训练；

S4、用测试集中的图像对训练好的S3中的模型进行测试，并将测试结果可视化。

在S2中，所述上下文信息池化增强模块将背景信息和目标信息一起融入特征融合网络，即PANet，在提取目标特征的同时，分析并建立目标和背景之间的关系。

在S2中多尺度特征融合处，空间上下文强化模块是由不同尺度的空洞卷积融合以拓展感受野以获取更为丰富的背景信息；

对通道数为C，高为H，宽为W的输入图像，进行空洞卷积率，即dilation分别为1，3，5的3次空洞卷积，为了卷积后的图像尺寸保持一致，边缘填充，即padding也分别设为1，3，5；

同时为了避免小目标信息在卷积过程中丢失，选取的卷积核大小为3×3，其具体公式如下：

如上所述公式为式(1)，式(1)为感受野计算公式，RF_i为上一层感受野，RF_i+1为当前层感受野，K为当前卷积核大小，为前n层步长之积；假设RF_i＝1，n＝1，则3次空洞卷积后的特征图的RF_i+1为3；将不同感受野的特征图进行拼接融合，得到通道数为3×C，高为H，宽为W的融合特征图。

为了进一步增强上下文信息，将多尺度空洞卷积融合后的特征图作为输入，经过池化金字塔的处理，再度拓展感受野；由式(1)可知，输入的RF_i＝3，由此可计算出P1、P2、P3、P4的RF_i+1分别为3，7，11，13，再将其拼接，并最后通过卷积得到道数为C，高为H，宽为W的特征融合图。

将池化增强前的特征图与增强后的特征图相乘，在尽可能不增大计算量的前提下丰富上下文信息；而由于大量的上下文信息的叠加，导致语义信息的冗余，因此要将冗余的语义信息进行过滤；将包含不同程度上下文信息的特征图X_a、X_b、X_c进行自适应融合，使网络在训练过程中自动调整权重，达到滤除冗余信息、利用有效信息的效果，其公式如式(2)：

在S2中，所述SE-CBAM空间增强注意力机制模块为在CBAM基础上对SAM模块进行了空间信息增强的改进，同时将CAM模块中的全连接层替换成卷积核为1×1的卷积层；在SAM模块中，用3个卷积核为3×3的卷积层替换卷积核为7×7的卷积层，以减少参数量和计算量。

CAM模块关注目标的语义特征，通俗的讲就是提升区分目标究竟是什么类别的能力；对尺寸大小为C×H×W的特征图Y分别进行自适应最大池化、平均池化，以聚合更细致的特征信息；通过卷积核大小为1×1的卷积代替共享的全连接层，以减少大量的参数量、计算量；将权值进行加和操作，并用sigmoid函数进行激活归一化，最后得到通道注意力权值Y_CAM；

Y_CAM＝sigmoid[AdaptiveAvgpool(Y)+AdaptiveMaxpool(Y)] (3)

上述式(3)中，通道注意力权值Y_CAM与特征图Y进行相乘操作，得到通道注意力特征图Y_CAM*Y；

SAM模块则是注重强化目标的空间位置信息，对特征图Y_CAM*Y的每个特征点所在的通道进行取最大值、平均值的操作，并将得到的最大值和平均值拼接叠加；再通过三个卷积核为3×3的卷积层进行降维，得到一个二维空间特征分布图，最后用sigmoid函数激活归一化，得到空间注意力权值Y_SAM，公式如下：

Y_SAM＝sigmoid{conv[Avgpool(Y_CAM*Y),Maxpool(Y_CAM*Y)]} (4)

将原始特征图经过SAM模块处理后，与经过改进后的CBAM模块处理后的特征图进行融合，构成SE-CBAM模块。

对比现有技术，本发明的有益效果是：

本发明为了提升小目标检测的准度，提出了一种基于改进YOLOv5s的小目标检测算法。在颈部网络嵌入SE-CBAM空间增强注意力机制模块，以强化网络的特征提取能力；在多尺度特征融合处，加入上下文信息池化增强模块(CIE-Pool)，提取并增强目标的背景信息，提高小目标识别率；在检测头部分添加一层尺寸160×160的小目标检测层，并将特征提取网络中提取到的浅层特征图经过自适应特征处理(AFP)后融入该层，通过加入上述三个创新模块，将创新模块嵌入到基础框架里，以此获取较多为丰富的小目标信息，提升检测精度。

附图说明

附图1是本发明完整网络结构示意图；

附图2是本发明上下文信息池化增强模块示意图；

附图3是本发明CIE-Pool处理前后的热力图对比图；

附图4是本发明空间增强卷积注意力机制模块示意图；

附图5是本发明自适应特征融合模块示意图；

附图6是本发明测试结果对比图。

具体实施方式

结合附图和具体实施例，对本发明作进一步说明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所限定的范围。

如附图1所示，为本发明完整的网络结构，本发明的技术方案具有3个创新点，创新点1在上下文信息池化增强模块，由于小目标本身特征信息量少，仅有的特征信息在特征提取过程中不断损失，而导致小目标在检测任务中的识别率低。而目标与其周围背景之间的联系，可以用于辅助对目标的识别。上下文信息池化增强模块的目的便是通过丰富小目标的语义信息，将背景信息和目标信息一起融入特征融合网络(PANet)，在提取目标特征的同时，分析并建立目标和背景之间的关系，从而达到提升识别精准度的效果，其结构如图2。

关于多尺度空洞卷积融合，空间上下文强化模块是由不同尺度的空洞卷积融合以拓展感受野以获取更为丰富的背景信息。对通道数为C，高为H，宽为W的输入图像,进行空洞卷积率(dilation)分别为1,3,5的3次空洞卷积，为了卷积后的图像尺寸保持一致，边缘填充(padding)也分别设为1,3,5。同时为了避免小目标信息在卷积过程中丢失，选取的卷积核大小为3×3。

式(1)为感受野计算公式，RF_i为上一层感受野，RF_i+1为当前层感受野，K为当前卷积核大小，为前n层步长之积。假设RF_i＝1，n＝1，则3次空洞卷积后的特征图的RF_i+1为3。将不同感受野的特征图进行拼接融合，得到通道数为3×C，高为H，宽为W的融合特征图。多尺度空洞卷积能在不加深网络深度的情况下拓展感受野，感受野的增加和叠加，也使上下文信息得到了丰富,并且由于没有加深网络深度，小目标信息也得到了保留。

关于上下文信息的池化增强，为了进一步增强上下文信息，将多尺度空洞卷积融合后的特征图作为输入，经过池化金字塔的处理，再度拓展感受野。由式(1)可知，输入的RF_i＝3，由此可计算出P1、P2、P3、P4的RF_i+1分别为3，7，11，13，再将其拼接，并最后通过卷积得到道数为C，高为H，宽为W的特征融合图。

将池化增强前的特征图与增强后的特征图相乘，在尽可能不增大计算量的前提下丰富上下文信息。而由于大量的上下文信息的叠加，导致语义信息的冗余，因此要将冗余的语义信息进行过滤。将包含不同程度上下文信息的特征图X_a、X_b、X_c进行自适应融合，使网络在训练过程中自动调整权重，达到滤除冗余信息、利用有效信息的效果，其公式如式(2)。

为了证明上下文信息池化增强模块的有效性，本发明将一张图片的增强前后的热力图可视化，如图3。由图3的热力图可知，经过CIE-Pool模块处理后的特征图，在目标以及目标周围的响应更加强烈，同时响应范围也更广，并且由于引入了上下文背景信息，在无关背景上的噪声干扰也被大量滤除。

创新点2在于空间增强卷积注意力机制，小目标检测的难点除了小目标难以辨别之外，还存在小目标难以被定位的问题，引入注意力机制的目的就是为了让神经网络更好的聚焦于目标。CBAM注意力机制分别由通道注意力模块(channel attention module，CAM)和空间注意力模块(spatial attention module，SAM)共同构成。本发明为提升对小目标位置信息的获取能力，在CBAM基础上对SAM模块进行了空间信息增强的改进，同时将CAM模块中的全连接层替换成卷积核为1×1的卷积层；在SAM模块中，用3个卷积核为3×3的卷积层替换卷积核为7×7的卷积层，以减少参数量和计算量。改进后的SE-CBAM模块如图4。

CAM模块关注目标的语义特征，通俗的讲就是提升区分目标究竟是什么类别的能力。对尺寸大小为C×H×W的特征图Y分别进行自适应最大池化、平均池化，以聚合更细致的特征信息；通过卷积核大小为1×1的卷积代替共享的全连接层，以减少大量的参数量、计算量。将权值进行加和操作，并用sigmoid函数进行激活归一化，最后得到通道注意力权值Y_CAM。

Y_CAM＝sigmoid[AdaptiveAvgpool(Y)+AdaptiveMaxpool(Y)] (3)

通道注意力权值Y_CAM与特征图Y进行相乘操作，得到通道注意力特征图Y_CAM*Y。

SAM模块则是注重强化目标的空间位置信息，对特征图Y_CAM*Y的每个特征点所在的通道进行取最大值、平均值的操作，并将得到的最大值和平均值拼接叠加；再通过三个卷积核为3×3的卷积层进行降维，得到一个二维空间特征分布图，最后用sigmoid函数激活归一化，得到空间注意力权值Y_SAM。

Y_SAM＝sigmoid{conv[Avgpool(Y_CAM*Y),Maxpool(Y_CAM*Y)]} (4)

将原始特征图经过SAM模块处理后，与经过改进后的CBAM模块处理后的特征图进行融合，构成SE-CBAM模块。SE-CBAM模块在计算量和参数量没有提升的情况下能够充分利用原始特征图中的空间位置信息，进而达到提升网络对目标位置的聚焦能力。

创新点在在于浅层特征自适应处理，本发明在YOLOv5的基础上，增加一层160×160的特征检测层，其目的是将网络能够找到目标的最小像素面积进一步缩小。以输入尺寸为640×640的图像为例，P1、P2、P3检测层能检测到的目标的最小像素面积分别为32×32、16×16、8×8，而增加的P4检测层，最小能够检测到原图中像素面积大于4×4的目标，进一步提升了对小目标的检测能力。

增加的特征检测层需要将更浅层的特征图与深层特征图进行融合，越浅层的特征图原始的细节信息、位置信息越丰富，其语义信息也越模糊。如果采取直接融合的方式，浅层特征图的混杂信息和大量噪音将被引入，这些干扰信息会对检测任务带来干扰。因此，需要考虑如何才能在引入丰富的原始信息的同时，尽可能避免引入混杂的语义信息。

本发明考虑到，卷积层能够提取特征、过滤干扰，但同时卷积层又会导致微小特征信息的丢失。为了在引入浅层特征信息的同时，尽可能少的引入干扰信息，本发明采取了自适应特征处理(AFP)的方式，减少因浅层特征层语义信息混杂、噪声多而导致的负面效果，其结构如图5。

将浅层特征图进行不同程度的特征提取后，乘以不同权重系数，并在不断地训练过程中，权重会随着损失函数的变化而不断的改变。最终得到的特征图就尽可能多的保留了原始信息，又减少了语义信息冲突。

综上所述，为了更好的展示本算法的优越性，本发明分别用YOLOv5s以及本算法在VisDrone2021数据集上进行训练，并用测试集中的图像对训练好的模型进行测试，并将测试结果可视化，其结果如图6。

Claims

1.一种针对微小物体的目标检测算法，所用方法采用YOLOv5模型架构，其特征在于：包括以下步骤：

S3、利用训练集对改进的YOLOv5模型进行训练；

2.根据权利要求1所述的一种针对微小物体的目标检测算法，其特征在于：在S2中，所述上下文信息池化增强模块将背景信息和目标信息一起融入特征融合网络，即PANet，在提取目标特征的同时，分析并建立目标和背景之间的关系。

3.根据权利要求2所述的一种针对微小物体的目标检测算法，其特征在于：在S2中多尺度特征融合处，空间上下文强化模块是由不同尺度的空洞卷积融合以拓展感受野以获取更为丰富的背景信息；

4.根据权利要求2所述的一种针对微小物体的目标检测算法，其特征在于：为了进一步增强上下文信息，将多尺度空洞卷积融合后的特征图作为输入，经过池化金字塔的处理，再度拓展感受野；由式(1)可知，输入的RF_i＝3，由此可计算出P1、P2、P3、P4的RF_i+1分别为3，7，11，13，再将其拼接，并最后通过卷积得到道数为C，高为H，宽为W的特征融合图。

5.根据权利要求1所述的一种针对微小物体的目标检测算法，其特征在于：在S2中，所述SE-CBAM空间增强注意力机制模块为在CBAM基础上对SAM模块进行了空间信息增强的改进，同时将CAM模块中的全连接层替换成卷积核为1×1的卷积层；在SAM模块中，用3个卷积核为3×3的卷积层替换卷积核为7×7的卷积层，以减少参数量和计算量。

6.根据权利要求5所述的一种针对微小物体的目标检测算法，其特征在于：CAM模块关注目标的语义特征，通俗的讲就是提升区分目标究竟是什么类别的能力；对尺寸大小为C×H×W的特征图Y分别进行自适应最大池化、平均池化，以聚合更细致的特征信息；通过卷积核大小为1×1的卷积代替共享的全连接层，以减少大量的参数量、计算量；将权值进行加和操作，并用sigmoid函数进行激活归一化，最后得到通道注意力权值Y_CAM；

Y_CAM＝sigmoid[AdaptiveAvgpool(Y)+AdaptiveMaxpool(Y)] (3)

Y_SAM＝sigmoid{conv[Avgpool(Y_CAM*Y),Maxpool(Y_CAM*Y)]} (4)