CN114330529A

CN114330529A - 一种基于改进YOLOv4的遮挡行人实时检测方法

Info

Publication number: CN114330529A
Application number: CN202111596446.1A
Authority: CN
Inventors: 梁燕; 朱清
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-04-12

Abstract

本发明涉及一种基于改进YOLOv4的遮挡行人实时检测方法，属于计算机视觉领域。该方法包括：获取数据集并对其处理；使用K_means++算法进行聚类，生成最终的先验框；利用主干特征网络融合通道注意力机制进行特征提取；利用空间金字塔SPP模块对主干特征网络提取的特征图进行最大池化并合并；将主干特征网络中大残差块获取的后四层特征图进行特征融合处理；将特征融合后的特征图通过YOLO检测头进行结果预测，对目标位置和类别进行预测，利用损失函数训练模型；将模型训练生成的最优权重用于模型中，将测试集图片放入模型中进行测试。本发明实现了实时对遮挡行人的高精度检测，使用参数少，检测速度快。

Description

一种基于改进YOLOv4的遮挡行人实时检测方法

技术领域

本发明属于计算机视觉技术领域，涉及一种针对复杂场景下对遮挡行人的检测方法。

背景技术

随着深度学习的不断发展，引领着目标检测领域快速地发展。行人检测作为目标检测领域的一个重要方向，随着智能监控、智能交通等应用领域的发展，使得行人检测也逐渐成为计算机领域中一个具有重要研究价值和研究意义的课题。由于应用领域场景的需求，准确、实时的行人检测中是非常有必要的。

传统行人检测方法是建立在手工制作特征和浅层可训练架构上的，采用从目标检测器和场景分类器中结合量低水平图像特征和高水平语义信息来构建成复杂的***。传统目标检测方法取得了一定的成果，但也暴露了其固有的弊端。传统的目标检测算法由于鲁棒性不好，泛化性差，繁杂的算法步骤导致检测效率慢、精度不高的检测方法已经难以满足人们对目标检测高性能效果的需求。随着深度学习在目标检测领域的发展，基于深度学习的目标检测已成为主流检测算法。主流的目标检测算法主要分为双阶段检测算法和单阶段检测算法。双阶段检测算法是以R-CNN为代表的基于候选区域的目标检测算法，主要包括R-CNN、Fast R-CNN、Faster R-CNN。该检测算法通常分为两步：第一步是从图像中提取建议框，并剔除一部分背景建议框，同时做一次位置修正；第二步是对每个建议框进行检测分类和位置修正。该类算法在一定程度上提升了目标检测的准确率，但在检测速度上不能达到实时检测。单阶段检测算法是以YOLO、SSD系列为代表的基于回归分析的目标检测算法。该检测方法不再使用建议框进行“粗检测+精修”，而采用一步到位的方法得到结果，单阶段目标检测算法只进行一次前馈网络计算，因此在速度上有了很大提升。

通用的目标检测算法对于图像清晰、无遮挡行人的检测效果极佳。但对于图像分辨率较低、图像模糊以及存在遮挡情况下的行人仍然存在着较大的漏检、错检等情况。由于复杂场景下或者人流量较大的场景下，会出现遮挡情况导致有效特征提取困难，影响着最终检测效果。常见的遮挡分为类间遮挡和类内遮挡两种情况。类间遮挡是指目标行人被场景中的车辆、房子、树等一些背景物体所遮挡，类内遮挡是指行人间的相互遮挡。由于密集场景下存在着大量的遮挡情况，导致行人特征缺失、检测精确度大大降低。为了保证行人检测的准确度，降低漏检率和错检率，就需要提取更加充分有效的深层语义特征，这样势必会加深模型的网络结构，增加相应的计算量和参数量，大大降低了模型检测速度，导致模型无法进行实时、高效地检测。如果要保证检测速度，可以减少模型网络层数或复杂程度，从而减少参数量和计算量，提高相应的检测速度。但这样会导致有效特征提取不充分，丢失部分重要特征，导致漏检或错检。因此，亟需设计一种检测模型，即能够高效地去检测遮挡目标，同时又能够使模型的检测速度不降低，达到实时检测是具有重要的理论和实际意义。

发明内容

有鉴于此，本发明的目的在于提供一种基于改进YOLOv4的遮挡行人实时检测方法，针对复杂场景下、存在大量遮挡情况下对行人检测，该检测方法具有较高的精确度和实时的检测速度。

为达到上述目的，本发明提供如下技术方案：

一种基于改进YOLOv4的遮挡行人实时检测方法，具体包括以下步骤：

S1：获取WiderPerson数据集，并将其划分为训练集、验证集和测试集，同时使用数据增强手段和图片拼接技术对数据集进行处理，使训练集更加充分广泛，丰富检测物体的背景信息；

S2：对WiderPerson数据集中标记的真实框使用K_means++算法进行聚类，获得12个聚类中心作为模型先验框中心点使用，生成最终的先验框。

由于本发明采用的数据集行人密度较高，使用模型原始的先验框，会导致先验框的设定与该数据集不搭配导致最终生成的预测框精确度较低。K_means++相比于K_means，它不是随机选取n个点作为聚类中心，而是随机选取有一个点，然后根据已经选取的k个点选取一个距离这k个点最远距离的点作为第k+1个点。相比于k_means聚类算法，k_means++聚类的中心点效果更好。

S3：利用主干特征网络融合通道注意力机制进行特征提取，增强主干特征提取网络的特征提取能力；

S4：利用空间金字塔SPP模块对主干特征网络提取的特征图进行最大池化，并将池化后的结果进行合并，增强相应的感受野；

S5：将主干特征网络中大残差块获取的后四层特征图进行特征融合处理；

S6：将步骤S5特征融合后的四层特征图通过四个不同尺寸大小的YOLO检测头进行结果预测，对目标位置和类别进行预测，利用损失函数训练模型；

S7：将模型训练生成的最优权重用于模型中，将测试集图片放入模型中进行测试，获得最终的检测结果。

进一步，步骤S1具体包括：将WiderPerson数据集划分为最终的训练集、验证集和测试集。WiderPerson有五个检测类别，删除掉不需要的类别，保留标签为pedestrians和partially这两个类别进行检测。Pedestrians标签标注的主要是轻微遮挡的行人和无遮挡的行人，partially标签标记的是遮挡较为严重的行人，将最终两个类别合并为pedestrians标签进行检测。同时利于数据增强手段，将四张图片进行翻转、缩放、色域变换后进行拼接，增强数据集的全面性，丰富检测物体的背景，通过训练增强在复杂背景下提取特征的能力。将数据集格式转换为VOC数据集格式，就是将txt标注格式转换为xml标注格式，按照前面的比例划分生成最终的train.txt、val.txt、test.txt。train.txt是训练集图片，val.txt是验证集图，test.txt是最终的测试集图片。

进一步，步骤S3具体包括：利用CSPdarkNet53主干特征提取网络对输入图片进行特征提取；其中，CSPdarknet53主要由5个CSPNet结构的大残差块即CSP块堆叠而成，在每个CSP块中加入通道注意力SE(Squeeze-and-Excitation)模块；进行特征提取：从第二个CSP块到第四个CSP块获得的特征图对应为P2、P3、P4、P5。在主干网络中加入通道注意力模块，可以起到通过训练去提高有用特征通道的权重，抑制无用特征的权重，比如抑制背景信息特征等。

进一步，步骤S4具体包括：将步骤3获得的特征图P5通过SPP(Spatial PyramidPooling)模块，利用四个不同尺度的池化层进行最大池化，将池化结构进行合并，通过不同尺度的池化和处理后，可以将不同大小的特征进行融合，显著提高目标感受野，同时也可以解决输入图像尺寸不统一的问题。

进一步，步骤S5具体包括：将步骤S4获得的特征图与P2、P3、P4，通过改进的PANet网络进行特征的融合处理；其中，改进的PANet网络是将PANet中的五层堆叠卷积替换为Res_C模块，Res_C模块中引入CBAM(Convolutional Block Attention Module)注意力机制和基本残差网络，同时将模块中3×3标准卷积替换为深度可分离卷积。

通过扩展PANet结果可以使主干网络提取出的浅层特征更加合理的利用，防止图像下采样，浅层信息丢失问题；引入残差网络可以解决由于深层网络堆积导致训练困难，出现梯度弥散/***问题，同时也就可以降低模型的参数量；引入深度可分离卷积相比于标准卷积，可以大幅度降低模型的参数量，提高模型的检测速度；引入CBAM注意力机制可以弥补由于将深度可分离卷积替换标准卷积导致的特征提取能力下降问题，同时也可以在特征融合过程中通过通道注意力和空间注意力的耦合作用来提升有用特征的融合。

进一步，步骤S6中，四个不同尺寸大小的YOLO检测头具体为：设输入图片尺寸N*N，通道数为3，各分支分别输出(M*M*(4+1+C))，N为输入图片尺寸，M为不同尺度的特征层预测的结果，4和1分别是预测框的坐标和置信度，C为检测类别。

进一步，步骤S6中，所述损失函数由回归损失、置信度损失和分类损失三部分构成；利用二元交叉熵损失计算置信度损失和分类损失；选择CIOU作为回归损失，CIOU损失函数的公式如下所示：

其中，l_CIOU表示CIOU损失，ρ²(b,b^gt)表示预测框和真实框的中心点的欧式距离，b表示预测框，b^gt表示真实框，c表示能够同时包含预测框和真实框的最小闭包区域的对角线距离；α和v的公式如下所示：

其中，w和h分别为预测框的宽度和高度，w^gt和h^gt分别为真实框的宽度和高度；v表示一个惩罚因子，用于测量长径比的一致性；α是一个用于权衡的参数；

最终的损失函数如公式(4)所示：

其中，S×S表示输入被划分为S×S网格单元；N为每个网格单元中锚框的个数；

表示如果在(i，j)处的标记框中有目标，其值为1，否者为0；

表示如果在(i，j)处的标记框中没有目标，其值为1，否者为0；λ_coord和λ_noobj是惩罚因素；p(c)为对象属于c类的概率，

表示对象不属于c类的概率，class表示要检测的目标类别；C_i表示i网格单元格包含对象的置信度，

表示i网格单元格没有包含对象的置信度。如果对象的中心点落在该网格单元格中，则

否则

当

时，只计算置信度损失，其余两部分损失为0。

进一步，步骤S7具体包括：将测试集图片放入训练好的模型中，获得预测结果参数后去调整先验框，然后将调整好的预测框根据设定的阈值进行非极大抑制，获得最终的预测结果，最后在检测图中画出预测框；利用步骤S6获得的预测结果和置信度，通过预测参数去调整先验框获得最终的预测框，然后根据置信度进行非极大抑制去除IOU大于所设阈值的检测框。

YOLOv4模型使用的是非极大抑制NMS(Non-Maximum Suppression)，NMS的思想思，先取一个置信度最大的候选框，然后将所有的其他候选框与此框进行交并比，获得交并比结果后与设定的阈值进行比较，如果大于阈值则删除这个候选框，如果小于则保留，后续继续取置信度最高的框进行比较。NMS原理如下公式所示：

其中，s_i是置信度值，M为当前得分最高框，b_i为待处理框，iou(M,b_i)是当前得分最高框和待处理框的交并比，N_t为设置的置信度阈值。本发明使用Soft_NMS替换NMS，Soft_NMS的思想与NMS的不同在于，将当前得分最高框和待处理框交并比后的结果如果大于设定的阈值。不要直接删除待处理框，而是在原始的置信度上进行加权处理，降低待处理框的置信度。其原理如下公式(6)所示：

相比于NMS，Soft_NMS可以更加有效滤除重叠的框，有利于复杂场景下的行人检测，可以降低遮挡行人检测的漏检率。

本发明的有益效果在于：

1)本发明的主干网络中利用通道注意力(SE)模块，更加有效提升主干特征网络的特征提取能力。

2)本发明扩展了PANet网络结构，利用主干网络提取的四层特征层进行后续的融合处理，使得检测目标的浅层特征得到有效利用，同时通过四个检测头去检测物体，可以会更加有利于多尺度行人的检测。

3)本发明在PANet中将标准堆叠卷积替换为Res_C模块，Res_C模块中引入基本残差结构，可以防止网络层数过深导致梯度弥散/***情况；引入CBAM注意力机制，同时关注特征图的通道注意力和空间注意力，可以加强提取遮挡行人的有效特征，获得有用的浅层特征和深层语义特征；最后将模块中的3×3标准卷积替换为深度可分离卷积，可以大大降低模型大大参数量，提高模型的检测速度。

4)本发明将NMS替换为Soft_NMS可以有效降低由于目标遮挡严重，导致有用的目标检测框被滤除，使遮挡较为严重的目标被漏检的情况，提高最终的遮挡行人检测精确度。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明基于改进YOLOv4的遮挡行人实时检测方法的流程图；

图2为本发明改进的YOLOv4网络结构图；

图3为本发明采用的SE模块的结构图；

图4为本发明采用的CBAM模块结构图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

请参阅图1～图4，图1所示为一种基于改进YOLOv4的遮挡行人实时检测方法，具体包括以下步骤：

步骤1：将WiderPerson数据集划分为最终的训练集、验证集和测试集。WiderPerson数据集涉及多个场景，相比于其它公用数据集如Caltech、KITTI，该数据集不再局限于交通场景，场景更加拥挤，每张照片中存在着多个行人，遮挡情况更为严重。由于测试集的标注文件并没有公布，本次将原数据集的训练集和验证集进行整合，总计9000张图片。将9000张图片进行从新划分训练集、验证集和测试集，按照8:1:1的比例进行划分。WiderPerson有五个检测类别，删除掉不需要的类别，保留标签为pedestrians和partially这两个类别进行检测。Pedestrians标签标注的主要是轻微遮挡的行人和无遮挡的行人，partially标签标记的是遮挡较为严重的行人，将最终两个类别合并为pedestrians标签进行检测。同时利于数据增强手段，将四张图片进行翻转、缩放、色域变换后进行拼接，增强数据集的全面性，丰富检测物体的背景，通过训练增强在复杂背景下提取特征的能力。将数据集格式转换为VOC数据集格式，就是将txt标注格式转换为xml标注格式，按照前面的比例划分生成最终的train.txt、val.txt、test.txt。train.txt是训练集图片，val.txt是验证集图，test.txt是最终的测试集图片。

步骤2：利用K_means++算法对数据集中标记的目标框进行聚类，获得12个新的中心点，作为模型先验框中心点。最终通过k_means++聚类方法获得的12个聚类中心为：(4,10)、(8,17)、(9,30)、(11,43)、(17,57)、(20,75)、(25,37)、(32,124)、(45,163)、(57,189)、(65,229)(88,315)。

步骤3：在主干特征网络CSPdarknet53加入SE注意力机制进行特征提取，通过以上操作，从而使训练达到更好的效果，更加有利于提取行人的有效特征。当输入是图片大小是416*416，通道数是3时，通过主干网络CSPdarknet53获得的最后四层特征图P2、P3、P4、P5，尺寸分别为：(104，104,128)、(52,52,256)、(26,26,512)、(13,13,1024)。

步骤4：将步骤3获得的P5特征图利用空间金字塔思想的SPP模块使用1×1、3×3、5×5、9×9四个不同尺度的池化层进行最大池化处理，将处理后的结果进行通道合并。

步骤5：将步骤4之后，将剩下几层特征图和步骤4获得的结果与P2、P3、p4特征图通过改进后的PANet结构进行特征融合。

步骤6：通过步骤5，最终获得4个不同尺度的特征图，最终通过4个YOLO检测头进行预测。损失函数由回归损失、置信度损失和分类损失三部分构成。利用二元交叉熵损失计算置信度损失和分类损失。选择CIOU作为回归损失，CIOU损失函数如下公式所示：

其中，ρ²(b,b^gt)表示预测框和真实框的中心点的欧式距离，b表示预测框，b^gt表示真实框，c表示能够同时包含预测框和真实框的最小闭包区域的对角线距离。而α和ν的公式如下：

其中，w和h分别为预测框的宽度和高度，w^gt和h^gt分别为真实框的宽度和高度。ν表示一个惩罚因子，用于测量长径比的一致性。α是一个用于权衡的参数。

最终的损失函数如公式(4)所示：

表示如果在(i，j)处的标记框中有目标，其值为1，否者为0；

否则

当

时，只计算置信度损失，其余两部分损失为0。

步骤7：本发明使用Ubantu16.04操作***，模型训练使用Pytorch框架，具体实验环境配置如表1所示。

表1实验环境配置

本实验使用WiderPerson数据集。利用迁移学习的思想，使用COCO数据集的预训练权值进行训练。在训练过程中，输入大小为416×416×3。采用权重衰减为0.0005的Adam优化器进行优化。初始学习率设置为0.001，总共训练100周期，迭代次数为150k。学习速率通过余弦退火衰减，前50周期最小学习率设置为0.0001；后50周期，将初始学习率调整到0.0001，最小学习率设置为0.00001。

将测试集图片放入训练好的模型中，获得预测结果参数后去调整先验框，然后将调整好的预测框根据设定的阈值进行非极大抑制，获得最终的预测结果，最后在检测图中画出预测框。

根据测试集的预测结果，和真实框进行比较，计算相应类别的AP(AveragePrecision)，同时去测试相应的检测速度FPS，并查看最终模型生成的权重参数量。最终改进后的结果与原模型YOLOv4进行比较如表2所示：

表2原始YOLOv4与本发明改进的YOLOv4的对比效果

通过测试结果可知，本发明的改进模型不仅在精确度上有较大提升，同时参数量也大幅度下降，检测速度也有所提高。对于遮挡较为严重的情况，有着比较好的检测效果。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于改进YOLOv4的遮挡行人实时检测方法，其特征在于，该方法具体包括以下步骤：

S1：获取数据集，并将其划分为训练集、验证集和测试集，同时使用数据增强手段和图片拼接技术对数据集进行处理；

S2：对数据集中标记的真实框使用K_means++算法进行聚类，获得12个聚类中心作为模型先验框中心点使用，生成最终的先验框；

S3：利用主干特征网络融合通道注意力机制进行特征提取；

S4：利用空间金字塔SPP模块对主干特征网络提取的特征图进行最大池化，并将池化后的结果进行合并；

2.根据权利要求1所述的基于改进YOLOv4的遮挡行人实时检测方法，其特征在于，步骤S3具体包括：利用CSPdarkNet53主干特征提取网络对输入图片进行特征提取；其中，CSPdarknet53由5个CSPNet结构的大残差块即CSP块堆叠而成，在每个CSP块中加入通道注意力模块；进行特征提取：从第二个CSP块到第四个CSP块获得的特征图对应为P2、P3、P4、P5。

3.根据权利要求2所述的基于改进YOLOv4的遮挡行人实时检测方法，其特征在于，步骤S5具体包括：将步骤S4获得的特征图与P2、P3、P4，通过改进的PANet网络进行特征的融合处理；其中，改进的PANet网络是将PANet中的五层堆叠卷积替换为Res_C模块，Res_C模块中引入CBAM注意力机制和基本残差网络，同时将模块中3×3标准卷积替换为深度可分离卷积。

4.根据权利要求1所述的基于改进YOLOv4的遮挡行人实时检测方法，其特征在于，步骤S6中，四个不同尺寸大小的YOLO检测头具体为：设输入图片尺寸N*N，通道数为3，各分支分别输出(M*M*(4+1+C))，N为输入图片尺寸，M为不同尺度的特征层预测的结果，4和1分别是预测框的坐标和置信度，C为检测类别。

5.根据权利要求1所述的基于改进YOLOv4的遮挡行人实时检测方法，其特征在于，步骤S6中，所述损失函数由回归损失、置信度损失和分类损失三部分构成；利用二元交叉熵损失计算置信度损失和分类损失；选择CIOU作为回归损失，CIOU损失函数的公式如下：

其中，l_CIOU表示CIOU损失，ρ²(b,b^gt)表示预测框和真实框的中心点的欧式距离，b表示预测框，b^gt表示真实框，c表示能够同时包含预测框和真实框的最小闭包区域的对角线距离；α和v的公式如下：

其中，w和h分别为预测框的宽度和高度，w^gt和h^gt分别为真实框的宽度和高度；v表示一个惩罚因子，用于测量宽高比的一致性；α是一个用于权衡的参数；

最终的损失函数如公式(4)所示：

表示如果在(i，j)处的标记框中有目标，其值为1，否者为0；

表示i网格单元格没有包含对象的置信度。

6.根据权利要求1所述的基于改进YOLOv4的遮挡行人实时检测方法，其特征在于，步骤S7具体包括：将测试集图片放入训练好的模型中，获得预测结果参数后去调整先验框，然后将调整好的预测框根据设定的阈值进行非极大抑制，获得最终的预测结果，最后在检测图中画出预测框；利用步骤S6获得的预测结果和置信度，通过预测参数去调整先验框获得最终的预测框，然后根据置信度进行非极大抑制去除IOU大于所设阈值的检测框。