CN112507861A

CN112507861A - 一种多层卷积特征融合的行人检测方法

Info

Publication number: CN112507861A
Application number: CN202011409937.6A
Authority: CN
Inventors: 马国军; 韩松; 夏健; 郑威
Original assignee: Jiangsu University of Science and Technology
Current assignee: Jiangsu University of Science and Technology
Priority date: 2020-12-04
Filing date: 2020-12-04
Publication date: 2021-03-16

Abstract

本发明公开了一种多层卷积特征融合的行人检测方法，通过对残差网络的重构来构建新的特征提取网络Darknet‑61，使特征提取网络Darknet‑61具有6次下采样的能力，通过新特征提取网络Darknet‑61将YOLOv3算法的YOLO输出层的输出从3层增加到5层，后续通过k‑mean算法在具有5层输出的YOLOv3算法基础上获取目标候选框，并通过NMS方法从目标候选框中现在最优的候选框进行后续处理。本发明通过改进Darknet‑53特征提取网络，引入四个残差网络和卷积层，增加下采样次数，输出7*7特征图，增强低层特征的表征能力，提高对大尺度行人检测的精度。

Description

一种多层卷积特征融合的行人检测方法

技术领域

本发明涉及行人检测领域，具体涉及一种多层卷积特征融合的行人检测方法。

背景技术

行人检测作为智能设备的一种核心技术，能够让机器设备获取周围的视频或者图像信息，并利用计算机强大的分析能力，对获取的信息进行视觉处理，从而像人一样对复杂的事物具有观察和分析的能力。帮助人们完成各种识别检测任务。

行人检测是计算机视觉领域的一个重要研究方向，通过计算机从图像或者视频片段中识别是否存在行人，如果存在行人，则进一步检测出行人具***置，从而准确的对其位置坐标进行精确的标定，其中在制造业、军事、医疗等领域都有广泛的运用。

行人是目标检测中最难检测的物体之一，基于人工特性提取的传统行人检测算法在检测精度上无法得到大的突破，这是因为在现实环境中背景复杂多样，行人在不同场合就会对检测造成干扰，同时行人姿态的多变性和尺度差异性，很难通过传统特征进行行人表征，在实际检测中漏检率会增加。最严重的还有遮挡问题，这对样本采集带来了困难，检测精度必然面临考验。

本发明为了更好的解决这些问题，提出了一种多层卷积特征融合的行人检测方法。该方法在特征提取网络中第二次下采样后，通过连接2个残差模块得到信息与下层网络的信息融合，输出112*112特征图。同时增加4个残差模块和一个下采样卷积层用于第6次下采样，下采样后特征通过残差模块输出卷积特征，最后通过卷积模块输出7*7特征图，YOLO层输出由原来三种尺度特征图变成五种尺度特征图，增强行人对大小目标检测精确度，提升了网络的特征描述能力。最终改进的网络拥有更高的准确率和更低的虚警率，同时保持了原有算法的鲁棒性。

发明内容

本发明提供了一种多层卷积特征融合的行人检测方法，以解决现有技术中不同尺度行人检测存在漏检的问题。

本发明所述的一种多层卷积特征融合的行人检测方法，包括如下步骤：

步骤1：构建特征提取网络Darknet的残差网络，将残差网络基本单元中BN层的参数合并到其卷积层；根据构建的残差网络构建特征提取网络，记为特征提取网络Darknet-61；

步骤2：构建特征金字塔网络，将特征提取网络Darknet-61经过6次下采样获取图像的5个卷积特征与YOLO输出7*7、14*14、28*28、56*56尺度信息进行融合；使YOLOv3算法中的YOLO输出层输出5种尺度的特征图，其中，5种尺度包括：7*7、14*14、28*28、56*56、112*112；

步骤3：根据特征提取网络Darknet-61和YOLO输出层优化YOLOv3算法；

步骤4：利用k-means算法在优化后的YOLOv3算法输出的5种尺度的特征图上得到数个目标候选框；

步骤5：在候选框中运用NMS方法，选出特征图上数个目标候选框中具有最大IOU的目标候选框，根据选出的目标候选框进行行人目标预测。

进一步地，所述步骤1中将残差网络基本单元中BN层的参数合并到其卷积层，具体为：

其中，W_merged为合并后的卷积权重偏值；w为卷积权重；B_merged为合并后的卷积偏置；B为卷积偏置；μ为均值；σ²为方差；γ为缩放因子；β为偏移；ε为一个较小数。

进一步地，所述步骤2中特征提取网络Darknet-61经过六次下采样获取图像的5个卷积特征，具体步骤为：

步骤A21：使用尺寸为448*448的图像作为Darknet-61的网络输入，进行第一次下采样；

步骤A22：进行第二次下采样，对第二次下采样结果使用2个步骤1中构建的残差网络进行特征提取，输出第一卷积特征为112*112*128；

步骤A23：进行第三次下采样，对第三次下采样结果使用8个步骤1中构建的残差网络进行特征提取，输出第二卷积特征为56*56*256；

步骤A24：进行第四次下采样，对第四次下采样结果使用通道为512的卷积进行特征提取，输出第三卷积特征为28*28*512；

步骤A25：进行第五次下采样，对第五次下采样结果使用4个步骤1中构建的残差网络进行特征提取，输出第四卷积特征为14*14*1024；

步骤A26：进行第六次下采样，对第六次下采样结果使用4个步骤1中构建的残差网络进行特征提取，输出第五卷积特征为7*7*2028。

进一步地，所述步骤2的具体步骤如下：

步骤B21：特征提取网络Darknet-61经过六次下采样获取图像的5个卷积特征，将第五卷积特征进过卷积获得7*7尺度的特征图；

构建特征金字塔网络，将7*7尺度的特征图通过特征金字塔网络与第四卷积特征进行特征融合，获得14*14尺度的特征图；

步骤B22：将14*14尺度的特征图通过特征金字塔网络与第三卷积特征进行特征融合，获得28*28尺度的特征图；

步骤B23：将28*28尺度的特征图通过特征金字塔网络与第二卷积特征进行特征融合，获得56*56尺度的特征图；

步骤B24：将56*56尺度的特征图通过特征金字塔网络与第一卷积特征进行特征融合，获得112*112尺度的特征图。

进一步地，所述步骤4中获取目标候选框的个数为3个。

本发明采用以上方法，具有以下优点：

1.通过改进Darknet-53特征提取网络，引入四个残差网络和卷积层，增加下采样次数，输出7*7特征图，增强低层特征的表征能力，提高对大尺度行人检测的精度；

2.特征提取网络中第二次下采样使用2个残差模块得到信息与下层网络的信息融合，输出112*112特征图，提高了对小尺度行人检测的精度；

3.利用FPN将图像的深层特征信息与浅层特征信息充分融合，YOLO层输出由原来三种尺度特征图增加为五种尺度特征图，增强对大小行人目标与相互遮挡行人目标的检测效果。提高行人检测的鲁棒性；

4.残差网络基本单元中BN层的参数合并到其卷积层，减少计算量且提升检测速度。

在保持检测速度满足实时性要求的情况下，有效的提高检测精度，尤其是对小目标检测的效果。

附图说明

通过参考附图会更加清楚的理解本发明的特征和优点，附图是示意性的而不应理解为对本发明进行任何限制，在附图中：

图1为本发明的流程图；

图2为本发明特征提取网络Darket-61结构；

图3为本发明YOLOv3的网络结构；

图4为本发明实施例中FPN模块结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明一种多层卷积特征融合的行人检测方法流程图，图2本发明特征提取网络Darket-61结构，图3为本发明YOLOv3的网络结构，图4为本发明实施例中FPN模块结构示意图，结合图1、图2、图3和图4，本发明具体实施方式的步骤为：

步骤1中将残差网络基本单元中BN层的参数合并到其卷积层，具体为：

进一步地，步骤2中特征提取网络Darknet-61经过六次下采样获取图像的5个卷积特征，具体步骤为：

进一步地，步骤2的具体步骤如下：

通过融合浅层信息与深层特征信息，增强图像金字塔的表征能力。得到的7*7和14*14特征图适合图像中大尺寸行人目标的检测，得到的28*28和56*56特征图适合图像中大尺度行人目标检测，得到的112*112特征图适合图像中小尺寸行人目标的检测，降低了行人漏检率。

进一步地，步骤中特征提取网络Darknet-61在第二次下采样后，通过连接2个残差模块得到信息与下层网络上采样信息融合，输出112*112特征图。同时增加4个残差模块和一个下采样卷积层用于第6次下采样，下采样后特征通过残差模块输出卷积特征，最后通过卷积模块输出7*7特征图，YOLO层输出由原来三种尺度特征图变成五种尺度特征图，增强行人对大小目标检测精确度。

候选框的选择方法影响定位的准确性和效率，为了寻找候选框大小，利用k-means算法寻找最好质心点，从最优k值及距离函数考虑，具体步骤如下：

1)K值从三开始依次递增，用以寻找最优K值；

2)将寻找到的K个作为聚类的开始点，把聚类结果最好的作为最优质心，然后根据聚类规则迭代出最优的聚类结果；

3)求出所有数据到质心的距离，就近归入相应集合；

4)计算完所有数据后重新计算每个集合的质心；

5)按照新计算到的质心重新对所有数据进行集合归类；

6)重复步骤(4)(5)直到新计算的质心不再变化或者两次质心的距离达到我们预期的阈值，算法终止。

在距离函数，首先一个检测点选择15个框做为候选框，在聚类函数中使用IOU值做为距离函数来进行质心点的计算，最优距离函数为(1-IOU)²，在这种情况下得到的IOU值较好，降低了后面训练中框回归的难度。由于是对单个对象进行检测，减少了损失函数中类预测的权重，让网络可以更好地收敛，即类别误差函数给予更小的权重以防止对整体误差的干扰，优化损失函数。其损失函数表达式为：

其中S²表示网格数量，B表示每个网格生成框的个数，C表示能检测识别的种类，

表示物体落入格子i的第j个bbox内,取0或者1,λ_coord是坐标误差的权重，一般取5，λ_noobj是宽高误差的权重。(x_i,y_i)表示第i个预选框的中心点坐标，(w_i,h_i)表示第i个预选框的宽和高。

公式第一部分的坐标预测为边界框位置与大小的损失函数，第二部分对宽高都进行开根是为了使用大小差别比较大的边界框差别减小；公式第三部分计算若有物体落入边界框中，则计算预测边界框含有物体的置信度和真实物体与边界框IOU的损失，若没有任何物体中心落入边界框中时，预测含有物体的置信度越小越好。然而，大部分边界框都没有物体，积少成多，造成loss的偏差，因此，在公式第四部分增加权重λ_noobj＝0.5；公式第5部分，若建议框中包含物体，预测正确的类别的概率越接近于1越好，而错误类别的概率越接近于0越好。

步骤5：在候选框中运用NMS方法，选出特征图上数个目标候选框中具有最大IOU的目标候选框，根据选出的目标候选框进行行人目标预测。具体如下：

1)将提取的5个尺度特征图送入到YOLO网络中进行检测，本发明设置的最大迭代次数为4000次，batch_size设置为64，subdivisions设置为16，decay为0.0005，momentum为0.9，初始化学习率为0.001，根据损失下降的趋势，可以适当调节学习率和直至训练数据集输出的损失函数值小于等于阈值或达到设置的最大迭代次数时停止训练，得到训练好的改进网络。

2)采用非极大值抑制法选取最佳目标边界框，通过按照置信度的数值对候选框进行排列，计算候选框与真实目标框的IOU值生成IOU队列，选出IOU最大值的边界框后生成预测框，最后将预测框坐标转换到原图上输出预测结果。

为了提高行人检测***检测速度，本实施例子中特征提取网路darknet-61、FPN模块配有NVIDIA GTX 1080Ti的GPU计算机，Ubuntu 16.04***，可以实现实时检测。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种多层卷积特征融合的行人检测方法，其特征在于，包括如下步骤：

2.如权利要求1所述的多层卷积特征融合的行人检测方法，其特征在于，所述步骤1中将残差网络基本单元中BN层的参数合并到其卷积层，具体为：

3.如权利要求1或2所述的多层卷积特征融合的行人检测方法，其特征在于，所述步骤2中特征提取网络Darknet-61经过六次下采样获取图像的5个卷积特征，具体步骤为：

4.如权利要求3所述的多层卷积特征融合的行人检测方法，其特征在于，所述步骤2的具体步骤如下：

5.如权利要求1所述的多层卷积特征融合的行人检测方法，其特征在于，所述步骤4中获取的目标候选框数量为3个。