CN114627286A

CN114627286A - 基于PSPNet和改进YOLOv4的地磅人员入侵的检测方法

Info

Publication number: CN114627286A
Application number: CN202111517711.2A
Authority: CN
Inventors: 陆宝春; 秦文强; 顾钱; 徐德宏; 苏玉南
Original assignee: Nanjing Kenque Intelligent Technology Co ltd; Nanjing University of Science and Technology
Current assignee: Nanjing Kenque Intelligent Technology Co ltd; Nanjing University of Science and Technology
Priority date: 2021-12-13
Filing date: 2021-12-13
Publication date: 2022-06-14

Abstract

本发明提供了一种基于PSPNet和改进YOLOv4的地磅称重人员入侵的检测方法，首先对摄像头采集的实时视频流进行图像的截取和预处理；在地磅空闲状态下通过PSPNet语义分割模型像素级识别地磅区域，并将识别的结果保存为图片；在车辆上磅后，通过改进的YOLOv4目标检测模型识别出车辆，判断与地磅区域重合后，判定地磅处于称重状态，当识别出人员后，判断人员和地磅的相对位置，判定人员停留在地磅上后，开启定时器记录人员停留在地磅上的时间，当人员停留时间超过设定人员停留阈值，判定为违法入侵行为。对YOLOv4模型进行轻量化改进，保证检测精度基本保持不变的同时，大幅度提升检测速度，能够有效识别车辆在地磅上称重时的人员入侵作弊现象。

Description

基于PSPNet和改进YOLOv4的地磅人员入侵的检测方法

技术领域

本发明属于地磅称重过程中图像识别领域，尤其是基于PSPNet和改进YOLOv4的地磅人员入侵的检测方法。

背景技术

电子汽车衡是一种准确、方便的称重计量设备，多年以来，越来越多地被应用到物流、钢铁、建材、煤炭以及沥青等各个行业。电子汽车衡的别名是地磅，地磅是一种有效的机械式手工称重仪器，在无人值守的称重***中扮演非常重要的角色。

称重***既然是无人值守的，就会产生经济利益驱使下的计量作弊行为，比如最常见的汽车称重时并未完全上磅使得得到的货车皮重比实际的小导致净重较大，这些非法行为会给企业和客户带来重大的经济损失，目前已经有在地磅前后设置光栅等方式来避免这种方式。在称重过程中有人员非法入侵地磅区域或者司机长时间停留在地磅上这些人为导致称重数据记录错误的作弊方式是一个急需解决的问题。

针对以上问题，需要分别识别出准确的地磅区域以及车辆和人员两个目标对象,目前大多数解决方案采用的还是传统的图像分割技术和红外辐射成像等图像识别检测技术。传统图像分割技术中最常见的是阈值化和边缘检测，在分割图像时仅仅利用到的是图像的低级语义信息，在简单场景中物体分割效果尚可，但涉及到背景复杂的分割场景，需要提取图像中、高级语义提升分割效果，且对噪声敏感，鲁棒性较差。对于人员等目标的检测，红外热成像技术比较流行，但热成像的图片对比度低，分辨细节能力差，并且红外热成像仪价格和维护成本较高；常用的传统的图像目标识别通过滑动手工设计的特征提取器来提取特征，使用SVM等分类器进行分类输出，但手工设计特征耗费人力和时间，对不同尺寸的人员和车辆的识别准确率起伏较大，且在大数据量下的目标检测表现乏力，在图像处理中耗时较长，无法达到实时检测的要求。

发明内容

为解决上述问题，本发明提供了一种基于PSPNet语义分割模型和改进YOLOv4目标检测模型的地磅人员入侵的检测方法，用于地磅称重过程中的实时图像处理，提高识别检测人员入侵作弊行为的实时性和准确性。

实现本发明目的的技术方案如下：

一种基于PSPNet和改进YOLOv4的地磅称重人员入侵的检测方法，包括如下步骤：

步骤1、采集不同地点的地磅以及进出车辆和人员的图片，并从多个角度采集空闲地磅的图片，作为原始数据集；

步骤2、对采集图像进行增强处理得到最终数据集；

步骤3、对采集的地磅图片进行地磅区域手工锚点标注生成对应的掩码位图，并将其整理为VOC格式数据集；对采集的人员和车辆图片进行手动标注生成对应的xml文件，并将其整理为VOC格式数据集；

步骤4、将地磅图片数据集传入到设定好初始训练超参数的PSPNet语义分割网络进行训练，训练后的PSPNet模型识别并分割出空闲地磅区域；

步骤5、将人员和车辆数据集传入到设定好初始训练超参数的改进YOLOv4目标检测模型中进行训练，训练后的YOLOv4模型识别并标出车辆和人员的预测框；

改进YOLOv4为：将原始的YOLOv4目标检测模型中的主干特征提取网络替换为轻量级的MobileNetV2，主干特征提取网络提取出三个有效特征层，最后一个有效特征层经过3个卷积块操作后连接SPP模块，SPP模块通道拼接操作后再经过3个卷积块操作；SPP模块前后3个卷积块的中间卷积块均为提取特征的3×3普通卷积块；在PANet模块中，对三个有效特征层反复提取特征的过程中，通道拼接操作后都有5个卷积块操作；5个卷积块中第二个和第四个卷积块均为提取特征的3×3普通卷积块；

将这些普通卷积块中的普通卷积操作该为逐通道和逐点的深度可分离卷积，ReLU激活函数改为ReLU6激活函数。

步骤6、将分帧的监控视频图片传入训练好的PSPNet模型和改进YOLOv4模型，识别出视频内的人员违法入侵现象：称重状态下，判断改进YOLOv4识别出的人员预测框与PSPNet分割出的地磅区域的相对位置，对人员预测框从下至上截取人体腿部区域的矩形框，判断该矩形框与空闲地磅区域重合度，若重合度超过设定人员重合度阈值，判定人员此刻停留在地磅上，为该目标人员开启计时器记录停留时间，若目标人员的停留记录时间超过设定时间阈值，则判定人员的非法入侵行为。

本发明与现有技术相比，有以下显著优点：

(1)使用PSPNet语义分割网络像素级识别地磅区域，像素识别精度高，PA值达到94％，MIoU值达到83.9％，能够精确得分割出地磅区域，并且相比于传统方式不会受到复杂背景的干扰，能够对夜晚、雨天和雾天等光照条件不好的环境对地磅区域精准识别，具有较好的鲁棒性。

(2)使用改进的YOLOv4模型识别车辆和人员，对目标的检测精度高，mAP值达到90.36％，平均每秒检测图片36.01帧，兼顾检测精度的同时，检测速度快，更符合入侵检测中实时性的要求。

(3)使用改进的YOLOv4目标检测网络，在制作人员和车辆数据集时，使用k-means聚类算法得到更适合自己数据集的锚框参数值，使识别更加高效准确。

(4)结合PSPNet语义分割模型和YOLOv4目标检测模型，可实时分析称重的状态信息、地磅区域人数以及周围环境人数等记录信息，方便计量人员更好的追溯称重数据，降低设计和维护成本。

附图说明

图1为本发明的识别处理方法流程图。

图2为多个地磅组成的部分数据集和对应的标签。

图3为厂区人员和称重车辆组成的部分数据集和对应的标签。

图4为地磅区域掩码位图。

图5为使用PSPNet模型识别的地磅区域图。

图6为YOLOv4加强特征提取网络结构卷积块修改位置示意图。

图7为YOLOv4加强特征提取网络结构修改示意图。

图8为判定人员违法入侵行为的示意图。

图9为地磅正常称重时使用改进YOLOv4模型识别的人和车辆位置图。

图10为地磅有人员入侵时使用改进YOLOv4模型识别的人和车辆位置图。

具体实施方式

为了更清楚地说明本发明具体实施方式和技术目的，下面将结合附图对实施本发明做进一步详细介绍，显而易见的是，所描述的实例是本发明的部分实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下还可以获得其他实施例。

结合图1，本发明的基于PSPNet和改进YOLOv4的地磅人员入侵的检测方法，包括以下步骤：

步骤1、通过各个厂区的各个地磅区域的监控摄像机采集历史监控视频，利用Opencv视觉库将视频进行分帧处理，得到多个地磅监控场景下不同角度的地磅图片和人员及车辆图片，多个地磅的大小和外观不一，但其轮廓和比例相对单一和固定，所以采集426张空闲地磅图片和2860张人员与车辆图片作为原始数据集。

步骤2、对空闲地磅数据集和人员车辆数据集部分图片进行旋转、平移、亮度变换、模糊处理、随机裁剪等多个数据增强方法来扩充数据集，初始数据集和数据增强后的数据集共同组成最终数据集，最终空闲地磅数据集和人员车辆数据集，数量分别总计994张和5246张。

步骤3、通过Labelme语义分割标注工具对空闲地磅数据集的地磅轮廓区域进行手工锚点标注，设定地磅标签为weighbridge，然后生成对应的json文件，将json文件转换成对应图像的掩码位图，最后将原始图片、掩码图片以及train和val描述文件整理成VOC格式标准的数据集，其中划分训练集和测试集的比例为8:2；使用LabelImg数据标注工具对人员和车辆数据集中的称重车辆和厂区人员进行手动标注，设置称重车辆标签为truck，厂区人员标签为person，工具生成数据集对应图片的xml文件，最后将原始图片和xml文件制作成VOC2007格式的数据集并以8:2的比例将其分为训练集和测试集。

步骤4、搭建PSPNet语义分割模型，将步骤3中的最终空闲地磅数据集传入PSPNet模型中训练，使用训练好的PSPNet模型语义分割空闲地磅区域，并以均交并比(MIoU)、像素分类的准确度(PA)以及FPS作为识别地磅区域效果的评价指标评价模型性能。

具体步骤如下：

4.1、设置最大迭代次数为10000次，前50个epoch冻结主干特征提取网络进行训练，训练过程中的学习率(lr)为0.0001，批量大小(batch size)为16，模型解冻后再训练50个epoch，训练过程中的学习率为0.00001，批量大小为8；训练过程中使用交叉熵损失和dice loss计算损失值，为了方便模型快速收敛，使用Adam优化器优化网络参数。

4.1.1、计算交叉熵损失函数：

L＝ylogy′+(1-y)log(1-y′)

其中L表示交叉熵损失函数，y为样本标签，正类为1，负类为0，y′为预测为正类样本的概率。

4.1.2、计算Dice Loss：

Dice loss将语义分割的评价指标作为Loss，Dice系数是一种集合相似度度量函数，用于计算两个样本的相似度，取值范围在[0,1]，计算公式如下：

其中X表示预测结果，Y表示真实结果，S表示Loss值，S越大表示预测结果和真实结果重合度越大，Dice系数是越大越好，作为Loss是越小越好，所以将Dice loss＝1–Dice作为语义分割的损失函数。

4.2、使用训练好的PSPNet模型进行地磅区域的语义分割，主要分为以下几个步骤。

4.2.1、将传入的图片以添加灰条的方式进行不失真预处理，将其调整成大小为(3,473,473)，将处理后的图片作为输入传入主干特征提取网络Resnet50，得到不同尺度的Feature Map。

4.2.2、将主干特征提取网络提取的Feature Map分为两部分。一部分作为全局特征，一部分传入加强特征提取网络进行进一步特征提取，PSPNet采用金字塔池化模块作为加强特征提取结构，该模块会将输入的特征层划分成6ⅹ6，3ⅹ3，2ⅹ2，1ⅹ1这四个不同尺度的区域，然后对每个区域内部各自进行平均池化处理。

4.2.3、将池化后的金字塔特征图采用双线性插值进行上采样，使其缩放到原始特征图尺寸，接着使用3ⅹ3卷积整合特征，融合为全局先验信息，最后利用1ⅹ1卷积进行通道调整，上采样到宽高与输入图片一致的最终预测分割图。

4.3、使用均交并比(MIoU)、像素分类的准确度(PA)以及FPS识别地磅区域效果的评价指标，得到PSPNet语义分割的性能。

4.3.1、MIoU是语义分割模型的标准度量，它先对每个类计算IoU(真实标签和预测标签的交并比)，然后再对所有类别的IoU求均值，交并比是预测预期与实际区域的交集除以两者的并集。MIoU计算公式如下：

式中：k是分类数量，通常语义分割中会存在背景类，所以用k+1，p_ij表示把第i个真实类别的像素错误地预测为第j个类别的总个数，p_ji是把第j个真实类别的像素正确预测为第i个类别的总个数，

为图片中第i类像素总数，即标记区域，

为图中模型预测为第i类别的像素总数，即预测区域。

4.3.2、PA也是语义分割模型的标准度量，即预测分类正确的像素与图片总体像素数量的比值，计算公式如下：

4.3.3、PSPNet模型在训练集上的准确率平均为95.5％，测试集上的准确率平均为93.9％，平均交并比值最高达到83.9％。在训练世代达到30、65、100的时候保存训练权重，对应权重的交并比、准确度和FPS等指标表1所示。

表1 PSPNet模型训练结果

通过表1看出，训练到第65个世代的时候，综合效果比较好，实际保存第79个训练epoch的模型权重来像素级识别地磅区域。

步骤5、搭建YOLOv4目标检测模型，并进行轻量化改进，将步骤3的最终人员和车辆数据集出入改进YOLOv4模型中训练，使用训练好的改进YOLOv4模型识别称重车辆和人员，并以平均精度均值(mAP)和FPS作为识别人员和车辆效果的评价指标来评价模型性能。具体步骤如下：

5.1、搭建YOLOv4目标检测网络模型并对其进行轻量化改进，模型的主干特征提取网络替换为MobileNetV2，在提取出三个有效特征层，最后一个1024×13×13的特征层经过3个卷积块后连接SPP模块，经过SPP全局池化并拼接特征层后，再次经过3个卷积块，分别位于SPP模块前后的3个卷积块，中间为提取特征的3×3普通卷积块；在PANet模块中利用三个有效特征层经多个上采样、下采样、特征层拼接、卷积块卷积操作进行特征的反复提取，其中每个特征层拼接后都会有5个卷积块，其中有两个用于提取特征的3×3卷积块；加强特征提取网络中的3×3卷积块由普通卷积、BN标准化和ReLU激活函数组成，本发明基于深度可分离卷积，使用逐通道和逐点卷积替换3×3卷积块中的普通卷积，激活函数使用ReLU6，替换后的3×3卷积块由深度可分离卷积、BN标准化和ReLU6激活函数组成。改进后的模型参数量减少到原版YOLOv4的六分之一左右，改进前后的模型参数量如表2所示。

表2改进前后的YOLOV4模型参数量对比

5.2、设置最大迭代次数为25000次，设置冻结训练epoch为50，冻结训练过程中的学习率为0.001，批量大小为32，模型解冻后再训练50个世代，解冻训练过程中学习率为0.0001，批量大小为16，整个训练过程的权重衰减正则系数为0.0005、动量系数0.9，训练使用的损失函数由边界框回归损失L_ciou、置信度损失L_conf和分类损失L_class三部分组成，若在某个先验框中不存在目标，仅计算置信度损失，否则计算三种损失。

5.2.1、边界框回归损失CIoU在IoU的基础上将目标与anchor之间的中心距离、宽高比的尺度信息和边框的重合度都考虑了进去，不会出现像IoU一样在训练中发散的问题，CIoU公式如下：

其中L_ciou表示边界框损失函数值，L_iou表示交并比损失函数值，ρ²(b,b^gt)表示预测框和真实框的中心点的欧式距离；c表示同时包含预测框和真实框的最小闭包区域的对角线距离；w^p表示预测框的宽；h^p表示为预测框的高；w^gt表示真实框的宽；h^gt表示真实框的高，ν用来衡量宽高比的相似性，α为平衡比例的权重系数。

5.2.2、置信度损失L_conf通过交叉熵方法计算，公式如下：

式中s²表示图片被划分的网格数量；b表示每个网格的先验框数量；

和

表示若第k个网格的第t个先验框有目标，分别取1与0，若没有目标，分别取0与1；λ_noobj表示未包含目标边框置信度的损失权重；c_k和c_k分别表示第k个网格预测的类别和所属实际类别。

5.2.3、分类损失L_class通过交叉熵方法计算，公式如下：

式中s²表示图片被划分的网格数量，

表示第k个网格是否包含目标，p_k和p_k(c)分别表示第k个网格预测的目标概率和实际目标概率。

5.3、使用训练好的改进YOLOv4模型进行称重车辆和人员的目标检测，主要分为以下几个步骤。

5.3.1、使用k-means聚类算法对样本集中的车辆和人员进行聚类分析，筛选出更匹配数据集检测对象的先验框尺寸，得到用于预测目标的9个锚框，每个yolo head特征图会分别对应3个锚框。

5.3.2、将监控视频分帧后的图片以添加灰条的方式进行不失真预处理，统一将其调整成大小为(3,608,608)，将处理后的图片作为输入传入主干特征提取网络MobileNetv2中，得到三个Feature Map作为有效特征层。

5.3.3、使用SPP空间金字塔池化结构和PANet路径聚合结构作为neck，得到三个不同大小的yolo head特征图，本实例中的三个yolo head特征图分别为(21，76，76)、(21，38，38)和(21，19，19)，分别对应图片分为76ⅹ76、38ⅹ38和19ⅹ19的网格上三个预测框的位置，yolo head特征图中的第一个维度21表示为3ⅹ(4+1+2)，其中3表示预先设置好的3个先验框，4代表要先验框宽高和中心的调整参数，1表示是否有目标，2表示要检测的车辆和人员两个类别。

5.3.4、三个有效特征层把图片划分成19ⅹ19、38ⅹ38、76ⅹ76的网格，每个网格负责一个区域的预测，特征层的预测结果对应三个预测框的位置，yolo将每个网格点加上对应的先验框中心的调整参数再结果宽高调整参数确定预测框的长宽和位置，最后对目标对象的预测框进行置信度得分排序和非极大抑制筛选得到最接近目标的预测框。

5.4、将原始YOLOv4算法、轻量级版本的YOLOv4-tiny和本文改进的YOLOv4算法在相同软硬件环境和数据集下进行目标检测试验，对比两者在准确度、检测速度以及模型大小上的差距，其试验结果如表3所示。本发明的轻量化改进YOLOv4相比于原始YOLOv4下降了2.03％，权重大小减少了203MB，检测速度大幅提升，每秒识别的图片个数提升了近14张；相比于YOLOv4-tiny，检测速度相差无几，但检测精度远远高出。综合对比，改进YOLOv4兼顾了检测速度和精度，符合本发明地磅人员入侵检测的精确度和实时性要求。

表3改进的YOLOV4算法测试效果对比

步骤6、识别地磅称重状态下的人员违法入侵行为，发出报警信息。具体流程如下。

6.1、改进YOLOv4模型识别到称重车辆后，计算车辆与PSPNet分割出来的地磅区域的重合度，若重合度达到设定的车辆重合度阈值，判定当前地磅处于称重状态。

6.2、改进YOLOv4模型识别得到人员的预测框，截取人员腿部区域的矩形框，计算该矩形框与空闲地磅区域的重合度，若重合度达到设定的人员重合度阈值，判定人员此刻停留在地磅上，开启计时器记录人员停留时间，若目标人员的停留时间超过设定停留时间阈值，则判定人员的非法入侵行为。

6.3、将目标人员的数量、对应计时器记录的入侵时间以及地磅点编号等信息保存到数据库中，通过Web弹框和微信服务推送报警信息给相关人员。

本发明针对传统的图像分割技术无法提取图像中、高级语义来处理复杂背景，红外图像检测成本较高、检测时间长导致实时性太差等问题，提出一种结合PSPNet语义分割和改进YOLOv4目标检测的地磅人员入侵的检测方法，PSPNet模型对监控图片进行像素级别的检测分割出准确的地磅区域，改进Yolov4模型对监控视频分帧处理实时检测人员和车辆，在称重状态下及时地检测出非法入侵的人员并立马发出报警信息，实时发现并及时阻止非法人员在地磅称重时停留在地磅上导致称重数据异常的作弊行为。

Claims

1.一种基于PSPNet和改进YOLOv4的地磅称重人员入侵的检测方法，其特征在于，包括如下步骤：

步骤2、对采集图像进行增强处理得到最终数据集；

2.如权利要求1所述的基于PSPNet和改进YOLOv4的地磅人员入侵的检测方法，其特征在于，所述步骤S4中，训练PSPNet语义分割模型并识别空闲地磅区域，具体训练超参数设置和损失函数如下：

设置模型训练最大迭代次数、冻结训练epoch数、冻结训练过程的学习率、冻结训练过程的批量大小、解冻训练epoch数、解冻训练过程中的学习率、解冻训练过程的批量大小；设置模型训练损失函数为交叉熵函数和Dice Loss，设置Adam优化器优化模型参数。

3.如权利要求1所述的地磅称重人员入侵的检测方法，其特征在于，所述步骤S4中的像素级识别地磅区域的PSPNet语义分割模型的搭建过程如下：

(1)将监控视频分帧后的图片以添加灰条的方式进行不失真预处理，通过Resnet50主干特征提取网络提取出不同尺度的Feature Map；

(2)将提取出的Feature Map分为两部分。一部分作为全局特征，一部分传入金字塔池化模块加强特征提取，金字塔池化模块对该部分特征层划分为四种尺度的区域，在每个区域内部各自进行平均池化处理；

(3)将池化后的特征层采用双线性插值法的上采样操作，与全局特征层进行通道拼接，使用3×3卷积整个特征，1×1卷积调整通道，上采样到原始宽高的最终预测分割图。

4.根据权利要求1所述的基于PSPNet和改进YOLOv4的地磅人员入侵的检测方法，其特征在于，步骤5对人员和车辆进行目标检测的YOLOv4网络模型的训练，具体训练超参数设置和损失函数如下：

设置模型训练目标类别个数、最大迭代次数、冻结训练的epoch数、冻结训练的学习率、冻结训练的批量大小、解冻训练的epoch数、解冻训练的学习率、解冻训练的批量大小、权重衰减正则系数、动量系数；设置模型训练损失函数由边界框回归损失L_ciou、置信度损失L_conf和分类损失L_class，设置Adam优化器优化模型参数。

5.根据权利要求1所述的基于PSPNet和改进YOLOv4的地磅人员入侵的检测方法，其特征在于，边界框回归损失L_ciou计算公式如下：

6.根据权利要求1所述的基于PSPNet和改进YOLOv4的地磅人员入侵的检测方法，其特征在于，步骤5中对人员和车辆进行目标检测，具体步骤如下：

(1)使用k-means聚类算法对样本集中的车辆和人员进行聚类分析，得到用于预测目标的多个锚框；

(2)将监控视频分帧后的图片以添加灰条的方式进行不失真预处理，使用主干特征提取网络MobileNet v2提取三个有效特征层；

(3)使用SPP空间金字塔池化结构和PANet路径聚合结构作为加强特征提取网络，进行加强特征提取，得到先验框的预测参数，包括先验框中心的调整参数、宽高调整参数、分类以及目标类别的置信度；

(4)将得到的先验框中心的调整参数再结合宽高调整参数来确定预测框的长宽和位置，对目标对象的预测框进行置信度得分排序和非极大抑制筛选得到最接近目标的最终预测框。