CN111126325A

CN111126325A - 一种基于视频的智能人员安防识别统计方法

Info

Publication number: CN111126325A
Application number: CN201911389090.7A
Authority: CN
Inventors: 朱齐丹; 廉镜民
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-05-08
Anticipated expiration: 2039-12-30
Also published as: CN111126325B

Abstract

本发明属于计算机视觉、深度学习和目标检测技术，具体涉及一种基于视频的智能人员安防识别统计方法。本发明结合传统的图像处理方法、深度学习神经网络及传统的机器学习分类方法实现对工作环境中小目标人员的位置信息、数量、是否佩戴安全帽和穿着工作服的情况进行准确检测和识别，同时结合了原PyramidBox检测算法的单步目标处理过程良好的实时性和结合上下文环境信息以实现对模糊、小目标的准确检测等优点。由于实际工作环境的复杂性，仅仅识别安全帽可能已经无法满足需求，本发明实现了同时检测视野内小目标人员头部区域和身体区域，既达到了对人员位置的检测与跟踪，也满足了工程中的安全规范需求。

Description

一种基于视频的智能人员安防识别统计方法

技术领域

本发明属于计算机视觉、深度学习和目标检测技术，具体涉及一种基于视频的智能人员安防识别统计方法。

背景技术

在一些危险程度较高的场景下如冶金作业场所、建筑工地及隧道涵洞等场合下，工作人员配戴安全帽和身穿工作服是必要的安全要求，除此之外，一些存放价值较高财产或操作较为危险设备的工业生产车间或***舱室对安全需求更加严格，例如会规定工作车间或限制指定区域内的实时总人数。现今，许多工业生产现场都设有监管体系以实现实时的监控，监控主要以人工值守和视频监控两种方式实施。由于人工值守受时间、精力等因素的干扰易出现监控疏漏且监控范围有限、耗费人力物力，现在更多倾向于借助计算机视觉方法，采用视频监控实现监管。

对监控视野内人员的头部区域和身体区域的准确定位是保证后续总人数统计、安全帽和工作服识别工作的前提，目前主要目标的方法主要是基于传统目标检测方法和深度学习技术。

传统检测方法一般分为三个阶段，首先在给定的图像上选择一些候选的区域，然后对相关区域进行特征的提取，最后使用训练的分类器进行分类，如经典的HoG算法和SVM支持向量机分类，但是却存在着窗口区域选择策略没有针对性，时间复杂度高，窗口冗余以及对于多样性变化的特征鲁棒性较差的缺点。

继深度学习技术兴起后，基于深度学习中常用目标检测算法的安全帽识别或行人检测的技术层出不穷。其中YOLO算法是单步目标检测算法的代表，单步检测算法的特点就是没有额外的候选区域目标推荐过程，因此速度性能上较为理想，但存在着精度低的明显缺点，其明显的尤其对一些模糊、遮挡的小目标检测效果并不理想。而对于另一种常用的双步目标检测算法就不得不提到Faster R-CNN，是基于R-CNN、Fast R-CNN改进得到的优化算法，相比于SSD和YOLO系列的检测算法，其整体流程分为区域提取和目标分类两部分，将传统的特征提取和分类器分类合并为一步，先生成region proposals候选框，然后再对每个候选框分类和修正位置，由于需要多次执行检测和分类流程，这种类型的双步检测算法虽然确保了精度的准确性，但是较YOLO、SSD等单步检测算法来说，在检测速度上大打折扣。因此在对实时性有要求的特定危险场景中难以令人满意。单一的使用实时性能较好的单步检测算法或检测精确度较高的双步检测算法不足以达到实际需求。

目前单独的行人检测技术和安全帽识别技术已经十分常见，但是并没有十分完善的可以同时实现模糊、遮挡的小目标检测、安全帽检测和安全着装检测的方法。

综上所述，需要设计一种适用于对安全规范有较高要求的特定场景下同时实现人员数量统计、工作服检测和安全帽检测的智能识别***，同时还要保证具有理想的实时检测性能和良好的检测跟踪效果，以实现生命安全和财产的有效保障。

发明内容

本发明的目的在于提供一种基于视频的智能人员安防识别统计方法。

本发明的目的通过如下技术方案来实现：包括以下步骤：

步骤1：构建PyramidBox网络；

步骤1.1：保持原PyramidBox的主干特征提取网络VGG16及额外的卷积层不变，另外共有6个CPM分支和3个LFPN部分；在原PyramidBox网络的经典的SSH算法、增加的卷积层和正则化部分后，将原有的面部检测结构的类别概率置信层face_conf_layers和位置回归层face_loc_layers更改为头部检测部分和身体检测部分，即为head_conf_layers，head_loc_layers，body_conf_layers，body_loc_layers四个层级，每个层级是相对应的卷积层的组合，其中卷积层的输入通道参数按照multibox算法官方参数中给出的具体数值所设定的，其他参数可根据经验或后续自定义的卷积层输入通道数自行设定，但要保证逐个卷积层级之间通道数的匹配与对应；

步骤1.2：分别设定头部区域和身体区域的相应特征列表，用于接收经过前续前向传播过程处理后的head_conf_layers，head_loc_layers，body_conf_layers，body_loc_layers的各个特征图，逐次将每个头部区域和身体区域的特征添加至与之相对应的类别置信层列表和位置回归层列表之中；

步骤1.3：对经过ssh_conv3_norm部分操作后的头部位置回归特征图和身***置回归特征图进行维度变换并处理；对头部分类置信结果和身体分类置信结果分别输入至max-in-out预测评分部分，按照不同的权重等级negative、positive_negative及positive_positive分别评分，并分别将头部检测和身体检测的概率预测结果拼接并变换为适当的维度添加至步骤1.2中预先设定的特征列表中；

步骤1.4：对于其他5个不同层级的ssh_conv分支得到的特征图的各个高低层级的特征信息进行融合，并且再次进行步骤1.3中的维度变换及概率预测评分，然后依次添加至特征列表中；

步骤1.5：新建另一个特征图列表2，将前述的6个层级的特征提取分支所得的特征图整合至其中，并用于产生默认框PriorBox即PyramidAnchor；

步骤1.6：按照PyramidBox参数设置特征图、输入尺寸大小及步长等相关数值，计算并得到每个特征图生成的默认先验框

其中，m指特征图个数；s_k表示先验框大小相对于图片的比例；s_min和s_max表示比例的最小值与最大值；|f_k|为特征图的大小；

步骤2：制定数据集，训练PyramidBox检测模型；

所述的数据集中包括带有人员头部和身体标注框的图片，头部检测框和身体检测框数量相同，对于有遮挡的情况要尽量框住露出的部分并减少背景的所占的比例；

步骤3：分割并提取待分类区域的特征，训练SVM分类器模型；

根据标注得到的数据集中xml标签文件的xmin、xmax、ymin、ymax坐标，截取每张图片中人员的头部区域和身体区域，并利用图像直方图对提取每一块区域的RGB三个通道分别提取特征；将三个通道的特征组合成一个特征向量，将每个区域的最终的特征向量和该区域的类别标签共同用于训练SVM分类器；

步骤4：将待检测的监控视频或摄像头实时采集的视频流输入至训练好的PyramidBox检测模型和SVM分类器模型中，得到画面中每个人物的位置信息和类别信息，具体包括带有类别的头部检测框和身体检测框。

本发明的有益效果在于：

本发明结合传统的图像处理方法、深度学习神经网络及传统的机器学习分类方法实现对工作环境中小目标人员的位置信息、数量、是否佩戴安全帽和穿着工作服的情况进行准确检测和识别，同时结合了原PyramidBox检测算法的单步目标处理过程良好的实时性和结合上下文环境信息以实现对模糊、小目标的准确检测等优点。由于实际工作环境的复杂性，仅仅识别安全帽可能已经无法满足需求，本发明实现了同时检测视野内小目标人员头部区域和身体区域，既达到了对人员位置的检测与跟踪，也满足了工程中的安全规范需求。

附图说明

图1为本发明的总体流程图。

图2为本发明实施例中数据集的标注图。

图3为本发明实施例中实际检测效果图。

图4为改进的PyramidBox算法网络结构示意图。

具体实施方式

下面结合附图对本发明做进一步描述。

本发明涉及一种基于视频的智能人员安防识别统计方法，主要步骤流程如下：修改目标检测网络结构，初步实现同时检测多部位区域如头部和身体，然后通过优化调参，提取特征并分类等方式对网络模型进行学习训练得到较为理想的最终检测模型。通过调用训练好的检测模型实现监控功能。本发明是基于PyramidBox检测算法，将人脸检测替换为并行的头部检测和身体检测，这样基于单步检测算法良好的实时性，既保留了检测网络可以根据各尺度多特征信息融合而准确检测目标的优越性能，同时实现了对实际需求的区域部位良好的检测与跟踪效果，尤其是对于模糊及遮挡情况下的小目标检测。

一种基于视频的智能人员安防识别统计方法，包括以下步骤：

步骤1：构建PyramidBox网络；

步骤2：制定数据集，训练PyramidBox检测模型；

步骤3：分割并提取待分类区域的特征，训练SVM分类器模型；

本发明为了解决现有的技术问题，设计了一种基于视频的智能人员安防识别统计方法，尤其是针对于模糊、遮挡等情况下的小目标，主要功能包括对监控视野内人员数量的统计，识别视野内人员的着装是否符合要求，以及是否佩戴指定安全帽的识别。对于人员数量的统计功能，考虑到存在小目标以及对身体有遮挡的情况，通过精确检测人员头部并计算其数量以实现。

本发明的主要思想是基于PyramidBox网络对小目标、模糊及遮挡情况的人脸的准确检测效果，保留原有的主干特征提取网络及上下文环境信息感知模块等部分，将人脸检测替换为并行的头部检测和身体检测，这样基于单步检测算法良好的实时性，既保留了检测网络可以根据各尺度多特征信息融合而准确检测目标的优越性能，同时实现了对实际需求的区域部位良好的检测与跟踪效果。

另外在对小目标区域进行检测的任务中，对于主干特征提取部分，可根据实际情况及检测效果修改不同层级的特征融合范围，即并不是从最高层级开始向下融合特征信息，而是从相对中间的层级开始融合，因为随着网络层级的加深，高层级的感受野较大，对于需求的小目标检测的效果提升并没有实质性的帮助，而且很可能引入环境噪声，因此避免直接使用高层级却缺少上下文环境的大尺度区域特征。解决这一问题可修改原结构中的低层级特征金字塔层LFPN(Low-level Feature Pyramid Networks)融合层级conv3_3,conv4_3,conv5_3的三个LFPN分支，根据实际采用的主干特征提取网络层级，融合相对更高层级或更低层级的特征，作为各分支对应上下文环境信息敏感结构CPM(Context-sensitive Predict Module)的输入，以实现更加理想的小目标检测效果。

对于修改后的检测网络模型训练时，可以选择训练全部或者指定的部分网络权重值，如在前述主干的特征提取网络检测效果良好的情况下，可以选择有针对性的只训练后面的头部分类置信层、头部位置回归层、身体分类置信层和身***置回归层。如应用过程中不受实际数据集数据量的限制，可以增加训练的目标层数，如前述的VGG特征提取部分、额外卷积层及CPM部分等，以达到模型实际检测泛化能力的显著性提升的目的。

本发明的有益效果在于：本发明结合传统的图像处理方法、深度学习神经网络及传统的机器学习分类方法实现对工作环境中小目标人员的位置信息、数量、是否佩戴安全帽和穿着工作服的情况进行准确检测和识别，同时结合了原PyramidBox检测算法的单步目标处理过程良好的实时性和结合上下文环境信息以实现对模糊、小目标的准确检测等优点。由于实际工作环境的复杂性，仅仅识别安全帽可能已经无法满足需求，本发明实现了同时检测视野内小目标人员头部区域和身体区域，既达到了对人员位置的检测与跟踪，也满足了工程中的安全规范需求。

实施例1：

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整的描述。

步骤1，修改原有的PyramidBox算法网络结构，以达到分别的头部和身体检测模块；

步骤2，用网络上行人检测数据集对目标检测网络进行训练，得到第一预训练模型；

步骤3，用摄像头拍摄采样工房室内实际环境及人员工作情况的视频，并对视频按照一定帧数间隔截取图片，所述图片制作训练样本；(具体中写样本采集的各种情况，昼夜，单人多人，分别着装情况)

步骤4，手工对训练样本中人员的头部和全身的位置与类别信息进行标注；(具体中写标注事项)

步骤5，使用制作好的数据样本集训练改进的PyramidBox算法网络，得到检测训练模型；

步骤6，加载图片数据集，具体是指读取图片数据集中的标注框并提取头部和身体的特征用于训练SVM分类器；

步骤7，检测网络和分类器训练完成后，调用二者对本地室内监控视频或摄像头实时采集的视频流中人员进行检测和分类；

所述步骤1中修改PyramidBox网络结构指的是：

步骤1.1：保持原PyramidBox的主干特征提取网络VGG16及额外的卷积层不变，另外共有6个上下文环境信息感知模块CPM分支和3个低层级特征金字塔层级LFPN。

步骤1.2：在原PyramidBox网络的经典的SSH算法、增加的卷积层和正则化(ssh_conv3_norm分支)部分后，更改原有的面部检测结构的类别概率置信层face_conf_layers和位置回归层face_loc_layers为头部检测部分和身体检测部分，即为head_conf_layers,head_loc_layers,body_conf_layers,body_loc_layers四个层级，每个层级是相对应的卷积层的组合，其中卷积层的输入通道参数按照multibox算法官方config参数中给出的具体数值所设定的，其他参数可根据经验或后续自定义的卷积层输入通道数自行设定，但要保证逐个卷积层级之间通道数的匹配与对应。

步骤1.3：分别设定头部区域和身体区域的相应特征列表，用于接收经过前续前向传播过程处理后的head_conf_layers,head_loc_layers,body_conf_layers,body_loc_layers的各个特征图，逐次将每个头部区域和身体区域的特征添加至与之相对应的类别置信层列表和位置回归层列表之中。

步骤1.4：对经过ssh_conv3_norm部分操作后的头部位置回归特征图和身***置回归特征图进行维度变换并处理；对头部分类置信结果和身体分类置信结果分别输入至max-in-out预测评分部分，按照不同的权重等级negative、positive_negative及positive_positive分别评分，并分别将头部检测和身体检测的概率预测结果拼接并变换为适当的维度添加至步骤1.3中预先设定的特征列表中。

步骤1.5：与上述过程类似，对于其他5个不同层级的ssh_conv分支得到的特征图的各个高低层级的特征信息进行融合，并且再次进行步骤1.4的维度变换及概率预测评分，然后依次添加至调整列表中。

步骤1.6：另一方面，新建一个特征图列表2，将前述的6个层级的特征提取分支所得的特征图整合至其中，并用于产生默认框PriorBox即PyramidAnchor。

步骤1.7：根据下式：

k∈[1,m]，m指特征图个数，s_k表示先验框大小相对于图片的比例，s_min和s_max表示比例的最小值与最大值

其中，|f_k|为特征图的大小

按照PyramidBox官方参数设置特征图、输入尺寸大小及步长等相关数值，计算并得到每个特征图生成的默认先验框

所述步骤2具体为：本发明实施例中的网络主干基于VGG16的预训练模型，进一步地，使用旷视科技研究院开源的基准行人检测数据集对修改后的网络进行第一次训练，该数据集同时标注了图片中每个人的头部和人体全身，符合检测网络结构的要求。该数据集拥有15000张用于训练的图像，4370张用于验证的图像和5000张用于测试的图像。使用此开源数据集的目的是可以得到一个同时检测头部和身体的预训练网络模型，用于检测效果的初步检验，可节省一定的数据集制作的成本并且较快的投入初步的工业应用中。

所述步骤3具体为：将一单目可调视角摄像机安放在天花板上，调整合适的角度及视野焦距范围，以达到可以采集到整个想要监控的画面区域的目的，本实例设置的相机分辨率为1280*720，视频帧率25fps。对于数据集的制作，分别采集以下各个条件的互相组合的视野画面，包括单人、多人、是否佩戴安全帽、是否穿着工作服、光线充足、光线较暗、部分遮挡等，其他具体条件可根据实际需求酌情调整。对于采集到的监控视频，以每5帧为间隔截取得到监控画面的图片，用于数据集的制作。

所述步骤4中数据集的标注要求为：头部和身体的标注框要一一对应，确保头部检测框和身体检测框数量相同；对于有遮挡的情况要尽量框住露出的部分并减少背景的所占的比例。具体标注类别信息为“戴安全帽”，“不戴安全帽”，“穿着指定工作服”，“未穿着指定工作服”。

所述步骤5中的训练检测网络模型具体指的是：与步骤2中的训练全部的检测网络模型不同，本发明实施例中结合采集的实际图像数据集对步骤2得到的网络模型的指定几层的参数进行了训练和学习，即头部的检测层(head_loc_layers)、头部的置信层(head_conf_layers)、身体的检测层(body_loc_layers)和身体的置信层(body_conf_layers)。

所述步骤6中，根据标注得到的数据集中xml标签文件的xmin、xmax、ymin、ymax坐标，截取每张图片中人员的头部区域和身体区域，并利用图像直方图(如opencv中的calcHist函数)对提取每一块区域的RGB三个通道分别提取特征，进一步地将三个通道的特征组合成一个特征向量，进一步地将每个区域的最终的特征向量和该区域的类别标签共同用于训练SVM分类器。

所述步骤7中，通过读取待测试的视频或图片同时调用训练完成的PyramidBox检测模型和SVM分类器模型对视频或图片进行检测和识别，得到画面中每个人物的位置信息和类别信息，具体包括带有类别的头部检测框和身体检测框，本发明实施例中通过设定实时检测框的颜色为红色和绿色以表示衣帽着装情况的合格与否，视野内总人数设定在监控画面的左上角。

在本发明实施例中，并未修改原PyramidBox网络结构中的基础卷积层、额外卷积层、低层级特征金字塔网络层、环境感知模块。

对于训练的策略，不局限于本发明中只训练网络模型的指定几个检测层，还可以根据实际情况进行调整，可有选择性的调整训练的目标检测层。

综上所述，本发明实施例提供一种基于传统图像处理、深度学习和传统机器学习方法对视频或图片中总人数及位置信息、安全帽识别和工作服识别的方法，包括以下步骤：

步骤一：修改PyramidBox网络结构；

步骤二：制定数据集并完成位置检测模型的训练；

步骤2.1：通过摄像机采集待监控区域视频并分别对视野内人员的头部和身体区域(含头部)进行标记并按照安全帽和工作服着装要求标注是否合格的类别；

步骤2.2：读取数据集中图片并完成对位置检测网络的训练；

步骤三：分割并提取待分类区域的特征，训练分类器模型；

步骤3.1：截取分割出人员的头部区域和身体区域；

步骤3.2：利用图像直方图分别对两个区域内的特征进行提取并得到相应的特征向量；

步骤3.3：训练支持向量机分类器得到分类模型；

步骤四：调用位置检测模型和分类器模型；

通过读取待测试的视频或图片同时调用训练完成的PyramidBox检测模型和SVM分类器模型对视频或图片进行检测和识别。

在具体实现过程中，理论上使用任何一种深度学习框架都可以实现，同时使用者可调整头部预测模块和身体预测模块之前的网络层结构，包括基础卷积层、额外卷积层、低层级特征金字塔网络层、环境感知模块，以实现不同层级更理想的特征提取和检测效果。另外，根据实际情景的具体复杂程度需求(如安全帽、工作服的颜色种类、款式的数量多少，本实施例中实现了对黄色安全帽和深蓝色红领工作服的准确检测)，进一步的可以将检测模块类别增加到鞋子、手套等工业生产中的常见安全规范需求的区域，以达到更加完善的安防要求。对于得到的人员头部区域和全身区域的特征提取部分还可以通过其他方法进行实现，如使用传统图像处理的方法(包括但不限于opencv等图像处理工具库中的传统有效的特征提取方法)，也可以使用深度学习的卷积神经网络的方法，先通过如RoIPooling的方法将分割提取出来的头部区域和全身区域进行图像的预处理，得到与后续特征提取网络的输入相匹配的图像尺寸与维度，其中特征提取网络可以采用如VGG16的预训练模型测试效果，如果检测识别效果未达到预期，也可以通过实际情景的图像数据集对网络模型进行微调或者使用其他有效的特征提取网络并将它们组合使用起来。总之，只要可以对检测得到的区域的特征图像进行处理，确定安全帽和工作服的类别信息即可。

目标检测网络模型还可以包括其他结构，只要是通过去除Faster RCNN中参数权重为零的通道所确定的参数较稀疏的目标检测网络模型，且可以对待检测的图像进行处理，确定移动目标的类别信息以及位置信息即可，其中，特征提取网络的类型也可以包括多种，例如，可以是VGG16的多个卷积层、也可以是卷积神经网络AlexNet的多个卷积层等，区域生成网络也可以包括多种结构，只要可以根据该待检测的图像的特征图像，生成多个候选区域即可，分类位置检测网络也可以包括多种形式，只要可以对候选区域的特征图像进行处理，确定移动目标的类别信息以及位置信息即可。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于视频的智能人员安防识别统计方法，其特征在于，包括以下步骤：

步骤1：构建PyramidBox网络；

步骤2：制定数据集，训练PyramidBox检测模型；

步骤3：分割并提取待分类区域的特征，训练SVM分类器模型；