CN113554682B

CN113554682B - 一种基于目标跟踪的安全帽检测方法

Info

Publication number: CN113554682B
Application number: CN202110885467.9A
Authority: CN
Inventors: 陆佳慧; 舒少龙; 任新宇; 蓝星宇
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2021-08-03
Filing date: 2021-08-03
Publication date: 2023-03-17
Anticipated expiration: 2041-08-03
Also published as: CN113554682A

Abstract

一种基于目标跟踪的安全帽检测方法，涉及图像检测的技术领域。采用YoloV4网络模型框架对视频内的单帧图像提取所有行人的位置；将检测到的行人位置、置信度信息送入DeepSort目标跟踪算法实现对所有行人的目标跟踪，以利用视频时间流信息对每个行人目标记录对应的历史安全帽检测结果；根据检测到的行人位置，截取行人位置子图送入YoloV4安全帽检测网络，实现对每个行人是否佩戴安全帽进行检测，并将检测结果存入对应行人的历史检测数据中；将当前检测帧的前k帧历史检测结果与当前帧的检测结果进行加权求和，得到投票得分；利用视频时间流信息保证了同一行人不同帧中检测结果的一致性，利用行人、安全帽双检测器增加安全帽的检测距离，提高检测精度。

Description

一种基于目标跟踪的安全帽检测方法

技术领域

本发明涉及图像检测的技术领域。

背景技术

由于工地施工及工厂生产过程中危险源众多，因此需要格外注意***问题。施工安全事故造成的死亡原因主要包括坠落、滑倒、被物体撞击、触电等。其中施工人员头部受高处坠落物撞击以及工人从高处坠落导致头部撞击硬地板是引起施工安全事故死亡的主要因素。

化工厂等厂区往往重型器械多、作业环境复杂，工人若毫无防护进行作业会带来重大的安全隐患，因此将安全帽检测应用于工厂场景下具有重大的意义。工厂和工地作为安全事故高发的场合，对工人作业时安全帽的佩戴及工装的穿着都提出了明确的要求。现有的工地或工厂监管均采用人工巡查或人工视频监管的方式，效率较差。利用人工肉眼监控视频，不仅容易产生漏查情况，还需要大量的人力去完成监管工作，人力代价较高。

随着监控设备的普及，智能化检测设备利用所获取的监控视频材料，对画面进行特征提取、处理与分析，从而实现对安全帽的检测。但大部分智能化检测设备仅利用了单帧图像进行抽帧检测，检测结果仅依赖于当前帧而忽略了历史信息，导致随着检测距离不断增大，图像变得模糊，检测精度也降低，且同一行人的安全帽检测结果会产生波动，导致误报现象。由于安全帽本身目标较小，因此智能化检测设备的检测距离往往较近，应用范围窄，主要作用于需要面部识别的闸口，且需要配备特定角度的摄像头，无法直接利用已有监控设备。

发明内容

针对上述问题，本发明提出了一种基于图像的安全帽检测方法，其中包括了一种基于目标跟踪的安全帽的检测方法，实现了在复杂的工厂环境下安全帽的有效和稳定检测。

一种基于目标跟踪的安全帽检测方法，其特征在于，利用结合了目标检测方式和目标跟踪方式，可对复杂工厂环境下人员是否佩戴安全帽进行稳定有效检测；具体的检测方法步骤如下：

步骤1，获取工厂监控视频中的单帧图像；

步骤2，图像预处理，对工厂监控视频内抽取的图像进行畸变矫正；

步骤3，采用预训练好的行人目标检测YoloV4神经网络模型检测人体在图像中可能存在的所有位置并框出，作为安全帽检测的候选位置；

步骤4，采用DeepSort跟踪算法对步骤3中检测到的行人进行目标跟踪；

步骤5，截取步骤3中得到的人体候选位置框内的图片；

步骤6，采用预训练好的安全帽目标检测YoloV4神经网络模型对步骤4中截取的图片进行佩戴安全帽/未佩戴安全帽检测；

步骤7，针对每个跟踪的行人目标，将该目标当前帧前k帧的检测类别与当前帧的检测类别一起进行投票，根据投票得分的结果最终确定当前帧该目标的安全帽佩戴类别；

步骤8，保存最终的检测结果，最终的检测结果包括框出人体头部位置的原监控视频图像以及标出安全帽佩戴类别及置信度，检测***将对检测到未佩戴安全帽的监控区域进行报警，提醒安保人员进行确认及后续处理。

本发明提供了一种基于目标跟踪的安全帽检测方法。安全帽作为一种具有实体且形状固定不变的目标，可直接利用目标检测方法得到一定的检测效果。目前大部分安全帽检测的智能设备均采用视频抽帧及直接检测的方式达到安全帽检测的目的。通过抽取视频流中单帧图像送入安全帽目标检测网络的方式检测监控视野范围内的行人是否佩戴安全帽，该方法仅利用了视频流中的单帧图像信息，而忽略了视频流提供的时间流信息，无法保证同一个行人目标在监控视频中检测结果的一致性。假设进入视频范围的行人佩戴了安全帽，随着行人离摄像头的距离不断增大、行人经过的背景不断变化，可能会出现检测结果突然跳变为未佩戴安全帽的情况。这种错检源于，行人在视频流中会经过干扰程度不同的背景，当行人经过干扰较大的背景时(例如背景颜色与安全帽接近、背景较为复杂、光线较强遮蔽了安全帽原始特征)，背景的干扰会影响目标检测的置信度，一旦这种影响较大，佩戴安全帽的置信度会降低到一定程度，本来较低的未佩戴安全帽的置信度就会反超成为置信度最高的类别，从而造成错检情况。这种检测结果跳变的情况会产生大量错检信息，增大利用检测结果做进一步处理的难度。且该问题在仅利用当前帧图像信息而忽略视频时间流信息的情况下较难解决。

由于具有大干扰的背景并不会在全图中出现，而往往只会出现在整个摄像头视野范围的小部分，所以本发明通过利用非干扰背景下的检测结果对干扰背景下的检测结果进行修正，使干扰背景下的检测结果不仅仅依赖于当前的帧图信息，同时也依赖于之前非干扰背景下的检测结果。为了对视频中每一个行人都利用历史检测结果进行修正，需要利用视频流中的时间流信息，区分不同帧中的行人是否为同一个，从而针对不同的行人目标进行检测修正。为了捕捉视频流中的时间流信息，本发明利用目标跟踪的方法，跟踪不同视频帧中同一目标的运动轨迹，并得到每一个行人的目标ID，同一个行人在不同视频帧中的目标ID相同，从而可以针对每一个行人记录下其历史检测结果，并利用历史数据的投票结果对当前检测帧的检测结果进行修正，从而减小干扰背景的直接影响。为了保证历史检测的准确性，本发明在投票时同时考虑了历史检测结果的置信度。

相较于直接抽帧的安全帽检测方法，本发明中的安全帽检测方法利用了视频流提供的时间流信息保证了视频中同一行人安全帽检测结果的一致性。

基于行人目标检测的卷积神经网络处理方式包括：获取待检测的工厂视频监控单帧图像；将图像输入预训练的行人目标检测神经网络模型；输出结果，结果包括行人的位置信息，位置信息由框左上角坐标及框的宽、高组成。

在本发明中，预训练的行人目标检测网络模型是通过如下方式得到的：由于行人目标检测网络模型部分的YoloV4网络结构并未改动，且行人检测是目标检测的经典应用，YoloV4网络框架的预训练权重基于ImageNet公开数据集，且 ImageNet数据集中的80类里包含行人类，因此本发明直接利用已有的YoloV4预训练权重作为行人目标检测的网络模型参数。

基于DeepSort多目标跟踪处理方式包括：将行人检测得到的相关信息，如置信度、行人位置等信息送入DeepSort算法模块；输出结果，结果包括不同目标行人的位置及跟踪编号。

在本发明中，由于DeepSort在原Sort跟踪算法的基础上增加了利用深度学习提取表观特征的部分，所以利用行人重识别公开数据集对DeepSort中的表观特征提取的神经网络进行训练。

安全帽目标检测的卷积神经网络处理方式包括：按照行人检测得到的行人位置框信息截取行人部分子图；将子图图像输入预训练的安全帽目标检测神经网络模型；输出结果，结果包括行人头部的位置信息，位置信息由框左上角坐标及框的宽、高组成，以及安全帽检测的类别(佩戴/未佩戴安全帽)。

在本发明中，预训练的安全帽目标检测网络模型是通过如下方式得到的：利用网络爬虫技术爬取网上的安全帽图片，特别是工厂及建筑工地环境下的安全帽图片，并人工对图片数据进行筛选，将清晰度较低及图片中没有人的图片删去；用LabelImg软件对爬取到的图片数据进行标注，标注范围仅为头部，若为正样本 (佩戴安全帽)则标注范围是包括安全帽在内的整个头部，若为负样本(未佩戴安全帽)则标注范围仅为头部；将标注好的样本随机打乱，并按6:2:2比例划分为训练集、验证集和测试集；将标注信息和图像输入到卷积神经网络模型中进行训练，神经网络通过前向传播计算得到佩戴安全帽的头部及未佩戴安全帽的头部所在的位置作为网络的输出，并与标注信息比较，根据标注中佩戴安全帽的头部及未佩戴安全帽的头部所在的正确位置及网络当前的预测位置反向传播更新参数，从而使网络提取的图片特征越来越接近佩戴安全帽/未佩戴安全帽的特征，从而训练得到安全帽的目标检测神经网络模型。

基于历史检测结果的类别修正方式包括：获取某一行人目标当前帧及前k帧的检测类别和置信度，若当前帧的历史帧小于k帧则利用所有历史帧进行修正；对历史帧及当前帧的置信度进行加权求和，作为当前帧的类别得分，若得分小于t 则当前帧类别为负样本，否则为正样本。

其中，参数k可根据行人进入视频区域到离开视频区域的帧数自行调整，当视野范围较小时，可利用的历史检测数据较少，参数k可适当调低，而当视野范围较大时，可利用的历史检测数据较多，参数k可适当调高。参数t也可根据应用的实际情况自行调节，当应用场景对准确率要求较高而对召回率要求较低时，参数t可适当调高，而当对准确率要求较低而对召回率要求较高时，参数t可适当调低。

附图说明

图1示出本发明的检测流程图；

图2示出本发明的检测程序流程图；

图3示出本发明的检测结果示意图；

具体实施方式

下面将结合具体实施例及其附图对本发明作进一步详细的说明。

本发明针对目前智能化设备进行安全帽检测时存在的检测距离近、检测效果受环境干扰大、仅利用当前帧进行检测没有充分利用视频流的时域信息等问题，提出了一种基于目标跟踪算法的安全帽检测方法。该检测方法首先利用行人目标检测对安全帽可能存在的位置进行粗定位，同时对不同行人目标进行目标跟踪，再利用每个跟踪目标的检测历史信息对当前帧的检测结果进行类别修正，实现了工厂复杂环境下安全帽的有效稳定检测。

下面以一个具体实施例来说明整个检测***的工作流程和原理。图1是本发明实施例中的检测流程图。

步骤1，选择需要进行安全帽检测的工厂摄像头IP地址，获取该地址的监控视频，并对其进行解码和抽帧，得到待处理的图像；

步骤2，将待处理图像送入检测程序，根据图2所示的检测程序流程图，先进行图像的预处理，主要为镜头畸变的矫正，接着采用目标检测方法提取行人在图像中可能存在的所有位置，并对图像上的行人进行目标跟踪，然后截取不同行人位置的子图进行安全帽检测，利用当前检测的目标行人的历史检测信息对当前帧的安全帽检测结果进行修正，并将当前帧的修正前检测结果保存为该行人目标的新的历史检测信息。

步骤3，当步骤2的检测结果为监控视频中存在行人并且未佩戴安全帽时自动触发报警装置，提醒工作人员上前进一步查看。工作人员关闭警报后回到步骤1。当步骤2的检测结果为图像中不存在行人或所有行人均佩戴安全帽时直接回到步骤1。

上述步骤是整个***的工作流程，实现了在工厂复杂环境下安全帽的有效稳定检测。

在此具体实施例中，步骤2中图像的预处理过程采用的是针对镜头产生的径向畸变的矫正，监控摄像头拍摄得到的图像往往带有一定畸变，尤其是在视线边缘部分，畸变更加严重。这种畸变对行人检测及安全帽检测部分影响不大，因为如果在训练集中存在大量畸变数据，会一定程度影响行人目标跟踪的结果，让跟踪过程中同一目标的表观特征在畸变区和非畸变区有较大出入，从而让非畸变区和畸变区的同一目标无法匹配。径向畸变矫正公式如下：

x₀＝x(1+k₁r²+k₂r⁴+k₃r⁶)

y₀＝y(1+k₁r²+k₂r⁴+k₃r⁶)

其中，(x0,y0)是畸变像素点的原始位置，(x,y)是畸变矫正后新的位置，k1、k2、k3为畸变系数。

在本发明中，步骤2中在整张图片提取图像中所有行人位置采用的是一个预训练的行人目标检测神经网络，其效果如图3a所示，由于行人目标检测网络模型部分的YoloV4网络结构并未改动，且行人检测是目标检测的经典应用，YoloV4 网络框架的预训练权重基于ImageNet公开数据集，而ImageNet数据集中的80类里包含行人类，因此本发明直接利用已有的YoloV4预训练权重作为行人目标检测的网络模型参数。

特别地，在一些具体实施例中，由于摄像头角度的不同，直接利用YoloV4的预训练权重进行行人检测可能会出现漏检情况，可以将未检测成功的图像重新标注扩充训练集再次训练，对行人检测网络的参数进行微调，使其更符合当前的使用场景。

在本发明中，步骤2中对图片中的行人目标进行跟踪采用的是一个完成了表观特征提取网络预训练的DeepSort跟踪算法模块，其表观特征提取网络参数通过在行人重识别公开数据集训练得到。

特别地，DeepSort目标跟踪算法在原Sort跟踪算法的基础上增加了利用深度学习提取表观特征的部分，当相机移动或当目标突然被遮挡之后在新的帧再次出现时，如果仅根据马氏距离作为匹配度度量判别是否为同一目标，可能会导致目标标号混乱，此时利用表观特征作为匹配度度量来判断是否为同一目标更加合适。

在本发明中，步骤2中在截取的行人子图中检测安全帽采用的是一个预训练的安全帽目标检测神经网络模型，其效果如图3b所示，该模型是通过如下方式得到的：

步骤1，利用网络爬虫技术爬取网上的安全帽图片，特别是工厂及建筑工地环境下的安全帽图片，并人工对图片数据进行筛选，将清晰度较低及图片中没有人的图片删去；

步骤2，用LabelImg软件对步骤1中爬取到的图片数据进行标注，标注范围仅为头部，若为正样本(佩戴安全帽)则标注范围是包括安全帽在内的整个头部，若为负样本(未佩戴安全帽)则标注范围仅为头部；将标注好的样本随机打乱，并按6:2:2比例划分为训练集、验证集和测试集。

步骤3，将标注信息和图像输入到卷积神经网络模型中进行训练，神经网络通过前向传播计算得到佩戴安全帽的头部及未佩戴安全帽的头部所在的位置作为网络的输出，并与标注信息比较，根据标注中佩戴安全帽的头部及未佩戴安全帽的头部所在的正确位置及网络当前的预测位置反向传播更新参数，从而使网络提取的图片特征越来越接近佩戴安全帽/未佩戴安全帽的特征，从而训练得到安全帽的目标检测神经网络模型。

特别地，在一些具体实施例中，需要根据图像样本的数量质量等调整初始卷积神经网络模型的参数，训练预设结束条件可以包括但不限于以下中的至少一项：实际训练时间超过预设训练时间；实际训练次数超过预设训练次数；损失函数计算所得差异小于预设差异阈值。

特别地，安全帽检测是在行人检测的基础上进行，其检测范围已从全图缩小到单个行人的子图，因此对安全帽检测网络的特征提取能力的需求大大降低，于是可以调整特征提取网络的大小，使其特征提取性能更符合当前需求。此外，安全帽作为较小的目标，当行人移动距离较远时，因图像模糊，几乎无法准确匹配安全帽特征、实现安全帽检测，而行人的特征相对安全帽来说较大且较丰富，因此先进行行人检测，将行人子图大小缩放后安全帽的特征会比较突出，从而增大了检测距离。图3c为粗定位前的安全帽检测效果，图3d为粗定位及修正后的检测效果，可见加入粗定位后安全帽检测有良好的性能提升。

在本发明中步骤2中对当前帧的某一行人目标的安全帽检测结果进行修正依赖的是该行人目标的历史检测结果。在视频流中，由于每一单帧图像的光线、背景等情况不同，可能会导致同一行人目标在不同帧中的安全帽检测结果不一致。例如，行人要经过一片干扰较大的背景区域，在经过该背景区域前安全帽检测效果良好，而当正在经过该背景区域时安全帽检测结果发生跳变，从佩戴安全帽转为未佩戴安全帽或从未佩戴安全帽转为佩戴安全帽，经过该背景后检测则又恢复正常。因此，如果仅仅依赖当前帧的图像情况进行检测，需要进一步补充训练数据中的安全帽在不同场景下的图像，扩充数据集，增大网络的鲁棒性，但当数据量本身不充足的情况下，可以考虑利用视频流具有时域的特点，用历史检测结果对当前帧的检测结果进行修正。

在本发明实例中，利用以下式子对当前帧的检测结果进行修正。

其中，上式的i表示当前为第i帧，即为要修正类别的帧，K_n表示第n(n＝i， i-1，i-2…i-k)帧的类别值，若第n帧的判定类别为佩戴安全帽，则该K_n为1，若第n帧的判定为未佩戴安全帽，则该K_n为-1，condidence_n为第n帧类别的置信度。特别的，若当前检测帧数小于k帧，则直接利用已有的历史数据进行上式计算得分。若第i帧得分大于t，则第i帧的类别判定为佩戴安全帽，否则为未佩戴。

特别地，在本实施例中参数k数值设为83，参数t设为0。由于在本实施例中的摄像头中，自行人进入监控视野至行人离开监控视野约经过了5s，每秒有25个视频帧，共125帧。取2/3的帧数作为历史检测结果的存储上限，在本实施例中，经过多次测试以2/3的帧数作为上限具有较高的可靠性，对于其他实施例可根据具体情况重新测试得到最佳的存储上限值。参数k可根据行人进入视频区域到离开视频区域的帧数自行调整，当视野范围较小时，可利用的历史检测数据较少，参数k可适当调低，而当视野范围较大时，可利用的历史检测数据较多，参数k可适当调高。而当应用场景对准确率要求较高而对召回率要求较低时，参数t可适当调高，而当对准确率要求较低而对召回率要求较高时，参数t可适当调低。

在本发明实施例中，经实验测试得到，利用行人目标检测方法对可能存在安全帽的位置定位，行人漏检率为3％；利用安全帽目标检测方法对行人区域子图进行安全帽检测，准确率为90％，且检测距离由原来的10m(未进行双检测器检测) 增大到20m(利用双检测器检测)，但当干扰出现时会出现检测波动现象；最后，利用目标跟踪方法所记录的同一行人目标的历史检测数据对当前的检测结果进行修正，安全帽检测准确率为94％，其中同一行人目标检测结果跳变现象大大降低。所以本发明实施例提出的基于目标跟踪的安全帽检测方法达到了在复杂工厂环境下进行有效稳定安全帽检测的目的。

上述描述仅是对本发明实施例的描述，并非是对本发明范围的任何限定。任何熟悉该领域的普通技术人员根据上述揭示的技术内容做出的任何变更或修饰均应当视为等同的有效实施例，均属于本发明涵盖的范围。

Claims

1.一种基于目标跟踪的安全帽检测方法，其特征是，利用结合了目标检测方式和目标跟踪方式，可对复杂工厂环境下人员是否佩戴安全帽进行检测；

具体的检测方法步骤如下：

步骤1，获取工厂监控视频中的单帧图像；

步骤5，截取步骤3中得到的人体候选位置框内的图片；

步骤8，保存最终的检测结果，最终的检测结果包括框出人体头部位置的原监控视频图像以及标出安全帽佩戴类别及置信度，检测***将对检测到未佩戴安全帽的监控区域进行报警，提醒安保人员进行确认及后续处理；

步骤2中相机的成像过程实质上是坐标系的转换，首先空间中的点由“世界坐标系”转换到“像机坐标系”，然后再将其投影到成像平面图像物理坐标系，最后再将成像平面上的数据转换到图像像素坐标系：

x₀＝x(1+k₁r²+k₂r⁴+k₃r⁶)

y₀＝y(1+k₁r²+k₂r⁴+k₃r⁶)

其中，(x0,y0)是畸变像素点的原始位置，(x,y)是畸变矫正后新的位置，k1、k2、k3为畸变系数；

步骤3中行人目标检测的执行主体是一个预训练的行人神经网络检测模型，采用的卷积神经网络模型为YoloV4网络模型，该检测模型的训练权重为在ImageNet公开数据集上训练后得到的权重；

步骤4中采用的DeepSort多目标跟踪算法是传统的检测加跟踪两步走目标跟踪算法，其跟踪精度依赖于步骤3中的行人检测精度；DeepSort在Sort跟踪算法的基础上增加了利用深度学习提取表观特征的部分，利用行人重识别公开数据集对DeepSort中的表观特征提取的神经网络进行训练；

步骤5中将步骤3得到的行人候选区域的子图截取出来，并针对单张子图即单个行人目标进行目标跟踪和安全帽检测，从而减少直接在全图中提取安全帽特征时背景产生的干扰，同时将人员检测与安全帽检测相关联，间接增加了安全帽特征的复杂度，降低了对步骤6中使用的安全帽目标检测网络模型特征提取性能的要求，缓解了安全帽训练数据不足的问题；

步骤6中安全帽目标检测的执行主体是一个预训练的安全帽神经网络检测模型，采用的卷积神经网络模型为YoloV4网络模型，该检测模型是通过如下方式得到的：

步骤6.1，利用网络爬虫技术爬取网上的安全帽图片，并人工对图片数据进行筛选，将清晰度较低及图片中没有人的图片删去；

步骤6.2，用LabelImg软件对步骤6.1中爬取到的图片数据进行标注，标注范围仅为头部，若为正样本佩戴安全帽则标注范围是包括安全帽在内的整个头部，若为负样本未佩戴安全帽则标注范围仅为头部；将标注好的样本随机打乱，并按6:2:2比例划分为训练集、验证集和测试集；

步骤6.3，将标注信息和图像输入到卷积神经网络模型中进行训练，神经网络通过前向传播计算得到佩戴安全帽的头部及未佩戴安全帽的头部所在的位置作为网络的输出，并与标注信息比较，根据标注中佩戴安全帽的头部及未佩戴安全帽的头部所在的正确位置及网络当前的预测位置反向传播更新参数，从而使网络提取的图片特征越来越接近佩戴安全帽/未佩戴安全帽的特征，从而训练得到安全帽的目标检测神经网络模型；

步骤7中利用同一行人目标保存的当前帧前k帧的检测类别、置信度与当前帧的检测结果一起进行类别投票，对当前帧的检测类别进行修正；最后得到的投票得分计算公式如下：

其中，上式的i表示当前为第i帧，即为要修正类别的帧，K_n表示第n(n＝i，i-1，i-2…i-k)帧的类别值，若第n帧的判定类别为佩戴安全帽，则该K_n为1，若第n帧的判定为未佩戴安全帽，则该K_n为-1，condidence_n为第n帧类别的置信度；若当前检测帧数小于k帧，则直接利用已有的历史数据进行上式计算得分；若第i帧得分大于t，则第i帧的类别判定为佩戴安全帽，否则为未佩戴；

其中，参数k根据行人进入视频区域到离开视频区域的帧数自行调整，当视野范围小时，利用的历史检测数据少，调低参数k，而当视野范围大时，利用的历史检测数据多，调高参数k；参数t也可根据应用的实际情况自行调节，当应用场景对准确率要求高而对召回率要求低时，调高参数t，而当对准确率要求低而对召回率要求高时，调低参数t。