CN114648714A

CN114648714A - 一种基于yolo的车间规范行为的监测方法

Info

Publication number: CN114648714A
Application number: CN202210087600.0A
Authority: CN
Inventors: 谭思雨; 朱栗波; 杨倩倩; 周赞; 张喆; 罗堃; 王力; 胡麒远; 卢玲
Original assignee: Hunan Zhongnan Intelligent Equipment Co ltd
Current assignee: Hunan Zhongnan Intelligent Equipment Co ltd
Priority date: 2022-01-25
Filing date: 2022-01-25
Publication date: 2022-06-21

Abstract

本发明涉及一种基于YOLO的车间规范行为的监测方法，包括如下步骤：(1)构建车间行为样本数据集；(2)构建包括编码器、解码器和分类回归网络的E‑YOLO目标检测网络并进行行为特征学习，其中编码器是基于YOLO主干网络，解码器构造了高效解码网络；(3)获取车间实时监测图像信息，利用步骤(2.3)获得的检测模型对带待识别的图像进行识别检测，完成对车间非规范行为的监测及预警。本发明将主干网络、高效解码网络和分类回归网络融合构成E‑YOLO目标检测网络，本发明具有更强的特征表征能力，无论是在训练和测试上都能保持高速，同时能精准定位并区分相似特征，进一步确定区域间的特征差异性，保证分类的无误性。

Description

一种基于YOLO的车间规范行为的监测方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于YOLO的车间规范行为的监测方法。

背景技术

工业生产车间，用于工业生产的房屋，除了用于生产研发的固定车间，还包括其附属建筑物，如配电房、排污和设备物资存储等配套房屋，工业生产研发作业中，涉及到许多大型机器、设备的运作和技术人员的实时操作，这其中存在着许多的安全隐患，比如高空小零件坠地、机器人调试过程中运动轨迹失控、生产线上大型设备的非正常高速运行，这些都可能给车间中技术人员带来大小程度的伤害。除了经验丰富的管理员定期为车间设备检查隐患之外，从车间人员自身出发，规范车间行为能大程度的减少意外伤害，从而最小化车间安全隐患，比如规范佩戴安全帽、车间作业时不玩手机、不穿暴露大面积皮肤的着装等都能有效保证人员相对安全。目前来看，大多数工业生产车间中都是配备安全员来监督员工规范行为，采取安全员巡视的方式来对不规范行为的员工予以告诫和行为纠正，并不能做到实时监测，且这也给安全员带来了巨大的工作量和压力。

针对以上问题，现有技术中，智能规范行为监测***被发明并应用，这类***通常使用语音报警监控外加深度学习目标检测技术来进行实时监控，智能检测***不依赖于人力，可以实现实时、可靠、低成本的工业生产车间人员安全保障，目标检测技术可以对不同车间行为进行实时精准的分类和识别，并且快速的判断是否行为存在不规范，但是基于生产车间地物复杂，场景丰富，并且规范行为与非规范行为之间往往存在相似特征(比如安全帽未扣帽带行为VS 正确配带安全帽行为)，这些都给基于目标检测的行为检测***带来了一定的难度和挑战，从目前存在的行为检测方法来看，大多数监测***只针对于粗略的安全行为检测，比如戴安全帽VS不带安全帽，但是安全帽未扣帽带这类不规范行为在危险发生时同样不能做到安全防护。

综上所述，亟需提供一种能快速、精确的给出图像范围内车间人员的行为预测，并对不规范行为予以警示的基于YOLO的车间规范行为的监测方法。

发明内容

本发明的目的是提供一种能快速、精确的给出图像范围内车间人员的行为预测，并对不规范行为予以警示的基于YOLO的车间规范行为的监测方法。

上述目的是通过如下技术方案实现：一种基于YOLO的车间规范行为的监测方法，包括如下步骤：

(1)构建车间行为样本数据集；

(2)构建包括编码器、解码器和分类回归网络的E-YOLO目标检测网络并进行行为特征学习，其中编码器是基于YOLO主干网络，解码器构造了高效解码网络；

(2.1)将车间行为样本数据集输入至主干网络编码器，对输入样本使用进行切片操作，图片尺寸缩减形成低层特征图；然后再通过特征提取模块对低层特征图提取图像特征形成中层特征图；再采用多尺度池化在多个感受野上构成特征并融合，学习目标的多尺度特征，形成顶层特征图；

(2.2)高效解码网络接收步骤(2.1)中层特征图和顶层特征图，融合特征信息形成特征分类参考标准，再针对类似行为检测框进一步精细化学习，根据各个图片集中的主体特征，筛选行为可疑区域，精准定位并区分相似特征，再进一步确定可疑区域间的特征差异性，保证分类的无误性；

(2.3)分类回归网络接受到来自解码器的有效预测特征图，给每个图片集中不同行为的可能性赋予权重和检测框的位置预测，并进行内部参数微调，得到训练的检测模型；

(3)获取车间实时监测图像信息，利用步骤(2.3)获得的检测模型对带待识别的图像进行识别检测，完成对车间非规范行为的监测及预警。

本发明基于YOLOV5网络，将主干网络、高效解码网络和分类回归网络融合构成E-YOLO目标检测网络，采用本发明的方法，E-YOLO具有更强的特征表征能力，无论是在训练和测试上都能保持高速，同时能精准定位并区分相似特征，进一步确定区域间的特征差异性，保证分类的无误性，同样该网络具有较好的移植性。

进一步的技术方案是，所述高效解码网络解码器包括特征高效融合模块，所述特征高效融合模块包括两个平行搭建的卷积层，所述步骤(2.2)中所述特征高效融合模块接受中层特征图和顶层特征图，两个平行搭建的卷积层构成两个分支，在分支中输入特征首先被1×1卷积将通道数减少为原来的一半，再通过1×1卷积学习跨通道信息交互，进而通过7×7的involution在相对较大的范围内捕捉行为散射特征间的关系，学习具有超强表征能力的特征，最后两个分支通过1×1卷积处理结果后进行拼接。

进一步的技术方案是，所述高效解码网络解码器还包括用于专注于学***均池化来学习特定特征，再通过一个全连接层和一个Sigmoid函数来重新调整输入的特征图，最终达到提取有用通道信息的作用。

进一步的技术方案是，当输入特征图的大小为X_i∈R^C×W×H，则有效通道注意力映射A_eSE(X_i)∈R^C×1×1，计算公式如下：

A_eSE(X_i)＝σ(W_C(F_gap(X_i)))

其中F_gap(X_i)是通道信息的全局平均池化，且

W_C是全连接层的权重，σ是Sigmoid函数，X_i,j表示所有矩阵元素；输入X_i是来自中层特征图和顶层特征图的多尺度特征图，将A_eSE(X_i)作为通道特征注意力应用到多尺度特征图X_i中，使得多尺度特征X_i更具信息性，最后将输出的特征图逐元素的输入到X_refine，X_refine将输入特征图X_i和经过高效注意力模块处理后的A_eSE(X_i) 进行相乘，从而给每个输入X_i逐像素的进行权重赋值，实现了特征再筛选。

进一步的技术方案是，所述特征高效融合模块包括特征再融合模块，所述特征再融合模块将高效注意力模块筛选后的有用特征实现特征再融合。

进一步的技术方案是，所述特征再融合模块处理后将输出三个尺度的有效预测特征图，所述步骤(2.3)中分类回归网络在三个尺度特征层上划分网格区域分别为64处理数、32处理数和16处理数，然后对所述的有效预测特征图进行卷积调整通道数，进行分类回归预测每个Bounding box的位置、置信度和所属类别，通过NMS去除重叠框得到最后的输出检测结果，在训练阶段，网络总损失包括分类损失、置信度损失和位置回归损失之和，其中，置信度损失和分类损失采用二元交叉熵损失，位置回归损失采用CIOU loss，当损失函数收敛后结束训练，保留最优权重用于行为检测。

进一步的技术方案是，所述步骤(3)中理利用获取的训练模型对实时采集到的车间图像采取滑窗检测的方式进行检测，每一个窗口都赋予行为权重，综合所有滑窗的行为预测权重来给出检测框，得到车间行为检测结果。

进一步的技术方案是，所述步骤(2.1)中样本数据集输入到主干网络编码器后会统一切割成尺寸一致的多个图片集，并将图像信息从高分辨率低维度逐渐拆解为低分辨率多维度图像，从多分辨率多维度来确定没有信息的丢失，构成特征大杂烩，并初步的对主要检测的特征从颜色信息、尺度信息进行初步分类。

进一步的技术方案是，主干网络采用1×1卷积接着一组3×3卷积组成残差块作为基本结构单元，通过堆叠的残差块构成特征提取模块，在每个特征模块提取前采用步长为2的3×3卷积进行下采样，缩减特征图分辨率。

进一步的技术方案是，所述步骤(1)中车间行为样本数据集中的样本包括开源数据和实时数据，所述实时数据包括基于真实车间场景实时捕捉人为不规范行为视频，格式化处理人为不规范行为视频形成多帧图像，混合开源数据和实时数据，形成包含.JPG图片和对应.JSON标签的数据集，再采用包括镜像、亮度、翻转和旋转在内的数据增强方式扩增数据集，直至达到所需的样本数量。

相比于现有技术，本发明在YOLO的基础上进行性能改进，融合了有利于区分相似行为特征的注意力模块构建了高效解码网络，高效解码网络的作用在于更加精细化分类行为，先将来自YOLOV5s三个不同分辨率的图像信息，融合这些特征信息形成特征分类参考标准，这时对于中高低分辨率的图像都能大体实现行为分类，再针对类似行为检测框进一步精细化学习，根据各个图片集中主体特征(安全帽/口罩)中颜色像素的占比及组成等筛选行为可疑区域，精准定位并区分相似特征，最后进一步确定区域间的特征差异性，保证分类的无误性。

本发明为适用性较高的工业生产车间智能规范行为监测***，不仅可针对目前大多类似专利仅局限于检测佩戴安全帽和不佩戴安全帽行为来判断不规范行为，还可扩展了车间人员行为种类，并将不规范行为同样列入会造成车间安全事故的隐患，是一种全面的针对工业生产车间规范行为的监测***，能为工业生产车间人员大大减低危险发生的几率；

本发明采用滑窗检测结合NMS的检测方式，提高了区分正确佩戴口罩(安全帽)/不规范佩戴口罩(安全帽)行为的分类精度，避免了当主体行为位于抓拍边缘时识别困难的情况。

本发明构建了基于工业生产车间的不规范行为数据集，填补了目前开源网络上只有安全帽检测数据集的不足。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明一种实施方式所涉及的基于YOLO的车间规范行为的监测方法的流程图。

具体实施方式

下面结合附图对本发明进行详细描述，本部分的描述仅是示范性和解释性，不应对本发明的保护范围有任何的限制作用。此外，本领域技术人员根据本文件的描述，可以对本文件中实施例中以及不同实施例中的特征进行相应组合。

本发明实施例如下，参照图1，一种基于YOLO的车间规范行为的监测方法，包括如下步骤：

(1)构建车间行为样本数据集；

一种实施例下，直接采取YOLOV5s的主干网络作为E-YOLO的编码器，网络采用1×1卷积接着一组3×3卷积组成残差块作为基本结构单元，通过堆叠的残差块构成特征提取模块，在每个特征模块提取前采用步长为2的3×3卷积进行下采样，缩减特征图分辨率，加快网络运行速度。通过5次逐步下采样，扩大感受野，提取丰富的特征信息，形成了不同尺度特征；首先，对输入样本使用Focus结构进行切片操作，将图片尺寸缩减为原来的一半，最大程度上保留图像信息，产生低层特征图C1；再通过4个特征提取模块，其中堆叠的残差块数分别为1，3，3，1，提取丰富的图像特征，形成中层特征图C2、C3和C4，其中C2、C3、C4拥有相同的结构，但是卷积核的数量分别为64、128、256 个；为了加强顶层特征表达能力，加入SPP模块，采用多尺度池化在多个感受野上构成特征并融合，学习目标的多尺度特征，形成顶层特征图C5。

在上述实施例的基础上，本发明的另一实施例中，所述高效解码网络解码器包括特征高效融合模块，所述特征高效融合模块包括两个平行搭建的卷积层，所述步骤(2.2)中所述特征高效融合模块接受中层特征图和顶层特征图，两个平行搭建的卷积层构成两个分支，在分支中输入特征首先被1×1卷积将通道数减少为原来的一半，再通过1×1卷积学习跨通道信息交互，进而通过7×7的 involution在相对较大的范围内捕捉行为散射特征间的关系，学习具有超强表征能力的特征，最后两个分支通过1×1卷积处理结果后进行拼接。

高效解码网络解码器只接受来自于主干网络C3、C4、C5的特征输入，中低层特征具有低分辨率多维度的特点，特征维度信息大，适合进一步做特征融合学***行搭建的卷积层，意味着特征的融合，而分支合流可以把不同支路的特征信息保存下来，因此能提取到更为丰富的特征信息，学习具有超强表征能力的特征，上分支与下分支卷积处理结果后拼接。

在上述实施例的基础上，本发明的另一实施例中，所述高效解码网络解码器还包括用于专注于学***均池化来学习特定特征，再通过一个全连接层和一个Sigmoid 函数来重新调整输入的特征图，最终达到提取有用通道信息的作用。

高效注意力模块是目标检测领域中一种移植性较高的深度模块，鉴于目标检测算法对细节特征识别要求较高，规范行为与不规范行为之间的差异可能就在于某极小部分特征的差异性，高效注意力模块能够专注于学***行搭建于来自于C4、C5的支路上，C4、C5上包含了来自主干网络的低分辨率高维特征，经过CBP模块进行全局特征学习后，输入到高效注意力模块进行有用特征的筛选，丢弃冗杂特征。压缩激励是神经网络中一种具有代表性的通道注意方法，可以直接对特征图之间的通道关系进行建模，从而达到增强网络特征学习能力。

在上述实施例的基础上，本发明的另一实施例中，当输入特征图的大小为 X_i∈R^C ^×W×H，则有效通道注意力映射A_eSE(X_i)∈R^C×1×1，计算公式如下：

A_eSE(X_i)＝σ(W_C(F_gap(X_i)))

其中F_gap(X_i)是通道信息的全局平均池化，且

在上述实施例的基础上，本发明的另一实施例中，所述特征高效融合模块包括特征再融合模块，所述特征再融合模块将高效注意力模块筛选后的有用特征实现特征再融合。特征再融合模块是特征高效融合模块中的一部分，将特征高效融合模块中除去尾端搭建的Conv-BN-Relu模块后就是特征再融合模块，因此特征再融合模块实现的功能同样是对高效注意力模块筛选后的有用特征实现特征再融合。

在上述实施例的基础上，本发明的另一实施例中，所述特征再融合模块处理后将输出三个尺度的有效预测特征图，所述步骤(2.3)中分类回归网络在三个尺度特征层上划分网格区域分别为64处理数、32处理数和16处理数，然后对所述的有效预测特征图进行卷积调整通道数，进行分类回归预测每个 Bounding box的位置、置信度和所属类别，通过NMS去除重叠框得到最后的输出检测结果，在训练阶段，网络总损失包括分类损失、置信度损失和位置回归损失之和，其中，置信度损失和分类损失采用二元交叉熵损失，位置回归损失采用CIOU loss，当损失函数收敛后结束训练，保留最优权重用于行为检测。

在上述实施例的基础上，本发明的另一实施例中，所述步骤(3)中理利用获取的训练模型对实时采集到的车间图像采取滑窗检测的方式进行检测，每一个窗口都赋予行为权重，综合所有滑窗的行为预测权重来给出检测框，得到车间行为检测结果。

为了提高对车间实时监控视频图像的行为检测效率，本发明采用滑窗检测方式，缩减输入网络的测试图片尺寸采用窗口大小为100，间隔stride为50对视频分帧处理后的图像进行滑窗切片，获取测试样本。测试样本输入E-YOLO 网络获得行为检测结果，再输入非极大值抑制算法NMS筛选滑窗重叠区域的重复预测框，进而得到车间规范行为的检测结果。其中，NMS的原理如下:

假设获取的实际应用场景的图片大小为200×200，滑窗大小为100×100，且间隔大小为50来对图片进行检测，则就会有9个候选框，预设候选框的置信度阈值为0.5，根据置信度的降序排列这9个候选框，置信度最高的候选框输出并在候选框列表中删除，再计算该候选框与所有候选框的的IOU值，删除大于阈值的候选框，重复以上，直到候选框列表为0，返回输出列表，其中IOU的定义为两个区域交叉的部分除以两个区域并集部分。

搭建模型训练和测试***，基于Pycharm软件平台，,对E-YOLO检测模型进行训练和测试，经过以上步骤实施后，生成了具有高性能的车间规范行为检测模型，对于车间实时监控所获取的图像，直到获取其对后叙的9类行为分类能力的最优模型；模型直接能快速的给出图像范围内车间人员的行为预测，并对不规范行为予以报警警示。

在上述实施例的基础上，本发明的另一实施例中，，所述步骤(2.1)中样本数据集输入到主干网络编码器后会统一切割成尺寸一致的多个图片集，并将图像信息从高分辨率低维度逐渐拆解为低分辨率多维度图像，从多分辨率多维度来确定没有信息的丢失，构成特征大杂烩，并初步的对主要检测的特征从颜色信息、尺度信息进行初步分类。

在上述实施例的基础上，本发明的另一实施例中，主干网络采用1×1卷积接着一组3×3卷积组成残差块作为基本结构单元，通过堆叠的残差块构成特征提取模块，在每个特征模块提取前采用步长为2的3×3卷积进行下采样，缩减特征图分辨率。

在上述实施例的基础上，本发明的另一实施例中，所述步骤(1)中车间行为样本数据集中的样本包括开源数据和实时数据，所述实时数据包括基于真实车间场景实时捕捉人为不规范行为视频，格式化处理人为不规范行为视频形成多帧图像，混合开源数据和实时数据，形成包含.JPG图片和对应.JSON标签的数据集，再采用包括镜像、亮度、翻转和旋转在内的数据增强方式扩增数据集，直至达到所需的样本数量。

本发明核心算法是基于深度学习网络YOLOV5s，深度学习实现高性能的一大特点是需要大量的样本数据集进行训练，目前开源网站可下载数据量约为 8000张左右的安全帽检测数据集(网址： https://github.com/njvisionpower/Safety-Helmet-Wearing-Dataset)，这是数据集的一部分来源，另一部分基于真实车间场景，通过车间报警监控实时捕捉人为不规范行为视频，并格式化处理视频形成多帧图像，基于LabelImg工具手工标注标记框。混合开源数据和实时数据，形成包含.JPG图片和对应.JSON标签的数据集，再采用镜像、亮度、翻转、旋转等数据增强方式扩增数据集，最终用于训练的数据集样本大概50000张左右。

具体，利用标注软件LabelImg给不同行为打上标注框，车间行为主要划分为:①规范佩戴安全帽(Helmet_OK,深绿色标注框)；②未规范佩戴安全帽/未扣帽带(Helmet_Warn1，深黄色标注框)；③未佩戴安全帽(Helmet_NotOK，深红色标注框)；④女生散长发戴安全帽(Helmet_Warn2，淡黄色标注框)；⑤玩手机 (Phone_NotOK,粉色标注框)；⑥着装不规范/穿着暴露大面积皮肤(Wear_NotOK，暗红色标注框)；增加了口罩规范行为的样本，包括:⑦规范配带口罩(Mask_OK，蓝色标注框)；⑧不规范佩戴口罩(Mask_Warn，橘色标注框)；⑨未佩戴口罩 (Mask_NotOK,黑色标注框)。混合开源数据集和真实场景下采集的数据集，并采取数据集扩增方式，构建了9类车间行为的目标检测大样本数据集，并按比例划分为训练集与测试集。

我们选取主干网络的最后三个卷积层输出特征征C3∈R32x32x256、C4∈R16x16x256和C5∈R64x64x128输入特征融合模块对特征进一步充分提取。其中，融合模块是由特征高效融合模块和两个并行的高效注意力模块组成。特征高效融合模块用于增强网络捕获不同行为特征之间的关系，更好地学习多尺度空间上下文信息。HAE模块用于辨别有效的通道语义特征，能在一定程度上抑制了某些程度上的噪声。对特征融合模块输出的三个有效特征预测图利用1x1 卷积，进行分类回归网预测目标的类别、置信度和位置。测试阶段，通过NMS 筛选冗余预测框，输出最终检测结果。在训练阶段，通过计算分类损失、置信度损失和位置回归损失加权求和构成总损失，用以反向传播计算每个参数梯度，传入优化器进行迭代训练更新模型的权值，并保留训练权重用于测试。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于YOLO的车间规范行为的监测方法，其特征在于，包括如下步骤：

(1)构建车间行为样本数据集；

2.根据权利要求1所述的基于YOLO的车间规范行为的监测方法，其特征在于，所述高效解码网络解码器包括特征高效融合模块，所述特征高效融合模块包括两个平行搭建的卷积层，所述步骤(2.2)中所述特征高效融合模块接受中层特征图和顶层特征图，两个平行搭建的卷积层构成两个分支，在分支中输入特征首先被1×1卷积将通道数减少为原来的一半，再通过1×1卷积学习跨通道信息交互，进而通过7×7的involution在相对较大的范围内捕捉行为散射特征间的关系，学习具有超强表征能力的特征，最后两个分支通过1×1卷积处理结果后进行拼接。

3.根据权利要求2所述的基于YOLO的车间规范行为的监测方法，其特征在于，所述高效解码网络解码器还包括用于专注于学***均池化来学习特定特征，再通过一个全连接层和一个Sigmoid函数来重新调整输入的特征图，最终达到提取有用通道信息的作用。

4.根据权利要求3所述的基于YOLO的车间规范行为的监测方法，其特征在于，当输入特征图的大小为X_i∈R^C×W×H，则有效通道注意力映射A_eSE(X_i)∈R^C×1×1，计算公式如下：

A_eSE(X_i)＝σ(W_C(F_gap(X_i)))

其中F_gap(X_i)是通道信息的全局平均池化，且

W_C是全连接层的权重，σ是Sigmoid函数，X_i,j表示所有矩阵元素；输入X_i是来自中层特征图和顶层特征图的多尺度特征图，将A_eSE(X_i)作为通道特征注意力应用到多尺度特征图X_i中，使得多尺度特征X_i更具信息性，最后将输出的特征图逐元素的输入到X_refine，X_refine将输入特征图X_i和经过高效注意力模块处理后的A_eSE(X_i)进行相乘，从而给每个输入X_i逐像素的进行权重赋值，实现了特征再筛选。

5.根据权利要求4所述的基于YOLO的车间规范行为的监测方法，其特征在于，所述特征高效融合模块包括特征再融合模块，所述特征再融合模块将高效注意力模块筛选后的有用特征实现特征再融合。

6.根据权利要求5所述的基于YOLO的车间规范行为的监测方法，其特征在于，所述特征再融合模块处理后将输出三个尺度的有效预测特征图，所述步骤(2.3)中分类回归网络在三个尺度特征层上划分网格区域分别为64处理数、32处理数和16处理数，然后对所述的有效预测特征图进行卷积调整通道数，进行分类回归预测每个Bounding box的位置、置信度和所属类别，通过NMS去除重叠框得到最后的输出检测结果，在训练阶段，网络总损失包括分类损失、置信度损失和位置回归损失之和，其中，置信度损失和分类损失采用二元交叉熵损失，位置回归损失采用CIOU loss，当损失函数收敛后结束训练，保留最优权重用于行为检测。

7.根据权利要求1～6任意一项所述的基于YOLO的车间规范行为的监测方法，其特征在于，所述步骤(3)中理利用获取的训练模型对实时采集到的车间图像采取滑窗检测的方式进行检测，每一个窗口都赋予行为权重，综合所有滑窗的行为预测权重来给出检测框，得到车间行为检测结果。

8.根据权利要求7所述的基于YOLO的车间规范行为的监测方法，其特征在于，所述步骤(2.1)中样本数据集输入到主干网络编码器后会统一切割成尺寸一致的多个图片集，并将图像信息从高分辨率低维度逐渐拆解为低分辨率多维度图像，从多分辨率多维度来确定没有信息的丢失，构成特征大杂烩，并初步的对主要检测的特征从颜色信息、尺度信息进行初步分类。

9.根据权利要求8所述的基于YOLO的车间规范行为的监测方法，其特征在于，主干网络采用1×1卷积接着一组3×3卷积组成残差块作为基本结构单元，通过堆叠的残差块构成特征提取模块，在每个特征模块提取前采用步长为2的3×3卷积进行下采样，缩减特征图分辨率。

10.根据权利要求1所述的基于YOLO的车间规范行为的监测方法，其特征在于，所述步骤(1)中车间行为样本数据集中的样本包括开源数据和实时数据，所述实时数据包括基于真实车间场景实时捕捉人为不规范行为视频，格式化处理人为不规范行为视频形成多帧图像，混合开源数据和实时数据，形成包含.JPG图片和对应.JSON标签的数据集，再采用包括镜像、亮度、翻转和旋转在内的数据增强方式扩增数据集，直至达到所需的样本数量。