CN117975372B

CN117975372B - 一种基于YOLOv8和Transformer编码器相结合的工地安全检测***及方法

Info

Publication number: CN117975372B
Application number: CN202410369788.7A
Authority: CN
Inventors: 邵嘉豪; 陈其宾; 姜凯; 张佳宁
Original assignee: Shandong Inspur Science Research Institute Co Ltd
Current assignee: Shandong Inspur Science Research Institute Co Ltd
Priority date: 2024-03-29
Filing date: 2024-03-29
Publication date: 2024-06-28
Anticipated expiration: 2044-03-29
Also published as: CN117975372A

Abstract

本发明提出一种基于YOLOv8和Transformer编码器相结合的工地安全检测***及方法，属于工地安全检测技术领域，包括：工地安全图像采集模块，用于在工地采集图像，并收集传回的图像数据；图像数据标注与数据集划分模块，对图像数据进行标注，将图像数据划分训练集、验证集及测试集；神经网络模型，基于改进的SPPFS模块***YOLO v8l模型的主干网络，将主干网络的输出向量转换为高维向量，高维向量接入编码器，编码器的输出接入多层感知器，多层感知器用于对潜在的安全情况进行检测及分类；精简了YOLOv8主干网络以平衡精度和效果，有效提高了对大目标的特征提取能力，提高了检测效率和对小目标的检测精度。

Description

一种基于YOLOv8和Transformer编码器相结合的工地安全检测***及方法

技术领域

本发明属于工地安全检测技术领域，具体涉及一种基于YOLOv8和Transformer编码器相结合的工地安全检测***及方法。

背景技术

工地施工作业过程中，存在着较多安全隐患，安全事故的发生率居高不下。在长期的实践论证中，人工巡检的效率极低，很依赖于现场经验丰富的管理人员，需要他们实时的进行观察和检查，又费时又费力，存在着自动化水平较低、工作量较大和检查项目有限的情况，极容易出现漏检等情况，造成安全隐患。

而近年来，图像识别技术取得了重大进展，但传统的图像识别***在处理工地现场的小目标时，往往受限于网络结构和算法效率，难以实现快速准确的识别。YOLOv8虽然在目标检测领域有所突破，但在小目标识别方面仍有改进空间。Transformer编码器在特征提取方面表现出色，但其如何与图像信息充分整合仍有研究空间。传统方法将图像简单分割后向量化输入到transformer编码器，损失了图像的部分信息，因此无法有效应用于工地安全检测，获取准确的检测结果。

发明内容

本发明针对现有技术下的问题，提供了一种基于YOLOv8和Transformer编码器相结合的工地安全检测***及方法，本发明旨在通过结合YOLOv8和Transformer编码器这两种技术，并引入独创的SPPFS模块，解决现有技术中的不足。

为了达到上述目的，本申请采用的技术方案为：

第一方面，本发明提供了一种基于YOLOv8和Transformer编码器相结合的工地安全检测***，包括：

工地安全图像采集模块，用于在工地采集图像，并收集传回的图像数据；

图像数据标注与数据集划分模块，对图像数据进行标注，将图像数据划分训练集、验证集及测试集；

神经网络模型，基于改进的SPPFS模块***YOLO v8l模型的主干网络，将主干网络的输出向量转换为高维向量，高维向量接入transformer编码器，transformer编码器的输出接入多层感知器，多层感知器用于对潜在的安全情况进行检测及分类；通过训练集对神经网络模型进行训练，训练主干网络的卷积层参数，Transformer编码器的参数及模型尾部多层感知器参数；使用验证集对模型进行调优，获得训练完成的模型；利用测试集对训练完成的模型进行测试，获取输出；测试通过的模型用于对工地现场图像进行处理，识别潜在的安全风险。

进一步的，所述神经网络模型完整的网络结构为：图像输入-CBS-CBS-C2f-CBS-C2f-CBS-C2f-SPPFS-Transformer编码器-多层感知器-输出。

进一步的，CBS模块由Conv, BN, SiLU模块构成，结构为：Conv-BN-SiLU。

进一步的，C2f模块由Conv, Split, Bottleneck, Concat模块构成，结构为：Conv-Split-Bottleneck_1-Bottleneck_2-Concat-Conv。

进一步的，SPPFS模块由SPPF特征金字塔模块改进，SPPFS模块由Conv,MaxPooling_1, MaxPooling_2, Concat, Conv模块组成，其中，Conv, MaxPooling_1,MaxPooling_2分别与Concat层相连。

进一步的，Bottleneck模块为两层Conv和一层Concat模块顺次连接，并且模块输入与Concat相连。

进一步的，主干网络和Transformer编码器的连接方式为，将主干网络的2020512格式转换为400个512维的向量，输入到transformer编码器运算。

第二方面，本发明提供了一种如第一方面所述的基于YOLOv8和Transformer编码器相结合的工地安全检测***的工作方法，包括：

通过工地安全图像采集模块在工地采集图像，并收集传回的图像数据；

通过图像数据标注与数据集划分模块对图像数据进行标注，将图像数据划分训练集、验证集及测试集；

通过神经网络模型对工地现场图像进行处理，识别潜在的安全风险；神经网络模型预先通过训练集进行训练，使用验证集对模型进行调优，利用测试集对训练完成的模型进行测试，获取输出。

与现有技术相比，本发明的优点和积极效果在于：

本发明融合了YOLOv8和Transformer编码器在特征提取方面的优势，精简了YOLOv8主干网络以平衡精度和效果，优化SPPFS模块以弱化对大目标的特征提取能力，换来更快的速度和对小目标的精确检测，具体是将基于SPPF模块改进的SPPFS模块***YOLOv8l模型的主干网络的尾部，以替换原有的SPPF模块；删除主干网络尾部的CBS模块和C2f模块，直接接入SPPFS模块；将主干网络的输出向量由4040512的特征向量展平，转换为1600个512维的高维向量以满足transformer编码器的输入，然后将高维向量接入transformer编码器，然后将编码器的输出接入一个多层感知器，最后多层感知器可以对潜在的安全情况进行检测及分类；改进的YOLO v8m主干网络包括CBS模块，C2f模块，SPPFS模块，有效提高了对大目标的特征提取能力，提高了检测效率和对小目标的检测精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的流程图；

图2为本发明构建的SPPFS模块的结构图；

图3为本发明构建的完整深度学习网络结构图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和实施例对本发明作进一步说明。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用不同于在此描述的其他方式来实施，因此，本发明并不限于下面公开说明书的具体实施例的限制。

实施例1，如图1～图3所示，本申请提供了一种基于YOLOv8和Transformer编码器相结合的工地安全检测***，本发明的工地安全检测***通过结合YOLOv8主干网络和Transformer编码器，以及独创的SPPFS模块，实现了对工地现场小目标图像的高效识别，包括：

其中，如图3所示，所搭建的神经网络完整的网络结构为：图像输入-CBS-CBS-C2f-CBS-C2f-CBS-C2f-SPPFS-Transformer编码器-多层感知器-输出。即共有4个CBS模块，3个C2f模块。

其中，CBS模块由Conv, BN, SiLU模块构成，结构为：Conv-BN-SiLU。模块顺次相连；C2f模块由Conv,Split, Bottleneck, Concat模块构成。结构为：Conv-Split-Bottleneck_1-Bottleneck_2-Concat-Conv。其中Split，Split与Bottleneck_1的中间过程, Bottleneck_1, Bottleneck_2分别和Concat模块相连。

其中，如图2所示， SPPFS模块由SPPF特征金字塔模块改进，针对小目标检测做了独创性的优化，模块由Conv, MaxPooling_1, MaxPooling_2, Concat, Conv模块组成。其中，Conv, MaxPooling_1, MaxPooling_2分别与Concat层相连。

其中，MaxPooling_1, MaxPooling_2，是最大池化层，可以去除冗余信息，扩大感知野。

其中，Bottleneck模块为两层Conv和一层Concat模块顺次链接，并且模块输入也与Concat相连。

其中，Conv为卷积层，进行图像卷积。BN为批量归一化，计算公式为：

其中，是归一化并缩放后的输出，和是可学习的缩放和偏移参数，是输入值，是小批量（mini-batch）的均值，是小批量的方差，是一个很小的常数，用于数值稳定性。

SiLU为一种激活函数，计算公式为：

其中，x为该激活函数的输入，以向量表示。

SiLU函数的特点是，在输入值接近于0时，它的输出接近于输入值，而在输入值远离0时，它的输出接近于输入值的符号。这种特性使得SiLU在处理小的输入值时表现非常好。

Split为分割模块，将输入分割为通道数减半的两个输出。Concat为融合模块，将同样大小但参数不一致的通道合并叠加。

Transformer编码器为标准的Transformer编码器结构，由归一化层，多头注意力层和前馈神经网络组成；具体如图3中，包括依次设置的Norm层-多头注意力层-Concat层—Norm层-MLP层-Concat层。多层感知器包括MLP层和Prediction层。

本发明融合了YOLOv8和Transformer编码器在特征提取方面的优势，精简了YOLOv8主干网络以平衡精度和效果，优化SPPFS模块以弱化对大目标的特征提取能力，换来更快的速度和对小目标的精确检测。

实施例2

本发明提供了一种基于YOLOv8和Transformer编码器相结合的工地安全检测***的搭建方法，包括：

步骤一：搭建工地安全图像采集模块。选用工业无人机，监控，巡检机器人等在工地采集图像，并收集传回的图像。

步骤二：对图像数据进行标注，标注内容可以针对具体关注的安全问题自定义。比如安全帽、防护衣的穿戴情况，在禁烟区域发现吸烟行为等。之后对数据划分训练集、验证集及测试集。

步骤三：搭建独创的神经网络模型。将基于SPPF模块改进的SPPFS模块***YOLOv8l模型的主干网络的尾部，以替换原有的SPPF模块。删除主干网络尾部的CBS模块和C2f模块，直接接入SPPFS模块。将主干网络的输出向量由4040512的特征向量展平，转换为1600个512维的高维向量以满足transformer编码器的输入，然后将高维向量接入transformer编码器，然后将编码器的输出接入一个多层感知器，最后多层感知器可以对潜在的安全情况进行检测及分类。改进的YOLO v8m主干网络包括CBS模块，C2f模块，SPPFS模块。

步骤四：对步骤三所述神经网络模型进行训练，利用步骤二所划分的数据集进行训练，训练主干网络的卷积层参数，Transformer编码器的参数及模型尾部多层感知器参数。

步骤五：利用测试集对训练完成的模型进行测试，获取输出，得到所关注的安全问题的标注及判断，如步骤二所示是否有安全帽、防护衣违规穿戴情况，或禁烟区域发现吸烟行为等。

步骤六：进行实地部署，接入工地安全检测工具。

具体的，步骤一：建立工地安全图像采集模块

1. 部署工业无人机、监控摄像头和巡检机器人等设备在工地现场，根据工地的具体环境和需要监控的重点区域进行布置。

2. 设备定时对工地现场进行图像采集，确保图像的清晰度和覆盖范围，以全面监控工地的安全状况。

步骤二、图像数据标注与数据集划分：

1. 对收集到的图像进行人工标注，利用LabeImg对搜集到的图像针对工地安全相关进行标注，标注的内容包括安全帽、防护衣穿戴情况，以及禁烟区域内的吸烟行为等。

2. 将标注好的图像数据划分为训练集、验证集和测试集，按照70%训练集、15%验证集、15%测试集的比例进行划分。

步骤三、搭建神经网络模型：

1. 在YOLOv8l主干网络的基础上，移除尾部的CBS层和C2f模块。

2. 将SPPF模块升级为SPPFS模块，以优化小目标的识别能力。

3. 将SPPFS模块输出转换为多维向量，接入Transformer编码器，确保其能够接收并处理来自主干网络的特征向量。

4. 在Transformer编码器后添加多层感知器（MLP），用于最终的识别和分类。

步骤四、模型训练：

1. 使用训练集对神经网络进行训练，调整主干网络、Transformer编码器和MLP的参数。

2. 在训练过程中，监控模型的性能，如准确率、召回率等指标。

3. 使用验证集对模型进行调优，防止过拟合。

步骤五、模型测试与评估：

1. 使用测试集对训练完成的模型进行评估，确保其在实际应用中的有效性。

2. 分析模型输出，验证其在识别安全问题（如安全帽、防护衣违规穿戴，禁烟区吸烟等）的准确性。

步骤六、***部署与实时监控：

1. 将训练好的模型部署到工地安全监控***中。

2. 实现实时图像分析，利用模型对工地现场图像进行处理，识别潜在的安全风险。

3. 设计预警机制，当模型识别到安全问题时，立即通知相关人员进行干预。

步骤七、持续优化与维护：

1. 定期收集新的图像数据，用于模型的持续学习和优化。

2. 监控***运行情况，确保其稳定性和准确性。

3. 根据工地安全监控的实际需求，不断调整和完善模型，以适应新的安全挑战。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作其他形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例应用于其他领域，但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种基于YOLOv8和Transformer编码器相结合的工地安全检测***，其特征在于，包括：

神经网络模型，基于改进的SPPFS模块***YOLO v8l模型的主干网络，将主干网络的输出向量转换为高维向量，高维向量接入transformer编码器，transformer编码器的输出接入多层感知器，多层感知器用于对潜在的安全情况进行检测及分类；通过训练集对神经网络模型进行训练，训练主干网络的卷积层参数，Transformer编码器的参数及模型尾部多层感知器参数；使用验证集对模型进行调优，获得训练完成的模型；利用测试集对训练完成的模型进行测试，获取输出；测试通过的模型用于对工地现场图像进行处理，识别潜在的安全风险；

所述神经网络模型完整的网络结构为：图像输入-CBS-CBS-C2f-CBS-C2f-CBS-C2f-SPPFS-Transformer编码器-多层感知器-输出，

SPPFS模块由SPPF特征金字塔模块改进，SPPFS模块由Conv, MaxPooling_1,MaxPooling_2, Concat, Conv模块组成，其中，Conv, MaxPooling_1, MaxPooling_2分别与Concat层相连；

主干网络和Transformer编码器的连接方式为，将主干网络的2020512格式转换为400个512维的向量，输入到transformer编码器运算。

2.根据权利要求1所述的一种基于YOLOv8和Transformer编码器相结合的工地安全检测***，其特征在于，CBS模块由Conv, BN, SiLU模块构成，结构为：Conv-BN-SiLU。

3.根据权利要求1所述的一种基于YOLOv8和Transformer编码器相结合的工地安全检测***，其特征在于，C2f模块由Conv, Split, Bottleneck, Concat模块构成，结构为：Conv-Split-Bottleneck_1-Bottleneck_2-Concat-Conv。

4.根据权利要求3所述的一种基于YOLOv8和Transformer编码器相结合的工地安全检测***，其特征在于，Bottleneck模块为两层Conv和一层Concat模块顺次连接，并且模块输入与Concat相连。

5.一种如权利要求1所述的基于YOLOv8和Transformer编码器相结合的工地安全检测***的工作方法，其特征在于，包括：