CN116310967A - 一种基于改进YOLOv5的化工厂安全帽佩戴检测方法 - Google Patents

一种基于改进YOLOv5的化工厂安全帽佩戴检测方法 Download PDF

Info

Publication number
CN116310967A
CN116310967A CN202310176465.1A CN202310176465A CN116310967A CN 116310967 A CN116310967 A CN 116310967A CN 202310176465 A CN202310176465 A CN 202310176465A CN 116310967 A CN116310967 A CN 116310967A
Authority
CN
China
Prior art keywords
module
safety helmet
image
swin
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310176465.1A
Other languages
English (en)
Inventor
王梓轩
姜明新
曹宇
陆易
甘峰瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaiyin Institute of Technology
Original Assignee
Huaiyin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaiyin Institute of Technology filed Critical Huaiyin Institute of Technology
Priority to CN202310176465.1A priority Critical patent/CN116310967A/zh
Publication of CN116310967A publication Critical patent/CN116310967A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于改进YOLOv5的化工厂安全帽佩戴检测方法,预先获取待检测图像和训练图像,将图像中待检测区域标注出来,得到安全帽检测数据集,通过数据清洗,得到训练集和测试集;构建基于改进YOLOv5的安全帽佩戴检测模型,包括输入端、SwinTransformer模块、Neck模块和输出端;并在YOLOv5模型中加入注意力机制ECA模块及更改损失函数设置为Alpha‑IoU;将训练数据集和测试数据集输入到基于改进YOLOv5的安全帽佩戴检测模型中,进行训练,得到优化后的模型;将待检测的图像输入优化后的模型,在detect中进行检测得到安全帽佩戴的检测结果。本发明可以很好的对化工厂人员安全帽佩戴情况进行检测,有效地增强小目标检测的精确度,提高了化工厂安全帽佩戴检测的准确性。

Description

一种基于改进YOLOv5的化工厂安全帽佩戴检测方法
技术领域
本发明属于计算机视觉的目标检测技术领域,具体涉及一种基于改进YOLOv5的化工厂安全帽佩戴检测方法。
背景技术
高空作业、建筑工地、井下、隧道、涵洞等施工环境的危险性较大,如果发生事故,施工人员的生命安全无法得到保障。
研究表明,正确合理的使用安全帽是最便宜、最方便,也是最有效保护工人生命安全的个人便携防护用具,曾经救过无数工人的命。为了避免不戴安全帽导致的安全事故发生,在提高化工厂工人安全意识的同时,更要加强对安全帽佩戴的监督与管理。
随着深度学习技术的发展,很多学者都进行过安全帽佩戴识别的相关研究。由于真实检测任务中施工人员密集,检测目标小;工作环境复杂,受天气、光照等影响大;现场存在遮挡等干扰因素多,这些算法只能实现理想状态下简单识别,对化工厂现场的复杂环境的泛化能力不佳,对小目标的检测性能较差。为弥补安全防护用具检测模型性能的不足,需要根据化工厂现场的复杂特点优化安全防护用具检测算法,泛化其检测能力,提高小目标检测精度;为填补安全防护用具检测***的空缺,需要搭建一套安全防护用具佩戴实时检测***,应用到化工厂现场的监督管理中,为工人的生命安全提供保障。因此本发明对YOLOv5模型进行改进优化,在保证检测速度的同时提升安全帽佩戴的检测精度。
随着计算机性能的提升与相关图像处理算法的改进,许多学者提出了一系列基于计算机视觉的安全帽佩戴检测方法,大致可分为以下几类:
(1)基于简单特征的安全帽检测。利用安全帽的形状、颜色等特征判断是否佩戴安全帽。基于施工人员肤色特征的安全帽佩戴检测算法能够较准确地定位施工人员,但由于实际工地环境的光线条件较复杂变化较多,此方法难以适应实际的工地光线情况。
(2)基于人工设计特征的安全帽佩戴检测。一般的目标检测利用HOG+SVM的检测方法,但存在对人体姿态变化较为敏感的问题,为解决该问题,提出了鲁棒性较高的多尺度可变形部件模型DPM算法,将物体形态拆解为多个组件分别表征,再融合进行分类。
(3)基于深度学习的安全帽佩戴检测。有学者提出了经典卷积神经网络CNN。该网络使用了较多的卷积层和更先进合理的模型参数,明显提高了图像分类的精确度。再通过分类器分类来完成目标检测任务。在2019年改进YOLOv3目标检测方法,使用图像金字塔结构来获取多尺度的特征图,进行位置和类别的预测,从而提高安全帽的识别精度;在2021年使用轻量级网络Mobile Net替换SSD中的特征提取网络VGG,来提高安全帽检测的速度。卷积神经网络被广泛的应用到安全帽检测任务中。
现有技术实验场景少,目前大多数学者实验环境较单一,没有实际结合更多的工地场景以及光照环境,使得检测***泛化能力不够,不能适应多变的化工厂现场环境。目前化工厂流动人员安全帽检测***基本都使用现场监控视频作为检测***的输入,因此会导致被检测目标较小,但目前大多数检测算法对于小目标的检测效果较差,容易发生误检、漏检等情况。因此需要研究能力更强的目标检测方法提高检测***的泛化能力,解决小目标检测性能差的问题,对违规未佩戴安全防护用具人员进行实时检测并记录。
发明内容
发明目的:本发明公开了一种基于改进YOLOv5的化工厂安全帽佩戴检测方法,可以很好的对化工厂人员安全帽佩戴情况进行检测,有效地增强小目标检测的精确度,提高了化工厂安全帽佩戴检测的准确性。
技术方案:本发明提出一种基于改进YOLOv5的化工厂安全帽佩戴检测方法,包括以下步骤:
(1)预先获取待检测图像和训练图像,将图像中待检测区域标注出来,得到安全帽检测数据集,通过数据清洗,得到训练集和测试集;
(2)构建基于改进YOLOv5的安全帽佩戴检测模型,包括输入端、Swin Transformer模块、Neck模块和输出端;并在YOLOv5模型中加入注意力机制ECA模块及更改损失函数设置为Alpha-IoU;
(3)将训练数据集和测试数据集输入到基于改进YOLOv5的安全帽佩戴检测模型中,进行训练,得到优化后的模型;
(4)将待检测的图像输入优化后的模型,在detect中进行检测得到安全帽佩戴的检测结果。
进一步地,所述步骤(1)实现过程如下:
使用labelGo对图像进行标注,标注后的文件以“.xml”为后缀的标签文件,之后再转成“.txt”后缀的格式,得到数据集。
进一步地,步骤(2)所述输入端对输入的安全放防护用具小目标佩戴图片进行随机缩放,剪裁和排布,然后通过自适应锚框计算,初始设定长宽的锚宽,输出预测框,与真实框ground truth进行对比,在方向更新,迭代网络参数;然后再对原始的安全放防护用具图片自适应的添加最少的黑边,计算缩放比例,计算缩放后的尺寸,计算黑边填充数值,得到增强的图像。
进一步地,所述Swin Transformer模块的结构如下:
输入原始的图像之后是一个Patch Partition,再之后是一个Linear Embedding层,图像经过这两个层就是通过一个Patch Merging层,Patch Merging通过nn.Unfold函数实现降采样,经过nn.Unfold之后会得到
Figure SMS_1
个特征向量;stage的Feature Map的通道数为3,第一个stage的输入是RGB图像,stage1部分,先通过一个Linear Embedding将输划分后的patch特征维度变成C,然后送入Swin Transformer Block;Swin Transformer模块构建了4个stage,每个stage中都是类似的重复单元;stage2-stage4操作相同,先通过一个Patch Merging,将输入按照2x2的相邻Patches合并,patch块的数量变成/>
Figure SMS_2
特征维度为4C,与stage1一样使用Linear Embedding将4C压缩成2C,然后送入Swin TransformerBlock;
Swin Transformer模块中核心的部分是4个Stage中的Swin Transformer Block,Swin Transformer Block由窗口多头自注意层W-MSA和移位窗口多头自注意层SW-MSA组成;将压缩后的特征图输入到该stage的特征zl-1先经过LN进行归一化,再经过W-MSA进行特征的学习,接着的是一个残差操作得到
Figure SMS_3
接着是一个LN,一个MLP以及一个残差,得到这一层的输出特征zl;然后继续进行LN归一化,在经过SW-MSA进行特征学习,得到/>
Figure SMS_4
在进行一次LN归一化和MLP,得到特征输出zl+1;用公式表示为:
Figure SMS_5
Figure SMS_6
Figure SMS_7
Figure SMS_8
式中,
Figure SMS_9
和zl分别表示W-MSA模块和MLP模块的输出特征,/>
Figure SMS_10
和zl+1表示SW-MSA模块和MLP模块的输出特征;
Swin Transformer的输出层,在stage4完成计算后,Swin Transformer先通过一个Global Average Pooling,再通过一层LayerNorm和一个全连接层,以及dropout和残差连接;公式为:
y=MlP(LN(GAP(z4)))
式中,z表示特征向量。
进一步地,步骤(2)所述在YOLOv5模型中加入注意力机制ECA模块过程如下:
把通过Swin Transformer的特征向量通过平均池化获得的聚合特征,ECA模块通过执行卷积核大小为k的一维卷积来生成通道权重,用一维卷积替换了全连接层,其中一维卷积核大小k是由通过通道数C自适应确定;自适应确定卷积核大小公式:
Figure SMS_11
式中,k表示卷积核大小;C表示通道数;||odd表示k只能取奇数;γ和b表示用于改变通道数C和卷积核大小和之间的比例。
进一步地,步骤(2)所述输出端与Neck模块连接,将原有的CIOU Loss做边界损失函数进行改进,加入一个影响因子α,其公式为:
Figure SMS_12
Figure SMS_13
Figure SMS_14
式中,β是权重函数,b为预测框中心点坐标,bgt为真实框中心点坐标,ρ(,)是欧式距离计算;c为预测框、真实框最小包围框的对角线长度,IoU为交并比损失函数,v是度量框的长宽比,wgt、hgt分别是预测框的宽和高,w、h是目标框的宽和高;
改进后的Alpha-IoU损失函数公式为:
Figure SMS_15
通过设置α次幂使得在高IoU状态下,预测框回归真实框,最终得到安全防护用具佩戴检测边界框。
有益效果:与现有技术相比,本发明的有益效果:本发明将原有的YOLOv5检测模型Backbone模块转换为Swin Transformer模块网络进行特征提取,构建轻量化目标检测模型,在算法框架中嵌入ECA注意力模块,改进的轻量化网络,并使用深度可分离卷积替换掉冗余操作,以轻量级模块构建高效算法,兼顾轻量化的同时,保持YOLOv5的精度与速度;本发明可以很好的对化工厂人员安全帽佩戴情况进行检测,有效地增强小目标检测的精确度,提高了化工厂安全帽佩戴检测的准确性。
附图说明
图1为本发明的流程图;
图2为基于改进YOLOv5的安全帽佩戴检测模型结构示意图;
图3为Swin transformer Block网络的结构示意图;
图4为ECA注意力机制模块结构示意图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
本发明提出一种基于改进YOLOv5的化工厂安全帽佩戴检测方法,如图1所示,具体包括以下步骤:
步骤1:获取待检测图像和训练图像,将图像中待检测区域标注出来,得到安全防护用具检测数据集,通过数据清洗,得到安全防护用具佩戴训练集和测试集。
通过百度和化工厂监控视频收集安全防护用具佩戴数据集VOC2028,包含安全帽和人两个类别的检测数据集,数据总共7581帧图片。对得到的VOC2028数据集进行数据清洗,从而提高图像数据集中的图像一致性,高质量的数据集可以确保模型能够走向正确的收敛方向,以保证数据集中数据的一致性。使用labelGo对所的图像进行标注,标注后的文件以“.xml”为后缀的标签文件,之后再转成“.txt”后缀的格式,得到数据集。
步骤2:构建基于改进YOLOv5的安全帽佩戴检测模型,如图2所示,包括输入端,Swin Transformer模块、Neck模块和输出端;并在YOLOv5模型中加入注意力机制ECA模块及更改损失函数设置为Alpha-IoU。
输入端,Mosaic数据增强,对输入的安全放防护用具小目标佩戴图片进行随机缩放,剪裁和排布,然后通过自适应锚框计算,初始设定长宽的锚宽,输出预测框,与真实框ground truth进行对比,在方向更新,迭代网络参数,然后再对原始的安全放防护用具图片自适应的添加最少的黑边,计算缩放比例,计算缩放后的尺寸,计算黑边填充数值,得到增强的图像。
Backbone模块,将原有的特征提取Backbone模块替换为提取能力更强的SwinTransformer模块,并且加入ECA注意力模块,这一模块的主要作用是对高层特征进行提取并融合,在融合的过程中多次运用最大池化,尽可能多的去提取高层次的语义特征。
Swin Transformer模块,输入原始的图像之后是一个Patch Partition,再之后是一个Linear Embedding层,图像经过这两个层就是通过一个Patch Merging层,PatchMerging是主要是通过nn.Unfold函数实现降采样,nn.Unfold的功能是对图像进行滑窗,相当于卷积操作的第一步,经过nn.Unfold之后会得到
Figure SMS_16
个长度为4×4×3=48的特征向量,这个stage的Feature Map的通道数为3,第一个stage的输入是RGB图像,stage1部分,先通过一个Linear Embedding将输划分后的patch特征维度变成C,然后送入Swin Transformer Block;Swin Transformer模块构建了4个stage,每个stage中都是类似的重复单元。stage2-stage4操作相同,先通过一个Patch Merging,将输入按照2x2的相邻Patches合并,这样子patch块的数量就变成了/>
Figure SMS_17
特征维度就变成了4C,与stage1一样使用Linear Embedding将4C压缩成2C,然后送入Swin Transformer Block。
Swin Transformer模块中核心的部分便是4个Stage中的Swin TransformerBlock,Swin Transformer Block是该算法的核心点,如图3所示,它由窗口多头自注意层(window multi-head self-attention,W-MSA)和移位窗口多头自注意层(shifted-windowmulti-head self-attention,SW-MSA)组成。将压缩后的特征图输入到该stage的特征zl-1先经过LN进行归一化,再经过W-MSA进行特征的学习,接着的是一个残差操作得到
Figure SMS_18
接着是一个LN,一个MLP以及一个残差,得到这一层的输出特征zl。然后继续进行LN归一化,在经过SW-MSA进行特征学习,得到/>
Figure SMS_19
在进行一次LN归一化和MLP,得到特征输出zl+1。这一部分可用公式表示为:
Figure SMS_20
Figure SMS_21
Figure SMS_22
Figure SMS_23
式中,
Figure SMS_24
和zl分别表示W-MSA模块和MLP模块的输出特征,/>
Figure SMS_25
和zl+1表示SW-MSA模块和MLP模块的输出特征。
Swin Transformer的输出层,在stage4完成计算后,Swin Transformer先通过一个Global Average Pooling得到长度为768的特征向量,再通过一层Layer Norm和一个全连接层,以及dropout和残差连接。公式为:
y=MLP(LN(GAP(z4)))
式中,z表示特征向量。
之后***ECA注意力机制模块,如图4所示,把通过Swin Transformer的特征向量通过平均池化获得的聚合特征,ECA模块通过执行卷积核大小为k的一维卷积来生成通道权重,用一维卷积替换了全连接层,其中一维卷积核大小k是由通过通道数C自适应确定。自适应确定卷积核大小公式:
Figure SMS_26
ECA模块只是替换了全连接层,每一次卷积只和部分通道作用,减少了数据计算量。
Neck模块,Neck模块的网络结构设计也是沿用了FPN+PAN的结构,FPN就是使用一种自顶向下的侧边连接在所有尺度上构建出高级语义特征图,构造了特征金字塔的经典结构,FPN中间经过多层的网络后,底层的目标信息已经非常模糊了,因此PAN又加入了自底向上的路线,弥补并加强了定位信息,加强网络特征融合能力,将Swin Transformer提取的图像特征进行特征融合,输入到下一个结果预测模块。
输出端,输出端与Neck模块连接,将原有的CIOU Loss做边界损失函数进行改进,加入一个影响因子α,其公式为:
Figure SMS_27
Figure SMS_28
Figure SMS_29
式中,β是权重函数,b为预测框中心点坐标,bgt为真实框中心点坐标,ρ(,)是欧式距离计算;c为预测框、真实框最小包围框的对角线长度,IoU为交并比损失函数,v是度量框的长宽比,wgt、hgt分别是预测框的宽和高,w、h是目标框的宽和高。
改进后的Alpha-IoU损失函数公式为:
Figure SMS_30
通过设置α次幂使得在高IoU状态下,预测框回归真实框,最终得到安全防护用具佩戴检测边界框。
步骤3:将训练数据集和测试数据集输入到基于改进YOLOv5的安全帽佩戴检测模型中,进行训练,得到优化后的模型。
设置改进好的YOLOv5模型的网络参数,Model选择使用YOLOv5s模型进行训练,Weights选择YOLOv5.pt文件,epoch训练次数设置为100,Batch-size设置为1。用训练数据集训练上述改进的YOLOv5网络,不断优化网络参数,使网络模型达到最好的状态,得到训练优化后的模型。
步骤4:将待检测的图像输入训练后的模型,在detect中进行检测得到安全防护用具的检测结果;
将所需要检测的视频或图片输入到detect,使用改进优化后的YOLOv5模型对待检测的安全防护用具佩戴图片进行目标检测。产生最终的安全防护用具检测结果,得到待检测数据中的安全防护用具佩戴的检测目标。
以上显示和描述为本发明的基本原理和主要特征和本发明的优点。本领域的技术人员应该了解,本发明不受上述实施方式的限制,上述实施方式和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书界定。

Claims (6)

1.一种基于改进YOLOv5的化工厂安全帽佩戴检测方法,其特征在于,包括以下步骤:
(1)预先获取待检测图像和训练图像,将图像中待检测区域标注出来,得到安全帽检测数据集,通过数据清洗,得到训练集和测试集;
(2)构建基于改进YOLOv5的安全帽佩戴检测模型,包括输入端、Swin Transformer模块、Neck模块和输出端;并在YOLOv5模型中加入注意力机制ECA模块及更改损失函数设置为Alpha-IoU;
(3)将训练数据集和测试数据集输入到基于改进YOLOv5的安全帽佩戴检测模型中,进行训练,得到优化后的模型;
(4)将待检测的图像输入优化后的模型,在detect中进行检测得到安全帽佩戴的检测结果。
2.根据权利要求1所述的一种基于改进YOLOv5的化工厂安全帽佩戴检测方法,其特征在于,所述步骤(1)实现过程如下:
使用labelGo对图像进行标注,标注后的文件以“.xml”为后缀的标签文件,之后再转成“.txt”后缀的格式,得到数据集。
3.根据权利要求1所述的一种基于改进YOLOv5的化工厂安全帽佩戴检测方法,其特征在于,步骤(2)所述输入端对输入的安全放防护用具小目标佩戴图片进行随机缩放,剪裁和排布,然后通过自适应锚框计算,初始设定长宽的锚宽,输出预测框,与真实框groundtruth进行对比,在方向更新,迭代网络参数;然后再对原始的安全放防护用具图片自适应的添加最少的黑边,计算缩放比例,计算缩放后的尺寸,计算黑边填充数值,得到增强的图像。
4.根据权利要求1所述的一种基于改进YOLOv5的化工厂安全帽佩戴检测方法,其特征在于,所述Swin Transformer模块的结构如下:
输入原始的图像之后是一个Patch Partition,再之后是一个Linear Embedding层,图像经过这两个层就是通过一个Patch Merging层,Patch Merging通过nn.Unfold函数实现降采样,经过nn.Unfold之后会得到
Figure FDA0004101016510000011
个特征向量;stage的Feature Map的通道数为3,第一个stage的输入是RGB图像,stage1部分,先通过一个Linear Embedding将输划分后的patch特征维度变成C,然后送入Swin Transformer Block;Swin Transformer模块构建了4个stage,每个stage中都是类似的重复单元;stage2-stage4操作相同,先通过一个PatchMerging,将输入按照2x2的相邻Patches合并,patch块的数量变成/>
Figure FDA0004101016510000021
特征维度为4C,与stage1一样使用Linear Embedding将4C压缩成2C,然后送入Swin Transformer Block;
Swin Transformer模块中核心的部分是4个Stage中的Swin Transformer Block,SwinTransformer Block由窗口多头自注意层W-MSA和移位窗口多头自注意层SW-MSA组成;将压缩后的特征图输入到该stage的特征zl-1先经过LN进行归一化,再经过W-MSA进行特征的学习,接着的是一个残差操作得到
Figure FDA0004101016510000022
接着是一个LN,一个MLP以及一个残差,得到这一层的输出特征zl;然后继续进行LN归一化,在经过SW-MSA进行特征学习,得到/>
Figure FDA0004101016510000023
在进行一次LN归一化和MLP,得到特征输出zl+1;用公式表示为:
Figure FDA0004101016510000024
Figure FDA0004101016510000025
Figure FDA0004101016510000026
Figure FDA0004101016510000027
式中,
Figure FDA0004101016510000028
和zl分别表示W-MSA模块和MLP模块的输出特征,/>
Figure FDA0004101016510000029
和zl+1表示SW-MSA模块和MLP模块的输出特征;
Swin Transformer的输出层,在stage4完成计算后,Swin Transformer先通过一个Global Average Pooling,再通过一层LayerNorm和一个全连接层,以及dropout和残差连接;公式为:
y=MLP(LN(GAP(z4)))
式中,z表示特征向量。
5.根据权利要求1所述的一种基于改进YOLOv5的化工厂安全帽佩戴检测方法,其特征在于,步骤(2)所述在YOLOv5模型中加入注意力机制ECA模块过程如下:
把通过Swin Transformer的特征向量通过平均池化获得的聚合特征,ECA模块通过执行卷积核大小为k的一维卷积来生成通道权重,用一维卷积替换了全连接层,其中一维卷积核大小k是由通过通道数C自适应确定;自适应确定卷积核大小公式:
Figure FDA0004101016510000031
式中,k表示卷积核大小;C表示通道数;||odd表示k只能取奇数;γ和b表示用于改变通道数C和卷积核大小和之间的比例。
6.根据权利要求1所述的一种基于改进YOLOv5的化工厂安全帽佩戴检测方法,其特征在于,步骤(2)所述输出端与Neck模块连接,将原有的CIOU Loss做边界损失函数进行改进,加入一个影响因子α,其公式为:
Figure FDA0004101016510000032
Figure FDA0004101016510000033
Figure FDA0004101016510000034
式中,β是权重函数,b为预测框中心点坐标,bgt为真实框中心点坐标,ρ(,)是欧式距离计算;c为预测框、真实框最小包围框的对角线长度,IoU为交并比损失函数,v是度量框的长宽比,wgt、hgt分别是预测框的宽和高,w、h是目标框的宽和高;
改进后的Alpha-IoU损失函数公式为:
Figure FDA0004101016510000035
通过设置α次幂使得在高IoU状态下,预测框回归真实框,最终得到安全防护用具佩戴检测边界框。
CN202310176465.1A 2023-02-28 2023-02-28 一种基于改进YOLOv5的化工厂安全帽佩戴检测方法 Pending CN116310967A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310176465.1A CN116310967A (zh) 2023-02-28 2023-02-28 一种基于改进YOLOv5的化工厂安全帽佩戴检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310176465.1A CN116310967A (zh) 2023-02-28 2023-02-28 一种基于改进YOLOv5的化工厂安全帽佩戴检测方法

Publications (1)

Publication Number Publication Date
CN116310967A true CN116310967A (zh) 2023-06-23

Family

ID=86782717

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310176465.1A Pending CN116310967A (zh) 2023-02-28 2023-02-28 一种基于改进YOLOv5的化工厂安全帽佩戴检测方法

Country Status (1)

Country Link
CN (1) CN116310967A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117274253A (zh) * 2023-11-20 2023-12-22 华侨大学 基于多模态Transformer的零配件检测方法、装置及可读介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117274253A (zh) * 2023-11-20 2023-12-22 华侨大学 基于多模态Transformer的零配件检测方法、装置及可读介质
CN117274253B (zh) * 2023-11-20 2024-02-27 华侨大学 基于多模态Transformer的零配件检测方法、装置及可读介质

Similar Documents

Publication Publication Date Title
CN110147743A (zh) 一种复杂场景下的实时在线行人分析与计数***及方法
Li et al. Adaptive deep convolutional neural networks for scene-specific object detection
CN110852182B (zh) 一种基于三维空间时序建模的深度视频人体行为识别方法
CN113240688A (zh) 一种一体化洪涝灾害精准监测预警方法
CN103679674A (zh) 一种无人飞行器实时图像拼接方法及***
CN109034035A (zh) 基于显著性检测和特征融合的行人重识别方法
CN111241963B (zh) 基于交互建模的第一人称视角视频交互行为识别方法
CN109712127A (zh) 一种用于机巡视频流的输电线路故障检测方法
CN114783024A (zh) 基于YOLOv5的公共场所戴口罩的人脸识别***
Yang et al. MSFusion: Multistage for remote sensing image spatiotemporal fusion based on texture transformer and convolutional neural network
CN116310967A (zh) 一种基于改进YOLOv5的化工厂安全帽佩戴检测方法
CN115965578A (zh) 一种基于通道注意力机制的双目立体匹配检测方法及装置
Yuan et al. STransUNet: A siamese TransUNet-based remote sensing image change detection network
CN115661932A (zh) 一种垂钓行为检测方法
Yang et al. Safety helmet wearing detection based on an improved YOLOv3 scheme
Dianqing et al. Remote sensing landslide target detection method based on improved Faster R-CNN
Daogang et al. Anomaly identification of critical power plant facilities based on YOLOX-CBAM
CN113283306A (zh) 一种基于深度学习和迁移学习的啮齿动物识别分析的方法
CN113076825A (zh) 一种变电站工作人员爬高安全监测方法
CN117133052A (zh) 一种安全帽佩戴检测方法、装置、电子设备及存储介质
Liu et al. Leveraging physical rules for weakly supervised cloud detection in remote sensing images
Song et al. PDD: Post-Disaster Dataset for Human Detection and Performance Evaluation
CN116778214A (zh) 一种行为检测方法、装置、设备及其存储介质
CN115100680A (zh) 一种基于多源图像融合的行人检测方法
CN113192018A (zh) 基于快速分割卷积神经网络的水冷壁表面缺陷视频识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination