CN116721288A - 一种基于YOLOv5的安全帽检测方法及*** - Google Patents
一种基于YOLOv5的安全帽检测方法及*** Download PDFInfo
- Publication number
- CN116721288A CN116721288A CN202310639608.8A CN202310639608A CN116721288A CN 116721288 A CN116721288 A CN 116721288A CN 202310639608 A CN202310639608 A CN 202310639608A CN 116721288 A CN116721288 A CN 116721288A
- Authority
- CN
- China
- Prior art keywords
- detection
- yolov5
- target image
- feature
- helmet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 98
- 230000007246 mechanism Effects 0.000 claims abstract description 34
- 238000000034 method Methods 0.000 claims abstract description 30
- 238000010276 construction Methods 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims abstract description 12
- 238000001228 spectrum Methods 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 50
- 230000004927 fusion Effects 0.000 claims description 17
- 239000013598 vector Substances 0.000 claims description 17
- 230000004913 activation Effects 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 101100441244 Caenorhabditis elegans csp-1 gene Proteins 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 description 14
- 238000013527 convolutional neural network Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 210000003739 neck Anatomy 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003121 nonmonotonic effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 235000021018 plums Nutrition 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本公开提供了一种基于YOLOv5的安全帽检测方法及***,涉及计算机视觉图像检测技术领域,方法包括获取施工现场待检测的安全帽目标图像,并对目标图像进行预处理;对目标图像进行特征提取,提取目标图像的轮廓、颜色细节特征,获取多尺度特征图;其中,在进行多尺度特征图提取时,引入多光谱通道注意力机制,将多光谱通道注意力机制分别集成到改进的YOLOv5模型的主干网络、网络层以及预测输出层中,融合在各个结构不同的位置上,在重要通道和空间位置进行特征增加,来获取不同比例尺的多尺度特征图;输出安全帽检测分类结果。本公开提高了对小目标的特征提取能力。
Description
技术领域
本公开涉及计算机视觉图像检测技术领域,具体涉及一种基于YOLOv5的安全帽检测方法及***。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
目标检测广泛应用于监控、自动驾驶和交通监控等场景。目标检测包括两个任务:第一,提取目标特征向量并定位其位置;第二,使用分类算法对定位区域中的对象进行分类;传统的目标检测方法主要依靠一些特征提取算法来提取特征,如目标的颜色和纹理,然后,使用预训练的分类器进行分类。候选区域通常通过使用滑动窗口来获得,代表性的算法包括HOG等,然而,这些方法相对复杂,难以实际应用。在2012年,AlexNet利用卷积神经网络(CNN)以显著的优势赢得了ImageNet图像识别比赛的冠军。与传统方法相比,AlexNet不需要人工选择特征,大大提高了检测效率;自此,目标检测进入深度学习时代。基于深度学习的目标检测方法可以分为两类:两阶段检测和一阶段检测。以R-CNN系列为代表的两阶段目标检测方法可以达到较高的检测精度,但计算速度较慢。Girshick在2014年提出了R-CNN,Fast R-CNN和Faster R-CNN是在接下来的几年中提出的,这些方法逐步提高了检测性能。一阶段目标检测的代表性算法是YOLO系列和SSD。它们的优点是计算速度快,但是检测精度并不是那么好。Redmon在2015年提出了YOLO,它通过使用CNN将目标检测问题视为回归问题,同时具有分类功能,避免了R-CNN系列繁琐的两步检测过程,实现了更快的端到端检测。然而,YOLO的定位精度是不够的,特别是对于小物体。2016年,刘提出了SSD算法,通过引入多尺度检测来提高小目标的检测性能。2017年,Redmon提出了YOLOv2算法,Anchor的引入提高了目标定位的准确性和召回率。Redmon在2018年提出了YOLOv3算法,利用特征金字塔网络实现多尺度检测。Bochkovskiy提出了YOLOv4算法来提高检测精度和速度。Ultralitics在2020年提出了YOLOv5,它包括四个部分:Input、Backbone、Neck和Prediction;Backbone用于特征提取,Neck进行特征融合,Prediction返回预测结果。
在建筑工地,快速检测工人是否佩戴安全帽对于保障工人的生命安全具有重要意义。随着深度学习的广泛应用,许多新的检测算法被提出,以提高安全帽检测的准确性和效率。2014年,刘通过结合肤色检测和支持向量机成功地实现了安全帽检测。Wu基于FasterR-CNN,通过结合多级和多尺度特征进行多尺度检测,进一步提高了检测的准确性。李通过将颜色特征结合到VIBE(视觉背景提取器)算法中实现了对安全帽的检测。方在YOLOv2中添加了Focus增强了语义信息和多层特征的融合,提高了远距离小目标检测的准确性。王在YOLOv4的基础上使用了k-means聚类算法和金字塔分层注意(PSA)模型,mAP相对于YOLOv4提高了2.15%。目前,YOLOv5因其精度高、速度快、易扩展而成为目标检测中最常用的模型之一。
但是,在复杂的施工现场,检测工人是否戴安全帽经常受到遮挡、光照变化等因素的影响,再加之目标比较小,很容易造成漏检和误检,难以实现针对小目标、复杂场景下的精准检测。
发明内容
本公开为了解决上述问题,提出了一种基于YOLOv5的安全帽检测方法及***,提出了一种改进的YOLOv5模型,引入多光谱通道注意(MSCA)机制来增强小目标的特征学***均池(GAP)带来的信息丢失问题,并显著提高复杂场景下安全帽的检测性能。
根据一些实施例,本公开采用如下技术方案:
一种基于YOLOv5的安全帽检测方法,包括:
获取施工现场待检测的安全帽目标图像,并对目标图像进行预处理;
对目标图像进行特征提取,提取目标图像的轮廓、颜色细节特征,获取多尺度特征图;
其中,在进行多尺度特征图提取时,引入多光谱通道注意力机制,将多光谱通道注意力机制集成到改进的YOLOv5模型的主干网络中,融合在对应的位置上,在通道和空间位置进行特征增加,来获取不同比例尺的多尺度特征图;
将获取的多尺度特征图进行融合,利用融合后的特征图进行目标检测,输出安全帽检测分类结果。
根据一些实施例,本公开采用如下技术方案:
一种基于YOLOv5的安全帽检测***,包括:
图像获取模块,用于获取施工现场待检测的安全帽目标图像,并对目标图像进行预处理;
特征提取模块,用于对目标图像进行特征提取,提取目标图像的轮廓、颜色细节特征,获取多尺度特征图;
其中,在进行多尺度特征图提取时,引入多光谱通道注意力机制,将多光谱通道注意力机制集成到改进的YOLOv5模型的主干网络中,融合在对应的位置上,在通道和空间位置进行特征增加,来获取不同比例尺的多尺度特征图;
检测模块,用于将获取的多尺度特征图进行融合,利用融合后的特征图进行目标检测,输出安全帽检测分类结果
根据一些实施例,本公开采用如下技术方案:
一种计算机可存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行所述的一种基于YOLOv5的安全帽检测方法。
根据一些实施例,本公开采用如下技术方案:
一种终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行所述的一种基于YOLOv5的安全帽检测方法。
与现有技术相比,本公开的有益效果为:
本公开提供了一种改进的YOLOv5模型。通过添加152×152检测尺度来修改网络结构,这提高其对小目标的特征提取能力,并且使得模型能够检测更小的目标;其次,引入多光谱通道注意(MSCA)机制来增强小目标的特征学***均池(GAP)带来的信息丢失问题;对YOLOv5采用了不同的激活函数、边界框回归损失函数和后处理方法。采用Mish函数作为激活函数,提高了模型的泛化能力,解决了Leaky RelU函数导致的梯度消失问题。采用CIoU loss作为损失函数,提高了边界框回归的精度,使预测收敛更快。DIoU-NMS代替NMS作为后处理方法,以增强对遮挡小物体的预测框的滤波能力。在一个有7000幅图像的数据集上测试了本公开的方法,获得了95.1%的mAP,比YOLOv5模型高2.9%,该方法可以显著提高复杂场景下安全帽的检测性能。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1为本公开实施例的整体的模型架构图;
图2为本公开实施例的多光谱通道注意力模型架构图;
图3为本公开实施例的多光谱通道注意力机制集成到模型主干网络中的位置示意图;
图4为本公开实施例的MSCA被集成到YOLOv5的主干中的位置示意图;
图5为本公开实施例的Mish函数和Leaky ReLU函数比较图;
图6为本公开实施例的YOLOv5模型与本公开改进的YOLOv5模型检测结果的比较图。
具体实施方式
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例1
本公开的一种实施例中提供了一种基于YOLOv5的安全帽检测方法,具体的步骤包括:
步骤一:获取施工现场待检测的安全帽目标图像,并对目标图像进行预处理;
步骤二:对目标图像进行特征提取,提取目标图像的轮廓、颜色细节特征,获取多尺度特征图;
其中,在进行多尺度特征图提取时,引入多光谱通道注意力机制,将多光谱通道注意力机制集成到改进的YOLOv5模型的主干网络中,融合在对应的位置上,在通道和空间位置进行特征增加,来获取不同比例尺的多尺度特征图;
步骤三:将获取的多尺度特征图进行融合,利用融合后的特征图进行目标检测,输出安全帽检测分类结果。
作为一种实施例,YOLOv5模型是目前目标检测领域最常用的模型之一,在检测大型物体方面表现良好。在复杂的场景中,尤其是当头盔被部分遮挡时,它经常无法检测到像安全头盔这样的小物体。针对这一问题,提出了一种改进的YOLOv5模型,以提高复杂场景下的头盔检测性能。本公开利用改进的YOLOv5模型进行安全帽检测的具体实施的方法为:
本公开改进的YOLOv5模型的架构图如图1所示,由四个部分组成:Input(输入端)、Backbone(主干网络)、Neck(颈部网络)和Prediction(预测头)。
其中,Input负责图像预处理,包括镶嵌数据扩充和自适应图像缩放;其中,数据扩充包括随机裁剪、翻转、旋转、调整亮度/对比度等操作,以模拟现实世界中的不同场景和视角,可以提高模型对各种变化的适应能力,使其更具鲁棒性,其通过在训练时使用数据增强的函数来实现,如随机裁剪、翻转、旋转等;自适应图像缩放可以将图像缩放到指定的输入尺寸,同时保持图像的长宽比不变,因为YOLOv5模型的输入尺寸是固定的,对于不同大小的输入图像,需要进行缩放操作才能适应模型,可以通过调整图像的长宽比并将其缩放到指定的输入尺寸来实现。
Backbone负责特征提取,能够提取多尺度特征图,包括Focus(Focus模块)、CBM(Conv(卷积)+BN(批量归一化)+Mish(Mish函数))、CSP(跨阶段局部)、SPP(空间金字塔池)和MSCA(多光谱通道注意力机制);Focus执行切片操作并增加网络深度;CBM包括平均卷积、批量归一化和Mish函数;CSP可以减少模型的参数数量和计算复杂度,还可以提高网络的表示能力和鲁棒性;SPP负责融合不同比例尺的特征图。Neck负责特征融合,可以融合不同大小的特征图。Prediction是检测过程的最后阶段,输出检测结果。
在步骤二中,对目标图像进行特征提取,提取目标图像的轮廓、颜色细节特征,获取多尺度特征图;
具体的,浅层网络的低层特征感受野较小,分辨率较高,适合提取轮廓、颜色等细节特征,更有利于小目标的检测;然而,随着网络变得更深,从小目标中提取的特征信息量将会减少。深层网络的高层特征感受野增大,使其更适合于检测中大型目标。YOLOv5模型检测三种不同尺度的物体,分别是76×76、38×38、19×19;当输入图像尺寸为608×608,对应的对象检测像素是8×8、16×16、32×32,这意味着小于8×8像素的物体不能被检测到。为了解决这个问题,在YOLOv5模型中增加了152×152的检测尺度,最小可检测像素尺寸减小到4×4,以提高小物体的特征提取能力,这更有助于检测诸如安全帽之类的小目标。
其中,在进行多尺度特征图提取时,引入多光谱通道注意力机制,将多光谱通道注意力机制分别集成到改进的YOLOv5模型的主干网络、网络层以及预测输出层中,融合在各个结构不同的位置上,在重要通道和空间位置进行特征增加,来获取不同比例尺的多尺度特征图;
具体的,由于在目标检测领域,通道注意是一种常用的特征增强方法,这种机制成为挤压激励网络(SENet),它可以通过重新加权当前特征值来增加或者抑制某些区域的特征表示,SENet的模型架构如图2所示,通过注意力通过两个完全连接的层计算通道之间的重要性,并对通道执行全局平均池(GAP)。最后,使用完全连接的层来自适应地计算每个通道的权重。
其中,在改进的YOLOv5模型的主干网络中,引入了多光谱通道注意力机制进行多尺度特征提取。该机制被集成到特征提取处,通过在通道和空间位置进行特征增强来优化模型性能。
具体而言,通过多光谱通道注意力机制,输入数据根据图像中的内容和上下文信息自动学习并生成一个权重向量,用于调整特征图中每个位置的重要性。这样一来,该机制可以增强感兴趣区域的表示,减弱或过滤掉无关区域的表示。
在通道维度上,该机制学习并加权特征图中的不同通道,使得网络能够更好地聚焦于对目标有用的通道,从而提高网络对目标的判别能力。而在空间维度上,该机制根据输入数据的上下文信息,将重要的区域聚焦并放大,同时抑制不重要的区域。这样的优化有助于提高模型对目标物体的定位和检测精度,在目标检测任务中展现更出色的表现。
离散余弦变换(DCT)用于通过使用频率信息来压缩通道,输入特征映射沿通道维度被分成多个部分,并且每个部分被分配两个二维DCT(2D DCT)频率分量。
2D DCT的基函数的公式可以写成:
其中,是2D DCT的基函数,那么2D DCT的公式可以写成:
其中,为2D DCT频谱,/>为输入,H和W分别为/>的高度和宽度。h∈{0,1,...,H-1},w∈{0,1,...,W-1}。根据公式(2),逆2DDCT的公式可写为:
其中,i∈{0,1,...,H-1},j∈{0,1,...,W-1}。当h和w在公式(2)中的值为0时,可以得到:
在公式(4)中,是2D DCT的最低频率分量,用频率信息压缩通道后,/>与GAP成正比。在通道注意机制中进行的GAP操作仅利用2D DCT的最低频率分量,GAP操作丢弃其他频率分量,其中也包含有用的检测信息。因此,这种机制不能很好地捕获丰富的输入信息,导致在处理不同的输入时缺乏特征多样性。
为了解决这一问题,本公开引入了多光谱通道注意(MSCA),它可以利用更多的频率分量,解决GAP信息丢失的问题,MSCA的模型架构如图3所示。MSCA在SENet的基础上进行了改进,MSCA的工作原理如下:输入X沿通道维度分为n等份:其中Xi∈RC ×H×W,i∈{0,1,...,n-1},/>C必须被n整除。对于每个部分,使用2D DCT频率分量进行变换并生成一个注意向量。
这些注意向量可以作为通道注意的预处理结果,其公式可以写为:
其中,parti∈RC是一个预处理的MSCA向量,[ui,vi]是与Xi的频率分量对应的2D指数。每个部分的压缩向量通过串联组合形成MSCA向量,其公式可以写为:
Freq=cat([Freq0,Freq1,...,Freqn-1]) (6)
最后,利用Sigmoid激活函数的全连通层,利用映射函数fc计算MSCA向量,其公式可以写为:
MSCA(X)=Sigmoid(fc(Part)) (7)
其中,MSCA(X)为多光谱通道注意力,fc表示映射函数,Sigmoid为激活函数,Part为输入X沿通道维度等份划分后的每一部分。
由于MSCA是在重要通道和空间位置处进行特征增强的,在本公开添加152×152的检测尺度的基础上,将MSCA分别集成到YOLOv5的Backbone、Neck和Prediction中。具体的融合位置为:MSCA融合到Backbone(主干网络)的CSP_1、CSP1_3和SSP(空间金字塔池)模块的特征融合区域中;对于Neck(颈部网络),MSCA被融合到Concat层中;在Prediction(预测头)的每个Conv(卷积)结构之前进行融合MSCA。根据融合位置命名了这三种不同的融合方式:MSCA-Backbone,MSCA-Neck和MSCA-Prediction。
但是将这三种不同的融合方式与YOLOv5和YOLOv5+(152×152)进行了比较实验。本实验采用平均精度均值(mAP)和召回率(R)作为评价标准。这些标准的表达式见第三节,本实验结果见表1。
表1MSCA融合实验对比结果
模型 | mAP(%) | R(%) |
YOLOv5 | 92.2 | 91.8 |
YOLOv5+(152×152) | 92.7 | 92.4 |
MSCA-Backbone | 94.3 | 93.5 |
MSCA-Neck | 91.1 | 92.3 |
MSCA-Prediction | 91.7 | 91.4 |
在表1中,MSCA-Backbone算法的检测结果最好,与YOLOv5+(152×152)模型相比,其mAP和R分别提高了1.6%和1.1%;同时,与YOLOv5模型相比,YOLOv5+(152×152)模型在mAP和R中分别增加了0.5%和0.6%;相反,与YOLOv5模型相比,MSCA-Neck算法和MSCA-Prediction算法的mAP值分别降低了1.1%和0.5%。结果表明,在添加152×152的检测尺度的基础上,将MSCA融合到Backbone中可以显著提高检测性能,MSCA融合在Backbone中的位置如图4所示。
在Backbone网络的浅层中,尽管语义信息不够丰富,但仍然包含了一些针对小目标的有用信息,如纹理、颜色和轮廓等。通过融合MSCA,这些信息有利于小目标的检测。然而,在更深层的颈部和预测网络中,语义信息已经非常丰富,并且没有更多的信息可用于小目标特征提取。所以本公开采用的改进方式为将MSCA在MSCA融合在Backbone中,也说明了融合在Neck和Prediction方面效果不佳的原因。
当利用激活函数以及映射函数计算多光谱通道注意力向量,具体的:
改进激活函数:
激活函数对神经网络模型具有重要意义,它可以提高神经元的非线性表达能力,使神经网络能够更好地表达非线性关系。在YOLOv5中,使用Leaky ReLU函数作为激活函数,其公式可以写为:
通常,α的值在0.01左右,然而,Leaky ReLU函数功能在训练过程中往往是不稳定的。为了解决这一问题,本公开采用了一种新的激活函数:Mish函数,以提高训练的稳定性,其公式可以写为:
f(x)=x·tanh(δ(x)) (9)
Mish函数与Leaky ReLU函数的比较如图5所示。
可以看到,Mish函数是一个具有良好光滑性的非单调曲线。当输入值x>0时,Mish函数的曲线与Leaky ReLU函数的曲线几乎一致;然而,当x<0时,Leaky ReLU函数的输出几乎为零。
由于Mish函数的平滑性,它可以使神经网络中的梯度更加稳定,从而实现更好的信息传输,提高网络的泛化能力;这种泛化能力对于优化任务的性能非常有效,如小目标检测。
改进边界框回归损失函数:
利用联合交叉点(IoU)用于衡量两个边界框的重叠程度,本公开改变了YOLOv5的边界框回归损失函数,将Generalized IoU(GIoU)损失函数替换为Compared IoU(CIoU)损失函数。与GIoU损失函数相比,CIoU损失函数在预测中具有较快的收敛速度;同时考虑重叠面积、中心距离和高宽比,进一步提高回归的精度。这种改进特别有利于检测被遮挡和重叠的小物体,CIoU损失函数的公式表达如下:
CIoUloss=1-IoU+RDIoU+αv (10)
其中,CIoUloss代表CIOU损失函数,IoU为联合交叉点,RDIoU是两个边界盒B和Bgt的中心点之间的距离,α是一个加权参数,v度量长宽比的相似性,ρ是欧氏距离,c是两个边界框形成的最小包围矩形的对角线距离。
在目标检测的后处理阶段,YOLOv5模型使用加权非最大抑制(NMS)来选择最优的预测框。利用Distance IoU NMS(DIoU-NMS)来选择最优预测框。IoU测量了预测的框和真实的框之间的重叠程度,然而,误差抑制只考虑了重叠区域,当目标被部分遮挡时,很容易导致漏检。因此,抑制标准不仅应考虑重叠的区域,还应考虑两个框之间的中心点之间的距离。因为两个距离较远的预测框可能是两个不同的目标,不应该像传统的NMS方法那样被删除;DIoU-NMS不仅考虑了两个预测框的重叠面积,而且还考虑了两个预测框中心点之间的距离。因此,与传统的NMS相比,DIoU-NMS提高了对小目标预测盒的过滤能力,更有利于检测小目标,DIoU-NMS的公式如下:
其中Si表示第i个目标盒的分类得分,RDIoU是IoU的一个改进的重叠度量,是将DIoU转换为重叠分数的函数。M代表高可信度的候选方框,Bi遍历每个框以检查与高置信度框的重叠,ε是手动设置的NMS阈值。
实验分析
A.数据集和环境建设
SCUT-HEAD是一个开放的安全帽数据集,主要包括室内监控照片,但不太适合实际施工现场。基于SCUT-HEAD,通过收集7000张包含头盔的建筑工地的图像,创建了一个安全头盔数据集。LabelImg用于注释这些图像,标有头盔的人“帽子”,没有头盔的人“人”,注释文件被保存为“*.xml”,这些文件包含了对象框架中的四个坐标和类别信息(PASCALVOC)。这个数据集包含了各种复杂的建筑工地,最后约6000张图像作为训练数据,1000张图像作为测试数据。在Pytorch 1.8.1上实现了改进的YOLOv5模型,所有模型都使用NVIDIA A100GPU进行了训练和测试。
B.评价指标
为了更好地评价改进后的模型的性能,本文采用了目标检测领域常用的评价指标:mAP和R。mAP和R的公式表达如下:
其中,P代表精度,TP代表真阳性,FP代表假阳性,FN代表假阴性;
AP为一个类别的平均精度,n为类别的数量,mAP表示AP的所有类别的平均值。
C.实验结果分析
在所有改进的基础上,对最终改进的YOLOv5模型进行了比较实验,包括Faster R-CNN、SSD、YOLOv3、YOLOv4和YOLOv5。为了更清楚地显示结果,在每个模型相同的配置条件下使用相同数量的测试图像进行了实验,不同模型进行的比较实验的结果见表2。
表2不同模型的试验结果对比
模型 | mAP(%) | R(%) |
FasterR-CNN | 65.96 | 63.24 |
SSD | 60.23 | 58.25 |
YOLOv3 | 77.59 | 74.98 |
YOLOv4 | 87.52 | 85.36 |
YOLOv5 | 92.2 | 91.8 |
改进的YOLOv5 | 95.1 | 94.2 |
实验数据表明,与原来的YOLOv5模型相比,改进的YOLOv5模型的mAP和R分别提高了2.9%和2.4%。本公开的方法优于其他四种检测算法。
图6为本公开的检测结果与YOLOv5模型的检测结果对比,最左边的一列显示原始图像,中间的一列显示YOLOv5的检测结果,最右边的一列显示了本公开改进的YOLOv5模型的检测结果。
为了进行定性分析,用白色的圆圈标记了主要的比较部分。对于YOLOv5模型:(a2)和(b2)由于遮挡而未检测到一个戴头盔的人;在(c2)中,由于YOLOv5模型的遮挡和背景相似,没有检测到戴白色头盔的人;在(d2)中,YOLOv5模型错误检测到一个红色设备作为头盔;改进的YOLOv5模型成功地检测到了复杂建筑工地的所有头盔。检测结果表明,改进的YOLOv5模型具有良好的检测性能和鲁棒性。
实施例2
本公开的一种实施例中提供了一种基于YOLOv5的安全帽检测***,包括:
图像获取模块,用于获取施工现场待检测的安全帽目标图像,并对目标图像进行预处理;
特征提取模块,用于对目标图像进行特征提取,提取目标图像的轮廓、颜色细节特征,获取多尺度特征图;
其中,在进行多尺度特征图提取时,引入多光谱通道注意力机制,将多光谱通道注意力机制分别集成到改进的YOLOv5模型的主干网络、网络层以及预测输出层中,融合在各个结构不同的位置上,在重要通道和空间位置进行特征增加,来获取不同比例尺的多尺度特征图;
检测模块,用于将获取的多尺度特征图进行融合,利用融合后的特征图进行目标检测,输出安全帽检测分类结果。
实施例3
一种计算机可存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行所述的一种基于YOLOv5的安全帽检测方法。
实施例4
一种终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行所述的一种基于YOLOv5的安全帽检测方法。
本公开是参照根据本公开实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。
Claims (10)
1.一种基于YOLOv5的安全帽检测方法,其特征在于,包括:
获取施工现场待检测的安全帽目标图像,并对目标图像进行预处理;
对目标图像进行特征提取,提取目标图像的轮廓、颜色细节特征,获取多尺度特征图;
其中,在进行多尺度特征图提取时,引入多光谱通道注意力机制,将多光谱通道注意力机制分别集成到改进的YOLOv5模型的主干网络上,在重要通道和空间位置进行特征增加,来获取不同比例尺的多尺度特征图;
将获取的多尺度特征图进行融合,利用融合后的特征图进行目标检测,输出安全帽检测分类结果。
2.如权利要求1所述的一种基于YOLOv5的安全帽检测方法,其特征在于,所述预处理的方式包括:镶嵌数据扩充和自适应图像缩放。
3.如权利要求1所述的一种基于YOLOv5的安全帽检测方法,其特征在于,所述改进的YOLOv5模型包括输入层、主干网络层、融合层以及预测输出层,主干网络层包括Focus、CBM、跨阶段局部、空间金字塔池和多光谱通道注意力机制。
4.如权利要求3所述的一种基于YOLOv5的安全帽检测方法,其特征在于,所述Focus执行切片操作并增加网络深度;CBM包括平均卷积、批量归一化和Mish函数;SPP负责融合不同比例尺的特征图,Neck负责特征融合,融合不同大小的特征图,Prediction是检测过程的最后阶段,输出检测结果。
5.如权利要求1所述的一种基于YOLOv5的安全帽检测方法,其特征在于,所述多光谱通道注意力机制的过程包括:将输入X沿通道维度分为多等份,对于每一份,使用2DDCT频率分量进行变换并生成一个注意向量,将注意向量作为通道注意的预处理结果,获取每一部分的压缩向量,将压缩向量通过串联组合形成多光谱通道注意力向量,然后利用激活函数以及映射函数计算多光谱通道注意力向量。
6.如权利要求5所述的一种基于YOLOv5的安全帽检测方法,其特征在于,所述多光谱通道注意力机制的表达式如下:
MSCA(X)=Sigmoid(fc(Part))
其中,MSCA(X)为多光谱通道注意力,fc表示映射函数,Sigmoid为激活函数,Part为输入X沿通道维度等份划分后的每一部分。
7.如权利要求1所述的一种基于YOLOv5的安全帽检测方法,其特征在于,对于多光谱通道注意力的具体融合位置为:将多通道注意力融合到主干网络的CSP_1、CSP1_3和SSP模块的特征融合区域中。
8.一种基于YOLOv5的安全帽检测***,其特征在于,包括:
图像获取模块,用于获取施工现场待检测的安全帽目标图像,并对目标图像进行预处理;
特征提取模块,用于对目标图像进行特征提取,提取目标图像的轮廓、颜色细节特征,获取多尺度特征图;
其中,在进行多尺度特征图提取时,引入多光谱通道注意力机制,将多光谱通道注意力机制分别集成到改进的YOLOv5模型的主干网络、网络层以及预测输出层中,融合在各个结构不同的位置上,在重要通道和空间位置进行特征增加,来获取不同比例尺的多尺度特征图;
检测模块,用于将获取的多尺度特征图进行融合,利用融合后的特征图进行目标检测,输出安全帽检测分类结果。
9.一种计算机可存储介质,其特征在于,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行权利要求1-7中任一项所述的一种基于YOLOv5的安全帽检测方法。
10.一种终端设备,其特征在于,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行如权利要求1-7中任一项所述的一种基于YOLOv5的安全帽检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310639608.8A CN116721288A (zh) | 2023-05-30 | 2023-05-30 | 一种基于YOLOv5的安全帽检测方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310639608.8A CN116721288A (zh) | 2023-05-30 | 2023-05-30 | 一种基于YOLOv5的安全帽检测方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116721288A true CN116721288A (zh) | 2023-09-08 |
Family
ID=87874493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310639608.8A Pending CN116721288A (zh) | 2023-05-30 | 2023-05-30 | 一种基于YOLOv5的安全帽检测方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116721288A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117132943A (zh) * | 2023-10-20 | 2023-11-28 | 南京信息工程大学 | 一种安全帽佩戴检测方法、装置、***及存储介质 |
-
2023
- 2023-05-30 CN CN202310639608.8A patent/CN116721288A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117132943A (zh) * | 2023-10-20 | 2023-11-28 | 南京信息工程大学 | 一种安全帽佩戴检测方法、装置、***及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110248096B (zh) | 对焦方法和装置、电子设备、计算机可读存储介质 | |
CN108717524B (zh) | 一种基于双摄手机和人工智能***的手势识别*** | |
CN113065558A (zh) | 一种结合注意力机制的轻量级小目标检测方法 | |
CN112784810B (zh) | 手势识别方法、装置、计算机设备和存储介质 | |
CN107273832B (zh) | 基于积分通道特征与卷积神经网络的车牌识别方法及*** | |
US9904868B2 (en) | Visual attention detector and visual attention detection method | |
CN111524145A (zh) | 图片智能裁剪方法、***、计算机设备及存储介质 | |
CN109902576B (zh) | 一种头肩图像分类器的训练方法及应用 | |
CN113487610B (zh) | 疱疹图像识别方法、装置、计算机设备和存储介质 | |
Geng et al. | An improved helmet detection method for YOLOv3 on an unbalanced dataset | |
CN116721288A (zh) | 一种基于YOLOv5的安全帽检测方法及*** | |
CN110532959B (zh) | 基于双通道三维卷积神经网络的实时暴力行为检测*** | |
CN116152226A (zh) | 基于可融合的特征金字塔的换向器内侧图像缺陷检测方法 | |
CN116052090A (zh) | 图像质量评估方法、模型训练方法、装置、设备及介质 | |
CN112734747B (zh) | 一种目标检测方法、装置、电子设备和存储介质 | |
CN113177956A (zh) | 一种面向无人机遥感影像的语义分割方法 | |
CN112348762A (zh) | 一种基于多尺度融合生成对抗网络的单幅图像去雨方法 | |
JP2011170890A (ja) | 顔検出方法および装置並びにプログラム | |
CN111127355A (zh) | 一种对缺损光流图进行精细补全的方法及其应用 | |
CN116597275A (zh) | 一种基于数据增强的高速移动目标识别方法 | |
Bolten et al. | Evaluation of Deep Learning based 3D-Point-Cloud Processing Techniques for Semantic Segmentation of Neuromorphic Vision Sensor Event-streams. | |
CN115272741A (zh) | 一种细长柔性物体检测方法、终端设备及存储介质 | |
CN114694090A (zh) | 一种基于改进PBAS算法与YOLOv5的校园异常行为检测方法 | |
Greco et al. | Saliency based aesthetic cut of digital images | |
CN112084815A (zh) | 一种基于摄像机焦距变换的目标检测方法、存储介质及处理器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |