CN117333753A - 基于pd-yolo的火灾检测方法 - Google Patents
基于pd-yolo的火灾检测方法 Download PDFInfo
- Publication number
- CN117333753A CN117333753A CN202311230499.0A CN202311230499A CN117333753A CN 117333753 A CN117333753 A CN 117333753A CN 202311230499 A CN202311230499 A CN 202311230499A CN 117333753 A CN117333753 A CN 117333753A
- Authority
- CN
- China
- Prior art keywords
- module
- model
- yolov8
- yolo
- fire
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 87
- 238000012549 training Methods 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 6
- 238000012360 testing method Methods 0.000 claims abstract description 5
- 238000004364 calculation method Methods 0.000 claims description 38
- 230000006870 function Effects 0.000 claims description 36
- 210000002569 neuron Anatomy 0.000 claims description 22
- 230000007246 mechanism Effects 0.000 claims description 19
- 238000000034 method Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 9
- 230000000007 visual effect Effects 0.000 claims description 6
- 210000002856 peripheral neuron Anatomy 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 239000000779 smoke Substances 0.000 abstract description 30
- 238000000605 extraction Methods 0.000 abstract description 10
- 230000004927 fusion Effects 0.000 abstract description 4
- 238000013527 convolutional neural network Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 238000013461 design Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000003121 nonmonotonic effect Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000012014 frustrated Lewis pair Substances 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- NJDNXYGOVLYJHP-UHFFFAOYSA-L disodium;2-(3-oxido-6-oxoxanthen-9-yl)benzoate Chemical group [Na+].[Na+].[O-]C(=O)C1=CC=CC=C1C1=C2C=CC(=O)C=C2OC2=CC([O-])=CC=C21 NJDNXYGOVLYJHP-UHFFFAOYSA-L 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000002663 humin Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Fire-Detection Mechanisms (AREA)
Abstract
本发明涉及图像处理技术领域,公开了一种基于PD‑YOLO的火灾检测方法,包括如下步骤:步骤1:获取火灾数据集,并将其经过预处理后划分为训练集和测试集;步骤2:构建YOLOv8网络模型,设计PConvs模块和DYDPConv模块,在YOLOv8网络模型基础上替换其中部分的C2f模块为PConvs模块和DYDPConv模块,得到改进的YOLOv8网络模型;步骤3:利用训练集训练改进的YOLOv8网络模型,并利用训练后的改进的YOLOv8网络模型进行火灾数据检测。与现有技术相比,本发明加强了模型对于火焰和烟雾的特征学习,提高模型特征提取能力,进一步促进火焰和烟雾的多尺度特征融合,抓取到更丰富和关键的特征表示。
Description
技术领域
本发明涉及图像处理技术领域,具体涉及一种基于PD-YOLO的火灾检测方法。
背景技术
火灾作为一种突发性公共灾害,可能在短时间内造成巨大的人员伤亡和财产损失,对社会稳定和个人安全造成严重威胁。传统方法往往依赖于手动设计的规则和特征提取算法,这需要大量的人力和专业知识,且不适用于不同场景和变化环境。其次,传统方法在处理复杂背景、光照变化和遮挡等情况下表现较差,很难准确地区分火焰和非火焰区域。另外,由于传统方法对图像中的火焰特征的提取和处理较为有限,其检测效果和实时性往往较差,无法满足现代社会对火灾检测的高要求。因此,传统图像处理技术在火灾检测领域逐渐受到深度学习等新兴技术的取代,以提升火灾检测的效率和准确性。
深度学习模型通过学习大量数据能够自动提取火焰和烟雾等火灾特征,相比传统方法它能更准确地检测火灾场景中的火焰和烟雾。它能够适应不同场景和光照条件,具有更强的泛化能力。此外,深度学习技术能够实现火灾检测的自动化和实时处理。它可以在视频流中实时进行火焰检测,减少对人工干预的依赖,提高火灾检测的效率和可靠性。
Hu等人(Hu Y,Lu X.Real-time video fire smoke detection by utilizingspatial-temporal ConvNet features[J].Multimedia Tools andApplications,2018,77:29283-29301)提出一种基于空间-时间的卷积神经网络用于视频烟雾检测,同时设计出一种增强的架构,该架构利用多任务学习策略同时识别烟雾和估计光流,实时捕获帧内外观特征和帧间运动特征,该算法虽然检测精度有较高提升,但检测速度却不能满足实际需求。Lin等人(Lin G,ZhangY,Xu G,et al.Smoke detection on video sequences using3D convolutional neural networks[J].Fire Technology,2019,55:1827-1847)基于更快的RCNN和3D CNN开发了一个联合检测框架,该框架在多个来源的烟雾视频的数据集上进行测试时对烟雾定位和识别表现出优秀的性能。为了解决火灾检测算法在实际应用中的复杂度问题,Valikhujaev等人(Valikhujaev Y,Abdusalomov A,Cho Y I.Automatic fireand smoke detection method for surveillance systems based on dilated CNNs[J].Atmosphere,2020,11(11):1241)使用一种基于扩张卷积(dilated convolutions)的卷积神经网络,这种神经网络在他们自定义数据集经过评估后,算法复杂度有了有效的下降。Khan等人(Khan S,Muhammad K,Hussain T,et al.Deepsmoke:Deep learning model forsmoke detection and segmentation in outdoor environments[J].Expert SystemswithApplications,2021,182:115125)采用了一种称为EfficientNet的高效CNN架构进行烟雾检测,这种模型可以在检测火灾的场景中在保证检测精度的同时兼顾较快的检测速度。Wang等人(Wang Z,Wu L,Li T,et al.A smoke detection model based on improvedYOLOv5[J].Mathematics,2022,10(7):1190)基于YOLOv5模型引入k-means++聚类算法和注意力结构来提升网络的检测性能,上述改进算法检测精度和检测速度都得到提升。
综上所述,使用深度学习技术进行火灾检测对于保障公共安全和减少火灾的影响至关重要。在实际火灾场景中,为了减少财产损失和人员伤亡,火灾检测算法对检测精度,检测速度,复杂度和泛化性都有较高的要求。为满足上述要求,本发明基于先进的YOLOv8算法提出一种PD-YOLO火灾检测方法。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种基于PD-YOLO的火灾检测方法,提出一种PConvs模块与YOLOv8的主干网络结合,加强模型对于火焰和烟雾的特征学习,提高模型特征提取能力,提出一种DYDPConv轻量化动态卷积模块与FPN(特征金字塔结构)结合,进一步促进火焰和烟雾的多尺度特征融合,并减少模型参数量;引入SimAM注意力机制,帮助模型关注与当前任务最相关的图像区域,从而抓取到更丰富和关键的特征表示,并将损失函数改进为WIoU,加快模型收敛,提供足够的梯度信息来指导模型学习。
技术方案:本发明提供了一种基于PD-YOLO的火灾检测方法,包括如下步骤:
步骤1:获取火灾数据集,并将其经过预处理后划分为训练集和测试集;
步骤2:构建YOLOv8网络模型,设计PConvs模块和DYDPConv模块,在YOLOv8网络模型基础上替换其中部分的C2f模块为PConvs模块和DYDPConv模块,得到改进的YOLOv8网络模型;
步骤3:利用训练集训练改进的YOLOv8网络模型,并利用训练后的改进的YOLOv8网络模型进行火灾数据检测。
进一步地,所述步骤2中PConvs模块在PConv模块基础上添加BN、SiLU激活函数和SimAM注意力机制组成PConvs模块。
进一步地,所述步骤2中DYDPConv模块基于ODConv模块设计,包括DDConv模块和DPConv模块,所述DDConv模块的卷积核数量与输入通道数量是对应的,单一卷积核只对单一通道进行全维动态卷积计算,最后输出通道数与输入通道数相同;经过DDConv模块动态卷积计算之后进行DPConv动态卷积计算;DPConv模块的卷积核的尺寸为1×1×m,m为上一层的通道数,全维动态卷积运算将DDConv模块的map在深度方向进行加权组合,生成新的feature map。
进一步地,所述DDConv模块具体计算过程是:特征图输入ODConv卷积模块,在ODConv模块中,将Kernel size设置为3×3大小;Stride设置为1;Padding设置为1;Groups设置为输入通道数。
进一步地,所述DPConv模块具体计算过程是:特征图输入ODConv卷积模块,在ODConv模块中,将Kernel size设置为1×1大小;Stride设置为1;Padding设置为0;Groups设置为0。
进一步地,引入的SimAM可以模仿人类视觉***为每个神经元分配一个权重,从而更好的提取火灾信息;每个神经元的能量函数为:
其中,每个通道有M=H×M是通道上神经元数量;t和xi是目标神经元和输入特征X的单通道中的其它神经元;i是空间维度上的索引;wt和bt是变换权值和偏差;ut和是该通道中除t之外的所有神经元的均值和方差;
最小能量公式为:
其中,从公式(2)看出:能量越低,神经元t与周围神经元的差异性越大,重要性越高,相应分配的权重更高;按照注意力机制的定义,对特征进行增强处理:
其中,E代表所有穿过的通道和空间维度;sigmoid是激活函数;X是特征图。
进一步地,所述改进的YOLOv8网络模型还将损失函数改进为WIoU,WIoU公式为:
其中,Wg,Hg表示最小包围框的宽和高;当时,这将有效放大普通质量anchor box的/>当/>时,这将显著降低高质量anchorbox的RWIoU,并在anchorbox与目标框重合时,重点关注中心点之间的距离。
进一步地,所述改进的YOLOv8网络模型还在主干网络末尾的SPPF模块后面引入SimAM模块。
进一步地,所述改进的YOLOv8网络模型将主干网络中C2f模块替换为PConvs模块,同时在颈部网络部分,将C2f模块替换为DYDPConv模块。
有益效果:
1、本发明在PConv基础上添加Batch Normalization、SiLU激活函数和SimAM组成PConvs模块,该模块继承PConv的优势更加适合于火灾检测,PConvs模块与YOLOv8的主干网络结合,加强模型对于火焰和烟雾的特征学***滑的,这使得火灾检测算法在训练过程中更容易进行梯度下降优化。第三,SiLU函数具有一个自适应的特性,可以在不同的输入范围内进行自我调整,这有助于改进梯度传播。在不同的火灾场景中,不可避免的存在干扰因素,比如场景亮度,障碍物阻碍等,这就使得模型在检测过程中容易被干扰。因此在设计的PConvs模块中加入SimAM注意力机制,可以更好的抑制输入图片中的干扰信息,使得模型更容易聚焦于火灾发生的感兴趣区域,提高模型的检测精度。
2、本发明基于ODConv设计一种DYDPConv轻量化的卷积计算模块,该模块的灵感来自于深度可分离卷积,它可以在保证火灾检测精度同时具有更少的参数量。ODConv将卷积核的注意力动态调整维度扩张到四个维度,分别为:卷积核尺寸,输入通道数,输出通道数和卷积核数量。这四个维度的的注意力动态调整能够为火灾检测捕获丰富的上下文信息,提高模型性能。虽然ODConv可以计算卷积核四个维度的注意力,但与DyConv和CondConv相比只计算一个卷积核维度的注意力相比,参数量有所增加。为了满足火灾检测中对于模型轻量化和高精度的需求,我们借鉴Depthwise Convolution和Pointwise Convolution的思想分别设计了DDConv和DPConv。
3、本发明引入SimAM注意力机制,帮助模型关注与当前任务最相关的图像区域,从而抓取到更丰富和关键的特征表示,人类视觉***识别火灾场景中的火焰和烟雾目标时,空间和通道的注意力需要协同处理眼睛捕获的外界信息。本发明引入的SimAM可以模仿人类视觉***为每个神经元分配一个权重,从而更好的提取火灾信息。
4、本发明将损失函数改进为WIoU,加快模型收敛,提供足够的梯度信息来指导模型学***衡问题。由于火灾场景较为复杂,导致在训练数据时及其容易产生低质量样本,距离和纵横比等几何因素将会加重低质量样本的惩罚,最终削弱模型的泛化性。WIoU可以充分利用非单调动态聚焦机制(FM)来解决高质量和低质量的样本之间的边界框回归(BBR)平衡问题。
附图说明
图1为本发明改进的YOLOv8网络模型结构图;
图2为本发明PConvs模块结构图;
图3为本发明SiLU函数图像;
图4为本发明DYDPConv模块结构图;
图5为本发明DDConv模块计算示意图;
图6为本发明DPConv模块计算示意图;
图7为CIoU与WIoU收敛对比图;
图8为本发明与YOLOv8火灾检测效果对比图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
本发明公开了一种基于PD-YOLO的火灾检测方法,提出一种PConvs模块与YOLOv8的主干网络结合,加强模型对于火焰和烟雾的特征学习,提高模型特征提取能力,提出一种DYDPConv轻量化动态卷积模块与FPN(特征金字塔结构)结合,进一步促进火焰和烟雾的多尺度特征融合,并减少模型参数量;引入SimAM注意力机制,帮助模型关注与当前任务最相关的图像区域,从而抓取到更丰富和关键的特征表示,并将损失函数改进为WIoU,加快模型收敛,提供足够的梯度信息来指导模型学习。具体包括如下步骤:
步骤1:获取火灾数据集,并将其经过预处理后划分为训练集和测试集。
步骤2:构建YOLOv8网络模型,设计PConvs模块和DYDPConv模块,在YOLOv8网络模型基础上替换其中部分的C2f模块为PConvs模块和DYDPConv模块,得到改进的YOLOv8网络模型。
步骤3:利用训练集训练改进的YOLOv8网络模型,并利用训练后的改进的YOLOv8网络模型进行火灾数据检测。
YOLOv8是一个SOTA模型,它建立在以前YOLO版本的成功基础上,设计了一个新的骨干网络、一个新的Anchor-Free检测头和一个新的损失函数,以进一步提升性能和灵活性。在火灾检测任务中,YOLOv8的骨干网络可以有效的获取火灾图片中的特征信息,提高对于火焰和烟雾的检测精度。Anchor-Free检测头可以进一步减少anchor的计算量,提升对于火灾的检测速度,提升检测性能。
本发明基于PConv设计一种适应于火灾的检测实际需求的新型特征提取模块PConvs。在PConv基础上添加BatchNormalization、SiLU激活函数和SimAM注意力机制组成PConvs模块,该模块继承PConv的优势更加适合于火灾检测,PConvs结构如图2所示。
在PConvs模块中,PConv模块可以进一步降低FLOPs,提高模型对于火焰和烟雾的检测速度,BN(batch normalization)可以提高模型收敛速度,让模型对权重初始化的敏感度下降,防止过拟合,缓解梯度爆照和梯度消失问题。SiLU(Sigmoid Linear Unit)激活函数几何图像如图3示,它也被称为Swish,该函数应用到火灾检测模型具有显著的优点。首先,它是非单调的,这可以帮助神经网络更好的适应不同的火灾场景,提高算法的泛化性。其次,它是平滑的,这使得火灾检测算法在训练过程中更容易进行梯度下降优化。第三,SiLU函数具有一个自适应的特性,可以在不同的输入范围内进行自我调整,这有助于改进梯度传播。在不同的火灾场景中,不可避免的存在干扰因素,比如场景亮度,障碍物阻碍等,这就使得模型在检测过程中容易被干扰。因此在我们设计的PConvs模块中加入SimAM注意力机制,它可以更好的抑制输入图片中的干扰信息,使得模型更容易聚焦于火灾发生的感兴趣区域,提高模型的检测精度。
另外提出一种DYDPConv轻量化动态卷积模块与FPN特征金字塔结构结合,进一步促进火焰和烟雾的多尺度特征融合,并减少模型参数量。基于ODConv设计一种DYDPConv轻量化的卷积计算模块,结构如图4所示。该模块的灵感来自于深度可分离卷积,它可以在保证火灾检测精度同时具有更少的参数量。
为了解决轻量化计算引起模型性能下滑的问题,微软的研究员提出了DyConv(Yinpeng Chen,Xiyang Dai,Mengchen Liu,Dongdong Chen,Lu Yuan,and ZichengLiu.Dynamic convolution:Attention over convolution kernels.In CVPR,2020.),这种卷积可以在不增加模型深度和宽度的前提下提高模型的表达能力。动态卷积的基本思路就是针对不同的输入图片,通过注意力动态地调整每个卷积核的权重,达到自适应调整卷积参数的目的。但CondConv(Yang B,Bender G,Le Q V,et al.Condconv:Conditionallyparameterized convolutions for efficient inference[J].Advances in neuralinformationprocessing systems,2019,32.)和DyConv都只采用单个注意力标量,这就导致与大模型相比性能增益较低。ODConv将卷积核的注意力动态调整维度扩张到四个维度,分别为:卷积核尺寸,输入通道数,输出通道数和卷积核数量。这四个维度的的注意力动态调整能够为火灾检测捕获丰富的上下文信息,提高模型性能。
虽然ODConv可以计算卷积核四个维度的注意力,但与DyConv和CondConv相比只计算一个卷积核维度的注意力相比,参数量有所增加。为了满足火灾检测中对于模型轻量化和高精度的需求,我们借鉴Depthwise Convolution和Pointwise Convolution的思想分别设计了DDConv(Dynamic Depthwise Convolution)和DPConv(Dynamic PointwiseConvolution)。
DDConv的卷积核数量与输入通道数量是对应的,单一卷积核只对单一通道进行全维动态卷积计算,最后输出通道数与输入通道数相同。经过DDConv动态卷积计算之后进行DPConv动态卷积计算。DPConv的卷积核的尺寸为1×1×M(M为上一层的通道数),这里的全维动态卷积运算会将DDConv的map在深度方向进行加权组合,生成新的feature map。DDConv和DPConv计算示意图如图5和图6所示。DDConv模块具体计算过程是:特征图输入ODConv卷积模块,在ODConv模块中,将Kernel size设置为3×3大小;Stride设置为1;Padding设置为1;Groups设置为输入通道数。DPConv模块具体计算过程是:特征图输入ODConv卷积模块,在ODConv模块中,将Kernel size设置为1×1大小;Stride设置为1;Padding设置为0;Groups设置为0。
另外参见图1,注意力模块灵感来自于人类视觉***中的注意力模式,这种模式不会对所有的内容给予相同的关注力度,而是会更多地关注重要的部分。在火灾场景中有许多干扰信息,这种干扰信息会极大程度上影响模型性能,进而影响检测精度。在模型提取火焰和烟雾的特征过程中,为了有效的抑制干扰信息并提取有效特征,我们将SimAM注意力模块引入YOLOv8网络模型的主干网络中,在主干网络末尾的SPPF模块后面引入SimAM模块,每个神经元的能量函数如公式(1)所示:
其中,每个通道有M=H×M是通道上神经元数量;t和xi是目标神经元和输入特征X的单通道中的其它神经元;i是空间维度上的索引;wt和bt是变换权值和偏差;ut和是该通道中除t之外的所有神经元的均值和方差。
最小能量公式如公式(2)所示:
其中,从公式(2)可以看出:能量越低,神经元t与周围神经元的差异性越大,重要性越高,相应分配的权重应该更高。按照注意力机制的定义,需要对特征进行增强处理:
其中,E代表所有穿过的通道和空间维度;sigmoid是激活函数;X是特征图。
最后,将YOLOv8网络模型损失函数改进为WIoU,在YOLOv8模型中边界框损失函数为CIOU,该函数在DIoU的基础上增加了检测框尺度的loss,长和宽的loss,这样predictbox可以更加符合ground-truth。但该函数纵横比描述的相对模糊,而且未考虑难易样本的平衡问题。由于火灾场景较为复杂,导致在训练数据时及其容易产生低质量样本,距离和纵横比等几何因素将会加重低质量样本的惩罚,最终削弱模型的泛化性。WIoU可以充分利用非单调动态聚焦机制(FM)来解决高质量和低质量的样本之间的边界框回归(BBR)平衡问题。WIoU公式如公式(4)所示。
其中,Wg,Hg表示最小包围框的宽和高。为了防止RWIoU产生阻碍收敛的梯度,Wg和Hg从计算图中分离出来(上标*表示此操作)。当时,这将有效放大普通质量anchorbox的/>当/>时,这将显著降低高质量anchorbox的RWIoU,并在anchorbox与目标框重合时,重点关注中心点之间的距离。
针对上述火灾检测方法,申请人做了如下实验:
1)实验环境:本发明基于Pytorch框架编写算法,实验在表1的环境下进行。
表1实验环境
2)火灾数据集
由于在公开的数据集中缺少场景丰富的火灾数据集,本发明在已有火灾数据集的基础上进行扩充。通过网络爬虫从网络爬取各种场景下的火灾图片,将原始数据集中4998张火灾图片扩张到19558张。通过labelimg标签标注软件对扩充后的火灾数据集中的火焰和烟雾目标进行标注,并生成存储目标anchor信息的xml文件。最后对构建完成的火灾数据集按8:2的比例划分为训练集和验证集。
3)评价指标
本发明把IoU(intersection over union)设置为0.5,即predict box与ground-truth的IoU大于0.5时表示成功预测。使用mAP,Precision(P),Recall(R),parameters,GFLOPs和FPS(frame per second)作为模型评价标准。mAP为数据集中所有类别的平均精度的平均值,在目标检测任务中,mAP通常用作评价模型性能的综合指标。Precision是正确检测的正样本数除以所有检测到的正样本数(包括正确和错误检测的正样本)。这个指标关注的是检测到的所有正样本中有多少是真实的正样本。Recall是正确检测的正样本数除以所有真实的正样本数。这个指标关注的是正确检测到所有真实的正样本数量。Parameters和GFLOPs与模型的复杂性、计算要求和存储需求有直接关系,在有计算资源限制的场景中,可能需要在模型的准确性和计算效率之间进行权衡。FPS是衡量模型推理速度的指标,它表示模型每秒可以处理的帧数和图像数,在YOLOv8中FPS计算公式如公式(5)所示。
在公式(5)中,preprocess是预处理时间,inference是推理时间,postprocess是后处理时间。
4)实验结果和分析
4.1)模型超参数设置,模型超参数设置如表2所示:
表2超参数设置
4.2)加入注意力机制实验结果分析
为证明引入SimAM注意力机制对于火灾检测的有效性,本发明基于自建火灾数据集对改进模型进行验证,分别引入BiLevelRoutingAttention(Zhu L,Wang X,Ke Z,etal.BiFormer:Vision Transformer with Bi-Level RoutingAttention[C]//Proceedingsofthe IEEE/CVF Conference on Computer Vision and Pattern Recognition.2023:10323-10333)和TripletAttention(Misra D,Nalamada T,Arasanipalai A U,etal.Rotate to attend:Convolutional triplet attention module[C]//Proceedings ofthe IEEE/CVF winter conference on applications of computer vision.2021:3139-3148)进行验证对比,实验对比数据如表3所示,其中P代表Precision,R代表Recall。
表3注意力机制对比实验数据
从表3中可以看出,YOLOv8网络模型中引入SimAM后,mAP达到了82.4%,P达到了82.3%。将BiLevelRoutingAttention引入模型后,mAP下降了0.3%。将TripletAttention引入模型后,mAP上升了0.3%。综合比较,引入SimAM对于模型的精度提最大。我们认为SimAM注意力机制可以更好的释放注意力权重的灵活性,让模型能够从当前神经元中推断出三维权值(即同时考虑空间和通道维度),重点学习到更多包含火灾信息的神经单元。
模型的参数量和浮点计算量是影响资金成本的重要影响因素。如果火灾检测模型的参数量和浮点计算量过于巨大,这将会对硬件设备带来更多的存储和计算负担,增加部署成本。
引入SimAM,BiLevelRoutingAttention和TripletAttention后,参数量和浮点计算量的对比实验如表4所示。
表4注意力机制对于模型参数量和浮点计算量的对比实验数据表
在表4中,BiLevelRoutingAttention引入模型后,参数量增加了265728。TripletAttention引入模型后,参数量增加了5400,浮点计算量增加了0.1GFLOPs。但是SimAM引入模型后,参数量和浮点计算量都没有增加,这证明引入SimAM后,不会对硬件设备增加更多的存储和计算负担,进而降低实际成本。
4.3)引入WIoU函数实验结果分析
为证明引入WIoU损失函数有助于促进模型收敛和提高检测精度,本发明基于自建火灾数据集对改进损失函数进行验证,分别引入EIOU(Yang Z,Wang X,Li J.EIoU:animproved vehicledetection algorithm based on vehiclenet neural network[C]//Journal ofPhysics:Conference Series.IOPPublishing,2021,1924(1):012001),EIoU-scale,SIoU(Gevorgyan Z.SIoU loss:More powerful learning for bounding boxregression[J].arXiv preprint arXiv:2205.12740,2022),SIoU-focal,SIoU-scale,WIoU进行验证对比,实验对比数据如表5所示。
表5损失函数对比实验数据表
在表5中引入WIoU后,模型的mAp到达了82.5%,P到达83%。通过与另外引进的EIoU,EIoU-scale,SIoU,SIoU-focal和SIOU-scale进行比较,WIoU对于模型的mAP提升效果最大。环境复杂是大多数火灾场景的特点之一。在种条件下,火灾检测模型的检测效果受到干扰,很容易产生低质量的示例,这会在很大程度上降低模型性能。但WIoU函数可以通过动态非单调聚焦机制代替IoU对anchor进行质量评估,并提供有效的梯度增益分配政策。这种分配政策在降低高质量anchor的竞争力的同时,也降低了低质量示例产生的无效梯度。
收敛的模型在训练和验证数据上能够表现出优秀的性能。在图7中,我们可以看出WIoU函数能够比CIoU函数更快的促进模型收敛,这也可以证明模型引入WIoU函数的有效性。
4.4)特征提取模型改进实验结果分析
为体现我们设计的PConvs和DYDPConv模块能够保证检测精度的同时,降低模型的参数量和浮点计算量。在自建火灾数据集的基础上,分别引入YOLOv3(Redmon J,FarhadiA.Yolov3:An incremental improvement[J].arXiv preprint arXiv:1804.02767,2018),YOLOv5s,YOLOv6(Li C,Li L,Jiang H,et al.YOLOv6:A single-stage object detectionframework for industrial applications[J].arXiv preprint arXiv:2209.02976,2022),YOLOv7-tiny(Wang C Y,Bochkovskiy A,Liao H Y M.YOLOv7:Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognition.2023:7464-7475)与我们设计的PConvs,DYDPConv和PD-YOLO-(PConvs+DYDPConv+SimAM+WIoU)进行比较。实验对比数据如表6所示。
表6特征提取模块实验数据对比表
在表6中,我们可以看出我们设计的DYDPConv,PConvs和PD-YOLO的mAP与YOLOv8模型相比分别提高了0.5%,0.1%和0.6%。这可以证明我们提出的三种模块(DYDPConv,PConvs和PD-YOLO)可以有效的提升检测火焰和烟雾的检测精度。为体现改进算法检测火灾的有效性,我们引入YOLOv3,YOLOv5s,YOLOv6和YOLOv7-tiny与改进算法进行比较。由表6所示,我们改进算法的mAP都高于现在主流的单阶段目标检测模型。
由于受到现实场景中成本问题的限制,我们需要在保证模型检测精度的同时降低模型的参数量和浮点计算量。在表6中,我们将DYDPConv引入YOLOv8后,模型参数量和浮点计算量分别下降了62838和0.9GFLOPs;将PConvs引入YOLOv8后,模型参数量和浮点计算量分别下降了347648和0.5GFLOPs;将所有改进点综合起来的改进模型—PD-YOLO的模型参数量和浮点计算量分别下降了382486和1.4GFLOPs。在深度可分离卷积包括逐通道卷积和逐点卷积,这两种卷积计算的参数量和浮点计算量均低于普通2D卷积,但同时也会导致模型性能下降。我们提出DYDPConv模块在深度可分离卷积的基础上,增加对于卷积核的四个空间注意力提取,这样可以在降低模型参数量和浮点计算量的前提下,提高模型的检测精度。PConvs模块可以同时减少冗余计算和硬件内存访问,更加有效的提取空间特征。
为了展现改进模型对于火灾检测的性能,我们选取三张火灾图片对PD-YOLO和YOLOv8进行测试。在图8中,左侧为YOLOv8检测火灾的效果,右侧为本发明PD-YOLO检测火灾的效果。
在图8中,我们可以看到PD-YOLO的改进效果明显优于YOLOv8模型。在火灾场景中,由于烟雾浓度分布不均匀,导致烟雾在浓度稀薄区域难以被检测。但在图8第三行图片中,我们改进模型可以更好的检测到烟雾稀薄区域。
上述实施方式只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所做的等效变换或修饰,都应涵盖在本发明的保护范围之内。
Claims (9)
1.一种基于PD-YOLO的火灾检测方法,其特征在于,包括如下步骤:
步骤1:获取火灾数据集,并将其经过预处理后划分为训练集和测试集;
步骤2:构建YOLOv8网络模型,设计PConvs模块和DYDPConv模块,在YOLOv8网络模型基础上替换其中部分的C2f模块为PConvs模块和DYDPConv模块,得到改进的YOLOv8网络模型;
步骤3:利用训练集训练改进的YOLOv8网络模型,并利用训练后的改进的YOLOv8网络模型进行火灾数据检测。
2.根据权利要求1所述的基于PD-YOLO的火灾检测方法,其特征在于,所述步骤2中PConvs模块在PConv模块基础上添加BN、SiLU激活函数和SimAM注意力机制组成PConvs模块。
3.根据权利要求1所述的基于PD-YOLO的火灾检测方法,其特征在于,所述步骤2中DYDPConv模块基于ODConv模块设计,包括DDConv模块和DPConv模块,所述DDConv模块的卷积核数量与输入通道数量是对应的,单一卷积核只对单一通道进行全维动态卷积计算,最后输出通道数与输入通道数相同;经过DDConv模块动态卷积计算之后进行DPConv动态卷积计算;DPConv模块的卷积核的尺寸为1×1×m,m为上一层的通道数,全维动态卷积运算将DDConv模块的map在深度方向进行加权组合,生成新的feature map。
4.根据权利要求3所述的基于PD-YOLO的火灾检测方法,其特征在于,所述DDConv模块具体计算过程是:特征图输入ODConv卷积模块,在ODConv模块中,将Kernel size设置为3×3大小;Stride设置为1;Padding设置为1;Groups设置为输入通道数。
5.根据权利要求3所述的PD-YOLO的火灾检测方法,其特征在于,所述DPConv模块具体计算过程是:特征图输入ODConv卷积模块,在ODConv模块中,将Kernel size设置为1×1大小;Stride设置为1;Padding设置为0;Groups设置为0。
6.根据权利要求2所述的基于PD-YOLO的火灾检测方法,其特征在于,引入的SimAM可以模仿人类视觉***为每个神经元分配一个权重,从而更好的提取火灾信息;每个神经元的能量函数为:
其中,每个通道有M=H×M是通道上神经元数量;t和xi是目标神经元和输入特征X的单通道中的其它神经元;i是空间维度上的索引;wt和bt是变换权值和偏差;ut和是该通道中除t之外的所有神经元的均值和方差;
最小能量公式为:
其中,从公式(2)看出:能量越低,神经元t与周围神经元的差异性越大,重要性越高,相应分配的权重更高;按照注意力机制的定义,对特征进行增强处理:
其中,E代表所有穿过的通道和空间维度;sigmoid是激活函数;X是特征图。
7.根据权利要求1所述的基于PD-YOLO的火灾检测方法,其特征在于,所述改进的YOLOv8网络模型还将损失函数改进为WIoU,WIoU公式为:
其中,Wg,Hg表示最小包围框的宽和高;当时,这将有效放大普通质量anchorbox的/>当/>时,这将显著降低高质量anchor box的RWIoU,并在anchorbox与目标框重合时,重点关注中心点之间的距离。
8.根据权利要求1所述的基于PD-YOLO的火灾检测方法,其特征在于,所述改进的YOLOv8网络模型还在主干网络末尾的SPPF模块后面引入SimAM模块。
9.根据权利要求1至8任一所述的基于PD-YOLO的火灾检测方法,其特征在于,所述改进的YOLOv8网络模型将主干网络中C2f模块替换为PConvs模块,同时在颈部网络部分,将C2f模块替换为DYDPConv模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311230499.0A CN117333753A (zh) | 2023-09-22 | 2023-09-22 | 基于pd-yolo的火灾检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311230499.0A CN117333753A (zh) | 2023-09-22 | 2023-09-22 | 基于pd-yolo的火灾检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117333753A true CN117333753A (zh) | 2024-01-02 |
Family
ID=89276473
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311230499.0A Pending CN117333753A (zh) | 2023-09-22 | 2023-09-22 | 基于pd-yolo的火灾检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117333753A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118015477A (zh) * | 2024-04-10 | 2024-05-10 | 南京智慧水运科技有限公司 | 一种航海雷达图像识别方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116229192A (zh) * | 2022-12-12 | 2023-06-06 | 淮阴工学院 | 一种基于ODConvBS-YOLOv5s的火焰烟雾检测方法 |
CN116721059A (zh) * | 2023-05-09 | 2023-09-08 | 安徽农业大学 | 一种用于垄间果蔬计数的视觉检测计数方法 |
-
2023
- 2023-09-22 CN CN202311230499.0A patent/CN117333753A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116229192A (zh) * | 2022-12-12 | 2023-06-06 | 淮阴工学院 | 一种基于ODConvBS-YOLOv5s的火焰烟雾检测方法 |
CN116721059A (zh) * | 2023-05-09 | 2023-09-08 | 安徽农业大学 | 一种用于垄间果蔬计数的视觉检测计数方法 |
Non-Patent Citations (3)
Title |
---|
GANG WANG: "UAV-YOLOv8: A Small-Object-Detection Model Based on Improved YOLOv8 for UAV Aerial Photography Scenarios", 《SENSORS》, vol. 2023, no. 23, 15 August 2023 (2023-08-15), pages 7190 - 1 * |
LINGXIAO YANG: "SimAM: A Simple, Parameter-Free Attention Module for Convolutional Neural Networks", 《PROCEEDINGS OF THE 38TH INTERNATIONAL CONFERENCE ON MACHINE LEARNING》, vol. 2021, no. 139, 31 December 2021 (2021-12-31), pages 1 - 12 * |
YITING LI: "A Modified YOLOv8 Detection Network for UAV Aerial Image Recognition", 《DRONES》, vol. 2023, no. 7, 27 April 2023 (2023-04-27), pages 304 - 1 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118015477A (zh) * | 2024-04-10 | 2024-05-10 | 南京智慧水运科技有限公司 | 一种航海雷达图像识别方法、装置、电子设备及存储介质 |
CN118015477B (zh) * | 2024-04-10 | 2024-06-04 | 南京智慧水运科技有限公司 | 一种航海雷达图像识别方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109800689B (zh) | 一种基于时空特征融合学习的目标跟踪方法 | |
CN111598805A (zh) | 一种基于vae-gan的对抗样本防御方法及*** | |
CN111444881A (zh) | 伪造人脸视频检测方法和装置 | |
CN107833239B (zh) | 一种基于加权模型约束的寻优匹配目标跟踪方法 | |
CN112434608B (zh) | 一种基于双流结合网络的人体行为识别方法及*** | |
CN106650617A (zh) | 一种基于概率潜在语义分析的行人异常识别方法 | |
CN114783024A (zh) | 基于YOLOv5的公共场所戴口罩的人脸识别*** | |
CN117333753A (zh) | 基于pd-yolo的火灾检测方法 | |
Suratkar et al. | Employing transfer-learning based CNN architectures to enhance the generalizability of deepfake detection | |
Ehsan et al. | Vi-Net: a deep violent flow network for violence detection in video sequences | |
CN113239866B (zh) | 一种时空特征融合与样本注意增强的人脸识别方法及*** | |
Zhang et al. | An efficient deep neural network with color-weighted loss for fire detection | |
CN112487926A (zh) | 一种基于时空图卷积网络的景区投喂行为识别方法 | |
CN117079095A (zh) | 基于深度学习的高空抛物检测方法、***、介质和设备 | |
Huang et al. | Temporally-aggregating multiple-discontinuous-image saliency prediction with transformer-based attention | |
CN114582002B (zh) | 一种结合注意力模块与二阶池化机制的人脸表情识别方法 | |
CN116129417A (zh) | 一种基于低质量图像的数字仪表读数检测方法 | |
Huang | Object extraction of tennis video based on deep learning | |
Itagi et al. | Future Frame Prediction Using Deep Learning | |
Wang et al. | Criss-Cross Attentional Siamese Networks for Object Tracking. | |
CN114495151A (zh) | 一种群组行为识别方法 | |
Wang et al. | A fall detection system based on convolutional neural networks | |
CN116152699B (zh) | 用于水电厂视频监控***的实时运动目标检测方法 | |
Wu et al. | Siamese Network Object Tracking Algorithm Combined with Attention Mechanism | |
Hara et al. | Recognizing people in blind spots based on surrounding behavior |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |