CN114998801A - 基于对比自监督学习网络的森林火灾烟雾视频检测方法 - Google Patents

基于对比自监督学习网络的森林火灾烟雾视频检测方法 Download PDF

Info

Publication number
CN114998801A
CN114998801A CN202210645586.1A CN202210645586A CN114998801A CN 114998801 A CN114998801 A CN 114998801A CN 202210645586 A CN202210645586 A CN 202210645586A CN 114998801 A CN114998801 A CN 114998801A
Authority
CN
China
Prior art keywords
video
forest fire
network
smoke
fire smoke
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210645586.1A
Other languages
English (en)
Inventor
张军国
李婷婷
胡春鹤
田野
张长春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Forestry University
Original Assignee
Beijing Forestry University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Forestry University filed Critical Beijing Forestry University
Priority to CN202210645586.1A priority Critical patent/CN114998801A/zh
Publication of CN114998801A publication Critical patent/CN114998801A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/254Analysis of motion involving subtraction of images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20224Image subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30204Marker
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A40/00Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
    • Y02A40/10Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in agriculture
    • Y02A40/28Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in agriculture specially adapted for farming

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了基于对比自监督学习网络的森林火灾烟雾视频检测方法,步骤包括:获取森林火灾烟雾视频,根据所述森林火灾烟雾视频建立烟雾视频数据集;采用预先构建的对比自监督学习网络对所述烟雾视频数据集进行特征学习,得到连续视频帧的注意力特征图;根据所述连续视频帧的注意力特征图进行运动物体检测,并获取检测结果。本发明基于对比自监督学习方法并搭建以交叉双通道网络为骨干网络的无监督自蒸馏网络,提取复杂环境背景烟雾视频特征并学习语义信息,得到连续视频帧的注意力特征图并确定关注区域运动目标,实现森林火灾烟雾视频的高精度识别和定位,提高烟雾检测效率和性能,适用于检测背景环境复杂、距离远的早期森林火灾小目标烟雾视频。

Description

基于对比自监督学习网络的森林火灾烟雾视频检测方法
技术领域
本发明涉及森林火灾烟雾检测技术领域,具体涉及基于对比自监督学习网络的森林火灾烟雾视频检测方法。
背景技术
森林火灾是一种突发性强、破坏性大、处置救助较为困难的自然灾害,森林火灾烟雾的及时检测对救助和减少火灾带来的损失起着重要作用。
在现有技术中,卷积神经网络在森林火灾烟雾视频检测任务中有着广泛应用,虽然卷积神经网络能够获取具有辨别性的局部烟雾特征表示,但是却无法获取烟雾图像的全局信息。由于自注意力机制和多层感知机结构的存在,视觉Transformer能够表征复杂的空间变换和长距离特征依赖等全局信息,但也正是因为这两种结构,视觉Transformer通常忽略了图像的局部特征,导致图像背景和前景之间的差异不明显。
针对早期森林火灾小目标烟雾数据量有限的问题,有学者提出了少样本学习方法,但是许多方法没有考虑云、雾、霾等与烟雾颜色、轮廓、纹理等特征相似物体的干扰,导致方法误报率略高于有监督学习。实际上,云、雾、霾等物体的静态特征同森林火灾烟雾的特征相似度较高,人眼也很难直接从少量标记图像中准确的辨别烟雾,尤其是小目标烟雾,但是人眼却能很容易的从视频数据精确识别并定位小目标烟雾,准确的区分烟雾、云、雾、霾等相似物体。因此,引入烟雾的动态特征对于早期森林火灾烟雾少样本检测具有重要意义。
现有的森林火灾烟雾视频检测方法大都基于大量带有标签的烟雾数据,不适用于早期森林火灾小目标烟雾数据量有限的检测任务。此外,现有方法在处理烟雾视频数据时,几乎没有考虑视频多个连续帧之间的信息冗余,致使计算复杂度过高,从而影响烟雾的检测效率及性能。
发明内容
针对现有技术中的缺陷,本发明提供基于对比自监督学习网络的森林火灾烟雾视频检测方法,步骤包括:
获取森林火灾烟雾视频,根据所述森林火灾烟雾视频建立烟雾视频数据集;
采用预先构建的对比自监督学习网络对所述烟雾视频数据集进行特征学习,得到连续视频帧的注意力特征图;
根据所述连续视频帧的注意力特征图进行运动物体检测,并获取检测结果。
进一步地,在获取森林火灾烟雾视频之前,还包括预先构建对比自监督学习网络,所述对比自监督学习网络包括数据输入模块、无监督自蒸馏网络、特征提取骨干网络、运动区域提取模块以及输出模块;
所述特征提取骨干网络搭建于所述无监督自蒸馏学习网络中。
进一步地,所述特征提取骨干网络为基于卷积神经网络和视觉Transformer的交叉双通道网络。
进一步地,所述采用预先构建的对比自监督学习网络对所述烟雾视频数据集进行特征学习,得到连续视频帧的注意力特征图,具体为:
将所述烟雾视频数据集输入所述数据输入模块进行数据增强,生成视频正负样本图像,所述视频正负样本图像包括视频正负样本的全局视图和局部视图;
采用所述特征提取骨干网络提取所述视频正负样本图像特征;
采用所述无监督自蒸馏网络对所述视频正负样本图像特征进行学生网络和教师网络对比学习,在所述视频正负样本图像上生成语义信息及伪标签,以形成连续视频帧的注意力特征图。
进一步地,还包括:采用随机梯度下降方法对所述学生网络进行参数优化,采用中矩中心点操作对所述教师网络进行参数优化修正。
进一步地,所述根据所述连续视频帧的注意力特征图进行运动物体检测,并获取检测结果,具体为:
将所述连续视频帧的注意力特征图输入运动区域提取模块;
采用所述运动区域提取模块获取所述连续视频帧的注意力特征图中连续三帧视频数据,并分别计算其中连续两帧的帧差结果;
所述运动区域提取模块将所述连续两帧的帧差结果进行“与”操作,并根据所述“与”操作结果对所述连续视频帧的注意力特征图进行运动区域的标注和分割,以生成森林火灾烟雾视频的森林火灾烟雾检测结果和森林火灾烟雾定位结果;
采用输出模块输出所述森林火灾烟雾检测结果和森林火灾烟雾定位结果。
进一步地,在获取检测结果之后,还包括结果评估步骤,具体为:
采用平均准确率、平均真阳性率以及平均真阴性率评估所述森林火灾烟雾视频的森林火灾烟雾检测结果;
采用交并比评估所述单帧森林火灾烟雾视频的森林火灾烟雾定位结果,采用平均交并比评估所述连续帧森林火灾烟雾视频的森林火灾烟雾定位结果。
进一步地,还包括对所述对比自监督学习网络进行训练优化,具体包括:
将所述特征提取骨干网络在大型有标签ImageNet-1k数据集上采用AdamW优化器进行训练;
将所述无监督自蒸馏网络在无标签的ImageNet-1k数据集上采用AdamW优化器进行训练。
本发明的有益效果体现在:基于对比自监督学习方法并搭建无监督自蒸馏网络,实现对森林火灾烟雾视频的检测,无监督自蒸馏网络以交叉双通道网络为骨干网络,以提取复杂环境背景下烟雾视频的局部特征和全局特征,并学习连续视频帧的语义信息和伪标签,得到连续视频帧的注意力特征图,同时确定连续视频帧的注意力特征图中关注区域的运动目标,实现森林火灾烟雾视频的高精度识别和定位,提高了烟雾检测效率和性能,适用于检测背景环境复杂、距离远的早期森林火灾小目标烟雾视频。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1为本发明实施例提供的基于对比自监督学习网络的森林火灾烟雾视频检测方法的流程图;
图2为本发明实施例提供的基于对比自监督学习网络的森林火灾烟雾视频检测方法在公开森林火灾烟雾视频数据集上的检测结果;
图3为本发明实施例提供的基于对比自监督学习网络的森林火灾烟雾视频检测方法在建立的森林火灾烟雾视频数据集上的检测结果。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只作为示例,而不能以此来限制本发明的保护范围。
需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
如图1所示,基于对比自监督学习网络的森林火灾烟雾视频检测方法,步骤包括:
S1:获取森林火灾烟雾视频,根据所述森林火灾烟雾视频建立烟雾视频数据集;
具体地,获取森林火灾烟雾视频,森林火灾烟雾视频均来源于瞭望塔可见光摄像头,拍摄距离较远且拍摄时间为火灾发生初期,所以拍摄到的烟雾目标较小,具有光照不均匀、背景信息复杂、干扰物多等特点。为引入森林火灾烟雾视频的动态特征,根据森林火灾烟雾视频在静态森林火灾烟雾少样本图像数据集基础上构建烟雾视频数据集,从而通过增加时序信息提高烟雾检测模型的性能。进一步地,烟雾视频数据集包括87个可见光森林火灾小目标烟雾视频和53个非烟雾视频,由于森林火灾烟雾视频序列包含上下文信息,连续帧中烟雾大小会随着时间不断变化,因此本实施例定义的小目标烟雾为视频序列中最小可以检测到大小为20×20像素的烟雾。
S2:采用预先构建的对比自监督学习网络对所述烟雾视频数据集进行特征学习,得到连续视频帧的注意力特征图;
具体地,在获取森林火灾烟雾视频之前,包括预先构建对比自监督学习网络,对比自监督学习网络的网络模型包括数据输入模块、无监督自蒸馏网络、特征提取骨干网络、运动区域提取模块以及输出模块。其中,数据输入模块用于输入视频数据,并对视频数据进行数据增强,得到视频的正负样本全局视图和局部视图;特征提取骨干网络搭建于所述无监督自蒸馏学习网络中,用于提取正负样本全局视图和局部视图的特征;无监督自蒸馏网络用于将正负样本全局视图和局部视图的特征进行学生网络和教师网络对比学习,以获取连续视频帧的注意力特征图;运动区域提取模块用于根据连续视频帧的注意力特征图进行运动物体检测;输出模块:用于输出运动物体检测结果。
进一步地,特征提取骨干网络是基于卷积神经网络和视觉Transformer的交叉双通道网络,具体由初始网络、卷积神经网络、视觉Transformer、特征连接单元以及分类器构成,初始网络包含一个步长为2的7×7卷积,后面连接一个步长为2的3×3的最大池化,以提取轮廓及纹理等初始的局部特征。特征连接单元用于融合卷积神经网络和视觉Transformer的中间特征,由于卷积神经网络和视觉Transformer这两个分支网络采用相同的初始化网络,因此特征连接单元从交叉双通道网络第一个阶段开始应用,经过四个阶段的特征融合,分别将卷积神经和视觉Transformer的特征集合起来并送入不同的分类器。
在预先构建好对比自监督学习网络后,开始进行森林火灾烟雾视频检测,运用构建好的对比自监督学习网络对构建的烟雾视频数据集进行特征学习。将烟雾视频数据集输入数据输入模块并进行数据增强,生成视频正负样本图像,视频正负样本图像包括视频正负样本的全局视图和局部视图。特征提取骨干网络提取上述视频正负样本图像的特征,无监督自蒸馏网络以对比自监督学习为主要学习方式,对视频正负样本图像特征进行学生网络和教师网络对比学习,在视频正负样本图像上生成语义信息及伪标签,并引入知识蒸馏减少无监督自蒸馏网络参数,提高处理速度。
设定学生网络参数为θs,教师网络参数为θt,给定一个输入样本图像x,分别通过softmax函数对学生网络gθs和教师网络gθt的输出进行归一化,得到样本图像的学生网络概率密度Ps和教师网络概率密度Pt,概率密度的求解公式表示为:
Figure BDA0003685778070000061
式中K表示K维的权重归一化维度数,i表示第i个样本图像,τs为温度参数,且τs>0,用来控制输出分布的锐化度,Pt的计算方法同公式(1)一样,具有τt>0温度参数。当给定一个固定的教师网络时,可以通过最小化交叉熵损失来学习学生网络参数,最小化交叉熵损失的计算公式为:
Figure BDA0003685778070000062
式中,H(Pt(x),Ps(x))=-Pt(x)logPs(x)。
本实施例通过裁剪等策略生成样本x具有不变性的样本集V,这个样本集包含两个全局视图
Figure BDA0003685778070000063
和一些分辨率较低的局部视图,局部视图特征通过学生网络对比学习,全局视图特征通过教师网络对比学习。运用公式(2)可得出学生网络和教师网络的最小化损失值为:
Figure BDA0003685778070000064
式中,
Figure BDA0003685778070000071
表示全局视图样本图像,
Figure BDA0003685778070000072
表示x为全局视图中的样本图像,x′则表示样本集V中除x以外的其他样本图像。
本实施例教师网络和学生网络采用相同的网络构架g,但两者参数不同,学生网络采用随机梯度下降方法进行参数优化,即采用公式(3)对学生网络进行参数优化。与传统的知识蒸馏不同,无监督自蒸馏网络没有预先设定教师网络的参数θt,采用直接在学生网络参数上进行指数移动平均(Exponential Moving Average,EMA),即动量编码器。本实施例教师网络参数θt的更新方法表示为:
θt←λθt+(1-λ)θs (4)
其中λ表示系数,λ∈[0.996,1]。原始的动量编码器通常用作对比学***均。
进一步地,网络对比学习过程中,输入学生网络的局部视图和输入教师网络的全局视图均可能是正样本也可能是负样本,若学生网络和教师网络均输入正样本或均输入负样本,则学习两者之间的相似性,若学生网络输入正样本且教师网络输入负样本,则学习两者之间的差异性,同理,若学生网络输入负样本且教师网络输入正样本,则也学习两者之间的差异性。
进一步地,无监督自蒸馏网络在对正负样本全局视图的图像特征进行教师网络对比学习时,采用中矩中心点操作和锐化操作对教师网络学习参数进行优化修正,以避免模型产生崩塌解。中矩中心点可以防止某一维度占主导地位,而锐化则具有相反的效果,这两种操作相辅相成,避免采用动量编码器进行教师网络参数更新的情况下出现崩塌解。中矩中心点操作可以表示为:
t(x)←gθt(x)+c (5)
式中c表示中心点,中心点c采用指数移动平均数来更新,更新过程表示为:
Figure BDA0003685778070000073
式中m为速率参数,且m>0,B表示批次大小。锐化则是通过在教师网络softmax归一化中使用较低的温度τt来获得的。
以交叉双通道网络为骨干网络的无监督自蒸馏网络能够通过对比学习的方法,在正负样本图像上生成语义信息及伪标签,从而形成注意力特征图,虽然无监督自蒸馏网络不输出标签预测结果,但是能够通过注意力特征图显示所关注物体的区域,以实现后续视频检测的高准确率性能。
优选地,将特征提取骨干网络在大型有标签ImageNet-1k数据集上采用AdamW优化器进行训练,同时为保证视觉Transformer的稳定性,采用了Mixup、CutMix、Erasing、RandAugment以及Stochastic Depth等数据增强和正则化技术。使用AdamW优化器训练300个epoch,其中批次大小为1024,权重衰减为0.05,初始学习率为0.001,视觉Transformer中输入局部视图的大小为14×14。将无监督自蒸馏网络在无标签的ImageNet-1k数据集上采用AdamW优化器进行训练,其中批次大小为1024,训练过程分为预热训练和正式训练两部分,学习率在前10个epoch中上升到初始值,线性缩放规则为lr=0.0005*1024/256,预热后采用衰减权重[0.04,0.4]的余弦学习率衰减策略。学生网络的温度τs=0.1,而在前30个epoch中对学生网络温度进行线性预热τs∈[0.04,0.07]。同时,为保证无监督自蒸馏网络的稳定性,采用颜色抖动、高斯模糊以及过曝光等技术进行数据增强。
S3:根据所述连续视频帧的注意力特征图进行运动物体检测,并获取检测结果;
具体地,通过无监督自蒸馏网络对烟雾视频数据集进行特征学习,形成连续视频帧的注意力特征图,并获取每一帧的注意力特征图确定关注区域,运动提取模块仅对关注区域进行运动物体检测,以减少信息冗余,提高视频处理效率。将连续视频帧的注意力特征图输入运动提取模块,运动提取模块获取连续视频帧的注意力特征图中连续三帧视频数据Fi-1(x,y)、Fi(x,y)以及Fi+1(x,y),分别计算其中连续两帧的帧差结果Di-1,i(x,y)和Di,i+1(x,y),帧差结果表示为:
Figure BDA0003685778070000091
Figure BDA0003685778070000092
式中Tmin表示帧差的最小阈值,Tmax表示帧差的最大阈值。为了缓解传统帧差法中出现的运动物体重影问题,对上述连续两帧的帧差结果进行“与”操作,表示为:
Figure BDA0003685778070000093
若“与”操作输出结果1,则对连续视频帧的注意力特征图进行运动区域的标注和分割,若“与”操作输出结果0,则不对连续视频帧的注意力特征图进行运动区域的标注和分割,根据运动区域的标注和分割从而生成森林火灾烟雾视频的森林火灾烟雾检测结果和森林火灾烟雾定位结果。
进一步地,在获取检测结果之后,还包括结果评估步骤。采用平均准确率(MeanAverage Precision,mAP)、平均真阳性率(Average True-Positive Rate,ATPR)以及平均真阴性率(Average True-Negative Rate,ATNR)评估森林火灾烟雾视频的森林火灾烟雾检测结果,采用交并比(Intersection Over Union,IoU)评估单帧森林火灾烟雾视频的森林火灾烟雾定位结果,采用平均交并比(Mean Intersection Over Union,mIoU)评估连续帧森林火灾烟雾视频的森林火灾烟雾定位结果。
其中,平均准确率的计算公式为:
Figure BDA0003685778070000094
平均真阳性率的计算公式为:
Figure BDA0003685778070000095
平均真阴性率的计算公式为:
Figure BDA0003685778070000096
交并比的计算公式为:
Figure BDA0003685778070000097
平均交并比的计算公式为:
Figure BDA0003685778070000101
式中,TP(True Positive)表示烟雾视频序列中识别正确的视频帧数,FP(FalsePositive)表示烟雾视频序列中识别错误的视频帧数,TN(True Negative)表示非烟雾视频序列中识别正确的视频帧数,FN(False Negative)表示非烟雾视频序列中识别错误的视频帧数,M1表示视频序列数目,AO表示单帧图像预测烟雾定位区域与真实定位区域的交集,AU表示单帧烟雾预测定位区域与真实定位区域的并集,M2表示烟雾视频序列中帧的数目,M3表示类别数目,APi表示每个召回率(RR)对应的准确率的(AR)的平均值。
进一步地,将基于对比自监督学***性,对比从平均真阳性率、平均真阴性率以及平均交并比三个评价指标进行分析,对比结果如表1所示,表1中用CSLN表示本实施例所述的基于对比自监督学习网络的森林火灾烟雾视频检测方法。
Figure BDA0003685778070000102
表1不同烟雾视频检测方法在公开森林火灾烟雾数据集上对比结果
如表1所示,基于对比自监督学***均真阳性率ATPR,虽然本实施例检测方法的平均真阴性率ATNR(99.79%)和平均交并比mIoU(86.46%)略优于3D-PFCN方法的平均真阴性率ATNR(98.54%)和平均交并比mIoU(78.48%)以及3D-VSSNet方法的平均真阴性率ATNR(99.62%)和平均交并比mIoU(86.32%),但并未表现出明显优势,表明上述三种方法均适用于绿色森林背景的简单场景的森林火灾烟雾检测。在灰色森林及蓝天背景下,本实施例检测方法的平均真阳性率ATPR及平均交并比mIoU较3D-VSSNet方法相比分别提升了1.06%和1.99%,较3D-PFCN方法相比分别提升了3.19%和6.51%,表明基于对比自监督学***均真阳性率ATPR、平均真阴性率TANR、平均交并比mIoU较3D-VSSNet方法分别提升5.17%、2.95%、5.85%,较3D-PFCN方法分别提升12.22%、5.1%、9.91%,表明雾、霾等天气干扰因素对本实施例检测方法影响最小,可见,基于对比自监督学习网络的森林火灾烟雾视频检测方法比3D-VSSNet烟雾视频检测方法和3D-PFCN烟雾视频检测方法更适用于复杂场景下森林火灾烟雾视频目标的检测,验证了对比自监督学习网络在包含云、雾、霾等复杂背景情况下森林火灾烟雾检测的有效性。
为验证基于对比自监督学习网络的森林火灾烟雾视频检测方法在复杂环境下检测森林火灾烟雾的有效性,在公开的森林火灾烟雾视频数据集上进行检测,检测结果如图2所示,其中,DION注意力图为无监督自蒸馏网络输出的连续视频帧注意力特征图,DION关注区域图为DION注意力图关注区域对应原图的位置,运动区域提取图为直接对关注区域进行连续帧运动区域检测后的结果图。如图2(a)、2(d)是蓝天背景,检测时能消除树木晃动、无人机飞行、相机抖动等运动物体的干扰,实现远距离烟雾的准确定位;如图2(b)、2(e)是包含雾、霾等复杂天气背景,检测时能排除天气因素干扰,在低分辨率视频帧上准确检测远距离烟雾;如图2(c)所示,检测时能够在复杂背景下准确识别并定位小目标烟雾。综上结果,基于对比自监督学习网络的森林火灾烟雾视频检测方法在复杂背景情况下,进行远距离森林火灾小目标烟雾检测时具有较高的有效性及稳定性。
为进一步验证基于对比自监督学习网络的森林火灾烟雾视频检测方法在检测远距离森林火灾烟雾时的有效性,在步骤S1建立的森林火灾烟雾视频数据集上进行检测,检测结果如图3所示,视频序列包含蓝天、云、雾及光照过强等天气因素,其中图3(a)、3(c)、3(f)、3(h)表示蓝天背景,图3(b)表示光照过强背景,图3(d)、3(g)表示云朵背景,图3(i)表示雾气背景,图3(e)、3(j)则包含其他非烟运动物体。本实施例检测方法在上述五种天气因素干扰下,不仅能够准确检测烟雾,同时对于远距离烟雾视频目标的定位非常准确,且均表现出良好的检测性能。综上结果,表明基于对比自监督学习网络的森林火灾烟雾视频检测方法不仅适用于复杂背景下森林火灾小目标烟雾视频数据检测场景,同样适用于其他公开视频目标检测场景,验证了本实施例检测方法的稳定性及泛化能力。
本发明基于对比自监督学习方法并搭建无监督自蒸馏网络,实现对森林火灾烟雾视频的检测,无监督自蒸馏网络以交叉双通道网络为骨干网络,以提取复杂环境背景下烟雾视频的局部特征和全局特征,并学习连续视频帧的语义信息和伪标签,得到连续视频帧的注意力特征图,同时确定连续视频帧的注意力特征图中关注区域的运动目标,实现森林火灾烟雾视频的高精度识别和定位,提高了烟雾检测效率和性能,适用于检测背景环境复杂、距离远的早期森林火灾小目标烟雾视频。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (8)

1.基于对比自监督学习网络的森林火灾烟雾视频检测方法,其特征在于,步骤包括:
获取森林火灾烟雾视频,根据所述森林火灾烟雾视频建立烟雾视频数据集;
采用预先构建的对比自监督学习网络对所述烟雾视频数据集进行特征学习,得到连续视频帧的注意力特征图;
根据所述连续视频帧的注意力特征图进行运动物体检测,并获取检测结果。
2.根据权利要求1所述的基于对比自监督学习网络的森林火灾烟雾视频检测方法,其特征在于,在获取森林火灾烟雾视频之前,还包括预先构建对比自监督学习网络,所述对比自监督学习网络包括数据输入模块、无监督自蒸馏网络、特征提取骨干网络、运动区域提取模块以及输出模块;
所述特征提取骨干网络搭建于所述无监督自蒸馏学习网络中。
3.根据权利要求2所述的基于对比自监督学习网络的森林火灾烟雾视频检测方法,其特征在于,所述特征提取骨干网络为基于卷积神经网络和视觉Transformer的交叉双通道网络。
4.根据权利要求2所述的基于对比自监督学习网络的森林火灾烟雾视频检测方法,其特征在于,所述采用预先构建的对比自监督学习网络对所述烟雾视频数据集进行特征学习,得到连续视频帧的注意力特征图,具体为:
将所述烟雾视频数据集输入所述数据输入模块进行数据增强,生成视频正负样本图像,所述视频正负样本图像包括视频正负样本的全局视图和局部视图;
采用所述特征提取骨干网络提取所述视频正负样本图像特征;
采用所述无监督自蒸馏网络对所述视频正负样本图像特征进行学生网络和教师网络对比学习,在所述视频正负样本图像上生成语义信息及伪标签,以形成连续视频帧的注意力特征图。
5.根据权利要求4所述的基于对比自监督学习网络的森林火灾烟雾视频检测方法,其特征在于,还包括:采用随机梯度下降方法对所述学生网络进行参数优化,采用中矩中心点操作对所述教师网络进行参数优化修正。
6.根据权利要求4所述的基于对比自监督学习网络的森林火灾烟雾视频检测方法,其特征在于,所述根据所述连续视频帧的注意力特征图进行运动物体检测,并获取检测结果,具体为:
将所述连续视频帧的注意力特征图输入运动区域提取模块;
采用所述运动区域提取模块获取所述连续视频帧的注意力特征图中连续三帧视频数据,并分别计算其中连续两帧的帧差结果;
所述运动区域提取模块将所述连续两帧的帧差结果进行“与”操作,并根据所述“与”操作结果对所述连续视频帧的注意力特征图进行运动区域的标注和分割,以生成森林火灾烟雾视频的森林火灾烟雾检测结果和森林火灾烟雾定位结果;
采用输出模块输出所述森林火灾烟雾检测结果和森林火灾烟雾定位结果。
7.根据权利要求6所述的基于对比自监督学习网络的森林火灾烟雾视频检测方法,其特征在于,在获取检测结果之后,还包括结果评估步骤,具体为:
采用平均准确率、平均真阳性率以及平均真阴性率评估所述森林火灾烟雾视频的森林火灾烟雾检测结果;
采用交并比评估所述单帧森林火灾烟雾视频的森林火灾烟雾定位结果,采用平均交并比评估所述连续帧森林火灾烟雾视频的森林火灾烟雾定位结果。
8.根据权利要求2所述的基于对比自监督学习网络的森林火灾烟雾视频检测方法,其特征在于,还包括对所述对比自监督学习网络进行训练优化,具体包括:
将所述特征提取骨干网络在大型有标签ImageNet-1k数据集上采用AdamW优化器进行训练;
将所述无监督自蒸馏网络在无标签的ImageNet-1k数据集上采用AdamW优化器进行训练。
CN202210645586.1A 2022-06-09 2022-06-09 基于对比自监督学习网络的森林火灾烟雾视频检测方法 Pending CN114998801A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210645586.1A CN114998801A (zh) 2022-06-09 2022-06-09 基于对比自监督学习网络的森林火灾烟雾视频检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210645586.1A CN114998801A (zh) 2022-06-09 2022-06-09 基于对比自监督学习网络的森林火灾烟雾视频检测方法

Publications (1)

Publication Number Publication Date
CN114998801A true CN114998801A (zh) 2022-09-02

Family

ID=83033504

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210645586.1A Pending CN114998801A (zh) 2022-06-09 2022-06-09 基于对比自监督学习网络的森林火灾烟雾视频检测方法

Country Status (1)

Country Link
CN (1) CN114998801A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117409529A (zh) * 2023-10-13 2024-01-16 国网江苏省电力有限公司南通供电分公司 一种多场景电气火灾在线监测方法及***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117409529A (zh) * 2023-10-13 2024-01-16 国网江苏省电力有限公司南通供电分公司 一种多场景电气火灾在线监测方法及***
CN117409529B (zh) * 2023-10-13 2024-05-24 国网江苏省电力有限公司南通供电分公司 一种多场景电气火灾在线监测方法及***

Similar Documents

Publication Publication Date Title
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN111209810B (zh) 向可见光与红外图像准确实时行人检测的边界框分割监督深度神经网络架构
CN111310862A (zh) 复杂环境下基于图像增强的深度神经网络车牌定位方法
CN103700114B (zh) 一种基于可变高斯混合数的复杂背景建模方法
CN110363770B (zh) 一种边缘引导式红外语义分割模型的训练方法及装置
CN109919073B (zh) 一种具有光照鲁棒性的行人再识别方法
CN111008608B (zh) 一种基于深度学习的夜间车辆检测方法
CN111582074A (zh) 一种基于场景深度信息感知的监控视频树叶遮挡检测方法
CN111242026A (zh) 一种基于空间层次感知模块和度量学习的遥感图像目标检测方法
CN113537226A (zh) 一种基于深度学习的烟雾检测方法
CN111274964B (zh) 一种基于无人机视觉显著性分析水面污染物的检测方法
CN115861756A (zh) 基于级联组合网络的大地背景小目标识别方法
CN114821374A (zh) 一种知识与数据协同驱动的无人机航拍目标检测方法
CN114998801A (zh) 基于对比自监督学习网络的森林火灾烟雾视频检测方法
CN116453033A (zh) 一种视频监控场景下高精度低算量的人群密度估计方法
CN111815529B (zh) 一种基于模型融合和数据增强的低质图像分类增强方法
CN110334703B (zh) 一种昼夜图像中的船舶检测和识别方法
CN110084160B (zh) 一种基于运动和亮度显著性特征的视频森林烟火检测方法
CN116740572A (zh) 一种基于改进yolox的海上船舰目标检测方法和***
CN116958780A (zh) 一种跨尺度的目标检测方法及***
CN116363610A (zh) 一种基于改进YOLOv5的航拍车辆旋转目标检测方法
CN114387484B (zh) 一种基于yolov4改进的口罩佩戴检测方法及***
CN110796008A (zh) 一种基于视频图像的早期火灾检测方法
CN115861595A (zh) 一种基于深度学习的多尺度域自适应异源图像匹配方法
CN115690770A (zh) 基于空间注意力特征的非受限场景下的车牌识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination