CN112308153B - 一种烟火检测方法和装置 - Google Patents

一种烟火检测方法和装置 Download PDF

Info

Publication number
CN112308153B
CN112308153B CN202011207901.XA CN202011207901A CN112308153B CN 112308153 B CN112308153 B CN 112308153B CN 202011207901 A CN202011207901 A CN 202011207901A CN 112308153 B CN112308153 B CN 112308153B
Authority
CN
China
Prior art keywords
layer
image
feature vector
smoke detection
smoke
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011207901.XA
Other languages
English (en)
Other versions
CN112308153A (zh
Inventor
黄泽
张泽覃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alnnovation Guangzhou Technology Co ltd
Original Assignee
Alnnovation Guangzhou Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alnnovation Guangzhou Technology Co ltd filed Critical Alnnovation Guangzhou Technology Co ltd
Priority to CN202011207901.XA priority Critical patent/CN112308153B/zh
Publication of CN112308153A publication Critical patent/CN112308153A/zh
Application granted granted Critical
Publication of CN112308153B publication Critical patent/CN112308153B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Fire-Detection Mechanisms (AREA)

Abstract

本申请实施例提供一种烟火检测方法和装置,该烟火检测方法包括:获取待检测图像;将待检测图像输入到预先训练好的烟火检测模型中,获得待检测图像的烟火检测结果;其中,烟火检测模型包括特征提取层、注意力层和全连接层,特征提取层用于提取待检测图像的原始特征向量,注意力层用于根据原始特征向量的注意力分数和原始特征向量计算全局特征向量,全连接层用于对全局特征向量进行分类以获得烟火检测结果。借助于上述技术方案,本申请实施例能够提高烟火检测准确率。

Description

一种烟火检测方法和装置
技术领域
本申请涉及烟火检测领域,尤其涉及一种烟火检测方法和装置。
背景技术
目前,一般是通过目标检测算法来进行烟火检测的。其中,目标检测算法主要包括Anchor-based算法和Anchor-free算法,以及引入了Anchor超参数的目标检测算法是为了实现准确的检测过程,其需要事先获取待检测目标的尺寸大小等先验知识,否则会影响检测性能。
但是,在面向开放场景(例如,室外场景)时,由于烟或者火并非是具有刚性特征的待检测目标,其尺寸大小也不是某个固定的值,因此会对Anchor超参数的配置产生干扰,不利于实现精准的回归检测,其次其速度性能也无法达到实时要求。
因此,现有的烟火检测方法至少存在着在面向开放场景时,烟火检测准确性较低的问题。
发明内容
本申请实施例的目的在于提供一种烟火检测方法和装置,以解决现有技术中存在着的在面向开放场景时烟火检测准确性较低的问题。
第一方面,本申请实施例提供了一种烟火检测方法,该烟火检测方法包括:获取待检测图像;将待检测图像输入到预先训练好的烟火检测模型中,获得待检测图像的烟火检测结果;其中,烟火检测模型包括特征提取层、注意力层和全连接层,特征提取层用于提取待检测图像的原始特征向量,注意力层用于根据原始特征向量的注意力分数和原始特征向量计算全局特征向量,全连接层用于对全局特征向量进行分类以获得烟火检测结果。
因此,借助于上述技术方案,本申请实施例避免了目标检测算法在烟火这类不规则目标的检测任务中所带来的精度损失,显著提升了烟火检测模型的检测精度,又削弱了图像分类算法对数据分布的敏感度,以及引入了空间域的注意力机制,进一步细化了特征的颗粒度,大幅度降低了目标的误检率,从而能够有效地解决了现有技术中存在着的在面向开放场景时烟火检测准确性较低的问题。
在一个可能的实施例中,待检测图像包括室外图像。
在一个可能的实施例中,在将待检测图像输入到预先训练好的烟火检测模型中,获得待检测图像的烟火检测结果之前,烟火检测方法还包括:计算初始烟火检测模型的目标损失值,其中,目标损失值是通过包括人脸识别损失函数ArcFace loss的目标损失函数计算得到的;利用目标损失值对初始烟火检测模型进行调整,获得预先训练好的检测模型。
因此,为了强化特征的判别性,本申请实施例在初始烟火检测模型的目标损失函数的设计上引入了人脸识别领域中的ArcFace loss,增大了同类样本数据之间的相似性和异类样本数据之间的互斥性,同时科学地设置了损失函数的超参数,加速了模型的收敛速度,提升了模型的准确率。
在一个可能的实施例中,目标损失函数为:
L1=L2+α·L3+β·L4
其中,L1为目标损失值,L2为通过交叉熵损失函数Softmax Loss计算得到的第一损失值,α为第一超参数,L3为通过分类损失函数Focal Loss计算得到的第二损失值,β为第二超参数,L4为通过ArcFace loss计算得到的第三损失值。
在一个可能的实施例中,ArcFace loss为:
其中,N表示初始烟火检测模型输出的烟火检测结果对应的类别;为初始烟火检测模型对应的全局特征向量和初始烟火检测模型的全连接层的参数矩阵中第i列向量的夹角;s为用于调整ArcFace loss的第三超参数;m为用于调整ArcFace loss的第四超参数;k为参数矩阵的列数。
第二方面,本申请实施例提供了一种烟火检测装置,该烟火检测装置包括:获取模块,用于获取待检测图像;输入模块,用于将待检测图像输入到预先训练好的烟火检测模型中,获得待检测图像的烟火检测结果;其中,烟火检测模型包括特征提取层、注意力层和全连接层,特征提取层用于提取待检测图像的原始特征向量,注意力层用于根据原始特征向量的注意力分数和原始特征向量计算全局特征向量,全连接层用于对全局特征向量进行分类以获得烟火检测结果。
在一个可能的实施例中,待检测图像包括室外图像。
在一个可能的实施例中,烟火检测装置还包括:计算模块,用于计算初始烟火检测模型的目标损失值,其中,目标损失值是通过包括人脸识别损失函数ArcFace loss的目标损失函数计算得到的;调整模块,用于利用目标损失值对初始烟火检测模型进行调整,获得预先训练好的检测模型。
在一个可能的实施例中,目标损失函数为:
L1=L2+α·L3+β·L4
其中,L1为目标损失值,L2为通过交叉熵损失函数Softmax Loss计算得到的第一损失值,α为第一超参数,L3为通过分类损失函数Focal Loss计算得到的第二损失值,β为第二超参数,L4为通过ArcFace loss计算得到的第三损失值。
在一个可能的实施例中,ArcFace loss为:
其中,N表示初始烟火检测模型输出的烟火检测结果对应的类别;为初始烟火检测模型对应的全局特征向量和初始烟火检测模型的全连接层的参数矩阵中第i列向量的夹角;s为用于调整ArcFace loss的第三超参数;m为用于调整ArcFace loss的第四超参数;k为参数矩阵的列数。
第三方面,本申请实施例提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行第一方面或第一方面的任一可选的实现方式所述的方法。
第四方面,本申请实施例提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行第一方面或第一方面的任一可选的实现方式所述的方法。
第五方面,本申请提供一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行第一方面或第一方面的任意可能的实现方式中的方法。
为使本申请实施例所要实现的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例提供的一种烟火检测方法的流程图;
图2示出了本申请实施例提供的一种烟火检测模型的结构框图;
图3示出了本申请实施例提供的一种注意力层的层结构的结构框图;
图4示出了本申请实施例提供的一种烟火检测装置的结构框图;
图5是本申请实施例提供的一种电子设备的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
目前,现有的烟火检测方法主要包括以下两种算法:目标检测算法,即通过大量标注的数据训练得到完整的检测网络,在预测阶段使用边界框将烟和/火的发生位置定位出来,该目标检测算法的准确性主要依赖于骨干(backbone)网络的特征表达能力以及选择的特征尺寸大小;图像分类算法,即选用常用的卷积神经网络将图像中的物体特征以向量的形式表示,然后通过分类器对该向量进行分类,以获得烟火检测结果,该图像分类算法的性能同样依赖于backbone网络以及图像的尺寸大小,除此之外选取的训练数据集分布也会对分类模型的性能产生较大影响。
以及,通常来说,上述目标检测算法主要包括Anchor-based算法和Anchor-free算法。以及,引入了Anchor超参数的目标检测算法是为了实现准确的检测过程,其需要事先获取待检测目标的尺寸大小等先验知识,否则会影响检测性能。但是,在执行烟火检测的任务中,由于烟或者火并非是具有刚性特征的待检测目标,其尺寸大小不是某个固定的值,因此会对Anchor超参数的配置产生干扰,不利于实现精准的回归检测,其次其速度性能也无法达到实时要求。以及,Anchor-free算法的思路主要是引入了目标中心以及边框的检测来实现相较于Anchor-based算法更快速的预测,但是其精度也受到了或多或少的损失。
以及,对于图像分类算法来说,在开放场景时,训练数据的分布会对模型的分类性能产生影响,与此同时开放场景下的数据收集难度也相应增大,片面的数据收集会导致严重的分类算法误报,因此,图像分类算法在烟火检测的任务中也存在着明显的劣势。
也就是说,无论是目标检测算法还是图像分类算法,面向开放场景的烟火检测时都会存在性能以及准确性方面的劣势。
基于此,本申请实施例巧妙地提出了一种烟火检测方法,通过获取待检测图像,以及将待检测图像输入到预先训练好的烟火检测模型中,获得待检测图像的烟火检测结果。其中,烟火检测模型包括特征提取层、注意力层和全连接层,特征提取层用于提取待检测图像的原始特征向量,注意力层用于根据原始特征向量的注意力分数和原始特征向量计算全局特征向量,全连接层用于对全局特征向量进行分类以获得烟火检测结果。
因此,借助于上述技术方案,本申请实施例避免了目标检测算法在烟火这类不规则目标的检测任务中所带来的精度损失,显著提升了烟火检测模型的检测精度,又削弱了图像分类算法对数据分布的敏感度,以及引入了空间域的注意力机制,进一步细化了特征的颗粒度,大幅度降低了目标的误检率,从而能够有效地解决了现有技术中存在着的在面向开放场景时烟火检测准确性较低的问题。
为了便于理解本申请实施例,首先在此对本申请实施例中的一些术语进行解释如下:
名词“超参数”:它是指在机器学习的上下文中,超参数是在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。通常情况下,需要对超参数进行优化,给学习机选择一组最优超参数,以提高学习的性能和效果。
请参见图1,图1示出了本申请实施例提供的一种烟火检测方法的流程图,应理解,图1所示的烟火检测方法可以由烟火检测装置执行,该烟火检测装置可以与下文中的图4所示的烟火检测装置对应,该烟火检测装置可以是能够执行该方法的各种设备,例如,如个人计算机、服务器或网络设备等,本申请对此不作限定。如图1的烟火检测方法包括如下步骤:
步骤S110,获取待检测图像。
应理解,待检测图像的图像类型可以根据实际需求来进行设置,本申请实施例并不局限于此。
例如,待检测图像可以为室外图像,也可以为室内图像。
步骤S120,将待检测图像输入到预先训练好的烟火检测模型中,获得待检测图像的烟火检测结果。
应理解,烟火检测模型的具体结构可根据实际需求来进行设置,本申请实施例并不局限于此。
例如,请参见图2,图2示出了本申请实施例提供的一种烟火检测模型的结构框图。如图2所示的烟火检测模型包括特征提取层、注意力层和全连接层。其中,特征提取层用于提取图像(例如,待检测图像或者样本图像)的原始特征向量;注意力层用于获取图像的原始特征向量的注意力分数,并将原始特征向量和图像的原始特征向量的注意力分数进行逐位乘法(或者说,element wise multiplication,数组元素依次相乘)以获得全局特征向量;全连接层用于对全局特征向量进行分类以获得烟火检测结果。
也就是说,首先由特征提取层提取图像的特征,即获得图像的原始特征向量,以及考虑到提取的特征在目标区域(例如,图像中烟火所处的区域)和背景区域之间没有明显的差异,因此在特征提取层后面接入空间域的注意力机制,从而可利用特征提取层区分原始特征向量内的目标区域和背景区域,其计算过程主要是由注意力层计算出原始特征向量的注意力分数。例如,如果当前位置所对应的图像区域出现了明显的烟火目标,则分配给当前位置对应的特征更大的注意力分数;如果当前位置对应的图像区域仅仅只包含背景区域,则分配给当前位置对应的特征较小的注意力分数。
随后,注意力层可将生成的与图像对应的注意力分数(或者说注意力分数矩阵)和图像的原始特征向量进行element wise multiplication的乘积运算,即注意力层可将注意力层的输入和图像的注意力分数进行element wise multiplication的乘积运算,以获得全局特征向量。
最后,全连接层可对全局特征向量进行分类,以获得烟火检测结果,即全连接层可为分类器,从而能够实现对全局特征向量的分类。其中,烟火检测结果可包括出现烟、出现火、出现烟火或者未出现烟火等。
因此,相较于现有的图像分类方法而言,本申请实施例中的烟火检测模型新增了注意力机制层,从而能够在保证检测速度的同时,还能够提高算法的准确率和性能。
应理解,特征提取层的层结构、注意力层的层结构和全连接层的层结构均可根据实际需求来进行设置,本申请实施例并不局限于此。
例如,请参见图3,图3示出了本申请实施例提供的一种注意力层的层结构的结构框图。如图3所示的注意力层的层结构包括输入层、卷积层、注意力子层和乘积层。其中,输入层用于将图像的原始特征向量分别输入到卷积层和乘积层;卷积层用于对输入的原始特征向量进行卷积计算;注意力子层用于计算图像的原始特征向量的注意力分数;乘积层用于将原始特征向量和注意力分数进行element wise multiplication的乘积运算,以获得全局特征向量。
此外,出于对烟火检测模型的参数量和检测速度的考虑,该卷积层可以是由两个串联的卷积子层构成的。其中,第一卷积子层可以与输入层连接,第二卷积子层可以与第一卷积子层和注意力子层连接,并且可将第二卷积子层末尾的激活函数设置为softplus激活函数,从而使得该注意力层的参数能与特征提取层的参数能够同时学习,实现了端到端的训练过程,并且使用softplus激活函数能够更合理地计算出图像的注意力分数。
这里需要说明的是,虽然上面是以烟火检测模型为例来进行描述的,但本领域的技术人员应当理解,上述烟火检测模型可以是训练好的烟火检测模型,也可以是初始烟火检测模型,即训练好的烟火检测模型的结构和初始烟火检测模型的结构是一样的。
为了便于理解本申请实施例,下面通过具体的实施例来进行描述。
具体地,在将待检测图像输入到训练好的烟火检测模型之前,可对初始烟火检测模型进行训练,以获得训练好的烟火检测模型。其中,初始烟火检测模型的训练过程如下:
首先,可获取用于训练初始烟火检测模型的样本图像和与样本图像对应的样本检测结果。其中,样本检测结果为样本图像的烟火检测结果。
随后,可对样本图像进行预处理,并将预处理之后的图像输入到初始烟火检测模型中,以获得初始烟火检测结果。以及,可计算初始烟火检测模型的目标函数值,目标损失值是通过包括人脸识别损失函数ArcFace loss的目标损失函数计算得到的。以及,可利用目标损失值对初始烟火检测模型进行调整,获得预先训练好的检测模型。其中,目标损失函数可以是基于初始烟火检测结果和样本检测结果来确定的,也可以是设计好的。
应理解,预处理的具体过程可根据实际需求来进行设置,本申请实施例并不局限于此。
例如,可将样本图像的尺寸统一调整到预设尺寸。此外,为了增大数据样本的丰富性,在样本图像输入初始烟火检测模型之前,以一定的概率将其进行随机的饱和度亮度变换、添加高斯噪声以及颜色扰动等预处理操作。
还应理解,预设尺寸的具体尺寸可根据实际需求来进行设置,本申请实施例并不局限于此。
例如,预设尺寸可以为320*320。
还应理解,目标损失函数对应的计算公式可根据实际需求来进行设置,本申请实施例并不局限于此。
例如,在目标损失函数的设计上,本申请实施例为了降低由负样本的数量占比所带来的困扰,其使用了交叉熵损失函数Softmax Loss和分类损失函数Focal Loss的线性组合作为目标损失函数。以及,为了实现更精准的烟火检测性能,最大程度降低正常数据样本的误报,本申请实施例还使用了人脸识别领域中的损失函数ArcFace loss来优化烟火检测模型,并将最终的目标损失函数设计成如下公式:
L1=L2+α·L3+β·L4
其中,L1为目标损失值,L2为通过交叉熵损失函数Softmax Loss计算得到的第一损失值,α为第一超参数,L3为通过分类损失函数Focal Loss计算得到的第二损失值,β为第二超参数,L4为通过人脸识别损失函数ArcFace loss计算得到的第三损失值。
还应理解,交叉熵损失函数Softmax Loss对应的计算公式也可根据实际需求来进行设置,本申请实施例并不局限于此。
例如,交叉熵损失函数Softmax Loss对应的计算公式如下:
其中,T表示烟火检测模型的用于表示烟火检测结果的输出向量的长度;yj表示用于标识类别的标签(例如,在动作识别模型对应四个输出类别的情况下,第一个类别的标签可以是1000,第二个类别的标签可以是0100,第三个类别的标签可以是0010,第四个类别的标签可以是0001等)在j位置上的值(例如,如果标签为第j类,则yj等于1,在其他位置上则为0);bj表示输出向量在j位置上的数值(即在为第j类的概率)。
还应理解,分类损失函数Focal Loss对应的计算公式也可根据实际需求来进行设置,本申请实施例并不局限于此。
例如,分类损失函数Focal Loss对应的计算公式如下:
其中,c表示初始烟火检测模型的预测值;c表示初始烟火检测模型的真实值;λ表示用于调节正负样本的权重的第五超参数,其中,负样本是指图像中的烟火,正样本是指图像中的背景环境等;β为用于使困难样本产生的损失变大的同时使得简单样本的损失变小的第六超参数。
还应理解,人脸识别损失函数ArcFace loss对应的计算公式也可根据实际需求来进行设置,本申请实施例并不局限于此。
例如,人脸识别损失函数ArcFace loss对应的计算公式如下:
其中,N表示初始烟火检测模型输出的烟火检测结果对应的类别;为初始烟火检测模型对应的全局特征向量和初始烟火检测模型的全连接层的参数矩阵中第i列向量的夹角;s为用于调整ArcFace loss的第三超参数;m为用于调整ArcFace loss的第四超参数;k为参数矩阵的列数。
这里需要说明的是,虽然上面对初始烟火检测模型的训练过程进行了描述,但本领域的技术人员应当理解,在初始烟火检测模型是训练好的情况下,可直接使用训练好的烟火检测模型,无需在每次使用前都进行训练。
此外,在将待检测图像输入到预先训练好的烟火检测模型之前,也可以对待检测图像进行预处理,随后可将预处理后的待检测图像输入到预先训练好的烟火检测模型中。其中,该处的预处理可包括将待检测图像的尺寸调整到预设尺寸。随后,预先训练好的烟火检测模型可输出烟火检测结果。
因此,本申请实施例避免了目标检测算法在烟火这类不规则目标的检测任务中所带来的精度损失,显著提升了烟火检测模型的检测精度,又削弱了图像分类算法对数据分布的敏感度,以及引入了空间域的注意力机制,进一步细化了特征的颗粒度,大幅度降低了目标的误检率,从而能够有效地解决了现有技术中存在着的在面向开放场景时烟火检测准确性较低的问题,进而有效地解决了开放场景下的烟火检测任务。
此外,为了强化特征的判别性,本申请实施例在初始烟火检测模型的目标损失函数的设计上引入了人脸识别领域中的ArcFace loss,增大了同类样本数据之间的相似性和异类样本数据之间的互斥性,同时科学地设置了损失函数的超参数,加速了模型的收敛速度,提升了模型的准确率。
应理解,上述烟火检测方法仅是示例性的,本领域技术人员根据上述的方法可以进行各种变形,修改或变形之后的内容也在本申请保护范围内。
请参见图4,图4示出了本申请实施例提供的一种烟火检测装置400的结构框图,应理解,该烟火检测装置400与上述方法实施例对应,能够执行上述方法实施例涉及的各个步骤,该烟火检测装置400具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。该烟火检测装置400包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在烟火检测装置400的操作***(operating system,OS)中的软件功能模块。具体地,该烟火检测装置400包括:
获取模块410,用于获取待检测图像;
输入模块420,用于将待检测图像输入到预先训练好的烟火检测模型中,获得待检测图像的烟火检测结果;其中,烟火检测模型包括特征提取层、注意力层和全连接层,特征提取层用于提取待检测图像的原始特征向量,注意力层用于根据原始特征向量的注意力分数和原始特征向量计算全局特征向量,全连接层用于对全局特征向量进行分类以获得烟火检测结果。
在一个可能的实施例中,待检测图像包括室外图像。
在一个可能的实施例中,该烟火检测装置400还包括:计算模块(未示出),用于计算初始烟火检测模型的目标损失值,其中,目标损失值是通过包括人脸识别损失函数ArcFace loss的目标损失函数计算得到的;调整模块(未示出),用于利用目标损失值对初始烟火检测模型进行调整,获得预先训练好的检测模型。
在一个可能的实施例中,目标损失函数为:
L1=L2+α·L3+β·L4
其中,L1为目标损失值,L2为通过交叉熵损失函数Softmax Loss计算得到的第一损失值,α为第一超参数,L3为通过分类损失函数Focal Loss计算得到的第二损失值,β为第二超参数,L4为通过ArcFace loss计算得到的第三损失值。
在一个可能的实施例中,ArcFace loss为:
其中,N表示初始烟火检测模型输出的烟火检测结果对应的类别;为初始烟火检测模型对应的全局特征向量和初始烟火检测模型的全连接层的参数矩阵中第i列向量的夹角;s为用于调整ArcFace loss的第三超参数;m为用于调整ArcFace loss的第四超参数;k为参数矩阵的列数。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
请参见图5,图5是本申请实施例提供的一种电子设备500的结构框图。电子设备500可以包括处理器510、通信接口520、存储器530和至少一个通信总线540。其中,通信总线540用于实现这些组件直接的连接通信。其中,本申请实施例中的通信接口520用于与其他设备进行信令或数据的通信。处理器510可以是一种集成电路芯片,具有信号的处理能力。上述的处理器510可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器510也可以是任何常规的处理器等。
存储器530可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。存储器530中存储有计算机可读取指令,当所述计算机可读取指令由所述处理器510执行时,电子设备500可以执行上述方法实施例中的各个步骤。
电子设备500还可以包括存储控制器、输入输出单元、音频单元、显示单元。
所述存储器530、存储控制器、处理器510、外设接口、输入输出单元、音频单元、显示单元各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通信总线540实现电性连接。所述处理器510用于执行存储器530中存储的可执行模块。并且,电子设备500用于执行下述方法:获取待检测图像;将所述待检测图像输入到预先训练好的烟火检测模型中,获得所述待检测图像的烟火检测结果;其中,所述烟火检测模型包括特征提取层、注意力层和全连接层,所述特征提取层用于提取所述待检测图像的原始特征向量,所述注意力层用于根据所述原始特征向量的注意力分数和所述原始特征向量计算全局特征向量,所述全连接层用于对所述全局特征向量进行分类以获得所述烟火检测结果。
输入输出单元用于提供给用户输入数据实现用户与所述服务器(或本地终端)的交互。所述输入输出单元可以是,但不限于,鼠标和键盘等。
音频单元向用户提供音频接口,其可包括一个或多个麦克风、一个或者多个扬声器以及音频电路。
显示单元在所述电子设备与用户之间提供一个交互界面(例如用户操作界面)或用于显示图像数据给用户参考。在本实施例中,所述显示单元可以是液晶显示器或触控显示器。若为触控显示器,其可为支持单点和多点触控操作的电容式触控屏或电阻式触控屏等。支持单点和多点触控操作是指触控显示器能感应到来自该触控显示器上一个或多个位置处同时产生的触控操作,并将该感应到的触控操作交由处理器进行计算和处理。
可以理解,图5所示的结构仅为示意,所述电子设备500还可包括比图5中所示更多或者更少的组件,或者具有与图5所示不同的配置。图5中所示的各组件可以采用硬件、软件或其组合实现。
本申请还提供一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行方法实施例所述的方法。
本申请还提供一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行方法实施例所述的方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种烟火检测方法,其特征在于,包括:
获取待检测图像;
将所述待检测图像输入到预先训练好的烟火检测模型中,获得所述待检测图像的烟火检测结果;
其中,所述烟火检测模型包括特征提取层、注意力层和全连接层,所述特征提取层用于提取所述待检测图像的原始特征向量,以及根据目标区域和背景区域之间的差异,获取原始特征向量内的目标区域和背景区域,所述注意力层用于根据所述原始特征向量的注意力分数和所述原始特征向量计算全局特征向量,所述全连接层用于对所述全局特征向量进行分类以获得所述烟火检测结果;
所述注意力层用于获取图像的原始特征向量的注意力分数,并将原始特征向量和图像的原始特征向量的注意力分数进行逐位乘法,以获得全局特征向量;
所述注意力层的层结构包括输入层、卷积层、注意力子层和乘积层;
其中,输入层用于将图像的原始特征向量分别输入到卷积层和乘积层;卷积层用于对输入的原始特征向量进行卷积计算,所述卷积层至少包括两个串联的卷积子层,第一卷积子层与输入层连接,第二卷积子层与第一卷积子层和注意力子层连接,并且将第二卷积子层末尾的激活函数设置为softplus激活函数;
注意力子层用于计算图像的原始特征向量的注意力分数;
乘积层用于将原始特征向量和注意力分数进行乘积运算,以获得全局特征向量。
2.根据权利要求1所述的烟火检测方法,其特征在于,所述待检测图像包括室外图像。
3.根据权利要求1所述的烟火检测方法,其特征在于,在所述将所述待检测图像输入到预先训练好的烟火检测模型中,获得所述待检测图像的烟火检测结果之前,所述烟火检测方法还包括:
计算初始烟火检测模型的目标损失值,其中,所述目标损失值是通过包括人脸识别损失函数ArcFace loss的目标损失函数计算得到的;
利用所述目标损失值对初始烟火检测模型进行调整,获得所述预先训练好的检测模型。
4.根据权利要求3所述的烟火检测方法,其特征在于,所述目标损失函数为:
L1=L2+α·L3+β·L4
其中,L1为所述目标损失值,L2为通过交叉熵损失函数Softmax Loss计算得到的第一损失值,α为第一超参数,L3为通过分类损失函数Focal Loss计算得到的第二损失值,β为第二超参数,L4为通过所述ArcFace loss计算得到的第三损失值。
5.根据权利要求4所述的烟火检测方法,其特征在于,所述ArcFace loss为:
其中,N表示所述初始烟火检测模型输出的烟火检测结果对应的类别;为所述初始烟火检测模型对应的全局特征向量和所述初始烟火检测模型的全连接层的参数矩阵中第i列向量的夹角;s为用于调整所述ArcFace loss的第三超参数;m为用于调整所述ArcFaceloss的第四超参数;k为所述参数矩阵的列数。
6.一种烟火检测装置,其特征在于,包括:
获取模块,用于获取待检测图像;
输入模块,用于将所述待检测图像输入到预先训练好的烟火检测模型中,获得所述待检测图像的烟火检测结果;
其中,所述烟火检测模型包括特征提取层、注意力层和全连接层,所述特征提取层用于提取所述待检测图像的原始特征向量,以及根据目标区域和背景区域之间的差异,获取原始特征向量内的目标区域和背景区域;所述注意力层用于根据所述原始特征向量的注意力分数和所述原始特征向量计算全局特征向量,所述全连接层用于对所述全局特征向量进行分类以获得所述烟火检测结果;
所述注意力层用于获取图像的原始特征向量的注意力分数,并将原始特征向量和图像的原始特征向量的注意力分数进行逐位乘法,以获得全局特征向量;
所述注意力层的层结构包括输入层、卷积层、注意力子层和乘积层;
其中,输入层用于将图像的原始特征向量分别输入到卷积层和乘积层;卷积层用于对输入的原始特征向量进行卷积计算,所述卷积层至少包括两个串联的卷积子层,第一卷积子层与输入层连接,第二卷积子层与第一卷积子层和注意力子层连接,并且将第二卷积子层末尾的激活函数设置为softplus激活函数;
注意力子层用于计算图像的原始特征向量的注意力分数;
乘积层用于将原始特征向量和注意力分数进行乘积运算,以获得全局特征向量。
7.根据权利要求6所述的烟火检测装置,其特征在于,所述待检测图像包括室外图像。
8.根据权利要求6所述的烟火检测装置,其特征在于,所述烟火检测装置还包括:
计算模块,用于计算初始烟火检测模型的目标损失值,其中,所述目标损失值是通过包括人脸识别损失函数ArcFace loss的目标损失函数计算得到的;
调整模块,用于利用所述目标损失值对初始烟火检测模型进行调整,获得所述预先训练好的检测模型。
9.根据权利要求8所述的烟火检测装置,其特征在于,所述目标损失函数为:
L1=L2+α·L3+β·L4
其中,L1为所述目标损失值,L2为通过交叉熵损失函数Softmax Loss计算得到的第一损失值,α为第一超参数,L3为通过分类损失函数Focal Loss计算得到的第二损失值,β为第二超参数,L4为通过所述ArcFace loss计算得到的第三损失值。
10.根据权利要求9所述的烟火检测装置,其特征在于,所述ArcFace loss为:
其中,N表示所述初始烟火检测模型输出的烟火检测结果对应的类别;为所述初始烟火检测模型对应的全局特征向量和所述初始烟火检测模型的全连接层的参数矩阵中第i列向量的夹角;s为用于调整所述ArcFace loss的第三超参数;m为用于调整所述ArcFaceloss的第四超参数;k为所述参数矩阵的列数。
CN202011207901.XA 2020-11-02 2020-11-02 一种烟火检测方法和装置 Active CN112308153B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011207901.XA CN112308153B (zh) 2020-11-02 2020-11-02 一种烟火检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011207901.XA CN112308153B (zh) 2020-11-02 2020-11-02 一种烟火检测方法和装置

Publications (2)

Publication Number Publication Date
CN112308153A CN112308153A (zh) 2021-02-02
CN112308153B true CN112308153B (zh) 2023-11-24

Family

ID=74332438

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011207901.XA Active CN112308153B (zh) 2020-11-02 2020-11-02 一种烟火检测方法和装置

Country Status (1)

Country Link
CN (1) CN112308153B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115424027B (zh) * 2022-08-24 2023-05-23 厦门国际银行股份有限公司 针对画面前景人物的图像相似度比对方法、装置以及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018212710A1 (en) * 2017-05-19 2018-11-22 National University Of Singapore Predictive analysis methods and systems
CN110135406A (zh) * 2019-07-09 2019-08-16 北京旷视科技有限公司 图像识别方法、装置、计算机设备和存储介质
CN111242222A (zh) * 2020-01-14 2020-06-05 北京迈格威科技有限公司 分类模型的训练方法、图像处理方法及装置
CN111414969A (zh) * 2020-03-26 2020-07-14 西安交通大学 一种雾天环境下的烟检测方法
CN111625667A (zh) * 2020-05-18 2020-09-04 北京工商大学 一种基于复杂背景图像的三维模型跨域检索方法及***
CN111695478A (zh) * 2020-06-04 2020-09-22 济南信通达电气科技有限公司 一种目标检测方法及设备
CN111860162A (zh) * 2020-06-17 2020-10-30 上海交通大学 一种视频人群计数***及方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018212710A1 (en) * 2017-05-19 2018-11-22 National University Of Singapore Predictive analysis methods and systems
CN110135406A (zh) * 2019-07-09 2019-08-16 北京旷视科技有限公司 图像识别方法、装置、计算机设备和存储介质
CN111242222A (zh) * 2020-01-14 2020-06-05 北京迈格威科技有限公司 分类模型的训练方法、图像处理方法及装置
CN111414969A (zh) * 2020-03-26 2020-07-14 西安交通大学 一种雾天环境下的烟检测方法
CN111625667A (zh) * 2020-05-18 2020-09-04 北京工商大学 一种基于复杂背景图像的三维模型跨域检索方法及***
CN111695478A (zh) * 2020-06-04 2020-09-22 济南信通达电气科技有限公司 一种目标检测方法及设备
CN111860162A (zh) * 2020-06-17 2020-10-30 上海交通大学 一种视频人群计数***及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
增量角度域损失和多特征融合的地标识别;毛雪宇 等;中国图象图形学报(第08期);第1567-1577页 *

Also Published As

Publication number Publication date
CN112308153A (zh) 2021-02-02

Similar Documents

Publication Publication Date Title
CN108875522B (zh) 人脸聚类方法、装置和***及存储介质
CN109145766B (zh) 模型训练方法、装置、识别方法、电子设备及存储介质
CN105426356B (zh) 一种目标信息识别方法和装置
WO2019200782A1 (zh) 样本数据分类方法、模型训练方法、电子设备及存储介质
US9619753B2 (en) Data analysis system and method
CN109472209B (zh) 一种图像识别方法、装置和存储介质
CN108694346B (zh) 一种基于两级cnn的船舶辐射噪声信号识别方法
Lam et al. Evaluation of multiple features for violent scenes detection
CN111582185A (zh) 用于识别图像的方法和装置
KR102503201B1 (ko) 비디오 타입 검출 방법, 장치, 전자기기 및 저장매체
CN114187311A (zh) 一种图像语义分割方法、装置、设备及存储介质
Yan et al. A region based attention method for weakly supervised sound event detection and classification
CN111783665A (zh) 一种动作识别方法、装置、存储介质和电子设备
CN116386081A (zh) 一种基于多模态图像的行人检测方法及***
Viet‐Uyen Ha et al. High variation removal for background subtraction in traffic surveillance systems
CN112308153B (zh) 一种烟火检测方法和装置
Tsai et al. MobileNet-JDE: a lightweight multi-object tracking model for embedded systems
Zeng et al. JRL‐YOLO: A Novel Jump‐Join Repetitious Learning Structure for Real‐Time Dangerous Object Detection
CN110852351A (zh) 基于图像的垃圾分类方法、装置、终端设备和存储介质
CN112597997A (zh) 感兴趣区域确定方法、图像内容识别方法及装置
Choudhury et al. An adaptive thresholding-based movement epenthesis detection technique using hybrid feature set for continuous fingerspelling recognition
Dong et al. Scene-oriented hierarchical classification of blurry and noisy images
CN109492124B (zh) 选择性注意线索指导的不良主播检测方法、装置及电子设备
CN112651271A (zh) 一种基于深度学习算法搜索视频关键帧的方法及***
CN112380369B (zh) 图像检索模型的训练方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant