CN113362854B - 基于稀疏自注意力机制的声学事件检测方法、***、存储介质及设备 - Google Patents

基于稀疏自注意力机制的声学事件检测方法、***、存储介质及设备 Download PDF

Info

Publication number
CN113362854B
CN113362854B CN202110619344.0A CN202110619344A CN113362854B CN 113362854 B CN113362854 B CN 113362854B CN 202110619344 A CN202110619344 A CN 202110619344A CN 113362854 B CN113362854 B CN 113362854B
Authority
CN
China
Prior art keywords
acoustic event
attention mechanism
event detection
detection method
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110619344.0A
Other languages
English (en)
Other versions
CN113362854A (zh
Inventor
韩纪庆
关亚东
薛嘉宾
郑贵滨
郑铁然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202110619344.0A priority Critical patent/CN113362854B/zh
Publication of CN113362854A publication Critical patent/CN113362854A/zh
Application granted granted Critical
Publication of CN113362854B publication Critical patent/CN113362854B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

基于稀疏自注意力机制的声学事件检测方法、***、存储介质及设备,属于机器的听觉智能领域。为了解决现有的时序特征提取网络存在无法实现有效的时序建模的问题,从而限制了现有声学事件检测***的性能。本发明首先对输入音频信号提取梅尔声谱图,然后分别输入到卷积神经网络提取局部特征,并利用基于稀疏自注意力机制的TransformerEncoder提取时域特征;最后输入到全连接层进行分类,并对结果进行后处理,结果输出每个被检测到的声学事件的类别及起止时间。主要用于声学事件的检测。

Description

基于稀疏自注意力机制的声学事件检测方法、***、存储介质 及设备
技术领域
本发明属于机器的听觉智能领域,涉及声学事件检测的方法***、存储介质及设备。
背景技术
声学事件检测是指通过对声音信号的分析处理,以识别出音频信号中发生的声学事件类型及每个声学事件的起止时间。声学事件检测在安防、智慧家居、智慧城市、多媒体信息检索、生物多样性检测、智能机器人环境感知等方面有着广泛的应用前景。
现有的声学事件检测***的结构包括频谱特征提取模块、神经网络模块、后处理模块,其中神经网络模块是声学事件检测***的核心模块。神经网络模块主要包含两部分:局部特征提取网络与时序特征提取网络。现有的时序特征提取网络常采用自注意力机制,这种自注意力机制使得网络在处理特定时刻的特征时会受音频段内所有时刻特征的影响,而实际上,很多时刻的特征对于当前时刻特征的建模来说是无用甚至有害的,这使得网络无法实现有效的时序建模,因此限制了现有声学事件检测***的性能,影响了现有技术的实用性。
发明内容
本发明是为了解决现有的时序特征提取网络存在无法实现有效的时序建模的问题,从而限制了现有声学事件检测***的性能。
一种基于稀疏自注意力机制的声学事件检测方法,包括以下步骤:
首先对输入音频信号提取梅尔声谱图,然后分别输入到卷积神经网络提取局部特征,并利用基于稀疏自注意力机制的Transformer Encoder提取时域特征;最后输入到全连接层进行分类,并对结果进行后处理,结果输出每个被检测到的声学事件的类别及起止时间;
所述提取时域特征的过程包括以下步骤:
将提取的局部特征Hi输入到一个单层的Transformer Encoder模型中,采用稀疏归一化方法对注意力权重归一化;对得到的注意力权重矩阵的归一化操作包括以下步骤:
2.1、A的第t列为At,对At中的元素进行降序排列;A为自注意力层中的注意力权重矩阵;
2.2、寻找满足以下条件的中间参数kt
kt∈max{k∈[T]|1+kAt,k>∑j≤kAt,j}
其中T表示时间维度的大小,[T]={1,2...T},At,k、At,j分别为向量At中的第k个和第j个元素;
2.3、求阈值τt
Figure BDA0003098965500000021
2.4、对于At中的每个元素j,求:
A′t,j=[At,jt]+
其中,[·]+表示[·]+=max{0,·};
2.5、返回步骤2.1,直到t=T,得到归一化的注意力权重矩阵A′。
进一步地,所述的自注意力层中的注意力权重矩阵:
Figure BDA0003098965500000022
其中
Figure BDA0003098965500000023
分别为self-attention中的Query和Key矩阵,dk为特征维度大小。
进一步地,分别输入到卷积神经网络提取局部特征所述的卷积神经网络是有至少一个卷积模块组成的,所述的卷积模块包括一个卷积层、一个归一化层、一个非线性层和一个最大池化层。
进一步地,所述的用于提取局部特征的卷积神经网络由七个卷积模块组成,所述卷积神经网络的堆叠的卷积滤波器个数依次为16、32、64、128、128、128、128;最大池化层的池化大小为(2,2)、(2,2)、(1,2)、(1,2)、(1,2)、(1,2)、(1,2)。
每个卷积模块中的卷积层为二维卷积层,卷积核大小为(3,3),步长为(1,1)。
进一步地,最后输入到全连接层进行分类的过程包括以下步骤:
利用全连接层对特征进行分类,其中隐藏层参数为128,激活函数采用Sigmoid激活函数。
进一步地,对结果进行后处理,结果输出每个被检测到的声学事件的类别及起止时间的过程包括以下步骤:
利用中值滤波对输出概率进行平滑,得到声学事件的预测概率
Figure BDA0003098965500000024
Figure BDA0003098965500000025
大于0.5表示第t时刻发生了第c类声学事件,反之表示第c类事件未发生;进而得到每一时刻声音事件是否发生的信息,继而可得声音事件的发生与结束时间。
进一步地,对输入音频信号提取梅尔声谱图的过程包括以下步骤:
输入的声音信号为10秒的声音段,采样率为16kHz;梅尔声谱提取过程采用窗长为2048,帧移为255,128个梅尔域滤波器,并将数值映射到自然对数域;最终,一个10秒的声音片段,提取的梅尔声谱图Xi的大小为(648,128);其中648为帧数,128是梅尔滤波器系数的阶数。
一种基于稀疏自注意力机制的声学事件检测***,所述***用于执行一种基于稀疏自注意力机制的声学事件检测方法。
一种存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现一种基于稀疏自注意力机制的声学事件检测方法。
一种设备,所述设备包括处理器和存储器,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现一种基于稀疏自注意力机制的声学事件检测方法。
有益效果:
本发明所提出的方法,通过对注意力权重稀疏化,使得模型在建模声音事件的时序结构时减少了与某些无关时刻信息的耦合,因此实现了更有效的时序建模,提高了现有声学事件检测***的性能,将本发明提出的方法在国际公开的声学事件检测数据集上进行验证,结果表明其分类性能较原有***有较大提高。
附图说明
图1为一种基于稀疏自注意力机制的声学事件检测方法的示意图。
图2为图1中卷积神经网络部分的结构示意图,其中x7表示左括号所包含的模块堆叠7次。
图3为图1中Transformer Encoder网络部分的结构示意图,其中包括了所提出的自注意力权重稀疏化方法。
图4为本发明所提出的方法与原有基线***在国际公开数据集上的检测性能比较图。
具体实施方式
具体实施方式一:
本实施方式为一种基于稀疏自注意力机制的声学事件检测方法,为使时序特征提取网络在进行时序建模时,能有选择地减少与其他时刻的无用特征的耦合,从而更有效建模声音信号的时序特征,本发明提出了一种基于稀疏自注意力机制的声学事件检测方法,将自注意力机制中的Softmax归一化方法替换为稀疏的归一化方法。
图1为基于稀疏自注意力机制的声学事件检测方法的一种具体实施模型示意图。首先对输入音频信号提取梅尔声谱图,而后分别输入到卷积神经网络CNN提取局部特征、利用基于稀疏自注意力机制的Transformer Encoder提取时序特征,最后输入到全连接层进行分类,并对结果进行后处理,结果输出每个被检测到的声学事件的类别及起止时间。具体而言包括以下步骤:
步骤1、提取音频信号的局部特征。
步骤1.1、提取梅尔声谱图。
首先对于输入的声音信号,提取常用的梅尔声谱图特征作为模型输入。在一些实施例中,输入的声音信号为10秒的声音段,采样率为16kHz。梅尔声谱提取过程采用窗长为2048,帧移为255,128个梅尔域滤波器,并将数值映射到自然对数域。最终,一个10秒的声音片段,提取的梅尔声谱图Xi的大小为(648,128)。其中648为帧数,128是梅尔滤波器系数的阶数。
步骤1.2、提取局部特征。
将提取的梅尔声谱图输入到一个卷积神经网络模型中。该卷积神经网络由一系列包括卷积层、归一化层、非线性层最大池化层的卷积模块组成,如图2所示。一些实施例中采用7个卷积模块,二维卷积层卷积核大小为(3,3),步长为(1,1),堆叠的卷积滤波器个数依次为(16,32,64,128,128,128,128)。最大池化层的池化大小为((2,2),(2,2),(1,2),(1,2),(1,2),(1,2),(1,2))。所有用到的二维卷积层、最大池化层、批归一化层和线性整流单元均为常用神经网络框架中的标准组件。
输入的梅尔声谱图,经过卷积神经网络映射之后,得到局部特征Hi。其中,Hi的维度为(157,128),157为时间维数,128为特征维数。
步骤2、提取时域特征。
将提取的局部特征Hi输入到一个单层的Transformer Encoder模型中。Transformer Encoder模型由全连接层、自注意力层、dropout层组成,其详细配置与参数如附图3所示。图中所示的注意力头数为16,线性映射层的维度为512,dropout为0.2。采用提出的稀疏归一化方法对注意力权重归一化,其他组件均为常用神经网络框架中的标准组件。网络输出张量表示为Mi,其维度为(157,128)。
其中自注意力层中的注意力权重矩阵的计算过程为:
Figure BDA0003098965500000041
其中
Figure BDA0003098965500000042
分别为self-attention中的Query和Key矩阵,dk为特征维度大小。
对得到的注意力权重矩阵的归一化操作如下:
2.1、A的第t列为At,对At中的元素进行降序排列;
2.2、寻找满足以下条件的中间参数kt
kt∈max{k∈[T]|1+kAt,k>∑j≤kAt,j} (2)
其中T表示时间维度的大小,[T]={1,2...T},At,k、At,j分别为向量At中的第k个和第j个元素;
2.3、求阈值τt
Figure BDA0003098965500000051
2.4、对于At中的每个元素j,求:
A′t,j=[At,jt]+ (4)
其中,[·]+表示[·]+=max{0,·}。
2.5、返回步骤2.1,直到t=T,得到归一化的注意力权重矩阵A′。
下面分析本发明所提方法的特点:在对某一时刻t1、种类为S的声学事件进行时序建模时,理想情况是只对音频段中所有属于类别S的时刻的特征加权求和,其他不属于类别S的时刻t2的特征对应的权重为0,这里所说的权重指的是时刻t1的特征与时刻t2的特征的相似度。另外,一般情况下,较大的注意力权值表示相同种类声学事件之间的相似度,而较小的注意力权值常表示不同种类声学事件之间的相似度。
由以上方法得到的归一化的注意力权重A′与一般的经过softmax变换得到的归一化注意力权重相比,前者能够忽略相对较小的注意力权值。因此,归一化后的注意力权重用于对不同时刻的特征进行加权求和时,稀疏的注意力权重A′可以使神经网络在对同类别的声学事件特征进行建模时更少地受到其他类别声学事件特征的的影响。并且,本发明并不是简单地通过卡阈值的方式将小权值直接置0,而是综合考虑所有权值后,自适应地将相对较小的权值置0。
综上所述,本发明有利于神经网络对声音事件的建模,有利于提高声学事件检测***的性能。
步骤3、特征分类。
利用全连接层对特征进行分类,其中隐藏层参数为128,输出维度为(157,10),激活函数采用Sigmoid激活函数,输出矩阵用Oi表示。
步骤4、后处理。
利用中值滤波对输出概率进行平滑,得到声学事件的预测概率
Figure BDA0003098965500000061
Figure BDA0003098965500000062
大于0.5表示第t时刻发生了第c类声学事件,反之表示第c类事件未发生。这样就得到了每一时刻声音事件是否发生的信息,继而可得声音事件的发生与结束时间。
实施例
为验证本发明的有效性,采用具体实施方式一的方案在目前国际公开的声学事件检测数据集DESED上进行验证,并将所提出的方法与原有基线方法进行比较。如图4所示,本发明所提出的方法在对所有十类声学事件检测的识别性能均优原有基线***的结果。原有***在数据集上的平均性能为44.22%,所提出的方法的平均性能为47.65%,并且该结果超过了DCASE 2020比赛任务四的第一名的单模型的性能。因此,实验结果充分验证了本发明的有效性。
具体实施方式二:
本实施方式为一种基于稀疏自注意力机制的声学事件检测***,所述***用于执行一种基于稀疏自注意力机制的声学事件检测方法。
具体实施方式三:
本实施方式为一种存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现一种基于稀疏自注意力机制的声学事件检测方法。
具体实施方式四:
本实施方式为一种设备,所述设备包括处理器和存储器,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现一种基于稀疏自注意力机制的声学事件检测方法。
本发明的上述算例仅为详细地说明本发明的计算模型和计算流程,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims (10)

1.一种基于稀疏自注意力机制的声学事件检测方法,包括以下步骤:
首先对输入音频信号提取梅尔声谱图,然后分别输入到卷积神经网络提取局部特征,并利用基于稀疏自注意力机制的Transformer Encoder提取时域特征;最后输入到全连接层进行分类,并对结果进行后处理,结果输出每个被检测到的声学事件的类别及起止时间;
其特征在于,所述提取时域特征的过程包括以下步骤:
将提取的局部特征Hi输入到一个单层的Transformer Encoder模型中,采用稀疏归一化方法对注意力权重归一化;对得到的注意力权重矩阵的归一化操作包括以下步骤:
2.1、A的第t列为At,对At中的元素进行降序排列;A为自注意力层中的注意力权重矩阵;
2.2、寻找满足以下条件的中间参数kt
kt∈max{k∈[T]|1+kAt,k>∑j≤kAt,j}
其中T表示时间维度的大小,[T]={1,2...T},At,k、At,j分别为向量At中的第k个和第j个元素;
2.3、求阈值τt
Figure FDA0003878061100000011
2.4、对于At中的每个元素j,求:
A′t,j=[At,jt]+
其中,[·]+表示[·]+=max{0,·};
2.5、返回步骤2.1,直到t=T,得到归一化的注意力权重矩阵A′。
2.根据权利要求1所述的一种基于稀疏自注意力机制的声学事件检测方法,其特征在于,所述的自注意力层中的注意力权重矩阵:
Figure FDA0003878061100000012
其中
Figure FDA0003878061100000013
分别为self-attention中的Query和Key矩阵,dk为特征维度大小。
3.根据权利要求2所述的一种基于稀疏自注意力机制的声学事件检测方法,其特征在于,分别输入到卷积神经网络提取局部特征所述的卷积神经网络是有至少一个卷积模块组成的,所述的卷积模块包括一个卷积层、一个归一化层、一个非线性层和一个最大池化层。
4.根据权利要求3所述的一种基于稀疏自注意力机制的声学事件检测方法,其特征在于,所述的用于提取局部特征的卷积神经网络由七个卷积模块组成,所述卷积神经网络的堆叠的卷积滤波器个数依次为16、32、64、128、128、128、128;最大池化层的池化大小为(2,2)、(2,2)、(1,2)、(1,2)、(1,2)、(1,2)、(1,2);
每个卷积模块中的卷积层为二维卷积层,卷积核大小为(3,3),步长为(1,1)。
5.根据权利要求4所述的一种基于稀疏自注意力机制的声学事件检测方法,其特征在于,最后输入到全连接层进行分类的过程包括以下步骤:
利用全连接层对特征进行分类,其中隐藏层参数为128,激活函数采用Sigmoid激活函数。
6.根据权利要求1至5之一所述的一种基于稀疏自注意力机制的声学事件检测方法,其特征在于,对结果进行后处理,结果输出每个被检测到的声学事件的类别及起止时间的过程包括以下步骤:
利用中值滤波对输出概率进行平滑,得到声学事件的预测概率
Figure FDA0003878061100000021
Figure FDA0003878061100000022
大于0.5表示第t时刻发生了第c类声学事件,反之表示第c类事件未发生;进而得到每一时刻声音事件是否发生的信息,继而可得声音事件的发生与结束时间。
7.根据权利要求6所述的一种基于稀疏自注意力机制的声学事件检测方法,其特征在于,对输入音频信号提取梅尔声谱图的过程包括以下步骤:
输入的声音信号为10秒的声音段,采样率为16kHz;梅尔声谱提取过程采用窗长为2048,帧移为255,128个梅尔域滤波器,并将数值映射到自然对数域;最终,一个10秒的声音片段,提取的梅尔声谱图Xi的大小为(648,128);其中648为帧数,128是梅尔滤波器系数的阶数。
8.一种基于稀疏自注意力机制的声学事件检测***,其特征在于,所述***用于执行权利要求1至7之一所述的一种基于稀疏自注意力机制的声学事件检测方法。
9.一种存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至7之一所述的一种基于稀疏自注意力机制的声学事件检测方法。
10.一种设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至7之一所述的一种基于稀疏自注意力机制的声学事件检测方法。
CN202110619344.0A 2021-06-03 2021-06-03 基于稀疏自注意力机制的声学事件检测方法、***、存储介质及设备 Active CN113362854B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110619344.0A CN113362854B (zh) 2021-06-03 2021-06-03 基于稀疏自注意力机制的声学事件检测方法、***、存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110619344.0A CN113362854B (zh) 2021-06-03 2021-06-03 基于稀疏自注意力机制的声学事件检测方法、***、存储介质及设备

Publications (2)

Publication Number Publication Date
CN113362854A CN113362854A (zh) 2021-09-07
CN113362854B true CN113362854B (zh) 2022-11-15

Family

ID=77531749

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110619344.0A Active CN113362854B (zh) 2021-06-03 2021-06-03 基于稀疏自注意力机制的声学事件检测方法、***、存储介质及设备

Country Status (1)

Country Link
CN (1) CN113362854B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116825131A (zh) * 2022-06-24 2023-09-29 南方电网调峰调频发电有限公司储能科研院 融合频带自向下注意力机制的电厂设备状态听觉监测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110600059A (zh) * 2019-09-05 2019-12-20 Oppo广东移动通信有限公司 声学事件检测方法、装置、电子设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111145718B (zh) * 2019-12-30 2022-06-07 中国科学院声学研究所 一种基于自注意力机制的中文普通话字音转换方法
CN111899760B (zh) * 2020-07-17 2024-05-07 北京达佳互联信息技术有限公司 音频事件的检测方法、装置、电子设备及存储介质
US20220068462A1 (en) * 2020-08-28 2022-03-03 doc.ai, Inc. Artificial Memory for use in Cognitive Behavioral Therapy Chatbot
CN111933188B (zh) * 2020-09-14 2021-02-05 电子科技大学 一种基于卷积神经网络的声音事件检测方法
US11756551B2 (en) * 2020-10-07 2023-09-12 Mitsubishi Electric Research Laboratories, Inc. System and method for producing metadata of an audio signal
CN112802484B (zh) * 2021-04-12 2021-06-18 四川大学 一种混合音频下的大熊猫声音事件检测方法及***
CN113223506B (zh) * 2021-05-28 2022-05-20 思必驰科技股份有限公司 语音识别模型训练方法及语音识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110600059A (zh) * 2019-09-05 2019-12-20 Oppo广东移动通信有限公司 声学事件检测方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113362854A (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
Bayar et al. On the robustness of constrained convolutional neural networks to jpeg post-compression for image resampling detection
Huang et al. A novel method for detecting image forgery based on convolutional neural network
CN109446804B (zh) 一种基于多尺度特征连接卷积神经网络的入侵检测方法
CN111091839B (zh) 语音唤醒方法、装置、存储介质及智能设备
CN110968845B (zh) 基于卷积神经网络生成的针对lsb隐写的检测方法
CN111986699B (zh) 基于全卷积网络的声音事件检测方法
CN113362854B (zh) 基于稀疏自注意力机制的声学事件检测方法、***、存储介质及设备
CN116527357A (zh) 一种基于门控Transformer的Web攻击检测方法
CN116150509B (zh) 社交媒体网络的威胁情报识别方法、***、设备及介质
CN111526144A (zh) 基于DVAE-Catboost的异常流量检测方法与***
CN111276133B (zh) 音频识别方法、***、移动终端及存储介质
CN107403618B (zh) 基于堆叠基稀疏表示的音频事件分类方法及计算机设备
CN113179250B (zh) web未知威胁检测方法及***
CN109617864B (zh) 一种网站识别方法及网站识别***
Liang et al. Image resampling detection based on convolutional neural network
Dehdar et al. Image steganalysis using modified graph clustering based ant colony optimization and Random Forest
CN117375896A (zh) 基于多尺度时空特征残差融合的入侵检测方法及***
CN116229960B (zh) 欺骗性语音鲁棒检测方法、***、介质及设备
WO2021088176A1 (zh) 基于二值多频带能量分布的低信噪比声音事件检测方法
CN116506210A (zh) 基于流量特征融合的网络入侵检测方法及***
Xin et al. Research on feature selection of intrusion detection based on deep learning
Ramesh Babu et al. A novel framework design for semantic based image retrieval as a cyber forensic tool
CN116935303A (zh) 一种弱监督自训练视频异常检测方法
CN111506764B (zh) 音频数据筛选方法、计算机设备和存储介质
CN114171057A (zh) 基于声纹的变压器事件检测方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant