CN113362854A - 基于稀疏自注意力机制的声学事件检测方法、***、存储介质及设备 - Google Patents
基于稀疏自注意力机制的声学事件检测方法、***、存储介质及设备 Download PDFInfo
- Publication number
- CN113362854A CN113362854A CN202110619344.0A CN202110619344A CN113362854A CN 113362854 A CN113362854 A CN 113362854A CN 202110619344 A CN202110619344 A CN 202110619344A CN 113362854 A CN113362854 A CN 113362854A
- Authority
- CN
- China
- Prior art keywords
- acoustic event
- event detection
- attention mechanism
- detection method
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 41
- 230000007246 mechanism Effects 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 17
- 230000005236 sound signal Effects 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 238000012805 post-processing Methods 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 239000012634 fragment Substances 0.000 claims description 3
- 230000037433 frameshift Effects 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 2
- 239000010410 layer Substances 0.000 description 30
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 239000002356 single layer Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
基于稀疏自注意力机制的声学事件检测方法、***、存储介质及设备,属于机器的听觉智能领域。为了解决现有的时序特征提取网络存在无法实现有效的时序建模的问题,从而限制了现有声学事件检测***的性能。本发明首先对输入音频信号提取梅尔声谱图,然后分别输入到卷积神经网络提取局部特征,并利用基于稀疏自注意力机制的TransformerEncoder提取时域特征;最后输入到全连接层进行分类,并对结果进行后处理,结果输出每个被检测到的声学事件的类别及起止时间。主要用于声学事件的检测。
Description
技术领域
本发明属于机器的听觉智能领域,涉及声学事件检测的方法***、存储介质及设备。
背景技术
声学事件检测是指通过对声音信号的分析处理,以识别出音频信号中发生的声学事件类型及每个声学事件的起止时间。声学事件检测在安防、智慧家居、智慧城市、多媒体信息检索、生物多样性检测、智能机器人环境感知等方面有着广泛的应用前景。
现有的声学事件检测***的结构包括频谱特征提取模块、神经网络模块、后处理模块,其中神经网络模块是声学事件检测***的核心模块。神经网络模块主要包含两部分:局部特征提取网络与时序特征提取网络。现有的时序特征提取网络常采用自注意力机制,这种自注意力机制使得网络在处理特定时刻的特征时会受音频段内所有时刻特征的影响,而实际上,很多时刻的特征对于当前时刻特征的建模来说是无用甚至有害的,这使得网络无法实现有效的时序建模,因此限制了现有声学事件检测***的性能,影响了现有技术的实用性。
发明内容
本发明是为了解决现有的时序特征提取网络存在无法实现有效的时序建模的问题,从而限制了现有声学事件检测***的性能。
一种基于稀疏自注意力机制的声学事件检测方法,包括以下步骤:
首先对输入音频信号提取梅尔声谱图,然后分别输入到卷积神经网络提取局部特征,并利用基于稀疏自注意力机制的Transformer Encoder提取时域特征;最后输入到全连接层进行分类,并对结果进行后处理,结果输出每个被检测到的声学事件的类别及起止时间;
所述提取时域特征的过程包括以下步骤:
将提取的局部特征Hi输入到一个单层的Transformer Encoder模型中,采用稀疏归一化方法对注意力权重归一化;对得到的注意力权重矩阵的归一化操作包括以下步骤:
2.1、A的第t列为At,对At中的元素进行降序排列;A为自注意力层中的注意力权重矩阵;
2.2、寻找满足以下条件的中间参数kt;
kt∈max{k∈[T]|1+kAt,k>∑j≤kAt,j}
其中T表示时间维度的大小,[T]={1,2...T},At,k、At,j分别为向量At中的第k个和第j个元素;
2.3、求阈值τt
2.4、对于At中的每个元素j,求:
A′t,j=[At,j-τt]+
其中,[·]+表示[·]+=max{0,·};
2.5、返回步骤2.1,直到t=T,得到归一化的注意力权重矩阵A′。
进一步地,所述的自注意力层中的注意力权重矩阵:
进一步地,分别输入到卷积神经网络提取局部特征所述的卷积神经网络是有至少一个卷积模块组成的,所述的卷积模块包括一个卷积层、一个归一化层、一个非线性层和一个最大池化层。
进一步地,所述的用于提取局部特征的卷积神经网络由七个卷积模块组成,所述卷积神经网络的堆叠的卷积滤波器个数依次为16、32、64、128、128、128、128;最大池化层的池化大小为(2,2)、(2,2)、(1,2)、(1,2)、(1,2)、(1,2)、(1,2)。
每个卷积模块中的卷积层为二维卷积层,卷积核大小为(3,3),步长为(1,1)。
进一步地,最后输入到全连接层进行分类的过程包括以下步骤:
利用全连接层对特征进行分类,其中隐藏层参数为128,激活函数采用Sigmoid激活函数。
进一步地,对结果进行后处理,结果输出每个被检测到的声学事件的类别及起止时间的过程包括以下步骤:
利用中值滤波对输出概率进行平滑,得到声学事件的预测概率当大于0.5表示第t时刻发生了第c类声学事件,反之表示第c类事件未发生;进而得到每一时刻声音事件是否发生的信息,继而可得声音事件的发生与结束时间。
进一步地,对输入音频信号提取梅尔声谱图的过程包括以下步骤:
输入的声音信号为10秒的声音段,采样率为16kHz;梅尔声谱提取过程采用窗长为2048,帧移为255,128个梅尔域滤波器,并将数值映射到自然对数域;最终,一个10秒的声音片段,提取的梅尔声谱图Xi的大小为(648,128);其中648为帧数,128是梅尔滤波器系数的阶数。
一种基于稀疏自注意力机制的声学事件检测***,所述***用于执行一种基于稀疏自注意力机制的声学事件检测方法。
一种存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现一种基于稀疏自注意力机制的声学事件检测方法。
一种设备,所述设备包括处理器和存储器,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现一种基于稀疏自注意力机制的声学事件检测方法。
有益效果:
本发明所提出的方法,通过对注意力权重稀疏化,使得模型在建模声音事件的时序结构时减少了与某些无关时刻信息的耦合,因此实现了更有效的时序建模,提高了现有声学事件检测***的性能,将本发明提出的方法在国际公开的声学事件检测数据集上进行验证,结果表明其分类性能较原有***有较大提高。
附图说明
图1为一种基于稀疏自注意力机制的声学事件检测方法的示意图。
图2为图1中卷积神经网络部分的结构示意图,其中x7表示左括号所包含的模块堆叠7次。
图3为图1中Transformer Encoder网络部分的结构示意图,其中包括了所提出的自注意力权重稀疏化方法。
图4为本发明所提出的方法与原有基线***在国际公开数据集上的检测性能比较图。
具体实施方式
具体实施方式一:
本实施方式为一种基于稀疏自注意力机制的声学事件检测方法,为使时序特征提取网络在进行时序建模时,能有选择地减少与其他时刻的无用特征的耦合,从而更有效建模声音信号的时序特征,本发明提出了一种基于稀疏自注意力机制的声学事件检测方法,将自注意力机制中的Softmax归一化方法替换为稀疏的归一化方法。
图1为基于稀疏自注意力机制的声学事件检测方法的一种具体实施模型示意图。首先对输入音频信号提取梅尔声谱图,而后分别输入到卷积神经网络CNN提取局部特征、利用基于稀疏自注意力机制的Transformer Encoder提取时序特征,最后输入到全连接层进行分类,并对结果进行后处理,结果输出每个被检测到的声学事件的类别及起止时间。具体而言包括以下步骤:
步骤1、提取音频信号的局部特征。
步骤1.1、提取梅尔声谱图。
首先对于输入的声音信号,提取常用的梅尔声谱图特征作为模型输入。在一些实施例中,输入的声音信号为10秒的声音段,采样率为16kHz。梅尔声谱提取过程采用窗长为2048,帧移为255,128个梅尔域滤波器,并将数值映射到自然对数域。最终,一个10秒的声音片段,提取的梅尔声谱图Xi的大小为(648,128)。其中648为帧数,128是梅尔滤波器系数的阶数。
步骤1.2、提取局部特征。
将提取的梅尔声谱图输入到一个卷积神经网络模型中。该卷积神经网络由一系列包括卷积层、归一化层、非线性层最大池化层的卷积模块组成,如图2所示。一些实施例中采用7个卷积模块,二维卷积层卷积核大小为(3,3),步长为(1,1),堆叠的卷积滤波器个数依次为(16,32,64,128,128,128,128)。最大池化层的池化大小为((2,2),(2,2),(1,2),(1,2),(1,2),(1,2),(1,2))。所有用到的二维卷积层、最大池化层、批归一化层和线性整流单元均为常用神经网络框架中的标准组件。
输入的梅尔声谱图,经过卷积神经网络映射之后,得到局部特征Hi。其中,Hi的维度为(157,128),157为时间维数,128为特征维数。
步骤2、提取时域特征。
将提取的局部特征Hi输入到一个单层的Transformer Encoder模型中。Transformer Encoder模型由全连接层、自注意力层、dropout层组成,其详细配置与参数如附图3所示。图中所示的注意力头数为16,线性映射层的维度为512,dropout为0.2。采用提出的稀疏归一化方法对注意力权重归一化,其他组件均为常用神经网络框架中的标准组件。网络输出张量表示为Mi,其维度为(157,128)。
其中自注意力层中的注意力权重矩阵的计算过程为:
对得到的注意力权重矩阵的归一化操作如下:
2.1、A的第t列为At,对At中的元素进行降序排列;
2.2、寻找满足以下条件的中间参数kt;
kt∈max{k∈[T]|1+kAt,k>∑j≤kAt,j} (2)
其中T表示时间维度的大小,[T]={1,2...T},At,k、At,j分别为向量At中的第k个和第j个元素;
2.3、求阈值τt
2.4、对于At中的每个元素j,求:
A′t,j=[At,j-τt]+ (4)
其中,[·]+表示[·]+=max{0,·}。
2.5、返回步骤2.1,直到t=T,得到归一化的注意力权重矩阵A′。
下面分析本发明所提方法的特点:在对某一时刻t1、种类为S的声学事件进行时序建模时,理想情况是只对音频段中所有属于类别S的时刻的特征加权求和,其他不属于类别S的时刻t2的特征对应的权重为0,这里所说的权重指的是时刻t1的特征与时刻t2的特征的相似度。另外,一般情况下,较大的注意力权值表示相同种类声学事件之间的相似度,而较小的注意力权值常表示不同种类声学事件之间的相似度。
由以上方法得到的归一化的注意力权重A′与一般的经过softmax变换得到的归一化注意力权重相比,前者能够忽略相对较小的注意力权值。因此,归一化后的注意力权重用于对不同时刻的特征进行加权求和时,稀疏的注意力权重A′可以使神经网络在对同类别的声学事件特征进行建模时更少地受到其他类别声学事件特征的的影响。并且,本发明并不是简单地通过卡阈值的方式将小权值直接置0,而是综合考虑所有权值后,自适应地将相对较小的权值置0。
综上所述,本发明有利于神经网络对声音事件的建模,有利于提高声学事件检测***的性能。
步骤3、特征分类。
利用全连接层对特征进行分类,其中隐藏层参数为128,输出维度为(157,10),激活函数采用Sigmoid激活函数,输出矩阵用Oi表示。
步骤4、后处理。
利用中值滤波对输出概率进行平滑,得到声学事件的预测概率当大于0.5表示第t时刻发生了第c类声学事件,反之表示第c类事件未发生。这样就得到了每一时刻声音事件是否发生的信息,继而可得声音事件的发生与结束时间。
实施例
为验证本发明的有效性,采用具体实施方式一的方案在目前国际公开的声学事件检测数据集DESED上进行验证,并将所提出的方法与原有基线方法进行比较。如图4所示,本发明所提出的方法在对所有十类声学事件检测的识别性能均优原有基线***的结果。原有***在数据集上的平均性能为44.22%,所提出的方法的平均性能为47.65%,并且该结果超过了DCASE 2020比赛任务四的第一名的单模型的性能。因此,实验结果充分验证了本发明的有效性。
具体实施方式二:
本实施方式为一种基于稀疏自注意力机制的声学事件检测***,所述***用于执行一种基于稀疏自注意力机制的声学事件检测方法。
具体实施方式三:
本实施方式为一种存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现一种基于稀疏自注意力机制的声学事件检测方法。
具体实施方式四:
本实施方式为一种设备,所述设备包括处理器和存储器,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现一种基于稀疏自注意力机制的声学事件检测方法。
本发明的上述算例仅为详细地说明本发明的计算模型和计算流程,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。
Claims (10)
1.一种基于稀疏自注意力机制的声学事件检测方法,包括以下步骤:
首先对输入音频信号提取梅尔声谱图,然后分别输入到卷积神经网络提取局部特征,并利用基于稀疏自注意力机制的Transformer Encoder提取时域特征;最后输入到全连接层进行分类,并对结果进行后处理,结果输出每个被检测到的声学事件的类别及起止时间;
其特征在于,所述提取时域特征的过程包括以下步骤:
将提取的局部特征Hi输入到一个单层的Transformer Encoder模型中,采用稀疏归一化方法对注意力权重归一化;对得到的注意力权重矩阵的归一化操作包括以下步骤:
2.1、A的第t列为At,对At中的元素进行降序排列;A为自注意力层中的注意力权重矩阵;
2.2、寻找满足以下条件的中间参数kt;
kt∈max{k∈[T]|1+kAt,k>∑j≤kAt,j}
其中T表示时间维度的大小,[T]={1,2...T},At,k、At,j分别为向量At中的第k个和第j个元素;
2.3、求阈值τt
2.4、对于At中的每个元素j,求:
A′t,j=[At,j-τt]+
其中,[·]+表示[·]+=max{0,·};
2.5、返回步骤2.1,直到t=T,得到归一化的注意力权重矩阵A′。
3.根据权利要求2所述的一种基于稀疏自注意力机制的声学事件检测方法,其特征在于,分别输入到卷积神经网络提取局部特征所述的卷积神经网络是有至少一个卷积模块组成的,所述的卷积模块包括一个卷积层、一个归一化层、一个非线性层和一个最大池化层。
4.根据权利要求3所述的一种基于稀疏自注意力机制的声学事件检测方法,其特征在于,所述的用于提取局部特征的卷积神经网络由七个卷积模块组成,所述卷积神经网络的堆叠的卷积滤波器个数依次为16、32、64、128、128、128、128;最大池化层的池化大小为(2,2)、(2,2)、(1,2)、(1,2)、(1,2)、(1,2)、(1,2)。
每个卷积模块中的卷积层为二维卷积层,卷积核大小为(3,3),步长为(1,1)。
5.根据权利要求4所述的一种基于稀疏自注意力机制的声学事件检测方法,其特征在于,最后输入到全连接层进行分类的过程包括以下步骤:
利用全连接层对特征进行分类,其中隐藏层参数为128,激活函数采用Sigmoid激活函数。
7.根据权利要求6所述的一种基于稀疏自注意力机制的声学事件检测方法,其特征在于,对输入音频信号提取梅尔声谱图的过程包括以下步骤:
输入的声音信号为10秒的声音段,采样率为16kHz;梅尔声谱提取过程采用窗长为2048,帧移为255,128个梅尔域滤波器,并将数值映射到自然对数域;最终,一个10秒的声音片段,提取的梅尔声谱图Xi的大小为(648,128);其中648为帧数,128是梅尔滤波器系数的阶数。
8.一种基于稀疏自注意力机制的声学事件检测***,其特征在于,所述***用于执行权利要求1至7之一所述的一种基于稀疏自注意力机制的声学事件检测方法。
9.一种存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至7之一所述的一种基于稀疏自注意力机制的声学事件检测方法。
10.一种设备,其特征在于,所述设备包括处理器和存储器,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至7之一所述的一种基于稀疏自注意力机制的声学事件检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110619344.0A CN113362854B (zh) | 2021-06-03 | 2021-06-03 | 基于稀疏自注意力机制的声学事件检测方法、***、存储介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110619344.0A CN113362854B (zh) | 2021-06-03 | 2021-06-03 | 基于稀疏自注意力机制的声学事件检测方法、***、存储介质及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113362854A true CN113362854A (zh) | 2021-09-07 |
CN113362854B CN113362854B (zh) | 2022-11-15 |
Family
ID=77531749
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110619344.0A Active CN113362854B (zh) | 2021-06-03 | 2021-06-03 | 基于稀疏自注意力机制的声学事件检测方法、***、存储介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113362854B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023245991A1 (zh) * | 2022-06-24 | 2023-12-28 | 南方电网调峰调频发电有限公司储能科研院 | 融合频带自向下注意力机制的电厂设备状态听觉监测方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110600059A (zh) * | 2019-09-05 | 2019-12-20 | Oppo广东移动通信有限公司 | 声学事件检测方法、装置、电子设备及存储介质 |
CN111145718A (zh) * | 2019-12-30 | 2020-05-12 | 中国科学院声学研究所 | 一种基于自注意力机制的中文普通话字音转换方法 |
CN111899760A (zh) * | 2020-07-17 | 2020-11-06 | 北京达佳互联信息技术有限公司 | 音频事件的检测方法、装置、电子设备及存储介质 |
CN111933188A (zh) * | 2020-09-14 | 2020-11-13 | 电子科技大学 | 一种基于卷积神经网络的声音事件检测方法 |
CN112802484A (zh) * | 2021-04-12 | 2021-05-14 | 四川大学 | 一种混合音频下的大熊猫声音事件检测方法及*** |
CN113223506A (zh) * | 2021-05-28 | 2021-08-06 | 思必驰科技股份有限公司 | 语音识别模型训练方法及语音识别方法 |
US20220068462A1 (en) * | 2020-08-28 | 2022-03-03 | doc.ai, Inc. | Artificial Memory for use in Cognitive Behavioral Therapy Chatbot |
US20220108698A1 (en) * | 2020-10-07 | 2022-04-07 | Mitsubishi Electric Research Laboratories, Inc. | System and Method for Producing Metadata of an Audio Signal |
-
2021
- 2021-06-03 CN CN202110619344.0A patent/CN113362854B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110600059A (zh) * | 2019-09-05 | 2019-12-20 | Oppo广东移动通信有限公司 | 声学事件检测方法、装置、电子设备及存储介质 |
CN111145718A (zh) * | 2019-12-30 | 2020-05-12 | 中国科学院声学研究所 | 一种基于自注意力机制的中文普通话字音转换方法 |
CN111899760A (zh) * | 2020-07-17 | 2020-11-06 | 北京达佳互联信息技术有限公司 | 音频事件的检测方法、装置、电子设备及存储介质 |
US20220068462A1 (en) * | 2020-08-28 | 2022-03-03 | doc.ai, Inc. | Artificial Memory for use in Cognitive Behavioral Therapy Chatbot |
CN111933188A (zh) * | 2020-09-14 | 2020-11-13 | 电子科技大学 | 一种基于卷积神经网络的声音事件检测方法 |
US20220108698A1 (en) * | 2020-10-07 | 2022-04-07 | Mitsubishi Electric Research Laboratories, Inc. | System and Method for Producing Metadata of an Audio Signal |
CN112802484A (zh) * | 2021-04-12 | 2021-05-14 | 四川大学 | 一种混合音频下的大熊猫声音事件检测方法及*** |
CN113223506A (zh) * | 2021-05-28 | 2021-08-06 | 思必驰科技股份有限公司 | 语音识别模型训练方法及语音识别方法 |
Non-Patent Citations (5)
Title |
---|
ANDR´E FT MARTINS 等: ""From softmax to sparsemax: A sparse model of attention and multi-label classifification"", 《HTTPS://ARXIV.ORG/ABS/1602.02068V2》 * |
GONC¸ALO M. CORREIA 等: ""Adaptively Sparse Transformers"", 《HTTPS://ARXIV.ORG/ABS/1909.00015V1》 * |
KOICHI MIYAZAKI 等: ""CONVOLUTION-AUGMENTED TRANSFORMER FOR SEMI-SUPERVISED SOUND EVENT DETECTION"", 《DETECTION AND CLASSIFICATION OF ACOUSTIC SCENES AND EVENTS 2020》 * |
M.KOICHI 等: ""Weakly supervised sound event detection with self-attention"", 《ICASSP 2020》 * |
QIUQIANG KONG: ""Sound Event Detection of Weakly Labelled Data with CNN-Transformer and Automatic Threshold Optimization"", 《ARXIV:1912.04761V2》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023245991A1 (zh) * | 2022-06-24 | 2023-12-28 | 南方电网调峰调频发电有限公司储能科研院 | 融合频带自向下注意力机制的电厂设备状态听觉监测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113362854B (zh) | 2022-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111651504B (zh) | 基于深度学习的多元时间序列多层时空依赖建模方法 | |
Bayar et al. | On the robustness of constrained convolutional neural networks to jpeg post-compression for image resampling detection | |
US20140019390A1 (en) | Apparatus and method for audio fingerprinting | |
CN111564163B (zh) | 一种基于rnn的多种伪造操作语音检测方法 | |
CN113179250B (zh) | web未知威胁检测方法及*** | |
CN110968845B (zh) | 基于卷积神经网络生成的针对lsb隐写的检测方法 | |
CN111526144A (zh) | 基于DVAE-Catboost的异常流量检测方法与*** | |
CN113362854B (zh) | 基于稀疏自注意力机制的声学事件检测方法、***、存储介质及设备 | |
CN116527357A (zh) | 一种基于门控Transformer的Web攻击检测方法 | |
CN111276133B (zh) | 音频识别方法、***、移动终端及存储介质 | |
Jiang et al. | Research progress and challenges on application-driven adversarial examples: A survey | |
CN114554491A (zh) | 基于改进ssae和dnn模型的无线局域网入侵检测方法 | |
Dehdar et al. | Image steganalysis using modified graph clustering based ant colony optimization and Random Forest | |
CN114615010A (zh) | 一种基于深度学习的边缘服务器端入侵防御***设计方法 | |
Ramesh Babu et al. | A novel framework design for semantic based image retrieval as a cyber forensic tool | |
CN117375896A (zh) | 基于多尺度时空特征残差融合的入侵检测方法及*** | |
CN112418173A (zh) | 异常声音识别方法、装置及电子设备 | |
WO2021088176A1 (zh) | 基于二值多频带能量分布的低信噪比声音事件检测方法 | |
CN116506210A (zh) | 基于流量特征融合的网络入侵检测方法及*** | |
Xin et al. | Research on feature selection of intrusion detection based on deep learning | |
CN116405139A (zh) | 一种基于Informer的频谱预测模型和方法 | |
CN115909144A (zh) | 一种基于对抗学习的监控视频异常检测方法及*** | |
CN114171057A (zh) | 基于声纹的变压器事件检测方法及*** | |
CN112769619A (zh) | 一种基于决策树的多分类网络故障预测方法 | |
Jia et al. | A Method of Malicious Data Flow Detection Based on Convolutional Neural Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |