CN113362854A

CN113362854A - 基于稀疏自注意力机制的声学事件检测方法、***、存储介质及设备

Info

Publication number: CN113362854A
Application number: CN202110619344.0A
Authority: CN
Inventors: 韩纪庆; 关亚东; 薛嘉宾; 郑贵滨; 郑铁然
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2021-06-03
Filing date: 2021-06-03
Publication date: 2021-09-07
Anticipated expiration: 2041-06-03
Also published as: CN113362854B

Abstract

基于稀疏自注意力机制的声学事件检测方法、***、存储介质及设备，属于机器的听觉智能领域。为了解决现有的时序特征提取网络存在无法实现有效的时序建模的问题，从而限制了现有声学事件检测***的性能。本发明首先对输入音频信号提取梅尔声谱图，然后分别输入到卷积神经网络提取局部特征，并利用基于稀疏自注意力机制的TransformerEncoder提取时域特征；最后输入到全连接层进行分类，并对结果进行后处理，结果输出每个被检测到的声学事件的类别及起止时间。主要用于声学事件的检测。

Description

基于稀疏自注意力机制的声学事件检测方法、***、存储介质及设备

技术领域

本发明属于机器的听觉智能领域，涉及声学事件检测的方法***、存储介质及设备。

背景技术

声学事件检测是指通过对声音信号的分析处理，以识别出音频信号中发生的声学事件类型及每个声学事件的起止时间。声学事件检测在安防、智慧家居、智慧城市、多媒体信息检索、生物多样性检测、智能机器人环境感知等方面有着广泛的应用前景。

现有的声学事件检测***的结构包括频谱特征提取模块、神经网络模块、后处理模块，其中神经网络模块是声学事件检测***的核心模块。神经网络模块主要包含两部分：局部特征提取网络与时序特征提取网络。现有的时序特征提取网络常采用自注意力机制，这种自注意力机制使得网络在处理特定时刻的特征时会受音频段内所有时刻特征的影响，而实际上，很多时刻的特征对于当前时刻特征的建模来说是无用甚至有害的，这使得网络无法实现有效的时序建模，因此限制了现有声学事件检测***的性能，影响了现有技术的实用性。

发明内容

本发明是为了解决现有的时序特征提取网络存在无法实现有效的时序建模的问题，从而限制了现有声学事件检测***的性能。

一种基于稀疏自注意力机制的声学事件检测方法，包括以下步骤：

首先对输入音频信号提取梅尔声谱图，然后分别输入到卷积神经网络提取局部特征，并利用基于稀疏自注意力机制的Transformer Encoder提取时域特征；最后输入到全连接层进行分类，并对结果进行后处理，结果输出每个被检测到的声学事件的类别及起止时间；

所述提取时域特征的过程包括以下步骤：

将提取的局部特征H_i输入到一个单层的Transformer Encoder模型中，采用稀疏归一化方法对注意力权重归一化；对得到的注意力权重矩阵的归一化操作包括以下步骤：

2.1、A的第t列为A_t，对A_t中的元素进行降序排列；A为自注意力层中的注意力权重矩阵；

2.2、寻找满足以下条件的中间参数k_t；

k_t∈max{k∈[T]|1+kA_t,k＞∑_j≤kA_t,j}

其中T表示时间维度的大小，[T]＝{1,2...T}，A_t,k、A_t,j分别为向量A_t中的第k个和第j个元素；

2.3、求阈值τ_t

2.4、对于A_t中的每个元素j，求：

A′_t,j＝[A_t,j-τ_t]₊

其中，[·]₊表示[·]₊＝max{0,·}；

2.5、返回步骤2.1，直到t＝T，得到归一化的注意力权重矩阵A′。

进一步地，所述的自注意力层中的注意力权重矩阵：

其中

分别为self-attention中的Query和Key矩阵，d_k为特征维度大小。

进一步地，分别输入到卷积神经网络提取局部特征所述的卷积神经网络是有至少一个卷积模块组成的，所述的卷积模块包括一个卷积层、一个归一化层、一个非线性层和一个最大池化层。

进一步地，所述的用于提取局部特征的卷积神经网络由七个卷积模块组成，所述卷积神经网络的堆叠的卷积滤波器个数依次为16、32、64、128、128、128、128；最大池化层的池化大小为(2,2)、(2,2)、(1,2)、(1,2)、(1,2)、(1,2)、(1,2)。

每个卷积模块中的卷积层为二维卷积层，卷积核大小为(3,3)，步长为(1,1)。

进一步地，最后输入到全连接层进行分类的过程包括以下步骤：

利用全连接层对特征进行分类，其中隐藏层参数为128，激活函数采用Sigmoid激活函数。

进一步地，对结果进行后处理，结果输出每个被检测到的声学事件的类别及起止时间的过程包括以下步骤：

利用中值滤波对输出概率进行平滑，得到声学事件的预测概率

当

大于0.5表示第t时刻发生了第c类声学事件，反之表示第c类事件未发生；进而得到每一时刻声音事件是否发生的信息，继而可得声音事件的发生与结束时间。

进一步地，对输入音频信号提取梅尔声谱图的过程包括以下步骤：

输入的声音信号为10秒的声音段，采样率为16kHz；梅尔声谱提取过程采用窗长为2048，帧移为255，128个梅尔域滤波器，并将数值映射到自然对数域；最终，一个10秒的声音片段，提取的梅尔声谱图X_i的大小为(648,128)；其中648为帧数，128是梅尔滤波器系数的阶数。

一种基于稀疏自注意力机制的声学事件检测***，所述***用于执行一种基于稀疏自注意力机制的声学事件检测方法。

一种存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现一种基于稀疏自注意力机制的声学事件检测方法。

一种设备，所述设备包括处理器和存储器，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现一种基于稀疏自注意力机制的声学事件检测方法。

有益效果：

本发明所提出的方法，通过对注意力权重稀疏化，使得模型在建模声音事件的时序结构时减少了与某些无关时刻信息的耦合，因此实现了更有效的时序建模，提高了现有声学事件检测***的性能，将本发明提出的方法在国际公开的声学事件检测数据集上进行验证，结果表明其分类性能较原有***有较大提高。

附图说明

图1为一种基于稀疏自注意力机制的声学事件检测方法的示意图。

图2为图1中卷积神经网络部分的结构示意图，其中x7表示左括号所包含的模块堆叠7次。

图3为图1中Transformer Encoder网络部分的结构示意图，其中包括了所提出的自注意力权重稀疏化方法。

图4为本发明所提出的方法与原有基线***在国际公开数据集上的检测性能比较图。

具体实施方式

具体实施方式一：

本实施方式为一种基于稀疏自注意力机制的声学事件检测方法，为使时序特征提取网络在进行时序建模时，能有选择地减少与其他时刻的无用特征的耦合，从而更有效建模声音信号的时序特征，本发明提出了一种基于稀疏自注意力机制的声学事件检测方法，将自注意力机制中的Softmax归一化方法替换为稀疏的归一化方法。

图1为基于稀疏自注意力机制的声学事件检测方法的一种具体实施模型示意图。首先对输入音频信号提取梅尔声谱图，而后分别输入到卷积神经网络CNN提取局部特征、利用基于稀疏自注意力机制的Transformer Encoder提取时序特征，最后输入到全连接层进行分类，并对结果进行后处理，结果输出每个被检测到的声学事件的类别及起止时间。具体而言包括以下步骤：

步骤1、提取音频信号的局部特征。

步骤1.1、提取梅尔声谱图。

首先对于输入的声音信号，提取常用的梅尔声谱图特征作为模型输入。在一些实施例中，输入的声音信号为10秒的声音段，采样率为16kHz。梅尔声谱提取过程采用窗长为2048，帧移为255，128个梅尔域滤波器，并将数值映射到自然对数域。最终，一个10秒的声音片段，提取的梅尔声谱图X_i的大小为(648,128)。其中648为帧数，128是梅尔滤波器系数的阶数。

步骤1.2、提取局部特征。

将提取的梅尔声谱图输入到一个卷积神经网络模型中。该卷积神经网络由一系列包括卷积层、归一化层、非线性层最大池化层的卷积模块组成，如图2所示。一些实施例中采用7个卷积模块，二维卷积层卷积核大小为(3,3)，步长为(1,1)，堆叠的卷积滤波器个数依次为(16,32,64,128,128,128,128)。最大池化层的池化大小为((2,2),(2,2),(1,2),(1,2),(1,2),(1,2),(1,2))。所有用到的二维卷积层、最大池化层、批归一化层和线性整流单元均为常用神经网络框架中的标准组件。

输入的梅尔声谱图，经过卷积神经网络映射之后，得到局部特征H_i。其中，H_i的维度为(157，128)，157为时间维数，128为特征维数。

步骤2、提取时域特征。

将提取的局部特征H_i输入到一个单层的Transformer Encoder模型中。Transformer Encoder模型由全连接层、自注意力层、dropout层组成，其详细配置与参数如附图3所示。图中所示的注意力头数为16，线性映射层的维度为512，dropout为0.2。采用提出的稀疏归一化方法对注意力权重归一化，其他组件均为常用神经网络框架中的标准组件。网络输出张量表示为M_i，其维度为(157,128)。

其中自注意力层中的注意力权重矩阵的计算过程为：

其中

分别为self-attention中的Query和Key矩阵，d_k为特征维度大小。

对得到的注意力权重矩阵的归一化操作如下：

2.1、A的第t列为A_t，对A_t中的元素进行降序排列；

2.2、寻找满足以下条件的中间参数k_t；

k_t∈max{k∈[T]|1+kA_t,k＞∑_j≤kA_t,j} (2)

2.3、求阈值τ_t

2.4、对于A_t中的每个元素j，求：

A′_t,j＝[A_t,j-τ_t]₊ (4)

其中，[·]₊表示[·]₊＝max{0,·}。

下面分析本发明所提方法的特点：在对某一时刻t₁、种类为S的声学事件进行时序建模时，理想情况是只对音频段中所有属于类别S的时刻的特征加权求和，其他不属于类别S的时刻t₂的特征对应的权重为0，这里所说的权重指的是时刻t₁的特征与时刻t₂的特征的相似度。另外，一般情况下，较大的注意力权值表示相同种类声学事件之间的相似度，而较小的注意力权值常表示不同种类声学事件之间的相似度。

由以上方法得到的归一化的注意力权重A′与一般的经过softmax变换得到的归一化注意力权重相比，前者能够忽略相对较小的注意力权值。因此，归一化后的注意力权重用于对不同时刻的特征进行加权求和时，稀疏的注意力权重A′可以使神经网络在对同类别的声学事件特征进行建模时更少地受到其他类别声学事件特征的的影响。并且，本发明并不是简单地通过卡阈值的方式将小权值直接置0，而是综合考虑所有权值后，自适应地将相对较小的权值置0。

综上所述，本发明有利于神经网络对声音事件的建模，有利于提高声学事件检测***的性能。

步骤3、特征分类。

利用全连接层对特征进行分类，其中隐藏层参数为128，输出维度为(157,10)，激活函数采用Sigmoid激活函数，输出矩阵用O_i表示。

步骤4、后处理。

当

大于0.5表示第t时刻发生了第c类声学事件，反之表示第c类事件未发生。这样就得到了每一时刻声音事件是否发生的信息，继而可得声音事件的发生与结束时间。

实施例

为验证本发明的有效性，采用具体实施方式一的方案在目前国际公开的声学事件检测数据集DESED上进行验证，并将所提出的方法与原有基线方法进行比较。如图4所示，本发明所提出的方法在对所有十类声学事件检测的识别性能均优原有基线***的结果。原有***在数据集上的平均性能为44.22％，所提出的方法的平均性能为47.65％，并且该结果超过了DCASE 2020比赛任务四的第一名的单模型的性能。因此，实验结果充分验证了本发明的有效性。

具体实施方式二：

本实施方式为一种基于稀疏自注意力机制的声学事件检测***，所述***用于执行一种基于稀疏自注意力机制的声学事件检测方法。

具体实施方式三：

本实施方式为一种存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现一种基于稀疏自注意力机制的声学事件检测方法。

具体实施方式四：

本实施方式为一种设备，所述设备包括处理器和存储器，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现一种基于稀疏自注意力机制的声学事件检测方法。

本发明的上述算例仅为详细地说明本发明的计算模型和计算流程，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims

1.一种基于稀疏自注意力机制的声学事件检测方法，包括以下步骤：

其特征在于，所述提取时域特征的过程包括以下步骤：

2.2、寻找满足以下条件的中间参数k_t；

k_t∈max{k∈[T]|1+kA_t,k＞∑_j≤kA_t,j}

2.3、求阈值τ_t

2.4、对于A_t中的每个元素j，求：

A′_t,j＝[A_t,j-τ_t]₊

其中，[·]₊表示[·]₊＝max{0,·}；

2.根据权利要求1所述的一种基于稀疏自注意力机制的声学事件检测方法，其特征在于，所述的自注意力层中的注意力权重矩阵：

其中

分别为self-attention中的Query和Key矩阵，d_k为特征维度大小。

3.根据权利要求2所述的一种基于稀疏自注意力机制的声学事件检测方法，其特征在于，分别输入到卷积神经网络提取局部特征所述的卷积神经网络是有至少一个卷积模块组成的，所述的卷积模块包括一个卷积层、一个归一化层、一个非线性层和一个最大池化层。

4.根据权利要求3所述的一种基于稀疏自注意力机制的声学事件检测方法，其特征在于，所述的用于提取局部特征的卷积神经网络由七个卷积模块组成，所述卷积神经网络的堆叠的卷积滤波器个数依次为16、32、64、128、128、128、128；最大池化层的池化大小为(2,2)、(2,2)、(1,2)、(1,2)、(1,2)、(1,2)、(1,2)。

5.根据权利要求4所述的一种基于稀疏自注意力机制的声学事件检测方法，其特征在于，最后输入到全连接层进行分类的过程包括以下步骤：

6.根据权利要求1至5之一所述的一种基于稀疏自注意力机制的声学事件检测方法，其特征在于，对结果进行后处理，结果输出每个被检测到的声学事件的类别及起止时间的过程包括以下步骤：

当

7.根据权利要求6所述的一种基于稀疏自注意力机制的声学事件检测方法，其特征在于，对输入音频信号提取梅尔声谱图的过程包括以下步骤：

8.一种基于稀疏自注意力机制的声学事件检测***，其特征在于，所述***用于执行权利要求1至7之一所述的一种基于稀疏自注意力机制的声学事件检测方法。

9.一种存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至7之一所述的一种基于稀疏自注意力机制的声学事件检测方法。

10.一种设备，其特征在于，所述设备包括处理器和存储器，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至7之一所述的一种基于稀疏自注意力机制的声学事件检测方法。