CN111161715A

CN111161715A - 一种基于序列分类的特定声音事件检索与定位的方法

Info

Publication number: CN111161715A
Application number: CN201911363277.XA
Authority: CN
Inventors: 余春艳; 刘煌; 吴长轩
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2020-05-15
Anticipated expiration: 2039-12-25
Also published as: CN111161715B

Abstract

本发明涉及一种基于序列分类的特定声音事件检索与定位的方法，通过利用声音的时序性和注意力机制关注重要的上下文信息以提取特定目标声音事件的声音深层特征，再通过多任务学***滑处理得到音频文件完整的特定声音事件检索和定位信息。

Description

一种基于序列分类的特定声音事件检索与定位的方法

技术领域

本发明涉及音频信号处理领域，特别是一种基于序列分类的特定声音事件检索与定位的方法。

背景技术

为了更好的介绍音域的概念，先介绍一些基本概念。

音频：音频信号一般分为语音信号和非语音信号两大类。语音主要是人类通过发音器官发出的、进行语音交流时的声音；而非语音则包括大自然各种声音，范围甚是宽广。

声音事件：声音事件是指音频流中具有某种特定语义或内容的一个音频片段，例如，街道中的风声，行人的走路声和说话声，以及汽车行驶的声音等等。

声音事件检测(Sound Event Detection,SED)，也称为音频事件检测，是指在给定的音频记录中，找出感兴趣的声音事件，判定每一个事件的类别，并定位每一个事件在音频记录中的起始和结束位置。

梅尔能量：梅尔能量特征将线性频谱映射到基于听觉感知的Mel 非线性频谱中。

双向GRU网络：双向GRU网络的前向和后向网络有32个GRU单元；前向和后向两个GRU神经单元使用共同的输入，连接着共同的输出；这个结构提供了输入序列中每个点完整的过去和未来的上下文时序信息。

多任务学习：多任务学习是利用任务之间的共享信息同时对多个任务进行学习的一种机器学习算法。多任务在同时进行学习的过程中，通过利用多个任务之间的相关性(共享信息)，以避免学习方法的欠学习，从而提升关键任务的泛化性能。多任务学习与单任务学习的区别之处在于：单任务学习是一次学习一个任务，建立对应模型，各个任务的学习是相互独立的，多任务学习则同时考虑了多个任务之间内在相关性，以提高模型的泛化能力。

注意力机制：人类的注意力机制(Attention Mechanism)使得当人的大脑接受到外部信息时，如听觉信息、视觉信息，往往不会对全部信息进行处理和理解，而只会将注意力集中在显著或者感兴趣的信息上，有助于语音识别、自然语言处理、图像检索等任务的完成。因此，人们通过构建注意力模型来模拟这种能力，以用于从众多信息中筛选出针对当前任务有用的重要信息。

单一的视频图像监控虽然目前在实际家庭安防应用中占据主要的地位，但是也存在一些不利条件，比如在光照条件不好或者夜晚时，或者目标物体被其他东西遮挡时，视频图像监控发挥的作用大大削弱，而音频监控则不受此影响。利用重叠声音检测技术，把各种声音分离出来，去除环境噪音，关注异常的声音，例如尖叫声、枪声等预示危险的异常声音。视频监控与声音检测相结合能够发挥出更大的效能，例如通过声音检测分离出异常声音，再定位到音源，然后快速使摄像头转向音源。相较单一的视频监控，二者结合能够提升室内安防的效果。单一的重叠声音检索也可用在视频监控无法部署的地方，或者摄像头不方便部署的地方，来弥补视频监控的不足。

发明内容

有鉴于此，本发明的目的是提供本发明的目的是提供一种基于序列分类的特定声音事件检索与定位的方法，对待测音源文件进行分析，利用声音的时序性和注意力机制关注重要的上下文信息以提取特定目标声音事件的声音深层特征，再通过多任务学习联合回归损失和分类损失来训练特定声音检索模型。使用该模型可以检索待测音频包含的特定声音事件和位置信息。

本发明采用以下方案实现：一种基于序列分类的特定声音事件检索与定位的方法，包括以下步骤：

步骤S1：选取已经标注完成的含有检索目标事件音源的声音片段分别进行特定声音事件检索模型构建；

步骤S2：对待检索的音源依据40ms为1帧，帧移20ms完成分帧，逐帧提取梅尔能量特征；61帧为1个声音片段，将待检索的音源依据1.2秒为1个片段，片段位移20ms完成分段，得到若干声音片段后，逐片段输入到特定声音事件检索模型中，得到每个声音片段的特定声音事件的检索结果；

步骤S3：检索每一帧中特定声音事件是否存在；

步骤S4：对S3得到的每帧检索结果进行平滑处理；

步骤S5：平滑处理后会输出给定音频文件中包含的声音事件出现起止时间的标注结果的集合，即得到需检索音源中包含的所有声音事件和每个声音事件对应的起止时间，如此得到完整的检索和定位信息。

进一步地，所述步骤S1具体包括以下内容：

步骤S11：将所需检测的声音事件的训练数据集中的音源按照 40ms为一帧，帧移20ms，一块为61帧完整分帧、分块，得到N个声音片段；逐帧计算其123维梅尔能量特征；

步骤S12：将每个声音片段的61帧梅尔能量特征输入到特定声音事件检索模型进行学习。

进一步地，步骤S11中所述的对每个声音帧计算其梅尔能量特征

包括以下步骤：

步骤SA：将声音帧进行预加重处理；

步骤SB：将声音帧进行分帧处理；

步骤SC：将声音帧进行加窗处理；

步骤SD：对步骤SC中进行加窗处理完对声音帧进行快速傅里叶变换(FastFourier Transform,FFT)得到对应的频谱；

步骤SE：再使用一组三角形带通滤波器所组成的梅尔刻度滤波器对功率谱使用向量乘法得到梅尔能量特征；

步骤SF：最后梅尔能量特征的计算公式为：

进一步地，所述步骤S12的具体内容为：首先，通过卷积层提取每帧的深层特征，将深层特征输入双向GRU层提取更加抽象的深层特征；然后将GRU网络得到的结果输入到Flatten层中做扁平化处理后输入到注意力层，所述注意力层包括分类注意力和回归注意力，再输入到分类和回归层，根据声音片段的标注真值，使用分类损失和回归损失，并且将两个损失联合起来做多任务损失学习。

进一步地，所述使用分类损失和回归损失，并且将两个损失联合起来做多任务损失学习的具体内容为：

由于定位任务的加入，对于给定的每一声音帧，其标注数据不仅需要包含声音事件类标签还需要给出其定位信息；给定声音片段S中的帧序列数据S＝{X₁,…,X_i,…,X_N}及其真值集合Y＝{Y₁,…,Y_i,…,Y_N}，其中，N为数据集大小，总的声音类别集合为C＝{C₀,…,C_C}，C₀表示背景声音事件，其余类别为前景声音事件；若X_i为背景事件C₀，则 Y_i＝{C₀}；若音频帧X_i中共包含l个前景声音事件，则

其中，

为声音事件的类别，

为该事件在声音片段起始和结束时间位置，

和

分别表示X_i到

和

的距离；使用交叉熵损失作为分类损失函数，使用修正余弦相似度 (AdjustedCosine Similarity,ACS)作为回归损失函数，最后将两个损失联合起来做多任务损失学习；

构造多任务损失函数：交叉熵结合修正余弦相似度构成的余弦多任务损失(MCL)。

对于使用MCL损失函数的模型，其训练过程是最小化如下损失函数：

其中，θ为网络的训练参数，λ用于平衡误差项和l₂范数正则化项，E_acos(θ)为修正余弦相似度损失，λ_acos表示其权重系数；E_cross(θ)表示交叉熵损失，λ_cross为其权重系数；

E_cross(θ)的计算公式如下：

E_acos(θ)的计算公式如下：

其中

是输出层距离平均值，

是预测平均值；余弦相似度仅考虑向量维度方向上的相似，没有考虑各个维度量纲的差异性，是归一化后的点积结果；而ACS同时考虑了向量维度的方向相似性和量纲差异性，是去中心化和归一化后的点积结果。

进一步地，所述步骤S3的具体内容为：对于第i帧，使用后处理操作得到第i帧检索结果：以第i帧开始，该帧对应起始

将连续的w 块数据组成W秒的时间窗口，该窗口中包含了w个块数据结果 {preⁱ,…,pre^i+w}；对该时间窗口判定其包含声音事件，对声音事件类c_j判断预测概率大于等于阈值p且个数大于等于q，假设声音事件类C中有 l个类存在，则输出对应检索集合

进一步地，步骤S4中所述进行平滑处理的具体内容为：相邻帧中同类别事件合并后，删除事件时间长度小于阈值的事件，同时两个可能目标段之间的无效帧小于等于设定帧时，这两段会被认为是一段。

与现有技术相比，本发明具有以下有益效果：

本发明针对重叠声音事件重叠数量不确定、特征刻画难度大的问题，且面向片段分类的检测方法导致的大量重复检测问题；针对传统重叠声音事件检测方法仅将重叠声音事件检测视为分类任务而忽视了回归任务；针对重叠声音事件容易漏检和误检的问题，本发明相比传统方法在检测性能上有整体提升。

附图说明

图1为本发明实施例的双向GRU网络结构图。

图2为本发明实施例的Street数据集“b093.wav”音频文件检索结果图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括” 时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

本实施例提供一种基于序列分类的特定声音事件检索与定位的方法，其特征在于：包括以下步骤：

步骤S3：检索每一帧中特定声音事件是否存在；

步骤S4：对S3得到的每帧检索结果进行平滑处理；

步骤S5：平滑处理后会输出给定音频文件中包含的声音事件出现起止时间的标注结果的集合，即得到需检索音源中包含的所有声音事件和每个声音事件对应的起止时间，如此得到完整的检索和定位信息。如图2。

在本实施例中，所述步骤S1具体包括以下内容：

步骤S11：将所需检测的声音事件的训练数据集中的音源(例如要检测脚步声，需要将含有脚步声的训练数据集放入模型进行训练)按照 40ms为一帧，帧移20ms，一块为61帧(约1.2秒)完整分帧、分块，得到N个声音片段；逐帧计算其123维梅尔能量特征；

在本实施例中，步骤S11中所述的对每个声音帧计算其梅尔能量

特征包括以下步骤：

步骤SA：将声音帧进行预加重处理；

步骤SB：将声音帧进行分帧处理；

步骤SC：将声音帧进行加窗处理；

步骤SF：最后梅尔能量特征的计算公式为：

在本实施例中，所述步骤S12的具体内容为：首先，通过卷积层提取每帧的深层特征，为了有效地利用上下文时序信息，将深层特征输入双向GRU层提取更加抽象的深层特征；然后将GRU网络得到的结果输入到Flatten层中做扁平化处理后输入到注意力层，所述注意力层包括分类注意力和回归注意力，再输入到分类和回归层，根据声音片段的标注真值，使用分类损失和回归损失，并且将两个损失联合起来做多任务损失学习。

在本实施例中，所述使用分类损失和回归损失，并且将两个损失联合起来做多任务损失学习的具体内容为：

其中，

为声音事件的类别，

为该事件在声音片段起始和结束时间位置，

和

分别表示X_i到

和

E_cross(θ)的计算公式如下：

E_acos(θ)的计算公式如下：

其中

是输出层距离平均值，

在本实施例中，所述步骤S3的具体内容为：对于第i帧，使用后处理操作得到第i帧检索结果：以第i帧开始，该帧对应起始

将连续的w块数据组成W秒的时间窗口，该窗口中包含了w个块数据结果 {preⁱ,…,pre^i+w}；对该时间窗口判定其包含声音事件，对声音事件类c_j判断预测概率大于等于阈值p且个数大于等于q，假设声音事件类C中有 l个类存在，则输出对应检索集合

在本实施例中，步骤S4中所述进行平滑处理的具体内容为：相邻帧中同类别事件合并后，删除事件时间长度小于阈值的事件，同时两个可能目标段之间的无效帧小于等于设定帧时，这两段会被认为是一段。

在本实施例中，使用Street数据集中的声音事件的音源声音片段进行模型构建，得到各个声音事件的检索模型，使用梅尔能量特征作为声音深层特征。将音源声音依据约2.2秒设置滑动窗口，40ms为一帧，帧移20ms，一块为61帧(约1.2秒)分帧、分块，对每个声音帧计算其梅尔能量特征。梅尔能量特征计算过程具体为：

首先，将声音帧进行预加重处理。第二步，将声音帧进行分帧处理。

第三步，将声音帧进行加窗处理。

第四步，对处理完对声音帧进行快速傅里叶变换(Fast Fourier Transform,FFT)得到对应的频谱。

最后再使用一组三角形带通滤波器所组成的梅尔刻度滤波器对功率谱使用向量乘法，计算得到梅尔能量特征。

一般频率f转换到Mel频率计算公式为：

在本实施例中，每个模型使用30帧步长获取真值，将每帧计算出的梅尔能量特征作为卷积层的输入，其中，卷积层设置如下，第一层的卷积网络使用128个大小为(3，3)的卷积核，激活函数为Relu， padding设置为“same”，最后通过大小为1×5的最大池化层降低特征维度。第二、三层的卷积网络使用128个大小为(3，3)的卷积核，激活函数为Relu，padding设置为“same”，最后通过大小为1×2的最大池化层降低特征维度。

将卷积网络得到的抽象特征输入到双向GRU模型中，双向GRU 模型结构为：双向GRU网络的前向和后向网络有32个GRU单元；前向和后向两个GRU神经单元使用共同的输入X，连接着共同的输出O，这个结构提供了输入序列中每个点完整的过去和未来的上下文时序信息。具体计算过程为：

输入X经过重置门，即图1中r，重置门用于控制忽略前一时刻的状态信息的程度，重置门的值越小说明忽略得越多。对于某一时刻 r_t，重置门采用Sigmoid函数对输入信息X_t和上一层GRU输出信息 h_t-1进行处理。

r_t＝σ(W_r·(h_t-1,X_t))

更新门，即图1中z，用于控制前一时刻的状态信息被带入到当前状态中的程度，更新门的值越大说明前一时刻的状态信息带入越多。信息X_t经过更新门和tanh层，更新门采用Sigmoid函数决定tanh信息是否用于更新，操作与上一步相同；tanh层对输入信息X_t、上一层信息h_t-1和r_t进行编码产生一个新的信息值。

z_t＝σ(W_z·(h_t-1,X_t))

对新的信息值

上一层信息h_t-1和更新门的信息z_t进行如下计算：

输出内容，tanh函数将状态信息进行编码：

z_t＝σ(W_o·h_t)

对上一步输出的内容做扁平化Flatten处理，展开为一维。

将扁平化后的结果，输入到softmax前馈神经网络层(包含分类注意力和回归注意力)，以帮助网络对重要的上下文信息施加更高的权重，再对注意力机制层输出的结果输入分类回归层，最后在分类回归层中将二者联合起来做多任务损失学习，得到结果。再输入顺着时间轴位移30帧后的61帧，重复步骤使损失最小，以此训练模型，得到各个具体声音事件的ATT-MCL-CBG多任务损失检索模型。具体实现过程为：

在双向GRU层之后，额外的引入了Softmax前馈神经网络层作为注意力机制层。具体地，对每帧的所有通道分别进行Softmax和 Sigmoid，获得与输入大小一致的两个输出A和B，再将A和B进行点乘，得到注意力特征，再使用全连接层将注意力特征输出成每一帧的分类结果。具体公式表示为：

定义全连接层Softmax前馈神经网络层的注意力输出为Z_att(t)，包括分类注意力输出Z_{class_att}(t)和回归注意力输出Z_{reg_att}(t)。使用Sigmoid激活函数得到分类和回归结果：

O_class(t)＝Sigmoid(Z_{class_att}(t))

O_reg(t)＝Sigmoid(Z_{reg_att}(t))

最后，对序列的预测标签输出进行标签合并操作得到重叠声音事件检测结果。

给定声音片段S中的帧序列数据S＝{X₁,…,X_i,…,X_N}及其真值集合Y＝{Y₁,…,Y_i,…,Y_N}，其中，N为数据集大小，总的声音类别集合为 C＝{C₀,…,C_|C|}，C₀表示背景声音事件，其余类别为前景声音事件。若X_i为背景事件C₀，则Y_i＝{C₀}。若音频帧X_i中共包含l个前景声音事件，则

其中，

为声音事件的类别，

为该事件在声音片段起始和结束时间位置，

和

分别表示 X_i到

和

的距离。

本实施例使用交叉熵损失用来做分类损失函数，使用修正余弦相似度(AdjustedCosine Similarity,ACS)作为回归损失函数，最后将两个损失联合起来做多任务损失学习。这里构造多任务损失函数：交叉熵结合修正余弦相似度构成的余弦多任务损失(MCL)。

其中，θ为网络的训练参数，λ用于平衡误差项和l₂范数正则化项，E_acos(θ)为修正余弦相似度损失，λ_acos表示其权重系数。E_cross(θ)表示交叉熵损失，λ_cross为其权重系数。

E_cross(θ)的计算公式如下：

E_acos(θ)的计算公式如下：

其中

是输出层距离平均值，

是预测平均值。余弦相似度仅考虑向量维度方向上的相似，没有考虑各个维度量纲的差异性，是归一化后的点积结果；而ACS同时考虑了向量维度的方向相似性和量纲差异性，是去中心化和归一化后的点积结果。

依据上述得到的损失函数，通过训练使其最小化，即得到 ATT-MCL-CBG多任务损失检索模型。每次输入是61帧声音的梅尔能量特征，每次模型计算完后顺着时间轴向后位移30帧，再取61帧作为输入，如此循环。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于序列分类的特定声音事件检索与定位的方法，其特征在于：包括以下步骤：

步骤S3：检索每一帧中特定声音事件是否存在；

步骤S4：对S3得到的每帧检索结果进行平滑处理；

2.根据权利要求1所述的一种基于序列分类的特定声音事件检索与定位的方法，其特征在于：所述步骤S1具体包括以下内容：

步骤S11：将所需检测的声音事件的训练数据集中的音源按照40ms为一帧，帧移20ms，一块为61帧完整分帧、分块，得到N个声音片段；逐帧计算其123维梅尔能量特征；

3.根据权利要求2所述的一种基于序列分类的特定声音事件检索与定位的方法，其特征在于：步骤S11中所述的对每个声音帧计算其梅尔能量特征包括以下步骤：

步骤SA：将声音帧进行预加重处理；

步骤SB：将声音帧进行分帧处理；

步骤SC：将声音帧进行加窗处理；

步骤SD：对步骤SC中进行加窗处理完对声音帧进行快速傅里叶变换得到对应的功率谱；

步骤SF：最后梅尔能量特征的计算公式为：

4.根据权利要求2所述的一种基于序列分类的特定声音事件检索与定位的方法，其特征在于：所述步骤S12的具体内容为：首先，通过卷积层提取每帧的深层特征，将深层特征输入双向GRU层提取更加抽象的深层特征；然后将GRU网络得到的结果输入到Flatten层中做扁平化处理后输入到注意力层，所述注意力层包括分类注意力和回归注意力，再输入到分类和回归层，根据声音片段的标注真值，使用分类损失和回归损失，并且将两个损失联合起来做多任务损失学习。

5.根据权利要求4所述的一种基于序列分类的特定声音事件检索与定位的方法，其特征在于：所述使用分类损失和回归损失，并且将两个损失联合起来做多任务损失学习的具体内容为：

由于定位任务的加入，对于给定的每一声音帧，其标注数据不仅需要包含声音事件类标签还需要给出其定位信息；给定声音片段S中的帧序列数据S＝{X₁,…,X_i,…,X_N}及其真值集合Y＝{Y₁,…,Y_i,…,Y_N}，其中，N为数据集大小，总的声音类别集合为C＝{C₀,…,C_|C|}，C₀表示背景声音事件，其余类别为前景声音事件；若X_i为背景事件C₀，则Y_i＝{C₀}；若音频帧X_i中共包含l个前景声音事件，则