CN109949824A

CN109949824A - 基于N-DenseNet和高维mfcc特征的城市声音事件分类方法

Info

Publication number: CN109949824A
Application number: CN201910066335.6A
Authority: CN
Inventors: 曹毅; 黄子龙; 张威; 翟明浩; 刘晨; 李巍; 张宏越
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2019-01-24
Filing date: 2019-01-24
Publication date: 2019-06-28
Anticipated expiration: 2039-01-24
Also published as: CN109949824B

Abstract

本发明提供一种基于N‑DenseNet和高维mfcc特征的城市声音事件分类方法，其在处理音频数据时能提供更丰富、更有效的特征信息，模型有更强的泛化能力，分类具有更高的准确率。其包括：S1：采集待处理音频数据，对原始音频信号进行预处理，输出音频帧序列；S2：对音频帧序列进行时域和频域分析，提取高维梅尔频率倒谱系数，输出特征向量序列；S3：构建声学模型，并对声学模型进行训练，得到训练好的声学模型；S4：将步骤S2中输出的特征向量序列经过处理后，输入到训练好的声学模型中进行分类识别，得到的识别结果即为声音事件的分类结果；其特征在于：声学模型是以DenseNet模型为基础，结合N阶马尔可夫模型的特点构建的网络模型，即为N阶DenseNet模型。

Description

基于N-DenseNet和高维mfcc特征的城市声音事件分类方法

技术领域

本发明涉及声音识别技术领域，具体为基于N-DenseNet和高维mfcc特征的城市声音事件分类方法。

背景技术

现代社会中构建智慧城市综合体是城市发展的一个趋势。其中，利用庞大的传感器网络收集目标城市的空气质量、噪音水平、人***动等等多种数据，对音频数据分析后用之指导城市设计，是智慧城市的构建思路之一。其中，研究城市声音事件分类的主要研究意义在噪音监控、城市安防、声景评定、多媒体检索等方面。

DenseNet是一种具有密集连接的卷积神经网络。在该网络中，任何两层之间都有直接的连接，网络每一层的输入都是前面所有层输出的并集，而该层所学习的特征图也会被直接传给其后面所有层作为输入。现有技术中LeNet、VGG网络模型被使用在城市声音事件分类技术中，然而分类效果不是很理想、准确率不高，且模型的泛化能力不够强，导致分类准确率低。

发明内容

为了解决声音分类特征提取不够充分、模型泛化能力不够强、导致分类时准确率低的问题，本发明提供一种基于N-DenseNet和高维mfcc特征的城市声音事件分类方法，其在处理音频数据时能提供丰富、有效的特征信息，模型有较强的泛化能力，分类具有更高的准确率。

本发明的技术方案是这样的：基于N-DenseNet和高维mfcc特征的城市声音事件分类方法，其包括以下步骤：

S1：采集待处理音频数据，对原始音频信号进行预处理，输出音频帧序列，

所述预处理操作包括：采样与量化、预加重处理、加窗；

S2：对所述音频帧序列进行时域和频域分析，提取高维梅尔频率倒谱系数，输出特征向量序列；

S3：构建声学模型，并对所述声学模型进行训练，得到训练好的声学模型；

S4：将步骤S2中输出的所述特征向量序列经过处理后，输入到所述训练好的声学模型中进行分类识别，得到的识别结果即为声音事件的分类结果；

其特征在于：所述声学模型是以DenseNet模型为基础，结合N阶马尔可夫模型的特点构建的网络模型，即为N阶DenseNet模型；每个所述声学模型内设置多个N阶DenseBlock连接，每个所述N阶DenseBlock中层与层的连接基于N阶马尔可夫链的相关性连接，当前特征图层输出与前N个特征图层输入相关；因此，若要建立N阶DenseBlock，必须使DenseBlock中特征图层个数大于N；当所述N阶DenseNet模型中的每个所述N阶DenseBlock有j个特征图层；设从第1个所述特征图层到第j个所述特征图层的输入记作[x₀, x₁, x₂, …, x_i]，从第1个所述特征图层到第j个所述特征图层的输出记作[H₁, H₂, H₃, …, H_j]；

则当N = 1的时候，H_j的表达公式为：

上式中：

i = j-1，

N、i、j为正整数；

当N > 1的时候，H_j的表达公式为：

上式中：

N > 1，

i = j-1，

N、i、j为正整数。

其进一步特征在于：

步骤S2中的所述高维梅尔频率倒谱系数的提取方案包括：

（1）128mfcc + 23mfcc_d + 23mfcc_d_d

（2）108mfcc + 33mfcc_d + 33mfcc_d_d

（3）128mfcc

（4）108mfcc；

输入所述声学模型的所述特征向量序列先依次进行一层卷积操作和一次池化处理，然后依次输入连续的m个N阶DenseBlock中，每个所述N阶DenseBlock后面分别跟着一个TransitionLayer层；经过连续的m个所述N阶DenseBlock结构处理后，所述特征向量序列被输入全连接层进行分类处理，最后分类结果经过向量归一化处理后输出；其中m和N的取值都为正整数；

每个所述N阶DenseBlock包括依次连接的j个所述特征图层，每个所述特征图层中包括连续的2个卷积层，在所述特征图层中，输入的数据在进入卷积层进行卷积处理之前，都先进行批量标准化处理和激活函数处理；每个所述特征图层中最后一个卷积层分别与下一个卷积层通过Concatenate进行合并级联；每个所述N阶DenseBlock中的第一个特征图层与第二个特征图层之间加入一个dropout层；

所述TransitionLayer层包括一个卷积层、一个最大池化层；

经过连续的m个所述N阶DenseBlock结构处理后的所述特征向量序列被输入到所述全连接层之前，需要依次进行扁平化降维处理和抑制过拟合处理；

所述扁平化降维处理是在Flatten层通过Flatten（）函数将多维数据扁平化为一维数据；所述抑制过拟和处理是通过一个全连接层和一个dropout层进行操作，对网络进行参数调整和抑制过拟合；

步骤S2中获取的所述特征向量的结构为2维向量，第一位向量是对于对所述音频数据的采样后的帧数，第二位向量是所述高维梅尔频率倒谱系数的维数；

步骤S4中在所述特征向量序列输入到所述训练好的声学模型之前，需要把所述特征向量从2维向量转换为3维向量，第三位向量是所述声学模型中的通道数；

所述激活函数为Rectified Linear Unit函数，其计算公式为：

；

所述向量归一化处理为通过Softmax函数进行处理，Softmax函数公式为：

其中：j = 1，……，K。

本发明提供的基于N-DenseNet和高维mfcc特征的城市声音事件分类方法，在本发明的技术方案中以传统DenseNet网络为基础，结合N阶马尔可夫模型的特点构建的一种新的网络模型，即为N阶DenseNet模型；相对于DenseNet模型，N阶DenseNet模型中特征图层连接更少，使网络参数相对较少，进而保证了N-DenseNet网络训练速度相对更快，收敛速度更快；与传统DenseNet模型相比，通过N阶DenseNet模型进行分类计算，在高维梅尔频率倒谱系数下，准确率更高。

附图说明

图1为本发明中子网络N阶DenseBlock各特征图层连接示意图；

图2为本发明中子网络1阶DenseBlock各特征图层连接示意图；

图3为本发明中子网络2阶DenseBlock各特征图层连接示意图；

图4为本发明中子网络3阶DenseBlock各特征图层连接示意图；

图5为本发明1阶DenseNet模型主体网络结构的示意图；

图6为本发明中1阶DenseBlock和Transition_layer连接实施例的示意图。

具体实施方式

如图1~图4所示，本发明基于N-DenseNet的城市声音事件分类方法，其包括以下步骤：

预处理操作包括：采样与量化、预加重处理、加窗；

S2：对音频帧序列进行时域和频域分析，提取高维梅尔频率倒谱系数，输出特征向量序列；

高维梅尔频率倒谱系数的提取方案包括以下四种，根据实际的数据情况和设备性能，选择其中的一种进行实施：

（1）128mfcc + 23mfcc_d + 23mfcc_d_d

（2）108mfcc + 33mfcc_d + 33mfcc_d_d

（3）128mfcc

（4）108mfcc；

步骤S2中获取的特征向量的结构为2维向量，第一位向量是对于对音频数据的采样后的帧数，第二位向量是高维梅尔频率倒谱系数的维数；

S3：构建声学模型，并对声学模型进行训练，得到训练好的声学模型；

声学模型是以DenseNet模型为基础，结合N阶马尔可夫模型的特点构建的网络模型，即为N阶DenseNet模型（以下记作N-DenseNet）；每个声学模型内设置多个N阶DenseBlock连接（以下记作N-DenseBlock），每个N阶DenseBlock中层与层的连接基于N阶马尔可夫链的相关性连接，当前特征图层输出与前N个特征图层输入相关；因此，若要建立N阶DenseBlock，必须使DenseBlock中特征图层个数大于N；当N阶DenseNet模型中的每个N阶DenseBlock有j个特征图层；设从第1个特征图层到第j个特征图层的输入记作[x₀, x₁, x₂, …, x_i]，从第1个特征图层到第j个特征图层的输出记作[H₁, H₂, H₃, …, H_j]；

则当N = 1的时候，H_j的表达公式为：

上式中：

i = j-1，

N、i、j为正整数，

H_j =x_i + x_i-1表示第j层的输出H_j是x_i、x_i-1用Concatenate进行特征图层的通道数合并级联，再加批量标准化（BatchNormalization，以下缩写为BN）处理、激活函数RectifiedLinear Unit（以下缩写ReLU）处理、卷积（Convolution，以下缩写为Conv）处理后的结果；

当N > 1的时候，H_j的表达公式为：

上式中：

N > 1，

i = j-1，

N、i、j为正整数；

H_j =x_i +x_i-1 + … + x_i-N表示第j层的输出H_j是x_i，x_i-1，…, x_i-N用Concatenate进行特征图层的通道数合并级联，再加BN + ReLU + Conv处理后的结果；

S4：将步骤S2中输出的特征向量序列从2为向量转换为3维向量，第三位向量是声学模型中的通道数，把转换后的3维向量输入到训练好的声学模型中进行分类识别，得到的识别结果即为声音事件的分类结果。

音频文件特征图层中，原始DenseNet模型采用的是密集连接，即每一层图层都有连接。而依据N阶马尔可夫模型改进后的N阶DenseNet模型，根据H_j的表达式，如图2所示，当N = 1、j 最大取 5的时候，第1层的输出为H₁，第2层的输出H₂ = x_i+x_i-1， i=j-1，则H₂ = x₁+x₀，x₀即input，则H₂ = x₁+input，第2层的输出的特征图只与第2层的输入的特征图和input的特征图有关；第5层的输出H₅ = x₄+x_4-1= x₄+x₃，第5层输出的特征图只与第5层和第4层输入的特征图有关；

如图3为2阶DenseBlock各特征图层连接示意图，当N = 2、j最大取5，按照N>1情况下的H_j的表达式，j≤2的时候，H_j= H_j，即第1层的输出为H₁，第2层的输出H₂ = H₂；第3层的输出H₃= x₂+x₁+x₀；第5层的输出H₅ = x₄+x₃+x₂；

如图1为N阶DenseBlock各特征图层连接示意图，按照N>1情况下的H_j的表达式，j ≤ N的时候，H_j= H_j，即前N层的输出都为H_j，j>N时，第N+1层开始的输出为x_i+x_i-1+……x_i-N；

综上所述，设一个DenseBlock中有L个特征图层，原始的DenseNet模型中的所有的特征图层与特征层的连接总数共有L（L+1）/2，而改进后的N阶DenseBlock网络在相同的L层特征图连接中，减少为N（L-N）个（N=1,2,3,…,L-1）；改进后的N阶N-DenseBlock网络模型中，减少了特征图的冗余现象，减少冗余的模型参数，从而提高了模型的分类准确性。

输入声学模型的特征向量序列先依次进行一层卷积操作和一次池化处理，然后依次输入连续的m个N阶DenseBlock中，每个N阶DenseBlock后面分别跟着一个TransitionLayer层；经过连续的m个N阶DenseBlock处理后，音频数据被输入全连接层进行分类处理，最后分类结果经过向量归一化处理后输出；其中m和N的取值都为正整数，m和N根据实际的硬件情况和数据复杂度进行取值；

每个N阶DenseBlock包括依次连接的j个特征图层、一个卷积层、一个最大池化层；每个特征图层中包括连续的2个卷积层，在特征图层中，输入的数据在进入卷积层进行卷积处理之前，都先进行批量标准化处理和激活函数处理；每个特征图层中最后一个卷积层分别与下一个卷积层通过Concatenate进行合并级联；每个N阶DenseBlock中的第一个特征图层与第二个特征图层之间加入一个dropout层，进行小幅过拟合抑制，方便后期网络模型调参；

激活函数为Rectified Linear Unit（ReLU）函数，其计算公式为：

；

音频数据被输入到全连接层之前，需要依次进行扁平化降维处理和抑制过拟合处理；

扁平化降维处理是在Flatten层通过Flatten（）函数将多维数据扁平化为一维数据；抑制过拟和处理是通过一个全连接层和一个dropout层进行操作，对网络进行参数调整和抑制过拟合；

向量归一化处理为通过Softmax函数进行处理，Softmax函数公式为：

其中：j = 1，……，K。

如图5和图6所示，为1阶DenseNet模型的网络结构的实施例。使用UrbanSound8k数据集，数据集为10分类，对样本标签使用keras的to_categorical函数进行one-hot编码。根据实际的实验设备的情况，m设置为3，即输入声学模型的特征向量序列先依次进行一层卷积操作和一次池化处理，然后依次输入连续的3个1阶DenseBlock中，在图中表示为N-DenseBlock（1）、N-DenseBlock（2）、N-DenseBlock（3）；1阶DenseNet模型中，N取1，则每个1阶DenseBlock中，根据数据情况和设备的性能，j取值为2，即每个1阶DenseBlock中包括2个特征图层。

对音频帧序列进行时域和频域分析，提取高维梅尔频率倒谱系数，输出特征向量序列；对输入的音频数据的采样帧数为174，选择的高维梅尔频率倒谱系数的方案为：128mfcc + 23mfcc_d + 23mfcc_d_d，即在128个mel滤波组下，提取128维的mfcc特征，加前23维mfcc一阶差分特征，加前23维mfcc二阶差分特征；则实施步骤S2后输出特征向量序列为（174，174）。

把这个2维向量通过reshape转为3维数据，因为此处1阶DenseNet模型的网络结构中Input的通道数是1，则转为三维数据后，特征向量为（174，174，1）。

把特征向量（174，174，1）输入到1阶DenseNet模型中，输入的特征图序列首先通过卷积核为4*1的卷积层，然后采用MaxPooling、pool_size=[2, 1]的池化层进行池化处理，得到的三维数据依次输入到三个连续的1阶DenseBlock 、TransitionLayer层中。

在每个1阶DenseBlock中，存在2个特征图层，即2个1阶DenseBlock函数，该函数输入为特征图序列，以及增长数率k=24。在1阶DenseBlock函数的处理中，先进行批量标准化(BatchNormalization)处理，激活函数为ReLU函数；再传递到卷积层，卷积核尺寸为3*3、padding采用'same'方式、过滤器深度为k=24；函数内该过程执行两次，因此该1阶DenseBlock函数（公式中记作：1-DenseBlock）中的具体操作为：

从第一个1阶DenseBlock函数输出的三维向量通过Concatenate[input,Conv_1]操作将input层中的特征图加到conv1上，然后通过1次Dropout进行抑制模型过拟合之后，输出到下一个1阶DenseBlock函数中；经过连续两个1阶DenseBlock函数处理之后，输出的三维向量输入到Transition_layer层；

三维向量输入到Transition_layer层中，首先进入一个卷积核为1*1的卷积层，进行特征降维处理；后接池化层，采用MaxPooling、pool_size=[2, 2]，经过池化处理可以减小矩阵的大小，减少最后全连接层的参数。

经过三个连续的1阶DenseBlock 、TransitionLayer层处理之后的三维数据，首先采用Flatten()层将三维数据扁平化转化层一维数据，再进入第一个全连接层，全连接层的神经元的数目为256，使用Dropout层抑制过拟合；最后进入第二个全连接层，神经元个数为10，即本次分类为10分类，最后通过归一化指数函数Softmax处理后，输出最终分类结果。

在Window10***、显卡GTX1060、CPU为i7-8750H、内存16G的实验环境下；keras +TensorFlow作为深度学习框架，采用城市声音事件分类标准数据集UrbanSound8k，其中fold1-9中95%作为训练集和5%验证集，训练集样本个数为7508、验证集样本个数为396；测试集为fold10中wav音频文件，样本个数为838。分别进行高维mfcc特征对模型影响对比试验，以及改进的N阶DenseNet与其他模型的对比试验。

通过在LeNet-5、VGG-8和DenseNet-16网络模型中，调整不同维数的高维梅尔频率倒谱系数，进行音频数据的分类实验，具体结果如下面表1所示：

表1 mfcc维度与分类准确率的关系

传统的音频数据分类方法中，主要采用低纬度的高维梅尔频率倒谱系数进行分类计算，以LeNet-5模型为基础的算法，当n_mfcc的维度取值为40的到时候，可以取得最好的分类准确率73.11%；以VGG-8为基础的算法，当n_mfcc的维度取值为60的到时候，可以取得最好的分类准确率72.64%；然而，由上面表1的内容可知：在VGG和DenseNet模型中随mfcc维数增加准确率也随之提高，到128维时准确率达到最佳。通过对比试验初步得出128维mfcc和DenseNet-16模型的结合下，获得的分类准确率最优，为80.16%。

在DenseNet-16模型中为扩展mfcc维数，将梅尔滤波组n_mels提高到256，则可提取mfcc特征256维。实验结果表明：在128维mfcc内时，随mfcc维数增加，准确率上升。到174维左右不再提高并呈现下降。通过n_mels提取更高维n_mfcc试验初步得出在n_mels=128时，128维mfcc和DenseNet-16模型下准确率最优，为80.16%。具体结果如下表2中所示：

表2 高维mfcc特征下分类操作准确度的变化

根据实验结果可知，以DenseNet-16模型为基础，在n_mels=128时，其中准确率效果较好的方案有以下四种如表3所示，准确率都在78%以上：

表3 四种准确率高的高维mfcc方案

基于改进后的1阶DenseNet模型、2阶DenseNet模型进行试验，试验结果与国内外研究者的模型进行对比，对比试验结果如表4：

表4 不同模型分类准确率结果

本发明的技术方案基于1阶DenseNet模型、2阶DenseNet模型和高维mfcc（128mfcc +23mfcc_d + 23mfcc_d_d）特征下，分类准确率为83.63%、83.27%。与国内外研究者试验结果对比可知，本发明技术方案的分类准确率有了明显的提高。

综上所述，本发明提供的技术方案在处理音频数据时能提供更丰富、更有效的特征信息，模型有更强的泛化能力，具有良好的分类准确率。

Claims

1.基于N-DenseNet和高维mfcc特征的城市声音事件分类方法，其包括以下步骤：

所述预处理操作包括：采样与量化、预加重处理、加窗；

则当N = 1的时候，H_j的表达公式为：

上式中：

i = j-1，

N、i、j为正整数；

当N > 1的时候，H_j的表达公式为：

上式中：

N > 1，

i = j-1，

N、i、j为正整数。

2.根据权利要求1所述基于N-DenseNet和高维mfcc特征的城市声音事件分类方法，其特征在于：步骤S2中的所述高维梅尔频率倒谱系数的提取方案包括：

（1）128mfcc + 23mfcc_d + 23mfcc_d_d

（2）108mfcc + 33mfcc_d + 33mfcc_d_d

（3）128mfcc

（4）108mfcc。

3.根据权利要求1所述基于N-DenseNet和高维mfcc特征的城市声音事件分类方法，其特征在于：输入所述声学模型的所述特征向量序列先依次进行一层卷积操作和一次池化处理，然后依次输入连续的m个N阶DenseBlock中，每个所述N阶DenseBlock后面分别跟着一个TransitionLayer层；经过连续的m个所述N阶DenseBlock结构处理后，所述特征向量序列被输入全连接层进行分类处理，最后分类结果经过向量归一化处理后输出；其中m和N的取值都为正整数。

4.根据权利要求3所述基于N-DenseNet和高维mfcc特征的城市声音事件分类方法，其特征在于：每个所述N阶DenseBlock包括依次连接的j个所述特征图层，每个所述特征图层中包括连续的2个卷积层，在所述特征图层中，输入的数据在进入卷积层进行卷积处理之前，都先进行批量标准化处理和激活函数处理；每个所述特征图层中最后一个卷积层分别与下一个卷积层通过Concatenate进行合并级联；每个所述N阶DenseBlock中的第一个特征图层与第二个特征图层之间加入一个dropout层。

5.根据权利要求3所述基于N-DenseNet和高维mfcc特征的城市声音事件分类方法，其特征在于：所述TransitionLayer层包括一个卷积层、一个最大池化层。

6.根据权利要求3所述基于N-DenseNet和高维mfcc特征的城市声音事件分类方法，其特征在于：经过连续的m个所述N阶DenseBlock结构处理后的所述特征向量序列被输入到全连接层之前，还需要依次进行扁平化降维处理和抑制过拟合处理。

7.根据权利要求6所述基于N-DenseNet和高维mfcc特征的城市声音事件分类方法，其特征在于：所述扁平化降维处理是在Flatten层通过Flatten（）函数将多维数据扁平化为一维数据；所述抑制过拟和处理是通过一个全连接层和一个dropout层进行操作，对网络进行参数调整和抑制过拟合。

8.根据权利要求1所述基于N-DenseNet和高维mfcc特征的城市声音事件分类方法，其特征在于：步骤S2中获取的所述特征向量的结构为2维向量，第一位向量是对于对所述音频数据的采样后的帧数，第二位向量是所述高维梅尔频率倒谱系数的维数。

9.根据权利要求1所述基于N-DenseNet和高维mfcc特征的城市声音事件分类方法，其特征在于：步骤S4中在所述特征向量序列输入到所述训练好的声学模型之前，需要把所述特征向量从2维向量转换为3维向量，第三位向量是所述声学模型中的通道数。

10.根据权利要求1所述基于N-DenseNet和高维mfcc特征的城市声音事件分类方法，其特征在于：所述激活函数为Rectified Linear Unit函数，其计算公式为：

；

其中：j = 1，……，K。