CN109767785A

CN109767785A - 基于卷积神经网络的环境噪声识别分类方法

Info

Publication number: CN109767785A
Application number: CN201910166344.2A
Authority: CN
Inventors: 高振斌; 李梦圆; 臧鑫哲
Original assignee: Hebei University of Technology
Current assignee: Hebei University of Technology
Priority date: 2019-03-06
Filing date: 2019-03-06
Publication date: 2019-05-17

Abstract

本发明为基于卷积神经网络的环境噪声识别分类方法，该方法包括下述步骤：步骤1，提取自然环境噪声，将其剪辑为时长300ms‑30s，频率转变为44.1kHz的噪声片段；步骤2，对噪声片段进行短时傅立叶变换，将一维时域信号转换为二维频域信号，得到声谱图；步骤3，提取信号的梅尔频谱倒谱系数(MFCC)；步骤4，将所有噪声片段的80％作为训练集，其余的20％作为测试集；步骤5，用卷积神经网络模型进行噪声分类；步骤6，用训练集训练分类模型，用测试集验证该模型的准确性，完成基于卷积神经网络的环境噪声识别分类。本发明将声音片段输入，声音特征信息被提取，输出的是分类结果，可以实现自动提取声音特征信息。

Description

基于卷积神经网络的环境噪声识别分类方法

技术领域

本发明涉及一种基于卷积神经网络的环境噪声识别分类方法，属于环境噪声识别的领域。

背景技术

声音的识别是声音信号处理的一个基本问题，目前音频分类和识别的研究大部分集中在语音识别和音乐的分类上，对环境音频的识别和分类研究比较少。随着环保意识的提高，如何消除噪声污染越来越受人们的重视，噪声分类在近几年也已经成为国内外共同关注的话题，吸引着国内外的专家对此进行探讨。当前干净环境下的语音分类识别准确度已经很高，但是在低信噪比的情况下，或多个人讲话的情况下，识别率会大幅下降，这是因为目前的识别器把非语音的都统一归为一类：噪声。实际上现实中的噪声可能比语音还要复杂，如果也能对各种噪声类型建模，将有助于语音分类识别的改进。

日常生活中存在多种对人体有害的环境噪声，一般环境噪声大多来自随机的噪声源，

例如急驰而过的车辆、飞机的鸣笛、人们的喧闹、以及周围各式各样的噪声来源。设计环境噪声分类***可以有目的地分析和控制某一类别的噪声，以减少噪声污染。同时，人们可以非常熟练地感知和判断周围声场的一般特征，但是计算机没有足够的容量来匹配它，

因此开发自动提取这些信息的计算方法，在各种应用中具有巨大的潜力。而在现实生活中，多个声音经常同时存在并且被环境扭曲，所以需要大量的研究来准确地识别各个声源。噪声分类识别是语音分类识别的一种特殊情况，和语音相比，噪声具有音强变化混乱、频率变化不规律的特点，在实际应用中，环境噪声的分类识别需要大量的训练数据，

获取这些标记数据需要大量的人力和物力，而且还很费时，这是环境噪声分类的一大难点。研究噪声分类***可以清楚地知道噪声的类别，从而更精准地控制和消除噪声，让人们的生活环境更加舒适。因此，研究噪声分类***具有很大的现实意义。

《基于SVM模型的自然环境声音分类》介绍了利用支持向量机(SVM)进行声音的分类识别的方法，SVM可以很好地处理高维数据集，并且其泛化能力十分优秀。但是支持向量机算法在大规模训练样本和多分类问题上难以实现，同时SVM对缺失数据敏感。《基于深度神经网络的语音识别》介绍了利用BP神经网络进行语音识别的算法，但是BP神经网络学习速度慢，即使是一个简单的问题也需要成百上千次的学习，并且其网络推广能力有限。

发明内容

针对现有技术的不足，本发明拟解决的技术问题是，提供一种基于卷积神经网络的环境噪声识别分类方法。

本发明采用的技术方案是：

一种基于卷积神经网络的环境噪声识别分类方法，该方法包括下述步骤：

步骤1，提取自然环境噪声，将其剪辑为时长300ms-30s，频率转变为44.1kHz的噪声片段；

步骤2，对噪声片段进行短时傅立叶变换，将一维时域信号转换为二维频域信号，得到声谱图；

步骤3，提取信号的梅尔频谱倒谱系数(MFCC)；

3-1将经过短时傅立叶变换得到的声谱图使用梅尔刻度滤波器组过滤，对短时傅立叶变换后得到的声谱图，分别跟每一个滤波器进行频率相乘累加，得到的数据即为该帧的能量值；

3-2将能量值取对数运算；

3-3进行离散余弦变换(DCT)，得到MFCC系数；

3-4差分：将经过DCT得到的MFCC进行一阶或二阶差分，得到体现声音时域连续性的特征；

步骤4，将所有噪声片段的80％作为训练集，其余的20％作为测试集；

步骤5，用卷积神经网络模型进行噪声分类，卷积神经网络模型由三个2-D卷积层和交替的2-D池化层以及全连接层组成，池化层采取最大池化的方式，即选择池化窗口中最大值作为采样值，卷积层和池化层都使用全零填充方案；第一个卷积层采用7*7大小的卷积核，且卷积核每次滑动一个像素，一个声谱图使用同一个卷积核；第一个池化层采用3*3的输入域，上一层的节点作为下一层的一个节点的输入，且输入域不重叠；第二个卷积层的卷积核是5*5，第二个池化层的卷积核是3*3，第三个卷积层的卷积核是3*3；经过卷积层和池化层后，连接着一个全连接层，全连接层的每个节点都与上一层的所有节点相连接；在全连接层中，假设在P层有m个节点，P+1层有n个节点，则一共有m*n个连接，再加上每P+1层节点有一个偏置，则一共有m*n+n个训练参数；

步骤6，用训练集训练分类模型，用测试集验证该模型的准确性；

经过以上步骤，对测试集中的噪声样本进行处理，完成基于卷积神经网络的环境噪声识别分类。

与现有技术相比，本发明的有益效果为：

本发明方法中，环境噪声分类的实质就是提取声音特征，选取一种合适的分类模型，即基于卷积神经网络的环境噪声分类方法，首先利用短时傅立叶变换的时频转换的方法将一维声音信号转变为类似图像的二维信号，然后提取出声音特征，通过MFCC处理，可以将一些干扰噪声去除掉，这样一来，保留的特征几乎都是有效特征，最后利用CNN对采集到的数据集进行学习分类。

目前有许多分类模型被应用于各种声音的识别和分类，但是将其应用于环境噪声的分类的研究还比较少，利用这种方法对现实生活中的环境噪声进行分类识别，能达到90％的识别率，解决了BP神经网络容易陷入最优解的问题。此次发明的模型具有普适性，可以针对现实生活中的大量噪声数据进行识别分类，并且人为干预程度相对减少，使得训练的效果更加具有真实性。

本发明方法提取了MFCC特征，MFCC对特征进行了去相关和压缩，更适合CNN这种建模方式。采用短时傅立叶变换截取一部分源数据，即无论发现了什么频率成分，可以确定声音片段的特征一定是发生在该特定时间段内的，只存在于很短的时间区间内，克服现有傅立叶变换不能反映时间维度局部区域上的特征，缺少时间信息的标号不足。同时，本发明具有无需硬件设备，流程简单，分类速度较快，实验表明平均一秒可以分类一段声音片段。

本发明将声音片段输入，声音特征信息被提取，输出的是分类结果，可以实现自动提取声音特征信息。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1是本发明的操作流程图。首先将收集常见的噪声，将其剪辑成300ms-30s的噪声片段，对噪声片段STFT处理，将其从一维时域信号变为二维频域信号，提取信号的MFCC，之后将所有的噪声片段分成训练集和测试集，用卷积神经网络模型分类，先对训练集进行训练，最后对测试集进行分类，得出分析结果。

图2是短时傅立叶变换的示意图。首先将收集到的噪声片段经过预加重，目的是使信号的频谱变得平坦，将一段噪声片段分成若干帧，添加汉宁窗，对每帧进行傅立叶变换，最后堆叠每帧的结果，完成噪声的短时傅立叶变换。

图3是MFCC模型的特征提取流程图。将经过STFT后得到的频谱图通过MEL滤波器组，得到能量值，将能量值进行对数运算和DCT得到标准MFCC，最后经过差分得到可以体现声音连续性特征的MFCC。

图4是卷积层的模型示意图。卷积层采用7*7大小的卷积核，把每个上层节点上的参数值相乘得到的乘积及一个偏置参数相加得到一个输出，把这个输出输入到一个激活函数，激活函数的输出即为下一个节点的值。

图5是全连接层的模型示意图。全连接层中每个节点各自使用一套参数，假设在P层有m个节点，P+1层有n个节点，将P层中的各个节点中的参数与P+1层的各个参数相乘再与偏置参数相加，得出训练参数。

具体实施方式

以下是本发明优选实施例的详细描述，应当理解，优选实施例仅为了说明本发明，而不是为了限制本发明的保护范围。

本发明一种基于卷积神经网络的环境噪声识别分类方法，包括如下步骤：

步骤1，提取自然环境噪声，将其剪辑为时长300ms-30s，频率转变为44.1kHz的噪声片段。根据奈奎斯特采样定理，用两倍于一个正弦波的频率进行采样就能完全真实地还原该波形，用44.1kHz的采样频率，则可还原为最高22.05kHz的频率，而这个数值略高于人耳的听觉极限，足以真实再现世界上所有人能辨别的声音。

步骤2，对噪声片段进行短时傅立叶变换，将一维时域信号转换为二维频域信号；具体过程是：

2-1进行预加重，目的是为了突显高频的共振峰，使信号频谱变得平坦。也就是说在频域上面乘以一个系数，实际上就是通过了一个高通滤波器；

2-2将一段噪声片段分成若干帧；

2-3添加大小为10ms的汉宁窗，相比于矩形窗函数，会减弱短时傅立叶变换后的旁瓣大小以及频谱泄露；

2-4对每帧执行短时傅立叶变换；

2-5最后把每一帧的短时傅里叶变换结果沿另一个维度堆叠起来，得到类似于一幅图片的二维信号形式，称之为声谱图；

步骤3，提取信号的梅尔频谱倒谱系数(MFCC)：

3-1将经过短时傅立叶变换得到的声谱图使用梅尔刻度滤波器组过滤，滤波器组中滤波器的个数一般选取18-22个。对短时傅立叶变换后得到的声谱图，分别跟每一个滤波器进行频率相乘累加，得到的数据即为该帧的能量值；

3-2将能量值取log(对数运算)。由于人耳对声音的感知并不是线性的，所以选取log这种非线性关系进行描述。

3-3进行离散余弦变换(DCT)，得到MFCC系数。由于多个滤波器之间有重叠，所以步骤3-2获得取对数后的能量值之间具有相关性，进行离散余弦变换(DCT)可以对数据进行降维压缩和抽象，获得最后的特征参数，即得到MFCC系数。和傅立叶变换相比，DCT的结果没有虚部，更好计算。

3-4差分。标准的MFCC只反映了语音参数的静态特征，声音的动态特性可以用这些静态特征的差分谱来描述。将经过DCT得到的MFCC进行一阶或二阶差分，得到可以体现声音时域连续性的特征。

步骤4，将所有噪声片段的80％作为训练集，其余的20％作为测试集。

步骤5，用卷积神经网络模型进行噪声分类，卷积神经网络模型由三个2-D卷积层和交替的2-D池化层以及全连接层组成，池化层采取最大池化的方式，即选择池化窗口中最大值作为采样值，卷积层和池化层都使用全零填充方案；第一个卷积层采用7*7大小的卷积核，且卷积核每次滑动一个像素，一个声谱图使用同一个卷积核；第一个池化层采用3*3的输入域，上一层的节点作为下一层的一个节点的输入，且输入域不重叠；经过卷积层和池化层后，连接着一个全连接层，全连接层的每个节点都与上一层的所有节点相连接；在全连接层中，假设在P层有m个节点，P+1层有n个节点，则一共有m*n个连接，再加上每P+1层节点有一个偏置，则一共有m*n+n个训练参数。

步骤6，用训练集训练分类模型，用测试集验证该模型的准确性：

本发明通过分析现有支持向量机及BP神经网络模型，根据其不足之处进行改进，提出了基于卷积神经网络模型的噪声分类方法。

首先将收集到的噪声数据集通过短时傅立叶变换由一位时域信号变为二维频域信号，然后根据MFSC提取出相应有效的特征，最后利用卷积神经网络进行识别分类。该模型为一个普适性模型，可以针对现实中的大量噪声数据进行识别分类。

本发明方法能尽可能简单准确地提取出噪声的特征。梅尔频率倒谱系数(MFCC)是一种基于人耳听觉***的非线性特征，相比于语音信号常用的短时能量、过零率等特征，MFCC可以通过比较简单的运算和较快的速度求得，并且充分考虑到了人耳听觉的非线性特性，因此对于环境噪声分类，将MFCC作为提取的特征是一种比较好的选择。由于噪声分类识别的训练数据比较大，需要提取的特征也比较多，常用于语音分类识别的BP神经网络和SVM等分类模型不适合处理大数据量的声音文件，而且其网络层次比较浅，特征的提取不够完全。因此对于环境噪声分类识别的问题，本发明采取了提取噪声的MFCC特征，利用卷积神经网络(CNN)进行分类。

实施例1

本实施例一种基于卷积神经网络的环境噪声识别分类方法，该方法的步骤是：

步骤1，利用麦克风收集自然环境中的噪声，剪辑为合适的时长的、频率转变为44.1kHz的噪声片段，本实施例中所有噪声片段的时长可以不等，整体时长在300ms-30s区间内即可。

步骤2，将噪声片段利用短时傅立叶变换由一维时域信号转变为二维频域信号，短时傅立叶变换的原理如图2所示：

2-1首先对读入的数据进行预加重，预加重的目的是对声音的高频部分进行加重，去除杂音影响，增加高频分辨率，使信号的频谱变得平坦。令数据通过一个高通滤波器，公式如下所示：

H(z)＝1-kz^-1 (1)

其中H_z称为幅频响应，表示不同频率的信号成分通过该***时所遇到的幅度变化，k的值介于0.9-1.0之间，这个系数和频率成正相关，本实施例中，k取的是0.97；z是信号的频率。

2-2将一段噪声片段分为若干帧。

2-3在加窗阶段，使用汉明窗来增加左边和右边的连续性，添加大小为10ms的汉明窗。因为相比于矩形窗函数，汉明窗可以减弱快速傅立叶变换以后的旁瓣大小以及频谱泄露；

2-4对每帧执行短时傅立叶变换；

2-5最后堆叠每帧的结果；

步骤3，提取信号的梅尔频谱倒谱系数(MFCC)，图3为提取MFCC系数的流程图：

3-1将经过短时傅立叶变换得到的声谱图使用梅尔刻度滤波器组过滤。滤波器的个数一般选取18-22个为佳(本实施例中选为20个)，对短时傅立叶变换后得到的声谱图，分别跟每一个滤波器进行频率相乘累加，得到的数据即为该帧的能量值；

3-2将能量值取log。由于人耳对声音的感知并不是线性的，所以选取log这种非线性关系进行描述。

3-3进行离散余弦变换(DCT)。由于滤波器之间有重叠，所以之前获得的能量值之间具有相关性，DCT可以对数据进行降维压缩和抽象，获得最后的特征参数。和傅立叶变换相比，DCT的结果没有虚部，更好计算。实现公式如下所示：

将取完log的能量值代入离散余弦变换，求出L阶MFCC系数。其中，c_i表示第i个倒谱系数，L指MFCC系数阶数，通常取12-16，本实施例中选为14，m_j表示第j个滤波器组输出的对数能量，N表示滤波器个数。

3-4差分。标准的MFCC只反映了语音参数的静态特征，声音的动态特性可以用这些静态特征的差分谱来描述。将经过DCT得到的MFCC进行一阶或二阶差分，得到可以体现声音时域连续性的特征。常用的是一阶差分，实现公式如下所示：

其中，d_t表示第t个一阶差分；c_t表示第t个倒谱系数；Θ表示一阶导数的时间差，可取1或2。

步骤5，用卷积神经网络模型进行噪声分类，模型由三个2-D卷积层和交替的2-D池化层以及一个全连接层组成，池化层采取最大池化的方式，即选择池化窗口中最大值作为采样值，卷积层和池化层都使用全零填充方案。

以第一组卷积层和池化层为例，第一个卷积层采用7*7大小的卷积核，且卷积核每次滑动一个像素，一个声谱图使用同一个卷积核，卷积核结构如图4所示，把每个上层节点上的参数值相乘得到的乘积及一个偏置参数相加得到一个输出，把这个输出输入到一个激活函数，激活函数的输出即为下一个节点的值。第一层池化层采用3*3的输入域，上一层的节点作为下一层的一个节点的输入，且输入域不重叠，池化层采取最大池化的方式，选取池化窗口中的最大值作为采样值。共有三个卷积层、两个池化层，第二个卷积层的卷积核是5*5，第二个池化层的卷积核是3*3，第三个卷积层的卷积核是3*3，除了卷积核不同其他的原理都和第一组相同。

全连接层也有偏置，全连接层的每个节点都与上一层的所有节点相连接，在全连接层中，假设在P层有m个节点，P+1层有n个节点，则一共有m*n个连接，再加上每P+1层节点有一个偏置，则一共有m*n+n个训练参数。结构如图5所示，图5中，左边第一层为P层，有6个节点，第二层为P+1层，有两个节点，一共有6*2＝12层节点，再加上P+1层节点的偏置，图5所示的全连接层一共有6*2+2个训练参数。

步骤6，用训练集训练分类模型，用测试集验证该模型的准确性。

在具体进行环境噪声识别与分类过程中，首先需要采集数据，即利用麦克风收集日常生活中常见的噪声作为数据集。将其剪辑为300ms-30s，频率选为44.1kHz的噪声片段，将其80％作为训练集，20％作为数据集，对其进行短时傅立叶变换，提取梅尔频谱倒谱系数，最后将其送入卷积神经网络模型进行分类。

作为一个实施例，主要应用场景为街道，所选用的数据集中的噪声片段包括犬吠、小汽车、摩托车、公共汽车以及建筑噪声五种环境噪声，表1是实施例中的数据设置，表2为通过该卷积神经网络***的噪声分类结果：

表1数据设置

	犬吠	小汽车	摩托车	公共汽车	建筑噪声	总数
							训练集	219	204	92	90	98	973
测试集	41	39	37	40	43	200

表2分类结果

由分类结果可以看出，此分类方法准确率可以达到90％以上，说明此方法具有较好的分类效果，即基于卷积神经网络的方法能对环境噪声进行较为准确的识别分类。

本发明未尽事宜为公知技术。

Claims

1.一种基于卷积神经网络的环境噪声识别分类方法，该方法包括下述步骤：

步骤3，提取信号的梅尔频谱倒谱系数(MFCC)；

3-2将能量值取对数运算；

3-3进行离散余弦变换(DCT)，得到MFCC系数；

步骤6，用训练集训练分类模型，用测试集验证该模型的准确性，完成基于卷积神经网络的环境噪声识别分类。

2.根据权利要求1所述的基于卷积神经网络的环境噪声识别分类方法，其特征在于，所述短时傅立叶变换的具体过程是：

2-1进行预加重；

2-2将一段噪声片段分成若干帧；

2-3添加大小为10ms的汉宁窗；

2-4对每帧执行短时傅立叶变换；

2-5最后把每一帧的短时傅里叶变换结果沿另一个维度堆叠起来，得到声谱图。

3.根据权利要求1所述的基于卷积神经网络的环境噪声识别分类方法，其特征在于，所述滤波器组中滤波器的个数为18-22个。