WO2020151338A1

WO2020151338A1 - 一种音频噪声的检测方法、装置、存储介质和移动终端

Info

Publication number: WO2020151338A1
Application number: PCT/CN2019/118544
Authority: WO
Inventors: 庞烨; 周新宇; 王健宗
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-01-23
Filing date: 2019-11-14
Publication date: 2020-07-30
Also published as: CN109658943B; CN109658943A

Abstract

一种音频噪声的检测方法、装置、存储介质和移动终端，涉及计算机技术领域。该音频噪声的检测方法包括：获取输入的语音信号（101）；对所述语音信号进行分帧（102）；分别提取分帧后的所述语音信号的GFCC特征和Gabor特征（103）；将提取到的所述GFCC特征和Gabor特征依次输入CNN神经网络模型的N层卷积层、一层全连接层以及一层softmax层，得到所述语音信号的噪声检测结果（104），3≤N≤5。该CNN网络结构为一种简化结构，不含池化层，且卷积层的数量较少，能够极大地减小计算量，从而使得使用移动终端自身的处理器即可完成该CNN网络模型的计算，不必连接服务器，因此即使移动终端处于离线状态，也很够检测语音信号中的噪声，且实时性好。

Description

一种音频噪声的检测方法、装置、存储介质和移动终端

本申请要求于2019年1月23日提交中国专利局、申请号为201910064238.3、申请名称为“一种音频噪声的检测方法、装置、存储介质和移动终端”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，尤其涉及一种音频噪声的检测方法、装置、存储介质和移动终端。

背景技术

语音助手是一款智能型的手机应用，通过即时问答的智能交互，能够帮助用户解决很多问题。在使用语音助手时，移动终端在获得用户发出的语音后，需要检测语音信号中的噪声，目前通常采用分类器（SVM，随机森林等），或者使用神经网络利用MFCC等声学特征来检测音频噪声。然而，由于采用这些方式的计算量十分巨大，移动终端在采集到语音信号之后，需要将语音信号通过网络发送至计算能力更强大的服务器进行计算，这就导致语音识别的反应时间较长，而且若移动终端处于离线状态，也无法执行。

技术问题

有鉴于此，本申请实施例提供了一种音频噪声的检测方法、装置、存储介质和移动终端，即使移动终端处于离线状态，也很够检测语音信号中的噪声，且实时性好。

技术解决方案

本申请实施例的第一方面，提供了一种音频噪声的检测方法，包括：

获取输入的语音信号；

对所述语音信号进行分帧；

分别提取分帧后的所述语音信号的GFCC特征和Gabor特征；

将提取到的所述GFCC特征和Gabor特征依次输入CNN神经网络模型的N层卷积层、一层全连接层以及一层softmax层，得到所述语音信号的噪声检测结果，3≤N≤5。

本申请实施例的第二方面，提供了一种音频噪声的检测装置，包括：

语音信号获取模块，用于获取输入的语音信号；

分帧模块，用于对所述语音信号进行分帧；

语音特征提取模块，用于分别提取分帧后的所述语音信号的GFCC特征和Gabor特征；

噪声检测模块，用于将提取到的所述GFCC特征和Gabor特征依次输入CNN神经网络模型的N层卷积层、一层全连接层以及一层softmax层，得到所述语音信号的噪声检测结果，3≤N≤5。

本申请实施例的第三方面，提供了一种计算机非易失性可读存储介质，所述计算机非易失性可读存储介质存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如本申请实施例的第一方面提出的音频噪声的检测方法的步骤。

本申请实施例的第四方面，提供了一种移动终端，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如本申请实施例的第一方面提出的音频噪声的检测方法的步骤。

有益效果

本申请提出的音频噪声的检测方法包括：获取输入的语音信号；对所述语音信号进行分帧；分别提取分帧后的所述语音信号的GFCC特征和Gabor特征；将提取到的所述GFCC特征和Gabor特征依次输入CNN神经网络模型的N层卷积层、一层全连接层以及一层softmax层，得到所述语音信号的噪声检测结果，3≤N≤5。该CNN网络结构为一种简化结构，不含池化层，且卷积层的数量较少，能够极大地减小计算量，从而使得使用移动终端自身的处理器即可完成该CNN网络模型的计算，不必连接服务器，因此即使移动终端处于离线状态，也很够检测语音信号中的噪声，且实时性好。

附图说明

图1是本申请实施例提供的一种音频噪声的检测方法的第一个实施例的流程图；

图2是本申请实施例提供的一种音频噪声的检测方法的第二个实施例的流程图；

图3是本申请实施例提供的一种音频噪声的检测方法的第三个实施例的流程图；

图4是本申请实施例提供的一种音频噪声的检测装置的一个实施例的结构图；

图5是本申请实施例提供的一种移动终端的示意图。

本发明的实施方式

本申请实施例提供了一种音频噪声的检测方法、装置、存储介质和移动终端，即使移动终端处于离线状态，也很够检测语音信号中的噪声，且实时性好。

请参阅图1，本申请实施例中一种音频噪声的检测方法的第一个实施例包括：

101、获取输入的语音信号；

本申请应用于移动终端，首先获取输入的语音信号，该语音信号可以由用户实时输入，也可以是预先录制好的一段语音信号。

102、对所述语音信号进行分帧；

在获取到输入的语音信号之后，对该语音信号进行分帧。分帧是语音信号的加窗及分段处理，随着窗口的往右（假设向右代表时间向前）推移，对加窗后的信号逐步展开处理。由于语音信号不是完整的一段稳态信号，故需要将信号分帧，使得每帧信号的长度在20ms至40ms之间，能够在不丢失信息的情况下满足GFCC和Gabor特征提取的要求。

103、分别提取分帧后的所述语音信号的GFCC特征和Gabor特征；

本申请实施例优选将语音信号分帧为25ms的信号，然后分别提取该信号的GFCC特征和Gabor特征。

GFCC是基于FFT的特征提取技术，类似于 MFCC，但采用Gammatone滤波器组和等效的矩形带宽（ERB）比例而不是梅尔滤波器组。由于Gammatone滤波器组是最接近人体耳蜗的滤波器响应，GFCC也称为听觉特征，作为一种新的听觉倒谱系数，与LPCC和MFCC相比，具有更好的识别率和噪声鲁棒性。GFCC特征的提取步骤属于现有技术，具体可以包括：将分帧后的语音信号依次执行信号预加重、信号加窗、DFT、Gammatone滤波、立方根压缩、DCT变换等处理，从而输出GFCC倒谱系数特征。

Gabor是一个用于边缘提取的线性滤波器，能够提供良好的方向选择和尺度选择特性，用于提高噪声识别的鲁棒性。Gabor特征的提取步骤同样属于现有技术，具体可以包括：将分帧后的语音信号预加重，加窗处理，然后输入二维的Gabor滤波器，从而得到Gabor特征。在空间域，一个二维的Gabor滤波器是一个正弦平面波和高斯核函数的乘积，前者是调谐函数，后者是窗口函数。

104、将提取到的所述GFCC特征和Gabor特征依次输入CNN神经网络模型的N层卷积层、一层全连接层以及一层softmax层，得到所述语音信号的噪声检测结果。

在提取到语音信号的GFCC特征和Gabor特征之后，将提取到的所述GFCC特征和Gabor特征依次输入CNN神经网络模型的N层卷积层、一层全连接层以及一层softmax层，得到所述语音信号的噪声检测结果。具体的，输入的GFCC特征和Gabor特征为矩阵的形式，CNN网络输出的是语音信号包含噪声的概率值，若该概率值超过一定的阈值，则表明待检测的语音信号带有噪声。

另外，所述CNN神经网络模型不含池化层，且卷积层的数量为N（3≤N≤5），某个优选的CNN网络结构如以下的表1所示：

表1

层	核数目	核宽度
卷积层1	40	5*5
卷积层2	20	5*5
卷积层3	10	5*5
全连接层	100
Softmax层	2

上述CNN网络结构为一种简化结构，不含池化层，且卷积层的数量较少，能够极大地减小计算量，从而使得使用移动终端自身的处理器即可完成该CNN网络模型的计算，不必连接服务器，因此即使移动终端处于离线状态，也很够检测语音信号中的噪声，且实时性好。另外，通过实验数据的证明，提取GFCC特征和Gabor特征，将这两类音频特征输入该简化的CNN网络（无池化层，且卷积层的数量为3至5），能够获得较为理想的噪声检测效果。

以表1结构的CNN网络模型为例，具体的计算过程可以包括：（1）将GFCC特征和Gabor特征输入该CNN网络的第一层卷积层，GFCC特征和Gabor特征都是维度相同的矩阵形式（比如可以为5*8矩阵），通过卷积计算，第一层卷积层输出第一中间结果，该第一中间结果为符合下一层（第二层卷积层）要求的矩阵形式；

（2）将第一层卷积层输出的中间结果输入第二层卷积层，通过卷积计算，输出第二中间结果，该第二中间结果为符合下一层（第三层卷积层）要求的矩阵形式；

（3）以此类推，上一层卷积层的输出结果作为下一层卷积层的输入，最后得到最后一层卷积层的输出结果，该输出结果为符合下一层（全连接层）要求的矩阵形式；

（4）将最后一层卷积层的输出结果输入全连接层，进行全连接层的计算，得到全连接层的输出结果，该全连接层的输出结果为符合下一层（softmax层）要求的矩阵形式；

（5）将全连接层的输出结果输入softmax层，输出结果为一个概率值，用于表示语音信号包含噪声的概率大小。

卷积层，全连接层和softmax的底层计算过程均属于现有技术，一般的CNN网络包含多个卷积层和池化层，本申请通过简化网络的层级结构，从而实现减少计算量的目的。

本申请实施例提出的音频噪声的检测方法包括：获取输入的语音信号；对所述语音信号进行分帧；分别提取分帧后的所述语音信号的GFCC特征和Gabor特征；将提取到的所述GFCC特征和Gabor特征依次输入CNN神经网络模型的N层卷积层、一层全连接层以及一层softmax层，得到所述语音信号的噪声检测结果，3≤N≤5。该CNN网络结构为一种简化结构，不含池化层，且卷积层的数量较少，能够极大地减小计算量，从而使得使用移动终端自身的处理器即可完成该CNN网络模型的计算，不必连接服务器，因此即使移动终端处于离线状态，也很够检测语音信号中的噪声，且实时性好。

请参阅图2，本申请实施例中一种音频噪声的检测方法的第二个实施例包括：

201、获取输入的语音信号；

202、当获取输入的语音信号时，记录当前的***时间作为噪声检测的起始时间；

203、对所述语音信号进行分帧；

204、分别提取分帧后的所述语音信号的GFCC特征和Gabor特征；

205、将提取到的所述GFCC特征和Gabor特征依次输入CNN神经网络模型的N层卷积层、一层全连接层以及一层softmax层，得到所述语音信号的噪声检测结果；

步骤201-205的具体说明可参照本申请的第一个实施例。

206、在得到所述语音信号的噪声检测结果时，记录当前的***时间作为噪声检测的结束时间；

207、根据所述起始时间和所述结束时间计算得到噪声检测时间；

208、根据所述噪声检测时间调整所述卷积层的数量N的大小。

在本申请实施例中，当获取到输入的语音信号时，记录当前的时间，作为噪音检测的起始时间；当得到所述语音信号的噪声检测结果时，可以记录当前的时间，作为噪音检测的结束时间；然后，计算该结束时间和起始时间的差值，可以得到噪音检测的时间；最后可根据该噪声检测时间调整该CNN网络的卷积层的数量，从而保证噪声检测时间处于一个可接受的范围之内，提升用户体验。

进一步的，步骤208可以包括：

（1）判断所述噪声检测时间是否超过预设的第一阈值；

（2）若所述噪声检测时间超过所述第一阈值，则进一步判断所述卷积层的数量N是否大于3；

（3）若所述卷积层的数量N大于3，则将所述卷积层的数量N调整为N-1。

比如，在获取到输入的语音信息时，记录当前的时间点t ₁作为起始时间，在通过CNN网络得到噪声检测结果后，记录当前的时间点t ₂作为结束时间，则t ₁-t ₂即为噪音检测的处理时间；若该处理时间超过一定的阈值，表明语音识别的实时性较差，而若CNN网络的卷积层超过下限值3，则可以通过减少卷积层的方式减少计算量，以降低处理时间，提高语音识别的实时性。

本申请实施例提出的音频噪声的检测方法包括：当获取输入的语音信号时，记录当前的***时间作为噪声检测的起始时间；对所述语音信号进行分帧；分别提取分帧后的所述语音信号的GFCC特征和Gabor特征；将提取到的所述GFCC特征和Gabor特征依次输入CNN神经网络模型的N层卷积层、一层全连接层以及一层softmax层，得到所述语音信号的噪声检测结果，3≤N≤5；在得到所述语音信号的噪声检测结果时，记录当前的***时间作为噪声检测的结束时间；根据所述起始时间和所述结束时间计算得到噪声检测时间；根据所述噪声检测时间调整所述卷积层的数量N的大小。该CNN网络结构为一种简化结构，不含池化层，且卷积层的数量较少，能够极大地减小计算量，从而使得使用移动终端自身的处理器即可完成该CNN网络模型的计算，不必连接服务器，因此即使移动终端处于离线状态，也很够检测语音信号中的噪声，且实时性好。与本申请的第一个实施例相比，本实施例可以根据噪声检测时间调整CNN神经网络的卷积层的数量大小，从而减少计算量，以降低处理时间，提高语音识别的实时性。

请参阅图3，本申请实施例中一种音频噪声的检测方法的第三个实施例包括：

301、获取输入的语音信号；

302、对所述语音信号进行分帧；

303、分别提取分帧后的所述语音信号的GFCC特征和Gabor特征；

304、将提取到的所述GFCC特征和Gabor特征依次输入CNN神经网络模型的N层卷积层、一层全连接层以及一层softmax层，得到所述语音信号的噪声检测结果；

步骤301-304与步骤101-104相同，具体可参照步骤101-104的相关说明。

305、监测***的CPU使用率和内存使用率；

306、根据所述CPU使用率和内存使用率调整所述卷积层的数量N的大小。

本申请实施例在语音识别的过程中，会实时监测移动终端的CPU使用率和内存使用率，并根据所述CPU使用率和内存使用率调整所述卷积层的数量N的大小。具体的，若CPU使用率或内存使用率超过一定的阈值，表明移动终端的硬件设备计算负荷过重，会造成应用卡顿等不良影响，则可以适当地降低CNN网络的卷积层的数量N的大小，以减小***的计算负荷。

进一步的，步骤306可以包括：

（1）判断所述CPU使用率或内存使用率是否超过预设的第二阈值；

（2）若所述CPU使用率或内存使用率超过所述第二阈值，则进一步判断所述卷积层的数量N是否大于3；

若CNN网络的卷积层超过下限值3，则可以通过减少卷积层的方式减少计算量，以降低硬件设备的计算负荷，避免产生卡顿的现象。

本申请提出的音频噪声的检测方法包括：获获取输入的语音信号；对所述语音信号进行分帧；分别提取分帧后的所述语音信号的GFCC特征和Gabor特征；将提取到的所述GFCC特征和Gabor特征依次输入CNN神经网络模型的N层卷积层、一层全连接层以及一层softmax层，得到所述语音信号的噪声检测结果，3≤N≤5；监测***的CPU使用率和内存使用率；根据所述CPU使用率和内存使用率调整所述卷积层的数量N的大小。该CNN网络结构为一种简化结构，不含池化层，且卷积层的数量较少，能够极大地减小计算量，从而使得使用移动终端自身的处理器即可完成该CNN网络模型的计算，不必连接服务器，因此即使移动终端处于离线状态，也很够检测语音信号中的噪声，且实时性好。与本申请的第一个实施例相比，本实施例可以根据移动终端的CPU使用率和内存使用率调整CNN网络的卷积层的数量大小，从而减少计算量，降低硬件设备的计算负荷，避免产生卡顿的现象。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

上面主要描述了一种音频噪声的检测方法，下面将对一种音频噪声的检测装置进行详细描述。

请参阅图4，本申请实施例中一种音频噪声的检测装置的一个实施例包括：

语音信号获取模块401，用于获取输入的语音信号；

分帧模块402，用于对所述语音信号进行分帧；

语音特征提取模块403，用于分别提取分帧后的所述语音信号的GFCC特征和Gabor特征；

噪声检测模块404，用于将提取到的所述GFCC特征和Gabor特征依次输入CNN神经网络模型的N层卷积层、一层全连接层以及一层softmax层，得到所述语音信号的噪声检测结果，3≤N≤5。

进一步的，所述音频噪声的检测装置还可以包括：

起始时间记录模块，用于当获取输入的语音信号时，记录当前的***时间作为噪声检测的起始时间；

结束时间记录模块，用于在得到所述语音信号的噪声检测结果时，记录当前的***时间作为噪声检测的结束时间；

噪声检测时间计算模块，用于根据所述起始时间和所述结束时间计算得到噪声检测时间；

第一卷积层调整模块，用于根据所述噪声检测时间调整所述卷积层的数量N的大小。

更进一步的，所述第一卷积层调整模块可以包括：

第一判断单元，用于判断所述噪声检测时间是否超过预设的第一阈值；

第二判断单元，用于若所述噪声检测时间超过所述第一阈值，则进一步判断所述卷积层的数量N是否大于3；

第一卷积层调整单元，用于若所述卷积层的数量N大于3，则将所述卷积层的数量N调整为N-1。

进一步的，所述音频噪声的检测装置还可以包括：

***性能监测模块，用于监测***的CPU使用率和内存使用率；

第二卷积层调整模块，用于根据所述CPU使用率和内存使用率调整所述卷积层的数量N的大小。

更进一步的，所述第二卷积层调整模块可以包括：

第三判断单元，用于判断所述CPU使用率或内存使用率是否超过预设的第二阈值；

第四判断单元，用于若所述CPU使用率或内存使用率超过所述第二阈值，则进一步判断所述卷积层的数量N是否大于3；

第二卷积层调整单元，用于若所述卷积层的数量N大于3，则将所述卷积层的数量N调整为N-1。

本申请实施例还提供一种移动终端，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如图1至图3表示的任意一种音频噪声的检测方法的步骤。

图5是本申请一实施例提供的移动终端的示意图。如图5所示，该实施例的移动终端5包括：处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机可读指令52。所述处理器50执行所述计算机可读指令52时实现上述各个音频噪声的检测方法实施例中的步骤，例如图1所示的步骤101至104。或者，所述处理器50执行所述计算机可读指令52时实现上述各装置实施例中各模块/单元的功能，例如图4所示模块401至404的功能。

示例性的，所述计算机可读指令52可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器51中，并由所述处理器50执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段，该指令段用于描述所述计算机可读指令52在所述移动终端5中的执行过程。

所述处理器50可以是中央处理单元（Central Processing Unit，CPU），还可以是其它通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器51可以是所述移动终端5的内部存储单元，例如移动终端5的硬盘或内存。所述存储器51也可以是所述移动终端5的外部存储设备，例如所述移动终端5上配备的插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）等。进一步地，所述存储器51还可以既包括所述移动终端5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机可读指令以及所述移动终端5所需的其它指令和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。

在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机非易失性可读存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干计算机可读指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储计算机可读指令的介质。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一计算机非易失性可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种音频噪声的检测方法，其特征在于，包括：

获取输入的语音信号；

对所述语音信号进行分帧；

分别提取分帧后的所述语音信号的GFCC特征和Gabor特征；

将提取到的所述GFCC特征和Gabor特征依次输入CNN神经网络模型的N层卷积层、一层全连接层以及一层softmax层，得到所述语音信号的噪声检测结果，3≤N≤5。
根据权利要求1所述的音频噪声的检测方法，其特征在于，还包括：

当获取输入的语音信号时，记录当前的***时间作为噪声检测的起始时间；

在得到所述语音信号的噪声检测结果时，记录当前的***时间作为噪声检测的结束时间；

根据所述起始时间和所述结束时间计算得到噪声检测时间；

根据所述噪声检测时间调整所述卷积层的数量N的大小。
根据权利要求2所述的音频噪声的检测方法，其特征在于，所述根据所述噪声检测时间调整所述卷积层的数量N的大小包括：

判断所述噪声检测时间是否超过预设的第一阈值；

若所述噪声检测时间超过所述第一阈值，则进一步判断所述卷积层的数量N是否大于3；

若所述卷积层的数量N大于3，则将所述卷积层的数量N调整为N-1。
根据权利要求1至3中任一项所述的音频噪声的检测方法，其特征在于，还包括：

监测***的CPU使用率和内存使用率；

根据所述CPU使用率和内存使用率调整所述卷积层的数量N的大小。
根据权利要求4所述的音频噪声的检测方法，其特征在于，所述根据所述CPU使用率和内存使用率调整所述卷积层的数量N的大小包括：

判断所述CPU使用率或内存使用率是否超过预设的第二阈值；

若所述CPU使用率或内存使用率超过所述第二阈值，则进一步判断所述卷积层的数量N是否大于3；

若所述卷积层的数量N大于3，则将所述卷积层的数量N调整为N-1。
一种音频噪声的检测装置，其特征在于，包括：

语音信号获取模块，用于获取输入的语音信号；

分帧模块，用于对所述语音信号进行分帧；

语音特征提取模块，用于分别提取分帧后的所述语音信号的GFCC特征和Gabor特征；

噪声检测模块，用于将提取到的所述GFCC特征和Gabor特征依次输入CNN神经网络模型的N层卷积层、一层全连接层以及一层softmax层，得到所述语音信号的噪声检测结果，3≤N≤5。
根据权利要求6所述的音频噪声的检测装置，其特征在于，还包括：

起始时间记录模块，用于当获取输入的语音信号时，记录当前的***时间作为噪声检测的起始时间；

结束时间记录模块，用于在得到所述语音信号的噪声检测结果时，记录当前的***时间作为噪声检测的结束时间；

噪声检测时间计算模块，用于根据所述起始时间和所述结束时间计算得到噪声检测时间；

第一卷积层调整模块，用于根据所述噪声检测时间调整所述卷积层的数量N的大小。
根据权利要求7所述的音频噪声的检测装置，其特征在于，所述第一卷积层调整模块包括：

第一判断单元，用于判断所述噪声检测时间是否超过预设的第一阈值；

第二判断单元，用于若所述噪声检测时间超过所述第一阈值，则进一步判断所述卷积层的数量N是否大于3；

第一卷积层调整单元，用于若所述卷积层的数量N大于3，则将所述卷积层的数量N调整为N-1。
根据权利要求6至8中任一项所述的音频噪声的检测装置，其特征在于，还包括：

***性能监测模块，用于监测***的CPU使用率和内存使用率；

第二卷积层调整模块，用于根据所述CPU使用率和内存使用率调整所述卷积层的数量N的大小。
根据权利要求9所述的音频噪声的检测装置，其特征在于，所述第二卷积层调整模块包括：

第三判断单元，用于判断所述CPU使用率或内存使用率是否超过预设的第二阈值；

第四判断单元，用于若所述CPU使用率或内存使用率超过所述第二阈值，则进一步判断所述卷积层的数量N是否大于3；

第二卷积层调整单元，用于若所述卷积层的数量N大于3，则将所述卷积层的数量N调整为N-1。
一种计算机非易失性可读存储介质，所述计算机非易失性可读存储介质存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时实现如下步骤：

获取输入的语音信号；

对所述语音信号进行分帧；

分别提取分帧后的所述语音信号的GFCC特征和Gabor特征；

将提取到的所述GFCC特征和Gabor特征依次输入CNN神经网络模型的N层卷积层、一层全连接层以及一层softmax层，得到所述语音信号的噪声检测结果，3≤N≤5。
根据权利要求11所述的计算机非易失性可读存储介质，其特征在于，所述计算机可读指令被处理器执行时还实现如下步骤：

当获取输入的语音信号时，记录当前的***时间作为噪声检测的起始时间；

在得到所述语音信号的噪声检测结果时，记录当前的***时间作为噪声检测的结束时间；

根据所述起始时间和所述结束时间计算得到噪声检测时间；

根据所述噪声检测时间调整所述卷积层的数量N的大小。
根据权利要求12所述的计算机非易失性可读存储介质，其特征在于，所述根据所述噪声检测时间调整所述卷积层的数量N的大小包括：

判断所述噪声检测时间是否超过预设的第一阈值；

若所述噪声检测时间超过所述第一阈值，则进一步判断所述卷积层的数量N是否大于3；

若所述卷积层的数量N大于3，则将所述卷积层的数量N调整为N-1。
根据权利要求11至13任一项所述的计算机非易失性可读存储介质，其特征在于，所述计算机可读指令被处理器执行时还实现如下步骤：

监测***的CPU使用率和内存使用率；

根据所述CPU使用率和内存使用率调整所述卷积层的数量N的大小。
根据权利要求14所述的计算机非易失性可读存储介质，其特征在于，所述根据所述CPU使用率和内存使用率调整所述卷积层的数量N的大小包括：

判断所述CPU使用率或内存使用率是否超过预设的第二阈值；

若所述CPU使用率或内存使用率超过所述第二阈值，则进一步判断所述卷积层的数量N是否大于3；

若所述卷积层的数量N大于3，则将所述卷积层的数量N调整为N-1。
一种服务器，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现如下步骤：

获取输入的语音信号；

对所述语音信号进行分帧；

分别提取分帧后的所述语音信号的GFCC特征和Gabor特征；

将提取到的所述GFCC特征和Gabor特征依次输入CNN神经网络模型的N层卷积层、一层全连接层以及一层softmax层，得到所述语音信号的噪声检测结果，3≤N≤5。
根据权利要求16所述的服务器，其特征在于，所述处理器执行所述计算机可读指令时还实现如下步骤：

当获取输入的语音信号时，记录当前的***时间作为噪声检测的起始时间；

在得到所述语音信号的噪声检测结果时，记录当前的***时间作为噪声检测的结束时间；

根据所述起始时间和所述结束时间计算得到噪声检测时间；

根据所述噪声检测时间调整所述卷积层的数量N的大小。
根据权利要求17所述的服务器，其特征在于，所述根据所述噪声检测时间调整所述卷积层的数量N的大小包括：

判断所述噪声检测时间是否超过预设的第一阈值；

若所述噪声检测时间超过所述第一阈值，则进一步判断所述卷积层的数量N是否大于3；

若所述卷积层的数量N大于3，则将所述卷积层的数量N调整为N-1。
根据权利要求16至18任一项所述的服务器，其特征在于，所述处理器执行所述计算机可读指令时还实现如下步骤：

监测***的CPU使用率和内存使用率；

根据所述CPU使用率和内存使用率调整所述卷积层的数量N的大小。
根据权利要求19所述的服务器，其特征在于，所述根据所述CPU使用率和内存使用率调整所述卷积层的数量N的大小包括：

判断所述CPU使用率或内存使用率是否超过预设的第二阈值；

若所述CPU使用率或内存使用率超过所述第二阈值，则进一步判断所述卷积层的数量N是否大于3；

若所述卷积层的数量N大于3，则将所述卷积层的数量N调整为N-1。