CN105261359A

CN105261359A - 手机麦克风的消噪***和消噪方法

Info

Publication number: CN105261359A
Application number: CN201510863119.6A
Authority: CN
Inventors: 章雒霏; 张铭; 李晨
Original assignee: Nanjing Normal University
Current assignee: Nanjing Normal University
Priority date: 2015-12-01
Filing date: 2015-12-01
Publication date: 2016-01-20
Anticipated expiration: 2035-12-01
Also published as: CN105261359B

Abstract

本发明公开了手机麦克风消噪***和消噪方法，通过利用语音和噪声活动检测装置和消噪模块对手机主、次麦克风接收到的带噪语音信号进行消噪处理，解决了现有的双通道语音活动检测装置依赖于固定的阈值无法在复杂的噪声环境下准确的区分语音和噪声，应用于手机消噪***会造成语音失真降低可懂度的问题，减少了消噪***因语音活动检测装置的误判而造成的性能下降，使得消噪***能够对麦克风接收到的带噪语音信号进行精确的降噪，提高了手机通话的质量。

Description

手机麦克风的消噪***和消噪方法

技术领域

本发明涉及手机通话中的噪声抑制和消除领域，尤其涉及一种手机麦克风的消噪***和消噪方法。

背景技术

语音活动检测是语音增强处理中的重要组成部分，语音活动检测可以从带噪语音信号中确定出语音的起始和结束点的位置。准确的区分语音和噪声能够帮助消噪***分别针对语音和噪声进行不同的处理，在抑制噪声的同时减少语音失真。现有的应用于手机消噪中的语音活动检测技术主要通过设定固定的阈值来判断语音和噪声，然而，手机在通话中所处的噪声环境非常的复杂，固定的阈值无法在不同的信噪比和噪声环境下准确的区分语音和噪声，造成了语音活动检测的误判，最终导致了手机消噪***性能的下降。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种手机双麦克风消噪***和消噪方法，该消噪***利用语音和噪声活动检测模块分别对语音和噪声进行检测，并以此来进行噪声抑制处理，解决了现有的消噪***因语音活动检测的误判而造成的性能下降的问题使得消噪***能够对麦克风接收到的带噪语音信号进行精确去噪，提高手机通话质量。

技术方案：为实现上述目的，本发明中手机麦克风的消噪***包括：第一模数转换模块、第二模数转换模块、语音和噪声活动检测装置以及消噪模块；所述第一模数转换模块连接手机上的主麦克风，将主麦克风接收到的模拟带噪语音信号转换为主麦克风数字带噪语音信号并传递给语音和噪声活动检测装置和消噪模块；所述第二模数转换模块连接手机上的次麦克风，将次麦克风接收到的模拟带噪语音信号转换为次麦克风数字带噪语音信号并传递给语音和噪声活动检测装置和消噪模块；所述语音和噪声活动检测装置根据主麦克风数字带噪语音信号和次麦克风数字带噪语音信号为所述消噪模块确定语音采样点和噪声采样点；所述消噪模块在语音采样点先将次麦克风数字带噪语音信号中的纯净语音信号进行消除处理得到背景噪声信号，再在噪声采样点对主麦克风数字带噪语音信号中的背景噪声信号进行降噪处理得到纯净语音信号。

进一步地，所述语音和噪声活动检测装置包括：

语音活动检测模块，对主麦克风数字带噪语音信号的时域采样点进行标记得到语音采样点；

噪声活动检测模块，利用所述消噪模块获取的背景噪声信号和主麦克风数字带噪语音信号对主麦克风数字带噪语音信号的时域采样点进行标记得到噪声采样点。

更进一步地，所述语音活动检测模块包括：

神经网络语音活动检测单元，根据主麦克风数字带噪语音信号和次麦克风数字带噪语音信号对主麦克风数字带噪语音信号中的语音信号利用二进制数进行标记；

基于互通道信号功率比值的语音活动检测单元，根据主麦克风数字带噪语音信号和次麦克风数字带噪语音信号对主麦克风数字带噪语音信号中的语音信号利用二进制数进行标记；

合并单元，将所述神经网络语音活动检测单元和基于互通道信号功率比值的语音活动检测单元获取到的标记结果做与运算，得到最终的语音标记结果作为所述语音信号采样点。

其中，所述消噪模块包括：

第一滤波器，以主麦克风数字带噪语音信号和次麦克风数字带噪语音信号为输入信号，在所述语音采样点调整滤波器参数将纯净语音信号从所述次麦克风数字带噪语音信号中滤除得到所述背景噪声信号；

第二滤波器，以主麦克风数字带噪语音信号作为参考信号，将所述第一滤波器输出的背景噪声信号作为输入，在所述噪声采样点调整滤波器参数将所述背景噪声信号从所述主麦克风数字带噪语音信号中滤除，得到所述纯净语音信号。

相应地，本发明还提供了一种应用于上述消噪***的消噪方法，包括以下步骤：

所述第一模数转换模块将主麦克风接收到的模拟带噪语音信号转换为主麦克风数字带噪语音信号并传递给语音和噪声活动检测装置和消噪模块；

所述第二模数转换模块将次麦克风接收到的模拟带噪语音信号转换为次麦克风数字带噪语音信号并传递给语音和噪声活动检测装置和消噪模块；

所述语音和噪声活动检测装置根据主麦克风数字带噪语音信号和次麦克风数字带噪语音信号为所述消噪模块确定语音采样点和噪声采样点；

所述消噪模块在语音采样点先将次麦克风数字带噪语音信号中的纯净语音信号进行消除处理得到背景噪声信号，再在噪声采样点对主麦克风数字带噪语音信号中的背景噪声信号进行降噪处理得到纯净语音信号。

进一步地，所述语音和噪声活动检测装置中的语音活动检测模块对所述主麦克风数字带噪语音信号的时域采样点进行标记得到所述语音采样点，包括以下步骤：

神经网络语音活动检测单元根据主麦克风数字带噪语音信号和次麦克风数字带噪语音信号对主麦克风数字带噪语音信号中的语音信号利用二进制数进行标记；

基于互通道信号功率比值的语音活动检测单元根据主麦克风数字带噪语音信号和次麦克风数字带噪语音信号对主麦克风数字带噪语音信号中的语音信号利用二进制数进行标记；

合并单元将所述神经网络语音活动检测单元和基于互通道信号功率比值的语音活动检测单元获取到的标记结果做与运算，得到最终的语音标记结果作为所述语音信号采样点。

进一步地，所述神经网络语音活动检测单元对所述主麦克风数字带噪语音信号中的语音信号和噪声信号利用二进制数进行标记，包括以下步骤：

(1)对主麦克风数字带噪语音信号和次麦克风数字带噪语音信号进行短时分帧处理，对每一帧信号提取特征，所述特征包括：子带互通道能量差和归一化的互通道相关；

(2)将所述特征输入至预先训练好的神经网络，所述神经网络利用所存储的神经网络的权值和神经元个数，对每一帧信号进行判断并输出每一帧带噪语音的语音活动检测结果；

(3)将所述神经网络的语音活动检测结果转化为每个采样点的结果，如果一帧带噪语音信号被判断为语音存在的帧，则该帧信号内的所有采样点都标记为语音，如果该帧信号被判断为噪声，则一帧信号内的所有采样点都标记为噪声。

进一步地，所述基于互通道信号功率比值的语音活动检测单元对所述主麦克风数字带噪语音信号中的语音信号和噪声信号利用二进制数进行标记，包括以下步骤：

(1)利用长时间平滑参数α_{_s}计算所述主麦克风数字带噪语音信号经过长时间平滑计算得到的第一长时功率和次麦克风数字带噪语音信号经过长时间平滑计算得到的第二长时功率利用短时间平滑参数α_{_f}计算所述主麦克风数字带噪语音信号经过短时间平滑计算得到的第一短时功率和次麦克风数字带噪语音信号经过短时间平滑计算得到的第二短时功率

(2)将所述第一长时功率和所述第二长时功率的比值作为长平滑互通道功率比P_s(t)，将所述第一短时功率和所述第二短时功率的比值作为短平滑互通道功率比P_f(t)；

(3)对每一个时域采样点，比较长平滑互通道功率比P_s(t)和短平滑互通道功率比P_f(t)的大小，如果满足P_f(t)>2*P_s(t)则将该时域采样点标记为语音，否则标记为噪声，标记为语音。

进一步地，所述语音和噪声活动检测装置中的噪声活动检测模块利用所述背景噪声信号和所述主麦克风数字带噪语音信号对主麦克风数字带噪语音信号中的噪声进行标记，为所述消噪模块提供所述噪声采样点，包括以下步骤：

(1)采用长时间平滑参数α_{_s}计算所述背景噪声经过长时间平滑计算得到的噪声长时功率P_{noise_s}(t)，采用短时间平滑参数α_f计算所述背景噪声经过短时间平滑计算得到的噪声短时功率P_{noise_f}(t)；

(2)利用所述噪声长时功率P_{noise_s}(t)和所述第一长时功率得到长时功率比P_{n_s}(t)，利用所述噪声短时功率P_{noise_f}(t)和所述第一短时功率得到短时功率比P_{n_f}(t)；

(3)利用长时间平滑参数α_{_ss}对P_{n_s}(t)进行平滑得到平滑后的长时功率比P_{n_ss}(t)；

(4)在每一个时域采样点，比较P_{n_f}(t)和P_{n_ss}(t)的大小，如果满足P_{n_f}(t)>2*P_{n_ss}(t)将该时域采样点标记为噪声，否则标记为语音，标记为噪声的作为所述噪声采样点。

有益效果：本发明的手机双麦克风消噪***和消噪方法，以分频带能量差和归一化互通道相关为特征，采用神经网络对语音和噪声进行分类。在此基础上，将神经网络语音活动检测的结果与基于互通道信号功率比值的语音活动检测结果相结合，提出一种新的适用于手机消噪***的语音和噪声活动检测装置，该装置分别对语音和噪声进行检测减少了消噪***因语音活动检测的误判而造成的性能下降。

附图说明

图1是本发明中手机麦克风的消噪***的结构示意图；

图2是语音活动检测模块的结构示意图；

图3是噪声活动检测模块的结构示意图；

图4是消噪模块的结构示意图。

具体实施方式

下面结合实施例对本发明做进一步的详细说明，本实施列对本发明不构成限定。

图1中的手机麦克风的消噪***包括：第一模数转换模块、第二模数转换模块、语音和噪声活动检测装置以及消噪模块，第一模数转换模块连接手机上的主麦克风，将主麦克风接收到的模拟带噪语音信号转换为主麦克风数字带噪语音信号，并将该数字带噪语音信号传递给语音和噪声活动检测装置和消噪模块；第二模数转换模块连接手机上的次麦克风，将次麦克风接收到的模拟带噪语音信号转换为次麦克风数字带噪语音信号，并将该数字信号传递给语音和噪声活动检测装置和消噪模块；上述模拟带噪语音信号，包括纯净语音信号和环境中的背景噪声信号，语音和噪声活动检测装置根据主麦克风数字带噪语音信号和次麦克风数字带噪语音信号为消噪模块确定语音采样点和噪声采样点，消噪模块在语音采样点先将次麦克风数字带噪语音信号中的纯净语音信号进行消除处理得到背景噪声信号，再在噪声采样点对主麦克风数字带噪语音信号中的背景噪声信号进行降噪处理得到纯净语音信号。

在本实施例中位于手机下侧的Microphone(简称下MIC)对应主麦克风，主麦克风为通话中相对接近用户发音部位的麦克风，位于手机上侧的Microphone(简称上MIC)对应次麦克风，次麦克风为通话中相对远离用户发音部位的麦克风。

上述语音和噪声活动检测装置包括：语音活动检测模块VAD和噪声活动检测模块NAD，语音活动检测模块VAD对主麦克风数字带噪语音信号的时域采样点进行标记得到语音采样点，噪声活动检测模块NAD利用消噪模块获取的背景噪声信号(即：次麦克风数字带噪语音信号中滤除目标语音后得到的背景噪声信号)和主麦克风数字带噪语音信号对主麦克风数字带噪语音信号的时域采样点进行标记得到噪声采样点。

如图2所示，语音活动检测模块VAD包括神经网络语音活动检测单元、基于互通道信号功率比值的语音活动检测单元和合并单元，神经网络语音活动检测单元和基于互通道信号功率比值的语音活动检测单元分别根据主麦克风数字带噪语音信号和次麦克风数字带噪语音信号对主麦克风数字带噪语音信号中的语音信号和噪声信号利用二进制数进行标记；合并单元将两个单元获取到的标记结果做与运算，得到最终的语音标记结果作为上述的语音信号采样点，即将神经网络语音活动检测的标记结果和基于互通道功率比值的语音活动检测的标记结果相结合，只有神经网络语音活动检测和互通道功率比值语音活动检测都判断当前采样点为语音的时候，该采样点才被标记为语音，否则标记为噪声。

上述利用神经网络语音活动检测单元对语音信号和噪声信号利用二进制数进行标记，包括以下步骤：

(1)对主麦克风数字带噪语音信号和次麦克风数字带噪语音信号进行短时分帧处理，对每一帧信号提取特征，包括：子带互通道能量差和归一化的互通道相关；

(2)将该特征输入至预先训练好的神经网络，该神经网络利用所存储的神经网络的权值和神经元个数，对每一帧信号进行判断并输出每一帧语音活动检测的二进制标记结果：1表示语音帧，0表示噪声帧；

(3)将神经网络的语音活动检测结果转化为每个采样点的结果，转化的方法为：如果当前一帧带噪语音信号被判断为语音存在的帧，则一帧信号内的所有采样点都标记为1，相反的，如果一帧信号被判断为噪声，则一帧信号内的所有采样点都标记为0。

举例说明上述神经网络训练的步骤，具体如下：

1)通过手机的主麦克风和次麦克风采集训练用的模拟带噪语音信号作为神经网络的训练样本。

例如：选取100段训练用的纯净语音信号，其中80段作为训练集用于神经网络的训练，剩余20段作为验证集用于验证神经网络的结果；每句时间长度约为10s；同时，选取6种常见的噪声，babble,car,restaurant,office,street和方向性的语音干扰作为背景噪声，通过一邻近手机主麦克风的人工嘴播放纯净语音信号，手机***布设若干喇叭播放环境噪声，信噪比分别为5dB,10dB和15dB，从而产生训练用模拟带噪语音信号；然后通过手机的主、次麦克风对产生的训练用模拟带噪语音信号分别进行采样，将不同信噪比和噪声环境下采样的带噪语音作为训练神经网络的样本，并将训练样本划分为训练集和验证集(其中训练集为80段纯净语音分别在5,10,15dB信噪比的6种不同噪声环境下的带噪语音样本，测试集为20段纯净语音分别在5,10,15dB信噪比的6种不同噪声环境下的带噪语音样本)。

2)通过模数转换器分别将上述主麦克风和次麦克风采集的训练样本转换为对应的数字采样信号，得到训练用的分别对应于主、次麦克风的数字带噪语音信号，例如：数字采样信号的频率为8khz。

3)对训练用数字带噪语音信号提取特征，包括：子带互通道能量差和归一化的互通道相关；并对每帧训练用数字带噪语音信号进行标记得到对应的语音活动检测结果：1表示语音帧，0表示噪声帧。

具体的，分别对训练集和测试集中的每帧数字带噪语音信号进行标记得到对应的语音活动检测结果，其中将带噪语音信号中的语音帧标记为1，噪声帧标记为0，作为神经网络的输出目标；其中对带噪语音信号进行短时分帧处理特征提取和标记语音活动检测结果所使用的短时分帧的帧长为256个采样点，帧移为128个采样点。

不管是训练集还是验证集，训练样本中用于神经网络训练的样本的正确的语音活动检测的结果是预先标记的，可以通过如下方式获得，如录制一段纯净的语音，根据预设的一个能量阈值(如阈值为25dBSPL声压级)来标记语音段，大于预设阈值则认为是语音帧标记为1，小于预设阈值则认为是噪声帧标记为0，然后，如果这段语音混合了噪声，前边标记的语音帧和噪声帧就指明了带噪语音中语音存在的帧和噪声存在的帧，即可据此对训练集和测试集中的每帧数字带噪语音信号进行标记得到对应的语音活动检测结果。

4)将特征作为神经网络的输入，步骤3)中得到的语音活动检测结果作为输出目标训练神经网络。

纯净语音段中预设有标记语音存在的帧和噪声存在的帧，然后该纯净语音段和不同噪声在不同信噪比下混合得到模拟带噪语音信号，对通过手机的主、次麦克风采集的模拟带噪语音信号采样后得到的数字带噪语音信号提取特征作为神经网络的输入，以纯净语音段的标记为据所获得的训练样本对应的语音活动检测结果为神经网络的输出目标，这样来训练神经网络。

根据预设的神经网络隐藏层神经元个数的范围(比如，10-50个)，将从训练集中提取的特征作为神经网络的输入，对应的训练集语音活动检测结果，其中语音活动检测标签(1：语音0：噪声)作为神经网络的输出目标，计算神经网络的输出结果与输出目标之间的误差；通过误差反向传播算法持续调整神经网络的权值，直到误差小于预设的阈值或者训练次数达到预期最大迭代次数则停止神经网络的训练，否则继续调整权值；训练结束后，使用验证集验证神经网络的结果，将从验证集中提取的特征作为神经网络的输入，神经网络的输出结果和对应验证集的语音活动检测结果进行比较，统计神经网络输出结果的正确率，如果正确率优于之前训练得到的结果，则记录此时的神经元个数；每次增加一个神经元重复上述的训练和验证步骤，直到到达设定神经元个数的上限，最后选取最优的结果对应的神经元个数，并记录此时神经网络内部的权值作为最终训练完毕的神经网络。

5)存储训练完毕的神经网络的权值和神经元个数。

本发明中步骤3)中子带互通道能量差的计算方法为：使用短时傅里叶变化将主、次麦克风接受的带噪语音信号转化到频域，在频域使用24个MEL频带对频域进行划分，对每一帧信号，先分别计算主、次麦克风的信号功率谱，再计算主、次麦克风信号功率谱在每个频点的比值，对每个子带，将子带内每个频点的功率比值取对数相加求和再除以子带的频点数进行平均，然后得到每个子带的互通道能量差作为训练神经网络的特征，其中第b个子带互通道能量差为：

S_{P} (b, n) = \frac{1}{u_{h} (b) - u_{l} (b)} Σ_{k = u_{h} (b)}^{u_{l} (b)} 10 \log_{10} \frac{P_{X_{1}} (k, n)}{P_{X_{2}} (k, n)} - - - (1)

其中，u_h(b)和u_l(b)分别为第b个子带的上下边界，和分别为主麦克风和次麦克风中第n帧信号的第k个频点的功率谱，k代表频率点,n代表语音帧标号，X₁和X₂的下标为麦克风的标号(1：主麦克风，2：次麦克风)。

本发明中，上述特征中归一化的互通道相关的计算方法为：在时域将主、次麦克风中的信号划分为短时帧，对每一帧信号，先计算主、次麦克风接受的信号幅值的均值，然后，在每个采样点上，再用主麦克风中的信号幅值减去其对应均值的值，与当前采样点经过τ个采样点的延时后的次麦克风中的信号幅值减去其对应均值的值相乘，并将每个采样点计算的结果在一帧内求和，最后对求和的值进行归一化，得到对应每一帧的归一化互通道相关T(n,τ)，计算公式如下：

T (n, τ) = \frac{Σ_{l = 1}^{L} (x_{1, n} (l) - {\overset{&OverBar;}{x}}_{1, n}) (x_{2, n} (l - τ) - {\overset{&OverBar;}{x}}_{2, n})}{\sqrt{Σ_{l = 1}^{L} {(x_{1, n} (l) - {\overset{&OverBar;}{x}}_{1, n})}^{2}} + \sqrt{Σ_{l = 1}^{L} {(x_{2, n} (l) - {\overset{&OverBar;}{x}}_{2, n})}^{2}}} - - - (2)

其中，L代表每一帧时域信号的长度，τ为延时，x_1,n和x_2,n分别为主，次麦克风中的数字带噪语音信号，和分别为每一帧内主麦克风和次麦克风接受的信号的均值，x_1,n和x_2,n的下标1和2为麦克风的标号(1：主麦克风，2：次麦克风)。

例如：对一帧带噪语音信号，选取24个频带的子带互通道能量差作为第一类特征，选取τ＝{-10，-9，-8，…+8,+9,+10}对应的归一化互通道相关的值作为第二类特征，一共为45个输入作为训练神经网络的输入，神经网络采用3层的反向传播神经网络(BackpropagationNeuralNetworks)。隐藏层采用30个神经元，输入层到隐藏层采用tansig作为激活函数，隐藏层到输出层采用purline作为激活函数，最大迭代次数为2000次，学习步长设定为0.01，学习函数设定为traingdx。

上述基于互通道信号功率比值的语音活动检测单元分别对主麦克风数字带噪语音信号和次麦克风数字带噪语音信号计算信号的功率，并得到两个通道的信号功率比值，具体步骤如下：

(1)采用不同的平滑参数α计算两个通道信号的功率，计算过程如下：

P_{i_{s}} (t) = α_{_s} P_{i_{s}} (t - 1) + (1 - α_{_s}) {x_{i}}^{2} (t), i = 1, 2 - - - (1)

P_{i_{f}} (t) = α_{_f} P_{i_{f}} (t - 1) + (1 - α_{_f}) {x_{i}}^{2} (t), i = 1, 2 - - - (2)

其中，为长时间平滑计算得到的功率，使用的平滑参数为α_{_s}＝0.999，为短时间平滑得到的功率，平滑参数为α_{_f}＝0.9。i为主，次麦克风的标号(1：主麦克风2：次麦克风)。

(2)将长平滑和短平滑分别计算得到的两个通道的功率相比得到互通道功率的比值，计算过程如下：

P_{s} (t) = P_{1_{s}} (t) / P_{2_{s}} (t) - - - (3)

P_{f} (t) = P_{1_{f}} (t) / P_{2_{f}} (t) - - - (4)

其中，P_s(t)为长平滑互通道功率比，P_f(t)为短平滑互通道功率比，因为语音信号是高度非平稳的信号，短时间平滑得到的信号功率会比长时间平滑得到的信号功率大得多，而噪声较语音信号平缓，所以短时间和长时间平滑的信号功率差别较语音小的多。可以通过比较P_f(t)和P_s(t)的大小来判断语音和噪声。

(3)对每一个时域采样点，比较比较P_f(t)和P_s(t)的大小，如果满足P_f(t)>2*P_s(t)则将该时域采样点标记为1表示语音，否则标记为0表示噪声。

现有技术中区分语音和噪声的方法通过设定一个阈值，将功率比值与设定阈值进行比较，如果大于阈值则判断为语音，小于阈值则判断为噪声，但是固定的阈值无法在不同的信噪比和噪声环境下获得准确的结果，本发明分别采用长时间的平滑和短时间的平滑迭代计算主、次麦克风中的带噪语音信号的功率，再计算长时间和短时间平滑迭代计算的主、次麦克风的带噪语音的功率的比值，通过比较长时间信号功率比值和短时间信号功率比值的大小来判断语音和噪声，该方法能够在不同的信噪比噪声环境下取得准确的结果。

另外，现有的语音活动检测方法难以准确的区分语音和噪声，造成语音被误判为噪声或者噪声被误判为语音，本发明的语音活动检测方法，分别采用神经网络语音活动检测单元和基于互通道信号功率比值的语音活动检测单元进行语音活动的检测，结合两者的结果可以在判断出语音存在的部分的同时减少噪声的误判。

如图3所示，上述噪声活动检测模块NAD利用互通道信号功率的比值进行噪声活动的检测，具体步骤如下：

(1)将消噪模块获取的背景噪声信号(即：主麦克风数字带噪语音信号中滤除了纯净语音信号得到的背景噪声信号)和主麦克风数字带噪语音信号作为噪声活动检测器的输入；

(2)采用不同的平滑参数α计算噪声和带噪语音信号的功率，计算过程如下：

P_{noise_s}(t)＝α_{_s}P_{noise_s}(t-1)+(1-α_{_s})n²(t)(5)

P_{noise_f}(t)＝α_{_f}P_{noise_f}(t-1)+(1-α_{_f})n²(t)(6)

其中，P_{noise_s}(t)为长时间平滑计算得到的噪声功率，α_{_s}＝0.999，P_{noise_f}(t)为短时间平滑计算得到的噪声功率，α_{_f}＝0.9，n(t)为第一滤波器输出的背景噪声信号；

(3)分别将P_{noise_s}(t)和P_{noise_f}(t)与长，短时平滑计算得到的主麦克风中带噪信号功率和进行比较，得到噪声和带噪语音信号的功率比值，计算过程如下：

P_{n_s} (t) = P_{n o i s e_s} (t) / P_{1_{s}} (t) - - - (7)

P_{n_f} (t) = P_{n o i s e_f} (t) / P_{1_{f}} (t) - - - (8)

其中，P_{n_s}(t)与P_{n_f}(t)分别为长平滑和短平滑计算得到的噪声与主麦克风中带噪语音的长时功率比和短时功率比；

(4)为了在噪声段增加长时与短时平滑功率比值的差距，对P_{n_s}(t)再次进行平滑，计算过程如下：

P_{n_ss}(t)＝α_{_ss}P_{n_ss}(t-1)+(1-α_{_ss})P_{n_s}(t)(9)

其中，P_{n_ss}(t)为对长时功率比P_{n_s}(t)进行再次平滑得到的功率比值，这里的平滑系数α_{_ss}根据神经网络语音活动的结果进行调整，在语音段即语音帧α_{_ss}为1保持P_{n_ss}(t)不变，在噪声段即噪声帧α_{_ss}为0.999迭代平滑计算P_{n_ss}(t)；

(5)对每一个时域采样点，比较比较P_{n_f}(t)和P_{n_ss}(t)的大小，如果满足P_{n_f}(t)>2*P_{n_ss}(t)将该时域采样点标记为0噪声，否则标记为1表示语音，标记为噪声的记作噪声采样点。

图4中的消噪模块包括：第一滤波器和第二滤波器，主麦克风数字带噪语音信号和次麦克风数字带噪语音信号作为第一滤波器的输入，第一滤波器在语音活动检测模块提供的语音采样点控制自适应滤波器调整参数将纯净语音信号从次麦克风数字带噪语音信号中滤除得到背景噪声信号，该背景噪声信号作为噪声活动检测模块NAD的一个输入信号；第二滤波器以经过了时延τ(本发明实用例中采用10个采样点)的主麦克风数字带噪语音信号作为参考信号，将第一滤波器输出的背景噪声信号作为输入，在噪声活动检测模块NAD提供的噪声采样点控制第二滤波器调整参数将背景噪声信号从主麦克风数字带噪语音信号中滤除，得到主麦克风中的增强语音信号，即纯净语音信号。

对比试验1：

将本发明提供的方法与现有的基于双通道能量差的手机双麦克风消噪***(powerleveldifference，PLD)进行了比较。基于双通道能量差的手机双麦克风消噪***基于这样的假设：目标语音距离主麦克风较次麦克风近，主麦克风接收到的目标语音信号的能量远大于次麦克风接收到的能量，而背景噪声距离两个麦克风较远，两个麦克风接收到的噪声的能量基本一致，通过对两个通道接受的带噪语音信号的能量差设立固定的阈值来判断是否为语音存在的部分，如果两个通道的能量差小于阈值，则判断为噪声存在的部分，此时将带噪语音信号的能量作为背景噪声能量的估计，如果能量差大于阈值，则判定为语音存在的部分，保持噪声能量不变。最后，将估计的背景噪声能量从主麦克风的带噪语音信号中滤除得到增强后的语音信号。

本发明采用对数谱距离(logspectraldistance,LSD)，客观质量评估(perceptualevaluationofspeechquality,PESQ)和信噪比(SNR)分别对本发明提出的消噪方法和基于PLD的手机双麦克风语音增强算法的性能进行了衡量。

表3.在不同噪声和信噪比条件下经过语音增强处理之后的信噪比

信噪比衡量了噪声抑制效果。从表格3中可以看出，本方法提出的消噪方法相较于PLD方法有了很大的提升，特别是在5dB信噪比的条件下，本方法输出的信噪比均能够达到15dB左右。为了验证本方法对于方向性干扰人声的抑制效果，我们选取了45°方位入射的干扰人声，因为45°方位的干扰人声与目标语音的入射方位非常接近，传统的消噪算法很难对其进行有效的抑制，从结果中可以看出，本方法对于45°方位的干扰人声也有很好的效果而PLD算法的性能则大大的下降。

对比试验2：

语音的可懂度在手机的通信中非常的重要，消噪处理会带来一定程度的语音失真，LSD指标主要用来衡量增强语音的失真度，LSD值越大说明语音信号的失真越严重，越小表明语音信号失真越小，质量越接近于原始语音。

表格4.不同信噪比和噪声条件下经过语音增强处理之后的对数谱距离(LSD)

从表格4中可以看出，本方法相较于PLD算法对语音信号的损失更小，说明经过本方法处理的语音失真更小，语音质量更接近于原始语音信号，对于方向性的语音干扰本方法也得到了较好的结果。

对比试验3：

本发明还采用PESQ来测试消噪处理对语音客观质量的影响，PESQ的值越高说明语音质量越高。从表格5中可以看出，与PLD的方法相比，本方法的消噪算法的输出语音具有更好的语音质量，非正式的主观听觉测试与上述结果一致。

表格5.不同信噪比和噪声条件下经过语音增强处理之后的PESQ

本发明中手机指的是能够进行语音通话或者获取语音信息的移动终端以及其他无线或有线通信设备。

以上仅是本发明的优选实施方式，应当指出以上实施列对本发明不构成限定，相关工作人员在不偏离本发明技术思想的范围内，所进行的多样变化和修改，均落在本发明的保护范围内。

Claims

1.一种手机麦克风的消噪***，其特征在于，包括：第一模数转换模块、第二模数转换模块、语音和噪声活动检测装置以及消噪模块；所述第一模数转换模块连接手机上的主麦克风，将主麦克风接收到的模拟带噪语音信号转换为主麦克风数字带噪语音信号并传递给语音和噪声活动检测装置和消噪模块；所述第二模数转换模块连接手机上的次麦克风，将次麦克风接收到的模拟带噪语音信号转换为次麦克风数字带噪语音信号并传递给语音和噪声活动检测装置和消噪模块；所述语音和噪声活动检测装置根据主麦克风数字带噪语音信号和次麦克风数字带噪语音信号为所述消噪模块确定语音采样点和噪声采样点；所述消噪模块在语音采样点先将次麦克风数字带噪语音信号中的纯净语音信号进行消除处理得到背景噪声信号，再在噪声采样点对主麦克风数字带噪语音信号中的背景噪声信号进行降噪处理得到纯净语音信号。

2.根据权利要求1所述的手机麦克风的消噪***，其特征在于，所述语音和噪声活动检测装置包括：

3.根据权利要求2所述的手机麦克风的消噪***，其特征在于，所述语音活动检测模块包括：

4.根据权利要求1所述的手机麦克风的消噪***，其特征在于，所述消噪模块包括：

5.一种应用于权利要求1所述的手机麦克风的消噪***的消噪方法，其特征在于，包括以下步骤：

6.根据权利要求5所述的消噪方法，其特征在于，所述语音和噪声活动检测装置中的语音活动检测模块对所述主麦克风数字带噪语音信号的时域采样点进行标记得到所述语音采样点，包括以下步骤：

7.根据权利要求6所述的消噪方法，其特征在于，所述神经网络语音活动检测单元对所述主麦克风数字带噪语音信号中的语音信号和噪声信号利用二进制数进行标记，包括以下步骤：

8.根据权利要求6所述的消噪方法，其特征在于，所述基于互通道信号功率比值的语音活动检测单元对所述主麦克风数字带噪语音信号中的语音信号和噪声信号利用二进制数进行标记，包括以下步骤：

(3)对每一个时域采样点，比较长平滑互通道功率比P_s(t)和短平滑互通道功率比P_f(t)的大小，如果满足P_f(t)>2*P_s(t)则将该时域采样点标记为语音，否则标记为噪声。

9.根据权利要求5所述的消噪方法，其特征在于，所述语音和噪声活动检测装置中的噪声活动检测模块利用所述背景噪声信号和所述主麦克风数字带噪语音信号对主麦克风数字带噪语音信号中的噪声进行标记，为所述消噪模块提供所述噪声采样点，包括以下步骤：