CN104103278A

CN104103278A - 一种实时语音去噪的方法和设备

Info

Publication number: CN104103278A
Application number: CN201310112271.1A
Authority: CN
Inventors: 朱宝
Original assignee: Beijing Oak Pacific Interactive Technology Development Co Ltd
Current assignee: Beijing Oak Pacific Interactive Technology Development Co Ltd
Priority date: 2013-04-02
Filing date: 2013-04-02
Publication date: 2014-10-15

Abstract

本发明提供了一种实时语音去噪的方法，该方法包括：根据语音接收装置所接收的语音输入生成频域带噪语音信号；根据所述频域带噪语音信号计算对数谱后验信噪比，所述对数谱后验信噪比为当前帧频域带噪语音信号的功率谱的对数值与前一帧噪声功率估计值的对数值之间的比值；基于加权噪声估计算法根据所述对数谱后验信噪比得到噪声功率谱估计值；根据所述噪声功率谱估计值生成维纳滤波的增益函数，根据该增益函数对所述频域带噪语音信号进行滤波，以生成频域去噪语音信号；根据所述频域去噪语音信号生成时域去噪语音信号，该时域去噪语音信号由所述语音接收装置进一步处理。相应地，本发明还提供了一种实时语音去噪的设备。

Description

一种实时语音去噪的方法和设备

技术领域

本发明涉及语音数字处理领域，尤其涉及一种实时语音去噪的方法和设备。

背景技术

在噪声抑制方面，维纳滤波算法一直是最重要的、也是效果最好的估计算法，被广泛应用于图像、视频、语音处理等各种领域中。其中，在语音去噪方面，目前存在很多基于维纳滤波的语音去噪方法。但是，这些方法通常不能很好地应用于处理能力有限的语音接收装置，例如智能移动终端。以智能移动终端为例，这种方法应用上的局限性体现在：第一、现有语音去噪方法追踪噪声的速度不够快，方法实现的复杂度比较高，因此不符合智能移动终端的实时运算需求；第二、在对实时噪声进行估计的时候，现有的做法通常是将带噪语音信号的起始帧作为初始噪声，如此一来，会导致在语音开始后的一段时间内无法准确跟踪噪声，进而导致在这段时间内的处理后的声音会发生失真。虽然这段时间通常都比较短，但是使用该智能移动终端的用户还是会非常明显地感觉到声音的失真，因此对用户的使用体验造成一定的影响。此外，目前基于维纳滤波的语音去噪方法在对弱语音和噪声进行区分方面还不够完善，因此容易导致弱语音的失真。

因此，希望提出一种可以解决上述问题的基于维纳滤波的实时语音去噪的方法和设备。

发明内容

为了克服现有技术中的上述缺陷，本发明提供了一种实时语音去噪的方法，该方法包括：

根据语音接收装置所接收的语音输入生成频域带噪语音信号；

根据所述频域带噪语音信号计算对数谱后验信噪比，所述对数谱后验信噪比为当前帧频域带噪语音信号的功率谱的对数值与前一帧噪声功率估计值的对数值之间的比值；

基于加权噪声估计算法根据所述对数谱后验信噪比得到噪声功率谱估计值；

根据所述噪声功率谱估计值生成维纳滤波的增益函数，根据该增益函数对所述频域带噪语音信号进行滤波，以生成频域去噪语音信号；

根据所述频域去噪语音信号生成时域去噪语音信号，该时域去噪语音信号由所述语音接收装置进一步处理。

根据本发明的一个方面，该方法中所述对数值是以e为底的自然对数值。

根据本发明的一个方面，该方法中所述计算所述对数谱后验信噪比包括：采用高斯白噪声的功率值作为所述频域带噪语音信号的初始噪声功率估计值。

根据本发明的另一个方面，该方法中所述基于加权噪声估计算法根据所述对数谱后验信噪比得到噪声功率谱估计值包括：计算加权因子；设定标记值，该标记值用于区分强语音帧和弱语音帧，并根据所述对数谱后验信噪比、所述加权因子以及所述标记值得到所述噪声功率谱估计值。

根据本发明的又一个方面，该方法中设定标记值，并根据所述对数谱后验信噪比、所述加权因子以及所述标记值得到噪声功率谱估计值包括：若当前帧信号的对数谱后验信噪比的数值大于第一阈值，则判断当前帧信号为强语音，此时设定所述标记值，且保持噪声功率谱估计值恒定；若当前帧信号的对数谱后验信噪比的数值小于等于第一阈值且设定有所述标记值时，则判断当前帧信号为跟随在强语音之后的弱语音，此时令该标记值逐步递减至预定值并根据所述对数谱后验信噪比和所述加权因子更新所述噪声功率谱估计值；若当前帧信号的对数谱后验信噪比的数值小于等于第一阈值且没有设定所述标记值时，此时根据所述对数谱后验信噪比和所述加权因子更新所述噪声功率谱估计值。

根据本发明的又一个方面，该方法中所述标记值的定义为：

所述标记值递减的步长的定义为：

根据本发明的又一个方面，该方法中根据所述频域去噪语音信号生成时域去噪语音信号包括：所述频域去噪语音信号由顺序相接的多组数据构成，依次对每一组数据进行处理，其中，若待处理的一组数据为所述频域去噪语音信号的第一组数据，则缓存所述第一组数据的最后一帧数据，以及将一帧零数据补充在所述第一组数据之前，利用叠接相加法对补充了所述一帧零数据后的所述第一组数据进行处理，并缓存处理后的所述第一组数据的最后一帧数据的叠接结果、以及缓存所述第一组数据的最后一帧数据中未完全叠接的数据的位置信息；若待处理的一组数据为所述频域去噪语音信号的第N组数据，其中N大于等于2，则缓存所述第N组数据的最后一帧数据，以及将第N-1组数据的最后一帧数据补充在所述第N组数据之前，基于所述第N-1组数据的最后一帧数据中未完全叠接的数据的位置信息，利用叠接相加法对补充了所述第N-1组数据的最后一帧数据的所述第N组数据进行处理，将处理后的叠接结果与所述第N-1组数据的最后一帧数据的叠接结果进行叠加，并缓存处理后的所述第N组数据的最后一帧数据的叠接结果、以及缓存所述第N组数据的最后一帧数据中未完全叠接的数据的位置信息。

根据本发明的又一个方面，该方法还包括：根据所述频域去噪语音信号生成时域去噪语音信号之后，对所述时域去噪语音信号进行带通矫正。

根据本发明的又一个方面，该方法中所述终端对所述时域去噪语音信号的进一步处理包括发送、播放和/或储存。

根据本发明的又一个方面，该方法中所述语音接收装置为智能移动终端。

相应地，本发明还提供了一种实时语音去噪的设备，该设备包括：

时频转换模块，用于根据语音接收装置所接收的语音输入生成频域带噪语音信号；

信噪比计算模块，用于根据所述频域带噪语音信号计算对数谱后验信噪比，所述对数谱后验信噪比为当前帧频域带噪语音信号的功率谱的对数值与前一帧噪声功率估计值的对数值之间的比值；

估计模块，用于基于加权噪声估计算法根据所述对数谱后验信噪比得到噪声功率谱估计值；

维纳滤波模块，用于根据所述噪声功率谱估计值生成维纳滤波的增益函数，根据该增益函数对所述频域带噪语音信号进行滤波，以生成频域去噪语音信号；

频时转换模块，用于根据所述频域去噪语音信号生成时域去噪语音信号。

根据本发明的一个方面，该设备中所述对数值是以e为底的对数值。

根据本发明的一个方面，该设备还包括噪声发生模块，用于生成高斯白噪声；所述信噪比计算模块计算所述对数谱后验信噪比时采用所述高斯白噪声的功率值作为所述频域带噪语音信号的初始噪声功率估计值。

根据本发明的另一个方面，该设备中所述估计模块包括：加权因子计算单元，用于计算加权因子；噪声功率谱估计单元，用于设定标记值，该标记值用于区分强语音帧和弱语音帧，并根据所述对数谱后验信噪比、所述加权因子以及所述标记值得到所述噪声功率谱估计值。

根据本发明的又一个方面，该设备中所述估计模块还包括：判断单元，用于当当前帧信号的对数谱后验信噪比的数值大于第一阈值时，判断当前帧信号为强语音，触发所述噪声功率谱估计单元设定所述标记值，且保持噪声功率谱估计值恒定；以及用于当当前帧信号的对数谱后验信噪比的数值小于等于第一阈值且设定有所述标记值时，判断当前帧信号为跟随在强语音之后的弱语音，并触发所述噪声功率谱估计单元令该标记值逐步递减至预定值并根据所述对数谱后验信噪比和所述加权因子更新所述噪声功率谱估计值；以及用于当当前帧信号的对数谱后验信噪比的数值小于等于第一阈值且没有设定所述标记值时，根据所述对数谱后验信噪比和所述加权因子更新所述噪声功率谱估计值。

根据本发明的又一个方面，该设备中所述标记值的定义为：

所述标记值递减的步长的定义为：

根据本发明的又一个方面，该设备中所述频域去噪语音信号由顺序相接的多组数据构成，依次对每一组数据进行处理，其中，若待处理的一组数据为所述频域去噪语音信号的第一组数据，所述频时转换模块则缓存所述第一组数据的最后一帧数据，以及将一帧零数据补充在所述第一组数据之前，利用叠接相加法对补充了所述一帧零数据后的所述第一组数据进行处理，并缓存处理后的所述第一组数据的最后一帧数据的叠接结果、以及缓存所述第一组数据的最后一帧数据中未完全叠接的数据的位置信息；若待处理的一组数据为所述频域去噪语音信号的第N组数据，其中N大于等于2，所述频时转换模块则缓存所述第N组数据的最后一帧数据，以及将第N-1组数据的最后一帧数据补充在所述第N组数据之前，基于所述第N-1组数据的最后一帧数据中未完全叠接的数据的位置信息，利用叠接相加法对补充了所述第N-1组数据的最后一帧数据的所述第N组数据进行处理，将处理后的叠接结果与所述第N-1组数据的最后一帧数据的接结果进行叠加，并缓存处理后的所述第N组数据的最后一帧数据的叠接结果、以及缓存所述第N组数据的最后一帧数据中未完全叠接的数据的位置信息。

根据本发明的又一个方面，该设备还包括带通滤波模块，用于对所述时域去噪语音信号进行带通矫正。

根据本发明的又一个方面，该设备还包括处理模块，用于所述语音接收装置进一步处理所述时域去噪语音信号，其中，所述进一步处理包括发送、播放和/或储存。

根据本发明的又一个方面，该设备中所述语音接收装置为智能移动终端。

与现有技术相比，本发明具有以下优点：

(1)本发明在加权噪声估计算法的基础上对其进行了改进，采用了对数谱后验信噪比对实时噪声进行估计。改进后的算法一方面仍然具有加权噪声估计算法自身简单有效且可以快速跟踪噪声的优势，可以满足例如智能移动终端这样处理能力有限的语音接收装置的实时运算需求，另一方面由于采用了对数谱后验信噪比，使得跟踪噪声的速度更快，并且，由于人耳对分贝值（也就是对数值）比较敏感，因此采用对数值来取代信噪比值用于进行语音处理将更加符合人耳的听觉特性。此外，本发明的优势还在于在对实时噪声进行估计的时候，采用了白噪声作为初始噪声的估计值，如此一来，可以更快、更准确地跟踪噪声，而且由于白噪声的所有频率具有相同能量，对于人耳的频率响应特性来说，因此即使存在失真，对用户的语音接收和辨识的影响也不大。

(2)基于强语音过后一般会跟随着弱语音的常规特性，当判断语音信号为强语音时，设定标记值，当语音信号发生变化时，令该标记值逐步递减直至为0，然后才开始对噪声进行更新。如此一来，在标记值递减的这段时间内可以实现对弱语音的保护。

(3)在利用叠接相加法对维纳滤波后的频域去噪语音信号进行处理的过程中，对该次处理之前的频域去噪语音信号的最后一帧数据、该最后一帧数据中经叠接相加法处理后得到的叠接数据、以及该最后一帧数据中未经所述叠接相加法处理完全的数据的位置信息进行缓存。采用上述缓存机制能够保证信号可以被按帧处理且不会被重复处理，以及有效地降低了处理运算量，进而加快了处理速度。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是根据本发明的实时语音去噪的方法流程图；

图2(a)是语音接收装置所接收的时域带噪语音信号；

图2(b)是利用本发明所提供的实时语音去噪的方法处理后的语音信号；

图3是根据本发明的实时语音去噪的设备结构示意图；

图4是用于实现本发明提供的实时语音去噪的方法及设备的智能终端设备的结构示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

为了更好地理解和阐释本发明，下面将结合附图对本发明作进一步的详细描述。

众所周知，维纳滤波是线性滤波理论的基础，根据维纳滤波算法，假定线性滤波器的输入为有用信号和噪声之和，两者均为广义平稳过程且能够得知它们的二阶统计特性，接着根据最小均方误差准则求得最佳线性滤波器的参数。在此基础上，还可以根据最大输出信噪比准则、统计检测准则以及其他最佳准则来求得最佳线性滤波器。本发明将基于维纳滤波算法提出一种实时语音去噪的方法和设备。在对本发明所提供的实时语音去噪的方法和设备进行具体说明之前，首先对本发明的主要思想进行阐述。

具体地，时域带噪语音信号可以表示如下：

y(t)=s(t)+n(t)

其中，y(t)为时域带噪语音信号，s(t)为时域原始语音信号，n(t)为时域噪声信号，且s(t)和n(t)不相关。

对时域带噪语音信号y(t)进行短时傅里叶变换将其转换为频域带噪语音信号，可以得到：

Y(k,ω)=S(k,ω)+N(k,ω)

其中，k为帧序号，ω为频点序号，Y(k,ω)、S(k,ω)、N(k,ω)分别为频域带噪语音信号、频域原始语音信号、频域噪声信号第k帧第ω个频点上的频谱分量。

设计增益函数为H(k，ω)的维纳滤波器，频域带噪语音信号Y(k,ω)经过维纳滤波后得到对频域原始语音信号S(k,ω)的估计值：

\hat{S} (k, ω) = Y (k, ω) \times H (k, ω)

其中，为S(k,ω)的估计值。

维纳滤波器的增益函数H(k,ω)的设计准则是希望滤波后得到的频域原始语音信号的估计值等于频域原始语音信号S(k,ω)，即：

\hat{S} (k, ω) = S (k, ω)

也就是说，通过维纳滤波可以从带噪语音信号中将原始语音信号提取出来。因此，

\hat{S} (k, ω) = Y (k, ω) \times H (k, ω)

可以转换为：

S(k,ω)=Y(k,ω)×H(k,ω)

经过变形可以得到：

H (k, ω) = \frac{S (k, ω)}{Y (k, ω)}

将Y(k,ω)=S(k,ω)+N(k,ω)代入上式并经过整理后可以得到：

H (k, ω) = \frac{\frac{S (k, ω)}{N (k, ω)}}{\frac{S (k, ω)}{N (k, ω)} + 1}

定义先验信噪比为：

PRIO_SNR (k, ω) = \frac{{| S (k, ω) |}^{2}}{{| N (k, ω) |}^{2}}

其中，PRIO_SNR(k,ω)为频域带噪语音信号第k帧第ω个频点上的先验信噪比。将PRIO_SNR(k,ω)代入上式可以得到：

H (k, ω) = \sqrt{\frac{PRIO_SNR (k, ω)}{PRIO_SNR (k, ω) + 1}}

从上述分析可以得出，基于维纳滤波算法较好地去除噪声（简称去噪）的关键因素是先验信噪比的估计。

先验信噪比的估计又依赖于噪声功率谱的估计。因此，准确估计噪声功率谱是非常重要的。在现有的噪声功率谱估计算法中，加权噪声估计（WN，Weight Noise Estimation）算法以其简单有效且可以快速跟踪噪声等优势而著称，其主要思想是：首先由估计的后验信噪比计算加权因子，接着通过带噪语音信号乘以加权因子得到加权值，进而求平均得到所要估计的噪声功率谱。本发明在WN算法的基础上对其进行改进，改进后的算法一方面仍然具有WN算法自身简单有效且可以快速跟踪噪声的优势，可以满足例如智能移动终端这样处理能力有限的语音接收装置的实时运算需求，另一方面具有更快跟踪噪声的速度，对语音的处理也更加符合人耳的听觉特性，并且还可以有效地克服了WN算法无法准确区分弱语音和噪声的不足之处，从而达到较好的实时语音去噪效果。

需要说明的是，本领域的技术人员应该可以理解，本发明尤其适用于处理能力有限的语音接收装置这一优势并不意味着将其局限于此，很明显地，将其用于处理能力较强的语音接收装置将会获得更佳的实时语音去噪效果。

下面，将基于上述思想对本发明所提供的实时语音去噪的方法进行说明。请参考图1，图1为根据本发明的实时语音去噪的方法的流程图。如图所示，该方法包括以下步骤：

在步骤S100中，根据语音接收装置所接收的语音输入生成频域带噪语音信号。

具体地，在本实施例中，将以所述语音接收装置为智能移动终端进行说明。智能移动终端接收到的语音信号通常为受到例如环境噪声干扰后所形成的时域带噪语音信号。智能移动终端接收到时域带噪语音信号后，首先，对时域带噪语音信号进行采样，其目的是将模拟信号转换成数字信号。在本实施例中，对时域带噪语音信号的采样频率为44100Hz，即一秒钟得到44100个采样数据。本领域的技术人员可以理解，采样频率的具体数值可以根据对语音信号还原质量的实际要求进行设定，其中，采样频率越高，语音信号还原的越真实自然。接着，对采样后的时域带噪语音信号进行分帧处理。在本实施例中，采用添加汉明窗的方式进行分帧处理，即，采用固定窗长的汉明窗截取所述采样数据生成一帧时域带噪语音信号，然后汉明窗移动一定长度以生成下一帧时域带噪语音信号。这里汉明窗的窗长定义为一帧时域带噪语音信号所包括的采样数据的数量。对采样后的时域带噪语音信号进行分帧处理的原因在于：维纳滤波算法基于平稳随机过程，而从整体来看，所述时域带噪语音信号为非平稳过程，但是，在一段短时间范围内（一般认为10～30ms），可以将语音信号认为是平稳过程。分帧处理后得到的每一帧时域带噪语音信号均满足平稳过程，因此可以利用维纳滤波算法对该每一帧时域带噪语音信号进行去噪处理。在本实施例中，汉明窗的窗长设定为256，即包括256个采样数据；汉明窗的窗移长度为四分之一窗长，也就是汉明窗每次移位64个数据。分帧处理后，将添加汉明窗所得到的时域带噪语音信号帧经短时傅里叶变换转换为频域带噪语音信号帧并对分帧后的信号进行端点检测。在本实施例中，采用128个频点的短时傅里叶变换。其中，采样、添加汉明窗以及短时傅里叶变换为本领域技术人员的常用技术手段，为了简明起见，在此不再赘述。

在步骤S101中，根据所述频域带噪语音信号计算对数谱后验信噪比，所述对数谱后验信噪比为当前帧频域带噪语音信号的功率谱的对数值与前一帧噪声功率估计值的对数值之间的比值。

具体地，在本实施例中，所述对数谱后验信噪比的定义为当前帧频域带噪语音信号的功率谱的对数值与前一帧噪声功率估计值的对数值之间的比值。所述对数谱后验信噪比可以用如下公式进行表示：

POST_SNR (k, ω) = \frac{\log_{a} {| y (k, ω) |}^{2}}{\log_{a} λ_{D} (k - 1, ω)}

其中，POST_SNR(k,ω)为频域带噪语音信号第k帧第ω个频点上的对数谱后验信噪比，|y(k,ω)|²为第k帧第ω个频点上频域带噪语音信号的功率谱，λ_D(k-1,ω)为第k-1帧第ω个频点上噪声功率的估计值。

在本实施例中，底数a等于常数e，即对|y(k,ω)|²和λ_D(k-1,ω)分别取自然对数。需要说明的是，采用对数值可以使语音处理更加符合人耳的听觉特性、且可以提高噪声跟踪的速度，其中，底数取值越小，声音的精细度越高，底数取值越大，对噪声的跟踪速度越快。本领域技术人员可以根据对去噪后声音质量的要求、具体实现时对于实时性的需求、以及设备的运算能力和速度来选择对数的底数。

在计算初始帧的对数谱后验信噪比（即k=1）时，优选地，采用高斯白噪声的功率值作为该帧信号的初始噪声功率估计值。其中，高斯白噪声是指功率谱密度在整个频域内均匀分布的随机噪声。

在步骤S102中，基于WN算法根据所述对数谱后验信噪比得到噪声功率谱估计值。

具体地，首先，根据所述对数谱后验信噪比，通过加权因子函数计算得到加权因子。其中计算加权因子的加权因子函数如下：

gain (k, ω) = \{\begin{matrix} 1, & POST_SNR (k, ω) < γ_{1} \\ \frac{γ_{2} - POST_SNR (k, ω)}{γ_{2} - γ_{1}}, & γ_{1} \leq POST_SNR (k, ω) \leq γ_{2} \\ 0, & POST_SNR (k, ω) > γ_{2} \end{matrix}

其中，gain(k,ω)为第k帧第ω个频点上频域带噪语音信号的加权因子，γ₁和γ₂为阈值，用来对强语音、弱语音或噪声、以及噪声进行划分。

当POST_SNR(k,ω)>γ₂时，判断第k帧第ω个频点上的信号为强语音，因此不需要更新噪声，此时加权因子为0。而当γ₁≤POST_SNR(k,ω)≤γ₂时，第k帧第ω个频点上的信号可能为弱语音也可能是噪声，需要对噪声进行更新，此时加权因子为当POST_SNR(k,ω)<γ₁时，判断第k帧第ω个频点上的信号为噪声，此时加权因子为1，需要对噪声进行更新。在本实施例中，γ₁=1，γ₂=1.07。本领域的技术人员应该可以理解，阈值γ₁和γ₂的具体值可以根据实际设计需要进行设定。

接着，设定标记值，该标记值用于区分强语音帧和弱语音帧，并根据所述对数谱后验信噪比、所述加权因子以及所述标记值得到所述噪声功率谱估计值。一般情况下，强语音之后为弱语音的可能性极大，而弱语音往往容易与噪声发生混淆。因此，为了防止弱语音的失真，需要对弱语音进行保护。具体的做法为：

如果当前帧信号的对数谱后验信噪比的数值大于第一阈值，则判断当前帧信号为强语音，此时设定一个标记值，且保持噪声功率谱估计值恒定。例如在本实施例中，可以设定第一阈值等于γ₂，如果当前帧信号的对数谱后验信噪比的数值大于γ₂，则判断当前帧为强语音，此时赋予gain=0，并设定一标记值，且保持噪声功率谱估计值恒定，即不需要对噪声功率谱进行更新。其中，标记值的设定方式优选如下：

flag = [\frac{time \times fre}{win_length}]

其中，flag为标记值，time为希望保护弱语音的时长，其单位为秒，fre为对时域带噪语音信号的采样频率，win_length为汉明窗的窗长，[x]表示不超过x的最大整数。从上述公式可以看出，在本实施例中，标记值为一整数。举例说明，如果希望保护0.1秒的弱语音，那么在采样频率为44100Hz、窗长为256的情况下，设定标记值为：

flag = [\frac{0.1 \times 44100}{256}] = 17

如果当前帧信号的对数谱后验信噪比的数值小于等于第一阈值且设定有标记值时，也就是说，当对数谱后验信噪比发生变化，从大于第一阈值减小至等于第一阈值时，则判断当前帧信号为跟随在强语音之后的弱语音，此时令该标记值逐步递减，其中，标记值每次递减的步长为：

Δflag = \frac{Δwin_length}{win_length}

其中，Δflag为标记值递减的步长，win_length为汉明窗的窗长，Δwin_length为汉明窗的窗移长度。举例说明，如果汉明窗的窗移长度为四分之一窗长，则标记值递减的步长等于0.25，也就是每次递减0.25。

当标记值递减至预定值（例如等于0）的时候，才开始根据所述对数谱后验信噪比和所述加权因子更新所述噪声功率谱估计值。其中，更新噪声功率谱估计值的方法在现有的WN算法中已有公开，为了简明起见，在此不再赘述。如此一来，在标记值递减的这段时间内，不对噪声功率谱进行更新，因此不会发生将弱语音误判为噪声的情况，从而实现了对弱语音的保护。

需要说明的是，在标记值递减的过程中，如果标记值尚未递减至预定值，但当前帧信号的对数谱后验信噪比的数值已经由小于等于第一阈值变为大于第一阈值，也就是说，还没有达到希望对弱语音保护的时长，当前帧信号就已经变成强语音了，此时，停止标记值的递减，重新设定标记值，且不需要对噪声功率谱进行更新。仍以上述标记值为17，递减的步长为0.25为例进行说明，假设标记值递减至5的时候，检测到当前帧信号的对数谱后验信噪比大于第一阈值，则重新设定标记值为17。

如果当前帧信号的对数谱后验信噪比的数值小于等于第一阈值且没有设定标记值时，也就是说弱语音帧出现之前没有强语音帧出现过，此时根据所述对数谱后验信噪比和所述加权因子更新所述噪声功率谱估计值。举例说明，带噪语音信号初始的一个或多个帧信号其对数谱后验信噪比的数值小于等于第一阈值，而由于尚未出现强语音因此标记值没有设定，此时对噪声功率谱进行更新，而不需要使用上述弱语音的保护机制。需要说明的是，弱语音跟随强语音出现的情况比较普遍，而弱语音帧出现之前没有强语音帧出现过的情况较少，因此，在这种情况下，即使由于未启动弱语音保护机制而导致的弱语音的失真，对用户整体的语音接收和辨识的影响也不大。

基于WN算法获得噪声功率谱估计值之后，优选地，对噪声功率谱进一步进行平滑滤波（例如使用三阶平滑滤波器），得到最终的噪声功率谱估计值。

在步骤S103中，根据所述噪声功率谱估计值生成维纳滤波的增益函数，根据该增益函数对所述频域带噪语音信号进行滤波，以生成频域去噪语音信号。

具体地，在本实施例中，在得到所述噪声功率谱估计值之后，利用直接判决（Decision Directed）算法对先验信噪比进行估计，具体地说，直接判决法使用了前一帧的先验信噪比和当前帧的后验信噪比的一阶平滑来计算当前帧的先验信噪比，该算法已为本领域技术人员所公知，在此不再赘述。本领域的技术人员应该可以理解，估计先验信噪比的方法不仅限于上述直接判决算法，还可以使用其他适合的算法，例如Casual算法、Non-casual算法等，在此不再一一列举。

由前文可知，维纳滤波的增益函数可以通过先验信噪比表示如下：

H (k, ω) = \sqrt{\frac{PRIO_SNR (k, ω)}{PRIO_SNR (k, ω) + 1}}

因此，在利用直接判决算法得到的先验信噪比之后，即可相应计算出维纳滤波的增益函数。

在获得维纳滤波的增益函数之后，对频域带噪语音信号进行维纳滤波，得到频域去噪语音信号。

在步骤S104中，根据所述频域去噪语音信号生成时域去噪语音信号，该时域去噪语音信号由所述语音接收装置进一步处理。

具体地，所述频域去噪语音信号由顺序相接的多组数据构成，依次对每一组数据进行处理，其中：若待处理的一组数据为所述频域去噪语音信号的第一组数据，则缓存所述第一组数据的最后一帧数据，以及将一帧零数据补充在所述第一组数据之前，利用叠接相加法对补充了所述一帧零数据后的所述第一组数据进行处理，并缓存处理后的所述第一组数据的最后一帧数据的叠接结果、以及缓存所述第一组数据的最后一帧数据中未完全叠接的数据的位置信息。若待处理的一组数据为所述频域去噪语音信号的第N组数据，其中N大于等于2，则缓存所述第N组数据的最后一帧数据，以及将第N-1组数据的最后一帧数据补充在所述第N组数据之前，基于所述第N-1组数据的最后一帧数据中未完全叠接的数据的位置信息，利用叠接相加法对补充了所述第N-1组数据的最后一帧数据的所述第N组数据进行处理，将处理后的叠接结果与所述第N-1组数据的最后一帧数据的叠接结果进行叠加，并缓存处理后的所述第N组数据的最后一帧数据的叠接结果、以及缓存所述第N组数据的最后一帧数据中未完全叠接的数据的位置信息。

下面以一个具体实例对上述步骤进行说明。假设每一组数据均由1000个数据构成（此处仅为举例示意，维纳滤波后得到的每组数据的长度与语音接收装置所接收到的语音输入的长度有关），帧长等于256（即每帧包括256个数据），在进行逆傅里叶变换时，每次帧移长度为四分之一帧长（即64个数据）。对于维纳滤波后的第一组数据，首先缓存其最后一帧数据。由于第一组数据前面没有输出其他数据，因此，接着在该第一组数据的前端补充一帧零数据，即补充256个0。为了清楚起见，在此使用标号1至1256对该1256个数据依次进行编号。然后对该1256个数据按帧进行逆傅里叶变换，并将处理结果进行叠加，其中，标号为1至1024的数据被叠加了4次，标号为1025至1088的数据被叠加了3次，标号为1089至1152的数据被叠加了2次，标号为1153至1216的数据被叠加了1次，而标号为1217至1256的数据没有被处理，也就是说，标号为1至1024的数据叠接完全，而标号为1025至1256的数据为叠接不完全。由于第一组数据包括1000个数据，因此利用叠接相加法处理后仍要返回1000个数据，即返回标号为1至1000的数据的叠接结果的均值（等于该叠接结果除以叠加次数），即可得到标号为1至1000的数据转换后的时域信号。此外，还需要对标号1001至1256的数据（即最后一帧数据）经叠接相加法处理后的叠接结果、以及对未完全叠接的数据的位置信息（即标号为1025的数据的位置）进行缓存。接下来，对维纳滤波后的第二组数据进行处理。首先对第二组数据的最后一帧数据进行缓存，然后将缓存的第一组数据的最后一帧数据补充在第二组数据的前端。在此仍然延续上述编号方式，使用标号1001至2256对该1256个数据依次进行编号，其中标号为1001至1256的数据为第一组数据中的最后一帧数据，标号为1257至2256的数据为第二组数据。由于第一组数据最后一帧中的前24个数据（即标号为1001至1024的数据）已经处理完全了（即经过了4次叠加），因此，基于缓存的第一组数据最后一帧中未完全叠接的数据的位置信息，从第25个数据（即标号为1025的数据）开始按帧进行处理。处理结束后发现，标号为1025至1088的数据被叠加了1次，标号1089至1152的数据被叠加了2次，标号1153至1216的数据被叠加了3次，标号1217至2048的数据被叠加了4次，标号2049至2112的数据被叠加了3次，标号2113至2176的数据被叠加了2次，标号2177至2240的数据被叠加了1次，标号2241至2256的数据没有被处理。将该次处理的叠接结果与缓存的对标号1001至1256的数据的叠接结果相加，恰好使标号为1001至2048的数据均被叠加了4次，即完全叠接。返回标号为1001至2000的数据的叠接结果的均值（等于该叠接结果除以叠加次数），即可得到标号为1001至2000转换后的时域信号。此外，同样需要对标号1001至2256的数据中最后一帧数据（标号为2001至2256的数据）的叠接结果进行缓存，以及对该最后一帧中未完全叠接的数据的位置信息（即标号为2241的数据的位置）进行缓存，用于第三组数据的处理中。对后续的数据进行处理以此类推，为了简明起见，在此不再一一赘述。当处理到最后一组数据时，最后一帧数据将被丢弃，其他数据的叠接结果的均值将被返回，其中，由于一帧数据非常短，因此丢弃最后一帧数据对用户带来的影响不大。

叠接相加法处理后得到的时域信号为数字信号，因此还需要通过数/模转换将该数字信号转换为模拟信号，得到最终的时域去噪语音信号。至此完成了从带噪语音信号中提取出纯净语音信号的整个过程。

最后，所述智能移动终端可以根据用户的需求对该纯净语音信号进行进一步的处理，其中，所述进一步处理包括发送、播放和/或存储。

优选地，对步骤S104中获得的时域去噪语音信号进行带通矫正以进一步去除低频噪声和高频噪声，以此提高去噪效果。

请参考图2(a)和图2(b)，其中，图2(a)是语音接收装置所接收的时域带噪语音信号，图2(b)是利用本发明所提供的实时语音去噪的方法处理后的语音信号。通过图2(a)和图2(b)的对比可以看出，利用本发明所提供的实时语音去噪的方法可以有效地去除噪声以及保护弱语音。

相应地，本发明还提供了一种实时语音去噪的设备。请参考图3，图3是根据本发明的实时语音去噪的设备结构示意图。如图所示，该设备20包括：

时频转换模块201，用于根据语音接收装置所接收的语音输入生成频域带噪语音信号；

信噪比计算模块202，用于根据所述频域带噪语音信号计算对数谱后验信噪比，所述对数谱后验信噪比为当前帧频域带噪语音信号的功率谱的对数值与前一帧噪声功率估计值的对数值之间的比值；

估计模块203，用于基于加权噪声估计算法根据所述对数谱后验信噪比得到噪声功率谱估计值；

维纳滤波模块204，用于根据所述噪声功率谱估计值生成维纳滤波的增益函数，根据该增益函数对所述频域带噪语音信号进行滤波，以生成频域去噪语音信号；

频时转换模块205，用于根据所述频域去噪语音信号生成时域去噪语音信号。

下面，将对上述模块的具体工作过程进行说明。

具体地，在本实施例中，将以所述语音接收装置为智能移动终端进行说明。智能移动终端接收到的语音信号通常为受到例如环境噪声干扰后所形成的时域带噪语音信号。智能移动终端接收到时域带噪语音信号后，首先，所述时频转换模块201对时域带噪语音信号进行采样，其目的是将模拟信号转换成数字信号。接着，所述时频转换模块201对采样后的时域带噪语音信号进行分帧处理。在本实施例中，采用添加汉明窗的方式进行分帧处理，即，采用固定窗长的汉明窗截取所述采样数据生成一帧时域带噪语音信号，然后汉明窗移动一定长度以生成下一帧时域带噪语音信号。这里汉明窗的窗长定义为一帧时域带噪语音信号所包括的采样数据的数量。对采样后的时域带噪语音信号进行分帧处理的原因在于：维纳滤波算法基于平稳随机过程，而从整体来看，所述时域带噪语音信号为非平稳过程，但是，在一段短时间范围内（一般认为10～30ms），可以将语音信号认为是平稳过程。分帧处理后得到的每一帧时域带噪语音信号均满足平稳过程，因此可以利用维纳滤波算法对该每一帧时域带噪语音信号进行去噪处理。分帧处理后，所述时频转换模块201将添加汉明窗所得到的时域带噪语音信号帧经短时傅里叶变换转换为频域带噪语音信号帧并对分帧后的信号进行端点检测。

接着，所述信噪比计算模块202计算对数谱后验信噪比。在本实施例中，所述对数谱后验信噪比的定义为当前帧频域带噪语音信号的功率谱的对数值与前一帧噪声功率估计值的对数值之间的比值。优选地，所述信噪比计算模块202在对当前帧频域带噪语音信号的功率谱以及前一帧噪声功率估计值求取对数时，采用以e为底的对数。

在一个优选实施例中，本发明所提供的设备20还包括噪声发生模块（未示出），用于生成高斯白噪声，其中，高斯白噪声是指功率谱密度在整个频域内均匀分布的噪声。所述信噪比计算模块202计算所述对数谱后验信噪比时采用所述高斯白噪声的功率作为所述频域带噪语音信号的初始噪声功率估计值。

然后，所述估计模块203基于加权噪声估计（WN，Weight Noise Estimation）算法根据所述对数谱后验信噪比得到噪声功率谱估计值。可选地，所述估计模块203包括加权因子计算单元2031和噪声功率谱估计单元2032。其中，所述加权因子计算单元2031根据所述对数谱后验信噪比，通过加权因子函数计算得到加权因子。其中，加权因子函数请参考前述方法步骤S102中提到的加权因子函数，在此不再重复描述。

接着，所述噪声功率谱估计单元2032设定标记值，该标记值用于区分强语音帧和弱语音帧，并根据所述对数谱后验信噪比、所述加权因子以及所述标记值得到所述噪声功率谱估计值。

其中，所述估计模块203进一步还包括判断单元（未示出）。若当前帧信号的对数谱后验信噪比的数值大于第一阈值，所述判断单元判断当前帧信号为强语音，触发所述噪声功率谱估计单元2032设定所述标记值，且保持噪声功率谱估计值恒定。其中，所述标记值的设定方式如下：

flag = [\frac{time \times fre}{win_length}]

其中，flag为标记值，time为希望保护弱语音的时长，其单位为秒，fre为对时域带噪语音信号的采样频率，win_length为汉明窗的窗长，[x]表示不超过x的最大整数。

若当前帧信号的对数谱后验信噪比的数值小于等于第一阈值且设定有所述标记值时，所述判断单元判断当前帧信号为跟随在强语音之后的弱语音，触发所述噪声功率谱估计单元2032令该标记值逐步递减至预定值并根据所述对数谱后验信噪比和所述加权因子更新所述噪声功率谱估计值。其中，所述标记值每次递减的步长为：

Δflag = \frac{Δwin_length}{win_length}

其中，Δflag为标记值递减的步长，win_length为汉明窗的窗长，Δwin_length为汉明窗的窗移长度。

若当前帧信号的对数谱后验信噪比的数值小于等于第一阈值且没有设定所述标记值时，根据所述对数谱后验信噪比和所述加权因子更新所述噪声功率谱估计值。

如此一来，在标记值递减的这段时间内，不会发生将弱语音误判为噪声的情况，因此实现了对弱语音的保护。

在一个优选实施例中，本设备20还包括平滑滤波模块（未示出），用于在所述估计模块203获得噪声功率的估计值之后，对噪声功率进一步进行平滑滤波，得到最终的噪声功率估计值。

在得到所述噪声功率的估计值之后，所述维纳滤波模块204利用例如直接判决（Decision Directed）算法对先验信噪比进行估计。接着，所述维纳滤波模块204根据所述先验信噪比，计算维纳滤波的增益函数，并根据该增益函数对所述频域带噪语音信号进行滤波，以生成频域去噪语音信号。

所述维纳滤波模块204对所述频域带噪语音信号进行滤波后得到的所述频域去噪语音信号由顺序相接的多组数据构成，所述频时转换模块205依次对每一组数据进行处理，其中：若待处理的一组数据为所述频域去噪语音信号的第一组数据，所述频时转换模块205则缓存所述第一组数据的最后一帧数据，以及将一帧零数据补充在所述第一组数据之前，利用叠接相加法对补充了所述一帧零数据后的所述第一组数据进行处理，并缓存处理后的所述第一组数据的最后一帧数据的叠接结果、以及缓存所述第一组数据的最后一帧数据中未完全叠接的数据的位置信息。若待处理的一组数据为所述频域去噪语音信号的第N组数据，其中N大于等于2，所述频时转换模块205则缓存所述第N组数据的最后一帧数据，以及将第N-1组数据的最后一帧数据补充在所述第N组数据之前，基于所述第N-1组数据的最后一帧数据中未完全叠接的数据的位置信息，利用叠接相加法对补充了所述第N-1组数据的最后一帧数据的所述第N组数据进行处理，将处理后的叠接结果与所述第N-1组数据的最后一帧数据的接结果进行叠加，并缓存处理后的所述第N组数据的最后一帧数据的叠接结果、以及缓存所述第N组数据的最后一帧数据中未完全叠接的数据的位置信息。

所述频时转换模块205利用叠接相加法得到的所述时域信号为数字信号，因此所述频时转换模块205还需要将该数字信号转换为模拟信号，得到最终的时域去噪语音信号。至此本发明所提供的设备20完成了从带噪语音信号中提取出纯净语音信号的整个过程。

优选地，本发明所提供的设备20还包括带通滤波模块（未示出），用于对时域去噪语音信号进行带通矫正以进一步去除低频噪声和高频噪声，以此提高去噪效果，得到最后纯净的语音信号。

优选地，本发明所提供的设备20还包括处理模块（未示出），用于所述智能移动终端进一步处理所述时域去噪语音信号，其中，所述进一步处理包括发送、播放和/或储存。

与现有技术相比，本发明所提供的实时语音去噪的方法和设备具有以下优点：

参考图4，图4是用于实现本发明提供的实时语音去噪的方法及设备的智能移动终端设备（即设备20）的结构示意图。参考图4对常见的智能移动终端的内部组件、软件和协议结构进行说明。

智能移动终端具有处理器510，其负责移动终端的整体操作，并且可以利用任何商业可得中央处理单元、数字信号处理器或任何其他电子可编程逻辑器件实现。处理器510具有关联的存储器520，该存储器520包括但不限于RAM存储器、ROM存储器、EEPROM存储器、闪存或其组合。存储器520由处理器500控制用于各种目的，其中之一在于为智能移动终端中各种软件存储程序指令和数据。

该智能移动终端的软件层面包括实时操作***540、用于人机界面560的驱动器、应用处理机550和各种应用。所述应用例如是文本编辑器551、手写识别应用552和各种其他多媒体应用553，典型地该其他多媒体应用包括诸如语音呼叫应用、视频呼叫应用、发送和接收短消息服务(SMS)消息应用、多媒体消息服务(MMS)应用或电子邮件应用、web浏览器、即时消息收发应用、电话簿应用、日历应用、控制面板应用、照相机应用、一个或多个视频游戏、记事本应用等。应当注意，上述应用的两个或更多可以作为同一应用执行。

所述智能移动终端还包括一个或多个硬件控制器，用于与人机界面560的驱动器一起与显示设备561，物理按键562、麦克风563和各种其他I/O设备（诸如扬声器、振动器、响铃发生器、LED指示器等）协作，以实现所述智能移动终端的人机交互。本领域技术人员应当理解用户可以通过这样形成的人机界面560来操作移动终端。

该智能移动终端的软件层面还可以包括各种模块、协议栈、驱动器等与通信相关的逻辑，归纳为如图3中示出的通信接口570，用于为无线射频接口571以及可选地为蓝牙接口572和/或红外接口573提供通信服务（例如传输、网络和连通性），以实现所述智能移动终端的网络连通性。无线射频接口571包括内部或外部天线以及用于建立和维护通往基站的无线链路的适当无线电电路。如本领域技术人员公知的，所述无线电电路包括一系列模拟和数字电子组件，其一起形成无线电接收机和发射机。这些组件例如包括带通滤波器、放大器、混频器、本地振荡器、低通滤波器、AD/DA转换器等。

移动通信终端还可以包括读卡装置530，该读卡装置530通常包括处理器以及数据存储器等，用于读出SIM卡的信息并以此为根据协作无线射频接口517接入运营商所提供的网络。

本发明提供的实时语音去噪的方法可以使用可编程逻辑器件来实现，也可以实施为计算机程序软件，例如根据本发明的实施例可以是一种计算机程序产品，运行该程序产品使计算机执行用于所示范的方法。所述计算机程序产品包括计算机可读存储介质，该介质上包含计算机程序逻辑或代码部分，用于实现上述方法的各个步骤。所述计算机可读存储介质可以是被安装在计算机中的内置介质或者可从计算机主体拆卸的可移动介质（例如热拔插技术存储设备）。所述内置介质包括但不限于可重写的非易失性存储器，例如RAM、ROM、快闪存储器和硬盘。所述可移动介质包括但不限于：光存储媒体（例如CD-ROM和DVD）、磁光存储媒体（例如MO）、磁存储媒体（例如盒带或移动硬盘）、具有内置的可重写的非易失性存储器的媒体（例如存储卡）和具有内置ROM的媒体（例如ROM盒）。

本领域技术人员应当理解，任何具有适当编程装置的计算机***都将能够执行包含在程序产品中的本发明的方法的诸步骤。尽管本说明书中描述的多数具体实施方式都侧重于软件程序，但是作为固件和硬件实现本发明提供的方法的替代实施例同样在本发明要求保护的范围之内。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他部件、单元或步骤，单数不排除复数。***权利要求中陈述的多个部件、单元或装置也可以由一个部件、单元或装置通过软件或者硬件来实现。

以上所揭露的仅为本发明的一些较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种实时语音去噪的方法，该方法包括：

2.根据权利要求1所述的方法，其中，所述对数值是以e为底的自然对数值。

3.根据权利要求1或2所述的方法，其中，所述计算所述对数谱后验信噪比包括：

采用高斯白噪声的功率值作为所述频域带噪语音信号的初始噪声功率估计值。

4.根据权利要求1或2所述的方法，其中，所述基于加权噪声估计算法根据所述对数谱后验信噪比得到噪声功率谱估计值包括：

计算加权因子；

设定标记值，该标记值用于区分强语音帧和弱语音帧，并根据所述对数谱后验信噪比、所述加权因子以及所述标记值得到所述噪声功率谱估计值。

5.根据权利要求4所述的方法，其中，设定标记值，并根据所述对数谱后验信噪比、所述加权因子以及所述标记值得到噪声功率谱估计值包括：

若当前帧信号的对数谱后验信噪比的数值大于第一阈值，则判断当前帧信号为强语音，此时设定所述标记值，且保持噪声功率谱估计值恒定；

若当前帧信号的对数谱后验信噪比的数值小于等于第一阈值且设定有所述标记值时，则判断当前帧信号为跟随在强语音之后的弱语音，此时令该标记值逐步递减至预定值并根据所述对数谱后验信噪比和所述加权因子更新所述噪声功率谱估计值；

若当前帧信号的对数谱后验信噪比的数值小于等于第一阈值且没有设定所述标记值时，此时根据所述对数谱后验信噪比和所述加权因子更新所述噪声功率谱估计值。

6.根据权利要求5所述的方法，其中：

所述标记值的定义为：

所述标记值递减的步长的定义为：

7.根据权利要求1或2所述的方法，其中，根据所述频域去噪语音信号生成时域去噪语音信号包括：

所述频域去噪语音信号由顺序相接的多组数据构成，依次对每一组数据进行处理，其中：

若待处理的一组数据为所述频域去噪语音信号的第一组数据，则缓存所述第一组数据的最后一帧数据，以及将一帧零数据补充在所述第一组数据之前，利用叠接相加法对补充了所述一帧零数据后的所述第一组数据进行处理，并缓存处理后的所述第一组数据的最后一帧数据的叠接结果、以及缓存所述第一组数据的最后一帧数据中未完全叠接的数据的位置信息；

若待处理的一组数据为所述频域去噪语音信号的第N组数据，其中N大于等于2，则缓存所述第N组数据的最后一帧数据，以及将第N-1组数据的最后一帧数据补充在所述第N组数据之前，基于所述第N-1组数据的最后一帧数据中未完全叠接的数据的位置信息，利用叠接相加法对补充了所述第N-1组数据的最后一帧数据的所述第N组数据进行处理，将处理后的叠接结果与所述第N-1组数据的最后一帧数据的叠接结果进行叠加，并缓存处理后的所述第N组数据的最后一帧数据的叠接结果、以及缓存所述第N组数据的最后一帧数据中未完全叠接的数据的位置信息。

8.根据权利要求1或2所述的方法，根据所述频域去噪语音信号生成时域去噪语音信号之后还包括：

对所述时域去噪语音信号进行带通矫正。

9.根据权利要求1或2所述的方法，其中，所述语音接收装置对所述时域去噪语音信号的进一步处理包括发送、播放和/或储存。

10.根据权利要求1或2所述的方法，其中，所述语音接收装置为智能移动终端。

11.一种实时语音去噪的设备，该设备包括：

12.根据权利要求11所述的设备，其中，所述对数值是以e为底的对数值。

13.根据权利要求11或12所述的设备，其中：

该设备还包括噪声发生模块，用于生成高斯白噪声；

所述信噪比计算模块计算所述对数谱后验信噪比时采用所述高斯白噪声的功率值作为所述频域带噪语音信号的初始噪声功率估计值。

14.根据权利要求11或12所述的设备，其中，所述估计模块包括：

加权因子计算单元，用于计算加权因子；

噪声功率谱估计单元，用于设定标记值，该标记值用于区分强语音帧和弱语音帧，并根据所述对数谱后验信噪比、所述加权因子以及所述标记值得到所述噪声功率谱估计值。

15.根据权利要求14所述的设备，其中，所述估计模块还包括：

判断单元，用于当当前帧信号的对数谱后验信噪比的数值大于第一阈值，判断当前帧信号为强语音，触发所述噪声功率谱估计单元设定所述标记值，且保持噪声功率谱估计值恒定；

以及用于当当前帧信号的对数谱后验信噪比的数值小于等于第一阈值且设定有所述标记值时，判断当前帧信号为跟随在强语音之后的弱语音，触发所述噪声功率谱估计单元令该标记值逐步递减至预定值并根据所述对数谱后验信噪比和所述加权因子更新所述噪声功率谱估计值；

以及用于当当前帧信号的对数谱后验信噪比的数值小于等于第一阈值且没有设定所述标记值时，根据所述对数谱后验信噪比和所述加权因子更新所述噪声功率谱估计值。

16.根据权利要求15所述的设备，其中：

所述标记值的定义为：

所述标记值递减的步长的定义为：

17.根据权利要求11或12所述的设备，其中：

若待处理的一组数据为所述频域去噪语音信号的第一组数据，所述频时转换模块则缓存所述第一组数据的最后一帧数据，以及将一帧零数据补充在所述第一组数据之前，利用叠接相加法对补充了所述一帧零数据后的所述第一组数据进行处理，并缓存处理后的所述第一组数据的最后一帧数据的叠接结果、以及缓存所述第一组数据的最后一帧数据中未完全叠接的数据的位置信息；

若待处理的一组数据为所述频域去噪语音信号的第N组数据，其中N大于等于2，所述频时转换模块则缓存所述第N组数据的最后一帧数据，以及将第N-1组数据的最后一帧数据补充在所述第N组数据之前，基于所述第N-1组数据的最后一帧数据中未完全叠接的数据的位置信息，利用叠接相加法对补充了所述第N-1组数据的最后一帧数据的所述第N组数据进行处理，将处理后的叠接结果与所述第N-1组数据的最后一帧数据的接结果进行叠加，并缓存处理后的所述第N组数据的最后一帧数据的叠接结果、以及缓存所述第N组数据的最后一帧数据中未完全叠接的数据的位置信息。

18.根据权利要求11或12所述的设备，该设备还包括：

带通滤波模块，用于对所述时域去噪语音信号进行带通矫正。

19.根据权利要求11或12所述的设备，该设备还包括：

处理模块，用于所述语音接收装置进一步处理所述时域去噪语音信号，其中，所述进一步处理包括发送、播放和/或储存。

20.根据权利要求11或12所述的设备，其中，所述语音接收装置为智能移动终端。