CN1969320A

CN1969320A - 噪声抑制装置及噪声抑制方法

Info

Publication number: CN1969320A
Application number: CN200580020128.3A
Authority: CN
Inventors: 王幼华; 河嵨拓也; 吉田幸司
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2004-06-18
Filing date: 2005-05-30
Publication date: 2007-05-23
Also published as: WO2005124739A1; EP1768108A4; EP1768108A1; US20080281589A1; JPWO2005124739A1

Abstract

公开了能够在减少语音失真的同时，提高噪声抑制精确度的噪声抑制装置。在该装置中，抑制单元利用包含了噪声分量的语音功率频谱中的有声频带和噪声频带的检测结果，从语音功率频谱抑制噪声分量。音调谐波构造提取单元(105)从语音功率频谱中提取音调谐波功率频谱。有声性判定单元(106)基于提取出的音调谐波功率频谱，判定语音功率频谱的有声性。音调谐波构造修复单元(108)修复所提取出的音调谐波功率频谱。每频带有声/噪声修正单元(109)在经修复的音调谐波功率频谱及提取出的音调谐波功率频谱中，基于有声性判定单元(106)的判定结果所选择的音调谐波功率频谱，修正检测结果。

Description

噪声抑制装置及噪声抑制方法

技术领域

本发明涉及噪声抑制装置及噪声抑制方法，特别涉及用于语音通信装置及语音识别装置而抑制背景噪声的噪声抑制装置及噪声抑制方法。

背景技术

通常，低比特率语音编码装置对于没有背景噪声的语音，可以提供高质量的语音通话，但对于含有背景噪声的语音，会产生低比特率编码特有的刺耳的失真，而带来音质的恶化。

作为用于对付这样的音质恶化而施行的噪声抑制/语音强调技术，比如有频谱减少法(以下，称为“SS法”)等。

SS法中，在无声区间估计噪声分量的性质。然后，通过从含有噪声分量的语音信号的短时功率频谱(以下，称为“语音功率频谱”)减去噪声分量的短时功率频谱，或通过对该语音功率频谱乘以衰减系数，而生成抑制了噪声分量的语音功率频谱(例如，参照非专利文献1)。

又，SS法中，将估计出的噪声分量的频谱特性视为是稳定的，作为基底噪声从语音功率频谱中被均一地减去。但是，实际上噪声分量的频谱特性并不是稳定的，所以减去基底噪声后的残留噪声，特别是由于语音音调之间的残留噪声，会产生称为乐音噪声的不自然的失真。

作为用于抑制这种乐音噪声的现有的噪声抑制方法，有人提出使用基于语音功率与噪声功率之比值(SNR)的衰减系数进行乘法运算的手法(例如，参照专利文献1及专利文献2)等。根据这个方法，将语音相对较大的频带(SNR较高的频带)及噪声相对较大的频带(SNR较低的频带)相互区别开来，使用不同的衰减系数。

专利文献1：日本专利公报2714656号

专利文献1：日本专利公表公报特表平10-513030号

非专利文献1：″Suppression of acoustic noise in speech using spectralsubtraction″，Boll，IEEE Trans.Acoustics，Speech，and Signal Processing，vol.ASSP-27，pp.113-120，1979

发明内容

发明需要解决的问题

但是，上述现有的噪声抑制方法中，虽然利用SNR区别声音频带和噪声频带，但特别是当噪声分量的频谱特性不稳定的时候，不能够高精度地进行所述区别，即，语音失真的减少和噪声抑制的精确度存在一定的限度。

因此，本发明的目的是，提供一种能够减在少语音失真的同时，提高噪声抑制精确度的噪声抑制装置及噪声抑制方法。

解决该问题的方案

本发明的噪声抑制装置包括：抑制单元，利用含有了噪声分量的语音功率频谱中的有声频带和噪声频带的检测结果，抑制所述语音功率频谱中的噪声分量；提取单元，从所述语音功率频谱中提取音调谐波功率频谱；有声性判定单元，根据提取出的音调谐波功率频谱，判定所述语音功率频谱的有声性；修复单元，修复提取出的音调谐波功率频谱；以及修正单元，在经修复的音调谐波功率频谱及提取出的音调谐波功率频谱中，基于所述有声性判定单元的判定结果所选择的音调谐波功率频谱，修正所述检测结果。

本发明的噪声抑制方法为一种利用含有噪声分量的语音功率频谱中的有声频带和噪声频带的检测结果，从所述语音功率频谱抑制所述噪声分量的噪声抑制方法，包括：提取步骤，从所述语音功率频谱中提取音调谐波功率频谱；有声性判定步骤，根据提取出的音调谐波功率频谱，判定所述语音功率频谱的有声性；修复步骤，修复提取出的音调谐波功率频谱；以及修正步骤，在经修复的音调谐波功率频谱及提取出的音调谐波功率频谱中，基于所述有声性判定单元的判定结果所选择的音调谐波功率频谱，修正所述检测结果。

本发明的噪声抑制程序为一种利用含有噪声分量的语音功率频谱中的有声频带和噪声频带的检测结果，抑制所述语音功率频谱中的噪声分量的噪声抑制程序，该程序使计算机实现：提取步骤，从所述语音功率频谱中提取音调谐波功率频谱；有声性判定步骤，根据提取出的音调谐波功率频谱，判定所述语音功率频谱的有声性；修复步骤，修复提取出的音调谐波功率频谱；以及修正步骤，在经修复的音调谐波功率频谱及提取出的音调谐波功率频谱中，基于所述有声性判定单元的判定结果所选择的音调谐波功率频谱，修正所述检测结果。

发明的有益效果

根据本发明，能够在减少语音失真的同时，提高噪声抑制精确度。

附图说明

图1是表示本发明实施方式1的噪声抑制装置的结构的方框图

图2A是表示有声频带及噪声频带的检测结果的图

图2B是表示音调(pitch)谐波功率频谱的提取结果的图

图2C是表示音调谐波的峰值的提取结果的图

图2D是表示音调谐波功率频谱的修复结果的图

图2E是表示图2A所示的检测结果的修正结果的图

图3是表示本发明实施方式2的噪声抑制装置的结构的方框图

图4是表示本发明实施方式3的噪声抑制装置的结构的方框图

图5是表示本发明实施方式4的噪声抑制装置的结构的方框图

图6是说明本发明实施方式4的噪声抑制装置中的操作的流程图

具体实施方式

以下，参照附图对本发明的实施方式进行详细说明。

(实施方式1)

图1是表示根据本发明实施方式1的噪声抑制装置的结构的方框图。本实施方式的噪声抑制装置100包括开窗单元101、FFT(Fast Fourier Transform)单元102、基底噪声估计单元103、频带有声/噪声检测单元104、音调谐波构造提取单元105、有声性判定单元106、音调频率估计单元107、音调谐波构造修复单元108、每频带有声/噪声修正单元109、减法/衰减系数计算单元110、乘法单元111以及IFFT(Inverse Fast Fourier Transform)单元112。

开窗单元101，将含有噪声分量的输入语音信号分割为规定的时间单位的帧单位，并对这种帧进行利用汉宁窗(Hanning Window)等的开窗处理，并输出到FFT单元102。

FFT单元102，对于从开窗单元101输入的帧，即分割为帧单位的语音信号进行FFT，将语音信号变换到频域。由此，得到语音功率频谱。而帧单位的语音信号成为具有规定的频带的语音功率频谱。由此从帧所生成的语音功率频谱输出到基底噪声估计单元103、频带有声/噪声检测单元104、音调谐波构造提取单元105、音调频率估计单元107、减法/衰减系数计算单元110以及乘法单元111。

基底噪声估计单元103，根据输入的语音功率频谱估计只含有噪声分量的信号的频率振幅频谱，即基底噪声。估计出的基底噪声输出到频带有声/噪声检测单元104、音调谐波构造提取单元105、有声性判定单元106、音调频率估计单元107以及减法/衰减系数计算单元110。

另外，基底噪声估计单元103，在语音功率频谱的频带的各频率分量中，对于基于来自FFT112的最新帧所生成的语音功率频谱及根据基于之前的帧所生成的语音功率频谱所估计出的基底噪声进行比较。然后，根据比较结果，当两者的功率差超过事先规定的阈值时，判定最新帧含有语音分量而不进行基底噪声的估计。而当此差值不超过上述阈值时，判定最新帧不含有语音分量而进行基底噪声的更新。

每频带有声/噪声检测单元104，基于来自FFT单元102的语音功率频谱及基底噪声估计单元103的基底噪声，检测出语音功率频谱中的有声频带及噪声频带。检测结果输出到每频带有声/噪声修正单元109。

音调谐波构造提取单元105，基于从FFT单元102的语音功率频谱及基底噪声估计单元103的基底噪声，从语音功率频谱中提取音调谐波构造，即音调谐波功率频谱。提取出的音调谐波功率频谱输出到有声性判定单元106及音调谐波构造修复单元108。

有声性判定单元106，基于来自基底噪声估计单元103的基底噪声及来自音调谐波构造提取单元105的音调谐波功率频谱，判定语音功率频谱的有声性。判定结果输出到音调频率估计单元107及音调谐波构造修复单元108。

音调频率估计单元107，基于来自FFT单元102的语音功率频谱及来自基底噪声估计单元103的基底噪声，估计语音功率频谱的音调频率。另外，根据有声性判定单元106的判定结果，当语音功率频谱的有声性为规定水平以下时，不进行音调频率估计。估计结果输出到音调谐波构造修复单元108。

音调谐波构造修复单元108，基于来自音调谐波构造提取单元105的音调谐波功率频谱及来自音调频率估计单元107的估计结果，修复音调谐波构造，即音调谐波功率频谱。另外，在有声性判定单元106的判定结果是，语音功率频谱的有声性为规定水平以下时，不进行音调谐波功率频谱的修复。经修复的音调谐波功率频谱输出到每频带有声/噪声修正单元109。

每频带有声/噪声修正单元109，根据经音调谐波构造修复单元108修复的音调谐波功率频谱及由音调谐波构造提取单元105提取出的音调谐波功率频谱中，依据有声性判定单元106的判定结果所选择的音调谐波功率频谱，修正检测结果。例如，根据有声性判定的结果，当判定语音功率频谱的有声性为规定水平以下时，选择提取出的音调谐波功率频谱。此时，通过组合来自音调谐波构造提取单元105的音调谐波功率频谱及来自每频带有声/噪声检测单元104的检测结果，来修正检测结果。而当判定语音功率频谱的有声性高于规定水平时，选择经修复的音调谐波功率频谱。此时，每频带有声/噪声修正单元109通过组合来自音调谐波构造修复单元108的音调谐波功率频谱及来自每频带有声/噪声检测单元104的检测结果，来修正检测结果。经修正的检测结果输出到减法/衰减系数计算单元110。

减法/衰减系数计算单元110，基于来自FFT单元102的语音功率频谱、来自基底噪声估计单元103的基底噪声以及来自每频带有声/噪声修正单元109的检测结果，计算减法/衰减系数。计算出的减法/衰减系数输出到乘法单元111。

乘法单元111，将来自FFT单元102的语音功率频谱中的有声频带及噪声频带，乘上来自减法/衰减系数计算单元110的减法/衰减系数。由此，得到抑制了噪声分量的语音功率频谱。此乘法运算结果输出到IFFT单元112。

换言之，减法/衰减系数计算单元110及乘法单元111的组合构成利用包含噪声分量的语音功率频谱中的有声频带和噪声频带的检测结果从语音功率频谱抑制噪声分量的抑制单元。

IFFT单元112，对于作为来自乘法单元111的乘法运算结果的语音功率频谱进行IFFT。由此，基于抑制了噪声分量的语音功率频谱生成语音信号。

以下，对具有上述结构的噪声抑制装置100的操作进行说明。图2A～图2E是为了说明有声频带及噪声频带的检测结果的修正操作的图。

首先，在FFT单元102中，取得语音功率频谱S_F(k)。语音功率频谱S_F(k)可以用下面的算式(1)来表示。

【数1】

S_{F} (k) = \sqrt{Re {D_{F} (k)}^{2} + Im {D_{F} (k)}^{2}}, 1 \leq k \leq HB / 2 . . . (1)

这里，k表示指定语音功率频谱的频带的频率分量的号码。HB为FFT变换长度，即进行高速傅立叶变换的对象的数据数目，例如HB＝512。Re{D_F(k)}及Im{D_F(k)}分别表示FFT变换后的语音功率频谱D_F(k)的实部和虚部。另外，在算式(1)中使用了平方根，但不使用平方根也可以计算出S_F(k)。

接着，在基底噪声估计单元103中，利用算式(2)进行基于语音功率频谱S_F(k)的基底噪声N_B(N，k)的估计。

【数2】

N_{B} (n, k) = \{\begin{matrix} N_{B} (n - 1, k) & S_{F} (k) > Θ_{B} \cdot N_{B} (n - 1, k) \\ (1 - α) \cdot N_{B} (n - 1, k) + α \cdot S_{F} (k) & S_{F} (k) \leq Θ_{B} \cdot N_{B} (n - 1, k) \end{matrix}, 1 \leq k \leq HB / 2 . . . (2)

其中，N表示帧号码。又，N_B(N-1，k)为在前一帧中的基底噪声的估计值。α为基底噪声的移动平均系数，Θ_B为辨别语音分量及噪声分量的阈值。

接着，在每频带有声/噪声检测单元104中，如图2A所示，基于语音功率频谱S_F(k)及基底噪声N_B(N，k)，检测出语音功率频谱S_F(k)中的有声频带及噪声频带。有声频带及噪声频带的检测结果S_N(k)通过使用了算式(3)的计算而得到。如果通过计算所得的差大于零，则判定为含有语音分量的语音频带。如果差为零以下，则判定为不含有语音分量的噪声频带。其中，γ₁为常数。

【数3】

S_{N} (k) = \{\begin{matrix} S_{F} (k) - γ_{1} \cdot N_{B} (n, k) & S_{F} (k) > γ_{1} \cdot N_{B} (n, k) \\ 0 & S_{F} (k) \leq γ_{1} \cdot N_{B} (n, k) \end{matrix}, 1 \leq k \leq HB / 2 . . . (3)

接着，在音调谐波构造提取单元105中，如图2B所示，基于语音功率频谱S_F(k)及基底噪声N_B(N，k)，提取音调谐波功率频谱H_M(k)。音调谐波功率频谱H_M(k)通过使用了算式(4)的计算而提取出来。其中，γ₂为满足γ₂＞γ₁的常数。

【数4】

H_{M} (k) = \{\begin{matrix} S_{F} (k) - γ_{2} \cdot N_{B} (n, k) & S_{F} (k) > γ_{2} \cdot N_{B} (n, k) \\ 0 & S_{F} (k) \leq γ_{2} \cdot N_{B} (n, k) \end{matrix}, 1 \leq k \leq HB / 2 . . . (4)

接着，在有声性判定单元106中，基于基底噪声N_B(n，k)及音调谐波功率频谱H_M(k)，判定语音功率频谱S_F(k)的有声性。在本实施方式中，将语音功率频谱S_F(k)的频带(1～HB/2)中的特定的频带(1～HP)作为有声性判定的对象频带。即，HP为判定对象频带内的上限的频率分量。

将频带(1～HB/2)三分为低频、中频、高频，将各频带作为特定的频带进行有声性判定则更好。或者，采用将频带(1～HB/2)二分为低频及高频，将各频带作为特定的频带进行有声性判定的结构亦可。如此，通过在分割频带而得到的各个频带中进行有声性判定，能够将在高质量地提取到音调谐波功率频谱H_M(k)的频带与并非如此的频带中是否进行音调谐波功率频谱H_M(k)的修复分开。

另外，当有声性判定单元106采用如下结构时，即基于分割频带而得到的各频带的有声性判定结果，识别原来的语音为辅音还是元音时，能够根据辅音或元音而决定是否进行音调谐波功率频谱H_M(k)的修复。

特定的频带的有声性判定通过使用算式(5)计算对应于音调谐波功率频谱H_M(k)中的特定频率部分的功率总和值与对应于基底噪声N_B(N，k)中的特定频率部分的功率总和值之比而得到。根据此判定结果，当特定的频带的有声性高于规定水平时，进行后述的音调频率估计及音调谐波构造修复。

【数5】

V_{S} = Σ_{k = 1}^{HP} H_{M} (k) / Σ_{k}^{HP} N_{B} (n, k) . . . (5)

另一方面，当特定的频带的有声性为规定水平以下时，不进行音调频率估计及音调谐波构造修复。此时，在每频带有声/噪声修正单元109中，基于提取出的音调谐波功率频谱H_M(k)，修正语音功率频谱S_F(k)中的有声频带及噪声频带的检测结果S_N(k)中对应于特定频带的部分。换言之，不进行基于经修复的音调谐波功率频谱H_M(k)的、对检测结果S_N(k)中对应于特定频带的部分的修正。因此，可以有选择性地使用高精度的音调谐波功率频谱H_M(k)，显著提高有声频带及噪声频带的检测精确度。

另外，在以下的说明中，设想特定的频带的有声性高于规定水平的情况。

在音调频率估计单元107，利用算式(6)，从对应于语音功率频谱S_F(k)中的特定频带的部分中，减去对应于基底噪声N_B(n，k)中的特定频带的部分的β倍。接着，利用算式(7)计算减法运算结果Q_F(k)的自相关函数R_P(m)。然后，将对应于自相关函数R_P(m)的最大值的m作为音调频率。

【数6】

Q_F(k)＝S_F(k)-β·N_B(m，k)1≤k≤HM…(6)

【数7】

R_{P} (m) = Σ_{k = 1}^{HM - m} Q_{F} (k) \cdot Q_{F} (k + m), 1 \leq m \leq PM . . . (7)

接着，在音调谐波构造修复单元108中，修复音调谐波功率频谱H_M(k)中对应于特定频带的部分。更具体而言，当特定的频带的有声性被判定为高于规定水平时，按下面的步骤进行修复。

第一，如图2C所示，提取音调谐波功率频谱H_M(k)中的音调谐波的峰值(p1～p5、p9～p12)。另外，音调谐波峰值的提取也可以只针对特定的频带而进行。第二，计算提取出的峰值的间隔。计算出的间隔超过规定的阈值(例如，音调频率的1.5倍)时，如图2D所示，根据估计出的音调频率m，***音调谐波功率频谱H_M(k)中所欠缺的峰值。这样，音调谐波功率频谱H_M(k)得到修复。

接着，在每频带有声/噪声修正单元109中，如图2E所示，在检测结果S_N(k)中，将与经修复的音调谐波功率频谱H_M(k)重复的部分作为有声频带，而将不与经修复的音调谐波功率频谱H_M(k)重复的部分作为噪声频带。如此来进行检测结果S_N(k)的修正。

接着，在减法/衰减系数计算单元110中，基于语音功率频谱S_F(k)及基底噪声N_B(n，k)，对经修正的检测结果S_N(k)内的有声频带及噪声频带分别计算减法/衰减系数G_C(k)。计算中使用下面的算式(8)。这里，μ为常数，又，g_C为大于零且小于1的规定的常数。

【数8】

这样，根据本实施方式，因为基于音调谐波功率频谱H_M(k)修正有声频带及噪声频带的检测结果S_N(k)，所以即使当噪声分量的频谱特性不稳定时，也能够以高精度进行有声频带及噪声频带的检测。其结果，能够对有声频带及噪声频带分别进行衰减程度相对较弱的减法运算处理及衰减程度相对较强的衰减处理。据此，即使增大衰减量，也能够在减少语音失真的同时，提高噪声抑制精确度。再者，根据本实施方式，根据提取出的音调谐波功率频谱H_M(k)及经修复的音调谐波功率频谱H_M(k)当中，依据语音功率频谱S_F(k)的有声性的判定结果所选择的音调谐波功率频谱，修正检测结果S_N(k)，所以能够进一步提高检测结果S_N(k)的精确度，进一步提高噪声抑制的精确度。

(实施方式2)

图3是表示根据本发明实施方式2的噪声抑制装置的结构的方框图。另外，在本实施方式中所说明的噪声抑制装置与在实施方式1中所说明的噪声抑制装置具有基本相同的结构，因此对相同或对应的结构单元赋予相同的参考符号，省略其详细说明。

图3所示的噪声抑制装置200的结构为除了具有实施方式1中所说明的噪声抑制装置100的结构单元，还具有语音/噪声帧判定单元201。

语音/噪声帧判定单元201，基于来自FFT单元102的语音功率频谱及来自基底噪声估计单元103的基底噪声，判定语音功率频谱所得到的帧为语音帧还是噪声帧。判定结果输出到有声性判定单元106及每频带有声/噪声修正单元109。

以下，对语音/噪声帧判定单元201的帧判定操作进行更加详细的说明。

在语音/噪声帧判定单元201中，首先，根据来自FFT部102的语音功率频谱S_F(k)及来自基底噪声估计单元103的基底噪声N_B(n，k)，利用下面的算式(9)及算式(10)计算两个比值。两个比值中的一个为语音功率频谱S_F(k)的频带中低频带上的语音功率与噪声功率之比SNR_L，而另一个为语音功率频谱S_F(k)的频带中全频带上的语音功率与噪声功率之比SNR_F。其中，HL为上述低频带中的上限频率分量，HF为语音功率频谱S_F(k)的频带中的上限频率分量。

【数9】

SN R_{L} = {Σ_{k = 1}^{HL} S_{F} (k) - β_{L} \cdot Σ_{k = 1}^{HL} N_{B} (n, k)} / Σ_{k = 1}^{HL} N_{B} (n, k) . . . (9)

【数10】

SN R_{F} = {Σ_{k = 1}^{HF} S_{F} (k) - β_{F} \cdot Σ_{k = 1}^{HF} N_{B} (n, k)} / Σ_{k = 1}^{HF} N_{B} (n, k) . . . (10)

接着，计算算出的两个比值SNR_L、SNR_F的相关值R_LF(＝SNR_L·SNR_L)。然后，利用下面的算式(11)进行帧判定。作为利用了算式(11)的帧判定的结果，生成帧信息SNF。帧信息SNF是表示作为判定对象的帧为语音帧还是噪声帧的信息。在算式(11)中，M为拖尾帧(Hang-over Frame)的数目。另外，当R_LF为Θ_SN以下的情况不持续M帧时，帧判定结果为语音帧。

【数11】

当判定对象的帧被判定为语音帧时，在有声性判定单元106及每频带有声/噪声修正单元109中，进行通常的操作(实施方式1中所说明的操作)。另一方面，当判定对象的帧被判定为噪声帧时，在有声性判定单元106中，强制性地判定从作为判定对象的帧所生成的语音功率频谱S_F(k)的频带中的全频带的有声性为规定的水平以下。其结果，在每频带有声/噪声修正单元109中，将全频带视为噪声频带而进行修正。

这样，根据本实施方式，因为作为判定对象的帧被判定为噪声帧时，语音功率频谱S_F(k)的全频带的有声性被判定为规定的水平以下，所以能够省去对噪声帧的不必要的检测结果S_N(k)修正处理，能够减轻修正单元的负荷。

另外，根据本实施方式，因为计算语音功率频谱S_F(k)的低频带上的功率比SNR_L与语音功率频谱S_F(k)的全频带上的功率比SNR_F的相关值R_LF，并基于此相关值R_LF进行帧判定，所以除了能够强调低频带和全频带之间的相关性较高的语音分量的功率频谱，还能够降低相关性较低的噪声分量的功率频谱。其结果，能够提高帧判定的精确度。

(实施方式3)

图4是表示根据本发明实施方式3的噪声抑制装置的结构的方框图。另外，在本实施方式中所说明的噪声抑制装置与在实施方式1中所说明的噪声抑制装置具有基本相同的结构，因此对相同或对应的结构单元赋予相同的参考符号，省略其详细说明。

图4所示的噪声抑制装置300的结构为除了具有实施方式1中所说明的噪声抑制装置100的结构单元以外，还附加了减法/衰减系数平均处理单元301。

减法/衰减系数平均处理单元301对作为减法/衰减系数计算单元110的计算结果而得到的减法/衰减系数，在时域及频域分别进行平均化。经平均化的减法/衰减系数输出到乘法单元111。

换言之，在本实施方式中，减法/衰减系数计算单元110、减法/衰减系数平均处理单元301以及乘法单元111的组合构成利用含有噪声分量的语音功率频谱中的有声频带及噪声频带的检测结果而从语音功率频谱抑制噪声分量的抑制单元。

以下，对减法/衰减系数平均处理单元301的系数平均处理进行更加详细的说明。

首先，在减法/衰减系数平均处理单元301中，对于由减法/衰减系数计算单元110中的计算而得到的减法/衰减系数，利用算式(12)在时域进行平均化。其中，α_F及α_L为满足α_F＞α_L关系的移动平均系数。

【数12】

{\overset{&OverBar;}{G}}_{T} (n, k) = \{\begin{matrix} (1 - α_{F}) \cdot {\overset{&OverBar;}{G}}_{T} (n - 1, k) + α_{F} \cdot G_{C} (k) & G_{C} (k) > {\overset{&OverBar;}{G}}_{T} (n - 1, k) \\ (1 - α_{L}) \cdot {\overset{&OverBar;}{G}}_{T} (n - 1, k) + α_{L} \cdot G_{C} (k) & G_{C} (k) \leq {\overset{&OverBar;}{G}}_{T} (n - 1, k) \end{matrix}, 1 \leq k \leq HB / 2 . . . (12)

另外，利用下面的算式(13)，对减法/衰减系数在频域进行平均化。这里，K_H-K_L是作为平均化对象范围的频率分量的数目。

【数13】

{\overset{&OverBar;}{G}}_{F} (k) = \frac{1}{K_{H} - K_{L}} Σ_{i = k - K_{L}}^{k + K_{H}} {\overset{&OverBar;}{G}}_{T} (n, i), 1 \leq k \leq HB / 2 . . . (13)

接着，对于利用算式(12)而进行了时间平均处理的减法/衰减系数及利用算式(13)而进行了频率平均处理的减法/衰减系数进行比较，按照它们的大小关系，选择在乘法单元111中所使用的减法/衰减系数。例如，如算式(14)所示，当经时间平均处理的减法/衰减系数大于经频率平均处理的减法/衰减系数时，选择经时间平均处理的减法/衰减系数，否则选择经频率平均处理的减法/衰减系数。

【数14】

{\overset{&OverBar;}{G}}_{C} (k) = \{\begin{matrix} {\overset{&OverBar;}{G}}_{T} (n, k) & {\overset{&OverBar;}{G}}_{T} (n, k) > {\overset{&OverBar;}{G}}_{F} (k) \\ {\overset{&OverBar;}{G}}_{F} (k) & {\overset{&OverBar;}{G}}_{T} (n, k) \leq {\overset{&OverBar;}{G}}_{F} (k) \end{matrix}, 1 \leq k \leq HB / 2 . . . (14)

这样，根据本实施方式，因为对用于噪声抑制的减法/衰减系数进行时间平均处理，所以能够改善由于减法/衰减系数在时间轴上的急剧变化而产生的语音的不连续性，并减少随残留噪声的变动而生的语音失真。

再者，根据本实施方式，因为对用于噪声抑制的减法/衰减系数进行频率平均处理，所以能够降低在频率轴上的衰减量的不连续性，即使增大噪声衰减量也能够减少语音失真。

另外，本实施方式中所说明的减法/衰减系数平均处理单元301也可以应用于在实施方式2中所说明的噪声抑制装置200中。

(实施方式4)

图5是表示根据本发明实施方式4的噪声抑制装置的结构的方框图。另外，在本实施方式中所说明的噪声抑制装置与在实施方式1中所说明的噪声抑制装置具有基本相同的结构，因此对相同或对应的结构单元赋予相同的参考符号，省略其详细说明。

图5所示的噪声抑制装置400的结构为除了具有实施方式1中所说明的噪声抑制装置100的结构单元以外，还附加了死锁防止单元401。

噪声抑制单元400中的基底噪声估计单元103除了进行在实施方式1中所说明的操作外，还在噪声分量的水平急剧变化时，停止基底噪声的更新，即产生死锁(dead lock)状态。

死锁防止单元401具有计数器。计数器对应于语音功率频谱的频带中的频率分量设计而成，并对由基底噪声估计单元103估计出的基底噪声中相应的频率分量的功率持续地高于规定值的次数进行计数。死锁防止单元401基于所计的次数防止基底噪声估计单元103的基底噪声更新停止，即防止死锁状态。

以下，对于噪声抑制装置400中防止死锁状态的操作，利用图6进行详细说明。

首先，在步骤S1000，死锁防止单元401判定语音功率频谱S_F(k)是否为基底噪声N_B(n，k)的Θ_B倍以下。根据判定结果，当语音功率频谱S_F(k)为基底噪声N_B(n，k)的Θ_B倍以下时(S1000：YES)，在基底噪声估计单元103中，进行通常的基底噪声估计(S1010)。接着，在步骤S1020中，将设在死锁防止单元401中的计数器所计的次数count(k)重设为零。然后，返回步骤S1000。

又，根据步骤S1000中的判定结果，当语音功率频谱S_F(k)大于基底噪声N_B(N，k)的Θ_B倍时(S1000：“否”)，计数器则计上次数count(k)(S1030)。接着，在步骤S1040中，死锁防止单元401将次数count(k)与规定的阈值比较。比较的结果，当次数count(k)大于阈值时(S1040：“是”)，死锁防止单元401将含有相应的频率分量k的规定频带中的噪声功率频谱的最小值作为基底噪声N_B(n，k)的更新值(S1050)，利用这个更新值更新基底噪声(S1060)。然后，返回步骤S1000。另外，在步骤S1040中的比较结果是次数count(k)为阈值以下时(S1040：“否”)，直接返回步骤S1000。

这样，当语音功率频谱S_F(k)中的功率持续为规定值以上规定次数时，能够使用含有频率分量k的规定频带中的噪声功率频谱的功率最小值更新基底噪声N_B(n，k)，据此，无论是语音区间还是噪声区间都能够防止死锁状态。另外，上述规定频带设在音调谐波上的峰值之间则更好。这样，能够检测出噪声功率频谱的波谷，能够轻易的检测出作为更新值的噪声功率频谱的最小值。

另外，本实施方式中所说明的死锁防止单元401，也可以在实施方式2、3中所说明的噪声抑制装置200、300中使用。

另外，本发明可以采用各种各样的实施方式，并不只限于实施方式1～4中所说明的方式。例如，将上述的噪声抑制方法作为软件在计算机上实行亦可。即，将实行上述实施方式中所说明的噪声抑制方法的程序预先存储在比如ROM(Read Only Memory)等存储媒质中，通过CPU(Central Processor Unit)运行该程序，能够施行本发明的噪声抑制方法。

另外，用于上述各实施方式说明的各功能模块，典型地由集成电路LSI来实现。这些功能块既可以分别实行单芯片化，也可以包括其中一部分或者是全部而实行单芯片化。

这里，虽然称作LSI，但根据集成度的不同也可以称为IC(集成电路)、***LSI(***大规模集成电路)、超LSI(超大规模集成电路)、极大LSI(极大规模集成电路)。

另外，集成电路化的技术不仅限于LSI，也可以使用专用电路或通用处理器来实现。可利用在制造LSI后，可编程的FPGA(Field Programmable GateArray，现场可编程门阵列)，或可重构LSI内部的电路单元的连接或设定的可重构处理器(Reconfigurable Processor)。

再有，如果随着半导体技术的进步或者其他技术的派生，出现了替换LSI集成电路的技术，当然，也可以利用该技术来实现功能模块的集成化。也有应用生物工程学技术等的可能性。

本说明书基于2004年6月18日申请的日本专利申请第2004-181454号。该全部内容包括在此作参考。

工业实用性

本发明的噪声抑制装置及噪声抑制方法具有在减少语音失真的同时，提高噪声抑制精确度的效果，可以适用于语音通信装置及语音识别装置等。

Claims

1、一种噪声抑制装置，包括：

抑制单元，利用包含了噪声分量的语音功率频谱中的有声频带和噪声频带的检测结果，从所述语音功率频谱抑制所述噪声分量；

提取单元，从所述语音功率频谱中提取音调谐波功率频谱；

有声性判定单元，基于提取出的音调谐波功率频谱，判定所述语音功率频谱的有声性；

修复单元，修复提取出的音调谐波功率频谱；以及

修正单元，在经修复的音调谐波功率频谱及提取出的音调谐波功率频谱中，基于所述有声性判定单元的判定结果所选择的音调谐波功率频谱，修正所述检测结果。

2、根据权利要求1所述的噪声抑制装置，其中，

所述语音功率频谱具有规定的频带，

所述有声性判定单元，判定所述规定的频带中特定频带的有声性，

所述修正单元，在所述有声性判定单元的判定结果是所述特定频带的有声性为所述规定水平以上时，对于所述检测结果中对应于所述特定频带的部分，基于经修复的音调谐波功率频谱进行修正，而当所述特定频带的有声性为所述规定水平以下时，对于所述部分，基于提取出的音调谐波功率频谱进行修正。

3、根据权利要求2所述的噪声抑制装置，其中，

还包括：基底噪声估计单元，根据所述语音功率频谱估计出基底噪声，

所述有声性判定单元，基于提取出的音调谐波功率频谱中对应于所述特定频带的部分的功率总和值与估计出的基底噪声中对应于所述特定频带的部分的功率总和值的比值，判定所述特定频带的有声性。

4、根据权利要求2所述的噪声抑制装置，其中，

所述语音功率频谱从所输入的帧中得到，

还包括帧判定单元，判定所述帧为语音帧还是噪声帧，

所述有声性判定单元，在所述帧判定单元的判定结果是所述帧被判定为噪声帧时，判定为所述规定的频带中全频带的有声性在所述规定水平以下。

5、根据权利要求2所述的噪声抑制装置，其中，

所述抑制单元包括：

时间平均处理单元，对于从所述检测结果中得到的系数，在时域进行平均化；以及

乘法单元，将经平均化的所述系数乘以所述语音功率频谱。

6、根据权利要求2所述的噪声抑制装置，其中，

所述抑制单元包括：

频率平均处理单元，对于从所述检测结果中得到的系数，在频域进行平均化；以及

乘法单元，将经平均化的所述系数乘以所述语音功率频谱。

7、根据权利要求2所述的噪声抑制装置，其中包括：

更新停止单元，停止基底噪声的更新；以及

防止单元，当所述语音功率频谱中的所述规定的频带上的频率分量的功率持续为规定值以上规定次数时，防止所述更新停止单元停止基底噪声更新。

8、一种噪声抑制方法，利用含有噪声分量的语音功率频谱中的有声频带和噪声频带的检测结果，从所述语音功率频谱抑制所述噪声分量，其特征在于，该方法包括：

提取步骤，从所述语音功率频谱中提取音调谐波功率频谱；

有声性判定步骤，基于提取出的音调谐波功率频谱，判定所述语音功率频谱的有声性；

修复步骤，修复提取出的音调谐波功率频谱；以及

修正步骤，在经修复的音调谐波功率频谱及提取出的音调谐波功率频谱当中，基于所述有声性判定单元的判定结果所选择的音调谐波功率频谱，修正所述检测结果。

9、一种噪声抑制程序，利用含有噪声分量的语音功率频谱中的有声频带和噪声频带的检测结果，从所述语音功率频谱抑制所述噪声分量，该程序使计算机实现：

提取步骤，从所述语音功率频谱中提取音调谐波功率频谱；

修复步骤，修复提取出的音调谐波功率频谱；以及