CN1286788A

CN1286788A - 关于低比特率语音编码器的噪声抑制

Info

Publication number: CN1286788A
Application number: CN99801661A
Authority: CN
Inventors: 史蒂文·H·伊莎贝尔
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 1998-09-23
Filing date: 1999-09-22
Publication date: 2001-03-07
Also published as: KR20010075343A; CA2310491A1; WO2000017855A1; KR20010032390A; BR9913011A; WO2000017859A1; IL136090A0; KR100330230B1; AU6037899A; EP1116224A1; WO2000017859A8; CA2344695A1; JP2003517624A; EP1116224A4; CN1326584A; US6122610A; AU6007999A

Abstract

在携带噪声和语音的组合的输入信号中的噪声得到了抑制。输入信号被划分成若干个信号块,对这些信号块进行处理以提供输入信号的短时间感知带谱的估计值。在不同的时间点上判断输入信号只携带噪声还是噪声和语音的组合。当输入信号只携带噪声时,输入信号的相应估计的短时间感知带谱用来修正噪声的长时间感知带谱的估计值。然后,根据噪声的长时间感知带谱的估计值和输入信号的短时间感知带谱确定噪声抑制频率响应,和噪声抑制频率响应用来成形与噪声抑制频率响应相一致的输入信号的当前块。

Description

关于低比特率语音编码器的噪声抑制

发明背景

本发明提供了适用于低比特率语音编码器的前端的噪声抑制技术。这种创造性的技术尤其适合用在蜂窝式电话应用中。

下列的现有技术文件提供了有关本发明的技术背景：“改进的可变速率编解码器，用于宽带扩频数字***的语音服务可选方案3，”(“ENHANCEDVARIABLE RATE CODEC，SPEECH SERVICE OPTION 3 FORWIDEBAND SPREAD SPECTRUM DIGITAL SYSTEMS”，TIA/EIA/IS-127standard)，“关于语音改善方法的语音/暂停检测器的研究”(“THE STUDYOF SPEECH/PAUSE DETECTORS FOR SPEECH ENHANCEMENTMETHODS”，P.Sovka and P.Pollak，Eurospeech 95 Madrid，1995，P.1575-1578)，“利用最小二乘法误差快速频谱估值器的语音改善”(“SPEECHENHANCEMENT USING A MINIMUM MEAN-SQUARE ERROR SHORT-TIME SPECTRAL AMPLITUPE ESTIMATOR”，Y.Ephraim，D.Malah，IEEETransactions on Acoustics Speech and Signal Processing，Vol．ASSP-32，No.6，Dec.1984，PP.1109-1121)，“利用频谱扣除的声音噪声抑制”(“SUPPRESSION OF ACOUSTCC NOISE USING SPECTRALSUBTRACTION”，S.Boll，IEEE Trangactions on Acoustics Speech and SignalProcessing，Vol．ASSP-27，No.2，April 1979，PP113-120)，“基于统计模型的语音改善***”(“STATISTICAL-MODEL-BASED SPEECHENHANCEMENT SYSTEMS”，Proceedings of the IEEE，Vol.80，No.10，October 1992，PP1526-1544)。

用于噪声抑制的不太复杂的方法是频谱修正(也称为频谱扣除)。利用频谱修正的噪声抑制算法首先将含噪声的语音信号划分成几个频带。对每个频带进行增益计算，增益通常依赖于该带中估计的信噪比。应用这些增益，并且重构一个信号。这种类型的方案必须从所观察的含噪声语音信号中估计信号和噪声特性。在如下的美国专利中可以找到几个频谱修正技术的应用例子：US专利号：5，687，285；5，680，393；5，668，927；5，659，622；5，651，071；5，630，015；5，625，684；5，621，850；5，617，505；5，617，472；5，602，962；5，577，161；5，555，287；5，550，924；5，544，250；5，539，859；5，533，133；5，530，768；5，479，560；5，432，859；5，406，635；5，402，496；5，388，182；5，388，160；5，353，376；5，319，736；5，278，780；5，251，263；5，168，526；5，133，013；5，081，681；5，040，156；5，012，519；4，408，855；4，897，878；4，811，404；4，747，143；4，737，976；4，630，305；4，630，304；4，628，529和4，468，804。

频谱修正具有几个合乎要求的特性。首先，可以使它变成自适应的，因此，它可以应付可变的噪声环境。第二，许多计算可以在离散付里叶变换(DFT)域内进行。因此，可以使用快速算法(如快速付里叶变换(FFT))。

但是，在这方面技术的当前状态下，存在着几个缺点。这些缺点包括：

(ⅰ)在降低高噪声电平过程中所希望语音信号的不良畸变(这样的畸变有几方面原因，一些畸变将在下面细述)；和

(ⅱ)计算的过份复杂性。

提供能克服现有技术中的缺点的噪声抑制技术是有益的。尤其是，提供考虑典型地出现在基于块的噪声抑制技术中的时域不连续的噪声抑制技术是有益的。进一步，提供这种减少由于频谱扣除所固有的频域不连续性引起的畸变的技术是有益的。还进一步，降低在提供噪声抑制过程中频谱成形操作的复杂性和提高在噪声抑制技术中所估计噪声统计的可靠性是有益的。

本发明提供了具有这些和其它优点的噪声抑制技术。

发明简述

本发明提供了其中由于典型地出现在基于块的噪声抑制技术中的时域不连续性引起的畸变得到减少的噪声抑制技术。随着在噪声抑制处理中所使用的频谱形成操作的复杂性得到降低，由于在频谱扣除中所固有的频域不连续性引起的畸变也得到减少。通过使用改进的语音灵敏检测器，本发明还提高了所估计噪声统计的可靠性。

根据本发明的方法抑制了传输噪声和语音的组合的输入信号中的噪声成分。输入信号被划分成信号块，对这些信号块进行处理以得出输入信号的短时间感知带谱(short-time perceptual band spectrum)的估计值。在不同时间点上确定输入信号只携带噪声还是传输噪声和语音的组合。当输入信号只携带噪声时，输入信号的相应估计的短时间感知带谱被用来修改噪声的长时间感知带谱的估计值。然后，根据噪声的长时间感知带谱的估计值和输入信号的短时间感知帝谱确定噪声抑制频率响应，并且噪声抑制频率响应被用来成形与噪声抑制频率响应相一致的输入信号的当前块。

本发明还可以包括预滤波输入信号以加强其中的高频成分的步骤。在图示的实施例中，输入信号的处理包括将离散付里叶变换应用到信号块中以便提供每块的复值频域表示。信号块的频域表示被转换成只有幅度的信号，在穿过几个分离的频带上对这些信号求平均以获得长时间感知带谱的估计值。对感知带谱的随时间变化的成分进行平滑以得到短时间感知带谱的估计值。

噪声抑制频率响应可以使用应用于成形输入信号的当前块的全极点滤波器器进行模拟。

本发明提供了抑制携带噪声和语音的组合的输入信号中的噪声的设备。能够预滤波输入信号以加强其中的高频成分的信号预处理器将输入信号分成若干块。然后，快速付里叶变换处理器处理这些块以提供输入信号的频域复值谱。配置累加器将频域复值谱累加成由不等宽频带组成的长时间感知帝谱。对长时间感知带谱进行滤波生成由所述长时间感知带谱的当前片段加噪声组成的短时间感知带谱的估计值。语音/暂停检测器判断在给定时间点上输入信号只是噪声，还是语音和噪声的组合。当输入信号只是噪声时，噪声谱估值器响应语音/暂停检测电路，根据短时间感知带谱来修正噪声的长时间感知带谱的估计值。谱增益处理器响应噪声谱估值器确定噪声抑制频率响应。然后，谱成形处理器响应谱增益处理器成形输入信号的当前块以抑制其中的噪声。谱成形处理器可以包括，例如，一个全极点滤波器。

此外，本发明还公开了抑制在传输噪声和诸如语音那样的音频信息的组合的输入信号中的噪声的方法。噪声抑制频率响应是针对频域中的输入信号来计算的。然后，所计算的噪声抑制频率响应应用于时域中的输入信号中抑制输入信号中的噪声。这种方法可以进一步包括在计算输入信号中的噪声抑制频率响应之前将输入信号划分成若干块的步骤。在图示的实施例中，噪声抑制频率响应是通过由确定噪声抑制频率响应的自相关函数所生成的全极点滤波器应用到输入信号中的。

附图简述

图1是根据本发明的噪声抑制算法的方块图；

图2是显示根据本发明的输入信号的分块处理的示意图；

图3是显示具有不同宽度的、含有离散付里叶变换(DFT)箱的各个噪声谱带(NS带)的相关性的示意图；

图4是一种可能的语音/暂停检测器实施例的方块图；

图5包括提供含噪声的语音发声的能量测量例子的波形；

图6包括提供含噪声语音发声的频谱转换测量例子的波形；

图7包括提供含噪声语音发声的频谱相似性测量例子的波形；

图8是模拟含噪声语音信号的信号状态器的图示；

图9显示分段恒定的频率响应；和

图10显示了图9所示的分段恒定频率响应的平滑。

发明详述

根据本发明，噪声抑制算法计算随时间变化的滤波响应并将它应用到含噪声语音中。此算法的方块图显示在图1中，其中标有“AR参数计算”和“AR频谱成形”的方块与随时间变化的滤波响应的应用有关，和“AR”表示“自回归”。图1中的所有其它方块与从含噪声语音中计算随时间变化的滤波响应相对应。

含噪声输入信号在使用简单高通滤波器的信号预处理器10中得到预处理来稍微加强其高频成分。然后，预处理器将滤波信号划分成若干个通过快速付里叶变换(FFT)模块12的块。FFT模块12为信号块开一个窗口并对信号进行离散付里叶变换。对产生的频域复值表示进行处理以生成只有幅度的信号。在几个分离的频带中对这些只有幅度的信号值求平均产生一个“感知带谱”。求平均值导致了必须要处理的数据量的减少。

感知带谱中的时间变化在信号和噪声谱估计模块14中被平滑生成输入信号的短时间感知带谱的估计值。这个估计值传送到语音/暂停检测器16、噪声谱估值器18和谱增益计算模块20。

语音/暂停检测器16判断当前输入信号仅仅是噪声，还是语音和噪声的组合。通过测量输入语音信号的几个特性、使用这些测量结果修正输入信号的模型和利用这个模型的状态作出最后的语音/暂停判定来作出这个判断。然后，这个判定结果传送到噪声谱估值器。

当语音/暂停检测器16确定出输入信号只由噪声组成时，噪声谱估值器18利用当前感知带谱修正噪声的感知带谱估计值。另外，噪声谱估值器的某些参数也在这个模块中得到修正并被反送到语音/暂停检测器16中。然后，噪声的感知带谱估计值传送到谱增益计算模块20中。

利用当前信号和噪声的感知带谱的估计值，谱增益计算模块20确定噪声抑制频率响应。正如图9所示的，这个噪声抑制频率响应是分段恒定的。每个分段恒定的片段对应于临界带谱的一个成分。这个频率响应传送到AR参数计算模块22。

AR参数计算模块利用全极点滤波器模拟噪声抑制频率响应。由于噪声抑制频率响应是分段恒定的，它的自相关函数可以以闭合形式容易得到确定。然后，全极点滤波器参数可以有效地从自相关函数中计算出来。分段恒定谱的全极模拟具有在噪声抑制谱中消除不连续的效果。应该认识到，现在为人所知的或以后发现的其它模拟技术都可以代替全极点滤波器的使用，所有这样的同等技术都意味着由本文所主张的发明所覆盖。

AR谱成形模块24利用AR参数将滤波应用到输入信号的当前块中。通过实现时域内的谱成形，由于块处理引起的时间不连续性得到降低。此外，由于噪声抑制频率响应也可以利用低阶全极点滤波器来模拟，因此，时域成形可以导致在某些处理器上更有效实现。

在信号预处理模块10中，信号首先利用形式为H(z)=1-0.8z^-1的高通滤波器得到预加强。这种高通滤波器被选用来部分补偿语音中所固有的谱倾斜。由此预处理的信号生成更加精确的噪声抑制频率响应。

如图2所示，输入信号30以八十个样本(对应于8KHz取样速率上的10ms)为块单位得到处理。这在图中由分析块34所表示，分析块34的长度是八十个样本。更具体地说，在所示例子的实施例中，输入信号被划分成一百二十八个样本的块。每块由来自前一块的最后二十四个样本(参考标号32)、分析块34的八十个新样本和其值为零的二十四个样本(参考标号36)组成。每一块都用汉明窗来开窗并进行付里叶变换。

隐含在块结构中的零位填充值得进一步说明一下。尤其是，从信号处理的观点来看，零位填充是没有必要的，因为谱成形(下面将要说明)并没有利用离散付里叶变换来实现。但是，包含了零位填充可以容易地将此算法整合到由本发明的受让人、Solana技术发展公司(Solana Technology DevelopmentCorporation)研制的现有EVRC语音编解器中。这种块结构并不需要对现有EVRC代码的整个缓冲管理策略作什么改变。

每个噪声抑制帧都可以被看作一个128个点的序列。当这个序列由g[n]来表示时，信号块的频域表示可以定义为离散付里叶变换

G [k] = c Σ_{n = 0}^{M - 1} g [n] e^{j 2 πnk / M}

这里，c是归一化常数。

然后，信号谱被累加成如下形式的不等宽频带：其中，

F₁[k]={2、4、6、8、10、12、14、17、20、23、27、31、36、42、49、56}

F_h[k]={3、5、7、9、11、13、16、19、22、26、30、35、41、48、55、63}

这个不等宽频带被称为感知带谱。这个通常表示成50的频带显示在图3中。如图所示，噪声谱带(NS带)具有不同的宽度，并且与离散付里叶变换(DFT)箱(bins)相关。

信号加噪声的感知带谱的估计值是在模块14(图1)中利用例如单极点递归滤波器对感知带谱进行滤波生成的。信号加噪声的功率谱的估计值是：

S_u[k]=β.S_u[k]+(1-β).S[k]

由于语音特性只在相对较短时间的区间上是稳定的，因此，选择β只在n个(例如，2-3个)噪声抑制块上进行平滑。这种平滑被称为“短时间”平滑，并提供了“短时间感知带谱”的估计值。

为了能起适当作用，噪声抑制***要求对噪声统计的精确估计。这种功能是由语音/暂停检测模块16来提供的。在一个可能的实施例中，配置了同时测量语音和噪声的单个麦克风。由于噪声抑制算法要求对噪声统计的估计，因此需要一种用来区分含噪声语音信号与只有噪声的信号的方法。这种方法必须从本质上检测到含噪声语音中的暂停。由于几方面的因素，这个工作变得更为困难：

1.暂停检测器[pause detector]必须能在低噪比(0-5dB的数量级)的状态下合格地工作。

2.暂停检测器必须对本底噪声统计的缓慢变化不灵敏。

3.暂停检测器必须精确地区分似噪声语音声音(例如，摩擦声)和本底噪声。

图4提供了一种可能的语音/暂停检测器16的实施例的方块图。

当在有限数量的信号模型之间进行转换生成含噪声语音信号时，暂停检测器模拟该含噪声语音信号。有限状态器(FSM)64支配模型之间的转换。语音/暂停判定与对当前信号的测量结果和其它适当的状态变量一起是FSM的当前状态的函数。状态之间的转换是当前FSM状态和对当前信号的测量结果的函数。

如下所述的测量值用来确定驱动信号状态状态器64的二进制值参数。通常，这些二进制值参数是通过将适当的实测量值与自适应的阀值进行比较来确定的。由测量模块60提供的信号测量结果量化成如下的信号特性：

1.能量测量判断该信号是高能的还是低能的。这个用E[i]表示的信号能量定义为

E_{i} = \log Σ_{k = 0}^{63} {| G [k] |}^{2}

含噪声语音发声的能量测量例子显示在图5中，其中各个语音样本的幅度由曲线70来表示，相应NS块的能量测量由曲线72来表示。

2.频谱转换测量判断该信号谱在短时间窗上是处在稳定状态还是处在暂态。这个测量是通过确定感知带谱的各个频带的经验平均值和方差来计算的。感知带谱的所有频带的方差之和用作频谱转换的测量。更具体地说，用Ti表示的转换测量计算如下：

感知带谱的每个频带的平均值是通过单极点递归滤波器S_i[k]=α S_i-1[k]+(1-α)S_i[k]来计算的。感知带谱的每个频带的方差是通过递归滤波器

{\hat{S}}_{i} [k] = a {\hat{S}}_{i - 1} [k] + (1 - a) (S_{i} [k] - {\hat{S}}_{i} [k])^{2}

来计算的。选择滤波参数α在相对较长的时间间隔，例如，10-12个噪声抑制块，上进行平滑。

总方差是作为每个频带的方差之和

σ_{i}^{2} = Σ_{k = 0}^{15} \hat{S_{i}} [k]

计算出来的。请注意，当感知带谱偏离其长时间平均值并不太大时，σ_i ²本身的方差将是最小的。由此得出，频谱转换的合理测量是б_i ²的方差，其值计算如下：

自适应时间常数ω_i由下式给出：

通过采用时间常数，频谱转换测量适当地追踪信号处于稳定状态的那一部分。含噪声语音发声的频谱转换测量的例子显示在图6中，其中各个语音样本的幅度由曲线74来表示，相应NS块的能量测量由曲线75来表示。

3.用SS_i表示的频谱相似性测量测量当前信号谱与估计噪声谱之间的相似程度。为了定义频谱相似性测量，我们假定，由N_i[k]表示的、噪声的感知带谱的对数估计值是可用的(下面结合对噪声谱估值器的讨论给出N_i[k]的定义)。然后，频谱相似性测量定义为

{SS}_{i} = Σ_{k = 0}^{15} &Verbar; \log S_{i} [k] - N_{i} [k] |

含噪声语音发声的频谱相似性测量的例子显示在图7中，其中各个语音样本的幅度由曲线76来表示，相应NS块的能量测量由曲线78来表示。请注意，频谱相似性测量的低值对应于高相似的频谱，而较高的频谱相似性测量值则对应于不相似频谱。

4.能量相似性测量判断当前信号能量

E_{i} = \log Σ_{k = 0}^{63} &Verbar; G [k] |^{2}

是否与估计的噪声能量相似。这是通过将信号能量与阈值应用模块62所施加的阈值相比较来确定的。实际阈值由阈值计算处理器66计算出来，阈值计算处理器可以由一个微处理器组成。

二进制参数通过由S[k]表示信号谱的当前估计值、由Ei表示信号能量的当前估计值、由N_i[k]表示对数噪声谱的当前估计值、由N_i表示噪声能量的当前估计值和由

{\hat{N}}_{i}

表示噪声能量估计值的方差来确定。

参数high_Low_energy表示信号是否含有高能成分。高能是相对于本底噪声的估计能量定义的。它是通过估计当前信号帧中的能量并应用到阈值中计算出来的。其值定义如下：

high_Low_enery=1 E_i＞E_t

0 E_i≤E_t

这里，E是由

E_{i} = \log Σ_{k = 0}^{63} | G [k] |^{2}

定义的，E_t是一个自适应阈值。

参数transition表示当信号谱正在经历转换的时候。它是通过从谱的平均值观察当前短时间谱的偏差来测量的。

从数学上，它定义为：

Transition=1 T_i＞T_t

0 T_i≤T_t

这里，T是在前一部分定义的频谱转换测量，T_t是下文将要作更详细描述的自适应计算的阈值。

参数Spectral_similarity测量当前信号谱与估计噪声谱之间的相似性。它是通过计算当前信号的对数谱与噪声的估计对数谱之间的距离来测量的。

Spectral_similarity=1 SS_i＜SS_t

0 SS_i≥SS_t

这里，SS_i如上所述，SS_t是下面将要讨论的阈值(例如，一个常数)。

参数energy_similarity测量当前信号的能量与估计噪声能量之间的相似性。

energy_similarity=1 E＜ES_t

0 E≥ES_t

这里，E由

E_{i} = \log Σ_{k = 0}^{63} &Verbar; G [k] {&Verbar;}^{2}

定义，ES_t是下面将要确定的自适应计算的阈值。

如上所述的变量都是通过将一个数与一个阈值进行比较来计算的。前面三个阈值反应了动态信号的特性，它们将依赖于噪声的特性。这三个阈值是估计平均值与标准偏差的和积的和值。关于频谱相似性测量的阈值并不依赖于噪声的具体特性，可以将它设置成一个常值。

高/低能阈值是由阈值计算处理器66(图4)按照

E_{i} = {\bar{E}}_{i - 1} + 2 \sqrt{{\hat{E}}_{i - 1}}

计算出来的，这里，定义的经验方差， E₁是由 E₁=γ E_i-1+(1-γ)E_i定义的经验平均值。

能量相似性阈值是通过下式计算出来的：

请注意，在本例中，能量相似性阈值的增长率是受到因子1.05限制的。这样确保了高噪声能量不能对阈值产生不成比例的影响。

频谱转换阈值是按照T_t=2N_i来计算的。频谱相似性阈值是具有SS_t=10量值的常数。

模拟含噪声语音信号的信号状态状态器更详细地显示在图8中。其状态转换是受前一部分所描述的信号测量结果支配的。信号状态是单元80所示的低能稳定状态、单元82所示的暂态和单元84所示的高能稳定状态。在低能稳定状态期间，没有频谱转换发生，信号能量在阈值以下。在暂态期间，发生了频谱转换。在高能稳定状态期间，没有频谱转换发生，信号能量在阈值之上。状态之间的转换是受上面所述的信号测量结果支配的。

状态器转换过程列在表1中。表1

转换	输入
初态→末态	输入		转换值	高/低能
1→1	0	0
1→2	1	X
1→2	0	1
2→1	0	0
2→2	1	X

2→3	0	1
3→2	1	X
3→2	0	0
3→3	0	1

在此表中，“X”意味着“任意值”。注意，对任何测量结果都确保状态转换。

由检测器16(图1)提供的语音/暂停判定依赖于信号状态状态器的当前状态和结合图4所描述的信号测量结果。语音/暂停判定是受如下的伪码(暂停：dec=0；语音：dec=1)支配的。

Dec=1；
if spectral_similarity=1
       dec=0；
elseif durrent_state=1
    if energy_similarity=1
       dec=0
       end

  end

噪声谱是由噪声参数估计模块68(图4)在分类为暂停的帧期间利用公式N_i[k]=βN_i[k]+[1-β]log(S_i[k])估计出来的，这里β是在0与1之间的常数。噪声能量的当前估计值 N_i和噪声能量估计的方差N_i定义如下：

N_i=λ N_i-1[k]+(1-λ)log(E_i)₁

{\hat{N}}_{i} = λ {\hat{N}}_{i - 1} [k] + (1 - λ) {({\bar{N}}_{i} - \log (E_{i}))}^{2},

这里，滤波常数λ被选择成在10-20个噪声抑制块上求平均值。

频谱增益可以通过现有技术中各种各样众所周知的方法来计算。与当前处理适合得好的一种方法包括将信噪比定义为SNR[k]=c^*(log S_u[k]-N_i[k])，这里，c是常数，S_u[k]和N_i[k]定义如上。增益的噪声依赖成分定义为

γ_{N} = - 10 * \underset{k}{Σ} N [k]

瞬时增益是按照G_ch[k]=10^{γx+C2(SNR[K]-6))/20}来计算的。一旦瞬时增益已经计算出来，就利用单极点平滑滤波器G_s[k]=βG_s[k-1]+(1-β)G_ch[k]对其进行平滑，这里，向量G_s[k]是时刻t的平滑信道增益向量。

一旦目标频率响应已经计算出来，必须将它应用到含噪声语音中。这对应于修改含噪声语音信号的短时间谱的(随时间变化)滤波操作。结果是噪声得到抑制的信号。与当前的实践不同，这种频谱修改并不需要被应用在频域中。的确，频域处理可能存在如下缺点：

1.可能变得毫无必要的复杂

2.可能导致低质量的噪声抑制语音

频谱成形的时域处理具有成形滤波的脉冲响应并不需要线性相位的额外优点。此外，时域处理消除了由于循环卷积引起的赝信号的可能性。

本文所述的频谱成形技术包括用来设计与其应用一起处理噪声抑制频率响应的不太复杂滤波器的方法。这种滤波器是由AR频谱成形模块24(图1)根据AR参数计算处理器22所提供的参数来提供的。

由于所希望的频率响应对于相对少的片段是分段恒定的，如图9所示，因此，其自相关函数可以以闭合形式有效地确定下来。给定自相关系数，近似于分段恒定频率响应的全极点滤波器可以得以确定。这种方法具有几方面优点。首先，与分段恒定频率响应有关的频谱不连续性得以消除。其二，与FFT块处理有关的时间不连续性也得以消除。第三，由于成形是应用在时域中的，因此，并不需要逆DFT。给定全极点滤波器的低阶，这样可以提供定点处理上的优点。

这样的频率响应可以用数学表达式表示为

H (ω) = Σ_{i = 1}^{N_{c}} G_{s} &Verbar; k &Verbar; l (ω, ω_{k - 1}, ω_{k})

这里，G_s[k]是平滑的信道增益，它设置第i个分段恒定片段的幅度，I(ω，ω_i-1，ω_i)是由频率ω_i-1和ω_i限定的间隔的指示函数，即，当ω_i-1＜ω＜ω_i时，I(ω，ω_i-1，ω_i)等于1，否则，等于0。自相关函数是H²(ω)的逆付里叶变换，即：

R_{hh} (n) = 2 Σ_{i = 1}^{N_{c}} (i_{s}^{2} [k] \frac{\sin (γ_{i} n) \cos (β_{i} n)}{πn})

这里，γ_i=(ω_i-ω_i-1)和β_i=(ω_i-1+ω_i)/2。通过查阅有关sin(γ_in)cos(β_in)/πn的数值表可以容易地对其进行处理。

给定上面所陈述的自相关函数，频谱的全极点模型可以通过求解正规方程来确定。所需的矩阵求逆可以通过，例如，Levinson/Durbin逆归法有效地计算出来。

利用十六阶滤波的全极点模拟的有效性的例子显示在图10中。可以看出，频谱不连续性已经得到平滑。很显然，通过提高全极点滤波器的阶数可以使模型变得更加准确。但是，十六的滤波阶数在合理的计算价格上提供了很好的性能。

为了提供频谱成形的输出信号，由AR参数计算处理器22计算的参数所提供的全极点滤波器应用到AR频谱成形模块24中的含噪声输入信号的当前块中。

现在，应该体会到本发明提供了带有各种独特特征的应用于噪声抑制的方法和设备。具体地说，本发明提供了由用来模拟输入信号的状态器组成的语音灵敏检测器。这个状态器由从输入信号得到的各种测量结果来驱动。这种结构产生了不太复杂但精度较高的语音/暂停判定。另外，噪声抑制频率响应是在频域中计算出来的但应用于时域之中。这样具有消除时域不连续性的效应，这种时域不连续性可能出现在应用于频域中的噪声抑制频率响应的“基于块”的方法之中。此外，利用确定噪声抑制频率响应的自相关函数的新颖方法设计噪声抑制滤波器。然后，这种自相关序列用来生成全极点滤波器。在一些情况下，这种全极点滤波器对实现频域方法是不太复杂的。

尽管通过结合本发明的具体实施例已经对本发明进行了说明，但应该明白，对其所作的各种修改和变动均不偏离权利要求书所述的本发明的范围。

Claims

1．一种用来抑制在携带噪声和语音组合的输入信号中的噪声的方法，包括下列步骤：

将所述输入信号划分成若干信号块；

处理所述信号块以提供所述输入信号的短时间感知带谱的估计值；

在不同的时间点上判断所述输入信号只携带噪声还是语音和噪声的组合，和当输入信号只携带噪声时，利用输入信号的相应估计的短时间感知带谱修正噪声的长时间感知带谱的估计值；

根据所述噪声的长时间感知带谱的估计值和输入信号的估计短时间感知带谱确定噪声抑制频率响应；和

根据所述噪声抑制频率响应成形输入信号的当前块。

2．如权利要求1所述的方法，进一步包括下面步骤：

在所述处理步骤之前预滤波所述输入信号以加强其中的高频成分。

3．如权利要求2所述的方法，其中所述处理步骤包括下列步骤：

将离散付里叶变换应用到信号块中以提供每块的频域复值表示；

将信号块的频域表示转换成只有幅度的信号；

在穿过几个分离的频带上对只有幅度的信号求平均以提供所述长时间感知带谱估计值；和

平滑感知带谱中的时间变化以提供所述短时间感知带谱估计值。

4．如权利要求3所述的方法，其中所述噪声抑制频率响应是在所述成形步骤中利用全极点滤波器进行模拟的。

5．如权利要求1所述的方法，其中所述噪声抑制频率响应是在所述成形步骤中利用全极点滤波器进行模拟的。

6．如权利要求1所述的方法，其中所述处理步骤包括下列步骤：

将信号块的频域表示转换成只有幅度的信号；

7．一种用来抑制在携带噪声和语音的组合的输入信号中的噪声的设备，包栝：

信号预处理器，用来将所述输入信号划分成若干块；

快速付里叶变换处理器，用来处理所述的块以提供所述输入信号的频域复值谱；

累加器，用来将所述频域复值谱累加成由不等宽频带组成的长时间感知带谱；

滤波器，用来滤波长时间感知带谱以生成由所述长时间感知带谱的当前片段加噪声组成的短时间感知带谱的估计值；

语音/暂停检测器，用来判断所述输入信号只是当前噪声，还是语音和噪声的组合；

噪声谱估值器，用来当输入信号只是噪声时，响应所述语音/暂停检测电路，根据输入信号的短时间感性带谱修正噪声的长时间感知带谱的估计值；

频谱增益处理器，用来响应所述噪声谱估值器确定噪声抑制频率响应；和

频谱成形处理器，用来响应所述频谱增益处理器成形输入信号的当前块来抑制其中的噪声。

8．如权利要求7所述的设备，其中所述频谱成形处理器包括全极点滤波器。

9．如权利要求8所述的设备，其中所述信号预处理器预滤波所述输入信号以加强其中的高频成分。

10．如权利要求7所述的设备，其中所述信号预处理器预滤波所述输入信号以加强其中的高频成分。

11．一种用来抑制在携带噪声和音频信息的组合的输入信号中的噪声的方法，包括下列步骤：

在频域中对所述输入信号计算噪声抑制频率响应；和

将所述噪声抑制频率响应应用到时域中的所述输入信号中以抑制输入信号中的噪声。

12．如权利要求1所述的方法，进一步包括在计算所述输入信号的噪声抑制频率响应之前将所述输入信号划分成若干块的步骤。

13．如权利要求12所述的方法，其中所述噪声抑制频率响应是通过由确定噪声抑制频率响应的自相关函数所产生的全极点滤波器应用到所述输入信号中的。

14．如权利要求11所述的方法，其中所述噪声抑制频率响应是通过由确定噪声抑制频率响应的自相关函数所产生的全极点滤波器应用到所述输入信号中的。