CN103370741B

CN103370741B - 处理音频信号

Info

Publication number: CN103370741B
Application number: CN201280009189.XA
Authority: CN
Inventors: K.V.索伦森; J.d.V.佩纳
Original assignee: Skype Ltd Ireland
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2011-02-16
Filing date: 2012-02-16
Publication date: 2016-10-12
Anticipated expiration: 2032-02-16
Also published as: GB201102704D0; EP2663979A1; EP2663979B1; GB2490092B; WO2012110614A4; GB2490092A; WO2012110614A1; CN103370741A; US20120207327A1; US8804981B2

Abstract

一种降低在声学***的处理级接收到的信号中的噪声的方法，所述方法包括，在所述处理级：识别在其处所述声学***的***增益高于所述声学***的平均***增益的至少一个频率；针对所述至少一个频率提供用于降低所述信号中的噪声的噪声衰减系数，针对所述至少一个频率的所述噪声衰减系数基于针对该频率的所述***增益；以及将所述噪声衰减系数应用于所述信号在该频率处的分量。

Description

处理音频信号

技术领域

本发明涉及处理音频信号，特别是但不完全在近端设备与远端设备之间的通信会话的情况下。

背景技术

通信***允许用户通过网络彼此通信。所述网络可以是例如因特网或公用交换电话网(PSTN)。音频信号能够在网络的节点之间被传送，以便允许用户通过通信***在通信会话中向彼此传送和接收音频数据(例如，语音数据)。

用户设备可以具有音频输入装置，诸如能够被用来接收诸如来自用户的语音这样的音频信号的话筒。用户可以进入与另一用户的通信会话，诸如私人呼叫(在呼叫中仅有两个用户)或会议呼叫(在呼叫中有两个以上的用户)。用户的语音在话筒处被接收、处理并且然后通过网络被传送到呼叫中的其他用户。

像来自所述用户的音频信号一样，话筒还可以接收诸如背景噪声之类的其他音频信号，其是不需要的并且可以干扰从用户接收到的音频信号。

用户设备还可以具有音频输出装置，诸如用于将在呼叫期间从远端用户通过网络接收到的音频信号输出到近端用户的扬声器。这样的扬声器还能够被用来输出来自在用户设备处被执行的其他应用的音频信号，并且所述音频信号能够通过话筒作为将干扰来自近端用户的语音信号的不需要的音频信号而被拾取。

此外，在房间中可能存在其它不需要的噪声的源，诸如冷却风扇、空调***、在背景中播放的音乐以及键盘轻敲。所有这样的噪声都能够促成对在话筒处从近端用户接收以供在呼叫中传输到远端用户的音频信号的干扰。

为了提高信号的质量，诸如以供在呼叫中使用，期望抑制在用户设备的音频输入装置被接收的不需要的音频信号(背景噪声和从用户设备输出的不需要的音频信号)。各种噪声降低技术因这个目的而闻名，包括例如频谱相减(例如，如S. F. Bool IEEE Trans. Acoustics, Speech, Signal Processing (1979), 27(2):, 第113-120页论文“suppression of acoustic noise in speech using spectral subtraction”中所描述的那样)。

能够出现在声学***中的另一困难是“啸叫(howling)”。啸叫是由***中的声学反馈引起的不需要的效应。它可以是由许多因素造成的并在***增益是高的时出现。

本发明的目标是在不必妨碍在音频信号处理中使用的噪声降低技术的感知质量的最佳化的情况下减少啸叫。

发明内容

根据本发明的一个方面，提供了降低在声学***的处理级接收到的信号中的噪声的方法，所述方法包括，在所述处理级：

识别使所述声学***的***增益高于所述声学***的平均***增益的至少一个频率；

针对所述至少一个频率提供用于降低所述信号中的噪声的噪声衰减系数，针对所述至少一个频率的所述噪声衰减系数基于针对该频率的***增益；以及

将所述噪声衰减系数应用于所述信号在该频率处的分量。

在所描述的实施例中，识别使所述声学***的***增益高于所述声学***的平均***增益的至少一个频率的步骤通过估计所述声学***对于所接收到的信号中的多个频率中的每一个的相应***增益而被执行。这允许引起较高***增益的一个或多个频率被识别。在这种情况下，没必要实际计算平均***增益 – 最高***增益高于平均值将是明显的。

替换地，能够基于包括处理级的设备的已知特性来识识所述频率。例如，可能明显的是，设备(例如，扩音器)的特定分量具有将引起啸叫的问题谐振频率。

替换地，不是估计***增益，而是该***增益实际上能够被测量。例如，能够基于回声路径来估计或者测量***增益。在本文中对“***增益”的参考包含估计的***增益和/或测量的***增益。

尽管可以通过衰减很可能使声学***先倾向于啸叫的仅一个频率而从本发明中获得利益，但是如果针对所接收到的信号中的多个频率中的每一个计算了声学***的相应***增益、并且针对所述多个频率中的每一个提供噪声衰减系数则是特别有利的。在那种情况下，每个噪声衰减系数能够被应用于所述信号在该频率处的相应分量。以这种方式，能够考虑声学***的***增益频谱。

在所描述的实施例中，所述多个频率中的每一个都位于频带中，并且针对每个频率的***增益和噪声衰减系数在包含该频率的整个频带上被应用。在实际的实施例中，范围0至8 KHz内的频率在相等宽度的64或32个带上被处理。

本发明在处理级接收到的信号是来自用户的语音的情况下是特别有用的。在那种情况下，语音在时间间隔例如帧中被处理，并且针对每个帧中的所述多个频率中的每一个提供了相应的***增益和噪声衰减系数。

***增益能够通过乘以在***中应用的所有增益而被估计，所述所有增益包括能够被估计或者预先确定的回声路径中的增益。

在描述的实施例中，针对每个频率所提供的噪声衰减系数被选择为第一噪声衰减系数和第二噪声衰减系数中的最大值。在那种情况下，能够基于所述信号的信号加噪声与噪声之比来计算第一噪声衰减系数，而第二噪声衰减系数可以是基于***增益的可变最小增益系数。在本发明的该实施例中，本发明的效果仅仅在具有较低的信号加噪声与噪声之比的信号分量处被感觉到，其中可变最小增益系数被作为不同频率的噪声衰减系数来提供。对于具有较高的信号加噪声与噪声之比的分量，噪声衰减系数以使噪声衰减随着信号加噪声与噪声之比增加而平缓地降低的方式被计算并提供，从而在没有任何显著降低或均衡的情况下留下近端语音。

可变最小增益系数可以是基于根据选择最大***增益与平均***增益的比值和至少一个预定值中的最小值的函数的***增益的。所述函数能够被乘以恒定最小增益系数。

本文中所讨论的噪声降低方法能够被应用于已在通信网络中从远端接收到的播出用信号上，或者被部分地应用于远端信号上并且部分地应用于在近端(例如，通过在用户设备处的音频输入装置)接收到的信号上。

本发明还在另一方面提供声学***，其包括：

音频输入装置，其被布置成接收信号；

信号处理级，其被连接以从所述音频输入装置接收所述信号；所述信号处理级包括：

用于识别使所述声学***的***增益高于所述声学***的平均***增益的至少一个频率的装置；

用于针对所述至少一个频率提供用于降低所述信号中的噪声的噪声衰减系数的装置，针对所述至少一个频率的噪声衰减系数基于针对该频率的***增益；以及

用于将所述噪声衰减系数应用于所述信号在该频率处的分量的装置。

另一个方面提供用于处理音频信号的信号处理级，所述信号处理级包括：

另一方面提供用户设备，所述用户设备包括用于从用户接收音频信号的音频输入装置；

用于处理器所述信号的信号处理级；以及

用于将经处理的信号从所述用户设备传送到远程设备的无线通信装置，所述信号处理级如上面所定义的那样。

根据本发明的另一方面，提供了降低在声学***的处理级接收到的信号中的噪声的方法，所述方法包括，在所述处理级：

针对所接收到的信号中的至少一个频率来估计或者测量所述声学***的相应***增益；

提供用于在该频率处降低所述信号中的噪声的噪声衰减系数，所述噪声衰减系数是基于针对该频率而测量或者估计的***增益的；以及

将所述噪声衰减系数应用于所述信号在该频率处的分量。

优选地，针对所接收到的信号中的多个频率中的每一个来估计或者测量***增益，并且针对所述信号在每个频率处的相应分量来提供并应用相应的噪声衰减系数，针对每个频率的噪声衰减系数是基于针对该频率而估计或者测量的***增益的。

在本发明的以下实施例中，实现了通过噪声衰减由均衡引起的***增益降低的优点，同时适于实际的条件。这意味着对来自房间的***增益频谱的任何声学效果被考虑了。

为了更好地理解本发明以及为了示出本发明可以如何被付诸实施，现将通过示例对以下附图进行参考。

附图说明

图1是通信***的示意图；

图2是用户设备的框图；

图3是噪声衰减技术的示意功能图；

图4是增益相比信号加噪声与噪声之比的图表；以及

图5是最小增益相比***增益与平均***增益之比的图表。

具体实施方式

在本发明的以下描述的实施例中，描述了一种技术，其中：***增益频谱的连续更新估计被应用来使噪声降低方法适于在其中***增益是高的频谱的各部分中应用更多的噪声抑制。通过在其中***增益是高的频谱的各部分中应用较大的噪声抑制，在那些部分上的***增益被降低并且因此对啸叫的鲁棒性被提高。在对本发明的特定实施例进行描述之前，现将参考图1描述其中能够有效地应用本发明的上下文，图1图示了通信***100。

通信***的第一用户(用户A 102)操作用户设备104。用户设备104可以是例如移动电话、电视、个人数字助理(“PDA”)、个人计算机(“PC”) (包括例如Windows^TM、MAC OS^TM以及Linux^TMPC)、游戏设备或能够通过通信***100进行通信的其他嵌入式设备。

用户设备104包括中央处理单元(CPU)108，其可以被配置成执行应用，诸如用于通过通信***100进行通信的通信客户端。该应用允许用户设备104通过通信***100从事呼叫和其他通信会话(例如，即时消息传送通信会话)。用户设备104能够经由网络106通过通信***100进行通信，所述网络106可以是例如因特网或公用交换电话网(PSTN)。用户设备104能够通过链路110将数据传送到网络106，以及从网络106接收数据。

图1还示出了远程节点，用户设备104能够通过通信***100与该远程节点进行通信。在图1中所示出的示例中，远程节点是可由第二用户112使用并且包括CPU 116的第二用户设备114，所述CPU 116能够执行应用(例如，通信客户端)以便以与用户104能够在通信***100中通过通信网络106进行通信的方式相同的方式通过通信网络106通信。用户设备114可以是例如移动电话、电视、个人数字助理(“PDA”)、个人计算机(“PC”) (包括例如Windows^TM、MAC OS^TM以及Linux^TMPC)、游戏设备或能够通过通信***100进行通信的其他嵌入式设备。用户设备114能够通过链路118将数据传送到网络106，以及从网络106接收数据。因此，用户A 102和用户B 112能够通过通信网络106与彼此进行通信。

图2更详细地图示了在近端扬声器的用户设备104。特别地，图2图示了从用户22接收语音信号的话筒20。话筒能够是单个话筒或包括多个话筒并可选地包括波束形成器的话筒阵列。如所知道的那样，波束形成器从话筒阵列中的话筒接收音频信号并处理它们，试图同被感知为来自不需要的方向的信号比较起来改进在所需方向上的信号。这牵涉在所需方向上应用较高的增益。

来自话筒(无论有或没有波束形成器)的信号被应用于信号处理级24。信号处理级24包括多个信号处理块，其中的每一个都能够用硬件或软件或如被认为适当的其组合实现。所述块能够包括例如数字增益块26、噪声衰减块28以及回声消除器块30。

扩音器32被提供来提供意在供用户102使用的音频信号34。这样的信号能够来自待输出给用户的远端扬声器，或者能够替换地来自如较早地讨论的用户设备它本身。在其中由扩音器34所输出的信号来自诸如用户112之类的远端用户的情形中，它们能够在被扩音器通过信号处理电路发射之前被处理，并且为了方便起见该扩音器在图2中被示出被连接到信号处理电路24。可选地，它们能够使用在下面所描述的噪声衰减技术来处理。

在信号处理之后，由用户102输入并且由话筒20拾取的信号被传送以用于与远端用户112进行通信。

信号处理电路24进一步包括***增益估计块36。如稍后更详细地讨论的那样，并且不同于已知的***增益估计块，块36考虑***增益频谱的形状来估计***增益。也就是说，***增益随频率而变。对于不同频率的***增益的估计被供应给噪声衰减块28。

啸叫是具有在频率谱中某处具有大于1的***增益的反馈的征兆。通过降低在这个频率处的***增益，啸叫将停止。经常，扩音器、话筒或回声路径中的谐振频率将比平均值更大，并且将是正限制对抗啸叫的鲁棒性的东西。***增益通过考虑在***处理中牵涉的块(包括例如数字增益块、回声消除器以及背景噪声衰减块)来估计，并且特别地，使用在回声消除器衰减块中估计的来自回声路径的信息，所述回声消除器衰减块提供关于设备位于其中的房间的信息。频谱的形状通常为所估计的回声路径所支配，因为回声路径的传递函数包括其中谐振频率常常发生的扩音器的传递函数。在图2中，所估计的回声路径由箭头40表示。

通过估计来自近端侧的***增益频谱贡献，可以获得关于频谱的哪些部分更可能在啸叫效应的生成中占支配地位的知识。当两个相似设备104、114正被用在呼叫中时，这个半边信息在知道频谱的哪一个部分将随着谐振频率将在两个设备上相同而占支配地位方面可以是非常准确的。

供应给噪声衰减块28的***增益频谱的估计被用来修改噪声衰减方法的操作，如在下面所讨论的那样。

信号处理在每帧基础上被执行。帧在长度上例如可以是在5与20毫秒之间并且出于噪声抑制的目的被划分成频谱仓(bin)，例如，每帧在64与256个仓之间。每个仓都包含关于在一定频率处或在一定频带中的信号分量的信息。为了处理宽带信号，从0至8 KHz的频率范围被处理、划分成相同宽度的64或32个频带。所述带具有相等宽度是不必要的 – 它们例如能够被调整以更好地反映诸如按Bark级实现的人听力的临界带。

理想地，对于语音，每个帧被实时地处理并且每个帧从***增益块36接收对于每个频率仓的***增益的更新估计。因此每个仓使用特定于该帧的***增益的估计和该仓的频率而被处理。

图3图示了根据一个示例的、噪声衰减增益系数能够如何被计算以考虑***增益的基于频率的估计。

应当了解，图3图示了能够视情况而定用软件实现的各种功能块。可变最小增益计算块42以时间t和频率f生成可变最小增益值min_gain(t, f)。该可变最小增益值像等式1中那样基于***增益system_gain和固定最小增益值min_gain来生成。

min_gain(t, f) = min_gain * f(system_gain(t, f))。

在可变最小计算块中根据一个示例的***增益的函数f(·)如等式2中所给出的那样。

f(system_gain(t,f)) = (min( max( system_gain(t,f) / avg_system_gain(t), 1.25）, 5.25 ) - 0.25 )^-1。

这个函数具有当***增益在当前频带中是高的时降低可变最小增益值min_gain(t,f)的效果。如将从下文中清楚的那样，这在具有最高局部***增益的带中具有更多噪声衰减的效果。

可变最小增益值被供应给噪声衰减增益系数计算块44。这个块计算在时间t和频率f处的噪声衰减增益系数G_noise(t,f)。增益系数G_noise考虑了噪声水平估计N_est和从话筒接收到的信号X，X表示从话筒传入的信号加噪声。

第一噪声衰减增益系数根据等式3来计算。

G_noise(t,f) = (( X(t,f)² - N_est(t,f)²) / X(t,f)²) = ( 1 - (X(t,f)² / N_est(t,f)²)^-1)。

在经典的噪声降低中，诸如例如，如上面示例中的功率谱相减，所估计的干净信号在时间t和频率f处的系数S_est(t,f)被计算为噪声衰减增益乘以信号加噪声的开方系数的平方根 – 也就是说，如其中等式3提供噪声衰减增益系数G_noise的等式4中那样。

S_est(t,f) = sqrt( G_noise(t,f) * X(t,f)²)。

因此，S_est(t,f)表示信号处理以后用于传输到远端的干净信号的最佳估计的系数。

噪声衰减增益系数G_noise能够像等式5中那样被下限以用于提高感知质量。

G_noise(t,f) = max( 1 – (X(t,f)² / N_est(t,f)²)^-1, min_gain(t,f) )。

也就是说，根据等式3所计算的噪声衰减增益系数仅适用于它高于最小增益值min_gain(f,t)的程度。

在现存的噪声降低技术中，最小增益值被固定在min_gain，并且能够取例如约.2的恒定值。相比之下，本发明的实施例像已被描述成为每个频带提供单独的最小增益那样改变最小增益值，使得当针对该带的局部***增益是高的时最小增益值能够被降低。最小增益值是随着时间的推移而被适配的***增益频谱的函数，使得它追踪可能发生在***增益频谱中的任何改变。

通过在噪声降低方法中结合频谱***增益均衡，提供了在没有语音活动的状态下，留下的噪声通过在其中***增益是高的频带中应用更多的噪声降低以及因此降低那些带中的***增益而被均衡。这个在等式5中被示出，等式5指示噪声衰减增益系数G_noise是可变最小增益值和使用信号加噪声与噪声之比而计算的值中的最大值。这在信号加噪声与噪声之比是低的时具有允许较高的噪声降低(较低G_noise)的效果。然而，当信号加噪声与噪声之比是高的时，例如在近端活动的情况下，可变最小增益系数的作用被噪声衰减系数G_noise的常规计算超越，所述常规计算随着信噪比增加而降低噪声衰减。在这样的情况下，近端语音因此在没有显著降低或均衡的情况下被留下。

图4图示了其中最小增益是约.2的恒定值的情况，并且示出了随着信号加噪声与噪声之比增加对于增益系数G_noise的效应。随着G_noise接近1，噪声衰减减少直到它随着信号加噪声与噪声之比增加而几乎为零为止。

图5是示出了最小增益如何根据等式2作为***增益的函数而改变的图表。

Claims

1.一种降低在声学***的处理级接收到的信号中的噪声的方法，所述方法包括，在所述处理级：

识别在其处所述声学***的***增益高于所述声学***的平均***增益的至少一个频率；

针对所述至少一个频率提供用于降低所述信号中的噪声的噪声衰减系数，针对所述至少一个频率的所述噪声衰减系数基于针对该频率的所述***增益；以及

将所述噪声衰减系数应用于所述信号在该频率处的分量；

其中，所述噪声衰减系数下限是可变最小增益值，所述可变最小增益值基于在该频率处的***增益生成。

2.根据权利要求1所述的方法，其中噪声增益因子根据所述***增益的函数而基于所述***增益，所述***增益的所述函数包括选择以下各项中的最小值：

***增益与平均***增益的比值和预定值中的最大值；以及

另外的预定值。

3.根据权利要求2所述的方法，其中，所述噪声衰减系数是基于函数和恒定最小增益值的倍数的所述***增益的。

4.根据权利要求1所述的方法，其中，所述至少一个频率通过以下各项中的至少一个来识别：估计所述声学***对于所述接收到的信号中的多个频率中的每一个的相应的***增益；以及测量***增益；并且

其中，所述多个频率中的每一个都位于频带中，相应的噪声衰减系数被提供用于所述多个频率中的每一个，并且每个噪声衰减系数在包含所述频率的所述频带上被应用；以及

其中，所述***增益基于所述声学***中的回声路径而被估计或者测量。

5.根据权利要求1所述的方法，其中，所述至少一个频率基于包括所述处理级的设备的已知特性而被识别。

6.根据权利要求4所述的方法，其中，所述相应的噪声衰减系数通过基于所述接收到的信号在所述至少一个频率处的信号或信号加噪声与噪声之比来计算第一噪声衰减系数、基于针对该频率的所述***增益来计算第二噪声衰减系数来提供，并且；

提供具有较高值的所述第一和第二噪声衰减系数中的一个。

7.根据权利要求1所述的方法，其中，所述噪声衰减系数适合于功率谱相减。

8.一种用于处理音频信号的信号处理级，所述信号处理级包括：

用于识别使声学***的***增益高于所述声学***的平均***增益的至少一个频率的装置；

用于针对所述至少一个频率提供用于降低所述信号中的噪声的噪声衰减系数的装置，针对所述至少一个频率的所述噪声衰减系数基于针对该频率的所述***增益；以及

用于将所述噪声衰减系数应用于所述信号在该频率处的分量的装置；

9.根据权利要求8所述的信号处理级，其中，噪声增益因子根据所述***增益的函数而基于所述***增益，所述***增益的所述函数包括选择以下各项中的最小值：

***增益与平均***增益的比值和预定值中的最大值；以及

另外的预定值。

10.根据权利要求9所述的信号处理级，其中，所述噪声衰减系数是基于函数和恒定最小增益值的倍数的所述***增益的。

11.根据权利要求8所述的信号处理级，其中，所述至少一个频率通过以下各项中的至少一个来识别：估计所述声学***对于接收到的信号中的多个频率中的每一个的相应的***增益；以及测量***增益；并且

12.根据权利要求8所述的信号处理级，其中，所述至少一个频率基于包括所述处理级的设备的已知特性而被识别。

13.根据权利要求11所述的信号处理级，其中，所述相应的噪声衰减系数通过基于所述接收到的信号在所述至少一个频率处的信号或信号加噪声与噪声之比来计算第一噪声衰减系数、基于针对该频率的所述***增益来计算第二噪声衰减系数来提供，并且；

提供具有较高值的所述第一和第二噪声衰减系数中的一个。

14.根据权利要求8所述的信号处理级，其中，所述噪声衰减系数适合于功率谱相减。

15.一种声学***，其包括：

音频输入装置，其被布置成接收信号；

信号处理级，其被连接以从所述音频输入装置接收所述信号；所述信号处理级是权利要求8－14中任一项的。

16.一种用户设备，其包括：

音频输入装置，其用于从用户接收音频信号；

信号处理级，其用于处理所述信号；以及

无线通信装置，其用于将经处理的信号从所述用户设备传送到远程设备，所述信号处理级是权利要求8至14中任一项的。