CN101727911B

CN101727911B - 噪声抑制装置及噪声抑制方法

Info

Publication number: CN101727911B
Application number: CN2009102055351A
Authority: CN
Inventors: 刘恩彩
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2008-10-24
Filing date: 2009-10-26
Publication date: 2012-07-04
Anticipated expiration: 2029-10-26
Also published as: CN101727911A; KR101088558B1; JP2010102201A; KR20100045934A; JP5526524B2

Abstract

本发明提供一种噪声抑制装置及噪声抑制方法，该噪声抑制装置不产生音乐噪声，而且，即使在音频帧及噪声帧之间切换的情况下，噪声量的变化也很自然。其具有：噪声频谱推定部(20)，其针对K个频带(其中，K为大于或等于2的自然数)，分别推定包含在输入信号中的噪声频谱；噪声抑制增益运算部(30)，其基于该推定结果，计算上述K个频带各自的噪声抑制增益；以及原音附加单元(参照图中标号50·60)，其向第1噪声抑制后信号中以第1比例加上上述输入信号，该第1比例是基于该噪声抑制增益和目标噪声抑制增益的差而确定的，该第1噪声抑制后信号是向上述输入信号中应用上述噪声抑制增益后而得到的。

Description

噪声抑制装置及噪声抑制方法

技术领域

本发明涉及一种噪声抑制装置及噪声抑制方法。

背景技术

当前，提出了下述装置等，即：音频播放装置，其与输入信号对应地驱动扬声器等负载；音频通信装置，其在远离地点间传送音频；以及音频识别装置，其通过对音频的种类等进行区分·识别，从而理解其内容等。在上述各装置中，为了对音频准确地进行播放、传递或者识别等，而优选除去包含在其中的噪声的影响。

作为这样的噪声抑制的技术，已知例如以下的专利文献1及2、以及非专利文献1至5中公开的技术。

专利文献1：日本特开2007-226264号公报

专利文献2：日本特开2005-257748号公报

非专利文献1：Boll，S.，“Suppression of acoustic noise in speechusing spectral subtraction”，IEEE Trans.Vol.ASSP-27，No2，pp.113-120，1979.

非专利文献2：M.Berouti，el al，“Enhancement of SpeechCorrupted by Acoustic Noise”，Proceedings of ICASSP，PP.201-211，1979.

非专利文献3：Lim & Oppenheim，“Enhancement and BandwidthCompression of Noisy Speech”，Proc.IEEE，Vol67，No12，pp.1586-1604，1979

非专利文献4：Y.Ephraim and D.Malah，“Speech EnhancementUsing a Minimum Mean-Square Error Short-Time Spectral AmplitudeEstimator”，IEEE Trans.Vol.ASSP-32，No.6，pp1109-1121，1984.

非专利文献5：“佐

木潤子、田中雅史，[マスキング効果を用いた低歪み雑音低减方法の検討』，信学技報”，EA98-106，pp.37-42，1998

发明内容

上述各文献中公开的技术，基本上与以下方法相关，即，通过适当的方法减去频带的振幅频谱的电平而抑制噪声的方法，即所谓谱减法(Spectral Subtraction)，通过这些中的任一项技术，都可以得到一定的噪声抑制效果。

但是，在这些文献中，仍存在未公开·未解决的课题。

例如，上述谱减法基于下述方式进行，即，推定包含在输入信号中的噪声频谱，从振幅频谱中减去该噪声频谱推定值，但在此情况下，存在很可能产生所谓音乐噪声的问题。这是因为，在这里所说的噪声频谱推定值，不一定反映实际的噪声频谱。即，存在在某频带中，减去噪声频谱推定值后仍残留噪声的情况，另外，存在在其他的频带中，产生削减过度的情况。因此，如果将减去噪声频谱后的振幅频谱向时域进行再变换，则有可能出现将多个具有随机频率的正弦波合成的信号，通过对其进行播放，可能产生非常刺耳的噪声(即，音乐噪声)。

另外，提出了以下技术，即，为了抑制该音乐噪声，进行向减去噪声频谱推定值后的振幅频谱中加上原音的处理(参照上述非专利文献5)。

但是，在该技术中，由于原音附加比例是基于推定输入信号的SNR而确定的，所以存在噪声抑制处理缺乏一些所谓灵活性的缺点。例如，在上述非专利文献5中，由于是将SNR为10～15[dB]作为基准，在SNR大于或等于该基准时，使原音附加比例为0.05，在SNR小于该基准时，使原音附加比例为0.5等这样的方式，与本来期望抑制的或者应抑制的噪声量无关地进行原音附加比例的设定，所以实际上得到的噪声抑制效果中存在一些问题。上述的情况，在上述专利文献2中也存在。

另外，在输入信号中，存在主要由音频占据的部分(音频部分)和几乎没有音频的部分(噪声部分)。

在上述状况下，例如，如上述非专利文献1所示，在对音频部分应用谱减法、对噪声部分应用固定增益，由此抑制噪声的情况下，在该固定增益值过小时，在从噪声部分向音频部分切换的情况下，产生背景噪声量增大的现象，而在固定增益值过大时，相反地，可能产生背景噪声量减小的现象。如果对其进行例如播放，则很可能使收听者感到听觉上的不自然感。

本发明的课题是，提供一种可以解决上述课题中的至少一部分的噪声抑制装置及噪声抑制方法。

为了解决上述课题，本发明所涉及的噪声抑制装置具有：噪声频谱推定单元，其基于输入信号，针对K个频带(其中，K为大于或等于2的自然数)分别推定包含在该输入信号内的噪声频谱；第1增益运算单元，其基于所述噪声频谱推定单元的噪声频谱的推定结果，计算所述K个频带各自的噪声抑制增益；以及原音附加单元，其在向所述输入信号应用所述噪声抑制增益后得到的第1噪声抑制后信号中，以第1比例加上所述输入信号，其中，该第1比例是基于该噪声抑制增益和预先确定的目标噪声抑制增益的差而确定的。

根据本发明，首先，由于原音附加单元向第1噪声抑制后信号中加上输入信号，所以即使发生例如上述由噪声频谱推定值引起的振幅频谱的过度削减的情况，也可以通过该原音对该部分进行所谓补偿，因此，可以非常有效地抑制上述音乐噪声的产生。

而且，在本发明中，由于具有作为原音附加比例的意义的“第1比例”，是基于噪声抑制增益和目标噪声抑制增益的差而确定的，所以实际上得到的噪声抑制效果非常有效。其原因是，在本发明的情况下，如上述的例子所示，该“第1比例”不是单纯地通过SNR推定值和基准值的比较而得到的，而是根据与目标噪声抑制增益的关系确定的，另外，该目标噪声抑制增益可以基于本来期望抑制的或者应抑制的噪声量而设定。

此外，本发明中所称的“目标噪声抑制增益”，可以通过经由在本发明所涉及的噪声抑制装置的外部设置的操作部等而人为地提供，或者也可以通过任意适当的方法自动地运算。

在本发明所涉及的噪声抑制装置中，也可以构成为，还具有第2增益运算单元，其针对所述噪声抑制增益，计算与所述K个频带相关的平均值增益，所述原音附加单元，在向所述输入信号应用所述平均值增益后得到的第2噪声抑制后信号中，以第2比例加上所述输入信号，其中，该第2比例是基于该平均值增益和所述目标噪声抑制增益的差而确定的。

根据该方式，向第2噪声抑制后信号中以“第2比例”加上输入信号。

在这里，在本方式中，使用“平均值增益”是一个特征。对于该平均值增益，是指如果假设上述噪声抑制增益为G(1)、G(2)、…、G(K)，则例如由Gave＝(G(1)+G(2)+…+G(K))/K等计算其平均值增益Gave。另外，如果进一步将输入信号变换至频域而得到的振幅频谱设为Y(1)、Y(2)、…、Y(K)，则频域的输出信号可以由Gave·Y(1)、Gave·Y(2)、…、Gave·Y(K)等而得到(这是本方式中所称的“应用平均值增益后得到的第2噪声抑制后信号”的一个具体例子。)。

因此，首先，只要存在上述的平均值增益，就不会发生例如上述由噪声频谱推定值引起的振幅频谱的过度削减的情况等，所以可以非常有效地抑制音乐噪声的产生。

而且，由于在本方式中，还以基于上述平均值增益和上述目标噪声抑制增益的差而确定的第2比例加上原音，所以可以更有效地得到音乐噪声的抑制效果。

此外，本方式中所称的“向第2噪声抑制后信号中以第2比例加上输入信号”，与上述的“向第1噪声抑制后信号中以第1比例加上输入信号”之间的关系，如下所述。

首先，确认下述概念上的区别，即，“第1噪声抑制后信号”的生成以及“第1比例”的定立这两者与“噪声抑制增益”相关，前者成为基于后者进行的原音附加处理的对象，另一方面，“第2噪声抑制后信号”的生成以及“第2比例”的定立这两者与“平均值增益”相关，前者成为基于后者进行的原音附加处理的对象。

在该前提下，首先，在本发明中下述关系成立，即，如果计算出本方式所称的“平均值增益”，则本发明所涉及的“原音附加单元”仅通过基于该“平均值增益”的“第2比例”进行原音附加，而不通过“第1比例”进行原音附加。即，在此情况下，本方式相对于包含上述“第1比例”的方式，处于所谓优先地位。

或者，在本发明中下述等方式也成立，即，对输入信号中的某部分基于“第1比例”进行原音附加，而对其他部分基于“第2比例”进行原音附加(在此情况下，前者的部分与“第1噪声抑制后信号”相关，后者的部分与“第2噪声抑制后信号”相关。)。

另外，本发明特别地将下述等方式纳入其范围内，即，根据情况的不同，不仅向“第2噪声抑制后信号”基于“第2比例”进行原音附加，而且也向“第1噪声抑制后信号”基于“第2比例”进行原音附加(将上述方式作为本发明的各种方式中的1个，在后面叙述。)。上述情况即包含下述含义，即，也可以向并非基于“平均值增益”而是基于“噪声抑制增益”成立的“第1噪声抑制后信号”中，应用基于“平均值增益”而确定的“第2比例”(根据情况的不同，反之亦然。)。

另外，在本发明所涉及的噪声抑制装置中，也可以构成为，所述原音附加单元计算将所述第1或者第2比例在时间轴上平滑化后的平滑化比例，向所述第1或者第2噪声抑制后信号中以所述平滑化比例加上所述输入信号。

根据该方式，计算将所述第1或者第2比例在时间轴上平滑化后的平滑化比例。因此，该平滑化比例是基于上述“差”而确定出“第1比例”或者“第2比例”，再使它们接受平滑化处理后得到的。此外，所谓“在时间轴上平滑化”是指如果假设计算后的平滑化比例沿时间顺序为OGsmt-T(1)、OGsmt-T(2)、…、OGsmt-T(r)、…(r是适当的整数)，则例如使用适当的平滑化系数δ，作为OGsmt-T(r)＝δ·OGsmt-T(r-1)+(1-δ)·og等而进行计算(其中，og是“第1比例”或者“第2比例”。)。

根据上述内容，由于不会使第1或者第2比例(准确地说是平滑化后的第1或者第2比例。即，本方式所称的“平滑化比例”)随着时间的经过而产生激烈的变化，所以可以维持噪声抑制处理的连续性·一贯性。

此外，在本发明中，如后述所示，优选针对随时间推移而划分的每个帧进行处理，但在此情况下，本方式中所称的“时间轴”，更具体地说，可以假设为在将该帧一个一个地按顺序排列的情况下抽象出的轴。关于这一点的更详细的具体例子，在后述的实施方式、特别是式(7)中进行说明。

另外，与本方式相关，本方式中所称的“第1比例”或者“第2比例”，在后述的实施方式中作为“原音附加率og”，“平滑化比例”作为“原音附加比例OG_t”，分别被具体地说明。

另外，在包含上述“平均值增益”等概念的本发明的方式中，也可以构成为，还具有音频检测单元，其通过随时间推移地对所述输入信号中是否包含音频进行检测，从而将该输入信号区分为包含该音频的音频帧、以及不包含该音频的噪声帧，所述第2噪声抑制后信号是向所述输入信号中相当于所述噪声帧的部分应用所述平均值增益后得到的。

根据该方式，将上述平均值增益向噪声帧应用，更优选仅向噪声帧应用，从而生成第2噪声抑制后信号(然后，该第2噪声抑制后信号接受基于上述第2比例的原音附加处理。)。对于噪声帧，由于比较容易产生音乐噪声，而本方式则针对这一问题而进行平均值增益等的应用，所以可以说是用于获得音乐噪声抑制效果的优选方式之一。

此外，在本方式中，对于“含有”或者“不含有”音频这样的用语，不能理解为所谓绝对的意思。例如，抽象性地假设“全部由音频”占据的帧和“根本不存在音频”的帧这两种形态，针对这两者两极端而进行“音频帧”及“噪声帧”的区分的情况，而且，本方式也不限定于仅以后者为“噪声帧”，除此之外全部为“音频帧”而进行区分的情况。即，本方式即使在认定为“噪声帧”的情况下，也不要求该噪声帧中根本不包含“音频”，本方式中所称的“音频帧”及“噪声帧”的区分，可以以上述2种情况的适当的中间点为基准而进行。

在以上所述的意思中，本方式中所称的“包含”或者“不包含”这样的用语或者本方式所涉及的“音频帧”及“噪声帧”的区分，可以说是相对的。

在该方式中，也可以构成为，所述第1噪声抑制后信号是向所述输入信号中相当于所述音频帧的部分应用所述噪声抑制增益后得到的。

根据该方式，将上述噪声抑制增益向音频帧应用，生成第1噪声抑制后信号(然后，该第1噪声抑制后信号接受基于上述第1比例的原音附加处理。)。该方式可以与之前所述的方式并存，但在此情况下，优选对于音频帧仅使用没有经过平均化处理的所谓通常的噪声抑制增益，而对于噪声帧仅使用经过平均化处理的平均值增益。如果鉴于在音频帧中噪声的存在并不那么明显而在噪声帧中却相反这一情况，则本方式所涉及的处理内容可以得到非常合理的·高效的·有效的噪声抑制效果。

在该方式中，也可以构成为，所述原音附加单元向所述第1噪声抑制后信号中，取代所述第1比例而以所述第2比例加上所述输入信号。

根据本方式，不仅向“第2噪声抑制后信号”基于“第2比例”进行原音附加，也向“第1噪声抑制后信号”基于“第2比例”进行原音附加。即，在此情况下，向并非基于“平均值增益”而是基于“噪声抑制增益”成立的“第1噪声抑制后信号”，以基于“平均值增益”而确定的“第2比例”进行原音附加处理。

根据上述内容，作为原音附加比例而使用的比例与“第2比例”一体化，从而实现处理的高效化等。

另外，在向“音频帧”中应用“噪声抑制增益”而得到“第1噪声抑制后信号”的方式中，也可以构成为，所述原音附加单元在要向所述音频帧所涉及的所述第1噪声抑制后信号中加上所述输入信号的情况下，将针对与该音频帧最接近的噪声帧而已经计算出的所述第2比例，用作该音频帧的所述第1比例，向所述第1噪声抑制后信号中加上所述输入信号。

根据本方式，在音频帧的原音附加处理中，将在其最接近的处理的噪声帧中使用的原音附加比例(即“第2比例”)，作为其原音附加比例(即“第1比例”)而使用。即，在此情况下，其实质是最接近的噪声帧的“第2比例”的值，却假设其为该音频帧的“第1比例”的值。

根据上述内容，在本方式中，使在最接近的噪声帧中执行的噪声抑制处理，在其后的音频帧的噪声抑制处理中沿用，在从噪声帧向音频帧切换的情况下，可以保持噪声抑制处理的一贯性。由此，在该切换的情况下，可以事先防止噪声量急剧变化等现象的发生。

此外，本方式将下述内容作为前提，即，使向第1噪声抑制后信号中以第1比例加上原音，向第2噪声抑制后信号中以第2比例加上原音的方式并存，且，前者与输入信号中的噪声帧相关，后者与音频帧相关。

或者，在向“音频帧”中应用“噪声抑制增益”而得到“第1噪声抑制后信号”的方式中，也可以构成为，所述原音附加单元在要向所述噪声帧所涉及的所述第2噪声抑制后信号中加上所述输入信号的情况下，在计算出临时第2比例后，使用该噪声帧的前一个帧的所述第1或者第2比例，计算将该临时第2比例在时间轴上平滑化后的平滑化比例，将该平滑化比例用作所述第2比例，向所述第2噪声抑制后信号中加上所述输入信号，在要向所述音频帧所涉及的所述第1噪声抑制后信号中加上所述输入信号的情况下，将该音频帧的前一个帧的所述第1或者第2比例用作该音频帧的所述第1比例，向所述第1噪声抑制后信号中加上所述输入信号。

根据该方式，可以适当地确定针对音频帧及噪声帧各自的第1或者第2比例。针对噪声帧，由于计算平滑化比例，因而保持噪声抑制处理的一贯性·连续性，而且，针对音频帧，适当地维持如上述所示的“最接近的噪声帧”中的噪声频谱(即，根据本方式，如果已经设定了针对某个噪声帧的第2比例，则在此之后，只要持续为音频帧，则将该第2比例的值，作为新的第1比例的值而继续维持。)。关于这一点的更详细的具体例子，在后述的实施方式、特别是式(7)时进行说明。

此外，在本方式中，在仅称为“帧”的情况中，包括“音频帧”的情况，以及“噪声帧”的情况。

另外，与本方式相关，本方式中所称的“第1比例”、“第2比例”以及“平滑化比例”等，在后述的实施方式中作为“原音附加率og”或者“原音附加比例OG_t”等分别被具体地说明，在此情况下要注意，前者中的一种称谓与后者中的一种称谓，不存在一对一的对应关系。

另外，在本发明所涉及的噪声抑制装置中，也可以构成为，所述第1或者第2比例是通过以下的式(A)求出的。

og＝max(0，tg-G)…(A)

在这里，og是应计算的第1或者第2比例，tg是所述目标噪声抑制增益，G是所述噪声抑制增益或者所述平均值增益，max(a，b)表示将a及b中较大的那个值返回的函数。

根据本方式，可以适当地计算出第1或者第2比例。关于这一点的更详细的具体例子，在后述的实施方式、特别是式(5)时进行说明。

另一方面，为了解决上述课题，本发明所涉及的噪声抑制方法包含：噪声频谱推定工序，其基于输入信号，针对K个频带(其中，K为大于或等于2的自然数)分别推定包含在该输入信号内的噪声频谱；第1增益运算工序，其基于所述噪声频谱推定工序的噪声频谱的推定结果，计算所述K个频带各自的噪声抑制增益；以及原音附加工序，其在向所述输入信号应用所述噪声抑制增益后得到的第1噪声抑制后信号中，以第1比例加上所述输入信号，其中，该第1比例是基于该噪声抑制增益和预先确定的目标噪声抑制增益的差而确定的。

根据本发明，明确其可以实现与上述的针对本发明所涉及的噪声抑制装置记述的作用效果没有本质不同的作用效果。

在本发明所涉及的噪声抑制方法中，也可以构成为，还包含第2增益运算工序，其针对所述噪声抑制增益，计算与所述K个频带相关的平均值增益，在所述原音附加工序中，在向所述输入信号应用所述平均值增益后得到的第2噪声抑制后信号中，以第2比例加上所述输入信号，其中，该第2比例是基于该平均值增益和所述目标噪声抑制增益的差而确定的。

根据该方式，明确其可以实现与上述的本发明所涉及的噪声抑制装置的各种方式中、针对向第2噪声抑制信号以第2比例加上输入信号的方式记述的作用效果没有本质不同的作用效果。

此外，关于本方式中所称的“向第2噪声抑制后信号中以第2比例加上输入信号”与上述的“向第1噪声抑制后信号中以第1比例加上输入信号”的关系，与上述相同。

另外，在本发明所涉及的噪声抑制方法中，也可以构成为，还包含音频检测工序，其通过随时间推移地对所述输入信号中是否包含音频进行检测，从而将该输入信号区分为包含该音频的音频帧、以及不包含该音频的噪声帧，所述第2噪声抑制后信号是向所述输入信号中相当于所述噪声帧的部分应用所述平均值增益后得到的。

根据该方式，明确其可以实现与上述的本发明所涉及的噪声抑制装置的各种方式中、针对向噪声帧应用平均值增益的方式记述的作用效果没有本质不同的作用效果。

此外，本方式中所称的“含有”或者“不含有”这样的用语的意义，与上述相同。

除上述之外，本发明的更具体化的方式或者由此实现的作用效果，在从下面开始的实施方式的记载中明确记述。

附图说明

图1是表示本发明的实施方式1所涉及的噪声抑制装置的结构的框图。

图2是表示实施方式1所涉及的噪声抑制处理的流程的流程图。

图3是用于说明实施方式1所涉及的噪声抑制处理的内容的说明图。

图4是用于说明现有噪声抑制处理的内容的说明图。

图5是表示本发明的实施方式2所涉及的噪声抑制装置的结构的框图。

图6是表示包含音频信号的情况下的噪声抑制增益G(n)的运算例的曲线图。

图7是表示不包含音频信号的情况下的噪声抑制增益G(n)的运算例的曲线图。

具体实施方式

<实施方式1>

下面，参照图1，说明本发明所涉及的实施方式1。此外，在这里提到的图1，以及以下所参照的各附图(也包含例如图6等的曲线图)中，存在各部分的尺寸比例与实际尺寸相比适当改变的情况。噪声抑制装置1如图1所示，由时间·频率变换部10、噪声频谱推定部20、噪声抑制增益运算部30、噪声期间·噪声抑制增益运算部40、原音附加率运算部50、原音附加增益运算部60、频率·时间变换部70、以及音频检测部80构成。

时间·频率变换部10对时域的输入信号进行傅里叶变换，而变换为频域的信号。优选该傅里叶变换是通过将输入信号随时间推移分成规定数量的帧，且向该帧施加适当的窗口函数而进行的。

上述频域的信号分为振幅频谱及相位频谱，将其中的相位频谱直接向后述的频率·时间变换部70发送。另一方面，将振幅频谱向后述的噪声频谱推定部20以后的各部分输送，接受后述的各种处理。

还将上述时域的输入信号向音频检测部80供给。音频检测部80对该输入信号中有无音频信号进行检测。如上述所示，在将输入信号分成帧的情况下，针对每个帧进行音频检测(此外，在实施方式1中，将这种处理作为前提。)。在这里，所谓“音频”，特别指会话、口语、音乐、各种信号等对于人来说有意义的声音。即，以下关系成立，在将输入信号通过适当的播放单元进行播放的情况下，如果播放该输入信号中的“音频信号”，则成为该声音。

对于该音频信号，是将例如下述条件作为基准而进行检测的，即，输入信号的电平是否超过预先确定的阈值。但是，本发明除此之外还可以采用各种方法。例如，可以采用使用概率·统计的方法推定音频信号的产生概率的方法等，或者，也可以采用不使用上述输入信号，而使用其傅里叶变换后的信号(即，上述所称的频域的信号)作为检测对象的方法等。

此外，以下，有时分别将通过该音频检测部80判定为存在音频信号的帧称为“音频帧”，将判定为不存在音频信号的帧称为“噪声帧”。此外，在这里，存在·不存在不具有所谓绝对的意义。如上述所示，既然是以规定的阈值为基准，对音频信号的有无进行判断，所以严格来讲，不排除在“噪声帧”中包含被称为音频信号的部分的可能性。

噪声频谱推定部20基于上述振幅频谱，计算噪声频谱的推定值。在实施方式1中，特别地，基于以下的式(1)，针对被分割为规定个数的频带分别推定噪声频谱。

[式1]

N_{t} (n) = \{\begin{matrix} {βN}_{t - 1} (n) + (1 - β) Y (n); & case \cdot A \\ N_{t - 1} (n); & case \cdot B \end{matrix} . . . (1)

在这里，N_t(n)是当前处理中某帧的噪声频谱推定值，N_t-1(n)是其前一帧的噪声频谱推定值(因此，“t”是表示当前处理中的帧自身的下标)，Y(n)是输入的振幅频谱，n是频带(对频带标注的编号。此外，频带被分割为N个。此外，该N小于或等于本发明中所称的“K个频带”中的K(＝N≤K)。)，β是平滑化系数。另外，在式(1)中，case·A表示噪声频谱推定部20处理噪声帧的情况，case·B表示其处理音频帧的情况。

如上述所示，噪声频谱推定部20与当前处理的帧是噪声帧还是音频帧对应地，变更为了计算噪声频谱推定值N_t(n)而使用的公式。即，在音频帧处理时(case·B)，直接使用其前一个噪声频谱推定值，求出噪声频谱推定值N_t(t)，在噪声帧处理时(case·A)，通过使输入的振幅频谱在时间轴上平滑化，计算噪声频谱推定值N_t(n)。

噪声抑制增益运算部30基于上述振幅频谱和通过式(1)求出的噪声频谱推定值N_t(n)，计算噪声抑制增益。在实施方式1中，特别地，通过以下的式(2)计算噪声抑制增益。

[式2]

G (n) = \max (0, \frac{Y (n) - N_{t} (n)}{Y (n)}) . . . (2)

在这里，max(a，b)表示将a和b中较大的那一个的值返回的函数(以下相同。)。

通过该式(2)，在输入的振幅频谱Y(n)与所对应的噪声频谱推定值N_t(n)之间，Y(n)＜N_t(n)成立的情况下，G(n)＝0，在Y(n)＞N_t(n)成立的情况下，G(n)＝(Y(n)-N_t(n))/Y(n)。

将通过该噪声抑制增益运算部30计算出的噪声抑制增益，分别与通过上述音频检测部80区分的音频帧及噪声帧对应地，经由噪声期间·噪声抑制增益运算部40或者直接向原音附加增益运算部60供给。图1所示的噪声抑制装置1，具有用于实现上述处理的开关(参照图中的弧线箭头)。

噪声期间·噪声抑制增益运算部40(以下，为了简单，也称为“噪声期间用增益运算部40”。)，计算应向噪声帧应用的噪声抑制增益。在实施方式1中，为了计算该噪声抑制增益而采用以下方法。

首先，基于通过式(2)求出的噪声抑制增益G(n)，计算由以下的式(3)表示的g。

[式3]

g = \frac{1}{N} Σ_{n = 0}^{N - 1} G (n) . . . (3)

从式(3)的右边明确可知，该g表示式(2)的噪声抑制增益的与频带n相关的平均值。

接下来，通过以下的式(4)，使该式(3)的噪声抑制增益平均值g平滑化。

[式4]

G_t＝μG_t-1+(1-μ)g……(4)

在这里，μ是平滑化系数，G_t是针对当前处理中的噪声帧的噪声抑制增益，G_t-1是针对其前一个处理的噪声帧的噪声抑制增益。

上述式(1)中的作为case·A而示出的式子也是如此，但在该式(4)中，由于在计算当前处理中的帧的噪声抑制增益时，参照其前一个处理的帧的噪声抑制增益，所以可以说在时间轴上进行了平滑化(对于后述的式(7)也相同。)。

该式(4)中的G_t，是应在本噪声期间用增益运算部40中求出的、用于向噪声期间应用的噪声抑制增益(以下，为了简单，也称为“噪声期间用增益”。)。

噪声期间用增益运算部40将按照上述方式求出的噪声期间用增益G_t，统一应用于全部频带。以下，为了表示该情况，将该统一应用的G_t，表示为G1(n)。在此情况下，G1(0)、G1(1)、…、G1(N-1)，全部都等于G_t。

原音附加率运算部50计算与噪声抑制后的信号相对的原音信号的原音附加率。在实施方式1中，特别地，基于以下的式(5)计算该原音附加率og。

[式5]

og＝max(0，tg-G_t)……(5)

在这里，tg是目标噪声抑制增益，是基于以下的式(6)而求出的。

[式6]

tg = 10^{\frac{- TG}{20}} . . . (6)

该式(6)中的TG是目标噪声抑制量，以dB为单位。该TG(或者tg)通过从装置外部经由未图示的操作部等而人为地提供，或者，也可以通过任意适当的方法自动地运算。

根据以上的式(5)，在目标噪声抑制增益tg和噪声期间用增益G_t之间，tg＜G_t成立的情况下，og＝0，在tg≥G_t成立的情况下，og＝tg-G_t。

原音附加增益运算部60基于上述原音附加率og，计算原音附加后的噪声抑制增益。在实施方式1中，为了计算该噪声抑制增益而采用以下方法。

首先，基于通过式(5)求出的原音附加率og，计算由以下的式(7)表示的OG_t。

[式7]

{OG}_{t} = \{\begin{matrix} λ {OG}_{t - 1} (n) + (1 - λ) og; & case \cdot A \\ {OG}_{t - 1}; & case \cdot B \end{matrix} . . . (7)

在这里，OG_t是当前处理中的帧的原音附加比例。OG_t-1是其前一个帧的原音附加比例，λ是平滑化系数。此外，式(7)中的case·A及case·B的含义，与上述式(1)的情况相同(在以下的式(8)中也相同。)。

如上述所示，原音附加增益运算部60与当前处理的帧是噪声帧还是音频帧对应地，变更为了计算原音附加比例OG_t而使用的公式。即，在音频帧处理时(case·B)，直接使用其前一个原音附加比例来计算原音附加比例OG_t，在噪声帧处理时(case·A)，通过使上述原音附加率og在时间轴上平滑化来计算原音附加比例OG_t。

接下来，原音附加增益运算部60基于以下的式(8)，计算原音附加后的噪声抑制增益。

[式8]

G 2 (n) = \{\begin{matrix} {OG}_{t} (n) + (1 - {OG}_{t}) \cdot G 1 (n); & case \cdot A \\ {OG}_{t} (n) + (1 - {OG}_{t}) \cdot G (n); & case \cdot B \end{matrix} . . . (8)

在这里，G1(n)如以上说明所示，表示在噪声帧中对所有频带统一应用的噪声期间用增益。

根据该式(8)，与上述式(7)中的情况分别对应地，计算原音附加后的噪声抑制增益G2(n)(以下，为了简单，也称为“修正后增益G2(n)”。)。

图1所示的乘法器11，使按照上述方式求出的修正后增益G2(n)与振幅频谱Y(n)相乘。即，进行S(n)＝G2(n)·Y(n)的运算，其结果是，可以得到最终应得到的噪声抑制后的振幅频谱S(n)。

最后，频率·时间变换部70，基于按照上述方式求出的噪声抑制后的振幅频谱S(n)和从时间·频率变换部10直接供给的相位频谱，生成时域的输出信号。在实施方式1中，由于在时间·频率变换部10中进行傅里叶变换，所以频率·时间变换部70实施傅里叶逆变换。

下面，在已参照过的图1的基础上，参照图2至图4，说明以上所述的实施方式1所涉及的噪声抑制装置1的作用、动作以及效果。

首先，时间·频率变换部10对输入信号实施傅里叶变换，并将其如图1所示分解为振幅频谱Y(n)及相位频谱(图2的步骤S101)。此时，时间·频率变换部10如上述所示，针对每个帧实施处理。

另外，与此并行，音频检测部80对输入信号中是否包含音频信号进行检测(图2的步骤S102)。该检测处理是可以将输入信号区分为音频帧和噪声帧的处理。音频检测部80还进行相关的处理。

然后，噪声频谱推定部20通过上述振幅频谱Y(n)及上述式(1)，针对每个具有规定宽度的频带n，计算出噪声频谱推定值N_t(n)。在此情况下，如上述所示，与当前处理的帧是噪声帧还是音频帧对应地，进行不同的处理(参照图2的步骤S103)。此外，如图2所示，在从该噪声频谱推定值N_t(n)的计算处理以后，直至由图1所示的乘法器11进行的输出信号生成处理(图2的步骤S104)为止的期间，与噪声帧和音频帧之间的区别对应地，展开其内容实质不同的处理。因此，下面，第一、针对噪声帧用的处理，第二、针对音频帧用的处理，分为[I]及[II]进行说明。

此外，上述的分别处理如图1所示，是通过与音频检测部80的检测结果对应的开关的切换而进行的。

[I]首先，在噪声帧用处理中，通过上述式(1)中的作为case·A示出的公式，计算出噪声频谱推定值N_t(n)(图2的步骤S201)。如上述所示，这是通过输入的振幅频谱Y(n)的平滑化处理进行的。

然后，基于上述噪声频谱推定值N_t(n)以及上述式(2)，计算出噪声抑制增益G(n)(图2的步骤S202)。这是通过图1中的噪声抑制增益运算部30的作用而进行的。如上述所示，在Y(n)＞N_t(n)成立的情况下，则成为G(n)＝(Y(n)-N_t(n))/Y(n)，在其不成立的情况下，则成为G(n)＝0。由此，可以得到例如图3(C)所示的噪声抑制增益(此外，分别在图3(B)中例示出上述噪声频谱推定值N_t(n)，在图3(A)中例示出输入信号的振幅频谱。)。

然后，通过上述式(3)及式(4)，得到该噪声抑制增益G(n)的与频带相关的平均值g，且通过进行针对该g的平滑化处理，计算出噪声期间用增益G_t(图2的步骤S203)。该经过平均化·平滑化而获得的噪声期间用增益G_t，成为所有频带共用的G1(n)。这是通过噪声期间用增益运算部40的作用而进行的。

如上述所示，在实施方式1中，其一大特征是，不是将通过式(2)求出的噪声抑制增益G(n)在原状态下直接使用，而是将针对该G(n)进行了式(3)的与频带相关的平均化、以及式(4)的时间轴上的平均化后的噪声期间用增益G_t，作为所有频带用的噪声期间用增益G1(n)而使用。

此外，在图3(D)中，例示出针对噪声抑制增益G(n)进行平均化处理的情况的一个例子(也可参照图3(C)中所示的虚线)。

然后，通过上述噪声期间用增益G_t以及上述式(5)，计算出原音附加率og(图2的步骤S204)。这是通过图1中的原音附加率运算部50的作用而进行的。在这里，目标噪声抑制增益tg乃至目标噪声抑制量TG的设定如何，作为一个主要支配因素起作用。即，如果噪声期间用增益G_t与目标噪声抑制增益tg相比较大，则将原音附加率og设定为0，如果不是这样，则设定与噪声期间用增益G_t对应的原音附加率og(即，og＝tg-G_t)。将这两种情况分开处理的意义在于，确定根据与目标噪声抑制量TG的关系，以何种程度得到通过加上原音而带来的音质改善的效果。即，在后者的情况下，以在通过目标噪声抑制量确定的框内(即，tg和G_t的差所对应的部分)加上原音，实现音质改善为主要目的，在前者的情况下，由于G_t＞tg成立，已经没有改善音质的余地，所以将原音附加率og设为0(在此情况下，由此反而抑制了噪声量增多)。结果，上述式(5)及式(6)存在实现下述处理的意义，即，在以遵守目标噪声抑制量为基准，此外，存在附加原音的余地的情况下，在该框内实现音质的改善。

如上述所示，在实施方式1中，其一大特征是，原音附加率og是通过使用噪声期间用增益G_t而求出的。

然后，通过上述原音附加率og以及上述式(7)中的作为case·A示出的公式，计算出原音附加比例OG_t(图2的步骤S205)。该原音附加比例OG_t如上述所示，是通过将原音附加率og在时间轴上平滑化而求出的。然后，通过按照上述方式求出的原音附加比例OG_t以及上述式(8)，计算出原音附加后的噪声抑制增益，即修正后增益G2(n)。以上是通过原音附加增益运算部60的作用而进行的。

在此情况下，该修正后增益G2(n)最终具有下述意义，即，是在考虑了上述经过平均化·平滑化的噪声期间用增益G1(n)和原音附加的程度的基础上确定的增益。

此外，优选将装置刚起动后的情况考虑在内，适当地确定作为与上述式(1)中的N_t-1(n)对应的值的初始值(作为上述初始值的N_t-1(n)，当然，也可以在后述的音频帧用处理中的噪声频谱推定值N_t(n)的计算处理中使用。)。上述式(4)、式(7)中的G_t-1(n)也与此相同。

[II]另一方面，在音频帧用处理中，基本上执行与上述噪声帧处理大致相同的各处理。即，计算出噪声频谱推定值N_t(n)及基于其的噪声抑制增益G(n)(参照图2的步骤S301·S202)，基于原音附加比例OG_t计算出修正后增益G2(n)(图2的步骤S303·S304)，这些与噪声帧处理相同。

但是，在该音频帧处理中，与噪声帧处理相比，存在以下所述的不同或者注意点。

(i)噪声频谱推定值N_t(n)不是通过上述式(1)中的作为case·A示出的公式求出的，而是通过作为case·B示出的公式求出的(图2的步骤S301)。由于该式为N_t(n)＝N_t-1(n)，所以可以说音频帧处理是所谓维持现状的处理。再稍微详细地说，在该音频帧之前是噪声帧的情况下，将对该噪声帧计算出的噪声频谱推定值N_t-1(n)，直接在该音频帧处理中使用，另外，另一方面，在该音频帧之前是音频帧、且在该之前的音频帧之前是噪声帧的情况下，将对该噪声帧计算出的噪声频谱推定值N_t-2(n)，直接在该音频帧处理中使用等。

总之，在音频帧中，使用对最接近的噪声帧计算出的噪声频谱推定值N_t-p(n)(p是从该音频帧的前一个帧开始数，直至该最接近的噪声帧为止的帧数(包含两端))。

(ii)在使用上述式(7)进行的原音附加比例OG_t的计算处理中，也可以说是与此相同的。即，由于式(7)中的作为case·B示出的公式为OG_t＝OG_t-1，所以在此情况下，在音频帧处理中，还是所谓维持现状(参照图2的步骤S303)。

如果使表达与上述情况一致，则在音频帧中，使用对最接近的噪声帧计算出的原音附加比例OG_t-p(n)(p为从该音频帧的前一个帧开始数，直至该最接近的噪声帧为止的帧数(包含两端))。

(iii)噪声抑制增益G(n)的运算本身，与区分音频帧及噪声帧无关，使用上述式(2)相同地进行。在图2的步骤S202中，将与[噪声帧用处理]和[音频帧用处理]对应的边框连接而描述，是为了象征地表示该特征(但是，式(2)中的N_t(n)的值，分别与式(1)中的case·A及case·B对应，对于两种帧当然是不同的。)。

(iv)在音频帧处理中，不进行与上述式(3)及式(4)相关的处理、即针对噪声抑制增益G(n)的平均化·平滑化处理(参照图2的步骤S203及该图中的右方)。另外，与此相伴，由于成为所谓不存在正当的噪声期间用增益G_t的状态，所以也不进行与上述式(5)相关的处理、即计算原音附加率og的处理(参照图2的步骤S204及该图中的右方)。

(v)最终计算出的修正后增益G2(n)，不是通过上述式(8)中的作为case·A示出的公式求出的，而是通过作为case·B示出的公式求出的(图2的步骤S304)。在此情况下，不同点在于，在噪声帧处理时，使用经过平均化·平滑化的噪声期间用增益G1(n)，而在音频帧处理时，直接使用根据式(2)求出的噪声抑制增益G(n)。

经过以上的[I]及[II]的处理，都可以得到修正后增益G2(n)，如果使该修正后增益G2(n)乘以原来的振幅频谱Y(n)，则计算出噪声抑制后的振幅频谱S(n)(图2的步骤S104)。

在图3(E)中，为了简单，单纯地示出使图3(A)的振幅频谱Y(n)，乘以图3(C)的平均化后的噪声抑制增益(即，g)而得到的结果。在实施方式1中，如上述所示，除此以外，还进行考虑原音附加的程度在内的增益调整(参照式(8)，特别是OG_t(n)的作用)，但图3(E)充分表示出假设省略对上述原音附加处理的考虑的情况时的处理的本质(在式(8)中仅表现为，如果OG_t(n)＝0，修正后增益G2(n)就简单地等于G1(n)或G(n)。)。

根据具有以上所述的结构及作用的噪声抑制装置1，可以得到以下效果。

首先，根据实施方式1中的噪声抑制装置1，可以非常合适地抑制包含在输入信号中的噪声。在这里，在所称的“合适地”中，就实施方式1而言，特别地包含以下记述的各项事实。

(1)第一，根据实施方式1，可以非常有效地防止所谓音乐噪声的产生。在这里，所谓音乐噪声，是指在从输入信号的振幅频谱中减去噪声频谱推定值后产生的噪声。

例如，基于噪声频谱推定值的噪声抑制增益，可以简单地使用上述式(2)中的(Y(n)-N(n))/Y(n)而求出，如果假设将其直接在图1所示的乘法器11中应用的状态，则噪声抑制后的振幅频谱S(n)，作为S(n)＝{(Y(n)-N(n))/Y(n)}·Y(n)＝Y(n)-N(n)而被求出。即，在此情况下，通过单纯地从输入信号的振幅频谱中减去噪声频谱推定值，得到噪声抑制后的振幅频谱S(n)。

但是，由于该情况下的噪声频谱推定值只不过是“推定值”，所以不一定反映实际的噪声频谱。因此，存在在某频带中，减去噪声频谱推定值后还残留噪声的情况，另外，还存在在其他频带中，产生削减过度的情况(在该削减过度的情况下，由于不存在负的振幅频谱，所以将其设定为0。)。在图4中，将上述情况概念化地进行表示，例如，图4(C)中的实线表示减去后还有剩余(参照标号“KN”)，虚线表示削减过度(参照标号“HS”)的各情况(此外，图4(A)及(B)与图3A)及(B)完全相同。另外，图4(C)的标号HSt所指代的部分，是Y(n)-N(n)＝0恰巧成立的情况的例示。)。

如果将上述振幅频谱S(n)向时域进行傅里叶逆变换，则该信号成为由多个具有随机频率的正弦波合成的信号，如果对其进行播放，则会听到非常刺耳的声音。这就是音乐噪声。

如上述所示，产生音乐噪声的主要原因，严格来讲是不可知的实际的噪声频谱与噪声频谱推定值不一致。

在实施方式1中，非常有效地抑制了上述音乐噪声的产生。其原因是，在噪声帧处理时，使用平均化·平滑化后的噪声期间用增益G_t计算出修正后增益G2(n)，并将其应用于振幅频谱Y(n)(参照图3(E))。由此，在维持原来的振幅频谱所具有的频率结构的状态下，进行噪声抑制，所以极难产生音乐噪声。

(1-i)此外，在计算噪声期间用增益G_t时进行的平均化(上述式(3))及平滑化(上述式(4))，分别具有固有的意义。前者的目的，从图3中明确可知，主要在于得到上述音乐噪声的抑制效果，后者的目的主要在于从所谓历时的角度来说，维持噪声抑制处理的连续性。根据后者，由于噪声期间用增益G_t(n)不会随着时间经过而发生急剧的变化，所以在例如对包含在该噪声帧中的信号进行播放的情况下，不会给收听者造成听觉上的不舒适感(此外，在实施方式1中进行的其他的平滑化处理(即，式(1)中的case·A，式(7)中的case·A)，原则上具有与此实质相同的意义。)。

(2)第二，上述(1)是关于预防与噪声帧处理相关的音乐噪声的产生，与此相关联，根据实施方式1，可以更可靠地实现预防与音频帧处理相关的音乐噪声的产生。这是如上述所示，通过在音频帧处理中，以所谓直接使用不经过平均化·平滑化的噪声抑制增益G(n)(参照式(2))的形式来计算修正后增益G2(n)(式(8)中的case·B，或者上述的[II](v))而实现的。

(3)而且，第三，根据实施方式1，在从噪声帧向音频帧切换的情况下，可以保持噪音抑制处理的一贯性。这是如上述所示，通过在音频帧处理时，作为噪声频谱推定值N_t(n)，使用对最接近的噪声帧计算出的N_t-p(n)(参照上述的[II](i)的记载)而实现的。

归纳以上的(2)及(3)，在实施方式1中，对以下方面下了工夫，即，不但在音频帧中进行有效的噪声抑制，此外也尊重噪声帧处理时的噪声抑制处理(特别是其效果)，从而使两种帧之间的转换变得更自然。由此，在将实施方式1中的噪声抑制装置1与某音频播放单元连接的情况下，在从噪声帧向音频帧切换的情况下，不会给收听者造成噪声所涉及的音量感的变化等听觉上的不舒适感。

此外，为了抑制音频帧中的音乐噪声，也考虑下述方法，即，取代上述S(n)＝Y(n)-N(n)，而采用S(n)＝Y(n)-αN(n)，并使该α(＞0)的值较大，但其中存在以下缺点，即，使音质急剧恶化的可能性很高。但是，如果减小α，则使音乐噪声的抑制不充分。

另外，也考虑通过采用以下方法抑制音乐噪声，即，向图4(C)中的虚线表示的、噪声抑制后的振幅频谱成为0的部分(即，标号HS及HSt所指代的部分)中，加上固定的值(噪声层(noise floor))。这是出自下述想法，即，想要通过所谓使该部分HS及HSt增高，掩盖减去后的剩余部分KN(或者使其不明显)(另外，由于在将该方法和使用上述α的方法并用的情况下，可以更小地设定α，所以在此情况下，也可以得到防止音质恶化的效果。)。

但是，由于附加上述噪声层，就意味着使噪声的绝对量增加，所以不仅从达到抑制噪声这一本来目的的角度来看存在问题，而且存在随着该噪声层量的设定的不同，很可能使噪声抑制效果变得极不充分的问题。

从上述角度出发，也可以明确实施方式1中的噪声抑制装置1非常具有优势。即，在实施方式1中，由于没有如使用上述α那样，使减去的量机械地增加，所以几乎不可能产生音质恶化，另外，由于不是进行上述噪声层的单纯附加这样的处理，所以不存在牺牲所进行的噪声抑制的效果的情况。另外，如已记述的那样，即使如此，也可以有效地抑制音乐噪声。

(4)根据实施方式1中的噪声抑制装置1，由于如参照上述式(5)～式(7)、或者图2的步骤S205及S303所说明的那样进行原音附加处理，所以可以更有效地实现噪声抑制效果。根据该原音附加处理，由于可以期待与上述的噪声层的附加处理相同的效果，即，对图4(C)中的减去后的残留部分KN的掩盖效果，所以可以更有效地抑制音乐噪声、或者防止音质的恶化(但是，上述噪声层始终是“固定”的。这一点是与利用“原音”的情况之间的决定性的不同。)。

此外，在上述中，为了更加明确地把握通过实施方式1中的噪声抑制装置1实现的效果，在与使用上述α的方法或者使用噪声层的方法进行对比中，存在对该效果进行说明的部分，但本发明不具有积极地排除这些使用α或者噪声层来抑制音乐噪声的方法的意图。即，可以将这些方法和本发明及其各种形式并用，根据上述的并用方式，可以汲取该方法的优点，同时，使本发明及其各种方式的效果更加显著。

而且，在实施方式1中，不是简单地执行原音附加，具有以下几点特征。

(4-i)首先，原音附加的比例(即，OG_t)是基于原音附加率og而确定的，该原音附加率og是与噪声期间用增益G_t和目标噪声抑制增益tg的大小情况对应地确定的。具体地说，如已记述的那样，由于在原音附加处理中，将作为目标的噪声抑制的程度(即，tg)作为一个主要支配因素，通过与其之间的关系确定原音附加率og，所以通过在基于噪音期间用增益G_t的处理和原音附加处理之间，平衡地进行使用，可以更有效地得到噪声抑制效果及音乐噪声抑制效果，甚至音质改善效果。

(4-ii)另外，对于上述的原音附加处理，在音频帧处理时，作为原音附加比例OG_t，使用对最接近的噪声帧计算出的OG_t-p(参照上述的[II](ii)的记载)。这一作法的本质与作为某音频帧的噪声频谱推定值N_t(n)，直接使用其前一个帧的噪声频谱推定值N_t-1(n)这样的上述想法相同。即，在该原音附加处理中，在噪声帧及音频帧之间的切换的情况下，保持噪声抑制处理的一贯性。

<实施方式2>

以下，参照图5至图7，说明本发明所涉及的实施方式2。此外，该实施方式2，在与上述实施方式1的对比中，存在与音频检测处理相关的不同点，而对于其他方面，只要不特别地说明，则与上述实施方式1完全相同。因此，下面，主要针对上述不同点进行说明，简化甚至省略对其他方面的说明。另外，对于附图上的标号，除了上述不同点以外沿用标号。

该实施方式2中的噪声抑制装置1’如图5所示，具有将音频检测部801连接在噪声抑制增益运算部30的后段的结构。即，该音频检测部801通过使用由上述式(2)计算出的噪声抑制增益G(n)，对输入信号中有无音频信号进行检测，或者对音频帧和噪声帧进行区分。

在实施方式2中，为了对有无音频信号进行检测，而采用以下方法。

首先，基于通过式(2)求出的噪声抑制增益G(n)，计算出由以下的式(9)表示的Var。

[式9]

Var = \frac{1}{N} Σ_{n = 0}^{N - 1} {(G (n) - g)}^{2} . . . (9)

在这里，g是通过在上述实施方式1中使用的式(3)表示的g，总而言之，是针对G(n)的与频带n相关的平均值(在实施方式2中，不仅通过噪声期间用增益运算部40，而且也通过音频检测部801进行该g的运算。当然，也可以将由两者中的一方得出的运算结果，在两者间共用。)。

从公式明确可知，该式(9)的Var表示G(n)的方差。

然后，对该Var是否超过规定值进行判断。该判断的意义如下。

通常，通过式(2)计算出的噪声抑制增益G(n)，在包含音频信号的情况下和不包含音频信号的情况下，表现出大不同的形态。图6及图7表示其一个例子，前者是包含音频信号的情况下的噪声抑制增益G(n)的运算例，后者是不包含音频信号的情况下的噪声抑制增益G(n)的运算例。将这些图进行对比明确可知，如果计算两种情况下的各自的G(n)的方差，则容易地推测出两者间产生较大的差距这一结论。即，可以以相当程度的可靠性进行以下判断，即，如果针对某帧的G(n)的方差值大到一定程度，则其包含音频信号，如果不是这样，则不包含音频信号。

针对上述Var的大小判断的意义就在于此。换言之，假设存在某个规定值VB，如果Var＞VB，则在该帧中存在音频信号，因此，将其区分为“音频帧”，如果Var≤VB，则该帧中没有音频信号，因此，将其区分为“噪声帧”。

此外，在图5的结构中，与图1的结构不同，噪声频谱推定部20无法使用音频信号的检测结果。即，噪声频谱推定部20不以区分音频帧及噪声帧为前提，而计算噪声频谱推定值N_t(n)。

上述情况下的噪声频谱推定值N_t(n)，可以通过例如以下的式(10)及式(11)求出。

[式10]

PA_t(n)＝αPA_t-1(n)+(1-α)Y(n)……(10)

[式11]

N_{t} (n) = \{\begin{matrix} {γN}_{t - 1} (n) + \frac{1 - γ}{1 - β} ({PA}_{t} (n) - {βPA}_{t - 1} (n)); & case \cdot C \\ {PA}_{t} (n) & case \cdot D \end{matrix} . . . (11)

在这里，PA_t(n)是当前处理中的帧中的输入信号中的振幅频谱，是平滑化后的振幅频谱，PA_t-1(n)是其前一个帧中的该振幅频谱，是平滑化后的振幅频谱，α是平滑化系数，γ·β是控制参数。另外，在式(11)中，case·C表示PA_t(n)＞N_t-1(n)成立的情况，case·D表示除此以外的情况。

在此情况下，式(11)中的作为case·D表示的公式与式(10)的组合，实质上与上述式(1)中的作为case·A表示的公式大致同义。

另一方面，式(11)中的作为case·C表示的公式，不是上述式(1)中所对应的那个。但是，由于该式在如上述所示，即，PA_t(n)＞N_t-1(n)成立的情况下，也就是说，在当前处理中的帧的振幅频谱超过其前一个帧的噪声频谱推定值的情况下发挥作用，所以并不是不可以认为该case·C能够暗示出该当前处理中的帧是音频帧的可能性(如果对于大量的n(＝0、1、2、3、…)满足上述条件，则可以说其可能性更高。但是，毕竟只是“暗示”。)。

可以说这些式(10)及式(11)在上述的意义范围内与上述式(1)具有共通性。

总之，适当地计算出噪声频谱推定值这一点是不变的。

如上述所示，根据实施方式2可以得到以下的效果。

首先，可以明确通过本实施方式2，也可以得到与通过上述实施方式1得到的作用效果没有本质区别的作用效果。即，在本实施方式2中，可以得到与针对上述实施方式1记述的从(1)至(4)的效果大致相同的效果。

而且，将图1与图5进行对比明确可知，根据本实施方式2可以得到处理效率的提高、电路构成的简化等效果。这是因为，实施方式1中的音频检测是所谓独立地进行的，取代之，实施方式2中的音频检测是通过利用噪声抑制增益G(n)而进行的，进行了其从属化。

在本发明中，由于噪声抑制增益G(n)的运算是必须进行的处理，所以利用其运算结果进行音频检测处理，自然可以获得处理的高效化·合理化。而且，其检测性能相当高(参照对比图6及图7)。

以上，对本发明所涉及的实施方式进行了说明，但本发明所涉及的噪声抑制装置，并不限定于上述方式，可以进行各种变形。

(1)在上述实施方式1及2中，使噪声期间用增益G_t在频率轴上平均化，在时间轴上平滑化，但本发明并不限定于上述方式。在上面已经叙述，对于平均化处理和平滑化处理，由于其主要目的不同，所以特别是对于平滑化处理，可以根据情况而省略。如图3(E)所示，即使仅实施平均化处理，也可以一定程度地得到音乐噪声的抑制效果。

(2)另外，在上述实施方式1及2中，噪声期间用增益G_t是经过上述式(3)的平均化处理及上述式(4)的平滑化处理而求出的，但本发明并不拘泥于上述式(3)及式(4)的形式。

首先，在本发明中，噪声抑制增益平均值g并不限定于通过式(3)进行计算的形式。

即，虽然在式(3)中，g是使用全部N个频带(全部为N个，即，第0、1、2、…、N-1个频带)进行计算的，但该g也可以仅使用例如其中的一部分频带而进行计算。在此情况下，可以考虑使用除了极低频带(接近DC成分的频带)和极高频带(接近乃奎斯特频率的频带)这两者或者一方以外的频带。

另外，在计算噪声抑制增益平均值g时，可以对各个频带进行不同的加权。例如，仅使特定的频带乘以某个特定的加权系数，或者，使所有的频带乘以连续地、阶段性地增加或者减少的加权系数，等等。

另外，在本发明中，噪声期间用增益G_t并不限定于通过上述式(4)进行计算的形式。

即，虽然在式(4)中，G_t是通过将噪声抑制增益平均值g在时间轴上平滑化而求出的，但该G_t也可以作为例如相邻的帧的g的平均值而计算出。

(3)而且，在上述实施方式1及2中，虽然将平均化·平滑化的噪声期间用增益G_t及G1(n)应用于所有频带(参照式(8)中的case·A或者图3(E))，但本发明并不限定于上述方式。

例如，可以仅向上述除了极低频带和极高频带这两者或者一方以外的频带，应用该噪声期间用增益G_t及G1(n)。在此情况下，对于排除在该应用范围以外的频带，可以应用固定值的增益。

(4)在上述实施方式1及2中，噪声抑制增益G(n)是通过式(2)计算出的，但本发明并不限定于上述方式。例如，除此之外，可以使用维纳滤波器法、MMSE(Minimum Mean-Square Error)法等(关于这些方法，参照上述的非专利文献3及4)。也可以推定SNR(音频(信号)/噪声比例)，基于该SNR计算噪声抑制增益G(n)。

(5)在上述实施方式2中，为了在音频帧及噪声帧之间进行区分，而通过上述式(9)得到噪声抑制增益G(n)的在频率轴上的方差，但本发明并不限定于上述方式。

例如，当然可以取代方差而使用标准偏差，也可以使用时间轴上的方差或者标准偏差。另外，也可以基于针对每个频带的噪声抑制增益G(n)中，有多少落在由规定的2个基准值划分成的空间内等，进行音频帧及噪声帧之间的区分(例如，如果其数量较大，则可以判断为噪声抑制增益G(n)集中存在于一定的位置上，所以可以说其分散的程度较小，因此，该帧被认定为噪声帧，等等。)。另外，上述的各种判断方法，可以根据情况而并用。由此，例如，在参照上述方差和落在上述空间内的噪声抑制增益G(n)的数量这两者的基础上，对分散的程度进行判断等。

Claims

1.一种噪声抑制装置，其特征在于，具有：

噪声频谱推定单元，其基于输入信号，针对K个频带分别推定包含在该输入信号内的噪声频谱，其中，K为大于或等于2的自然数；

第1增益运算单元，其基于所述噪声频谱推定单元的噪声频谱的推定结果，计算所述K个频带各自的噪声抑制增益；以及

原音附加单元，其在向所述输入信号应用所述噪声抑制增益后得到的第1噪声抑制后信号中，以第1比例加上所述输入信号，其中，该第1比例是基于该噪声抑制增益和预先确定的目标噪声抑制增益的差而确定的。

2.如权利要求1所述的噪声抑制装置，其特征在于，

还具有第2增益运算单元，其针对所述噪声抑制增益，计算与所述K个频带相关的平均值增益，

所述原音附加单元，在向所述输入信号应用所述平均值增益后得到的第2噪声抑制后信号中，以第2比例加上所述输入信号，其中，该第2比例是基于该平均值增益和所述目标噪声抑制增益的差而确定的。

3.如权利要求1所述的噪声抑制装置，其特征在于，

所述原音附加单元，

计算将所述第1比例在时间轴上平滑化后的平滑化比例，

向所述第1噪声抑制后信号中以所述平滑化比例加上所述输入信号。

4.如权利要求2所述的噪声抑制装置，其特征在于，

所述原音附加单元，

计算将所述第2比例在时间轴上平滑化后的平滑化比例，

向所述第2噪声抑制后信号中以所述平滑化比例加上所述输入信号。

5.如权利要求2所述的噪声抑制装置，其特征在于，

还具有音频检测单元，其通过随时间推移地对所述输入信号中是否包含音频进行检测，从而将该输入信号区分为包含该音频的音频帧、以及不包含该音频的噪声帧，

所述第2噪声抑制后信号是向所述输入信号中相当于所述噪声帧的部分应用所述平均值增益后得到的。

6.如权利要求5所述的噪声抑制装置，其特征在于，

所述第1噪声抑制后信号是向所述输入信号中相当于所述音频帧的部分应用所述噪声抑制增益后得到的。

7.如权利要求6所述的噪声抑制装置，其特征在于，

所述原音附加单元向所述第1噪声抑制后信号中，取代所述第1比例而以所述第2比例加上所述输入信号。

8.如权利要求6所述的噪声抑制装置，其特征在于，

所述原音附加单元，

在要向所述音频帧所涉及的所述第1噪声抑制后信号中加上所述输入信号的情况下，

将针对与该音频帧最接近的噪声帧而已经计算出的所述第2比例，用作该音频帧的所述第1比例，向所述第1噪声抑制后信号中加上所述输入信号。

9.如权利要求6或8所述的噪声抑制装置，其特征在于，

所述原音附加单元，

在要向所述噪声帧所涉及的所述第2噪声抑制后信号中加上所述输入信号的情况下，

在计算出临时第2比例后，使用该噪声帧的前一个帧的所述第1或者第2比例，计算将该临时第2比例在时间轴上平滑化后的平滑化比例，将该平滑化比例用作所述第2比例，向所述第2噪声抑制后信号中加上所述输入信号，

将该音频帧的前一个帧的所述第1或者第2比例，用作该音频帧的所述第1比例，向所述第1噪声抑制后信号中加上所述输入信号。

10.如权利要求1所述的噪声抑制装置，其特征在于，

所述第1比例是通过以下的式(A)求出的，

og＝max(0，tg-G)…(A)

在这里，og是应计算的第1比例，

tg是所述目标噪声抑制增益，

G是所述噪声抑制增益，

max(a，b)表示将a及b中较大的那个值返回的函数。

11.如权利要求2所述的噪声抑制装置，其特征在于，

所述第2比例是通过以下的式(A)求出的，

og＝max(0，tg-G)…(A)

在这里，og是应计算的第2比例，

tg是所述目标噪声抑制增益，

G是所述平均值增益，

max(a，b)表示将a及b中较大的那个值返回的函数。

12.一种噪声抑制方法，其特征在于，包含：

噪声频谱推定步骤，其基于输入信号，针对K个频带分别推定包含在该输入信号内的噪声频谱，其中，K为大于或等于2的自然数；

第1增益运算步骤，其基于所述噪声频谱推定步骤的噪声频谱的推定结果，计算所述K个频带各自的噪声抑制增益；以及

原音附加步骤，其在向所述输入信号应用所述噪声抑制增益后得到的第1噪声抑制后信号中，以第1比例加上所述输入信号，其中，该第1比例是基于该噪声抑制增益和预先确定的目标噪声抑制增益的差而确定的。

13.如权利要求12所述的噪声抑制方法，其特征在于，

还包含第2增益运算步骤，其针对所述噪声抑制增益，计算与所述K个频带相关的平均值增益，

在所述原音附加步骤中，在向所述输入信号应用所述平均值增益后得到的第2噪声抑制后信号中，以第2比例加上所述输入信号，其中，该第2比例是基于该平均值增益和所述目标噪声抑制增益的差而确定的。

14.如权利要求13所述的噪声抑制方法，其特征在于，

还包含音频检测步骤，其通过随时间推移地对所述输入信号中是否包含音频进行检测，从而将该输入信号区分为包含该音频的音频帧、以及不包含该音频的噪声帧，