CN1905006A

CN1905006A - 噪声抑制***与方法及程序

Info

Publication number: CN1905006A
Application number: CNA2006101080579A
Authority: CN
Inventors: 荒川隆行; 辻川刚范
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2005-07-27
Filing date: 2006-07-27
Publication date: 2007-01-31
Anticipated expiration: 2026-07-27
Also published as: US9613631B2; JP2007033920A; CN1905006B; JP4765461B2; US20070027685A1

Abstract

本发明提供一种不会丢失声音的信息，且能够高精度去除噪声成分的噪声抑制***、方法。具有求出噪声平均频谱的机构(2)、根据输入信号与噪声平均频谱求出暂时推定声音的机构(3)、标准模式(4)、以及使用标准模式(4)对暂时推定声音进行修正的机构(5)。

Description

噪声抑制***与方法及程序

技术领域

本发明涉及一种噪声抑制***，特别是一种适于抑制声音识别中的噪声成分的噪声抑制***、噪声抑制方法以及噪声抑制程序。

背景技术

以往的用于声音识别的噪声抑制方法，大体上分为以下两种。

(a)使用信号处理的方法从输入信号中减去噪声成分。

(b)将作为解码侧的声音模型与噪声模型合成起来，制作噪声适应(noise adaptation)声音模型。

另外，本说明书中，噪声是指声音信号以外的信号，除了比较稳定的背景噪声之外，还包括突发噪声、混响、回响、回声、或目的说话者以外的其他说话者的声音等。

根据非专利文献1，大体上分为(a)前端中的方法，(b)解码器中的处理。

广泛用作(a)的信号处理的方法，有“频谱相减法(SpectrumSubstraction：SS法)”。

图10为表示实现该SS法的***的典型构成之一例的图。如图10所示，具有取得输入信号(频谱X)的输入信号取得部1、计算出噪声平均频谱(N)的机构2、以及从输入信号中减去噪声平均频谱并计算出推定声音(暂时推定声音S’)的机构3c。

该构成的***具有以下优点。

·计算量较少。

·容易与更新噪声平均频谱的方法等其他方法组合使用。

但是，如果从输入信号中简单地减去噪声平均频谱，由于噪声所具有的分散成分和声音及噪声的相位差，而产生残留(音乐噪声；musicalnoise)，该残留成分成为误识别的原因。

因此，SS法中，需要进行铺垫(flooring)，并将声音的波谷信息掩盖起来的处理。如果增大该铺垫的值，虽然噪声的残留得到抑制，但由于掩盖了声音的波谷信息，因此有可能导致性能的恶化。

另外，专利文献1与非专利文献2、非专利文献6中，公开了一种使用平滑化过的先验SNR(推定声音除以噪声平均频谱)，来计算出噪声降低滤波器的方法。

参照图11，该***除了图10中所示的构成之外，还具有计算噪声降低滤波器的机构6、以及计算推定声音的机构7。图11的***中，通过将上述SS法的问题点即噪声的残留进行平滑化来降低。

如果平滑化进行的过强，虽然抑制了噪声的残留成分，但会出现以下问题：

·声音的始端部分欠缺

·很难检测出声音的终端部分。

这样，信息处理的方法中存在以下问题。

·需要铺垫或平滑化处理，会导致原来的声音信息丢失。

·为了抑制残留成分，将这样的信息丢失控制为最小限度，需要根据噪声的种类与SNR，对参数进行调谐。

因此，信号处理的方法很难通用。

作为(b)的让声音模型适于噪声的方法，公知的有非专利文献3中所记载的“Parallel Model Combination(PMC法)”。

该方法具有生成噪声模型的机构、预先在没有噪声的环境下学习得到的声音模型HMM、将噪声模型变形为线性频谱的机构、将声音模型HMM变形为线性频谱的机构、将变形为线性频谱的噪声模型与声音模型HMM相加生成噪声适应声音模型HMM的机构、以及将所生成的噪声适应模型变形为倒谱的机构。

该构成的***具有以下优点。

也即，由于让声音模型HMM适应噪声，不管噪声的种类或SNR如何，都能够进行识别。

但是也存在以下问题。

·为了生成噪声适应声音模型HMM，需要很多的计算成本。

·不容易与更新噪声平均频谱的方法等其他方法组合使用。

另外，非专利文献4中提出了“基于GMM的声音信号推定法”，该方法不是让声音模型，而是让声音的标准模式GMM(Gaussian MixtureModel)适应噪声。

该方法如图12所示，具有取得输入信号X的输入信号取得部1、计算噪声平均频谱的机构2、预先在没有噪声的环境下所学***均频谱的移动量的期待值的计算部11、以及推定声音S的计算部7a。

具有该构成的***，有以下优点。

也即，将上述信号处理方法的问题点即噪声成分的减法操作，替换成求出标准模式与噪声适应模式的变化部分G的期待值这一操作，通过这样能够进行稳定性高的声音识别。

具有该构成的***，与PMC法一样，存在以下问题。

·为了生成噪声适应模式，需要花费计算成本。

·不容易与更新噪声平均频谱的方法等其他方法组合使用。

【专利文献1】特表2004-520616号公报

【非专利文献1】松本弘著“雑音環境下の音声認識手法”情報科学技術フオ一ラムFIT2003 2003年9月10日

【非专利文献2】Y.Ephraim，D.Malah，“Speech Enhancement Using aMinimum Mean-Square Error Short-Time Spectral Amplitude Estimator”，IEEE Trans.On ASSP-32，No.6，pp.1109-1121 1984年12月

【非专利文献3】M.J.F.Gales and S.J.Young“Robust ContinuousSpeech Recognition Using Parallel Model Combination”，IEEE Trans.SAP-4，No.5，pp.352-359 1996年9月

【非专利文献4】J.C.Segura，A.de la Torre，M.C.Benitez and A.M.Peinado“Model-Based Compensation of the Additive Noise For ContinuousSpeech Recognition.Experiments Using AURORAII Database and Tasks”，EuroSpeech’01，Vol.1，pp.221-224 2001年

【非专利文献5】Rainer Martin，“Noise Power Spectral DensityEstimation Based on Optimal Smoothing and Minimum Statistics”，IEEETrans.On Speech and Audio Processing，Vol.9，No.5 2001年7月

【非专利文献6】ETSI ES 202 050 V1.1.1，“Speech processing，Transmission and Quality aspects(STQ)；Distributed speech recognition；Advanced front-end feature extraction algorithm；Compression algorithm”2002年

【非专利文献7】Guorong Xuan，Wei Zhang，Peiqi Chai，“EM Algorithmof Gaussian Mixture Model and Hidden Markov Model”，IEEE InternationalConference on Image Processing ICIP 2001，vol.1，pp.145-148 2001年10月

如上所述，以往的***存在下述问题。

第1问题在于，信号处理方法中，需要进行铺垫或平滑化，有时会导致原来的声音的信息丢失。其原因是，在高噪声下无法忽视噪声的分散和声音及噪声的相位差的影响，在从输入声音减去噪声的平均频谱时，产生噪声的残留。

第2问题在于，信号处理方法中，需要根据噪声的种类或SNR，进行参数的调谐。其原因是，抑制噪声的残留、同时将信息的丢失控制到最小限度的参数只能通过经验求出。

第3问题在于，在让声音模型或标准模式噪声适应的方法中，很难对时间变动的噪声，与噪声平均频谱的更新法组合，并适应每帧噪声。其原因是，为了让声音模型或标准模式噪声适应，需要很多计算成本。

发明内容

本发明的目的在于，提供一种不会丢失声音的信息，能够高精度去除噪声成分的噪声抑制***、方法以及计算机程序。

本发明的另一目的在于，提供一种减少调谐参数，并且对调谐参数的值不敏感的噪声抑制***、方法以及计算机程序。

本发明的另一目的在于，提供一种计算成本较少，且能够容易地追踪噪声的时间变动的噪声抑制***、方法以及计算机程序。

本申请所公开的发明，为了解决上述问题，大体如下构成。

本发明的第1***，具有求出噪声平均频谱的机构、根据输入信号与噪声的平均频谱求出暂时推定声音的机构、标准模式、以及使用标准模式修正暂时推定声音的机构。

本发明的第1噪声抑制方法，包含有：根据输入信号计算出噪声的平均频谱的工序、根据上述输入信号与上述噪声的平均频谱，在频谱区域中求出暂时推定声音的工序、以及使用声音的标准模式来修正上述暂时推定声音的工序。

本发明的第1程序，让将输入信号输入、抑制噪声并输出的计算机执行以下处理：根据输入信号计算出噪声的平均频谱的处理、根据上述输入信号与上述噪声的平均频谱，在频谱区域中求出暂时推定声音的处理、以及使用声音的标准模式来修正上述暂时推定声音的处理。

通过该结构，能够通过标准模式的知识对噪声的残留进行修正，能够实现第1目的。

另外，由于暂时推定声音可以有某种程度的不准确，因此能够实现对调谐参数的值不敏感的处理。也即能够实现本发明的第2目标。

进而，由于不需要让标准模式噪声适应，因此只需要很少的计算成本，能够容易地追踪噪声，因此能够实现本发明的第3目的。

本发明的第2噪声抑制方法，其特征在于，在第1噪声抑制方法中，包括：

将在频谱区域中所求出的上述暂时推定声音变形成特征矢量的工序；以及，使用特征矢量区域中的标准模式，对变形成特征矢量的上述暂时推定声音进行修正的工序。

本发明的第3噪声抑制方法，其特征在于，在第1或第2噪声抑制方法中，上述修正暂时推定声音的工序中：

假设概率分布为上述标准模式；

根据构成上述标准模式的概率分布输出上述暂时推定声音的概率、以及构成上述标准模式的概率分布的平均值，求出声音期待值，并将上述声音期待值设为上述暂时推定声音的修正值。

本发明的第4噪声抑制方法，其特征在于，在第1或第2噪声抑制方法中，上述修正暂时推定声音的工序中：

使用多个声音的模式所构成的上述标准模式，来对上述暂时推定声音进行修正；

选择最接近上述输入声音的标准模式来设为上述暂时推定声音的修正值，或通过将接近上述输入声音的上述多个声音的模式，根据距离进行加权平均，来设为上述暂时推定声音的修正值。

本发明的第5噪声抑制方法，其特征在于，在第1至第4噪声抑制方法的任一个中，上述修正暂时推定声音的工序，

包括求出上述噪声的标准偏差的工序；

考虑上述噪声的标准偏差，来控制上述暂时推定声音的修正。

本发明的第6噪声抑制方法，其特征在于，在第1至第5噪声抑制方法的任一个中，包括：根据上述暂时推定声音的修正值与上述噪声平均频谱，导出噪声降低滤波器的工序；以及，

对上述输入信号实施基于上述噪声降低滤波器的滤波处理，通过上述噪声降低滤波器的输出得到推定声音的工序。

本发明的第7噪声抑制方法，其特征在于，在第6噪声抑制方法中，在计算上述噪声降低滤波器时，除了修正过的暂时推定声音与上述噪声平均频谱之外，还使用上述输入信号，来计算上述噪声降低滤波器。

本发明的第8噪声抑制方法，其特征在于，在第6或第7噪声抑制方法中，在计算上述噪声降低滤波器时，对修正过的暂时推定声音、或将修正过的暂时推定声音除以噪声的平均频谱所得到的先验SNR(信噪比)，在时间方向、频率方向以及特征矢量维数中的至少1个方向上进行平滑化。

本发明的第9噪声抑制方法，其特征在于，在第1至第8的任一噪声抑制方法中，将使用上述标准模式修正过的暂时推定声音作为暂时推定值并再次使用上述标准模式进行修正的这种处理，重复进行多次。

本发明的第10方法，其特征在于，在第1至第10方法的任一个中，上述根据输入信号计算出噪声的平均频谱的工序，根据多个输入信号中的至少1个输入信号计算出噪声的频谱；

上述根据输入信号与噪声平均频谱求出暂时推定声音的工序，根据上述多个输入信号中的至少1个输入信号与上述噪声的频谱，求出暂时推定声音。

本发明的声音识别方法，包括对使用第1至第10的任一个噪声抑制方法将噪声抑制后的声音进行识别的工序。

本发明的第2程序，其特征在于，在第1程序中，上述修正暂时推定声音的处理包括：

将在频谱区域中所求出的上述暂时推定声音变形成特征矢量的处理；以及，

使用特征矢量区域中的标准模式，对变形成特征矢量的上述暂时推定声音进行修正的处理。

本发明的第3程序，其特征在于，在第1或第2程序中，上述修正暂时推定声音的处理，

假设概率分布为上述标准模式；根据构成上述标准模式的概率分布输出暂时推定声音的概率、以及构成上述标准模式的概率分布的平均值，求出声音期待值，将上述声音期待值设为暂时推定声音的修正值。

本发明的第4程序，其特征在于，在第1或第2程序中，上述修正暂时推定声音的处理，

使用多个声音模式所构成的标准模式对暂时推定声音进行修正；

选择最接近输入声音的标准模式来设为暂时推定声音的修正值，或通过将接近输入声音的多个声音的模式，根据距离进行加权平均，来设为上述暂时推定声音的修正值。

本发明的第5程序，其特征在于，在第1至第4程序的任一个中，上述修正暂时推定声音的处理，

包括求出噪声的标准偏差的处理；考虑上述噪声的标准偏差来控制修正。

本发明的第6程序，其特征在于，在第1至第5程序的任一个中，还包括使计算机实施以下处理的程序：根据修正过的推定声音与噪声平均频谱，计算出噪声降低滤波器的处理；以及，对输入信号实施上述噪声降低滤波，得到推定声音的处理。

本发明的第7程序，其特征在于，在第6程序中，

上述计算噪声降低滤波器的处理，

除了修正过的推定声音与噪声平均频谱之外，还使用输入信号，计算噪声降低滤波器。

本发明的第8程序，其特征在于，在第6或第7程序中，

上述计算噪声降低滤波器的处理，

对修正过的推定声音或将修正过的推定声音除以噪声的平均频谱所得到的先验SNR，在时间方向、频率方向以及特征矢量维数中的至少1个方向上进行平滑化。

本发明的第9程序，其特征在于，在第1至第8程序的任一个中，将使用标准模式修正过的推定声音作为暂时推定值并再次使用上述标准模式进行修正的这种处理，重复进行多次。

本发明的第10程序，其特征在于，在第1至第9程序的任一个中，

上述根据输入信号计算出噪声的平均频谱的处理，根据多个输入信号中的至少1个输入信号计算出噪声的频谱；

上述根据输入信号与噪声平均频谱求出暂时推定声音的处理，根据多个输入信号中的至少1个输入信号与上述噪声的频谱，求出暂时推定声音。

本发明的第11程序，让构成声音识别装置的计算机，执行以下处理：将噪声由第1至第10的任一个程序抑制后的声音信号输入，并执行声音识别的处理。

通过本发明，能够通过标准模式的知识对暂时推定声音的噪声的残留适当进行修正。

根据本发明，由于暂时推定声音可以有某种程度的不准确，因此能够期待一种对调谐参数的值不敏感的处理。

根据本发明，由于不需要让标准模式噪声适应，因此只需要很少的计算成本，能够容易地追踪噪声。

附图说明

图1为表示本发明的第1实施方式的噪声抑制***之构成的方框图。

图2为表示本发明的第1实施方式的噪声抑制***中的处理步骤的流程图。

图3为表示本发明的第2实施方式的噪声抑制***之构成的方框图。

图4为表示本发明的第3实施方式的噪声抑制***之构成的方框图。

图5为表示本发明的第4实施方式的噪声抑制***之构成的方框图。

图6为表示本发明的第5实施方式的噪声抑制***之构成的方框图。

图7为表示本发明的第6实施方式的噪声抑制***之构成的方框图。

图8为表示本发明的第7实施方式的噪声抑制***之构成的方框图。

图9为表示本发明的第8实施方式的噪声抑制***之构成的方框图。

图10为表示使用以往方法(SS法)的噪声抑制***之构成的方框图。

图11为表示使用以往方法(使用平滑化先验SNR的维纳滤波器)的噪声抑制***之构成的方框图。

图12为表示使用以往方法(基于GMM的声音信号推定法)的噪声抑制***之构成的方框图。

图中：1-输入信号取得部，1a-输入信号取得部(多输入)，2-噪声平均频谱计算部，2a-噪声平均频谱以及标准偏差的计算部，2b-噪声频谱计算部(多输入)，3-暂时推定声音计算部，3a-暂时推定声音以及可靠度计算部，3b-暂时推定声音计算部(多输入)，3c-暂时推定声音计算部(频谱减法)，4-标准模式(概率分布)，4a-标准模式(平均值)，5-使用标准模式的暂时推定声音修正部，5a-使用标准模式的暂时推定声音修正部，5b-使用标准模式的暂时推定声音修正部，6-噪声降低滤波计算部(只使用先验SNR)，6a-噪声降低滤波计算部(使用先验SNR与后验SNR)，7-推定声音计算部，7a-推定声音计算部，8-收敛判断部，9-噪声适应模式生成部，10-噪声适应模式，11-模式移动矢量期待值计算部，12-噪声抑制部，13-识别部。

具体实施方式

对照附图对上述本发明进一步进行详细说明。

图1为表示本发明的第1实施方式的***构成的图。参照图1，本发明的第1实施方式，具有取得输入信号(输入信号频谱X)的输入信号取得部1、根据由输入信号取得部1所取得的输入信号X计算出噪声平均频谱N的噪声平均频谱的计算部2、根据由输入信号取得部1所取得的输入信号X与噪声平均频谱计算部2所计算出的噪声平均频谱N计算出暂时推定噪声S’的暂时推定声音计算部3、登录在存储部中的声音的标准模式(standard pattern)4、以及使用标准模式4对暂时推定声音计算部3所得到的暂时推定声音进行修正并输出的暂时推定声音修正部5。图2为用来说明本发明的第1实施方式的处理动作的流程图。对照图1以及图2的流程图，对本实施方式全体的动作进行详细说明。

设输入信号频谱为X(f，t)。

其中，f为频率滤波器组编号(f＝1，…，Lf：Lf为频率滤波器组的数目)，t为帧编号(t＝1，2，…)。输入信号频谱X(f，t)，在输入信号取得部1中，例如将通过麦克风所取得的声音信息，用短时间帧进行频谱解析来得到。

首先，在噪声的平均频谱计算部2中，根据输入信号频谱X(f，t)计算出噪声平均频谱N(f，t)(步骤S1)。

噪声平均频谱N(f，t)的计算中，例如能够使用下述任意一个方法。

·使用输入信号的频谱X(f，t)的开始数十帧的平均值。

·将缓冲的数十帧的输入信号频谱X(f，t)分类，使用从较小的一侧数起第若干个的值。例如参照上述非专利文献5的记载。非专利文献5中，记载了在被供给包含有噪声的声音信号时，非固定状态的功率频谱密度的推定方法，该推定方法被与需要噪声功率频谱密度推定值的声音强调(speech enhancement)算法相结合。

·事先求出声音区间与非声音区间，使用非声音区间中的输入信号频谱X(f，t)的平均值。参照例如非专利文献6。

接下来，在暂时推定声音的计算部3中，使用输入信号频谱X(f，t)与噪声的平均频谱计算部2所计算出的噪声平均频谱N(f，t)，通过：

·SS法(参照图10)、

·使用平滑化先验SNR的维纳滤波器(参照图11)

等公知的方法，计算出暂时的推定噪声S’(f，t)(步骤S2)。

在使用SS法的情况下，暂时推定噪声S’(f，t)如下进行计算。

S’(f，t)＝max(X(f，t)-N(f，t)，αN(f，t)) …(1)

其中，α是铺垫参数。

虽然没有特别的限制，但标准模式4在本实施例中，设为保持有预先在没有噪声的环境下所学习的声音的标准模式。此外还可以保持通过现有的噪声所学习的声音的标准模式等。另外，关于标准模式的学习方法的详细内容，参照例如非专利文献7等的记载。非专利文献7中，记载了GMM(Gaussian Mixed Model)与HMM的EM(Expectation-Maximum)算法。

本实施例中，标准模式4例如通过倒谱GMM的形式保持声音的模式。当然，还可以保持此外的特征量(对数频谱GMM或线性频谱GMM、LPC(Linear Prediction Coding)频谱GMM)。另外，还可以使用混合高斯分布以外的概率分布。

接下来，通过使用标准模式的暂时推定声音的修正部5，使用标准模式4对暂时推定声音的计算部3所计算出的暂时推定声音S’(f，t)进行修正(步骤S3)。

上述修正方法的具体例子如下所示。

首先，如下来确定暂时推定声音S’(f，t)的第k个高斯分布的后验概率P(k|S’(f，t))。

P(k|S’(f，t))＝W^(k)p(S’(f，t)|μ_S ^(k)，σ_S ^(k))/∑kW^(k)p(S’(f，t)|μ_S ^(k)，σ_S ^(k)) …(2)

其中，k为GMM的要素即高斯分布的脚注(k＝1，…，K：K为混合数)，

W^(k)，是高斯分布k的权重，

p(S’|μ_S ^(k)，σ_S ^(k)，是具有平均值μ_S ^(k)分散σ_S ^(k)的高斯分布输出推定声音S’的概率。

本实施例中，将暂时推定声音S’结合标准模式4所保持的声音模式的形式，变形为倒谱的形式来使用。

当然，如果标准模式4所保持的声音模式的形式发生了变化，也相应变更暂时推定声音S’的形式。

接下来，使用上述的后验概率，求出声音的期待值：

<S(f，t)>＝∑_kμ_S ^(k)P(k|S’(f，t)) …(3)

将其作为暂时推定声音S’的修正值输出。<S(f，t)>，是从输入信号中去除了噪声之后的声音的推定值。

接下来，对本实施方式的效果进行说明。

本实施方式中，使用声音的标准模式，对暂时推定声音进行修正，通过这样，能够对由：

·由噪声的分散带来的推定误差、

·来源于声音与噪声的相位差的推定误差

所产生的推定声音的畸变进行修正。

如上所述，通过本实施方式，能够解决以往的信号处理方法的问题。

另外，根据本实施方式，由于通过标准模式对推定声音进行修正，因此，由式(1)所决定的铺垫参数之类的的调谐参数即使存在某个程度的不准确也没有问题。

另外，根据本实施方式，由于不需要让标准模式适应噪声，因此计算成本可以较少。从而能够在噪声平均频谱计算部2中使用对随时间变动的噪声进行推定的算法。从而，能够容易地追踪噪声。

本发明的第1实施方式中，1、2、3、5的各个部的至少一个可由计算机程序来实现，该计算机程序被存储在介质中并被加载到构成噪声抑制***的计算机中且实施对应的机构的功能处理。

[第2实施方式]

接下来，对照附图对本发明的第2实施方式进行说明。图3为表示本发明的第2实施方式之构成的图。参照图3，本发明的第2实施方式，相对上述第1实施方式，将通过概率分布的形式所保持的标准模式4(参照图1)，变更为保持多个声音的平均值的标准模式4a，另外，将使用声音的期待值来修正暂时推定声音的暂时推定声音的修正部5(参照图1)，变更为使用声音的平均值来修正暂时推定声音的暂时推定声音的修正部5a。

上述修正的具体例子如下所示。首先，对暂时推定声音S’(f，t)与多个声音模式所构成的标准模式(例如声音模式的平均值)的距离进行比较。这里，通过对数频谱的形式进行比较。当然还可以采用倒谱等其他形式。

d^(k)＝∑_f(S’(f，t)-μ_S ^(k)(f))² …(4)

其中，f为频率滤波器组编号(f＝1，…，Lf：Lf为频率滤波器组的数目)，

k为1，…K(K为标准模式的数目)，

μ_S ^(k)，为构成标准模式的声音的模式k的平均值。

如果暂时推定声音S’(f，t)为其他形式，f便为其他的脚注。

接下来，选择使得暂时推定声音S’(f，t)与标准模式之间的距离最小的k，并将S’(f，t)的值，通过对应的标准模式进行替换并设为修正值。或者，可选择多个使得距离变得接近的值，并根据距离进行加权平均，将所得到的值作为修正值。另外，距离并不仅限于2次方，还可以使用绝对值等其他运算。

本实施方式中，只需要很少的计算成本。

本发明的第2实施方式中，1、2、3、5a的各个部的至少一个可由计算机程序来实现，该计算机程序被存储在介质中并被加载到构成噪声抑制***的计算机中且实施对应的机构的功能处理。

[第3实施方式]

接下来，对照附图对本发明的第3实施方式进行说明。图4为表示本发明的第3实施方式之构成的图。参照图4，本发明的第3实施方式，将图1的上述第1实施方式中的噪声平均频谱计算部2，变更成了根据输入信号取得部1所取得的输入信号计算出噪声平均频谱与噪声的标准偏差的噪声平均频谱及噪声的标准偏差计算部2a。

另外，将图1的暂时推定声音的计算部3，变更成根据由输入信号取得部1所取得的输入信号、噪声平均频谱以及噪声的标准偏差计算部2a所计算出的噪声平均频谱、以及噪声的标准偏差，计算出暂时推定声音与暂时推定声音的可靠度的暂时推定声音的计算部3a，将使用标准模式的暂时推定声音的修正部5，变更成除了暂时推定声音的值还考虑到暂时推定声音的可靠度，来进行暂时推定声音的修正的使用标准模式的暂时推定声音的修正部5b。

接下来，对本实施方式与上述第1实施方式不同的动作进行说明。

噪声平均频谱以及噪声的标准偏差计算部2a中，通过与噪声平均频谱计算部2相同的方法，根据输入信号频谱X(f，t)计算出噪声平均频谱N(f，t)，此外还计算出噪声的标准偏差V(f，t)。

计算噪声的标准偏差V(f，t)的方法，例如使用：

·对输入信号频谱X(f，t)的开始数十帧与噪声平均频谱N(f，t)的偏差进行评价，或

·事先求出声音区间与非声音区间，在非声音区间中求出输入信号频谱X(f，t)的标准偏差，来将其作为噪声的标准偏差V(f，t)等公知的方法进行计算。

暂时推定声音以及暂时推定声音的可靠度计算部3a中，使用与图1的暂时推定声音计算部3相同的方法来求出暂时推定声音S’(f，t)，并使用由噪声平均频谱以及噪声的标准偏差计算部2a计算出的噪声的标准偏差V(f，t)，来计算出上述推定声音S’(f，t)的可靠度(推定误差范围)。

具体来说，作为S’(f，t)的可靠度，

·直接使用噪声的标准偏差V(f，t)，或者，

·还可以使用，将噪声的标准偏差V(f，t)用后验SNR的值

η(f，t)＝X(f，t)/N(f，t) …(5)

的倒数的值加权所得到的值。

使用标准模式的暂时推定声音的修正部5b，使用标准模式4对暂时推定声音以及暂时推定声音的可靠度计算部3a所计算出的暂时推定声音S’(f，t)进行修正。

此时，使用暂时推定声音的可靠度计算部3a所计算出的暂时推定声音S’(f，t)的可靠度，来限制修正的范围。

具体来说，在使用标准模式所修正的暂时推定声音<S>的值，收于从暂时推定声音S’(f，t)的值中减去噪声的标准偏差V(f，t)得到的范围

S’(f，t)-V(f，t)≤<S(f，t)>≤S’(f，t)+V(f，t) …(6)的情况下，将暂时推定值S’(f，t)替换成修正值<S>，此外的情况下不进行替换等。

接下来，对本实施方式的效果进行说明。

本实施方式中，通过在暂时推定声音的修正中考虑基于噪声标准偏差的可靠度，具有抑制基于标准模式的修正发生明显偏差的效果。

本发明的第3实施方式中，1、2a、3a、5b的各个部的至少一个可由计算机程序来实现，该计算机程序被存储在介质中并被加载到构成噪声抑制***的计算机中且实施对应的机构的功能处理。

[第4实施方式]

接下来，对照附图对本发明的第4实施方式进行详细说明。图5为表示本发明的第4实施方式之构成的图。参照图5，本发明的第4实施方式，除了图1所示的第1实施方式的构成之外，还具有：根据由暂时推定声音修正部5所修正的暂时推定声音、和噪声平均频谱计算部2所计算出的噪声平均频谱，计算出噪声降低滤波器的噪声降低滤波器计算部6；以及根据噪声降低滤波器计算部6所计算出的噪声降低滤波器、和输入信号取得部1所取得的输入信号频谱X，计算出推定声音的推定声音计算部7。

接下来对本实施方式的动作进行详细说明。

噪声降低滤波器的计算部6，根据使用标准模式的暂时推定声音的修正部5所修正的暂时推定声音<S(f，t)>、以及噪声平均频谱计算部2所计算出的噪声平均频谱N(f，t)，计算出噪声降低滤波器。

具体来说，将所修正的暂时推定声音<S(f，t)>变形为线性频谱，求取先验SNR η(f，t)，得到：

η(f，t)＝<S(f，t)>/N(f，t) …(7)

上述先验SNR η(f，t)，可以使用前一个帧的先验SNRη(f，t-1)，并像以下这样，平滑化来求出。

η(f，t)＝β×η(f，t-1)+(1-β)×<S(f，t)>/N(f，t) …(8)

其中，β(0≤β≤1)是控制平滑化的参数。

除了上述例子之外，还可以：

·进行帧的预读取，使用前后的数帧来进行平滑化。或者，不是在帧的方向而是在频率方向上进行平滑化，或者使用其组合。

噪声降低滤波器W(f，t)，作为：

W(f，t)＝η(f，t)/(1+η(f，t)) …(9)

计算出来。

最后，计算推定声音的推定声音计算部7中，使用由噪声降低滤波器的计算部6所计算出的噪声降低滤波器W(f，t)以及输入信号取得部1所取得的输入声音X(f，t)，来计算出推定声音S(f，t)：

S(f，t)＝W(f，t)×X(f，t) …(10)

接下来对本实施方式的效果进行说明。

本实施方式中，使用修正过的暂时推定声音，计算出先验SNR，使用噪声降低滤波器来求出最终的推定声音。由于构成标准模式的声音的模式数目有限，因此能够避免被量化，从而能够得到高精度的推定声音。

本发明的第4实施方式中，1、2、3、5、6、7的各个部的至少一个可由计算机程序来实现，该计算机程序被存储在介质中并被加载到构成噪声抑制***的计算机中且实施对应的机构的功能处理。

[第5实施方式]

图6为表示本发明的第5实施方式之构成的图。参照图6，本发明的第5实施方式，相对上述第4实施方式的构成，将根据暂时推定声音修正部5所修正的暂时推定声音、以及噪声平均频谱的计算部2所计算出的噪声平均频谱计算出噪声降低滤波器的噪声降低滤波器计算部6，变更为根据由暂时推定声音修正部5所修正的暂时推定声音、噪声平均频谱的计算部2所计算出的噪声平均频谱、以及输入信号取得部1所取得的输入信号来计算出噪声降低滤波器的噪声降低滤波器的计算部6a。

接下来对本实施方式与上述第4实施方式不同的动作进行详细说明。

本实施方式中，噪声降低滤波器计算部6a，使用与噪声降低滤波器计算部6相同的方法求出先验SNR η(f，t)，此外还使用输入信号频谱X(f，t)与噪声平均频谱N(f，t)，来求取后验SNR γ(f，t)，得到

γ(f，t)＝X(f，t)/N(f，t) …(11)

噪声降低滤波器W(f，t)，使用将先验SNR η(f，t)与后验SNRγ(f，t)组合起来得到的滤波器(非专利文献2中的MMSE(minimum meansquare error)滤波器等)。

[第6实施方式]

图7为表示本发明的第6实施方式之构成的图。参照图7，本发明的第6实施方式，除了上述第1实施方式的构成之外，还具有收敛判断部8，如果使用标准模式的暂时推定声音修正部5所计算出的修正声音满足某个条件则送往输出，如果不满足则再次发送给使用标准模式的修正部5。

这里的条件，例如可以考虑：

·“重复处理N次时”或，

·“在新计算出的修正值与前1次的修正值之差为某个阈值以下时”等各种判断手段。

接下来对本实施方式的效果进行说明。

本实施方式中，通过多次重复处理，能够逐渐逼近真值，从而能够得到高精度的推定声音。

本发明的第6实施方式中，1、2、3、5、8的各个部的至少一个可由计算机程序来实现，该计算机程序被存储在介质中并被加载到构成噪声抑制***的计算机中且实施对应的机构的功能处理。

[第7实施方式]

图8为表示本发明的第7实施方式之构成的图。参照图8，本发明的第7实施方式，相对上述第1实施方式的构成，具有取得多个输入信号X1～XK的机构1a，作为取得输入信号X的输入信号取得部1。例如，在使用两个麦克风的情况下，可以将一个麦克风用于声音输入，另一个麦克风用于噪声输入。另外，可以根据方向将两个麦克风的输入信号相加、相减或倍增等之后，传送给暂时推定声音计算部3b与噪声频谱计算部2b。当然还可以使用更多的麦克风。

接下来对本实施方式的效果进行说明。

根据本实施方式，通过准备多个输入，能够提高暂时推定声音与噪声频谱的精度，结果是能够得到高精度的推定声音。

另外，上述第1至第7实施方式可以互相组合。

本发明的第7实施方式中，1a、2b、3b、5的各个部的至少一个可由计算机程序来实现，该计算机程序被存储在介质中并被加载到构成噪声抑制***的计算机中且实施对应的机构的功能处理。

[第8实施方式]

图9为表示本发明的第8实施方式之构成的图。参照图9，本发明的第8实施方式，由第1至第7实施方式的构成中的任意一个、或其组合而成的噪声抑制部12，以及使用由噪声抑制部12所输出的推定声音来进行声音识别的识别部13构成。

接下来对本实施方式的效果进行说明。

通过本实施方式，能够构建一种即使在高噪声的环境下识别率也很高的识别***。

本发明能够用于在有噪声的环境下将噪声成分去除，并只取出目的声音成分的用途。另外，还能够应用于噪声下的声音识别。

本发明的第8实施方式中，1、12、13的各个部的至少一个可由计算机程序来实现，该计算机程序被存储在介质中并被加载到构成噪声抑制***的计算机中且实施对应的机构的功能处理。

Claims

1.一种噪声抑制***，其特征在于，包括：

根据输入信号计算出噪声平均频谱的机构；

根据上述输入信号与上述噪声平均频谱，在频谱区域中求出暂时推定声音的机构；以及，

使用预先存储在存储部中的声音的标准模式，修正上述暂时推定声音的机构。

2.如权利要求1所述的噪声抑制***，其特征在于：

上述修正暂时推定声音的机构，包括：将在频谱区域中所求出的上述暂时推定声音变形成特征矢量的机构；以及，

使用特征矢量区域中的标准模式，对变形成了特征矢量的上述暂时推定声音进行修正的机构。

3.如权利要求1所述的噪声抑制***，其特征在于：

上述修正暂时推定声音的机构，假设概率分布为上述标准模式，

根据构成上述标准模式的概率分布输出暂时推定声音的概率、以及构成上述标准模式的概率分布的平均值，求出声音期待值，将上述声音期待值设为暂时推定声音的修正值。

4.如权利要求1所述的噪声抑制***，其特征在于：

上述修正暂时推定声音的机构，使用多个声音模式所构成的标准模式来对暂时推定声音进行修正，

选择最接近上述输入声音的标准模式来设为暂时推定声音的修正值，或通过将接近上述输入声音的多个声音的模式，根据暂时推定声音与各个声音模式间的距离进行加权平均，来设为上述暂时推定声音的修正值。

5.如权利要求1所述的噪声抑制***，其特征在于：

上述修正暂时推定声音的机构，包括求出噪声的标准偏差的机构，

考虑上述噪声的标准偏差来控制上述暂时推定声音的修正。

6.如权利要求5所述的噪声抑制***，其特征在于：

包括根据上述噪声的标准偏差计算出上述暂时推定声音与暂时推定声音的可靠度的机构，

考虑上述暂时推定声音的值与暂时推定声音的可靠度，来进行上述暂时推定声音的修正。

7.如权利要求1所述的噪声抑制***，其特征在于，包括：

根据上述修正过的暂时推定声音与上述噪声平均频谱，导出噪声降低滤波器的机构；以及，

对上述输入信号实施基于上述噪声降低滤波器的滤波，并由上述噪声降低滤波器的输出得到推定声音的上述推定声音计算机构。

8.如权利要求7所述的噪声抑制***，其特征在于：

上述导出噪声降低滤波器的机构，除了上述修正过的暂时推定声音与上述噪声平均频谱之外，还使用上述输入信号，来构成上述噪声降低滤波器。

9.如权利要求7所述的噪声抑制***，其特征在于：

上述导出噪声降低滤波器的机构，对修正过的推定声音或将修正过的推定声音除以噪声的平均频谱所得到的先验SNR，在时间方向、频率方向以及特征矢量维数中的至少1个方向上进行平滑化。

10.如权利要求1所述的噪声抑制***，其特征在于：

将使用标准模式修正暂时推定声音所得到的推定声音作为暂时推定值，并再次使用上述标准模式来修正上述暂时推定值，实施控制将这一处理重复进行多次。

11.如权利要求1所述的噪声抑制***，其特征在于：

上述根据输入信号计算出噪声的平均频谱的机构，根据多个输入信号中的至少1个输入信号计算出噪声的频谱；

上述根据输入信号与噪声平均频谱求出暂时推定声音的机构，根据多个输入信号中的至少1个输入信号与上述噪声的频谱，求出暂时推定声音。

12.如权利要求1所述的噪声抑制***，其特征在于：

上述修正暂时推定声音的机构，通过下式来求出上述暂时推定声音S’(f，t)的第k个的高斯分布的后验概率P(k|S’(f，t))，其中t为帧编号，：

P(k|S’(f，t))＝W^(k)p(S’(f，t)|μ_S ^(k)，σ_S ^(k))/∑_kW^(k)p(S’(f，t)|μ_S ^(k)，σ_S ^(k))

其中，k是GMM(Gaussian Mixed Model)的要素即高斯分布的脚注，k＝1，…，K：K为混合数，

W^(k)，是高斯分布k的权重，

p(S’(f，t)|μ_S ^(k)，σ_S ^(k))，是具有平均值μ_S ^(k)分散σ_S ^(k)的高斯分布输出推定声音S’的概率；

让暂时推定声音S’(f，t)对应上述标准模式所保持的声音的模式的形式；

并使用上述后验概率P(k|S’(f，t))，求出声音的期待值

<S(f，t)>＝∑_kμ_S ^(k)P(k|S’(f，t))，

并将其作为暂时推定声音S’(f，t)的修正值。

13.如权利要求1所述的噪声抑制***，其特征在于：

上述修正暂时推定声音的机构，

求出上述暂时推定声音S’(f，t)、与多个声音的模式所构成的上述标准模式的距离，其中t为帧编号：

d^(k)＝∑_f(S’(f，t)-μ_S ^(k)(f))²

其中，f是频率滤波器组编号，f＝1，…，Lf：Lf为频率滤波器组的数目，k＝1，…K，K为标准模式的数目，μ_S ^(k)是构成标准模式的声音的模式k的平均值，

选择使得暂时推定声音S’(f，t)与标准模式之间的距离最小的k，并将S’(f，t)的值，通过对应的标准模式进行替换，设为暂时推定声音S’(f，t)的修正值。

14.如权利要求1所述的噪声抑制***，其特征在于：

上述修正暂时推定声音的机构，

求出上述暂时推定声音S’(f，t)与由多个声音的模式所构成的上述标准模式的距离，其中t为帧编号：

d^(k)＝∑_f(S’(f，t)-μ_S ^(k)(f))²

并选择多个暂时推定声音S’(f，t)与标准模式之间的距离接近者，并将根据距离进行了加权平均之后者，作为暂时推定声音S’(f，t)的修正值。

15.如权利要求7所述的噪声抑制***，其特征在于：

上述导出噪声降低滤波器的机构，根据上述噪声平均频谱N(f，t)、与上述暂时推定声音<S(f，t)>，计算出先验SNR η(f，t)＝<S(f，t)>/N(f，t)，其中t为帧编号，

并对上述先验SNRη(f，t)，构成噪声降低滤波器W(f，t)，

W(f，t)＝η(f，t)/(1+η(f，t))

上述推定声音计算机构，使用上述噪声降低滤波器W(f，t)与输入信号频谱X(f，t)，通过频率区域中的相乘，计算出推定声音S(f，t)：

S(f，t)＝W(f，t)×X(f，t)。

16.如权利要求15所述的噪声抑制***，其特征在于：

上述导出噪声降低滤波器的机构，上述先验SNRη(f，t)，其中t为帧编号，使用前一个帧的η(f，t-1)，并通过：η(f，t)＝β×η(f，t-1)+(1-β)×<S(f，t)>/N(f，t)

进行平滑化来求出，其中β是控制平滑化的参数且0≤β≤1。

17.如权利要求7所述的噪声抑制***，其特征在于：

上述导出噪声降低滤波器的机构，求出：根据上述噪声平均频谱N(f，t)、与上述暂时推定声音<S(f，t)>计算出的先验SNRη(f，t)，以及根据上述噪声平均频谱N(f，t)以及上述输入信号频谱X(f，t)计算出的后验SNRγ(f，t)，

上述噪声降低滤波器W(f，t)，使用将先验SNRη(f，t)与后验SNRγ(f，t)组合起来得到的滤波器；

上述推定声音计算机构，使用上述噪声降低滤波器W(f，t)与输入声音频谱X(f，t)，通过频率区域中的相乘，计算出推定声音S(f，t)：

S(f，t)＝W(f，t)×X(f，t)。

18.一种信号强调***，其特征在于：

具有如权利要求1所述的噪声抑制***，

并对上述输入信号中所含有的声音进行强调。

19.一种声音识别装置，其特征在于：

具有如权利要求1所述的噪声抑制***，

上述噪声抑制***中，包含将噪声被抑制的声音信号输入并进行声音识别的机构。

20.一种噪声抑制方法，从输入信号中抑制噪声并推定声音，其特征在于，包括：

根据上述输入信号计算出噪声的平均频谱的工序；

根据上述输入信号与上述噪声的平均频谱，在频谱区域中求出暂时推定声音的工序；以及，

使用存储在存储部中的声音的标准模式，修正上述暂时推定声音的工序。

21.如权利要求20所述的噪声抑制方法，其特征在于，包括：

将在频谱区域中所求出的上述暂时推定声音变形成特征矢量的工序；以及，

使用特征矢量区域中的标准模式，对变形成特征矢量的上述暂时推定声音进行修正的工序。

22.如权利要求20所述的噪声抑制方法，其特征在于：

上述修正暂时推定声音的工序中：

假设概率分布为上述标准模式；

23.如权利要求20或21所述的噪声抑制方法，其特征在于：

上述修正暂时推定声音的工序中：

24.如权利要求20所述的噪声抑制方法，其特征在于，包括：

根据上述暂时推定声音的修正值与上述噪声平均频谱，计算出噪声降低滤波器的工序；以及，

对上述输入信号实施上述噪声降低滤波，来得到推定声音的工序。

25.一种程序，让将输入信号输入、抑制噪声并推定声音的计算机，执行以下处理：

根据输入信号计算出噪声的平均频谱的处理；

根据上述输入信号与上述噪声的平均频谱，在频谱区域中求出暂时推定声音的处理；以及，

使用预先存储在存储部中的声音的标准模式，修正上述暂时推定声音的处理。

26.如权利要求25所述的程序，其特征在于：

上述修正暂时推定声音的处理包括：

27.如权利要求25或26所述的程序，其特征在于：

上述修正暂时推定声音的处理中：

假设概率分布为上述标准模式；根据构成上述标准模式的概率分布输出暂时推定声音的概率、以及构成上述标准模式的概率分布的平均值，求出声音期待值，并将上述声音期待值设为暂时推定声音的修正值。

28.如权利要求25所述的程序，其特征在于：

上述修正暂时推定声音的处理：

使用多个声音的模式所构成的标准模式，对暂时推定声音进行修正；

29.如权利要求25所述的程序，其特征在于，还让上述计算机执行以下处理：

根据修正过的推定声音与噪声平均频谱，计算出噪声降低滤波器的处理；以及，

对输入信号实施上述噪声降低滤波，来得到推定声音的处理。

30.一种程序，其特征在于，让构成声音识别装置的计算机执行：

将噪声被权利要求25所述的程序所实施的处理抑制了的声音信号输入，并进行声音识别的处理。