JP5300861B2

JP5300861B2 - 雑音抑圧装置

Info

Publication number: JP5300861B2
Application number: JP2010536590A
Authority: JP
Inventors: 裕久田崎; 訓古田
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2008-11-04
Filing date: 2008-11-04
Publication date: 2013-09-25
Anticipated expiration: 2028-11-04
Also published as: US8737641B2; WO2010052749A1; US20110123045A1; EP2362389B1; JPWO2010052749A1; EP2362389A1; CN102132343A; EP2362389A4; CN102132343B

Description

この発明は、種々の雑音環境下で用いられる音声通信システムや音声認識システム等において、音声・音響信号などの目的信号以外の雑音を抑圧して、携帯電話などの音声通信システム・ハンズフリー通話システム・ＴＶ会議システム等の音質改善や、音声認識システムの認識率の向上等を行う雑音抑圧装置に関するものである。

雑音が混入した入力信号から目的外信号である雑音を抑圧することで、目的信号である音声信号などを強調する雑音抑圧処理の代表的な手法として、例えば、スペクトルサブトラクション（ＳｐｅｃｔｒａｌＳｕｂｔｒａｃｔｉｏｎ：ＳＳ）法があり、これは振幅スペクトルから別途推定した平均的な雑音スペクトルを減算することにより雑音抑圧を行うものである（例えば、非特許文献１）。

スペクトルサブトラクション法などの雑音抑圧処理を行った場合、雑音スペクトルの推定誤差が雑音抑圧処理後の信号に歪として残留し、これが処理前の信号と大きく異なる特性を持つ上、耳障りな雑音（人工的な雑音、ミュージカルトーンとも呼ばれる）として出現するので、出力信号の主観品質を大きく劣化させることがある。

上記のような主観的な劣化感を抑制する方法として例えば特許文献１に開示されているものがある。特許文献１は、雑音区間ではミュージカルノイズが発生せず、音声区間での歪みも発生しない雑音抑圧装置を提供することを目的としており、入力信号から目的信号区間と雑音信号区間を判定する音声・雑音判定部と、入力信号と推定雑音信号とから第１の抑圧係数に応じて雑音抑圧をする雑音抑圧部と、入力信号と推定雑音信号とから第１の抑圧係数よりも大きな第２の抑圧係数に応じて雑音抑圧をする雑音過剰抑圧部と、音声・雑音判定部の判定結果に応じて雑音抑圧部の出力信号と雑音過剰抑圧部の出力信号とを切り替える切替部を備えている。

Steven F. Boll, "Suppression of Acoustic noise in speech using spectral subtraction"，IEEE Trans. ASSP, Vol. ASSP-27, No.2, April 1979. 特開２００５−１９５９５５号公報（第８頁〜第９頁、図１、図２）

従来の雑音抑圧装置は以上のように構成されているので、音声・雑音判定部の判定結果に応じて雑音抑圧部の出力信号と雑音過剰抑圧部の出力信号とを切り替えを行っており、誤判定による品質劣化を避けられないという課題があった。また、音声信号、雑音信号は千差万別で、時間変動を伴うため、１００％正しい判定は困難であるという課題があった。

特に、雑音信号区間を音声信号区間と誤判定すると、同区間でミュージカルノイズが発生し、大きく品質劣化するという課題があった。

また、音声信号区間であっても、周波数帯域別にみた場合、音声成分が極めて小さく、雑音成分が支配的な帯域があると、この帯域でミュージカルノイズが発生し、大きく品質劣化するという課題があった。

さらに、音声信号区間を雑音信号区間と誤判定した場合には、入力信号の加算によって音声の抑圧を軽減しているが、同じ音声信号区間内で頻繁に誤判定が挿入されると、不安定な変動が感じられて、品質劣化するという課題があった。

この発明は、上記のような課題を解決するためになされたもので、ミュージカルノイズの発生を大きく軽減した高音質の雑音抑圧装置を提供することを目的とする。

この発明に係る雑音抑圧装置は、雑音が含まれる音声信号の入力スペクトルに対して雑音抑圧処理を行い、得られた雑音抑圧スペクトルを出力する複数の雑音抑圧部と、各周波数成分毎に、前記複数の雑音抑圧スペクトルの値を比較し、最大値を有する雑音抑圧スペクトルを選択して当該周波数成分のスペクトルとして出力する選択部とを備え、各周波数成分のスペクトルにより過抑圧を抑制するものである。

この発明によれば、過抑圧されていないスペクトルが選択されることで、ミュージカルノイズを大きく軽減でき、音声信号区間における不安定な変動が少ない高品質な雑音抑圧装置を実現することができる。

実施の形態１の雑音抑圧装置の構成を示すブロック図である。実施の形態１におけるスペクトル成分の時間推移の一例を示す模式図である。実施の形態２の雑音抑圧装置の構成を示すブロック図である。実施の形態２におけるスペクトル成分の時間推移の一例を示す模式図である。

以下、この発明をより詳細に説明するために、この発明を実施するための最良の形態について、添付の図面に従って説明する。
実施の形態１．
図１は、実施の形態１に係る雑音抑圧装置の構成を示すブロック図である。
雑音抑圧装置は、時間・周波数変換部１、音声らしさ分析部２、雑音スペクトル推定部３、第１の雑音抑圧部４、第２の雑音抑圧部５、最大振幅選択部６および周波数・時間変換部７で構成されている。
また、第１の雑音抑圧部４は、ＳＮ推定部４ａおよびスペクトル振幅抑圧部４ｂで構成され、第２の雑音抑圧部５は、スペクトル減算部５ａおよびスペクトル振幅抑圧部５ｂで構成されている。

次に、この雑音抑圧装置の動作原理について説明する。
まず、入力信号１０１が所定のサンプリング周波数（例えば、８ｋＨｚ）でサンプリングされ、所定のフレーム周期（例えば、２０ｍｓｅｃ）にフレーム分割されて、時間・周波数変換部１および音声らしさ分析部２に入力される。

時間・周波数変換部１は、フレーム周期に分割された入力信号１０１に対して窓掛け処理を行い、窓掛け後の信号に対して、例えば２５６点のＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ：高速フーリエ変換）を用いて、周波数毎のスペクトル成分である入力スペクトル１０２に変換し、音声らしさ分析部２、雑音スペクトル推定部３、ＳＮ推定部４ａ、スペクトル振幅抑圧部４ｂ、スペクトル減算部（減算部）５ａおよびスペクトル振幅抑圧部（振幅抑圧部）５ｂへ出力する。窓掛け処理には、例えばハニング窓、台形窓など公知の手法を用いることができる。また、ＦＦＴは周知の手法であるので説明は省略する。

音声らしさ分析部２は、入力信号１０１、時間・周波数変換部１が出力する入力スペクトル１０２、および後述する雑音スペクトル推定部３の内部メモリ等に格納されている前フレームの推定雑音スペクトル１０４を用いて、現フレームの入力信号が、音声あるいは雑音であるかどうかの度合いとして、例えば、音声の可能性が高い場合には大きな評価値を取り、音声の可能性が低い場合には小さな評価値を取るような、音声らしさ評価値１０３の算出を行い、これを雑音スペクトル推定部３に出力する。

音声らしさ評価値１０３の算出方法として、例えば、入力信号１０１の自己相関分析結果の最大値や、入力スペクトル１０２のパワーと推定雑音スペクトル１０４のパワーの比から算出できるフレームＳＮ比を、それぞれ単独あるいは組み合わせて用いることが可能である。ここで、入力信号１０１の自己相関分析の最大値ＡＣＦ_maxは式（１）、フレームＳＮ比ＳＮＲ_frについては式（２）によりそれぞれ算出される。推定雑音スペクトル１０４は、後述する雑音スペクトル推定部３の内部メモリに格納されている前フレームのものを読み出して用いる。

ここで、ｘ（ｔ）は時間ｔにおけるフレーム分割された入力信号１０１、Ｎは自己相関分析区間長、Ｓ（ｋ）は入力スペクトル１０２の第ｋ番目の成分、Ｎ（ｋ）は推定雑音スペクトル１０４の第ｋ番目の成分、ＭはＦＦＴポイント数である。

上記式（１）で求められた自己相関分析の最大値ＡＣＦ_maxと、式（２）で求められたフレームＳＮ比ＳＮＲ_frから、音声らしさ評価値ＶＡＤは次式によって算出される。

ここで、ＳＮＲ_normはＳＮＲ_frの値を０〜１の範囲内に正規化するための所定の値、ｗ_ACFおよびｗ_SNRは重み付けのための所定の値であり、それぞれ騒音の種類や騒音のパワーに応じて、音声らしさ評価値が好適に判定できるように予め調整すればよい。ＡＣＦ_maxは、式（１）の性質から、０〜１の範囲の値を取る。以上の処理によって算出された音声らしさ評価値１０３は雑音スペクトル推定部３に出力される。

また、式（３）において、ｗ_ACFあるいはｗ_SNRの値のどちらかを０に設定することにより、０以外に設定した方のパラメータ単独で音声らしさ評価値１０３を算出することも可能である。具体的には、ｗ_SNRを０にした場合、自己相関分析の最大値ＡＣＦ_maxのみで音声らしさ評価値１０３を求めることとなる。

さらに、音声らしさ評価値１０３の算出において、式（３）に示した指標・値以外の分析パラメータを追加することも可能である。例えば、入力スペクトル１０２と推定雑音スペクトル１０４とを用いて、周波数毎のスペクトル成分のＳＮ比を算出し、その周波数毎のスペクトル成分のＳＮ比の総和を取った値（総和が大きいほど、音声の可能性が高い）や、周波数毎のスペクトル成分のＳＮ比の分散（分散が大きいほど、音声の調波構造が現れていることとなり、音声の可能性が高い）を利用するなど、適宜変更可能である。

雑音スペクトル推定部３は、音声らしさ分析部２から入力される音声らしさ評価値１０３を参照し、現フレームの入力信号の様態が音声の可能性が低い場合、現フレームの入力スペクトル１０２を用いて、内部メモリ（図示せず）などに格納されている前フレームの推定雑音スペクトルの更新を行い、更新した結果を推定雑音スペクトル１０４として、ＳＮ推定部４ａと、スペクトル減算部５ａとに出力する。推定雑音スペクトルの更新は、例えば、以下の式（４）に従って入力スペクトルを反映することにより行う。

ここで、ｎはフレーム番号、Ｎ（ｎ−１，ｋ）は更新前の推定雑音スペクトル、Ｓ_noise（ｎ，ｋ）は音声の可能性が低いと判断された現フレームの入力スペクトル、Ｎ（ｎ，ｋ）チルダは更新後の推定雑音スペクトルである。また、α（ｋ）は０〜１の値を取る所定の更新速度係数であり、比較的０に近い値を設定すると良い。また、高域になるに従って、係数値をやや大きくした方が良い場合があり、雑音の種類などに応じて調整すると良い。

なお、この推定雑音スペクトルの更新方法については、更に推定精度や推定追従性を向上させるために、音声らしさ評価値１０３の値に応じて複数の更新速度係数を適用する、フレーム間での入力スペクトルのパワーや推定雑音スペクトルのパワーの変動性を参照し、これらの変動が大きい場合には更新速度を速めるような更新速度係数を適用する、ある一定時間において、最もパワーが小さい、あるいは音声らしさ評価値が最も小さいフレームの入力スペクトルで推定雑音スペクトルを置き換える（リセットする）など、適宜変更可能である。また、音声らしさ評価値１０３の値が十分大きい場合、すなわち、現フレームの入力信号が確率的に音声の可能性が高い場合には、推定雑音スペクトルの更新を行わなくても良い。

第１の雑音抑圧部４では、ＳＮ推定部４ａが、入力スペクトル１０２および推定雑音スペクトル１０４に基づいて推定ＳＮ比を算出し、スペクトル振幅抑圧部４ｂが、この推定ＳＮ比に基づいて振幅抑圧ゲインを算出すると共に、この振幅抑圧ゲインに入力スペクトル１０２を乗じ、得られた結果を第１の雑音抑圧スペクトル１０５として最大振幅選択部６に出力する。

なお、ＳＮ推定部４ａにおける推定ＳＮ比の算出は、例えば、上述した式（２）のフレームＳＮ比の算出と同様に実施することができる。音声らしさ分析部２にてフレームＳＮ比を算出している場合には、これをそのまま、もしくは時間方向の平滑化などの適切な加工を行って推定ＳＮ比としてもよい。

スペクトル振幅抑圧部４ｂにおける振幅抑圧ゲインの算出は、推定ＳＮ比が高いフレームでは大きい振幅抑圧ゲイン、推定ＳＮ比が低いフレームでは小さい振幅抑圧ゲインとなるように行う。但し、その振幅抑圧ゲインについては、後述する第２の雑音抑圧部５の雑音信号区間における大半の振幅抑圧ゲイン（入力スペクトル１０２と後述する第２の雑音抑圧スペクトル１０６の振幅比）より大きい値となるように設定しておく。
例えば、推定ＳＮ比と、入力スペクトル１０２のパワーとを用いて、当該フレームの音声パワー、すなわち雑音を取り除いた時のパワーを推定し、第１の雑音抑圧スペクトル１０５のパワーがこれに一致するように振幅抑圧ゲインを求め、この振幅抑圧ゲインが所定の下限値以下となる場合には下限値に置換すればよい。

一方、第２の雑音抑圧部５では、入力スペクトル１０２に対して、スペクトル減算部５ａが推定雑音スペクトル１０４に基づくスペクトル減算処理を行い、減算後のスペクトルに対して、スペクトル振幅抑圧部５ｂが周波数毎のスペクトル成分に減衰量を与えるスペクトル振幅抑圧を行い、得られた結果を第２の雑音抑圧スペクトル１０６として最大振幅選択部６に出力する。
ここで、雑音信号区間における、第２の雑音抑圧部５全体の振幅抑圧ゲイン（入力スペクトル１０２と第２の雑音抑圧スペクトル１０６の振幅比）の変動が少なくなるように、スペクトル振幅抑圧部５ｂの減衰量の適応制御を行うようにする。

なお、この第２の雑音抑圧部５の構成として、例えば、特許第３４５４１９０号「雑音抑圧装置および方法」に記載のものを適用することが可能である。
また、スペクトル振幅抑圧部５ｂとスペクトル減算部５ａの順序を逆にして、入力スペクトル１０２に対して、スペクトル振幅抑圧部５ｂが周波数毎のスペクトル成分に減衰量を与えるスペクトル振幅抑圧を行い、振幅抑圧後のスペクトルに対して、スペクトル減算部５ａが推定雑音スペクトル１０４に基づくスペクトル減算処理を行い、得られた結果を第２の雑音抑圧スペクトル１０６として最大振幅選択部６に出力する構成も可能である。

最大振幅選択部６は、第１の雑音抑圧スペクトル１０５と第２の雑音抑圧スペクトル１０６を比較し、周波数毎に大きい方のスペクトル成分を選択し、選択した大きい方のスペクトル成分を集めて出力スペクトル１０７として周波数・時間変換部７に出力する。

周波数・時間変換部７は、最大振幅選択部６から入力された出力スペクトル１０７に逆ＦＦＴ処理を行って時間領域信号に戻し、前後フレームとの滑らかな接続のための窓掛け処理を行うと共に連接を行い、得られた信号を出力信号１０８として出力する。

図２は、ある周波数のスペクトル成分の時間推移を示している。図２（ａ）は入力スペクトル、図２（ｂ）は第１の雑音抑圧スペクトル、図２（ｃ）は第２の雑音抑圧スペクトル、図２（ｄ）は出力スペクトルの時間推移を示している。各図において、横軸は時間、縦軸は振幅を示している。さらに、白抜きの棒グラフは雑音の振幅を示し、斜線の棒グラフは音声の振幅を示しており、時間軸に対して前半の５区間が雑音信号区間、後半の３区間が雑音が重畳した音声信号区間である。

第１の雑音抑圧部４では、上述のように推定ＳＮ比に基づいて振幅抑圧ゲインを算出し、この振幅抑圧ゲインを図２（ａ）に示す入力スペクトル１０２に乗じることで、図２（ｂ）に示す第１の雑音抑圧スペクトル１０５を得る。雑音信号区間では、推定ＳＮが低いので小さい振幅抑圧ゲインが算出され、第１の雑音抑圧スペクトルの振幅値が小さくなる。音声信号区間では、推定ＳＮが高いので大きい振幅抑圧ゲインが算出され、第１の雑音抑圧スペクトルの振幅値があまり小さくならない。なお、音声信号区間の先頭付近では推定ＳＮを低く誤りやすく、このため図２（ｂ）に示すように、実際の音声の振幅以上に抑圧されて、音声の途切れ感を発生する場合がある。

第２の雑音抑圧部５では、図２（ａ）に示す入力スペクトル１０２から、推定雑音スペクトル１０４に基づく減算および振幅抑圧を行うことで、図２（ｃ）に示すように、雑音信号区間の振幅が概ね小さくなり、音声信号区間の振幅が音声の振幅に近づいた第２の雑音抑圧スペクトル１０６が得られる。しかしながら、雑音の変動や音声らしさ評価値の誤差によって、推定雑音スペクトル１０４が実際の値以上に大きくなると、図２（ｃ）に示すように、雑音信号区間では残留雑音が島状に残り、耳障りな人工的な雑音（ミュージカルノイズ）を発生し、音声信号区間では過抑圧によって音声の途切れ感が発生してしまう。

図２（ｄ）は、最大振幅選択部６において、図２（ｂ）の第１の雑音抑圧スペクトル１０５と、図２（ｃ）の第２の雑音抑圧スペクトル１０６の大きい方を選択して得られた出力スペクトル１０７を示している。第１の雑音抑圧部４における振幅抑圧ゲインを、第２の雑音抑圧部５の雑音信号区間における大半の振幅抑圧ゲインより大きい値となるように設定してあるので、雑音信号区間では、大半が第１の雑音抑圧スペクトル１０５の振幅が大きくなり、出力スペクトル１０７として選択される。これにより雑音信号区間における島状の残留雑音がなくなり、ミュージカルノイズが解消する。また音声信号区間では、過抑圧が少ない方が選択されるので、過抑圧が抑制された出力スペクトル１０７が得られ、音声の途切れ感が軽減される。

なお、上述した実施の形態１では、第１の雑音抑圧部４および第２の雑音抑圧部５の２つの雑音抑圧部を備える構成としたが、３つ以上の雑音抑圧部を備えて最大振幅選択部６が３つ以上の雑音抑圧スペクトルから、周波数毎にスペクトル成分の最大の値を選択するように構成しても良い。
また、第２の雑音抑圧部５に、スペクトル減算部５ａおよびスペクトル振幅抑圧部５ｂを備える構成としたが、これに限るものではなく、例えばスペクトル減算部５ａのみを備える構成としても構わない。

さらに、上述した実施の形態１では、推定雑音スペクトル１０４の推定を音声らしさ分析部２および雑音スペクトル推定部３が行うように構成したが、推定雑音スペクトル１０４を得る手段としてはこの構成に限られるものではない。
例えば、雑音スペクトル推定部３における更新速度を非常にゆっくりとし、常に更新を行うように構成することで、音声らしさ分析部２を省略したり、推定雑音スペクトル１０４の推定を入力信号１０１から行わずに、雑音のみが入力される雑音推定用の入力信号から別途分析・推定する方法を取っても良い。

以上のように、この実施の形態１によれば、各周波数成分毎に、第１および第２の雑音抑圧部４，５が出力した第１および第２の雑音抑圧スペクトル１０５，１０６の値を比較し、値が最も大きいものを選択して当該周波数成分の値とした出力スペクトル１０７を得るように構成したので、過抑圧されていないスペクトルが選択されることで、ミュージカルノイズを大きく軽減でき、音声信号区間における不安定な変動が少ない高品質な雑音抑圧装置を実現することができる。
また、周波数成分毎の大小比較に基づきスペクトル選択を行うので、音声・雑音判定などに基づいて雑音抑圧部の出力の一方を選択する従来技術のように雑音抑圧部が全周波数成分を一括して切り替えることがなく、スペクトルの大きな変動の発生を抑制し、音声・雑音判定の誤りにより品質劣化を防止し、さらに音声信号区間の雑音成分が支配的な帯域でのミュージカルノイズの発生を抑制することができる。

また、この実施の形態１によれば、第１の雑音抑圧部４の振幅抑圧ゲインを、第２の雑音抑圧部５の雑音信号区間における大半の振幅抑圧ゲインより大きい値とするように設定し、雑音信号区間では概ね第１の雑音抑圧部４の出力が選択されるように構成したので、雑音信号区間では、ミュージカルノイズが発生しない振幅抑圧だけが行われた出力となり、品質を向上させることができる。
また、複数の雑音抑圧部を備えた場合、その他の雑音抑圧部では雑音信号区間のミュージカルノイズ発生を容認して、音声信号区間の品質がよい方式を適用できるので、音声信号区間でも高品質な雑音抑圧を実現することができる。

さらに、この実施の形態１によれば、第１の雑音抑圧部４の振幅抑圧ゲインを、推定ＳＮ比が高い時には大きい値とし、推定ＳＮ比が低い時には小さい値とするように構成したので、音声信号区間では小さい振幅抑圧ゲインとなり、その他の雑音抑圧部が過抑圧を起こした場合には第１の雑音抑圧部の出力が選択されるので、品質を向上させることができる。

さらに、この実施の形態１によれば、第２の雑音抑圧部５が、スペクトル減算とスペクトル振幅抑圧とを組み合わせて雑音抑圧スペクトルを生成するように構成したので、雑音信号区間における第２の雑音抑圧部５全体としての振幅抑圧ゲインの変動が少なくなるように、その内部のスペクトル振幅抑圧部５ｂの減衰量を適応制御することができ、雑音信号区間において概ね第１の雑音抑圧部の出力が選択されるように設定することが容易となる。これにより、雑音信号区間のミュージカルノイズをさらに抑制することができる。

実施の形態２．
図３は、この発明の実施の形態２に係る雑音抑圧装置の構成を示すブロック図である。実施の形態２に係る雑音抑圧装置は、第１雑音抑圧部をスペクトル振幅抑圧部のみで構成している。以下、実施の形態１と同一の構成には図１で使用した符号と同一の符号を付し、説明を省略または簡略化する。

第１の雑音抑圧部４では、時間・周波数変換部１から入力される入力スペクトル１０２に対してスペクトル振幅抑圧部４ｂ´が固定の振幅抑圧ゲインを乗じ、得られた結果を第１の雑音抑圧スペクトル１０５´として最大振幅選択部６に出力する。

図４は、ある周波数のスペクトル成分の時間推移を示している。図４（ａ）は入力スペクトル、図４（ｂ）は第１の雑音抑圧スペクトル、図４（ｃ）は第２の雑音抑圧スペクトル、図４（ｄ）は出力スペクトルの時間推移を示している。各図において、横軸は時間、縦軸は振幅を示している。さらに、白抜きの棒グラフは雑音の振幅を示し、斜線の棒グラフは音声の振幅を示しており、時間軸に対して前半の５区間が雑音信号区間、後半の３区間が雑音が重畳した音声信号区間である。

なお、図４（ａ）の入力スペクトルは実施の形態１における図２（ａ）と同一である。また、実施の形態２の雑音抑圧装置は、実施の形態１と同一の第２の雑音抑圧部５を備えているため、図４（ａ）の雑音抑圧スペクトルは実施の形態１における図３（ｃ）と同一であるため、説明を省略する。

第１の雑音抑圧部４のスペクトル振幅抑圧部４ｂ´では、固定の振幅抑圧ゲインを図４（ａ）に示す入力スペクトル１０２に乗じることで、図４（ｂ）に示す第１の雑音抑圧スペクトル１０５´を得る。固定の振幅抑圧ゲインを乗じるので、耳障りな人工的な雑音（ミュージカルノイズ）の発生もないが、単に振幅が小さくなるのみである。

図４（ｄ）は、最大振幅選択部６において図４（ｂ）の第１の雑音抑圧スペクトル１０５´と、図４（ｃ）の第２の雑音抑圧スペクトル１０６の大きい方を選択して得られた出力スペクトル１０７を示している。第１の雑音抑圧部４における振幅抑圧ゲインを、第２の雑音抑圧部５の雑音信号区間における大半の振幅抑圧ゲインより大きい値となるように設定してあるので、雑音信号区間では、大半が第１の雑音抑圧スペクトル１０５´の振幅が大きくなり、出力スペクトル１０７として選択される。これにより雑音信号区間における島状の残留雑音がなくなり、ミュージカルノイズが解消する。また音声信号区間では、大半が第２の雑音抑圧スペクトル１０６の振幅が大きくなり、出力スペクトル１０７として選択される。図示していないが、音声信号区間において、第２の雑音抑圧スペクトル１０６の振幅が極めて小さくなった場合には、第１の雑音抑圧スペクトル１０５´が選択される。これにより、一定レベルの音声が出力されて音声の途切れ感が軽減される。

なお、上述した実施の形態２では、第１の雑音抑圧部４および第２の雑音抑圧部５の２つの雑音抑圧部を備える構成としたが、３つ以上の雑音抑圧部を備えて最大振幅選択部６が３つ以上の雑音抑圧スペクトルから、周波数毎にスペクトル成分の最大の値を選択するように構成しても良い。
また、第２の雑音抑圧部５に、スペクトル減算部５ａおよびスペクトル振幅抑圧部５ｂを備える構成としたが、これに限るものではなく、例えばスペクトル減算部５ａのみを備える構成としても構わない。

さらに、上述した実施の形態２では、推定雑音スペクトル１０４の推定を音声らしさ分析部２および雑音スペクトル推定部３が行うように構成したが、推定雑音スペクトル１０４を得る手段としてはこの構成に限られるものではない。
例えば、雑音スペクトル推定部３における更新速度を非常にゆっくりとし、常に更新を行うように構成することで、音声らしさ分析部２を省略したり、推定雑音スペクトル１０４の推定を入力信号１０１から行わずに、雑音のみが入力される雑音推定用の入力信号から別途分析・推定する方法を取っても良い。

以上のように、この実施の形態２によれば、各周波数成分毎に、第１および第２の雑音抑圧部４，５が出力した第１および第２の雑音抑圧スペクトル１０５´，１０６の値を比較し、値が最も大きいものを選択して当該周波数成分の値とした出力スペクトル１０７を得るように構成したので、過抑圧されていないスペクトルが選択されることで、ミュージカルノイズを大きく軽減でき、音声信号区間における不安定な変動が少ない高品質な雑音抑圧装置を実現することができる。
また、周波数成分毎の大小比較に基づきスペクトル選択を行うので、音声・雑音判定などに基づいて雑音抑圧部の出力の一方を選択する従来技術のように雑音抑圧部が全周波数成分を一括して切り替えることがなく、スペクトルの大きな変動の発生を抑制し、音声・雑音判定の誤りにより品質劣化を防止し、さらに音声信号区間の雑音成分が支配的な帯域でのミュージカルノイズの発生を抑制することができる。

また、この実施の形態２によれば、第１の雑音抑圧部４の振幅抑圧ゲインを、第２の雑音抑圧部５の雑音信号区間における大半の振幅抑圧ゲインより大きい値とするように設定し、雑音信号区間では概ね第１の雑音抑圧部４の出力が選択されるように構成したので、雑音信号区間では、ミュージカルノイズが発生しない振幅抑圧だけが行われた出力となり、品質を向上させることができる。
また、複数の雑音抑圧部を備えた場合、その他の雑音抑圧部では雑音信号区間のミュージカルノイズ発生を容認して、音声信号区間の品質がよい方式を適用できるので、音声信号区間でも高品質な雑音抑圧を実現することができる。

さらに、この実施の形態２によれば、第２の雑音抑圧部５が、スペクトル減算とスペクトル振幅抑圧とを組み合わせて雑音抑圧スペクトルを生成するように構成したので、雑音信号区間における第２の雑音抑圧部５全体としての振幅抑圧ゲインの変動が少なくなるように、その内部のスペクトル振幅抑圧部５ｂの減衰量を適応制御することができ、雑音信号区間において概ね第１の雑音抑圧部の出力が選択されるように設定することが容易となる。これにより、雑音信号区間のミュージカルノイズをさらに抑制することができる。

実施の形態３．
上述した実施の形態１および実施の形態２では、各周波数成分毎に複数の雑音抑圧部４，５が出力した複数の雑音抑圧スペクトル１０５（１０５´），１０６の値を比較し、値が最も大きいものを選択して当該周波数成分の値とした出力スペクトル１０７を得る構成を示したが、複数の雑音抑圧スペクトルをそれぞれ時間領域信号に戻し、得られた複数の時間領域信号の中で最も大きいものを選択するように構成してもよい。

雑音抑圧スペクトルを時間領域信号に戻す手段としては、周波数・時間変換部７と同一のものを適用することが可能である。また、前後フレームとの滑らかな接続のための窓掛け処理を行う前に、値が最も大きいものを選択するように構成してもよい。

以上のように、この実施の形態３によれば、複数の雑音抑圧部が出力した複数の雑音抑圧スペクトルを時間領域信号に戻し、得られた複数の時間領域信号の中で値が最も大きいものを選択するように構成したので、過抑圧されていない信号が選択されることで、ミュージカルノイズを大きく軽減でき、音声信号区間における不安定な変動が少ない高品質な雑音抑圧装置を実現することができる。
また、時間領域信号の大小比較に基づき信号選択を行うので、音声・雑音判定などに基づいて雑音抑圧部の出力の一方を選択する従来技術のように雑音抑圧部が全周波数成分を一括して切り替えることがなく、信号の大きな変動の発生を抑制し、音声・雑音判定の誤りによる品質劣化を防止することができる。

以上のように、この発明は耳障りな雑音（ミュージカルノイズ）の発生を軽減し高品質な雑音抑圧に優れ、種々の雑音環境下でも用いられる音声通信システムや音声認識システムに幅広く適用することができる。

Claims

雑音が含まれる音声信号の入力スペクトルに対して雑音抑圧処理を行い、得られた雑音抑圧スペクトルを出力する複数の雑音抑圧部と、
各周波数成分毎に、前記複数の雑音抑圧スペクトルの値を比較し、最大値を有する雑音抑圧スペクトルを選択して当該周波数成分のスペクトルとして出力する選択部とを備え、
前記各周波数成分のスペクトルにより過抑圧を抑制することを特徴とする雑音抑圧装置。
雑音抑圧部は、第１の雑音抑圧部を有し、
前記第１の雑音抑圧部は、入力スペクトルに対して振幅抑圧ゲインを乗じることにより雑音抑圧スペクトルを生成し、
前記第１の雑音抑圧部の振幅抑圧ゲインは、他の雑音抑圧部の雑音信号区間のおける振幅抑圧ゲインよりも大きいことを特徴とする請求項１記載の雑音抑圧装置。
第１の雑音抑圧部は、入力スペクトルおよび過去のフレームから推定された雑音スペクトルに基づき算出される推定ＳＮ比が高い場合には振幅抑圧ゲインを大きい値とし、前記推定ＳＮ比が低い場合には振幅抑圧ゲインを小さい値とすることを特徴とする請求項２記載の雑音抑圧装置。
雑音抑圧部は、第２の雑音抑圧部を有し、
前記第２の雑音抑圧部は、スペクトル減算処理を行う減算部と、スペクトル振幅の抑圧を行う振幅抑圧部とを備えたことを特徴とする請求項２記載の雑音抑圧装置。