WO2012098579A1

WO2012098579A1 - 雑音抑圧装置

Info

Publication number: WO2012098579A1
Application number: PCT/JP2011/000257
Authority: WO
Inventors: 訓古田; 貴志須藤; 田崎　裕久
Original assignee: 三菱電機株式会社
Priority date: 2011-01-19
Filing date: 2011-01-19
Publication date: 2012-07-26
Also published as: JP5265056B2; CN103238183A; US20130216058A1; DE112011104737B4; US8724828B2; JPWO2012098579A1; CN103238183B; DE112011104737T5

Abstract

　補正スペクトル計算部６は、推定雑音スペクトルをそのばらつき度合いに応じて平滑化した補正スペクトルを求め、抑圧量制限係数計算部７が、補正スペクトルに基づき抑圧量制限係数を決定する。抑圧量計算部９が抑圧量制限係数に基づく抑圧係数を求め、スペクトル抑圧部１０で入力信号のスペクトル成分の振幅抑圧を行う。

Description

雑音抑圧装置

　この発明は、入力信号に重畳した背景雑音を抑圧する雑音抑圧装置に関する。

　近年のディジタル信号処理技術の進展に伴い、携帯電話による屋外での音声通話、自動車内でのハンズフリー音声通話、および音声認識によるハンズフリー操作が広く普及している。これらの機能を実現する装置は高騒音環境下で用いられることが多いため、音声と共にマイクに背景雑音も入力されてしまい、通話音声の劣化および音声認識率の低下などを招く。そのため、快適な音声通話および高精度の音声認識を実現するには、入力信号に混入した背景雑音を抑圧する雑音抑圧装置が必要である。

　従来の雑音抑圧方法としては、例えば、時間領域の入力信号を周波数領域の信号であるパワースペクトルに変換し、入力信号のパワースペクトルと、入力信号から別途推定した推定雑音スペクトルとを用いて雑音抑圧のための抑圧量を算出し、得られた抑圧量を用いて入力信号のパワースペクトルの振幅抑圧を行い、振幅抑圧されたパワースペクトルと入力信号の位相スペクトルを時間領域へ変換して雑音抑圧信号を得る方法がある（例えば、非特許文献１参照）。

　この従来の雑音抑圧方法では、音声のパワースペクトルと推定雑音パワースペクトルの比（ＳＮ比）に基づいて抑圧量を算出しているが、入力信号に重畳する雑音が時間・周波数方向にある程度定常な条件下で有効なものであり、時間・周波数方向で非定常な雑音が入力されると正しく抑圧量を算出することができず、ミュージカルトーンと呼ばれる耳障りな人工的な残留雑音が生じる課題がある。

　上記の課題に対し、例えば、雑音抑圧後の出力信号に対し、レベルを適宜調整した入力信号（原音）を付加することで、耳障りな残留雑音を聴感上目立たなくする方法が開示されている（例えば、特許文献１参照）。

　また別の方法として、安定した雑音抑圧をするために所定の目標スペクトルを予め設定し、残留雑音スペクトルがそれに近づくよう雑音抑圧量を制御することで、非定常騒音に対してもミュージカルノイズの発生を抑え、自然で安定した雑音抑圧を行う方法が開示されている（例えば、特許文献２参照）。

特許第３４５９３６３号公報（第５頁～６頁、図1）欧州特許出願公開第１９９５７２２号明細書

Ｙ．Ｅｐｈｒａｉｍ，　Ｄ．Ｍａｌａｈ，"Ｓｐｅｅｃｈ　Ｅｎｈａｎｃｅｍｅｎｔ　Ｕｓｉｎｇ　ａ　Ｍｉｎｉｍｕｍ　Ｍｅａｎ　Ｓｑｕａｒｅ　Ｅｒｒｏｒ　Ｓｈｏｒｔ－Ｔｉｍｅ　Ｓｐｅｃｔｒａｌ　Ａｍｐｌｉｔｕｄｅ　Ｅｓｔｉｍａｔｏｒ"，ＩＥＥＥ　Ｔｒａｎｓ．ＡＳＳＰ，ｖｏｌ．ＡＳＳＰ－３２，Ｎｏ．６　Ｄｅｃ．１９８４

　上記の従来法には、以下に述べる課題がある。

　特許文献１に記載の従来技術では、出力信号に所定の加工信号を付加しているので、出力信号の音色に変化が生じたり、音声信号が雑音的になったりするなどの課題があった。

　特許文献２に記載の従来技術では、所定の帯域のパワーに基づいて雑音抑圧後の残留雑音のスペクトルを所定の目標スペクトルに近づけるように制御しているので、特許文献１の従来技術による新たな課題は発生しないものの、以下に示すような課題がある。
　図６は特許文献２に記載の従来技術について模式的に説明する図であり、縦軸は振幅、横軸は周波数（０～４０００Ｈｚ）を示す。また、図６において、点線は推定雑音スペクトル、一点鎖線は所定の目標スペクトル、実線は特許文献２の方法により雑音抑圧を行った後の出力信号である残留雑音のスペクトル、破線は特許文献２の方法を導入しない場合、即ち、全帯域一定の抑圧量で抑圧した場合の残留雑音のスペクトルである。特許文献２の方法では残留雑音のスペクトルのレベルを目標スペクトルの振幅レベルに合うように、雑音抑圧のための最大抑圧量を制御するので、目標スペクトルの形状およびパワーが入力信号の推定雑音スペクトルのそれと大きく異なった場合、極端に抑圧過剰な帯域、および極端に抑圧不足な帯域が発生する。その結果、音声に歪みおよび雑音感が生じる課題があった。

　この発明は、上記のような課題を解決するためになされたもので、高品質な雑音抑圧装置を提供することを目的とする。

　この発明の雑音抑圧装置は、入力信号を時間領域から周波数領域へ変換したスペクトル成分と、当該入力信号から推定した推定雑音スペクトルとを用いて雑音抑圧のための抑圧係数を算出し、当該抑圧係数を用いて当該入力信号のスペクトル成分を振幅抑圧し、時間領域へ変換した雑音抑圧信号を生成する構成であって、推定雑音スペクトルの特徴を表す統計的情報を求め、当該統計的情報に基づいて推定雑音スペクトルを補正して補正スペクトルを生成する補正スペクトル計算部と、補正スペクトル計算部が生成した補正スペクトルに基づいて、雑音抑圧の上下限を規定する抑圧量制限係数を生成する抑圧量制限係数計算部と、抑圧量制限係数計算部が生成した抑圧量制限係数を用いて、抑圧係数を制御する抑圧量計算部とを備えるようにしたものである。

　この発明によれば、入力信号から推定した雑音スペクトルを補正して補正スペクトルを得て、その補正スペクトルから得られた抑圧量制限係数を用いてスペクトルゲインの制限処理を行うことにより、ミュージカルトーンの発生を抑制しつつ、極端に抑圧過剰および抑圧不足する帯域も生じずに良好な雑音抑圧を行うことのできる高品質な雑音抑圧装置を提供することができる。

この発明の実施の形態１に係る雑音抑圧装置の構成を示すブロック図である。実施の形態１における補正スペクトル計算部の内部構成を示すブロック図である。実施の形態１における補正スペクトル計算部での、平滑化処理の様子を模式的に表すグラフであり、図３（ａ）は平滑化前の推定雑音スペクトル、図３（ｂ）は平滑化後の推定雑音スペクトルを示す。実施の形態１における抑圧量制限係数計算部の内部構成を示すブロック図である。実施の形態１に係る雑音抑圧装置により雑音抑圧した残留雑音スペクトルの様子を模式的に表すグラフである。特許文献２に係る雑音抑圧方法により雑音抑圧した残留雑音スペクトルの様子を模式的に表すグラフである。

　以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態１．
　図１に示す雑音抑圧装置は、入力端子１と、フーリエ変換部２と、パワースペクトル計算部３と、音声・雑音区間判定部４と、雑音スペクトル推定部５と、補正スペクトル計算部６と、抑圧量制限係数計算部７と、ＳＮ比計算部８と、抑圧量計算部９と、スペクトル抑圧部１０と、逆フーリエ変換部１１と、出力端子１２とを備える。

　この雑音抑圧装置の入力としては、マイクロホン（図示せず）などを通じて取り込まれた音声および音楽などがＡ／Ｄ（アナログ・デジタル）変換された後、所定のサンプリング周波数（例えば、８ｋＨｚ）でサンプリングされると共にフレーム単位（例えば、１０ｍｓ）に分割された信号を用いる。

　以下、図１に基づいて、実施の形態１に係る雑音抑圧装置の動作原理を説明する。
　入力端子１は、上述のような信号を受け付けて、入力信号としてフーリエ変換部２へ出力する。

　フーリエ変換部２は、入力信号を例えばハニング窓掛けを行った後、次の式（１）のように２５６点の高速フーリエ変換を行って、時間領域の信号ｘ（ｔ）からスペクトル成分Ｘ（λ，ｋ）に変換する。得られたスペクトル成分Ｘ（λ，ｋ）は、パワースペクトル計算部３およびスペクトル抑圧部１０にそれぞれ出力される。

　ここで、λは入力信号をフレーム分割したときのフレーム番号、ｋはパワースペクトルの周波数帯域の周波数成分を指定する番号（以下、スペクトル番号を称する）、ＦＴ［・］はフーリエ変換処理を表す。また、ｔは離散時間番号を表す。

　パワースペクトル計算部３は、次の式（２）を用いて、入力信号のスペクトル成分Ｘ（λ，ｋ）からパワースペクトルＹ（λ，ｋ）を計算する。得られたパワースペクトルＹ（λ，ｋ）は、音声・雑音区間判定部４、雑音スペクトル推定部５、抑圧量制限係数計算部７およびＳＮ比計算部８にそれぞれ出力される。

　ここで、Ｒｅ｛Ｘ（λ，ｋ）｝およびＩｍ｛Ｘ（λ，ｋ）｝は、それぞれフーリエ変換後の入力信号スペクトルの実数部および虚数部を表す。

　音声・雑音区間判定部４は、パワースペクトル計算部３が出力するパワースペクトルＹ（λ，ｋ）と、後述する雑音スペクトル推定部５が出力する１フレーム前に推定された推定雑音スペクトルＮ（λ－１，ｋ）とを入力に用い、現フレームλの入力信号が音声であるか雑音であるかどうかの判定を行い、その結果を判定フラグとして出力する。判定フラグは、雑音スペクトル推定部５および補正スペクトル計算部６へそれぞれ出力される。

　音声・雑音区間判定部４による音声／雑音区間の判定方法としては、例えば、次の式（３）および式（４）のどちらか一方、または両方を満たす場合に、音声であるとして判定フラグＶｆｌａｇを“１（音声）”にセットし、それ以外の場合には雑音であるとして判定フラグＶｆｌａｇを“０（雑音）”にセットする方法がある。

　ここで、上式（３）において、Ｎ（λ－１，ｋ）は前フレームの推定雑音スペクトルであり、Ｓ_powとＮ_powはそれぞれ入力信号のパワースペクトルの総和、推定雑音スペクトルの総和である。また、上式（４）において、ρ_max（λ）は正規化自己相関関数の最大値である。さらに、ＴＨ_{FR_SN}およびＴＨ_ACFは、判定用の所定の定数閾値であり、好適な例としてはＴＨ_{FR_SN}＝３．０およびＴＨ_ACF＝０．３であるが、入力信号の状態および雑音レベルに応じて適宜変更することもできる。

　なお、上式（４）において正規化自己相関関数の最大値ρ_max（λ）は、以下のように求めることができる。
　先ず、次の式（５）を用いて、パワースペクトルＹ（λ，ｋ）から正規化自己相関関数ρ_N（λ，τ）を求める。

　ここで、τは遅延時間であり、ＦＴ［・］は上述と同じフーリエ変換処理を表し、例えば上式（１）と同じポイント数＝２５６にて高速フーリエ変換を行えばよい。なお、式（５）はウィナーヒンチン（Ｗｉｅｎｅｒ－Ｋｈｉｎｔｃｈｉｎｅ）の定理であるので説明は省略する。

　続いて、次の式（６）を用いて、正規化自己相関関数の最大値ρ_max（λ）を得ることができる。

　ここで、上式（６）は、τ＝１６～９６の範囲で正規化自己相関関数ρ_N（λ，τ）の最大値を検索することを意味している。なお、自己相関関数の分析には、上式（３）に示した方法の他、ケプストラム分析など公知の手法を用いることができる。

　雑音スペクトル推定部５は、パワースペクトル計算部３が出力するパワースペクトルＹ（λ，ｋ）と、音声・雑音区間判定部４が出力する判定フラグＶｆｌａｇとを入力に用い、次の式（７）とこの判定フラグＶｆｌａｇに従って雑音スペクトルの推定と更新を行い、現フレームの推定雑音スペクトルＮ（λ，ｋ）を出力する。推定雑音スペクトルＮ（λ，ｋ）は、補正スペクトル計算部６、抑圧量制限係数計算部７およびＳＮ比計算部８へそれぞれ出力されると共に、上述したように音声・雑音区間判定部４へも前フレームの推定雑音スペクトルＮ（λ－１，ｋ）として出力される。

　ここで、Ｎ（λ－１，ｋ）は前フレームにおける推定雑音スペクトルであり、雑音スペクトル推定部５内のＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）などの記憶手段（不図示）に保持されている。また、αは更新係数であり、０＜α＜１の範囲の所定の定数である。好適な例としてはα＝０．９５であるが、入力信号の状態および雑音レベルに応じて適宜変更することもできる。

　上式（７）において、判定フラグＶｆｌａｇ＝０の場合には、現フレームの入力信号が雑音と判定されていることから、入力信号のパワースペクトルＹ（λ，ｋ）と更新係数αを用いて、前フレームの推定雑音スペクトルＮ（λ－１，ｋ）の更新を行い、現フレームの推定雑音スペクトルＮ（λ，ｋ）として出力する。
　一方、判定フラグＶｆｌａｇ＝１の場合には、現フレームの入力信号が雑音ではなく音声と判定されていることから、前フレームの推定雑音スペクトルＮ（λ－１，ｋ）をそのまま現フレームの推定雑音スペクトルＮ（λ，ｋ）として出力する。

　補正スペクトル計算部６は、音声・雑音区間判定部４が出力する判定フラグＶｆｌａｇと、雑音スペクトル推定部５が出力する推定雑音スペクトルＮ（λ，ｋ）とを入力に用い、後述する抑圧量制限係数を計算するために必要な補正スペクトルＲ（λ，ｋ）を計算する。得られた補正スペクトルＲ（λ，ｋ）は、抑圧量制限係数計算部７に出力される。
　この補正スペクトルＲ（λ，ｋ）は、後述する抑圧量制限係数計算部７において、抑圧量制限係数の周波数特性を決めるために用いる。

　ここで、図２に基づいて、補正スペクトル計算部６の動作を説明する。
　図２に示す補正スペクトル計算部６は、雑音スペクトル分析部６１と、雑音スペクトル補正部６２と、補正スペクトル更新部６３とを備える。

　雑音スペクトル分析部６１は、推定雑音スペクトルＮ（λ，ｋ）を入力として用い、推定雑音スペクトルのばらつき度合いを分析する。より具体的には、例えば、統計的手法によりスペクトル成分間の凹凸の度合いについて分析を行う。ばらつき度合いの分析法として、例えば次の式（８）のようにスペクトル成分の分散を用いる方法がある。

　ここで、Ｎはスペクトルの個数であり、Ｎ＝１２８とする。また、Ｎ_AVE（λ）は現フレームλの推定雑音スペクトルＮ（λ）の平均を表す。

　上式（８）を用いて、雑音スペクトル分析部６１が現フレームの分散Ｖ（λ）を計算し、分析結果として雑音スペクトル補正部６２へ出力する。

　雑音スペクトル補正部６２は、雑音スペクトル分析部６１が出力する分散Ｖ（λ）と、音声・雑音区間判定部４が出力する判定フラグＶｆｌａｇとを統計的情報として用い、推定雑音スペクトルＮ（λ，ｋ）の補正（平滑化）を行い、補正した推定雑音スペクトルＮ￣（λ，ｋ）を出力する。
　推定雑音スペクトルの補正には、例えば次の式（９）のようなメディアンフィルタ（ｍｅｄｉａｎ　ｆｉｌｔｅｒ）を用い、分散Ｖ（λ）の大きさに応じてフィルタを切り替える。なお、メディアンフィルタとは、所定の領域内の信号をパワーの大きさ順に並べ替えを行い、その中央値をとることによって平滑化を行う処理である。
　ここでは電子出願の関係上、下式（９）中の“￣”（オーバーライン）を“￣”と表記し、これ以降に示す式の説明でも“￣”と表記する。

　ここで、Ｆ_sm［Ｎ（λ，ｋ），Ｌ］はメディアンフィルタを表す。Ｌは領域の大きさを示し、領域Ｌが大きくなる程メディアンフィルタによる平滑化の度合いが強くなる。また、Ｖ_HおよびＶ_Lは、Ｖ_H＞Ｖ_Lの関係を持ったフィルタを切り替えるための所定の閾値であり、Ｖ_Hは分散が大きい、即ちスペクトルのばらつきが極めて大きい場合を意味し、他方のＶ_LはスペクトルのばらつきがＶ_Hの場合よりは大きくないものの、スペクトルのばらつきが認められる場合を意味し、それぞれ入力される雑音の種類およびそのレベルに応じて適宜変更することができる。

　上式（９）において、例えばＬ＝３は、当該スペクトル成分とその隣接するスペクトルの３点を用いてフィルタ処理を行うことを意味し、フィルタ処理をそれぞれのスペクトル成分Ｎ（ｋ）について実施し、ただし端点であるＮ（λ，０）とＮ（λ，Ｎ－１）については、フィルタ処理せずにその値を保持する。
　また、分散Ｖ（λ）が小さい場合（Ｖ_L＞Ｖ（λ））には、推定雑音スペクトルの平滑化を行わない。また、判定フラグＶｆｌａｇ＝１の場合は、現フレームが音声であるので、前フレームの平滑化した推定雑音スペクトルＮ￣（λ－１，ｋ）を出力する。こうすることで、過度の平滑化を止め、かつ、推定雑音スペクトルに音声信号が誤って混入した場合に補正スペクトルへの影響を防止することができるので、良好な雑音抑圧が可能となる。
　なお、前フレームの平滑化した推定雑音スペクトルＮ￣（λ－１，ｋ）は、例えば補正スペクトル計算部６内のＲＡＭなどの記憶手段（不図示）にて記憶されている。

　図３は、雑音スペクトル補正部６２の処理について模式的に表したものであり、図３（ａ）は入力である推定雑音スペクトルＮ（λ，ｋ）、図３（ｂ）は出力である、メディアンフィルタにより平滑化した推定雑音スペクトルＮ￣（λ，ｋ）である。
　図３より、平滑化した推定雑音スペクトルＮ￣（λ，ｋ）には、残留雑音の耳障りなミュージカルトーンの要因となる細かな凹凸が軽減すると共に、鋭いピークおよび谷が消失していることが分かる。

　なお、上式（９）では、説明の簡略化のために、スペクトルの分散を用いてＶ_H，Ｖ_Lの２レベルで分類してメディアンフィルタを切り替えているが、この方法に限ることは無く、例えば、フィルタとして移動平均フィルタおよびその他の公知の平滑化フィルタを用いてもよいし、フィルタの切り替え条件も更に細分化したり連続的に変更したりしてもよい。
　また、スペクトルの分散に応じてフィルタの種類を切り替える代わりに、例えば領域Ｌ＝３のメディアンフィルタを複数回掛けることにより平滑化を強めるといったことも可能である。さらに、上式（９）のフィルタ処理の各要素はすべて重みが均一であるが、非均一な重み付けを行ってもよく、例えば、当該スペクトル成分に大きく重み付けすることが考えられる。

　また、上式（９）では、スペクトルの全帯域成分を１つのメディアンフィルタにて平滑化しているが、例えば周波数毎に異なるフィルタを用いたり、フィルタの平滑化強度を変更したりしてもよい。一例として、周波数が高くなるに従って平滑化を強めることができるが、この構成の場合には、雑音の乱れが大きい高域成分の凹凸を更に緩和することができ、更に良好な雑音抑圧が可能となる。
　なお、フィルタの種類および平滑化強度によっては、平滑化前後で推定雑音スペクトルの低域と高域のパワーのバランスが変わることがあるが、この場合には周波数イコライザおよび強調フィルタなどを用いてスペクトルの傾斜などを適宜調整すればよい。

　本実施の形態１では、雑音スペクトル分析部６１による推定雑音スペクトルのバラつき度合いの分析手段として、スペクトルの分散を用いているがこの方法に限る必要は無く、例えば、スペクトルエントロピなどの公知の分析手段を用いても構わないし、複数の方法を組み合わせて用いてもよい。この場合のフィルタ切り替え閾値は、用いる分析手段や組み合わせる分析手段にあわせて適宜調整すれば良い。

　また、本実施の形態１ではスペクトルの分散、即ち周波数方向の変動性を検出してスペクトルの平滑化制御を行っているが、時間方向の変動性を加味することも可能であり、例えば、前フレームと現フレームとのパワーの差を算出し、それが所定の閾値と比較して上回るならば、平滑化を行うなどの構成が考えられる。

　補正スペクトル更新部６３は、雑音スペクトル分析部６１が出力する分析結果（スペクトルの分散Ｖ（λ））と、雑音スペクトル補正部６２が出力する平滑化した推定雑音スペクトルＮ￣（λ，ｋ）と、音声・雑音区間判定部４が出力する判定フラグＶｆｌａｇと、後述する抑圧量制限係数計算部７が出力する前フレームの補正スペクトルＲ（λ－１，ｋ）と、ユーザが任意に設定する所定の最小ゲイン量（雑音抑圧における最大抑圧量）ＧＭＩＮとを入力に用い、補正スペクトルＲ（λ，ｋ）を生成し出力する。

　この補正スペクトルＲ（λ，ｋ）は、次の式（１０）により生成される。

　ここで、αは所定のフレーム間平滑化係数であり、α＝０．９が好適な値であるが、分散Ｖ（λ）の値に応じてαの値も変更することが可能である。例えば、分散が大きい場合には、αを小さくすることで補正スペクトルの更新速度を早めることができ、入力信号中の雑音の急激な変化に追従することができる。また、判定フラグＶｆｌａｇ＝１の場合には雑音ではなく音声であるので、前フレームの補正スペクトルＲ（λ－ｋ，ｋ）を出力することで、補正スペクトルの更新を停止する。
　なお、前フレームの補正スペクトルＲ（λ－１，ｋ）は、抑圧量制限係数計算部７内のＲＡＭなどの記憶手段（不図示）に記憶されている。

　なお、上式（１０）において、フレーム間平滑化係数αを周波数別に異なる値に設定することも可能であり、例えば低域から高域になるに従って値を小さくすることで、周波数・時間変化の大きな高域成分の更新速度を速めることができる。

　図１において、抑圧量制限係数計算部７は、補正スペクトル計算部６が出力する補正スペクトルＲ（λ－１，ｋ）と、パワースペクトル計算部３が出力するパワースペクトルＹ（λ，ｋ）と、図２の補正スペクトル更新部６３と同様にユーザが設定する所定の値である最小ゲイン量ＧＭＩＮとを入力に用い、現フレームでの推定雑音スペクトルＮ（λ，ｋ）に適合するように補正スペクトルＲ（λ，ｋ）のゲインを修正し、その結果を抑圧量制限係数Ｇ_floor（λ，ｋ）として出力する。得られた抑圧量制限係数Ｇ_floor（λ，ｋ）は、抑圧量計算部９へ出力される。

　ここで、図４に基づいて、抑圧量制限係数計算部７の動作を説明する。
　図４に示すパワー計算部７１は、パワー計算部７１と、係数補正部７２とを備える。

　パワー計算部７１は、次の式（１１）に従って、補正スペクトル計算部６が出力する補正スペクトルＲ（λ，ｋ）のパワーＰＯＷ_R（λ）を計算し、また、雑音スペクトル推定部５が出力する推定雑音スペクトルＮ（λ，ｋ）のパワーＰＯＷ_N（λ）を計算する。これらパワーＰＯＷ_R（λ），ＰＯＷ_N（λ）は、係数補正部７２へ出力する。

　ここで、ＰＯＷ_R（λ）は現フレームの補正スペクトルＲ（λ，ｋ）のパワー、ＰＯＷ_N（λ）は現フレームの推定雑音スペクトルＮ（λ，ｋ）のパワーであり、また、Ｎ＝１２８である。

　係数補正部７２は、次の式（１２）に従い、補正スペクトルのパワーＰＯＷ_R（λ）と、推定雑音スペクトルのパワーＰＯＷ_N（λ）に最小ゲイン量ＧＭＩＮを乗算した値とを比較し、その結果に応じて補正スペクトルＲ（λ，ｋ）の修正量Ｄ（λ）を決定する。

　ここで、Ｄ_UPおよびＤ_DOWNは所定の定数であり、本実施の形態１ではＤ_UP＝１．０５，Ｄ_DOWN＝０．９５がそれぞれ好適であるが、雑音の種類および雑音レベルに応じて適宜変更することができる。また、Ｄ_UP，Ｄ_DOWNの値はそれぞれ１種類だけに限らず、複数個用いて修正量Ｄ（λ）を決定してもよい。例えば、上式（１２）ではパワーの大小比較だけで修正量Ｄ（λ）を決定しているが、パワーの差が所定の閾値より大きい（または小さい）場合に、Ｄ_UP＝１．２（または小さい場合にＤ_DOWN＝０．８）として、より大きな修正量を設定することができる。このように、パワーの差によって修正量Ｄ（λ）の値を変更することで、修正誤差をより小さくすると共に、修正速度も早くすることができる。

　なお、本実施の形態１においては、上式（１１）にて全帯域のパワーを求めているが、これに限る必要は無く、一部の帯域成分、例えば、２００Ｈｚ～８００Ｈｚのパワーを求め、上式（１２）にて比較を行うことも可能である。

　続いて、係数補正部７２は、次の式（１３）にて、得られた修正量Ｄ（λ）を用いて補正スペクトルＲ（λ，ｋ）のゲインの修正を行い、ゲイン修正した補正スペクトルＲ＾（λ，ｋ）を得る。このゲイン修正した補正スペクトルＲ＾（λ，ｋ）は、補正スペクトル計算部６へ出力されて、この補正スペクトル計算部６において前フレームの補正スペクトルＲ（λ－１，ｋ）として取り扱われる。
　なお、ここでは電子出願の関係上、下式（１３）中の“＾”（ハット記号）を“＾”と表記し、これ以降に示す式の説明でも“＾”と表記する。

　最後に、係数補正部７２は、ゲイン修正した補正スペクトルＲ＾（λ，ｋ）と、パワースペクトル計算部３が出力する入力信号のパワースペクトルＹ（λ，ｋ）とを入力に用い、次の式（１４）および式（１５）により抑圧量制限係数Ｇ_floor（λ，ｋ）を計算する。下式（１４）は抑圧量の上限と下限を決定する式であり、下式（１５）は抑圧量制限係数のフレーム間平滑を行う式である。得られた抑圧量制限係数Ｇ_floor（λ，ｋ）は、抑圧量計算部９へ出力される。

　ここで、ＧＭＡＸは最大ゲイン量、即ち、雑音抑圧装置の最小の抑圧量となる１以下の所定の定数である。また、βは所定の平滑化係数を表し、β＝０．１が好適である。

　図１において、ＳＮ比計算部８は、パワースペクトル計算部３が出力するパワースペクトルＹ（λ，ｋ）と、雑音スペクトル推定部５が出力する推定雑音スペクトルＮ（λ，ｋ）と、後述する抑圧量計算部９が出力する前フレームのスペクトル抑圧量Ｇ（λ－１，ｋ）とを入力に用いて、スペクトル成分毎の事後ＳＮＲ（ａ　ｐｏｓｔｅｒｉｏｒｉ　ＳＮＲ）と事前ＳＮＲ（ａ　ｐｒｉｏｒｉ　ＳＮＲ）を計算する。

　事後ＳＮＲγ（λ，ｋ）は、パワースペクトルＹ（λ，ｋ）と推定雑音スペクトルＮ（λ，ｋ）とを用いて、次の式（１６）より求めることができる。

　また、事前ＳＮＲξ（λ，ｋ）は、前フレームのスペクトル抑圧量Ｇ（λ－１，ｋ）と、前フレームの事後ＳＮＲγ（λ－１，ｋ）とを用いて、次の式（１７）より求めることができる。

　ここで、δは忘却係数であって０＜δ＜１の範囲の所定の定数であり、本実施の形態１ではδ＝０．９８が好適である。また、Ｆ［・］は半波整流を意味し、事後ＳＮＲγ（λ，ｋ）がデシベル値で負の場合に値をゼロにフロアリング（ｆｌｏｏｒｉｎｇ）するものである。

　以上、得られた事後ＳＮＲγ（λ，ｋ）および事前ＳＮＲξ（λ，ｋ）はそれぞれ抑圧量計算部９へ出力される。

　抑圧量計算部９は、ＳＮ比計算部８が出力する事前ＳＮＲξ（λ，ｋ）および事後ＳＮＲγ（λ，ｋ）と、抑圧量制限係数計算部７が出力する抑圧量制限係数Ｇ_floor（λ，ｋ）とを入力に用い、スペクトル毎の雑音抑圧量であるスペクトル抑圧量Ｇ（λ，ｋ）を求める。求めたスペクトル抑圧量Ｇ（λ，ｋ）は、スペクトル抑圧部１０へ出力される。

　抑圧量計算部９においてスペクトル抑圧量Ｇ（λ，ｋ）を求める手法としては、例えばＪｏｉｎｔ　ＭＡＰ（Ｍａｘｉｍｕｍ　Ａ　Ｐｏｓｔｅｒｉｏｒｉ）法を適用できる。Ｊｏｉｎｔ　ＭＡＰ法は、雑音信号と音声信号をガウス分布であると仮定してスペクトル抑圧量Ｇ（λ，ｋ）を推定する方法であり、事前ＳＮＲξ（λ，ｋ）および事後ＳＮＲγ（λ，ｋ）を用いて、条件付き確率密度関数を最大にする振幅スペクトルと位相スペクトルを求め、その値を推定値として利用する。この構成の場合、スペクトル抑圧量Ｇ（λ，ｋ）は、確率密度関数の形状を決定するνとμをパラメータとして、次の式（１８）で表すことができる。

　抑圧量計算部９は、上式（１８）にて仮のスペクトル抑圧量Ｇ＾（λ，ｋ）を得た後、抑圧量制限係数Ｇ_floor（λ，ｋ）と次の式（１９）を用いてスペクトルゲインの最小値の制限（フロアリング処理）を行い、スペクトル抑圧量Ｇ（λ，ｋ）を得る。

　なお、Ｊｏｉｎｔ　ＭＡＰ法におけるスペクトル抑圧量導出法の詳細については、「Ｔ．Ｌｏｔｔｅｒ，　Ｐ．Ｖａｒｙ，“Ｓｐｅｅｃｈ　Ｅｎｈａｎｃｅｍｅｎｔ　ｂｙ　ＭＡＰ　Ｓｐｅｃｔｒａｌ　Ａｍｐｌｉｔｕｄｅ　Ｕｓｉｎｇ　ａ　Ｓｕｐｅｒ－Ｇａｕｓｓｉａｎ　Ｓｐｅｅｃｈ　Ｍｏｄｅｌ”，ＥＵＲＡＳＩＰ　Ｊｏｕｒｎａｌ　ｏｎ　Ａｐｐｌｉｅｄ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ，ｐｐ．１１１０－１１２６，Ｎｏ．７，２００５」を参照することとし、ここでは説明を省略する。

　スペクトル抑圧部１０は、抑圧量計算部９が出力するスペクトル抑圧量Ｇ（λ，ｋ）を入力に用い、次の式（２０）に従って、入力信号のスペクトル成分Ｘ（λ，ｋ）をそのスペクトル毎に抑圧して、雑音抑圧された音声信号スペクトルＳ（λ，ｋ）を求める。求めた音声信号スペクトルＳ（λ，ｋ）は、逆フーリエ変換部１１へ出力される。

　逆フーリエ変換部１１は、スペクトル抑圧部１０が出力する音声信号スペクトルＳ（λ，ｋ）と、音声信号の位相スペクトルとを用いて逆フーリエ変換し、前フレームの出力信号と重ね合わせ処理した後、雑音抑圧された音声信号ｓ（ｔ）を出力端子１２へ出力する。
　出力端子１２は、雑音抑圧された音声信号ｓ（ｔ）を外部へ出力する。

　図５は、本実施の形態１に係る雑音抑圧装置の出力信号である残留雑音スペクトル（即ち、音声信号スペクトルＳ（λ，ｋ））の一例を模式的に表した図である。先立って説明した図６と同様に、点線は推定雑音スペクトル、破線は全帯域一定の抑圧量で抑圧した場合の残留雑音スペクトルである。これに対し、実線が、本実施の形態１に係る雑音抑圧装置により雑音抑圧を行った残留雑音スペクトルである。

　実際の雑音環境、例えば自動車走行時の車室内で観測される走行騒音は、風切り音およびエンジン加速音などが原因で複雑なピークが生じ、単純な右肩下がりの形状にならないことが多い。このような雑音が入力信号に混入した場合、従来の方法（図６に実線で示す）では雑音抑圧処理後の残留雑音が所定の目標スペクトルの形状に合うように全体の抑圧量を決定するために、極端に抑圧過剰な帯域および抑圧不足の帯域が出現する場合があった。これに対して、本実施の形態１の方法（図５に実線で示す）では、入力信号から推定した雑音スペクトルＮ（λ，ｋ）から抑圧量制限係数Ｇ_floor（λ，ｋ）を算出し、その係数を用いてスペクトルゲインの制限処理を行っているので、一定の抑圧量の場合（図５および図６に破線で示す）のようなミュージカルトーンおよび異音の原因となるピーク成分および谷（凹凸）などが残らず、かつ、極端に抑圧過剰および抑圧不足な帯域も生じず、良好な雑音抑圧を行うことができる。

　以上より、実施の形態１によれば、雑音抑圧装置は、時間領域の入力信号を周波数領域のスペクトル成分に変換するフーリエ変換部２と、スペクトル成分よりパワースペクトルを算出するパワースペクトル計算部３と、入力信号の雑音区間を判定する音声・雑音区間判定部４と、雑音区間の入力信号から雑音スペクトルを推定する雑音スペクトル推定部５と、推定雑音スペクトルのばらつき度合いを表す分散値を求め、分散値と音声・雑音区間の判定結果とに基づいて推定雑音スペクトルを補正して補正スペクトルを生成する補正スペクトル計算部６と、補正スペクトルに基づいて、雑音抑圧の上下限を規定する抑圧量制限係数を生成する抑圧量制限係数計算部７と、推定雑音スペクトルのＳＮ比を算出するＳＮ比計算部８と、ＳＮ比と抑圧量制限係数とを用いて抑圧係数を制御する抑圧量計算部９と、抑圧係数を用いて入力信号のスペクトル成分を振幅抑圧するスペクトル抑圧部１０と、振幅抑圧されたスペクトル成分を時間領域に変換して雑音抑圧信号を生成する逆フーリエ変換部１１とを備えるように構成した。このため、ミュージカルトーンの発生を抑制しつつ、極端に抑圧過剰および抑圧不足する帯域も生じず、良好な雑音抑圧を行う高品質な雑音抑圧装置を提供することができる。

　また、実施の形態１によれば、補正スペクトル計算部６は、推定雑音スペクトルの分散値に応じてフィルタを変更したり処理回数を変更したりする等して補正量を制御することにより、良好な雑音抑圧が可能となる。
　なお、推定雑音スペクトルに対する補正処理としては、周波数方向平滑化およびフレーム間平滑化のいずれか一方、またはその両方を行うことができる。周波数方向平滑化の補正を行うことにより、雑音の周波数毎の凹凸を軽減してミュージカルトーンの発生を抑制できる。また、フレーム間平滑化の補正を行うことにより、入力信号中の雑音の急激な変化に追従することができる。よって、更に良好な雑音抑圧が可能である。

　また、実施の形態１によれば、補正スペクトル計算部６は、推定雑音スペクトルの分散値が所定の閾値以下の場合にこの推定雑音スペクトルの補正を停止したり、また、音声・雑音区間判定部４により音声区間と判定された場合に補正を停止したりするようにしたので、過度の平滑化を止めることができると共に、推定雑音スペクトルに音声信号が誤って混入した場合に補正スペクトルへの影響を防止でき、更に良好な雑音抑圧が可能となる。

　また、実施の形態１によれば、補正スペクトル計算部６は、推定雑音スペクトルに対して、周波数が高くなるに従って平滑化が強くなる補正を行うことにより、雑音の乱れが大きい高域成分の凹凸を更に緩和することができ、更に良好な雑音抑圧が可能となる。
　さらに、補正スペクトルの更新速度を低域から高域になるに従って小さくすることにより、周波数・時間変化の大きな高域成分の更新速度を速めることができ、更に良好な雑音抑制が可能となる。

　なお、上記実施の形態１では、補正スペクトル計算部６が上式（１０）に従い、平滑化した推定雑音スペクトルを用いて補正スペクトルを生成しているが、例えば、所定の補正スペクトルを予め学習して保持しておき、動作初期状態及び入力信号中の雑音が急変した場合に、平滑化した推定雑音スペクトルの代わりに予め学習しておいた所定の補正スペクトルを入力に用いるように構成してもよい。この構成により、初期状態および入力信号が急変した場合に補正スペクトルの学習収束速度を早めることができ、出力信号の音質変化を最小限にすることができる。
　また、上式（１０）で得られた補正スペクトルに対し、予め学習しておいた所定の補正スペクトルを常時少量混入してもよい。所定の補正スペクトルを少量混入することで、補正スペクトルの過学習を抑制する（補正スペクトルを徐々に忘却する）ことができ、更に良好な雑音抑圧を行うことが可能となる。

　また、上記実施の形態１では、抑圧量計算部９およびスペクトル抑圧部１０による雑音抑圧の方法として最大事後確率法（ＭＡＰ法）を用いる場合を例に説明したが、この方法に限定されるものではなく、その他の方法を用いる場合にも適用することができる。例えば、非特許文献１に詳述されている最小平均２乗誤差短時間スペクトル振幅法、およびＳ．Ｆ．Ｂｏｌｌ，“Ｓｕｐｐｒｅｓｓｉｏｎ　ｏｆ　Ａｃｏｕｓｔｉｃ　Ｎｏｉｓｅ　ｉｎ　Ｓｐｅｅｃｈ　Ｕｓｉｎｇ　Ｓｐｅｃｔｒａｌ　Ｓｕｂｔｒａｃｔｉｏｎ”（ＩＥＥＥ　Ｔｒａｎｓ．ｏｎ　ＡＳＳＰ，Ｖｏｌ．２７，Ｎｏ．２，ｐｐ．１１３－１２０，Ａｐｒ．１９７９）に詳述されているスペクトル減算法などがある。

　また、上記実施の形態１では、入力信号の全帯域について抑圧量制御を行っているが、これに限定されるものではなく、例えば必要に応じて低域のみまたは高域のみ制御しても良いし、また例えば５００～８００Ｈｚ近傍のみといった特定の周波数帯域のみ制御しても良い。このような限定的な周波数帯域に対する抑圧量制御は、風きり音および自動車エンジン音などの狭帯域性ノイズに有効である。
　さらに、図示例では狭帯域電話（０～４０００Ｈｚ）の場合について説明しているが、雑音抑圧対象は狭帯域電話音声に限定されるものではなく、例えば０～８０００Ｈｚの広帯域電話音声および音響信号に対しても適用可能である。

　また、上記実施の形態１において、雑音抑圧された音声信号は、デジタルデータ形式で音声符号化装置、音声認識装置、音声蓄積装置、ハンズフリー通話装置等の各種音声音響処理装置へ送出されるが、実施の形態１の雑音抑圧装置は、単独または上述の他の装置と共にＤＳＰ（デジタル信号処理プロセッサ）によって実現したり、ソフトウエアプログラムとして実行したりすることでも実現可能である。プログラムはソフトウエアプログラムを実行するコンピュータの記憶装置に記憶していても良いし、ＣＤ－ＲＯＭなどの記憶媒体にて配布される形式でも良い。また、ネットワークを通じてプログラムを提供することも可能である。また、各種音声音響処理装置へ送出される他、Ｄ／Ａ（デジタル・アナログ）変換の後、増幅装置にて増幅し、スピーカなどから直接音声信号として出力することも可能である。

　上記以外にも、本願発明はその発明の範囲内において、実施の形態の任意の構成要素の変形、もしくは実施の形態の任意の構成要素の省略が可能である。

　以上のように、この発明に係る雑音抑圧装置は、高品質な雑音抑圧が可能なため、音声通信・音声蓄積・音声認識システムが導入された、カーナビゲーション・携帯電話・インターフォン等の音声通信システム・ハンズフリー通話システム・ＴＶ会議システム・監視システム等の音質改善、および、音声認識システムの認識率の向上のために供するのに適している。

　１　入力端子、２　フーリエ変換部、３　パワースペクトル計算部、４　音声・雑音区間判定部、５　雑音スペクトル推定部、６　補正スペクトル計算部、７　抑圧量制限係数計算部、８　ＳＮ比計算部、９　抑圧量計算部、１０　スペクトル抑圧部、１１　逆フーリエ変換部、１２　出力端子、６１　雑音スペクトル分析部、６２　雑音スペクトル補正部、６３　補正スペクトル更新部、７１　パワー計算部、７２　係数補正部。

Claims

　入力信号を時間領域から周波数領域へ変換したスペクトル成分と、当該入力信号から推定した推定雑音スペクトルとを用いて雑音抑圧のための抑圧係数を算出し、当該抑圧係数を用いて当該入力信号のスペクトル成分を振幅抑圧し、時間領域へ変換した雑音抑圧信号を生成する雑音抑圧装置において、
　前記推定雑音スペクトルの特徴を表す統計的情報を求め、当該統計的情報に基づいて前記推定雑音スペクトルを補正して補正スペクトルを生成する補正スペクトル計算部と、
　前記補正スペクトル計算部が生成した補正スペクトルに基づいて、前記雑音抑圧の上下限を規定する抑圧量制限係数を生成する抑圧量制限係数計算部と、
　前記抑圧量制限係数計算部が生成した抑圧量制限係数を用いて、前記抑圧係数を制御する抑圧量計算部とを備えることを特徴とする雑音抑圧装置。
　前記補正スペクトル計算部は、統計的情報の値に応じて、推定雑音スペクトルの補正量を制御することを特徴とする請求項１記載の雑音抑圧装置。
　前記補正スペクトル計算部は、統計的情報の値が所定の閾値以下の場合、推定雑音スペクトルの補正を停止することを特徴とする請求項１記載の雑音抑圧装置。
　前記補正スペクトル計算部は、推定雑音スペクトルに対して、周波数方向平滑化およびフレーム間平滑化のいずれか一方、またはその両方の補正を行うことを特徴とする請求項１記載の雑音抑圧装置。
　前記補正スペクトル計算部は、推定雑音スペクトルに対して、周波数が高くなるに従って平滑化が強くなる補正を行うことを特徴とする請求項１記載の雑音抑圧装置。