JP4757775B2

JP4757775B2 - 雑音抑圧装置

Info

Publication number: JP4757775B2
Application number: JP2006299770A
Authority: JP
Inventors: 良次宮原
Original assignee: NEC Engineering Ltd
Current assignee: NEC Engineering Ltd
Priority date: 2006-11-06
Filing date: 2006-11-06
Publication date: 2011-08-24
Anticipated expiration: 2026-11-06
Also published as: JP2008116686A

Description

本発明は、音声の高品質収音を目的とした雑音抑圧に関し、特に定常的な雑音と音声が混在した音響信号から、音声信号以外の雑音を抑圧する雑音抑圧装置に関する。

この種の雑音抑圧に関する技術として、スペクトルサブトラクション法（以降ＳＳ法と表記）が周知である。ＳＳ法では、マイクロホンに入力した音響信号にフーリエ変換を施し、周波数領域の振幅情報（以降スペクトルと表記）と位相情報に変換する。そして、このスペクトルの情報を利用し、雑音と音声が混在した音響信号のスペクトルから、推定された雑音信号のみのスペクトルを差し引くことで雑音の抑圧を図っている。

ＳＳ法による雑音信号の推定方法については、これまでいくつかの方法が提案されており、例えば、特許文献１記載の技術は、フレームと呼ばれる一定時間毎にＳＮ比を求めて音声区間と雑音区間に分け、雑音区間の推定を行い、その区間でのスペクトルを雑音スペクトルとしている。

また、特許文献２記載の技術は、雑音区間では、その前フレームでのスペクトルを雑音スペクトルとし、音声区間では入力信号と出力信号、推定雑音成分から音声成分のみを取り出し、入力信号との差分をとることで雑音信号のみを得、その成分によって更新することで雑音推定の精度を上げている。

ＳＳ法は入力信号から雑音成分を差し引く方法であるが、これは入力信号から雑音を作り出し、付加することで雑音の低減を図っているとも捉えることができる。この付加する雑音によって生じる、ミュージカルノイズと呼ばれる新たな雑音も問題となる。更に、ＳＳ法は、マイクロホンで収音できる時間領域の音響信号を周波数領域に変換するために、フーリエ変換を利用している。このフーリエ変換の処理方法については、高速フーリエ変換（ＦＦＴ）が周知であり、ＦＦＴ自体の演算量はそれほど多くないものの、周波数領域での信号が複素数となるために、実数の演算と比較し演算量のかかる複素数演算が、音声をリアルタイムで処理する場合には問題になってくる場合も多い。

システムの大規模化および演算量の増加を解決するため、周知の一般的な片側波帯（以降ＳＳＢと表記）変調を利用したフィルタバンクを用いて帯域分割を行い、ウィナーフィルタの理論を利用して雑音抑圧を行う手法（例えば、特許文献３参照）が知られている。この手法では、雑音の推定ならびにフィルタ係数の更新を指数平滑することが効果的であるとし、これによりミュージカルノイズの低減が除去されるとしている。

また、ＳＳ法は周波数領域で非線形な処理を施すことになるため必然的に音声に歪が生じる。そこで、減衰係数を補正する帯域を中心に、任意の数の帯域の減衰帯域の減衰係数を重み付け平均することで、周波数領域での減衰係数の平滑化実現している（例えば、特許文献４参照）。

特開平１０−０９７２８８号公報（第３頁−第４頁、図１）特許第３２７０４８０号公報（第４頁−第５頁、図２）特表２００４−５０２９７７号公報（第７頁−第１０頁、図１）特開２００５−３４８１７３号公報（第６頁−第７頁、図１）

しかし、特許文献１記載の技術では、音声区間での雑音の推定が行われず、その間に雑音に変化があると音声に歪みが生じる。また、雑音区間の推定に誤りが生じると、音声によって推定雑音スペクトルに誤りが生じ、これも音声の歪みの原因となる。この結果、雑音や音声の歪を伴った収音信号となってしまい、高品質な音声収音が実現されないという問題点がある。

また、特許文献２記載の技術では、前フレームの出力信号を利用して雑音成分を推定しており、音声信号が帯域3.4kHz程度（電話に利用されるの音声帯域）の信号であれば、大きな問題にはならないものの、広帯域である7kHz以上の音声を扱うような場合（音声会議・Webカンファレンスなど）、その推定には大きな誤差が生じるという問題点がある。

また、特許文献３記載の技術では、雑音の推定はあくまで平均値を利用することとなり、収音すべき音声に歪みが生じてしまうという問題点がある。

また、特許文献４記載の技術では、各帯域の減衰係数の平準化により帯域間の連続性は改善するものの、雑音の抑圧に支障をきたす上、音声には新たな歪を生じさせてしまう。

そこで、本発明の目的は、帯域分割フィルタバンクを利用した雑音抑圧方法における、雑音の推定手法ならびにフィルタ係数の修正方法を提案し、装置の大規模化や演算の際に複素数演算を含まず、かつ歪の少ない雑音抑圧を実現する雑音抑圧装置を提供することにある。

本発明の雑音抑圧装置は、スペクトルサブトラクション法を採用した雑音抑圧装置において、音声信号と定常的な雑音信号が混在している時間領域の入力信号をＳＳＢ変調の利用により制限された周波数帯域の信号に分割する帯域分割手段（図１の２０）と、分割された周波数帯域の入力信号の内の雑音を抑圧する処理を行う周波数帯域対応の処理部（図１の３０）と、各処理部で処理された信号を合成することによって雑音の抑圧された一つの信号を出力する帯域合成部（図１の４０）とで構成され、各処理部（図１の３０）は、リーク積分により前記入力信号のフレーム間での減衰係数の差を抑えて時間軸上で平滑化し現在の入力信号の振幅値と雑音の振幅値を推定する振幅推定手段（図１の１，２）と、雑音振幅推定値を入力信号振幅推定値で除算した値γを求めて（１−γ）を減衰係数とする減衰係数決定手段（図１の５，６）と、減衰係数決定手段により決められた減衰係数について時間軸上および帯域間の平滑化を行なうことにより補正を行なう減衰係数補正手段（図１の７，８）と、減衰係数補正手段から得られた減衰係数を入力信号に乗じる乗算手段（図１の９）を有し、振幅推定手段（図１の２）は、リーク積分の式における入力信号振幅推定値の項に値γを乗算することにより音声区間であっても雑音推定を止めないことを特徴とする。

また、本発明の雑音抑圧装置には、振幅推定手段（図１の１，２）により得られた入力信号振幅推定値と雑音振幅推定値を比較して雑音区間を判断し、このとき雑音振幅推定値には２程度の係数を乗じ、また雑音区間では0.5程度、音声区間では1.0程度の雑音バイアス値を出力する雑音区間推定手段（図１の３）と、振幅推定手段により得られる雑音振幅推定値と入力信号振幅推定値に雑音バイアス値を乗じて比較し、入力信号振幅推定値が小さければ、その帯域の減衰係数を最大とするような最大減衰係数フラグを減衰係数決定手段（図１の５，６）に出力する雑音振幅比較手段（図１の４）を設けてもよい。

より詳しくは、減衰係数決定手段（図１の５，６）は、値γを算出するが、入力信号振幅推定値が雑音振幅推定値より小さい場合は値γを1.0とする信号・雑音比算出手段（図１の５）と、減衰係数を算出するが、最大減衰係数フラグが受け渡されていた場合は減衰係数を０として減衰係数補正手段へ出力する減衰係数算出手段（図１の６）とで構成されることを特徴とする。

減衰係数補正手段（図１の７，８）は、減衰係数決定手段からの減衰係数についてリーク積分により時間軸上の平滑化を行う減衰係数平準手段（図１の７）と、当該周波数帯域における前記減衰係数について、隣り合う帯域の減衰係数を調べ、その減衰係数との比が一定以上にならないよう減衰係数を小さくする方向にのみ補正する帯域間減衰係数平準手段（図１の８）とで構成される。

本発明では、ＳＳＢ変調を利用した帯域分割により、先ず、複素数演算による演算量の増加を解決する。そして、雑音推定誤りに関しては、雑音と現在の振幅値の比（以後ＳＮＲと表記）を利用した雑音の推定とすることで音声区間中でも雑音の推定を継続し誤りを抑えている。以上より求まる雑音振幅スペクトルと入力信号スペクトルを利用し、ウィナーフィルタの理論を用いることによって雑音の低減を図る。このとき、ウィナーフィルタ理論により求まる減衰係数を時間領域で平滑化することで時間領域での非線形性を低減し、かつ隣接帯域間での減衰係数を基に各帯域の減衰係数を補正することで周波数領域での非線形性を低減し、音声の歪みを抑えている。さらに、ミュージカルノイズに関しては、雑音区間の推定を行い、雑音区間では雑音を見た目上大きくし、減衰係数を大きくすることで解決する。

本発明によれば、従来手法よりも演算量が少なく、出力音声に歪みの少ない、雑音抑圧が可能になる。これは、雑音推定にＳＮＲを利用する形態とすること、各帯域の減衰係数を時間軸上において平滑化すること、隣接帯域の減衰係数に基づいて各帯域の減衰係数を平滑化したためである。

以下、本発明の実施の形態について図面を参照しながら詳細に説明する。

［構成の説明］
図１に本発明の雑音抑圧装置の構成と処理の流れを示す。この雑音抑圧装置は、マイクロホン１０から入力してくる入力信号を周波数帯域に制限された信号に分割する帯域分割部２０と、分割された信号と１対１対応の処理部３０と、各処理部３０において処理された信号を合成する帯域合成部４０とで構成されている。

マイクロホン１０で収音される入力信号には音声信号と雑音信号が混在している。そこで、帯域分割部２０は入力信号を帯域分割し、各処理部３０は当該周波数帯域の入力信号の内の雑音を抑圧する処理を行い、帯域合成部４０で各帯域の信号を合成することによって、雑音の抑圧された信号を出力する。

帯域分割部２０には一般的なＳＳＢ（Single Side Band）変調を利用したフィルタバンクを利用する。もし、帯域分割部２０にＦＦＴなどフーリエ変換の手法を利用すると、帯域分割内の信号が複素数となるため演算量の増加を招いてしまう。そこで、このような演算量の無駄な増加を抑えるためＳＳＢ変調を利用した帯域分割を行なう。

具体的な帯域分割部２０の流れである。先ず、入力信号を帯域分割数に依存するフレーム長で切り取る。これは、帯域分割部２０にて行われる分割の方法にも因るが、本発明で利用するＳＳＢ変調を利用した帯域分割では、例えば16個の帯域に分割したい場合、10サンプル程度のフレームにて処理を行う。分割数に関しては、サンプリング周波数によって変えるべきである。参考としては、16kHzサンプリングの音声を扱う場合は32分割で十分である。この場合、フレーム長は20サンプル程度となる。

フレーム長で切り取られた信号は、ＳＳＢ変調を利用したフィルタバンクに入力され、各周波数帯域に制限された１サンプルの信号の集合となる。この各周波数帯域の信号は、それぞれほぼ独立に処理されるため、図１では、処理部３０をレイヤー構造にて表現している。

各処理部３０は、入力信号振幅推定部１，雑音信号振幅推定部２，雑音区間推定部３，雑音振幅比較部４，信号・雑音比算出部５，減衰係数算出部６，減衰係数平滑部７，帯域間減衰係数平滑部８および乗算器９で構成されている。各部１〜８は、帯域分割部２０からの入力信号を分析するより、入力信号に対する減衰係数を求める。乗算器９は、帯域分割部２０からの入力信号に、各部１〜８で求まった減衰係数を乗じて帯域合成部４０へ出力する。

入力信号振幅推定部１は、リーク積分と呼ばれる処理で入力信号の振幅の推定を行なう。ＳＳ法は周波数領域で非線形な処理を施すことになるため、必然的に信号に歪が生じる。この信号の歪に対する対策として、入力信号のフレーム間での減衰係数の差を抑えて時間軸上で平滑化を図り、現在の信号の振幅値（平均値）を推定する。

雑音信号振幅推定部２は、入力信号振幅推定部１と同様に、リーク積分を利用して雑音の振幅値を推定する。ここでの推定には、後段の信号・雑音比算出部５の出力を利用し、ＳＮＲ（SignalNoiseRatio:ここではAs/An）の逆数γ(=An/As)でリーク積分の式を変形することによって、音声区間・雑音区間の判別を必要とせず、かつ、音声区間でも雑音の推定を精度良く行うことを可能としている。

雑音区間推定部３は、入力信号振幅推定部１と雑音信号振幅推定部２からのそれぞれの推定振幅値を入力して比較し雑音区間の推定を行う。この場合、雑音振幅推定値は平均値であるため、２程度の係数を乗じることで雑音区間を音声区間と誤推定することが半減する。このため、雑音区間推定部３は、雑音区間では0.5程度、音声区間では1.0程度の雑音バイアス値を後段の雑音振幅比較部４へ渡す。

雑音振幅比較部４は、入力信号振幅推定部１と雑音信号振幅推定部２からのそれぞれの推定振幅値を入力して比較し、入力信号振幅推定値が小さければ、その帯域の減衰係数を最大とするような最大減衰係数フラグを減衰係数算出部６に渡す。この際、推定値に雑音区間推定部３からの雑音バイアス値を乗じて比較する。これは、雑音区間推定部３において雑音振幅推定値に係数を乗じたことに呼応して雑音区間での雑音抑圧を効果的に行うためである。

信号・雑音比算出部５は、入力信号振幅推定部１と雑音信号振幅推定部２のそれぞれの推定振幅値を入力して、雑音振幅推定値を入力信号振幅推定値で除算したＳＮＲの逆数γ=(An/As)を算出する。もし、入力信号振幅推定値が雑音振幅推定値より小さい場合はγ=1.0として雑音信号振幅推定部２および減衰係数算出部６に渡す。雑音信号振幅推定部２におけるγの使途は前述のとおりである。

減衰係数算出部６は、信号・雑音比算出部５からのＳＮＲの逆数γ=(An/As)と、雑音振幅比較部４からの最大減衰係数フラグとにより減衰係数Lを算出し減衰係数平滑部７に渡す。減衰係数平滑部７は、減衰係数算出部６からの減衰係数Lについて、リーク積分により更に時間軸上の平滑化を行い、最終的な減衰係数SLを求めて帯域間減衰係数平滑部８に渡す。

帯域間減衰係数平滑部８は、当該周波数帯域における減衰係数SLについて、隣り合う帯域（以降、隣接バンドと表記）の減衰係数SLを調べ、隣接バンドの減衰係数SLとの比（以降、MDと表記）が一定以上にならないよう補正する。補正は、減衰係数を小さくする方向にのみ行う。これにより、隣接バンド間での減衰係数が滑らかにつながり、音声のひずみを大きく解消できる。この目的のため、図１では描き難いが、帯域間減衰係数平滑部８には、隣り合う帯域に対応する処理部３０の減衰係数平滑部７から減衰係数SLが入力している。

［動作の説明］
次に、以上のように構成された本雑音抑圧装置の動作について図２〜図１２をも参照しながら詳述する。

帯域分割部２０にて分割された各周波数帯域の信号は、処理部３０の入力信号振幅推定部１に入力される。この入力信号振幅推定部１では、リーク積分と呼ばれる処理で振幅の推定が行われる。リーク積分は以下の式で表される。
As(t) = δ×|S| + (1-δ)×As(t-1) (1)
ここで、tはサンプル時間、(t-1)は１サンプル過去の時間を表す。Sはマイクロホンに入力する音声と雑音の混合した入力信号である。また、Asは入力信号の振幅推定値を表現している。δは瞬時値が推定値に与える影響をコントロールするためのパラメータであり、１以下の値とする。パラメータδを小さくすれば、振幅推定値Asは入力信号の平均値に近似され、大きくすれば入力信号の瞬時値に近くなる。

ウィナーフィルタの理論により雑音抑圧をするためには、入力信号の振幅値は入力信号の瞬時値を利用すれば問題ない。もし、入力信号の瞬時値を利用したい場合は、パラメータδを１とすればよい。ただし、δを0.5から0.25程度の値にすることでフレーム間での減衰係数の差が抑えられるため、時間軸上で平滑化がなされ、非線形性が抑えられる。このことにより、歪みを低減することができる。本発明ではδ＝0.5〜0.25を推奨する。

次に、入力信号振幅推定部１の出力を雑音信号振幅推定部２に入力する。雑音信号振幅推定部２では、入力信号振幅推定部１と同様に、リーク積分を利用して雑音の平均値を推定する。この場合、瞬時値への追従を行う必要がないから、δの値をごく小さくし、0.0001などとする。雑音信号振幅推定部２への入力となる入力信号振幅推定部１の出力Asは、入力信号振幅推定部１にて予め平滑化が行われているため、雑音推定精度の向上が見込める。ただし、入力信号振幅推定部１の出力には、抑圧したい雑音の他に音声の成分も含まれている。

従来の手法では、音声区間と雑音区間を分けることで、音声成分の排除を行っているものが多い。例えば、特許文献１記載の技術では、雑音推定を、
An(t) = δ×As + (1-δ)×An(t-1) (2)
δ＝α when As/An ≦ TH
δ＝０ when As/An ＞ TH
０＜α＜１
（変数名は本発明のものに合わせている。）とし、ＳＮＲが悪いところ（THは閾値であり、一定の値である。）、つまり雑音区間でのみ雑音の推定を行っている。このような推定方法では、音声区間で雑音振幅の推定が行われず、雑音の変化に追従できず音声に歪が生じたり、雑音抑圧の効果が薄れてしまう。

また、特許文献２記載の技術では、雑音推定を、
An(t) = δ×As + (1-δ)×An(t-1) when ΣAs ≦ TH
An(t) = δ×（As-(η×Ao(t-1)+(1-η)×(As-An(t-1)) + (1-δ)×An(t-1) when
ΣAs ＞ TH (3)
０.５＜η＜１
（変数名は本発明のものに合わせている。）としている。ここで、Aoは出力信号の振幅推定値を示している。この方法だと、非雑音区間では、１サンプル過去の音声のみが存在しているであろう出力信号（雑音抑圧処理を行った結果であるので）と入力信号から１サンプル過去の雑音成分を引き去った音声だけがあるであろう信号を考慮し、入力信号の中の雑音成分のみを抽出・雑音推定を行っているが、仮定が多い。例えば、(As-An(t-1))の式で音声のみが取り出せるのであれば、この項だけで雑音抑圧が可能である。実際には、これが困難であるから、付加機能を利用しており、(As-An(t-1))で音声のみが取り出せるかは疑問である。また、なにより計算が煩雑である。

そこで、本発明では後段の信号・雑音比算出部５の出力を利用し、以下のように雑音の推定を行う。具体的には、リーク積分の式、
An(t) = δ×As + (1-δ)×An(t-1) (4)
にパラメータγを追加し、
An(t) = δ×γ×As + (1-δ)×An(t-1) (5)
と変形する。ここで、Anは雑音振幅の推定値である。γについては信号・雑音比算出部５の説明にて詳しく説明するが、簡単にいえば、ＳＮＲ（SignalNoiseRatio:ここではAs/An）の逆数である。式(5)のように、リーク積分の式を変形することによって、雑音区間では雑音信号そのもので学習が可能となり、かつ、音声区間ではAsに含まれる雑音信号の振幅値を推定し、学習することが可能となる。

ここでは、１サンプル過去のＳＮＲと現在のＳＮＲが等しいという仮定をしているが、１サンプルの時間は、例えば、400Hz（16kHzを40samples間引き）では0.0025秒であり、この時間間隔でのＳＮＲの変化はごく小さいため、１サンプル過去のＳＮＲと現在のＳＮＲが等しいという仮定は妥当であるといえる。この結果、音声区間・雑音区間の判別を必要とせず、かつ、音声区間でも雑音の推定を精度良く行うことが可能となる。

以上より求まる、入力信号振幅推定部１と雑音信号振幅推定部２のそれぞれの推定振幅値は、雑音区間推定部３に入力される。ここでは、入力信号振幅の推定値と雑音振幅の推定値を比較し、雑音区間の推定を行う。ただし、雑音振幅推定値はあくまで雑音振幅の平均値を示しており、単純に比較するだけでは完全に雑音区間を推定できない。なぜなら、雑音には分散を伴うためである。

雑音の分散を示す一例として、ある部屋における暗騒音の振幅分布を図２に示す。このヒストグラムはある部屋の暗騒音を測定し、その絶対値振幅の最大値を１として正規化、分布をヒストグラムとしたものである。また、雑音振幅の平均値を白の点線で示してある。雑音の平均値と入力信号の振幅推定値（ほぼ瞬時値）を比較すると、雑音振幅の平均値よりも高い振幅値を示す入力信号が半数近くある。すなわち、雑音の振幅推定値と入力信号の振幅推定値を単純に比較し、雑音区間を判別するとその半数が誤りであることになる。

そこで、雑音区間推定部３では、雑音振幅推定値に係数を乗じ、比較することで推定誤りを低減する。この係数は大きいほうが雑音区間を確実に雑音区間と推定できるが、大きくしすぎると音声があるにもかかわらず雑音区間と誤推定しかねない。そこで、係数は２程度とする。この係数を雑音振幅推定値に乗じることで、雑音区間を音声区間と誤推定することが半減する。

以上により推定された雑音区間では、後段の雑音振幅比較部４へ渡す雑音バイアス値を小さくする。この雑音バイアス値は、雑音区間では0.5程度、音声区間では1.0程度の値とする。この値の利用法は後述する。

雑音区間推定部３からの雑音バイアス値を受け、雑音振幅比較部４では入力信号の振幅推定値と雑音振幅の推定値の比較を行う。この際、入力信号に雑音区間推定部３からの雑音バイアス値を乗じて比較する。これは、雑音区間での雑音抑圧を効果的に行うためである。図３を用いて説明する。

図３は、ある入力信号の振幅の経時変化を模擬したものである。各棒グラフの斜線部は雑音成分であり、白抜き部は音声信号を表している。更に、実線は推定された雑音の平均値である。雑音の平均値と雑音成分の大きさを比べ、斜線の棒のほうが実線よりも低ければ、その雑音は完全に抑圧できるが、高い場合には抑圧できない。これはウィナーフィルタによる処理が、雑音振幅の平均値を入力信号の振幅から減算する方式であるためで、平均値より大きい雑音に関しては完全な抑圧ができないことに起因する。

そこで、雑音区間推定部３において雑音区間と判別された場合には図４のように雑音振幅の平均値を見た目上大きくし、ウィナーフィルタの処理を施すことによって、雑音を完全に抑圧する。ただし、音声区間でも同様に見た目上大きくした雑音振幅で処理をすると、音声の歪みが大きくなってしまうので、雑音区間以外では、図３のような本来の雑音振幅平均値を用いる。この場合、雑音は完全に抑圧できないが、音声により雑音がマスクされるため、実際にはほとんど雑音は気にならなくなる。

さて、雑音振幅比較部４では、前述した雑音区間推定部３からの雑音バイアス値を乗じたものと入力信号振幅の推定値を比較し、もし入力信号振幅値が小さければ、その帯域の減衰係数を最大とするような最大減衰係数フラグを減衰係数算出部６に渡す。この最大減衰係数フラグの利用法については後述する。

信号・雑音比算出部５では、入力信号振幅推定値Asと雑音振幅推定値Anの除算を行い、次式で示すγの値を算出する。
γ=An/As
if An > As then γ=1.0 (6)
である。このγは、ＳＮＲの逆数であり、かつ入力信号の振幅が雑音振幅の推定値より小さい場合はγ=1.0とする。すなわち、雑音振幅推定値よりも入力信号が大きければ、この値は小さいものとなる。このγを雑音信号振幅推定部２で利用する。

雑音の推定にはAsを利用することは前述の通りだが、非雑音区間ではAsに含まれる音声成分で雑音推定の精度が落ちてしまう。そこで、更新をγ×Asにより行うことで推定精度を高める。式（5）の右辺第一項δ×γ×Asは、
δ×γ×As＝δ×An/As×As≒δ×An (7)
と変形できる。従って、(5)式右辺全体は、音声を含まない雑音のみの値で更新が可能となる。すなわち、非雑音区間でも雑音の推定を精度良く行うことが可能となる。

次に雑音抑圧の主たる部となる減衰係数算出部６では減衰係数Lを求める。減衰係数は基本的にウィナーフィルタの式により求められ、求められる減衰係数をL'とすると、
L' = ( As - An )/As (8)
この式を式(6)のγを利用して展開すると、
L' = ( As - An )/As = 1 - γ (9)
となる。ここで、雑音振幅比較部４から最大減衰係数フラグが受け渡されていた場合には、L'の値を0とする。

さて、このL'の値をそのまま減衰係数Lとして利用すると、減衰係数が極端に大きくなる場合がある。例えば、γ=0.9のよう場合、L'=0.1となり、入力信号を1/10の大きさにしてしまう。このように減衰係数が大きくなると、音声の歪みが生じやすいため、最大減衰係数MLを設け、最終的に出力される減衰係数Lを
L=L'
if ML > L' then L=ML (10)
とする。ここで求まった減衰係数Lは減衰係数平滑部７に渡される。

前述の減衰係数算出部６によって算出された減衰係数Lは、入力信号振幅推定部１のAsの平滑化により、時間軸方向に平滑化がなされているが、まだ音声の歪みを低減する意味では十分でない。そこで、減衰係数Lをリーク積分によってさらに時間軸上の平滑化を行う。これを行うの
が、減衰係数平滑部７である。
SL(t) = δ×L + (1-δ)×SL(t-1) (11)
式(11)は減衰係数のリーク積分の式であり、SLが最終的な減衰係数となる。ここで、δはおよそ0.5とし、減衰係数の瞬時値に追従し易いものとする。これはδをあまり小さくし過ぎると、音声に歪みが生じてしまうためで、雑音抑圧性能と音声の歪みのトレードオフの関係を調整するパラメータとなる。

以上で、各周波数帯域における減衰係数SLが求まった。この減衰係数SLを各周波数帯域の信号に乗ずることにより、雑音の抑圧が可能となる。しかし、このままの減衰係数SLを乗じた場合、帯域間の減衰係数の差が非常に大きいと、音声の歪みが非常に大きくなってしまう。そこで、本発明では帯域間減衰係数平滑部８を導入する。

帯域間減衰係数平滑部８の機能を、図５〜１２を用いて説明する。先ず、ある時間の各周波数帯域の入力信号のモデルを図５に示す。ここで、グラフの横軸は周波数であり、縦軸は振幅である。また、グラフの斜線部は音声成分であり、白抜き部は雑音成分を表現している。

このような入力信号が入力し、雑音が精度良く推定されていると仮定すると、ウィナーフィルタの理論によりも求まる減衰係数は図６のようになる。このグラフの横軸は図５と同様周波数であり、図５と対応している。また、縦軸は算出された減衰のための乗算値である。図６をみると、隣り合う帯域間で減衰係数の差が大きい組み合わせがあるのが分かる。この極端に大きい減衰係数の差を補正することが帯域間減衰係数平滑部８の目的である。

既存の帯域間の減衰係数の平滑化技術として、特許文献４記載の技術を挙げることができる。この文献では、減衰係数を補正する帯域を中心に、任意の数の帯域の減衰係数を重み付けて平均し、平滑化を実現している。特許文献４で例として挙げられている隣り合う３つの帯域の減衰係数の平均を減衰係数とする処理を図６の減衰係数に適応すると、図７のような減衰係数となる。

確かに、図７をみると、隣り合う帯域間の減衰係数は平滑化され、極端な変化はなくなっている。そこで、図５の入力信号を図７の減衰係数にて出力を算出してみる。結果は図８のようになった。この図では、図５（入力信号）に含まれる音声成分（斜線部）と減衰処理によって生じた雑音（白抜き部）を示している。ここで、注目すべき点は白抜きの雑音成分であり、帯域によってはマイナス方向の雑音が生じている。つまり入力した音声成分が削られ、音声に歪が生じていることがわかる。つまり、この平滑化手法では、各帯域の減衰係数の平滑化により、帯域間の連続性は改善するものの、新たに雑音が付加され音声の歪み・雑音が生じてしまう。これでは、高品質収音は見込めない。

本発明では、帯域間減衰係数平滑部８において、各帯域の隣り合う帯域（以降、隣接バンドと表記）の減衰係数を調べ、隣接バンドの減衰係数との比（以降、MDと表記）が一定以上にならないよう補正する機能を有する。補正は、減衰係数を小さくする方向にのみ行う。これにより、隣接バンド間での減衰係数が滑らかに繋がり、音声の歪みを大幅に解消できる。

具体的な補正の流れについては、図９および１０を用いて説明する。図９は図６において、隣り合う“高い”周波数帯域とのMDが一定以上の帯域を黒塗りで示している。この場合、補正をされるのは、水玉で描かれた帯域であり、この帯域の減衰係数をMDがある値以下になるように補正する。具体的には、例えば減衰係数0.2（水玉）と0.8（黒塗り）が隣り合っていた場合、
MD=0.2/0.8=0.25 (12)
となる。ここで、MDの最小値を0.5とした場合、MDが0.25であるので補正を行う。補正は、0.2の減衰係数であった帯域の減衰係数を、
0.2 → 0.8*MDの最小値=0.8×0.5=0.4 (13)
のように補正する。ここで、注意すべき点は、減衰係数が大きい（乗算値が小さい）帯域の減衰係数を補正している点である。また、周波数の最も高い帯域の減衰係数から補正をする。これにより、図９の2000Hz，2250Hzの帯域のように、２つの帯域で連続して補正が必要な場合でも補正が可能となる。

次に、図１０の補正について述べる。図１０は図９の補正（隣接する周波数の高い帯域に注目した補正）を行った結果を示している。また、図１０の色分けは図９とは逆に、隣り合う“低い”周波数の帯域と比較し、MDが一定値以上ある帯域を水玉で表現している。この水玉の帯域について、前述の図９の補正処理である(12),(13)式の補正を行うことで、図１１のような平滑化された減衰係数を得ることができる。図１１の減衰係数で、入力信号を処理した結果を図１２に示す。この結果を見る、マイナス方向の雑音はないことから音声成分を削ることなく、雑音成分を抑圧できていることが分かる。

ただし、最も低い帯域に抑圧し切れなかった雑音成分が見られる。この雑音に関しては、隣接する帯域の音声信号が大きいため、マスキング効果によりほとんど雑音は気にならない。マスキング効果とは人間の聴覚上の特性のひとつで、ある周波数成分に大きな成分があると、その近傍の音は聞こえにくくなるという現象のことである。

よって、MDの最小値に関しては、隣接バンドの音によって雑音がマスクされる限界の値とするのが好ましい。これは各周波数帯域をマスキングの指標となる臨界帯域バンド（一般的なBark Scaleが利用できる）に分け、MDの最小値を決めることになるが、演算量が増大するため、簡易的にすべての帯域において一定の値としてもかまわない。この場合にはMDの最小値を0.5程度とする。

以上により、定まった各帯域での減衰係数を乗算器９にて各帯域の入力信号に乗ずる。この信号を帯域合成部４０にて合成することによって最終的な出力信号を得る。帯域合成部４０では、帯域分割部２０と同様にＳＳＢ変調を利用した帯域合成の方法が利用できる。

以上が本発明の最良の実施の形態である。これまで一構成をモデルに説明をしてきたが、パラメータなど記載の内容に限定されたものではなく、その要旨を維持する範囲内で変更可能である。

本発明の雑音抑圧装置を示すブロック図ある部屋における暗騒音の振幅絶対値の分布図雑音平均値と雑音・音声の入力モデルの例を示す図雑音平均値を大きく見せた場合の雑音・音声の入力モデルの例を示す図ある帯域の音声信号と雑音信号の振幅を示す図図５の入力の場合に算出される減衰係数を示す図特許文献４記載の技術による減衰係数の平滑結果を示す図図７の減衰係数による出力信号の振幅を示す図本発明での高域比較による減衰係数の平滑結果を示す図本発明での低域比較による減衰係数の平滑結果を示す図本発明での高域比較および低域比較減衰係数の平滑結果を示す図図１１の減衰係数による出力信号の振幅を示す図

符号の説明

１入力信号振幅推定部
２雑音信号振幅推定部
３雑音区間推定部
４雑音振幅比較部
５信号・雑音比算出部
６減衰係数算出部
７減衰係数平滑部
８帯域間減衰係数平滑部
９乗算器
１０マイクロホン
２０帯域分割部
３０処理部
４０帯域合成部

Claims

スペクトルサブトラクション法を採用した雑音抑圧装置において、
音声信号と定常的な雑音信号が混在している時間領域の入力信号をＳＳＢ変調の利用により制限された周波数帯域の信号に分割する帯域分割手段と、
前記分割された周波数帯域の入力信号の内の雑音を抑圧する処理を行う周波数帯域対応の処理部と、
前記各処理部で処理された信号を合成することによって雑音の抑圧された一つの信号を出力する帯域合成部とで構成され、
前記各処理部は、
リーク積分により前記入力信号のフレーム間での減衰係数の差を抑えて時間軸上で平滑化し現在の入力信号の振幅値と雑音の振幅値を推定する振幅推定手段と、
前記雑音振幅推定値を前記入力信号振幅推定値で除算した値γを求めて（１−γ）を減衰係数とする減衰係数決定手段と、
前記減衰係数決定手段により決められた減衰係数について時間軸上および帯域間の平滑化を行なうことにより補正を行なう減衰係数補正手段と、
前記減衰係数補正手段から得られた減衰係数を前記入力信号に乗じる乗算手段を有し、
前記振幅推定手段は、リーク積分の式における前記入力信号振幅推定値の項に前記値γを乗算することにより音声区間であっても雑音推定を止めないことを特徴とする雑音抑圧装置。
前記振幅推定手段により得られた入力信号振幅推定値と雑音振幅推定値を比較して雑音区間を判断し、このとき雑音振幅推定値には２程度の係数を乗じ、また雑音区間では0.5程度、音声区間では1.0程度の雑音バイアス値を出力する雑音区間推定手段と、
前記振幅推定手段により得られる雑音振幅推定値と入力信号振幅推定値に前記雑音バイアス値を乗じて比較し、前記入力信号振幅推定値が小さければ、その帯域の減衰係数を最大とするような最大減衰係数フラグを前記減衰係数決定手段に出力する雑音振幅比較手段を設けたことを特徴とする請求項１記載の雑音抑圧装置。
前記減衰係数決定手段は、
前記値γを算出するが、前記入力信号振幅推定値が前記雑音振幅推定値より小さい場合は前記γを1.0とする信号・雑音比算出手段と、
前記減衰係数を算出するが、前記最大減衰係数フラグが受け渡されていた場合は前記減衰係数を０として前記減衰係数補正手段へ出力する減衰係数算出手段とで構成されることを特徴とする請求項２記載の雑音抑圧装置。
前記減衰係数補正手段は、
減衰係数決定手段からの減衰係数についてリーク積分により時間軸上の平滑化を行う減衰係数平準手段と、
当該周波数帯域における前記減衰係数について、隣り合う帯域の減衰係数を調べ、その減衰係数との比が一定以上にならないよう減衰係数を小さくする方向にのみ補正する帯域間減衰係数平準手段とで構成されることを特徴とした請求項１ないし請求項３のいずれかに記載の雑音抑圧装置。