JP4757775B2 - 雑音抑圧装置 - Google Patents

雑音抑圧装置 Download PDF

Info

Publication number
JP4757775B2
JP4757775B2 JP2006299770A JP2006299770A JP4757775B2 JP 4757775 B2 JP4757775 B2 JP 4757775B2 JP 2006299770 A JP2006299770 A JP 2006299770A JP 2006299770 A JP2006299770 A JP 2006299770A JP 4757775 B2 JP4757775 B2 JP 4757775B2
Authority
JP
Japan
Prior art keywords
noise
attenuation coefficient
amplitude
value
input signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006299770A
Other languages
English (en)
Other versions
JP2008116686A (ja
Inventor
良次 宮原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Engineering Ltd
Original Assignee
NEC Engineering Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Engineering Ltd filed Critical NEC Engineering Ltd
Priority to JP2006299770A priority Critical patent/JP4757775B2/ja
Publication of JP2008116686A publication Critical patent/JP2008116686A/ja
Application granted granted Critical
Publication of JP4757775B2 publication Critical patent/JP4757775B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Noise Elimination (AREA)

Description

本発明は、音声の高品質収音を目的とした雑音抑圧に関し、特に定常的な雑音と音声が混在した音響信号から、音声信号以外の雑音を抑圧する雑音抑圧装置に関する。
この種の雑音抑圧に関する技術として、スペクトルサブトラクション法(以降SS法と表記)が周知である。SS法では、マイクロホンに入力した音響信号にフーリエ変換を施し、周波数領域の振幅情報(以降スペクトルと表記)と位相情報に変換する。そして、このスペクトルの情報を利用し、雑音と音声が混在した音響信号のスペクトルから、推定された雑音信号のみのスペクトルを差し引くことで雑音の抑圧を図っている。
SS法による雑音信号の推定方法については、これまでいくつかの方法が提案されており、例えば、特許文献1記載の技術は、フレームと呼ばれる一定時間毎にSN比を求めて音声区間と雑音区間に分け、雑音区間の推定を行い、その区間でのスペクトルを雑音スペクトルとしている。
また、特許文献2記載の技術は、雑音区間では、その前フレームでのスペクトルを雑音スペクトルとし、音声区間では入力信号と出力信号、推定雑音成分から音声成分のみを取り出し、入力信号との差分をとることで雑音信号のみを得、その成分によって更新することで雑音推定の精度を上げている。
SS法は入力信号から雑音成分を差し引く方法であるが、これは入力信号から雑音を作り出し、付加することで雑音の低減を図っているとも捉えることができる。この付加する雑音によって生じる、ミュージカルノイズと呼ばれる新たな雑音も問題となる。更に、SS法は、マイクロホンで収音できる時間領域の音響信号を周波数領域に変換するために、フーリエ変換を利用している。このフーリエ変換の処理方法については、高速フーリエ変換(FFT)が周知であり、FFT自体の演算量はそれほど多くないものの、周波数領域での信号が複素数となるために、実数の演算と比較し演算量のかかる複素数演算が、音声をリアルタイムで処理する場合には問題になってくる場合も多い。
システムの大規模化および演算量の増加を解決するため、周知の一般的な片側波帯(以降SSBと表記)変調を利用したフィルタバンクを用いて帯域分割を行い、ウィナーフィルタの理論を利用して雑音抑圧を行う手法(例えば、特許文献3参照)が知られている。この手法では、雑音の推定ならびにフィルタ係数の更新を指数平滑することが効果的であるとし、これによりミュージカルノイズの低減が除去されるとしている。
また、SS法は周波数領域で非線形な処理を施すことになるため必然的に音声に歪が生じる。そこで、減衰係数を補正する帯域を中心に、任意の数の帯域の減衰帯域の減衰係数を重み付け平均することで、周波数領域での減衰係数の平滑化実現している(例えば、特許文献4参照)。
特開平10−097288号公報(第3頁−第4頁、図1) 特許第3270480号公報(第4頁−第5頁、図2) 特表2004−502977号公報(第7頁−第10頁、図1) 特開2005−348173号公報(第6頁−第7頁、図1)
しかし、特許文献1記載の技術では、音声区間での雑音の推定が行われず、その間に雑音に変化があると音声に歪みが生じる。また、雑音区間の推定に誤りが生じると、音声によって推定雑音スペクトルに誤りが生じ、これも音声の歪みの原因となる。この結果、雑音や音声の歪を伴った収音信号となってしまい、高品質な音声収音が実現されないという問題点がある。
また、特許文献2記載の技術では、前フレームの出力信号を利用して雑音成分を推定しており、音声信号が帯域3.4kHz程度(電話に利用されるの音声帯域)の信号であれば、大きな問題にはならないものの、広帯域である7kHz以上の音声を扱うような場合(音声会議・Webカンファレンスなど)、その推定には大きな誤差が生じるという問題点がある。
また、特許文献3記載の技術では、雑音の推定はあくまで平均値を利用することとなり、収音すべき音声に歪みが生じてしまうという問題点がある。
また、特許文献4記載の技術では、各帯域の減衰係数の平準化により帯域間の連続性は改善するものの、雑音の抑圧に支障をきたす上、音声には新たな歪を生じさせてしまう。
そこで、本発明の目的は、帯域分割フィルタバンクを利用した雑音抑圧方法における、雑音の推定手法ならびにフィルタ係数の修正方法を提案し、装置の大規模化や演算の際に複素数演算を含まず、かつ歪の少ない雑音抑圧を実現する雑音抑圧装置を提供することにある。
本発明の雑音抑圧装置は、スペクトルサブトラクション法を採用した雑音抑圧装置において、音声信号と定常的な雑音信号が混在している時間領域の入力信号をSSB変調の利用により制限された周波数帯域の信号に分割する帯域分割手段(図1の20)と、分割された周波数帯域の入力信号の内の雑音を抑圧する処理を行う周波数帯域対応の処理部(図1の30)と、各処理部で処理された信号を合成することによって雑音の抑圧された一つの信号を出力する帯域合成部(図1の40)とで構成され、各処理部(図1の30)は、 リーク積分により前記入力信号のフレーム間での減衰係数の差を抑えて時間軸上で平滑化し現在の入力信号の振幅値と雑音の振幅値を推定する振幅推定手段(図1の1,2)と、雑音振幅推定値を入力信号振幅推定値で除算した値γを求めて(1−γ)を減衰係数とする減衰係数決定手段(図1の5,6)と、減衰係数決定手段により決められた減衰係数について時間軸上および帯域間の平滑化を行なうことにより補正を行なう減衰係数補正手段(図1の7,8)と、減衰係数補正手段から得られた減衰係数を入力信号に乗じる乗算手段(図1の9)を有し、振幅推定手段(図1の2)は、リーク積分の式における入力信号振幅推定値の項に値γを乗算することにより音声区間であっても雑音推定を止めないことを特徴とする。
また、本発明の雑音抑圧装置には、振幅推定手段(図1の1,2)により得られた入力信号振幅推定値と雑音振幅推定値を比較して雑音区間を判断し、このとき雑音振幅推定値には2程度の係数を乗じ、また雑音区間では0.5程度、音声区間では1.0程度の雑音バイアス値を出力する雑音区間推定手段(図1の3)と、振幅推定手段により得られる雑音振幅推定値と入力信号振幅推定値に雑音バイアス値を乗じて比較し、入力信号振幅推定値が小さければ、その帯域の減衰係数を最大とするような最大減衰係数フラグを減衰係数決定手段(図1の5,6)に出力する雑音振幅比較手段(図1の4)を設けてもよい。
より詳しくは、減衰係数決定手段(図1の5,6)は、値γを算出するが、入力信号振幅推定値が雑音振幅推定値より小さい場合は値γを1.0とする信号・雑音比算出手段(図1の5)と、減衰係数を算出するが、最大減衰係数フラグが受け渡されていた場合は減衰係数を0として減衰係数補正手段へ出力する減衰係数算出手段(図1の6)とで構成されることを特徴とする。
減衰係数補正手段(図1の7,8)は、減衰係数決定手段からの減衰係数についてリーク積分により時間軸上の平滑化を行う減衰係数平準手段(図1の7)と、当該周波数帯域における前記減衰係数について、隣り合う帯域の減衰係数を調べ、その減衰係数との比が一定以上にならないよう減衰係数を小さくする方向にのみ補正する帯域間減衰係数平準手段(図1の8)とで構成される。
本発明では、SSB変調を利用した帯域分割により、先ず、複素数演算による演算量の増加を解決する。そして、雑音推定誤りに関しては、雑音と現在の振幅値の比(以後SNRと表記)を利用した雑音の推定とすることで音声区間中でも雑音の推定を継続し誤りを抑えている。以上より求まる雑音振幅スペクトルと入力信号スペクトルを利用し、ウィナーフィルタの理論を用いることによって雑音の低減を図る。このとき、ウィナーフィルタ理論により求まる減衰係数を時間領域で平滑化することで時間領域での非線形性を低減し、かつ隣接帯域間での減衰係数を基に各帯域の減衰係数を補正することで周波数領域での非線形性を低減し、音声の歪みを抑えている。さらに、ミュージカルノイズに関しては、雑音区間の推定を行い、雑音区間では雑音を見た目上大きくし、減衰係数を大きくすることで解決する。
本発明によれば、従来手法よりも演算量が少なく、出力音声に歪みの少ない、雑音抑圧が可能になる。これは、雑音推定にSNRを利用する形態とすること、各帯域の減衰係数を時間軸上において平滑化すること、隣接帯域の減衰係数に基づいて各帯域の減衰係数を平滑化したためである。
以下、本発明の実施の形態について図面を参照しながら詳細に説明する。
[構成の説明]
図1に本発明の雑音抑圧装置の構成と処理の流れを示す。この雑音抑圧装置は、マイクロホン10から入力してくる入力信号を周波数帯域に制限された信号に分割する帯域分割部20と、分割された信号と1対1対応の処理部30と、各処理部30において処理された信号を合成する帯域合成部40とで構成されている。
マイクロホン10で収音される入力信号には音声信号と雑音信号が混在している。そこで、帯域分割部20は入力信号を帯域分割し、各処理部30は当該周波数帯域の入力信号の内の雑音を抑圧する処理を行い、帯域合成部40で各帯域の信号を合成することによって、雑音の抑圧された信号を出力する。
帯域分割部20には一般的なSSB(Single Side Band)変調を利用したフィルタバンクを利用する。もし、帯域分割部20にFFTなどフーリエ変換の手法を利用すると、帯域分割内の信号が複素数となるため演算量の増加を招いてしまう。そこで、このような演算量の無駄な増加を抑えるためSSB変調を利用した帯域分割を行なう。
具体的な帯域分割部20の流れである。先ず、入力信号を帯域分割数に依存するフレーム長で切り取る。これは、帯域分割部20にて行われる分割の方法にも因るが、本発明で利用するSSB変調を利用した帯域分割では、例えば16個の帯域に分割したい場合、10サンプル程度のフレームにて処理を行う。分割数に関しては、サンプリング周波数によって変えるべきである。参考としては、16kHzサンプリングの音声を扱う場合は32分割で十分である。この場合、フレーム長は20サンプル程度となる。
フレーム長で切り取られた信号は、SSB変調を利用したフィルタバンクに入力され、各周波数帯域に制限された1サンプルの信号の集合となる。この各周波数帯域の信号は、それぞれほぼ独立に処理されるため、図1では、処理部30をレイヤー構造にて表現している。
各処理部30は、入力信号振幅推定部1,雑音信号振幅推定部2,雑音区間推定部3,雑音振幅比較部4,信号・雑音比算出部5,減衰係数算出部6,減衰係数平滑部7,帯域間減衰係数平滑部8および乗算器9で構成されている。各部1〜8は、帯域分割部20からの入力信号を分析するより、入力信号に対する減衰係数を求める。乗算器9は、帯域分割部20からの入力信号に、各部1〜8で求まった減衰係数を乗じて帯域合成部40へ出力する。
入力信号振幅推定部1は、リーク積分と呼ばれる処理で入力信号の振幅の推定を行なう。SS法は周波数領域で非線形な処理を施すことになるため、必然的に信号に歪が生じる。この信号の歪に対する対策として、入力信号のフレーム間での減衰係数の差を抑えて時間軸上で平滑化を図り、現在の信号の振幅値(平均値)を推定する。
雑音信号振幅推定部2は、入力信号振幅推定部1と同様に、リーク積分を利用して雑音の振幅値を推定する。ここでの推定には、後段の信号・雑音比算出部5の出力を利用し、SNR(SignalNoiseRatio:ここではAs/An)の逆数γ(=An/As)でリーク積分の式を変形することによって、音声区間・雑音区間の判別を必要とせず、かつ、音声区間でも雑音の推定を精度良く行うことを可能としている。
雑音区間推定部3は、入力信号振幅推定部1と雑音信号振幅推定部2からのそれぞれの推定振幅値を入力して比較し雑音区間の推定を行う。この場合、雑音振幅推定値は平均値であるため、2程度の係数を乗じることで雑音区間を音声区間と誤推定することが半減する。このため、雑音区間推定部3は、雑音区間では0.5程度、音声区間では1.0程度の雑音バイアス値を後段の雑音振幅比較部4へ渡す。
雑音振幅比較部4は、入力信号振幅推定部1と雑音信号振幅推定部2からのそれぞれの推定振幅値を入力して比較し、入力信号振幅推定値が小さければ、その帯域の減衰係数を最大とするような最大減衰係数フラグを減衰係数算出部6に渡す。この際、推定値に雑音区間推定部3からの雑音バイアス値を乗じて比較する。これは、雑音区間推定部3において雑音振幅推定値に係数を乗じたことに呼応して雑音区間での雑音抑圧を効果的に行うためである。
信号・雑音比算出部5は、入力信号振幅推定部1と雑音信号振幅推定部2のそれぞれの推定振幅値を入力して、雑音振幅推定値を入力信号振幅推定値で除算したSNRの逆数γ=(An/As)を算出する。もし、入力信号振幅推定値が雑音振幅推定値より小さい場合はγ=1.0として雑音信号振幅推定部2および減衰係数算出部6に渡す。雑音信号振幅推定部2におけるγの使途は前述のとおりである。
減衰係数算出部6は、信号・雑音比算出部5からのSNRの逆数γ=(An/As)と、雑音振幅比較部4からの最大減衰係数フラグとにより減衰係数Lを算出し減衰係数平滑部7に渡す。減衰係数平滑部7は、減衰係数算出部6からの減衰係数Lについて、リーク積分により更に時間軸上の平滑化を行い、最終的な減衰係数SLを求めて帯域間減衰係数平滑部8に渡す。
帯域間減衰係数平滑部8は、当該周波数帯域における減衰係数SLについて、隣り合う帯域(以降、隣接バンドと表記)の減衰係数SLを調べ、隣接バンドの減衰係数SLとの比(以降、MDと表記)が一定以上にならないよう補正する。補正は、減衰係数を小さくする方向にのみ行う。これにより、隣接バンド間での減衰係数が滑らかにつながり、音声のひずみを大きく解消できる。この目的のため、図1では描き難いが、帯域間減衰係数平滑部8には、隣り合う帯域に対応する処理部30の減衰係数平滑部7から減衰係数SLが入力している。
[動作の説明]
次に、以上のように構成された本雑音抑圧装置の動作について図2〜図12をも参照しながら詳述する。
帯域分割部20にて分割された各周波数帯域の信号は、処理部30の入力信号振幅推定部1に入力される。この入力信号振幅推定部1では、リーク積分と呼ばれる処理で振幅の推定が行われる。リーク積分は以下の式で表される。
As(t) = δ×|S| + (1-δ)×As(t-1) (1)
ここで、tはサンプル時間、(t-1)は1サンプル過去の時間を表す。Sはマイクロホンに入力する音声と雑音の混合した入力信号である。また、Asは入力信号の振幅推定値を表現している。δは瞬時値が推定値に与える影響をコントロールするためのパラメータであり、1以下の値とする。パラメータδを小さくすれば、振幅推定値Asは入力信号の平均値に近似され、大きくすれば入力信号の瞬時値に近くなる。
ウィナーフィルタの理論により雑音抑圧をするためには、入力信号の振幅値は入力信号の瞬時値を利用すれば問題ない。もし、入力信号の瞬時値を利用したい場合は、パラメータδを1とすればよい。ただし、δを0.5から0.25程度の値にすることでフレーム間での減衰係数の差が抑えられるため、時間軸上で平滑化がなされ、非線形性が抑えられる。このことにより、歪みを低減することができる。本発明ではδ=0.5〜0.25を推奨する。
次に、入力信号振幅推定部1の出力を雑音信号振幅推定部2に入力する。雑音信号振幅推定部2では、入力信号振幅推定部1と同様に、リーク積分を利用して雑音の平均値を推定する。この場合、瞬時値への追従を行う必要がないから、δの値をごく小さくし、0.0001などとする。雑音信号振幅推定部2への入力となる入力信号振幅推定部1の出力Asは、入力信号振幅推定部1にて予め平滑化が行われているため、雑音推定精度の向上が見込める。ただし、入力信号振幅推定部1の出力には、抑圧したい雑音の他に音声の成分も含まれている。
従来の手法では、音声区間と雑音区間を分けることで、音声成分の排除を行っているものが多い。例えば、特許文献1記載の技術では、雑音推定を、
An(t) = δ×As + (1-δ)×An(t-1) (2)
δ=α when As/An ≦ TH
δ=0 when As/An > TH
0<α<1
(変数名は本発明のものに合わせている。)とし、SNRが悪いところ(THは閾値であり、一定の値である。)、つまり雑音区間でのみ雑音の推定を行っている。このような推定方法では、音声区間で雑音振幅の推定が行われず、雑音の変化に追従できず音声に歪が生じたり、雑音抑圧の効果が薄れてしまう。
また、特許文献2記載の技術では、雑音推定を、
An(t) = δ×As + (1-δ)×An(t-1) when ΣAs ≦ TH
An(t) = δ×(As-(η×Ao(t-1)+(1-η)×(As-An(t-1)) + (1-δ)×An(t-1) when
ΣAs > TH (3)
0.5<η<1
(変数名は本発明のものに合わせている。)としている。ここで、Aoは出力信号の振幅推定値を示している。この方法だと、非雑音区間では、1サンプル過去の音声のみが存在しているであろう出力信号(雑音抑圧処理を行った結果であるので)と入力信号から1サンプル過去の雑音成分を引き去った音声だけがあるであろう信号を考慮し、入力信号の中の雑音成分のみを抽出・雑音推定を行っているが、仮定が多い。例えば、(As-An(t-1))の式で音声のみが取り出せるのであれば、この項だけで雑音抑圧が可能である。実際には、これが困難であるから、付加機能を利用しており、(As-An(t-1))で音声のみが取り出せるかは疑問である。また、なにより計算が煩雑である。
そこで、本発明では後段の信号・雑音比算出部5の出力を利用し、以下のように雑音の推定を行う。具体的には、リーク積分の式、
An(t) = δ×As + (1-δ)×An(t-1) (4)
にパラメータγを追加し、
An(t) = δ×γ×As + (1-δ)×An(t-1) (5)
と変形する。ここで、Anは雑音振幅の推定値である。γについては信号・雑音比算出部5の説明にて詳しく説明するが、簡単にいえば、SNR(SignalNoiseRatio:ここではAs/An)の逆数である。式(5)のように、リーク積分の式を変形することによって、雑音区間では雑音信号そのもので学習が可能となり、かつ、音声区間ではAsに含まれる雑音信号の振幅値を推定し、学習することが可能となる。
ここでは、1サンプル過去のSNRと現在のSNRが等しいという仮定をしているが、1サンプルの時間は、例えば、400Hz(16kHzを40samples間引き)では0.0025秒であり、この時間間隔でのSNRの変化はごく小さいため、1サンプル過去のSNRと現在のSNRが等しいという仮定は妥当であるといえる。この結果、音声区間・雑音区間の判別を必要とせず、かつ、音声区間でも雑音の推定を精度良く行うことが可能となる。
以上より求まる、入力信号振幅推定部1と雑音信号振幅推定部2のそれぞれの推定振幅値は、雑音区間推定部3に入力される。ここでは、入力信号振幅の推定値と雑音振幅の推定値を比較し、雑音区間の推定を行う。ただし、雑音振幅推定値はあくまで雑音振幅の平均値を示しており、単純に比較するだけでは完全に雑音区間を推定できない。なぜなら、雑音には分散を伴うためである。
雑音の分散を示す一例として、ある部屋における暗騒音の振幅分布を図2に示す。このヒストグラムはある部屋の暗騒音を測定し、その絶対値振幅の最大値を1として正規化、分布をヒストグラムとしたものである。また、雑音振幅の平均値を白の点線で示してある。雑音の平均値と入力信号の振幅推定値(ほぼ瞬時値)を比較すると、雑音振幅の平均値よりも高い振幅値を示す入力信号が半数近くある。すなわち、雑音の振幅推定値と入力信号の振幅推定値を単純に比較し、雑音区間を判別するとその半数が誤りであることになる。
そこで、雑音区間推定部3では、雑音振幅推定値に係数を乗じ、比較することで推定誤りを低減する。この係数は大きいほうが雑音区間を確実に雑音区間と推定できるが、大きくしすぎると音声があるにもかかわらず雑音区間と誤推定しかねない。そこで、係数は2程度とする。この係数を雑音振幅推定値に乗じることで、雑音区間を音声区間と誤推定することが半減する。
以上により推定された雑音区間では、後段の雑音振幅比較部4へ渡す雑音バイアス値を小さくする。この雑音バイアス値は、雑音区間では0.5程度、音声区間では1.0程度の値とする。この値の利用法は後述する。
雑音区間推定部3からの雑音バイアス値を受け、雑音振幅比較部4では入力信号の振幅推定値と雑音振幅の推定値の比較を行う。この際、入力信号に雑音区間推定部3からの雑音バイアス値を乗じて比較する。これは、雑音区間での雑音抑圧を効果的に行うためである。図3を用いて説明する。
図3は、ある入力信号の振幅の経時変化を模擬したものである。各棒グラフの斜線部は雑音成分であり、白抜き部は音声信号を表している。更に、実線は推定された雑音の平均値である。雑音の平均値と雑音成分の大きさを比べ、斜線の棒のほうが実線よりも低ければ、その雑音は完全に抑圧できるが、高い場合には抑圧できない。これはウィナーフィルタによる処理が、雑音振幅の平均値を入力信号の振幅から減算する方式であるためで、平均値より大きい雑音に関しては完全な抑圧ができないことに起因する。
そこで、雑音区間推定部3において雑音区間と判別された場合には図4のように雑音振幅の平均値を見た目上大きくし、ウィナーフィルタの処理を施すことによって、雑音を完全に抑圧する。ただし、音声区間でも同様に見た目上大きくした雑音振幅で処理をすると、音声の歪みが大きくなってしまうので、雑音区間以外では、図3のような本来の雑音振幅平均値を用いる。この場合、雑音は完全に抑圧できないが、音声により雑音がマスクされるため、実際にはほとんど雑音は気にならなくなる。
さて、雑音振幅比較部4では、前述した雑音区間推定部3からの雑音バイアス値を乗じたものと入力信号振幅の推定値を比較し、もし入力信号振幅値が小さければ、その帯域の減衰係数を最大とするような最大減衰係数フラグを減衰係数算出部6に渡す。この最大減衰係数フラグの利用法については後述する。
信号・雑音比算出部5では、入力信号振幅推定値Asと雑音振幅推定値Anの除算を行い、次式で示すγの値を算出する。
γ=An/As
if An > As then γ=1.0 (6)
である。このγは、SNRの逆数であり、かつ入力信号の振幅が雑音振幅の推定値より小さい場合はγ=1.0とする。すなわち、雑音振幅推定値よりも入力信号が大きければ、この値は小さいものとなる。このγを雑音信号振幅推定部2で利用する。
雑音の推定にはAsを利用することは前述の通りだが、非雑音区間ではAsに含まれる音声成分で雑音推定の精度が落ちてしまう。そこで、更新をγ×Asにより行うことで推定精度を高める。式(5)の右辺第一項δ×γ×Asは、
δ×γ×As=δ×An/As×As≒δ×An (7)
と変形できる。従って、(5)式右辺全体は、音声を含まない雑音のみの値で更新が可能となる。すなわち、非雑音区間でも雑音の推定を精度良く行うことが可能となる。
次に雑音抑圧の主たる部となる減衰係数算出部6では減衰係数Lを求める。減衰係数は基本的にウィナーフィルタの式により求められ、求められる減衰係数をL'とすると、
L' = ( As - An )/As (8)
この式を式(6)のγを利用して展開すると、
L' = ( As - An )/As = 1 - γ (9)
となる。ここで、雑音振幅比較部4から最大減衰係数フラグが受け渡されていた場合には、L'の値を0とする。
さて、このL'の値をそのまま減衰係数Lとして利用すると、減衰係数が極端に大きくなる場合がある。例えば、γ=0.9のよう場合、L'=0.1となり、入力信号を1/10の大きさにしてしまう。このように減衰係数が大きくなると、音声の歪みが生じやすいため、最大減衰係数MLを設け、最終的に出力される減衰係数Lを
L=L'
if ML > L' then L=ML (10)
とする。ここで求まった減衰係数Lは減衰係数平滑部7に渡される。
前述の減衰係数算出部6によって算出された減衰係数Lは、入力信号振幅推定部1のAsの平滑化により、時間軸方向に平滑化がなされているが、まだ音声の歪みを低減する意味では十分でない。そこで、減衰係数Lをリーク積分によってさらに時間軸上の平滑化を行う。これを行うの
が、減衰係数平滑部7である。
SL(t) = δ×L + (1-δ)×SL(t-1) (11)
式(11)は減衰係数のリーク積分の式であり、SLが最終的な減衰係数となる。ここで、δはおよそ0.5とし、減衰係数の瞬時値に追従し易いものとする。これはδをあまり小さくし過ぎると、音声に歪みが生じてしまうためで、雑音抑圧性能と音声の歪みのトレードオフの関係を調整するパラメータとなる。
以上で、各周波数帯域における減衰係数SLが求まった。この減衰係数SLを各周波数帯域の信号に乗ずることにより、雑音の抑圧が可能となる。しかし、このままの減衰係数SLを乗じた場合、帯域間の減衰係数の差が非常に大きいと、音声の歪みが非常に大きくなってしまう。そこで、本発明では帯域間減衰係数平滑部8を導入する。
帯域間減衰係数平滑部8の機能を、図5〜12を用いて説明する。先ず、ある時間の各周波数帯域の入力信号のモデルを図5に示す。ここで、グラフの横軸は周波数であり、縦軸は振幅である。また、グラフの斜線部は音声成分であり、白抜き部は雑音成分を表現している。
このような入力信号が入力し、雑音が精度良く推定されていると仮定すると、ウィナーフィルタの理論によりも求まる減衰係数は図6のようになる。このグラフの横軸は図5と同様周波数であり、図5と対応している。また、縦軸は算出された減衰のための乗算値である。図6をみると、隣り合う帯域間で減衰係数の差が大きい組み合わせがあるのが分かる。この極端に大きい減衰係数の差を補正することが帯域間減衰係数平滑部8の目的である。
既存の帯域間の減衰係数の平滑化技術として、特許文献4記載の技術を挙げることができる。この文献では、減衰係数を補正する帯域を中心に、任意の数の帯域の減衰係数を重み付けて平均し、平滑化を実現している。特許文献4で例として挙げられている隣り合う3つの帯域の減衰係数の平均を減衰係数とする処理を図6の減衰係数に適応すると、図7のような減衰係数となる。
確かに、図7をみると、隣り合う帯域間の減衰係数は平滑化され、極端な変化はなくなっている。そこで、図5の入力信号を図7の減衰係数にて出力を算出してみる。結果は図8のようになった。この図では、図5(入力信号)に含まれる音声成分(斜線部)と減衰処理によって生じた雑音(白抜き部)を示している。ここで、注目すべき点は白抜きの雑音成分であり、帯域によってはマイナス方向の雑音が生じている。つまり入力した音声成分が削られ、音声に歪が生じていることがわかる。つまり、この平滑化手法では、各帯域の減衰係数の平滑化により、帯域間の連続性は改善するものの、新たに雑音が付加され音声の歪み・雑音が生じてしまう。これでは、高品質収音は見込めない。
本発明では、帯域間減衰係数平滑部8において、各帯域の隣り合う帯域(以降、隣接バンドと表記)の減衰係数を調べ、隣接バンドの減衰係数との比(以降、MDと表記)が一定以上にならないよう補正する機能を有する。補正は、減衰係数を小さくする方向にのみ行う。これにより、隣接バンド間での減衰係数が滑らかに繋がり、音声の歪みを大幅に解消できる。
具体的な補正の流れについては、図9および10を用いて説明する。図9は図6において、隣り合う“高い”周波数帯域とのMDが一定以上の帯域を黒塗りで示している。この場合、補正をされるのは、水玉で描かれた帯域であり、この帯域の減衰係数をMDがある値以下になるように補正する。具体的には、例えば減衰係数0.2(水玉)と0.8(黒塗り)が隣り合っていた場合、
MD=0.2/0.8=0.25 (12)
となる。ここで、MDの最小値を0.5とした場合、MDが0.25であるので補正を行う。補正は、0.2の減衰係数であった帯域の減衰係数を、
0.2 → 0.8*MDの最小値=0.8×0.5=0.4 (13)
のように補正する。ここで、注意すべき点は、減衰係数が大きい(乗算値が小さい)帯域の減衰係数を補正している点である。また、周波数の最も高い帯域の減衰係数から補正をする。これにより、図9の2000Hz,2250Hzの帯域のように、2つの帯域で連続して補正が必要な場合でも補正が可能となる。
次に、図10の補正について述べる。図10は図9の補正(隣接する周波数の高い帯域に注目した補正)を行った結果を示している。また、図10の色分けは図9とは逆に、隣り合う“低い”周波数の帯域と比較し、MDが一定値以上ある帯域を水玉で表現している。この水玉の帯域について、前述の図9の補正処理である(12),(13)式の補正を行うことで、図11のような平滑化された減衰係数を得ることができる。図11の減衰係数で、入力信号を処理した結果を図12に示す。この結果を見る、マイナス方向の雑音はないことから音声成分を削ることなく、雑音成分を抑圧できていることが分かる。
ただし、最も低い帯域に抑圧し切れなかった雑音成分が見られる。この雑音に関しては、隣接する帯域の音声信号が大きいため、マスキング効果によりほとんど雑音は気にならない。マスキング効果とは人間の聴覚上の特性のひとつで、ある周波数成分に大きな成分があると、その近傍の音は聞こえにくくなるという現象のことである。
よって、MDの最小値に関しては、隣接バンドの音によって雑音がマスクされる限界の値とするのが好ましい。これは各周波数帯域をマスキングの指標となる臨界帯域バンド(一般的なBark Scaleが利用できる)に分け、MDの最小値を決めることになるが、演算量が増大するため、簡易的にすべての帯域において一定の値としてもかまわない。この場合にはMDの最小値を0.5程度とする。
以上により、定まった各帯域での減衰係数を乗算器9にて各帯域の入力信号に乗ずる。この信号を帯域合成部40にて合成することによって最終的な出力信号を得る。帯域合成部40では、帯域分割部20と同様にSSB変調を利用した帯域合成の方法が利用できる。
以上が本発明の最良の実施の形態である。これまで一構成をモデルに説明をしてきたが、パラメータなど記載の内容に限定されたものではなく、その要旨を維持する範囲内で変更可能である。
本発明の雑音抑圧装置を示すブロック図 ある部屋における暗騒音の振幅絶対値の分布図 雑音平均値と雑音・音声の入力モデルの例を示す図 雑音平均値を大きく見せた場合の雑音・音声の入力モデルの例を示す図 ある帯域の音声信号と雑音信号の振幅を示す図 図5の入力の場合に算出される減衰係数を示す図 特許文献4記載の技術による減衰係数の平滑結果を示す図 図7の減衰係数による出力信号の振幅を示す図 本発明での高域比較による減衰係数の平滑結果を示す図 本発明での低域比較による減衰係数の平滑結果を示す図 本発明での高域比較および低域比較減衰係数の平滑結果を示す図 図11の減衰係数による出力信号の振幅を示す図
符号の説明
1 入力信号振幅推定部
2 雑音信号振幅推定部
3 雑音区間推定部
4 雑音振幅比較部
5 信号・雑音比算出部
6 減衰係数算出部
7 減衰係数平滑部
8 帯域間減衰係数平滑部
9 乗算器
10 マイクロホン
20 帯域分割部
30 処理部
40 帯域合成部

Claims (4)

  1. スペクトルサブトラクション法を採用した雑音抑圧装置において、
    音声信号と定常的な雑音信号が混在している時間領域の入力信号をSSB変調の利用により制限された周波数帯域の信号に分割する帯域分割手段と、
    前記分割された周波数帯域の入力信号の内の雑音を抑圧する処理を行う周波数帯域対応の処理部と、
    前記各処理部で処理された信号を合成することによって雑音の抑圧された一つの信号を出力する帯域合成部とで構成され、
    前記各処理部は、
    リーク積分により前記入力信号のフレーム間での減衰係数の差を抑えて時間軸上で平滑化し現在の入力信号の振幅値と雑音の振幅値を推定する振幅推定手段と、
    前記雑音振幅推定値を前記入力信号振幅推定値で除算した値γを求めて(1−γ)を減衰係数とする減衰係数決定手段と、
    前記減衰係数決定手段により決められた減衰係数について時間軸上および帯域間の平滑化を行なうことにより補正を行なう減衰係数補正手段と、
    前記減衰係数補正手段から得られた減衰係数を前記入力信号に乗じる乗算手段を有し、
    前記振幅推定手段は、リーク積分の式における前記入力信号振幅推定値の項に前記値γを乗算することにより音声区間であっても雑音推定を止めないことを特徴とする雑音抑圧装置。
  2. 前記振幅推定手段により得られた入力信号振幅推定値と雑音振幅推定値を比較して雑音区間を判断し、このとき雑音振幅推定値には2程度の係数を乗じ、また雑音区間では0.5程度、音声区間では1.0程度の雑音バイアス値を出力する雑音区間推定手段と、
    前記振幅推定手段により得られる雑音振幅推定値と入力信号振幅推定値に前記雑音バイアス値を乗じて比較し、前記入力信号振幅推定値が小さければ、その帯域の減衰係数を最大とするような最大減衰係数フラグを前記減衰係数決定手段に出力する雑音振幅比較手段を設けたことを特徴とする請求項1記載の雑音抑圧装置。
  3. 前記減衰係数決定手段は、
    前記値γを算出するが、前記入力信号振幅推定値が前記雑音振幅推定値より小さい場合は前記γを1.0とする信号・雑音比算出手段と、
    前記減衰係数を算出するが、前記最大減衰係数フラグが受け渡されていた場合は前記減衰係数を0として前記減衰係数補正手段へ出力する減衰係数算出手段とで構成されることを特徴とする請求項2記載の雑音抑圧装置。
  4. 前記減衰係数補正手段は、
    減衰係数決定手段からの減衰係数についてリーク積分により時間軸上の平滑化を行う減衰係数平準手段と、
    当該周波数帯域における前記減衰係数について、隣り合う帯域の減衰係数を調べ、その減衰係数との比が一定以上にならないよう減衰係数を小さくする方向にのみ補正する帯域間減衰係数平準手段とで構成されることを特徴とした請求項1ないし請求項3のいずれかに記載の雑音抑圧装置。
JP2006299770A 2006-11-06 2006-11-06 雑音抑圧装置 Active JP4757775B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006299770A JP4757775B2 (ja) 2006-11-06 2006-11-06 雑音抑圧装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006299770A JP4757775B2 (ja) 2006-11-06 2006-11-06 雑音抑圧装置

Publications (2)

Publication Number Publication Date
JP2008116686A JP2008116686A (ja) 2008-05-22
JP4757775B2 true JP4757775B2 (ja) 2011-08-24

Family

ID=39502670

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006299770A Active JP4757775B2 (ja) 2006-11-06 2006-11-06 雑音抑圧装置

Country Status (1)

Country Link
JP (1) JP4757775B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5494085B2 (ja) * 2010-03-24 2014-05-14 ヤマハ株式会社 音響処理装置
JP5573517B2 (ja) * 2010-09-07 2014-08-20 ソニー株式会社 雑音除去装置および雑音除去方法
JP5724361B2 (ja) * 2010-12-17 2015-05-27 富士通株式会社 音声認識装置、音声認識方法および音声認識プログラム
JP6596833B2 (ja) * 2015-02-09 2019-10-30 沖電気工業株式会社 雑音抑圧装置及びプログラム、雑音推定装置及びプログラム、並びに、snr推定装置及びプログラム
JP6554853B2 (ja) * 2015-03-26 2019-08-07 沖電気工業株式会社 雑音抑圧装置及びプログラム
JP6447357B2 (ja) * 2015-05-18 2019-01-09 株式会社Jvcケンウッド オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム
JP6559576B2 (ja) * 2016-01-05 2019-08-14 株式会社東芝 雑音抑圧装置、雑音抑圧方法及びプログラム

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60140399A (ja) * 1983-12-28 1985-07-25 松下電器産業株式会社 雑音除去装置
JPH03266899A (ja) * 1990-03-16 1991-11-27 Matsushita Electric Ind Co Ltd 雑音抑圧装置
JPH09258792A (ja) * 1996-03-25 1997-10-03 Nippon Telegr & Teleph Corp <Ntt> 雑音低減方法および装置
JP2002169599A (ja) * 2000-11-30 2002-06-14 Toshiba Corp ノイズ抑制方法及び電子機器
JP2004502977A (ja) * 2000-07-12 2004-01-29 アンドレア エレクトロニクス コーポレイション サブバンド指数平滑雑音消去システム
JP2004061567A (ja) * 2002-07-25 2004-02-26 Nec Engineering Ltd ノイズキャンセラ
JP2005348173A (ja) * 2004-06-03 2005-12-15 Nippon Telegr & Teleph Corp <Ntt> 雑音低減方法、この方法を実施する装置、プログラムおよびその記録媒体
WO2005124739A1 (ja) * 2004-06-18 2005-12-29 Matsushita Electric Industrial Co., Ltd. 雑音抑圧装置および雑音抑圧方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60140399A (ja) * 1983-12-28 1985-07-25 松下電器産業株式会社 雑音除去装置
JPH03266899A (ja) * 1990-03-16 1991-11-27 Matsushita Electric Ind Co Ltd 雑音抑圧装置
JPH09258792A (ja) * 1996-03-25 1997-10-03 Nippon Telegr & Teleph Corp <Ntt> 雑音低減方法および装置
JP2004502977A (ja) * 2000-07-12 2004-01-29 アンドレア エレクトロニクス コーポレイション サブバンド指数平滑雑音消去システム
JP2002169599A (ja) * 2000-11-30 2002-06-14 Toshiba Corp ノイズ抑制方法及び電子機器
JP2004061567A (ja) * 2002-07-25 2004-02-26 Nec Engineering Ltd ノイズキャンセラ
JP2005348173A (ja) * 2004-06-03 2005-12-15 Nippon Telegr & Teleph Corp <Ntt> 雑音低減方法、この方法を実施する装置、プログラムおよびその記録媒体
WO2005124739A1 (ja) * 2004-06-18 2005-12-29 Matsushita Electric Industrial Co., Ltd. 雑音抑圧装置および雑音抑圧方法

Also Published As

Publication number Publication date
JP2008116686A (ja) 2008-05-22

Similar Documents

Publication Publication Date Title
Erkelens et al. Tracking of nonstationary noise based on data-driven recursive noise power estimation
EP3696814A1 (en) Speech enhancement method and apparatus, device and storage medium
RU2145737C1 (ru) Способ подавления шума путем спектрального вычитания
JP3454206B2 (ja) 雑音抑圧装置及び雑音抑圧方法
JP4757775B2 (ja) 雑音抑圧装置
JP5791092B2 (ja) 雑音抑圧の方法、装置、及びプログラム
Yong et al. Optimization and evaluation of sigmoid function with a priori SNR estimate for real-time speech enhancement
JP4886715B2 (ja) 定常率算出装置、雑音レベル推定装置、雑音抑圧装置、それらの方法、プログラム及び記録媒体
EP2346032B1 (en) Noise suppressor and voice decoder
WO2005124739A1 (ja) 雑音抑圧装置および雑音抑圧方法
JP2014122939A (ja) 音声処理装置および方法、並びにプログラム
Lu et al. Enhancement of single channel speech based on masking property and wavelet transform
Wolfe et al. Towards a perceptually optimal spectral amplitude estimator for audio signal enhancement
CN114005457A (zh) 一种基于幅度估计与相位重构的单通道语音增强方法
So et al. Kalman filter with sensitivity tuning for improved noise reduction in speech
George et al. Robustness metric-based tuning of the augmented Kalman filter for the enhancement of speech corrupted with coloured noise
JP2000330597A (ja) 雑音抑圧装置
Kandagatla et al. Speech enhancement using MMSE estimation of amplitude and complex speech spectral coefficients under phase-uncertainty
Rosenkranz et al. Integrating recursive minimum tracking and codebook-based noise estimation for improved reduction of non-stationary noise
CN107437421B (zh) 信号处理器
US11183172B2 (en) Detection of fricatives in speech signals
KR20120059431A (ko) 적응적 잡음추정 장치 및 방법
Upadhyay et al. Spectral subtractive-type algorithms for enhancement of noisy speech: an integrative review
JP2004020679A (ja) 雑音抑圧装置および雑音抑圧方法
CN103187068B (zh) 基于Kalman的先验信噪比估计方法、装置及噪声抑制方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090119

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110314

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110518

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110601

R150 Certificate of patent or registration of utility model

Ref document number: 4757775

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140610

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350