JP6027804B2 - 雑音抑圧装置およびそのプログラム - Google Patents

雑音抑圧装置およびそのプログラム Download PDF

Info

Publication number
JP6027804B2
JP6027804B2 JP2012162697A JP2012162697A JP6027804B2 JP 6027804 B2 JP6027804 B2 JP 6027804B2 JP 2012162697 A JP2012162697 A JP 2012162697A JP 2012162697 A JP2012162697 A JP 2012162697A JP 6027804 B2 JP6027804 B2 JP 6027804B2
Authority
JP
Japan
Prior art keywords
noise
noise suppression
speech
suppressed
suppression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012162697A
Other languages
English (en)
Other versions
JP2014021438A (ja
Inventor
信正 清山
信正 清山
礼子 齋藤
礼子 齋藤
今井 篤
篤 今井
小森 智康
智康 小森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
NHK Engineering System Inc
Original Assignee
Japan Broadcasting Corp
NHK Engineering System Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp, NHK Engineering System Inc filed Critical Japan Broadcasting Corp
Priority to JP2012162697A priority Critical patent/JP6027804B2/ja
Publication of JP2014021438A publication Critical patent/JP2014021438A/ja
Application granted granted Critical
Publication of JP6027804B2 publication Critical patent/JP6027804B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Noise Elimination (AREA)

Description

本発明は、音声処理に関する。特に、本発明は、音声に混入した雑音を抑圧することのできる雑音抑圧装置およびプログラムに関する。
テレビやラジオなど放送用の音声の収録は、生中継の場合も含み、必ずしも音声素材の収録に適した環境で行われるとは限らない。特に、緊急報道の現場などからの中継では、電力を自家発電で用意しなければならない場合もあり、音声の収録時に様々な雑音が混入することを避けることができない。そのような状況においても放送に耐えうる明瞭な音声を得るためには、混入する雑音を高品質に抑圧する技術が求められる。
従来の技術において、音声に付加された雑音成分を抑圧する方法のうち、よく知られている方法の一つは、スペクトルサブトラクションの技術である。非特許文献1は、スペクトルサブトラクションの技術について記載している。この方法は、雑音のスペクトルの平均値を推定し、推定された平均値を雑音が混在する入力信号のスペクトルから減算することで、雑音の低減を図る方法である。
また、別の技術として、本来の音声信号と推定した音声信号の平均二乗誤差を最小にする線形フィルターを構成して雑音が混在する入力信号から元の音声信号を得るウィーナーフィルター法がある。非特許文献2は、ウィーナーフィルター法について記載している。
また、別の技術として、雑音が混在する入力信号の振幅スペクトルと雑音推定スペクトルの平均値から周波数ごとのSN比を推定しながら、本来の音声信号と推定した音声信号の短時間振幅スペクトルの平均二乗誤差を最小にするように短時間振幅スペクトルを復元するMMSE−STSA法がある。非特許文献3は、MMSE−STSA法について記載している。
また、別の方法として、雑音が混在する入力信号を音声と雑音からなる信号空間と雑音のみからなる雑音空間に分離して本来の音声成分を推定する信号部分空間法がある。非特許文献4は、信号部分空間法について記載している。
S. F. Boll,"Suppression of acoustic noise in speech using spectral subtraction",IEEE Transactions on Acoustics, Speech, & Signal Processing, vol.ASSP-27,no.7,pp. 113-120,1979年 J. S. Lim and A. V. Oppenheim,"All-pole modeling of degraded speech",IEEE Transactions on Acoustics, Speech, & Signal Processing,vol.26,no.3,pp. 197-210,1978年 Y. Ephraim and D. Malah,"Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator" ,IEEE Transactions on Signal Processing,vol.32,no.6,pp. 1109-1121,1984年 Y. Ephraim and H. L. V. Tres,"A Signal subspace approach for speech enhancement" ,IEEE Transactions on Speech and Audio Processing,vol.3,no.4,pp. 251-266,1995年
非特許文献1に記載されたスペクトルサブトラクションの方法では、処理後の音声に不自然な雑音成分(ミュージカルノイズ)を生じる場合がある。これは、雑音混入音声のスペクトルと雑音推定値のスペクトルの差が負の値となる場合に、値をゼロに置き換える半波整流によって雑音抑圧音声の振幅スペクトルを求めるためである。これにより、処理フレームごとにランダムな周波数位置に独立した小さなピークが生じ、これがミュージカルノイズとして知覚され、雑音抑圧音声の品質が劣化する。また、雑音の推定には誤りも含まれ、その雑音が知覚されるため、雑音抑圧音声に音質劣化を生じる。
同様に、非特許文献2〜4に記載された方法についても、雑音成分の推定精度に依存するため、その推定誤りによる音質劣化が避けられない。
なお、非特許文献3、4に記載された方法では、非特許文献1、2に記載された方法と比べて、雑音部分の抑圧に優れる一方で、音声部分の劣化が知覚されやすい。
このように、いずれの方法でも高品質に雑音抑圧音声を得ることができず、この問題を解決することができなかった。
本発明は、上記の課題認識に基づいて行なわれたものであり、従来の雑音抑圧法よりも良好な結果を得ることのできる雑音抑圧装置およびプログラムを提供するものである。
[1]上記の課題を解決するため、本発明の一態様による雑音抑圧装置は、入力された音声のデータについて、それぞれ異なる雑音抑圧法による処理を行なうことによって雑音抑圧音声データを出力する複数の抑圧処理部と、前記複数の抑圧処理部から出力された前記雑音抑圧音声データに基づき、それぞれの雑音抑圧法のための重み係数を算出する重み算出部と、前記重み算出部によって算出されたそれぞれの雑音抑圧法のための重み係数を前記複数の抑圧処理部から出力された各々の前記雑音抑圧音声データに乗じて、前記雑音抑圧音声データを混合する音声統合部とを具備する。
雑音抑圧装置に入力される音声には、雑音が混入している。上記の構成により、各抑圧処理部がそれぞれ異なる雑音抑圧法による雑音抑圧音声データを出力する。各々の雑音抑制音声データは、音声成分(クリーンスピーチ)と雑音成分とを含んでいるが、雑音成分はそれぞれの雑音抑圧法により抑圧されている。なお異なる雑音抑圧法を用いていることにより、雑音成分の抑圧のされ方の具合も異なる。音声統合部は、これらの雑音抑圧音声データを混合する。このような混合により、雑音成分のエネルギーが弱まる。なお、音声統合部が混合する雑音抑圧音声データは、時間領域の信号のデータであっても良いし、周波数領域の信号のデータであっても良い。
また、上記の構成によれば、音声統合部が雑音抑圧音声データを混合する際、雑音抑圧法に応じた重み付けを行なう。従って、雑音抑圧法に応じたより良好な比率で雑音抑圧音声データを混合することができ、雑音抑圧の効果が向上する。
[2]また、本発明の一態様は、上記の雑音抑圧装置において、前記重み算出部は、前記複数の抑圧処理部から出力された前記雑音抑圧音声データの相互間の相関係数を算出し、他の雑音抑圧法との間の相関が高い雑音抑圧法ほど、前記重み係数の値が大きくなるよう算出することを特徴とする。
雑音抑圧音声データの相互間の相関係数が大きいほど、その雑音抑圧音声データでは雑音成分に比べて音声(クリーンスピーチ)成分が相対的により強いと言える。従って、そのような雑音成分よりも音声成分の方が強い雑音抑圧法による雑音抑圧音声データを、より強くして(重み付けを大きくして)混合することができる。よって雑音抑圧の効果がより一層向上する。一例としては、ある雑音抑圧法に関する重み係数が、その雑音抑圧法と他の雑音抑圧法との間の相互相関係数の総和(他の雑音抑圧法についての総和)に比例するよう、重み係数を算出するようにする。
[3]また、本発明の一態様は、上記の雑音抑圧装置において、前記重み算出部は、前記複数の抑圧処理部から出力された前記雑音抑圧音声データに基づいて、各雑音抑圧法による前記雑音抑圧音声データについて、他の雑音抑圧法による前記雑音抑圧音声データを所望信号とする適応フィルター係数を算出し、算出された前記適応フィルター係数の値が大きいほど、前記重み係数の値が大きくなるよう算出することを特徴とする。
算出される適応フィルター係数が大きいほど、その雑音抑圧音声データでは雑音成分に比べて音声(クリーンスピーチ)成分が相対的により強いと言える。従って、そのような雑音成分よりも音声成分の方が強い雑音抑圧法による雑音抑圧音声データを、より強くして(重み付けを大きくして)混合することができる。よって雑音抑圧の効果がより一層向上する。一例としえは、ある雑音抑圧法に関する重み係数が、その雑音抑圧法が他の雑音抑圧法を所望信号とする適応フィルター係数の総和(他の雑音抑圧法についての総和)に比例するよう、重み係数を算出するようにする。
[4]また、本発明の一態様は、上記の雑音抑圧装置において、前記複数の抑圧処理部のそれぞれから出力された前記雑音抑圧音声データに基づいて周波数特性データを算出する周波数特性算出部と、前記周波数特性データに基づいて振幅特性データを算出する振幅特性算出部とをさらに具備し、前記重み算出部は、前記振幅特性データに基づいてそれぞれの雑音抑圧法のための重み係数を算出し、前記音声統合部は、前記重み係数を前記振幅特性データに乗じて混合することによって、前記雑音抑圧音声データを混合することを特徴とする。
この構成により、抑圧処理部が出力する時間領域の信号のデータを周波数領域の信号のデータに変換し、音声統合部が周波数領域における音声信号を混合するようにできる。混合された周波数領域の音声信号を、適宜、時間領域の音声信号に戻す変換を行なっても良い。周波数特性算出部は、フーリエ変換を行なうことにより、雑音抑圧音声データから周波数特性データを算出する。なお、上記の周波数特性データも振幅特性データも、抑圧処理部によってそれぞれの雑音抑圧法で処理された雑音抑圧音声データである。
[5]また、本発明の一態様は、コンピューターに、入力された音声の波形データについて、それぞれ異なる雑音抑圧法による処理を行なうことによって雑音抑圧音声データを出力する複数の抑圧処理過程、前記複数の抑圧処理過程で出力された前記雑音抑圧音声データに基づき、それぞれの雑音抑圧法のための重み係数を算出する重み算出過程、前記重み算出過程によって算出されたそれぞれの雑音抑圧法のための重み係数を前記複数の抑圧処理過程から出力された各々の前記雑音抑圧音声データに乗じて、前記雑音抑圧音声データを混合する音声統合過程、の処理を実行させるためのプログラムである。
本発明によれば、従来の雑音抑圧法のいずれかを単独で用いるよりも、より良好な雑音抑圧結果を得ることが出来る。
本発明の第1の実施形態による雑音抑圧装置の機能構成を示すブロック図である。 同実施形態による重み算出部の詳細な機能構成を示すブロック図である。 同実施形態の雑音抑圧装置による雑音抑圧の結果の例を示すグラフ(音声波形)である。 同実施形態の雑音抑圧装置による雑音抑圧の結果の例を示すグラフ(音声スペクトル)である。 同実施形態の雑音抑圧装置による雑音抑圧処理時に、重み算出部が算出した重み係数値の時間変化を示すグラフである。 同実施形態の雑音抑圧装置による雑音抑圧処理時に、相互相関係数算出部が算出した相互相関係数の時間変化を示すグラフである。 第2の実施形態による雑音抑圧装置の機能構成を示すブロック図である。 同実施形態の雑音抑圧装置による雑音抑圧の結果の例を示すグラフ(音声波形)である。 同実施形態の雑音抑圧装置による雑音抑圧の結果の例を示すグラフ(音声スペクトル)である。 第3の実施形態による重み算出部の機能構成を示すブロック図である。
次に、本発明の実施形態について、図面を参照しながら説明する。
なお、以下の説明文中で、数式または数式中の表現に言及するとき、ある表現(変数等の文字)の上にハット「^」が付されている場合には、その表現と「^」とを角括弧で囲んで表わす。例えば、[x^]は、文字xの上にハットが付されていることを表わす。また、ある表現(文字)の上にチルダが付されている場合には、その表現と「〜」とを角括弧で囲んで表わす。例えば、[x〜]は、文字xの上にチルダが付されていることを表わす。また、ある表現に絶対値記号が付されている場合には、その表現を縦棒「|」で囲んで表わす。例えば、|x|は、文字xに絶対値記号が付されていることを表わす。
[第1の実施形態]
図1は、第1の実施形態による雑音抑圧装置の機能構成を示すブロック図である。図示するように、雑音抑圧装置1は、音声入力部11と、波形切り出し部12と、I個(Iは、2以上の整数)の抑圧処理部14−1〜14−Iと、雑音抑圧音声行列記憶部15と、重み算出部16と、音声統合部17と、波形重ね合わせ部18と、音声出力部19とを含んで構成される。
音声入力部11は、外部から音声信号のデータを取得する。
波形切り出し部12は、音声入力部11が取得した音声を、適切な分析フレームに切り出す。
抑圧処理部14−1〜14−Iは、それぞれ、入力された音声に雑音抑圧法を適用して、雑音抑圧音声データを出力する。抑圧処理部14−1〜14−Iは、切り出された分析フレームごとに雑音抑圧法を適用する。なお、抑圧処理部14−1〜14−Iの各々は、互いに性質の異なるI種類(I≧2)の雑音抑圧法を使用する。ここでは、互いに性質の異なる複数の雑音抑圧法を用いて、抑圧処理部14−1〜14−Iのそれぞれが雑音抑圧処理を行なうことにより、本実施形態の効果が得られる。I≧3の場合にさらに良好な効果が得られる。使用する雑音抑圧法としては、例えば、前述のスペクトルサブトラクションや、ウィーナーフィルター法や、MMSE−STSA法や、信号部分空間法などを挙げることができる。なお、その他の雑音抑圧法を用いても良い。
雑音抑圧音声行列記憶部15は、抑圧処理部14−1〜14−Iによる処理の結果である雑音抑圧音声のデータを記憶する。具体的には、雑音抑圧音声行列記憶部15は、抑圧処理部14−1〜14−Iのそれぞれが生成する雑音抑圧音声ベクトルを並べて構成される雑音抑圧音声行列の形式で、データを記憶する。雑音抑圧音声ベクトルは、分析フレームごとのデータである。
重み算出部16は、抑圧処理部14−1〜14−Iから出力され雑音抑圧音声行列記憶部15に一時的に記憶されている雑音抑圧音声データを読み出し、このデータに基づいてそれぞれの雑音抑圧法のための重み係数を算出する。重み算出部16は、混合後の雑音抑圧結果が最適となるように重み係数を算出する。重み算出部16は、分析フレームごとに、上記の重み係数を算出する。なお、重み係数算出方法の詳細については後述する。
音声統合部17は、抑圧処理部14−1〜14−Iから出力された雑音抑圧音声データを混合する。また、音声統合部17は、雑音抑圧音声データを混合する際に、それぞれの雑音抑圧法に応じた重み係数を用いて、雑音抑圧法ごとの混合比率の重み付けを行なう。音声統合部17は、上記の分析フレームごとに雑音抑圧音声データを混合する。なお、重み係数は、重み算出部16によって算出されたものである。
波形重ね合わせ部18は、音声統合部17によって混合された分析フレームごとの音声波形データを元に、分析フレームのシフト幅分ずつずらして重ね合わせた音声波形データを生成する。波形重ね合わせ部18が生成する音声波形データは、言うまでもなく、複数の雑音抑圧法によって雑音抑圧処理し、重み係数に基づいて混合された音声波形である。
音声出力部19は、波形重ね合わせ部18によって生成された音声を、外部に出力する。
音声入力部11は、外部から音声信号を取得する。なお、音声入力部11は、アナログ信号として音声を取得した場合には、AD(analog-to-digital)変換を行う。そして、音声入力部11は、デジタル化された音声データを波形切り出し部12に供給する。この音声データは、一例として、サンプリング周波数16kHz、量子化ビット数16ビット(bit)のデータである。なお、音声入力部11が取得する音声には雑音が混入している。
音声入力部11が波形切り出し部12に供給するデータは、雑音混入音声y(n)として表わされる。ここで、nは時系列のサンプル番号であり、y(n)がそのサンプル値である。雑音混入音声y(n)は、(雑音なしの)音声x(n)と、雑音d(n)とにより、下の式(1)の加法性雑音モデルで構成される。
波形切り出し部12は、音声入力部11から取得した雑音混入音声y(n)を、適切な分析フレームごとに切り出す。例えば、分析窓幅Nを256サンプル(約16ミリ秒(=256/16kHz))とし、シフト幅を窓幅の半分の長さ(N/2)の128サンプル(約8ミリ秒)とする。なお、分析窓幅を適宜異なる値としても良い。そして、切り出したm番目のフレームにおけるn番目のサンプルのデータをy(m,n)と表す。また簡便のため、m番目のフレームで切り出した雑音混入音声のベクトルを、下の式(2)のようにyで表す。
なお、式(2)の右辺の右肩に付する「T」は転置を表す。また、白抜き太字の「R」は実数の集合を表わす。つまり、ベクトルyは、実数を要素とするN次元の列ベクトルである。そして、波形切り出し部12は、このベクトルyのデータを抑圧処理部14−1〜14−Iのそれぞれに供給する。
抑圧処理部14−1〜14−Iの各々は、独自の雑音抑圧法により、与えられる雑音混入音声ベクトルyを処理する。i番目(i=1,2,・・・,I)の抑圧処理部14−iは、自己の雑音抑圧法Fiによって、雑音抑圧音声を求める処理を行なう。このとき、抑圧処理部14−1〜14−Iは、互いに性質の異なるI個の雑音抑圧法をそれぞれ用いることが望ましい。雑音抑圧法Fiをある種の関数とみなすと、抑圧処理部14−1〜14−Iによる処理は下の式(3)で表わされる。
式(3)において、[x^]iは、雑音混入音声ベクトルyを入力として抑圧処理部14−iが算出する雑音抑圧音声ベクトルである。また、[X^]は、雑音抑圧音声ベクトル[x^]1から[x^]Iまでを行ベクトルとする雑音抑圧音声行列(N行I列)である。なお、各雑音抑圧音声ベクトル[x^]iはそろっているものとする。また、Iは、雑音抑圧法の番号の集合である。即ち、I={1,2,・・・,I}である。
抑圧処理部14−1〜14−Iの各々は、自己が算出した雑音抑圧音声ベクトル[x^]iのデータを、雑音抑圧音声行列記憶部15に書き込む。
次に、重み算出部16は、得られた雑音抑圧音声行列を基に、音声統合のための重み係数を求める。各々の雑音抑圧法Fiに対応する重み係数をwiとして、これらの重み係数を要素とする列ベクトルwを下の式(4)のように定義する。
なお、重み係数wiを要素とするベクトルwの算出方法については、後で詳細に説明する。
次に、音声統合部17は、雑音抑圧音声行列記憶部15から読み出した雑音抑圧音声行列[X^]に、各雑音抑圧法に対応する重み係数wiのベクトルwを乗じることにより、統合雑音抑圧音声ベクトル[x〜]を算出する。つまり、統合雑音抑圧音声ベクトル[x〜]は、下の式(5)により表わされる。即ち、このベクトル[x〜]は、各雑音抑圧音声ベクトル[x^]iに重み係数wiを乗じて混合したもの(重み係数による積和形)に相当する。
式(5)で算出される統合雑音抑圧音声ベクトル[x〜]は、N次元の列ベクトルである。
下の式(6)は、求めるべき音声のベクトルxと各雑音抑圧音声ベクトル[x^]iとの誤差のベクトルeiとの関係を表わす。また、Eは、誤差ベクトルe1,e2,・・・,eiを列ベクトルとする行列(N行I列)である。
式(6)より、下の式(7)を得られる。即ち、式(7)により、各雑音抑圧音声ベクトル[x^]iを表わすことができる。
式(7)を式(3)に代入すると、式(5)で表わした統合雑音抑圧音声ベクトル[x〜]は、下の式(8)のように、求めるべき音声ベクトルxと誤差の行列Eとで表せる。
式(8)における右辺の第2項(誤差行列と重み係数ベクトルの積)を最小化するような重み係数ベクトルwを求めれば、統合雑音抑圧音声ベクトル[x〜]が、求めるべき音声ベクトルxに近づくことになる。しかしながら、実際には、求めるべき音声ベクトルxと誤差行列Eは不明である。そこで、最適な重み係数ベクトルwoptを求めるために、重み係数ベクトルwに関する最適化手法を用いる。本実施形態で用いる最適化手法では、相関係数を用いる。
図2は、重み算出部の詳細な機能構成を示すブロック図である。図示するように、重み算出部16は、相互相関係数算出部201と、相互相関係数加算部202と、重み係数正規化部203とを含んで構成される。
相互相関係数算出部201は、各雑音抑圧法による雑音抑圧音声ベクトルを基に、それらのベクトル間の相互相関係数を算出する。つまり、相互相関係数算出部201は、分析フレームごとに雑音抑圧法間の相互相関係数を算出する。
相互相関係数加算部202は、ある雑音抑圧法について、その雑音抑圧法と他の雑音抑圧法との間の相互相関係数を、前記他の雑音抑圧法のすべてについて加算する(総和をとる)。この値が、その雑音抑圧法についての重み係数値の元となる。
重み係数正規化部203は、相互相関係数加算部202によって算出された雑音抑圧法ごとの重み係数値を正規化する。具体的には、重み係数正規化部203は、すべての雑音抑圧法についての重み係数の総和が例えば1になるように、調整する。
各部の処理の詳細については、以下で説明する。
以下では、図2のブロック図に沿って、重み係数を算出する手順について説明する。
まず、相互相関係数算出部201が、各雑音抑圧法による各雑音抑圧音声ベクトル[x^]iどうしの相互相関係数を求める。雑音抑圧音声ベクトル[x^]iと[x^]jの間の相互相関係数xcori,jは、下の式(9)により計算される。
式(9)において、E[ ]は期待値である。つまり、式(9)により算出される相互相関係数は、即ち雑音抑圧音声ベクトル[x^]iと[x^]jの共分散を、それぞれの標準偏差で除したものである。雑音抑圧音声ベクトル[x^]iと[x^]jは、互いに異なる性質を有する雑音抑圧法を用いていて得られたものである。従って、音声区間では各雑音抑圧音声どうしの相互相関係数xcori,jが高くなり、非音声区間(雑音区間)では各雑音抑圧音声どうしの相互相関係数xcori,jが低くなることが期待される。
なお、相互相関係数算出部201は、i,j∈I、i≠jである全てのiとjの組み合わせについて、相互相関係数を算出する。そして、相互相関係数算出部201は、求められた相互相関係数を相互相関係数加算部202に渡す。
次に相互相関係数加算部202は、相互相関係数算出部201によって算出された相互相関係数xcori,jを用いて、各雑音抑圧音声ベクトル[x^]iに対する重み係数[w^]iを算出する。重み係数[w^]iは、下の式(10)によって算出される。
ここで、nは重み係数の度合いを設定する指数であり、例えばn=2とする。なお設定等により、nの値を適宜変えても良い。式(10)に示すように、重み係数[w^]iは、雑音抑圧音声ベクトル[x^]iに係る相関係数を加算したものに基づく。言い換えれば、重み係数[w^]iは、雑音抑圧音声ベクトル[x^]iと[x^]jの間の相関係数の、jに関する総和(但し、i≠j)に基づき、その総和をn乗して得られる。
次に、重み係数正規化部203は、重み係数ベクトル[w^]が式(4)を満たすように、式(10)で得られた重み係数を正規化する。正規化された重み係数のベクトルは、式(11)で表わされる。
そして、このようにして得られた重み係数ベクトル[w^]を最適な重み係数ベクトルwoptとする。即ち、wopt=[w^]である。重み算出部16は、このようにして得られた重み係数ベクトルwoptを出力する。
図1のブロック図に戻り、音声統合部17は、重み算出部16から供給される最適な重み係数ベクトルwoptを式(5)に適用して、即ち式(5)のwにwoptを代入して、最適な統合雑音抑圧音声ベクトルを算出する。音声統合部17は、下の式(12)によって最適な統合雑音抑圧音声ベクトル[x〜]optを算出する。
式(12)において、mはフレームのインデックス、nはフレーム内のサンプルのインデックスを表す。また、下の式(13)に示すように、cは式(9)の相互相関係数を平均して得られる定数であり、非音声区間(雑音区間)を抑圧する度合いを設定するのに用いる。
式(13)におけるkは定数の度合いを設定する指数であり、たとえばk=2とする。なお設定等により、kの値を適宜変えても良い。
波形重ね合わせ部18は、式(12)で算出された時間波形[x〜]opt(m,n)をフレームごとにシフト幅分ずらして、重ね合わせることにより、雑音抑圧音声[x〜](n)を得る。
図3および図4は、本実施形態の雑音抑圧装置による雑音抑圧の結果の例を示すグラフである。図3の(a)〜(g)は、それぞれ音声波形を示すものであり、横軸は時刻、縦軸は振幅である。また、図4の(a)〜(g)は、それぞれ、音声スペクトルを示すものであり、横軸は時刻、縦軸は周波数である。図3および図4の横軸の単位は秒である。図4の縦軸の単位はヘルツである。図4は、周波数ごとの成分の強さの時間推移をグレースケールの濃さで表わしており、色が濃いほど(つまり、黒に近いほど)成分が強い。本例では、3種類の雑音抑圧法を用いて、抑圧処理部14−1、14−2、14−3のそれぞれが抑圧処理を実行した。図3および図4のそれぞれにおいて、(a)はクリーンスピーチ、(b)は付加雑音、(c)は雑音抑圧装置への入力となる雑音混入音声、(d)は本実施形態の雑音抑圧装置によって雑音を抑圧した音声、(e)は雑音抑圧法1による雑音抑圧音声(抑圧処理部14−1からの出力)、(f)は雑音抑圧法2による雑音抑圧音声(抑圧処理部14−2からの出力)、(g)は雑音抑圧法3による雑音抑圧音声(抑圧処理部14−3からの出力)の例を示す。
雑音抑圧法1〜3に比べて、本手法により音声区間の劣化を抑え、非音声区間(雑音区間)の雑音が効果的に抑圧されているのがわかる。例えば、図3と図4において、(d)本実施形態による雑音抑圧結果における雑音部分が(g)の雑音抑圧法3なみに小さく、且つ、(d)本実施形態の音声部分が(e)の雑音抑圧法1なみに明瞭で情報欠落やひずみが少ない。また、図4において、(g)雑音抑圧法3では音声部分で高域(グラフ上側)の情報が失われているが、(d)本実施形態では、(e)雑音抑圧法1のように情報が残っている。このような違いがグラフからも確認できるが、客観評価値を用いた評価についても後で述べる。
図5は、本実施形態の雑音抑圧装置による雑音抑圧処理時に、重み算出部16が算出した重み係数値の時間変化を示すグラフである。同図(a)〜(c)のそれぞれにおいて、横軸は時刻を表わし、縦軸は重み係数の値を表わす。なお、横軸の単位は秒(second)である。図5に示す重み係数の値は、図3および図4に示した雑音抑圧処理実施結果に対応するものである。このグラフにおいて、抑圧処理部14−1,14−2,14−3に対応する重み係数の値が、それぞれ、(a)のw1、(b)のw2、(c)のw3である。重み係数の値が大きいほど、統合雑音抑圧音声への寄与が大きいことを示している。グラフに示すように、音声区間では抑圧処理部14−2(雑音抑圧法2)の寄与が大きく、非音声区間(雑音区間)では抑圧処理部14−3(雑音抑圧法3)の寄与が大きい。このように音声区間であるか非音声区間であるかに応じて異なる雑音抑圧法の寄与が大きくなることは、図4に示した音声スペクトルとも整合する結果である。
図6は、本実施形態の雑音抑圧装置による雑音抑圧処理時に、相互相関係数算出部201が算出した相互相関係数の時間変化を示すグラフである。同図(a)〜(d)のそれぞれにおいて、横軸は時刻を表わし、(a)〜(c)の縦軸は相互相関値、(d)の縦軸は式(13)により相互相関値を平均して得られる定数の値を表わす。なお、横軸の単位は秒(second)である。(a)の「M1:M2」と記載しているグラフは、雑音抑圧法1と2との間の相互相関係数xcor1,2の時間変化を表わす。(b)の「M2:M3」と記載しているグラフは、雑音抑圧法2と3との間の相互相関係数xcor2,3の時間変化を表わす。(c)の「M3:M1」と記載しているグラフは、雑音抑圧法3と1との間の相互相関係数xcor3,1の時間変化を表わす。また、(d)の「c」と記載しているグラフは、非音声区間(雑音区間)を抑圧する度合いの時間変化を示す。いずれの相互相関係数も、音声区間では高い値を示し、非音声区間(雑音区間)では低い値を示している。そして、非音声区間(雑音区間)を抑圧する度合いcにより、雑音抑圧の効果を強調することができる。
次に、本実施形態の雑音抑圧装置による処理結果の客観評価値について説明する。雑音抑圧手法を客観的に評価するためにはさまざまな方法があるが、主観的な評価結果との乖離が少ないものが好ましい。ここでは客観評価値として、周波数重み付セグメンタルSNR(frequency-weighted segmental SNR;以下では「fwSNRseg」と言う。)を用いる。fwSNRsegは、下の式(14)により算出できる。
式(14)において、Bjは、j番目(j=1,2,・・・,K)の周波数帯域に対する重みである。Kは、周波数帯域の数であり、例えばK=25とする。Mは、信号の全フレーム数である。|X(m,j)|は、クリーンスピーチのm番目のフレームの、j番目の周波数帯域のフィルターバンクの振幅である。|[X^](m,j)|は雑音抑圧した信号のm番目のフレームの、j番目の周波数帯域のフィルターバンクの振幅である。このfwSNRsegでは、segmental SNRに聴覚的な周波数帯域ごとの重みづけがされているため、主観的な聴感試験の結果と相関が高い。fwSNRsegの評価値が大きいほど評価が高い。客観評価値fwSNRsegについては、下記の参考文献にも記載されている。
参考文献:Tribolet, J., Noll, P., McDermott, B., and Crochiere, R. E. “A study of complexity and quality of speech waveform coders.” Proc. IEEE Int. Conf. Acoust. , Speech, Signal Processing, 586-590,1978年.
上記のfwSNRsegを用いた本実施形態の評価結果は、下の表1の通りである。
表1は、クリーンスピーチと各雑音抑圧法および本実施形態での提案法との間の客観評価値(fwSNRseg)を示す。この客観評価値の結果からも、雑音抑圧法1〜3をそれぞれ単独で使用する場合よりも、本実施形態による雑音抑圧結果の方が高品質であることがわかる。
以上のように、異なる性質を持つ複数の雑音抑圧法で得られた雑音抑圧音声を時間領域で混合する際に、相関係数を用いて算出した重みづけ係数により、各雑音抑圧法からの雑音抑圧音声への重み付けを行うことにより、雑音成分のエネルギー低減、および、音声部分のエネルギー増幅の効果が的確に得られ、高品質な雑音抑圧音声を簡便に得ることができる。
[第2の実施形態]
次に、第2の実施形態について説明する。なお、前述の実施形態と同様の事項については説明を省略し、本実施形態特有の事項を中心に説明する。
図7は、第2の実施形態による雑音抑圧装置の機能構成を示すブロック図である。なお、前実施形態と同一の処理を行なう機能ブロックについては、前実施形態の説明と同一の符号を付与している。図示するように、雑音抑圧装置2は、音声入力部11と、波形切り出し部12と、周波数特性算出部22と、位相特性算出部24と、I個(Iは、2以上の整数)の抑圧処理部14−1〜14−Iと、I個の周波数特性算出部25−1〜25−Iと、I個の振幅特性算出部26−1〜26−Iと、雑音抑圧振幅特性行列記憶部35と、重み算出部36と、音声統合部37と、周波数特性算出部38と、音声波形算出部39と、波形重ね合わせ部18と、音声出力部19とを含んで構成される。
音声入力部11および波形切り出し部12は、それぞれ、第1の実施形態におけるそれらと同様の機能を有する。
周波数特性算出部22は、波形切り出し部12によって切り出された音声データ(雑音混入音声)を基に、フーリエ変換により、その周波数特性データを算出する。
位相特性算出部24は、周波数特性算出部22によって得られた周波数特性データを基に、位相特性データを算出する。
抑圧処理部14−1〜14−Iは、第1の実施形態における抑圧処理部と同様の機能を有する。抑圧処理部14−1〜14−Iは、それぞれが異なる性質の雑音抑圧法を用いるものである。
周波数特性算出部25−1〜25−Iは、それぞれ、抑圧処理部14−1〜14−Iによって算出された雑音抑圧音声データを元に、フーリエ変換により、その周波数特性データを算出する。
振幅特性算出部26−1〜26−Iは、それぞれ、周波数特性算出部25−1〜25−Iによって得られた周波数特性データを元に、振幅特性データを算出する。
雑音抑圧振幅特性行列記憶部35は、振幅特性算出部26−1〜26−Iによって得られる雑音抑圧音声の振幅特性データを記憶する。具体的には、雑音抑圧振幅特性行列記憶部35は、振幅特性算出部26−1〜26−Iがそれぞれ生成する振幅特性ベクトルを並べて構成される雑音抑圧振幅特性行列の形式で、データを記憶する。
重み算出部36は、雑音抑圧振幅特性行列記憶部35に記憶されている雑音抑圧音声の振幅特性データを読み出し、このデータに基づいてそれぞれの雑音抑圧法のための重み係数を算出する。重み算出部16は、混合後の雑音抑圧結果が最適となるように重み係数を算出する。
音声統合部37は、振幅特性算出部26−1〜26−Iから出力された振幅特性データを混合する。このとき、音声統合部37は、それぞれの雑音抑圧法に応じた重み係数を用いて、雑音抑圧法ごとの混合比率の重み付けを行なう。音声統合部37は、上記の分析フレームごとに雑音抑圧音声データを混合する。なお、重み係数は、重み算出部16によって算出されたものである。本実施形態では、音声統合部37が混合するデータは、周波数領域の音声信号のデータである。
周波数特性算出部38は、音声統合部37から出力された混合後の振幅特性データ(最適な重み付けで混合されたデータ)と、位相特性算出部24によって算出された入力音声の位相特性データとから、混合後の音声の周波数特性データを算出する。
音声波形算出部39は、周波数特性算出部によって得られた周波数特性データを基に、逆フーリエ変換により、雑音抑圧音声の時間波形データを得る。この時間波形データは、分析フレームごとのデータである。
波形重ね合わせ部18および音声出力部19は、それぞれ、第1の実施形態におけるそれらと同様の機能を有する。
以下において、雑音抑圧装置2による処理手順の詳細を説明する。なお、本実施形態においても、サンプリング周波数は16kHz、量子化ビット数は16ビットである。また、雑音混入音声ベクトルの長さNは256(約16ミリ秒)である。
音声入力部11は、外部から音声を取得する。また、波形切り出し部12は、分析フレームごとに音声波形を切り出す。
抑圧処理部14−1〜14−Iは、波形切り出し部12がフレームごとに切り出した雑音混入音声ベクトルyに対して、それぞれ性質の異なる雑音抑圧法Fi用いて、雑音を抑圧する処理を行う。この処理により、抑圧処理部14−1〜14−Iは、雑音抑圧音声ベクトル[x^]i(i=1,2,・・・,I)を出力する。各雑音抑圧音声ベクトルの長さも、N(256)である。
周波数特性算出部25−1〜25−Iは、それぞれ、抑圧処理部14−1〜14−Iから供給された雑音抑圧音声ベクトル[x^]iについて、周波数特性ベクトル[X^]iを求める。なお、周波数特性算出部25−1〜25−Iは、それぞれの雑音抑圧音声ベクトルを元に、適切な窓関数(たとえばハミング窓 whamm(n)=0.54−0.46cos(2πn/N) (n=1,・・・,N))を乗じて切り出した信号に離散フーリエ変換(FFT)を実行することにより、周波数特性ベクトル[X^]iを算出する。FFTのポイント数はNである。
振幅特性算出部26−1〜26−Iは、それぞれ、周波数特性算出部25−1〜25−Iから供給される周波数特性ベクトル[X^]iの絶対値を取ることにより、各雑音抑圧音声の振幅特性ベクトル|[X^]i|を算出する。振幅特性算出部26−1〜26−Iは、それぞれ算出した振幅特性ベクトル|[X^]i|を、雑音抑圧振幅特性行列記憶部35に書き込む。
雑音抑圧振幅特性行列記憶部35は、各雑音抑圧法による雑音抑圧音声の振幅特性ベクトル|[X^]i|を行ベクトルとする雑音抑圧振幅特性行列[X^]を記憶する。即ち、雑音抑圧振幅特性行列[X^]を算出する一連の処理の過程は、下の式(15)で表わされる。
なお、式(15)において、白抜き太字の「C」は複素数の集合を表わす。また、Re( )は複素数の実部をとることを表わし、Im( )は複素数の虚部をとることを表わす。また、whammは前述の窓関数である。
重み算出部36は、下で説明する重み係数を算出する。
音声統合部37は、重み算出部36によって算出された重みを用いて、統合雑音抑圧振幅特性ベクトル|[X〜]|を求める。具体的には次の通りである。即ち、各雑音抑圧音声の振幅特性ベクトルよる雑音抑圧振幅特性行列[X^]に、各雑音抑圧法Fiに対応する重み係数ベクトルwiを列ベクトルとする行列Wを乗じて対角成分をとることにより、下の式(16)のように統合雑音抑圧振幅特性ベクトル|[X〜]|を得る。
得られた統合雑音抑圧振幅特性ベクトル|[X〜]|は、各雑音抑圧音声の振幅特性ベクトルの各ビン|[X^]i[l]|に重み係数wi[l]を乗じて混合したものに相当する。なお、式(16)において、diag[ ]は、行列の対角成分を抽出して得られる列ベクトルをとることを表わす。重み係数ベクトルwiはN次元の行ベクトルである。そして、行列WはI行N列である。
重み算出部36は、第1の実施形態の場合と同様に、例えば相互相関係数を用いるなどの最適化手法により、最適な重み係数行列Woptを求める。その重み算出の手順について、以下で説明する。
まず、重み算出部36は、下の式(17)のように、各雑音抑圧法による雑音抑圧音声の振幅特性ベクトル|[X^]i|どうしの相互相関係数を求める。即ち、相互相関係数xcori,jは、雑音抑圧音声の振幅特性ベクトル|[X^]i|と|[X^]j|の共分散を、それぞれの標準偏差で除したものである。
次に、重み算出部36は、得られた相互相関係数xcori,jを用いて、下の式(18)によって、各雑音抑圧音声の振幅特性ベクトル|[X^]j|に対する重み係数ベクトル[w^]iを算出する。ここで、nは重み係数の度合いを設定する指数であり、たとえばn=2とする。
式(18)に示す計算は、各雑音抑圧音声の振幅特性ベクトル|[X^]j|に係る相関係数を加算するものであり、各ビンで共通のものになっている。そして、重み算出部36は、重み係数ベクトル[w^]jから重み係数行列[W^]を得る。
なお、重み算出部36は、重み係数行列[W^]が式(16)を満たすように、下の式(20)による正規化を行う。なお、式(20)の右辺は、
このようにして得られた重み係数行列[W^]を、最適な重み係数行列Woptとする。即ち、Wopt=[W^]である。
音声統合部37は、この最適な重み係数行列Woptを式(16)に適用して、即ちW=Woptとして、下の式(21)に示すように、最適な統合雑音抑圧振幅特性ベクトル|[X〜]opt|を得る。
一方で、周波数特性算出部22は、フレームごとに切り出した雑音混入音声ベクトルyから周波数特性ベクトルYを求める。
そして、位相特性算出部24は、周波数特性ベクトルYを基に位相特性ベクトル∠Yを算出する。
この位相特性ベクトル∠Yの算出は、下の式(22)により行なわれる。
そして、周波数特性算出部38は、最適な統合雑音抑圧振幅特性ベクトル|[X〜]opt|と雑音混入音声の位相特性ベクトル∠Yとを用いて、下の式(23)のように周波数特性ベクトル[X〜]optを算出する。
そして、音声波形算出部39は、上で得られた周波数特性[X〜]optの逆フーリエ変換(IFFT)をとり、フレームごとに雑音抑圧された音声の時間波形[x〜]opt(m,n)(n=1,・・・、N)を得る。ここで、mはフレームの、nはフレーム内のサンプルのインデックスを表す。
そして、波形重ね合わせ部18は、時間波形[x〜]opt(m,n)をハミング窓whamm(n)で除して、で除して、適切な窓関数(例えば、ハニング窓whann(n)=0.5−0.5cos(2πn/T)を乗じる。そして、窓関数を乗じたデータをフレームごとにソフト幅分ずらして、重ね合わせることにより、雑音抑圧音声[x〜](n)を得る。
音声出力部19は、波形重ね合わせ部18によって計算された雑音抑圧音声を、外部に出力する。
図8および図9は、本実施形態の雑音抑圧装置による雑音抑圧の結果の例を示すグラフである。図8の(a)〜(g)は、それぞれ音声波形を示すものであり、横軸は時刻、縦軸は振幅である。また、図9の(a)〜(g)は、それぞれ、音声スペクトルを示すものであり、横軸は時刻、縦軸は周波数である。図8および図9の横軸の単位は秒である。図9の縦軸の単位はヘルツである。図9は、図4と同様に、周波数ごとの成分の強さの時間推移をグレースケールの濃さで表わしている。また、図8および図9は、それぞれ図3および図4と同様に、(a)クリーンスピーチ、(b)付加雑音、(c)雑音抑圧装置への入力となる雑音混入音声、(d)本実施形態によって雑音を抑圧した音声、(e)雑音抑圧法1による雑音抑圧音声(f)は雑音抑圧法2による雑音抑圧音声、(g)雑音抑圧法3による雑音抑圧音声の例を示す。
雑音抑圧法1〜3に比べて、本実施形態の方法でも、音声区間の劣化を抑え、非音声区間(雑音区間)の雑音が効果的に抑圧されているのがわかる。
次に、本実施形態の雑音抑圧装置による処理結果の客観評価値について説明する。客観評価値としては、第1の実施形態と同様に、fwSNRsegを用いる。fwSNRsegを用いた本実施形態の評価結果は、下の表2の通りである。
表に示すとおり、第2の実施形態による方法では、元の雑音抑圧法1〜3よりも良い結果が得られている。また、第2の実施形態による方法は、第1の実施形態による方法よりも良い結果が得られている。
第2の実施形態においては、抑圧処理部14−1〜14−Iから出力された時間領域の音声信号を周波数領域の信号に変換し、周波数領域の信号間の相互相関値をとることによって重み係数を算出するとともに、この重み係数に基づいて周波数領域の信号を混合した。以上のように、異なる性質を持つ複数の雑音抑圧法で得られた雑音抑圧音声を周波数領域で混合する際に、最適化手法を用いて算出した重みづけ係数により、各雑音抑圧法からの雑音抑圧音声への重み付けを行うことにより、雑音成分のエネルギー低減、および、音声部分のエネルギー増幅の効果が的確に得られ、高品質な雑音抑圧音声を精緻に得ることができる。
[第3の実施形態]
次に、第3の実施形態について説明する。なお、前述の実施形態と同様の事項については説明を省略し、本実施形態特有の事項を中心に説明する。本実施形態における雑音抑圧装置は、第1の実施形態における雑音抑圧装置と類似の構成を有し、重み係数の算出方法が異なるものである。つまり、本実施形態による雑音抑圧装置は、図1の機能ブロック図における重み算出部16を、下で説明する重み算出部56で置き換えた構成を有する。
重み算出部56による重み係数の算出に先立って、第1の実施形態における処理と同様に、波形切り出し部12は、入力された雑音混入音声を、適切な分析フレームごとに切り出す。また、フレームごとに切り出したデータについて、抑圧処理部14−1〜14−Iのそれぞれが、性質の異なるI個の雑音抑圧法によって各々の雑音抑圧音声を求める。
図10は、本実施形態による重み算出部の機能構成を示すブロック図である。図示するように、重み算出部56は、適応フィルター係数算出部221と、適応フィルター係数加算部222と、重み係数正規化部223とを含んで構成される。各雑音抑圧法に対応する最適な重み係数ベクトルwoptを求めるために、重み算出部56は適応フィルターを用いる。適応フィルターにはさまざまな方法があるが、本実施形態では一例として正規化LMSアルゴリズムを利用する。正規化LMSアルゴリズムは、LMSアルゴリズムの係数修正項を、フィルターの状態ベクトルノルムで正規化するものである。
適応フィルター係数算出部221は、各雑音抑圧法による雑音抑圧音声ベクトルを基に、ある雑音抑圧法による雑音抑圧音声ベクトルに関して、他の雑音抑圧法による雑音抑圧音声ベクトルを所望信号とする適応フィルター係数を求める。
適応フィルター係数加算部222は、ある雑音抑圧法について、その雑音抑圧法に関して他の雑音抑圧法を所望信号とする適応フィルター係数を、前記他の雑音抑圧法のすべてについて加算する(総和をとる)。この値が、その雑音抑圧法についての重み係数値の元となる。
重み係数正規化部223は、適応フィルター係数加算部222によって算出された雑音抑圧法ごとの重み係数値を正規化する。具体的には、重み係数正規化部223は、すべての雑音抑圧法についての重み係数の総和が例えば1になるように、調整する。
以下、適応フィルターを用いて重み係数を算出する手順について説明する。
適応フィルター係数算出部221は、まず、雑音抑圧音声行列記憶部15(図1)から、抑圧処理部14−1〜14−Iによって各雑音抑圧法で得られた雑音抑圧音声ベクトル[x^]i(i=1,・・・,I)のデータを読み出し、適応フィルター係数を求める。具体的には、適応フィルター係数算出部221は、雑音抑圧音声ベクトル[x^]iに関して、別の雑音抑圧法による雑音抑圧音声ベクトル[x^]j(i≠j)を所望信号として適応フィルター係数hk+1(i,j)を求める。適応フィルター係数hk+1(i,j)は、下の式(24)により算出される。
適応フィルター係数算出部221は、式(24)の漸化式により、収束した適応フィルター係数を求める。ここで、αは適応フィルターの収束の度合いを決めるステップサイズパラメーターであり、βはゼロ除算を防ぐ安定化パラメーターである。適応フィルター係数はサンプルごとに更新する。前提として、抑圧処理部14−iと14−jとでは異なる性質の雑音抑圧法を用いている。また、適応フィルター係数hk+1(i,j)は、各雑音抑圧音声どうしの相互相関の程度に相当する。従って、音声区間では適応フィルター係数hk+1(i,j)が高くなり、非音声区間(雑音区間)では適応フィルター係数hk+1(i,j)が低くなることが期待される。
次に、適応フィルター係数加算部222は、式(24)で得られた適応フィルター係数hk+1(i,j)を用いて、下の式(25)によって、各雑音抑圧音声ベクトル[x^]iに対する重み係数[w^]iを算出する。
式(25)に示すように、求められる重み係数[w^]iは、各雑音抑圧音声ベクトル[x^]iに係る適応フィルター係数をすべてのj(但し、i≠j)について加算したものである。
そして、重み係数正規化部223は、重み係数ベクトル[w^]が式(4)を満たすように、式(26)による正規化を行なう。
このようにして得られた重み係数ベクトル[w^]を最適な重み係数ベクトルwoptとする。即ち、wopt=[w^]である。
重み算出部56によって最適な重み係数ベクトルwoptが算出された後の処理は、第1の実施形態と同様である。即ち、音声統合部17(図1)が、最適な重み係数ベクトルwoptを式(5)に適用して(w=wopt)、下の式(27)に従って、最適な統合雑音抑圧音声ベクトル[x〜]optを得る。
式(27)において、mはフレームのインデックスを表わし、nはフレーム内のサンプルのインデックスを表わす。
そして、波形重ね合わせ部18が、時間波形[x〜]opt(m,n)をフレームごとにシフト幅分ずらして、重ね合わせる。これにより、雑音抑圧音声[x〜](n)が得られる。
次に、本実施形態の雑音抑圧装置による処理結果の客観評価値について説明する。客観評価値としては、第1および第2の実施形態と同様に、fwSNRsegを用いる。fwSNRsegを用いた本実施形態の評価結果は、下の表3の通りである。
表に示すとおり、第3の実施形態による方法では、元の雑音抑圧法1〜3よりも良い結果が得られている。また、第3の実施形態による方法は、第1および第2の実施形態による方法(それぞれ、表1および表2に結果を示した)よりも良い結果が得られている。
以上のように、異なる性質を持つ複数の雑音抑圧法で得られた雑音抑圧音声を時間領域で混合する際に、適応フィルターを用いて算出した重みづけ係数により、各雑音抑圧法からの雑音抑圧音声への重み付けを行うことにより、雑音成分のエネルギー低減、および、音声部分のエネルギー増幅の効果が的確に得られ、高品質な雑音抑圧音声を簡便に得ることができる。
[第4の実施形態]
次に、第4の実施形態について説明する。なお、前述の実施形態と同様の事項については説明を省略し、本実施形態特有の事項を中心に説明する。
前述の第1の実施形態においては、抑圧処理部14−1〜14−Iから出力された時間領域の音声信号を、重み係数に基づいて混合した。このとき、抑圧処理部14−1〜14−Iから出力されたデータ(雑音抑圧音声ベクトル)の相互相関値をとり、この相互相関値に基づいて重み係数を求めた。
前述の第2の実施形態においては、抑圧処理部14−1〜14−Iから出力された時間領域の音声信号を周波数領域の信号に変換し、周波数領域の信号間の相互相関値をとることによって重み係数を算出するとともに、この重み係数に基づいて周波数領域の信号を混合した。
前述の第3の実施形態においては、時間領域の音声信号を重み係数に基づいて混合した。但し、同実施形態では、抑圧処理部14−1〜14−Iから出力されたデータ(雑音抑圧音声ベクトル)間の適応フィルター値をとることによって重み係数を算出した。
この第4の実施形態は、上記の第2の実施形態および第3の実施形態の特徴を併せ持つ構成を有する。即ち、周波数領域の信号間で適応フィルター値を算出し、この適応フィルター値に基づいて重み係数を算出する。そして、算出された重み係数に基づいて周波数領域の信号を混合する。
つまり、本実施形態による雑音抑圧装置は、図7に示す機能ブロック図と類似の構成を有し、重み算出部による重み係数の算出方法のみが異なる。本実施形態による重み算出部は、振幅特性算出部26−1〜26−Iから出力される雑音抑圧音声の振幅特性ベクトルに基づき、各振幅特性ベクトルについて、他の振幅特性ベクトルを所望信号とする適応フィルター値を算出する。そして、重み算出部は、各振幅特性ベクトルについて、他の振幅特性ベクトル(他の雑音抑圧法)を所望信号とする適応フィルター値の総和をとり、さらに重み係数全体の総和が1になるように正規化する。音声統合部は、得られた重み係数による重みづけを行ないながら、振幅特性ベクトルを混合する。そして、混合された周波数領域の雑音抑圧音声の信号を、時間領域の信号に戻す変換を行い、時間窓ごとの波形の重ね合わせを行なった後、得られた雑音抑圧音声を出力する。
なお、上述した各実施形態における雑音抑圧装置の機能をコンピューターで実現するようにしても良い。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
[変形例]
次のような変形例により、この発明を実施するようにしても良い。
第1〜第4の実施形態では、相互相関値あるいは適応フィルター係数値を算出して、2つの異なる雑音抑圧法で得た信号間で相関の高い波形を抽出することにより重み係数を設定した。代わりに、変形例では、重み係数をパラメーターとする評価関数を適切に設定し、雑音抑圧結果(複数の異なる雑音抑圧法による信号を混合した結果)に関して評価関数値を計算する。そして、その評価関数値が最適となるパラメーターを求めるようにする。求めるパラメーターは多次元(I×1次元、またはI×N次元)のベクトルであり、例えば最急降下法を用いて、パラメーターを最適化する。
以上、この発明の複数の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
本発明は、音声処理全般に利用することができる。一例として、放送番組等のための音声を収録する機器類に利用することができる。
1,2 雑音抑圧装置
11 音声入力部
12 波形切り出し部
14−1〜14−I 抑圧処理部
15 雑音抑圧音声行列記憶部
16,36,56 重み算出部
17,37 音声統合部
18 波形重ね合わせ部
19 音声出力部
22 周波数特性算出部
24 位相特性算出部
25−1〜25−I 周波数特性算出部
26−1〜26−I 振幅特性算出部
35 雑音抑圧振幅特性行列記憶部
38 周波数特性算出部
39 音声波形算出部
201 相互相関係数算出部
202 相互相関係数加算部
203 重み係数正規化部
221 適応フィルター係数算出部
222 適応フィルター係数加算部
223 重み係数正規化部

Claims (4)

  1. 入力された音声のデータについて、それぞれ異なる雑音抑圧法による処理を行なうことによって雑音抑圧音声データを出力する複数の抑圧処理部と、
    前記複数の抑圧処理部から出力された前記雑音抑圧音声データに基づき、それぞれの雑音抑圧法のための重み係数を算出する重み算出部と、
    前記重み算出部によって算出されたそれぞれの雑音抑圧法のための重み係数を前記複数の抑圧処理部から出力された各々の前記雑音抑圧音声データに乗じて、前記雑音抑圧音声データを混合する音声統合部と、
    を具備し、
    前記重み算出部は、前記複数の抑圧処理部から出力された前記雑音抑圧音声データの相互間の相関係数を算出し、他の雑音抑圧法との間の相関が高い雑音抑圧法ほど、前記重み係数の値が大きくなるよう算出する、
    ことを特徴とす雑音抑圧装置。
  2. 入力された音声のデータについて、それぞれ異なる雑音抑圧法による処理を行なうことによって雑音抑圧音声データを出力する複数の抑圧処理部と、
    前記複数の抑圧処理部から出力された前記雑音抑圧音声データに基づき、それぞれの雑音抑圧法のための重み係数を算出する重み算出部と、
    前記重み算出部によって算出されたそれぞれの雑音抑圧法のための重み係数を前記複数の抑圧処理部から出力された各々の前記雑音抑圧音声データに乗じて、前記雑音抑圧音声データを混合する音声統合部と、
    を具備し、
    前記重み算出部は、前記複数の抑圧処理部から出力された前記雑音抑圧音声データに基づいて、各雑音抑圧法による前記雑音抑圧音声データについて、他の雑音抑圧法による前記雑音抑圧音声データを所望信号とする適応フィルター係数を算出し、算出された前記適応フィルター係数の値が大きいほど、前記重み係数の値が大きくなるよう算出する、
    ことを特徴とす雑音抑圧装置。
  3. 前記複数の抑圧処理部のそれぞれから出力された前記雑音抑圧音声データに基づいて周波数特性データを算出する周波数特性算出部と、
    前記周波数特性データに基づいて振幅特性データを算出する振幅特性算出部と、
    をさらに具備し、
    前記重み算出部は、前記振幅特性データに基づいてそれぞれの雑音抑圧法のための重み係数を算出し、
    前記音声統合部は、前記重み係数を前記振幅特性データに乗じて混合することによって、前記雑音抑圧音声データを混合する、
    ことを特徴とする請求項1または2に記載の雑音抑圧装置。
  4. コンピューターを、請求項1から3までのいずれか一項に記載の雑音抑圧装置として機能させるためのプログラム。
JP2012162697A 2012-07-23 2012-07-23 雑音抑圧装置およびそのプログラム Expired - Fee Related JP6027804B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012162697A JP6027804B2 (ja) 2012-07-23 2012-07-23 雑音抑圧装置およびそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012162697A JP6027804B2 (ja) 2012-07-23 2012-07-23 雑音抑圧装置およびそのプログラム

Publications (2)

Publication Number Publication Date
JP2014021438A JP2014021438A (ja) 2014-02-03
JP6027804B2 true JP6027804B2 (ja) 2016-11-16

Family

ID=50196330

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012162697A Expired - Fee Related JP6027804B2 (ja) 2012-07-23 2012-07-23 雑音抑圧装置およびそのプログラム

Country Status (1)

Country Link
JP (1) JP6027804B2 (ja)

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999030315A1 (fr) * 1997-12-08 1999-06-17 Mitsubishi Denki Kabushiki Kaisha Procede et dispositif de traitement du signal sonore
JP2002354576A (ja) * 2001-05-25 2002-12-06 Sony Corp ノイズキャンセラー装置及びノイズキャンセル方法
JP4456504B2 (ja) * 2004-03-09 2010-04-28 日本電信電話株式会社 音声雑音判別方法および装置、雑音低減方法および装置、音声雑音判別プログラム、雑音低減プログラム
JP4448464B2 (ja) * 2005-03-07 2010-04-07 日本電信電話株式会社 雑音低減方法、装置、プログラム及び記録媒体
EP1918910B1 (en) * 2006-10-31 2009-03-11 Harman Becker Automotive Systems GmbH Model-based enhancement of speech signals
JP4455614B2 (ja) * 2007-06-13 2010-04-21 株式会社東芝 音響信号処理方法及び装置
WO2010052749A1 (ja) * 2008-11-04 2010-05-14 三菱電機株式会社 雑音抑圧装置
JP5187666B2 (ja) * 2009-01-07 2013-04-24 国立大学法人 奈良先端科学技術大学院大学 雑音抑圧装置およびプログラム
US8571231B2 (en) * 2009-10-01 2013-10-29 Qualcomm Incorporated Suppressing noise in an audio signal
JP5641186B2 (ja) * 2010-01-13 2014-12-17 ヤマハ株式会社 雑音抑圧装置およびプログラム
JP6078993B2 (ja) * 2012-06-11 2017-02-15 大日本印刷株式会社 音響信号に対する妨害音の埋込み装置

Also Published As

Publication number Publication date
JP2014021438A (ja) 2014-02-03

Similar Documents

Publication Publication Date Title
JP5127754B2 (ja) 信号処理装置
JP5124014B2 (ja) 信号強調装置、その方法、プログラム及び記録媒体
KR101224755B1 (ko) 음성-상태 모델을 사용하는 다중-감각 음성 향상
Tsao et al. Generalized maximum a posteriori spectral amplitude estimation for speech enhancement
Islam et al. Speech enhancement based on a modified spectral subtraction method
Islam et al. Supervised single channel speech enhancement based on stationary wavelet transforms and non-negative matrix factorization with concatenated framing process and subband smooth ratio mask
JP5443547B2 (ja) 信号処理装置
CN108806721B (zh) 信号处理器
US10297272B2 (en) Signal processor
Jo et al. Psychoacoustically constrained and distortion minimized speech enhancement
So et al. A non-iterative Kalman filtering algorithm with dynamic gain adjustment for single-channel speech enhancement
Hamid et al. Speech enhancement using EMD based adaptive soft-thresholding (EMD-ADT)
Rao et al. Speech enhancement using sub-band cross-correlation compensated Wiener filter combined with harmonic regeneration
JP6027804B2 (ja) 雑音抑圧装置およびそのプログラム
JP2013120358A (ja) 雑音抑圧装置、雑音抑圧方法、および雑音抑圧プログラム
Sun et al. Speech enhancement via two-stage dual tree complex wavelet packet transform with a speech presence probability estimator
KR20190037867A (ko) 잡음이 섞인 음성 데이터로부터 잡음을 제거하는 장치, 방법 및 컴퓨터 프로그램
JP6827908B2 (ja) 音源強調装置、音源強調学習装置、音源強調方法、プログラム
Saadoune et al. MCRA noise estimation for KLT-VRE-based speech enhancement
CN111968627A (zh) 一种基于联合字典学习和稀疏表示的骨导语音增强方法
Patil et al. Use of baseband phase structure to improve the performance of current speech enhancement algorithms
Saleem et al. Machine Learning Approach for Improving the Intelligibility of Noisy Speech
Prasad et al. Two microphone technique to improve the speech intelligibility under noisy environment
Islam et al. Speech Enhancement Based on Non-stationary Noise-driven Geometric Spectral Subtraction and Phase Spectrum Compensation
Islam et al. A Divide and Conquer Strategy for Musical Noise-free Speech Enhancement in Adverse Environments

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150601

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160829

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160920

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161017

R150 Certificate of patent or registration of utility model

Ref document number: 6027804

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees