JP5634959B2

JP5634959B2 - 雑音／残響除去装置とその方法とプログラム

Info

Publication number: JP5634959B2
Application number: JP2011172919A
Authority: JP
Inventors: 慶介木下; 中谷　智広; 智広中谷; ソウデンメレツ; マークデルクロア
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2011-08-08
Filing date: 2011-08-08
Publication date: 2014-12-03
Anticipated expiration: 2031-08-08
Also published as: JP2013037174A

Description

この発明は、雑音や残響を伴った音響信号から、雑音や残響を取り除いた音響信号を抽出する雑音/残響除去装置と、その方法とプログラムに関する。

雑音や残響のある環境で音響信号を収音すると、本来の信号に音響歪み（雑音や残響）が重畳された信号として観測される。その音響信号が音声の場合、重畳した音響歪みの影響により音声の明瞭度は大きく低下してしまう。その結果、本来の音声信号の性質を抽出することが困難となり、例えば、音声認識システムの認識率が低下する。この認識率の低下を防ぐためには、重畳した音響歪みを取り除く工夫（方法）が必要である。

この雑音/残響除去方法は、音声認識の他にも、例えば、補聴器、ＴＶ会議システム、機械制御インターフェース、楽曲を検索したり採譜したりする音楽情報処理システムなどに利用することが出来る。

図７に、従来の雑音/残響除去装置７００の機能構成例を示してその動作を簡単に説明する。雑音/残響除去装置７００は、マッチング部７０３と、音声強調フィルタリング部７０４と、事例モデル７０５、を具備する。マッチング部７０３は、入力信号特徴量と事例モデル７０５内に含まれる特徴量の事例とのマッチングを行い、入力信号に一番近い事例を探索する。

事例モデル７０５は、事例に対応したクリーン音声データと、それと対を成す雑音/残響音声特徴量とから成るモデルである。この事例モデル７０５は、音声コーパスなどから得られる大量のクリーン音声と、あらゆる環境で得られる雑音/残響データ（雑音信号の波形や、室内インパルス応答）を用い、さまざまな環境での観測信号を模擬生成し、その模擬観測信号を特徴量領域へ変換したものを用いて、事前に事例モデル学習装置によって生成される。

音声強調フィルタリング部７０４は入力信号に一番近い事例を探索する際に用いたクリーン音声の振幅スペクトル事例データを用いて音声強調のためのフィルタを作成し、入力信号をフィルタリングする。この方法によれば、従来は困難であった、非常に時間変化の多い雑音の除去が可能となることが報告されている。非常に時間変化の多い雑音とは、背景雑音に対して、例えば目覚まし時計のアラーム音などの雑音のことである。

J. Ming and R. Srinivasan, and D. Crooke, "A C0rpus-Based Approach to Speech Enhancement From Nonstationary Noise," IEEE Trans. On Acoustics, Speech and Signal Processing, 19(4),pp. 822-836, 2011.

しかし、従来の方法では、あらゆる環境の雑音/残響環境を模擬するための雑音/残響データが学習時に必要となり、そのデータ量が十分でなく、音声強調時の雑音/残響データに十分に近い条件が事例として用意されていない場合は、精度の良い音声強調を行うことが困難であった。また、仮にあらゆる環境の雑音/残響環境を模擬することが可能で、音声強調時に、十分に近い事例が事例モデルに含まれている場合でも、事例数の数は膨大となり、入力信号に一番近い事例を探索するための計算量が非常に大きくなってしまう課題があった。

この発明は、このような課題に鑑みてなされたものであり、あらゆる雑音/残響データを学習時に用意しなくても、入力信号に含まれるクリーン音声に一番近いと思われるクリーン音声を、事例モデルを用いて発見し、精度の良い音声強調を行うことの出来る雑音/残響除去装置と、その方法とプログラムを提供することを目的とする。

この発明の雑音/残響除去装置は、音声強調処理部と、強調処理結果信頼性計算部と、事例モデル記憶部と、マッチング部と、音声強調フィルタリング部と、を具備する。音声強調処理部は、雑音・残響の重畳した音声ディジタル信号を入力信号として、その入力信号に１次的な音声強調処理を施した特徴量領域の１次音声強調信号を出力する。強調処理結果信頼性計算部は、入力信号の特徴量と、１次音声強調信号とから、その１次音声強調信号の不確かさを示す値を出力する。事例モデル記憶部は、学習データの事例モデルと、その振幅スペクトルデータを記憶する。マッチング部は、１次音声強調信号とこの１次音声強調信号の不確かさを示す値と学習データの事例モデルとを入力として、各時間フレームに対して入力信号に含まれるクリーン音声に一番近いクリーン音声系列を与える学習データセグメントを出力する。音声強調フィルタリング部は、入力信号のパワースペクトルと学習データセグメントを入力として、該学習データセグメントと対を成す振幅スペクトルデータを事例モデル記憶部から読み出してウィナーフィルタを生成し、入力信号のパワースペクトルにそのウィナーフィルタを乗じてフィルタリングして音声強調信号を出力する。

この発明の雑音/残響除去装置によれば、クリーン音声のみから生成された事例モデルを用いるので、事例探索のための計算量を少なくすることが出来る。と共に、入力信号に１次的な音声強調処理を施し、その音声強調処理の不確かさ（信頼度）を加味してマッチングを行うことで適切なクリーン音声の事例の探索を可能にする。具体的な効果については後述するが、この発明によれば、計算量を削減した上で、雑音/残響除去のＳＮ比を従来技術よりも改善することが出来る。

この発明の雑音/残響除去装置１００の機能構成例を示す図。雑音/残響除去装置１００の動作フローを示す図。事例モデル生成装置２００の機能構成例を示す図。事例モデル生成装置２００の動作フローを示す図。評価実験結果のスペクトログラムを示す図であり、（ａ）はクリーン音声、（ｂ）は残響音声、（ｃ）は従来法、（ｄ）は不確かさを考慮しないでマッチング処理を行った出力信号、（ｅ）はこの発明の雑音/残響除去装置１００の出力信号である。評価実験結果をセグメンタルＳＮＲと対数スペクトル距離で示す図であり、（ａ）はセグメンタルＳＮＲ、（ｂ）は対数スペクトル距離である。従来の雑音/残響除去装置７００の機能構成例を示す図。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。

図１に、この発明の雑音/残響除去装置１００の機能構成例を示す。その動作フローを図２に示す。雑音/残響除去装置１００は、音声強調処理部１０２と、強調処理結果信頼性計算部１０３と、事例モデル記憶部１０４と、マッチング部１０５と、音声強調フィルタリング部１０６と、制御部１０７と、を具備する。雑音/残響除去装置１００の各部の機能は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

雑音/残響除去装置１００の出力信号の領域は、時間領域、パワースペクトル領域、振幅スペクトル領域、特徴量領域などの、各種信号領域での出力が可能であり、出力信号の用途によって選択される。この実施例の説明に当たっては、入力信号をパワースペクトル領域とし、出力信号を時間領域信号として説明する。

入力信号は、パワースペクトル領域で与えられるので、この実施例では特徴量生成部１０１を備える。特徴量生成部１０１は、入力されるパワースペクトルからフレーム毎の特徴量（例えば、メル周波数ケプストラム係数）を生成する（ステップＳ１０１）。入力信号が特徴量領域で与えられれば、特徴量生成部１０１は不要である。よって、特徴量生成部１０１を破線で示している。

特徴量領域の入力信号ｙ_ｔを式（１）に示すようにモデル化する。

ｙ_ｔは時間フレームｔの入力信号、ｓ_ｔはクリーン音声、ｂ_ｔは音響歪み成分（雑音や、後部残響成分）である。雑音をこのように加法性の項としてモデル化することは広く行われており、後部残響を加法性の項としてモデル化することもしばしば行われている（参考文献１：K. Kinoshita, M. Delcroix, T. Nakatani, and M. Miyoshi, “Suppression of late reverberation effect on speech signal using long-term multiple-step linear prediction,” IEEE TASLP, 17(4), pp. 534-545, 2009.）。以降の説明において、パワースペクトル領域の信号は、それぞれ、Ｙ_ｔ ^２，Ｓ_ｔ ^２，Ｂ_ｔ ^２と表記する。

音声強調処理部１０２は、雑音・残響の重畳した音声ディジタル信号を入力信号として、その入力信号に１次的な音声強調処理を施した特徴量領域の１次音声強調信号^〜ｓ_ｔを出力する（ステップＳ１０２）。^〜の位置は式中（式（２））の表記のように変数の真上に位置するのが正しい表記である。強調処理結果信頼性計算部１０３は、入力信号ｙ_ｔと、音声強調処理部１０２が出力する１次音声強調信号^〜ｓ_ｔとから、１次音声強調信号^〜ｓ_ｔの不確かさを示す値Σ_ｂｔを出力する（ステップＳ１０３）。

事例モデル記憶部１０４は、学習データの事例モデルと、その振幅スペクトルデータを記憶する。マッチング部１０５は、音声強調処理部１０２が出力する１次音声強調信号^〜ｓ_ｔと、強調処理結果信頼性計算部１０３が出力する１次音声強調信号^〜ｓ_ｔの不確かさを示す値Σ_ｂｔと、事例モデル記憶部１０４に記憶されている学習データの事例モデルＭと、を入力として入力信号ｙ_ｔに含まれるクリーン音声に一番近いクリーン音声系列を与える学習データセグメントを出力する（ステップＳ１０５）。

音声強調フィルタリング部１０６は、入力信号のパワースペクトルＹ_ｔ ^２と、マッチング部１０５が出力する学習データセグメントを入力として、その学習データセグメントと対を成す振幅スペクトルデータを事例モデル記憶部１０４から読み出してウィナーフィルタを生成し、入力信号のパワースペクトルＹ_ｔ ^２に、そのウィナーフィルタを乗じてフィルタリングして音声強調信号を出力する（ステップＳ１０６）。制御部１０７は、上記した各部間の時系列的な動作等を制御するものである。

以上述べたように動作することで、雑音/残響除去装置１００は、クリーン音声のみから生成された事例モデルを用い、事例探索のための計算量が少なく、且つ、ＳＮ比の良好な雑音/残響除去を可能にする。

以降において、雑音/残響除去装置１００の各部の機能を更に詳しく説明する。

〔音声強調処理部〕
この実施例の音声強調処理部１０２は、入力信号が特徴量領域であるので、入力信号ｙ_ｔに直接、１次的な音声強調処理を施す。１次音声強調信号^〜ｓ_ｔを得るための処理としては、あらゆる従来の音声強調方法が適用可能であり、適用する方法は入力信号に含まれる音響歪みの種類により適切に選ばれるべきものである。例えば、残響成分を過去の信号から線形予測してパワースペクトル領域で除去する方法（参考文献２：再表２００７/１００１３７）などを用いることが出来る。

〔強調処理結果信頼性計算部〕
強調処理結果信頼性計算部１０３は、１次音声強調信号^〜ｓ_ｔと、入力信号の特徴量ｙ_ｔを用いて、強調音声（１次音声強調信号^〜ｓ_ｔ）の不確かさを示す値Σ_ｂｔを計算して出力する。不確かさを示す値Σ_ｂｔは、全共分散行列を用いることも可能であるが、この実施例ではΣ_ｂｔを、対角成分をゼロとする共分散行列である対角共分散行列とし、そのｋ番目の対角要素σ_ｋは式（２）に示すように計算する。

ｋは、特徴量ベクトルの次数を表すインデックスである。

つまり、強調処理結果信頼性計算部１０３は、１次音声強調信号^〜ｓ_ｔの不確かさを示す値Σ_ｂｔを、入力信号の特徴量ｙ_ｔと１次音声強調信号^〜ｓ_ｔとの差を成分とする共分散行列とする。

〔事例モデル生成装置〕
ここで、事例モデル記憶部１０４に記憶される事例モデルを生成する事例モデル生成装置２００について説明する。図３に、事例モデル生成装置２００の機能構成例を示す。その動作フローを図４に示す。事例モデル生成装置２００は、フーリエ変換部２０１と、特徴量生成部２０２と、ガウス混合モデル学習部２０３と、最尤ガウス分布計算部２０４と、制御部２０５と、を具備する。事例モデル生成装置２００の各部の機能は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

フーリエ変換部２０１は、音声ディジタル信号のクリーン音声を入力信号として、入力信号には例えば３０ｍｓ程度の短時間ハミング窓で窓かけされ、それぞれ窓かけされた入力信号は離散フーリエ変換を経て振幅スペクトルに変換される（ステップＳ２０１）。振幅スペクトルとは、周波数スペクトルの振幅データのことである。

特徴量生成部２０２は、フーリエ変換部２０１が出力する振幅スペクトルの全てを、メルケプストラム特徴量ｓ_ｉに変換する。一般的に広く使われているメルケプストラムは高々１０〜２０次程度であるが、事例データを正確に表すために、高い次数（例えば、３０〜１００次程度）のメルケプストラムを用いる。なお、メルケプストラム以外の特徴量を用いても良い。

ガウス混合モデル学習部２０３は、特徴量生成部２０２で得られた各短時間フレームｉでの特徴量ｓ_ｉを学習データとして、通常の最尤推定法によりガウス混合モデルｇ（式（３））を得る。

ｇ（ｓ|ｑ）は、平均μ_ｑ、分散Σ_ｑを持つｑ番目のガウス分布を表し、ｗ（ｑ）はそれに対する混合重みを表す。Ｑは混合数を表す。

最尤ガウス分布計算部２０４は、各時間フレームｉに対して最大の尤度を与えるガウス混合分布ｇの中のガウス分布のインデックスｑ_ｉを求め、そのインデックスｑ_ｉの時間系列を事例モデルＭとして求める（ステップＳ２０４）。事例モデルＭは、ガウス分布のインデックスｑ_ｉの集合とガウス混合モデルｇを用いて式（４）に示すように表される。

ここで、ｑ_ｉは、ｉ番目のフレームの特徴量ｓ_ｉに対して最大の尤度を与えるガウス分布のインデックスであり、ガウス混合分布ｑの中の分布ｇ（ｓ|ｑ_ｉ）を表している。モデルＭを、学習データｓの詳細な時間周波数特徴を捉えた事例モデルＭと称する。この事例モデルＭは、学習データｓと対と成る学習用クリーン音声の振幅スペクトルデータＡと共に、例えば事例モデル記憶部２０４（図１）に記憶される。

〔マッチング部〕
マッチング部１０５は、入力信号の特徴量ｙ_ｔと、その入力信号の特徴量ｙ_ｔに最も近い学習データのセグメントを、事例モデルＭを用いて探索し、入力信号ｙ_ｔに含まれるクリーン音声ｓ_ｔに一番近いクリーン音声系列を与えると思われる学習データセグメントＭ^ｔ _{ｕ：ｕ＋τｍａｘ}を出力する。マッチング部１０５は、１次音声強調信号^〜ｓ_ｔの不確かさを示す値Σ_ｂｔを加味して、クリーン音声に一番近いクリーン音声系列を探索するものであるが、Σ_ｂｔを加味しない従来法との違いを明確にする目的で、先に、不確からしさを示す値Σ_ｂｔを加味しないマッチング方法について説明する。

入力信号は、Ｔ個の時間フレームから成るとし、その入力信号をｙ＝{ｙ_ｔ:ｔ=1，２，…，Ｔ}とする。また、ｙ_{ｔ：ｔ＋τ}を入力信号の時間フレームｔからｔ＋τまでの系列とする。そして、Ｍ_{ｕ：ｕ＋τ}＝{ｇ，ｑ_ｉ：ｉ＝ｕ，ｕ＋１，…，ｕ＋τ}を、学習データｓの中のｕ番目からｕ＋τ番目までの連続する時間フレームに対応するガウス分布系列とする。

入力信号ｙ_ｔと学習データｓの中のあるセグメントとの距離の定義や、入力信号ｙ_ｔと一番近い学習データの探索方法としては、ユークリッド距離など、他のいくつかの方法を考えることが出来る。ここでは、入力信号ｙの時間フレームｔに対する一番近い学習データセグメントは、入力信号に良く一致する学習データセグメントの中でも長さの最も長いものとする。つまり、入力信号に最も近い学習データセグメントＭ^ｔ _{ｕ：ｕ＋τ}は、次式に示す事後確率を最大化することで求めることが出来る。

ここで、ｐ（Ｍ_ｕ:ｕ+τ|ｙ_ｔ:ｔ+τ）は事後確率を表し、ｙ_ｔ:ｔ+τとＭ_ｕ:ｕ+τが比較的よく一致している場合、τが長ければ長いほど高い事後確率を与えるという特徴を持っている。より長いセグメントを探索するという方策を取ることで、ある時間に局所的に存在する雑音などの影響を受け難くなり、雑音などに対して比較的ロバストなマッチングが行われることが期待できる。式（６）では、簡単のため、ｐ（Ｍ_ｕ:ｕ+τ）は全ての学習データセグメントに対して等確率を仮定することが出来る。これは、学習データ中で観測された系列パターンは、雑音/残響除去時に全て同じ確率で起こりえるということを仮定することに対応する。

式（６）の分子の項ｐ（ｙ_ｔ:ｔ+τ|Ｍ_ｕ:ｕ+τ）は、Ｍ_ｕ:ｕ+τに対応する学習データセグメントに対する音声強調信号ｙ_ｔ:ｔ+τの尤度である。その尤度は次式で計算される。

簡単のため、隣り合うフレームは独立であることを仮定している。式（６）の分母は、事例モデルＭに含まれる全てのパターンについてｐ（ｙ_ｔ:ｔ+τ|Ｍ_ｕ:ｕ+τ）の和を取った値となる。

ここで、入力信号ｙ_ｔが十分にクリーン音声に近ければ、つまり音響歪み成分ｂ_ｔが十分にゼロに近ければ、学習時に用いたクリーン音声データとのミスマッチは小さくなり、クリーン音声ｓ_ｔに近いパターンを学習データから探索することが出来る。しかし、一般的に入力信号ｙ_ｔとクリーン音声ｓ_ｔには雑音/残響に起因する差があり、その差がマッチング処理に直接影響する。したがって、そのままではクリーン音声ｓ_ｔに近いパターンを学習パターンから発見することは容易ではない。この雑音/残響に起因する差による影響を低減させる工夫が必要である。

そこで、この発明の雑音/残響除去装置１００は、雑音/残響に起因する差による影響を低減させる目的で、不確からしさ（信頼度）を加味するようにした。つまり、この発明の雑音/残響除去装置１００は、信頼度を加味しながら入力信号ｙ_ｔと学習データをマッチングさせ、最も入力信号に近い学習データのセグメントＭ^ｔ _{ｕ：ｕ＋τｍａｘ}を探索する。

そこで、１次音声強調信号^〜ｓ_ｔとクリーン音声ｓ_ｔとの間に差があることを陽に考慮するために、１次音声強調信号^〜ｓ_ｔの信頼性/不確かさを考慮する。具体的には、入力信号ｙ_ｔを確率的に定式化する。

まず、雑音/残響成分ｂ_ｔは、以下のガウス過程に従うものとする。

ここで、＾ｂ_ｔは、１次音声強調信号^〜ｓ_ｔと入力信号ｙ_ｔの差の推定値であり、＾ｂ_ｔ＝ｙ_ｔ−^〜ｓ_ｔのように計算され、１次音声強調信号^〜ｓ_ｔの不確からしさを示す値Σ_ｂｔは、ｂ_ｔの時変の共分散行列である。この定式化を用いることで、入力信号ｙ_ｔの尤度は、結合確率をクリーン音声信号について周辺化することで、以下のように求めることが出来る。

導出の中では、確率の乗法定理を用いた。式（９）より、時変の共分散行列Σ_ｂｔは、１次音声強調信号^〜ｓ_ｔの不確からしさの尺度と考えることが出来る。例えば、信頼度の低い不確からしい特徴量については、それに対応する共分散行列Σ_ｂｔが大きくなり、結果それらの特徴量が結果に与える影響が低くなる。

このようにガウス分布の分散の項を時変で補正する作業を、式（６）に挿入することで、１次的な音声強調処理の結果である１次音声強調信号^〜ｓ_ｔの信頼度/不確からしさを考慮しながら、クリーン音声信号ｓ_ｔに近い学習データセグメントＭ^ｔ _{ｕ：ｕ＋τｍａｘ}を探索することが可能となる。

〔音声強調フィルタリング部〕
音声強調フィルタリング部１０６は、マッチング部１０５が出力する学習データセグメントＭ^ｔ _{ｕ：ｕ＋τｍａｘ}と、それに対応するクリーン音声の振幅スペクトルの事例を用いてフィルタリングを行う。

はじめに、マッチング結果Ｍ^ｔ _{ｕ：ｕ＋τｍａｘ}に対応するクリーン音声の振幅スペクトルを、事例モデル記憶部１０４から読み出し、入力信号ｙｔに含まれるクリーン音声成分ｓの振幅スペクトルの復元を試みる。ε（ε＝１，２，…，Ｔ）を、クリーン音声の振幅スペクトルを復元したい対象の時間フレームインデックスとすると、クリーン音声の振幅スペクトル＾Ｓ_εは以下のように推定・復元される。

ここでＡ（ｕ^ｔ _ε）は、学習データセグメントＭ^ｔ _{ｕ：ｕ＋τｍａｘ}と対となるクリーン音声の振幅スペクトルの事例であり、ｕ^ｔ _εは、各フレームｔで得られた尤もらしい学習データセグメントｕ＝｛ｕ，ｕ＋１，…，ｕ＋τｍａｘ｝のεに対応するインデックスである。また、クリーン音声の振幅スペクトルデータの集合[Ａ]は{Ａ（ｉ）：ｉ＝１，２，…，Ｉ_ｓ}である。

次に、この推定した振幅スペクトル＾Ｓ_εを用いてウィナーフィルタＨ_εを構築する（式（１１））。

雑音/残響成分の推定値＾Ｂ^２ _εは、式（１２）に示すように求める。

ここでαは平滑化係数であり、ｍａｘ[ｋ，ｋ′]はｋとｋ′の大きい方を選択して出力する関数である。ウィナーフィルタＨ_εをＨ_ｔとして、そのＨ_ｔを入力信号のパワースペクトルＹ_ｔ ^２に乗算すれば、最終的な出力信号を得ることが出来る。

入力信号のパワースペクトルＹ_ｔ ^２にウィナーフィルタＨ_ｔを乗じた出力信号は、逆フーリエ変換され時間領域の信号に変換されて出力される。

〔評価実験〕
この発明の雑音/残響除去装置１００の性能を評価する目的で評価実験を行った。実験条件は次の通りとした。

ガウス混合モデルｇの学習には、1088文、136話者からなるＴＩＭＩＴ core training-setを用いた。標本化周波数は８kHz、ガウス混合モデルの学習に用いる特徴量ベクトルとしては、40次のメルケプストラム係数と対数エネルギー項をつなげたベクトルを用いた。ガウス混合モデルの混合数Ｑは、学習データに含まれるさまざまな時間周波数パターンを精度よくモデル化するために、十分大きい値である4096を用いた。フーリエ変換に用いたフレーム長は20msであり、短時間窓のシフト幅は10msとした。

実験では、大きさ５m×5m×5m、残響時間0.5秒の部屋を想定して、この部屋の中で、話者がマイクから2.5m離れた状況で測定されるであろう室内インパルス応答をコンピュータ上でシミュレートした。雑音/残響除去装置１００への入力信号ｙ_ｔは、上記室内インパルス応答とＴＩＭＩＴ core training-setに含まれる64文の音声と、を畳み込んで生成した。１次的な音声強調信号である１次音声強調信号^〜ｓ_ｔを得るための音声強調処理には、上記した参考文献２の方法を用いた。

図５に、実験結果をスペクトログラムで示す。横軸は時間、縦軸は周波数であり、白黒の濃淡で周波数の強さを表す。（ａ）は入力信号、（ｂ）は残響音声、（ｃ）は従来法による出力信号、（ｄ）は不確かさを考慮しないでマッチング処理を行った出力信号、（ｅ）はこの発明の雑音/残響除去装置１００の出力信号である。

従来法による出力信号（ｃ）を見ると、ある程度の残響除去効果は確認できるものの、本来の音声エネルギーの存在する部分のエネルギーを過剰に抑圧してしまっており、処理の不正確さを確認することが出来る。それに対し、不確かさを考慮せずにマッチングを行った処理の出力信号（ｄ）は、事例に基づく処理をつなげたことで、従来法（ｃ）よりはやや歪みの少ない音声を出力している。

この発明の雑音/残響除去装置１００の出力信号（ｅ）は、上記した２つの処理音よりも更に効果的な残響除去が行われていることが、矢印↓で示す約0.54秒、0.81秒、0.96秒付近の調波構造の回復具合から見て取ることが出来る。

次に、より客観的に本願発明の雑音/残響除去方法の効果を評価するため、セクメンタルＳＮＲと、対数スペクトル距離を算出した。セグメンタルＳＮＲは、高ければ高いほど正確に音響歪みが除去されていることを意味する。逆に、対数スペクトル距離は、小さい値であればあるほど、クリーン音声に近い音声であることを意味する。評価音声全てから得られた結果の平均値を図６に示す。図６の横方向は処理方法であり、左から入力信号（□）、従来法、不確かさを考慮しないでマッチング処理、この発明（■）である。縦軸方向は（ａ）がセグメンタルＳＮＲ（ｄＢ）、（ｂ）が対数スペクトル距離（ｄＢ）である。

このように、この発明の雑音/残響除去方法によれば、クリーン音声のみから生成された事例モデルのみの利用で、セクメンタルＳＮＲと対数スペクトル距離の両方で最も良い数値を得ることが出来る。つまり、本願発明の雑音/残響除去方法によれば、学習時の雑音/残響データが不要となるので計算量を削減した上で、雑音/残響除去のＳＮ比を従来技術よりも改善することが可能になる。

上記した雑音/残響除去装置１００及び事例モデル生成装置２００における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）/ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

雑音・残響の重畳した音声ディジタル信号を入力信号として、該入力信号に１次的な音声強調処理を施した特徴量領域の１次音声強調信号を出力する音声強調処理部と、
上記入力信号の特徴量と、上記１次音声強調信号とから、上記入力信号と上記１次音声強調信号との差が大きいほど上記１次音声強調信号が不確かであることを示す値を該１次音声強調信号の不確かさを示す値として出力する強調処理結果信頼性計算部と、
学習データの事例モデルと、その振幅スペクトルデータを記憶する事例モデル記憶部と、
上記１次音声強調信号と該１次音声強調信号の不確かさを示す値と上記学習データの事例モデルとを入力として、各時間フレームに対して上記入力信号に含まれるクリーン音声に一番近いクリーン音声系列を与える学習データセグメントを出力するマッチング部と、
上記入力信号のパワースペクトルと上記学習データセグメントを入力として、該学習データセグメントと対を成す振幅スペクトルデータを上記事例モデル記憶部から読み出してウィナーフィルタを生成し、上記入力信号のパワースペクトルに上記ウィナーフィルタを乗じてフィルタリングして音声強調信号を出力する音声強調フィルタリング部と、
を具備する雑音/残響除去装置。
請求項１に記載の雑音/残響除去装置において、
上記強調処理結果信頼性計算部は、
上記１次音声強調信号の不確かさを示す値を、上記入力信号の特徴量と上記１次音声強調信号との差を成分とする共分散行列とすることを特徴とする雑音/残響除去装置。
請求項１又は２に記載した雑音/残響除去装置において、
上記マッチング部の出力する各時間フレームに対して上記入力信号に含まれるクリーン音声に一番近いクリーン音声系列を与える学習データセグメントは、上記入力信号の特徴量によく一致する学習データセグメントの中で最も長いものとすることを特徴とする雑音/残響除去装置。
雑音・残響の重畳した音声ディジタル信号を入力信号として、該入力信号に１次的な音声強調処理を施した特徴量領域の１次音声強調信号を出力する音声強調処理過程と、
上記入力信号の特徴量と、上記１次音声強調信号とから、上記入力信号と上記１次音声強調信号との差が大きいほど上記１次音声強調信号が不確かであることを示す値を該１次音声強調信号の不確かさを示す値として出力する強調処理結果信頼性計算過程と、
学習データの事例モデルと、その振幅スペクトルデータを記憶する事例モデル記憶部と、
上記１次音声強調信号と当該１次音声強調信号の不確かさを示す値と事例モデル記憶部に記憶された学習データの事例モデルとを入力として、各時間フレームに対して上記入力信号に含まれるクリーン音声に一番近いクリーン音声系列を与える学習データセグメントを出力するマッチング過程と、
上記入力信号のパワースペクトルと上記学習データセグメントを入力として、該学習データセグメントと対を成して記憶される振幅スペクトルデータを上記事例モデル記憶部から読み出してウィナーフィルタを生成し、上記入力信号のパワースペクトルに上記ウィナーフィルタを乗じてフィルタリングして音声強調信号を出力する音声強調フィルタリング過程と、
を備える雑音/残響除去方法。
請求項４に記載の雑音/残響除去方法において、
上記強調処理結果信頼性計算過程は、
上記１次音声強調信号の不確かさを示す値を、上記入力信号の特徴量と上記１次音声強調信号との差を成分とする共分散行列とすることを特徴とする雑音/残響除去方法。
請求項４又は５に記載した雑音/残響除去方法において、
上記マッチング過程の出力する各時間フレームに対して上記入力信号に含まれるクリーン音声に一番近いクリーン音声系列を与える学習データセグメントは、上記入力信号の特徴量によく一致する学習データセグメントの中で最も長いものとすることを特徴とする雑音/残響除去方法。
請求項１乃至３の何れかに記載した雑音/残響除去装置としてコンピュータを機能させ
るためのプログラム。