JP6673861B2

JP6673861B2 - 信号処理装置、信号処理方法及び信号処理プログラム

Info

Publication number: JP6673861B2
Application number: JP2017039719A
Authority: JP
Inventors: 慶介木下; 中谷　智広; 智広中谷; 小川　厚徳; 厚徳小川; マークデルクロア; 卓哉樋口
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-03-02
Filing date: 2017-03-02
Publication date: 2020-03-25
Anticipated expiration: 2037-03-02
Also published as: JP2018146683A

Description

本発明は、信号処理装置、信号処理方法及び信号処理プログラムに関する。

実環境でマイクロホンを用いて音声を収音すると、一般的に、目的音声信号だけでなく、種々の音響歪み（雑音や残響）が目的音声に重畳した信号が観測される。これらの雑音や残響は目的音声の明瞭度や聞き取りやすさを大きく低下させてしまう要因である。また、収録音にこれらの音響歪みが含まれていると音声認識精度が大きく低下することも知られている。

そこで、観測音声信号からこれらの音響歪みを除去する技術がある。この観測音声信号からこれらの音響歪みを除去する技術は、様々な音響信号処理システムの要素技術として用いることが可能である。例えば、観測音声信号からこれらの音響歪みを除去する技術は、実環境下で収音された音から目的信号を抽出して聞き取り易さを向上させる補聴システム或いは音編集システムなどに利用することができる。また、観測音声信号からこれらの音響歪みを除去する技術は、実環境下で収音された音声を精度良く認識する音声認識システムに利用することもできる。さらに、近年では、ニューラルネットワークを用いてクリーン音声特徴量を推定する特徴量強調技術が提案されている（例えば、非特許文献１参照）。

A. L. Maas, Q. V. Le, T. M. O’Neil, O. Vinyals, P. Nguyen, and A. Y. Ng, "Recurrent Neural Networks for Noise Reduction in Robust ASR," in Interspech, 2012.

ここで、非特許文献１記載の信号処理装置について説明する。図９は、従来の信号処理装置の構成の一例を示す図である。図９に示すように、従来の信号処理装置１０Ｐは、入力を受け付けた観測信号から観測信号特徴量を計算する観測信号特徴量計算部１１Ｐと、ニューラルネットワークを用いてクリーン音声特徴量を推定するニューラルネットワーク型クリーン音声特徴量推定部１２Ｐとを有する。

信号処理装置１０Ｐは、まず、学習時には、予め用意された学習データ、すなわち雑音や残響が含まれる観測信号の特徴量とクリーン音声特徴量とが対となったデータを用いて、観測信号とクリーン音声信号との一対一の対応関係をニューラルネットワークにより学習する。そして、信号処理装置１０Ｐは、テスト時には、学習済みのニューラルネットワークに観測信号の特徴量を入力し、出力としてクリーン音声の特徴量を得ることで、特徴量強調を達成する。この方法は、様々な環境で頑健に動作することが知られている。すなわち、信号処理装置１０Ｐは、効果的に動作することが知られている。

しかしながら、一般的に、観測信号とクリーン音声信号との対応関係は一対一ではない。このため、信号処理装置１０Ｐの処理の前提には、誤りが含まれている。すなわち、特徴量強調の問題は一般的には不良設定問題であり、ある観測信号が与えられた時、その観測信号を構成する音声と雑音及び残響との組は、原理的には無数に存在する。例えば、音量Ａの音声と音量Ｂの白色雑音とを混ぜ合わせた時に観測される観測信号特徴量と、音量Ａよりも小さい音声と音量Ｂよりも大きな白色雑音とを混ぜ合わせた時に観測される信号の特徴量は全く同じ値を取り得る。

前述したように、従来の信号処理装置１０Ｐでは、ある観測信号が与えられた際には、一意にクリーン音声が定まることを明に仮定し、その対応関係を学習している。しかしながら、ある観測信号と、それを構成し得るクリーン音声と雑音及び残響との組の対応関係は、一対一ではなく、一対多の対応関係である。したがって、信号処理を行う場合には、観測信号と、それを構成するクリーン音声と雑音及び残響との組が一対多となるように、適切に扱うべきである。このため、従来の技術では、処理の前提に誤りが含まれるため、従来技術を用いた場合、必ずしも最適な特徴量強調を実現できるとは限らないという問題があった。

本発明は、上記に鑑みてなされたものであって、前述の一対多の対応関係を適切に扱い、正確にクリーン音声特徴量を取得することができる信号処理装置、信号処理方法及び信号処理プログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明に係る信号処理装置は、入力を受け付けた観測信号から観測信号特徴量を計算する特徴量計算部と、観測信号特徴量を基にニューラルネットワークを用いてクリーン音声特徴量の分布を推定するクリーン音声特徴量分布推定部と、クリーン音声特徴量の分布と観測信号特徴量とを基に、クリーン音声特徴量の最適推定値を計算するクリーン音声特徴量計算部と、を有することを特徴とする。

本発明によれば、観測信号と、それを構成し得るクリーン音声と雑音及び残響との組が一対多である対応関係を適切に扱い、正確にクリーン音声特徴量を取得することができる。

図１は、実施の形態に係る信号処理装置の構成の一例を説明する図である。図２は、図１に示す信号処理装置による学習処理の流れを説明する図である。図３は、ニューラルネットワークを用いたクリーン音声特徴量を表すガウス分布の推定処理を説明する図である。図４は、図１に示す信号処理装置によるテスト処理の流れを説明する図である。図５は、図１に示す信号処理装置によるテスト処理の処理手順を示すフローチャートである。図６は、図１に示す信号処理装置による学習処理の処理手順を示すフローチャートである。図７は、対数スペクトル距離を用いた評価の結果を示す図である。図８は、プログラムが実行されることにより、信号処理装置が実現されるコンピュータの一例を示す図である。図９は、従来の信号処理装置の構成の一例を示す図である。

以下、図面を参照して、本発明の一実施の形態を詳細に説明する。なお、この実施の形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

［実施の形態］
実施の形態に係る信号処理装置について、信号処理装置全体の概略構成、信号処理装置による信号処理方法を説明する。

［信号処理装置の構成］
そこで、図１を参照して、実施の形態に係る信号処理装置の構成について説明する。図１は、実施の形態に係る信号処理装置の構成の一例を説明する図である。図１に示すように、本実施の形態に係る信号処理装置１０は、特徴量計算部１１、ニューラルネットワーク型クリーン音声特徴量分布推定部１２（クリーン音声特徴量分布推定部）、尤度計算部１３、クリーン音声状態事後確率推定部１４及びクリーン音声特徴量出力部１５（クリーン音声特徴量計算部）を有する。信号処理装置１０の処理は、観測信号に対するクリーン音声推定値を計算するテスト処理と、ニューラルネットワークの学習処理とに分かれている。

特徴量計算部１１は、入力を受付けた音声信号から、音声特徴量を計算する。特徴量計算部１１には、テスト時には、クリーン音声推定対象の観測信号が入力される。また、特徴量計算部１１は、学習時には、クリーン音声と雑音及び残響を含む観測信号との組が複数入力される。特徴量計算部１１は、窓関数等を用いて観測信号を、例えば、３０ｍｓ程度の短時間フレームに分割する。そして、特徴量計算部１１は、分割した各短時間フレームにフーリエ変換を施し、フーリエ変換後の信号の絶対値の二乗の対数を取った対数スペクトルに対して、メルフィルタバンクの処理を施し、線形周波数からメル周波数形式へ変換する。

ニューラルネットワーク型クリーン音声特徴量分布推定部１２は、学習時には、ニューラルネットワークが適切なクリーン音声特徴量分布を出力するように学習を行う。そして、ニューラルネットワーク型クリーン音声特徴量分布推定部１２は、テスト時には、学習済みのニューラルネットワークを用いて、観測信号特徴量に対応するクリーン音声特徴量の分布を推定して、クリーン音声状態事後確率推定部１４に出力する。クリーン音声特徴量の分布は、時変のガウス分布或いはガウス混合分布で表される。これは音声の特徴量はガウス分布で精度良くモデル化できることが知られているためである。尤度計算部１３は、学習時において、クリーン音声に対する観測信号の尤度を計算する。

クリーン音声状態事後確率推定部１４は、ニューラルネットワーク型クリーン音声特徴量分布推定部１２が推定したクリーン音声特徴量の分布と、特徴量計算部１１が計算した観測信号特徴量とを基に、観測信号に含まれるクリーン音声特徴量が、クリーン音声特徴量の分布のどの状態を取り得る確率が高いかを示す値であるクリーン音声状態事後確率を推定する。まず、クリーン音声状態事後確率推定部１４は、観測信号の特徴量を用いて、雑音や残響の特徴量の分布を推定する。そして、クリーン音声状態事後確率推定部１４は、時変のガウス混合分布で表されたクリーン音声特徴量の分布と雑音や残響の特徴量の分布の推定値とを基に、観測信号の特徴量に関する分布を、ＶＴＳ（Vector Taylor Series）近似を用いて推定し、時変のガウス混合分布の各要素に関するクリーン音声状態事後確率を取得する。

クリーン音声特徴量出力部１５は、クリーン音声状態事後確率推定部１４が推定したクリーン音声状態事後確率と、特徴量計算部１１が計算した観測信号特徴量と、ニューラルネットワーク型クリーン音声特徴量分布推定部１２が計算したクリーン音声特徴量分布とを基に、クリーン音声特徴量の最適推定値を計算する。

このように、信号処理装置１０は、学習済みのニューラルネットワークを用いて、クリーン音声特徴量そのものではなく、クリーン音声特徴量の確率分布を推定することによって、観測信号とクリーン音声信号とにおける一対多の対応関係を適切に扱い、正確なクリーン音声特徴量を取得する。

［学習処理の流れ］
信号処理装置１０では、観測信号とクリーン音声信号との複数の組ごとに、ニューラルネットワークが学習を行っている。そして、信号処理装置１０では、観測信号とクリーン音声信号との複数の組を用いて、適切なクリーン音声特徴量分布を出力するようにニューラルネットワークに学習させることによって、観測信号とクリーン音声信号との一対多の対応関係を適切にモデル化している。言い換えると、観測信号とクリーン音声の一対一対応関係を仮定してクリーン音声の特徴量そのものをニューラルネットワークで推定する従来法とは異なり、本実施の形態では、クリーン音声特徴量の分布をニューラルネットワークで推定することによって、一対多の対応関係を適切にモデル化している。

そこで、信号処理装置１０による学習処理の流れについて説明する。図２は、図１に示す信号処理装置１０による学習処理の流れを説明する図である。説明のため、図２は、信号処理装置１０の要部を示す。そして、図２では、クリーン音声特徴量の分布として、ガウス混合分布を用いた場合を例に説明を行う。なお、ある入力が与えられた際に、ニューラルネットワークを用いて出力値に関する分布をガウス混合分布の形で推定する一般的な方法は、既存の技術を用いることができる（例えば、C. Bishop, “Mixture density networks”, Ph.D. thesis, Aston University, Tech. Rep. NCRG/94/004, 1994.参照）。

学習処理では、まず、特徴量計算部１１が、入力された観測信号を３０ｍｓ程度の短時間フレームに分割し、分割した各短時間フレームのデータを一般的な音声特徴抽出の処理過程を用いて、各フレームに対応する観測信号特徴量ｙ_ｔに変換する。特徴量計算部１１は、観測信号特徴量ｙ_ｔをニューラルネットワーク型クリーン音声特徴量分布推定部１２に入力する。また、特徴量計算部１１は、この観測信号と対になるクリーン音声についても同様に、短時間フレームに分割し、分割した各短時間フレームのデータを、各フレームに対応するクリーン信号特徴量ｓ_ｔに変換する。特徴量計算部１１は、クリーン信号特徴量ｓ_ｔを尤度計算部１３に入力する。

図３は、ニューラルネットワークを用いたクリーン音声特徴量を表すガウス分布の推定処理を説明する図である。図３に示すように、ニューラルネットワーク型クリーン音声特徴量分布推定部１２は、観測信号特徴量ｙ_ｔを、ニューラルネットワークを通じて、以下の（１）式及び（２）式に示す変数ｚ_ｔに変換する。図３では、簡単のため、ガウス混合分布の混合数を２とした例を示している。

この（１）式及び（２）式における添え字ｔは、短時間フレームインデックスを表す。そして、（１）式及び（２）式におけるベクトルｚ_ｔは、ガウス混合モデルの平均値を構成するためのニューラルネットワーク出力ｚ_ｔ，ｍ ^（μ）、ガウス混合モデルの分散を構成するためのニューラルネットワーク出力ｚ_ｔ，ｍ ^（σ）、及び、ガウス混合モデルの混合重みを構成するためのニューラルネットワーク出力ｚ_ｔ，ｍ ^（α）を含む、ニューラルネットワークからの出力ベクトルである。これらのネットワーク出力は、以下の（３）〜（５）式に示す変換を経て、ガウス混合分布パラメータへと変換される。

そして、図２に示すように、ニューラルネットワーク型クリーン音声特徴量分布推定部１２は、学習時において、これらのパラメータが構成するガウス混合分布が、観測信号特徴量ｙ_ｔに対応するクリーン音声特徴量ｓ_ｔを最もよく表すように、ニューラルネットワークに学習させる。

具体的には、尤度計算部１３は、ニューラルネットワーク型クリーン音声特徴量分布推定部１２が出力したガウス混合分布パラメータと、特徴量計算部１１が出力したクリーン音声特徴量ｓ_ｔとを基に、以下の（６）式に示す尤度ｐ(ｓ_ｔ|ｙ_ｔ)を計算する。なお、（６）式中のφ_ｉ(ｓ_ｔ|ｙ_ｔ)は、（７）式で示される。

ニューラルネットワーク型クリーン音声特徴量分布推定部１２では、尤度計算部１３によって計算された尤度が入力され、これに応じて、ニューラルネットワークのパラメータ更新が行なわれる。このような処理を繰り返すことによって、ニューラルネットワーク型クリーン音声特徴量分布推定部１２では、クリーン音声信号に対する尤度ｐ(ｓ_ｔ|ｙ_ｔ)が最大化されるように、ニューラルネットワークのパラメータが学習される。

そして、ニューラルネットワーク型クリーン音声特徴量分布推定部１２において、ニューラルネットワークのパラメータの更新は、所定の終了条件に達するまで繰り返される。終了条件は、例えば、１０００組の観測信号とクリーン音声信号とがある場合には、この１０００組の観測信号とクリーン音声信号とに対して、パラメータ更新を１０００回行うことである。或いは、終了条件は、１０００組の観測信号とクリーン音声信号とに対して、パラメータ更新を１０００回行った後に、改めて同じ１０００組の観測信号とクリーン音声信号とに対して、１０００回のパラメータ更新を行うことである。

このように、信号処理装置１０では、観測信号とクリーン音声信号との複数の組を用いて、適切なクリーン音声特徴量分布を出力するようにニューラルネットワークに学習させることによって、観測信号とクリーン音声信号との一対多の対応関係を適切にモデル化している。そして、信号処理装置１０では、テスト処理時に、このニューラルネットワークを用いて、テスト対象の観測信号特徴量について、クリーン音声特徴量の分布を推定することによって、クリーン音声特徴量の最適推定を行っている。

［テスト処理の流れ］
そこで、信号処理装置１０によるテスト処理の流れについて説明する。信号処理装置１０は、テスト処理時には、ニューラルネットワークを用いて、観測信号特徴量に基づきクリーン音声分布の推定を毎フレームごとに行い、その後、クリーン音声特徴量の最適推定を行う。クリーン音声特徴量を表す分布の形状としては、クリーン音声特徴量を適切に表現できるものであれば、どのような分布でも構わない。

図４は、図１に示す信号処理装置１０によるテスト処理の流れを説明する図である。図４は、説明のため、信号処理装置１０の要部を示す。まず、特徴量計算部１１が、入力された観測信号を３０ｍｓ程度の短時間フレームに分割し、分割した各短時間フレームのデータを一般的な音声特徴抽出の処理過程（後述）を用いて、各フレームｔに対応する観測信号特徴量ｙ_ｔに変換する。

そして、ニューラルネットワーク型クリーン音声特徴量分布推定部１２では、学習したニューラルネットワークを用いて、クリーン音声特徴量の分布をフレームｔごとに推定する。続いて、クリーン音声状態事後確率推定部１４では、観測信号に含まれるクリーン音声特徴量が、クリーン音声特徴量の分布のどの状態を取り得る確率が高いかを示す値であるクリーン音声状態事後確率を推定する。その後、クリーン音声特徴量出力部１５は、このクリーン音声状態事後確率と観測信号特徴量とを用いて最適なクリーン音声推定値を推定する。

本実施の形態では、クリーン音声特徴量を表すガウス混合分布を基に、最終的なクリーン音声特徴量を最尤推定の枠組みで推定する方法を一例として説明する。ここで、従来技術として、クリーン音声の分布を表す時不変ガウス混合分布を基に、観測信号特徴量の分布を推定し、その分布を用いてクリーン音声状態事後確率を推定する手法が提案されている（詳細は、P. J. Moreno, B. Raj, and R. M. Stern, “A Vector Taylor Series Approach for Environment-independent Speech Recognition,” in Proceedings of International Conference on Acoustics, Speech and Signal Processing (ICASSP), 1996, pp.733−736.参照）。

この従来技術とは異なり、本実施の形態では、フレームｔごとに異なるガウス混合分布が推定されるため、フレームｔごとに以下の（８）式及び（９）式を用いて、観測信号特徴量を表すガウス混合分布の平均を合成、推定する。

ここで、（８）式及び（９）式に示すμ_ｉ（ｙ_ｔ）は、ニューラルネットワークにより推定されたガウス分布のｉ番目の要素の平均ベクトルを表し、μ^{（ｎ，０）}は、雑音を表すガウス分布の平均値の初期値を表し、μ^{（ｎ，ｌ）}は、反復推定ｌ回目の推定値を表す。そして、（８）式に示すＨ_ｉ（μ^{（ｎ，ｌ）}−μ^{（ｎ，０）}）は、ガウス分布のｉ番目の要素固有のヤコビ行列を表す。観測信号を表すガウス混合分布の分散の値も、同様の方法で計算することができる。

クリーン音声状態事後確率推定部１４は、雑音推定の初期値とクリーン音声を表すガウス混合分布の平均値とを用い、上式のように観測信号特徴量を表すガウス混合分布の平均値を推定する。その後、クリーン音声状態事後確率推定部１４は、クリーン音声を表すガウス分布の各要素に関する事後確率と雑音の平均値とを再推定する。クリーン音声状態事後確率推定部１４は、これらの処理を適切な回数反復し、最終的なクリーン音声状態事後確率を得る。

クリーン音声状態事後確率を得ることができると、クリーン音声特徴量出力部１５は、例えば、Jinyu Li ; Michael L. Seltzer ; Yifan Gong, “Improvements to VTS feature enhancement”， in Proceedings of ICASSP, pp. 4677-4680, Aug. 2012.中の式１１や式１４のような形でクリーン音声特徴量の最適推定値を得ることができる。

このように、本実施の形態では、ニューラルネットワークによって推定されたクリーン音声特徴量の分布を用いて、観測信号を構成するのに尤もらしいクリーン音声推定値を最適推定するため、より精度の高いクリーン音声推定値を得ることができる。

［テスト処理の処理手順］
次に、信号処理装置１０によるテスト処理の処理手順について説明する。図５は、図１に示す信号処理装置１０によるテスト処理の処理手順を示すフローチャートである。

図５に示すように、特徴量計算部１１は、観測信号の入力を受け付けると（ステップＳ１）、入力を受付けた観測信号から、観測信号特徴量を計算する（ステップＳ２）。そして、ニューラルネットワーク型クリーン音声特徴量分布推定部１２は、学習済みのニューラルネットワークを用いて、観測信号特徴量に対応するクリーン音声特徴量の確率分布を推定して（ステップＳ３）、クリーン音声状態事後確率推定部１４に出力する。

そして、クリーン音声状態事後確率推定部１４は、観測信号の特徴量を用いて、雑音や残響の特徴量の分布を推定する（ステップＳ４）。その後、クリーン音声状態事後確率推定部１４は、時変のガウス混合分布で表されたクリーン音声特徴量の分布と雑音や残響の特徴量の分布の推定値とを用いて、クリーン音声状態事後確率を推定する（ステップＳ５）。

そして、クリーン音声特徴量出力部１５は、クリーン音声特徴量の分布とクリーン音声状態事後確率と観測信号特徴量とを基に、クリーン音声特徴量の最適推定値を計算し（ステップＳ６）、推定したクリーン音声特徴量を出力する（ステップＳ７）。

［学習処理の処理手順］
次に、信号処理装置１０による学習処理の処理手順について説明する。図６は、図１に示す信号処理装置１０による学習処理の処理手順を示すフローチャートである。

図６に示すように、特徴量計算部１１は、まず、１組目のクリーン音声と観測信号との組の入力を受け付けると（ステップＳ１１，ステップＳ１２）、観測信号及びクリーン音声の特徴量をそれぞれ計算する（ステップＳ１３，ステップＳ１４）。

そして、ニューラルネットワーク型クリーン音声特徴量分布推定部１２では、入力された観測信号の特徴量を、ニューラルネットワークにおいて、例えば、ガウス混合分布パラメータへと変換する（ステップＳ１５）。続いて、尤度計算部１３は、ニューラルネットワーク型クリーン音声特徴量分布推定部１２が変換したガウス混合分布パラメータと、特徴量計算部１１が出力したクリーン音声特徴量とを基に、尤度計算を行う（ステップＳ１６）。ニューラルネットワーク型クリーン音声特徴量分布推定部１２では、尤度計算の結果に応じて、ニューラルネットワークのパラメータ更新が行なわれる（ステップＳ１７）。

そして、信号処理装置１０は、学習処理の終了条件か否かを判断する（ステップＳ１８）。信号処理装置１０は、終了条件でないと判断した場合には（ステップＳ１８：Ｎｏ）、次の組の信号を処理する（ステップＳ１９）ため、ステップＳ１１，ステップＳ１２に戻り、次の組の観測信号とクリーン音声信号との入力を受付ける。一方、信号処理装置１０は、終了条件であると判断した場合には（ステップＳ１８：Ｙｅｓ）、学習処理を終了する。

［評価実験］
本実施の形態に係る信号処理装置１０の音声強調の性能を評価する目的で、次に示す評価実験を行った。実験のために、雑音下音声コーパスAurora4を用いた。Aurora4には種々の雑音を含んだ学習データが用意されているため、その全データについて観測信号特徴量と、観測信号特徴量に対応するクリーン音声特徴量をあらかじめ算出し、それを学習データセットとしてニューラルネットワークのパラメータを最適化した。最適化には、ニューラルネットワークのパラメータ最適化方法として広く用いられている確率的勾配法を用いる誤差逆伝搬法を適用した（例えば、C. Bishop, “Mixture density networks”, Ph.D. thesis, Aston University, Tech. Rep. NCRG/94/004, 1994.参照）。

また、ニューラルネットワークの形状は全結合型、再起型、双方向再起型ニューラルネットワークなど如何なるものでも構わないが、ここでは全結合型を用いた。学習データを用いてパラメータを最適化した後は、Aurora4のテストデータ（学習データとは異なる雑音、発話者を含む）を用いて手法の評価を行った。また、本評価では、図９で示す信号処理装置１０Ｐと、本実施の形態に係る信号処理装置１０とを比較した。

図７は、対数スペクトル距離を用いた評価の結果を示す図である。図７の（ａ）は、未処理のものに対応し、図７の（ｂ）は、従来の信号処理装置１０Ｐの処理結果に対応し、図７の（ｃ）は、信号処理装置１０の処理結果に対応する。この対数スペクトル距離は、クリーン音声と評価対象の音声の距離を示しており、低い値であるほど手法の性能が良いことを示している。

したがって、図７に示すように、本実施の形態に係る信号処理装置１０によれば、従来の信号処理装置１０Ｐよりも、平均的に低い対数スペクトル距離となっている。このため、本実施の形態によれば、従来と比較して、高精度の特徴量強調が可能であることが確認できた。

［実施の形態の効果］
このように、本実施の形態に係る信号処理装置１０は、観測信号とクリーン音声信号との複数の組を用いて、適切なクリーン音声特徴量分布を出力するようにニューラルネットワークに学習させることによって、観測信号と、それを構成し得るクリーン音声と雑音及び残響との組が一対多である対応関係を適切にモデル化している。そして、本実施の形態に係る信号処理装置１０は、ニューラルネットワークにおいて推定されたクリーン音声特徴量の分布を用いて、観測信号を構成するのに尤もらしいクリーン音声推定値を最適推定するため、より精度の高いクリーン音声推定値を得ることができる。したがって、本実施の形態によれば、観測信号と、それを構成し得るクリーン音声と雑音及び残響との組が一対多である対応関係を適切に扱い、正確にクリーン音声特徴量を取得することができる。

［実施の形態のシステム構成について］
図１に示した信号処理装置１０の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、信号処理装置１０の機能の分散および統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散または統合して構成することができる。

また、信号処理装置１０において行われる各処理は、全部または任意の一部が、ＣＰＵ（Central Processing Unit）およびＣＰＵにより解析実行されるプログラムにて実現されてもよい。また、信号処理装置１０において行われる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。

また、実施の形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的に行うこともできる。もしくは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上述および図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。

［プログラム］
図８は、プログラムが実行されることにより、信号処理装置１０が実現されるコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１及びＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、信号処理装置１０の各処理を規定するプログラムは、コンピュータ１０００により実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、信号処理装置１０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid State Drive）により代替されてもよい。

また、上述した実施の形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ、ＷＡＮ等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

以上、本発明者によってなされた発明を適用した実施の形態について説明したが、本実施の形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施の形態に基づいて当業者等によりなされる他の実施の形態、実施例及び運用技術等は全て本発明の範疇に含まれる。

１０，１０Ｐ信号処理装置
１１特徴量計算部
１１Ｐ観測信号特徴量計算部
１２ニューラルネットワーク型クリーン音声特徴量分布推定部
１２Ｐニューラルネットワーク型クリーン音声特徴量推定部
１３尤度計算部
１４クリーン音声状態事後確率推定部
１５クリーン音声特徴量出力部

Claims

入力を受け付けた観測信号から観測信号特徴量を計算する特徴量計算部と、
前記観測信号特徴量を基にニューラルネットワークを用いてクリーン音声特徴量の分布を推定するクリーン音声特徴量分布推定部と、
前記クリーン音声特徴量分布推定部が推定したクリーン音声特徴量の分布と、前記特徴量計算部が計算した観測信号特徴量とを基に、前記観測信号に含まれるクリーン音声特徴量が前記クリーン音声特徴量の分布のどの状態を取り得る確率が高いかを示す値であるクリーン音声状態事後確率を推定する事後確率推定部と、
前記クリーン音声状態事後確率と前記観測信号特徴量とを基に、前記クリーン音声特徴量の最適推定値を計算するクリーン音声特徴量計算部と、
を有することを特徴とする信号処理装置。
前記クリーン音声特徴量の分布は、時変のガウス分布或いはガウス混合分布で表されることを特徴とする請求項１に記載の信号処理装置。
音声信号を処理する信号処理装置が実行する信号処理方法であって、
入力を受け付けた観測信号から観測信号特徴量を計算する工程と、
前記観測信号特徴量を基にニューラルネットワークを用いてクリーン音声特徴量の分布を推定する工程と、
前記クリーン音声特徴量の分布と前記観測信号特徴量とを基に、前記観測信号に含まれるクリーン音声特徴量が前記クリーン音声特徴量の分布のどの状態を取り得る確率が高いかを示す値であるクリーン音声状態事後確率を推定する工程と、
前記クリーン音声状態事後確率と、前記観測信号特徴量とを基に、前記クリーン音声特徴量の最適推定値を計算する工程と、
を含んだことを特徴とする信号処理方法。
前記クリーン音声特徴量の分布は、時変のガウス分布或いはガウス混合分布で表されることを特徴とする請求項３に記載の信号処理方法。
コンピュータを、請求項１または２に記載の信号処理装置として機能させるための信号処理プログラム。