JP6673861B2 - 信号処理装置、信号処理方法及び信号処理プログラム - Google Patents

信号処理装置、信号処理方法及び信号処理プログラム Download PDF

Info

Publication number
JP6673861B2
JP6673861B2 JP2017039719A JP2017039719A JP6673861B2 JP 6673861 B2 JP6673861 B2 JP 6673861B2 JP 2017039719 A JP2017039719 A JP 2017039719A JP 2017039719 A JP2017039719 A JP 2017039719A JP 6673861 B2 JP6673861 B2 JP 6673861B2
Authority
JP
Japan
Prior art keywords
distribution
clean speech
signal
feature
signal processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017039719A
Other languages
English (en)
Other versions
JP2018146683A (ja
Inventor
慶介 木下
慶介 木下
中谷 智広
智広 中谷
小川 厚徳
厚徳 小川
マーク デルクロア
マーク デルクロア
卓哉 樋口
卓哉 樋口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017039719A priority Critical patent/JP6673861B2/ja
Publication of JP2018146683A publication Critical patent/JP2018146683A/ja
Application granted granted Critical
Publication of JP6673861B2 publication Critical patent/JP6673861B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、信号処理装置、信号処理方法及び信号処理プログラムに関する。
実環境でマイクロホンを用いて音声を収音すると、一般的に、目的音声信号だけでなく、種々の音響歪み(雑音や残響)が目的音声に重畳した信号が観測される。これらの雑音や残響は目的音声の明瞭度や聞き取りやすさを大きく低下させてしまう要因である。また、収録音にこれらの音響歪みが含まれていると音声認識精度が大きく低下することも知られている。
そこで、観測音声信号からこれらの音響歪みを除去する技術がある。この観測音声信号からこれらの音響歪みを除去する技術は、様々な音響信号処理システムの要素技術として用いることが可能である。例えば、観測音声信号からこれらの音響歪みを除去する技術は、実環境下で収音された音から目的信号を抽出して聞き取り易さを向上させる補聴システム或いは音編集システムなどに利用することができる。また、観測音声信号からこれらの音響歪みを除去する技術は、実環境下で収音された音声を精度良く認識する音声認識システムに利用することもできる。さらに、近年では、ニューラルネットワークを用いてクリーン音声特徴量を推定する特徴量強調技術が提案されている(例えば、非特許文献1参照)。
A. L. Maas, Q. V. Le, T. M. O’Neil, O. Vinyals, P. Nguyen, and A. Y. Ng, "Recurrent Neural Networks for Noise Reduction in Robust ASR," in Interspech, 2012.
ここで、非特許文献1記載の信号処理装置について説明する。図9は、従来の信号処理装置の構成の一例を示す図である。図9に示すように、従来の信号処理装置10Pは、入力を受け付けた観測信号から観測信号特徴量を計算する観測信号特徴量計算部11Pと、ニューラルネットワークを用いてクリーン音声特徴量を推定するニューラルネットワーク型クリーン音声特徴量推定部12Pとを有する。
信号処理装置10Pは、まず、学習時には、予め用意された学習データ、すなわち雑音や残響が含まれる観測信号の特徴量とクリーン音声特徴量とが対となったデータを用いて、観測信号とクリーン音声信号との一対一の対応関係をニューラルネットワークにより学習する。そして、信号処理装置10Pは、テスト時には、学習済みのニューラルネットワークに観測信号の特徴量を入力し、出力としてクリーン音声の特徴量を得ることで、特徴量強調を達成する。この方法は、様々な環境で頑健に動作することが知られている。すなわち、信号処理装置10Pは、効果的に動作することが知られている。
しかしながら、一般的に、観測信号とクリーン音声信号との対応関係は一対一ではない。このため、信号処理装置10Pの処理の前提には、誤りが含まれている。すなわち、特徴量強調の問題は一般的には不良設定問題であり、ある観測信号が与えられた時、その観測信号を構成する音声と雑音及び残響との組は、原理的には無数に存在する。例えば、音量Aの音声と音量Bの白色雑音とを混ぜ合わせた時に観測される観測信号特徴量と、音量Aよりも小さい音声と音量Bよりも大きな白色雑音とを混ぜ合わせた時に観測される信号の特徴量は全く同じ値を取り得る。
前述したように、従来の信号処理装置10Pでは、ある観測信号が与えられた際には、一意にクリーン音声が定まることを明に仮定し、その対応関係を学習している。しかしながら、ある観測信号と、それを構成し得るクリーン音声と雑音及び残響との組の対応関係は、一対一ではなく、一対多の対応関係である。したがって、信号処理を行う場合には、観測信号と、それを構成するクリーン音声と雑音及び残響との組が一対多となるように、適切に扱うべきである。このため、従来の技術では、処理の前提に誤りが含まれるため、従来技術を用いた場合、必ずしも最適な特徴量強調を実現できるとは限らないという問題があった。
本発明は、上記に鑑みてなされたものであって、前述の一対多の対応関係を適切に扱い、正確にクリーン音声特徴量を取得することができる信号処理装置、信号処理方法及び信号処理プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明に係る信号処理装置は、入力を受け付けた観測信号から観測信号特徴量を計算する特徴量計算部と、観測信号特徴量を基にニューラルネットワークを用いてクリーン音声特徴量の分布を推定するクリーン音声特徴量分布推定部と、クリーン音声特徴量の分布と観測信号特徴量とを基に、クリーン音声特徴量の最適推定値を計算するクリーン音声特徴量計算部と、を有することを特徴とする。
本発明によれば、観測信号と、それを構成し得るクリーン音声と雑音及び残響との組が一対多である対応関係を適切に扱い、正確にクリーン音声特徴量を取得することができる。
図1は、実施の形態に係る信号処理装置の構成の一例を説明する図である。 図2は、図1に示す信号処理装置による学習処理の流れを説明する図である。 図3は、ニューラルネットワークを用いたクリーン音声特徴量を表すガウス分布の推定処理を説明する図である。 図4は、図1に示す信号処理装置によるテスト処理の流れを説明する図である。 図5は、図1に示す信号処理装置によるテスト処理の処理手順を示すフローチャートである。 図6は、図1に示す信号処理装置による学習処理の処理手順を示すフローチャートである。 図7は、対数スペクトル距離を用いた評価の結果を示す図である。 図8は、プログラムが実行されることにより、信号処理装置が実現されるコンピュータの一例を示す図である。 図9は、従来の信号処理装置の構成の一例を示す図である。
以下、図面を参照して、本発明の一実施の形態を詳細に説明する。なお、この実施の形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
[実施の形態]
実施の形態に係る信号処理装置について、信号処理装置全体の概略構成、信号処理装置による信号処理方法を説明する。
[信号処理装置の構成]
そこで、図1を参照して、実施の形態に係る信号処理装置の構成について説明する。図1は、実施の形態に係る信号処理装置の構成の一例を説明する図である。図1に示すように、本実施の形態に係る信号処理装置10は、特徴量計算部11、ニューラルネットワーク型クリーン音声特徴量分布推定部12(クリーン音声特徴量分布推定部)、尤度計算部13、クリーン音声状態事後確率推定部14及びクリーン音声特徴量出力部15(クリーン音声特徴量計算部)を有する。信号処理装置10の処理は、観測信号に対するクリーン音声推定値を計算するテスト処理と、ニューラルネットワークの学習処理とに分かれている。
特徴量計算部11は、入力を受付けた音声信号から、音声特徴量を計算する。特徴量計算部11には、テスト時には、クリーン音声推定対象の観測信号が入力される。また、特徴量計算部11は、学習時には、クリーン音声と雑音及び残響を含む観測信号との組が複数入力される。特徴量計算部11は、窓関数等を用いて観測信号を、例えば、30ms程度の短時間フレームに分割する。そして、特徴量計算部11は、分割した各短時間フレームにフーリエ変換を施し、フーリエ変換後の信号の絶対値の二乗の対数を取った対数スペクトルに対して、メルフィルタバンクの処理を施し、線形周波数からメル周波数形式へ変換する。
ニューラルネットワーク型クリーン音声特徴量分布推定部12は、学習時には、ニューラルネットワークが適切なクリーン音声特徴量分布を出力するように学習を行う。そして、ニューラルネットワーク型クリーン音声特徴量分布推定部12は、テスト時には、学習済みのニューラルネットワークを用いて、観測信号特徴量に対応するクリーン音声特徴量の分布を推定して、クリーン音声状態事後確率推定部14に出力する。クリーン音声特徴量の分布は、時変のガウス分布或いはガウス混合分布で表される。これは音声の特徴量はガウス分布で精度良くモデル化できることが知られているためである。尤度計算部13は、学習時において、クリーン音声に対する観測信号の尤度を計算する。
クリーン音声状態事後確率推定部14は、ニューラルネットワーク型クリーン音声特徴量分布推定部12が推定したクリーン音声特徴量の分布と、特徴量計算部11が計算した観測信号特徴量とを基に、観測信号に含まれるクリーン音声特徴量が、クリーン音声特徴量の分布のどの状態を取り得る確率が高いかを示す値であるクリーン音声状態事後確率を推定する。まず、クリーン音声状態事後確率推定部14は、観測信号の特徴量を用いて、雑音や残響の特徴量の分布を推定する。そして、クリーン音声状態事後確率推定部14は、時変のガウス混合分布で表されたクリーン音声特徴量の分布と雑音や残響の特徴量の分布の推定値とを基に、観測信号の特徴量に関する分布を、VTS(Vector Taylor Series)近似を用いて推定し、時変のガウス混合分布の各要素に関するクリーン音声状態事後確率を取得する。
クリーン音声特徴量出力部15は、クリーン音声状態事後確率推定部14が推定したクリーン音声状態事後確率と、特徴量計算部11が計算した観測信号特徴量と、ニューラルネットワーク型クリーン音声特徴量分布推定部12が計算したクリーン音声特徴量分布とを基に、クリーン音声特徴量の最適推定値を計算する。
このように、信号処理装置10は、学習済みのニューラルネットワークを用いて、クリーン音声特徴量そのものではなく、クリーン音声特徴量の確率分布を推定することによって、観測信号とクリーン音声信号とにおける一対多の対応関係を適切に扱い、正確なクリーン音声特徴量を取得する。
[学習処理の流れ]
信号処理装置10では、観測信号とクリーン音声信号との複数の組ごとに、ニューラルネットワークが学習を行っている。そして、信号処理装置10では、観測信号とクリーン音声信号との複数の組を用いて、適切なクリーン音声特徴量分布を出力するようにニューラルネットワークに学習させることによって、観測信号とクリーン音声信号との一対多の対応関係を適切にモデル化している。言い換えると、観測信号とクリーン音声の一対一対応関係を仮定してクリーン音声の特徴量そのものをニューラルネットワークで推定する従来法とは異なり、本実施の形態では、クリーン音声特徴量の分布をニューラルネットワークで推定することによって、一対多の対応関係を適切にモデル化している。
そこで、信号処理装置10による学習処理の流れについて説明する。図2は、図1に示す信号処理装置10による学習処理の流れを説明する図である。説明のため、図2は、信号処理装置10の要部を示す。そして、図2では、クリーン音声特徴量の分布として、ガウス混合分布を用いた場合を例に説明を行う。なお、ある入力が与えられた際に、ニューラルネットワークを用いて出力値に関する分布をガウス混合分布の形で推定する一般的な方法は、既存の技術を用いることができる(例えば、C. Bishop, “Mixture density networks”, Ph.D. thesis, Aston University, Tech. Rep. NCRG/94/004, 1994.参照)。
学習処理では、まず、特徴量計算部11が、入力された観測信号を30ms程度の短時間フレームに分割し、分割した各短時間フレームのデータを一般的な音声特徴抽出の処理過程を用いて、各フレームに対応する観測信号特徴量yに変換する。特徴量計算部11は、観測信号特徴量yをニューラルネットワーク型クリーン音声特徴量分布推定部12に入力する。また、特徴量計算部11は、この観測信号と対になるクリーン音声についても同様に、短時間フレームに分割し、分割した各短時間フレームのデータを、各フレームに対応するクリーン信号特徴量sに変換する。特徴量計算部11は、クリーン信号特徴量sを尤度計算部13に入力する。
図3は、ニューラルネットワークを用いたクリーン音声特徴量を表すガウス分布の推定処理を説明する図である。図3に示すように、ニューラルネットワーク型クリーン音声特徴量分布推定部12は、観測信号特徴量yを、ニューラルネットワークを通じて、以下の(1)式及び(2)式に示す変数zに変換する。図3では、簡単のため、ガウス混合分布の混合数を2とした例を示している。
Figure 0006673861
Figure 0006673861
この(1)式及び(2)式における添え字tは、短時間フレームインデックスを表す。そして、(1)式及び(2)式におけるベクトルzは、ガウス混合モデルの平均値を構成するためのニューラルネットワーク出力zt,m (μ)、ガウス混合モデルの分散を構成するためのニューラルネットワーク出力zt,m (σ)、及び、ガウス混合モデルの混合重みを構成するためのニューラルネットワーク出力zt,m (α)を含む、ニューラルネットワークからの出力ベクトルである。これらのネットワーク出力は、以下の(3)〜(5)式に示す変換を経て、ガウス混合分布パラメータへと変換される。
Figure 0006673861
Figure 0006673861
Figure 0006673861
そして、図2に示すように、ニューラルネットワーク型クリーン音声特徴量分布推定部12は、学習時において、これらのパラメータが構成するガウス混合分布が、観測信号特徴量yに対応するクリーン音声特徴量sを最もよく表すように、ニューラルネットワークに学習させる。
具体的には、尤度計算部13は、ニューラルネットワーク型クリーン音声特徴量分布推定部12が出力したガウス混合分布パラメータと、特徴量計算部11が出力したクリーン音声特徴量sとを基に、以下の(6)式に示す尤度p(s|y)を計算する。なお、(6)式中のφ(s|y)は、(7)式で示される。
Figure 0006673861
Figure 0006673861
ニューラルネットワーク型クリーン音声特徴量分布推定部12では、尤度計算部13によって計算された尤度が入力され、これに応じて、ニューラルネットワークのパラメータ更新が行なわれる。このような処理を繰り返すことによって、ニューラルネットワーク型クリーン音声特徴量分布推定部12では、クリーン音声信号に対する尤度p(s|y)が最大化されるように、ニューラルネットワークのパラメータが学習される。
そして、ニューラルネットワーク型クリーン音声特徴量分布推定部12において、ニューラルネットワークのパラメータの更新は、所定の終了条件に達するまで繰り返される。終了条件は、例えば、1000組の観測信号とクリーン音声信号とがある場合には、この1000組の観測信号とクリーン音声信号とに対して、パラメータ更新を1000回行うことである。或いは、終了条件は、1000組の観測信号とクリーン音声信号とに対して、パラメータ更新を1000回行った後に、改めて同じ1000組の観測信号とクリーン音声信号とに対して、1000回のパラメータ更新を行うことである。
このように、信号処理装置10では、観測信号とクリーン音声信号との複数の組を用いて、適切なクリーン音声特徴量分布を出力するようにニューラルネットワークに学習させることによって、観測信号とクリーン音声信号との一対多の対応関係を適切にモデル化している。そして、信号処理装置10では、テスト処理時に、このニューラルネットワークを用いて、テスト対象の観測信号特徴量について、クリーン音声特徴量の分布を推定することによって、クリーン音声特徴量の最適推定を行っている。
[テスト処理の流れ]
そこで、信号処理装置10によるテスト処理の流れについて説明する。信号処理装置10は、テスト処理時には、ニューラルネットワークを用いて、観測信号特徴量に基づきクリーン音声分布の推定を毎フレームごとに行い、その後、クリーン音声特徴量の最適推定を行う。クリーン音声特徴量を表す分布の形状としては、クリーン音声特徴量を適切に表現できるものであれば、どのような分布でも構わない。
図4は、図1に示す信号処理装置10によるテスト処理の流れを説明する図である。図4は、説明のため、信号処理装置10の要部を示す。まず、特徴量計算部11が、入力された観測信号を30ms程度の短時間フレームに分割し、分割した各短時間フレームのデータを一般的な音声特徴抽出の処理過程(後述)を用いて、各フレームtに対応する観測信号特徴量yに変換する。
そして、ニューラルネットワーク型クリーン音声特徴量分布推定部12では、学習したニューラルネットワークを用いて、クリーン音声特徴量の分布をフレームtごとに推定する。続いて、クリーン音声状態事後確率推定部14では、観測信号に含まれるクリーン音声特徴量が、クリーン音声特徴量の分布のどの状態を取り得る確率が高いかを示す値であるクリーン音声状態事後確率を推定する。その後、クリーン音声特徴量出力部15は、このクリーン音声状態事後確率と観測信号特徴量とを用いて最適なクリーン音声推定値を推定する。
本実施の形態では、クリーン音声特徴量を表すガウス混合分布を基に、最終的なクリーン音声特徴量を最尤推定の枠組みで推定する方法を一例として説明する。ここで、従来技術として、クリーン音声の分布を表す時不変ガウス混合分布を基に、観測信号特徴量の分布を推定し、その分布を用いてクリーン音声状態事後確率を推定する手法が提案されている(詳細は、P. J. Moreno, B. Raj, and R. M. Stern, “A Vector Taylor Series Approach for Environment-independent Speech Recognition,” in Proceedings of International Conference on Acoustics, Speech and Signal Processing (ICASSP), 1996, pp.733−736.参照)。
この従来技術とは異なり、本実施の形態では、フレームtごとに異なるガウス混合分布が推定されるため、フレームtごとに以下の(8)式及び(9)式を用いて、観測信号特徴量を表すガウス混合分布の平均を合成、推定する。
Figure 0006673861
Figure 0006673861
ここで、(8)式及び(9)式に示すμ(y)は、ニューラルネットワークにより推定されたガウス分布のi番目の要素の平均ベクトルを表し、μ(n,0)は、雑音を表すガウス分布の平均値の初期値を表し、μ(n,l)は、反復推定l回目の推定値を表す。そして、(8)式に示すH(μ(n,l)−μ(n,0))は、ガウス分布のi番目の要素固有のヤコビ行列を表す。観測信号を表すガウス混合分布の分散の値も、同様の方法で計算することができる。
クリーン音声状態事後確率推定部14は、雑音推定の初期値とクリーン音声を表すガウス混合分布の平均値とを用い、上式のように観測信号特徴量を表すガウス混合分布の平均値を推定する。その後、クリーン音声状態事後確率推定部14は、クリーン音声を表すガウス分布の各要素に関する事後確率と雑音の平均値とを再推定する。クリーン音声状態事後確率推定部14は、これらの処理を適切な回数反復し、最終的なクリーン音声状態事後確率を得る。
クリーン音声状態事後確率を得ることができると、クリーン音声特徴量出力部15は、例えば、Jinyu Li ; Michael L. Seltzer ; Yifan Gong, “Improvements to VTS feature enhancement”, in Proceedings of ICASSP, pp. 4677-4680, Aug. 2012.中の式11や式14のような形でクリーン音声特徴量の最適推定値を得ることができる。
このように、本実施の形態では、ニューラルネットワークによって推定されたクリーン音声特徴量の分布を用いて、観測信号を構成するのに尤もらしいクリーン音声推定値を最適推定するため、より精度の高いクリーン音声推定値を得ることができる。
[テスト処理の処理手順]
次に、信号処理装置10によるテスト処理の処理手順について説明する。図5は、図1に示す信号処理装置10によるテスト処理の処理手順を示すフローチャートである。
図5に示すように、特徴量計算部11は、観測信号の入力を受け付けると(ステップS1)、入力を受付けた観測信号から、観測信号特徴量を計算する(ステップS2)。そして、ニューラルネットワーク型クリーン音声特徴量分布推定部12は、学習済みのニューラルネットワークを用いて、観測信号特徴量に対応するクリーン音声特徴量の確率分布を推定して(ステップS3)、クリーン音声状態事後確率推定部14に出力する。
そして、クリーン音声状態事後確率推定部14は、観測信号の特徴量を用いて、雑音や残響の特徴量の分布を推定する(ステップS4)。その後、クリーン音声状態事後確率推定部14は、時変のガウス混合分布で表されたクリーン音声特徴量の分布と雑音や残響の特徴量の分布の推定値とを用いて、クリーン音声状態事後確率を推定する(ステップS5)。
そして、クリーン音声特徴量出力部15は、クリーン音声特徴量の分布とクリーン音声状態事後確率と観測信号特徴量とを基に、クリーン音声特徴量の最適推定値を計算し(ステップS6)、推定したクリーン音声特徴量を出力する(ステップS7)。
[学習処理の処理手順]
次に、信号処理装置10による学習処理の処理手順について説明する。図6は、図1に示す信号処理装置10による学習処理の処理手順を示すフローチャートである。
図6に示すように、特徴量計算部11は、まず、1組目のクリーン音声と観測信号との組の入力を受け付けると(ステップS11,ステップS12)、観測信号及びクリーン音声の特徴量をそれぞれ計算する(ステップS13,ステップS14)。
そして、ニューラルネットワーク型クリーン音声特徴量分布推定部12では、入力された観測信号の特徴量を、ニューラルネットワークにおいて、例えば、ガウス混合分布パラメータへと変換する(ステップS15)。続いて、尤度計算部13は、ニューラルネットワーク型クリーン音声特徴量分布推定部12が変換したガウス混合分布パラメータと、特徴量計算部11が出力したクリーン音声特徴量とを基に、尤度計算を行う(ステップS16)。ニューラルネットワーク型クリーン音声特徴量分布推定部12では、尤度計算の結果に応じて、ニューラルネットワークのパラメータ更新が行なわれる(ステップS17)。
そして、信号処理装置10は、学習処理の終了条件か否かを判断する(ステップS18)。信号処理装置10は、終了条件でないと判断した場合には(ステップS18:No)、次の組の信号を処理する(ステップS19)ため、ステップS11,ステップS12に戻り、次の組の観測信号とクリーン音声信号との入力を受付ける。一方、信号処理装置10は、終了条件であると判断した場合には(ステップS18:Yes)、学習処理を終了する。
[評価実験]
本実施の形態に係る信号処理装置10の音声強調の性能を評価する目的で、次に示す評価実験を行った。実験のために、雑音下音声コーパスAurora4を用いた。Aurora4には種々の雑音を含んだ学習データが用意されているため、その全データについて観測信号特徴量と、観測信号特徴量に対応するクリーン音声特徴量をあらかじめ算出し、それを学習データセットとしてニューラルネットワークのパラメータを最適化した。最適化には、ニューラルネットワークのパラメータ最適化方法として広く用いられている確率的勾配法を用いる誤差逆伝搬法を適用した(例えば、C. Bishop, “Mixture density networks”, Ph.D. thesis, Aston University, Tech. Rep. NCRG/94/004, 1994.参照)。
また、ニューラルネットワークの形状は全結合型、再起型、双方向再起型ニューラルネットワークなど如何なるものでも構わないが、ここでは全結合型を用いた。学習データを用いてパラメータを最適化した後は、Aurora4のテストデータ(学習データとは異なる雑音、発話者を含む)を用いて手法の評価を行った。また、本評価では、図9で示す信号処理装置10Pと、本実施の形態に係る信号処理装置10とを比較した。
図7は、対数スペクトル距離を用いた評価の結果を示す図である。図7の(a)は、未処理のものに対応し、図7の(b)は、従来の信号処理装置10Pの処理結果に対応し、図7の(c)は、信号処理装置10の処理結果に対応する。この対数スペクトル距離は、クリーン音声と評価対象の音声の距離を示しており、低い値であるほど手法の性能が良いことを示している。
したがって、図7に示すように、本実施の形態に係る信号処理装置10によれば、従来の信号処理装置10Pよりも、平均的に低い対数スペクトル距離となっている。このため、本実施の形態によれば、従来と比較して、高精度の特徴量強調が可能であることが確認できた。
[実施の形態の効果]
このように、本実施の形態に係る信号処理装置10は、観測信号とクリーン音声信号との複数の組を用いて、適切なクリーン音声特徴量分布を出力するようにニューラルネットワークに学習させることによって、観測信号と、それを構成し得るクリーン音声と雑音及び残響との組が一対多である対応関係を適切にモデル化している。そして、本実施の形態に係る信号処理装置10は、ニューラルネットワークにおいて推定されたクリーン音声特徴量の分布を用いて、観測信号を構成するのに尤もらしいクリーン音声推定値を最適推定するため、より精度の高いクリーン音声推定値を得ることができる。したがって、本実施の形態によれば、観測信号と、それを構成し得るクリーン音声と雑音及び残響との組が一対多である対応関係を適切に扱い、正確にクリーン音声特徴量を取得することができる。
[実施の形態のシステム構成について]
図1に示した信号処理装置10の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、信号処理装置10の機能の分散および統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散または統合して構成することができる。
また、信号処理装置10において行われる各処理は、全部または任意の一部が、CPU(Central Processing Unit)およびCPUにより解析実行されるプログラムにて実現されてもよい。また、信号処理装置10において行われる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。
また、実施の形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的に行うこともできる。もしくは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上述および図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。
[プログラム]
図8は、プログラムが実行されることにより、信号処理装置10が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、信号処理装置10の各処理を規定するプログラムは、コンピュータ1000により実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、信号処理装置10における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
また、上述した実施の形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN、WAN等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
以上、本発明者によってなされた発明を適用した実施の形態について説明したが、本実施の形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施の形態に基づいて当業者等によりなされる他の実施の形態、実施例及び運用技術等は全て本発明の範疇に含まれる。
10,10P 信号処理装置
11 特徴量計算部
11P 観測信号特徴量計算部
12 ニューラルネットワーク型クリーン音声特徴量分布推定部
12P ニューラルネットワーク型クリーン音声特徴量推定部
13 尤度計算部
14 クリーン音声状態事後確率推定部
15 クリーン音声特徴量出力部

Claims (5)

  1. 入力を受け付けた観測信号から観測信号特徴量を計算する特徴量計算部と、
    前記観測信号特徴量を基にニューラルネットワークを用いてクリーン音声特徴量の分布を推定するクリーン音声特徴量分布推定部と、
    前記クリーン音声特徴量分布推定部が推定したクリーン音声特徴量の分布と、前記特徴量計算部が計算した観測信号特徴量とを基に、前記観測信号に含まれるクリーン音声特徴量が前記クリーン音声特徴量の分布のどの状態を取り得る確率が高いかを示す値であるクリーン音声状態事後確率を推定する事後確率推定部と、
    前記クリーン音声状態事後確率と前記観測信号特徴量とを基に、前記クリーン音声特徴量の最適推定値を計算するクリーン音声特徴量計算部と、
    を有することを特徴とする信号処理装置。
  2. 前記クリーン音声特徴量の分布は、時変のガウス分布或いはガウス混合分布で表されることを特徴とする請求項1に記載の信号処理装置。
  3. 音声信号を処理する信号処理装置が実行する信号処理方法であって、
    入力を受け付けた観測信号から観測信号特徴量を計算する工程と、
    前記観測信号特徴量を基にニューラルネットワークを用いてクリーン音声特徴量の分布を推定する工程と、
    前記クリーン音声特徴量の分布と前記観測信号特徴量とを基に、前記観測信号に含まれるクリーン音声特徴量が前記クリーン音声特徴量の分布のどの状態を取り得る確率が高いかを示す値であるクリーン音声状態事後確率を推定する工程と、
    前記クリーン音声状態事後確率と、前記観測信号特徴量とを基に、前記クリーン音声特徴量の最適推定値を計算する工程と、
    を含んだことを特徴とする信号処理方法。
  4. 前記クリーン音声特徴量の分布は、時変のガウス分布或いはガウス混合分布で表されることを特徴とする請求項に記載の信号処理方法。
  5. コンピュータを、請求項1または2に記載の信号処理装置として機能させるための信号処理プログラム。
JP2017039719A 2017-03-02 2017-03-02 信号処理装置、信号処理方法及び信号処理プログラム Active JP6673861B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017039719A JP6673861B2 (ja) 2017-03-02 2017-03-02 信号処理装置、信号処理方法及び信号処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017039719A JP6673861B2 (ja) 2017-03-02 2017-03-02 信号処理装置、信号処理方法及び信号処理プログラム

Publications (2)

Publication Number Publication Date
JP2018146683A JP2018146683A (ja) 2018-09-20
JP6673861B2 true JP6673861B2 (ja) 2020-03-25

Family

ID=63590008

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017039719A Active JP6673861B2 (ja) 2017-03-02 2017-03-02 信号処理装置、信号処理方法及び信号処理プログラム

Country Status (1)

Country Link
JP (1) JP6673861B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112022002371T5 (de) 2021-04-30 2024-04-04 Sony Group Corporation Datenverarbeitungsvorrichtung, datenverarbeitungsverfahren, datenverarbeitungssystem und programm

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7620546B2 (en) * 2004-03-23 2009-11-17 Qnx Software Systems (Wavemakers), Inc. Isolating speech signals utilizing neural networks
JP5438703B2 (ja) * 2011-02-22 2014-03-12 日本電信電話株式会社 特徴量強調装置、特徴量強調方法、及びそのプログラム
JP6367773B2 (ja) * 2015-08-12 2018-08-01 日本電信電話株式会社 音声強調装置、音声強調方法及び音声強調プログラム
JP6499095B2 (ja) * 2016-01-29 2019-04-10 日本電信電話株式会社 信号処理方法、信号処理装置及び信号処理プログラム

Also Published As

Publication number Publication date
JP2018146683A (ja) 2018-09-20

Similar Documents

Publication Publication Date Title
CN110600017B (zh) 语音处理模型的训练方法、语音识别方法、***及装置
CN111161752B (zh) 回声消除方法和装置
KR101153093B1 (ko) 다감각 음성 향상을 위한 방법 및 장치
JP6243858B2 (ja) 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム
CN107393550B (zh) 语音处理方法及装置
CN108922544B (zh) 通用向量训练方法、语音聚类方法、装置、设备及介质
JP4316583B2 (ja) 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
CN108922543B (zh) 模型库建立方法、语音识别方法、装置、设备及介质
WO2018223727A1 (zh) 识别声纹的方法、装置、设备及介质
JPWO2009133719A1 (ja) 音響モデル学習装置および音声認識装置
CN109065022B (zh) i-vector向量提取方法、说话人识别方法、装置、设备及介质
JP6748304B2 (ja) ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム
BR112021012308A2 (pt) Aparelho e método para separação de fonte com o uso de uma estimativa e controle de qualidade de som
JP2013037174A (ja) 雑音/残響除去装置とその方法とプログラム
CN110797033A (zh) 基于人工智能的声音识别方法、及其相关设备
WO2023116660A2 (zh) 一种模型训练以及音色转换方法、装置、设备及介质
KR102026226B1 (ko) 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템
Poorjam et al. A parametric approach for classification of distortions in pathological voices
JP6673861B2 (ja) 信号処理装置、信号処理方法及び信号処理プログラム
CN111128222A (zh) 语音分离方法、语音分离模型训练方法和计算机可读介质
JP2008209445A (ja) 残響除去装置、残響除去方法、残響除去プログラム、記録媒体
JP4729534B2 (ja) 残響除去装置、残響除去方法、残響除去プログラム、および、その記録媒体
JP6734237B2 (ja) 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム
WO2020015546A1 (zh) 一种远场语音识别方法、语音识别模型训练方法和服务器
JP2017134321A (ja) 信号処理方法、信号処理装置及び信号処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191224

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200303

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200305

R150 Certificate of patent or registration of utility model

Ref document number: 6673861

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150