JP5670298B2

JP5670298B2 - 雑音抑圧装置、方法及びプログラム

Info

Publication number: JP5670298B2
Application number: JP2011261767A
Authority: JP
Inventors: 雅清藤本; 渡部　晋治; 晋治渡部; 中谷　智広; 智広中谷
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2011-11-30
Filing date: 2011-11-30
Publication date: 2015-02-18
Anticipated expiration: 2031-11-30
Also published as: JP2013114151A

Description

本発明は入力音響信号に含まれる雑音信号を抑圧して所望の信号を抽出するための雑音抑圧技術に関する。

処理対象とする音声信号と、音声信号以外の信号（以下「雑音信号」という）とを含む音響信号から音声信号を聞き取りやすくするために雑音信号を抑制する従来技術が知られている。特に、自動音声認識技術を実際の環境で利用する場合においては、正しく音声認識を行うために、音響信号から雑音信号を取り除き所望の音声信号のみを抽出する必要がある。自動音声認識の実際の環境での利用は今後の情報化社会の中で大きく期待されており、早急に解決されるべき問題である。雑音抑圧に係る従来技術として非特許文献１及び２が知られている。

非特許文献１には、以下の雑音抑圧方法が開示されている。音響信号を入力とし、予め推定した音声信号及び雑音信号それぞれの確率モデルから音響信号の確率モデルを生成する。その際、音響信号の確率モデルを構成する音声信号及び雑音信号それぞれの確率モデルと、音響信号に含まれる音声信号及び雑音信号それぞれの統計量との差分をテイラー級数近似で表現する。ＥＭアルゴリズム（以下「期待値最大化法」ともいう）を用いてその差分を推定し、音響信号の確率モデルを最適化する。その後、最適化された音響信号の確率モデルと音声信号の確率モデルのパラメータを用いて雑音を抑圧する。

非特許文献２には、以下の雑音抑圧方法が開示されている。音響信号を入力とし、統計的な性質が多峰的な分布に従う雑音信号に対処するため、音響信号から雑音信号のみを推定する。推定した雑音信号を用いて、多峰的な分布に従う雑音信号の確率モデルをＥＭアルゴリズムにより推定する。その後、予め推定しておいた音声信号の確率モデルと、推定した雑音信号の確率モデルとから、音響信号の最適な確率モデルを生成する。そして、最適化された音響信号の確率モデルと音声信号の確率モデルのパラメータを用いて雑音を抑圧する。

P. J. Moreno, B. Raj, and R. M. Stern, "A vector Taylorseries approach for environment-independent speech recognition", in Proceedings of ICASSP '96, May 1996, vol. II, pp. 733-736 藤本雅清、中谷智広、渡部晋治、「雑音モデルの頑健なオンライン推定法に基づく雑音抑圧の検討」、電子情報通信学会技術研究報告、２０１１年５月、ＳＰ-２０１１−２、ｐｐ.７−１２

非特許文献１は音響信号に含まれる雑音信号の特徴が定常的であり、その分布（頻度分布もしくは確率分布）が単峰性であるという前提のもとで雑音抑圧を行う技術である。しかし、実環境における雑音信号の特徴は非定常的であり、その分布は多峰性であることが多い。そのため、非特許文献１記載の技術では、非定常的な雑音信号に対応できず、十分な雑音抑圧性能が得られない。また、音響信号に含まれる音声信号と雑音信号との関係が非線形関数により表現されるため、テイラー級数近似を用いても音声信号及び雑音信号それぞれの確率モデルのパラメータ推定の際に解析解が得られない。そのため、非特許文献１記載の技術では音声信号及び雑音信号それぞれの確率モデルパラメータの最適解が得られず、十分な雑音抑圧性能が得られない。

非特許文献２では、音響信号から雑音信号のみを抽出し、抽出された雑音信号のみを用いて多峰的な分布に従う雑音信号の確率モデルを推定する方法が開示されている。そのため、非特許文献２記載の技術では、非定常的な雑音信号に対応することが可能となっている。しかし、非特許文献２記載の技術には以下の問題が存在する。音響信号から雑音信号のみを抽出する際には、音声信号の確率モデルが必要となる。一般に、音声信号の確率モデルは、多数話者の学習用音声データを用いて学習され、これは話者独立モデルと呼ばれる。しかし、音声信号の統計的な性質は話者によって大きく異なるので、十分な雑音抑圧性能を得るためには、音声信号の確率モデルとして話者独立モデルではなく、特定話者の学習用音声データを用いて学習された話者依存モデルか、もしくは話者独立モデルを特定話者の統計量に適応させた話者依存モデルを用いる必要がある。しかしながら、非特許文献２記載の技術では、このような話者依存モデルについて考慮されておらず、十分な雑音抑圧性能が得られない。

また、雑音信号の確率モデルを推定し、話者独立モデルを特定話者の音声信号の統計量に適応させるためには、それぞれ雑音信号及び音声信号のみの学習データが必要となるが、通常、雑音抑圧を行う際に観測可能な信号は、雑音信号と音声信号が混合された信号のみであり、雑音信号及び音声信号のみを単独で観測することは不可能である。このため、非特許文献１では、音響信号から雑音信号もしくは音声信号のみが存在する時間区間を推定し、雑音信号もしくは音声信号のみの学習データを得ていた。しかしながら、このような方法では、音声信号が存在する時間区間における雑音信号、もしくは雑音信号が存在する時間区間における音声信号を学習データとして利用することができない。そのため、当該区間で発生した雑音信号及び音声信号の変化や特徴を、雑音信号の確率モデル及び話者依存モデルに反映することができない。よって、非特許文献１では雑音信号の多峰的な分布を正確に推定し、話者独立モデルを特定話者の音声信号の統計量に適応させることが困難となる。一方、非特許文献２では前述の通り話者依存モデルについて考慮されていない。

本発明は、音響信号に含まれる雑音信号及び音声信号を推定し、音声信号の存在有無に関わらず雑音信号を学習データとして利用して雑音信号の確率モデルに反映し、かつ雑音信号の存在有無にかかわらず音声信号を学習データとして利用して、話者独立モデルを特定話者の音声信号の統計量に適応させるためのパラメータである話者適応パラメータに反映し、多峰的な分布に基づく雑音信号の確率モデルと話者適応処理により得られた話者依存モデルとを用いて、音響信号から雑音信号を効果的に抑圧することができる雑音抑圧技術を提供することを目的とする。

上記の課題を解決するために、本発明の第一の態様によれば、雑音信号と音声信号とを含む音響信号から雑音信号を抑圧する。音響信号の音響特徴を抽出する。雑音信号が多峰的な分布に従う非定常な雑音に基づく信号であると定義し、雑音を含まない、多数話者の音声信号を学習データとして学習された話者独立の音声信号の確率モデルである話者独立音声モデルを音響信号に含まれる音声信号の話者に適応させるための話者適応パラメータと、雑音信号の確率モデルである雑音モデルと、話者独立音声モデルとを用いて、音響信号の確率モデルである第一確率モデルを生成する。第一確率モデルと音響信号の音響特徴とに基づいて、雑音信号を推定し、推定した雑音信号を学習データとして雑音モデルを教師無し学習する。音響信号の音響特徴と話者独立音声モデルと雑音モデルとを用いて、音響信号に含まれる音声信号を推定し、推定した音声信号を学習データとして、話者適応パラメータを教師無し推定する。音響信号の音響特徴と話者独立音声モデルと雑音モデルと話者適応パラメータとを用いて音響信号に含まれる雑音信号を抑圧する。

本発明に係る雑音抑圧技術は、音響信号に含まれる雑音信号及び音声信号を推定し、推定した雑音信号を利用して多峰的な雑音信号の確率モデルを推定し、推定した音声信号を利用して話者適応パラメータを推定することで、様々な雑音が存在する環境であっても音響信号から雑音信号を効果的に抑圧して目的とする音声信号を取り出すことができるという効果を奏する。

第一実施形態の雑音抑圧装置の機能ブロック図。第一実施形態の雑音抑圧装置の処理フローを示す図。音響特徴量抽出部の処理フローを示す図。パラメータ推定部の機能ブロック図。パラメータ推定部の処理フローを示す図。雑音モデル推定部の機能ブロック図。雑音モデル推定部の処理フローを示す図。話者適応パラメータ推定部の機能ブロック図。話者適応パラメータ推定部の処理フローを示す図。雑音抑圧部の機能ブロック図。雑音抑圧フィルタ推定手段の処理フローを示す図。雑音抑圧フィルタ適用手段の処理フローを示す図。第一実施形態の雑音抑圧装置のシミュレーション結果を示す図。

以下、図面を参照しつつ、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同一の機能を持つ構成部や同一の処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「＾」、「⁻」等は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りがない限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。

＜第一実施形態＞
本実施形態においては、多峰的な分布に基づく雑音信号の確率モデル及び話者依存モデルとして、混合正規分布（Gaussian Mixture Model、以下「ＧＭＭ」ともいう）を採用する。

図１に示すように雑音抑圧装置１００は、音響特徴抽出部１０４と、話者独立音声モデルを構成する無音ＧＭＭとクリーン音声ＧＭＭとが格納されるＧＭＭ記憶部１０７と、パラメータ推定部１０５と、雑音抑圧部１０６とを含む。雑音抑圧装置１００は、音声信号ｓ_τと雑音信号ｎ_τとが混合された音響信号ｏ_τを収録し、または、入力され、音響信号ｏ_τから雑音信号ｎ_τを抑圧した雑音抑圧信号＾ｓ_τを出力する。但し、τは離散信号のサンプル点を表す。以下、本実施形態の概要を説明する。

図２に示すように音響特徴抽出部１０４は音響信号ｏ_τから雑音抑圧を実施するための特徴量である複素数スペクトルＳｐｃ_ｔと対数メルスペクトルＯ_ｔとを抽出する（ｓ１０４）。

パラメータ推定部１０５は対数メルスペクトルＯ_ｔと、ＧＭＭ記憶部１０７で主記憶上に保持された話者独立（Speaker Independent、以下「ＳＩ」という）の音声信号の確率モデル（以下「ＳＩ音声モデル」という）であるＳＩＧＭＭのパラメータセットλ_ＳＩを用いて、雑音信号の確率モデル（以下「雑音モデル」という）である雑音ＧＭＭのパラメータセットλ_Ｎと、ＳＩＧＭＭを音響信号ｏ_τに含まれる音声信号ｓ_τの話者に適応させるための話者適応パラメータｂとを推定する（ｓ１０５）。

雑音抑圧部１０６は、複素数スペクトルＳｐｃ_ｔと対数メルスペクトルＯ_ｔとＳＩＧＭＭのパラメータセットλ_ＳＩと雑音ＧＭＭのパラメータセットλ_Ｎと話者適応パラメータｂとを用いて雑音抑圧フィルタを設計し、音響信号ｏ_τから雑音信号ｎ_τを抑圧して雑音抑圧信号＾ｓ_τを得る（ｓ１０６）。以下、各部の詳細を説明する。

＜音響特徴抽出部１０４＞
音響特徴抽出部１０４は、音響信号ｏ_τを受け取り、音響信号ｏ_τの音響特徴を抽出し（ｓ１０４）、パラメータ推定部１０５と雑音抑圧部１０６とに出力する。抽出する音響特徴は、音響信号から雑音信号を抑圧する際に用いるものであり、例えば、複素数スペクトルと対数メルスペクトルである。音響特徴抽出部１０４は、例えば、図３に示す流れで処理を行う。

まず、ある周波数（例えば１６，０００Ｈｚ）で標本化された音響信号ｏ_τを時間軸方向に一定時間幅（シフト幅）で始点を移動させながら、一定時間長（フレーム幅）の音響信号をフレームとして切り出す（ｓ２０１）。例えばフレーム幅Ｆｒａｍｅ＝３２０個のサンプル点（１６，０００Ｈｚ×２０ｍｓ）の音響信号ｏ_ｔ＝｛ｏ_ｔ，０，ｏ_ｔ，１，…，ｏ_ｔ，ｎ，…，ｏ_{ｔ，Ｆｒａｍｅ−１}｝を、シフト幅Ｓｈｉｆｔ＝１６０個のサンプル点（１６，０００Ｈｚ×１０ｍｓ）ずつ始点を移動させながら切り出す。ここでｔはフレーム番号、ｎはフレーム内のｎ番目のサンプル点を表す。なお、複数チャネルの音響信号を入力とする場合には、チャネル毎にフレームを切り出せばよい。また、フレームを切り出す際に、例えば以下のハミング窓のような窓関数ｗ_ｎを掛け合わせて切り出してもよい。

次に、音響特徴抽出部１０４は音響信号ｏ_ｔ，ｎに対してＭ点の高速フーリエ変換処理を適用して、複素数スペクトルＳｐｃ_ｔ＝｛Ｓｐｃ_ｔ，０，…，Ｓｐｃ_ｔ，ｍ，…，Ｓｐｃ_{ｔ，Ｍ−１}｝を得る（ｓ２０２）。但し、Ｍは２のべき乗、かつフレーム幅Ｆｒａｍｅ以上の値を設定する必要があり、例えば５１２とする。またｍは周波数ビンの番号である。

次に、音響特徴抽出部１０４は、Ｓｐｃ_ｔ，ｍの絶対値に対してメルフィルタバンク分析を行い（ｓ２０３）、フィルタバンクの出力に対し、対数化処理を適用する（ｓ２０４）。このような処理により、Ｒ次元（例えばＲ＝２４）の対数メルスペクトルを要素に持つベクトル（以下、このベクトルを単に「対数メルスペクトル」という）Ｏ_ｔ＝｛Ｏ_ｔ，０，…，Ｏ_ｔ，ｒ，…，Ｏ_{ｔ，Ｒ−１}｝を算出する。但しｒはベクトルの要素番号を示す。すなわち、音響特徴抽出部１０４の出力は複素数スペクトルＳｐｃ_ｔと対数メルスペクトルＯ_ｔである。複素数スペクトルＳｐｃ_ｔは、雑音抑圧部１０６の入力となり、対数メルスペクトルＯ_ｔは、パラメータ推定部１０５と、雑音抑圧部１０６との入力となる。

＜ＧＭＭ記憶部１０７＞
図示しない記憶部には、雑音を含まない、多数話者の音声信号を学習データとして学習されたＳＩＧＭＭが予め記憶される。ＳＩＧＭＭは無音ＧＭＭとクリーン音声ＧＭＭとからなる。なお、無音ＧＭＭは雑音信号を含まない音声信号の無音部分より取得した音響信号に基づき学習されたＧＭＭであり、クリーン音声ＧＭＭは雑音のない環境において無音部分を除く音声のみからなる音響信号に基づき学習されたＧＭＭである。
ＳＩＧＭＭは次式により与えられる。

但し、ｊは無音ＧＭＭと、クリーン音声ＧＭＭとを識別するインデックスであり、ｊ＝０は無音ＧＭＭを、ｊ＝１はクリーン音声ＧＭＭを示す。また、ｋは無音ＧＭＭもしくはクリーン音声ＧＭＭに含まれる正規分布の番号、Ｋは総正規分布数である（例えばＫ＝１２８）。また、Ｓ_ｔは雑音を含まない、音声信号の対数メルスペクトルであり、ｂ_ＳＩ，ｊ（Ｓ_ｔ）はＳＩＧＭＭの尤度である。ｗ_{ＳＩ，ｊ，ｋ}とμ_{ＳＩ，ｊ，ｋ}とΣ_{ＳＩ，ｊ，ｋ}とはそれぞれＳＩＧＭＭの混合重みと平均ベクトルと対角分散行列であり、多数話者の学習用音声データを用いて事前に推定しておく。なお、ＳＩＧＭＭのパラメータセット（以下「ＳＩモデルパラメータセット」ともいう）をλ_ＳＩ＝｛ｗ_{ＳＩ，ｊ，ｋ}，μ_{ＳＩ，ｊ，ｋ}，Σ_{ＳＩ，ｊ，ｋ}｝と定義する。下付添え字ＳＩは、ＳＩＧＭＭに係る尤度やパラメータであることを示している。関数Ｎ（・）は、次式で与えられる多次元正規分布の確率密度関数である。

上式において「^Ｔ」は転置を表す。
以下、本実施形態で用いる話者依存モデルである話者依存ＧＭＭ（Speaker Dependent GMM、以下「ＳＤＧＭＭ」という）と雑音モデルである雑音ＧＭＭについて概略を説明する。ＳＤＧＭＭは、特定話者の学習用音声データから推定されたパラメータから構成されるＧＭＭである。前述の通り、話者依存モデルとして、特定話者の学習用音声データを用いて学習されたモデルか、もしくは話者独立モデルを特定話者の統計量に適応させたモデルがある。特定話者の学習用音声データのみからＳＤＧＭＭを得ることは、実用上、現実的ではないため、本実施形態では、ＳＩＧＭＭに対して話者適応処理を施しＳＤＧＭＭを得る。すなわち、次式の話者適応処理によりＳＩＧＭＭの平均ベクトルμ_{ＳＩ，ｊ，ｋ}をＳＤＧＭＭの平均ベクトルμ_{ＳＤ，ｊ，ｋ}に変換する。

上式においてｂはＲ次元ベクトルで構成される話者適応パラメータであり、ｊ、ｋに対して独立のパラメータとする。なお、下付添え字ＳＤはＳＤＧＭＭに係る尤度やパラメータであることを示している。
また、雑音ＧＭＭは次式により与えられる。

上式においてｌ（エル）は雑音ＧＭＭに含まれる正規分布の番号、Ｌは総正規分布数である（例えばＬ＝４）。また、Ｎ_ｔは雑音信号の対数メルスペクトルであり、ｂ_Ｎ（Ｎ_ｔ）は雑音ＧＭＭの尤度である。ｗ_Ｎ，ｌとμ_Ｎ，ｌとΣ_Ｎ，ｌとはそれぞれ雑音ＧＭＭの混合重みと平均ベクトルと対角分散行列である。以後、雑音ＧＭＭのパラメータセット（以下「雑音モデルパラメータセット」ともいう）をλ_Ｎ＝｛ｗ_Ｎ，ｌ，μ_Ｎ，ｌ，Σ_Ｎ，ｌ｝と定義する。なお、下付添え字Ｎは、雑音ＧＭＭに係る尤度やパラメータであることを示している。

非特許文献１では、雑音信号の特徴が定常的かつ、その分布が単峰性であるという前提のもとで雑音抑圧を行っている。一方、本実施形態では、雑音信号が、多峰的な分布に従う非定常な雑音に基づく信号であると定義し、雑音モデルを単一の正規分布ではなく、ＧＭＭにて表現している。なお、後述のパラメータ推定部１０５において、雑音モデルを教師無し学習する。

また、非特許文献２では、話者依存モデルを用いない。一方、本実施形態では、ＳＩＧＭＭに対して話者適応処理を施しＳＤＧＭＭを得て、雑音抑圧において話者依存モデルを用いる。なお、後述のパラメータ推定部１０５において、適応パラメータを推定する。

＜パラメータ推定部１０５＞
パラメータ推定部１０５は対数メルスペクトルＯ_ｔとＳＩモデルパラメータセットλ_ＳＩとを受け取り、これらの値を用いて、雑音モデルパラメータセットλ_Ｎと話者適応パラメータｂとを最適推定し（ｓ１０５）、雑音抑圧部１０６に出力する。

パラメータ推定部１０５において，雑音モデルパラメータセットλ_Ｎと話者適応パラメータｂは、入れ子構造となった３種類のＥＭアルゴリズムにより推定する。以後、第一ＥＭアルゴリズム、第２ＥＭアルゴリズム及び第３ＥＭアルゴリズムと呼ぶ。ＥＭアルゴリズムは、ある確率モデルのパラメータ推定に利用される方法であり、確率モデルのコスト関数（対数尤度関数）の期待値を計算するExpectation-step（Ｅ-ｓｔｅｐ）と、コスト関数を最大化するMaximization-step（Ｍ-ｓｔｅｐ）とを収束条件を満たすまで繰り返すことによりパラメータを最適推定する。

パラメータ推定部１０５は、第一初期値推定手段３０２と第一確率モデル生成手段３０３と第一期待値計算手段３０４と雑音モデル推定手段３０５と話者適応パラメータ推定手段３０６と第一収束判定手段３０７とを含む(図４参照)。図５を用いてパラメータ推定部１０５の処理フローを説明する。

（第一初期値推定手段３０２）
第一初期値推定手段３０２は第一ＥＭアルゴリズムの繰り返しインデックスｉを初期化する（ｓ３０１）。例えばｉ＝１とする。さらに、第一初期値推定手段３０２は音響信号ｏ_ｔの対数メルスペクトルＯ_ｔを受け取り、この値を用いて第一ＥＭアルゴリズムにおける雑音モデルパラメータセットλ_Ｎの初期値λ_Ｎ ^{（ｉ＝０）}＝｛ｗ_Ｎ，ｌ ^{（ｉ＝０）}，μ_Ｎ，ｌ ^{（ｉ＝０）}，Σ_Ｎ，ｌ ^{（ｉ＝０）}｝を以下の式（６）〜（８）により推定し、話者適応パラメータｂの初期値を以下の式（９）により設定し（ｓ３０２）、第一確率モデル生成手段３０３に出力する。

上式において、⁻０は全ての要素が０のベクトル、Ｕは初期値推定に要するフレーム数である（例えばＵ＝１０）。ｄｉａｇはかっこ内を要素とする対角行列を、上付添え字（ｉ）は第一ＥＭアルゴリズムにおける、ｉ回目の繰り返し推定におけるパラメータであることを示す。

（第一確率モデル生成手段３０３）
第一確率モデル生成手段３０３は、ｉ−１回目の繰り返し推定における雑音モデルパラメータセットλ^{（ｉ−１）} _Ｎと話者適応パラメータｂ^{（ｉ−１）}とを後述する第一収束判定手段３０７から受け取る。但し、ｉ−１回目の雑音モデルパラメータセットλ_Ｎ ^{（ｉ−１）}及び話者適応パラメータｂ^{（ｉ−１）}が存在しない場合、つまり、０回目の場合、前述の初期値λ_Ｎ ^{（ｉ＝０）}及びｂ^{（ｉ＝０）}を第一初期値推定手段３０２から受け取る。さらに第一確率モデル生成手段３０３は、ＳＩモデルパラメータセットλ_ＳＩを受け取り、これらの値を利用して、音響信号ｏ_ｔの対数メルスペクトルＯ_ｔの確率モデル（以下「第一確率モデル」という）を以下のようなＧＭＭで構成する。

上式においてｂ_Ｏ１，ｊ（Ｏ_ｔ）は対数メルスペクトルＯ_ｔの確率モデルの尤度であり、関数Ｎ（・）は式（３）で与えられ、ｗ_{Ｏ１，ｊ，ｋ，ｌ} ^（ｉ）とμ_{Ｏ１，ｊ，ｋ，ｌ} ^（ｉ）とΣ_{Ｏ１，ｊ，ｋ，ｌ} ^（ｉ）とは、ｉ−１回目の繰り返し推定における雑音モデルパラメータセットλ_Ｎ ^{（ｉ−１）}と話者適応パラメータｂ^{（ｉ−１）}とＳＩモデルパラメータセットλ_ＳＩとから生成された、対数メルスペクトルＯ_ｔの確率モデルの混合重みと平均ベクトルと対角分散行列とであり、以下の式（１１）〜（１３）で与えられる。

上式において関数ｌｏｇ（・）とｅｘｐ（・）は、ベクトルの要素ｒ毎に演算を行う。また、⁻１は全ての要素が１のベクトル、Ｉは単位行列、Ｈ_{ｊ，ｋ，ｌ} ^（ｉ）は関数ｈ（・）のヤコビ行列である。

第一確率モデルのパラメータセット（以下「第一確率モデルパラメータセット」という）をλ_Ｏ１ ^（ｉ）＝｛ｗ_{Ｏ１，ｊ，ｋ，ｌ} ^（ｉ），μ_{Ｏ１，ｊ，ｋ，ｌ} ^（ｉ），Σ_{Ｏ１，ｊ，ｋ，ｌ} ^（ｉ）｝と定義する。

第一確率モデル生成手段３０３は、式（１１）〜（１３）に基づきλ_Ｏ１ ^（ｉ）を生成し（ｓ３０３）、第一期待値計算手段３０４と雑音モデル推定手段３０５とに出力する。
（第一期待値計算手段３０４）
第一期待値計算手段３０４は、第一確率モデルパラメータセットλ_Ｏ１ ^（ｉ）と音響信号ｏ_ｔの対数メルスペクトルＯ_ｔとを受け取り、ｉ回目の繰り返し推定における対数メルスペクトルＯ_ｔの確率モデルのコスト関数Ｑ_１（・）の期待値を次式により計算する（第一ＥＭアルゴリズムのＥ−ｓｔｅｐ）（ｓ３０４）。

上式において、Ｏ_{０：Ｔ−１}＝｛Ｏ_０，…，Ｏ_ｔ，…，Ｏ_Ｔ−１｝であり、Ｔは対数メルスペクトルＯ_ｔの総フレーム数であり、Ｐ_ｔ，ｊ ^（ｉ）は式（１６）で与えられるフレームｔにおけるＧＭＭ種別ｊに対する事後確率である。特にＰ_{ｔ，ｊ＝０} ^（ｉ）を音声非存在確率、Ｐ_{ｔ，ｊ＝１} ^（ｉ）を音声存在確率と定義する。Ｐ_{ｔ，ｊ，ｋ，ｌ} ^（ｉ）は式（１７）で与えられるフレームｔにおける正規分布番号ｋとｌとに対する事後確率である。λ_Ｏ１ ^（ｉ）＝｛ｗ_{Ｏ１，ｊ，ｋ，ｌ} ^（ｉ），μ_{Ｏ１，ｊ，ｋ，ｌ} ^（ｉ），Σ_{Ｏ１，ｊ，ｋ，ｌ} ^（ｉ）｝は式（１１）〜（１３）で与えられる。

第一期待値計算手段３０４は、求めた第一期待値Ｑ_１を第一収束判定手段３０７に、事後確率Ｐ_ｔ，ｊ ^（ｉ）、Ｐ_{ｔ，ｊ，ｋ，ｌ} ^（ｉ）を雑音モデル推定手段３０５に出力する。

なお、第一ＥＭアルゴリズムのＭ−ｓｔｅｐは、以下の雑音モデル推定手段３０５と話者適応パラメータ推定手段３０６における処理からなる。雑音モデル推定手段３０５内の雑音モデルパラメータ推定手段４０２において第二ＥＭアルゴリズムが実施され、話者適応パラメータ推定手段３０６内の話者適応パラメータ更新手段５０３において第三アルゴリズムが実施される。

（雑音モデル推定手段３０５）
雑音モデル推定手段３０５は、第一確率モデルパラメータセットλ_Ｏ１ ^（ｉ）と音響信号ｏ_ｔの対数メルスペクトルＯ_ｔと事後確率Ｐ_ｔ，ｊ ^（ｉ）、Ｐ_{ｔ，ｊ，ｋ，ｌ} ^（ｉ）を受け取り、これらの値を用いて、雑音信号の対数メルスペクトルＮ_ｔを推定し、推定した雑音信号＾Ｎ_ｔを学習データとして雑音モデルを教師無し学習し（ｓ３０５）、雑音モデルパラメータセットλ_Ｎ ^（ｉ）を話者適応パラメータ推定手段３０６と第一収束判定手段３０７とに出力する。雑音モデル推定手段３０５は、雑音信号推定手段４０１と雑音モデルパラメータ推定手段４０２とを備える（図６参照）。

［雑音信号推定手段４０１］
雑音信号推定手段４０１は、対数メルスペクトルＯ_ｔを用いて、雑音信号の対数メルスペクトルＮ_ｔを推定する（図７のｓ４０１）。例えば、雑音信号推定手段４０１は、事後確率Ｐ_ｔ，ｊ ^（ｉ）、Ｐ_{ｔ，ｊ，ｋ，ｌ} ^（ｉ）と、第一確率モデルパラメータセットλ_Ｏ１ ^（ｉ）（に含まれる平均ベクトルμ_{Ｏ１，ｊ＝１，ｋ，ｌ} ^（ｉ））と、対数メルスペクトルＯ_ｔと、ｉ−１回目の繰り返し推定における雑音モデルパラメータセットλ_Ｎ ^{（ｉ−１）}（に含まれる平均ベクトルμ_Ｎ ^{（ｉ−１）}）とを受け取り、これらの値を用いて、雑音モデルパラメータセットλ_Ｎ ^{（ｉ−１）}を更新するために用いる雑音信号の対数メルスペクトルＮ_ｔ ^（ｉ）を推定し、推定値＾Ｎ_ｔ ^（ｉ）を雑音モデルパラメータ推定手段４０２に出力する。雑音の対数メルスペクトルＮ_ｔ ^（ｉ）は、次式により推定される。

［雑音モデルパラメータ推定手段４０２］
雑音モデルパラメータ推定手段４０２は、雑音信号の対数メルスペクトルの推定値＾Ｎ_ｔ ^（ｉ）を受け取り、これを学習データとして、雑音モデルパラメータセットλ_Ｎ ^（ｉ）を推定し（図７のｓ４０２〜ｓ４０７）、第一収束判定手段３０７と話者適応パラメータ推定手段３０６とに出力する。雑音モデルパラメータセットλ_Ｎ ^（ｉ）の具体的な推定方法（ｓ４０２〜ｓ４０７）については後述する。

（話者適応パラメータ推定手段３０６）
話者適応パラメータ推定手段３０６は、対数メルスペクトルＯ_ｔとＳＩモデルパラメータセットλ_ＳＩと雑音モデルパラメータセットλ_Ｎ ^（ｉ）とを受け取り、これらの値を用いて、音響信号ｏ_ｔに含まれる音声信号ｓ_ｔを推定し、推定した音声信号＾ｓ_ｔを学習データとして、話者適応パラメータｂ^（ｉ）を教師無し推定し（図５のｓ３０６）、第一収束判定手段３０７に出力する。

話者適応パラメータ推定手段３０６は、第二確率モデル生成手段５０１と音声信号推定手段５０２と話者適応パラメータ更新手段５０３とを備える（図８参照）。
［第二確率モデル生成手段５０１］
第二確率モデル生成手段５０１は、雑音モデルパラメータセットλ_Ｎ ^（ｉ）と話者適応パラメータｂ^{（ｉ−１）}とＳＩモデルパラメータセットλ_ＳＩとを受け取り、これらの値を利用して、対数メルスペクトルＯ_ｔの確率モデル（以下「第二確率モデル」という）を以下のようなＧＭＭで構成する。

上式において、ｂ_Ｏ２，ｊ（Ｏ_ｔ）は対数メルスペクトルＯ_ｔの確率モデルの尤度であり、関数Ｎ（・）は式（３）で与えられ、ｗ_{Ｏ２，ｊ，ｋ，ｌ} ^（ｉ）、μ_{Ｏ２，ｊ，ｋ，ｌ} ^（ｉ）、Σ_{Ｏ２，ｊ，ｋ，ｌ} ^（ｉ）は、それ第二確率モデルの混合重みと平均ベクトルと対角分散行列とであり、式（２０）〜（２２）で与えられる。

第二確率モデルのパラメータセット（以下「第二確率モデルパラメータセット」という）をλ_Ｏ２ ^（ｉ）＝｛ｗ_{Ｏ２，ｊ，ｋ，ｌ} ^（ｉ），μ_{Ｏ２，ｊ，ｋ，ｌ} ^（ｉ），Σ_{Ｏ２，ｊ，ｋ，ｌ} ^（ｉ）｝と定義する。
第二確率モデル生成手段５０１は、式（２０）〜（２２）に基づき第二確率モデルパラメータセットλ_Ｏ２ ^（ｉ）を生成し（図９のｓ５０１）、λ_Ｏ２ ^（ｉ）と対数メルスペクトルＯ_ｔとＳＩモデルパラメータセットλ_ＳＩとを音声信号推定手段５０２に出力する。

［音声信号推定手段５０２］
音声信号推定手段５０２は、対数メルスペクトルＯ_ｔとＳＩモデルパラメータセットλ_ＳＩ（に含まれる平均ベクトルμ_{ＳＩ，Ｊ，ｋ}）と第二確率モデルパラメータセットλ_Ｏ２ ^（ｉ）とｉ−１回目の繰り返し推定における話者適応パラメータｂ^{（ｉ−１）}とを受け取り、これらの値を用いて、話者適応パラメータｂ^（ｉ）を更新するために用いる、音響信号ｏ_ｔに含まれるクリーン音声の対数メルスペクトルＳ_ｔを次式により推定し（ｓ５０２）、推定値＾Ｓ_ｔ ^（ｉ）を話者適応パラメータ更新手段５０３に出力する。

なお、事後確率Ｐ_ｔ，ｊ ^（ｉ）、Ｐ_{ｔ，ｊ，ｋ，ｌ} ^（ｉ）は、第一確率モデルパラメータセットλ_Ｏ１ ^（ｉ）に代えて第二確率モデルパラメータセットλ_Ｏ２ ^（ｉ）を用いて、式（１６）、（１７）により与えられる。

［話者適応パラメータ更新手段５０３］
話者適応パラメータ更新手段５０３は、推定したクリーン音声の対数メルスペクトル＾Ｓ_ｔ ^（ｉ）とＳＩモデルパラメータセットλ_ＳＩとを受け取り、これらの値を用いて話者適応パラメータｂ^{（ｉ−１）}を更新し（図９のｓ５０３〜ｓ５０８）、第一収束判定手段３０７に出力する。話者適応パラメータｂ^（ｉ）の具体的な更新方法（ｓ５０３〜ｓ５０８）については後述する。

（第一収束判定手段３０７）
第一収束判定手段３０７は、第一期待値Ｑ_１を受け取り、この値を用いて収束条件を満たすか否かを判定し（図５のｓ３０７）、満たす場合はλ_Ｎ＝λ_Ｎ ^（ｉ）、ｂ＝ｂ^（ｉ）とし、λ_Ｎとｂを雑音抑圧部１０６に出力しパラメータ推定部１０５の処理を終了する。満たさない場合はλ_Ｎ ^（ｉ）とｂ^（ｉ）を第一確率モデル生成手段３０３に出力し、ｉ←ｉ＋１（ｓ３０８）として、繰り返し処理を行うように各部に制御信号を出力し、ｓ３０３〜ｓ３０６の処理を繰り返す。例えば、収束条件は、最新の第一期待値Ｑ_１（Ｏ_{０：Ｔ−１}，ｂ^（ｉ），λ_Ｎ ^（ｉ））と一つ前の第一期待値Ｑ_１（Ｏ_{０：Ｔ−１}，ｂ^{（ｉ−１）}，λ_Ｎ ^{（ｉ−１）}）との差が所定値η_１以下である場合や、繰り返し回数ｉが所定値Ｉ_１以上になった場合等とすることができる。例えば次式で表すことができる。

であり、例えば、η_１＝０．０００１、Ｉ_１＝１００である。
＜雑音モデルパラメータ推定手段４０２の詳細＞
雑音モデルパラメータ推定手段４０２は、第二初期値推定手段４０３と第二期待値計算手段４０４とパラメータ更新手段４０５と第二収束判定手段４０６とを含む（図６参照）。図７を用いて雑音モデルパラメータ推定手段４０２の処理内容を説明する。

（第二初期値推定手段４０３）
第二初期値推定手段４０３は、まず第二ＥＭアルゴリズムの繰り返し回数を示すインデックスｉ’を初期化する（ｓ４０２）。例えば、ｉ’＝１とする。次に第二初期値推定手段４０３は、推定した雑音信号の対数メルスペクトル＾Ｎ_ｔ ^（ｉ）を受け取り、この値を用いて、第二ＥＭアルゴリズムにおける雑音モデルパラメータセットλ_Ｎ ^（ｉ’）の初期値λ_Ｎ ^{（ｉ’＝０）}＝｛ｗ_Ｎ，ｌ ^{（ｉ’＝０）}，μ_Ｎ，ｌ ^{（ｉ’＝０）}，Σ_Ｎ，ｌ ^{（ｉ’＝０）}｝を式（２６）〜（３０）により推定し（ｓ４０３）、第二期待値計算手段４０４に出力する。

上式において、上付添え字（ｉ’）はｉ’回目の繰り返し推定におけるパラメータであることを示す。また、ＧａｕｓｓＲａｎｄ（ａ，ｂ）は平均ａ、分散ｂの正規乱数の発生器である。

（第二期待値計算手段４０４）
第二期待値計算手段４０４は、推定した雑音信号の対数メルスペクトル＾Ｎ_ｔ ^（ｉ）を雑音信号推定手段４０１から受け取る。また第二ＥＭアルゴリズムにおける雑音モデルパラメータセットλ_Ｎ ^{（ｉ’−１）}を第二収束判定手段４０６から受け取る。但し、ｉ’−１回目の雑音モデルパラメータセットλ_Ｎ ^{（ｉ’−１）}が存在しない場合、つまり、０回目の場合、前述の初期値λ_Ｎ ^{（ｉ’＝０）}を第二初期値推定手段４０３から受け取る。これらの値を用いて第二期待値計算手段４０４はｉ’回目の繰り返し推定における雑音ＧＭＭのコスト関数Ｑ_２（・）の期待値を式（３１）により計算し（第二ＥＭアルゴリズムのＥ−ｓｔｅｐ）（ｓ４０４）、第二収束判定手段４０６に出力する。

上式において、＾Ｎ_{０：Ｔ−１} ^（ｉ）＝｛＾Ｎ_０ ^（ｉ），…，＾Ｎ_ｔ ^（ｉ），…，＾Ｎ_Ｔ−１ ^（ｉ）｝であり、
関数Ｎ（・）は式（３）で与えられ、Ｐ_ｔ，ｌ ^（ｉ’）は次式で与えられるフレームｔにおける正規分布番号ｌに対する事後確率である。

第二期待値計算手段４０４は、求めたＰ_ｔ，ｌ ^（ｉ’）をパラメータ更新手段４０５に出力する。
（パラメータ更新手段４０５）
パラメータ更新手段４０５は、事後確率Ｐ_ｔ，ｌ ^（ｉ’）と対数メルスペクトル＾Ｎ_ｔ ^（ｉ）とを受け取り、雑音モデルパラメータセットλ_Ｎ ^{（ｉ’−１）}を次式により更新し（第二ＥＭアルゴリズムのＭ−ｓｔｅｐ）（ｓ４０５）、更新した雑音モデルパラメータセットλ_Ｎ ^（ｉ’）を第二収束判定手段４０６に出力する。

（第二収束判定手段４０６）
第二収束判定手段４０６は、第二期待値Ｑ_２を受け取り、この値を用いて収束条件を満たすか否かを判定し（ｓ４０６）、満たす場合はλ_Ｎ ^（ｉ）＝λ_Ｎ ^（ｉ’）としλ_Ｎ ^（ｉ）を、第一収束判定手段３０７と話者適応パラメータ更新手段５０３とに出力し雑音モデルパラメータ推定手段４０２の処理を終了する。満たさない場合はλ_Ｎ ^（ｉ’）を第二期待値計算手段４０４に出力し、ｉ’←ｉ’＋１（ｓ４０７）として、繰り返し処理を行うように各部に制御信号を出力し、ｓ４０４、ｓ４０５の処理を繰り返す。例えば、収束条件は、最新の第二期待値Ｑ_２（＾Ｎ_{０：Ｔ−１}，λ_Ｎ ^（ｉ’））と一つ前の第二期待値Ｑ_２（＾Ｎ_{０：Ｔ−１}，λ_Ｎ ^{（ｉ’−１）}）との差が所定値η_２以下である場合や、繰り返し回数ｉ’が所定値Ｉ_２以上になった場合等とすることができる。例えば以下の式で表すことができる。

であり、例えば、η_２＝０．０００１、Ｉ_２＝１００である。
＜話者適応パラメータ更新手段５０３の詳細＞
話者適応パラメータ更新手段５０３は、初期値設定手段５０４と第三期待値計算手段５０５と話者適応パラメータ算出手段５０６と第三収束判定手段５０７とを含む（図８参照）。

図９を用いて話者適応パラメータ更新手段５０３の処理内容を説明する。
（初期値設定手段５０４）
初期値設定手段５０４は、まず第三ＥＭアルゴリズムの繰り返し回数を示すインデックスｉ”を初期化する（ｓ５０３）。例えば、ｉ”＝１とする。次に初期値設定手段５０４は、第三ＥＭアルゴリズムにおける話者適応パラメータｂ^（ｉ”）の初期値ｂ^{（ｉ”＝０）}を次式により設定し（ｓ５０４）、第三期待値計算手段５０５に出力する。

上式において、上付添え字（ｉ”）は第三ＥＭアルゴリズムにおける、ｉ”回目の繰り返し推定におけるパラメータであることを示す。
（第三期待値計算手段５０５）
第三期待値計算手段５０５は、ＳＩモデルパラメータセットλ_ＳＩと推定したクリーン音声の対数メルスペクトル＾Ｓ_ｔ ^（ｉ）とを受け取る。また第三収束判定手段５０７からｉ”−１回目の話者適応パラメータｂ^{（ｉ”−１）}を受け取る。但し、ｉ”−１回目の話者適応パラメータｂ^{（ｉ”−１）}が存在しない場合、つまり、０回目の場合、前述の初期値ｂ^{（ｉ”＝０）}を初期値設定手段５０４から受け取る。これらの値を用いて第三期待値計算手段５０５はｉ”回目の繰り返し推定におけるＳＤＧＭＭのコスト関数Ｑ_３（・）の期待値を次式により計算し（第三ＥＭアルゴリズムのＥ−ｓｔｅｐ）（ｓ５０５）、第三収束判定手段５０７に出力する。

上式において、＾Ｓ_{０：Ｔ−１} ^（ｉ）＝｛＾Ｓ_０ ^（ｉ），…，＾Ｓ_ｔ ^（ｉ），…，＾Ｓ_Ｔ−１ ^（ｉ）｝であり、Ｐ_ｔ，ｊ ^（ｉ”）は以下の式（３９）で与えられるフレームｔにおけるＧＭＭ種別ｊに対する事後確率であり、Ｐ_{ｔ，ｊ，ｋ} ^（ｉ”）は以下の式（４０）で与えられるフレームｔにおける正規分布番号ｋに対する事後確率である。

第三期待値計算手段５０５は、求めた事後確率Ｐ_ｔ，ｊ ^（ｉ”）、Ｐ_{ｔ，ｊ，ｋ} ^（ｉ”）を話者適応パラメータ算出手段５０６に出力する。

（話者適応パラメータ算出手段５０６）
話者適応パラメータ算出手段５０６は、事後確率Ｐ_ｔ，ｊ ^（ｉ”）、Ｐ_{ｔ，ｊ，ｋ} ^（ｉ”）とＳＩモデルパラメータセットλ_ＳＩとクリーン音声の対数メルスペクトル＾Ｓ_ｔ ^（ｉ）とを受け取り、以下の式（４１）を用いて話者適応パラメータｂ^（ｉ”）を求め、これを新たな話者適応パラメータｂ^（ｉ”）として更新し（第三ＥＭアルゴリズムのＭ−ｓｔｅｐ）（ｓ５０６）、第三収束判定手段５０７に出力する。

（第三収束判定手段５０７）
第三収束判定手段５０７は、第三期待値Ｑ_３を受け取り、この値を用いて収束条件を満たすか否かを判定し（ｓ５０７）、満たす場合はｂ^（ｉ）＝ｂ^（ｉ”）としｂ^（ｉ）を第一収束判定手段３０７に出力し話者適応パラメータ更新手段５０３の処理を終了する。満たさない場合はｂ^（ｉ”）を第三期待値計算手段５０５に出力し、ｉ”←ｉ”＋１（ｓ５０８）として、繰り返し処理を行うように各部に制御信号を出力し、ｓ５０５、ｓ５０６の処理を繰り返す。例えば、収束条件は、最新の第三期待値Ｑ_３（＾Ｓ_{０：Ｔ−１} ^（ｉ），ｂ^（ｉ”））と一つ前の第三期待値Ｑ_３（＾Ｓ_{０：Ｔ−１} ^（ｉ），ｂ^{（ｉ”−１）}）との差が所定値η_３以下である場合や、繰り返し回数ｉ”が所定値Ｉ_３以上になった場合等とすることができる。例えば以下の式で表すことができる。

であり、例えば、η_３＝０．０００１、Ｉ_３＝１００である。よって、第三ＥＭアルゴリズムのＭ−ｓｔｅｐにおいて話者適応パラメータ算出手段５０６で最終的に算出した話者適応パラメータｂ^（ｉ）＝ｂ^（ｉ”）が、第一ＥＭアルゴリズムのｉ回目の繰り返しにおけるＳＤＧＭＭの尤度を最大とするものとなる。

＜雑音抑圧部１０６＞
雑音抑圧部１０６は、音響信号ｏ_ｔの音響特徴である対数メルスペクトルＯ_ｔとＳＩモデルパラメータセットλ_ＳＩと雑音モデルパラメータセットλ_Ｎと話者適応パラメータｂと受け取り、これらの値を用いて音響信号ｏ_ｔに含まれる雑音信号ｎ_ｔを抑圧し（ｓ１０６）、雑音抑圧信号＾ｓ_τを雑音抑圧装置１００の出力値として出力する。例えば、図１０に示すように雑音抑圧部１０６は、雑音抑圧フィルタ推定手段６０１と雑音抑圧フィルタ適用手段６０２を含む。雑音抑圧フィルタ推定手段６０１は音響信号の対数メルスペクトルＯ_ｔとＳＩモデルパラメータセットλ_ＳＩと雑音モデルパラメータセットλ_Ｎと話者適応パラメータｂとを受け取り、雑音抑圧フィルタＷ^Ｌｉｎ _ｔ，ｍを推定する。雑音抑圧フィルタ適用手段６０２は、複素数スペクトルＳｐｃ_ｔと雑音抑圧フィルタＷ^Ｌｉｎ _ｔ，ｍとを受け取り、雑音を抑圧して雑音抑圧信号＾ｓ_τを得る。以下、各手段の詳細を説明する。

（雑音抑圧フィルタ推定手段６０１）
雑音抑圧フィルタ推定手段６０１は図１１に示す流れで処理を行う。まず、雑音抑圧フィルタ推定手段６０１は、ＳＩモデルパラメータセットλ_ＳＩと雑音モデルパラメータセットλ_Ｎと話者適応パラメータｂを受け取り、これらの値を用いて、音響信号の対数メルスペクトルＯ_ｔの確率モデルである第三確率モデルのパラメータセット（以下「第三確率モデルパラメータセット」という）λ_Ｏ３＝｛ｗ_{Ｏ３，ｊ，ｋ，ｌ}，μ_{Ｏ３，ｊ，ｋ，ｌ}，Σ_{Ｏ３，ｊ，ｋ，ｌ}｝を以下のように生成する（ｓ６０１）。

上式において関数ｈ（・）、ｇ（・）は、式（１２）、（１３）により与えられる。

次に、雑音抑圧フィルタ推定手段６０１は、求めた第三確率モデルパラメータセットλ_Ｏ３と対数メルスペクトルＯ_ｔとを用いて、式（４８）、（４９）により事後確率Ｐ_ｔ，ｊ、Ｐ_{ｔ，ｊ，ｋ，ｌ}を計算する（ｓ６０２）。

次に、雑音抑圧フィルタ推定手段６０１は、ＳＩモデルパラメータセットλ_ＳＩと雑音モデルパラメータセットλ_Ｎと事後確率Ｐ_ｔ，ｊ、Ｐ_{ｔ，ｊ，ｋ，ｌ}とを用いて、メル周波数軸上での雑音抑圧フィルタＷ^Ｍｅｌ _ｔ，ｒを次式のように推定する（ｓ６０３）。

上式はベクトルの要素ｒ毎の表記である。

次に、雑音抑圧フィルタ推定手段６０１は、メル周波数軸上での雑音抑圧フィルタＷ^Ｍｅｌ _ｔ，ｒを線形周波数軸上での雑音抑圧フィルタＷ^Ｌｉｎ _ｔ，ｍに変換し（ｓ６０４）、雑音抑圧フィルタ適用手段６０２に出力する。なお、変換は３次スプライン補間をメル周波数軸に適用することにより、線形周波数軸上での雑音抑圧フィルタの値を推定することにより行う。
（雑音抑圧フィルタ適用手段６０２）
雑音抑圧フィルタ適用手段６０２は図１２に示す流れで処理を行う。雑音抑圧フィルタ適用手段６０２は、雑音抑圧フィルタＷ^Ｌｉｎ _ｔ，ｍと複素数スペクトルＳｐｃ_ｔとを受け取り、複素数スペクトルＳｐｃ_ｔに対して雑音抑圧フィルタＷ^Ｌｉｎ _ｔ，ｍを次式のように掛け合わせることにより雑音抑圧された複素数スペクトル＾Ｓ_ｔ，ｍを得る（ｓ７０１）。

上式はベクトルの要素ｍ毎の表記である。

次に、雑音抑圧フィルタ適用手段６０２は、複素数スペクトル＾Ｓ_ｔ，ｍに対して逆高速フーリエ変換を適用することにより、フレームｔにおける雑音抑圧信号＾ｓ_ｔ，ｎを得る（ｓ７０２）。

次に、雑音抑圧フィルタ適用手段６０２は、各フレームの雑音抑圧信号＾ｓ_ｔ，ｎを次式のように窓関数ｗ_ｎを解除しながら連結して連続した雑音抑圧信号＾ｓ_τを得て（ｓ７０３）、これを雑音抑圧装置１００の出力値として出力する。

＜効果＞
本実施形態では、多峰的な雑音信号の確率モデルのパラメータを推定する雑音信号モデルパラメータ推定手段と、話者独立の音声信号のモデルを話者依存の音声信号の確率モデルに適応させるためのパラメータを推定する話者適応パラメータ推定手段を具備し、それぞれを同時に実施しながらパラメータの更新を行う。このような構成により、話者の特徴を反映して、予め分かっていない非定常雑音をより高精度に抑圧することができる。また、信号に含まれる雑音信号が多峰性の分布に従う非定常雑音であっても、非線形問題を解くことなく確率モデルパラメータ（雑音モデルパラメータ及び話者適応パラメータ）を容易に最適化することができ、最適な雑音抑圧フィルタを設計し、高品質に目的音声信号を得ることができる。

なお、推定された雑音信号、及び音声信号には誤差が含まれる可能性があるが、雑音信号の確率モデルの推定、及び話者適応においては、学習データの統計的な性質を推定して処理を行っているため、誤差の問題は致命的な問題とならない。
＜その他の変形例＞
第一実施形態において、各部及び各手段が、図示しない記憶部に各信号や、処理途中の信号、各種パラメータ等が記憶し、記憶部を介して各データの読み書きを行ってもよい。

第一実施形態において、フレーム化処理（図３のｓ２０１）にて窓関数ｗ_ｎにはハミング窓以外に方形窓、ハニング窓、ブラックマン窓などの窓関数を利用してもよい。

第一実施形態において、音声信号の確率モデルとして、無音ＧＭＭ、クリーン音声ＧＭＭの代わりに、隠れマルコフモデル（Hidden Markov Model：ＨＭＭ）等の他の確率モデルを用いてもよい。

第一実施形態において、無音ＧＭＭ、クリーン音声ＧＭＭの２つのＧＭＭだけでなく、より多くのＧＭＭを用いてもよい。例えば、無音ＧＭＭ、無声音ＧＭＭ、有声音ＧＭＭや、音素毎のＧＭＭを用いてもよい。

第一実施形態において、雑音ＧＭＭの代わりに、雑音信号の確率モデルとしてＨＭＭ等の他の確率モデルを用いてもよい。

第一実施形態において、話者適応処理を次式のようなＲ×Ｒ次元のアフィン変換行列Ａを用いて実施してもよい。

第一実施形態において、話者適応処理を次式のようなＲ×Ｒ次元のアフィン変換行列Ａと、ベクトルｂを用いて実施してもよい。

第一実施形態において、話者適応処理のパラメータであるアフィン変換行列Ａと、ベクトルｂを、次式のように無音ＧＭＭと、クリーン音声ＧＭＭとを識別するインデックスｊ、及び無音ＧＭＭ、もしくはクリーン音声ＧＭＭに含まれる正規分布の番号ｋに依存するパラメータとしてもよい。

もしくは、

第一実施形態において、雑音抑圧フィルタ推定処理（図１１のｓ６０３）にて、重み付け平均ではなく、最大の重み、すなわち最大の音声非存在／存在確率Ｐ_ｔ，ｊと、事後確率Ｐ_{ｔ，ｊ，ｋ，ｌ}との積を持つ推定結果をそのまま使用してもよい。この場合、他の推定結果の重みに比べて十分大きな重みを持っていることが望ましい。

第一実施形態において、式（２６）、（２９）、（３０）に代えて、以下の式により初期値を設定してもよい。

第一実施形態において、式（３７）に代えて、以下の式により初期値を設定してもよい。

第一実施形態において、各ＥＭアルゴリズムにおいて、Ｍ−ｓｔｅｐを実施した後にＥ−ｓｔｅｐを実施する構成としてもよい。また、Ｍ−ｓｔｅｐを実施直後に収束判定を行い、収束していない場合にＥ−ｓｔｅｐを実施する構成としてもよい。このような構成とすることで、収束している場合にＭ−ｓｔｅｐを実施する処理を省略することができる。

本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
＜シミュレーション結果＞
本発明の効果を示すために、音声信号と雑音信号が混在する音響信号を第一実施形態の雑音抑圧装置に入力し、雑音抑圧を実施した例を示す。以下実験方法、及び結果について説明する。

本実験では、評価用データには、IPA(Information-technology promotion agency, Japan)-98-TestSetのうち、男性２３名が発声したデータ１００文を用いており、これらの音声データに対して、空港ロビー、駅プラットホーム、街頭にて別途収録した雑音を、それぞれＳ／Ｎ比（信号対雑音比）０ｄＢ、５ｄＢ、１０ｄＢにて計算機上で重畳した。すなわち、雑音３種類×Ｓ／Ｎ比３種類の合計９種類の評価データを作成した。それぞれの音声データは、サンプリング周波数１６，０００Ｈｚ、量子化ビット数１６ビットで離散サンプリングされたモノラル信号である。この音響信号に対し、１フレームの時間長を２０ｍｓ（Ｆｒａｍｅ＝３２０サンプル点）とし、１０ｍｓ（Ｓｈｉｆｔ＝１６０サンプル点）毎にフレームの始点を移動させて、音響特徴抽出部１０４を適用した。

無音ＧＭＭ、クリーン音声ＧＭＭには、Ｒ＝２４次元の対数メルスペクトルを音響特徴量とする混合分布数Ｋ＝１２８のＧＭＭを用い、それぞれ多数話者の学習用音声データを用いて学習した。雑音ＧＭＭの混合分布数にはＬ＝４を与えた。

性能の評価は音声認識により行い、評価尺度は次式の単語誤り率（Word error rate: WER）で行った。

上式のＮは総単語数、Ｄは脱落誤り単語数、Ｓは置換誤り単語数、Ｉは挿入誤り単語数であり、ＷＥＲの値が小さい程音声認識性能が高いことを示す。

音声認識は、有限状態トランスデューサーに基づく認識器（T. Hori, et al., "Efficient WFST-based one-pass decoding with on-the-fly hypothesis rescoring in extremely large vocabulary continuous speech recognition", IEEE Trans. on ASLP, May 2007, vol. 15, no. 4, pp. 1352-1365）により行い、音響モデルには話者独立のＴｒｉｐｈｏｎｅＨＭＭを用いており、各ＨＭＭの構造は３状態のＬｅｆｔ−ｔｏ−ｒｉｇｈｔ型ＨＭＭであり、各状態は１６の正規分布を持つ。ＨＭＭ全体の状態数は２，０００である。音声認識の音響特徴量は、１フレームの時間長を２０ｍｓ（Ｆｒａｍｅ＝３２０）とし、１０ｍｓ（Ｓｈｉｆｔ＝１６０サンプル点）毎にフレームの始点を移動させて分析した１２次元のＭＦＣＣ（Mel-frequency cepstral coefficient）、対数パワー値、各々の１次及び２次の回帰係数を含む合計３９次元のベクトルである。また、言語モデルにはＴｒｉ−ｇｒａｍを用い、語彙数は２０，０００単語である。

図１３は、雑音抑圧の結果であり、雑音抑圧処理を行わない場合と、非特許文献１に開示された方法と、非特許文献２に開示された方法と、第一実施形態とによる音声認識の評価結果を示している。図１３の結果からも、第一実施形態により従来技術に比べて高い性能を得られることが明らかである。
＜プログラム及び記録媒体＞
上述した雑音抑圧装置は、コンピュータが読み取り可能な符号によって記述されたプログラムをコンピュータに実行させることによって実現してもよい。これらのプログラムは例えば磁気ディスクあるいはＣＤ−ＲＯＭのようなコンピュータが読み取り可能な記憶媒体に記憶され、記憶媒体からコンピュータにインストールするか或いは通信回線を通じてインストールされて実行される。

本発明は、自動音声認識の前段において、音響信号から雑音を抑圧し、雑音抑圧信号を用いて自動音声認識に利用することができる。また、ＴＶ会議システム等の通話システムや録音システムにおいて、受信または収録した音響信号から雑音信号を抑圧する際に利用することができる。

Claims

雑音信号と音声信号とを含む音響信号から雑音信号を抑圧する雑音抑圧装置であって、
前記音響信号の音響特徴を抽出する音響特徴抽出手段と、
雑音を含まない、多数話者の音声信号を学習データとして学習された話者独立の音声信号の確率モデルである話者独立音声モデルが記憶される記憶手段と、
前記雑音信号が多峰的な分布に従う非定常な雑音に基づく信号であると定義し、前記話者独立音声モデルを前記音響信号に含まれる前記音声信号の話者に適応させるための話者適応パラメータと、前記雑音信号の確率モデルである雑音モデルと、前記話者独立音声モデルとを用いて、前記音響信号の確率モデルである第一確率モデルを生成する第一確率モデル生成手段と、
前記第一確率モデルと前記音響信号の音響特徴とに基づいて、前記雑音信号を推定し、推定した雑音信号を学習データとして前記雑音モデルを教師無し学習する雑音モデル推定手段と、
前記音響信号の音響特徴と前記話者独立音声モデルと前記雑音モデルとを用いて、前記音響信号に含まれる前記音声信号を推定し、推定した前記音声信号を学習データとして、前記話者適応パラメータを教師無し推定する話者適応パラメータ推定手段と、
前記音響信号の音響特徴と前記話者独立音声モデルと前記雑音モデルと前記話者適応パラメータとを用いて前記音響信号に含まれる雑音信号を抑圧する雑音抑圧手段と、
を含む雑音抑圧装置。
請求項１記載の雑音抑圧装置であって、
前記話者適応パラメータ推定手段は、
前記音響信号の音響特徴と前記話者独立音声モデルと前記雑音モデルと前記話者適応パラメータとを用いて、前記音響信号の確率モデルである第二確率モデルを生成する第二確率モデル生成手段と、
前記音響信号の音響特徴と前記第二確率モデルと前記話者独立音声モデルと前記話者適応パラメータとを用いて、前記音響信号に含まれる前記音声信号を推定する音声信号推定手段と、
推定した前記音響信号に含まれる前記音声信号と、前記話者独立音声モデルとに基いて、前記話者適応パラメータにより適応された前記話者独立音声モデルである話者依存音声モデルの尤度が最大となる前記話者適応パラメータを算出する話者適応パラメータ算出手段とを含む、
雑音抑圧装置。
請求項２記載の雑音抑圧装置であって、
前記話者適応パラメータ推定手段は、推定した前記音声信号を用いて、前記話者依存音声モデルの尤度が最大となるように期待値最大化法により収束条件を満たすまで前記話者適応パラメータ算出手段の処理を繰り返し、
当該雑音抑圧装置は、前記音響信号を用いて、前記第一確率モデルの尤度が最大となるように期待値最大化法により収束条件を満たすまで前記第一確率モデル生成手段と前記雑音モデル推定手段と前記話者適応パラメータ推定手段の処理を繰り返す、
雑音抑圧装置。
雑音信号と音声信号とを含む音響信号から雑音信号を抑圧する雑音抑圧方法であって、
音響特徴抽出手段が、前記音響信号の音響特徴を抽出する音響特徴抽出ステップと、
第一確率モデル生成手段が、前記雑音信号が多峰的な分布に従う非定常な雑音に基づく信号であると定義し、雑音を含まない、多数話者の音声信号を学習データとして学習された話者独立の音声信号の確率モデルである話者独立音声モデルを前記音響信号に含まれる前記音声信号の話者に適応させるための話者適応パラメータと、前記雑音信号の確率モデルである雑音モデルと、前記話者独立音声モデルとを用いて、前記音響信号の確率モデルである第一確率モデルを生成する第一確率モデル生成ステップと、
雑音モデル推定手段が、前記第一確率モデルと前記音響信号の音響特徴とに基づいて、前記雑音信号を推定し、推定した雑音信号を学習データとして前記雑音モデルを教師無し学習する雑音モデル推定ステップと、
話者適応パラメータ推定手段が、前記音響信号の音響特徴と前記話者独立音声モデルと前記雑音モデルとを用いて、前記音響信号に含まれる前記音声信号を推定し、推定した前記音声信号を学習データとして、前記話者適応パラメータを教師無し推定する話者適応パラメータ推定ステップと、
雑音抑圧手段が、前記音響信号の音響特徴と前記話者独立音声モデルと前記雑音モデルと前記話者適応パラメータとを用いて前記音響信号に含まれる雑音信号を抑圧する雑音抑圧ステップと、
を含む雑音抑圧方法。
請求項４記載の雑音抑圧方法であって、
前記話者適応パラメータ推定ステップは、
第二確率モデル生成手段が、前記音響信号の音響特徴と前記話者独立音声モデルと前記雑音モデルと前記話者適応パラメータとを用いて、前記音響信号の確率モデルである第二確率モデルを生成する第二確率モデル生成ステップと、
音声信号推定手段が、前記音響信号の音響特徴と前記第二確率モデルと前記話者独立音声モデルと前記話者適応パラメータとを用いて、前記音響信号に含まれる前記音声信号を推定する音声信号推定ステップと、
話者適応パラメータ算出手段が、推定した前記音響信号に含まれる前記音声信号と、前記話者独立音声モデルとに基いて、前記話者適応パラメータにより適応された前記話者独立音声モデルである話者依存音声モデルの尤度が最大となる前記話者適応パラメータを算出する話者適応パラメータ算出ステップとを含む、
雑音抑圧方法。
請求項５記載の雑音抑圧方法であって、
前記話者適応パラメータ推定ステップは、推定した前記音声信号を用いて、前記話者依存音声モデルの尤度が最大となるように期待値最大化法により収束条件を満たすまで前記話者適応パラメータ算出ステップの処理を繰り返し、
当該雑音抑圧方法は、前記音響信号を用いて、前記第一確率モデルの尤度が最大となるように期待値最大化法により収束条件を満たすまで前記第一確率モデル生成ステップと前記雑音モデル推定ステップと前記話者適応パラメータ推定ステップの処理を繰り返す、
雑音抑圧方法。
請求項１から３の何れかに記載の雑音抑圧装置として、コンピュータを機能させるためのプログラム。