WO2011010604A1

WO2011010604A1 - 音声信号区間推定装置と音声信号区間推定方法及びそのプログラムと記録媒体

Info

Publication number: WO2011010604A1
Application number: PCT/JP2010/061999
Authority: WO
Inventors: 雅清藤本; 中谷　智広
Original assignee: 日本電信電話株式会社
Priority date: 2009-07-21
Filing date: 2010-07-15
Publication date: 2011-01-27
Also published as: JPWO2011010604A1; US20120173234A1; JP5411936B2; CN102473412B; CN102473412A; US9208780B2

Abstract

　音声信号区間推定装置の処理効率と推定精度を向上させる。音響信号分析部が、音声信号と雑音信号を含む音響ディジタル信号を入力として、その音響ディジタル信号のフレーム毎に無音ＧＭＭとクリーン音声ＧＭＭを用いて雑音環境に適合させた非音声ＧＭＭと音声ＧＭＭを生成し、それぞれのＧＭＭの中から必要とする正規分布のみの出力確率を計算する。そして、音声／非音声状態確率比算出部が、その出力確率を用いて音声状態／非音声状態の状態遷移モデルに基づいた音声／非音声状態確率比を算出し、音声信号区間推定部が、音声／非音声状態確率比から当該フレームの音響信号が音声状態であるか非音声状態であるかを判定して音声状態の音響信号のみを出力する。

Description

音声信号区間推定装置と音声信号区間推定方法及びそのプログラムと記録媒体

　この発明は、複数の音響信号が含まれる信号から、音声信号が存在する区間を推定する音声信号区間推定装置と音声信号区間推定方法及びその装置をコンピュータで実施するプログラムとそのプログラムを記録した記録媒体に関する。

　自動音声認識技術を実環境で利用する場合においては、処理対象とする音声信号以外の雑音が含まれる音響信号から、処理対象とする音声信号が存在する区間を推定し、さらに雑音を取り除く必要がある。

　図２２は非特許文献１に開示された従来の音声信号区間推定方法を実施するための機能構成を従来の音声信号区間推定装置９００として示し、その動作を簡単に説明する。音声信号区間推定装置９００は、音響信号分析部９０、音声／非音声状態確率比算出部９５、音声信号区間推定部９６を備える。音響信号分析部９０は、更に音響特徴量抽出部９１、確率推定部９２、パラメータ記憶部９３、ＧＭＭ（Gaussian Mixture Model：混合正規分布モデル）記憶部９４で構成される。パラメータ記憶部９３は初期雑音確率モデル推定用バッファ９３１と雑音確率モデル推定用バッファ９３１とから構成されている。ＧＭＭ記憶部９４には予め生成された無音ＧＭＭとクリーン音声ＧＭＭをそれぞれ記憶した無音ＧＭＭ記憶部９４０とクリーン音声ＧＭＭ記憶部９４１とから構成されている。

　音響特徴量抽出部９１は、音声信号と雑音信号を含む音響ディジタル信号Ａ_tの音響特徴量Ｏ_tを抽出する。音響特徴量としては、例えば対数メルスペクトルやケプストラムなどを使用することができる。確率推定部９２は、無音ＧＭＭとクリーン音声ＧＭＭを用いて雑音環境に適合させた非音声ＧＭＭと音声ＧＭＭを生成し、入力された音響特徴量Ｏ_tに対する非音声ＧＭＭ内の全ての正規分布の非音声出力確率と、音声ＧＭＭ内の全ての正規分布の音声出力確率を計算する。

　音声／非音声状態確率比算出部９５は、その非音声出力確率と音声出力確率を用いて音声／非音声状態確率比を算出する。音声信号区間推定部９６は、音声／非音声状態確率比から入力音響信号が、音声状態であるか非音声状態であるかを判定して例えば音声状態の音響信号Ｄ_Ｓのみを出力する。

　このように、従来の音声信号区間の推定方法は、ＧＭＭ内の全ての確率分布モデルを用いて音声区間を推定していた。全ての確率モデルを用いるのは、その全てが重要であると考えられていたからである。この考えは、例えば非特許文献２に、音声信号区間検出と雑音抑圧の方法として開示されている。全ての確率分布を用いる考えは、非特許文献２に示された雑音抑圧フィルタのフィルタゲインを計算する次式(1) からも明らかである。

　ここでp(k|Ｏ_t,j)は、ｋ番目の正規分布の出力確率であり、Ｋは全ての分布の数を表す。

藤本雅清、石塚健太郎、加藤比呂子，「音声と雑音両方の状態遷移過程を有する雑音下音声区間検出」、信学技報、2006年１２月１４日発行。 Masakiyo Fujimoto, Kentaro Ishizuka, and Tomohiro Nakatani, "Study of Integration of Statistical Model-Based Voice Activity Detection and Noise Suppression," Proc. Interspeech ’08,pp.2008-2011, Sept. 2008.

　従来の方法では、音声信号区間検出と雑音抑圧を行う際に全ての確率分布を用いるので、処理量が多い問題点があった。入力される音響信号が多チャネルであると、チャネル毎に独立に処理を行う必要があるため、更に処理量が増大してしまう。

　この発明は、このような問題点に鑑みてなされたものである。最近の研究の成果によると、音声信号区間検出と雑音抑圧を行うに当たって、全ての確率分布を用いなくても良いことが分かって来た。そこでこの発明は、確率モデル（ＧＭＭ）内の不必要な分布を用いないことにより処理の高速化を図った音声信号区間推定装置と音声信号区間推定方法及びその装置をコンピュータで実施するプログラムとそのプログラムを記録した記録媒体を提供することを目的とする。

　この発明の音声信号区間推定装置は、音響信号分析部と、区間推定情報生成部とを具備する。音響信号分析部は、音声信号と雑音信号を含む音響ディジタル信号を入力として、その音響ディジタル信号のフレーム毎に無音ＧＭＭとクリーン音声ＧＭＭを用いて雑音環境に適合させた非音声ＧＭＭと音声ＧＭＭを生成し、それぞれのＧＭＭの中から最も小さい出力確率の１つ以上の正規分布を除いた残りの正規分布の非音声出力確率及び音声出力確率を計算する。区間推定情報生成部は、それら非音声出力確率及び音声出力確率を用いて音声状態／非音声状態の状態遷移モデルに基づいた音声／非音声状態確率比を算出し、算出した確率比に基づいて音声区間推定情報を生成し出力する。

　また、この発明の雑音抑圧機能付き音声信号区間装置は、上記した音声信号区間推定装置の構成に、更に音声／非音声状態合成確率比算出部が出力する確率比と、音響信号分析部が出力する出力確率とを入力として雑音抑圧フィルタを生成して音響ディジタル信号の雑音を抑圧する雑音抑圧部を具備する。

　この発明の音声信号区間推定装置によれば、音響信号分析部が、フレーム毎に無音ＧＭＭとクリーン音声ＧＭＭを用いて雑音環境に適合した非音声及び音声の確率モデルを生成し、必要とする分布の確率モデルのみの出力確率を計算する。そして、その出力確率のみを用いて音声信号区間を判定する。したがって、全ての確率モデルを用いる従来の音声信号区間推定装置よりも処理を高速化することが出来る。

　また、この発明の雑音抑圧機能付き音声信号区間推定装置は、この発明の音声信号区間推定装置に雑音抑圧部を付加して入力音声信号の雑音を抑圧する。

この発明の音声信号区間推定置１００の機能構成例を示す図。音声信号区間推定装置１００の動作フローを示す図。確率モデルパラメータ推定・確率計算部１１の機能構成例の一部を示す図。確率モデルパラメータ推定・確率計算部１１の機能構成例の残りの部分を示す図。確率モデルパラメータ推定・確率計算部１２の動作フローを示す図。確率重み算出処理部１２６の動作フローを示す図。正規分布番号SortIdx_t,j,kを求める方法を例示する図。確率値の分布例を示す図であり、Ａは非音声ＧＭＭの各正規分布ｋのソート後出力確率ｗ_Sort,t,0,kの分布、Ｂは音声ＧＭＭのソート後出力確率ｗ_Sort,t,1,kの分布を示す図。必要分布決定処理部１１７の動作フローを示す図。音声／非音声状態確率比算出部９５の機能構成例を示す図。音声状態／非音声状態の状態遷移モデルを示す図。音声／非音声状態確率比算出部９５の動作フローを示す図。音声信号区間推定部９６の機能構成例を示す図。この発明の音声信号区間推定装置２００の機能構成例を示す図。信号平均部５０の動作フローを示す図。第２音響信号分析部６０の機能構成例を示す図。第２音響信号分析部６０の動作フローを示す図。この発明の雑音抑圧機能付きの音声信号区間推定装置３００の機能構成例を示す図。雑音抑圧部７０の機能構成例を示す図。実験結果を示す図。信号波形を示す図であり、Ａは音響入力信号波形であり、Ｂは雑音抑圧出力の信号波形を示す図である。従来の音声信号区間推定装置９００の機能構成を示す図。

　以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。また、以下の説明において、テキストの行中で使用する記号「^」は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルについては、「ベクトルＡ」と直前に「ベクトル」を付与して記載するが、式中では何れも太字で記載する。また、ベクトルの各要素単位で行われる処理は、特に断りが無い限り全てのベクトルの全ての要素に対して適用されるものとする。

　図１にこの発明の音声信号区間推定装置１００の機能構成例を示す。その動作フローを図２に示す。音声信号区間推定装置１００は、音響信号分析部１０と、音声／非音声状態確率比算出部９５と、音声信号区間推定部９６と、制御部２０とを具備する。音響信号分析部１０は、音響特徴量抽出部９１と、確率モデルパラメータ推定・確率計算部１１と、ＧＭＭ記憶部９４と、パラメータ記憶部９３とで構成される。ＧＭＭ記憶部９４は、無音ＧＭＭ記憶部９４０とクリーン音声ＧＭＭ記憶部９４１を備える。また、パラメータ記憶部９３は、初期雑音確率モデル推定用バッファ９３０と雑音確率モデル推定用バッファ９３１を備える。更に、音声／非音声状態確率比算出部９５と音声信号区間推定部９６は区間推定情報生成部９を構成している。

　音声信号区間推定装置１００の入力信号である音響信号Ａ_tは、音声信号と雑音信号を含むアナログ音響信号を、例えばサンプリング周波数８ｋＨｚで離散値化した音響ディジタル信号である。ｔはフレーム番号を表す。図１において、アナログ音響信号を音響ディジタル信号に変換するＡ／Ｄ変換部については省略している。

　音声信号区間推定装置１００は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。なお、参照符号から明らかなように、音声信号区間推定装置１００は、図２２に示した従来の音声信号区間推定装置９００に対して音響信号分析部１０の一部の構成と動作のみが異なる。特に音響信号分析部１０内の確率モデルパラメータ推定・確率計算部１１が、フレーム毎に雑音環境に適合させた非音声ＧＭＭと音声ＧＭＭを生成し、それぞれのＧＭＭの中から必要とする正規分布のみの出力確率を計算する点に特徴がある。

　音響信号分析部１０は、離散値化された音声ディジタル信号Ａ_tを入力として、例えば２００個の音響ディジタル信号を１フレーム（例えば２５ｍｓ）としたフレーム毎に、ＧＭＭ記憶部９４に記憶されている無音ＧＭＭとクリーン音声ＧＭＭを用いて雑音環境に適合させた非音声ＧＭＭと音声ＧＭＭを生成し、それぞれのＧＭＭの中から必要とする正規分布のみの非音声出力確率と音声出力確率を計算する（ステップＳ１０）。

　音響特徴量抽出部９１は、音声信号と雑音信号を含むフレームｔの音響ディジタル信号Ａ_tに対して高速フーリエ変換及び、１２次元のメルフィルタバンク分析を適用し、１２次元の対数メルスペクトルを要素に持つベクトルＯ_t＝{Ｏ_t,0,Ｏ_t,1,…,Ｏ_t,11}（フレームｔにおける音響特徴量）を算出して出力する。添え字の数字0, 1, …, 11は、ベクトルの要素番号ｌ（エル）を示す。

　確率モデルパラメータ推定・確率計算部１１は、フレーム毎に入力される対数メルスペクトルに対し並列非線形カルマンフィルタを適用して雑音確率モデルパラメータを推定する。並列非線形カルマンフィルタについては後述する。

　ＧＭＭ記憶部９４の無音ＧＭＭ記憶部９４０とクリーン音声ＧＭＭ記憶部９４１はそれぞれ予め生成した無音ＧＭＭとクリーン音声ＧＭＭとを記憶する。それぞれのＧＭＭは、複数の正規分布を含有しており、各正規分布は、混合重みｗ_j,k、平均μ_S,j,k,l、分散Σ_S,j,k,lをパラメータとして構成される。ｊはＧＭＭの種別であり、ｊ＝０は無音ＧＭＭ、ｊ＝１はクリーン音声ＧＭＭを表す。ｋは各正規分布の番号を表す。各分布の総数Ｋは例えば３２個である。Ｋの値は精度と処理速度の兼ね合いで決める。

　音声／非音声状態確率比算出部９５は、それらの出力確率を用いて音声状態／非音声状態の状態遷移モデルに基づいた音声／非音声状態確率比を算出する（ステップＳ９５）。音声信号区間推定部９６は、音声／非音声状態確率比を閾値と比較して当該フレームの音響信号が音声状態であるか非音声状態であるかを判定し、例えば音声状態の音響信号のみを切り取って区間推定情報Ｄ_ESとして出力する（ステップＳ９６）。なお、音声信号区間推定部９６は、音響信号中の音声状態の区間と非音声状態の区間を示す信号を単独又は入力音響信号と共に音声信号区間情報として出力してもよいし、あるいは、判定された区間を示す信号に基づいて音響信号中の非音声信号区間の振幅を０に設定して音声信号区間情報として出力してもよいし、あるいは前述のように非音声状態の区間を除去して（時間をつめて）音声信号区間情報として出力してもよい。即ち、音声／非音声状態確率比算出部９５と音声信号区間推定部９６とから構成される区間推定情報生成部９は、音声信号区間についての情報（音声信号区間情報）を生成し出力する。

　以上の動作は、全てのフレームについて終了するまで繰り返される（ステップＳ２０のＮ）。この音声信号区間推定装置１００の各部の動作制御は、制御部２０が行う。

　音声信号区間推定装置１００によれば、音響信号分析部１０が、必要とする正規分布のみの出力確率を計算する。そして、その出力確率に基づいて例えば音声状態と判定されたフレームの音響信号のみが区間推定情報Ｄ_ESとして出力される。したがって、必要な確率モデルだけを用いて音声区間検出が行われるので処理を高速化することが出来る。
次に、確率モデルパラメータ推定・確率計算部１１のより具体的な機能構成例を示して更に詳しく説明する。

〔確率モデルパラメータ推定・確率計算部１１〕
　図３と図４は確率モデルパラメータ推定・確率計算部１１のより具体的な機能構成例を２つの部分に分けて示し、その動作フローを図５に示す。確率モデルパラメータ推定・確率計算部１１は、フレーム判定処理部１１０と、初期雑音確率モデル推定処理部１１１と、パラメータ予測処理部１１２と、パラメータ更新処理部１１３と、確率モデルパラメータ生成推定処理部１１４と、出力確率算出部１１５と、確率重み算出処理部１１６と、必要分布決定処理部１１７と、第１加重平均処理部１１８と、第２加重平均処理部１１９とを備える。

　フレーム判定処理部１１０は、動作開始初期の段階である例えば１０フレーム以下、即ち、フレーム番号ｔをt=0, 1, …とすると、ｔ＜１０の時には、音響特徴量抽出部９１からの音響特徴量Ｏ_ｔを初期雑音確率モデル推定用バッファ９３０に記憶する（ステップS930）。フレーム数が１１（即ちｔ＝１０）になると、初期雑音確率モデル推定処理部１１１にｔ＝０～ｔ＝９の音響特徴量を読み出すように指示する。そして、初期雑音確率モデル推定処理部１１１は、初期の雑音確率モデルパラメータＮ^init _l，Σ^init _N,lを式（２）と式（３）に示すように推定する（ステップS111）。

　フレーム数が１１より大きくなれば（即ちｔ＞１０）、フレーム判定処理部１１０は、パラメータ予測処理部１１２に１フレーム前の雑音確率モデルパラメータの推定値^N_t-1,l，^Σ_N,t-1,lを、雑音確率モデル推定用バッファ９３１から読み出すように指示する（ステップS931）。

　パラメータ予測処理部１１２は、初期の雑音確率モデルパラメータN^init _l，Σ^init _N,l又は、１フレーム前の雑音確率モデルパラメータの推定値^N_t-1,l，^Σ_N,t-1,lから、現在のフレームｔの雑音確率モデルパラメータを式（４）と（５）に示すランダムウオーク過程により予測する（ステップS112）。

　ここで、N^pred _t,l、Σ^pred _N,t,lはフレームｔにおける雑音確率モデルパラメータの予測値、εは例えば0.0010等の小さな値である。フレーム数が１０（即ちｔ＝９）の時は、式（６）と（７）に示すように予測処理を行う。

　パラメータ更新処理部１１３は、現在のフレームｔの予測した雑音確率モデルパラメータN^pred _t,l、Σ^pred _N,t,lと、音響特徴量Ｏ_tと、ＧＭＭ記憶部９４の各ＧＭＭを構成する複数の正規分布のパラメータμ_S,j,k,l、Σ_S,j,k,lを入力として、式(4),(5)又は(6),(7)の雑音確率モデルパラメータN^pred _t,l、Σ^pred _N,t,lを更新する（ステップS113）。更新処理は、式(8)～(13)に示す非線形カルマンフィルタをフレーム毎に適用して行う。

　ここで式(12)と(13)が更新された正規分布のパラメータである。この非線形カルマンフィルタは従来からある技術である。

　確率モデルパラメータ生成推定処理部１１４は、ＧＭＭ記憶部９４に記憶されている複数の正規分布のパラメータμ_S,j,k,l、Σ_S,j,k,lと、パラメータ更新処理部１１３で更新された正規分布パラメータ^N_t,j,k,l，^Σ_N,t,j,k,lを入力として、フレームｔにおける雑音環境に適合した非音声ＧＭＭ（雑音＋無音）と音声ＧＭＭ（雑音＋クリーン音声）を生成する（ステップS114）。非音声ＧＭＭと音声ＧＭＭは次式により得られる。

ここでμ_O,t,j,l、Σ_O,t,j,k,lは、それぞれフレームｔにおける非音声ＧＭＭ（ｊ＝０）、音声ＧＭＭ（ｊ＝１）の正規分布パラメータであり、μは平均、Σは分散である。

　出力確率算出処理部１１５は、確率モデルパラメータ生成推定処理部１１４で生成された非音声ＧＭＭと音声ＧＭＭのそれぞれによる音響特徴量Ｏ_tの出力確率を次式により得る。まず、各正規分布ｋの出力確率b_1,j,k(Ｏ_t)が式(17)で計算される。なお、記号ｂの添え数字１は後述の実施例２における第２音響信号分析部による出力確率と区別するための記号である。

この各正規分布ｋの出力確率b_1,j,k(Ｏ_t)にＧＭＭ記憶部９４からの混合重みｗ_j,kを次式(18)のように乗じて得た全ての分布の出力確率の合計が非音声ＧＭＭと音声ＧＭＭの出力確率b_1,j(Ｏ_t)である。

　出力確率算出部１１５は、非音声ＧＭＭと音声ＧＭＭの出力確率b_1,j(Ｏ_t)で各正規分布ｋの出力確率を正規化した出力確率ｗ_O,t,j,kを、式(19)で算出して出力する。

　確率重み算出処理部１１６は、非音声ＧＭＭと音声ＧＭＭに含まれる全ての正規分布ｋ=1, …, Kの正規化した出力確率ｗ_O,t,j,kの散らばりの度合いを高次統計量でパラメータ化し、非音声ＧＭＭと音声ＧＭＭの出力確率b_1,j(Ｏ_t)を重み付けする（ステップS116）。図６に確率重み算出処理部１１６の処理フローを示す。

　まず、確率重み算出処理部１１６は、各正規分布ｋの正規化した出力確率ｗ_O,t,j,kを降順に並べ替え、並び替え前後の対応する対応正規分布インデックスSortIdx_t,j,k'（ただし、ｋ'=1, …, K）を求める（ステップS1160）。図７に、並び替え後の正規分布インデックスSortIdx_t,j,k'を求める方法を例示する。

　図７Ａが、並べ替える前のソート前正規化出力確率ｗ_O,t,j,kと、その正規分布のインデックスｋを表す。図７Ｂが、降順に並べ替えた後のソート後正規化出力確率ｗ_Sort,t,j,k'と対応分布インデックスSortIdx_t,j,k'を表す。このように正規化出力確率の大きい順に各正規分布が整理される（ステップS1160）。

　フレームｔの音響信号が非音声信号（ｊ＝０）であると仮定すると、非音声ＧＭＭの各正規分布ｋのソート後出力確率ｗ_Sort,t,0,k'のｋ'に対する全体の変化幅は小さい。その様子を図８Ａに示す。図８Ａの横軸は正規分布のインデックスｋ'であり、縦軸はソート後出力確率ｗ_Sort,t,0,k'である。このように、インデックスｋ'の増加に伴い緩やかに下降するなだらかな特性となる。一方、音声ＧＭＭのソート後出力確率ｗ_Sort,t,1,k'のｋ'に対する全体の変化幅は大きく、図８Ｂに示すように変化の急峻な特性となる。つまり、フレームｔの音声信号が非音声信号であれば、非音声ＧＭＭのＫ個の正規分布の出力確率の変化幅は小さいが、音声ＧＭＭのＫ個の正規分布の出力確率の変化幅は大きい。このことはソート前において非音声ＧＭＭの出力確率の散らばり度合いが小さく、音声ＧＭＭの出力確率の散らばり度合いが大きいことを意味している。フレームｔの音響信号が音声信号（ｊ＝１）であった場合は、この特性の関係は逆転する。

　次にステップS1161の尖度算出処理において、この特性の尖り具合を表すパラメータである尖度（４次統計量）を用いて、出力確率の変化の特性を表現する。ソート後出力確率ｗ_Sort,t,j,k'の尖度Kurt_t,jは、式(20)で計算できる。

　尖度Kurt_t,jは、特性（図８）が尖っているほど大きな値となる。ここで、式(21)は全正規分布のソート後の出力確率ｗ_Sort,t,j,k'の平均値を表しているが、この値はソート前の平均値と同じである。式(20)の分子はソート後の各出力確率ｗ_Sort,t,j,k'と平均値の差分の４乗を全出力確率について加算した値であり、この値もソート前の対応する差分４乗和と同じである。同様に、式(22)が表す２乗和の平均、即ち分散もソート前の対応する値と同じである。即ち、式(20)で得られる尖度Kurt_t,jはソート前後に係わらず全正規分布の出力確率の散らばり度合いを表している。なお、出力確率の散らばり度合いは式(20)の定義に限る必要はなく、各出力確率と平均値の２乗和に基づく様々な定義が可能である。確率重み算出処理部１１６は、尖り具合の小さななだらかな特性が得られる正規分布に対して大きな重みを置く必要があるので、ステップS1162の重み正規化処理において、式(23)に示すように尖度Kurt_t,jの逆数を正規化した確率重みｗ_Kurt,t,jを得る（ステップS1162）。

　確率重み算出部１１６は、確率重みｗ_Kurt,t,jと、ソート後出力確率ｗ_Sort,t,j,k'と、対応正規分布インデックスSortIdx_t,j,k'を必要分布決定処理部１１７に出力する。

　必要分布決定処理部１１７は、ソート後出力確率ｗ_Sort,t,j,k'の値が微小な正規分布を取り除き、十分大きな値を持つ正規分布のみを抽出する。その処理フローを図９に示す。まず、降順に並べ替えたソート後出力確率ｗ_Sort,t,j,k'を大きい順に順次加算し累積値を求める（ステップS1170）。次に、その累積値が、ある所定の値０＜Ｘ≦１に達する最小のソート後出力確率の値を持つ対応分布インデックスの番号Ｒ_t,jを式(24)により求める。

　例えばＸ＝0.9とすると、ソート後出力確率ｗ_Sort,t,j,k'の累積値が0.9になる対応分布インデックスが決定される（ステップS1171）。図７に示した例では、ｗ_Sort,t,j,1+ｗ_Sort,t,j,2+ｗ_Sort,t,j,3=0.9≧Ｘとなるので、対応分布インデックスSortIdx_t,j,1～SortIdx_t,j,3が選択される。

　そしてステップS1172の確率再計算処理において、選択された正規分布SortIdx_t,j,1～SortIdx_t,j,(Rt,j)を用いて非音声ＧＭＭと音声ＧＭＭの出力確率b_1,j(Ｏ_t)が再計算される。その再計算の前に、ＧＭＭパラメータである混合重みｗ_j,k(k=SortIdx_t,j,k')を式(25)で正規化する。

　この正規化した混合重みと出力確率算出処理部１１５で得た各正規分布ｋの出力確率b_1,j,k(Ｏ_t)を用い（ｋにSortIdx_t,j,k'を代入）、式(26)により非音声ＧＭＭと音声ＧＭＭの出力確率b_1,j(Ｏ_t)を再計算する。また、ソート後出力確率ｗ_Sort,t,j,k'を式(27)により再計算する。

次に、ステップS1173において式(28)により確率重みｗ_Kurt,t,jを用いて再計算された出力確率b_1,j(Ｏ_t)を重み付けする。

　このように確率重み算出処理部１１６で得られた確率重みｗ_Kurt,t,jを用いることにより、非音声ＧＭＭの出力確率と音声ＧＭＭの出力確率の差異を強調することが出来、非音声／音声の識別性を向上させることが出来る。

　第１加重平均処理部１１８は、パラメータ更新処理部１１３で更新された正規分布のパラメータ^N_t,j,k,l、^Σ_N,t,j,k,lを、確率重み算出処理部１１６で得られたソート後の出力確率ｗ_Sort,t,j,k'を用いて加重平均することにより、非音声ＧＭＭと音声ＧＭＭに対応する雑音パラメータ推定結果^N_t,j,ｌ、^Σ_N,t,j,ｌを得る。加重平均は次式により行う。

　次に第２加重平均処理部１１９で、第１加重平均処理部１１８で得られた雑音パラメータ推定結果^N_t,j,l、^Σ_N,t,j,lを、必要分布決定処理部１１７で再計算された出力確率b_w,1,j(Ｏ_t)を用いてそれぞれ式(31),(32)により加重平均する。加重平均することで、フレームｔにおける雑音パラメータ推定結果^N_t,l、^Σ_N,t,lが得られ、次のフレームの雑音パラメータの推定に利用される。

第２加重平均処理部１１９で得られた雑音パラメータ推定結果^N_t,l、^Σ_N,t,lは、雑音確率モデル推定用バッファ９３１に記憶される。
　確率モデルパラメータ推定・確率計算部１１は、以上述べた処理を行い音響信号分析部１０の出力パラメータとしてフレームｔにおける音声／非音声確率b_w,1,0(Ｏ_t)，b_w,1,1(Ｏ_t)を音声／非音声状態確率比算出部９５に出力する。

〔音声／非音声状態確率比算出部９５〕
　図１０に音声／非音声状態確率比算出部９５の機能構成例を示す。音声／非音声状態確率比算出部９５は、確率算出部９５０と、パラメータ記憶部９５１を備える。

　音声／非音声状態確率比算出部９５は、音声／非音声確率b_w,1,0(Ｏ_t)，b_w,1,1(Ｏ_t)を入力として、図１１に有限状態機械により表現された音声状態／非音声状態の状態遷移モデルに基づいた音声状態／非音声状態確率比を算出する。有限状態機械は、音声状態／非音声状態の状態遷移モデルであり、非音声状態Ｈ₀と、音声状態Ｈ₁と、各状態への状態遷移確率ａ_i,j(ａ_0,0～ａ_1,1)とを含む。iは状態遷移元の状態番号、jは状態遷移先の状態番号である。

　パラメータ記憶部９５１は、確率比算出用バッファ９５１ａと、状態遷移確率テーブル９５１ｂとを含み、状態遷移確率テーブル９５１ｂは非音声状態Ｈ₀及び音声状態Ｈ₁への状態遷移確率ａ_0,0～ａ_1,1の値を持つ。状態番号０は非音声状態を、状態番号１は音声状態をそれぞれ示し、状態遷移確率ａ_i,jはa_i,0＋a_i,1＝１を満たす。

　確率算出部９５０は、フレームｔにおける信号の状態をq_t＝Ｈ_jと定義すると、音声状態確率と非音声状態確率の比Ｌ(t)を式(33)で算出する。

　ここで、Ｏ_0:t＝{Ｏ₀,…, Ｏ_t}であり、確率比Ｌ(t)はベイズの定理により次式のように展開される。

　また、雑音信号N_0:t＝{N₀,…, N_t}の時間変動を考慮すると式(34)は、式(35)のように拡張される。

式(35)は、過去のフレームの状態を考慮した再帰式（１次マルコフ過程）により、次式のように展開される。

ここで、p(q_t＝H_j|q_t-1＝H_i)＝α_i,j，p(Ｏ_t|q_t＝H_j,N_s)＝b_w,1,j(Ｏ_t)，p(N_t|N_t-1)＝1に相当し、確率p(Ｏ_t,q_t＝H_j,N_t)は、時間順方向に算出される前向き確率α_t,jに相当する。すなわち、式(36)は次式の再帰式により得られる。

　よって、音声状態／非音声状態確率比Ｌ(t)は式(38)により算出される。

　音声／非音声状態確率比算出部９５の処理フローを図１２に示す。前向き確率α_t,jの算出は、この動作フローに従って行われる。

　最初に確率比算出用バッファ９５１ａの読み出し処理にて、確率比算出用バッファ９５１ａよりフレームｔ-１の前向き確率α_t-1,jを取り出す（ステップS950）。ただし、ｔ＝０であれば、前向き確率α_t,jをα_t,0＝1，α_t,1＝０と設定する。

　次に、確率算出部９５０は、状態遷移確率テーブル９５１ｂより状態遷移確率ａ_i,jを取り出し、フレームｔの前向き確率α_t,jを式(37)に従って算出する（ステップS951）。そして、確率算出部９５０は更に式(38)により確率比L(t)を算出し、前向き確率α_t,jを確率比算出用バッファ９５１ａに記憶する（ステップS952）。

〔音声信号区間推定部９６〕
　図１３に音声信号区間推定部９６の機能構成例を示す。音声信号区間推定部９６は、閾値処理部９６０と、音声信号区間整形部９６１を備え、音声状態／非音声状態確率比Ｌ(t)を入力として音響信号Ａ_tのフレームｔが音声状態に属するか非音声状態に属するかを判定する。

　閾値処理部９６０は、音声状態／非音声状態確率比Ｌ(t)の値が、別途設定する閾値ＴＨ以上であればフレームｔが音声状態に属すると判断して１を出力し、閾値ＴＨ未満であればフレームｔが非音声状態に属すると判断して０を出力する。閾値ＴＨの値は、事前に固定された値に決定しておいても、或いは音響信号の特徴に応じて適応的に設定しても良い。

　音声信号区間整形部９６１は、閾値処理部９６０で得られた音声区間推定結果に対して整形処理を行うことにより誤り訂正を行う。誤り訂正は、閾値処理部９６０にて音声と見做されたフレームが所定フレーム数以上、例えば５フレーム以上継続すれば音声区間として確定する。また、非音声と見做されたフレームについても、所定数以上継続すれば非音声区間として確定する。これら所定フレーム数は、例えば、音声区間検出用にＳdurationフレームや、非音声区間検出用にＮdurationフレームと言った変数名で任意の数が設定できるようにして置くと良い。

　また、音声区間中に存在する短い非音声区間が検出された場合、その非音声区間の継続長が予め決めたＰauseフレーム数以下なら該当区間を音声区間と見做すようにしても良い。この音声信号区間整形部９６１を備えることで、少ないフレーム数の音声区間と非音声区間が発生しなくなるので、信号区間検出の動作を安定化することが可能となる。このようにして検出した音声区間、非音声区間を表す信号を区間推定情報Ｄ_ESとして出力する。必要に応じて音声区間、非音声区間を表す信号と共に音響信号Ａ_tを合わせて区間推定情報Ｄ_ESとして出力してもよい。あるいは検出した非音声区間により音響信号Ａ_t中の各非音声区間の全サンプルの振幅を０に設定し、区間推定情報Ｄ_ESとして出力してもよいし、検出した音声区間を音響信号から抽出し、区間推定情報Ｄ_ESとして出力してもよい。あるいは破線で示すように音声信号区間整形部９６１による処理を行わず、閾値処理部９６０の推定結果をそのままＤ_ESとして出力してもよい。

　図１４にこの発明の音声信号区間推定装置２００の機能構成例を示す。音声信号区間推定装置２００は、音声信号区間推定装置１００に対して、複数チャネルの音響ディジタル信号Ａ_t,chをフレーム毎に平均化する信号平均部５０と、周期成分パワーと非周期成分パワーを用いて音声確率と非音声確率を求める第２音響信号分析部６０を備える点と、区間推定情報生成部９の音声／非音声状態確率比算出部９５′が第２音響信号分析部６０の出力信号も用いて音声状態／非音声状態確率比Ｌ(t)を算出する点で異なる。これら異なる部分についての動作を説明する。

〔信号平均部５０〕
　信号平均部５０の動作フローを図１５に示す。信号平均部５０は、まず、複数チャネルの音響信号入力を、時間軸方向に一定時間幅で始点を移動させながら、一定時間長の音響信号をフレームとして切り出す。例えば、サンプリング周波数８ｋＨｚでサンプリングした２００サンプル点（２５ｍｓ）の音響信号A_t,chを、８０サンプル点（１０ｍｓ）ずつ始点を移動させながらチャネル毎に切り出す。その際、例えば次式(39)によるハミング窓ｗ(n)を利用して切り出す（ステップＳ５０）。

ここでｎはフレーム内のサンプル番号n=0, 1, …, Len-1であり、Lenは、フレームの切り出し波形のサンプル点数を表す。ここではLen=200である。chはチャネル番号ch=1,…,CHを表す。

　次に、式(40)により音響信号A_t,ch,nを対応サンプルｎ毎に平均化してモノラル信号である平均化信号A_t,nを出力する（ステップＳ５１）。

　なお、入力音響信号がモノラル信号、つまりＣＨ＝１の場合は、信号平均化処理（ステップS502）の処理を省略しても構わない。信号平均部５０を備えることで、多チャネルの入力音響信号を処理する際のメモリ使用量を大幅に削減することが可能となる。

　また、信号平均部５０において、式(40)に示す入力音響信号の平均化処理ではなく、フーリエ変換を用いて各チャネル毎に入力音響信号のパワースペクトルを算出してパワースペクトルレベルの平均化処理を行って各チャネルの平均パワースペクトルを出力するようにしても良い。

〔第２音響信号分析部６０〕
　図１６に第２音響信号分析部６０の機能構成例を示す。その動作フローを図１７に示す。第２音響信号分析部６０は、離散フーリエ変換部６１と、パワー算出部６２と、基本周波数推定部６３と、周期性成分パワー算出部６４と、減算部６５と、除算部６６と、確率算出部６７とを備える。

　離散フーリエ変換部６１は、平均化信号A_t,nを離散フーリエ変換して、平均化信号を時間領域の信号から周波数領域の周波数スペクトルに変換する（ステップＳ６１）。平均化信号A_t,nの周波数スペクトルＸ_t(k）は、式(41)で得られる。

ここでｋはサンプリング周波数をＭ等分した離散点を表し、Ｍは例えば２５６を用いる。
　パワー算出部６２は、平均化信号A_t,nの平均パワーρ_tを、離散フーリエ変換部６１の出力する周波数スペクトルＸ_t(k）から式(42)により算出する（ステップＳ６２）。

　基本周波数推定部６３は、パワー算出部６２が出力する平均パワーρ_tと、離散フーリエ変換部６１の出力する周波数スペクトルＸ_t(k）を入力として式(43)により平均化信号A_t,nの基本周波数f0_tを推定する（ステップＳ６３）。周波数スペクトルを用いた場合の基本周波数の推定は、例えば次の参考文献「Nakatani, T.and Irino, T.,”Robust and accurate fundamental frequency estimation based on dominant harmonic components,”Journal of the Acoustical Society of America,Vol.116,pp.3690-3700,2004.」に記載された推定方法によって行う。

　ここで、f0_tを推定基本周波数に対応する周波数スペクトルのビン番号、argmax(*)を(*)内を最大化するｇを出力する関数、ｖ_tをM/gの整数部分を表す関数とする。なお、周波数スペクトルを用いないで推定する場合には、例えば自己相関法（参考文献「Quatieri,T.F., ”Discrete-time Speech Signal Processing principles and practice,” Prentice-Hall,2002;pp.504-505」）によって推定を行う。自己相関法では、まず自己相関関数を求める。切り出し波形のサンプル点数をLen、そのｇ番目のサンプル点の信号の振幅をx_t(g)としたときに、自己相関関数の係数c_t(g)は次式に従って求まる。

　自己相関関数の係数c_t(g)をg＝1,…,Lenについて求める。次に、この自己相関関数の係数におけるｇの一定の探索範囲内、サンプリング周波数８kHzの場合に５０Ｈｚ～５００Ｈｚに相当する例えば１６≦ｇ≦１６０の範囲内において、c_t(g)が最大となるｇを検出する。その結果得られたｇは入力信号の探索範囲において最も支配的な周期性成分の周期長を表し、入力信号が単一の完全な周期信号である例えば正弦波の場合には、その周期長に相当する値になる。

　周期性成分パワー算出部６４は、離散フーリエ変換部６１の出力する周波数スペクトルＸ_t(k）と、パワー算出部６２の出力する平均化信号A_t,nの平均パワーρ_tと、基本周波数推定部６３の出力する基本周波数f0_tを入力として、平均化信号A_t,nの周期性成分のパワー^ρ^p _tを式(45)により推定する（ステップＳ６４）。

　ここで、f0_tは推定基本周波数に対応する周波数スペクトルのビン番号、ｖ_tをM/gの整数部分を表す関数とする。この周期性成分のパワー^ρ^p _tは、周波数スペクトルを用いずに推定することも可能である。その推定は次のようにして行う。まず、基本周波数推定部６３の出力を用いてｚ領域での表現において、Ｈ(z)＝１－ｚ^-f0tで表される周波数特性を持つ櫛型フィルタを構成する。次に、この櫛型フィルタを平均化信号に適用し、櫛型フィルタの周波数特性における零点に相当する部分（基本周波数成分とその整数倍の周波数成分）のパワーが抑圧された離散信号を得る。この結果、得られた信号の非周期成分パワーを^ρ^a _tとすると、周期性成分のパワーは次式で推定できる。

　このようにして求めた^ρ^p _tを周期性成分パワー算出部６４の出力としても良い。
　減算部６５は、パワー算出部６２の出力するパワーρ_tから、周期性成分パワー算出部６４が出力する周期性成分のパワー^ρ^p _tを式(48)で減算することで、周期性成分以外の非周期性成分のパワー^ρ^a _tを推定する（ステップＳ６５）。

　なお、前述では、まず周期性成分パワー^ρ^p _tを先に求めてから次に非周期性成分^ρ^a _tを求めたが、周期性成分パワー^ρ^p _tと非周期性成分パワー^ρ^a _tは合算するとρ_tに等しくなることを利用してまず周期性成分パワー^ρ^p _tを先に求める方法以外に、次のようにして非周期性成分パワー^ρ^a _tを先に求めてから、減算部６５によって周期性成分パワー^ρ^p _tを求めても良い。

　以上のようにして得られた周期性成分パワー^ρ^p _tと非周期性成分パワー^ρ^a _tを入力とし、除算部６６では、式(51)によりそれらの比を取り（ステップＳ６６）出力とする。

　確率算出部６７は、除算部６６が出力する比の値を入力として、平均化信号が非音声状態に属する確率と、音声状態に属する確率b_2,j(ρ_t)（音声／非音声確率）を次式によって算出する（ステップＳ６７）。

　ここでＣ₀,Ｃ₁は正規分布の定数項であり、expの項を積分した時の値が１に成るように補正する係数である。

〔音声／非音声状態確率比算出部９５′〕
　実施例１では音声／非音声状態確率比Ｌ(t)を式(38)により計算するために、音響信号分析部１０が出力する音声／非音声確率b_w,1,j(Ｏ_t)を使って式(37)により前向き確率α_t,jを求めた。実施例２の音声／非音声状態確率比算出部９５′は、音声／非音声状態確率比Ｌ(t)を式(38)により計算するために、音響信号分析部１０が出力する音声／非音声確率b_w,1,j(Ｏ_t)に第２音響信号分析部６０が出力する音声／非音声確率b_2,j(ρ_t)を乗じた値を用いて前向き確率α_t,jを式(54)により計算する点で、実施例１における音声／非音声状態確率比算出部９５と異なる。それ以外の動作は同じである。

　実施例２の音声信号区間推定装置２００によれば、音声信号区間推定装置１００に対して、周期性成分パワーと非周期性成分パワーの推定誤差に基づいた音声／非音声確率も考慮するので、更に音声信号区間推定の精度を高めることが可能である。

　図１８にこの発明の雑音抑圧機能付き音声信号区間推定装置３００の機能構成例を示す。雑音抑圧機能付き音声信号区間推定装置３００は、音声信号区間推定装置１００に雑音抑圧部７０の構成を追加して、音声区間信号と、その音声区間の音響信号に含まれる雑音を抑圧した雑音抑圧信号を出力するようにしたものである。

　雑音抑圧部７０は、音響信号と、音響信号分析部１０が出力する音声／非音声確率b_w,1,j(Ｏ_t)と、音声／非音声状態確率比算出部２０が出力する音声状態／非音声状態確率比Ｌ(t)を入力として、音響信号Ａ_tに含まれる雑音を抑圧する。

　図１９に雑音抑圧部７０の機能構成例を示す。雑音抑圧部７０は、無音用フィルタ係数生成部７１と、音声用フィルタ係数生成部７２と、フィルタ係数統合部７３と、雑音抑圧フィルタ適用部７４とを備える。

　無音用フィルタ係数生成部７１と、音声用フィルタ係数生成部７２は、それぞれ音響信号分析部１０内で計算されたフレームｔにおける雑音環境に適合した音声／非音声ＧＭＭパラメータμ_O,t,j,k,l、Σ_O,t,j,k,lと、対応分布インデックスSortIdx_t,j,1～SortIdx_t,j,(Rt,j)とから、無音成分若しくは音声成分を取り出すフィルタ係数Filter_t,j,lを生成する。対応分布インデックスは例えば図７に示した例では、対応分布インデックスSortIdx_t,j,1～SortIdx_t,j,3（ここではR_t,j=3）である。

式(55)と(56)において、β（０≦β≦１）は雑音の抑圧量を制御する係数であり、β＝０の場合は雑音を完全に抑圧し、β＝１の場合は雑音の抑圧は行われない。

　フィルタ係数統合部７３は、音声状態／非音声状態確率比L(t)を受けて、無音用フィルタ係数生成部７１、音声用フィルタ係数生成部７２で得られたフィルタ係数Filter_t,0,l及びFilter_t,1,lを統合し、最終的な雑音抑圧フィルタ係数Filter_t,lを次式により得る。

　なお、α_t,0,α_t,1は、式(37)に従って算出される前向き確率であり、α_t,0＋α_t,1＝1という定義のもと、音声状態／非音声状態確率比L(t)は次式によって得られる。

　雑音抑圧フィルタ適用部７４は、フィルタ係数統合部７３で得られた雑音抑圧フィルタ係数Filter_t,lを次式でインパルス応答フィルタ係数filter_t,nに変換する。

　ここで、MelDCT_m,nは、メル周波数の重み付けがなされた離散コサイン変換（DCT:　Discret Cosine Transform）係数である。MelDCT_m,nの算出方法は、例えば参考文献「ETSI ES 202 050 v.1.1.4,”Speech processing, Transmission and Quality aspects(STQ),Advanced Distributed Speech Recognition; Front-end feature extraction algorithm;　Compression algorithms,”　November 2005.p.18-p.19,　”5.1.9 Mel IDCT”」に記載されている。よって、その説明は省略する。

　その後、多チャネルの入力音響信号A_t,ch,nにインパルス応答filter_t,nを次式のように畳み込むことにより多チャネルの雑音抑圧音声s_t,ch,nを得る。

　この雑音抑圧信号s_t,ch,nが雑音抑圧部７４の出力信号である。なお、雑音抑圧部７０の構成を音声信号区間推定装置１００に追加する例で説明を行ったが、音声信号区間推定装置２００に雑音抑圧部７０を追加することで、雑音抑圧機能付き音声信号区間推定装置を構成することも出来る。

　なお、雑音抑圧機能付き音声信号区間推定装置３００は、音声信号区間推定装置１００に雑音抑圧部７０の構成を追加した構成としたが、上記した音声信号区間推定装置２００に雑音抑圧部７０の構成を追加した雑音抑圧機能付き音声信号区間推定装置としても良い。

〔実験結果〕
　この発明の音声信号区間推定装置の音声信号区間検出性能を評価する実験を行った。実験条件は次の通りである。データベースには、音声信号区間検出の評価用に設計されたCENSREC-1-Cを用いた。CENSREC-1-Cは、人工的に作成したシミュレーションデータと、実環境で収録した実データの２種類のデータを含んでおり、この実験では、実環境における雑音及び発生変形の影響等の音声品質劣化の影響を調査するため実データを用いて評価した。CENSREC-1-Cは、参考文献「CENSREC-1-C：雑音下音声区間検出評価基盤の構築、情報処理学会研究報告、SLP-63-1,pp.1-6, Oct.2006.」に示されている。

　CENSREC-1-Cの実データの収録は、学生食堂と街頭の２種類の環境で行われており、ＳＮ比（SNR）はそれぞれHigh SNR（騒音レベル６０ｄB（A）前後）とLow SNR（騒音レベル７０ｄB（A）前後）である。(A)は計測の特性を示すものである。音声データは、１名の話者が１～１２桁の連続数字を８～１０回、約２秒間隔で発話した音声を１ファイルとして収録しており、各環境において話者１名当たり４ファイルを収録している。発話者は１０名（男女各５名）である（但し評価対象は男性１名を除く９名分のデータ）。

　それぞれの信号は、サンプリング周波数８ｋＨｚ、量子化ビット数１６ビットで離散サンプリングされたモノラル信号である。この音響信号に対し、１フレームの時間長を２５ｍｓ（２００サンプル点）とし、１０ｍｓ（８０サンプル点）毎にフレームの始点を移動させて音響信号分析処理と第２音響信号分析処理を適用した。

　ＧＭＭには、１２次元の対数メルスペクトルを音響特徴量とする混合分布数３２のモデルを用い、それぞれ無音信号、クリーン音声信号を用いて学習した。パラメータ予測処理部１１２において現在のフレームの雑音確率モデルパラメータ予測値を求めるのに用いるパラメータεは0.001に設定した。必要分布決定処理部１１７の閾値Ｘは0.9に設定、状態遷移確率ａ_0,0，ａ_0,1，ａ_1,0，ａ_1,1，の値は、それぞれ0.8，0.2，0.9，0.1に設定した。音声信号区間推定部９６の閾値処理部９６０（図１３）の閾値ＴＨの値は１０を設定し、無音用フィルタ係数生成部７１と音声用フィルタ係数生成部７２（図１９）の雑音の抑圧制御係数βは0.0に設定した。
　性能の評価は次式の区間検出正解率Correct rateと区間検出正解精度Accuracyで行った。

　ここでＮは総発話区間数、Ｎ_cは正解発話区間検出数、Ｎ_fは誤発話区間検出数である。区間検出正解率Correct rateは、発話区間をどれだけ多く検出出来るかを評価する尺度であり、区間検出正解精度Accuracyは、発話区間をどれだけ過不足なく検出出来るかを評価する尺度である。

　図２０に評価結果を示す。図２０のＡ１、Ａ２がCENSREC-1-Cデータベースに規定されたベースライン、図２０のＢ１，Ｂ２が非特許文献２に開示された方法による結果、図２０のＣ１、Ｃ２がこの発明にとる結果を示す。区間検出正解率Correct rateの平均が90.43％に対して、この発明では92.03％と1.6％改善されている。また、区間検出正解精度Accuracyの平均は、非特許文献２に対して4.72％改善されている。図２１Ｂに、この発明の音声信号区間推定装置で得られた雑音抑圧出力の信号波形を示す。図２１Ａは音響入力信号波形である。このように提案技術により効果的に雑音が抑圧されていることが分かる。

　以上述べたようにこの発明の方法、つまり、必要とする分布の確率モデルのみを用いて音声信号区間を推定することで処理時間を短縮するとともに、確率重み算出処理部１１６で得られた確率重みｗ_Kurt,t,jで重み付けすることで非音声ＧＭＭの出力確率と音声ＧＭＭの出力確率の差異を強調することにより、非音声／音声の識別性を向上させることが出来る。

　なお、実施例１のパラメータ予測処理部１１２において、ランダムウオーク過程により１フレーム前の推定結果より現在のフレームのパラメータを予測する方法を説明したが、自己回帰法（線形予測法）等を用いても良い。この場合、自己回帰係数の次数に応じて最終的な雑音モデルパラメータの推定性能の向上が期待出来る。また、ＧＭＭ記憶部９４の代わりに、音響信号の確率モデルとしてＨＭＭ（Hidden Markov Model）等の他の確率モデルを用いても良い。

　また、上記方法及び装置において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

　また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

　この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ－ＲＡＭ（Random Access Memory）、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ－Ｒ（Recordable）/ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto Optical disc）等を、半導体メモリとしてＥＥＰ－ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

　また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

　また、各処理手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

　音声信号と雑音信号を含む音響ディジタル信号を入力として、その音響ディジタル信号のフレーム毎に予め生成した無音混合正規分布モデル、以下混合正規分布モデルをＧＭＭと呼ぶ、とクリーン音声ＧＭＭを用いて雑音環境に適合させた非音声ＧＭＭと音声ＧＭＭを生成し、それぞれのＧＭＭの中から最も小さい出力確率の１つ以上の正規分布を除いた残りの正規分布の非音声出力確率と音声出力確率を計算する音響信号分析部と、
　上記非音声出力確率と音声出力確立を用いて音声状態／非音声状態の状態遷移モデルに基づいた音声／非音声状態確率比を算出し、算出した上記確率比に基づいて音声区間に関する情報を生成し、音声区間推定情報として出力する区間推定情報生成部と、
　を含む音声信号区間推定装置。
　請求項１に記載した音声信号区間推定装置において、上記音響信号分析部は、
　初期の雑音確率モデルパラメータを推定する初期雑音確率モデル推定処理部と、
　１フレーム前の雑音確率モデルパラメータの推定結果より現在のフレームの雑音確率モデルパラメータをランダムウオーク過程により予測するパラメータ予測処理部と、
　現在のフレームの雑音確率モデルパラメータを入力として無音ＧＭＭとクリーン音声ＧＭＭに含まれる全ての正規分布のパラメータを更新するパラメータ更新処理部と、
　更新された正規分布のパラメータと無音ＧＭＭとクリーン音声ＧＭＭの複数の正規分布のパラメータを用いて現在のフレームにおける雑音環境に適合させた非音声ＧＭＭと音声ＧＭＭを生成する確率モデルパラメータ生成推定処理部と、
　上記フレームＧＭＭに含まれる各正規分布の出力確率を算出する出力確率算出処理部と、
　上記各正規分布の出力確率の散らばりの度合いを高次統計量でパラメータ化して非音声状態と音声状態のそれぞれの上記各正規分布の出力確率を重み付けする確率重みを算出する確率重み算出処理部と、
　上記出力確率の値が微小となる正規分布を取り除き、十分大きな出力確率を持つ正規分布のみを抽出する必要分布決定処理部と、
　上記パラメータ予測処理部で予測した現在のフレームの雑音確率モデルパラメータを、確率重み算出部が算出した確率重みを用いて加重平均する第１加重平均処理部と、
　第１加重平均処理部で加重平均された雑音確率モデルパラメータを、上記必要分布決定処理部が抽出した正規分布についてのみ加重平均する第２加重平均処理部と、
　を含む。
　請求項１に記載の音声信号区間推定装置において、上記音響信号分析部は、
　上記非音声出力確率及び音声出力確率の散らばり度合いを計算し、散らばり度合いが小さいほど、当該正規分布の出力確率が大きくなるように、その非音声出力確率及び音声出力確率を補正する確率重みをそれぞれ算出する確率重み算出処理部を含む。
　請求項１記載の音声信号区間推定装置において、上記音声信号分析部は、上記出力確率の大きい順に順次累積和を算出し、所定値を越える累積和を与える出力確率の正規分布を除去すべき上記最も小さい出力確率の１つ以上の正規分布と決定する必要分布決定処理部を含む。
　請求項１に記載の音声信号区間推定装置において、更に、
　複数チャネルの上記音響ディジタル信号をフレーム毎に平均化する信号平均部と、
　周期成分パワーと非周期成分パワーを用いて音声確率と非音声確率を求める第２音響信号分析部とを含み、
　上記区間推定情報生成部は、上記音響信号分析部と上記第２音響信号分析部が出力する音声確率及び非音声確率の対応するものをそれぞれ乗算し、乗算結果を用いて上記音声／非音声状態確率比を算出する。
　請求項１乃至５の何れか記載の音声信号区間推定装置において、上記区間推定情報生成部は、
　上記音声／非音声状態確率比を算出する音声／非音声状態確率比算出部と、
　上記音声／非音声状態確率比から当該フレームの音響信号が音声状態であるか非音声状態であるかを判定し、判定結果に基づいて上記音声区間推定情報を生成する音声信号区間推定部とを含む。
　請求項１乃至５の何れかに記載した音声信号区間推定装置は、更に、
上記区間推定情報生成部が出力する確率比と、上記音響信号分析部が出力する出力確率とを入力として雑音抑圧フィルタを生成し、上記音響ディジタル信号の雑音を抑圧する雑音抑圧部を含む。
　音声信号と雑音信号を含む音響ディジタル信号を入力として、その音響ディジタル信号のフレーム毎に予め生成した無音混合正規分布モデル、以下混合正規分布モデルをＧＭＭと呼ぶ、とクリーン音声ＧＭＭを用いて雑音環境に適合した非音声ＧＭＭ及び音声ＧＭＭの確率モデルを生成し、それぞれのＧＭＭの中から最も小さい出力確率の１つ以上の正規分布を除いた残りの正規分布の非音声出力確率と音声出力確率を計算する音響信号分析過程と、
　上記非音声出力確率と音声出力確率を用いて音声状態／非音声状態の状態遷移モデルに基づいた確率比を算出し、算出した上記確率比に基づいて音声区間に関する情報を生成し、音声区間推定情報として出力する区間推定情報生成過程と、
　を含む音声信号区間推定方法。
　請求項８に記載した音声信号区間推定方法において、上記音響信号分析過程は、
　初期の雑音確率モデルパラメータを推定する初期雑音確率モデル推定処理ステップと、
　１フレーム前の雑音確率モデルパラメータの推定結果より現在のフレームの雑音確率モデルパラメータをランダムウオーク過程により予測するパラメータ予測処理ステップと、
　現在のフレームの雑音確率モデルパラメータを入力として無音ＧＭＭとクリーン音声ＧＭＭに含まれる全ての正規分布のパラメータを更新するパラメータ更新処理ステップと、
　更新された正規分布のパラメータと無音ＧＭＭとクリーン音声ＧＭＭの複数の正規分布のパラメータを用いて現在のフレームにおける雑音環境に適合させた非音声ＧＭＭと音声ＧＭＭを生成する確率モデルパラメータ生成推定処理ステップと、
　上記フレームＧＭＭに含まれる各正規分布の出力確率を算出する出力確率算出処理ステップと、
　上記各正規分布の出力確率の散らばりの度合いを高次統計量でパラメータ化して非音声状態と音声状態のそれぞれの上記各正規分布の出力確率を重み付けする確率重みを算出する確率重み算出ステップと、
　上記出力確率の値が微小となる正規分布を取り除き、十分大きな出力確率を持つ正規分布のみを抽出する必要分布決定処理ステップと、
　上記パラメータ予測処理部で予測した現在のフレームの雑音確率モデルパラメータを、確率重み算出部が算出した確率重みを用いて加重平均する第１加重平均処理ステップと、
　第１加重平均処理部で加重平均された雑音確率モデルパラメータを、上記必要分布決定処理部が抽出した正規分布についてのみ加重平均する第２加重平均処理ステップと、
　を含む。
　請求項８に記載の音声信号区間推定方法において、上記音響信号分析過程は、
　上記非音声出力確率及び音声出力確率の散らばり度合いを計算し、散らばり度合いが小さいほど、当該正規分布の出力確率が大きくなるように上記非音声出力確率及び音声出力確率を補正する過程を含む。
　請求項８記載の音声信号区間推定方法において、上記音声信号分析過程は、上記出力確率の大きい順に順次累積和を算出し、所定値を越える累積和を与える出力確率の正規分布を除去すべき上記最も小さい出力確率の１つ以上の正規分布と決定する過程を含む。
　請求項８に記載の音声信号区間推定方法において、更に、
　信号平均部が、複数チャネルの上記音響ディジタル信号をフレーム毎に平均化する信号平均過程と、
　周期成分パワーと非周期成分パワーを用いて音声確率と非音声確率を求める第２音響信号分析過程とを含み、
　上記区間推定情報生成過程は、上記音響信号分析部と上記第２音響信号分析部が出力する音声確率及び非音声確率の対応するものをそれぞれ乗算し、乗算結果を用いて上記音声／非音声状態確率比を算出する過程である。
　請求項８乃至１２の何れか記載の音声信号区間推定方法において、上記区間推定情報生成過程は、上記必要とする分布の出力確率を用いて音声状態／非音声状態の状態遷移モデルに基づいた確率比を算出する音声／非音声状態確率比算出過程と、音声信号区間推定部が、上記確率比から当該フレームの音響信号が音声状態であるか非音声状態であるかを判定し、判定結果に基づいて上記音声区間推定情報を生成する音声信号区間推定過程とを含む。
　請求項８乃至１２の何れかに記載した音声信号区間推定方法に、更に、
上記区間推定情報生成過程が出力する確率比と、上記音響信号分析部が出力する出力確率とを入力として雑音抑圧フィルタを生成し、上記音響ディジタル信号の雑音を抑圧する雑音抑圧過程を含む。
　請求項１に記載した装置としてコンピュータを機能させるためのプログラム。
　請求項１に記載した装置としてコンピュータを機能させるためのプログラムを記録した記録媒体。