JP6139430B2

JP6139430B2 - 信号処理装置、方法及びプログラム

Info

Publication number: JP6139430B2
Application number: JP2014025197A
Authority: JP
Inventors: 小川　厚徳; 厚徳小川; 慶介木下; 堀　貴明; 貴明堀; 中谷　智広; 智広中谷; 中村　篤; 篤中村
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2014-02-13
Filing date: 2014-02-13
Publication date: 2017-05-31
Anticipated expiration: 2034-02-13
Also published as: JP2015152705A

Description

この発明は、音声信号、音響信号等の信号を処理するための技術に関する。

雑音や残響のある環境で音響信号を収音すると、本来の信号に音響歪み（雑音や残響）が重畳された信号が観測される。音響信号が音声の場合、重畳した音響歪みの影響により音声の明瞭度は大きく低下してしまう。その結果、本来の音声信号の性質を抽出することが困難となり、例えば、音声認識システムの認識率が低下する。この認識率の低下を防ぐためには、重畳した音響歪みを取り除く工夫が必要である。

そこで、以下に述べる従来の信号処理装置が提案されている。なお、この信号処理装置は、音声認識の他にも、例えば、補聴器、ＴＶ会議システム、機械制御インターフェース、楽曲を検索したり採譜したりする音楽情報処理システムなどに利用することが出来る。

[信号処理装置]
図１に従来の信号処理装置の機能構成例を示して、その動作を簡単に説明する。信号処理装置は、フーリエ変換部１０１と、特徴量生成部１０２と、マッチング部１０３と、音声強調フィルタリング部１０４と、事例モデル記憶部１０５とを備えている。

フーリエ変換部１０１には、雑音/残響を含む音声が入力信号として入力される。入力信号は例えば３０ｍｓ程度の短時間ハミング窓で窓かけされ、窓かけされた入力信号は離散フーリエ変換を経て振幅スペクトルに変換される（ステップＳ１，図２）。振幅スペクトルとは、周波数スペクトルの振幅データのことである。振幅スペクトルは、特徴量生成部１０２及び音声強調フィルタリング部１０４に提供される。

特徴量生成部１０２は、フーリエ変換部１０１が出力する振幅スペクトルの全てを、例えばメルケプストラム特徴量に変換する（ステップＳ２，図２）。一般的に広く使われているメルケプストラムは高々１０〜２０次程度であるが、事例データを正確に表すために、高い次数（例えば、３０〜１００次程度）のメルケプストラムを用いる。なお、メルケプストラム以外の特徴量を用いても良い。生成された特徴量は、マッチング部１０３に提供される。

事例モデル記憶部１０５には、事例に対応したクリーン音声のデータと、フレームごとの特徴量に対して最大の尤度を与えるガウス混合分布のインデックスの系列（セグメント）である事例モデルＭとが記憶されている。事例に対応したクリーン音声のデータとは、例えば事例に対応したクリーン音声の振幅スペクトルのことである。事例モデルＭに含まれるセグメントの例を図３に示す。各セルはｉ番目の時間フレームに対応する。各セル内の数字は最大の尤度を与えるガウス混合分布ｇ中のガウス分布のインデックスmiを表す。事例モデルは、音声コーパスなどから得られる大量のクリーン音声と、あらゆる環境で得られる雑音/残響データ（雑音信号の波形や、室内インパルス応答）とを用い、さまざま
な環境での観測信号を模擬生成し、その模擬観測信号を特徴量領域へ変換したものを用いて、事前に事例モデル生成装置によって生成され、予め事例モデル記憶部１０５に記憶される。この事例モデル生成装置の詳細については、後述する。

マッチング部１０３は、入力信号の特徴量と事例モデル記憶部１０５内に含まれる特徴量の事例とのマッチングを行い、入力信号に一番近い事例モデル中のセグメントを探索する（ステップＳ３，図２）。探索により見つかった入力信号に一番近い事例モデル中のセグメントについての情報は、音声強調フィルタリング部１０４に提供される。マッチング部１０３の詳細については、後述する。

音声強調フィルタリング部１０４は、マッチング部１０３で探索した入力信号に一番近い事例モデル中のセグメントに対応するクリーン音声の振幅スペクトルを用いて音声強調のためのフィルタを作成し、作成されたフィルタを用いて入力信号をフィルタリングする（ステップＳ４，図２）。入力信号に一番近い事例モデル中のセグメントに対応するクリーン音声の振幅スペクトルは、事例モデル記憶部１０５から読み込んだものを用いる。音声強調フィルタリング部１０４の詳細については、例えば非特許文献１及び特許文献１を参照のこと。

この信号処理装置によれば、従来は困難であった、非常に時間変化の多い雑音の除去が可能となることが報告されている。非常に時間変化の多い雑音とは、背景雑音に対して、例えば目覚まし時計のアラーム音などの雑音のことである。

［事例モデル生成装置］
ここで、事例モデル記憶部１０５に記憶される事例モデルを生成する事例モデル生成装置について説明する。図４に、事例モデル生成装置の機能構成例を示す。事例モデル生成装置は、フーリエ変換部２０１と、特徴量生成部２０２と、ガウス混合モデル学習部２０３と、最尤ガウス分布計算部２０４とを備えている。

事例モデル生成装置の各部の機能は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

事例モデル生成装置への入力は、様々な雑音/残響環境の音声データである。なお、この様々な雑音/残響環境の音声データの中には、クリーン環境の音声データが含まれているとする。この様々な雑音/残響環境の音声データのそれぞれについて以下の処理が行われる
フーリエ変換部２０１及び特徴量生成部２０２は、それぞれ図１のフーリエ変換部１０１及び特徴量生成部１０２と同様であるため、重複説明を省略する。

ガウス混合モデル学習部２０３は、特徴量生成部２０２で得られた各短時間フレームｔでの特徴量ｘ_ｉを学習データとして、通常の最尤推定法によりガウス混合モデルｇを得る。ガウス混合モデルｇは、以下の式により示される。

ｇ（ｘ_ｉ|ｍ）は、平均μ_ｍ、分散Σ_ｍを持つｍ番目のガウス分布を表す。ｇ（ｘ_ｉ|ｍ）は、多くの場合多次元ガウス分布であり、その次元数は特徴量ｘ_ｉの次元数と同じである。ｇ（ｘ_ｉ|ｍ）が多次元ガウス分布である場合、平均μ_ｍ及び分散Σ_ｍのそれぞれはベクトルとなる。ここでは、ｇ（ｘ_ｉ|ｍ）が多次元ガウス分布であったとしても、記載の簡略化のためｇ（ｘ_ｉ|ｍ）のことを単にガウス分布と表現する。ｗ（ｍ）は、ｍ番目のガウス分布に対する混合重みを表す。Ｑは混合数を表す。Ｑには、例えば、4096や8192など、かなり大きな値を設定する。

最尤ガウス分布計算部２０４は、各時間フレームｉに対して最大の尤度を与えるガウス混合分布ｇの中のガウス分布のインデックスｍ_ｉを求め、そのインデックスｍ_ｉの時間系列を事例モデルＭとして求める。事例モデルＭは、ガウス分布のインデックスｍ_ｉの集合とガウス混合モデルｇを用いて以下の式に示すように表される。

ここで、ｍ_ｉは、ｉ番目のフレームの特徴量x_ｉに対して最大の尤度を与えるガウス分布のインデックスであり、ガウス混合分布ｍの中のガウス分布ｇ（ｘ_ｉ|ｍ）を表している。Ｉは学習データの総フレーム数を表す。例えば、1時間の学習データを仮定すると、Ｉ＝３．５×１０^５となる。生成された事例モデルＭは、事例モデル記憶部１０５（図１）に記憶される。この事例モデルの生成は、様々な雑音/残響環境の学習データのそれぞれに対して行われる。

なお、環境がクリーンの場合は、フーリエ変換部２０１から出力された振幅スペクトルデータも事例モデル記憶部１０５（図１）に記憶される。

［マッチング部１０３の具体処理］
ここで、マッチング部１０３における処理を詳述する。簡単のためあるひとつの雑音/残響環境の事例モデルＭのみを考える。また、簡単のため入力信号の特徴量系列と学習データセグメントのマッチングの際の時間伸縮は考えないものとする。マッチング部１０３は、入力信号の特徴量ｙ_ｔと事例モデルＭとを用いて、入力信号の特徴量系列に最も近い学習データのセグメントを探索し、入力信号に含まれるクリーン音声に一番近いクリーン音声系列を与えると思われる学習データセグメントＭ^ｔ _{ｕ：ｕ＋τｍａｘ}を出力する。

入力信号は、Ｔ個の時間フレームから成るとし、その入力信号の特徴量系列をｙ＝{ｙ_ｔ:ｔ=1，２，…，Ｔ}とする。また、ｙ_{ｔ：ｔ＋τ}を入力信号の特徴量の時間フレームｔからｔ＋τまでの系列とする。そして、Ｍ_{ｕ：ｕ＋τ}＝{ｇ，ｍ_ｉ：ｉ＝ｕ，ｕ＋１，…，ｕ＋τ}を、学習データの中のｕ番目からｕ＋τ番目までの連続する時間フレームに対応するガウス分布系列とする。

入力信号の特徴量系列ｙ_{ｔ：ｔ＋τ}と学習データの中のあるセグメントとの距離の定義や、入力信号の特徴量系列ｙ_{ｔ：ｔ＋τ}と一番近い学習データの探索方法としては、ユークリッド距離など、他のいくつかの方法を考えることが出来る。ここでは、入力信号の特徴量系列に対する一番近い学習データセグメントは、入力信号の特徴量系列に良く一致する学習データセグメントの中でも長さの最も長いものとする。つまり、入力信号の特徴量系列に最も近い学習データセグメントＭ^ｔ _{ｕ：ｕ＋τ}は、次式に示す事後確率を最大化することで求めることが出来る。

ここで、ｐ（Ｍ_ｕ:ｕ+τ|ｙ_ｔ:ｔ+τ）は事後確率を表し、ｙ_ｔ:ｔ+τとＭ_ｕ:ｕ+τが比較的よく一致している場合、τが長ければ長いほど高い事後確率を与えるという特徴を持っている。この特徴の証明は、非特許文献１に詳述されている。より長いセグメントを探索するという方策を取ることで、ある時間に局所的に存在する雑音などの影響を受け難くなり、雑音などに対して比較的ロバストなマッチングが行われることが期待できる。

式（２）の分子の項ｐ（ｙ_ｔ:ｔ+τ|Ｍ_ｕ:ｕ+τ）は、Ｍ_ｕ:ｕ+τに対応する学習データセグメントに対するｙ_ｔ:ｔ+τの尤度である。その尤度は次式で計算される。

簡単のため、隣り合うフレームは独立であることを仮定している。式（２）の分母の第１項は、学習データ中のあらゆる時間フレームｕ’を開始点として，ｐ（ｙ_ｔ:ｔ+τ|Ｍ_{ｕ’:ｕ’+τ}）の和を取ったものである。式（２）の分母の第２項は、ガウス混合モデルｇに対するｙ_ｔ:ｔ+τの尤度であり、次式で計算される。

ここでマッチング部１０３におけるセグメント探索処理の手順を更に具体的に記述する。まず、セグメントの最大長を（τ_lim＋１）フレームに制限する。例えば、セグメントの最大長を３０フレームと制限するならば、τ_lim＝２９である。この制限の下で、まず、τ＝０、すなわち、セグメント長＝１として、式（２）に従い、最大事後確率を与えるセグメント長＝１のセグメントを見つける。次にτ＝１、すなわち、セグメント長＝２として、式（２）に従い、最大事後確率を与えるセグメント長＝２のセグメントを見つける。この処理をτ＝τ_limまで繰り返し、最後に、見つかった異なる長さのセグメント候補の中から，最大事後確率を与えるセグメントを見つける。その最大事後確率を与えるセグメントの長さがτ_maxである。

このマッチング部１０３におけるセグメント探索処理は、図３に示すような、Ｉフレーム分のリニアなメモリで表現できる事例モデルＭ上で行うことができる。

J. Ming and R. Srinivasan, and D. Crooke, "A Corpus-Based Approach to Speech Enhancement From Nonstationary Noise," IEEE Trans. On Acoustics, Speech and Signal Processing, 19(4), pp. 822-836, 2011.

特開２０１３−３７１７４号公報

従来の信号処理装置では、マッチング部１０３において、入力信号に一番近いセグメントを探索する際に、異なる長さのセグメントを比較している。しかし、本来は異なる長さのセグメントの比較はできない。このため、従来の信号処理装置においては、必ずしも精度の高いセグメント探索ができているとは限らなかった。

この発明は、従来よりも精度の高いセグメント探索を行うことができる信号処理装置、方法及びプログラムを提供することを目的とする。

この発明の一態様による信号処理装置は、所定の信号の各フレームの特徴量に対して最大の尤度を与える、ガウス混合分布の中のガウス分布のインデックスの系列であるセグメントが記憶されている事例モデル記憶部と、事例モデル記憶部に記憶されているセグメントを候補として、入力信号の特徴量系列に対して最大の事後確率を与えるセグメントを探索するマッチング部と、を備えており、入力信号を２つに分割したときの前半部分を前半部分信号とし後半部分を後半部分信号として、マッチング部における事後確率は、前半部分信号についてその前半部分信号に対応する長さのセグメントに基づいて評価した尤度と、後半部分信号についてガウス混合分布によるモデルに基づいて評価した尤度とを用いて表現される。

精度の高いセグメント探索を行うことができる。

信号処理装置の例を説明するためのブロック図。信号処理方法の例を説明するためのフローチャート。セグメントの例を説明するための図。事例モデル生成装置の例を説明するための図。式（７）によるセグメント評価を説明するための図。

以下、図面を参照して、信号処理装置及び方法の実施形態を説明する。

この実施形態による信号処理装置は、従来の信号処理装置と同様に、図１に例示するように、フーリエ変換部１０１と、特徴量生成部１０２と、マッチング部１０３と、音声強調フィルタリング部１０４と、事例モデル記憶部１０５とを備えている。

以下、従来とは異なる部分である、マッチング部１０３を中心に説明する。第一実施形態による信号処理装置のフーリエ変換部１０１と、特徴量生成部１０２と、音声強調フィルタリング部１０４とは、それぞれ従来の信号処理装置のフーリエ変換部１０１と、特徴量生成部１０２と、音声強調フィルタリング部１０４と同様であるため、重複説明を省略する。

この実施形態による信号処理装置は、マッチング部１０３において、異なるセグメント長のセグメントを、フレームという共通の長さの下で公平に評価することにより、入力信号に一番近いセグメントを探索する。

この実施形態のマッチング部１０３では、式（３）の代わりに、所定の長さのフレームの入力信号の特徴量系列ｙ_ｔ:ｔ+τの尤度を、事例モデルＭとガウス混合モデルｇの両方を用いて計算する。すなわち、ｙ_ｔ:ｔ+τをｙ_ｔ:ｔ+νとｙ_{ｔ＋ν＋１:ｔ+τ}に分割して（０≦ν≦τ）、前者をＭで、後者をｇで、評価する形にする。具体的には入力信号の特徴量系列ｙ_ｔ:ｔ+τの尤度は、次式のように計算される。

ここで、ｐ（ｙ_ｔ:ｔ+ν｜Ｍ_ｕ:ｕ+ν）は、事例モデルＭ_ｕ:ｕ+νが与えられたときの入力信号の特徴量系列のｙ_ｔ:ｔ+νの尤度を表す。ｐ（ｙ_{ｔ＋ν＋１:ｔ+τ}｜φ_{ｕ＋ν＋１：ｕ＋τ}）は、混合モデルφ_{ｕ＋ν＋１：ｕ＋τ}が与えられたときの入力信号の特徴量系列ｙ_ｔ:ｔ+νの尤度を表す。φ_{ｕ＋ν＋１：ｕ＋τ}は、フレームｕ＋ν＋１からフレームｕ＋τに対応するガウス混合分布である。p(ｙ_ｔ:ｔ+ν｜Ｍ_ｕ:ｕ+ν, φ_{ｕ＋ν＋１：ｕ＋τ})は、事例モデルＭ_ｕ:ｕ+ν及び混合モデルφ_{ｕ＋ν＋１：ｕ＋τ}が与えられたときの入力信号の特徴量系列ｙ_ｔ:ｔ+νの尤度を表す。

ｙ_ｔ:ｔ+νは、入力信号の特徴量系列ｙ_ｔ:ｔ+τのうち事例モデルのセグメントＭ_ｕ:ｕ+νに対応する長さの入力信号の特徴量系列である。言い換えれば、ｙ_ｔ:ｔ+νは、フレームｔからフレームｔ＋νに対応する入力信号の特徴量系列である。ｙ_{ｔ＋ν＋１:ｔ+τ}は、入力信号の特徴量系列ｙ_ｔ:ｔ+τのうち事例モデルのセグメントＭ_ｕ:ｕ+νの長さを超える部分の入力信号の特徴量系列である。言い換えれば、ｙ_{ｔ＋ν＋１:ｔ+τ}は、フレームｔ＋ν＋１からフレームｔ＋τに対応する入力信号の特徴量系列である。

すなわち、式（５）は、評価対象の入力信号を所定長（ここではτ＋１）の入力信号として、評価対象の入力信号の特徴量系列のうち事例モデルに基づいて評価できる部分は事例モデルで尤度ｐ（ｙ_ｔ:ｔ+ν｜Ｍ_ｕ:ｕ+ν）を評価し、事例モデルのセグメントＭ_ｕ:ｕ+νで評価できない（事例モデルのセグメントの長さを超える部分の）評価対象の入力信号の特徴量系列ｙ_{ｔ＋ν＋１:ｔ+τ}については混合モデルｇに基づいて尤度ｐ（ｙ_{ｔ＋ν＋１:ｔ+τ}｜φ_{ｕ＋ν＋１：ｕ＋τ}）を評価することを意味する。

言い換えれば、入力信号を２つに分割したときの前半部分を前半部分信号とし後半部分を後半部分信号として、マッチング部１０３が式（４）に基づいて計算する尤度は、前半部分信号についてその前半部分信号に対応する長さのセグメントに基づいて評価した尤度ｐ（ｙ_ｔ:ｔ+ν｜Ｍ_ｕ:ｕ+ν）と、後半部分信号について上記ガウス混合分布によるモデルに基づいて評価した尤度ｐ（ｙ_{ｔ＋ν＋１:ｔ+τ}｜φ_{ｕ＋ν＋１：ｕ＋τ}）とが統合された尤度であると言える。

混合モデルｇに基づく尤度は、モデル全体で平滑化した尤度のようなものに相当する。事例モデルで評価できない部分については平均的な尤度で代用することで、等しいフレーム長で入力信号を公平に評価しようとするものである。

このｙ_ｔ:ｔ+τの尤度を用いて，マッチング部１０３ではｙ_ｔ:ｔ+τに最も適合するセグメントＭ^ｔ _{ｕ：ｕ＋νmax}を次式（６）（７）に従い求める。ｔ，τ，ｕ，ν，ｕ’，ν’は整数である。

ここで、式（７）の分母は、学習データのあらゆる開始点ｕ’と、ｙ_ｔ:ｔ+τのあらゆる分割点ν’について、ｐ（ｙ_ｔ:ｔ+τ|Ｍ_{ｕ′:ｕ′+ν′}，φ_{ｕ′＋ν′＋１：ｕ′＋τ}）の和を取ったものである。

式（７）により定義される事後確率ｐ（Ｍ_ｕ:ｕ+ν，φ_{ｕ＋ν＋１：ｕ＋τ}｜ｙ_ｔ:ｔ+τ）は、上記式（４）及び上記式（５）に示したように、入力信号を２つに分割したときの前半部分を前半部分信号とし後半部分を後半部分信号として、部分信号についてその前半部分信号に対応する長さのセグメントに基づいて評価した尤度ｐ（ｙ_ｔ:ｔ+ν｜Ｍ_ｕ:ｕ+ν）と、後半部分信号について上記ガウス混合分布によるモデルに基づいて評価した尤度ｐ（ｙ_{ｔ＋ν＋１:ｔ+τ}｜φ_{ｕ＋ν＋１：ｕ＋τ}）とを用いて表現される。

セグメントの最大長を、従来の方法と同様に、（τ_lim＋１）フレームに制限する。例
えば、セグメントの最大長を３０フレームと制限するならば、τ_lim＝２９となる。この
制限の下での式（７）によるセグメント評価を図示すると、図５のようになる。この図から明らかなように、この実施形態によれば、あらゆるセグメント長のセグメントが、（τ_lim＋１）フレームという共通の長さの下で、公平に評価されていることがわかる。別の見方をすれば、この実施形態によれば、最適なセグメント長（ν_max）と，セグメント開
始点（ｕ）の探索を同時に行っていることになる。

以下、本発明による式（７）の事後確率が、従来手法による式（２）の事後確率と同様に、ｙ_ｔ:ｔ+τとＭ_ｕ:ｕ+τが比較的よく一致している場合、τが長ければ長いほど高い事後確率を与えるという特徴を持っていることを証明する。このため，ｙ_ｔ:ｔ+τをｙ_ｔ:ｔ+νとｙ_{ｔ＋ν＋１:ｔ+τ}に分割して前者をＭで後者をｇで評価する場合（式（４））と、ｙ_ｔ:ｔ+τをｙ_ｔ:ｔ+ν-1とｙ_{ｔ＋ν:ｔ+τ}に分割して前者をＭで後者をｇで評価する場合とで、事後確率の大小を比較する。

式（７）から明らかなように、両場合において分母は等しくなるので、両場合の比は、式（４）から、以下の尤度比に等しくなる。

ここで、ｙ_ｔ＋νがｍ_ｕ＋νによく一致していると仮定する。この場合、式（８）の分母は、ｗ（ｍ_ｕ＋ν）ｇ（ｙ_ｔ＋ν｜ｍ_ｕ＋ν）と近似できる。よって、式（８）は、１／ｗ（ｍ_ｕ＋ν）に等しい。ｗ（ｍ_ｕ＋ν）は１以下であるので、式（８）は１以上になる。これにより、ｙ_{ｔ：ｔ＋τ}とＭ_{ｕ：ｕ＋τ}が比較的よく一致している場合、τが長ければ長いほど式（７）で計算される事後確率が高くなるという特徴を持っていることが分かる。

［変形例等］
なお、この発明は、複数の雑音／残響環境の事例モデルを考慮する場合、及び、マッチング時に時間伸縮を考える場合についても、非特許文献１に記載されているように、拡張可能である。

上記信号処理装置及び方法において説明した処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

また、信号処理装置における各部をコンピュータによって実現する場合、信号処理装置の各部が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、その各部がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、各処理手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

１０１フーリエ変換部
１０２特徴量生成部
１０３マッチング部
１０４音声強調フィルタリング部
１０５事例モデル記憶部

Claims

所定の信号の各フレームの特徴量に対して最大の尤度を与える、ガウス混合分布の中のガウス分布のインデックスの系列であるセグメントが記憶されている事例モデル記憶部と、
上記事例モデル記憶部に記憶されているセグメントを候補として、入力信号の特徴量系列に対して最大の事後確率を与えるセグメントを探索するマッチング部と、を含み、
上記入力信号を２つに分割したときの前半部分を前半部分信号とし後半部分を後半部分信号として、
上記マッチング部における事後確率は、上記前半部分信号についてその前半部分信号に対応する長さのセグメントに基づいて評価した尤度と、上記後半部分信号について上記ガウス混合分布によるモデルに基づいて評価した尤度とを用いて表現される、
信号処理装置。
請求項１の信号処理装置であって、
ｔ，τ，ｕ，ν，ｕ’，ν’を整数とし、フレームｔからフレームｔ＋τに対応する上記入力信号の特徴量をｙ_{ｔ：ｔ＋τ}とし、上記事例モデル記憶部に記憶されているフレームｕからフレームｕ＋νに対応するセグメントをＭ_{ｕ：ｕ＋ν}とし、フレームｕ＋ν＋１からフレームｕ＋τに対応する上記ガウス混合分布をφ_{ｕ＋ν＋１：ｕ＋τ}とし、Ｍ_{ｕ：ｕ＋ν}及びφ_{ｕ＋ν＋１：ｕ＋τ}が与えられたときのｙ_{ｔ：ｔ＋τ}の事後確率をｐ（ｙ_{ｔ：ｔ＋τ}｜Ｍ_{ｕ：ｕ＋ν}，φ_{ｕ＋ν＋１：ｕ＋τ}）として、
上記事後確率は、以下に定義されるｐ（Ｍ_{ｕ：ｕ＋ν}，φ_{ｕ＋ν＋１：ｕ＋τ}｜ｙ_{ｔ：ｔ＋τ}）である、

信号処理装置。
事例モデル記憶部には、所定の信号の各フレームの特徴量に対して最大の尤度を与える、ガウス混合分布の中のガウス分布のインデックスの系列であるセグメントが記憶されているとして、
マッチング部が、上記事例モデル記憶部に記憶されているセグメントを候補として、入力信号の特徴量系列に対して最大の事後確率を与えるセグメントを探索するマッチングステップと、を含み、
上記入力信号を２つに分割したときの前半部分を前半部分信号とし後半部分を後半部分信号として、
上記マッチングステップにおける事後確率は、上記前半部分信号についてその前半部分信号に対応する長さのセグメントに基づいて評価した尤度と、上記後半部分信号について上記ガウス混合分布によるモデルに基づいて評価した尤度とを用いて表現される、
信号処理方法。
請求項１又は２の信号処理装置の各部としてコンピュータを機能させるためのプログラム。