JP5438703B2

JP5438703B2 - 特徴量強調装置、特徴量強調方法、及びそのプログラム

Info

Publication number: JP5438703B2
Application number: JP2011035951A
Authority: JP
Inventors: 拓也吉岡; 晋治渡部
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2011-02-22
Filing date: 2011-02-22
Publication date: 2014-03-12
Anticipated expiration: 2031-02-22
Also published as: JP2012173537A

Description

本発明は、音声認識装置、話者識別装置、話者照合装置等のパターン認識装置の入力として用いられる特徴量に重畳した雑音を除去する特徴量強調装置、特徴量強調方法、及びそのプログラムに関する。

パターン認識装置は、音声信号から抽出された特徴量の時系列を入力として受け取り、当該音声信号に含まれるパターン情報を出力する。例えば、音声認識装置は、当該音声信号に含まれる発話内容のテキストを出力する。特徴量としては、メル周波数ケプストラム係数（ＭＦＣＣ）からなるベクトルや、知覚的線形予測係数（ＰＬＰ)からなるベクトル等が広く用いられている。音声信号が劣化している場合、抽出された特徴量には雑音が重畳される。こうした雑音は、パターン認識装置の信頼性を低下させてしまう。

特徴量強調装置は、劣化特徴量の時系列(y(t))_{t=1,・・・,T}を入力として受け取り、劣化する前の所望特徴量の推定値の時系列(x(t))_{t=1,・・・,T}を出力する。本明細書では、劣化特徴量のうち、特徴量強調装置に入力された劣化特徴量を特に観測特徴量と呼ぶ。また、特徴量強調装置が出力する所望特徴量の推定値を強調特徴量と呼ぶ。特徴量強調装置を用いることによって、上記の問題を緩和することができる。

非特許文献１に開示された特徴量強調方法では、各短時間フレームｔにおいて、観測特徴量y(t)が与えられた場合の所望特徴量x(t)の事後分布p(x(t)|y(t))の平均値を強調特徴量x^(t)とする。また、この方法は、短時間フレーム毎に独立に特徴量強調処理を実施するため、以下では時間フレームのインデックスｔを省略して記述する。

所望特徴量の事後分布は、次のような混合分布（混合数Ｋ）の形式で表現されると仮定する。

混合要素の条件つき事後確率p(k|y)（式(1)の右辺第一項）は、劣化特徴量の確率密度関数p(y)が混合正規分布で近似されるという仮定に基づいて、ベイズの定理を用いて次のように計算される。

これを混合要素事後重みと呼び、ｗ_kと記述する。

π_k、μ_k、Σ_kはそれぞれ、上記混合正規分布のｋ番目の重み、平均ベクトル、共分散行列を表し、ｆ_N(・)は多変量（Ｄ次元）正規分布の確率密度関数を表す。

混合正規分布の各重み、各平均ベクトル、各共分散行列は、訓練データセット（劣化特徴量の集合、これを特に基本訓練データセットと呼ぶ）を用いて予め学習される。

一方、条件つき事後確率p(x|k,y)（式(1)の右辺第二項）は、ｙの線形回帰を平均とする正規分布で近似されるという仮定に基づいて、次式のように表現される。

Ａ_kはｋ番目の回帰行列、β_kはｋ番目のバイアススペクトルである。Γ_kは回帰誤差共分散行列であるが、この値は特徴量強調には使用されない。これらのパラメータは、ステレオ訓練データセット（所望特徴量と劣化特徴量の対の集合）を用いて予め学習される。平均Ａ_k・ｙ＋β_kを特に、条件つき強調特徴量と呼び、x^_kとおく。

そして、式(1)〜(6)より、強調特徴量x^は次式により与えられる。

図７は上記従来の特徴量強調方法の処理フロー例を示したものであり、図８は当該処理フローを実行する特徴量強調装置１０の機能構成例を示したものである。データ入力ステップ（Ｓ１）では、観測特徴量の時系列(y(t))_{t=1,・・・,T}を所定の入力手段を用いて入力する。例えば、観測特徴量の時系列を記録したコンピュータのファイルを読み込む、あるいはマイクロホン等の入力端子に供給された劣化音声信号の各短時間フレームから特徴量を抽出する方法等が考えられる。モデル入力ステップ（Ｓ２）では、所定の記憶源に記録された劣化特徴量の混合正規分布のパラメータ(π_k)_{k=1,・・・,K}、(μ_k)_{k=1,・・・,K}、(Σ_k)_{k=1,・・・,K}と、回帰のパラメータ(Ａ_k)_{k=1,・・・,K}、(β_k)_{k=1,・・・,K}を読み込む。記憶源は例えば、コンピュータのファイルである。混合要素事後重み計算ステップ（Ｓ３）では、混合要素事後重み計算部１１が、混合要素ｋ＝１、・・・、Ｋに対して、それぞれ混合要素事後重みｗ_k(t)を式(2)に従って計算する。条件つき強調特徴量計算ステップ（Ｓ４）では、条件つき強調特徴量計算部１２が、混合要素ｋ＝１、・・・、Ｋに対して、それぞれ条件つき強調特徴量x^_k(t)を式(5)に従って計算する。重みつき平均計算ステップ（Ｓ５）では、重みつき平均計算部１３が、強調特徴量x^(t)を式(7)に従って計算する。混合要素事後重み計算ステップ、条件つき強調特徴量計算ステップ、重みつき平均計算ステップは、ループを構成しており、一回の繰り返しでは一つの時間フレームｔについて、特徴量強調を実施する。出力ステップ（Ｓ６）では、強調特徴量の時系列(x(t))_{t=1,・・・,T}を所定の出力先に出力する。例えば、強調特徴量の時系列を記録するコンピュータのファイルに書き出す、パターン認識装置の入力端子に伝達する、等が考えられる。

Li Deng, Alex Acero, Li Jiang, Jasha Droppo, and Xuedong Huang,"High-performance robust speech recognition using stereo training data", Proc. ICASSP, 2001, p.301-304 Jasha Droppo, Alex Acero, and Li Deng,"Evaluation of the SPLICE algorithm on the Aurora 2 database", Proc. Eurospeech, 2001, p.217-220

非特許文献１に開示された上記の方法では、特徴量強調のパラメータは、基本訓練データセットを用いて学習された劣化特徴量の混合正規分布とステレオ訓練データセットを用いて学習された所望特徴量の条件つき事後確率密度関数で決まる。しかし、これらのモデルの学習と特徴量強調の両方のプロセスにおいて雑音の特徴量は明示的に考慮されない。そのため、この方法が適切に動作するためには、特徴量強調装置に入力される観測特徴量に含まれる雑音が、訓練データセットやステレオ訓練データセットにも含まれていなければならない。

また、他の特徴量強調方法として、非特許文献２に開示された方法が挙げられる。この方法では、劣化特徴量から予め雑音特徴量を減算することで雑音の影響を正規化する。しかし、音声信号から特徴量を抽出するプロセスには様々な非線形処理が含まれるため、単純な減算では雑音の影響は正規化されない。

本発明の目的は、基本訓練データセットやステレオ訓練データセットでカバーされない種類の雑音が観測特徴量に含まれる場合でも適切な強調特徴量を得ることが可能な、特徴量強調装置、特徴量強調方法、及びそのプログラムを提供することにある。

本発明の特徴量強調装置は、少なくとも所望特徴量に雑音特徴量が重畳された観測特徴量の時系列データが入力され、前記所望特徴量の推定値である強調特徴量の時系列データを出力する特徴量強調装置であって、前記所望特徴量の事後分布は混合分布の形式で表現され、前記混合分布の各混合要素に対する事後重みを決定するための識別パラメータと前記混合分布の各混合要素に対する条件つき強調特徴量を計算するための回帰パラメータとが更に入力され、前記回帰パラメータは前記各混合要素に対する第１回帰行列、第２回帰行列、及びバイアスベクトルから構成されるものであり、各短時間フレームの前記雑音特徴量を、前記各短時間フレームの前記観測特徴量に基づき推定する雑音推定部と、前記短時間フレーム毎に、前記各混合要素に対する事後重みを、前記観測特徴量と前記雑音特徴量と前記識別パラメータとから計算する混合要素事後重み計算部と、前記短時間フレーム毎に、前記各混合要素に対する条件つき強調特徴量を、前記観測特徴量と前記第１回帰行列との積と、前記雑音特徴量と前記第２回帰行列との積と、前記バイアスベクトルと、の和として計算する条件つき強調特徴量計算部と、前記各短時間フレームの強調特徴量を、前記各混合要素に対する条件つき強調特徴量を前記各混合要素に対する事後重みを用いて重みつき平均することで計算する重みつき平均計算部と、を備える。

本発明の特徴量強調装置、特徴量強調方法、及びそのプログラムは、混合要素の事後重みと条件つき強調特徴量を、それぞれ観測特徴量だけでなく雑音特徴量も用いて計算する。そのため、観測特徴量に含まれる雑音特徴量を直接的に取り扱うことができ、基本訓練データセットやステレオ訓練データセットでカバーされない種類の雑音が観測特徴量に含まれる場合でも適切な強調特徴量を得ることができる。

本発明の特徴量強調装置の機能構成例を示す図。本発明の特徴量強調装置の処理フロー例を示す図。第１学習部の機能構成例を示す図。第１学習部の処理フロー例を示す図。第２学習部の機能構成例を示す図。第２学習部の処理フロー例を示す図。従来技術による特徴量強調装置の処理フロー例を示す図。従来技術による特徴量強調装置の機能構成例を示す図。

以下、本発明の実施形態について、詳細に説明する。

図１に本発明の特徴量強調装置１００の機能構成例を、図２にその処理フロー例をそれぞれ示す。

本発明の特徴量強調装置１００は、所望特徴量に雑音特徴量が重畳された観測特徴量y(t)（ｔは観測特徴量の時系列データを構成する短時間フレームのインデックス）と当該観測特徴量の抽出元である劣化音声信号Y(t)とが入力され、所望特徴量の推定値である強調特徴量x^(t)を出力する特徴量強調装置である。

本発明においては、観測特徴量y(t)と雑音特徴量n(t)とが与えられた場合の所望特徴量x(t)の事後分布p(x(t)｜y(t),n(t))の平均値を強調特徴量x^(t)とする。

また、本発明においては、所望特徴量の事後分布は混合分布（混合数Ｋ）の形式で次式のように表現されると仮定する。

特徴量強調装置１００は、音声区間検出部１１０と雑音推定部１２０と混合要素事後重み計算部１３０と条件つき強調特徴量計算部１４０と重みつき平均計算部１５０とを備える。

特徴量強調装置１００には、まず、観測特徴量y(t)と劣化音声信号Y(t)とが入力される（Ｓ１１）とともに、予め学習された、混合分布の各混合要素ｋ（ｋ＝１、・・・、Ｋ）に対する事後重みを決定するための識別パラメータと各混合要素ｋに対する第１回帰行列Ａ_k、第２回帰行列Ｂ_k、及びバイアスベクトルγ_kからなる所望特徴量を推定するための回帰パラメータとが入力される（Ｓ１２）。観測特徴量y(t)と劣化音声信号Y(t)は、これらが記録された電子ファイルを読み込む、あるいはマイクロホン等の入力端子に供給された劣化音声信号の各短時間フレームから特徴量を抽出すること、等により入力される。この実施例では、識別パラメータは、観測特徴量y(t)と雑音特徴量n(t)との結合である拡張特徴量z(t)＝[y(t)^T,n(t)^T]^T（Ｔは転置を表す）の混合正規分布のパラメータである。具体的には、混合正規分布のｋ番目の混合要素の重みπ_k、平均ベクトルμ_k、共分散行列Σ_kである。これらの識別パラメータについても、これが記録された電子ファイルを読み込むこと等により入力される。

音声区間検出部１１０は、観測特徴量y(t)の各短時間フレームが、抽出元の劣化音声信号Y(t)において、音声が存在する区間（音声存在区間）に属するか音声が存在しない区間（音声非存在区間）に属するかを検出する（Ｓ１３）。これによって、音声非存在区間に属する短時間フレームの集合Ｔ_Nが得られる。なお、音声区間検出部１１０の実装には、劣化音声信号Y(t)ないし観測特徴量y(t)を入力とする公知の音声区間検出方法を用いる。

雑音推定部１２０は、雑音特徴量n(t)を音声非存在区間Ｔ_Nに属する短時間フレームｔ'の観測特徴量y(t')に基づき推定する（Ｓ１４）。例えば、短時間フレームｔ'の観測特徴量y(t')の集合の平均値として次式のように求める。

なお、雑音特徴量n(t)の算出には、上記の方法に限らず、任意の方法を用いてよい。例えば、特徴量がＭＦＣＣのベクトルであると仮定した場合には、参考文献１に示されたＥＭアルゴリズムを用いることができる。
〔参考文献１〕Li Deng, Jasha Droppo, and Alex Acero, “Recursive estimation of nonstationary noise using iterative stochastic approximation for robust speech recognition,” IEEE Transactions on Speech and Audio Processing, 2003, 11 (6), p.568-580

混合要素事後重み計算部１３０は、短時間フレームｔ毎に各混合要素ｋに対する事後重みw_k(t)を、観測特徴量y(t)と雑音特徴量n(t)と識別パラメータとから計算する（Ｓ１５）。各混合要素ｋに対する事後重みw_k(t)は、式(8)の右辺第一項の、混合要素の条件つき事後確率p(k｜y(t),n(t))に相当するものであり、この実施例では、p(k｜y(t),n(t))は拡張特徴量ｚ(t)の確率密度関数p(y(t),n(t))が混合正規分布で近似されるという仮定に基づいて、ベイズの定理を用いて次のように計算される。

ここで、ｆ_N(・)は多変量（Ｄ次元）正規分布の確率密度関数を表す（式(4)参照）。この実施例では、各重みπ_k、各平均μ_k、各共分散行列Σ_kが識別パラメータを構成する。

条件つき強調特徴量計算部１４０は、短時間フレームｔ毎に各混合要素ｋに対する条件つき強調特徴量x^_k(t)を、観測特徴量y(t)と第１回帰行列Ａ_kとの積と、雑音特徴量n(t)と第２回帰行列Ｂ_kとの積と、バイアスベクトルγ_kと、の和として計算する（Ｓ１６）。すなわち、式(8)の右辺第二項の所望特徴量の条件つき事後確率密度関数p(x(t)｜k,y(t),n(t))は、y(t)とn(t)に基づく線形回帰を平均とする正規分布で近似されるという仮定に基づいて、次式のように表現される。

式(11)において、平均(Ａ_k・y(t)＋Ｂ_k・n(t)＋γ_k)が条件つき強調特徴量x^_k(t)に相当する。一方、Δkは回帰誤差共分散行列であり、特徴量強調には使用されない。なお、本実施例では行列Ｂ_kには何ら制約を課さないが、何らかの制約を課してもよい。例えば、行列Ｂ_kの第一行目以外は全て０とすることが考えられる。この場合、雑音特徴量n(t)の一番目の成分のみが特徴量強調に寄与することになる。

重みつき平均計算部１５０は、各短時間フレームｔの強調特徴量x^(t)を、各混合要素ｋに対する条件つき強調特徴量x^_k(t)の、各混合要素ｋに対する事後重みw_k(t)による重みつき平均として次式のように計算する（Ｓ１７）。

なお、各混合要素ｋに対する事後重みw_k(t)を最大にするｋ⁰(t)に対応する条件つき強調特徴量を強調特徴量としてもよい。

混合要素事後重み計算部１３０（Ｓ１５）、条件つき強調特徴量計算部１４０（Ｓ１６）、重みつき平均計算部１５０（Ｓ１７）の各処理は、図２に示すようにループを構成しており、１回の繰り返しでは１つの短時間フレームｔについて特徴量強調を実施する。そして、対象とする全ての短時間フレームについて強調特徴量x^(t)を計算した後、得られた強調特徴量x^(t)の時系列を所定の出力先に出力する（Ｓ１８）。例えば、電子ファイルに書き出したり、パターン認識装置の入力端子に伝達する。

なお、特徴量強調装置１００に最初に入力される識別パラメータと回帰パラメータＡ_k、Ｂ_k、γ_kは、それぞれ予め学習される。

識別パラメータが、この実施例のように拡張特徴量の混合正規分布のパラメータπ_k、μ_k、Σ_kである場合、例えば、劣化特徴量と雑音特徴量の対の集合である第２訓練データセットを用いて、最尤推定法や最大事後確率法等の方法により学習を行うことができる。なお、混合正規分布のパラメータの具体的な学習方法については、参考文献２などで公知であるため、説明を省略する。
[参考文献２]高村大也、「言語処理のための機械学習入門」、コロナ社、2010年

一方、所望特徴量の回帰パラメータＡ_k、Ｂ_k、γ_kは、例えば、所望特徴量、劣化特徴量、雑音特徴量の三つ組みの集合(x[i],y[i],n[i])_{i=1,・・・,N}からなる第１訓練データセットを用いて学習を行うことができる（Ｎは第１訓練データセットに含まれるデータ組数）。この学習のため、例えば、図３に示す学習部１６０を設け、図４に示すような学習処理を予め行うことが考えられる。学習部１６０は条件つき事後確率計算手段１６１と回帰パラメータ計算手段１６２とを備える。事後確率計算手段１６１は、各三つ組み(x[i],y[i],n[i])に対して、各混合要素ｋの条件つき事後確率ｕ_i,kをｕ_i,k＝p(k｜y[i],n[i])により計算する（Ｓ２１）。この式の右辺は、式(10)により計算することができる。続いて、回帰パラメータ計算手段１６２は、各三つ組み(x[i],y[i],n[i])に対して、各混合要素ｋの回帰パラメータＡ_k、Ｂ_k、γ_kを、次の正規方程式を解くことにより計算して出力する（Ｓ２２）。

ここで、v[i]は、y[i]とn[i]と定数１を結合したベクトル、Ｃ_kはＡ_k、Ｂ_k、γ_kを結合した行列である。

以上説明したように、本発明においては混合要素の事後重みと条件つき強調特徴量を、それぞれ観測特徴量だけでなく雑音特徴量も用いて計算する。そのため、観測特徴量に含まれる雑音特徴量を直接的に取り扱うことができ、基本訓練データセットやステレオ訓練データセットでカバーされない種類の雑音が観測特徴量に含まれる場合でも適切な強調特徴量を得ることができる。

実施例２は、特徴量強調装置１００に最初に入力される識別パラメータとして、各混合要素ｋに対する対数線形モデルの重みベクトルw'_kを用いる構成である。

この構成は、実施例１の方法とは、混合要素事後重み計算部１３０における各混合要素の事後重みの計算方法が異なる。具体的には、各混合要素ｋに対する事後重みw_k(t)は、観測特徴量y(t)と雑音特徴量n(t)との結合である拡張特徴量z(t)が与えられた場合の混合要素の事後重みとして対数線形モデルに基づいて計算される。すなわち、各混合要素ｋに対する事後重みw_k(t)は、実施例１と同様に、式(8)の右辺第一項の混合要素の条件つき事後確率p(k｜y(t),n(t))に相当するが、p(k｜y(t),n(t))は対数線形モデルを用いて次のように計算する。

ここで、φ(・)は予め定められた任意のベクトル関数である。

特徴量強調装置１００に識別パラメータとして入力される、各混合要素ｋに対する対数線形モデルの重みベクトルw'_kは、所望特徴量、劣化特徴量、雑音特徴量の三つ組みの集合(x[i],y[i],n[i])_{i=1,・・・,N}からなる第１訓練データセットを用いて予め学習しておく。この学習のため、例えば、図５に示す学習部１７０を設け、図６に示すような学習処理を行うことが考えられる。学習部１７０は、参照混合正規分布学習手段１７１と参照混合要素識別手段１７２と重み推定手段１７３とを備える。参照混合正規分布学習手段１７１は、所望特徴量x[i]の集合を用いて、所望特徴量x[i]の混合正規分布のパラメータを学習する（Ｓ３１）。所望特徴量x[i]の混合正規分布の各混合要素ｋのパラメータは、

なお、混合正規分布のパラメータの具体的な学習方法については、参考文献２などで公知であるため説明を省略する。参照混合要素識別手段１７２は、各所望特徴量x[i]に対して、条件つき事後確率p(k｜x[i])を最大にする参照混合要素ｋ_iを次のように計算する（Ｓ３２）。

なお、条件つき事後確率p(k｜x[i])は、ベイズの定理により次のように計算できる。

重み推定手段１７３は、参照混合要素ｋ_iと、劣化特徴量y[i]と雑音特徴量n[i]との組の集合と、を用いて、各混合要素ｋに対する対数線形モデルの重みベクトルw'_kを、正則化項つき最尤推定法により計算して出力する（Ｓ３３）。具体的には、各混合要素ｋについて、第１訓練データセットの三つ組み(x[i],y[i],n[i])のうち、参照混合要素ｋ_iがｋであるものＩ_k＝{ｉ;ｋ_i＝ｋ}を集め、Ｉ_kに含まれる劣化特徴量y[i]と雑音特徴量n[i]を用いて、重みベクトルw'_kを正則化項つき最尤推定法により推定する。なお、正則化項つき最尤推定法による対数線形モデルの重みベクトルの推定方法は、参考文献２などで公知であるため説明を省略する。

実施例２の構成においても、実施例１と同様、混合要素の事後重みと条件つき強調特徴量を、それぞれ観測特徴量だけでなく雑音特徴量も用いて計算する。そのため、観測特徴量に含まれる雑音特徴量を直接的に取り扱うことができ、基本訓練データセットやステレオ訓練データセットでカバーされない種類の雑音が観測特徴量に含まれる場合でも適切な強調特徴量を得ることができる。

本発明の特徴量強調装置及び特徴量強調方法における各処理は、上記に従った時系列の順序で実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本発明の特徴量強調装置の各機能は必要に応じ、併合・分割しても構わない。その他、本発明において表現されている技術的思想の範囲内で適宜変更が可能である。

本発明の特徴量強調装置を構成する各部・各手段をコンピュータによって実現する場合、各部・各手段が担う機能の処理内容はプログラムによって記述される。そのプログラムは、例えば、ハードディスク装置に格納されており、実行時には、必要なプログラムやデータがＲＡＭ(Random Access Memory)に読み込まれて、そのプログラムがＣＰＵにより実行されることにより、コンピュータ上で各処理内容が実現される。

Claims

少なくとも所望特徴量に雑音特徴量が重畳された観測特徴量の時系列データが入力され、前記所望特徴量の推定値である強調特徴量の時系列データを出力する特徴量強調装置であって、
前記所望特徴量の事後分布は混合分布の形式で表現され、
前記混合分布の各混合要素に対する事後重みを決定するための識別パラメータと、前記各混合要素に対する第１回帰行列、第２回帰行列、及びバイアスベクトルからなる、前記混合分布の各混合要素に対する条件つき強調特徴量を計算するための回帰パラメータと、が更に入力され、
各短時間フレームの前記雑音特徴量を、前記各短時間フレームの前記観測特徴量に基づき推定する雑音推定部と、
前記短時間フレーム毎に、前記各混合要素に対する事後重みを、前記観測特徴量と前記雑音特徴量と前記識別パラメータとから計算する混合要素事後重み計算部と、
前記短時間フレーム毎に、前記各混合要素に対する条件つき強調特徴量を、前記観測特徴量と前記第１回帰行列との積と、前記雑音特徴量と前記第２回帰行列との積と、前記バイアスベクトルと、の和として計算する条件つき強調特徴量計算部と、
前記各短時間フレームの強調特徴量を、前記各混合要素に対する条件つき強調特徴量を前記各混合要素に対する事後重みを用いて重みつき平均することで計算する重みつき平均計算部と、
を備える特徴量強調装置。
請求項１に記載の特徴量強調装置において、
前記回帰パラメータを、所望特徴量と劣化特徴量と雑音特徴量の三つ組みの集合である第１訓練データセットを用いて予め学習して出力する第１学習部を更に備え、
前記第１学習部は、
前記三つ組みに対して、各混合要素の条件つき事後確率を計算する条件つき事後確率計算手段と、
前記回帰パラメータを、前記三つ組みと前記各混合要素の条件つき事後確率とからなる正規方程式を解くことにより計算して出力する回帰パラメータ計算手段と、
を備える
ことを特徴とする特徴量強調装置。
請求項１又は２に記載の特徴量強調装置において、
前記識別パラメータは、観測特徴量と雑音特徴量との結合である拡張特徴量の混合分布のパラメータであり、
前記混合要素事後重み計算部は、前記各混合要素に対する混合要素事後重みを、前記拡張特徴量が与えられた場合の前記混合分布の事後確率としてベイズの定理に従って計算する
ことを特徴とする特徴量強調装置。
請求項３に記載の特徴量強調装置において、
前記拡張特徴量の混合分布のパラメータは、拡張特徴量の混合正規分布の重みと平均ベクトルと共分散行列であり、劣化特徴量と雑音特徴量の組の集合である第２訓練データセットを用いて学習されたものである
ことを特徴とする特徴量強調装置。
請求項１又は２に記載の特徴量強調装置において、
前記識別パラメータは、前記各混合要素に対して定義された対数線形モデルの重みベクトルであり、
前記混合要素事後重み計算部は、前記各混合要素に対する事後重みを、観測特徴量と雑音特徴量との結合である拡張特徴量が与えられた場合の混合要素の事後確率として前記対数線形モデルに基づいて計算する
ことを特徴とする特徴量強調装置。
請求項５に記載の特徴量強調装置において、
前記各混合要素に対する対数線形モデルの重みベクトルを、所望特徴量と劣化特徴量と雑音特徴量の三つ組みの集合である第１訓練データセットを用いて予め学習して出力する第２学習部を更に備え、
前記第２学習部は、
前記第１訓練データセットの所望特徴量の集合を用いて、所望特徴量の混合正規分布のパラメータを学習する参照混合正規分布学習手段と、
前記所望特徴量の混合正規分布のパラメータを用いて、各所望特徴量に対して、条件つき事後確率を最大にする参照混合要素を計算する参照混合要素識別手段と、
前記参照混合要素と、前記第１訓練データセットの前記劣化特徴量と前記雑音特徴量との組の集合と、を用いて、前記各混合要素に対する対数線形モデルの重みベクトルを、正則化項つき最尤推定法により計算して出力する重み推定手段と、
を備える
ことを特徴とする特徴量強調装置。
少なくとも所望特徴量に雑音特徴量が重畳された観測特徴量の時系列データが入力され、前記所望特徴量の推定値である強調特徴量の時系列データを出力する特徴量強調方法であって、
前記所望特徴量の事後分布は混合分布の形式で表現され、
前記混合分布の各混合要素に対する事後重みを決定するための識別パラメータと、前記各混合要素に対する第１回帰行列、第２回帰行列、及びバイアスベクトルからなる、前記混合分布の各混合要素に対する条件つき強調特徴量を計算するための回帰パラメータと、が更に入力され、
各短時間フレームの前記雑音特徴量を、前記各短時間フレームの前記観測特徴量に基づき推定する雑音推定ステップと、
前記短時間フレーム毎に、前記各混合要素に対する事後重みを、前記観測特徴量と前記雑音特徴量と前記識別パラメータとから計算する混合要素事後重み計算ステップと、
前記短時間フレーム毎に、前記各混合要素に対する条件つき強調特徴量を、前記観測特徴量と前記第１回帰行列との積と、前記雑音特徴量と前記第２回帰行列との積と、前記バイアスベクトルと、の和として計算する条件つき強調特徴量計算ステップと、
前記各短時間フレームの強調特徴量を、前記各混合要素に対する条件つき強調特徴量を前記各混合要素に対する事後重みを用いて重みつき平均することで計算する重みつき平均計算ステップと、
を実行する特徴量強調方法。
請求項７に記載の特徴量強調方法において、
前記回帰パラメータを、所望特徴量と劣化特徴量と雑音特徴量の三つ組みの集合である第１訓練データセットを用いて学習して出力する第１学習ステップを予め実行し、
前記第１学習ステップは、
前記三つ組みに対して、各混合要素の条件つき事後確率を計算する条件つき事後確率計算サブステップと、
前記回帰パラメータを、前記三つ組みと前記各混合要素の条件つき事後確率とからなる正規方程式を解くことにより計算して出力する回帰パラメータ計算サブステップと、
を実行する
ことを特徴とする特徴量強調方法。
請求項７又は８に記載の特徴量強調方法において、
前記識別パラメータは、観測特徴量と雑音特徴量との結合である拡張特徴量の混合分布のパラメータであり、
前記混合要素事後重み計算ステップは、前記各混合要素に対する混合要素事後重みを、前記拡張特徴量が与えられた場合の前記混合分布の事後確率としてベイズの定理に従って計算する
ことを特徴とする特徴量強調方法。
請求項９に記載の特徴量強調方法において、
前記拡張特徴量の混合分布のパラメータは、拡張特徴量の混合正規分布の重みと平均ベクトルと共分散行列であり、劣化特徴量と雑音特徴量の組の集合である第２訓練データセットを用いて学習されたものである
ことを特徴とする特徴量強調方法。
請求項７又は８に記載の特徴量強調方法において、
前記識別パラメータは、前記各混合要素に対して定義された対数線形モデルの重みベクトルであり、
前記混合要素事後重み計算ステップは、前記各混合要素に対する事後重みを、観測特徴量と雑音特徴量との結合である拡張特徴量が与えられた場合の混合要素の事後確率として前記対数線形モデルに基づいて計算する
ことを特徴とする特徴量強調方法。
請求項１１に記載の特徴量強調方法において、
前記各混合要素に対する対数線形モデルの重みベクトルを、所望特徴量と劣化特徴量と雑音特徴量の三つ組みの集合である第１訓練データセットを用いて学習して出力する第２学習ステップを予め実行し、
前記第２学習ステップは、
前記第１訓練データセットの所望特徴量の集合を用いて、所望特徴量の混合正規分布のパラメータを学習する参照混合正規分布学習サブステップと、
前記所望特徴量の混合正規分布のパラメータを用いて、各所望特徴量に対して、条件つき事後確率を最大にする参照混合要素を計算する参照混合要素識別サブステップと、
前記参照混合要素と、前記第１訓練データセットの前記劣化特徴量と前記雑音特徴量との組の集合と、を用いて、前記各混合要素に対する対数線形モデルの重みベクトルを、正則化項つき最尤推定法により計算して出力する重み推定サブステップと、
を実行する
ことを特徴とする特徴量強調方法。
請求項１乃至６のいずれかに記載の特徴量強調装置としてコンピュータを機能させるためのプログラム。