JP5438703B2 - 特徴量強調装置、特徴量強調方法、及びそのプログラム - Google Patents

特徴量強調装置、特徴量強調方法、及びそのプログラム Download PDF

Info

Publication number
JP5438703B2
JP5438703B2 JP2011035951A JP2011035951A JP5438703B2 JP 5438703 B2 JP5438703 B2 JP 5438703B2 JP 2011035951 A JP2011035951 A JP 2011035951A JP 2011035951 A JP2011035951 A JP 2011035951A JP 5438703 B2 JP5438703 B2 JP 5438703B2
Authority
JP
Japan
Prior art keywords
feature
mixed
feature amount
feature quantity
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011035951A
Other languages
English (en)
Other versions
JP2012173537A (ja
Inventor
拓也 吉岡
晋治 渡部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011035951A priority Critical patent/JP5438703B2/ja
Publication of JP2012173537A publication Critical patent/JP2012173537A/ja
Application granted granted Critical
Publication of JP5438703B2 publication Critical patent/JP5438703B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声認識装置、話者識別装置、話者照合装置等のパターン認識装置の入力として用いられる特徴量に重畳した雑音を除去する特徴量強調装置、特徴量強調方法、及びそのプログラムに関する。
パターン認識装置は、音声信号から抽出された特徴量の時系列を入力として受け取り、当該音声信号に含まれるパターン情報を出力する。例えば、音声認識装置は、当該音声信号に含まれる発話内容のテキストを出力する。特徴量としては、メル周波数ケプストラム係数(MFCC)からなるベクトルや、知覚的線形予測係数(PLP)からなるベクトル等が広く用いられている。音声信号が劣化している場合、抽出された特徴量には雑音が重畳される。こうした雑音は、パターン認識装置の信頼性を低下させてしまう。
特徴量強調装置は、劣化特徴量の時系列(y(t))t=1,・・・,Tを入力として受け取り、劣化する前の所望特徴量の推定値の時系列(x(t))t=1,・・・,Tを出力する。本明細書では、劣化特徴量のうち、特徴量強調装置に入力された劣化特徴量を特に観測特徴量と呼ぶ。また、特徴量強調装置が出力する所望特徴量の推定値を強調特徴量と呼ぶ。特徴量強調装置を用いることによって、上記の問題を緩和することができる。
非特許文献1に開示された特徴量強調方法では、各短時間フレームtにおいて、観測特徴量y(t)が与えられた場合の所望特徴量x(t)の事後分布p(x(t)|y(t))の平均値を強調特徴量x^(t)とする。また、この方法は、短時間フレーム毎に独立に特徴量強調処理を実施するため、以下では時間フレームのインデックスtを省略して記述する。
所望特徴量の事後分布は、次のような混合分布(混合数K)の形式で表現されると仮定する。
Figure 0005438703
混合要素の条件つき事後確率p(k|y)(式(1)の右辺第一項)は、劣化特徴量の確率密度関数p(y)が混合正規分布で近似されるという仮定に基づいて、ベイズの定理を用いて次のように計算される。
Figure 0005438703
これを混合要素事後重みと呼び、wkと記述する。
Figure 0005438703
πk、μk、Σkはそれぞれ、上記混合正規分布のk番目の重み、平均ベクトル、共分散行列を表し、fN(・)は多変量(D次元)正規分布の確率密度関数を表す。
Figure 0005438703
混合正規分布の各重み、各平均ベクトル、各共分散行列は、訓練データセット(劣化特徴量の集合、これを特に基本訓練データセットと呼ぶ)を用いて予め学習される。
一方、条件つき事後確率p(x|k,y)(式(1)の右辺第二項)は、yの線形回帰を平均とする正規分布で近似されるという仮定に基づいて、次式のように表現される。
Figure 0005438703
kはk番目の回帰行列、βkはk番目のバイアススペクトルである。Γkは回帰誤差共分散行列であるが、この値は特徴量強調には使用されない。これらのパラメータは、ステレオ訓練データセット(所望特徴量と劣化特徴量の対の集合)を用いて予め学習される。平均Ak・y+βkを特に、条件つき強調特徴量と呼び、x^kとおく。
Figure 0005438703
そして、式(1)〜(6)より、強調特徴量x^は次式により与えられる。
Figure 0005438703
図7は上記従来の特徴量強調方法の処理フロー例を示したものであり、図8は当該処理フローを実行する特徴量強調装置10の機能構成例を示したものである。データ入力ステップ(S1)では、観測特徴量の時系列(y(t))t=1,・・・,Tを所定の入力手段を用いて入力する。例えば、観測特徴量の時系列を記録したコンピュータのファイルを読み込む、あるいはマイクロホン等の入力端子に供給された劣化音声信号の各短時間フレームから特徴量を抽出する方法等が考えられる。モデル入力ステップ(S2)では、所定の記憶源に記録された劣化特徴量の混合正規分布のパラメータ(πk)k=1,・・・,K、(μk)k=1,・・・,K、(Σk)k=1,・・・,Kと、回帰のパラメータ(Ak)k=1,・・・,K、(βk)k=1,・・・,Kを読み込む。記憶源は例えば、コンピュータのファイルである。混合要素事後重み計算ステップ(S3)では、混合要素事後重み計算部11が、混合要素k=1、・・・、Kに対して、それぞれ混合要素事後重みwk(t)を式(2)に従って計算する。条件つき強調特徴量計算ステップ(S4)では、条件つき強調特徴量計算部12が、混合要素k=1、・・・、Kに対して、それぞれ条件つき強調特徴量x^k(t)を式(5)に従って計算する。重みつき平均計算ステップ(S5)では、重みつき平均計算部13が、強調特徴量x^(t)を式(7)に従って計算する。混合要素事後重み計算ステップ、条件つき強調特徴量計算ステップ、重みつき平均計算ステップは、ループを構成しており、一回の繰り返しでは一つの時間フレームtについて、特徴量強調を実施する。出力ステップ(S6)では、強調特徴量の時系列(x(t))t=1,・・・,Tを所定の出力先に出力する。例えば、強調特徴量の時系列を記録するコンピュータのファイルに書き出す、パターン認識装置の入力端子に伝達する、等が考えられる。
Li Deng, Alex Acero, Li Jiang, Jasha Droppo, and Xuedong Huang,"High-performance robust speech recognition using stereo training data", Proc. ICASSP, 2001, p.301-304 Jasha Droppo, Alex Acero, and Li Deng,"Evaluation of the SPLICE algorithm on the Aurora 2 database", Proc. Eurospeech, 2001, p.217-220
非特許文献1に開示された上記の方法では、特徴量強調のパラメータは、基本訓練データセットを用いて学習された劣化特徴量の混合正規分布とステレオ訓練データセットを用いて学習された所望特徴量の条件つき事後確率密度関数で決まる。しかし、これらのモデルの学習と特徴量強調の両方のプロセスにおいて雑音の特徴量は明示的に考慮されない。そのため、この方法が適切に動作するためには、特徴量強調装置に入力される観測特徴量に含まれる雑音が、訓練データセットやステレオ訓練データセットにも含まれていなければならない。
また、他の特徴量強調方法として、非特許文献2に開示された方法が挙げられる。この方法では、劣化特徴量から予め雑音特徴量を減算することで雑音の影響を正規化する。しかし、音声信号から特徴量を抽出するプロセスには様々な非線形処理が含まれるため、単純な減算では雑音の影響は正規化されない。
本発明の目的は、基本訓練データセットやステレオ訓練データセットでカバーされない種類の雑音が観測特徴量に含まれる場合でも適切な強調特徴量を得ることが可能な、特徴量強調装置、特徴量強調方法、及びそのプログラムを提供することにある。
本発明の特徴量強調装置は、少なくとも所望特徴量に雑音特徴量が重畳された観測特徴量の時系列データが入力され、前記所望特徴量の推定値である強調特徴量の時系列データを出力する特徴量強調装置であって、前記所望特徴量の事後分布は混合分布の形式で表現され、前記混合分布の各混合要素に対する事後重みを決定するための識別パラメータと前記混合分布の各混合要素に対する条件つき強調特徴量を計算するための回帰パラメータとが更に入力され、前記回帰パラメータは前記各混合要素に対する第1回帰行列、第2回帰行列、及びバイアスベクトルから構成されるものであり、各短時間フレームの前記雑音特徴量を、前記各短時間フレームの前記観測特徴量に基づき推定する雑音推定部と、前記短時間フレーム毎に、前記各混合要素に対する事後重みを、前記観測特徴量と前記雑音特徴量と前記識別パラメータとから計算する混合要素事後重み計算部と、前記短時間フレーム毎に、前記各混合要素に対する条件つき強調特徴量を、前記観測特徴量と前記第1回帰行列との積と、前記雑音特徴量と前記第2回帰行列との積と、前記バイアスベクトルと、の和として計算する条件つき強調特徴量計算部と、前記各短時間フレームの強調特徴量を、前記各混合要素に対する条件つき強調特徴量を前記各混合要素に対する事後重みを用いて重みつき平均することで計算する重みつき平均計算部と、を備える。
本発明の特徴量強調装置、特徴量強調方法、及びそのプログラムは、混合要素の事後重みと条件つき強調特徴量を、それぞれ観測特徴量だけでなく雑音特徴量も用いて計算する。そのため、観測特徴量に含まれる雑音特徴量を直接的に取り扱うことができ、基本訓練データセットやステレオ訓練データセットでカバーされない種類の雑音が観測特徴量に含まれる場合でも適切な強調特徴量を得ることができる。
本発明の特徴量強調装置の機能構成例を示す図。 本発明の特徴量強調装置の処理フロー例を示す図。 第1学習部の機能構成例を示す図。 第1学習部の処理フロー例を示す図。 第2学習部の機能構成例を示す図。 第2学習部の処理フロー例を示す図。 従来技術による特徴量強調装置の処理フロー例を示す図。 従来技術による特徴量強調装置の機能構成例を示す図。
以下、本発明の実施形態について、詳細に説明する。
図1に本発明の特徴量強調装置100の機能構成例を、図2にその処理フロー例をそれぞれ示す。
本発明の特徴量強調装置100は、所望特徴量に雑音特徴量が重畳された観測特徴量y(t)(tは観測特徴量の時系列データを構成する短時間フレームのインデックス)と当該観測特徴量の抽出元である劣化音声信号Y(t)とが入力され、所望特徴量の推定値である強調特徴量x^(t)を出力する特徴量強調装置である。
本発明においては、観測特徴量y(t)と雑音特徴量n(t)とが与えられた場合の所望特徴量x(t)の事後分布p(x(t)|y(t),n(t))の平均値を強調特徴量x^(t)とする。
また、本発明においては、所望特徴量の事後分布は混合分布(混合数K)の形式で次式のように表現されると仮定する。
Figure 0005438703
特徴量強調装置100は、音声区間検出部110と雑音推定部120と混合要素事後重み計算部130と条件つき強調特徴量計算部140と重みつき平均計算部150とを備える。
特徴量強調装置100には、まず、観測特徴量y(t)と劣化音声信号Y(t)とが入力される(S11)とともに、予め学習された、混合分布の各混合要素k(k=1、・・・、K)に対する事後重みを決定するための識別パラメータと各混合要素kに対する第1回帰行列Ak、第2回帰行列Bk、及びバイアスベクトルγkからなる所望特徴量を推定するための回帰パラメータとが入力される(S12)。観測特徴量y(t)と劣化音声信号Y(t)は、これらが記録された電子ファイルを読み込む、あるいはマイクロホン等の入力端子に供給された劣化音声信号の各短時間フレームから特徴量を抽出すること、等により入力される。この実施例では、識別パラメータは、観測特徴量y(t)と雑音特徴量n(t)との結合である拡張特徴量z(t)=[y(t)T,n(t)T]T(Tは転置を表す)の混合正規分布のパラメータである。具体的には、混合正規分布のk番目の混合要素の重みπk、平均ベクトルμk、共分散行列Σkである。これらの識別パラメータについても、これが記録された電子ファイルを読み込むこと等により入力される。
音声区間検出部110は、観測特徴量y(t)の各短時間フレームが、抽出元の劣化音声信号Y(t)において、音声が存在する区間(音声存在区間)に属するか音声が存在しない区間(音声非存在区間)に属するかを検出する(S13)。これによって、音声非存在区間に属する短時間フレームの集合TNが得られる。なお、音声区間検出部110の実装には、劣化音声信号Y(t)ないし観測特徴量y(t)を入力とする公知の音声区間検出方法を用いる。
雑音推定部120は、雑音特徴量n(t)を音声非存在区間TNに属する短時間フレームt'の観測特徴量y(t')に基づき推定する(S14)。例えば、短時間フレームt'の観測特徴量y(t')の集合の平均値として次式のように求める。
Figure 0005438703
なお、雑音特徴量n(t)の算出には、上記の方法に限らず、任意の方法を用いてよい。例えば、特徴量がMFCCのベクトルであると仮定した場合には、参考文献1に示されたEMアルゴリズムを用いることができる。
〔参考文献1〕Li Deng, Jasha Droppo, and Alex Acero, “Recursive estimation of nonstationary noise using iterative stochastic approximation for robust speech recognition,” IEEE Transactions on Speech and Audio Processing, 2003, 11 (6), p.568-580
混合要素事後重み計算部130は、短時間フレームt毎に各混合要素kに対する事後重みwk(t)を、観測特徴量y(t)と雑音特徴量n(t)と識別パラメータとから計算する(S15)。各混合要素kに対する事後重みwk(t)は、式(8)の右辺第一項の、混合要素の条件つき事後確率p(k|y(t),n(t))に相当するものであり、この実施例では、p(k|y(t),n(t))は拡張特徴量z(t)の確率密度関数p(y(t),n(t))が混合正規分布で近似されるという仮定に基づいて、ベイズの定理を用いて次のように計算される。
Figure 0005438703
ここで、fN(・)は多変量(D次元)正規分布の確率密度関数を表す(式(4)参照)。この実施例では、各重みπk、各平均μk、各共分散行列Σkが識別パラメータを構成する。
条件つき強調特徴量計算部140は、短時間フレームt毎に各混合要素kに対する条件つき強調特徴量x^k(t)を、観測特徴量y(t)と第1回帰行列Akとの積と、雑音特徴量n(t)と第2回帰行列Bkとの積と、バイアスベクトルγkと、の和として計算する(S16)。すなわち、式(8)の右辺第二項の所望特徴量の条件つき事後確率密度関数p(x(t)|k,y(t),n(t))は、y(t)とn(t)に基づく線形回帰を平均とする正規分布で近似されるという仮定に基づいて、次式のように表現される。
Figure 0005438703
式(11)において、平均(Ak・y(t)+Bk・n(t)+γk)が条件つき強調特徴量x^k(t)に相当する。一方、Δkは回帰誤差共分散行列であり、特徴量強調には使用されない。なお、本実施例では行列Bkには何ら制約を課さないが、何らかの制約を課してもよい。例えば、行列Bkの第一行目以外は全て0とすることが考えられる。この場合、雑音特徴量n(t)の一番目の成分のみが特徴量強調に寄与することになる。
重みつき平均計算部150は、各短時間フレームtの強調特徴量x^(t)を、各混合要素kに対する条件つき強調特徴量x^k(t)の、各混合要素kに対する事後重みwk(t)による重みつき平均として次式のように計算する(S17)。
Figure 0005438703
なお、各混合要素kに対する事後重みwk(t)を最大にするk0(t)に対応する条件つき強調特徴量を強調特徴量としてもよい。
Figure 0005438703
混合要素事後重み計算部130(S15)、条件つき強調特徴量計算部140(S16)、重みつき平均計算部150(S17)の各処理は、図2に示すようにループを構成しており、1回の繰り返しでは1つの短時間フレームtについて特徴量強調を実施する。そして、対象とする全ての短時間フレームについて強調特徴量x^(t)を計算した後、得られた強調特徴量x^(t)の時系列を所定の出力先に出力する(S18)。例えば、電子ファイルに書き出したり、パターン認識装置の入力端子に伝達する。
なお、特徴量強調装置100に最初に入力される識別パラメータと回帰パラメータAk、Bk、γkは、それぞれ予め学習される。
識別パラメータが、この実施例のように拡張特徴量の混合正規分布のパラメータπk、μk、Σkである場合、例えば、劣化特徴量と雑音特徴量の対の集合である第2訓練データセットを用いて、最尤推定法や最大事後確率法等の方法により学習を行うことができる。なお、混合正規分布のパラメータの具体的な学習方法については、参考文献2などで公知であるため、説明を省略する。
[参考文献2]高村大也、「言語処理のための機械学習入門」、コロナ社、2010年
一方、所望特徴量の回帰パラメータAk、Bk、γkは、例えば、所望特徴量、劣化特徴量、雑音特徴量の三つ組みの集合(x[i],y[i],n[i])i=1,・・・,Nからなる第1訓練データセットを用いて学習を行うことができる(Nは第1訓練データセットに含まれるデータ組数)。この学習のため、例えば、図3に示す学習部160を設け、図4に示すような学習処理を予め行うことが考えられる。学習部160は条件つき事後確率計算手段161と回帰パラメータ計算手段162とを備える。事後確率計算手段161は、各三つ組み(x[i],y[i],n[i])に対して、各混合要素kの条件つき事後確率ui,kをui,k=p(k|y[i],n[i])により計算する(S21)。この式の右辺は、式(10)により計算することができる。続いて、回帰パラメータ計算手段162は、各三つ組み(x[i],y[i],n[i])に対して、各混合要素kの回帰パラメータAk、Bk、γkを、次の正規方程式を解くことにより計算して出力する(S22)。
Figure 0005438703
ここで、v[i]は、y[i]とn[i]と定数1を結合したベクトル、CkはAk、Bk、γkを結合した行列である。
Figure 0005438703
以上説明したように、本発明においては混合要素の事後重みと条件つき強調特徴量を、それぞれ観測特徴量だけでなく雑音特徴量も用いて計算する。そのため、観測特徴量に含まれる雑音特徴量を直接的に取り扱うことができ、基本訓練データセットやステレオ訓練データセットでカバーされない種類の雑音が観測特徴量に含まれる場合でも適切な強調特徴量を得ることができる。
実施例2は、特徴量強調装置100に最初に入力される識別パラメータとして、各混合要素kに対する対数線形モデルの重みベクトルw'kを用いる構成である。
この構成は、実施例1の方法とは、混合要素事後重み計算部130における各混合要素の事後重みの計算方法が異なる。具体的には、各混合要素kに対する事後重みwk(t)は、観測特徴量y(t)と雑音特徴量n(t)との結合である拡張特徴量z(t)が与えられた場合の混合要素の事後重みとして対数線形モデルに基づいて計算される。すなわち、各混合要素kに対する事後重みwk(t)は、実施例1と同様に、式(8)の右辺第一項の混合要素の条件つき事後確率p(k|y(t),n(t))に相当するが、p(k|y(t),n(t))は対数線形モデルを用いて次のように計算する。
Figure 0005438703
ここで、φ(・)は予め定められた任意のベクトル関数である。
特徴量強調装置100に識別パラメータとして入力される、各混合要素kに対する対数線形モデルの重みベクトルw'kは、所望特徴量、劣化特徴量、雑音特徴量の三つ組みの集合(x[i],y[i],n[i])i=1,・・・,Nからなる第1訓練データセットを用いて予め学習しておく。この学習のため、例えば、図5に示す学習部170を設け、図6に示すような学習処理を行うことが考えられる。学習部170は、参照混合正規分布学習手段171と参照混合要素識別手段172と重み推定手段173とを備える。参照混合正規分布学習手段171は、所望特徴量x[i]の集合を用いて、所望特徴量x[i]の混合正規分布のパラメータを学習する(S31)。所望特徴量x[i]の混合正規分布の各混合要素kのパラメータは、
Figure 0005438703
なお、混合正規分布のパラメータの具体的な学習方法については、参考文献2などで公知であるため説明を省略する。参照混合要素識別手段172は、各所望特徴量x[i]に対して、条件つき事後確率p(k|x[i])を最大にする参照混合要素kiを次のように計算する(S32)。
Figure 0005438703
なお、条件つき事後確率p(k|x[i])は、ベイズの定理により次のように計算できる。
Figure 0005438703
重み推定手段173は、参照混合要素kiと、劣化特徴量y[i]と雑音特徴量n[i]との組の集合と、を用いて、各混合要素kに対する対数線形モデルの重みベクトルw'kを、正則化項つき最尤推定法により計算して出力する(S33)。具体的には、各混合要素kについて、第1訓練データセットの三つ組み(x[i],y[i],n[i])のうち、参照混合要素kiがkであるものIk={i;ki=k}を集め、Ikに含まれる劣化特徴量y[i]と雑音特徴量n[i]を用いて、重みベクトルw'kを正則化項つき最尤推定法により推定する。なお、正則化項つき最尤推定法による対数線形モデルの重みベクトルの推定方法は、参考文献2などで公知であるため説明を省略する。
実施例2の構成においても、実施例1と同様、混合要素の事後重みと条件つき強調特徴量を、それぞれ観測特徴量だけでなく雑音特徴量も用いて計算する。そのため、観測特徴量に含まれる雑音特徴量を直接的に取り扱うことができ、基本訓練データセットやステレオ訓練データセットでカバーされない種類の雑音が観測特徴量に含まれる場合でも適切な強調特徴量を得ることができる。
本発明の特徴量強調装置及び特徴量強調方法における各処理は、上記に従った時系列の順序で実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本発明の特徴量強調装置の各機能は必要に応じ、併合・分割しても構わない。その他、本発明において表現されている技術的思想の範囲内で適宜変更が可能である。
本発明の特徴量強調装置を構成する各部・各手段をコンピュータによって実現する場合、各部・各手段が担う機能の処理内容はプログラムによって記述される。そのプログラムは、例えば、ハードディスク装置に格納されており、実行時には、必要なプログラムやデータがRAM(Random Access Memory)に読み込まれて、そのプログラムがCPUにより実行されることにより、コンピュータ上で各処理内容が実現される。

Claims (13)

  1. 少なくとも所望特徴量に雑音特徴量が重畳された観測特徴量の時系列データが入力され、前記所望特徴量の推定値である強調特徴量の時系列データを出力する特徴量強調装置であって、
    前記所望特徴量の事後分布は混合分布の形式で表現され、
    前記混合分布の各混合要素に対する事後重みを決定するための識別パラメータと、前記各混合要素に対する第1回帰行列、第2回帰行列、及びバイアスベクトルからなる、前記混合分布の各混合要素に対する条件つき強調特徴量を計算するための回帰パラメータと、が更に入力され、
    各短時間フレームの前記雑音特徴量を、前記各短時間フレームの前記観測特徴量に基づき推定する雑音推定部と、
    前記短時間フレーム毎に、前記各混合要素に対する事後重みを、前記観測特徴量と前記雑音特徴量と前記識別パラメータとから計算する混合要素事後重み計算部と、
    前記短時間フレーム毎に、前記各混合要素に対する条件つき強調特徴量を、前記観測特徴量と前記第1回帰行列との積と、前記雑音特徴量と前記第2回帰行列との積と、前記バイアスベクトルと、の和として計算する条件つき強調特徴量計算部と、
    前記各短時間フレームの強調特徴量を、前記各混合要素に対する条件つき強調特徴量を前記各混合要素に対する事後重みを用いて重みつき平均することで計算する重みつき平均計算部と、
    を備える特徴量強調装置。
  2. 請求項1に記載の特徴量強調装置において、
    前記回帰パラメータを、所望特徴量と劣化特徴量と雑音特徴量の三つ組みの集合である第1訓練データセットを用いて予め学習して出力する第1学習部を更に備え、
    前記第1学習部は、
    前記三つ組みに対して、各混合要素の条件つき事後確率を計算する条件つき事後確率計算手段と、
    前記回帰パラメータを、前記三つ組みと前記各混合要素の条件つき事後確率とからなる正規方程式を解くことにより計算して出力する回帰パラメータ計算手段と、
    を備える
    ことを特徴とする特徴量強調装置。
  3. 請求項1又は2に記載の特徴量強調装置において、
    前記識別パラメータは、観測特徴量と雑音特徴量との結合である拡張特徴量の混合分布のパラメータであり、
    前記混合要素事後重み計算部は、前記各混合要素に対する混合要素事後重みを、前記拡張特徴量が与えられた場合の前記混合分布の事後確率としてベイズの定理に従って計算する
    ことを特徴とする特徴量強調装置。
  4. 請求項3に記載の特徴量強調装置において、
    前記拡張特徴量の混合分布のパラメータは、拡張特徴量の混合正規分布の重みと平均ベクトルと共分散行列であり、劣化特徴量と雑音特徴量の組の集合である第2訓練データセットを用いて学習されたものである
    ことを特徴とする特徴量強調装置。
  5. 請求項1又は2に記載の特徴量強調装置において、
    前記識別パラメータは、前記各混合要素に対して定義された対数線形モデルの重みベクトルであり、
    前記混合要素事後重み計算部は、前記各混合要素に対する事後重みを、観測特徴量と雑音特徴量との結合である拡張特徴量が与えられた場合の混合要素の事後確率として前記対数線形モデルに基づいて計算する
    ことを特徴とする特徴量強調装置。
  6. 請求項5に記載の特徴量強調装置において、
    前記各混合要素に対する対数線形モデルの重みベクトルを、所望特徴量と劣化特徴量と雑音特徴量の三つ組みの集合である第1訓練データセットを用いて予め学習して出力する第2学習部を更に備え、
    前記第2学習部は、
    前記第1訓練データセットの所望特徴量の集合を用いて、所望特徴量の混合正規分布のパラメータを学習する参照混合正規分布学習手段と、
    前記所望特徴量の混合正規分布のパラメータを用いて、各所望特徴量に対して、条件つき事後確率を最大にする参照混合要素を計算する参照混合要素識別手段と、
    前記参照混合要素と、前記第1訓練データセットの前記劣化特徴量と前記雑音特徴量との組の集合と、を用いて、前記各混合要素に対する対数線形モデルの重みベクトルを、正則化項つき最尤推定法により計算して出力する重み推定手段と、
    を備える
    ことを特徴とする特徴量強調装置。
  7. 少なくとも所望特徴量に雑音特徴量が重畳された観測特徴量の時系列データが入力され、前記所望特徴量の推定値である強調特徴量の時系列データを出力する特徴量強調方法であって、
    前記所望特徴量の事後分布は混合分布の形式で表現され、
    前記混合分布の各混合要素に対する事後重みを決定するための識別パラメータと、前記各混合要素に対する第1回帰行列、第2回帰行列、及びバイアスベクトルからなる、前記混合分布の各混合要素に対する条件つき強調特徴量を計算するための回帰パラメータと、が更に入力され、
    各短時間フレームの前記雑音特徴量を、前記各短時間フレームの前記観測特徴量に基づき推定する雑音推定ステップと、
    前記短時間フレーム毎に、前記各混合要素に対する事後重みを、前記観測特徴量と前記雑音特徴量と前記識別パラメータとから計算する混合要素事後重み計算ステップと、
    前記短時間フレーム毎に、前記各混合要素に対する条件つき強調特徴量を、前記観測特徴量と前記第1回帰行列との積と、前記雑音特徴量と前記第2回帰行列との積と、前記バイアスベクトルと、の和として計算する条件つき強調特徴量計算ステップと、
    前記各短時間フレームの強調特徴量を、前記各混合要素に対する条件つき強調特徴量を前記各混合要素に対する事後重みを用いて重みつき平均することで計算する重みつき平均計算ステップと、
    を実行する特徴量強調方法。
  8. 請求項7に記載の特徴量強調方法において、
    前記回帰パラメータを、所望特徴量と劣化特徴量と雑音特徴量の三つ組みの集合である第1訓練データセットを用いて学習して出力する第1学習ステップを予め実行し、
    前記第1学習ステップは、
    前記三つ組みに対して、各混合要素の条件つき事後確率を計算する条件つき事後確率計算サブステップと、
    前記回帰パラメータを、前記三つ組みと前記各混合要素の条件つき事後確率とからなる正規方程式を解くことにより計算して出力する回帰パラメータ計算サブステップと、
    を実行する
    ことを特徴とする特徴量強調方法。
  9. 請求項7又は8に記載の特徴量強調方法において、
    前記識別パラメータは、観測特徴量と雑音特徴量との結合である拡張特徴量の混合分布のパラメータであり、
    前記混合要素事後重み計算ステップは、前記各混合要素に対する混合要素事後重みを、前記拡張特徴量が与えられた場合の前記混合分布の事後確率としてベイズの定理に従って計算する
    ことを特徴とする特徴量強調方法。
  10. 請求項9に記載の特徴量強調方法において、
    前記拡張特徴量の混合分布のパラメータは、拡張特徴量の混合正規分布の重みと平均ベクトルと共分散行列であり、劣化特徴量と雑音特徴量の組の集合である第2訓練データセットを用いて学習されたものである
    ことを特徴とする特徴量強調方法。
  11. 請求項7又は8に記載の特徴量強調方法において、
    前記識別パラメータは、前記各混合要素に対して定義された対数線形モデルの重みベクトルであり、
    前記混合要素事後重み計算ステップは、前記各混合要素に対する事後重みを、観測特徴量と雑音特徴量との結合である拡張特徴量が与えられた場合の混合要素の事後確率として前記対数線形モデルに基づいて計算する
    ことを特徴とする特徴量強調方法。
  12. 請求項11に記載の特徴量強調方法において、
    前記各混合要素に対する対数線形モデルの重みベクトルを、所望特徴量と劣化特徴量と雑音特徴量の三つ組みの集合である第1訓練データセットを用いて学習して出力する第2学習ステップを予め実行し、
    前記第2学習ステップは、
    前記第1訓練データセットの所望特徴量の集合を用いて、所望特徴量の混合正規分布のパラメータを学習する参照混合正規分布学習サブステップと、
    前記所望特徴量の混合正規分布のパラメータを用いて、各所望特徴量に対して、条件つき事後確率を最大にする参照混合要素を計算する参照混合要素識別サブステップと、
    前記参照混合要素と、前記第1訓練データセットの前記劣化特徴量と前記雑音特徴量との組の集合と、を用いて、前記各混合要素に対する対数線形モデルの重みベクトルを、正則化項つき最尤推定法により計算して出力する重み推定サブステップと、
    を実行する
    ことを特徴とする特徴量強調方法。
  13. 請求項1乃至6のいずれかに記載の特徴量強調装置としてコンピュータを機能させるためのプログラム。
JP2011035951A 2011-02-22 2011-02-22 特徴量強調装置、特徴量強調方法、及びそのプログラム Active JP5438703B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011035951A JP5438703B2 (ja) 2011-02-22 2011-02-22 特徴量強調装置、特徴量強調方法、及びそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011035951A JP5438703B2 (ja) 2011-02-22 2011-02-22 特徴量強調装置、特徴量強調方法、及びそのプログラム

Publications (2)

Publication Number Publication Date
JP2012173537A JP2012173537A (ja) 2012-09-10
JP5438703B2 true JP5438703B2 (ja) 2014-03-12

Family

ID=46976479

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011035951A Active JP5438703B2 (ja) 2011-02-22 2011-02-22 特徴量強調装置、特徴量強調方法、及びそのプログラム

Country Status (1)

Country Link
JP (1) JP5438703B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6673861B2 (ja) * 2017-03-02 2020-03-25 日本電信電話株式会社 信号処理装置、信号処理方法及び信号処理プログラム
US11093798B2 (en) * 2018-12-28 2021-08-17 Palo Alto Research Center Incorporated Agile video query using ensembles of deep neural networks

Also Published As

Publication number Publication date
JP2012173537A (ja) 2012-09-10

Similar Documents

Publication Publication Date Title
EP3806089B1 (en) Mixed speech recognition method and apparatus, and computer readable storage medium
US10891944B2 (en) Adaptive and compensatory speech recognition methods and devices
EP3166105B1 (en) Neural network training apparatus and method
US8751227B2 (en) Acoustic model learning device and speech recognition device
US20220238117A1 (en) Voice identity feature extractor and classifier training
WO2019227574A1 (zh) 语音模型训练方法、语音识别方法、装置、设备及介质
CN111785288B (zh) 语音增强方法、装置、设备及存储介质
US20140222423A1 (en) Method and Apparatus for Efficient I-Vector Extraction
JP7124427B2 (ja) マルチビューベクトルの処理方法及び装置
WO2020045313A1 (ja) マスク推定装置、マスク推定方法及びマスク推定プログラム
JP6725186B2 (ja) 学習装置、音声区間検出装置および音声区間検出方法
WO2020168843A1 (zh) 一种基于扰动样本的模型训练方法和装置
JP6553015B2 (ja) 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム
CN110998723B (zh) 使用神经网络的信号处理装置及信号处理方法、记录介质
KR102026226B1 (ko) 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템
JP2010078650A (ja) 音声認識装置及びその方法
Srinivasarao et al. Speech enhancement-an enhanced principal component analysis (EPCA) filter approach
CN110797039A (zh) 语音处理方法、装置、终端及介质
JP5438703B2 (ja) 特徴量強調装置、特徴量強調方法、及びそのプログラム
JP6721165B2 (ja) 入力音マスク処理学習装置、入力データ処理関数学習装置、入力音マスク処理学習方法、入力データ処理関数学習方法、プログラム
JP2018028580A (ja) 音源強調学習装置、音源強調装置、音源強調学習方法、プログラム
Schmidt et al. Reduction of non-stationary noise using a non-negative latent variable decomposition
JP5726790B2 (ja) 音源分離装置、音源分離方法、およびプログラム
Dahlan AdaBoost noise estimator for subspace based speech enhancement
JP2010164780A (ja) 音響モデル作成装置、音響モデル作成方法、音響モデル作成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131203

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131213

R150 Certificate of patent or registration of utility model

Ref document number: 5438703

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350