JP5670298B2 - 雑音抑圧装置、方法及びプログラム - Google Patents
雑音抑圧装置、方法及びプログラム Download PDFInfo
- Publication number
- JP5670298B2 JP5670298B2 JP2011261767A JP2011261767A JP5670298B2 JP 5670298 B2 JP5670298 B2 JP 5670298B2 JP 2011261767 A JP2011261767 A JP 2011261767A JP 2011261767 A JP2011261767 A JP 2011261767A JP 5670298 B2 JP5670298 B2 JP 5670298B2
- Authority
- JP
- Japan
- Prior art keywords
- noise
- signal
- model
- speaker
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本実施形態においては、多峰的な分布に基づく雑音信号の確率モデル及び話者依存モデルとして、混合正規分布(Gaussian Mixture Model、以下「GMM」ともいう)を採用する。
音響特徴抽出部104は、音響信号oτを受け取り、音響信号oτの音響特徴を抽出し(s104)、パラメータ推定部105と雑音抑圧部106とに出力する。抽出する音響特徴は、音響信号から雑音信号を抑圧する際に用いるものであり、例えば、複素数スペクトルと対数メルスペクトルである。音響特徴抽出部104は、例えば、図3に示す流れで処理を行う。
図示しない記憶部には、雑音を含まない、多数話者の音声信号を学習データとして学習されたSIGMMが予め記憶される。SIGMMは無音GMMとクリーン音声GMMとからなる。なお、無音GMMは雑音信号を含まない音声信号の無音部分より取得した音響信号に基づき学習されたGMMであり、クリーン音声GMMは雑音のない環境において無音部分を除く音声のみからなる音響信号に基づき学習されたGMMである。
SIGMMは次式により与えられる。
以下、本実施形態で用いる話者依存モデルである話者依存GMM(Speaker Dependent GMM、以下「SDGMM」という)と雑音モデルである雑音GMMについて概略を説明する。SDGMMは、特定話者の学習用音声データから推定されたパラメータから構成されるGMMである。前述の通り、話者依存モデルとして、特定話者の学習用音声データを用いて学習されたモデルか、もしくは話者独立モデルを特定話者の統計量に適応させたモデルがある。特定話者の学習用音声データのみからSDGMMを得ることは、実用上、現実的ではないため、本実施形態では、SIGMMに対して話者適応処理を施しSDGMMを得る。すなわち、次式の話者適応処理によりSIGMMの平均ベクトルμSI,j,kをSDGMMの平均ベクトルμSD,j,kに変換する。
また、雑音GMMは次式により与えられる。
パラメータ推定部105は対数メルスペクトルOtとSIモデルパラメータセットλSIとを受け取り、これらの値を用いて、雑音モデルパラメータセットλNと話者適応パラメータbとを最適推定し(s105)、雑音抑圧部106に出力する。
第一初期値推定手段302は第一EMアルゴリズムの繰り返しインデックスiを初期化する(s301)。例えばi=1とする。さらに、第一初期値推定手段302は音響信号otの対数メルスペクトルOtを受け取り、この値を用いて第一EMアルゴリズムにおける雑音モデルパラメータセットλNの初期値λN (i=0)={wN,l (i=0),μN,l (i=0),ΣN,l (i=0)}を以下の式(6)〜(8)により推定し、話者適応パラメータbの初期値を以下の式(9)により設定し(s302)、第一確率モデル生成手段303に出力する。
第一確率モデル生成手段303は、i−1回目の繰り返し推定における雑音モデルパラメータセットλ(i−1) Nと話者適応パラメータb(i−1)とを後述する第一収束判定手段307から受け取る。但し、i−1回目の雑音モデルパラメータセットλN (i−1)及び話者適応パラメータb(i−1)が存在しない場合、つまり、0回目の場合、前述の初期値λN (i=0)及びb(i=0)を第一初期値推定手段302から受け取る。さらに第一確率モデル生成手段303は、SIモデルパラメータセットλSIを受け取り、これらの値を利用して、音響信号otの対数メルスペクトルOtの確率モデル(以下「第一確率モデル」という)を以下のようなGMMで構成する。
(第一期待値計算手段304)
第一期待値計算手段304は、第一確率モデルパラメータセットλO1 (i)と音響信号otの対数メルスペクトルOtとを受け取り、i回目の繰り返し推定における対数メルスペクトルOtの確率モデルのコスト関数Q1(・)の期待値を次式により計算する(第一EMアルゴリズムのE−step)(s304)。
雑音モデル推定手段305は、第一確率モデルパラメータセットλO1 (i)と音響信号otの対数メルスペクトルOtと事後確率Pt,j (i)、Pt,j,k,l (i)を受け取り、これらの値を用いて、雑音信号の対数メルスペクトルNtを推定し、推定した雑音信号^Ntを学習データとして雑音モデルを教師無し学習し(s305)、雑音モデルパラメータセットλN (i)を話者適応パラメータ推定手段306と第一収束判定手段307とに出力する。雑音モデル推定手段305は、雑音信号推定手段401と雑音モデルパラメータ推定手段402とを備える(図6参照)。
雑音信号推定手段401は、対数メルスペクトルOtを用いて、雑音信号の対数メルスペクトルNtを推定する(図7のs401)。例えば、雑音信号推定手段401は、事後確率Pt,j (i)、Pt,j,k,l (i)と、第一確率モデルパラメータセットλO1 (i)(に含まれる平均ベクトルμO1,j=1,k,l (i))と、対数メルスペクトルOtと、i−1回目の繰り返し推定における雑音モデルパラメータセットλN (i−1)(に含まれる平均ベクトルμN (i−1))とを受け取り、これらの値を用いて、雑音モデルパラメータセットλN (i−1)を更新するために用いる雑音信号の対数メルスペクトルNt (i)を推定し、推定値^Nt (i)を雑音モデルパラメータ推定手段402に出力する。雑音の対数メルスペクトルNt (i)は、次式により推定される。
雑音モデルパラメータ推定手段402は、雑音信号の対数メルスペクトルの推定値^Nt (i)を受け取り、これを学習データとして、雑音モデルパラメータセットλN (i)を推定し(図7のs402〜s407)、第一収束判定手段307と話者適応パラメータ推定手段306とに出力する。雑音モデルパラメータセットλN (i)の具体的な推定方法(s402〜s407)については後述する。
話者適応パラメータ推定手段306は、対数メルスペクトルOtとSIモデルパラメータセットλSIと雑音モデルパラメータセットλN (i)とを受け取り、これらの値を用いて、音響信号otに含まれる音声信号stを推定し、推定した音声信号^stを学習データとして、話者適応パラメータb(i)を教師無し推定し(図5のs306)、第一収束判定手段307に出力する。
[第二確率モデル生成手段501]
第二確率モデル生成手段501は、雑音モデルパラメータセットλN (i)と話者適応パラメータb(i−1)とSIモデルパラメータセットλSIとを受け取り、これらの値を利用して、対数メルスペクトルOtの確率モデル(以下「第二確率モデル」という)を以下のようなGMMで構成する。
第二確率モデル生成手段501は、式(20)〜(22)に基づき第二確率モデルパラメータセットλO2 (i)を生成し(図9のs501)、λO2 (i)と対数メルスペクトルOtとSIモデルパラメータセットλSIとを音声信号推定手段502に出力する。
音声信号推定手段502は、対数メルスペクトルOtとSIモデルパラメータセットλSI(に含まれる平均ベクトルμSI,J,k)と第二確率モデルパラメータセットλO2 (i)とi−1回目の繰り返し推定における話者適応パラメータb(i−1)とを受け取り、これらの値を用いて、話者適応パラメータb(i)を更新するために用いる、音響信号otに含まれるクリーン音声の対数メルスペクトルStを次式により推定し(s502)、推定値^St (i)を話者適応パラメータ更新手段503に出力する。
話者適応パラメータ更新手段503は、推定したクリーン音声の対数メルスペクトル^St (i)とSIモデルパラメータセットλSIとを受け取り、これらの値を用いて話者適応パラメータb(i−1)を更新し(図9のs503〜s508)、第一収束判定手段307に出力する。話者適応パラメータb(i)の具体的な更新方法(s503〜s508)については後述する。
第一収束判定手段307は、第一期待値Q1を受け取り、この値を用いて収束条件を満たすか否かを判定し(図5のs307)、満たす場合はλN=λN (i)、b=b(i)とし、λNとbを雑音抑圧部106に出力しパラメータ推定部105の処理を終了する。満たさない場合はλN (i)とb(i)を第一確率モデル生成手段303に出力し、i←i+1(s308)として、繰り返し処理を行うように各部に制御信号を出力し、s303〜s306の処理を繰り返す。例えば、収束条件は、最新の第一期待値Q1(O0:T−1,b(i),λN (i))と一つ前の第一期待値Q1(O0:T−1,b(i−1),λN (i−1))との差が所定値η1以下である場合や、繰り返し回数iが所定値I1以上になった場合等とすることができる。例えば次式で表すことができる。
<雑音モデルパラメータ推定手段402の詳細>
雑音モデルパラメータ推定手段402は、第二初期値推定手段403と第二期待値計算手段404とパラメータ更新手段405と第二収束判定手段406とを含む(図6参照)。図7を用いて雑音モデルパラメータ推定手段402の処理内容を説明する。
第二初期値推定手段403は、まず第二EMアルゴリズムの繰り返し回数を示すインデックスi’を初期化する(s402)。例えば、i’=1とする。次に第二初期値推定手段403は、推定した雑音信号の対数メルスペクトル^Nt (i)を受け取り、この値を用いて、第二EMアルゴリズムにおける雑音モデルパラメータセットλN (i’)の初期値λN (i’=0)={wN,l (i’=0),μN,l (i’=0),ΣN,l (i’=0)}を式(26)〜(30)により推定し(s403)、第二期待値計算手段404に出力する。
第二期待値計算手段404は、推定した雑音信号の対数メルスペクトル^Nt (i)を雑音信号推定手段401から受け取る。また第二EMアルゴリズムにおける雑音モデルパラメータセットλN (i’−1)を第二収束判定手段406から受け取る。但し、i’−1回目の雑音モデルパラメータセットλN (i’−1)が存在しない場合、つまり、0回目の場合、前述の初期値λN (i’=0)を第二初期値推定手段403から受け取る。これらの値を用いて第二期待値計算手段404はi’回目の繰り返し推定における雑音GMMのコスト関数Q2(・)の期待値を式(31)により計算し(第二EMアルゴリズムのE−step)(s404)、第二収束判定手段406に出力する。
関数N(・)は式(3)で与えられ、Pt,l (i’)は次式で与えられるフレームtにおける正規分布番号lに対する事後確率である。
(パラメータ更新手段405)
パラメータ更新手段405は、事後確率Pt,l (i’)と対数メルスペクトル^Nt (i)とを受け取り、雑音モデルパラメータセットλN (i’−1)を次式により更新し(第二EMアルゴリズムのM−step)(s405)、更新した雑音モデルパラメータセットλN (i’)を第二収束判定手段406に出力する。
第二収束判定手段406は、第二期待値Q2を受け取り、この値を用いて収束条件を満たすか否かを判定し(s406)、満たす場合はλN (i)=λN (i’)としλN (i)を、第一収束判定手段307と話者適応パラメータ更新手段503とに出力し雑音モデルパラメータ推定手段402の処理を終了する。満たさない場合はλN (i’)を第二期待値計算手段404に出力し、i’←i’+1(s407)として、繰り返し処理を行うように各部に制御信号を出力し、s404、s405の処理を繰り返す。例えば、収束条件は、最新の第二期待値Q2(^N0:T−1,λN (i’))と一つ前の第二期待値Q2(^N0:T−1,λN (i’−1))との差が所定値η2以下である場合や、繰り返し回数i’が所定値I2以上になった場合等とすることができる。例えば以下の式で表すことができる。
<話者適応パラメータ更新手段503の詳細>
話者適応パラメータ更新手段503は、初期値設定手段504と第三期待値計算手段505と話者適応パラメータ算出手段506と第三収束判定手段507とを含む(図8参照)。
(初期値設定手段504)
初期値設定手段504は、まず第三EMアルゴリズムの繰り返し回数を示すインデックスi”を初期化する(s503)。例えば、i”=1とする。次に初期値設定手段504は、第三EMアルゴリズムにおける話者適応パラメータb(i”)の初期値b(i”=0)を次式により設定し(s504)、第三期待値計算手段505に出力する。
(第三期待値計算手段505)
第三期待値計算手段505は、SIモデルパラメータセットλSIと推定したクリーン音声の対数メルスペクトル^St (i)とを受け取る。また第三収束判定手段507からi”−1回目の話者適応パラメータb(i”−1)を受け取る。但し、i”−1回目の話者適応パラメータb(i”−1)が存在しない場合、つまり、0回目の場合、前述の初期値b(i”=0)を初期値設定手段504から受け取る。これらの値を用いて第三期待値計算手段505はi”回目の繰り返し推定におけるSDGMMのコスト関数Q3(・)の期待値を次式により計算し(第三EMアルゴリズムのE−step)(s505)、第三収束判定手段507に出力する。
話者適応パラメータ算出手段506は、事後確率Pt,j (i”)、Pt,j,k (i”)とSIモデルパラメータセットλSIとクリーン音声の対数メルスペクトル^St (i)とを受け取り、以下の式(41)を用いて話者適応パラメータb(i”)を求め、これを新たな話者適応パラメータb(i”)として更新し(第三EMアルゴリズムのM−step)(s506)、第三収束判定手段507に出力する。
第三収束判定手段507は、第三期待値Q3を受け取り、この値を用いて収束条件を満たすか否かを判定し(s507)、満たす場合はb(i)=b(i”)としb(i)を第一収束判定手段307に出力し話者適応パラメータ更新手段503の処理を終了する。満たさない場合はb(i”)を第三期待値計算手段505に出力し、i”←i”+1(s508)として、繰り返し処理を行うように各部に制御信号を出力し、s505、s506の処理を繰り返す。例えば、収束条件は、最新の第三期待値Q3(^S0:T−1 (i),b(i”))と一つ前の第三期待値Q3(^S0:T−1 (i),b(i”−1))との差が所定値η3以下である場合や、繰り返し回数i”が所定値I3以上になった場合等とすることができる。例えば以下の式で表すことができる。
雑音抑圧部106は、音響信号otの音響特徴である対数メルスペクトルOtとSIモデルパラメータセットλSIと雑音モデルパラメータセットλNと話者適応パラメータbと受け取り、これらの値を用いて音響信号otに含まれる雑音信号ntを抑圧し(s106)、雑音抑圧信号^sτを雑音抑圧装置100の出力値として出力する。例えば、図10に示すように雑音抑圧部106は、雑音抑圧フィルタ推定手段601と雑音抑圧フィルタ適用手段602を含む。雑音抑圧フィルタ推定手段601は音響信号の対数メルスペクトルOtとSIモデルパラメータセットλSIと雑音モデルパラメータセットλNと話者適応パラメータbとを受け取り、雑音抑圧フィルタWLin t,mを推定する。雑音抑圧フィルタ適用手段602は、複素数スペクトルSpctと雑音抑圧フィルタWLin t,mとを受け取り、雑音を抑圧して雑音抑圧信号^sτを得る。以下、各手段の詳細を説明する。
雑音抑圧フィルタ推定手段601は図11に示す流れで処理を行う。まず、雑音抑圧フィルタ推定手段601は、SIモデルパラメータセットλSIと雑音モデルパラメータセットλNと話者適応パラメータbを受け取り、これらの値を用いて、音響信号の対数メルスペクトルOtの確率モデルである第三確率モデルのパラメータセット(以下「第三確率モデルパラメータセット」という)λO3={wO3,j,k,l,μO3,j,k,l,ΣO3,j,k,l}を以下のように生成する(s601)。
(雑音抑圧フィルタ適用手段602)
雑音抑圧フィルタ適用手段602は図12に示す流れで処理を行う。雑音抑圧フィルタ適用手段602は、雑音抑圧フィルタWLin t,mと複素数スペクトルSpctとを受け取り、複素数スペクトルSpctに対して雑音抑圧フィルタWLin t,mを次式のように掛け合わせることにより雑音抑圧された複素数スペクトル^St,mを得る(s701)。
本実施形態では、多峰的な雑音信号の確率モデルのパラメータを推定する雑音信号モデルパラメータ推定手段と、話者独立の音声信号のモデルを話者依存の音声信号の確率モデルに適応させるためのパラメータを推定する話者適応パラメータ推定手段を具備し、それぞれを同時に実施しながらパラメータの更新を行う。このような構成により、話者の特徴を反映して、予め分かっていない非定常雑音をより高精度に抑圧することができる。また、信号に含まれる雑音信号が多峰性の分布に従う非定常雑音であっても、非線形問題を解くことなく確率モデルパラメータ(雑音モデルパラメータ及び話者適応パラメータ)を容易に最適化することができ、最適な雑音抑圧フィルタを設計し、高品質に目的音声信号を得ることができる。
<その他の変形例>
第一実施形態において、各部及び各手段が、図示しない記憶部に各信号や、処理途中の信号、各種パラメータ等が記憶し、記憶部を介して各データの読み書きを行ってもよい。
<シミュレーション結果>
本発明の効果を示すために、音声信号と雑音信号が混在する音響信号を第一実施形態の雑音抑圧装置に入力し、雑音抑圧を実施した例を示す。以下実験方法、及び結果について説明する。
<プログラム及び記録媒体>
上述した雑音抑圧装置は、コンピュータが読み取り可能な符号によって記述されたプログラムをコンピュータに実行させることによって実現してもよい。これらのプログラムは例えば磁気ディスクあるいはCD−ROMのようなコンピュータが読み取り可能な記憶媒体に記憶され、記憶媒体からコンピュータにインストールするか或いは通信回線を通じてインストールされて実行される。
Claims (7)
- 雑音信号と音声信号とを含む音響信号から雑音信号を抑圧する雑音抑圧装置であって、
前記音響信号の音響特徴を抽出する音響特徴抽出手段と、
雑音を含まない、多数話者の音声信号を学習データとして学習された話者独立の音声信号の確率モデルである話者独立音声モデルが記憶される記憶手段と、
前記雑音信号が多峰的な分布に従う非定常な雑音に基づく信号であると定義し、前記話者独立音声モデルを前記音響信号に含まれる前記音声信号の話者に適応させるための話者適応パラメータと、前記雑音信号の確率モデルである雑音モデルと、前記話者独立音声モデルとを用いて、前記音響信号の確率モデルである第一確率モデルを生成する第一確率モデル生成手段と、
前記第一確率モデルと前記音響信号の音響特徴とに基づいて、前記雑音信号を推定し、推定した雑音信号を学習データとして前記雑音モデルを教師無し学習する雑音モデル推定手段と、
前記音響信号の音響特徴と前記話者独立音声モデルと前記雑音モデルとを用いて、前記音響信号に含まれる前記音声信号を推定し、推定した前記音声信号を学習データとして、前記話者適応パラメータを教師無し推定する話者適応パラメータ推定手段と、
前記音響信号の音響特徴と前記話者独立音声モデルと前記雑音モデルと前記話者適応パラメータとを用いて前記音響信号に含まれる雑音信号を抑圧する雑音抑圧手段と、
を含む雑音抑圧装置。 - 請求項1記載の雑音抑圧装置であって、
前記話者適応パラメータ推定手段は、
前記音響信号の音響特徴と前記話者独立音声モデルと前記雑音モデルと前記話者適応パラメータとを用いて、前記音響信号の確率モデルである第二確率モデルを生成する第二確率モデル生成手段と、
前記音響信号の音響特徴と前記第二確率モデルと前記話者独立音声モデルと前記話者適応パラメータとを用いて、前記音響信号に含まれる前記音声信号を推定する音声信号推定手段と、
推定した前記音響信号に含まれる前記音声信号と、前記話者独立音声モデルとに基いて、前記話者適応パラメータにより適応された前記話者独立音声モデルである話者依存音声モデルの尤度が最大となる前記話者適応パラメータを算出する話者適応パラメータ算出手段とを含む、
雑音抑圧装置。 - 請求項2記載の雑音抑圧装置であって、
前記話者適応パラメータ推定手段は、推定した前記音声信号を用いて、前記話者依存音声モデルの尤度が最大となるように期待値最大化法により収束条件を満たすまで前記話者適応パラメータ算出手段の処理を繰り返し、
当該雑音抑圧装置は、前記音響信号を用いて、前記第一確率モデルの尤度が最大となるように期待値最大化法により収束条件を満たすまで前記第一確率モデル生成手段と前記雑音モデル推定手段と前記話者適応パラメータ推定手段の処理を繰り返す、
雑音抑圧装置。 - 雑音信号と音声信号とを含む音響信号から雑音信号を抑圧する雑音抑圧方法であって、
音響特徴抽出手段が、前記音響信号の音響特徴を抽出する音響特徴抽出ステップと、
第一確率モデル生成手段が、前記雑音信号が多峰的な分布に従う非定常な雑音に基づく信号であると定義し、雑音を含まない、多数話者の音声信号を学習データとして学習された話者独立の音声信号の確率モデルである話者独立音声モデルを前記音響信号に含まれる前記音声信号の話者に適応させるための話者適応パラメータと、前記雑音信号の確率モデルである雑音モデルと、前記話者独立音声モデルとを用いて、前記音響信号の確率モデルである第一確率モデルを生成する第一確率モデル生成ステップと、
雑音モデル推定手段が、前記第一確率モデルと前記音響信号の音響特徴とに基づいて、前記雑音信号を推定し、推定した雑音信号を学習データとして前記雑音モデルを教師無し学習する雑音モデル推定ステップと、
話者適応パラメータ推定手段が、前記音響信号の音響特徴と前記話者独立音声モデルと前記雑音モデルとを用いて、前記音響信号に含まれる前記音声信号を推定し、推定した前記音声信号を学習データとして、前記話者適応パラメータを教師無し推定する話者適応パラメータ推定ステップと、
雑音抑圧手段が、前記音響信号の音響特徴と前記話者独立音声モデルと前記雑音モデルと前記話者適応パラメータとを用いて前記音響信号に含まれる雑音信号を抑圧する雑音抑圧ステップと、
を含む雑音抑圧方法。 - 請求項4記載の雑音抑圧方法であって、
前記話者適応パラメータ推定ステップは、
第二確率モデル生成手段が、前記音響信号の音響特徴と前記話者独立音声モデルと前記雑音モデルと前記話者適応パラメータとを用いて、前記音響信号の確率モデルである第二確率モデルを生成する第二確率モデル生成ステップと、
音声信号推定手段が、前記音響信号の音響特徴と前記第二確率モデルと前記話者独立音声モデルと前記話者適応パラメータとを用いて、前記音響信号に含まれる前記音声信号を推定する音声信号推定ステップと、
話者適応パラメータ算出手段が、推定した前記音響信号に含まれる前記音声信号と、前記話者独立音声モデルとに基いて、前記話者適応パラメータにより適応された前記話者独立音声モデルである話者依存音声モデルの尤度が最大となる前記話者適応パラメータを算出する話者適応パラメータ算出ステップとを含む、
雑音抑圧方法。 - 請求項5記載の雑音抑圧方法であって、
前記話者適応パラメータ推定ステップは、推定した前記音声信号を用いて、前記話者依存音声モデルの尤度が最大となるように期待値最大化法により収束条件を満たすまで前記話者適応パラメータ算出ステップの処理を繰り返し、
当該雑音抑圧方法は、前記音響信号を用いて、前記第一確率モデルの尤度が最大となるように期待値最大化法により収束条件を満たすまで前記第一確率モデル生成ステップと前記雑音モデル推定ステップと前記話者適応パラメータ推定ステップの処理を繰り返す、
雑音抑圧方法。 - 請求項1から3の何れかに記載の雑音抑圧装置として、コンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011261767A JP5670298B2 (ja) | 2011-11-30 | 2011-11-30 | 雑音抑圧装置、方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011261767A JP5670298B2 (ja) | 2011-11-30 | 2011-11-30 | 雑音抑圧装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013114151A JP2013114151A (ja) | 2013-06-10 |
JP5670298B2 true JP5670298B2 (ja) | 2015-02-18 |
Family
ID=48709714
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011261767A Active JP5670298B2 (ja) | 2011-11-30 | 2011-11-30 | 雑音抑圧装置、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5670298B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3010017A1 (en) * | 2014-10-14 | 2016-04-20 | Thomson Licensing | Method and apparatus for separating speech data from background data in audio communication |
JP6243858B2 (ja) * | 2015-02-05 | 2017-12-06 | 日本電信電話株式会社 | 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム |
JP6588936B2 (ja) * | 2017-03-22 | 2019-10-09 | 日本電信電話株式会社 | 雑音抑圧装置、その方法、及びプログラム |
CN111402922B (zh) * | 2020-03-06 | 2023-06-30 | 武汉轻工大学 | 基于小样本的音频信号分类方法、装置、设备及存储介质 |
GB202104280D0 (en) * | 2021-03-26 | 2021-05-12 | Samsung Electronics Co Ltd | Method and apparatus for real-time sound enhancement |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4275353B2 (ja) * | 2002-05-17 | 2009-06-10 | パイオニア株式会社 | 音声認識装置及び音声認識方法 |
US8296135B2 (en) * | 2008-04-22 | 2012-10-23 | Electronics And Telecommunications Research Institute | Noise cancellation system and method |
-
2011
- 2011-11-30 JP JP2011261767A patent/JP5670298B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013114151A (ja) | 2013-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6243858B2 (ja) | 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム | |
Li et al. | An overview of noise-robust automatic speech recognition | |
JP3457431B2 (ja) | 信号識別方法 | |
JP3933750B2 (ja) | 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置 | |
Hirsch et al. | A new approach for the adaptation of HMMs to reverberation and background noise | |
CN112435654B (zh) | 通过帧***对语音数据进行数据增强 | |
WO2006033044A2 (en) | Method of training a robust speaker-dependent speech recognition system with speaker-dependent expressions and robust speaker-dependent speech recognition system | |
Liao et al. | Uncertainty decoding for noise robust speech recognition | |
JP5713818B2 (ja) | 雑音抑圧装置、方法及びプログラム | |
JP5670298B2 (ja) | 雑音抑圧装置、方法及びプログラム | |
CN101432799A (zh) | 基于高斯混合模型的变换中的软校准 | |
JP5997114B2 (ja) | 雑音抑圧装置、雑音抑圧方法、およびプログラム | |
JP2006349723A (ja) | 音響モデル作成装置、音声認識装置、音響モデル作成方法、音声認識方法、音響モデル作成プログラム、音声認識プログラムおよび記録媒体 | |
Hachkar et al. | A comparison of DHMM and DTW for isolated digits recognition system of Arabic language | |
JP5740362B2 (ja) | 雑音抑圧装置、方法、及びプログラム | |
JP6027754B2 (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
Zhang et al. | Minimum phoneme error based heteroscedastic linear discriminant analysis for speech recognition | |
JP5457999B2 (ja) | 雑音抑圧装置とその方法とプログラム | |
Wu et al. | An environment-compensated minimum classification error training approach based on stochastic vector mapping | |
JP4779239B2 (ja) | 音響モデル学習装置、音響モデル学習方法、およびそのプログラム | |
Han et al. | Switching linear dynamic transducer for stereo data based speech feature mapping | |
Ramya et al. | Analysis on MAP and MLLR based speaker adaptation techniques in speech recognition | |
Kim et al. | Advanced parallel combined Gaussian mixture model based feature compensation integrated with iterative channel estimation | |
JP5885686B2 (ja) | 音響モデル適応化装置、音響モデル適応化方法、プログラム | |
Tatarnikova et al. | Building acoustic models for a large vocabulary continuous speech recognizer for Russian |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140108 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140919 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141007 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141029 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141216 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141217 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5670298 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |