JP2004191968A - 信号ソースを分離するための方法及び装置 - Google Patents

信号ソースを分離するための方法及び装置 Download PDF

Info

Publication number
JP2004191968A
JP2004191968A JP2003400576A JP2003400576A JP2004191968A JP 2004191968 A JP2004191968 A JP 2004191968A JP 2003400576 A JP2003400576 A JP 2003400576A JP 2003400576 A JP2003400576 A JP 2003400576A JP 2004191968 A JP2004191968 A JP 2004191968A
Authority
JP
Japan
Prior art keywords
signal
source
source signal
separating
mixed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003400576A
Other languages
English (en)
Other versions
JP3999731B2 (ja
Inventor
Sabine V Deligne
サビネ・ブイ・デライン
Satyanarayana Dharanipragada
サトヤナラヤナ・ダラニプラガダ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2004191968A publication Critical patent/JP2004191968A/ja
Application granted granted Critical
Publication of JP3999731B2 publication Critical patent/JP3999731B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】 第1ソースに関連した第1ソース信号と第2ソースに関連した第2ソース信号との混合体から信号を分離するための技術を提供する。
【解決手段】 先ず、第1ソース信号と第2ソース信号との2つの混合体をそれぞれ表す2つの信号を得る。そこで、それら2つの信号と第1ソース及び第2ソースに関連した少なくとも1つの既知の統計的特性とを使用して、しかも参照信号の使用を必要とすることなく、非線型信号ドメインにおいて、第1ソース信号をその混合体から分離する。
【選択図】 図1

Description

本発明は、概して云えば、信号分離技術に関し、詳しく言えば、各ソースに関する何らかの統計的特性がわかっている場合、例えば、各ソースの確率密度関数(probability density function)が既知のガウス混合(mixture of Gaussians)によってモデル化される場合、ソースの非線形混合を分離するための技術に関するものである。
ソース分離は、ソース信号に関する相異なる混合体を観察することによってこれらのソース信号を回復させるという問題を扱う。ソース分離に対する通常の取り組み方法は、一般に、ソース信号が線形に混合されるものと仮定する。また、ソース分離に対する通常の方法は、ソースの統計的特性に関する詳細情報が全く知られてなく(又は、セミブラインド(semi-blind)方法ではほとんど詳細情報がなく)、しかもその分離プロセスにおいて明示的に利用され得ることが仮定されていると云う意味で一般に盲目的(blind)ある。Proceedingsof the IEEE 誌の vol. 9, October 1998, pp. 2009-2025 における「Blind SignalSeparation: Statistical Principles」と題した J.F. Cardoso 氏による論文において開示された方法は線形混合体を仮定していてしかも盲目的であるソース分離方法の1つの例である。
Proceedings of ICSLP 2000 誌の「Speech/Noise Separation Using TwoMicrophones and a VQ Model of Speech Signals」と題した A. Acero 氏他による論文において開示された方法は、ソースの確率密度関数(pdf)に関する先験的な情報を使用するソース分離技術を提案している。しかし、その技術は、波形ドメインの線形変換に起因する線形予測係数(LinearPredictive Coefficient - LPC)ドメインにおいて動作するので、その技術は、被観察混合が線形であることを仮定している。従って、その技術は、非線形混合の場合には使用され得ない。
しかし、被観察混合が線形でない場合、及びソースの統計的特性に関する先見的情報が高い信頼性で得られる場合がある。これは、例えば、混合したオーディオ・ソースの分離を必要とする音声アプリケーションにおける場合である。そのような音声アプリケーションの例は、競合する音声、干渉する音楽、又は特殊なノイズ・ソース、例えば、自動車又は街頭のノイズが存在する場合の音声認識である。
たとえオーディオ・ソースが波形ドメインにおいて線形に混合されるものと仮定され得ても、波形の線形混合は、音声アプリケーションが通常動作するドメインであるケプストラル・ドメイン(cepstral domain)では非線形混合を生じる。既知のように、セプストラ(cepstra)は、音声波形のセグメントのログ・スペクトルから、音声認識システムのフロント・エンドによって計算されるベクトルである。それに関しては、例えば、PrenticeHall Signal Processing Series, 1993 誌の「Fundamentals of Speech Recognition」chapter3 と題した L. Rabiner 氏他による論文を参照してほしい。
このログ変換のために、波形信号の線形混合の結果、ケプストラル信号の非線形混合が生じる。しかし、それは、波形ドメインにおいてよりもケプストラル・ドメインにおいてソース分離を行うことが音声アプリケーションでは計算上有利である。実際に、発生音に対応するセプストラのストリームが音声波形の連続的に重畳したセグメントから計算される。セグメントは、通常、約100ミリ秒(ms)の長さであり、2つの隣接するセグメントの間のシフトは約10ms の長さである。従って、ケプストラル・ドメインにおいて11キロヘルツ(kHz)の音声データに関して動作する分離プロセスは、その分離プロセスが各サンプルに適用されなければならないという波形ドメインに比べて、110サンプル毎に適用される必要があるだけである。
更に、音声のpdf及び多くの可能な干渉オーディオ信号(例えば、競合する音声、音楽、特定のノイズ・ソース等)のpdfはケプストラル・ドメインにおいて高い信頼性でモデル化され、分離プロセスにおいて統合され得る。ケプストラル・ドメインにおける音声のpdfは認識目的で算定され、干渉ソースのpdfは、同様のソースから収集されたデータの代表的なセットに関してオフラインで算定され得る。
Proceedings of ASRU2001,2002 誌の「RobustSpeech Recognition with Multi-channel Codebook Dependent Cepstral Normalization(MCDCN)」と題した S. Deligne 及び R. Gopinath 氏による論文に開示された方法は、少なくとも1つのソースのpdfに関する先験的情報を統合し、線形混合を仮定しないソース分離技術を提案している。この方法では、不要なソース信号が所望のソース信号と干渉する。所望の信号及び干渉信号の混合が1つのチャネルに記録され、一方、干渉信号だけ(即ち、所望の信号を含まない)が、いわゆる、参照信号を形成して第2のチャネルに記録される。しかし、多くの場合、参照信号は使用可能ではない。例えば、自動車の音声認識アプリケーションと自動車の乗客の競合音声との関連において、音声認識システムのユーザ(例えば、運転手)の音声及び自動車における他の乗客の競合音声を分離して捕捉することは不可能である。
従って、通常のソース分離技術と関連した欠点及び不利な点を克服するソース分離技術に対する要求がある。
Proceedings of the IEEE 誌のvol. 9, October 1998, pp. 2009-2025 における「Blind Signal Separation: StatisticalPrinciples」と題した J.F. Cardoso 氏による論文。 Proceedings of ICSLP2000 誌の「Speech/Noise Separation Using Two Microphones and a VQ Model of SpeechSignals」と題した A. Acero 氏他による論文。 Prentice Hall SignalProcessing Series, 1993 誌の「Fundamentals of Speech Recognition」chapter 3 と題した L.Rabiner 氏他による論文。 Proceedings ofASRU2001,2002 誌の「Robust Speech Recognition with Multi-channel CodebookDependent Cepstral Normalization (MCDCN)」と題した S. Deligne 及び R. Gopinath 氏による論文。
本発明の目的は、改良された音声分離技術を提供することにある。
本発明の1つの局面では、第1ソースに関連した第1ソース信号と第2ソースに関連した第2ソース信号との混合体から信号を分離するための技術が次のようなステップ/操作を含む。先ず、第1ソース信号と第2ソース信号との2つの混合体をそれぞれ表す2つの混合信号が得られる。そこで、それら2つの混合信号と第1ソース及び第2ソースに関連した少なくとも1つの既知の統計的特性とを使用して、しかも参照信号の使用を必要とすることなく、非線型信号ドメインにおいて、第1ソース信号がその混合体から分離される。
それらの得られた2つの混合信号は、それぞれ、第1ソース信号及び第2ソース信号の非加重混合信号と、第1ソースの信号及び第2ソースの信号の加重混合信号とを表す。分離ステップ/操作は、非加重混合信号を第1ケプストラル混合信号に変換すること及び加重混合信号を第2ケプストラル混合信号に変換することにより非線形ドメインにおいて遂行され得る。
従って、分離ステップ/操作は、更に、第2ケプストラル混合信号及び分離ステップ/操作における前の反復からの第1ソース信号に関する算定値に基づいた第2ソース信号に関する算定値を反復的に生成することを含み得る。望ましくは、第2ソース信号に関する算定値を生成するステップ/操作は、第2ソース信号がガウス混合によってモデル化されることを仮定する。
更に、分離ステップ/操作は、第1ケプストラル混合信号及び第2ソース信号に関する算定値に基づいて第1ソース信号に関する算定値を反復的に生成することを含み得る。望ましくは、第1ソース信号に関する算定値を生成するステップ/操作は、第1ソース信号がガウス混合によってモデル化されることを仮定する。
分離プロセスの後、その分離された第1ソース信号は、その後に信号処理アプリケーション、例えば、音声認識アプリケーションによって使用され得る。更に、或る音声処理アプリケーションでは、第1ソース信号が音声信号であってもよく、第2ソース信号が、競合する音声、干渉する音楽、及び特定のノイズ・ソースを表す信号であってもよい。
本発明のこれらの及び他の目的、特徴、及び利点が、添付図面と関連して読まれるべき本発明の説明上の実施例に関する以下の詳細な説明から明らかになるであろう。
本発明は、例示的な音声認識アプリケーションと関連して後述される。更に、その例示的な音声認識アプリケーションは、「コードブック従属的である(codebook dependent)」と考えられる。「コードブック従属的である」というフレーズが、各ソース信号の確率密度関数をモデル化するためにガウス混合を使用することを指すことは理解されるべきである。ソース信号に関連したコードブックは、このソース信号を特徴付けるコードワードの集合を含む。各コードワードは、それの前の確率によって及びガウス分布のパラメータ、即ち、平均マトリクス及び共分散マトリクスによって指定される。換言すれば、ガウス混合はコードブックと同じである。
しかし、本発明がこのアプリケーション及び任意の特定のアプリケーションに限定されないことは更に理解されるべきである。むしろ、本発明は、ソースの線形混合を仮定せず、ソースの少なくとも1つの統計的特性がわかっているものと仮定し、且つ参照信号を必要としないソース分離プロセスを遂行することが望ましい任意のアプリケーションに対してより一般的に適用可能である。
従って、音声認識に関連して、本発明のソース分離プロセスを説明する前に、先ず、本発明のソース分離の原理を一般的に説明することにする。
ypcm1 及び ypcm2 は線形に混合された2つの波形信号であり、その結果、2つの混合xpcm1 及び xpcm2 が xpcm1 = ypcm1 + ypcm2 及び xpcm2 = a ypcm1 + ypcm2 (但し、a<1) に従って、生じるものと仮定する。更に、yf1及び yf2 が、それぞれ、信号 ypcm1 及び ypcm2 のスペクトルであり、xf1 及び xf2 が、それぞれ、信号 xpcm1 及び xpcm2 のスペクトルであると仮定する。
更に、y1、y2、x1 及び x2 は、それぞれ、y1 = Clog(yf1)、y2 = C log(yf2)、x1 = C log(xf1)、x2 = C log(xf2) に従って yf1、yf2、xf1、xf2 に対応するケプストラル信号である。なお、Cは、離散コサイン変換(Discrete Cosine Transform)を指す。従って、次式が示される:
y1 = x1-g(y1,y2,1) (1)
y2 =x2-g(y2,y1,a) (2)
なお、g(u,v,w) = C log(1+wexp(invC(v-u))) であり、invC は逆離散コサイン変換を指す。
等式(1)における y1 は未知であるので、その関数の値が、y1 を越えるそれの予測値、即ち、Ey1[g(y1,y2,1)|y2]によって概算される。但し、その予測値は、y1 のpdfをモデル化するガウス混合に関して計算される。また、等式(2)における y2 も未知であるので、関数 g の値が、y2を越えるそれの予測値、即ち、Ey2[g(y2,y1,a)|y1] によって概算される。但し、その予測値は、y2 のpdfをモデル化するガウス混合に関して計算される。等式(1)及び(2)における関数g の値を g の対応する予測値によって置換すると、y2 及び y1 の それぞれの算定値 y2(k) 及び y1(k) が次のような反復手順の各反復(k)において交互に計算される:
Initialization :
y1(0)=x1
Iteration n(n&#8805;1):
y2(n)=x2-Ey2[g(y2,y1,a)|y1=y1(n-1)]
y1(n)=x1-Ey1[g(y1,y2,1)|y2=y2(n)]
n=n+1
一般的に上記した本発明のソース分離の原理を念頭において、音声認識の関連における本発明のソース分離プロセスを説明することにする。
先ず、図1を参照すると、本発明の実施例に従って音声認識システムにおけるソース分離プロセスの統合をブロック図で示す。図示のように、音声認識システム100は、アライメント及びスケーリング・モジュール102、第1及び第2フィーチャ抽出装置104及び106、ソース分離モジュール108、事後分離処理(post separation processing)モジュール110、及び音声認識エンジン112を含む。
先ず、信号を捕捉するセンサ、たとえば、音声認識システムに関連したマイクロフォン(図示されてない)への信号の伝播中に導入された遅延及び減衰を補償するために、被観察波形混合 xpcm1 及び xpcm2 がアライメント及びスケーリング・モジュール102において揃えられ且つスケーリングされる。そのようなアライメント及びスケーリング操作は、音声信号処理の分野ではよく知られている。任意の適当なアライメント及びスケーリング技術が使用可能である。
次に、第1及び第2フィーチャ抽出装置104及び106において、それぞれ、整列した及びスケーリングされた波形混合 xpcm1 及び xpcm2 から、ケプストラル・フィーチャが抽出される。ケプストラル・フィーチャ抽出のための技術は、音声信号処理の分野では周知である。任意の適当な抽出技術が使用可能である。
次に、フィーチャ抽出装置104及び106によってそれぞれ出力されたセプトラル混合 x1 及び x2 が、本発明に従ってソース分離モジュール108によって分離される。ソース分離モジュール108の出力が、音声認識を適用すべき所望のソース、例えば、この場合には、算定ソース信号y1 の算定値であることが望ましいことは明らかである。ソース分離モジュール108がインプリメントし得る例示的なソース分離プロセスが図2及び図3に関連して詳細に後述される。
そこで、ソース分離モジュール108によって出力された、例えば、算定ソース信号 y1 に関連する機能強化されたケプストラル・フィーチャが正規化され、更に、事後分離処理モジュール110において処理される。モジュール110において遂行され得る処理技術の例は、ダイナミック・フィーチャ又はデルタ及びデルタ・デルタ・ケプストラル・フィーチャとも呼ばれ、これらのダイナミック・フィーチャが音声の一時的構造に関する情報(例えば、前記chapter 3 における Rabiner 氏他による文献参照)を保持するとき、それの第1及び第2オ−ダの一時的デリバティブ(first andsecond order temporal derivatives)を計算してそれをケプストラル・フィーチャのベクトルに付加することを含むが、それに限定されない。
最後に、算定ソース信号 y1 が、デコーディングのために音声認識エンジン112に送られる。音声認識を遂行するための技術は、音声信号処理の分野では周知である。任意の適当な認識技術が使用可能である。
次に、図2及び図3を参照すると、それぞれ、本発明の実施例によるソース分離プロセスの第1部分及び第2部分の流れ図が示される。更に詳しく言えば、図2及び図3は、それぞれ、本発明の実施例に従ってソース分離プロセスの各反復を形成する2つのステップを示す。
先ず、プロセスは、時間 t において、y1(0,t)を、被観察混合x1(t) に等しくセットすることによって、即ち、各タイム・インデックス t に対して y1(0,t) = x1(t) をセットすることによって初期設定される。
図2に示されるように、反復n(n&#8805;1)の第1ステップ200Aは、ランダム変数 y2 のpdfが k=1 乃至 K を有する K 個のガウス混合 N(μ2k,Σ2k) でもってモデル化されること(但し、N は平均的μ2k 及び差異Σ2k のガウスpdfを指す)を仮定することによって、被観察混合 x2 から及び算定された値 y1(n-1,t) から(但し、y1(0,t)はx1(t) でもって初期設定される)時間(t)におけるソース y2 の算定 y2(n,t) を計算することを含む。そのステップは、次のように表される:
y2(n,t) = x2(t)-Σkp(k|x2(t))g(μ2k,y1(n-1,t),a) (3)
なお、p(k|x2(t)) は、ランダム変数 x2 がガウス分布N(μ2k+g(μ2k,y(n-1,t),a),Ξ2k(n,t)) に後続するものと仮定することによって、サブステップ202(ガウスkに対する事後計算)において計算される(なお、Ξ2k(n,t)は、ランダム変数x2 の差異を概算するために計算される。なお、g(u,v,w)=C log(1+w exp(invC(v-u))) である)。サブステップ204がp(k|x2(t)) と g(μ2k,y1(n-1,t),a) との乗算を行い、一方、サブステップ206が x2(t) と Σp(k|x2(t))g(μ2k,y1(n-1,t),a)との減算を行う。その結果は、算定ソース y2(n,t) である。
図3に示されるように、反復n(n&#8805;1)の第2ステップ200Bは、ランダム変数 y1 のpdfが k=1 乃至 K を有する K 個のガウス混合 N(μ1k,Σ1k) でもってモデル化されること(但し、N は平均的μ1k 及び差異Σ1k のガウスpdfを指す)を仮定することによって、被観察混合 x1 から及び算定された値 y2(n,t) から時間(t)におけるソースy1 の算定 y1(n,t) を計算することを含む。そのステップは、次のように表される:
y1(n,t) = x1(t)-Σkp(k|x1(t))g(μ1k,y2(n,t),1) (4)
なお、p(k|x1(t)) は、ランダム変数 x1 がガウス分布N(μ1k+g(μ1k,y2(n,t),1),Ξ1k(n,t)) に後続するものと仮定することによって、サブステップ208(ガウスkに対する事後計算)において計算される(なお、Ξ1k(n,t)は、ランダム変数x1 の差異を概算するために計算される。なお、g(u,v,w)=C log(1+w exp(invC(v-u))) である)。サブステップ210がp(k|x1(t)) と g(μ1k,y2(n,t),1) との乗算を行い、一方、サブステップ212が x1(t) と Σp(k|x1(t))g(μ1k,y2(n,t),1)との減算を行う。その結果は、算定ソース y1(n,t) である。
M 個の反復が行われた後(M1)、t=1 乃至 T の場合の T 個のケプストラル・フィーチャ・ベクトルy1(M,t)の算定ストリームがデコーディングのために音声認識エンジンに送られる。t=1 乃至 T の場合の T 個のケプストラル・フィーチャ・ベクトルy2(M,t)の算定ストリームが、それがデコードされないとき、廃棄される。 データ y1 のストリームが、ストリーム x1 及び x2 を捕捉するマイクロフォンの相対的位置に基づいてデコードされるべきソースであると決定される。デコードされるべき音声ソースに近接して置かれているマイクロフォンが信号x1 を捕捉する。デコードされるべき音声ソースから遠く離れて置かれているマイクロフォンが信号 x2 を捕捉する。
本発明の前述した例示的ソース捕捉プロセスを更に詳しく説明すると、前に指摘したように、ソース捕捉プロセスは、各反復nのステップ200A及び200Bにおいて、それぞれ、使用される被観察混合 x1 及び x2 の共分散マトリクス Ξ1k(n,t) 又は Ξ2k(n,t) を算定する。共分散マトリクス Ξ1k(n,t) 又は Ξ2k(n,t)は、被観察混合からオン・ザ・フライで計算されるか、又は2つの 「log-正規分布したランダム変数」の和の指数に起因するランダム変数の共分散マトリクスを定義する並列モデル結合(ParallelModel Combination - PMC)方程式に従って計算され得る。これに関しては、例えば、IEEE Transactions on Speechand Audio Processing 誌の vol.4, 1996 における「Robust Continuous Speech RecognitionUsing Parallel Model Combination」と題した M.J.F. Gales 氏他による論文を参照してほしい。
PMC方程式は、次のように使用され得る。μ1 及び Ξ1 は、それぞれ、ケプストラル・ドメインにおけるガウス・ランダム変数z1 の平均的マトリクス及び共分散マトリクスであると仮定する。μ2 及びΞ2 は、それぞれ、ケプストラル・ドメインにおけるガウスのランダム変数 z2 の平均的マトリクス及び共分散マトリクスであると仮定する。z1f=invClog(z1) 及び z2f=invC log(z2) は、ランダム変数 z1 及び z2 をスペクトル・ドメインに変換することによって得られるランダム変数であると仮定する。zf= z1f+z2f がランダム変数 z1f 及び z2f の和であると仮定する。そこで、PCM方程式は、ランダム変数 zf をケプストラル・ドメインに変換することによって得られるランダム変数z = C log(zf) の共分散マトリクスΞを次のように計算することを可能にする。
Ξij = log[((Ξ1fij+Ξ2fij)/((μ1fi+μ2fi)(μ1fj+μ2fj)))+1]
なお、Ξ1fij(resp., Ξ2fij) は、Ξ1fij =μ1fi*μ1fj(exp(Ξ1fij)-1)(resp.,Ξ2fij=μ2fi*μ2fj(exp(Ξ2fij-1))として定義された共分散マトリクスΞ1f (resp., Ξ2f) における (i,j)th 素子を示し、μ1fi(resp.,μ2fi) は、ベクトルμ1f(resp., μ2f) の ith 次元を指し、μ1fi=exp(μ1i+Ξ1ij/2))(resp., μ2fi=exp(μ2i+(Ξ2ij/2))) である。
以下で明らかであるように、種々の話しての音声が自動車のノイズと混合される場合の実験では、音声ソースのpdfは、32個のガウス混合でもってモデル化され、ノイズ・ソースのpdfは、2個のガウス混合でもってモデル化される。テスト・データに関する限り、音声に対する32個のガウス混合及びノイズに対する2個のガウス混合は、認識精度及び複雑性の間の良好なトレードオフに相当するように見える。更に複雑なpdfを有するソースは更に多くのガウス混合を伴なうことがある。
最後に、図4を参照すると、本発明の実施例によるソース分離プロセス(例えば、図1、図2及び図3に示されるような)を組み込んだ音声認識システムの例示的インプリメンテーションのブロック図が示される。この特定のインプリメンテーション300では、本明細書において開示された操作(例えば、アライメント、スケーリング、フィーチャ抽出、ソース分離、事後分離処理、及び音声認識)を制御及び実行するためのプロセッサ302がコンピュータ・バス308を介してメモリ304及びユーザ・インターフェース306に結合される。
本明細書において使用される用語「プロセッサ」は、たとえば、CPU(中央処理装置)及び(又は)他の適当な処理回路を含む装置のような任意の処理装置を含むように意図される。例えば、プロセッサは、従来技術において知られているようなディジタル信号プロセッサであってもよい。また、用語「プロセッサ」は、複数の個々のプロセッサを指してもよい。本明細書において使用される用語「メモリ」は、例えば、RAM、ROM、固定メモリ・デバイス(例えば、ハード・ドライブ)、取り外し可能メモリ・デバイス(例えば、フロッピ・ディスク)等のようなプロセッサ又はCPUに関連したメモリを含むように意図される。更に、本明細書において使用される用語「ユーザ・インターフェース」は、例えば、音声データを処理ユニットに入力するためのマイクロフォン及び、望ましくは、音声認識プロセスと関連した結果を表示するための可視表示装置を含むように意図される。
従って、本明細書に開示されたような本発明の方法を遂行するための命令又はコードを含むコンピュータ・ソフトウェアが1つ又はそれ以上の関連のメモリ・デバイス(例えば、ROM、固定メモリ又は取り外し可能メモリ)に記憶され得るし、利用の準備ができているときには、部分的に又は全体的に(例えば、RAMに)ロードされ、そしてCPUによって実行され得る。
いずれにしても、図1、図2及び図3に示された素子は、ハードウェア、ソフトウェア、或いはそれらの結合という種々の形式で、例えば、関連のメモリを有する1つ又はそれ以上のディジタル信号プロセッサ、アプリケーション独特の集積回路、機能的回路、関連のメモリを有する1つ又はそれ以上の適切にプログラムされた汎用ディジタル・コンピュータの形式でインプリメントされ得る。更に、本発明の方法は、実行時に本発明の方法のステップをインプリメントする1つ又はそれ以上のプログラムを含むマシン可読媒体においても具体化され得る。本願において提供された本発明に関する教示があれば、当業者は、本発明の構成要素における別のインプリメンテーションを予想することができるであろう。
次に、音声と混合された信号が自動車の騒音である場合、音声認識と関連して使用される本発明の実施例に関する例示的評価を行うことにする。先ず、評価プロトコルが説明され、しかる後、本発明のソース分離プロセス(以下では、「コードブック従属ソース分離プロセス(codebook dependent source separation process)」又は「CDSS」と呼ばれる)に従って得られた認識スコアが、如何なる分離プロセスも無くて得られたスコアと比較され、更に、上記のMCDCNプロセスによって得られたスコアと比較される。
実験は、非走行車において、連結したディジット・シ−ケンスを発する12人の男性及び女性被験者のコーパス(corpus)に関して行われる。60mph(約96.5km/時間)の速度の自動車における事前記録されたノイズ信号が、1又は「a」の係数によって加重音声信号に人為的に加えられ、従って、音声波形及びノイズ波形の2つの異なる線形混合(前述のように「ypcm1+ypcm2」及び「aypcm1+ypcm2」が生じる。なお、ypcm1 は音声波形を指し、ypcm2 はノイズ波形を指す)。係数「a」を0.3、0.4、及び0.5にセットした場合の実験が行われた。音声及びノイズのすべてのレコーディングがAKG O400マイクロフォンによって22kHzで行われ、11kHz にダウンサンプルされた。
音声ソースのpdfをモデル化するためには、男性及び女性の両方によって発せられ、非走行の自動車及びノイズの無い環境においてAKG Q400マイクロフォンでもって記録された数千のセンテンスの集合体に関して32個のガウス混合が算定された。自動車ノイズのpdfをモデル化するために、テスト・データに対する設定と同じ設定を使用して、60mph(約96.5km/時間)の速度の自動車においてAKG Q400でもって記録された約4分のノイズに関し(実験に先立って)2個のガウス混合が算定された。
音声認識エンジンによってデコードされる音声及びノイズの混合は、
(A)分離されない、又は
(B)MCDCNプロセスによって分離される、又は
(C)CDSSプロセスによって分離される。
上記(A)、(B)及び(C)によって得られた音声認識エンジンのパフォーマンスがワード・エラー率(Word Error Rates - WER)によって比較される。
その実験において使用された音声認識エンジンは、特に、携帯可能な装置において又は自動車のアプリケーションにおいて使用される。そのエンジンは、約10,000個のコンテキスト従属のガウス、即ち、一般的な英語の音声を数百時間も訓練された(これらの訓練データの約半分が自動車ノイズをディジタル的に付加したか、又は30mph及び60mph(約48km/時間及び約96.5km/時間)の速度で走行する自動車において記録された)決定木(decision tree)を使用することにより結束されたトライフォン・コンテキスト(triphonecontext)を有するスピーカ独立型の音響モデル(英語の音声をカバーする156個のサブフォン(subphone))のセットを含む。これに関しては、(Proceedingsof ICASSP 1995 誌の vol. 1, pp. 41-44 における「Performance of the IBM LargeVocabulary Continuous Speech Recognition System on the ARPA Wall Street JournalTask」 と題した L.R. Bahl 氏他による論文を参照してほしい)。システムのフロント・エンドは、24個のメルフィルタ・バンクを使用して15ms フレームから12個のセプストラ+エネルギ+デルタ及びデルタ−デルタ係数を計算する(例えば、前記のRabiner 氏他による chapter 3 の文献を参照してほしい)。
CDSSプロセスは、一般的に上記したように適用され、図1、図2、及び図3に関連して例示的に上記したように適用されることが望ましい。
下記の表1は、テスト・データをデコードした後に得られたワード・エラー率(WER)を示す。ノイズの付加前のきれいな音声において得られたWERは1.53%である。ノイズの付加後の且つ如何なる分離プロセスも使用せずにノイズのある音声において得られたWERは12.31%である。参照信号として第2混合(「ayf1+yf2」)を使用してMCDCNプロセス使用した後に得られたWERが、混合係数「a」の種々な値に対して与えられる。MCDCNは、参照信号における音声の漏洩が小さい(a= 0.3)ときにWERの減少を与えるが、漏洩がもっと重要になるに従ってそれのパフォーマンスは低下し、0.5に等しい係数「a」に対しては、MCDCNプロセスは、12.31%のベースラインWERよりも悪くなる。一方、CDSSプロセスは、係数「a」のすべての実験値に対してベースラインWERを大いに改善する。
(表1)
オリジナル音声 1.53
ノイズのある音声、分離無し 12.31
a = 0.3 a = 0.4 a = 0.5
ノイズのある音声、MCDCN 7.86 10.00 15.51
ノイズのある音声、CDSS 6.35 6.87 7.59
添付図面を参照して本発明の実施例を説明したけれども、本発明がそれらの実施例そのものに限定されないこと、及び、本発明の範囲又は精神から逸脱することなく、他の種々な変更及び修正が当業者によって行われ得ることは当然である。
まとめとして、本発明の構成に関して以下の事項を開示する。
(1)第1ソースに関連した信号(第1ソース信号)と第2ソースに関連した信号(第2ソース信号)との混合体から信号を分離する方法であって、
前記第1ソース信号及び前記第2ソース信号の2つの混合体をそれぞれ表す2つの信号を得るステップと、
前記2つの信号と前記第1ソース及び前記第2ソースに関連した少なくとも1つの既知の統計的特性とを使用して且つ参照信号の使用を必要とすることなく、非線形信号ドメインにおいて前記混合体から前記第1ソース信号を分離するステップと、
を含む方法。
(2)前記2つの信号が、それぞれ、前記第1ソース信号及び前記第2ソース信号の非加重混合信号と前記第1ソース信号及び前記第2ソース信号の加重混合信号とを表す、上記(1)に記載の方法。
(3)前記分離するステップが、前記非加重混合信号を第1ケプストラル混合信号に変換すること及び前記加重混合信号を第2ケプストラル混合信号に変換することにより前記非線型ドメインにおいて遂行される、上記(2)に記載の方法。
(4)前記分離するステップが、前記第2ケプストラル混合信号と前記分離するステップにおける前の反復からの前記第1ソース信号に関する算定値とに基づいて前記第2ソース信号に関する算定値を反復的に生成するステップを含む、上記(3)に記載の方法。
(5)前記第2ソース信号に関する算定値を生成するステップは、前記第2ソース信号がガウス混合によってモデル化されることを仮定する、上記(4)に記載の方法。
(6)前記分離するステップが、更に、前記第1ケプストラル混合信号と前記第2ソース信号に関する算定値とに基づいて前記第1ソース信号に関する算定値を反復的に生成するステップを含む、上記(4)に記載の方法。
(7)前記第1ソース信号に関する算定値を生成するステップは、前記第1ソース信号がガウス混合によってモデル化されることを仮定する、上記(6)に記載の方法。
(8)前記分離された第1ソース信号が、その後、信号処理アプリケーションによって使用される、上記(1)に記載の方法。
(9)前記アプリケーションが音声認識である、上記(8)に記載の方法。
(10)前記第1ソース信号が音声信号であり、前記第2ソース信号が、競合する音声、干渉する音楽及び特定のノイズ・ソースの少なくとも1つを表す信号である、上記(1)に記載の方法。
(11)第1ソースに関連した信号(第1ソース信号)と第2ソースに関連した信号(第2ソース信号)との混合体から信号を分離するための装置であって、
メモリと、
前記メモリに結合され、(i)前記第1ソース信号及び前記第2ソース信号の2つの体をそれぞれ表す2つの混合信号を得るように動作し、(ii)前記2つの信号と前記第1ソース及び前記第2ソースに関連した少なくとも1つの既知の統計的特性とを使用して且つ参照信号の使用を必要とすることなく、非線形信号ドメインにおいて前記混合体から前記第1ソース信号を分離するように動作する少なくとも1つのプロセッサと、
を含む装置。
(12)前記2つの信号が、それぞれ、前記第1ソース信号及び前記第2ソース信号の非加重混合信号と前記第1ソース信号及び前記第2ソース信号の加重混合信号とを表す、上記(11)に記載の装置。
(13)前記分離する操作が、前記非加重混合信号を第1ケプストラル混合信号に変換すること及び前記加重混合信号を第2ケプストラル混合信号に変換することにより、前記非線型ドメインにおいて遂行される、上記(12)に記載の装置。
(14)前記分離する操作が、前記第2ケプストラル混合信号及び前記分離する操作における前の反復からの前記第1ソース信号に関する算定値に基づいて前記第2ソース信号に関する算定値を反復的に生成する操作を含む、上記(13)に記載の装置。
(15)前記第2ソース信号に関する算定値を生成する操作は、前記第2ソース信号がガウス混合によってモデル化されることを仮定する、上記(14)に記載の装置。
(16)前記分離する操作が、更に、前記第1ケプストラル混合信号及び前記第2ソース信号に関する算定値に基づいて前記第1ソース信号に関する算定値を反復的に生成する操作を含む、上記(14)に記載の装置。
(17)前記第1ソース信号に関する算定値を生成する操作は、前記第1ソース信号がガウス混合によってモデル化されることを仮定する、上記(16)に記載の装置。
(18)前記分離された第1ソース信号が、その後、信号処理アプリケーションによって使用される、上記(11)に記載の装置。
(19)前記アプリケーションが音声認識である、上記(18)に記載の装置。
(20)前記第1ソース信号が音声信号であり、前記第2ソース信号が、競合する音声、干渉する音楽及び特定のノイズ・ソースの少なくとも1つを表す信号である、上記(11)に記載の装置。
(21)第1ソースに関連した信号(第1ソース信号)と第2ソースに関連した信号(第2ソース信号)との混合体から信号を分離するためのコンピュータ・プログラムであって、
前記第1ソース信号及び前記第2ソース信号の2つの混合体をそれぞれ表す2つの信号を得るステップと、
前記2つの信号と前記第1ソース及び前記第2ソースに関連した少なくとも1つの既知の統計的特性とを使用して且つ参照信号の使用を必要とすることなく、非線形信号ドメインにおいて前記混合体から前記第1ソース信号を分離するステップと、
を、実行時にインプリメントする1つ又はそれ以上のプログラムを含むマシン可読媒体を構成するコンピュータ・プログラム。
(22)前記2つの信号が、それぞれ、前記第1ソース信号及び前記第2ソース信号の非加重混合信号と前記第1ソース信号及び前記第2ソース信号の加重混合信号とを表す、上記(21)に記載のコンピュータ・プログラム。
(23)前記分離するステップが、前記非加重混合信号を第1ケプストラル混合信号に変換すること及び前記加重混合信号を第2ケプストラル混合信号に変換することにより、前記非線型ドメインにおいて遂行される、上記(22)に記載のコンピュータ・プログラム。
(24)前記分離するステップが、前記第2ケプストラル混合信号及び前記分離するステップにおける前の反復からの前記第1ソース信号に関する算定値に基づいて前記第2ソース信号に関する算定値を反復的に生成するステップを含む、上記(23)に記載のコンピュータ・プログラム。
(25)前記第2ソース信号に関する算定値を生成するステップは、前記第2ソース信号がガウス混合によってモデル化されることを仮定する、上記(24)に記載のコンピュータ・プログラム。
(26)前記分離するステップが、更に、前記第1ケプストラル混合信号及び前記第2ソース信号に関する算定値に基づいて前記第1ソース信号に関する算定値を反復的に生成するステップを含む、上記(24)に記載のコンピュータ・プログラム。
(27)前記第1ソース信号に関する算定値を生成するステップは、前記第1ソース信号がガウス混合によってモデル化されることを仮定する、上記(26)に記載のコンピュータ・プログラム。
(28)前記分離された第1ソース信号が、その後、信号処理アプリケーションによって使用される、上記(21)に記載のコンピュータ・プログラム。
(29)前記アプリケーションがは音声認識である、上記(28)に記載のコンピュータ・プログラム。
(30)前記第1ソース信号が音声信号であり、前記第2ソース信号が、競合する音声、干渉する音楽及び特定のノイズ・ソースの少なくとも1つを表す信号である、上記(21)に記載のコンピュータ・プログラム。
(31)第1ソースに関連した信号(第1ソース信号)と第2ソースに関連した信号(第2ソース信号)との混合体から信号を分離するための装置であって、
前記第1ソース信号及び前記第2ソース信号の2つの混合体をそれぞれ表す2つの信号を得るための手段と、
前記2つの信号を得るための手段に結合され、前記2つの信号と前記第1ソース及び前記第2ソースに関連した少なくとも1つの既知の統計的特性とを使用して且つ参照信号の使用を必要とすることなく、非線形信号ドメインにおいて前記混合体から前記第1ソース信号を分離するための手段と、
を含む装置。
本発明の実施例に従って音声認識システムにおけるソース分離プロセスの統合を示すブロック図である。 本発明の実施例に従ってソース分離プロセスの第1部分を示す流れ図である。 本発明の実施例に従ってソース分離プロセスの第2部分を示す流れ図である。 本発明の実施例に従ってソース分離プロセスを組み込んだ音声認識システムの例示的インプリメンテーションを示すブロック図である。

Claims (31)

  1. 第1ソースに関連した信号(第1ソース信号)と第2ソースに関連した信号(第2ソース信号)との混合体から信号を分離する方法であって、
    前記第1ソース信号及び前記第2ソース信号の2つの混合体をそれぞれ表す2つの信号を得るステップと、
    前記2つの信号と前記第1ソース及び前記第2ソースに関連した少なくとも1つの既知の統計的特性とを使用して且つ参照信号の使用を必要とすることなく、非線形信号ドメインにおいて前記混合体から前記第1ソース信号を分離するステップと、
    を含む方法。
  2. 前記2つの信号が、それぞれ、前記第1ソース信号及び前記第2ソース信号の非加重混合信号と前記第1ソース信号及び前記第2ソース信号の加重混合信号とを表す、請求項1に記載の方法。
  3. 前記分離するステップが、前記非加重混合信号を第1ケプストラル混合信号に変換すること及び前記加重混合信号を第2ケプストラル混合信号に変換することにより前記非線型ドメインにおいて遂行される、請求項2に記載の方法。
  4. 前記分離するステップが、前記第2ケプストラル混合信号と前記分離するステップにおける前の反復からの前記第1ソース信号に関する算定値とに基づいて前記第2ソース信号に関する算定値を反復的に生成するステップを含む、請求項3に記載の方法。
  5. 前記第2ソース信号に関する算定値を生成するステップは、前記第2ソース信号がガウス混合によってモデル化されることを仮定する、請求項4に記載の方法。
  6. 前記分離するステップが、更に、前記第1ケプストラル混合信号と前記第2ソース信号に関する算定値とに基づいて前記第1ソース信号に関する算定値を反復的に生成するステップを含む、請求項4に記載の方法。
  7. 前記第1ソース信号に関する算定値を生成するステップは、前記第1ソース信号がガウス混合によってモデル化されることを仮定する、請求項6に記載の方法。
  8. 前記分離された第1ソース信号が、その後、信号処理アプリケーションによって使用される、請求項1に記載の方法。
  9. 前記アプリケーションが音声認識である、請求項8に記載の方法。
  10. 前記第1ソース信号が音声信号であり、前記第2ソース信号が、競合する音声、干渉する音楽及び特定のノイズ・ソースの少なくとも1つを表す信号である、請求項1に記載の方法。
  11. 第1ソースに関連した信号(第1ソース信号)と第2ソースに関連した信号(第2ソース信号)との混合体から信号を分離するための装置であって、
    メモリと、
    前記メモリに結合され、(i)前記第1ソース信号及び前記第2ソース信号の2つの混合体をそれぞれ表す2つの信号を得るように動作し、(ii)前記2つの信号と前記第1ソース及び前記第2ソースに関連した少なくとも1つの既知の統計的特性とを使用して且つ参照信号の使用を必要とすることなく、非線形信号ドメインにおいて前記混合体から前記第1ソース信号を分離するように動作する少なくとも1つのプロセッサと、
    を含む装置。
  12. 前記2つの信号が、それぞれ、前記第1ソース信号及び前記第2ソース信号の非加重混合信号と前記第1ソース信号及び前記第2ソース信号の加重混合信号とを表す、請求項11に記載の装置。
  13. 前記分離する操作が、前記非加重混合信号を第1ケプストラル混合信号に変換すること及び前記加重混合信号を第2ケプストラル混合信号に変換することにより、前記非線型ドメインにおいて遂行される、請求項12に記載の装置。
  14. 前記分離する操作が、前記第2ケプストラル混合信号及び前記分離する操作における前の反復からの前記第1ソース信号に関する算定値に基づいて前記第2ソース信号に関する算定値を反復的に生成する操作を含む、請求項13に記載の装置。
  15. 前記第2ソース信号に関する算定値を生成する操作は、前記第2ソース信号がガウス混合によってモデル化されることを仮定する、請求項14に記載の装置。
  16. 前記分離する操作が、更に、前記第1ケプストラル混合信号及び前記第2ソース信号に関する算定値に基づいて前記第1ソース信号に関する算定値を反復的に生成する操作を含む、請求項14に記載の装置。
  17. 前記第1ソース信号に関する算定値を生成する操作は、前記第1ソース信号がガウス混合によってモデル化されることを仮定する、請求項16に記載の装置。
  18. 前記分離された第1ソース信号が、その後、信号処理アプリケーションによって使用される、請求項11に記載の装置。
  19. 前記アプリケーションが音声認識である、請求項18に記載の装置。
  20. 前記第1ソース信号が音声信号であり、前記第2ソース信号が、競合する音声、干渉する音楽及び特定のノイズ・ソースの少なくとも1つを表す信号である、請求項11に記載の装置。
  21. 第1ソースに関連した信号(第1ソース信号)と第2ソースに関連した信号(第2ソース信号)との混合体から信号を分離するためのコンピュータ・プログラムであって、
    前記第1ソース信号及び前記第2ソース信号の2つの混合体をそれぞれ表す2つの信号を得るステップと、
    前記2つの信号と前記第1ソース及び前記第2ソースに関連した少なくとも1つの既知の統計的特性とを使用して且つ参照信号の使用を必要とすることなく、非線形信号ドメインにおいて前記混合体から前記第1ソース信号を分離するステップと、
    を、実行時にインプリメントする1つ又はそれ以上のプログラムを含むマシン可読媒体を構成するコンピュータ・プログラム。
  22. 前記2つの信号が、それぞれ、前記第1ソース信号及び前記第2ソース信号の非加重混合信号と前記第1ソース信号及び前記第2ソース信号の加重混合信号とを表す、請求項21に記載のコンピュータ・プログラム。
  23. 前記分離するステップが、前記非加重混合信号を第1ケプストラル混合信号に変換すること及び前記加重混合信号を第2ケプストラル混合信号に変換することにより、前記非線型ドメインにおいて遂行される、請求項22に記載のコンピュータ・プログラム。
  24. 前記分離するステップが、前記第2ケプストラル混合信号及び前記分離するステップにおける前の反復からの前記第1ソース信号に関する算定値に基づいて前記第2ソース信号に関する算定値を反復的に生成するステップを含む、請求項23に記載のコンピュータ・プログラム。
  25. 前記第2ソース信号に関する算定値を生成するステップは、前記第2ソース信号がガウス混合によってモデル化されることを仮定する、請求項24に記載のコンピュータ・プログラム。
  26. 前記分離するステップが、更に、前記第1ケプストラル混合信号及び前記第2ソース信号に関する算定値に基づいて前記第1ソース信号に関する算定値を反復的に生成するステップを含む、請求項24に記載のコンピュータ・プログラム。
  27. 前記第1ソース信号に関する算定値を生成するステップは、前記第1ソース信号がガウス混合によってモデル化されることを仮定する、請求項26に記載のコンピュータ・プログラム。
  28. 前記分離された第1ソース信号が、その後、信号処理アプリケーションによって使用される、請求項21に記載のコンピュータ・プログラム。
  29. 前記アプリケーションがは音声認識である、請求項28に記載のコンピュータ・プログラム。
  30. 前記第1ソース信号が音声信号であり、前記第2ソース信号が、競合する音声、干渉する音楽及び特定のノイズ・ソースの少なくとも1つを表す信号である、請求項21に記載のコンピュータ・プログラム。
  31. 第1ソースに関連した信号(第1ソース信号)と第2ソースに関連した信号(第2ソース信号)との混合体から信号を分離するための装置であって、
    前記第1ソース信号及び前記第2ソース信号の2つの混合体をそれぞれ表す2つの信号を得るための手段と、
    前記2つの信号を得るための手段に結合され、前記2つの信号と前記第1ソース及び前記第2ソースに関連した少なくとも1つの既知の統計的特性とを使用して且つ参照信号の使用を必要とすることなく、非線形信号ドメインにおいて前記混合体から前記第1ソース信号を分離するための手段と、
    を含む装置。
JP2003400576A 2002-12-10 2003-11-28 信号ソースを分離するための方法及び装置 Expired - Fee Related JP3999731B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/315,680 US7225124B2 (en) 2002-12-10 2002-12-10 Methods and apparatus for multiple source signal separation

Publications (2)

Publication Number Publication Date
JP2004191968A true JP2004191968A (ja) 2004-07-08
JP3999731B2 JP3999731B2 (ja) 2007-10-31

Family

ID=32468771

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003400576A Expired - Fee Related JP3999731B2 (ja) 2002-12-10 2003-11-28 信号ソースを分離するための方法及び装置

Country Status (2)

Country Link
US (1) US7225124B2 (ja)
JP (1) JP3999731B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012155339A (ja) * 2005-06-28 2012-08-16 Microsoft Corp 音声状態モデルを使用したマルチセンサ音声高品質化

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4000095B2 (ja) * 2003-07-30 2007-10-31 株式会社東芝 音声認識方法、装置及びプログラム
US7893872B2 (en) * 2006-04-27 2011-02-22 Interdigital Technology Corporation Method and apparatus for performing blind signal separation in an OFDM MIMO system
JP2011107603A (ja) * 2009-11-20 2011-06-02 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム
CN102723081B (zh) * 2012-05-30 2014-05-21 无锡百互科技有限公司 语音信号处理方法、语音和声纹识别方法及其装置
EP2887233A1 (en) * 2013-12-20 2015-06-24 Thomson Licensing Method and system of audio retrieval and source separation
CN110164469B (zh) * 2018-08-09 2023-03-10 腾讯科技(深圳)有限公司 一种多人语音的分离方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4209843A (en) * 1975-02-14 1980-06-24 Hyatt Gilbert P Method and apparatus for signal enhancement with improved digital filtering
SE511496C2 (sv) * 1995-05-03 1999-10-11 Ulf Lindgren Förfarande vid signalseparation
JP2000242624A (ja) 1999-02-18 2000-09-08 Retsu Yamakawa 信号分離装置
US7116271B2 (en) * 2004-09-23 2006-10-03 Interdigital Technology Corporation Blind signal separation using spreading codes

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012155339A (ja) * 2005-06-28 2012-08-16 Microsoft Corp 音声状態モデルを使用したマルチセンサ音声高品質化

Also Published As

Publication number Publication date
US20040111260A1 (en) 2004-06-10
JP3999731B2 (ja) 2007-10-31
US7225124B2 (en) 2007-05-29

Similar Documents

Publication Publication Date Title
Kumar et al. Delta-spectral cepstral coefficients for robust speech recognition
Delcroix et al. Compact network for speakerbeam target speaker extraction
US6804640B1 (en) Signal noise reduction using magnitude-domain spectral subtraction
JPH07271394A (ja) 確実な電話音声認識のための信号バイアスの除去
CN108198566B (zh) 信息处理方法及装置、电子设备及存储介质
Stouten et al. Model-based feature enhancement with uncertainty decoding for noise robust ASR
JP4457221B2 (ja) 音源分離方法およびそのシステム、並びに音声認識方法およびそのシステム
Wolfel et al. Minimum variance distortionless response spectral estimation
Saleem et al. Unsupervised speech enhancement in low SNR environments via sparseness and temporal gradient regularization
Takiguchi et al. PCA-Based Speech Enhancement for Distorted Speech Recognition.
JP2003532162A (ja) 雑音に影響された音声の認識のためのロバストなパラメータ
Algazi et al. Transform representation of the spectra of acoustic speech segments with applications. I. General approach and application to speech recognition
US7319955B2 (en) Audio-visual codebook dependent cepstral normalization
JP3999731B2 (ja) 信号ソースを分離するための方法及び装置
Chavan et al. Speech recognition in noisy environment, issues and challenges: A review
JPH10149191A (ja) モデル適応方法、装置およびその記憶媒体
Kaur et al. Optimizing feature extraction techniques constituting phone based modelling on connected words for Punjabi automatic speech recognition
JP2000194392A (ja) 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体
KR101610708B1 (ko) 음성 인식 장치 및 방법
JP3250604B2 (ja) 音声認識方法および装置
JP4464797B2 (ja) 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
Ming et al. Speech recognition with unknown partial feature corruption–a review of the union model
Acero et al. Speech/noise separation using two microphones and a VQ model of speech signals.
Bagi et al. Improved recognition rate of language identification system in noisy environment
Techini et al. Robust front-end based on MVA and HEQ post-processing for Arabic speech recognition using hidden Markov model toolkit (HTK)

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060620

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20060912

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20060915

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070410

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070703

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070807

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070809

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100817

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100817

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110817

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110817

Year of fee payment: 4

S202 Request for registration of non-exclusive licence

Free format text: JAPANESE INTERMEDIATE CODE: R315201

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110817

Year of fee payment: 4

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110817

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120817

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130817

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees