JP2004536329A - 分散型音声認識システムにおける音声認識のためのシステム及び方法 - Google Patents
分散型音声認識システムにおける音声認識のためのシステム及び方法 Download PDFInfo
- Publication number
- JP2004536329A JP2004536329A JP2002560121A JP2002560121A JP2004536329A JP 2004536329 A JP2004536329 A JP 2004536329A JP 2002560121 A JP2002560121 A JP 2002560121A JP 2002560121 A JP2002560121 A JP 2002560121A JP 2004536329 A JP2004536329 A JP 2004536329A
- Authority
- JP
- Japan
- Prior art keywords
- engine
- speech
- information
- local
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000006870 function Effects 0.000 claims abstract description 13
- 239000000203 mixture Substances 0.000 claims description 52
- 230000008569 process Effects 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 7
- 238000004891 communication Methods 0.000 claims description 4
- 239000002131 composite material Substances 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 abstract 1
- 230000007704 transition Effects 0.000 description 17
- 230000005236 sound signal Effects 0.000 description 12
- 239000013598 vector Substances 0.000 description 8
- 230000006835 compression Effects 0.000 description 6
- 238000007906 compression Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 5
- 230000001419 dependent effect Effects 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 108091006146 Channels Proteins 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000003825 pressing Methods 0.000 description 2
- 238000010183 spectrum analysis Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000008080 stochastic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
Abstract
【課題】分散型音声認識システムにおける音声認識のためのシステム及び方法
【解決手段】分散型音声認識における音声認識を改善する方法及びシステム。分散型音声認識システム50は、加入者ユニット54におけるローカルVRエンジン52及びサーバ58上のサーバVRエンジン56を含む。ローカルVRエンジン52がローカルVRエンジン52への音声分節を認識しないとき、サーバVRエンジン56は、音声分節に相当する情報をローカルVRエンジン52へダウンロードする。ローカルVRエンジン52は、音声分節についての合成情報を作り出すために、ローカルVRエンジン52の音声分節情報をダウンロードされた情報と組み合わせてもよい。ローカルVRエンジン52は、又、音声分節についての合成情報を作り出すために、関数をダウンロードされた情報に適用してもよい。ローカルVRエンジン52は、又、合成情報を作り出すために、関数をダウンロードされた情報に適用してもよい。合成情報は、それから、ローカルVRエンジン52からサーバVRエンジン56へアップロードされてもよい。
【選択図】図5
【解決手段】分散型音声認識における音声認識を改善する方法及びシステム。分散型音声認識システム50は、加入者ユニット54におけるローカルVRエンジン52及びサーバ58上のサーバVRエンジン56を含む。ローカルVRエンジン52がローカルVRエンジン52への音声分節を認識しないとき、サーバVRエンジン56は、音声分節に相当する情報をローカルVRエンジン52へダウンロードする。ローカルVRエンジン52は、音声分節についての合成情報を作り出すために、ローカルVRエンジン52の音声分節情報をダウンロードされた情報と組み合わせてもよい。ローカルVRエンジン52は、又、音声分節についての合成情報を作り出すために、関数をダウンロードされた情報に適用してもよい。ローカルVRエンジン52は、又、合成情報を作り出すために、関数をダウンロードされた情報に適用してもよい。合成情報は、それから、ローカルVRエンジン52からサーバVRエンジン56へアップロードされてもよい。
【選択図】図5
Description
【技術分野】
【0001】
本発明は、一般に通信の分野に関し、特に分散型(distributed)音声認識システムにおけるローカル音声認識を改善するためのシステム及び方法に関する。
【背景技術】
【0002】
音声認識(VR)は、ユーザ又はユーザ音声による命令を認識する模擬知能(simulated intelligence)を装置に授け、装置とのヒューマン インタフェースを容易にする最も重要な技術の1つである。VRは、人間の音声を理解するための基幹技術でもある。音響的音声信号から言語学的メッセージを回復する技術を使用するシステムは、音声認識装置と呼ばれる。
【0003】
VR(通常、音声認識としても参照される)の使用は、安全性の理由ために、ますます重要になってきている。例えば、VRは、無線電話機キーパッド上のボタンを押下する手作業に取って代わって使用されるかも知れない。これは、ユーザが自動車を運転している間に電話を始めるとき、特に重要である。VRの無い自動車電話を使用するとき、運転者は、ハンドルから一方の手を離し、呼び出しのダイアルをするためにボタンを押下している間、電話機キーパッドに注目していなければならない。これらは、自動車事故の可能性を増加させる。音声による動作を可能にされた(speech - enabled)自動車電話(即ち、音声認識のために設計された電話機)は、間段なく道路を注視している間、運転者が電話をかけることを可能にする。更に、ハンズフリーカーキットシステムは、電話を開始する間、運転者が両手をハンドル上に置いたままにすることを可能にするだろう。
【0004】
音声認識装置は、特定話者型(speaker-dependent)(SD)又は不特定話者型(speaker-independent)(SI)装置のいずれかに分類される。より普通である特定話者型装置は、特定のユーザからの命令を認識するように訓練される。これと対照的に、不特定話者型装置は、どのようなユーザからの音声命令でも受け入れることが可能である。特定話者型であろうと不特定話者型であろうと、所与のVRシステムの性能を向上させるために、訓練と呼ばれる処理が、有効なパラメータを有するシステムを備えるために要求される。換言すれば、システムは、最適に機能することができる前に、学習する必要がある。
【0005】
特定話者型VRシステムは、システムがこれらの特定の単語又は語句についてユーザの音声の特性を学習することができるように、ユーザに1回又は数回(一般的には2回)システムの語彙におけるそれぞれの単語を言うように促す。ハンズフリー自動車キットについての例示的語彙は、10個の数字;“呼ぶ”、“送る”、“ダイアルする”、“取り消す”、“きれいにする”、“加える”、“削除する”、“歴史”、“プログラム”、“はい”、及び“いいえ”のキーワード;並びに事前に規定された数の普段電話する仕事仲間、友人、又は家族構成員の名前、を含むことができる。一旦訓練が完了すると、VR装置が発声された言葉を以前に訓練された言葉(テンプレートとして蓄積された)と比較し、且つ最良の整合をとることによって認識する訓練されたキーワードを、ユーザーがを言うことによって、認識段階において呼び出しを始めることができる。例えば、名前“ジョン”が訓練された名前の1つであったとすれば、語句“ジョンを呼び出せ”を言うことによって、ユーザは、ジョンへの呼び出しを始めることができるだろう。VRシステムは、単語“呼び出せ”及び“ジョン”を認識し、ユーザがジョンの電話番号として以前に入力していた番号をダイアルすることができる。
【0006】
不特定話者型VR装置は、事前に規定された語彙(例えば、ある制御語、0から9までの数、並びに、はい及びいいえ)を受け入れるように訓練されたテンプレートの集合セット(set)も使用する。多数の話者(例えば、100)は、該語彙中の各単語を発声し記録されなければならない。)
音声認識装置、即ち、VRシステムは、音響プロセッサ及び単語復号器を具備する。音響プロセッサは、特徴抽出(feature extraction)を行う。音響プロセッサは、到来する未加工の音声からVRに必要な一連の情報関連の特徴(ベクトル)を抽出する。単語復号器は、入力された発声に相当する一連の言語学的単語のような、意味があり且つ思いどおりのフォーマットの出力を生じるために、この一連の特徴(ベクトル)を復号する。
【0007】
一般的な音声認識装置において、単語復号器は、音声認識装置のフロントエンドに対するよりも計算上且つ記憶上のより大きな必要性を有する。分散型システム構成を使用して実施される声認識装置の実施において、計算上且つ記憶上の負荷を適切に吸収することができるサブシステムに単語復号作業を配置することを望まれることが多々ある。音響プロセッサは、信号処理によって導入された量子化誤り及び/又はチャンネルにより誘導された誤りの効果を低減させるために、できるだけ音声源に接近して在るべきである。このように、分散型音声認識(DVR)システムにおいて、音響プロセッサは、ユーザ装置の中に在り、且つ単語復号器は、ネットワーク上に在る。
【0008】
分散型音声認識システムにおいて、フロントエンド特徴は、加入者ユニット(移動局、モバイル、遠隔局、ユーザ装置、又はユーザ機器とも呼ばれる)のような装置において抽出され、ネットワークへ送出される。ネットワークの中のサーバを基盤とするVRシステムは、音声認識システムのバックエンドとして働き、単語復号を行う。これは、ネットワーク上の資源を使用して複雑なVR作業を行う利益を有する。分散型VRシステムの例は、米国特許第5956683号に記載され、本発明の譲受人に譲渡され、この中に参照のために組み入れられている。
【0009】
加入者ユニット上で行われている特徴抽出に加えて、簡単なVR作業は、加入者ユニット上で行われることができる。このケースにおいて、ネットワーク上のVRシステムは簡単なVR作業のために使用されない。従って、音声による動作可能なサービスを提供するためのコストが低減させられる結果、ネットワークトラフィックは、低減させられる。
【特許文献1】
米国特許第5956683号
【非特許文献1】
米電気電子学会会報、第37巻、1616‐1624頁、1985年、
【非特許文献2】
Rabiner,L.R.氏及びJuang,B.H.氏による、音声認識の基礎、Prentice Hall、(1993年)
【発明の開示】
【発明が解決しようとする課題】
【0010】
加入者ユニットが簡単なVR作業を行うにもかかわらず、ネットワーク上のトラフィック渋滞(congestion)は、加入者ユニットがサーバを基盤とするVRシステムから貧弱なサービスを得る結果を招き得る。分散型VRシステムは、複雑なVR作業を使用してユーザインタフェースの特徴を豊富にすることを可能にするが、ネットワークトラフィックを増加させ且つ時々遅延をさせる代償を払う。ローカルVRエンジンがユーザの言われた命令を認識しないならば、そのときは、ユーザが言言った命令は、フロントエンド処理の後サーバを基盤とするVRエンジンへ伝送されなければならなくなり、これによってネットワークトラフィックを増加させる。言われた命令がネットワークを基盤とするVRエンジンによって解釈された後、該結果は加入者ユニットへ逆に伝送されなければならず、それは、ネットワーク渋滞がある場合、有意の遅延を導入することができる
このように、サーバを基盤とするVRシステムへの依存が減少させられるように、加入者ユニットにおけるローカルVR性能を更に改善するためのシステム及び方法が必要である。ローカルVR性能を改善するためのシステム及び方法は、ローカルVRエンジンについて改善された精度、及び加入者ユニット上のより多くのVR作業を処理する能力を得る利益を有し、更にネットワークトラフィックを低減させ、遅延を除去するであろう。
【課題を解決するための手段】
【0011】
説明される実施形態は、分散型音声認識システムにおける音声認識を改善するためのシステム及び方法へ向けられる。一面において、音声認識のためのシステム及び方法は、加入者ユニット上のローカルVRエンジンが認識しない音声分節を認識するネットワークにおけるサーバ上のサーバVRエンジンを含む。もう一つの面において、音声認識のためのシステム及び方法は、音声分節の情報をローカルVRエンジンへダウンロードするサーバVRエンジンを含む。もう一つの面において、ダウンロードされた情報は、音声分節の平均及び変動(variance)ベクトルを具備する混合(mixture)である。もう一つの面において、音声認識のためのシステム及び方法は、ダウンロードされた混合をローカルVRエンジンの混合と組み合わせ、音声分節を認識するためにローカルVRエンジンによって使用される合成の(resultant)混合を作り出すための、ローカルVRエンジンを含む。もう一つの面において、音声認識のためのシステム及び方法は、音声分節を認識するために使用される合成混合を発生させるために、サーバVRエンジンによってダウンロードされた混合に関数を適用するローカルVRエンジンを含む。もう一つの面において、音声認識のためのシステム及び方法は、サーバVRエンジンへ合成混合分布をアップロードするためのローカルVRエンジンを含む。
【発明を実施するための最良の形態】
【0012】
図1は、1つの実施形態に従う音響プロセッサ4及び単語復号器6を含む音声認識システム2を示す。単語復号器6は、音響パターン整合化要素8及び言語モデル化要素10を具備する。言語モデル化要素10は、文法仕様要素とも呼ばれる。音響プロセッサ4は、単語復号器6の音響パターン整合化要素8に結合される。音響パターン整合化要素8は、言語モデル化要素10に結合される。
【0013】
音響プロセッサ4は、入力音声信号から特徴を抽出し、これらの特徴を単語復号器6に与える。概して言えば、単語復号器6は、音響プロセッサ4からの音響特徴を翻訳し、話者のオリジナルな単語列を推定する。これは、音響パターン整合化及び言語モデル化の2段階で達成される。言語モデル化は、孤立した単語認識を適用する場合省くことができる。音響パターン整合化要素8は、音素、音節、単語等のような、可能な音響パターンを検出し、分類する。候補パターンは、どの一連の単語が文法的によく形成され、意味があるかを決定する構文上の制約の規則をモデル化する言語モデル化要素10へ与えられる。構文上の情報は、音響情報だけが曖昧であるとき、音声認識への貴重な案内書であり得る。言語モデル化に基づいて、VRは、間断なく音響特徴整合化結果を解釈し、推定された単語列を与える。
【0014】
単語復号器6における音響パターン整合化及び言語モデル化は、両方とも、話者の音声学的及び音響音声学的変動量を説明するために、決定論的又は推計論的のいずれかの、数学的モデルを要求する。音声認識システムの性能は、これら2つのモデルの品質と直接的に関係がある。音響パターン整合化について、多様な種類のモデルのなかで、テンプレートを基盤とする動的時間軸伸縮化(時間軸正規化)(DTW)及び推計論的隠れマルコフ(stochastic hidden Markov)モデル化(HMM)が、2つの最も一般的に使用されるモデルである。技術的に精通した人達は、DTW及びHMMを理解する。
【0015】
HMMシステムは、現在最も成功している音声認識アルゴリズムである。HMMにおける二重推計論的特性は、音声信号に関連する一時の変動量と同様に音響変動量を吸収することに、より良い柔軟性を与える。これは、通常、認識の正確性が改善される結果となる。言語モデルに関して、F.Jelink氏による、“実験的個別口述認識装置の開発(The Development of an Experimental Discrete Dictation Recognizer)”、米電気電子学会会報、第37巻、1616‐1624頁、1985年、に詳述されているkグラム(k‐gram)言語モデルと呼ばれる推計論的モデルは、実用的な大きな語彙音声認識システムに成功裏に適用されてきている。小さな語彙を有する適用の場合において、決定論的文法は、航空予約及び情報システム(Rabiner,L.R.氏及びLevinson,S.Z.氏による、隠れマルコフモデル及びレベルビルディングに基づく不特定話者型、構文論指向、連続単語認識システム、IASSPでの米電気電子学会紀要、第33巻、第3号、1985年6月、を見られたい。)のような、有限状態ネットワーク(FSN)として系統的に説明されてきている。
【0016】
音響プロセッサ4は、音声認識装置2におけるフロントエンド音声分析サブシステムを表す。入力音声信号に応答して、時間変動音声信号を特徴付けることは、適切な表現を与える。背景雑音、チャンネル歪み、話者特性及び話の方法のような、関係のない情報は、廃棄すべきである。有効な音響特徴は、より高い音響弁別力を有する音声認識装置を提供するだろう。最も有用な特性は、短時間スペクトル包絡である。短時間スペクトル包絡の特徴付けにおいて、一般に使用されるスペクトル分析手法は、フィルタバンクを基盤とするスペクトル分析である。
【0017】
図2は、1つの実施形態に従うVRシステムにおけるVRフロントエンド11を示す。フロントエンド11は、音声分節を特徴付けるためにフロントエンド処理を行う。ケプストラム(Cepstral)パラメータは、PCM入力からのTミリ秒毎に1回計算される。どのような時間周期もTについて使用され得ることが、技術的に精通した人達によって理解されるだろう。
【0018】
バーク振幅(Bark Amplitude)発生モジュール12は、ディジタル化されたPCM音声信号s(n)をTミリ秒毎に1回kバーク振幅に変換する。1つの実施形態において、Tは、10ミリ秒で、kは、16バーク振幅である。こうして、10ミリ秒毎に16バーク振幅がある。kがどのような正の整数でもあり得ることは、技術的に精通した人達によって理解されるだろう。
【0019】
バークスケールスケールは、人間の聴覚に相当する臨界帯域(critical bands)の歪んだ(warped)周波数スケールスケールである。バーク振幅計算は、技術的に周知で、Rabiner,L.R.氏及びJuang,B.H.氏による、音声認識の基礎、Prentice Hall、(1993年)、に記載されている。
【0020】
バーク振幅モジュール12は、対数圧縮モジュール14に結合される。一般的なVRフロントエンドにおいて、対数圧縮モジュール14は、それぞれのバーク振幅の対数を計算することによって、バーク振幅をlog10スケールスケールに変換する。しかしながら、VRフロントエンドにおいて、簡単なlog10関数の代りに、μ−法則圧縮及びA−法則圧縮手法を使用するシステム及び方法は、2000年10月31に出願された、“雑音環境における音声認識及び周波数不整合条件を改善するためのシステム及び方法”と題する、米国特許出願番号、第09/703191号に記載されているように、雑音環境におけるVRフロントエンドの正確性を改善し、それは、本発明の譲受人に譲渡され、この中に参考のために全面的に組み入れられる。バーク振幅のμ−法則圧縮及びバーク振幅のA−法則圧縮は、雑音環境の効果を減少させるために使用され、それによって音声認識システムの全体的な正確性を改善する。更に、相対スペクトル(RASTA)濾波は、畳み込み(convolutional)雑音を濾波するために使用されることができる。
【0021】
VRフロントエンド11において、対数圧縮モジュール14は、ケフ゜ストラム変換モジュール16に結合される。ケフ゜ストラム変換モジュール16は、j静的ケプストラム係数及びj動的ケプストラム係数を計算する。ケプストラム変換は、技術的によく周知の余弦変換である。jがどのような正の整数でもあり得ることは、技術的に精通した人達によって理解されるだろう。こうして、フロントエンドモジュール11は、Tミリ秒毎に1回、2*j係数を発生させる。これらの特徴は、音声認識を行うための隠れマルコフモデル化(HMM)システムのような、バックエンドモジュール(単語復号器、図示されていない)によって処理される。
【0022】
HMMモジュールは、入力音声信号を認識するための確率的枠組をモデル化する。HMMモデルにおいて、一時の及びスペクトルの特性は、両方とも、音声分節を特徴付けるために使用される。それぞれのHMMモデル(単語全体又はサブワード(sub-word))は、一連の状態及び遷移確率の集合によって表される。図3は、音声分節のためのHMMモデル例を示す。HMMモデルは、単語、“オー(oh)”、又は単語の一部、“オハイオ(ohio)”を表すことができるだろう。入力音声信号は、ビタビ復号化を使用して複数のHMMモデルになぞらえられる。最良整合化HMMモデルは、結果として生じる仮説であると考えられる。HMMモデル30は、開始32、終了34、並びに、第1番目の状態36、第2番目の状態38、及び第3番目の状態40に代表されるトライフォン(triphone)のための3つの状態、の5つの状態を有する。
【0023】
遷移aijは、状態iから状態jに遷移する確率である。aS1は、開始状態32から第1番目の状態36に遷移する。a12は、第1番目の状態36から第2番目の状態38に遷移する。a23は、第2番目の状態38から第3番目の状態40に遷移する。a3Eは、第3番目の状態40から終了状態34に遷移する。a11は、第1番目の状態36から第1番目の状態36に遷移する。a22は、第2番目の状態38から第2番目の状態38に遷移する。a33は、第3番目の状態40から第3番目の状態40に遷移する。a13は、第1番目の状態36から第3番目の状態40に遷移する。
【0024】
遷移確率のマトリクスは、全ての遷移/確率:aijから構成されることができる、ここで、nは、HMMモデルの状態の数であり;i=1,2,…,n;j=1,2,…,n。状態の間に遷移がないとき、その遷移/確率は、零である。状態からの累積遷移/確率は、単一、即ち、1に等しい。
【0025】
HMMモデルは、VRフロントエンドにおいて、“j”静的ケプストラムパラメータ及び“j”動的ケプストラムパラメータを計算することによって訓練される。訓練処理は、単一の状態に相当する複数のN個のフレームを集める。訓練処理は、それから、これらのN個のフレームの平均値及び分散値を計算し、結果として、長さ2jの平均値ベクトル及び長さ2jのダイアゴナル供分散値(diagonal covariance)を得る。平均値及び分散値ベクトルは、併せて、ガウス混合(Gaussian mixture)成分、又は略して“混合(mixture)”と呼ばれる。それぞれの状態は、N個のガウス混合成分によって表され、ここでNは、正の整数である。訓練プロセスは、遷移確率も計算する。
【0026】
小さなメモリ資源を用いる装置において、Nは、1つ又はいくつかの他の小さな数である。最小の設置面積のVRシステム、即ち、最小のメモリVRシステムにおいて、単一のガウス混合成分は状態を表す。より大きなVRシステムにおいて、複数のN個のフレームは、1つより多い平均値ベクトル及び相当する分散値ベクトルを計算するために使用される。例えば、12個の平均値及び分散値の集合が計算されるならば、そのときは、12個のガウス混合成分のHMM状態が作り出される。DVRにおけるVRサーバにおいて、Nは、32と同じくらい高くてもよい。
【0027】
多種多様のVRシステム(VRエンジンとも呼ばれる)を組み合わせることは、向上した正確性を提供し、単一のVRシステムよりも入力音声信号において多量の情報を使用する。VRエンジンを組み合わせるためのシステム及び方法は、2000年7月18日に出願された、“音声認識のための組み合わせられたエンジンシステム及び方法”と題する、米国特許出願番号、第09/618177号(後に第‘177号出願)、及び2000年9月8日に出願された、“写像を使用する自動音声認識のためのシステム及び方法”と題する、米国特許出願番号、第09/657760号(後に第‘760号出願)に記載され、それらは、本発明の譲受人に譲渡され、この中に参考のために全面的に組み入れられる。
【0028】
1つの実施形態においては、多種多様のVRエンジンは、分散型VRシステムおいて組み合わせられる。こうして、加入者ユニット及びネットワークサーバの両方の上にVRエンジンがある。加入者ユニット上のVRエンジンは、ローカルVRエンジンである。サーバ上のVRエンジンは、ネットワークVRエンジンである。ローカルVRエンジンは、ローカルVRエンジンに命令を実行するためのプロセッサ及び音声情報を蓄積するためのメモリを具備する。ネットワークVRエンジンは、ネットワークVRエンジンに命令を実行するためのプロセッサ及び音声情報を蓄積するためのメモリを具備する。
【0029】
1つの実施形態において、ローカルVRエンジンは、ネットワークVRエンジンと同じ型のVRエンジンではない。VRエンジンが技術的に周知のどのような型のVRエンジンでもあり得ることは、技術的に精通した人達によって理解されるだろう。例えば、1つの実施形態において、加入者ユニットは、DTW VRエンジンで、ネットワークサーバは、HMM VRエンジンであり、両方の型のVRエンジンは、技術的に周知である。異なる型のVRエンジンを組み合わせることは、入力音声信号を処理するとき、DTW VRエンジン及びHMM VRエンジンが異なる強調点を有するので、分散型VRシステムの正確性を改善し、それは、分散型VRシステムが入力音声信号を処理するときの方が、単一のVRエンジンが入力音声信号を処理するときよりも、より多くの情報の入力音声信号が使用されることを意味する。結果として生じる仮説は、ローカルVRエンジン及びサーバVRエンジンから組み合わせられた仮説から選択される。
【0030】
1つの実施形態において、ローカルVRエンジンは、ネットワークVRエンジンと同じ型のVRエンジンである。1つの実施形態において、ローカルVRエンジン及びネットワークVRエンジンは、HMM VRエンジンである。もう1つの実施形態においては、ローカルVRエンジン及びネットワークVRエンジンは、DTWエンジンである。ローカルVRエンジン及びネットワークVRエンジンが技術的に周知のどのようなVRエンジンでもあり得ることは、技術的に精通した人達によって理解されるだろう。
【0031】
VRエンジンは、PCM信号の形式で音声データを得る。エンジンは、有効な認識が行われるか、又はユーザが言うことを止めてしまい、全ての音声が処理されてしまうまで、信号を処理する。DVR構成において、ローカルVRエンジンは、PCMデータを得て、フロントエンド情報を発生させる。1つの実施形態において、フロントエンド情報は、ケプストラムパラメータである。もう1つの実施形態においては、フロントエンド情報は、入力音声信号を特徴付けるどのような型の情報/特徴でもあり得る。技術的に精通した人に周知のどのような型の特徴も、入力音声信号を特徴付けるために使用されてもよいことは、技術的に精通した人達によって理解される。
【0032】
一般的な認識作業のために、ローカルVRエンジンは、そのメモリから訓練されたテンプレートの集合を得る。ローカルVRエンジンは、適用先(application)から文法仕様を得る。適用分野は、ユーザが加入者ユニットを使用して作業を達成することを可能にするサービス論理である。この論理は、加入者ユニット上のプロセッサによって実行される。それは、加入者ユニットにおけるユーザインタフェースモジュールの成分である。
【0033】
文法は、サブワードモデルを使用して、能動的な語彙を規定する。一般的な文法は、7桁電話番号、ドル量、及び名前の集合からの都市の名前を含む。一般的な文法仕様は、入力音声信号に基づいて確信のある認識決定が行われることができそうにない条件を表すための“語彙の範囲外(OOV)”条件を含む。
【0034】
1つの実施形態において、ローカルVRエンジンが文法によって規定されたVR作業を扱うことができないならば、ローカルVRエンジンは、ローカルに認識仮説を発生させる。規定された文法が複雑過ぎてローカルVRエンジンによって処理することができないとき、ローカルVRエンジンは、フロントエンドデータをVRサーバへ伝送する。
【0035】
1つの実施形態において、ネットワークVRエンジンのそれぞれの状態が混合成分の集合を有し、ローカルVRエンジンのそれぞれ相当する状態が混合成分の集合の部分集合(subsrt)を有するという意味で、ローカルVRエンジンは、ネットワークVRエンジンの部分集合である。部分集合の大きさは、集合の大きさより小さいか又は集合の大きさに等しい。ローカルVRエンジン及びネットワークVRエンジンにおけるそれぞれの状態について、ネットワークVRエンジンの状態は、N個の混合成分を有し、ローカルVRエンジンの状態は、N個以下(≦N)の混合成分を有する。こうして、1つの実施形態において、加入者ユニットは、ネットワークサーバ上の大メモリ設置面積HMM VRエンジンより状態当りの小さい混合分布を有する低メモリ設置面積HMM VRエンジンを含む。
【0036】
DVRにおいて、VRサーバにおけるメモリ資源は、費用がかからない。更に、それぞれのサーバは、DVRサービスを提供する多数のポートによって時分割される。多数の混合成分を使用することによって、VRシステムは、ユーザの大量の言語資料(corpus)のために十分に動作する。対照的に、小型の装置におけるVRは、多くの人々によって使用されない。こうして、小型の装置おいて、少量のガウス混合成分を使用し、それらをユーザの音声に適応させることは、可能である。
【0037】
一般的なバックエンドにおいては、全単語モデルが小型の語彙VRシステムを用いて使用される。中間から大型の語彙システムにおいては、サブワードモデルが使用される。一般的なサブワードユニットは、文脈独立型(CI)単音及び文脈依存型(CD)単音である。文脈独立型単音は、左及び右の方の単音に独立である。文脈依存型単音はトライフォンとも呼ばれる。なぜならば、それの左及び右の方の単音に依存するからである文脈依存型単音は、異音(allophones)とも呼ばれる。
【0038】
VR技術における単音は、音素の実現である。VRシステムにおいて、文脈独立型単音モデル及び文脈依存型単音モデルは、技術的に周知のHMM又は他の型のモデルを使用して組み立てられる。音素は、所与の言語における最小の機能的な音声分節の抽象的概念である。この点で、機能的な単語は、知覚的に異なる音を意味する。例えば、“キャット(cat)”における“k”音を“b”音によって取り替えることは、英語においては異なる単語となる。このように、“b”と“k”は、英語においては2つの異なる音素である。
【0039】
CD及びCI単音は、両方とも、複数の状態によって表されることができる。それぞれの状態は、混合の集合によって表され、ここで集合は、単一の混合又は複数の混合であってもよい。状態当りの混合の数が多いほど、それぞれの単音を認識するためのVRシステムは、正確になる。
【0040】
1つの実施形態において、ローカルVRエンジン及びサーバを基盤とするVRエンジンは、同じ種類の単音には基づかない。1つの実施形態において、ローカルVRエンジンは、CI単音に基づき、サーバを基盤とするVRエンジンは、CD単音に基づく。ローカルVRエンジンは、CI単音を認識する。サーバを基盤とするVRエンジンは、CD単音を認識する。1つの実施形態においては、VRエンジンは、‘177号出願に記載されているように組み合わせられる。もう1つの実施形態においては、VRエンジンは、‘760号出願に記載されているように組み合わせられる。
【0041】
1つの実施形態において、ローカルVRエンジン及びサーバを基盤とするVRエンジンは、同じ種類の単音に基づく。1つの実施形態においては、ローカルVRエンジン及びサーバを基盤とするVRエンジンは、両方とも、CI単音に基づく。もう1つの実施形態においては、ローカルVRエンジン及びサーバを基盤とするVRエンジンは、両方とも、CD単音に基づく。
【0042】
それぞれの言語は、その言語に対して有効な発音順序を決定する音素配列論的規則を有する。所与の言語においては、認識される数十のCI単音がある。例えば、英語を認識するVRシステムは、約50のCI単音を認識するかも知れない。こうして、少数のモデルのみが訓練され、それから認識に使用される。
【0043】
CIモデルを蓄積するための記憶上の必要条件は、CD単音のための記憶上の必要条件と比較して小さい。英語について、それぞれの単音に対する左の文脈及び右の文脈を考慮すると、50×50×50のCD単音がある。しかしながら、全てではない文脈が英語において生じる。全ての可能な文脈の範囲外に、部分集合のみがその言語に使用される。言語に使用される全ての文脈の範囲外に、これらの文脈の部分集合のみがVRエンジンによって処理される。一般的に、DVRのためのネットワークに在るVRサーバにおいて、数千のトライフォンが使用されることはない。CD単音に基づくVRシステムのための記憶上の必要条件は、CI単音に基づくVRシステムのための必要条件より大きい。
【0044】
1つの実施形態において、ローカルVRエンジン及びサーバを基盤とするVRエンジンは、幾つかの混合成分を共有する。サーバVRエンジンは、ローカルVRエンジンへ混合成分をダウンロードする。
【0045】
1つの実施形態において、VRサーバにおいて使用されるK個のガウス混合成分は、加入者ユニットへダウンロードされる、より小さな数のL個の混合を発生させるために使用される。この数Lは、ローカルにテンプレートを蓄積するための加入者ユニットに利用できる空間に依存して、1ぐらい小さくてもよいだろう。もう1つの実施形態において、小さな数のL個の混合は、初めに、加入者ユニットに含まれる。
【0046】
図4は、加入者ユニット54におけるローカルVRエンジン52及びサーバ58上のサーバVRエンジン56を用いるDVRシステム50を示す。サーバを基盤とするDVR伝送が始められたとき、サーバ58は、音声認識のためのフロントエンドデータを得る。1つの実施形態において、認識している間、サーバ58は、最終の復号された状態列におけるそれぞれの状態について最良のL個の混合成分を追跡し続ける。認識された仮説が正しい認識として適用先によって受け入れられ、認識に基づいて適切な行動が取られるならば、そうすると、ユーザの音声を記述するLの混合成分の方が所与の状態を記述するために使用される残りのK−Lの混合より良い。
【0047】
ローカルVRエンジン52が音声分節を認識しないとき、ローカルVRエンジン52は、サーバVRエンジン56が音声分節を認識するように要請する。ローカルVRエンジン52は、ローカルVRエンジン52が音声分節から抽出した特徴をサーバVRエンジン56へ送出する。サーバVRエンジン56が音声分節を認識するならば、サーバVRエンジン56は、認識された音声分節に相当する混合をローカルVRエンジン52のメモリにダウンロードする。もう1つの実施形態においては、混合は、旨くいった処理毎にダウンロードされる。もう1つの実施形態においては、混合は、何度も旨くいった処理後にダウンロードされる。1つの実施形態においては、混合は、一定の時間後にダウンロードされる。
【0048】
1つの実施形態において、ローカルVRエンジンは、音声分節のために訓練された後にサーバVRエンジンへ混合分布をアップロードする。ローカルVRエンジンは、話者適応のために訓練される。即ち、ローカルVRエンジンは、ユーザの音声に適応する。
【0049】
1つの実施形態において、サーバVRエンジン56からのダウンロードされた特徴は、ローカルVRエンジン52のメモリに加えられる。1つの実施形態において、ダウンロードされた混合は、音声分節を認識するためのローカルVRエンジン52によって使用される合成混合を作り出すために、ローカルVRエンジンの混合と組み合わせられる。1つの実施形態において、ダウンロードされた混合に関数が適用され、合成混合は、ローカルVRエンジン52のメモリに加えられる。1つの実施形態において、合成混合は、ダウンロードされた混合及びローカルVRエンジン52上の混合の関数である。1つの実施形態において、合成混合は、話者適応のためにサーバVRエンジン56へ送出される。ローカルVRエンジン52は、混合を受信するためのメモリを有し、混合に関数を適用するための、且つ混合を組み合わせるためのプロセッサを有する。
【0050】
1つの実施形態において、旨くいった処理に続いて、サーバは、Lの混合分布成分を加入者ユニットへダウンロードする。徐々に加入者ユニット54の能力は、HMMモデルの集合がユーザの音声に適応させられるように向上する。HMMモデルの集合がユーザの音声に適応させられるように、ローカルVRエンジン52は、サーバVRエンジン56の要請を少なくする。
【0051】
混合が音声分節に関する1つの型の情報であり、且つ音声分節を特徴付けるどのような情報もサーバVRエンジン56からダウンロードされ、サーバVRエンジン56へアップロードされることができ、本発明の範囲の中にあることは、技術的に精通した人達には明白であろう。
【0052】
サーバVRエンジン56からローカルVRエンジン52へ混合をダウンロードすることは、ローカルVRエンジン52の正確性を増加させる。ローカルVRエンジン52からサーバVRエンジン56へ混合をアップロードすることは、サーバVRエンジンの正確性を増加させる。
【0053】
特定のユーザについて、小さなメモリ資源を用いるローカルVRエンジン52は、重要な大きなメモリ資源を用いるネットワークを基盤とするVRエンジン56の性能に近づくことができる。一般的なDSP実施は、過剰なネットワークトラフィックの原因となることなく、ローカルにこのような作業を扱うのに充分なMIPSを有する。
【0054】
大抵の状況において、不特定話者型モデルを適応させることは、このような適応をさせないのに比較してVR正確性を改善する結果となる。1つの実施形態において、適応させることは、話者によって言われるようにモデルに相当する音声分節のフロントエンド特徴に、より近接するように所与のモデルの混合成分の平均値ベクトルを調節することを含む。もう1つの実施形態において、適応させることは、話者の話し口調に基づく他のモデルパラメータを調節することを含む。
【0055】
適応させることについて、相当するモデル状態に揃えられた適応発声の分節化が要求される。一般的に、このような情報は、実際の認識の間ではなくて、訓練処理の間で可能である。これは、分節化情報を発生させ保護するための、付加メモリ蓄積必要条件(RAM)のためである。これは、セルラ電話のような、埋め込まれた土台(embedded platform)に実施されるローカルVRの場合に、特に当てはまる。
【0056】
ネットワークを基盤とするVRの1つの利点は、RAM使用上の制限への厳重さがずっと少ないことである。それで、DVR適用において、ネットワークを基盤とするバックエンドは、分節化情報を作り出すことができる。更に、ネットワークを基盤とするバックエンドは、受信されたフロントエンド特徴に基づいて、平均値の新集合を計算することができる。最後に、ネットワークは、これらのパラメータをモバイルへダウンロードすることができる。
【0057】
図5は、1つの実施形態に従うVR認識処理のフローチャートを示す。ユーザが加入者ユニットに言ったとき、加入者ユニットは、ユーザの音声を音声分節に分割する。ステップ60において、ローカルVRエンジンは、入力音声分節を処理する。ステップ62において、ローカルVRエンジンは、結果を発生させるためのローカルVRエンジンのHMMモデルを使用することによって、音声分節を認識しようと試みる。結果は、少なくとも1つの単音を具備する語句である。HMMモデルは、混合を具備する。ステップ64において、ローカルVRエンジンが音声分節を認識するならば、それから、ローカルVRエンジンは、結果を加入者ユニットへ返す。ステップ66において、ローカルVRエンジンが音声分節を認識しないならば、それから、ローカルVRエンジンは、音声分節を処理し、それによって音声分節のパラメータを作り出し、それは、ネットワークVRエンジンへ送出される。1つの実施形態において、パラメータは、ケプストラムパラメータである。ローカルVRエンジンによって発生させられたパラメータが音声分節を表すための技術的に周知のどのようなパラメータであってもよいことは、技術的に精通した人達よって理解されるであろう。
【0058】
ステップ68において、ネットワークVRエンジンは、ネットワークVRエンジンのHMMモデルを使用して音声分節のパラメータを解釈しようと試みる、即ち、音声分節を認識しようと試みる。ステップ70において、ネットワークVRエンジンが音声分節を認識しないならば、それから、認識が行われることができないだろうという事実が、ローカルVRエンジンへ送出される。ステップ72において、ネットワークVRエンジンが音声分節を本当に認識するならば、それから、結果及び結果を発生させるために使用されたHMMモデルについて最良整合化混合が、両方とも、ローカルVRエンジンへ送出される。ステップ74において、ローカルVRエンジンは、HMMモデルについて混合を、ユーザによって発生させられる次回の音声分節を認識するために使用されるためのローカルVRエンジンのメモリに蓄積する。ステップ64において、ローカルVRエンジンは、結果を加入者ユニットへ返す。ステップ60において、もう1つの音声分節は、ローカルVRエンジンに入力される。
【0059】
こうして、斬新で且つ改善された、音声認識のための方法及び装置は、説明されてきた。技術的に精通した人達は、この中に開示された実施形態に関連して説明された種々の例示的な論理ブロック、モジュール、及び配置が、電子的ハードウェア、コンピュータソフトウェア、又は両方の組み合わせとして実施され得ることを理解するであろう。種々の例示的な部品、ブロック、モジュール、回路、及びステップは、それらの機能性の点から、全般的に説明されてきた。機能性がハードウェア又はソフトウェアとして実施されるかどうかは、全システム上に課せられる特殊な用途上及び設計上の拘束に基づく。精通した技術者は、このような事情の下でハードウェア及びソフトウェアの互換性、及び、それぞれの特殊な用途について説明された機能性を如何にして最良に実施するか、を認識する。例として、この中に開示された実施形態に関連して説明された種々の例示的な論理ブロック、モジュール、及び配置は、ファームウェア指令の集合を実行するプロセッサ、特定用途集積回路(ASIC)、現場プログラム可能ゲートアレー(FPGA)又は他のプログラム可能な論理装置、個別ゲート又はトランジスタ論理回路、例えばレジスタのような個別ハードウェア部品、任意の従来のプログラム可能なソフトウェアモジュール及びプロセッサ、又はこの中に説明された機能を果たすために設計されたこれらの任意の組み合わせを用いて実施され又は遂行されてもよい。加入者ユニット54上のローカルVRエンジン52及びサーバ58上のサーバVRエンジン56は、マイクロプロセッサにおいて有利に実行されるかも知れないが、別法として、ローカルVRエンジン52及びサーバVRエンジン56は、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、又はステートマシン(state machine)において実行されてもよい。テンプレートは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、着脱可能ディスク、CD‐ROM、又は技術的に周知の任意の他の形状の蓄積媒体に、在ることができるであろう。メモリ(図示されていない)は、前に述べたどのようなプロセッサ(示されていない)にも一体化されてもよい。プロセッサ(図示されていない)及びメモリ(図示されていない)は、ASIC(図示されていない)に在ってもよい。ASICは、電話機に在ってもよい。
【0060】
前に述べた本発明の実施形態の説明は、技術的に精通したどのような人でも本発明を製品化(make)し又は使用することを可能にするように提供される。これらの実施形態の種々の変更は、技術的に精通した人達にとって容易に明白であり、この中に定義された一般的な原理は、創意に富む能力を使用しなくても他の実施形態に適用されるかも知れない。こうして、本発明は、この中に示された実施形態に限定されるように意図されるものではなく、この中に開示された原理及び斬新な特徴と矛盾がない最も広い範囲と一致するものである。
【図面の簡単な説明】
【0061】
【図1】音声認識システムを示す。
【図2】VRシステムにおけるVRフロントエンドを示す。
【図3】トライフォンについてのHMMモデル例を示す。
【図4】一実施形態に従う加入者ユニットにおけるローカルVRエンジン及びサーバ上のサーバVRエンジンを用いるDVRシステムを示す。
【図5】一実施形態に従うVR認識処理のフローチャートを示す。
【符号の説明】
【0062】
2‥音声認識システム、6‥単語復号器6、11‥VRフロントエンド、30‥HMMモデル、50‥DVRシステム
【0001】
本発明は、一般に通信の分野に関し、特に分散型(distributed)音声認識システムにおけるローカル音声認識を改善するためのシステム及び方法に関する。
【背景技術】
【0002】
音声認識(VR)は、ユーザ又はユーザ音声による命令を認識する模擬知能(simulated intelligence)を装置に授け、装置とのヒューマン インタフェースを容易にする最も重要な技術の1つである。VRは、人間の音声を理解するための基幹技術でもある。音響的音声信号から言語学的メッセージを回復する技術を使用するシステムは、音声認識装置と呼ばれる。
【0003】
VR(通常、音声認識としても参照される)の使用は、安全性の理由ために、ますます重要になってきている。例えば、VRは、無線電話機キーパッド上のボタンを押下する手作業に取って代わって使用されるかも知れない。これは、ユーザが自動車を運転している間に電話を始めるとき、特に重要である。VRの無い自動車電話を使用するとき、運転者は、ハンドルから一方の手を離し、呼び出しのダイアルをするためにボタンを押下している間、電話機キーパッドに注目していなければならない。これらは、自動車事故の可能性を増加させる。音声による動作を可能にされた(speech - enabled)自動車電話(即ち、音声認識のために設計された電話機)は、間段なく道路を注視している間、運転者が電話をかけることを可能にする。更に、ハンズフリーカーキットシステムは、電話を開始する間、運転者が両手をハンドル上に置いたままにすることを可能にするだろう。
【0004】
音声認識装置は、特定話者型(speaker-dependent)(SD)又は不特定話者型(speaker-independent)(SI)装置のいずれかに分類される。より普通である特定話者型装置は、特定のユーザからの命令を認識するように訓練される。これと対照的に、不特定話者型装置は、どのようなユーザからの音声命令でも受け入れることが可能である。特定話者型であろうと不特定話者型であろうと、所与のVRシステムの性能を向上させるために、訓練と呼ばれる処理が、有効なパラメータを有するシステムを備えるために要求される。換言すれば、システムは、最適に機能することができる前に、学習する必要がある。
【0005】
特定話者型VRシステムは、システムがこれらの特定の単語又は語句についてユーザの音声の特性を学習することができるように、ユーザに1回又は数回(一般的には2回)システムの語彙におけるそれぞれの単語を言うように促す。ハンズフリー自動車キットについての例示的語彙は、10個の数字;“呼ぶ”、“送る”、“ダイアルする”、“取り消す”、“きれいにする”、“加える”、“削除する”、“歴史”、“プログラム”、“はい”、及び“いいえ”のキーワード;並びに事前に規定された数の普段電話する仕事仲間、友人、又は家族構成員の名前、を含むことができる。一旦訓練が完了すると、VR装置が発声された言葉を以前に訓練された言葉(テンプレートとして蓄積された)と比較し、且つ最良の整合をとることによって認識する訓練されたキーワードを、ユーザーがを言うことによって、認識段階において呼び出しを始めることができる。例えば、名前“ジョン”が訓練された名前の1つであったとすれば、語句“ジョンを呼び出せ”を言うことによって、ユーザは、ジョンへの呼び出しを始めることができるだろう。VRシステムは、単語“呼び出せ”及び“ジョン”を認識し、ユーザがジョンの電話番号として以前に入力していた番号をダイアルすることができる。
【0006】
不特定話者型VR装置は、事前に規定された語彙(例えば、ある制御語、0から9までの数、並びに、はい及びいいえ)を受け入れるように訓練されたテンプレートの集合セット(set)も使用する。多数の話者(例えば、100)は、該語彙中の各単語を発声し記録されなければならない。)
音声認識装置、即ち、VRシステムは、音響プロセッサ及び単語復号器を具備する。音響プロセッサは、特徴抽出(feature extraction)を行う。音響プロセッサは、到来する未加工の音声からVRに必要な一連の情報関連の特徴(ベクトル)を抽出する。単語復号器は、入力された発声に相当する一連の言語学的単語のような、意味があり且つ思いどおりのフォーマットの出力を生じるために、この一連の特徴(ベクトル)を復号する。
【0007】
一般的な音声認識装置において、単語復号器は、音声認識装置のフロントエンドに対するよりも計算上且つ記憶上のより大きな必要性を有する。分散型システム構成を使用して実施される声認識装置の実施において、計算上且つ記憶上の負荷を適切に吸収することができるサブシステムに単語復号作業を配置することを望まれることが多々ある。音響プロセッサは、信号処理によって導入された量子化誤り及び/又はチャンネルにより誘導された誤りの効果を低減させるために、できるだけ音声源に接近して在るべきである。このように、分散型音声認識(DVR)システムにおいて、音響プロセッサは、ユーザ装置の中に在り、且つ単語復号器は、ネットワーク上に在る。
【0008】
分散型音声認識システムにおいて、フロントエンド特徴は、加入者ユニット(移動局、モバイル、遠隔局、ユーザ装置、又はユーザ機器とも呼ばれる)のような装置において抽出され、ネットワークへ送出される。ネットワークの中のサーバを基盤とするVRシステムは、音声認識システムのバックエンドとして働き、単語復号を行う。これは、ネットワーク上の資源を使用して複雑なVR作業を行う利益を有する。分散型VRシステムの例は、米国特許第5956683号に記載され、本発明の譲受人に譲渡され、この中に参照のために組み入れられている。
【0009】
加入者ユニット上で行われている特徴抽出に加えて、簡単なVR作業は、加入者ユニット上で行われることができる。このケースにおいて、ネットワーク上のVRシステムは簡単なVR作業のために使用されない。従って、音声による動作可能なサービスを提供するためのコストが低減させられる結果、ネットワークトラフィックは、低減させられる。
【特許文献1】
米国特許第5956683号
【非特許文献1】
米電気電子学会会報、第37巻、1616‐1624頁、1985年、
【非特許文献2】
Rabiner,L.R.氏及びJuang,B.H.氏による、音声認識の基礎、Prentice Hall、(1993年)
【発明の開示】
【発明が解決しようとする課題】
【0010】
加入者ユニットが簡単なVR作業を行うにもかかわらず、ネットワーク上のトラフィック渋滞(congestion)は、加入者ユニットがサーバを基盤とするVRシステムから貧弱なサービスを得る結果を招き得る。分散型VRシステムは、複雑なVR作業を使用してユーザインタフェースの特徴を豊富にすることを可能にするが、ネットワークトラフィックを増加させ且つ時々遅延をさせる代償を払う。ローカルVRエンジンがユーザの言われた命令を認識しないならば、そのときは、ユーザが言言った命令は、フロントエンド処理の後サーバを基盤とするVRエンジンへ伝送されなければならなくなり、これによってネットワークトラフィックを増加させる。言われた命令がネットワークを基盤とするVRエンジンによって解釈された後、該結果は加入者ユニットへ逆に伝送されなければならず、それは、ネットワーク渋滞がある場合、有意の遅延を導入することができる
このように、サーバを基盤とするVRシステムへの依存が減少させられるように、加入者ユニットにおけるローカルVR性能を更に改善するためのシステム及び方法が必要である。ローカルVR性能を改善するためのシステム及び方法は、ローカルVRエンジンについて改善された精度、及び加入者ユニット上のより多くのVR作業を処理する能力を得る利益を有し、更にネットワークトラフィックを低減させ、遅延を除去するであろう。
【課題を解決するための手段】
【0011】
説明される実施形態は、分散型音声認識システムにおける音声認識を改善するためのシステム及び方法へ向けられる。一面において、音声認識のためのシステム及び方法は、加入者ユニット上のローカルVRエンジンが認識しない音声分節を認識するネットワークにおけるサーバ上のサーバVRエンジンを含む。もう一つの面において、音声認識のためのシステム及び方法は、音声分節の情報をローカルVRエンジンへダウンロードするサーバVRエンジンを含む。もう一つの面において、ダウンロードされた情報は、音声分節の平均及び変動(variance)ベクトルを具備する混合(mixture)である。もう一つの面において、音声認識のためのシステム及び方法は、ダウンロードされた混合をローカルVRエンジンの混合と組み合わせ、音声分節を認識するためにローカルVRエンジンによって使用される合成の(resultant)混合を作り出すための、ローカルVRエンジンを含む。もう一つの面において、音声認識のためのシステム及び方法は、音声分節を認識するために使用される合成混合を発生させるために、サーバVRエンジンによってダウンロードされた混合に関数を適用するローカルVRエンジンを含む。もう一つの面において、音声認識のためのシステム及び方法は、サーバVRエンジンへ合成混合分布をアップロードするためのローカルVRエンジンを含む。
【発明を実施するための最良の形態】
【0012】
図1は、1つの実施形態に従う音響プロセッサ4及び単語復号器6を含む音声認識システム2を示す。単語復号器6は、音響パターン整合化要素8及び言語モデル化要素10を具備する。言語モデル化要素10は、文法仕様要素とも呼ばれる。音響プロセッサ4は、単語復号器6の音響パターン整合化要素8に結合される。音響パターン整合化要素8は、言語モデル化要素10に結合される。
【0013】
音響プロセッサ4は、入力音声信号から特徴を抽出し、これらの特徴を単語復号器6に与える。概して言えば、単語復号器6は、音響プロセッサ4からの音響特徴を翻訳し、話者のオリジナルな単語列を推定する。これは、音響パターン整合化及び言語モデル化の2段階で達成される。言語モデル化は、孤立した単語認識を適用する場合省くことができる。音響パターン整合化要素8は、音素、音節、単語等のような、可能な音響パターンを検出し、分類する。候補パターンは、どの一連の単語が文法的によく形成され、意味があるかを決定する構文上の制約の規則をモデル化する言語モデル化要素10へ与えられる。構文上の情報は、音響情報だけが曖昧であるとき、音声認識への貴重な案内書であり得る。言語モデル化に基づいて、VRは、間断なく音響特徴整合化結果を解釈し、推定された単語列を与える。
【0014】
単語復号器6における音響パターン整合化及び言語モデル化は、両方とも、話者の音声学的及び音響音声学的変動量を説明するために、決定論的又は推計論的のいずれかの、数学的モデルを要求する。音声認識システムの性能は、これら2つのモデルの品質と直接的に関係がある。音響パターン整合化について、多様な種類のモデルのなかで、テンプレートを基盤とする動的時間軸伸縮化(時間軸正規化)(DTW)及び推計論的隠れマルコフ(stochastic hidden Markov)モデル化(HMM)が、2つの最も一般的に使用されるモデルである。技術的に精通した人達は、DTW及びHMMを理解する。
【0015】
HMMシステムは、現在最も成功している音声認識アルゴリズムである。HMMにおける二重推計論的特性は、音声信号に関連する一時の変動量と同様に音響変動量を吸収することに、より良い柔軟性を与える。これは、通常、認識の正確性が改善される結果となる。言語モデルに関して、F.Jelink氏による、“実験的個別口述認識装置の開発(The Development of an Experimental Discrete Dictation Recognizer)”、米電気電子学会会報、第37巻、1616‐1624頁、1985年、に詳述されているkグラム(k‐gram)言語モデルと呼ばれる推計論的モデルは、実用的な大きな語彙音声認識システムに成功裏に適用されてきている。小さな語彙を有する適用の場合において、決定論的文法は、航空予約及び情報システム(Rabiner,L.R.氏及びLevinson,S.Z.氏による、隠れマルコフモデル及びレベルビルディングに基づく不特定話者型、構文論指向、連続単語認識システム、IASSPでの米電気電子学会紀要、第33巻、第3号、1985年6月、を見られたい。)のような、有限状態ネットワーク(FSN)として系統的に説明されてきている。
【0016】
音響プロセッサ4は、音声認識装置2におけるフロントエンド音声分析サブシステムを表す。入力音声信号に応答して、時間変動音声信号を特徴付けることは、適切な表現を与える。背景雑音、チャンネル歪み、話者特性及び話の方法のような、関係のない情報は、廃棄すべきである。有効な音響特徴は、より高い音響弁別力を有する音声認識装置を提供するだろう。最も有用な特性は、短時間スペクトル包絡である。短時間スペクトル包絡の特徴付けにおいて、一般に使用されるスペクトル分析手法は、フィルタバンクを基盤とするスペクトル分析である。
【0017】
図2は、1つの実施形態に従うVRシステムにおけるVRフロントエンド11を示す。フロントエンド11は、音声分節を特徴付けるためにフロントエンド処理を行う。ケプストラム(Cepstral)パラメータは、PCM入力からのTミリ秒毎に1回計算される。どのような時間周期もTについて使用され得ることが、技術的に精通した人達によって理解されるだろう。
【0018】
バーク振幅(Bark Amplitude)発生モジュール12は、ディジタル化されたPCM音声信号s(n)をTミリ秒毎に1回kバーク振幅に変換する。1つの実施形態において、Tは、10ミリ秒で、kは、16バーク振幅である。こうして、10ミリ秒毎に16バーク振幅がある。kがどのような正の整数でもあり得ることは、技術的に精通した人達によって理解されるだろう。
【0019】
バークスケールスケールは、人間の聴覚に相当する臨界帯域(critical bands)の歪んだ(warped)周波数スケールスケールである。バーク振幅計算は、技術的に周知で、Rabiner,L.R.氏及びJuang,B.H.氏による、音声認識の基礎、Prentice Hall、(1993年)、に記載されている。
【0020】
バーク振幅モジュール12は、対数圧縮モジュール14に結合される。一般的なVRフロントエンドにおいて、対数圧縮モジュール14は、それぞれのバーク振幅の対数を計算することによって、バーク振幅をlog10スケールスケールに変換する。しかしながら、VRフロントエンドにおいて、簡単なlog10関数の代りに、μ−法則圧縮及びA−法則圧縮手法を使用するシステム及び方法は、2000年10月31に出願された、“雑音環境における音声認識及び周波数不整合条件を改善するためのシステム及び方法”と題する、米国特許出願番号、第09/703191号に記載されているように、雑音環境におけるVRフロントエンドの正確性を改善し、それは、本発明の譲受人に譲渡され、この中に参考のために全面的に組み入れられる。バーク振幅のμ−法則圧縮及びバーク振幅のA−法則圧縮は、雑音環境の効果を減少させるために使用され、それによって音声認識システムの全体的な正確性を改善する。更に、相対スペクトル(RASTA)濾波は、畳み込み(convolutional)雑音を濾波するために使用されることができる。
【0021】
VRフロントエンド11において、対数圧縮モジュール14は、ケフ゜ストラム変換モジュール16に結合される。ケフ゜ストラム変換モジュール16は、j静的ケプストラム係数及びj動的ケプストラム係数を計算する。ケプストラム変換は、技術的によく周知の余弦変換である。jがどのような正の整数でもあり得ることは、技術的に精通した人達によって理解されるだろう。こうして、フロントエンドモジュール11は、Tミリ秒毎に1回、2*j係数を発生させる。これらの特徴は、音声認識を行うための隠れマルコフモデル化(HMM)システムのような、バックエンドモジュール(単語復号器、図示されていない)によって処理される。
【0022】
HMMモジュールは、入力音声信号を認識するための確率的枠組をモデル化する。HMMモデルにおいて、一時の及びスペクトルの特性は、両方とも、音声分節を特徴付けるために使用される。それぞれのHMMモデル(単語全体又はサブワード(sub-word))は、一連の状態及び遷移確率の集合によって表される。図3は、音声分節のためのHMMモデル例を示す。HMMモデルは、単語、“オー(oh)”、又は単語の一部、“オハイオ(ohio)”を表すことができるだろう。入力音声信号は、ビタビ復号化を使用して複数のHMMモデルになぞらえられる。最良整合化HMMモデルは、結果として生じる仮説であると考えられる。HMMモデル30は、開始32、終了34、並びに、第1番目の状態36、第2番目の状態38、及び第3番目の状態40に代表されるトライフォン(triphone)のための3つの状態、の5つの状態を有する。
【0023】
遷移aijは、状態iから状態jに遷移する確率である。aS1は、開始状態32から第1番目の状態36に遷移する。a12は、第1番目の状態36から第2番目の状態38に遷移する。a23は、第2番目の状態38から第3番目の状態40に遷移する。a3Eは、第3番目の状態40から終了状態34に遷移する。a11は、第1番目の状態36から第1番目の状態36に遷移する。a22は、第2番目の状態38から第2番目の状態38に遷移する。a33は、第3番目の状態40から第3番目の状態40に遷移する。a13は、第1番目の状態36から第3番目の状態40に遷移する。
【0024】
遷移確率のマトリクスは、全ての遷移/確率:aijから構成されることができる、ここで、nは、HMMモデルの状態の数であり;i=1,2,…,n;j=1,2,…,n。状態の間に遷移がないとき、その遷移/確率は、零である。状態からの累積遷移/確率は、単一、即ち、1に等しい。
【0025】
HMMモデルは、VRフロントエンドにおいて、“j”静的ケプストラムパラメータ及び“j”動的ケプストラムパラメータを計算することによって訓練される。訓練処理は、単一の状態に相当する複数のN個のフレームを集める。訓練処理は、それから、これらのN個のフレームの平均値及び分散値を計算し、結果として、長さ2jの平均値ベクトル及び長さ2jのダイアゴナル供分散値(diagonal covariance)を得る。平均値及び分散値ベクトルは、併せて、ガウス混合(Gaussian mixture)成分、又は略して“混合(mixture)”と呼ばれる。それぞれの状態は、N個のガウス混合成分によって表され、ここでNは、正の整数である。訓練プロセスは、遷移確率も計算する。
【0026】
小さなメモリ資源を用いる装置において、Nは、1つ又はいくつかの他の小さな数である。最小の設置面積のVRシステム、即ち、最小のメモリVRシステムにおいて、単一のガウス混合成分は状態を表す。より大きなVRシステムにおいて、複数のN個のフレームは、1つより多い平均値ベクトル及び相当する分散値ベクトルを計算するために使用される。例えば、12個の平均値及び分散値の集合が計算されるならば、そのときは、12個のガウス混合成分のHMM状態が作り出される。DVRにおけるVRサーバにおいて、Nは、32と同じくらい高くてもよい。
【0027】
多種多様のVRシステム(VRエンジンとも呼ばれる)を組み合わせることは、向上した正確性を提供し、単一のVRシステムよりも入力音声信号において多量の情報を使用する。VRエンジンを組み合わせるためのシステム及び方法は、2000年7月18日に出願された、“音声認識のための組み合わせられたエンジンシステム及び方法”と題する、米国特許出願番号、第09/618177号(後に第‘177号出願)、及び2000年9月8日に出願された、“写像を使用する自動音声認識のためのシステム及び方法”と題する、米国特許出願番号、第09/657760号(後に第‘760号出願)に記載され、それらは、本発明の譲受人に譲渡され、この中に参考のために全面的に組み入れられる。
【0028】
1つの実施形態においては、多種多様のVRエンジンは、分散型VRシステムおいて組み合わせられる。こうして、加入者ユニット及びネットワークサーバの両方の上にVRエンジンがある。加入者ユニット上のVRエンジンは、ローカルVRエンジンである。サーバ上のVRエンジンは、ネットワークVRエンジンである。ローカルVRエンジンは、ローカルVRエンジンに命令を実行するためのプロセッサ及び音声情報を蓄積するためのメモリを具備する。ネットワークVRエンジンは、ネットワークVRエンジンに命令を実行するためのプロセッサ及び音声情報を蓄積するためのメモリを具備する。
【0029】
1つの実施形態において、ローカルVRエンジンは、ネットワークVRエンジンと同じ型のVRエンジンではない。VRエンジンが技術的に周知のどのような型のVRエンジンでもあり得ることは、技術的に精通した人達によって理解されるだろう。例えば、1つの実施形態において、加入者ユニットは、DTW VRエンジンで、ネットワークサーバは、HMM VRエンジンであり、両方の型のVRエンジンは、技術的に周知である。異なる型のVRエンジンを組み合わせることは、入力音声信号を処理するとき、DTW VRエンジン及びHMM VRエンジンが異なる強調点を有するので、分散型VRシステムの正確性を改善し、それは、分散型VRシステムが入力音声信号を処理するときの方が、単一のVRエンジンが入力音声信号を処理するときよりも、より多くの情報の入力音声信号が使用されることを意味する。結果として生じる仮説は、ローカルVRエンジン及びサーバVRエンジンから組み合わせられた仮説から選択される。
【0030】
1つの実施形態において、ローカルVRエンジンは、ネットワークVRエンジンと同じ型のVRエンジンである。1つの実施形態において、ローカルVRエンジン及びネットワークVRエンジンは、HMM VRエンジンである。もう1つの実施形態においては、ローカルVRエンジン及びネットワークVRエンジンは、DTWエンジンである。ローカルVRエンジン及びネットワークVRエンジンが技術的に周知のどのようなVRエンジンでもあり得ることは、技術的に精通した人達によって理解されるだろう。
【0031】
VRエンジンは、PCM信号の形式で音声データを得る。エンジンは、有効な認識が行われるか、又はユーザが言うことを止めてしまい、全ての音声が処理されてしまうまで、信号を処理する。DVR構成において、ローカルVRエンジンは、PCMデータを得て、フロントエンド情報を発生させる。1つの実施形態において、フロントエンド情報は、ケプストラムパラメータである。もう1つの実施形態においては、フロントエンド情報は、入力音声信号を特徴付けるどのような型の情報/特徴でもあり得る。技術的に精通した人に周知のどのような型の特徴も、入力音声信号を特徴付けるために使用されてもよいことは、技術的に精通した人達によって理解される。
【0032】
一般的な認識作業のために、ローカルVRエンジンは、そのメモリから訓練されたテンプレートの集合を得る。ローカルVRエンジンは、適用先(application)から文法仕様を得る。適用分野は、ユーザが加入者ユニットを使用して作業を達成することを可能にするサービス論理である。この論理は、加入者ユニット上のプロセッサによって実行される。それは、加入者ユニットにおけるユーザインタフェースモジュールの成分である。
【0033】
文法は、サブワードモデルを使用して、能動的な語彙を規定する。一般的な文法は、7桁電話番号、ドル量、及び名前の集合からの都市の名前を含む。一般的な文法仕様は、入力音声信号に基づいて確信のある認識決定が行われることができそうにない条件を表すための“語彙の範囲外(OOV)”条件を含む。
【0034】
1つの実施形態において、ローカルVRエンジンが文法によって規定されたVR作業を扱うことができないならば、ローカルVRエンジンは、ローカルに認識仮説を発生させる。規定された文法が複雑過ぎてローカルVRエンジンによって処理することができないとき、ローカルVRエンジンは、フロントエンドデータをVRサーバへ伝送する。
【0035】
1つの実施形態において、ネットワークVRエンジンのそれぞれの状態が混合成分の集合を有し、ローカルVRエンジンのそれぞれ相当する状態が混合成分の集合の部分集合(subsrt)を有するという意味で、ローカルVRエンジンは、ネットワークVRエンジンの部分集合である。部分集合の大きさは、集合の大きさより小さいか又は集合の大きさに等しい。ローカルVRエンジン及びネットワークVRエンジンにおけるそれぞれの状態について、ネットワークVRエンジンの状態は、N個の混合成分を有し、ローカルVRエンジンの状態は、N個以下(≦N)の混合成分を有する。こうして、1つの実施形態において、加入者ユニットは、ネットワークサーバ上の大メモリ設置面積HMM VRエンジンより状態当りの小さい混合分布を有する低メモリ設置面積HMM VRエンジンを含む。
【0036】
DVRにおいて、VRサーバにおけるメモリ資源は、費用がかからない。更に、それぞれのサーバは、DVRサービスを提供する多数のポートによって時分割される。多数の混合成分を使用することによって、VRシステムは、ユーザの大量の言語資料(corpus)のために十分に動作する。対照的に、小型の装置におけるVRは、多くの人々によって使用されない。こうして、小型の装置おいて、少量のガウス混合成分を使用し、それらをユーザの音声に適応させることは、可能である。
【0037】
一般的なバックエンドにおいては、全単語モデルが小型の語彙VRシステムを用いて使用される。中間から大型の語彙システムにおいては、サブワードモデルが使用される。一般的なサブワードユニットは、文脈独立型(CI)単音及び文脈依存型(CD)単音である。文脈独立型単音は、左及び右の方の単音に独立である。文脈依存型単音はトライフォンとも呼ばれる。なぜならば、それの左及び右の方の単音に依存するからである文脈依存型単音は、異音(allophones)とも呼ばれる。
【0038】
VR技術における単音は、音素の実現である。VRシステムにおいて、文脈独立型単音モデル及び文脈依存型単音モデルは、技術的に周知のHMM又は他の型のモデルを使用して組み立てられる。音素は、所与の言語における最小の機能的な音声分節の抽象的概念である。この点で、機能的な単語は、知覚的に異なる音を意味する。例えば、“キャット(cat)”における“k”音を“b”音によって取り替えることは、英語においては異なる単語となる。このように、“b”と“k”は、英語においては2つの異なる音素である。
【0039】
CD及びCI単音は、両方とも、複数の状態によって表されることができる。それぞれの状態は、混合の集合によって表され、ここで集合は、単一の混合又は複数の混合であってもよい。状態当りの混合の数が多いほど、それぞれの単音を認識するためのVRシステムは、正確になる。
【0040】
1つの実施形態において、ローカルVRエンジン及びサーバを基盤とするVRエンジンは、同じ種類の単音には基づかない。1つの実施形態において、ローカルVRエンジンは、CI単音に基づき、サーバを基盤とするVRエンジンは、CD単音に基づく。ローカルVRエンジンは、CI単音を認識する。サーバを基盤とするVRエンジンは、CD単音を認識する。1つの実施形態においては、VRエンジンは、‘177号出願に記載されているように組み合わせられる。もう1つの実施形態においては、VRエンジンは、‘760号出願に記載されているように組み合わせられる。
【0041】
1つの実施形態において、ローカルVRエンジン及びサーバを基盤とするVRエンジンは、同じ種類の単音に基づく。1つの実施形態においては、ローカルVRエンジン及びサーバを基盤とするVRエンジンは、両方とも、CI単音に基づく。もう1つの実施形態においては、ローカルVRエンジン及びサーバを基盤とするVRエンジンは、両方とも、CD単音に基づく。
【0042】
それぞれの言語は、その言語に対して有効な発音順序を決定する音素配列論的規則を有する。所与の言語においては、認識される数十のCI単音がある。例えば、英語を認識するVRシステムは、約50のCI単音を認識するかも知れない。こうして、少数のモデルのみが訓練され、それから認識に使用される。
【0043】
CIモデルを蓄積するための記憶上の必要条件は、CD単音のための記憶上の必要条件と比較して小さい。英語について、それぞれの単音に対する左の文脈及び右の文脈を考慮すると、50×50×50のCD単音がある。しかしながら、全てではない文脈が英語において生じる。全ての可能な文脈の範囲外に、部分集合のみがその言語に使用される。言語に使用される全ての文脈の範囲外に、これらの文脈の部分集合のみがVRエンジンによって処理される。一般的に、DVRのためのネットワークに在るVRサーバにおいて、数千のトライフォンが使用されることはない。CD単音に基づくVRシステムのための記憶上の必要条件は、CI単音に基づくVRシステムのための必要条件より大きい。
【0044】
1つの実施形態において、ローカルVRエンジン及びサーバを基盤とするVRエンジンは、幾つかの混合成分を共有する。サーバVRエンジンは、ローカルVRエンジンへ混合成分をダウンロードする。
【0045】
1つの実施形態において、VRサーバにおいて使用されるK個のガウス混合成分は、加入者ユニットへダウンロードされる、より小さな数のL個の混合を発生させるために使用される。この数Lは、ローカルにテンプレートを蓄積するための加入者ユニットに利用できる空間に依存して、1ぐらい小さくてもよいだろう。もう1つの実施形態において、小さな数のL個の混合は、初めに、加入者ユニットに含まれる。
【0046】
図4は、加入者ユニット54におけるローカルVRエンジン52及びサーバ58上のサーバVRエンジン56を用いるDVRシステム50を示す。サーバを基盤とするDVR伝送が始められたとき、サーバ58は、音声認識のためのフロントエンドデータを得る。1つの実施形態において、認識している間、サーバ58は、最終の復号された状態列におけるそれぞれの状態について最良のL個の混合成分を追跡し続ける。認識された仮説が正しい認識として適用先によって受け入れられ、認識に基づいて適切な行動が取られるならば、そうすると、ユーザの音声を記述するLの混合成分の方が所与の状態を記述するために使用される残りのK−Lの混合より良い。
【0047】
ローカルVRエンジン52が音声分節を認識しないとき、ローカルVRエンジン52は、サーバVRエンジン56が音声分節を認識するように要請する。ローカルVRエンジン52は、ローカルVRエンジン52が音声分節から抽出した特徴をサーバVRエンジン56へ送出する。サーバVRエンジン56が音声分節を認識するならば、サーバVRエンジン56は、認識された音声分節に相当する混合をローカルVRエンジン52のメモリにダウンロードする。もう1つの実施形態においては、混合は、旨くいった処理毎にダウンロードされる。もう1つの実施形態においては、混合は、何度も旨くいった処理後にダウンロードされる。1つの実施形態においては、混合は、一定の時間後にダウンロードされる。
【0048】
1つの実施形態において、ローカルVRエンジンは、音声分節のために訓練された後にサーバVRエンジンへ混合分布をアップロードする。ローカルVRエンジンは、話者適応のために訓練される。即ち、ローカルVRエンジンは、ユーザの音声に適応する。
【0049】
1つの実施形態において、サーバVRエンジン56からのダウンロードされた特徴は、ローカルVRエンジン52のメモリに加えられる。1つの実施形態において、ダウンロードされた混合は、音声分節を認識するためのローカルVRエンジン52によって使用される合成混合を作り出すために、ローカルVRエンジンの混合と組み合わせられる。1つの実施形態において、ダウンロードされた混合に関数が適用され、合成混合は、ローカルVRエンジン52のメモリに加えられる。1つの実施形態において、合成混合は、ダウンロードされた混合及びローカルVRエンジン52上の混合の関数である。1つの実施形態において、合成混合は、話者適応のためにサーバVRエンジン56へ送出される。ローカルVRエンジン52は、混合を受信するためのメモリを有し、混合に関数を適用するための、且つ混合を組み合わせるためのプロセッサを有する。
【0050】
1つの実施形態において、旨くいった処理に続いて、サーバは、Lの混合分布成分を加入者ユニットへダウンロードする。徐々に加入者ユニット54の能力は、HMMモデルの集合がユーザの音声に適応させられるように向上する。HMMモデルの集合がユーザの音声に適応させられるように、ローカルVRエンジン52は、サーバVRエンジン56の要請を少なくする。
【0051】
混合が音声分節に関する1つの型の情報であり、且つ音声分節を特徴付けるどのような情報もサーバVRエンジン56からダウンロードされ、サーバVRエンジン56へアップロードされることができ、本発明の範囲の中にあることは、技術的に精通した人達には明白であろう。
【0052】
サーバVRエンジン56からローカルVRエンジン52へ混合をダウンロードすることは、ローカルVRエンジン52の正確性を増加させる。ローカルVRエンジン52からサーバVRエンジン56へ混合をアップロードすることは、サーバVRエンジンの正確性を増加させる。
【0053】
特定のユーザについて、小さなメモリ資源を用いるローカルVRエンジン52は、重要な大きなメモリ資源を用いるネットワークを基盤とするVRエンジン56の性能に近づくことができる。一般的なDSP実施は、過剰なネットワークトラフィックの原因となることなく、ローカルにこのような作業を扱うのに充分なMIPSを有する。
【0054】
大抵の状況において、不特定話者型モデルを適応させることは、このような適応をさせないのに比較してVR正確性を改善する結果となる。1つの実施形態において、適応させることは、話者によって言われるようにモデルに相当する音声分節のフロントエンド特徴に、より近接するように所与のモデルの混合成分の平均値ベクトルを調節することを含む。もう1つの実施形態において、適応させることは、話者の話し口調に基づく他のモデルパラメータを調節することを含む。
【0055】
適応させることについて、相当するモデル状態に揃えられた適応発声の分節化が要求される。一般的に、このような情報は、実際の認識の間ではなくて、訓練処理の間で可能である。これは、分節化情報を発生させ保護するための、付加メモリ蓄積必要条件(RAM)のためである。これは、セルラ電話のような、埋め込まれた土台(embedded platform)に実施されるローカルVRの場合に、特に当てはまる。
【0056】
ネットワークを基盤とするVRの1つの利点は、RAM使用上の制限への厳重さがずっと少ないことである。それで、DVR適用において、ネットワークを基盤とするバックエンドは、分節化情報を作り出すことができる。更に、ネットワークを基盤とするバックエンドは、受信されたフロントエンド特徴に基づいて、平均値の新集合を計算することができる。最後に、ネットワークは、これらのパラメータをモバイルへダウンロードすることができる。
【0057】
図5は、1つの実施形態に従うVR認識処理のフローチャートを示す。ユーザが加入者ユニットに言ったとき、加入者ユニットは、ユーザの音声を音声分節に分割する。ステップ60において、ローカルVRエンジンは、入力音声分節を処理する。ステップ62において、ローカルVRエンジンは、結果を発生させるためのローカルVRエンジンのHMMモデルを使用することによって、音声分節を認識しようと試みる。結果は、少なくとも1つの単音を具備する語句である。HMMモデルは、混合を具備する。ステップ64において、ローカルVRエンジンが音声分節を認識するならば、それから、ローカルVRエンジンは、結果を加入者ユニットへ返す。ステップ66において、ローカルVRエンジンが音声分節を認識しないならば、それから、ローカルVRエンジンは、音声分節を処理し、それによって音声分節のパラメータを作り出し、それは、ネットワークVRエンジンへ送出される。1つの実施形態において、パラメータは、ケプストラムパラメータである。ローカルVRエンジンによって発生させられたパラメータが音声分節を表すための技術的に周知のどのようなパラメータであってもよいことは、技術的に精通した人達よって理解されるであろう。
【0058】
ステップ68において、ネットワークVRエンジンは、ネットワークVRエンジンのHMMモデルを使用して音声分節のパラメータを解釈しようと試みる、即ち、音声分節を認識しようと試みる。ステップ70において、ネットワークVRエンジンが音声分節を認識しないならば、それから、認識が行われることができないだろうという事実が、ローカルVRエンジンへ送出される。ステップ72において、ネットワークVRエンジンが音声分節を本当に認識するならば、それから、結果及び結果を発生させるために使用されたHMMモデルについて最良整合化混合が、両方とも、ローカルVRエンジンへ送出される。ステップ74において、ローカルVRエンジンは、HMMモデルについて混合を、ユーザによって発生させられる次回の音声分節を認識するために使用されるためのローカルVRエンジンのメモリに蓄積する。ステップ64において、ローカルVRエンジンは、結果を加入者ユニットへ返す。ステップ60において、もう1つの音声分節は、ローカルVRエンジンに入力される。
【0059】
こうして、斬新で且つ改善された、音声認識のための方法及び装置は、説明されてきた。技術的に精通した人達は、この中に開示された実施形態に関連して説明された種々の例示的な論理ブロック、モジュール、及び配置が、電子的ハードウェア、コンピュータソフトウェア、又は両方の組み合わせとして実施され得ることを理解するであろう。種々の例示的な部品、ブロック、モジュール、回路、及びステップは、それらの機能性の点から、全般的に説明されてきた。機能性がハードウェア又はソフトウェアとして実施されるかどうかは、全システム上に課せられる特殊な用途上及び設計上の拘束に基づく。精通した技術者は、このような事情の下でハードウェア及びソフトウェアの互換性、及び、それぞれの特殊な用途について説明された機能性を如何にして最良に実施するか、を認識する。例として、この中に開示された実施形態に関連して説明された種々の例示的な論理ブロック、モジュール、及び配置は、ファームウェア指令の集合を実行するプロセッサ、特定用途集積回路(ASIC)、現場プログラム可能ゲートアレー(FPGA)又は他のプログラム可能な論理装置、個別ゲート又はトランジスタ論理回路、例えばレジスタのような個別ハードウェア部品、任意の従来のプログラム可能なソフトウェアモジュール及びプロセッサ、又はこの中に説明された機能を果たすために設計されたこれらの任意の組み合わせを用いて実施され又は遂行されてもよい。加入者ユニット54上のローカルVRエンジン52及びサーバ58上のサーバVRエンジン56は、マイクロプロセッサにおいて有利に実行されるかも知れないが、別法として、ローカルVRエンジン52及びサーバVRエンジン56は、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、又はステートマシン(state machine)において実行されてもよい。テンプレートは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、着脱可能ディスク、CD‐ROM、又は技術的に周知の任意の他の形状の蓄積媒体に、在ることができるであろう。メモリ(図示されていない)は、前に述べたどのようなプロセッサ(示されていない)にも一体化されてもよい。プロセッサ(図示されていない)及びメモリ(図示されていない)は、ASIC(図示されていない)に在ってもよい。ASICは、電話機に在ってもよい。
【0060】
前に述べた本発明の実施形態の説明は、技術的に精通したどのような人でも本発明を製品化(make)し又は使用することを可能にするように提供される。これらの実施形態の種々の変更は、技術的に精通した人達にとって容易に明白であり、この中に定義された一般的な原理は、創意に富む能力を使用しなくても他の実施形態に適用されるかも知れない。こうして、本発明は、この中に示された実施形態に限定されるように意図されるものではなく、この中に開示された原理及び斬新な特徴と矛盾がない最も広い範囲と一致するものである。
【図面の簡単な説明】
【0061】
【図1】音声認識システムを示す。
【図2】VRシステムにおけるVRフロントエンドを示す。
【図3】トライフォンについてのHMMモデル例を示す。
【図4】一実施形態に従う加入者ユニットにおけるローカルVRエンジン及びサーバ上のサーバVRエンジンを用いるDVRシステムを示す。
【図5】一実施形態に従うVR認識処理のフローチャートを示す。
【符号の説明】
【0062】
2‥音声認識システム、6‥単語復号器6、11‥VRフロントエンド、30‥HMMモデル、50‥DVRシステム
Claims (18)
- 通信システムにおいて使用するための加入者ユニット、該加入者ユニットは下記を具備する:
音声分節の情報を受信するための手段、及び
受信された情報を、ローカル音声認識システムの音声分節情報と組み合わせるための手段。 - 受信された情報は、ガウス混合である請求項1記載の加入者ユニット。
- 通信システムにおいて使用するための加入者ユニット、該加入者ユニットは下記を具備する:、
音声分節の情報を受信するための手段;及び
合成音声情報を作り出すために、関数を受信された情報に適用するための手段。 - 受信された情報及び合成音声情報は、ガウス混合である請求項3記載の加入者ユニット。
- 音声認識の方法、該方法は下記を具備する:
音声分節情報を受信する;
受信された音声分節情報をローカル音声分節情報と組み合わせて、組み合わせられた音声分節情報を発生させる;及び
組み合わせられた音声分節情報を使用して、音声分節を認識する。 - 音声認識の方法、該方法は下記を具備する:
音声分節情報を受信する;
関数を受信された音声分節情報に適用して、合成音声分節情報を発生させる;;及び
合成音声分節情報を使用して、音声分節を認識する。 - 音声認識の方法、該方法は下記を具備する:
音声分節情報を受信する;
受信された音声分節情報をローカル特徴と組み合わせる;
関数を組み合わせられた情報に適用して、合成音声情報を発生させる;;及び
合成音声情報を使用して、音声分節を認識する。 - 通信システムにおいて使用するための音声認識の方法、該方法は下記を具備する:
音声分節のフロントエンド特徴を受信する;及び
フロントエンド特徴を音声分節情報と比較する。 - 比較に基づく整合化音声分節情報を選択することを更に具備する請求項8記載の方法。
- 音声認識の方法、該方法は下記を具備する:
音声分節の特徴を送出する;
音声分節情報を受信する;
関数を受信された情報に適用して、合成音声情報を発生させる;
合成音声情報をローカル音声分節情報と組み合わせる;及び
組み合わせられた情報を使用して、音声分節を認識する。、 - 音声認識の方法、該方法は下記を具備する:
音声分節を受信する;
音声分節を処理し、音声分節のパラメータを作り出す;
パラメータをネットワーク音声認識(VR)エンジンへ送出する;
パラメータを隠れマルコフモデル化(HMM)モデル比較する;且つ
パラメータに相当するHMMモデルの混合をローカルVRエンジンへ送出する。 - 混合を受信することを更に具備する請求項11記載の方法。
- 混合をメモリに蓄積することを更に具備する請求項12の方法。
- 音声分節を認識するために使用される混合を受信する加入者ユニット上のローカルVRエンジン、及び
混合分布をローカルVRエンジンへ送出するサーバ上のネットワークVRエンジンを具備する分散型音声認識システム。 - ローカルVRエンジンは、1つの型のVRエンジンである請求項14記載の分散型音声認識システム。
- ネットワークVRエンジンは、もう1つの型のVRエンジンである請求項15記載の分散型音声認識システム。
- 受信された混合は、ローカルVRエンジンの混合と組み合わせられる請求項16記載の分散型音声認識システム。
- 訓練の結果として混合をネットワークVRエンジンへ送出する加入者ユニット上のローカルVRエンジン、且つ音声分節を認識するために使用される混合を受信するサーバ上のネットワークVRエンジンを具備する分散型音声認識システム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/755,651 US20020091515A1 (en) | 2001-01-05 | 2001-01-05 | System and method for voice recognition in a distributed voice recognition system |
PCT/US2002/000183 WO2002059874A2 (en) | 2001-01-05 | 2002-01-02 | System and method for voice recognition in a distributed voice recognition system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004536329A true JP2004536329A (ja) | 2004-12-02 |
Family
ID=25040017
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002560121A Pending JP2004536329A (ja) | 2001-01-05 | 2002-01-02 | 分散型音声認識システムにおける音声認識のためのシステム及び方法 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20020091515A1 (ja) |
EP (1) | EP1348213A2 (ja) |
JP (1) | JP2004536329A (ja) |
KR (1) | KR100984528B1 (ja) |
AU (1) | AU2002246939A1 (ja) |
TW (1) | TW580690B (ja) |
WO (1) | WO2002059874A2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013529317A (ja) * | 2010-05-19 | 2013-07-18 | サノフィ−アベンティス・ドイチュラント・ゲゼルシャフト・ミット・ベシュレンクテル・ハフツング | 対話、及び/又は、命令決定プロセスの操作データの変更 |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7003463B1 (en) | 1998-10-02 | 2006-02-21 | International Business Machines Corporation | System and method for providing network coordinated conversational services |
US20030004720A1 (en) * | 2001-01-30 | 2003-01-02 | Harinath Garudadri | System and method for computing and transmitting parameters in a distributed voice recognition system |
US7941313B2 (en) * | 2001-05-17 | 2011-05-10 | Qualcomm Incorporated | System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system |
US7203643B2 (en) * | 2001-06-14 | 2007-04-10 | Qualcomm Incorporated | Method and apparatus for transmitting speech activity in distributed voice recognition systems |
US7366673B2 (en) * | 2001-06-15 | 2008-04-29 | International Business Machines Corporation | Selective enablement of speech recognition grammars |
US7197331B2 (en) * | 2002-12-30 | 2007-03-27 | Motorola, Inc. | Method and apparatus for selective distributed speech recognition |
US7567374B2 (en) | 2004-06-22 | 2009-07-28 | Bae Systems Plc | Deformable mirrors |
US20060136215A1 (en) * | 2004-12-21 | 2006-06-22 | Jong Jin Kim | Method of speaking rate conversion in text-to-speech system |
US20080086311A1 (en) * | 2006-04-11 | 2008-04-10 | Conwell William Y | Speech Recognition, and Related Systems |
KR100913130B1 (ko) * | 2006-09-29 | 2009-08-19 | 한국전자통신연구원 | 사용자 프로파일을 이용한 음성 인식 서비스 방법 및 장치 |
KR100897554B1 (ko) * | 2007-02-21 | 2009-05-15 | 삼성전자주식회사 | 분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기 |
US20080312934A1 (en) * | 2007-03-07 | 2008-12-18 | Cerra Joseph P | Using results of unstructured language model based speech recognition to perform an action on a mobile communications facility |
US20090030691A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Using an unstructured language model associated with an application of a mobile communication facility |
US8635243B2 (en) | 2007-03-07 | 2014-01-21 | Research In Motion Limited | Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application |
US8949130B2 (en) | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Internal and external speech recognition use with a mobile communication facility |
US20090030687A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Adapting an unstructured language model speech recognition system based on usage |
US10056077B2 (en) | 2007-03-07 | 2018-08-21 | Nuance Communications, Inc. | Using speech recognition results based on an unstructured language model with a music system |
US8949266B2 (en) | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Multiple web-based content category searching in mobile search application |
US8996379B2 (en) | 2007-03-07 | 2015-03-31 | Vlingo Corporation | Speech recognition text entry for software applications |
US8838457B2 (en) | 2007-03-07 | 2014-09-16 | Vlingo Corporation | Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility |
US8886545B2 (en) * | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Dealing with switch latency in speech recognition |
US20080221880A1 (en) * | 2007-03-07 | 2008-09-11 | Cerra Joseph P | Mobile music environment speech processing facility |
US8886540B2 (en) | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Using speech recognition results based on an unstructured language model in a mobile communication facility application |
US9129599B2 (en) * | 2007-10-18 | 2015-09-08 | Nuance Communications, Inc. | Automated tuning of speech recognition parameters |
US8898065B2 (en) | 2011-01-07 | 2014-11-25 | Nuance Communications, Inc. | Configurable speech recognition system using multiple recognizers |
KR101255141B1 (ko) * | 2011-08-11 | 2013-04-22 | 주식회사 씨에스 | 거절율을 확보하고 오인식을 줄이는 실시간 음성 인식 방법 |
CA2867776A1 (en) * | 2012-04-02 | 2013-10-10 | Dixilang Ltd. | A client-server architecture for automatic speech recognition applications |
CN104769668B (zh) | 2012-10-04 | 2018-10-30 | 纽昂斯通讯公司 | 改进的用于asr的混合控制器 |
CN106782546A (zh) * | 2015-11-17 | 2017-05-31 | 深圳市北科瑞声科技有限公司 | 语音识别方法与装置 |
US10971157B2 (en) | 2017-01-11 | 2021-04-06 | Nuance Communications, Inc. | Methods and apparatus for hybrid speech recognition processing |
CN108900432B (zh) * | 2018-07-05 | 2021-10-08 | 中山大学 | 一种基于网络流行为的内容感知方法 |
US20220301562A1 (en) * | 2019-12-10 | 2022-09-22 | Rovi Guides, Inc. | Systems and methods for interpreting a voice query |
CN114999481A (zh) * | 2022-05-30 | 2022-09-02 | 北斗星通智联科技有限责任公司 | 适配多种语音识别引擎的适配器***和适配方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ZA948426B (en) * | 1993-12-22 | 1995-06-30 | Qualcomm Inc | Distributed voice recognition system |
US6029124A (en) * | 1997-02-21 | 2000-02-22 | Dragon Systems, Inc. | Sequential, nonparametric speech recognition and speaker identification |
US6195641B1 (en) * | 1998-03-27 | 2001-02-27 | International Business Machines Corp. | Network universal spoken language vocabulary |
US6463413B1 (en) * | 1999-04-20 | 2002-10-08 | Matsushita Electrical Industrial Co., Ltd. | Speech recognition training for small hardware devices |
-
2001
- 2001-01-05 US US09/755,651 patent/US20020091515A1/en not_active Abandoned
- 2001-12-31 TW TW090133212A patent/TW580690B/zh not_active IP Right Cessation
-
2002
- 2002-01-02 JP JP2002560121A patent/JP2004536329A/ja active Pending
- 2002-01-02 KR KR1020037009039A patent/KR100984528B1/ko active IP Right Grant
- 2002-01-02 EP EP02714688A patent/EP1348213A2/en not_active Withdrawn
- 2002-01-02 AU AU2002246939A patent/AU2002246939A1/en not_active Abandoned
- 2002-01-02 WO PCT/US2002/000183 patent/WO2002059874A2/en not_active Application Discontinuation
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013529317A (ja) * | 2010-05-19 | 2013-07-18 | サノフィ−アベンティス・ドイチュラント・ゲゼルシャフト・ミット・ベシュレンクテル・ハフツング | 対話、及び/又は、命令決定プロセスの操作データの変更 |
JP2016128924A (ja) * | 2010-05-19 | 2016-07-14 | サノフィ−アベンティス・ドイチュラント・ゲゼルシャフト・ミット・ベシュレンクテル・ハフツング | 対話、及び/又は、命令決定プロセスの操作データの変更 |
Also Published As
Publication number | Publication date |
---|---|
TW580690B (en) | 2004-03-21 |
KR20030076601A (ko) | 2003-09-26 |
KR100984528B1 (ko) | 2010-09-30 |
AU2002246939A1 (en) | 2002-08-06 |
WO2002059874A3 (en) | 2002-12-19 |
EP1348213A2 (en) | 2003-10-01 |
WO2002059874A2 (en) | 2002-08-01 |
US20020091515A1 (en) | 2002-07-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2004536329A (ja) | 分散型音声認識システムにおける音声認識のためのシステム及び方法 | |
US6411926B1 (en) | Distributed voice recognition system | |
US8639508B2 (en) | User-specific confidence thresholds for speech recognition | |
US6836758B2 (en) | System and method for hybrid voice recognition | |
US6671669B1 (en) | combined engine system and method for voice recognition | |
US7941313B2 (en) | System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system | |
US9245526B2 (en) | Dynamic clustering of nametags in an automated speech recognition system | |
US20020178004A1 (en) | Method and apparatus for voice recognition | |
US7136815B2 (en) | Method for voice recognition | |
JPH09507105A (ja) | 分散音声認識システム | |
JP2003524794A (ja) | 雑音のある信号におけるスピーチのエンドポイント決定 | |
US8438030B2 (en) | Automated distortion classification | |
JP2004504641A (ja) | 話者独立音声認識システムのための音声テンプレートを構成するための方法及び装置 | |
JP2002536691A (ja) | 音声認識除去方式 | |
JP2002524777A (ja) | ボイス・ダイアリング方法およびシステム | |
US20070129945A1 (en) | Voice quality control for high quality speech reconstruction | |
KR100794140B1 (ko) | 분산 음성 인식 단말기에서 음성 부호화기의 전처리를공유해 잡음에 견고한 음성 특징 벡터를 추출하는 장치 및그 방법 |