JP2004536329A

JP2004536329A - 分散型音声認識システムにおける音声認識のためのシステム及び方法

Info

Publication number: JP2004536329A
Application number: JP2002560121A
Authority: JP
Inventors: ガルダドリ、ハリナス
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2001-01-05
Filing date: 2002-01-02
Publication date: 2004-12-02
Also published as: TW580690B; KR20030076601A; KR100984528B1; AU2002246939A1; WO2002059874A3; EP1348213A2; WO2002059874A2; US20020091515A1

Abstract

【課題】分散型音声認識システムにおける音声認識のためのシステム及び方法
【解決手段】分散型音声認識における音声認識を改善する方法及びシステム。分散型音声認識システム５０は、加入者ユニット５４におけるローカルＶＲエンジン５２及びサーバ５８上のサーバＶＲエンジン５６を含む。ローカルＶＲエンジン５２がローカルＶＲエンジン５２への音声分節を認識しないとき、サーバＶＲエンジン５６は、音声分節に相当する情報をローカルＶＲエンジン５２へダウンロードする。ローカルＶＲエンジン５２は、音声分節についての合成情報を作り出すために、ローカルＶＲエンジン５２の音声分節情報をダウンロードされた情報と組み合わせてもよい。ローカルＶＲエンジン５２は、又、音声分節についての合成情報を作り出すために、関数をダウンロードされた情報に適用してもよい。ローカルＶＲエンジン５２は、又、合成情報を作り出すために、関数をダウンロードされた情報に適用してもよい。合成情報は、それから、ローカルＶＲエンジン５２からサーバＶＲエンジン５６へアップロードされてもよい。
【選択図】図５

Description

【技術分野】
【０００１】
本発明は、一般に通信の分野に関し、特に分散型(distributed)音声認識システムにおけるローカル音声認識を改善するためのシステム及び方法に関する。
【背景技術】
【０００２】
音声認識（ＶＲ）は、ユーザ又はユーザ音声による命令を認識する模擬知能(simulated intelligence)を装置に授け、装置とのヒューマンインタフェースを容易にする最も重要な技術の１つである。ＶＲは、人間の音声を理解するための基幹技術でもある。音響的音声信号から言語学的メッセージを回復する技術を使用するシステムは、音声認識装置と呼ばれる。
【０００３】
ＶＲ（通常、音声認識としても参照される）の使用は、安全性の理由ために、ますます重要になってきている。例えば、ＶＲは、無線電話機キーパッド上のボタンを押下する手作業に取って代わって使用されるかも知れない。これは、ユーザが自動車を運転している間に電話を始めるとき、特に重要である。ＶＲの無い自動車電話を使用するとき、運転者は、ハンドルから一方の手を離し、呼び出しのダイアルをするためにボタンを押下している間、電話機キーパッドに注目していなければならない。これらは、自動車事故の可能性を増加させる。音声による動作を可能にされた(speech - enabled)自動車電話（即ち、音声認識のために設計された電話機）は、間段なく道路を注視している間、運転者が電話をかけることを可能にする。更に、ハンズフリーカーキットシステムは、電話を開始する間、運転者が両手をハンドル上に置いたままにすることを可能にするだろう。
【０００４】
音声認識装置は、特定話者型(speaker-dependent)(ＳＤ）又は不特定話者型(speaker-independent)（ＳＩ）装置のいずれかに分類される。より普通である特定話者型装置は、特定のユーザからの命令を認識するように訓練される。これと対照的に、不特定話者型装置は、どのようなユーザからの音声命令でも受け入れることが可能である。特定話者型であろうと不特定話者型であろうと、所与のＶＲシステムの性能を向上させるために、訓練と呼ばれる処理が、有効なパラメータを有するシステムを備えるために要求される。換言すれば、システムは、最適に機能することができる前に、学習する必要がある。
【０００５】
特定話者型ＶＲシステムは、システムがこれらの特定の単語又は語句についてユーザの音声の特性を学習することができるように、ユーザに１回又は数回（一般的には２回）システムの語彙におけるそれぞれの単語を言うように促す。ハンズフリー自動車キットについての例示的語彙は、１０個の数字；“呼ぶ”、“送る”、“ダイアルする”、“取り消す”、“きれいにする”、“加える”、“削除する”、“歴史”、“プログラム”、“はい”、及び“いいえ”のキーワード；並びに事前に規定された数の普段電話する仕事仲間、友人、又は家族構成員の名前、を含むことができる。一旦訓練が完了すると、ＶＲ装置が発声された言葉を以前に訓練された言葉（テンプレートとして蓄積された）と比較し、且つ最良の整合をとることによって認識する訓練されたキーワードを、ユーザーがを言うことによって、認識段階において呼び出しを始めることができる。例えば、名前“ジョン”が訓練された名前の１つであったとすれば、語句“ジョンを呼び出せ”を言うことによって、ユーザは、ジョンへの呼び出しを始めることができるだろう。ＶＲシステムは、単語“呼び出せ”及び“ジョン”を認識し、ユーザがジョンの電話番号として以前に入力していた番号をダイアルすることができる。
【０００６】
不特定話者型ＶＲ装置は、事前に規定された語彙（例えば、ある制御語、０から９までの数、並びに、はい及びいいえ）を受け入れるように訓練されたテンプレートの集合セット（ｓｅｔ）も使用する。多数の話者（例えば、１００）は、該語彙中の各単語を発声し記録されなければならない。）
音声認識装置、即ち、ＶＲシステムは、音響プロセッサ及び単語復号器を具備する。音響プロセッサは、特徴抽出(feature extraction)を行う。音響プロセッサは、到来する未加工の音声からＶＲに必要な一連の情報関連の特徴（ベクトル）を抽出する。単語復号器は、入力された発声に相当する一連の言語学的単語のような、意味があり且つ思いどおりのフォーマットの出力を生じるために、この一連の特徴（ベクトル）を復号する。
【０００７】
一般的な音声認識装置において、単語復号器は、音声認識装置のフロントエンドに対するよりも計算上且つ記憶上のより大きな必要性を有する。分散型システム構成を使用して実施される声認識装置の実施において、計算上且つ記憶上の負荷を適切に吸収することができるサブシステムに単語復号作業を配置することを望まれることが多々ある。音響プロセッサは、信号処理によって導入された量子化誤り及び／又はチャンネルにより誘導された誤りの効果を低減させるために、できるだけ音声源に接近して在るべきである。このように、分散型音声認識（ＤＶＲ）システムにおいて、音響プロセッサは、ユーザ装置の中に在り、且つ単語復号器は、ネットワーク上に在る。
【０００８】
分散型音声認識システムにおいて、フロントエンド特徴は、加入者ユニット（移動局、モバイル、遠隔局、ユーザ装置、又はユーザ機器とも呼ばれる）のような装置において抽出され、ネットワークへ送出される。ネットワークの中のサーバを基盤とするＶＲシステムは、音声認識システムのバックエンドとして働き、単語復号を行う。これは、ネットワーク上の資源を使用して複雑なＶＲ作業を行う利益を有する。分散型ＶＲシステムの例は、米国特許第５９５６６８３号に記載され、本発明の譲受人に譲渡され、この中に参照のために組み入れられている。
【０００９】
加入者ユニット上で行われている特徴抽出に加えて、簡単なＶＲ作業は、加入者ユニット上で行われることができる。このケースにおいて、ネットワーク上のＶＲシステムは簡単なＶＲ作業のために使用されない。従って、音声による動作可能なサービスを提供するためのコストが低減させられる結果、ネットワークトラフィックは、低減させられる。
【特許文献１】
米国特許第５９５６６８３号
【非特許文献１】
米電気電子学会会報、第３７巻、１６１６‐１６２４頁、１９８５年、
【非特許文献２】
Ｒａｂｉｎｅｒ，Ｌ．Ｒ．氏及びＪｕａｎｇ，Ｂ．Ｈ．氏による、音声認識の基礎、ＰｒｅｎｔｉｃｅＨａｌｌ、（１９９３年）
【発明の開示】
【発明が解決しようとする課題】
【００１０】
加入者ユニットが簡単なＶＲ作業を行うにもかかわらず、ネットワーク上のトラフィック渋滞(congestion)は、加入者ユニットがサーバを基盤とするＶＲシステムから貧弱なサービスを得る結果を招き得る。分散型ＶＲシステムは、複雑なＶＲ作業を使用してユーザインタフェースの特徴を豊富にすることを可能にするが、ネットワークトラフィックを増加させ且つ時々遅延をさせる代償を払う。ローカルＶＲエンジンがユーザの言われた命令を認識しないならば、そのときは、ユーザが言言った命令は、フロントエンド処理の後サーバを基盤とするＶＲエンジンへ伝送されなければならなくなり、これによってネットワークトラフィックを増加させる。言われた命令がネットワークを基盤とするＶＲエンジンによって解釈された後、該結果は加入者ユニットへ逆に伝送されなければならず、それは、ネットワーク渋滞がある場合、有意の遅延を導入することができる
このように、サーバを基盤とするＶＲシステムへの依存が減少させられるように、加入者ユニットにおけるローカルＶＲ性能を更に改善するためのシステム及び方法が必要である。ローカルＶＲ性能を改善するためのシステム及び方法は、ローカルＶＲエンジンについて改善された精度、及び加入者ユニット上のより多くのＶＲ作業を処理する能力を得る利益を有し、更にネットワークトラフィックを低減させ、遅延を除去するであろう。
【課題を解決するための手段】
【００１１】
説明される実施形態は、分散型音声認識システムにおける音声認識を改善するためのシステム及び方法へ向けられる。一面において、音声認識のためのシステム及び方法は、加入者ユニット上のローカルＶＲエンジンが認識しない音声分節を認識するネットワークにおけるサーバ上のサーバＶＲエンジンを含む。もう一つの面において、音声認識のためのシステム及び方法は、音声分節の情報をローカルＶＲエンジンへダウンロードするサーバＶＲエンジンを含む。もう一つの面において、ダウンロードされた情報は、音声分節の平均及び変動(variance)ベクトルを具備する混合(mixture)である。もう一つの面において、音声認識のためのシステム及び方法は、ダウンロードされた混合をローカルＶＲエンジンの混合と組み合わせ、音声分節を認識するためにローカルＶＲエンジンによって使用される合成の(resultant)混合を作り出すための、ローカルＶＲエンジンを含む。もう一つの面において、音声認識のためのシステム及び方法は、音声分節を認識するために使用される合成混合を発生させるために、サーバＶＲエンジンによってダウンロードされた混合に関数を適用するローカルＶＲエンジンを含む。もう一つの面において、音声認識のためのシステム及び方法は、サーバＶＲエンジンへ合成混合分布をアップロードするためのローカルＶＲエンジンを含む。
【発明を実施するための最良の形態】
【００１２】
図１は、１つの実施形態に従う音響プロセッサ４及び単語復号器６を含む音声認識システム２を示す。単語復号器６は、音響パターン整合化要素８及び言語モデル化要素１０を具備する。言語モデル化要素１０は、文法仕様要素とも呼ばれる。音響プロセッサ４は、単語復号器６の音響パターン整合化要素８に結合される。音響パターン整合化要素８は、言語モデル化要素１０に結合される。
【００１３】
音響プロセッサ４は、入力音声信号から特徴を抽出し、これらの特徴を単語復号器６に与える。概して言えば、単語復号器６は、音響プロセッサ４からの音響特徴を翻訳し、話者のオリジナルな単語列を推定する。これは、音響パターン整合化及び言語モデル化の２段階で達成される。言語モデル化は、孤立した単語認識を適用する場合省くことができる。音響パターン整合化要素８は、音素、音節、単語等のような、可能な音響パターンを検出し、分類する。候補パターンは、どの一連の単語が文法的によく形成され、意味があるかを決定する構文上の制約の規則をモデル化する言語モデル化要素１０へ与えられる。構文上の情報は、音響情報だけが曖昧であるとき、音声認識への貴重な案内書であり得る。言語モデル化に基づいて、ＶＲは、間断なく音響特徴整合化結果を解釈し、推定された単語列を与える。
【００１４】
単語復号器６における音響パターン整合化及び言語モデル化は、両方とも、話者の音声学的及び音響音声学的変動量を説明するために、決定論的又は推計論的のいずれかの、数学的モデルを要求する。音声認識システムの性能は、これら２つのモデルの品質と直接的に関係がある。音響パターン整合化について、多様な種類のモデルのなかで、テンプレートを基盤とする動的時間軸伸縮化（時間軸正規化）（ＤＴＷ）及び推計論的隠れマルコフ(stochastic hidden Markov)モデル化（ＨＭＭ）が、２つの最も一般的に使用されるモデルである。技術的に精通した人達は、ＤＴＷ及びＨＭＭを理解する。
【００１５】
ＨＭＭシステムは、現在最も成功している音声認識アルゴリズムである。ＨＭＭにおける二重推計論的特性は、音声信号に関連する一時の変動量と同様に音響変動量を吸収することに、より良い柔軟性を与える。これは、通常、認識の正確性が改善される結果となる。言語モデルに関して、Ｆ．Ｊｅｌｉｎｋ氏による、“実験的個別口述認識装置の開発(The Development of an Experimental Discrete Dictation Recognizer)”、米電気電子学会会報、第３７巻、１６１６‐１６２４頁、１９８５年、に詳述されているｋグラム（ｋ‐ｇｒａｍ）言語モデルと呼ばれる推計論的モデルは、実用的な大きな語彙音声認識システムに成功裏に適用されてきている。小さな語彙を有する適用の場合において、決定論的文法は、航空予約及び情報システム（Ｒａｂｉｎｅｒ，Ｌ．Ｒ．氏及びＬｅｖｉｎｓｏｎ，Ｓ．Ｚ．氏による、隠れマルコフモデル及びレベルビルディングに基づく不特定話者型、構文論指向、連続単語認識システム、ＩＡＳＳＰでの米電気電子学会紀要、第３３巻、第３号、１９８５年６月、を見られたい。）のような、有限状態ネットワーク（ＦＳＮ）として系統的に説明されてきている。
【００１６】
音響プロセッサ４は、音声認識装置２におけるフロントエンド音声分析サブシステムを表す。入力音声信号に応答して、時間変動音声信号を特徴付けることは、適切な表現を与える。背景雑音、チャンネル歪み、話者特性及び話の方法のような、関係のない情報は、廃棄すべきである。有効な音響特徴は、より高い音響弁別力を有する音声認識装置を提供するだろう。最も有用な特性は、短時間スペクトル包絡である。短時間スペクトル包絡の特徴付けにおいて、一般に使用されるスペクトル分析手法は、フィルタバンクを基盤とするスペクトル分析である。
【００１７】
図２は、１つの実施形態に従うＶＲシステムにおけるＶＲフロントエンド１１を示す。フロントエンド１１は、音声分節を特徴付けるためにフロントエンド処理を行う。ケプストラム(Cepstral)パラメータは、ＰＣＭ入力からのＴミリ秒毎に１回計算される。どのような時間周期もＴについて使用され得ることが、技術的に精通した人達によって理解されるだろう。
【００１８】
バーク振幅(Bark Amplitude)発生モジュール１２は、ディジタル化されたＰＣＭ音声信号ｓ（ｎ）をＴミリ秒毎に１回ｋバーク振幅に変換する。１つの実施形態において、Ｔは、１０ミリ秒で、ｋは、１６バーク振幅である。こうして、１０ミリ秒毎に１６バーク振幅がある。ｋがどのような正の整数でもあり得ることは、技術的に精通した人達によって理解されるだろう。
【００１９】
バークスケールスケールは、人間の聴覚に相当する臨界帯域(critical bands)の歪んだ(warped)周波数スケールスケールである。バーク振幅計算は、技術的に周知で、Ｒａｂｉｎｅｒ，Ｌ．Ｒ．氏及びＪｕａｎｇ，Ｂ．Ｈ．氏による、音声認識の基礎、ＰｒｅｎｔｉｃｅＨａｌｌ、（１９９３年）、に記載されている。
【００２０】
バーク振幅モジュール１２は、対数圧縮モジュール１４に結合される。一般的なＶＲフロントエンドにおいて、対数圧縮モジュール１４は、それぞれのバーク振幅の対数を計算することによって、バーク振幅をｌｏｇ_１０スケールスケールに変換する。しかしながら、ＶＲフロントエンドにおいて、簡単なｌｏｇ_１０関数の代りに、μ−法則圧縮及びＡ−法則圧縮手法を使用するシステム及び方法は、２０００年１０月３１に出願された、“雑音環境における音声認識及び周波数不整合条件を改善するためのシステム及び方法”と題する、米国特許出願番号、第０９／７０３１９１号に記載されているように、雑音環境におけるＶＲフロントエンドの正確性を改善し、それは、本発明の譲受人に譲渡され、この中に参考のために全面的に組み入れられる。バーク振幅のμ−法則圧縮及びバーク振幅のＡ−法則圧縮は、雑音環境の効果を減少させるために使用され、それによって音声認識システムの全体的な正確性を改善する。更に、相対スペクトル（ＲＡＳＴＡ）濾波は、畳み込み(convolutional)雑音を濾波するために使用されることができる。
【００２１】
ＶＲフロントエンド１１において、対数圧縮モジュール１４は、ケフ゜ストラム変換モジュール１６に結合される。ケフ゜ストラム変換モジュール１６は、ｊ静的ケプストラム係数及びｊ動的ケプストラム係数を計算する。ケプストラム変換は、技術的によく周知の余弦変換である。ｊがどのような正の整数でもあり得ることは、技術的に精通した人達によって理解されるだろう。こうして、フロントエンドモジュール１１は、Ｔミリ秒毎に１回、２^＊ｊ係数を発生させる。これらの特徴は、音声認識を行うための隠れマルコフモデル化（ＨＭＭ）システムのような、バックエンドモジュール（単語復号器、図示されていない）によって処理される。
【００２２】
ＨＭＭモジュールは、入力音声信号を認識するための確率的枠組をモデル化する。ＨＭＭモデルにおいて、一時の及びスペクトルの特性は、両方とも、音声分節を特徴付けるために使用される。それぞれのＨＭＭモデル（単語全体又はサブワード(sub-word)）は、一連の状態及び遷移確率の集合によって表される。図３は、音声分節のためのＨＭＭモデル例を示す。ＨＭＭモデルは、単語、“オー(oh)”、又は単語の一部、“オハイオ(ohio)”を表すことができるだろう。入力音声信号は、ビタビ復号化を使用して複数のＨＭＭモデルになぞらえられる。最良整合化ＨＭＭモデルは、結果として生じる仮説であると考えられる。ＨＭＭモデル３０は、開始３２、終了３４、並びに、第１番目の状態３６、第２番目の状態３８、及び第３番目の状態４０に代表されるトライフォン(triphone)のための３つの状態、の５つの状態を有する。
【００２３】
遷移ａ_ｉｊは、状態ｉから状態ｊに遷移する確率である。ａ_Ｓ１は、開始状態３２から第１番目の状態３６に遷移する。ａ_１２は、第１番目の状態３６から第２番目の状態３８に遷移する。ａ_２３は、第２番目の状態３８から第３番目の状態４０に遷移する。ａ_３Ｅは、第３番目の状態４０から終了状態３４に遷移する。ａ_１１は、第１番目の状態３６から第１番目の状態３６に遷移する。ａ_２２は、第２番目の状態３８から第２番目の状態３８に遷移する。ａ_３３は、第３番目の状態４０から第３番目の状態４０に遷移する。ａ_１３は、第１番目の状態３６から第３番目の状態４０に遷移する。
【００２４】
遷移確率のマトリクスは、全ての遷移／確率：ａ_ｉｊから構成されることができる、ここで、ｎは、ＨＭＭモデルの状態の数であり；ｉ＝１，２，…，ｎ；ｊ＝１，２，…，ｎ。状態の間に遷移がないとき、その遷移／確率は、零である。状態からの累積遷移／確率は、単一、即ち、１に等しい。
【００２５】
ＨＭＭモデルは、ＶＲフロントエンドにおいて、“ｊ”静的ケプストラムパラメータ及び“ｊ”動的ケプストラムパラメータを計算することによって訓練される。訓練処理は、単一の状態に相当する複数のＮ個のフレームを集める。訓練処理は、それから、これらのＮ個のフレームの平均値及び分散値を計算し、結果として、長さ２ｊの平均値ベクトル及び長さ２ｊのダイアゴナル供分散値(diagonal covariance)を得る。平均値及び分散値ベクトルは、併せて、ガウス混合(Gaussian mixture)成分、又は略して“混合(mixture)”と呼ばれる。それぞれの状態は、Ｎ個のガウス混合成分によって表され、ここでＮは、正の整数である。訓練プロセスは、遷移確率も計算する。
【００２６】
小さなメモリ資源を用いる装置において、Ｎは、１つ又はいくつかの他の小さな数である。最小の設置面積のＶＲシステム、即ち、最小のメモリＶＲシステムにおいて、単一のガウス混合成分は状態を表す。より大きなＶＲシステムにおいて、複数のＮ個のフレームは、１つより多い平均値ベクトル及び相当する分散値ベクトルを計算するために使用される。例えば、１２個の平均値及び分散値の集合が計算されるならば、そのときは、１２個のガウス混合成分のＨＭＭ状態が作り出される。ＤＶＲにおけるＶＲサーバにおいて、Ｎは、３２と同じくらい高くてもよい。
【００２７】
多種多様のＶＲシステム（ＶＲエンジンとも呼ばれる）を組み合わせることは、向上した正確性を提供し、単一のＶＲシステムよりも入力音声信号において多量の情報を使用する。ＶＲエンジンを組み合わせるためのシステム及び方法は、２０００年７月１８日に出願された、“音声認識のための組み合わせられたエンジンシステム及び方法”と題する、米国特許出願番号、第０９／６１８１７７号（後に第‘１７７号出願）、及び２０００年９月８日に出願された、“写像を使用する自動音声認識のためのシステム及び方法”と題する、米国特許出願番号、第０９／６５７７６０号（後に第‘７６０号出願）に記載され、それらは、本発明の譲受人に譲渡され、この中に参考のために全面的に組み入れられる。
【００２８】
１つの実施形態においては、多種多様のＶＲエンジンは、分散型ＶＲシステムおいて組み合わせられる。こうして、加入者ユニット及びネットワークサーバの両方の上にＶＲエンジンがある。加入者ユニット上のＶＲエンジンは、ローカルＶＲエンジンである。サーバ上のＶＲエンジンは、ネットワークＶＲエンジンである。ローカルＶＲエンジンは、ローカルＶＲエンジンに命令を実行するためのプロセッサ及び音声情報を蓄積するためのメモリを具備する。ネットワークＶＲエンジンは、ネットワークＶＲエンジンに命令を実行するためのプロセッサ及び音声情報を蓄積するためのメモリを具備する。
【００２９】
１つの実施形態において、ローカルＶＲエンジンは、ネットワークＶＲエンジンと同じ型のＶＲエンジンではない。ＶＲエンジンが技術的に周知のどのような型のＶＲエンジンでもあり得ることは、技術的に精通した人達によって理解されるだろう。例えば、１つの実施形態において、加入者ユニットは、ＤＴＷＶＲエンジンで、ネットワークサーバは、ＨＭＭＶＲエンジンであり、両方の型のＶＲエンジンは、技術的に周知である。異なる型のＶＲエンジンを組み合わせることは、入力音声信号を処理するとき、ＤＴＷＶＲエンジン及びＨＭＭＶＲエンジンが異なる強調点を有するので、分散型ＶＲシステムの正確性を改善し、それは、分散型ＶＲシステムが入力音声信号を処理するときの方が、単一のＶＲエンジンが入力音声信号を処理するときよりも、より多くの情報の入力音声信号が使用されることを意味する。結果として生じる仮説は、ローカルＶＲエンジン及びサーバＶＲエンジンから組み合わせられた仮説から選択される。
【００３０】
１つの実施形態において、ローカルＶＲエンジンは、ネットワークＶＲエンジンと同じ型のＶＲエンジンである。１つの実施形態において、ローカルＶＲエンジン及びネットワークＶＲエンジンは、ＨＭＭＶＲエンジンである。もう１つの実施形態においては、ローカルＶＲエンジン及びネットワークＶＲエンジンは、ＤＴＷエンジンである。ローカルＶＲエンジン及びネットワークＶＲエンジンが技術的に周知のどのようなＶＲエンジンでもあり得ることは、技術的に精通した人達によって理解されるだろう。
【００３１】
ＶＲエンジンは、ＰＣＭ信号の形式で音声データを得る。エンジンは、有効な認識が行われるか、又はユーザが言うことを止めてしまい、全ての音声が処理されてしまうまで、信号を処理する。ＤＶＲ構成において、ローカルＶＲエンジンは、ＰＣＭデータを得て、フロントエンド情報を発生させる。１つの実施形態において、フロントエンド情報は、ケプストラムパラメータである。もう１つの実施形態においては、フロントエンド情報は、入力音声信号を特徴付けるどのような型の情報／特徴でもあり得る。技術的に精通した人に周知のどのような型の特徴も、入力音声信号を特徴付けるために使用されてもよいことは、技術的に精通した人達によって理解される。
【００３２】
一般的な認識作業のために、ローカルＶＲエンジンは、そのメモリから訓練されたテンプレートの集合を得る。ローカルＶＲエンジンは、適用先(application)から文法仕様を得る。適用分野は、ユーザが加入者ユニットを使用して作業を達成することを可能にするサービス論理である。この論理は、加入者ユニット上のプロセッサによって実行される。それは、加入者ユニットにおけるユーザインタフェースモジュールの成分である。
【００３３】
文法は、サブワードモデルを使用して、能動的な語彙を規定する。一般的な文法は、７桁電話番号、ドル量、及び名前の集合からの都市の名前を含む。一般的な文法仕様は、入力音声信号に基づいて確信のある認識決定が行われることができそうにない条件を表すための“語彙の範囲外（ＯＯＶ）”条件を含む。
【００３４】
１つの実施形態において、ローカルＶＲエンジンが文法によって規定されたＶＲ作業を扱うことができないならば、ローカルＶＲエンジンは、ローカルに認識仮説を発生させる。規定された文法が複雑過ぎてローカルＶＲエンジンによって処理することができないとき、ローカルＶＲエンジンは、フロントエンドデータをＶＲサーバへ伝送する。
【００３５】
１つの実施形態において、ネットワークＶＲエンジンのそれぞれの状態が混合成分の集合を有し、ローカルＶＲエンジンのそれぞれ相当する状態が混合成分の集合の部分集合（ｓｕｂｓｒｔ）を有するという意味で、ローカルＶＲエンジンは、ネットワークＶＲエンジンの部分集合である。部分集合の大きさは、集合の大きさより小さいか又は集合の大きさに等しい。ローカルＶＲエンジン及びネットワークＶＲエンジンにおけるそれぞれの状態について、ネットワークＶＲエンジンの状態は、Ｎ個の混合成分を有し、ローカルＶＲエンジンの状態は、Ｎ個以下（≦Ｎ）の混合成分を有する。こうして、１つの実施形態において、加入者ユニットは、ネットワークサーバ上の大メモリ設置面積ＨＭＭＶＲエンジンより状態当りの小さい混合分布を有する低メモリ設置面積ＨＭＭＶＲエンジンを含む。
【００３６】
ＤＶＲにおいて、ＶＲサーバにおけるメモリ資源は、費用がかからない。更に、それぞれのサーバは、ＤＶＲサービスを提供する多数のポートによって時分割される。多数の混合成分を使用することによって、ＶＲシステムは、ユーザの大量の言語資料(corpus)のために十分に動作する。対照的に、小型の装置におけるＶＲは、多くの人々によって使用されない。こうして、小型の装置おいて、少量のガウス混合成分を使用し、それらをユーザの音声に適応させることは、可能である。
【００３７】
一般的なバックエンドにおいては、全単語モデルが小型の語彙ＶＲシステムを用いて使用される。中間から大型の語彙システムにおいては、サブワードモデルが使用される。一般的なサブワードユニットは、文脈独立型（ＣＩ）単音及び文脈依存型（ＣＤ）単音である。文脈独立型単音は、左及び右の方の単音に独立である。文脈依存型単音はトライフォンとも呼ばれる。なぜならば、それの左及び右の方の単音に依存するからである文脈依存型単音は、異音(allophones)とも呼ばれる。
【００３８】
ＶＲ技術における単音は、音素の実現である。ＶＲシステムにおいて、文脈独立型単音モデル及び文脈依存型単音モデルは、技術的に周知のＨＭＭ又は他の型のモデルを使用して組み立てられる。音素は、所与の言語における最小の機能的な音声分節の抽象的概念である。この点で、機能的な単語は、知覚的に異なる音を意味する。例えば、“キャット（ｃａｔ）”における“ｋ”音を“ｂ”音によって取り替えることは、英語においては異なる単語となる。このように、“ｂ”と“ｋ”は、英語においては２つの異なる音素である。
【００３９】
ＣＤ及びＣＩ単音は、両方とも、複数の状態によって表されることができる。それぞれの状態は、混合の集合によって表され、ここで集合は、単一の混合又は複数の混合であってもよい。状態当りの混合の数が多いほど、それぞれの単音を認識するためのＶＲシステムは、正確になる。
【００４０】
１つの実施形態において、ローカルＶＲエンジン及びサーバを基盤とするＶＲエンジンは、同じ種類の単音には基づかない。１つの実施形態において、ローカルＶＲエンジンは、ＣＩ単音に基づき、サーバを基盤とするＶＲエンジンは、ＣＤ単音に基づく。ローカルＶＲエンジンは、ＣＩ単音を認識する。サーバを基盤とするＶＲエンジンは、ＣＤ単音を認識する。１つの実施形態においては、ＶＲエンジンは、‘１７７号出願に記載されているように組み合わせられる。もう１つの実施形態においては、ＶＲエンジンは、‘７６０号出願に記載されているように組み合わせられる。
【００４１】
１つの実施形態において、ローカルＶＲエンジン及びサーバを基盤とするＶＲエンジンは、同じ種類の単音に基づく。１つの実施形態においては、ローカルＶＲエンジン及びサーバを基盤とするＶＲエンジンは、両方とも、ＣＩ単音に基づく。もう１つの実施形態においては、ローカルＶＲエンジン及びサーバを基盤とするＶＲエンジンは、両方とも、ＣＤ単音に基づく。
【００４２】
それぞれの言語は、その言語に対して有効な発音順序を決定する音素配列論的規則を有する。所与の言語においては、認識される数十のＣＩ単音がある。例えば、英語を認識するＶＲシステムは、約５０のＣＩ単音を認識するかも知れない。こうして、少数のモデルのみが訓練され、それから認識に使用される。
【００４３】
ＣＩモデルを蓄積するための記憶上の必要条件は、ＣＤ単音のための記憶上の必要条件と比較して小さい。英語について、それぞれの単音に対する左の文脈及び右の文脈を考慮すると、５０×５０×５０のＣＤ単音がある。しかしながら、全てではない文脈が英語において生じる。全ての可能な文脈の範囲外に、部分集合のみがその言語に使用される。言語に使用される全ての文脈の範囲外に、これらの文脈の部分集合のみがＶＲエンジンによって処理される。一般的に、ＤＶＲのためのネットワークに在るＶＲサーバにおいて、数千のトライフォンが使用されることはない。ＣＤ単音に基づくＶＲシステムのための記憶上の必要条件は、ＣＩ単音に基づくＶＲシステムのための必要条件より大きい。
【００４４】
１つの実施形態において、ローカルＶＲエンジン及びサーバを基盤とするＶＲエンジンは、幾つかの混合成分を共有する。サーバＶＲエンジンは、ローカルＶＲエンジンへ混合成分をダウンロードする。
【００４５】
１つの実施形態において、ＶＲサーバにおいて使用されるＫ個のガウス混合成分は、加入者ユニットへダウンロードされる、より小さな数のＬ個の混合を発生させるために使用される。この数Ｌは、ローカルにテンプレートを蓄積するための加入者ユニットに利用できる空間に依存して、１ぐらい小さくてもよいだろう。もう１つの実施形態において、小さな数のＬ個の混合は、初めに、加入者ユニットに含まれる。
【００４６】
図４は、加入者ユニット５４におけるローカルＶＲエンジン５２及びサーバ５８上のサーバＶＲエンジン５６を用いるＤＶＲシステム５０を示す。サーバを基盤とするＤＶＲ伝送が始められたとき、サーバ５８は、音声認識のためのフロントエンドデータを得る。１つの実施形態において、認識している間、サーバ５８は、最終の復号された状態列におけるそれぞれの状態について最良のＬ個の混合成分を追跡し続ける。認識された仮説が正しい認識として適用先によって受け入れられ、認識に基づいて適切な行動が取られるならば、そうすると、ユーザの音声を記述するＬの混合成分の方が所与の状態を記述するために使用される残りのＫ−Ｌの混合より良い。
【００４７】
ローカルＶＲエンジン５２が音声分節を認識しないとき、ローカルＶＲエンジン５２は、サーバＶＲエンジン５６が音声分節を認識するように要請する。ローカルＶＲエンジン５２は、ローカルＶＲエンジン５２が音声分節から抽出した特徴をサーバＶＲエンジン５６へ送出する。サーバＶＲエンジン５６が音声分節を認識するならば、サーバＶＲエンジン５６は、認識された音声分節に相当する混合をローカルＶＲエンジン５２のメモリにダウンロードする。もう１つの実施形態においては、混合は、旨くいった処理毎にダウンロードされる。もう１つの実施形態においては、混合は、何度も旨くいった処理後にダウンロードされる。１つの実施形態においては、混合は、一定の時間後にダウンロードされる。
【００４８】
１つの実施形態において、ローカルＶＲエンジンは、音声分節のために訓練された後にサーバＶＲエンジンへ混合分布をアップロードする。ローカルＶＲエンジンは、話者適応のために訓練される。即ち、ローカルＶＲエンジンは、ユーザの音声に適応する。
【００４９】
１つの実施形態において、サーバＶＲエンジン５６からのダウンロードされた特徴は、ローカルＶＲエンジン５２のメモリに加えられる。１つの実施形態において、ダウンロードされた混合は、音声分節を認識するためのローカルＶＲエンジン５２によって使用される合成混合を作り出すために、ローカルＶＲエンジンの混合と組み合わせられる。１つの実施形態において、ダウンロードされた混合に関数が適用され、合成混合は、ローカルＶＲエンジン５２のメモリに加えられる。１つの実施形態において、合成混合は、ダウンロードされた混合及びローカルＶＲエンジン５２上の混合の関数である。１つの実施形態において、合成混合は、話者適応のためにサーバＶＲエンジン５６へ送出される。ローカルＶＲエンジン５２は、混合を受信するためのメモリを有し、混合に関数を適用するための、且つ混合を組み合わせるためのプロセッサを有する。
【００５０】
１つの実施形態において、旨くいった処理に続いて、サーバは、Ｌの混合分布成分を加入者ユニットへダウンロードする。徐々に加入者ユニット５４の能力は、ＨＭＭモデルの集合がユーザの音声に適応させられるように向上する。ＨＭＭモデルの集合がユーザの音声に適応させられるように、ローカルＶＲエンジン５２は、サーバＶＲエンジン５６の要請を少なくする。
【００５１】
混合が音声分節に関する１つの型の情報であり、且つ音声分節を特徴付けるどのような情報もサーバＶＲエンジン５６からダウンロードされ、サーバＶＲエンジン５６へアップロードされることができ、本発明の範囲の中にあることは、技術的に精通した人達には明白であろう。
【００５２】
サーバＶＲエンジン５６からローカルＶＲエンジン５２へ混合をダウンロードすることは、ローカルＶＲエンジン５２の正確性を増加させる。ローカルＶＲエンジン５２からサーバＶＲエンジン５６へ混合をアップロードすることは、サーバＶＲエンジンの正確性を増加させる。
【００５３】
特定のユーザについて、小さなメモリ資源を用いるローカルＶＲエンジン５２は、重要な大きなメモリ資源を用いるネットワークを基盤とするＶＲエンジン５６の性能に近づくことができる。一般的なＤＳＰ実施は、過剰なネットワークトラフィックの原因となることなく、ローカルにこのような作業を扱うのに充分なＭＩＰＳを有する。
【００５４】
大抵の状況において、不特定話者型モデルを適応させることは、このような適応をさせないのに比較してＶＲ正確性を改善する結果となる。１つの実施形態において、適応させることは、話者によって言われるようにモデルに相当する音声分節のフロントエンド特徴に、より近接するように所与のモデルの混合成分の平均値ベクトルを調節することを含む。もう１つの実施形態において、適応させることは、話者の話し口調に基づく他のモデルパラメータを調節することを含む。
【００５５】
適応させることについて、相当するモデル状態に揃えられた適応発声の分節化が要求される。一般的に、このような情報は、実際の認識の間ではなくて、訓練処理の間で可能である。これは、分節化情報を発生させ保護するための、付加メモリ蓄積必要条件（ＲＡＭ）のためである。これは、セルラ電話のような、埋め込まれた土台(embedded platform)に実施されるローカルＶＲの場合に、特に当てはまる。
【００５６】
ネットワークを基盤とするＶＲの１つの利点は、ＲＡＭ使用上の制限への厳重さがずっと少ないことである。それで、ＤＶＲ適用において、ネットワークを基盤とするバックエンドは、分節化情報を作り出すことができる。更に、ネットワークを基盤とするバックエンドは、受信されたフロントエンド特徴に基づいて、平均値の新集合を計算することができる。最後に、ネットワークは、これらのパラメータをモバイルへダウンロードすることができる。
【００５７】
図５は、１つの実施形態に従うＶＲ認識処理のフローチャートを示す。ユーザが加入者ユニットに言ったとき、加入者ユニットは、ユーザの音声を音声分節に分割する。ステップ６０において、ローカルＶＲエンジンは、入力音声分節を処理する。ステップ６２において、ローカルＶＲエンジンは、結果を発生させるためのローカルＶＲエンジンのＨＭＭモデルを使用することによって、音声分節を認識しようと試みる。結果は、少なくとも１つの単音を具備する語句である。ＨＭＭモデルは、混合を具備する。ステップ６４において、ローカルＶＲエンジンが音声分節を認識するならば、それから、ローカルＶＲエンジンは、結果を加入者ユニットへ返す。ステップ６６において、ローカルＶＲエンジンが音声分節を認識しないならば、それから、ローカルＶＲエンジンは、音声分節を処理し、それによって音声分節のパラメータを作り出し、それは、ネットワークＶＲエンジンへ送出される。１つの実施形態において、パラメータは、ケプストラムパラメータである。ローカルＶＲエンジンによって発生させられたパラメータが音声分節を表すための技術的に周知のどのようなパラメータであってもよいことは、技術的に精通した人達よって理解されるであろう。
【００５８】
ステップ６８において、ネットワークＶＲエンジンは、ネットワークＶＲエンジンのＨＭＭモデルを使用して音声分節のパラメータを解釈しようと試みる、即ち、音声分節を認識しようと試みる。ステップ７０において、ネットワークＶＲエンジンが音声分節を認識しないならば、それから、認識が行われることができないだろうという事実が、ローカルＶＲエンジンへ送出される。ステップ７２において、ネットワークＶＲエンジンが音声分節を本当に認識するならば、それから、結果及び結果を発生させるために使用されたＨＭＭモデルについて最良整合化混合が、両方とも、ローカルＶＲエンジンへ送出される。ステップ７４において、ローカルＶＲエンジンは、ＨＭＭモデルについて混合を、ユーザによって発生させられる次回の音声分節を認識するために使用されるためのローカルＶＲエンジンのメモリに蓄積する。ステップ６４において、ローカルＶＲエンジンは、結果を加入者ユニットへ返す。ステップ６０において、もう１つの音声分節は、ローカルＶＲエンジンに入力される。
【００５９】
こうして、斬新で且つ改善された、音声認識のための方法及び装置は、説明されてきた。技術的に精通した人達は、この中に開示された実施形態に関連して説明された種々の例示的な論理ブロック、モジュール、及び配置が、電子的ハードウェア、コンピュータソフトウェア、又は両方の組み合わせとして実施され得ることを理解するであろう。種々の例示的な部品、ブロック、モジュール、回路、及びステップは、それらの機能性の点から、全般的に説明されてきた。機能性がハードウェア又はソフトウェアとして実施されるかどうかは、全システム上に課せられる特殊な用途上及び設計上の拘束に基づく。精通した技術者は、このような事情の下でハードウェア及びソフトウェアの互換性、及び、それぞれの特殊な用途について説明された機能性を如何にして最良に実施するか、を認識する。例として、この中に開示された実施形態に関連して説明された種々の例示的な論理ブロック、モジュール、及び配置は、ファームウェア指令の集合を実行するプロセッサ、特定用途集積回路（ＡＳＩＣ）、現場プログラム可能ゲートアレー（ＦＰＧＡ）又は他のプログラム可能な論理装置、個別ゲート又はトランジスタ論理回路、例えばレジスタのような個別ハードウェア部品、任意の従来のプログラム可能なソフトウェアモジュール及びプロセッサ、又はこの中に説明された機能を果たすために設計されたこれらの任意の組み合わせを用いて実施され又は遂行されてもよい。加入者ユニット５４上のローカルＶＲエンジン５２及びサーバ５８上のサーバＶＲエンジン５６は、マイクロプロセッサにおいて有利に実行されるかも知れないが、別法として、ローカルＶＲエンジン５２及びサーバＶＲエンジン５６は、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、又はステートマシン(state machine)において実行されてもよい。テンプレートは、ＲＡＭメモリ、フラッシュメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、レジスタ、ハードディスク、着脱可能ディスク、ＣＤ‐ＲＯＭ、又は技術的に周知の任意の他の形状の蓄積媒体に、在ることができるであろう。メモリ（図示されていない）は、前に述べたどのようなプロセッサ（示されていない）にも一体化されてもよい。プロセッサ（図示されていない）及びメモリ（図示されていない）は、ＡＳＩＣ（図示されていない）に在ってもよい。ＡＳＩＣは、電話機に在ってもよい。
【００６０】
前に述べた本発明の実施形態の説明は、技術的に精通したどのような人でも本発明を製品化(make)し又は使用することを可能にするように提供される。これらの実施形態の種々の変更は、技術的に精通した人達にとって容易に明白であり、この中に定義された一般的な原理は、創意に富む能力を使用しなくても他の実施形態に適用されるかも知れない。こうして、本発明は、この中に示された実施形態に限定されるように意図されるものではなく、この中に開示された原理及び斬新な特徴と矛盾がない最も広い範囲と一致するものである。
【図面の簡単な説明】
【００６１】
【図１】音声認識システムを示す。
【図２】ＶＲシステムにおけるＶＲフロントエンドを示す。
【図３】トライフォンについてのＨＭＭモデル例を示す。
【図４】一実施形態に従う加入者ユニットにおけるローカルＶＲエンジン及びサーバ上のサーバＶＲエンジンを用いるＤＶＲシステムを示す。
【図５】一実施形態に従うＶＲ認識処理のフローチャートを示す。
【符号の説明】
【００６２】
２‥音声認識システム、６‥単語復号器６、１１‥ＶＲフロントエンド、３０‥ＨＭＭモデル、５０‥ＤＶＲシステム

Claims

通信システムにおいて使用するための加入者ユニット、該加入者ユニットは下記を具備する：
音声分節の情報を受信するための手段、及び
受信された情報を、ローカル音声認識システムの音声分節情報と組み合わせるための手段。
受信された情報は、ガウス混合である請求項１記載の加入者ユニット。
通信システムにおいて使用するための加入者ユニット、該加入者ユニットは下記を具備する：、
音声分節の情報を受信するための手段；及び
合成音声情報を作り出すために、関数を受信された情報に適用するための手段。
受信された情報及び合成音声情報は、ガウス混合である請求項３記載の加入者ユニット。
音声認識の方法、該方法は下記を具備する：
音声分節情報を受信する；
受信された音声分節情報をローカル音声分節情報と組み合わせて、組み合わせられた音声分節情報を発生させる；及び
組み合わせられた音声分節情報を使用して、音声分節を認識する。
音声認識の方法、該方法は下記を具備する：
音声分節情報を受信する；
関数を受信された音声分節情報に適用して、合成音声分節情報を発生させる；；及び
合成音声分節情報を使用して、音声分節を認識する。
音声認識の方法、該方法は下記を具備する：
音声分節情報を受信する；
受信された音声分節情報をローカル特徴と組み合わせる；
関数を組み合わせられた情報に適用して、合成音声情報を発生させる；；及び
合成音声情報を使用して、音声分節を認識する。
通信システムにおいて使用するための音声認識の方法、該方法は下記を具備する：
音声分節のフロントエンド特徴を受信する；及び
フロントエンド特徴を音声分節情報と比較する。
比較に基づく整合化音声分節情報を選択することを更に具備する請求項８記載の方法。
音声認識の方法、該方法は下記を具備する：
音声分節の特徴を送出する；
音声分節情報を受信する；
関数を受信された情報に適用して、合成音声情報を発生させる；
合成音声情報をローカル音声分節情報と組み合わせる；及び
組み合わせられた情報を使用して、音声分節を認識する。、
音声認識の方法、該方法は下記を具備する：
音声分節を受信する；
音声分節を処理し、音声分節のパラメータを作り出す；
パラメータをネットワーク音声認識（ＶＲ）エンジンへ送出する；
パラメータを隠れマルコフモデル化（ＨＭＭ）モデル比較する；且つ
パラメータに相当するＨＭＭモデルの混合をローカルＶＲエンジンへ送出する。
混合を受信することを更に具備する請求項１１記載の方法。
混合をメモリに蓄積することを更に具備する請求項１２の方法。
音声分節を認識するために使用される混合を受信する加入者ユニット上のローカルＶＲエンジン、及び
混合分布をローカルＶＲエンジンへ送出するサーバ上のネットワークＶＲエンジンを具備する分散型音声認識システム。
ローカルＶＲエンジンは、１つの型のＶＲエンジンである請求項１４記載の分散型音声認識システム。
ネットワークＶＲエンジンは、もう１つの型のＶＲエンジンである請求項１５記載の分散型音声認識システム。
受信された混合は、ローカルＶＲエンジンの混合と組み合わせられる請求項１６記載の分散型音声認識システム。
訓練の結果として混合をネットワークＶＲエンジンへ送出する加入者ユニット上のローカルＶＲエンジン、且つ音声分節を認識するために使用される混合を受信するサーバ上のネットワークＶＲエンジンを具備する分散型音声認識システム。