JP4607334B2

JP4607334B2 - 分散された音声認識システム

Info

Publication number: JP4607334B2
Application number: JP2000597795A
Authority: JP
Inventors: チャン、チエンチュン
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 1999-02-08
Filing date: 2000-02-04
Publication date: 2011-01-05
Anticipated expiration: 2020-02-04
Also published as: EP1159736B1; WO2000046794A1; EP1159736A1; HK1044403B; HK1044403A1; CN1352787A; ATE426888T1; JP2002536692A; AU3589400A; CN1168070C; KR100629669B1; DE60041869D1; US6411926B1; KR20010093326A

Description

【０００１】
【発明の属する技術分野】
本発明は通信分野、特に音声認識システムに関する。
【０００２】
【従来の技術】
音声認識（ＶＲ）はユーザまたはユーザの音声コマンドを認識し、人間の機械とのインターフェイスを容易にするために機械にシミュレートされた知能を与える最も重要な技術の１つを表している。ＶＲはまた人間の音声を理解するための主要な技術を表している。音響スピーチ信号からの言語メッセージを再生する技術を用いるシステムは音声認識装置を呼ばれる。音声認識装置は典型的に、入来する生（未加工）のスピーチのＶＲを行うのに必要な情報を有する特徴のシーケンスまたはベクトルを抽出する音響プロセッサと、入力発話に対応する言語ワードのシーケンスのような意味をなす所望の出力フォーマットを生成するために特徴のシーケンスまたはベクトルを復号するワードデコーダとを具備している。所定のシステムの性能を増加するため、システムに有効なパラメータを装備するためにトレーニングが必要とされる。換言すると、システムは最適に機能できる前に学習を必要とする。
【０００３】
音響プロセッサは音声認識装置のフロントエンドスピーチ解析サブシステムを表している。入力スピーチ信号に応答して、音響プロセッサは時間的に変化するスピーチ信号を特徴付けるための適切な表示を与える。音響プロセッサは背景雑音、チャンネル歪み、スピーカ特性、話し方等の関連のない情報を破棄すべきである。実効的な音響処理は強化された音響弁別パワーを有する音声認識装置を備えている。結局、解析される有効な特性は短時間のスペクトルエンベロープである。短時間のスペクトルエンベロープを特徴付けるための２つの普通に使用されるスペクトル解析技術は線形予測符号化（ＬＰＣ）とフィルタバンクベースのスペクトルモデル化である。例示的なＬＰＣ技術は本発明の参考文献とされている米国特許第5,414,796 号明細書と、本発明の参考文献とされているL.B. Rabiner & R.W. Schafer のDigital Processing of Speech Signals、396 −453 頁（1978年）に記載されている。
【０００４】
（通常音声認識とも呼ばれている）ＶＲの使用は安全性の理由で重要性が増している。例えば、ＶＲは無線電話のキーパッドのボタンを押す手作業の置換のために使用されることができる。これは特にユーザが車を運転しながら呼を開始しているときに重要である。ＶＲなしで電話を使用するとき、運転者は一方の手を操縦ハンドルから外し、ダイヤリングによって通話するためにボタンを押しながら電話のキーパッドを見なければならない。これらの行動は自動車事故の可能性を増加する。スピーチエネーブル電話（即ちスピーチ認識用に設計されている電話）は運転者が連続的に道路を見ながら通話を行うことを可能にする。手を使用しない自動車キットシステムはさらに運転者が呼を開始しながら操縦ハンドルに両手を維持することを可能にする。
【０００５】
スピーチ認識装置はスピーカ依存装置とスピーカ独立装置とに分類される。スピーカ独立装置は音声コマンドを任意のユーザから受けることができる。さらにより一般的であるスピーカ依存装置は特定のユーザからのコマンドを認識するようにトレーニングされている。スピーカ依存のＶＲ装置は典型的に２つのフェーズ、即ちトレーニングフェーズと認識フェーズで動作する。トレーニングフェーズでは、ＶＲシステムはユーザにシステムの語彙の各ワードを１度または２度発話させ、それによってシステムはこれらの特定のワードまたはフレーズに対するユーザのスピーチ特性を学習できる。代わりに、音声的なＶＲ装置では、トレーニングは言語の全ての音素を網羅するように特別にスクリプトされた１以上の簡単なアーティクルを読取ることにより実現される。手を使用しない自動車キット用の例示的な語彙はキーパッド上の数字と、キーワード“呼”、“送信”、“ダイヤル”、“取消し”、“クリア”、“付加”、“消去”、“経歴”、“プログラム”、“イエス”、“ノー”と、予め限定された数の共通して呼ばれる共働者、友人または家族のメンバの名称を含んでいる。トレーニングが一度完了すると、ユーザはトレーニングされたキーワードを発話することにより、認識フェーズで呼を開始できる。例えば名称“John”がトレーニングされた名称のうちの１つであるならば、ユーザはフレーズ“Call John ”と言うことによりジョンへの呼を開始する。ＶＲシステムはワード“Call”と“John”を認識し、ジョンの電話番号のようなユーザが予め入力した番号をダイヤルする。
【０００６】
【発明が解決しようとする課題】
通常のＲＶ装置は典型的に、入来するスピーチサンプルを解析するためデジタル信号プロセッサ（ＤＳＰ）またはマイクロプロセッサを使用し、関連するパラメータを抽出し、パラメータを復号し、復号されたパラメータを記憶された１組のワードまたはＶＲテンプレートと比較し、ＶＲテンプレートはＶＲ装置のボキャブラリを構成している。ボキャブラリは例えばフラッシュメモリのような非揮発性メモリに記憶されている。例えばデジタルセルラ電話のようなＤＳＰとマイクロプロセッサの両者を有する通常のＶＲシステムでは、非揮発性メモリは通常ＤＳＰではなくマイクロプロセッサによってアクセス可能である。このようなシステムでは、ＶＲがマイクロプロセッサで全体的に実行されるならば、そのマイクロプロセッサは通常、合理的な待ち時間で認識結果を転送するための計算パワーが不足している。他方で、ＶＲはＤＳＰで全体的に実行されるならば、マイクロプロセッサはＤＳＰが大きいＶＲテンプレートを保持するのに十分ではない比較的小さいサイズのオンチップメモリを有するとき、フラッシュメモリを読取り、読取り内容をＤＳＰへ送ることを必要とする。ＤＳＰとマイクロプロセッサの間のインターフェイスの典型的に低い帯域幅が所定の量の時間に２つの装置間で転送されることができるデータ量を限定するので、これは長い時間の必要なプロセスである。したがって、ＤＳＰの計算パワーをマイクロプロセッサのメモリ容量に実効的に結合するＶＲ装置が必要とされている。
【０００７】
【課題を解決するための手段】
本発明は、ＤＳＰの計算パワーとマイクロプロセッサのメモリ容量とを実効的に結合するＶＲ装置に関する。したがって、本発明の１特徴では、分散された音声認識システムはデジタル化されたスピーチサンプルを受信し、そこから複数のパラメータを抽出するように構成されているデジタル信号プロセッサと、複数のスピーチテンプレートを含んでいる記憶媒体と、記憶媒体およびデジタル信号プロセッサに結合されているプロセッサとを具備しており、このプロセッサはデジタル信号プロセッサから複数のパラメータを受信し、複数のパラメータを複数のスピーチテンプレートと比較するように構成されている。
【０００８】
本発明の別の特徴では、音声認識処理を分散する方法は、デジタル信号プロセッサにおいて、複数のデジタル化されたスピーチサンプルから複数のパラメータを抽出し、複数のパラメータをマイクロプロセッサへ与え、マイクロプロセッサにおいて複数のパラメータを複数のスピーチテンプレートと比較するステップを有効に含んでいる。
【０００９】
本発明の別の特徴では、分散された音声認識システムは、複数のデジタル化されたスピーチサンプルから複数のパラメータを抽出する手段と、複数のスピーチテンプレートを永久的に記憶する手段と、複数のパラメータを抽出してそれを複数のスピーチテンプレートと比較する手段から複数のパラメータを受信する手段とを含んでいることが有効である。
【００１０】
【発明の実施の形態】
図１で示されているように、通常の音声認識システム10は、アナログデジタル変換器（Ａ／Ｄ）12と、音響プロセッサ14と、ＶＲテンプレートデータベース16と、パターン比較論理装置18と、決定論理装置20を含んでいる。ＶＲシステム10は例えば無線電話或いはハンドフリー自動車キットに設けられてもよい。
【００１１】
ＶＲシステム10がスピーチ認識フェーズにあるとき、人（図示せず）はワードまたはフレーズを発話し、スピーチ信号を発生する。スピーチ信号は通常のトランスデューサ（図示せず）により電気スピーチ信号ｓ（ｔ）に変換される。スピーチ信号ｓ（ｔ）はＡ／Ｄ12へ与えられ、これは例えばパルス符号変調（ＰＣＭ）のような既知のサンプリング方法にしたがって、スピーチ信号ｓ（ｔ）をデジタル化されたスピーチサンプルｓ（ｎ）へ変換する。
【００１２】
スピーチサンプルｓ（ｎ）はパラメータ決定のために音響プロセッサ14へ与えられる。音響プロセッサ14は入力スピーチ信号ｓ（ｔ）特性をモデル化する１組のパラメータを生成する。パラメータは、前述の米国特許第5,414,796 号明細書に記載されているように、例えばスピーチコーダの符号化を含んだ任意の複数の既知のスピーチパラメータ決定技術にしたがって高速度フーリエ変換（ＦＦＴ）ベースのケプストラム係数を使用して決定されてもよい。音響プロセッサ14はデジタル信号プロセッサ（ＤＳＰ）として構成されてもよい。ＤＳＰはスピーチコーダを含んでもよい。代わりに、音響プロセッサ14はスピーチコーダとして構成されてもよい。
【００１３】
パラメータ決定もＶＲシステム10のトレーニング中に実行され、ここでＶＲシステム10の全てのボキャブラリワードの１組のテンプレートは永久的に記憶するためＶＲテンプレートデータベース16へ伝送される。ＶＲテンプレートデータベース16は例えばフラッシュメモリ等の任意の通常の非揮発性記憶媒体の形態として有効に構成される。これによって、ＶＲシステム10へのパワーがオフに切換えられたとき、テンプレートがＶＲテンプレートデータベース16に保持されることが可能である。
【００１４】
１組のパラメータはパターン比較論理装置18へ与えられる。パターン比較論理装置18は発話のスタートおよびエンドポイントを有効に検出し、（例えば時間導関数、２次時間導関数等の）ダイナミックな音響特性を計算し、関連するフレームを選択することにより音響特性を圧縮し、静的およびダイナミック特性を量子化する。エンドポイント検出、ダイナミック音響特性の微分、パターン圧縮、パターン量子化の種々の既知の方法は、例えば文献（Lawrence Rabiner & Biing-Hwang Juang、Fundamentals of Speech Recognition（1993年））に記載されている。パターン比較論理装置18は結果的な１組のパラメータをＶＲテンプレートデータベース16に記憶されている全てのテンプレートと比較する。パラメータのセットとＶＲテンプレートデータベース16に記憶されている全てのテンプレートとの比較結果または離たりは決定論理装置20に与えられる。決定論理装置20はＶＲテンプレートデータベース16から、パラメータセットに最も近く一致するテンプレートを選択する。その代りとして、決定論理装置20は通常の“Ｎベスト”選択アルゴリズムを使用してもよく、これは予め定められた一致しきい値内のＮ個の最も近い一致を選択する。その後、意図した選択について人に質問する。決定論理装置20の出力は発話されたボキャブラリのワードについての決定である。
【００１５】
パターン比較論理装置18と決定論理装置20はマイクロプロセッサとして有効に構成されることが有効である。ＶＲシステム10は例えば特定用途向け集積回路（ＡＳＩＣ）であってもよい。ＶＲシステム10の認識の正確性はＶＲシステム10がボキャブラリ中の発話したワードまたはフレーズをいかに正確に認識するかの尺度である。例えば９５％の認識の正確性はＶＲシステム10がボキャブラリ中のワードを１００回中９５回を正確に認識することを示している。
【００１６】
図２で示されている１実施形態では、分散されたＶＲシステムはＡＳＩＣ100 中に設けられている。ＡＳＩＣ100 は例えば無線電話装置中に設けられる。ＡＳＩＣ100 はＡ／Ｄ変換器102 、ＤＳＰ104 、プロセッサ106 、非揮発性記憶媒体108 、デジタルアナログ変換器（Ｄ／Ａ）110 を含んでいる。プロセッサ106 はマイクロプロセッサであることが好ましいが、任意の一般的なプロセッサ、制御装置または状態マシンであってもよい。非揮発性媒体108 はフラッシュメモリ108 であることが有効であるが、その代りとして、非揮発性記憶媒体108 は任意の通常の形態の非揮発性の書込み可能なメモリであってもよい。ＤＳＰ104 はスピーチコーダ（図示せず）とスピーチデコーダ（図示せず）を含んでいる。ＤＳＰ104 は例えば、ボコード、ＶＲフロントエンド処理（即ちスピーチ解析）、背景雑音抑制、音響エコー消去を含む幾つかの機能を行うことができる。代りとしてＤＳＰ104 は毎秒８キロビット（ｋｂｐｓ）コード励起線形予測（ＣＥＬＰ）コーダ、（前述の米国特許第5,414,796 号明細書に記載の）１３ｋｂｐｓのＣＥＬＰコーダ、またはコード分割多元接続（ＣＤＭＡ）強化された可変速度コーディング（ＥＶＲＣ）コーダのような通常のボコーダであってもよい。
【００１７】
マイクロホン112 はＡ／Ｄ変換器102 への入力としてＡＳＩＣ100 に結合されている。発声者（図示せず）はマイクロホン112 へ発話し、マイクロホン112 はアナログ音声信号ｓ（ｔ）をＡ／Ｄ変換器102 へ供給する。Ａ／Ｄ変換器102 は例えばＰＣＭのような既知の方法にしたがって、アナログスピーチ信号ｓ（ｔ）をデジタルサンプルｓ（ｎ）へ変換する。Ａ／Ｄ102 変換器はＤＳＰ104 へ結合されている。デジタル化されたスピーチサンプルｓ（ｎ）はフロントエンド処理するためにＤＳＰ104 へ提供される。
【００１８】
ＤＳＰ104 では、フーリエ変換がデジタル化されたスピーチサンプルｓ（ｎ）について実行され、時間ドメインサンプルｓ（ｎ）を周波数ドメイン値へ変換する。周波数ドメインは、複数のバンドパスフィルタ（図示せず）を信号が通過することによって幾つかの隣接周波数帯域に区分される。バンドパスフィルタは有限インパルス応答（ＦＩＲ）フィルタが有効である。フィルタタップはそれぞれ連続的なフィルタにより広い周波数帯域幅を通過するように設定されており、連続的なフィルタ間の幅の変化は対数的に増加する。全てのフィルタにより通過された周波数範囲は全体で人間の音声範囲を含んでいる。低い端部では、通過した帯域幅は比較的狭く、高い端部では、通過した帯域幅は比較的広い。これによって人間の耳は低い周波数で良好に弁別するので、人間の耳はより正確に音を知覚する。対数周波数スケールはバーク（Bark）スケールであってもよく、またはその代りにスケールはメル（Mel ）スケールであってもよい。このようなスケールはよく知られており、例えば前述のLawrence Rabiner & Biing-Hwang Juangの Fundamentals of Speech Recognition 78−79頁（1993年）に記載されている。
【００１９】
１実施形態では、１３の帯域通過フィルタが使用される。以下の式はフィルタのバンクを説明している。
ｂ₁ ＝Ｃ
２≦ｉ≦１３では、ｂ_i ＝ｂ_i-1
【数１】

ここでＣとｆ₁ はそれぞれ任意のセットの帯域幅と、第１のフィルタの中心周波数であり、αは対数成長係数である。
【００２０】
各フレームでは、ＤＳＰ104 は例えば前述の米国特許第5,414,796 号明細書（Rabiner & Schafer と、Rabiner & Juang 、69−140 ）に記載されている通常の特徴抽出方法にしたがって帯域パワー値のベクトルを抽出する。１実施形態では、１３の帯域パワー値のベクトルはフレーム毎に抽出され、フレームは２０ミリ秒の長さであり、５０％だけ重複している。帯域パワー値はパケット化され、マイクロプロセッサ106 へパケットとして与えられる。
【００２１】
マイクロプロセッサ106 はフラッシュメモリ108 の記憶されたテンプレートボキャブラリ内容を読取るためにフラッシュメモリ108 をアクセスする。マイクロプロセッサ106 はエンドポイントがＶＲデコーダ（図示せず）で必要とされるならば、受信されたデータパケットに基づいて発話の開始および終了点を検出する。マイクロプロセッサ106 はその後、（例えば時間導関数、２次時間導関数等のような）ダイナミック音響特徴を計算し、選択された関連フレームにより音響特性を圧縮し、静止およびダイナミック音響特徴を量子化する。エンドポイント検出、ダイナミック音響特徴導出、パターン圧縮、パターン量子化の種々の既知の方法は例えば前述のLawrence Rabiner & Biing-Hwang Juangの Fundamentals of Speech Recognition （1993年）に記載されている。
【００２２】
マイクロプロセッサ106 は発話をフラッシュメモリ108 の内容と比較する。マイクロプロセッサ106 はそのパケットに最もよく似た記憶されたワードを選択する。種々のパターン認識技術は、Rabiner & Juang 、141 −241 頁に記載されている。マイクロプロセッサ106 はその後、例えばマイクロプロセッサ106 に結合するアンテナ114 を通して基地局（図示せず）との通信によって電話を特定の人に開始する等の記憶されたワードに関連されるコマンドを実行する。
【００２３】
会話が開始するとき、トラフィックチャンネルスピーチパケットはＤＳＰ104 により符号化され、マイクロプロセッサ106 へ伝送され、変調回路（図示せず）により空中を送信するために変調される。パケットはまたマイクロプロセッサ106 の符号化論理装置（図示せず）で変調される前に符号化されてもよい。パケットはその後、アンテナ114 を介して空中に送信される。会話の相手側から受信されたスピーチパケットはアンテナ114 から復調回路（図示せず）へ伝送される。復調されたパケットはマイクロプロセッサ106 中の復号論理装置（図示せず）で復号される。パケットはその後、マイクロプロセッサ106 からＤＳＰ104 へ伝送され、これはパケットをベクトル量子化から復元する。パケットはその後アナログスピーチ信号へ変換するためにＤ／Ａ変換器110 へ与えられる。アナログスピーチ信号は高声器116 へ与えられ、高声器116 は発声者が聞いたワードを再生する。
【００２４】
１実施形態では、ＡＳＩＣ200 はＶＲのフロントエンド処理を実行するためのボコーダ202 を含んでいる。ボコーダ202 はパケットバッファ204 へ結合されている。このパケットバッファ204 はプロセッサ206 へ結合される。プロセッサ206 は非揮発性記憶媒体208 に結合されている。ＡＳＩＣ200 は例えば無線電話ハンドセット中に設けられることができる。ボコーダ202 は米国特許第5,414,796 号明細書に記載されているような可変速度の１３ｋｂｐｓのＣＥＬＰボコーダであるが、８ｋｂｐｓのＣＥＬＰボコーダまたはＣＤＭＡＥＶＲＣボコーダでも同等に良好である。プロセッサ206 はマイクロプロセッサであることが好ましいが、代わりに任意の通常の形態のプロセッサ、制御装置または状態マシンであってもよい。非揮発性記憶媒体208 には便宜上フラッシュメモリで構成されることが好ましいが、その代りの技術では任意の通常の形態の書込み可能な非揮発性メモリが設けられることができる。パケットバッファ204 は通常のバッファ素子である。
【００２５】
デジタル化されたスピーチサンプルｓ（ｎ）はボコーダ202 へ与えられる。ボコーダ202 は米国特許第5,414,796 号明細書に記載されている既知のボコーディング技術によりスピーチサンプルｓ（ｎ）を符号化する。前述の特定の実施形態では、ボコーダ202 はフレーム当り１２８バイトを生成し、各フレームは２０ミリ秒の長さである。各フレームで、１２８バイトがパケットバッファ204 へ与えられる。マイクロプロセッサ206 はフレーム毎にパケットバッファ204 から１２８バイト（１パケット）を読取る。マイクロプロセッサ206 はその後、終了点がＶＲデコーダ（図示せず）で必要とされるならば、受信されたデータパケットに基づいて発話の開始および終了点を検出する。それからマイクロプロセッサ206 は（例えば時間導関数、２次時間導関数等の）ダイナミック音響特徴を計算し、関連するフレームを選択することにより音響特徴を圧縮し、静的および動的音響特徴を量子化する。終了点検出、ダイナミック音響特徴の導出、パターン圧縮、パターン量子化の種々の既知の方法は、例えば前述のLawrence Rabiner & Biing-Hwang Juangの Fundamentals of Speech Recognition （1993年）に記載されている。マイクロプロセッサ206 はその後、フラッシュメモリ208 にアクセスし、メモリ内容をパケットバッファ204 から読取られた各パケットと比較し、Rabiner & Juang 、141 −241 頁に記載されている既知のパターン認識技術にしたがってワードの決定を行う。
【００２６】
説明した特定の実施形態では、ボコーダ202 は全速度で符号化され、フレーム当り３５バイト生成され、１２８バイトの残りはボコーダ診断データに利用可能である。ボコーダ202 が１／２速度で符号化されるならば、フレーム当り１７バイトが生成され、１２８バイトの残りはボコーダ診断データに利用可能である。ボコーダ202 が１／４速度で符号化されるならば、フレーム当り７バイトが生成され、１２８バイトの残りはボコーダ診断データに利用可能である。ボコーダ202 が１／８速度で符号化されるならば、フレーム当り３バイトが生成され、１２８バイトの残りはボコーダ診断データに利用可能である。ボコーダ202 はスピーチ認識中、１／２速度で符号化することが有効である。したがって、１１１バイトがボコーダ診断データに利用可能である。
【００２７】
説明した特別の実施形態では、ボコーダ202 のコード化速度にかかわりなく、５１バイトが診断データに必要とされる。ボコーダ202 が全速度でコード化するならば、４０個の付加的なバイトがボコーダ診断データに必要とされる。コード化速度が１／２速度ならば、１６個の付加的なバイトだけがボコーダ診断データに必要とされる。コード化速度が１／４速度ならば、５個の付加的なバイトだけがボコーダ診断データに必要とされる。コード化速度が１／８速度ならば、ただ１個の付加的なバイトがボコーダ診断データに必要とされる。
【００２８】
ボコーダパケットは量子化されたパラメータ（例えば１／２速度で、１７個のボコーダバイトが量子化される）を有し、ボコーダ診断データのバイトは量子化されないパラメータを含んでいる（例えば１／２速度で、１２８−１７＝１１１バイトまでのボコーダ診断データは量子化されない）。さらに、ボコーダ診断データは全てのボコーダデータを含んでいないが、ボコーダ診断データはＶＲに関する全てのボコーダデータを含む。したがって、ボコーダ診断データはＶＲ目的に使用されてもよい。これは以下説明するように大きな利点を与える。
【００２９】
ボコーダパケットから関連するＶＲパラメータを得ることは、パケットが最初に量子化されないことを必要とする。例えば、ボコーダ202 では線形の予測コード化（ＬＰＣ）係数はラインスペクトル対（ＬＳＰ）周波数に変換される。フレーム当り１０のＬＳＰ周波数はベクトル量子化され、規則的なボコーダパケットにパックされる。マイクロプロセッサ206 では、量子化されていないＬＳＰ周波数はフレームベースで受信されたボコーダパケットをアンパックし、それらを量子化でなくすることにより得られる。量子化されていないＬＳＰ周波数はその後ＬＰＣ係数に変換される。そのＬＰＣ係数はケプストラム係数へ変換され、このＬＰＣ係数はログの大きさのスペクトルのフーリエ変換係数である。ケプストラム係数はデジタル化されたスピーチサンプルｓ（ｎ）のフーリエ変換係数の対数の逆フーリエ変換を取ることにより得られる。ＬＳＰ周波数をＬＰＣ係数とケプストラム係数へ変換する技術およびＬＰＣ係数をＬＳＰ周波数とボコーダパケットへ変換する技術は前述の米国特許第5,414,796 号明細書に詳細に記載されている。
【００３０】
ベクトル量子化でなくするまたは“圧縮解除”するために、前述の方法によるボコーダパケットからのデータは計算にコストがかり、大量の処理能力を必要とする。さらに、大きいＬＳＰベクトル量子化（ＶＱ）コードブックが必要とされ、これをマイクロプロセッサ206 はフラッシュメモリ208 に永久的に保存する。前述の実施形態では、ＶＲのためのボコーダパケットの量子化を解除する代わりにボコーダ診断データがＶＲに使用されるので、必要な計算力およびメモリ容量の問題を避けることができる。
【００３１】
したがって、優秀で改良された分散された音声認識システムを説明した。当業者は、ここで説明した実施形態と関連して説明した種々の示された論理ブロックおよびアルゴリズムステップがデジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、ディスクリートなゲートまたはトランジスタ論理装置、レジスタおよびＦＩＦＯ等のディスクリートなハードウェア部品、１組のファームウェア命令を実行するプロセッサ、または任意の通常のプログラム可能なソフトウェアモジュールおよび、プロセッサによって構成され或いは実行されることができることを認識するであろう。プロセッサはマイクロプロセッサであると有効であるが、別の実施形態では、プロセッサは任意の通常のプロセッサ、制御装置、マイクロ制御装置または状態マシンであってもよい。ソフトウェアモジュールはＲＡＭメモリ、フラッシュメモリ、レジスタまたは技術で知られている任意の他の形態の書込み可能な記憶媒体に設置される。当業者は前述の説明で参照したデータ、命令、コマンド、情報、信号、ビット、符号、チップが電圧、電流、電磁波、磁界または粒子、光フィールドまたは粒子、或いは任意の組合わせにより有効に表されることをさらに認識するであろう。
【００３２】
本発明の好ましい実施形態を示し説明した。しかしながら多くの変形が本発明の技術的範囲を逸脱せずにここで説明した実施形態に対して行われてもよいことは当業者には明白であろう。それ故、本発明は特許請求の範囲を除いては限定されない。
【図面の簡単な説明】
【図１】通常の音声認識システムのブロック図。
【図２】分散された音声認識システムのブロック図。
【図３】フロントエンド処理にボコーダを使用する分散された音声認識システムのブロック図。

Claims

分散された音声認識システムにおいて、
前記システムは、
複数のデジタル化されたスピーチサンプルから入力スピーチ信号の特性をモデル化する複数のパラメータを抽出するように構成されているデジタル信号プロセッサと、
複数のスピーチテンプレートを含んでいる記憶媒体と、
前記記憶媒体および前記デジタル信号プロセッサに結合され、前記デジタル信号プロセッサから前記複数のパラメータを受信し、前記複数のパラメータを前記複数のスピーチテンプレートと比較するように構成されているマイクロプロセッサとを具備し、
前記デジタル信号プロセッサは、ボコーダ診断データとボコーダパケットを生成するように構成されたボコーダを含んでおり、前記ボコーダ診断データは量子化されていないパラメータを含んでおり、さらに、前記ボコーダ診断データは音声認識に関する全てのボコーダデータを含んでおり、
前記マイクロプロセッサはさらに前記ボコーダパケットを受信するように構成されているシステム。
さらに、前記マイクロプロセッサは前記ボコーダパケットを記録し、前記複数のパラメータと前記複数のスピーチテンプレートとの比較に基づいて前記複数のスピーチテンプレートの１つを選択するように構成されている請求項１記載のシステム。
前記デジタル信号プロセッサ、前記記憶媒体、および前記マイクロプロセッサは特定用途集積回路（ＡＳＩＣ）に設けられている請求項１記載のシステム。
前記複数のパラメータは前記ボコーダにより生成された前記診断データの少なくとも１部分を含んでいる請求項１記載のシステム。
前記ボコーダ、前記記憶媒体、および前記マイクロプロセッサは特定用途集積回路（ＡＳＩＣ）に設けられている請求項４記載のシステム。
デジタル信号プロセッサにおいて、複数のデジタル化されたスピーチサンプルから入力スピーチ信号の特性をモデル化する複数のパラメータを抽出し、
記憶媒体において、複数のスピーチテンプレートを記憶し、
マイクロプロセッサにおいて、前記デジタル信号プロセッサから前記複数のパラメータを受信し、前記複数のパラメータを前記複数のスピーチテンプレートと比較するステップを含んでおり、
前記デジタル信号プロセッサは、ボコーダ診断データとボコーダパケットを生成するように構成されたボコーダを含んでおり、前記ボコーダ診断データは量子化されていないパラメータを含んでおり、さらに、前記ボコーダ診断データは音声認識に関する全てのボコーダデータを含んでおり、
前記マイクロプロセッサはさらに前記ボコーダパケットを受信するように構成されている音声認識処理を分散する方法。
前記マイクロプロセッサ中に前記ボコーダパケットを記録し、前記マイクロプロセッサにおいて、前記比較ステップの結果に基づいて前記スピーチテンプレートの１つを選択するステップをさらに含んでいる請求項６記載の方法。
前記複数のパラメータは前記ボコーダによって生成された前記診断データの少なくとも１部分を含んでいる請求項６記載の方法。
分散された音声認識システムにおいて、
前記システムは、
複数のデジタル化されたスピーチサンプルから入力スピーチ信号の特性をモデル化する複数のパラメータを抽出する手段と、
複数のスピーチテンプレートを記憶する手段と、
前記複数のパラメータを前記抽出する手段から受信し、前記複数のパラメータを前記複数のスピーチテンプレートと比較する手段とを具備し、
前記抽出する手段は、ボコーダ診断データとボコーダパケットを生成する手段を含んでおり、前記ボコーダ診断データは量子化されていないパラメータを含んでおり、さらに、前記ボコーダ診断データは音声認識に関する全てのボコーダデータを含んでおり、
前記受信し比較する手段はさらに前記ボコーダパケットを受信するように構成されている分散された音声認識システム。
前記受信および比較を行う手段は、前記ボコーダパケットを記録し、前記複数のパラメータと前記複数のスピーチテンプレートとの比較に基づいて、前記複数のスピーチテンプレートから１つを選択する手段を含んでいる請求項９記載のシステム。
前記抽出する手段と、前記記憶する手段と、前記受信および比較を行う手段は特定用途集積回路（ＡＳＩＣ）に設けられている請求項９記載のシステム。
前記複数のパラメータは、前記ボコーダパケットと診断データを生成する手段によって生成された前記診断データの少なくとも１部分を含んでいる請求項９記載のシステム。
前記記憶する手段はフラッシュメモリを具備している請求項９記載のシステム。
前記ボコーダと、前記記憶する手段と、前記受信および比較を行う手段とは特定用途集積回路（ＡＳＩＣ）に設けられている請求項９記載のシステム。