JP4607334B2 - 分散された音声認識システム - Google Patents

分散された音声認識システム Download PDF

Info

Publication number
JP4607334B2
JP4607334B2 JP2000597795A JP2000597795A JP4607334B2 JP 4607334 B2 JP4607334 B2 JP 4607334B2 JP 2000597795 A JP2000597795 A JP 2000597795A JP 2000597795 A JP2000597795 A JP 2000597795A JP 4607334 B2 JP4607334 B2 JP 4607334B2
Authority
JP
Japan
Prior art keywords
vocoder
parameters
speech
microprocessor
diagnostic data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2000597795A
Other languages
English (en)
Other versions
JP2002536692A5 (ja
JP2002536692A (ja
Inventor
チャン、チエンチュン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2002536692A publication Critical patent/JP2002536692A/ja
Publication of JP2002536692A5 publication Critical patent/JP2002536692A5/ja
Application granted granted Critical
Publication of JP4607334B2 publication Critical patent/JP4607334B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Computer And Data Communications (AREA)
  • Radar Systems Or Details Thereof (AREA)
  • Devices For Executing Special Programs (AREA)
  • Machine Translation (AREA)
  • Use Of Switch Circuits For Exchanges And Methods Of Control Of Multiplex Exchanges (AREA)
  • Image Processing (AREA)
  • Complex Calculations (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は通信分野、特に音声認識システムに関する。
【0002】
【従来の技術】
音声認識(VR)はユーザまたはユーザの音声コマンドを認識し、人間の機械とのインターフェイスを容易にするために機械にシミュレートされた知能を与える最も重要な技術の1つを表している。VRはまた人間の音声を理解するための主要な技術を表している。音響スピーチ信号からの言語メッセージを再生する技術を用いるシステムは音声認識装置を呼ばれる。音声認識装置は典型的に、入来する生(未加工)のスピーチのVRを行うのに必要な情報を有する特徴のシーケンスまたはベクトルを抽出する音響プロセッサと、入力発話に対応する言語ワードのシーケンスのような意味をなす所望の出力フォーマットを生成するために特徴のシーケンスまたはベクトルを復号するワードデコーダとを具備している。所定のシステムの性能を増加するため、システムに有効なパラメータを装備するためにトレーニングが必要とされる。換言すると、システムは最適に機能できる前に学習を必要とする。
【0003】
音響プロセッサは音声認識装置のフロントエンドスピーチ解析サブシステムを表している。入力スピーチ信号に応答して、音響プロセッサは時間的に変化するスピーチ信号を特徴付けるための適切な表示を与える。音響プロセッサは背景雑音、チャンネル歪み、スピーカ特性、話し方等の関連のない情報を破棄すべきである。実効的な音響処理は強化された音響弁別パワーを有する音声認識装置を備えている。結局、解析される有効な特性は短時間のスペクトルエンベロープである。短時間のスペクトルエンベロープを特徴付けるための2つの普通に使用されるスペクトル解析技術は線形予測符号化(LPC)とフィルタバンクベースのスペクトルモデル化である。例示的なLPC技術は本発明の参考文献とされている米国特許第5,414,796 号明細書と、本発明の参考文献とされているL.B. Rabiner & R.W. Schafer のDigital Processing of Speech Signals、396 −453 頁(1978年)に記載されている。
【0004】
(通常音声認識とも呼ばれている)VRの使用は安全性の理由で重要性が増している。例えば、VRは無線電話のキーパッドのボタンを押す手作業の置換のために使用されることができる。これは特にユーザが車を運転しながら呼を開始しているときに重要である。VRなしで電話を使用するとき、運転者は一方の手を操縦ハンドルから外し、ダイヤリングによって通話するためにボタンを押しながら電話のキーパッドを見なければならない。これらの行動は自動車事故の可能性を増加する。スピーチエネーブル電話(即ちスピーチ認識用に設計されている電話)は運転者が連続的に道路を見ながら通話を行うことを可能にする。手を使用しない自動車キットシステムはさらに運転者が呼を開始しながら操縦ハンドルに両手を維持することを可能にする。
【0005】
スピーチ認識装置はスピーカ依存装置とスピーカ独立装置とに分類される。スピーカ独立装置は音声コマンドを任意のユーザから受けることができる。さらにより一般的であるスピーカ依存装置は特定のユーザからのコマンドを認識するようにトレーニングされている。スピーカ依存のVR装置は典型的に2つのフェーズ、即ちトレーニングフェーズと認識フェーズで動作する。トレーニングフェーズでは、VRシステムはユーザにシステムの語彙の各ワードを1度または2度発話させ、それによってシステムはこれらの特定のワードまたはフレーズに対するユーザのスピーチ特性を学習できる。代わりに、音声的なVR装置では、トレーニングは言語の全ての音素を網羅するように特別にスクリプトされた1以上の簡単なアーティクルを読取ることにより実現される。手を使用しない自動車キット用の例示的な語彙はキーパッド上の数字と、キーワード“呼”、“送信”、“ダイヤル”、“取消し”、“クリア”、“付加”、“消去”、“経歴”、“プログラム”、“イエス”、“ノー”と、予め限定された数の共通して呼ばれる共働者、友人または家族のメンバの名称を含んでいる。トレーニングが一度完了すると、ユーザはトレーニングされたキーワードを発話することにより、認識フェーズで呼を開始できる。例えば名称“John”がトレーニングされた名称のうちの1つであるならば、ユーザはフレーズ“Call John ”と言うことによりジョンへの呼を開始する。VRシステムはワード“Call”と“John”を認識し、ジョンの電話番号のようなユーザが予め入力した番号をダイヤルする。
【0006】
【発明が解決しようとする課題】
通常のRV装置は典型的に、入来するスピーチサンプルを解析するためデジタル信号プロセッサ(DSP)またはマイクロプロセッサを使用し、関連するパラメータを抽出し、パラメータを復号し、復号されたパラメータを記憶された1組のワードまたはVRテンプレートと比較し、VRテンプレートはVR装置のボキャブラリを構成している。ボキャブラリは例えばフラッシュメモリのような非揮発性メモリに記憶されている。例えばデジタルセルラ電話のようなDSPとマイクロプロセッサの両者を有する通常のVRシステムでは、非揮発性メモリは通常DSPではなくマイクロプロセッサによってアクセス可能である。このようなシステムでは、VRがマイクロプロセッサで全体的に実行されるならば、そのマイクロプロセッサは通常、合理的な待ち時間で認識結果を転送するための計算パワーが不足している。他方で、VRはDSPで全体的に実行されるならば、マイクロプロセッサはDSPが大きいVRテンプレートを保持するのに十分ではない比較的小さいサイズのオンチップメモリを有するとき、フラッシュメモリを読取り、読取り内容をDSPへ送ることを必要とする。DSPとマイクロプロセッサの間のインターフェイスの典型的に低い帯域幅が所定の量の時間に2つの装置間で転送されることができるデータ量を限定するので、これは長い時間の必要なプロセスである。したがって、DSPの計算パワーをマイクロプロセッサのメモリ容量に実効的に結合するVR装置が必要とされている。
【0007】
【課題を解決するための手段】
本発明は、DSPの計算パワーとマイクロプロセッサのメモリ容量とを実効的に結合するVR装置に関する。したがって、本発明の1特徴では、分散された音声認識システムはデジタル化されたスピーチサンプルを受信し、そこから複数のパラメータを抽出するように構成されているデジタル信号プロセッサと、複数のスピーチテンプレートを含んでいる記憶媒体と、記憶媒体およびデジタル信号プロセッサに結合されているプロセッサとを具備しており、このプロセッサはデジタル信号プロセッサから複数のパラメータを受信し、複数のパラメータを複数のスピーチテンプレートと比較するように構成されている。
【0008】
本発明の別の特徴では、音声認識処理を分散する方法は、デジタル信号プロセッサにおいて、複数のデジタル化されたスピーチサンプルから複数のパラメータを抽出し、複数のパラメータをマイクロプロセッサへ与え、マイクロプロセッサにおいて複数のパラメータを複数のスピーチテンプレートと比較するステップを有効に含んでいる。
【0009】
本発明の別の特徴では、分散された音声認識システムは、複数のデジタル化されたスピーチサンプルから複数のパラメータを抽出する手段と、複数のスピーチテンプレートを永久的に記憶する手段と、複数のパラメータを抽出してそれを複数のスピーチテンプレートと比較する手段から複数のパラメータを受信する手段とを含んでいることが有効である。
【0010】
【発明の実施の形態】
図1で示されているように、通常の音声認識システム10は、アナログデジタル変換器(A/D)12と、音響プロセッサ14と、VRテンプレートデータベース16と、パターン比較論理装置18と、決定論理装置20を含んでいる。VRシステム10は例えば無線電話或いはハンドフリー自動車キットに設けられてもよい。
【0011】
VRシステム10がスピーチ認識フェーズにあるとき、人(図示せず)はワードまたはフレーズを発話し、スピーチ信号を発生する。スピーチ信号は通常のトランスデューサ(図示せず)により電気スピーチ信号s(t)に変換される。スピーチ信号s(t)はA/D12へ与えられ、これは例えばパルス符号変調(PCM)のような既知のサンプリング方法にしたがって、スピーチ信号s(t)をデジタル化されたスピーチサンプルs(n)へ変換する。
【0012】
スピーチサンプルs(n)はパラメータ決定のために音響プロセッサ14へ与えられる。音響プロセッサ14は入力スピーチ信号s(t)特性をモデル化する1組のパラメータを生成する。パラメータは、前述の米国特許第5,414,796 号明細書に記載されているように、例えばスピーチコーダの符号化を含んだ任意の複数の既知のスピーチパラメータ決定技術にしたがって高速度フーリエ変換(FFT)ベースのケプストラム係数を使用して決定されてもよい。音響プロセッサ14はデジタル信号プロセッサ(DSP)として構成されてもよい。DSPはスピーチコーダを含んでもよい。代わりに、音響プロセッサ14はスピーチコーダとして構成されてもよい。
【0013】
パラメータ決定もVRシステム10のトレーニング中に実行され、ここでVRシステム10の全てのボキャブラリワードの1組のテンプレートは永久的に記憶するためVRテンプレートデータベース16へ伝送される。VRテンプレートデータベース16は例えばフラッシュメモリ等の任意の通常の非揮発性記憶媒体の形態として有効に構成される。これによって、VRシステム10へのパワーがオフに切換えられたとき、テンプレートがVRテンプレートデータベース16に保持されることが可能である。
【0014】
1組のパラメータはパターン比較論理装置18へ与えられる。パターン比較論理装置18は発話のスタートおよびエンドポイントを有効に検出し、(例えば時間導関数、2次時間導関数等の)ダイナミックな音響特性を計算し、関連するフレームを選択することにより音響特性を圧縮し、静的およびダイナミック特性を量子化する。エンドポイント検出、ダイナミック音響特性の微分、パターン圧縮、パターン量子化の種々の既知の方法は、例えば文献(Lawrence Rabiner & Biing-Hwang Juang、Fundamentals of Speech Recognition(1993年))に記載されている。パターン比較論理装置18は結果的な1組のパラメータをVRテンプレートデータベース16に記憶されている全てのテンプレートと比較する。パラメータのセットとVRテンプレートデータベース16に記憶されている全てのテンプレートとの比較結果または離たりは決定論理装置20に与えられる。決定論理装置20はVRテンプレートデータベース16から、パラメータセットに最も近く一致するテンプレートを選択する。その代りとして、決定論理装置20は通常の“Nベスト”選択アルゴリズムを使用してもよく、これは予め定められた一致しきい値内のN個の最も近い一致を選択する。その後、意図した選択について人に質問する。決定論理装置20の出力は発話されたボキャブラリのワードについての決定である。
【0015】
パターン比較論理装置18と決定論理装置20はマイクロプロセッサとして有効に構成されることが有効である。VRシステム10は例えば特定用途向け集積回路(ASIC)であってもよい。VRシステム10の認識の正確性はVRシステム10がボキャブラリ中の発話したワードまたはフレーズをいかに正確に認識するかの尺度である。例えば95%の認識の正確性はVRシステム10がボキャブラリ中のワードを100回中95回を正確に認識することを示している。
【0016】
図2で示されている1実施形態では、分散されたVRシステムはASIC100 中に設けられている。ASIC100 は例えば無線電話装置中に設けられる。ASIC100 はA/D変換器102 、DSP104 、プロセッサ106 、非揮発性記憶媒体108 、デジタルアナログ変換器(D/A)110 を含んでいる。プロセッサ106 はマイクロプロセッサであることが好ましいが、任意の一般的なプロセッサ、制御装置または状態マシンであってもよい。非揮発性媒体108 はフラッシュメモリ108 であることが有効であるが、その代りとして、非揮発性記憶媒体108 は任意の通常の形態の非揮発性の書込み可能なメモリであってもよい。DSP104 はスピーチコーダ(図示せず)とスピーチデコーダ(図示せず)を含んでいる。DSP104 は例えば、ボコード、VRフロントエンド処理(即ちスピーチ解析)、背景雑音抑制、音響エコー消去を含む幾つかの機能を行うことができる。代りとしてDSP104 は毎秒8キロビット(kbps)コード励起線形予測(CELP)コーダ、(前述の米国特許第5,414,796 号明細書に記載の)13kbpsのCELPコーダ、またはコード分割多元接続(CDMA)強化された可変速度コーディング(EVRC)コーダのような通常のボコーダであってもよい。
【0017】
マイクロホン112 はA/D変換器102 への入力としてASIC100 に結合されている。発声者(図示せず)はマイクロホン112 へ発話し、マイクロホン112 はアナログ音声信号s(t)をA/D変換器102 へ供給する。A/D変換器102 は例えばPCMのような既知の方法にしたがって、アナログスピーチ信号s(t)をデジタルサンプルs(n)へ変換する。A/D102 変換器はDSP104 へ結合されている。デジタル化されたスピーチサンプルs(n)はフロントエンド処理するためにDSP104 へ提供される。
【0018】
DSP104 では、フーリエ変換がデジタル化されたスピーチサンプルs(n)について実行され、時間ドメインサンプルs(n)を周波数ドメイン値へ変換する。周波数ドメインは、複数のバンドパスフィルタ(図示せず)を信号が通過することによって幾つかの隣接周波数帯域に区分される。バンドパスフィルタは有限インパルス応答(FIR)フィルタが有効である。フィルタタップはそれぞれ連続的なフィルタにより広い周波数帯域幅を通過するように設定されており、連続的なフィルタ間の幅の変化は対数的に増加する。全てのフィルタにより通過された周波数範囲は全体で人間の音声範囲を含んでいる。低い端部では、通過した帯域幅は比較的狭く、高い端部では、通過した帯域幅は比較的広い。これによって人間の耳は低い周波数で良好に弁別するので、人間の耳はより正確に音を知覚する。対数周波数スケールはバーク(Bark)スケールであってもよく、またはその代りにスケールはメル(Mel )スケールであってもよい。このようなスケールはよく知られており、例えば前述のLawrence Rabiner & Biing-Hwang Juangの Fundamentals of Speech Recognition 78−79頁(1993年)に記載されている。
【0019】
1実施形態では、13の帯域通過フィルタが使用される。以下の式はフィルタのバンクを説明している。
1 =C
2≦i≦13では、bi =bi-1
【数1】
Figure 0004607334
ここでCとf1 はそれぞれ任意のセットの帯域幅と、第1のフィルタの中心周波数であり、αは対数成長係数である。
【0020】
各フレームでは、DSP104 は例えば前述の米国特許第5,414,796 号明細書(Rabiner & Schafer と、Rabiner & Juang 、69−140 )に記載されている通常の特徴抽出方法にしたがって帯域パワー値のベクトルを抽出する。1実施形態では、13の帯域パワー値のベクトルはフレーム毎に抽出され、フレームは20ミリ秒の長さであり、50%だけ重複している。帯域パワー値はパケット化され、マイクロプロセッサ106 へパケットとして与えられる。
【0021】
マイクロプロセッサ106 はフラッシュメモリ108 の記憶されたテンプレートボキャブラリ内容を読取るためにフラッシュメモリ108 をアクセスする。マイクロプロセッサ106 はエンドポイントがVRデコーダ(図示せず)で必要とされるならば、受信されたデータパケットに基づいて発話の開始および終了点を検出する。マイクロプロセッサ106 はその後、(例えば時間導関数、2次時間導関数等のような)ダイナミック音響特徴を計算し、選択された関連フレームにより音響特性を圧縮し、静止およびダイナミック音響特徴を量子化する。エンドポイント検出、ダイナミック音響特徴導出、パターン圧縮、パターン量子化の種々の既知の方法は例えば前述のLawrence Rabiner & Biing-Hwang Juangの Fundamentals of Speech Recognition (1993年)に記載されている。
【0022】
マイクロプロセッサ106 は発話をフラッシュメモリ108 の内容と比較する。マイクロプロセッサ106 はそのパケットに最もよく似た記憶されたワードを選択する。種々のパターン認識技術は、Rabiner & Juang 、141 −241 頁に記載されている。マイクロプロセッサ106 はその後、例えばマイクロプロセッサ106 に結合するアンテナ114 を通して基地局(図示せず)との通信によって電話を特定の人に開始する等の記憶されたワードに関連されるコマンドを実行する。
【0023】
会話が開始するとき、トラフィックチャンネルスピーチパケットはDSP104 により符号化され、マイクロプロセッサ106 へ伝送され、変調回路(図示せず)により空中を送信するために変調される。パケットはまたマイクロプロセッサ106 の符号化論理装置(図示せず)で変調される前に符号化されてもよい。パケットはその後、アンテナ114 を介して空中に送信される。会話の相手側から受信されたスピーチパケットはアンテナ114 から復調回路(図示せず)へ伝送される。復調されたパケットはマイクロプロセッサ106 中の復号論理装置(図示せず)で復号される。パケットはその後、マイクロプロセッサ106 からDSP104 へ伝送され、これはパケットをベクトル量子化から復元する。パケットはその後アナログスピーチ信号へ変換するためにD/A変換器110 へ与えられる。アナログスピーチ信号は高声器116 へ与えられ、高声器116 は発声者が聞いたワードを再生する。
【0024】
1実施形態では、ASIC200 はVRのフロントエンド処理を実行するためのボコーダ202 を含んでいる。ボコーダ202 はパケットバッファ204 へ結合されている。このパケットバッファ204 はプロセッサ206 へ結合される。プロセッサ206 は非揮発性記憶媒体208 に結合されている。ASIC200 は例えば無線電話ハンドセット中に設けられることができる。ボコーダ202 は米国特許第5,414,796 号明細書に記載されているような可変速度の13kbpsのCELPボコーダであるが、8kbpsのCELPボコーダまたはCDMA EVRCボコーダでも同等に良好である。プロセッサ206 はマイクロプロセッサであることが好ましいが、代わりに任意の通常の形態のプロセッサ、制御装置または状態マシンであってもよい。非揮発性記憶媒体208 には便宜上フラッシュメモリで構成されることが好ましいが、その代りの技術では任意の通常の形態の書込み可能な非揮発性メモリが設けられることができる。パケットバッファ204 は通常のバッファ素子である。
【0025】
デジタル化されたスピーチサンプルs(n)はボコーダ202 へ与えられる。ボコーダ202 は米国特許第5,414,796 号明細書に記載されている既知のボコーディング技術によりスピーチサンプルs(n)を符号化する。前述の特定の実施形態では、ボコーダ202 はフレーム当り128バイトを生成し、各フレームは20ミリ秒の長さである。各フレームで、128バイトがパケットバッファ204 へ与えられる。マイクロプロセッサ206 はフレーム毎にパケットバッファ204 から128バイト(1パケット)を読取る。マイクロプロセッサ206 はその後、終了点がVRデコーダ(図示せず)で必要とされるならば、受信されたデータパケットに基づいて発話の開始および終了点を検出する。それからマイクロプロセッサ206 は(例えば時間導関数、2次時間導関数等の)ダイナミック音響特徴を計算し、関連するフレームを選択することにより音響特徴を圧縮し、静的および動的音響特徴を量子化する。終了点検出、ダイナミック音響特徴の導出、パターン圧縮、パターン量子化の種々の既知の方法は、例えば前述のLawrence Rabiner & Biing-Hwang Juangの Fundamentals of Speech Recognition (1993年)に記載されている。マイクロプロセッサ206 はその後、フラッシュメモリ208 にアクセスし、メモリ内容をパケットバッファ204 から読取られた各パケットと比較し、Rabiner & Juang 、141 −241 頁に記載されている既知のパターン認識技術にしたがってワードの決定を行う。
【0026】
説明した特定の実施形態では、ボコーダ202 は全速度で符号化され、フレーム当り35バイト生成され、128バイトの残りはボコーダ診断データに利用可能である。ボコーダ202 が1/2速度で符号化されるならば、フレーム当り17バイトが生成され、128バイトの残りはボコーダ診断データに利用可能である。ボコーダ202 が1/4速度で符号化されるならば、フレーム当り7バイトが生成され、128バイトの残りはボコーダ診断データに利用可能である。ボコーダ202 が1/8速度で符号化されるならば、フレーム当り3バイトが生成され、128バイトの残りはボコーダ診断データに利用可能である。ボコーダ202 はスピーチ認識中、1/2速度で符号化することが有効である。したがって、111バイトがボコーダ診断データに利用可能である。
【0027】
説明した特別の実施形態では、ボコーダ202 のコード化速度にかかわりなく、51バイトが診断データに必要とされる。ボコーダ202 が全速度でコード化するならば、40個の付加的なバイトがボコーダ診断データに必要とされる。コード化速度が1/2速度ならば、16個の付加的なバイトだけがボコーダ診断データに必要とされる。コード化速度が1/4速度ならば、5個の付加的なバイトだけがボコーダ診断データに必要とされる。コード化速度が1/8速度ならば、ただ1個の付加的なバイトがボコーダ診断データに必要とされる。
【0028】
ボコーダパケットは量子化されたパラメータ(例えば1/2速度で、17個のボコーダバイトが量子化される)を有し、ボコーダ診断データのバイトは量子化されないパラメータを含んでいる(例えば1/2速度で、128−17=111バイトまでのボコーダ診断データは量子化されない)。さらに、ボコーダ診断データは全てのボコーダデータを含んでいないが、ボコーダ診断データはVRに関する全てのボコーダデータを含む。したがって、ボコーダ診断データはVR目的に使用されてもよい。これは以下説明するように大きな利点を与える。
【0029】
ボコーダパケットから関連するVRパラメータを得ることは、パケットが最初に量子化されないことを必要とする。例えば、ボコーダ202 では線形の予測コード化(LPC)係数はラインスペクトル対(LSP)周波数に変換される。フレーム当り10のLSP周波数はベクトル量子化され、規則的なボコーダパケットにパックされる。マイクロプロセッサ206 では、量子化されていないLSP周波数はフレームベースで受信されたボコーダパケットをアンパックし、それらを量子化でなくすることにより得られる。量子化されていないLSP周波数はその後LPC係数に変換される。そのLPC係数はケプストラム係数へ変換され、このLPC係数はログの大きさのスペクトルのフーリエ変換係数である。ケプストラム係数はデジタル化されたスピーチサンプルs(n)のフーリエ変換係数の対数の逆フーリエ変換を取ることにより得られる。LSP周波数をLPC係数とケプストラム係数へ変換する技術およびLPC係数をLSP周波数とボコーダパケットへ変換する技術は前述の米国特許第5,414,796 号明細書に詳細に記載されている。
【0030】
ベクトル量子化でなくするまたは“圧縮解除”するために、前述の方法によるボコーダパケットからのデータは計算にコストがかり、大量の処理能力を必要とする。さらに、大きいLSPベクトル量子化(VQ)コードブックが必要とされ、これをマイクロプロセッサ206 はフラッシュメモリ208 に永久的に保存する。前述の実施形態では、VRのためのボコーダパケットの量子化を解除する代わりにボコーダ診断データがVRに使用されるので、必要な計算力およびメモリ容量の問題を避けることができる。
【0031】
したがって、優秀で改良された分散された音声認識システムを説明した。当業者は、ここで説明した実施形態と関連して説明した種々の示された論理ブロックおよびアルゴリズムステップがデジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、ディスクリートなゲートまたはトランジスタ論理装置、レジスタおよびFIFO等のディスクリートなハードウェア部品、1組のファームウェア命令を実行するプロセッサ、または任意の通常のプログラム可能なソフトウェアモジュールおよび、プロセッサによって構成され或いは実行されることができることを認識するであろう。プロセッサはマイクロプロセッサであると有効であるが、別の実施形態では、プロセッサは任意の通常のプロセッサ、制御装置、マイクロ制御装置または状態マシンであってもよい。ソフトウェアモジュールはRAMメモリ、フラッシュメモリ、レジスタまたは技術で知られている任意の他の形態の書込み可能な記憶媒体に設置される。当業者は前述の説明で参照したデータ、命令、コマンド、情報、信号、ビット、符号、チップが電圧、電流、電磁波、磁界または粒子、光フィールドまたは粒子、或いは任意の組合わせにより有効に表されることをさらに認識するであろう。
【0032】
本発明の好ましい実施形態を示し説明した。しかしながら多くの変形が本発明の技術的範囲を逸脱せずにここで説明した実施形態に対して行われてもよいことは当業者には明白であろう。それ故、本発明は特許請求の範囲を除いては限定されない。
【図面の簡単な説明】
【図1】 通常の音声認識システムのブロック図。
【図2】 分散された音声認識システムのブロック図。
【図3】 フロントエンド処理にボコーダを使用する分散された音声認識システムのブロック図。

Claims (14)

  1. 分散された音声認識システムにおいて、
    前記システムは、
    複数のデジタル化されたスピーチサンプルか入力スピーチ信号の特性をモデル化する複数のパラメータを抽出するように構成されているデジタル信号プロセッサと、
    複数のスピーチテンプレートを含んでいる記憶媒体と、
    前記記憶媒体および前記デジタル信号プロセッサに結合され、前記デジタル信号プロセッサから前記複数のパラメータを受信し、前記複数のパラメータを前記複数のスピーチテンプレートと比較するように構成されているマイクロプロセッサとを具備し
    前記デジタル信号プロセッサは、ボコーダ診断データとボコーダパケットを生成するように構成されたボコーダを含んでおり、前記ボコーダ診断データは量子化されていないパラメータを含んでおり、さらに、前記ボコーダ診断データは音声認識に関する全てのボコーダデータを含んでおり、
    前記マイクロプロセッサはさらに前記ボコーダパケットを受信するように構成されているシステム。
  2. さらに、前記マイクロプロセッサは前記ボコーダパケットを記録し、前記複数のパラメータと前記複数のスピーチテンプレートとの比較に基づいて前記複数のスピーチテンプレートの1つを選択するように構成されている請求項1記載のシステム。
  3. 前記デジタル信号プロセッサ、前記記憶媒体、および前記マイクロプロセッサは特定用途集積回路(ASIC)に設けられている請求項1記載のシステム。
  4. 前記複数のパラメータは前記ボコーダにより生成された前記診断データの少なくとも1部分を含んでいる請求項1記載のシステム。
  5. 前記ボコーダ、前記記憶媒体、および前記マイクロプロセッサは特定用途集積回路(ASIC)に設けられている請求項4記載のシステム。
  6. デジタル信号プロセッサにおいて、複数のデジタル化されたスピーチサンプルから入力スピーチ信号の特性をモデル化する複数のパラメータを抽出し、
    記憶媒体において、複数のスピーチテンプレートを記憶し、
    マイクロプロセッサにおいて、前記デジタル信号プロセッサから前記複数のパラメータを受信し、前記複数のパラメータを前記複数のスピーチテンプレートと比較するステップを含んでおり、
    前記デジタル信号プロセッサは、ボコーダ診断データとボコーダパケットを生成するように構成されたボコーダを含んでおり、前記ボコーダ診断データは量子化されていないパラメータを含んでおり、さらに、前記ボコーダ診断データは音声認識に関する全てのボコーダデータを含んでおり、
    前記マイクロプロセッサはさらに前記ボコーダパケットを受信するように構成されている音声認識処理を分散する方法。
  7. 前記マイクロプロセッサ中に前記ボコーダパケットを記録し、前記マイクロプロセッサにおいて、前記比較ステップの結果に基づいて前記スピーチテンプレートの1つを選択するステップをさらに含んでいる請求項6記載の方法。
  8. 前記複数のパラメータは前記ボコーダによって生成された前記診断データの少なくとも1部分を含んでいる請求項6記載の方法。
  9. 分散された音声認識システムにおいて、
    前記システムは、
    複数のデジタル化されたスピーチサンプルから入力スピーチ信号の特性をモデル化する複数のパラメータを抽出する手段と、
    複数のスピーチテンプレートを記憶する手段と、
    前記複数のパラメータを前記抽出する手段から受信し、前記複数のパラメータを前記複数のスピーチテンプレートと比較する手段とを具備し
    前記抽出する手段は、ボコーダ診断データとボコーダパケットを生成する手段を含んでおり、前記ボコーダ診断データは量子化されていないパラメータを含んでおり、さらに、前記ボコーダ診断データは音声認識に関する全てのボコーダデータを含んでおり、
    前記受信し比較する手段はさらに前記ボコーダパケットを受信するように構成されている分散された音声認識システム。
  10. 前記受信および比較を行う手段は、前記ボコーダパケットを記録し、前記複数のパラメータと前記複数のスピーチテンプレートとの比較に基づいて、前記複数のスピーチテンプレートから1つを選択する手段を含んでいる請求項9記載のシステム。
  11. 前記抽出する手段と、前記記憶する手段と、前記受信および比較を行う手段は特定用途集積回路(ASIC)に設けられている請求項9記載のシステム。
  12. 前記複数のパラメータは、前記ボコーダパケット診断データを生成する手段によって生成された前記診断データの少なくとも1部分を含んでいる請求項9記載のシステム。
  13. 前記記憶する手段はフラッシュメモリを具備している請求項9記載のシステム。
  14. 前記ボコーダと、前記記憶する手段と、前記受信および比較を行う手段とは特定用途集積回路(ASIC)に設けられている請求項9記載のシステム。
JP2000597795A 1999-02-08 2000-02-04 分散された音声認識システム Expired - Lifetime JP4607334B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/246,413 1999-02-08
US09/246,413 US6411926B1 (en) 1999-02-08 1999-02-08 Distributed voice recognition system
PCT/US2000/002904 WO2000046794A1 (en) 1999-02-08 2000-02-04 Distributed voice recognition system

Publications (3)

Publication Number Publication Date
JP2002536692A JP2002536692A (ja) 2002-10-29
JP2002536692A5 JP2002536692A5 (ja) 2007-03-29
JP4607334B2 true JP4607334B2 (ja) 2011-01-05

Family

ID=22930576

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000597795A Expired - Lifetime JP4607334B2 (ja) 1999-02-08 2000-02-04 分散された音声認識システム

Country Status (10)

Country Link
US (1) US6411926B1 (ja)
EP (1) EP1159736B1 (ja)
JP (1) JP4607334B2 (ja)
KR (1) KR100629669B1 (ja)
CN (1) CN1168070C (ja)
AT (1) ATE426888T1 (ja)
AU (1) AU3589400A (ja)
DE (1) DE60041869D1 (ja)
HK (1) HK1044403B (ja)
WO (1) WO2000046794A1 (ja)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6633846B1 (en) 1999-11-12 2003-10-14 Phoenix Solutions, Inc. Distributed realtime speech recognition system
US6665640B1 (en) 1999-11-12 2003-12-16 Phoenix Solutions, Inc. Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7050977B1 (en) 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US7392185B2 (en) 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US6615172B1 (en) 1999-11-12 2003-09-02 Phoenix Solutions, Inc. Intelligent query engine for processing voice based queries
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
KR100366057B1 (ko) * 2000-06-26 2002-12-27 한국과학기술원 인간 청각 모델을 이용한 효율적인 음성인식 장치
US6832194B1 (en) * 2000-10-26 2004-12-14 Sensory, Incorporated Audio recognition peripheral system
US20030004720A1 (en) * 2001-01-30 2003-01-02 Harinath Garudadri System and method for computing and transmitting parameters in a distributed voice recognition system
ATE310302T1 (de) * 2001-09-28 2005-12-15 Cit Alcatel Kommunikationsvorrichtung und verfahren zum senden und empfangen von sprachsignalen unter kombination eines spracherkennungsmodules mit einer kodiereinheit
US6718013B2 (en) * 2001-10-01 2004-04-06 Voicecards, Inc. Audio recording system and method of use
AU2002326879A1 (en) 2002-06-05 2003-12-22 Vas International, Inc. Biometric identification system
KR20040023345A (ko) * 2002-09-11 2004-03-18 현대모비스 주식회사 텔레매틱스의 음성인식 장치
JP4304952B2 (ja) * 2002-10-07 2009-07-29 三菱電機株式会社 車載制御装置、並びにその操作説明方法をコンピュータに実行させるプログラム
US7922583B2 (en) * 2003-08-05 2011-04-12 Igt Digital signal processor based generation and control of electronic signals in a gaming machine
CN1898721B (zh) * 2003-12-26 2011-12-07 株式会社建伍 设备控制装置以及设备控制方法
KR100640893B1 (ko) * 2004-09-07 2006-11-02 엘지전자 주식회사 음성 인식용 베이스밴드 모뎀 및 이동통신용 단말기
CN1326112C (zh) * 2005-03-28 2007-07-11 华南理工大学 一种语音识别装置及其集成电路实现方法
US7599861B2 (en) 2006-03-02 2009-10-06 Convergys Customer Management Group, Inc. System and method for closed loop decisionmaking in an automated care system
US7809663B1 (en) 2006-05-22 2010-10-05 Convergys Cmg Utah, Inc. System and method for supporting the utilization of machine language
US8379830B1 (en) 2006-05-22 2013-02-19 Convergys Customer Management Delaware Llc System and method for automated customer service with contingent live interaction
KR100794140B1 (ko) * 2006-06-30 2008-01-10 주식회사 케이티 분산 음성 인식 단말기에서 음성 부호화기의 전처리를공유해 잡음에 견고한 음성 특징 벡터를 추출하는 장치 및그 방법
KR100897554B1 (ko) * 2007-02-21 2009-05-15 삼성전자주식회사 분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기
US8260619B1 (en) 2008-08-22 2012-09-04 Convergys Cmg Utah, Inc. Method and system for creating natural language understanding grammars
WO2009047858A1 (ja) * 2007-10-12 2009-04-16 Fujitsu Limited エコー抑圧システム、エコー抑圧方法、エコー抑圧プログラム、エコー抑圧装置、音出力装置、オーディオシステム、ナビゲーションシステム及び移動体
US9117449B2 (en) 2012-04-26 2015-08-25 Nuance Communications, Inc. Embedded system for construction of small footprint speech recognition with user-definable constraints
KR20130133629A (ko) 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
US9112984B2 (en) 2013-03-12 2015-08-18 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US9361885B2 (en) 2013-03-12 2016-06-07 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US11393461B2 (en) 2013-03-12 2022-07-19 Cerence Operating Company Methods and apparatus for detecting a voice command
JP6175392B2 (ja) 2013-03-29 2017-08-02 昭栄化学工業株式会社 太陽電池素子表面電極用導電性ペースト及び太陽電池素子の製造方法
US10032449B2 (en) * 2014-09-03 2018-07-24 Mediatek Inc. Keyword spotting system for achieving low-latency keyword recognition by using multiple dynamic programming tables reset at different frames of acoustic data input and related keyword spotting method
US20160295426A1 (en) * 2015-03-30 2016-10-06 Nokia Solutions And Networks Oy Method and system for communication networks
US11437020B2 (en) 2016-02-10 2022-09-06 Cerence Operating Company Techniques for spatially selective wake-up word recognition and related systems and methods
US11600269B2 (en) 2016-06-15 2023-03-07 Cerence Operating Company Techniques for wake-up word recognition and related systems and methods
US10832031B2 (en) 2016-08-15 2020-11-10 Apple Inc. Command processing using multimodal signal analysis
US10913463B2 (en) 2016-09-21 2021-02-09 Apple Inc. Gesture based control of autonomous vehicles
WO2018086033A1 (en) 2016-11-10 2018-05-17 Nuance Communications, Inc. Techniques for language independent wake-up word detection
US10372132B2 (en) 2016-12-12 2019-08-06 Apple Inc. Guidance of autonomous vehicles in destination vicinities using intent signals
US10601599B2 (en) * 2017-12-29 2020-03-24 Synaptics Incorporated Voice command processing in low power devices
CN110111774A (zh) * 2019-05-13 2019-08-09 广西电网有限责任公司南宁供电局 机器人语音识别方法和装置

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4567606A (en) 1982-11-03 1986-01-28 International Telephone And Telegraph Corporation Data processing apparatus and method for use in speech recognition
FR2571191B1 (fr) 1984-10-02 1986-12-26 Renault Systeme de radiotelephone, notamment pour vehicule automobile
JPS61105671A (ja) 1984-10-29 1986-05-23 Hitachi Ltd 自然言語処理装置
US4991217A (en) 1984-11-30 1991-02-05 Ibm Corporation Dual processor speech recognition system with dedicated data acquisition bus
JPS6269297A (ja) 1985-09-24 1987-03-30 日本電気株式会社 話者確認タ−ミナル
US4903301A (en) * 1987-02-27 1990-02-20 Hitachi, Ltd. Method and system for transmitting variable rate speech signal
US5231670A (en) 1987-06-01 1993-07-27 Kurzweil Applied Intelligence, Inc. Voice controlled system and method for generating text from a voice controlled input
US5321840A (en) 1988-05-05 1994-06-14 Transaction Technology, Inc. Distributed-intelligence computer system including remotely reconfigurable, telephone-type user terminal
US5054082A (en) 1988-06-30 1991-10-01 Motorola, Inc. Method and apparatus for programming devices to recognize voice commands
US5040212A (en) 1988-06-30 1991-08-13 Motorola, Inc. Methods and apparatus for programming devices to recognize voice commands
US5325524A (en) 1989-04-06 1994-06-28 Digital Equipment Corporation Locating mobile objects in a distributed computer system
US5012518A (en) 1989-07-26 1991-04-30 Itt Corporation Low-bit-rate speech coder using LPC data reduction processing
US5146538A (en) 1989-08-31 1992-09-08 Motorola, Inc. Communication system and method with voice steering
JPH0642153B2 (ja) * 1989-12-20 1994-06-01 株式会社エイ・ティ・アール視聴覚機構研究所 音声認識装置
US5280585A (en) 1990-09-28 1994-01-18 Hewlett-Packard Company Device sharing system using PCL macros
CA2483322C (en) 1991-06-11 2008-09-23 Qualcomm Incorporated Error masking in a variable rate vocoder
WO1993001664A1 (en) 1991-07-08 1993-01-21 Motorola, Inc. Remote voice control system
US5305420A (en) 1991-09-25 1994-04-19 Nippon Hoso Kyokai Method and apparatus for hearing assistance with speech speed control function
US5909666A (en) 1992-11-13 1999-06-01 Dragon Systems, Inc. Speech recognition system which creates acoustic models by concatenating acoustic models of individual words
US5627939A (en) * 1993-09-03 1997-05-06 Microsoft Corporation Speech recognition system and method employing data compression
ZA948426B (en) * 1993-12-22 1995-06-30 Qualcomm Inc Distributed voice recognition system
US5784532A (en) * 1994-02-16 1998-07-21 Qualcomm Incorporated Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system
JP2606142B2 (ja) 1994-06-15 1997-04-30 日本電気株式会社 ディジタル携帯電話機
GB9416463D0 (en) 1994-08-15 1994-10-05 Farrington Jonathan S Sound control device
US5832430A (en) * 1994-12-29 1998-11-03 Lucent Technologies, Inc. Devices and methods for speech recognition of vocabulary words with simultaneous detection and verification
US5651096A (en) * 1995-03-14 1997-07-22 Apple Computer, Inc. Merging of language models from two or more application programs for a speech recognition system
US5794196A (en) 1995-06-30 1998-08-11 Kurzweil Applied Intelligence, Inc. Speech recognition system distinguishing dictation from commands by arbitration between continuous speech and isolated word modules
DE19533541C1 (de) * 1995-09-11 1997-03-27 Daimler Benz Aerospace Ag Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens
US5774841A (en) * 1995-09-20 1998-06-30 The United States Of America As Represented By The Adminstrator Of The National Aeronautics And Space Administration Real-time reconfigurable adaptive speech recognition command and control apparatus and method
TW439380B (en) 1995-10-09 2001-06-07 Hitachi Ltd Terminal apparatus
US5774836A (en) * 1996-04-01 1998-06-30 Advanced Micro Devices, Inc. System and method for performing pitch estimation and error checking on low estimated pitch values in a correlation based pitch estimator
US6003004A (en) * 1998-01-08 1999-12-14 Advanced Recognition Technologies, Inc. Speech recognition method and system using compressed speech data
US6061653A (en) * 1998-07-14 2000-05-09 Alcatel Usa Sourcing, L.P. Speech recognition system using shared speech models for multiple recognition processes

Also Published As

Publication number Publication date
EP1159736B1 (en) 2009-03-25
WO2000046794A1 (en) 2000-08-10
EP1159736A1 (en) 2001-12-05
HK1044403B (zh) 2005-05-20
HK1044403A1 (en) 2002-10-18
CN1352787A (zh) 2002-06-05
ATE426888T1 (de) 2009-04-15
JP2002536692A (ja) 2002-10-29
AU3589400A (en) 2000-08-25
CN1168070C (zh) 2004-09-22
KR100629669B1 (ko) 2006-09-29
DE60041869D1 (de) 2009-05-07
US6411926B1 (en) 2002-06-25
KR20010093326A (ko) 2001-10-27

Similar Documents

Publication Publication Date Title
JP4607334B2 (ja) 分散された音声認識システム
KR100923896B1 (ko) 분산형 음성 인식 시스템에서 음성 활성을 송신하는 방법및 장치
US7941313B2 (en) System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
KR100316077B1 (ko) 분산형음성인식시스템
US6324509B1 (en) Method and apparatus for accurate endpointing of speech in the presence of noise
US20110153326A1 (en) System and method for computing and transmitting parameters in a distributed voice recognition system
TW546632B (en) System and method for efficient storage of voice recognition models
EP1632934B1 (en) Baseband modem and method for speech recognition and mobile communication terminal using the same
JP2001510595A (ja) ボコーダに基づく音声認識装置
WO2003094152A1 (en) Distributed voice recognition system utilizing multistream feature processing
JP2007534278A (ja) ショートメッセージサービスを通じる音声
JP2004536329A (ja) 分散型音声認識システムにおける音声認識のためのシステム及び方法
AU5958599A (en) Automatic speech/speaker recognition over digital wireless channels
JP4643011B2 (ja) 音声認識除去方式
WO2004068893A2 (en) Method and apparatus for noise suppression within a distributed speech recognition system
Li et al. An auditory system-based feature for robust speech recognition
JP2004519733A (ja) 雑音環境条件および周波数不一致条件において音声認識を改良するためのシステムおよび方法
WO2008001991A1 (en) Apparatus and method for extracting noise-robust speech recognition vector by sharing preprocessing step used in speech coding
Tan et al. Distributed speech recognition standards

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070202

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100309

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100608

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100907

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101007

R150 Certificate of patent or registration of utility model

Ref document number: 4607334

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131015

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term