JP3661874B2

JP3661874B2 - 分散音声認識システム

Info

Publication number: JP3661874B2
Application number: JP51760595A
Authority: JP
Inventors: ジェイコブス、ポール・イー; チャン、シエンチュン
Original assignee: クゥアルコム・インコーポレーテッド
Priority date: 1993-12-22
Filing date: 1994-12-20
Publication date: 2005-06-22
Anticipated expiration: 2020-06-22
Also published as: EP1381029A1; ATE261172T1; JPH09507105A; KR100316077B1; HK1011109A1; TW318239B; DE69433593T2; CA2179759C; WO1995017746A1; FI118909B; FI20070933A; CN1119794C; BR9408413A; FI962572A0; US5956683A; DE69433593D1; CN1138386A; IL112057A0; MY116482A; FI962572A

Description

発明の背景
1.発明の分野
本発明は音声信号処理に関する。特に、本発明は標準音声認識システムの分散実行を実現する新規な方法及び装置に関する。
2.関連技術の説明
音声認識は、ユーザまたはユーザ発声コマンドを認識、かつ、機械とのヒューマンインターフェースを達成するために、シュミレートされた知性を有する機械を提供する最も重要な技術である。また、ヒューマン音声理解に対する中心技術である。音響音声信号からの言語メッセージを復元する技術を使用するシステムは、音声認識装置（VR）と呼ばれている。音声認識装置は、到来する生の音声から、VRに必要な一連の情報含有特徴（ベクトル）を抽出する音響プロセッサと、入力された音声に対する一連の言語ワードなどの、意味のある所望の出力フォーマットを得るために、前記一連の特徴（ベクトル）を復元するワード復号器とからなる。システムのパフォーマンスを増大させるために、システムに有効なパラメータを備えさせるトレーニングが必要である。すなわち、システムは最適に機能するようになるまで学習する必要がある。
音響プロセッサは音声認識装置におけるフロントエンド音声解析サブシステムを代表する。このシステムは入力音声信号に応答して時変音声信号を特徴付けるために、最適な表現を提供する。背景雑音、チャネルひずみ、話者特性や話し方などの無関係な情報は棄却される。効率のよい音響特徴は音声認識装置により高い音響識別能力を与える。最も有用な特性は短時間スペクトルエンベロープである。短時間スペクトルエンベロープを特徴付ける２つの最もよく用いられるスペクトル解析方法は、線形予測符号化（LPC）モデルとフィルタバンクに基づくスペクトル解析モデルである。しかしながら、（Rabiner,L.R.及びSchafer,R.W.著、音声信号のディジタル処理、Prentice Hall,1978）に示されるように、LPCは音声軌跡（tract）スペクトルエンベロープに対するよい近似を提供するだけでなく、すべてのディジタル実行においてフィルタバンクモデルよりも計算上より安価である。経験によれば、LPCに基づいた音声認識装置のパフォーマンスは、フィルタバンクに基づく認識装置と同等かあるいはそれ以上である（Rabiner,L.R.及びB.H.著、音声認識の基本、Prentice Hall,1993）。
図１に示す、LPCに基づく音響プロセッサにおいて、入力音声がマイクロホン（図示せず）に供給されてアナログ電気信号に変換される。この電気信号はその後、（図示せぬ）A/D変換器によってディジタル化される。このディジタル化された音声信号は、そのスペクトルを平らにして次の信号処理における有限プレシジョン効果（finite precision effects）を受けないようにすべく、プレエンファシスフィルタ２を通過される。プレエンファシスフィルタリングされた音声は区分要素（segmentation element）４に供給されて一時的に重複、または、重複しないブロックに区分、あるいはブロック化される。音声フレームデータは窓要素（windowing element）６に供給されてフレーム化されたDC成分が除去されるとともに、フレーム境界における不連続によるブロッキング効果を低減するために、各フレームに関してディジタル窓処理が行われる。LPC解析において最もよく使用される窓関数はハミング窓ｗ（ｎ）であり、以下のごとく定義される。

窓処理された音声はLPC解析要素８に供給される。LPC解析要素８では、自己相関関数が窓処理されたサンプルに基づいて計算され、対応するLPCパラメータが自己相関関数から直接得られる。
概して、ワード復号器は音響プロセッサによって生成された音響特徴シーケンスを話者の元ワード列に変換する。これは２つの工程、すなわち、音響パターンマッチングと言語モデリングにより達成される。言語モデリングは分離されたワード認識への応用では用いられない。LPC解析要素８からのLPCパラメータは音素、音節、ワードなどの可能な音響パターンを検出して分類する。候補パターンが言語モデリング要素12に供給されて、ワードのどのシーケンスが文法的によく形成されかつ意味をもつかを決定する、シンタクス上の拘束（syntactic constraints）の規則をモデル化する。音響情報自身があいまいである場合は、シンタクス情報は貴重な指針となる。言語モデリングに基づいて、VRは逐次音響特徴マッチング結果を解釈して推定ワード列を提供する。
ワード復号器における音響パターンマッチングと言語モデリングは、話者の音声学上の及び音響音声学上の変化を記載するために、確定または確率的な数学モデルを必要とする。音声認識システムのパフォーマンスはこれらの２つのモデリングの品質に直接関連する。音響パターンマッチングのための種々のクラスのモデルのうち、テンプレートに基づくダイナミックタイムワーピング（DTW）と確率的隠れマルコフモデル（HMM）とは最もよく用いられている２つの方法である。しかしながら、DTWに基づく方法はHMMに基づく方法の特別な場合であるとみなすことができ、パラメータを用いた二重に確率的な（parametricdoubly stochastic model）モデルである。HMMシステムは現在最も成功した音声認識アルゴリズムである。HMMにおける二重（doubly）特性は音響のみならず音声信号に関連した一時的変化を吸収するのにより大きな柔軟性を有している。これは改善された認識の正確さにつながる。言語モデルにおいて、ｋグラム言語モデルと呼ばれる確率モデルが実際的な大きな語彙の音声認識システムに適用された。この確率モデルはF.Jelink著、実験的離散デクテーション認識装置、Proc.IEEE,vol.73,pp.1616−1624に詳細に述べられている。一方、小さな語彙の場合は、確定的文法が、航空及び予約及び情報システムへの応用において、有限状態ネットワーク（FSN）として確立されている（Raviner,L.R.及びLevinson,S.Z.著、隠れマルコフモデル及びレベルビルディングに基づく話者独立、シンタクス重視の結合ワード認識システム、IASSP,Vol.33,No.3,June 1985）。
特に認識エラーの確率を最小にするために、音声認識問題は次のように公式化できる。音響証拠観察（acoustic evidence observation）Ｏでは、音声認識の操作は、Ｗ^＊＝arg maxP（W|O）（１）
となるような最もありそうなワード列Ｗ^＊を見つけることである。ここで、最大化（maximization）による最大値はすべての可能なワード列Ｗ以上である。ベイズの規則によれば、上記の方程式における事後確率Ｐ（W|O）は以下のように書き換えられる。

ここで、Ｐ（Ｏ）は認識と無関係なので、ワード列の推定は以下の式で書ける。
Ｗ^＊＝arg maxP（Ｗ）Ｐ（O|W）（３）
ここで、Ｐ（Ｗ）はワード列Ｗが発音される事前確率を表し、Ｐ（O|W）は、話者がワードシーケンスＷを発音したときに、音響証拠Ｏが観察される確率である。Ｐ（O|W）は音響パターンマッチングによって決定され、事前確率Ｐ（Ｗ）は使用される言語モデルによって定義される。
結合されたワード認識において、語彙が小さい（100以下）ときは、言語におけるリーガルセンテンスを形成するために、どのワードが他のワードに論理的に続いているのかを厳密に把握するために確定的文法が使用される。確定的文法は可能性のあるワードの探索空間を暗に拘束して計算を大幅に減らすために、音響マッチングアルゴリズムに組み込むことが可能である。しかしながら、語彙のサイドが中ぐらい（100より大、かつ、1000より小さい）、あるいは、大きい（1000よりも大）場合、ワードシーケンスＷ＝（w₁,w₂,…,w_n）の確率は、確率的言語モデリングによって得られる。単純な確率理論により、事前確率Ｐ（Ｗ）は、

のように分解できる。ここで、Ｐ（w_i|W₁,w₂,…,w_i-1）は、ワードシーケンス（w₁,w₂,…,w_i-1）が話された後でw_iが話されたときの確率である。w_iの選択は入力ワードの全体の過去の履歴に依存する。語彙のサイズがＶのとき、Ｐ（w_i|w₁,W₂,…,w_i-1）を完全に特定するためにVⁱ値が必要となる。このことは、語彙のサイズが中ぐらいであっても、言語モデルをトレーニングするために、莫大な数のサンプルを必要とする。トレーニングが不十分なことによるＰ（w_i|w₁,w₂,…,w_i-1）の不正確な推定は元の音響マッチングの結果を低下させてしまう。
上記の問題に対する実際的な解決は、w_iが（ｋ−１）の先行するワード、w_i-1,w_i-2,…,w_i-k+1のみに依存すると仮定することである。確率的言語モデルはｋ−グラム言語モデルが引き出されるＰ（w_i|w₁,w₂,…,w_i-k+1）の条件で完全に記載することができる。ｋ＞３ならば、たいていのワード列は言語内で発生しないので、ユニグラム（ｋ＝１）、バイグラム（ｋ＝２）、トリグラム（ｋ＝３）が、文法を統計的に考慮する最も有効な確率的言語モデルである。言語モデリングはシンタクス（syntactic）及び意味（semantic）情報を含み認識上重要である。しかしながら、これらの確率は音声データの大規模な集積からトレーニングしなければならない。ｋ−グラムがデータ内で発生しない場合など、利用可能なトレーニングデータが比較的制限されている場合は、Ｐ（w_i|w_i-2,w_i-1）はバイグラム確率Ｐ（w_i|w_i-1）から直接推定することができる。この工程の詳細は、F.Jelink著、実験的離散ディクテーション認識装置の開発、Proc.IEEE,vol.73,pp.1616−1624,1985）に開示されている。結合されたワード認識では、すべてのワードモデルが基本的な音声ユニットとして用いられ、連続音声認識では、音素、音節、半音節が基本的な音声ユニットとして用いられる。ワード復号器は適宜変更される。
従来の音声認識システムは分離能力の制限と、（電力消費、メモリの利用度などの）応用システムの制限と、通信チャネル特性を考慮することなしに、音響プロセッサとワード復号器とを一体化している。このことは、これらの２つの要素が適宜分離された分散音声認識システムを発明することにつながる。
本発明の要約
本発明においては、（ｉ）フロントエンド音響プロセッサがLPCまたはフィルタバンクに基づいており、（ii）ワード復号器における音響パターンマッチングが隠れマルコフモデル（HMM）、ダイナミックタイムワーピング（DTW）、あるいはニューラルネットワーク（NN）に基づいており、（iii）結合あるいは、連続的ワード認識のために、言語モデルが確定的あるいは確率的文法に基づいている改善された分散音声認識システムである。本発明は特徴抽出とワード復号の２つの要素を適宜分離することによって、システムのパフォーマンスを改善した点で、従来の音声認識装置とは異なっている。以下の例に示すように、ケプストラム係数などのLPCに基づく特徴が通信チャネルを介して送信される場合は、LPCとLSPとの間の変換は特徴シーケンスへのノイズの影響を低減するために使用される。
【図面の簡単な説明】
本発明の特徴、目的、利点は、添付の図面を参照して以下の詳細な説明によって明らかになる。
図１は従来の音声認識システムのブロック図であり、
図２はワイヤレス通信環境における本発明の実施形態のブロック図であり、
図３は本発明の一般的なブロック図であり、
図４は、本発明の変換要素及び逆変換要素の実施形態のブロック図であり、
図５はローカルワードプロセッサとリモートワード検出器とを具備する本発明の望ましい実施形態のブロック図である。
望ましい実施形態の詳細な説明
標準的な音声認識装置において、認識またはトレーニング時、ほとんどの計算上の複雑さは音声認識装置のワード復号サブシステムに集中する。分散システムアーキテクチャを備えた音声認識装置においては、ワード復号タスクを、計算上の負荷を適宜吸収できるサブシステムに任せることが望ましい。信号処理による量子化誤差及び／またはチャネル誘引誤差の影響を低減するために、音響プロセッサはできるだけ音声源の近くに設けることが望ましい。
本発明の実施形態は図２に示される。この実施形態では、実行環境は、ポータブルセルラ電話またはパーソナル通信装置40と、セル基地局42としての中央通信センタとを具備するワイヤレス通信システムである。この実施形態では分散されたVRシステムが用いられる。分散VRにおいては、音響プロセッサまたは特徴抽出要素22がパーソナル通信装置40に設けられるとともに、ワード復号器48が中央通信センタに設けられる。分散されたVRの代わりに、VRがポータブルセルラ電話内で単独で実行される場合は、中間サイズの語彙で、結合されたワード認識であっても、高い計算コストのために実行不可能となってしまう。一方、VRが単に基地局に設けられている場合は、音声コーデック及びチャネル効果に関連した音声の劣化によって、正確度が大きく低下してしまう。明らかに、提案された分散システム設計には３つの利点がある。第１は、電話40には配置されないワード復号ハードウエアによって、セルラ電話のコストの低減が図れることである。第２は、計算負荷の大きいワード復号動作をローカルで実行することによるポータブル電話40の（図示せぬ）電池の消耗が少なくなることである。第３は、分散システムの柔軟性及び延長性に加えて、認識の正確さが改善されることである。
音声がマイクロホン20に供給されて音声信号が電気信号に変換され、特徴抽出要素22に供給される。マイクロホン20からの信号はアナログまたはディジタルである。アナログの場合は、アナログからディジタルへの変換器（図示せぬ）がマイクロホン20と特徴抽出要素22との間に挿入される。音声信号は特徴抽出要素22に供給される。特徴抽出要素22は入力音声の言語解釈を復元するのに使用される入力音声の関連する特性を抽出する。音声を推定するのに用いられる１つの特性は、入力音声フレームの周波数特性である。これは入力音声フレームの線形予測符号化パラメータとしてしばしば提供される。音声の抽出された特徴はトランスミッタ24に供給して抽出特徴信号を符号化、変調、増幅した後、送受切り換え器26を介してアンテナ28に供給され、音声の特徴がセルラ基地局または中央通信センタ42に送信される。既知の種々のディジタル符号化、変調、送信方法が用いられる。
中央通信センタ42では、送信された特徴がアンテナ44で受信されてレシーバ46に供給される。レシーバ46は受信された特徴に対して復調、復号を施して復号器48に供給する。ワード復号器48は音声の特徴から、音声の言語推定を決定してトランスミッタ50にアクション信号を供給する。トランスミッタ50はこのアクション信号に対して増幅、変調、符号化を施して増幅された信号をアンテナ52に供給する。アンテナ52は推定されたワードまたはコマンド信号をポータブル電話40に送信する。トランスミッタ50は既知のディジタル符号化、変調、送信テクニックを実行する。
ポータブル電話40では、推定されたワードまたはコマンド信号はアンテナ28で受信される。アンテナ28は受信信号を送受切り換え器26を介してレシーバ30に供給し、レシーバ30はこの信号を復調、復号した後、コマンド信号または推定ワードを制御要素38に供給する。受信コマンド信号または推定ワードに応答して、制御要素38は意図する応答（例えば、電話番号をダイヤルする、ポータブル電話の表示スクリーンに情報を提供するなど）を提供する。
図２は示す同様のシステムは、中央通信センタ42からの情報が送信された音声の解釈である必要はなく、中央通信センタ42からの情報はポータブル電話によって送信された復号メッセージに対する応答である。中央通信センタ42に通信ネットワークを介して結合された（図示せぬ）リモート応答システムに関するメッセージについて尋ねるときがあるが、この場合、中央通信センタ42からポータブル電話40へ送信された信号は、この実行においては応答マシンからのメッセージである。
特徴抽出要素22を、中央通信センタ42ではなくポータブル電話40に設ける重要性は次の通りである。音響プロセッサが、分散VRに対向して、中央通信センタ42に設けられたとき、低帯域ディジタル無線チャネルは、量子化ひずみによる特徴ベクトルの解像度を制限する（第１のサブシステムにおける）ボコーダを必要とする。しかしながら、音響プロセッサをポータブルまたはセルラ電話に設けることによって、すべてのチャネル帯域を特徴の送信のために使うことができる。概して、抽出された音響特徴ベクトルは送信のために音声よりも帯域を必要としない。認識の正確度は入力音声信号の劣化に大きく依存するので、特徴抽出要素22をできるだけユーザに近接させる必要があり、これによって、特徴抽出要素22は、送信中にさらに破壊されるボコーダによって処理された（vocoded）電話音声の代わりにマイクロホン音声に基づいて特徴ベクトルを抽出する。
実際上は、音声認識装置は背景雑音などの周囲の条件下で動作するように設計される。すなわち、雑音の存在下での音声認識の問題を考慮することが重要である。語彙（基準パターン）のトレーニングがテスト時の条件と全く（またはほぼ）同じ環境で実行されれば、音声認識装置は雑音が多い環境においてもよいパフォーマンスが得られるとともに、雑音によって認識の正確度が大きく劣化するのを低減することができる。トレーニングとテスト条件との間の不整合は認識のパフォーマンスにおける主な劣化原因の１つである。（前記したように音響特徴の方が音声信号よりも送信時の帯域を必要としないので）、音響特徴が音声信号よりもより大きな信頼度で通信チャネルを横断できると仮定すると、提案された分散音声認識システムは整合された状態を提供するのにより適している。音声認識装置がリモート状態で実行されたとき、ワイヤレス通信において発生する主にフェージングなどのチャネルバリエーションのために、整合状態が大きく破壊される。大規模なトレーニング計算がローカルで吸収されるなら、VRをローカルで実行することによりこれらの影響を避けることができる。不幸なことに、多くの応用ではこれは不可能である。明らかに、分散音声認識の構成はチャネルの複雑さによって起こる不整合の状態を避けて、中央集権構成の欠点を補うことができる。
図３において、ディジタル音声サンプルは特徴抽出要素51に供給される。特徴抽出要素51は通信チャネル56を介して特徴をワード推定要素62に供給し、ここで推定ワード列が決定される。音声信号は各音声フレームに対する特徴を決定する音響プロセッサ52に供給される。ワード復号器は認識とトレーニングの作業に対する入力として音響特徴シーケンスを必要とするので、これらの特徴は通信チャネル56を介して送信される必要がある。しかしながら、通常の音声認識システムにおいて用いられる特徴が雑音の多いチャネルを介した送信に適しているわけではない。例えば、変換要素54は音声源符号化（source encoding）を行ってチャネル雑音の影響を低減する必要がある。音声認識装置で広範に用いられているLPCに基づく音響特徴の１つはケプストラム係数、｛c_i｝である。これはLPC係数、｛a_i｝から直接次のようにして得ることができる。

ここで、Ｐは使用されるLPCフィルタの次数であり、Ｑはケプストラム特徴ベクトルのサイズである。ケプストラム特徴ベクトルは急峻に変化するので、ケプストラム係数のフレームシーケンスを圧縮することは容易ではない。しかしながら、LPCと、ゆるやかに変化し、デルタパルス符号変調（DPCM）によって効率的に符号化できる線スペクトルペア（LSP）周波数との間の変換が存在する。ケプストラム係数はLPC係数から直接引き出すことができるので、LPCは変換要素54によってLSPに変換され、ここで通信チャネル56を横断すべく符号化される。リモートワード推定要素62では、変換された特徴が逆変換要素60によって逆変換されて音響特徴がワードプロセッサ64に供給され、ワードプロセッサ64はこれに応答して推定ワード列を提供する。
変換要素54の実施形態は図４に変換サブシステム70として示されている。図４において、音響プロセッサ52からのLPC係数は、LPCからLSP変換要素72に供給される。LPCからLSP変換要素72において、LSP係数は次の通りに決定される。Ｐ次の次数のLPC係数に対して、対応するLSP周波数が次の方程式の０とπの間に存在するＰ個の根として得られる。
Ｐ（ｗ）＝cos5w＋p₁cos4w＋…＋p₅/2 （７）
Ｑ（ｗ）＝cos5w＋q₁cos4w＋…＋q₅/2 （８）
ここで、p_iとq_iは帰納的に次のように求められる。
p₀＝q₀＝１（９）
p_i＝−a_i−a_p-i−p_i-1、１≦ｉ≦P/2 （10）
q_i＝−a_i−a_p-i−q_i-1、１≦ｉ≦P/2 （11）
LSP周波数はDPCM要素74に供給されて通信チャネル76を介しての送信のために符号化される。
逆変換要素78において、チャネルからの受信信号は、音声信号のLSP周波数を復元すべく、逆DPCM要素80とLSPからLPC要素82とを通過される。LPCからLSP要素72の逆プロセスは、LSP周波数をケプストラム係数を引き出すのに用いられるLPC係数に変換するLSPからLPC要素82によって実行される。LSPからLPC要素82は次のように変換を実行する。

LPC係数はLPCからケプストラム要素84に供給され、ここで、方程式５及び６に応じてケプストラム係数をワード復号器64に供給する。
ワード復号器は、通信チャネルを介して直接送信されたときに雑音の影響を受けやすい音響特徴シーケンスのみに依存するので、音響特徴シーケンスが引き出されて図３に示すようなサブシステム51において送信を可能にする代替表現に変換される。ワード復号器で使用される音響特徴シーケンスは後で逆変換によって得られる。すなわち、VRの分散構成においては、空中（チャネル）を介して送信された特徴シーケンスはワード復号器において実際に使用されるものとは異なっている。変換要素70からの出力は既知の種々のエラー保護方法によってさらに符号化される。
本発明の改善された実施形態が図５に示されている。ワイヤレス通信への応用においては、ユーザは、部分的に高価なチャネルアクセスのために、小数の単純だが供給に用いられる音声コマンドに対する通信チャネルを占有しないことを望む。これは、比較的小さい語彙サイズをもつ音声認識装置がローカルで送受話器において実行されるとともに、大きな語彙サイズをもつ第２の音声認識システムがリモート基地局に設けられるという点を考慮すると、送受話器100と基地局110との間のワード復号機能を分散させることによって達成される。それらは送受話器において同じ音響プロセッサを共有する。ローカルのワード復号器の語彙テーブルは最もよく用いられるワード、またはワード列を含む。一方、リモートのワード復号器の語彙テーブルは正規のワード、またはワード列を含む。このような構成に基づいて、図５に示すように、チャネルがビジーである平均時間を小さくして認識の正確度を増大させることができる。
さらに、２群の音声コマンドが利用され、第１は特殊音声コマンドと呼ばれ、ローカルVRによって認識できるコマンドに対応する。第２は正規の音声コマンドと呼ばれ、ローカルVRによって認識されないコマンドに対応する。特殊な音声コマンドが発音されるときはいつでも、真の音響特徴がローカルワード復号器のために抽出され、音声認識機能は通信チャネルにアクセスすることなしにローカルで実行される。正規の音声コマンドが発音されるとき、変換された音響特徴ベクトルがチャネルを介して送信され、復号化が基地局においてリモートで行われる。
特殊な音声コマンドに対する音響特徴は変換、あるいは符号化される必要がなく、ローカルのVRに対する語彙サイズは小さいので、要求される計算量はリモートのものよりもはるかに小さい（語彙の中から正確なワード列を探索するときの計算量は語彙のサイズに比例する）。さらに、音響特徴はチャネル内での破壊なしにローカルVRに直接供給されるので、ローカルの音声認識装置はリモートVRに比較して（状態数が小さい、状態出力確率などに対する混合要素の数が小さいなど）HMMの単純化された形態によって構成される。これは制限された語彙で送受信機（サブシステム１）でのVRのローカル構成を可能にし、この場合の計算量は制限されたものとなる。分散されたVR構成はワイヤレス通信システム以外の他の応用分野にも適用可能である。
図５において、音声信号は音響プロセッサ102に供給されて、音声信号から例えばLPCに基づく特徴パラメータなどの特徴が抽出される。これらの特徴はローカルのワード復号器106に供給されて、入力音声信号を小さな語彙から識別するための探索が行われる。ワード復号器106が入力ワード列を復号できず、リモートのVRが復号すべきであるときは、特徴を送信する準備をする変換要素104に信号を送る。変換された特徴は通信チャネル108を介してリモートのワード復号器110に送信される。変換された特徴は逆変換要素112に供給される。この逆変換要素112は変換要素104の逆変換を実行してリモートのワード復号器要素114に音響特徴を供給する。ワード復号器要素114はこれに応答して推定リモートワード列を提供する。
好ましい実施形態の前記した説明は当業者が本発明を製造または使用可能なように提供される。上記の実施形態に対する種々の変形が可能であり、ここに定義された一般的原理は発明に相当する能力を用いることなしに他の実施形態に適用可能である。すなわち、本発明は上記の実施形態に制限されることはなく、ここに開示された原理と新規な特徴に一致する範囲で広範な権利範囲が与えられるべきである。

Claims

移動通信システム中で使用されるリモート局において、
リモート局に設けられ、音声サンプルのフレームを受け取り、音声認識のための１組のパラメータを抽出する特徴抽出手段と、
前記１組のパラメータを受け取り、少ない語彙にしたがって前記１組のパラメータから前記音声の意味を抽出する第１のワード復号器手段と、
送信されてきたパラメータから音声の意味をより大きな語彙にしたがって抽出する第２のワード復号器手段を有する受信局に、前記第１のワード復号器手段によって復号できない１組のパラメータをワイヤレスで送信する送信手段とを具備するリモート局。
音響信号を受け取り、前記音響信号を前記特徴抽出手段に供給するマイクロフォンをさらに具備する請求項１記載のリモート局。
前記特徴抽出手段と前記送信手段との間に配置され、前記１組のパラメータを受け取り、前記１組のパラメータを予め定められた変換フォーマットにしたがって前記パラメータの代替表現に変換する変換手段をさらに具備する請求項１記載のリモート局。
前記１組のパラメータが線形予測係数を含む請求項１記載のリモート局。
前記１組のパラメータが線スペクトルペア値を含む請求項１記載のリモート局。
前記１組のパラメータは線形予測係数を含み、前記予め定められた変換フォーマットは線スペクトルペアへの線形予測係数の変換である請求項３記載のリモート局。
前記音声フレームに対する第２のワード復号器手段による音声認識動作にしたがった応答信号を受信する受信手段をさらに具備する請求項１記載のリモート局。
前記応答信号を受け取り、前記応答信号にしたがって制御信号を供給する制御手段をさらに具備する請求項７記載のリモート局。
移動通信システム中で使用される中央通信局において、
前記中央通信局に配置され、前記中央通信局から物理的に離れて位置してワイヤレス通信手段により前記中央通信局と通信するリモート局から、リモート局に配置されたワード復号器に関係するローカル語彙により認識できない１組の音声パラメータを受け取り、前記中央通信局に配置されたワード復号器に関係する正規の語彙を使用して前記１組の音声パラメータに音声認識動作を実行するワード復号器と、
前記音声認識動作の結果に基づいて応答信号を発生する信号発生器とを具備する中央通信局。
前記リモート局から前記１組の音声パラメータの信号を受信する入力を有し、前記リモート局からの音声パラメータを前記中央通信局に配置された前記ワード復号器に供給する受信機をさらに具備する請求項９記載の中央通信局。
前記中央通信局に配置された前記ワード復号器の出力に結合された入力と、制御信号を供給する出力とを有する制御手段をさらに具備する請求項９記載の中央通信局。
加入者局に配置され、第１の音声サンプルフレームの抽出された音響特徴を受け取り、少ない語彙にしたがって前記音響特徴を復号するローカルワード復号器と、
前記加入者局から物理的に離れた中央処理局に配置され、第２の音声サンプルフレームの抽出された音響特徴を受け取り、前記少ない語彙よりも多い正規の語彙にしたがって、前記ローカルワード復号器により復号できない前記第２の音声サンプルフレームの前記音響特徴を復号するリモートワード復号器とを具備する音声認識システム。
加入者局に配置され、予め定められた特徴抽出フォーマットにしたがって音声サンプルフレームの音響特徴を抽出し、前記音響特徴を供給するプリプロセッサをさらに具備する請求項12記載のシステム。
前記音響特徴が線形予測符号化（LPC）に基づくパラメータである請求項13記載のシステム。
前記音響特徴がケプストラム係数である請求項13記載のシステム。
前記プリプロセッサがボイスコーダ（ボコーダ）を備えている請求項13記載のシステム。
前記ボコーダが線形予測符号化（LPC）に基づくボコーダである請求項16記載のシステム。
前記加入者局に配置され、前記音響特徴を受け取り、予め定められた変換フォーマットにしたがって前記音響特徴を、通信チャネルを介して前記中央処理局に送信される変換された特徴に変換する変換要素と、
前記中央処理局に配置され、前記変換された特徴を受け取り、予め定められた逆変換フォーマットにしたがって、前記変換された特徴を推定された音響特徴に変換し、前記推定された音響特徴を前記リモートワード復号器に供給する逆変換要素とをさらに具備する請求項12記載のシステム。
前記音響特徴は線形予測符号化（LPC）に基づくパラメータであり、
前記予め定められた変換フォーマットは前記LPCに基づくパラメータを線スペクトルペア（LSP）周波数に変換し、
前記逆変換フォーマットは前記LSP周波数をLPCに基づくパラメータに変換する請求項18記載のシステム。
前記ローカルワード復号器が、隠れマルコフモデル（HMM）に基づく音響パターンマッチングを実行する請求項12記載のシステム。
前記リモートワード復号器が、隠れマルコフモデル（HMM）に基づく音響パターンマッチングを実行する請求項12記載のシステム。
前記ローカルワード復号器が、ダイナミックタイムワーピング（DTW）に基づく音響パターンマッチングを実行する請求項12記載のシステム。
前記リモートワード復号器が、ダイナミックタイムワーピング（DTW）に基づいた音響パターンマッチングを実行する請求項12記載のシステム。
前記加入者局が、ワイヤレス通信手段により前記中央処理局と通信を行う請求項12記載のシステム。
音声特徴を有する音声サンプルフレームをリモート局で受け取る工程と、
予め定められた特徴抽出フォーマットにしたがって前記音声サンプルフレームから１組の音声特徴を抽出する工程と、
少ない語彙の復号フォーマットにしたがって前記抽出された音声特徴から音声の意味を決定し、音声の意味がリモート局で決定できない場合には、音声の意味を決定できる能力を有する受信局に前記１組の音声特徴が送られる工程とを含むワイヤレス通信システムにおける音声認識方法。
前記１組の音声特徴が線スペクトルペア（LSP）パラメータデータを含む請求項25記載の方法。
前記LSPパラメータデータを線形予測符号化（LPC）パラメータデータに変換する工程をさらに含む請求項26記載の方法。
ワイヤレス通信システム中で使用される通信局における音声認識方法において、
前記通信局から物理的に離れて配置されたローカル局から１組の音声パラメータを受信する工程と、
ローカル語彙により認識することができない前記１組の音声パラメータに対し、前記ローカル語彙よりも多い正規の語彙を使用して音声認識動作を実行する工程と、
前記音声認識動作に基づく信号を発生する工程とを含む音声認識方法。
音声サンプルフレームの抽出された音響特徴を加入者局で受け取る工程と、
前記加入者局に配置されたローカルワード復号器を使用し、少ない語彙にしたがって前記音響特徴を復号する工程と、
前記抽出された音響特徴が前記ローカルワード復号器により認識できない場合に、前記抽出された音響特徴を前記加入者局から中央処理局へ送る工程と、
前記抽出された音響特徴を中央処理局で受け取る工程と、
前記中央処理局に配置されたリモートワード復号器を使用し、正規の語彙にしたがって、前記ローカルワード復号器により認識できない音声サンプルを復号する工程とを含む分散音声認識を提供する方法。
予め定められた特徴抽出フォーマットにしたがって、前記音声サンプルフレームの前記音響特徴を抽出する工程をさらに含む請求項29記載の方法。
加入者局に配置され、音声サンプルフレームから抽出された音響特徴を受け取り、少ない語彙にしたがって前記音響特徴を復号するローカルワード復号器と、
前記加入者局から物理的に離れて位置する中央処理局に配置され、前記抽出された音響特徴を受け取り、正規の語彙にしたがって、前記ローカルワード復号器によって認識できない前記音声のサンプルを復号するリモートワード復号器とを具備する分散音声認識システム。
加入者局に配置され、予め定められた特徴抽出フォーマットにしたがって、前記音声サンプルフレームの前記音響特徴を抽出し、前記音響特徴を供給するプリプロセッサをさらに具備する請求項31記載のシステム。
前記音響特徴が線形予測符号化（LPC）に基づくパラメータである請求項32記載のシステム。
前記音響特徴はケプストラム係数である請求項32記載のシステム。
前記プリプロセッサが音声コーダ（ボコーダ）を含む請求項32記載のシステム。
前記ボコーダが線形予測符号化（LPC）に基づくボコーダである請求項35記載のシステム。
前記加入者局に配置され、前記音響特徴を受け取り、予め定められた変換フォーマットにしたがって、前記音響特徴を、通信チャネルを介して前記中央処理局に送信される変換された特徴に変換する変換要素と、
前記中央処理局に配置され、前記変換された特徴を受け取り、予め定められた逆変換フォーマットにしたがって、前記変換された特徴を推定された音響特徴に変換し、前記推定された音響特徴を前記リモートワード復号器に供給する逆変換要素とをさらに具備する請求項31記載のシステム。
前記音響特徴は線形予測符号化（LPC）に基づくパラメータであり、前記予め定められた変換フォーマットは前記LPCに基づくパラメータを線スペクトルペア（LSP）周波数に変換し、さらに前記逆変換フォーマットは前記LSP周波数をLPCに基づくパラメータに変換する請求項37記載のシステム。
前記ローカルワード復号器が隠れマルコフモデル（HMM）に基づく音響パターンマッチングを実行する請求項31記載のシステム。
前記リモートワード復号器が隠れマルコフモデル（HMM）に基づく音響パターンマッチングを実行する請求項31記載のシステム。
前記ローカルワード復号器がダイナミックタイムワーピング（DTW）に基づく音響パターンマッチングを実行する請求項31記載のシステム。
前記リモートワード復号器がダイナミックタイムワーピング（DTW）に基づく音響パターンマッチングを実行する請求項31記載のシステム。
前記加入者局は、ワイヤレス通信手段により前記中央処理局と通信する請求項31記載のシステム。
ワイヤレス通信システム中で音声認識を提供する方法において、
ユーザにより話された音声信号を加入者局に配置された特徴抽出装置に提供し、
予め定められた特徴抽出フォーマットにしたがって音声信号から１組の音声特徴を抽出し、
加入者局にローカルに記憶された少ない語彙にしたがって、抽出された音声特徴から音声の意味を決定し、
音声の意味が少ない語彙にしたがって加入者局に配置された第１のワード復号器で復号できない場合、抽出された音声特徴を中央処理局に送信して、中央処理局に配置された第２のワード復号器を使用して、より多い語彙にしたがって抽出された音声特徴を復号するステップを含む方法。
１組の音声特徴は線形スペクトルペア（LSP）パラメータデータを有する請求項44記載の方法。
LSPパラメータデータを線形予測符号化（LPC）パラメータデータに変換することをさらに含む請求項45記載の方法。
分散音声認識を提供する方法において、
加入者局で音声サンプルのフレームを処理して、音声サンプルのフレームの音響特徴を決定し、
加入者局に配置され、少ない語彙を使用して音響特徴を復号する第１のワード復号器を使用して、音響特徴を復号し、
音響特徴が第１のワード復号器で復号できない場合、加入者局から中央処理局へ音響特徴を送信し、
中央処理局で音響特徴を受信し、
中央処理局に配置され、より多い語彙を使用して音響特徴を復号する第２のワード復号器を使用して音響特徴を復号し、
中央処理局から加入者局に復号された音響特徴を送信するステップを含む方法。
音声サンプルのフレームを処理して音響特徴を決定することは、予め定められた特徴抽出フォーマットにしたがって音声サンプルのフレームの音響特徴を抽出することを含む請求項47記載の方法。
分散音声認識を提供する方法において、
加入者局で音声サンプルのフレームの音響特徴を抽出し、
加入者局に配置された第１のワード復号器を使用して少ない語彙にしたがって音響特徴を復号し、
抽出された音響特徴が第１のワード復号器で復号できない場合、加入者局から抽出処理局に抽出された音響特徴を送信し、
中央処理局で抽出された音響特徴を受信し、
中央処理局に配置された第２のワード復号器を使用してより多い語彙にしたがって抽出された音響特徴を復号し、
復号された音響特徴がローカルコマンド信号と関連する場合、ローカルコマンド信号を中央処理局から加入者局へ送信するステップを含む方法。