JP2002530704A

JP2002530704A - 分散音声認識プロセスにおけるエラーの軽減方法および装置

Info

Publication number: JP2002530704A
Application number: JP2000583001A
Authority: JP
Inventors: デビッド・ジョン・ベンジャミン・ピアース; ジョン・アラスター・ギブス
Original assignee: モトローラ・リミテッド
Priority date: 1998-11-13
Filing date: 1999-11-12
Publication date: 2002-09-17
Anticipated expiration: 2019-11-12
Also published as: EP1131814B1; GB2343777A; US8050912B1; WO2000030072A1; GB9824894D0; JP4510293B2; AU1385600A; EP1131814A1; CN1326583A; JP2010160507A; ES2242452T3; DE69923997T2; DE69923997D1; CA2350751C; CN1162841C; GB2343777B; ZA200103387B; CA2350751A1; ATE290249T1; JP2010160506A

Abstract

(57)【要約】分散音声認識プロセスにおいてエラーを緩和する方法。本方法は、送信エラーが発生した一つまたはそれ以上のベクトルからなるグループを特定する段階と、特定されたベクトル・グループ内の一つまたはそれ以上の音声認識パラメータを置換する段階とによって構成される。一実施例では、グループの各ベクトルの全ての音声認識パラメータは、全ベクトルを置換することによって置換され、各置換された全ベクトルは、置換されるベクトルに対して受信順序が最も近い、エラーのない先行ベクトルまたは後続ベクトルのいずれかのコピーによって置換される。別の実施例では、どの音声認識パラメータを置換すべきかの判定は、エラーなしに受信されたベクトルから、前記特定されたベクトル・グループ内の各音声認識パラメータについて予測値を予測して、各予測値に対して所定の閾値の外にある前記特定されたベクトル・グループ内の音声認識パラメータを置換することによって実施される。また、分散音声認識プロセスにおいてエラーを緩和する装置についても説明する。

Description

【発明の詳細な説明】

（産業上の利用分野）本発明は、分散音声認識プロセスにおいてエラーを緩和する方法に関する。ま
た、本発明は、分散音声認識プロセスにおいてエラーを緩和する装置に関する。
本発明は、無線通信リンク上で送信される際に音声認識パラメータに影響を及ぼ
す送信エラーを緩和することに適するが、それに限定されるものではない。

【０００１】（従来の技術）音声認識(speech recognition)は、音声からの音，単語の一部，単語または語
句を自動的に認識するためのプロセスである。このようなプロセスは、スイッチ
，キーボード，マウスなどより一般的に利用されるツールを用いる他に、あるい
は用いる代わりに、人間と機械との間のインタフェースとして利用できる。また
音声認識プロセスは、発声通信またはメッセージから自動的に情報を取り出すた
めにも利用できる。

【０００２】自動音声認識を提供するために、さまざまな方法が開発され、現在も改善され
つつある。ある方法は、対応する学習戦略(heuristic strategies)とともに幅広
い知識に基づき、また他の方法は統計モデルを採用する。

【０００３】典型的な音声認識プロセスでは、処理すべき音声は、例えば毎秒５０〜１００
回など、サンプリング・タイムフレーム中に複数回サンプリングされる。サンプ
リングされた値は、音声認識パラメータを与えるアルゴリズムを利用して処理さ
れる。例えば、一つの種類の音声認識パラメータは、メル・ケプストラム係数(m
el cepstral coefficient)として知られる係数からなる。このような音声認識パ
ラメータは、アレイ(array)として知られるベクトルの形式に配列され、アレイ
はある次数で配列されたパラメータのグループまたはセット（群または集合）と
して考えることができる。サンプリング・プロセスは、さらなるサンプリング・
タイムフレームのために反復される。典型的なフォーマットでは、各サンプリン
グ・タイムフレーム毎に一つのベクトルが生成される。

【０００４】上記のパラメータ化およびベクトル化は、音声認識プロセスのいわゆるフロン
トエンド動作を構成する。ベクトルに配列された上記の音声認識パラメータは、
音声認識プロセスのいわゆるバックエンド動作において、音声認識手法に従って
解析される。フロントエンド処理およびバックエンド処理が同じ位置であるいは
同じデバイスで実行される音声認識プロセスでは、フロントバックからバックエ
ンドに至る間に音声認識パラメータに導入されるエラーの尤度は最小限である。

【０００５】しかし、分散音声認識プロセス(distributed speech recognition process)と
して知られるプロセスでは、音声認識プロセスのフロントエンド部分はバックエ
ンド部分から離れて実行される。第１位置において、音声はサンプリングされ、
パラメータ化され、音声認識パラメータはベクトルに配列される。音声認識パラ
メータは量子化された後、例えば、確立された通信システムの通信リンク上で、
第２位置に送信される。多くの場合、第１位置は遠隔端末であり、第２位置は中
央処理局である。受信された音声認識パラメータは、第２位置にて音声認識手法
に従って解析される。

【０００６】多くの種類の通信システムにおける多くの種類の通信リンクは、分散音声認識
プロセス用として検討できる。一例として、従来の有線通信システム、例えば、
一般電話交換網（ＰＳＴＮ）がある。別の例としては、無線通信システム、例え
ば、ＴＥＴＲＡがある。別の例としては、セルラ無線通信システムがある。適用
可能なセルラ通信システムの一例として、ＧＳＭ(global system for mobile co
mmunications)システムがあり、別の例としては、現在標準化が進んでいるＵＭ
ＴＳ(Universal Mobile Telecommunications System)などのシステムがある。

【０００７】任意の通信システムにおいて任意の通信リンクを用いることにより、この通信
リンク上で第１位置から第２位置に送信される音声認識パラメータにエラーが生
じる可能性が生まれる。

【０００８】送信情報のある部分におけるエラーの存在が検出可能となるように、通信シス
テムにおいてエラー検出手法を提供することが知られている。周知の手法の一つ
に、循環冗長符号化(cyclic redundancy coding)がある。

【０００９】エラーの存在が検出されると、送信される情報の種類に応じて異なる緩和手法
(mitigating techniques)が採用される。異なる形態の情報に適用されるエラー
緩和の手法は、パラメータが受ける特殊な音声認識手法に起因して、音声認識パ
ラメータにおけるエラーを緩和することに最適ではない。そのため分散音声認識
プロセスにおいてエラーを緩和する手段を提供することが望ましい。

【００１０】（発明の概要）本発明は、上記のような送信エラーの影響を緩和するための手段を提供する。

【００１１】本発明の一態様に従って、請求項１において請求されるような、分散音声認識
システムにおいてエラーを緩和する方法が提供される。

【００１２】本発明の別の態様に従って、請求項１３において請求されるような、分散音声
認識システムにおいてエラーを緩和する装置が提供される。

【００１３】本発明のさらなる態様は、従属請求項に請求される通りである。

【００１４】本発明は、分散音声認識プロセスの性質，ここで用いられる音声認識パラメー
タの特性および音声認識パラメータが配列されるベクトルに特に適している、エ
ラーを緩和するための手段を提供する。

【００１５】具体的には、本発明の一態様に従って、特定されたベクトル・グループ内の一
つまたはそれ以上の音声認識パラメータが、この特定されたベクトル・グループ
の後に受信されたベクトルからの一つまたはそれ以上の音声認識パラメータを参
照することによって判定された各置換パラメータによって置換される際に、音声
認識プロセスにおいて待ち時間(latency)を許容する可能性が有利に利用される
。

【００１６】さらに、本発明の別の態様に従って、どの音声認識パラメータを置換すべきか
の判定は、エラーなしに受信されたベクトルから、前記特定されたベクトル・グ
ループ内の各音声認識パラメータについて予測値を予測して、各予測値に対して
所定の閾値の外にある前記特定されたベクトル・グループ内の音声認識パラメー
タを置換することによって実施され、その効果は、音声認識ベクトル内の異なる
パラメータ間のエラーにおける独立した関係を有利に利用することである。

【００１７】さらなる特定の利点については、以下の説明および図面から明らかになろう。

【００１８】（好適な実施例の説明）以下で説明する一例としての実施例では、音声認識パラメータは、図１に模式
的に示すように、サンプリング・タイムフレームに対応するベクトルで配列され
る。

【００１９】処理される音声信号１１０の一部を図１に示す。音声信号１００は、実際には
、さらに複雑なサンプル値のシーケンスからなるので、大幅に簡略化された形式
で示されている。

【００２０】図１において、第１サンプリング・タイムフレーム１２１，第２サンプリング
・タイムフレーム１２２，第３サンプリング・タイムフレーム１２３および第４
サンプリング・タイムフレーム１２４が示されている、サンプリング・タイムフ
レームは、図１に示すように音声信号上に重畳される。下記の実施例では、毎秒
１００個のサンプリング・タイムフレームが存在する。音声信号は、各サンプリ
ング・タイムフレームの最中に反復的にサンプリングされる。

【００２１】下記の実施例では、音声認識プロセスは、全部で１４個の音声認識パラメータ
が採用されるプロセスである。最初の１２個のパラメータは、最初の１２個のス
タティック・メル・ケプストラム係数(static mel cepstral coefficients)、す
なわち、

【００２２】

【数１】であり、ここでｍはサンプリング・タイムフレーム番号を表す。１３番目に用い
られる音声認識パラメータは、ゼロ番目のケプストラム係数、すなわち、ｃ₀（
ｍ）である。１４番目に用いられる音声認識パラメータは、対数エネルギ項(log
arithmic energy term)、すなわち、ｌｏｇ［Ｅ（ｍ）］である。これらの係数
の詳細および音声認識プロセスにおける用途については当技術分野で周知であり
、ここではさらに詳しい説明を要しない。また、本発明はケプストラム係数以外
の音声認識パラメータの他の選択または方式の場合と同様に、音声認識パラメー
タを形成する他のケプストラム係数の組合せでも実行できることに留意されたい
。

【００２３】各サンプリング・タイムフレーム毎の１４個のパラメータは、図１に示すよう
に、アレイともいう対応するベクトルに配列、あるいはフォーマットされる。ベ
クトル１３１はサンプリング・タイムフレーム１２１に対応し、ベクトル１３２
はサンプリング・タイムフレーム１２２に対応し、ベクトル１３３はサンプリン
グ・タイムフレーム１２３に対応し、ベクトル１３４はサンプリング・タイムフ
レーム１２４に対応する。このようなベクトルは一般に次式のように表すことが
できる。

【００２４】

【数２】音声認識パラメータは、第１位置から第２位置に送信される前に処理される。
下記の実施例では、これは次のようにして実行される。ベクトル１３１からのパ
ラメータは量子化される。これは、ベクトルをスプリット・ベクトル量子化器(s
plit vector quantizer)で直接量子化することによって実施される。係数はペア
にグループ化され、各ペアは、該ペアについてあらかじめ決められたベクトル量
子化（ＶＱ：vector quantization）コードブックを利用して量子化される。そ
れによって得られるインデクス値のセットは、音声フレームを表すために用いら
れる。各ペアについて用いられるコードブック・サイズとともに、フロントエン
ド・パラメータ毎の係数ペアリングを以下の表１に示す。

【００２５】

【表１】最も近いＶＱ重心(centroid)は、インデクスを判定するために加重ユークリッ
ド距離(weighted Euclidian distance)を利用して求められる

【００２６】

【数３】ここで、ｑ_j ^i,i+1は、コードブックＱ^i,i+1におけるｊ番目のコードベクトルを
表し、Ｎ^i,i+1はコードブックのサイズであり、Ｗ^i,i+1はコードブックＱ^i,i+1
について適用される（大体は単位行列(identity)）加重マトリクスであり、ｉｄ
ｘ^i,i+1（ｍ）はベクトル［ｙ_i（ｍ），ｙ_i+1（ｍ）］^Tを表すために選択された
コードブック・インデクスを表す。

【００２７】次に、生成されるインデクスは４４ビットの形式で表される。これら４４ビッ
トは、図１の参照番号１４１に示されるように、ビット・ストリーム・フレーム
１５０の最初の４４スロットに入れられる。次のベクトル、すなわち、ベクトル
１３２について生成された対応する４４ビットは、図１の参照番号１４２に示さ
れるように、ビット・ストリーム・フレーム１５０の次の４４スロットに入れら
れる。ビット・ストリーム・フレーム１５０の残りのビットは、図１の参照番号
１４６に示されるように、循環冗長符号の４ビットからなり、このビットの値は
、ビット・ストリーム・フレーム１５０の８８個の前置ビット全体について、周
知な方法でエラー検出を行うように判定される。同様に、ベクトル１３３から与
えられる４４ビットは、図１の参照番号１４３に示されるように、第２ビット・
ストリーム・フレーム１５５の最初の４４スロットに入れられる。また、次のベ
クトル、すなわち、ベクトル１３４について生成された対応する４４ビットは、
図１の参照番号１４４に示されるように、ビット・ストリーム・フレーム１５５
の次の４４スロットに入れられる。ビット・ストリーム・フレーム１５５の残り
のビットは、図１の参照番号１４８に示されるように、循環冗長符号の４ビット
からなる。この配列は、以降のベクトルについて反復される。２つのベクトルか
らのビット・データが一つの合成ビット・ストリーム・フレームにて配列される
ところの上記のビット・ストリーム・フレームのフォーマットは一例に過ぎない
。例えば、各ベクトルのデータは、それ自体のエラー検出ビットを含む一つのビ
ット・ストリーム・フレームで配列してもよい。同様に、ビット・ストリーム・
フレーム毎のスロットの数は一例に過ぎない。

【００２８】混乱を避けるため、上記のビット・ストリーム・フレームは、データが第１位
置から第２位置に送信されるところの通信システムの通信リンク上でビット・ス
トリーム・データを送信する際に用いられる送信フレーム、例えば、本明細書で
説明される実施例にて採用される通信システムであるＧＳＭセルラ無線通信シス
テムの時分割多元接続（ＴＤＭＡ）タイムフレーム、と混同すべきでないことを
指摘しておく。この例では、第１位置は遠隔ユーザ局からなり、第２位置、すな
わち、受信側位置は、例えば、セルラ通信システムの基地局に配置できる集中処
理局(centralized processing station)からなる。従って、本明細書で説明する
実施例では、音声認識パラメータは、無線通信リンク上で第１位置から第２位置
に送信される。ただし、第１位置および第２位置の性質は、検討対象の通信シス
テムの種類と、そこにおける分散音声認識プロセスの構成とに依存することを理
解されたい。

【００２９】ビット・ストリーム・フレームは、第２位置にて受信された後に、第２位置に
て送信フォーマットから再構築される。

【００３０】以上説明したのは、分散音声認識プロセスであって、音声認識パラメータは、
サンプリング・タイムフレームに対応するベクトルで配列され、第１位置から送
信された前記音声認識パラメータは、第２位置にて受信される分散音声認識プロ
セスである。第１実施例によれば、このような音声認識プロセスにおいてエラー
を緩和する方法は、図２のプロセス・フローチャートに示される。図２を参照し
て、機能ボックス２１０は、送信エラーが発生した一つまたはそれ以上のベクト
ルからなるグループを特定する段階を示す。本実施例では、エラー検出は、既知
の循環冗長符号方法を利用して、１４６，１４８など４循環冗長符号化ビットを
、各ビット・ストリーム・フレーム１５０，１５５の内容と比較することによっ
て実行される。本例では、これは送信エラーが発生した任意の一つのビット・ス
トリーム・フレームを特定する。従って、本例では、特定されたベクトル・グル
ープは２つのベクトル、すなわち、一つのビット・ストリーム・フレームからの
ベクトルのペアからなる。別の例において、エラー検出手段を有する各ビット・
ストリーム・フレームが一つのベクトルしか収容していない場合、特定されたベ
クトル・グループは一つのベクトルとなる。なお、このような特定グループに収
容されるベクトルの数を判定する厳密な形式および技術的な理由は、ベクトルの
ビット・ストリーム内でのさまざまな配列の仕方や、さらにはその上にエラー検
出方法がどのようにして課せられるのかに依存することを理解されたい。特に、
本実施例で採用される循環冗長符号化以外のエラー検出方法は、特定されるグル
ープ内で異なる数のベクトルを与えることも可能である。また、任意のビット・
ストリーム配列において、いかにしてエラー情報を処理するかの副次的な設計選
択は、特定されるグループにおけるベクトルの数を決定する上で役割を果たすこ
とがある。例えば、本実施例を参照して、たとえエラー検出手段がより狭い範囲
のエラー検出が能力的に可能であったとしても、処理電力を節約する理由から、
ビット・ストリーム・フレームのバッチがエラーを含むかどうかのみを考慮する
ことも可能である。

【００３１】音声認識パラメータは、上記のベクトル量子化手順の逆手順を実行することに
よって、ビット・ストリーム・フレームから取り出される。さらに具体的には、
インデクスはビット・ストリームから抽出され、これらのインデクスを利用して
、ベクトルは以下の形式で再構築される。

【００３２】

【数４】機能ボックス２２０は、本実施例の次の段階、すなわち、特定されたベクトル
・グループ内の一つまたはそれ以上の音声認識パラメータを置換する段階を示す
。本実施例では、異なる処理段階の順序は、一つまたはそれ以上の音声認識パラ
メータを置換する前に、全ての受信音声認識パラメータがビット・ストリーム・
フレームから取り出され、一時的に格納されるように実行される。ただし、一つ
またはそれ以上の音声認識パラメータは、新たに導入される置換パラメータを含
む音声認識パラメータをビット・ストリーム・フォーマットから実際に物理的に
取り出す前に、ビット・ストリーム情報を対応する形式で変更することによって
置換することも可能である。

【００３３】置換音声認識パラメータの判定の仕方についての以下の説明では、図１を参照
してベクトル１３１〜１３４と、その後連続的に受信されるさらに６つのベクト
ル１３５〜１４０とを示す図３を参照する。本実施例では、特定されたベクトル
・グループにおける一つまたはそれ以上の音声認識パラメータは、特定されたベ
クトル・グループ以降に受信されたベクトルからの一つまたはそれ以上の音声認
識パラメータを参照して判定された各置換パラメータによって置換される。従っ
て、本実施例では、ビット・ストリーム・フレーム１５５についてエラーが検出
され、そのためベクトル１３３，１３４からなるグループが特定されると、ベク
トル１３３，１３４内の一つまたはそれ以上の音声認識ベクトルは、ベクトル１
３５〜１４０のうちの一つから、あるいはベクトル１４０以降に受信した図３に
は図示されていないベクトルからの一つまたはそれ以上の音声認識パラメータを
参照して判定された各置換パラメータによって置換される。なお、このような後
続ベクトルを参照した判定は、１３１，１３２などの先行ベクトル、あるいは図
示していない他のベクトルへの参照も判定プロセスに含まれるという可能性を除
外するものではないことを留意されたい。

【００３４】特定されたベクトル・グループ以降に受信されたベクトルを参照することは、
音声認識について特に効果的に実行できる方法を提供する。なぜならば、バック
エンド音声認識装置(back-end speech recognizer)からより良好な性能を提供す
るために待ち時間を有利に利用できるためである。このような方法を適用するこ
とは、バックエンドに出力する前に、受信ベクトルをバッファに一時的に格納す
ることを伴う。特定されたベクトル・グループの後に受信されたベクトルは、置
換値を算出するために用いられる。従って、バックエンドに利用可能なエラー緩
和されたベクトルが形成されるまでの間の待ち時間が増加してしまう。特にバッ
クエンド認識装置が集中サーバの一部である場合には、このようなエラー緩和方
法によって生じる一時的な待ち時間の変動を克服するのに十分な演算能力を有す
るバックエンド認識装置にとって、通常この待ち時間は問題にならない。

【００３５】さらに具体的には、本実施例において、グループの各ベクトルの全ての音声認
識パラメータは、全ベクトル(whole vectors)を置換することによって置換され
、各置換済みの全ベクトルは、置換されるベクトルに対して受信順序が最も近い
、エラーのない先行ベクトルまたは後続ベクトルのいずれかのコピーによって置
換される。上記の送信モードおよびエラー検出モードについて、特定されたベク
トル・グループは連続したベクトルのペアからなるので、前記ペアの第１ベクト
ルはエラーのない先行ベクトルの第２ベクトルによって置換され、前記ペアの第
２ベクトルはエラーのない後続ベクトルの第１ベクトルによって置換される。こ
の場合、例えば、ベクトル１３５，１３６がエラーを有するベクトルのペアであ
ると特定されると、ベクトル１３５の全体はベクトル１３４のコピーによって置
換され、ベクトル１３６の全体はベクトル１３７のコピーによって置換されるが
、ただしこのとき、ベクトル１３４，１３７は、それ自体が送信エラーが発生し
たことが特定されたペアの一部ではないものとする。例えば、ベクトル１３３，
１３４のペア自体が実際にエラーを有するベクトルのペアであるならば、両ベク
トル１３５，１３６は、それ以降の適正であることが判明している最初のベクト
ルであるベクトル１３７のコピーによって置換される。なぜならば、それより前
の最も近い適正であることが判明しているベクトルであるベクトル１３２よりも
、ベクトル１３７は各ベクトルに対し受信順序がより近いためである。後者の場
合、ベクトル１３３，１３４の両方は、適正であることが判明しているベクトル
のうち受信順序が最も近いベクトルであるベクトル１３２のコピーによって置換
される。

【００３６】適正であることが判明している受信ベクトルの以前または以降のコピーを単純
に利用するのではなく、全ベクトルが置換される本実施例の別の様式では、各置
換された全ベクトルは、補間手法によって判定されたベクトルによって置換され
る。当業者であれば、検討対象の特定の音声認識プロセスの条件に応じて適切な
補間手法を選ぶことができよう。採用できる補間方法の例には以下のものがある
：（ｉ）線形補間(linear interpolation) − この方法では、各パラメータにつ
いて、エラーを含むことが判明しているベクトルの前後の一つまたはそれ以上の
ベクトルからとられた値は、その間の直線等式(straight line equation)を定め
る定数(constant)および勾配(gradient)を求めるために用いられる。エラーを有
するベクトル内の各パラメータを置換するために用いられる補間値は、これらの
線の等式を利用して算出される。（ｉｉ）逆方向予測(backwards prediction) − この方法では、エラーを含む
ことが判明しているベクトル以降の一つまたはそれ以上のエラーのないベクトル
をとる。各パラメータについて、置換値は、ベクトル・シーケンス内のこれらの
ベクトル要素の加重和(weighted sum)から生成され、この方法は予測(predictio
n)として知られる。加重は、エラーのない音声からのベクトルのパラメータに対
してトレーニング(training)を行うことによりあらかじめ定められる。（ｉｉｉ）曲線の当てはめ(curve fitting) − この方法では、エラーを含む
ことが判明しているベクトルの前後の一つまたはそれ以上のベクトルをとる。こ
の方法は線形補間と似ているが、直線に当てはめるのではなく、良好なパラメー
タに基づく曲線を利用し、また各パラメータについて置換値を生成するための曲
線の等式を利用することによって、当てはめが行われる。上記の実施例において、音声認識パラメータは、全ベクトルを置換することに
よって置換される。ただし、以下で説明するような本発明のさらなる実施例では
、ベクトル内の全ての音声認識パラメータが必ずしも置換されるわけではない。

【００３７】以下で説明する実施例では、どの音声認識パラメータを置換すべきかの判定は
、エラーなしに受信されたベクトルから、前記特定されたベクトル・グループ内
の各音声認識パラメータについて予測値を予測し、各予測値に対して所定の閾値
の外にある特定されたベクトル・グループ内の音声認識パラメータを置換するこ
とによって行われる。

【００３８】ここで、ベクトル１３３，１３４がエラーを有するベクトルのペアであると特
定される場合について考える。ベクトル１３３の音声認識パラメータｃ₁（３）
，ｃ₂（３），．．．，ｃ₁₂（３），ｃ₀（３）およびｌｏｇ［Ｅ（３）］のそれ
ぞれについて、またベクトル１３４の音声認識パラメータｃ₁（４），ｃ₂（４）
，．．．，ｃ₁₂（４），ｃ₀（４）およびｌｏｇ［Ｅ（４）］のそれぞれについ
て、予測値(predicted value)が判定される。予測値は、任意の適切な予測方法
によって判定される。例えば、線形補間，逆方向予測および曲線当てはめなど、
全ベクトルについて上で説明した予測手法は、個別の音声認識パラメータに適用
できる。個別の音声認識パラメータに適用されると、他のベクトル内の対応する
位置のパラメータは、例えば、ｃ₁（３）の予測値を計算する場合に用いられ、
対応する位置の音声認識パラメータｃ₁（１），ｃ₁（２），ｃ₁（５），ｃ₁（６
）などの値が用いられる。

【００３９】従って、本実施例において、音声認識ベクトル内の異なるパラメータ間の独立
した関係が有利に利用される。

【００４０】予測値に対する所定の閾値が採用される。この閾値レベルは、検討対象の特定
のプロセスの条件に応じて設定される。この閾値は、検討対象のプロセスあるい
は他のプロセス内で得られた経験や、トライアルもしくはシミュレーションなど
に基づいて経時的に変更できる。また、閾値レベルは、継続フィードバックに基
づいて自動的に変更できる。例えば、特定されるエラーのレベルに応じて変更で
きる。また、閾値レベルは予測値の関数でもよい。また、閾値レベルは、どの音
声認識パラメータであるのか、すなわち、パラメータがｃ₁（ｍ）であるのか、
ｃ₂（ｍ）であるのか、ｃ₃（ｍ）であるのかなどに応じて変更でき、これは特定
の音声認識パラメータが他のパラメータに比べて音声認識プロセスの成功にとっ
てより重要であるような音声認識プロセスに本発明を適用する場合に、特に有利
である。実際、これは本例の場合であって、ここで音声認識プロセスは、ｃ₁₀（
ｍ），ｃ₁₁（ｍ），ｃ₁₂（ｍ）などの高次数のメル・ケプストラム係数よりも、
ｃ₃（ｍ），ｃ₄（ｍ），ｃ₅（ｍ）などの中間次数のメル・ケプストラム係数に
対してより敏感である。

【００４１】本実施例の一様式では、前記特定されたベクトル・グループ内の指定された数
以上の音声認識パラメータが各所定の閾値の外にある場合、前記特定されたベク
トル・グループの全ての音声認識パラメータは置換される。この場合、ベクトル
１３３，１３４内に収容される任意の２８個の音声認識パラメータから５個以上
の音声認識パラメータが各所定の閾値の外にある場合、ベクトル１３３，１３４
の全ての音声認識パラメータは置換される。指定される数の選択は、検討対象の
特定の音声認識プロセスの条件に応じて行われる。このように全ベクトルを置換
することにより、音声認識パラメータが上記の閾値のレベル内に入ったとしても
、エラーである可能性のある音声認識パラメータを排除するという有利な傾向が
得られる。

【００４２】本実施例では、音声認識パラメータは、どの音声認識パラメータを置換すべき
かを判定する段階において用いられる各予測値によって置換される。これは、こ
れらの値がすでに判定済みであるという点で効率的である。

【００４３】本実施例の別の様式では、各予測値に対して所定の閾値内である音声認識パラ
メータは、基準ベクトルのセットと比較され、前記基準ベクトルのセットから最
良一致ベクトル(best match vector)を求め、また各予測値に対して所定の閾値
の外にある音声認識パラメータは、前記最良一致ベクトルからの対応する音声認
識パラメータによって置換される。

【００４４】ここでも、ベクトル１３３，１３４がエラーを有するベクトルのペアとして特
定される場合を考える。さらに、閾値範囲外であると判定される２つのベクトル
からの唯一の音声認識パラメータがベクトル１３３からのｃ₁（３）であると考
える。このとき、相関手法を利用することにより、ベクトル１３３の残りの部分
と基準ベクトルのセットの間の最も近い適合(closest fit)が判定される。

【００４５】基準ベクトルのセット内で、基準ベクトルの数およびその内容は、検討対象の
特定の音声認識プロセスの条件に応じて選択される。これらの選択は、必要な処
理レベルと比較した、エラー訂正の精度と感度との間のトレードオフを伴う。閾
値外パラメータを斟酌した後のベクトルの残りの部分に対して、どの基準ベクト
ルが最良適合を表すのかを判定するための条件も、検討対象の特定の音声認識プ
ロセスの条件に応じて実施される。ユークリッド距離の算出など、既知の相関手
法が採用される。これらの手法をいかにして本方法に適用するのかは、閾値内の
ベクトル要素のみが距離の計算に含まれるようにする。

【００４６】本実施例の別の様式では、一つまたはそれ以上の近傍ベクトルからの音声認識
ベクトルは基準ベクトルのセットと比較され、複数の連続した基準ベクトルに対
する最良一致が選択される。ここでも、ベクトル１３３，１３４がエラーを有す
るベクトルのペアとして特定され、さらに閾値範囲外であると判定される２つの
ベクトルからの唯一の音声認識パラメータがベクトル１３３からのｃ₁（３）で
あると想定する。ベクトル１３３の残りの部分（すなわち、音声認識パラメータ
ｃ₂（３），ｃ₃（３），．．．，ｃ₁₂（３），ｃ₀（３）およびｌｏｇ［Ｅ（３
）］）と、周囲のベクトル１３２，１３４の全体は、３つの連続した基準ベクト
ルの基準グループに対して一括して比較される。

【００４７】上記の実施例では、送信エラーが発生した一つまたはそれ以上の前記ベクトル
からなるグループを特定する段階は、既知の循環冗長符号方法を利用して、１４
６，１４８などの４循環冗長符号化ビットを、各ビット・ストリーム・フレーム
１５０，１５５の内容と比較することからなる。ただし、本発明のさらなる実施
例では、送信エラーが発生した一つまたはそれ以上の前記ベクトルからなるグル
ープを特定する段階は、音声認識パラメータ自体の評価を含むことができる。こ
れは、循環冗長符号化などの従来の方法とともに、実行される追加のセーフティ
・ネット的な手法としてでもよく、あるいは循環冗長符号化などの従来の方法の
代わりに利用でき、その場合、これがエラー・ベクトル・グループを特定する唯
一の方法となる。

【００４８】このようなさらなる実施例のうちの第１実施例では、音声認識パラメータにつ
いて各予測値が判定される。これは、どの音声認識パラメータを置換すべきかを
判定する実施例について先に説明したのと同じ方法のうちの任意の一つで行うこ
とができるが、エラーを特定する唯一の手段としてこれを実行すると、もちろん
のことだが、補間関数に対する入力の意味以外では、エラーなしに受信したベク
トルのみが予測計算において用いられるという上記の詳細を含めることが不可能
になる。予測値に対する一つまたはそれ以上の閾値レベルが判定される。これも
、どの音声認識パラメータを置換すべきかを判定する実施例について上で説明し
た同じ方法のうちの任意の方法で実施される。ただし、一般的に、ここで用いら
れる閾値は前に説明した場合で用いられる閾値よりも大きい。また、一つまたは
それ以上の閾値レベルが判定されることを留意されたい。例えば、２つの閾値レ
ベルを判定する場合には、一方が可能性の高いエラーに対応でき、他方はエラー
の外側機会(outside chance)に対応できる。次に、送信エラーが発生したとみな
されるベクトル・グループは、前記一つまたはそれ以上の閾値レベルそれぞれの
外にあるベクトル・グループ内の音声認識パラメータの数に関する加重解析(wei
ghted analysis)に応答して特定される。例えば、この場合、加重解析とは、可
能性の高いエラー閾値を超える場合に、スコア５が割当てられ、エラー閾値の外
側機会を越える場合に、スコア１が割当てられ、ベクトル・グループは、全スコ
アが６またはそれ以上である場合に、送信エラーが発生したものとして特定され
る。これは、採用できる加重解析方式の一例に過ぎず、上記の方式よりもさらに
複雑な方式を含む特定の方式の選択は、検討対象の特定の分散音声認識プロセス
の条件に応じて利用できる。

【００４９】このようなさらなる実施例のうち第２実施例は、ベクトル・グループ内の異な
るベクトルからの対応する音声認識パラメータ間の差を判定する段階を含む。例
えば、ベクトル１３３，１３４を参照して、ｃ₁（３）とｃ₁（４）との間の差が
計算され、ｃ₂（３）とｃ₂（４）との間の差が計算され、ｃ₃（３）とｃ₃（４）
との間の差が計算され、以下同様である。送信エラーが発生したとみなされるベ
クトル・グループは、所定の閾値レベルの外にある前記差の数に関する解析に応
答して特定される。適切な所定の閾値レベルが設定され、またどの音声認識パラ
メータを置換すべきかを判定する前記実施例についてすでに説明したのと同じ任
意の方法を利用して、経時的に変更できる。この場合、２つまたはそれ以上の前
記計算された差が閾値レベルの外にある場合に、ベクトル・グループは送信エラ
ーが発生したと特定される。閾値レベルの外であることが必要な数についてのこ
の選択は一例に過ぎず、一般に検討対象の特定の分散音声認識プロセスの条件に
応じて選ばれる。さらなる任意の態様を実施例に適用でき、ここでベクトル量子
化プロセスの一部として、音声認識パラメータは、表１で説明したように、ペア
にグループ化される。この場合、あるコードブック・インデクス内のいずれかの
音声認識パラメータの差が閾値外であるならば、コードブック・インデクスはエ
ラーありの受信として分類される。すなわち、表１を参照して、ｃ₃差またはｃ₄ 差のいずれかが閾値外であるならば、コードブック・インデクスＱ^2,3はエラー
ありの受信として分類される。ベクトル・グループ内の７からの任意の数、例え
ば２以上のコードブック・インデクスがエラーありの受信として分類されると、
このベクトル・グループは送信エラーが発生したと特定される。明らかに、閾値
レベルを選択し、また閾値レベルの外でなければならない差の数を選択する際に
、トレードオフ事項は検討対象の特定の分散音声認識プロセスの条件に応じて評
価される。

【００５０】上記の実施例の場合、上記のデータ処理段階は、モトローラ社のＤＳＰ５６
ｘｘｘ（商標）ファミリーのデバイスから選択されるデバイスなど、プログラマ
ブル・デジタル信号処理デバイスによって実行される。あるいは、特定用途向け
集積回路（ＡＳＩＣ）を採用できる。他の可能性も存在する。例えば、無線受信
機と、バックエンド音声認識プロセッサの一部をなすコンピュータ・システムと
の間をインタフェースするインタフェース・ユニットを利用できる。

【図面の簡単な説明】

【図１】本発明の一実施例のサンプリング・タイムフレームに対応するベクトルで配列
された音声認識パラメータの模式図である。

【図２】本発明の一実施例のプロセス・フローチャートである。

【図３】本発明の一実施例の連続的に受信されたベクトルの模式図である。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＡＥ，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＤ，ＧＥ，ＧＨ，ＧＭ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＮ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＵＡ，ＵＧ，ＵＳ，ＵＺ，ＶＮ，ＹＵ，ＺＡ，ＺＷ (72)発明者ジョン・アラスター・ギブス英国エス・オー30、２エックス・エフ、ハンプシャー、サザンプトン、ヘッジ・エンド、スタニアー・ウェイ48 Ｆターム(参考） 5D015 LL12 5J065 AC02 AE01 AE04 AH13 5K014 AA01 BA06 FA06 HA00

Claims

【特許請求の範囲】

【請求項１】分散音声認識プロセスにおいてエラーを緩和する方法であっ
て、前記分散音声認識プロセスでは、音声認識パラメータがサンプリング・タイ
ムフレームに対応するベクトルで配列され、第１位置から送信された前記音声認
識パラメータが第２位置にて受信され、当該方法は：送信エラーが発生した一つまたはそれ以上の前記ベクトルからなるグループを
特定する段階；および前記特定されたベクトル・グループ内の一つまたはそれ以上の音声認識パラメ
ータを置換する段階；によって構成されることを特徴とする方法。
【請求項２】前記特定されたベクトル・グループ内の前記一つまたはそれ
以上の音声認識パラメータは、前記特定されたベクトル・グループの後に受信さ
れたベクトルからの一つまたはそれ以上の音声認識パラメータを参照して判定さ
れる置換パラメータによって置換されることを特徴とする請求項１記載の方法。
【請求項３】前記グループの各ベクトルの全ての音声認識パラメータは、
全ベクトルを置換することによって置換され、各置換された全ベクトルは、前記
置換されるベクトルに対して受信順序が最も近い、エラーのない先行ベクトルま
たは後続ベクトルのいずれかのコピーによって置換されることを特徴とする請求
項１または２記載の方法。
【請求項４】送信モードおよびエラー検出モードでは、前記特定されたグ
ループが連続したベクトルのペアからなり、前記ペアのうち第１ベクトルは、エ
ラーのない先行ベクトルの第２ベクトルによって置換され、前記ペアのうち第２
ベクトルは、エラーのない後続ベクトルの第１ベクトルによって置換されること
を特徴とする請求項３記載の方法。
【請求項５】前記グループの各ベクトルの全ての音声認識パラメータは、
全ベクトルを置換することによって置換され、各置換された全ベクトルは、補間
手法によって判定されたベクトルによって置換されることを特徴とする請求項１
または２記載の方法。
【請求項６】どの音声認識パラメータを置換すべきかの判定は、エラーな
しに受信したベクトルから、前記特定されたベクトル・グループ内の各音声認識
パラメータについて予測値を予測し、各予測値に対して所定の閾値の外にある前
記特定されたベクトル・グループ内の音声認識パラメータを置換することによっ
て実施されることを特徴とする請求項１または２記載の方法。
【請求項７】前記特定されたベクトル・グループ内の指定された数以上の
音声認識パラメータが各所定の閾値の外にあるならば、前記特定されたベクトル
・グループの全ての音声認識パラメータは置換されることを特徴とする請求項６
記載の方法。
【請求項８】前記音声認識パラメータは、どの音声認識パラメータを置換
すべきかを判定する前記段階において用いられる各予測値によって置換されるこ
とを特徴とする請求項６または７記載の方法。
【請求項９】各予測値に対して所定の閾値内にある音声認識パラメータは
、基準ベクトルのセットと比較され、前記基準ベクトルのセットから最良一致ベ
クトルを求め、また各予測値に対して所定の閾値の外にある音声認識パラメータ
は、前記最良一致ベクトルからの対応する音声認識パラメータによって置換され
ることを特徴とする請求項６または７記載の方法。
【請求項１０】一つまたはそれ以上の近傍ベクトルからの音声認識パラメ
ータも前記基準ベクトルのセットと比較され、複数の連続した基準ベクトルに対
する最良一致が選択されることを特徴とする請求項９記載の方法。
【請求項１１】送信エラーが発生した一つまたはそれ以上の前記ベクトル
からなるグループを特定する前記段階は、前記音声認識パラメータについて各予
測値を予測して、前記予測値に対する一つまたはそれ以上の閾値レベルを判定し
、前記一つまたはそれ以上の閾値レベルのそれぞれの外にあるベクトル・グルー
プ内の音声認識パラメータの数に関する加重解析に応答して、送信エラーが発生
したとしてベクトル・グループを特定する段階を含むことを特徴とする任意の上
記の請求項記載の方法。
【請求項１２】送信エラーが発生した一つまたはそれ以上の前記ベクトル
からなるグループを特定する前記段階は、ベクトル・グループ内の異なるベクト
ルからの対応する音声認識パラメータ間の差を判定し、所定の閾値の外にある前
記差の数に関する解析に応答して、送信エラーが発生したベクトル・グループを
特定する段階を含むことを特徴とする請求項１ないし請求項１０記載の方法。
【請求項１３】分散音声認識プロセスにおいてエラーを緩和する装置であ
って、前記分散音声認識プロセスは、サンプリング・タイムフレームに対応する
ベクトルで音声認識パラメータが配列されるプロセスであり、第１位置から送信
された前記音声認識パラメータは第２位置にて受信され、当該装置は：送信エラーが発生した一つまたはそれ以上の前記ベクトルからなるグループを
特定する手段；および前記特定されたベクトル・グループ内の一つまたはそれ以上の音声認識パラメ
ータを置換する手段；によって構成されることを特徴とする装置。
【請求項１４】前記特定されたベクトル・グループ内の前記一つまたはそ
れ以上の音声認識パラメータは、前記特定されたベクトル・グループの後に受信
されたベクトルからの一つまたはそれ以上の音声認識パラメータを参照して判定
される各置換パラメータによって置換されることを特徴とする請求項１３記載の
装置。
【請求項１５】前記グループの各ベクトルの全ての音声認識パラメータは
、全ベクトルを置換することによって置換され、各置換された全ベクトルは、前
記置換されるベクトルに対して受信順序が最も近い、エラーのない先行ベクトル
または後続ベクトルのいずれかのコピーによって置換されることを特徴とする請
求項１３または１４記載の装置。
【請求項１６】送信モードおよびエラー検出モードでは、前記特定された
グループが連続したベクトルのペアからなり、前記ペアのうち第１ベクトルは、
エラーのない先行ベクトルの第２ベクトルによって置換され、前記ペアのうち第
２ベクトルは、エラーのない後続ベクトルの第１ベクトルによって置換されるこ
とを特徴とする請求項１５記載の装置。
【請求項１７】前記グループの各ベクトルの全ての音声認識パラメータは
、全ベクトルを置換することによって置換され、各置換された全ベクトルは、補
間手法によって判定されたベクトルによって置換されることを特徴とする請求項
１３または１４記載の装置。
【請求項１８】どの音声認識パラメータを置換すべきかの判定は、エラー
なしに受信したベクトルから、前記特定されたベクトル・グループ内の各音声認
識パラメータについて予測値を予測し、各予測値に対して所定の閾値の外にある
前記特定されたベクトル・グループ内の音声認識パラメータを置換することによ
って実施されることを特徴とする請求項１３または１４記載の装置。
【請求項１９】前記特定されたベクトル・グループ内の指定された数以上
の音声認識パラメータが各所定の閾値の外にあるならば、前記特定されたベクト
ル・グループの全ての音声認識パラメータは置換されることを特徴とする請求項
１８記載の装置。
【請求項２０】前記音声認識パラメータは、どの音声認識パラメータを置
換すべきかを判定する前記段階において用いられる各予測値によって置換される
ことを特徴とする請求項１８または１９記載の装置。
【請求項２１】各予測値に対して所定の閾値内にある音声認識パラメータ
は、基準ベクトルのセットと比較され、前記基準ベクトルのセットから最良一致
ベクトルを求め、また各予測値に対して所定の閾値の外にある音声認識パラメー
タは、前記最良一致ベクトルからの対応する音声認識パラメータによって置換さ
れることを特徴とする請求項１８または１９記載の装置。
【請求項２２】一つまたはそれ以上の近傍ベクトルからの音声認識パラメ
ータも前記基準ベクトルのセットと比較され、複数の連続した基準ベクトルに対
する最良一致が選択されることを特徴とする請求項２１記載の装置。
【請求項２３】送信エラーが発生した一つまたはそれ以上の前記ベクトル
からなるグループを特定する前記手段は、前記音声認識パラメータについて各予
測値を予測する手段と、前記予測値に対する一つまたはそれ以上の閾値レベルを
判定する手段と、前記一つまたはそれ以上の閾値レベルのそれぞれの外にあるベ
クトル・グループ内の音声認識パラメータの数に関する加重解析に応答して、送
信エラーが発生したとしてベクトル・グループを特定する手段とを含むことを特
徴とする請求項記１３ないし請求項２２記載の装置。
【請求項２４】送信エラーが発生した一つまたはそれ以上の前記ベクトル
からなるグループを特定する前記手段は、ベクトル・グループ内の異なるベクト
ルからの対応する音声認識パラメータ間の差を判定する手段と、所定の閾値の外
にある前記差の数に関する解析に応答して、送信エラーが発生したベクトル・グ
ループを特定する手段とを含むことを特徴とする請求項１３ないし請求項２２記
載の装置。
【請求項２５】前記音声認識パラメータは、無線通信リンク上で前記第１
位置から前記第２位置に送信されることを特徴とする請求項１３ないし請求項２
４記載の装置。
【請求項２６】前記音声認識パラメータは、無線通信リンク上で前記第１
位置から前記第２位置に送信されることを特徴とする請求項１ないし請求項１２
記載の方法。