JP3691511B2

JP3691511B2 - 休止検出を行う音声認識

Info

Publication number: JP3691511B2
Application number: JP52084194A
Authority: JP
Inventors: パワー、ケビン・ジョゼフ; ジョンソン、スチーブン・ハワード; スカヒル、フランシス・ジェイムズ; リングランド、サイモン・パトリック・アレキサンダー; タリンタイヤー、ジョン・エドワード
Original assignee: ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー
Priority date: 1993-03-25
Filing date: 1994-03-25
Publication date: 2005-09-07
Anticipated expiration: 2020-09-07
Also published as: SG93215A1; US5848388A; JPH08508108A; AU6433094A; EP0962913B1; DE69421911D1; EP0962913A1; EP0691022B1; DE69432570D1; ES2141824T3; DE69432570T2; CA2158849C; CA2158849A1; WO1994022131A3; WO1994022131A2; DE69421911T2; EP0691022A1

Description

本発明は、音声認識のための方法及び機器に関するものである。機械を制御するための入力手段として音声認識を使用する。現在のところ、音声認識機器は、一般的に分離された単一の単語を認識している。また、文、あるいは、語句で連続的に話された複数の単語を認識することを目的とした音声認識機器が開発中である；これは、連結音声認識と呼ばれている。
音声認識では、マイクロフォンが、話者からの音声信号を採取して、次に、音声信号がディジタル化され、認識のために処理される。しかしながら、マイクロフォンは、一般的にバックグラウンドノイズ、あるいは、周囲ノイズも採取して、マイクロフォンと音声認識機器との間の電気システムも同様にノイズ（例えば、熱ノイズ、量子化ノイズ、及び−ここで、音声は、電気通信チャネルを通して伝送される−回線ノイズ）を追加する。ノイズは、例えば、無声音の歯擦音といった音声の部分に似ていることがある。従って、単語の正しい認識は、ノイズ、あるいは、無音の初めと終わりに対応する単語の初めと終わりを区別する能力に大きく依存している。音声認識の信頼性が、著しく、音声の正しい初めと終わりを識別することに依存することが示されている。
分離した単語の認識技術を用いて、単語のシーケンスを認識できるようにすることを目的とした一つの音声認識法が、”分離のための連結”（Connected-For-Isolated）技術であり、それは、ＥＰ特許９３３０２５３８．９に説明してあり、また、参考文献に含めてある。この技術は、マイクロフォンからの信号には、単語とノイズの交代期間が含まれ、交互に音声とノイズを認識しようとする、ということを仮定している。
音声認識の一般的な取り組み方は、統計的処理を使用して、そもそも音声が生じる機構に関する仮定は行わない。例えば、British Telecom Technology J.（英国電気通信ジャーナル）、１９８８年４月、第６巻、第２号、１０５ページ、コックスに記述されているように）かくれ(hidden)マルコフモデリング（ＨＭＭ）を使用する。ＨＭＭ認識では、各々の到来する音声フレームを幾つかの状態と比較し、そうした状態の各々に対応する音声フレームの可能性を決定し、生成された状態可能性を認識しようとする異なる単語に対応する状態シーケンスで構成される幾つかの予め決定されたモデルと比較する。単語が認識される間、幾つかの異なる状態シーケンス、すなわち、幾つかの異なる単語が同時に可能であり；すべての単語を受け取った時に最も可能性がある状態シーケンスを選択することによって、いずれの状態シーケンスが観察されたかという最終的な決定が行われる。
幾つかのタイプのＨＭＭ音声認識は、認識中に、認識されている単語を決定するための現在最も可能性があるシーケンスを含む幾つかの可能な状態シーケンスを維持する。
そうしたシーケンス認識装置では、選択された単語を識別する決定が、生成された状態シーケンスに基づいているので、シーケンスが完了するまで決定を行うことができない。受け取った各々のフレームについて、最も可能性がある状態シーケンスを再計算することができるので、単語の終わりが明確に識別されると直ちに、現在最も可能性がある状態シーケンスに対応する認識信号を出力するだけで、認識を行うことができる。認プロセスそれ自身によって開始点及び終了点が生成されるが、これは、認識された単語の選択と共に行われ、別個の予備的な終了点ステップとして行われる訳ではない。
従って、ＣＦＩ認識装置は、ノイズに対応する状態シーケンスを維持して、音声信号中のノイズ−単語−ノイズのシーケンスを認識することによって、自動的に単語の開始と終了を突き止めることができる。しかしながら、多くの単語には、単語の部分の間のギャップ、あるいは、休止部が含まれることがあり、これは、単語の終わりとして誤って認識されることがある。従って、話者が確実に発生を終了するまで、単語の最終的識別を行うべきではない、ということが重要である。
これを行う一つの方法は、明瞭にノイズとして識別できる予め決定された期間の後に”タイムアウト”を設けることである。しかしながら、当該の期間を成功を保証するに充分長くすれば、ユーザにとっていらだたしく長い遅延が生じることが判明している。
従って、本発明の一つの観点（特徴）は、最も有望な状態シーケンスを選択するタイプの認識装置のために音声の終わりを検出する手段を提供することである。
一つの観点では、本発明により、入力発声を音声部分とそれに続くノイズ部分に区分することに基づいて連続的に認識出力を生成するための手段で構成される音声認識システムが得られ、入力音声信号に由来するパラメータを用いて区分を試験することによって、続くノイズ部分の存在を検出するための手段が特徴である。そのパラメータが、あるいは、それぞれのパラメータが入力音声信号のエネルギーに基づくことが望ましい。パラメータが、上述の区分によって示される音声部分とノイズ部分の相対的な大きさを示すパラメータで構成されることが望ましい。付加的に、あるいは、代替的に、パラメータによって、区分に従ってノイズ部分のエネルギーの変動の測度が得られる。いずれの事例においても、幾つかの連続した期間に渡って、エネルギーを平滑化、あるいは、平均化することが望ましく、また、連続する平均から外れるエネルギーの短時間のスパイクの影響を限定するために平均が非線形であることが望ましい。
音声認識装置が、最も有望な単語を選択することによって、ある単語を認識した場合、類似の単語を（例えば、認識装置の語彙にない単語）、あるいは、ノイズのいずれかに基づいて、認識を誤ったという可能性がある。
一定の誤って認識した単語の認識を排除するための手段は、”ＨＭＭの多段階認知とトレースを用いた無関係の入力の排除”、Ｍａｔｈａｎ及びＭｉｃｌｅｔ、１９９１年、ＩＥＥＥＩＣＡＳＳＰ９１第１巻ページ９３〜９６、及び”かくれマルコフモデルを用いた連続音声認識における排除技術”、Ｍｏｒｅｎｏ及びその他、信号処理Ｖ：理論及び応用、１９９０年、Proc.of EUSIPCO-90、第２巻、ページ１３８３〜１３８６（Ｅｌｓｅｖｉｅｒ）に記述されている。
それに応じて、本発明の別の特徴からの目的は、音声認識装置によって識別された後で一定の単語を排除するための改善された手段を提供することである。
従って、本発明の一つの観点によると、音声信号を受け取るための手段；認識しようとする予め決定されたパターンに対する類似性を示すために音声信号を処理するための認識処理手段；上述のパターンのひとつの認識を示す認識信号を供給するための手段手段；及び、予め決定された状態の認識信号を排除するための排除手段で構成される認識システムが得られ、上述の認識手段の出力に依存しない少なくとも一つの信号を受け取るためのパラメータ排除手段が配置されている、ということを特徴とする。
音声信号は、スペクトルについてどちらかといえばゆっくり変動するので、音声認識の際に音声信号を、複数の音声サンプルで構成される、一般的に１０〜１００ミリ秒の持続時間のフレームの時間連鎖に区分することが知られている。音声信号が著しく以前のフレームから変化した場合に新しいフレームのみを生成することによって、そのようにして生成された幾つかのフレームを制限するために、（”音声認識における可変フレーム率分析の使用”、Ｐｏｎｔｉｎｇ及びＰｅｅｌｉｎｇ、ＣｏｍｐｕｔｅｒＳｐｅｅｃｈａｎｄＬａｎｇｕａｇｅ（１９９１）５、１６９〜１７９）が提案されている。
従って、本発明の別の観点によって、可変フレーム率を使用する認識装置に使用するための休止検出手段、及び／あるいは、排除手段が得られる。
本発明の別の観点と実施例は、ここで記述／あるいは、特許請求したとおりであり、下記の記述と図面によって。その利点は明白である。
これから、添付の図面を参照しながら、実例を挙げて本発明を説明する。図面は、次のようなものである：
図１は、本発明に従った認識システムの応用を概略的に示す；
図２は、本発明の実施例に従った図１の認識プロセッサを形成する部分のエレメントを概略的に示すブロック図を示す；
図３は、図２の実施例の分類器を形成する部分のコンポーネントを概略的に示すブロック図を示す；
図４は、図３の分類器の動作を概略的に示すフロー図を示す；
図５は、図２の実施例のシーケンス・パーサを形成する部分の構造を概略的に示すブロック図を示す；
図６は、図５の記憶部を形成する部分内のフィールドの内容を概略的に示す；
図７は、図５のバッファを形成する部分の内容を概略的に示す；
図８は、図５のシーケンス・パーサの動作を概略的に示す；
図９は、図２の実施例の休止検出器を形成する部分の構造を示すブロック図を示す；
図１０は、図９の構造の一部を概略的に示すブロック図を更に詳細に示す；
図１１は、図１０の平均処理部形成部の動作を説明するフロー図である；
図１２は、図１０の装置によって信号からノイズ率を得るプロセスを説明するフロー図である；
図１３は、図１０の装置による信号の差異の測度を形成するプロセスを説明するフロー図である；
図１４は、図１０の構造の部分を更に詳細に示すブロック図である；
図１５は、図１０の組み合わせロジック形成部を更に詳細に示すブロック図である；
図１６は、時間に関する音声信号のエネルギーとエネルギー平均を示し、信号フレームとの一致を示すダイヤグラムである；
図１７は、図２のリジェクタを形成する部分の動作を説明するフロー図である；
図１８は、本発明の第２の実施例の平均に由来するプロセスを説明する図１１に対応するフロー図である；
図１９は、図１８の実施例における時間に対するエネルギーとエネルギー平均のダイヤグラムであり、図１６に対応している。
第１の実施例
図１を参照すると、音声認識を行う電気通信システムは、一般的に、電話の受話器の一般的構成部分であるマイクロフォン１、電気通信ネットワーク（一般的に公共交換回線ネットワーク（ＰＳＴＮ））２、ネットワーク２から音声信号を受信するために接続された認識プロセッサ３、及び、認識プロセッサ３の接続され、そこから認識、あるいは、そうでなければ特定の単語、あるいは、語句を示す音声認識信号を受信し、それに応じて動作を行うために規定された利用装置４で構成される。例えば、利用装置４は、銀行取引を行うための遠隔操作銀行端末であっても良い。
いずれにせよ、利用装置４は、ネットワーク２を介して、一般的に加入者の受話器の一部を形成するスピーカー５に伝送される、話者に対する音響応答を生成する。
動作においては、話者は、マイクロフォン１に向かって話し、アナログ音声信号がマイクロフォン１からネットワーク２を介して認識プロセッサ３に伝達され、そこで、音声信号が分析され、識別、あるいは、特定の単語、あるいは、語句を示す信号が生成され、利用装置４に伝達され、次に、期待する単語、あるいは、語句が認識されると、適切な動作が行われる。
例えば、数字０〜９、”はい”及び”いいえ”を認識して、個人識別番号及び（例えば、明細書、あるいは、特定のサービスを要求する）特定の動作を行うためのコマンド語の範囲を認識できるように、認識プロセッサ３を規定することができる。
図２を参照すると、認識プロセッサ３は、（ディジタル・ネットワークから、あるいは、アナログ−ディジタル・コンバータから）ディジタル形式で音声を受信するための入力３１、連続ディジタル・サンプルを連続サンプルのフレームに区分するためのフレーム・プロセッサ３２；サンプルのフレームから対応する特徴ベクトルを生成するための特徴抽出器３３；連続した特徴ベクトルを受信し、異なる単語、音素、あるいは、語句に対応する複数のモデルを用いて各々に対して動作し、認識結果を生成する分類器３４；及び、分類器３４から分類結果を受信して、分類器の出力のシーケンスが最大の類似性を示す単語を決定するために規定されたパーサ３５で構成される。
また、認識が信頼できない場合にパーサ３５によって認識された単語の認識を排除するために規定された認識リジェクタ３６、及びパーサ３５が単語認識信号を出力できるように単語の終わりに続く休止を検出するために規定された休止検出器３７も設けられている。パーサ３５からの単語認識信号、あるいは、リジェクタ３６からの排除信号が、利用装置４の制御に使用するために、制御信号出力３８に出力される。
フレーム発生器３２
例えば、８，０００サンプル／秒の率で音声サンプルを受信して、１フレーム／２６ｍｓのフレーム率で２５６の連続サンプルで構成されるフレームを形成するために、フレーム発生器３２が配置されている。望ましくは、各々のフレームにウインドウを開け（すなわち、フレームのエッジに向かうサンプルに予め決定された重み付き定数を掛ける）、例えば、ハミング・ウインドウを使用して、フレーム・エッジによって生成された疑似生成物を削減する。好ましい実施例では、ウインドウを作成した影響を改善するために、（例えば、５０％だけ）フレームを重ねる。
特徴抽出器３３
特徴抽出器３３は、フレーム発生器３２からフレームを受信して、各々の事例で特徴のセット、あるいは、ベクトルを生成する。特徴は、例えば、cepstral係数（例えば、”基準システムを用いた音声認識装置及びデータベースの評価について”、Ｃｈｏｌｌｅｔ＆Ｇａｇｎｏｕｌｅｔ、１９８２年Ｐｒｏｃ．ＩＥＥＥｐ２０２６に記述されているようなＬＰＣ cepstral係数、あるいは、mel周波数cepstral係数）、あるいは、”話者認識における瞬間及び遷移スペクトル情報の利用について”、Ｓｏｏｎｇ＆Ｒｏｓｅｎｂｅｒｇ、１９８８年、ＩＥＥＥ翻訳、音響、音声、及び信号処理について、第１６巻、Ｎｏ．６、ｐ８７１に記述されているような各々の係数について係数と先行するフレームの対応する係数値との間の差で構成されるそうした係数の微分値で構成されている。同様に、幾つかのタイプの特徴係数の混合を使用することができる。
下記に論じるので、この実施例では、特徴抽出器３３は、各々のフレームのエネルギーに関する値も抽出する（エネルギー値は、認識で使用される特徴係数の一つであっても良いが、そうである必要はない）。エネルギー値は、フレームのサンプルの平方の和として生成することができる。
最後に、特徴抽出器３３は、各々の連続するフレームについて増大させたフレーム数を出力する。
フレーム発生器３２及び特徴抽出器３３は、この実施例では（モトローラＤＳＰ５６０００、テキアスインスツルメンツＴＮＳＣ３２０、あるいは、類似のデバイスといった）適切にプログラムされた単一のディジタル信号プロセッサ（ＤＳＰ）デバイスで構成される。
分類器３４
図３を参照すると、この実施例では、分類器３４は、分類プロセッサ３４１及び状態メモリ３４２で構成される。
状態メモリ３４２は、複数の音声状態の各々について状態フィールド３４２１、３４２２、．．．．．で構成される。例えば、認識プロセッサによって認識しようとする各々の単語は、６、あるいは、８つの状態で構成され、それに応じて、６、あるいは、８つの状態フィールドが、認識しようとする各々の単語について状態メモリ３４２に設けられる。また、（実際上、単一のノイズ状態だけを設けることができるが）単語の初めのノイズ／無音のための状態フィールド、及び単語の終わりのノイズ／無音状態のための状態フィールドが設けられる。
状態メモリ３４２の各々の状態フィールドは、問題の状態を特徴付ける特徴係数値の多次元ガウス分布を規定するデータで構成される。
例えば、異なるｄ特徴係数がある場合、状態を特徴付けるデータは、定数Ｃ、特徴平均値のセットｕｌ、及びｄ特徴偏差のセット、σｉである；換言すれば、総計で２ｄ＋１数である。
メモリ３４２内の各々の状態フィールドを代わる代わる読み取るために、分類プロセッサ３４が配置されており、現在の入力特徴係数セットを用いて、各々について、入力特徴セット、あるいは、ベクトルが相応する状態に対応するという確率を計算する。それを行うには、図４に示したように、プロセッサ３４１を配置して、次のような方程式を計算する：

幾つかの異なるモード、あるいは、分布によって単一の状態を表現することができる；それに応じて、各々の状態について、状態メモリ３４２を上記の状態フィールドに対応する幾つかのモード・フィールドで構成することができる。この場合、各々のモードについて入力ベクトルがそのモードに対応する確率を計算し、次に、（適切に重み付けされた）モードの確率を合計するために、分類プロセッサ３４１が配置されている。
それに応じて、分類プロセッサ３４１の出力は、状態メモリ３４２の各々について一つずつの複数の状態確率であり、入力特徴ベクトルが各々の状態に対応する可能性を示している。
分類プロセッサ３４１は、適切にプログラムしたディジタル信号処理デバイス（ＤＳＰ）とすることができ、特に、特徴抽出器３３と同じディジタル信号処理デバイスとすることができる。
パーサ３５
図５を参照すると、この実施例のパーサ３５は、状態シーケンス・メモリ３５２、文法解析プロセッサ３５１、及びパーサ出力バッファ３５４で構成される。
また、処理された各々のフレームについて、確率プロセッサ３４１によって出力された状態確率を記憶する状態確率メモリ３５３が設けられている。状態シーケンス・メモリ３５２は、各々、認識しようとするノイズ−単語−ノイズ・シーケンスに対応する複数の状態シーケンス・フィールド（及び、ノイズのみのシーケンスに対応する一つのフィールド）で構成される。
状態シーケンス・メモリ３５２の中の各々の状態シーケンスは、図６に示すように、幾つかの状態Ｐ1、Ｐ2、ＰN（ここで、Nは、６、あるいは、８である）、各々のシーケンスについて、２つの確率；繰り返し確率（Ｐ11）及び次に続く遷移確率（Ｐ12）で構成される。ＣＦＩ認識装置の場合、最初と最後の状態は、ノイズ状態である。従って、一連のフレームと関連した状態の観察したシーケンスは、各々の状態シーケンス・モデル３５２１、等の各々の状態Ｐ1の幾つかの状態の繰り返しで構成される；例えば：

従って、あるフレーム番号では（ここでは、フレーム番号３）、観察したシーケンスは、初期ノイズ状態から、次の音声状態に移動する；この遷移は、認識しようとする単語の始まりを示す。同様に、あるフレームでは（ここでは、フレームＺ）、シーケンスは、認識しようとする単語の終わりに続くノイズ、あるいは、無音に対応する最後の状態Ｐnに到達する。従って、フレームＺは、認識しようとする単語の終わりに対応する。
図８に示したように、各々のフレームで、確率プロセッサ３４１による状態確率出力及び状態確率メモリ３５３の中の以前に記憶された状態確率を読み取り、最も有望な期間全体に渡って日付に対する状態の推移を計算して、それを、状態シーケンス・メモリ３５２に記憶された各々の状態シーケンスと比較するために、文法解析プロセッサ３５１が配置されている。
計算には、上記の参考として挙げたＣｏｘの論文に記述されたよく知られた陰マルコフモデル法を用いる。都合の良いことに、文法解析プロセッサ３５１によって実行されたＨＭＭ処理では、良く知られたヴィテルビ・アルゴリズムが使用される。文法解析プロセッサ３５１は、例えば、インテル（TM）ｉ−４８６（TM）マイクロプロセッサ、あるいは、モトローラ（TM）６８０００マイクロプロセッサとすることができ、あるいは、その代わりに、（例えば、先行するプロセッサのいずれかに使用されたものと同じＤＳＰデバイス）ＤＳＰデバイスとすることができる。
それに相応して、（単語に対応する）各々の状態シーケンスについて、入力音声の各々のフレームで、パーサ・プロセッサ３５１によって確率スコア（得点）が出力される。最も有望な状態シーケンスの一致、すなわち、認識された単語は、話者による発声の持続期間中にかなり変化することがある。
パーサ出力バッファ３５４は、各々、認識しようとする単語に対応する複数のフィールド３５４１、３５４２、．．．（及び、ノイズのみのシーケンスに対応するフィールド）で構成される。図７に実例として示したように、各々のフィールドは、現在のフレームについて、存在する対応する単語の可能性（見込み、likelihood）、及び２つのフレーム番号を示す確率スコアＳ；ノイズ−単語−ノイズが観察されたフレームのシーケンスの単語の最初のフレーム（発声開始sp_st）；及び単語の最初のフレームを示す第２の（発声終了sp_end）で構成される。発声開始（sp_st）の前に、観察されたシーケンスの状態は、初期ノイズで構成され、発生終了の後で、観察されたシーケンスの状態は、最後のノイズに対応する。もちろん、各々のフィールド３５４１、３５４２、・・・のフレーム番号は、互いに異なる。
休止（ポーズ）検出器３７
図９を参照すると、休止検出器３７は、信号ベース検出器３７０、及びモデル・ベース検出器３７５で構成されている。信号ベース検出器３７０は、音声信号から抽出されたパラメータを受信するために、特徴抽出器３３に接続されている。本実施例では、パラメータは、フレーム・エネルギー、あるいは、フレーム・エネルギーに基づいた何らかのパラメータである。
モデル・ベース（モデル応用の）検出器３７５は、現在の最良状態シーケンスの表示を受信するために、パーサ３５に接続されている。特に、モデル・ベース検出器３７５が配置されており、パーサ出力バッファ３５４から、もしあるとすれば、現在の最も有望な状態シーケンスの最終ノイズ状態の始まりのフレーム番号を読み取り、現在のフレーム番号（sp_end）からそれを減算して、現在、認識されたと想定される単語の終わりに続く期間の長さを見付け出す。
信号ベース休止検出器３７０とモデル・ベース休止検出器３７５の出力は、ロジック３７８によって組み合わされて、出力３７９の休止検出信号を生成する。
図１０を参照すると、信号ベース休止検出器３７０は、幾つかの先行するエネルギー値に関する移動平均エネルギー・レベルを保持する移動平均処理部３７１、ＳＮ比（ＳＮＲ）検出器３７２、及びノイズ差異（ノイズバリアンス、ＮＶＲ）検出器３７３で構成され、ロジック３７８によって組み合わされるために、その出力が供給される。
また、連続フレームに対応する移動平均エネルギー値を保存するために、平均処理部３７１の出力に接続された平均エネルギー・レベル・バッファ３７４が設けられている。
移動平均処理部３７１
図１１に示したプロセスを実行するために、移動平均処理部３７１が組織的に配置されている。この実施例のプロセスでは、各々のフレームについて、フレームのエネルギーが特徴抽出器３３から読み取られ、記憶された移動平均値から減算されて、差分値が得られる。差分値が閾値、あるいは、予め決定された絶対値のステップと比較される。差が＋／−ステップ値の範囲内であれば、移動平均は影響を受けないが、定係数、あるいは、図１１に示したように、移動平均からのプラスの差については最初の定係数（上方係数）及び移動平均からのマイナスの差については第２の定係数（下方係数）で割られた差に等しく設定することによって、ステップの値が削減される。
他方、現在のフレーム入力値と記憶された移動平均との間の差がステップ値を超過する場合は、差の大きさに応じて、ステップ値だけ移動平均を増大、あるいは、削減する。次に、ステップ値を以前のように更新する。
このプロセスの効果は次のようなものである。まず、移動平均を維持するプロセスによるエネルギー値の平滑化が行われる。従って、瞬間移動平均は、過去のエネルギー・レベルを考慮に入れた現在のフレームのエネルギー・レベルの平滑化された値を示す。
第２に、閾値試験を行うことによって、以前の平均エネルギー・レベルから大幅に異なる高いプラス、あるいは、マイナスのエネルギー・レベルをまず無視するように、非線形性がプロセスに導入される。しかしながら、閾値が大幅に拡大されるので、高エネルギー・レベルが維持されれば、それが結局閾値内に入り、移動平均に影響を与える。
従って、ノイズ・スパイクを原因とする短時間持続する高エネルギー・レベルは、閾値ステージが理由で、移動平均エネルギー・レベルには殆ど、あるいは、全く影響を与えない。しかしながら、例えば、音声への遷移を原因とする純粋に高いエネルギー・レベルは、結局、移動平均エネルギー・レベルに影響を与える。従って、閾値は、時間に適合可能なので、到来するエネルギー・レベルは、現在の平均に密接に対応して、閾値、あるいは、ステップ・レベルが累進的に低レベルに減少するが、到来するエネルギー・レベルが平均からずれる場合は、閾値は始めは低いままであるが、次に拡大する。
平均処理部３７１は、次に、平均レベルを維持するよう動作し、その平均レベルは、幾分移動平均のような挙動を示す。
ＳＮＲ検出器３７２
ＳＮＲ検出器３７２が各々のフレームに配置され、パーサ３５が現在最も有望な認識された単語の開始及び終了フレームとして識別したフレーム番号を入力して、平均エネルギー・レベル・バッファ３７４を読み取って、音声として識別された現在のフレームに関する代表的なエネルギー・レベル、及びノイズとして表現された現在のフレームに関する代表的なエネルギー・レベルを決定する。
本実施例では、代表的な測度は、ノイズ・セグメントに関する平均連続エネルギー・レベル、及び音声セグメントに関するピーク平均エネルギー・レベルで構成される。ＳＮＲ検出器３７２の動作を図１２に示してある。
計算したＳＮ比値、ＳＮＲが予め決定された閾値よりも大きい場合は、ＳＮＲ休止検出器３７２が、休止が発生したことを示す信号を出力する（すなわち、音声が終わったことである）。ＳＮＲ値が、閾値以下であった場合は、休止が認識されなかったことを示す信号が出力される。
ＳＮＲ測度が、正しい単語の終わりが識別されたかどうかの有用な識別子であることが判明した。これは、一部はパーサ３５によって単語の始まりと終わり（及び、一致）が誤って認識されることによって、音声フレームが、平均ノイズ・レベルを計算するために使用された音声フレームに含まれることになり、閾値いかに計算されたＳＮＲの値が削減されるので、休止が誤って認識されることはない。ＳＮＲを計算する際に音声に関する特性エネルギー・レベルとしてピーク・エネルギー・レベルを使用することによって、一般的に逆効果を避けることができる。というのは、一般的に、（完全に誤った認識を行わない限り）ピークが単語の誤った始まりと終わりの識別の影響を受けないからである。
ＮＶＲ検出器３７３
図１３を参照すると、ＮＶＲ検出器３７３が配置されており、最後のＮ1（ここで、Ｎ1は、予め決定された定数である）移動平均エネルギー・レベルをバッファ３７４から読み取り、最大及び最小値を見いだし、最大値と最小値との間の比率を計算する。この比率は、最も最近のＮ1フレームに関するエネルギー・レベルの変動量を示すものである。変動のレベルを閾値と比較した場合；変動が高レベルであることは、先行するＮ1フレームにある音声が含まれている可能性を示し、他方、予め決定された閾値と比較して変動が低レベルであることは、最後のＮ1フレームにノイズだけが含まれている可能性を示すので、ＮＶＲ検出器３７３が休止検出信号を出力する。
音声の終わりに続く無音期間のエネルギー・レベルが低い場合があるので、比率、状況によっては非常に小さい数の分割に対応することがある。それに相応して、最小平均エネルギーが予め決定された閾値レベル（例えば、１）以下に低下するような計算の単一性を避けるために、最大値と最小値との間ではなく、最大値と決定されたレベルとの間で計算を行う。
差異の他の測度（例えば、最大値と最小値との間の差）を用いることができるが、信号強度全体の全差異が考慮に入れられるので、比率が望ましい。
モデル・ベース検出器３７５
図１４に示したように、モデル・ベース休止検出器は、第１及び第２のタイムアウト検出器３７６ａ、３７６ｂで構成されており、パーサ３５から、現在識別された音声の終了／ノイズの開始のフレーム数を入力して、第１の比較的短い閾値Ｎ1と第２の比較的長い閾値Ｎ2に対して、このフレームと現在のフレームとの間の差Ｎを試験するするよう配置されている。例えば、単語内の短いギャップの長さの程度になるように（すなわち、２０〜６０フレーム、及び、都合良くＮＶＲ検出器３７３に使用した試験と同じ長さ）Ｎ1を選択し、大幅に長くなるように（すなわち、２分の１秒程度）Ｎ2を選択する。
また、ノイズ・スコア・テスタ３７７も設けられており、パーサ３５から、現在最も有望な状態シーケンスに対応する終わりのノイズに関する可能性スコアを読み取り、予め決定された閾値に対してスコアを試験し、ノイズ・スコアが閾値を越えた場合に”休止検出”信号を出力するよう配置されている。
最後に、第３のタイムアウト検出器３７６ｃが設けられており、長いタイムアウトＮ3に対して、日付に対するフレームの総数（現在のフレーム数）Ｔを試験して、早期に音声の終わりを検出しなかった場合に、認識プロセスを終了する。
組み合わせロジック３７８
図１５を参照すると、検出器３７６ｂ、３７７、３７２、及び３７３の出力が、ＡＮＤ関係で接続され、４つの組み合わされた出力がＯＲ関係で検出器３７６ａ及び３７６ｃの出力と接続される、ということが分かる。
従って、認識の開始から長いタイムアウト（Ｎ3フレーム）の終結後か、あるいは、ノイズが始まった後の比較的長いタイムアウト（Ｎ2フレーム）の後、あるいは、比較的短いタイムアウト（Ｎ1フレーム）の後で休止が検出され、それに続いて、ノイズ・スコアが高に、ＳＮ比が高に、及びノイズの差異が低になる。
図１６には、単語に関するエネルギー及び平均エネルギーＲＭ（ｔ）を示してある。
リジェクタ３６
リジェクタ３６が配置されており、休止検出器３７の動作後に、パーサ３５による単語の識別の信頼性（コンフィデンス、確信度）のレベルを試験する。識別が疑わしい場合は、その識別が排除される。識別に自信がなければ、リジェクタ３６によって”照会”信号が発行され、利用装置４が、例えば、”．．．（識別された単語）と言いましたか”といった語句を合成して、確認の対話を開始するか、あるいは、その単語を繰り返すようユーザに求めることが可能になる。る。
図１７を参照すると、リジェクタ３６の一般的な動作は、次のようなものである：
第１に、信号が無音、あるいは、ノイズのみの検出に対応するかどうかをリジェクタが試験する。パーサ３５によって検出された最も有望なシーケンスがノイズのみの状態を含むシーケンスに対応する場合に、それが行われる。また、ＳＮＲ検出器３７２によって計算されたＳＮＲが非常に低い閾値以下であるかどうかを試験することによって、無音も検出される。いずれの場合でも、検出器３７６ａによって行われた試験も満たされるならば、単語が検出されなかった（無音）ことがリジェクタによって表示される。
第２に、リジェクタは、排除試験（下記で詳細に論じる）を行って、比較的緩い閾値に対して結果を試験する。比較的緩い閾値が満たされない場合には、その識別が排除される。
比較的緩い閾値が満たされた場合は、比較的厳しい閾値に対して試験が繰り返される。比較的厳しい閾値が満たされた場合は、識別され単語が合格したことが表示される。厳しい閾値が満たされなかった場合は、照会出力が生成され、利用装置がユーザに照会することが可能になる。
リジェクタによって行われる試験は次のようなもので構成される：
１）パーサ３５による最も有望な経路について生成された確率スコアＳの試験（語彙にない単語の排除）
２）騒音状態と語彙にない単語を排除するための、ＳＮＲ休止検出器３７２によって計算されたＳＮ比を用いた試験。
３）ＮＶＲテスタ３７３によって計算された（騒音状態を排除するための）ノイズ差異を用いた試験。
４）最も有望な経路についてパーサによって生成されたスコアと第２の最も有望な経路について生成されたスコアとの間の比率の試験；及び、オプションとして
５）特定の混同し易い単語間で行われる試験（例えば、パーサ３５によって認識された最も有望な単語が”５”であって、第２の最も有望な単語が”９”である場合、２つの間の差、あるいは、比率を試験することができる。）
従って、リジェクタ３６は、単語を受け入れるか、この場合、パーサ３５の出力は、出力３８に伝達される；あるいは、無音が存在することが表示される（すなわち、単語が存在しない）、ここで、無音を識別する信号が出力３８に伝達される；あるいは、パーサ３５によって、単語の識別が排除、あるいは、照会される。この場合、パーサ３５の出力が禁止され、対応する”排除”、あるいは、”照会”制御信号が出力３８に伝達され、利用装置４による処置が可能になる。
第２の実施例
第２の実施例では、特徴発生器３３が配置されており、新たに生成された特徴係数のセットが、最後の特徴係数の出力セットと比較されて、以前のセットからの全体的差が予め決定された閾値よりも大きければ、特徴係数の新しいセットだけが出力される。例えば、距離は、絶対差の合計、あるいは、”都市ブロック”距離測度、あるいは、その他の好都合な測度とすることができる。
この技術によって、例えば、６０％の程度で、分類器３４とパーサ３５により必要とされる計算の量を大幅に削減することができる、ということが判明している。更に、ＨＭＭプロセスで、後の状態が互いに独立しているものと仮定され、それによって、係数の連続した各々のセットが、先行するセットから大幅に異なる原因となるので、本実施例では、ある種の状況では仮定の妥当性を増大させることができる。
この場合、分類器３４とパーサ３５の動作が大幅には変わらない、ということが判明している。しかしながら、平均には、連続するフレーム間の期間の持続時間を考慮に入れる必要があるので、信号ベース休止検出器３７０、特に、移動平均処理部３７１の動作が変わっている。
本実施例では、特徴抽出器３３が、休止検出器３７に各々のフレームに関連した番号Ｎ（ｔ）を生成、供給する。この番号は、そのフレームと特徴抽出器３３によって出力された最後のフレームとの間のフレーム数を示している。
また、特徴抽出器３３は、各々のフレームのエネルギーを累積して、各々の特徴係数のセットでの累積エネルギーＥ（ｔ）を供給し、この特徴係数は、その係数のセットを生じさせるエネルギーと、そのフレームと特徴抽出器３３によって出力された以前のフレームとの間のすべての別のフレームのエネルギーの合計に相当する出力である。
図１８を参照すると、本実施例では、平均処理部３７１は、累積エネルギーＥ（ｔ）とＶＦＲフレームで表現されるフレーム数Ｎ（ｔ）を読み取って、Ｎ（ｔ）でＥ（ｔ）を除算することによって、各々の介在フレームに関する平均エネルギーを生成する。次に、平均処理部は、主として、各々平均エネルギーを有するＮ（ｔ）連続フレームを受け取る影響をシミュレーションして、それに応じて、移動平均を増大、あるいは、減少させる。
しかしながら、ＳＮ比計算に使用された平均連続エネルギー値が正しいことを保証するために、Ｎ連続移動平均を平均化し、移動平均を累積し、次に、計算の終わりでＮ（ｔ）で正規化することによって、ＶＦＲフレームについて計算した最終平均エネルギー・レベルＲＭ（ｔ）を見付ける。
従って、本実施例では、出力バッファ３７４に保存された数は、係数発生器３３によって可変速度で生成された特徴係数の各々のフレームに関する値ＲＭ（ｔ）で構成され、この係数は、現在のフレームに先行する信号フレームの平均レベルに対応する。
実際、本実施例では、最小及び最大エネルギー・レベルは、最初の実施例よりも明確に定義されない。というのは、特徴抽出器３３で実行された先行するフレームのエネルギーを累積するプロセスが、鋭いピークを平坦化するか、あるいは、入力音声信号のエネルギー・レベルの中に埋め込んでしまう役割を果すからである。
本実施例では、もちろん、そうしたフレームによって、認識のために特徴ベクトルを出力させるかどうかに拘りなく、平均処理部３７１の代わりに、特徴発生器３３が受け取った各々の信号フレームから各々のエネルギー・レベル受け取って、処理することができる。しかしながら、これには、更に計算とバッファ保持の必要がある。
本実施例では、省略したフレームの数Ｎ（ｔ）を蓄積して、次に、それを用いて、音声Ｎの終わりからの時間を計算して算出したフレーム数を維持することによって、現在の係数ベクトルを生成した変動率を考慮に入れるために、検出器３７６ａ、３７６ｂによって算出された休止試験を計算する。
図１９には、単語に関するエネルギー及び平均エネルギーＲＭ（ｔ）を示してある。
発明の利点
前述の実施例から、本発明の観点には幾つかの利点がある、ということが分かる。
能動的に音声信号を吟味する休止検出器を連続音声認識装置に設けることによって、入力された単語、語句、あるいは、文を急速に認識することができる。音声検出器によって想定された音声／ノイズ・モデルとは別個のパラメータを休止検出器に吟味させることによって、より大きい信頼性が保証される。エネルギー・ベースの測度は、音声及びノイズを区別する際に特に有効であるということが判明しており、特に、認識装置によって使用されるノイズ−音声−ノイズ・モデルが正しいという仮定に基づいて生成された信号レベルとノイズ・レベルとの間の差を試験（特に、ＳＮ比の測度）することが、その仮定が正しいことを確認する有効な手段であるということが判明している。更に詳しく述べれば、音声期間に関するピーク値とノイズ期間に関する平均値との間で計算されたＳＮ比が有効であることが判明している。
休止の検出、あるいは、識別された単語の排除といったその他の目的の基礎として、信号エネルギーの平均化、あるいは、平滑化された測度を使用するすることが有効であり；特に、移動平均測度、及び更に厳密に言えば、ノイズ・スパイクを濾波する非線形平均が好ましい、ということが判明している。信号のエネルギーの平均ではなく、中央値を近似的に追跡するように、アルゴリズムを定めることが好ましい。
別の観点から見れば、予め決定された量だけ移動平均を増大、あるいは削減するよう、アルゴリズムを規定するか、あるいは、入力エネルギー・レベルと移動平均との間の差に応じて、予め決定された量を適合させることが好ましい。
更に、信号エネルギーの変動（更に詳しく言えば、平滑化、及び平均化された信号エネルギーの変動）の測度を使用すれば、良好な識別が可能になり、ノイズだけが存在するかどうかを決定することができるということ；特に、ノイズだけが存在する場合は、ピーク・エネルギーと最小エネルギーとの間の比率の測度が、一般的に低いということが判明している。それに相応して、認識プロセスで生成されたノイズ−単語−ノイズ・モデルを確認するために、この試験を用いることができる。
上記の試験は、有利ではあるが、必ずしも、ノイズの認識で生成されたスコアの試験及び、認識されたノイズが始まってからの時間の長さの試験といった、認識装置の出力自身に基づいた試験と組み合わせる必要はない。
上記で説明した信号ベースの試験が、異なる閾値を用いて、上記のように不安定な認識条件の下で、認識された単語を後に排除するための基礎を得るために、同様に有効であることが判明している。
発明の別の観点及び実施例
前述から、説明した実施例は、単に本発明の実例であるので、それに限定されるものではない、ということが明らかである。上記で明確に説明したか、あるいは、熟練した人物にとって明確であるかどうかに拘りなく、特に、説明した実施例の様々な新しい特徴には、別個の利点があり、そうした利点のある各々の特徴、及び、そうした特徴の有利な組み合わせに対して別個に保護を求める。
ガウスの連続密度分類器を使用することを、ここに記述したが、ベクトル量子化を用いる分類器も、同様に使用することができる。同様に、別のタイプのシーケンス処理（例えば、ダイナミック・タイム・ワープ）を使用することもできる。
”繰り返し”確率と”遷移”確率のみを論じたが、一つおいて次、及び、二つおいて次（等）の状態への遷移の確率（スキップ遷移）が、良く知られており、同様に使用することができる。同様にまた、単語とノイズについて上記で述べた幾つかの状態も、純粋に実例である。
特定の実施例を詳細に説明したが、適切に構成、あるいは、プログラムしたディジタル、あるいは、アナログ・ハードウエアを用いて、それ以外の実施例を実現することができる。
「ノイズが先行及び後に続く」孤立した単語を認識する認識構文を説明したが、本発明は、同様に連結語認識にも応用することができる。この場合、状態シーケンス・モデルは、ノイズ−単語１−単語２−・・・単語Ｎ−ノイズのシーケンスを表現し、ＳＮＲ及びノイズ差異試験は、音声ポイントの終了後のノイズにのみ応答することが好ましい。
音声認識を説明したが、他のタイプの認識（例えば、話者認識、あるいは、確認）に関連して同じ技術を使用することは排除しない。
保護の範囲は、実質的に同じ結果を達成するか、あるいは、同じ原理、あるいは、動作を用いて、実質的に異なる結果を達成する同等の構造物と共に、ここに添付したクレームの範囲内のすべての構造物を包含することを目的としている。

Claims

ａ）音声信号を受信するための入力手段（１）と；
ｂ）音声信号を処理して、該音声信号が対応しているとして認識される所定のパターンを同定識別する認識信号を生成する認識プロセス用手段（３）と；
ｃ）前記認識信号が供給される出力手段（３８）と；を備え、
前記認識プロセス用手段（３）は該音声信号を継続する時間的部分のシーケンスに区分けして、該シーケンスを、
ｉ）前音声ノイズもしくは無音部分間で区分けされたパターン部分、
ｉｉ）音声パターン部分、及び、
ｉｉｉ）後音声ノイズもしくは無音部分、
についての対応するシーケンスと比較するようにされていて、さらに、
ｄ）前記後音声部分内及びその開始後の時点の到来を検出するための休止検出手段（３７）を備え、該休止検出手段（３７）は該認識プロセス用手段（３）により実行された後音声部分の開始(sp-end)の認識に応答するものであり、
該休止検出手段（３７）は、前記認識信号の生成後に、前記開始(sp-end)とは独立している前記音声信号から得られた少くとも１つの信号パラメータを受けるようにされており、また、前記開始(sp-end)後に、前記開始(sp-end)と前記信号パラメータとの両方に依存する検出動作を繰返して実行し、前記認識信号を前記出力手段（３８）に向けて、前記時点の検出で、ルート設定して、そこに接続された利用装置（４）の即座の動作を可能とするようにされていることを特徴とすろ認識システム。
前記パラメータは前記音声信号のエネルギーと関係している請求項１記載のシステム。
前記休止検出手段（３７）は前記パラメータを時間にわたり平滑化するため手段（３７１）を備えている請求項１または２記載のシステム。
前記認識プロセス用手段（３）はノイズもしくは無音を認識するようにされており、また前記休止検出手段（３７）はノイズもしくは無音の前記認識の確信度に応答するようにされている請求項１ないし３のいずれか１項記載のシステム。
前記休止検出手段（３７）は前記パターンを含んでいる部分に続く無音もしくはノイズ部分の継続期間に応答するようにされている請求項１ないし４のいずれか１項記載のシステム。
ａ）音声信号を受信するための入力手段と、
ｂ）音声信号を処理するための認識プロセス用手段と、
ｃ）認識された音声パターンを示すための出力手段とを備えた電子認識システムを動作する方法であって、該方法は音声の終了後の時点の到来を検出するためのものであり、該方法は、
ｉ）該入力手段で受けた音声信号についての次に生ずる時間的部分を前処理する段階と；
ｉｉ）音声信号が対応しているとして認識されている、所定のパターンを識別する認識信号を生成する時間部分と先行する時間部分について認識プロセスを実行する段階と；
ｉｉｉ）該時点が発生したかどうかを認識する段階とからなり、該認識する段階ｉｉｉ）は、
ｉｖ）前記認識プロセス用手段によって実行された音声とノイズとの間の区分けとは独立している音声信号から少くとも１つの信号パラメータを求める段階と；
ｖ）前記区分けに依存する少くとも１つのパラメータを求める段階と；
ｖｉ）前記両パラメータを勘案して前記時点が到来したか否かを判断する段階と；
の副段階を備えていることを特徴とする電子認識システムを動作する方法。