JP2000242294A

JP2000242294A - 音声認識システムおよび方法

Info

Publication number: JP2000242294A
Application number: JP2000045353A
Authority: JP
Inventors: David Erik Chevalier; デイビット・エリック・シェバリエ; Henry L Kazecki; ヘンリー・エル・ケイゼッキ
Original assignee: Motorola Inc
Current assignee: Motorola Solutions Inc
Priority date: 1999-02-23
Filing date: 2000-02-23
Publication date: 2000-09-08
Anticipated expiration: 2020-02-23
Also published as: BRPI0001268B8; US6275800B1; CN1264892A; JP4354072B2; KR100321565B1; MXPA00001875A; DE10006930B4; CN1171201C; KR20000071367A; DE10006930A1; GB2347252A; GB0003269D0; GB2347252B; BRPI0001268B1; BR0001268A

Abstract

(57)【要約】【課題】音声認識システムを提供する。【解決手段】音声認識システム２０４，２０６，２０
７，２０８は、トレーニング中に測定される少なくとも
一つの背景雑音レベルと、認識動作モード中に行われる
入力発声の際に行われる雑音信号測定との関数として、
可変阻止厳密度を生成する。単語エントランス・ペナル
ティは、この可変阻止厳密度の関数として割り当てられ
る。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声認識(voice recog
nition)に関する。

【０００２】

【従来の技術】話者依存型の音声認識システムは、特徴
抽出アルゴリズム(feature extraction algorithm)を利
用して、入力音声のフレームに対して信号処理を実行
し、各フレームを表す特徴ベクトル(feature vectors)
を出力する。この処理は、フレーム・レートにて行われ
る。フレーム・レートは、一般に１０〜３０ｍｓの間で
あり、ここでは２０ｍｓの期間として例示する。非常に
多くの異なる特徴は、音声認識システムにて用いられる
ことが知られている。

【０００３】概して、トレーニング・アルゴリズム(tra
ining algorithm)は、単語(word)または語句(phrase)の
一つまたはそれ以上の発声(utterance)の標本化音声か
ら抽出された特徴を利用して、この単語または語句のモ
デルのためのパラメータを生成する。このモデルは、モ
デル格納メモリに格納される。これらのモデルは、後で
音声認識中に利用される。認識システムは、未知の発声
の特徴を格納済みモデル・パラメータと比較して、最良
一致(best match)を判定する。そして、最良一致モデル
は、認識システムから結果として出力される。

【０００４】この処理のために隠れマルコフ・モデル
（ＨＭＭ：Hidden Markov Model)方式の認識システムを
利用することが知られている。ＨＭＭ認識システムは、
発声のフレームをＨＭＭの状態に割り当てる。最大の確
率、すなわちスコアを生成するフレーム対状態の割り当
ては、最良一致として選択される。

【０００５】多くの音声認識システムは、有効な発声と
無効な発声とを区別しない。むしろ、これらのシステム
は、格納済みモデルのうち最も近い一致であるモデルを
選択する。あるシステムは、無効な発声を検出・阻止し
ようとするアウト・オブ・ボキャブラリ阻止アルゴリズ
ム(Out-of-Vocabulary rejection algorithm)を利用す
る。これは、ボキャブラリのダイナミックなサイズおよ
び未知の構成のため、小さなボキャブラリの話者依存型
音声認識システムでは困難な問題である。これらのアル
ゴリズムは雑音の多い条件下では劣化し、そのため雑音
の多い条件下における誤阻止の数が増加する。

【０００６】実際には、アウト・オブ・ボキャブラリ阻
止アルゴリズムは、無効な発声の適切な阻止によって測
られる性能と、有効な発声の誤阻止とのバランスをとら
なければならない。誤阻止レートは、利用者満足度の点
で重要な役割を果たすことがあるが、これは、正しくな
い一致などの頻繁な誤阻止により不満が生じるためであ
る。従って、アウト・オブ・ボキャブラリ阻止は、認識
に対するユーザの期待を満たすバランスである。

【０００７】

【発明が解決しようとする課題】そのため、雑音レベル
に基づいて阻止閾値を算出することが知られている。例
えば、第１音声フレームの検出前に、雑音レベルを測定
することが知られている。閾値は、この測定から算出さ
れる。単語基準パターンと入力音声パターンとの間の差
が阻止閾値よりも大きい場合、入力は阻止される。従っ
て、このようなシステムは、任意の雑音入力レベルに依
存する。このような測定は、有意義な阻止判定を行うの
には信頼できない。

【０００８】従って、音声認識システムにおいて発声を
阻止するための基盤を提供する改善された方法が必要と
される。

【０００９】

【実施例】本発明は、トレーニングおよび認識中に背景
雑音レベル(background noise level)に依存する、可変
阻止厳密度(variable rejection strictness)を有す
る。トレーニング中に、トレーニング発声から雑音特徴
(noise features)が生成される。インクリメンタル雑音
基準平均(incremental noise reference mean)は、この
雑音特徴から更新される。統計はメモリに格納され、こ
の統計は認識システムによって利用可能になる。雑音統
計は、ハンドフリー・モードにおけるトレーニング中に
は更新されないが、これは背景雑音のレベルが高くなる
ためである。雑音統計がない場合、認識アルゴリズムは
ディフォルトで最小厳密度になる。

【００１０】認識中では、入力雑音エネルギ特徴(input
noise energy feature)は、基準雑音統計と比較され、
雑音比(noise ratio)が算出される。そして、アウト・
オブ・ボキャブラリ阻止アルゴリズムの厳密度は、この
雑音比に基づいて選択される。本発明は、雑音が存在す
る場合に、有効発声の誤った阻止を防ぐのを助ける。

【００１１】厳密度パラメータは、２レベル整合アルゴ
リズム(two level alignment algorithm)認識検索にお
ける単語エントランス・ペナルティ(word entrance pen
alty)である。最良経路の信頼度測定(confidence measu
rement)は、音声タグ・モデル(voice tag model)と並行
して、ゼロ平均１状態ガーベッジ・モデル(zero meanon
e state garbage model)として実施される。

【００１２】本発明が有利に採用される装置１００を図
１に開示する。装置１００は、ここでは図示のために携
帯無線電話として説明されるが、コンピュータ，パーソ
ナル・デジタル・アシスタントまたは音声認識を有利に
採用できる任意の他の装置や、特に、メモリ効率的な音
声認識システムを活用できる装置でもよい。図示の無線
電話は、アンテナ１０６に結合された送信機１０２およ
び受信機１０４を含む。送信機１０２および受信機１０
４は、呼処理機能を実行する呼処理装置(callprocesso
r)１０８に結合される。呼処理装置１０８は、デジタル
信号プロセッサ（ＤＳＰ），マイクロプロセッサ，マイ
クロコントローラ，プログラマブル論理ユニット，上記
の２つまたはそれ以上の組み合わせ、もしくは任意の他
の適切なデジタル回路を利用して構築できる。

【００１３】呼処理装置１０８は、メモリ１１０に結合
される。メモリ１１０は、ＲＡＭ、ＥＥＰＲＯＭ(elect
ronically erasable programmable read only memor
y)，ＲＯＭ，フラッシュＲＯＭなど、もしくはこれらの
種類のメモリの２つまたはそれ以上の組み合わせを含
む。メモリ１１０は、音声認識動作を含め、呼処理装置
１０８の動作をサポートし、また状態遷移経路メモリ(s
tate transition path memory)をサポートするために電
子的に変更可能なメモリを含んでいなければならない。
装置動作プログラムを格納するために、ＲＯＭを設ける
ことができる。

【００１４】音声回路１１２は、マイクロフォン１１４
から呼処理装置１０８にデジタル化信号を与える。音声
回路１１２は、呼処理装置１０８からのデジタル信号に
応答してスピーカ１１６を駆動する。

【００１５】呼処理装置１０８は、ディスプレイ・プロ
セッサ１２０に結合される。ディスプレイ・プロセッサ
は、装置１００のために追加のプロセッサ・サポートが
望ましい場合にあってもよい。特に、ディスプレイ・プ
ロセッサ１２０は、ディスプレイ制御信号をディスプレ
イ１２６に与え、キー１２４から入力を受ける。ディス
プレイ・プロセッサ１２０は、マイクロプロセッサ，マ
イクロコントローラ，デジタル信号プロセッサ，プログ
ラマブル論理ユニット，それらの組み合わせなどを利用
して構築できる。メモリ１２２は、ディスプレイ・プロ
セッサ内のデジタル論理をサポートするためにディスプ
レイ・プロセッサに結合される。メモリ１２２は、ＲＡ
Ｍ，ＥＥＰＲＯＭ，ＲＯＭ、フラッシュＲＯＭなど、も
しくはこれらの種類のメモリの２つまたはそれ以上の組
み合わせを利用して構築できる。

【００１６】図２を参照して、マイクロフォン１１４が
受けた音声信号は、音声回路１１２のアナログ・デジタ
ル・コンバータ２０２においてデジタル信号に変換され
る。当業者であれば、音声回路１１２は、濾波などの更
なる信号処理を行うことが理解されるが、これらの処理
は簡略にするために説明しない。呼処理装置１０８は、
マイクロフォン１１４によって出力されたアナログ信号
の処理されたデジタル信号表現に対して特徴抽出(featu
re extraction)２０４を実行し、ユーザ発声を表す特徴
ベクトル(feature vectors)のセットを生成する。特徴
ベクトルは、各短時間解析ウィンドウ(short time anal
ysis window)について生成される。短時間解析ウィンド
ウとはフレームのことであり、このフレームは、本明細
書に示す例では２０ｍｓである。従って、１フレーム毎
に１つの特徴ベクトルがある。プロセッサ１０８は、音
声認識２０６またはトレーニング２０７のためにこれら
の特徴を利用する。

【００１７】トレーニング時に、発声の特徴ベクトル
は、ＨＭＭ形式のテンプレート(templates)を生成する
ために用いられ、これらのテンプレートはメモリ２０８
に格納される。音声認識時に、入力発声を表す特徴ベク
トルは、メモリ２０８に格納されたボキャブラリ単語の
テンプレートと比較され、ユーザが何を言ったのかを判
定する。本システムは、最良一致を出力しても，最良一
致のセットを出力しても，あるいは、任意であるが、一
致を出力しなくてもよい。メモリ２０８は、好ましく
は、メモリ１１０（図１）の不揮発性メモリ部分であ
り、例えばＥＥＰＲＯＭまたはフラッシュＲＯＭでもよ
い。本明細書で用いられる「単語(words)」は、"John D
oe"などの２つ以上の単語でもよく、あるいは"call"な
どのひとつの単語でもよい。

【００１８】一般に、特徴抽出部(feature extractor)
２０４は、入力音声のフレームに対して信号処理を実行
し、フレーム・レートにて各フレームを表す特徴ベクト
ルを出力する。フレーム・レートは一般に１０〜３０ｍ
ｓの間であるが、例えば、２０ｍｓの期間でもよい。ト
レーニング部(trainer)２０７は、単語または語句の一
つまたはそれ以上の発声の標本化音声から抽出された特
徴を利用して、この単語または語句のモデルのためのパ
ラメータを生成する。次に、このモデルは、モデル格納
不揮発性メモリ２０８に格納される。モデル・サイズ
は、特徴ベクトル長に直接依存し、そのため長い特徴ベ
クトルはそれだけ大きなメモリを必要とする。

【００１９】次に、メモリ２０８に格納されたモデル
は、認識２０６中に利用される。認識システムは、未知
の発声の特徴と格納済みのモデル・パラメータとを比較
して、最良一致を判定する。そして、最良一致モデルは
認識システムから結果として出力される。

【００２０】図３を参照して、音声認識を表す文法ネッ
トワーク(grammar network)を示す。ノードＮ₁およびＮ
₂は、弧(arc)Ａ₁〜Ａ_Nとガーベッジ・モデル(garbage mo
del)の弧Ａ_GMとによって表されるＨＭＭモデルによって
接続される。弧Ａ₁〜Ａ_Nは、音声認識システムにおいて
トレーニングされ、かつメモリ２０８に格納された個別
のＨＭＭモデルすべてを表す。ガーベッジ・モデル弧
は、１状態ガーベッジ・モデル基準を表す。

【００２１】ノードＮ₁は、１状態雑音モデルＡ₁ ^Noise
を含む。同様に、ノードＮ₂は、１状態雑音モデルＡ₂
^Noiseを含む。認識システムは、認識アルゴリズムを利
用して、弧Ａ₁〜Ａ_NおよびＡ_GMのうちの一つを最良一致
として選択し、あるいは一致なしを識別する（すなわ
ち、音声が検出されない場合）。Ａ_GMが最良弧である場
合、入力は無効として阻止される。

【００２２】ここで、図４を参照して、トレーニング・
プロセスについて説明する。最初に、ステップ４０２に
示すように、メイン・トレーニング２０７が実行され、
メモリ２０８に格納すべき各発声、すなわち状態モデル
(state model)Ａ₁〜Ａ_Nを導出する。ＨＭＭモデルを生
成するために、多数の異なる方法が知られている。図４
の図では、各弧は、状態スキップのない、左から右への
ＨＭＭモデルであり、自己ループ(self loop)と単一ス
テップ遷移(single steps transitions)のみが許され
る。このようなモデルの導関数(derivative)についての
簡単な説明を以下で行う。当業者であれば、弧は他の既
知のモデルでもよく、他の既知の方法によってもよいこ
とが理解されよう。

【００２３】最初に、特徴抽出部２０４において、特徴
が抽出される。特徴抽出部は、発声の各フレームについ
てケプストラム係数(cepstral coefficient)およびデル
タ・ケプストラム係数(delta cepstral coefficient)を
生成する。当業者であれば、ケプストラム特徴を算出
し、その導関数を推定する多くの方法があり、これらの
係数を導出するための任意の適切な手法を利用できるこ
とが理解されよう。フレームＦ₁〜Ｆ_N（図５）は、ウィ
ンドウ中に生成され、各フレームは特徴からなる。フレ
ームの一部は雑音を表し、この雑音から雑音エネルギ特
徴が特徴抽出部によって生成される。残りのフレーム
は、音声信号の部分を表す。

【００２４】図４に戻って、ステップ６０４において、
トレーニング２０７中に、プロセッサ１０８は、ステッ
プ６０４に示すように、各弧モデルについて雑音特徴を
算出する。雑音測定は、捕捉ウィンドウ(capture windo
w)の開始および終了時に生成される特徴ベクトルから行
われる。特に、発声の開始期間および終了期間中に測定
される特徴ベクトルの平均値を利用するのが望ましい。
例えば、捕捉ウィンドウの最初の１６０ｍｓ、すなわち
Ｓａｖｇｅ、および最後の１６０ｍｓ、すなわちＥａｖ
ｇｅを利用できる。雑音特徴ベクトルが格納される開始
期間および終了期間を含む捕捉ウィンドウを図５に示
す。捕捉ウィンドウは、単語の最大期間を表す、例え
ば、２秒の長さでもよい。この捕捉ウィンドウは、入力
発声の予定長さおよびこの実装のメモリ制限に応じて、
固定長でも可変長でもよい。

【００２５】プロセッサ１０８は、ステップ４０４にお
いて雑音特徴を導出すると、ステップ４０４において装
置がハンドフリー・モードであるかどうか判定する。装
置は、キーパッド・メニューを介してユーザによって起
動されるハンドフリー・モードに装置があることを示す
状態フラグを含んでもよく、あるいは装置１００がハン
ドフリー・キットに接続されるときに、スイッチを起動
するメカニカル・コネクタを含んでもよい。

【００２６】装置がハンドフリー・モードではない場
合、プロセッサは、ステップ４１０に示すように、トレ
ーニング中に（トレーニングは、各発声について独立し
て行われる）、ＳａｖｇｅおよびＥａｖｇｅのうちの最
小値（すなわち、ｍｉｎ（Ｓａｖｇ，Ｅａｖｇ））であ
る雑音特徴Ｘｎｚを算出する。入力音声の各フレームに
ついて、エネルギ値はそのサンプルから算出できる。Ｓ
ａｖｇｅおよびＥａｖｇｅは、指示されたフレームから
のエネルギ値の平均値である。この最小値は、移動雑音
平均(running noise mean)を更新するために、各トレー
ニング発声毎に用いられる。この雑音平均は、次式を用
いて反復的に更新される。

【００２７】

【数１】Ｘｒｅｆ（ｋ）＝（（ｋ−２）＊Ｘｒｅｆ（ｋ
−２）＋（Ｘｎｚ１＋Ｘｎｚ２））／ｋここで、Ｘｒｅｆ（ｋ）はｋ番目の雑音特徴の基準値で
あり、Ｘｎｚ１は１番目のトレーニング発声のＳａｖｇ
ｅおよびＥａｖｇｅの最小値から得た雑音特徴を表し、
Ｘｎｚ２は２番目のトレーニング発声のＳａｖｇｅおよ
びＥａｖｇｅの最小値からの雑音特徴である。

【００２８】更新された雑音平均および雑音平均更新の
ために用いられるトレーニング発声の数は、ステップ４
１２に示すようにメモリ１１０に記録される。

【００２９】ステップ４０６において、装置がステップ
４０８に示すようにハンドフリー・モードであると判定
された場合、ハンドフリー・フラグＨＦがステップ４０
８に示すように設定される。フラグＨＦは、トレーニン
グがハンドフリー・モードである場合に、設定され、雑
音モデルを更新せずに、ハンドフリー単語モデルの存在
を示す。

【００３０】トレーニング環境は比較的静かであること
が想定される。これは、信号品質検査によって強制で
き、この検査では、すべてのトレーニング発声が少なく
とも１８ｄＢの信号対雑音比を有する必要がある。ま
た、ユーザがＳａｖｇｅおよびＥａｖｇｅ測定時間中に
喋らないことを保証するように検査を採用できる。

【００３１】プロセッサ１０８による認識２０６の一般
的な動作について、図６を参照して説明する。最初に、
ステップ６０２に示すように、テスト発声について雑音
特徴が算出され、このテスト発声は、システムが識別し
ようとする入力発声である。認識モードでは、発声ウィ
ンドウの同じ最初の１６０ｍｓのＳａｖｇｅおよび最後
の１６０ｍｓのＥａｖｇｅから、背景雑音測定が行われ
る。認識中の雑音測定はＸｒｅｃｏｇであり、Ｓａｖｇ
ｅおよびＥａｖｇｅの平均値に等しい。この値は、トレ
ーニング・モード時に算出された基準雑音値と比較され
る。比較は、トレーニング背景雑音推定値に対する認識
背景雑音推定値の比率を求めるために用いられる。当業
者であれば、これらの値の他の相対的な比較も利用でき
ることが理解されよう。

【００３２】次に、プロセッサ１０８は、ステップ６０
６において単語ペナルティ(word penalty)を算出する。
この比率は、単語エントランス・ペナルティを算出する
ために用いられる。単語エントランス・ペナルティは、
アウト・オブ・ボキャブラリ阻止の厳密度を制御する。
一般に、高い雑音環境は、それだけ低い厳密度値を有す
る。単語エントランス・ペナルティは、ルックアップ・テ
ーブルを利用して算出され、雑音インデクス比がメモリ
・テーブルのアドレスであり、ペナルティが出力であ
る。図８に示すような有利な１０個のペナルティ分布を
利用でき、ここでは認識モードにおけるかなり雑音の多
い環境（比率６〜９）は、トレーニング・モード雑音基
準に近い認識モードを表す比率（比率０〜４）よりも、
実質的に小さいペナルティを有する。例えば、次のよう
に曲線を導出できる。

【００３３】

【数２】ｘ＝Ｘｒｆ（ｋ）／Ｘｒｅｃｏｇｆ（ｘ）＝１／（１＋２^1.5(x-5)）範囲外インデクス比(out of range index ratios)は、
ディフォルトで最小単語エントランス・ペナルティにな
り、これはゼロである。適用される実際のペナルティ
は、例えば、−２２０＊ｆ（ｘ）であるが、実際のスカ
ラーは、組み合わされるスコアに対して望ましい比率を
有するペナルティとなる任意の値でもよい。非線形的な
関係を利用することは、雑音状態が良好なときに大きな
ペナルティを与え、また雑音状態が悪いときに小さなペ
ナルティを与えることにより、ボキャブラリおよびアウ
ト・オブ・ボキャブラリ認識における著しい改善を提供す
る。当業者であれば、単語エントランス・ペナルティの
計算は、ルックアップ・テーブルを利用せずに、直接行
うことができることが理解されよう。

【００３４】認識は、ステップ６０８に示すように、メ
イン検索(main search)および並列ガーベッジ・モデル
(parallel garbage model)に続く。認識システムの目標
は、図３におけるノードＮ₁からＮ₂までの最も可能性の
高い経路を見つけることである。ノードＮ₁およびＮ
₂は、任意でガーベッジ・モデルＡ_GMを含む、Ｎ単語ボキ
ャブラリのＨＭＭを表す経路Ａ₁〜Ａ_Nによって結合され
る。さらに、Ａ₁ ^NoiseおよびＡ₂ ^Noiseは雑音モデルを表
し、ノードＮ₁およびノードＮ₂に関連する。ガーベッジ
・モデルは、入力発声における非ボキャブラリ音声また
は単語を捕捉しようとする。これは、アウト・オブ・ボ
キャブラリ阻止アルゴリズムによってのみ用いられる１
状態ゼロ値モデル(one state zero-valued model)であ
る。雑音モデルよりも良好に雑音をモデリングすること
を防ぐために、雑音として分類されたフレームのガーベ
ッジ・モデル確率スコアに対して、ペナルティが適用さ
れる。

【００３５】図３に示すような文法ネットワークの検索
は、ビタビ・アルゴリズム(Viterbialgorithm)などの２
レベル整合アルゴリズムによって行われる。この検索の
最低レベルは、入力発声のフレームと、与えられた弧の
状態との間の最良の整合および経路スコアを求める。発
声のフレームを個別モデルの状態に適用するために用い
られる手法の例は、本出願と同じ日付でJeffrey Arthur
Meunierらの名義で出願された、同時係属出願である整
理番号ＣＳ１０１０３号（日本出願番号２０００−３６
１０５） "METHOD OF TRACKBACK MATRIX STORAGE IN SP
EECH RECOGNITION SYSTEM"、および本出願と同じ日付で
Daniel Poppertの名義で出願された、同時係属出願であ
る整理番号ＣＳ１０１０４号（米国出願番号０９／２５
６０３１） "METHOD OF SELECTIVELY ASSIGNING A PENA
LTY TO A PROBABILITY ASSOCIATED WITH A VOICE RECOG
NITION SYSTEM"において開示されており、これらの開示
は本明細書に参考として含まれる。低レベル整合アルゴ
リズムは、与えられたＨＭＭ弧を介して入力発声の最良
経路のスコアを生成する。

【００３６】フレームｍにおける弧Ａ_Nの状態ｉの累積
確率(cumulative probability)である累積確率ｃ
_I ^N（ｍ）を介して、各弧のスコア、すなわちＨＭＭが追
跡されるところの低レベル整合アルゴリズムの他に、ノ
ードＮ₁およびノードＮ₂は、自己の累積確率も追跡しな
ければならない。ノード累積確率Ｃ_J（ｍ）は、フレー
ムｍにおけるノードＮ_Jの累積確率である。この確率
は、ノードに対する最高のスコアを保持するという点
で、各ＨＭＭの累積確率と同じように算出される。累積
確率は、次のようにして算出できる。

【００３７】

【数３】Ｃ_J（ｍ＋１）＝Ｍａｘ_n｛Ｃ^N _In（ｍ）＋Ｐｏ
_In（ｄ_In）｝ここで、Ａｊはノードｊで終端する弧｛Ａ₁，
Ａ₂，．．．，Ａ_N｝のセットであり、Ｉｎは弧ｎにおけ
る状態の数であり、ｄ_Inは弧ｎの最後の状態の期間であ
り、Ｐｏ₁（ｄ_In）は弧ｎの最後の状態の状態外遷移ペ
ナルティ(out of state transition penalty)である。
累積確率は、状態外確率Ｐｏ_In（ｄ_In）を有する最後の
状態の累積確率Ｃ_In ^N（ｍ）の和のノードＮｊで終端す
るすべての弧における最大値である。

【００３８】ノードについて累積確率を追跡する際に、
各弧の初期状態について累積確率ｃ ₁ ^N（ｍ）の計算は、
ノードＮｊから初期状態への遷移を許すように修正しな
ければならない。ノードＮｊから弧Ａｎの初期状態への
遷移に対して割り当てられる、単語エントランス・ペナ
ルティと呼ばれるワンタイム遷移ペナルティがある。こ
れは、雑音モデルにも、ガーベッジ・モデルにも適用さ
れず、そのためイネーブルされると、アウト・オブ・ボ
キャブラリ阻止に対する厳密度制御として機能する。累
積確率は次式のようにみなすことができる。

【００３９】

【数４】Ｃ_I ^N（ｍ＋１）＝ｏ_I ^N（ｆ_M）＋ｍａｘ（Ｃ
_J（ｍ）＋Ｗ（ｎ），Ｃ₁ ^N（ｍ）＋Ｐｓ₁（ｄ₁））ただし、Ｗ（ｎ）＝｛ｇ（ｘ），ifn｛Ａ₁，Ａ₂，Ａ₃｝
の場合｛０，ifn｛Ａ₁，Ａ₂，Ａ_GM｝の場合ここで、Ｗ（ｎ）は単語エントリ・ペナルティであり、
Ａ_GMはガーベッジ弧であり、Ａ₁ ^Noiseはノード１の雑音
弧であり、ｏ_I ^N（ｆ_M）は弧ｎの状態ｉにおける特徴ベ
クトルｆｍの観測ベクトル(observation vector)であ
り、Ｐｓ₁（ｄ₁）は弧ｎの状態１の同一状態遷移ペナル
ティである。この式は、同一状態遷移または開始ノード
からの遷移のいずれかのうち最大を保持し、観測ベクト
ルに追加する。認識プロセスの最後に保持される情報
は、ノードＮ₂に移動するために通った弧である。これ
は、累積確率Ｃ_I ^N（ｍ）およびＣ_J ^N（ｍ）とともに、伝
播経路情報によって行われる。

【００４０】有効な発声について、整合アルゴリズムを
介した単語モデルの最良経路は、単語エントランス・ペ
ナルティよりも大きな値の分だけ、ガーベッジ・モデル
よりも良好なスコアを生成しなければならず、さもなけ
ばら有効な発声は誤って阻止される。無効な発声につい
て、ガーベッジ・モデルは、発声が正しく阻止されるよ
うに、適切な単語モデルのそれぞれを介した経路よりも
大きくなければならない。

【００４１】認識アルゴリズムは、例えば２秒相当のデ
ータでもよい、収集された特徴ベクトルのウィンドウ全
体を利用する。さらに、認識アルゴリズムは、図３のＡ
₁ ^Noi ^seおよびＡ₂ ^Noiseにおいて用いられる１状態雑音モ
デルを更新するため、各フレームについて音声／雑音分
類ビット(speech/noise classification bit)を利用す
る。

【００４２】認識モードでは、プロセッサ１０８は、ス
テップ７０２に示すように、雑音更新フラグを１に設定
し、フレーム・カウントを０に設定することによって認
識を初期化する。ステップ７０４において、フレーム・
カウントはインクリメントされる。次に、プロセッサ
は、ステップ７０６において雑音フラグが設定されてい
るかどうか判定する。設定されていない場合、プロセッ
サは判定７１６に進む。フラグが設定されている場合、
プロセッサ１０８は、ステップ７０８において雑音モデ
ルがイネーブルのままでよいかどうか判定する。イネー
ブルのままでよくない場合、ステップ７１４において雑
音更新フラグは０に設定される。所定の数の更新が行わ
れた後、雑音モデリングはオフされる。

【００４３】雑音モデリングをさらに実行する場合、プ
ロセッサは、ステップ７１０において雑音モデルを更新
すべきかどうか判定する。プロセッサがフレームの雑音
モデルを更新する場合、このモデルはステップ７１２に
おいて更新される。雑音モデルＡ₁ ^NoiseおよびＡ₂ ^Noise
は、特徴抽出アルゴリズムによって送入される音声／雑
音分類ビットを利用して、システムによってダイナミッ
クに算出される。現フレームの雑音モデルを更新するか
どうかの判定の詳細は、特徴抽出アルゴリズムによって
実施される音声分類を調べることによって行われる。発
声について所定の数の連続した音声フレームを調べた
ら、それ以上更新は行われない。例えば、この制限は３
フレームでもよい。雑音モデルは、特定のフレームの音
声対雑音分類が雑音フレームであることを示す場合に、
この特定のフレームについてのみ更新される。

【００４４】次に、プロセッサは、ステップ７１６にお
いてフレーム・カウントがフレームの閾値数よりも小さ
いかどうか判定する。所定の数のフレームが処理される
まで、確率推定は開始されない。これは、雑音モデルに
基づく確率が計算される前に、雑音モデルを若干正確に
することを可能にする。閾値数のフレームが受信されな
ければ、プロセッサはステップ７０４に戻り、ここでフ
レーム・カウントは１だけインクリメントされる。

【００４５】フレーム・カウントが閾値を超える場合、
プロセッサ１０８は、ステップ７１８においてこのフレ
ームのノードおよび弧の累積確率を算出する。ステップ
７２０において、確率スコアは正規化される。正規化(n
ormalization)は、最大の累積確率をすべての他の累積
確率から引くことによって得られる。また、累積正規化
率(cumulative normalization factor)は、非正規化ス
コアを認識プロセスの最後で戻すことができるように追
跡される。

【００４６】次に、プロセッサは、ステップ７２２にお
いて最後のフレームを処理したかどうかを判定する。処
理していない場合、プロセッサはステップ７０４に戻っ
て、フレーム・カウントをインクリメントする。処理し
た場合には、ステップ７２４に示すように、認識結果は
正規化スコアとともに出力される。

【００４７】雑音モデルは、１状態モデルである。この
状態のベクトル平均は、μ₁ ^Noise（ｍ）であり、これは
ダイナミックに算出され、かつ次のようにフレームｍ＋
１において新たな特徴ベクトルｆ_M+1で更新されるの
で、ｍの関数である。

【００４８】

【数５】μ₁ ^Noise（ｍ）＝（（Ｍ_Noise（ｍ）＊μ₁）＋
ｆ_M+1）／（Ｍ_Noise（ｍ）＋１）ここで、Ｍ_Noise（ｍ）は、μ₁ ^Noise（ｍ）の計算で用
いられた雑音フレームの数であり、これは雑音更新にお
いてすべてのフレームが利用されるわけではないので、
ｍの値とは異なることがある。さらに、この更新式は、
雑音モデルのケプストラム要素についてのみ用いられ
る。デルタ・ケプストラムおよびデルタ・エネルギ要素
は、０に固定される。

【００４９】以上、トレーニングおよび認識時の背景雑
音レベルに応じて、可変的な阻止厳密度を与える改善さ
れたシステムについて開示した。このシステムは、無効
な発声を格納済み音声モデルと関連付けることを防ぐの
を助け、有効な発声の正確な検出を改善するのを助け
る。

【００５０】本発明について上記の説明および図面で図
説してきたが、この説明は一例に過ぎず、発明の真の精
神および範囲から逸脱せずに、多くの変更および修正が
当業者によって可能なことが理解される。本発明はセル
ラ無線電話などの携帯ワイヤレス装置において特に利用
されるが、本発明は、ページャ，電子手帳，コンピュー
タおよび電話機器など、音声認識を採用する任意の装置
にも適用できる。本発明は、特許請求の範囲によっての
み制限されるものとする。

【図面の簡単な説明】

【図１】ワイヤレス通信装置を示す、ブロック図形式の
回路図である。

【図２】図１による装置における音声認識システムを示
す、ブロック図形式の回路図である。

【図３】２つのノードを有する文法ネットワークの図で
ある。

【図４】トレーニングを示すフローチャートである。

【図５】ウィンドウと、それに対応するフレームを示
す。

【図６】認識を示す高度なフレーチャートである。

【図７】認識中のトレーニングを示すフローチャートで
ある。

【図８】ペナルティ関数を示す。

【符号の説明】

１００装置１０２送信機１０４受信機１０６アンテナ１０８呼処理装置１１０メモリ１１２音声回路１１４マイクロフォン１１６スピーカ１２０ディスプレイ・プロセッサ１２２メモリ１２４キー１２６ディスプレイ２０２アナログ・デジタル・コンバータ２０４特徴抽出部２０６音声認識２０７トレーニング部２０８メモリ

フロントページの続き (72)発明者ヘンリー・エル・ケイゼッキアメリカ合衆国イリノイ州アーリントン・ハイツ、サウス・ジャーナンデス1323

Claims

【特許請求の範囲】

【請求項１】音声認識システムを動作する方法であっ
て：トレーニング中に測定される少なくとも一つの背景
雑音レベルと、認識動作モード中に行われる入力発声の
際に行われる雑音信号測定との関数として、可変阻止厳
密度(variable rejection strictness)を生成する段
階；および前記可変阻止厳密度の関数として、単語エン
トランス・ペナルティを導出する段階；によって構成さ
れることを特徴とする方法。
【請求項２】可変阻止厳密度を生成する前記段階は、
モデルのトレーニング発声の少なくとも一部において雑
音を測定する段階を含むことを特徴とする請求項１記載
の方法。
【請求項３】トレーニング発声から雑音特徴を選択的
に更新する段階をさらに含んで構成されることを特徴と
する請求項１記載の方法。
【請求項４】雑音統計が認識アルゴリズムで利用でき
るように、モデルとともにトレーニング中に雑音統計を
格納する段階をさらに含んで構成されることを特徴とす
る請求項１記載の方法。
【請求項５】ハンドフリー・モードでトレーニングす
る場合には、雑音統計は更新されないことを特徴とする
請求項３記載の方法。
【請求項６】信号対雑音比を生成する段階をさらに含
んで構成され、前記信号対雑音比が所定のレベルよりも
低い場合には、トレーニングは禁止されることを特徴と
する請求項３記載の方法。
【請求項７】認識中に、発声について雑音統計がない
場合、認識アルゴリズムは、整合アルゴリズムを前記発
声に適用する際に、ディフォルトで最小厳密度条件にな
ることを特徴とする請求項１記載の方法。
【請求項８】認識中に、入力雑音エネルギ特徴が基準
雑音統計と比較され、雑音比が算出されることを特徴と
する請求項１記載の方法。
【請求項９】アウト・オブ・ボキャブラリ阻止アルゴ
リズムの厳密度は、前記雑音比に基づいて選択されるこ
とを特徴とする請求項８記載の方法。
【請求項１０】最良経路の信頼度測定は、音声タグ・
モデル(voice tag model)と並行して、ゼロ平均１状態
ガーベッジ・モデル(zero mean one state garbage mode
l)を利用して実施されることを特徴とする請求項１記載
の方法。