JP2000242294A - 音声認識システムおよび方法 - Google Patents

音声認識システムおよび方法

Info

Publication number
JP2000242294A
JP2000242294A JP2000045353A JP2000045353A JP2000242294A JP 2000242294 A JP2000242294 A JP 2000242294A JP 2000045353 A JP2000045353 A JP 2000045353A JP 2000045353 A JP2000045353 A JP 2000045353A JP 2000242294 A JP2000242294 A JP 2000242294A
Authority
JP
Japan
Prior art keywords
noise
recognition
training
model
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000045353A
Other languages
English (en)
Other versions
JP4354072B2 (ja
Inventor
David Erik Chevalier
デイビット・エリック・シェバリエ
Henry L Kazecki
ヘンリー・エル・ケイゼッキ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Solutions Inc
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Publication of JP2000242294A publication Critical patent/JP2000242294A/ja
Application granted granted Critical
Publication of JP4354072B2 publication Critical patent/JP4354072B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Telephonic Communication Services (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Machine Translation (AREA)
  • Interconnected Communication Systems, Intercoms, And Interphones (AREA)
  • Control Of Amplification And Gain Control (AREA)

Abstract

(57)【要約】 【課題】 音声認識システムを提供する。 【解決手段】 音声認識システム204,206,20
7,208は、トレーニング中に測定される少なくとも
一つの背景雑音レベルと、認識動作モード中に行われる
入力発声の際に行われる雑音信号測定との関数として、
可変阻止厳密度を生成する。単語エントランス・ペナル
ティは、この可変阻止厳密度の関数として割り当てられ
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声認識(voice recog
nition)に関する。
【0002】
【従来の技術】話者依存型の音声認識システムは、特徴
抽出アルゴリズム(feature extraction algorithm)を利
用して、入力音声のフレームに対して信号処理を実行
し、各フレームを表す特徴ベクトル(feature vectors)
を出力する。この処理は、フレーム・レートにて行われ
る。フレーム・レートは、一般に10〜30msの間で
あり、ここでは20msの期間として例示する。非常に
多くの異なる特徴は、音声認識システムにて用いられる
ことが知られている。
【0003】概して、トレーニング・アルゴリズム(tra
ining algorithm)は、単語(word)または語句(phrase)の
一つまたはそれ以上の発声(utterance)の標本化音声か
ら抽出された特徴を利用して、この単語または語句のモ
デルのためのパラメータを生成する。このモデルは、モ
デル格納メモリに格納される。これらのモデルは、後で
音声認識中に利用される。認識システムは、未知の発声
の特徴を格納済みモデル・パラメータと比較して、最良
一致(best match)を判定する。そして、最良一致モデル
は、認識システムから結果として出力される。
【0004】この処理のために隠れマルコフ・モデル
(HMM:Hidden Markov Model)方式の認識システムを
利用することが知られている。HMM認識システムは、
発声のフレームをHMMの状態に割り当てる。最大の確
率、すなわちスコアを生成するフレーム対状態の割り当
ては、最良一致として選択される。
【0005】多くの音声認識システムは、有効な発声と
無効な発声とを区別しない。むしろ、これらのシステム
は、格納済みモデルのうち最も近い一致であるモデルを
選択する。あるシステムは、無効な発声を検出・阻止し
ようとするアウト・オブ・ボキャブラリ阻止アルゴリズ
ム(Out-of-Vocabulary rejection algorithm)を利用す
る。これは、ボキャブラリのダイナミックなサイズおよ
び未知の構成のため、小さなボキャブラリの話者依存型
音声認識システムでは困難な問題である。これらのアル
ゴリズムは雑音の多い条件下では劣化し、そのため雑音
の多い条件下における誤阻止の数が増加する。
【0006】実際には、アウト・オブ・ボキャブラリ阻
止アルゴリズムは、無効な発声の適切な阻止によって測
られる性能と、有効な発声の誤阻止とのバランスをとら
なければならない。誤阻止レートは、利用者満足度の点
で重要な役割を果たすことがあるが、これは、正しくな
い一致などの頻繁な誤阻止により不満が生じるためであ
る。従って、アウト・オブ・ボキャブラリ阻止は、認識
に対するユーザの期待を満たすバランスである。
【0007】
【発明が解決しようとする課題】そのため、雑音レベル
に基づいて阻止閾値を算出することが知られている。例
えば、第1音声フレームの検出前に、雑音レベルを測定
することが知られている。閾値は、この測定から算出さ
れる。単語基準パターンと入力音声パターンとの間の差
が阻止閾値よりも大きい場合、入力は阻止される。従っ
て、このようなシステムは、任意の雑音入力レベルに依
存する。このような測定は、有意義な阻止判定を行うの
には信頼できない。
【0008】従って、音声認識システムにおいて発声を
阻止するための基盤を提供する改善された方法が必要と
される。
【0009】
【実施例】本発明は、トレーニングおよび認識中に背景
雑音レベル(background noise level)に依存する、可変
阻止厳密度(variable rejection strictness)を有す
る。トレーニング中に、トレーニング発声から雑音特徴
(noise features)が生成される。インクリメンタル雑音
基準平均(incremental noise reference mean)は、この
雑音特徴から更新される。統計はメモリに格納され、こ
の統計は認識システムによって利用可能になる。雑音統
計は、ハンドフリー・モードにおけるトレーニング中に
は更新されないが、これは背景雑音のレベルが高くなる
ためである。雑音統計がない場合、認識アルゴリズムは
ディフォルトで最小厳密度になる。
【0010】認識中では、入力雑音エネルギ特徴(input
noise energy feature)は、基準雑音統計と比較され、
雑音比(noise ratio)が算出される。そして、アウト・
オブ・ボキャブラリ阻止アルゴリズムの厳密度は、この
雑音比に基づいて選択される。本発明は、雑音が存在す
る場合に、有効発声の誤った阻止を防ぐのを助ける。
【0011】厳密度パラメータは、2レベル整合アルゴ
リズム(two level alignment algorithm)認識検索にお
ける単語エントランス・ペナルティ(word entrance pen
alty)である。最良経路の信頼度測定(confidence measu
rement)は、音声タグ・モデル(voice tag model)と並行
して、ゼロ平均1状態ガーベッジ・モデル(zero meanon
e state garbage model)として実施される。
【0012】本発明が有利に採用される装置100を図
1に開示する。装置100は、ここでは図示のために携
帯無線電話として説明されるが、コンピュータ,パーソ
ナル・デジタル・アシスタントまたは音声認識を有利に
採用できる任意の他の装置や、特に、メモリ効率的な音
声認識システムを活用できる装置でもよい。図示の無線
電話は、アンテナ106に結合された送信機102およ
び受信機104を含む。送信機102および受信機10
4は、呼処理機能を実行する呼処理装置(callprocesso
r)108に結合される。呼処理装置108は、デジタル
信号プロセッサ(DSP),マイクロプロセッサ,マイ
クロコントローラ,プログラマブル論理ユニット,上記
の2つまたはそれ以上の組み合わせ、もしくは任意の他
の適切なデジタル回路を利用して構築できる。
【0013】呼処理装置108は、メモリ110に結合
される。メモリ110は、RAM、EEPROM(elect
ronically erasable programmable read only memor
y),ROM,フラッシュROMなど、もしくはこれらの
種類のメモリの2つまたはそれ以上の組み合わせを含
む。メモリ110は、音声認識動作を含め、呼処理装置
108の動作をサポートし、また状態遷移経路メモリ(s
tate transition path memory)をサポートするために電
子的に変更可能なメモリを含んでいなければならない。
装置動作プログラムを格納するために、ROMを設ける
ことができる。
【0014】音声回路112は、マイクロフォン114
から呼処理装置108にデジタル化信号を与える。音声
回路112は、呼処理装置108からのデジタル信号に
応答してスピーカ116を駆動する。
【0015】呼処理装置108は、ディスプレイ・プロ
セッサ120に結合される。ディスプレイ・プロセッサ
は、装置100のために追加のプロセッサ・サポートが
望ましい場合にあってもよい。特に、ディスプレイ・プ
ロセッサ120は、ディスプレイ制御信号をディスプレ
イ126に与え、キー124から入力を受ける。ディス
プレイ・プロセッサ120は、マイクロプロセッサ,マ
イクロコントローラ,デジタル信号プロセッサ,プログ
ラマブル論理ユニット,それらの組み合わせなどを利用
して構築できる。メモリ122は、ディスプレイ・プロ
セッサ内のデジタル論理をサポートするためにディスプ
レイ・プロセッサに結合される。メモリ122は、RA
M,EEPROM,ROM、フラッシュROMなど、も
しくはこれらの種類のメモリの2つまたはそれ以上の組
み合わせを利用して構築できる。
【0016】図2を参照して、マイクロフォン114が
受けた音声信号は、音声回路112のアナログ・デジタ
ル・コンバータ202においてデジタル信号に変換され
る。当業者であれば、音声回路112は、濾波などの更
なる信号処理を行うことが理解されるが、これらの処理
は簡略にするために説明しない。呼処理装置108は、
マイクロフォン114によって出力されたアナログ信号
の処理されたデジタル信号表現に対して特徴抽出(featu
re extraction)204を実行し、ユーザ発声を表す特徴
ベクトル(feature vectors)のセットを生成する。特徴
ベクトルは、各短時間解析ウィンドウ(short time anal
ysis window)について生成される。短時間解析ウィンド
ウとはフレームのことであり、このフレームは、本明細
書に示す例では20msである。従って、1フレーム毎
に1つの特徴ベクトルがある。プロセッサ108は、音
声認識206またはトレーニング207のためにこれら
の特徴を利用する。
【0017】トレーニング時に、発声の特徴ベクトル
は、HMM形式のテンプレート(templates)を生成する
ために用いられ、これらのテンプレートはメモリ208
に格納される。音声認識時に、入力発声を表す特徴ベク
トルは、メモリ208に格納されたボキャブラリ単語の
テンプレートと比較され、ユーザが何を言ったのかを判
定する。本システムは、最良一致を出力しても,最良一
致のセットを出力しても,あるいは、任意であるが、一
致を出力しなくてもよい。メモリ208は、好ましく
は、メモリ110(図1)の不揮発性メモリ部分であ
り、例えばEEPROMまたはフラッシュROMでもよ
い。本明細書で用いられる「単語(words)」は、"John D
oe"などの2つ以上の単語でもよく、あるいは"call"な
どのひとつの単語でもよい。
【0018】一般に、特徴抽出部(feature extractor)
204は、入力音声のフレームに対して信号処理を実行
し、フレーム・レートにて各フレームを表す特徴ベクト
ルを出力する。フレーム・レートは一般に10〜30m
sの間であるが、例えば、20msの期間でもよい。ト
レーニング部(trainer)207は、単語または語句の一
つまたはそれ以上の発声の標本化音声から抽出された特
徴を利用して、この単語または語句のモデルのためのパ
ラメータを生成する。次に、このモデルは、モデル格納
不揮発性メモリ208に格納される。モデル・サイズ
は、特徴ベクトル長に直接依存し、そのため長い特徴ベ
クトルはそれだけ大きなメモリを必要とする。
【0019】次に、メモリ208に格納されたモデル
は、認識206中に利用される。認識システムは、未知
の発声の特徴と格納済みのモデル・パラメータとを比較
して、最良一致を判定する。そして、最良一致モデルは
認識システムから結果として出力される。
【0020】図3を参照して、音声認識を表す文法ネッ
トワーク(grammar network)を示す。ノードN1およびN
2は、弧(arc)A1〜ANとガーベッジ・モデル(garbage mo
del)の弧AGMとによって表されるHMMモデルによって
接続される。弧A1〜ANは、音声認識システムにおいて
トレーニングされ、かつメモリ208に格納された個別
のHMMモデルすべてを表す。ガーベッジ・モデル弧
は、1状態ガーベッジ・モデル基準を表す。
【0021】ノードN1は、1状態雑音モデルA1 Noise
を含む。同様に、ノードN2は、1状態雑音モデルA2
Noiseを含む。認識システムは、認識アルゴリズムを利
用して、弧A1〜ANおよびAGMのうちの一つを最良一致
として選択し、あるいは一致なしを識別する(すなわ
ち、音声が検出されない場合)。AGMが最良弧である場
合、入力は無効として阻止される。
【0022】ここで、図4を参照して、トレーニング・
プロセスについて説明する。最初に、ステップ402に
示すように、メイン・トレーニング207が実行され、
メモリ208に格納すべき各発声、すなわち状態モデル
(state model)A1〜ANを導出する。HMMモデルを生
成するために、多数の異なる方法が知られている。図4
の図では、各弧は、状態スキップのない、左から右への
HMMモデルであり、自己ループ(self loop)と単一ス
テップ遷移(single steps transitions)のみが許され
る。このようなモデルの導関数(derivative)についての
簡単な説明を以下で行う。当業者であれば、弧は他の既
知のモデルでもよく、他の既知の方法によってもよいこ
とが理解されよう。
【0023】最初に、特徴抽出部204において、特徴
が抽出される。特徴抽出部は、発声の各フレームについ
てケプストラム係数(cepstral coefficient)およびデル
タ・ケプストラム係数(delta cepstral coefficient)を
生成する。当業者であれば、ケプストラム特徴を算出
し、その導関数を推定する多くの方法があり、これらの
係数を導出するための任意の適切な手法を利用できるこ
とが理解されよう。フレームF1〜FN(図5)は、ウィ
ンドウ中に生成され、各フレームは特徴からなる。フレ
ームの一部は雑音を表し、この雑音から雑音エネルギ特
徴が特徴抽出部によって生成される。残りのフレーム
は、音声信号の部分を表す。
【0024】図4に戻って、ステップ604において、
トレーニング207中に、プロセッサ108は、ステッ
プ604に示すように、各弧モデルについて雑音特徴を
算出する。雑音測定は、捕捉ウィンドウ(capture windo
w)の開始および終了時に生成される特徴ベクトルから行
われる。特に、発声の開始期間および終了期間中に測定
される特徴ベクトルの平均値を利用するのが望ましい。
例えば、捕捉ウィンドウの最初の160ms、すなわち
Savge、および最後の160ms、すなわちEav
geを利用できる。雑音特徴ベクトルが格納される開始
期間および終了期間を含む捕捉ウィンドウを図5に示
す。捕捉ウィンドウは、単語の最大期間を表す、例え
ば、2秒の長さでもよい。この捕捉ウィンドウは、入力
発声の予定長さおよびこの実装のメモリ制限に応じて、
固定長でも可変長でもよい。
【0025】プロセッサ108は、ステップ404にお
いて雑音特徴を導出すると、ステップ404において装
置がハンドフリー・モードであるかどうか判定する。装
置は、キーパッド・メニューを介してユーザによって起
動されるハンドフリー・モードに装置があることを示す
状態フラグを含んでもよく、あるいは装置100がハン
ドフリー・キットに接続されるときに、スイッチを起動
するメカニカル・コネクタを含んでもよい。
【0026】装置がハンドフリー・モードではない場
合、プロセッサは、ステップ410に示すように、トレ
ーニング中に(トレーニングは、各発声について独立し
て行われる)、SavgeおよびEavgeのうちの最
小値(すなわち、min(Savg,Eavg))であ
る雑音特徴Xnzを算出する。入力音声の各フレームに
ついて、エネルギ値はそのサンプルから算出できる。S
avgeおよびEavgeは、指示されたフレームから
のエネルギ値の平均値である。この最小値は、移動雑音
平均(running noise mean)を更新するために、各トレー
ニング発声毎に用いられる。この雑音平均は、次式を用
いて反復的に更新される。
【0027】
【数1】Xref(k)=((k−2)*Xref(k
−2)+(Xnz1+Xnz2))/k ここで、Xref(k)はk番目の雑音特徴の基準値で
あり、Xnz1は1番目のトレーニング発声のSavg
eおよびEavgeの最小値から得た雑音特徴を表し、
Xnz2は2番目のトレーニング発声のSavgeおよ
びEavgeの最小値からの雑音特徴である。
【0028】更新された雑音平均および雑音平均更新の
ために用いられるトレーニング発声の数は、ステップ4
12に示すようにメモリ110に記録される。
【0029】ステップ406において、装置がステップ
408に示すようにハンドフリー・モードであると判定
された場合、ハンドフリー・フラグHFがステップ40
8に示すように設定される。フラグHFは、トレーニン
グがハンドフリー・モードである場合に、設定され、雑
音モデルを更新せずに、ハンドフリー単語モデルの存在
を示す。
【0030】トレーニング環境は比較的静かであること
が想定される。これは、信号品質検査によって強制で
き、この検査では、すべてのトレーニング発声が少なく
とも18dBの信号対雑音比を有する必要がある。ま
た、ユーザがSavgeおよびEavge測定時間中に
喋らないことを保証するように検査を採用できる。
【0031】プロセッサ108による認識206の一般
的な動作について、図6を参照して説明する。最初に、
ステップ602に示すように、テスト発声について雑音
特徴が算出され、このテスト発声は、システムが識別し
ようとする入力発声である。認識モードでは、発声ウィ
ンドウの同じ最初の160msのSavgeおよび最後
の160msのEavgeから、背景雑音測定が行われ
る。認識中の雑音測定はXrecogであり、Savg
eおよびEavgeの平均値に等しい。この値は、トレ
ーニング・モード時に算出された基準雑音値と比較され
る。比較は、トレーニング背景雑音推定値に対する認識
背景雑音推定値の比率を求めるために用いられる。当業
者であれば、これらの値の他の相対的な比較も利用でき
ることが理解されよう。
【0032】次に、プロセッサ108は、ステップ60
6において単語ペナルティ(word penalty)を算出する。
この比率は、単語エントランス・ペナルティを算出する
ために用いられる。単語エントランス・ペナルティは、
アウト・オブ・ボキャブラリ阻止の厳密度を制御する。
一般に、高い雑音環境は、それだけ低い厳密度値を有す
る。単語エントランス・ペナルティは、ルックアップ・テ
ーブルを利用して算出され、雑音インデクス比がメモリ
・テーブルのアドレスであり、ペナルティが出力であ
る。図8に示すような有利な10個のペナルティ分布を
利用でき、ここでは認識モードにおけるかなり雑音の多
い環境(比率6〜9)は、トレーニング・モード雑音基
準に近い認識モードを表す比率(比率0〜4)よりも、
実質的に小さいペナルティを有する。例えば、次のよう
に曲線を導出できる。
【0033】
【数2】x=Xrf(k)/Xrecog f(x)=1/(1+21.5(x-5)) 範囲外インデクス比(out of range index ratios)は、
ディフォルトで最小単語エントランス・ペナルティにな
り、これはゼロである。適用される実際のペナルティ
は、例えば、−220*f(x)であるが、実際のスカ
ラーは、組み合わされるスコアに対して望ましい比率を
有するペナルティとなる任意の値でもよい。非線形的な
関係を利用することは、雑音状態が良好なときに大きな
ペナルティを与え、また雑音状態が悪いときに小さなペ
ナルティを与えることにより、ボキャブラリおよびアウ
ト・オブ・ボキャブラリ認識における著しい改善を提供す
る。当業者であれば、単語エントランス・ペナルティの
計算は、ルックアップ・テーブルを利用せずに、直接行
うことができることが理解されよう。
【0034】認識は、ステップ608に示すように、メ
イン検索(main search)および並列ガーベッジ・モデル
(parallel garbage model)に続く。認識システムの目標
は、図3におけるノードN1からN2までの最も可能性の
高い経路を見つけることである。ノードN1およびN
2は、任意でガーベッジ・モデルAGMを含む、N単語ボキ
ャブラリのHMMを表す経路A1〜ANによって結合され
る。さらに、A1 NoiseおよびA2 Noiseは雑音モデルを表
し、ノードN1およびノードN2に関連する。ガーベッジ
・モデルは、入力発声における非ボキャブラリ音声また
は単語を捕捉しようとする。これは、アウト・オブ・ボ
キャブラリ阻止アルゴリズムによってのみ用いられる1
状態ゼロ値モデル(one state zero-valued model)であ
る。雑音モデルよりも良好に雑音をモデリングすること
を防ぐために、雑音として分類されたフレームのガーベ
ッジ・モデル確率スコアに対して、ペナルティが適用さ
れる。
【0035】図3に示すような文法ネットワークの検索
は、ビタビ・アルゴリズム(Viterbialgorithm)などの2
レベル整合アルゴリズムによって行われる。この検索の
最低レベルは、入力発声のフレームと、与えられた弧の
状態との間の最良の整合および経路スコアを求める。発
声のフレームを個別モデルの状態に適用するために用い
られる手法の例は、本出願と同じ日付でJeffrey Arthur
Meunierらの名義で出願された、同時係属出願である整
理番号CS10103号(日本出願番号2000−36
105) "METHOD OF TRACKBACK MATRIX STORAGE IN SP
EECH RECOGNITION SYSTEM"、および本出願と同じ日付で
Daniel Poppertの名義で出願された、同時係属出願であ
る整理番号CS10104号(米国出願番号09/25
6031) "METHOD OF SELECTIVELY ASSIGNING A PENA
LTY TO A PROBABILITY ASSOCIATED WITH A VOICE RECOG
NITION SYSTEM"において開示されており、これらの開示
は本明細書に参考として含まれる。低レベル整合アルゴ
リズムは、与えられたHMM弧を介して入力発声の最良
経路のスコアを生成する。
【0036】フレームmにおける弧ANの状態iの累積
確率(cumulative probability)である累積確率c
I N(m)を介して、各弧のスコア、すなわちHMMが追
跡されるところの低レベル整合アルゴリズムの他に、ノ
ードN1およびノードN2は、自己の累積確率も追跡しな
ければならない。ノード累積確率CJ(m)は、フレー
ムmにおけるノードNJの累積確率である。この確率
は、ノードに対する最高のスコアを保持するという点
で、各HMMの累積確率と同じように算出される。累積
確率は、次のようにして算出できる。
【0037】
【数3】CJ(m+1)=Maxn{CN In(m)+Po
In(dIn)} ここで、Ajはノードjで終端する弧{A1
2,...,AN}のセットであり、Inは弧nにおけ
る状態の数であり、dInは弧nの最後の状態の期間であ
り、Po1(dIn)は弧nの最後の状態の状態外遷移ペ
ナルティ(out of state transition penalty)である。
累積確率は、状態外確率PoIn(dIn)を有する最後の
状態の累積確率CIn N(m)の和のノードNjで終端す
るすべての弧における最大値である。
【0038】ノードについて累積確率を追跡する際に、
各弧の初期状態について累積確率c 1 N(m)の計算は、
ノードNjから初期状態への遷移を許すように修正しな
ければならない。ノードNjから弧Anの初期状態への
遷移に対して割り当てられる、単語エントランス・ペナ
ルティと呼ばれるワンタイム遷移ペナルティがある。こ
れは、雑音モデルにも、ガーベッジ・モデルにも適用さ
れず、そのためイネーブルされると、アウト・オブ・ボ
キャブラリ阻止に対する厳密度制御として機能する。累
積確率は次式のようにみなすことができる。
【0039】
【数4】CI N(m+1)=oI N(fM)+max(C
J(m)+W(n),C1 N(m)+Ps1(d1)) ただし、W(n)={g(x),ifn{A1,A2,A3
の場合 {0,ifn{A1,A2,AGM}の場合 ここで、W(n)は単語エントリ・ペナルティであり、
GMはガーベッジ弧であり、A1 Noiseはノード1の雑音
弧であり、oI N(fM)は弧nの状態iにおける特徴ベ
クトルfmの観測ベクトル(observation vector)であ
り、Ps1(d1)は弧nの状態1の同一状態遷移ペナル
ティである。この式は、同一状態遷移または開始ノード
からの遷移のいずれかのうち最大を保持し、観測ベクト
ルに追加する。認識プロセスの最後に保持される情報
は、ノードN2に移動するために通った弧である。これ
は、累積確率CI N(m)およびCJ N(m)とともに、伝
播経路情報によって行われる。
【0040】有効な発声について、整合アルゴリズムを
介した単語モデルの最良経路は、単語エントランス・ペ
ナルティよりも大きな値の分だけ、ガーベッジ・モデル
よりも良好なスコアを生成しなければならず、さもなけ
ばら有効な発声は誤って阻止される。無効な発声につい
て、ガーベッジ・モデルは、発声が正しく阻止されるよ
うに、適切な単語モデルのそれぞれを介した経路よりも
大きくなければならない。
【0041】認識アルゴリズムは、例えば2秒相当のデ
ータでもよい、収集された特徴ベクトルのウィンドウ全
体を利用する。さらに、認識アルゴリズムは、図3のA
1 Noi seおよびA2 Noiseにおいて用いられる1状態雑音モ
デルを更新するため、各フレームについて音声/雑音分
類ビット(speech/noise classification bit)を利用す
る。
【0042】認識モードでは、プロセッサ108は、ス
テップ702に示すように、雑音更新フラグを1に設定
し、フレーム・カウントを0に設定することによって認
識を初期化する。ステップ704において、フレーム・
カウントはインクリメントされる。次に、プロセッサ
は、ステップ706において雑音フラグが設定されてい
るかどうか判定する。設定されていない場合、プロセッ
サは判定716に進む。フラグが設定されている場合、
プロセッサ108は、ステップ708において雑音モデ
ルがイネーブルのままでよいかどうか判定する。イネー
ブルのままでよくない場合、ステップ714において雑
音更新フラグは0に設定される。所定の数の更新が行わ
れた後、雑音モデリングはオフされる。
【0043】雑音モデリングをさらに実行する場合、プ
ロセッサは、ステップ710において雑音モデルを更新
すべきかどうか判定する。プロセッサがフレームの雑音
モデルを更新する場合、このモデルはステップ712に
おいて更新される。雑音モデルA1 NoiseおよびA2 Noise
は、特徴抽出アルゴリズムによって送入される音声/雑
音分類ビットを利用して、システムによってダイナミッ
クに算出される。現フレームの雑音モデルを更新するか
どうかの判定の詳細は、特徴抽出アルゴリズムによって
実施される音声分類を調べることによって行われる。発
声について所定の数の連続した音声フレームを調べた
ら、それ以上更新は行われない。例えば、この制限は3
フレームでもよい。雑音モデルは、特定のフレームの音
声対雑音分類が雑音フレームであることを示す場合に、
この特定のフレームについてのみ更新される。
【0044】次に、プロセッサは、ステップ716にお
いてフレーム・カウントがフレームの閾値数よりも小さ
いかどうか判定する。所定の数のフレームが処理される
まで、確率推定は開始されない。これは、雑音モデルに
基づく確率が計算される前に、雑音モデルを若干正確に
することを可能にする。閾値数のフレームが受信されな
ければ、プロセッサはステップ704に戻り、ここでフ
レーム・カウントは1だけインクリメントされる。
【0045】フレーム・カウントが閾値を超える場合、
プロセッサ108は、ステップ718においてこのフレ
ームのノードおよび弧の累積確率を算出する。ステップ
720において、確率スコアは正規化される。正規化(n
ormalization)は、最大の累積確率をすべての他の累積
確率から引くことによって得られる。また、累積正規化
率(cumulative normalization factor)は、非正規化ス
コアを認識プロセスの最後で戻すことができるように追
跡される。
【0046】次に、プロセッサは、ステップ722にお
いて最後のフレームを処理したかどうかを判定する。処
理していない場合、プロセッサはステップ704に戻っ
て、フレーム・カウントをインクリメントする。処理し
た場合には、ステップ724に示すように、認識結果は
正規化スコアとともに出力される。
【0047】雑音モデルは、1状態モデルである。この
状態のベクトル平均は、μ1 Noise(m)であり、これは
ダイナミックに算出され、かつ次のようにフレームm+
1において新たな特徴ベクトルfM+1で更新されるの
で、mの関数である。
【0048】
【数5】μ1 Noise(m)=((MNoise(m)*μ1)+
M+1)/(MNoise(m)+1) ここで、MNoise(m)は、μ1 Noise(m)の計算で用
いられた雑音フレームの数であり、これは雑音更新にお
いてすべてのフレームが利用されるわけではないので、
mの値とは異なることがある。さらに、この更新式は、
雑音モデルのケプストラム要素についてのみ用いられ
る。デルタ・ケプストラムおよびデルタ・エネルギ要素
は、0に固定される。
【0049】以上、トレーニングおよび認識時の背景雑
音レベルに応じて、可変的な阻止厳密度を与える改善さ
れたシステムについて開示した。このシステムは、無効
な発声を格納済み音声モデルと関連付けることを防ぐの
を助け、有効な発声の正確な検出を改善するのを助け
る。
【0050】本発明について上記の説明および図面で図
説してきたが、この説明は一例に過ぎず、発明の真の精
神および範囲から逸脱せずに、多くの変更および修正が
当業者によって可能なことが理解される。本発明はセル
ラ無線電話などの携帯ワイヤレス装置において特に利用
されるが、本発明は、ページャ,電子手帳,コンピュー
タおよび電話機器など、音声認識を採用する任意の装置
にも適用できる。本発明は、特許請求の範囲によっての
み制限されるものとする。
【図面の簡単な説明】
【図1】ワイヤレス通信装置を示す、ブロック図形式の
回路図である。
【図2】図1による装置における音声認識システムを示
す、ブロック図形式の回路図である。
【図3】2つのノードを有する文法ネットワークの図で
ある。
【図4】トレーニングを示すフローチャートである。
【図5】ウィンドウと、それに対応するフレームを示
す。
【図6】認識を示す高度なフレーチャートである。
【図7】認識中のトレーニングを示すフローチャートで
ある。
【図8】ペナルティ関数を示す。
【符号の説明】
100 装置 102 送信機 104 受信機 106 アンテナ 108 呼処理装置 110 メモリ 112 音声回路 114 マイクロフォン 116 スピーカ 120 ディスプレイ・プロセッサ 122 メモリ 124 キー 126 ディスプレイ 202 アナログ・デジタル・コンバータ 204 特徴抽出部 206 音声認識 207 トレーニング部 208 メモリ
フロントページの続き (72)発明者 ヘンリー・エル・ケイゼッキ アメリカ合衆国イリノイ州アーリントン・ ハイツ、サウス・ジャーナンデス1323

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 音声認識システムを動作する方法であっ
    て:トレーニング中に測定される少なくとも一つの背景
    雑音レベルと、認識動作モード中に行われる入力発声の
    際に行われる雑音信号測定との関数として、可変阻止厳
    密度(variable rejection strictness)を生成する段
    階;および前記可変阻止厳密度の関数として、単語エン
    トランス・ペナルティを導出する段階;によって構成さ
    れることを特徴とする方法。
  2. 【請求項2】 可変阻止厳密度を生成する前記段階は、
    モデルのトレーニング発声の少なくとも一部において雑
    音を測定する段階を含むことを特徴とする請求項1記載
    の方法。
  3. 【請求項3】 トレーニング発声から雑音特徴を選択的
    に更新する段階をさらに含んで構成されることを特徴と
    する請求項1記載の方法。
  4. 【請求項4】 雑音統計が認識アルゴリズムで利用でき
    るように、モデルとともにトレーニング中に雑音統計を
    格納する段階をさらに含んで構成されることを特徴とす
    る請求項1記載の方法。
  5. 【請求項5】 ハンドフリー・モードでトレーニングす
    る場合には、雑音統計は更新されないことを特徴とする
    請求項3記載の方法。
  6. 【請求項6】 信号対雑音比を生成する段階をさらに含
    んで構成され、前記信号対雑音比が所定のレベルよりも
    低い場合には、トレーニングは禁止されることを特徴と
    する請求項3記載の方法。
  7. 【請求項7】 認識中に、発声について雑音統計がない
    場合、認識アルゴリズムは、整合アルゴリズムを前記発
    声に適用する際に、ディフォルトで最小厳密度条件にな
    ることを特徴とする請求項1記載の方法。
  8. 【請求項8】 認識中に、入力雑音エネルギ特徴が基準
    雑音統計と比較され、雑音比が算出されることを特徴と
    する請求項1記載の方法。
  9. 【請求項9】 アウト・オブ・ボキャブラリ阻止アルゴ
    リズムの厳密度は、前記雑音比に基づいて選択されるこ
    とを特徴とする請求項8記載の方法。
  10. 【請求項10】 最良経路の信頼度測定は、音声タグ・
    モデル(voice tag model)と並行して、ゼロ平均1状態
    ガーベッジ・モデル(zero mean one state garbage mode
    l)を利用して実施されることを特徴とする請求項1記載
    の方法。
JP2000045353A 1999-02-23 2000-02-23 音声認識システムおよび方法 Expired - Fee Related JP4354072B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US256279 1999-02-23
US09/256,279 US6275800B1 (en) 1999-02-23 1999-02-23 Voice recognition system and method

Publications (2)

Publication Number Publication Date
JP2000242294A true JP2000242294A (ja) 2000-09-08
JP4354072B2 JP4354072B2 (ja) 2009-10-28

Family

ID=22971635

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000045353A Expired - Fee Related JP4354072B2 (ja) 1999-02-23 2000-02-23 音声認識システムおよび方法

Country Status (8)

Country Link
US (1) US6275800B1 (ja)
JP (1) JP4354072B2 (ja)
KR (1) KR100321565B1 (ja)
CN (1) CN1171201C (ja)
BR (2) BRPI0001268B1 (ja)
DE (1) DE10006930B4 (ja)
GB (1) GB2347252B (ja)
MX (1) MXPA00001875A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004325979A (ja) * 2003-04-28 2004-11-18 Pioneer Electronic Corp 音声認識装置及び音声認識方法並びに音声認識用プログラム及び情報記録媒体
CN105321518A (zh) * 2014-08-05 2016-02-10 中国科学院声学研究所 一种低资源嵌入式语音识别的拒识方法

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19811879C1 (de) * 1998-03-18 1999-05-12 Siemens Ag Einrichtung und Verfahren zum Erkennen von Sprache
US6577997B1 (en) 1999-05-28 2003-06-10 Texas Instruments Incorporated System and method of noise-dependent classification
JP4818556B2 (ja) * 1999-07-01 2011-11-16 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 確率論的ロバスト音声処理
US6778959B1 (en) * 1999-10-21 2004-08-17 Sony Corporation System and method for speech verification using out-of-vocabulary models
US6754629B1 (en) * 2000-09-08 2004-06-22 Qualcomm Incorporated System and method for automatic voice recognition using mapping
EP1215654B1 (en) * 2000-12-13 2006-05-24 Sony Deutschland GmbH Method for recognizing speech
US7941313B2 (en) * 2001-05-17 2011-05-10 Qualcomm Incorporated System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
US7203643B2 (en) * 2001-06-14 2007-04-10 Qualcomm Incorporated Method and apparatus for transmitting speech activity in distributed voice recognition systems
DE10133333C1 (de) * 2001-07-10 2002-12-05 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Erzeugen eines Fingerabdrucks und Verfahren und Vorrichtung zum Identifizieren eines Audiosignals
US7711560B2 (en) * 2003-02-19 2010-05-04 Panasonic Corporation Speech recognition device and speech recognition method
KR100664964B1 (ko) 2005-10-11 2007-01-04 삼성전자주식회사 휴대 기기를 제어하는 장치 및 방법
US9093073B1 (en) * 2007-02-12 2015-07-28 West Corporation Automatic speech recognition tagging
US9020816B2 (en) * 2008-08-14 2015-04-28 21Ct, Inc. Hidden markov model for speech processing with training method
WO2016105216A1 (en) * 2014-12-22 2016-06-30 Intel Corporation Cepstral variance normalization for audio feature extraction
CN105575386B (zh) * 2015-12-18 2019-07-30 百度在线网络技术(北京)有限公司 语音识别方法和装置
KR20200063521A (ko) 2018-11-28 2020-06-05 삼성전자주식회사 전자 장치 및 이의 제어 방법
CN115631743B (zh) * 2022-12-07 2023-03-21 中诚华隆计算机技术有限公司 一种基于语音芯片的高精度语音识别方法及***

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8608289D0 (en) * 1986-04-04 1986-05-08 Pa Consulting Services Noise compensation in speech recognition
JPH03203488A (ja) * 1989-12-29 1991-09-05 Pioneer Electron Corp 音声リモートコントロール装置
CA2042926C (en) * 1990-05-22 1997-02-25 Ryuhei Fujiwara Speech recognition method with noise reduction and a system therefor
JPH04182700A (ja) * 1990-11-19 1992-06-30 Nec Corp 音声認識装置
US5386492A (en) * 1992-06-29 1995-01-31 Kurzweil Applied Intelligence, Inc. Speech recognition system utilizing vocabulary model preselection
JPH07273840A (ja) * 1994-03-25 1995-10-20 Nec Corp 音声帯域制御機能を有する移動電話機
US5832430A (en) * 1994-12-29 1998-11-03 Lucent Technologies, Inc. Devices and methods for speech recognition of vocabulary words with simultaneous detection and verification
DE19521258A1 (de) * 1995-06-10 1996-12-12 Philips Patentverwaltung Spracherkennungssystem
US5778342A (en) * 1996-02-01 1998-07-07 Dspc Israel Ltd. Pattern recognition system and method
JP3452443B2 (ja) * 1996-03-25 2003-09-29 三菱電機株式会社 騒音下音声認識装置及び騒音下音声認識方法
US5960397A (en) * 1997-05-27 1999-09-28 At&T Corp System and method of recognizing an acoustic environment to adapt a set of based recognition models to the current acoustic environment for subsequent speech recognition
JPH11126090A (ja) * 1997-10-23 1999-05-11 Pioneer Electron Corp 音声認識方法及び音声認識装置並びに音声認識装置を動作させるためのプログラムが記録された記録媒体
US5970446A (en) * 1997-11-25 1999-10-19 At&T Corp Selective noise/channel/coding models and recognizers for automatic speech recognition

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004325979A (ja) * 2003-04-28 2004-11-18 Pioneer Electronic Corp 音声認識装置及び音声認識方法並びに音声認識用プログラム及び情報記録媒体
JP4497834B2 (ja) * 2003-04-28 2010-07-07 パイオニア株式会社 音声認識装置及び音声認識方法並びに音声認識用プログラム及び情報記録媒体
CN105321518A (zh) * 2014-08-05 2016-02-10 中国科学院声学研究所 一种低资源嵌入式语音识别的拒识方法

Also Published As

Publication number Publication date
BRPI0001268B8 (pt) 2017-11-07
US6275800B1 (en) 2001-08-14
CN1264892A (zh) 2000-08-30
JP4354072B2 (ja) 2009-10-28
KR100321565B1 (ko) 2002-01-23
MXPA00001875A (es) 2004-09-10
DE10006930B4 (de) 2004-08-26
CN1171201C (zh) 2004-10-13
KR20000071367A (ko) 2000-11-25
DE10006930A1 (de) 2000-09-28
GB2347252A (en) 2000-08-30
GB0003269D0 (en) 2000-04-05
GB2347252B (en) 2001-03-28
BRPI0001268B1 (pt) 2017-05-09
BR0001268A (pt) 2000-10-10

Similar Documents

Publication Publication Date Title
JP4354072B2 (ja) 音声認識システムおよび方法
US6226612B1 (en) Method of evaluating an utterance in a speech recognition system
KR100719650B1 (ko) 잡음 신호에서 음성의 엔드포인팅 방법
US6876966B1 (en) Pattern recognition training method and apparatus using inserted noise followed by noise reduction
JP3691511B2 (ja) 休止検出を行う音声認識
US6134527A (en) Method of testing a vocabulary word being enrolled in a speech recognition system
US20120330656A1 (en) Voice activity detection
EP2148325B1 (en) Method for determining the presence of a wanted signal component
KR20010040669A (ko) 잡음 보상되는 음성 인식 시스템 및 방법
US6182036B1 (en) Method of extracting features in a voice recognition system
WO2006069600A1 (en) Automatic speech recognition system and method
JP2006154819A (ja) 音声判別方法
US6961702B2 (en) Method and device for generating an adapted reference for automatic speech recognition
US20050143978A1 (en) Speech detection system in an audio signal in noisy surrounding
US20050273334A1 (en) Method for automatic speech recognition
US6233557B1 (en) Method of selectively assigning a penalty to a probability associated with a voice recognition system
WO2005020212A1 (ja) 信号分析装置、信号処理装置、音声認識装置、信号分析プログラム、信号処理プログラム、音声認識プログラム、記録媒体および電子機器
JP4749990B2 (ja) 音声認識装置
Nautsch et al. Decision robustness of voice activity segmentation in unconstrained mobile speaker recognition environments
JP2008225001A (ja) 音声認識装置および音声認識方法,音声認識用プログラム
Casar et al. Analysis of HMM temporal evolution for automatic speech recognition and verification

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060317

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20060317

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20080708

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090630

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090729

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120807

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120807

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120807

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130807

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees