JPH01255000A

JPH01255000A - 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法

Info

Publication number: JPH01255000A
Application number: JP1048418A
Authority: JP
Inventors: Jack E Porter; ジャック・エリオット・ポーター
Original assignee: International Standard Electric Corp
Current assignee: International Standard Electric Corp
Priority date: 1988-02-29
Filing date: 1989-02-28
Publication date: 1989-10-11
Anticipated expiration: 2015-05-29
Also published as: FR2627887B1; GB2216320B; GB8902475D0; FR2627887A1; JP3046029B2; GB2216320A

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕この発明は一般的な音声認識システム、特にテンプレー
トを用いこの各テンプレートが雑音の選択的な付加によ
って生成されスピーチ認識の確率を増加させる音声認識
システムに関する。

〔従来技術〕

一般的な音声認識の方法は近年非常に発達してきており
、多くの形態で用いられている。音声認識の考え方は、
発話音に得られ几情報が直接にコンピュータあるいは他
の手段を駆動するのに用いられるということである。基
本的には先行技術においては、発話背中の情報の認識の
キー要素は周波数に関するエネルギーの分布である。フ
ォルマント周波数は特にエネルギーピークが重要なもの
である周波数である。フォルマント周波数は口腔キャビ
ティの音響共握であって、舌、顎及び唇によって制御さ
れる。聞き手にとっては最初の２つか３つのフォルマン
ト周波数が決定すれば通常母音を特定するのに十分であ
る。このようにして先行技術のマシーン認識には、入り
てくるスピーチ信号の部幅あるいはパワースペクトルを
決める几めの手段をいくつか含んでいる。音声認識の初
めの過程はスピーチ信号を認識可能な特性、ま九はパラ
メータに変換しデータフローを処理しやすい割合に減少
させる前処理である。この過程を行う九めの１つの手段
は、いくつかの広い周波数帯域における信号のゼロ交差
率を測定してこの帯域におけるフォルマント周波数の推
定値を与えることである。

別の手段はスピーチ信号をスペクトルが入力スピーチ信
号のスペクトルに最も良く適合するフィルタのノ母うメ
ータによって表わすことである。この方法は線形予想コ
ーディング（ＬＰＣ）として知られている。線形予想コ
ーｒイング、すなわちＬＰＣはその効率性、正確性及び
簡便性に特徴がある。スピーチから抽出される認識特性
は通常１０ないし４０ミリ秒に渡って平均化され５０−
＝　１００回／秒でサンプリングされる。

スピーチを表わして認識するために用いられるパラメー
タは直接的あるいは間接的に擾幅ま之はパワースペクト
ルに関連する。フォルマント周波数及び線形予想フィル
タ係数は音声スペクトルに間接的に関連するノ４ラメー
タの例である。他の例ではセプストラルパラメータ及び
ログエリア率パラメータがある。

〔発明の解決すべき課題〕

これらのま友他の多くの場合認［Ｋ用いられる音声パラ
メータはスペクトル／４’ラメータから導出されること
ができる。本発明は音声認識パラメータを生成するスペ
クトルパラメータに雑音を選択的に付加することに関し
ている。本発明はスペクトルパラメータから導出された
、あるいは導出されることができるスピーチノダラメー
タを用いる音声認識のあらゆる形態に適用される。

いずれにしても、過去における音声認識の多くの一般的
な方法はテンプレートを用いて照合を行なっている。こ
の方法では通常言葉は／４’ラメータシーケンスの形で
表わされる。認識は予め定義された同様の方法を用いて
未知のテンプレートトークンを記憶されたテンプレート
と比較することによって行なっている。多くの場合ワー
ドの生成速度の可変性を説明するのに時間配置アルゴリ
ズムが用いられる。従ってテンプレート照合システムは
音声的な別々のワードの小さいセットによって高性能を
発揮することができる。研究者の中には広い範囲の話者
の精密な音声分別ｔ＃！Ｐ、的に行なうこのようなシス
テムの能力を疑問視している。

ジェイ・ニス・ノ母−ケル（Ｊ、Ｓ、Ｐｅｒｋｅｌ　）
及びｆイー・エイチ・クララ）’　（Ｄ−Ｈ，Ｋｌａｔ
ｔ　）による論文″精密な音声分別の達成二テンプレー
ト対特性”（″′スピーテ工程における可変性及び不変
性”ヒｋ　／１．　ｆイル編、ニューツヤ−シイ、ロー
レ／スーエルバウム響アソシエイツ刊、１９８５年、発
行者アール・エイ・コール、アール・エム・スター／及
びエム・ジェイ・ラスリー）を参照されたい。

従って別の方法として、多くの人がスピーチ信号内の音
声的に関連のある情報をとらえる背戸特性のセラトラま
ず識別するような音声認識のための特徴に基づいた方法
を提案している。この知識に基づいてスピーチ信号から
の特徴を抽出するようにアルゴリズムを構成することが
できる。次に特徴全結合し認識決定に達するために分類
が行なわれる。特徴に基づい念システムはテンプレート
照合技術よりも精密な音声弁別の実行性能が良く、し念
がって優れているという議論がある。いずれにしても、
テンプレート照合はパターン認識によく用いられる方法
であシ、それによって未知のものがプロトタイゾと比較
されてどれが最も近似しているかが決定される。

この決定によって分類の几めの多重変化がウスモデルを
用いた特徴に基づく音声認識によっても、テンプレート
照合金実行することができる。この場合特徴ベクトルヲ
ノやターンとして用いるのは統計分類者だけである。同
様にスペクトル振幅及びＬＰＣ係数全特徴として見ると
、ス（クトルに基づく技術も同様に特徴に基づく方法で
ある。

テンフレート整合及び特徴に基づくシステムを用いるこ
とに関して、実際には連続体に沼って異なる点を表わす
。テンプレート整合法に伴う最も重要な問題の１つは、
精密な音声分別に十分感度を有するが関係のないスペク
トル変化には感受性のない距離計測を限定する困難性が
ある。

この問題−つの表われは、長い不変母音のスペクトルに
おけるＸ要でないフレーム／フレーム変化に与えられる
過剰な重みによるものである。従ってこのような問題の
ある先行技術によって、音声距離に感受性があり関係の
ない音声差異には感受性がないようにされている多数の
距離音律が提供されている。例えばＩＣＡＳＳＰ−８２
の機関誌（ＩＥＥＥカタログＡＣＨ１７４６−７、第１
２７８頁ないし第１２８１頁、１９８２年）に掲載され
ている論文１臨界帯域スペクトルからの受容音声距離の
予想’（デイ−・エイテ・クラットによる）を参照され
危い。

いずれにし５ても音声通信システムをより良く理解する
几めにグロシーディングズーオプＩ　ＥＥＥ（１９８５
年１１月号、■、７３、屓１１、第１５３７頁ないし１
６９６頁）を参照する。ＩＥＥＥのこの文献ではマン／
マシーンスピーチコミユニケージ。

ンシステムに関するいろいろな論文が提供されており、
関連する特定の問題に１畦野′！！−弘イくくりしるも
のである。ここで理解できるように、どのような音声認
識システムにも関係する重要な点は、その分配タスクの
実行、すなわちすべての環境の型に関する音声を認識す
る九めのシステムの能力である。

上記のように多くの音声認識システムでテンプレートが
用いられている。基本的にこのようなシステムでは発話
ヲノンラメータシーケンスに変換すせて、コンピュータ
に記憶させる。音声波は話者の口からマイクロホンを通
ってアナログ／７′ジタルコンバータに搬送され、そこ
でフィルタを通して、例えばそこにあるかもしれない背
景雑音と共にデジタル化される。次にデジタル化された
信号はさらにフィルタを通して認識パラメータに変換さ
れ、この形態で記憶スピーチテンプレートと比較されて
話された言葉の内の最もありそうなものの選択を行なう
。このような方法のさらに別の例としては、ＩＥＥＥス
（クトル（１９７７年４月発刊、Ｖｏ１２４．Ｉ６４　
）がある。この中の論文ティー・ウオルヒによる“スピ
ーチ認識の実行″（第５５頁ないし５７頁）を参照され
几い。

この論文かられかる通り、音声認識システムの適用は一
定して拡大してきており、論文でも指摘されているよう
にいろいろな適用例ですでにたくさんのモデルが用いる
ことができるようになっている。テンプレートの形成は
又先行技術でも良く知られている。このようなテンプレ
ートは多くの色々な型の音声認識システムで用いられて
いる。

システムの一例は“キーワード認識システム”としてジ
ェイ・ニス・プリドル（Ｊ、Ｓ、Ｂｒ１ｄｌｅ　）によ
る論文“継続中のスピーチにおける与えられ念単語を決
定するための効率的なエラスチックテンプレート方法’
　（１９７３年４月、′イギリス音声学会の春季学会”
、第１ないし４頁）に記載されている。この論文で著者
はキーワードの発話例の、４ラメ一タ表示からエラスチ
ックテンプレートを引き出して検索することを論じてい
る。入ってくるスピーチの同じようなパラメータ表示は
これらのテンプレートと連続的に比較されて、スピーチ
とテンプレートが引き出され几キーワードの間の類似性
を推定する。

入ってくるスピーチのセグメントが対応するテンプレー
トに十分に近似している場合は、認識装置によってワー
ドが話されたものと決定される。

ワードテンプレートは、話す速度の変化及び巣語の発音
速度の変化の念めに時間的に拡大および圧縮されること
ができる九めに“エラスチック”と呼ばれる。

キーワード認識は従来のスピーチ認識と同様である。前
者はテンプレートが恣意的な言葉、すなわち音の文脈の
範囲内で認識されるべき“キー”ワードについてのみ記
憶されるものであるが、後者では話されると予想される
スピーチのすべてに対してテンプレートが記憶される。

このようなシステムの全てはキーワード！！！！識シス
テムであろうがテンプレートを用いる従来のスピーチ認
識システムであろうが、同じ問題、すなわち例えば異な
る個人によって発話された、あるいは同じ個人によって
異なる条件で発話されたワードを認識する能力をシステ
ムが有しないという問題に突き当なる。

従って本発明の目的は自動音声認識システムの九めの改
善された装置及び方法を提供することである。

さらに雑音環境に自動的に適合する音声認識システムを
提供することも本発明の目的である。

〔課題解決の九めの手段〕

、添付特許請求の範囲かられかるように、多くの音声認
識システムは雑音のある状態では動作性能が減少する。

これは特にテンプレートが、雑音がほとんど或は全くな
いか、あるいは認識が実行される時点で異なる性質の雑
音が存在するようなスピーチから導出された場合に懸著
である。どの困難性を減少させている従来の方法では新
しい雑音の存在する新しいテンプレートを生成すること
が必要である。この生成には新しいスピーチ及び雑音の
収集が必要である。この発明のシステムではテンプレー
トに分析的な雑音が付加され、それによって認識の確率
が改善されてシステムの性能が実質的に増加し、しかも
テンプレートの生成に新しいスピーチを集める必要がな
い。

本発明のシステムは、発話のスイクトルの大きさを出力
で与え、記憶されたテンプレートを処理されたスペクト
ル値と比較して前記発話中のスピーチの存在を示す良好
な比較が得られると出力を与えるスペクトル分析器を備
え、前記記憶テンプレート全生成するｔめの装置を具備
し、前記スペクトル分析器に結合して入ってくる信号の
予想される雑音信号を示す信号を与えるための第１の手
段と、この第１の手段と結合して前記予想される雑音信
号に応答して前記予想される雑音信号に従って変調され
るテンプレート’を生成する手段とを備えているスピー
チ認識システムである。

〔実施例〕

図面に示されるように、本発明は現実のスペクトル線か
あるいはスペクトル線から導出されるｉ４ラメータを用
いるすべての認識システムに適用される。後者ではテン
プレートを雑音の分析付加の九めのスペクトル線及び動
作テンプレートの２つの形態で記憶する必要がある。

第１Ａ図を参照すると、本発明に従いスペクトルから導
出された認識ノ中うメータを用い次音声認識システムの
１０ツク図が示されている。

マイクロホン１０が示されており、システムを用いる通
話者がこれを使用してスピーチを入力する。マイクロホ
ン１０は音声波を電気信号に変換し、この信号は増幅器
１１によって増幅される。

増幅器１１の出力はスペクトル分析器１２に結合されて
いる。スペクトル分析器１２は短期分析能力を有する広
帯域ま九は狭帯域のスペクトル分析器である。スペクト
ル分析器の機能及び構成は基本的によく知られており、
多数の方法で構成されることができる。

スペクトル分析器１２はスピーチ音燭ｂフレームに分割
し、その出力において各フレームのパラメータ茨示を出
力する。スペクトル分析器１２によって実行される特別
な型の音声分析は本発明には重要ではなく、多くの既知
の音声分析器またはスペクトル分析器が使用できる。こ
のような例は米国特許出願第４３９０１８号（１９８２
年１１月３日出願、シー・ベンスコ等）及び第４７３４
２２号（１９８３年３月９日出願、ノー・ベンスコ等）
明細書に記載されている。両出願とも本発明の譲受人で
もあるアイティーティー・コーポレーションに譲り受け
られており、本願の参照文献である。

米国特許出願第６５５９５８号（１９８４年９月２８日
出願、発明者ニー・エル・ヒギンズ等、名称１テンプレ
ート一連結モデルを用い友キーワード認識システム及び
方法＃）も参照文献である。

スペクトル分析器１２には１４チヤネルバンドｉ４スフ
イルタアレイが備えられており、用いられているフレー
ムの大きさは２０ミリ秒かそれ以上である。これらのス
ペクトルパラメータ鉱第１Ａ図に示されているように処
理される。図示されているように、スペクトル分析器１
２の出力はスイッチ１３に結合されており、このスイッ
チ１３は認識、７オームテンプレート、あるいは変調テ
ンプレートモードで動作することができる。

スイッチ１３が７オームテンプレートモードに置かれる
と、スペクトル分析器１２の出力はテンプレートのス（
クトル形式モジ、−ル１４に結合される。モジュール１
４の目的はスペクトル分析器１２の出力からのテンプレ
ートの形成を助けることである。これらのテンプレート
はモジュール１４中で形成され、テンプレートのスペク
トル線の形態であり、このようなテンプレートを形成す
る多くの方法が良く知られて−る。基本的にフオームテ
ンプレートモードではスペクトル分析器１２の出力はモ
ノニール１４によって処理され、通話者がマイクロホン
１０ｆｔ通して行なっ念発話に関するテンプレートが与
えられる。通話者は認識されるように言葉を話し、基本
的に話された言葉を示すテンプレートが生成される。こ
れらのテンプレートはモジュール１５によって使用され
、スペクトル生成テンプレートから導出されたｔ！ラメ
ータを認識）ぐラメータを導出し、モジュール１６によ
って示されるように最終テンプレートを雑音が低いかあ
るいは雑音のない状態で生成する。

次にモジュール１６によって指示されているように雑音
のなｈ状態のテンプレートは記憶されて、例えば特定の
話者によって発話されたワード、フレーズなどとして特
定の発話を示す。

記憶されたテ／プレートはスイッチ１００によってプロ
セッサ１６０に結合され、認識アルゴリズムが実行され
る。従ってプロセッサ１６０は認識モードで動作して未
知のスピーチを雑音のない状態で生成されモジュール１
６に記憶されたテンプレートと比較する。その定め第１
Ａ図に示されているようにフオームテンプレートモード
ではスベクトル形式のテンプレートが与えられてテンプ
Ｌ／　−トｙ！ラメータが得られ、このテンプレートパ
ラメータは次【雑音がないかあるいは低雑音の状態でテ
ンプレートを形成するのに用いられる。後に説明するよ
うにプロセッサ１６０は、低雑音かあるいは雑音のない
状態でモジュール１６／Ｃ記憶されたテンプレートによ
り動作することができる。

プロセッサ１６０の機能もま九良く知られており、基本
的に色々な距離測定その他のアルゴリズムに基づいて照
合するように動作する。このような照合が行なわれると
、これは正しいワードであり、このワードまたは音はシ
ステムの出力となるという指示が与えられる。

スイッチ１３は認識モードに置かれるとスペクトル分析
ａ１ｚの出力を導出／ＩＰラメータモジュール１６ノに
結合させ、このモジ、−ル１６１ｆ−！＆本的にス（ク
トル分析器からパラメータを引き出し、）９ラメータは
例えば上記のようにモジュール１６に記憶され几記憶テ
ンプレートと比較される。

第１Ａ図に示されているよりに、スイッチ１３はま念中
央位置にセットすることもできる。中央位置は変調テン
プレートモード位置であり、スペクトル分析器１２の出
力が推定値雑音統計モジュール１６２に入る。モジュー
ル１６２の機能は基本的に雑音分析を行なうか、あるい
は雑音を処理して雑音統計の推定を行なうことである。

これは本発明の主要な特徴であり、これによって本発明
は雑ｔ１に選択的に付加してテンプレート？形成し、音
声認識を実行し、このような付茄雑晋のある状態でこの
ような認識における改善を行なう。

従って推定値雑音統計モジュール１６２の機能は後にさ
らに説明するが、モジュール１４と結合しこのモジ、−
ルから情報を受けるモジュール１６４中に形成されたス
ペクトルテンプレートを変調することである。モジュー
ル１６４の出カバモジュール１６５で認識パラメータを
導出し、このパラメータはモジュール１６６によって示
されるように雑音のある状態かあるいは雑音が低レベル
の状態で用いられるテンプレートを形成するのに用いら
れる。そのために第１Ａ図に示されたシステムによって
雑音のある状態のテンプレートか、あるいは非常に低レ
ベルの雑音または雑音のない状態のテンプレートかによ
ってスイッチ１００を切換えて認識が行なわれる。

簡巣に上記し比ように、認識モードではスペクトル分析
器１２のスペクトルパラメータ出力が導出パラメータモ
ジ、−ル１６１によってプロセッサ１６０の入力に与え
られる。プロセッサ１６０は通常アルゴリズムを実行す
るが、これも又本発明には重要ではない。プロセッサ１
６０は記憶されたテンプレートのシーケンスを決定し、
入ってくるスピーチが認識できるように最良の照合を行
なう。従ってプロセッサの出力は基本的に一連のテンプ
レートラベルであり、各ラベルは最良の照合テンプレー
トシーケンスにおける１つのテンプレートを表わす。

例えば各テンプレートには１つの番号及びラベルが割り
当てられる。この番号はマルチピット表示でも良い。こ
の出力はプロセッサＪ６０に備、ｔられたテンプレート
サーチシステムに与えられ、プロセッサは例えばマルチ
ビット表示があるとテンプレートラベルのための記憶装
置を備え念比較器となる。従ってプロセッサ１−６０は
入ってくるテンプレートラベルの各々を記憶されたテン
プレートと比較するように動作する。次にサブシステム
であるプロセッサ１６０によって、特定のワードあるい
はフレーズがワードあるいはフレーズそのものと同様に
発話されたという指示が与えられる。

７オームテンプレートモードあるいは変調テンプレート
モードのいずれかにおいては、使用者はいろいろな言葉
を話し、スペクトル分析器１２のスペクトル出力から認
識ノ母うメータが引き出される。変調テンプレートモー
ドではシステムが、認識モードにおけるシステムと協働
して用いられるために種々のテンプレートを生成し、こ
のテンプレートは上記のように推定値雑音統計モジュー
ル１６２による雑音の選択的な付加によって変調される
。このモジュール１６２による雑音の選択的な付加によ
って後にさらに説明するようにより信頼性の高いシステ
ム動作が得られる。

第１Ｂ図全参照すると、自然界のスペクトルを認識パラ
メータとして用いた認識システムが示されている。いず
れの場合も第１Ｂ図では第１Ａ図と同じ参照番号によっ
て同じ機能の部材が示されている。図かられかるように
、マイクロホンＩＱは増幅器１１の入力釦結合され、増
幅器１１の出力はスペクトル分析器１２の入力に結合さ
れている。ス（クトル分析器１２の出力は再びスイッチ
１３に結合され、スイッチ１３はフオームテンプレート
、変調テンプレート、あるいは認識モードで動作できる
ようになっている。

第１Ｂ図かられかるように、７オームテンプレートモー
ドではモジ、−ル１７０によって低雑音か雑音のない状
態でテンプレートが形成される。

このモジ、−ル１７０は自然界のスペクトルである認識
）９ラメータを直接に与える。次にこの７オームテンプ
レートが記憶されてモジュール１７１に結合され、モジ
、−ル１７１はスペクトルテンプレートを、基本的に雑
音モジュール１６２として機能する推定雑音統計発生器
１２２の影響の４とに例えばモジ、−ル１２０から導出
されるスペクトルテンプレートを変調する。変調スペク
トルテンプレートモジュール１７１の出力はモジュール
１７３に結合され、モジュール１７３はテンプレートを
雑音状態で用いるために記憶する。この図でもプロセッ
サ１７７が示され、モジュール１７θ中に記憶されたテ
ンプレートかあるいはモジュール１７３中に記憶された
テンプレートのいずれかで動作する。

いずれの場合もさらに処理する前には、先行技術に従っ
てどのようにテンプレートを生成するかが知られている
。テンプレートの生成にはいくつかの方法がある。テン
プレート生皮の作業を実行する方法は自動的であシ、通
常は多段階あるいは二段階工程を用いている。このよう
な方法の１つでは訓練発話からのスピーチデータ（テン
プレートモード）がセグメントに分割される。次にこれ
らのセグメントが統計クラスタ分析の入力として与えら
れ、セグメント間の距離の測定値に基づいて数学的な関
数を最大にするセグメントのサラセットが選択される。

選択されたサラセットに属するセグメントはテンプレー
トとして用いられる。

このような技術は上記の米国特許出願第６５５９５８号
明細書に記載されている。いずれにしても距離を測定す
る次めのいろいろな方法が知られており、発明の背景罠
引用されたいくつかの参考文献に記載されている。距離
を計測する方法で広く知られているのはマハラノビス距
離計算というものである。

この方法の例は米国特許出Ｈ第００３９７１号明細書（
発明の名称”多重・９ラメ一タ話者認識システム及び方
法”、１９８７年１月１６日、レンチ等に譲渡されてい
る）に記載されている。この明細書には通話者認識シス
テムに用いられた他の色々な技術の例が示されており、
このシステムに用いられているアルゴリズムのいくつか
が詳細に記載されている。いずれにしても第１図を参照
すると本発明の主要な特徴が第１図に示された音声認識
システムと関係しており、入ってくるスピーチとの比較
にテンプレートを用いており、それによってどのワード
が話されたかを決定する。この方法はキーワード認識シ
ステム、音声認識システム、話者認識システム、話者確
認システム、言語Ｎ識システム、あるいはテンプレート
または各種テンプレートの組合せを用いて話された音に
関しての決定を行なうようなシステムならどのようなシ
ステムにも用いることができる。

本発明の構成及び方法の説明の前に、発明の原理及び考
え方を説明する。

発明者は、テンプレートのＳ／Ｎ比が未知のあるいは発
話されたスピーチと同じである時は、それよシも雑音が
大きかつたり小さかっ几りするテンプレートを用いるよ
りも認識性能が良いことを認識し友。従って音声信号の
Ｓ／Ｎ比が予想できると考えられる場合は、テンプレー
トが入ってくる未知のスピーチと同じＳ／Ｎ比のスピー
チから生成された１かのように”使用される前に、テン
プレート１−変調することによって認識性能を最適化す
ることができる。

従って本発明を実用化するには以下のような考慮をしな
ければならない。第１に入ってくるスピーチのＳ／Ｎ比
を予想し、第２にテンプレートを１かのように＃なるよ
うに変調することである。

予想は理論と経験の両方に基づいて行なう。多くの場合
低レベルかあるいは一定の雑音の場合絶対的であるか、
この雑音よりも大きな比較的一定のレベルでのいずれか
で、比較的一定のレベルで話すことを話者に期待するこ
とができる。次にスピーチ及び雑音レベルを用いて未知
のスピーチのＳ／Ｎ比を予想することができる。以下に
説明するように、これはスピーチ及び雑音レベルトラッ
カーモジュールを用いることによって行なわれる。

ある一定の距離では各々のフィルタチャネルの話すレベ
ルと雑音レベルの両方が、現在値が近い将来の値の有効
な推定値となるように十分にゆっくりと変化する。

雑音がないか雑音が比較的ないテンプレートを変調する
ことによって、テンプレートがより雑音のあるスピーチ
から作られた“かのよう”にすることは、経験と理論的
な考慮の両方に基づいている。

研究の結果、個々の各フィルタバンクチャネルで雑音及
びスピーチのパワーが付加することとよシ近似であるこ
とが決定され友。より正確な近似値はスピーチ及び冬者
・矩δイ＋＝　ａ　芋ｉｆ的なチ平万分布を有し、これ
にはフィルタバンクチャネル帯域に関する多くの自由度
が伴っている。上記のま友別の考慮から、既知の統計特
性の雑音を伴う既知のスピーチパワーの組合せの予想値
の推定値をより正確にとることができる。このようにし
て“雑音の付加”における正確性が増大することによっ
て、生成され几テンプレートの正確性も増大するが、′
パワー付加”規則を用いて得られる以上には認識の正確
性を顕著に増大することはない。

従ってスピーチ及び雑音パワーの組合せの予想値を推定
する別の方法に代替させることによってプロセスはより
理論上正確にすることはできるが、以下はノクワー付加
規則について述べる。この代替によって本発明の意図あ
るいは実体が変化を受けることはない。

さらに内部電子雑音及び量子雑音の両者が“ノヤワー付
加”規則に関して音響雑音及び信号と結合することが観
察される。これらの雑音は関連する音響雑音よりは小さ
いが適用は可能である。従っているいろなモデルを構成
するＫあたりて“ノヤワー付加”の結果を用い、それに
よって研究作業を継続的な努力で明かにし、有効モデル
から導出される数を用いることができる。これは以下に
説明する。

雑音ノヤワーから生じるテンプレートが信頼できる認陳
出力の生成に関して非常に良好に動作するその平均値に
等しいことが示されている。従って雑ｔ”ワーのフレー
ム／フレーム可変性を予想することは必要ではなく、平
均値を用いることで十分である。捜索されているテンブ
レートノ々ラメータは、現在の平均雑音パワーと結合す
るベースフオームテンプレートにおいて効率的な同じス
ピーチ／４’ワーから生成されるパラメータである。

システムからのチャネル雑音ノ臂ワー値は雑音ノ臂ワー
の推定値であり、数学的に決められることができる平均
雑音ノ４ワーに関連して取ることができる。従って本過
程及び正当性を完全に理解するために、以下説明する。

まず指摘されるのは、付加ゼロ平均がウス雑音によって
退化したスピーチ信号の単一の分離されたフーリエ変換
（ＤＦＴ　）の出力の確率分布は容易に計算することが
できることである。バンドパスフィルタバンクの各チャ
ネルに適用可能にする友めにどのようにスピーチ及び雑
音が結合するかというモデルを拡張するために重要な次
に考えるべきファクターは、チャネルの帯域が単一ＤＦ
Ｔチャネルよりもかなり大きいか、大きくすることがで
きるということである。従って雑音ノ母ワーノぐラメー
タ及びチャネルを構成する数は、スピーチがなく雑音が
ある状態でのバンドｔ４スフイルタの出力を観察するこ
とによって推定することができる。

次のステツブは、雑音がない状態で形成されたスピーチ
認識テンプレートが雑音のある状態での予想される値に
等しくなるように変調することによって雑音のある状態
で用いられるように改善することである。従って用いら
れる方法は、雑音のないテンプレートに実現されている
各スピーチサンプル及びバンドパスフィルタチャネルに
、現在の雑音の存在によって変調される雑音のないテン
プレートの予想値を代替させている。

その之めパントノやスフイルタチャネルの出力における
平均及び変化を測定することによって、ガウス雑音を通
過する際のチャネルの特性を推定することができる。基
本的には上記から理解できるように（そして上記事項の
大男は数学的にも証明されている）、本発明を実行する
にあたり理論上及び経験上の両方に基づいている。基本
的にはこのように本発明の特性はテンプレートの形成に
雑音を解析的に付２ＵＬ、形成されたテンプレート？動
作はせて音声認識システムの信頓性を増大させる。

雑音のない環境で集められ友テンプレートｆ−タに雑音
を付Ｗし、それによって雑音のある環境で用いる新しい
テンシレートド−クンするには２つの方法がある。厳密
な方法では各テンシレートド−クンに雑音を付加し、そ
れから結果を平均する。

近似的な方法では雑音のないトークンを平均してベース
フォームデータを形放し、“ノヤワー付加”あるいは他
の便利なまたはより正確な規則を用いて現在の状態に適
切な雑音を付加することによってｒ−夕を変調する。厳
密な方法は全てのテンプレート及び周囲のトークンを維
持することが必要であり、ま友過剰な記憶が必要である
。近似的な方法は基本的に同じテンプレート及び認識結
果を与える。実行の際には主要な考え方がある。これは
テンプレートデー夕が用いられる環境に関して雑音がな
いものであるといりことである。

第２図を参照すると、ペース７オームテンプレートに雑
音を付加することによって使用されるテンプレート形成
の詳細なブロック図が示されている。ペースフオームテ
ンプレートはそれ自体“トークン”という言葉のセット
にわ九って形成された平均である。各トークンは所定の
ワードの１つの発音から取っ九パラメータから成る。１
つあるいはそれ以上のトークンが配列されてペースフオ
ームテンプレートが形成される。ベース７オームテンプ
レートは静かな状態で形成され、第１Ａ図に示されたモ
ジュールノロか、あるいは第１Ｂ図に示されたモジュー
ル１７０に記憶される。第３図は第２図に示され几各値
を限定する表である。

第２図には再びマイクロホン１０が示されており、この
マイクロホンに話者が発話する。マイクロホンの出力は
増幅器１１の入力に結合され、増幅器１１の出力ａ　Ｂ
ＰＦ　、すなわちバンドパスフィルタとして図示されて
いるスペクトル分析器１２に結合される。スイッチ１３
は変調テンプレート位置にある。スペクトル分析器１２
からの出力はパントノ中スフィルタス４クトルの大きさ
の値のベクトルであってモジュール２ｏに与えられ、こ
のモジュール２０はフレーム対を平均化する。

フレーム対の平均化は良く知られた技術であり、基本的
に多くの胱知の回路によって実行される。

モジュール２０の出力はスペクトル分析器１２からの入
力の連続対を平均化した結果であり、モジュール２０は
効果的なフレーム速度を半分にする。

モジ、−ル２０の出力はスケールピットモジュール２１
及び２乗成分モジュール２２に与えられる。

２乗成分モジュール２２はベクトル出力を与え、この出
力は基本的に平均フレーム対モジュール２０の出力のノ
々ワー値である２乗値に等しい。

スケールピットモジュール２１の出力は基本的に連続シ
フトによって実行される連続対の平均の２倍を与える作
用をし、ベクトル最大成分を７ビツトスケールに適合さ
せることを可能にする。そのためにモジュール２ノはシ
フトレジスタであ夛、このレジスタは基本的に多数の右
シフトヲ行ない記載された動作を実行する。スケールピ
ットモジ１−ル２１からの出力は対数変換器２３に向け
られ、この変換器２３はその出力にスケール対数スペク
トルパラメータベクトルを生成する。次にこのパラメー
タベクトルはモジュール２４によってテンプレートトー
クンの与えられたセラ）Ｋわ念っで平均化され、出力で
基本的にペースフオームテンプレートの１個のパラメー
タを与えるスケール対数スペクトルパラメータを与える
。２乗成分モジュール２２からの出力は相対エネルギー
モジュールであるモジュール２５の入力とスピーチ及び
雑音レベルトラッカーλ〆司入オｌて勺１プら截る。

相対エネルギーモジュール２５の出力は、例えば２乗成
分モジュール２２の出力からのエネルギーを平均化する
ことによって決められる相対エネルギーを示するノ４ラ
メータである。これはモジュール３６によってテンプレ
ートトーク／にわたりて平均化され、別のペースフオー
ムデータ値を与えるのに必要な相対エネルギーパラメー
タである出力ベクトルの平均指示が与えられる。スピー
チ及び雑音レベルトラッカー２６からの出力は後に述べ
るように、モジュール２７によって再び平均化すれるエ
ネルギーレベルを指示し、このモジ。

−ルの出力でさらに別のペースフオーム特性のエネルギ
ーレベルを与える。スピーチ及び雑音レベルトラッカー
からはさらに述べられるように２つの付加出力が与えら
れ、この内の１つはワード時間およびチャネルてわ之っ
て平均化された発話レベルの対数指示であり、チャネル
はワードに添付された計数回路である。他のものは時間
にわ几って平均され几各チャネルにおける雑音レベルの
ベクトルであるが、チャネルには関連していない。

これは又単語認識ユニットに添付され几ベクトルでもあ
る。従ってモジュール２７からの出力は第１の加算器モ
ー）ニール３０に与えられ、このモジュール３０はスピ
ーチ及び雑音レベルトラッカーからの付加出力を受ける
ことが示されている。加算器３０の出力は加算器３１の
入力の１つに与えられ、この加算器３１はその他方の入
力においてスケールビットモジュール２１から引き出さ
れた出力を受ける。スケールビットモジュール２１の出
力は係数Ｋによりモジュール３２を介して乗算され、Ｋ
は１８，１７２に等しくさらて第３図に示されている。

次にこの値はモジ、−ル３３によって平均化され、その
出力において加算器３１の他方の入力に与えられる対数
値のペースフオーム値を生成する。加算器３１の出力は
加算器３２に与えられる。加算器３２はもう１つの入力
としてスピーチ及び雑音レベルトラッカー２６からの出
力を受け、これは再び各チャネルにおける雑音レベルの
ベクトルである。この出力は機能モジュール４Ｑの１つ
の入力に与えられ、モジ、−ル４０は他の入力において
はモジュール２３からの出力を受ける。機能モジ、−ル
４０からの出力は雑音付加テンプレートのスケール対数
スペクトルパラメータベクトルである。これは機能モジ
ュール４１に与えられ、その出力において特定の発話の
メルーコサイン変換マトリックスである認識ノぐラメー
タベクトルを与える。従ってモジ、−ル４１からの出力
及びトラッカーモジュール２６からの出力が用いられて
動作テンプレートデータカ４えられる。

上記のように第２図のブロック図と関連する出力は第３
図に示されている。第３図かられかるように、第２図か
ら引き出されるペース７オームテンプレートの実効的な
スペクトルの大きさは基本的に次の式によって与えられ
る。

ｍ　　＝２　　・ＸＰｂ（ｔ　）実効的な／ヤワーは次の式によって与えられる。

Ｐ＝蓄Ｌｍ　＝　２２１１１＠ＸＰｂ（２２１１）定義
は第３図を参照され友い。

雑音を付加する前に、各フレームのノクワーは変調され
て、第２図のモジー−ル２２の出力において示されたテ
ンプレートの平均発話レベルは、加算器３０の入力に与
えられるスピーチ及び雑音レベルトラッカー２６の出力
によって示される現在の発話レベルと同じである。その
値は認識ユニツ）（９，３３１デシベル）中にあるため
、ペースフオームの実効パワーは変化してトラッカー２
６の出力で指示される。これに関して、現在の雑音レベ
ルが付加されるために、雑音付加テンプレートの実効ノ
ヤワーレベルを得て、雑音付加テンプレートの実効的な
大きさがモジュール４１の出力に示すことができる。

従ってすべての動作認識ノ９ラメータは、相対的なエネ
ルギーの尺度である対数スペクトルノ４ラメータのメル
ーコサイン変換である。第３図の定義と共に第２図全見
れば当業者にとって上述のことは明らかであり、数学的
にも明白である。

従って同じ正確な技術を用いることによって、テンプレ
ートトークンに雑音全付加し、次に平均化すること釦よ
りてテンプレートを形成することができる。基本的にこ
れを行うプロセスは第２図に示されたものと同じであり
、それによって機能ユニット４０の後に平均化が行なわ
れること以外は第２図に示されたものと同じ正確な出力
が与えられる。

第４図では、上記のようにテンプレート形成技術を用い
九通常のシステムの詳細なブロック図が示されている。

８４図では、同じ機能の部品を示すのに同じ参照番号が
用いられている。第４図でわかるよう和、ニーダ／デコ
ーダ（Ｃ０ＤＩＣ）　−ｖ−ジュール及び線形回路４７
に加算器の出力が結合された状態で、加算器４６の１つ
の入力に結合されたＡＧＯ１すなわち自動利得制御モジ
ュール４５が配置されている。コーダ／デコーダモジー
ールは基本的にアナログ／デジタル変換器であり、これ
にデジタル／アナログ変換器が続いている。コブツクの
出力は合成器、またはパントノ９スフイルタバンク、す
なわちスペクトル分析器１２に与えられる。

スペクトル分析器１２からの出力は平均フレーム対モジ
ュール２０に送られ、このモジュールは再びｆｆ１Ｋ述
べるスケールモジュール２１及びスピーチ及び雑音トラ
ックトラッカー２６と関連する。

第４図の右側に示された出力ラインからはいろいろな動
作テンプレートデータ値が与えられ、これは雑音のある
テンプレートを形成するのに用いられる。

主要機能モジュールはスピーチ雑音トラッカー２６であ
り、これはさらに後述する。また第４図にはマイクロホ
ン１０への入力に記号Ｎａ及びＳｃが付けられ、これは
重要な信号及び雑ｔ＠である。

下付きのＣ”によりてこれらの表現がスペクトル分析器
１２を形成するフィルタバンクチャネルの各々の通過帯
域にわたって平均のスペクトルの大きさを表わすことを
示している。この下付き＠Ｉｃ”には１４の値があり、
各々の値はフィルタバンクの各々のフィルタを表わす。

従ってＳｃは音声スピーチ信号のチャネルＣのスペクト
ルの大きさであり、Ｎａはこのチャネルの音響雑音の２
乗平均平方根ス４クトルの大きさである。加算器５０及
び４６からの出力は電子雑音の大きさであり、これはＡ
ＧＣ利得制御４５の前ま之は後に注入される。Ｃ０ＤＥ
Ｃ４７からの出力にはＣ０ＤＥＣによって導入される量
子化雑音のス（クトルの大きさが含まれる。いずれにせ
よ、スペクトル分析器１２の出力ハバンドパスフィルタ
ス（クトルの大きさの値のベクトルであり、平均フレー
ム対モジュール２０の出力はス（クトルの大きさの値の
連続対の平均化の結果である。

ス（クトル分析Ｂ　１２の実効的な出力信号は、フィル
タパンクのパスバンドにわ几るフィルタバンク入力にお
ける信号のスペクトルの大きさの推定値であり、これは
フィルタバンク内の各チャネルに指示されている。これ
らの値の連続対は平均化されて５０７秒の速度でモジュ
ール２０からの出力を生成する。

基本的に１４のチャネルのすべての値のセットは全てモ
ジュール２１において同じ数Ｓだけ右にシフトされ、そ
れによって最大７ビツトあるいはそれ以下を占有し、そ
の結果の値は見出し表によって対数に比例する数に変換
される。表は入力１２７に戻って結果が入力の自然対数
の２６．２倍と、すなわちベースｂに対する対数と考え
ることができる（ｂは１．０３８８８である）。２０ミ
リ秒のフレーム値は又トラッカー２６によって用いられ
てピークスピーチエネルギーの尺度と各チャネルの平均
雑音エネルギーの推定値が生成される。

発話レベルはマイクロホン１０におけるスピーチエネル
ギーの全体に任意の定数ヲ茄え九もののベースｂに対す
る対数の推定値である。

ＡＧＣ利得の効果は基本的に除去される念めスペクトル
値ではない。例えばこの利得はフィルタバンク全体の通
過帯域のエネルギーの全体景である。

発話レベルの推定値もま之関連するワードかフレーズで
あり、その時定数は短い発話がなされる時のレベルの大
きさである。従って各テンプレートあるいはテンプレー
ト期間の未知のセグメントに関連するレベル値はただ１
つしかない。トラッカー２６からの雑音推定値の時間は
ま念、発話されている時間の長さにわ之って各チャネル
に割り当てられる雑音レベル推定値はただ１つでなけれ
ばならないように拘束されている。そのため第４図の対
数回路５４に結合しているスピーチ及び雑音トラッカー
２６からの出力値はフィルタバンクの出力の平均エネル
ギー推定値である。従ってこれらの値はＡＧＣ利得によ
りて影響され対数変換を行なわずに平均スペクトルエネ
ルギーに直接に比例する。

信号及び種々の雑音源は統計上は独立しており、そのエ
ネルギーは平均して腑算される。これは内部ノイズ源を
決定するのに都合がよいだけではなく、音響雑音及び信
号源の両方の優れた近似であることが実証されている。

さらにマイクロホンにおける等価雑音／ヤワーとなる可
能性がある雑音値があると考えられる。これらの値は音
響雑音ノ中ワ一及び他のシステム雑音ノ４ワーを含み、
一部はＡＧＣ４５の利得によって減少される。

従って第４図より導出され第２図及び第３図に示されて
いるスケール係数が雑音関連テンプレートを生成するた
めに与えられている几め、テンプレート平均化工程を使
用することによって、同じ発話レベル及びＳ／Ｎ比にお
ける全てのトークンの対数スペクトルパラメータを平均
化することによって得られるのと同じ、ま念は等価な平
均テンプレート金生成することができる。したがって、
全体的な問題を簡単にするために、全てのテンプレート
ならびに全てのテンプレートトークンのＳ／Ｎ比が同じ
であると考える。これは全てのトークンの発話レベルを
同じに調節することによって実行することができるため
、同一のＳ／Ｎ比は全トークンの雑音値と同じになる。

この考え方に基づいて雑音の同等値を平均化する全ての
フオームを作ることができる。

上記のようにテンプレートのＳ／Ｎ比が未知のスピーチ
と同じ場合は、認識性能は雑音がそれよりも太きかっ念
り小さかつなりするテンプレートの場合よりも良好であ
ることが研究かられかっている。従って上記の技術に基
いて、音声信号のＳ／Ｎを予想し、それによりてテンプ
レートが入ってくる未知のスピーチと同じＳ／Ｎ比のス
ピーチから生成される１かのようで”あるようにテンプ
レートを使用される前に、変調して認識性能を最適化す
ることができることが示される。

従って２つのステップが用いられる。１つは入ってくる
スピーチのＳ／Ｎ比を予想してテンプレートをこの要求
に合うように変調することである。

そのため以下に説明するようにスピーチ及び雑音トラッ
カー２６は、各チャネル内のスピーチパワーが各々の音
声内容によりてワードからワードへ変化するので各チャ
ネル中のスピーチパワーの推定値を形成しない。その九
めどのようなワードが話されるか予想することはできな
いので、データには予想力はない。重要なことは通常の
工程の場合各チャネルのＳ／Ｎ比の推定値は有しないと
いうことである。従って上記のようにテンプレート変調
工程ではチャネルごとに特定のＳ／Ｎ比を用いることは
ない。その友め雑音パワーから生じその平均値に等しい
テンプレートは認識システムにおいて非常に良好に動作
する。

すなわち、雑晋ノ４ワーが平均値を用いるのに十分であ
るためにそのフレーム／フレーム可変性を考える必要は
ないのである。そしてテンプレートパラメータは、現在
の平均雑音パワーと結合されている６ベースフオーム１
テンプレートに効率的に存在するのと同じスピーチパワ
ーから生成されるものである。基本的には上記のように
、スピーチ及び雑音トラッカー２６はデジタル信号処理
（ＤＳＰ　）回路であり、付加音響雑音が存在するスピ
ーチ信号のパワーレベルの尺度と任意の形態のバンドパ
スフィルタバンクチャネルの平均雑音パワーの尺度金与
えるアルゴリズムを実行するように動作する。見出され
た発話レベルの尺度は、背戸認識の几めにＳ／Ｎ比を調
節するのく適切な話者の会話レベルを示す。発話レベル
の他の尺度は速く変化し、および／あるいに話されたス
ピ−チ内の音声及び音声でない音の発生の相対周波数を
伴う。スピーチ及び雑音トラッカーによって見出される
尺度は、母音核中のわずかになめらがなピークツぐワー
を検出することによってこれらの問題を回避している。

さらに詳細に説明すると、それはよりエネルギーの多い
母音核中にあるわずかになめらかなビークツ母ワーを探
り出すのである。ストレスのかからない子音及び母音核
でないスピーチ間隔における・やワーピークを無視する
ことによって、一般的なスピーチレベルを継続して指示
する。トラッカーは、雑音パワーの全体量がスピーチ内
の母音核生成率（通常５ないし１５７秒）に比較して通
常ゆっくりと変化する場合、存在するスピーチと無関係
な付加雑音が存在する状態で用いられる。トラッカーは
ま念雑音レベルにおけるより高速の変化から回復するよ
うに動作する。スピーチ及び雑音トラッカー２６は対数
、または圧縮技術を用いており、それによって関心のあ
る周波数領域のスピーチパワーの全体量の尺度が与えら
れる。この尺度はまずゆっくりと上昇し速やかに下降す
るフィルタ処理を受けるが、この場合の上昇及び下降時
間制限は、初めの数ミ’）秒の母音核の間の瞬間的信号
パワー及びフィルタ値の間に大きな正の差が存在し大き
な負の値の差は生じないように選択される。

その之め瞬間的信号ノ４ワー及び迅速に下降してゆっく
りと上昇するフィルタ値の間の差の非線形関数は次に適
切な期間の可動ボックスカー積分工程に向けられ、結果
的に生じる値がスピーチ間隔における通常の、あるいは
ストレスのかかっている母音核中だけの適切なしきい値
よりも上昇し、ストレスのかからない母音核はスキラグ
する。このしきい値との交差はスピーチ核による高い信
号ノヤワーの間隔を識別するのに用いられる。従って識
別される間隔だけがスピーキングレベルトラッキングに
用いられる。そしてスピーチ核しきい値より小さい第２
のしきい値より大きい？ツクスカー積分処理からの値が
スピーチパワー及び雑音ノ４ワーを保持する間隔を識別
するのに用いられる。

ボックスカー積分値が第２の（低い方の）しきい値より
も小さく又瞬間パワーがその高速下降遅速上昇フィルタ
値よりも大きい第３のしきい値よシも大きくない場合の
間隔だけが、雑音パワートラッキング機能の入力として
用いられる。

雑晋ノＪ？ワードラッキングモジュールは基本的に集積
回路チップによって構成されているデジタル信号プロセ
ッサが含まれている。このようなチップの多くは基本的
にグロダラム可能でありて色々な型式のアルゴリズムを
実行するように構成することができる。雑音及び信号ト
ラッキング機能に関連するアルプリズムは信号エネルギ
ー内容及び雑音エネルギー内容の両方を決定するように
動作し、以下の方法で動作する。

まずチャネルエネルギーを示す数値を得る。これは各フ
レーム全てで行なわれる。次に全体のエネルギーが計算
される。そして自動利得制御変化に適応するようにシス
テムが動作することができる。エネルギーが計算される
と、次にその結果が与えられた期間にわなって平滑にさ
れる。平滑にされたエネルギー値が得られｔ後、エネル
ギー全体量の対数値を計算する。エネルギー全体の対数
値を計算し次後、パントノ！スフイルタアレイに対する
入力におけるボックスカー積分あるいはスピーチレベル
推定値の平均を実行する。次のステップでは非対称フィ
ルタが用いられ、スピーチ信号の上昇時間を監視するこ
とによってスピーチ検出のログエネルギーをフィルタす
る。スピーチ信号が包括的に解釈され、入ってくる信号
が雑音であるか、あるいは雑音またはスピーチ信号では
ない加工信号である可能性があり、激しい呼気や基本的
には情報ではなく雑音で４もない話者の声の他のいくつ
かの他の特性によるものである。いずれ圧してもこれも
又真のスピーチ信号である。

従りてこれを決めるｔめに、平滑化されたエネルギーに
おける対数エネルギーの瞬間値を監視する。アルゴリズ
ムは、信号の上昇及び下降時間に関連する時間間隔を与
えられ九間隔に分割するように動作する。上昇が負に比
べて正である時は、入ってくる信号の特性を認識するの
に一定の決定が行なわれる。これらの決定罠よって上記
のようにスピーチであるか、加工であるか、あるいは純
粋の雑音であるかを決める。例えば上昇が負である期間
では、上昇が継続的に負である場合は雑音信号であると
完全に考えられる。雑音信号が受は取られて、システム
は雑音値を滑らかにし、これらの値を平均雑音エネルギ
に寄与させ、計算値を用いてこの値を雑音推定値にあて
ることによって信号を継続的にトラックする。次にこれ
全周いてテンプレートを形成する。正の移行に関する注
意はさらに困難である。

正の移行は雑音か、加工か、あるいはスピーチをｉわし
ている。この決定のために非線形関数の積分で実行し動
作する。従りて積分値を一定のしきい値と比較すること
に基づいて、正の上昇がスピーチか、雑音か、あるいは
加工のどれを表わしているかを決定することができる。

このようにしてスピーチ及び雑音トラッカーモジュール
かう生じ比値は真のスピーチ値を表わす。第５Ａ図乃至
第５Ｃ図にはスピーチ及び雑音トラッカーのプログラム
が示されておシ、ここでは完全なプログラムが示されて
いる。

第６図は第５Ａ図乃至第５Ｃ図に示されているゾログラ
ミングフォーマットヲ理解する九めに必要な・工学パラ
メータを定義が示す。さらに説明すると、この過程は各
単一フレームで実行されて以下のように動作する。第５
Ａ図に示されている方法の第１のステップでは各チャネ
ルでのエネルギーが全体エネルギーと共に得られる。こ
れはステップ１および２に示される。そしてエネルギー
は各チャネルで濾過され、自動利得制御スケール変化を
第３及び第４ステツプに示されているように行つ。次の
ステップではエネルギー値をなめらかにし、ＡＧＣに対
して補正されるエネルギーのなめらかな対数値を得る。

これはステップ５，６．７に示されている。次のステッ
プではステップ８においてスピーチレベル推定値のＭｙ
クスカー平均を取る。そしてエネルギーの非対称フィル
タ値を得て、ステップ９及び１０に示されている濾過さ
れた値における現在のエネルギーの上昇を得る。

そしてプログラムは第５Ｂ図に移る。第５Ａ図のステッ
プ１０に示されている変数ｒは、現在の対数エネルギー
がその非対称的な平滑な値を越えるような量である。母
音核の期間ｒは正であシ、かなυの間隔の期間にわたり
て正にとどまっている。

これはその正及び負の期間に特に顕著性をＷする念め、
最初に正になったり負になったりする時に特別な処理が
必要となる。これは第５Ｂ図に詳細に示されている。ｒ
が最初に正になると、フレーム番号全明確なスピーチ核
の可能な始まシとして記録する。そしてそれがスピーチ
であるかどうかを決めるのに用いられる値Ｐｆリセット
し、雑音トラッキングを中断するよう【動作する。いず
れにしてもｒｔ１正にとどまる間は、値ｐｙ累算してＰ
が特定のしきい値を越えるかどうかの加工及びスピーチ
フラグ全セットする。これらは第５Ｂ図の左側に示され
ている。ｒが最初に正になると、雑音トラッカーを最後
の既知の雑音値にリセットするため、スピーチあるいは
加工が検出されたかどうかについて与えられ次遅延の後
に雑音トラッキングを再開し、一方で概算され几スピー
チレベルが雑音レベルから十分に高いことを確認する。

スピーチがこの上昇中に検出されると、フレームが既知
のスピーチ間隔の端部として番号に関して記録される。

ｒが負にとどまる間は所定の遅延の後に継続して雑音を
追跡する。これは全て与えられ比色々な動作を明確に記
載する囲まれ念フローチャート例示されている。

第５Ｃ図は基本的に、例えば第２図及び第４図に示され
ている動作テンプレートを与える之めに用いられる出力
変数の生成を示している。従って上記かられかるように
、本発明のシステムの主要な考え方では、゛テンプレー
トラ与え、それによって雑音を正しい予想された方法で
付茄して関連する予想Ｓ／Ｎ比を有するテンプレート’
を形成する。

テンプレートに関連する雑音レベルは入ってくる信号に
存在する雑音の推定値を示している。この方法で基本的
に音声認識システムの認識の可能性を増加させる。　　
　　　　　　　　　　　　　　　　　−上記のように雑
音を付加することによってこのようなテンプレートを生
成することは、テンプレート全円いて入ってくる信号と
同じ比較をして、その信号が実際にスピーチか、加工か
、あるいは雑音かを決める任意の音声認識システムに用
いることができる。従って雑音のない状態でまず形成さ
れ、雑音のある状態のこれらの予想値に等しくなるよう
に変調することによって、このシステムは雑音のある状
態で使用できるように改善された音声認識テンプレート
を与えるように動作する。

【図面の簡単な説明】

第１Ａ図は本発明を用いたスペクトルから導出される認
識ノぐラメータを用いた音声認識システムを示すブロッ
ク図である。第１Ｂ図は本発明に従って自然界中のスペクトルである
認識パラメータを用すた別の音声認識システムを示すブ
ロック図である。第２図は動作テンプレートデータを形成する本発明によ
る技術を示す詳細なブロック図である。第３図は第２図に示された色々な出力の定義の表を示す
図である。第４図は本発明の別の実施例の詳細なブロック図である
。第５Ａ図乃至第５Ｃ図は本発明によるスピーチ及び雑音
トラッカーの動作を示す詳細なフローチャートである。第６図は第５Ａ図乃至第５Ｃ図による工学パラメータの
定義の表を示す図である。１０・・・マイクロホン、１１・・・増幅器、１２・・
・スペクトル分析器、１３．１００・・・スイッチ、１
４゜１５．１６．２０，２１，２５，２７，４０゜１６
２．１６６・・・モジュール、２６・・・トラッカー、
１６０・・・プロセッサ、３１．３２・・・加算器、５
４・・・対数回路。出願人代理人　　弁理士　鈴　江　武　彦Ｆｉｇ、２゜ｔＦＮＴ、Ｐ８１Ｆｉ９　　３ｎ々、５こ ■

Claims

【特許請求の範囲】

（１）発話のスペクトルの大きさを出力で与え、記憶さ
れたテンプレートを処理されたスペクトル値と比較して
前記発話のスピーチの存在を示す良好な比較が得られる
と出力を与えるスペクトル分析器を備え、前記記憶され
たテンプレートを生成するための装置を具備している音
声認識システムにおいて、前記スペクトル分析器に結合し、入ってくる信号の予想
される雑音信号を示す信号を与えるための第１の手段と
、この第１の手段と結合して前記予想される雑音信号に
応答して前記予想される雑音信号に従って変調されるテ
ンプレートを生成する手段とを備えていることを特徴と
する音声認識システム。
（２）前記第１の手段は、出力において雑音の存在する
スピーチ信号のパワーレベルを示す第１の信号と平均雑
音パワーを示す第２の信号を与えるように動作するスピ
ーチ及び雑音レベルトラッキング手段を具備している特
許請求の範囲第１項記載の音声認識システム。
（３）前記スペクトル分析器はフィルタバンクアレイ中
に配置された複数のバンドパスフィルタを備え、各フィ
ルタはこのフィルタの帯域に従って所定のスペクトル成
分を通過させるように構成されている特許請求の範囲第
１項記載の音声認識システム。
（４）前記第２の手段は低雑音条件下でテンプレートを
生成し前記テンプレートを前記予想される雑音信号に従
って変調させるための手段を具備している特許請求の範
囲第１項記載の音声認識システム。
（５）前記第１の手段は、入ってくるスピーチ信号のＳ
／Ｎ比を予想するための手段を備えている特許請求の範
囲第１項記載の音声認識システム。
（６）前記第１の手段は、前記バンドパスフィルタの平
均及び変化を測定して各フィルタの雑音通過特性の推定
値を与える手段を具備している特許請求の範囲第３項記
載の音声認識システム。
（７）前記雑音の推定がガウス雑音に応答する前記フィ
ルタに基づいて行なわれる特許請求の範囲第６項記載の
音声認識システム。
（８）雑音の存在しない状態で生成された前記テンプレ
ートが雑音のないトークンテンプレートであって、この
テンプレートに応答して出力においてベースフォームデ
ータを与えるための平均値を与えるための手段と、この
ベースフォームデータを現在予想される雑音信号に従っ
て変調する手段を備えている特許請求の範囲第４項記載
の音声認識システム。
（９）発話のスペクトルの大きさを出力で与え、所定の
記憶されたテンプレートを処理されたスペクトル値と比
較して前記発話のスピーチの存在を示す良好な比較が得
られると出力を与えるスペクトル分析器を備え、前記記
憶テンプレートを生成するための装置を具備している音
声認識システムにおいて、前記分析器に結合して、雑音の存在を示す予想計算値に
従って前記所定のテンプレートを変調することによって
記憶のためのテンプレートを生成するための処理手段と
、前記生成されたテンプレートと入ってくる信号を比較し
て前記出力を与える手段とを具備することを特徴とする
音声認識システム。
（１０）前記処理手段の前記予想計算値がガウス雑音の
存在を示す特許請求の範囲第９項記載の音声認識システ
ム。
（１１）前記処理手段は、雑音のないテンプレートを平
均化してベースフォームデータ出力を与え、又このデー
タ、すなわち計算された雑音データを加算することによ
ってこのベースフォームデータ出力を変調する手段を具
備している特許請求の範囲第９項記載の音声認識システ
ム。
（１２）前記処理手段は、出力において前記分析器によ
って与えられるような前記スペクトルの大きさの値の連
続対の平均値を与える平均化手段を具備し、前記平均化手段の出力に結合され与えられた長さのフィ
ールド信号を与えるためのスケーリング手段と、前記与
えられた長さのフィールド信号を対数信号に変換して前
記ベースフォームデータ出力を与える手段とを具備して
いる特許請求の範囲第９項記載の音声認識システム。
（１３）前記平均化手段と結合して、出力において前記
平均値の連続対の二乗の大きさを示すベクトル信号を与
えるための二乗化手段と、この二乗化手段の出力に結合
して前記ベースフォームデータ出力の別の出力を与える
手段とをさらに具備する特許請求の範囲第１２項記載の
音声認識システム。
（１４）前記二乗化手段の出力に結合した前記手段は、
前記ベクトル信号に応答してベースフォームエネルギー
パラメータを与えるための相対エネルギー形成手段と、
出力においてスピーチと雑音の両方のパワーレベルを示
すベースフォームパラメータを与えるためのスピーチ及
び雑音レベルトラッキング手段とを具備している特許請
求の範囲第１３項記載の音声認識システム。
（１５）音声認識システムにおいて用いられるテンプレ
ートの形成方法であって、入ってくる信号の予想される
雑音レベルを示す信号を与え、前記与えられた信号に従って与えられたテンプレートを
変調して前記予想される雑音レベルを有するテンプレー
トを与えるステップを具備する方法。
（１６）前記予想される雑音レベルを示す信号を与える
ステップは、雑音に関して与えられたスピーチ処理チャ
ネルの応答を測定し、この測定に基づいて前記信号を推
定するステップを含む特許請求の範囲第１５項記載の方
法。
（１７）前記変調ステップにおいて、比較的雑音のない
ベースフォームテンプレートをまず形成し、このベース
フォームテンプレートを前記予想される雑音レベルを示
す前記信号に従って変調するステップを有する特許請求
の範囲第１５項記載の方法。
（１８）前記変調ステップにおいて、比較的雑音のない
ベースフオームテンプレートを形成し、各テンプレート
に雑音を付加し、この付加雑音テンプレートデータを平
均化して前記分析データに従って新しいテンプレートを
形成するステップを有する特許請求の範囲第１５項記載
の方法。
（１９）信号を与えるためのステップは、入ってくる信
号のＳ／Ｎ比を、全てのテンプレートの対数スペクトル
パラメータを同じ発話レベル及びＳ／Ｎ比において平均
化することによつて、存在する信号のパワーの変調によ
って認識されるように予想するステップと、前記平均パ
ラメータを用いて変調テンプレートを形成するステップ
とを含む特許請求の範囲第１５項記載の方法。
（２０）音声認識システムにおいて用いられるテンプレ
ートを形成する方法において、形成されたテンプレートをそれらが比較に用いられる前
に予想値を示す前記テンプレートに雑音信号を付加する
ことによって変調し、前記変調されたテンプレートが入
って来る認識されるべき信号と同じＳ／Ｎ比を保持する
スピーチ信号から生成されるかのように動作させること
を特徴とする方法。
（２１）前記変調するステップは現在の発話レベルに基
づく前記予想値として現在のＳ／Ｎ比を用いることによ
って入ってくるスピーチ信号のＳ／Ｎ比を予想し、現在
の雑音パワー及びスピーチパワーを平均化して前記付加
雑音信号を限定するステップを含む特許請求の範囲第２
０項記載の方法。