JPH01255000A - 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法 - Google Patents

音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法

Info

Publication number
JPH01255000A
JPH01255000A JP1048418A JP4841889A JPH01255000A JP H01255000 A JPH01255000 A JP H01255000A JP 1048418 A JP1048418 A JP 1048418A JP 4841889 A JP4841889 A JP 4841889A JP H01255000 A JPH01255000 A JP H01255000A
Authority
JP
Japan
Prior art keywords
noise
template
speech
signal
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1048418A
Other languages
English (en)
Other versions
JP3046029B2 (ja
Inventor
Jack E Porter
ジャック・エリオット・ポーター
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Standard Electric Corp
Original Assignee
International Standard Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Standard Electric Corp filed Critical International Standard Electric Corp
Publication of JPH01255000A publication Critical patent/JPH01255000A/ja
Application granted granted Critical
Publication of JP3046029B2 publication Critical patent/JP3046029B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は一般的な音声認識システム、特にテンプレー
トを用いこの各テンプレートが雑音の選択的な付加によ
って生成されスピーチ認識の確率を増加させる音声認識
システムに関する。
〔従来技術〕
一般的な音声認識の方法は近年非常に発達してきており
、多くの形態で用いられている。音声認識の考え方は、
発話音に得られ几情報が直接にコンピュータあるいは他
の手段を駆動するのに用いられるということである。基
本的には先行技術においては、発話背中の情報の認識の
キー要素は周波数に関するエネルギーの分布である。フ
ォルマント周波数は特にエネルギーピークが重要なもの
である周波数である。フォルマント周波数は口腔キャビ
ティの音響共握であって、舌、顎及び唇によって制御さ
れる。聞き手にとっては最初の2つか3つのフォルマン
ト周波数が決定すれば通常母音を特定するのに十分であ
る。このようにして先行技術のマシーン認識には、入り
てくるスピーチ信号の部幅あるいはパワースペクトルを
決める几めの手段をいくつか含んでいる。音声認識の初
めの過程はスピーチ信号を認識可能な特性、ま九はパラ
メータに変換しデータフローを処理しやすい割合に減少
させる前処理である。この過程を行う九めの1つの手段
は、いくつかの広い周波数帯域における信号のゼロ交差
率を測定してこの帯域におけるフォルマント周波数の推
定値を与えることである。
別の手段はスピーチ信号をスペクトルが入力スピーチ信
号のスペクトルに最も良く適合するフィルタのノ母うメ
ータによって表わすことである。この方法は線形予想コ
ーディング(LPC)として知られている。線形予想コ
ーrイング、すなわちLPCはその効率性、正確性及び
簡便性に特徴がある。スピーチから抽出される認識特性
は通常10ないし40ミリ秒に渡って平均化され50−
= 100回/秒でサンプリングされる。
スピーチを表わして認識するために用いられるパラメー
タは直接的あるいは間接的に擾幅ま之はパワースペクト
ルに関連する。フォルマント周波数及び線形予想フィル
タ係数は音声スペクトルに間接的に関連するノ4ラメー
タの例である。他の例ではセプストラルパラメータ及び
ログエリア率パラメータがある。
〔発明の解決すべき課題〕
これらのま友他の多くの場合認[K用いられる音声パラ
メータはスペクトル/4’ラメータから導出されること
ができる。本発明は音声認識パラメータを生成するスペ
クトルパラメータに雑音を選択的に付加することに関し
ている。本発明はスペクトルパラメータから導出された
、あるいは導出されることができるスピーチノダラメー
タを用いる音声認識のあらゆる形態に適用される。
いずれにしても、過去における音声認識の多くの一般的
な方法はテンプレートを用いて照合を行なっている。こ
の方法では通常言葉は/4’ラメータシーケンスの形で
表わされる。認識は予め定義された同様の方法を用いて
未知のテンプレートトークンを記憶されたテンプレート
と比較することによって行なっている。多くの場合ワー
ドの生成速度の可変性を説明するのに時間配置アルゴリ
ズムが用いられる。従ってテンプレート照合システムは
音声的な別々のワードの小さいセットによって高性能を
発揮することができる。研究者の中には広い範囲の話者
の精密な音声分別t#!P、的に行なうこのようなシス
テムの能力を疑問視している。
ジェイ・ニス・ノ母−ケル(J、S、Perkel )
及びfイー・エイチ・クララ)’ (D−H,Klat
t )による論文″精密な音声分別の達成二テンプレー
ト対特性”(″′スピーテ工程における可変性及び不変
性”ヒk /1. fイル編、ニューツヤ−シイ、ロー
レ/スーエルバウム響アソシエイツ刊、1985年、発
行者アール・エイ・コール、アール・エム・スター/及
びエム・ジェイ・ラスリー)を参照されたい。
従って別の方法として、多くの人がスピーチ信号内の音
声的に関連のある情報をとらえる背戸特性のセラトラま
ず識別するような音声認識のための特徴に基づいた方法
を提案している。この知識に基づいてスピーチ信号から
の特徴を抽出するようにアルゴリズムを構成することが
できる。次に特徴全結合し認識決定に達するために分類
が行なわれる。特徴に基づい念システムはテンプレート
照合技術よりも精密な音声弁別の実行性能が良く、し念
がって優れているという議論がある。いずれにしても、
テンプレート照合はパターン認識によく用いられる方法
であシ、それによって未知のものがプロトタイゾと比較
されてどれが最も近似しているかが決定される。
この決定によって分類の几めの多重変化がウスモデルを
用いた特徴に基づく音声認識によっても、テンプレート
照合金実行することができる。この場合特徴ベクトルヲ
ノやターンとして用いるのは統計分類者だけである。同
様にスペクトル振幅及びLPC係数全特徴として見ると
、ス(クトルに基づく技術も同様に特徴に基づく方法で
ある。
テンフレート整合及び特徴に基づくシステムを用いるこ
とに関して、実際には連続体に沼って異なる点を表わす
。テンプレート整合法に伴う最も重要な問題の1つは、
精密な音声分別に十分感度を有するが関係のないスペク
トル変化には感受性のない距離計測を限定する困難性が
ある。
この問題−つの表われは、長い不変母音のスペクトルに
おけるX要でないフレーム/フレーム変化に与えられる
過剰な重みによるものである。従ってこのような問題の
ある先行技術によって、音声距離に感受性があり関係の
ない音声差異には感受性がないようにされている多数の
距離音律が提供されている。例えばICASSP−82
の機関誌(IEEEカタログACH1746−7、第1
278頁ないし第1281頁、1982年)に掲載され
ている論文1臨界帯域スペクトルからの受容音声距離の
予想’(デイ−・エイテ・クラットによる)を参照され
危い。
いずれにし5ても音声通信システムをより良く理解する
几めにグロシーディングズーオプI EEE(1985
年11月号、■、73、屓11、第1537頁ないし1
696頁)を参照する。IEEEのこの文献ではマン/
マシーンスピーチコミユニケージ。
ンシステムに関するいろいろな論文が提供されており、
関連する特定の問題に1畦野′!!−弘イくくりしるも
のである。ここで理解できるように、どのような音声認
識システムにも関係する重要な点は、その分配タスクの
実行、すなわちすべての環境の型に関する音声を認識す
る九めのシステムの能力である。
上記のように多くの音声認識システムでテンプレートが
用いられている。基本的にこのようなシステムでは発話
ヲノンラメータシーケンスに変換すせて、コンピュータ
に記憶させる。音声波は話者の口からマイクロホンを通
ってアナログ/7′ジタルコンバータに搬送され、そこ
でフィルタを通して、例えばそこにあるかもしれない背
景雑音と共にデジタル化される。次にデジタル化された
信号はさらにフィルタを通して認識パラメータに変換さ
れ、この形態で記憶スピーチテンプレートと比較されて
話された言葉の内の最もありそうなものの選択を行なう
。このような方法のさらに別の例としては、IEEEス
(クトル(1977年4月発刊、Vo124.I64 
)がある。この中の論文ティー・ウオルヒによる“スピ
ーチ認識の実行″(第55頁ないし57頁)を参照され
几い。
この論文かられかる通り、音声認識システムの適用は一
定して拡大してきており、論文でも指摘されているよう
にいろいろな適用例ですでにたくさんのモデルが用いる
ことができるようになっている。テンプレートの形成は
又先行技術でも良く知られている。このようなテンプレ
ートは多くの色々な型の音声認識システムで用いられて
いる。
システムの一例は“キーワード認識システム”としてジ
ェイ・ニス・プリドル(J、S、Br1dle )によ
る論文“継続中のスピーチにおける与えられ念単語を決
定するための効率的なエラスチックテンプレート方法’
 (1973年4月、′イギリス音声学会の春季学会”
、第1ないし4頁)に記載されている。この論文で著者
はキーワードの発話例の、4ラメ一タ表示からエラスチ
ックテンプレートを引き出して検索することを論じてい
る。入ってくるスピーチの同じようなパラメータ表示は
これらのテンプレートと連続的に比較されて、スピーチ
とテンプレートが引き出され几キーワードの間の類似性
を推定する。
入ってくるスピーチのセグメントが対応するテンプレー
トに十分に近似している場合は、認識装置によってワー
ドが話されたものと決定される。
ワードテンプレートは、話す速度の変化及び巣語の発音
速度の変化の念めに時間的に拡大および圧縮されること
ができる九めに“エラスチック”と呼ばれる。
キーワード認識は従来のスピーチ認識と同様である。前
者はテンプレートが恣意的な言葉、すなわち音の文脈の
範囲内で認識されるべき“キー”ワードについてのみ記
憶されるものであるが、後者では話されると予想される
スピーチのすべてに対してテンプレートが記憶される。
このようなシステムの全てはキーワード!!!!識シス
テムであろうがテンプレートを用いる従来のスピーチ認
識システムであろうが、同じ問題、すなわち例えば異な
る個人によって発話された、あるいは同じ個人によって
異なる条件で発話されたワードを認識する能力をシステ
ムが有しないという問題に突き当なる。
従って本発明の目的は自動音声認識システムの九めの改
善された装置及び方法を提供することである。
さらに雑音環境に自動的に適合する音声認識システムを
提供することも本発明の目的である。
〔課題解決の九めの手段〕
、添付特許請求の範囲かられかるように、多くの音声認
識システムは雑音のある状態では動作性能が減少する。
これは特にテンプレートが、雑音がほとんど或は全くな
いか、あるいは認識が実行される時点で異なる性質の雑
音が存在するようなスピーチから導出された場合に懸著
である。どの困難性を減少させている従来の方法では新
しい雑音の存在する新しいテンプレートを生成すること
が必要である。この生成には新しいスピーチ及び雑音の
収集が必要である。この発明のシステムではテンプレー
トに分析的な雑音が付加され、それによって認識の確率
が改善されてシステムの性能が実質的に増加し、しかも
テンプレートの生成に新しいスピーチを集める必要がな
い。
本発明のシステムは、発話のスイクトルの大きさを出力
で与え、記憶されたテンプレートを処理されたスペクト
ル値と比較して前記発話中のスピーチの存在を示す良好
な比較が得られると出力を与えるスペクトル分析器を備
え、前記記憶テンプレート全生成するtめの装置を具備
し、前記スペクトル分析器に結合して入ってくる信号の
予想される雑音信号を示す信号を与えるための第1の手
段と、この第1の手段と結合して前記予想される雑音信
号に応答して前記予想される雑音信号に従って変調され
るテンプレート’を生成する手段とを備えているスピー
チ認識システムである。
〔実施例〕
図面に示されるように、本発明は現実のスペクトル線か
あるいはスペクトル線から導出されるi4ラメータを用
いるすべての認識システムに適用される。後者ではテン
プレートを雑音の分析付加の九めのスペクトル線及び動
作テンプレートの2つの形態で記憶する必要がある。
第1A図を参照すると、本発明に従いスペクトルから導
出された認識ノ中うメータを用い次音声認識システムの
10ツク図が示されている。
マイクロホン10が示されており、システムを用いる通
話者がこれを使用してスピーチを入力する。マイクロホ
ン10は音声波を電気信号に変換し、この信号は増幅器
11によって増幅される。
増幅器11の出力はスペクトル分析器12に結合されて
いる。スペクトル分析器12は短期分析能力を有する広
帯域ま九は狭帯域のスペクトル分析器である。スペクト
ル分析器の機能及び構成は基本的によく知られており、
多数の方法で構成されることができる。
スペクトル分析器12はスピーチ音燭bフレームに分割
し、その出力において各フレームのパラメータ茨示を出
力する。スペクトル分析器12によって実行される特別
な型の音声分析は本発明には重要ではなく、多くの既知
の音声分析器またはスペクトル分析器が使用できる。こ
のような例は米国特許出願第439018号(1982
年11月3日出願、シー・ベンスコ等)及び第4734
22号(1983年3月9日出願、ノー・ベンスコ等)
明細書に記載されている。両出願とも本発明の譲受人で
もあるアイティーティー・コーポレーションに譲り受け
られており、本願の参照文献である。
米国特許出願第655958号(1984年9月28日
出願、発明者ニー・エル・ヒギンズ等、名称1テンプレ
ート一連結モデルを用い友キーワード認識システム及び
方法#)も参照文献である。
スペクトル分析器12には14チヤネルバンドi4スフ
イルタアレイが備えられており、用いられているフレー
ムの大きさは20ミリ秒かそれ以上である。これらのス
ペクトルパラメータ鉱第1A図に示されているように処
理される。図示されているように、スペクトル分析器1
2の出力はスイッチ13に結合されており、このスイッ
チ13は認識、7オームテンプレート、あるいは変調テ
ンプレートモードで動作することができる。
スイッチ13が7オームテンプレートモードに置かれる
と、スペクトル分析器12の出力はテンプレートのス(
クトル形式モジ、−ル14に結合される。モジュール1
4の目的はスペクトル分析器12の出力からのテンプレ
ートの形成を助けることである。これらのテンプレート
はモジュール14中で形成され、テンプレートのスペク
トル線の形態であり、このようなテンプレートを形成す
る多くの方法が良く知られて−る。基本的にフオームテ
ンプレートモードではスペクトル分析器12の出力はモ
ノニール14によって処理され、通話者がマイクロホン
10ft通して行なっ念発話に関するテンプレートが与
えられる。通話者は認識されるように言葉を話し、基本
的に話された言葉を示すテンプレートが生成される。こ
れらのテンプレートはモジュール15によって使用され
、スペクトル生成テンプレートから導出されたt!ラメ
ータを認識)ぐラメータを導出し、モジュール16によ
って示されるように最終テンプレートを雑音が低いかあ
るいは雑音のない状態で生成する。
次にモジュール16によって指示されているように雑音
のなh状態のテンプレートは記憶されて、例えば特定の
話者によって発話されたワード、フレーズなどとして特
定の発話を示す。
記憶されたテ/プレートはスイッチ100によってプロ
セッサ160に結合され、認識アルゴリズムが実行され
る。従ってプロセッサ160は認識モードで動作して未
知のスピーチを雑音のない状態で生成されモジュール1
6に記憶されたテンプレートと比較する。その定め第1
A図に示されているようにフオームテンプレートモード
ではスベクトル形式のテンプレートが与えられてテンプ
L/ −トy!ラメータが得られ、このテンプレートパ
ラメータは次【雑音がないかあるいは低雑音の状態でテ
ンプレートを形成するのに用いられる。後に説明するよ
うにプロセッサ160は、低雑音かあるいは雑音のない
状態でモジュール16/C記憶されたテンプレートによ
り動作することができる。
プロセッサ160の機能もま九良く知られており、基本
的に色々な距離測定その他のアルゴリズムに基づいて照
合するように動作する。このような照合が行なわれると
、これは正しいワードであり、このワードまたは音はシ
ステムの出力となるという指示が与えられる。
スイッチ13は認識モードに置かれるとスペクトル分析
a1zの出力を導出/IPラメータモジュール16ノに
結合させ、このモジ、−ル161f−!&本的にス(ク
トル分析器からパラメータを引き出し、)9ラメータは
例えば上記のようにモジュール16に記憶され几記憶テ
ンプレートと比較される。
第1A図に示されているよりに、スイッチ13はま念中
央位置にセットすることもできる。中央位置は変調テン
プレートモード位置であり、スペクトル分析器12の出
力が推定値雑音統計モジュール162に入る。モジュー
ル162の機能は基本的に雑音分析を行なうか、あるい
は雑音を処理して雑音統計の推定を行なうことである。
これは本発明の主要な特徴であり、これによって本発明
は雑t1に選択的に付加してテンプレート?形成し、音
声認識を実行し、このような付茄雑晋のある状態でこの
ような認識における改善を行なう。
従って推定値雑音統計モジュール162の機能は後にさ
らに説明するが、モジュール14と結合しこのモジ、−
ルから情報を受けるモジュール164中に形成されたス
ペクトルテンプレートを変調することである。モジュー
ル164の出カバモジュール165で認識パラメータを
導出し、このパラメータはモジュール166によって示
されるように雑音のある状態かあるいは雑音が低レベル
の状態で用いられるテンプレートを形成するのに用いら
れる。そのために第1A図に示されたシステムによって
雑音のある状態のテンプレートか、あるいは非常に低レ
ベルの雑音または雑音のない状態のテンプレートかによ
ってスイッチ100を切換えて認識が行なわれる。
簡巣に上記し比ように、認識モードではスペクトル分析
器12のスペクトルパラメータ出力が導出パラメータモ
ジ、−ル161によってプロセッサ160の入力に与え
られる。プロセッサ160は通常アルゴリズムを実行す
るが、これも又本発明には重要ではない。プロセッサ1
60は記憶されたテンプレートのシーケンスを決定し、
入ってくるスピーチが認識できるように最良の照合を行
なう。従ってプロセッサの出力は基本的に一連のテンプ
レートラベルであり、各ラベルは最良の照合テンプレー
トシーケンスにおける1つのテンプレートを表わす。
例えば各テンプレートには1つの番号及びラベルが割り
当てられる。この番号はマルチピット表示でも良い。こ
の出力はプロセッサJ60に備、tられたテンプレート
サーチシステムに与えられ、プロセッサは例えばマルチ
ビット表示があるとテンプレートラベルのための記憶装
置を備え念比較器となる。従ってプロセッサ1−60は
入ってくるテンプレートラベルの各々を記憶されたテン
プレートと比較するように動作する。次にサブシステム
であるプロセッサ160によって、特定のワードあるい
はフレーズがワードあるいはフレーズそのものと同様に
発話されたという指示が与えられる。
7オームテンプレートモードあるいは変調テンプレート
モードのいずれかにおいては、使用者はいろいろな言葉
を話し、スペクトル分析器12のスペクトル出力から認
識ノ母うメータが引き出される。変調テンプレートモー
ドではシステムが、認識モードにおけるシステムと協働
して用いられるために種々のテンプレートを生成し、こ
のテンプレートは上記のように推定値雑音統計モジュー
ル162による雑音の選択的な付加によって変調される
。このモジュール162による雑音の選択的な付加によ
って後にさらに説明するようにより信頼性の高いシステ
ム動作が得られる。
第1B図全参照すると、自然界のスペクトルを認識パラ
メータとして用いた認識システムが示されている。いず
れの場合も第1B図では第1A図と同じ参照番号によっ
て同じ機能の部材が示されている。図かられかるように
、マイクロホンIQは増幅器11の入力釦結合され、増
幅器11の出力はスペクトル分析器12の入力に結合さ
れている。ス(クトル分析器12の出力は再びスイッチ
13に結合され、スイッチ13はフオームテンプレート
、変調テンプレート、あるいは認識モードで動作できる
ようになっている。
第1B図かられかるように、7オームテンプレートモー
ドではモジ、−ル170によって低雑音か雑音のない状
態でテンプレートが形成される。
このモジ、−ル170は自然界のスペクトルである認識
)9ラメータを直接に与える。次にこの7オームテンプ
レートが記憶されてモジュール171に結合され、モジ
、−ル171はスペクトルテンプレートを、基本的に雑
音モジュール162として機能する推定雑音統計発生器
122の影響の4とに例えばモジ、−ル120から導出
されるスペクトルテンプレートを変調する。変調スペク
トルテンプレートモジュール171の出力はモジュール
173に結合され、モジュール173はテンプレートを
雑音状態で用いるために記憶する。この図でもプロセッ
サ177が示され、モジュール17θ中に記憶されたテ
ンプレートかあるいはモジュール173中に記憶された
テンプレートのいずれかで動作する。
いずれの場合もさらに処理する前には、先行技術に従っ
てどのようにテンプレートを生成するかが知られている
。テンプレートの生成にはいくつかの方法がある。テン
プレート生皮の作業を実行する方法は自動的であシ、通
常は多段階あるいは二段階工程を用いている。このよう
な方法の1つでは訓練発話からのスピーチデータ(テン
プレートモード)がセグメントに分割される。次にこれ
らのセグメントが統計クラスタ分析の入力として与えら
れ、セグメント間の距離の測定値に基づいて数学的な関
数を最大にするセグメントのサラセットが選択される。
選択されたサラセットに属するセグメントはテンプレー
トとして用いられる。
このような技術は上記の米国特許出願第655958号
明細書に記載されている。いずれにしても距離を測定す
る次めのいろいろな方法が知られており、発明の背景罠
引用されたいくつかの参考文献に記載されている。距離
を計測する方法で広く知られているのはマハラノビス距
離計算というものである。
この方法の例は米国特許出H第003971号明細書(
発明の名称”多重・9ラメ一タ話者認識システム及び方
法”、1987年1月16日、レンチ等に譲渡されてい
る)に記載されている。この明細書には通話者認識シス
テムに用いられた他の色々な技術の例が示されており、
このシステムに用いられているアルゴリズムのいくつか
が詳細に記載されている。いずれにしても第1図を参照
すると本発明の主要な特徴が第1図に示された音声認識
システムと関係しており、入ってくるスピーチとの比較
にテンプレートを用いており、それによってどのワード
が話されたかを決定する。この方法はキーワード認識シ
ステム、音声認識システム、話者認識システム、話者確
認システム、言語N識システム、あるいはテンプレート
または各種テンプレートの組合せを用いて話された音に
関しての決定を行なうようなシステムならどのようなシ
ステムにも用いることができる。
本発明の構成及び方法の説明の前に、発明の原理及び考
え方を説明する。
発明者は、テンプレートのS/N比が未知のあるいは発
話されたスピーチと同じである時は、それよシも雑音が
大きかつたり小さかっ几りするテンプレートを用いるよ
りも認識性能が良いことを認識し友。従って音声信号の
S/N比が予想できると考えられる場合は、テンプレー
トが入ってくる未知のスピーチと同じS/N比のスピー
チから生成された1かのように”使用される前に、テン
プレート1−変調することによって認識性能を最適化す
ることができる。
従って本発明を実用化するには以下のような考慮をしな
ければならない。第1に入ってくるスピーチのS/N比
を予想し、第2にテンプレートを1かのように#なるよ
うに変調することである。
予想は理論と経験の両方に基づいて行なう。多くの場合
低レベルかあるいは一定の雑音の場合絶対的であるか、
この雑音よりも大きな比較的一定のレベルでのいずれか
で、比較的一定のレベルで話すことを話者に期待するこ
とができる。次にスピーチ及び雑音レベルを用いて未知
のスピーチのS/N比を予想することができる。以下に
説明するように、これはスピーチ及び雑音レベルトラッ
カーモジュールを用いることによって行なわれる。
ある一定の距離では各々のフィルタチャネルの話すレベ
ルと雑音レベルの両方が、現在値が近い将来の値の有効
な推定値となるように十分にゆっくりと変化する。
雑音がないか雑音が比較的ないテンプレートを変調する
ことによって、テンプレートがより雑音のあるスピーチ
から作られた“かのよう”にすることは、経験と理論的
な考慮の両方に基づいている。
研究の結果、個々の各フィルタバンクチャネルで雑音及
びスピーチのパワーが付加することとよシ近似であるこ
とが決定され友。より正確な近似値はスピーチ及び冬者
・矩δイ+= a 芋if的なチ平万分布を有し、これ
にはフィルタバンクチャネル帯域に関する多くの自由度
が伴っている。上記のま友別の考慮から、既知の統計特
性の雑音を伴う既知のスピーチパワーの組合せの予想値
の推定値をより正確にとることができる。このようにし
て“雑音の付加”における正確性が増大することによっ
て、生成され几テンプレートの正確性も増大するが、′
パワー付加”規則を用いて得られる以上には認識の正確
性を顕著に増大することはない。
従ってスピーチ及び雑音パワーの組合せの予想値を推定
する別の方法に代替させることによってプロセスはより
理論上正確にすることはできるが、以下はノクワー付加
規則について述べる。この代替によって本発明の意図あ
るいは実体が変化を受けることはない。
さらに内部電子雑音及び量子雑音の両者が“ノヤワー付
加”規則に関して音響雑音及び信号と結合することが観
察される。これらの雑音は関連する音響雑音よりは小さ
いが適用は可能である。従っているいろなモデルを構成
するKあたりて“ノヤワー付加”の結果を用い、それに
よって研究作業を継続的な努力で明かにし、有効モデル
から導出される数を用いることができる。これは以下に
説明する。
雑音ノヤワーから生じるテンプレートが信頼できる認陳
出力の生成に関して非常に良好に動作するその平均値に
等しいことが示されている。従って雑t”ワーのフレー
ム/フレーム可変性を予想することは必要ではなく、平
均値を用いることで十分である。捜索されているテンブ
レートノ々ラメータは、現在の平均雑音パワーと結合す
るベースフオームテンプレートにおいて効率的な同じス
ピーチ/4’ワーから生成されるパラメータである。
システムからのチャネル雑音ノ臂ワー値は雑音ノ臂ワー
の推定値であり、数学的に決められることができる平均
雑音ノ4ワーに関連して取ることができる。従って本過
程及び正当性を完全に理解するために、以下説明する。
まず指摘されるのは、付加ゼロ平均がウス雑音によって
退化したスピーチ信号の単一の分離されたフーリエ変換
(DFT )の出力の確率分布は容易に計算することが
できることである。バンドパスフィルタバンクの各チャ
ネルに適用可能にする友めにどのようにスピーチ及び雑
音が結合するかというモデルを拡張するために重要な次
に考えるべきファクターは、チャネルの帯域が単一DF
Tチャネルよりもかなり大きいか、大きくすることがで
きるということである。従って雑音ノ母ワーノぐラメー
タ及びチャネルを構成する数は、スピーチがなく雑音が
ある状態でのバンドt4スフイルタの出力を観察するこ
とによって推定することができる。
次のステツブは、雑音がない状態で形成されたスピーチ
認識テンプレートが雑音のある状態での予想される値に
等しくなるように変調することによって雑音のある状態
で用いられるように改善することである。従って用いら
れる方法は、雑音のないテンプレートに実現されている
各スピーチサンプル及びバンドパスフィルタチャネルに
、現在の雑音の存在によって変調される雑音のないテン
プレートの予想値を代替させている。
その之めパントノやスフイルタチャネルの出力における
平均及び変化を測定することによって、ガウス雑音を通
過する際のチャネルの特性を推定することができる。基
本的には上記から理解できるように(そして上記事項の
大男は数学的にも証明されている)、本発明を実行する
にあたり理論上及び経験上の両方に基づいている。基本
的にはこのように本発明の特性はテンプレートの形成に
雑音を解析的に付2UL、形成されたテンプレート?動
作はせて音声認識システムの信頓性を増大させる。
雑音のない環境で集められ友テンプレートf−タに雑音
を付Wし、それによって雑音のある環境で用いる新しい
テンシレートド−クンするには2つの方法がある。厳密
な方法では各テンシレートド−クンに雑音を付加し、そ
れから結果を平均する。
近似的な方法では雑音のないトークンを平均してベース
フォームデータを形放し、“ノヤワー付加”あるいは他
の便利なまたはより正確な規則を用いて現在の状態に適
切な雑音を付加することによってr−夕を変調する。厳
密な方法は全てのテンプレート及び周囲のトークンを維
持することが必要であり、ま友過剰な記憶が必要である
。近似的な方法は基本的に同じテンプレート及び認識結
果を与える。実行の際には主要な考え方がある。これは
テンプレートデー夕が用いられる環境に関して雑音がな
いものであるといりことである。
第2図を参照すると、ペース7オームテンプレートに雑
音を付加することによって使用されるテンプレート形成
の詳細なブロック図が示されている。ペースフオームテ
ンプレートはそれ自体“トークン”という言葉のセット
にわ九って形成された平均である。各トークンは所定の
ワードの1つの発音から取っ九パラメータから成る。1
つあるいはそれ以上のトークンが配列されてペースフオ
ームテンプレートが形成される。ベース7オームテンプ
レートは静かな状態で形成され、第1A図に示されたモ
ジュールノロか、あるいは第1B図に示されたモジュー
ル170に記憶される。第3図は第2図に示され几各値
を限定する表である。
第2図には再びマイクロホン10が示されており、この
マイクロホンに話者が発話する。マイクロホンの出力は
増幅器11の入力に結合され、増幅器11の出力a B
PF 、すなわちバンドパスフィルタとして図示されて
いるスペクトル分析器12に結合される。スイッチ13
は変調テンプレート位置にある。スペクトル分析器12
からの出力はパントノ中スフィルタス4クトルの大きさ
の値のベクトルであってモジュール2oに与えられ、こ
のモジュール20はフレーム対を平均化する。
フレーム対の平均化は良く知られた技術であり、基本的
に多くの胱知の回路によって実行される。
モジュール20の出力はスペクトル分析器12からの入
力の連続対を平均化した結果であり、モジュール20は
効果的なフレーム速度を半分にする。
モジ、−ル20の出力はスケールピットモジュール21
及び2乗成分モジュール22に与えられる。
2乗成分モジュール22はベクトル出力を与え、この出
力は基本的に平均フレーム対モジュール20の出力のノ
々ワー値である2乗値に等しい。
スケールピットモジュール21の出力は基本的に連続シ
フトによって実行される連続対の平均の2倍を与える作
用をし、ベクトル最大成分を7ビツトスケールに適合さ
せることを可能にする。そのためにモジュール2ノはシ
フトレジスタであ夛、このレジスタは基本的に多数の右
シフトヲ行ない記載された動作を実行する。スケールピ
ットモジ1−ル21からの出力は対数変換器23に向け
られ、この変換器23はその出力にスケール対数スペク
トルパラメータベクトルを生成する。次にこのパラメー
タベクトルはモジュール24によってテンプレートトー
クンの与えられたセラ)Kわ念っで平均化され、出力で
基本的にペースフオームテンプレートの1個のパラメー
タを与えるスケール対数スペクトルパラメータを与える
。2乗成分モジュール22からの出力は相対エネルギー
モジュールであるモジュール25の入力とスピーチ及び
雑音レベルトラッカーλ〆司入オlて勺1プら截る。
相対エネルギーモジュール25の出力は、例えば2乗成
分モジュール22の出力からのエネルギーを平均化する
ことによって決められる相対エネルギーを示するノ4ラ
メータである。これはモジュール36によってテンプレ
ートトーク/にわたりて平均化され、別のペースフオー
ムデータ値を与えるのに必要な相対エネルギーパラメー
タである出力ベクトルの平均指示が与えられる。スピー
チ及び雑音レベルトラッカー26からの出力は後に述べ
るように、モジュール27によって再び平均化すれるエ
ネルギーレベルを指示し、このモジ。
−ルの出力でさらに別のペースフオーム特性のエネルギ
ーレベルを与える。スピーチ及び雑音レベルトラッカー
からはさらに述べられるように2つの付加出力が与えら
れ、この内の1つはワード時間およびチャネルてわ之っ
て平均化された発話レベルの対数指示であり、チャネル
はワードに添付された計数回路である。他のものは時間
にわ几って平均され几各チャネルにおける雑音レベルの
ベクトルであるが、チャネルには関連していない。
これは又単語認識ユニットに添付され几ベクトルでもあ
る。従ってモジュール27からの出力は第1の加算器モ
ー)ニール30に与えられ、このモジュール30はスピ
ーチ及び雑音レベルトラッカーからの付加出力を受ける
ことが示されている。加算器30の出力は加算器31の
入力の1つに与えられ、この加算器31はその他方の入
力においてスケールビットモジュール21から引き出さ
れた出力を受ける。スケールビットモジュール21の出
力は係数Kによりモジュール32を介して乗算され、K
は18,172に等しくさらて第3図に示されている。
次にこの値はモジ、−ル33によって平均化され、その
出力において加算器31の他方の入力に与えられる対数
値のペースフオーム値を生成する。加算器31の出力は
加算器32に与えられる。加算器32はもう1つの入力
としてスピーチ及び雑音レベルトラッカー26からの出
力を受け、これは再び各チャネルにおける雑音レベルの
ベクトルである。この出力は機能モジュール4Qの1つ
の入力に与えられ、モジ、−ル40は他の入力において
はモジュール23からの出力を受ける。機能モジ、−ル
40からの出力は雑音付加テンプレートのスケール対数
スペクトルパラメータベクトルである。これは機能モジ
ュール41に与えられ、その出力において特定の発話の
メルーコサイン変換マトリックスである認識ノぐラメー
タベクトルを与える。従ってモジ、−ル41からの出力
及びトラッカーモジュール26からの出力が用いられて
動作テンプレートデータカ4えられる。
上記のように第2図のブロック図と関連する出力は第3
図に示されている。第3図かられかるように、第2図か
ら引き出されるペース7オームテンプレートの実効的な
スペクトルの大きさは基本的に次の式によって与えられ
る。
m  =2  ・XPb(t ) 実効的な/ヤワーは次の式によって与えられる。
P=蓄Lm = 22111@XPb(2211)定義
は第3図を参照され友い。
雑音を付加する前に、各フレームのノクワーは変調され
て、第2図のモジー−ル22の出力において示されたテ
ンプレートの平均発話レベルは、加算器30の入力に与
えられるスピーチ及び雑音レベルトラッカー26の出力
によって示される現在の発話レベルと同じである。その
値は認識ユニツ)(9,331デシベル)中にあるため
、ペースフオームの実効パワーは変化してトラッカー2
6の出力で指示される。これに関して、現在の雑音レベ
ルが付加されるために、雑音付加テンプレートの実効ノ
ヤワーレベルを得て、雑音付加テンプレートの実効的な
大きさがモジュール41の出力に示すことができる。
従ってすべての動作認識ノ9ラメータは、相対的なエネ
ルギーの尺度である対数スペクトルノ4ラメータのメル
ーコサイン変換である。第3図の定義と共に第2図全見
れば当業者にとって上述のことは明らかであり、数学的
にも明白である。
従って同じ正確な技術を用いることによって、テンプレ
ートトークンに雑音全付加し、次に平均化すること釦よ
りてテンプレートを形成することができる。基本的にこ
れを行うプロセスは第2図に示されたものと同じであり
、それによって機能ユニット40の後に平均化が行なわ
れること以外は第2図に示されたものと同じ正確な出力
が与えられる。
第4図では、上記のようにテンプレート形成技術を用い
九通常のシステムの詳細なブロック図が示されている。
84図では、同じ機能の部品を示すのに同じ参照番号が
用いられている。第4図でわかるよう和、ニーダ/デコ
ーダ(C0DIC) −v−ジュール及び線形回路47
に加算器の出力が結合された状態で、加算器46の1つ
の入力に結合されたAGO1すなわち自動利得制御モジ
ュール45が配置されている。コーダ/デコーダモジー
ールは基本的にアナログ/デジタル変換器であり、これ
にデジタル/アナログ変換器が続いている。コブツクの
出力は合成器、またはパントノ9スフイルタバンク、す
なわちスペクトル分析器12に与えられる。
スペクトル分析器12からの出力は平均フレーム対モジ
ュール20に送られ、このモジュールは再びff1K述
べるスケールモジュール21及びスピーチ及び雑音トラ
ックトラッカー26と関連する。
第4図の右側に示された出力ラインからはいろいろな動
作テンプレートデータ値が与えられ、これは雑音のある
テンプレートを形成するのに用いられる。
主要機能モジュールはスピーチ雑音トラッカー26であ
り、これはさらに後述する。また第4図にはマイクロホ
ン10への入力に記号Na及びScが付けられ、これは
重要な信号及び雑t@である。
下付きのC”によりてこれらの表現がスペクトル分析器
12を形成するフィルタバンクチャネルの各々の通過帯
域にわたって平均のスペクトルの大きさを表わすことを
示している。この下付き@Ic”には14の値があり、
各々の値はフィルタバンクの各々のフィルタを表わす。
従ってScは音声スピーチ信号のチャネルCのスペクト
ルの大きさであり、Naはこのチャネルの音響雑音の2
乗平均平方根ス4クトルの大きさである。加算器50及
び46からの出力は電子雑音の大きさであり、これはA
GC利得制御45の前ま之は後に注入される。C0DE
C47からの出力にはC0DECによって導入される量
子化雑音のス(クトルの大きさが含まれる。いずれにせ
よ、スペクトル分析器12の出力ハバンドパスフィルタ
ス(クトルの大きさの値のベクトルであり、平均フレー
ム対モジュール20の出力はス(クトルの大きさの値の
連続対の平均化の結果である。
ス(クトル分析B 12の実効的な出力信号は、フィル
タパンクのパスバンドにわ几るフィルタバンク入力にお
ける信号のスペクトルの大きさの推定値であり、これは
フィルタバンク内の各チャネルに指示されている。これ
らの値の連続対は平均化されて507秒の速度でモジュ
ール20からの出力を生成する。
基本的に14のチャネルのすべての値のセットは全てモ
ジュール21において同じ数Sだけ右にシフトされ、そ
れによって最大7ビツトあるいはそれ以下を占有し、そ
の結果の値は見出し表によって対数に比例する数に変換
される。表は入力127に戻って結果が入力の自然対数
の26.2倍と、すなわちベースbに対する対数と考え
ることができる(bは1.03888である)。20ミ
リ秒のフレーム値は又トラッカー26によって用いられ
てピークスピーチエネルギーの尺度と各チャネルの平均
雑音エネルギーの推定値が生成される。
発話レベルはマイクロホン10におけるスピーチエネル
ギーの全体に任意の定数ヲ茄え九もののベースbに対す
る対数の推定値である。
AGC利得の効果は基本的に除去される念めスペクトル
値ではない。例えばこの利得はフィルタバンク全体の通
過帯域のエネルギーの全体景である。
発話レベルの推定値もま之関連するワードかフレーズで
あり、その時定数は短い発話がなされる時のレベルの大
きさである。従って各テンプレートあるいはテンプレー
ト期間の未知のセグメントに関連するレベル値はただ1
つしかない。トラッカー26からの雑音推定値の時間は
ま念、発話されている時間の長さにわ之って各チャネル
に割り当てられる雑音レベル推定値はただ1つでなけれ
ばならないように拘束されている。そのため第4図の対
数回路54に結合しているスピーチ及び雑音トラッカー
26からの出力値はフィルタバンクの出力の平均エネル
ギー推定値である。従ってこれらの値はAGC利得によ
りて影響され対数変換を行なわずに平均スペクトルエネ
ルギーに直接に比例する。
信号及び種々の雑音源は統計上は独立しており、そのエ
ネルギーは平均して腑算される。これは内部ノイズ源を
決定するのに都合がよいだけではなく、音響雑音及び信
号源の両方の優れた近似であることが実証されている。
さらにマイクロホンにおける等価雑音/ヤワーとなる可
能性がある雑音値があると考えられる。これらの値は音
響雑音ノ中ワ一及び他のシステム雑音ノ4ワーを含み、
一部はAGC45の利得によって減少される。
従って第4図より導出され第2図及び第3図に示されて
いるスケール係数が雑音関連テンプレートを生成するた
めに与えられている几め、テンプレート平均化工程を使
用することによって、同じ発話レベル及びS/N比にお
ける全てのトークンの対数スペクトルパラメータを平均
化することによって得られるのと同じ、ま念は等価な平
均テンプレート金生成することができる。したがって、
全体的な問題を簡単にするために、全てのテンプレート
ならびに全てのテンプレートトークンのS/N比が同じ
であると考える。これは全てのトークンの発話レベルを
同じに調節することによって実行することができるため
、同一のS/N比は全トークンの雑音値と同じになる。
この考え方に基づいて雑音の同等値を平均化する全ての
フオームを作ることができる。
上記のようにテンプレートのS/N比が未知のスピーチ
と同じ場合は、認識性能は雑音がそれよりも太きかっ念
り小さかつなりするテンプレートの場合よりも良好であ
ることが研究かられかっている。従って上記の技術に基
いて、音声信号のS/Nを予想し、それによりてテンプ
レートが入ってくる未知のスピーチと同じS/N比のス
ピーチから生成される1かのようで”あるようにテンプ
レートを使用される前に、変調して認識性能を最適化す
ることができることが示される。
従って2つのステップが用いられる。1つは入ってくる
スピーチのS/N比を予想してテンプレートをこの要求
に合うように変調することである。
そのため以下に説明するようにスピーチ及び雑音トラッ
カー26は、各チャネル内のスピーチパワーが各々の音
声内容によりてワードからワードへ変化するので各チャ
ネル中のスピーチパワーの推定値を形成しない。その九
めどのようなワードが話されるか予想することはできな
いので、データには予想力はない。重要なことは通常の
工程の場合各チャネルのS/N比の推定値は有しないと
いうことである。従って上記のようにテンプレート変調
工程ではチャネルごとに特定のS/N比を用いることは
ない。その友め雑音パワーから生じその平均値に等しい
テンプレートは認識システムにおいて非常に良好に動作
する。
すなわち、雑晋ノ4ワーが平均値を用いるのに十分であ
るためにそのフレーム/フレーム可変性を考える必要は
ないのである。そしてテンプレートパラメータは、現在
の平均雑音パワーと結合されている6ベースフオーム1
テンプレートに効率的に存在するのと同じスピーチパワ
ーから生成されるものである。基本的には上記のように
、スピーチ及び雑音トラッカー26はデジタル信号処理
(DSP )回路であり、付加音響雑音が存在するスピ
ーチ信号のパワーレベルの尺度と任意の形態のバンドパ
スフィルタバンクチャネルの平均雑音パワーの尺度金与
えるアルゴリズムを実行するように動作する。見出され
た発話レベルの尺度は、背戸認識の几めにS/N比を調
節するのく適切な話者の会話レベルを示す。発話レベル
の他の尺度は速く変化し、および/あるいに話されたス
ピ−チ内の音声及び音声でない音の発生の相対周波数を
伴う。スピーチ及び雑音トラッカーによって見出される
尺度は、母音核中のわずかになめらがなピークツぐワー
を検出することによってこれらの問題を回避している。
さらに詳細に説明すると、それはよりエネルギーの多い
母音核中にあるわずかになめらかなビークツ母ワーを探
り出すのである。ストレスのかからない子音及び母音核
でないスピーチ間隔における・やワーピークを無視する
ことによって、一般的なスピーチレベルを継続して指示
する。トラッカーは、雑音パワーの全体量がスピーチ内
の母音核生成率(通常5ないし157秒)に比較して通
常ゆっくりと変化する場合、存在するスピーチと無関係
な付加雑音が存在する状態で用いられる。トラッカーは
ま念雑音レベルにおけるより高速の変化から回復するよ
うに動作する。スピーチ及び雑音トラッカー26は対数
、または圧縮技術を用いており、それによって関心のあ
る周波数領域のスピーチパワーの全体量の尺度が与えら
れる。この尺度はまずゆっくりと上昇し速やかに下降す
るフィルタ処理を受けるが、この場合の上昇及び下降時
間制限は、初めの数ミ’)秒の母音核の間の瞬間的信号
パワー及びフィルタ値の間に大きな正の差が存在し大き
な負の値の差は生じないように選択される。
その之め瞬間的信号ノ4ワー及び迅速に下降してゆっく
りと上昇するフィルタ値の間の差の非線形関数は次に適
切な期間の可動ボックスカー積分工程に向けられ、結果
的に生じる値がスピーチ間隔における通常の、あるいは
ストレスのかかっている母音核中だけの適切なしきい値
よりも上昇し、ストレスのかからない母音核はスキラグ
する。このしきい値との交差はスピーチ核による高い信
号ノヤワーの間隔を識別するのに用いられる。従って識
別される間隔だけがスピーキングレベルトラッキングに
用いられる。そしてスピーチ核しきい値より小さい第2
のしきい値より大きい?ツクスカー積分処理からの値が
スピーチパワー及び雑音ノ4ワーを保持する間隔を識別
するのに用いられる。
ボックスカー積分値が第2の(低い方の)しきい値より
も小さく又瞬間パワーがその高速下降遅速上昇フィルタ
値よりも大きい第3のしきい値よシも大きくない場合の
間隔だけが、雑音パワートラッキング機能の入力として
用いられる。
雑晋ノJ?ワードラッキングモジュールは基本的に集積
回路チップによって構成されているデジタル信号プロセ
ッサが含まれている。このようなチップの多くは基本的
にグロダラム可能でありて色々な型式のアルゴリズムを
実行するように構成することができる。雑音及び信号ト
ラッキング機能に関連するアルプリズムは信号エネルギ
ー内容及び雑音エネルギー内容の両方を決定するように
動作し、以下の方法で動作する。
まずチャネルエネルギーを示す数値を得る。これは各フ
レーム全てで行なわれる。次に全体のエネルギーが計算
される。そして自動利得制御変化に適応するようにシス
テムが動作することができる。エネルギーが計算される
と、次にその結果が与えられた期間にわなって平滑にさ
れる。平滑にされたエネルギー値が得られt後、エネル
ギー全体量の対数値を計算する。エネルギー全体の対数
値を計算し次後、パントノ!スフイルタアレイに対する
入力におけるボックスカー積分あるいはスピーチレベル
推定値の平均を実行する。次のステップでは非対称フィ
ルタが用いられ、スピーチ信号の上昇時間を監視するこ
とによってスピーチ検出のログエネルギーをフィルタす
る。スピーチ信号が包括的に解釈され、入ってくる信号
が雑音であるか、あるいは雑音またはスピーチ信号では
ない加工信号である可能性があり、激しい呼気や基本的
には情報ではなく雑音で4もない話者の声の他のいくつ
かの他の特性によるものである。いずれ圧してもこれも
又真のスピーチ信号である。
従りてこれを決めるtめに、平滑化されたエネルギーに
おける対数エネルギーの瞬間値を監視する。アルゴリズ
ムは、信号の上昇及び下降時間に関連する時間間隔を与
えられ九間隔に分割するように動作する。上昇が負に比
べて正である時は、入ってくる信号の特性を認識するの
に一定の決定が行なわれる。これらの決定罠よって上記
のようにスピーチであるか、加工であるか、あるいは純
粋の雑音であるかを決める。例えば上昇が負である期間
では、上昇が継続的に負である場合は雑音信号であると
完全に考えられる。雑音信号が受は取られて、システム
は雑音値を滑らかにし、これらの値を平均雑音エネルギ
に寄与させ、計算値を用いてこの値を雑音推定値にあて
ることによって信号を継続的にトラックする。次にこれ
全周いてテンプレートを形成する。正の移行に関する注
意はさらに困難である。
正の移行は雑音か、加工か、あるいはスピーチをiわし
ている。この決定のために非線形関数の積分で実行し動
作する。従りて積分値を一定のしきい値と比較すること
に基づいて、正の上昇がスピーチか、雑音か、あるいは
加工のどれを表わしているかを決定することができる。
このようにしてスピーチ及び雑音トラッカーモジュール
かう生じ比値は真のスピーチ値を表わす。第5A図乃至
第5C図にはスピーチ及び雑音トラッカーのプログラム
が示されておシ、ここでは完全なプログラムが示されて
いる。
第6図は第5A図乃至第5C図に示されているゾログラ
ミングフォーマットヲ理解する九めに必要な・工学パラ
メータを定義が示す。さらに説明すると、この過程は各
単一フレームで実行されて以下のように動作する。第5
A図に示されている方法の第1のステップでは各チャネ
ルでのエネルギーが全体エネルギーと共に得られる。こ
れはステップ1および2に示される。そしてエネルギー
は各チャネルで濾過され、自動利得制御スケール変化を
第3及び第4ステツプに示されているように行つ。次の
ステップではエネルギー値をなめらかにし、AGCに対
して補正されるエネルギーのなめらかな対数値を得る。
これはステップ5,6.7に示されている。次のステッ
プではステップ8においてスピーチレベル推定値のMy
クスカー平均を取る。そしてエネルギーの非対称フィル
タ値を得て、ステップ9及び10に示されている濾過さ
れた値における現在のエネルギーの上昇を得る。
そしてプログラムは第5B図に移る。第5A図のステッ
プ10に示されている変数rは、現在の対数エネルギー
がその非対称的な平滑な値を越えるような量である。母
音核の期間rは正であシ、かなυの間隔の期間にわたり
て正にとどまっている。
これはその正及び負の期間に特に顕著性をWする念め、
最初に正になったり負になったりする時に特別な処理が
必要となる。これは第5B図に詳細に示されている。r
が最初に正になると、フレーム番号全明確なスピーチ核
の可能な始まシとして記録する。そしてそれがスピーチ
であるかどうかを決めるのに用いられる値Pfリセット
し、雑音トラッキングを中断するよう【動作する。いず
れにしてもrt1正にとどまる間は、値py累算してP
が特定のしきい値を越えるかどうかの加工及びスピーチ
フラグ全セットする。これらは第5B図の左側に示され
ている。rが最初に正になると、雑音トラッカーを最後
の既知の雑音値にリセットするため、スピーチあるいは
加工が検出されたかどうかについて与えられ次遅延の後
に雑音トラッキングを再開し、一方で概算され几スピー
チレベルが雑音レベルから十分に高いことを確認する。
スピーチがこの上昇中に検出されると、フレームが既知
のスピーチ間隔の端部として番号に関して記録される。
rが負にとどまる間は所定の遅延の後に継続して雑音を
追跡する。これは全て与えられ比色々な動作を明確に記
載する囲まれ念フローチャート例示されている。
第5C図は基本的に、例えば第2図及び第4図に示され
ている動作テンプレートを与える之めに用いられる出力
変数の生成を示している。従って上記かられかるように
、本発明のシステムの主要な考え方では、゛テンプレー
トラ与え、それによって雑音を正しい予想された方法で
付茄して関連する予想S/N比を有するテンプレート’
を形成する。
テンプレートに関連する雑音レベルは入ってくる信号に
存在する雑音の推定値を示している。この方法で基本的
に音声認識システムの認識の可能性を増加させる。  
                 −上記のように雑
音を付加することによってこのようなテンプレートを生
成することは、テンプレート全円いて入ってくる信号と
同じ比較をして、その信号が実際にスピーチか、加工か
、あるいは雑音かを決める任意の音声認識システムに用
いることができる。従って雑音のない状態でまず形成さ
れ、雑音のある状態のこれらの予想値に等しくなるよう
に変調することによって、このシステムは雑音のある状
態で使用できるように改善された音声認識テンプレート
を与えるように動作する。
【図面の簡単な説明】
第1A図は本発明を用いたスペクトルから導出される認
識ノぐラメータを用いた音声認識システムを示すブロッ
ク図である。 第1B図は本発明に従って自然界中のスペクトルである
認識パラメータを用すた別の音声認識システムを示すブ
ロック図である。 第2図は動作テンプレートデータを形成する本発明によ
る技術を示す詳細なブロック図である。 第3図は第2図に示された色々な出力の定義の表を示す
図である。 第4図は本発明の別の実施例の詳細なブロック図である
。 第5A図乃至第5C図は本発明によるスピーチ及び雑音
トラッカーの動作を示す詳細なフローチャートである。 第6図は第5A図乃至第5C図による工学パラメータの
定義の表を示す図である。 10・・・マイクロホン、11・・・増幅器、12・・
・スペクトル分析器、13.100・・・スイッチ、1
4゜15.16.20,21,25,27,40゜16
2.166・・・モジュール、26・・・トラッカー、
160・・・プロセッサ、31.32・・・加算器、5
4・・・対数回路。 出願人代理人  弁理士 鈴 江 武 彦Fig、2゜ tFNT、P81 Fi9  3 n々、5こ ■

Claims (21)

    【特許請求の範囲】
  1. (1)発話のスペクトルの大きさを出力で与え、記憶さ
    れたテンプレートを処理されたスペクトル値と比較して
    前記発話のスピーチの存在を示す良好な比較が得られる
    と出力を与えるスペクトル分析器を備え、前記記憶され
    たテンプレートを生成するための装置を具備している音
    声認識システムにおいて、 前記スペクトル分析器に結合し、入ってくる信号の予想
    される雑音信号を示す信号を与えるための第1の手段と
    、この第1の手段と結合して前記予想される雑音信号に
    応答して前記予想される雑音信号に従って変調されるテ
    ンプレートを生成する手段とを備えていることを特徴と
    する音声認識システム。
  2. (2)前記第1の手段は、出力において雑音の存在する
    スピーチ信号のパワーレベルを示す第1の信号と平均雑
    音パワーを示す第2の信号を与えるように動作するスピ
    ーチ及び雑音レベルトラッキング手段を具備している特
    許請求の範囲第1項記載の音声認識システム。
  3. (3)前記スペクトル分析器はフィルタバンクアレイ中
    に配置された複数のバンドパスフィルタを備え、各フィ
    ルタはこのフィルタの帯域に従って所定のスペクトル成
    分を通過させるように構成されている特許請求の範囲第
    1項記載の音声認識システム。
  4. (4)前記第2の手段は低雑音条件下でテンプレートを
    生成し前記テンプレートを前記予想される雑音信号に従
    って変調させるための手段を具備している特許請求の範
    囲第1項記載の音声認識システム。
  5. (5)前記第1の手段は、入ってくるスピーチ信号のS
    /N比を予想するための手段を備えている特許請求の範
    囲第1項記載の音声認識システム。
  6. (6)前記第1の手段は、前記バンドパスフィルタの平
    均及び変化を測定して各フィルタの雑音通過特性の推定
    値を与える手段を具備している特許請求の範囲第3項記
    載の音声認識システム。
  7. (7)前記雑音の推定がガウス雑音に応答する前記フィ
    ルタに基づいて行なわれる特許請求の範囲第6項記載の
    音声認識システム。
  8. (8)雑音の存在しない状態で生成された前記テンプレ
    ートが雑音のないトークンテンプレートであって、この
    テンプレートに応答して出力においてベースフォームデ
    ータを与えるための平均値を与えるための手段と、この
    ベースフォームデータを現在予想される雑音信号に従っ
    て変調する手段を備えている特許請求の範囲第4項記載
    の音声認識システム。
  9. (9)発話のスペクトルの大きさを出力で与え、所定の
    記憶されたテンプレートを処理されたスペクトル値と比
    較して前記発話のスピーチの存在を示す良好な比較が得
    られると出力を与えるスペクトル分析器を備え、前記記
    憶テンプレートを生成するための装置を具備している音
    声認識システムにおいて、 前記分析器に結合して、雑音の存在を示す予想計算値に
    従って前記所定のテンプレートを変調することによって
    記憶のためのテンプレートを生成するための処理手段と
    、 前記生成されたテンプレートと入ってくる信号を比較し
    て前記出力を与える手段とを具備することを特徴とする
    音声認識システム。
  10. (10)前記処理手段の前記予想計算値がガウス雑音の
    存在を示す特許請求の範囲第9項記載の音声認識システ
    ム。
  11. (11)前記処理手段は、雑音のないテンプレートを平
    均化してベースフォームデータ出力を与え、又このデー
    タ、すなわち計算された雑音データを加算することによ
    ってこのベースフォームデータ出力を変調する手段を具
    備している特許請求の範囲第9項記載の音声認識システ
    ム。
  12. (12)前記処理手段は、出力において前記分析器によ
    って与えられるような前記スペクトルの大きさの値の連
    続対の平均値を与える平均化手段を具備し、 前記平均化手段の出力に結合され与えられた長さのフィ
    ールド信号を与えるためのスケーリング手段と、前記与
    えられた長さのフィールド信号を対数信号に変換して前
    記ベースフォームデータ出力を与える手段とを具備して
    いる特許請求の範囲第9項記載の音声認識システム。
  13. (13)前記平均化手段と結合して、出力において前記
    平均値の連続対の二乗の大きさを示すベクトル信号を与
    えるための二乗化手段と、この二乗化手段の出力に結合
    して前記ベースフォームデータ出力の別の出力を与える
    手段とをさらに具備する特許請求の範囲第12項記載の
    音声認識システム。
  14. (14)前記二乗化手段の出力に結合した前記手段は、
    前記ベクトル信号に応答してベースフォームエネルギー
    パラメータを与えるための相対エネルギー形成手段と、
    出力においてスピーチと雑音の両方のパワーレベルを示
    すベースフォームパラメータを与えるためのスピーチ及
    び雑音レベルトラッキング手段とを具備している特許請
    求の範囲第13項記載の音声認識システム。
  15. (15)音声認識システムにおいて用いられるテンプレ
    ートの形成方法であって、入ってくる信号の予想される
    雑音レベルを示す信号を与え、 前記与えられた信号に従って与えられたテンプレートを
    変調して前記予想される雑音レベルを有するテンプレー
    トを与えるステップを具備する方法。
  16. (16)前記予想される雑音レベルを示す信号を与える
    ステップは、雑音に関して与えられたスピーチ処理チャ
    ネルの応答を測定し、この測定に基づいて前記信号を推
    定するステップを含む特許請求の範囲第15項記載の方
    法。
  17. (17)前記変調ステップにおいて、比較的雑音のない
    ベースフォームテンプレートをまず形成し、このベース
    フォームテンプレートを前記予想される雑音レベルを示
    す前記信号に従って変調するステップを有する特許請求
    の範囲第15項記載の方法。
  18. (18)前記変調ステップにおいて、比較的雑音のない
    ベースフオームテンプレートを形成し、各テンプレート
    に雑音を付加し、この付加雑音テンプレートデータを平
    均化して前記分析データに従って新しいテンプレートを
    形成するステップを有する特許請求の範囲第15項記載
    の方法。
  19. (19)信号を与えるためのステップは、入ってくる信
    号のS/N比を、全てのテンプレートの対数スペクトル
    パラメータを同じ発話レベル及びS/N比において平均
    化することによつて、存在する信号のパワーの変調によ
    って認識されるように予想するステップと、前記平均パ
    ラメータを用いて変調テンプレートを形成するステップ
    とを含む特許請求の範囲第15項記載の方法。
  20. (20)音声認識システムにおいて用いられるテンプレ
    ートを形成する方法において、 形成されたテンプレートをそれらが比較に用いられる前
    に予想値を示す前記テンプレートに雑音信号を付加する
    ことによって変調し、前記変調されたテンプレートが入
    って来る認識されるべき信号と同じS/N比を保持する
    スピーチ信号から生成されるかのように動作させること
    を特徴とする方法。
  21. (21)前記変調するステップは現在の発話レベルに基
    づく前記予想値として現在のS/N比を用いることによ
    って入ってくるスピーチ信号のS/N比を予想し、現在
    の雑音パワー及びスピーチパワーを平均化して前記付加
    雑音信号を限定するステップを含む特許請求の範囲第2
    0項記載の方法。
JP1048418A 1988-02-29 1989-02-28 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法 Expired - Lifetime JP3046029B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16150488A 1988-02-29 1988-02-29
US161,504 1988-02-29

Publications (2)

Publication Number Publication Date
JPH01255000A true JPH01255000A (ja) 1989-10-11
JP3046029B2 JP3046029B2 (ja) 2000-05-29

Family

ID=22581453

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1048418A Expired - Lifetime JP3046029B2 (ja) 1988-02-29 1989-02-28 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法

Country Status (3)

Country Link
JP (1) JP3046029B2 (ja)
FR (1) FR2627887B1 (ja)
GB (1) GB2216320B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017526006A (ja) * 2014-07-28 2017-09-07 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオ信号内の雑音を推定するための方法、雑音推定器、オーディオ符号化器、オーディオ復号器、およびオーディオ信号を送信するためのシステム

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0846318B1 (en) * 1995-08-24 2001-10-31 BRITISH TELECOMMUNICATIONS public limited company Pattern recognition
US5960397A (en) * 1997-05-27 1999-09-28 At&T Corp System and method of recognizing an acoustic environment to adapt a set of based recognition models to the current acoustic environment for subsequent speech recognition
DE29718636U1 (de) * 1997-10-21 1998-02-12 Rosenbaum, Lothar, 56727 Mayen Phonetische Steuer-, Eingabe- und Kommunikationseinrichtung mit akustischer Rückmeldung, insbesondere für Holzbearbeitungsmaschinen
DE102017200122B4 (de) 2017-01-05 2020-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Wafer Level Package mit integrierten Antennen und Mittel zum Schirmen, System dieses umfassend und Verfahren zu dessen Herstellung
DE102017200121A1 (de) 2017-01-05 2018-07-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Wafer Level Package mit zumindest einem integrierten Antennenelement

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4720802A (en) * 1983-07-26 1988-01-19 Lear Siegler Noise compensation arrangement
DE3766124D1 (de) * 1986-02-15 1990-12-20 Smiths Industries Plc Verfahren und vorrichtung zur sprachverarbeitung.

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017526006A (ja) * 2014-07-28 2017-09-07 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオ信号内の雑音を推定するための方法、雑音推定器、オーディオ符号化器、オーディオ復号器、およびオーディオ信号を送信するためのシステム
JP2019023742A (ja) * 2014-07-28 2019-02-14 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオ信号内の雑音を推定するための方法、雑音推定器、オーディオ符号化器、オーディオ復号器、およびオーディオ信号を送信するためのシステム

Also Published As

Publication number Publication date
FR2627887B1 (fr) 1994-05-13
GB2216320B (en) 1992-08-19
GB8902475D0 (en) 1989-03-22
FR2627887A1 (fr) 1989-09-01
JP3046029B2 (ja) 2000-05-29
GB2216320A (en) 1989-10-04

Similar Documents

Publication Publication Date Title
Sharma et al. Trends in audio signal feature extraction methods
CN108198547B (zh) 语音端点检测方法、装置、计算机设备和存储介质
US4933973A (en) Apparatus and methods for the selective addition of noise to templates employed in automatic speech recognition systems
WO2021139425A1 (zh) 语音端点检测方法、装置、设备及存储介质
Ahmad et al. A unique approach in text independent speaker recognition using MFCC feature sets and probabilistic neural network
Dhanalakshmi et al. Classification of audio signals using AANN and GMM
US8160877B1 (en) Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
Kinnunen et al. Voice activity detection using MFCC features and support vector machine
EP1083541B1 (en) A method and apparatus for speech detection
Barkana et al. A new pitch-range based feature set for a speaker’s age and gender classification
Hu et al. Pitch‐based gender identification with two‐stage classification
WO2014153800A1 (zh) 语音识别***
JPH0990974A (ja) 信号処理方法
Bach et al. Robust speech detection in real acoustic backgrounds with perceptually motivated features
Archana et al. Gender identification and performance analysis of speech signals
CN108091340B (zh) 声纹识别方法、声纹识别***和计算机可读存储介质
Pao et al. Combining acoustic features for improved emotion recognition in mandarin speech
Venkatesan et al. Binaural classification-based speech segregation and robust speaker recognition system
Rahman et al. Dynamic time warping assisted svm classifier for bangla speech recognition
US20060020458A1 (en) Similar speaker recognition method and system using nonlinear analysis
Couvreur et al. Automatic noise recognition in urban environments based on artificial neural networks and hidden markov models
Guo et al. Robust speaker identification via fusion of subglottal resonances and cepstral features
Alonso-Martin et al. Multidomain voice activity detection during human-robot interaction
Raghib et al. Emotion analysis and speech signal processing
JPH01255000A (ja) 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090317

Year of fee payment: 9

EXPY Cancellation because of completion of term