JPH06502927A

JPH06502927A - 文脈依存モデリング用人工ニューラルネットワークを用いたパターン認識装置

Info

Publication number: JPH06502927A
Application number: JP3513519A
Authority: JP
Inventors: ブールラール　エルベ; モーガン，ネルソン
Original assignee: レルナウト　アンド　ハウスピイ　スピーチプロダクツ
Priority date: 1991-08-19
Filing date: 1991-08-19
Publication date: 1994-03-31
Anticipated expiration: 2016-05-21
Also published as: WO1993004468A1; EP0553101B1; EP0553101A1; JP3168004B2; DE69126983T2; DE69126983D1

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】文脈依存モデリング用人工ニューラルネットワークを用いたパターン認識装置本発明は、Ｋ　ｘ、　Ｍ個の出カニニットを有し、所定の文脈（ｃｏｎｔｅｘｔｕａｌ）モデル（ｃ、）（１≦ｍ≦Ｍ）に条件付けられたクラス（ｑ、）（１≦ に≦Ｋ）に関する特徴ベクトル（Ｘｌ）を観測する確率（ｏｂｓｅｒｖｉｎｇ）を計算するために設けられた、人工ニューラルネットワーク組織（ｓｅｔ−ｕｐ）を備えた、パターン認識装置に関するものであり、前記装置は°、データ流を受け取るための入力を有し、前記データ流をサンプリングすることにより連続的にデータサンプルを取り込むと共に、データサンプルから前記特徴ベクトル（Ｘ、）を決定するために設けられたサンプリング手段を備えており、前記クラスの各々は、統計法則によって支配されるモデル（Ｍ）の有限集合に属する少なくとも１つのモデルによって表されるものである。

このような装置は、［マルコフモデルと多層パーセプトロン」と題され、１９９０年１２月のパターン分析および機械知能のＩＥＥＥ論文誌、ｖｏｌ、＋２．Ｎｏ。

１２において発表された、エッチ、ブーラード（Ｈ，Ｂｏｕｒｌａｒｄ）及びシー、ジエイ、ウエレケンス（Ｃ。

Ｊ、Ｗｅ　１１　ｅｋｅｎｓ）の論文から、公知である。前記公知装置では、認識すべきパターンは、人間の音声パターンである。このパターンの認識のために用いられたのは、混合（ｈｙｂｒ　ｉ　ｄ）ＡＮＮ　（人工ニューラルネットワーク）／ＨＭＭ　（隠れマルコフモデル）音声認識である。隠れマルコフモデルは、音声特性の良好な表現を提供している。人工ニューラルネットワークが音声認識における困難な問題を解消するために用いられ、放出（ｅｍｉｓｓｉｏｎ）確率を計算するためのアルゴリズムが開発されている。ＨＭＭによれば、音声は、統計法則によって支配されるクラスＱ＝（ｑ＋、ｑｍ１．、、、ｑｋ）の集合から構築された特定の有限状態オートマトンによって、生成されるものと仮定されている。入力されたデータ流を認識するために、入力された音声をサンプルし、そして一連の音響ベクトルＸ”　（Ｘ＋　、Ｘｚ　、。

、、Ｘ＋１．、、ＸＴ）に変形する。ここで、Ｘ、は、時間ｔにおける音響ベクトルを表す。この公知の装置は、ＡＮＮの特殊な形状である多層パーセプトロン（ＭＬＰ）を用いている。ＭＬＰは、ベイズ（Ｂａｙｅｓ）確率、即ち後見確率（ｐｏｓｔｅｒｉｏｒｉｐｒｏｂａｂｉｌｉｔｉｅｓ）ｐ（ｑｍ　ｌｘ、）を発生するために訓練され（ｔｒａｉｎ）、ベイズ規則を用いることによって、放出確率を決定するために変形することができる。

この公知装置の欠点は、文脈依存（ｃｏｎｔｅｘｔ−ｄｅｐｅｎｄｅｎ　ｔ）モデルのようにより複雑なモデルに対して、同じ限定されたデータ量で、多くのパラメータを推定（ｅｓ　ｔ　ｉｍａｔｅ）Ｌ／なければならないことである。実際、Ｋ個の可能性のあるクラスとＭ個の可能性のある文脈（ｃｏｎｔｅｘｔ）かある場合、考慮されるクラスの左及び右の文脈の情報を用いると、モデルの集合Ｃ”（ＣＩ、Ｃ２１，、、Ｃｌ１１１に属する左及び右の文脈を表すものである。尤度（Ｉ　ｉｋｅ　１１ｈｏｏｄ）がＭＰＬによって或はＨＩＶ［Ｍの標準訓練方法によって発生されても、いずれも音声状態の良好な確率推定とはならなず、それはほとんどまたの現在のクラス（ｑ、）に関するベクトル（Ｘ、）を観測する放出確率を計算するために、この公知装置を単純に用いると、出力層が数千ものユニット及び数百万もの訓練すべきパラメータを育することになってしまう。この問題を解決するために、８ＭＭシステムにおいて補間法か用いられている。この解決法は、十分な別線材料がないために貧弱に推定される詳細なモデルと、パラメータ数が制限されているために良好に推定される大まかなモデルとの間の折衷案を表すものである。しかしながら、補間法は、パターンの認識においてエラーの原因ともなり、前記装置を十分信頼できないものにしている。

本発明の目的は、前述の欠点を軽減することである。

したかって、本発明による装置は、前記ニューラルネットワーク組織か、Ｋ個の出カニニットを有し前記観測されたベクトル（Ｘ、）を与えられた前記クラス（ｑ、）の後見確率を計算するために設けられた第１のニューラルネットワークと、Ｍ個の出カニニットを有し、前記クラスによって条件付けられた前記文脈モデルの後見確率を計算するために設けられた少なくとも１つの他のニューラルネットワークとに分割されていることを特徴とする。ネットワーク組織を第１及び少なくとも１つの他のネットワークに分割し、各ネットワークを前述のように特定後見確率の決定のために備えるようにするこって条件付けられたクラス（ｑ、）に関するベクトルを観測する放出確率を得るためのいかなる仮定及び簡素化も、もはや行う必要がなくなる。直接ネットワークの実行を行っている、公知の装置と比較して、この解決法はパラメータの数、したがって装置のメモリ容量を大幅に減少させるものである。

本発明の装置の第１の好適実施例は、前記能のニューラルネットワークは、各々から独立して第１のＺ。

（ｘｌ）及び第２のｙ＋（ｃ）事前Ｓ状出力値（ｐｒｅ−ｓｉｇｍｏｉｄ　ｏｕｔｐｕｔ　ｖａｌｕｅｓ）を決定するために設けられたもので、前記第１のＺｒ　（ｘｔ）及び前記第２のｙ＋（ｃ）事前Ｓ状出力値は、それぞれ入力されたクラスに関する入力された特徴ベクトルを基に決定され、前記他のニューラルネットワークは、前記事前Ｓ状出力値からｐ（ｃｌｑｍ、ｘ＋）値を決定するために設けられた１組の上位（ｕｐｐｅｒ）ユニットを備えていることを特徴とする。

事前Ｓ状出力値Ｚ。

及びＹ、が互いに独立であるということは、それらを互いに独立して決定することかでき、ニューラルネットワークを更に簡素化できることを暗示している。出力値の決定は、前記事前Ｓ状値を受け取る１組の上位ユニットによって簡単に実現され、より効率的な組織を得る結果となる。

好ましくは、前記他のニューラルネットワークは、受は取った特徴ベクトルＸ＋に基づいて ■ を決定するために設けられた第１の隠れた層（ｈｉｄｄｅｎ　１ａｙｅｒ）を備えており、ここで、ｄｌ。は重み付は係数、ｆはＳ状関数（ｓｉｇｍｏｉｄ　ｆｕｎｃｔｉｏｎ）で１ｈＨであり、Ｈは前記第１の隠れた層内に隠れたユニットの総数であり、前記第１の隠れた層は、次の式の前記第１の事前Ｓ状値を決定するために設けられた合計ユニットと接続されており、ここで、ｂｏは重み付は係数である。このようにして、第１の事前Ｓ状値を決定するための効率的なアーキテクチャが得られ□る。

本発明による装置の第２の好適実施例は、前記他のニューラルネットワークが、前記第２の事前Ｓ状出力値Ｙ、（ｃ）を記憶するために設けられたメモリを備えており、前記装置は、更に、クラスｑ、を受け取った時に、該クラスｑ、に割り当てられた第２の事前Ｓ状値Ｙ。

（Ｃ）が記憶されているアドレスを備えていることを特徴とする。Ｚ、及びＹｌの独立性が、出力に対する文脈の寄与を前もって計算することを可能にしている。この計算は、例えば、訓練段階の最後に実行され、これにより各モデルに対する第２の事前Ｓ状値の記憶を可能とする。それら事前Ｓ状値がメモリ内に記憶されているので、それらをいちいち計算する必要がもはやなくなり、このため計算時間を非常に節約することができる。このように、事前Ｓ状値は、一旦記憶されれば、メモリから読み出すだけでよい。

好ましくは、受は取ったクラスｑ、に基づいて、更なる値を決定するために設けられた第２の隠れた層を備えており、ここで、Ｗｌは訓練された重み付は係数、ｆはＳ状関数であり、前記第２の隠れた層は、前記第２の事前Ｓ状値を決定するために設けられたもう１つの合計ユニットを接続されており、ここで、ａｌｌは訓練された重み係数で、１１Ｌであり、Ｌは前記第２の隠れた層内にある隠れたユニットの総数である。このようにして、第２の事前Ｓ状値を決定するための効率的なアーキテクチャか得られる。

本発明による装置の第３の好適実施例は、入力されたクラス（ｑ、）及び文脈モデル（Ｃ，）によって決定される第３の事前Ｓ状出力値Ｙｌ　（ｑｋ　、Ｃ−）を記憶するために設けられたメモリを備えており、前記事前Ｓ状値はＫｘＭｘＮマトリクスにしたがって記憶可能であり、前記装置は、更に、ｑｈ、ｍ−集合を受け取った時、前記集合に割り当てられた前記第３の事前Ｓ状値が記憶されているアドレスを発生するために設けられたアドレス発生器を備えていることを特徴とする。事前Ｓ状出力値Ｙｌ　（ｑｈＳｃ−）も特徴ベクトルとは独立しているので、その前計算及び記憶が可能であり、これによって計算量を減少する。

好ましくは、前記クラス及び前記文脈モデルは、共にトワークはｐ　（ｑｍ　ｌ　Ｘ＋　）を計算するために設けられるために設けられた、第２、それぞれ第３、第４及び第５ネツトワークを備えている。このようにして、三音声認識（ｔｒｉｐｈｏｎｅ　ｒｅｃｏｇｎｉｔｉｏｎ）が容易に実現される。

本発明を、図面に関連してこれより詳細に説明する。

ここで、第１図は、本発明による装置の概略図を示す。

第２図は、本発明による装置の動作を示す流れ図を示す。

第３及び４図は、本発明による装置に属する、それぞれニューラルネットワークを概略的に示す。

認識すべきパターンは、例えば、絵または音声のように、様々な種類のものが可能である。本発明は、音声を例として用いて説明する。しかしながら、これは明確性の目的のためにのみ行われるのであり、記載される装置か音声以外のパターン認識にも用いることができることは、明らかであろう。

音声は、音素から成り立っている。例えば、ｒＣａｔＪという単語は、３つの音素「ｋ」の音、短いｒａＪ及び最後のｒｔＪから構成されている。音声認識とは、言語学的内容を判断するために、少なくとも音素と同じ大きさの一連の要素の判断を、意味するものである。

あるパターンの一例として、特定の音声における認識装置が第１図に概略的に示されている。データ、特に音声が、線１を介してサンプリング手段２に供給される。

サンプリング手段によってサンプルされた後、データサンプルは、放出確率を決定するために設けられた、略してＡＮＮと呼ばれる人工ニューラルネットワーク組織を備えた、処理装置３に供給される。それら放出確率は次に、例えば音声の場合入力された文である、入力データを認識するために設けられた、もう１つの処理装置４に供給される。

第１図に示された装置によって行われる自動音声認識（ＡＳＲ）は、第２図の流れ図に示したような数個のステップを含んでいる。最初のステップ５では、入力データか、例えば音声の場合では、マイクロフォンによって、収集される。マイクロフォンから出力された電気信号は、その後処理されるが（６）、これには、例えば音声フレームよりかなり大きな時定数を用いてスペクトル傾斜を平坦化するためのフィルタ処理を含んでいる。

前処理ステップ６の後、特徴抽出７を行うか、これは、音響的ばらつきには依存せず言語学的内容に感知する、音声信号表現の判断を含んでいる。典型的に、音声分析は、ある固定長の「フレームＪ即ち分析窓にわたって実施される。例えば、音声を、スペクトルの［エイリアシング（ａｌ　ｉａｓ　ｉｎｇ）Ｊを防止するために６．４ｋＨｚで濾過した後に、１６ｋＨｚでサンプルする。３２ｍ５ｅｃ（５１２点）の窓を、例えば、スペクトル分析モデュールへの入力として用いて、一定間隔、例えば１０ｍ５ｅｃ　（１６０点〉毎に１回の分析を行う。このようにして、音声信号は、一連の特徴ベクトルＸ＝　（ｘ＋、ＸｌＮ−−−、Ｘｔ１６．、Ｘｌに変形される。ここで、ｘｌは時刻ｔにおける特徴ベクトルを表す。音声の場合、このような特徴ベクトルは、音響ベクトルである。

一旦特徴抽出が実行されたなら、仮説発生（８）を開始するが、ここでニューラルネットワークが用いられる。

仮説発生ステップは、例えば単語のような音声セグメントに対するラベルを生成するための分類、または音声フレームと「基準」音声部分との間の類似性の測定を含んでいる。代替的に、入力を、適合性の不確信度の確率的測定を生じる統計モデルに適合させることもできる。

仮説発生ステップ８の後、費用推定（ｃｏｓｔｅｓｔｉｍａｔａｔｉｏｎ）ステップ９が開始する。ここでは、最少費用の一致を判定するために、例えば、プリンストン大学出版（ＰｒｉｎｃｅｔｏｎＵｎｉｖｅｒｓｉｔｙ　Ｐｒｅｓｓ）から１９６２に応用動的プログラミング（ＡｐｐｌｉｅｄＤｙｎａｍｉｃ　Ｐｒｏｇｒａｍｍｉｎｇ）において発表された、アール　ベルマン　アール　ニス　ドレイフユス（Ｒ，Ｂｅｌｌｍａｎ　Ｒ，Ｓ、Ｄｒｅｙｆｕｓ）の論文に記載されている、ベルマンの動的プログラミングアルゴリズムを用いる。認識ＩＯ自体は、一旦費用推定か得られてから、行われる。

本発明の詳細な説明を始める前に、音声認識の一般的知識について述べ、用いられる用語に明確な定義を示しておく。

はとんどの最先端技術の音声認識装置は、統計的手法である隠れマルコフモデル（ＨＭＭ）を基にしている。

この形式主義では、統計法則によって支配されるクラスＱ”（ｑｘ、ｑｚｌ、、、ｑ、）の集合によって構築された特定の存限状態オートメーション（ｆｉｎｉｔｅｓｔａｔｅ　ａｕｔｏｍａｔｉｏｎ）によって、音声が生成されていると仮定している。その場合、各音声単位（例えば、各給食の単語または各音素）は、前もって定義された位相にしたがって、Ｌ個のクラスｑｌθＱ（１＝１．、、、　、Ｌ）から成る特定のＨＭＭと関連付けられている。８ＭＭ手法では、各仮説的音声音に対して観測スペクトルの確率、並びに各許される遷移の確率を推定しなくてはならない。これらの確率の負対数（ｎｅｇａｔｉｖｅ　ｌｏｇ）を、動的プログラミングアルゴリズム［ベルマン及びドレイフユス、１９６２］における距離として用い、最少費用経路（局所距離の最少合計と許された遷移に対する全費用の最少合計との一致として定義されている）を決定することができる。この経路は、データと一致するモデルの最良の歪（ｗａｒｐｉｎｇ）を表すものである。

音声音（音素）用モデルでは、音は、先頭、中間、及び終端を有し、各々固有の特性がある。この音声は、各フレーム（例えば１０ｍ５ｅｃ）の間それらの「クラス」の１つに完全に留まり、その時刻において次の許されるクラスに移行することができるものと仮定する。

各遷移に関連するのは、現在のクラスｑ、から新しいクラスｑ１に移動する時に、音声特徴ベクトルＸ、を放出する確率ｐ　（ｘ＋、ｑｘ　ｌｑ、）である。放出確率ｐ（ｘ、、１ｑｋ）（各クラスｑ、に対して）と、遷移確率ｐ（Ｑ＋　ｌｑｍ）（各遷移ｑ、→ｑ１に対して）とは、区別される。いかなる特定の発声に対しても、観測される特徴は、各クラスについての放出確率と対応する遷移との積である確率（可能性のあるクラスを通るいずれかの仮説経路に対する）を存している。これが正しいのは、局部的な確率間に想定された独立性のためである。

例えば、Ｑ＋→ｑ１→ｑ２という経路及び入力の特徴ｘ１、Ｘ　２　、Ｘ　ｓを仮定する。すると想定された経路の確率は、以下のようになる。

メｘ、ｌｑρ−ｐ（ｑ、Ｉ　Ｑｌ）−Ｐ（Ｘ２１　ｑｌ）、ｐ（ｑｚｌ　ｑｘ） −ｐ（ｘＪ　ｑ２）。

費用を得るために負対数を取ると、乗算の代わりに加算が行われ、そして動的プログラミングを用いて最少費用経路を決定することかできる。

連続的音声認識に対しては、音素ＨＭＭを連結して複数の単語を表し、更にこれらを連結して完全な発声を表すことができる。モデルの変種も導入して、隣接する音素または単語間の相互有節発音（ｃｏａｒｔｉｃｕｌａｔｉｏｎ）の一般的効果を表すこともできる。特に、例えば三音声（ｔ　ｒ　１ｐｈｏｎｅ）のような文脈依存音声モデルを用いて、隣接する音声からの相互有節発音に起因する様々な異音（ａ　１１　ｏｐｈｏｎ　ｉ　ｃ）を表すことができる。

この場合、３つの音素の連続が、相互有節発音効果をもたらすものと、考えられる。各音素には、その右側及び左側の音素的文脈にしたかって、それに関連するいくつかのモデルを育している。もちろん、この手法の欠点は、モデルの数そして結果的に判断ずへきパラメータの数が急激に増加することである。Ｍ個の音素とに個の可能なりラスかあるとすると、各クラスに対して最大ＫｘＭｘＭ個の可能性のある音素的文脈がある。それら全てが許されているわけではないが（音声学的規則または類似文脈の類別のため）、可能性のある三音声モデルの数は、膨大には変りない。

本発明者によって書かれ、ＩＥＥＥ　９０ＣＨ２８４７−２、ｐ４１３−４１６に発表された、「隠れマルコフモデルによる多層パーセブトロン（ＭＬＰ）を用いた連続音声認識」という題の論文は、とのようにＡＮＮの特殊な形態であるＭＬＰを用いて、８ＭＭシステムに用いられる放出確率を計算するかについて、述へたちのである。これらの研究において、１つのＭＬＰの各出カニニットか、マルコフモデルを定義したクラスＱ＝（ｑ＋、ｑｚｌ、、、ｑｍｌの集合の特定のクラスＱｍと関連付けられている場合、当該ＭＬＰを訓練して、その出力にＸ、が与えられる時のｐ　（ｑｍ　ｌｘ、）のような確率を発生できることか示されている。ｐ（ｑｉＸ＋）のような確率は、一般的にベイズの確率または事後確率と呼ばれており、下記のベイズの規則によってＨＭＭにおいて放出確率として用いられる尤度（１ｉ　ｋｅ　１１ｈｏｏｄｓ）に変形することができる。

引用した論文に示されているように、このような手法の利点は、データの確率的分布に関する仮説を用いずに、ＨＭＭに必要とされる放出確率を、よりよい差別化特性（ｄｉｓｃｒｉｍｉｎａｎｔ　ｐｒｏｐｅｒｔｉｅｓ）によって推定する可能性があることである。結果的に文脈または他の情報を考慮するＭＬＰへの入力領域の変更を可能としているので、この手法がいかにしてＨＭＭの他の重大な欠点を克服することができるかも、示されている。

上述のように、ＭＬＰは、ＨＭＭのための放出確率を推定するために設けられたものである。これらの推定は、かなり単純なＨＭＭが用いられた場合に計数推定（ｃｏｕｎｔｆｎｇ　ｅｓｔｉｍａｔｉｏｎ）またはガウス推定の性能を向上するに至ったことか示されている。

しかしながら、現在最先端の連続音声認識装置は、大幅に複雑なＨＭ　Ｍ、例えば音声当り多数の密度及び／または文脈依存のモデルを必要とする。最先端のＨＭＭを基本とした音声認識装置は、音素の代わりに三音声のような文脈依存音声単位をモデルとして用い、その性能を向上させている。例えば、既にあげた例に戻ると、英語のｒｃａｔＪ　という単語は３つの音素、「ｋ」の音、短い「ａ」、そして最後のｒｔＪから構成されている。標準的な音声手法では、単語ｒＣａｔＪのマルコフモデルを、その構成音素、即ちｒｋ−ａ−ｔＪのモデルを連結することによって、得ている。三音声手法では、音素のモデルは、その左側及び右側の音声文脈に依存し、分離された単語ｒＣａｔＪを構成する一連のモデルは、ｒ＃ｋａ−ｋａｔ−ａｔ＃Ｊ　となる。ここで、「＃」は「無」即ち「無声」記号である。この例では、ｒ＃ｋａ」は、音素「＃」か左側に、そして音素ｒａＪか右側にある音素「ｋ」のモデルを表している。この手法は、音声的相互脊部発音を考慮している。この場合、ＨＭＭ　（または混合ＡＮＮ／ＨＭＭ）に用いるために推定しなければならない放出確率ｐ（ｘ、１ｑｈ）か、ｐ　（ｘ＋　ｌ　ｑｈ、右側にある、現音素クラスｑ、に関する音響特徴ベクトルｘｔを観測する確率に置き換えられている。文脈モデ、ＣＭ）に属するものである。各クラスｑ、は、少なくとも１つのモデルによって表されている。前記集合Ｃのモデルは、統計的規則によって支配されている。

しかしながら、これらの更に複雑なモデルに伴う困難は、同じ限られた量のデータで、更に多くのパラメータを推定しなければならないことである。実際、Ｋ個の可能性のあるクラスとＭ個の可能性のある音素的文脈モデＭｘＭ個の可能性のある組み合せを有することになる。

ニューラルネットワークでも同様に、これは重大な問題である。ＫｘＭｘＭ個の出カニニットを育するＭＬＰによって、或はＨＭＭ用の標準訓練方法によって尤度を発生するにしても、いずれも音声状態のための良好な確率推定ではなく、はとんどまたは全く観測がなされない。

更に、公知の技術を、例えば三音声に単に応用すると、出力層は数千もの出カニニット、及び数百万もの訓練すべき接続（即ちパラメータ）を有する結果となる。これは、１０００００ないし１ｏｏｏｏｏｏ個程度の訓練トークン（ｔｒａｉｎｉｎｇ　ｔｏｋｅｎｓ）を存する本データ集合にとってはかなり高張るものである。８ＭＭシステムでは、文脈依存性のレベル間、即ち音声、二音声及び三音声で、各レベルの発生頻度にしたがって、補間を行うことによって、これらの問題を扱ってきた。こ（ｘ＋　ｌ　ｃ’　、ｑｈ　）及びｐ（ｘ、ｌｑ、）の推定に関して、表される。実際、この解決法は、不十分な割線材料のために貧弱に推定されるよい（即ち詳細な）モデルと、それらのパラメータ数か制限されているために良好に推定される大まかなモデルとの間の折衷案を表している。

この文脈モデリングにおける主要な問題は、以下のような放出確率の推定にある。

これらの確率を推定するために、ＫｘＭｘＭ個の出カニニットを存する、人工ニューラルネットワーク組織を用いる。統計数学的規則を基に、以下の関係が与えられる。

放出確率（１）にベイズの法則を適用すると、次の式が与えられる。

（２）及び（３）を（４）に代入すると、次の式が与え以下に説明するが、この変形は、計算すべき放出確率のよく定義された数学的変形を基にしており、想定を行うことなく後者の正確な計算を可能にするものである。

本発明の要旨は、計算すべき放出確率の（１）式を変形するための異なる数学的可能性から、正確な選択を行ったことである。この選択は、大幅に簡素化されたニューラルネットワークを、後者の放出確率の計算のために用いることができるようにするものである。

式（５）から推察されるように、ＫｘＭｘＭ個の出カニニットを有するニューラルネットワークは、Ｋ＋Ｍ＋Ｍ個またはに＋Ｍ個の出カニニットを有するネットワークに分割することができる。音素モデル用混合ＡＮＮ／ＨＭＭの定理に基づいて、先に簡単に論じたように、即ち、ＡＮＮの出力値を、入力に条件付けられた出力クラスの後見確率から推定する分類モデルにおいて、式（５）で表される全ての確率は、それぞれのニューラルネットワークによって推定することができる。

＊ｐ　（ｑｍ　ｌ　ｘ、　）は、音素をモデリングするために設けられた第１のニューラルネットワークによって推定され、ここで入力領域は、現在の特徴ベクトルＸ、のみを含み、出力の限度が現在のクラスｑ、に関連付けられている。このようなニューラルネットワークは、「マルコフモデルと多層パーセブトロン」と題され、１９９０年１２月のパターン分析および機械知能のＩＥＥＥ論文誌、ｖｏｌ、１２．Ｎｏ、１２のｐＨ６７−１１７８において発表された、エッチ、ブーラード（Ｈ。

Ｂｏｕｒｌａｒｄ）及びシー、ジエイ、ウエレケンス（Ｃ，Ｊ、Ｗｅｌｌｅｋｅｎｓ）の論文に詳細に記載さトワーク（第３図に示されるような）によって推定され、ここでは出カニニット（１１７）は、三音声の右側の音素Ｃ７と関連付けられており、出力領域は、現在の音響ベクトルＸＩの要素Ｘ＋＋（ｓ≦ｉ≦Ｉ）とＸ、に関連付けられた現在のクラスｑＫとによって構成されている。

るような第３のニューラルネットワークによって推定され、ここでは出カニニットが三音声の左側の音素と関連付けられており、そして入力領域が現在の音響ベクトルｘｔ、現在のクラスｑ、及び三音声における右側の音声文脈Ｃ′によって構成されている。

は、第４のニューラルネットワークによって推定され、連付けられており、入力領域は現在のクラスｑ、と右側の音素Ｃ′とを表している。これは、特定の現クラスを与えられた三音声の左部分の特定の音素と右側の音声文脈を観測する先見確率を与えるものである。

りによって推定され、ここでは出カニニットが三音声の右側の音素Ｃ′と関連があり、入力領域は現在のクラスｑ、を表している。これは、特定のクラスの右側の特定の音素を観測する先見確率を与えるものである。このモデルにおいて限定した数のパラメータを与えれば（即ち、−ＫｘＭ）、この確率も計数によって推定することができる（即ちこれはニューラルネットワークを必要としない）。

”ｐ　（Ｑｋ）は、標準的な混合ＡＮＮ／ＨＭＭ音声手法においても用いられている、音素の先見確率であり、訓練集合に依存することによって、単純に推定される。

この確率を決定するためには、ニューラルネットワークは不要である。

＊　ｐ　（ｘ＋　）は、クラスには独立した一定値であり、したがって分類の目的には重要ではない。この確率を決定するためには、二且−ラルネットワークは不要である。

先に説明したように、放出確率の計算は、このように、第１のニューラルネットワーク及び第２のニューラルネットワークによって行われ、これらは各々前記文脈的モ限られた訓練集合に対しては、これらの推定は未だ、従来のＨＭＭシステムにおいて行われているような、単音モデルによる平滑化を行う必要があり得る。加えて、ｃｌ及びＣＦが音素ではなく広い音声クラスまたはクラスタを表す場合、上記結果は「−膜化された三音声Ｊの推定に適合する。最後に、左側及び右側の文脈のみが用いられる場合、この技術は２つのネットワーク、単音ネットワークと及びその推定ｐ　（ｃ　ｌｑｍＳＸ＋　）の１つにのみ有効である。

音声データ（例えばＸ＋）を含む入力領域に文脈情報を供給することもできる。

この場合、Ｘ、の確率は、声文脈情報を与えられた三音声確率の推定を行うことになり、三音声モデルの場合更に重要なものとなる。

先に説明したように、三音声モデルに対する放出確率は、今や想定を全く行わずに計算することができる。しかしながら、各ニューラルネットワークによって行うべき計算量は大量のままである。例えば、第２のニューラルネットワーク（第３図）の場合、ＫｘＭ回の計算が必要である。十分な性能のニューラルネットワークが入手可能であれば、これはさほどの問題ではないだろう。

行うへき計算量は、しかしながら、ネットワークの位相に単純な制限を設けることによって、減少することができる。第３図に示すように、ネットワークは、終端層においてのみ結合されている２つの別個の部分から成っている。入力された特徴ベクトルＸ、に適用される計算は、クラスｑｋに適用されるものから分離されたより低い層においてである。この制約か可能なのは、クラスは二進値を有し有限の状態集合に属するからである。この制約によって、出力に対する文脈の寄与度を事前に計算することかできる。この計算は、訓練段階の終了時に、パターン認識に先だって行われる。

るための第２のニューラルネットワークについて考慮すると、ユニット１２に入力される特徴ベクトルｘｌは、層１４の隠れたユニットに供給される。各隠れだユニットｈ（１≦ｈ≦Ｈ）は、重み付けされた合計値を与え、ここでｆは、標準Ｓ状関数であり、ｆ（ｘ）　＝　二一一一１やｌ−８であり、ｄ　ｌｋは、重み係数である。

次に重み付けされた合計値ｚｈは、次の第１の事前Ｓ状値を決定するために設けられたｊ個の合計ユニットＺ、に供給される。

ここでｂｋｌは重み係数である。

入力１１に供給される状態ｑｈ（＋≦に≦Ｋ）のために、同等の組織を実現する。隠れた層１３が、更に別の重み付けした合計値を決定するために設けられる。

ここで、ｗｋ、は訓練された重み係数である。後者の重み付は合計１Ｉｔｙ１は、次の事前Ｓ状値を決定するために設けられたＬ個の合計ユニットＹ、（１５）に供給される。

ここで、ａｌｌも、訓練された重み付は係数である。　確するために設けられた上層１７によって決定される。

文脈（Ｃ）及び入力特徴ベクトル（Ｘｌ）の両方から入力を受け取る隠れたユニットがないように全体を分割することによって、簡素化を図ることができる。更に、文脈モデルＣの各々に対して事前Ｓ状値Ｙ、は入力された特徴ベクトルとは独立しているので、全ての可能性のある文脈モデルについて事前Ｓ状値を前もって計算することができる。それらの事前Ｓ状値Ｙ１は、次にメモリについてもはやその事前Ｓ状値を計算する必要がないようにする。所定値Ｙ＋（ｑｉに対して適切にアドレスするために、２次元マトリクス組織を選択し、各可能性って、対応するＹ、値か得られ、これを次にｆ　（Ｙ＋　＋Ｚ、）の計算のために用いる。主要な新たな計算は（単音声の場合と比較して）、単に文脈の寄与度と最終的Ｓ状非線型性の両方に対する探索であり、これは各仮説を立てられた三音声に対して再計算しなくてはならない。

先に述べた組織は、事前計算の最大の可能性を、事前に計算された値の記憶と共に与えるものである。しかしなから、事前計算を少なくした別の実施例も可能であることは、明確であろう。したがって、ｙ、値のみを事前計算し、入力されたＣｋ値によってアドレス可能なメモリにそれらを記憶することも可能である。

ラルネットワークにも適用される。入力されるｑｋ、を前もって計算し、メモリに記憶することができる。事前Ｓ状値を得るための特徴ベクトルｘ８の計算は、第３図に関して説明したものに類似している。

ここでは、ｑｋ値が与えられるユニット２０からと同２２への入力があるので、事前Ｓ状値Ｙ、（ｑｋｌｙｌを決定するために設けられたものである。

ここで、ｆは再び標準Ｓ状関数であり、ｓｏ及びｒｍｌは訓練された重み付は係数である。そして、事前Ｓ状値は、加算器２３によって決定される。

式（６）及び（７）から解るように、事前Ｓ状値Ｙ。

ており、したかってＹｌに対してＫｘＭ個の値を与える。

メモリに記憶されている事前に決定されたＹｒ　（ｑｍ、ｃ’）に適切にアドレスするために、３次元マトリクス連付けられたＫｘＭｘＭ個の値を、ＫｘＭｘＭのマトリこれは１つのマトリクスを与え、そのマトリクスのに番が記憶される。

このように、記憶された値は、事前Ｓ状値が記憶されているマトリクス位置を示すアドレスを共先に説明した組織は、三音声の場合ばかりでなく、所定の文脈モデルＣて条件付けられたクラスｑに関する特徴ベクトル（ｘｌ）を観測する確率を計算する、より一般的な文脈においても適用可能なものである。現在のクラスｑを特定の隣接した文脈モデルＣによって観測する確率を推定するための式は、このように、確率は、後見確率の積に分解されるのである。これは、ＫｘＭ個の出力を育する単一ネットワークの訓練を、それぞれに個及びＭ個の出力を有する２つのネットワークの訓練に減少させるのであり、したがって、時間及びパラメータに関して潜在的に膨大な節約を可能とするものである。ｑ及びＸ、の入力間で隠れたユニットを共用しないと仮定することにより、ｑから発する出力ベクトル（事前Ｓ状）への寄与度は、ｑ及びＣの全ての値に対して前もって計算することが可能となる。

Ｊ　さ１．事件の表示レルナウト　アンド　ハウスビイ　スピーチプロダクツ４−代理人６−補正により増加する請求項の数７、補正の対象明細書、請求の範囲及び要約書間訳文、＋＋ｊ＋＋Ｗ＋ＰＣＴ／ＢＥ９１１０００５８

Claims

【特許請求の範囲】

１．ＫｘＭ個の出力ユニットを有し、所定の文脈モデル（Ｃｍ）によって条件付けられたクラス（ｑｋ）（１≦ｋ≦Ｋ）に関する特徴ベクトル（Ｘｔ）を観測する確率を計算するために設けられた人工ニューラルネットワーク組織を備えたパターン認識装置であって、前記装置は、データ流を受け取るための入力を有し、かつ前記データ流をサンプリングすることによってデータサンプルを連続的に取り込み、データサンプルから前記特徴ベクトル（Ｘｔ）を決定するサンプリング手段を備えており、前記クラスの各々は、統計法則によって支配されているモデル（Ｍ）の有限集合に属する少なくとも１つのモデルによって表されるものであり、前記ニューラルネットワーク組織は、Ｋ個の出力ユニットを有し、前記観測されたベクトル（Ｘｔ）を与えられた前記クラス（ｑｋ）の後見確率を計算するために設けられた第１のニューラルネットワークと、Ｍ個の出力ユニットを有し、前記クラスによって条件付けられた前記文脈モデルの後見確率を計算するために設けられた少なくとも１つの他のニューラルネットワークとに分割されていることを特徴とする、パターン認識装置。
２．請求項１記載のパターン認識装置であって、前記他のニューラルネットワークは、各々から独立して第１のＺｊ（Ｘｔ）及び第２のＹｊ（ｃ）事前Ｓ状出力値を決定するために設けられたもので、前記第１及び前記第２の事前Ｓ状出力値は、それぞれ入力されたクラスに関する入力された特徴ベクトルを基に決定され、前記他のニューラルネットワークは、前記事前Ｓ状出力値からｐ（ｃ｜ｑｋ、Ｘｔ）を決定するために設けられた１組の上位ユニットを備えていることを特徴とする、パターン認識装置。
３．請求項２記載のパターン認識装置であって、前記他のニューラルネットワークは、受け取った特徴ベクトルＸｔに基づいて値 ▲数式、化学式、表等があります▼ を決定するために設けられた第１の隠れ層を備えており、ここで、ｄｊｈは重み付け係数、ｆはＳ状関数で１≦ｈ≦Ｈ、Ｈは前記第１の隠れ層内に隠れたユニットの総数であり、前記第１の隠れ層は、次の式によって前記第１の事前Ｓ状値を決定するために設けられた合計ユニットと接続されており、 ▲数式、化学式、表等があります▼ ここで、ｂｈｊは重み付け係数である、ことを特徴とするパターン認識装置。
４．請求項２または３記載のパターン認識装置であって、前記他のニューラルネットワークは、前記第２の事前Ｓ状出力値Ｙｊ（ｃ）を記憶するために設けられたメモリを備えており、前記装置は、更に、受け取ったクラスｑｋに基づいて、該クラスｑｋに割り当てられた第２の事前Ｓ状値Ｙｊ（ｃ）が記憶されているアドレスを発生するために設けられたアドレス発生器を備えていることを特徴とする、パターン認識装置。
５．請求項２または３記載のパターン認識装置であって、受け取ったクラスｑｋに基づいて、更なる値▲数式、化学式、表等があります▼ を決定するために設けられた第２の隠れ層を備えており、ここで、Ｗｋｌは訓練された重み付け係数、ｆはＳ状関数であり、前記第２の隠れ層は、前記第２の事前Ｓ状値▲数式、化学式、表等があります▼ を決定するために設けられたもう１つの合計ニットを接続されており、ここで、ａｌｊは訓練された重み係数で、１≦１≦Ｌ、Ｌは前記第２の隠れた層内にある隠れたユニットの総数であることを特徴とする、パターン認識装置。
６．請求項２または３記載のパターン認識装置であって、入力されたクラス（ｑｋ）及び文脈モデル（Ｃｍ）によって決定される第３の事前Ｓ状出力値Ｙｊ（ｑｋ、Ｃｍ）を記憶するために設けられたメモリを備えており、前記事前Ｓ状値はＫｘＭｘＮマトリクスにしたがって記憶可能であり、前記装置は、更に、ｑｋ、ｍｎ集合を受け取った時、前記集合に割り当てられた前記第３の事前Ｓ状値が記憶されているアドレスを発生するために設けられたアドレス発生器を備えていることを特徴とする、パターン認識装置。
７．請求項１−６のいずれかに記載のパターン認識装置、特に音声認識装置であって、前記クラス及び前記文脈モデルは、共に三音声（Ｃ■、ｑｋ、Ｃ■）を形成し、前記第１のネットワークはｐ（ｑｋ｜Ｘｔ）を計算するために設けられており、前記他のネットワークは、ｐ（Ｃ■｜ｑｋ、Ｘｔ）、それぞれｐ（Ｃ■｜ｑｋ、Ｃ■、Ｘ１）、Ｐ（Ｃ■｜ｑｋ、Ｃ■）、及びＰ（Ｃ■｜ｑｋ）を計算するために設けられた、第２、それぞれ第３、第４及び第５ネットワークを備えていることを特徴とする、パターン認識装置。
８．請求項７記載のパターン認識装置であって、前記ネットワークは、 ▲数式、化学式、表等があります▼ を出力するために設けられていることを特徴とする、パターン認識装置。
９．請求項４または６記載のパターン認識装置において用いられることを意図されたメモリであって、前記事前Ｓ状値が前記メモリに記憶されることを特徴とする、メモリ。