JPH06502927A - 文脈依存モデリング用人工ニューラルネットワークを用いたパターン認識装置 - Google Patents

文脈依存モデリング用人工ニューラルネットワークを用いたパターン認識装置

Info

Publication number
JPH06502927A
JPH06502927A JP3513519A JP51351991A JPH06502927A JP H06502927 A JPH06502927 A JP H06502927A JP 3513519 A JP3513519 A JP 3513519A JP 51351991 A JP51351991 A JP 51351991A JP H06502927 A JPH06502927 A JP H06502927A
Authority
JP
Japan
Prior art keywords
recognition device
pattern recognition
neural network
class
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3513519A
Other languages
English (en)
Other versions
JP3168004B2 (ja
Inventor
ブールラール エルベ
モーガン,ネルソン
Original Assignee
レルナウト アンド ハウスピイ スピーチプロダクツ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by レルナウト アンド ハウスピイ スピーチプロダクツ filed Critical レルナウト アンド ハウスピイ スピーチプロダクツ
Publication of JPH06502927A publication Critical patent/JPH06502927A/ja
Application granted granted Critical
Publication of JP3168004B2 publication Critical patent/JP3168004B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】 文脈依存モデリング用人工ニューラルネットワークを用いたパターン認識装置 本発明は、K x、 M個の出カニニットを有し、所定の文脈(context ual)モデル(c、)(1≦m≦M)に条件付けられたクラス(q、)(1≦ に≦K)に関する特徴ベクトル(Xl)を観測する確率(observing) を計算するために設けられた、人工ニューラルネットワーク組織(set−up )を備えた、パターン認識装置に関するものであり、前記装置は°、データ流を 受け取るための入力を有し、前記データ流をサンプリングすることにより連続的 にデータサンプルを取り込むと共に、データサンプルから前記特徴ベクトル(X 、)を決定するために設けられたサンプリング手段を備えており、前記クラスの 各々は、統計法則によって支配されるモデル(M)の有限集合に属する少なくと も1つのモデルによって表されるものである。
このような装置は、[マルコフモデルと多層パーセプトロン」と題され、199 0年12月のパターン分析および機械知能のIEEE論文誌、vol、+2.N o。
12において発表された、エッチ、ブーラード(H,Bourlard)及びシ ー、ジエイ、ウエレケンス(C。
J、We 11 ekens)の論文から、公知である。前記公知装置では、認 識すべきパターンは、人間の音声パターンである。このパターンの認識のために 用いられたのは、混合(hybr i d)ANN (人工ニューラルネットワ ーク)/HMM (隠れマルコフモデル)音声認識である。隠れマルコフモデル は、音声特性の良好な表現を提供している。人工ニューラルネットワークが音声 認識における困難な問題を解消するために用いられ、放出(emission) 確率を計算するためのアルゴリズムが開発されている。HMMによれば、音声は 、統計法則によって支配されるクラスQ=(q+、qm1.、、、qk)の集合 から構築された特定の有限状態オートマトンによって、生成されるものと仮定さ れている。入力されたデータ流を認識するために、入力された音声をサンプルし 、そして一連の音響ベクトルX” (X+ 、Xz 、。
、、X+1.、、XT)に変形する。ここで、X、は、時間tにおける音響ベク トルを表す。この公知の装置は、ANNの特殊な形状である多層パーセプトロン (MLP)を用いている。MLPは、ベイズ(Bayes)確率、即ち後見確率 (posteriori probabilities)p(qm lx、)を発生するために訓練され( train)、ベイズ規則を用いることによって、放出確率を決定するために変 形することができる。
この公知装置の欠点は、文脈依存(context−dependen t)モ デルのようにより複雑なモデルに対して、同じ限定されたデータ量で、多くのパ ラメータを推定(es t imate)L/なければならないことである。実 際、K個の可能性のあるクラスとM個の可能性のある文脈(context)か ある場合、考慮されるクラスの左及び右の文脈の情報を用いると、モデルの集合 C”(CI、C21,、、Cl111に属する左及び右の文脈を表すものである 。尤度(I ike 11hood)がMPLによって或はHIV[Mの標準訓 練方法によって発生されても、いずれも音声状態の良好な確率推定とはならなず 、それはほとんどまたの現在のクラス(q、)に関するベクトル(X、)を観測 する放出確率を計算するために、この公知装置を単純に用いると、出力層が数千 ものユニット及び数百万もの訓練すべきパラメータを育することになってしまう 。この問題を解決するために、8MMシステムにおいて補間法か用いられている 。この解決法は、十分な別線材料がないために貧弱に推定される詳細なモデルと 、パラメータ数が制限されているために良好に推定される大まかなモデルとの間 の折衷案を表すものである。しかしながら、補間法は、パターンの認識において エラーの原因ともなり、前記装置を十分信頼できないものにしている。
本発明の目的は、前述の欠点を軽減することである。
したかって、本発明による装置は、前記ニューラルネットワーク組織か、K個の 出カニニットを有し前記観測されたベクトル(X、)を与えられた前記クラス( q、)の後見確率を計算するために設けられた第1のニューラルネットワークと 、M個の出カニニットを有し、前記クラスによって条件付けられた前記文脈モデ ルの後見確率を計算するために設けられた少なくとも1つの他のニューラルネッ トワークとに分割されていることを特徴とする。ネットワーク組織を第1及び少 なくとも1つの他のネットワークに分割し、各ネットワークを前述のように特定 後見確率の決定のために備えるようにするこって条件付けられたクラス(q、) に関するベクトルを観測する放出確率を得るためのいかなる仮定及び簡素化も、 もはや行う必要がなくなる。直接ネットワークの実行を行っている、公知の装置 と比較して、この解決法はパラメータの数、したがって装置のメモリ容量を大幅 に減少させるものである。
本発明の装置の第1の好適実施例は、前記能のニューラルネットワークは、各々 から独立して第1のZ。
(xl)及び第2のy+(c)事前S状出力値(pre−sigmoid ou tput values)を決定するために設けられたもので、前記第1のZr  (xt)及び前記第2のy+(c)事前S状出力値は、それぞれ入力されたク ラスに関する入力された特徴ベクトルを基に決定され、前記他のニューラルネッ トワークは、前記事前S状出力値からp(clqm、x+)値を決定するために 設けられた1組の上位(upper)ユニットを備えていることを特徴とする。
事前S状出力値Z。
及び Y、が互いに独立であるということは、それらを互いに独立して決定することか でき、ニューラルネットワークを更に簡素化できることを暗示している。出力値 の決定は、前記事前S状値を受け取る1組の上位ユニットによって簡単に実現さ れ、より効率的な組織を得る結果となる。
好ましくは、前記他のニューラルネットワークは、受は取った特徴ベクトルX+ に基づいて ■ を決定するために設けられた第1の隠れた層(hidden 1ayer)を備 えており、ここで、dl。は重み付は係数、fはS状関数 (sigmoid function)で1hHであり、Hは前記第1の隠れた 層内に隠れたユニットの総数であり、前記第1の隠れた層は、次の式の前記第1 の事前S状値を決定するために設けられた合計ユニットと接続されており、 ここで、boは重み付は係数である。このようにして、第1の事前S状値を決定 するための効率的なアーキテクチャが得られ□る。
本発明による装置の第2の好適実施例は、前記他のニューラルネットワークが、 前記第2の事前S状出力値Y、(c)を記憶するために設けられたメモリを備え ており、前記装置は、更に、クラスq、を受け取った時に、該クラスq、に割り 当てられた第2の事前S状値Y。
(C)が記憶されているアドレスを備えていることを特徴とする。Z、及びYl の独立性が、出力に対する文脈の寄与を前もって計算することを可能にしている 。この計算は、例えば、訓練段階の最後に実行され、これにより各モデルに対す る第2の事前S状値の記憶を可能とする。それら事前S状値がメモリ内に記憶さ れているので、それらをいちいち計算する必要がもはやなくなり、このため計算 時間を非常に節約することができる。このように、事前S状値は、一旦記憶され れば、メモリから読み出すだけでよい。
好ましくは、受は取ったクラスq、に基づいて、更なる値 を決定するために設けられた第2の隠れた層を備えており、ここで、Wlは訓練 された重み付は係数、fはS状関数であり、前記第2の隠れた層は、前記第2の 事前S状値 を決定するために設けられたもう1つの合計ユニットを接続されており、ここで 、allは訓練された重み係数で、11Lであり、Lは前記第2の隠れた層内に ある隠れたユニットの総数である。このようにして、第2の事前S状値を決定す るための効率的なアーキテクチャか得られる。
本発明による装置の第3の好適実施例は、入力されたクラス(q、)及び文脈モ デル(C,)によって決定される第3の事前S状出力値Yl (qk 、C−) を記憶するために設けられたメモリを備えており、前記事前S状値はKxMxN マトリクスにしたがって記憶可能であり、前記装置は、更に、qh、m−集合を 受け取った時、前記集合に割り当てられた前記第3の事前S状値が記憶されてい るアドレスを発生するために設けられたアドレス発生器を備えていることを特徴 とする。事前S状出力値Yl (qhSc−)も特徴ベクトルとは独立している ので、その前計算及び記憶が可能であり、これによって計算量を減少する。
好ましくは、前記クラス及び前記文脈モデルは、共にトワークはp (qm l  X+ )を計算するために設けられるために設けられた、第2、それぞれ第3 、第4及び第5ネツトワークを備えている。このようにして、三音声認識(tr iphone recognition)が容易に実現される。
本発明を、図面に関連してこれより詳細に説明する。
ここで、 第1図は、本発明による装置の概略図を示す。
第2図は、本発明による装置の動作を示す流れ図を示す。
第3及び4図は、本発明による装置に属する、それぞれニューラルネットワーク を概略的に示す。
認識すべきパターンは、例えば、絵または音声のように、様々な種類のものが可 能である。本発明は、音声を例として用いて説明する。しかしながら、これは明 確性の目的のためにのみ行われるのであり、記載される装置か音声以外のパター ン認識にも用いることができることは、明らかであろう。
音声は、音素から成り立っている。例えば、rCatJという単語は、3つの音 素「k」の音、短いraJ及び最後のrtJから構成されている。音声認識とは 、言語学的内容を判断するために、少なくとも音素と同じ大きさの一連の要素の 判断を、意味するものである。
あるパターンの一例として、特定の音声における認識装置が第1図に概略的に示 されている。データ、特に音声が、線1を介してサンプリング手段2に供給され る。
サンプリング手段によってサンプルされた後、データサンプルは、放出確率を決 定するために設けられた、略してANNと呼ばれる人工ニューラルネットワーク 組織を備えた、処理装置3に供給される。それら放出確率は次に、例えば音声の 場合入力された文である、入力データを認識するために設けられた、もう1つの 処理装置4に供給される。
第1図に示された装置によって行われる自動音声認識(ASR)は、第2図の流 れ図に示したような数個のステップを含んでいる。最初のステップ5では、入力 データか、例えば音声の場合では、マイクロフォンによって、収集される。マイ クロフォンから出力された電気信号は、その後処理されるが(6)、これには、 例えば音声フレームよりかなり大きな時定数を用いてスペクトル傾斜を平坦化す るためのフィルタ処理を含んでいる。
前処理ステップ6の後、特徴抽出7を行うか、これは、音響的ばらつきには依存 せず言語学的内容に感知する、音声信号表現の判断を含んでいる。典型的に、音 声分析は、ある固定長の「フレームJ即ち分析窓にわたって実施される。例えば 、音声を、スペクトルの[エイリアシング(al ias ing)Jを防止す るために6.4kHzで濾過した後に、16kHzでサンプルする。32m5e c(512点)の窓を、例えば、スペクトル分析モデュールへの入力として用い て、一定間隔、例えば10m5ec (160点〉毎に1回の分析を行う。この ようにして、音声信号は、一連の特徴ベクトルX= (x+、XlN−−−、X t16.、Xlに変形される。ここで、xlは時刻tにおける特徴ベクトルを表 す。音声の場合、このような特徴ベクトルは、音響ベクトルである。
一旦特徴抽出が実行されたなら、仮説発生(8)を開始するが、ここでニューラ ルネットワークが用いられる。
仮説発生ステップは、例えば単語のような音声セグメントに対するラベルを生成 するための分類、または音声フレームと「基準」音声部分との間の類似性の測定 を含んでいる。代替的に、入力を、適合性の不確信度の確率的測定を生じる統計 モデルに適合させることもできる。
仮説発生ステップ8の後、費用推定(costestimatation)ステ ップ9が開始する。ここでは、最少費用の一致を判定するために、例えば、プリ ンストン大学出版(PrincetonUniversity Press)か ら1962に応用動的プログラミング(AppliedDynamic Pro gramming)において発表された、アール ベルマン アール ニス ド レイフユス(R,Bellman R,S、Dreyfus)の論文に記載され ている、ベルマンの動的プログラミングアルゴリズムを用いる。認識IO自体は 、一旦費用推定か得られてから、行われる。
本発明の詳細な説明を始める前に、音声認識の一般的知識について述べ、用いら れる用語に明確な定義を示しておく。
はとんどの最先端技術の音声認識装置は、統計的手法である隠れマルコフモデル (HMM)を基にしている。
この形式主義では、統計法則によって支配されるクラスQ”(qx、qzl、、 、q、)の集合によって構築された特定の存限状態オートメーション(fini testate automation)によって、音声が生成されていると仮 定している。その場合、各音声単位(例えば、各給食の単語または各音素)は、 前もって定義された位相にしたがって、L個のクラスqlθQ(1=1.、、、  、L)から成る特定のHMMと関連付けられている。8MM手法では、各仮説 的音声音に対して観測スペクトルの確率、並びに各許される遷移の確率を推定し なくてはならない。これらの確率の負対数(negative log)を、動 的プログラミングアルゴリズム[ベルマン及びドレイフユス、1962]におけ る距離として用い、最少費用経路(局所距離の最少合計と許された遷移に対する 全費用の最少合計との一致として定義されている)を決定することができる。こ の経路は、データと一致するモデルの最良の歪(warping)を表すもので ある。
音声音(音素)用モデルでは、音は、先頭、中間、及び終端を有し、各々固有の 特性がある。この音声は、各フレーム(例えば10m5ec)の間それらの「ク ラス」の1つに完全に留まり、その時刻において次の許されるクラスに移行する ことができるものと仮定する。
各遷移に関連するのは、現在のクラスq、から新しいクラスq1に移動する時に 、音声特徴ベクトルX、を放出する確率p (x+、qx lq、)である。放 出確率p(x、、1qk)(各クラスq、に対して)と、遷移確率p(Q+ l qm)(各遷移q、→q1に対して)とは、区別される。いかなる特定の発声に 対しても、観測される特徴は、各クラスについての放出確率と対応する遷移との 積である確率(可能性のあるクラスを通るいずれかの仮説経路に対する)を存し ている。これが正しいのは、局部的な確率間に想定された独立性のためである。
例えば、Q+→q1→q2という経路及び入力の特徴x1、X 2 、X sを 仮定する。すると想定された経路の確率は、以下のようになる。
メx、lqρ−p(q、I Ql)−P(X21 ql)、p(qzl qx) −p(xJ q2)。
費用を得るために負対数を取ると、乗算の代わりに加算が行われ、そして動的プ ログラミングを用いて最少費用経路を決定することかできる。
連続的音声認識に対しては、音素HMMを連結して複数の単語を表し、更にこれ らを連結して完全な発声を表すことができる。モデルの変種も導入して、隣接す る音素または単語間の相互有節発音 (coarticulation)の一般的効果を表すこともできる。特に、例 えば三音声 (t r 1phone)のような文脈依存音声モデルを用いて、隣接する音声 からの相互有節発音に起因する様々な異音(a 11 ophon i c)を 表すことができる。
この場合、3つの音素の連続が、相互有節発音効果をもたらすものと、考えられ る。各音素には、その右側及び左側の音素的文脈にしたかって、それに関連する いくつかのモデルを育している。もちろん、この手法の欠点は、モデルの数そし て結果的に判断ずへきパラメータの数が急激に増加することである。M個の音素 とに個の可能なりラスかあるとすると、各クラスに対して最大KxMxM個の可 能性のある音素的文脈がある。それら全てが許されているわけではないが(音声 学的規則または類似文脈の類別のため)、可能性のある三音声モデルの数は、膨 大には変りない。
本発明者によって書かれ、IEEE 90CH2847−2、p413−416 に発表された、「隠れマルコフモデルによる多層パーセブトロン(MLP)を用 いた連続音声認識」という題の論文は、とのようにANNの特殊な形態であるM LPを用いて、8MMシステムに用いられる放出確率を計算するかについて、述 へたちのである。これらの研究において、1つのMLPの各出カニニットか、マ ルコフモデルを定義したクラスQ=(q+、qzl、、、qmlの集合の特定の クラスQmと関連付けられている場合、当該MLPを訓練して、その出力にX、 が与えられる時のp (qm lx、)のような確率を発生できることか示され ている。p(qiX+)のような確率は、一般的にベイズの確率または事後確率 と呼ばれており、下記のベイズの規則によってHMMにおいて放出確率として用 いられる尤度(1i ke 11hoods)に変形することができる。
引用した論文に示されているように、このような手法の利点は、データの確率的 分布に関する仮説を用いずに、HMMに必要とされる放出確率を、よりよい差別 化特性(discriminant properties)によって推定する 可能性があることである。結果的に文脈または他の情報を考慮するMLPへの入 力領域の変更を可能としているので、この手法がいかにしてHMMの他の重大な 欠点を克服することができるかも、示されている。
上述のように、MLPは、HMMのための放出確率を推定するために設けられた ものである。これらの推定は、かなり単純なHMMが用いられた場合に計数推定 (countfng estimation)またはガウス推定の性能を向上す るに至ったことか示されている。
しかしながら、現在最先端の連続音声認識装置は、大幅に複雑なHM M、例え ば音声当り多数の密度及び/または文脈依存のモデルを必要とする。最先端のH MMを基本とした音声認識装置は、音素の代わりに三音声のような文脈依存音声 単位をモデルとして用い、その性能を向上させている。例えば、既にあげた例に 戻ると、英語のrcatJ という単語は3つの音素、「k」の音、短い「a」 、そして最後のrtJから構成されている。標準的な音声手法では、単語rCa tJのマルコフモデルを、その構成音素、即ちrk−a−tJのモデルを連結す ることによって、得ている。三音声手法では、音素のモデルは、その左側及び右 側の音声文脈に依存し、分離された単語rCatJを構成する一連のモデルは、 r#ka−kat−at#J となる。ここで、「#」は「無」即ち「無声」記 号である。この例では、r#ka」は、音素「#」か左側に、そして音素raJ か右側にある音素「k」のモデルを表している。この手法は、音声的相互脊部発 音を考慮している。この場合、HMM (または混合ANN/HMM)に用いる ために推定しなければならない放出確率p(x、1qh)か、p (x+ l  qh、右側にある、現音素クラスq、に関する音響特徴ベクトルxtを観測する 確率に置き換えられている。文脈モデ、CM)に属するものである。各クラスq 、は、少なくとも1つのモデルによって表されている。前記集合Cのモデルは、 統計的規則によって支配されている。
しかしながら、これらの更に複雑なモデルに伴う困難は、同じ限られた量のデー タで、更に多くのパラメータを推定しなければならないことである。実際、K個 の可能性のあるクラスとM個の可能性のある音素的文脈モデMxM個の可能性の ある組み合せを有することになる。
ニューラルネットワークでも同様に、これは重大な問題である。KxMxM個の 出カニニットを育するMLPによって、或はHMM用の標準訓練方法によって尤 度を発生するにしても、いずれも音声状態のための良好な確率推定ではなく、は とんどまたは全く観測がなされない。
更に、公知の技術を、例えば三音声に単に応用すると、出力層は数千もの出カニ ニット、及び数百万もの訓練すべき接続(即ちパラメータ)を有する結果となる 。これは、100000ないし1oooooo個程度の訓練トークン(trai ning tokens)を存する本データ集合にとってはかなり高張るもので ある。8MMシステムでは、文脈依存性のレベル間、即ち音声、二音声及び三音 声で、各レベルの発生頻度にしたがって、補間を行うことによって、これらの問 題を扱ってきた。こ(x+ l c’ 、qh )及びp(x、lq、)の推定 に関して、表される。実際、この解決法は、不十分な割線材料のために貧弱に推 定されるよい(即ち詳細な)モデルと、それらのパラメータ数か制限されている ために良好に推定される大まかなモデルとの間の折衷案を表している。
この文脈モデリングにおける主要な問題は、以下のような放出確率の推定にある 。
これらの確率を推定するために、KxMxM個の出カニニットを存する、人工ニ ューラルネットワーク組織を用いる。統計数学的規則を基に、以下の関係が与え られる。
放出確率(1)にベイズの法則を適用すると、次の式が与えられる。
(2)及び(3)を(4)に代入すると、次の式が与え以下に説明するが、この 変形は、計算すべき放出確率のよく定義された数学的変形を基にしており、想定 を行うことなく後者の正確な計算を可能にするものである。
本発明の要旨は、計算すべき放出確率の(1)式を変形するための異なる数学的 可能性から、正確な選択を行ったことである。この選択は、大幅に簡素化された ニューラルネットワークを、後者の放出確率の計算のために用いることができる ようにするものである。
式(5)から推察されるように、KxMxM個の出カニニットを有するニューラ ルネットワークは、K+M+M個またはに+M個の出カニニットを有するネット ワークに分割することができる。音素モデル用混合ANN/HMMの定理に基づ いて、先に簡単に論じたように、即ち、ANNの出力値を、入力に条件付けられ た出力クラスの後見確率から推定する分類モデルにおいて、式(5)で表される 全ての確率は、それぞれのニューラルネットワークによって推定することができ る。
*p (qm l x、 )は、音素をモデリングするために設けられた第1の ニューラルネットワークによって推定され、ここで入力領域は、現在の特徴ベク トルX、のみを含み、出力の限度が現在のクラスq、に関連付けられている。こ のようなニューラルネットワークは、「マルコフモデルと多層パーセブトロン」 と題され、1990年12月のパターン分析および機械知能のIEEE論文誌、 vol、12.No、12のpH67−1178において発表された、エッチ、 ブーラード(H。
Bourlard)及びシー、ジエイ、ウエレケンス(C,J、Welleke ns)の論文に詳細に記載さトワーク(第3図に示されるような)によって推定 され、ここでは出カニニット(117)は、三音声の右側の音素C7と関連付け られており、出力領域は、現在の音響ベクトルXIの要素X++(s≦i≦I) とX、に関連付けられた現在のクラスqKとによって構成されている。
るような第3のニューラルネットワークによって推定され、ここでは出カニニッ トが三音声の左側の音素と関連付けられており、そして入力領域が現在の音響ベ クトルxt、現在のクラスq、及び三音声における右側の音声文脈C′によって 構成されている。
は、第4のニューラルネットワークによって推定され、連付けられており、入力 領域は現在のクラスq、と右側の音素C′とを表している。これは、特定の現ク ラスを与えられた三音声の左部分の特定の音素と右側の音声文脈を観測する先見 確率を与えるものである。
りによって推定され、ここでは出カニニットが三音声の右側の音素C′と関連が あり、入力領域は現在のクラスq、を表している。これは、特定のクラスの右側 の特定の音素を観測する先見確率を与えるものである。このモデルにおいて限定 した数のパラメータを与えれば(即ち、−KxM)、この確率も計数によって推 定することができる(即ちこれはニューラルネットワークを必要としない)。
”p (Qk)は、標準的な混合ANN/HMM音声手法においても用いられて いる、音素の先見確率であり、訓練集合に依存することによって、単純に推定さ れる。
この確率を決定するためには、ニューラルネットワークは不要である。
* p (x+ )は、クラスには独立した一定値であり、したがって分類の目 的には重要ではない。この確率を決定するためには、二且−ラルネットワークは 不要である。
先に説明したように、放出確率の計算は、このように、第1のニューラルネット ワーク及び第2のニューラルネットワークによって行われ、これらは各々前記文 脈的モ限られた訓練集合に対しては、これらの推定は未だ、従来のHMMシステ ムにおいて行われているような、単音モデルによる平滑化を行う必要があり得る 。加えて、cl及びCFが音素ではなく広い音声クラスまたはクラスタを表す場 合、上記結果は「−膜化された三音声Jの推定に適合する。最後に、左側及び右 側の文脈のみが用いられる場合、この技術は2つのネットワーク、単音ネットワ ークと及びその推定p (c lqmSX+ )の1つにのみ有効である。
音声データ(例えばX+)を含む入力領域に文脈情報を供給することもできる。
この場合、X、の確率は、声文脈情報を与えられた三音声確率の推定を行うこと になり、三音声モデルの場合更に重要なものとなる。
先に説明したように、三音声モデルに対する放出確率は、今や想定を全く行わず に計算することができる。しかしながら、各ニューラルネットワークによって行 うべき計算量は大量のままである。例えば、第2のニューラルネットワーク(第 3図)の場合、KxM回の計算が必要である。十分な性能のニューラルネットワ ークが入手可能であれば、これはさほどの問題ではないだろう。
行うへき計算量は、しかしながら、ネットワークの位相に単純な制限を設けるこ とによって、減少することができる。第3図に示すように、ネットワークは、終 端層においてのみ結合されている2つの別個の部分から成っている。入力された 特徴ベクトルX、に適用される計算は、クラスqkに適用されるものから分離さ れたより低い層においてである。この制約か可能なのは、クラスは二進値を有し 有限の状態集合に属するからである。この制約によって、出力に対する文脈の寄 与度を事前に計算することかできる。この計算は、訓練段階の終了時に、パター ン認識に先だって行われる。
るための第2のニューラルネットワークについて考慮すると、ユニット12に入 力される特徴ベクトルxlは、層14の隠れたユニットに供給される。各隠れだ ユニットh(1≦h≦H)は、重み付けされた合計値を与え、ここでfは、標準 S状関数であり、f(x) = 二一一一 1やl−8 であり、d lkは、重み係数である。
次に重み付けされた合計値zhは、次の第1の事前S状値を決定するために設け られたj個の合計ユニットZ、に供給される。
ここでbklは重み係数である。
入力11に供給される状態qh(+≦に≦K)のために、同等の組織を実現する 。隠れた層13が、更に別の重み付けした合計値を決定するために設けられる。
ここで、wk、は訓練された重み係数である。後者の重み付は合計1Ity1は 、次の事前S状値を決定するために設けられたL個の合計ユニットY、(15) に供給される。
ここで、allも、訓練された重み付は係数である。 確するために設けられた 上層17によって決定される。
文脈(C)及び入力特徴ベクトル(Xl)の両方から入力を受け取る隠れたユニ ットがないように全体を分割することによって、簡素化を図ることができる。更 に、文脈モデルCの各々に対して事前S状値Y、は入力された特徴ベクトルとは 独立しているので、全ての可能性のある文脈モデルについて事前S状値を前もっ て計算することができる。それらの事前S状値Y1は、次にメモリについてもは やその事前S状値を計算する必要がないようにする。所定値Y+(qiに対して 適切にアドレスするために、2次元マトリクス組織を選択し、各可能性って、対 応するY、値か得られ、これを次にf (Y+ +Z、)の計算のために用いる 。主要な新たな計算は(単音声の場合と比較して)、単に文脈の寄与度と最終的 S状非線型性の両方に対する探索であり、これは各仮説を立てられた三音声に対 して再計算しなくてはならない。
先に述べた組織は、事前計算の最大の可能性を、事前に計算された値の記憶と共 に与えるものである。しかしなから、事前計算を少なくした別の実施例も可能で あることは、明確であろう。したがって、y、値のみを事前計算し、入力された Ck値によってアドレス可能なメモリにそれらを記憶することも可能である。
ラルネットワークにも適用される。入力されるqk、を前もって計算し、メモリ に記憶することができる。事前S状値 を得るための特徴ベクトルx8の計算は、第3図に関して説明したものに類似し ている。
ここでは、qk値が与えられるユニット20からと同22への入力があるので、 事前S状値Y、(qklylを決定するために設けられたものである。
ここで、fは再び標準S状関数であり、so及びrmlは訓練された重み付は係 数である。そして、事前S状値は、加算器23によって決定される。
式(6)及び(7)から解るように、事前S状値Y。
ており、したかってYlに対してKxM個の値を与える。
メモリに記憶されている事前に決定されたYr (qm、c’)に適切にアドレ スするために、3次元マトリクス連付けられたKxMxM個の値を、KxMxM のマトリこれは1つのマトリクスを与え、そのマトリクスのに番が記憶される。
このように、記憶された値は、事前S状値が記憶されているマトリクス位置を示 すアドレスを共先に説明した組織は、三音声の場合ばかりでなく、所定の文脈モ デルCて条件付けられたクラスqに関する特徴ベクトル(xl)を観測する確率 を計算する、より一般的な文脈においても適用可能なものである。現在のクラス qを特定の隣接した文脈モデルCによって観測する確率を推定するための式は、 このように、確率は、後見確率の積に分解されるのである。これは、KxM個の 出力を育する単一ネットワークの訓練を、それぞれに個及びM個の出力を有する 2つのネットワークの訓練に減少させるのであり、したがって、時間及びパラメ ータに関して潜在的に膨大な節約を可能とするものである。q及びX、の入力間 で隠れたユニットを共用しないと仮定することにより、qから発する出力ベクト ル(事前S状)への寄与度は、q及びCの全ての値に対して前もって計算するこ とが可能となる。
J さ 1.事件の表示 レルナウト アンド ハウスビイ スピーチプロダクツ4−代理人 6−補正により増加する請求項の数 7、補正の対象 明細書、請求の範囲及び要約書間訳文 、++j++W+PCT/BE91100058

Claims (9)

    【特許請求の範囲】
  1. 1.KxM個の出力ユニットを有し、所定の文脈モデル(Cm)によって条件付 けられたクラス(qk)(1≦k≦K)に関する特徴ベクトル(Xt)を観測す る確率を計算するために設けられた人工ニューラルネットワーク組織を備えたパ ターン認識装置であって、前記装置は、データ流を受け取るための入力を有し、 かつ前記データ流をサンプリングすることによってデータサンプルを連続的に取 り込み、データサンプルから前記特徴ベクトル(Xt)を決定するサンプリング 手段を備えており、前記クラスの各々は、統計法則によって支配されているモデ ル(M)の有限集合に属する少なくとも1つのモデルによって表されるものであ り、前記ニューラルネットワーク組織は、K個の出力ユニットを有し、前記観測 されたベクトル(Xt)を与えられた前記クラス(qk)の後見確率を計算する ために設けられた第1のニューラルネットワークと、M個の出力ユニットを有し 、前記クラスによって条件付けられた前記文脈モデルの後見確率を計算するため に設けられた少なくとも1つの他のニューラルネットワークとに分割されている ことを特徴とする、パターン認識装置。
  2. 2.請求項1記載のパターン認識装置であって、前記他のニューラルネットワー クは、各々から独立して第1のZj(Xt)及び第2のYj(c)事前S状出力 値を決定するために設けられたもので、前記第1及び前記第2の事前S状出力値 は、それぞれ入力されたクラスに関する入力された特徴ベクトルを基に決定され 、前記他のニューラルネットワークは、前記事前S状出力値からp(c|qk、 Xt)を決定するために設けられた1組の上位ユニットを備えていることを特徴 とする、パターン認識装置。
  3. 3.請求項2記載のパターン認識装置であって、前記他のニューラルネットワー クは、受け取った特徴ベクトルXtに基づいて値 ▲数式、化学式、表等があります▼ を決定するために設けられた第1の隠れ層を備えており、ここで、djhは重み 付け係数、fはS状関数で1≦h≦H、Hは前記第1の隠れ層内に隠れたユニッ トの総数であり、前記第1の隠れ層は、次の式によって前記第1の事前S状値を 決定するために設けられた合計ユニットと接続されており、 ▲数式、化学式、表等があります▼ ここで、bhjは重み付け係数である、ことを特徴とするパターン認識装置。
  4. 4.請求項2または3記載のパターン認識装置であって、前記他のニューラルネ ットワークは、前記第2の事前S状出力値Yj(c)を記憶するために設けられ たメモリを備えており、前記装置は、更に、受け取ったクラスqkに基づいて、 該クラスqkに割り当てられた第2の事前S状値Yj(c)が記憶されているア ドレスを発生するために設けられたアドレス発生器を備えていることを特徴とす る、パターン認識装置。
  5. 5.請求項2または3記載のパターン認識装置であって、受け取ったクラスqk に基づいて、更なる値▲数式、化学式、表等があります▼ を決定するために設けられた第2の隠れ層を備えており、ここで、Wklは訓練 された重み付け係数、fはS状関数であり、前記第2の隠れ層は、前記第2の事 前S状値▲数式、化学式、表等があります▼ を決定するために設けられたもう1つの合計ニットを接続されており、ここで、 aljは訓練された重み係数で、1≦1≦L、Lは前記第2の隠れた層内にある 隠れたユニットの総数であることを特徴とする、パターン認識装置。
  6. 6.請求項2または3記載のパターン認識装置であって、入力されたクラス(q k)及び文脈モデル(Cm)によって決定される第3の事前S状出力値Yj(q k、Cm)を記憶するために設けられたメモリを備えており、前記事前S状値は KxMxNマトリクスにしたがって記憶可能であり、前記装置は、更に、qk、 mn集合を受け取った時、前記集合に割り当てられた前記第3の事前S状値が記 憶されているアドレスを発生するために設けられたアドレス発生器を備えている ことを特徴とする、パターン認識装置。
  7. 7.請求項1−6のいずれかに記載のパターン認識装置、特に音声認識装置であ って、前記クラス及び前記文脈モデルは、共に三音声(C■、qk、C■)を形 成し、前記第1のネットワークはp(qk|Xt)を計算するために設けられて おり、前記他のネットワークは、p(C■|qk、Xt)、それぞれp(C■| qk、C■、X1)、P(C■|qk、C■)、及びP(C■|qk)を計算す るために設けられた、第2、それぞれ第3、第4及び第5ネットワークを備えて いることを特徴とする、パターン認識装置。
  8. 8.請求項7記載のパターン認識装置であって、前記ネットワークは、 ▲数式、化学式、表等があります▼ を出力するために設けられていることを特徴とする、パターン認識装置。
  9. 9.請求項4または6記載のパターン認識装置において用いられることを意図さ れたメモリであって、前記事前S状値が前記メモリに記憶されることを特徴とす る、メモリ。
JP51351991A 1991-08-19 1991-08-19 文脈依存モデリング用人工ニューラルネットワークを用いたパターン認識装置 Expired - Fee Related JP3168004B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/BE1991/000058 WO1993004468A1 (en) 1991-08-19 1991-08-19 A pattern recognition device using an artificial neural network for context dependent modelling

Publications (2)

Publication Number Publication Date
JPH06502927A true JPH06502927A (ja) 1994-03-31
JP3168004B2 JP3168004B2 (ja) 2001-05-21

Family

ID=3885294

Family Applications (1)

Application Number Title Priority Date Filing Date
JP51351991A Expired - Fee Related JP3168004B2 (ja) 1991-08-19 1991-08-19 文脈依存モデリング用人工ニューラルネットワークを用いたパターン認識装置

Country Status (4)

Country Link
EP (1) EP0553101B1 (ja)
JP (1) JP3168004B2 (ja)
DE (1) DE69126983T2 (ja)
WO (1) WO1993004468A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2078834B1 (es) * 1992-10-30 1997-04-16 Alcatel Standard Electrica Metodo de segmentacion de cadenas de palabras en la fase de entrenamiento de un reconocedor de palabras conectadas.
US9728184B2 (en) 2013-06-18 2017-08-08 Microsoft Technology Licensing, Llc Restructuring deep neural network acoustic models
US9589565B2 (en) 2013-06-21 2017-03-07 Microsoft Technology Licensing, Llc Environmentally aware dialog policies and response generation
US9311298B2 (en) 2013-06-21 2016-04-12 Microsoft Technology Licensing, Llc Building conversational understanding systems using a toolset
US9324321B2 (en) 2014-03-07 2016-04-26 Microsoft Technology Licensing, Llc Low-footprint adaptation and personalization for a deep neural network
US9529794B2 (en) 2014-03-27 2016-12-27 Microsoft Technology Licensing, Llc Flexible schema for language model customization
US9614724B2 (en) 2014-04-21 2017-04-04 Microsoft Technology Licensing, Llc Session-based device configuration
US9520127B2 (en) 2014-04-29 2016-12-13 Microsoft Technology Licensing, Llc Shared hidden layer combination for speech recognition systems
US9384335B2 (en) 2014-05-12 2016-07-05 Microsoft Technology Licensing, Llc Content delivery prioritization in managed wireless distribution networks
US9384334B2 (en) 2014-05-12 2016-07-05 Microsoft Technology Licensing, Llc Content discovery in managed wireless distribution networks
US9430667B2 (en) 2014-05-12 2016-08-30 Microsoft Technology Licensing, Llc Managed wireless distribution network
US10111099B2 (en) 2014-05-12 2018-10-23 Microsoft Technology Licensing, Llc Distributing content in managed wireless distribution networks
US9874914B2 (en) 2014-05-19 2018-01-23 Microsoft Technology Licensing, Llc Power management contracts for accessory devices
US10037202B2 (en) 2014-06-03 2018-07-31 Microsoft Technology Licensing, Llc Techniques to isolating a portion of an online computing service
US9367490B2 (en) 2014-06-13 2016-06-14 Microsoft Technology Licensing, Llc Reversible connector for accessory devices

Also Published As

Publication number Publication date
WO1993004468A1 (en) 1993-03-04
EP0553101B1 (en) 1997-07-23
EP0553101A1 (en) 1993-08-04
JP3168004B2 (ja) 2001-05-21
DE69126983T2 (de) 1998-03-05
DE69126983D1 (de) 1997-09-04

Similar Documents

Publication Publication Date Title
Sun et al. Voice conversion using deep bidirectional long short-term memory based recurrent neural networks
Li et al. Comparison of discriminative input and output transformations for speaker adaptation in the hybrid NN/HMM systems.
JP2022531574A (ja) 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム
Chavan et al. An overview of speech recognition using HMM
JPH06502927A (ja) 文脈依存モデリング用人工ニューラルネットワークを用いたパターン認識装置
Sadhu et al. Continual Learning in Automatic Speech Recognition.
US5734793A (en) System for recognizing spoken sounds from continuous speech and method of using same
CN112927707A (zh) 语音增强模型的训练方法和装置及语音增强方法和装置
Hwang et al. LP-WaveNet: Linear prediction-based WaveNet speech synthesis
Stephenson et al. Speech recognition with auxiliary information
Zöhrer et al. Representation learning for single-channel source separation and bandwidth extension
CN111666996B (zh) 一种基于attention机制的高精度设备源识别方法
Xie et al. Deep Neural Network Based Acoustic-to-Articulatory Inversion Using Phone Sequence Information.
López-Espejo et al. Improved external speaker-robust keyword spotting for hearing assistive devices
Khademian et al. Monaural multi-talker speech recognition using factorial speech processing models
Gas Self-organizing multilayer perceptron
Doulaty et al. Automatic optimization of data perturbation distributions for multi-style training in speech recognition
JP2003524792A (ja) 音声認識システムと方法
Prabhavalkar et al. A factored conditional random field model for articulatory feature forced transcription
Chang et al. On the importance of modeling and robustness for deep neural network feature
Roy et al. Pathological voice classification using deep learning
Chen et al. Voice conversion using generative trained deep neural networks with multiple frame spectral envelopes.
Abumallouh et al. Deep neural network combined posteriors for speakers' age and gender classification
Hochberg et al. Connectionist model combination for large vocabulary speech recognition
Chakrabartty et al. Robust speech feature extraction by growth transformation in reproducing kernel Hilbert space

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees