JP2545982B2 - パターン認識方法および標準パターン学習方法 - Google Patents

パターン認識方法および標準パターン学習方法

Info

Publication number
JP2545982B2
JP2545982B2 JP1117706A JP11770689A JP2545982B2 JP 2545982 B2 JP2545982 B2 JP 2545982B2 JP 1117706 A JP1117706 A JP 1117706A JP 11770689 A JP11770689 A JP 11770689A JP 2545982 B2 JP2545982 B2 JP 2545982B2
Authority
JP
Japan
Prior art keywords
pattern
vector
prediction
input
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP1117706A
Other languages
English (en)
Other versions
JPH02296298A (ja
Inventor
健一 磯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP1117706A priority Critical patent/JP2545982B2/ja
Priority to DE69029425T priority patent/DE69029425T2/de
Priority to CA002016342A priority patent/CA2016342C/en
Priority to EP90108724A priority patent/EP0397136B1/en
Priority to CA002109916A priority patent/CA2109916C/en
Publication of JPH02296298A publication Critical patent/JPH02296298A/ja
Application granted granted Critical
Publication of JP2545982B2 publication Critical patent/JP2545982B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は音声信号などのように特徴ベクトルの時系列
として表されるパターンを認識するパターン認識方法に
関する。
(従来の技術) 音声などのベクトル時系列を認識する方式として、隠
れマルコフモデル(以下、「HMM」と略記する)がよく
知られている。HMMではベクトル時系列がマルコフ確率
過程によって生成されたとしてモデル化している。HMM
の標準パターンは複数の状態とその状態間の遷移で表さ
れており、各状態はあらかじめ決められた確率分布に従
ってパターンベクトルを出力し、状態間の遷移にはあら
かじめ決められた遷移確率が付随している。入力パター
ンと標準パターンの間の距離は、標準パターンであるマ
ルコフ確率モデルが入力パターンベクトル列を生成する
尤度によって与えられる。HMMの詳細に関しては「確率
モデルによる音声認識」(電子情報通進学会編、中川聖
一著、1988年)に解説されている。
(発明が解決しようとする問題点) HMMはパターンベクトル系列がマルコフ確率過程に従
って生成されたことを仮定してモデル化を行なっている
ために、パターンベクトル系列のベクトル間の時間的相
関は隣接フレーム間の相関だけしか考慮されていない。
したがって、音声パターンなどにおける時間的に離れた
相関、たとえば、発声の前半部の発声速度と後半部の発
声速度の間の相関などを直接モデル化することは困難で
ある。
またHMMは「パターンベクトル系列の時間的な構造」
と「各ベクトルのベクトル空間内の分布」を独立にモデ
ル化しているために、音声パターンなどにおける発声の
時間的構造と各時点のスペクトルパターンベクトルの間
の相互依存性(相関)を考慮にいれたモデル化を行なう
ことが難しい。
本発明の目的は認識対象とするパターンベクトル系列
の時間構造における任意の長さの時間的相関と、時間構
造と各ベクトルのベクトル空間内の分布の間の相関を取
り入れることができるような表現能力の高い標準パター
ンのモデルを用いたパターン認識方法と、学習用のパタ
ーンベクトル系列から自動学習によって標準パターンモ
デルを構築することができるような学習方法を提供する
ことにある。
(問題点を解決するための手段) 本発明は音声などのように特徴ベクトルの時系列とし
て表されたパターンを認識するパターン認識方法で、各
認識対象カテゴリ毎に順序づけられた状態モデルから構
成される標準パターンを有し、各状態モデルは固定長の
パターンベクトル列と過去の予測の際に出力された状態
ベクトルを入力として予測パターンベクトルと新しい状
態ベクトルを出力する機能を有し、認識時には入力パタ
ーンを部分的に分割して前記状態モデルを各部分列に割
り当てて、各部分列の始点から順次固定長のパターンベ
クトル列を切り出して割り当てられた状態モデルに入力
して予測パターンベクトル部分列を算出し、各状態モデ
ルによる予測パターンベクトル部分列を連結して得られ
る予測パターンベクトル系列と入力パターンベクトル系
列の間の予測誤差を最小にするような入力パターンの部
分列への分割を選び出し、その時の予測誤差を入力パタ
ーンと該標準パターンとの距離とすることを特徴とす
る。
標準パターンを学習により構成する標準パターン学習
方法は、状態モデルのパラメータの初期値を設定し、カ
テゴリ既知の学習パターンと同カテゴリの標準パターン
の間の予測誤差を認識時と同様の手順で算出し、この予
測誤差を必ず減少させる方向に各状態モデルのパタメー
タを微小量修正する機能を有し、予測誤差の算出とパラ
メータの修正を繰り返し行なうことにより標準パターン
を作成することを特徴とする。
(作用) 本発明のパターン認識方法および標準パターン学習方
法では、各認識対象カテゴリの標準パターンは順序づけ
られた複数の状態モデルから構成されている。基本単位
となる状態モデルは固定長のパターンベクトル列と過去
の予測のときに出力された状態ベクトルを入力として、
予測パターンベクトルと新しい状態ベクトルを出力す
る。この状態モデルは一種の予測器として動作し、時刻
tまでの入力パターンベクトル系列から次の時刻t+1
に出現すべきパターンベクトルと予測して出力する。さ
らにより良い予測を行なうために複数の予測器を予測誤
差が最小になるように動的計画法などを用いて適応的に
切り替えて、最適な予測を行なう。認識には入力パター
ンベクトル列と入力パターンベクトル列から予測された
予測パターンベクトル列の間の予測誤差(2乗距離な
ど)を距離として用いる。標準パターンの学習は予測誤
差を評価関数とした最急降下法を用いて行なう。
以下に本発明のパターン認識方法および標準パターン
学習方法の詳細を説明する。説明では音声パターンを認
識する場合を中心に議論することにする。その他の時系
列パターンに対しても音声パターンの部分をパターンベ
クトル列に読み変えれば同様に適用できる。
基本単位となる状態モデル(予測器)は時刻tまでの
入力音声の特徴ベクトル系列(a1a2…at)から次の時刻
t+1に出現するべき特徴ベクトルAt+1を予測する。過
去の特徴ベクトルの履歴を予測器に与える方法としては
入力音声から切り出した過去の固定長の特徴ベクトル列
を入力するFIRフィルタ的な方法と、これにさらフィー
ドバックを導入して等価的に無限の過去の特徴ベクトル
を入力するIIRフィルタ的な方法とがある。FIRフィルタ
的な状態モデルはIIRフィルタ的な状態モデルにおい
て、フィードバックのパタラメータを0にした特別な場
合と考えられるので以下ではIIRフィルタ的な状態モデ
ル(予測器)に関して説明する。
単語s(s=1,…,S)の標準パターンモデルの第n番
目の状態モデル(n=1,…,Ns)の特性は次式で与えら
れる。
ここで、At+1(s,n)は時刻t+1の予測ベクトルh
t+1(s,n)は時刻t+1の予測At+1(s,n)の際に出力
された状態ベクトル、f(・)、g(・)はそれぞれパ
ラメータX,Yによって特徴づけられる非線形のベクトル
値関数である。ここでX,Yはそれぞれ複数のパラメータ
を代表して表している。予測に用いる固定長のベクトル
列として表記を簡単にするために上式では1フレーム分
のベクトルatだけを与えているが、ここに3フレームの
ベクトル(at-2at-1at)を与えることも可能で、本方法
は複数フレームにしても全く同様に適用することができ
る。
また、状態モデルとして再帰型ニューラルネットワー
ク(「PDPモデル」産業図書、1989年、357頁に解説があ
る)を用いる場合は状態モデルの特性は次式で与えられ
る。
ここでf(・)は引き数のベクトルの各成分にシグモ
イド関数を適用して得られるベクトル、U(s,n),V
(s,n),W(s,n)はニューラルネットワークのユニット
間結合係数行列で、式(1)のパラメータX,Yに対応し
ており、式(2)は式(1)の特別な場合であることは
容易にわかる。この場合状態ベクトルht+1(s,n)はニ
ューラルネットワークの隠れ層の出力値の組に対応す
る。第1図に再帰型ニューラルネットワークを用いた状
態モデルを示す。
式(1)または(2)におては、入力に1フレーム前
の予測の際に出力された状態ベクトルht(s,n)を与え
ることによってフィードバックを実現しており、状態ベ
クトルht(s,n)を介して、予測には時刻t以前の無限
の過去のベクトル系列が反映されている。以下では表記
を簡単にするために式(2)で表される状態モデル(再
帰型ニューラルネットワーク)を用いた場合に関して説
明するが、より一般的な式(1)の場合も以下の説明は
全く同様に成り立つ。
式(1)で定義される状態モデルの集合で表される標
準パターン(単語モデル)を用いて未知入力音声を認識
するアルゴリズムを述べる。未知入力音声を分析して得
られる長さTの特徴ベクトル系列をa1,a2,…aTとする。
このとき入力音声と単語sのモデルの間の距離D(s)
を次式で定義する。
ここで記号||・||はベクトルのノルム、n(t)は長
さTの入力音声をNs個の状態で分担して予測する際の分
割を定めるものでn(t)は時刻tの予測に使われる状
態の番号n(n=1…Ns)を表している。このn(t)
は次の条件を満たす単調非減少関数である。
式(3),(4)を満足するようなn(t)は第2図
の平面上での動的計画法(DPマッチング、文献「確率モ
デルによる音声認識」前出に詳しい)で容易に求めるこ
とができる。
しかしここでDPパス1に対応する状態間の遷移が生じ
たときの境界点(第2図の で表された格子点)での処理には注意を要する。即ち各
状態は独立した予測器であるが、予測のために1フレー
ム前の時点での状態ベクトルを必要とするので、状態間
の遷移が生じた場合はその境界点でどちらの状態の状態
ベクトルを用いるのかあらかじめ定めておかなければな
らない。以下の説明では、接続される可能性のあるすべ
ての状態の状態ベクトルの次元数を等しくしておき、境
界点では1フレーム前の予測の際に出力された状態ベク
トルをそのまま用いることにする。
次に境界点処理も含めた基本的な認識アルゴリズムを
示しておく。
・初期条件(t=1) H1(s,1)=f(U(s,1)a1) ……(A1) A1(s,1)=f(W(s,1)H1(s,1)) ……(A2) g(s,1,1)=||A1(s,1)−a1||2 ……(A3) ・漸化式(1<t≦T,p=(0,1)) ht(s,n,p)=f(U(s,n)at-1+V(s,n)Ht-1(s,n
−p)) ……(B1) At(s,n,p)=f(W(s,n)ht(s,n,p)) ……(B2) d(s,t,n,p)=||At(s,n,p)−at||2 ……(B3) g(s,t,n,p)=[d(s,t,n,p)+g(s,t,n−p)]
……(B4) g(s,t,n)=minp=(0,1)[g(s,t,n,p)]……(B
5) P=argminp[g(s,t,n,p)] ……(B6) Ht(s,n)=ht(s,n,p) ……(B7) ・認識結果σ D(s)=g(s,T,Ns) ……(C1) σ=argmins[D(s)] ……(C2) 時刻t=1では過去の情報はないのでここでは入力a1
から同じ時刻の予測ベクトルA1(s,1)を予測してい
る。これは入力a1のコピーをa0としているのと同じこと
である。g(s,1,1)は始端格子点(t,n)=(1,1)で
の累積距離である。
漸化式において変数pはDPパスを表し、p=0がパス
0、p=1がパス1を表している。各格子点(t,n)で
はパス0とパス1のそれぞれに対応する隠れユニットの
出力ht(s,n,p)を算出し、対応する予測ベクトルA
t(s,n,p)とその入力特徴ベクトルatとの間の距離d
(s,t,n,p)をそれぞれ計算しておき、DP漸化式(B
4),(B5)によって最適なDPパスPと累積距離g(s,
t,n)を求める。また最適経路上の予測に用いられた状
態ベクトルht(s,n,P)を格子点(t,n)における状態ベ
クトルHt(s,n)として格納する。
認識はg(s,t,Ns)を単語sと力音声の間の距離D
(s)として、認識対象単語の中で最小の距離を与える
単語σを認識結果とする。
また以上の説明から知れるように本方法では、隣接す
る状態モデルの間に直接の依存性がないために、複数の
標準パターンを連結して新たな標準パターンとして連続
音声を認識することが可能である。さらにこの場合、累
積結果を入力音声のフレームに同期して計算でき、累積
距離がフレーム数の増加に関して加法的に増加するの
で、有限状態オートマトン制御クロック同期伝播型DP法
(「クロック同期伝播DP法による連続音声認識の検討」
追江、亘理、音声研究会資料S81−65、1981年12月)を
用いて連続音声認識を非常に効率よく行なうことが可能
になる。
次に標準パターンのモデルを学習によって自動的に構
築する標準パターン学習方法について説明する。単語s
のモデルをMs個の学習用音声(単語sのMs回発声m=1
…Ms)から学習するアルゴリズムは次の通りである。モ
デルのパラメータ(ニューラルネットワークの場合はユ
ニット間結合行列、閾値など)はあらかじめ乱数などで
初期化しておく。学習は最急降下法(岩波講座情報科学
「最適化」1982年)によるパラメータの繰り返し修正に
よって行なう。k回目の繰り返しにおけるパラメータの
修正前の平均の予測誤差Dk(s)を次式で定義する。
ここでAt(s,n(t),m,k)は単語sのm番目の学習
データ(a1(m)…aTm(m))を入力として、単語s
のn(t)番目の状態モデルが出力した予測ベクトルで
ある。平均予測誤差を減少させるためには、式(7)の
計算から得られる最適なDP経路上(学習データパターン
系列の最適な分割n(t)上)で最急降下法を行なえば
良い。すなわち、各状態モデルの出力ベクトルAt(s,n
(t),m,k)に対して、教師信号ベクトルat(m)とし
て、2つのベクトル間の誤差(2乗距離など)を減少さ
せるように最急降下法によってパラメータを微小量修正
する。パラメータXの修正量δXは次式で与えられる。
ここでδは微小な正の定数である。状態モデルとして
再帰型ニューラルネットワークを用いた場合は、この最
急降下法はバックプロパゲーション学習(「PDPモデ
ル」前出)と完全に一致する。パラメータの微小量修正
の後に上記のDP経路n(t)上での平均予測差の値をD
k,bp(s)とすると、最急降下法の性質上必ず平均予測
誤差は減少しているはずである。
Dk(s)≧Dk,bp(s) (8) この時点ではモデルのパラメータが修正されたために
修正前と同じDP経路n(t)は最適な経路(最小の予測
誤差を与える経路)ではなくなっている。そこでk+1
回目の繰り返しにおけるパラメータ修正前の平均予測誤
差Dk+1(s)を計算すると修正されたパラメータに関す
る最適なDP経路が求められる。DPの最適性から次式が成
り立つ。
k,bp(s)≧Dk+1(s) (9) よって以上の式(8)−(9)から、繰り返し学習に
よって平均予測誤差は必ず減少することがわかる。
Dk+1(s)≦Dk(s) (10) このように学習の最適性が保証されるのは、予測誤差
と状態モデルの出力の誤差が同じ2次形式で、DPマッチ
ングとバックプロパゲーション学習がそれぞれこの誤差
を減少させるように働くからである。
また誤認識を減少させるために有効な学習法(反例学
習と呼ぶことにする)として、標準パターンの属するカ
テゴリとは異なるカテゴリの学習パターンを用いて、式
(7)のパラメータ修正量δXの符号を反転させること
を除いて上記と同様の繰り返し学習を行なうことによっ
て、異なるカテゴリの入力音声に対しては予測誤差が大
きくなるような標準パターンを構成することが可能であ
る。
以上述べたように本発明によれば、状態ベクトルを介
したフィードバックを導入したことにより、認識対象と
するパターンベクトル系列の時間構造における任意の長
さの時間的相関をモデル化することができるようにな
る。また状態モデルが状態ベクトルと固定長パターンベ
クトルを一つの非線形関数への入力として処理を行なう
ため、パターンベクトル系列内の時間構造と各ベクトル
空間内の構造の間の相関もモデル内に表現することが可
能となる。さらに上記の最急降下法に基づく標準パター
ン学習方式により学習用のパターンベクトル系列から自
動学習によって標準パターンモデルを構築することがで
きるようになる。
(実施例) 第3図は本発明のパターン認識方法による認識のフロ
ーチャートを示すもので、長さTの入力パターンベクト
ル系列および、標準パターンモデルのパラメータは外部
から与えられているとする。このフローチャートは作用
の中で説明した認識アルゴリズム(以下認識アルゴリズ
ムと呼ぶ)を具体化したものであり、変数などの表記は
そこで与えたものに従うことにする。以下流れに沿って
説明する。
ステップ101から103でカウンターの初期設定を行な
う。ステップ104は入力パターンの始端点を検出し、始
点であればステップ109に、そうでなければステップ105
へ分岐する。ステップ109で認識アルゴリズムの中の初
期条件の式(A1)から(A3)の計算を行なう。ステップ
105ではDPパスを示す変数pを0にして(DPパス0に対
応)、ステップ106で認識アルゴリズムの中の漸化式の
式(B1)から(B4)の計算を行なう。ステップ107でp
を1増やして、pが1を超えるまでふたたびステップ10
6で漸化式計算を行なう。ステップ110では2つのDPパス
p=0とp=1に対応する累積距離の値を比較して、ス
テップ111〜112で小さい方のDPパスを最適パスPとす
る。ステップ113では最適DPパス上の累積距離おおび状
態ベクトルを設定する(認識アルゴリズムの中の漸化始
の式(B5),(B7)に対応)。ステップ114で状態番号
nをインクリメントし、単語sの終状態Nsに達していな
ければに戻って繰り返し計算を続ける。
ステップ116では単語番号sをインクリメントし、単
語数の最大値Sに達していなければに戻って繰り返し
計算を続ける。ステップ118ではフレーム番号tをイン
クリメントし、入力パターンの終端点に達していなけれ
ばに戻って計算を続ける。入力パターンの終端点に達
していれば、ステップ120で認識アルゴリズムの中の認
識結果の式(B1),(B2)に従って認識結果を選出す
る。
このフローチャートより明らかなようにステップ101
から119までの間の処理はすべて入力パターンの1フレ
ーム内で行なうことができるので、入力パターンの時間
軸に沿ってフレームに同期して処理を進めることができ
る。このことを利用すれば、音声認識などで発声が終ら
ない内に処理を進めることができ、原理的には発声が終
わってから終端点の1フレーム分だけの処理時間で認識
を行なうことができ、実時間性に優れた認識システムを
構築することができる。
また連続音声認識を実現するためには標準パターンと
して、複数のカテゴリの標準パターンを並べたパターン
を連結標準パターンとして用いて、上記の認識処理を行
ない、予測誤差が最小になる連結標準パターンを認識結
果とする。
第4図は本発明の標準パターン学習方法による学習の
フローチャートを示したものである。以下処理の流れに
沿って説明する。ステップ401はモデルのパラメータを
初期設定する。ステップ402から404はカウンターを初期
化している。kは繰り返し学習の回数を表すカウンター
で1からKまで、sは単語番号で1からSまで、mは学
習データの番号で1からMsまでの値をとる。ステップ40
5では学習回数k回目で単語sのm番目のデータに対す
る予測誤差Dk(s,m)を減少させるように最急降下法で
モデルパラメータδXの修正量を算出する。ステップ40
6は前記修正量に従ってパラメータを修正する。ステッ
プ407から412は繰り返し計算のカウンターのインクリメ
ントおよび繰り返しの終了判定を行なう。
反例学習を行なう場合には、第4図のステップ405で
計算される修正量の符号を反転すればよい。
(発明の効果) 以上述べたように本発明によれば、認識対象とするパ
ターンベクトル系列の時間構造における任意の長さの時
間的相関と、時間構造と各ベクトル空間内の構造の間の
相関を考慮した表現能力の高い標準パターンのモデルを
用いたパターン認識方法と、学習用のパターンベクトル
系列から自動学習によって標準パターンモデルを構築す
ることができるような学習方法を提供することができ
る。
【図面の簡単な説明】
第1図は再帰型ニューラルネットワークによる状態モデ
ルの構成例を示す図、第2図は単語標準パターンと入力
パターンの間の予測誤差の算出に動的計画法(DPマッチ
ング)を用いる際のマッチング平面を示した図、第3図
は本発明のパターン認識方法によって時系列パターンを
認識するためのフローチャートを示す図、第4図は本発
明の標準パターン学習方法によって学習データから標準
パターンを自動作成するためのフローチャートを示す図
である。

Claims (7)

    (57)【特許請求の範囲】
  1. 【請求項1】特徴ベクトルの時系列として表されたパタ
    ーンを認識するパターン認識方法で、各認識対象カテゴ
    リ毎に順序づけられた状態モデルから構成される標準パ
    ターンを有し、各状態モデルは固定長のパターンベクト
    ル列と過去の予測の際に出力された状態ベクトルを入力
    として予測パターンベクトルと新しい状態ベクトルを出
    力する機能を有し、認識時には入力パターンを部分列に
    分割して前記状態モデルを各部分列に割り当てて、各部
    分列の始点から順次固定長のパターンベクトル列を切り
    出して割り当てられた状態モデルに入力して予測パター
    ンベクトル部分列を算出し、各状態モデルによる予測パ
    ターンベクトル部分列を連結して得られる予測パターン
    ベクトル系列と入力パターンベクトル系列の間の予測誤
    差を最小にするような入力パターンの部分列への分割を
    選び出し、その時の予測誤差を入力パターンと該標準パ
    ターンとの距離とすることを特徴とするパターン認識方
    法。
  2. 【請求項2】請求項1記載のパターン認識方法におい
    て、動的計画法を用いて予測誤差を最小にするような入
    力パターンの部分列への分割を選び出すことを特徴とす
    るパターン認識方法。
  3. 【請求項3】請求項1記載のパターン認識方法におい
    て、状態モデルとして複数のパラメータによって特徴づ
    けられる非線形関数を用いることを特徴とするパターン
    認識方法。
  4. 【請求項4】請求項3記載のパターン認識方法におい
    て、非線形関数として再帰型のニューラルネットワーク
    モデルを用いることを特徴とするパターン認識方法。
  5. 【請求項5】請求項3記載のパターン認識方法における
    状態モデルを学習により構成する標準パターン学習方法
    で、状態モデルのパラメータの初期値を設定し、カテゴ
    リ既知の学習パターンと同カテゴリの標準パターンの予
    測誤差を認識時と同様の手順で算出し、この予測誤差を
    必ず減少させる方向に各状態モデルのパラメータを微小
    量修正する機能を有し、予測誤差の算出とパラメータの
    修正を繰り返し行うことを特徴とする標準パターン学習
    方法。
  6. 【請求項6】請求項3記載のパターン学習方法における
    状態モデルを学習により構成する標準パターン学習方法
    で、状態モデルのパラメータの初期値を設定し、標準パ
    ターンの学習の際に該標準パターンとは異なるカテゴリ
    の学習パターンとの間の予測誤差を認識時と同様の手順
    で算出し、この予測誤差を必ず増加させる方向に各状態
    モデルのパラメータを微小量修正する機能を有し、予測
    誤差の算出とパラメータの修正を繰り返し行うことを特
    徴とする標準パターン学習方法。
  7. 【請求項7】特徴ベクトルの時系列として表された音声
    パターンを認識する連続音声認識方法で各認識対象カテ
    ゴリ毎に順序づけられた状態モデルから構成される標準
    パターンを有し、各状態モデルは固定長のパターンベク
    トル列と過去の予測の際に出力された状態ベクトルを入
    力として予測パターンベクトルと新しい状態ベクトルを
    出力する機能を有し、認識時には複数の標準パターンを
    並べて連結標準パターンとし、入力パターンを部分列に
    分割して前記連結標準パターンの状態モデルを各部分列
    に割り当てて、各部分列の始点から順次固定長のパター
    ンベクトル列を切り出して割り当てられた状態モデルに
    入力して予測パターンベクトル部分列を算出し、各状態
    モデルによる予測パターンベクトル部分列を連結して得
    られる予測パターンベクトル系列と入力パターンベクト
    ル系列の間の予測誤差を最小にするような入力パターン
    の部分列への分割を選び出し、その時の予測誤差を入力
    パターンと該連結標準パターンとの距離とすることを特
    徴とするパターン認識方法。
JP1117706A 1989-05-10 1989-05-10 パターン認識方法および標準パターン学習方法 Expired - Lifetime JP2545982B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP1117706A JP2545982B2 (ja) 1989-05-10 1989-05-10 パターン認識方法および標準パターン学習方法
DE69029425T DE69029425T2 (de) 1989-05-10 1990-05-09 Einrichtung zur Mustererkennung unter Anwendung von durch Zustandsmodelle bestimmten Bezugsmustern
CA002016342A CA2016342C (en) 1989-05-10 1990-05-09 Pattern recognition method by using reference patterns each of which is defined by state models
EP90108724A EP0397136B1 (en) 1989-05-10 1990-05-09 Pattern recognition method by using reference patterns each of which is defined by state models
CA002109916A CA2109916C (en) 1989-05-10 1990-05-09 Pattern recognition method by using reference patterns each of which is defined by state models

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1117706A JP2545982B2 (ja) 1989-05-10 1989-05-10 パターン認識方法および標準パターン学習方法

Publications (2)

Publication Number Publication Date
JPH02296298A JPH02296298A (ja) 1990-12-06
JP2545982B2 true JP2545982B2 (ja) 1996-10-23

Family

ID=14718296

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1117706A Expired - Lifetime JP2545982B2 (ja) 1989-05-10 1989-05-10 パターン認識方法および標準パターン学習方法

Country Status (4)

Country Link
EP (1) EP0397136B1 (ja)
JP (1) JP2545982B2 (ja)
CA (1) CA2016342C (ja)
DE (1) DE69029425T2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5696877A (en) * 1990-05-10 1997-12-09 Nec Corporation Pattern recognition using a predictive neural network
JP2979711B2 (ja) * 1991-04-24 1999-11-15 日本電気株式会社 パターン認識方式および標準パターン学習方式
JPH0776880B2 (ja) * 1993-01-13 1995-08-16 日本電気株式会社 パターン認識方法および装置
US20220004025A1 (en) * 2018-11-15 2022-01-06 Essilor International A method and system for determining parameters used to manufacture an optical article and a corresponding optical article
CN110532646B (zh) * 2019-08-09 2023-05-02 北京工商大学 基于自适应动态规划的湖库蓝藻水华预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
電子情報通信学会技術研究報告平成元年6月,SP89−23,P.81〜87

Also Published As

Publication number Publication date
JPH02296298A (ja) 1990-12-06
DE69029425D1 (de) 1997-01-30
EP0397136A3 (en) 1992-09-23
DE69029425T2 (de) 1997-04-03
EP0397136A2 (en) 1990-11-14
CA2016342A1 (en) 1990-11-10
EP0397136B1 (en) 1996-12-18
CA2016342C (en) 1994-04-26

Similar Documents

Publication Publication Date Title
CN103049792B (zh) 深层神经网络的辨别预训练
EP0510632B1 (en) Speech recognition by neural network adapted to reference pattern learning
CN107615308B (zh) 循环神经网络的学习方法及用于该学习方法的计算机程序、和声音识别装置
US5317673A (en) Method and apparatus for context-dependent estimation of multiple probability distributions of phonetic classes with multilayer perceptrons in a speech recognition system
JP2964507B2 (ja) Hmm装置
US8554555B2 (en) Method for automated training of a plurality of artificial neural networks
JP7055630B2 (ja) 音声認識のための学習方法、学習装置、コンピュータプログラム及び記憶媒体
EP0623914B1 (en) Speaker independent isolated word recognition system using neural networks
JP3003276B2 (ja) 信号解析装置
CN108630198B (zh) 用于训练声学模型的方法和设备
JPH0355837B2 (ja)
CN111354333B (zh) 一种基于自注意力的汉语韵律层级预测方法及***
US5737486A (en) Pattern recognition method by using reference patterns each of which is defined by predictors
JP5060006B2 (ja) 音声認識システムの自動的再学習
KR20190045038A (ko) 음성 인식 방법 및 장치
WO2019138897A1 (ja) 学習装置および方法、並びにプログラム
CN112990444A (zh) 一种混合式神经网络训练方法、***、设备及存储介质
US6173076B1 (en) Speech recognition pattern adaptation system using tree scheme
CN116682399A (zh) 一种音乐生成方法、***、电子设备及介质
JP2545982B2 (ja) パターン認識方法および標準パターン学習方法
JP2000298663A (ja) ニューラルネットワークを用いた認識装置およびその学習方法
JPH06208392A (ja) パターン認識方法および装置
JP3589044B2 (ja) 話者適応化装置
JP2023075883A (ja) 音声認識装置およびプログラム
JP2001188557A (ja) 最大エントロピ音声モデルの生成方法

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070808

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080808

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080808

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090808

Year of fee payment: 13

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090808

Year of fee payment: 13