JP3050934B2

JP3050934B2 - 音声認識方式

Info

Publication number: JP3050934B2
Application number: JP3058797A
Authority: JP
Inventors: 恒雄新田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1991-03-22
Filing date: 1991-03-22
Publication date: 2000-06-12
Anticipated expiration: 2015-06-12
Also published as: DE69220825D1; EP0504927A3; EP0504927A2; EP0504927B1; JPH04293096A; DE69220825T2; US5649056A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、発声された音声を高精
度に認識することのできる音声認識方式に関する。

【０００２】

【従来の技術】近年、音声を認識する方式において、音
声を一定のシンボル系列に変換（これをベクトル量子化
と呼ぶ）し、シンボル系列の遷移として音声をモデル化
するＨＭＭ（hidden markov model)を利用した認識方式
が成功を収めている。音声をシンボルに変換する際に参
照するテーブルは、符号帳と呼ばれている。また、ＨＭ
Ｍは、複数の状態をもつ遷移ネットワークで表わされ、
各状態ごとにシンボルの出現確率と状態間の遷移確率が
埋め込まれている。

【０００３】符号帳が定常的な係数（例えば、スペクト
ルやケプストラム）を使用している場合、音声事象はＨ
ＭＭ中に埋め込まれた状態の情報にのみ依存する（１つ
の状態の中では、時間関係がなくなる）。このため、Δ
ケプストラムのような微分情報が導入されている。すな
わち、音声は、スペクトル（またはケプストラム）だけ
でなく、それらの時間変化を考慮してシンボル系列に置
換える方法が採用されている。しかし、このように多く
の次元を持つ符号帳では、量子化の際の歪が非常に大き
くなる。このため、パラメータ空間を分割して（上記例
では、スペクトルとその時間変化情報を分離して）、次
元数を減らした複数の符号帳が用いられている。

【０００４】これらの方法に対して、スペクトル（もし
くはケプストラム）の時系列、すなわち、２次元パター
ンを直接、量子化する方法があり、マトリクス量子化と
呼ばれている。マトリクス量子化は、音声パターンを近
似なしに直接扱える長所を持つ反面、量子化歪が増大す
る。そこで、量子化の際に統計的手法を用いて、歪を減
らす方法が提案されている。

【０００５】しかしこのような方法を用いても、音声を
量子化する際の歪がいまだ大きく、さらに歪を低減する
手段が望まれている。これを解決するには、音声スペク
トル（もしくはケプストラム）をシンボルに置換えずに
（量子化せずに）、直接ＨＭＭの中でこれを表現すれば
良い。このような方法は、量子化を伴なう「離散ＨＭ
Ｍ」に対して「連続ＨＭＭ」と呼ばれている。連続ＨＭ
Ｍは、一般に厖大な計算を必要としている。これは、Ｈ
ＭＭへの入力ベクトル系列から、各状態に対応する共分
散行列を求め、認識の際に入力ベクトルと共分散行列と
の積を計算しなければならないからである。

【０００６】

【発明が解決しようとする課題】音声をＨＭＭで表現す
る場合、その単位は音素、音節、単語、文節、あるいは
文等、種々考えられるが、認識の際に入力音声とそのモ
デルがよく一致すること、すなわち、歪が少ないこと
が、全てに共通して大切なことである。上述したよう
に、音声スペクトルの時間変化を含む２次元パターンを
直接ＨＭＭの入力とする、連続ＨＭＭが、性能的に最も
優れている。しかし、この方法は、厖大な計算を必要と
するため実用化が難しいという問題があった。そこで、
本発明は、発声された音声を高精度に認識することがで
き、しかも、演算処理が厖大化することもない音声認識
方式を提供することを目的とする。

【０００７】

【課題を解決するための手段】本発明の音声認識方式
は、入力される音声信号を音響分析することにより特徴
パラメータを求める音響分析手段と、この音響分析手段
により求められた特徴パラメータと予め定められた所定
の音声セグメント単位の符号帳との間でマトリクス量子
化処理を行なうことにより音声セグメント類似度系列を
求めるマトリクス量子化手段と、このマトリクス量子化
手段により求められた音声セグメント類似度系列を音素
特徴ベクトルに統合変換する統合変換手段と、この統合
変換手段により統合変換された音素特徴ベクトルを一定
の単位毎に作成されたＨＭＭ（hidden markov model)を
用いて照合することにより認識処理を行なう認識手段と
を具備している。

【０００８】

【作用】入力される音声信号を音響分析することにより
特徴パラメータを求め、この求めた特徴パラメータと予
め定められた所定の音声セグメント単位の符号帳との間
でマトリクス量子化処理を行なうことにより音声セグメ
ント類似度系列を求め、この求めた音声セグメント類似
度系列を音素特徴ベクトルに統合変換し、この統合変換
された音素特徴ベクトルを一定の単位毎に作成されたＨ
ＭＭを用いて照合することにより、高精度の認識処理を
行なうものである。

【０００９】

【実施例】以下、本発明の一実施例について図面を参照
して説明する。

【００１０】図１は、本発明に係る音声認識方式が適用
される音声認識装置を概略的に示すものである。本発明
では、音声学的に意味のあるセグメント（Phonetic Seg
ment；以下ＰＳと記述する）を量子化の単位とし、この
ＰＳの類似度（距離）系列を一旦、音素に統合変換した
後、音素特徴ベクトル系列をＨＭＭ単語照合部に送る。

【００１１】ここまでの処理を以下に更に詳しく説明す
る。まず、音響分析部１１にて、入力される音声信号
を、例えばＬＰＣ（リニア・プレディクティブ・コーデ
ィング）分析もしくはＢＰＦ（バンドパス・フィルタ）
分析する。具体的には、例えば入力音声を図示されない
Ａ／Ｄ変換器を用いて、サンプリング周波数が１２ＫＨ
ｚ、１２ビットで量子化した後、フレーム長が２４mse
c、フレーム周期が８msecで、１６次程度のＬＰＣ（メ
ル）ケプストラムを求める。分析された特徴パラメータ
は、マトリクス量子化部１２に与えられ、ＰＳ符号帳１
３に登録されている所定のＰＳ単位の音声辞書との間
で、時間軸方向に連続的にマッチング処理が行なわれ
る。マトリクス量子化部１２でのＰＳによる連続マッチ
ング処理は、例えば次式に示す部分空間法に基づく類似
尺度を用いて行なわれる。ここで、Ｃ^(PS)：ＬＰＣメルケプストラム（Ｃ＝｛Ｃ1
，Ｃ2 ，…，ＣN ｝）φ_m ：ＰＳの固有ベクトル（・）は内積を、‖ ‖はノルムを示している。すなわ
ち、音声符号帳は、各ＰＳ毎にＭ個の直交化された固有
ベクトルで表現されている。ここで、本発明に用いられ
るＰＳを説明する。ＰＳは、例えば次のようなものから
なる。 (1) 持続性セグメント；(1-1) 母音定常部 (1-2) 持続性の子音部 (2) 子音セグメント；母音への渡り（過渡部）を含
む部分［半音節］ (3) 音節境界セグメント；(3-1) 母音境界 (3-2) 母音−子音境界 (3-3) 母音−無音境界 (4) その他のセグメント；母音脱落、ＶＣＶ（V:母音、
C:子音）等例として、１００単語の音声資料に対して選
定した１９１種の音声セグメントを次に示す。持続性セグメント：AA1A,AA2A,II1A,II2A,II3A,UU1A,UU
2A,UU3A,EE1A,EE2A,OO1A,OO2A,NN1A,NN2A,NN4A,NN5A,BZ
1A,MM1A,RR1A,BB1A,SS1C,SH1C,CC1C,ZZ1A,HHAB,HHIB,HH
UB,HHEB,HHOB,HVAA,HVIA,HVUA,HVEA 子音セグメント：QA1D,KA1E,KA2C,SA2E,TA2C,NA2B,HA2
B,GA2C,DA1E,DA2B,CA1E,FA1C,FA2C,KI1E,KI2C,SI2E,NI1
C,NI2B,HI1D,HI2C,MI2B,RI2B,BI1C,BI2B,PI1C,PI2C,KU1
E,KU2C,SU2D,CU1E,CU2E,HU1D,RU2B,ZU2D,BU2B,QE1D,KE1
E,KE2C,SE1E,SE2E,TE1D,TE2C,NE1C,NE2B,HE1D,HE2B,ME1
C,ME2B,RE1C,RE2B,GE1D,GE2E,ZE1E,ZE2E,DE1C,DE2B,BE1
C,BE2B,PE1C,PE2B,QO1D,KO1D,KO2C,TO1D,TO2C,NO2B,HO1
D,FO1E,FO2E,MO2B,GO2C,DO2B,BO2B,PO1C,PO2B,KY1E,SY1
E,CY1E,NY2D,HY2E,RY1D,RY2D,ZY2D 境界セグメント：母音境界 AI1E,ANNC,INNC,IE1C,IA1E,UA1C,EI1C,EO1E,E
NNC,EU1C,OI1E,OU1C,ONNC,NNOC,NNEB 母音−子音境界 YA1E,YU1E,YO1E,AS1A,AN1A,AM1A,AR1A,
AZ1A,AD1A,AB1A,IS1A,IN1A,IH1A,IR1A,IG1A,ID1A,IB1A,
US1A,UN1A,UM1A,UD1A,UB1A,EN1A,EH1A,EF1A,EM1A,ER1A,
EG1A,ON1A,OH1A,OM1A,OR1A,OG1A,OD1A,OB1A,NS1A,NH1A,
NG1A,NZ1A 母音−無音境界 AQ1A,IQ1A,UQ1A,EQ1A,OQ1A,NQ1A その他のセグメント：ＶＣＶ ANAC,ANEC,ARUC,AREC,IRIC,IBOC,UNEC,UDA
C,UBUC,EREC,ERUC,ORIC,ORUC, 母音脱落ほか KS1D,KQ1D,AUQA

【００１２】ここで、持続性セグメント中のAA1,AA2
は、後者がストレスの弱い母音［ａ］の一部から切り出
されたことを示す。また、II3,UU3 は無声化したセグメ
ントである。NN1 〜NN5 は異なる音素環境に対応してい
る。BZ1 〜ZZ1 は子音に先立って出現する声帯音ほかの
現象、HHA 〜HHO は無声の［ｈ］、またHVA 〜HVE は有
声化した［ｈ］に対応している。

【００１３】次に、子音セグメント中のQA1 は語頭の母
音を、またKA1,KA2 は原則として後者が語中から切り出
されたものであることを示している。拗音に属する外１
などは、CA1 →YA1 →AA1 と境界セグメントをはさんで
構成している（実際の音声では、CA1 →AA1 またはAA2
と遷移することもありうる）。

【００１４】

【数１】

【００１５】境界セグメントとしては、母音境界（AI
1)、母音−子音境界（AS1)、母音−無音境界（AQ1)など
が登録されている。なお、母音境界を表わすセグメント
では、撥音はNNと記されている（ANN)。

【００１６】その他のセグメントには、発声速度の速い
場合に観測される、子音の脱落しかけたVCV セグメント
(ANA) 、母音の脱落したセグメント（KS1)などがある。
ＰＳ符号帳１３には、このような 191種の音声セグメン
トの情報が直交化辞書として格納されている。

【００１７】さて、このようなＰＳを量子化時のセグメ
ントとする場合、セグメントの特徴パラメータの次元数
（ここではＬＰＣメルケプストラムの次数）と時間幅
（フレーム数）が問題となる。すなわち、母音定常部等
については、その特徴パラメータの次元数を多く必要と
するが、そのフレーム数は少なくて良い。また、破裂子
音等については、特徴パラメータの次元数もそのフレー
ム数もある程度必要である。更に、摩擦子音等にあって
は、特徴パラメータの次元数は少なくて良いが、多くの
フレーム数を必要とする。そこで、本発明では、各ＰＳ
の特徴パラメータとフレーム数を次のように定めてい
る。

【００１８】（特徴パラメータ，フレーム数）；Ａ＝
（１６，４）Ｂ＝（１４，６）Ｃ＝（１２，８）Ｄ＝（１０，１０）Ｅ＝（８，１２）の組合わせの中から選択している。先に説明したＰＳの
種類を示す４文字のうち、最後の１文字は、この設定を
表わしている。この結果、母音ではAA1Aのように特徴パ
ラメータの次元数を「１６」と大きく、またZE1Eのよう
な摩擦子音はフレーム数を「１２」と多く設定すること
ができる。また、これによりＰＳ全体の次元数は６４〜
１００と、比較的近い次元数に収まり、統計的なマッチ
ング処理（例えば部分空間法）による量子化歪の低減が
可能になった。

【００１９】マトリクス量子化部１２で求められたＰＳ
類似度系列の精度を見るため、第１位となったＰＳの系
列を求め、このシンボル系列を（離散）ＨＭＭへ入力す
ることで単語音声の評価実験を行なった。この実験は、
不特定話者の単語音声を対象に行なわれ、結果は３２単
語で９８．４％と、従来の単語単位のパターンマッチン
グ法と比較して同程度の認識率であった。しかし、類似
した単語の対からなる３２単語では、９１．０％しか得
られず、第１位のシンボル系列を使用する「離散ＨＭ
Ｍ」では量子化誤差が未だに大きく、ＨＭＭを連続分布
として扱う必要のあることが示された。

【００２０】しかし、ｎ種類のＰＳの類似度値からなる
ベクトルＳ＝（Ｓ1,Ｓ2,… ,Ｓn ）に対して、「連続分
布ＨＭＭ」を直接適用することは、厖大な計算を必要と
するため得策ではない。そこで、音声セグメントの類似
度空間Ｒⁿを効率良く、音素特徴空間Ｒ^m（ｍ＜＜ｎ）に
統合変換した後、連続分布ＨＭＭを適用する方法を採用
した。

【００２１】音声セグメントＰＳの多くは、前述したよ
うに音声中に現れる様々な環境下の音素を表現するため
に設計されている。このため、これらと音素との対応付
けは比較的容易である。例えば、音素／ｒ／に対応する
音声セグメントは、RA1,RA2,RI1,RI2,RU1,RU2,RE1,RE2,
RO1,RO2,RY1,RY2,RW1,RW2,ARA,ARI,ARU,ARE,ARO,IRA,IR
I,IRU,IRE,IRO,URA,URI,URU,URE,URO,ERA,ERI,ERU,ERE,
ERO,ORA,ORI,ORU,ORE,ORO,NRA,NRI,NRU,NRE,NROの４４
種である。ここで、セグメント名の数字は「１」が語頭
を、「２」が語中を示す。また、 ARAのように前後を母
音で挟まれたセグメントは、ＶＣＶ型に属する。音声セ
グメントを音素に統合変換する方法は、種々考えられ
る。本実施例ではと最大値フィルタにより、その音素に属するＰＳを統合
する。右辺の｛｝内は、ＰＳの類似度値、左辺は統合さ
れた音素のスコアである。

【００２２】一般に用いられる音素には、｛ｏ，ａ，
ｅ，ｉ，ｕ，ｈ，ｊ，ｗ，ｒ，ｎ，ｍ，ｚ，ｓ，ｇ，
ｋ，ｄ，ｔ，ｂ，ｐ｝の１９種がある。本実施例では、
別にモーラ音素／Ｎ／（撥音），語頭の母音Ｖ，持続性
子音部Ｃ，母音から子音への過渡部Ｔ、母音から無音へ
の過渡部Ｘを加えた２４種を、音素特徴として用いる。
これにより、ＰＳの類似度系列は、ＰＳ−音素統合変換
部１４において、上記（１）式を実行することにより、
２４次元の音素特徴ベクトルからなる系列へと変換さ
れ、ＨＭＭ認識部１５へと送られる。図２に、単語音声
「堅固」に対応する音素特徴ベクトルの例を示す。

【００２３】次に、本発明におけるＨＭＭを用いた単語
照合について説明する。ＨＭＭではＮ個の状態Ｓ₁，Ｓ
₂，…，Ｓ_Nを持ち、初期状態がこれらＮ個の状態に確
率的に分布しているとする。音声では一定のフレーム周
期ごとに、ある確率（遷移確率）で状態を遷移するモデ
ルが使われる。遷移の際には、ある確率（出力確率）で
ラベルを出力するが、ラベルを出力しないで状態を遷移
するナル遷移を導入することもある。出力ラベル系列が
与えられても（状態を遷移する仕方は複数あるから）状
態遷移系列は一意には決まらない。観測できるのはラベ
ル系列だけであることから、隠れ（hidden）マルコフモ
デルと呼ばれている。ＨＭＭモデルＭは、次の６つのパ
ラメータから定義される。Ｎ：状態数（状態Ｓ₁，Ｓ₂，…，Ｓ_N，実験で
はＮ＝１０）Ｋ：ラベル数（ラベルＬ＝１，２，…，Ｋ，実験で
はＫ＝１９１）ｐ_ij ：遷移確率（Ｓ_iにいてＳ_jに遷移する確率）ｑ_ij(k) ：Ｓ_iからＳ_jへの遷移の際にラベルｋを出力
する確率ｍ_i ：初期状態確率（実験では初期状態はＳ₁に
限定）Ｆ：最終状態の集合（実験では最終状態はＳ₁₀に限
定）

【００２４】次に、モデルＭに対して音声の特徴を反映
した遷移上の制限を加える。音声では、一般に状態Ｓ_i
から以前に通過した状態（Ｓ_i-1，Ｓ_i-2，……）に戻る
ようなループは、時間の前後関係を乱すため許されな
い。上記のようなＨＭＭの構造としては、図３のような
例が代表的である。

【００２５】ＨＭＭを学習する際には、ＨＭＭ学習部１
６で、ラベル系列Ｏを与えて、Ｐｒ（Ｏ／Ｍ）が最大と
なるモデルＭのパラメータを推定すれば良い。この推定
に用いられるアルゴリズムとしては、フォワード・バッ
クワードアルゴリズムが知られている。

【００２６】また、ＨＭＭの評価（認識）では、モデル
Ｍがラベル系列Ｏ＝Ｏ₁，Ｏ₂，…，Ｏ_Tを出力する確
率Ｐｒ（Ｏ／Ｍ）を求める。すなわち、ＨＭＭ認識部１
５は、各単語に対応してモデルを仮定し、Ｐｒ（Ｏ／
Ｍ）が最大になるようなモデルＭ（単語）をヴイタービ
のアルゴリズムを用いて検索する。

【００２７】以上は、主として離散ＨＭＭを対象に説明
した。連続出力確率分布ＨＭＭ（以下、連続ＨＭＭと記
述する）では、入力はラベル系列ではなく、ベクトル
（本発明では音素特徴ベクトル）となる。これにより、
上記の出力確率ｑ_ij(k) （Ｓ_iからＳ_jへの遷移の際にラ
ベルｋを出力する確率）の代わりに、ベクトルの出現分
布が与えられる。通常、この分布（ベクトルの各要素の
分布）は正規分布もしくは、正規分布の混合として扱わ
れる。連続ＨＭＭモデルは、次の６つのパラメータから
定義される。Ｎ：状態数（状態Ｓ₁，Ｓ₂，…，Ｓ_N，実験で
はＮ＝１０）ｐ_ij ：遷移確率（Ｓ_iにいてＳ_jに遷移する確率） μ_ij ：Ｓ_iからＳ_jへの遷移の際に表われる平均ベク
トル Σ_ij ：Ｓ_iからＳ_jへの遷移の際に表われるベクトル
の共分散ｍ_i ：初期状態確率（実験では初期状態はＳ1 に
限定）Ｆ：最終状態の集合（実験では最終状態はＳ10に限
定）

【００２８】混合分布では、μ_ijとΣ_ijが複数与えられ
る。連続ＨＭＭの学習および評価（認識）は、離散ＨＭ
Ｍと同様に各々フォワード・バックワードアルゴリズム
と、ヴィタービのアルゴリズムを使用することで行なわ
れる。

【００２９】実験では、多数の学習用データ（音素特徴
ベクトル）をＨＭＭ学習部１６に与えて、確率Ｐｒ（Ｏ
／Ｍ）を最大にするように、３２単語に対応する各モデ
ルＭのパラメータを推定した（連続ＨＭＭでは、Ｏはベ
クトル系列である）。得られたモデルのパラメータ（単
語毎のμ_ijとΣ_ij）は、ＨＭＭ単語モデルバッファ１７
に蓄積される。

【００３０】次に、認識の段階には、ＨＭＭ単語モデル
バッファ１７に蓄積された各モデルに対して、ＨＭＭ認
識部１５において、入力音声に対する音素特徴ベクトル
の確率Ｐｒ（Ｏ／Ｍ）を求め、この確率が最大になるよ
うなモデルＭを求める。そのモデルに対応する単語が認
識結果となる。本発明の評価実験は、前述した離散ＨＭ
Ｍに対する実験と同じデータ（３２個の類似単語）に対
して行なわれた。実験では、ベクトルの出現分布を単一
の正規分布とした場合と、２つの正規分布（混合分布）
からなる場合について行なった。ただし、学習データが
少ないことを考慮して、共分散は対角要素のみを用いて
いる。結果は、単一分布で９１．３％、混合分布で９
２．４％と離散ＨＭＭの成績（９１．０％）を上回り、
本発明の優れていることが示された。

【００３１】以上説明したように上記実施例によれば、
音声学的に意味のある「音声セグメント（ＰＳ）」を単
位として、統計的にマトリクス量子化処理を行ない、Ｐ
Ｓ類似度系列を音素特徴ベクトルに統合変換した後、Ｈ
ＭＭを用いて認識処理を実行するので、連続音声中に生
じる様々な変形を効果的に吸収することが可能となり、
その結果、高精度な音声認識を実現することができる。
しかも、演算処理が厖大化することもない等、実用上多
大な効果が得られる。

【００３２】なお、上記実施例では、音響分析によって
求められた特徴パラメータを、音声セグメント単位の符
号帳との間でマトリクス量子化処理を行なったが、この
代わりに通常のベクトル量子化を用いることも可能であ
る。また、特徴パラメータを音声セグメント単位に設定
されたニューラルネットワークのような他の識別器に通
し、この出力を音素特徴ベクトルに統合変換した後、連
続出力確率分布ＨＭＭを通して照合する等の変形も考え
られる。さらに、前記実施例では、音素特徴ベクトルへ
の統合変換に最大値フィルタを用いたが、音声セグメン
ト類似度系列をニュートラルネットワークへ入力して、
音素特徴ベクトルに統合変換する等の変形も考えられ
る。

【００３３】

【発明の効果】以上詳述したように本発明によれば、発
声された音声を高精度に認識することができ、しかも、
演算処理が厖大化することもない音声認識方式を提供す
ることができる。

【図面の簡単な説明】

【図１】本発明に係る音声認識方式が適用される音声認
識装置の構成を概略的に示すブロック図。

【図２】単語部に対応する音素特徴ベクトルの例を示す
図。

【図３】ＨＭＭの構造の代表例を示す図。

【符号の説明】

１１…音響分析部、１２…マトリクス量子化部、１３…
ＰＳ符号帳、１４…ＰＳ−音素統合変換部、１５…ＨＭ
Ｍ認識部、１６…ＨＭＭ学習部、１７…ＨＭＭ単語モデ
ルバッファ。

フロントページの続き (56)参考文献特開昭63−197998（ＪＰ，Ａ) 特開平２−29799（ＪＰ，Ａ) 特開昭63−291099（ＪＰ，Ａ) 特開平４−113398（ＪＰ，Ａ) 特開昭62−70898（ＪＰ，Ａ) 日本音響学会平成３年度春季研究発表会講演論文集３−Ｐ−14『ＳＭＱ−ＨＭＭにおける「音声セグメント−音素変換」の検討』ｐ．175−176（平成３年３月17日発行) 日本音響学会平成３年度春季研究発表会講演論文集３−Ｐ−19『ＳＭＱ−ＨＭＭによる不特定話者単語認識の中語彙への適用検討』ｐ．185−186（平成３年３月17日発行) 日本音響学会平成２年度秋季研究発表会講演論文集２−８−12『音声セグメントを単位とするＳＭ−ＨＭＭによる不特定話者単語認識』ｐ．69−70（平成２年９月発行) 電子情報通信学会技術研究報告［音声］Ｖｏｌ．90，Ｎｏ．374，ＳＰ90−68, 「ＳＭ−ＨＭＭによる不特定話者単語認識」ｐ．１−８（1990年12月21日発行 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/00 - 17/00 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】入力される音声信号を音響分析すること
により特徴パラメータを求める音響分析手段と、この音
響分析手段により求められた特徴パラメータと予め定め
られた所定の音声セグメント単位の符号帳との間でマト
リクス量子化処理を行なうことにより音声セグメント類
似度系列を求めるマトリクス量子化手段と、このマトリ
クス量子化手段により求められた音声セグメント類似度
系列を音素特徴ベクトルに統合変換する統合変換手段
と、この統合変換手段により統合変換された音素特徴ベ
クトルを一定の単位毎に作成されたＨＭＭ（hidden mar
kov model)を用いて照合することにより認識処理を行な
う認識手段と、を具備したことを特徴とする音声認識方
式。