JP2994443B2 - 音声認識方式 - Google Patents

音声認識方式

Info

Publication number
JP2994443B2
JP2994443B2 JP2232516A JP23251690A JP2994443B2 JP 2994443 B2 JP2994443 B2 JP 2994443B2 JP 2232516 A JP2232516 A JP 2232516A JP 23251690 A JP23251690 A JP 23251690A JP 2994443 B2 JP2994443 B2 JP 2994443B2
Authority
JP
Japan
Prior art keywords
hmm
recognition
segment
matching
vowel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2232516A
Other languages
English (en)
Other versions
JPH04113398A (ja
Inventor
博 松浦
恒雄 新田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2232516A priority Critical patent/JP2994443B2/ja
Publication of JPH04113398A publication Critical patent/JPH04113398A/ja
Application granted granted Critical
Publication of JP2994443B2 publication Critical patent/JP2994443B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) 本発明は発生された音声を高精度に認識することので
きる音声認識方式に関する。
(従来の技術) 音声を一定の符号系列に変換するベクトル量子化を行
い、量子化符号系列をHidden Markov Model(以下HMM
と呼ぶ)で認識する方式が近年成功を収めている。しか
し、ベクトル量子化では通常、単純な距離尺度が使われ
ることから、量子化誤差による性能低下により、HMMの
性能を生かしきれないという問題がある。また、量子化
誤差を減らすために連続出力確率分布HMMなどへ移行す
る検討がなされているが、計算量が増えるため実用化が
難しいという問題があった。
(発明が解決しようとする課題) 本発明は、このような事情を考慮してなされたもの
で、その目的とするところは、上述した不具合を招くこ
となく発生された音声を簡易に、しかも高精度に認識す
ることのできる音声認識方式を提供することにある。
[発明の構成] (課題を解決するための手段) 本発明は上記目的を達成するために、音声信号を入力
して音響分析する手段と、この音響分析によって求めら
れた特徴パラメータと予め定められた所定の音声セグメ
ント単位の音声辞書との間で連続的にマッチング処理す
る手段と、マッチング処理によって求められる上位の第
n位までの音声セグメント単位候補をそれぞれ抽出する
手段と、これらの音声セグメント単位候補を単語毎に作
成されたHidden Markov modelを通してマッチング処理
して単語照合する手段とを具備したことを特徴とする。
(実施例) 第1図は本発明の概要を示す図で、基本的には音声学
的に意味のあるセグメント(Phonetic Segment;以下PS
と呼ぶ)を認識処理単位とし、このPS単位の認識辞書と
の間で時間軸方向に連続的にマッチング処理し、PS系列
とその類似度(距離値)を求める。そして類似度(距離
値)を正規化した後、正規化尺度値を単語照合部に送
る。
ここまでの処理概念を更に詳しく説明すると、先ず音
響分析部11にて入力音声を、例えばLPC分析(BPF分析で
も良い)する。この分析された特徴パラメータを連続マ
ッチング処理部12に与え、PS辞書13に登録されている所
定のPS単位の認識辞書と時間軸方向に連続的にマッチン
グ処理する。尚、上記認識辞書は、各PS毎に複数の標準
パターンから作成された識別用辞書からなる。
このマッチング処理部12で求められたPS系列とその類
似度(距離値)を類似度(距離値)正規化部14に与え、
正規化テーブル15を参照して前記PS系列の各PS単位の類
似度(距離値)をそれぞれ正規化する。この正規化は、
正規化テーブル15から前記各PS毎に正規化の為の定数を
求め、この定数に従って前記各PS単位の類似度(距離
値)を正規化してその正規化尺度値を求めることによっ
て行われる。この正規化処理結果に従って上位の第n位
置までのPS系列を抽出し、これをHMM認識部16に送る。
ここで本発明で用いられるPSとしては、例えば次のよ
うなものからなる。
(1)持続性セグメント ;(1−1)母音定常部 (1−2)摩擦子音部 (2)子音セグメント ;母音への渡り(過渡部)を
含む部分[半音節] (3)音節境界セグメント;(3−1)母音境界 (3−2)母音・子音境界 (3−3)母音・無音境界 (4)その他のセグメント;無声化母音等 このうち(1),(2)および(4)の一部について
は音節を認識セグメントとする場合にも採用されること
が多い。しかし本発明に係るPSの長所は、上記(1)
(2)(4)に示されるセグメントに加えて上記(3)
の音節境界セグメントを採用したことにある。
ここで(3)の音節境界セグメントについて更に詳し
く説明する。
(3−1)母音境界; 通常は異なる母音V1,V2の境界に生じる母音V1から母
音V2への過渡的な部分をセグメントとして扱う。また、
例えば1秒間に10音節近い速度の速い発声時に出現する
三連母音(撥音「ん」も母音として扱う)V1V2V3の速い
過渡部の、上記母音V2を中心とする前後の過渡部分もこ
の認識セグメントに加える。
(3−2),(3−3)母音・子音または母音・無音境
界; 母音から子音に至る過渡区間を認識セグメントとす
る。
このセグメント単位は比較的少ない数(VCV単位の半
分以下)で、しかも時間的にも短い範囲を扱うので連続
マッチングの際の演算量の点でも有利となる。
ここで従来のセグメント単位について考察してみる
と、連続音声に対して認識セグメントを時間軸に沿って
連続的にマッチングしていくと、子音部や母音部につい
ては比較的良く、その本来のセグメントに対応したラベ
ル(認識セグメントの名称)が得られる。しかし母音と
子音との境界や母音と無音との境界では特別なラベルを
準備していない為にランダムなラベル系列が出現する。
通常、このような場合には入力ラベル系列と標準ラベ
ル系列との間でDP(動的計画法)に基づくマッチングを
行い、ランダムなラベルが出現する区間を迂回する。し
かしこの手法は便宜的な解決法であり、実際の適用にあ
たってはDPのパス(迂回路)には制限が加えられる為、
即ち区間を確実に吸収することが困難である場合が多
い。
一方、従来より認識セグメントとしてVCVを用いるこ
とが行われている。この手法は子音を母音で挟むことに
よってその子音部を安定に認識しようとするものであ
る。即ち、VCVを採用することによって、対応するラベ
ルも安定して得られることを期待している。しかしVCV
単位の数は900にも及ぶ為、実用性の点で問題が残され
ている。しかもこの単位は時間的に長い範囲を対象とす
るので、連続マッチングを行なう際の演算量が増大する
という不具合を持っている。
更にVCV単位では母音Vから子音C、および子音Cか
ら母音Vへの2つの区間変動要因を同時に抱える為、認
識セグメントとして見るときパターンの変動が大きい。
換言すれば、パターン変動を吸収する為には、より多く
の音声データを必要とする。
さて上述したPSを認識セグメントとする場合、セグメ
ントの特徴パラメータの次元数と時間幅(フレーム数)
が問題となる。即ち、母音定常部等についてはその特徴
パラメータの次元数を多く必要とするが、そのフレーム
数は少なくて良い。また破裂子音等については特徴パラ
メータの次元数もそのフレーム数も或る程度必要であ
る。更に摩擦子音等にあっては特徴パラメータの次元数
は少なくて良いが、多くのフレーム数を必要とする。
一方、例えば上記特徴パラメータの次元数、およびそ
のフレーム数をそれぞれの最大値に設定して連続音声を
認識しようとすると、連続マッチングの際の演算量が膨
大化する。しかもフレーム数を最大値に設定しまうこと
で、本来の短い時間の現象が捕らえ難くなるという不具
合が生じる。
そこで本発明では、各認識セグメントPSの特徴パラメ
ータとフレーム数を、例えばそのフレーム周期を8msec
としたとき (特徴パラメータ,フレーム数); (16,4)(14,6)(12,8)(10,10)(8,12)の組合
せの中から選択するようにしている。この結果、母音で
は特徴パラメータの次元数を(16)と大きく取り、また
摩擦子音についてはフレーム数を(12)と多く取るよう
にしている。
またこのようにすることでPS全体の次元数を64〜100
と、上述したように特徴パラメータの次元数およびその
フレーム数をそれぞれの最大値に設定する場合のほぼ半
分に押えている。この結果、連続マッチング時の演算量
を実用的な範囲に納めることが可能となった。
さて、このようにその構成(特徴パラメータ,フレー
ム数)の異なるセグメントを採用した場合、連続マッチ
ングの結果として得られる各PSの類似度(距離値)を相
互に比較することができないという問題が生じる。そこ
で類似度Sj(時刻jにおける類似度)を正規化し、この
正規化尺度を用いて照合するようにする。
この類似度Sjの正規化は次のように行われる。
入力されたPSの名がKiで示されるとき、Kiの類似度が
Sjである確率をPr(Sj|Ki)とする。また全ての類似度
の出現確率をPr(Sj)、Kiが生起する確率をPr(Ki)と
すると、或る類似度Sjが与えられたとき、それが前記Ki
に属する確率Pr(Ki|Sj)はベイズ則から となる。ここで上記Pr(Ki)は前記各PSがそれぞれ独立
であると考えるならば定数としておくことが可能であ
る。また上記Pr(Sj)は前記各PSに依存することはな
い。従って上記Pr(Sj|Ki)を予め各PSについて求めて
おけば、上記確率Pr(Ki|Sj)を比較的簡単に計算する
ことができる。即ち、多量の音声サンプルから上記Pr
(Sj),Pr(Sj|Ki)をそれぞれ計算しておけば、その類
似度Sjを上述した式を用いて正規化することが可能とな
る。
しかしこの式で示される演算を実際に実行することは
繁雑である。そこで、例えば次のような近似を用いる。
第2図(a)は2種類のPS、つまりK1,K2についてそ
の類似度の確率Pr(Sj|K1),Pr(Sj|K2)を全ての類似
度の出現確率をPr(Sj)と対比して示している。また第
2図(b)は上記2種類のK1,K2について求められた確
率Pr(K1|Sj),Pr(K2|Sj)を示している。そこでこれ
をモデル化して次のべき乗の式で近似し第2図(c)に
示すようにする。
この式の両辺の対数を求め、 であることを考慮すると、 K1;logP1=logA1+SjlogB1 =1−(Sj−Smax1)logB1 K2;logP2=logA2+SjlogB2 =1−(Sj−Smax2)logB2 と表現することができる。この式を用いることにより、
例えば前記各PS毎に(logBi,Smaxi)を求めておき、こ
れをテーブル化しておくことによって、容易に正規化し
た新しい尺度logPiを計算することが可能になることが
わかる。
次に本発明における単語照合につき説明する。単語照
合は、例えば上位第n位までのPS系列を求め、これを単
語毎のHMMに通して行う。
HMMの一般的定式化について述べる。HMMではN個の状
態S1,S2,・・・,SNを持ち,初期状態がこれらN個の状
態に確率的に分布しているとする。音声では一定のフレ
ーム周期ごとに、ある確率(遷移確率)で状態を遷移す
るモデルが使われる。遷移の際には、ある確率(出力確
率)でラベルを出力するがラベルを出力しないで状態を
遷移するナル遷移を導入することもある。出力ラベル系
列が与えられても状態遷移系列は一意には決まらない。
観測できるのはラベル系列だけであることからhidden
(隠れ)markov model(HMM)と呼ばれている。HMMの
モデルMは次の6つのパラメータから定義される。
N:状態数(状態S1,S2,・・・,SN) K:ラベル数(ラベルR=1,2,・・・,K) pij:遷移確率SiについてSjに遷移する確率 qij(k):SiからSjへの遷移の際にラベルkを出力する
確率 mi:初期状態確率 初期状態がSiである確率 F:最終状態の集合 次にモデルMに対して音声の特徴を反映した遷移上の
制限を加える。音声では一般に状態Siから以前に通過し
た状態(Si-1,Si-2,…)に戻るようなループの遷移は時
間的前後関係を乱すため許されない。上記のようなHMM
の構造としては、第4図のような例が代表的である。HM
Mの評価はモデルMがラベル系列O=o1,o2・・・oTを出
力する確率Pr(O/M)を求める。認識時にはHMM認識部16
で各モデルを仮定してPr(O/M)が最大になるようなモ
デルMを探す。
また、HMMの学習はHMM学習部18でラベル系列Oを与え
て、Pr(O/M)が最大となるモデルMのパラメータを推
定すれば良い。
以上のようにして発声された入力音声を認識処理する
ことによって、その入力音声を高精度に認識することが
可能となる。
さらに第3図に従って第7図に示す32単語を音声認識
することを目的とした装置を例に説明する。
入力音声はA/D変換器21にて、例えばサンプリング周
波数12kHz,12bitで量子化された後、パワー計算部22に
入力されてその音声パワーが計算され、またLPC分析部2
3に入力されて音響分析される。このLPC分析は、例えば
フレーム長16msec,フレーム周期8msecで16次のLPCメル
ケプストラムを分析パラメータとして行われる。
連続マッチング部24でのPSによる連続マッチング処理
は、次式に示す複合LPCメルケプトラム類似尺度を用い
て行われる。
尚、CはLPCメルケプストラム, はそれぞれPS名Kiの固有値から求められる重みと固有ベ
クトルである。また( ・ )は内積を示し、‖ ‖は
ノルムを示している。
32単語の学習資料に対して選定した191種の音声セグ
メントを以下に示す。
・持続性セグメント: AA1A,AA2A,II1A,II2A,II3A,UU1A,UU2A,UU3A,EE1A,EE2
A,OO1A,OO2A,NN1A,NN2A,NN4A,NN5A,BZ1A,MM1A,RR1A,BB1
A,SS1C,SH1C,CC1C,ZZ1A,HHAB,HHIB,HHUB,HHEB,HHOB,HVA
A,HVIA,HVUA,HVEA ・子音セグメント: QA1D,KA1E,KA2C,SA2E,TA2C,NA2B,HA2B,GA2C,DA1E,DA2
B,CA1E,FAIC,FA2C,KI1E,KI2C,SI2E,NI1C,NI2B,HI1D,HI2
C,MI2B,RI2B,BI1C,BI2B,PI1C,PI2C,KU1E,KU2C,SU2D,CU1
E,CU2E,HU1D,RU2B,ZU2D,BU2B,QE1D,KE1E,KE2C,SE1E,SE2
E,TE1D,TE2C,NE1C,NE2B,HE1D,HE2B,ME1C,ME2B,RE1C,RE2
B,GE1D,GE2E,ZE1E,ZE2E,DE1C,DE2B,BE1C,BE2B,PE1C,PE2
B,QO1D,KO1D,KO2C,TO1D,TO2C,NO2B,HO1D,FO1E,FO2E,MO2
B,GO2C,DO2B,BO2B,PO1C,PO2B,KY1E,SY1E,CY1E,NY2D,HY2
E,RY1D,RY2D,ZY2D ・境界セグメント: AI1E,ANNC,INNC,IE1C,IA1E,UA1C,EI1C,EO1E,ENNC,EU1
C,OI1E,OU1C,ONNC,NNOC,NNEB,YA1E,YU1E,YO1E,AS1A,AN1
A,AM1A,AR1A,AZ1A,AD1A,AB1A,IS1A,IN1A,IH1A,IR1A,IG1
A,ID1A,IB1A,US1A,UN1A,UM1A,UD1A,UB1A,EN1A,EH1A,EF1
A,EM1A,ER1A,EG1A,ON1A,OH1A,OM1A,OR1A,OG1A,OD1A,OB1
A,NS1A,NH1A,NG1A,NZ1A,AQ1A,IQ1A,UQ1A,EQ1A,OQ1A,NQ1
A ・その他のセグメント: ANAC,ANEC,ARUC,AREC,IRIC,IBOC,UNEC,UDAC,UBUC,ERE
C,ERUC,ORIC,ORUC,KS1D,KU1D,AUQA 持続性セグメント中のAA1,AA2は後者がストレスの弱
い母音[a]の一部から切り出されたことを示す。また
II3,UU3は無声化したセグメントである。NN1〜NN5は異
なる音素環境に対応している。BZ1〜ZZ1は子音に先立っ
て出現する声帯音他の現象、HHA〜HHOは無声の[h],
またHVA〜HVEは有声化した[h]に対応している。
次に、子音セグメント中のQA1は語頭の母音を、またK
A1,KA2は原則として後者が語中から切り出されたもので
あることを示す。拗音に属する[t∫a]などは、CA1
→YA1→AA1と境界セグメントをはさんで構成している
(実際の音声では、CA1→AA1(またはAA2)と遷移する
こともありうる) 境界セグメントとしては、母音境界(AI1),母音−
子音境界(AS1),母音−無音境界(AQ1)などが登録さ
れている。なお母音境界を表すセグメントでは、撥音は
NNと記されている(ANN)。
その他のセメントには、発声速度の速い場合に観測さ
れる、子音の脱落しかけたVCVセグメント(ANA)、母音
の脱落したセグメント(KS1)などがある。
このような191種の音声セグメントの情報が直交化辞
書としてPS複合辞書部25に格納されている。
前記連続マッチングで求められた類似度(Ki) Sj(時刻jにおけるPS名Kiに対する類似度)は、類似度
正規化部26にて前述した構成の正規化テーブル27を参照
して正規化尺度に変換される。そして、第1位のPS系列
がHMM認識部28に送られる。
第5図はHMM認識部28に送られるPS系列の出力例とそ
の声紋、および音声パワーの例を示すもので、単語「絵
入り」を音声入力したときを示している。
尚、前述した例では、PS毎にそれぞれ別の正規化処理
を行ったが、(logBi,Smaxi)のPSによる差が少ない場
合には、単一の変換テーブルを用いてその正規化処理を
簡単化するようにしても良い。また区間検出部29は、前
記音声パワーとLPC分液結果とに従って、単語音声区間
を検出しており、音声区間の始端と終端を前記認識部28
に送っている。
次にこのようなPS系列に対する単語認識処理について
説明する。ここで用いた、HMMは第6図のようなleft to
right型で、10個の状態S1,S2,・・・,S10を持ち,初期
状態はS1のみとし、8msのフレーム周期で、ある遷移確
率で状態を遷移する。その遷移の際に、ある出力確率で
ラベルを出力するモデルである。
本システムのHMMのモデルのパラメータは次のように
なっている。
N:状態数=10(状態S1,S2,・・,S10) K:ラベル数=191(PSそれぞれをコードにする R=1,
2,・・,191) pij:遷移確率SiについてSjに遷移する確率 qij(k):SiからSjへの遷移の際にラベルkを出力する
確率 また最終状態はS10に限定して扱う。
HMMの学習は学習用のデータに対して類似度正規化部2
6で類似度を正規化し、各フレームで1位となったPS系
列を求める。多数の学習用データをHMM学習部30に与え
て、確率Pr(O/M)を最大にするように32単語に対応す
る各モデルMのパラメータを推定する。このモデルはHM
Mバッファ31に蓄積される。
次に、HMMの認識は、HMM学習部30で学習され、HMMバ
ッファ31に蓄積された各モデルに対して、HMM認識部28
において、入力された音声に対するPS系列の確率Pr(O/
M)を求め、この確率が最大になるようなモデルMを求
める。そのモデルの単語が認識結果である。男性30人の
各1回の発声データを学習し、別の男性10人分のデータ
を認識した実験結果を第7図に示すが、かなり高性能の
結果が得られる。
[発明の効果] 以上に説明したように本発明によれば、音声学的に意
味のある単位(PS)を認識セグメントとし、HMMを用い
て認識処理を実行するので、連続音声中に生じる母音・
子音の変形に効果的に対処して連続発声された音声を高
精度に認識することができる。しかも多数の学習データ
を与えればHMMを自動的に生成し得る。またその認識処
理は簡易に、しかも効果的に進めることができ、演算処
理が膨大化することもない等の実用上多大なる効果が奏
せられる。
【図面の簡単な説明】
第1図は本発明の一実施例方式の概念を示す図、第2図
は類似度の正規化の過程を示す図、第3図は一実施例方
式を適用して構成される連続音声認識装置の概略構成
図、第4図は音声で用いられるHMMの代表例を示す図、
第5図はPS系列の一例を示す図、第6図は一実施例で用
いたHMMの構成を示す図、第7図は認識実験結果を表す
図である。 11……音響分析部、12……PS連続マッチング部、13……
PS辞書、14……類似度正規化処理部、15……類似度正規
化テーブル、16……HMM認識部、17……HMMバッファ、18
……HMM学習部。
フロントページの続き (56)参考文献 特開 平2−29799(JP,A) 特開 昭63−15299(JP,A) 特開 昭59−219799(JP,A) 特開 平2−150899(JP,A) 特開 昭62−160499(JP,A) 特開 平1−227198(JP,A) 特開 平1−193800(JP,A) 特公 平7−60318(JP,B2) Proceedings of 1987 IEEE Internationa l Conference on Ac oustics,Speech and Sigunal Processin g,Vol.2,“HMM−Based Speech Recognitio n Using Multi−Dime usional Multi−Labe ling”,p.1163−1166 日本音響学会平成2年度秋季研究発表 会講演論文集▲I▼,2−8−12,「音 声セグメントを単位とするSM−HMM による不特定話者単語認識」,P.69− 70,(平成2年9月20日発表) 電子情報通信学会技術研究報告[音声 ],Vol.90,No.374,SP90− 68,「SM−HMMによる不特定話者単 語認識」,P.1−8,(1990年12月21 日発行) 電子情報通信学会技術研究報告 Vo l.88,No.329,SP88−106,「ベ クトル量子化話者適応アルゴリズムのH MM音韻認識による評価」,p.1−8 電子情報通信学会技術研究報告 Vo l.89,No.91,SP89−30,「LV Qコードブックを用いたHMMによる音 韻認識」p.1−8 電子情報通信学会技術研究報告 Vo l.88,No.328,SP88−98,「音 声セグメントの相対順位と継続時間によ る拘束条件付遷移ネットワークを用いた 不特定波話者単語認識」,p.17−24 電子情報通信学会技術研究報告 Vo l.90,No.111,SP90−14,「音 声セグメントを単位とする構造化遷移ネ ットワークを用いた単語認識システ ム」,p.41−48 (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 515 G10L 3/00 521 G10L 3/00 531 G10L 3/00 535 JICSTファイル(JOIS)

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】音声信号を入力して音響分析する手段と、 この音響分析によって求められた特徴パラメータと予め
    定められた音声学的に意味のある音声セグメント単位の
    音声辞書との間で連続的にマッチング処理する手段と、 マッチング処理によって求められる上位の第n位までの
    音声セグメント単位候補をそれぞれ抽出する手段と、 これら音声セグメント単位候補を単語毎に作成されたHi
    dden Markov Modelを通してマッチング処理して単語
    照合する手段と を具備したことを特徴とする音声認識方式。
  2. 【請求項2】マッチング処理は統計的距離尺度を用いた
    マッチング処理であることを特徴とする特許請求の範囲
    第1項記載の音声認識方式。
  3. 【請求項3】マッチング処理は複合類似度法によること
    を特徴とする特許請求の範囲第1項記載の音声認識方
    式。
JP2232516A 1990-09-04 1990-09-04 音声認識方式 Expired - Fee Related JP2994443B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2232516A JP2994443B2 (ja) 1990-09-04 1990-09-04 音声認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2232516A JP2994443B2 (ja) 1990-09-04 1990-09-04 音声認識方式

Publications (2)

Publication Number Publication Date
JPH04113398A JPH04113398A (ja) 1992-04-14
JP2994443B2 true JP2994443B2 (ja) 1999-12-27

Family

ID=16940556

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2232516A Expired - Fee Related JP2994443B2 (ja) 1990-09-04 1990-09-04 音声認識方式

Country Status (1)

Country Link
JP (1) JP2994443B2 (ja)

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
Proceedings of 1987 IEEE International Conference on Acoustics,Speech and Sigunal Processing,Vol.2,"HMM−Based Speech Recognition Using Multi−Dimeusional Multi−Labeling",p.1163−1166
日本音響学会平成2年度秋季研究発表会講演論文集▲I▼,2−8−12,「音声セグメントを単位とするSM−HMMによる不特定話者単語認識」,P.69−70,(平成2年9月20日発表)
電子情報通信学会技術研究報告 Vol.88,No.328,SP88−98,「音声セグメントの相対順位と継続時間による拘束条件付遷移ネットワークを用いた不特定波話者単語認識」,p.17−24
電子情報通信学会技術研究報告 Vol.88,No.329,SP88−106,「ベクトル量子化話者適応アルゴリズムのHMM音韻認識による評価」,p.1−8
電子情報通信学会技術研究報告 Vol.89,No.91,SP89−30,「LVQコードブックを用いたHMMによる音韻認識」p.1−8
電子情報通信学会技術研究報告 Vol.90,No.111,SP90−14,「音声セグメントを単位とする構造化遷移ネットワークを用いた単語認識システム」,p.41−48
電子情報通信学会技術研究報告[音声],Vol.90,No.374,SP90−68,「SM−HMMによる不特定話者単語認識」,P.1−8,(1990年12月21日発行)

Also Published As

Publication number Publication date
JPH04113398A (ja) 1992-04-14

Similar Documents

Publication Publication Date Title
JP3050934B2 (ja) 音声認識方式
US9812122B2 (en) Speech recognition model construction method, speech recognition method, computer system, speech recognition apparatus, program, and recording medium
Zissman et al. Automatic language identification
EP1647970B1 (en) Hidden conditional random field models for phonetic classification and speech recognition
US6571210B2 (en) Confidence measure system using a near-miss pattern
US6694296B1 (en) Method and apparatus for the recognition of spelled spoken words
Stolcke et al. Highly accurate phonetic segmentation using boundary correction models and system fusion
JPH06175696A (ja) 音声コード化装置及びその方法並びに音声認識装置及びその方法
JP2003316386A (ja) 音声認識方法および音声認識装置および音声認識プログラム
EP1960997A1 (en) Speech recognition system with huge vocabulary
JPH05241589A (ja) 非ユーザ基準データから生成される話者依存的プロトタイプを有する音声コード化装置
Mantena et al. Use of articulatory bottle-neck features for query-by-example spoken term detection in low resource scenarios
Ranjan et al. Isolated word recognition using HMM for Maithili dialect
JPH0760318B2 (ja) 連続音声認識方式
US5764851A (en) Fast speech recognition method for mandarin words
Fu et al. A survey on Chinese speech recognition
JP5300000B2 (ja) 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム
JP2994443B2 (ja) 音声認識方式
Soe et al. Syllable-based speech recognition system for Myanmar
Biagetti et al. Learning HMM state sequences from phonemes for speech synthesis
JP2766393B2 (ja) 音声認識方式
Ananthakrishna et al. Effect of time-domain windowing on isolated speech recognition system performance
Kuah et al. A neural network-based text independent voice recognition system
JP2943473B2 (ja) 音声認識方法
JP2862306B2 (ja) 音声認識装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees