JPH04293096A - 音声認識方式 - Google Patents

音声認識方式

Info

Publication number
JPH04293096A
JPH04293096A JP3058797A JP5879791A JPH04293096A JP H04293096 A JPH04293096 A JP H04293096A JP 3058797 A JP3058797 A JP 3058797A JP 5879791 A JP5879791 A JP 5879791A JP H04293096 A JPH04293096 A JP H04293096A
Authority
JP
Japan
Prior art keywords
hmm
speech
phoneme
recognition
integrated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3058797A
Other languages
English (en)
Other versions
JP3050934B2 (ja
Inventor
Tsuneo Nitta
恒雄 新田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP3058797A priority Critical patent/JP3050934B2/ja
Priority to DE69220825T priority patent/DE69220825T2/de
Priority to EP92104898A priority patent/EP0504927B1/en
Publication of JPH04293096A publication Critical patent/JPH04293096A/ja
Priority to US08/195,845 priority patent/US5649056A/en
Application granted granted Critical
Publication of JP3050934B2 publication Critical patent/JP3050934B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/04Speaking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Educational Administration (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Computer Interaction (AREA)
  • Educational Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、発声された音声を高精
度に認識することのできる音声認識方式に関する。
【0002】
【従来の技術】近年、音声を認識する方式において、音
声を一定のシンボル系列に変換(これをベクトル量子化
と呼ぶ)し、シンボル系列の遷移として音声をモデル化
するHMM(hidden markov model
)を利用した認識方式が成功を収めている。音声をシン
ボルに変換する際に参照するテーブルは、符号帳と呼ば
れている。また、HMMは、複数の状態をもつ遷移ネッ
トワークで表わされ、各状態ごとにシンボルの出現確率
と状態間の遷移確率が埋め込まれている。
【0003】符号帳が定常的な係数(例えば、スペクト
ルやケプストラム)を使用している場合、音声事象はH
MM中に埋め込まれた状態の情報にのみ依存する(1つ
の状態の中では、時間関係がなくなる)。このため、Δ
ケプストラムのような微分情報が導入されている。すな
わち、音声は、スペクトル(またはケプストラム)だけ
でなく、それらの時間変化を考慮してシンボル系列に置
換える方法が採用されている。しかし、このように多く
の次元を持つ符号帳では、量子化の際の歪が非常に大き
くなる。このため、パラメータ空間を分割して(上記例
では、スペクトルとその時間変化情報を分離して)、次
元数を減らした複数の符号帳が用いられている。
【0004】これらの方法に対して、スペクトル(もし
くはケプストラム)の時系列、すなわち、2次元パター
ンを直接、量子化する方法があり、マトリクス量子化と
呼ばれている。マトリクス量子化は、音声パターンを近
似なしに直接扱える長所を持つ反面、量子化歪が増大す
る。そこで、量子化の際に統計的手法を用いて、歪を減
らす方法が提案されている。
【0005】しかしこのような方法を用いても、音声を
量子化する際の歪がいまだ大きく、さらに歪を低減する
手段が望まれている。これを解決するには、音声スペク
トル(もしくはケプストラム)をシンボルに置換えずに
(量子化せずに)、直接HMMの中でこれを表現すれば
良い。このような方法は、量子化を伴なう「離散HMM
」に対して「連続HMM」と呼ばれている。連続HMM
は、一般に厖大な計算を必要としている。これは、HM
Mへの入力ベクトル系列から、各状態に対応する共分散
行列を求め、認識の際に入力ベクトルと共分散行列との
積を計算しなければならないからである。
【0006】
【発明が解決しようとする課題】音声をHMMで表現す
る場合、その単位は音素、音節、単語、文節、あるいは
文等、種々考えられるが、認識の際に入力音声とそのモ
デルがよく一致すること、すなわち、歪が少ないことが
、全てに共通して大切なことである。上述したように、
音声スペクトルの時間変化を含む2次元パターンを直接
HMMの入力とする、連続HMMが、性能的に最も優れ
ている。しかし、この方法は、厖大な計算を必要とする
ため実用化が難しいという問題があった。そこで、本発
明は、発声された音声を高精度に認識することができ、
しかも、演算処理が厖大化することもない音声認識方式
を提供することを目的とする。
【0007】
【課題を解決するための手段】本発明の音声認識方式は
、入力される音声信号を音響分析することにより特徴パ
ラメータを求める音響分析手段と、この音響分析手段に
より求められた特徴パラメータと予め定められた所定の
音声セグメント単位の符号帳との間でマトリクス量子化
処理を行なうことにより音声セグメント類似度系列を求
めるマトリクス量子化手段と、このマトリクス量子化手
段により求められた音声セグメント類似度系列を音素特
徴ベクトルに統合変換する統合変換手段と、この統合変
換手段により統合変換された音素特徴ベクトルを一定の
単位毎に作成されたHMM(hidden marko
v model)を用いて照合することにより認識処理
を行なう認識手段とを具備している。
【0008】
【作用】入力される音声信号を音響分析することにより
特徴パラメータを求め、この求めた特徴パラメータと予
め定められた所定の音声セグメント単位の符号帳との間
でマトリクス量子化処理を行なうことにより音声セグメ
ント類似度系列を求め、この求めた音声セグメント類似
度系列を音素特徴ベクトルに統合変換し、この統合変換
された音素特徴ベクトルを一定の単位毎に作成されたH
MMを用いて照合することにより、高精度の認識処理を
行なうものである。
【0009】
【実施例】以下、本発明の一実施例について図面を参照
して説明する。
【0010】図1は、本発明に係る音声認識方式が適用
される音声認識装置を概略的に示すものである。本発明
では、音声学的に意味のあるセグメント(Phonet
ic Segment;以下PSと記述する)を量子化
の単位とし、このPSの類似度(距離)系列を一旦、音
素に統合変換した後、音素特徴ベクトル系列をHMM単
語照合部に送る。
【0011】ここまでの処理を以下に更に詳しく説明す
る。まず、音響分析部11にて、入力される音声信号を
、例えばLPC(リニア・プレディクティブ・コーディ
ング)分析もしくはBPF(バンドパス・フィルタ)分
析する。具体的には、例えば入力音声を図示されないA
/D変換器を用いて、サンプリング周波数が12KHz
、12ビットで量子化した後、フレーム長が24mse
c、フレーム周期が8msecで、16次程度のLPC
(メル)ケプストラムを求める。分析された特徴パラメ
ータは、マトリクス量子化部12に与えられ、PS符号
帳13に登録されている所定のPS単位の音声辞書との
間で、時間軸方向に連続的にマッチング処理が行なわれ
る。マトリクス量子化部12でのPSによる連続マッチ
ング処理は、例えば次式に示す部分空間法に基づく類似
尺度を用いて行なわれる。 ここで、C(PS):LPCメルケプストラム(C={
C1 ,C2 ,…,CN })φm   :PSの固
有ベクトル(・)は内積を、‖  ‖はノルムを示して
いる。すなわち、音声符号帳は、各PS毎にM個の直交
化された固有ベクトルで表現されている。ここで、本発
明に用いられるPSを説明する。PSは、例えば次のよ
うなものからなる。 (1) 持続性セグメント  ;(1−1) 母音定常
部(1−2) 持続性の子音部 (2) 子音セグメント    ;母音への渡り(過渡
部)を含む部分[半音節] (3) 音節境界セグメント;(3−1) 母音境界(
3−2) 母音−子音境界 (3−3) 母音−無音境界 (4) その他のセグメント;母音脱落、VCV(V:
母音、C:子音)等例として、100単語の音声資料に
対して選定した191種の音声セグメントを次に示す。 持続性セグメント:AA1A,AA2A,II1A,I
I2A,II3A,UU1A,UU2A,UU3A,E
E1A,EE2A,OO1A,OO2A,NN1A,N
N2A,NN4A,NN5A,BZ1A,MM1A,R
R1A,BB1A,SS1C,SH1C,CC1C,Z
Z1A,HHAB,HHIB,HHUB,HHEB,H
HOB,HVAA,HVIA,HVUA,HVEA子音
セグメント:QA1D,KA1E,KA2C,SA2E
,TA2C,NA2B,HA2B,GA2C,DA1E
,DA2B,CA1E,FA1C,FA2C,KI1E
,KI2C,SI2E,NI1C,NI2B,HI1D
,HI2C,MI2B,RI2B,BI1C,BI2B
,PI1C,PI2C,KU1E,KU2C,SU2D
,CU1E,CU2E,HU1D,RU2B,ZU2D
,BU2B,QE1D,KE1E,KE2C,SE1E
,SE2E,TE1D,TE2C,NE1C,NE2B
,HE1D,HE2B,ME1C,ME2B,RE1C
,RE2B,GE1D,GE2E,ZE1E,ZE2E
,DE1C,DE2B,BE1C,BE2B,PE1C
,PE2B,QO1D,KO1D,KO2C,TO1D
,TO2C,NO2B,HO1D,FO1E,FO2E
,MO2B,GO2C,DO2B,BO2B,PO1C
,PO2B,KY1E,SY1E,CY1E,NY2D
,HY2E,RY1D,RY2D,ZY2D境界セグメ
ント: 母音境界 AI1E,ANNC,INNC,IE1C,
IA1E,UA1C,EI1C,EO1E,ENNC,
EU1C,OI1E,OU1C,ONNC,NNOC,
NNEB母音−子音境界 YA1E,YU1E,YO1
E,AS1A,AN1A,AM1A,AR1A,AZ1
A,AD1A,AB1A,IS1A,IN1A,IH1
A,IR1A,IG1A,ID1A,IB1A,US1
A,UN1A,UM1A,UD1A,UB1A,EN1
A,EH1A,EF1A,EM1A,ER1A,EG1
A,ON1A,OH1A,OM1A,OR1A,OG1
A,OD1A,OB1A,NS1A,NH1A,NG1
A,NZ1A 母音−無音境界 AQ1A,IQ1A,UQ1A,EQ
1A,OQ1A,NQ1Aその他のセグメント: VCV      ANAC,ANEC,ARUC,A
REC,IRIC,IBOC,UNEC,UDAC,U
BUC,EREC,ERUC,ORIC,ORUC,母
音脱落ほか  KS1D,KQ1D,AUQA
【001
2】ここで、持続性セグメント中のAA1,AA2 は
、後者がストレスの弱い母音[a]の一部から切り出さ
れたことを示す。また、II3,UU3 は無声化した
セグメントである。NN1 〜NN5 は異なる音素環
境に対応している。BZ1 〜ZZ1 は子音に先立っ
て出現する声帯音ほかの現象、HHA 〜HHO は無
声の[h]、またHVA 〜HVE は有声化した[h
]に対応している。
【0013】次に、子音セグメント中のQA1 は語頭
の母音を、またKA1,KA2 は原則として後者が語
中から切り出されたものであることを示している。拗音
に属する外1などは、CA1 →YA1 →AA1 と
境界セグメントをはさんで構成している(実際の音声で
は、CA1 →AA1 またはAA2 と遷移すること
もありうる)。
【0014】
【数1】
【0015】境界セグメントとしては、母音境界(AI
1)、母音−子音境界(AS1)、母音−無音境界(A
Q1)などが登録されている。なお、母音境界を表わす
セグメントでは、撥音はNNと記されている(ANN)
【0016】その他のセグメントには、発声速度の速い
場合に観測される、子音の脱落しかけたVCV セグメ
ント(ANA) 、母音の脱落したセグメント(KS1
)などがある。 PS符号帳13には、このような 191種の音声セグ
メントの情報が直交化辞書として格納されている。
【0017】さて、このようなPSを量子化時のセグメ
ントとする場合、セグメントの特徴パラメータの次元数
(ここではLPCメルケプストラムの次数)と時間幅(
フレーム数)が問題となる。すなわち、母音定常部等に
ついては、その特徴パラメータの次元数を多く必要とす
るが、そのフレーム数は少なくて良い。また、破裂子音
等については、特徴パラメータの次元数もそのフレーム
数もある程度必要である。更に、摩擦子音等にあっては
、特徴パラメータの次元数は少なくて良いが、多くのフ
レーム数を必要とする。そこで、本発明では、各PSの
特徴パラメータとフレーム数を次のように定めている。
【0018】(特徴パラメータ,フレーム数);A=(
16,  4) B=(14,  6) C=(12,  8) D=(10,10) E=(  8,12) の組合わせの中から選択している。先に説明したPSの
種類を示す4文字のうち、最後の1文字は、この設定を
表わしている。この結果、母音ではAA1Aのように特
徴パラメータの次元数を「16」と大きく、またZE1
Eのような摩擦子音はフレーム数を「12」と多く設定
することができる。また、これによりPS全体の次元数
は64〜100と、比較的近い次元数に収まり、統計的
なマッチング処理(例えば部分空間法)による量子化歪
の低減が可能になった。
【0019】マトリクス量子化部12で求められたPS
類似度系列の精度を見るため、第1位となったPSの系
列を求め、このシンボル系列を(離散)HMMへ入力す
ることで単語音声の評価実験を行なった。この実験は、
不特定話者の単語音声を対象に行なわれ、結果は32単
語で98.4%と、従来の単語単位のパターンマッチン
グ法と比較して同程度の認識率であった。しかし、類似
した単語の対からなる32単語では、91.0%しか得
られず、第1位のシンボル系列を使用する「離散HMM
」では量子化誤差が未だに大きく、HMMを連続分布と
して扱う必要のあることが示された。
【0020】しかし、n種類のPSの類似度値からなる
ベクトルS=(S1,S2,… ,Sn )に対して、
「連続分布HMM」を直接適用することは、厖大な計算
を必要とするため得策ではない。そこで、音声セグメン
トの類似度空間Rnを効率良く、音素特徴空間Rm(m
<<n)に統合変換した後、連続分布HMMを適用する
方法を採用した。
【0021】音声セグメントPSの多くは、前述したよ
うに音声中に現れる様々な環境下の音素を表現するため
に設計されている。このため、これらと音素との対応付
けは比較的容易である。例えば、音素/r/に対応する
音声セグメントは、RA1,RA2,RI1,RI2,
RU1,RU2,RE1,RE2,RO1,RO2,R
Y1,RY2,RW1,RW2,ARA,ARI,AR
U,ARE,ARO,IRA,IRI,IRU,IRE
,IRO,URA,URI,URU,URE,URO,
ERA,ERI,ERU,ERE,ERO,ORA,O
RI,ORU,ORE,ORO,NRA,NRI,NR
U,NRE,NROの44種である。ここで、セグメン
ト名の数字は「1」が語頭を、「2」が語中を示す。ま
た、 ARAのように前後を母音で挟まれたセグメント
は、VCV型に属する。音声セグメントを音素に統合変
換する方法は、種々考えられる。本実施例では と最大値フィルタにより、その音素に属するPSを統合
する。右辺の{}内は、PSの類似度値、左辺は統合さ
れた音素のスコアである。
【0022】一般に用いられる音素には、{o,a,e
,i,u,h,j,w,r,n,m,z,s,g,k,
d,t,b,p}の19種がある。本実施例では、別に
モーラ音素/N/(撥音),語頭の母音V,持続性子音
部C,母音から子音への過渡部T、母音から無音への過
渡部Xを加えた24種を、音素特徴として用いる。 これにより、PSの類似度系列は、PS−音素統合変換
部14において、上記(1)式を実行することにより、
24次元の音素特徴ベクトルからなる系列へと変換され
、HMM認識部15へと送られる。図2に、単語音声「
堅固」に対応する音素特徴ベクトルの例を示す。
【0023】次に、本発明におけるHMMを用いた単語
照合について説明する。HMMではN個の状態S1 ,
S2 ,…,SN を持ち、初期状態がこれらN個の状
態に確率的に分布しているとする。音声では一定のフレ
ーム周期ごとに、ある確率(遷移確率)で状態を遷移す
るモデルが使われる。遷移の際には、ある確率(出力確
率)でラベルを出力するが、ラベルを出力しないで状態
を遷移するナル遷移を導入することもある。出力ラベル
系列が与えられても(状態を遷移する仕方は複数あるか
ら)状態遷移系列は一意には決まらない。観測できるの
はラベル系列だけであることから、隠れ(hidden
)マルコフモデルと呼ばれている。HMMモデルMは、
次の6つのパラメータから定義される。 N  :  状態数  (状態S1 ,S2 ,…,S
N ,実験ではN=10) K  :  ラベル数(ラベルL=1,2,…,K,実
験ではK=191) pij  :  遷移確率(SiにいてSjに遷移する
確率)qij(k) :  SiからSjへの遷移の際
にラベルkを出力する確率 mi  :  初期状態確率  (実験では初期状態は
S1 に限定) F  :  最終状態の集合(実験では最終状態はS1
0に限定)
【0024】次に、モデルMに対して音声の特徴を反映
した遷移上の制限を加える。音声では、一般に状態Si
から以前に通過した状態(Si−1,Si−2,……)
に戻るようなループは、時間の前後関係を乱すため許さ
れない。上記のようなHMMの構造としては、図3のよ
うな例が代表的である。
【0025】HMMを学習する際には、HMM学習部1
6で、ラベル系列Oを与えて、Pr(O/M)が最大と
なるモデルMのパラメータを推定すれば良い。この推定
に用いられるアルゴリズムとしては、フォワード・バッ
クワードアルゴリズムが知られている。
【0026】また、HMMの評価(認識)では、モデル
Mがラベル系列O=O1 ,O2 ,…,OT を出力
する確率Pr(O/M)を求める。すなわち、HMM認
識部15は、各単語に対応してモデルを仮定し、Pr(
O/M)が最大になるようなモデルM(単語)をヴイタ
ービのアルゴリズムを用いて検索する。
【0027】以上は、主として離散HMMを対象に説明
した。連続出力確率分布HMM(以下、連続HMMと記
述する)では、入力はラベル系列ではなく、ベクトル(
本発明では音素特徴ベクトル)となる。これにより、上
記の出力確率qij(k) (SiからSjへの遷移の
際にラベルkを出力する確率)の代わりに、ベクトルの
出現分布が与えられる。通常、この分布(ベクトルの各
要素の分布)は正規分布もしくは、正規分布の混合とし
て扱われる。連続HMMモデルは、次の6つのパラメー
タから定義される。 N  :  状態数  (状態S1 ,S2 ,…,S
N ,実験ではN=10) pij  :  遷移確率(SiにいてSjに遷移する
確率)μij  :  SiからSjへの遷移の際に表
われる平均ベクトル Σij  :  SiからSjへの遷移の際に表われる
ベクトルの共分散 mi  :  初期状態確率  (実験では初期状態は
S1 に限定) F  :  最終状態の集合(実験では最終状態はS1
0に限定)
【0028】混合分布では、μijとΣijが複数与え
られる。連続HMMの学習および評価(認識)は、離散
HMMと同様に各々フォワード・バックワードアルゴリ
ズムと、ヴィタービのアルゴリズムを使用することで行
なわれる。
【0029】実験では、多数の学習用データ(音素特徴
ベクトル)をHMM学習部16に与えて、確率Pr(O
/M)を最大にするように、32単語に対応する各モデ
ルMのパラメータを推定した(連続HMMでは、Oはベ
クトル系列である)。得られたモデルのパラメータ(単
語毎のμijとΣij)は、HMM単語モデルバッファ
17に蓄積される。
【0030】次に、認識の段階には、HMM単語モデル
バッファ17に蓄積された各モデルに対して、HMM認
識部15において、入力音声に対する音素特徴ベクトル
の確率Pr(O/M)を求め、この確率が最大になるよ
うなモデルMを求める。そのモデルに対応する単語が認
識結果となる。本発明の評価実験は、前述した離散HM
Mに対する実験と同じデータ(32個の類似単語)に対
して行なわれた。実験では、ベクトルの出現分布を単一
の正規分布とした場合と、2つの正規分布(混合分布)
からなる場合について行なった。ただし、学習データが
少ないことを考慮して、共分散は対角要素のみを用いて
いる。結果は、単一分布で91.3%、混合分布で92
.4%と離散HMMの成績(91.0%)を上回り、本
発明の優れていることが示された。
【0031】以上説明したように上記実施例によれば、
音声学的に意味のある「音声セグメント(PS)」を単
位として、統計的にマトリクス量子化処理を行ない、P
S類似度系列を音素特徴ベクトルに統合変換した後、H
MMを用いて認識処理を実行するので、連続音声中に生
じる様々な変形を効果的に吸収することが可能となり、
その結果、高精度な音声認識を実現することができる。 しかも、演算処理が厖大化することもない等、実用上多
大な効果が得られる。
【0032】なお、上記実施例では、音響分析によって
求められた特徴パラメータを、音声セグメント単位の符
号帳との間でマトリクス量子化処理を行なったが、この
代わりに通常のベクトル量子化を用いることも可能であ
る。また、特徴パラメータを音声セグメント単位に設定
されたニューラルネットワークのような他の識別器に通
し、この出力を音素特徴ベクトルに統合変換した後、連
続出力確率分布HMMを通して照合する等の変形も考え
られる。さらに、前記実施例では、音素特徴ベクトルへ
の統合変換に最大値フィルタを用いたが、音声セグメン
ト類似度系列をニュートラルネットワークへ入力して、
音素特徴ベクトルに統合変換する等の変形も考えられる
【0033】
【発明の効果】以上詳述したように本発明によれば、発
声された音声を高精度に認識することができ、しかも、
演算処理が厖大化することもない音声認識方式を提供す
ることができる。
【図面の簡単な説明】
【図1】本発明に係る音声認識方式が適用される音声認
識装置の構成を概略的に示すブロック図。
【図2】単語部に対応する音素特徴ベクトルの例を示す
図。
【図3】HMMの構造の代表例を示す図。
【符号の説明】
11…音響分析部、12…マトリクス量子化部、13…
PS符号帳、14…PS−音素統合変換部、15…HM
M認識部、16…HMM学習部、17…HMM単語モデ
ルバッファ。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】  入力される音声信号を音響分析するこ
    とにより特徴パラメータを求める音響分析手段と、この
    音響分析手段により求められた特徴パラメータと予め定
    められた所定の音声セグメント単位の符号帳との間でマ
    トリクス量子化処理を行なうことにより音声セグメント
    類似度系列を求めるマトリクス量子化手段と、このマト
    リクス量子化手段により求められた音声セグメント類似
    度系列を音素特徴ベクトルに統合変換する統合変換手段
    と、この統合変換手段により統合変換された音素特徴ベ
    クトルを一定の単位毎に作成されたHMM(hidde
    n markov model)を用いて照合すること
    により認識処理を行なう認識手段と、を具備したことを
    特徴とする音声認識方式。
JP3058797A 1991-03-22 1991-03-22 音声認識方式 Expired - Fee Related JP3050934B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP3058797A JP3050934B2 (ja) 1991-03-22 1991-03-22 音声認識方式
DE69220825T DE69220825T2 (de) 1991-03-22 1992-03-20 Verfahren und System zur Spracherkennung
EP92104898A EP0504927B1 (en) 1991-03-22 1992-03-20 Speech recognition system and method
US08/195,845 US5649056A (en) 1991-03-22 1994-02-14 Speech recognition system and method which permits a speaker's utterance to be recognized using a hidden markov model with subsequent calculation reduction

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3058797A JP3050934B2 (ja) 1991-03-22 1991-03-22 音声認識方式

Publications (2)

Publication Number Publication Date
JPH04293096A true JPH04293096A (ja) 1992-10-16
JP3050934B2 JP3050934B2 (ja) 2000-06-12

Family

ID=13094576

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3058797A Expired - Fee Related JP3050934B2 (ja) 1991-03-22 1991-03-22 音声認識方式

Country Status (4)

Country Link
US (1) US5649056A (ja)
EP (1) EP0504927B1 (ja)
JP (1) JP3050934B2 (ja)
DE (1) DE69220825T2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11511299A (ja) * 1995-05-15 1999-09-28 グラハム クレイブン、ピーター 波形データ用無損失符号化法

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0772840B2 (ja) * 1992-09-29 1995-08-02 日本アイ・ビー・エム株式会社 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法
GB9223066D0 (en) * 1992-11-04 1992-12-16 Secr Defence Children's speech training aid
US5440662A (en) * 1992-12-11 1995-08-08 At&T Corp. Keyword/non-keyword classification in isolated word speech recognition
EP0681729B1 (en) * 1993-01-30 1999-09-08 Korea Telecommunications Authority Speech synthesis and recognition system
US5794198A (en) * 1994-10-28 1998-08-11 Nippon Telegraph And Telephone Corporation Pattern recognition method
JPH0981183A (ja) * 1995-09-14 1997-03-28 Pioneer Electron Corp 音声モデルの作成方法およびこれを用いた音声認識装置
JPH10260692A (ja) * 1997-03-18 1998-09-29 Toshiba Corp 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム
US7630895B2 (en) * 2000-01-21 2009-12-08 At&T Intellectual Property I, L.P. Speaker verification method
US6076055A (en) * 1997-05-27 2000-06-13 Ameritech Speaker verification method
FR2769117B1 (fr) * 1997-09-29 2000-11-10 Matra Comm Procede d'apprentissage dans un systeme de reconnaissance de parole
US6092039A (en) * 1997-10-31 2000-07-18 International Business Machines Corporation Symbiotic automatic speech recognition and vocoder
US6219642B1 (en) 1998-10-05 2001-04-17 Legerity, Inc. Quantization using frequency and mean compensated frequency input data for robust speech recognition
US6347297B1 (en) * 1998-10-05 2002-02-12 Legerity, Inc. Matrix quantization with vector quantization error compensation and neural network postprocessing for robust speech recognition
JP2001166789A (ja) * 1999-12-10 2001-06-22 Matsushita Electric Ind Co Ltd 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置
TW521266B (en) * 2000-07-13 2003-02-21 Verbaltek Inc Perceptual phonetic feature speech recognition system and method
JP2002189487A (ja) * 2000-12-20 2002-07-05 Mitsubishi Electric Corp 音声認識装置および音声認識方法
WO2002059856A2 (en) * 2001-01-25 2002-08-01 The Psychological Corporation Speech transcription, therapy, and analysis system and method
US6711544B2 (en) 2001-01-25 2004-03-23 Harcourt Assessment, Inc. Speech therapy system and method
US6732076B2 (en) 2001-01-25 2004-05-04 Harcourt Assessment, Inc. Speech analysis and therapy system and method
US6725198B2 (en) 2001-01-25 2004-04-20 Harcourt Assessment, Inc. Speech analysis system and method
US20020143550A1 (en) * 2001-03-27 2002-10-03 Takashi Nakatsuyama Voice recognition shopping system
TW556152B (en) * 2002-05-29 2003-10-01 Labs Inc L Interface of automatically labeling phonic symbols for correcting user's pronunciation, and systems and methods
US7089185B2 (en) * 2002-06-27 2006-08-08 Intel Corporation Embedded multi-layer coupled hidden Markov model
US7231019B2 (en) * 2004-02-12 2007-06-12 Microsoft Corporation Automatic identification of telephone callers based on voice characteristics
US7970613B2 (en) 2005-11-12 2011-06-28 Sony Computer Entertainment Inc. Method and system for Gaussian probability data bit reduction and computation
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
US7778831B2 (en) * 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US8442829B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US9153235B2 (en) 2012-04-09 2015-10-06 Sony Computer Entertainment Inc. Text dependent speaker recognition with long-term feature based on functional data analysis
JP6495850B2 (ja) * 2016-03-14 2019-04-03 株式会社東芝 情報処理装置、情報処理方法、プログラムおよび認識システム
CN112786050B (zh) * 2019-11-07 2024-02-02 王皓 一种语音识别的方法、装置及设备
CN111508498B (zh) * 2020-04-09 2024-01-30 携程计算机技术(上海)有限公司 对话式语音识别方法、***、电子设备和存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6024994B2 (ja) * 1980-04-21 1985-06-15 シャープ株式会社 パタ−ン類似度計算方式
JPS59226400A (ja) * 1983-06-07 1984-12-19 松下電器産業株式会社 音声認識装置
US5131043A (en) * 1983-09-05 1992-07-14 Matsushita Electric Industrial Co., Ltd. Method of and apparatus for speech recognition wherein decisions are made based on phonemes
JPH0760318B2 (ja) * 1986-09-29 1995-06-28 株式会社東芝 連続音声認識方式
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
JPH0636156B2 (ja) * 1989-03-13 1994-05-11 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置
JPH0833739B2 (ja) * 1990-09-13 1996-03-29 三菱電機株式会社 パターン表現モデル学習装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11511299A (ja) * 1995-05-15 1999-09-28 グラハム クレイブン、ピーター 波形データ用無損失符号化法

Also Published As

Publication number Publication date
EP0504927A2 (en) 1992-09-23
DE69220825D1 (de) 1997-08-21
DE69220825T2 (de) 1998-02-19
JP3050934B2 (ja) 2000-06-12
EP0504927B1 (en) 1997-07-16
EP0504927A3 (en) 1993-06-02
US5649056A (en) 1997-07-15

Similar Documents

Publication Publication Date Title
JPH04293096A (ja) 音声認識方式
EP1647970B1 (en) Hidden conditional random field models for phonetic classification and speech recognition
Vadwala et al. Survey paper on different speech recognition algorithm: challenges and techniques
Ponting et al. The use of variable frame rate analysis in speech recognition
JP2001166789A (ja) 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置
Bhatt et al. Syllable based Hindi speech recognition
Liberatore et al. SABR: sparse, anchor-based representation of the speech signal
Ezzine et al. Moroccan dialect speech recognition system based on cmu sphinxtools
Furui On the use of hierarchical spectral dynamics in speech recognition
Chandrakala et al. Histogram of states based assistive system for speech impairment due to neurological disorders
Hamaker et al. Advances in alphadigit recognition using syllables
Ong et al. Malay language speech recogniser with hybrid hidden markov model and artificial neural network (HMM/ANN)
Wang et al. A multi-space distribution (MSD) approach to speech recognition of tonal languages
JP5300000B2 (ja) 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム
Chen et al. A first study on neural net based generation of prosodic and spectral information for Mandarin text-to-speech
Zealouk et al. Investigation on speech recognition Accuracy via Sphinx toolkits
Sankala et al. Self attentive context dependent speaker embedding for speaker verification
Kalaiarasi et al. Performance Analysis and Comparison of Speaker Independent Isolated Speech Recognition System
Azmi et al. Syllable-based automatic arabic speech recognition in noisy-telephone channel
El Hannani et al. Using data-driven and phonetic units for speaker verification
Caballero et al. Data driven multidialectal phone set for Spanish dialects.
Manjunath et al. Improvement of phone recognition accuracy using source and system features
Gujral et al. Various Issues In Computerized Speech Recognition Systems
JP2994443B2 (ja) 音声認識方式
Zhou et al. Multisegment multiple VQ codebooks-based speaker independent isolated-word recognition using unbiased mel cepstrum

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees