JP3461789B2

JP3461789B2 - 音声認識装置および音声認識方法、並びに、プログラム記録媒体

Info

Publication number: JP3461789B2
Application number: JP2000187686A
Authority: JP
Inventors: 俊夫赤羽
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2000-06-22
Filing date: 2000-06-22
Publication date: 2003-10-27
Anticipated expiration: 2020-06-22
Also published as: JP2002006883A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、隠れマルコフモ
デルを用いた音声認識装置および音声認識方法、並び
に、音声認識プログラムが記録されたプログラム記録媒
体に関する。

【０００２】

【従来の技術】音声認識手法の一つとして隠れマルコフ
モデル(以下、ＨＭＭと略称する)がある(Rabiner＆Juan
g著,古井監訳「音声認識の基礎」第６章,ＮＴＴアドバン
ストテクノロジ１９９５年：文献１)。上記ＨＭＭにお
いては、話者や発声変動等の音声が有する揺らぎを統計
的に学習することによって高い認識精度が得られるため
に、現代では音声認識方式として定着している。

【０００３】図３は、上記ＨＭＭを用いた従来の基本的
な音声認識装置の構成例である。以下、図３に従って、
従来のＨＭＭを用いた音声認識装置について説明する。
尚、入力音声は既にサンプリングおよび量子化されてい
るものとする。

【０００４】音響分析部１は、音声サンプルデータを一
定の周期毎に取り込んで音響パラメータを抽出し、尤度
演算部２と音声区間検出部３とに出力する。音響モデル
記憶部４には、音素や音節等の音声の徴小単位毎に音響
パラメータの分布を統計的に学習した音響モデルが記憶
されている。尚、上記音響モデルは、大量の音声データ
から学習されているものとする。

【０００５】上記尤度演算部２は、上記音響モデル記憶
部４に記憶された音響モデルを構成する各状態の出力確
率に基づいて、入力された各フレームの音響パラメータ
から各フレーム毎に各状態の尤度を求め、尤度記憶部５
に記憶する。音声区間検出部３は、音響分析部１による
音響分析結果から、主に短時間音声エネルギー等の一部
の音響パラメータを用いて音声区間を検出する。

【０００６】言語辞書６には、認識対象語彙の各単語
と、この単語を音響モデルである各音素モデルの状態系
列を直列接続して表現したものとを対応付けて格納して
いる。照合部７は、言語辞書６に格納された各単語に関
して、言語辞書６に格納された状態系列と入力された全
フレームの状態系列とをビタビ法によって照合して、各
単語の尤度を算出する。その場合、入力された各フレー
ムにおける各状態の局所尤度は、尤度記憶部５に記憶さ
れた値を参照することによって得る。そして、尤度の高
い単語の順に並べ直し、上位候補を出力するのである。

【０００７】ところで、上記文献１における６.４.２.
２節によると、上記ＨＭＭを用いた認識の基礎となるビ
タビアルゴリズムにおいては、入力された観測系列の長
さをＴとし、単語モデルの状態数をＮとすると、次の繰
り返し計算が処理の大部分を占める。 δ_t(j)＝max[δ_t-1(i)＋ａ_ij]＋ｂ_j(o_t) …（１） Ψ_t(j)＝argmax[δ_t-1(i)＋ａ_ij] …（２）２≦ｔ≦Ｔ, １≦ｊ≦Ｎここで、ａ_ij,ｂ_j(o_t)は、夫々対数化した遷移確率と出
力確率とである。また、δは累積尤度であり、Ψはバッ
クポインタであり、ｉは(ｔ−１)の状態番号である。
尚、マッチング時のパスを知る必要がない場合は上記式
(２)は必要がない。

【０００８】上記式(１),(２)の計算量は、Ｎ²・Ｔのオ
ーダーでの加算および比較となる。但し、状態遷移を隣
接する状態間のみに制限するとオーダーは２・Ｎ・Ｔとな
る。大語彙の音声認識を行うには単語毎に学習データを
大量に収集するのは困難であるために、音素毎のモデル
(音素モデル)を予め学習しておき、これら音素モデルを
連結することによって任意の単語を生成する方法がよく
用いられる。上記音素モデルとして十分な性能を発揮す
るには、各音素毎に３つから５つ程度の状態を有するＨ
ＭＭを設定するのが一般的である。

【０００９】これらを総合すると、大語彙の単語の照合
に必要なビタビ演算の計算量は、単語数をＶ、単語辞書
の平均音素数をＰ、音素の平均状態数をＳ、入力音声の
長さをＴとすると、２・Ｖ・Ｐ・Ｓ・Ｔのオーダーとなる。
例として、Ｖ＝１,０００単語、Ｐ＝１０音素、Ｓ＝４
状態、Ｔ＝１００フレームとすると、２＊１０００＊１
０＊４＊１００＝８,０００,０００オーダーの膨大な加
算および比較が必要になるという問題がある。

【００１０】上述のごとき膨大な演算に対処するため、
特開平６‐２６６３９３号公報(文献２)に開示された音
声認識装置においては、標準パターンを用いた音声認識
の際におけるマッチングを高速化するための方法とし
て、入力系列と標準パターンとを共に分周器によって一
定間隔で間引いて高速な予備選択を行う方法およびワー
ドスポッティングの方法を用いている。

【００１１】また、他の文献(文献３)“「A Fast Appro
ximate Acoustic Match for LargeVocabulary Speech R
ecognition」IEEE Trans. on Speech and Audio Process
ingVol.1，No.1，January 1993”には、ＨＭＭを用いた
音声認識において、詳細な照合を行う前に候補数を絞る
ために行う高速な照合を実現する方法が開示されてい
る。文献３に記載の音声認識装置では、詳細照合用の音
素モデルとしては前後の音素環境を考慮した環境依存型
のＨＭＭを用いるが、高速マッチングの際には環境を考
慮しない環境独立型の音素モデルを用いる。すなわち、
音素ｕに属する環境依存型ＨＭＭ内の状態の集合をＡu
とし、状態ａ∈Ａuからラベルfiを出力する出力確率をp
r(fi?ａ)とすると、音素ｕの出力確率を次式で定義す
る。また、音素ｕに属する長さｎの状態系列から脱出する脱
出確率をｑu(ｎ)とすると、音素ｕの状態から脱出する
遷移確率を次式で定義する。一方、状態ｕ内に留まる確率は１としている。

【００１２】このようにして定義した環境独立型の音素
ＨＭＭを用いることと、単語辞書を音素の木構造で表現
することとによって、入力系列と照合すべき辞書を縮小
し、大語彙辞書との高速なマッチングとを可能にしてい
る。

【００１３】

【発明が解決しようとする課題】しかしながら、上記従
来の高速なマッチングを実現する音声認識装置において
は、以下のような問題がある。一般に、音響モデルとし
てのＨＭＭが精密になればなる程、モデルを構成する音
素数や状態数は多くなり、照合に必要な計算量が増大す
る。そこで、上記文献２や文献３に開示されているよう
な高速な照合によって粗く候補を選択して、後に詳細に
照合する方法が、計算量の増大に対するよい解決手段と
なるのである。但し、上記文献２のように、標準パター
ンを時間方向に一定間隔で間引く方法はＨＭＭの状態列
に対しては適用できないため、ＨＭＭを用いた音声認識
装置には上記文献３のような少ない状態数のモデルを用
いる方法が適していると言える。その理由は、上記文献
２の方法のように入力音声を一定間隔で間引くと、早口
で発声した音声の場合に破裂音等の瞬間的な音素の特徴
を見落としてしまう場合がある。そこで、破裂音等の瞬
間的な音素の特徴を見落とさないように間引き率を設定
すると、十分な高速化が行えないという別の問題が発生
するためである。

【００１４】また、上記文献３では、複数状態から成る
環境依存型音素モデルを１状態の環境独立型音素モデル
に変換する操作において、音素間でパラメータ空間を占
める範囲が重複していることから音素の尤度間に格差が
生じ、一定の音素誤りが多数起こる場合がある。その場
合には、高速照合結果に誤りが多く含まれることにな
り、候補を少ない数に制限することができないため高速
化が十分できないことになる。これらの問題を解決する
方法に付いては、文献３には何ら記載されてはいない。

【００１５】そこで、この発明の目的は、破裂音等の瞬
間的な音素の欠落や誤りの少ない高速照合を可能にする
ＨＭＭを用いた音声認識装置および音声認識方法、並び
に、音声認識プログラムを記録したプログラム記録媒体
を提供することにある。

【００１６】

【課題を解決するための手段】上記目的を達成するた
め、第１の発明の音声認識装置は、入力音声を音響分析
する音響分析手段と、上記音響分析結果に基づいて,音
響モデル記憶手段に記憶された音響モデルを参照してフ
レーム毎に各状態の尤度を演算し,演算結果を詳細照合
用尤度として詳細照合用尤度記憶手段に記憶する尤度演
算手段と、上記詳細照合用尤度に基づいて,高速照合用
尤度を求める高速照合用尤度演算手段と、上記高速照合
用尤度の誤った側への偏りを修正し,高速照合用尤度記
憶手段に記憶する高速照合用尤度修正手段と、上記修正
後の高速照合用尤度と高速照合用言語辞書に登録された
全単語との照合を行って上記各単語の尤度を算出する高
速照合手段と、上記高速照合手段による照合結果に基づ
いて候補単語の予備選択を行う候補予備選択手段と、上
記予備選択された候補単語に関して,上記詳細照合用尤
度と詳細照合用言語辞書に登録された単語との詳細照合
を行って,上記各候補単語の尤度を算出する詳細照合手
段を備えたことを特徴としている。

【００１７】上記構成によれば、尤度演算手段によって
フレーム毎に各状態の尤度が演算され、上記詳細照合用
尤度に基づいて、高速照合用尤度演算手段によって高速
照合用尤度が求められる。そして、高速照合用尤度修正
手段によって、上記高速照合用尤度の誤った側への偏り
が修正される。

【００１８】こうして、上記高速照合用尤度を少ない状
態で表現した際に生ずる尤度の誤った音声単位側への偏
りが、上記高速照合用尤度修正手段によって修正され
る。したがって、上記修正後の高速照合用尤度を用いて
高速照合を行って候補単語の予備選択を行う際に、照合
誤りが少なくなる。その結果、候補単語が少ない数に的
確に絞り込まれ、以後に詳細照合手段によって行われる
詳細照合の高速化が効率的に行われるのである。

【００１９】また、上記第１の発明の音声認識装置は、
上記音響分析結果に基づいて間引きパラメータを演算す
る間引きパラメータ演算手段を備えると共に、上記高速
照合用尤度演算手段を,上記詳細照合用尤度に対して上
記間引きパラメータに基づく時間方向への間引き処理を
行った後に,残った上記詳細照合用尤度に基づいて,高速
照合用尤度を求めるように成すことが望ましい。

【００２０】上記構成によれば、上記高速照合用尤度演
算手段による上記詳細照合用尤度に対する時間方向への
間引き処理は、間引きパラメータ演算手段によって演算
された間引きパラメータに基づいて行われる。したがっ
て、上記間引きパラメータを適切に算出することによっ
て、上記文献２のごとく時間方向に一定間隔で間引く場
合のように瞬間的な特徴が欠落することがなく、且つ、
十分に高速化を行うことが可能になる。

【００２１】また、上記第１の発明の音声認識装置は、
上記間引きパラメータ演算手段を,上記音響分析結果と
しての音響パラメータの変化量に基づいて上記間引きパ
ラメータを演算するように成し、上記高速照合用尤度演
算手段を,上記間引きパラメータに基づいて,上記音響パ
ラメータの変化量が略一定になるように間引き処理を行
うように成すことが望ましい。

【００２２】上記構成によれば、上記高速照合用尤度演
算手段による間引き処理は、音響パラメータの変化量が
略一定になるように行われる。したがって、間引き処理
後の上記詳細照合用尤度数は音響パラメータの変化が激
しい領域ほど多く、瞬間的な特徴が欠落してしまうこと
が防止される。

【００２３】また、上記第１の発明の音声認識装置は、
上記高速照合用尤度演算手段を、上記音響モデルの構成
単位である音声単位を一つの代表尤度で表わすことによ
って上記高速照合用尤度の演算を行うように成すことが
望ましい。

【００２４】上記構成によれば、高速照合用の尤度が最
小の状態数で表現されている。したがって、上記高速照
合用の尤度を用いた高速照合が高速に行われる。

【００２５】また、上記第１の発明の音声認識装置は、
上記高速照合用尤度演算手段を、上記音響モデルの構成
単位である音声単位を誤り易い音声単位でグループ化
し、一つのグループを一つの代表尤度で表わすことによ
って上記高速照合用尤度の演算を行うように成すことが
望ましい。

【００２６】上記構成によれば、高速照合用の尤度が、
誤り易い音声単位でグループ化された一つのグループで
表現されている。したがって、誤った音声単位の尤度が
正しい音声単位の尤度よりも高くなることがなく、高速
照合時における照合誤りが少なくなる。さらに、上記グ
ループ化によって、高速照合時における照合の対象が減
少し、上記高速照合が非常に高速に行われる。

【００２７】尚、この場合には、上記高速照合用尤度修
正手段による修正処理を省略することが可能になる。

【００２８】また、上記第１の発明の音声認識装置は、
高速照合用尤度修正手段を、上記音声単位間あるいは上
記グループ間の誤りパターンを考慮して上記音声単位あ
るいは上記グループの代表尤度を修正することによっ
て、上記高速照合用尤度の修正を行うように成すことが
望ましい。

【００２９】上記構成によれば、予め分っている上記音
声単位間あるいはグループ間の誤りパターンを考慮して
上記音声単位あるいはグループの代表尤度を修正するの
で、迅速に且つ的確に修正処理が行われる。

【００３０】また、上記第１の発明の音声認識装置は、
上記高速照合手段を,内部メモリを有するように成し、
上記高速照合用言語辞書は高速照合用言語辞書記憶手段
に記憶されおり、上記高速照合手段を,上記高速照合を
実行する際には,上記高速照合用尤度記憶手段に記憶さ
れた高速照合用尤度と上記高速照合用言語辞書記憶手段
に記憶された高速照合用言語辞書とを,上記内部メモリ
にロードするように成すことが望ましい。

【００３１】上記構成によれば、上記高速照合手段は、
高速照合を実行するに際して、上記高速照合用尤度と高
速照合用言語辞書とを上記内部メモリにロードするの
で、上記高速照合処理が効率よく行われる。

【００３２】また、上記第１の発明の音声認識装置は、
単語が入力されて、この入力単語に関する高速照合用の
状態系列と詳細照合用の状態系列とを生成し、上記高速
照合用の状態系列を上記高速照合用言語辞書に追加登録
する一方、上記詳細照合用の状態系列を上記詳細照合用
言語辞書に追加登録する辞書登録手段を備えることが望
ましい。

【００３３】上記構成によれば、辞書登録手段に新しい
単語を入力するだけで、自動的に上記高速照合用言語辞
書および詳細照合用言語辞書の両辞書に当該単語の辞書
項目が追加登録される。したがって、常に新しい単語が
認識可能になり、高い認識率が維持される。

【００３４】また、上記第１の発明の音声認識装置は、
上記辞書登録手段を、上記高速照合用の状態系列を生成
する際に、同一の音声単位あるいは同一の音声単位グル
ープが連続する場合には、上記連続する同一音声単位あ
るいは上記連続する同一音声単位グループを１つの状態
に圧縮するように成すことが望ましい。

【００３５】上記構成によれば、連続する同一音声単位
あるいは連続する同一音声単位グループが１つの状態に
圧縮されている。したがって、上記高速照合用言語辞書
を用いた高速照合の高速化が図られる。

【００３６】また、第２の発明の音声認識方法は、入力
音声を音響分析するステップと、上記音響分析結果に基
づいて,音響モデルを参照してフレーム毎に各状態の尤
度を演算して詳細照合用尤度を求めるステップと、上記
詳細照合用尤度に基づいて高速照合用尤度を求めるステ
ップと、上記高速照合用尤度の誤った側への偏りを修正
するステップと、上記修正後の高速照合用尤度と高速照
合用言語辞書に登録された全単語との高速照合を行って
上記各単語の尤度を算出するステップと、上記高速照合
結果に基づいて候補単語の予備選択を行うステップと、
上記予備選択された候補単語に関して,上記詳細照合用
尤度と詳細照合用言語辞書に登録された単語との詳細照
合を行って上記各候補単語の尤度を算出するステップを
特徴としている。

【００３７】上記構成によれば、フレーム毎に各状態の
尤度が演算され、上記詳細照合用尤度に基づいて高速照
合用尤度が求められる。そして、上記高速照合用尤度を
少ない状態で表現した際に生ずる各尤度の誤った音声単
位側への偏りが修正される。したがって、上記修正後の
高速照合用尤度を用いて高速照合を行って候補単語の予
備選択を行う際に、照合誤りが少なくなる。その結果、
候補単語が少ない数に的確に絞り込まれ、以後に行われ
る詳細照合の高速化が効率的に行われる。

【００３８】また、第３の発明のプログラム記録媒体
は、コンピュータを、上記第１の発明における音響分析
手段,尤度演算手段,高速照合用尤度演算手段,高速照合
用尤度修正手段,高速照合手段,候補予備選択手段および
詳細照合手段として機能させる音声認識処理プログラム
が記録されていることを特徴としている。

【００３９】上記構成によれば、上記第１の発明と同様
に、上記高速照合用尤度を少ない状態で表現した際に生
ずる各尤度の誤った音声単位側への偏りが修正される。
したがって、上記修正後の高速照合用尤度を用いて高速
照合を行って候補単語の予備選択を行う際に、照合誤り
が少なくなる。その結果、候補単語が少ない数に的確に
絞り込まれ、以後に行われる詳細照合の高速化が効率的
に行われる。

【００４０】

【発明の実施の形態】以下、この発明を図示の実施の形
態により詳細に説明する。図１は、本実施の形態の音声
認識装置におけるブロック図であり、ＨＭＭを用いた音
声認識装置である。以下、図１に従って、本実施の形態
における音声認識装置について説明する。尚、入力音声
は、既にサンプリングおよび量子化されているものとす
る。また、以下の説明は、音響モデルを構成する単位は
音素(音素モデル)であるとして行うが、上記構成単位は
音節(音節モデル)であっても構わない。

【００４１】音響分析部１１は、音声サンプルデータを
一定の周期ごとに取り込んで音響パラメータを抽出し、
尤度演算部１２と音声区間検出部１３と間引きパラメー
タ演算部１４とに出力する。その際における分析周期は
５msから２０ms程度とし、分析窓長は分析周期より長く
１０msから２０msとするのが一般的である。尚、分析手
法としては一般的に用いられるフィルタバンクによる帯
域エネルギー,ＦＦＴ（高速フーリエ変換)ケプストラ
ム,線形予測分析を用いたＬＰＣ(線形予測分析)ケプス
トラム等の分析パラメータと、短時間音声エネルギー
と、これらの時間変化量とを組み合わせて用いる。

【００４２】上記尤度演算部１２は、入力されたフレー
ムの音響パラメータと、音響モデル記憶部１５に記憶さ
れた音響モデルを構成する各状態の出力確率密度分布と
に基づいて、各フレーム毎に各状態の尤度を求めて、詳
細照合用尤度記憶部１６に記憶する。ここで、連続分布
型ＨＭＭである場合には、ｊ番目のＭ次元出力確率密度
分布を、平均ベクトルμj＝{μj₁,μj₂,…,μj_i,…,μj
_M}、分散σj²＝{σj² ₁,σj² ₂,…,σj² _i,…,σj² _M}で表
わし、入力ベクトルをｃ＝(ｃ₁,ｃ₂,…,ｃ_i…,ｃ_M)で表
わすと、対数尤度Ｌjは式(５)で表される。

【００４３】状態ｋの尤度Ｐkが複数の分布の集合Ｄkの
混合分布で表現される場合、本来は真数の尤度で加算し
てから対数尤度に変換すべきであるが、高速化のために
近似的に最大値をとる処理で置き換えても構わない。こ
の場合、各分布ｊの混合比率をλkjとすると式(６)で表
される。

【００４４】上記音声区間検出部１３は、上記音響分析
部１１による音響分析結果から、主に短時間音声エネル
ギー等の一部のパラメータを用いて音声区間を検出す
る。間引きパラメータ演算部１４は、高速照合に用いる
フレームの間引き方を決定するための間引きパラメータ
を各フレーム毎に計算し、得られた間引きパラメータを
間引きパラメータ記憶部１７に記憶しておく。一例とし
て、フレームｔにおける間引きパラメータＢ(t)を式
(７)によって求める。ここで、ΔＣtiは、フレームｔにおける音響パラメータ
のｉ次元目の値における前フレームからの変化量であ
る。また、σiは、音響パラメータのｉ次元めの標準偏
差である。標準偏差σiの値は大量のデータから求める
必要があり、音響モデルを作成した際のデータを用いる
ことができる。あるいは、音響モデルを構成する出力確
立密度分布の分散を平均した値から求めてもよい。

【００４５】高速照合用尤度演算部１８は、上記詳細照
合用尤度記憶部１６に記憶された尤度テーブルから音声
区間検出部１３によって検出された音声区間の範囲内に
ある尤度値を読み出し、高速照合用尤度を求める。その
場合における高速照合用尤度は、詳細照合用尤度の中か
ら音素環境を無視して同じ音素の全状態の尤度を読み出
し、つまり、同じ音素であって異なる音素環境に在る音
素に属する総ての状態の尤度を読み出し、その最大値を
求めることによって求める。

【００４６】その際に、上記高速照合用尤度の演算に先
立って、上記間引きパラメータ記憶部１７に記憶された
間引きパラメータを積分しながら、音響パラメータの変
化量が略一定になるようにフレームの間引きを行うので
ある。したがって、上記高速照合用尤度の演算は、間引
きの結果残った少ないフレームに対してだけ行えばよ
く、上記演算を迅速に行うことができるのである。例と
して、分析周期が１０msの場合における平均的な間引き
率は１/４から１/５程度で効率よく照合が行え、精度の
劣化も少ないことが実験的に分かっている。

【００４７】高速照合用尤度修正部１９は、上記高速照
合用尤度演算部１８によって計算された音素毎の尤度
を、尤度の修正ルールに従って修正を行う。例えば、無
音区間が入力された場合には、無音/Ｓ/の尤度Ｌ(/Ｓ/)
よりも音素/Ｋ/の尤度Ｌ(/Ｋ/)の方が大きくなることが
非常に多い場合、式(８)により、Ｌ(/Ｓ/)＝max{Ｌ(/Ｓ/),Ｌ(/Ｋ/)｝ …（８）無音から始まる母音を音素/Ｋ/で始まる「か行」の母音に
誤る現象を削減することができるのである。この他「わ」
の音を表す音素/ｗ/を「う(/ｕ/)」や「お(/ｏ/)」の母音に
誤る等の現象にも適用できる。このように、予め分って
いる誤り易い音素の対のパターンを用いて修正を行うこ
とによって、迅速に且つ的確に修正処理を行うのとがで
きるのである。

【００４８】高速照合用尤度記憶部２０は、上記高速照
合用尤度修正部１９によって修正された音素の尤度を記
憶する。高速照合用言語辞書２１は、認識対象語彙の各
単語と、この単語を１音素を１状態とした状態系列で表
現したものとを対応付けて格納している。高速照合部２
２では、間引き処理後の入力と高速照合用言語辞書２１
の各単語とのビタビ法による照合を行う。その際におけ
る各入力フレームの局所尤度は、高速照合用尤度記憶部
２０を参照することによって求める。

【００４９】候補予備選択部２３は、上記高速照合部２
２による各単語に対するビタビ照合の結果に基づいて、
尤度の大きい順にＨ個の単語を選ぶ。尚、「Ｈ」の数は語
彙数に依存するが、語彙数の１/５から１/２０程度とす
る。詳細照合用言語辞書２４には、認識対象語彙の各単
語と、この単語を音響モデルである各環境依存型音素モ
デルの状態系列を直列接続して表現したものとを対応付
けて格納している。

【００５０】詳細照合部２５は、上記候補予備選択部２
３によって選択されたＨ個の単語に関して、詳細照合用
言語辞書２４に格納された状態系列と入力された全フレ
ームとをビタビ法によって照合して、Ｈ個の単語の尤度
を計算し直す。その場合、入力された各フレームにおけ
る各状態の局所尤度は、詳細照合用尤度記憶部１６に記
憶された値を参照することによって得る。そして、上記
予備選択されたＨ個の候補単語を、計算し直した尤度の
高い順に並べ直し、上位候補を出力するのである。

【００５１】上記実施の形態における高速照合用尤度演
算および高速照合に用いる音素は、上述のごとく詳細照
合用の音素モデルの音素をそのまま使うのではなく、別
の音素クラスを用いることも可能ではある。その場合に
おける音素クラスとしては、/ｕ/と/ｏ/と/ｗ/等の誤り
易い音素群は同一のクラスとし、「か,く,け,こ」におけ
る音素/ｋ/と「き」における音素/ｋ/等の誤り難い音素は
別音素とする等、音響モデルの誤り特性に合わせて調節
すると効果的である。その場合は、高速照合用言語辞書
２１を高速照合用音素クラスで記述しておく必要があ
る。尚、上述のように誤り易い音素群は同一のクラスと
する場合には、高速照合用尤度修正部１９による高速照
合用尤度の修正処理を省略しても構わない。

【００５２】また、上記文献３のごとく、高速照合を効
率よく行うために、高速照合用言語辞書２１を、語頭か
ら同じ音素を共通化して木構造に成しても差し支えな
い。但し、語彙数が数百単語程度の場合には共通化の効
果が少なく、処理が複雑になるためあまり高速化はでき
ない。また、語彙に含まれる長母音を短母音に省略する
方法は、語彙数が数百程度と少ない場合でも若干計算量
を削減することが可能である。また、高速照合用尤度演
算および高速照合に音素クラスを用いる場合は、元の単
語としては異なる音素連鎖であっても音素クラスで表現
した場合には同じ音素クラスの連続となる部分を１つの
状態に圧縮することによって、若干高速化の効果が得ら
れる。

【００５３】ところで、音声認識装置をＤＳＰ(ディジ
タル・シグナル・プロセッサ)や汎用プロセッサ等によっ
て実現する場合には、内部メモリを効率よく使用し、外
部メモリヘのアクセスを少なくすることによる高速化が
重要となる。このことを本実施の形態の音声認識装置に
おいて実現する方法として、高速照合の時だけ必要にな
る高速照合用言語辞書２１と高速照合用の尤度テーブル
(高速照合用尤度記憶部２０の記憶内容)をプロセッサの
内部ＲＡＭ(ランダム・アクセス・メモリ)にロードするこ
とによって、効率よく高速照合を行う方法が考えられ
る。

【００５４】具体的には、詳細照合用の尤度テーブル
(詳細照合用尤度記憶部１６の記憶内容)は一般に大きな
容量が必要になるため、詳細照合用尤度記憶部１６は外
部メモリ上に設定する。そして、尤度演算部１２は、音
声入力に同期して各フレーム毎に尤度を演算し、得られ
た尤度を上記外部メモリの詳細照合用尤度記憶部１６に
記憶する。一方、音声区間検出部１３によって音声区間
が切り出されると、入力音声を停止した後、高速照合用
尤度演算部１８によって高速照合用尤度演算を行い、高
速照合用尤度修正部１９で修正する。そして、得られた
修正後の尤度をプロセッサの上記内部ＲＡＭ上の高速照
合用尤度記憶部２０に記憶する。それと同時に、高速照
合用言語辞書２１を上記内部ＲＡＭにロードしておく。
そして、高速照合部２２によって、上記内部ＲＡＭ上の
高速照合用の尤度テーブルと高速照合用言語辞書２１と
を用いて高速照合を行った後に、上記内部ＲＡＭを開放
する。そうした後、上記詳細照合用の尤度テーブルと詳
細照合用言語辞書２４とを外部メモリから上記内部ＲＡ
Ｍにロードして、候補予備選択部２３による選択の結果
残った候補に対してのみ、詳細照合部２５によって詳細
な照合を行うのである。

【００５５】ユーザーが新しい単語等を辞書に登録する
場合には、辞書登録部２６に単語を入力すると、辞書登
録部２６によって、詳細照合用の音素状態系列と高速照
合用の状態系列とが作成される。そして、前者は詳細照
合用言語辞書２４に追加登録され、後者は高速照合用言
語辞書２１に追加登録される。こうして、高速照合用言
語辞書２１および詳細照合用言語辞書２４の両辞書に自
動的に新しい単語を追加登録することによって、常に新
しい単語を認識可能にして高い認識率を維持できるので
ある。

【００５６】以下、図２のフローチャートに従って、上
記音声認識装置による音声認識処理動作のアルゴリズム
について説明する。ステップＳ1で、音響分析部１１に
よって入力音声が音響分析される。そして、分析結果に
基づいて、間引きパラメータ演算部１４によって間引き
パラメータが演算されて間引きパラメータ記憶部１７に
記憶される。ステップＳ2で、尤度演算部１２によっ
て、音響分析部１１による分析結果に基づいて、フレー
ム毎に各状態の尤度が算出されて上記外部メモリの詳細
照合用尤度記憶部１６に記憶される。ステップＳ3で、
音声区間検出部１３によって、音響分析部１１による分
析結果に基づいて音声区間が検出され、検出信号が出力
される。

【００５７】ステップＳ4で、上記高速照合用尤度演算
部１８によって、上記検出信号に基づいて音声区間が検
出された否かが判別される。その結果、検出されればス
テップＳ5に進み、そうでなければステップＳ1に戻って
検出されるのを待つ。ステップＳ5で、高速照合用尤度
演算部１８によって、詳細照合用尤度記憶部１６に記憶
された当該音声区間の尤度値を用いて、上記間引きパラ
メータに基づく入力の間引きが行われた後、音素環境を
考慮しない高速照合用尤度が演算される。さらに、高速
照合用尤度修正部１９によって音素毎に誤り音素側への
尤度の偏りが修正される。こうして得られた高速照合用
の尤度は高速照合用尤度記憶部２０に記憶される。

【００５８】ステップＳ6で、上記高速照合部２２によ
って、上述のような高速照合が行われて高速照合用言語
辞書２１に登録された各単語の尤度が求められる。ステ
ップＳ7で、全単語の高速照合が終了したか否かが判別
される。その結果、終了すればステップＳ8に進み、終
了していなければ上記ステップＳ6に戻って高速照合が
続行される。ステップＳ8で、候補予備選択部２３によ
って、尤度の高い順に上位Ｈ個の単語が候補として選択
される。

【００５９】ステップＳ9で、上記詳細照合部２５によ
って、上記予備選択された候補単語に関して、詳細照合
用言語辞書２４を用いて詳細照合が行われ、正確な尤度
が求め直される。ステップＳ10で、全予備選択候補単語
に関する詳細照合が終了したか否かが判別される。その
結果、終了すればステップＳ11に進み、終了していなけ
れば上記ステップＳ9に戻って詳細照合が続行される。
ステップＳ11で、さらに、候補単語が上記正確な尤度の
高い順に並べ直され、上位候補が出力される。そうした
後、音声認識処理動作が終了される。

【００６０】次に、本音声認識装置を、電話帳の人名３
００単語を認識するシステムに応用した場合を例に、上
記音声認識処理動作を具体的に説明する。この場合、高
速照合用言語辞書２１には、電話帳の人名３００の各単
語と、この単語を１音素を１状態とした状態系列で表現
したものとが対応付けられて格納されている。また、詳
細照合用言語辞書２４には、上記人名３００の各単語
と、この単語を各環境依存型音素モデルの状態系列を直
列接続して表現したものとが対応付けられて格納されて
いる。

【００６１】上記音声区間検出部１３による音声区間の
判定は、促音による無音区間を誤って音声区間終了の無
音区間と判定しないように、通常、発声が終了してから
例えば０.３秒程度無音区間が継続した場合に音声区間
終了と判定するようにしている。したがって、例えば、
ユーザが「佐藤」と発声した場合、「佐藤」の発声終了後
０.３秒が経過するまで、図２におけるステップＳ1〜ス
テップＳ4が繰り返されて、音声「佐藤」に関する音響分
析,間引きパラメータ演算および尤度演算が行われるの
である。

【００６２】そして、０.３秒間無音区間が継続して音
声区間が検出されると、切り出された「佐藤」の音声区間
に対して上記演算された尤度を状態方向と時間方向とに
間引きながら高速照合用尤度記憶部２０にコピーして、
上記高速照合用の尤度テーブルが作成される(ステップ
Ｓ5)。そして、上記高速照合用の尤度テーブルに対して
修正が行われた後、修正後の上記高速照合用の尤度テー
ブルと高速照合用言語辞書２１に登録された３００単語
との高速照合が行われる(ステップＳ6)。そして、その
結果を尤度の高い順に並べて、上位の２０単語が候補と
して予備選択される(ステップＳ8)。

【００６３】その結果、入力音声「佐藤」に対して、「加
藤」,「佐藤」,「斉藤」,「後藤」,…という順位となったとす
る。これら２０個の候補単語に関して、上記詳細照合用
の尤度テーブルと詳細照合用言語辞書２４との詳細照合
が行われ、尤度の再計算と並び替えとが行われる(ステ
ップＳ9)。

【００６４】このように、３００個の大語彙に対するビ
タビ法による照合演算は、間引き後に残った入力フレー
ムに対して、１音素を１状態に限定した簡素化された高
速照合用言語辞書２１を用いて行う。一方、各環境依存
型音素モデルの状態系列の直列接続に関するビタビ法に
よる膨大な照合演算は、２０個の予備候補単語に限定し
て行う。こうすることによって、認識処理の高速化と認
識率の向上とが図られるのである。

【００６５】上述のようにして、詳細照合と候補単語の
並び替えとが行われた結果、上記候補単語の並び順が
「佐藤」,「加藤」,「斉藤」の順になったとすると、この順で
候補単語を出力する(ステップＳ11)。

【００６６】上述のように、本実施の形態においては、
入力音声の音響パラメータに基づいて演算された各フレ
ームにおける各状態の尤度に対して、高速照合用尤度演
算部１８によって、間引きパラメータに基づいて間引き
を行った後、種々の音素環境下に在る同一音素に属する
全状態のうち最大尤度を呈する１つの状態とその状態の
尤度とを求めて(つまり、１音素１状態の環境独立型音
素モデルに変換して)、高速照合用の尤度テーブルを生
成する。そして、高速照合用尤度修正部１９によって、
上記尤度テーブル上の尤度の誤った音素側への偏りを、
尤度の修正ルールに従って修正するようにしている。

【００６７】したがって、上記高速照合用の尤度テーブ
ルを生成するに際して１音素１状態としたことによって
生ずる誤った音素側への尤度の偏りを、的確に修正する
ことができる。その結果、上記高速照合用の尤度テーブ
ルを用いた高速照合によって候補単語の予備選択を行う
際に、照合誤りを無くすことができる。その結果、候補
単語を少ない数に的確に絞り込むことができ、詳細照合
部２５によって後に行われる環境依存型音素モデルによ
る詳細照合の高速化を行うことができるのである。

【００６８】さらに、本実施の形態においては、上記高
速照合用尤度演算部１８による入力の間引きは、間引き
パラメータ演算部１４によって、標準偏差で正規化した
音響パラメータの変化量に基づく間引きパラメータの積
分値に従って、上記音響パラメータの変化量が略一定に
なるように行われる。したがって、時間方向に一定間隔
で間引く場合のように、早口で発声した音声中の破裂音
のごとく主観的な音素の特徴が欠落することがなく、入
力音声の特徴をよく表わす高速照合用尤度が得られるの
である。

【００６９】上述のごとく、本実施の形態においては、
上記高速照合時における照合誤りを無くすことによって
候補単語を少ない数に的確に絞り込むことができ、結果
的に詳細照合の高速化を図ることができる。具体的に
は、高速照合用尤度演算部１８によって詳細照合用の尤
度テーブルを状態方向に約１/４,時間方向に約１/５の
圧縮を行い、高速照合用言語辞書２１に登録された語彙
数の約１/２０の単語候補を予備選択するとすると、図
３に示す音声認識装置の場合に比して約１/２０の時間
での高速照合と約１/２０の時間での詳細照合とで音声
認識を行うことができ、照合全体としては１０倍の高速
化を実現できる。また、上記内部メモリを有効に使用す
ることができるため、さらに高速化が可能になるのであ
る。

【００７０】また、上記高速照合用尤度演算部１８によ
る高速照合用尤度の演算を、上記音響モデルの構成単位
である音素を誤り易い音素でグループ化し、一つの音素
グループを一つの代表尤度で表わすように行うこともで
きる。この場合には、誤り易い音素を一つの音素グルー
プをとしているため、高速照合時における照合誤りを殆
どなくすことができ、高速照合用尤度修正部１９による
上記修正処理を省略することが可能になる。また、照合
対象数が減少するため、高速照合の高速化を図ることが
できるのである。

【００７１】さらに、本実施の形態における音声認識装
置をＤＳＰや汎用プロセッサで実現する場合には、外部
メモリ上に設定された詳細照合用尤度記憶部２０に基づ
いて得られた高速照合用の尤度テーブルおよび高速照合
用言語辞書２１を内部メモリにロードして高速照合を行
うようにしている。したがって、上記高速照合を効率よ
く高速に処理することができる。

【００７２】また、本実施の形態においては、辞書登録
部２６を有して、高速照合用言語辞書２１および詳細照
合用言語辞書２４に登録されていない新たな単語が入力
されると、入力単語に関する高速照合用の状態系列と詳
細照合用の音素状態系列とを生成する。そして、生成さ
れた上記高速照合用の状態系列を高速照合用言語辞書２
１に追加登録する一方、上記詳細照合用の音素状態系列
を詳細照合用言語辞書２４に追加登録する。こうして、
新たな単語の照合用言語辞書情報が自動的に得られて、
高速照合用言語辞書２１および詳細照合用言語辞書２４
の両辞書に追加登録される。したがって、常に新しい単
語を認識可能にして、高い認識率を維持できるのであ
る。

【００７３】その際に、連続する同一音素がある場合に
は１つの状態に圧縮する。または、元の単語としては異
なる音素連鎖であっても音素グループで見ると同一音素
グループが連続する場合には、その連続する同一音素グ
ループを１つの状態に圧縮する。そうすることによっ
て、高速照合用言語辞書２１を用いた高速照合および詳
細照合用言語辞書２４を用いた詳細照合の高速化を図る
ことができるのである。

【００７４】ところで、上記実施の形態における音響分
析手段,尤度演算手段,音声区間検出手段,高速照合用尤
度演算手段,高速照合用尤度修正手段,高速照合手段,候
補予備選択手段,詳細照合手段,間引きパラメータ演算手
段および辞書登録手段としての機能は、プログラム記録
媒体に記録された音声認識処理プログラムによって実現
される。上記実施の形態における上記プログラム記録媒
体は、ＲＯＭ(リード・オンリ・メモリ)でなるプログラム
メディアである。あるいは、外部補助記憶装置に装着さ
れて読み出されるプログラムメディアであってもよい。
尚、何れの場合においても、上記プログラムメディアか
ら音声認識処理プログラムを読み出すプログラム読み出
し手段は、上記プログラムメディアに直接アクセスして
読み出す構成を有していてもよいし、ＲＡＭに設けられ
たプログラム記憶エリア(図示せず)にダウンロードし、
上記プログラム記憶エリアにアクセスして読み出す構成
を有していてもよい。尚、上記プログラムメディアから
ＲＡＭの上記プログラム記憶エリアにダウンロードする
ためのダウンロードプログラムは、予め本体装置に格納
されているものとする。

【００７５】ここで、上記プログラムメディアとは、本
体側と分離可能に構成され、磁気テープやカセットテー
プ等のテープ系、フロッピー（登録商標）ディスク,ハ
ードディスク等の磁気ディスクやＣＤ(コンパクトディ
スク)−ＲＯＭ,ＭＯ(光磁気)ディスク,ＭＤ(ミニディス
ク),ＤＶＤ(ディジタルビデオディスク)等の光ディスク
のディスク系、ＩＣ(集積回路)カードや光カード等のカ
ード系、マスクＲＯＭ,ＥＰＲＯＭ（紫外線消去型ＲＯ
Ｍ),ＥＥＰＲＯＭ(電気的消去型ＲＯＭ),フラッシュＲ
ＯＭ等の半導体メモリ系を含めた、固定的にプログラム
を坦持する媒体である。

【００７６】また、上記各実施の形態における音声認識
装置は、モデムを備えてインターネットを含む通信ネッ
トワークと接続可能な構成を有している場合には、上記
プログラムメディアは、通信ネットワークからのダウン
ロード等によって流動的にプログラムを坦持する媒体で
あっても差し支えない。尚、その場合における上記通信
ネットワークからダウンロードするためのダウンロード
プログラムは、予め本体装置に格納されているものとす
る。あるいは、別の記録媒体からインストールされるも
のとする。

【００７７】尚、上記記録媒体に記録されるものはプロ
グラムのみに限定されるものではなく、データも記録す
ることが可能である。

【００７８】

【発明の効果】以上より明らかなように、第１の発明の
音声認識装置は、ＨＭＭを用いた音声認識装置におい
て、尤度演算手段によって得られた詳細照合用尤度に基
づいて、高速照合用尤度演算手段によって高速照合用尤
度を求め、高速照合用尤度修正手段によって上記高速照
合用尤度の誤った側への偏りを修正するので、上記高速
照合用尤度を少ない状態で表現した際に生ずる尤度の誤
った音声単位側への偏りを修正することができる。した
がって、上記文献３のごとく、複数の状態からなる環境
依存型音素モデルを１状態の環境独立型音素モデルに変
換した際に、音素間でパラメータ空間を占める範囲が重
複しているために生ずる誤り音素側への偏りを修正する
ことができる。

【００７９】したがって、高速照合手段による高速照合
を行う際の照合誤りを少なくでき、結果的に、候補予備
選択手段による候補単語の予備選択によって、候補単語
を少ない数に的確に絞り込むことができる。すなわち、
この発明によれば、上記候補単語の予備選択による詳細
照合の高速化を、より効率的に行うことができるのであ
る。

【００８０】また、上記第１の発明の音声認識装置は、
間引きパラメータ演算手段によって音響分析結果に基づ
いて間引きパラメータを演算し、上記高速照合用尤度演
算手段を、上記間引きパラメータに基づいて上記詳細照
合用尤度に対して時間方向への間引き処理を行った後
に、上記高速照合用尤度を求めるように成せば、上記間
引きパラメータを適切に算出することによって、上記文
献２のごとく時間方向に一定間隔で間引く場合のような
瞬間的な特徴の欠落を防止し、且つ、十分に高速化を行
うことが可能になる。

【００８１】また、上記第１の発明の音声認識装置は、
上記間引きパラメータ演算手段による上記間引きパラメ
ータの演算を、上記音響分析結果としての音響パラメー
タの変化量に基づいて行い、上記高速照合用尤度演算手
段による間引き処理を、上記間引きパラメータに基づい
て上記音響パラメータの変化量が略一定になるように行
えば、間引き処理後の上記詳細照合用尤度を音響パラメ
ータの変化が激しい領域ほど多く残すことができる。し
たがって、入力音声の瞬間的な特徴を的確に抽出するこ
とができるのである。

【００８２】また、上記第１の発明の音声認識装置は、
上記高速照合用尤度演算手段による上記高速照合用尤度
の演算を、上記音響モデルの構成単位である音声単位を
一つの代表尤度で表わすことによって行えば、高速照合
用の尤度を最小の状態数で表現できる。したがって、上
記高速照合用の尤度を用いた高速照合を高速に行うこと
ができる。

【００８３】また、上記第１の発明の音声認識装置は、
上記高速照合用尤度演算手段による上記高速照合用尤度
の演算を、上記音響モデルの構成単位である音声単位を
誤り易い音声単位でグループ化し、一つのグループを一
つの代表尤度で表わすことによって行えば、誤った音声
単位の尤度が正しい音声単位の尤度よりも高くなること
を防止できる。すなわち、この発明によれば、高速照合
時における照合誤りを少なくできるのである。さらに、
上記グループ化によって、高速照合時における照合の対
象を減少し、上記高速照合を非常に高速に行うことがで
きるのである。

【００８４】尚、この場合には、上記高速照合用尤度修
正手段による修正処理を省略することが可能になる。

【００８５】また、上記第１の発明の音声認識装置は、
高速照合用尤度修正手段による上記高速照合用尤度の修
正を、上記音声単位間あるいは上記グループ間の誤りパ
ターンを考慮して行えば、予め分っている上記音声単位
間あるいは上記グループ間の誤りパターンを考慮して上
記音声単位あるいはグループの代表尤度を修正でき、迅
速に且つ的確に修正処理を行うことができる。

【００８６】また、上記第１の発明の音声認識装置は、
上記高速照合を実行する際には、上記高速照合用尤度記
憶手段に記憶された上記高速照合用尤度と、高速照合用
言語辞書記憶手段に記憶された上記高速照合用言語辞書
とを、上記高速照合手段の内部メモリにロードすれば、
上記高速照合処理を効率よく行うことができる。

【００８７】また、上記第１の発明の音声認識装置は、
辞書登録手段によって、入力単語に関する高速照合用の
状態系列と詳細照合用の状態系列とを生成し、前者を上
記高速照合用言語辞書に追加登録する一方、後者を上記
詳細照合用言語辞書に追加登録すれば、自動的に上記高
速照合用言語辞書および詳細照合用言語辞書の両辞書に
当該単語の辞書項目を追加登録できる。したがって、常
に新しい単語の認識を可能にでき、高い認識率を維持で
きる。

【００８８】また、上記第１の発明の音声認識装置は、
上記辞書登録手段による上記高速照合用の状態系列の生
成を、連続する同一音声単位あるいは連続する同一音声
単位グループを１つの状態に圧縮することによって行え
ば、上記高速照合用言語辞書を用いた高速照合の高速化
を図ることができる。

【００８９】また、第２の発明の音声認識方法は、ＨＭ
Ｍを用いた音声認識方法において、詳細照合用尤度に基
づいて高速照合用尤度を求め、上記高速照合用尤度の誤
った側への偏りを修正するので、上記高速照合用尤度を
少ない状態で表現した際に生ずる各尤度の誤った音声単
位側への偏りを修正することができる。したがって、高
速照合を行う際の照合誤りを少なくでき、結果的に、候
補単語の予備選択によって、候補単語を少ない数に的確
に絞り込むことができる。

【００９０】すなわち、この発明によれば、上記候補単
語の予備選択による詳細照合の高速化を、より効率的に
行うことができるのである。

【００９１】また、第３の発明のプログラム記録媒体
は、コンピュータを、上記第１の発明における音響分析
手段,尤度演算手段,高速照合用尤度演算手段,高速照合
用尤度修正手段,高速照合手段,候補予備選択手段及び詳
細照合手段として機能させる音声認識処理プログラムが
記録されているので、上記第１の発明の場合と同様に、
ＨＭＭを用いた音声認識を行うに際して、高速照合用尤
度の誤った側への偏りを修正することができ、上記高速
照合用尤度を少ない状態で表現した際に生ずる各尤度の
誤った音声単位側への偏りを修正することができる。し
たがって、高速照合を行う際の照合誤りを少なくでき、
結果的に、候補単語の予備選択によって、候補単語を少
ない数に的確に絞り込むことができる。

【００９２】すなわち、この発明によれば、上記候補単
語の予備選択による詳細照合の高速化を、より効率的に
行うことができるのである。

【図面の簡単な説明】

【図１】この発明の音声認識装置におけるブロック図
である。

【図２】図１に示す音声認識装置による音声認識処理
動作のフローチャートである。

【図３】ＨＭＭを用いた従来の音声認識装置のブロッ
ク図である。

【符号の説明】

１１…音響分析部、１２…尤度演算部、１３…音声区間検出部、１４…間引きパラメータ演算部、１５…音響モデル記憶部、１６…詳細照合用尤度記憶部、１７…間引きパラメータ記憶部、１８…高速照合用尤度演算部、１９…高速照合用尤度修正部、２０…高速照合用尤度記憶部、２１…高速照合用言語辞書、２２…高速照合部、２３…候補予備選択部、２４…詳細照合用言語辞書、２５…詳細照合部、２６…辞書登録部。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩＧ１０Ｌ 15/14 Ｇ１０Ｌ 3/00 ５２１Ｃ 15/18 (56)参考文献特開昭62−220996（ＪＰ，Ａ) 特開平６−348299（ＪＰ，Ａ) 特開平９−34486（ＪＰ，Ａ) 特開平３−116100（ＪＰ，Ａ) 特開平８−123470（ＪＰ，Ａ) 特開平６−266393（ＪＰ，Ａ) 特開昭59−60499（ＪＰ，Ａ) 特開平６−266396（ＪＰ，Ａ) 山口外８名，コンパクトな単語音声認識、テキスト音声合成，シャープ技報，日本，2000年８月10日，第77号, Ｐａｇｅｓ 26−32 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 11/00 G10L 15/00 - 15/28 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】入力音声を音響分析する音響分析手段
と、上記音響分析結果に基づいて、音響モデル記憶手段に記
憶された音響モデルを参照してフレーム毎に各状態の尤
度を演算し、演算結果を詳細照合用尤度として詳細照合
用尤度記憶手段に記憶する尤度演算手段と、上記詳細照合用尤度に基づいて、高速照合用尤度を求め
る高速照合用尤度演算手段と、上記高速照合用尤度の誤った側への偏りを修正し、高速
照合用尤度記憶手段に記憶する高速照合用尤度修正手段
と、上記修正後の高速照合用尤度と高速照合用言語辞書に登
録された全単語との照合を行って、上記各単語の尤度を
算出する高速照合手段と、上記高速照合手段による照合結果に基づいて、候補単語
の予備選択を行う候補予備選択手段と、上記予備選択された候補単語に関して、上記詳細照合用
尤度と詳細照合用言語辞書に登録された単語との詳細照
合を行って、上記各候補単語の尤度を算出する詳細照合
手段を備えたことを特徴とする音声認識装置。
【請求項２】請求項１に記載の音声認識装置におい
て、上記音響分析結果に基づいて、間引きパラメータを演算
する間引きパラメータ演算手段を備えると共に、上記高速照合用尤度演算手段は、上記詳細照合用尤度に
対して上記間引きパラメータに基づく時間方向への間引
き処理を行った後に、残った上記詳細照合用尤度に基づ
いて、高速照合用尤度を求めるようになっていることを
特徴とする音声認識装置。
【請求項３】請求項２に記載の音声認識装置におい
て、上記間引きパラメータ演算手段は、上記音響分析結果と
しての音響パラメータの変化量に基づいて上記間引きパ
ラメータを演算し、上記高速照合用尤度演算手段は、上記間引きパラメータ
に基づいて、上記音響パラメータの変化量が略一定にな
るように間引き処理を行うようになっていることを特徴
とする音声認識装置。
【請求項４】請求項１に記載の音声認識装置におい
て、上記高速照合用尤度演算手段は、上記音響モデルの構成
単位である音声単位を一つの代表尤度で表わすことによ
って、上記高速照合用尤度の演算を行うようになってい
ることを特徴とする音声認識装置。
【請求項５】請求項１に記載の音声認識装置におい
て、上記高速照合用尤度演算手段は、上記音響モデルの構成
単位である音声単位を誤り易い音声単位でグループ化
し、一つのグループを一つの代表尤度で表わすことによ
って、上記高速照合用尤度の演算を行うようになってい
ることを特徴とする音声認識装置。
【請求項６】請求項５に記載の音声認識装置におい
て、上記高速照合用尤度修正手段による修正処理を省略する
ことを特徴とする音声認識装置。
【請求項７】請求項４あるいは請求項５に記載の音声
認識装置において、高速照合用尤度修正手段は、上記音
声単位間あるいは上記グループ間の誤りパターンを考慮
して上記音声単位あるいは上記グループの代表尤度を修
正することによって、上記高速照合用尤度の修正を行う
ようになっていることを特徴とする音声認識装置。
【請求項８】請求項１に記載の音声認識装置におい
て、上記高速照合手段は、内部メモリを有しており、上記高速照合用言語辞書は、高速照合用言語辞書記憶手
段に記憶されており、上記高速照合手段は、上記高速照合を実行する際には、
上記高速照合用尤度記憶手段に記憶された高速照合用尤
度と、上記高速照合用言語辞書記憶手段に記憶された高
速照合用言語辞書とを、上記内部メモリにロードするよ
うになっていることを特徴とする音声認識装置。
【請求項９】請求項１に記載の音声認識装置におい
て、単語が入力されて、この入力単語に関する高速照合用の
状態系列と詳細照合用の状態系列とを生成し、上記高速
照合用の状態系列を上記高速照合用言語辞書に追加登録
する一方、上記詳細照合用の状態系列を上記詳細照合用
言語辞書に追加登録する辞書登録手段を備えたことを特
徴とする音声認識装置。
【請求項１０】請求項９に記載の音声認識装置におい
て、上記辞書登録手段は、上記高速照合用の状態系列を生成
する際に、同一の音声単位あるいは同一の音声単位グル
ープが連続する場合には、上記連続する同一音声単位あ
るいは上記連続する同一音声単位グループを１つの状態
に圧縮するようになっていることを特徴とする音声認識
装置。
【請求項１１】入力音声を音響分析するステップと、上記音響分析結果に基づいて、音響モデルを参照してフ
レーム毎に各状態の尤度を演算して詳細照合用尤度を求
めるステップと、上記詳細照合用尤度に基づいて高速照合用尤度を求める
ステップと、上記高速照合用尤度の誤った側への偏りを修正するステ
ップと、上記修正後の高速照合用尤度と高速照合用言語辞書に登
録された全単語との高速照合を行って、上記各単語の尤
度を算出するステップと、上記高速照合結果に基づいて、候補単語の予備選択を行
うステップと、上記予備選択された候補単語に関して、上記詳細照合用
尤度と詳細照合用言語辞書に登録された単語との詳細照
合を行って、上記各候補単語の尤度を算出するステップ
を備えたことを特徴とする音声認識方法。
【請求項１２】コンピュータを、請求項１における音響分析手段,尤度演算手段,高速照合
用尤度演算手段,高速照合用尤度修正手段,高速照合手
段,候補予備選択手段および詳細照合手段として機能さ
せる音声認識処理プログラムが記録されたことを特徴と
するコンピュータ読出し可能なプログラム記録媒体。