JP3461789B2 - 音声認識装置および音声認識方法、並びに、プログラム記録媒体 - Google Patents

音声認識装置および音声認識方法、並びに、プログラム記録媒体

Info

Publication number
JP3461789B2
JP3461789B2 JP2000187686A JP2000187686A JP3461789B2 JP 3461789 B2 JP3461789 B2 JP 3461789B2 JP 2000187686 A JP2000187686 A JP 2000187686A JP 2000187686 A JP2000187686 A JP 2000187686A JP 3461789 B2 JP3461789 B2 JP 3461789B2
Authority
JP
Japan
Prior art keywords
likelihood
matching
speed matching
speed
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000187686A
Other languages
English (en)
Other versions
JP2002006883A (ja
Inventor
俊夫 赤羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2000187686A priority Critical patent/JP3461789B2/ja
Publication of JP2002006883A publication Critical patent/JP2002006883A/ja
Application granted granted Critical
Publication of JP3461789B2 publication Critical patent/JP3461789B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、隠れマルコフモ
デルを用いた音声認識装置および音声認識方法、並び
に、音声認識プログラムが記録されたプログラム記録媒
体に関する。
【0002】
【従来の技術】音声認識手法の一つとして隠れマルコフ
モデル(以下、HMMと略称する)がある(Rabiner&Juan
g著,古井監訳「音声認識の基礎」第6章,NTTアドバン
ストテクノロジ 1995年:文献1)。上記HMMにお
いては、話者や発声変動等の音声が有する揺らぎを統計
的に学習することによって高い認識精度が得られるため
に、現代では音声認識方式として定着している。
【0003】図3は、上記HMMを用いた従来の基本的
な音声認識装置の構成例である。以下、図3に従って、
従来のHMMを用いた音声認識装置について説明する。
尚、入力音声は既にサンプリングおよび量子化されてい
るものとする。
【0004】音響分析部1は、音声サンプルデータを一
定の周期毎に取り込んで音響パラメータを抽出し、尤度
演算部2と音声区間検出部3とに出力する。音響モデル
記憶部4には、音素や音節等の音声の徴小単位毎に音響
パラメータの分布を統計的に学習した音響モデルが記憶
されている。尚、上記音響モデルは、大量の音声データ
から学習されているものとする。
【0005】上記尤度演算部2は、上記音響モデル記憶
部4に記憶された音響モデルを構成する各状態の出力確
率に基づいて、入力された各フレームの音響パラメータ
から各フレーム毎に各状態の尤度を求め、尤度記憶部5
に記憶する。音声区間検出部3は、音響分析部1による
音響分析結果から、主に短時間音声エネルギー等の一部
の音響パラメータを用いて音声区間を検出する。
【0006】言語辞書6には、認識対象語彙の各単語
と、この単語を音響モデルである各音素モデルの状態系
列を直列接続して表現したものとを対応付けて格納して
いる。照合部7は、言語辞書6に格納された各単語に関
して、言語辞書6に格納された状態系列と入力された全
フレームの状態系列とをビタビ法によって照合して、各
単語の尤度を算出する。その場合、入力された各フレー
ムにおける各状態の局所尤度は、尤度記憶部5に記憶さ
れた値を参照することによって得る。そして、尤度の高
い単語の順に並べ直し、上位候補を出力するのである。
【0007】ところで、上記文献1における6.4.2.
2節によると、上記HMMを用いた認識の基礎となるビ
タビアルゴリズムにおいては、入力された観測系列の長
さをTとし、単語モデルの状態数をNとすると、次の繰
り返し計算が処理の大部分を占める。 δt(j)=max[δt-1(i)+aij]+bj(ot) …(1) Ψt(j)=argmax[δt-1(i)+aij] …(2) 2≦t≦T, 1≦j≦N ここで、aij,bj(ot)は、夫々対数化した遷移確率と出
力確率とである。また、δは累積尤度であり、Ψはバッ
クポインタであり、iは(t−1)の状態番号である。
尚、マッチング時のパスを知る必要がない場合は上記式
(2)は必要がない。
【0008】上記式(1),(2)の計算量は、N2・Tのオ
ーダーでの加算および比較となる。但し、状態遷移を隣
接する状態間のみに制限するとオーダーは2・N・Tとな
る。大語彙の音声認識を行うには単語毎に学習データを
大量に収集するのは困難であるために、音素毎のモデル
(音素モデル)を予め学習しておき、これら音素モデルを
連結することによって任意の単語を生成する方法がよく
用いられる。上記音素モデルとして十分な性能を発揮す
るには、各音素毎に3つから5つ程度の状態を有するH
MMを設定するのが一般的である。
【0009】これらを総合すると、大語彙の単語の照合
に必要なビタビ演算の計算量は、単語数をV、単語辞書
の平均音素数をP、音素の平均状態数をS、入力音声の
長さをTとすると、2・V・P・S・Tのオーダーとなる。
例として、V=1,000単語、P=10音素、S=4
状態、T=100フレームとすると、2*1000*1
0*4*100=8,000,000オーダーの膨大な加
算および比較が必要になるという問題がある。
【0010】上述のごとき膨大な演算に対処するため、
特開平6‐266393号公報(文献2)に開示された音
声認識装置においては、標準パターンを用いた音声認識
の際におけるマッチングを高速化するための方法とし
て、入力系列と標準パターンとを共に分周器によって一
定間隔で間引いて高速な予備選択を行う方法およびワー
ドスポッティングの方法を用いている。
【0011】また、他の文献(文献3)“「A Fast Appro
ximate Acoustic Match for LargeVocabulary Speech R
ecognition」IEEE Trans. on Speech and Audio Process
ingVol.1,No.1,January 1993”には、HMMを用いた
音声認識において、詳細な照合を行う前に候補数を絞る
ために行う高速な照合を実現する方法が開示されてい
る。文献3に記載の音声認識装置では、詳細照合用の音
素モデルとしては前後の音素環境を考慮した環境依存型
のHMMを用いるが、高速マッチングの際には環境を考
慮しない環境独立型の音素モデルを用いる。すなわち、
音素uに属する環境依存型HMM内の状態の集合をAu
とし、状態a∈Auからラベルfiを出力する出力確率をp
r(fi?a)とすると、音素uの出力確率を次式で定義す
る。 また、音素uに属する長さnの状態系列から脱出する脱
出確率をqu(n)とすると、音素uの状態から脱出する
遷移確率を次式で定義する。 一方、状態u内に留まる確率は1としている。
【0012】このようにして定義した環境独立型の音素
HMMを用いることと、単語辞書を音素の木構造で表現
することとによって、入力系列と照合すべき辞書を縮小
し、大語彙辞書との高速なマッチングとを可能にしてい
る。
【0013】
【発明が解決しようとする課題】しかしながら、上記従
来の高速なマッチングを実現する音声認識装置において
は、以下のような問題がある。一般に、音響モデルとし
てのHMMが精密になればなる程、モデルを構成する音
素数や状態数は多くなり、照合に必要な計算量が増大す
る。そこで、上記文献2や文献3に開示されているよう
な高速な照合によって粗く候補を選択して、後に詳細に
照合する方法が、計算量の増大に対するよい解決手段と
なるのである。但し、上記文献2のように、標準パター
ンを時間方向に一定間隔で間引く方法はHMMの状態列
に対しては適用できないため、HMMを用いた音声認識
装置には上記文献3のような少ない状態数のモデルを用
いる方法が適していると言える。その理由は、上記文献
2の方法のように入力音声を一定間隔で間引くと、早口
で発声した音声の場合に破裂音等の瞬間的な音素の特徴
を見落としてしまう場合がある。そこで、破裂音等の瞬
間的な音素の特徴を見落とさないように間引き率を設定
すると、十分な高速化が行えないという別の問題が発生
するためである。
【0014】また、上記文献3では、複数状態から成る
環境依存型音素モデルを1状態の環境独立型音素モデル
に変換する操作において、音素間でパラメータ空間を占
める範囲が重複していることから音素の尤度間に格差が
生じ、一定の音素誤りが多数起こる場合がある。その場
合には、高速照合結果に誤りが多く含まれることにな
り、候補を少ない数に制限することができないため高速
化が十分できないことになる。これらの問題を解決する
方法に付いては、文献3には何ら記載されてはいない。
【0015】そこで、この発明の目的は、破裂音等の瞬
間的な音素の欠落や誤りの少ない高速照合を可能にする
HMMを用いた音声認識装置および音声認識方法、並び
に、音声認識プログラムを記録したプログラム記録媒体
を提供することにある。
【0016】
【課題を解決するための手段】上記目的を達成するた
め、第1の発明の音声認識装置は、入力音声を音響分析
する音響分析手段と、上記音響分析結果に基づいて,音
響モデル記憶手段に記憶された音響モデルを参照してフ
レーム毎に各状態の尤度を演算し,演算結果を詳細照合
用尤度として詳細照合用尤度記憶手段に記憶する尤度演
算手段と、上記詳細照合用尤度に基づいて,高速照合用
尤度を求める高速照合用尤度演算手段と、上記高速照合
用尤度の誤った側への偏りを修正し,高速照合用尤度記
憶手段に記憶する高速照合用尤度修正手段と、上記修正
後の高速照合用尤度と高速照合用言語辞書に登録された
全単語との照合を行って上記各単語の尤度を算出する高
速照合手段と、上記高速照合手段による照合結果に基づ
いて候補単語の予備選択を行う候補予備選択手段と、上
記予備選択された候補単語に関して,上記詳細照合用尤
度と詳細照合用言語辞書に登録された単語との詳細照合
を行って,上記各候補単語の尤度を算出する詳細照合手
段を備えたことを特徴としている。
【0017】上記構成によれば、尤度演算手段によって
フレーム毎に各状態の尤度が演算され、上記詳細照合用
尤度に基づいて、高速照合用尤度演算手段によって高速
照合用尤度が求められる。そして、高速照合用尤度修正
手段によって、上記高速照合用尤度の誤った側への偏り
が修正される。
【0018】こうして、上記高速照合用尤度を少ない状
態で表現した際に生ずる尤度の誤った音声単位側への偏
りが、上記高速照合用尤度修正手段によって修正され
る。したがって、上記修正後の高速照合用尤度を用いて
高速照合を行って候補単語の予備選択を行う際に、照合
誤りが少なくなる。その結果、候補単語が少ない数に的
確に絞り込まれ、以後に詳細照合手段によって行われる
詳細照合の高速化が効率的に行われるのである。
【0019】また、上記第1の発明の音声認識装置は、
上記音響分析結果に基づいて間引きパラメータを演算す
る間引きパラメータ演算手段を備えると共に、上記高速
照合用尤度演算手段を,上記詳細照合用尤度に対して上
記間引きパラメータに基づく時間方向への間引き処理を
行った後に,残った上記詳細照合用尤度に基づいて,高速
照合用尤度を求めるように成すことが望ましい。
【0020】上記構成によれば、上記高速照合用尤度演
算手段による上記詳細照合用尤度に対する時間方向への
間引き処理は、間引きパラメータ演算手段によって演算
された間引きパラメータに基づいて行われる。したがっ
て、上記間引きパラメータを適切に算出することによっ
て、上記文献2のごとく時間方向に一定間隔で間引く場
合のように瞬間的な特徴が欠落することがなく、且つ、
十分に高速化を行うことが可能になる。
【0021】また、上記第1の発明の音声認識装置は、
上記間引きパラメータ演算手段を,上記音響分析結果と
しての音響パラメータの変化量に基づいて上記間引きパ
ラメータを演算するように成し、上記高速照合用尤度演
算手段を,上記間引きパラメータに基づいて,上記音響パ
ラメータの変化量が略一定になるように間引き処理を行
うように成すことが望ましい。
【0022】上記構成によれば、上記高速照合用尤度演
算手段による間引き処理は、音響パラメータの変化量が
略一定になるように行われる。したがって、間引き処理
後の上記詳細照合用尤度数は音響パラメータの変化が激
しい領域ほど多く、瞬間的な特徴が欠落してしまうこと
が防止される。
【0023】また、上記第1の発明の音声認識装置は、
上記高速照合用尤度演算手段を、上記音響モデルの構成
単位である音声単位を一つの代表尤度で表わすことによ
って上記高速照合用尤度の演算を行うように成すことが
望ましい。
【0024】上記構成によれば、高速照合用の尤度が最
小の状態数で表現されている。したがって、上記高速照
合用の尤度を用いた高速照合が高速に行われる。
【0025】また、上記第1の発明の音声認識装置は、
上記高速照合用尤度演算手段を、上記音響モデルの構成
単位である音声単位を誤り易い音声単位でグループ化
し、一つのグループを一つの代表尤度で表わすことによ
って上記高速照合用尤度の演算を行うように成すことが
望ましい。
【0026】上記構成によれば、高速照合用の尤度が、
誤り易い音声単位でグループ化された一つのグループで
表現されている。したがって、誤った音声単位の尤度が
正しい音声単位の尤度よりも高くなることがなく、高速
照合時における照合誤りが少なくなる。さらに、上記グ
ループ化によって、高速照合時における照合の対象が減
少し、上記高速照合が非常に高速に行われる。
【0027】尚、この場合には、上記高速照合用尤度修
正手段による修正処理を省略することが可能になる。
【0028】また、上記第1の発明の音声認識装置は、
高速照合用尤度修正手段を、上記音声単位間あるいは上
記グループ間の誤りパターンを考慮して上記音声単位あ
るいは上記グループの代表尤度を修正することによっ
て、上記高速照合用尤度の修正を行うように成すことが
望ましい。
【0029】上記構成によれば、予め分っている上記音
声単位間あるいはグループ間の誤りパターンを考慮して
上記音声単位あるいはグループの代表尤度を修正するの
で、迅速に且つ的確に修正処理が行われる。
【0030】また、上記第1の発明の音声認識装置は、
上記高速照合手段を,内部メモリを有するように成し、
上記高速照合用言語辞書は高速照合用言語辞書記憶手段
に記憶されおり、上記高速照合手段を,上記高速照合を
実行する際には,上記高速照合用尤度記憶手段に記憶さ
れた高速照合用尤度と上記高速照合用言語辞書記憶手段
に記憶された高速照合用言語辞書とを,上記内部メモリ
にロードするように成すことが望ましい。
【0031】上記構成によれば、上記高速照合手段は、
高速照合を実行するに際して、上記高速照合用尤度と高
速照合用言語辞書とを上記内部メモリにロードするの
で、上記高速照合処理が効率よく行われる。
【0032】また、上記第1の発明の音声認識装置は、
単語が入力されて、この入力単語に関する高速照合用の
状態系列と詳細照合用の状態系列とを生成し、上記高速
照合用の状態系列を上記高速照合用言語辞書に追加登録
する一方、上記詳細照合用の状態系列を上記詳細照合用
言語辞書に追加登録する辞書登録手段を備えることが望
ましい。
【0033】上記構成によれば、辞書登録手段に新しい
単語を入力するだけで、自動的に上記高速照合用言語辞
書および詳細照合用言語辞書の両辞書に当該単語の辞書
項目が追加登録される。したがって、常に新しい単語が
認識可能になり、高い認識率が維持される。
【0034】また、上記第1の発明の音声認識装置は、
上記辞書登録手段を、上記高速照合用の状態系列を生成
する際に、同一の音声単位あるいは同一の音声単位グル
ープが連続する場合には、上記連続する同一音声単位あ
るいは上記連続する同一音声単位グループを1つの状態
に圧縮するように成すことが望ましい。
【0035】上記構成によれば、連続する同一音声単位
あるいは連続する同一音声単位グループが1つの状態に
圧縮されている。したがって、上記高速照合用言語辞書
を用いた高速照合の高速化が図られる。
【0036】また、第2の発明の音声認識方法は、入力
音声を音響分析するステップと、上記音響分析結果に基
づいて,音響モデルを参照してフレーム毎に各状態の尤
度を演算して詳細照合用尤度を求めるステップと、上記
詳細照合用尤度に基づいて高速照合用尤度を求めるステ
ップと、上記高速照合用尤度の誤った側への偏りを修正
するステップと、上記修正後の高速照合用尤度と高速照
合用言語辞書に登録された全単語との高速照合を行って
上記各単語の尤度を算出するステップと、上記高速照合
結果に基づいて候補単語の予備選択を行うステップと、
上記予備選択された候補単語に関して,上記詳細照合用
尤度と詳細照合用言語辞書に登録された単語との詳細照
合を行って上記各候補単語の尤度を算出するステップを
特徴としている。
【0037】上記構成によれば、フレーム毎に各状態の
尤度が演算され、上記詳細照合用尤度に基づいて高速照
合用尤度が求められる。そして、上記高速照合用尤度を
少ない状態で表現した際に生ずる各尤度の誤った音声単
位側への偏りが修正される。したがって、上記修正後の
高速照合用尤度を用いて高速照合を行って候補単語の予
備選択を行う際に、照合誤りが少なくなる。その結果、
候補単語が少ない数に的確に絞り込まれ、以後に行われ
る詳細照合の高速化が効率的に行われる。
【0038】また、第3の発明のプログラム記録媒体
は、コンピュータを、上記第1の発明における音響分析
手段,尤度演算手段,高速照合用尤度演算手段,高速照合
用尤度修正手段,高速照合手段,候補予備選択手段および
詳細照合手段として機能させる音声認識処理プログラム
が記録されていることを特徴としている。
【0039】上記構成によれば、上記第1の発明と同様
に、上記高速照合用尤度を少ない状態で表現した際に生
ずる各尤度の誤った音声単位側への偏りが修正される。
したがって、上記修正後の高速照合用尤度を用いて高速
照合を行って候補単語の予備選択を行う際に、照合誤り
が少なくなる。その結果、候補単語が少ない数に的確に
絞り込まれ、以後に行われる詳細照合の高速化が効率的
に行われる。
【0040】
【発明の実施の形態】以下、この発明を図示の実施の形
態により詳細に説明する。図1は、本実施の形態の音声
認識装置におけるブロック図であり、HMMを用いた音
声認識装置である。以下、図1に従って、本実施の形態
における音声認識装置について説明する。尚、入力音声
は、既にサンプリングおよび量子化されているものとす
る。また、以下の説明は、音響モデルを構成する単位は
音素(音素モデル)であるとして行うが、上記構成単位は
音節(音節モデル)であっても構わない。
【0041】音響分析部11は、音声サンプルデータを
一定の周期ごとに取り込んで音響パラメータを抽出し、
尤度演算部12と音声区間検出部13と間引きパラメー
タ演算部14とに出力する。その際における分析周期は
5msから20ms程度とし、分析窓長は分析周期より長く
10msから20msとするのが一般的である。尚、分析手
法としては一般的に用いられるフィルタバンクによる帯
域エネルギー,FFT(高速フーリエ変換)ケプストラ
ム,線形予測分析を用いたLPC(線形予測分析)ケプス
トラム等の分析パラメータと、短時間音声エネルギー
と、これらの時間変化量とを組み合わせて用いる。
【0042】上記尤度演算部12は、入力されたフレー
ムの音響パラメータと、音響モデル記憶部15に記憶さ
れた音響モデルを構成する各状態の出力確率密度分布と
に基づいて、各フレーム毎に各状態の尤度を求めて、詳
細照合用尤度記憶部16に記憶する。ここで、連続分布
型HMMである場合には、j番目のM次元出力確率密度
分布を、平均ベクトルμj={μj1,μj2,…,μji,…,μj
M}、分散σj2={σj2 1,σj2 2,…,σj2 i,…,σj2 M}で表
わし、入力ベクトルをc=(c1,c2,…,ci…,cM)で表
わすと、対数尤度Ljは式(5)で表される。
【0043】状態kの尤度Pkが複数の分布の集合Dkの
混合分布で表現される場合、本来は真数の尤度で加算し
てから対数尤度に変換すべきであるが、高速化のために
近似的に最大値をとる処理で置き換えても構わない。こ
の場合、各分布jの混合比率をλkjとすると式(6)で表
される。
【0044】上記音声区間検出部13は、上記音響分析
部11による音響分析結果から、主に短時間音声エネル
ギー等の一部のパラメータを用いて音声区間を検出す
る。間引きパラメータ演算部14は、高速照合に用いる
フレームの間引き方を決定するための間引きパラメータ
を各フレーム毎に計算し、得られた間引きパラメータを
間引きパラメータ記憶部17に記憶しておく。一例とし
て、フレームtにおける間引きパラメータB(t)を式
(7)によって求める。 ここで、ΔCtiは、フレームtにおける音響パラメータ
のi次元目の値における前フレームからの変化量であ
る。また、σiは、音響パラメータのi次元めの標準偏
差である。標準偏差σiの値は大量のデータから求める
必要があり、音響モデルを作成した際のデータを用いる
ことができる。あるいは、音響モデルを構成する出力確
立密度分布の分散を平均した値から求めてもよい。
【0045】高速照合用尤度演算部18は、上記詳細照
合用尤度記憶部16に記憶された尤度テーブルから音声
区間検出部13によって検出された音声区間の範囲内に
ある尤度値を読み出し、高速照合用尤度を求める。その
場合における高速照合用尤度は、詳細照合用尤度の中か
ら音素環境を無視して同じ音素の全状態の尤度を読み出
し、つまり、同じ音素であって異なる音素環境に在る音
素に属する総ての状態の尤度を読み出し、その最大値を
求めることによって求める。
【0046】その際に、上記高速照合用尤度の演算に先
立って、上記間引きパラメータ記憶部17に記憶された
間引きパラメータを積分しながら、音響パラメータの変
化量が略一定になるようにフレームの間引きを行うので
ある。したがって、上記高速照合用尤度の演算は、間引
きの結果残った少ないフレームに対してだけ行えばよ
く、上記演算を迅速に行うことができるのである。例と
して、分析周期が10msの場合における平均的な間引き
率は1/4から1/5程度で効率よく照合が行え、精度の
劣化も少ないことが実験的に分かっている。
【0047】高速照合用尤度修正部19は、上記高速照
合用尤度演算部18によって計算された音素毎の尤度
を、尤度の修正ルールに従って修正を行う。例えば、無
音区間が入力された場合には、無音/S/の尤度L(/S/)
よりも音素/K/の尤度L(/K/)の方が大きくなることが
非常に多い場合、式(8)により、 L(/S/)=max{L(/S/),L(/K/)} …(8) 無音から始まる母音を音素/K/で始まる「か行」の母音に
誤る現象を削減することができるのである。この他「わ」
の音を表す音素/w/を「う(/u/)」や「お(/o/)」の母音に
誤る等の現象にも適用できる。このように、予め分って
いる誤り易い音素の対のパターンを用いて修正を行うこ
とによって、迅速に且つ的確に修正処理を行うのとがで
きるのである。
【0048】高速照合用尤度記憶部20は、上記高速照
合用尤度修正部19によって修正された音素の尤度を記
憶する。高速照合用言語辞書21は、認識対象語彙の各
単語と、この単語を1音素を1状態とした状態系列で表
現したものとを対応付けて格納している。高速照合部2
2では、間引き処理後の入力と高速照合用言語辞書21
の各単語とのビタビ法による照合を行う。その際におけ
る各入力フレームの局所尤度は、高速照合用尤度記憶部
20を参照することによって求める。
【0049】候補予備選択部23は、上記高速照合部2
2による各単語に対するビタビ照合の結果に基づいて、
尤度の大きい順にH個の単語を選ぶ。尚、「H」の数は語
彙数に依存するが、語彙数の1/5から1/20程度とす
る。詳細照合用言語辞書24には、認識対象語彙の各単
語と、この単語を音響モデルである各環境依存型音素モ
デルの状態系列を直列接続して表現したものとを対応付
けて格納している。
【0050】詳細照合部25は、上記候補予備選択部2
3によって選択されたH個の単語に関して、詳細照合用
言語辞書24に格納された状態系列と入力された全フレ
ームとをビタビ法によって照合して、H個の単語の尤度
を計算し直す。その場合、入力された各フレームにおけ
る各状態の局所尤度は、詳細照合用尤度記憶部16に記
憶された値を参照することによって得る。そして、上記
予備選択されたH個の候補単語を、計算し直した尤度の
高い順に並べ直し、上位候補を出力するのである。
【0051】上記実施の形態における高速照合用尤度演
算および高速照合に用いる音素は、上述のごとく詳細照
合用の音素モデルの音素をそのまま使うのではなく、別
の音素クラスを用いることも可能ではある。その場合に
おける音素クラスとしては、/u/と/o/と/w/等の誤り
易い音素群は同一のクラスとし、「か,く,け,こ」におけ
る音素/k/と「き」における音素/k/等の誤り難い音素は
別音素とする等、音響モデルの誤り特性に合わせて調節
すると効果的である。その場合は、高速照合用言語辞書
21を高速照合用音素クラスで記述しておく必要があ
る。尚、上述のように誤り易い音素群は同一のクラスと
する場合には、高速照合用尤度修正部19による高速照
合用尤度の修正処理を省略しても構わない。
【0052】また、上記文献3のごとく、高速照合を効
率よく行うために、高速照合用言語辞書21を、語頭か
ら同じ音素を共通化して木構造に成しても差し支えな
い。但し、語彙数が数百単語程度の場合には共通化の効
果が少なく、処理が複雑になるためあまり高速化はでき
ない。また、語彙に含まれる長母音を短母音に省略する
方法は、語彙数が数百程度と少ない場合でも若干計算量
を削減することが可能である。また、高速照合用尤度演
算および高速照合に音素クラスを用いる場合は、元の単
語としては異なる音素連鎖であっても音素クラスで表現
した場合には同じ音素クラスの連続となる部分を1つの
状態に圧縮することによって、若干高速化の効果が得ら
れる。
【0053】ところで、音声認識装置をDSP(ディジ
タル・シグナル・プロセッサ)や汎用プロセッサ等によっ
て実現する場合には、内部メモリを効率よく使用し、外
部メモリヘのアクセスを少なくすることによる高速化が
重要となる。このことを本実施の形態の音声認識装置に
おいて実現する方法として、高速照合の時だけ必要にな
る高速照合用言語辞書21と高速照合用の尤度テーブル
(高速照合用尤度記憶部20の記憶内容)をプロセッサの
内部RAM(ランダム・アクセス・メモリ)にロードするこ
とによって、効率よく高速照合を行う方法が考えられ
る。
【0054】具体的には、詳細照合用の尤度テーブル
(詳細照合用尤度記憶部16の記憶内容)は一般に大きな
容量が必要になるため、詳細照合用尤度記憶部16は外
部メモリ上に設定する。そして、尤度演算部12は、音
声入力に同期して各フレーム毎に尤度を演算し、得られ
た尤度を上記外部メモリの詳細照合用尤度記憶部16に
記憶する。一方、音声区間検出部13によって音声区間
が切り出されると、入力音声を停止した後、高速照合用
尤度演算部18によって高速照合用尤度演算を行い、高
速照合用尤度修正部19で修正する。そして、得られた
修正後の尤度をプロセッサの上記内部RAM上の高速照
合用尤度記憶部20に記憶する。それと同時に、高速照
合用言語辞書21を上記内部RAMにロードしておく。
そして、高速照合部22によって、上記内部RAM上の
高速照合用の尤度テーブルと高速照合用言語辞書21と
を用いて高速照合を行った後に、上記内部RAMを開放
する。そうした後、上記詳細照合用の尤度テーブルと詳
細照合用言語辞書24とを外部メモリから上記内部RA
Mにロードして、候補予備選択部23による選択の結果
残った候補に対してのみ、詳細照合部25によって詳細
な照合を行うのである。
【0055】ユーザーが新しい単語等を辞書に登録する
場合には、辞書登録部26に単語を入力すると、辞書登
録部26によって、詳細照合用の音素状態系列と高速照
合用の状態系列とが作成される。そして、前者は詳細照
合用言語辞書24に追加登録され、後者は高速照合用言
語辞書21に追加登録される。こうして、高速照合用言
語辞書21および詳細照合用言語辞書24の両辞書に自
動的に新しい単語を追加登録することによって、常に新
しい単語を認識可能にして高い認識率を維持できるので
ある。
【0056】以下、図2のフローチャートに従って、上
記音声認識装置による音声認識処理動作のアルゴリズム
について説明する。ステップS1で、音響分析部11に
よって入力音声が音響分析される。そして、分析結果に
基づいて、間引きパラメータ演算部14によって間引き
パラメータが演算されて間引きパラメータ記憶部17に
記憶される。ステップS2で、尤度演算部12によっ
て、音響分析部11による分析結果に基づいて、フレー
ム毎に各状態の尤度が算出されて上記外部メモリの詳細
照合用尤度記憶部16に記憶される。ステップS3で、
音声区間検出部13によって、音響分析部11による分
析結果に基づいて音声区間が検出され、検出信号が出力
される。
【0057】ステップS4で、上記高速照合用尤度演算
部18によって、上記検出信号に基づいて音声区間が検
出された否かが判別される。その結果、検出されればス
テップS5に進み、そうでなければステップS1に戻って
検出されるのを待つ。ステップS5で、高速照合用尤度
演算部18によって、詳細照合用尤度記憶部16に記憶
された当該音声区間の尤度値を用いて、上記間引きパラ
メータに基づく入力の間引きが行われた後、音素環境を
考慮しない高速照合用尤度が演算される。さらに、高速
照合用尤度修正部19によって音素毎に誤り音素側への
尤度の偏りが修正される。こうして得られた高速照合用
の尤度は高速照合用尤度記憶部20に記憶される。
【0058】ステップS6で、上記高速照合部22によ
って、上述のような高速照合が行われて高速照合用言語
辞書21に登録された各単語の尤度が求められる。ステ
ップS7で、全単語の高速照合が終了したか否かが判別
される。その結果、終了すればステップS8に進み、終
了していなければ上記ステップS6に戻って高速照合が
続行される。ステップS8で、候補予備選択部23によ
って、尤度の高い順に上位H個の単語が候補として選択
される。
【0059】ステップS9で、上記詳細照合部25によ
って、上記予備選択された候補単語に関して、詳細照合
用言語辞書24を用いて詳細照合が行われ、正確な尤度
が求め直される。ステップS10で、全予備選択候補単語
に関する詳細照合が終了したか否かが判別される。その
結果、終了すればステップS11に進み、終了していなけ
れば上記ステップS9に戻って詳細照合が続行される。
ステップS11で、さらに、候補単語が上記正確な尤度の
高い順に並べ直され、上位候補が出力される。そうした
後、音声認識処理動作が終了される。
【0060】次に、本音声認識装置を、電話帳の人名3
00単語を認識するシステムに応用した場合を例に、上
記音声認識処理動作を具体的に説明する。この場合、高
速照合用言語辞書21には、電話帳の人名300の各単
語と、この単語を1音素を1状態とした状態系列で表現
したものとが対応付けられて格納されている。また、詳
細照合用言語辞書24には、上記人名300の各単語
と、この単語を各環境依存型音素モデルの状態系列を直
列接続して表現したものとが対応付けられて格納されて
いる。
【0061】上記音声区間検出部13による音声区間の
判定は、促音による無音区間を誤って音声区間終了の無
音区間と判定しないように、通常、発声が終了してから
例えば0.3秒程度無音区間が継続した場合に音声区間
終了と判定するようにしている。したがって、例えば、
ユーザが「佐藤」と発声した場合、「佐藤」の発声終了後
0.3秒が経過するまで、図2におけるステップS1〜ス
テップS4が繰り返されて、音声「佐藤」に関する音響分
析,間引きパラメータ演算および尤度演算が行われるの
である。
【0062】そして、0.3秒間無音区間が継続して音
声区間が検出されると、切り出された「佐藤」の音声区間
に対して上記演算された尤度を状態方向と時間方向とに
間引きながら高速照合用尤度記憶部20にコピーして、
上記高速照合用の尤度テーブルが作成される(ステップ
S5)。そして、上記高速照合用の尤度テーブルに対して
修正が行われた後、修正後の上記高速照合用の尤度テー
ブルと高速照合用言語辞書21に登録された300単語
との高速照合が行われる(ステップS6)。そして、その
結果を尤度の高い順に並べて、上位の20単語が候補と
して予備選択される(ステップS8)。
【0063】その結果、入力音声「佐藤」に対して、「加
藤」,「佐藤」,「斉藤」,「後藤」,…という順位となったとす
る。これら20個の候補単語に関して、上記詳細照合用
の尤度テーブルと詳細照合用言語辞書24との詳細照合
が行われ、尤度の再計算と並び替えとが行われる(ステ
ップS9)。
【0064】このように、300個の大語彙に対するビ
タビ法による照合演算は、間引き後に残った入力フレー
ムに対して、1音素を1状態に限定した簡素化された高
速照合用言語辞書21を用いて行う。一方、各環境依存
型音素モデルの状態系列の直列接続に関するビタビ法に
よる膨大な照合演算は、20個の予備候補単語に限定し
て行う。こうすることによって、認識処理の高速化と認
識率の向上とが図られるのである。
【0065】上述のようにして、詳細照合と候補単語の
並び替えとが行われた結果、上記候補単語の並び順が
「佐藤」,「加藤」,「斉藤」の順になったとすると、この順で
候補単語を出力する(ステップS11)。
【0066】上述のように、本実施の形態においては、
入力音声の音響パラメータに基づいて演算された各フレ
ームにおける各状態の尤度に対して、高速照合用尤度演
算部18によって、間引きパラメータに基づいて間引き
を行った後、種々の音素環境下に在る同一音素に属する
全状態のうち最大尤度を呈する1つの状態とその状態の
尤度とを求めて(つまり、1音素1状態の環境独立型音
素モデルに変換して)、高速照合用の尤度テーブルを生
成する。そして、高速照合用尤度修正部19によって、
上記尤度テーブル上の尤度の誤った音素側への偏りを、
尤度の修正ルールに従って修正するようにしている。
【0067】したがって、上記高速照合用の尤度テーブ
ルを生成するに際して1音素1状態としたことによって
生ずる誤った音素側への尤度の偏りを、的確に修正する
ことができる。その結果、上記高速照合用の尤度テーブ
ルを用いた高速照合によって候補単語の予備選択を行う
際に、照合誤りを無くすことができる。その結果、候補
単語を少ない数に的確に絞り込むことができ、詳細照合
部25によって後に行われる環境依存型音素モデルによ
る詳細照合の高速化を行うことができるのである。
【0068】さらに、本実施の形態においては、上記高
速照合用尤度演算部18による入力の間引きは、間引き
パラメータ演算部14によって、標準偏差で正規化した
音響パラメータの変化量に基づく間引きパラメータの積
分値に従って、上記音響パラメータの変化量が略一定に
なるように行われる。したがって、時間方向に一定間隔
で間引く場合のように、早口で発声した音声中の破裂音
のごとく主観的な音素の特徴が欠落することがなく、入
力音声の特徴をよく表わす高速照合用尤度が得られるの
である。
【0069】上述のごとく、本実施の形態においては、
上記高速照合時における照合誤りを無くすことによって
候補単語を少ない数に的確に絞り込むことができ、結果
的に詳細照合の高速化を図ることができる。具体的に
は、高速照合用尤度演算部18によって詳細照合用の尤
度テーブルを状態方向に約1/4,時間方向に約1/5の
圧縮を行い、高速照合用言語辞書21に登録された語彙
数の約1/20の単語候補を予備選択するとすると、図
3に示す音声認識装置の場合に比して約1/20の時間
での高速照合と約1/20の時間での詳細照合とで音声
認識を行うことができ、照合全体としては10倍の高速
化を実現できる。また、上記内部メモリを有効に使用す
ることができるため、さらに高速化が可能になるのであ
る。
【0070】また、上記高速照合用尤度演算部18によ
る高速照合用尤度の演算を、上記音響モデルの構成単位
である音素を誤り易い音素でグループ化し、一つの音素
グループを一つの代表尤度で表わすように行うこともで
きる。この場合には、誤り易い音素を一つの音素グルー
プをとしているため、高速照合時における照合誤りを殆
どなくすことができ、高速照合用尤度修正部19による
上記修正処理を省略することが可能になる。また、照合
対象数が減少するため、高速照合の高速化を図ることが
できるのである。
【0071】さらに、本実施の形態における音声認識装
置をDSPや汎用プロセッサで実現する場合には、外部
メモリ上に設定された詳細照合用尤度記憶部20に基づ
いて得られた高速照合用の尤度テーブルおよび高速照合
用言語辞書21を内部メモリにロードして高速照合を行
うようにしている。したがって、上記高速照合を効率よ
く高速に処理することができる。
【0072】また、本実施の形態においては、辞書登録
部26を有して、高速照合用言語辞書21および詳細照
合用言語辞書24に登録されていない新たな単語が入力
されると、入力単語に関する高速照合用の状態系列と詳
細照合用の音素状態系列とを生成する。そして、生成さ
れた上記高速照合用の状態系列を高速照合用言語辞書2
1に追加登録する一方、上記詳細照合用の音素状態系列
を詳細照合用言語辞書24に追加登録する。こうして、
新たな単語の照合用言語辞書情報が自動的に得られて、
高速照合用言語辞書21および詳細照合用言語辞書24
の両辞書に追加登録される。したがって、常に新しい単
語を認識可能にして、高い認識率を維持できるのであ
る。
【0073】その際に、連続する同一音素がある場合に
は1つの状態に圧縮する。または、元の単語としては異
なる音素連鎖であっても音素グループで見ると同一音素
グループが連続する場合には、その連続する同一音素グ
ループを1つの状態に圧縮する。そうすることによっ
て、高速照合用言語辞書21を用いた高速照合および詳
細照合用言語辞書24を用いた詳細照合の高速化を図る
ことができるのである。
【0074】ところで、上記実施の形態における音響分
析手段,尤度演算手段,音声区間検出手段,高速照合用尤
度演算手段,高速照合用尤度修正手段,高速照合手段,候
補予備選択手段,詳細照合手段,間引きパラメータ演算手
段および辞書登録手段としての機能は、プログラム記録
媒体に記録された音声認識処理プログラムによって実現
される。上記実施の形態における上記プログラム記録媒
体は、ROM(リード・オンリ・メモリ)でなるプログラム
メディアである。あるいは、外部補助記憶装置に装着さ
れて読み出されるプログラムメディアであってもよい。
尚、何れの場合においても、上記プログラムメディアか
ら音声認識処理プログラムを読み出すプログラム読み出
し手段は、上記プログラムメディアに直接アクセスして
読み出す構成を有していてもよいし、RAMに設けられ
たプログラム記憶エリア(図示せず)にダウンロードし、
上記プログラム記憶エリアにアクセスして読み出す構成
を有していてもよい。尚、上記プログラムメディアから
RAMの上記プログラム記憶エリアにダウンロードする
ためのダウンロードプログラムは、予め本体装置に格納
されているものとする。
【0075】ここで、上記プログラムメディアとは、本
体側と分離可能に構成され、磁気テープやカセットテー
プ等のテープ系、フロッピー(登録商標)ディスク,ハ
ードディスク等の磁気ディスクやCD(コンパクトディ
スク)−ROM,MO(光磁気)ディスク,MD(ミニディス
ク),DVD(ディジタルビデオディスク)等の光ディスク
のディスク系、IC(集積回路)カードや光カード等のカ
ード系、マスクROM,EPROM(紫外線消去型RO
M),EEPROM(電気的消去型ROM),フラッシュR
OM等の半導体メモリ系を含めた、固定的にプログラム
を坦持する媒体である。
【0076】また、上記各実施の形態における音声認識
装置は、モデムを備えてインターネットを含む通信ネッ
トワークと接続可能な構成を有している場合には、上記
プログラムメディアは、通信ネットワークからのダウン
ロード等によって流動的にプログラムを坦持する媒体で
あっても差し支えない。尚、その場合における上記通信
ネットワークからダウンロードするためのダウンロード
プログラムは、予め本体装置に格納されているものとす
る。あるいは、別の記録媒体からインストールされるも
のとする。
【0077】尚、上記記録媒体に記録されるものはプロ
グラムのみに限定されるものではなく、データも記録す
ることが可能である。
【0078】
【発明の効果】以上より明らかなように、第1の発明の
音声認識装置は、HMMを用いた音声認識装置におい
て、尤度演算手段によって得られた詳細照合用尤度に基
づいて、高速照合用尤度演算手段によって高速照合用尤
度を求め、高速照合用尤度修正手段によって上記高速照
合用尤度の誤った側への偏りを修正するので、上記高速
照合用尤度を少ない状態で表現した際に生ずる尤度の誤
った音声単位側への偏りを修正することができる。した
がって、上記文献3のごとく、複数の状態からなる環境
依存型音素モデルを1状態の環境独立型音素モデルに変
換した際に、音素間でパラメータ空間を占める範囲が重
複しているために生ずる誤り音素側への偏りを修正する
ことができる。
【0079】したがって、高速照合手段による高速照合
を行う際の照合誤りを少なくでき、結果的に、候補予備
選択手段による候補単語の予備選択によって、候補単語
を少ない数に的確に絞り込むことができる。すなわち、
この発明によれば、上記候補単語の予備選択による詳細
照合の高速化を、より効率的に行うことができるのであ
る。
【0080】また、上記第1の発明の音声認識装置は、
間引きパラメータ演算手段によって音響分析結果に基づ
いて間引きパラメータを演算し、上記高速照合用尤度演
算手段を、上記間引きパラメータに基づいて上記詳細照
合用尤度に対して時間方向への間引き処理を行った後
に、上記高速照合用尤度を求めるように成せば、上記間
引きパラメータを適切に算出することによって、上記文
献2のごとく時間方向に一定間隔で間引く場合のような
瞬間的な特徴の欠落を防止し、且つ、十分に高速化を行
うことが可能になる。
【0081】また、上記第1の発明の音声認識装置は、
上記間引きパラメータ演算手段による上記間引きパラメ
ータの演算を、上記音響分析結果としての音響パラメー
タの変化量に基づいて行い、上記高速照合用尤度演算手
段による間引き処理を、上記間引きパラメータに基づい
て上記音響パラメータの変化量が略一定になるように行
えば、間引き処理後の上記詳細照合用尤度を音響パラメ
ータの変化が激しい領域ほど多く残すことができる。し
たがって、入力音声の瞬間的な特徴を的確に抽出するこ
とができるのである。
【0082】また、上記第1の発明の音声認識装置は、
上記高速照合用尤度演算手段による上記高速照合用尤度
の演算を、上記音響モデルの構成単位である音声単位を
一つの代表尤度で表わすことによって行えば、高速照合
用の尤度を最小の状態数で表現できる。したがって、上
記高速照合用の尤度を用いた高速照合を高速に行うこと
ができる。
【0083】また、上記第1の発明の音声認識装置は、
上記高速照合用尤度演算手段による上記高速照合用尤度
の演算を、上記音響モデルの構成単位である音声単位を
誤り易い音声単位でグループ化し、一つのグループを一
つの代表尤度で表わすことによって行えば、誤った音声
単位の尤度が正しい音声単位の尤度よりも高くなること
を防止できる。すなわち、この発明によれば、高速照合
時における照合誤りを少なくできるのである。さらに、
上記グループ化によって、高速照合時における照合の対
象を減少し、上記高速照合を非常に高速に行うことがで
きるのである。
【0084】尚、この場合には、上記高速照合用尤度修
正手段による修正処理を省略することが可能になる。
【0085】また、上記第1の発明の音声認識装置は、
高速照合用尤度修正手段による上記高速照合用尤度の修
正を、上記音声単位間あるいは上記グループ間の誤りパ
ターンを考慮して行えば、予め分っている上記音声単位
間あるいは上記グループ間の誤りパターンを考慮して上
記音声単位あるいはグループの代表尤度を修正でき、迅
速に且つ的確に修正処理を行うことができる。
【0086】また、上記第1の発明の音声認識装置は、
上記高速照合を実行する際には、上記高速照合用尤度記
憶手段に記憶された上記高速照合用尤度と、高速照合用
言語辞書記憶手段に記憶された上記高速照合用言語辞書
とを、上記高速照合手段の内部メモリにロードすれば、
上記高速照合処理を効率よく行うことができる。
【0087】また、上記第1の発明の音声認識装置は、
辞書登録手段によって、入力単語に関する高速照合用の
状態系列と詳細照合用の状態系列とを生成し、前者を上
記高速照合用言語辞書に追加登録する一方、後者を上記
詳細照合用言語辞書に追加登録すれば、自動的に上記高
速照合用言語辞書および詳細照合用言語辞書の両辞書に
当該単語の辞書項目を追加登録できる。したがって、常
に新しい単語の認識を可能にでき、高い認識率を維持で
きる。
【0088】また、上記第1の発明の音声認識装置は、
上記辞書登録手段による上記高速照合用の状態系列の生
成を、連続する同一音声単位あるいは連続する同一音声
単位グループを1つの状態に圧縮することによって行え
ば、上記高速照合用言語辞書を用いた高速照合の高速化
を図ることができる。
【0089】また、第2の発明の音声認識方法は、HM
Mを用いた音声認識方法において、詳細照合用尤度に基
づいて高速照合用尤度を求め、上記高速照合用尤度の誤
った側への偏りを修正するので、上記高速照合用尤度を
少ない状態で表現した際に生ずる各尤度の誤った音声単
位側への偏りを修正することができる。したがって、高
速照合を行う際の照合誤りを少なくでき、結果的に、候
補単語の予備選択によって、候補単語を少ない数に的確
に絞り込むことができる。
【0090】すなわち、この発明によれば、上記候補単
語の予備選択による詳細照合の高速化を、より効率的に
行うことができるのである。
【0091】また、第3の発明のプログラム記録媒体
は、コンピュータを、上記第1の発明における音響分析
手段,尤度演算手段,高速照合用尤度演算手段,高速照合
用尤度修正手段,高速照合手段,候補予備選択手段及び詳
細照合手段として機能させる音声認識処理プログラムが
記録されているので、上記第1の発明の場合と同様に、
HMMを用いた音声認識を行うに際して、高速照合用尤
度の誤った側への偏りを修正することができ、上記高速
照合用尤度を少ない状態で表現した際に生ずる各尤度の
誤った音声単位側への偏りを修正することができる。し
たがって、高速照合を行う際の照合誤りを少なくでき、
結果的に、候補単語の予備選択によって、候補単語を少
ない数に的確に絞り込むことができる。
【0092】すなわち、この発明によれば、上記候補単
語の予備選択による詳細照合の高速化を、より効率的に
行うことができるのである。
【図面の簡単な説明】
【図1】 この発明の音声認識装置におけるブロック図
である。
【図2】 図1に示す音声認識装置による音声認識処理
動作のフローチャートである。
【図3】 HMMを用いた従来の音声認識装置のブロッ
ク図である。
【符号の説明】
11…音響分析部、 12…尤度演算部、 13…音声区間検出部、 14…間引きパラメータ演算部、 15…音響モデル記憶部、 16…詳細照合用尤度記憶部、 17…間引きパラメータ記憶部、 18…高速照合用尤度演算部、 19…高速照合用尤度修正部、 20…高速照合用尤度記憶部、 21…高速照合用言語辞書、 22…高速照合部、 23…候補予備選択部、 24…詳細照合用言語辞書、 25…詳細照合部、 26…辞書登録部。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI G10L 15/14 G10L 3/00 521C 15/18 (56)参考文献 特開 昭62−220996(JP,A) 特開 平6−348299(JP,A) 特開 平9−34486(JP,A) 特開 平3−116100(JP,A) 特開 平8−123470(JP,A) 特開 平6−266393(JP,A) 特開 昭59−60499(JP,A) 特開 平6−266396(JP,A) 山口 外8名,コンパクトな単語音声 認識、テキスト音声合成,シャープ技 報,日本,2000年 8月10日,第77号, Pages 26−32 (58)調査した分野(Int.Cl.7,DB名) G10L 11/00 G10L 15/00 - 15/28 JICSTファイル(JOIS)

Claims (12)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力音声を音響分析する音響分析手段
    と、 上記音響分析結果に基づいて、音響モデル記憶手段に記
    憶された音響モデルを参照してフレーム毎に各状態の尤
    度を演算し、演算結果を詳細照合用尤度として詳細照合
    用尤度記憶手段に記憶する尤度演算手段と、 上記詳細照合用尤度に基づいて、高速照合用尤度を求め
    る高速照合用尤度演算手段と、 上記高速照合用尤度の誤った側への偏りを修正し、高速
    照合用尤度記憶手段に記憶する高速照合用尤度修正手段
    と、 上記修正後の高速照合用尤度と高速照合用言語辞書に登
    録された全単語との照合を行って、上記各単語の尤度を
    算出する高速照合手段と、 上記高速照合手段による照合結果に基づいて、候補単語
    の予備選択を行う候補予備選択手段と、 上記予備選択された候補単語に関して、上記詳細照合用
    尤度と詳細照合用言語辞書に登録された単語との詳細照
    合を行って、上記各候補単語の尤度を算出する詳細照合
    手段を備えたことを特徴とする音声認識装置。
  2. 【請求項2】 請求項1に記載の音声認識装置におい
    て、 上記音響分析結果に基づいて、間引きパラメータを演算
    する間引きパラメータ演算手段を備えると共に、 上記高速照合用尤度演算手段は、上記詳細照合用尤度に
    対して上記間引きパラメータに基づく時間方向への間引
    き処理を行った後に、残った上記詳細照合用尤度に基づ
    いて、高速照合用尤度を求めるようになっていることを
    特徴とする音声認識装置。
  3. 【請求項3】 請求項2に記載の音声認識装置におい
    て、 上記間引きパラメータ演算手段は、上記音響分析結果と
    しての音響パラメータの変化量に基づいて上記間引きパ
    ラメータを演算し、 上記高速照合用尤度演算手段は、上記間引きパラメータ
    に基づいて、上記音響パラメータの変化量が略一定にな
    るように間引き処理を行うようになっていることを特徴
    とする音声認識装置。
  4. 【請求項4】 請求項1に記載の音声認識装置におい
    て、 上記高速照合用尤度演算手段は、上記音響モデルの構成
    単位である音声単位を一つの代表尤度で表わすことによ
    って、上記高速照合用尤度の演算を行うようになってい
    ることを特徴とする音声認識装置。
  5. 【請求項5】 請求項1に記載の音声認識装置におい
    て、 上記高速照合用尤度演算手段は、上記音響モデルの構成
    単位である音声単位を誤り易い音声単位でグループ化
    し、一つのグループを一つの代表尤度で表わすことによ
    って、上記高速照合用尤度の演算を行うようになってい
    ることを特徴とする音声認識装置。
  6. 【請求項6】 請求項5に記載の音声認識装置におい
    て、 上記高速照合用尤度修正手段による修正処理を省略する
    ことを特徴とする音声認識装置。
  7. 【請求項7】 請求項4あるいは請求項5に記載の音声
    認識装置において、高速照合用尤度修正手段は、上記音
    声単位間あるいは上記グループ間の誤りパターンを考慮
    して上記音声単位あるいは上記グループの代表尤度を修
    正することによって、上記高速照合用尤度の修正を行う
    ようになっていることを特徴とする音声認識装置。
  8. 【請求項8】 請求項1に記載の音声認識装置におい
    て、 上記高速照合手段は、内部メモリを有しており、 上記高速照合用言語辞書は、高速照合用言語辞書記憶手
    段に記憶されており、 上記高速照合手段は、上記高速照合を実行する際には、
    上記高速照合用尤度記憶手段に記憶された高速照合用尤
    度と、上記高速照合用言語辞書記憶手段に記憶された高
    速照合用言語辞書とを、上記内部メモリにロードするよ
    うになっていることを特徴とする音声認識装置。
  9. 【請求項9】 請求項1に記載の音声認識装置におい
    て、 単語が入力されて、この入力単語に関する高速照合用の
    状態系列と詳細照合用の状態系列とを生成し、上記高速
    照合用の状態系列を上記高速照合用言語辞書に追加登録
    する一方、上記詳細照合用の状態系列を上記詳細照合用
    言語辞書に追加登録する辞書登録手段を備えたことを特
    徴とする音声認識装置。
  10. 【請求項10】 請求項9に記載の音声認識装置におい
    て、 上記辞書登録手段は、上記高速照合用の状態系列を生成
    する際に、同一の音声単位あるいは同一の音声単位グル
    ープが連続する場合には、上記連続する同一音声単位あ
    るいは上記連続する同一音声単位グループを1つの状態
    に圧縮するようになっていることを特徴とする音声認識
    装置。
  11. 【請求項11】 入力音声を音響分析するステップと、 上記音響分析結果に基づいて、音響モデルを参照してフ
    レーム毎に各状態の尤度を演算して詳細照合用尤度を求
    めるステップと、 上記詳細照合用尤度に基づいて高速照合用尤度を求める
    ステップと、 上記高速照合用尤度の誤った側への偏りを修正するステ
    ップと、 上記修正後の高速照合用尤度と高速照合用言語辞書に登
    録された全単語との高速照合を行って、上記各単語の尤
    度を算出するステップと、 上記高速照合結果に基づいて、候補単語の予備選択を行
    うステップと、 上記予備選択された候補単語に関して、上記詳細照合用
    尤度と詳細照合用言語辞書に登録された単語との詳細照
    合を行って、上記各候補単語の尤度を算出するステップ
    を備えたことを特徴とする音声認識方法。
  12. 【請求項12】 コンピュータを、 請求項1における音響分析手段,尤度演算手段,高速照合
    用尤度演算手段,高速照合用尤度修正手段,高速照合手
    段,候補予備選択手段および詳細照合手段として機能さ
    せる音声認識処理プログラムが記録されたことを特徴と
    するコンピュータ読出し可能なプログラム記録媒体。
JP2000187686A 2000-06-22 2000-06-22 音声認識装置および音声認識方法、並びに、プログラム記録媒体 Expired - Fee Related JP3461789B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000187686A JP3461789B2 (ja) 2000-06-22 2000-06-22 音声認識装置および音声認識方法、並びに、プログラム記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000187686A JP3461789B2 (ja) 2000-06-22 2000-06-22 音声認識装置および音声認識方法、並びに、プログラム記録媒体

Publications (2)

Publication Number Publication Date
JP2002006883A JP2002006883A (ja) 2002-01-11
JP3461789B2 true JP3461789B2 (ja) 2003-10-27

Family

ID=18687625

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000187686A Expired - Fee Related JP3461789B2 (ja) 2000-06-22 2000-06-22 音声認識装置および音声認識方法、並びに、プログラム記録媒体

Country Status (1)

Country Link
JP (1) JP3461789B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6497651B2 (ja) * 2015-03-19 2019-04-10 株式会社レイトロン 音声認識装置および音声認識プログラム
JP6724511B2 (ja) 2016-04-12 2020-07-15 富士通株式会社 音声認識装置、音声認識方法および音声認識プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
山口 外8名,コンパクトな単語音声認識、テキスト音声合成,シャープ技報,日本,2000年 8月10日,第77号,Pages 26−32

Also Published As

Publication number Publication date
JP2002006883A (ja) 2002-01-11

Similar Documents

Publication Publication Date Title
CN108989341B (zh) 语音自主注册方法、装置、计算机设备及存储介质
US6542866B1 (en) Speech recognition method and apparatus utilizing multiple feature streams
US9536525B2 (en) Speaker indexing device and speaker indexing method
RU2393549C2 (ru) Способ и устройство для распознавания речи
US7319960B2 (en) Speech recognition method and system
JP3672595B2 (ja) 結合されたストリングモデルの最小誤認率訓練
He et al. Discriminative learning for speech recognition: theory and practice
US6029124A (en) Sequential, nonparametric speech recognition and speaker identification
EP2048655B1 (en) Context sensitive multi-stage speech recognition
US20080312921A1 (en) Speech recognition utilizing multitude of speech features
JP4224250B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
US20130132083A1 (en) Generic framework for large-margin mce training in speech recognition
US20030200086A1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
JP6690484B2 (ja) 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
JP4769098B2 (ja) 音声認識信頼度推定装置、その方法、およびプログラム
CN112750445A (zh) 语音转换方法、装置和***及存储介质
JP3088357B2 (ja) 不特定話者音響モデル生成装置及び音声認識装置
JP2003208195A5 (ja)
JP2003208195A (ja) 連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体
CN112201275A (zh) 声纹分割方法、装置、设备及可读存储介质
JP5296455B2 (ja) 話者識別装置、及びコンピュータプログラム
JP3461789B2 (ja) 音声認識装置および音声認識方法、並びに、プログラム記録媒体
JP2921059B2 (ja) 連続音声認識装置
JP4798606B2 (ja) 音声認識装置、およびプログラム
JP2003345384A (ja) 音声認識装置、音声認識方法および音声認識プログラム

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070815

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080815

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080815

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090815

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees