JP2964881B2 - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JP2964881B2 JP2964881B2 JP6224360A JP22436094A JP2964881B2 JP 2964881 B2 JP2964881 B2 JP 2964881B2 JP 6224360 A JP6224360 A JP 6224360A JP 22436094 A JP22436094 A JP 22436094A JP 2964881 B2 JP2964881 B2 JP 2964881B2
- Authority
- JP
- Japan
- Prior art keywords
- memory
- input
- cumulative value
- calculation
- distance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004364 calculation method Methods 0.000 claims description 56
- 230000001186 cumulative effect Effects 0.000 claims description 30
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000000034 method Methods 0.000 description 30
- 238000010586 diagram Methods 0.000 description 8
- 230000004044 response Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/12—Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Description
【0001】
【産業上の利用分野】本発明は、入力された音声を認識
する音声認識装置に係わり、特に認識結果の応答時間を
短縮する技術に関する。
する音声認識装置に係わり、特に認識結果の応答時間を
短縮する技術に関する。
【0002】
【従来の技術】従来、音声を認識する方法の一例とし
て、電子情報通信学会論文誌D Vol.J71−D
No.9(1988年9月)の1650項から1659
項に「フレーム同期化、ビームサーチ、ベクトル量子化
の統合によるDPマッチングの高速化」と題して発表さ
れている論文(以下「引用文献1」と称す)に、DPマ
ッチングを用いた方法が示されている。
て、電子情報通信学会論文誌D Vol.J71−D
No.9(1988年9月)の1650項から1659
項に「フレーム同期化、ビームサーチ、ベクトル量子化
の統合によるDPマッチングの高速化」と題して発表さ
れている論文(以下「引用文献1」と称す)に、DPマ
ッチングを用いた方法が示されている。
【0003】また、電子情報通信学会刊、中川聖一著
「確率モデルによる音声認識」(1988年7月)(以
下「引用文献2」と称す)には、隠れマルコフモデル
(以下「HMM」と称す)を用いた音声認識方法が示さ
れている。HMMを用いた方法は確率モデルを用いた方
法であるが、特に、HMMを用いた音声認識方法の一例
であるビダビアルゴリズムを用いた音声認識の処理法
は、基本的に引用文献1に示されている方法と同じであ
る。よって、以下では引用文献1に述べられている方法
を用いて説明する。
「確率モデルによる音声認識」(1988年7月)(以
下「引用文献2」と称す)には、隠れマルコフモデル
(以下「HMM」と称す)を用いた音声認識方法が示さ
れている。HMMを用いた方法は確率モデルを用いた方
法であるが、特に、HMMを用いた音声認識方法の一例
であるビダビアルゴリズムを用いた音声認識の処理法
は、基本的に引用文献1に示されている方法と同じであ
る。よって、以下では引用文献1に述べられている方法
を用いて説明する。
【0004】文献1で示されるような方法では、入力さ
れた音声はフレームごとに分けられ、各々の特徴の時系
列パターンでなる入力パターンAに変換される。
れた音声はフレームごとに分けられ、各々の特徴の時系
列パターンでなる入力パターンAに変換される。
【0005】 A=a1,a2,...,ai,...,aI (1) 一方、入力パターンAの認識対象となる標準パターンB
があらかじめ用意されている。
があらかじめ用意されている。
【0006】 B=b1,b2,...,bi,...,bI (2) パターンAとパターンBとのパターン間距離D(A、
B)は以下のDPマッチングの手続きにより求められ
る。
B)は以下のDPマッチングの手続きにより求められ
る。
【0007】〔初期設定〕 g(1,1)=d(1,1) (3) g(i,0)=∞ (4) i=1,...,I 〔漸化式〕 g(i,j)=d(i,j)+min〔g(i−1,j),g(i−1,j− 1)〕 (5) i=1,...,I,j=1,...,J 〔パターン間距離〕 D(A,B)=g(I,J) (6) ここで、d(i,j)は、入力パターンのaiと標準パ
ターンbjの距離を表わし、また、式(5)は引用文献
1に記載されている漸化式の代表的な例である。 図4
は、漸化式計算における(i,j)平面を示す図であ
る。
ターンbjの距離を表わし、また、式(5)は引用文献
1に記載されている漸化式の代表的な例である。 図4
は、漸化式計算における(i,j)平面を示す図であ
る。
【0008】式(5)の計算は、図4に示されているよ
うな(i,j)平面上で(1,1)の初期値をもとにし
て各格子点に累積値g(i,j)の値をうめていくとい
う形で実行されるが、通常、発声が終わった後すぐに認
識結果を得るために、入力パターンaiが入力されるご
とに標準パターンのフレームj=1,...,Jに対す
る計算が行なわれる。この場合、累積値gを保持するメ
モリ(以下「累積値メモリ」と称す)は、入力パターン
aiのフレームiごとに、J回の読み出し、書き込みが
行なわれる。
うな(i,j)平面上で(1,1)の初期値をもとにし
て各格子点に累積値g(i,j)の値をうめていくとい
う形で実行されるが、通常、発声が終わった後すぐに認
識結果を得るために、入力パターンaiが入力されるご
とに標準パターンのフレームj=1,...,Jに対す
る計算が行なわれる。この場合、累積値gを保持するメ
モリ(以下「累積値メモリ」と称す)は、入力パターン
aiのフレームiごとに、J回の読み出し、書き込みが
行なわれる。
【0009】多くの単語を短い時間で認識するために
は、累積値メモリのアクセスを高速に行なうことが必要
である。特に認識対象単語数が多い場合、Jの数が多く
なるため、累積値メモリの量が多くなり、高価な高速メ
モリが多量に必要になる。
は、累積値メモリのアクセスを高速に行なうことが必要
である。特に認識対象単語数が多い場合、Jの数が多く
なるため、累積値メモリの量が多くなり、高価な高速メ
モリが多量に必要になる。
【0010】この問題を解決するため、例えば特開昭5
8−239303公報(以下「引用文献3と称す)に
は、(i,j)平面における漸化式の計算を方形ブロッ
クごとに計算する方法が示されている。
8−239303公報(以下「引用文献3と称す)に
は、(i,j)平面における漸化式の計算を方形ブロッ
クごとに計算する方法が示されている。
【0011】図3は、(i,j)平面における漸化式の
計算を方形ブロックごとに計算する計算手順を(i,
j)平面上に示した概念図を示す。図3に示すように、
ある一定のフレーム長ILの入力パターンがそろった時
点で、累積値計算開始フレームisからis+IL−1
のフレームiに対して式(5)に示す漸化式計算をj=
1,...,Jにわたって行なう。1つの方形ブロック
1の計算終了後、is+ILを次の方形ブロックの累積
値計算開始フレームisとする。
計算を方形ブロックごとに計算する計算手順を(i,
j)平面上に示した概念図を示す。図3に示すように、
ある一定のフレーム長ILの入力パターンがそろった時
点で、累積値計算開始フレームisからis+IL−1
のフレームiに対して式(5)に示す漸化式計算をj=
1,...,Jにわたって行なう。1つの方形ブロック
1の計算終了後、is+ILを次の方形ブロックの累積
値計算開始フレームisとする。
【0012】漸化式の計算を行なうため、容量がJの累
積値メモリと、容量がILのワークメモリを用意する。
漸化式の計算では、まず、g(is−1,j)を累積値
メモリから読み込み、式(5)を用いてg(is,j)
を計算する。算出されたg(is,j)からg(is+
1,j)を計算する。このようにi=is,...,i
s+ILにわたって計算を行なう。ここで、i=i
s,...,is+IL−1における計算は、ワークメ
モリを用いて行なう。そして、最後にg(is+IL−
1,j)から算出されたg(is+IL,j)は累積値
メモリに書き込む。以上の一連の動作をj=1からJま
で繰り返す。
積値メモリと、容量がILのワークメモリを用意する。
漸化式の計算では、まず、g(is−1,j)を累積値
メモリから読み込み、式(5)を用いてg(is,j)
を計算する。算出されたg(is,j)からg(is+
1,j)を計算する。このようにi=is,...,i
s+ILにわたって計算を行なう。ここで、i=i
s,...,is+IL−1における計算は、ワークメ
モリを用いて行なう。そして、最後にg(is+IL−
1,j)から算出されたg(is+IL,j)は累積値
メモリに書き込む。以上の一連の動作をj=1からJま
で繰り返す。
【0013】これにより、累積値gの読み書きの操作
は、j1つ当り累積値メモリに対するものが1回に対
し、ワークメモリに対するものが(IL−1)回とな
る。
は、j1つ当り累積値メモリに対するものが1回に対
し、ワークメモリに対するものが(IL−1)回とな
る。
【0014】すなわち、引用文献1における方法に比べ
引用文献3における方法では、入力パターンを方形ブロ
ックに分け、各ブロック内の複数のフレームに対するア
クセスを、j1つ当り累積値メモリに対して1回のみと
し、ワークメモリに対してその残り分としたことによ
り、音声認識が高価な高速メモリを多量に用いることな
く短時間でできる。
引用文献3における方法では、入力パターンを方形ブロ
ックに分け、各ブロック内の複数のフレームに対するア
クセスを、j1つ当り累積値メモリに対して1回のみと
し、ワークメモリに対してその残り分としたことによ
り、音声認識が高価な高速メモリを多量に用いることな
く短時間でできる。
【0015】例えば、J=10000(1単語あたり1
0フレームの標準パターンを1000単語分)に対し、
ILを100とし、IL−1=99ワードの高速メモリ
によるワークメモリを用意すれば、ワークメモリより1
0倍アクセスが遅いメモリを累積値メモリに使用した場
合でも、メモリアクセス時間は1割増しにしかすぎな
い。また、引用文献3における高速メモリが必要なワー
クメモリは、引用文献1における累積値メモリの約1/
100の量があればよい。
0フレームの標準パターンを1000単語分)に対し、
ILを100とし、IL−1=99ワードの高速メモリ
によるワークメモリを用意すれば、ワークメモリより1
0倍アクセスが遅いメモリを累積値メモリに使用した場
合でも、メモリアクセス時間は1割増しにしかすぎな
い。また、引用文献3における高速メモリが必要なワー
クメモリは、引用文献1における累積値メモリの約1/
100の量があればよい。
【0016】
【発明が解決しようとする課題】しかしながら、上述引
用文献3等に示される従来の音声認識装置では、累積値
計算開始フレームisからブロックILの入力パターン
が入力されないと、その方形ブロックに対する漸化式の
の計算を実行することができない。そのため、発声が終
わった時点でブロック長IL分の漸化式の計算が残って
いることになる。
用文献3等に示される従来の音声認識装置では、累積値
計算開始フレームisからブロックILの入力パターン
が入力されないと、その方形ブロックに対する漸化式の
の計算を実行することができない。そのため、発声が終
わった時点でブロック長IL分の漸化式の計算が残って
いることになる。
【0017】例えば、方形ブロック内の計算が入力に対
し実時間で実行可能な場合、フレーム周期10mse
c、IL=100とすれば、認識結果が得られるまで約
1秒の遅れが生じることになる。
し実時間で実行可能な場合、フレーム周期10mse
c、IL=100とすれば、認識結果が得られるまで約
1秒の遅れが生じることになる。
【0018】このように従来の音声認識方法では、1ブ
ロックの発声終了後、そのブロックの計算を行なってい
るため、認識の応答時間が長くなるという問題点があっ
た。
ロックの発声終了後、そのブロックの計算を行なってい
るため、認識の応答時間が長くなるという問題点があっ
た。
【0019】また、認識の応答時間を短くするためには
多量の高速メモリを使用しなければならないという問題
点があった。
多量の高速メモリを使用しなければならないという問題
点があった。
【0020】そこで本発明は、上述したような従来の技
術が有する問題点に鑑みてなされたものであって、高価
な高速メモリの使用量を増やさずに、音声の認識時間を
短くすることができる音声認識装置を提供することを目
的とする。
術が有する問題点に鑑みてなされたものであって、高価
な高速メモリの使用量を増やさずに、音声の認識時間を
短くすることができる音声認識装置を提供することを目
的とする。
【0021】
【課題を解決するための手段】上記目的を達成するため
に本発明は、入力する音声を一定長のフレームに分けて
各フレーム毎にその特徴を示す時系列な入力パターンを
求める分析部と、前記分析部にて求めた前記入力パター
ンと標準パターンとの間の距離を順次計算する距離計算
部と、前記距離計算部にて計算した距離の累積値を前記
入力パターンの所定のフレーム数分、格納するワークメ
モリと、前記所定のフレーム数分の累積値に加えて、更
に分割した標準パターン分だけ前期入力パターンと比較
したフレーム分をまとめたブロック毎の最終的な累積値
を記憶する累積値メモリと、前記ワークメモリおよび累
積値メモリにアクセスを行ない前記ワークメモリの格納
内容と累積値メモリの格納内容に基づいて累積値メモリ
の格納内容を更新する漸化式計算部と、前期漸化式計算
部により更新された累積値メモリの格納内容から認識結
果を出力する認識結果決定部と、前期ブロック単位に前
期累積値メモリの内容が更新されたときに前記ワークメ
モリの内容を所定量シフトするワークメモリシフタとを
有することを特徴とする。
に本発明は、入力する音声を一定長のフレームに分けて
各フレーム毎にその特徴を示す時系列な入力パターンを
求める分析部と、前記分析部にて求めた前記入力パター
ンと標準パターンとの間の距離を順次計算する距離計算
部と、前記距離計算部にて計算した距離の累積値を前記
入力パターンの所定のフレーム数分、格納するワークメ
モリと、前記所定のフレーム数分の累積値に加えて、更
に分割した標準パターン分だけ前期入力パターンと比較
したフレーム分をまとめたブロック毎の最終的な累積値
を記憶する累積値メモリと、前記ワークメモリおよび累
積値メモリにアクセスを行ない前記ワークメモリの格納
内容と累積値メモリの格納内容に基づいて累積値メモリ
の格納内容を更新する漸化式計算部と、前期漸化式計算
部により更新された累積値メモリの格納内容から認識結
果を出力する認識結果決定部と、前期ブロック単位に前
期累積値メモリの内容が更新されたときに前記ワークメ
モリの内容を所定量シフトするワークメモリシフタとを
有することを特徴とする。
【0022】また、前記距離計算部は、複数の入力パタ
ーンおよび標準パターンにより、複数の距離の計算を同
時に行なうことを特徴とする
ーンおよび標準パターンにより、複数の距離の計算を同
時に行なうことを特徴とする
【0023】
【作用】上記のとおりに構成された本発明では、入力パ
ターンと標準パターンとの距離が距離計算部にて求めら
れ、さらに漸化式計算部にて距離の累積値が計算されて
入力された音声が認識される。
ターンと標準パターンとの距離が距離計算部にて求めら
れ、さらに漸化式計算部にて距離の累積値が計算されて
入力された音声が認識される。
【0024】ここで、漸化式の計算は入力パターンを一
定長に分割されたフレーム単位で計算されるが、i方向
を複数のフレーム毎のブロックにまとめ、標準パターン
j方向もいくつかのブロックに分割される。1つのブロ
ックの計算終了後、i方向をiが増える方向にシフトし
て次のブロックの計算が行なわれる。
定長に分割されたフレーム単位で計算されるが、i方向
を複数のフレーム毎のブロックにまとめ、標準パターン
j方向もいくつかのブロックに分割される。1つのブロ
ックの計算終了後、i方向をiが増える方向にシフトし
て次のブロックの計算が行なわれる。
【0025】したがって、発声と平行して順次漸化式計
算が行なわれることにより発声終了時に残される漸化式
計算が従来よりも少なくなるため、音声を認識するまで
の遅れ時間が短縮される。
算が行なわれることにより発声終了時に残される漸化式
計算が従来よりも少なくなるため、音声を認識するまで
の遅れ時間が短縮される。
【0026】また、距離計算部が複数の入力パターンお
よび標準パターンにより複数の計算を同時に行なう場合
は、さらに計算量が少なくなり音声を認識するまでの遅
れ時間が短縮される。
よび標準パターンにより複数の計算を同時に行なう場合
は、さらに計算量が少なくなり音声を認識するまでの遅
れ時間が短縮される。
【0027】
【実施例】以下に本発明による音声認識装置の実施例に
ついて図面を参照して説明する。図1は本発明の音声認
識装置の構成を示すブロック図である。また図2は、本
発明による音声認識装置における計算手順を(i,j)
平面上に示した概念図である。ここで、分割ブロックの
i方向の長さをIL、j方向の長さをJLとする。 本
実施例の音声認識装置は、図1に示すように、入力され
た音声から入力パターンを抽出する分析部10と、入力
パターンの認識対象となる標準パターンがあらかじめ格
納されている標準パターンメモリ30と、入力パターン
と標準パターンとの距離を計算する距離計算部20と、
距離計算部40にて計算された累積値を入力パターンの
一定のフレーム毎に対応して一時格納するワークメモリ
60と、フレーム毎の最終的な累積値を記憶する累積値
メモリ50と、ワークメモリ60および累積値メモリ5
0にアクセスを行ない、ワークメモリ60の格納内容と
累積値メモリ50の格納内容に基づいて累積値メモリ5
0の格納内容を更新する漸化式計算部40と、漸化式の
計算において使用するg1レジスタ80、g2レジスタ
90と、ワークメモリ60の内容を所定量シフトするワ
ークメモリシフタ70と、累積値メモリ50の格納内容
から認識単語を出力する結果決定部100とから構成さ
れる。
ついて図面を参照して説明する。図1は本発明の音声認
識装置の構成を示すブロック図である。また図2は、本
発明による音声認識装置における計算手順を(i,j)
平面上に示した概念図である。ここで、分割ブロックの
i方向の長さをIL、j方向の長さをJLとする。 本
実施例の音声認識装置は、図1に示すように、入力され
た音声から入力パターンを抽出する分析部10と、入力
パターンの認識対象となる標準パターンがあらかじめ格
納されている標準パターンメモリ30と、入力パターン
と標準パターンとの距離を計算する距離計算部20と、
距離計算部40にて計算された累積値を入力パターンの
一定のフレーム毎に対応して一時格納するワークメモリ
60と、フレーム毎の最終的な累積値を記憶する累積値
メモリ50と、ワークメモリ60および累積値メモリ5
0にアクセスを行ない、ワークメモリ60の格納内容と
累積値メモリ50の格納内容に基づいて累積値メモリ5
0の格納内容を更新する漸化式計算部40と、漸化式の
計算において使用するg1レジスタ80、g2レジスタ
90と、ワークメモリ60の内容を所定量シフトするワ
ークメモリシフタ70と、累積値メモリ50の格納内容
から認識単語を出力する結果決定部100とから構成さ
れる。
【0028】上記のように構成された音声認識装置で
は、まず、入力された音声が分析部10で、東海大学出
版会、古井貞煕著「ディジタル音声処理」に記載されて
いるメルケプストラム分析が実施され、音声の特徴が抽
出されて入力パターンaiが出力される。
は、まず、入力された音声が分析部10で、東海大学出
版会、古井貞煕著「ディジタル音声処理」に記載されて
いるメルケプストラム分析が実施され、音声の特徴が抽
出されて入力パターンaiが出力される。
【0029】次に距離計算部20では、分析部10から
出力された入力パターンaiと、標準パターンメモリ3
0に格納されている標準パターンB=b1,...,b
Jとのユークリッド距離d(i,j)〔j=
1,...,J〕が計算される。
出力された入力パターンaiと、標準パターンメモリ3
0に格納されている標準パターンB=b1,...,b
Jとのユークリッド距離d(i,j)〔j=
1,...,J〕が計算される。
【0030】漸化式計算部40およびワークメモリシフ
タ70では、累積値メモリ50、ワークメモリ60、g
1レジスタ80、g2レジスタ90を用いて、距離計算
部20で計算された距離d(i,j)の累積値が以下に
示す手順で計算される。
タ70では、累積値メモリ50、ワークメモリ60、g
1レジスタ80、g2レジスタ90を用いて、距離計算
部20で計算された距離d(i,j)の累積値が以下に
示す手順で計算される。
【0031】〔初期設定〕 音声が入力されると、最初
に以下の処理が行なわれる。 (1)累積値メモリ50のg(1,1)には距離計算部
20で計算されたd(1,1)がセットされ、j=2か
らJまでのg(1,j)には∞が初期値としてセットさ
れる。 (2)分割ブロック1開始フレームibsの初期値とし
て1をセットする。
に以下の処理が行なわれる。 (1)累積値メモリ50のg(1,1)には距離計算部
20で計算されたd(1,1)がセットされ、j=2か
らJまでのg(1,j)には∞が初期値としてセットさ
れる。 (2)分割ブロック1開始フレームibsの初期値とし
て1をセットする。
【0032】〔処理本体〕 (3)発声の終了時のフレームi=Iが得られるまで、
以下の(4)〜(17)の処理を繰り返して行なう。 (4)ワークメモリ60全体に∞をセットする。 (5)累積値計算開始フレームisの値としてibsを
セットする。 (6)jに初期値1をセットする。 (7)j≦Jの間、以下の(8)〜(16)の処理を繰
り返す。 (8)(9)〜(15)の処理をJL回繰り返す(分割
ブロック内の計算)。 (9)累積値メモリ50からg(is,j)を読み込ん
で、g1レジスタ80にg(i,j)として保持する。 (10)i=isからis+IL−1まで(11)、
(13)を繰り返す。 (11)距離計算部20から距離d(i+1,j)を読
み込み、ワークメモリ60にすでに保持されているg
(i,j−1)とg1レジスタ80に保持されているg
(i,j)に対して式(5)の漸化式計算を実行し、得
られたg(i+1,j)をg2レジスタ90に保持す
る。 (12)ワークメモリ60にg1レジスタ80の内容で
あるg(i,j)をg(i,j−1)として書き込む。 (13)g1レジスタ80にg2レジスタ90の内容で
あるg(i+1,j)を書き込む。 (14)累積値メモリ50のg(is,j)にg1レジ
スタ80の内容であるg(i+IL,j)を書き込む。 (15)j=j+1にカウントアップする。 (16)ワークメモリシフタ70は、ワークメモリ60
の全ての内容をg(i,j)=g(i+1,j)となる
ように1だけシフトする。(次の分割ブロックへの移
動) (17)分割ブロック1開始フレームibs=ibs+
ILにカウントアップする。 (18)発声の終了時のフレームIが入力されたら、計
算が残された累積値g(i,j)を式(5)に従って全
て計算する。
以下の(4)〜(17)の処理を繰り返して行なう。 (4)ワークメモリ60全体に∞をセットする。 (5)累積値計算開始フレームisの値としてibsを
セットする。 (6)jに初期値1をセットする。 (7)j≦Jの間、以下の(8)〜(16)の処理を繰
り返す。 (8)(9)〜(15)の処理をJL回繰り返す(分割
ブロック内の計算)。 (9)累積値メモリ50からg(is,j)を読み込ん
で、g1レジスタ80にg(i,j)として保持する。 (10)i=isからis+IL−1まで(11)、
(13)を繰り返す。 (11)距離計算部20から距離d(i+1,j)を読
み込み、ワークメモリ60にすでに保持されているg
(i,j−1)とg1レジスタ80に保持されているg
(i,j)に対して式(5)の漸化式計算を実行し、得
られたg(i+1,j)をg2レジスタ90に保持す
る。 (12)ワークメモリ60にg1レジスタ80の内容で
あるg(i,j)をg(i,j−1)として書き込む。 (13)g1レジスタ80にg2レジスタ90の内容で
あるg(i+1,j)を書き込む。 (14)累積値メモリ50のg(is,j)にg1レジ
スタ80の内容であるg(i+IL,j)を書き込む。 (15)j=j+1にカウントアップする。 (16)ワークメモリシフタ70は、ワークメモリ60
の全ての内容をg(i,j)=g(i+1,j)となる
ように1だけシフトする。(次の分割ブロックへの移
動) (17)分割ブロック1開始フレームibs=ibs+
ILにカウントアップする。 (18)発声の終了時のフレームIが入力されたら、計
算が残された累積値g(i,j)を式(5)に従って全
て計算する。
【0033】結果決定部100では、累積値メモリ50
の中の単語の終端位置の累積値から距離累積値の最も小
さい値を与える単語を認識単語として出力する。
の中の単語の終端位置の累積値から距離累積値の最も小
さい値を与える単語を認識単語として出力する。
【0034】図2において、Iフレームにて発声が終了
すると残された漸化式計算は、図中斜線で示された範囲
にある格子点に対応するものである。これは、引用文献
3に示されている従来例に比べて1/2の計算量となっ
ている。例えば、既に示したような方形ブロック内の計
算が入力に対し実時間で実行可能で、フレーム周期10
msec、IL=100の条件において、認識結果が得
られるまでの遅れは、従来例の1秒に対して、本発明で
は0.5秒と短縮することができる。
すると残された漸化式計算は、図中斜線で示された範囲
にある格子点に対応するものである。これは、引用文献
3に示されている従来例に比べて1/2の計算量となっ
ている。例えば、既に示したような方形ブロック内の計
算が入力に対し実時間で実行可能で、フレーム周期10
msec、IL=100の条件において、認識結果が得
られるまでの遅れは、従来例の1秒に対して、本発明で
は0.5秒と短縮することができる。
【0035】以上、先に示したように引用文献1のDP
マッチングによる方法を用いて説明を行なってきたが、
引用文献2のHMMによる方法でも、漸化式の形が変わ
るだけで、図1に示したブロック図の構成と前記の累積
値の計算の手順は同じもので実施可能である。
マッチングによる方法を用いて説明を行なってきたが、
引用文献2のHMMによる方法でも、漸化式の形が変わ
るだけで、図1に示したブロック図の構成と前記の累積
値の計算の手順は同じもので実施可能である。
【0036】距離計算においては、全ての標準パターン
と入力パターンとの距離d(i,j)〔j=
1,...,J〕をあらかじめ計算して保持しておき、
漸化式計算において読み込む方法や、入力パターンを保
持しておき、漸化式計算中で距離d(i,j)が必要と
なったときに計算する方法、プリミティブな距離をあら
かじめ計算して保持しておき、漸化式計算ではそれを距
離d(i,j)に合成する方法など、様々な実施法が考
えられる。
と入力パターンとの距離d(i,j)〔j=
1,...,J〕をあらかじめ計算して保持しておき、
漸化式計算において読み込む方法や、入力パターンを保
持しておき、漸化式計算中で距離d(i,j)が必要と
なったときに計算する方法、プリミティブな距離をあら
かじめ計算して保持しておき、漸化式計算ではそれを距
離d(i,j)に合成する方法など、様々な実施法が考
えられる。
【0037】また本実施例では、標準パターンjを1ず
つカウントアップする方法を用いたが、連続する複数の
jに対して式(5)の漸化式計算を行なう方法も可能で
ある。
つカウントアップする方法を用いたが、連続する複数の
jに対して式(5)の漸化式計算を行なう方法も可能で
ある。
【0038】
【発明の効果】本発明は、以上説明したように構成され
ているので、以下に記載するような効果を奏する。
ているので、以下に記載するような効果を奏する。
【0039】請求項1に記載のものについては、漸化式
の計算において入力パターンを一定長に分割された複数
のフレームをi方向にブロックにまとめ、さらに標準パ
ターンj方向もいくつかのブロックに分割し、1つのブ
ロックの計算終了後、i方向をiが増える方向にシフト
して次のブロックの計算を行なう構成としたことによ
り、高価な高速メモリの使用量を増やさずに、発声終了
時に残される漸化式計算量が従来よりも少なくなり、音
声を認識するまでの遅れ時間を短縮することができる。
の計算において入力パターンを一定長に分割された複数
のフレームをi方向にブロックにまとめ、さらに標準パ
ターンj方向もいくつかのブロックに分割し、1つのブ
ロックの計算終了後、i方向をiが増える方向にシフト
して次のブロックの計算を行なう構成としたことによ
り、高価な高速メモリの使用量を増やさずに、発声終了
時に残される漸化式計算量が従来よりも少なくなり、音
声を認識するまでの遅れ時間を短縮することができる。
【0040】請求項2に記載のものについては、距離計
算部において複数の入力パターンおよび標準パターンに
より複数の距離の計算を同時に行なう構成としたため、
さらに計算量が少なくなり、音声を認識するまでの遅れ
時間を短縮することができる。
算部において複数の入力パターンおよび標準パターンに
より複数の距離の計算を同時に行なう構成としたため、
さらに計算量が少なくなり、音声を認識するまでの遅れ
時間を短縮することができる。
【図1】本発明の音声認識装置の構成を示すブロック図
である。
である。
【図2】(i,j)平面における漸化式の計算を方形ブ
ロックごとに計算する計算手順を(i,j)平面上に示
した概念図である。
ロックごとに計算する計算手順を(i,j)平面上に示
した概念図である。
【図3】従来方式である引用文献3の漸化式計算の計算
手順を(i,j)平面上に示した概念図である。
手順を(i,j)平面上に示した概念図である。
【図4】漸化式計算における(i,j)平面を示す図で
ある。
ある。
10 分析部 20 距離計算部 30 標準パターンメモリ 40 漸化式計算部 50 累積値メモリ 60 ワークメモリ 70 ワークメモリシフタ 80 g1レジスタ 90 g2レジスタ 100 結果決定部
Claims (2)
- 【請求項1】 入力する音声を一定長のフレームに分け
て各フレーム毎にその特徴を示す時系列な入力パターン
を求める分析部と、 前記分析部にて求めた前記入力パターンと標準パターン
との間の距離を順次計算する距離計算部と、 前記距離計算部にて計算した距離の累積値を前記入力パ
ターンの所定のフレーム数分、格納するワークメモリ
と、前記所定のフレーム数分の累積値に加えて、更に分割し
た標準パターン分だけ前期入力パターンと比較したフレ
ーム分を まとめたブロック毎の最終的な累積値を記憶す
る累積値メモリと、 前記ワークメモリおよび累積値メモリにアクセスを行な
い前記ワークメモリの格納内容と累積値メモリの格納内
容に基づいて累積値メモリの格納内容を更新する漸化式
計算部と、前期 漸化式計算部により更新された累積値メモリの格納
内容から認識結果を出力する認識結果決定部と、前期ブロック単位に前期 累積値メモリの内容が更新され
たときに前記ワークメモリの内容を所定量シフトするワ
ークメモリシフタとを有することを特徴とする音声認識
装置。 - 【請求項2】 前記距離計算部は、複数の入力パターン
および標準パターンにより、複数の距離の計算を同時に
行なうことを特徴とする請求項1に記載の音声認識装
置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP6224360A JP2964881B2 (ja) | 1994-09-20 | 1994-09-20 | 音声認識装置 |
EP95114742A EP0703568B1 (en) | 1994-09-20 | 1995-09-19 | Speech recognition system and speech recognition method with reduced response time for recognition |
DE69518291T DE69518291T2 (de) | 1994-09-20 | 1995-09-19 | System und Verfahren zur Spracherkennung mit verringerter Antwortzeit |
US08/530,995 US5812739A (en) | 1994-09-20 | 1995-09-20 | Speech recognition system and speech recognition method with reduced response time for recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP6224360A JP2964881B2 (ja) | 1994-09-20 | 1994-09-20 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0887294A JPH0887294A (ja) | 1996-04-02 |
JP2964881B2 true JP2964881B2 (ja) | 1999-10-18 |
Family
ID=16812544
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP6224360A Expired - Fee Related JP2964881B2 (ja) | 1994-09-20 | 1994-09-20 | 音声認識装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US5812739A (ja) |
EP (1) | EP0703568B1 (ja) |
JP (1) | JP2964881B2 (ja) |
DE (1) | DE69518291T2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2216224A1 (en) * | 1997-09-19 | 1999-03-19 | Peter R. Stubley | Block algorithm for pattern recognition |
US6580814B1 (en) * | 1998-07-31 | 2003-06-17 | International Business Machines Corporation | System and method for compressing biometric models |
DE10060937C1 (de) * | 2000-12-07 | 2002-07-25 | Siemens Ag | Verfahren zum Ermitteln eines Näherungswertes für den euklidischen Abstand zweier Punkte in einem Bezugssystem |
US7379868B2 (en) * | 2002-07-18 | 2008-05-27 | Massachusetts Institute Of Technology | Method and apparatus for differential compression of speaker models |
DE10305821A1 (de) * | 2003-02-12 | 2004-09-02 | Infineon Technologies Ag | Verfahren und Vorrichtung zum Vergleichen einer Vielzahl von Eingangsvektoren mit m Referenzvektoren, Computerprogramm-Element und Computerlesbares Speichermedium |
WO2010105396A1 (en) * | 2009-03-16 | 2010-09-23 | Fujitsu Limited | Apparatus and method for recognizing speech emotion change |
EP2734997A4 (en) * | 2011-07-20 | 2015-05-20 | Tata Consultancy Services Ltd | METHOD AND SYSTEM FOR DETECTING THE LIMIT OF CO-ARTICULATED UNITS FROM AN INSULATED SPEECH |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3816722A (en) * | 1970-09-29 | 1974-06-11 | Nippon Electric Co | Computer for calculating the similarity between patterns and pattern recognition system comprising the similarity computer |
US4592086A (en) * | 1981-12-09 | 1986-05-27 | Nippon Electric Co., Ltd. | Continuous speech recognition system |
JPS5998387A (ja) * | 1982-11-26 | 1984-06-06 | Nec Corp | メモリ回路 |
JPS59172700A (ja) * | 1983-03-22 | 1984-09-29 | 中川 聖一 | パタ−ン比較装置 |
JPS60179797A (ja) * | 1983-10-27 | 1985-09-13 | 日本電気株式会社 | パタンマツチング装置 |
JPS60130799A (ja) * | 1983-12-19 | 1985-07-12 | 日本電気株式会社 | 連続音声認識装置 |
US4868879A (en) * | 1984-03-27 | 1989-09-19 | Oki Electric Industry Co., Ltd. | Apparatus and method for recognizing speech |
JPS60211498A (ja) * | 1984-04-05 | 1985-10-23 | 日本電気株式会社 | 連続音声認識装置 |
DE3882062T2 (de) * | 1987-03-16 | 1994-01-05 | Nippon Electric Co | System zum Vergleichen von Mustern. |
JP2980420B2 (ja) * | 1991-07-26 | 1999-11-22 | 富士通株式会社 | 動的計画法照合装置 |
JPH0561496A (ja) * | 1991-08-30 | 1993-03-12 | Sony Corp | 音声認識装置 |
JP2891389B2 (ja) * | 1991-11-12 | 1999-05-17 | シャープ株式会社 | パターン類似度計算装置 |
-
1994
- 1994-09-20 JP JP6224360A patent/JP2964881B2/ja not_active Expired - Fee Related
-
1995
- 1995-09-19 EP EP95114742A patent/EP0703568B1/en not_active Expired - Lifetime
- 1995-09-19 DE DE69518291T patent/DE69518291T2/de not_active Expired - Fee Related
- 1995-09-20 US US08/530,995 patent/US5812739A/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP0703568B1 (en) | 2000-08-09 |
EP0703568A2 (en) | 1996-03-27 |
JPH0887294A (ja) | 1996-04-02 |
DE69518291D1 (de) | 2000-09-14 |
DE69518291T2 (de) | 2001-03-29 |
EP0703568A3 (en) | 1997-11-12 |
US5812739A (en) | 1998-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sakoe | Two-level DP-matching--A dynamic programming-based pattern matching algorithm for connected word recognition | |
US5005203A (en) | Method of recognizing continuously spoken words | |
JPS6131477B2 (ja) | ||
JPH0159600B2 (ja) | ||
JPS5885499A (ja) | 連続音声認識装置 | |
EP0162255B1 (en) | Pattern matching method and apparatus therefor | |
JP2980026B2 (ja) | 音声認識装置 | |
JP2964881B2 (ja) | 音声認識装置 | |
JPWO2006075648A1 (ja) | 音声認識システム、音声認識方法及び音声認識プログラム | |
JPH06208392A (ja) | パターン認識方法および装置 | |
EP0215573B1 (en) | Apparatus and methods for speech recognition | |
EP0138166B1 (en) | Pattern matching apparatus | |
JP2001312293A (ja) | 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体 | |
KR20110095257A (ko) | 실시간 데이터 패턴 분석 시스템 및 그 동작 방법 | |
GB2179483A (en) | Speech recognition | |
JPH10111696A (ja) | パターン間距離計算装置 | |
EP0742546B1 (en) | Speech recognizer | |
JP3348735B2 (ja) | パターン照合方式 | |
JP2712856B2 (ja) | 音声認識装置 | |
JP3226716B2 (ja) | 音声認識装置 | |
JPH0577078B2 (ja) | ||
JPH0223876B2 (ja) | ||
JPS63183500A (ja) | 音声セグメンテ−シヨン装置 | |
JPH08248984A (ja) | 音声認識方法 | |
JPS61102697A (ja) | パタ−ン比較装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |