JP2864775B2 - Voice recognition device - Google Patents

Voice recognition device

Info

Publication number
JP2864775B2
JP2864775B2 JP3064193A JP6419391A JP2864775B2 JP 2864775 B2 JP2864775 B2 JP 2864775B2 JP 3064193 A JP3064193 A JP 3064193A JP 6419391 A JP6419391 A JP 6419391A JP 2864775 B2 JP2864775 B2 JP 2864775B2
Authority
JP
Japan
Prior art keywords
cumulative distance
unit
cumulative
threshold value
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP3064193A
Other languages
Japanese (ja)
Other versions
JPH04298796A (en
Inventor
真二 古賀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP3064193A priority Critical patent/JP2864775B2/en
Publication of JPH04298796A publication Critical patent/JPH04298796A/en
Application granted granted Critical
Publication of JP2864775B2 publication Critical patent/JP2864775B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】本発明は音声認識装置に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech recognition device.

【0002】[0002]

【従来の技術】一般に、音声認識装置は非常に多くの演
算量を要する。よって、実時間で音声を認識するために
は、処理速度が速い計算機や専用ハードウェアの使用、
あるいは演算量の削減等が必要である。演算量の削減方
法としては、迫江、藤井らによる、電子情報通信学会技
術研究報告Vol.87 No.90 1987年6月
26日のページ33〜40に掲載の論文「ビームサーチ
とベクトル量子化によるDPマッチングの高速化」(以
下、文献1と記す)に述べられているようなビームサー
チを用いる方法がある。
2. Description of the Related Art Generally, a speech recognition apparatus requires a very large amount of calculation. Therefore, in order to recognize speech in real time, use of a computer with high processing speed or dedicated hardware,
Alternatively, it is necessary to reduce the amount of calculation. As a method for reducing the amount of computation, Sakoe, Fujii et al., IEICE Technical Report Vol. 87 No. 90 A method using a beam search as described in a paper "Speeding up DP matching by beam search and vector quantization" (hereinafter referred to as Reference 1) published on pages 33 to 40 on June 26, 1987. There is.

【0003】文献1による方法を用いた従来の音声認識
装置では入力パターンと標準パターンとのマッチングに
より認識を行う構成となっており、このマッチングを漸
化式計算を用いての最適経路問題を解くことにより行っ
ている。漸化式計算では入力パターンの時刻iに対する
標準パターンの時刻jでの累積距離g(i,j)を1≦
i≦I、1≦j≦J(I:入力パターンの時間長、J:
標準パターンの時間長)に対して求めている。そして、
g(i,j)が時刻iでの最小累積距離に一定値を加え
た値より大きい場合、点(i,j)は最適パス上にある
可能性が低いとして、その延長上となる探索を省略する
という枝刈により全体の演算量を削減している。
A conventional speech recognition apparatus using the method described in Document 1 is configured to perform recognition by matching an input pattern with a standard pattern, and solves the optimal path problem by using a recurrence formula calculation for this matching. By doing that. In the recurrence formula calculation, the accumulated distance g (i, j) at time j of the standard pattern with respect to time i of the input pattern is 1 ≦
i ≦ I, 1 ≦ j ≦ J (I: time length of input pattern, J:
Standard pattern time length). And
If g (i, j) is larger than the minimum cumulative distance at time i plus a fixed value, it is determined that the point (i, j) is unlikely to be on the optimal path , and a search on its extension is performed. The total amount of calculation is reduced by pruning to omit.

【0004】[0004]

【発明が解決しようとする課題】上述した従来の音声認
識装置では、枝刈されないパスの数が一定ではないの
で、残されたパスの数が少なくなることにより正解の結
果に対するパスまで枝刈されてしまう可能性があるとい
う問題点がある。
In the above-described conventional speech recognition apparatus, the number of paths that are not pruned is not constant, so that the number of remaining paths is reduced, so that the path corresponding to the correct answer is pruned. There is a problem that there is a possibility.

【0005】また、枝刈されないパスの数を一定にする
ため、閾値によらず各時刻でgn (i,j)を小さい順
に一定個数を選択するという枝刈が考えられるが、この
場合はソーティングのための処理量が多くなってしまう
という問題点がある。
In order to keep the number of paths that are not pruned constant, pruning is conceivable in which a fixed number of g n (i, j) is selected in ascending order at each time regardless of the threshold value. There is a problem that the processing amount for sorting increases.

【0006】本発明は、正解の結果に対するパスを枝刈
することなく、高速にかつ高性能に未知音声を認識する
音声認識装置を提供することを目的とする。
SUMMARY OF THE INVENTION It is an object of the present invention to provide a speech recognition apparatus for recognizing an unknown speech at high speed and with high performance without pruning a path for a result of a correct answer.

【0007】[0007]

【課題を解決するための手段】本発明の音声認識装置
は、音声信号を分析して特徴ベクトル時系列を出力する
特徴分析部と、あらかじめ作成された標準パターンを蓄
えておく標準パターン記憶部と、累積距離を蓄える累積
距離記憶部と、前記累積距離に対する閾値を保持する閾
値保持部と、前記累積距離記憶部に蓄えられた累積距離
と前記特徴ベクトル時系列と前記標準パターンとから新
しい累積距離を求める漸化式計算部と、この漸化式計算
部で求められた累積距離の中から前記閾値保持部に保持
された閾値より小さい累積距離の個数を求める累積距離
カウント部と、前記閾値より小さい累積距離の個数があ
らかじめ定めた値より小さい場合には前記漸化式計算部
で求められた累積距離をすべて出力し、あらかじめ定め
た値より大きい場合には前記閾値より小さい累積距離を
出力する累積距離出力部と、新しい閾値を求める閾値計
算部と、前記累積距離出力部から出力される累積距離よ
り前記未知音声に対する認識結果を求める結果決定部と
を有し、または、前記漸化式計算部から出力される累積
距離からこの累積距離の平均値と分散を求める平均値分
散計算部と、前記平均値および分散と前記累積距離の個
数とから閾値を求める閾値計算部と、前記閾値保持部に
保持された閾値より小さい前記累積距離を出力する累積
距離出力部とを有している。
According to the present invention, there is provided a speech recognition apparatus comprising: a feature analysis unit for analyzing a speech signal and outputting a time series of feature vectors; and a standard pattern storage unit for storing a standard pattern created in advance. A cumulative distance storage unit for storing a cumulative distance, a threshold storage unit for storing a threshold value for the cumulative distance, a new cumulative distance from the cumulative distance stored in the cumulative distance storage unit, the feature vector time series, and the standard pattern. Recurrence formula calculation unit for calculating, the cumulative distance counting unit for calculating the number of cumulative distances smaller than the threshold held in the threshold value holding unit from the cumulative distances calculated by the recurrence formula calculation unit, When the number of small cumulative distances is smaller than a predetermined value, all the cumulative distances obtained by the recurrence formula calculation unit are output, and when the number is smaller than a predetermined value. Is a cumulative distance output unit that outputs a cumulative distance smaller than the threshold, a threshold calculation unit that determines a new threshold, and a result determination unit that determines a recognition result for the unknown voice from the cumulative distance output from the cumulative distance output unit. Having, or an average value variance calculation unit that calculates the average value and variance of this cumulative distance from the cumulative distance output from the recurrence formula calculation unit, and a threshold value from the average value and variance and the number of the cumulative distance. A threshold calculation unit to be obtained; and a cumulative distance output unit that outputs the cumulative distance smaller than the threshold value stored in the threshold value storage unit.

【0008】[0008]

【作用】本発明の音声認識装置は、入力パターンと標準
パターンとのマッチングの最適経路探索において枝刈を
行うことにより演算量を削減する音声認識装置に関し、
過剰な枝刈を防ぎ、高速にかつ高性能な音声認識装置を
実現するものである。
The speech recognition apparatus according to the present invention relates to a speech recognition apparatus that reduces the amount of computation by performing pruning in an optimal path search for matching between an input pattern and a standard pattern.
An object of the present invention is to realize a high-speed and high-performance speech recognition device by preventing excessive pruning.

【0009】まず、一定数以上のパスを必ず残すように
して過剰な枝刈を抑える場合について述べる。認識に用
いる標準パターンは、標準的な発声より求めた特徴ベク
トル時系列よりあらかじめ作成されているものとする。
なお、特徴ベクトル時系列は、古井著、1985年、東
海大学出版会発行の「ディジタル音声処理」(以下、文
献2と記す)のページ154−160に述べられている
メルケプストラムによる方法等を用いて作成される。
First, a case where excessive pruning is suppressed by always leaving a certain number of paths or more will be described. It is assumed that a standard pattern used for recognition is created in advance from a feature vector time series obtained from a standard utterance.
Note that the feature vector time series is obtained by a method using a mel-cepstral described in pages 154 to 160 of "Digital Speech Processing" (hereinafter, referred to as Reference 2) published by Tokai University Press, 1985, by Tokai University Press. Created.

【0010】未知音声を認識する際には、文献1で述べ
られているように、入力パターンA=a1 2 …ai
I と標準パターンBn =bn 1 n 2 …bn j …bn
n (n=1,2,…,N)とのマッチングにより認識
を行う。ここで、Iは入力パターンのフレーム数、Jn
は標準パターンnのフレーム数、Nは標準パターン数で
ある。このマッチングを式(1)の漸化式を用いて最適
経路問題を解くことにより行う。
When recognizing an unknown voice, as described in Reference 1, input pattern A = a 1 a 2 ... A i .
a I and the standard pattern B n = b n 1 b n 2 ... b n j ... b n
Recognition is performed by matching with J n (n = 1, 2,..., N). Here, I is the number of frames of the input pattern, J n
Is the number of frames of the standard pattern n, and N is the number of standard patterns. This matching is performed by solving the optimal path problem using the recurrence equation of equation (1).

【0011】 [0011]

【0012】ここで、dn (i,j)は特徴ベクトルa
i とbn jとの間の距離、gn (i,j)は入力パター
ンのフレームiと標準パターンnのフレームjとの累積
距離である。入力パターンのフレームiにおいて式
(1)をj=1,2,…,Jn 、n=1,2,…,Nの
各格子点で計算した後、i+→iとして次のフレーム
の処理に進む。このとき、 gn (i,j)<θ(i) (2)を 満たすgn (i,j)の個数hn (i)が、標準パター
ン毎で枝刈を行う場合は式(3)を、全標準パターンに
対して枝刈を行う場合は式(4)を満たすならばiにお
ける枝刈は行わず探索を続け、満たさないならば式
(2)を満たさない点(n,i,j)に対してその延長
上となる探索を省略する。
Here, d n (i, j) is a feature vector a
The distance between i and b n j, g n (i, j), is the cumulative distance between the frame i of the input pattern and the frame j of the standard pattern n. Frame i j = 1, 2 Equation (1) in the input pattern, ..., J n, n = 1,2, ..., was calculated at each lattice point of the N, processing of the next frame as i + 1 → i Proceed to. At this time, the number h n (i) of g n (i, j) satisfying g n (i, j) <θ (i) (2) is equal to the equation (3) when pruning is performed for each standard pattern. If pruning is performed on all the standard patterns, the search is continued without performing pruning at i if Expression (4) is satisfied, and if not, the point (n, i, The search which is an extension of j) is omitted.

【0013】 [0013]

【0014】ここで、θ(i)は閾値関数、Hはあらか
じめ定められた一定値である。なお、閾値関数θ(i)
としては、式(5)を用いることができる。
Here, θ (i) is a threshold function, and H is a predetermined constant value. Note that the threshold function θ (i)
Equation (5) can be used.

【0015】 [0015]

【0016】αはあらかじめ定められた一定値である。
そして、各標準パターンでの点(n,I,Jn )までの
計算が終了した後、gn (I,Jn )が最も小さい標準
パターンに対応する単語を認識結果とする。
Α is a predetermined constant value.
After the point (n, I, J n) is computed up to the end of each standard pattern, g n (I, J n ) are a recognition result a word corresponding to the smallest reference pattern.

【0017】次に、入力パターンの各フレームでの累積
距離の平均値と分散により閾値関数を決めることにより
過剰な枝刈を抑える場合について述べる。この場合も、
認識に用いる標準パターンは、標準的な発声より求めた
特徴ベクトル時系列よりあらかじめ作成されているもの
とする。
Next, a case where excessive pruning is suppressed by determining a threshold function based on the average value and variance of the accumulated distance in each frame of the input pattern will be described. Again,
It is assumed that a standard pattern used for recognition is created in advance from a feature vector time series obtained from a standard utterance.

【0018】未知音声を認識する際には、先の場合と同
様に入力パターンと標準パターンとのマッチングを式
(1)の漸化式を用いて行う。このとき、入力パターン
の各フレームにおいて、累積距離gn (i,j)が式
(2)を満たさない場合、以後の点(n,i,j)の延
長上となる探索を省略する。式(2)での閾値関数θ
(i)は以下の手順で求められる。
When recognizing an unknown voice, the matching between the input pattern and the standard pattern is performed by using the recurrence formula of the formula (1) as in the above case. At this time, in each frame of the input pattern, if the cumulative distance g n (i, j) does not satisfy Expression (2), the subsequent search on the extension of the point (n, i, j) is omitted. Threshold function θ in equation (2)
(I) is obtained by the following procedure.

【0019】(1)算出された累積距離の個数mに対す
る枝刈されずに残しておきたいパスの数Pの割合rを求
める。
(1) The ratio r of the number P of paths that should be left without being pruned with respect to the calculated number m of cumulative distances is obtained.

【0020】 r=P/m (6) もしrが1.0以上ならば、θ(i)=∞(無限大)と
して以下の処理は行わない。
R = P / m (6) If r is 1.0 or more, θ (i) = 処理 (infinity) and the following processing is not performed.

【0021】(2)累積距離の平均値μと分散σ2 を求
める。
(2) Find the average value μ and the variance σ 2 of the cumulative distance.

【0022】 [0022]

【0023】(3)標準正規分布(3) Standard normal distribution

【0024】 [0024]

【0025】に対してx=0からx=tまでの積分値
y′を示したテーブルを用意し、
For this purpose, a table showing the integral y 'from x = 0 to x = t is prepared.

【0026】 [0026]

【0027】に対応するt=tR を求める。Then, t = t R corresponding to is obtained.

【0028】(4)以下の式に従って閾値関数θ(i)
を求める。
(4) Threshold function θ (i) according to the following equation
Ask for.

【0029】 θ(i)=σ2 ・tR +μ (11) 認識結果は、前述と同様にして求める。Θ (i) = σ 2 · t R + μ (11) The recognition result is obtained in the same manner as described above.

【0030】一定数のパスを残すような枝刈を行う場
合、以上のように平均値と分散を用いると枝刈に必要な
演算回数は約4m回(加算2m回、乗算m回、比較m
回)となり、ソーティング(クイックソート法)を用い
たときの演算回数m・logmに比べて、mが大きい場
合は問題なく少なくて済む。mが小さい場合は後者の方
が演算回数は少なくなるが、実際に汎用マイクロプロセ
ッサ等を使用して演算を行う場合、一般に積和演算は比
較処理に比べ高速に実行できるので、比較処理が多い
者の方法より前者の方法の方が高速に実行できる。
When pruning is performed so as to leave a fixed number of paths, if the average value and the variance are used as described above, the number of operations required for pruning is about 4 m (addition 2 m, multiplication m, comparison m
Times), and when m is large, it can be reduced without any problem compared to the number of operations m · logm when sorting (quick sort method) is used. When the value of m is small, the number of operations is smaller in the latter case. However, when the operation is actually performed using a general-purpose microprocessor or the like, the product-sum operation can generally be executed at a higher speed than the comparison process, and thus the comparison process is often performed. The former method can be performed faster than the latter method.

【0031】[0031]

【実施例】次に、本発明について図面を参照して説明す
る。
Next, the present invention will be described with reference to the drawings.

【0032】図1は本発明の第1の一実施例を示すブロ
ック図である。
FIG. 1 is a block diagram showing a first embodiment of the present invention.

【0033】図1において、本実施例は、音声信号を分
析して特徴ベクトル時系列を出力する特徴分析部11
と、あらかじめ作成された標準パターンを蓄えておく標
準パターン記憶部12と、累積距離を蓄える累積距離記
憶部14と、累積距離に対する閾値を保持する閾値保持
部16と、累積距離記憶部14に蓄えれられた累積距離
と特徴ベクトル時系列と標準パターンとから新しい累積
距離を求める漸化式計算部13と、漸化式計算部13で
求められた累積距離の中から閾値保持部16に保持され
た閾値より小さい累積距離の個数を求める累積距離カウ
ント部17と、閾値より小さい累積距離の個数があらか
じめ定めた値より小さい場合には漸化式計算部13で求
められた累積距離をすべて出力し、あらかじめ定めた値
より大きい場合には閾値より小さい累積距離を出力する
累積距離出力部18と、新しい閾値を求める閾値計算部
15と、累積距離出力部18から出力される累積距離よ
り未知音声に対する認識結果を求める結果決定部19と
を有して構成している。
Referring to FIG. 1, this embodiment is characterized by analyzing a speech signal and outputting a feature vector time series.
A standard pattern storage unit 12 for storing a standard pattern created in advance, a cumulative distance storage unit 14 for storing a cumulative distance, a threshold storage unit 16 for storing a threshold value for the cumulative distance, and a storage unit for the cumulative distance storage unit 14. The recurrence formula calculating unit 13 for obtaining a new cumulative distance from the obtained cumulative distance, the feature vector time series, and the standard pattern, and is stored in the threshold value holding unit 16 from among the cumulative distances obtained by the recurrence formula calculating unit 13. The cumulative distance counting unit 17 for calculating the number of cumulative distances smaller than the threshold value, and all the cumulative distances obtained by the recurrence formula calculating unit 13 when the number of cumulative distances smaller than the threshold value is smaller than a predetermined value. A cumulative distance output unit 18 that outputs a cumulative distance smaller than the threshold when the value is larger than a predetermined value, a threshold calculator 15 that calculates a new threshold, And a result determination section 19 for determining the recognition result for the unknown speech than the cumulative distance which is output from the force unit 18 is configured.

【0034】次に、本第1の実施例の動作について説明
する。
Next, the operation of the first embodiment will be described.

【0035】認識に先立ち、標準パターンPはあらかじ
め標準パターン記憶部12に保持されている。まず、未
知音声信号Sは、特徴分析部11へ入力される。特徴分
析部11では、文献2で述べられているようなメルケプ
ストラムによる方法を用いて、音声信号Sが特徴ベクト
ル時系列V={v1 ,v 2 ,…,vi ,…,vI }に変
換される。この特徴ベクトル時系列V中の1フレーム分
の特徴ベクトルvi と、標準パターン記憶部12に保持
されている標準パターンP={p1 1 ,p1 2,…,p
1 J 1 ,p2 1 ,…,p2 J2,…,pn 1 ,…,
n J ,…,pn Jn,…,pN 1 ,…,pN JN}と、累
積処理記憶部14に蓄えられている1フレーム前の累積
距離群G={g1 1 ,g1 2 ,…,g1 J1,g2 1
…,g2 J2,…,gn 1 ,…,gn J ,…,gn Jn
…,gN 1 ,…,gN JN}とが漸化式計算部13に入力
される。漸化式計算部13では、式(12),(13)
に従って現フレームの累積距離群G′={g′1 1
…,g′n J ,…,g′N JN}および 式(12)において、1フレーム前の累積距離gn J
n J-1 ,gn J-2 のいずれかが累積距離群Gにない場
合、その累積距離を用いる処理はスキップされる。累積
距離の最小値g″は閾値計算部15に入力され、それに
あらかじめ定められた一定値Aを加えた値が次フレーム
に用いる閾値T′として出力される。閾値T′は閾値保
持部16に入力され、保持される。累積距離カウント部
17では、累積距離群G′と閾値保持部16に保持され
ている閾値Tが入力され、累積距離群G′の各要素g′
n J のうち大きさが閾値T以下のものの(n,j)とそ
の総数が求められ累積距離情報Fとして出力される。累
積距離出力部18では、累積距離情報Fと漸化式計算部
13から出力された累積距離群G′が入力され、閾値T
以下のものの総数があらかじめ定められた一定値Hより
大きい場合は累積距離情報F内の(n,j)に対応する
g′n J だけが、そうでない場合は全てのg′n J が有
効累積距離群G″として出力される。有効累積距離群
G″は累積距離記憶部14と結果決定部19に入力され
る。累積距離記憶部14では、有効累積距離群G″が1
フレーム前の累積距離群として記憶される。結果決定部
19では、有効累積距離群G″が最終フレームに対する
ものであった場合、Jn (1≦n≦N)に対する累積距
離が最も小さい標準パターンのカテゴリOが認識結果と
して出力される。
Prior to recognition, the standard pattern P is stored in the standard pattern storage unit 12 in advance. First, the unknown voice signal S is input to the feature analysis unit 11. The feature analyzing unit 11, using the method according to the mel-cepstrum, such as described in Reference 2, the audio signal S is the time-series feature vector V = {v 1, v 2 , ..., v i, ..., v I} Is converted to A feature vector v i for one frame of this feature in vector time series V, standard pattern P = {p 1 1 is held in the reference pattern memory 12, p 1 2, ..., p
1 J 1, p 2 1, ..., p 2 J2, ..., p n 1, ...,
p n J, ..., p n Jn, ..., p N 1, ..., p and N JN}, cumulative distance group G = {g 1 1 of one frame before is stored in the cumulative storage unit 14, g 1 2, ..., g 1 J1, g 2 1,
..., g 2 J2, ..., g n 1, ..., g n J, ..., g n Jn,
, G N 1 ,..., G N JN } are input to the recurrence formula calculation unit 13. In the recurrence formula calculation unit 13, the formulas (12) and (13)
, The accumulated distance group G ′ = {g ′ 11 1 ,
…, G ′ n J ,…, g ′ N JN } and In equation (12), the cumulative distance g n J ,
If any of g n J-1 and g n J-2 is not in the cumulative distance group G, the process using the cumulative distance is skipped. The minimum value g "of the accumulated distance is input to the threshold value calculation unit 15, and a value obtained by adding a predetermined constant value A thereto is output as a threshold value T 'used for the next frame. The cumulative distance count unit 17 receives the cumulative distance group G 'and the threshold value T stored in the threshold value holding unit 16, and inputs each element g' of the cumulative distance group G '.
(n, j) of n J whose size is equal to or smaller than the threshold value T and the total number thereof are obtained and output as cumulative distance information F. The cumulative distance output unit 18 receives the cumulative distance information F and the cumulative distance group G ′ output from the recurrence formula calculating unit 13 and receives the threshold T
If the total number of the following is larger than a predetermined fixed value H, only g ′ n J corresponding to (n, j) in the cumulative distance information F, otherwise, all g ′ n J are effective cumulative It is output as a distance group G ″. The effective cumulative distance group G ″ is input to the cumulative distance storage unit 14 and the result determination unit 19. In the cumulative distance storage unit 14, the effective cumulative distance group G ″ is 1
It is stored as the accumulated distance group before the frame. When the effective cumulative distance group G ″ is for the last frame, the result determining unit 19 outputs the category O of the standard pattern having the smallest cumulative distance for J n (1 ≦ n ≦ N) as the recognition result.

【0036】図2は本発明の第2の実施例を示すブロッ
ク図である。
FIG. 2 is a block diagram showing a second embodiment of the present invention.

【0037】図2において、本第2の実施例は図1に示
す第1の実施例と同じ構成要件には同じ番号が付与され
てあり、第1の実施例と異なる点は漸化式計算部13か
ら出力される累積距離からこの累積距離の平均値と分散
を求める平均値分散計算部20と、平均値および分散と
累積距離の個数とから閾値を求める閾値計算部15a
と、閾値保持部16に保持された閾値より小さい累積距
離を出力する累積距離出力部18aとを有している。
In FIG. 2, in the second embodiment, the same components as those in the first embodiment shown in FIG. 1 are denoted by the same reference numerals, and the difference from the first embodiment is the recurrence calculation. An average value variance calculating unit 20 for calculating an average value and a variance of the cumulative distance from the cumulative distance output from the unit 13, and a threshold calculating unit 15a for calculating a threshold value from the average value, the variance, and the number of the cumulative distances
And a cumulative distance output unit 18a that outputs a cumulative distance smaller than the threshold value stored in the threshold value storing unit 16.

【0038】次に、本第2の実施例の動作について説明
する。
Next, the operation of the second embodiment will be described.

【0039】認識に先立ち、標準パターンPはあらかじ
め標準パターン記憶部12に保持されている。まず、未
知音声信号Sは、特徴分析部11へ入力される。特徴分
析部11では、文献2で述べられているようなメルケプ
ストラムによる方法を用いて、音声信号Sが特徴ベクト
ル時系列V={v1 2 ,…,vi ,…,vI }に変
換される。この特徴ベクトル時系列V中の1フレーム分
の特徴ベクトルvi と、標準パターン記憶部12に保持
されている標準パターンP={p1 1 ,p1 2,…,p
1 J1,p2 1 ,…,p2 J2,…,pn 1 ,…,pn J
…,pn Jn,…,pN 1 ,…,pN JN}と、累積処理記
憶部14に蓄えられている1フレーム前の累積距離群G
={g1 1 ,g1 2 ,…,g1 J1,g2 1 ,…,
2 J2,…,gn 1 ,…,gn J ,…,gn Jn,…,g
N 1 ,…,gN JN}とが漸化式計算部13に入力され
る。漸化式計算部13では、式(12),(13)に従
って現フレームの累積距離群G′={g′1 1 ,…,
g′n J ,…,g′N JN}およびその要素数Lが求めら
れる。式(12)において、1フレーム前の累積距離g
n J ,gn J-1 ,gn J-2 のいずれかが累積距離群Gに
ない場合、その累積距離を用いる処理はスキップされ
る。平均値分散計算部20では、累積距離群G′とその
要素数Lを用いて次式より累積距離の平均値Uと分散Z
が求められ、累積距離分布情報として出力される。
Prior to recognition, the standard pattern P is stored in the standard pattern storage unit 12 in advance. First, the unknown voice signal S is input to the feature analysis unit 11. The feature analyzing unit 11, using the method according to the mel-cepstrum, such as described in Reference 2, the audio signal S is the time-series feature vector V = {v 1, v 2 , ..., v i, ..., v I} Is converted to A feature vector v i for one frame of this feature in vector time series V, standard pattern P = {p 1 1 is held in the reference pattern memory 12, p 1 2, ..., p
1 J1, p 2 1, ... , p 2 J2, ..., p n 1, ..., p n J,
, P n Jn ,..., P N 1 ,..., P N JN }, and the accumulated distance group G for the immediately preceding frame stored in the accumulation processing storage unit 14.
= {G 1 1, g 1 2, ..., g 1 J1, g 2 1, ...,
g 2 J2, ..., g n 1, ..., g n J, ..., g n Jn, ..., g
N 1, ..., are input to g N JN} transgressions recurrence formula calculation unit 13. In the recurrence formula calculation unit 13, Equation (12), the cumulative distance group G '= {g' 1 1 of the current frame according to (13), ...,
g ′ n J ,..., g ′ N JN } and the number of elements L thereof are obtained. In equation (12), the cumulative distance g one frame before
If any of n J , g n J-1 and g n J-2 is not in the cumulative distance group G, the process using the cumulative distance is skipped. The average value variance calculating unit 20 uses the cumulative distance group G 'and the number L of its elements to calculate the average value U and the variance Z
Is obtained and output as the cumulative distance distribution information.

【0040】 [0040]

【0041】閾値計算部15aには累積距離群G′の要
素数Lと累積距離分布情報Mが入力される。そして、枝
刈されずに残しておきたいパスの数としてあらかじめ定
められた一定値Pが累積距離群G′の要素数Lに占める
割合R=P/Lが求められる。Rが1.0以上の場合、
次フレームに用いる閾値T′として無限大の値が出力さ
れる。Rが1.0未満の場合、あらかじめ用意された、
式(9)の標準正規分布に対してx=0からx=tまで
の積分値y′を示したテーブルを用いて、
The threshold calculation unit 15a receives the number L of elements of the cumulative distance group G 'and the cumulative distance distribution information M. Then, a ratio R = P / L of a predetermined constant value P as the number of paths to be left without being pruned to the number L of elements of the cumulative distance group G 'is obtained. When R is 1.0 or more,
An infinite value is output as the threshold value T 'used for the next frame.
It is . When R is less than 1.0, it is prepared in advance,
Using a table showing the integral y 'from x = 0 to x = t with respect to the standard normal distribution of equation (9),

【0042】 [0042]

【0043】に対応するt=tR が求められ、さらに、
式(17)により求められた閾値が次フレームに用いる
閾値T′として出力される。
T = t R corresponding to is obtained.
The threshold value obtained by the equation (17) is output as the threshold value T 'used for the next frame.

【0044】 T′=Z・tR +U ・・・・(17) 閾値T′は閾値保持部16に入力され、保持される。累
積距離出力部18aでは、累積距離群G′と閾値保持部
16に保持されている閾値Tが入力され、累積距離群
G′の各要素g′n j のうち大きさが閾値T以下のもの
が有効累積距離群G″として出力される。有効累積距離
群G″では累積距離記憶部14と結果決定部19に入力
される。累積距離記憶部14では、有効累積距離群G″
が1フレーム前の累積距離群として記憶される。結果決
定部19では、有効累積距離群G″が最終フレームに対
するものだった場合、Jn(1≦n≦N)に対する累積
距離が最も小さい標準パターンのカテゴリOが認識結果
として出力される。
T ′ = Z · t R + U (17) The threshold value T ′ is input to the threshold value holding unit 16 and held. The cumulative distance output unit 18a receives the cumulative distance group G ′ and the threshold value T stored in the threshold value storage unit 16, and the elements g ′ n j of the cumulative distance group G ′ whose size is equal to or smaller than the threshold value T Is output as an effective cumulative distance group G ″. In the effective cumulative distance group G ″, it is input to the cumulative distance storage unit 14 and the result determination unit 19. The cumulative distance storage unit 14 stores the effective cumulative distance group G ″.
Is stored as the accumulated distance group one frame before. When the effective cumulative distance group G ″ is for the last frame, the result determining unit 19 outputs the category O of the standard pattern having the smallest cumulative distance to Jn (1 ≦ n ≦ N) as the recognition result.

【0045】[0045]

【発明の効果】以上説明したように本発明は、音声信号
を分析して特徴ベクトル時系列を出力する特徴分析部
と、あらかじめ作成された標準パターンを蓄えておく標
準パターン記憶部と、累積距離を蓄える累積距離記憶部
と、累積距離に対する閾値を保持する閾値保持部と、累
積距離記憶部に蓄えられた累積距離と特徴ベクトル時系
列と標準パターンとから新しい累積距離を求める漸化式
計算部と、この漸化式計算部で求められた累積距離の中
から閾値保持部に保持された閾値より小さい累積距離の
個数を求める累積距離カウント部と、閾値より小さい累
積距離の個数があらかじめ定めた値より小さい場合には
漸化式計算部で求められた累積距離をすべて出力し、あ
らかじめ定めた値より大きい場合には閾値より小さい累
積距離を出力する累積距離出力部と、新しい閾値を求め
る閾値計算部と、累積距離出力部から出力される累積距
離より未知音声に対する認識結果を求める結果決定部と
を有し、または漸化式計算部から出力される累積距離か
らこの累積距離の平均値と分散を求める平均値分散計算
部と、平均値および分散と累積距離の個数とから閾値を
求める閾値計算部と、閾値保持部に保持された閾値より
小さい累積距離を出力する累積距離出力部とを有するこ
とにより、未知音声の認識を最適経路問題を解くことに
より行う場合に過剰な枝刈りを防ぐことができ、高速で
かつ高性能な音声認識装置を提供することができる効果
がある。
As described above, the present invention provides a feature analysis unit for analyzing a speech signal to output a feature vector time series, a standard pattern storage unit for storing a standard pattern created in advance, a cumulative distance Accumulative distance storage unit, a threshold value holding unit for holding a threshold value for the cumulative distance, a recurrence formula calculating unit for obtaining a new cumulative distance from the cumulative distance stored in the cumulative distance storage unit, the feature vector time series, and the standard pattern And a cumulative distance counting unit for calculating the number of cumulative distances smaller than the threshold value held in the threshold value holding unit from among the cumulative distance values obtained by the recurrence formula calculating unit, and the number of cumulative distances smaller than the threshold value is predetermined. If the value is smaller than the value, all the cumulative distances calculated by the recurrence formula calculation unit are output. If the value is larger than the predetermined value, the cumulative distance smaller than the threshold is output. A distance output unit, a threshold calculation unit for obtaining a new threshold, and a result determination unit for obtaining a recognition result for an unknown voice from the cumulative distance output from the cumulative distance output unit, or output from the recurrence formula calculation unit An average value variance calculating unit for calculating an average value and a variance of the cumulative distance from the cumulative distance; a threshold calculating unit for calculating a threshold value from the average value, the variance and the number of the cumulative distances; By providing a cumulative distance output unit that outputs a distance, it is possible to prevent excessive pruning when unknown speech is recognized by solving an optimal path problem, and provide a high-speed and high-performance speech recognition device. There is an effect that can be.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第1の実施例を示すブロック図であ
る。
FIG. 1 is a block diagram showing a first embodiment of the present invention.

【図2】本発明の第2の実施例を示すブロック図であ
る。
FIG. 2 is a block diagram showing a second embodiment of the present invention.

【符号の説明】[Explanation of symbols]

11 特徴分析部 12 標準パターン記憶部 13 漸化式計算部 14 累積距離記憶部 15,15a 閾値計算部 16 閾値保持部 17 累積距離カウント部 18,18a 累積距離出力部 19 結果決定部 20 平均値分散計算部 DESCRIPTION OF SYMBOLS 11 Feature analysis part 12 Standard pattern storage part 13 Recurrence formula calculation part 14 Cumulative distance storage part 15, 15a Threshold calculation part 16 Threshold storage part 17 Cumulative distance count part 18, 18a Cumulative distance output part 19 Result determination part 20 Average value dispersion Calculation section

Claims (2)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 音声信号を分析して特徴ベクトル時系列
を出力する特徴分析部と、あらかじめ作成された標準パ
ターンを蓄えておく標準パターン記憶部と、累積距離を
蓄える累積距離記憶部と、前記累積距離に対する閾値を
保持する閾値保持部と、前記累積距離記憶部に蓄えられ
累積距離と前記特徴ベクトル時系列と前記標準パター
ンとから新しい累積距離を求める漸化式計算部と、この
漸化式計算部で求められた累積距離の中から前記閾値保
持部に保持された閾値より小さい累積距離の個数を求め
る累積距離カウント部と、前記閾値より小さい累積距離
の個数があらかじめ定めた値より小さい場合には前記漸
化式計算部で求められた累積距離をすべて出力し、あら
かじめ定めた値より大きい場合には前記閾値より小さい
累積距離を出力する累積距離出力部と、新しい閾値を求
める閾値計算部と、前記累積距離出力部から出力される
累積距離より前記未知音声に対する認識結果を求める結
果決定部とを有することを特徴とする音声認識装置。
A feature analysis unit that analyzes a voice signal and outputs a feature vector time series; a standard pattern storage unit that stores a standard pattern created in advance; a cumulative distance storage unit that stores a cumulative distance; A threshold value holding unit for holding a threshold value for the cumulative distance, and a threshold value stored in the cumulative distance storage unit.
Recurrence formula calculating unit for calculating a new cumulative distance from the accumulated distance, the feature vector time series, and the standard pattern, and the accumulated distance calculated by the recurrence formula calculating unit is held in the threshold value holding unit. A cumulative distance counting unit for calculating the number of cumulative distances smaller than a threshold, and if the number of cumulative distances smaller than the threshold is smaller than a predetermined value, all the cumulative distances calculated by the recurrence formula calculating unit are output; A cumulative distance output unit that outputs a cumulative distance smaller than the threshold when the value is larger than a predetermined value; a threshold calculator that calculates a new threshold value; and a recognition of the unknown voice based on the cumulative distance output from the cumulative distance output unit. A speech recognition device, comprising: a result determination unit for obtaining a result.
【請求項2】 前記漸化式計算部から出力される累積距
離からこの累積距離の平均値と分散を求める平均値分散
計算部と、前記平均値および分散と前記累積距離の個数
とから閾値を求める閾値計算部と、前記閾値保持部に保
持された閾値より小さい前記累積距離を出力する累積距
離出力部とを有することを特徴とする請求項1記載の音
声認識装置。
2. An average variance calculating unit for calculating an average value and a variance of the cumulative distance from the cumulative distance output from the recurrence formula calculating unit, and a threshold value based on the average value, the variance, and the number of the cumulative distances. 2. The speech recognition apparatus according to claim 1, further comprising: a threshold value calculation unit to be obtained; and a cumulative distance output unit that outputs the cumulative distance smaller than the threshold value stored in the threshold value storage unit.
JP3064193A 1991-03-28 1991-03-28 Voice recognition device Expired - Fee Related JP2864775B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3064193A JP2864775B2 (en) 1991-03-28 1991-03-28 Voice recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3064193A JP2864775B2 (en) 1991-03-28 1991-03-28 Voice recognition device

Publications (2)

Publication Number Publication Date
JPH04298796A JPH04298796A (en) 1992-10-22
JP2864775B2 true JP2864775B2 (en) 1999-03-08

Family

ID=13250988

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3064193A Expired - Fee Related JP2864775B2 (en) 1991-03-28 1991-03-28 Voice recognition device

Country Status (1)

Country Link
JP (1) JP2864775B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011083528A1 (en) * 2010-01-06 2011-07-14 日本電気株式会社 Data processing apparatus, computer program therefor, and data processing method
WO2013125203A1 (en) * 2012-02-21 2013-08-29 日本電気株式会社 Speech recognition device, speech recognition method, and computer program

Also Published As

Publication number Publication date
JPH04298796A (en) 1992-10-22

Similar Documents

Publication Publication Date Title
JP4295118B2 (en) Pattern recognition
US6278970B1 (en) Speech transformation using log energy and orthogonal matrix
JP2692581B2 (en) Acoustic category average value calculation device and adaptation device
JP2775140B2 (en) Pattern recognition method, voice recognition method, and voice recognition device
JP2815579B2 (en) Word candidate reduction device in speech recognition
US20050192803A1 (en) Method for calculating HMM output probability and speech recognition apparatus
CN112232055A (en) Text detection and correction method based on pinyin similarity and language model
JP2864775B2 (en) Voice recognition device
JP3088357B2 (en) Unspecified speaker acoustic model generation device and speech recognition device
EP0103258B1 (en) Pattern matching apparatus
EP0688012A2 (en) A speech recognizer
Hurmalainen et al. Similarity induced group sparsity for non-negative matrix factorisation
JP3039623B2 (en) Voice recognition device
JP3006507B2 (en) Pattern distance calculator
EP0703568A2 (en) Speech recognition system and speech recognition method with reduced response time for recognition
Kintzley et al. Featherweight phonetic keyword search for conversational speech
JP2853418B2 (en) Voice recognition method
US7912715B2 (en) Determining distortion measures in a pattern recognition process
JP2983364B2 (en) A method for calculating the similarity between a hidden Markov model and a speech signal
JP3461789B2 (en) Speech recognition device, speech recognition method, and program recording medium
Hu et al. A neural network based nonlinear feature transformation for speech recognition.
JP3428834B2 (en) Voice recognition method and apparatus
JPH04291399A (en) Voice recognizing method
JPH10254485A (en) Speaker normalizing device, speaker adaptive device and speech recognizer
JP2991148B2 (en) Method and system for creating suppression standard pattern or cohort in speaker recognition and speaker verification device including the system

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19981117

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071218

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081218

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091218

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees