JPS6332400B2 - - Google Patents

Info

Publication number
JPS6332400B2
JPS6332400B2 JP56109265A JP10926581A JPS6332400B2 JP S6332400 B2 JPS6332400 B2 JP S6332400B2 JP 56109265 A JP56109265 A JP 56109265A JP 10926581 A JP10926581 A JP 10926581A JP S6332400 B2 JPS6332400 B2 JP S6332400B2
Authority
JP
Japan
Prior art keywords
data
input
dissimilarity
speech
storage means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP56109265A
Other languages
Japanese (ja)
Other versions
JPS5811998A (en
Inventor
Isamu Nose
Kaneyoshi Mizuno
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP10926581A priority Critical patent/JPS5811998A/en
Priority to US06/373,147 priority patent/US4520500A/en
Publication of JPS5811998A publication Critical patent/JPS5811998A/en
Publication of JPS6332400B2 publication Critical patent/JPS6332400B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】[Detailed description of the invention]

本発明は、音声認識装置において、認識率の向
上を計ることができる重み付非類似度演算に関す
るものである。 従来の音声認識装置のブロツク図を第1図に示
す。第1図において、11は入力端子、12は周
波数分析部、13は音声区間検出部、14は音声
区間の始端検出信号、15は音声区間の終端検出
信号、16はスペクトル変換部、17は非類似度
演算部、18は判定部の如く構成されており以下
各部の説明をする。 周波数分析部12は第2図に示す如く構成さ
れ、入力音声信号21は前置増幅器22によつて
増幅され約200Hz〜6000Hzの間で中心周波数が対
数で等間隔となるように設定された帯域波器群
23―1,23―2,…,23―n、全波整流器
群24―1,24―2,…,24―n及び低域
波器群25―1,25―2,…,25―nによつ
て分析され多重化器26を通してアナログ・デイ
ジタル変換器27によつてあらかじめ設定された
時間間隔(以下サンプル周期と記す)毎に量子化
され、対数変換器28を通して出力端子29に出
力される。 周波数分析部12で分析された結果は音声区間
検出部13、及びスペクトル変換部16に送られ
る。 音声区間検出部13は音声区間の始端及び終端
を検出し非類似度演算部に始端検出信号14及び
終端検出信号15を送るものであり、簡易的な検
出法としてはサンプル周期毎の周波数分析部12
からのn個の分析データの平均値を求めその値が
あらかじめ設定された閾値を最初に越えた時点を
始点とし、最後に閾値以下になつた時点を終端と
する検出法がある。 スペクトル変換部16は、話者による音源特性
及びパワーの正規化の方法として、論文“非線形
スペクトルマツチングによる単語音声認識の一方
式”小原他(電子通信学会技術研究報告PRL79
―46)に発表されたものでまず計算方法を説明す
る。 周波数分析部12で、ある時刻に分析されたN
個のデータをxi(i=1〜n)とすると、スペク
トル変換データはx^i(i=1〜n)は(1)式で与え
られる。 x^i=xi−(Ai+B) ……(1) (1)式においてA、Bはそれぞれxi(i=1〜n)
の最小2乗近似直線の傾き及び切片を意味するも
のでそれぞれ次式によつて求められる。 (2)、(3)式においてデータ数Nを固定すればoi=1
i、oi=1 i2は定数となり従つて(2)、(3)式の分母も定
数となるC1oi=1 i、C2oi=1 i2とおけば、(2)、(3)式
となる。ここにC3=N・oi=1 i2−(oi=1 i)2である。
(4)、(5)式から明らかなように入力データから oi=1 i・xi及びoi=1 xiを求めれば(4)、(5)式により
A、Bの値を求めることができ、さらに(1)式によ
りスペクトル変換データx^i(i=1〜n)を求め
ることができる。 第3図にスペクトル変換部16のブロツク図を
示し以下図にそつて説明する。 入力端子31から入力された入力データxi(i
=1〜n)と、入力データと同期して計算するカ
ウンタ32によつて発生したiとの積を乗算器3
3によつて求めさらに加算器34とレジスタ35
によりi・xiの値を累積させることによりレジス
タ35にoi=1 i・xiの値をセツトすることができ
る。また、加算器36とレジスタ37により同様
に、レジスタ37にoi=1 xiの値をセツトすることが
できる。 次にマルチプレクサ38,39において、それ
ぞれN,C1の値を選択することにより乗算器 40ではN・oi=1 i・xiが、乗算器41ではC1oi=1 xiが得られ、さらに減算除算器42により
(N・oi=1 i・xi−C1oi=1 xi)/C3の演算により結
果すなわちAの値をレジスタ43にセツトする。
同様にマルチプレクサ38,39においてそれぞ
れC1,C2を選択させ乗算器40,41及び減算
除算器44を使用して(C2oi=1 xi−C1oi=1 i・
xi)/C3の演算を行いその結果すなわちBの値を
レジスタ45にセツトする。 続いてカウンタ46によりiを発生させ乗算器
47によりA・iを求めさらに加算器48により
Ai+Bを求めることができる。次に遅延回路4
9により遅延した入力データxiと加算器48で求
めたAi+Bの減算を減算器50によつて行えば
スペクトル変換データx^iが出力端子に出力され
る。 次に、非類似度演算部17の構成を第4図に示
し以下図にそつて説明する。第4図において、1
01は音声区間の始端検出信号、102は音声区
間の終端検出信号、103はスペクトル変換部1
7からの入力データ、104は入力メモリ制御回
路、105は入力メモリ、106は標準パターン
メモリ制御回路、107は標準パターンメモリ、
108は差分絶対値演算回路、109は加算器、
110はレジスタである。 音声区間の始端検出信号101が発生してから
音声区間の終端検出信号102が発生するまでの
間入力データ103は入力メモリ制御回路104
により入力メモリ105に格納される。音声区間
の入力データ103の格納が終了すると、入力メ
モリ105とあらかじめ分析され標準パターンメ
モリ107に格納されている所望の標準パターン
との非類似度の演算を順次行なう。 非類似度の演算方法では動的計画法を用いて入
力データと標準パターンとを非線形に対応させる
方法が一般的に用いられているが、説明の簡略化
の為、以下線形対応を用いた方法で説明する。し
かしながら本発明は非線形対応に対しても適用で
きる事は明らかである。 入力メモリ制御回路104及び標準パターンメ
モリ制御部106を介して入力データ及び標準パ
ターンそれぞれの対応する要素を読出し、差分絶
対値回路108によつて両者の差分の絶対値の演
算を行い、さらにその結果とレジスタ110との
加算を加算器110で行い加算結果を再びレジス
タ110に入れる。 この演算を対応する要素すべてについて繰り返
すことにより入力データとある標準パターンとの
非類似度の演算ができる。このようにして、標準
パターンメモリ107に格納されている全て又は
一部の標準パターンとの非類似度の演算を行う。 但し、レジスタ110は、ある標準パターンと
の非類似度演算を始める時の初期値は0としてお
く必要がある。 即ち、ある認識語の標準パターンPと入力デー
タQとの非類似度演算において両者の対応する要
素があらかじめ正規化されているものとして(6)式
で示す。 非類似度=Ll=1 oi=1 |x^P(i、l)−x^Q(i、l)|
……(6) (6)式にてiは対応する要素に付された番号であ
りlは標準パターンPと入力データQとの音声区
間長の正規化後の時系列に付された番号である。 判定部18では非類似度演算部17の結果によ
り最も非類似度の低かつた、すなわち類似度の最
も高かつた標準パターンと同じ音声が入力された
ものと判断して、結果を出力する。 しかしながら、上記従来の技術では、音声は話
者による変化はもちろんのこと同一話者において
も発声毎に変化するため、分析結果の似ている語
間の誤認識が生ずるという欠点があつた。 従つて本発明は従来の技術の上記欠点を改善す
るもので、その目的は音声認識装置の認識率を向
上させることにあり、標準パターンメモリに重み
領域データを付加し、さらに、非類似度演算部に
おける重みの大きさを、入力パターンと標準パタ
ーンの符号を含めたレベルの相互関係によつて判
断する機能を付加したものである。 すなわち、短時間スペクトルを目視した場合は
明らかに異なるパターンであると認識できるもの
であつても、全体の非類似度としては小さな値に
なり、誤認識されることがある。 このように、一定の非類似度の演算のみでは類
似してしまう小数の音声を識別するための一つ有
力な手法は、スペクトル変換データを要素とする
標準パターンの特定領域に非類似度を増す方向の
重みをつけることである。 本発明は、このような重みづけによる非類似度
の演算を、短時間スペクトルにおける山や谷の位
置を考慮して行わせるものであり、特に短時間ス
ペクトルにおける山や谷が、スペクトル変換デー
タにおける正負の符号及びデータの絶対値の大き
さとして現われるのを利用するものである。 第5図は本発明の実施例のブロツク図であり、
11は入力端子、12は周波数分析部、13は音
声区間検出部、14は音声区間の始端検出信号、
15は音声区間の終端検出信号、16はスペクト
ル変換部、55は重み付非類似度演算部、18は
判定部の如く構成されている。重み付非類似度演
算部55以外は第1図の構成と同じであるので、
以下重み付非類似度演算部55について第6図に
よつて詳細に説明する。 第6図において101は音声区間の始端検出信
号、102は音声区間の終端検出信号、103は
スペクトル変換部16からの入力データ、104
は入力メモリ制御回路、105は入力メモリ、1
08は差分絶対値演算回路、203は標準パター
ンメモリ制御回路、204は標準パターンメモ
リ、201は入力メモリの出力信号線、205は
標準パターンメモリのパターンデータに関する出
力信号線、207は標準パターンメモリの重み計
算指定に関する出力信号線、208,209はレ
ベル変換回路、210,211はレベル変換回路
208,209の出力信号線、212はテーブル
メモリ、213は乗算器、109は加算器、11
0はレジスタの如く構成されている。 音声区間の始端検出信号101が発生してから
音声区間の終端検出信号102が発生するまでの
間入力データ103は入力メモリ制御回路104
により入力メモリ105に格納される。 入力データ103の格納が終了すると、入力メ
モリ105とあらかじめ分析され標準パターンメ
モリ204に格納されている標準パターンとの重
み付非類似度の演算を順次行う。 重み付非類似度演算においては、標準パターン
は、(1)式と同様にして算出されたスペクトル変換
データz^i(以下、入力データx^iとの区別の為、z^i
記述する)と重み指定データPiとの対の時系列で
記述されていて、一方入力データは(1)式で示され
るスペクトル変換データx^iのみであり、各々のス
ペクトル変換データは差分絶対値演算回路108
の入力部とレベル変換回路209,208の入力
部へ出力信号線205,201を介して出力され
ると同時に重み指定データがテーブルメモリのア
ドレス入力線の一部207を介して出力される。
なお重み指定データPiは、重み指定有りの場合に
はPi=1とし、重み指定なしの場合はPi=0とす
る。 レベル変換回路208,209は対数変換器2
7の入力データのビツト数が大きい為(8ビツト
以上)、ビツト低減を行いテーブルメモリ212
の容量が大きくならない様にしている。通常レベ
ル変換回路208,209の出力ビツト数は2〜
4ビツト程度で変換される。例えば2ビツトの場
合入力データをy^i(最小値は負数でMIN又最大値
は正数でMAXとすると、MINy^iMAX)と
すると変換出力は次表のとおりとなる。
The present invention relates to a weighted dissimilarity calculation that can improve the recognition rate in a speech recognition device. A block diagram of a conventional speech recognition device is shown in FIG. In FIG. 1, 11 is an input terminal, 12 is a frequency analysis section, 13 is a voice section detection section, 14 is a voice section start detection signal, 15 is a voice section end detection signal, 16 is a spectrum conversion section, and 17 is a non-voice section detection signal. The similarity calculating section 18 is configured like a determining section, and each section will be explained below. The frequency analyzer 12 is configured as shown in FIG. 2, and the input audio signal 21 is amplified by a preamplifier 22 to generate a frequency band whose center frequency is set to be logarithmically evenly spaced between approximately 200Hz and 6000Hz. wave rectifier groups 23-1, 23-2,..., 23-n, full wave rectifier groups 24-1, 24-2,..., 24-n, and low frequency wave rectifier groups 25-1, 25-2,..., 25-n, passed through the multiplexer 26, quantized by the analog-to-digital converter 27 at preset time intervals (hereinafter referred to as sample period), and sent to the output terminal 29 through the logarithmic converter 28. Output. The results analyzed by the frequency analysis section 12 are sent to the voice section detection section 13 and the spectrum conversion section 16. The voice section detection section 13 detects the start and end of a voice section and sends a start edge detection signal 14 and an end detection signal 15 to the dissimilarity calculation section.A simple detection method is to detect the start and end of the voice section and send the start edge detection signal 14 and the end detection signal 15 to the dissimilarity calculation section. 12
There is a detection method that calculates the average value of n pieces of analysis data from , and uses the point when the value first exceeds a preset threshold as the starting point, and the ending point when it finally falls below the threshold. The spectrum conversion unit 16 uses the method of normalizing the sound source characteristics and power by the speaker as described in the paper “A method of word speech recognition using nonlinear spectral matching” by Ohara et al. (IEICE technical research report PRL79).
―46), and I will first explain the calculation method. N analyzed at a certain time by the frequency analysis section 12
When the pieces of data are x i (i=1 to n), the spectral conversion data x^ i (i=1 to n) is given by equation (1). x^ i = x i − (Ai + B) ...(1) In equation (1), A and B are each x i (i = 1 to n)
This means the slope and intercept of the least squares approximation straight line, and are determined by the following equations. If the number of data N is fixed in equations (2) and (3), oi=1
i, oi=1 i 2 is a constant, so the denominators of equations (2) and (3) are also constants.C 1 = oi=1 i, C 2 = oi=1 i 2 For example, equations (2) and (3) are becomes. Here, C 3 =N・oi=1 i 2 −( oi=1 i) 2 .
As is clear from equations (4) and (5), if oi=1 i・x i and oi=1 x i are calculated from the input data, then the values of A and B can be obtained from equations (4) and (5). can be obtained, and further, spectrum conversion data x^ i (i=1 to n) can be obtained using equation (1). FIG. 3 shows a block diagram of the spectrum conversion section 16, and will be explained below with reference to the figure. Input data x i (i
= 1 to n) and i generated by the counter 32 that is calculated in synchronization with the input data.
Further, adder 34 and register 35
By accumulating the value of i.x i , the value of oi=1 i.x i can be set in the register 35. Further, the value of oi=1 x i can be set in the register 37 in the same way using the adder 36 and the register 37. Next, by selecting the values of N and C 1 in the multiplexers 38 and 39, respectively, the multiplier 40 obtains N・oi=1 i・x i , and the multiplier 41 obtains C 1oi=1 x i is obtained, and the subtraction/divider 42 then performs the operation of (N・oi=1 i・x i −C 1oi=1 x i )/C 3 to store the result, that is, the value of A, in the register 43. Set.
Similarly, multiplexers 38 and 39 select C 1 and C 2 respectively, and multipliers 40 and 41 and subtraction divider 44 are used to select (C 2oi=1 x i −C 1oi=1 i・
x i )/C 3 and the result, that is, the value of B, is set in the register 45. Next, the counter 46 generates i, the multiplier 47 calculates A·i, and the adder 48 calculates A·i.
Ai+B can be found. Next, delay circuit 4
When the subtracter 50 subtracts the input data x i delayed by 9 and Ai+B obtained by the adder 48, the spectral conversion data x^ i is outputted to the output terminal. Next, the configuration of the dissimilarity calculation unit 17 is shown in FIG. 4 and will be explained below with reference to the figure. In Figure 4, 1
01 is a voice section start detection signal, 102 is a voice section end detection signal, and 103 is a spectrum conversion unit 1.
7, 104 is an input memory control circuit, 105 is an input memory, 106 is a standard pattern memory control circuit, 107 is a standard pattern memory,
108 is a difference absolute value calculation circuit, 109 is an adder,
110 is a register. The input data 103 is stored in the input memory control circuit 104 from when the voice section start detection signal 101 is generated until when the voice section end detection signal 102 is generated.
is stored in the input memory 105. When the storage of the input data 103 of the voice section is completed, the degree of dissimilarity between the input memory 105 and a desired standard pattern that has been analyzed in advance and stored in the standard pattern memory 107 is sequentially calculated. A commonly used method for calculating dissimilarity is to use dynamic programming to make nonlinear correspondences between input data and standard patterns, but for the sake of simplicity, we will use a method using linear correspondence below. I will explain. However, it is clear that the present invention can also be applied to nonlinear correspondences. The corresponding elements of the input data and the standard pattern are read out via the input memory control circuit 104 and the standard pattern memory control unit 106, and the absolute value of the difference between the two is calculated by the absolute difference value circuit 108. The adder 110 performs the addition of and the register 110, and the addition result is input into the register 110 again. By repeating this calculation for all corresponding elements, the degree of dissimilarity between the input data and a certain standard pattern can be calculated. In this way, the degree of dissimilarity with all or some of the standard patterns stored in the standard pattern memory 107 is calculated. However, the initial value of the register 110 must be set to 0 when starting the dissimilarity calculation with a certain standard pattern. That is, in calculating the degree of dissimilarity between the standard pattern P of a certain recognition word and the input data Q, the equation (6) is shown assuming that the corresponding elements of the two have been normalized in advance. Dissimilarity = Ll=1 oi=1 |x^ P (i, l)−x^ Q (i, l) |
...(6) In equation (6), i is the number assigned to the corresponding element, and l is the number assigned to the time series after normalizing the speech interval length of the standard pattern P and input data Q. be. The determination unit 18 determines that the same voice as the standard pattern with the lowest degree of dissimilarity, that is, the highest degree of similarity, has been input based on the result of the dissimilarity calculation unit 17, and outputs the result. However, in the above-mentioned conventional technology, since the voice changes not only depending on the speaker, but also from one utterance to another even by the same speaker, there is a drawback that erroneous recognition occurs between words with similar analysis results. Therefore, the present invention aims to improve the above-mentioned drawbacks of the conventional technology.The purpose of the present invention is to improve the recognition rate of a speech recognition device. A function is added to determine the size of the weight in the input pattern based on the correlation between the levels including the signs of the input pattern and the standard pattern. That is, even if the patterns can be recognized as clearly different when the short-time spectra are visually observed, the overall dissimilarity will be a small value and may be misrecognized. In this way, one promising method for identifying a small number of voices that are similar only by calculating a certain degree of dissimilarity is to increase the degree of dissimilarity in a specific region of a standard pattern using spectral conversion data as an element. This is to give weight to the direction. The present invention calculates the degree of dissimilarity by weighting in consideration of the positions of peaks and valleys in the short-time spectrum. In particular, the peaks and valleys in the short-time spectrum are It utilizes the positive and negative signs and the magnitude of the absolute value of data. FIG. 5 is a block diagram of an embodiment of the present invention;
11 is an input terminal, 12 is a frequency analysis section, 13 is a voice section detection section, 14 is a voice section start end detection signal,
15 is an end detection signal of a voice section, 16 is a spectrum conversion section, 55 is a weighted dissimilarity calculation section, and 18 is a determination section. Since the configuration is the same as that shown in FIG. 1 except for the weighted dissimilarity calculation unit 55,
The weighted dissimilarity computing unit 55 will be explained in detail below with reference to FIG. 6. In FIG. 6, 101 is a voice section start detection signal, 102 is a voice section end detection signal, 103 is input data from the spectrum conversion section 16, and 104
is an input memory control circuit, 105 is an input memory, 1
08 is a difference absolute value calculation circuit, 203 is a standard pattern memory control circuit, 204 is a standard pattern memory, 201 is an output signal line of the input memory, 205 is an output signal line related to pattern data of the standard pattern memory, and 207 is a standard pattern memory control circuit. Output signal lines related to weight calculation specification, 208 and 209 are level conversion circuits, 210 and 211 are output signal lines of the level conversion circuits 208 and 209, 212 is a table memory, 213 is a multiplier, 109 is an adder, 11
0 is configured like a register. The input data 103 is stored in the input memory control circuit 104 from when the voice section start detection signal 101 is generated until when the voice section end detection signal 102 is generated.
is stored in the input memory 105. When the storage of the input data 103 is completed, weighted dissimilarities between the input memory 105 and the standard pattern analyzed in advance and stored in the standard pattern memory 204 are sequentially calculated. In the weighted dissimilarity calculation, the standard pattern is the spectral transformation data z^ i (hereinafter referred to as z^ i to distinguish it from the input data x^ i) calculated in the same way as equation (1 ) . ) and weight specification data P i , while the input data is only the spectral conversion data x^ i shown by equation (1), and each spectral conversion data is subjected to absolute difference calculation. circuit 108
At the same time, the weight designation data is outputted to the input portions of the table memory and the input portions of the level conversion circuits 209 and 208 via output signal lines 205 and 201, and is outputted via a portion 207 of the address input line of the table memory.
Note that the weight designation data P i is set to P i =1 when the weight is designated, and set to P i =0 when the weight is not designated. Level conversion circuits 208 and 209 are logarithmic converters 2
Since the number of bits of the input data 7 is large (more than 8 bits), the bits are reduced and stored in the table memory 212.
This prevents the capacity from increasing. Normally, the number of output bits of the level conversion circuits 208 and 209 is 2 or more.
It is converted using about 4 bits. For example, in the case of 2 bits, if the input data is y^ i (minimum value is a negative number MIN and maximum value is positive number MAX, then MINy^ i MAX), the conversion output will be as shown in the following table.

【表】【table】

Claims (1)

【特許請求の範囲】 1 入力音声を周波数分析する周波数分析手段
と、その出力に接続される音声区間検出手段と、
前記周波数分析手段の出力データに対して話者に
よる音源特性及びパワーを正規化したスペクトル
変換データを出力するスペクトル変換手段と、ス
ペクトル変換手段の出力に接続され音声区間検出
手段により与えられる音声の始端と終端の間の音
声区間で入力スペクトル変換データを標準パター
ンと比較して非類似度を演算する非類似度演算手
段と、その出力に接続されて音声を認識する判定
手段とを有する音声認識装置において、 前記非類似度演算手段が、 前記入力スペクトル変換データx^iの時系列を格
納する第1の記憶手段と、 予め算出されたスペクトル変換データz^iの時系
列、及び該スペクトル変換データz^i毎の重み指定
の有無を示す重み指定データPiから成る標準パタ
ーンを格納する第2の記憶手段と、 取り得る入力スペクトル変換X^i及び標準パター
ンの取り得るスペクトル変換データZ^iの極性及び
絶対値の大きさに応じてこれらの差を強調するよ
うに予め設定される重み係数(wi≧1)が格納さ
れ、第1の記憶手段からの入力スペクトル変換デ
ータx^i及び第2の記憶手段からのスペクトル変換
データz^i、重み指定データPiに基づいて前記重み
係数wiを出力する第3の記憶手段と、 第1の記憶手段からの入力スペクトル変換デー
タx^iと第2の記憶手段からのスペクトル変換デー
タz^iとの距離を算出して出力する第1の演算手段
と、 第3の記憶手段及び第1の演算手段の出力の積
和演算を行うことにより、重み付けによる非類似
度を演算して出力する第2の演算手段とを備え、 前記重み指定データのうち重み指定の有りを示
す重み指定データが他の標準パターンとの区別に
有効な特定領域に予め設定されることを特徴とす
る音声認識装置。
[Claims] 1. A frequency analysis means for frequency analyzing input speech, a speech section detection means connected to the output thereof,
spectral conversion means for outputting spectral conversion data obtained by normalizing the sound source characteristics and power of the speaker with respect to the output data of the frequency analysis means; and a starting point of speech connected to the output of the spectral conversion means and provided by the speech interval detection means. A speech recognition device comprising: a dissimilarity calculating means for calculating a dissimilarity by comparing input spectral conversion data with a standard pattern in a speech interval between and an end; and a determining means connected to the output thereof to recognize speech. In the above, the dissimilarity calculation means includes: a first storage means for storing a time series of the input spectral conversion data x^ i ; a time series of the pre-calculated spectral transformation data z^ i ; and the spectral transformation data. a second storage means for storing a standard pattern consisting of weight designation data P i indicating the presence or absence of weight designation for each z^ i ; possible input spectrum transformations X^ i and possible spectrum transformation data Z^ i of the standard pattern; A weighting coefficient (w i ≧1) that is set in advance to emphasize these differences according to the polarity and magnitude of the absolute value of is stored, and the input spectral conversion data x^ i and a third storage means that outputs the weighting coefficient w i based on the spectral conversion data z^ i from the second storage means and the weight designation data P i ; and input spectral conversion data x^ from the first storage means. A first calculation means that calculates and outputs the distance between i and the spectrum conversion data z^ i from the second storage means, and a product-sum calculation of the outputs of the third storage means and the first calculation means. and a second calculating means that calculates and outputs a degree of dissimilarity by weighting, and the weight designation data indicating the presence of weight designation among the weight designation data is a specification that is effective for distinguishing from other standard patterns. A voice recognition device characterized in that the voice recognition device is set in advance in a region.
JP10926581A 1981-05-07 1981-07-15 Voice recognizer Granted JPS5811998A (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP10926581A JPS5811998A (en) 1981-07-15 1981-07-15 Voice recognizer
US06/373,147 US4520500A (en) 1981-05-07 1982-04-29 Speech recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10926581A JPS5811998A (en) 1981-07-15 1981-07-15 Voice recognizer

Publications (2)

Publication Number Publication Date
JPS5811998A JPS5811998A (en) 1983-01-22
JPS6332400B2 true JPS6332400B2 (en) 1988-06-29

Family

ID=14505781

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10926581A Granted JPS5811998A (en) 1981-05-07 1981-07-15 Voice recognizer

Country Status (1)

Country Link
JP (1) JPS5811998A (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5525091A (en) * 1978-08-14 1980-02-22 Nippon Electric Co Voice characteristic pattern comparator

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5525091A (en) * 1978-08-14 1980-02-22 Nippon Electric Co Voice characteristic pattern comparator

Also Published As

Publication number Publication date
JPS5811998A (en) 1983-01-22

Similar Documents

Publication Publication Date Title
US7711123B2 (en) Segmenting audio signals into auditory events
CA2041754C (en) Signal recognition system and method
US4401849A (en) Speech detecting method
EP1393300B1 (en) Segmenting audio signals into auditory events
JPH0449717B2 (en)
US4426551A (en) Speech recognition method and device
CN111415644B (en) Audio comfort prediction method and device, server and storage medium
US5845092A (en) Endpoint detection in a stand-alone real-time voice recognition system
WO2007041789A1 (en) Front-end processing of speech signals
JP3354252B2 (en) Voice recognition device
JPS6332400B2 (en)
JP2992324B2 (en) Voice section detection method
JPS6258516B2 (en)
JP3298658B2 (en) Voice recognition method
KR0176751B1 (en) Feature Extraction Method of Speech Recognition System
JPH04369698A (en) Voice recognition system
JPH0311479B2 (en)
JPH0556520B2 (en)
JPS58150998A (en) Voice recognition equipment
JP2666296B2 (en) Voice recognition device
JP3032215B2 (en) Sound detection device and method
JPH0311478B2 (en)
JPS6286399A (en) Voice recognition
JP3002200B2 (en) voice recognition
JPS58176698A (en) Pattern matching system