JPS625299A - Voice recognition equipment - Google Patents

Voice recognition equipment

Info

Publication number
JPS625299A
JPS625299A JP14337585A JP14337585A JPS625299A JP S625299 A JPS625299 A JP S625299A JP 14337585 A JP14337585 A JP 14337585A JP 14337585 A JP14337585 A JP 14337585A JP S625299 A JPS625299 A JP S625299A
Authority
JP
Japan
Prior art keywords
frame
data
feature data
distance
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP14337585A
Other languages
Japanese (ja)
Inventor
納田 重利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP14337585A priority Critical patent/JPS625299A/en
Publication of JPS625299A publication Critical patent/JPS625299A/en
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は、例えば特定話者の音声を単語単位で認識す
るのに適用される音声認識装置に関する。
DETAILED DESCRIPTION OF THE INVENTION [Field of Industrial Application] The present invention relates to a speech recognition device that is applied to, for example, recognizing the speech of a specific speaker word by word.

〔発明の概要〕[Summary of the invention]

この発明は、接話型マイクロホン等を入力部とする音声
認識装置のパターンマツチング判定器において、登録特
徴データブロックと人力特徴データブロックとの間で対
応するフレームのフレーム間距離に入カスベクトルデー
タの周波数軸方向の変化量に対応した重みと登録スペク
トルデータの周波数軸方向の変化量に対応した重みを用
いて求められた重み係数を乗じてスペクトルデータ列の
特徴を強く引き出した形でマツチング距離を算出してマ
ツチング判定を行うことにより、メモリに類似した登録
スペクトルデータ列が数多く登録されている場合におい
ても、認識率が低下することがないようにしたものであ
る。
In a pattern matching determiner of a speech recognition device that uses a close-talking microphone or the like as an input section, the present invention provides input vector data that determines the interframe distance of corresponding frames between a registered feature data block and a human feature data block. The matching distance is calculated by multiplying the weighting coefficient obtained by using the weight corresponding to the amount of change in the frequency axis direction of the registered spectrum data and the weight corresponding to the amount of change in the frequency axis direction of the registered spectrum data to strongly bring out the characteristics of the spectral data string. By calculating and performing a matching judgment, the recognition rate is prevented from decreasing even when a large number of similar registered spectrum data sequences are registered in the memory.

〔従来の技術〕[Conventional technology]

本願出願人により、先に提案されている音声認識装置(
特願昭59−106177)は、音声入力部としてのマ
イクロホン、前処理回路、音響分析器、特徴データ抽出
器、登録パターンメモリ及びパターンマツチング判定器
等により構成されている。
The speech recognition device previously proposed by the applicant (
Japanese Patent Application No. 59-106177) is comprised of a microphone as a voice input section, a preprocessing circuit, an acoustic analyzer, a feature data extractor, a registered pattern memory, a pattern matching determiner, and the like.

マイクロホンから入力される音声信号が前処理回路にお
いて、音声認識に必要とされる帯域に制限され、A/D
変換器によりディジタル音声信号とされる。このディジ
タル音声信号が音響分析器に供給される。
The audio signal input from the microphone is limited to the band required for speech recognition in the preprocessing circuit, and then the A/D
A converter converts it into a digital audio signal. This digital audio signal is fed to an acoustic analyzer.

音響分析器において、音声信号が周波数スペクトルに変
換され、例えば対数軸上で一定間隔となるように周波数
スペクトルのレベルが正規化され、離散的な周波数スペ
クトルデータが発生される。
In the acoustic analyzer, the audio signal is converted into a frequency spectrum, and the levels of the frequency spectrum are normalized, for example, at regular intervals on a logarithmic axis, to generate discrete frequency spectrum data.

この周波数スペクトルデータ列が単位時間(フレーム周
期)毎に1つのフレームデータとして出力される。即ち
、フレーム周期毎の1フレームのデータが、例えばNチ
ャンネルの周波数スペクトルデータとされ、N次元ベク
トルにより表現されるパラメータとして切り出され、特
徴データ抽出器に供給される。
This frequency spectrum data string is output as one frame data every unit time (frame period). That is, one frame of data for each frame period is, for example, N-channel frequency spectrum data, extracted as a parameter expressed by an N-dimensional vector, and supplied to the feature data extractor.

特徴データ抽出器において、隣り合うフレームデータの
距離が計算される。対応するチャンネルのスペクトルデ
ータの差の絶対値が夫々求められ、その総和がフレーム
間距離とされる。
In the feature data extractor, the distance between adjacent frame data is calculated. The absolute values of the differences between the spectral data of the corresponding channels are determined, and the sum thereof is taken as the interframe distance.

更に、夫々のフレーム間距離の総和が求められ、音声信
号の始端フレームから終端フレームまでのN次元ベクト
ルの軌跡長が求められる。そして最も語数が多く長い音
声の場合に特徴を抽出するのに必要な所定の分割数でも
って軌跡長が等分割され、その分割点に対応したフレー
ムデータのみが特徴データとして抽出され、話者の音声
の発生速度変動に影響されることがないように時間軸が
正規化されて出力される。
Furthermore, the sum of the distances between each frame is determined, and the trajectory length of the N-dimensional vector from the start frame to the end frame of the audio signal is determined. Then, in the case of the longest speech with the largest number of words, the trajectory length is divided equally by a predetermined number of divisions necessary to extract features, and only the frame data corresponding to the division points are extracted as feature data, and the speaker's The time axis is normalized and output so as not to be affected by variations in the rate of sound generation.

この特徴データが登録時においては、登録パターンメモ
リに登録特徴データブロック(標準パターン)として記
憶される。!!!識時においては、入力音声信号が前述
した処理を経て、入力特徴データブロックとされ、パタ
ーンマツチング判定器に供給され、入力特徴データブロ
ックと登録特徴データブロックとの間のパターンマツチ
ングが行われる。
When this feature data is registered, it is stored in the registered pattern memory as a registered feature data block (standard pattern). ! ! ! At the time of recognition, the input audio signal undergoes the above-mentioned processing and is made into an input feature data block, which is supplied to a pattern matching determiner, and pattern matching is performed between the input feature data block and the registered feature data block. .

パターンマツチング判定器において、入力特徴データブ
ロックと登録特徴データブロックの間のマツチング距離
が算出される0例えば、特徴データ抽出器において1個
のフレームデータが抽出され、θ〜(1−1)フレーム
により特徴データブロックが構成される。登録特徴デー
タブロックを構成するフレームデータと入力特徴データ
ブロックを構成するフレームデータとの間で対応するフ
レーム間の距離が計算される。
In the pattern matching judger, the matching distance between the input feature data block and the registered feature data block is calculated. For example, one frame data is extracted in the feature data extractor and θ~(1-1) frames A feature data block is constructed. A distance between corresponding frames is calculated between the frame data forming the registered feature data block and the frame data forming the input feature data block.

例えば、1番目のフレーム間距離り、は、nをチャンネ
ル番号とし、入力特徴データブロックのスペクトルデー
タをS inとし、登録特徴データブロックのスペクト
ルデータをRi nとすると、次式のように絶対値距離
として算出される。
For example, the first interframe distance is the absolute value as shown in the following equation, where n is the channel number, the spectrum data of the input feature data block is S in, and the spectrum data of the registered feature data block is Rin. Calculated as distance.

そして全ての対応するフレームに関してフレーム間距離
り五が求められ、更にこのフレーム間距離り、の(i−
1−1)までの総和即ち、マツチング距離が求められる
。他の登録特徴チータブロックに関しても、同様にマツ
チング距離が求められ、マツチング距離が最小で十分に
距離が近いものと判断される登録特徴データブロックに
対応する単語が認識結果として出力される。
Then, the inter-frame distance 5 is calculated for all corresponding frames, and this inter-frame distance is (i−
1-1), that is, the matching distance is determined. Matching distances are similarly determined for other registered feature cheater blocks, and words corresponding to registered feature data blocks for which the matching distance is the minimum and are determined to be sufficiently close are output as recognition results.

〔発明が解決しようとする問題点〕[Problem that the invention seeks to solve]

従来の音声認識装置のパターンマツチング判定器におけ
るフレーム間距離の計算処理は、前述したように対応す
るフレーム及びチャンネルのスペクトルデータの差の絶
対値の総和として算出される。
The interframe distance calculation process in the pattern matching determiner of the conventional speech recognition device is performed as the sum of the absolute values of the differences between the spectral data of corresponding frames and channels, as described above.

例えば、第5図A、第5図B及び第5図Cに示すような
0チヤンネル〜9チヤンネルの10個のスペクトルデー
タにより夫々構成される3個のフレームがある場合、第
5図Aの各チャンネルのスペクトルデータの大きさが(
10,14,12゜9、 6. 8. 10.9. 9
. 8)で示されるフレームAと第5図Cの各チャンネ
ルのスペクトルデータの大きさが(9,13,10,1
3,8,6゜16.10,9.9)で示されるフレーム
Cとのフレーム間距離DAは、 DA =1+1+2+4+2+2+6+1+0+1=2
0 となる。また、第5図Bの各チャンネルのスペクトルデ
ータの大きさが(10,15,12,9゜6.8,15
.8.7.7)で示されるフレームB−と第5図Cに示
すフレームCとのフレーム間距離D3は、 DI =1+2+2+4+2+2+1+2+2+2=2
0 となり、フレーム間距離からは、フレームCに対してフ
レームA及びフレームBが同等に類似していると判断さ
れる。
For example, if there are three frames each composed of 10 spectral data from channels 0 to 9 as shown in FIG. 5A, FIG. 5B, and FIG. 5C, each frame in FIG. The size of the spectral data of the channel is (
10, 14, 12°9, 6. 8. 10.9. 9
.. The size of the spectrum data of each channel of frame A shown in 8) and FIG. 5C is (9, 13, 10, 1
The inter-frame distance DA from frame C indicated by 3, 8, 6° 16.10, 9.9) is DA = 1 + 1 + 2 + 4 + 2 + 2 + 6 + 1 + 0 + 1 = 2
It becomes 0. Also, the size of the spectrum data of each channel in Fig. 5B is (10, 15, 12, 9°6.8, 15
.. The inter-frame distance D3 between frame B- shown in 8.7.7) and frame C shown in FIG.
0, and from the interframe distance, it is determined that frames A and B are equally similar to frame C.

しかし、実際には、第5図A、第5図B及び第5図Cか
ら明らかなようにフレームAとフレームCよりフレーム
BとフレームCとの方がより類似したものであり、フレ
ーム間距離り、がフレーム開路MDAより小さなものと
して計算される必要があるにも係わらず、従来のフレー
ム間距離の計算処理では期待する計算結果が得られず、
認識率を低下させる原因となる。
However, in reality, as is clear from FIGS. 5A, 5B, and 5C, frames B and C are more similar than frames A and C, and the interframe distance is Although it is necessary to calculate the frame distance as smaller than the frame open circuit MDA, the conventional interframe distance calculation process does not yield the expected calculation result.
This causes a decrease in the recognition rate.

従って、この発明の目的は、パターンマツチングの際に
、フレーム間距離に重み係数を乗じてスペクトルデータ
列の特徴を強く引き出してマツチング距離計算処理を行
うことにより、認識率の低下を防止することができる音
声認識装置を提供することにある。
Therefore, an object of the present invention is to prevent a decrease in recognition rate by multiplying the inter-frame distance by a weighting coefficient to strongly bring out the features of the spectral data sequence and performing matching distance calculation processing during pattern matching. The purpose of this invention is to provide a speech recognition device that can perform the following tasks.

〔問題点を解決するための手段〕[Means for solving problems]

この発明は、入力音声信号をスペクトル変換等音声認識
に必要な前処理を行う音響分析手段5と、音響分析手段
5の出力データが供給され、出力データから特徴データ
を抽出する特徴データ抽出手段6と、 特徴データが標準パターンとして記憶されるメモリ7と
、 特徴データ抽出手段6からの入力パターンと、メモリ7
から読゛み出された標準パターンとが供給され、入力パ
ターンを構成する夫々のスペクトルデータS!fiの周
波数軸方向の変化量に対応した値W3と標準パターンを
構成する夫々のスペクトルデータRinの周波数軸方向
の変化量に対応した値WsIを用いて重み係数Wtを求
め、フレーム間距離に重み係数Wsを乗じて入力パター
ンと標準パターンとの距離計算処理を行い、距離計算処
理の結果に基づいてマツチング判定するパターンマツチ
ング判定手段8と、 からなることを特徴とする音声認識装置である。
This invention comprises acoustic analysis means 5 which performs preprocessing necessary for speech recognition such as spectrum conversion on an input speech signal, and feature data extraction means 6 which is supplied with output data of the acoustic analysis means 5 and extracts feature data from the output data. , a memory 7 in which feature data is stored as a standard pattern, an input pattern from the feature data extraction means 6, and a memory 7
The standard pattern read out from the input pattern S! is supplied, and each spectrum data S! A weighting coefficient Wt is determined using a value W3 corresponding to the amount of change in the frequency axis direction of fi and a value WsI corresponding to the amount of change in the frequency axis direction of each spectrum data Rin constituting the standard pattern, and a weight is applied to the interframe distance. This is a speech recognition device characterized by comprising: a pattern matching determination means 8 which performs a distance calculation process between an input pattern and a standard pattern by multiplying it by a coefficient Ws, and determines matching based on the result of the distance calculation process.

〔作用〕 パターンマツチング判定器8において、登録特徴データ
ブロックと入力特徴データブロックの間で対応するフレ
ーム毎に各々のスペクトルデータの隣り合うチャンネル
のスペクトルデータの差の絶対値が求められ、その差分
値が累算されて、入カスベクトルデータの重みWs及び
登録スペクトルデータの重みWIIが求められ、重みW
sと重みW真を用いて重み係数W五が求められ、登録特
徴データブロックと入力特徴データブロックの間で対応
するフレームのフレーム間距離に重み係数W直が乗ぜら
れ、乗算結果の総和によりマツチング距離が算出され、
このマツチング距離に基づいてマツチング判定が行われ
る。
[Operation] In the pattern matching determiner 8, the absolute value of the difference between the spectral data of adjacent channels of each spectral data is determined for each corresponding frame between the registered feature data block and the input feature data block, and the difference is calculated. The values are accumulated to determine the weight Ws of the input waste vector data and the weight WII of the registered spectrum data, and the weight W
A weighting coefficient W is calculated using s and a weight W, and the inter-frame distance of the corresponding frame between the registered feature data block and the input feature data block is multiplied by a weighting coefficient W, and matching is performed using the sum of the multiplication results. The distance is calculated,
Matching determination is performed based on this matching distance.

〔実施例〕〔Example〕

以下、この発明の一実施例を図面を参照して説明する。 An embodiment of the present invention will be described below with reference to the drawings.

第1図は、この発明の一実施例を示すもので、第1図に
おいて、1が音声入力部としてのマイクロホンを示して
いる0例えばマイクロホン1には、周辺ノイズの少ない
接話型マイクロホンが用いられる。
FIG. 1 shows an embodiment of the present invention. In FIG. 1, 1 indicates a microphone as an audio input section. For example, microphone 1 is a close-talk type microphone with less ambient noise. It will be done.

マイクロホン1からのアナログ音声信号がフィルタ2に
供給される。フィルタ2は、例えばカッ〜   トオフ
周波数が7.5 KH2のローパスフィルタであり、音
声信号がフィルタ2により、帯域制限され、この音声信
号がアンプ3を介してA/D変換器4に供給される。
An analog audio signal from microphone 1 is supplied to filter 2 . The filter 2 is, for example, a low-pass filter with a cut-off frequency of 7.5 KH2, and the audio signal is band-limited by the filter 2, and this audio signal is supplied to the A/D converter 4 via the amplifier 3. .

A/D変換器4は、例えば、サンプリング周波数12.
5KH2の8ビツトA/D変換器であり、音声信号がA
/D変換器4において、アナログ−ディジタル変換され
て、8ビツトのディジタル信号とされ、音響分析器5に
供給される。
For example, the A/D converter 4 has a sampling frequency of 12.
It is a 5KH2 8-bit A/D converter, and the audio signal is A/D converter.
/D converter 4 converts the signal into an 8-bit digital signal, which is then supplied to acoustic analyzer 5.

音響分析器5は、音声信号を周波数スペクトルに変換し
て、例えば、Nチャンネルのスペクトルデータ列を発生
するものである。音響分析器5において、音声信号が演
算処理により周波数スペクトルに変換され、例えば対数
軸上で一定間隔となるN個の周波数を代表値とするスペ
クトルデータ列が得られる。従って、音声信号がNチャ
ンネルの離散的な周波数スペクトルの大きさによって表
現される。そして、単位時間(フレーム周期)毎にNチ
ャンネルのスペクトルデータ列が一つのフレームデータ
として出力される。即ち、フレーム周期毎に音声信号が
N次元ベクトルにより表現されるパラメータとして切り
出され、特徴データ抽出器6に供給される。
The acoustic analyzer 5 converts the audio signal into a frequency spectrum and generates, for example, an N-channel spectrum data string. In the acoustic analyzer 5, the audio signal is converted into a frequency spectrum through arithmetic processing, and a spectral data string whose representative values are, for example, N frequencies at regular intervals on the logarithmic axis is obtained. Therefore, the audio signal is expressed by the magnitude of the discrete frequency spectrum of N channels. Then, N-channel spectral data strings are output as one frame data every unit time (frame period). That is, the audio signal is extracted every frame period as a parameter expressed by an N-dimensional vector, and is supplied to the feature data extractor 6.

特徴データ抽出器6において、隣り合うフレームデータ
の距離が計算される。例えば、各チャンネルに関してス
ペクトルデータの差の絶対値が夫々求められ、その総和
がフレーム間距離とされる。
The feature data extractor 6 calculates the distance between adjacent frame data. For example, the absolute value of the difference in spectral data for each channel is determined, and the sum of the values is determined as the interframe distance.

更に、フレーム間距離の総和が求められ、音声信号の始
端フレームから終端フレームまでのN次元ベクトルの軌
跡長が求められる。そして最も語数が多く長い音声の場
合に特徴を抽出するのに必要な所定の分割数でもって軌
跡長が等分割され、その分割点に対応したフレームデー
タのみが特徴データとして抽出され、話者の音声の発生
速度変動に影響されることがないように時間軸が正規化
されて出力される。
Furthermore, the sum of the interframe distances is determined, and the trajectory length of the N-dimensional vector from the start frame to the end frame of the audio signal is determined. Then, in the case of the longest speech with the largest number of words, the trajectory length is divided equally by a predetermined number of divisions necessary to extract features, and only the frame data corresponding to the division points are extracted as feature data, and the speaker's The time axis is normalized and output so as not to be affected by variations in the rate of sound generation.

例えば、特徴データ抽出器6において、第2図に示すよ
うに1個のフレームデータが抽出され、各々が0〜(N
−1)チャンネルのデータにより構成されるフレームデ
ータがOフレームへ(1−1)フレームまで抽出される
For example, the feature data extractor 6 extracts one frame data as shown in FIG.
-1) Frame data constituted by channel data is extracted to O frames (1-1) frames.

この特徴データが登録時においては、登録パターンメモ
リ7に登録特徴データブロックとして記憶される。認識
時においては、入力音声信号が前述した処理を経て、入
力特徴データブロックとされ、パターンマツチング判定
器8に供給され、入力特徴データブロックと全ての登録
データブロックとの間においてパターンマツチングが行
われる。
When this feature data is registered, it is stored in the registered pattern memory 7 as a registered feature data block. During recognition, the input audio signal undergoes the above-mentioned processing and is converted into an input feature data block, which is supplied to the pattern matching determiner 8, which performs pattern matching between the input feature data block and all registered data blocks. It will be done.

第3図は、パターンマツチング判定器8の一例を示し、
第3図に示すように、フレーム距離計算回路10、重み
係数計算回路11、乗算回路12、マツチング距離計算
回路13及び最小距離判定回路14によりパターンマツ
チング判定器8が構成される。
FIG. 3 shows an example of the pattern matching determiner 8,
As shown in FIG. 3, a frame distance calculation circuit 10, a weighting coefficient calculation circuit 11, a multiplication circuit 12, a matching distance calculation circuit 13, and a minimum distance determination circuit 14 constitute a pattern matching determiner 8.

特徴データ抽出器6から入力特徴データブロックがフレ
ーム距離計算回路10及び重み係数計算回路11に供給
されると共に、登録パターンメモリ7から比較の対象と
なる登録特徴データブロックがフレーム距離計算回路1
0及び重み係数計算回路11に供給される。
The input feature data block is supplied from the feature data extractor 6 to the frame distance calculation circuit 10 and the weighting coefficient calculation circuit 11, and the registered feature data block to be compared is supplied from the registered pattern memory 7 to the frame distance calculation circuit 1.
0 and is supplied to the weighting coefficient calculation circuit 11.

フレーム距離計算回路IOにおいて、入力特徴データブ
ロックと登録特徴データブロックの間の対応するフレー
ム間の距離計算が行われる。計算処理により得られた入
力特徴データブロックと登録特徴データブロックの間の
対応するフレームのフレーム間距離データが乗算回路1
2に供給される。
In the frame distance calculation circuit IO, distance calculation between corresponding frames between the input feature data block and the registered feature data block is performed. The inter-frame distance data of the corresponding frames between the input feature data block and the registered feature data block obtained by the calculation process are multiplied by the multiplication circuit 1.
2.

また、重み係数計算回路11において、入力特徴データ
ブロックと登録特徴データブロックの間の対応するフレ
ームの夫々のスペクトルデータ列に関して隣接する2つ
のチャンネルのスペクトルデータの差が求められ、その
差分値が累算される。
Further, in the weighting coefficient calculation circuit 11, the difference between the spectral data of two adjacent channels is calculated for each spectral data string of the corresponding frame between the input feature data block and the registered feature data block, and the difference value is accumulated. calculated.

得られた入カスベクトルデータの差分累計値と登録スペ
クトルデータの差分累計値とにより重み係数が算出され
、重み係数データが乗算回路12に供給される。
A weighting coefficient is calculated from the obtained cumulative difference value of the input waste vector data and the cumulative difference value of the registered spectrum data, and the weighting coefficient data is supplied to the multiplication circuit 12.

乗算回路12により、フレーム間距離データと重み係数
データとの乗算がなされ、乗算回路12からの重み係数
が乗じられたフレーム間距離データがフレーム間距離デ
ータとしてマツチング距離計算回路13に供給される。
The multiplication circuit 12 multiplies the interframe distance data by the weighting coefficient data, and the interframe distance data multiplied by the weighting coefficient from the multiplication circuit 12 is supplied to the matching distance calculation circuit 13 as interframe distance data.

マツチング距離計算回路13において、順次供給される
フレーム間距離データが累算され、最大フレーム(1−
1)までのフレーム間距離データが累算されると、この
累算値がマツチング距離データとされ、マツチング距離
データが最小距離判定回路14に供給される。同様に、
全ての登録特徴データブロックと入力特徴データブロッ
クとの間においてマツチング距離が算出されてマツチン
グ距離データが最小距離判定回路14に供給される。
In the matching distance calculation circuit 13, the sequentially supplied interframe distance data is accumulated and the maximum frame (1-
When the interframe distance data up to 1) is accumulated, this accumulated value is used as matching distance data, and the matching distance data is supplied to the minimum distance determination circuit 14. Similarly,
Matching distances are calculated between all registered feature data blocks and input feature data blocks, and the matching distance data is supplied to the minimum distance determination circuit 14.

最小距離判定回路14は、マツチング距離が最小で十分
に距離が近いものと判断される登録特徴データブロック
に対応する単語を認識結果として出力する。
The minimum distance determination circuit 14 outputs, as a recognition result, a word corresponding to a registered feature data block for which the matching distance is the minimum and the distance is determined to be sufficiently close.

上述のこの発明の一実施例におけるパターンマツチング
判定器8のフレーム距離計算回路10゜重み係数計算回
路11及び乗算回路12の動作をフローチャートを参照
して説明する。
The operations of the frame distance calculation circuit 10, the weighting coefficient calculation circuit 11, and the multiplication circuit 12 of the pattern matching determiner 8 in the above-mentioned embodiment of the present invention will be explained with reference to a flowchart.

登録パターンメモリ7から登録特徴データブロックがフ
レーム距離計算回路10及び重み係数計算回路11に供
給されると共に特徴データ抽出器6から入力特徴データ
ブロックがフレーム距離計算回路10及び重み係数計算
回路11に供給される0重み係数計算回路1□9おい7
、各、、′f:)、m徴データブロックのフレーム毎に
ステップ■〜■の処理が行われる。
The registered feature data block is supplied from the registered pattern memory 7 to the frame distance calculation circuit 10 and the weighting coefficient calculation circuit 11, and the input feature data block is supplied from the feature data extractor 6 to the frame distance calculation circuit 10 and the weighting coefficient calculation circuit 11. 0 weighting coefficient calculation circuit 1□9 7
, each, ,'f:), Steps 1 to 2 are performed for each frame of m data blocks.

i番目のフレームにおける0チャンネル〜N−1チヤン
ネルのN個のチャンネルにより構成される入カスベクト
ルデータ列の重みWsがnをチャンネル番号を示す変数
とすると、 で求められ、隣り合うチャンネル間の入カスベクトルデ
ータの差の絶対値の総和が重みWsとされる(ステップ
■)。
The weight Ws of the input waste vector data string composed of N channels from channel 0 to channel N-1 in the i-th frame is calculated as follows, where n is a variable indicating the channel number. The sum of the absolute values of the differences in the waste vector data is set as the weight Ws (step ■).

次に、登録スペクトルデー、夕刊の重みR3が同様に、 で求められ、隣り合うチャンネル間の登録スペクトルデ
ータの差の絶対値の総和が重みWslとされる(ステッ
プ■)。
Next, the weight R3 of the registered spectrum data and the evening edition is similarly determined as follows, and the sum of the absolute values of the differences in the registered spectrum data between adjacent channels is set as the weight Wsl (step 2).

そして、ステップ■において、重み係数W五かにより求
められる(ステップ■)。フレーム距離計算回路IO及
び乗算回路12においてステップ■の処理が行われる。
Then, in step (2), the weighting coefficient W5 is determined (step (2)). The process of step (2) is performed in the frame distance calculation circuit IO and the multiplication circuit 12.

ステップ■において、i番目のフレーム間距離Diが、 で求められる。即ち、各フレームの対応するチャンネル
間の絶対距離が計算され、0チヤンネル〜(N−1)チ
ャンネルまでの総和に重み係数W。
In step (2), the i-th inter-frame distance Di is found as follows. That is, the absolute distance between corresponding channels of each frame is calculated, and a weighting factor W is added to the sum total from channel 0 to channel (N-1).

が乗ぜられることにより、フレーム間距離り、が算出さ
れる。
By multiplying by , the interframe distance is calculated.

尚、この発明は、ハードワイヤードの構成に限らず、マ
イクロコンピュータ又はマイクロプログラム方式を用い
てソフトウェアにより処理を行うようにしても良い。
Note that the present invention is not limited to a hard-wired configuration, and processing may be performed by software using a microcomputer or a microprogram method.

〔発明の効果〕〔Effect of the invention〕

この発明では、パターンマツチング判定器において、登
録特徴データブロックと入力特徴データブロックの間で
フレーム毎に各々のスペクトルデータ列に対して隣り合
うチャンネルのスペクトルデータの差の絶対値が求めら
れ、その差分値が累算されて、入カスベクトルデータ列
の重みWs及び登録スペクトルデータ列の重みWjIが
求められ、重みW3と重みW8を用いて重み係数Wsが
求められ、登録特徴データブロックと入力特徴データブ
ロックのフレーム間距離に重み定数Wsが乗ぜられ、乗
算結果の総和によりマツチング距離が算出され、求めら
れたヤッチング距離に基づl、イてマツチング判定が行
われる。
In this invention, the pattern matching determiner calculates the absolute value of the difference between the spectral data of adjacent channels for each spectral data string for each frame between the registered feature data block and the input feature data block, and calculates the absolute value of the difference between the spectral data of adjacent channels. The difference values are accumulated, the weight Ws of the input vector data string and the weight WjI of the registered spectrum data string are calculated, the weight coefficient Ws is calculated using the weight W3 and the weight W8, and the registered feature data block and the input feature are calculated. The interframe distance of the data block is multiplied by a weighting constant Ws, a matching distance is calculated by the sum of the multiplication results, and a matching judgment is performed based on the calculated matching distance.

例えば、第5図A1第5図B及び第5図Cに示すような
0チヤンネル〜9チヤンネルの10個のスペクトルデー
タにより夫々構成される3個のフレームがある場合、第
5図Aの各チャンネルのスベクトルデータの大きさが(
10,14,12゜9. 6. 8. 10.9. 9
. 8)で示されるフレームAの重みWAは、 Wa ”4+2+3+3+2+2+1+O+1となる、
また、第5図Bの各チャンネルのスペクトルデータの大
きさが(10,15,12,9゜6.8,15.8.7
.7)で示されるフレームBの重みWsは、 Wa −5+3+3+3+2+7+’?+1+0となり
、第5図Cの各チャンネルのスペクトルデータの大きさ
が(9,13,10,13,8,6゜16.10,9.
9)で示されるフレームCの重みWcは、 We−4+3+3+5+2+10+6+1+0菖34 となる、フレームAとフレームCとに関する重みとなり
、フレームBとフレームCとに関する重み係数W3は、 となる。フレームAとフレームCとのフレーム開路ND
Aは、DA =20X2.42−48.4となり、フレ
ームBとフレームCとのフレーム開路MDwは、Ds 
”20 X 2.01 =40.2となり、フレームC
に対してフレームBが類似していると判断される。
For example, if there are three frames each composed of 10 spectrum data from channel 0 to channel 9 as shown in FIG. 5A, FIG. 5B, and FIG. 5C, each channel in FIG. The size of the vector data is (
10,14,12゜9. 6. 8. 10.9. 9
.. The weight WA of frame A shown in 8) is Wa ``4+2+3+3+2+2+1+O+1,
Also, the magnitude of the spectrum data of each channel in Fig. 5B is (10, 15, 12, 9°6.8, 15.8.7
.. 7) The weight Ws of frame B is Wa −5+3+3+3+2+7+'? +1+0, and the magnitude of the spectrum data of each channel in FIG.
The weight Wc of frame C shown in 9) is We-4+3+3+5+2+10+6+1+0, which is the weight for frame A and frame C, and the weight coefficient W3 for frame B and frame C is as follows. Frame open circuit ND between frame A and frame C
A is DA = 20X2.42-48.4, and the frame open circuit MDw between frame B and frame C is Ds
”20 x 2.01 = 40.2, frame C
It is determined that frame B is similar to the frame B.

上述の例から理解されるように、この発明に依れば、パ
ターンマツチングの際に、周波数軸方向のスペクトルの
変化量に対応した重み係数がフレーム間距離に乗ぜられ
ることにより、スペクトルデータ列の特徴が強く引き出
される。従って、登録パターンメモリに類似した登録ス
ペクトルデータ列が数多く登録されていても認識率が低
下しない。
As can be understood from the above example, according to the present invention, during pattern matching, the inter-frame distance is multiplied by a weighting coefficient corresponding to the amount of change in the spectrum in the frequency axis direction, so that the spectral data string is characteristics are strongly brought out. Therefore, even if many similar registered spectrum data sequences are registered in the registered pattern memory, the recognition rate does not decrease.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図はこの発明の一実施例の全体構成を示すブロック
図、第2図はこの発明の一実施例における特徴データブ
ロックのデータ構成の説明に用いる路線図、第3図はこ
の発明の一実施例におけるパターンマツチング判定器の
ブロック図、第4図はこの発明の一実施例におけるパタ
ーンマツチング判定器のフレーム距離計算回路、重み係
数計算回路及び乗算回路の動作説明に用いるフローチャ
ート、第5図A、第5図B及び第5図Cはスペクトルデ
ータの例を示す路線図である。 図面における主要な符号の説明 l;マイクロホン、  5:音響分析器、6:特徴デー
タ抽出器、7:登録パターンメモリ、10:フレーム距
離計算回路、 11:重み係数計算回路、12:乗算回路、13:マツ
チング距離計算回路、 14:最小距離判定回路。
Fig. 1 is a block diagram showing the overall configuration of an embodiment of the present invention, Fig. 2 is a route diagram used to explain the data structure of the feature data block in an embodiment of the invention, and Fig. 3 is a block diagram showing the overall configuration of an embodiment of the invention. FIG. 4 is a block diagram of a pattern matching determiner in an embodiment of the present invention; FIG. Figures A, 5B, and 5C are route maps showing examples of spectrum data. Explanation of main symbols in the drawings: microphone, 5: acoustic analyzer, 6: feature data extractor, 7: registered pattern memory, 10: frame distance calculation circuit, 11: weighting coefficient calculation circuit, 12: multiplication circuit, 13 : Matching distance calculation circuit, 14: Minimum distance determination circuit.

Claims (1)

【特許請求の範囲】 入力音声信号をスペクトル変換等音声認識に必要な前処
理を行う音響分析手段と、 上記音響分析手段の出力データが供給され、上記出力デ
ータから特徴データを抽出する特徴データ抽出手段と、 上記特徴データが標準パターンとして記憶されるメモリ
と、 上記特徴データ抽出手段からの入力パターンと、上記メ
モリから読み出された上記標準パターンとが供給され、
上記入力パターンを構成する夫々のスペクトルデータS
_i_nの周波数軸方向の変化量に対応した値W_sと
上記標準パターンを構成する夫々のスペクトルデータR
_i_nの周波数軸方向の変化量に対応した値W_Rを
用いて重み係数W_iを求めフレーム間距離に上記重み
係数W_iを乗じて上記入力パターンと上記標準パター
ンとの距離計算処理を行い、上記距離計算処理の結果に
基づいてマッチング判定するパターンマッチング判定手
段と、からなることを特徴とする音声認識装置。
[Scope of Claims] Acoustic analysis means that performs preprocessing necessary for speech recognition, such as spectrum conversion, on an input audio signal; and feature data extraction that is supplied with output data of the acoustic analysis means and extracts feature data from the output data. means, a memory in which the feature data is stored as a standard pattern, an input pattern from the feature data extraction means, and the standard pattern read from the memory;
Each spectrum data S forming the above input pattern
A value W_s corresponding to the amount of change in the frequency axis direction of _i_n and each spectrum data R forming the above standard pattern.
The weighting coefficient W_i is calculated using the value W_R corresponding to the amount of change in the frequency axis direction of _i_n, and the distance between the input pattern and the standard pattern is calculated by multiplying the inter-frame distance by the weighting coefficient W_i. A speech recognition device comprising: pattern matching determining means for determining matching based on processing results.
JP14337585A 1985-06-29 1985-06-29 Voice recognition equipment Pending JPS625299A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP14337585A JPS625299A (en) 1985-06-29 1985-06-29 Voice recognition equipment

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP14337585A JPS625299A (en) 1985-06-29 1985-06-29 Voice recognition equipment

Publications (1)

Publication Number Publication Date
JPS625299A true JPS625299A (en) 1987-01-12

Family

ID=15337322

Family Applications (1)

Application Number Title Priority Date Filing Date
JP14337585A Pending JPS625299A (en) 1985-06-29 1985-06-29 Voice recognition equipment

Country Status (1)

Country Link
JP (1) JPS625299A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5561722A (en) * 1992-03-04 1996-10-01 Sony Corporation Pattern matching method and pattern recognition apparatus

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5561722A (en) * 1992-03-04 1996-10-01 Sony Corporation Pattern matching method and pattern recognition apparatus

Similar Documents

Publication Publication Date Title
CN111292764B (en) Identification system and identification method
EP0077558B1 (en) Method and apparatus for speech recognition and reproduction
JPS634200B2 (en)
JPS6128998B2 (en)
JPH0465392B2 (en)
JPS625299A (en) Voice recognition equipment
JP2019132948A (en) Voice conversion model learning device, voice conversion device, method, and program
JPS625298A (en) Voice recognition equipment
JPS62113197A (en) Voice recognition equipment
JPS6152478B2 (en)
JPH0556520B2 (en)
JPS6210697A (en) Voice recognition equipment
JP3023135B2 (en) Voice recognition device
JP2989231B2 (en) Voice recognition device
JPS62105199A (en) Voice recognition equipment
JP3298658B2 (en) Voice recognition method
JPS61292695A (en) Voice recognition equipment
JPS62159195A (en) Voice pattern generation
JPS61290496A (en) Voice recognition equipment
JPS63104099A (en) Voice recognition equipment
JP3065088B2 (en) Voice recognition device
JP3002200B2 (en) voice recognition
JPS63223696A (en) Voice pattern generation system
JPS63121100A (en) Feature pattern extraction for voice recognition equipment
JPS6286400A (en) Voice recognition equipment