JPS60203995A - Voice pattern matching - Google Patents

Voice pattern matching

Info

Publication number
JPS60203995A
JPS60203995A JP59058440A JP5844084A JPS60203995A JP S60203995 A JPS60203995 A JP S60203995A JP 59058440 A JP59058440 A JP 59058440A JP 5844084 A JP5844084 A JP 5844084A JP S60203995 A JPS60203995 A JP S60203995A
Authority
JP
Japan
Prior art keywords
path
transient
block
transition
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP59058440A
Other languages
Japanese (ja)
Other versions
JPH0424719B2 (en
Inventor
裕 飯塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP59058440A priority Critical patent/JPS60203995A/en
Publication of JPS60203995A publication Critical patent/JPS60203995A/en
Publication of JPH0424719B2 publication Critical patent/JPH0424719B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 (技術分野) 本発明は、音声認識における音声パターンマツチング方
法に関する。
DETAILED DESCRIPTION OF THE INVENTION (Technical Field) The present invention relates to a speech pattern matching method in speech recognition.

(背景技術) 音声認識においては一般に、入力音声と標準音声とを周
波数チャンネル(以下単にチャンネルという)軸と時間
フレーム(以下単にフレームという)軸との2次元特徴
・pターンで表現し、入力・ぐターンと標準パターンと
の距離をめ、最小距離を与える標準パターンコードを入
力音声カテゴリと判定する。
(Background technology) In general, in speech recognition, input speech and standard speech are expressed as two-dimensional features or p-turns between a frequency channel (hereinafter simply referred to as channel) axis and a time frame (hereinafter simply referred to as frame) axis, The standard pattern code that provides the minimum distance is determined to be the input voice category.

発声速度変動を考慮した距離のめ方として、DPマ、チ
ング法がよく知られているが、そこでの演算量の膨大さ
を避ける方法として、例えば特開昭57−52096号
明細書で開示されているように、本質的に線形な部分・
ぐスを用いる方法が知られている。
The DP machining method is well known as a method of estimating distance that takes into account variations in speaking speed, but as a method to avoid the enormous amount of calculations, for example, the method disclosed in Japanese Patent Application Laid-Open No. 57-52096 As shown in the figure, the essentially linear part/
A method using gas is known.

そこでは、便宜的なブロックを設定することがあるけれ
ども、単語標準音声の過渡部と定常部とに対応して標準
・ぐターンのフレームに過渡ブロックと定常ブロックと
を設定しておき、過渡部パスとして実質1対1の線形パ
スを設定し、定常部パスとして残余のフレームを対応さ
せる。
In this case, convenient blocks may be set, but transient blocks and steady blocks are set in the standard word frame corresponding to the transient and steady parts of the standard voice of a word. A substantially one-to-one linear path is set as the path, and the remaining frames are made to correspond to each other as the stationary part path.

この方法は比較的短かい単語には有用であったが、従来
、初期設定後、そこを起点とした所定の範囲内で、云わ
ば、標準パターンの過渡ブロックを入カバターンをシフ
トさせた関係で複数の過渡部パスを候補として設定し、
最小距離を力える候補を選択していた。
This method has been useful for relatively short words, but conventionally, after the initial setting, it is a transition block of a standard pattern within a predetermined range starting from that point, so to speak, by shifting the input pattern. Set multiple transition paths as candidates,
The candidate with the shortest distance was selected.

従って、認識対象の増加や単語長の増加などに対処する
ため、過渡ブロック数を増大させたり、或は単一の過渡
プロ、りのフレーム長を制限するために標準音声の1つ
の過渡部に対応して2つの過渡プロ、りと1つの定常ブ
ロックを設定して分割するなどの工夫をすると、定常部
パスが通常の発声速度変動を越えて異常に長くなったり
短かくなったシすることが生じてきた。
Therefore, it is necessary to increase the number of transient blocks in order to deal with an increase in the number of recognition targets, an increase in word length, etc., or to limit the frame length of a single transient processor. Correspondingly, if you take measures such as setting and dividing two transient blocks and one steady block, the steady-state path may become abnormally long or short beyond normal vocalization rate fluctuations. has arisen.

(発明の目的) 本発明の目的は、発声速度変動が予想される範囲に過渡
部パスを制限することにあり、これを定常部パスの傾斜
を制限することによって行ない、それに対応して、最適
化と仮称した・ぐス設定処理を複数回繰返すようにした
ものである。
(Objective of the Invention) The object of the present invention is to limit the transient path to a range in which vocalization rate fluctuations are expected, and to do this by limiting the slope of the steady-state path, so that the optimum This process is designed to repeat the process of setting the file, which is tentatively called ``configuration'', multiple times.

(発明の構成) 本発明における標準ノやターンは、その時間フレーム(
以下単にフレームという)に関して過渡ブロックと定常
ブロックとが予め設定しである。過渡ブロックのフレー
ム長を数フレームに限定するため、便宜的な定常フレー
ムを設定することはあるけれども、大部分は音声の過渡
部と定常部とに対応させて設定する。
(Structure of the Invention) The standard no or turn in the present invention is defined by its time frame (
Transient blocks and steady blocks (hereinafter simply referred to as frames) are preset. In order to limit the frame length of the transient block to a few frames, convenient steady frames are sometimes set, but in most cases they are set in correspondence with the transient and steady parts of the audio.

過渡プロ、りの最大数の典型は、1フレーム10 m5
ecとして20〜150フレーム長の100語を認識対
象とした場合、10個程度である。
The typical maximum number of transients is 10 m5 per frame.
When 100 words with a length of 20 to 150 frames are to be recognized as ec, the number is about 10.

第1図は、本発明によるマ、チングノクスの1例を示し
た図であシ、入力・やターン長が65フレーム、標準パ
ターン長が69フレーム、過渡ブロックの数が4である
、トウキヨウの例を示したものであり、縦軸は入力・ぐ
ターンのフレーム軸、横軸ハ標準パターンのフレーム軸
である。第1図の例は、常に入カバターンの始端からの
距離をめる形式の例(そのため標準ieターンも、その
作成時の始端前の数フレームの情報をもつ)を示してい
るため、始端対応では厳密にも1対1対応ではないけれ
ども、標準パターンの過渡ブロックTRANI 。
FIG. 1 is a diagram showing an example of a machining node according to the present invention, in which the input turn length is 65 frames, the standard pattern length is 69 frames, and the number of transient blocks is 4. The vertical axis is the input pattern frame axis, and the horizontal axis is the standard pattern frame axis. The example in Figure 1 shows an example of a format in which the distance from the starting edge of the input pattern is always calculated (therefore, the standard IE turn also has information about several frames before the starting edge when it is created), so it is compatible with the starting edge. Although it is not strictly a one-to-one correspondence, the standard pattern is the transient block TRANI.

TRANJ 、 −、TRAN4に対応した過渡部パス
は実質l対lの線形・ぐスである。標準パターンの定常
プロ、りC0NTl 、 C0NTJ 、 C0NT3
に対応した定常部・ぐスは過渡部・ぐスの残部として対
応づけることによって設定される。
The transition path corresponding to TRANJ, -, TRAN4 is essentially an l-to-l linear path. Standard pattern steady pro, C0NTl, C0NTJ, C0NT3
The stationary part/gas corresponding to is set by associating it with the remaining part of the transient part/gas.

第1図では、標準・やターンの各定常ブロックC0NT
Jに対応して1フレ一ム分の情報で代表させた例を示し
ているため、各定常パスは垂直な線として示している。
In Figure 1, each standard/turn steady block C0NT
Each stationary path is shown as a vertical line because the example shown is represented by one frame's worth of information corresponding to J.

なお第1図は、入カバターンパワーとフレーム当りの距
離を示していて、標準・ぐターンの最後の定常プロ、り
C0NT3に対応した初め部分の距離が多少太きい。
Note that Fig. 1 shows the input cover turn power and the distance per frame, and the distance at the beginning of the standard turn, which corresponds to the last steady program and RI C0NT3, is somewhat wide.

後述の実施例では、1つの定常ブロックをそのフレーム
長に対して最大4個のフレームで代表させ、定常部での
距離増大を少なくしている。
In the embodiment described later, one stationary block is represented by a maximum of four frames for its frame length to reduce the increase in distance in the stationary part.

第2図は、本発明の概要を示すブロック図であシ、各標
準パターンに対してまず初期パス設定過程を設け、候補
・Qス設定過程と過渡部・ぐス選択過程とからなる最適
化過程を複数回設ける。
FIG. 2 is a block diagram showing an overview of the present invention. First, an initial path setting process is provided for each standard pattern, and an optimization process consisting of a candidate/Q path setting process and a transient part/gus selection process is shown in FIG. Set up the process multiple times.

本発明における初期・ぐスば、過渡部ノヤスを実質1対
1で設定し、定常部パスを実質−裸線形で設定すること
によって行ない、第3図はその概念を説明する図である
In the present invention, the initial phase and the transition phase are set in a substantially one-to-one ratio, and the steady-state path is set substantially in a bare linear manner. FIG. 3 is a diagram explaining the concept.

第3図において、標準パターンの全ての過渡プロ、りに
対応するものとしてそのフレーム長と等しいフレーム長
INTRANを割り当て、入力ノヤターンの残部lNC
0N5Tと標準パターンの定常ブロックC0NTl〜C
0NT3とを線形に対応させることによって、その各定
常ブロックC0NTl〜C0NT 3に対応した入カバ
ターンに−けるフレーム数を決定し、これによって標準
・やターンの各過渡ブロック及び各定常ブロックに対応
したものが入力/Noターンの中に決定され、実質1対
1の過渡部・ぐスとその残部を一様線形に対応づけた定
常部・パスとからなる初期・ぐスが設定される。
In FIG. 3, a frame length INTRAN equal to that of the standard pattern is assigned as corresponding to all the transient processes of the standard pattern, and the remainder of the input noyaturn is
0N5T and standard pattern steady blocks C0NTl~C
0NT3, the number of frames in the input cover turn corresponding to each of the steady blocks C0NTl to C0NT3 is determined, and thereby the number of frames corresponding to each transient block and each steady block of the standard and turn is determined. is determined in the input/no turn, and an initial stage consisting of a substantially one-to-one transient part/path and a stationary part/path in which the remaining part is uniformly linearly correlated is set.

この場合、標準ipターンの特定の定常ブロックに対応
するものが零となることがあり、この場合、便宜的に例
えば1フレームの人力・ぐターンを対応づけることが必
要となるため、定常部7NOスの設定は厳密には一様線
形で寿いけれども実質的には一様線形ということができ
る。本発明では、最適化過程を複数回繰返すことによっ
て過渡部・やスを決定するものであり、第4図は、標準
・やターンの1つの過渡ブロックTRAN3に対応して
、候補パス設定過程と過渡部パス選択過程との概念を説
明するために示した図である。
In this case, the standard IP turn that corresponds to a specific stationary block may be zero. Strictly speaking, the setting of the speed is uniformly linear, but in reality it can be said to be uniformly linear. In the present invention, the transient section/path is determined by repeating the optimization process multiple times, and FIG. 4 shows the candidate path setting process and FIG. 3 is a diagram shown to explain the concept of a transition path selection process.

第4図において、過渡部パスPATHOを初期・9ス設
定過程で設定されたものとし、これを起点・パスとする
ものとする。
In FIG. 4, it is assumed that the transition path PATHO is set in the initial 9th path setting process, and this is assumed to be the starting point and path.

過渡ブロックTRAN3に対応した過渡部パスの候補例
えばPATHFやPATHBは、ある範囲で人カッ9タ
ーンのフレームを移動させた関係で設定し、従って候補
PATHF 、 PATHBは起点ノぐスPATHOに
平行である。
The candidates for the transition path corresponding to the transient block TRAN3, such as PATHF and PATHB, are set by moving nine turns of frames within a certain range, so the candidates PATHF and PATHB are parallel to the starting point PATHO. .

このことは、入力パターンの中で過渡ブロックTRAN
3をシフトさせることによって候補を設定すると考えて
もよい。候補は書道複数であるが、範囲を決定する条件
によって1個のみとなることがある。
This means that the transient block TRAN in the input pattern
You may consider setting candidates by shifting 3. Although there are multiple calligraphy candidates, there may be only one candidate depending on the conditions that determine the range.

範囲は、前後の定常ブロックの傾斜を含む条件と特定値
とを含む。
The range includes conditions including the slopes of the preceding and following stationary blocks and a specific value.

前方範囲F及び後方範囲Bにはそれぞれ例えは3なる値
の制限を設け、また前者Fは先行定常ブロックC0NT
2に対応した定常部7Fスの傾斜が特定の値以内である
制限を設け、後者Bは後続プロ。
For example, a limit of 3 is set for each of the front range F and the rear range B, and the former F is set as the preceding stationary block C0NT.
A restriction is set that the slope of the stationary part 7F corresponding to 2 is within a certain value, and the latter B is the subsequent pro.

りC0NT 3に対応した定常部パスの傾斜が特定の値
以内である制限を設ける。
A restriction is set that the slope of the steady-state path corresponding to C0NT3 is within a specific value.

後述の実施例では、音声の定常部における発生速度変動
の限界を50チから200 %と想定し、定常パスの傾
斜が1/!〜2となる範囲で制限し、この傾斜の検出を
当該定常パスに対応した標漁・ぐターンと入カバターン
とのフレーム数を比較することによって行ない、満足し
た場合に特定値の範囲でシフトさせることによって候補
を設定する。
In the example described later, it is assumed that the limit of the variation in the rate of occurrence in the steady part of the voice is from 50% to 200%, and the slope of the steady path is 1/! ~2, and this slope is detected by comparing the number of frames between the target fishing turn and the entering cover turn corresponding to the steady path, and if it is satisfied, it is shifted within a specific value range. Set candidates by

また、候補・ぐスの設定範囲は、認識対象が限定されれ
ば、初期・ぐスから特定値例えば14フレ一ム分(前方
後方夫々7フレーム)以内であることを経験的に知るこ
とができるので、この特定値を条件に加えることができ
る。過渡部・ぐス選択過程では、その候補に沿った距離
をめ、最小距離を与えるものを過渡部パスとして選択す
る。
In addition, if the recognition target is limited, it is possible to know empirically that the setting range of the candidate/gusu is within a specific value, for example, 14 frames (7 frames each in the front and rear) from the initial candidate. Therefore, this specific value can be added to the condition. In the transition path selection process, the distance along the candidates is determined, and the path that provides the minimum distance is selected as the transition path.

候補パス設定過程と過渡部パス選択過程からなる最適化
過程は、まず初期パス設定過程での過渡部・モスを起点
i9スとして行ない、2回目以後は前回の最適化過程で
選択されたものを起点・ぐスとして行ない、複数回繰返
す。
The optimization process consisting of the candidate path setting process and the transition part path selection process is first performed using the transition part/MOS in the initial path setting process as the starting point, and from the second time onwards, the one selected in the previous optimization process is used. Start as a starting point and repeat multiple times.

繰返し回数はioo個の都市名の実施例では3〜4回が
適当であった。
In the example with ioo city names, the appropriate number of repetitions was 3 to 4 times.

次に実施例について述べる。Next, an example will be described.

(実施例) 第5図はこの発明の一実施例を示すブロック図であって
、入力端子101より入力された入カノクターンは入力
バッファ102に格納され、さらに入力バッファ102
はベクトル間距離計算部103に接続され参照を可能に
している。又、ベクトル間距離計算部103はテーブル
104に接続される。テーブル104は2次元の配列で
あり、後述の項目を保持する。初期設定部105はテー
ブル104に接続されテーブルの初期化を行なう。同様
に最適化部107はテーブル104に接続され、入力・
ぐターンと標準・9ターンの対応を最適化する。
(Embodiment) FIG. 5 is a block diagram showing an embodiment of the present invention, in which an input canocturne inputted from an input terminal 101 is stored in an input buffer 102;
is connected to the inter-vector distance calculation unit 103 to enable reference. Further, the inter-vector distance calculation unit 103 is connected to a table 104. Table 104 is a two-dimensional array and holds items described below. An initial setting unit 105 is connected to the table 104 and initializes the table. Similarly, the optimization unit 107 is connected to the table 104, and
Optimize the correspondence between the long turn and the standard/9 turn.

標準ノ9ターンメモIJ 109はベクトル間距離計算
部103に接続されデータの参照を可能にしている。距
離計算部110はテーブル104に接続され、その出力
はレジスタ111に接続されレジスタ11ノの出力は出
力レジスタ112.比較回路113に接続される。出力
レジスタ112の出力は比較回路113と出力端子11
4とに接続される。制御回路115は全体の制御を行な
う。
A standard 9-turn memo IJ 109 is connected to the inter-vector distance calculation section 103 to enable data reference. The distance calculation unit 110 is connected to the table 104, its output is connected to the register 111, and the output of the register 11 is sent to the output register 112. Connected to comparison circuit 113. The output of the output register 112 is sent to the comparison circuit 113 and the output terminal 11.
4. A control circuit 115 performs overall control.

まず入力端子101から入力される入力・々ターンは入
カバ、ファ102に書き込まれる。次に出力レジスタ1
12に正の最大値をセットする。次ニ標準ノやターンメ
モIJ 109に格納されたに個の標準ieターンとの
距離をめるが、ここではに番目の標準パターンとのマツ
チングを考えることにする。
First, the input turns input from the input terminal 101 are written to the input cover 102. Next, output register 1
Set the maximum positive value to 12. Next, we will calculate the distance from the 2nd standard pattern and the 2nd standard ie turns stored in the turn memo IJ 109, but here we will consider matching with the 2nd standard pattern.

パターンマツチングは標準ツクターンに対し、よく一致
するように入力・ぐターンを変形させることにより行な
う。テーブル104には標準パターンと入力・ぐターン
変形との状態を保持しておく。標準・ぐターンはあらか
じめ標準音声の過渡部を数フレーム単位に過渡ブロック
として保持する。又、標準音声の定常部はそのフレーム
数に応じて1〜4に分割し、各々1フレ一ム分づつのデ
ータを各分割部対応で保持する。
Pattern matching is performed by transforming the input pattern so that it closely matches the standard pattern. The table 104 holds the states of the standard pattern and the input/guitar deformation. Standard Gutern stores the transient part of the standard audio in units of several frames in advance as a transient block. Further, the stationary part of the standard voice is divided into 1 to 4 parts according to the number of frames, and data for one frame is held for each divided part.

テーブル104は2次元の配列でありその要素をT(i
、j)で表わす。ここで1は項目、jは3番目の過渡プ
ロ、りとそれに続く定常ブロックを表わす。
The table 104 is a two-dimensional array whose elements are T(i
, j). Here, 1 represents the item, j represents the third transient program, and the following stationary block.

テーブル104の内容は 1−1過渡プロ、りのフレーム数 i=2過渡ブロックの標準パターンデータへのポインタ 3過渡ブロツクの入力バッファへのポインタ(初期値) 4過渡ブロツクの入力バッファへのポインタ5過渡部・
ぐスの距離 6定常ブロツクのフレーム数 7定常ブロツクの分割数 8定常ブロツクの標準・ぐターンデータへのポインタ 9定常ブロツクの入力バッファへのポインタ(初期値) 10定常ブロツクの入カバ、ファへのポインタ11定常
フロツクへの入力i’?ターンフレーム数(初期値) 12定常ブロツクの入カバターンフレーム数13定常プ
ロ、りの最小フレーム数 14定常プロ、りの最大フレーム数 15定常部パスの距離 である。
The contents of table 104 are: 1-1 Transient program, number of frames i = 2 Pointer to the standard pattern data of the transient block 3 Pointer to the input buffer of the transient block (initial value) 4 Pointer to the input buffer of the transient block 5 Transition part/
6. Number of frames in the steady block 7. Number of divisions in the steady block 8. Pointer to the standard pattern data of the steady block 9. Pointer to the input buffer of the steady block (initial value) 10. Input cover of the steady block, to the buffer Input i'? to the pointer 11 stationary block. Number of turn frames (initial value) 12 Input turn frame number of steady block 13 Steady pro, minimum number of frames 14 Steady pro, maximum number of frames 15 Distance of the steady part path.

次にテーブル104の初期化を初期設定部105によシ
行なう。k番目の標準・ぐターンの全体のフレーム数を
FR,過渡ブロックの数をBLK 、全体の過渡プロ、
りのフ゛レーム数をBFR、全体の定常ブロックのフレ
ーム数をFFR、入カッ9ターンの全体のフレーム数を
INFRとする。次に第1式に従って定常ブロックの数
を計算し、第2式に従って全体の定常ブロックの入カバ
ターンのフレーム数ヲ計算する。
Next, the table 104 is initialized by the initial setting unit 105. The total number of frames of the kth standard turn is FR, the number of transient blocks is BLK, the total number of transient blocks is FR,
The number of frames in each turn is BFR, the total number of frames in the stationary block is FFR, and the total number of frames in the first nine turns is INFR. Next, the number of stationary blocks is calculated according to the first equation, and the number of frames of the input pattern of the entire stationary block is calculated according to the second equation.

BLKMI 4− BLK−1・第1式I NFFR←
INFR−BFR・第2式次に割り当て部106により
定常ブロックについて実質−棟線形で標準・ぐターンと
入力・ぐターンとを対応づけるために、T (11、j
 )、T(12,j)(J二l〜BLKMI )を設定
する。
BLKMI 4- BLK-1・First formula I NFFR←
INFR-BFR・Second Formula Next, the assignment unit 106 uses T (11, j
), T(12,j) (J2l~BLKMI) are set.

まず、j = l −BLKMIまでについてT(11
、J)←(INFFR*8十T(6,j)/FFR+4
)/8 ・第:3式%式% 便宜的に定常プロ、りを設定し、さらにT(12,’j
)←T(tt、J) ・・第4式とする。
First, T(11
, J)←(INFFR*80T(6,j)/FFR+4
)/8 ・No. 3 formula % formula % For convenience, set steady pro, ri, and further T(12,'j
)←T(tt, J)...The fourth equation is used.

ここでもし J=1 でないなら、第5式が成立するように便宜的に、T(1
1,j)、T(12,j) (j=t−BLKMI )
の値の大きい順に1を加算するか、減算して調整する。
Here, if J = 1, then for convenience, T(1
1,j), T(12,j) (j=t-BLKMI)
Adjust by adding or subtracting 1 in descending order of the value.

なお第3式を含め、演算はすべて整数演算であり、第3
式の4なる数値は4捨5人のために導入したものである
Note that all operations, including the third expression, are integer operations;
The number 4 in the formula was introduced for 4 to 5 people.

次に定常/J?スの傾斜が棒と2とに対応した入力・ぐ
ターンのフレーム数をめてこれを最小フレーム数と最大
フレーム数として設定するためにj=l〜BLKM1に
ついて、 T(13,j)←T(6,j)/2 ・・・第6式(も
しT(13,j)−〇ならr(i3.J)←ld力)T
(14,j)←T(6,j)*2 ・・・第7式さらに
入カッやターンの先頭フレームを5TFRとして、音声
始端変動に対処するために、 FF←5TFR−W ・・・第8式 各プロ、りの先頭フレーム位置をめるために、j = 
l −BLKMIについて T(3,j)←FF −・第9式 T(4,j)←FF ・第1O式 FF4−FF+T (1、j ) ・第11式%式% FF4−FF+T (11、j ) ・・第14式を繰
返す。
Next is steady/J? In order to find the number of frames of the input turn whose slope corresponds to bar and 2 and set these as the minimum and maximum frames, for j=l~BLKM1, T(13,j)←T (6,j)/2...6th formula (if T(13,j)-〇 then r(i3.J)←ld force)T
(14,j)←T(6,j)*2 ...Equation 7Furthermore, assuming that the first frame of an input or turn is 5TFR, in order to deal with the fluctuation of the voice start edge, FF←5TFR-W ...th In order to set the first frame position of each type 8, j =
l - Regarding BLKMI T (3, j) ← FF - - 9th formula T (4, j) ← FF - 1st O formula FF4-FF+T (1, j ) - 11th formula % formula % FF4-FF + T (11, j) ...Repeat Equation 14.

なお、Wは単語音声始端終端の不確定性を考慮した値で
あり、ここでは3としだ。
Note that W is a value that takes into account the uncertainty of the beginning and end of a word's speech, and is set to 3 here.

これでテーブル104の初期化が終了した。This completes the initialization of the table 104.

次に最適化部107により入カバターンとに番目の標準
パターンとがよく一致するようにテーブル104の最適
化を行なう。
Next, the optimization unit 107 optimizes the table 104 so that the input cover pattern closely matches the standard pattern.

最適化の回数を4として以下を行なう。The following is performed with the number of optimizations set to 4.

J= 1−BLKについて過渡プロ、りを前後に移動し
、もっとも良く一致する場所に固定する。その手順は、
まず前後でどれ程の範囲内で移動を行なうかを決定する
Move the transient profile back and forth for J=1-BLK and fix it at the best match. The procedure is
First, decide how far back and forth you want to move.

決定の条件は、 0当回の起点パスから前後最大3フレームまでの移動 ・3%1.j%BLKのとき(端の過渡ブロックでない
とき)は初期位置から前後7フレ一ム以内 0j−1又はj = BLKのときは初期位置からWフ
レーム以内 0先行定常パス対応の入カバターン部分の長さがT(1
3,j−1)以上、T(14,J−1)以下であること 0後続定常・ぐス対応の入カバターン部分の長さがT(
t3=)以上、T(14,j)以下であること である。決定された前方への移動の範囲をF、後方への
移動の範囲をBとしてFA=T(4,j)−F〜T(4
,j)+Bについて、過渡部・ぐス対応のパターンの距
離をベクトル間距離割算部103によりめ、最小となっ
た距離をMIND 、そのときのFAをMINFとする
。ベクトル間距離計算部103ではテーブル103のブ
ロック部フレーム数T(1,j)と標準パターンメモリ
109へのポインタT (2,j)を参照している。距
離りは次式により計算される。
The conditions for the decision are: 0 movement up to a maximum of 3 frames before and after the starting point path, 3% 1. j% When BLK (not a transient block at the end), within 7 frames before and after the initial position 0j-1 or when j = BLK, within W frames from the initial position 0 Length of the input cover turn corresponding to the preceding steady path Saga T (1
3,j-1) or more and less than or equal to T(14,J-1)
t3=) or more and T(14,j) or less. FA=T(4,j)−F〜T(4
, j)+B, the distance between the patterns corresponding to the transient part/gust is determined by the inter-vector distance dividing unit 103, the minimum distance is MIND, and the FA at that time is MINF. The inter-vector distance calculation unit 103 refers to the block part frame number T(1,j) in the table 103 and the pointer T(2,j) to the standard pattern memory 109. The distance is calculated by the following formula.

・・・第15式 ここで■は音声人カバッファ102、Sは標準パターン
メモリ109、CHはチャネル数、Cはチャネル番号、
mはフレーム番号である。
...Formula 15, where ■ is the audio driver buffer 102, S is the standard pattern memory 109, CH is the number of channels, and C is the channel number.
m is a frame number.

次に以上の結果によりテーブル104を書き直すO j>1のときには T(12,J−1)←T(12,J−1)−(T(4、
j )−MINF)・・・第16式%式% T(12,j)←T(12,j)+(T(4,j)−M
INF) ・第17式r(40,j)←T(10,J)
−(T(4,J) −MINF) ・第18式さらに T(4,j)←MINF ・第19式 T(5,j)←MIND ・・第20式とする。これに
より最適化が完了した。
Next, rewrite table 104 based on the above results. When O j > 1, T (12, J-1)
j)-MINF)...16th formula% formula% T(12,j)←T(12,j)+(T(4,j)-M
INF) ・Equation 17 r(40,j)←T(10,J)
-(T(4,J)-MINF) - 18th equation further T(4,j)←MINF 19th equation T(5,j)←MIND ..20th equation. This completes the optimization.

次に距離割算部110により全体の距離をめる。まず、
ブロック部l、とBLKの距離を計算しなおす。
Next, the distance dividing section 110 calculates the entire distance. first,
The distance between block portion l and BLK is recalculated.

FN4−T/1.1) −W+(T(4,1) −T(
3,1)) ・・・第22式5P4−T(4,1)+W
 ・第22式5P4−T(2,1) +W−(T(4,
1)−T(3,l)) −・第23式・・・第24式 FNhT(1、BLK)→←(T(4,BLK) −T
(3,BLK)ル第25式IP4−T(4、BLK) 
・・・第26式5P4−T(2,BLK) −・・第2
7式%式% 次にj=1〜BLKMIについて、定常部パス対応の距
離をめT(15,j)に格納する。
FN4-T/1.1) -W+(T(4,1) -T(
3,1)) ...22nd formula 5P4-T(4,1)+W
・22nd formula 5P4-T(2,1) +W-(T(4,
1)-T(3,l))--23rd formula...24th formula FNhT(1,BLK)→←(T(4,BLK)-T
(3, BLK) Le No. 25 IP4-T (4, BLK)
...26th formula 5P4-T (2, BLK) ---2nd
7 Formula % Formula % Next, for j=1 to BLKMI, the distance corresponding to the stationary part path is stored in T(15,j).

DDD←0 ・第22式 5P4−T(10,J) ・第33式 5FP4T(8,j) ・・・第31式%式%) IFP←IFP + FN 第33式 5FP4−8FP+1 ・・第34式 %式% 最後に、 T(15,j)←DDD ・・・第35式%式% DD+−DD+T(5,j)+T(15,j) ・第3
6式を計算し、k番目の標準パターンと2春カバターン
の距離DDを得る。
DDD←0 ・22nd formula 5P4-T(10,J) ・33rd formula 5FP4T(8,j) ...31st formula % formula%) IFP←IFP + FN 33rd formula 5FP4-8FP+1 ・34th Formula % Formula % Finally, T (15, j) ← DDD ... 35th formula % Formula % DD + - DD + T (5, j) + T (15, j) - 3rd
Equation 6 is calculated to obtain the distance DD between the kth standard pattern and the second spring cover turn.

次に距離DDをレジスタ11ノにセットし、出力レジス
タ112との比較を比較回路113との間で行なう。も
しレジスタ1ツノの方が小さかったら、その内容と標準
ノ9ターン番号を出力レジスタ112にセットする。
Next, the distance DD is set in the register 11, and a comparison with the output register 112 is performed with the comparison circuit 113. If the register 1 corner is smaller, its contents and standard 9th turn number are set in the output register 112.

k=1−Kまですべての標準パターンとのパターンマツ
チングを行ない最小となった距離と標準・ぐターン番号
を出力端子114より出力して動作終了する。
Pattern matching is performed with all the standard patterns up to k=1-K, and the minimum distance and standard turn number are output from the output terminal 114, and the operation ends.

前述の第1図はこの実施例におけるフレーム当りの距離
を示しており、一部距離が大きい処もあるが、全体的に
ほとんどOに近く、よくマツチングしていることがわか
る。
The above-mentioned FIG. 1 shows the distance per frame in this example, and although there are some distances where the distance is large, it can be seen that the distance is generally close to O, indicating good matching.

(発明の効果) 以上説明したように、本発明では各標準音声に対応して
過渡部と定常部とを予め設定する必要はあるが、本質的
に線形な部分ノeスをある範囲に亘って設定する方法に
工っているため、比較的少ない計算量で高認識率を得る
ことができる利点がある。
(Effects of the Invention) As explained above, in the present invention, although it is necessary to set the transient part and the steady part in advance for each standard voice, it is possible to set the essentially linear partial noise over a certain range. This method has the advantage of being able to obtain a high recognition rate with a relatively small amount of calculation.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図〜第4図は本発明の詳細な説明するために示した
図であって第1図はマツチング/lスの例を示す図、第
2図は本発明の全体の機能を説明するだめの図、第3図
は初期パス設定過程を説明するだめの図、第4図は最適
化過程を説明するだめの図、第5図は本発明の一実施例
を示すブロック図である。 101−入力端子、102・・・音声人カバ、ファ、1
03・・ベクトル間距離計算部、104 テーブル、1
05 初期設定部、107・−最適化部。 J 09・標準ノミターンメモIJ 、 17 o・・
距離計算部+ 111 レジスタ、112 出力レジス
タ。 113・比較回路、114 出力端子、115・・制御
回路。 特許出願人 沖電気工業株式会社 第2図 第3図 第4図 ””CUNlど一町 77局〒5η 手続補正書(睦) 59.8.23 昭和 年 月 日 特許庁長官 殿 1 事件の表示− 昭和59年 特 許 願第58440号2 発明の名称 fF、4ターンマツチンク方法 3 補正をする者 事件との関係 特許 出 願 人 件 所(〒105) 東京都港区虎ノ門1丁目7番12
号住 所(〒105) 東京都港区虎ノ門1丁目781
2号6補正の内容 図面第2図を別紙のとおり補正する。
Figures 1 to 4 are diagrams shown to explain the present invention in detail, with Figure 1 illustrating an example of the matching/l process, and Figure 2 explaining the overall function of the present invention. FIG. 3 is a diagram explaining the initial path setting process, FIG. 4 is a diagram explaining the optimization process, and FIG. 5 is a block diagram showing an embodiment of the present invention. 101-input terminal, 102... voice person cover, fa, 1
03... Inter-vector distance calculation unit, 104 Table, 1
05 Initial setting section, 107.--Optimization section. J 09 Standard Nomi Turn Memo IJ, 17 o...
Distance calculation unit + 111 register, 112 output register. 113. Comparison circuit, 114 output terminal, 115. Control circuit. Patent Applicant: Oki Electric Industry Co., Ltd. Figure 2 Figure 3 Figure 4 ""CUNl Doichicho 77th Bureau 〒5η Procedural Amendment (Mutsu) 59.8.23 Showa Year Month Date Commissioner of the Japan Patent Office 1 Indication of the case - 1981 Patent Application No. 58440 2 Name of the invention fF, 4-turn matching method 3 Relationship with the case of the person making the amendment Patent application Person Address (105) 1-7-12 Toranomon, Minato-ku, Tokyo
Address (105) 1-781 Toranomon, Minato-ku, Tokyo
Contents of Amendment 2 No. 6 Figure 2 of the drawing is amended as shown in the attached sheet.

Claims (2)

【特許請求の範囲】[Claims] (1)各標準ieターンに対応して過渡ブロックと定常
プロ、りとを設定しておき、初期i4ス設定過程と候補
パス設定過程と過渡部・やス選択過程とを備え、標準パ
ターンの過渡ブロックに対応したパスを過渡部・やスと
し且つ標準パターンの定常ブロックに対応したパスを定
常部パスとして、最終の前記過渡部パス選択過程で選択
された過渡部・ぐスとそれらの残部として対応づけた定
常部パスとをマツチングパスとし、そのマツチングパス
に沿って入力i9ターンと標準・ぐターンとの距離をめ
ることを特徴とした音声・ぐターンマツチング方法にお
いて、 a)過渡部パスとして実質1対1の線形・ぐスを設定し
、且つ定常部・ぐスとして実質一様線形な・ぐスを設定
する前記初期・ぐス設定過程を備え、b)第1回目は前
記初期パス設定過程で設定された過渡部パスを起点とし
且つ第2回目以後は前記過渡部ノソス選択過程で選択さ
れた過渡部パスを含むものを起点として、標準・ぐター
ンの各過渡ブロックに対応してその前後の定常ブロック
の傾斜と第1特定値とを含む条件に従って範囲を決定し
、標準・ξターンの各過渡ブロックに対して入力・やタ
ーンの時間フレーム前記範囲内で移動させた関係で、実
質1対1の過渡部・ぞスを標準パターンの各過渡プロ、
りに対応してlもしくは複数設定する前記候補・ぐス設
定過程を複数回備え、 C)前記候補パス設定過程で設定された過渡部パスに沿
ってパターンの距離をめ、標準・Pターンの各過渡ブロ
ックに対応して最小値を与える過渡部パスを選択する前
記過渡部パス選択過程を前記各候補パス設定過程に対応
して備えていることを特徴とした音声パターンマツチフ
グ方法。
(1) A transient block and a steady state pattern are set corresponding to each standard IE turn, and an initial i4 path setting process, a candidate path setting process, and a transition part/ya path selection process are provided. The path corresponding to the transient block is defined as the transient part/path, and the path corresponding to the stationary block of the standard pattern is defined as the stationary part path, and the transient part/gas selected in the final transition path selection process and their remaining parts In the audio/guitar matching method, which is characterized in that the constant part path associated with the input i9 turn is set as a matching path, and the distance between the input i9 turn and the standard turn is adjusted along the matching path, a) the transient part path b) the first time is the step of setting a substantially one-to-one linear shape and a substantially uniform linear shape as a stationary part; The transition block set in the path setting process is used as the starting point, and from the second time onward, the transition block path selected in the transient area selection process is used as the starting point, corresponding to each standard/gutern transient block. The range is determined according to the conditions including the slope of the steady block before and after it and the first specific value, and the time frame of the input and turn is moved within the above range for each transient block of the standard and ξ turns. , each transition pro of the standard pattern has a virtually one-to-one transition part/zoos,
C) The distance of the pattern is determined along the transition path set in the candidate path setting process, and the distance of the pattern is determined along the transition path set in the candidate path setting process. A voice pattern matching method, comprising the step of selecting a transition path that gives a minimum value for each transient block, corresponding to each candidate path setting step.
(2)第2回目以後の起点は第1回目の起点を含み、第
2回目以後の条件は第2特定値を含むことを特徴とする
特許請求の範囲第(1)項記載の音声パターンマツチン
グ方法。
(2) The voice pattern pattern set forth in claim (1), wherein the starting point for the second and subsequent times includes the starting point for the first time, and the conditions for the second and subsequent times include the second specific value. Ching method.
JP59058440A 1984-03-28 1984-03-28 Voice pattern matching Granted JPS60203995A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59058440A JPS60203995A (en) 1984-03-28 1984-03-28 Voice pattern matching

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59058440A JPS60203995A (en) 1984-03-28 1984-03-28 Voice pattern matching

Publications (2)

Publication Number Publication Date
JPS60203995A true JPS60203995A (en) 1985-10-15
JPH0424719B2 JPH0424719B2 (en) 1992-04-27

Family

ID=13084453

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59058440A Granted JPS60203995A (en) 1984-03-28 1984-03-28 Voice pattern matching

Country Status (1)

Country Link
JP (1) JPS60203995A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61252593A (en) * 1985-05-02 1986-11-10 沖電気工業株式会社 Voice recognition equipment

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5752096A (en) * 1980-09-16 1982-03-27 Oki Electric Ind Co Ltd Voide recognizing system
JPS5752097A (en) * 1980-09-16 1982-03-27 Oki Electric Ind Co Ltd Voice recognizing method
JPS5756897A (en) * 1980-09-22 1982-04-05 Hitachi Ltd Voice recognition system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5752096A (en) * 1980-09-16 1982-03-27 Oki Electric Ind Co Ltd Voide recognizing system
JPS5752097A (en) * 1980-09-16 1982-03-27 Oki Electric Ind Co Ltd Voice recognizing method
JPS5756897A (en) * 1980-09-22 1982-04-05 Hitachi Ltd Voice recognition system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61252593A (en) * 1985-05-02 1986-11-10 沖電気工業株式会社 Voice recognition equipment
JPH0567037B2 (en) * 1985-05-02 1993-09-24 Oki Electric Ind Co Ltd

Also Published As

Publication number Publication date
JPH0424719B2 (en) 1992-04-27

Similar Documents

Publication Publication Date Title
US20110238412A1 (en) Method for Constructing Pronunciation Dictionaries
JP4887264B2 (en) Voice data retrieval system
JP6003971B2 (en) Voice search device, voice search method and program
JP2013065188A (en) Automaton determining method, automaton determining device and automaton determining program
JPS6326400B2 (en)
CN109522550A (en) Text information error correction method, device, computer equipment and storage medium
JPWO2007069762A1 (en) Similar sentence search method, similar sentence search system, and similar sentence search program
US20150012261A1 (en) Method for phonetizing a data list and voice-controlled user interface
JP2841404B2 (en) Continuous speech recognition device
JPS58132298A (en) Pattern matching apparatus with window restriction
CN111105787A (en) Text matching method and device and computer readable storage medium
JPS60203995A (en) Voice pattern matching
KR100542757B1 (en) Automatic expansion Method and Device for Foreign language transliteration
Silva et al. A rule-based grapheme-phone converter and stress determination for Brazilian Portuguese natural language processing
JPS61145599A (en) Continuous voice recognition equipment
JP2964881B2 (en) Voice recognition device
JP2014206677A (en) Voice recognition device and voice recognition result establishment method
CN106227363A (en) Accurate encoding of chinese characters on the basis of phonetic and keyboard and input method
JP4775119B2 (en) Corpus design equipment
CN109740142A (en) A kind of character string error correction method and device
Park Efficient codebook search method of EVRC speech codec
JP2702919B2 (en) Sentence-speech converter
JPS60201395A (en) Voice recognition
JPS63188199A (en) Pattern matching system
WO2000043990A1 (en) Speech recognition device including a sub-word memory