JPS6154240B2 - - Google Patents

Info

Publication number
JPS6154240B2
JPS6154240B2 JP55173079A JP17307980A JPS6154240B2 JP S6154240 B2 JPS6154240 B2 JP S6154240B2 JP 55173079 A JP55173079 A JP 55173079A JP 17307980 A JP17307980 A JP 17307980A JP S6154240 B2 JPS6154240 B2 JP S6154240B2
Authority
JP
Japan
Prior art keywords
pattern
standard pattern
patterns
speech
frequency spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP55173079A
Other languages
Japanese (ja)
Other versions
JPS5797594A (en
Inventor
Junichi Ichikawa
Hidekazu Shiratori
Osamu Terao
Yasuo Sato
Takayuki Ooyama
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP55173079A priority Critical patent/JPS5797594A/en
Publication of JPS5797594A publication Critical patent/JPS5797594A/en
Publication of JPS6154240B2 publication Critical patent/JPS6154240B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 本発明は音声の標準パターン形成方法に係り、
特に、2つの音声パターンの照合に動的計画法を
用いて平均化された標準パターンを形成する方法
に関する。
DETAILED DESCRIPTION OF THE INVENTION The present invention relates to a method for forming a standard pattern of speech,
In particular, the present invention relates to a method of forming an averaged standard pattern using dynamic programming to match two speech patterns.

一般にパターンの照合によつて音声を認識する
ためには、単語単位に音声の標準パターンを単語
辞書としてメモリに登録しておき、入力音声パタ
ーンと標準パターンとが照合される。この場合、
単語辞書としての標準パターンはできる限り、そ
の単語の発音に関して平均化されている事が望ま
しい。ところが1つの単語を発音する場合、単語
音声の継続時間長及び単語音声中の音韻の長さ
は、発音する人や発音する時の状況等によつて一
般に変動する。この様に同一の単語について、継
続時間長及び音韻の長さの異なる2つの音声パタ
ーンを平均化して標準パターンを得る方法とし
て、動的計画法を用いて上記2つの音声パターン
を照合し、その結果を用いて平均化した標準パタ
ーンを形成する手法が知られている。
Generally, in order to recognize speech by pattern matching, a standard pattern of speech is registered in a memory as a word dictionary for each word, and the input speech pattern and the standard pattern are matched. in this case,
It is desirable that the standard pattern used as a word dictionary is as averaged in terms of the pronunciation of the word as possible. However, when pronouncing one word, the duration of the word sound and the length of the phoneme in the word sound generally vary depending on the person pronouncing the word, the situation at the time of pronunciation, etc. In this way, one way to obtain a standard pattern by averaging two speech patterns with different durations and phoneme lengths for the same word is to use dynamic programming to match the two speech patterns. A method of forming an averaged standard pattern using the results is known.

従来の、動的計画法を用いた標準パターンの形
成方法は後に詳述するが、概略的には、2つの音
声パターンA,Bのそれぞれの継続時間長を等し
い時間単位に時刻t1,t2,…,tI及び時刻t1
t2,…,tJで分割してそれぞれを平面上の縦軸
及び横軸の目盛とし、各時刻における音声パター
ンの周波数スペクトルa1,a2,…,aI及びb1
b2,…,bJを求めて2つの音声パターンA,B
の類似度が最大となるような最適径路を上記平面
上に得、縦軸又は横軸の各時刻に存在する最適径
路に対応する周波数スペクトルを適当な平均化手
段によつて平均化して標準パターンを得るもので
ある。
A conventional method of forming a standard pattern using dynamic programming will be described in detail later, but generally speaking, the duration length of each of the two audio patterns A and B is divided into equal time units at times t 1 and t. 2 ,..., t I and time t 1 ,
Divide by t 2 , ..., t J and use each as a scale on the vertical axis and horizontal axis on the plane, and the frequency spectrum of the voice pattern at each time a 1 , a 2 , ..., a I and b 1 ,
b 2 ,...,b Find two speech patterns A and B to find J
Obtain the optimal path on the plane that maximizes the similarity of This is what you get.

しかしながら、上記従来方法によれば、最適径
路を得た平面の縦軸及び横軸の一方からのみ周波
数スペクトルを平均化しているので、得られる標
準パターンは音声パターンA及びBの一方のみに
極度に依存し、かつ標準パターンの継続時間長は
音声パターンA及びBの一方の継続時間長に等し
い。このため、得られた標準パターンは2つの音
声パターンA,Bを充分に平均化したものとはい
えない。
However, according to the above conventional method, the frequency spectrum is averaged only from one of the vertical and horizontal axes of the plane from which the optimal path was obtained, so the standard pattern obtained is extremely limited to only one of the audio patterns A and B. and the duration of the standard pattern is equal to the duration of one of the audio patterns A and B. Therefore, the obtained standard pattern cannot be said to be a sufficiently averaged version of the two audio patterns A and B.

本発明の目的は、上記の従来方法における問題
に鑑み、動的計画法を実行する際に得た最適径路
を、横軸又は縦軸に対して一定の角度をなす所定
間隔の平行直線群で部分径路に分割し、その部分
径路の各々に対応する周波数スペクトルを平均化
するという構想に基づき、2つの音声パターン
A,Bの音韻の長さのみならず継続時間長をも平
均化した標準パターンを得る事にある。
In view of the above-mentioned problems with the conventional method, it is an object of the present invention to convert the optimal path obtained when performing dynamic programming into a group of parallel straight lines at predetermined intervals that form a constant angle with respect to the horizontal or vertical axis. Based on the concept of dividing into partial paths and averaging the frequency spectra corresponding to each of the partial paths, this standard pattern averages not only the phoneme length but also the duration length of the two speech patterns A and B. The goal is to obtain

本発明によつて提供される方法の要旨は、2つ
の音声パターンA及びBのそれぞれの継続時間長
を等時間単位の区分に分割し、その区分のすべて
における該音声パターンの周波数スペクトルa1
a2,…,aI及びb1,b2,…,bJを求め、音声パ
ターンをそれぞれベクトル時系列A=(a1,a2
…,aI)及びB=(b1,b2,…,bJ)で表わ
し、これらのベクトル時系列の各周波数スペクト
ルの間に動的計画法により最適な対応関係(an(
:bo())ただし、r=1,2,…,M,m
(1)=n(1)=1,m(M)=I,n(M)=J)を定
め、これらの最適な対応関係によつてm−n平面
上に最適径路を作成して平均化された標準パター
ンCのベクトル時系列を形成する方法であつて、
m−n平面上の最適径路を所定数の平行直線群
pm+qn=ri(ただし、i=1,2,…,N)に
よつてN−1個の部分径路に分割し、これらの部
分径路の各々に存在する最適な対応関係(aki1
li1),…,(aki2:bli2)から部分ベクトル時系
列Ai=(aki1,…,aki2)及びBi=(bli1,…,
li2)を求め、これらの部分ベクトル時系列を所
定の平均化手法によつて平均化して標準パターン
Cの周波数スペクトルciを求め、それにより標
準パターンCのベクトル時系列C=(c1,c2
…,cN-1)を形成する事を特徴とする音声の標
準パターン形成方法である。
The gist of the method provided by the present invention is to divide the duration of each of two speech patterns A and B into equal time unit segments, and to divide the frequency spectrum of the speech pattern in all of the segments a 1 ,
a 2 , ..., a I and b 1 , b 2 , ..., b J are obtained, and the speech patterns are expressed as vector time series A = (a 1 , a 2 ,
..., a I ) and B=(b 1 , b 2 , ..., b J ), and the optimal correspondence relationship (a n(
) :b o() ) However, r=1, 2,..., M, m
(1)=n(1)=1, m(M)=I, n(M)=J), create an optimal path on the m-n plane based on these optimal correspondence relationships, and calculate the average A method for forming a vector time series of a standardized standard pattern C, the method comprising:
The optimal path on the m-n plane is defined by a group of parallel straight lines of a predetermined number.
Divide into N-1 partial paths by pm+qn= ri (where i=1, 2,...,N), and calculate the optimal correspondence relationship (a ki1 :
b li1 ), ..., (a ki2 : b li2 ), the partial vector time series A i = (a ki1 , ..., a ki2 ) and B i = (b li1 , ...,
b li2 ), average these partial vector time series using a predetermined averaging method to obtain the frequency spectrum c i of the standard pattern C, and thereby the vector time series C = (c 1 , c2 ,
..., c N-1 ).

以下、添付の図面に基づいて本発明の実施例に
よる音声の標準パターン形成方法を説明する。
Hereinafter, a method for forming a standard audio pattern according to an embodiment of the present invention will be described with reference to the accompanying drawings.

第1図は本発明の1実施例による音声の標準パ
ターン形成方法を説明するためのグラフ図であ
る。第1図において、2つの音声パターンA及び
Bを平均化して標準パターンCを作成するものと
する。音声パターンAの継続時間長はTAであ
り、音声パターンBの継続時間長はTBである。
時間TA及びTBはそれぞれ等時間単位に時刻t1
t2,…,tI及び時刻t1,t2,…,tJで分割され
ている。音声パターンAの時刻t1,t2,…,tI
おける周波数スペクトルはベクトル量でそれぞれ
a1,a2,…,aIで表わされており、音声パター
ンBの時刻t1,t2,…,tJにおける周波数スペク
トルはそれぞれb1,b2,…,bJで表わされてい
る。音声パターンA及びBの周波数スペクトルの
間の類似関係をできるだけ少ない計算で求める方
法として、動的計画法が知られている。この動的
計画法によつて、音声パターンA及びBの時間軸
をそれぞれ縦軸及び横軸としたm−n平面を作成
し、そのm−n平面上で両パターンの類似度が最
大となるような最適径路を見い出す。更に詳しく
は、最終的に得られる標準パターンCの時間軸の
始点及び終点はそれぞれ音声パターンAの時間軸
の始点t1及び終点tIに対応すると共に、音声パ
ターンBの時間軸の始点t1及び終点tJに対応す
ることに鑑み、最適径路の始点及び終点はm−n
平面上の座標原点(t1,t1)及びtI,tJ)にそれ
ぞれ対応させる。動的計画法によつて最適径路を
求める場合の原則は、次の2つに要約される。す
なわち、原点(t1,t2)からある座標(tp,t
q)までの最適径路を求める場合、(tp,tq)よ
り時間的に前の点に至る最適径路は求まつている
と仮定し、その座標(tp,tq)に至る最適径
路は直前のいくつかの点からの可能な径路のうち
最適な径路を通ると仮定する事である。例えば第
1図において、座標(tp,tq)までの最適径路
を求めるとすると(tp,tq)へ至る径路として
は、(tp,tq-1),(tp-1,tq-1)又は(tp-
,tq)から至る三つの径路が可能である。仮
定により(tp,tq-1),(tp-1,tq-1)および
(tp-1,tq)までの最適径路は求まつているの
であるから、最適径路が上記3つの径路の1つを
たどつたとした場合の音声パターンA及びBの類
似度を、3つの径路についてそれぞれ求めて比較
し、最大類似度となる径路を最適径路は通る。図
においては、最適径路上の座標(tp,tq)の直
前の座標は(tp,tq-1)となつている。最適径
路の始点及び終点を所定の漸化式に代入する事に
より最適径路lは上記動的計画法に基づいて求ま
る。なお、類似度としては、例えば音声パターン
A及びBの周波数スペクトルa1,a2,…,aI
各々とb1,b2,…,bJの各々との差の絶対値の
逆数が用いられ、これらが最適径路に沿つて加算
されて得られる。従つて最終的に最適径路lが求
まつた場合、類似度Dは次のように表わされる。
FIG. 1 is a graph diagram for explaining a method for forming a standard voice pattern according to an embodiment of the present invention. In FIG. 1, it is assumed that two voice patterns A and B are averaged to create a standard pattern C. The duration length of voice pattern A is T A , and the duration length of voice pattern B is T B .
The times T A and T B are equal time units of time t 1 ,
It is divided at t 2 ,..., t I and at time t 1 , t 2 ,..., t J. The frequency spectrum at times t 1 , t 2 , ..., t I of speech pattern A is a vector quantity, and each
The frequency spectrum at time t 1 , t 2 , ..., t J of speech pattern B is represented by b 1 , b 2 , ..., b J, respectively. has been done. Dynamic programming is known as a method for determining the similarity relationship between the frequency spectra of speech patterns A and B with as few calculations as possible. Through this dynamic programming method, an m-n plane is created with the time axes of speech patterns A and B as the vertical and horizontal axes, respectively, and the similarity between both patterns is maximized on the m-n plane. Find the optimal route. More specifically, the start point and end point of the time axis of the finally obtained standard pattern C correspond to the start point t 1 and end point t I of the time axis of audio pattern A, respectively, and the start point t 1 of the time axis of audio pattern B. and the end point t J , the start and end points of the optimal route are m−n
The coordinates are made to correspond to the coordinate origins (t 1 , t 1 ) and t I , t J ) on the plane, respectively. The principles for finding the optimal route using dynamic programming can be summarized into the following two. In other words, from the origin (t 1 , t 2 ) to a certain coordinate (t p , t
q ), it is assumed that the optimal route to a point temporally earlier than (t p , t q ) has been found, and the optimal route to the coordinates (t p , t q ) is found. is to assume that we take the optimal route among the possible routes from the previous several points. For example, in Fig. 1, if the optimal route to the coordinates (t p , t q ) is to be found, the routes to (t p , t q ) are (t p , t q-1 ), (t p-1 , t q-1 ) or (t p-
1 , t q ) are possible. Since the optimal path to (t p , t q-1 ), (t p-1 , t q-1 ) and (t p-1 , t q ) has been found by the assumption, the optimal path is the above The degree of similarity between voice patterns A and B when one of the three paths is followed is determined and compared for each of the three paths, and the optimal path passes through the path having the maximum degree of similarity. In the figure, the coordinates immediately before the coordinates (t p , t q ) on the optimal path are (t p , t q-1 ). By substituting the starting point and end point of the optimal route into a predetermined recurrence formula, the optimal route l is determined based on the above dynamic programming method. Note that the degree of similarity is, for example, the reciprocal of the absolute value of the difference between each of the frequency spectra a 1 , a 2 , ..., a I of voice patterns A and B and each of b 1 , b 2 , ..., b J. and these are summed along the optimal path. Therefore, when the optimal route l is finally determined, the degree of similarity D is expressed as follows.

ここに、an(1)=a1,bo(1)=bI,an(M)=a
I,ao(M)=bJである。
Here, a n (1)=a 1 , b o (1)=b I , a n(M) = a
I , ao(M) = bJ .

従来は、こうして得られた最適径路lに基づい
て直接的に平均化された標準パターンを得てい
た。すなわち、m−n平面の縦軸又は横軸に関し
てのみ各時間において最適径路に対応している両
音声パターンの周波数スペクトルを平均化してい
た。例えば縦軸に関して平均を取る場合は、縦軸
の時間TA内を等間隔に分割する時刻t1,t2,…,
Iの各々において最適径路lに対応する周波数
スペクトルの平均を求める。すなわち、時刻t1
おいては周波数スペクトルan(1)=a1とbo(1)=b1
が対応しているのでa1とb1の平均を標準パターン
の時間t1における周波数スペクトルc1′とし、時刻
t2においては周波数スペクトルan(2)=an(3)=a
n(4)=a2,bo(2)=b2,bo(3)=b3,bo(4)=b4が対
応しているので、c2′=(3a2+b2+b3+b4)/6を
標準パターンの時刻t2における周波数スペクトル
とする。以下同様にして時刻tIまでの各時間に
おける標準パターンの周波数スペクトルを求めれ
ば、標準パターンCが C′=(c1′,c2′,…,c1′) として求まる。横軸に関して平均を取る場合にも
同様の手法で標準パターンC″は C″=(c1″,c2″,…,cJ″) として求まる。
Conventionally, an averaged standard pattern was directly obtained based on the optimal path l obtained in this way. That is, the frequency spectra of both speech patterns corresponding to the optimal path at each time are averaged only on the vertical axis or the horizontal axis of the mn plane. For example, when taking an average on the vertical axis, time t 1 , t 2 , ..., which divides time T A on the vertical axis at equal intervals, is used.
The average of the frequency spectra corresponding to the optimal path l is determined for each of t I . That is, at time t 1 , the frequency spectrum a n (1) = a 1 and b o (1) = b 1
correspond, so the average of a 1 and b 1 is taken as the frequency spectrum c 1 ′ at time t 1 of the standard pattern, and the time
At t 2 , the frequency spectrum a n (2)=a n (3)=a
Since n (4) = a 2 , b o (2) = b 2 , b o (3) = b 3 , b o (4) = b 4 correspond, c 2 ′ = (3a 2 + b 2 +b 3 +b 4 )/6 is the frequency spectrum of the standard pattern at time t 2 . Thereafter, if the frequency spectrum of the standard pattern at each time up to time t I is obtained in the same manner, the standard pattern C is obtained as C'=(c 1 ', c 2 ', . . . , c 1 '). When taking the average on the horizontal axis, the standard pattern C'' is found as C''=(c 1 '', c 2 '', ..., c J '') using the same method.

しかしながら、上述の従来方法によつて求めた
標準パターンは前述の如く、音声パターンA又は
Bのいずれか一方にのみ極度に依存し、かつ継続
時間長も音声パターンA又はBの継続時間長TA
又はTBのいずれか一方に等しくなるので、2つ
の音声パターンを充分に平均化したものとはいえ
ない。
However, as described above, the standard pattern obtained by the conventional method described above is extremely dependent on either voice pattern A or B, and the duration length is also the duration time T A of voice pattern A or B.
or T B , it cannot be said that the two voice patterns are sufficiently averaged.

本発明の実施例によれば、m−n平面上につく
られた最適径路lを横軸又は縦軸に平行でなにN
本の平行直線群sによつて(N−1)個の部分径
路l1,l2,…,lN-1に分割し、各部分径路に対応
する音声パターンA及びBの部分パターンAi
(aki1,…,aki2)及びBi=(bli1,…,bli2

求める。例えば部分径路l1に対応する音声パター
ンAの周波数スペクトルはan(1)=a1とan(2)=a2
であるから、A1=(a1,a2)であり、同様に部分径
路l1に対応する音声パターンBの周波数スペクト
ルはbo(1)=b1とbo(2)=b2であるからB1=(b1
b2)である。部分径路l2に対しては同様にしてA2
=(a2,a2),B2=(b3,b4)である。こうして得ら
れた部分パターンを適当な平均化手段によつて平
均化することにより標準パターンCの周波数成分
iが得られる。平均化手段の1実施例によれ
ば、上記平行直線群をpm+qn=ri,ただしi=
1,2,…,Nと表わすと、標準パターンCの周
波数スペクトルciと表わされる。図に示した場合について、c1,c2
を求めると、 c1=p(a+a)+q(b+b)/2(p
+q) c2=2pa+q(b+b)/2(p+q) となる。以下、c4ないしcN-1も同様にして得ら
れる。平行直線の個数Nを増減することによりサ
ンプリングの点数を任意に変えることができる。
斜行直線群を用いた事により、標準パターンCの
継続時間長は音声パターンA,Bの継続時間長T
A,TBの加重平均値に等しくする事ができ、か
つ、音韻の長さについても両パターンから等しく
影響を受けるようにする事ができる。
According to the embodiment of the present invention, the optimal path l created on the m-n plane is parallel to the horizontal axis or the vertical axis and is
Divided into (N-1) partial paths l 1 , l 2 , ..., l N-1 by a group of parallel straight lines s, and partial patterns A i of audio patterns A and B corresponding to each partial path. =
(a ki1 ,..., a ki2 ) and B i =(b li1 ,..., b li2 )
seek. For example, the frequency spectrum of speech pattern A corresponding to partial path l 1 is a n (1) = a 1 and a n (2) = a 2
Therefore, A 1 = (a 1 , a 2 ), and similarly, the frequency spectrum of speech pattern B corresponding to partial path l 1 is b o (1) = b 1 and b o (2) = b 2 Therefore, B 1 = (b 1 ,
b2 ). Similarly, for partial path l 2 , A 2
= (a 2 , a 2 ), B 2 = (b 3 , b 4 ). The frequency components c i of the standard pattern C are obtained by averaging the partial patterns obtained in this way using a suitable averaging means. According to one embodiment of the averaging means, the group of parallel straight lines is defined as pm+qn= ri , where i=
When expressed as 1, 2, ..., N, the frequency spectrum c i of standard pattern C is It is expressed as For the case shown in the figure, c 1 , c 2
When calculating, c 1 = p (a 1 + a 2 ) + q (b 1 + b 2 )/2 (p
+q) c 2 =2pa 2 +q(b 3 +b 4 )/2(p+q). Hereinafter, c 4 to c N-1 can be obtained in the same manner. By increasing or decreasing the number N of parallel straight lines, the number of sampling points can be changed arbitrarily.
By using the diagonal straight line group, the duration length of standard pattern C is equal to the duration time T of voice patterns A and B.
It can be made equal to the weighted average value of A and T B , and the length of the phoneme can be equally influenced by both patterns.

第2図は第1図のグラフ図によつて説明した本
発明による音声の標準パターン形成方法を実施す
るための標準パターン形成装置の1実施例を示す
ブロツク図である。第2図において、101は音
声パターンA及びBのパターンの照合によつて求
められた最適径路のm−n平面上の座標〔m
(τ),n(τ)〕〓=1,2,,Mを格納する第1
のメモリであり、102はメモリ101から送ら
れて来るm及びnと、定数p及びqを格納する第
2のメモリ201から送られて来る定数p及びq
とを使つてpm+qnを計算する第1の演算回路で
あり、103は第2の演算回路から送られて来る
値ri+1と第1の演算回路からの値pm+qnとを
比較する比較回路であり、104は比較回路10
3における比較の結果、pm+qnの方がri+1よ
り大きい時に計数が1だけ増加するカウンタであ
り、105はカウンタの計数値iを保持するレジ
スタであり、第2の演算回路106はレジスタ1
05の値に基づいて平行直線群の値riを計算す
る。第3のメモリ202には2つの音声パターン
A及びBの周波数スペクトル(a1,a2,…,a
I)及びb1,b2,…,bJ)が格納されている。1
07はメモリ202に格納されている周波数スペ
クトルan(),bo()から標準パターンCの周
波数スペクトルciを計算する第3の演算回路で
ある。ただし、計数値iはレジスタ105から第
3の演算回路107に与えられる。制御装置10
8はレジスタ105の初期設定と第1のメモリ1
01から座標〔m(τ),n(τ)〕を順番に読み
出す為の指令を行う。標準パターンCの周波数ス
ペクトルは第4のメモリ203に格納される。
FIG. 2 is a block diagram showing one embodiment of a standard pattern forming apparatus for carrying out the method for forming a standard sound pattern according to the present invention explained using the graph diagram of FIG. In FIG. 2, 101 is the coordinate on the m-n plane of the optimal route found by matching the speech patterns A and B.
(τ), n(τ)〓 =1,2,, the first one that stores M
102 is a memory that stores m and n sent from the memory 101 and constants p and q sent from the second memory 201 that stores constants p and q.
103 is a comparison circuit that compares the value ri+1 sent from the second arithmetic circuit with the value pm+qn from the first arithmetic circuit; 104 is comparison circuit 10
As a result of the comparison in 3, it is a counter whose count increases by 1 when pm+qn is greater than ri+1, 105 is a register that holds the count value i of the counter, and the second arithmetic circuit 106 is a counter that increases by 1 when pm+qn is larger than ri+1.
The value r i of the group of parallel straight lines is calculated based on the value of 05. The third memory 202 stores frequency spectra of two audio patterns A and B (a 1 , a 2 , ..., a
I ) and b 1 , b 2 ,..., b J ) are stored. 1
07 is a third arithmetic circuit that calculates the frequency spectrum c i of the standard pattern C from the frequency spectra a n ( ) and b o ( ) stored in the memory 202 . However, the count value i is given to the third arithmetic circuit 107 from the register 105. Control device 10
8 is the initial setting of the register 105 and the first memory 1
A command is issued to sequentially read the coordinates [m(τ), n(τ)] from 01. The frequency spectrum of standard pattern C is stored in fourth memory 203.

第3図は第2図の装置の動作を説明するための
流れ図である。第2図及び第3図を参照して、制
御装置108によつて第1段階で、r,i及び部
分パターン内の座標の組合せ中で、平均値を求め
たものの個数を示すxをすべて零に初期設定し、
第2段階でrを1だけ増加させる。第3段階で第
1の演算回路によつてk=pm(τ)+qn(τ)
を計算し、第4段階で比較回路103においてk
とriの値を比較する。kがri+1より大きい場合
は第5段階でレジスタ105に保持されている数
値iを1だけ増加させ、第6段階で数値xを零に
して第7段階で第3の演算装置107において前
サイクルまでに求まつたciと今サイクルにおけ
るciとの平均を計算する。第4段階でkがri+1
と等しいかより小の場合は座標m(τ),n
(τ)が同一の部分径路内にあるので、第5、第
6段階の処理を行わずに直接第7段階で平均を計
算する。制御装置108によつて、第8段階でx
の値を1だけ増加させ、第9段階でτとMを比較
する。τがMより小の場合は再び第2段階に戻
り、同様の処理を繰返す。τがMより大又は等し
いときは処理は終了する。
FIG. 3 is a flowchart for explaining the operation of the apparatus shown in FIG. Referring to FIGS. 2 and 3, in the first step, the control device 108 sets all x indicating the number of average values among the combinations of r, i and coordinates in the partial pattern to zero. Initialize to
In the second step, r is increased by 1. In the third stage, the first arithmetic circuit calculates k=pm(τ)+qn(τ)
In the fourth step, the comparison circuit 103 calculates k
and the value of r i . If k is greater than ri+1, in the fifth step the numerical value i held in the register 105 is increased by 1, in the sixth step the numerical value x is zeroed, and in the seventh step the third arithmetic unit 107 processes up to the previous cycle. The average of c i found in and c i in the current cycle is calculated. In the fourth stage, k is ri+1
If it is equal to or less than, the coordinates m(τ), n
(τ) is within the same partial path, the average is directly calculated in the seventh stage without performing the processing in the fifth and sixth stages. By the control device 108, x
The value of is increased by 1, and τ and M are compared in the ninth step. If τ is smaller than M, the process returns to the second step and repeats the same process. When τ is greater than or equal to M, the process ends.

以上の説明から明らかなように、本発明によつ
て動的計画法を実行して得られた最適径路を、横
軸又は縦軸に対して一定の角度をなす平行直線群
で部分径路に分割し、その部分径路の各々に対応
する周波数スペクトルを平均化する事により、2
つの音声パターンの音韻の長さ及び継続時間長が
平均化されるので、充分に平均化された標準パタ
ーンが得られる。
As is clear from the above explanation, the optimal route obtained by executing dynamic programming according to the present invention is divided into partial routes by a group of parallel straight lines that make a certain angle with respect to the horizontal or vertical axis. By averaging the frequency spectra corresponding to each of the partial paths, 2
Since the phoneme length and duration length of the two speech patterns are averaged, a sufficiently averaged standard pattern is obtained.

なお、平均化手段は前述の実施例における数式
に代えて他の平均化のための数式を用いてもよ
い。
Note that the averaging means may use other averaging formulas instead of the formulas in the above-described embodiments.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明の1実施例による音声の標準パ
ターン形成方法を説明するためのグラフ図、第2
図は第1図のグラフ図によつて説明した方法を実
施するための標準パターン形成装置の1実施例を
示すブロツク図、第3図は第2図の装置の動作を
説明するための流れ図である。 A及びB……音声パターン、a1,a2,…,aI
……音声パターンAの周波数スペクトル、b1
b2,…,bJ……音声パターンBの周波数スペク
トル、C……標準パターン、c1,c2,…,cN-1
……標準パターンCの周波数スペクトル、l……
最適径路、l1,l2,…,lN-1……部分径路、s…
…平行直線群、101……最適径路の座標格納用
のメモリ、102……pm+qn計算用の演算回
路、103……比較回路、104……カウンタ、
105……レジスタ、106……ri計算用の演
算回路、107……ci計算用の演算回路、10
8……制御装置、201……p及びqを格納する
メモリ、202……音声パターンA及びBのベク
トル時系列を格納するメモリ、203……標準パ
ターンCのベクトル時系列を格納するメモリ。
FIG. 1 is a graph diagram for explaining a method for forming a standard voice pattern according to one embodiment of the present invention, and FIG.
The figure is a block diagram showing one embodiment of a standard pattern forming apparatus for carrying out the method explained using the graph diagram of FIG. 1, and FIG. 3 is a flow chart for explaining the operation of the apparatus of FIG. be. A and B...Voice pattern, a 1 , a 2 ,..., a I
...Frequency spectrum of speech pattern A, b 1 ,
b 2 ,..., b J ... Frequency spectrum of voice pattern B, C... Standard pattern, c 1 , c 2 , ..., c N-1
...Frequency spectrum of standard pattern C, l...
Optimal route, l 1 , l 2 ,..., l N-1 ... Partial route, s...
...Parallel straight line group, 101...Memory for storing coordinates of optimal route, 102...Arithmetic circuit for calculating pm+qn, 103...Comparison circuit, 104...Counter,
105...Register, 106...Arithmetic circuit for r i calculation, 107...Arithmetic circuit for c i calculation, 10
8...control device, 201...memory for storing p and q, 202...memory for storing vector time series of audio patterns A and B, 203...memory for storing vector time series of standard pattern C.

Claims (1)

【特許請求の範囲】 1 2つの音声パターンA及びBのそれぞれの継
続時間長を等時間単位の区分に分割し、該区分の
すべてにおける該音声パターンの周波数スペクト
ルa1,a2,…aI及びb1,b2,…,bJを求め、該
音声パターンをそれぞれベクトル時系列A=
(a1,a2,…,aI)及びB=(b1,b2,…,bJ
で表わし、該ベクトル時系列の各周波数スペクト
ルの間に動的計画法により最適な対応関係(an(
:bo()))(ただし、τ=1,2,…,M,
m(1)=n(1)=1,m(M)=I,n(M)=J)を
定め、該最適な対応関係によつてm−n平面上に
最適径路を作成して平均化された標準パターンC
のベクトル時系列を形成する方法であつて、前記
m−n平面上の最適径路を所定数の平行直線群
pm+qn=ri(ただし、i=1,2,…,N)に
よつてN−1個の部分径路に分割し、該部分径路
の各々に存在する最適な対応関係(aki1:bli
),…,(aki2:bli2)から部分ベクトル時系列
i=(aki1,…,aki2)及びBi=(bli1,…,bl
i

)を求め、該部分ベクトル時系列を所定の平均
化手法によつて平均化して標準パターンCの周波
数スペクトルciを求め、それにより標準パター
ンCのベクトル時系列C=(c1,c2,…,cN-1
を形成する事を特徴とする音声の標準パターン形
成方法。 2 前記平均化手法として を用いる事を特徴とする特許請求の範囲第1項記
載の音声の標準パターン形成方法。
[Claims] 1. Divide the duration length of each of the two audio patterns A and B into segments of equal time units, and calculate the frequency spectrum a 1 , a 2 , ...a I of the audio pattern in all of the segments. and b 1 , b 2 , ..., b J are obtained, and each of the speech patterns is expressed as a vector time series A=
(a 1 , a 2 , ..., a I ) and B = (b 1 , b 2 , ..., b J )
The optimal correspondence relationship (a n(
) :bo () )) (However, τ=1, 2,...,M,
m(1)=n(1)=1, m(M)=I, n(M)=J), create an optimal path on the m-n plane based on the optimal correspondence, and calculate the average. standard pattern C
A method of forming a vector time series of
Divide into N-1 partial routes by pm + qn = ri (where i = 1, 2, ..., N), and calculate the optimal correspondence relationship (a ki1 : b li
1 ), ..., (a ki2 : b li2 ), the partial vector time series A i = (a ki1 , ..., a ki2 ) and B i = (b li1 , ..., b l
i

2 ), average the partial vector time series using a predetermined averaging method to obtain the frequency spectrum c i of the standard pattern C, and thereby the vector time series of the standard pattern C = (c 1 , c 2 ,…,c N-1 )
A method for forming a standard pattern of speech, which is characterized by forming. 2 As the above averaging method 2. A method for forming a standard sound pattern according to claim 1, characterized in that the method uses:
JP55173079A 1980-12-10 1980-12-10 Standard pattern formation of voice Granted JPS5797594A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP55173079A JPS5797594A (en) 1980-12-10 1980-12-10 Standard pattern formation of voice

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP55173079A JPS5797594A (en) 1980-12-10 1980-12-10 Standard pattern formation of voice

Publications (2)

Publication Number Publication Date
JPS5797594A JPS5797594A (en) 1982-06-17
JPS6154240B2 true JPS6154240B2 (en) 1986-11-21

Family

ID=15953808

Family Applications (1)

Application Number Title Priority Date Filing Date
JP55173079A Granted JPS5797594A (en) 1980-12-10 1980-12-10 Standard pattern formation of voice

Country Status (1)

Country Link
JP (1) JPS5797594A (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6385800A (en) * 1986-09-30 1988-04-16 富士通株式会社 Word voice recognition equipment

Also Published As

Publication number Publication date
JPS5797594A (en) 1982-06-17

Similar Documents

Publication Publication Date Title
EP0085543B1 (en) Speech recognition apparatus
US4918731A (en) Speech recognition method and apparatus
JPS6154240B2 (en)
JP2964881B2 (en) Voice recognition device
JPH0361956B2 (en)
US4794645A (en) Continuous speech recognition apparatus
JPH0436400B2 (en)
JPH02750B2 (en)
JPH0251519B2 (en)
JP2518871B2 (en) Pattern comparator
JPH0223876B2 (en)
JPS59200A (en) Pattern matching apparatus
JPS62144200A (en) Continuous voice recognition equipment
SU596934A1 (en) Elementary function generator
JP2698581B2 (en) Signal processing device
JPH04151700A (en) Pattern matching control circuit
JPS63183500A (en) Voice segmentation device
JPS61235899A (en) Voice recognition equipment
JPH0199095A (en) Pattern generator
JPS6122350B2 (en)
JPH03144699A (en) Pattern matching device
JPH0668677B2 (en) Speech recognition method and apparatus using vector division quantization
JPH03253900A (en) Voice recognition device
JPS61138299A (en) Voice section detection system
JPS61180295A (en) Continuous syllable recognition