JPS6040636B2 - speech synthesizer - Google Patents

speech synthesizer

Info

Publication number
JPS6040636B2
JPS6040636B2 JP56156797A JP15679781A JPS6040636B2 JP S6040636 B2 JPS6040636 B2 JP S6040636B2 JP 56156797 A JP56156797 A JP 56156797A JP 15679781 A JP15679781 A JP 15679781A JP S6040636 B2 JPS6040636 B2 JP S6040636B2
Authority
JP
Japan
Prior art keywords
parameters
pitch
parameter
corrected
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP56156797A
Other languages
Japanese (ja)
Other versions
JPS5857199A (en
Inventor
稔 黒田
博 糸山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Electric Works Co Ltd
Original Assignee
Matsushita Electric Works Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Works Ltd filed Critical Matsushita Electric Works Ltd
Priority to JP56156797A priority Critical patent/JPS6040636B2/en
Publication of JPS5857199A publication Critical patent/JPS5857199A/en
Publication of JPS6040636B2 publication Critical patent/JPS6040636B2/en
Expired legal-status Critical Current

Links

Description

【発明の詳細な説明】 本発明は音声合成装置に関するものであり、その目的と
するところはデータ記憶部の記憶容量を増加することな
く各圧縮パラメータに対応して複数種の音程が異なる音
程を選択的に合成できる音声合成装置を提供することに
ある。
DETAILED DESCRIPTION OF THE INVENTION The present invention relates to a speech synthesis device, and its purpose is to synthesize a plurality of different pitches in response to each compression parameter without increasing the storage capacity of a data storage unit. An object of the present invention is to provide a speech synthesis device that can selectively synthesize speech.

一般に、音声信号を音声周波数よりも高い周波数のサン
プリングパルスにてサンプリングして音の大小を表わす
振中パラメータ(以下Aパラメータと略称する)と、音
の高低すなわち基本周期を表わすピッチパラメータ(以
下Pパラメータと略称する)と、音の音色すなわちスペ
クトル分布を表わすスペクトルパラメータ(以下Sパラ
メータと略称する)よりなる特徴パラメータを抽出し、
各特徴パラメータをそれぞれ音質を寄与する度合に応じ
たビット数に圧縮して圧縮パラメータとしてデータ記憶
部に記憶し、データ記憶部から順次読み出される圧縮パ
ラメータにて予め各特徴パラメータを記憶させた再生用
ROMをアクセスし、再生用ROMから読み出された特
徴パラメータにより音源を駆動して音声を合成するよう
にしたこの種の音声合成装置において、音程(基本周期
)のみが異なる音声であっても全く異なる音声を再生す
る場合と同様に、各音程の音声に対応した圧縮パラメー
タをデータ記憶部に記憶させておく必要があった。
In general, there is a middle parameter (hereinafter referred to as the A parameter) that represents the magnitude of the sound by sampling the audio signal using a sampling pulse with a frequency higher than the audio frequency, and a pitch parameter (hereinafter referred to as the P parameter) that represents the pitch or fundamental period of the sound. parameter) and a spectral parameter (hereinafter abbreviated as S parameter) representing the timbre of the sound, that is, the spectral distribution,
For playback, each feature parameter is compressed to the number of bits corresponding to the degree to which it contributes to sound quality and stored in the data storage unit as a compression parameter, and each feature parameter is stored in advance as a compression parameter read out sequentially from the data storage unit. In this type of speech synthesizer, which accesses the ROM and synthesizes speech by driving the sound source using characteristic parameters read from the playback ROM, even if the speech differs only in pitch (basic period), As in the case of reproducing different sounds, it is necessary to store compression parameters corresponding to sounds of each pitch in the data storage unit.

したがって、周囲の騒音の状態あるいは使用者の好みに
応じた音程で音声を再生し得るようにするには、各音程
の音声に対応してそれぞれ圧縮パラメータをデータ記憶
部に記憶させておく必要があり、データ記憶部の記憶容
量を必要以上に大きくしなければならないという欠点が
あった。本発明は上記の欠点に鑑みて為されたものであ
る。以下、PARCOR型音声合成装置の一実施例につ
いて図を用いて説明する。PARCOR型音声合成方式
は第1図に示すように音声信号Vsをサンプリングパル
スにより適当周期t。でサンプリングし、サンプリング
されたサンプリング値XtとXt−pの間にある(P−
1)個のサンプリング値による相関関係を除外し、Xt
とXt‐pとの相関関係のみを抽出したPARCOR係
数(部分自己相関係数:以下Kパラメータと略称する)
をSパラメータとして音声を合成するものであり、Kパ
ラメータは音声がほぼ定常状態とみなせる1フレーム(
5〜20msec)において、適当周期t。(約100
山sec)鏡に音声信号Vsのサンプリングを行ない、
隣り合うサンプリング値間の相関係数をK,とし、複数
間隔離されたサンプリング値間では、その間に挟まれた
サンプリング値による影響を最小2乗誤差による線形予
測によって求め、それらを差引いてできる相関係数をK
2〜K,。としたものである。このKパラメータはK,
、K2、K3のように×tに近い点との部分自己相関関
係を表わす係数にはスペクトル分布に関する情報が豊富
に含まれているが、K3、K9、K,oのような×上か
ら遠い点との部分自己相関係数にはスペクトル分布に関
する情報があまり含まれていないので、低次のKパラメ
ータに多数の量子化ビットを割り当て、高次のKパラメ
ータには少数の量子化ビットを割り当てることによりビ
ット数を節減して冗長度を小さくするほうが効果的であ
る。したがってPARCOR方式はSパラメータとして
自己相関係数を用いて各係数に同一ビット数を割り当て
るようにした自己相関係数方式に比べて帯城圧縮率がす
ぐれているものである。
Therefore, in order to be able to reproduce sounds at pitches that match the surrounding noise conditions or the user's preferences, it is necessary to store compression parameters in the data storage unit for each pitch of sound. However, there was a drawback that the storage capacity of the data storage unit had to be made larger than necessary. The present invention has been made in view of the above drawbacks. An embodiment of a PARCOR type speech synthesizer will be described below with reference to the drawings. In the PARCOR type speech synthesis method, as shown in FIG. 1, the speech signal Vs is processed by sampling pulses at an appropriate period t. and the sampled value is between Xt and Xt-p (P-
1) Excluding the correlation due to the sampling values, Xt
PARCOR coefficient (partial autocorrelation coefficient: hereinafter abbreviated as K parameter) that extracts only the correlation between and Xt-p
The S-parameter is used to synthesize speech, and the K-parameter is one frame in which the speech can be considered to be in a steady state (
5 to 20 msec) at an appropriate period t. (about 100
Yama sec) Sampling the audio signal Vs on the mirror,
Let K be the correlation coefficient between adjacent sampling values, and between multiple isolated sampling values, the influence of the sampling values sandwiched between them is calculated by linear prediction using the least squares error, and the correlation created by subtracting them is calculated. The relation number is K
2~K,. That is. This K parameter is K,
, K2, K3, which represent the partial autocorrelation with points close to ×t, contain a wealth of information regarding the spectral distribution, but points far from above ×, such as K3, K9, K, o, Since the partial autocorrelation coefficients with points do not contain much information about the spectral distribution, we assign a large number of quantization bits to low-order K parameters and a small number of quantization bits to high-order K parameters. Therefore, it is more effective to reduce the number of bits and reduce redundancy. Therefore, the PARCOR method has a better band compression rate than the autocorrelation coefficient method, which uses an autocorrelation coefficient as an S parameter and allocates the same number of bits to each coefficient.

通常各A、P、Kパラメ−夕は圧縮されて記憶あるいは
伝送され、Aパラメータに対して5ビット、Pパラメー
タに対して6ビット、Kパラメータの各数K,、K2・
・・・・・・・・K,oに対して7、6、5、4、4、
4、3、3、3、3ビット等のように割り当てる。以下
本発明−実施例の構成を図示実施例について説明する。
Typically, each A, P, and K parameter is stored or transmitted in a compressed manner, with 5 bits for the A parameter, 6 bits for the P parameter, and each number of K parameters K, , K2.
・・・・・・7, 6, 5, 4, 4 for K, o
Assign 4, 3, 3, 3, 3 bits, etc. The configuration of the present invention-embodiments will be described below with reference to the illustrated embodiments.

第3図は実施例に係る音声合成装置のブロック図である
。同図に示すようにこの音声合成装置はデータ記憶部8
を含む制御用ICAと音声合成用IC(点線部A,Bを
除いた部分)との2チップで構成されており、両者間で
ビットシリアルにデータの受渡しを行なうようにしたも
のである。音声の特徴パラメータはすべて再生用ROM
I内に10ビットのデータとして記憶されており、再生
用ROMI内には音程が補正された補正音声を合成する
ための補正ピッチパラメータ(以下Pmパラメータと略
称する)を記憶させた補正音程用記憶部と標準音程を有
する標準音声を合成するための標準ピッチパラメータ(
Pパラメータ)を記憶させた標準音程用記憶部とが設け
られている。各特徴パラメータに割り当てられるデータ
の個数は、その特徴パラメータが音質に寄与する度合に
応じて最適に配分されている。第4図は再生用ROMI
内に記憶されたPm、A、P、K,o〜K,の各特徴パ
ラメータのデータ個数を示している。例えばAパラメー
タの場合10ビットで表現されるデ−夕が32個記憶さ
れている。したがってAパラメータの任意のデータのア
クセスするときに必要とされる相対アドレスのビット数
は5ビットである。この相対アドレスは特徴パラメータ
を必要最小限に圧縮して表現したものであるので圧縮パ
ラメータと呼ばれる。これに対して再生用ROMIの内
に記憶されている実際の特徴パラメータは再生パラメー
タと呼ばれる。上述した所から明らかなように再生パラ
メータのビット数はPm、A、P、K,o〜K,の各特
徴パラメータについてすべて共通に10ビットであるが
、圧縮パラメータのビット数はA、P、K,o〜K,の
各パラメータについて異なるものであり、それぞれ5、
6、3、3、3、3、4、4、4、5、6、7ビツト(
合計53ビット)である。但し、Pmパラメータをアク
セスする相対アドレスはPパラメータの相対アドレス(
圧縮パラメータ)を流用する。そのほか予備エリアとし
て3ビット分すなわちデータ8個分が再生用ROM内に
確保されている。かかる圧縮パラメータは音声信号がほ
ぼ定常状態とみなし得る20msec(1フレーム)ご
とに1組(=53ビット)抽出されるのであるから、高
々2650ビット/秒で音声信号を記録することができ
、無音区間やりビート区間をも考慮に入れると実際には
1600ビット/秒程度で音声信号を記録することがで
きるものである。このような圧縮パラメータ(すなわち
再生用ROMIの相対アドレス)はデータ記憶部8から
読み出されて1フレームごとに切換回路10を介してリ
ングレジスタ3にビットシリアルに記憶されるものであ
るが、このような相対アドレスだけで再生用ROMIか
ら記憶データを取り出すことができないので、インデッ
クスROM2の中に第5図に示すように記憶されている
先頭アドレスをアドレスカウンタ11の制御の下に順次
取り出して、上記相対アドレスと加算回路4によって加
算することにより再生用ROMIの絶対アドレス(9ビ
ット)を計算し、該絶対アドレスによって再生用ROM
Iをアクセスするようにしている。
FIG. 3 is a block diagram of a speech synthesis device according to an embodiment. As shown in the figure, this speech synthesis device has a data storage section 8.
It consists of two chips: a control ICA including a control IC and a voice synthesis IC (excluding the dotted lines A and B), and data is exchanged between the two in a bit-serial manner. All audio feature parameters are in playback ROM
It is stored as 10-bit data in I, and the playback ROMI has a memory for corrected pitch in which corrected pitch parameters (hereinafter abbreviated as Pm parameters) for synthesizing corrected speech whose pitch has been corrected are stored. Standard pitch parameters (
A standard pitch storage unit is provided in which the standard pitch storage unit stores the P parameters. The number of data assigned to each feature parameter is optimally distributed according to the degree to which the feature parameter contributes to sound quality. Figure 4 shows the ROMI for playback.
The number of data of each feature parameter Pm, A, P, K, o to K, stored in the table is shown. For example, in the case of the A parameter, 32 data expressed in 10 bits are stored. Therefore, the number of relative address bits required when accessing arbitrary data of the A parameter is 5 bits. This relative address is called a compressed parameter because it represents the characteristic parameter compressed to the minimum necessary size. In contrast, the actual feature parameters stored in the playback ROMI are called playback parameters. As is clear from the above, the number of bits of the reproduction parameter is 10 bits in common for each feature parameter Pm, A, P, K, o to K, but the number of bits of the compression parameter is A, P, Each parameter of K, o to K, is different, and each parameter is 5,
6, 3, 3, 3, 3, 4, 4, 4, 5, 6, 7 bits (
total of 53 bits). However, the relative address for accessing the Pm parameter is the relative address of the P parameter (
compression parameters). In addition, 3 bits, ie, 8 pieces of data, are reserved in the reproduction ROM as a spare area. Since one set (=53 bits) of such compression parameters is extracted every 20 msec (1 frame), which can be considered as an almost steady state of the audio signal, it is possible to record the audio signal at a rate of at most 2650 bits/second, and there is no sound. If sections and beat sections are taken into account, it is actually possible to record audio signals at about 1600 bits/second. Such compression parameters (i.e., relative addresses of the playback ROMI) are read from the data storage section 8 and stored bit-serially in the ring register 3 via the switching circuit 10 for each frame. Since it is not possible to retrieve the stored data from the playback ROMI using only such relative addresses, the first addresses stored in the index ROM 2 as shown in FIG. 5 are sequentially retrieved under the control of the address counter 11. The absolute address (9 bits) of the playback ROMI is calculated by adding the above relative address and the addition circuit 4, and the playback ROMI is added using the absolute address.
I am trying to access it.

ところで、実施例にあっては、標準音声を合成する場合
と、補正音声を合成する場合とにおける基本周期発生方
式を変更するようになっており、補正音声を合成する場
合、制御用ICAから入力される圧縮パラメータのうち
圧縮Aパラメータの先頭に音程制御コードを付加し、音
程制御コードが検出されたときに出力される補正信号V
Mが得られたときこの音程補正信号VMが入力される音
程切換回路3川こより絶対アドレスの先頭アドレスを0
とするように加算回路4を制御し、Pパラメータの圧縮
パラメータを用いて再生用ROMIの補正音声用記憶部
からPmパラメータを読み出すようになっている。一方
、補正信号VMが得られていないときは再生用ROMI
の標準音声用記憶部からPパラメータが読み出されるこ
とになる。ここに、Pmパラメータは合成される補正音
声を一定の補正比率で高くあるいは低くするためのパラ
メータであり、実施例では補正比率を十10%として補
正音声を標準音声に比べて高音側に補正するようになっ
ている。但し、PパラメータあるいはPmパラメー外こ
対応する基本周期を有する音声の合成方式については後
述する。なお、補正比率は適当に設定すれば良く、複数
種の補正比率(例えば一20%、10%、十10%、十
20%)を設定する場合には補正音声用記憶部の容量を
複数倍にするとともに音程制御コードを複数ビットにし
て圧縮pパラメー外こて読み出されるPパラメータある
いは複数個のPmパラメータを任意に選択できるように
すれば良い。さらにまた、音程制御コード検出回路9に
代えて音程切換スイッチを設けても良い。以下再生用R
OMIに記憶されている再生パラメータの読み出し動作
を詳述する。インデックスROM2には圧縮パラメータ
のビット配分数を3ビットの2進数で記憶させており、
再生用ROMIの記憶容量削減のための共通化ビットを
1ビット設けており、さらに再生用ROMI内の予備エ
リアに対応する予備ビットを設けている。圧縮パラメー
タのビット配分数に関するデータは再生制御回賂12に
送られ、再生制御回路12は、該ビット配分数だけシフ
トクロックをリングレジスタ3に送出する。したがって
リングレジスタ3からは、上記ビット配分数に応じて例
えばAパラメータの場合には5ビット、Pパラメータの
場合には6ビット、K,。パラメータの場合には3ビッ
ト………、K,パラメータの場合には7ビットという具
合に圧縮パラメータ(相対アドレス)をそれぞれ加算回
路にシリアルに送出するものである。リングレジスタ3
はできるだけチップ面積をとらないようにダイナミック
シフトレジス夕で構成されている。またインデックスR
OM2内に記憶されている各特徴パラメータの再生用R
OMI内における先頭アドレスは、パラレルシリアル変
換回路13を介して1ビットずつ順次加算回路4に送出
されるので、順次1ビットずつ加算された絶対アドレス
が計算されるものである。こうして計算された直列デー
タよりなる絶対アドレスはシリアルパラレル変換装置1
4を介して並列データに変換され、再生用ROMIをア
クセスできるようになっている。ところで、再生用RO
M1から出力される特徴パラメー外ま1フレームごとに
更新されるものであるが、データを更新する際に各フレ
ーム間の接続点において特徴パラメータが不連続的に変
化すると音声信号に歪みを生じて明瞭度が低下するおそ
れがあるので、データ更新の際に特徴パラメータがスム
ーズに変化し得るように補間計算回路5を設けて17レ
ーム内の8点において近似的な直線的補間を行なうよう
にしている。
By the way, in the embodiment, the basic period generation method is changed when synthesizing standard speech and when synthesizing corrected speech, and when synthesizing corrected speech, the input from the control ICA is changed. A pitch control code is added to the beginning of the compressed A parameter among the compression parameters to be compressed, and a correction signal V is output when the pitch control code is detected.
When M is obtained, the first address of the absolute address is set to 0 from the pitch switching circuit 3 to which this pitch correction signal VM is input.
The adder circuit 4 is controlled so that the Pm parameter is read from the corrected audio storage section of the playback ROMI using the compression parameter of the P parameter. On the other hand, when the correction signal VM is not obtained, the playback ROMI
The P parameter will be read from the standard voice storage section. Here, the Pm parameter is a parameter for making the synthesized corrected voice higher or lower by a certain correction ratio, and in the example, the correction ratio is set to 110% and the corrected voice is corrected to be higher pitched than the standard voice. It looks like this. However, a method for synthesizing speech having a fundamental period corresponding to the P parameter or the Pm parameter will be described later. Note that the correction ratio can be set appropriately, and when setting multiple types of correction ratios (for example, 120%, 10%, 10%, 120%), the capacity of the correction audio storage unit must be multiplied. At the same time, the pitch control code may be made into a plurality of bits so that a P parameter or a plurality of Pm parameters to be read outside the compressed p parameter can be arbitrarily selected. Furthermore, a pitch changeover switch may be provided in place of the pitch control code detection circuit 9. R for reproduction below
The operation of reading playback parameters stored in OMI will be described in detail. The index ROM2 stores the bit allocation number of compression parameters as a 3-bit binary number.
One common bit is provided to reduce the storage capacity of the reproduction ROMI, and a spare bit corresponding to a spare area within the reproduction ROMI is also provided. Data regarding the bit allocation number of the compression parameter is sent to the reproduction control circuit 12, and the reproduction control circuit 12 sends a shift clock to the ring register 3 by the bit allocation number. Therefore, from the ring register 3, depending on the bit allocation number, for example, 5 bits for the A parameter, 6 bits for the P parameter, K, etc. Compressed parameters (relative addresses) are serially sent to the adder circuit in the form of 3 bits...K in the case of parameters and 7 bits in the case of parameters. ring register 3
consists of dynamic shift registers to take up as little chip area as possible. Also index R
R for reproducing each feature parameter stored in OM2
The leading address in the OMI is sequentially sent bit by bit to the addition circuit 4 via the parallel-serial conversion circuit 13, so that an absolute address is calculated by sequentially adding bit by bit. The absolute address consisting of the serial data thus calculated is the serial-to-parallel converter 1.
4, it is converted into parallel data, and the ROMI for reproduction can be accessed. By the way, the regeneration RO
The feature parameters output from M1 are updated every frame, but if the feature parameters change discontinuously at the connection point between each frame when updating data, distortion will occur in the audio signal. Since there is a risk that the clarity may deteriorate, an interpolation calculation circuit 5 is provided to perform approximate linear interpolation at 8 points within 17 frames so that the feature parameters can change smoothly when updating data. There is.

なお補正音声を合成する場合にはこの補間計算回路5は
作動しない。この補間計算回路5はタイミング制御回路
528にて制御され、タイミング制御回路28では第2
図に示すように1フレーム(20wsec)中に8個の
桶間用○クロツク(2.5机sec)を発生し、1個の
Dクロツク中に29函のパラメータ論込用Pクロツク(
100仏sec)、さらに1個のPクロツク0中に22
個のビット謙込用Tクロツツ(4.5rsec)が作成
される。8個のDクロックのうち、最初のD,において
リングレジスタ3にデータが読み込まれる。
Note that this interpolation calculation circuit 5 does not operate when the corrected speech is synthesized. This interpolation calculation circuit 5 is controlled by a timing control circuit 528, and the timing control circuit 28
As shown in the figure, 8 O-clocks (2.5 seconds) are generated during one frame (20 wsec), and 29 P-clocks (P clocks for parameter input) are generated during one D clock (2.5 seconds).
100 French sec), and 22 in one P clock 0
T-blocks (4.5 rsec) for bit reduction are created. Data is read into the ring register 3 at the first D of the eight D clocks.

各圧縮パラメータA、P、K,。・…・・・・・K,は
奇数番目のPクロックで順次読み込まれるものであり、
例えばAパラメータはP,区間のT6〜T,oの5個の
Tクロツクで読み込まれる。偶数番目のPクロックある
いは上記以外のTクロツクは補間計算回路5、音源RO
M6、デジタルフィル夕7などのタイミングとして使用
されるものである。上記補間計算回路5によって2.5
のsecごとに新しい値に更新された各特徴パラメータ
は、それぞれPラッチ16、AKラツチ23に一時的に
蓄えられる。ただし、補間計算に差し当り必要のないパ
ラメータはすべてAKパラメータスタツク24に転送し
てデジタルフィル夕7の音声合成用データとして蓄積す
る。一方Pラツチ16に蓄えられた音声の基本周期に関
するデータすなわちPm、Pパラメータはプリセット型
減算カウンター7にプリセットされる。この減算カウン
タ17のクロックはクロック切換回路17aによりサン
プリングパルスと等しい周波数の標準音声用クロック(
Pクロツク)と、サンプリングパルスよりも高い周波数
の補正音声用クロック(Tクロック)とに切換えられる
ようになっており、クロック切換回路17aは音程制御
コード検出回路9から出力される音程補正信号VMにて
制御される。この減算カウンター7の0出力信号VRに
より音源ROM6のアドレスカウンタ1 8がリセット
されるようになっており、減算カウンター7の0出力信
号VRの周期に相当する基本周期で音源ROM6から音
源制御データが順次読み出され、上記基本周期を有する
音源制御データにて音声音源19を駆動して基本周期を
有する音声音を発生させる。なお、上記音源制御データ
は原音を周波数分析して得られる残笹波形を再現して音
色を忠実に再生するためのデータである。一方、音声に
基本周期がない場合には、音源制御回路20‘こて切換
回路22を駆動し、無声音源21に切り換える。無声音
源21は基本周期を持たないホワイトノイズ(白雑音)
を発生するものである。次にAパラメータおよびKパラ
メータはデジタルフイルタ7に供給され、音源回路より
供V給された信号に振幅の大小およびスペクトル分布に
関する情報を付け加えることにより音声を再生するもの
である。なお、第3図において25はアンプ、26はス
ピ−力、27は水晶発振回路である。以下、標準音声お
よび補正音声の基本周期発生部の動作を具体的に説明す
る。
Each compression parameter A, P, K,. ......K, is read sequentially at odd-numbered P clocks,
For example, the A parameter is read using five T clocks from T6 to T, o in the P section. Even-numbered P clocks or T clocks other than the above are used by the interpolation calculation circuit 5 and the sound source RO.
This is used as the timing for M6, digital filter 7, etc. 2.5 by the above interpolation calculation circuit 5
Each characteristic parameter updated to a new value every sec is temporarily stored in the P latch 16 and the AK latch 23, respectively. However, all parameters that are not required for the time being for interpolation calculation are transferred to the AK parameter stack 24 and stored as data for speech synthesis in the digital filter 7. On the other hand, the data regarding the fundamental period of the voice stored in the P latch 16, that is, the Pm and P parameters, are preset in the preset type subtraction counter 7. The clock of this subtraction counter 17 is changed by a clock switching circuit 17a to a standard audio clock (of a frequency equal to the sampling pulse).
P clock) and a corrected audio clock (T clock) having a higher frequency than the sampling pulse. controlled by The address counter 18 of the sound source ROM 6 is reset by the 0 output signal VR of the subtraction counter 7, and the sound source control data is transferred from the sound source ROM 6 at a basic cycle corresponding to the period of the 0 output signal VR of the subtraction counter 7. The audio sound source 19 is driven by the sound source control data that is sequentially read out and has the basic period, thereby generating audio sound that has the basic period. The sound source control data is data for faithfully reproducing the tone by reproducing the residual waveform obtained by frequency analysis of the original sound. On the other hand, if the voice does not have a fundamental period, the sound source control circuit 20' drives the iron switching circuit 22 and switches to the silent sound source 21. The unvoiced sound source 21 is white noise that does not have a fundamental period.
is generated. Next, the A parameter and the K parameter are supplied to the digital filter 7, which reproduces the sound by adding information regarding amplitude magnitude and spectral distribution to the signal V supplied from the sound source circuit. In FIG. 3, 25 is an amplifier, 26 is a speaker, and 27 is a crystal oscillation circuit. The operation of the basic period generator for standard speech and corrected speech will be specifically described below.

いま、音程制御コード検出回路9から音程補正信号V畝
ミ得られてし、ない場合、音声の基本周期を設定するデ
−夕を蓄えるPラッチ16には再生用ROMIの標準音
声用記憶部から読み出されるPパラメータ(整数)がラ
ッチされており、減算カウンタ17のクロツクは標準音
声用クロックすなわちPクロック(100ムsec)に
切換えられている。
Now, if the pitch correction signal V is obtained from the pitch control code detection circuit 9, and if not, the P latch 16, which stores data for setting the basic period of the voice, receives data from the standard voice storage section of the playback ROMI. The P parameter (integer) to be read is latched, and the clock of the subtraction counter 17 is switched to the standard audio clock, that is, the P clock (100 msec).

したがって減算カゥンタ17の0出力信号VRの周期は
100rsecの整数倍となり、この0出力信号VRで
リセツトされるアドレスカウンタ18により音源ROM
6から読み出される音源制御データに基いて発生される
音声は上記周期を有するものである。例えばPパラメ−
夕を「25」とすれば基本周期は100×25ムsec
(基本周波数400日2)となる。一方、音程制御コー
ド検出回路9から音程補正信号VMが得られた場合、P
ラッチ16には再生用ROMIの補正音声記憶部から読
み出されるPmパラメータ(整数値)がラッチされるこ
ととなり、減算カウンター7のクロックはクロック切換
回路17aにて補正音声用クロックすなわちTクロック
(4.5仏sec)に切換えられる。したがって減算カ
ウンタ17の0出力信号VRの周期は4.5usecの
整数倍となる。この場合、標準音声用記憶部からPパラ
メータ「25」を読み出す圧縮Pパラメータにて補正音
声用記憶部から読み出されるPmパラメータは「61」
であり、Pmパラメータが「61」であれば減算カゥン
タ17から4.5×61仏Secの周期で0出力信号V
Rが得られ、アドレスカウンタ18出力により音源RO
M6から読み出される音源制御データに基いて発生され
る音声の基本周期は4.5×61rsec(364HZ
)となって約十10%低音側に補正された補正音声が合
成されることになる。この場合Pmパラメータ「61」
はPパラメータ「27.451に相当し、襟準音声より
も約10%低音側に補正された音声を合成するためのも
のである。
Therefore, the period of the 0 output signal VR of the subtraction counter 17 is an integral multiple of 100 rsec, and the address counter 18, which is reset by this 0 output signal VR, outputs the sound source ROM.
The sound generated based on the sound source control data read from 6 has the above period. For example, P parameter
If evening is ``25'', the fundamental period is 100 x 25 ms.
(Fundamental frequency 400 days 2). On the other hand, when the pitch correction signal VM is obtained from the pitch control code detection circuit 9, P
The latch 16 latches the Pm parameter (integer value) read from the corrected audio storage section of the playback ROMI, and the clock of the subtraction counter 7 is changed by the clock switching circuit 17a to the corrected audio clock, that is, the T clock (4. 5 French seconds). Therefore, the period of the 0 output signal VR of the subtraction counter 17 is an integral multiple of 4.5 usec. In this case, the Pm parameter read from the corrected audio storage section is "61" when the compressed P parameter is read out from the standard audio storage section as P parameter "25".
If the Pm parameter is "61", the 0 output signal V is output from the subtraction counter 17 at a period of 4.5 x 61 French Sec.
R is obtained, and the address counter 18 outputs the sound source RO.
The basic period of the sound generated based on the sound source control data read from M6 is 4.5 x 61 rsec (364Hz).
), and the corrected audio that is corrected to the bass side by about 110% is synthesized. In this case, Pm parameter "61"
corresponds to the P parameter "27.451," and is used to synthesize a voice that is corrected to be about 10% lower than the low-pitched voice.

ところで、上述のようにして合成された補正音声は基本
周期に関しては問題がないが、デジタルフィル夕7を用
いることによりKパラメータに基いたスペクトル情報を
付加している場合において若干の問題がある。すなわち
、デジタルフィル夕7における演算はPクロックに同期
して行なわれるので、Pクロツクに同期せずにアドレス
カウンタ18がリセツトされると、デジタルフィル夕7
の演算処理に誤差が発生して合成された音声に歪が生ず
る。したがって、実施例にあっては減算カゥンタ17か
ら出力される0出力信号VRを第6図に示すようなリセ
ットパルス発生回路40を介してアドレスカウンタ18
のリセット端子に入力するようにしている。このリセッ
トパルス発生回路40はィンバータ41a,41b、コ
ンデンサ42、ナンドゲート43、Dフリツプフロツプ
44およびアンドゲート45にて形成されており、第7
図aのタイムチャートに示すように減算カウンタ17か
ら0出力信号VRが得られた直後のPクロツクをアドレ
スカウンタ18のリセットパルスVR′として出力する
ようになっている。図中イはPパラメータが「12」の
標準音声を合成するときの0検出信号VR、口はPパラ
メータ「12.8」に相当するようPmパラメータ「2
84」に基づいて補正音声を合成するときの0検出信号
VR、ハは同上の補正音声を合成するときのIJセット
パルスVR示すものである。
Incidentally, although the corrected speech synthesized as described above has no problem with respect to the fundamental period, there is a slight problem when spectral information based on the K parameter is added by using the digital filter 7. That is, since the calculation in the digital filter 7 is performed in synchronization with the P clock, if the address counter 18 is reset without synchronization with the P clock, the calculation in the digital filter 7 is performed in synchronization with the P clock.
An error occurs in the calculation process, causing distortion in the synthesized voice. Therefore, in this embodiment, the 0 output signal VR output from the subtraction counter 17 is sent to the address counter 18 via a reset pulse generation circuit 40 as shown in FIG.
I am trying to input it to the reset terminal of. This reset pulse generation circuit 40 is formed by inverters 41a, 41b, a capacitor 42, a NAND gate 43, a D flip-flop 44, and an AND gate 45.
As shown in the time chart of FIG. 1A, the P clock immediately after the 0 output signal VR is obtained from the subtraction counter 17 is output as the reset pulse VR' of the address counter 18. In the figure, A is the 0 detection signal VR when synthesizing standard speech with P parameter "12", and mouth is Pm parameter "2" to correspond to P parameter "12.8".
0 detection signal VR when the corrected voice is synthesized based on ``84'', and C indicates the IJ set pulse VR when the corrected voice is synthesized based on the above.

このように、リセットパルス発生回路40から出力され
るリセットパルスVR′はPクロツクと同期をとってい
るため、アドレスカウソタ18のリセット間隔は等間隔
は等間隔にはならず、0検出信号VRの基本周波数が4
.5×248仏secの場合、アドレスカウンタ18は
Pクロツクを1針固カウントしてリセットさる場合と、
Pクoツクを12個カウントしてリセットされる場合と
が4:1の割合で起きることになる。
As described above, since the reset pulse VR' outputted from the reset pulse generation circuit 40 is synchronized with the P clock, the reset intervals of the address counter 18 are not equal intervals, and the 0 detection signal VR The fundamental frequency of is 4
.. In the case of 5 x 248 fsec, the address counter 18 is reset by counting the P clock by one stitch;
The number of cases where 12 P clocks are counted and then reset occurs at a ratio of 4:1.

したがって等価的にPパラメータ「12.8」に相当す
る基本周期で音源ROM6がアドレスされて有声音源1
9が制御されることになり、所定の基本周期を有する補
正音声が合成されることになる。なお、第7図bに示す
タイムチャートは0検出信号VRとりセットパルスVR
′との関係をさらに分かり易く説明するもので、例とし
て3.7瓜Hz(267仏sec周期)の0出力信号V
Rに対応するリセツトパルスVR′を示したものである
Therefore, the sound source ROM 6 is addressed at a fundamental period equivalent to the P parameter "12.8", and the voiced sound source 1 is
9 will be controlled, and a corrected speech having a predetermined fundamental period will be synthesized. In addition, the time chart shown in FIG. 7b shows the 0 detection signal VR and the set pulse VR.
' This is to explain the relationship between
The reset pulse VR' corresponding to R is shown.

図から明らかなようにリセットパルスVR′としてPク
ロツクの3、6、8、11、1416……番目のパルス
が出力される。このリセツトパルスVR′でリセットさ
れるアドレスカウンタ18により音源ROM6がアドレ
スされるので、音源ROM6から等価的に3.7球比(
響。r楓)とみなせる周期で有声音源データが読み出さ
れることになり、有声音源19が所定の基本周波数で駆
動されて補正音声が正確な音程で合成されることになる
。本発明は上述のように構成されており、再生用ROM
内に標準音程を有する標準音声を合成するための標準ピ
ッチパラメータを記憶する標準音声用記憶部と、音程が
補正された補正音声を合成するための補正ピッチパラメ
ータを記憶する補正音声用記憶部とを設け、圧縮パラメ
ータに基いて再生用ROMから読み出されるピッチパラ
メータが標準あるいは補正ピッチパラメータとなるよう
に再生用ROMのアクセス方式を適宜切換制御する音程
切換回路を設けたので、データ記憶部の記憶容量を増加
することなく各圧縮パラメータに対応して複数種の音程
の異なる音声を選択的に合成でき、簡単な構成で周囲の
騒音の状態あるいは使用者の好みに応じた音程の音声を
合成し得る音声合成装置を提供することができるという
利点がある。
As is clear from the figure, the 3rd, 6th, 8th, 11th, 1416th... pulse of the P clock is output as the reset pulse VR'. Since the sound source ROM 6 is addressed by the address counter 18 which is reset by this reset pulse VR', the sound source ROM 6 is equivalently 3.7 pitch ratio (
sound. The voiced sound source data will be read out at a period that can be considered as 1), the voiced sound source 19 will be driven at a predetermined fundamental frequency, and the corrected sound will be synthesized at an accurate pitch. The present invention is configured as described above, and the playback ROM
a standard voice storage unit that stores standard pitch parameters for synthesizing a standard voice having a standard pitch; and a corrected voice storage unit that stores corrected pitch parameters for synthesizing a corrected voice whose pitch is corrected. A pitch switching circuit is provided to appropriately switch and control the access method of the playback ROM so that the pitch parameter read from the playback ROM based on the compression parameter becomes the standard or corrected pitch parameter. It is possible to selectively synthesize multiple types of voices with different pitches according to each compression parameter without increasing the capacity, and with a simple configuration, it is possible to synthesize voices with pitches according to the surrounding noise condition or the user's preference. There is an advantage in that it is possible to provide a speech synthesizer that obtains the desired results.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明一実施例の音声合成方式の原理説明図、
第2図は同上の動作説明図、第3図は同上のブロック回
路図、第4図および第5図は同上の再生用ROMおよび
インデックスROMの構成を示す図、第6図は同上の要
部回路図、第7図a,bは同上の動作説明図である。 1は再生用ROM、8はデータ記憶部、19,21は音
源、30は音程切襖回路である。 第1図 第2図 第7図 図 の 濁 第4図 第6図 第5図 第7図
FIG. 1 is a diagram explaining the principle of a speech synthesis method according to an embodiment of the present invention.
FIG. 2 is an explanatory diagram of the same operation as above, FIG. 3 is a block circuit diagram of same as above, FIGS. 4 and 5 are diagrams showing the configuration of the playback ROM and index ROM of same as above, and FIG. The circuit diagram and FIGS. 7a and 7b are explanatory diagrams of the same operation. 1 is a reproduction ROM, 8 is a data storage section, 19 and 21 are sound sources, and 30 is a pitch cutting circuit. Figure 1 Figure 2 Figure 7 Cloudiness Figure 4 Figure 6 Figure 5 Figure 7

Claims (1)

【特許請求の範囲】[Claims] 1 音声信号を音声周波数よりも高い周波数のサンプリ
ングパルスにてサンプリングして振巾パラメータ、ピツ
チパラメータおよびスペクトルパラメータよりなる特徴
パラメータを抽出し、各特徴パラメータをそれぞれ音質
に寄与する度合に応じたビツト数に圧縮した圧縮パラメ
ータとしてデータ記憶部に記憶し、データ記憶部から順
次読み出される圧縮パラメータにて予め各特徴パラメー
タを記憶させた再生用ROMをアクセスし、再生用RO
Mから読み出された特徴パラメータにより音源を騒動し
て音声を合成するようにした音声合成装置において、上
記再生用ROM内に標準音程を有する標準音声を合成す
るための標準ピツチパラメータを記憶する標準音声用記
憶部と、音程が補正された補正音声を合成するための補
正ピツチパラメータを記憶する補正音声用記憶部とを設
け、圧縮パラメータに基いて再生用ROMから読み出さ
れるピツチパラメータが標準あるいは補正ピツチパラメ
ータとなるように再生用ROMのアクセス方式を適宜切
換制御する音程切換回路を設けて成ることを特徴とする
音声合成装置。
1 Sampling the audio signal using a sampling pulse with a frequency higher than the audio frequency to extract feature parameters consisting of amplitude parameters, pitch parameters, and spectral parameters, and assigning the number of bits for each feature parameter according to the degree to which it contributes to sound quality. The compression parameters are stored in the data storage unit as compression parameters compressed into
In a speech synthesis device configured to synthesize speech by agitating a sound source using characteristic parameters read from M, a standard for storing standard pitch parameters for synthesizing standard speech having a standard pitch in the playback ROM. An audio storage unit and a corrected audio storage unit that stores corrected pitch parameters for synthesizing corrected audio whose pitch has been corrected are provided, and the pitch parameters read from the playback ROM based on the compression parameters are standard or corrected. 1. A speech synthesis device comprising a pitch switching circuit that appropriately switches and controls an access method of a playback ROM so as to match a pitch parameter.
JP56156797A 1981-09-30 1981-09-30 speech synthesizer Expired JPS6040636B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP56156797A JPS6040636B2 (en) 1981-09-30 1981-09-30 speech synthesizer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP56156797A JPS6040636B2 (en) 1981-09-30 1981-09-30 speech synthesizer

Publications (2)

Publication Number Publication Date
JPS5857199A JPS5857199A (en) 1983-04-05
JPS6040636B2 true JPS6040636B2 (en) 1985-09-11

Family

ID=15635520

Family Applications (1)

Application Number Title Priority Date Filing Date
JP56156797A Expired JPS6040636B2 (en) 1981-09-30 1981-09-30 speech synthesizer

Country Status (1)

Country Link
JP (1) JPS6040636B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6449521U (en) * 1987-09-22 1989-03-28

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6436484B1 (en) 1997-12-09 2002-08-20 Coats American, Inc. Processes for coating sewing thread

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6449521U (en) * 1987-09-22 1989-03-28

Also Published As

Publication number Publication date
JPS5857199A (en) 1983-04-05

Similar Documents

Publication Publication Date Title
JP3068226B2 (en) Back chorus synthesizer
JPS6040636B2 (en) speech synthesizer
JPH0142000B2 (en)
JPS6036600B2 (en) speech synthesizer
JPH0325800B2 (en)
JPS6040637B2 (en) speech synthesizer
JPS6040635B2 (en) speech synthesizer
JPS6036597B2 (en) speech synthesizer
JPS58158697A (en) Voice synthesizer
JPH0141999B2 (en)
JPH043558B2 (en)
JPH035600B2 (en)
JPS61278900A (en) Voice synthesizer
JPH0325799B2 (en)
JPS6040639B2 (en) Multiplex speech synthesis system
JPS6040633B2 (en) Speech synthesizer with silent plosive sound source
JPS6040640B2 (en) Multiplex speech synthesis system
JPH0713037Y2 (en) Electronic piano sound source circuit
JPS61100796A (en) Musical sound signal generator
JPS58196594A (en) Musical tone synthesizer
JPH0426895A (en) Musical signal generating device
JPH02137892A (en) Sound source device
JPH01197793A (en) Speech synthesizer
JPS5949596B2 (en) Audio parameter playback control method
JPH0461360B2 (en)