JPS5950079B2 - Speech synthesis method - Google Patents

Speech synthesis method

Info

Publication number
JPS5950079B2
JPS5950079B2 JP8290080A JP8290080A JPS5950079B2 JP S5950079 B2 JPS5950079 B2 JP S5950079B2 JP 8290080 A JP8290080 A JP 8290080A JP 8290080 A JP8290080 A JP 8290080A JP S5950079 B2 JPS5950079 B2 JP S5950079B2
Authority
JP
Japan
Prior art keywords
speech
sound
synthesized
voiced
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP8290080A
Other languages
Japanese (ja)
Other versions
JPS5710194A (en
Inventor
春司 岩崎
昭広 浅田
義注 太田
規 斉藤
重光 樋口
徹 三瓶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP8290080A priority Critical patent/JPS5950079B2/en
Publication of JPS5710194A publication Critical patent/JPS5710194A/en
Publication of JPS5950079B2 publication Critical patent/JPS5950079B2/en
Expired legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【発明の詳細な説明】 本発明はPARCOR型音声合成の音声の変化点におい
て聞きやすい合成音を得る方法に関するものである。
DETAILED DESCRIPTION OF THE INVENTION The present invention relates to a method of obtaining a synthesized sound that is easy to hear at a change point of speech in PARCOR type speech synthesis.

音声合成法として、線形予側係数の一種である偏自己相
関係数(以後PARCOR係数と呼ぶ)を用いるPAR
COR合成法がある。
PAR uses a partial autocorrelation coefficient (hereinafter referred to as PARCOR coefficient), which is a type of linear predictive coefficient, as a speech synthesis method.
There is a COR synthesis method.

この方法は既に音声研究分野では広く知られた方法であ
り詳しい説明は省略するが、音声スペクトラムとPAR
COR音声合成について述べる。
This method is already widely known in the speech research field, so detailed explanation will be omitted, but it is important to note that the speech spectrum and PAR
Let us describe COR speech synthesis.

第1図ばア″という音を周波数分析したものである。a
がスペクトラム全体を表す。これは周波数とともに緩や
かに変化するスペクトラム包絡bと、激しく変化するス
ペクトラム微細構造cの積に分解して考えることは出来
る。スペクトラム包絡は主として声道の共鳴特性を反映
し音韻性すなわぢア″なのがイ″なのかの情報を含む。
一方、スペクトラム微細構造は音声の周期性す・なわち
有声音か無声音(一般的に無声音には周期性がない)の
情報と、有声音の場合周期(ピッチ情報)すなわち音の
高さと、各音声について声帯の振動の強さの情報(音量
情報)を含んでいる。PARCOR係数は物理的には声
道伝送特性を表わす特徴パラメータであり、声道をいく
つかの音響管の組み合せと考えた時、各音響管の接続点
における反射係数である。そこでPARCOR係数によ
って音韻を表わすフィルタ特性を再現すれば音が合成で
きる。フ 第2図に従来のPARCOR音声合成装置の
構成を示す。
Figure 1 is a frequency analysis of the sound Ba''.a
represents the entire spectrum. This can be broken down into the product of the spectral envelope b, which changes slowly with frequency, and the spectral fine structure c, which changes sharply. The spectral envelope mainly reflects the resonance characteristics of the vocal tract and includes information on phonological characteristics, such as whether ``a'' or ``i''.
On the other hand, the spectral fine structure contains information about the periodicity of speech, that is, whether it is a voiced or unvoiced sound (generally speaking, unvoiced sounds have no periodicity), and in the case of voiced sounds, the period (pitch information), that is, the pitch of the sound, and each Contains information on the strength of vibration of the vocal cords (volume information) regarding the voice. Physically, the PARCOR coefficient is a characteristic parameter representing vocal tract transmission characteristics, and when the vocal tract is considered as a combination of several acoustic tubes, it is a reflection coefficient at the connection point of each acoustic tube. Therefore, sounds can be synthesized by reproducing filter characteristics representing phonemes using PARCOR coefficients. Figure 2 shows the configuration of a conventional PARCOR speech synthesizer.

図において、1は雑音発生器、2はパルス発生器、3は
有声・無声切換えスイッチ、4は掛け算器、5はディジ
タルフィルタ、6はD/A変換器、7はスピーカ、8は
ピッチ情報、9は有5声・無声音切換え信号、10は音
量情報、11はPARCOR係数、12は記憶部である
。記憶部12にはあらかじめ自然音声を分析して得られ
た有声無声の判別情報、ピツチ情報、音量情報、PAR
COR係数が時系列的に記憶されている。
In the figure, 1 is a noise generator, 2 is a pulse generator, 3 is a voiced/unvoiced switch, 4 is a multiplier, 5 is a digital filter, 6 is a D/A converter, 7 is a speaker, 8 is pitch information, 9 is a five-voice/unvoiced sound switching signal, 10 is volume information, 11 is a PARCOR coefficient, and 12 is a storage section. The storage unit 12 stores voiced/unvoiced discrimination information, pitch information, volume information, and PAR obtained by analyzing natural speech in advance.
COR coefficients are stored in chronological order.

そこで音声の合成に際し、デイジタルフイルタ5は記憶
部12からのPARCOR係数11により音韻を表わす
フイルタ特性を再現し、有声音の場合であれば、ピツチ
情報8で与えられる周期にてパルス発生器2よりパルス
をフイルタに加え、無声音ならば雑音発生器1により雑
音がフイルタに加えられる。
Therefore, when synthesizing speech, the digital filter 5 reproduces the filter characteristics representing the phoneme using the PARCOR coefficient 11 from the storage section 12, and in the case of voiced speech, the digital filter 5 uses the PARCOR coefficient 11 from the storage section 12 to reproduce the filter characteristics representing the phoneme. A pulse is applied to the filter, and if it is an unvoiced sound, noise is added to the filter by the noise generator 1.

そして次に音量情報10が掛け算器4にて前述のパルス
又は雑音と掛け合わされ、合成音の大きさが決定され、
デイジタルフイルタ5は記憶部12からのPARCOR
係数11により音韻を表わすフイルタ特性を再現し、音
声が合成され、D/A変換器6、スピーカ7を通して音
声を出力する。第3図に「こちらは」の「こ」の部分の
自然音声波形を示す。
Then, the volume information 10 is multiplied by the above-mentioned pulse or noise in a multiplier 4, and the loudness of the synthesized sound is determined.
The digital filter 5 receives PARCOR from the storage unit 12.
The filter characteristics representing the phoneme are reproduced by the coefficient 11, the voice is synthesized, and the voice is output through the D/A converter 6 and the speaker 7. Figure 3 shows the natural speech waveform of the ``ko'' part of ``kochiwa''.

同じく第4図に[ぎんこう」の「ぎん」の部分の自然音
声波形を示す。「こ」の音声の場合図からも分るように
約20msecの間ほぼ同じような波形であることが知
れる。一方「ぎん」の場合約60〜80msecの間ほ
ぼ同じ波形であることが分る。これは普通の速さで人が
会話をするとき口の形、のどの形、声帯の振動等は急激
に変化することはなく、速くても約20msec位の間
5同じ状態を保つていると考えられる。このことは第2
図に示した合成器にて合成音を得る場合音韻性を表わす
PARCOR係数11等は20msecの間同じで良い
ことが分る。
Similarly, FIG. 4 shows the natural speech waveform of the "gin" part of "Ginkou". In the case of the voice "ko", as can be seen from the figure, the waveform is almost the same for about 20 msec. On the other hand, in the case of "Gin", it can be seen that the waveform is almost the same for about 60 to 80 msec. This means that when a person speaks at a normal speed, the shape of the mouth, throat, vibration of the vocal cords, etc. do not change suddenly, and remain the same for about 20 msec at the most. Conceivable. This is the second
It can be seen that when a synthesized sound is obtained by the synthesizer shown in the figure, the PARCOR coefficient 11 etc. representing phonological properties may be kept the same for 20 msec.

よつて記憶部12には自然音声を20msecごとに分
析し、PARCOR係数等の情報を時系列的に収納すれ
ば良い。実際に第3図、第4図の音声を計算機にて分析
し第2図に示した音声合成装置によつて合成し得られた
合成音の波形を第5図、第6図に示す。
Therefore, natural speech may be analyzed every 20 msec and information such as PARCOR coefficients may be stored in the storage unit 12 in chronological order. FIGS. 5 and 6 show the waveforms of synthesized sounds obtained by actually analyzing the voices shown in FIGS. 3 and 4 using a computer and synthesizing them using the speech synthesizer shown in FIG. 2.

第.5図の場合などは特に20msecごとに各データ
が変わつているのが分る。実際に合成音を聞いた感じと
しては、音の滑らかさに欠け、自然性を損なつたものと
なつている。この原因としては、各種データがステツプ
状に変化するため音声のスペクィトラムの時間的不連続
が大きくなるからである。また、第6図の「ぎん」の場
合には、立上り部分が0からでなく、急にある程度の振
幅をもつた正弦波状の波形から始まつているため「プチ
ツ」というパルシブなノイズが入り「プチツ+銀行」と
なつて聞こえる。合成音の滑らかさを増す方法として補
間の手段があり、これを利用したPARCOR型音声合
成装置を第7図に示す。
No. In the case of Figure 5, it can be seen that each piece of data changes every 20 msec. When I actually heard the synthesized sound, it lacked smoothness and lost its naturalness. The reason for this is that various data change in a stepwise manner, which increases temporal discontinuity in the audio spectrum. In addition, in the case of "Gin" in Figure 6, the rising part does not start from 0, but suddenly starts from a sinusoidal waveform with a certain amplitude, so there is a pulsative noise called "Puchitsu". It sounds like "Puchits + Bank". Interpolation is a method of increasing the smoothness of synthesized speech, and FIG. 7 shows a PARCOR-type speech synthesis device that utilizes interpolation.

図において13は補間回路である。補間回路13は適当
な補間周期にて各種パラメータを直線補間し、デイジタ
ルフイルタ5等にデータを送り出し合成音に滑らかさを
与え、自然な音声を得ようとするものである。第7図の
PARCOR型音声合成装置にて得られた音声波形を第
8図、第9図に示す。「こ」に関しては第5に比較して
波形そのものから判断しても滑らかさが増しているが、
「こ」の頭の部分にある無声音が0から漸近的に増大し
てくるため無声音がはつきりしない、立上りが弱くなつ
てしまう等の問題がある。一方「ぎん」の方については
「プチツ」等のノイズもなく滑らかな音声が得られる。
本発明は上記した従来技術の欠点をなくし音声の不連続
点においても聞きやすい音声を合成する音声合成方法を
提供するにある。
In the figure, 13 is an interpolation circuit. The interpolation circuit 13 performs linear interpolation on various parameters at an appropriate interpolation cycle, and sends the data to the digital filter 5 etc. to give smoothness to the synthesized sound and obtain natural speech. FIGS. 8 and 9 show speech waveforms obtained by the PARCOR type speech synthesizer shown in FIG. 7. Regarding "Ko", compared to the fifth one, judging from the waveform itself, the smoothness has increased,
Since the unvoiced sound at the beginning of "ko" increases asymptotically from 0, there are problems such as the unvoiced sound not coming out or the rising edge becoming weak. On the other hand, for "Gin", a smooth voice is obtained without any noise such as "Puchitsu".
SUMMARY OF THE INVENTION An object of the present invention is to provide a speech synthesis method that eliminates the drawbacks of the prior art described above and synthesizes speech that is easy to hear even at discontinuous points of speech.

本発明は音声合成装置において、1単位時間前の音声の
有・無(無音・有声音または無声音すなわち有音)を記
憶し、次の音声の種類が有声音、無声音かによつて音量
情報の補間の方法を切り替えることによつて聞きやすい
合成音を得るものである。
The present invention is a speech synthesis device that stores the presence/absence of speech (silent/voiced or unvoiced, i.e., voiced) from one unit time ago, and determines the volume information depending on whether the type of the next speech is voiced or unvoiced. By switching the interpolation method, a synthesized sound that is easy to hear can be obtained.

以下本発明になる音声合成装置を図に示す実施例により
説明する。
DESCRIPTION OF THE PREFERRED EMBODIMENTS The speech synthesis device according to the present invention will be explained below with reference to embodiments shown in the drawings.

第10図に本発明によるPARCOR型音声合成装置の
一実施例を示す。
FIG. 10 shows an embodiment of a PARCOR type speech synthesizer according to the present invention.

第7図と同一符号の物は同一物を示し同一の動作を行な
う。第10図において、14は遅延回路、15は判定回
路、16は切り換えスイツチ、17はゼロ検出回路であ
る。ゼロ検出回路17は記憶部12からの音量情報が0
ならば0を、それ以外のときは1を出力する。遅延回路
14はゼロ検出回路17の1、O信号を遅延させ、1単
位時間前の値を保持する。切り換えスイツチ16は音量
情報10としてスイツチ16が口側に接続されたとき補
間回路13を通つて補間された値を用い、イ側に接続さ
れたときは記憶部12からの値をそのまま用いる。切り
換えスイツチ16の制御は判定回路15によつて行なわ
れる。判定回路15は無音状態から有音状態になつたと
きに、有声音ならば0を無声音ならば1を出力し1、0
に対応し切換えスイツチ16をイ,口に接続する。判定
回路15の具体回路を第11図に示す。回路の説明の前
に記憶部12からのデータで、有声・無声音切換え信号
9は、有声音の時1、無声音の時0とする。図において
第10図と同一符号の物は同一物を示す。(1)有音状
態が続いている場合を考える。
Components with the same reference numerals as in FIG. 7 indicate the same components and perform the same operations. In FIG. 10, 14 is a delay circuit, 15 is a determination circuit, 16 is a changeover switch, and 17 is a zero detection circuit. The zero detection circuit 17 detects that the volume information from the storage unit 12 is 0.
If so, output 0, otherwise output 1. The delay circuit 14 delays the 1 and O signals of the zero detection circuit 17 and holds the value one unit time ago. The changeover switch 16 uses the value interpolated through the interpolation circuit 13 as the volume information 10 when the switch 16 is connected to the mouth side, and uses the value from the storage section 12 as it is when it is connected to the mouth side. The changeover switch 16 is controlled by the determination circuit 15. When the state changes from a silent state to a sound state, the determination circuit 15 outputs 0 if it is a voiced sound and 1 if it is an unvoiced sound.
Corresponding to this, selector switch 16 is connected to A and A. A specific circuit of the determination circuit 15 is shown in FIG. Before explaining the circuit, it is assumed that the voiced/unvoiced sound switching signal 9 is 1 for a voiced sound and 0 for an unvoiced sound using data from the storage unit 12. In the figure, the same reference numerals as in FIG. 10 indicate the same parts. (1) Consider a case where a voiced state continues.

ゼロ検出回路17は常に1を出力し、遅延回路14の出
力も1となりインバータ18の出力は0となる。よつて
、ANDゲート19の入力4は(1、0)となり出力は
0となる。そしてANDゲートの入力は(0)となり、
(1または0)インバータ21の出力には関係なく出
力は常にoとなる。そして切り換えスイツチ16は口側
に接続され、音量情報10は補間された値を用いること
になる。(2)無音状態から有音状態(有声音)に変化
した場合を考える。
The zero detection circuit 17 always outputs 1, the output of the delay circuit 14 also becomes 1, and the output of the inverter 18 becomes 0. Therefore, the input 4 of the AND gate 19 becomes (1, 0), and the output becomes 0. And the input of the AND gate becomes (0),
(1 or 0) Regardless of the output of the inverter 21, the output is always o. The changeover switch 16 is connected to the mouth side, and the volume information 10 uses an interpolated value. (2) Consider a case where a silent state changes to a sound state (voiced sound).

ゼロ検出回路17はoから1に変化し、遅延回路14の
出力はoとなる。
The zero detection circuit 17 changes from o to 1, and the output of the delay circuit 14 becomes o.

そしてインバーター18の入力はo、出力は1となり、
ANDゲート19の入力は(1、1)となり出力は1と
なる。次にインバータ21の入力は1、出力はoとなり
ANDゲート20の入力は(1、0)となり出力はoと
なる。そして切り換えスイツチ16は口側に接続され、
音量情報10は補間された値を用いることになり(1)
の場合と同様になる。(3)無音状態から有音状態(無
声音)に変化した場合。
Then, the input of the inverter 18 is o, the output is 1,
The input of the AND gate 19 becomes (1, 1), and the output becomes 1. Next, the input of the inverter 21 becomes 1 and the output becomes o, and the input of the AND gate 20 becomes (1, 0) and the output becomes o. And the changeover switch 16 is connected to the mouth side,
Volume information 10 will use interpolated values (1)
The result is the same as in the case of . (3) When the state changes from a silent state to a sound state (voiceless sound).

ANDゲート19の出力が1となるところまでは(2)
の場合と同様でありインバータ21の入力は0、出力は
1、そしてANDゲート20の入力は(1、1)となり
出力は1となる。
Until the output of AND gate 19 becomes 1 (2)
The input of the inverter 21 is 0, the output is 1, and the input of the AND gate 20 is (1, 1), so the output is 1.

これによつて切換えスイツチ16はイ側に接続され、音
量情報10として、記憶部12からの値がそのまま使用
される。第10図のPARCOR型音声合成装置にて得
られた合成音声波形を第12図、第13図に示す。
As a result, the changeover switch 16 is connected to the A side, and the value from the storage section 12 is used as is as the volume information 10. FIGS. 12 and 13 show synthesized speech waveforms obtained by the PARCOR type speech synthesizer shown in FIG. 10.

第12図の「こ」の頭の無声音の部分の立上りはするど
く、はつきりした無声音を聞きとることが出来る。一方
第13図の「ぎん」の部分においても「プチツ」等のノ
イズは無く、全体として明確さと滑らかさをもつた合成
音を得ることが出来る。前述した如く、従来無声音がは
つきりしない有声音の立上り時に「プチツ」等のパルシ
グなノイズが発生する等の問題があつたが本発明により
それらの問題は解決され、明確でかつ滑らかな合成音を
得ることが出来る。
The unvoiced part at the beginning of ``ko'' in Figure 12 has a sharp rise, and you can hear the sharp unvoiced sound. On the other hand, there is no noise such as "Puchitsu" in the "Gin" part of FIG. 13, and it is possible to obtain a synthesized sound with clarity and smoothness as a whole. As mentioned above, conventionally there were problems such as pulsing noises such as "puchits" occurring at the rise of voiced sounds where unvoiced sounds do not stand out, but the present invention solves these problems and allows for clear and smooth synthesis. You can get sound.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は自然音声をスペクトラム分解した波形図、第2
図は従来のPARCOR型音声合成装置のプロツク図、
第3図、第4図は自然音声の波形図、第5図、第6図は
第2図の合成器にて得られた合成音声波形図、第7図は
従来のPARCOR型音声合成装置のプロツク図、第8
図、第9図は第7図の合成器にて得られた合成音声波形
図、第10図は本発明による音声合成装置の一実施例を
示すプロツク図、第11図は判定回路の一具体例を示す
プロツク図、第12図、第13図を本発明による合成装
置にて得られた合成音声波形図である。 1:雑音発生器、2:パルス発生器、4:掛算器、5:
デイジタルフイルタ、6:D/A変換器、12:記憶部
、14:遅延回路、15:判定回路、17:ゼロ検出回
路。
Figure 1 is a waveform diagram of spectrum decomposition of natural speech, Figure 2
The figure shows a block diagram of a conventional PARCOR type speech synthesizer.
Figures 3 and 4 are waveform diagrams of natural speech, Figures 5 and 6 are waveform diagrams of synthesized speech obtained by the synthesizer shown in Figure 2, and Figure 7 is a diagram of the synthesized speech obtained by the synthesizer of Figure 2. Plot diagram, No. 8
9 is a synthesized speech waveform diagram obtained by the synthesizer of FIG. 7, FIG. 10 is a block diagram showing an embodiment of the speech synthesizer according to the present invention, and FIG. 11 is a specific example of the determination circuit. 12 and 13 are synthesized speech waveform diagrams obtained by the synthesizer according to the present invention; FIG. 1: Noise generator, 2: Pulse generator, 4: Multiplier, 5:
Digital filter, 6: D/A converter, 12: Storage section, 14: Delay circuit, 15: Judgment circuit, 17: Zero detection circuit.

Claims (1)

【特許請求の範囲】[Claims] 1 自然音声より切り出された波形から抽出されたスペ
クトル情報とピッチ情報及び音量情報をもとにディジタ
ルフィルタで音声を合成する音声合成方法において、無
音状態から有声音源へ変化する場合に音量情報を連続的
に補間し、無音状態から無声状態へ変化する場合に音量
情報を補間することなしに使用し合成音を得ることを特
徴とする音声合成方法。
1 In a speech synthesis method that synthesizes speech using a digital filter based on spectrum information, pitch information, and volume information extracted from a waveform extracted from natural speech, the volume information is continuously synthesized when changing from a silent state to a voiced sound source. 1. A speech synthesis method characterized in that when changing from a silent state to a silent state, volume information is used without interpolation to obtain a synthesized sound.
JP8290080A 1980-06-20 1980-06-20 Speech synthesis method Expired JPS5950079B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8290080A JPS5950079B2 (en) 1980-06-20 1980-06-20 Speech synthesis method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8290080A JPS5950079B2 (en) 1980-06-20 1980-06-20 Speech synthesis method

Publications (2)

Publication Number Publication Date
JPS5710194A JPS5710194A (en) 1982-01-19
JPS5950079B2 true JPS5950079B2 (en) 1984-12-06

Family

ID=13787124

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8290080A Expired JPS5950079B2 (en) 1980-06-20 1980-06-20 Speech synthesis method

Country Status (1)

Country Link
JP (1) JPS5950079B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58158537U (en) * 1982-04-14 1983-10-22 アルパイン株式会社 radio receiver
AU657123B2 (en) * 1991-03-01 1995-03-02 E.I. Du Pont De Nemours And Company Surface treated aramid fibers and a process for making them

Also Published As

Publication number Publication date
JPS5710194A (en) 1982-01-19

Similar Documents

Publication Publication Date Title
JP3985814B2 (en) Singing synthesis device
Verfaille et al. Adaptive digital audio effects (A-DAFx): A new class of sound transformations
EP0982713A2 (en) Voice converter with extraction and modification of attribute data
JP4265501B2 (en) Speech synthesis apparatus and program
JP3430985B2 (en) Synthetic sound generator
JPH0193795A (en) Enunciation speed conversion for voice
JP3576800B2 (en) Voice analysis method and program recording medium
KR20030031936A (en) Mutiple Speech Synthesizer using Pitch Alteration Method
JPH04358200A (en) Speech synthesizer
Keiler et al. Efficient linear prediction for digital audio effects
Dutilleux et al. Time‐segment Processing
JPH11259066A (en) Musical acoustic signal separation method, device therefor and program recording medium therefor
JP5360489B2 (en) Phoneme code converter and speech synthesizer
JPS5950079B2 (en) Speech synthesis method
JP5560769B2 (en) Phoneme code converter and speech synthesizer
Lawlor A novel efficient algorithm for voice gender conversion
JP2005524118A (en) Synthesized speech
JP3540609B2 (en) Voice conversion device and voice conversion method
JPH02293900A (en) Voice synthesizer
KR100359988B1 (en) real-time speaking rate conversion system
JPH1031496A (en) Musical sound generating device
JPH02153397A (en) Voice recording device
JPS587197A (en) Singing voice generator
KR100322704B1 (en) Method for varying voice signal duration time
JP2004287350A (en) Voice conversion device, sound effect giving device, and program