JPH03269599A - Voice synthesizer - Google Patents

Voice synthesizer

Info

Publication number
JPH03269599A
JPH03269599A JP6999390A JP6999390A JPH03269599A JP H03269599 A JPH03269599 A JP H03269599A JP 6999390 A JP6999390 A JP 6999390A JP 6999390 A JP6999390 A JP 6999390A JP H03269599 A JPH03269599 A JP H03269599A
Authority
JP
Japan
Prior art keywords
pitch pattern
voice
speech
pitch
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6999390A
Other languages
Japanese (ja)
Inventor
Tetsunori Kobayashi
哲則 小林
Makoto Akaha
誠 赤羽
Kenzo Akagiri
健三 赤桐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP6999390A priority Critical patent/JPH03269599A/en
Publication of JPH03269599A publication Critical patent/JPH03269599A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE:To generate a natural synthesized voice which is close to an actual human voice and provides no feeling of incompatibility by adding fluctuating components to a basis pitch pattern and composing a pitch pattern, and generating the synthesized voice according to a composite parameter and pitch pattern. CONSTITUTION:A document analytic part 2 analyzes an sequence of inputted characters and detect the borders and basic accents of words and phrases. A voice synthesis rule part 3 generates the composition parameter and basic pitch pattern according to a specific phoneme rule and a rhythm rule by using the detection result of the document analysis part 2 to generate fluctuating component by an IIR type filter which has a filter coefficient based upon the autocorrelation of fluctuations of the pitch of an actual voice and adds the fluctuating components to the basic pitch pattern to synthesize the pitch pattern. A voice synthesis part 4 generates the synthesized voice according to the compo sition pattern and pitch pattern. Consequently, the natural synthesized voice which provides no incompatible feeling while close to the actual human voice can be generated.

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は音声合成装置、特に規則合成方式の音声合成
装置に関する。
DETAILED DESCRIPTION OF THE INVENTION [Field of Industrial Application] The present invention relates to a speech synthesis device, and particularly to a speech synthesis device using a rule synthesis method.

〔発明の概要〕[Summary of the invention]

この発明は、音声合成装置において、入力された文字の
系列を解析して、単語、文節の境界及び基本アクセント
を検出する文章解析部と、文章解析部の検出結果に基づ
いて、所定の音韻規則及び韻律規則に従って、合成パラ
メータ及び基本ピッチパターンを生成し、実音声のピッ
チのゆらぎの自己相関係数に基づくフィルタ係数を有す
るIIR型フィルタによって、ゆらぎ成分を形成すると
共に、基本ピッチパターンにゆらぎ成分を付加してピッ
チパターンを合成する音声合成規則部と、合成パラメー
タ及びピッチパターンに基づいて、合成音を生成する音
声合成部とを備えることにより、違和感のない、そして
、より自然な合成音を形成できるようにしたものである
This invention provides a speech synthesis device that includes a sentence analysis section that analyzes a sequence of input characters to detect boundaries between words and clauses, and basic accents, and a predetermined phonological rule based on the detection results of the sentence analysis section. A synthesis parameter and a basic pitch pattern are generated according to a prosodic rule and a fluctuation component is formed by an IIR type filter having a filter coefficient based on an autocorrelation coefficient of pitch fluctuation of the actual speech, and a fluctuation component is added to the basic pitch pattern. By including a speech synthesis rule section that synthesizes a pitch pattern by adding a pitch pattern, and a speech synthesis section that generates a synthesized sound based on the synthesis parameters and pitch pattern, it is possible to create a synthesized sound that does not feel strange and is more natural. It is designed so that it can be formed.

〔従来の技術〕[Conventional technology]

従来、規則合成方式による音声合成装置においては、入
力された文字の系列を解析した後、所定の規則に従って
パラメータを合成することにより、いかなる言葉でも音
声音或し得るようになされている。
Conventionally, in a speech synthesis device using a rule synthesis method, any word can be converted into speech sound by analyzing an input character sequence and then synthesizing parameters according to a predetermined rule.

すなわち、規則合成方式による音声合成装置は、入力さ
れた文字の系列を解析した後、所定の規則に従って、各
文節ごとにアクセントを検出し、各文節の並びから、文
字系列全体としての抑揚、ポーズ等を表現するピッチパ
ラメータを合成する。
In other words, a speech synthesizer using a rule synthesis method analyzes an input character sequence, then detects the accent for each phrase according to a predetermined rule, and calculates the intonation and pause of the entire character series from the sequence of each phrase. Synthesize pitch parameters that express etc.

それと共に、音声合成装置は、所定の規則に従って各文
節を例えばCVC単位に分割した後、そのスペクトラム
を表現する合成パラメータを生成する。
At the same time, the speech synthesizer divides each phrase into, for example, CVC units according to a predetermined rule, and then generates synthesis parameters expressing the spectrum.

音声合成装置は、上述のピッチパラメータ及び合成パラ
メータに基づいて合成音を形成する。
The speech synthesis device forms synthesized speech based on the pitch parameter and synthesis parameter described above.

〔発明が解決しようとする課題〕[Problem to be solved by the invention]

ところが、従来の規則合成方式による音声合成装置で音
声を合成した場合、母音の部分がブザー音のように発声
され、実際の人間の音声に比して不自然で、極めて聞き
づらいという問題点があった。
However, when speech is synthesized using a conventional speech synthesizer using a regular synthesis method, there is a problem in that the vowel part is pronounced like a buzzer sound, which is unnatural compared to actual human speech and extremely difficult to hear. Ta.

従って、この発明の目的は、実際の人間の音声に比して
違和感のない、そして自然な合成音を形成できる音声合
成装置を提案することにある。
Therefore, an object of the present invention is to propose a speech synthesizer capable of forming synthesized speech that is more natural and does not give a sense of discomfort compared to actual human speech.

[課題を解決するための手段] この発明では、人力された文字の系列を解析して、単語
、文節の境界及び基本アクセントを検出する文章解析部
と、文章解析部の検出結果に基づいて、所定の音韻規則
及び韻律規則に従って、合成パラメータ及び基本ピッチ
パターンを生成し、実音声のピッチのゆらぎの自己相関
係数に基づくフィルタ係数を有するIIR型フィルタに
よって、ゆらぎ成分を形成すると共に、基本ピ・ンチパ
ターンにゆらぎ成分を付加してピッチパターンを合成す
る音声合成規則部と、合成パラメータ及びピ・ンチパタ
ーンに基づいて、合成音を生成する音声合成部とを備え
る構成としている。
[Means for Solving the Problems] This invention includes a sentence analysis unit that analyzes a sequence of manually generated characters to detect boundaries between words and clauses, and basic accents, and based on the detection results of the sentence analysis unit, Synthesis parameters and basic pitch patterns are generated according to predetermined phonological and prosodic rules, and a fluctuation component is formed by an IIR filter having a filter coefficient based on an autocorrelation coefficient of pitch fluctuation of real speech. - A voice synthesis rule unit that adds a fluctuation component to a pinch pattern to synthesize a pitch pattern, and a voice synthesis unit that generates a synthesized sound based on the synthesis parameters and the pinch pattern.

〔作用] 基本ピッチパターンに、実音声のピッチのゆらぎの自己
相関係数に基づくフィルタ係数を有するIIR型フィル
タによって形成されるゆらぎ成分を付加してピッチパタ
ーンを合成する。そして、このピッチパターン及び合成
パラメータに基づいて合成音が生成される。従って、人
間の音声に近い違和感のない自然な合成音を得ることが
できる。
[Operation] A pitch pattern is synthesized by adding a fluctuation component formed by an IIR type filter having a filter coefficient based on an autocorrelation coefficient of pitch fluctuation of actual speech to a basic pitch pattern. Then, a synthesized sound is generated based on this pitch pattern and synthesis parameters. Therefore, it is possible to obtain a natural synthesized sound that is close to human speech and does not give any discomfort.

〔実施例〕〔Example〕

以下、この発明の一実施例について第1図乃至第9図を
参照して説明する。
An embodiment of the present invention will be described below with reference to FIGS. 1 to 9.

第1図において、1は全体として演算処理装置構成の音
声合成装置の概略構成を示し、文章解析部2、音声合成
規則部3及び音声合成部4に分割される。
In FIG. 1, reference numeral 1 indicates a schematic configuration of a speech synthesis device having an arithmetic processing unit configuration as a whole, and is divided into a text analysis section 2, a speech synthesis rule section 3, and a speech synthesis section 4.

文章解析部2は、所定の入力装置から入力された文字の
系列で表された文章等のテキスト人力を、所定の辞書を
基準にして解析し、仮名文字列に変換した後、単語、文
節毎に分解する。
The text analysis unit 2 analyzes human text such as sentences expressed as a series of characters input from a predetermined input device using a predetermined dictionary as a reference, converts it into a kana character string, and then converts it into a kana character string. Decompose into.

即ち、日本語では、英語のように単語が分かち書きされ
ていないことから、例えば「米国産業界」のような言葉
は、「米国/産業・界」、「米/国産/業界」のように
2種類に区分化し得る。
In other words, in Japanese, words are not separated like in English, so for example, a word like "US industry" is written in two words like "US/industry/kai" or "US/domestic production/industry." It can be divided into types.

このため文章解析部2は、辞書を参考にしながら、言葉
の連続関係及び単語の統計的性質を利用して、テキスト
人力を単語、文節毎に分解し、これにより単語、文節の
境界を検出するようになされている。
For this reason, the text analysis unit 2 uses the dictionary as a reference and the continuous relationship of words and the statistical properties of words to break down the text into words and clauses, thereby detecting boundaries between words and clauses. It is done like this.

さらに文章解析部2は、各単語毎に基本アクセントを検
出した後、音声合成規則部3に出力する。
Further, the sentence analysis section 2 detects the basic accent for each word and then outputs it to the speech synthesis rule section 3.

音声合成規則部3は、日本語の特徴に基づいて設定され
た所定の音韻規則に従って、文章解析部2の検出結果及
びテキスト人力を処理するようになされている。
The speech synthesis rule section 3 is configured to process the detection results of the sentence analysis section 2 and the human text in accordance with predetermined phonological rules set based on the characteristics of the Japanese language.

すなわち、日本語の自然な音声は、言語学的特性に基づ
いて区別すると、5000〜6000の発声の単位に区
分することができる。例えば、「さくら」という単語を
発声の単位に区分すると、rsak」”−7kur4 
+ ”ra4の3つのCVC単位に分割することができ
る。
That is, natural Japanese speech can be divided into 5,000 to 6,000 units of pronunciation based on linguistic characteristics. For example, if we divide the word ``Sakura'' into vocal units, we get rsak''-7kur4
+” can be divided into three CVC units of ra4.

さらに日本語は、単語が連続する場合、連なった後の語
の語頭音節が濁音化したり(すなわち続濁)、語頭以外
のガ行音が鼻音化したりして、単語単体の場合と発声が
変化する特徴がある。
Furthermore, in Japanese, when words are consecutive, the initial syllable of the word after the word becomes dull (i.e., tsudaku), and the G sound other than the initial syllable of the word becomes nasal, making the pronunciation different from that of a single word. There is a characteristic that

従って音声合成規則部3では、これら日本語の特徴に従
って音韻規則が設定されており、この音韻規則に従って
テキスト人力を、上述のrsak」十rkurJ + 
rraJ等の連続する音韻記号列に変換する。
Therefore, in the speech synthesis rule section 3, phonological rules are set according to these characteristics of Japanese, and according to these phonological rules, text human power is converted into the above-mentioned rsak''
It is converted into a continuous phoneme symbol string such as rraJ.

さらに音声合成規則部3は、音韻記号列に基づいて、所
定の記憶手段から各CVC単位の発声音のスペクトラム
を表すデータをロードする。
Further, the speech synthesis rule section 3 loads data representing the spectrum of the vocalization sound of each CVC unit from a predetermined storage means based on the phonetic symbol string.

ここで音声合成装置1は、L S P (Line 5
pectruIIlpair)の手法を用いて合成音を
発声するようになされているもので、所定の記憶手段か
らロードされるデータは、各CvC単位で表される合成
音を生成する際に用いられるパラメータのデータである
Here, the speech synthesizer 1 uses L S P (Line 5
The synthesized sound is uttered using the method of pectruIIlpair), and the data loaded from a predetermined storage means is the data of the parameters used when generating the synthesized sound expressed in each CvC unit. It is.

さらに音声合成規則部3は、CVC単位でパラメータの
データが得られると、続いて合成音のスペクトルが滑ら
かに変化するように、CVC単位間についてパラメータ
を補間する。
Furthermore, when parameter data is obtained in CVC units, the speech synthesis rule unit 3 interpolates parameters between CVC units so that the spectrum of the synthesized speech changes smoothly.

音声合成規則部3は、所定の記憶手段からロードされた
データ及び補間されたデータをテキスト人力に応じた順
序(以下このデータを合成パラメータと呼ぶ)で合威す
る。これによって、抑揚のない状態で、テキスト人力を
読み上げた音声を表す合成パラメータを得ることができ
る。
The speech synthesis rule section 3 combines the data loaded from a predetermined storage means and the interpolated data in an order according to the text input (hereinafter, this data is referred to as a synthesis parameter). As a result, it is possible to obtain synthesis parameters that represent the human voice of the text without intonation.

さらに音声合成規則部3は、所定の韻律規則に基づいて
、テキスト入力を適当な長さで分割して、切れ目(すな
わちポーズ)を検出する。上述の韻律規則とは、合威さ
れた音声に対し、実際に人間が発声したような感じを与
えるための、基本周波数、振幅、イントネーション、ア
クセント、音韻の長さ等に関する規則の集合をいう。
Furthermore, the speech synthesis rule section 3 divides the text input into appropriate lengths based on predetermined prosodic rules and detects breaks (that is, pauses). The above-mentioned prosodic rules are a set of rules regarding fundamental frequency, amplitude, intonation, accent, length of phoneme, etc., to give the synthesized speech the feeling of actually being uttered by a human being.

従って、例えば、第2図Aに示されるように、テキスト
人力として文章「きれいな花を山田さんからもらいまし
た」が入力された場合、このテキスト入力は、第2図B
に示されるように、rきれいなコ、「はなJ、「山田さ
んから」、′もらいました」に分解された後、「はな」
及び「山田さんからコ間にポーズが検出される。
Therefore, for example, as shown in Figure 2A, if the sentence ``I received beautiful flowers from Mr. Yamada'' is input as a text input, this text input will be changed to Figure 2B.
As shown in , after being decomposed into r Kirei ko, ``Hana J, ``From Mr. Yamada,'' and ``I got it'', ``Hana''
and “A pose was detected between Mr. Yamada and Ko.

さらに音声合成規則部3は、韻律規則及び各単語の基本
アクセントに基づいて、各文節のアクセントを検出する
Further, the speech synthesis rule unit 3 detects the accent of each clause based on the prosodic rule and the basic accent of each word.

すなわち日本語の文節単体のアクセントは、感覚的に仮
名文字を単位として(以下モーラと呼ぶ)高低の2レベ
ルで表現することができる。
In other words, the accent of a single Japanese phrase can be intuitively expressed in two levels, high and low, using kana characters as units (hereinafter referred to as mora).

このとき、文節の内容等に応して、文節のアクセント位
置を区別することができる。例えば、端、箸、橋は、2
モーラの単語で、それぞれアクセントのない0型、アク
セントの位置が先頭のモーラにある1型、アクセントの
位置が2モーラ目にある2型に分類することができる。
At this time, the accent position of the phrase can be distinguished depending on the content of the phrase. For example, edges, chopsticks, and bridges are 2
Mora words can be classified into type 0, which has no accent, type 1, which has an accent in the first mora, and type 2, which has an accent in the second mora.

音声合成規則部3は、テキスト入力の各文節を、第2図
Cに示されるように、1型、2型、0型、4型と分類し
、これにより文節単位でアクセント及びポーズを検出す
る。
The speech synthesis rule unit 3 classifies each clause of the input text into type 1, type 2, type 0, and type 4, as shown in FIG. 2C, and thereby detects accents and pauses for each clause. .

さらに音声合成規則部3は、アクセント及びポーズの検
出結果に基づいて、テキスト入力全体の抑揚を表す基本
ピッチパターンを生成する。すなわち日本語においては
、文節のアクセントは、感覚的に2レヘルで表し得るの
に対し、実際の抑揚は、第2図りに示されるように、ア
クセントの位置から徐々に低下する傾向がある。さらに
日本語においては、文節が連続して1つの文章になると
、第2図已に示されるように、ポーズから続くポーズに
向かって、抑揚が徐々に低下する傾向がある。
Further, the speech synthesis rule unit 3 generates a basic pitch pattern representing the intonation of the entire text input based on the accent and pause detection results. In other words, in Japanese, the accent of a phrase can be expressed intuitively by two levels, whereas the actual intonation tends to gradually fall from the accent position, as shown in the second diagram. Furthermore, in Japanese, when a series of phrases becomes a single sentence, the intonation tends to gradually decrease from one pause to the next, as shown in Figure 2.

音声合成規則部3は、上述のような日本語の特徴に基づ
いて、テキスト人力全体の抑揚を表すパラメータを各モ
ーラ毎に生成した後、人間が発声した場合と同様に抑揚
が滑らかに変化するように、モーラ間に補間によりパラ
メータを設定する。
The speech synthesis rule unit 3 generates a parameter representing the intonation of the entire text human voice for each mora based on the above-mentioned Japanese characteristics, and then creates a parameter that changes the intonation smoothly in the same way as when a human speaks. , the parameters are set by interpolation between the moras.

このようにして、音声合成規則部3では、テキスト入力
に応じた順序で、各モーラのパラメータ及び補間したパ
ラメータを合威しく以下基本ピッチパターンと呼ぶ)、
第2図Fに示されるように、テキスト人力を読み上げた
音声の抑揚を表す基本ピッチパターンが形成される。
In this way, the speech synthesis rule section 3 generates the parameters of each mora and the interpolated parameters in the order according to the text input (hereinafter referred to as basic pitch pattern),
As shown in FIG. 2F, a basic pitch pattern representing the intonation of the voice read out from the text is formed.

第1図に示されるように、音声合成規則部3には、上述
の基本ピッチパターンを実際に人間が発声しているよう
な自然の状態に近づけるため、ピッチの変化、即ち、ゆ
らぎを与えるゆらぎ付加部5が設けられている。
As shown in FIG. 1, the speech synthesis rule section 3 includes pitch changes, that is, fluctuations that cause fluctuations, in order to bring the above-mentioned basic pitch pattern closer to the natural state of human vocalization. An additional section 5 is provided.

このゆらぎ付加部5は、第3図に示されるように、乱数
発生部6、データ変換部8、フィルタ回路IO1加算回
路I2等から主に構成される。
As shown in FIG. 3, the fluctuation adding section 5 mainly includes a random number generating section 6, a data converting section 8, a filter circuit IO1, an adding circuit I2, and the like.

乱数発生部6で、発生確率が、例えば、−様分布に従う
乱数を発生した後、この乱数をデータ変換部8に出力す
る。
After the random number generator 6 generates a random number whose probability of occurrence follows, for example, a −-like distribution, this random number is output to the data converter 8 .

データ変換部8は、リードオンリメモリ回路で構成され
、入力された乱数のデータをアドレスにして格納された
データを出力する。
The data converter 8 is constituted by a read-only memory circuit, and outputs the stored data using the input random number data as an address.

このときデータ変換部8は、切り換え操作に応動して、
アドレス領域を切り換えるようになされ、これにより第
4図に示すように、人力された乱数の値に対して、出力
データの値を切り換え得るようになされ、入力された一
様分布の乱数をガンマ分布(記号L1で示す)又は正規
分布(記号L2で示す)の乱数に変換する。この変換さ
れた乱数がフィルタ回路10に供給される。
At this time, the data converter 8 responds to the switching operation by
As shown in Fig. 4, the output data value can be changed according to the manually inputted random number value, and the input uniformly distributed random number can be changed to the gamma distribution. (denoted by symbol L1) or normally distributed (denoted by symbol L2). This converted random number is supplied to the filter circuit 10.

フィルタ回路10は、第5図に示されるように、加算回
路15と、遅延オペレータz −1で表される遅延回路
161.162.163、・・・−163とを直列接続
すると共に、各遅延回路161.162.163、−−
−−m−・、163の出力側からの信号を係数器171
.172.173、−−−−一−−117Sを介して加
算回路15にフィードバックする構成の、いわゆるII
Rデジタルフィルタとされている。
As shown in FIG. 5, the filter circuit 10 includes an adder circuit 15 and delay circuits 161, 162, 163, . . . Circuit 161.162.163, --
The signal from the output side of --m-., 163 is input to the coefficient unit 171
.. 172.173, so-called II configured to feed back to the adder circuit 15 via 117S
It is considered to be an R digital filter.

このフィルタ回路10の係数器171.172゜173
、−−−−−−−173に設定されるフィルタ係数α1
〜α、は、複数人の、複数の状況から求めた実音声のピ
ッチのゆらぎの自己相関係数に基づいて規定されている
Coefficient unit 171.172°173 of this filter circuit 10
, --------173 filter coefficient α1
~α is defined based on the autocorrelation coefficient of pitch fluctuations of real voices obtained from multiple situations from multiple people.

以下、実音声のピッチのゆらぎについて説明する。The pitch fluctuation of real speech will be explained below.

第6図は、約1フレーズ分の実音声に基づいて得られた
サンプル点からなるピッチパターンを回帰直線L3で近
似した状態が示されている。図中、回帰直線L3とサン
プル点間の誤差をゆらぎとする。この実音声のピッチパ
ターンの誤差、即ち、ゆらぎの状態が第7図に示され、
そして、サンプル点間の次数と自己相関係数との関係が
第8図に示されている。尚、上述のフレーズとは、人間
が話す時に、息をつがないで話せる長さとしている。
FIG. 6 shows a state in which a pitch pattern made up of sample points obtained based on about one phrase of real speech is approximated by a regression line L3. In the figure, the error between the regression line L3 and the sample points is defined as fluctuation. The error in the pitch pattern of this actual voice, that is, the state of fluctuation is shown in FIG.
FIG. 8 shows the relationship between the order between sample points and the autocorrelation coefficient. Note that the above-mentioned phrases are of a length that a human can speak without taking a breath.

また、第8図中、縦軸略中央の破線は、相関係数が零で
あることを示し、中央の破線から上方向には(+)の相
関係数があり、下方向には(−)の相関係数があること
を示す。
In addition, in FIG. 8, the broken line at approximately the center of the vertical axis indicates that the correlation coefficient is zero; upward from the center broken line is a (+) correlation coefficient, and downward is (-). ) indicates that there is a correlation coefficient of

上述の自己相関係数(実験的には、例えば、15次から
30次程度が適切である)から、以下の式に示されるよ
うな自己回帰モデル(以下、ARモデルと称する)の係
数α、を求め、第5図に示されるIIRデジタルフィル
タを構成することができる。
From the above-mentioned autocorrelation coefficient (experimentally, for example, the 15th to 30th order is appropriate), the coefficient α of the autoregressive model (hereinafter referred to as AR model) as shown in the following formula, can be obtained, and the IIR digital filter shown in FIG. 5 can be constructed.

Y7を出力、X7を人力とするとき、 Y、l =X、1−Σα、 ・Y□。When Y7 is output and X7 is human power, Y, l = X, 1-Σα, ・Y□.

上式は、時間領域に於ける出力Y。を表す弐であり、こ
の式をZ変換すると、以下の式が得られる。
The above formula is the output Y in the time domain. is 2, which represents .If this equation is Z-transformed, the following equation is obtained.

上述のARモデルの係数α、は、線形システム同定理論
に於いて、ARモデルの予測誤差の2乗平均が最小とな
る係数として求められるもので、具体的には、いわゆる
Yule−Walkerの方程式を解くことによって求
められる(尚、係数の求め方については、古井貞煕著“
ディジモル音声処理°゛東海大学出版会(1985) 
PP62〜64参照)。
The coefficient α of the AR model mentioned above is determined as the coefficient that minimizes the square mean of the prediction error of the AR model in the linear system identification theory. (For details on how to find the coefficients, refer to Sadahiro Furui's “
Digimol audio processing ° Tokai University Press (1985)
(See PP62-64).

第5図に示されるフィルタ回路10に於いて、データ変
換部8から出力される、無相関のゆらぎ収骨としての乱
数が、端子18を介して加算回路15に供給される。各
遅延回路161−163から出力される乱数が、係数器
171〜17Sにて所定の係数α1〜α、が乗しられた
後、加算回路15に供給される。
In the filter circuit 10 shown in FIG. 5, a random number outputted from the data converter 8 as uncorrelated fluctuation correction is supplied to the adder circuit 15 via the terminal 18. Random numbers output from each delay circuit 161-163 are multiplied by predetermined coefficients α1-α in coefficient units 171-17S, and then supplied to adder circuit 15.

加算回路15では、端子18から供給される乱数と、係
数器171〜173にて所定の係数α1〜α3が乗しら
れた乱数との加算が行なわれ、この加算出力Y、、がゆ
らぎ成分とされ、このゆらぎ成分Y。が端子19から取
出されると共に、遅延回路161に供給され、取込まれ
る。
In the adder circuit 15, the random number supplied from the terminal 18 and the random number multiplied by predetermined coefficients α1 to α3 in the coefficient multipliers 171 to 173 are added, and this addition output Y, is a fluctuation component. and this fluctuation component Y. is taken out from the terminal 19, and is also supplied to the delay circuit 161 and taken in.

第3図に示されるゆらぎ付加部5に於いて、フィルタ回
路10でフィルタリングされたゆらぎ成分Y、、は加算
回路12に供給される。
In the fluctuation adding section 5 shown in FIG. 3, the fluctuation components Y, , filtered by the filter circuit 10 are supplied to the addition circuit 12.

加算回路12では、第9図Bに示される上述のゆらぎ成
分Y。が、端子7を介して供給され第9図Aに示される
基本ピッチパターンに重畳されることによって、基本ピ
ッチパターンに追従してレベルが変化し、且つゆらぎ成
分の分だけレベルが滑らかに変動する、第9図Cのピッ
チパターンが生成され、このピッチパターンが端子9か
ら取出される。
The adder circuit 12 receives the above-mentioned fluctuation component Y shown in FIG. 9B. is supplied via the terminal 7 and superimposed on the basic pitch pattern shown in FIG. , the pitch pattern shown in FIG. 9C is generated, and this pitch pattern is taken out from the terminal 9.

このゆらぎ成分の重畳は、任意の単位で行えるが、例え
ば、■フレーズ単位で与えることができる。また、II
Rデジタルフィルタは、声質、状況に応して、複数種類
容易しておくことによって、タイプの異なるゆらぎ成分
を選択できる。
This superposition of fluctuation components can be performed in any arbitrary unit, and for example, it can be given in phrase units. Also, II
By preparing a plurality of types of R digital filters according to the voice quality and situation, different types of fluctuation components can be selected.

実験によれば、ピッチ間隔の相関が重要であり、統計的
分布に基づく乱数を単なる重み付けによってフィルタリ
ングするだけでは、十分な音質改善は期待できないこと
が判明した。つまり、この発明のように実音声のピッチ
のゆらぎの自己相関係数に基づくフィルタリング処理を
行うことによって音質改善の効果がみられる。
Experiments have shown that the correlation between pitch intervals is important, and that sufficient improvement in sound quality cannot be expected by simply filtering random numbers based on statistical distribution by weighting. In other words, by performing filtering processing based on the autocorrelation coefficient of the pitch fluctuation of real speech as in the present invention, the effect of improving sound quality can be seen.

音声を底部4は、LSPの手法を用いて音声を合成する
ようになされた音声合成フィルタを有し、合成パラメー
タ及びピッチパターンに基づいて合成音を生成する。
The audio bottom section 4 has a speech synthesis filter adapted to synthesize speech using the LSP technique, and generates synthesized speech based on synthesis parameters and pitch patterns.

これにより、合成パラメータで決まるスペクトラムで、
ピッチパターンの変化に追従して抑揚の変化する合成音
を得ることができる。
As a result, the spectrum determined by the synthesis parameters is
It is possible to obtain a synthesized sound whose intonation changes in accordance with changes in the pitch pattern.

以上の構成によれば、実音声のピッチのゆらぎの自己相
関係数に基づくフィルタ係数を有するIIR型フィルタ
によって形成されるゆらぎ成分を、基本ピッチパターン
に付加してピッチパターンを合成した後、このピッチパ
ターン及び合成パラメータに基づいて合成音を生成して
いるので、ゆらぎ成分に追従して抑揚が細かく変化する
合成音を得ることができ、これにより従来に比して実際
の人間の音声に近い、違和感のない自然な合成音を得る
ことができる。
According to the above configuration, after synthesizing a pitch pattern by adding a fluctuation component formed by an IIR type filter having a filter coefficient based on an autocorrelation coefficient of pitch fluctuation of real speech to a basic pitch pattern, Since the synthesized sound is generated based on the pitch pattern and synthesis parameters, it is possible to obtain a synthesized sound whose intonation changes minutely by following the fluctuation components, which is closer to the actual human voice than before. , it is possible to obtain a natural synthesized sound without any discomfort.

さらに、ゆらぎ成分を付加したことにより、ゆらぎ成分
のレベルの分布を一様分布、ガンマ分布等切り換えて、
合成音の艶、響き、深みを切り換えることができ、これ
により所望の音質の合成音を選択出力することができる
Furthermore, by adding a fluctuation component, the level distribution of the fluctuation component can be switched to uniform distribution, gamma distribution, etc.
The luster, reverberation, and depth of the synthesized sound can be switched, and thereby a synthesized sound with a desired sound quality can be selectively output.

なお上述の一実施例においては、ガンマ分布又は正規分
布の乱数を発生して、当該乱数の値に追従してレベルが
変化するゆらぎ成分を付加する場合について述べたが、
本発明はこれに限らず、デルタ分布等の乱数等、種々の
分布の乱数からゆらぎ成分を生成するようにしてもよい
In the above embodiment, a case was described in which a gamma distribution or normal distribution random number is generated and a fluctuation component whose level changes in accordance with the value of the random number is added.
The present invention is not limited to this, and the fluctuation component may be generated from random numbers of various distributions, such as random numbers of a delta distribution.

さらに上述の実施例においては、−様分布の乱数を、デ
ータ変換部8にてガンマ分布又は正規分布の乱数に変換
する場合について述べたが、本発明はこれに限らず、上
述のデータ変換部8を除いた構成とし、−様分布の乱数
から直接、ゆらぎ成分を生成するようにしてもよい。
Further, in the above-described embodiment, a case was described in which a random number with a −-like distribution is converted into a random number with a gamma distribution or a normal distribution in the data conversion unit 8, but the present invention is not limited to this, and the data conversion unit 8 may be excluded, and the fluctuation component may be generated directly from random numbers having a −-like distribution.

さらに上述の実施例においては、LSP音声合戒合成音
声合成フィルタを用いる場合について述べたが、本発明
はこれに限らず、種々の方法を広く適用することができ
る。
Further, in the above-described embodiments, a case has been described in which an LSP speech synthesis filter is used, but the present invention is not limited to this, and various methods can be widely applied.

〔発明の効果〕〔Effect of the invention〕

この発明にかかる音声合成装置によれば、実音声のピッ
チのゆらぎの自己相関係数に基づくフィルタ係数を有す
るIIR型フィルタによって形成されるゆらぎ成分を、
基本ピッチパターンに付加してピッチパターンを合成し
た後、このピッチパターン及び合成パラメータに基づい
て合成音を生成しているので、ゆらぎ成分に追従して抑
揚が細かく変化する合成音を得ることができ、従来に比
して実際の人間の音声に近い、違和感のない自然な合成
音を生成することができる。
According to the speech synthesis device according to the present invention, a fluctuation component formed by an IIR type filter having a filter coefficient based on an autocorrelation coefficient of pitch fluctuation of real speech,
After synthesizing a pitch pattern by adding it to the basic pitch pattern, a synthesized sound is generated based on this pitch pattern and synthesis parameters, so it is possible to obtain a synthesized sound whose intonation changes finely by following the fluctuation components. , it is possible to generate natural synthesized sounds that are closer to actual human voices than ever before.

【図面の簡単な説明】[Brief explanation of drawings]

第1図はこの発明の一実施例による音声合戒装置を示す
ブロック図、第2図は夫々音声合成装置の動作を説明す
る路線図、第3図はゆらぎ付加部を示すブロック図、第
4図はデータ変換部の動作を説明する特性曲線図、第5
図はフィルタ回路を示すブロック図、第6図は実音声の
ピッチパターンを示す図、第7図は実音声のピッチパタ
ーンのゆらぎを示す図、第8図は次数に応した自己相関
係数の変化を示す図、第9図は夫々ゆらぎ付加部の動作
を説明する信号波形図である。 図面における主要な符号の説明 l:音声合成装置、 2:文章解析部、3:音声合成規
則部、 4:音声合成部、5:ゆらぎ付加部、 Yn 
:ゆらぎ成分、171〜17S:係数器、 α直〜α3 :フィルタ係数。
FIG. 1 is a block diagram showing a voice synthesis device according to an embodiment of the present invention, FIG. 2 is a route diagram explaining the operation of the voice synthesis device, FIG. 3 is a block diagram showing a fluctuation adding section, and FIG. The figure is a characteristic curve diagram explaining the operation of the data conversion section.
Figure 6 is a block diagram showing the filter circuit, Figure 6 is a diagram showing the pitch pattern of real speech, Figure 7 is a diagram showing fluctuations in the pitch pattern of real speech, and Figure 8 is a diagram showing the autocorrelation coefficient according to the order. The diagram showing the change and FIG. 9 are signal waveform diagrams explaining the operation of the fluctuation adding section, respectively. Explanation of main symbols in the drawings 1: Speech synthesis device, 2: Text analysis section, 3: Speech synthesis rule section, 4: Speech synthesis section, 5: Fluctuation addition section, Yn
: Fluctuation component, 171 to 17S: Coefficient unit, α direct to α3: Filter coefficient.

Claims (1)

【特許請求の範囲】 入力された文字の系列を解析して、単語、文節の境界及
び基本アクセントを検出する文章解析部と、 上記文章解析部の検出結果に基づいて、所定の音韻規則
及び韻律規則に従って、合成パラメータ及び基本ピッチ
パターンを生成し、実音声のピッチのゆらぎの自己相関
係数に基づくフィルタ係数を有するIIR型フィルタに
よって、ゆらぎ成分を形成すると共に、上記基本ピッチ
パターンに上記ゆらぎ成分を付加してピッチパターンを
合成する音声合成規則部と、 上記合成パラメータ及びピッチパターンに基づいて、合
成音を生成する音声合成部とを備えることを特徴とする
音声合成装置。
[Claims] A sentence analysis unit that analyzes a series of input characters to detect boundaries between words and clauses and basic accents, and a predetermined phonological rule and prosody based on the detection results of the sentence analysis unit. A synthesis parameter and a basic pitch pattern are generated according to rules, a fluctuation component is formed by an IIR type filter having a filter coefficient based on an autocorrelation coefficient of pitch fluctuation of the actual speech, and the fluctuation component is added to the basic pitch pattern. A speech synthesis device comprising: a speech synthesis rule section that synthesizes a pitch pattern by adding the above; and a speech synthesis section that generates a synthesized speech based on the synthesis parameters and the pitch pattern.
JP6999390A 1990-03-20 1990-03-20 Voice synthesizer Pending JPH03269599A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6999390A JPH03269599A (en) 1990-03-20 1990-03-20 Voice synthesizer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6999390A JPH03269599A (en) 1990-03-20 1990-03-20 Voice synthesizer

Publications (1)

Publication Number Publication Date
JPH03269599A true JPH03269599A (en) 1991-12-02

Family

ID=13418709

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6999390A Pending JPH03269599A (en) 1990-03-20 1990-03-20 Voice synthesizer

Country Status (1)

Country Link
JP (1) JPH03269599A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008010413A1 (en) * 2006-07-21 2008-01-24 Nec Corporation Audio synthesis device, method, and program
WO2018159403A1 (en) * 2017-02-28 2018-09-07 国立研究開発法人情報通信研究機構 Learning device, speech synthesis system, and speech synthesis method

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008010413A1 (en) * 2006-07-21 2008-01-24 Nec Corporation Audio synthesis device, method, and program
US8271284B2 (en) 2006-07-21 2012-09-18 Nec Corporation Speech synthesis device, method, and program
JP5093108B2 (en) * 2006-07-21 2012-12-05 日本電気株式会社 Speech synthesizer, method, and program
WO2018159403A1 (en) * 2017-02-28 2018-09-07 国立研究開発法人情報通信研究機構 Learning device, speech synthesis system, and speech synthesis method
JP2018141917A (en) * 2017-02-28 2018-09-13 国立研究開発法人情報通信研究機構 Learning device, speech synthesis system and speech synthesis method
US10957303B2 (en) 2017-02-28 2021-03-23 National Institute Of Information And Communications Technology Training apparatus, speech synthesis system, and speech synthesis method

Similar Documents

Publication Publication Date Title
JP2000206982A (en) Speech synthesizer and machine readable recording medium which records sentence to speech converting program
JP2000305582A (en) Speech synthesizing device
JPH0632020B2 (en) Speech synthesis method and apparatus
US6829577B1 (en) Generating non-stationary additive noise for addition to synthesized speech
JP3437064B2 (en) Speech synthesizer
JPH03269599A (en) Voice synthesizer
CA2343071A1 (en) Device and method for digital voice processing
JPS6223888B2 (en)
JPH0580791A (en) Device and method for speech rule synthesis
JP3622990B2 (en) Speech synthesis apparatus and method
JP3235747B2 (en) Voice synthesis device and voice synthesis method
JP3614874B2 (en) Speech synthesis apparatus and method
JP3113101B2 (en) Speech synthesizer
JP3575919B2 (en) Text-to-speech converter
JPH02293900A (en) Voice synthesizer
JP3397406B2 (en) Voice synthesis device and voice synthesis method
JP3267659B2 (en) Japanese speech synthesis method
JPH03119396A (en) Voice synthesizing device
JPH01321496A (en) Speech synthesizing device
JPH056191A (en) Voice synthesizing device
JPH06250685A (en) Voice synthesis system and rule synthesis device
JP2573587B2 (en) Pitch pattern generator
JP2578876B2 (en) Text-to-speech device
JPH0594196A (en) Speech synthesizing device
JPH032796A (en) Intonation control system for voice synthesizer