JPS5816297A

JPS5816297A - 音声合成方式

Info

Publication number: JPS5816297A
Application number: JP11483481A
Authority: JP
Inventors: 雄三布施
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1981-07-22
Filing date: 1981-07-22
Publication date: 1983-01-29

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】本発明は音声合成方式、特に線形予測符号化（以下ＬＰ
Ｃと略称する）による音声合成方式に関する。

通常のＬＰＣ音声合成方式では合成用の音源信号として
単純なパルスを用いているが、大幅な情報圧縮が可能と
なるも、音源情報の細部が失われ、導出される合成音声
の品質が劣化する不都合がある。

そこで斯る不都合を解消すべく、複数個の合成用音源信
号を用い、それ等のうちの１つをフレーム毎に選択して
そのフレームでのＬＰＣ音声合成を行う第１図乃至第７
図に示すような音声合成方式が、本発明者により先に提
案さねた。

すなわち第１図はその構成を漿略的に示すもので、同図
において、（１）は原音声が印加される入力端子、（２
）は入力される原音声から分析しようとする波形部分を
切り出し、その切り出した波形からＬＰＣパラメータ等
声道の伝達特性に関する特徴パラメータや有声／無声、
ピッチ周波数、撮幅等の音源に関する特徴パラメータを
抽出する音声分析器、（３）は伝送路、（４）は特徴パ
ラメータより音声の再合成を行う音声合成器である。

そしてこの方式では上述の如く予測残差信号そのものを
音声合成器（４）側に伝送するには膨大な情報量を必要
とするので、その代りに各フレームでの予測残差信号を
周波数分析し２、その微細成分を平滑して得られるスベ
クトラル包絡に関する情報を音声合成器（４）側に伝送
するようにする。

この動作を第２図のフローチャートに従って説明する。

ステップ０υで例えば第３図の如き原音声（第３図は女
性音”ア”の時間波形を表わしている）を印加し、ステ
ップＯ２でＬＰＣ分析を行い、ステップ（ｔ３１Ｋｒ、
ｐｃパラメータすなわち上述の線形予測係数ａｋを抽出
する。一般に音声合成に必要なパラメータは、音源に関
しては有声／無声、ピッチ周波数、振幅であり、声道の
伝達特性（スペクトラム包絡）に関しては方式により異
なるが、このＬＰＣ音声合成方式の場合上記ＬＰＣパラ
メータが対応する。

またＬＰＣ分析によりステップＱ４）Ｋ予測残差信号を
得、との予測残差信号からステラ１ａ勺で音源パラメー
タの一つである振幅を抽出し、更にステップＱＩ１９で
第４図の如き予測残差信号を得る。第４図は第３図の原
音声に対応した予測残差信号である。そしてこの予測残
差信号によりステップ０６）でピッチ分析を行い、ステ
ップ（１７）にピッチ周波数（ピッチ周期）を得る。こ
のピッチ周期は声帯音源における音声振動の基本周期で
あり、有声音を特徴づける重要なパラメータである。な
おこれ等の各パラメータを求める周期（フレーム周期）
としては通常１０〜２Ｑｍ９６Ｇ程度、波形切り出し窓
の時間長は１５〜３Ｑ　ｍ８ｅｃ程度が用いらねる。

そしてこれ等ステップＱｌ）〜αηは音声分析器（２）
側で行われ、慣用されているものである。

次にステップａ樽で第４図の如き予測残差信号に例えば
２５６サンプルポイントをもってフーリエ変換を施し、
時間−周波数変換、を行う。この結果第５図に波形Ｓで
示すような予測残差信号の周波数スペクトルが得られる
。この周波数スペクトルは位相情報が除去され実質的に
パワースペクトルで表わされる。そしてこの周波数スペ
クトルをステップ（１１で例えばケプストラム法により
スペクトル平滑を行い、第５図に包絡線Ｅで示すような
スペクトル包絡を得る。第５図では略々１フレ一ム分を
表わしている。

このスペクトル平滑を各フレームに付いて行い、ステッ
プ（イ）に複数個のスペクトル包絡を得る。この得られ
た複数個のスペクトル包絡はフレーム毎に異なるので、
それらをフレーム毎に伝送するにはやはりかなりの情報
量を必要とする。そこでステップ（２Ｉ）においてスペ
クトル包絡間の距離によって分離する、すなわちスペク
トル包絡の形状が似ているものは１つの群ＶＣまとめ、
それらの内の１つのスペクトル包絡を代表パターンとし
て用いるようにする。次に残余のスペクトル包絡群につ
いても同様の操作を行い、順次代表パターンを抽出する
。そしてこの操作を繰り返すことによりステップ０渇に
複数個例えば１６個の代表パターンを表わすスペクトル
包絡す１〜＋１６を得ることができ、これＫよって全フ
レームの予測残差信号情報を表現することができる。ま
たこの１６個のスペクトル包絡す１〜＋１６は、２＝１
６であるからフレーム毎に４ビツト、例えばスペクトル
包絡＋１には［０００１］、スペクトル包絡＋２には（
００１０：１等各スペクトル包終に対するビットコード
を予め割り当て−おけば、所望時その対応するビット情
報により対応する任意のスペクトル包絡を選ぶことがで
きる。　　′ 次にステップ（２りで適当な位相条件の下でフーリエ逆
変換を行い、各スペクトル包絡＋１〜＋１６に対応した
第６図に示すような時間波形すなわちインパルス≠１〜
＋１６をステップｃ！４）に得る。ここで位相情報を必
要とする、つまり上述のステップ０８）におけるフーリ
エ変換で位相情報が除去されているので、このフーリエ
逆変換の際に何等かの位相情報を与えてやる必要がある
わけであるが、合成音声の音質は音源信号の波形にはさ
して影響されないものと思われるので、このステップ（
２国におけるフーリエ逆変換の際の位相情報は、その後
の信号処理の都合の良いように与えればよい。この位相
情報の与え方によりステップＣ！（イ）に得られるイン
パルス÷１〜＋１６の波形は、例えば第７図Ａ　、　Ｂ
　、　ＣＫ示すような種々なものとなる。この第７図Ａ
、Ｂ、Ｃのインパルス波形のうち、インパルスの持続時
間を一定としたとき、インパルス波形の最終端部の信号
レベルが最も小さくなるのは第７図Ｃの波形である。従
ってこの第７図Ｃの如きインパルス波形を用いた場合に
ステップ（２５）におけるＬＰＣ音声合成の際音源波形
接続誤差が最も少なくなると考えられる。そこでステッ
プ＠におけるフーリエ逆変換の際は、ステップ（財）に
得らねるインパルス−＃−１〜＋１６の波形が実質的に
第７図Ｃに示すような波形になるよう位相条件を与える
のが好ましい。この第７図Ｃのインパルスは最小位相推
移系のインパルス・レスポンスであって、それを得るた
めの位相条件は容易に示すことができる。

このように予測残差信号情報の代表パターンであるスペ
クトル包絡＋１〜÷１６をステップいでフーリエ逆変換
を行い対応する時間波形に変換したものを音声合成器（
４）（第１図）の音源信号として用いることになる。な
おこのフーリエ逆変換は音声合成器（４）側で行うには
膨大なハードウェアを必要とするので実時間動作を要し
ない場合には音声分析器（１）（第１図）側でソフトウ
ェアでフーリエ逆変換を行ってスペクトル包絡を時間波
形に変換し、それを音声合成器（１）側に伝送する方法
をとるのがよい。

そして音声合成器（４）側で行われるＬＰＣ音声合成の
ステップ（２５）では各フレームに付き４ビット程度の
情報量を割り当て、上述の如くステップ０りにある１６
個のインパルス≠１〜＋１６のうちの１つを選択してそ
のフレームの合成用音源とする。つまりこの選択された
インパルスが、そのフレームの音声合成に必要な音源情
報のうちの有声音に関する情報に実質的に対応するわけ
である。

またステップＱ印では音源情報としてステップ（＋５１
の振幅情報、ステップαＤのピッチ情報が付加されると
共に、ステップ（１皺のＬＰＣパラメータが声道の伝達
特性に関する情報として付加さね、この結果ステップ（
２６）　Ｋ合成音声が取り出される。

このような音声合成方式により、各々のフレームでの合
成音声の周波数スペクトルが原音声のものに、より近似
したものとなり、合成音声の品質が改善される。

ところで上述の如き音声合成方式の場合、１つのフレー
ムでの合成用音源波形として１種の音源波形をピッチ周
期毎に配置したものを用いるので、各フレームの接続部
で合成音声の波形、信号レベルが不連続になりやすく、
合成音声の音質が滑らかでない不都合がある。

本発明は斯る点に鑑み、上述の如き合成音声のフレーム
毎の不連続を少なくしてその音質を滑らかなものとする
ことができる音声合成方式を提供するものである。

本発明では２つの有声フレーム（或いは２つの無声フレ
ーム）が相続く場合、それ等のフレーム間で各フレーム
での音源信号波形の対応するサンプル値に補間を旋すこ
とにより、各フレーム間で音源信号波形が滑らかに少し
ずつ変化するようにする。

以下本発明の一実施例を第８図乃至第１０図に基づいて
詳しく説明する。

第８図は本実施例の構成を示すもので、同図において、
　Ｃ３１）はクロック発生器、０りはアドレスカウンタ
、（３→はフレームカウンタ、０４）は補間りｐツクカ
ウンタであって、クロック発生器Ｃ３１）からのクロッ
クを夫々各カウンタによりカウントすることにより３種
類のタイミング信号が生成される。

０５１は音源信号波形メモリであって、このメモリ０つ
には第２図に関連して説明したように予測残差信号情報
の代表パターンである複数個のスペクトル包絡を適当な
位相条件の下でフーリエ逆変換して時間波形（インパル
スレスポンス）に変換シ、それ等をＬＰＣ音声合成の音
源として用いるべく、予めフレーム毎に音源信号波形デ
ータとして記憶している。このメモリｃ３茄に記憶され
ている音源信号波形データのうちから、アドレスカウン
タ国の出力により一つのフレームの音源信号波形が選択
される。

Ｃ（６）は現在のフレームより時間的に１つ前のフレー
ムの音源信号波形を一時的に蓄えておくバッファメモリ
であって、フレームカウンタ（至）の出力によりフレー
ム毎にその内容が更新される。（３７）及び（３８）は
共に係数器であって、係数器０７）はメモ！Ｊ　Ｃ３５
１より出力された現在のフレームの音源信号波形に後述
されるような成る係数を付加するように働き、−力係数
器（到はバッファメモリ（絢の出力すなわち上述の現在
のフレームより１つ前のフレームの音源信号波形に上記
とは別の成る係数を付加するように働く。なおこれ等係
数器０７）及び（至）により付加される係数は、補間ク
ロックカウンタ０４）から補間クロックが係数器Ｃ３７
）及び（至）に供給される毎に更新される。また補間ク
ロックの周波数は１フレームを何等分して補間するかに
よって異なり、例えば１フレームを４等分して補間を行
なう場合には、フレーム周波数の４倍の周波数とされる
。

０！は係数器０３７）及び□□□の各出力を加算・・す
葛ための加算器、　（４０）は補間さねた音源信号が取
り出される出力端子である。

次に本実施例の動作を説明する。いまメモＩＪ　Ｇ５！
に記憶されて各フレームに対応した音源信号波形のうち
、例えばフレーム−＃−ｎでの音源信号波形をｅｎ　（
ｍ）、これに続くフレーム＋ｎ　＋　１での音源信号波
形をｅｎ＋１（ｍ）とする。ｍはメモリｃ３５１に記憶
された音源信号波形のサンプルポイント数でｍ＝１゜２
、・・・・・ｙで表わされる。例えばサンプリング周波
数１０ｋＨｚ　（サンプリング周期１００μｓ）でｔ＝
３０とすると音源信号波形の長さはＱ、　１ｍ８　Ｘ　
３０＝　３ｍｓとなる。

そして、第９図に示すように、１フレ一ム区間を複数個
に分割、例えば４等分した場合を考え、各フレームの接
続部の前後４つの分割区間に分割数Ｊ＝１．２，３．４
と番号をつける。

そしてその各々の分割区間内での音源信号波形ｅｎＪ（
ｍ）を、次のように直線補間によって決定する。

上記（１）式において分割数ＪはＪ＝１．２，３．４で
アリ、サンプルポイント数ｍはｍ　＝　ｌ　、　２　、
・・・・、Ｑである。

上記（１）式よりＪ＝１の分割区間での音源信号波形ｅ
ｎｌ（ｍ）はｅｎｌ（ｍ）＝ｅｎ（ｍ）　　　　　　　　　　・・・
・・（２）となり、フレームナｎでの補間前の音源信号
波形に一致することがわかる。

またＪ＝２の分割区間での音源信号波形ｅｎ２（ｍ）は
上記（１）よりとなる。第１０図はこのＪ＝２において実際に数値を入
れて補間な行った場合を示すものである。

すなわち、上記（３）式より、ｍ　＝−１の時のｅｎ（
ｍ）　。

ｅｎ＋　１（”）の各レベルを夫々１．０，０．９とす
ると補間後ノｅ１１２（ｍ）のレベルは０．９７５とな
り、以下同様Ｋｍ＝２の時のｅｎ（ｍ）　、　ｅｎ＋ｔ
（ｍ）の各レベルを夫々−０，８，−０，７とすると補
間後のｅｎｚ（ｍ）のレベルは−０，７７５となり、ｍ
　＝　３の時のｅｎ（ｍ）　。

ｅｎ＋ｘ（ｍ）の各レベルを夫々０．５，０．７とする
と補間後のｅｎ２（ｍ）のレベルは０．５５となり、ｍ
　＝　４の時（７）　ｅｎ（ｍ）　、　ｅｎ＋ｔ（ｍ）
の各レベルを夫々−〇、２゜−〇、３とすると補間後の
ｅｎ２（ｍ）のレベルは−０，２２５となり、結果とし
て第１０図Ａに実線で示す音源信号波形ｅｎ（ｍ）と第
１０図Ｂに実線で示す音源信号波形ｅｎ＋　ｓ　（”）
により第１０図Ａに破線で示すような補間された音源信
号波形ｅｎ　２　（ｍ　）が得られることになる。

以下同様にして補間を行うことにより、に２→３→４と
進むＶＣつれて、音源信号波形ｅｎ、１（ｍ）は次第に
次のフレーム＋ｎ＋１での補間前の音源信号波形ｅｎ＋
ｘ（”）に近づいてゆく。

、（Ｉ９上述は１フレ一ム区間を４等分した場合であるが、一般
に１フレ一ム区間なに等分した場合の各々の分割区間内
での音源信号波形ｅｎ、１（ｍ）は次式％式％つまりこの（４）式より補間された音源信号は、これ等
２つの相続くフレームでの音源信号波形の対応するサン
プル値を線形結合したものとなるので、係数器Ｃ３７）
　、（至）及び加算器０特を用いて得ることができる。

なお上記（４）式においてＪ＝ｌ、Ｊ・・・・・ｋｍ＝
１２、・・・・・ｅである。分割数にとしては２，４．
８・・・・等２のベキ乗に選べば上記（４）式の補間計
算が２進データのビットシフトで容易に行われるので好
都合である。

そしてこのような補間動作を第８図の回路を用いて行う
わけであるが、それには先ず、クロック発生器０１）か
らのクロックをアドレスカウンタ０２でカウントして、
そのアドレス情報によりメモリ４３５１内の対応する各
フレームの波形データ、例えばフ（１→ レームナｎの音源信号波形ｅｎ（ｍ）を選択する。そし
てこのフレーム４　ｎの音源信号波形ｅｎ（ｍ）はフレ
ームカウンタ０３）の出力によりバッファメモリ（至）
に蓄積される。

続いてフレームナｎの次のフレーム＋ｎ＋１の音源信号
波形ｅｎ（ｍ）が同様にメモリＧツ内からアドレスカウ
ンタＣ３２のアドレス情報により選択され、フレームカ
ウンタＯ■の出力によりバッファメモリ（３６）に蓄積
される。との特売にバッファメモリ０６）に蓄積されて
（・たフレーム４ｎの音源信号波形ｅｎ（ｍ）は係数器
−に供給される。つまりバッファメモリ（至）の内容は
フレームカウンタＣ３３１の出力によりフレーム毎に更
新される。

またメモリ（３５）よりフレーム＋ｎ＋１の音源信号波
形ｅｎ　＋１（”　）がバッファメモリ（ト）に供給さ
れる時点で係数器（３７）にも供給される。そして補間
クロックカウンタ０４）の出力が係数器Ｇ′？）及び（
至）に供給された時点で、これ等の係数器により夫々成
る係数が付加される。すなわち、上記（４）式より係数
器間にに−Ｊ＋１おいては音源信号波形ｅｎ（ｍ）に対して係数　。

ｋ−Ｊ＋１が付加されてその出力側にはｅｎ（ｍ）・−Ｙ−の信号
が取り出され、一方係数器０７）にお℃・ては音源信−
１その出力側にはｅｎ＋１（ｍ）・−に−の信号が取り出
される。そして取り出されたこれ等の信号は加算器０鴎
に供給されて加算され、もって出力端子（４（ＩＩＫは
上記（４）式で表わされるような補間された音源信号波
形ｅｎ、１（ｍ）が出力される。

上述の如く本発明によれば、２つの有声フレーム（或い
は２つの無声フレーム）が相続く場合、それ等のフレー
ム間で各フレームでの音源信号波形の対応するサンプル
値に補間を旋して、各フレーム間で音源信号波形が滑ら
かに少しずつ変化するようにしたので、各フレームの接
続部での合成音声の波形、信号レベルの不連続が除去さ
れて音質の滑らかな品、質のすぐれた合成音声を得るこ
とができる。

【図面の簡単な説明】

第１図は本発明の先行技術に係る一例を概略的に示すブ
ロック図、第２図乃至第７図は第１図の動作駅１明に供
するための線図、第８図は本発明の一実施例を示す構成
図、第９図及び第１０図は第８図の動作説明に供するた
めの線図である。Ｇｅｌはクロック発生器、　Ｃ３２１はアドレスカウン
タ、０３）はフレームカウンタ、（財）は補間クロック
カウンタ、　Ｃ３５ｉは音源信号波形メモリ、（至）は
バッファメモリ、（３７）、（至）は係数器、０坤は加
算器である。第１図第７図

Claims

【特許請求の範囲】

音源信号波形をフレーム毎に変える音声合成方式におい
て、連続するフレーム間で各フレームでの音源信号波形
の対応すゐサンプル値に補間を旋し、フレーム間での音
源信号波形が滑らかに変化するようにしたことを特徴と
する音声合成方式。