JPH1195796A

JPH1195796A - 音声合成方法

Info

Publication number: JPH1195796A
Application number: JP9250857A
Authority: JP
Inventors: Masami Akamine; 政巳赤嶺; Takehiko Kagoshima; 岳彦籠嶋; Katsumi Tsuchiya; 勝美土谷
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1997-09-16
Filing date: 1997-09-16
Publication date: 1999-04-09

Abstract

(57)【要約】【課題】合成音声の音質が優れ、かつ音声素片辞書のサ
イズがコンパクトで、声質の変更も容易な音声合成方法
を提供する。【解決手段】分析部１００においてピッチ波形切り出し
部１０１で切り出した音声素片をＬＰＣ分析部１０２に
入力して残差信号とＬＰＣ係数の形で表現して、これら
クトルパラメータと残差信号の組を残差信号記憶部１０
３とＬＰＣ係数記憶部１０４に音声素片辞書として格納
しておき、分析部２００では文解析・韻律制御部から与
えられた音韻記号列に従って選択部２０１で残差信号と
スペクトルパラメータの組を選択し、選択された残差信
号を選択されたスペクトルパラメータに従って構成され
る合成フィルタ２０２に通すことにより音声素片を作成
し、この音声素片に対して韻律制御部２０３でピッチ同
期波形重畳法によるピッチ周期の制御と継続時間長の制
御を行った後、素片接続部２０４で接続して合成音声を
生成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、テキスト音声合成
に適した音声合成方法に係り、特に音韻記号列・ピッチ
・音韻継続時間長などの情報から合成音声を生成する音
声合成方法に関する。

【０００２】

【従来の技術】任意の文章から人工的に音声信号を作り
出すことをテキスト音声合成という。テキスト音声合成
は、一般的に言語処理部、音韻処理部および音声合成部
の３つの段階によって行われる。入力されたテキスト
は、まず言語処理部において形態素解析や構文解析など
が行われ、次に音韻処理部においてアクセントやイント
ネーシヨンの処理が行われて、音韻記号列・ピッチ・音
韻継続時間長などの情報が出力される。最後に、音声信
号合成部で音韻記号列・ピッチ・音韻継続時間長などの
情報から合成音声が生成される。

【０００３】このようなテキスト音声合成に用いる音声
合成方法は、任意の音韻記号列を任意の韻律で音声合成
することが可能な方法でなければならない。任意の音韻
記号列を音声として合成することができる音声合成方式
は、ＬＰＣ分析合成方式と波形編集方式に大別される。

【０００４】ＬＰＣ分析合成方式は、例えば文献（１）
「伊藤、佐藤：“切り出し残差を用いた音声合成におけ
るピッチ制御法”、音響論2-7-18(1989-3)」に紹介され
ているように、音声信号にＬＰＣ分析を適用してＬＰＣ
スペクトルパラメータと残差信号を求め、残差信号のレ
ベルで韻律の制御および接続を行う方式である。この方
式は、ＬＰＣ係数の操作で声質の変更が容易であり、ま
た合成のための音声素片辞書サイズが比較的小さくて済
むという利点がある反面、合成音声の音質はいわゆる鼻
にかかった明瞭性に欠けたものとなり、不十分なもので
あった。

【０００５】一方、波形編集方式は、例えば文献（２）
「広川、箱田、佐藤：“波形編集型合成方式におけるス
ペクトル連続性を考慮した波形選択法”、音響論2-6-10
(1990-9)」、文献（３）「岩田、他：：“パソコン向け
ソフトウェア日本語テキスト音声合成”、音響論2-8-13
(1993-10）」、および文献（４）「小山、小泉：“ＶＣ
Ｖを基本単位とする波形規則合成方式の検討”、信学技
報SP96-8(1996-5)」などで紹介されているように、実音
声波形から切出した音声素片のピッチ周期や継続時間長
を変更して接続することで音声を合成する方式で、高音
質化が比較的容易であると考えられており、盛んに検討
が行われている。

【０００６】さらに、高音質化のためには分析、合成な
どの信号処理を行わない方が良いとの立場から、音韻環
境及び韻律環境が一致する音声波形を自然音声のデータ
ベースから最長単位で接続する方式も提案されている
（文献（５）「N.Campbell andA.W.Black：“ＣＨＡＴ
Ｒ：自然音声波形接続型任意音声合成システム”、信学
技報SP96-7(1996-5)」。

【０００７】これらの方式は、分析合成方式より高音質
の合成音声を生成できるという利点を持つ反面、音声素
片辞書のサイズが大きくなるという問題がある。また、
スペクトルパラメータが陽に表現されていないため、声
質の変更などが難しいという問題がある。

【０００８】本発明は、上述した従来の問題点を解消す
べくなされたものであり、合成音声の音質が優れ、かつ
音声素片辞書のサイズがコンパクトで、声質の変更も容
易な音声合成方法を提供することを目的とする。

【０００９】

【課題を解決するための手段】上記の課題を解決するた
め、本発明による音声合成方法は、音声素片を残差信号
とＬＰＣ係数のようなスペクトルパラメータの形で表現
し、残差信号をスペクトルパラメータに従って構成され
る合成フィルタに通すことにより音声素片を作成し、こ
の音声素片に対して韻律制御を行い、韻律制御後の音声
素片を接続して合成音声を生成することを特徴とする。

【００１０】さらに具体的には、音声素片を残差信号と
スペクトルパラメータの形で表現して、残差信号とスペ
クトルパラメータの組を音声素片辞書として格納してお
き、与えられた音韻記号列に従って残差信号とスペクト
ルパラメータの組を選択し、選択された残差信号を選択
されたスペクトルパラメータに従って構成される合成フ
ィルタに通すことにより音声素片を作成し、この音声素
片に対して韻律制御を行い、韻律制御後の音声素片を接
続して合成音声信号を生成する。

【００１１】韻律制御に際しては、合成フィルタにより
得られる音声素片に対してピッチ同期波形重畳法を適用
することによりピッチ周期を制御することが好ましい。
韻律制御に際し、さらに音声素片の継続時間長を制御し
てもよい。

【００１２】このような本発明に基づく音声合成方法に
よると、従来の残差駆動方式の音声合成法では残差信号
のレベルで韻律の制御を行っていたのに対して、音声素
片のレベルで韻律の制御を行い、かつ韻律制御後の音声
素片を接続するため、波形編集方式と同等の音質の合成
音声が得られる。

【００１３】この場合、韻律制御におけるピッチ周期の
制御にピッチ同期波形重畳法を用いれば、さらに明瞭で
高音質の音声合成が可能となる。また、本発明では音声
素片辞書として用意する音声素片を残差信号とＬＰＣ係
数のようなスペクトルパラメータの組で表現するため、
音声素片辞書のサイズもコンパクトとなる。

【００１４】さらに、このように音声素片をスペクトル
パラメータと残差信号の組で表現することによって、ス
ペクトルパラメータの操作により合成音声の声質を用意
に変更することが可能である。

【００１５】

【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を説明する。図１は、本発明による音声合成方
法をテキスト音声合成システムに適用した実施形態を示
すブロック図である。この音声合成システムは、大きく
分けて分析部１００と合成部２００とからなる。

【００１６】分析部１００は、入力される音声波形から
ピッチ波形を切り出すピッチ波形切り出し部１０１と、
切り出されたパッチ波形のＬＰＣ分析（線形予測分析）
を行い、残差信号とスペクトルパラメータであるＬＰＣ
係数を抽出するＬＰＣ分析部１０２と、ＬＰＣ分析部１
０２により抽出された残差信号とＬＰＣ係数の組を音声
素片辞書として格納する残差信号記憶部１０３およびＬ
ＰＣ係数記憶部１０４からなる。

【００１７】一方、合成部２００は図示しない文解析・
韻律制御部でテキスト合成に供されるテキストを解析し
て得られる音韻記号列に従って、分析部１００における
残差信号記憶部１０３およびＬＰＣ係数記憶部１０４か
ら、個々の音韻記号に対応する組の残差信号とＬＰＣ係
数を選択して取り出す音声素片選択部２０１と、選択さ
れたＬＰＣ係数に従って構成され、選択された残差信号
を入力として音声素片を作成する合成フィルタ２０２
と、作成された音声素片に対して、文解析・韻律制御部
から与えられるピッチ周期および継続時間長の情報に従
って韻律の制御を行う韻律制御部２０３と、韻律制御後
の音声素片を接続して合成音声を生成する素片接続部２
０４からなる。

【００１８】次に、図２に示すフローチャートを用い
て、分析部１００の詳細な処理手順を説明する。まず、
音声波形を分析部１００に入力する（ステップＳ１
１）。この音声波形としては、例えば後述するようにし
て作成された代表音声素片を用いる。

【００１９】次に、ピッチ波形切り出し部１０１で入力
の音声波形にピッチ周期長の窓関数を掛けてピッチ周期
分の波形を切り出した後、ＬＰＣ分析部１０２でピッチ
同期ＬＰＣ分析を行う（ステップＳ１２〜Ｓ１３）。こ
の場合、窓関数により音声波形の離散的なスペクトルが
平滑化されるため、基本周波数の影響が低減されたスペ
クトル包絡を得ることができる。

【００２０】ステップＳ１２でのＬＰＣ分析の結果、音
声素片がピッチ周期単位の残差信号とＬＰＣ係数の組で
表現される。これらのうち残差信号は残差信号記憶部１
０３に、ＬＰＣ係数はＬＰＣ係数記憶部１０４に、それ
ぞれ互いに対応付けられて音声素片辞書として格納され
る（ステップＳ１４）。

【００２１】次に、図３に示すフローチャートを参照し
て合成部２００の詳細な処理手順を説明する。音声合成
に際しては、図示しない文解析・韻律制御部から音韻記
号列とピッチ周期および継続時間長（音韻継続時間長）
の情報が与えられる。まず、音韻記号列に従って、音声
素片辞書を構成している残差信号記憶部１０３とＬＰＣ
係数記憶部１０４から、選択部２０１で個々の音韻記号
に対応した残差信号とＬＰＣ係数の組を選択して読み出
す（ステップＳ２１）。

【００２２】次に、ステップＳ２１で選択されたＬＰＣ
係数によって合成フィルタ２０２を構成し、この合成フ
ィルタ２０２にステップＳ２１で選択された残差信号を
入力することにより、音声素片を作成する（ステップＳ
２２〜Ｓ２３）。

【００２３】次に、ステップＳ２３で作成された音声素
片に対して、文解析・韻律制御部から与えられるピッチ
周期と継続時間長の情報に従って韻律制御部２０３で韻
律制御、つまりピッチ周期の制御と継続時間長の制御を
行う。

【００２４】具体的には、ステップＳ２３で作成された
音声素片に対して、まず波形編集方式と同様にピッチ同
期波形重畳法（ＰＳＯＬＡ）を適用してピッチ周期の制
御を行う（ステップＳ２４）。ピッチ同期波形重畳法
は、例えば文献（６）「F.Charpentier and M.Stella：
“Diphone Synthesis Using an Overlap-add Techniqef
or Speech Waveforms concateration”,Proc.ICASSP 8
6,pp.2015-2018(1986)」に記載されている公知の手法で
あるが、本実施形態ではより高音質の音声合成を可能と
するため、以下のようにしてピッチ同期波形重畳法に基
づくピッチ周期の制御を行う。

【００２５】一般に、合成音声の音質は有声音の滑らか
さに負うところが大きい。そこで、本実施形態ではピッ
チ周期の変化をより滑らかにするために、与えられたピ
ッチ周期をサンプル単位で補間する。第ｊフレームと第
ｊ＋１フレームの中心時刻を各々ｔ₁ ，ｔ₂ とし、ピッ
チ周期をｐ₁ ，ｐ₂ とすると、ピッチ周期が線形に変化
する場合、時刻ｔにおけるピッチ周期ｐ(t) は次式で表
される。

【００２６】

【数１】また、ｔ₁ からｔ₂ までのピッチマークの位置をｍ_k (k
＝1,2,…N)とすると、次式が成立する。

【００２７】

【数２】式（１）（２）から次式が得られる。

【００２８】

【数３】

【００２９】韻律制御部２０３におけるピッチ周期の制
御は、このようにして求められたピッチマークの位置を
基準にして、合成フィルタ２０２で作成された音声素片
を重畳しする。すなわち、例えば時間軸上で各ピッチマ
ークの位置に音声素片の先頭をそれぞれ配置して、それ
らを零信号に重畳する。この場合、各々のピッチマーク
の位置に対応する隣接した音声素片が重複している部分
は足し合わせられ、重複していない部分は元の音声素片
のままとなる。

【００３０】韻律制御部２０２では、さらに継続時間長
の制御を行う（ステップＳ２５）。この継続時間長の制
御では、元の音声波形と合成音声波形の各々のピッチマ
ークをどのように対応付けるかが重要であるが、本実施
形態ではこの対応付けに際して時間的なマッピングを関
数で行う。この方法によると、マッピング関数を適切に
定義することによって、ピッチ波形の間引き・補間を接
続する音声素片の性質に応じて自由に制御することがで
きる。

【００３１】次に、このようにして韻律制御（ピッチ周
期と継続時間長の制御）がなされた音声素片どうしの接
続を行う（ステップＳ２６）。本実施形態では、接続部
における波形の不連続性に起因する歪みを低減するた
め、音声素片としてＣＶ、ＶＣ素片を用いており、母音
定常部で各音声素片を接続する。この際、接続する母音
のピッチ波形を全母音区間に渡って重み付き加算して接
続する。このようにして、任意の文章（テキスト）が音
声信号に変換された合成音声が生成される。

【００３２】次に、本発明に付随する音声素片の学習法
について説明する。従来、音声素片の作成は人手による
試行錯誤的手法に頼っており、熟練した研究者が長時間
かけて単音発声や無意味単語発声または連続発声された
音声データから音声素片を切り出しては、合成音声を評
価するという一連の作業を繰り返し行う必要があった。

【００３３】一方、音声データベースから音声素片を自
動的に生成する方法として、例えば文献（７）「中嶌、
浜田“音響近況に基づくクラスタリングによる規則合成
法”、信学論D-II,vol.J-72-D-II,No.8,pp.1177-1179(1
989-8)」に開示された音素環境クラスタリング（ＣＯ
Ｃ：Context Oriented Clustering)法が知られている。
この方法は、スペクトルパラメータの分散に基づいて音
韻環境の拘束条件の下で音声データベースから切り出さ
れた音声素片をクラスタリングし、各クラスタのセント
ロイドを代表音声素片とする方法である。

【００３４】この音素環境クラスタリング法は、先見的
知識に頼らずに統計的評価基準に基づいて代表音声素片
を決定できるという特徴があるが、音声合成で問題とな
っているピッチ周期の制御に伴う歪みを考慮していない
ため、合成音声の音質は必ずしも十分なものとは言えな
い。

【００３５】そこで、韻律制御（ピッチ周期と継続時間
長の制御）を行うことにより生じる歪みも含めて合成音
声の歪みを定義し、この歪みを最小化する代表音声素片
の学習法について説明する。

【００３６】図４に、本実施形態で用いる代表音声素片
の閉ループ学習システムのブロック図を示す。この学習
法は、実際には様々な合成器や合成単位に対して適用す
ることができるが、ここでは先に説明した音声合成シス
テムに用いるＣＶ、ＶＣ音声素片の学習に適用した場合
について述べる。これは学習によって音声素片を生成し
た後、合成フィルタのＬＰＣ係数と残差信号を求める。

【００３７】学習に当たっては、まず事前準備として音
声合成単位の音声素片を音声データべース４０１から大
量に切り出し、これらを代表音声素片候補４０２とす
る。同時に、同様な方法で学習のためのトレーニングデ
ータ４０３を作成する。次に、代表音声素片候補のピッ
チ周期と継続時間長を分析して（４０４）、トレーニン
グデータ４０３をターゲットに代表音声素片候補のピッ
チ周期と継続時間長を分析して変更し（４０５）、音声
素片を合成する。このような方法で全ての代表音声素片
候補４０２と全てのトレーニングデータの組み合わせに
ついて、音声素片を生成する。

【００３８】次に、生成された音声素片のトレーニング
データに対する歪みを計算で求めて評価し（４０５）、
全てのトレーニングデータに対する歪みの総和を最小に
する代表音声素片を探索して上述の代表音声素片の候補
から選択し（４０６）、これを代表素片とする。

【００３９】この学習法は、合成された音声素片の評価
結果を音声素片の学習にフィードバックするという意味
で、閉ループ学習と呼ぶ。以下に、この学習法で重要に
なる歪み尺度と代表音声素片の選択法について、具体的
な一例を述べる。

【００４０】（歪み尺度）学習の歪み尺度は、主観評価
の結果を良く反映するものである必要がある。また、合
成音声のパワーは音声合成システムで制御されることか
ら、代表音声素片はパワーが正規化されたレベルで評価
する必要がある。このようなことを考慮して、合成音声
素片の歪みを次式で定義する。

【００４１】

【数４】

【００４２】ここで、ｒ_j はトレーニングデータを表
し、ｓ_ijはｒ_j を目標にした代表音声素片候補ｕ_i によ
る合成音声素片を表す。（代表音声素片の選択）合成単位当たりの代表音声素片
数をｎ、代表音声素片候補数をＮとすると、代表音声素
片の選択はＮ個の候補からｎ個を選ぶ組み合わせの中か
ら次のコス卜関数を最小化する代表音声素片の組を一組
探索する問題となる。

【００４３】

【数５】

【００４４】ここで、Ｍはトレーニングデータの数であ
る。式（９）のコスト関数を最小化する代表音声素片の
組が求まると、全トレーニングデータを代表音声素片に
対応するクラスタにクラスタリングすることができる。

【００４５】図５に、４個の代表音声素片候補から２個
の代表音声素片を選択する場合の例を示す。この例で
は、ｕ₁ 〜ｕ₄ の任意の二個の組み合わせの中で、ｕ₂
とｕ₃の組み合わせのコスト関数が最小となる。この結
果、ｕ₂ とｕ₃ が代表音声素片として選択される。

【００４６】（評価実験）ＣＶ、ＶＣのｄｉｐｈｏｎｅ
を合成単位として、各合成単位に対して上述の方法で１
個の代表音声素片を作成する実験を行った。視察により
音韻ラベルが付けられた音声データベースからトレーニ
ングに用いる音声素片データと代表音声素片候補を切り
出し、前述した閉ループ学習法で計３０２個のＣＶ，Ｖ
Ｃ代表音声素片を作成した。学習に要した時間はＳｕｎ
−Ｕｌｔｒａ２で約１．５時間であった。

【００４７】図６は、合成単位（ＣＶ，ＶＣ）当たりの
音声素片数を増加させた場合のコスト関数の値を示して
おり、この図から音声素片数の増加とともに合成音声の
歪みが単調に減少していることが分かる。

【００４８】従来から、パワーやピッチにより音声素片
を使い分けることにより合成音の音質が向上することは
知られている。しかし、従来の試行錯誤による方法で
は、代表音声素片の作成に多大な労力と時間を要し、代
表音声素片の数を増やすことは容易ではなかった。

【００４９】これに対し、上述した閉ループ学習法によ
れば、ラベリングされた音声データが与えられれば短時
間で自動的に音声素片の作成ができ、任意の数の代表音
声素片を生成することが容易である。しかも、パワーや
ピッチといった先見的な知識で音声素片の選択を行うの
ではなく、合成音声の歪みの尺度で選択の規則を作成す
ることが可能である。すなわち、トレーニングデータを
選択された代表音声素片のクラスタにクラスタリング
し、クラスタ内で共通する要因を抽出することにより音
声素片選択の規則を生成することかできる。

【００５０】次に、上述した音声合成システムで得られ
た合成音声の音質評価を行った。作成した代表音声素片
を図１の音声入力として分析部に与え、ピッチ波形切り
出し部１０１およびＬＰＣ分析部１０２を介して残差信
号とＬＰＣ係数に分解した形で残差信号記憶部１０３と
ＬＰＣ係数記憶部１０４に音声素片辞書として蓄積し
た。蓄積に当たっては、ベクトル−スカラ量子化の手法
を適用して、残差信号とＬＰＣ係数を符号化した。この
結果、データ量は一話者当たり約１５０ｋバイトと、波
形編集方式に比べて１／１０〜１／２０の非常にコンパ
クトなものとなっている。従って、本実施形態の音声合
成システムはＰＤＡ等の携帯情報端末やカーナビゲーシ
ョンシステム等へ組み込みことも容易である。

【００５１】大学生７名を含む計１０名（男女同数）の
一般の被験者による７段階（−３：非常に悪い〜＋３：
非常によい）の主観評価の結果、本実施形態の音声合成
システムで得られた合成音声の音質は、従来のケプスト
ラム合成方式による音声合成システムに比較して、男女
話者及び各種文章の平均で２．５ポイント向上し、明瞭
感が大幅に向上するとともに、ソフトでより肉声に近い
音質になったとの評価が被験者から得られた。

【００５２】

【発明の効果】以上説明したように、本発明の音声合成
方法によれば、音声素片を残差信号とＬＰＣ係数のよう
なスペクトルパラメータの組で表現し、残差信号とスペ
クトルパラメータで生成される音声素片に対して音律の
制御を行っているため、明瞭で高音質の合成音声を生成
できるとともに、スペクトルパラメータの操作により声
質の変更が容易であり、さらに音声素片辞書のサイズも
コンパクトにすることができる。

【図面の簡単な説明】

【図１】本発明の一実施形態に係る音声合成システムの
構成を示すブロック図

【図２】同実施形態における分析側の処理手順を示すフ
ローチャート

【図３】同実施形態における合成側の処理手順を示すフ
ローチャート

【図４】代表音声素片の閉ループ学習システムを説明す
るためのブロック図

【図５】合成音声素片の歪みに基づく代表音声素片選択
の例を示す図

【図６】代表音声素片の素片数とコスト関数の関係を示
す図

【符号の説明】

１００…音声分析部１０１…ピッチ波形切出し部１０２…ＬＰＣ分析部１０３…残差信号記憶部１０４…ＬＰＣ係数記憶部２００…音声合成部２０１…選択部２０２…ＬＰＣ合成フィルタ２０３…韻律制御部２０４…音声素片接続部

Claims

【特許請求の範囲】

【請求項１】音声素片を残差信号とスペクトルパラメー
タの形で表現し、残差信号をスペクトルパラメータに従
って構成される合成フィルタに通すことにより音声素片
を作成し、この音声素片に対して韻律制御を行い、韻律
制御後の音声素片を接続して合成音声を生成することを
特徴とする音声合成方法。
【請求項２】音声素片を残差信号とスペクトルパラメー
タの形で表現して、該残差信号とスペクトルパラメータ
の組を音声素片辞書として格納しておき、与えられた音
韻記号列に従って残差信号とスペクトルパラメータの組
を選択し、選択された残差信号を選択されたスペクトル
パラメータに従って構成される合成フィルタに通すこと
により音声素片を作成し、この音声素片に対して韻律制
御を行い、韻律制御後の音声素片を接続して合成音声を
生成することを特徴とする音声合成方法。
【請求項３】前記韻律制御に際して、前記合成フィルタ
により得られる音声素片に対してピッチ同期波形重畳法
を適用することによりピッチ周期を制御することを特徴
とする請求項１または２記載の音声合成方法。
【請求項４】前記韻律制御に際して、さらに音声素片の
継続時間長を制御することを特徴とする請求項３項記載
の音声合成方法。