JP3853923B2

JP3853923B2 - 音声合成装置

Info

Publication number: JP3853923B2
Application number: JP23457897A
Authority: JP
Inventors: 健岩木
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1997-08-29
Filing date: 1997-08-29
Publication date: 2006-12-06
Anticipated expiration: 2017-08-29
Also published as: JPH1173198A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声合成装置に関するものであり、より具体的にはさらに、音声合成制御プログラムを記録した記録媒体および音声素片辞書作成方法に関し、規則によって任意の音声を合成するもので、たとえば、音声波形を接続して合成音声を得ることに適用し得る。
【０００２】
【従来の技術】
従来、テキスト文章を音声に変換して出力するテキスト音声変換装置は、テキスト解析回路とパラメータ生成回路と、音声合成回路とから構成されている。テキスト解析回路では、漢字かな混じり文を入力して、単語辞書を参照して形態素解析し、読みや、アクセントや、イントネーションを決定し、韻律記号付き発音記号（中間言語）を出力する。パラメータ生成回路では、ピッチ周波数パターンや音韻継続時間などの設定を行い、音声合成回路では音声の合成処理を行う。音声合成の技術として、以下のような手法が提案されている。
【０００３】
(1) １ピッチ相当波形素片作成方法：この作成方法は、原音声波形をそのまま利用して、劣化の少ない高品質の合成音を得る手法である。たとえば、次の文献１を例として挙げることができる。
【０００４】
文献１：F.J. Charpentier, M.G. Stella,"Diphone synthesis using an overlap-add technique for speech waveforms concatenation", Proc. Int. Conf. ASSP, pp. 2015-2018, Tokyo, 1986。
【０００５】
この文献１においては、予め音声波形にピッチマーク（基準点）を付けておき、その位置を中心に切り出して素片データを作成し、合成時には合成ピッチ周期に合わせて、ピッチマーク位置を合成ピッチ周期ずらしながら重ね合わせる合成方法が、PSOLA (Pitch-Synchronous Overlap Add method)として知られている。
【０００６】
図２は、上述の文献１に記載されている図であり、従来のPSOLA のピッチを変更しながら重畳する模式図である。これは、分析時（素片作成時）21に比べて、合成時22にピッチ周期を大きくした（音程を低くした）場合の図である。PSOLA では、ピッチを変更できるため、テキスト音声変換装置における音声合成回路として広く用いられてきている。
【０００７】
(2) また、対称化（零位相化）素片作成法が知られている。これは、人間の聴覚が位相成分に対して敏感でないという特性から、１ピッチ相当波形素片の周波数領域の虚部を０とする処理を行い、すべての素片を零位相化したものである。このような技術については、たとえば、文献２：特開平7-230296号公報「音声分析合成方法」や、文献３：中島隆之、他「基本周波数間隔標本化に基づく音声パワー・スペクトル包絡分析法」電子情報通信学会技術研究報告SP86-94 、第55頁〜第62頁などに提案されている。これらの技術によれば、時間軸原点（分析基準点）を中心に対称な波形となり、保持するデータ量が半ピッチ相当波形分で済む。また、素片をすべて零位相化していることによって、音韻内および音韻間の接続が良く、しかもなめらかな合成音が得られる。さらに、分析区間のインパルス応答が得られるという利点もある。
【０００８】
【発明が解決しようとする課題】
しかしながら、上述の従来の音声素片は、次のような問題点がある。上述の(1) １ピッチ相当波形素片作成法では、保持するデータ量が大きい。また、音声信号をそのまま素片として用いるため、素片に入力音声信号のピッチの影響が残っており、完全なインパルス応答とみなすことができない。また、入力音声信号のピッチごとの微少な揺らぎがそのまま音韻内の接続の悪さ（ごろつき）という形で現れる。
【０００９】
また、上述の(2) 対称化素片作成法では、高周波成分の割合が大きくなる無声子音部の前後の有声部や破裂音・破擦音を含んだ有声子音部では、どのように良いピッチマークを与えても、分析できない高周波成分のパワーが、分析の基準となる時間軸原点付近に集中するためＱ（選択性の特性）が低下し、結果として例えば「ジッ」というノイズが混入するなど、合成音の品質低下の原因となっている。これを解決するため、時間軸零点付近のパワーを抑えると、高周波成分がカットされるために、こもった音になる。
【００１０】
このようなことから、処理量および保持する情報量を従来の対称化素片作成法に比して微増にとどめながら、１ピッチ相当波形素片作成法および対称化素片作成法の長所を合わせ持つような、接続が良く高調波成分の劣化の少ない素片作成方法を提供し、高品質の合成音声を得る音声合成装置、音声合成制御プログラムを記録した記録媒体および素片辞書作成方法を実現することが要請されている。
【００１１】
【課題を解決するための手段】
そこで、本発明の音声合成装置は、入力音声信号に予め音韻ラベルを与え、素片作成時に音韻ラベルを参照し、入力音声信号が破裂音または破擦音を含む有声子音部である場合に、１ピッチ相当波形素片データを作成し、入力音声信号が破裂音または破擦音を含む有声子音部でない場合には、対称化素片データを作成して、１ピッチ相当波形素片データおよび対称化素片データを素片辞書に書き込む素片データ書き込み手段と、素片辞書に書き込まれている１ピッチ相当波形素片データおよび対称化素片データを読み出し、ピッチ周期分ずらしながら重畳する音声合成手段とを含む。
【００１２】
このような構成を採ることで、破裂音または破擦音を含む有声子音部に含まれる高周波成分による影響を受ける部分であれば、対称化しない１ピッチ相当波形素片を作成し、有声子音部の高周波成分の影響が少ない部分であれば、対称化素片を作成する。このため、素片辞書の大きさを微増に抑えることができる。また、破裂音または破擦音を含む有声子音部を、１ピッチ相当波形素片で作成することによって、この部分の音質を向上させることができる。
【００１３】
また、本発明の音声合成装置は、入力音声信号に含まれる高周波成分の割合を検出し、入力音声信号の前記高周波成分の割合が大きい場合には、１ピッチ相当波形素片データを作成し、高周波成分の割合が大きくない場合には、対称化素片データを作成し、これらの前記１ピッチ相当波形素片データおよび対称化素片データを素片辞書に書き込む素片データ書き込み手段と、素片辞書に書き込まれている１ピッチ相当波形素片データおよび対称化素片データを読み出し、ピッチ周期分ずらしながら重畳する音声合成手段とを含む。
【００１４】
このような構成にすることによって、素片辞書の情報量の増加に対して、効率よく音質の向上を図ることができる。すなわち、１ピッチ相当波形素片を増やして音質の向上を図ったり、対称化素子を増やして情報量を減らし、音韻間および音韻内の素片の接続性を対称化素片の増加によって向上させるなどに対応することができる。
【００１５】
また、本発明の音声合成装置は、入力音声信号に含まれる高周波成分の割合を検出し、入力音声信号の高周波成分の割合が大きい場合には、フーリエ分析不可と判断し、高周波成分の割合が大きくない場合には、フーリエ分析可能と判断する判断手段と、判断手段の履歴から素片分析法の切り替え頻度に制限を与え、入力音声信号を、１ピッチ相当波形素片データ作成法または対称化素片データ作成法のうちのいずれの素片データ作成法で素片辞書を作成するか否かを決定する決定手段と、決定された素片データ作成法によって作成された素片データを素片辞書に書き込む素片データ書き込み手段と、素片辞書に書き込まれている１ピッチ相当波形素片データおよび対称化素片データを読み出し、ピッチ周期分ずらしながら重畳する音声合成手段とを含む。
【００１６】
このような構成にすることによって、対称化素片と１ピッチ相当波形素片の切り替え頻度の制御が可能になり、これにより、合成音の接続性の悪さ、すなわち音のざらつきによる品質の低下を免れ、本出願人の聴取実験では、音声素片を切り替えていることに気がつかないようにさせることができる。
【００１７】
【発明の実施の形態】
次に本発明の好適な実施例を図面を用いて説明する。本実施例においては、(1) 音声信号に予め音韻ラベルを与え、素片作成時にラベルを参照し、音声信号が所定位置である場合に１ピッチ相当波形素片データを作成し、また、音声信号が所定位置（たとえば、破裂音、破擦音を含む有声子音部）でない場合には対称化素片データを作成して、音声信号の素片データを素片辞書に書き込む手段と、素片辞書から素片データを読み出し、素片データをピッチ周期分ずらしながら重畳するように音声合成を行う。
【００１８】
(2) また、音声信号の高周波成分の度合い（割合）を検出し、音声信号の高周波成分の度合いが大きい場合には、１ピッチ相当波形素片データを作成し、高周波成分の度合いが大きくない場合には対称化素片データを作成して、音声信号の素片データを素片辞書に書き込む手段と、素片辞書から素片データを読み出し、素片データをピッチ周期分ずらしながら重畳するように音声合成を行う。
【００１９】
(3) さらに、音声信号の高周波成分の度合いを検出し、音声信号の高周波成分の度合いが大きい場合には、フーリエ分析不可と判断し、高周波成分の度合いが大きくない場合にはフーリエ分析可能と判断する手段と、判断手段の履歴から素片分析法の切替頻度に制限を与えて、音声信号を、１ピッチ相当波形素片データ作成法あるいは対称化素片データ作成法の、いずれかの素片データ作成法で素片辞書を作成するか否かを決定する手段と、素片作成法により作成された素片データを素片辞書に書き込む手段と、素片辞書から素片データを読み出し、素片データをピッチ周期分ずらしながら重畳するように音声合成を行う。
【００２０】
図１は、第１の実施例の音声合成装置の機能構成図である。この図１において、音声合成装置は、文法情報、読み・アクセント情報1021などを出力する単語辞書102 と、漢字かな混じり文を取り込み単語辞書102 からの文法情報や読み・アクセント情報1021を使用してテキスト解析を行い中間言語1012を出力するテキスト解析回路101 と、中間言語1012からパラメータ生成を行うパラメータ生成回路103 と、音声信号を取り込む音声入力回路104 と、音声素片データを作成し素片辞書106 に書き込む素片作成回路105 と、作成された素片データを辞書データとして管理すると共に音声合成回路に与える素片辞書106 と、素片辞書106 の素片データを使用してパラメータ生成回路103 からのパラメータに基づき音声合成し、合成音1071を出力する音声合成回路107 とから構成されている。
【００２１】
テキスト解析回路101 では、漢字かな混じり文を入力して、単語辞書102 を参照して形態素解析し、読み、アクセント、イントネーションを決定し、韻律記号付き発音記号（中間言語）を出力する。パラメータ生成回路103 では、ピッチ周波数パターンや音韻継続時間などの設定を行う。
【００２２】
音声合成回路107 では、素片辞書106 内の素片を選択してPSOLA 法にて音声合成する。素片辞書106 は、音声信号を入力した後、素片作成回路105 にて作成される。この素片辞書106 の構成図を図３に示している。また、音声合成時の音声データ読み出し時の処理の模式図を図４に示している。
【００２３】
図３において、アズ（／azu ／）の素片テーブル31は、フレーム番号、対称化フラグ、素片データ先頭アドレスなどから構成されている。たとえば、フレーム番号０に対して、対称化フラグ１、素片データ先頭アドレス０x1230 が格納されている。フレーム番号１に対して、対称化フラグ１、素片データ先頭アドレス０x1240 が格納されている。この素片データ先頭アドレス０x1240 には、対称化された素片データ（第１フレーム）33が格納されている。フレーム番号２に対して、対称化フラグ０、素片データ先頭アドレス０x1250 が格納されている。この素片データ先頭アドレス０x1250 には、対称化されていない素片データ（第２フレーム）34が格納されている。ラベルテーブル32には、／aji ／、／azu ／、／aze ／などが含まれており、このラベルテーブル32からアズ（／azu ／）を選択する。
【００２４】
図４の音声合成時の音韻アズの処理において、アズ（／azu ／）の素片テーブル41は、フレーム番号、対称化フラグ、素片データ先頭アドレスなどから構成され、フレーム番号０に対して対称化フラグ１、素片データ先頭アドレス０x1230 が格納され、フレーム番号１に対して、対称化フラグ１、素片データ先頭アドレス０x1240 が格納され、この素片データ先頭アドレス０x1240 には、素片データとして対称化素片出力（第１フレーム）43が格納され、フレーム番号２に対して、対称化フラグ０、素片データ先頭アドレス０x1250 が格納され、この素片データ先頭アドレス０x1250 には、素片データとして、１ピッチ相当波形素片出力（第２フレーム）44が格納される。
【００２５】
図３、図４では、一例として、VCV 単位（母音＋子音＋母音）を一つの素片単位（音韻）としたとき、素片辞書106 内の音韻アズ（／azu ／）のデータ構造と、音声合成時の音声データ読み出し処理の模式図を表している。
【００２６】
素片辞書106 は、対称化されている素片と対称化されていない素片が混在できるように、素片辞書作成時には素片フレームごとに対称化フラグを設定した上で素片を書き込み、音声合成時には素片のフレームごとに対称化フラグを参照し、対称化されていれば対称化処理45を、図４の第１フレームのように施し、非対称であればそのまま素片辞書106 から読み出して、図４の第２フレームにし、音声を合成する。
【００２７】
素片作成回路105 内のピッチマーク算出回路110 は、原音声信号のピッチ周期を検出し、分析および合成時の時間軸基準点（ピッチマーク）を設定する。窓掛け部回路111 では、ピッチマークが中心となるようにTp1 の長さの時間窓を窓掛けする。ここで、時間窓長Tp1 は、分析時のピッチ周期をTpa 、合成時のピッチ周期をTps とした場合、
Tp1 ＝C0×min{Tpa,Tps}
のように制御する。C0は、2.0 程度の値である。
【００２８】
素片作成回路105 において、素片データを作成し、素片書き込み回路112 で素片辞書106 に書き込んでいるが、有声子音を含む音韻中の有声子音部付近では、高周波成分のパワーの割合が音声信号のパワーに対して非常に大きくなっており、フーリエ分析に不向きである。
【００２９】
本実施例は、音声信号に予め音韻中の位置を与えておき、音声信号が破裂音或いは破擦音を含む有声子音部（／b ／, ／d ／, ／g ／, ／j ／, ／z ／）の場合には、１ピッチ相当波形素片データを作成し、素片辞書106 へ書き込み、それ以外の部分では、対称化素片データを作成し素片辞書106 へ書き込む。
【００３０】
図５は、素片作成回路105 の処理フローチャートである。この図５において、音声信号は、たとえば、磁気ディスク装置などから入力される（ステップS201）。次に、ステップS201で入力された音声信号を分析フレームと称する区間に分割する（ステップS202）。本実施例においては、１フレーム長は、約32msecであり、約8msec ずらして次のフレームに移る。ここで、総フレーム数をＮとする。それぞれのフレームで、そのフレームの音韻とその音韻内の位置をラベルの形で保持している。
【００３１】
次に、処理を行うフレームｉを初期化する（ステップS203）。次に、ステップ204 〜ステップS209において、第ｉフレームのデータを分析し、素片辞書106 へ書き込む。具体的には、ステップS204で、第ｉフレームの音韻情報をラベルから読み込み、このフレームが、破裂音或いは破擦音を含んだ有声子音部に含まれる高周波成分による影響を受ける部分であれば、対称化しない１ピッチ相当波形素片を作成して（ステップS205）、素片データと対称化フラグが格納されている素片辞書106 に書き込み（ステップS207）、或いは有声子音部の高周波成分の影響の少ない部分であれば、零位相化処理を施し、対称化素片を作成し（ステップS206）、素片辞書106 に書き込む（ステップS207）。このような処理を第Ｎフレームまで行う（ステップS208,S209 ）。
【００３２】
本実施例では、対称化素片として、１ピッチ相当波形素片をフーリエ変換し、周波数成分の虚部を０とおいて、逆フーリエ変換したFFT 素片を作成した。なお、素片辞書106 の書き込みの際、FFT 素片の場合には素片の対称化フラグを１とし、１ピッチ相当波形素片の場合にはフラグを０にする。
【００３３】
図６は、上述のステップS205の１ピッチ相当波形素片辞書作成工程の詳細なフローチャートである。先ず、ステップS310で、第ｉフレームの音声データを分析データ配列data[k] に格納する。次に、ステップS310で、ピッチ周期Tpを検出する。ピッチ周期検出法としては、簡易手法として、波形のピーク間隔などを検出することを挙げることができる。本実施例では、より精密にピッチ周期を算出するため、ケプストラム法を用いる。
【００３４】
図７は、ケプストラム法によるピッチ周期の検出方法を説明するためのフローチャートである。まず、ステップS1において、時間波形を入力する。次に、ステップS2において、窓掛けを行う。次に、ステップS3において、離散フーリエ変換(Discrete Fourier Transform)を施す。次に、ステップS4において、その実部と虚部との自乗和の平方根を対数変換する。次に、ステップS5において、逆フーリエ変換(Inverse Discrete Fourier Transform)を施す。次に、ステップS6において、ケプストラム成分を得る。
【００３５】
このようにして、ケプストラム法は、畳み込み演算を加法的な演算によって変換するものであり、音声の有声音信号は音源成分を声道情報で畳み込んだものであって、両者の分離に適している。入力信号が音声の有声音の場合、音源成分は高いケフレンシー（長時間領域）のピークとして現れ、また、声道成分は低ケフレンシー（短時間領域）の成分として現れる。ケプストラムからピッチ周期を求めるには、高ケフレンシー部のピークを求めて、時間原点からピークまでの時間を測定すればよい。
【００３６】
再び、図６において、ピッチ周期の抽出の後（ステップS311）、次に、ステップS312において、第ｉフレームの分析の基準となるピッチマークを設定する。ピッチマークの設定法には、(1) 波形のピーク検出、(2) 短時間パワーのピーク検出、(3) 励振点の15％遅延点検出、などの方法があるが、本実施例では、(1) 波形ピークの検出を用いる。
【００３７】
次に、ステップS313において、上記ステップS312で与えたピッチマークが中心となるように、音声信号の再切り出しを行う。次に、ステップS314において、上記ステップS311で求めたピッチ周期を所定数倍した長さの窓を用いて、ステップS313で再切り出しを行った音声信号に窓掛けして自然波形素片を完成させる。
【００３８】
次に、ステップS315において、対称化フラグに０と与えた上で、作成した１ピッチ相当波形素片データを素片辞書106 へ図３に示すように書き込む。１ピッチ相当波形素片辞書作成ステップ205 の処理を終了する。
【００３９】
図８は、上述のステップS206の対称化(FFT) 素片辞書作成工程の詳細なフローチャートである。先ず、ステップS320〜S324までは、上述の図６の１ピッチ相当波形素片作成処理のステップS310〜S314までと同じ処理である。次に、ステップS325において、図９のFFT 分析用データの作成に示すように、ステップ324 で窓掛けしたデータの中心（ピッチマーク）91が分析するデータ配列の中心92となるように置き、前後にゼロを挿入（ゼロパディング）93、94して、2048点の分析データ95を作成し、フーリエ変換する。
【００４０】
次に、ステップS326において、フーリエ変換したデータの虚部をすべて０とおく。次に、ステップS327において、逆フーリエ変換し、第ｉフレームのデータのインパルス応答を得る。すなわち、FFT 素片が完成する。次に、ステップS328において、対称化フラグに１を与えて、FFT 素片データを素片辞書106 へ図３に示すように書き込む。これによって、対称化素片辞書作成処理ステップ206 の処理を終了する。
【００４１】
いずれの素片作成処理においても、上述の図６のステップ314 および図８のステップ324 において窓掛けが行われており、これにより音声合成時の１ピッチ毎の窓掛けの乗算が不要となり、ただ重ね合わせを実行するだけでよく、音声合成処理量を大幅に減少することができる。このため、本音声合成方法を適用した装置においては、デジタル信号処理などの演算プロセッサを使用することなく、通常のCPU で実現可能となる。
【００４２】
また、上述の図５のステップS208において、全フレーム終了したか否かの判定を行い、終了していなければ、ステップS209で処理を行うフレーム番号を更新して、ステップS204以降の処理を継続する。ステップS208の判定で、全フレームの処理が終了していれば、磁気ディスク装置のクローズ処理などを行って素片作成回路105 の処理を終了する。
【００４３】
上述の図１、図５〜図８に示した音声合成のための処理は、音声合成制御プログラムを記録媒体（ROM 、RAM 、フラッシュメモリ、磁気ディスク装置）に記録し、CPU で動作させることによって実現することができる。
【００４４】
図10は、音韻イジュ（／ijyu／）有声子音部の音声信号と各素片を表す図である。図10(a) は、音声信号の波形図である。(b) は、自然波形素片の波形図である。(c) は、対称化（FFT ）素片の波形図である。この図10において、有声子音を含む音韻イジュ（／ijyu／）の有声子音部（／jy／）の音声信号(a) と、この信号を分析して得られた１ピッチ相当波形素片、対称化（FFT ）素片の概形を表示している。
【００４５】
図10(a) の音声信号の概形から分かるとおり、分析する音声信号には、大きな高周波成分が重畳しており、これをフーリエ変換処理した対称化素片(c) は、時間軸原点付近に大きなパワーが集中し、Ｑが著しく高くなっている。上述の実施例では、高周波成分の割合が大きい、素片の有声子音部を１ピッチ相当波形素片で作成(b) し、残りの大半の部分は、対称化素片(c) で作成しているため、全体として素片辞書106 の大きさを微増に抑えた。
【００４６】
実験によって、VCV 単位による音声分析合成法で、以下の２つの手法で素片辞書106 の大きさ（ディスク容量）を比較した。
【００４７】
(1) 破裂音・破擦音を含む有声子音部の素片のみを対称化しない１ピッチ相当波形素片で作成し、それ以外はすべて対称化した素片で作成した。
【００４８】
(2) 全素片を対称化して作成した。
(1) の素片辞書の大きさ（本実施例の素片辞書サイズ）の、(2) の素片辞書の大きさに対する増加の割合は、全体のフレーム数に対する、破裂音或いは破擦音を含む有声子音のフレーム数の割合だけ増加、すなわち、６％程度の微増であった。
【００４９】
さらに、対称化素片による合成音声での品質劣化の最大要因となっていた破裂音・破擦音を含んだ有声子音部を、フーリエ分析せず重畳の中心となるピッチマークを中心に原音声信号を切り出し、窓掛けしただけの１ピッチ相当波形素片で作成することにより、この部分の音質を格段に向上させることができ、結果として合成音の音質を向上させることができた。
【００５０】
第２の実施例：
本第２の実施例の音声分析合成装置においても、装置の機能構成としては、上述の図１と同様である。特に、素片作成回路105 の別の実施態様について説明する。
【００５１】
図11は、本実施例の素片作成回路105Aの動作フローチャートである。この図 11において、先ず、ステップS501において、音声信号は例えば磁気ディスク装置からから入力される。次に、ステップS502では、ステップS501で入力された音声信号を分析フレームと呼ぶ区間に分割する。１フレーム長をおよそ32msec程度とし、およそ8msec 程度ずらして次のフレームに移る。それぞれのフレームには、そのフレームの音韻と音韻内の位置をラベルの形で図３に示すように保持する。
【００５２】
次に、ステップS503で処理を行うフレーム番号ｉを初期化する。次に、ステップS504〜S511において、第ｉフレームのデータを分析し、対称化フラグを設定して、１ピッチ相当波形素片と対称化素片のいずれかの素片データを素片辞書106 へ書き込む。そして、対称化素片として、FFT 素片を作成する。
【００５３】
そこで、詳細には、ステップS504において、１ピッチ相当波形素片とFFT 素片とを作成する。図12は、ステップS504の素片データの作成の詳細な処理方法を示すフローチャートである。先ず、ステップS601において、第ｉフレームのデータを分析データ配列data[i] に格納する。次に、ステップS611において、ピッチ周期Tpを検出する。次に、ステップS612において、ピッチマークを設定する。次に、ステップS613において、ステップS612で設定したピッチマークが中心となるよう、音声信号を再切り出しする。次に、ステップS614において、ピッチ周期の所定数倍の窓をかけ、１ピッチ相当波形素片が完成する。
【００５４】
ステップS615a 、b において、１ピッチ相当波形素片をバッファに保持する。さらに、FFT 素片を作成していく。このため、ステップS616で、ステップS614において窓かけしたデータにゼロパティングを行い、図９に示すように2048点のデータを形成し、これをフーリエ変換する。ステップS617において、ステップS616でフーリエ変換したデータの虚部をすべて０とする（零位相化）。最後に、ステップS618において、零位相化されたデータを逆フーリエしてFFT 素片を作る。次に、ステップS619a,b において、FFT 素片をバッファへ保持する。
【００５５】
以上のようにして作成されたFFT 素片を用いて、ステップS505にて高周波成分の度合いを検定する。図13は、高周波成分のＱ値と高周波成分の度合いを示す図である。ステップS505の処理を図13を用いて説明する。(a) において、高周波成分はフーリエ変換を行うと時間軸原点付近にそのパワーが集中するため、高周波成分の度合いをＱ値で測ることができる。Ｑ値は、時間軸原点のピーク値を、そのピークの3dB 減衰幅Ｗで除算したものである。
【００５６】
Ｑ＝波形ピーク値／3dB 減衰幅＝Ｐ／Ｗ
それぞれのＱ値に対応する波形の例を合わせて図に示されている。(b) は、Ｑ＝0.05のときの波形図である。(c) は、Ｑ＝0.1 のときの波形図である。(d) は、Ｑ＝O.5 のときの波形図である。
【００５７】
次に、再び図11において、ステップS506では、ステップS505で求めたＱ値が閾値を下回れば、フーリエ級数展開可能と判断でき、Ｑ値が閾値を越えていれば、高周波成分の度合いが大きく、フーリエ級数展開に向かないと判断できる。
【００５８】
次に、ステップS507およびS508において、それぞれの書き込み素片選択に対して対称化フラグを与え、ステップS509において、素片辞書106 への書き込みを行う。なお、書き込む素片データは、ステップS615およびステップS619でバッファに保持している１ピッチ相当波形素片データ／FFT 素片データである。
【００５９】
次に、ステップS510で、全フレーム終了したか否かの判定を行い、終了していれば、ステップS511で処理を行うフレーム番号を更新して、ステップS504以降の処理を継続する。ステップS510の判定で、全フレームの処理が終了していれば、例えば、磁気ディスク装置のクローズ処理などを行って素片作成回路105Aの処理を終了する。
【００６０】
以上のように、Ｑ値を用いて高周波成分の度合いを検出し、素片選択を行うことで、情報量（素片辞書106 のディスク容量）の増加に対して効率よく音質の向上が得られる。また、Ｑ値の閾値の大きさを変えることにより、１ピッチ相当波形素片を増やして音質の向上を図る、あるいはFFT 素片を増やして情報量を減らして、音韻間および音韻内の素片の接続性を対称化（零位相化）素片の増加により向上させるなどの設定変更を容易に実現することができる。
【００６１】
上述の第２の実施例の音声合成装置においては、個々の素片ごとのフーリエ分析判別法を用いて素片辞書を作成すると、図14(a) に示すように、対称化素片と１ピッチ相当波形素片とが交互に素片辞書に書き込まれるということもあり得る。このような素片辞書により合成された音は、音韻内のざらつきが生じ、結果として聴覚的な音質の低下が生じる。そこで、次の第３の実施例においては、このような点を改善する。
【００６２】
図15は、第３の実施例の素片作成回路105Bの処理フローチャートである。まず、音声信号は、ステップS901において、たとえば、磁気ディスク装置などから入力される。次に、ステップS902では、ステップS901で入力された音声信号を分析フレームと呼ぶ区間に分割する。１フレーム長は、32msecで、8msec ずらして次のフレームに移る。ここで、総フレームをＮとし、それぞれのフレームで、そのフレームの音韻とその音韻内の位置をラベルの形で保持している。
【００６３】
ステップS903で処理を行うフレーム番号ｉを初期化する。次に、ステップS904〜ステップS912において、第ｉフレームのデータを分析し、対称化フラグおよび素片データを素片辞書106 へ書き込む。
【００６４】
次に、詳細には、ステップS904で、１ピッチ相当波形素片と対称化素片を作成する。対称化素片としてFFT 素片を作成する。次に、ステップS905において、作成したFFT 素片を用いて高周波成分の度合いを検定する。高周波成分は、フーリエ変換すると、時間軸原点付近にそのパワーが集中するため、高周波成分の度合いをＱ値で測ることができる。Ｑ値は、時間軸原点のピーク値Ｐを、そのピークの３dB減衰幅Ｗで除算したものである。
【００６５】
次に、ステップS906において、ステップS905で求めたＱ値が閾値を越えていれば、高周波成分の度合いが大きくフーリエ分析に向かないと判断し、Ｑ値が閾値を越えていなければフーリエ分析可能と判断する。次に、ステップS907において、ステップS906での素片書き込み判定の結果によって生じ得る頻繁な素片切り替えを制限する。すなわち、ステップS906による素片切り替え判定だけでは、極端な場合、図14(a) に示すように、対称化素片と１ピッチ相当波形素片とが交互に素片辞書106 に書き込まれる可能性があり、このような素片辞書による合成音声は、音韻内で接続の悪いざらついた音になり、結果として合成音の品質低下を招く。この例では、簡単のため、各素片は２つ以上続いて素片辞書に書き込まれるとし（閾値２）、１ピッチ相当波形素片を優先させるとする。
【００６６】
ステップS907の処理の模式図を図14および図16に示している。両図とも、各素片の連続個数は、２個（連続個数の閾値＝２）、素片選択は、１ピッチ相当波形素片優先としている。両方の図の(a) が、ステップS906での判定であり、(c) がステップS907での切り替え判定処理後の判定である。図(a) 、(b) 、(c) の上値が１ピッチ相当波形素片の選択であり、下値が対称化(FFT) 素片の選択としている。
【００６７】
ここでの処理は、ステップ１において、１ピッチ相当波形素片（対称化素片）の選択がその前後で閾値以下の時刻を見つけ、後続する時刻での素片選択を１ピッチ相当波形素片（対称化素片）とする。
【００６８】
ステップ２においては、対称化素片（１ピッチ相当波形素片）の選択がその前後で閾値以下の時刻を見つけ、その時刻での素片選択を１ピッチ相当波形素片（対称化素片）とする。
【００６９】
なお、素片選択として対称化素片の選択を優先する際には、それぞれの上記素片記述部をかっこ内の素片に読み替える。図16(a) のように、時刻ｔでの高周波成分の度合いの判定で、１ピッチ相当波形素片が選択され、その前後、ｔ−１、ｔ＋１では、FFT 素片が選択されているとする。時刻ｔの前後で１ピッチ相当波形素片の選択が一つ（閾値以下）であるため、図(b) に示すように、時刻ｔ＋１の選択を１ピッチ相当波形素片とする。さらに、時刻ｔ＋２の前後で対称化素片の選択が一つ（閾値以下）であるため、図(c) に示すように時刻ｔ＋２の選択を１ピッチ相当波形素片とする。閾値２としたときの最終的な切り替え判定を、図16(c) に示している。
【００７０】
以上のような構成によって、音声分析合成の実験を行った結果、素片切り替え判定処理を加えたことによって、対称化素片と１ピッチ相当波形素片の切り替え頻度が大幅に減ったため、合成音の接続性（ざらつき）は、素片を切り替えていることに気がつかないほどスムーズになった。これは、人間の聴覚が位相成分に対して敏感ではないことによる。
【００７１】
このような結果として、入力音声信号に対して効率良く素片辞書を作成し、音声分析合成時の処理量を増やさず、高品質の合成音声を得る音声分析合成方法を実現することができた。
【００７２】
実験の結果、高周波成分の度合いの判定でのＱ値の閾値を１と正規化したとき、22.05kHzのサンプリングの音声信号に対して、Ｑth＝0.2 、切り替え判定の素片の連続個数閾値を２個に設定し、素片切り替えでは１ピッチ相当波形素片の選択を優先することによって、接続性が良く、高周波成分の劣化が少ない高品質の合成音声が得られることを確認することができた。
【００７３】
【発明の効果】
以上で述べたように本発明は、入力音声信号に予め音韻ラベルを与え、素片作成時に音韻ラベルを参照し、入力音声信号が破裂音または破擦音を含む有声子音部である場合に、１ピッチ相当波形素片データを作成し、入力音声信号が有声子音部でない場合には、対称化素片データを作成して、１ピッチ相当波形素片データおよび対称化素片データを素片辞書に書き込み、素片辞書に書き込まれている１ピッチ相当波形素片データおよび対称化素片データを読み出し、ピッチ周期分ずらしながら重畳することで、処理量および保持する情報量を従来の対称化素片作成法に比して微増にとどめながら、１ピッチ相当波形素片作成法および対称化素片作成法の長所を合わせ持ち、接続が良く高調波成分の劣化の少ない音声素片を作成でき、高品質の合成音声を得ることができるようになる。
【図面の簡単な説明】
【図１】本発明の第１の実施例の音声分析合成装置の機能構成図である。
【図２】従来例の音声分析合成の説明図である。
【図３】第１の実施例の素片辞書の構成説明図である。
【図４】実施例の音声合成回路の処理の説明図である。
【図５】第１の実施例の素片作成回路の処理フローチャートである。
【図６】第１の実施例において、１ピッチ相当波形素片辞書の作成のフローチャートである。
【図７】第１の実施例において、ピッチ周期検出の処理フローチャートである。
【図８】第１の実施例において、対称化素片辞書の作成のフローチャートである。
【図９】第１の実施例において、2048ポイントのFFT 分析用データの作成の説明図である。
【図１０】第１の実施例において、音韻イジュ（／ijyu／）有声子音部の音声信号と各素片を表す図である。
【図１１】第２の実施例の素片作成回路の処理フローチャートである。
【図１２】第２の実施例の素片データの作成の詳細な処理方法を示すフローチャートである。
【図１３】第２の実施例において、高周波成分のＱ値と高周波成分の度合いを示す図である。
【図１４】第２の実施例において、高周波の度合いによる判定での極端な場合の例で、閾値２、１ピッチ相当波形素片を優先する場合の説明図である。
【図１５】第３の実施例の素片作成回路の処理フローチャートである。
【図１６】第３の実施例の素片作成回路において、素片選択として、１ピッチ相当波形素片を優先し、閾値２の後処理型素片切り替え判定の説明図である。
【符号の説明】
101 テキスト解析回路
102 単語辞書
103 パラメータ生成回路
105,105A,105B 素片作成回路
106 素片辞書
107 音声合成回路

Claims

入力音声信号を分割し、分割した入力音声信号に対する素片データを記憶手段である素片辞書に書き込む素片書込み手段と、前記素片辞書に書き込まれた素片データと供給されるパラメータに基づき音声合成する合成手段とを含み、該合成手段から合成音を出力する音声合成装置において、
前記素片書込み手段は、前記入力音声信号のピッチ周期を検出し、分析および合成における時間軸基準点を設定する分析手段と、
該時間基準点を中心に所定の長さの時間窓を前記入力音声信号に掛ける窓掛け手段と、
前記入力音声信号に対する前記時間窓を掛けたデータが第１の素片データであり、第１の素片データを保持し、ゼロパティングされた第１のデータをフーリエ変換し、フーリエ変換により得られる周波数成分の虚部の値をゼロに設定し、設定後の周波数成分を逆フーリエ変換し、第２の素片データを求め、第１および第２の素片データを前記素片辞書に書き込むデータ書込み手段とを含み、
該データ書込み手段は、さらに、前記入力音声信号に含まれる高周波成分の割合を選択性の特性を示す特性値で表わし、前記特性値が前記所定の閾値より大きいデータに対するフーリエ分析を回避と判断し、該特性値が前記所定の閾値以下のデータに対するフーリエ分析を可能と判断する判断手段と、
該判断手段の履歴を基に前記素片データの分類における切り替え頻度を制限し、前記入力音声信号の各フレームを、第１および第２の素片データのいずれのデータ作成法で前記素片辞書に書き込むか否かを決定する決定手段とを含み、
前記特性値は、前記分割した入力音声信号の波形ピーク値と該ピーク値における３dBの減衰幅の比で表わされ、
前記決定手段は、前記履歴を基に、前記フーリエ分析を回避と判断されたフレームを第１の素片データに設定し、前記フーリエ分析が可能と判断されたフレームを第２の素片データに設定し、つぎに第１および第２の素片データのいずれかを優先素片データとして、当該フレームで前記優先素片データが選択されており、かつ該フレームの前後のフレームで前記優先素片データと異なるフレームを検出し、検出したフレームの直後のフレームを前記優先素片データに再設定し、つぎに当該フレームで前記優先素片データと異なる素片データが選択されており、かつ該フレームの前後でいずれも前記優先素片データが選択されているフレームを検出し、検出したフレームを前記優先素片データに再設定して、これにより接続性を良くし、
前記合成手段は、前記素片辞書に書き込まれている第１および第２の素片データを読み出し、ピッチ周期分ずらしながら重畳することで音声合成することを特徴とする音声合成装置。
コンピュータによって、音声の素片データを使用して、音声合成を制御する音声合成制御プログラムを記録した記録媒体であって、
前記音声合成制御プログラムは、前記素片データの書込みは、前記入力音声信号のピッチ周期を検出し、分析および合成における時間軸基準点を設定する第１の工程と、
該時間基準点を中心に所定の長さの時間窓を前記入力音声信号に掛ける第２の工程と、
前記入力音声信号に対する前記時間窓を掛けたデータが第１の素片データであり、第１の素片データを保持し、ゼロパティングされた第１のデータをフーリエ変換し、フーリエ変換により得られる周波数成分の虚部の値をゼロに設定し、設定後の周波数成分を逆フーリエ変換し、第２の素片データを求め、第１および第２の素片データを前記素片辞書に書き込む第３の工程とを含み、
第３の工程は、さらに、前記選択性の特性を示す特性値は、前記分割した入力音声信号の波形ピーク値と該ピーク値における３dBの減衰幅の比で表わされ、該特性値が前記所定の閾値より大きいデータに対してフーリエ分析を回避と判断し、該特性値が前記所定の閾値以下のデータに対してフーリエ分析を可能と判断する第４の工程と、
該判断した結果の履歴を基に前記素片データの分類における切り替え頻度を制限し、前記入力音声信号の各フレームを、第１および第２の素片データのいずれのデータ作成法で前記素片辞書を書き込むか否かを決定する第５の工程とを含み、
第５の工程は、前記履歴を基に、前記フーリエ分析を回避と判断されたフレームを第１の素片データに設定し、前記フーリエ分析が可能と判断されたフレームを第２の素片データに設定し、つぎに第１および第２の素片データのいずれかを優先素片データとして、当該フレームで前記優先素片データが選択されており、かつ該フレームの前後のフレームで前記優先素片データと異なるフレームを検出し、検出したフレームの直後のフレームを前記優先素片データに再設定し、つぎに当該フレームで前記優先素片データと異なる素片データが選択されており、かつ該フレームの前後でいずれも前記優先素片データが選択されているフレームを検出し、検出したフレームを前記優先素片データに再設定して、これにより接続性を良くし、
該プログラムは、さらに、記憶手段である素片辞書に書き込まれている第１および第２の素片データを読み出し、ピッチ周期分ずらしながら重畳して、前記素片辞書に書き込まれた素片データと供給されるパラメータに基づき音声合成する第６の工程とを含むことを特徴とする音声合成制御プログラムを記録した記録媒体。
入力音声信号を分割し、分割した入力音声信号に対する素片データを記憶手段である素片辞書に書き込む音声素片辞書作成方法において、
前記素片データの書込みは、前記入力音声信号のピッチ周期を検出し、分析および合成における時間軸基準点を設定する第１の工程と、
該時間基準点を中心に所定の長さの時間窓を前記入力音声信号に掛ける第２の工程と、
前記入力音声信号に対する前記時間窓を掛けたデータが第１の素片データであり、第１の素片データを保持し、ゼロパティングされた第１のデータをフーリエ変換し、フーリエ変換により得られる周波数成分の虚部の値をゼロに設定し、設定後の周波数成分を逆フーリエ変換し、第２の素片データを求め、第１および第２の素片データを前記素片辞書に書き込む第３の工程とを含み、
第３の工程は、さらに、前記選択性の特性を示す特性値は、前記分割した入力音声信号の波形ピーク値と該ピーク値における３dBの減衰幅の比で表わされ、該特性値が前記所定の閾値より大きいデータに対してフーリエ分析を回避と判断し、該特性値が前記所定の閾値以下のデータに対してフーリエ分析を可能と判断する第４の工程と、
該判断した結果の履歴を基に前記素片データの分類における切り替え頻度を制限し、前記入力音声信号の各フレームを、第１および第２の素片データのいずれのデータ作成法で前記素片辞書を書き込むか否かを決定する第５の工程とを含み、
第５の工程は、前記履歴を基に、前記フーリエ分析を回避と判断されたフレームを第１の素片データに設定し、前記フーリエ分析が可能と判断されたフレームを第２の素片データに設定し、つぎに第１および第２の素片データのいずれかを優先素片データとして、当該フレームで前記優先素片データが選択されており、かつ該フレームの前後のフレームで前記優先素片データと異なるフレームを検出し、検出したフレームの直後のフレームを前記優先素片データに再設定し、つぎに当該フレームで前記優先素片データと異なる素片データが選択されており、かつ該フレームの前後でいずれも前記優先素片データが選択されているフレームを検出し、検出したフレームを前記優先素片データに再設定して、これにより接続性を良くさせることを特徴とする音声素片辞書作成方法。