JP3853923B2 - 音声合成装置 - Google Patents

音声合成装置 Download PDF

Info

Publication number
JP3853923B2
JP3853923B2 JP23457897A JP23457897A JP3853923B2 JP 3853923 B2 JP3853923 B2 JP 3853923B2 JP 23457897 A JP23457897 A JP 23457897A JP 23457897 A JP23457897 A JP 23457897A JP 3853923 B2 JP3853923 B2 JP 3853923B2
Authority
JP
Japan
Prior art keywords
data
segment
frame
segment data
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP23457897A
Other languages
English (en)
Other versions
JPH1173198A (ja
Inventor
健 岩木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP23457897A priority Critical patent/JP3853923B2/ja
Publication of JPH1173198A publication Critical patent/JPH1173198A/ja
Application granted granted Critical
Publication of JP3853923B2 publication Critical patent/JP3853923B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、音声合成装置に関するものであり、より具体的にはさらに、音声合成制御プログラムを記録した記録媒体および音声素片辞書作成方法に関し、規則によって任意の音声を合成するもので、たとえば、音声波形を接続して合成音声を得ることに適用し得る。
【0002】
【従来の技術】
従来、テキスト文章を音声に変換して出力するテキスト音声変換装置は、テキスト解析回路とパラメータ生成回路と、音声合成回路とから構成されている。テキスト解析回路では、漢字かな混じり文を入力して、単語辞書を参照して形態素解析し、読みや、アクセントや、イントネーションを決定し、韻律記号付き発音記号(中間言語)を出力する。パラメータ生成回路では、ピッチ周波数パターンや音韻継続時間などの設定を行い、音声合成回路では音声の合成処理を行う。音声合成の技術として、以下のような手法が提案されている。
【0003】
(1) 1ピッチ相当波形素片作成方法:この作成方法は、原音声波形をそのまま利用して、劣化の少ない高品質の合成音を得る手法である。たとえば、次の文献1を例として挙げることができる。
【0004】
文献1:F.J. Charpentier, M.G. Stella,"Diphone synthesis using an overlap-add technique for speech waveforms concatenation", Proc. Int. Conf. ASSP, pp. 2015-2018, Tokyo, 1986。
【0005】
この文献1においては、予め音声波形にピッチマーク(基準点)を付けておき、その位置を中心に切り出して素片データを作成し、合成時には合成ピッチ周期に合わせて、ピッチマーク位置を合成ピッチ周期ずらしながら重ね合わせる合成方法が、PSOLA (Pitch-Synchronous Overlap Add method)として知られている。
【0006】
図2は、上述の文献1に記載されている図であり、従来のPSOLA のピッチを変更しながら重畳する模式図である。これは、分析時(素片作成時)21に比べて、合成時22にピッチ周期を大きくした(音程を低くした)場合の図である。PSOLA では、ピッチを変更できるため、テキスト音声変換装置における音声合成回路として広く用いられてきている。
【0007】
(2) また、対称化(零位相化)素片作成法が知られている。これは、人間の聴覚が位相成分に対して敏感でないという特性から、1ピッチ相当波形素片の周波数領域の虚部を0とする処理を行い、すべての素片を零位相化したものである。このような技術については、たとえば、文献2:特開平7-230296号公報「音声分析合成方法」や、文献3:中島隆之、他「基本周波数間隔標本化に基づく音声パワー・スペクトル包絡分析法」電子情報通信学会技術研究報告SP86-94 、第55頁〜第62頁などに提案されている。これらの技術によれば、時間軸原点(分析基準点)を中心に対称な波形となり、保持するデータ量が半ピッチ相当波形分で済む。また、素片をすべて零位相化していることによって、音韻内および音韻間の接続が良く、しかもなめらかな合成音が得られる。さらに、分析区間のインパルス応答が得られるという利点もある。
【0008】
【発明が解決しようとする課題】
しかしながら、上述の従来の音声素片は、次のような問題点がある。上述の(1) 1ピッチ相当波形素片作成法では、保持するデータ量が大きい。また、音声信号をそのまま素片として用いるため、素片に入力音声信号のピッチの影響が残っており、完全なインパルス応答とみなすことができない。また、入力音声信号のピッチごとの微少な揺らぎがそのまま音韻内の接続の悪さ(ごろつき)という形で現れる。
【0009】
また、上述の(2) 対称化素片作成法では、高周波成分の割合が大きくなる無声子音部の前後の有声部や破裂音・破擦音を含んだ有声子音部では、どのように良いピッチマークを与えても、分析できない高周波成分のパワーが、分析の基準となる時間軸原点付近に集中するためQ(選択性の特性)が低下し、結果として例えば「ジッ」というノイズが混入するなど、合成音の品質低下の原因となっている。これを解決するため、時間軸零点付近のパワーを抑えると、高周波成分がカットされるために、こもった音になる。
【0010】
このようなことから、処理量および保持する情報量を従来の対称化素片作成法に比して微増にとどめながら、1ピッチ相当波形素片作成法および対称化素片作成法の長所を合わせ持つような、接続が良く高調波成分の劣化の少ない素片作成方法を提供し、高品質の合成音声を得る音声合成装置、音声合成制御プログラムを記録した記録媒体および素片辞書作成方法を実現することが要請されている。
【0011】
【課題を解決するための手段】
そこで、本発明の音声合成装置は、入力音声信号に予め音韻ラベルを与え、素片作成時に音韻ラベルを参照し、入力音声信号が破裂音または破擦音を含む有声子音部である場合に、1ピッチ相当波形素片データを作成し、入力音声信号が破裂音または破擦音を含む有声子音部でない場合には、対称化素片データを作成して、1ピッチ相当波形素片データおよび対称化素片データを素片辞書に書き込む素片データ書き込み手段と、素片辞書に書き込まれている1ピッチ相当波形素片データおよび対称化素片データを読み出し、ピッチ周期分ずらしながら重畳する音声合成手段とを含む。
【0012】
このような構成を採ることで、破裂音または破擦音を含む有声子音部に含まれる高周波成分による影響を受ける部分であれば、対称化しない1ピッチ相当波形素片を作成し、有声子音部の高周波成分の影響が少ない部分であれば、対称化素片を作成する。このため、素片辞書の大きさを微増に抑えることができる。また、破裂音または破擦音を含む有声子音部を、1ピッチ相当波形素片で作成することによって、この部分の音質を向上させることができる。
【0013】
また、本発明の音声合成装置は、入力音声信号に含まれる高周波成分の割合を検出し、入力音声信号の前記高周波成分の割合が大きい場合には、1ピッチ相当波形素片データを作成し、高周波成分の割合が大きくない場合には、対称化素片データを作成し、これらの前記1ピッチ相当波形素片データおよび対称化素片データを素片辞書に書き込む素片データ書き込み手段と、素片辞書に書き込まれている1ピッチ相当波形素片データおよび対称化素片データを読み出し、ピッチ周期分ずらしながら重畳する音声合成手段とを含む。
【0014】
このような構成にすることによって、素片辞書の情報量の増加に対して、効率よく音質の向上を図ることができる。すなわち、1ピッチ相当波形素片を増やして音質の向上を図ったり、対称化素子を増やして情報量を減らし、音韻間および音韻内の素片の接続性を対称化素片の増加によって向上させるなどに対応することができる。
【0015】
また、本発明の音声合成装置は、入力音声信号に含まれる高周波成分の割合を検出し、入力音声信号の高周波成分の割合が大きい場合には、フーリエ分析不可と判断し、高周波成分の割合が大きくない場合には、フーリエ分析可能と判断する判断手段と、判断手段の履歴から素片分析法の切り替え頻度に制限を与え、入力音声信号を、1ピッチ相当波形素片データ作成法または対称化素片データ作成法のうちのいずれの素片データ作成法で素片辞書を作成するか否かを決定する決定手段と、決定された素片データ作成法によって作成された素片データを素片辞書に書き込む素片データ書き込み手段と、素片辞書に書き込まれている1ピッチ相当波形素片データおよび対称化素片データを読み出し、ピッチ周期分ずらしながら重畳する音声合成手段とを含む。
【0016】
このような構成にすることによって、対称化素片と1ピッチ相当波形素片の切り替え頻度の制御が可能になり、これにより、合成音の接続性の悪さ、すなわち音のざらつきによる品質の低下を免れ、本出願人の聴取実験では、音声素片を切り替えていることに気がつかないようにさせることができる。
【0017】
【発明の実施の形態】
次に本発明の好適な実施例を図面を用いて説明する。本実施例においては、(1) 音声信号に予め音韻ラベルを与え、素片作成時にラベルを参照し、音声信号が所定位置である場合に1ピッチ相当波形素片データを作成し、また、音声信号が所定位置(たとえば、破裂音、破擦音を含む有声子音部)でない場合には対称化素片データを作成して、音声信号の素片データを素片辞書に書き込む手段と、素片辞書から素片データを読み出し、素片データをピッチ周期分ずらしながら重畳するように音声合成を行う。
【0018】
(2) また、音声信号の高周波成分の度合い(割合)を検出し、音声信号の高周波成分の度合いが大きい場合には、1ピッチ相当波形素片データを作成し、高周波成分の度合いが大きくない場合には対称化素片データを作成して、音声信号の素片データを素片辞書に書き込む手段と、素片辞書から素片データを読み出し、素片データをピッチ周期分ずらしながら重畳するように音声合成を行う。
【0019】
(3) さらに、音声信号の高周波成分の度合いを検出し、音声信号の高周波成分の度合いが大きい場合には、フーリエ分析不可と判断し、高周波成分の度合いが大きくない場合にはフーリエ分析可能と判断する手段と、判断手段の履歴から素片分析法の切替頻度に制限を与えて、音声信号を、1ピッチ相当波形素片データ作成法あるいは対称化素片データ作成法の、いずれかの素片データ作成法で素片辞書を作成するか否かを決定する手段と、素片作成法により作成された素片データを素片辞書に書き込む手段と、素片辞書から素片データを読み出し、素片データをピッチ周期分ずらしながら重畳するように音声合成を行う。
【0020】
図1は、第1の実施例の音声合成装置の機能構成図である。この図1において、音声合成装置は、文法情報、読み・アクセント情報1021などを出力する単語辞書102 と、漢字かな混じり文を取り込み単語辞書102 からの文法情報や読み・アクセント情報1021を使用してテキスト解析を行い中間言語1012を出力するテキスト解析回路101 と、中間言語1012からパラメータ生成を行うパラメータ生成回路103 と、音声信号を取り込む音声入力回路104 と、音声素片データを作成し素片辞書106 に書き込む素片作成回路105 と、作成された素片データを辞書データとして管理すると共に音声合成回路に与える素片辞書106 と、素片辞書106 の素片データを使用してパラメータ生成回路103 からのパラメータに基づき音声合成し、合成音1071を出力する音声合成回路107 とから構成されている。
【0021】
テキスト解析回路101 では、漢字かな混じり文を入力して、単語辞書102 を参照して形態素解析し、読み、アクセント、イントネーションを決定し、韻律記号付き発音記号(中間言語)を出力する。パラメータ生成回路103 では、ピッチ周波数パターンや音韻継続時間などの設定を行う。
【0022】
音声合成回路107 では、素片辞書106 内の素片を選択してPSOLA 法にて音声合成する。素片辞書106 は、音声信号を入力した後、素片作成回路105 にて作成される。この素片辞書106 の構成図を図3に示している。また、音声合成時の音声データ読み出し時の処理の模式図を図4に示している。
【0023】
図3において、アズ(/azu /)の素片テーブル31は、フレーム番号、対称化フラグ、素片データ先頭アドレスなどから構成されている。たとえば、フレーム番号0に対して、対称化フラグ1、素片データ先頭アドレス0x1230 が格納されている。フレーム番号1に対して、対称化フラグ1、素片データ先頭アドレス0x1240 が格納されている。この素片データ先頭アドレス0x1240 には、対称化された素片データ(第1フレーム)33が格納されている。フレーム番号2に対して、対称化フラグ0、素片データ先頭アドレス0x1250 が格納されている。この素片データ先頭アドレス0x1250 には、対称化されていない素片データ(第2フレーム)34が格納されている。ラベルテーブル32には、/aji /、/azu /、/aze /などが含まれており、このラベルテーブル32からアズ(/azu /)を選択する。
【0024】
図4の音声合成時の音韻アズの処理において、アズ(/azu /)の素片テーブル41は、フレーム番号、対称化フラグ、素片データ先頭アドレスなどから構成され、フレーム番号0に対して対称化フラグ1、素片データ先頭アドレス0x1230 が格納され、フレーム番号1に対して、対称化フラグ1、素片データ先頭アドレス0x1240 が格納され、この素片データ先頭アドレス0x1240 には、素片データとして対称化素片出力(第1フレーム)43が格納され、フレーム番号2に対して、対称化フラグ0、素片データ先頭アドレス0x1250 が格納され、この素片データ先頭アドレス0x1250 には、素片データとして、1ピッチ相当波形素片出力(第2フレーム)44が格納される。
【0025】
図3、図4では、一例として、VCV 単位(母音+子音+母音)を一つの素片単位(音韻)としたとき、素片辞書106 内の音韻アズ(/azu /)のデータ構造と、音声合成時の音声データ読み出し処理の模式図を表している。
【0026】
素片辞書106 は、対称化されている素片と対称化されていない素片が混在できるように、素片辞書作成時には素片フレームごとに対称化フラグを設定した上で素片を書き込み、音声合成時には素片のフレームごとに対称化フラグを参照し、対称化されていれば対称化処理45を、図4の第1フレームのように施し、非対称であればそのまま素片辞書106 から読み出して、図4の第2フレームにし、音声を合成する。
【0027】
素片作成回路105 内のピッチマーク算出回路110 は、原音声信号のピッチ周期を検出し、分析および合成時の時間軸基準点(ピッチマーク)を設定する。窓掛け部回路111 では、ピッチマークが中心となるようにTp1 の長さの時間窓を窓掛けする。ここで、時間窓長Tp1 は、分析時のピッチ周期をTpa 、合成時のピッチ周期をTps とした場合、
Tp1 =C0×min{Tpa,Tps}
のように制御する。C0は、2.0 程度の値である。
【0028】
素片作成回路105 において、素片データを作成し、素片書き込み回路112 で素片辞書106 に書き込んでいるが、有声子音を含む音韻中の有声子音部付近では、高周波成分のパワーの割合が音声信号のパワーに対して非常に大きくなっており、フーリエ分析に不向きである。
【0029】
本実施例は、音声信号に予め音韻中の位置を与えておき、音声信号が破裂音或いは破擦音を含む有声子音部(/b /, /d /, /g /, /j /, /z /)の場合には、1ピッチ相当波形素片データを作成し、素片辞書106 へ書き込み、それ以外の部分では、対称化素片データを作成し素片辞書106 へ書き込む。
【0030】
図5は、素片作成回路105 の処理フローチャートである。この図5において、音声信号は、たとえば、磁気ディスク装置などから入力される(ステップS201)。次に、ステップS201で入力された音声信号を分析フレームと称する区間に分割する(ステップS202)。本実施例においては、1フレーム長は、約32msecであり、約8msec ずらして次のフレームに移る。ここで、総フレーム数をNとする。それぞれのフレームで、そのフレームの音韻とその音韻内の位置をラベルの形で保持している。
【0031】
次に、処理を行うフレームiを初期化する(ステップS203)。次に、ステップ204 〜ステップS209において、第iフレームのデータを分析し、素片辞書106 へ書き込む。具体的には、ステップS204で、第iフレームの音韻情報をラベルから読み込み、このフレームが、破裂音或いは破擦音を含んだ有声子音部に含まれる高周波成分による影響を受ける部分であれば、対称化しない1ピッチ相当波形素片を作成して(ステップS205)、素片データと対称化フラグが格納されている素片辞書106 に書き込み(ステップS207)、或いは有声子音部の高周波成分の影響の少ない部分であれば、零位相化処理を施し、対称化素片を作成し(ステップS206)、素片辞書106 に書き込む(ステップS207)。このような処理を第Nフレームまで行う(ステップS208,S209 )。
【0032】
本実施例では、対称化素片として、1ピッチ相当波形素片をフーリエ変換し、周波数成分の虚部を0とおいて、逆フーリエ変換したFFT 素片を作成した。なお、素片辞書106 の書き込みの際、FFT 素片の場合には素片の対称化フラグを1とし、1ピッチ相当波形素片の場合にはフラグを0にする。
【0033】
図6は、上述のステップS205の1ピッチ相当波形素片辞書作成工程の詳細なフローチャートである。先ず、ステップS310で、第iフレームの音声データを分析データ配列data[k] に格納する。次に、ステップS310で、ピッチ周期Tpを検出する。ピッチ周期検出法としては、簡易手法として、波形のピーク間隔などを検出することを挙げることができる。本実施例では、より精密にピッチ周期を算出するため、ケプストラム法を用いる。
【0034】
図7は、ケプストラム法によるピッチ周期の検出方法を説明するためのフローチャートである。まず、ステップS1において、時間波形を入力する。次に、ステップS2において、窓掛けを行う。次に、ステップS3において、離散フーリエ変換(Discrete Fourier Transform)を施す。次に、ステップS4において、その実部と虚部との自乗和の平方根を対数変換する。次に、ステップS5において、逆フーリエ変換(Inverse Discrete Fourier Transform)を施す。次に、ステップS6において、ケプストラム成分を得る。
【0035】
このようにして、ケプストラム法は、畳み込み演算を加法的な演算によって変換するものであり、音声の有声音信号は音源成分を声道情報で畳み込んだものであって、両者の分離に適している。入力信号が音声の有声音の場合、音源成分は高いケフレンシー(長時間領域)のピークとして現れ、また、声道成分は低ケフレンシー(短時間領域)の成分として現れる。ケプストラムからピッチ周期を求めるには、高ケフレンシー部のピークを求めて、時間原点からピークまでの時間を測定すればよい。
【0036】
再び、図6において、ピッチ周期の抽出の後(ステップS311)、次に、ステップS312において、第iフレームの分析の基準となるピッチマークを設定する。ピッチマークの設定法には、(1) 波形のピーク検出、(2) 短時間パワーのピーク検出、(3) 励振点の15%遅延点検出、などの方法があるが、本実施例では、(1) 波形ピークの検出を用いる。
【0037】
次に、ステップS313において、上記ステップS312で与えたピッチマークが中心となるように、音声信号の再切り出しを行う。次に、ステップS314において、上記ステップS311で求めたピッチ周期を所定数倍した長さの窓を用いて、ステップS313で再切り出しを行った音声信号に窓掛けして自然波形素片を完成させる。
【0038】
次に、ステップS315において、対称化フラグに0と与えた上で、作成した1ピッチ相当波形素片データを素片辞書106 へ図3に示すように書き込む。1ピッチ相当波形素片辞書作成ステップ205 の処理を終了する。
【0039】
図8は、上述のステップS206の対称化(FFT) 素片辞書作成工程の詳細なフローチャートである。先ず、ステップS320〜S324までは、上述の図6の1ピッチ相当波形素片作成処理のステップS310〜S314までと同じ処理である。次に、ステップS325において、図9のFFT 分析用データの作成に示すように、ステップ324 で窓掛けしたデータの中心(ピッチマーク)91が分析するデータ配列の中心92となるように置き、前後にゼロを挿入(ゼロパディング)93、94して、2048点の分析データ95を作成し、フーリエ変換する。
【0040】
次に、ステップS326において、フーリエ変換したデータの虚部をすべて0とおく。次に、ステップS327において、逆フーリエ変換し、第iフレームのデータのインパルス応答を得る。すなわち、FFT 素片が完成する。次に、ステップS328において、対称化フラグに1を与えて、FFT 素片データを素片辞書106 へ図3に示すように書き込む。これによって、対称化素片辞書作成処理ステップ206 の処理を終了する。
【0041】
いずれの素片作成処理においても、上述の図6のステップ314 および図8のステップ324 において窓掛けが行われており、これにより音声合成時の1ピッチ毎の窓掛けの乗算が不要となり、ただ重ね合わせを実行するだけでよく、音声合成処理量を大幅に減少することができる。このため、本音声合成方法を適用した装置においては、デジタル信号処理などの演算プロセッサを使用することなく、通常のCPU で実現可能となる。
【0042】
また、上述の図5のステップS208において、全フレーム終了したか否かの判定を行い、終了していなければ、ステップS209で処理を行うフレーム番号を更新して、ステップS204以降の処理を継続する。ステップS208の判定で、全フレームの処理が終了していれば、磁気ディスク装置のクローズ処理などを行って素片作成回路105 の処理を終了する。
【0043】
上述の図1、図5〜図8に示した音声合成のための処理は、音声合成制御プログラムを記録媒体(ROM 、RAM 、フラッシュメモリ、磁気ディスク装置)に記録し、CPU で動作させることによって実現することができる。
【0044】
図10は、音韻イジュ(/ijyu/)有声子音部の音声信号と各素片を表す図である。図10(a) は、音声信号の波形図である。(b) は、自然波形素片の波形図である。(c) は、対称化(FFT )素片の波形図である。この図10において、有声子音を含む音韻イジュ(/ijyu/)の有声子音部(/jy/)の音声信号(a) と、この信号を分析して得られた1ピッチ相当波形素片、対称化(FFT )素片の概形を表示している。
【0045】
図10(a) の音声信号の概形から分かるとおり、分析する音声信号には、大きな高周波成分が重畳しており、これをフーリエ変換処理した対称化素片(c) は、時間軸原点付近に大きなパワーが集中し、Qが著しく高くなっている。上述の実施例では、高周波成分の割合が大きい、素片の有声子音部を1ピッチ相当波形素片で作成(b) し、残りの大半の部分は、対称化素片(c) で作成しているため、全体として素片辞書106 の大きさを微増に抑えた。
【0046】
実験によって、VCV 単位による音声分析合成法で、以下の2つの手法で素片辞書106 の大きさ(ディスク容量)を比較した。
【0047】
(1) 破裂音・破擦音を含む有声子音部の素片のみを対称化しない1ピッチ相当波形素片で作成し、それ以外はすべて対称化した素片で作成した。
【0048】
(2) 全素片を対称化して作成した。
(1) の素片辞書の大きさ(本実施例の素片辞書サイズ)の、(2) の素片辞書の大きさに対する増加の割合は、全体のフレーム数に対する、破裂音或いは破擦音を含む有声子音のフレーム数の割合だけ増加、すなわち、6%程度の微増であった。
【0049】
さらに、対称化素片による合成音声での品質劣化の最大要因となっていた破裂音・破擦音を含んだ有声子音部を、フーリエ分析せず重畳の中心となるピッチマークを中心に原音声信号を切り出し、窓掛けしただけの1ピッチ相当波形素片で作成することにより、この部分の音質を格段に向上させることができ、結果として合成音の音質を向上させることができた。
【0050】
第2の実施例:
本第2の実施例の音声分析合成装置においても、装置の機能構成としては、上述の図1と同様である。特に、素片作成回路105 の別の実施態様について説明する。
【0051】
図11は、本実施例の素片作成回路105Aの動作フローチャートである。この 11において、先ず、ステップS501において、音声信号は例えば磁気ディスク装置からから入力される。次に、ステップS502では、ステップS501で入力された音声信号を分析フレームと呼ぶ区間に分割する。1フレーム長をおよそ32msec程度とし、およそ8msec 程度ずらして次のフレームに移る。それぞれのフレームには、そのフレームの音韻と音韻内の位置をラベルの形で図3に示すように保持する。
【0052】
次に、ステップS503で処理を行うフレーム番号iを初期化する。次に、ステップS504〜S511において、第iフレームのデータを分析し、対称化フラグを設定して、1ピッチ相当波形素片と対称化素片のいずれかの素片データを素片辞書106 へ書き込む。そして、対称化素片として、FFT 素片を作成する。
【0053】
そこで、詳細には、ステップS504において、1ピッチ相当波形素片とFFT 素片とを作成する。図12は、ステップS504の素片データの作成の詳細な処理方法を示すフローチャートである。先ず、ステップS601において、第iフレームのデータを分析データ配列data[i] に格納する。次に、ステップS611において、ピッチ周期Tpを検出する。次に、ステップS612において、ピッチマークを設定する。次に、ステップS613において、ステップS612で設定したピッチマークが中心となるよう、音声信号を再切り出しする。次に、ステップS614において、ピッチ周期の所定数倍の窓をかけ、1ピッチ相当波形素片が完成する。
【0054】
ステップS615a 、b において、1ピッチ相当波形素片をバッファに保持する。さらに、FFT 素片を作成していく。このため、ステップS616で、ステップS614において窓かけしたデータにゼロパティングを行い、図9に示すように2048点のデータを形成し、これをフーリエ変換する。ステップS617において、ステップS616でフーリエ変換したデータの虚部をすべて0とする(零位相化)。最後に、ステップS618において、零位相化されたデータを逆フーリエしてFFT 素片を作る。次に、ステップS619a,b において、FFT 素片をバッファへ保持する。
【0055】
以上のようにして作成されたFFT 素片を用いて、ステップS505にて高周波成分の度合いを検定する。図13は、高周波成分のQ値と高周波成分の度合いを示す図である。ステップS505の処理を図13を用いて説明する。(a) において、高周波成分はフーリエ変換を行うと時間軸原点付近にそのパワーが集中するため、高周波成分の度合いをQ値で測ることができる。Q値は、時間軸原点のピーク値を、そのピークの3dB 減衰幅Wで除算したものである。
【0056】
Q=波形ピーク値/3dB 減衰幅=P/W
それぞれのQ値に対応する波形の例を合わせて図に示されている。(b) は、Q=0.05のときの波形図である。(c) は、Q=0.1 のときの波形図である。(d) は、Q=O.5 のときの波形図である。
【0057】
次に、再び図11において、ステップS506では、ステップS505で求めたQ値が閾値を下回れば、フーリエ級数展開可能と判断でき、Q値が閾値を越えていれば、高周波成分の度合いが大きく、フーリエ級数展開に向かないと判断できる。
【0058】
次に、ステップS507およびS508において、それぞれの書き込み素片選択に対して対称化フラグを与え、ステップS509において、素片辞書106 への書き込みを行う。なお、書き込む素片データは、ステップS615およびステップS619でバッファに保持している1ピッチ相当波形素片データ/FFT 素片データである。
【0059】
次に、ステップS510で、全フレーム終了したか否かの判定を行い、終了していれば、ステップS511で処理を行うフレーム番号を更新して、ステップS504以降の処理を継続する。ステップS510の判定で、全フレームの処理が終了していれば、例えば、磁気ディスク装置のクローズ処理などを行って素片作成回路105Aの処理を終了する。
【0060】
以上のように、Q値を用いて高周波成分の度合いを検出し、素片選択を行うことで、情報量(素片辞書106 のディスク容量)の増加に対して効率よく音質の向上が得られる。また、Q値の閾値の大きさを変えることにより、1ピッチ相当波形素片を増やして音質の向上を図る、あるいはFFT 素片を増やして情報量を減らして、音韻間および音韻内の素片の接続性を対称化(零位相化)素片の増加により向上させるなどの設定変更を容易に実現することができる。
【0061】
上述の第2の実施例の音声合成装置においては、個々の素片ごとのフーリエ分析判別法を用いて素片辞書を作成すると、図14(a) に示すように、対称化素片と1ピッチ相当波形素片とが交互に素片辞書に書き込まれるということもあり得る。このような素片辞書により合成された音は、音韻内のざらつきが生じ、結果として聴覚的な音質の低下が生じる。そこで、次の第3の実施例においては、このような点を改善する。
【0062】
図15は、第3の実施例の素片作成回路105Bの処理フローチャートである。まず、音声信号は、ステップS901において、たとえば、磁気ディスク装置などから入力される。次に、ステップS902では、ステップS901で入力された音声信号を分析フレームと呼ぶ区間に分割する。1フレーム長は、32msecで、8msec ずらして次のフレームに移る。ここで、総フレームをNとし、それぞれのフレームで、そのフレームの音韻とその音韻内の位置をラベルの形で保持している。
【0063】
ステップS903で処理を行うフレーム番号iを初期化する。次に、ステップS904〜ステップS912において、第iフレームのデータを分析し、対称化フラグおよび素片データを素片辞書106 へ書き込む。
【0064】
次に、詳細には、ステップS904で、1ピッチ相当波形素片と対称化素片を作成する。対称化素片としてFFT 素片を作成する。次に、ステップS905において、作成したFFT 素片を用いて高周波成分の度合いを検定する。高周波成分は、フーリエ変換すると、時間軸原点付近にそのパワーが集中するため、高周波成分の度合いをQ値で測ることができる。Q値は、時間軸原点のピーク値Pを、そのピークの3dB減衰幅Wで除算したものである。
【0065】
次に、ステップS906において、ステップS905で求めたQ値が閾値を越えていれば、高周波成分の度合いが大きくフーリエ分析に向かないと判断し、Q値が閾値を越えていなければフーリエ分析可能と判断する。次に、ステップS907において、ステップS906での素片書き込み判定の結果によって生じ得る頻繁な素片切り替えを制限する。すなわち、ステップS906による素片切り替え判定だけでは、極端な場合、図14(a) に示すように、対称化素片と1ピッチ相当波形素片とが交互に素片辞書106 に書き込まれる可能性があり、このような素片辞書による合成音声は、音韻内で接続の悪いざらついた音になり、結果として合成音の品質低下を招く。この例では、簡単のため、各素片は2つ以上続いて素片辞書に書き込まれるとし(閾値2)、1ピッチ相当波形素片を優先させるとする。
【0066】
ステップS907の処理の模式図を図14および図16に示している。両図とも、各素片の連続個数は、2個連続個数の閾値=2)、素片選択は、1ピッチ相当波形素片優先としている。両方の図の(a) が、ステップS906での判定であり、(c) がステップS907での切り替え判定処理後の判定である。図(a) 、(b) 、(c) の上値が1ピッチ相当波形素片の選択であり、下値が対称化(FFT) 素片の選択としている。
【0067】
ここでの処理は、ステップ1において、1ピッチ相当波形素片(対称化素片)の選択がその前後で閾値以下の時刻を見つけ、後続する時刻での素片選択を1ピッチ相当波形素片(対称化素片)とする。
【0068】
ステップ2においては、対称化素片(1ピッチ相当波形素片)の選択がその前後で閾値以下の時刻を見つけ、その時刻での素片選択を1ピッチ相当波形素片(対称化素片)とする。
【0069】
なお、素片選択として対称化素片の選択を優先する際には、それぞれの上記素片記述部をかっこ内の素片に読み替える。図16(a) のように、時刻tでの高周波成分の度合いの判定で、1ピッチ相当波形素片が選択され、その前後、t−1、t+1では、FFT 素片が選択されているとする。時刻tの前後で1ピッチ相当波形素片の選択が一つ(閾値以下)であるため、図(b) に示すように、時刻t+1の選択を1ピッチ相当波形素片とする。さらに、時刻t+2の前後で対称化素片の選択が一つ(閾値以下)であるため、図(c) に示すように時刻t+2の選択を1ピッチ相当波形素片とする。閾値2としたときの最終的な切り替え判定を、図16(c) に示している。
【0070】
以上のような構成によって、音声分析合成の実験を行った結果、素片切り替え判定処理を加えたことによって、対称化素片と1ピッチ相当波形素片の切り替え頻度が大幅に減ったため、合成音の接続性(ざらつき)は、素片を切り替えていることに気がつかないほどスムーズになった。これは、人間の聴覚が位相成分に対して敏感ではないことによる。
【0071】
このような結果として、入力音声信号に対して効率良く素片辞書を作成し、音声分析合成時の処理量を増やさず、高品質の合成音声を得る音声分析合成方法を実現することができた。
【0072】
実験の結果、高周波成分の度合いの判定でのQ値の閾値を1と正規化したとき、22.05kHzのサンプリングの音声信号に対して、Qth=0.2 、切り替え判定の素片の連続個数閾値を2個に設定し、素片切り替えでは1ピッチ相当波形素片の選択を優先することによって、接続性が良く、高周波成分の劣化が少ない高品質の合成音声が得られることを確認することができた。
【0073】
【発明の効果】
以上で述べたように本発明は、入力音声信号に予め音韻ラベルを与え、素片作成時に音韻ラベルを参照し、入力音声信号が破裂音または破擦音を含む有声子音部である場合に、1ピッチ相当波形素片データを作成し、入力音声信号が有声子音部でない場合には、対称化素片データを作成して、1ピッチ相当波形素片データおよび対称化素片データを素片辞書に書き込み、素片辞書に書き込まれている1ピッチ相当波形素片データおよび対称化素片データを読み出し、ピッチ周期分ずらしながら重畳することで、処理量および保持する情報量を従来の対称化素片作成法に比して微増にとどめながら、1ピッチ相当波形素片作成法および対称化素片作成法の長所を合わせ持ち、接続が良く高調波成分の劣化の少ない音声素片を作成でき、高品質の合成音声を得ることができるようになる。
【図面の簡単な説明】
【図1】本発明の第1の実施例の音声分析合成装置の機能構成図である。
【図2】従来例の音声分析合成の説明図である。
【図3】第1の実施例の素片辞書の構成説明図である。
【図4】実施例の音声合成回路の処理の説明図である。
【図5】第1の実施例の素片作成回路の処理フローチャートである。
【図6】第1の実施例において、1ピッチ相当波形素片辞書の作成のフローチャートである。
【図7】第1の実施例において、ピッチ周期検出の処理フローチャートである。
【図8】第1の実施例において、対称化素片辞書の作成のフローチャートである。
【図9】第1の実施例において、2048ポイントのFFT 分析用データの作成の説明図である。
【図10】第1の実施例において、音韻イジュ(/ijyu/)有声子音部の音声信号と各素片を表す図である。
【図11】第2の実施例の素片作成回路の処理フローチャートである。
【図12】第2の実施例の素片データの作成の詳細な処理方法を示すフローチャートである。
【図13】第2の実施例において、高周波成分のQ値と高周波成分の度合いを示す図である。
【図14】第2の実施例において、高周波の度合いによる判定での極端な場合の例で、閾値2、1ピッチ相当波形素片を優先する場合の説明図である。
【図15】第3の実施例の素片作成回路の処理フローチャートである。
【図16】第3の実施例の素片作成回路において、素片選択として、1ピッチ相当波形素片を優先し、閾値2の後処理型素片切り替え判定の説明図である。
【符号の説明】
101 テキスト解析回路
102 単語辞書
103 パラメータ生成回路
105,105A,105B 素片作成回路
106 素片辞書
107 音声合成回路

Claims (3)

  1. 入力音声信号を分割し、分割した入力音声信号に対する素片データを記憶手段である素片辞書に書き込む素片書込み手段と、前記素片辞書に書き込まれた素片データと供給されるパラメータに基づき音声合成する合成手段とを含み、該合成手段から合成音を出力する音声合成装置において、
    前記素片書込み手段は、前記入力音声信号のピッチ周期を検出し、分析および合成における時間軸基準点を設定する分析手段と、
    該時間基準点を中心に所定の長さの時間窓を前記入力音声信号に掛ける窓掛け手段と、
    前記入力音声信号に対する前記時間窓を掛けたデータが第1の素片データであり、第1の素片データを保持し、ゼロパティングされた第1のデータをフーリエ変換し、フーリエ変換により得られる周波数成分の虚部の値をゼロに設定し、設定後の周波数成分を逆フーリエ変換し、第2の素片データを求め、第1および第2の素片データを前記素片辞書に書き込むデータ書込み手段とを含み、
    該データ書込み手段は、さらに、前記入力音声信号に含まれる高周波成分の割合を選択性の特性を示す特性値で表わし、前記特性値が前記所定の閾値より大きいデータに対するフーリエ分析を回避と判断し、該特性値が前記所定の閾値以下のデータに対するフーリエ分析を可能と判断する判断手段と、
    該判断手段の履歴を基に前記素片データの分類における切り替え頻度を制限し、前記入力音声信号の各フレームを、第1および第2の素片データのいずれのデータ作成法で前記素片辞書に書き込むか否かを決定する決定手段とを含み、
    前記特性値は、前記分割した入力音声信号の波形ピーク値と該ピーク値における3dBの減衰幅の比で表わされ、
    前記決定手段は、前記履歴を基に、前記フーリエ分析を回避と判断されたフレームを第1の素片データに設定し、前記フーリエ分析が可能と判断されたフレームを第2の素片データに設定し、つぎに第1および第2の素片データのいずれかを優先素片データとして、当該フレームで前記優先素片データが選択されており、かつ該フレームの前後のフレームで前記優先素片データと異なるフレームを検出し、検出したフレームの直後のフレームを前記優先素片データに設定し、つぎに当該フレームで前記優先素片データと異なる素片データが選択されており、かつ該フレームの前後でいずれも前記優先素片データが選択されているフレームを検出し、検出したフレームを前記優先素片データに設定して、これにより接続性を良くし、
    前記合成手段は、前記素片辞書に書き込まれている第1および第2の素片データを読み出し、ピッチ周期分ずらしながら重畳することで音声合成することを特徴とする音声合成装置。
  2. コンピュータによって、音声の素片データを使用して、音声合成を制御する音声合成制御プログラムを記録した記録媒体であって、
    前記音声合成制御プログラムは、前記素片データの書込みは、前記入力音声信号のピッチ周期を検出し、分析および合成における時間軸基準点を設定する第1の工程と、
    該時間基準点を中心に所定の長さの時間窓を前記入力音声信号に掛ける第2の工程と、
    前記入力音声信号に対する前記時間窓を掛けたデータが第1の素片データであり、第1の素片データを保持し、ゼロパティングされた第1のデータをフーリエ変換し、フーリエ変換により得られる周波数成分の虚部の値をゼロに設定し、設定後の周波数成分を逆フーリエ変換し、第2の素片データを求め、第1および第2の素片データを前記素片辞書に書き込む第3の工程とを含み、
    第3の工程は、さらに、前記選択性の特性を示す特性値は、前記分割した入力音声信号の波形ピーク値と該ピーク値における3dBの減衰幅の比で表わされ、該特性値が前記所定の閾値より大きいデータに対してフーリエ分析を回避と判断し、該特性値が前記所定の閾値以下のデータに対してフーリエ分析を可能と判断する第4の工程と、
    該判断した結果の履歴を基に前記素片データの分類における切り替え頻度を制限し、前記入力音声信号の各フレームを、第1および第2の素片データのいずれのデータ作成法で前記素片辞書を書き込むか否かを決定する第5の工程とを含み、
    第5の工程は、前記履歴を基に、前記フーリエ分析を回避と判断されたフレームを第1の素片データに設定し、前記フーリエ分析が可能と判断されたフレームを第2の素片データに設定し、つぎに第1および第2の素片データのいずれかを優先素片データとして、当該フレームで前記優先素片データが選択されており、かつ該フレームの前後のフレームで前記優先素片データと異なるフレームを検出し、検出したフレームの直後のフレームを前記優先素片データに設定し、つぎに当該フレームで前記優先素片データと異なる素片データが選択されており、かつ該フレームの前後でいずれも前記優先素片データが選択されているフレームを検出し、検出したフレームを前記優先素片データに設定して、これにより接続性を良くし、
    該プログラムは、さらに、記憶手段である素片辞書に書き込まれている第1および第2の素片データを読み出し、ピッチ周期分ずらしながら重畳して、前記素片辞書に書き込まれた素片データと供給されるパラメータに基づき音声合成する第6の工程とを含むことを特徴とする音声合成制御プログラムを記録した記録媒体。
  3. 入力音声信号を分割し、分割した入力音声信号に対する素片データを記憶手段である素片辞書に書き込む音声素片辞書作成方法において、
    前記素片データの書込みは、前記入力音声信号のピッチ周期を検出し、分析および合成における時間軸基準点を設定する第1の工程と、
    該時間基準点を中心に所定の長さの時間窓を前記入力音声信号に掛ける第2の工程と、
    前記入力音声信号に対する前記時間窓を掛けたデータが第1の素片データであり、第1の素片データを保持し、ゼロパティングされた第1のデータをフーリエ変換し、フーリエ変換により得られる周波数成分の虚部の値をゼロに設定し、設定後の周波数成分を逆フーリエ変換し、第2の素片データを求め、第1および第2の素片データを前記素片辞書に書き込む第3の工程とを含み、
    第3の工程は、さらに、前記選択性の特性を示す特性値は、前記分割した入力音声信号の波形ピーク値と該ピーク値における3dBの減衰幅の比で表わされ、該特性値が前記所定の閾値より大きいデータに対してフーリエ分析を回避と判断し、該特性値が前記所定の閾値以下のデータに対してフーリエ分析を可能と判断する第4の工程と、
    該判断した結果の履歴を基に前記素片データの分類における切り替え頻度を制限し、前記入力音声信号の各フレームを、第1および第2の素片データのいずれのデータ作成法で前記素片辞書を書き込むか否かを決定する第5の工程とを含み、
    第5の工程は、前記履歴を基に、前記フーリエ分析を回避と判断されたフレームを第1の素片データに設定し、前記フーリエ分析が可能と判断されたフレームを第2の素片データに設定し、つぎに第1および第2の素片データのいずれかを優先素片データとして、当該フレームで前記優先素片データが選択されており、かつ該フレームの前後のフレームで前記優先素片データと異なるフレームを検出し、検出したフレームの直後のフレームを前記優先素片データに設定し、つぎに当該フレームで前記優先素片データと異なる素片データが選択されており、かつ該フレームの前後でいずれも前記優先素片データが選択されているフレームを検出し、検出したフレームを前記優先素片データに設定して、これにより接続性を良くさせることを特徴とする音声素片辞書作成方法。
JP23457897A 1997-08-29 1997-08-29 音声合成装置 Expired - Lifetime JP3853923B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP23457897A JP3853923B2 (ja) 1997-08-29 1997-08-29 音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP23457897A JP3853923B2 (ja) 1997-08-29 1997-08-29 音声合成装置

Publications (2)

Publication Number Publication Date
JPH1173198A JPH1173198A (ja) 1999-03-16
JP3853923B2 true JP3853923B2 (ja) 2006-12-06

Family

ID=16973218

Family Applications (1)

Application Number Title Priority Date Filing Date
JP23457897A Expired - Lifetime JP3853923B2 (ja) 1997-08-29 1997-08-29 音声合成装置

Country Status (1)

Country Link
JP (1) JP3853923B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4666485B2 (ja) * 2005-08-18 2011-04-06 Kddi株式会社 音声信号のセグメント境界整合方式
US8676543B2 (en) * 2009-06-23 2014-03-18 Exxonmobil Research And Engineering Company Determining the resonance parameters for mechanical oscillators

Also Published As

Publication number Publication date
JPH1173198A (ja) 1999-03-16

Similar Documents

Publication Publication Date Title
EP2140447B1 (en) System and method for hybrid speech synthesis
EP1643486B1 (en) Method and apparatus for preventing speech comprehension by interactive voice response systems
US20060259303A1 (en) Systems and methods for pitch smoothing for text-to-speech synthesis
US8340967B2 (en) Speech samples library for text-to-speech and methods and apparatus for generating and using same
JP4406440B2 (ja) 音声合成装置、音声合成方法及びプログラム
JPS62160495A (ja) 音声合成装置
JPH10171484A (ja) 音声合成方法および装置
Govind et al. Dynamic prosody modification using zero frequency filtered signal
JP3728173B2 (ja) 音声合成方法、装置および記憶媒体
JP3518898B2 (ja) 音声合成装置
JP3853923B2 (ja) 音声合成装置
Mengko et al. Indonesian Text-To-Speech system using syllable concatenation: Speech optimization
JPH0247700A (ja) 音声合成方法および装置
JP3094622B2 (ja) テキスト音声合成装置
JP4963345B2 (ja) 音声合成方法及び音声合成プログラム
WO2004027753A1 (en) Method of synthesis for a steady sound signal
JP2008058379A (ja) 音声合成システム及びフィルタ装置
JP2987089B2 (ja) 音声素片作成方法および音声合成方法とその装置
JP3081300B2 (ja) 残差駆動型音声合成装置
JP4805121B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP4872690B2 (ja) 音声合成方法、音声合成プログラム、音声合成装置
Chabchoub et al. High quality Arabic concatenative speech synthesis
JPH11282494A (ja) 音声合成装置および記憶媒体
JPH11109992A (ja) 音声素片データベースの作成方法、音声合成方法、音声素片データベース、音声素片データベース作成装置および音声合成装置
JPH08160991A (ja) 音声素片作成方法および音声合成方法、装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040419

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060410

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060530

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060601

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060815

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060907

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090915

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100915

Year of fee payment: 4

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100915

Year of fee payment: 4

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100915

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110915

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120915

Year of fee payment: 6

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120915

Year of fee payment: 6

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350