JP5159279B2

JP5159279B2 - 音声処理装置及びそれを用いた音声合成装置。

Info

Publication number: JP5159279B2
Application number: JP2007312336A
Authority: JP
Inventors: 正統田村; 勝美土谷; 岳彦籠嶋
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-12-03
Filing date: 2007-12-03
Publication date: 2013-03-06
Anticipated expiration: 2027-12-03
Also published as: JP2009139406A; US8321208B2; US20090144053A1

Description

本発明は、音声の対数スペクトルなどからスペクトル包絡パラメータを生成する音声処理装置及びそれを用いた音声合成装置に関するものである。

任意の文章を入力し、入力文章から得られる音韻・韻律系列にしたがって音声波形を合成する装置を、テキスト音声合成装置という。テキスト音声合成装置は、一般的に言語処理部、韻律処理部及び音声合成部から構成される。言語処理部においては、入力テキストを解析し、読み・アクセント・ポーズ位置等の言語情報を求める。韻律処理部においては、得られたアクセント及びポーズ位置等の情報から、音の高さや抑揚の変化を表す基本周波数パターン、各音韻の長さを表す音韻継続長の情報が韻律情報として生成される。音声合成部では、音韻系列及び韻律情報を入力し、音声波形を生成する。

音声合成部の方式の一つとして、素片選択に基づく音声合成が広く用いられている。素片選択に基づく音声合成は、入力テキストを合成単位に区切って得られるセグメントそれぞれに対して、大量の音声素片を含む音声素片データベースから、目標コストと接続コストからなるコスト関数を用いて音声素片を選択し、選択された音声素片を接続することにより音声波形を生成し、肉声間の高い合成音声を得る。

また、素片選択に基づく音声合成において生じる不連続感等を解消し、安定感を高めた方式として、複数素片選択・融合に基づく音声合成装置が開示されている（特許文献１参照）。

複数素片選択・融合に基づく音声合成装置は、入力テキストを合成単位に区切って得られるセグメントそれぞれに対して、大量の音声素片を含む音声素片データベースから、複数の音声素片を選択し、得られた音声素片を融合し、融合された音声素片を接続することにより音声波形を生成する。

融合方法としては例えばピッチ波形を平均化する方法が用いられ、肉声間と安定感とを両立した、高品質な合成音声を得る。

音声データのスペクトル包絡情報を用いて音声処理を行うために、スペクトル包絡情報をパラメータとして表す、様々なスペクトルパラメータが提案されている。線形予測係数をはじめ、ケプストラム、メルケプストラム、ＬＳＰ（ＬｉｎｅＳｐｅｃｔｒｕｍＰａｉｒ：線スペクトル対）、ＭＦＣＣ（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ）、ＰＳＥ（ＰｏｗｅｒＳｐｅｃｔｒｕｍＥｎｖｅｌｏｐｅ）分析によるパラメータ（特許文献２参照）、また、ＨＮＭ（Ｈａｒｍｏｎｉｃｓｐｌｕｓｎｏｉｓｅｍｏｄｅｌ）等の正弦波合成に用いられるハーモニクスの振幅のパラメータ、メルフィルタバンクによるパラメータ（非特許文献１参照）や、離散フーリエ変換により得られたスペクトル、ＳＴＲＡＩＧＨＴ分析によるスペクトルなども含め、これまでにさまざまなスペクトルパラメータが提案されている。

スペクトル情報をパラメータで表す場合、用途によって必要とされる特性は異なるものの、一般的にはハーモニクスの影響によるスペクトルの微細な変動に大きく左右されず、また統計処理等を行うために、音声波形から切り出した音声フレームのスペクトル情報を固定の少ない次元数で高品質・効率的に表現できるものが望ましい。そのため、線形予測係数やケプストラム係数のように、ソースフィルタモデルを仮定し、音源特性と声道特性を分離した声道フィルタの係数をスペクトルパラメータとして用いる方法が広く用いられている。さらにベクトル量子化した場合のフィルタの安定性の問題を解決するパラメータとして、ＬＳＰなどが用いられる。また、パラメータによる情報量の削減行うため、メルケプストラムやＭＦＣＣのように、メルスケールやバークスケールなどの、聴覚特性を考慮した非直線周波数スケールに対応したパラメータもよく用いられている。

ここでは、音声合成に用いることを考慮した場合のスペクトルパラメータに対して望ましい特性として、高品質、効率的、かつ帯域に応じた処理を容易に行うことができるという３点を兼ね合わせたものであると考える。

「高品質」とは、音声をスペクトルパラメータで表現し、得られたパラメータから音声波形を再合成したときに聴覚的な音質劣化が少ないこと、及びスペクトルの微細な変動に左右されず安定してパラメータが抽出できることを表す。

「効率的」とは、少ない次数や情報量でスペクトル包絡を表現することができることである。統計処理の操作等を行った場合に少ない処理量で処理を行うことができ、またハードディスクやメモリなどのストレージに保存した場合に少ない容量で保持できることを表す。

「帯域に応じた処理を容易に行うことができる」という点は、パラメータの各次元が、固定の局所的な周波数帯域の情報を表し、パラメータの各次元をプロットすることによりスペクトル包絡の概形を表すことができることを示す。これにより、パラメータの各次元の値を零にすること等の単純な操作によりバンドパスフィルタの処理が可能になり、またパラメータの平均化の処理等を行う場合に、周波数軸上のパラメータの対応付け等の特別な操作を不要とするため、そのまま各次元の値に対して平均化処理等を適用することによってスペクトル包絡の平均化等の処理が容易に実現できる。また、所定の周波数より高い帯域と低い帯域において異なる処理を行うことが容易に実現できるため、上記した複数素片選択・融合方式に基づく音声合成において、音声素片の融合処理を行う際に、低域は安定感を重視し、高域は肉声感を重視するといった処理を行うことが可能になる。

これらの観点で、上記した従来のスペクトルパラメータをそれぞれ見ていく。

「線形予測係数」は、音声波形の自己回帰係数をパラメータして用いるため、周波数領域のパラメータではなく、帯域に応じた処理を容易に行うことはできない。

「ケプストラム及びメルケプストラム」は、直線周波数スケール、または非直線のメルスケールにおいて対数スペクトルを正弦波の基底の係数として表現するが、これも各基底は全ての周波数帯域に広がるために各次元の値はスペクトルの局所的な特徴を表すものではなく、帯域に応じた処理を容易に行うことはできない。

「ＬＳＰ係数」は、線形予測係数から離散的な周波数に変換したパラメータであり、音声スペクトルを周波数の配置の密度として表すため、フォルマント周波数と類似の値になる。このため、ＬＳＰのある次数の値が近い周波数を与えるとは限らず、ＬＳＰの平均化により、適切に平均的なスペクトル包絡が求まるとは限らないため、帯域に応じた処理を容易に行うことはできない。

「ＭＦＣＣ」は、メルフィルタバンクをＤＣＴ（離散コサイン変換）することによって求めるケプストラム領域のパラメータであり、ケプストラムと同様に、各基底は全ての周波数帯域に広がるために各次元の値はスペクトルの局所的な特徴を表すものではなく、帯域に応じた処理を容易に行うことはできない。

特許文献２には、示されているＰＳＥモデルによる特徴パラメータは、対数パワースペクトルを、基本周波数の整数倍の各位置で標本化し、得られた標本化データ列をＭ項余弦級数に対する係数として、聴覚特性による重み付けをして求めたものである。

特許文献２に示されているＰＳＥモデルによる特徴パラメータも、ケプストラム領域のパラメータになる。そのため、帯域に応じた処理を容易に行うことはできない。また、上記標本化データ列や、正弦波合成のためのハーモニクスの振幅のパラメータなどの対数スペクトルを、基本周波数の整数倍の位置で標本化したパラメータは、パラメータの各次元の値は固定の周波数帯域の情報をあらわさないため、複数のパラメータを平均化する際に、各次元に対応する周波数帯域が異なるため、そのまま平均化することによってスペクトル包絡を平均化することはできない。

このため、ＰＳＥ分析のパラメータや、上記標本化列、またＨＮＭ等の正弦波合成に用いるハーモニクスの振幅パラメータも、同様に帯域に応じた処理を容易に行うことができない。

非特許文献１においては、ＭＦＣＣを求める際に得られるメルフィルタバンクによって得られた値を、ＤＣＴを適用せずにそのまま特徴パラメータとして用い、音声認識に適用する方法が提案されている。

メルフィルタバンクによる特徴パラメータは、パワースペクトルに固定のメルスケール上で等間隔になるように作成された三角のフィルタバンクをかけて得られた各帯域のパワーの対数値をパラメータとしている。

このメルフィルタバンクの係数は、各次元の値が固定の周波数帯域のパワーの対数値をあらわしており、上記した帯域に応じた処理を容易に行うことは可能になる。しかし、パラメータからスペクトルを再合成し音声データのスペクトルを再現することは考慮されていない。したがって、基底と係数の線形結合として対数スペクトル包絡をモデル化することを仮定したパラメータではないため、高品質なパラメータにはならない。実際、メルフィルタバンクの係数は、特に対数スペクトルの谷の部分に対して十分なフィッティング性能が得られない場合があり、メルフィルタバンク係数からスペクトルを求めて再合成することを考えた場合に、音質劣化が生じる可能性がある。離散フーリエ変換によって得られたスペクトル及び、ＳＴＲＡＩＧＨＴ分析によって得られたスペクトルは、帯域に応じた処理を容易に行うことができるものの、音声データを分析する際の分析窓長より大きい次元数のスペクトル情報となるため、効率的ではない。

また、離散フーリエ変換によって得られたスペクトルは、微細なスペクトルの変動を含む場合があり、高品質なパラメータであるとは限らない。

上記したように、これまでに、様々なスペクトル包絡パラメータが提案されているが、高品質、効率的、かつ帯域に応じた処理を容易に行うことができるという音声合成に用いるために望ましい３点を兼ね合わせたスペクトル包絡パラメータは存在しない。
特開２００５−１６４７４９公報特開平１１‐２０２８８３公報西村義隆，篠崎隆宏，岩野公司，古井貞熙：「周波数帯域毎の重みつき尤度を用いた雑音に頑健な音声認識」，信学技法，ＳＰ２００３−１１６，ｐｐ．１９−２４，１２月，２００３．

特許文献１等に示される音声合成装置は、より自然で高品質な合成音声を効率的に生成するという課題がある。この課題を解決するために、音声合成に利用可能な従来の様々なスペクトル包絡パラメータをみると、上記したように従来技術は、高品質、効率的、かつ帯域に応じた処理を容易に行うことができるという、音声合成に望ましい３つの特性を兼ね合わせたスペクトル包絡パラメータは存在しない。

そこで、本発明は、上記問題点を解決するためになされたものであって、局所的な基底の線形結合として対数スペクトル包絡をモデル化することにより、高品質、効率的、かつ帯域に応じた処理を容易に行うことのできる音声処理装置及び及びそれを用いた音声合成装置を提供することを目的とする。

本発明は、音声信号をフレーム単位に分割するフレーム抽出部と、前記フレームから、スペクトルの微細構造成分を除いたスペクトルであるＬ次のスペクトル包絡情報を抽出する情報抽出部と、（１）前記Ｌ次のスペクトル包絡情報によって形成される空間の部分空間の基底であって、（２）前記各基底は、音声のスペクトル領域内で単一の最大値を与えるピーク周波数を含む任意の周波数帯域に値が存在し、前記周波数帯域の外側における値が零であって、（３）前記ピーク周波数が隣接する前記２つの基底に関するそれぞれの値が存在する周波数帯域が重なるものであって、（４）前記基底をＮ個（Ｌ＞Ｎ＞１）格納する基底保持部と、前記各基底と前記各基底にそれぞれ対応する基底係数の線形結合と、前記スペクトル包絡情報との歪み量を、前記基底係数を変化させて最小化させ、この最小化したときの前記基底係数の集まりを、前記スペクトル包絡情報のスペクトル包絡パラメータとするパラメータ算出部と、を備えた音声処理装置である。

また、本願発明は、複数の音声素片のピッチ波形に対応したＬ次のスペクトル包絡パラメータを保持するパラメータ保持部と、前記複数の音声素片の属性情報を保持する属性情報保持部と、入力されたテキストから得られる音韻系列を合成単位に区切る分割部と、前記属性情報を用いて、前記各合成単位に対応する一または複数の音声素片を選択する選択部と、前記選択された音声素片のピッチ波形に対応する前記スペクトル包絡パラメータを前記スペクトル包絡パラメータ保持部から取得する取得部と、（１）Ｌ次のスペクトル包絡情報によって形成される空間の部分空間の基底であって、（２）前記各基底は、音声のスペクトル領域内で単一の最大値を与えるピーク周波数を含む任意の周波数帯域に値が存在し、前記周波数帯域の外側における値が零であって、（３）前記ピーク周波数が隣接する前記２つの基底に関するそれぞれの値が存在する周波数帯域が重なるものであって、（４）前記基底をＮ個（Ｌ＞Ｎ＞１）格納する基底保持部と、前記基底と前記スペクトル包絡パラメータとの線形結合によりスペクトル包絡情報を生成する包絡生成部と、前記スペクトル包絡情報から求めたスペクトルを逆フーリエ変換することによりピッチ波形を生成するピッチ生成部と、前記ピッチ波形を重畳することにより音声素片を生成し、前記生成した音声素片を接続することにより音声波形を生成する音声生成部と、を備えた音声合成装置である。

本発明によれば、基底の線形結合としてスペクトル包絡情報をモデル化することにより、高品質、効率的、かつ、帯域に応じた処理を容易に行うことのできるスペクトル包絡パラメータを生成することができる。

以下、本発明の実施形態について図面に基づいて説明する。

（第１の実施形態）
本発明の第１の実施形態に係わる音声処理装置であるスペクトル包絡パラメータ生成装置（以下、単に生成装置という）について図１〜図２２に基づいて説明する。

本実施形態に係わる生成装置は、音声データを入力して、音声データから切り出した各音声フレームのスペクトル包絡パラメータを出力する装置である。

なお、「スペクトル包絡」とは、音声の短時間スペクトルから音源の周期性などによるスペクトルの微細構造成分を除いたスペクトル情報であり、声道特性や放射特性などのスペクトル特性を表す。本実施形態においては、スペクトル包絡情報として、対数スペクトル包絡を用いる。但し、これに限定するものではなく、例えば、振幅スペクトルもしくはパワースペクトルによるスペクトル包絡情報など、スペクトル包絡を表す周波数領域の情報を用いることができる。

（１）生成装置の構成
図１は、本実施形態に係わる生成装置（以下、単に生成装置という）を示すブロック図である。

生成装置は、音声データを音声フレームに分割する音声フレーム抽出部１１と、得られた音声フレームから対数スペクトル包絡を抽出する対数スペクトル包絡抽出部（以下、「包絡抽出部」という）１２と、局所的な基底を作成する局所基底作成部１４と、局所基底作成部１４によって作成された局所基底を保持する局所基底保持部１５と、局所基底保持部１５に保持されている局所基底を用いて前記対数スペクトル包絡からスペクトル包絡パラメータを求めるスペクトル包絡パラメータ算出部（以下、単に「パラメータ算出部」という）１３と、を備えている。

各部１１〜１５の各機能は、コンピュータに格納されたプログラムによっても実現できる。

（２）音声フレーム抽出部１１
音声フレーム抽出部１１の動作を図２に示す。

音声フレーム抽出部１１は、音声データを入力する音声データ入力ステップＳ２１と、入力された音声データにピッチマーク情報を付与するピッチマーク付与ステップＳ２２と、ピッチマークにしたがってピッチ波形を切り出し音声フレームとする音声フレーム抽出ステップＳ２３と、得られた音声フレームを出力する音声フレーム出力ステップＳ２４の処理を行う。

「ピッチマーク」とは、音声データのピッチ周期に同期して付与されたマークであり、音声波形の１周期分の波形の中心の時刻を表す。

ピッチマークの付与は、例えば１周期分の音声波形内のピークを抽出する方法などにより行われる。

ピッチ波形とは、ピッチマーク位置に対応する音声波形であり、そのピッチ波形のスペクトルが音声のスペクトル包絡を表す。ピッチ波形は、ピッチマーク位置を中心として、ピッチの２倍の長さのハニング窓を音声波形に掛けることにより抽出することができる。

音声フレームは、スペクトル分析を行う単位に対応して音声データから抽出した音声波形を示し、ピッチ波形を音声フレームとして用いる。

（３）包絡抽出部１２
包絡抽出部１２は、得られた音声フレームから対数スペクトル包絡を抽出する。

図３に示すように、包絡抽出部１２は、音声フレームを入力する音声フレーム入力ステップＳ３１と、音声フレームにフーリエ変換を行うフーリエ変換ステップＳ３２と、得られたスペクトルから対数スペクトル包絡を得る対数スペクトル包絡算出ステップＳ３３と、対数スペクトル包絡を出力する対数スペクトル包絡出力ステップＳ３４の処理を行う。

「対数スペクトル包絡」は、所定の点数で表された対数スペクトル領域のスペクトル情報である。ピッチ波形をフーリエ変換し対数パワースペクトルを求めることにより、対数スペクトル包絡が得られる。

なお、対数スペクトル包絡抽出は、ピッチの２倍の窓幅のハニング窓掛けによるピッチ波形のフーリエ変換によるものに限定するものではなく、ケプストラム法、線形予測法、ＳＴＲＡＩＧＨＴ法など他のスペクトル包絡抽出手法を用いて抽出してもよい。

（４）局所基底作成部１４
局所基底作成部１４は、局所的な基底を作成する。

（４−１）局所基底の定義
「局所基底」とは、複数の対数スペクトル包絡によって形成される空間の部分空間の基底であり、ここでは以下の３つの条件を備えたものである。

条件１：音声のスペクトル領域、すなわち、周波数軸上で単一の最大値を与えるピーク周波数を含む所定の周波数帯域に値が存在し、前記周波数帯域の外側は値を零とする。これは、周波数軸上のある範囲の中にのみ値が存在し、範囲外は零とし、また、単一の最大値のみを持つという内容であり、帯域が制限されているということと、周期的な基底のように同じ最大値を複数持つものではないということを表す。すなわち、ケプストラム分析に用いる基底との違いである。

条件２：前記対数スペクトル包絡の点数より少ない個数の基底からなる。それぞれの基底は上記条件１に示したものになるが、基底の個数は、対数スペクトル包絡の点数より少ない個数になる。

条件３：ピーク周波数位置が隣りあう基底間に重なりを持つ。複数の基底を持ち、それぞれの基底はピーク周波数を持つ。このピーク周波数が隣あう基底は、値が存在する周波数の範囲が重なる。

この条件１、２、３の３つをそろえ、歪み量を最小化することにより求めるため、「高品質」、「効率的」、「帯域に応じた処理を容易に行うことができる」の３点の効果を兼ねたパラメータになる。

第１の効果（高品質）は、基底の線形結合とスペクトル包絡との歪み量を最小化している点と、上記条件３に示したように基底に重なりを持つため滑らかに遷移する包絡が再現される点から高品質になる。

第２の効果（効率的）とは、条件２に示したように、基底の個数がスペクトル包絡の点数より少なくなるので、効率的である。

第３の効果は、条件１に示したように各局所基底に対応する係数の値は、ある周波数帯域のスペクトルを表現するので、帯域に応じた処理を容易に行うことができる。

（４−２）動作
図４に示すように、周波数軸上の各局所基底のピーク周波数を決定する周波数スケール決定ステップＳ４１と、得られた周波数スケールにしたがって局所基底を作成する局所基底作成ステップＳ４２と、得られた局所基底を出力して局所基底保持部１５に保存する局所基底出力ステップＳ４３の処理を行う。

周波数スケール決定ステップＳ４１において、周波数軸上に所定の次数のピーク周波数の位置である周波数スケールを定める。

局所基底作成ステップＳ４２において、隣り合うピーク周波数の幅を長さとするハニング窓関数により作成する。ハニング窓関数を用いることにより基底の総和が１となるため、フラットなスペクトルを表すことが可能になるという特性を持つ。

なお、局所基底の作成は、ハニング窓関数に限定するものではなく、その他、単峰性の窓関数であるハミング窓、ブラックマン窓、三角窓、ガウス窓等を用いてもよい。

単峰性の関数の場合、各ピーク周波数の間のスペクトルは単調増加または単調減少になり自然なスペクトルが再合成できる。

しかし、単峰性の窓関数に限定するものではなく、ＳＩＮＣ関数のようにいくつかの極値を持ってもよい。

学習データから基底を作成した場合、このように極値を複数持つ場合があるが、所定の周波数帯域の外側が零となる局所的な基底を持つ基底のセットであればよい。但し、パラメータからスペクトルを再合成した際に、隣り合うピーク周波数の間のスペクトルを滑らかにするため、隣り合うピーク周波数に対応する基底には重なりを持つ必要がある。このため、基底は直交基底にはならず、単純な内積演算によりパラメータを求めることはできない。また、効率よくスペクトルを表すため、前記対数スペクトル包絡の点数より基底の個数すなわちパラメータの次数は少量になるように設定する。

この局所基底を作成するため、周波数スケール決定ステップＳ４１では、まず周波数スケールを決定する。周波数スケールは周波数軸上のピーク位置であり、所定の基底の個数にしたがって、周波数軸上に設定する。ここでは、π／２の周波数まではメルスケール上で等間隔になるように、それ以上の周波数は直線スケール上で等間隔になるように周波数スケールを作成する。

周波数スケールの作成は、メルスケール、バークスケール等の非直線周波数スケール上で等間隔になるように決定してもよい。また、直線周波数スケール上で等間隔になるように決定してもよい。

このように周波数スケールを決定し、局所基底作成ステップＳ４２では、上記したようにハニング窓関数によって局所基底を作成する。このように作成された局所基底は局所基底出力ステップＳ４３によって、局所基底保持部１５に保存される。

（５）パラメータ算出部１３
パラメータ算出部１３は、図５に示すように、対数スペクトル包絡入力ステップＳ５１と、スペクトル包絡パラメータ算出ステップＳ５２と、スペクトル包絡パラメータ出力ステップＳ５３の処理を行う。

（５−１）ステップＳ５２
スペクトル包絡パラメータ算出ステップＳ５２は、対数スペクトル包絡入力ステップＳ５１において入力された対数スペクトル包絡と、局所基底保持部１５に保持されている局所基底と係数の線形結合との歪み量を最小化するように各基底に対する係数を求める。

（５−２）ステップＳ５３
スペクトル包絡パラメータ出力ステップＳ５３は、得られた各局所基底に対する係数をスペクトル包絡パラメータとして出力する。

歪み量は、スペクトル包絡パラメータから再合成したスペクトルと、対数スペクトル包絡との歪みを表す尺度であり、歪み量として二乗誤差を用いる場合は最小二乗法によってスペクトル包絡パラメータを求めることになる。

歪み量としては、二乗誤差に限定するものではなく、重み付けした誤差や、二乗誤差にスペクトル包絡パラメータが滑らかになるような正則化項を加えた誤差尺度等であってもよい。

また、スペクトル包絡パラメータが非負になるように制約を持つた非負の最小二乗法を用いてもよい。局所基底の形によっては、負の方向のフィッティングと正の方向のフィッティングの和としてスペクトルの谷が表現される可能性があるが、スペクトル包絡パラメータが対数スペクトル包絡の概形を表すためには負の係数によるフィッティングは望ましくない。

この問題を解決するために、非負の制約を持つた最小二乗法を用いることができる。このように、スペクトル包絡パラメータ算出ステップＳ５２は、歪み量を最小化するように係数を求めて、スペクトル包絡パラメータを算出し、スペクトル包絡パラメータ出力ステップＳ５３によって得られたスペクトル包絡パラメータを出力する。

スペクトル包絡パラメータ出力ステップＳ５３においては、スペクトル包絡パラメータの量子化を行い、情報量を削減して出力してもよい。

（６）スペクトル包絡パラメータの算出
以下、図６に示す音声データに対して、スペクトル包絡パラメータを算出する例を示し、各処理の詳細を説明する。図６は「あまりに」という発声の音声データである。

（６−１）音声フレーム抽出部１１
音声フレーム抽出部１１の音声データ入力ステップＳ２１において、音声データが入力され、ピッチマーク付与ステップＳ２２において、ピッチマークが付与される。

図７は、「ま」の部分の波形を拡大した音声波形である。

図７に示すように、ピッチマーク付与ステップＳ２２では、周期的な波形の各周期に対応した位置にピッチマークを付与する。

音声フレーム抽出ステップＳ２３では、各ピッチマーク位置に対応するピッチ波形を抽出する。ピッチマークを中心とし、ピッチの２倍のハニング窓をかけることにより抽出し音声フレームとしている。

（６−２）包絡抽出部１２
包絡抽出部１２では、各音声フレームをフーリエ変換し、対数スペクトル包絡を求める。離散フーリエ変換を適用し、対数パワースペクトルを計算して対数スペクトル包絡を得る。

但し、ｘ（ｌ）は音声フレームを表し、Ｓ（ｋ）は対数スペクトルであり、Ｌは対数スペクトル包絡の点数（なお、Ｌは離散フーリエ変換の点数もしくはその正の成分である半分の点数である）、ｊは虚数単位を表す。

スペクトル包絡パラメータは以下に示すように局所的基底と係数との線形結合で対数スペクトル包絡をモデル化する。

但し、Ｎは局所基底の個数、すなわちスペクトル包絡パラメータの次元数であり、Ｘ（ｋ）は、スペクトル包絡パラメータから生成したＬ次元の対数スペクトル包絡、φ_ｉ（ｋ）はＬ次元の局所基底ベクトルであり、このｃ_ｉ（０＜＝ｉ＜＝Ｎ−１）がスペクトル包絡パラメータになる。

（６−３）局所基底作成部１４
局所基底作成部１４では、局所基底φを作成する。

（６−３−１）ステップＳ４１
まず、周波数スケール決定ステップＳ４１において、周波数スケールを決定する。図８に周波数スケールを示す。ここではＮ＝５０とし、０〜π／２まではメルスケール上で等間隔な点、

とし、π／２〜πは直線スケール上で等間隔な点

としている。Ω（ｉ）はｉ番目のピーク周波数を示す。Ｎ_ｗａｒｐはメルスケールの帯域から等間隔な帯域に、間隔が滑らかに変化するように求めており、２２．０５Ｋｈｚの信号を、Ｎ＝５０、α＝０．３５として求める場合、Ｎ_ｗａｒｐ＝３４となる。αは周波数伸縮パラメータである。このように周波数スケールを作成すると、図８に示すように、０〜π／２は低域の周波数解像度が高くなり、徐々に間隔が広がってπ／２以上は等間隔になる。Ｌは式（１）で表される離散フーリエ変換の点数であり、音声フレームの長さより長い固定の値を用いることができる。ＦＦＴを用いるためには２のべき乗であればよく、例えば１０２４点とすることができる。この場合、１０２４点で表される対数スペクトル包絡をスペクトル包絡パラメータにより５１２点で表すことになり、効率的になる。

（６−３−２）ステップＳ４
局所基底作成ステップＳ４２では、周波数スケール決定ステップにおいて作成した周波数スケールにしたがって、ハニング窓を用いて局所基底を作成する。

基底ベクトルφ_ｉ（ｋ）は、１＜＝ｉ＜＝Ｎ−１に対しては、

とし、ｉ＝０に対しては、

とする。但し、Ω（０）＝０，Ω（Ｎ）＝πとする。

このように作成した局所基底を図９に示す。

図９の上段は全ての基底をプロットしたもの、中段はいくつか抜粋して拡大したもの、下段には全ての局所基底を並べたものを示しており、上にφ_０，φ_１など、いくつかの基底を抜粋して示している。ピーク周波数に隣接した周波数スケールの幅を長さとするハニング窓関数により作成している様子がわかる。

このように各基底は、ピーク周波数がΩ（ｉ）となり、帯域幅はΩ（ｉ−１）〜Ω（ｉ＋１）で表されるものになり、その外側は零である局所的な基底になる。ハニング窓で作成しているため、その和は１となり、フラットなスペクトルを表現することも可能になる。

このように局所基底作成ステップＳ４２では、周波数スケール作成ステップＳ４１において作成された周波数スケールにしたがって局所的な基底を作成し、局所基底保持部１５に保存する。

（６−４）パラメータ算出部１３
パラメータ算出部１３では、包絡抽出部１２で得られた対数スペクトルと、局所基底保持部１５に保持された局所基底を用いてスペクトル包絡パラメータを求める。

対数スペクトル包絡Ｓ（ｋ）と基底の線形結合であるＸ（ｋ）との歪みの尺度としては二乗誤差を用い、最小二乗法で求める場合、次式の様に誤差eを定める。

但し、Ｓ，ＸはＳ（ｋ）及びＳ（Ｘ）をベクトル表記したものであり、Φ＝（φ_１，φ_２，・・・，φ_Ｎ）であり、基底ベクトルを並べた行列である。

式（８）に示す連立方程式を解いて極値を求めることによりスペクトル包絡パラメータを得る。連立方程式はガウスの消去法、コレスキー分解法などにより解くことができる。

これによりスペクトル包絡パラメータが求められ、スペクトル包絡パラメータ出力ステップＳ５３において、得られたスペクトル包絡パラメータｃを出力する。

（６−５）算出例
図７の各ピッチ波形に対して、スペクトルパラメータを求めた例を、図１０に示す。

図１０は上から、ピッチ波形、式（１）によって求めた対数スペクトル包絡、スペクトル包絡パラメータの各次元の値をピーク周波数位置にプロットしたもの、及び、式（２）によって再生成したスペクトル包絡を示している。

図１０より、スペクトル包絡パラメータは対数スペクトル包絡の概形を表していることがわかる。再生成したスペクトル包絡は、分析元の対数スペクトル包絡に近いスペクトルが得られ、また、中域から高域にかけて現れるスペクトルの急な谷の影響をうけずに、なめらかなスペクトル包絡が得られていることがわかる。

すなわち、高品質・効率的・かつ帯域に応じた処理を容易に行うことのできる、音声合成に好適なパラメータが得られていることがわかる。

（７）非負最小二乗法
上記したスペクトル包絡パラメータ算出ステップＳ５２では、スペクトル包絡パラメータに対し制約を設けずに二乗誤差を最小化しているが、係数が非負になる制約のもとで二乗誤差を最小化してもよい。

非直交基底を用いて係数を最適化した場合、負の係数と正の係数の和として、対数スペクトルの谷を表現することが可能になる。

その場合、係数は対数スペクトルの概形を表すものではなくなるため、スペクトル包絡パラメータが負になることは望ましくない。

また、対数スペクトルが負になるスペクトルはリニアな振幅領域では１より小さい値となり、時間領域では０に近い振幅の正弦波になるため、対数スペクトルが０より小さい場合も０として差し支えない。

そこで、得られる係数がスペクトルの概形を表すパラメータとするために、非負の最小二乗法を用いて係数を求める。非負の最小二乗法は非特許文献２に記述されている方法で行うことができ、非負の制約の元で、最適な係数を求めることができる。

なお、非特許文献２とは、文献（C． L． Lawson，R． J． Hanson，「Solving Least Squares Problems，」 SIAM classics in applied mathematics， 1995 （first published by 1974））である。

この場合、式（７）にｃ＝＞０の制約が加わり、式（９）によって定められる誤差ｅを最小化することにより求められる。

非負最小二乗法は、インデックス集合Ｐ及びＺを用いて解を求める。

インデックス集合Ｚに含まれるインデックスに対する解の値は０になり、集合Ｐに含まれるインデックスに対する値は０以外になる。その値が非負になった場合、値を正にするか、または値を０として前記当するインデックスを集合Ｚに移す。終了時には、ｃに解が求まる。

非負最小二乗法を用いる場合のスペクトル包絡パラメータ算出ステップＳ５２の処理を図１１に示す。まず、初期化ステップＳ１１１において、Ｐ＝｛｝，Ｚ＝（０，…，Ｎ−１），ｃ＝０とし、次に勾配ベクトル算出ステップＳ１１２において、勾配ベクトル

を求める。

終了判定ステップＳ１１３では、集合Ｚが空集合もしくは、Ｚに含まれるインデクスｉについてｗ（ｉ）＜０ならば終了する。次にインデクス集合更新ステップＳ１１４では、Ｚに含まれるインデクス中でｗ（ｉ）が最大になるｉを求め、集合Ｚから集合Ｐに移動する。最小二乗ベクトル算出ステップＳ１１５ではＰに含まれるインデックスに対して最小二乗法で解を求める。すなわち、Ｌ×Ｎの行列Φｐを定義し、

Φｐを用いた場合の二乗誤差

を最小化するＮ次元ベクトルｙを求める。この処理では。ｙ_ｉ，ｉ∈Ｐのみ値が求まるので、ｉ∈Ｚに対しては、ｙ_ｉ＝０とする。

非負判定ステップＳ１１５では、Ｐに含まれるインデクスｉに対してｙ_ｉ＞０ならば、ｃ＝ｙとして勾配ベクトル算出ステップＳ１１２に戻る。そうでな場合は、解更新ステップＳ１１７に進む。解更新ステップＳ１１７では、

となるインデクスｊを求め、α＝ｃ_ｊ／（ｃ_ｊ−ｙ_ｊ），ｃ＝ｃ＋α（ｙ−ｃ）とし、ｃ_ｉ＝０となる全てのインデクスｉ∈Ｐを集合Ｚに移動して最小二乗ベクトル算出ステップＳ１１５に戻る。すなわち、式（９）を最小化した結果、解が負になったインデックスを集合Ｚに写して再度最小二乗ベクトル算出ステップに戻る。

以上のアルゴリズムにより、ｃ_ｉ＝＞０（ｉ∈Ｐ），ｃ_ｉ＝０（ｉ∈Ｚ）として式（９）の最小二乗解が求まる。これにより、最適な非負のスペクトル包絡パラメータｃを求めることができる。また、より容易にスペクトル包絡パラメータを非負にするため、式（８）により求める最小二乗法で求めたスペクトル包絡パラメータに対して負の値となった係数を零としてもよい。これにより、非負のスペクトルパラメータを求めることができ、スペクトル包絡の概形を適切に表すスペクトル包絡パラメータを求めることが可能になる。

（８）位相情報
上記したスペクトル包絡パラメータと同様に位相情報も同様にパラメータとしてもよい。

この場合、生成装置は、図１２に示すように、位相スペクトル抽出部１２１と、位相スペクトルパラメータ算出部１２２がさらに加わる。

（８−１）位相スペクトル抽出部１２１
位相スペクトル抽出部１２１の処理は、包絡抽出部１２の離散フーリエ変換ステップＳ３２において得られたスペクトル情報を入力し、アンラップした位相情報を出力する。

位相スペクトルパラメータ抽出部１２１は、図１３に示すように、音声フレームを離散フーリエ変換して得られたスペクトルを入力するスペクトル入力ステップＳ１３１と、スペクトル情報から位相スペクトルを算出する位相スペクトル算出ステップＳ１３２と、位相をアンラップする位相アンラップステップＳ１３３と、得られた位相スペクトルを出力する位相スペクトル出力ステップＳ１３４から構成される。

位相スペクトル算出ステップＳ１３２では、

である位相スペクトルを求める。

実際には、位相スペクトルはフーリエ変換の虚部と実部の比のアークタンジェントを求めることにより生成する。

位相スペクトル算出ステップＳ１３２では、位相の主値が求まるが、位相の主値は不連続性を示すため、位相アンラップステップＳ１３３において、不連続性がなくなるように位相をアンラップする。位相のアンラップは、隣り合う位相がπ以上ずれた場合２πの整数倍を加算、もしくは減算することにより行う。なお、Ｌは離散フーリエ変換の点数もしくはその正の成分である半分の点数である。

（８−２）位相スペクトルパラメータ算出部１２２
次に、位相スペクトルパラメータ算出部１２２では、位相スペクトル抽出部１２１において得られた位相スペクトルに対し、位相スペクトルパラメータを求める。

位相スペクトルパラメータも式（２）と同様に局所基底保持部１５に保持されている基底とパラメータとの線形結合として位相スペクトルを表現する。

Ｎは、位相スペクトルパラメータの次元数であり、Ｙ（ｋ）は、位相スペクトルパラメータから生成したＬ次元の位相スペクトル、φ_ｉ（ｋ）はＬ次元の局所基底ベクトルでありスペクトル包絡パラメータの際の基底と同様に作成する。

ｄ_ｉ（０＜＝ｉ＜＝Ｎ−１）が位相スペクトルパラメータになる。

位相スペクトルパラメータ算出部１２２は、位相スペクトルを入力する位相スペクトル入力ステップＳ１４１と、位相スペクトルパラメータを算出する位相スペクトルパラメータ算出ステップＳ１４２と、得られた位相スペクトルパラメータを出力する位相スペクトルパラメータ出力ステップＳ１４３の処理を行う。

位相スペクトルパラメータ算出ステップＳ１４２では式（８）に示される最小二乗法によるスペクトル包絡パラメータ算出と同様に行う。位相スペクトルパラメータをｄとし、位相スペクトルの歪みを二乗誤差ｅとすると、

但し、ＰはＰ（ｋ）をベクトル表記したものであり、Φは局所基底をならべた行列である。式（１７）に示す連立方程式をガウスの消去法、コレスキー分解などにより解いて極値を求めることにより位相スペクトルパラメータを得る。

図７のピッチ波形に対して位相スペクトルパラメータを求めた例を図１５に示す。

上からアンラップした位相スペクトルであり、位相スペクトルパラメータは位相スペクトルの概形を現していることがわかる。また、式（１５）により位相スペクトルパラメータから再合成した位相スペクトルは分析元の位相スペクトルに近く、高品質なパラメータが得られることがわかる。

（９）スパースコーディング法
上記した生成装置は、ハニング窓で作成した局所基底を用いているがこれに限定するものではない。学習データとして用意した対数スペクトル包絡から、非特許文献３に示されるスパースコーディング法によって基底を作成してもよい。

なお、非特許文献３とは、文献（Bruno A． Olshausen and David J． Field，「Emergence of simple-cell receptive field properties by learning a sparse code for natural images，」 Nature， vol． 381， 13 June， 1996）である。

（９−１）スパースコーディング法の内容
スパースコーディング法とは、画像処理分野で用いられる手法であり、画像を基底の線形結合で表現するものである。

二乗誤差を表す項に係数が疎であることを表す正則化項を加えて作成された評価関数を用い、前記評価関数を最小化するように基底を作成することにより、学習データとして与えた画像データから局所的な基底が自動的に得られる。

スパースコーディング法を音声の対数スペクトルに適用し、局所的な基底を求めることにより、局所基底保持部１５に保持される基底を作成することができる。

これにより、音声データに対して、スパースコーディング法の評価関数を最小化する最適な基底が得られる。

（９−２）スパースコーディング法による処理
スパースコーディング法によって基底を作成する場合の局所基底作成部１４の処理を、図１６に示す。

局所基底作成部１４は、学習データとして用意した音声データから求めた対数スペクトルを入力する対数スペクトル包絡入力ステップＳ１６１と、一つの初期規定を作成する初期規定作成ステップＳ１６２と、現在の基底に対して係数を算出する係数算出ステップＳ１６３と、得られた係数に基づいて基底を更新する基底更新ステップＳ１６４と、基底の更新が収束したかどうかを判定する収束判定ステップＳ１６５と、基底の数が予め定めた個数かどうかを判定する終了判定ステップＳ１６６と、基底の数が予め定めた個数に達していない場合に新たな基底を追加し初期基底を作成する基底追加ステップＳ１６７と、基底の数が予め定めた個数であった場合に局所基底を出力して終了する局所基底出力ステップとの処理を行う。

（９−２−１）ステップＳ１６１
対数スペクトル包絡入力ステップＳ１６１は、学習データとして用いる音声データの各ピッチ波形から求めた対数スペクトル包絡を入力する。音声データからの対数スペクトルの抽出は、音声フレーム抽出部１１及び包絡抽出部１２と同様に行うことができる。

（９−２−２）ステップＳ１６２
初期基底作成ステップＳ１６２は、まず基底の個数Ｎを１とし、φ_０（ｋ）＝１（０＜＝ｋ＜Ｌ）として初期規定を作成する。

（９−２−３）ステップＳ１６３
係数算出ステップＳ１６３は、現在の基底と学習データの各対数スペクトル包絡から各対数スペクトル包絡に対応する係数を算出する。スパースコーディングの評価関数とて、以下の式を用いる。

式（１８）のＥが評価関数を表し、ｒは学習データの番号、Ｘは対数スペクトル包絡、Φは基底ベクトルを並べた行列、ｃは係数を表す。Ｓ（ｃ）は係数の疎性を表す関数であり、Ｓ（ｃ）はｃが零に近いほど値が小さくなる関数を用いる。ここでは、Ｓ（ｃ）＝ｌｏｇ（１＋ｃ^２）を用いる。また、νは基底φの重心を表す。λ及びμはそれぞれの正則化項に対する重み係数である。

式（１８）の第一項は、対数スペクトル包絡と局所基底の線形結合との間の歪み量の和を表す誤差項であり、二乗誤差を誤差項としたもの、第２項は、係数を零に近づけるほど値が小さくなる係数の疎性を表す正則化項、第３項は、基底の重心からの距離の大きい点における値が大きくなるほど値が大きくなる基底の重心への集中度を表す正則化項である。

但し、第３項を含まない評価関数を用いても構わない。

係数算出ステップ１６３では、式（１８）を最小化する係数ｃ^ｒを全ての学習データＸ^ｒについて求める。式（１８）は非線形な方程式になるが、共役勾配法を用いて求めることができる。

（９−２−４）ステップＳ１６４
基底更新ステップ１６４では、勾配法により基底を更新する。

基底φの勾配は、式（１８）をφについて微分して得られる勾配の期待値から、

として求めることができる。

ΦをΦ＋ΔΦに置き換えることにより基底を更新する。ηは勾配法による学習に用いる微小な量である。

（９−２−５）ステップＳ１６５
次に、収束判定ステップＳ１６５では、勾配法による基底の更新の収束を判定する。

評価関数の値の差が所定の閾値より大きい場合は再度ステップＳ１６３に戻る。

評価関数の値が所定の閾値より大きい場合は、勾配法による繰り返しが収束したと判断し、終了判定ステップＳ１６６に進む。

（９−２−６）ステップＳ１６６
終了判定ステップＳ１６６は、得られた基底の個数が所定の値に到達したかどうかを判断する。

所定の値より少ない場合は、新たに基底を追加し、ＮをＮ＋１として係数算出ステップＳ１６３に戻る。

追加する基底は初期値としてφ_Ｎ−１（ｋ）＝１（０＜＝ｋ＜Ｌ）として作成する。

以上の処理により、学習データから自動的に基底を作成することができる。

（９−２−７）ステップＳ１６８
局所基底出力ステップＳ１６８は最終的に得られた基底を出力する。

この際、窓関数をかけることにより基底の主な値を取る範囲外は０とする。以上の処理により作成した基底の例を図１７に示す。

基底の個数はＮは３２とし、メルスケールに変換した対数スペクトルをＸとして与え、上記した処理により学習した基底である。一つ全帯域にわたる基底も含まれるものの、周波数軸上で局所的な基底を持つ基底のセットが自動的に作成されていることがわかる。スパースコーディングにより学習した基底を用いてスペクトル包絡パラメータを求める際には、パラメータ算出部１３においては、局所基底作成部１４と同様に、式（１８）による評価関数を用いてスペクトル包絡パラメータを算出することによりスペクトル包絡パラメータを生成する。

この処理によりデータから自動的に作成した局所基底を用いてスペクトル包絡パラメータを生成するため、高品質なスペクトルパラメータが得られる。

（１０）固定のフレーム周期、フレーム長の音声フレームからの算出
上記した生成装置は、ピッチ同期分析にもとづいているが、これに限定するものではない。固定のフレーム周期、フレーム長の音声フレームからスペクトル包絡パラメータを算出してもよい。

この場合、音声フレーム１１は、図１８に示すように、音声データを入力する音声データ入力ステップＳ１８１と、固定のフレームレートによってフレーム中心の時刻を設定する音声フレーム設定ステップＳ１８２と、固定のフレーム長の窓関数によって音声フレームを抽出する音声フレーム抽出ステップＳ１８３と、得られた音声フレームを出力する音声フレーム出力ステップＳ１８４の処理を行う。包絡抽出部１２は、前記音声フレームを入力し、対数スペクトル包絡を出力する。

（１０−１）分析例
図７の音声データに対し、窓長２３．２ｍｓ（５１２点）、１０ｍｓシフト、ブラックマン窓を用いて分析する例を図１９に示す。

音声フレーム設定ステップＳ１８１では、１０ｍｓの固定周期で分析窓の中心を定める。図７とは異なり、分析窓の中心はピッチに同期したものではなくなる。図１９は上から音声フレームとフレーム中心時刻を示しており、固定長のブラックマン窓を掛けて切り出した音声フレームを下段に示している。

（１０−１−１）スペクトル包絡の算出
図２０は、図１０と同様にスペクトル分析をし、パラメータを求めた例を示している。固定フレームの場合、各音声フレームは複数のピッチを含み、そのスペクトルは滑らかなスペクトル包絡にならずに、ハーモニクスの影響による微細な変動を持つ。図２０の２段目にフーリエ変換によって得られた対数スペクトルを示す。このような微細な変動を含むスペクトルに対して局所基底の係数としてスペクトル包絡パラメータを求めると、周波数領域における解像度の高い低域部分において、微細な変動にそのままフィッティングし、滑らかなスペクトル包絡にはならない。

そこで、固定フレーム周期、フレーム長による分析の場合は、包絡抽出部１２の対数スペクトル包絡算出ステップＳ３３において、音声フレームから対数スペクトル包絡を求め、得られた対数スペクトル包絡に対して、パラメータ算出部１３において、局所基底の係数をフィッティングさせることによりスペクトル包絡パラメータを得る。スペクトル包絡抽出は線形予測分析による方法、メルケプストラムの不偏推定による方法、ＳＴＲＡＩＧＨＴによる方法などにより求めることができる。図２０の３段目に示した対数スペクトル包絡は、ＳＴＲＡＩＧＨＴ法によって求めたものである。ＳＴＲＡＩＧＨＴ法では、相補的時間窓による時間方向の変動の除去と、調波位置の値を保つ平滑化関数による周波数方向平滑化によってスペクトル包絡を求める。

（１０−１−２）スペクトル包絡パラメータの算出
このように求めたスペクトル包絡に対して、スペクトルパラメータ算出部１３では、局所的基底の線形結合によるスペクトル包絡パラメータを求める。

スペクトルパラメータ算出部１３の処理はピッチ同期分析の場合と同様に行うことができる。

（１０−２）分析結果
得られたスペクトル包絡パラメータと、再生成したスペクトルを４段、５段に示す。入力した対数スペクトル包絡に近いスペクトルが再生成されている様子がわかる。

また、ここでは一度スペクトル包絡を求めてからスペクトル包絡パラメータを求めたが、評価関数として、対数スペクトルとスペクトル包絡パラメータから再生成したスペクトルとの歪みと係数が滑らかになる正則化項との和を用い、対数スペクトルから直接スペクトル包絡パラメータを求めてもよい。

以上の処理により、固定のフレーム周期、固定のフレーム長の場合においても局所基底の線形結合によるスペクトル包絡パラメータを生成することができる。

（１１）量子化
上記したスペクトル包絡出力ステップＳ５２では、そのままスペクトル包絡パラメータを出力しているが、スペクトル包絡パラメータに対して帯域に応じた量子化を行って情報量を削減して出力してもよい。

この場合には、スペクトル包絡パラメータ出力ステップＳ５３は、図２１に示すように、スペクトル包絡パラメータの各次元に対する量子化ビット数を決定するビット割り当て決定ステップＳ２１１と、量子化幅を決定する量子化幅決定ステップＳ２１２と、実際にスペクトル包絡パラメータを量子化するスペクトル包絡パラメータ量子化ステップＳ２１３と、得られたパラメータを出力する量子化スペクトルパラメータ出力ステップとの処理を行う。

（１１−１）ステップＳ２１１
ビット割り当て決定ステップＳ２１１では、帯域分割符号化の際の適応情報割り当てと同様に、次元毎の可変のビットレートで最適な情報割り当てを行う。平均情報量をＢとし、各次元の係数の平均をμ_ｉ、標準偏差をσ_ｉとしたとき、最適情報割り当てｂ_ｉは、

により求めることができる。

（１１−２）ステップＳ２１２
量子化幅決定ステップＳ２１２では、式（２０）により決定されたビット数とσ_ｉに基づいて、量子化幅を決定する。均一量子化を行う場合は、各次元の最大値ｃ_ｉ ^ｍａｘと最小値ｃ_ｉ ^ｍｉｎから

として求めることができる。均一量子化でなく、量子化ひずみを最小化する最適量子化を行ってもよい。

（１１−３）ステップＳ２１３
スペクトル包絡パラメータ量子化ステップＳ２１３では、上記したビット割り当てと量子化幅を用いてスペクトル包絡パラメータの各係数を量子化する。ｃ_ｉを量子化した結果をｑ_ｉとしＱをビット列を決定する関数としたとき、

として量子化を行う。

（１１−４）ステップＳ２１４
量子化スペクトルパラメータ出力ステップＳ２１４では、μ_ｉ、Δｃ_ｉ、及び各スペクトル包絡パラメータを量子化したｑ_ｉを出力する。

（１１−５）量子化の変更例
上記した処理は、最適ビットレートを求めているが、固定のビットレートで量子化してもよい。

また、上記した処理では、σ_ｉはスペクトル包絡パラメータの標準偏差としているが、ｓｑｒｔ（ｅｘｐ（ｃ_ｉ））としてリニアな振幅に変換したパラメータから標準偏差を求めてもよい。

また、位相スペクトルパラメータも同様に量子化することができる。位相スペクトルパラメータは−πからπの間の位相の主値を求めて量子化する。

（１１−６）量子化の結果
これらの処理により、スペクトル包絡パラメータは平均４．７５ビット、位相スペクトルパラメータは平均３．２５ビットで量子化し、再生成した例を図２２示す。

図２２はスペクトル包絡と量子化スペクトル包絡、及び位相スペクトル、位相スペクトルの主値、量子化位相スペクトルを示している。

それぞれスペクトル包絡パラメータから再生成したものである。量子化誤差を含むものの、量子化前のスペクトルに近い結果が得られていることがわかる。このように、スペクトルパラメータを量子化することにより、さらに効率よくスペクトルを表現することが可能になる。

（１２）効果
以上により、本実施形態に関わる生成装置は、音声データを入力して、対数スペクトル包絡と局所的基底の線形結合との歪み量に基づいてパラメータを算出することにより、高品質、効率的、かつ帯域に応じた処理を容易に行うことのできるスペクトル包絡パラメータを得ることができる。

（第２の実施形態）
本発明の第２の実施形態に係わる音声合成装置について図２３〜図２６に基づいて説明する。

（１）音声合成装置の構成
図２３は、本実施形態に係わる音声合成装置を示すブロック図である。

音声合成装置は、スペクトル包絡生成部２３１、ピッチ波形生成部２３２、波形重畳部２３３とを備えていて、ピッチマーク系列と、第１の実施形態に関わる生成装置により生成した各ピッチマーク時刻に対応するスペクトル包絡パラメータを入力し、合成音声を生成する。

（２）スペクトル包絡生成部２３１
スペクトル包絡生成部２３１は、入力したスペクトル包絡パラメータからスペクトル包絡を生成する。

スペクトル包絡の生成は、式（２）によって、局所基底保持部２３４に保持されている基底とパラメータとの線形結合によって行う。

位相スペクトルパラメータを入力した場合、ここで位相スペクトルも同様に生成する。

スペクトル包絡生成部２３１の処理は、図２４に示すように、スペクトル包絡パラメータ入力ステップＳ２４１と、位相スペクトルパラメータ入力部Ｓ２４２と、スペクトル包絡生成ステップＳ２４３と、位相スペクトル生成ステップＳ２４４と、スペクトル包絡出力ステップＳ２４５と、位相スペクトル出力ステップＳ２４６の処理を行う。

スペクトル包絡生成ステップＳ２４３では、式（２）によって対数スペクトルＸ（ｋ）を得て、位相スペクトル生成ステップＳ２４４では、式（１５）によって位相スペクトルＹ（ｋ）を得る。

（３）ピッチ波形生成部２３２
ピッチ波形生成部２３２は、図２５に示すように、スペクトル包絡入力ステップＳ２５１と、位相スペクトル入力ステップＳ２５２と、ピッチ波形生成ステップＳ２５３と、ピッチ波形出力ステップＳ２５４の処理を行う。

ピッチ波形生成ステップＳ２５３では、離散逆フーリエ変換によってピッチ波形を生成する。

対数スペクトル包絡を振幅スペクトルに変換し、位相スペクトルと振幅スペクトルから逆ＦＦＴし、端に短い窓をかけることによってピッチ波形を生成する。

このように得られたピッチ波形を、波形重畳部２３３において、入力したピッチマーク系列にしたがって重畳することにより、合成音声が得られる。

（４）処理例
図２６は、図７において示した音声波形の分析合成を行った場合の処理の例を示している。

スペクトルパラメータから再生成したスペクトル包絡、位相スペクトルを用いて逆ＦＦＴによりピッチ波形を生成する。

入力したピッチマーク系列の各波形に対応した時刻を中心にピッチ波形を重畳して、音声波形を生成している。

図７に示した分析元の音声波形、ピッチ波形に近い音声波形が得られていることがわかる。すなわち、第１の実施形態における生成装置によって生成されたスペクトル包絡パラメータ及び、位相パラメータは高品質なパラメータであり、分析合成したときに元の音声に近い音声を生成することができる。

（５）効果
以上により本実施形態によれば、第１の実施形態に係る生成装置によって生成されたスペクトル包絡パラメータと、ピッチマーク系列を入力し、ピッチ波形の生成及び重畳を行うことにより高品質な音声を合成することができる。

（第３の実施形態）
本発明の第３の実施形態に係わる音声合成装置について図２７〜図４１に基づいて説明する。

（１）音声合成装置の構成
図２７は、本実施形態に係わる音声合成装置を示すブロック図である。

音声合成装置は、テキスト入力部２７１と、言語処理部２７２と、韻律処理部２７３と、音声合成部２７４と、音声波形出力部２７５を備えていて、テキストを入力し、入力したテキストに対応する音声を合成する。

言語処理部２７２は、テキスト入力部２７１から入力されるテキストの形態素解析・構文解析を行い、その結果を韻律処理部２７３へ送る。

韻律処理部２７３は、言語解析結果からアクセントやイントネーションの処理を行い、音韻系列（音韻記号列）及び韻律情報を生成し、音声合成部２７４へ送る。

音声合成部２７４は、音韻系列及び韻律情報から音声波形を生成する。こうして生成された音声波形は音声波形出力部２７５で出力される。

（２）音声合成部２７４の構成
図２８は、図２７の音声合成部２７４の構成例を示すブロック図である。

図２８において、音声合成器２７４は、音声素片記憶部２８１、音素環境記憶部２８２、音韻系列・韻律情報入力部２８３、複数音声素片選択部２８４、融合音声素片作成部２８５、融合音声素片編集・接続部２８６により構成される。

（３）音声素片記憶部２８１、音素環境記憶部２８２
音声素片記憶部２８１には、音声素片が蓄積されており、それらの音素環境の情報（音素環境情報）が音素環境記憶部２８２に蓄積されている。

音声素片の情報としては、第１の実施形態に係る生成装置２８７によって音声波形から生成されたスペクトル包絡パラメータを記憶している。

音声素片記憶部２８１には、合成音声を生成する際に用いる音声の単位（合成単位）の音声素片が記憶されている。

合成単位は、音素あるいは音素を分割したものの組み合わせであり、例えば、半音素、音素（Ｃ、Ｖ）、ダイフォン（ＣＶ、ＶＣ、ＶＶ）、トライフォン（ＣＶＣ、ＶＣＶ）、音節（ＣＶ、Ｖ）、などであり（Ｖは母音、Ｃは子音を表す）、これらが混在しているなど可変長であってもよい。

音声素片の音素環境とは、当前記音声素片にとっての環境となる要因に対応する情報である。要因としては、例えば、当前記音声素片の音素名、先行音素、後続音素、後々続音素、基本周波数、音韻継続時間長、ストレスの有無、アクセント核からの位置、息継ぎからの時間、発声速度などがある。

（４）音韻系列・韻律情報入力部２８３
音韻系列・韻律情報入力部２８３には、韻律処理部２７３から出力された入力テキストに対応する音韻系列及び韻律情報が入力される。

音韻系列・韻律情報入力部２８３に入力される韻律情報としては、基本周波数、音韻継続時間長などがある。

以下、音韻系列・韻律情報入力部２８３に入力される音韻系列と韻律情報を、それぞれ入力音韻系列、入力韻律情報と呼ぶ。「入力音韻系列」は、例えば音韻記号の系列である。

（５）複数音声素片選択部２８４
複数音声素片選択部２８４は、入力音韻系列の各合成単位に対し、入力韻律情報と、融合音声素片の音素環境に含まれる韻律情報とに基づいて合成音声の歪み量を推定する。そして、前記合成音声の歪み量に基づいて音声素片記憶部２８１に記憶されている音声素片の中から、複数の音声素片を選択する。

ここで、「合成音声の歪み量」は、音素素片記憶部２８１に記憶されている音声素片の音素環境と音韻系列・韻律情報入力部２８３から送られる目標音素環境との違いに基づく歪みである目標コストと、接続する音声素片間の音素環境の違いに基づく歪みである接続コストの重み付け和として求められる。

「目標コスト」とは、音声素片記憶部２８１に記憶されている音声素片を入力されたテキストの目標素片環境のもとで使用することによって生じる歪みである。

「接続コスト」とは、接続する音声素変換の素片環境が不連続であることによって生じる歪みである。

本実施形態においては、合成音声の歪み量として、後述するコスト関数を用いる。

（６）融合音声素片系列作成部２８５
次に、融合音声素片系列作成部２８５において、選択された複数の素片を融合することにより、融合音声素片を生成する。

本実施形態では、音声素片の融合処理は音声素片記憶部２８１に記憶されているスペクトル包絡パラメータを用いて行う。

融合音声素片の系列は、融合音声素片編集・接続部２８６において、入力韻律情報に基づいて変形及び接続され、合成音声の音声波形が生成される。

接続部における素片境界の平滑化も融合されたスペクトル包絡パラメータを平滑化することにより行う。

得られたスペクトル包絡パラメータと、入力した韻律情報から得られるピッチマークを用いて、第２の実施形態に基づく音声合成装置による音声波形生成処理によって合成音声が得られる。

こうして生成された音声波形は音声波形出力部２７５で出力される。

（７）音声合成部２７４の各処理
以下、音声合成部２７４の各処理について詳しく説明する。

ここでは、合成単位の音声素片は半音素であるとする。

（８）生成装置２８７
生成装置２８７は、図２９に示すように、音声素片の音声波形からスペクトル包絡パラメータ及び、位相スペクトルパラメータを生成する。

図２９は上から音声素片とそのピッチ波形、スペクトル包絡パラッメータ、位相スペクトルパラメータを表している。スペクトル包絡パラメータの図中の数字は素片番号とピッチマーク番号を示している。

（９）音声素片記憶部２８１、音素環境記憶部２８２
音声素片記憶部２８１は、図３０に示すように、得られたスペクトル包絡パラメータ及び位相スペクトルパラメータを、音声素片番号と共に記憶している。

音素環境記憶部２８２には、図３１に示すように、音声素片記憶部２８１に記憶されている各音声素片の音素環境情報が、当前記音素の素片番号に対応付けて記憶されている。ここでは、音素環境として、半音素記号（音素名及び左右）、基本周波数、音韻継続長、接続境界ケプストラムが記憶されている。

なお、ここでは音声素片は半音素単位としているが、音素、ダイフォン、トライフォン、音節あるいはこれらの組み合わせや可変長であっても上記同様である。

音声素片記憶部２８１に記憶されている各音声素片は、別途収集された多数の音声データ対して音素毎にラベリングを行い、半音素毎に音声波形を切り出したものからスペクトル包絡パラメータを生成し、音声素片として蓄積したものである。

例えば、図３２には、音声データ３２１に対し、音素毎にラベリングを行った結果を示している。図３２では、ラベル境界３２２により区切られた各音素の音声データ（音声波形）について、ラベルデータ３２３として音素記号を付与している。

なお、この音声データから、各音素についての音素環境の情報（例えば、音韻（この場合、音素名（音素記号））、基本周波数、音韻継続時間長など）も抽出する。

このようにして音声データ３２１から求めた各音声波形に対応するスペクトル包絡パラメータと、当前記音声波形に対応する音素環境の情報には、同じ素片番号が与えられて、図３０及び図３１に示すように、音声素片記憶部２８１と音素環境記憶部２８２にそれぞれ記憶される。

（１０）複数音声素片選択部２８４
次に、複数音声素片選択部２８４において素片系列を求める際に用いられるコスト関数について説明する。

まず、音声素片を変形・接続して合成音声を生成する際に生ずる歪の要因毎にサブコスト関数Ｃ_ｎ（ｕ_ｉ、ｕ_ｉ−１、ｔ_ｉ）（ｎ：１、…、Ｎ、Ｎはサブコスト関数の数）を定める。

ここで、ｔ_ｉは、入力音韻系列及び入力韻律情報に対応する目標とする音声（目標音声）をｔ＝（ｔ_１、…、ｔ_Ｉ）としたときのｉ番目のセグメントに対応する部分の音声素片の目標とする音素環境情報を表す。

ｕ_ｉは音声素片記憶部２８１に記憶されている音声素片のうち、ｔ_ｉと同じ音韻の音声素片を表す。

（１０−１）サブコスト関数
サブコスト関数は、音声素片記憶部２８１に記憶されている音声素片を用いて合成音声を生成したときに生ずる当前記合成音声の目標音声に対する歪み量を推定するためのコストを算出するためのものである。当前記コストを算出するために、当前記音声素片を使用することによって生じる合成音声の目標音声に対する歪み量を推定する目標コストと、当前記音声素片を他の音声素片と接続したときに生じる当前記合成音声の目標音声に対する歪み量を推定する接続コストという２種類のサブコストがある。

（１０−２）目標コスト
目標コストとしては、音声素片記憶部２８１に記憶されている音声素片の基本周波数と目標の基本周波数との違い（差）を表す基本周波数コスト、音声素片の音韻継続時間長と目標の音韻継続時間長との違い（差）を表す音韻継続時間長コストを用いる。

（１０−３）接続コスト
接続コストとしては、接続境界でのスペクトルの違い（差）を表すスペクトル接続コストを用いる。

（１０−４）各コストの具体例
具体的には、基本周波数コストは、

から算出する。ここで、ｖ_ｉは音声素片記憶部２８１に記憶されている音声素片ｕ_ｉの音素環境を、ｆは音素環境ｖ_ｉから平均基本周波数を取り出す関数を表す。

また、音韻継続時間長コストは、

から算出する。ここで、ｇは音素環境ｖ_ｉから音韻継続時間長を取り出す関数を表す。

スペクトル接続コストは、２つの音声素片間のケプストラム距離：

から算出する。ここで、ｈは音声素片ｕ_ｉの接続境界のケプストラム係数をベクトルとして取り出す関数を表す。

（１０−５）合成単位コスト関数
これらのサブコスト関数の重み付き和を合成単位コスト関数と定義する。

ここで、ｗ_ｎはサブコスト関数の重みを表す。

本実施形態では、簡単のため、ｗ_ｎは全て「１」とする。上記式（４）は、ある合成単位に、ある音声素片を当てはめた場合の当前記音声素片の合成単位コストである。

入力音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、上記式（４）から合成単位コストを算出した結果を、全セグメントについて足し合わせたものをコストと呼び、当前記コストを算出するためのコスト関数を次式（５）に示すように定義する。

複数音声素片選択部２８４では、上記（１）〜（５）に示したコスト関数を使って２段階で１セグメント当たり（すなわち、１合成単位当たり）複数の音声素片を選択する。

（１０−６）素片選択処理
図３３は、素片選択処理を説明するためのフローチャートである。

（１０−６−１）ステップＳ３３１
まず、目標情報、素片情報入力ステップＳ３３１で、目標とする音声の音韻・韻律情報等素片選択の目標を表す目標情報と、音素環境記憶部２８２に記憶されている音声素片の音素環境情報を入力する。

（１０−６−２）ステップＳ３３２
そして、１段階目の素片選択として、最適素片系列探索ステップＳ３３２では、音声素片記憶部２８１に記憶されている音声素片の中から、上記式（２８）で算出されるコストの値が最小の音声素片の系列を求める。

このコストが最小となる音声素片の組み合わせを最適素片系列と呼ぶ。すなわち、最適音声素片系列中の各音声素片は、入力音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対応し、最適音声素片系列中の各音声素片から算出された上記合成単位コストと式（２８）より算出されたコストの値は、他のどの音声素片系列よりも小さい値である。

なお、最適素片系列の探索には、動的計画法（ＤＰ：ｄｙｎａｍｉｃｐｒｏｇｒａｍｍｉｎｇ）を用いることでより効率的に行うことができる。

（１０−６−３）ステップＳ３３３，３３４
次に、素片順位付けステップＳ３３３及び上位Ｎ_Ｆ個の素片選択ステップＳ３３４により、最適素片系列を用いて１セグメント当たり複数の音声素片を選ぶ。

素片順位付けステップＳ３３３及び複数素片選択ステップＳ３３４では、セグメントの中の１つを注目セグメントとする。

素片順位付けステップＳ３３３及び複数素片選択ステップＳ３３４の処理は繰り返され、全てセグメントが１回ずつ注目セグメントとなるように処理を行う。

まず、注目セグメント以外のセグメントには、それぞれ最適素片系列の音声素片を固定する。この状態で、注目セグメントに対して音声素片記憶部２８１に記憶されている音声素片を式（２８）のコストの値に応じて順位付けを行う。

素片順位付けステップＳ３３３の処理は、音声素片記憶部２８１に記憶されている音声素片のうち、注目セグメントの半音素と同じ音素名（音素記号）を持つ音声素片のそれぞれについて、式（２８）を用いてコストを算出する。

但し、それぞれの音声素片に対してコストを求める際に、値が変わるのは、注目セグメントの目標コスト、注目セグメントとその一つ前のセグメントとの接続コスト、注目セグメントとその一つ後のセグメントとの接続コストであるので、これらのコストのみを考慮すればよい。すなわち、次のような手順となる。

（手順１）音声素片記憶部２８１に記憶されている音声素片のうち、注目セグメントの半音素と同じ半音素名（音素記号）を持つ音声素片のうちの１つを音声素片ｕ_３とする。音声素片ｕ_３の基本周波数ｆ（ｖ_３）と、目標の基本周波数ｆ（ｔ_３）とから、式（２４）を用いて、基本周波数コストを算出する。

（手順２）音声素片ｕ_３の音韻継続時間長ｇ（ｖ_３）と、目標の音韻継続時間長ｇ（ｔ_３）とから、式（２５）を用いて、音韻継続時間長コストを算出する。

（手順３）音声素片ｕ_３のケプストラム係数ｈ（ｕ_３）と、一つ前の音声素片（ｕ_２）のケプストラム係数ｈ（ｕ_２）とから、式（２６）を用いて、第１のスペクトル接続コストを算出する。また、音声素片ｕ_３のケプストラム係数ｈ（ｕ_３）と、一つ後の音声素片（ｕ_４）のケプストラム係数ｈ（ｕ_４）とから、式（２６）を用いて、第２のスペクトル接続コストを算出する。

（手順４）上記（手順１）〜（手順３）で各サブコスト関数を用いて算出された基本周波数コストと音韻継続時間長コストと第１及び第２のスペクトル接続コストの重み付け和を算出して、音声素片ｕ_３のコストを算出する。

（手順５）音声素片記憶部２８１に記憶されている音声素片のうち、注目セグメントの半音素と同じ半音素名（音素記号）を持つ各音声素片について、上記（手順１）〜（手順４）にしたがって、コストを算出したら、その値の最も小さい音声素片ほど高い順位となるように順位付けを行う。その後、ステップＳ３３４において、上位Ｎ_Ｆ個の複数の音声素片を選択する。

以上の（手順１）〜（手順５）をそれぞれのセグメントに対して行う。その結果、それぞれのセグメントについて、複数のＮ_Ｆ個の音声素片が得られる。

なお、上記したコスト関数では、スペクトル接続コストとして、ケプストラム距離を用いているが音声素片記憶部２７１に記憶されている端点のスペクトル包絡パラメータからスペクトル距離を求め、スペクトル接続コスト（２６）として用いてもよい。これによりケプストラムを保持する必要がなくなり、音素環境記憶部のサイズが小さくなる。

（１１）融合音声素片作成部２８５
次に、融合音声素片作成部２８５について説明する。

融合音声素片作成部２８５では、複数音声素片選択部２８４において選択された複数の音声素片を融合し、融合音声素片を作成する。

音声素片の融合は、複数の音声素片からそれらを代表する音声素片を作成する処理である。本実施形態では、第１の実施形態に基づく生成装置によって得られたスペクトル包絡パラメータを用いて融合処理を行う。

ここでは融合の方法として、低域部分はスペクトル包絡パラメータを平均化し、高域部分は選択したスペクトル包絡パラメータを用いることによって融合スペクトル包絡パラメータを生成する。これにより全帯域を平均化した場合に生じる主に高域の音質劣化やバジー感を抑えることができる。

また、ピッチ波形の平均化等、時間領域で融合する場合は、位相の不一致の影響を受けるが、スペクトル包絡パラメータを用いて融合するため位相の影響を受けずに融合することができ、バジー感を抑えることができる。

位相スペクトルパラメータも同様に融合し、融合スペクトル包絡パラメータ及び融合位相スペクトルパラメータを、融合音声素片として出力する。

（１１−１）融合音声素片作成部２８５の処理
図３４に融合音声素片作成部２８５の処理を示す。

（１１−１−１）ステップＳ３４１
まず、複数音声素片入力ステップＳ３４１で、複数音声素片選択部２８４で選択した複数の音声素片のスペクトル包絡パラメータ及び位相スペクトルパラメータを入力する。

（１１−１−２）ステップＳ３４２
次に、ピッチ波形対応付けステップＳ３４２で、合成する目標の継続長にあわせるためにピッチ波形の数を揃える。

ピッチ波形の数は予め生成した目標ピッチマークの数に揃える。目標ピッチマークは、入力した基本周波数及び継続長から作成したものであり、合成音声のピッチ波形の中心時刻の系列である。

図３５にピッチ波形対応付けの処理を示す。図３５は、「あ」の左側の音声を合成する例であり、複数素片素片選択の結果として素片番号１，２，３の３つの素片が選択されたものとする。

目標のピッチマーク数は、９個であり、３つの素片はそれぞれ９個、６個、及び１０個のピッチ波形を含んでいる。このとき、ピッチ波形対応付けステップＳ３４２では、各音声素片のピッチ波形の数を目標とするピッチマーク数に揃えるために、ピッチ波形のコピーまたは削除を行う。音声素片１は同数のためそのまま用い、音声素片２は、４番目及び５番目のピッチ波形をコピーすることにより９個に揃えている。また音声素片３は、９番目のピッチ波形を削除することにより揃えている。

このようにピッチ波形の個数を揃え、各スペクトルパラメータの融合処理を行う。すなわち、ピッチ波形の対応づけを行ったスペクトルパラメータから、Ａ−１からＡ−９までの融合音声素片Ａの各スペクトルパラメータを生成する。

（１１−１−２）ステップＳ３４３
次に、スペクトル包絡パラメータ平均化ステップＳ３４３で、スペクトル包絡パラメータの平均化を行う。

図３６はこの様子を示している。スペクトル包絡パラメータ１から３までの各次元の値の平均値を求めて、平均スペクトル包絡パラメータＡ’を求めている。

ｃ’（ｔ）は平均スペクトル包絡パラメータであり、ｃ_ｉ（ｔ）はｉ番目の音声素片のスペクトル包絡パラメータである。Ｎ_Ｆは融合音声素片の個数である。

なお、ここでは各次元の値をそのまま平均化したが、ｎ乗して平均化しｎ乗根を求めたり、指数を求めて平均化して対数を計算することなどにより求めてもよい。また所定の重みづけした平均化を行ってもよい。

このように、スペクトル包絡パラメータ平均化ステップＳ３４３では各音声素片のスペクトル包絡パラメータから平均スペクトル包絡パラメータを求める。

（１１−１−４）ステップＳ３４４
次に、高域音声素片選択ステップＳ３４４では、平均スペクトル包絡パラメータに最も近い音声素片を、選択された複数の音声素片のなかから選択する。

平均スペクトル包絡パラメータと、各音声素片のスペクトル包絡パラメータとの歪みを計算し、歪みの最も小さい音声素片を選択する。

歪みとしては、パラメータの二乗誤差を用いることができる。音声素片全体の平均歪みを計算し、平均歪みを最小化する音声素片を選択する。

上記した例では、音声素片１が平均スペクトル包絡パラメータからの二乗誤差最小の素片として選択される。

（１１−１−５）ステップＳ３４５
高域置換ステップＳ３４５では、平均スペクトル包絡パラメータの高域部分を広域音声素片選択ステップＳ３４４で選択した音声素片のパラメータに置き換える。

置き換え処理として、まず境界周波数（境界次数）の抽出を行う。境界周波数は、ここでは低域からの振幅の累積値に基づいて決定する。

この場合、まず、振幅スペクトルの累積値ｃｕｍ_ｊ（ｔ）を求める。

ｃ_ｊ ^ｐ（ｔ）はスペクトル包絡パラメータであり、対数スペクトル領域から振幅スペクトル領域に変換した値を用いている。ｔはピッチマーク番号であり、ｊは素片番号、ｐは次元であり、Ｎはスペクトル包絡パラメータの次元数である。

このように全次数の累積値を求め、予め定めた比率λを用いて、低域からの累積値がλ・ｃｕｍ_ｊ（ｔ）より小さくなる最大の次数ｑを求める。

これにより、振幅に基づいた境界の抽出を行うことができる。ここではλ＝０．９７としている。λは例えば有声摩擦音では小さい値に設定し、低域よりの境界周波数が得られるようにしてもよい。上記した例では境界次数として、（２７，２７，３１，３２，３５，３１，３１，２８，３８）の次元が選ばれている。

次に、実際に高域の置換を行って、融合スペクトル包絡パラメータを生成する。

混合の際は、１０点程度の幅で滑らかに変化するように重みを定め、重みづけ和を求めることにより混合する。

高域置換の例を図３７に示す。

平均スペクトルパラメータＡ’の低域部分と、選択された音声素片（音声素片１）のスペクトルパラメータの高域部分を混合し、融合スペクトル包絡パラメータを得ている。高域の置換処理により、平均スペクトルパラメータＡ’では高域部分が滑らかになっているのに対し、高域のスペクトルの山や谷を持つ、自然なスペクトル包絡パラメータが生成されている。以上の処理によって、融合スペクトル包絡パラメータが得られる。

これにより、低域は平均化されるために安定し、広域は選択された素片の情報を用いるために肉声間を保持したスペクトル包絡パラメータが得られる。

（１１−１−６）ステップＳ３４６
次に、位相スペクトルパラメータ融合ステップＳ３４６では、スペクトル包絡パラメータと同様に、選択された複数の位相スペクトルパラメータから融合位相スペクトルパラメータを作成する。

スペクトル包絡パラメータと同様に、平均化及び高域の置換によって位相スペクトルパラメータの融合を行う。

位相スペクトルパラメータの融合の際は、適宣位相のアンラップ処理を行い、アンラップした位相スペクトルパラメータから平均位相スペクトルパラメータを求め、高域の置換を行って、生成することができる。

位相スペクトルパラメータを融合した例を図３８に示す。スペクトル包絡パラメータの融合と同様にピッチ波形数を揃え、各ピッチマークに対応した位相スペクトルパラメータに対し、平均化と高域置換の処理により生成している。

位相スペクトルパラメータの生成は、平均化と高域混合に限定するものはなく、他の生成方法を用いてもよい。例えば、音素中心の複数の音声素片の位相スペクトルパラメータから音素中心の融合位相スペクトルパラメータを作成し、音素間は融合位相スペクトルパラメータを補間することにより生成してもよい。さらに、補間して生成した位相スペクトルパラメータの高域部分を各ピッチマーク位置において選択された位相スペクトルパラメータの高域部分に置換してもよい。

これにより、低域部は不連続感の少ない滑らかな位相スペクトルパラメータを生成することができ、高域部分は肉声間の高いパラメータを得ることができる。

（１１−１−７）ステップＳ３４７
融合音声素片出力ステップＳ３４７において、上記のようにして得られた融合スペクトル包絡パラメータ、及び、融合位相スペクトルパラメータを、出力することにより、融合音声素片が作成される。

このように、第１の実施形態の生成装置によって得られるスペクトル包絡パラメータは、帯域に応じた高域置換のような処理を容易に行うことができるため、複数音声素片選択・融合型音声合成に好適なスペクトルパラメータになる。

（１２）融合音声素片編集・接続部２８６
次に、融合音声素片編集・接続部２８６では、上記したスペクトルパラメータに対し、素片境界における平滑化を行い、得られたスペクトルパラメータから、第２の実施形態に基づく音声合成装置の処理と同様に、ピッチ波形を生成し、入力したピッチマーク位置を中心としてピッチ波形の重畳処理を行い、音声波形を生成する。

融合音声素片編集・接続部２８６の処理は、図３９に示すようになる。

融合音声素片作成部２８５において生成された融合音声素片を入力する融合音声素片入力ステップＳ３９１と、音声素片の接続境界において、融合音声素片を平滑化する融合音声素片平滑化ステップＳ３９２と、得られた融合音声素片のスペクトルパラメータからピッチ波形を生成するピッチ波形生成ステップＳ３９３と、ピッチマークにあわせて波形を重畳する波形重畳ステップＳ３９４と、得られた音声波形を出力する音声波形出力ステップＳ３９５の処理を行う。

（１２−１）ステップＳ３９２
融合音声素片平滑化ステップＳ３９２では、素片の境界におけるスムージングを行う。

融合スペクトル包絡パラメータのスムージングは隣の素片の端に対応する融合スペクトル包絡パラメータとの重みづけ和により行うことができる。

平滑化に用いるピッチ波形数ｌｅｎを定め、以下のように直線の補間でスムージングを行うことができる。

但し、ｃ’（ｔ）は平滑化した融合スペクトル包絡パラメータ、ｃ（ｔ）は融合スペクトル包絡パラメータ、ｃ_ａｄｊ（ｔ）は隣接する素片の端点における融合スペクトル包絡パラメータであり、ｗは平滑化重み、ｔは接続境界からの距離を表している。

位相スペクトルパラメータの平滑化も同様に行うことができるが、位相は時間方向にアンラップしてから平滑化してもよい。

また、直線の重みづけによる平滑化ではなく、スプライン平滑化など他の平滑化手法により平滑化してもよい。

第１の実施形態におけるスペクトル包絡パラメータは、各次元が同一の周波数帯域の情報を表しているため、パラメータの対応づけ等の処理を行わずに各次数の値に対してそのまま平滑化処理を行うことができる。

（１２−１）ステップＳ３９３
次に、ピッチ波形生成ステップＳ３９３では、平滑化して得られたスペクトル包絡パラメータ及び位相スペクトルパラメータからピッチ波形を生成し、波形重畳ステップでは、目標のピッチマークに合わせて波形重畳を行う。

これらの処理は、本発明の第２の実施形態における音声合成装置の処理により行うことができる。

実際、融合及び平滑化したスペクトル包絡パラメータと位相スペクトルパラメータからスペクトルを再生し、式（２３）により逆フーリエ変換によりピッチ波形を生成する。不連続を避けるために逆フーリエ変換した後に端に短い窓をかけてもよい。

これによりピッチ波形が生成される。生成されたピッチ波形は、目標とするピッチマークに合わせ重畳され、音声波形が得られる。

図４０にこれらの処理を示す。

上から平滑化融合スペクトル包絡パラメータから、式（２）により生成した対数スペクトル、平滑化融合位相スペクトルパラメータから式（１５）により生成した位相スペクトル、それらを式（２３）により逆フーリエ変換して求めたピッチ波形を表し、さらにピッチマーク位置に波形重畳することにより得られた音声波形を示している。

（１３）出力
以上の処理により、複数音声素片選択・融合型の音声合成において、第１の実施形態に基づくスペクトル包絡パラメータ及び位相スペクトルパラメータを用いて任意の文章に対応する音声波形を生成することができる。

なお、上記した処理は有声音の波形に対する合成処理を示しているが、無声音のセグメントは、無声音の波形をそのまま継続長変形して接続して合成してもよい。

以上の処理により生成した音声波形は、音声波形出力部２７５において、出力される。

（１４）変更例
次に、第３の実施形態の音声合成装置の変更例について図４１に基づいて説明する。

上記した音声合成装置は、複数素片選択・融合方式に基づく音声合成装置を示しているが、これに限定するものではない。すなわち、本変更例では、最適音声素片を選択し、韻律変形及び接続を行うことにより音声を合成する素片選択に基づく音声合成装置である。

図４１に示すように、本変更例に基づく音声合成装置は、図２８の音声合成装置の複数素片選択部２８５が、音声素片選択部４１１になり、融合音声素片作成部２８５の処理がなくなり、融合音声素片編集接続部２８６が、音声素片編集接続部４１２になる。

音声素片選択部４１１では、各セグメントに対して、最適な素片を選択し、選択した素片を音声素片編集・接続部にわたす。最適素片は、複数音声素片選択部２８４のステップＳ３３２と同様に、最適素片系列を求めることにより得られる。

音声素片編集接続部４１２では、音声素片の平滑化・ピッチ波形生成及び重畳を行うことで音声を合成する。このとき、平滑化の処理に第１の実施形態に基づく生成装置により得られたスペクトル包絡パラメータを用い、融合音声素片編集・接続部２８６のステップＳ３９２の処理と同様に行う。

これにより、高品質な平滑化を行うことができる。

また、平滑化したスペクトル包絡パラメータを用いて、ステップＳ３９３からステップＳ３９５の処理と同様に、ピッチ波形を生成し、波形重畳を行うことにより音声が合成される。

これにより、素片選択型の音声合成装置において、適切に平滑化された音声を合成することが可能になる。

（１５）効果
以上により、本実施形態に基づく音声合成装置は、第１の実施形態に基づく生成装置により得られたスペクトル包絡パラメータを用いて、スペクトルパラメータの平均化と高域の置換、及びスペクトルパラメータによる平滑化を適切に行うことができる。また、帯域に応じた処理を容易に行うことのできる特徴を利用して、高品質な合成音声を効率的に生成することが可能となる。

（変更例）
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。

また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。

さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

例えば、上記実施形態においては、スペクトル包絡情報として、対数スペクトル包絡を用いているが、これに限定するものではなく、振幅スペクトルもしくはパワースペクトルによるスペクトル包絡情報を用いることができる。

本発明の第１の実施形態に係わる生成装置の構成を示すブロック図である。音声フレーム抽出部の動作を示すフローチャートである。包絡抽出部の動作を示すフローチャートである。局所基底作成部の動作を示すフローチャートである。パラメータ算出部の動作を示すフローチャートである。生成装置の処理を説明するための音声データの例を示す図である。音声フレーム抽出部の処理を説明するための図である。周波数スケールの例を示す図である。局所基底の例を示す図である。スペクトル包絡パラメータの生成例を示す図である。非負最小二乗法を用いる場合のパラメータ算出部の動作を示すフローチャートである。位相スペクトルパラメータ算出部を含む場合の生成装置の構成を示すブロック図である。位相スペクトル抽出部の動作を示すフローチャート位相スペクトル算出部の動作を示すフローチャート位相スペクトルパラメータの生成例を示す図である。スパースコーディングによって局所基底を作成する場合の局所基底作成部の動作を示すフローチャートである。スパースコーディングによって作成した局所基底の例を示す図である。固定フレームレート、固定窓長によって分析を行う場合の音声フレーム抽出部の動作を示すフローチャートである。固定フレームレート、固定窓長によって分析を行う場合の音声フレーム抽出部の処理を説明をするための図である。固定フレームレート、固定窓長によって分析を行う場合のスペクトル包絡パラメータの生成例を示す図である。スペクトル包絡パラメータの量子化を行う場合のスペクトル包絡パラメータ出力ステップＳ５３の動作を示すフローチャートである。量子化スペクトル包絡及び量子化位相スペクトルの例を示す図である。第２の実施形態に係わる音声合成装置の構成を示すブロック図である。スペクト包絡生成部の動作を示すフローチャートである。ピッチ波形生成部の動作を示すフローチャートである。音声合成装置の処理の例を示す図である。第３の実施形態に係わる音声合成装置の構成を示すブロック図である。音声合成部の構成を示すブロック図である。生成装置におけるスペクトル包絡パラメータ生成の例を示す図である。音声素片記憶部の例を示す図である。音素環境記憶部の例を示す図である。音声データから音声素片を得るための手順を説明するための図である。複数音声素片選択部の動作を示すフローチャートである。融合音声素片作成部の動作を示すフローチャートである。ピッチ波形対応付けステップＳ３４２の処理の例を示す図である。スペクトル包絡パラメータ平均化ステップＳ３４３の処理の例を示す図である。高域置換ステップＳ３４５の処理の例を示す図である。位相スペクトルパラメータ融合ステップＳ３４６の処理の例を示す図である。融合音声素片編集・接続部の動作を示すフローチャートである。融合音声素片編集・接続部の処理の例を示す図である。第３の実施形態に係わる音声合成装置の構成の変更例を示すブロック図である。

符号の説明

１１音声フレーム抽出部
１２対数スペクトル包絡抽出部
１３スペクトル包絡パラメータ算出部
１４局所基底作成部
１５局所基底保持部

Claims

音声信号をフレーム単位に分割するフレーム抽出部と、
前記フレームから、スペクトルの微細構造成分を除いたスペクトルであるＬ次のスペクトル包絡情報を抽出する情報抽出部と、
（１）前記Ｌ次のスペクトル包絡情報によって形成される空間の部分空間の基底であって、（２）前記各基底は、音声のスペクトル領域内で単一の最大値を与えるピーク周波数を含む任意の周波数帯域に値が存在し、前記周波数帯域の外側における値が零であって、（３）前記ピーク周波数が隣接する前記２つの基底に関するそれぞれの値が存在する周波数帯域が重なるものであって、（４）前記基底をＮ個（Ｌ＞Ｎ＞１）格納する基底保持部と、
前記各基底と前記各基底にそれぞれ対応する基底係数の線形結合と、前記スペクトル包絡情報との歪み量を、前記基底係数を変化させて最小化させ、この最小化したときの前記基底係数の集まりを、前記スペクトル包絡情報のスペクトル包絡パラメータとするパラメータ算出部と、
を備えた音声処理装置。
前記基底保持部に格納する前記基底を作成する基底作成部を備え、
前記基底作成部は、
前記スペクトル領域内で前記ピーク周波数を複数決定するピーク決定部と、
隣接する前記ピーク周波数の外側は値を零とし、隣接する前記ピーク周波数の幅を長さとする単峰性の窓関数を作成する関数作成部と、
前記窓関数の形状を前記基底に設定する基底設定部と、
を備えた請求項１記載の音声処理装置。
前記ピーク決定部は、
（１）高い周波数になるほど広い間隔になるように前記ピーク周波数を決定するか、または、
（２）前記スペクトル領域内の任意の境界周波数より低い周波数帯域は、高い周波数になるほど広い間隔になるように前記ピーク周波数を決定し、前記境界周波数より高い周波数帯域は、等間隔になるように前記ピーク周波数を決定する、
請求項２記載の音声処理装置。
前記基底保持部に格納する前記基底を作成する基底作成部を備え、
前記基底作成部は、
前記基底作成用の音声信号から前記スペクトル包絡情報を抽出する作成情報抽出部と、
（１）前記スペクトル包絡情報に対応する前記スペクトル包絡パラメータと前記基底の線形結合との間の歪み量の和を表す誤差項と、前記基底の各基底係数を零に近づけるほど値が小さくなるものであって、前記基底係数の疎性を表す第１正則化項との和による第１評価関数、または、（２）前記誤差項と、前記第１正則化項と、前記基底の重心からの距離の大きい位置における値が大きくなるほど値が大きくなるものであって、前記基底の重心への集中度を表す第２正則化項とを加えた第２の評価関数のどちらか一方の評価関数の値を、前記スペクトル包絡パラメータと前記基底を変えることによって最小化する最小化部と、
前記評価関数の値が最小になっときの前記基底を、前記作成する基底に設定する基底設定部と、
を備えた請求項１記載の音声処理装置。
前記パラメータ算出部は、
前記歪み量が、前記各基底と前記各基底にそれぞれ対応する前記基底係数の線形結合と、前記スペクトル包絡情報との二乗誤差である、
請求項１記載の音声処理装置。
前記パラメータ算出部は、
前記基底係数の値が非負になる制約の下で、前記歪み量を最小化する、
請求項１記載の音声処理装置。
前記パラメータ算出部は、
前記スペクトル包絡パラメータの各次元に対し、量子化ビット数を割り当てる数決定部と、
前記スペクトル包絡パラメータの各次元に対し、量子化幅を決定する幅決定部と、
前記量子化ビット数と前記量子化幅に基づいて、前記スペクトル包絡パラメータの量子化を行う量子化部と、
を備えた請求項１記載の音声処理装置。
前記スペクトル包絡情報が、対数スペクトル包絡、位相スペクトル、振幅スペクトル包絡、または、パワースペクトル包絡である、
請求項１記載の音声処理装置。
複数の音声素片のピッチ波形に対応したＬ次のスペクトル包絡パラメータを保持するパラメータ保持部と、
前記複数の音声素片の属性情報を保持する属性情報保持部と、
入力されたテキストから得られる音韻系列を合成単位に区切る分割部と、
前記属性情報を用いて、前記各合成単位に対応する一または複数の音声素片を選択する選択部と、
前記選択された音声素片のピッチ波形に対応する前記スペクトル包絡パラメータを前記スペクトル包絡パラメータ保持部から取得する取得部と、
（１）Ｌ次のスペクトル包絡情報によって形成される空間の部分空間の基底であって、（２）前記各基底は、音声のスペクトル領域内で単一の最大値を与えるピーク周波数を含む任意の周波数帯域に値が存在し、前記周波数帯域の外側における値が零であって、（３）前記ピーク周波数が隣接する前記２つの基底に関するそれぞれの値が存在する周波数帯域が重なるものであって、（４）前記基底をＮ個（Ｌ＞Ｎ＞１）格納する基底保持部と、
前記基底と前記スペクトル包絡パラメータとの線形結合によりスペクトル包絡情報を生成する包絡生成部と、
前記スペクトル包絡情報から求めたスペクトルを逆フーリエ変換することによりピッチ波形を生成するピッチ生成部と、
前記ピッチ波形を重畳することにより音声素片を生成し、前記生成した音声素片を接続することにより音声波形を生成する音声生成部と、
を備えた音声合成装置。
前記取得部は、選択された前記音声素片が複数の場合には、前記各音声素片のスペクトル包絡パラメータをそれぞれ取得し、前記取得した複数のスペクトル包絡パラメータを、一つのスペクトル包絡パラメータに融合する融合部を、
を備えた請求項９記載の音声合成装置。
前記融合部は、
前記各音声素片のスペクトル包絡パラメータを時間方向に対応付ける対応付け部と、
前記対応付けられた各スペクトル包絡パラメータを平均化して平均化スペクトル包絡パラメータを求める平均化部と、
前記各音声素片から一つの代表音声素片を選択し、前記代表音声素片のスペクトル包絡パラメータを代表スペクトル包絡パラメータとして設定する代表選択部と、
前記代表スペクトル包絡パラメータ、または、前記平均スペクトル包絡パラメータから境界次数を決定する境界次数決定部と、
前記境界次数より低次のスペクトル包絡パラメータは平均スペクトル包絡パラメータを用い、前記境界次数より高次のスペクトル包絡パラメータは、前記代表スペクトル包絡パラメータを用いて、前記複数のスペクトル包絡パラメータを混合する混合部と、
を備えた請求項１０記載の音声合成装置。
音声信号をフレーム単位に分割するフレーム抽出ステップと、
前記フレームから、スペクトルの微細構造成分を除いたスペクトルであるＬ次のスペクトル包絡情報を抽出する情報抽出ステップと、
（１）前記Ｌ次のスペクトル包絡情報によって形成される空間の部分空間の基底であって、（２）前記各基底は、音声のスペクトル領域内で単一の最大値を与えるピーク周波数を含む任意の周波数帯域に値が存在し、前記周波数帯域の外側における値が零であって、（３）前記ピーク周波数が隣接する前記２つの基底に関するそれぞれの値が存在する周波数帯域が重なるものであって、（４）前記基底をＮ個（Ｌ＞Ｎ＞１）格納する基底保持ステップと、
前記各基底と前記各基底にそれぞれ対応する基底係数の線形結合と、前記スペクトル包絡情報との歪み量を、前記基底係数を変化させて最小化させ、この最小化したときの前記基底係数の集まりを、前記スペクトル包絡情報のスペクトル包絡パラメータとするパラメータ算出ステップと、
を備えた音声処理方法。
複数の音声素片のピッチ波形に対応したＬ次のスペクトル包絡パラメータを保持するパラメータ保持ステップと、
前記複数の音声素片の属性情報を保持する属性情報保持ステップと、
入力されたテキストから得られる音韻系列を合成単位に区切る分割ステップと、
前記属性情報を用いて、前記各合成単位に対応する一または複数の音声素片を選択する選択ステップと、
前記選択された音声素片のピッチ波形に対応する前記スペクトル包絡パラメータを前記スペクトル包絡パラメータ保持部から取得する取得ステップと、
（１）Ｌ次のスペクトル包絡情報によって形成される空間の部分空間の基底であって、（２）前記各基底は、音声のスペクトル領域内で単一の最大値を与えるピーク周波数を含む任意の周波数帯域に値が存在し、前記周波数帯域の外側における値が零であって、（３）前記ピーク周波数が隣接する前記２つの基底に関するそれぞれの値が存在する周波数帯域が重なるものであって、（４）前記基底をＮ個（Ｌ＞Ｎ＞１）格納する基底保持ステップと、
前記基底と前記スペクトル包絡パラメータとの線形結合によりスペクトル包絡情報を生成する包絡生成ステップと、
前記スペクトル包絡情報から求めたスペクトルを逆フーリエ変換することによりピッチ波形を生成するピッチ生成ステップと、
前記ピッチ波形を重畳することにより音声素片を生成し、前記生成した音声素片を接続することにより音声波形を生成する音声生成ステップと、
を備えた音声合成方法。
音声信号をフレーム単位に分割するフレーム抽出機能と、
前記フレームから、スペクトルの微細構造成分を除いたスペクトルであるＬ次のスペクトル包絡情報を抽出する情報抽出機能と、
（１）前記Ｌ次のスペクトル包絡情報によって形成される空間の部分空間の基底であって、（２）前記各基底は、音声のスペクトル領域内で単一の最大値を与えるピーク周波数を含む任意の周波数帯域に値が存在し、前記周波数帯域の外側における値が零であって、（３）前記ピーク周波数が隣接する前記２つの基底に関するそれぞれの値が存在する周波数帯域が重なるものであって、（４）前記基底をＮ個（Ｌ＞Ｎ＞１）格納する基底保持機能と、
前記各基底と前記各基底にそれぞれ対応する基底係数の線形結合と、前記スペクトル包絡情報との歪み量を、前記基底係数を変化させて最小化させ、この最小化したときの前記基底係数の集まりを、前記スペクトル包絡情報のスペクトル包絡パラメータとするパラメータ算出機能と、
をコンピュータによって実現する音声処理プログラム。
複数の音声素片のピッチ波形に対応したＬ次のスペクトル包絡パラメータを保持するパラメータ保持機能と、
前記複数の音声素片の属性情報を保持する属性情報保持機能と、
入力されたテキストから得られる音韻系列を合成単位に区切る分割機能と、
前記属性情報を用いて、前記各合成単位に対応する一または複数の音声素片を選択する選択機能と、
前記選択された音声素片のピッチ波形に対応する前記スペクトル包絡パラメータを前記スペクトル包絡パラメータ保持部から取得する取得機能と、
（１）Ｌ次のスペクトル包絡情報によって形成される空間の部分空間の基底であって、（２）前記各基底は、音声のスペクトル領域内で単一の最大値を与えるピーク周波数を含む任意の周波数帯域に値が存在し、前記周波数帯域の外側における値が零であって、（３）前記ピーク周波数が隣接する前記２つの基底に関するそれぞれの値が存在する周波数帯域が重なるものであって、（４）前記基底をＮ個（Ｌ＞Ｎ＞１）格納する基底保持機能と、
前記基底と前記スペクトル包絡パラメータとの線形結合によりスペクトル包絡情報を生成する包絡生成機能と、
前記スペクトル包絡情報から求めたスペクトルを逆フーリエ変換することによりピッチ波形を生成するピッチ生成機能と、
前記ピッチ波形を重畳することにより音声素片を生成し、前記生成した音声素片を接続することにより音声波形を生成する音声生成機能と、
をコンピュータによって実現する音声合成プログラム。