JP5159325B2

JP5159325B2 - 音声処理装置及びそのプログラム

Info

Publication number: JP5159325B2
Application number: JP2008002305A
Authority: JP
Inventors: 眞弘森田; 岳彦籠嶋
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2008-01-09
Filing date: 2008-01-09
Publication date: 2013-03-06
Anticipated expiration: 2028-01-09
Also published as: US20090177474A1; US8195464B2; JP2009163121A

Description

本発明は、テキスト音声合成を行う音声処理装置及びそのプログラムと、テキスト音声合成のときに用いる複数の音声素片を記憶する記憶部を作成する音声処理装置及びそのプログラムに関する。

任意の文章から人工的に音声信号を作り出すことを「テキスト音声合成」という。テキスト音声合成は、一般的に入力されたテキストの形態素解析や構文解析を行う言語処理部、アクセントやイントネーションの処理を行い、音韻系列・韻律情報（基本周波数、音韻継続時間長、パワーなど）を出力する韻律処理部及び音韻系列・韻律情報から音声信号を合成する音声合成部の３つによって行われる。この中の音声合成部で行われる音声合成方法は、韻律処理部で生成される任意の音韻系列を任意の韻律で音声合成する必要がある。

このような音声合成方法として、入力の音韻系列を分割して得られる複数の合成単位（合成単位列）のそれぞれに対し、入力された音韻系列・韻律情報を目標にして、予め記憶された大量の音声素片の中から音声素片を選択し、合成単位間で音声素片を接続することによって音声を合成する素片選択型の音声合成方法が知られている（例えば、特許文献１参照）。

特許文献１に記載される音声合成方法では、音声を合成することで生じる音声合成の劣化の度合いを表すコストをコスト関数として定義して、このコストが小さくなるように音声素片を選択する。例えば、音声素片を編集・接続することで生じる変形歪み及び接続歪みをコストを用いて数値化し、このコストに基づいて音声合成に使用する音声素片系列を選択し、選択した音声素片系列に基づいて合成音声を生成する。

特許文献１に記載される音声合成方法のように、音声を合成することで生じる音声合成の劣化の度合いを考慮して、大量の音声素片の中から適切な音声素片系列を選択することによって、素片の編集及び接続による音質の劣化を抑えた合成音声を生成することができる。

しかしながら、特許文献１に記載される素片選択型の音声合成方法には、部分的に合成音の音質が劣化する問題点がある。

この理由は次のようなものである。

第１の理由は、予め記憶された音声素片が非常に多い場合であっても、様々な音韻・韻律環境に対して適切な音声素片が存在するとは限らないことである。

第２の理由は、人が実際に感じる合成音声の劣化の度合いをコスト関数が完全に表現できないため、必ずしも最適な素片系列が選ばれない場合があるからである。

第３の理由は、音声素片が非常に多いために予め不良な音声素片を排除しておくことが困難であり、また不良な音声素片を取り除くためのコスト関数の設計も難しいため、選択された音声素片系列中に、突発的に不良な音声素片が混入する場合があるからである。

そこで、合成単位当たり１つずつの音声素片を選ぶのではなく、合成単位当たり複数個の音声素片を選択し、これを融合することによって新たな音声素片を生成し、こうして生成された音声素片を使って音声を合成する方法が開示されている（特許文献２参照。）。以下、この方法を「複数素片選択融合型の音声合成方法」と呼ぶ。

特許文献２に記載される複数素片選択融合型の音声合成方法では、合成単位毎に複数の音声素片を融合することによって、目標とする音韻・韻律環境に合う適切な音声素片が存在しない場合や、最適な音声素片が選択されない場合、不良素片が選択されてしまった場合でも、高品質な音声素片を新たに生成することができ、さらにこの新たに生成した音声素片を使用して音声合成を行うことで、前述した素片選択型の音声合成方法の問題点を改善することができ、より安定性を増した高音質の音声合成を実現することができる。
特開２００１−２８２２７８公報特開２００５−１６４７４９公報

しかしながら、特許文献２に記載されている音声素片の融合方法は、有声音中の特に周期的な成分（周期成分）に注目し、この成分を適切に平均化することを狙った方法である。

有声音は主に声帯振動による周期的なパルスが音源となって生成されるため、主な構成要素は周期成分であるが、実際には、声道中の狭い箇所や声門の隙間を呼気が通過する際に発生する乱気流が音源となって生成される非周期的な成分（非周期成分）や、声帯振動の周期性の揺らぎによって生じる非周期成分も混じっている。特に、有声摩擦音においては、非周期成分は音韻性を決める非常に重要な要素である。また、母音などにおいても、ハスキーな声や吐息を乗せた話し方をする人の声には比較的大きな非周期成分が含まれており、音韻性には直接影響しないものの話者性を決める重要な要素でもある。

このように周期成分と非周期的な成分（非周期成分）が混じった実際の有声音の音声素片を融合すると、素片間で相関のない非周期成分は打ち消されて減衰してしまったり、ランダムであるべき非周期成分の位相が部分的に揃ってしまうことによって、肉声感が損なわれたり、ノイズが生じるという問題点がある。

また、融合した音声素片を重畳して合成波形を生成する際に、合成したい継続時間長が音声素片の継続時間長よりも長い場合には、音声素片中のピッチ波形を繰り返すことによって音声素片を引き伸ばす必要があるが、このときに、ピッチ波形の中に含まれる非周期成分が繰り返されて不自然な周期性が生じることによってバジー感が生じ、音質の自然性が下がってしまう問題点がある。

そこで本発明は、上記従来技術の問題点を解決するためになされたものであって、複数素片選択融合方式による安定感を保持したまま、肉声感の高い合成音声を生成できる音声合成装置及びそのプログラムの提供を目的とする。

本発明は、テキスト音声合成を行う音声処理装置において、目標音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントと、前記目標音声に対応する前記各セグメントの韻律情報を受け付ける入力部と、前記複数のセグメントのそれぞれに対し、前記各韻律情報に基づいて音声素片群から複数の第１の音声素片を選択する素片選択部と、前記複数のセグメントのそれぞれに対し、前記複数の第１の音声素片のそれぞれを周期成分と非周期成分に分離する分離部と、前記複数のセグメントのそれぞれに対し、前記複数の第１の音声素片の周期成分を融合することによって、第２の音声素片を生成する周期成分融合部と、前記複数のセグメントのそれぞれに対し、前記複数の第１の音声素片の非周期成分を融合することによって、第３の音声素片を生成する非周期成分融合部と、前記複数のセグメントのそれぞれに対して生成された前記第２の音声素片と第３の音声素片とからそれぞれ得られる音声波形を加算しながら、前記セグメント間で接続することによって合成音声を生成する生成部と、を備え、前記非周期成分融合部は、前記複数のセグメントのそれぞれに対し、前記複数の第１の音声素片の非周期成分から、前記複数の非周期成分のスペクトルの特徴を代表的に表すような融合スペクトルパラメータを生成する第１の生成部と、前記複数の非周期成分のパワーの時間的変化を代表的に表すような融合残差パワー包絡を生成する第２の生成部と、前記融合スペクトルパラメータと前記融合残差パワー包絡を前記第３の音声素片として出力する出力部と、備え、前記生成部は、前記複数のセグメントのそれぞれに対し、前記融合スペクトルパラメータと前記融合残差パワー包絡とから前記第３の音声素片の前記音声波形を生成して、前記第２の音声素片から得られる前記音声波形と加算する、音声処理装置である。

また、本発明は、テキスト音声合成を行う音声処理装置において、目標音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントと、前記目標音声に対応する前記各セグメントの韻律情報を受け付ける入力部と、複数の音声素片の素片環境を記憶する環境記憶部と、前記各音声素片の波形データを周期成分と非周期成分とに分けてそれぞれ保持する素片記憶部と、前記複数のセグメントのそれぞれに対し、前記各韻律情報を基に、前記環境記憶部から複数の第１の音声素片の素片環境を選択する環境選択部と、前記複数のセグメントのそれぞれに対し、前記複数の第１の音声素片の素片環境から前記第１の音声素片の周期成分を前記素片記憶部から取り出し、これらの各周期成分を融合することによって、第２の音声素片を生成する周期成分融合部と、前記複数のセグメントのそれぞれに対し、前記複数の第１の音声素片の素片環境から前記第１の音声素片の非周期成分を前記素片記憶部から取り出し、これらの各非周期成分を融合することによって、第３の音声素片を生成する非周期成分融合部と、前記複数のセグメントの前記第２の音声素片と前記第３の音声素片とからそれぞれ得られる音声波形を加算しながら、前記セグメント間で接続することによって合成音声を生成する生成部と、を備え、前記非周期成分融合部は、前記複数のセグメントのそれぞれに対し、前記複数の第１の音声素片の非周期成分から、前記複数の非周期成分のスペクトルの特徴を代表的に表すような融合スペクトルパラメータを生成する第１の生成部と、前記複数の非周期成分のパワーの時間的変化を代表的に表すような融合残差パワー包絡を生成する第２の生成部と、前記融合スペクトルパラメータと前記融合残差パワー包絡を前記第３の音声素片として出力する出力部と、備え、前記生成部は、前記複数のセグメントのそれぞれに対し、前記融合スペクトルパラメータと前記融合残差パワー包絡とから前記第３の音声素片の前記音声波形を生成して、前記第２の音声素片から得られる前記音声波形と加算する、音声処理装置である。

本発明によれば、融合による非周期成分の減衰やノイズの発生、及び非周期成分が周期的に繰り返されることによって生じるバジー感を改善でき、複数素片選択融合方式による安定感を保持したまま肉声感の高い合成音声を生成できる。

以下、本発明の実施形態のテキスト音声合成装置（以下、単に「合成装置」という）を、図面を参照して説明する。

（第１の実施形態）
本発明の第１の実施形態に係る合成装置について図１〜図１３に基づいて説明する。

（１）合成装置の構成
合成装置の構成について図１に基づいて説明する。

合成装置は、テキスト入力部１と、テキスト入力部１から入力されるテキストの形態素解析・構文解析を行い、これらの言語解析結果を韻律処理部３へ出力する言語処理部２と、言語解析結果からアクセントやイントネーションの処理を行い、音韻系列・及び韻律情報を生成し、音声合成部へ出力する韻律制御部３と、音韻系列及び韻律情報から音声波形を生成して出力する音声合成部４を備えている。

次に、本実施形態の最も特徴とする音声合成部４を中心にその構成及び動作について詳細に説明する。

（２）音声合成部４の構成
図２は、音声合成部４の構成を示すブロック図である。

音声合成部４は、以下の各部４１〜４９を備えている。

音韻系列・韻律情報入力部（以下、単に「情報入力部」という）４１は、韻律制御部３から音韻系列・韻律情報が入力される
音声素片記憶部（以下、「素片記憶部」という）４２は、大量の音声素片が蓄積されている。

音声素片環境記憶部（以下、「環境記憶部」という）４３は、素片記憶部４２に蓄積された音声素片に対応する音韻・韻律環境が蓄積されている。

素片選択部４４は、素片記憶部４２に蓄積された音声素片の中から複数の音声素片を選択する。

周期・非周期成分分離部（以下、単に「分離部」という）４５は、素片選択部４４が選択した複数の音声素片のそれぞれを周期成分と非周期成分に分離する。

周期成分融合部４６は、分離部４５から得られた複数の音声素片の周期成分を融合して新たな周期成分の音声素片を生成する。

非周期成分融合部４７は、分離部４５から得られた複数の音声素片の非周期成分を融合して新たな非周期成分の音声素片を生成する。

素片加算・編集・接続部（以下、単に「加算部」という）４８は、周期成分融合部４６及び非周期成分融合部４７で生成された周期成分の音声素片及び非周期成分の音声波形を加算、変形及び接続して、合成音声の音声波形を生成する。

音声波形出力部４９は、加算部４８で生成した音声波形を出力する。

なお、各部４１〜４９の機能は、コンピュータに格納されたプログラムに実現できる。

次に、図２の各ブロックについて詳しく説明する。

（３）情報入力部４１
まず、情報入力部４１は、韻律制御部３から入力された音韻系列・韻律情報を素片選択部４４へ出力する。

ここで、音韻系列は、例えば音韻記号の系列である。また、韻律情報は、例えば基本周波数、音韻継続時間長、パワーなどである。

以下、情報入力部４１に入力される音韻系列と韻律情報を、それぞれ入力音韻系列と入力韻律情報と呼ぶ。

（４）素片記憶部４２
次に、素片記憶部４２は、合成音声を生成するときに用いる音声の単位（以下、「合成単位」という）の音声素片が大量に蓄積されている。

ここで、「合成単位」とは、音素あるいは音素を分割したもの（例えば、半音素など）の組み合わせ、例えば半音素、音素（Ｃ、Ｖ）、ダイフォン（ＣＶ、ＶＣ、ＶＶ）、トライフォン（ＣＶＣ、ＶＣＶ）、音節（ＣＶ、Ｖ）、などであり（Ｖは母音、Ｃは子音を表す）、これらが混在しているなど可変長であってもよい。

また、音声素片は、合成単位に対応する音声信号の波形もしくはその特徴を表すパラメータ系列などを表すものとする。

図３に、素片記憶部４２に蓄積される音声素片の例を示す。図３に示すように、素片記憶部４２には、各音素の音声信号の波形である音声素片が、この音声素片を識別するための素片番号と共に記憶されている。これらの音声素片は、別途収録された多数の音声データに対して音素毎にラベル付けし、ラベルにしたがって音素毎に音声波形を切り出したものである。

（５）環境記憶部４３
環境記憶部４３には、素片記憶部４２に記憶されている各音声素片に対応した音韻・韻律環境が蓄積されている。

ここで、「音韻・韻律環境」とは、対応する音声素片にとって環境となる要因の組み合わせである。

要因としては、例えば前記音声素片の音素名、先行音素、後続音素、後々続音素、基本周波数、音韻継続時間長、パワー、ストレスの有無、アクセント核からの位置、息継ぎからの時間、発声速度、感情などがある。

また、環境記憶部４３には、音声素片の始端・終端でのケプストラム係数など、音声素片の音響特徴のうち音声素片の選択に用いる情報も蓄積されている。

環境記憶部４３に蓄積される音声素片の音韻・韻律環境及び音響特徴量を総称して、以下では「素片環境」と呼ぶ。

図４に、環境記憶部４３に蓄積される素片環境の例を示す。図４に示す環境記憶部４３には、素片記憶部４２に蓄積される各音声素片の素片番号に対応して素片環境が記憶されている。ここでは、音韻・韻律環境として、音声素片に対応した音韻（音素名）、隣接音韻（ここでは前記音韻の前後それぞれ２音素ずつ）、基本周波数、音韻継続時間長が、音響特徴量として音声素片始終端のケプストラム係数が記憶されている。

なお、これらの素片環境は、音声素片を切り出す元になった音声データを分析して抽出することによって得られる。

また、図４では、音声素片の合成単位が音素である場合を示しているが、半音素、ダイフォン、トライフォン、音節、あるいはこれらの組み合わせや可変長であってもよい。

（６）非周期成分融合部４７
非周期成分融合部４７について図５に基づいて説明する。図５は、非周期成分融合部４７の構成の一例を示すブロック図である。

非周期成分融合部４７は、以下の各部４７１〜４７６を備えている。

複数素片非周期成分入力部４７１は、複数の音声素片の非周期成分が入力される。

線形予測分析部４７２は、入力された複数の非周期成分のそれぞれに対して線形予測分析を行い、複数の非周期成分のそれぞれについて線形予測係数及び線形予測残差を出力する。

線形予測係数融合部４７３は、線形予測分析部４７２から出力された複数の線形予測係数を融合して新たな線形予測係数を生成する。

残差パワー包絡抽出部４７４は、線形予測分析部４７２から出力された複数の線形予測残差のそれぞれから線形予測残差のパワー包絡を抽出する。

残差パワー包絡融合部４７５は、残差パワー包絡抽出部４７４で抽出された複数の残差パワー包絡を融合して新たな残差パワー包絡を生成する。

融合非周期成分素片出力部４７６は、線形予測係数融合部４７３及び残差パワー包絡融合部４７５で生成された融合線形予測係数と融合残差パワー包絡をセットにして融合非周期成分素片として出力する。

非周期成分融合部４７に含まれる各構成要素の具体的な動作については後述する。

（７）加算部４８
加算部４８について図６に基づいて説明する。図６は、加算部４８の構成の一例を示すブロック図である。

加算部４８は、以下の各部４８１〜４８７を備えている。

融合周期成分素片入力部４８１は、複数の音声素片の周期成分が融合されてできた融合周期成分素片が入力される。

融合非周期成分素片入力部４８２は、複数の音声素片の非周期成分が融合されてできた融合非周期成分素片が入力される。

白色雑音発生部４８３は、呼ばれる毎に異なった白色雑音を発生する。

音源波形生成部４８４は、白色雑音発生部４８３で生成された白色雑音を、融合非周期成分素片入力部４８２から入力された融合残差パワー包絡に従って振幅変調することによって非周期成分の音源波形を生成する。

線形予測フィルタ４８５は、融合非周期成分素片入力部４８２から入力された融合線形予測係数を用いて音源波形生成部４８４で生成された音源波形を線形予測フィルタリングすることによって融合非周期成分素片の音声波形を生成する。

素片加算部４８６は、融合周期成分素片入力部４８１から入力された融合周期成分素片の音声波形と線形予測フィルタ４８５から入力された融合非周期成分素片の音声波形を加算して新たな融合音声素片を生成する。

素片編集・接続部４８７は、素片加算部４８６で生成された融合音声素片を、韻律等を編集しながら接続して合成音声の音声波形を生成する。

加算部４８に含まれる各構成要素の具体的な動作については後述する。

次に、図２を用いて、音声合成部４の詳細な動作を説明する。

（８）素片選択部４４の動作
図２に示す情報入力部４１を介して素片選択部４４に入力された音韻系列は、合成単位毎に区切られる。以下、この区切られた合成単位を「セグメント」という。

素片選択部４４は、環境記憶部４３を参照し、各セグメントに対して融合する複数個の音声素片の組み合わせを選択する。

このときに素片選択部４４は、一般の素片選択型音声合成方法や従来の複数素片選択融合型音声合成方法と同様に、音声素片の選択の尺度として、各音声素片候補を用いて音声を合成した場合の合成音声と目標音声との歪みの大きさを間接的に表すコストを用い、このコストができるだけ小さくなるように融合する音声素片の組み合わせを選択する。

「目標音声」とは、音声を合成する際の目標となる（仮想的な）音声、すなわち、入力された音韻の並びと韻律を実現し、かつ、理想的に自然な音声をいう。

（８−１）コスト
コストは、大きく二種類のコストがある。

第１のコストは、対象の音声素片を目標の音韻・韻律環境で使用することによって生じる合成音声の目標音声に対する歪みの度合いを表す目標コストである。

第２のコストは、対象素片を隣接する音声素片と接続したときに生じる合成音声の目標音声に対する歪みの度合いを表す接続コストである。

具体的には、次の通りである。

目標コストとしては、音声素片が持つ基本周波数と目標の基本周波数の違い（差）によって生じる歪み（基本周波数コスト）、音声素片の音韻継続時間長と目標の音韻継続時間長の違い（差）によって生じる歪み（継続時間長コスト）、音声素片が属していた音韻環境と目標の音韻環境の違いによって生じる歪み（音韻環境コスト）などがある。接続コストとしては、音声素片境界でのスペクトルの違い（差）によって生じる歪み（スペクトル接続コスト）や、音声素片境界での基本周波数の違い（差）によって生じる歪み（基本周波数接続コスト）などがある。

（８−２）音声素片を選択する方法
コストを用いてセグメント当たり複数個の音声素片を選択する方法については特許文献２にその一例が記載されている。この選択方法の概要について図７のフローチャートを用いて、セグメント当たりＭ個の音声素片を選ぶ場合について説明する。

まず、ステップＳ１０１において、素片選択部４４は、入力された音韻系列を合成単位毎のセグメントに分割する。ここで、分割されたセグメントの数をＮとする。

次に、ステップＳ１０２において、素片記憶部４２に記憶されている音声素片群の中から、各セグメント１つずつの音声素片の系列を選択する。このときの選択においては、入力された目標の音韻系列・韻律情報と、環境記憶部４３の音声素片環境の情報を基に、系列としてのコストの総和（トータルコスト）が最小となるような音声素片の系列（最適素片系列）を求める。この最適素片系列の探索には、動的計画法（ＤＰ：ｄｙｎａｍｉｃｐｒｏｇｒａｍｍｉｎｇ）を用いることで効率的に行うことができる。

次に、ステップＳ１０３において、セグメント番号を表すカウンターｉに初期値「１」をセットする。

次に、ステップＳ１０４において、セグメントｉに対する各音声素片候補に対してコストを算出する。このときに用いるコストには、前記音声素片候補での目標コストと、前後のセグメントの最適音声素片（最適素片系列に含まれる音声素片）と前記音声素片候補との接続コストとの和を用いる。

次に、ステップＳ１０５において、ステップＳ１０４で算出したコストを用いて、コストの小さい上位Ｍ個の音声素片を選択する。

次に、ステップＳ１０６において、カウンターｉがＮ以下かどうかを判定する。Ｎ以下の場合（ステップＳ１０６のＹＥＳ）にはステップＳ１０７に進み、否の場合（ステップＳ１０６のＮＯ）には素片選択の処理を終了する。

次に、ステップＳ１０７において、カウンターｉの値を１つ増やして、ステップＳ１０４に進む。

（８−３）まとめ
このように、素片選択部４４は、各セグメントに対してＭ個ずつの音声素片を選択し、選択した音声素片を分離部４５に出力する。

素片選択部４４においてセグメント当たり複数個の音声素片を選択する方法は、上記した方法に限定する必要はなく、コストなどの何らかの評価尺度の下で適切な音声素片の組を選べる方法であれば、いかなる方法を用いても良い。

（９）分離部４５の動作
分離部４５は、素片選択部４４で各セグメントに対して選択された複数個の音声素片のそれぞれを素片記憶部４２から取り出し、各音声素片を周期成分と非周期成分に分離する。

ここで、本実施形態においては、「周期成分」とは基本周期毎にほぼ周期的に繰り返される波形成分で、周波数領域においては基本周波数の倍音成分（基本周波数の整数倍の位置にある成分）を構成する成分のことを指す。

一方、「非周期成分」とは、周期成分以外の波形成分を指すものとする。

（９−１）ＰＳＨＦ
音声波形を周期成分と非周期成分に分離する１つの方法として、ＰＳＨＦ（pitch-scaled harmonic filter）という方法が非特許文献１（P Jackson, 「Pitch-Scaled Estimation of Simultaneous Voiced and Turbulence-Noise Components in Speech」, IEEE Trans. Speech and Audio Processing, vol. 9, pp. 713-726, Oct. 2001）に開示されている。

このＰＳＨＦでは、周期的な波形から基本周期のＮ倍（通常Ｎ＝４あるいは３を用いる）の窓幅で窓かけ（通常、Ｈａｎｎｉｎｇ窓を用いる）して取り出した波形を、その長さを分析長として離散フーリエ変換（ＤＦＴ）すると、Ｎの整数倍番目（Ｎ＝４の場合、４、８、１２、．．．）の周波数ビンに倍音成分の大部分が現れることを利用して周期成分と非周期成分を分離する。具体的には、次のように行う。

まず、入力された音声波形中の各サンプル点において、基本周期のＮ倍の窓幅、かつ、その点を窓中心としたＨａｎｎｉｎｇ窓で窓かけして波形を取り出して、窓幅と同じ分析長でＤＦＴし、Ｎの整数倍番目の周波数ビンの成分を周期成分、残りの成分を非周期成分として分離する。

ここで分離された非周期成分は、Ｎの整数倍番目の周波数ビンのパワーが０で、その結果スペクトル包絡が不連続になっているため、非周期成分のスペクトル包絡が周波数方向に滑らかに変化するという前提の下で、周期成分の一部を非周期成分に再配分する（パワー補間）。

このようにして各サンプル点で取り出した周期成分と非周期成分を、それぞれ逆ＤＦＴして時間領域の波形にし、全サンプル点の周期成分波形と非周期成分波形をそれぞれ時間軸上で重畳（Overlap and Add）することによって、周期成分と非周期成分を再構成する。

（９−２）図８の説明
図８に、このＰＳＨＦを用いて実際の音声波形を周期成分と非周期成分に分離した例を示す。

符号５０は、元の音声波形で、実際には「は」と発声されている部分の一部である。一方、符号５１は、分離された周期成分の波形、符号５２は分離された非周期成分の波形である。

実際には、基本周波数やパワーの変化が激しい箇所において、周期成分の一部が非周期成分として分離されてしまう（すなわち周期成分の一部が非周期成分にリークする）問題があるものの、図８の例に示すように、この方法を用いることによって、周期成分と非周期成分への分離がおおむね良好に行えるため、本実施形態ではこの方法を用いることとする。

なお、無声音の内部など、周期性がなく基本周期が得られない部分については、ＰＳＨＦが適用できないため全ての成分を非周期成分に配分する。

（９−３）他の方法
但し、周期成分と非周期成分に分離する方法はこの方法に限定する必要はなく、Yegnanarayanaらの非特許文献２（B. Yagnanarayana, etc., 「An iterative algorithm for decomposition of speech signals into periodic and aperiodic components」, IEEE Trans. Speech Audio Processing, vol.6, pp. 1-11, Feb. 1998）によって開示されているＰＡＲＤ法（Periodic-Aperiodic Decomposition algorithm）など、高精度で周期成分と非周期成分に分離できる方法であれば、いかなる方法を用いてもよい。

また、一般的な有声音では、ある周波数より低い周波数帯域では周期成分が支配的であるのに対し、ある周波数より高い周波数帯域では逆に非周期成分が支配的であることが多いため、簡易的に、音声素片の波形をローパスフィルターなどによって、ある周波数より低い周波数成分（低域成分）と高い周波数成分（高域成分）に分け、低域成分を周期成分、高域成分を非周期成分としてもよい。

（９−４）まとめ
分離部４５は、上記のような方法を用いて、各セグメントに対して選択された複数個の音声素片のそれぞれを周期成分と非周期成分に分離し、得られた周期成分を周期成分融合部４６に出力し、非周期成分を非周期成分融合部４７に出力する。

（１０）周期成分融合部４６の動作
周期成分融合部４６は、それぞれのセグメント毎に、分離部４５から入力された複数個の音声素片の周期成分を融合して新たな音声素片（以下、「融合周期成分素片」という）を生成する。有声音の周期成分を融合する方法については、特許文献２に詳細が記載されている。その方法を図９及び図１０を用いて説明する。

図９は、有声音の周期成分波形を融合して新たな音声波形を生成する方法のフローチャートである。図１０は、あるセグメントに対して選択された３つの音声素片からなる素片組み合わせ候補６０を融合して新たな音声素片６３を生成する例を示す図である。

（１０−１）ステップＳ２０１
まず、ステップＳ２０１において、選択されたそれぞれの音声素片からピッチ波形を切り出す。

「ピッチ波形」とは、その長さが音声の基本周期の数倍程度で、それ自身は基本周期を持たない比較的短い波形であって、そのスペクトルが音声信号のスペクトル包絡を表すものである。

このようなピッチ波形を抽出する１つの方法として、基本周期同期窓を用いる方法があり、ここではこの方法を用いることとする。

具体的には、それぞれの音声素片の音声波形に対して基本周期間隔毎にマーク（ピッチマーク）を付し、このピッチマークを中心にして、窓長が基本周期の２倍のハニング窓で窓掛けすることによって、ピッチ波形を切り出す。図１３のピッチ波形系列６１は、素片組み合わせ候補６０の各音声素片から切り出して得られたピッチ波形の系列の例を示している。

（１０−２）ステップＳ２０２
次に、ステップＳ２０２において、それぞれの音声素片に対するピッチ波形の個数が、音声素片間で同一になるようにピッチ波形の数を揃える。

このときに、揃える対象となるピッチ波形の数は、目標の音韻継続時間長の合成音声を生成するために必要なピッチ波形数とするが、例えば最もピッチ波形数の多いものに揃えてもよい。

ピッチ波形の少ない系列は、系列に含まれるいくつかのピッチ波形を複製することによってピッチ波形数を増やし、ピッチ波形の多い系列は、系列中のいくつかのピッチ波形を間引くことによってピッチ波形数を減らす。図１３のピッチ波形系列６２は、ピッチ波形の数を６つに揃えた例を示している。

（１０−３）ステップＳ２０３
次に、ステップＳ２０３において、ピッチ波形数を揃えた後、それぞれの音声素片に対応するピッチ波形系列中のピッチ波形をその位置毎に融合することによって、新たなピッチ波形系列を生成する。

例えば、図１３で生成された新たなピッチ波形６３に含まれるピッチ波形６３ａは、ピッチ波形系列６２のうち、６番目のピッチ波形６２ａ，６２ｂ，６２ｃを融合することによって得られる。このようにして生成された新たなピッチ波形系列６３を、融合された音声素片とする。

ここで、ピッチ波形を融合する方法としては、次のような方法がある。

第１の方法は、単純にピッチ波形の平均を計算する方法である。

第２の方法は、ピッチ波形間の相関が最大になるよう時間方向に各ピッチ波形の位置を補正してから平均化する方法である。

第３の方法は、ピッチ波形を帯域分割して、帯域毎にピッチ波形間の相関が最大になるようピッチ波形の位置を補正して平均化した結果を、帯域間で足し合わせる方法である。

いずれの方法を用いても良いが、本実施形態では、最後に説明した第３の方法を用いる。

（１０−４）まとめ
周期成分融合部４６は、上記した方法を用いて、各セグメントについて、複数の音声素片の周期成分を融合して融合周期成分素片を生成し、加算部４８に出力する。

（１１）非周期成分融合部４７の動作
非周期成分融合部４７は、それぞれのセグメント毎に、分離部４５から入力された複数個の音声素片の非周期成分を融合して新たな音声素片（以下、「融合非周期成分素片」という）を生成する。

非周期成分の音声波形は、基本的に異なる音声素片間で相関が無いため、上記の周期成分の融合方法のように波形間で平均化すると振幅が減衰するだけでほとんど意味がない。そこで、本実施形態においては、音声生成モデルを用いることによって、非周期成分の音声波形を声道フィルタの特徴を表すパラメータと音源波形の特徴を表すパラメータに分離し、それぞれのパラメータについて融合を行うこととする。

ここでは音声生成モデルのシステム関数が全極型であると仮定し、線形予測分析を用いてこれらのパラメータを得ることとする。すなわち、線形予測分析によって得られる線形予測係数が声道フィルタの特徴を表し、線形予測残差が音源波形の特徴を表す。具体的に非周期成分を融合する方法については、図５を用いて説明する。

（１１−１）複数素片非周期成分入力部４７１
まず、複数素片非周期成分入力部４７１に入力された、セグメント当たり複数個の音声素片の非周期成分のそれぞれを、線形予測分析を行う単位に分割する。

線形予測分析を行う単位としては、固定長のフレーム単位でもよいが、本実施形態においては、非周期成分が取り出される元となった音声素片の音声波形に、基本周期間隔毎にマーク（ピッチマーク）付与されているので、この単位で分析する。

具体的には、ピッチマーク毎に、ピッチマーク位置を中心としたピッチ周期の２倍の窓幅のＨａｎｎｉｎｇ窓をかけて分析対象の波形を取り出す。

さらに、セグメントに対する複数の音声素片のそれぞれに対し、分析対象の単位を複製したり間引いたりすることによって、目標の音韻継続時間長の合成音声を生成するために必要なピッチ波形数になるように、複数の音声素片間で数を揃える。

無声音の内部など、周期性が無くピッチマークが付与されていない部分については、固定のフレーム単位で分析を行うこととする。

（１１−２）線形予測分析部４７２
次に、線形予測分析部４７２において、各音声素片の分析単位毎に線形予測分析するここで分析対象の音声波形をｓ（ｎ）、線形予測係数をα_ｋ（ｋ＝１，．．．，ｐ、ｐは分析次数）、線形予測残差をｅ（ｎ）とすると、これらの関係は以下の式（１）のように表される。

線形予測分析においては、式（１）において、線形予測残差ｅ（ｎ）の二乗平均を最小にするよう線形予測係数を求める。

この方法として、自己相関法、共分散法などいくつかの方法がよく知られているが、いずれの方法を用いてもよい。本実施形態では、分析次数ｐとしては、元の音声波形が２２ｋＨｚサンプリングの場合、２０程度の値を用いるものとする。

線形予測分析部４７２は、上記のように、線形予測分析によって、それぞれの非周期成分の各分析単位に対して線形予測係数と線形予測残差を算出し、線形予測係数を線形予測係数融合部４７３に、線形予測残差を残差パワー包絡抽出部４７４に出力する。

（１１−３）線形予測係数融合部４７３
次に、線形予測係数融合部４７３においては、線形予測分析部４７２から入力された複数の非周期成分の線形予測係数を、分析単位毎に融合することによって、これらの線形予測係数で表されるスペクトル特徴を平均的に表すような、新たな線形予測係数を生成する。

線形予測係数自体を複数の非周期成分間で単純に平均化しても、これらの係数が表すスペクトル特徴を平均化することになるとは限らないため、本実施形態においては、複数の線形予測係数を線スペクトル対（ＬＳＰ）領域で平均化することによって融合することにする。

具体的には、次のようにする。

第１に、それぞれの線形予測係数をいったん線スペクトル対に変換する。

第２に、得られた複数の線スペクトル対をｉ番目の係数毎に平均化する。

第３に、平均化した線スペクトル対を線形予測係数に戻すことによって、平均的な線形予測係数を得る。

線スペクトル対は一般に、ホルマント周波数と対応が優れているため、線スペクトル対領域で平均化することによって、複数の線形予測係数に共通するスペクトル特徴を、比較的良好に得ることができる。

但し、線形予測係数の融合方法は、この方法に限定する必要はない。例えば、線形予測係数から線形予測極を算出した後、複数の線形予測極を補間して平均的な線形予測極を得る方法など、他の方法を用いてもよい。

線形予測係数融合部４７３は、上記のようにして、融合によって新たな線形予測係数を生成し、融合非周期成分素片出力部４７６に出力する。

（１１−４）残差パワー包絡抽出部４７４
残差パワー包絡抽出部４７４は、線形予測分析部４７２から入力された複数の非周期成分の各分析単位での線形予測残差のそれぞれについて、残差のパワー包絡を抽出する。

本実施形態においては、残差のパワー包絡として短時間平均振幅の時間変化パターンを求める。図１１は、線形予測残差波形ｅ（ｎ）から、短時間平均振幅の時間変化パターンを求める方法を説明するためのフローチャートである。

ステップＳ３０１において、残差パワー包絡抽出部４７４は、まず残差波形ｅ（ｎ）の絶対値｜ｅ（ｎ）｜を算出する。

ステップＳ３０２において、｜ｅ（ｎ）｜に対してローパスフィルター（ＬＰＦ）を適用することによって、短時間平均振幅の時間変化パターンM（ｎ）を得ることができる。

本実施形態においては、ローパスフィルターには、窓関数を用いたＦＩＲフィルタを用い、窓関数ｗ（ｎ）には窓幅１１点の矩形窓を用いることとする。すなわち、本実施形態での短時間平均振幅は、｜ｅ（ｎ）｜の１１点での移動平均に相当する。

但し、残差のパワー包絡を求める方法は、上記した方法に限定する必要はない。例えば、ヒルベルト変換を用いた方法など、時間方向のパワー変化パターンが求められる方法であればいかなる方法を用いてもよい。

残差パワー包絡抽出部４７４は、上記のような方法で求められた、複数の非周期成分のそれぞれに対する線形予測残差のパワー包絡を、残差パワー包絡融合部４７５に出力する。

（１１−５）残差パワー包絡融合部４７５
残差パワー包絡融合部４７５では、残差パワー包絡抽出部４７４から入力された、複数の非周期成分のそれぞれに対する線形予測残差のパワー包絡を、分析単位毎に融合して、新たな残差のパワー包絡を生成する。

ここでのパワー包絡の融合は、パワー包絡間での相関が最大になるよう時間方向でのアラインメントを取りつつ平均化することによって行う。具体的には、図１２を用いて説明する。

図１２は、線形予測残差のパワー包絡を融合する方法を説明するフローチャートである。

このフローチャートでは、M個の残差パワー包絡を融合する方法を示しており、Ｐ_ｍ（ｎ）がｍ番目の残差パワー包絡、Ｐ_{ｆｕｓｅｄ}（ｎ）は融合した残差パワー包絡を表している。

まず、ステップＳ４０１において、カウンターｍの値を「１」に初期化する。

次に、ステップＳ４０２において、融合残差パワー包絡Ｐ_{ｆｕｓｅｄ}（ｎ）の全ての振幅を「０」に初期化する。

次に、ステップＳ４０３において、変数ｓｕｍＳｈｉｆｔの値を「０」に初期化する。

次に、ステップＳ４０４において、ｍ番目の残差パワー包絡Ｐ_ｍ（ｎ）と１番目の残差パワー包絡Ｐ_１（ｎ）の相関を計算し、相関が最大になるよう時間方向にシフトする。

次に、ステップＳ４０５において、融合残差パワー包絡Ｐ_{ｆｕｓｅｄ}（ｎ）にｍ番目の残差パワー包絡Ｐ_ｍ（ｎ）を加算する。

次に、ステップＳ４０４において、シフト量を変数ｓｕｍＳｈｉｆｔに加算する。

次に、ステップＳ４０７において、カウンターｍの値がＭ以下かどうかを判定し、Ｍ以下の場合（ステップＳ４０７のＹＥＳの場合）はステップＳ４０８に進み、否の場合（ステップＳ４０７のＮＯの場合）はステップＳ４０９に進む。

次に、ステップＳ４０８において、カウンターｍの値を１つインクリメントして、ステップＳ４０４に戻る。すなわち、ステップＳ４０４からステップＳ４０７の処理を、Ｍ個の残差パワー包絡の全てについて行う。

次に、ステップＳ４０９において、融合残差パワー包絡Ｐ_{ｆｕｓｅｄ}（ｎ）の振幅をMで除算する。

次に、ステップＳ４１０において、融合残差パワー包絡Ｐ_{ｆｕｓｅｄ}（ｎ）を、−ｓｕｍＳｈｉｆｔ／Ｍだけ時間方向にシフトして、全ての処理を終了する。

残差パワー包絡融合部４７５は、上記のように融合して得られた新たな残差パワー包絡を融合非周期成分素片出力部４７６に出力する。

但し、残差パワー包絡の融合の方法は、上記の方法に限定する必要はない。例えば、複数の残差パワー包絡を平均的に表すような残差パワー包絡が得られる方法であれば、いかなる方法を用いてもよい。

（１１−６）融合非周期成分素片出力部４７６
融合非周期成分素片出力部４７６は、線形予測係数融合部４７３から入力された融合線形予測係数と、残差パワー包絡融合部４７５から入力された融合残差パワー包絡の組を、融合非周期成分素片として、加算部４８に出力する。

（１２）加算部４８
次に、加算部４８の具体的な動作を、図６に基づいて説明する。

（１２−１）入力部４８１，４８２
加算部４８には、周期成分融合部４６からセグメント毎の融合周期成分素片が融合周期成分素片入力部４８１を介して入力される。

非周期成分融合部４７からセグメント毎の融合非周期成分素片が融合非周期成分素片入力部４８２を介して入力される。

（１２−２）音源波形生成部４８４
まず、融合非周期成分素片の融合残差パワー包絡を音源波形生成部４８４に入力する。

音源波形生成部４８４は、白色雑音発生部４８３で発生させた白色雑音波形を、入力された融合残差パワー包絡で振幅変調することによって、融合非周期成分素片の音源波形を生成する。

本実施形態においては、融合残差パワー包絡は、各セグメントに対する融合非周期成分素片中のピッチマーク毎（無声音の場合は固定長のフレーム毎）に持っているため、音源波形の生成も実際にはピッチマーク毎に行う。

具体的には、白色雑音波形の振幅変調は、あるピッチマーク用に発生した白色雑音波形に、融合残差パワー包絡を掛けることによって行う。白色雑音波形は、白色雑音発生部４８３において、ピッチマーク毎に異なるように生成される。その結果、音源波形生成部４８４で結果的に生成される融合非周期成分素片の音源波形は、異なるピッチマーク間で相関の無いものになる。

このようにして生成された融合非周期成分素片の音源波形は、線形予測フィルタ部４８５に出力される。

（１２−３）線形予測フィルタ部４８５
線形予測フィルタ部４８５は、音源波形生成部４８４で生成された融合非周期成分素片の音源波形を、融合非周期成分素片入力部４８２から入力された融合線形予測係数を用いて線形予測フィルタリングすることによって、融合非周期成分素片の音声波形を生成する。

（１２−３−１）パワーの補償
ここで、上記のように生成された融合非周期成分素片の音声波形のパワーは、融合元の非周期成分波形の平均的なパワーよりも小さくなってしまう場合がある。融合残差パワー包絡が、融合元のそれぞれの非周期成分で線形予測分析して得られた残差から求められているため、融合線形予測係数を用いて線形予測分析した場合の残差のパワーよりも小さくなっている可能性が高いためである。

そこで、線形予測フィルタ部４８５において、融合から合成の過程で非周期成分波形に起こる上記のようなパワー変化を補償するような後処理を行ってもよい。

パワーの補償は、非周期成分融合部４７において融合元の非周期成分波形の平均パワーを予め求めておき、線形予測フィルタ部４８５では、融合非周期成分素片の音声波形を生成した後で、その波形のパワーを算出し、パワーが上記の平均パワーになるように、生成された音声波形全体に一律のゲインをかけることによって実現できる。

（１２−３−２）ホルマント強調
また、上記のように生成された融合非周期成分素片の音声波形は、非周期成分の融合の影響によって、融合元の非周期成分波形よりもスペクトル包絡がなまってしまい、いくつかのホルマントが弱められてしまった結果、明瞭感が下がってしまう場合がある。

そこで、非周期成分融合部４７において、ホルマント強調などの後処理を行ってもよい。例えば、J. Chenらの非特許文献３（J. Chen, etc., 「Adaptive Postfiltering for Quality Enhancement of Coded Speech」, IEEE Trans. Speech and Audio Processing, vol. 3, Jan 1995）によって開示されている、ホルマント強調を行うためのポストフィルタを用いて、生成された音声波形をフィルタリングすることによって、スペクトル包絡中のホルマントを強調し、融合による明瞭性の低下を補償することができる。

（１２−３−３）まとめ
上記のように線形予測フィルタ部４８５で生成された融合非周期成分素片の音声波形は、素片加算部４８６に出力される。

（１２−４）素片加算部４８６
素片加算部４８６は、融合周期成分素片入力部４８１から入力された融合周期成分素片の音声波形と、線形予測フィルタ部４８５から入力された融合非周期成分素片の音声波形を加算して、新たな音声素片を生成する。

このときに本実施形態においては、融合周期成分素片の音声波形と融合非周期成分素片の音声波形を、ピッチ波形毎に単純に加算する。

しかし、素片加算部４８６に両成分を加算する際の比率を何らかの値に基づいて変えてもよい。例えば、素片加算部４８６の外部から「気息性（breathiness、声門での息漏れ）の度合い」を「普通」、「強め」、「弱め」などで指定できるようになっている場合、指定された「気息性の度合い」に応じて、「普通」の場合は単純に加算するが、「強め」の場合は融合非周期成分素片の音声波形に１．３倍のゲインを掛けてから加算する。この場合、ややハスキーな声などを容易に作ることができ、合成音声の音質の可制御性を高めることができる。素片加算部４８６は、上記のようにして生成した新たな音声素片を素片編集・接続部４８７に出力する。

（１２−５）素片編集・接続部４８７
素片編集・接続部４８７は、素片加算部４８６から渡されたセグメント毎の音声素片を、入力韻律情報に従って変形して接続することによって、合成音声の音声波形を生成する。

図１３は、素片編集・接続部４８７での処理を説明するための図である。図１３には、素片加算部４８６で生成された、音素「ａ」「Ｎ」「ｓ」「a」「a」の各合成単位に対する音声素片を、変形・接続して、「ａＮｓａａ」という音声波形を生成する場合を示している。

この例では、有声音の音声素片はピッチ波形の系列で表現されている。一方、無声音の音声素片は、フレーム毎の波形として表現されている。

図１３の点線は、目標の音韻継続時間長に従って分割した音素毎のセグメントの境界を表し、白い三角は、目標の基本周波数に従って配置した各ピッチ波形を重畳する位置（ピッチマーク）を示している。

図１３のように、有声音については音声素片のそれぞれのピッチ波形を対応するピッチマーク上の重畳し、無声音については各フレームの波形をセグメント中の各フレームに対応する部分に貼り付ける（フレームの長さは音源波形生成部４８４において所望の音韻継続時間調に合わせて伸縮されている）ことによって、所望の韻律（ここでは、基本周波数、音韻継続時間長）を持った音声波形を生成する。

（１２−６）まとめ
上記のようにして加算部４８で生成された合成音声の音声波形は、音声波形出力部４９から出力される。

（１３）効果
以上のように本実施形態によれば、合成単位辺り複数個選択された音声素片を周期成分と非周期成分とに分けてそれぞれの成分に適した方法で融合して両成分を足し合わせることによって、融合による非周期成分の減衰やノイズの発生を防ぐことができる。

また、本実施形態によると、非周期成分の各ピッチ波形に対して異なる音源信号を用いることによって、非周期成分が周期的に繰り返されることによって生じるバジー感を改善でき、結果として、複数素片選択融合方式による安定感を保持したまま、肉声感の高い合成音声を生成できる。

（第２の実施形態）
本発明の第２の実施形態に係る音声合成部４について図１４に基づいて説明する。

（１）本実施形態の概要
第１の実施形態の音声合成部４は、分離部４５を内部に備えていて、周期・非周期成分の分離は音声素片の選択の後にオンラインで行われる。しかし、この周期・非周期成分の分離には非常に大きな計算量を要し、第１の実施形態は、実時間で合成波形を生成するような応用にはあまり適していない。

例えば、第１の実施形態において、周期成分と非周期成分に分離する手段として説明したＰＳＨＦでは、ＤＦＴを基本周期のＮ倍の分析長で行う必要があるため、高速フーリエ変換（ＦＦＴ）は使えず、現時点では大きく高速化できる手段がない。

そこで、本実施形態では、音声素片の音声波形を予めオフラインで周期成分と非周期成分に分離しておき、分離した周期成分と非周期成分を融合に用いる。

（２）音声合成部４の構成
図１４は、本実施形態の音声合成部４の構成を示すブロック図である。図１４を用いて、本実施形態について、第１の実施形態との違いを中心に説明する。

音声合成部４は、第１の実施形態の分離部４５は具備せず、素片記憶部４２の代わりに音声素片周期成分記憶部４２１と音声素片非周期成分記憶部４２２を備えている。

音声素片周期成分記憶部４２１には、各音声素片の周期成分のみが記憶されている。

音声素片非周期成分記憶部４２２には、各音声素片の非周期成分のみが記憶されている。

音声素片周期成分記憶部４２１及び音声素片非周期成分記憶部４２２に記憶されている各音声素片の周期成分及び非周期成分は、第１の実施形態の分離部４５で用いているのと同様の方法を用いて、予めオフラインで各音声素片の音声波形を周期成分と非周期成分に分離したものである。

（３）音声合成部４の動作
本実施形態における音声合成部４の動作について説明する。この音声合成部４の動作は、周期成分分離部４６と非周期成分４７の動作が若干違うのを除けば、第１の実施形態と同様である。以下、周期成分分離部４６と非周期成分分離部４７の動作の、第１の実施形態との違いについて説明する。

周期成分融合部４６は、素片選択部４４で各セグメントに対して選択された複数個の音声素片のそれぞれの周期成分を音声素片周期成分記憶部４２１から取り出して、音声素片の周期成分を融合する。周期成分の融合方法は、第１の実施形態で説明したのと同様である。

非周期成分融合部４７は、素片選択部４４で各セグメントに対して選択された複数個の音声素片のそれぞれの非周期成分を音声素片非周期成分記憶部４２２から取り出して、音声素片の非周期成分を融合する。非周期成分の融合方法についても、第１の実施形態で説明したのと同様である。

（４）効果
以上のように、本実施形態によれば、非常に計算量の大きい周期・非周期成分の分離を予めオフラインで行うので、第１の実施形態とほぼ同様の音質向上効果を、第１の実施形態よりもはるかに低い計算量で実現でき、実時間で合成波形を生成するような応用にも適用可能である。

（第３の実施形態）
本発明の第３の実施形態に係る音声合成部４について図１５に基づいて説明する。

第１、第２の実施形態においては、周期成分と非周期成分で共通の音声素片を選択するが、必ずしも両成分で共通の音声素片を選択する必要はない。

そこで、本実施形態では、それぞれの成分に適した音声素片を別々に選択する。

（１）音声合成部４の構成
図１５は、第３の実施形態の構成を示すブロック図である。図１５を用いて、本実施形態について、第２の実施形態との違いを中心に説明する。

本実施形態の音声合成部４は、素片選択部４４の代わりに、周期成分用素片選択部４４１と非周期成分用素片選択部４４２を備えている。

周期成分用素片選択部４４１は、各セグメントに対して周期成分の融合に適した音声素片を複数ずつ選択する。

非周期成分用素片選択部４４２は、各セグメントに対して非周期成分の融合に適した音声素片を複数個ずつ選択する。

（２）音声合成部４の動作
周期成分用素片選択部４４１と非周期成分用素片選択部４４２での音声素片の選択方法は、両選択部４４１，４４２で共通の方法を用いてもよいし、双方で全く異なる方法を用いてもよいが、共通の方法を用いる場合には、両選択部間でパラメータ設定などが異なることによって、両選択部で結果的に選択される音声素片が少なくとも一部のセグメントにおいて異なるものとする。

一例として、周期成分用素片選択部４４１と非周期成分用素片選択部４４２での音声素片の選択方法には、両選択部４４１，４４２とも第１の実施形態で説明したのと同様の方法を用いる。

しかし、音声素片の選択での評価尺度であるコストについて、周期成分用素片選択部４４１と非周期成分用素片選択部４４２との間でサブコストの重み付けの仕方を変えるという方法が考えられる。

例えば、周期成分については元の音声素片と合成時での基本周波数の違いや、素片間でのスペクトルの違いが最終的な合成音の音質に大きく影響するが、非周期成分では元の音声素片と合成時の音韻環境の違いが音質に大きく影響すると考えられるため、周期成分については基本周波数コストやスペクトル接続コストの重みを重めに設定するのに対し、非周期成分については音韻環境コストの重みを重めに設定するなどが考えられる。

（３）効果
以上のように本実施形態によれば、周期成分と非周期成分の音声素片をそれぞれの成分に合った方法で選択するので、第１、第２の実施形態よりも高い音質が実現できる。

（第４の実施形態）
本発明の第４の実施形態に係る音声合成部４について図１６と図１９に基づいて説明する。

（１）本実施形態の概要
第２の実施形態は比較的低い計算量で実現できるものの、そもそも音声素片の融合処理に比較的大きな計算量を要するため、ＣＰＵスペックが非常に低いローエンドのミドルウェア向けには、第２の実施形態でもまだ適用は困難である。

そこで、本実施形態では、音声素片の融合処理も予めオフラインで行っておき、融合された音声素片から適切なものを選択する。

（２）音声合成部４の構成
図１６は、本実施形態の音声合成部４の構成を示すブロック図である。図１６を用いて、本実施形態について、第２の実施形態との違いを中心に説明する。

本実施形態においては、音声合成部４は、第２の実施形態の音声合成部４が備えていた周期成分融合部４６と非周期成分融合部４７は具備しない。また、素片記憶部４２としては、融合済み周期成分素片記憶部４２３と融合済み非周期成分素片記憶部４２４を備えている。

融合済み周期成分素片記憶部４２３には、第１、２の実施形態の周期成分融合部４６において複数の音声素片の周期成分を融合することによって生成された融合済み周期成分素片が格納されている。

融合済み非周期成分素片記憶部４２４には、第１、２の実施形態の非周期成分融合部４７において複数の音声素片の非周期成分を融合することによって生成された融合済み非周期成分素片が格納されている。

融合済み周期成分素片記憶部４２３と融合済み非周期成分素片記憶部４２４に格納される融合済み周期成分素片及び融合済み非周期成分素片は、大量の文を第１、第２の実施形態の合成装置に入力したときに、周期成分融合部４６及び非周期成分融合部４７で実際に生成された融合済み周期成分素片及び融合済み非周期成分素片の中から、出現頻度の高い音声素片を抽出したものである。

（３）学習方法
次に、融合済み周期成分素片記憶部４２３と融合済み非周期成分素片記憶部４２４（まとめて、「両素片記憶部４２３，４２４」という）で融合済み周期成分素片と融合済み非周期成分素片を学習する方法について図１９に基づいて説明する。

図１９は、両素片記憶部４２３，４２４に格納する融合済み周期成分素片と融合済み非周期成分素片を抽出する方法を示すフローチャートである。

まず、ステップＳ５０１において、第１、２の実施形態の合成装置に対して、大量の文を入力する。なお、この合成装置には、周期成分融合部４６で生成される融合済み周期成分素片と非周期成分融合部４７で生成される融合済み非周期成分素片をそれぞれ出力する出力部が追加されている。

次に、ステップＳ５０２において、入力された各文の各セグメントに対して生成された融合済み周期成分素片と融合済み非周期成分素片が各融合部４６，４７から出力される。

次に、ステップＳ５０３において、外部から指定された両素片記憶部４２３，４２４に格納する音声素片の総数を、それぞれの素片種別に対していくつずつ配分するかを決める。ここで、素片種別とは、素片の音韻環境などで分類された種別を指す。例えば、素片種別／ａ／は、音素／ａ／に対応する素片のこととする。各素片種別に何個ずつ素片を配分するかは、各素片種別の素片の出現頻度などに応じて決める。例えば、素片種別／ａ／の素片が素片種別／ｕ／の素片よりも出現頻度が高い場合は、素片種別／ａ／に多めの素片を配分することとする。素片種別ｉに配分する素片の個数をＮ_ｉとする。

次に、ステップＳ５０４において、素片種別番号ｉに初期値１をセットする。

次に、ステップＳ５０５において、素片種別ｉの融合済み周期成分素片及び融合済み非周期成分素片を、ステップＳ５０２で出力された素片種別ｉの素片の中から、出現頻度が上位のものをＮ_ｉずつ抽出する。

次に、ステップＳ５０６において、ｉと素片種別数を比較する。

ｉが素片種別数以下ならステップＳ５０７に進んで（ステップＳ５０６のＹＥＳ）ｉをインクリメントし（ステップＳ５０７）、ステップＳ５０５〜ステップＳ５０６を繰り返す。

ｉが素片種別数を超えていれば（すなわち全ての素片種別に対する処理が完了していれば）、ＥＮＤに進んで処理を終了する。

（４）学習のまとめ
上記のようにして抽出した融合済み周期成分素片と融合済み非周期成分素片を、融合済み周期成分素片記憶部４２３と融合済み非周期成分素片記憶部４２４にそれぞれ格納する。

ここで、融合済み周期成分素片記憶部４２３と融合済み非周期成分素片記憶部４２４に格納するために選択する音声素片の個数は、トータルでの音声素片サイズと合成音声の音質とのトレードオフで、任意に決めることができる。より多くの音声素片を選択して格納すれば、サイズは大きくなるが、合成音声の音質を高くすることができ、音声素片の数を減らせば、合成音声の音質は犠牲になるが、サイズを小さくすることができる。

（５）変更例
また、ここでは出現頻度の高い素片を抽出する方法を説明したが、素片の両端で算出したメルケプストラムなどの素片の特徴量を用いて抽出しても良い。

この場合、各素片種別に対して出力された融合済み周期成分素片及び融合済み非周期成分素片をそれぞれ、素片の特徴量を用いてクラスタリングし、分割された各クラスタの中心（セントロイド）に最も近い素片を抽出する。クラスタリングにおけるクラスタ数は、各素片種別に配分する素片数に応じて決める。

出現頻度に基づいて素片を抽出する場合は、出現頻度が低いコンテキストに対して適切な素片が抽出されない可能性があり、入力テキストによっては音質が大きく劣化してしまう可能性があるが、本方法によって素片を抽出した場合、特徴量空間をできるだけ広く覆うような素片のセットが抽出できるため、出現頻度に基づいて抽出した場合より安定した合成音が生成できる。

（６）素片選択部４４
第２の実施形態での素片選択部４４が各セグメントに対して複数個ずつの音声素片を選択するのに対し、本実施形態の素片選択部４４は、各セグメントに対して１つずつの融合済み音声素片の最適系列を選択する。

すなわち、素片選択部４４の動作としては、図７のフローチャートのうち、ステップＳ１０１とステップＳ１０２だけを実行する。

さらに、選択した音声素片に対応した融合済み周期成分素片を融合済み周期成分素片記憶部４２３から、融合済み非周期成分素片を融合済み非周期成分素片記憶部４２４からそれぞれ取り出し、加算部４８に出力する。加算部４８の構成及び動作は、第２の実施形態のものと同様である。

（９）効果
以上のように本実施形態によれば、複数の音声素片の周期成分及び非周期成分の融合処理を予めオフラインで行うので、第２の実施形態よりも少ない計算量で実現でき、ＣＰＵスペックが非常に低いローエンドのミドルウェア向けにも応用可能である。

また、合成音声の音質とのトレードオフで、格納する素片のトータルのサイズもスケーラブルに決めることができる。

（第５の実施形態）
本発明の第５の実施形態に係る加算部４８について図１７に基づいて説明する。

（１）加算部４８の概要
第１の実施形態においては、加算部４８は融合された音声素片の周期成分と非周期成分をセグメント毎に加算して新たな音声素片を生成してから音声素片間を接続する方法を説明したが、この方法では、異なる非周期成分の重畳が音声素片間あるいはピッチ波形間で起きてしまい、重畳した箇所で、非周期成分のパワーが減衰したり不自然な周期性が生じてしまったりして、音質が劣化する可能性がある。

そこで、本実施形態では、周期成分と非周期成分のそれぞれで音声素片の接続を行った後、生成された周期成分波形と非周期成分波形を加算する。

（２）加算部４８の構成
図１７は、本実施形態に関わる加算部４８の構成を示すブロック図である。図１７を用いて、本実施形態での加算部４８の構成について、第１の実施形態との違いを中心に説明する。

素片編集・接続部４８７は、融合周期成分素片入力部４８１から入力された融合周期成分素片を、韻律等を編集しながら接続して、合成音声の周期成分波形を生成する。

非周期成分パワー包絡接続部４８８は、融合非周期成分素片入力部から入力された融合残差パワー包絡をピッチ波形間及び素片間で接続して、一続きの残差パワー包絡を生成する。

白色雑音発生部４８３は、白色雑音を発生する。

音源波形生成部４８４は、白色雑音発生部４８３で生成された白色雑音を、非周期成分パワー包絡接続部４８８で生成された残差パワー包絡に従って振幅変調することによって非周期成分の音源波形を生成する。

線形予測フィルタ４８５は、融合非周期成分素片入力部４８２から入力された融合線形予測係数を用いて音源波形生成部４８４で生成された音源波形を線形予測フィルタリングすることによって合成音声の非周期成分波形を生成する。

波形加算部４８９は、素片編集・接続部４８７で生成された合成音声の周期成分波形と、線形予測フィルタ４８５で生成された合成音声の非周期成分波形を加算することによって、合成音声を生成する。

（２）加算部４８の動作
図１７を用いて、本実施形態での加算部４８の動作について、第１の実施形態との違いを中心に説明する。

非周期成分パワー包絡接続部４８８では、融合非周期成分素片入力部４８２から入力された各セグメントのピッチ波形毎の融合残差パワー包絡を、目標の基本周波数に従って配置した各ピッチ波形を重畳する位置（ピッチマーク）の上に重畳することによって、１文あるいは１呼気段落分の残差パワー包絡を生成する。

音源波形生成部４８４は、非周期成分パワー包絡接続部４８８で生成された残差パワー包絡に従って、白色雑音発生部４８３で生成された白色雑音を振幅変調することによって、１文あるいは１呼気段落分の音源波形を生成する。

線形予測フィルタ部４８５では、融合非周期成分素片入力部４８２から入力された各セグメントのピッチ波形毎の融合線形予測係数を１サンプル毎に補間することによって、各サンプル点での線形予測係数を算出し、この線形予測係数を用いて、音源波形生成部４８４で生成された音源波形をフィルタリングすることによって、１文あるいは１呼気段落分の非周期成分波形を生成する。

（３）効果
以上のように本実施形態によれば、異なる非周期成分を素片間あるいはピッチ波形間で不適切に重畳することがないため、非周期成分のパワーの減衰や不自然な周期性の出現による音質劣化を防ぐことができる。

また、線形予測係数を１サンプル毎に補間することによって、非周期成分の周波数特性を滑らかに変化させることができるため、第１の実施形態よりも高い音質が実現できる。

（第６の実施形態）
本発明の第６の実施形態に係る非周期成分融合部４７について図１７に基づいて説明する。

（１）非周期成分融合部４７の概要
第１の実施形態の非周期成分融合部４７では、線形予測係数の融合は、複数個の音声素片の非周期成分のそれぞれに対して得られた線形予測係数を、線スペクトル対領域などで平均化する方法で行うと説明した。

この方法では、複数個の音声素片の非周期成分の間で、線形予測係数で表されるスペクトル特徴が比較的似ている場合には良好な結果が得られるものの、融合しようとする非周期成分間でスペクトル特徴が大きく異なる場合には、ｉ番目の線スペクトル対係数の意味が非周期成分間で異なってしまうため、平均化した結果、スペクトル特徴が失われてしまい、融合によってかえって不自然になる場合がある。

そこで、本実施形態の非周期成分融合部４７での線形予測係数の融合は、複数の非周期成分波形をつなげて作った波形を線形予測分析することによって、複数の非周期成分波形に共通するスペクトル特徴を持った線形予測係数を得ることによって行う。

（２）非周期成分融合部４７
図１８は、本実施形態に関わる非周期成分融合部４７の構成を示すブロック図である。図１８を用いて、本実施形態に関わる非周期成分融合部４７の構成と動作について、第１の実施形態との違いを中心に説明する。

本実施形態に関わる非周期成分融合部４７を構成する要素は、第１の実施形態の非周期成分融合部４７を構成する要素と同様であるが、主に、線形予測係数融合部４７３の動作、及びこの処理部と複数素片非周期成分入力部４７１、線形予測分析部４７２の間の関係が異なっている。

複数素片非周期成分入力部４７１は、まず、入力されたセグメント当たり複数個の音声素片の非周期成分のそれぞれについて線形予測分析を行う単位に分割して分析単位数を複数の非周期成分間で揃えた後、得られた複数の非周期成分それぞれの各分析単位の波形を線形予測係数融合部４７３及び線形予測分析部４７２に出力する。

線形予測分析部４７２は、入力された複数の非周期成分のそれぞれについて分析単位毎に線形予測分析を行い、得られた分析単位毎の線形予測残差を残差パワー包絡抽出部４７４に出力する。

残差パワー包絡抽出部４７４及び残差パワー包絡融合部４７５において融合残差パワー包絡を得る方法については、第１の実施形態と同様である。

一方で、線形予測分析部４７２と並行して複数の非周期成分それぞれの各分析単位の波形が入力された線形予測係数融合部４７３は、分析単位毎に、複数の非周期成分からの波形をつないで１つの波形を作り、この波形を線形予測分析部４７２に入力して線形予測分析をさせることによって線形予測係数を得る。すなわち、複数の非周期成分波形に共通するスペクトル特徴を持った線形予測係数を、分析単位毎に得ることによって、線形予測係数の融合を行う。

（３）効果
以上のように本実施形態によれば、融合しようとする非周期成分間でスペクトル特徴が大きく異なる場合でも、比較的良好な線形予測係数の融合を行うことができ、第１の実施形態よりも高い音質が実現できる。

（第７の実施形態）
（１）本実施形態の概要
第６の実施形態における非周期成分の融合方法においては、非周期成分が主に声道や声門での呼気の摩擦によって生じるノイズ的な音源によって生成されることを想定していたが、実際には、破裂音のように不規則なパルス的な音源によって生成される場合がある。

また、現状では、音声波形を周期成分・非周期成分に分離する手法の精度は十分でなく、分離された非周期成分に周期的な成分が混入する場合がある。

そのため、非周期成分波形から抽出した線形予測残差中にパルス的な成分が含まれる場合があり、このまま残差パワー包絡の抽出を行って残差パワー包絡の融合を行い、こうして得られた融合残差パワー包絡を用いて非周期成分を生成すると、パルス的な成分が含まれていた時刻周辺の非周期成分が大きくなりすぎてノイズっぽくなったり、パルス的な音源によって生成される非周期成分が合成時に再現できず破裂音の了解性が悪くなる場合がある。

そこで、本実施形態では、次のような内容で上記問題点を解決する。

非周期成分融合部４７においては、非周期成分を融合するときには、線形予測残差中のパルス的な成分を取り除いてから融合を行う。

加算部４８においては、非周期成分を生成するときは、白色雑音を融合残差パワー包絡で振幅変形して音源波形を生成した後、破裂音の場合に限り、非周期成分融合部４７で取り除いたパルス的な成分を音源波形に再配置する。

（２）非周期成分融合部４７
具体的には、非周期成分融合部４７での線形予測残差中のパルス的な成分の除去は、残差パワー包絡抽出部４７４での前処理として行う。

ここで、パルス的な成分の検出は、与えられた線形予測残差の振幅分布を得た後、この分布から外れる大きな振幅を持ったサンプルをパルス的な成分とみなすことによって行う。

例えば、各分析単位の線形予測残差について、分析窓の影響を除いた窓中心周辺の残差の振幅から平均値及び標準偏差を算出し、「（平均値±３ｘ標準偏差）ｘ分析窓の振幅」を外れる振幅を持つサンプルをパルス的な成分として検出する。パルス的な成分として検出された線形予測残差中のサンプルの振幅を０あるいは平均値に置き換えてから、残差パワー包絡の抽出を行う。また、検出されたパルス的な成分の位置と振幅は、破裂音の場合など、必要に応じて保持する。

（３）加算部４８
加算部４８におけるパルス的な成分の音源波形への再配置は、音源波形生成部４８４の後処理として行う。

具体的には、白色雑音を融合残差パワー包絡で振幅変形して音源波形を生成した後で、破裂音の場合に限り、残差パワー包絡抽出部４７４で保持しているパルス的な成分のそれぞれについて、音源波形中の対応する位置の振幅を、パルス的な成分の振幅に置き換える。

（４）効果
以上のように本実施形態によれば、パルス的な成分の影響で非周期成分が部分的に大きくなりすぎてノイズっぽくなったり、パルス的な音源によって生成される非周期成分が合成時に再現できず破裂音の了解性が悪くなったりする問題点を改善できる。

（変更例）
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。

また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

本発明の第１の実施形態に係る合成装置の構成を示すブロック図である。音声合成部の構成を示すブロック図である。素片記憶部に蓄積される音声素片の例を示す図である。音声素片属性情報記憶部に蓄積される素片属性情報の例を示す図である。非周期成分融合部の構成を示すブロック図である。加算部の構成を示すブロック図である。音声素片の選択方法の一例を示すフローチャートである。ＰＳＨＦを用いて、音声波形を周期成分波形と非周期成分波形に分離した例を示す図である。有声音の音声波形を融合して新たな音声波形を生成する方法の一例を示すフローチャートである。選択された３つの音声素片からなる素片組み合わせ候補を融合して新たな音声素片を生成する例を示す図である。線形予測残差のパワー包絡を抽出する方法の一例を示すフローチャート残差のパワー包絡を融合する方法の一例を示すフローチャートである。素片編集・接続部４７５での処理を説明するための図である。第２の実施形態に係る音声合成部の構成を示すブロック図である。第３の実施形態に係る音声合成部の構成を示すブロック図である。第４の実施形態に係る音声合成部の構成を示すブロック図である。第５の実施形態に係る加算部の構成を示すブロック図である。第６の実施形態に係る非周期成分融合部の構成を示すブロック図である。第４の実施形態に係る融合済み周期成分素片記憶部と融合済み非周期成分素片記憶部に格納する素片の抽出方法を示すフローチャートである。

符号の説明

４音声合成部
４１情報入力部
４２素片記憶部
４３環境記憶部
４４素片選択部
４５分離部
４６周期成分融合部
４７非周期成分融合部
４８加算部
４９音声波形出力部

Claims

テキスト音声合成を行う音声処理装置において、
目標音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントと、前記目標音声に対応する前記各セグメントの韻律情報を受け付ける入力部と、
前記複数のセグメントのそれぞれに対し、前記各韻律情報に基づいて音声素片群から複数の第１の音声素片を選択する素片選択部と、
前記複数のセグメントのそれぞれに対し、前記複数の第１の音声素片のそれぞれを周期成分と非周期成分に分離する分離部と、
前記複数のセグメントのそれぞれに対し、前記複数の第１の音声素片の周期成分を融合することによって、第２の音声素片を生成する周期成分融合部と、
前記複数のセグメントのそれぞれに対し、前記複数の第１の音声素片の非周期成分を融合することによって、第３の音声素片を生成する非周期成分融合部と、
前記複数のセグメントのそれぞれに対して生成された前記第２の音声素片と第３の音声素片とからそれぞれ得られる音声波形を加算しながら、前記セグメント間で接続することによって合成音声を生成する生成部と、
を備え、
前記非周期成分融合部は、
前記複数のセグメントのそれぞれに対し、前記複数の第１の音声素片の非周期成分から、前記複数の非周期成分のスペクトルの特徴を代表的に表すような融合スペクトルパラメータを生成する第１の生成部と、
前記複数の非周期成分のパワーの時間的変化を代表的に表すような融合残差パワー包絡を生成する第２の生成部と、
前記融合スペクトルパラメータと前記融合残差パワー包絡を前記第３の音声素片として出力する出力部と、
備え、
前記生成部は、
前記複数のセグメントのそれぞれに対し、前記融合スペクトルパラメータと前記融合残差パワー包絡とから前記第３の音声素片の前記音声波形を生成して、前記第２の音声素片から得られる前記音声波形と加算する、
音声処理装置。
テキスト音声合成を行う音声処理装置において、
目標音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントと、前記目標音声に対応する前記各セグメントの韻律情報を受け付ける入力部と、
複数の音声素片の素片環境を記憶する環境記憶部と、
前記各音声素片の波形データを周期成分と非周期成分とに分けてそれぞれ保持する素片記憶部と、
前記複数のセグメントのそれぞれに対し、前記各韻律情報を基に、前記環境記憶部から複数の第１の音声素片の素片環境を選択する環境選択部と、
前記複数のセグメントのそれぞれに対し、前記複数の第１の音声素片の素片環境から前記第１の音声素片の周期成分を前記素片記憶部から取り出し、これらの各周期成分を融合することによって、第２の音声素片を生成する周期成分融合部と、
前記複数のセグメントのそれぞれに対し、前記複数の第１の音声素片の素片環境から前記第１の音声素片の非周期成分を前記素片記憶部から取り出し、これらの各非周期成分を融合することによって、第３の音声素片を生成する非周期成分融合部と、
前記複数のセグメントの前記第２の音声素片と前記第３の音声素片とからそれぞれ得られる音声波形を加算しながら、前記セグメント間で接続することによって合成音声を生成する生成部と、
を備え、
前記非周期成分融合部は、
前記複数のセグメントのそれぞれに対し、前記複数の第１の音声素片の非周期成分から、前記複数の非周期成分のスペクトルの特徴を代表的に表すような融合スペクトルパラメータを生成する第１の生成部と、
前記複数の非周期成分のパワーの時間的変化を代表的に表すような融合残差パワー包絡を生成する第２の生成部と、
前記融合スペクトルパラメータと前記融合残差パワー包絡を前記第３の音声素片として出力する出力部と、
備え、
前記生成部は、
前記複数のセグメントのそれぞれに対し、前記融合スペクトルパラメータと前記融合残差パワー包絡とから前記第３の音声素片の前記音声波形を生成して、前記第２の音声素片から得られる前記音声波形と加算する、
音声処理装置。
前記環境記憶部が選択する前記第１の音声素片の素片環境が、前記周期成分と前記非周期成分とにおいて同一、または、異なる、
請求項２記載の音声処理装置。
前記生成部は、
前記複数のセグメントのそれぞれに対し、前記第２の音声素片と前記第３の音声素片を加算することによって、第４の音声素片を生成する加算部と、
前記複数のセグメントのそれぞれに対し、前記第４の音声素片から得られる音声波形を、前記セグメント間で接続することによって前記合成音声を生成する接続部と、
を備える請求項１または２記載の音声処理装置。
テキスト音声合成を行う音声処理プログラムにおいて、
目標音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントと、前記目標音声に対応する前記各セグメントの韻律情報を受け付ける入力機能と、
前記複数のセグメントのそれぞれに対し、前記各韻律情報に基づいて音声素片群から複数の第１の音声素片を選択する素片選択機能と、
前記複数のセグメントのそれぞれに対し、前記複数の第１の音声素片のそれぞれを周期成分と非周期成分に分離する分離機能と、
前記複数のセグメントのそれぞれに対し、前記複数の第１の音声素片の周期成分を融合することによって、第２の音声素片を生成する周期成分融合機能と、
前記複数のセグメントのそれぞれに対し、前記複数の第１の音声素片の非周期成分を融合することによって、第３の音声素片を生成する非周期成分融合機能と、
前記複数のセグメントのそれぞれに対して生成された前記第２の音声素片と第３の音声素片とからそれぞれ得られる音声波形を加算しながら、前記セグメント間で接続することによって合成音声を生成する生成機能と、
を実現させ、
前記非周期成分融合機能は、
前記複数のセグメントのそれぞれに対し、前記複数の第１の音声素片の非周期成分から、前記複数の非周期成分のスペクトルの特徴を代表的に表すような融合スペクトルパラメータを生成する第１の生成機能と、
前記複数の非周期成分のパワーの時間的変化を代表的に表すような融合残差パワー包絡を生成する第２の生成機能と、
前記融合スペクトルパラメータと前記融合残差パワー包絡を前記第３の音声素片として出力する出力機能と、
を実現させ、
前記生成機能は、
前記複数のセグメントのそれぞれに対し、前記融合スペクトルパラメータと前記融合残差パワー包絡とから前記第３の音声素片の前記音声波形を生成して、前記第２の音声素片から得られる前記音声波形と加算する、
ことをコンピュータに実現させるための音声処理プログラム。
テキスト音声合成を行う音声処理プログラムにおいて、
複数の音声素片の素片環境を記憶する環境記憶部と、
前記各音声素片の波形データを周期成分と非周期成分とに分けてそれぞれ保持する素片記憶部と、
を有し、
目標音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントと、前記目標音声に対応する前記各セグメントの韻律情報を受け付ける入力機能と、
前記複数のセグメントのそれぞれに対し、前記各韻律情報を基に、前記環境記憶部から複数の第１の音声素片の素片環境を選択する環境選択機能と、
前記複数のセグメントのそれぞれに対し、前記複数の第１の音声素片の素片環境から前記第１の音声素片の周期成分を前記素片記憶部から取り出し、これらの各周期成分を融合することによって、第２の音声素片を生成する周期成分融合機能と、
前記複数のセグメントのそれぞれに対し、前記複数の第１の音声素片の素片環境から前記第１の音声素片の非周期成分を前記素片記憶部から取り出し、これらの各非周期成分を融合することによって、第３の音声素片を生成する非周期成分融合機能と、
前記複数のセグメントの前記第２の音声素片と前記第３の音声素片とからそれぞれ得られる音声波形を加算しながら、前記セグメント間で接続することによって合成音声を生成する生成機能と、
を実現させ、
前記非周期成分融合機能は、
前記複数のセグメントのそれぞれに対し、前記複数の第１の音声素片の非周期成分から、前記複数の非周期成分のスペクトルの特徴を代表的に表すような融合スペクトルパラメータを生成する第１の生成機能と、
前記複数の非周期成分のパワーの時間的変化を代表的に表すような融合残差パワー包絡を生成する第２の生成機能と、
前記融合スペクトルパラメータと前記融合残差パワー包絡を前記第３の音声素片として出力する出力機能と、
を実現させ、
前記生成機能は、
前記複数のセグメントのそれぞれに対し、前記融合スペクトルパラメータと前記融合残差パワー包絡とから前記第３の音声素片の前記音声波形を生成して、前記第２の音声素片から得られる前記音声波形と加算する、
ことをコンピュータに実現させるための音声処理プログラム。