JP2009133890A

JP2009133890A - 音声合成装置及びその方法

Info

Publication number: JP2009133890A
Application number: JP2007307578A
Authority: JP
Inventors: Ryo Morinaka; 亮森中; Takehiko Kagoshima; 岳彦籠嶋
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-11-28
Filing date: 2007-11-28
Publication date: 2009-06-18

Abstract

【課題】自然で高音質な合成音声を生成することが出来る音声合成装置を提供する。
【解決手段】音声合成部４は音声素片記憶部４０、音素環境記憶部４１、音韻系列・韻律情報入力部４２、音声素片選択・融合部４３、音声素片編集・接続部４４により構成され、音声素片選択・融合部４３は、音声素片選択部４３０、音声素片融合部４３１、音素環境算出部４３２により構成され、融合された音声素片の音素環境パラメータを用いて音声素片選択部４３０内で最適素片系列を求め、融合された音声素片の音素環境パラメータを求めて、音声合成を行う。
【選択図】図３

Description

本発明は、テキスト音声合成に関し、特に音韻記号列、ピッチ、音韻継続時間長などの情報から音声信号を生成する音声合成装置及びその方法に関する。

任意の文章から人工的に音声信号を作り出すことを「テキスト音声合成」という。テキスト音声合成は、一般的に言語処理部、韻律処理部及び音声合成部の３つの段階から構成されるものである。

入力されたテキストは、第１段階として言語処理部において形態素解析や構文解析などが行われる。次に、第２段階として韻律処理部においてアクセントやイントネーションの処理が行われて、音韻系列・韻律情報（基本周波数、音韻継続時間長、パワーなど）が出力される。その後、最終段階として音声信号合成部で音韻系列・韻律情報から音声信号を合成することによりテキスト音声合成を実現している。

このような任意の音韻記号列を合成することができる合成器の原理は、母音をＶ、子音をＣで表すと、ＣＶ、ＣＶＣ、ＶＣＶなどの基本となる小さな音声単位の特徴パラメータ（音声素片）を記憶し、ピッチや継続時間長を制御して接続することにより音声を合成するものである。この方式では、記憶されている音声素片が合成音声の品質を大きく左右することになる。

このような音声合成方法の１つとして、入力された音韻系列・韻律情報を目標として、大量の音声素片から音声単位毎に複数の音声素片を選択し、選択された複数の音声素片を融合することによって新たな音声素片を生成し、それらを接続して音声を合成する複数音声素片選択・融合型の音声合成方法がある（例えば、特許文献１参照）。

この複数音声素片選択・融合型の音声合成は、まず予め記憶された大量の音声素片の中から、入力された音韻系列・韻律情報に基づき音声素片を選択する。音声素片選択方法としては、音声を合成することで生じる合成音声の歪みの度合いをコスト関数として定義し、コストが小さくなるように音声素片を選択する方法がある。

例えば、目標とする音声と各音声素片との韻律・音韻環境などの差異を表す目標歪み、音声素片を接続することで生じる接続歪みをコストとして数値化する。このコストに基づいて音声合成に使用する音声素片を選択する。さらに、例えばピッチ波形を平均化する、選択された複数の音声素片のセントロイドを用いるなどの方法で融合する。これにより、音声素片の編集及び接続における音質の劣化を抑え、安定した合成音声を得ることができる。
特開２００５−１６４７４９公報

上記のような複数音声素片選択・融合型の音声合成方法では、融合音声素片候補を選択するときに、合成音声として使用する音声素片との接続歪みを考慮しないで、予め音声素片の中から求められている、すなわち、実際には合成音声の音声素片として用いられない最適素片系列上の音声素片との接続歪みに基づいて融合音声素片候補を求めているため、生成された合成音声の接続部に不連続が生じてしまうという問題点がある。

そこで、本発明は、上記問題点に鑑み、複数音声素片選択・融合型の音声合成において、より自然で高音質な合成音声を生成することが出来る音声合成装置及びその方法を提供することを目的とする。

本発明は、音声素片群と、前記音声素片群のそれぞれの音声素片についての音素環境パラメータを格納している記憶部と、合成したい目標音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、前記音声素片群から複数の第１音声素片を選択する選択部と、前記複数の第１音声素片を融合することによって、一つの第２音声素片を生成する生成部と、前記第２音声素片の音素環境パラメータを算出するパラメータ算出部と、前記各セグメントのそれぞれに対して生成された前記第２音声素片を接続することによって合成音声を生成する合成部と、を有し、前記選択部は、前記各セグメントの中から、前記第１音声素片を選択する一つのセグメントを注目セグメントとして設定するセグメント設定部と、前記音声素片群の中から前記注目セグメントの音素と同じ特徴を持つ複数の音声素片を音声素片候補として抽出する抽出部と、前記注目セグメントの前記各音声素片候補を使用して生成される前記合成音声の歪み量を表す目標コストを、前記各音声素片候補の音素環境パラメータと前記目標音声の韻律情報とからそれぞれ算出する第１コスト算出部と、前記注目セグメントの前または後に隣接するセグメントである隣接セグメントの音声素片と、前記注目セグメントの前記各音声素片候補とを接続したときに生じる歪み量を表すそれぞれの接続コストを算出するものであって、（１）前記隣接セグメントが前記第２音声素片である場合には、前記第２音声素片の音素環境パラメータと、前記各音声素片候補の音素環境パラメータとから前記接続コストを算出し、または、（２）前記隣接セグメントが前記第２音声素片を有していない場合には、前記注目セグメントに対応する前記音声素片候補の音素環境パラメータと前記隣接セグメントに対応する前記音声素片候補の音素環境パラメータとから前記接続コストを算出する第２コスト算出部と、前記注目セグメントにおける前記複数の音声素片候補の中で、前記目標コストと前記接続コストとの合計コストが低い複数の音声素片候補を、前記第１音声素片として選択する音声素片選択部と、を有する音声合成装置である。

また、本発明は、音声素片群と、前記音声素片群のそれぞれの音声素片についての音素環境パラメータを格納している記憶部と、合成したい目標音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれの中から一つのセグメントを注目セグメントとして設定するセグメント設定部と、前記音声素片群の中から前記注目セグメントの音素と同じ特徴を持つ複数の音声素片を第３音声素片として複数抽出する抽出部と、前記複数の第３音声素片を融合することによって第４音声素片を生成する生成部と、前記第４音声素片の音素環境パラメータを算出するパラメータ算出部と、前記注目セグメントの前記各第３音声素片及び前記第４音声素片を使用して生成される前記合成音声の歪み量を表す目標コストを、前記各第３音声素片及び前記第４音声素片の音素環境パラメータと前記目標音声の韻律情報とからそれぞれ算出する第３コスト算出部と、前記注目セグメントの前または後に隣接するセグメントである隣接セグメントの前記第３音声素片及び前記第４音声素片と、前記注目セグメントの前記各第３音声素片及び前記第４音声素片とを接続したときに生じる歪み量を表すそれぞれの接続コストを、前記注目セグメントの前記第３音声素片及び前記第４音声素片の音素環境パラメータと、前記隣接セグメントの前記第３音声素片及び前記第４音声素片の音素環境パラメータから算出する第４コスト算出部と、前記注目セグメントにおける前記複数の第３音声素片及び前記第４音声素片の中で、前記目標コストと前記接続コストとの合計コストが低い複数の音声素片を、前記第５音声素片として選択する音声素片選択部と、前記各セグメントのそれぞれに対して生成された前記第５音声素片を接続することによって合成音声を生成する合成部と、を有する音声合成装置である。

本発明によれば、融合音声素片との接続歪みを考慮しない場合と比べ音質の劣化の程度が減少し、より自然で高音質な合成音声を生成する音声合成方法を提供することが出来る。

本発明の実施形態におけるテキスト音声合成を行う音声合成装置について図面を参照して説明する。

（第１の実施形態）
本発明の第１の実施形態における音声合成装置について図１〜図１４に基づいて説明する。

（１）音声合成装置の構成
図１は、本実施形態に係る音声合成装置の構成を示すブロック図である。

図１に示すように、音声合成装置は、テキスト入力部１、言語処理部２、韻律処理部３、音声合成部４、音声波形出力部５から構成される。

各部の機能は、コンピュータに格納されたプログラムによっても実現できる。

言語処理部２は、テキスト入力部１から入力されるテキストの形態素解析・構文解析を行い、その結果を韻律処理部３へ送る。

韻律処理部３は、言語解析結果からアクセントやイントネーションの処理を行い、音韻系列（音韻記号列）及び韻律情報を生成し、音声合成部４へ送る。

音声合成部４は、音韻系列及び韻律情報から音声波形を生成する。

音声波形出力部５は、こうして生成された音声波形を出力する。

（２）音声合成部４の構成
図２は、図１の音声合成部４の構成例を示すブロック図である。

図２に示すように、音声合成部４は音声素片記憶部４０、音素環境記憶部４１、音韻系列・韻律情報入力部４２、音声素片選択・融合部４３、音声素片編集・接続部４４により構成される。

以下、各部４０〜４４の機能について詳しく説明する。

（３）音声素片記憶部４０
音声素片記憶部４０には大量の音声素片が蓄積されており、合成音声を生成するときに用いる音声の単位（合成単位）の音声素片が記憶されている。

合成単位は、音素あるいは音素を分割したものの組み合わせである。例えば、半音素、音素（Ｃ、Ｖ）、ダイフォン（ＣＶ、ＶＣ、ＶＶ）、トライフォン（ＣＶＣ、ＶＣＶ）、音節（ＣＶ、Ｖ）、などであり、これらが混在しているなど可変長であってもよい。なお、Ｖは母音、Ｃは子音を表す。

また、音声素片は、合成単位に対応する音声信号の波形もしくはその特徴を表すパラメータ系列などを表すものとする。

音声素片記憶部４０には、例えば音声素片が音素の場合には、図４に示すように、各音素の音声信号の波形が前記音素を識別するための音声素片番号と共に記憶されている。音声素片記憶部４０に記憶されている各音声素片は、別途収集された多数の音声データに対して音素毎にラベリングを行い、音素毎に音声波形を切り出したものを、音声素片として蓄積したものである。

（４）音素環境記憶部４１
音素環境記憶部４１には、音声素片記憶部４０に記憶されている音声素片の音素環境パラメータが記憶されている。

音声素片の音素環境パラメータとは、前記音声素片にとっての音素環境となる要因の組み合わせに対応する情報である。要因としては、例えば、前記音声素片の音素名、先行音素、後続音素、後々続音素、基本周波数、音韻継続時間長、パワー、ストレスの有無、アクセント核からの位置、息継ぎからの時間、発声速度、感情などがある。

音素環境記憶部４１には、例えば音声素片が音素の場合には、図５に示すように、音声素片記憶部４０に記憶されている各音素の音素環境パラメータが、前記音素の音声素片番号に対応付けて記憶されている。ここでは、音素環境パラメータとして、音素記号（音素名）、基本周波数、音韻時間継続長、音声素片両端におけるケプストラム係数が記憶されている。

（５）音韻系列・韻律情報入力部４２
音韻系列・韻律情報入力部４２には、韻律処理部３から出力された目標音声の音韻系列及び韻律情報が入力される。音韻系列・韻律情報入力部４２に入力される韻律情報としては、基本周波数、音韻継続時間長、パワーなどがある。

以下、音韻系列・韻律情報入力部４２に入力される音韻系列と韻律情報を、それぞれ「入力音韻系列」、「入力韻律情報」と呼ぶ。入力音韻系列は、例えば音韻記号の系列である。

音韻系列・韻律情報入力部４２には、例えば音声素片が音素の場合には、音韻の情報として、テキスト音声合成のために入力テキストの形態素解析・構文解析後、さらにアクセントやイントネーション処理を行って得られた韻律情報と音韻系列が入力される。入力韻律情報には、基本周波数及び音韻継続時間長が含まれていることとする。

（６）音声素片選択・融合部４３
次に、音声素片選択・融合部４３について説明する。

図３は、図２の音声素片選択・融合部４３の構成例を示すブロック図である。

図３に示すように、音声素片選択・融合部４３は、音声素片選択部４３０、音声素片融合部４３１、音素環境算出部４３２により構成される。

（６−１）音声素片選択部４３０
音声素片選択部４３０は、入力音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、入力韻律情報と、音声素片の音素環境パラメータに含まれる韻律情報ないし、後述する音素環境算出部４３２で得られる融合された音声素片の音素環境パラメータとの歪みの度合いであるを歪み量を推定し、前記歪み量を最小化するように音声素片記憶部４０に記憶されている音声素片の中から音声素片を選択する。

歪み量としては、後述するコスト関数を用いることができるが、これに限定するものではない。

（６−２）音声素片融合部４３１
音声素片融合部４３１は、音声素片選択部４３０において選択された複数の音声素片を融合して、新たな音声素片を生成する。

（６−３）音素環境算出部４３２
音素環境算出部４３２は、音声素片融合部４３１において融合された音声素片の音素環境パラメータを算出する。この操作をセグメント毎に行うことにより、入力音韻系列の音韻記号の系列に対応する新たな音声素片の系列が得られる。

（７）音声素片編集・接続部４４
音声素片編集・接続部４４において、新たな音声素片の系列は、入力韻律情報に基づいて変形及び接続され、合成音声の音声波形が生成される。

こうして生成された音声波形は図２の音声波形出力部５で出力される。

（８）音声素片選択・融合部４３の処理の内容
次に、図６に基づいて音声素片選択・融合部４３における処理の流れを説明する。ここでは、合成単位の音声素片は音素であるとする。図６は、音声素片選択・融合部４３における処理の流れを示すフローチャートである。

なお、本実施形態では、合成音声のセグメントの数をＩ個とし、文頭から文末へ向けて（すなわち、時系列にしたがって）、音声素片を融合していくものとする。

また、ステップＳ４３００、ステップＳ４３１０、ステップＳ４３２０及びステップＳ４３３０はＩ回繰り返され、Ｉ個のセグメントが１回ずつ注目セグメントとなるように処理を行う。以下、各ステップについて説明する。

（９）ステップＳ４３００
まず、ステップＳ４３００では、後述するコスト関数に基づいて最適素片系列を求めていく。

（９−１）コスト関数
コスト関数は次のように定める。

まず、音声素片を変形・接続して合成音声を生成するときに生ずる歪みの要因毎にサブコスト関数Ｃ_ｎ（ｕ_ｉ，ｕ_ｉ−１，ｔ_ｉ）（ｎ：１，・・・，Ｎ，Ｎはサブコスト関数の数）を定める。ここで、ｔ_ｉは、入力音韻系列及び入力韻律情報に対応する目標とする音声（目標音声）をｔ＝（ｔ_１，・・・，ｔ_Ｉ）としたときのｉ番目のセグメントに対応する部分の音声素片の目標とする音素環境パラメータ情報を表し、ｕ_ｉは音声素片記憶部４０に記憶されている音声素片のうち、ｔ_ｉと同じ音韻の音声素片を表す。

サブコスト関数は、音声素片記憶部４０に記憶されている音声素片を用いて合成音声を生成したときに生ずる前記合成音声の目標音声に対する歪み量を推定するためのコストを算出するためのものである。

前記コストを算出するために、ここでは、具体的には、前記音声素片を使用することによって生じる合成音声の目標音声に対する歪み量を推定する目標コストと、前記音声素片を他の音声素片と接続したときに生じる前記合成音声の目標音声に対する歪み量を推定する接続コストという２種類のサブコストを用いる。

「目標コスト」としては、音声素片記憶部４０に記憶されている音声素片の基本周波数と目標の基本周波数との違い（差）を表す基本周波数コスト、音声素片の音韻継続時間長と目標の音韻継続時間長との違い（差）を表す音韻継続時間長コストを用いる。

「接続コスト」としては、接続境界でのスペクトルの違い（差）を表すスペクトル接続コストを用いる。

具体的には、基本周波数コストは、

から算出する。ここで、ｖ_ｉは音声素片記憶部４０に記憶されている音声素片ｕ_ｉの音素環境パラメータを、ｆは音素環境パラメータｖ_ｉから基本周波数を取り出す関数を表す。

また、音韻継続時間長コストは、

から算出する。ここで、ｇは音素環境パラメータｖ_ｉから音韻継続時間長を取り出す関数を表す。

また、スペクトル接続コストは、２つの音声素片間のケプストラム距離：

から算出する。ここで、ｈは音声素片ｕ_ｉの接続境界のケプストラム係数をベクトルとして取り出す関数を表す。

これらのサブコスト関数の重み付き和を合成単位コスト関数と定義する：

ここで、ｗ_ｎはサブコスト関数の重みを表す。本実施形態では、簡単のため、ｗ_ｎはすべて「１」とする。上記式（４）は、ある合成単位に、ある音声素片を当てはめた場合の前記音声素片の合成単位コストである。

入力音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、上記式（４）から合成単位コストを算出した結果を、全セグメントについて足し合わせたものをコストと呼び、前記コストを算出するためのコスト関数を次式（５）に示すように定義する：

（９−２）最適素片系列
図６のステップＳ４３００では、上記式（１）〜（５）に示したコスト関数を使って１セグメント当たり（すなわち、１合成単位当たり）１つの音声素片を用いて、上記式（５）で算出されるコストの値が最小の音声素片の系列を求める。

また、後述する音声素片融合部４３１で生成された融合音声素片が存在しないセグメントに対しては音声素片記憶部４０中の音声素片の中から１つを用いて、上記式（５）で算出されるコストの値が最小の音声素片の系列を求める。

さらに、音声素片融合部４３１で生成された融合音声素片が存在するセグメントに対しては融合音声素片を用いて、上記式（５）で算出されるコストの値が最小の音声素片の系列を求める。

このコストが最小となる音声素片の組合せを「最適素片系列」と呼ぶこととする。すなわち、最適素片系列中の各音声素片は、入力音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対応し、最適素片系列中の各音声素片から算出された上記合成単位コストと式（５）より算出されたコストの値は、他のどの音声素片系列よりも小さい値である。なお、最適素片系列の探索には、動的計画法（ＤＰ：ｄｙｎａｍｉｃｐｒｏｇｒａｍｉｎｇ）を用いることでより効率的に行うことができる。

（９−３）具体例
例えば、図７に示すように、入力音韻系列が「ｔｓ・ｉ・ｉ・ｓ・ａ・・・・」であるとする。この場合、合成単位は、音素「ｔｓ」、「ｉ」、「ｉ」、「ｓ」、「ａ」、・・・のそれぞれに対応し、これら音素のそれぞれが１つのセグメントに対応する。

入力された音韻系列中の３番目の音素「ｉ」に対応するセグメントを注目セグメントとする。すなわち、入力された音韻系列中の１番目の音素「ｔｓ」と２番目の音素「ｉ」は既にステップＳ４３２０において音声素片融合され、それぞれステップＳ４３３０において融合した音声素片の音素環境パラメータが算出されている。

この場合、最適素片系列上の１番目の音素「ｔｓ」と２番目の「ｉ」に対応する音声素片４３０１ａ、４３０１ｂは融合された音声素片となっており、音韻系列中の残りの３番目の音素「ｉ」、４番目の音素「ｓ」と５番目の音素「ａ」、・・・、では音声素片記憶部４０からそれぞれ４３０１ｃ、４３０１ｄ、４３０１ｅ、・・・が最適素片系列４３０１上の音声素片として選ばれている。

この最適素片系列４３０１上の音声素片４３０１ａ、４３０１ｂ、４３０１ｃ、４３０１ｄ、４３０１ｅ、・・・からなる音声素片系列を用いると、上記合成単位コストと式（５）より算出されたコストが他のどの音声素片系列よりも小さな値となっている。

（１０）ステップＳ４３１０
次に、ステップＳ４３１０に進み、ステップＳ４３００で求めた最適素片系列を用いて、１セグメント当たり複数の音声素片を選ぶ。ここでは、Ｉ個のセグメントそれぞれに対し、Ｍ個の音声素片を選ぶこととして説明する。詳細を図８のフローチャートに示す。

ステップＳ４３１１では式（５）で算出されるコストの値に応じて順位付けし、ステップＳ４３１２において上位Ｍ個の音声素片を選択する。

例えば、図７と同様に図９では、入力音韻系列が「ｔｓ・ｉ・ｉ・ｓ・ａ・・・・」であるとする。図９では、入力された音韻系列中の３番目の音素「ｉ」に対応するセグメントを注目セグメントとし、この注目セグメントについて、複数の音声素片を求める場合を示している。この３番目の音素「ｉ」に対応するセグメント以外のセグメントに対しては、最適素片系列中の音声素片４３１３ａ、４３１３ｂ、４３１３ｄ、４３１３ｅ、・・・を固定する。図７の最適系列中の音声素片と比較すると、音声素片４３１３ａは融合音声素片４３０１ａと、音声素片４３１３ｂは融合音声素片４３０１ｂと、音声素片４３１３ｄは音声素片４３０１ｄと、音声素片４３１３ｅは音声素片４３０１ｅと対応している。

この状態で、音声素片記憶部４０に記憶されている音声素片のうち、注目セグメントの音素「ｉ」と同じ音素名（音素記号）をもつ音声素片のそれぞれについて、式（５）を用いてコストを算出する。但し、それぞれの音声素片に対してコストを求めるときに、値が変わるのは、注目セグメントの目標コスト、注目セグメントとその一つ前のセグメントとの接続コスト、注目セグメントとその一つ後のセグメントとの接続コストであるので、これらのコストのみを考慮すればよい。

すなわち、下記のような手順となる。

（手順１）音声素片記憶部４０に記憶されている音声素片のうち、注目セグメントの音素「ｉ」と同じ音素名（音素記号）をもつ音声素片のうちの１つを音声素片ｕ_３とする。音声素片ｕ_３の基本周波数ｆ（ｖ_３）と、目標の基本周波数ｆ（ｔ_３）とから、式（１）を用いて、基本周波数コストを算出する。

（手順２）音声素片ｕ_３の音韻継続時間長ｇ（ｖ_３）と、目標の音韻継続時間長ｇ（ｔ_３）とから、式（２）を用いて、音韻継続時間長コストを算出する。

（手順３）音声素片ｕ_３のケプストラム係数ｈ（ｕ_３）と、融合された音声素片４３１３ｂ（ｕ_２）のケプストラム係数ｈ（ｕ_２）とから、式（３）を用いて、第１のスペクトル接続コストを算出する。また、音声素片ｕ_３のケプストラム係数ｈ（ｕ_３）と、融合された音声素片４３１３ｄ（ｕ_４）のケプストラム係数ｈ（ｕ_４）とから、式（３）を用いて、第２のスペクトル接続コストを算出する。

（手順４）上記手順１〜手順３で各サブコスト関数を用いて算出された基本周波数コストと音韻継続時間長コストと第１及び第２のスペクトル接続コストの重み付け和を算出して、音声素片ｕ_３のコストを算出する。

（手順５）音声素片記憶部４０に記憶されている音声素片のうち、注目セグメントの音素「ｉ」と同じ音素名（音素記号）をもつ各音声素片について、上記手順１〜手順４に従って、コストを算出したら、その値の最も小さい音声素片ほど高い順位となるように順位付けを行う（図８のステップＳ４３１１）。そして、上位Ｍ個の音声素片を選択する（図８のステップＳ４３１２）。例えば、図９では、音声素片４３１４ａが最も順位が高く、音声素片４３１４ｄが最も順位が低い。

以上の手順１〜手順５をそれぞれのセグメントに対して行う。その結果、それぞれのセグメントについて、Ｍ個ずつの音声素片が得られる。

音素環境パラメータとして、音声素片の音韻とその基本周波数及び音韻継続長の情報として説明したが、これらに限定するものではなく、必要に応じて、音韻、基本周波数、音韻継続時間長、先行音素、後続音素、後々続音素、パワー、ストレスの有無、アクセント核からの位置、息継ぎからの時間、発生速度、感情などの情報などを組み合わせて用いることが出来る。

（１１）ステップＳ４３２０
次に、図６のステップＳ４３２０の処理について説明する。

ステップＳ４３２０では、注目セグメントに対して、ステップＳ４３１０で求めたＭ個の音声素片から、セグメント毎に前記Ｍ個の音声素片を融合し、新たな音声素片（融合された音声素片）を生成する。有声音の波形には周期があるが、無声音の波形には周期がないため、このステップは音声素片が有声音である場合と無声音である場合とで別の処理を行う。

まず、有声音の場合について説明する。有声音の場合には、音声素片からピッチ波形を取り出し、ピッチ波形のレベルで融合し、新たなピッチ波形を作り出す。ピッチ波形とは、その長さが音声の基本周期の数倍程度までで、それ自身は基本周期を持たない比較的短い波形であって、そのスペクトルが音声信号のスペクトル包絡を表すようなものを意味する。

その抽出方法としては、単に基本周期同期窓で切り出す方法、ケプストラム分析やＰＳＥ分析によって得られたパワースペクトル包絡を逆離散フーリエ変換する方法、線形予測分析によって得られたフィルタのインパルス応答によってピッチ波形を求める方法、閉ループ学習法によって合成音声のレベルで自然音声に対する歪みが小さくなるようなピッチ波形を求める方法など様々なものがある。

本実施形態では、基本周期同期窓で切り出す方法を用いてピッチ波形を抽出する場合を例にとり、図１０のフローチャートを参照して説明する。ここでは、複数のセグメントのうちの１つのセグメントについて、Ｍ個の音声素片を融合して１つの新たな音声素片を生成する場合の処理手順を説明する。

（１１−１）ステップＳ４３２１
まず、ステップＳ４３２１において、Ｍ個の音声素片のそれぞれの音声波形に、その周期間隔毎にマーク（ピッチマーク）を付ける。

図１１（ａ）には、Ｍ個の音声素片のうちの１つの音声素片の音声波形４３２１ａに対し、その周期間隔毎にピッチマーク４３２１ｂが付けられている場合を示している。

（１１−２）ステップＳ４３２２
次に、ステップＳ４３２２では、図１１（ｂ）に示すように、ピッチマークを基準として窓掛けを行ってピッチ波形を切り出す。

窓にはハニング窓４３２１ｃを用い、その窓長は基本周期の２倍とする。

そして、図１１（ｃ）に示すように、窓掛けされた波形４３２１ｄをピッチ波形として切り出す。Ｍ個の音声素片のそれぞれについて、図１１に示すような処理（ステップＳ４３２２の処理）を施す。

その結果、Ｍ個の音声素片それぞれについて、複数個のピッチ波形からなるピッチ波形の系列が求まる。

（１１−３）ステップＳ４３２３
次に、ステップＳ４３２３に進み、前記セグメントのＭ個の音声素片のそれぞれのピッチ波形系列の中で、最もピッチ波形の数が多いものに合わせて、Ｍ個全てのピッチ波形の系列中のピッチ波形の数が同じになるように、（ピッチ波形の数が少ないピッチ波形の系列については）ピッチ波形を複製して、ピッチ波形の数をそろえる。

図１２（ａ）、（ｂ）には、前記セグメントＭ個（例えば、ここでは３個）の音声素片ｄ１〜ｄ３のそれぞれから、ステップＳ４３２２で切り出されたピッチ波形の系列ｅ１〜ｅ３を示している。ピッチ波形の系列ｅ１中のピッチ波形の数は７個、ピッチ波形の系列ｅ２中のピッチ波形の数は５個、ピッチ波形の系列ｅ３中のピッチ波形の数は６個であるので、ピッチ波形の系列ｅ１〜ｅ３のうち最もピッチ波形の数が多いものは、系列ｅ１である。

従って、図１２（ｃ）には、この系列ｅ１中のピッチ波形の数（例えば、ここでは、ピッチ波形の数は７個）に合わせて、他の系列ｅ２、ｅ３については、それぞれ、前記系列中のピッチ波形のいずれかをコピーして、ピッチ波形の数を７個にする様子を示している。

その結果得られた、ｅ２、ｅ３のそれぞれに対応する新たなピッチ波形の系列がｅ２´、ｅ３´である。

（１１−４）ステップＳ４３２４
次に、ステップＳ４３２４に進む。このステップでは、ピッチ波形毎に処理を行う。

ステップＳ４３２４では、前記セグメントのＭ個のそれぞれの音声素片に対応するピッチ波形をその位置毎に平均化し、新たなピッチ波形の系列を生成する。この生成された新たなピッチ波形の系列を融合された音声素片とする。

図１２（ｄ）に、１番目から７番目のピッチ波形をそれぞれ３つの音声素片で平均化し、７個の新たなピッチ波形からなる新たなピッチ波形の系列ｆ１を生成している。例えば、系列ｅ１の１番目のピッチ波形と、系列ｅ２´の１番目のピッチ波形と、系列ｅ３´の１番目のピッチ波形のセントロイドを求めて、それを新たな１番目のピッチ波形とする。新たなピッチ波形の系列ｆ１の２番目〜７番目のピッチ波形についても同様である。ピッチ波形の系列ｆ１が、上記「融合された音声素片」である。

なお、Ｍ個の音声素片のうち最も多いピッチ波形を持つものに合わせたが、作成する合成音声素片のピッチマーク数に合わせてもよい。

また、ピッチ波形を融合する際、セントロイドを求めることにより融合したが、これに限るものではない。例えば、Ｍ個のピッチ波形の平均を求める、Ｍ個の音声素片を帯域分割して、各帯域で位相を揃えてから平均を求めるなどの方法であってもよい。

（１１−５）無声音のセグメントの場合
一方、図６のステップＳ４３２０の処理において、無声音のセグメントの場合には、音声素片選択ステップＳ４３１０で前記セグメントのＭ個の音声素片のうち、前記Ｍ個の音声素片のそれぞれに付けられている順位が１位の音声素片をそのまま使用する。

（１２）ステップＳ４３３０
次に、図６のステップＳ４３３０の処理について説明する。

ステップＳ４３３０では、ステップＳ４３２０で求めた、融合された音声素片の音素環境パラメータを算出する。図６のステップＳ４３３０における処理の流れを、図１３のフローチャートに示す。

融合された音声素片の音素環境パラメータは図６のステップＳ４３００において、最適素片系列を求めるときに用いられる。

そのため、ステップＳ４３３１において、融合された音声素片の基本周波数を求める。

ステップＳ４３３２において、融合された音声素片の音韻時間継続長を求める。

ステップＳ４３３３において、融合された音声素片の接続境界のケプストラム係数ベクトルを求めることにより融合された音声素片の音素環境パラメータとする。

ここでは、融合された音声素片の基本周波数、音韻時間継続長、接続境界のケプストラムを求めたが、これに限るものではない。コストの計算に必要な音素環境パラメータに応じて変更することもできる。

以上のようにして、入力音韻系列に対応する複数のセグメントのそれぞれについて、前記セグメントに対し選択されたＭ個の音声素片から、前記Ｍ個の音声素片を融合し、新たな音声素片（融合された音声素片）を生成すると、次に、図６の融合音声素片編集・接続ステップＳ４３４０へ進む。

（１３）ステップＳ４３４０
ステップＳ４３４０では、音声素片編集・接続部４４はステップＳ４３２０で求めた、セグメント毎に融合された音声素片を、入力韻律情報に従って変形し、接続することで（合成音声の）音声波形を生成する。

ステップＳ４３２０で求めた融合された音声素片は、実際にはピッチ波形の形になっているので、前記融合された音声素片の基本周波数、音韻継続時間長のそれぞれが、入力韻律情報に示されている目標音声の基本周波数、目標音声の音韻継続時間長になるようにピッチ波形を重畳することで、音声波形を生成することができる。

図１４は、ステップＳ４３４０の処理を説明するための図である。図１４では、音素「ｏ」、「Ｎ」、「ｓ」、「ｅ」、「Ｎ」の各合成単位についてステップＳ４３２０で求めた、融合された音声素片を変形・接続して、「おんせん」という音声波形を生成する場合を示している。図１４に示すように、入力韻律情報に示されている目標の基本周波数、目標の音韻継続時間長に応じて、セグメント（合成単位）毎に、融合された音声素片中の各ピッチ波形の基本周波数を変えたり（音の高さを変えたり）、ピッチ波形の数を増やしたり（時間長を変えたり）する。その後に、セグメント内、セグメント間で、隣り合うピッチ波形を接続して合成音声を生成する。

（１４）サブコストの要件
なお、上記目標コストは、合成音声を生成するために入力韻律情報を基に、上記のような融合された音声素片の基本周波数や音韻継続時間長などを変更することにより生ずる前記合成音声の目標音声に対する歪みをできるだけ正確に推定（評価）するものであることが望ましい。そのような目標コストの一例である式（１）、式（２）から算出される目標コストは、前記歪み量を、目標音声の韻律情報と音声素片記憶部４０に記憶されている音声素片の韻律情報の違いに基づき算出されるものである。

また、接続コストは、合成音声を生成するために上記のような融合された音声素片を接続することにより生ずる前記合成音声の目標音声に対する歪みをできるだけ正確に推定（評価）するものであることが望ましい。そのような接続コストの一例である、式（３）から算出される接続コストは、音声素片記憶部４０に記憶されている音声素片と、もしくは、音声素片融合ステップＳ４３２０において融合された音声素片との接続境界のケプストラム係数の違いに基づき算出されるものである。

（１５）効果
本実施形態に係る音声合成方法と、従来の複数音声素片選択・融合型の音声合成方法との違いを説明しつつ、本実施形態の効果を説明する。

本実施形態に係る図３に示した音声合成装置では、音素環境算出部４３２があり、融合された音声素片の音素環境パラメータを用いて音声素片選択部４３０内での処理ステップＳ４３００において最適素片系列を求め直す点と、ステップＳ４３３０において融合された音声素片の音素環境パラメータを求めるという点が、従来の音声合成装置（例えば、特許文献１参照）と異なる。

本実施形態では、音声素片選択のときに、隣接するセグメントが既に音声素片選択され、融合された音声素片が存在している場合に融合された音声素片との接続歪みを考慮して音声素片を選択・融合することにより、接続部の不連続間を解消することにより高音質な音声素片を作り出すことができ、その結果、より自然でより高音質な合成音声を生成することができる。

（第２の実施形態）
次に、第２の実施形態に係る音声素片選択部４３０について図１５に基づいて説明する。

図７の最適素片系列４３０１において、融合された音声素片が存在しているセグメントでは、最適素片系列上の音声素片として融合された音声素片を固定して用いていたが、これに限定されるものではない。そのため、この変更例として第２の実施形態を説明する。

最適素片系列４３０１における上記合成単位コストと式（５）より算出されたコストを次のように算出する。

図１５に示すように、最適素片系列上の音声素片が、融合された音声素片の有無に関わらず、音声素片記憶部４０から上記合成単位コストと式（５）より算出されたコストが、最小となるように選択されている最適素片系列４３０２におけるコストより劣化した場合を考える。この場合には、各セグメントにおける接続コストの算出には最適素片系列４３０２を用いて算出する。

これにより、第１の実施形態に比べ、より自然でより高音質な合成音声を安定して生成することができるのである。

（第３の実施形態）
次に、第３の実施形態に係る音声素片選択・融合部４３について図１６に基づいて説明する。

図６では、文頭から文末へ向けて（すなわち、時系列にしたがって）音声素片を融合していくものとしたが、これに限定されるものではない。そのため、この変更例として第３の実施形態を説明する。

合成音声生成時に、音韻系列中の特定の単語や文末部の合成音声の品質を特に向上したい場合に、上記特定の単語や文末部に対応するセグメントを先に融合することもできる。

図１６は、本実施形態に係る音声素片選択・融合部４３の処理を流すフローチャートである。

ステップＳ４３５０において、本実施形態の合成音声方法を使用するユーザにより設定された順序Ｏ_ｉ（ｉ：１，・・・，Ｉ，Ｉはセグメントの数）を設定する。Ｏ_ｉにはｉ＝１から順に各セグメントに対応する１〜Ｉまでの番号が１つずつ付与されており、Ｏ_ｉ番目のセグメントに対してステップＳ４３００、ステップＳ４３１０、ステップＳ４３２０、ステップＳ４３３０における処理をした後、Ｏ_ｉ＋１番目のセグメントに対して同様の処理を繰り返していくものである。

これにより、第１の実施形態に比べ、特定の単語や、文末部など、上記ユーザが特に合成音声の品質を向上させたいセグメントにおける音声素片選択の自由度が向上し、その結果、上記ユーザが所望するより自然でより高音質な合成音声を生成できる。

（第４の実施形態）
次に、第４の実施形態に係る音声素片選択・融合部４３について図１７に基づいて説明する。

図６のステップＳ４３１０では、各セグメントに対しＭ個の音声素片を選択していくものとしたが、これに限定されるものではない。そのため、この変更例として第４の実施形態を説明する。

合成音声生成時に用いる音声素片を融合しないで、音声素片記憶部４０に記憶されている音声素片の中からＬ（＜Ｍ）個の音声素片を融合して生成された音声素片を用いることもできる。すなわち、あるセグメントの音韻と同じ音韻を持つ音声素片が、音声素片記憶部４０にＬ_ｉ個あるとすると、１つのセグメントにつき、

個の音声素片が音声素片選択候補として存在していることになる。

図１７は、図２の音声素片選択・融合部４３における処理の流れを示すフローチャートである。

ステップＳ４３２０において、ｍ個の音声素片を融合し、ステップＳ４３６０においてｍ個の音声素片を融合することによって得られた音声素片の音素環境パラメータを算出する。これをＭ回繰り返し、１つのセグメントにおける音声素片候補を生成する。さらに、各セグメントにおいてステップＳ４３２０、ステップＳ４３６０を同様に繰り返す。

次に、ステップＳ４３００において、各セグメントの音声素片候補に対して最適素片系列の探索を行い、各セグメント毎に選択された音声素片が合成音声として用いられる。

これにより、第１の実施形態と比べ、音声素片記憶部４０に記憶されている音声素片の中からより良い品質の音声素片を生成することができ、より自然でより高音質な合成音声を生成できる。

（変更例）
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。

また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

本発明の第１の実施形態に係る音声合成装置の構成を示すブロック図である。音声合成部の構成例を示すブロック図である。音声素片選択・融合部の構成例を示すブロック図である。音声素片記憶部の音声素片の記憶例を示す図である。音素環境記憶部の音素環境パラメータの記憶例を示す図である。音声素片選択・融合部の処理動作を説明するためのフローチャートである。最適素片系列の例を示す模式図である。音声素片選択部の処理を説明するためのフローチャートである。音声素片選択部の処理を説明するためのフローチャートである。音声素片融合部の処理を説明するためのフローチャートである。ピッチ波形を切り出す処理を説明するためのフローチャートである。ピッチ波形の数をそろえる処理を説明するためのフローチャートである。音素環境算出部の処理を説明するためのフローチャートである。音声素片編集・接続部の処理動作を説明するための図である。第２の実施形態に係る最適素片系列の例を示す模式図である。第３の実施形態に係る音声素片選択・融合部の処理動作を説明するためのフローチャートである。第４の実施形態に係る音声素片選択・融合部の処理動作を説明するためのフローチャートである。

符号の説明

１テキスト入力部
２言語処理部
３韻律処理部
４音声合成部
５音声波形出力部
４０音声素片記憶部
４１音素環境パラメータ記憶部
４２音韻系列・韻律情報入力部
４３音声素片選択・融合部
４４音声素片編集・接続部

Claims

音声素片群と、前記音声素片群のそれぞれの音声素片についての音素環境パラメータを格納している記憶部と、
合成したい目標音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、前記音声素片群から複数の第１音声素片を選択する選択部と、
前記複数の第１音声素片を融合することによって、一つの第２音声素片を生成する生成部と、
前記第２音声素片の音素環境パラメータを算出するパラメータ算出部と、
前記各セグメントのそれぞれに対して生成された前記第２音声素片を接続することによって合成音声を生成する合成部と、
を有し、
前記選択部は、
前記各セグメントの中から、前記第１音声素片を選択する一つのセグメントを注目セグメントとして設定するセグメント設定部と、
前記音声素片群の中から前記注目セグメントの音素と同じ特徴を持つ複数の音声素片を音声素片候補として抽出する抽出部と、
前記注目セグメントの前記各音声素片候補を使用して生成される前記合成音声の歪み量を表す目標コストを、前記各音声素片候補の音素環境パラメータと前記目標音声の韻律情報とからそれぞれ算出する第１コスト算出部と、
前記注目セグメントの前または後に隣接するセグメントである隣接セグメントの音声素片と、前記注目セグメントの前記各音声素片候補とを接続したときに生じる歪み量を表すそれぞれの接続コストを算出するものであって、（１）前記隣接セグメントが前記第２音声素片である場合には、前記第２音声素片の音素環境パラメータと、前記各音声素片候補の音素環境パラメータとから前記接続コストを算出し、または、（２）前記隣接セグメントが前記第２音声素片を有していない場合には、前記注目セグメントに対応する前記音声素片候補の音素環境パラメータと前記隣接セグメントに対応する前記音声素片候補の音素環境パラメータとから前記接続コストを算出する第２コスト算出部と、
前記注目セグメントにおける前記複数の音声素片候補の中で、前記目標コストと前記接続コストとの合計コストが低い複数の音声素片候補を、前記第１音声素片として選択する音声素片選択部と、
を有する音声合成装置。
前記選択部は、
複数の前記セグメントを一つのグループとして、前記セグメント毎に前記目標コストと前記接続コストとの合計からなるセグメントコストを算出するセグメントコスト算出部と、
前記各セグメントのセグメントコストの合計からなるトータルコストを算出するトータルコスト算出部と、
前記セグメント毎に音声素片を選択するものであって、（１）前記第２音声素片を有するセグメントでは前記第２音声素片を選択し、または、（２）前記第２音声素片を有しないセグメントでは前記各音声素片候補から前記トータルコストを最小にする１つの音声素片を選択するセグメント選択部と、
前記選択された前記第２音声素片、または、前記音声素片を前記各セグメントに対応させることにより、前記音声素片の系列である最適素片系列を求める系列算出部と、
を有し、
前記第１コスト算出部と前記第２コスト算出部は、前記最適素片系列上の各セグメントに対し前記注目セグメントと前記隣接セグメントをそれぞれ設定する、
請求項１記載の音声合成装置。
前記選択部は、
前記接続コストを、前記音声素片の音素環境パラメータと前記最適素片系列上における前記隣接セグメントの前記音声素片候補の音素環境パラメータとを用いて算出する、
請求項２記載の音声合成装置。
前記選択部は、
前記各セグメントに予め付与された順序に従って、前記第１音声素片を複数選択する、
請求項２記載の音声合成装置。
前記順序は、有声音のセグメントが上位になるように与えられている、
請求項４記載の音声合成装置。
前記順序は、前記音声素片群に含まれる音声素片の数に従って与えられている、
請求項４記載の音声合成装置。
音声素片群と、前記音声素片群のそれぞれの音声素片についての音素環境パラメータを格納している記憶部と、
合成したい目標音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれの中から一つのセグメントを注目セグメントとして設定するセグメント設定部と、
前記音声素片群の中から前記注目セグメントの音素と同じ特徴を持つ複数の音声素片を第３音声素片として複数抽出する抽出部と、
前記複数の第３音声素片を融合することによって第４音声素片を生成する生成部と、
前記第４音声素片の音素環境パラメータを算出するパラメータ算出部と、
前記注目セグメントの前記各第３音声素片及び前記第４音声素片を使用して生成される前記合成音声の歪み量を表す目標コストを、前記各第３音声素片及び前記第４音声素片の音素環境パラメータと前記目標音声の韻律情報とからそれぞれ算出する第３コスト算出部と、
前記注目セグメントの前または後に隣接するセグメントである隣接セグメントの前記第３音声素片及び前記第４音声素片と、前記注目セグメントの前記各第３音声素片及び前記第４音声素片とを接続したときに生じる歪み量を表すそれぞれの接続コストを、前記注目セグメントの前記第３音声素片及び前記第４音声素片の音素環境パラメータと、前記隣接セグメントの前記第３音声素片及び前記第４音声素片の音素環境パラメータから算出する第４コスト算出部と、
前記注目セグメントにおける前記複数の第３音声素片及び前記第４音声素片の中で、前記目標コストと前記接続コストとの合計コストが低い複数の音声素片を、前記第５音声素片として選択する音声素片選択部と、
前記各セグメントのそれぞれに対して生成された前記第５音声素片を接続することによって合成音声を生成する合成部と、
を有する音声合成装置。
複数の前記セグメントを一つのグループとして、前記セグメント毎に前記目標コストと前記接続コストとの合計からなるセグメントコストを算出するセグメントコスト算出部と、
前記各セグメントのセグメントコストの合計からなるトータルコストを算出するトータルコスト算出部と、
前記セグメント毎に音声素片を選択するものであって、前記各第３音声素片及び前記第４音声素片の中から前記トータルコストを最小にする１つの音声素片を選択するセグメント選択部と、
前記音声素片を前記各セグメントに対応させることにより、前記音声素片の系列である最適素片系列を求める系列算出部と、
を有し、
前記第３コスト算出部と前記第４コスト算出部は、前記最適素片系列上の各セグメントに対し前記注目セグメントと前記隣接セグメントをそれぞれ設定する、
請求項７記載の音声合成装置。
音声素片群と、前記音声素片群のそれぞれの音声素片についての音素環境パラメータを格納する記憶機能と、
合成したい目標音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、前記音声素片群から複数の第１音声素片を選択する選択機能と、
前記複数の第１音声素片を融合することによって、一つの第２音声素片を生成する生成機能と、
前記第２音声素片の音素環境パラメータを算出するパラメータ算出機能と、
前記各セグメントのそれぞれに対して生成された前記第２音声素片を接続することによって合成音声を生成する合成機能と、
を有し、
前記選択機能は、
前記各セグメントの中から、前記第１音声素片を選択する一つのセグメントを注目セグメントとして設定するセグメント設定機能と、
前記音声素片群の中から前記注目セグメントの音素と同じ特徴を持つ複数の音声素片を音声素片候補として抽出する抽出機能と、
前記注目セグメントの前記各音声素片候補を使用して生成される前記合成音声の歪み量を表す目標コストを、前記各音声素片候補の音素環境パラメータと前記目標音声の韻律情報とからそれぞれ算出する第１コスト算出機能と、
前記注目セグメントの前または後に隣接するセグメントである隣接セグメントの音声素片と、前記注目セグメントの前記各音声素片候補とを接続したときに生じる歪み量を表すそれぞれの接続コストを算出するものであって、（１）前記隣接セグメントが前記第２音声素片である場合には、前記第２音声素片の音素環境パラメータと、前記各音声素片候補の音素環境パラメータとから前記接続コストを算出し、または、（２）前記隣接セグメントが前記第２音声素片を有していない場合には、前記注目セグメントに対応する前記音声素片候補の音素環境パラメータと前記隣接セグメントに対応する前記音声素片候補の音素環境パラメータとから前記接続コストを算出する第２コスト算出機能と、
前記注目セグメントにおける前記複数の音声素片候補の中で、前記目標コストと前記接続コストとの合計コストが低い複数の音声素片候補を、前記第１音声素片として選択する音声素片選択機能と、
をコンピュータによって実現する音声合成プログラム。
前記選択機能は、
複数の前記セグメントを一つのグループとして、前記セグメント毎に前記目標コストと前記接続コストとの合計からなるセグメントコストを算出するセグメントコスト算出機能と、
前記各セグメントのセグメントコストの合計からなるトータルコストを算出するトータルコスト算出機能と、
前記セグメント毎に音声素片を選択するものであって、（１）前記第２音声素片を有するセグメントでは前記第２音声素片を選択し、または、（２）前記第２音声素片を有しないセグメントでは前記各音声素片候補から前記トータルコストを最小にする１つの音声素片を選択するセグメント選択機能と、
前記選択された前記第２音声素片、または、前記音声素片を前記各セグメントに対応させることにより、前記音声素片の系列である最適素片系列を求める系列算出機能と、
を有し、
前記第１コスト算出機能と前記第２コスト算出機能は、前記最適素片系列上の各セグメントに対し前記注目セグメントと前記隣接セグメントをそれぞれ設定する、
請求項９記載の音声合成プログラム。
前記選択機能は、
前記接続コストを、前記音声素片の音素環境パラメータと前記最適素片系列上における前記隣接セグメントの前記音声素片候補の音素環境パラメータとを用いて算出する、
請求項１０記載の音声合成プログラム。
前記選択機能は、
前記各セグメントに予め付与された順序に従って、前記第１音声素片を複数選択する、
請求項１０記載の音声合成プログラム。
前記順序は、有声音のセグメントが上位になるように与えられている、
請求項１２記載の音声合成プログラム。
前記順序は、前記音声素片群に含まれる音声素片の数に従って与えられている、
請求項４記載の音声合成プログラム。
音声素片群と、前記音声素片群のそれぞれの音声素片についての音素環境パラメータを格納する記憶機能と、
合成したい目標音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれの中から一つのセグメントを注目セグメントとして設定するセグメント設定機能と、
前記音声素片群の中から前記注目セグメントの音素と同じ特徴を持つ複数の音声素片を第３音声素片として複数抽出する抽出機能と、
前記複数の第３音声素片を融合することによって第４音声素片を生成する生成機能と、
前記第４音声素片の音素環境パラメータを算出するパラメータ算出機能と、
前記注目セグメントの前記各第３音声素片及び前記第４音声素片を使用して生成される前記合成音声の歪み量を表す目標コストを、前記各第３音声素片及び前記第４音声素片の音素環境パラメータと前記目標音声の韻律情報とからそれぞれ算出する第３コスト算出機能と、
前記注目セグメントの前または後に隣接するセグメントである隣接セグメントの前記第３音声素片及び前記第４音声素片と、前記注目セグメントの前記各第３音声素片及び前記第４音声素片とを接続したときに生じる歪み量を表すそれぞれの接続コストを、前記注目セグメントの前記第３音声素片及び前記第４音声素片の音素環境パラメータと、前記隣接セグメントの前記第３音声素片及び前記第４音声素片の音素環境パラメータから算出する第４コスト算出機能と、
前記注目セグメントにおける前記複数の第３音声素片及び前記第４音声素片の中で、前記目標コストと前記接続コストとの合計コストが低い複数の音声素片を、前記第５音声素片として選択する音声素片選択機能と、
前記各セグメントのそれぞれに対して生成された前記第５音声素片を接続することによって合成音声を生成する合成機能と、
をコンピュータによって実現する音声合成プログラム。
複数の前記セグメントを一つのグループとして、前記セグメント毎に前記目標コストと前記接続コストとの合計からなるセグメントコストを算出するセグメントコスト算出機能と、
前記各セグメントのセグメントコストの合計からなるトータルコストを算出するトータルコスト算出機能と、
前記セグメント毎に音声素片を選択するものであって、前記各第３音声素片及び前記第４音声素片の中から前記トータルコストを最小にする１つの音声素片を選択するセグメント選択機能と、
前記音声素片を前記各セグメントに対応させることにより、前記音声素片の系列である最適素片系列を求める系列算出機能と、
を有し、
前記第３コスト算出機能と前記第４コスト算出機能は、前記最適素片系列上の各セグメントに対し前記注目セグメントと前記隣接セグメントをそれぞれ設定する、
請求項１５記載の音声合成プログラム。
音声素片群と、前記音声素片群のそれぞれの音声素片についての音素環境パラメータを格納する記憶ステップと、
合成したい目標音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、前記音声素片群から複数の第１音声素片を選択する選択ステップと、
前記複数の第１音声素片を融合することによって、一つの第２音声素片を生成する生成ステップと、
前記第２音声素片の音素環境パラメータを算出するパラメータ算出ステップと、
前記各セグメントのそれぞれに対して生成された前記第２音声素片を接続することによって合成音声を生成する合成ステップと、
を有し、
前記選択ステップは、
前記各セグメントの中から、前記第１音声素片を選択する一つのセグメントを注目セグメントとして設定するセグメント設定ステップと、
前記音声素片群の中から前記注目セグメントの音素と同じ特徴を持つ複数の音声素片を音声素片候補として抽出する抽出ステップと、
前記注目セグメントの前記各音声素片候補を使用して生成される前記合成音声の歪み量を表す目標コストを、前記各音声素片候補の音素環境パラメータと前記目標音声の韻律情報とからそれぞれ算出する第１コスト算出ステップと、
前記注目セグメントの前または後に隣接するセグメントである隣接セグメントの音声素片と、前記注目セグメントの前記各音声素片候補とを接続したときに生じる歪み量を表すそれぞれの接続コストを算出するものであって、（１）前記隣接セグメントが前記第２音声素片である場合には、前記第２音声素片の音素環境パラメータと、前記各音声素片候補の音素環境パラメータとから前記接続コストを算出し、または、（２）前記隣接セグメントが前記第２音声素片を有していない場合には、前記注目セグメントに対応する前記音声素片候補の音素環境パラメータと前記隣接セグメントに対応する前記音声素片候補の音素環境パラメータとから前記接続コストを算出する第２コスト算出ステップと、
前記注目セグメントにおける前記複数の音声素片候補の中で、前記目標コストと前記接続コストとの合計コストが低い複数の音声素片候補を、前記第１音声素片として選択する音声素片選択ステップと、
を有する音声合成方法。
音声素片群と、前記音声素片群のそれぞれの音声素片についての音素環境パラメータを格納する記憶ステップと、
合成したい目標音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれの中から一つのセグメントを注目セグメントとして設定するセグメント設定ステップと、
前記音声素片群の中から前記注目セグメントの音素と同じ特徴を持つ複数の音声素片を第３音声素片として複数抽出する抽出ステップと、
前記複数の第３音声素片を融合することによって第４音声素片を生成する生成ステップと、
前記第４音声素片の音素環境パラメータを算出するパラメータ算出ステップと、
前記注目セグメントの前記各第３音声素片及び前記第４音声素片を使用して生成される前記合成音声の歪み量を表す目標コストを、前記各第３音声素片及び前記第４音声素片の音素環境パラメータと前記目標音声の韻律情報とからそれぞれ算出する第３コスト算出ステップと、
前記注目セグメントの前または後に隣接するセグメントである隣接セグメントの前記第３音声素片及び前記第４音声素片と、前記注目セグメントの前記各第３音声素片及び前記第４音声素片とを接続したときに生じる歪み量を表すそれぞれの接続コストを、前記注目セグメントの前記第３音声素片及び前記第４音声素片の音素環境パラメータと、前記隣接セグメントの前記第３音声素片及び前記第４音声素片の音素環境パラメータから算出する第４コスト算出ステップと、
前記注目セグメントにおける前記複数の第３音声素片及び前記第４音声素片の中で、前記目標コストと前記接続コストとの合計コストが低い複数の音声素片を、前記第５音声素片として選択する音声素片選択ステップと、
前記各セグメントのそれぞれに対して生成された前記第５音声素片を接続することによって合成音声を生成する合成ステップと、
を有する音声合成方法。