JP2009133890A - 音声合成装置及びその方法 - Google Patents

音声合成装置及びその方法 Download PDF

Info

Publication number
JP2009133890A
JP2009133890A JP2007307578A JP2007307578A JP2009133890A JP 2009133890 A JP2009133890 A JP 2009133890A JP 2007307578 A JP2007307578 A JP 2007307578A JP 2007307578 A JP2007307578 A JP 2007307578A JP 2009133890 A JP2009133890 A JP 2009133890A
Authority
JP
Japan
Prior art keywords
speech
segment
unit
speech unit
cost
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007307578A
Other languages
English (en)
Inventor
Ryo Morinaka
亮 森中
Takehiko Kagoshima
岳彦 籠嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2007307578A priority Critical patent/JP2009133890A/ja
Publication of JP2009133890A publication Critical patent/JP2009133890A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】自然で高音質な合成音声を生成することが出来る音声合成装置を提供する。
【解決手段】音声合成部4は音声素片記憶部40、音素環境記憶部41、音韻系列・韻律情報入力部42、音声素片選択・融合部43、音声素片編集・接続部44により構成され、音声素片選択・融合部43は、音声素片選択部430、音声素片融合部431、音素環境算出部432により構成され、融合された音声素片の音素環境パラメータを用いて音声素片選択部430内で最適素片系列を求め、融合された音声素片の音素環境パラメータを求めて、音声合成を行う。
【選択図】 図3

Description

本発明は、テキスト音声合成に関し、特に音韻記号列、ピッチ、音韻継続時間長などの情報から音声信号を生成する音声合成装置及びその方法に関する。
任意の文章から人工的に音声信号を作り出すことを「テキスト音声合成」という。テキスト音声合成は、一般的に言語処理部、韻律処理部及び音声合成部の3つの段階から構成されるものである。
入力されたテキストは、第1段階として言語処理部において形態素解析や構文解析などが行われる。次に、第2段階として韻律処理部においてアクセントやイントネーションの処理が行われて、音韻系列・韻律情報(基本周波数、音韻継続時間長、パワーなど)が出力される。その後、最終段階として音声信号合成部で音韻系列・韻律情報から音声信号を合成することによりテキスト音声合成を実現している。
このような任意の音韻記号列を合成することができる合成器の原理は、母音をV、子音をCで表すと、CV、CVC、VCVなどの基本となる小さな音声単位の特徴パラメータ(音声素片)を記憶し、ピッチや継続時間長を制御して接続することにより音声を合成するものである。この方式では、記憶されている音声素片が合成音声の品質を大きく左右することになる。
このような音声合成方法の1つとして、入力された音韻系列・韻律情報を目標として、大量の音声素片から音声単位毎に複数の音声素片を選択し、選択された複数の音声素片を融合することによって新たな音声素片を生成し、それらを接続して音声を合成する複数音声素片選択・融合型の音声合成方法がある(例えば、特許文献1参照)。
この複数音声素片選択・融合型の音声合成は、まず予め記憶された大量の音声素片の中から、入力された音韻系列・韻律情報に基づき音声素片を選択する。音声素片選択方法としては、音声を合成することで生じる合成音声の歪みの度合いをコスト関数として定義し、コストが小さくなるように音声素片を選択する方法がある。
例えば、目標とする音声と各音声素片との韻律・音韻環境などの差異を表す目標歪み、音声素片を接続することで生じる接続歪みをコストとして数値化する。このコストに基づいて音声合成に使用する音声素片を選択する。さらに、例えばピッチ波形を平均化する、選択された複数の音声素片のセントロイドを用いるなどの方法で融合する。これにより、音声素片の編集及び接続における音質の劣化を抑え、安定した合成音声を得ることができる。
特開2005−164749公報
上記のような複数音声素片選択・融合型の音声合成方法では、融合音声素片候補を選択するときに、合成音声として使用する音声素片との接続歪みを考慮しないで、予め音声素片の中から求められている、すなわち、実際には合成音声の音声素片として用いられない最適素片系列上の音声素片との接続歪みに基づいて融合音声素片候補を求めているため、生成された合成音声の接続部に不連続が生じてしまうという問題点がある。
そこで、本発明は、上記問題点に鑑み、複数音声素片選択・融合型の音声合成において、より自然で高音質な合成音声を生成することが出来る音声合成装置及びその方法を提供することを目的とする。
本発明は、音声素片群と、前記音声素片群のそれぞれの音声素片についての音素環境パラメータを格納している記憶部と、合成したい目標音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、前記音声素片群から複数の第1音声素片を選択する選択部と、前記複数の第1音声素片を融合することによって、一つの第2音声素片を生成する生成部と、前記第2音声素片の音素環境パラメータを算出するパラメータ算出部と、前記各セグメントのそれぞれに対して生成された前記第2音声素片を接続することによって合成音声を生成する合成部と、を有し、前記選択部は、前記各セグメントの中から、前記第1音声素片を選択する一つのセグメントを注目セグメントとして設定するセグメント設定部と、前記音声素片群の中から前記注目セグメントの音素と同じ特徴を持つ複数の音声素片を音声素片候補として抽出する抽出部と、前記注目セグメントの前記各音声素片候補を使用して生成される前記合成音声の歪み量を表す目標コストを、前記各音声素片候補の音素環境パラメータと前記目標音声の韻律情報とからそれぞれ算出する第1コスト算出部と、前記注目セグメントの前または後に隣接するセグメントである隣接セグメントの音声素片と、前記注目セグメントの前記各音声素片候補とを接続したときに生じる歪み量を表すそれぞれの接続コストを算出するものであって、(1)前記隣接セグメントが前記第2音声素片である場合には、前記第2音声素片の音素環境パラメータと、前記各音声素片候補の音素環境パラメータとから前記接続コストを算出し、または、(2)前記隣接セグメントが前記第2音声素片を有していない場合には、前記注目セグメントに対応する前記音声素片候補の音素環境パラメータと前記隣接セグメントに対応する前記音声素片候補の音素環境パラメータとから前記接続コストを算出する第2コスト算出部と、前記注目セグメントにおける前記複数の音声素片候補の中で、前記目標コストと前記接続コストとの合計コストが低い複数の音声素片候補を、前記第1音声素片として選択する音声素片選択部と、を有する音声合成装置である。
また、本発明は、音声素片群と、前記音声素片群のそれぞれの音声素片についての音素環境パラメータを格納している記憶部と、合成したい目標音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれの中から一つのセグメントを注目セグメントとして設定するセグメント設定部と、前記音声素片群の中から前記注目セグメントの音素と同じ特徴を持つ複数の音声素片を第3音声素片として複数抽出する抽出部と、前記複数の第3音声素片を融合することによって第4音声素片を生成する生成部と、前記第4音声素片の音素環境パラメータを算出するパラメータ算出部と、前記注目セグメントの前記各第3音声素片及び前記第4音声素片を使用して生成される前記合成音声の歪み量を表す目標コストを、前記各第3音声素片及び前記第4音声素片の音素環境パラメータと前記目標音声の韻律情報とからそれぞれ算出する第3コスト算出部と、前記注目セグメントの前または後に隣接するセグメントである隣接セグメントの前記第3音声素片及び前記第4音声素片と、前記注目セグメントの前記各第3音声素片及び前記第4音声素片とを接続したときに生じる歪み量を表すそれぞれの接続コストを、前記注目セグメントの前記第3音声素片及び前記第4音声素片の音素環境パラメータと、前記隣接セグメントの前記第3音声素片及び前記第4音声素片の音素環境パラメータから算出する第4コスト算出部と、前記注目セグメントにおける前記複数の第3音声素片及び前記第4音声素片の中で、前記目標コストと前記接続コストとの合計コストが低い複数の音声素片を、前記第5音声素片として選択する音声素片選択部と、前記各セグメントのそれぞれに対して生成された前記第5音声素片を接続することによって合成音声を生成する合成部と、を有する音声合成装置である。
本発明によれば、融合音声素片との接続歪みを考慮しない場合と比べ音質の劣化の程度が減少し、より自然で高音質な合成音声を生成する音声合成方法を提供することが出来る。
本発明の実施形態におけるテキスト音声合成を行う音声合成装置について図面を参照して説明する。
(第1の実施形態)
本発明の第1の実施形態における音声合成装置について図1〜図14に基づいて説明する。
(1)音声合成装置の構成
図1は、本実施形態に係る音声合成装置の構成を示すブロック図である。
図1に示すように、音声合成装置は、テキスト入力部1、言語処理部2、韻律処理部3、音声合成部4、音声波形出力部5から構成される。
各部の機能は、コンピュータに格納されたプログラムによっても実現できる。
言語処理部2は、テキスト入力部1から入力されるテキストの形態素解析・構文解析を行い、その結果を韻律処理部3へ送る。
韻律処理部3は、言語解析結果からアクセントやイントネーションの処理を行い、音韻系列(音韻記号列)及び韻律情報を生成し、音声合成部4へ送る。
音声合成部4は、音韻系列及び韻律情報から音声波形を生成する。
音声波形出力部5は、こうして生成された音声波形を出力する。
(2)音声合成部4の構成
図2は、図1の音声合成部4の構成例を示すブロック図である。
図2に示すように、音声合成部4は音声素片記憶部40、音素環境記憶部41、音韻系列・韻律情報入力部42、音声素片選択・融合部43、音声素片編集・接続部44により構成される。
以下、各部40〜44の機能について詳しく説明する。
(3)音声素片記憶部40
音声素片記憶部40には大量の音声素片が蓄積されており、合成音声を生成するときに用いる音声の単位(合成単位)の音声素片が記憶されている。
合成単位は、音素あるいは音素を分割したものの組み合わせである。例えば、半音素、音素(C、V)、ダイフォン(CV、VC、VV)、トライフォン(CVC、VCV)、音節(CV、V)、などであり、これらが混在しているなど可変長であってもよい。なお、Vは母音、Cは子音を表す。
また、音声素片は、合成単位に対応する音声信号の波形もしくはその特徴を表すパラメータ系列などを表すものとする。
音声素片記憶部40には、例えば音声素片が音素の場合には、図4に示すように、各音素の音声信号の波形が前記音素を識別するための音声素片番号と共に記憶されている。音声素片記憶部40に記憶されている各音声素片は、別途収集された多数の音声データに対して音素毎にラベリングを行い、音素毎に音声波形を切り出したものを、音声素片として蓄積したものである。
(4)音素環境記憶部41
音素環境記憶部41には、音声素片記憶部40に記憶されている音声素片の音素環境パラメータが記憶されている。
音声素片の音素環境パラメータとは、前記音声素片にとっての音素環境となる要因の組み合わせに対応する情報である。要因としては、例えば、前記音声素片の音素名、先行音素、後続音素、後々続音素、基本周波数、音韻継続時間長、パワー、ストレスの有無、アクセント核からの位置、息継ぎからの時間、発声速度、感情などがある。
音素環境記憶部41には、例えば音声素片が音素の場合には、図5に示すように、音声素片記憶部40に記憶されている各音素の音素環境パラメータが、前記音素の音声素片番号に対応付けて記憶されている。ここでは、音素環境パラメータとして、音素記号(音素名)、基本周波数、音韻時間継続長、音声素片両端におけるケプストラム係数が記憶されている。
(5)音韻系列・韻律情報入力部42
音韻系列・韻律情報入力部42には、韻律処理部3から出力された目標音声の音韻系列及び韻律情報が入力される。音韻系列・韻律情報入力部42に入力される韻律情報としては、基本周波数、音韻継続時間長、パワーなどがある。
以下、音韻系列・韻律情報入力部42に入力される音韻系列と韻律情報を、それぞれ「入力音韻系列」、「入力韻律情報」と呼ぶ。入力音韻系列は、例えば音韻記号の系列である。
音韻系列・韻律情報入力部42には、例えば音声素片が音素の場合には、音韻の情報として、テキスト音声合成のために入力テキストの形態素解析・構文解析後、さらにアクセントやイントネーション処理を行って得られた韻律情報と音韻系列が入力される。入力韻律情報には、基本周波数及び音韻継続時間長が含まれていることとする。
(6)音声素片選択・融合部43
次に、音声素片選択・融合部43について説明する。
図3は、図2の音声素片選択・融合部43の構成例を示すブロック図である。
図3に示すように、音声素片選択・融合部43は、音声素片選択部430、音声素片融合部431、音素環境算出部432により構成される。
(6−1)音声素片選択部430
音声素片選択部430は、入力音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、入力韻律情報と、音声素片の音素環境パラメータに含まれる韻律情報ないし、後述する音素環境算出部432で得られる融合された音声素片の音素環境パラメータとの歪みの度合いであるを歪み量を推定し、前記歪み量を最小化するように音声素片記憶部40に記憶されている音声素片の中から音声素片を選択する。
歪み量としては、後述するコスト関数を用いることができるが、これに限定するものではない。
(6−2)音声素片融合部431
音声素片融合部431は、音声素片選択部430において選択された複数の音声素片を融合して、新たな音声素片を生成する。
(6−3)音素環境算出部432
音素環境算出部432は、音声素片融合部431において融合された音声素片の音素環境パラメータを算出する。この操作をセグメント毎に行うことにより、入力音韻系列の音韻記号の系列に対応する新たな音声素片の系列が得られる。
(7)音声素片編集・接続部44
音声素片編集・接続部44において、新たな音声素片の系列は、入力韻律情報に基づいて変形及び接続され、合成音声の音声波形が生成される。
こうして生成された音声波形は図2の音声波形出力部5で出力される。
(8)音声素片選択・融合部43の処理の内容
次に、図6に基づいて音声素片選択・融合部43における処理の流れを説明する。ここでは、合成単位の音声素片は音素であるとする。図6は、音声素片選択・融合部43における処理の流れを示すフローチャートである。
なお、本実施形態では、合成音声のセグメントの数をI個とし、文頭から文末へ向けて(すなわち、時系列にしたがって)、音声素片を融合していくものとする。
また、ステップS4300、ステップS4310、ステップS4320及びステップS4330はI回繰り返され、I個のセグメントが1回ずつ注目セグメントとなるように処理を行う。以下、各ステップについて説明する。
(9)ステップS4300
まず、ステップS4300では、後述するコスト関数に基づいて最適素片系列を求めていく。
(9−1)コスト関数
コスト関数は次のように定める。
まず、音声素片を変形・接続して合成音声を生成するときに生ずる歪みの要因毎にサブコスト関数C(ui,i−1,t)(n:1,・・・,N,Nはサブコスト関数の数)を定める。ここで、tは、入力音韻系列及び入力韻律情報に対応する目標とする音声(目標音声)をt=(t,・・・,t)としたときのi番目のセグメントに対応する部分の音声素片の目標とする音素環境パラメータ情報を表し、uは音声素片記憶部40に記憶されている音声素片のうち、tと同じ音韻の音声素片を表す。
サブコスト関数は、音声素片記憶部40に記憶されている音声素片を用いて合成音声を生成したときに生ずる前記合成音声の目標音声に対する歪み量を推定するためのコストを算出するためのものである。
前記コストを算出するために、ここでは、具体的には、前記音声素片を使用することによって生じる合成音声の目標音声に対する歪み量を推定する目標コストと、前記音声素片を他の音声素片と接続したときに生じる前記合成音声の目標音声に対する歪み量を推定する接続コストという2種類のサブコストを用いる。
「目標コスト」としては、音声素片記憶部40に記憶されている音声素片の基本周波数と目標の基本周波数との違い(差)を表す基本周波数コスト、音声素片の音韻継続時間長と目標の音韻継続時間長との違い(差)を表す音韻継続時間長コストを用いる。
「接続コスト」としては、接続境界でのスペクトルの違い(差)を表すスペクトル接続コストを用いる。
具体的には、基本周波数コストは、
Figure 2009133890
から算出する。ここで、vは音声素片記憶部40に記憶されている音声素片uの音素環境パラメータを、fは音素環境パラメータvから基本周波数を取り出す関数を表す。
また、音韻継続時間長コストは、
Figure 2009133890
から算出する。ここで、gは音素環境パラメータvから音韻継続時間長を取り出す関数を表す。
また、スペクトル接続コストは、2つの音声素片間のケプストラム距離:
Figure 2009133890
から算出する。ここで、hは音声素片uの接続境界のケプストラム係数をベクトルとして取り出す関数を表す。
これらのサブコスト関数の重み付き和を合成単位コスト関数と定義する:
Figure 2009133890
ここで、wはサブコスト関数の重みを表す。本実施形態では、簡単のため、wはすべて「1」とする。上記式(4)は、ある合成単位に、ある音声素片を当てはめた場合の前記音声素片の合成単位コストである。
入力音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、上記式(4)から合成単位コストを算出した結果を、全セグメントについて足し合わせたものをコストと呼び、前記コストを算出するためのコスト関数を次式(5)に示すように定義する:
Figure 2009133890
(9−2)最適素片系列
図6のステップS4300では、上記式(1)〜(5)に示したコスト関数を使って1セグメント当たり(すなわち、1合成単位当たり)1つの音声素片を用いて、上記式(5)で算出されるコストの値が最小の音声素片の系列を求める。
また、後述する音声素片融合部431で生成された融合音声素片が存在しないセグメントに対しては音声素片記憶部40中の音声素片の中から1つを用いて、上記式(5)で算出されるコストの値が最小の音声素片の系列を求める。
さらに、音声素片融合部431で生成された融合音声素片が存在するセグメントに対しては融合音声素片を用いて、上記式(5)で算出されるコストの値が最小の音声素片の系列を求める。
このコストが最小となる音声素片の組合せを「最適素片系列」と呼ぶこととする。すなわち、最適素片系列中の各音声素片は、入力音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対応し、最適素片系列中の各音声素片から算出された上記合成単位コストと式(5)より算出されたコストの値は、他のどの音声素片系列よりも小さい値である。なお、最適素片系列の探索には、動的計画法(DP:dynamic programing)を用いることでより効率的に行うことができる。
(9−3)具体例
例えば、図7に示すように、入力音韻系列が「ts・i・i・s・a・・・・」であるとする。この場合、合成単位は、音素「ts」、「i」、「i」、「s」、「a」、・・・のそれぞれに対応し、これら音素のそれぞれが1つのセグメントに対応する。
入力された音韻系列中の3番目の音素「i」に対応するセグメントを注目セグメントとする。すなわち、入力された音韻系列中の1番目の音素「ts」と2番目の音素「i」は既にステップS4320において音声素片融合され、それぞれステップS4330において融合した音声素片の音素環境パラメータが算出されている。
この場合、最適素片系列上の1番目の音素「ts」と2番目の「i」に対応する音声素片4301a、4301bは融合された音声素片となっており、音韻系列中の残りの3番目の音素「i」、4番目の音素「s」と5番目の音素「a」、・・・、では音声素片記憶部40からそれぞれ4301c、4301d、4301e、・・・が最適素片系列4301上の音声素片として選ばれている。
この最適素片系列4301上の音声素片4301a、4301b、4301c、4301d、4301e、・・・からなる音声素片系列を用いると、上記合成単位コストと式(5)より算出されたコストが他のどの音声素片系列よりも小さな値となっている。
(10)ステップS4310
次に、ステップS4310に進み、ステップS4300で求めた最適素片系列を用いて、1セグメント当たり複数の音声素片を選ぶ。ここでは、I個のセグメントそれぞれに対し、M個の音声素片を選ぶこととして説明する。詳細を図8のフローチャートに示す。
ステップS4311では式(5)で算出されるコストの値に応じて順位付けし、ステップS4312において上位M個の音声素片を選択する。
例えば、図7と同様に図9では、入力音韻系列が「ts・i・i・s・a・・・・」であるとする。図9では、入力された音韻系列中の3番目の音素「i」に対応するセグメントを注目セグメントとし、この注目セグメントについて、複数の音声素片を求める場合を示している。この3番目の音素「i」に対応するセグメント以外のセグメントに対しては、最適素片系列中の音声素片4313a、4313b、4313d、4313e、・・・を固定する。図7の最適系列中の音声素片と比較すると、音声素片4313aは融合音声素片4301aと、音声素片4313bは融合音声素片4301bと、音声素片4313dは音声素片4301dと、音声素片4313eは音声素片4301eと対応している。
この状態で、音声素片記憶部40に記憶されている音声素片のうち、注目セグメントの音素「i」と同じ音素名(音素記号)をもつ音声素片のそれぞれについて、式(5)を用いてコストを算出する。但し、それぞれの音声素片に対してコストを求めるときに、値が変わるのは、注目セグメントの目標コスト、注目セグメントとその一つ前のセグメントとの接続コスト、注目セグメントとその一つ後のセグメントとの接続コストであるので、これらのコストのみを考慮すればよい。
すなわち、下記のような手順となる。
(手順1) 音声素片記憶部40に記憶されている音声素片のうち、注目セグメントの音素「i」と同じ音素名(音素記号)をもつ音声素片のうちの1つを音声素片uとする。音声素片uの基本周波数f(v)と、目標の基本周波数f(t)とから、式(1)を用いて、基本周波数コストを算出する。
(手順2) 音声素片uの音韻継続時間長g(v)と、目標の音韻継続時間長g(t)とから、式(2)を用いて、音韻継続時間長コストを算出する。
(手順3) 音声素片uのケプストラム係数h(u)と、融合された音声素片4313b(u)のケプストラム係数h(u)とから、式(3)を用いて、第1のスペクトル接続コストを算出する。また、音声素片uのケプストラム係数h(u)と、融合された音声素片4313d(u)のケプストラム係数h(u)とから、式(3)を用いて、第2のスペクトル接続コストを算出する。
(手順4) 上記手順1〜手順3で各サブコスト関数を用いて算出された基本周波数コストと音韻継続時間長コストと第1及び第2のスペクトル接続コストの重み付け和を算出して、音声素片uのコストを算出する。
(手順5) 音声素片記憶部40に記憶されている音声素片のうち、注目セグメントの音素「i」と同じ音素名(音素記号)をもつ各音声素片について、上記手順1〜手順4に従って、コストを算出したら、その値の最も小さい音声素片ほど高い順位となるように順位付けを行う(図8のステップS4311)。そして、上位M個の音声素片を選択する(図8のステップS4312)。例えば、図9では、音声素片4314aが最も順位が高く、音声素片4314dが最も順位が低い。
以上の手順1〜手順5をそれぞれのセグメントに対して行う。その結果、それぞれのセグメントについて、M個ずつの音声素片が得られる。
音素環境パラメータとして、音声素片の音韻とその基本周波数及び音韻継続長の情報として説明したが、これらに限定するものではなく、必要に応じて、音韻、基本周波数、音韻継続時間長、先行音素、後続音素、後々続音素、パワー、ストレスの有無、アクセント核からの位置、息継ぎからの時間、発生速度、感情などの情報などを組み合わせて用いることが出来る。
(11)ステップS4320
次に、図6のステップS4320の処理について説明する。
ステップS4320では、注目セグメントに対して、ステップS4310で求めたM個の音声素片から、セグメント毎に前記M個の音声素片を融合し、新たな音声素片(融合された音声素片)を生成する。有声音の波形には周期があるが、無声音の波形には周期がないため、このステップは音声素片が有声音である場合と無声音である場合とで別の処理を行う。
まず、有声音の場合について説明する。有声音の場合には、音声素片からピッチ波形を取り出し、ピッチ波形のレベルで融合し、新たなピッチ波形を作り出す。ピッチ波形とは、その長さが音声の基本周期の数倍程度までで、それ自身は基本周期を持たない比較的短い波形であって、そのスペクトルが音声信号のスペクトル包絡を表すようなものを意味する。
その抽出方法としては、単に基本周期同期窓で切り出す方法、ケプストラム分析やPSE分析によって得られたパワースペクトル包絡を逆離散フーリエ変換する方法、線形予測分析によって得られたフィルタのインパルス応答によってピッチ波形を求める方法、閉ループ学習法によって合成音声のレベルで自然音声に対する歪みが小さくなるようなピッチ波形を求める方法など様々なものがある。
本実施形態では、基本周期同期窓で切り出す方法を用いてピッチ波形を抽出する場合を例にとり、図10のフローチャートを参照して説明する。ここでは、複数のセグメントのうちの1つのセグメントについて、M個の音声素片を融合して1つの新たな音声素片を生成する場合の処理手順を説明する。
(11−1)ステップS4321
まず、ステップS4321において、M個の音声素片のそれぞれの音声波形に、その周期間隔毎にマーク(ピッチマーク)を付ける。
図11(a)には、M個の音声素片のうちの1つの音声素片の音声波形4321aに対し、その周期間隔毎にピッチマーク4321bが付けられている場合を示している。
(11−2)ステップS4322
次に、ステップS4322では、図11(b)に示すように、ピッチマークを基準として窓掛けを行ってピッチ波形を切り出す。
窓にはハニング窓4321cを用い、その窓長は基本周期の2倍とする。
そして、図11(c)に示すように、窓掛けされた波形4321dをピッチ波形として切り出す。M個の音声素片のそれぞれについて、図11に示すような処理(ステップS4322の処理)を施す。
その結果、M個の音声素片それぞれについて、複数個のピッチ波形からなるピッチ波形の系列が求まる。
(11−3)ステップS4323
次に、ステップS4323に進み、前記セグメントのM個の音声素片のそれぞれのピッチ波形系列の中で、最もピッチ波形の数が多いものに合わせて、M個全てのピッチ波形の系列中のピッチ波形の数が同じになるように、(ピッチ波形の数が少ないピッチ波形の系列については)ピッチ波形を複製して、ピッチ波形の数をそろえる。
図12(a)、(b)には、前記セグメントM個(例えば、ここでは3個)の音声素片d1〜d3のそれぞれから、ステップS4322で切り出されたピッチ波形の系列e1〜e3を示している。ピッチ波形の系列e1中のピッチ波形の数は7個、ピッチ波形の系列e2中のピッチ波形の数は5個、ピッチ波形の系列e3中のピッチ波形の数は6個であるので、ピッチ波形の系列e1〜e3のうち最もピッチ波形の数が多いものは、系列e1である。
従って、図12(c)には、この系列e1中のピッチ波形の数(例えば、ここでは、ピッチ波形の数は7個)に合わせて、他の系列e2、e3については、それぞれ、前記系列中のピッチ波形のいずれかをコピーして、ピッチ波形の数を7個にする様子を示している。
その結果得られた、e2、e3のそれぞれに対応する新たなピッチ波形の系列がe2´、e3´である。
(11−4)ステップS4324
次に、ステップS4324に進む。このステップでは、ピッチ波形毎に処理を行う。
ステップS4324では、前記セグメントのM個のそれぞれの音声素片に対応するピッチ波形をその位置毎に平均化し、新たなピッチ波形の系列を生成する。この生成された新たなピッチ波形の系列を融合された音声素片とする。
図12(d)に、1番目から7番目のピッチ波形をそれぞれ3つの音声素片で平均化し、7個の新たなピッチ波形からなる新たなピッチ波形の系列f1を生成している。例えば、系列e1の1番目のピッチ波形と、系列e2´の1番目のピッチ波形と、系列e3´の1番目のピッチ波形のセントロイドを求めて、それを新たな1番目のピッチ波形とする。新たなピッチ波形の系列f1の2番目〜7番目のピッチ波形についても同様である。ピッチ波形の系列f1が、上記「融合された音声素片」である。
なお、M個の音声素片のうち最も多いピッチ波形を持つものに合わせたが、作成する合成音声素片のピッチマーク数に合わせてもよい。
また、ピッチ波形を融合する際、セントロイドを求めることにより融合したが、これに限るものではない。例えば、M個のピッチ波形の平均を求める、M個の音声素片を帯域分割して、各帯域で位相を揃えてから平均を求めるなどの方法であってもよい。
(11−5)無声音のセグメントの場合
一方、図6のステップS4320の処理において、無声音のセグメントの場合には、音声素片選択ステップS4310で前記セグメントのM個の音声素片のうち、前記M個の音声素片のそれぞれに付けられている順位が1位の音声素片をそのまま使用する。
(12)ステップS4330
次に、図6のステップS4330の処理について説明する。
ステップS4330では、ステップS4320で求めた、融合された音声素片の音素環境パラメータを算出する。図6のステップS4330における処理の流れを、図13のフローチャートに示す。
融合された音声素片の音素環境パラメータは図6のステップS4300において、最適素片系列を求めるときに用いられる。
そのため、ステップS4331において、融合された音声素片の基本周波数を求める。
ステップS4332において、融合された音声素片の音韻時間継続長を求める。
ステップS4333において、融合された音声素片の接続境界のケプストラム係数ベクトルを求めることにより融合された音声素片の音素環境パラメータとする。
ここでは、融合された音声素片の基本周波数、音韻時間継続長、接続境界のケプストラムを求めたが、これに限るものではない。コストの計算に必要な音素環境パラメータに応じて変更することもできる。
以上のようにして、入力音韻系列に対応する複数のセグメントのそれぞれについて、前記セグメントに対し選択されたM個の音声素片から、前記M個の音声素片を融合し、新たな音声素片(融合された音声素片)を生成すると、次に、図6の融合音声素片編集・接続ステップS4340へ進む。
(13)ステップS4340
ステップS4340では、音声素片編集・接続部44はステップS4320で求めた、セグメント毎に融合された音声素片を、入力韻律情報に従って変形し、接続することで(合成音声の)音声波形を生成する。
ステップS4320で求めた融合された音声素片は、実際にはピッチ波形の形になっているので、前記融合された音声素片の基本周波数、音韻継続時間長のそれぞれが、入力韻律情報に示されている目標音声の基本周波数、目標音声の音韻継続時間長になるようにピッチ波形を重畳することで、音声波形を生成することができる。
図14は、ステップS4340の処理を説明するための図である。図14では、音素「o」、「N」、「s」、「e」、「N」の各合成単位についてステップS4320で求めた、融合された音声素片を変形・接続して、「おんせん」という音声波形を生成する場合を示している。図14に示すように、入力韻律情報に示されている目標の基本周波数、目標の音韻継続時間長に応じて、セグメント(合成単位)毎に、融合された音声素片中の各ピッチ波形の基本周波数を変えたり(音の高さを変えたり)、ピッチ波形の数を増やしたり(時間長を変えたり)する。その後に、セグメント内、セグメント間で、隣り合うピッチ波形を接続して合成音声を生成する。
(14)サブコストの要件
なお、上記目標コストは、合成音声を生成するために入力韻律情報を基に、上記のような融合された音声素片の基本周波数や音韻継続時間長などを変更することにより生ずる前記合成音声の目標音声に対する歪みをできるだけ正確に推定(評価)するものであることが望ましい。そのような目標コストの一例である式(1)、式(2)から算出される目標コストは、前記歪み量を、目標音声の韻律情報と音声素片記憶部40に記憶されている音声素片の韻律情報の違いに基づき算出されるものである。
また、接続コストは、合成音声を生成するために上記のような融合された音声素片を接続することにより生ずる前記合成音声の目標音声に対する歪みをできるだけ正確に推定(評価)するものであることが望ましい。そのような接続コストの一例である、式(3)から算出される接続コストは、音声素片記憶部40に記憶されている音声素片と、もしくは、音声素片融合ステップS4320において融合された音声素片との接続境界のケプストラム係数の違いに基づき算出されるものである。
(15)効果
本実施形態に係る音声合成方法と、従来の複数音声素片選択・融合型の音声合成方法との違いを説明しつつ、本実施形態の効果を説明する。
本実施形態に係る図3に示した音声合成装置では、音素環境算出部432があり、融合された音声素片の音素環境パラメータを用いて音声素片選択部430内での処理ステップS4300において最適素片系列を求め直す点と、ステップS4330において融合された音声素片の音素環境パラメータを求めるという点が、従来の音声合成装置(例えば、特許文献1参照)と異なる。
本実施形態では、音声素片選択のときに、隣接するセグメントが既に音声素片選択され、融合された音声素片が存在している場合に融合された音声素片との接続歪みを考慮して音声素片を選択・融合することにより、接続部の不連続間を解消することにより高音質な音声素片を作り出すことができ、その結果、より自然でより高音質な合成音声を生成することができる。
(第2の実施形態)
次に、第2の実施形態に係る音声素片選択部430について図15に基づいて説明する。
図7の最適素片系列4301において、融合された音声素片が存在しているセグメントでは、最適素片系列上の音声素片として融合された音声素片を固定して用いていたが、これに限定されるものではない。そのため、この変更例として第2の実施形態を説明する。
最適素片系列4301における上記合成単位コストと式(5)より算出されたコストを次のように算出する。
図15に示すように、最適素片系列上の音声素片が、融合された音声素片の有無に関わらず、音声素片記憶部40から上記合成単位コストと式(5)より算出されたコストが、最小となるように選択されている最適素片系列4302におけるコストより劣化した場合を考える。この場合には、各セグメントにおける接続コストの算出には最適素片系列4302を用いて算出する。
これにより、第1の実施形態に比べ、より自然でより高音質な合成音声を安定して生成することができるのである。
(第3の実施形態)
次に、第3の実施形態に係る音声素片選択・融合部43について図16に基づいて説明する。
図6では、文頭から文末へ向けて(すなわち、時系列にしたがって)音声素片を融合していくものとしたが、これに限定されるものではない。そのため、この変更例として第3の実施形態を説明する。
合成音声生成時に、音韻系列中の特定の単語や文末部の合成音声の品質を特に向上したい場合に、上記特定の単語や文末部に対応するセグメントを先に融合することもできる。
図16は、本実施形態に係る音声素片選択・融合部43の処理を流すフローチャートである。
ステップS4350において、本実施形態の合成音声方法を使用するユーザにより設定された順序O(i:1,・・・,I,Iはセグメントの数)を設定する。Oにはi=1から順に各セグメントに対応する1〜Iまでの番号が1つずつ付与されており、O番目のセグメントに対してステップS4300、ステップS4310、ステップS4320、ステップS4330における処理をした後、Oi+1番目のセグメントに対して同様の処理を繰り返していくものである。
これにより、第1の実施形態に比べ、特定の単語や、文末部など、上記ユーザが特に合成音声の品質を向上させたいセグメントにおける音声素片選択の自由度が向上し、その結果、上記ユーザが所望するより自然でより高音質な合成音声を生成できる。
(第4の実施形態)
次に、第4の実施形態に係る音声素片選択・融合部43について図17に基づいて説明する。
図6のステップS4310では、各セグメントに対しM個の音声素片を選択していくものとしたが、これに限定されるものではない。そのため、この変更例として第4の実施形態を説明する。
合成音声生成時に用いる音声素片を融合しないで、音声素片記憶部40に記憶されている音声素片の中からL(<M)個の音声素片を融合して生成された音声素片を用いることもできる。すなわち、あるセグメントの音韻と同じ音韻を持つ音声素片が、音声素片記憶部40にL個あるとすると、1つのセグメントにつき、
Figure 2009133890
個の音声素片が音声素片選択候補として存在していることになる。
図17は、図2の音声素片選択・融合部43における処理の流れを示すフローチャートである。
ステップS4320において、m個の音声素片を融合し、ステップS4360においてm個の音声素片を融合することによって得られた音声素片の音素環境パラメータを算出する。これをM回繰り返し、1つのセグメントにおける音声素片候補を生成する。さらに、各セグメントにおいてステップS4320、ステップS4360を同様に繰り返す。
次に、ステップS4300において、各セグメントの音声素片候補に対して最適素片系列の探索を行い、各セグメント毎に選択された音声素片が合成音声として用いられる。
これにより、第1の実施形態と比べ、音声素片記憶部40に記憶されている音声素片の中からより良い品質の音声素片を生成することができ、より自然でより高音質な合成音声を生成できる。
(変更例)
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。
また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
本発明の第1の実施形態に係る音声合成装置の構成を示すブロック図である。 音声合成部の構成例を示すブロック図である。 音声素片選択・融合部の構成例を示すブロック図である。 音声素片記憶部の音声素片の記憶例を示す図である。 音素環境記憶部の音素環境パラメータの記憶例を示す図である。 音声素片選択・融合部の処理動作を説明するためのフローチャートである。 最適素片系列の例を示す模式図である。 音声素片選択部の処理を説明するためのフローチャートである。 音声素片選択部の処理を説明するためのフローチャートである。 音声素片融合部の処理を説明するためのフローチャートである。 ピッチ波形を切り出す処理を説明するためのフローチャートである。 ピッチ波形の数をそろえる処理を説明するためのフローチャートである。 音素環境算出部の処理を説明するためのフローチャートである。 音声素片編集・接続部の処理動作を説明するための図である。 第2の実施形態に係る最適素片系列の例を示す模式図である。 第3の実施形態に係る音声素片選択・融合部の処理動作を説明するためのフローチャートである。 第4の実施形態に係る音声素片選択・融合部の処理動作を説明するためのフローチャートである。
符号の説明
1 テキスト入力部
2 言語処理部
3 韻律処理部
4 音声合成部
5 音声波形出力部
40 音声素片記憶部
41 音素環境パラメータ記憶部
42 音韻系列・韻律情報入力部
43 音声素片選択・融合部
44 音声素片編集・接続部

Claims (18)

  1. 音声素片群と、前記音声素片群のそれぞれの音声素片についての音素環境パラメータを格納している記憶部と、
    合成したい目標音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、前記音声素片群から複数の第1音声素片を選択する選択部と、
    前記複数の第1音声素片を融合することによって、一つの第2音声素片を生成する生成部と、
    前記第2音声素片の音素環境パラメータを算出するパラメータ算出部と、
    前記各セグメントのそれぞれに対して生成された前記第2音声素片を接続することによって合成音声を生成する合成部と、
    を有し、
    前記選択部は、
    前記各セグメントの中から、前記第1音声素片を選択する一つのセグメントを注目セグメントとして設定するセグメント設定部と、
    前記音声素片群の中から前記注目セグメントの音素と同じ特徴を持つ複数の音声素片を音声素片候補として抽出する抽出部と、
    前記注目セグメントの前記各音声素片候補を使用して生成される前記合成音声の歪み量を表す目標コストを、前記各音声素片候補の音素環境パラメータと前記目標音声の韻律情報とからそれぞれ算出する第1コスト算出部と、
    前記注目セグメントの前または後に隣接するセグメントである隣接セグメントの音声素片と、前記注目セグメントの前記各音声素片候補とを接続したときに生じる歪み量を表すそれぞれの接続コストを算出するものであって、(1)前記隣接セグメントが前記第2音声素片である場合には、前記第2音声素片の音素環境パラメータと、前記各音声素片候補の音素環境パラメータとから前記接続コストを算出し、または、(2)前記隣接セグメントが前記第2音声素片を有していない場合には、前記注目セグメントに対応する前記音声素片候補の音素環境パラメータと前記隣接セグメントに対応する前記音声素片候補の音素環境パラメータとから前記接続コストを算出する第2コスト算出部と、
    前記注目セグメントにおける前記複数の音声素片候補の中で、前記目標コストと前記接続コストとの合計コストが低い複数の音声素片候補を、前記第1音声素片として選択する音声素片選択部と、
    を有する音声合成装置。
  2. 前記選択部は、
    複数の前記セグメントを一つのグループとして、前記セグメント毎に前記目標コストと前記接続コストとの合計からなるセグメントコストを算出するセグメントコスト算出部と、
    前記各セグメントのセグメントコストの合計からなるトータルコストを算出するトータルコスト算出部と、
    前記セグメント毎に音声素片を選択するものであって、(1)前記第2音声素片を有するセグメントでは前記第2音声素片を選択し、または、(2)前記第2音声素片を有しないセグメントでは前記各音声素片候補から前記トータルコストを最小にする1つの音声素片を選択するセグメント選択部と、
    前記選択された前記第2音声素片、または、前記音声素片を前記各セグメントに対応させることにより、前記音声素片の系列である最適素片系列を求める系列算出部と、
    を有し、
    前記第1コスト算出部と前記第2コスト算出部は、前記最適素片系列上の各セグメントに対し前記注目セグメントと前記隣接セグメントをそれぞれ設定する、
    請求項1記載の音声合成装置。
  3. 前記選択部は、
    前記接続コストを、前記音声素片の音素環境パラメータと前記最適素片系列上における前記隣接セグメントの前記音声素片候補の音素環境パラメータとを用いて算出する、
    請求項2記載の音声合成装置。
  4. 前記選択部は、
    前記各セグメントに予め付与された順序に従って、前記第1音声素片を複数選択する、
    請求項2記載の音声合成装置。
  5. 前記順序は、有声音のセグメントが上位になるように与えられている、
    請求項4記載の音声合成装置。
  6. 前記順序は、前記音声素片群に含まれる音声素片の数に従って与えられている、
    請求項4記載の音声合成装置。
  7. 音声素片群と、前記音声素片群のそれぞれの音声素片についての音素環境パラメータを格納している記憶部と、
    合成したい目標音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれの中から一つのセグメントを注目セグメントとして設定するセグメント設定部と、
    前記音声素片群の中から前記注目セグメントの音素と同じ特徴を持つ複数の音声素片を第3音声素片として複数抽出する抽出部と、
    前記複数の第3音声素片を融合することによって第4音声素片を生成する生成部と、
    前記第4音声素片の音素環境パラメータを算出するパラメータ算出部と、
    前記注目セグメントの前記各第3音声素片及び前記第4音声素片を使用して生成される前記合成音声の歪み量を表す目標コストを、前記各第3音声素片及び前記第4音声素片の音素環境パラメータと前記目標音声の韻律情報とからそれぞれ算出する第3コスト算出部と、
    前記注目セグメントの前または後に隣接するセグメントである隣接セグメントの前記第3音声素片及び前記第4音声素片と、前記注目セグメントの前記各第3音声素片及び前記第4音声素片とを接続したときに生じる歪み量を表すそれぞれの接続コストを、前記注目セグメントの前記第3音声素片及び前記第4音声素片の音素環境パラメータと、前記隣接セグメントの前記第3音声素片及び前記第4音声素片の音素環境パラメータから算出する第4コスト算出部と、
    前記注目セグメントにおける前記複数の第3音声素片及び前記第4音声素片の中で、前記目標コストと前記接続コストとの合計コストが低い複数の音声素片を、前記第5音声素片として選択する音声素片選択部と、
    前記各セグメントのそれぞれに対して生成された前記第5音声素片を接続することによって合成音声を生成する合成部と、
    を有する音声合成装置。
  8. 複数の前記セグメントを一つのグループとして、前記セグメント毎に前記目標コストと前記接続コストとの合計からなるセグメントコストを算出するセグメントコスト算出部と、
    前記各セグメントのセグメントコストの合計からなるトータルコストを算出するトータルコスト算出部と、
    前記セグメント毎に音声素片を選択するものであって、前記各第3音声素片及び前記第4音声素片の中から前記トータルコストを最小にする1つの音声素片を選択するセグメント選択部と、
    前記音声素片を前記各セグメントに対応させることにより、前記音声素片の系列である最適素片系列を求める系列算出部と、
    を有し、
    前記第3コスト算出部と前記第4コスト算出部は、前記最適素片系列上の各セグメントに対し前記注目セグメントと前記隣接セグメントをそれぞれ設定する、
    請求項7記載の音声合成装置。
  9. 音声素片群と、前記音声素片群のそれぞれの音声素片についての音素環境パラメータを格納する記憶機能と、
    合成したい目標音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、前記音声素片群から複数の第1音声素片を選択する選択機能と、
    前記複数の第1音声素片を融合することによって、一つの第2音声素片を生成する生成機能と、
    前記第2音声素片の音素環境パラメータを算出するパラメータ算出機能と、
    前記各セグメントのそれぞれに対して生成された前記第2音声素片を接続することによって合成音声を生成する合成機能と、
    を有し、
    前記選択機能は、
    前記各セグメントの中から、前記第1音声素片を選択する一つのセグメントを注目セグメントとして設定するセグメント設定機能と、
    前記音声素片群の中から前記注目セグメントの音素と同じ特徴を持つ複数の音声素片を音声素片候補として抽出する抽出機能と、
    前記注目セグメントの前記各音声素片候補を使用して生成される前記合成音声の歪み量を表す目標コストを、前記各音声素片候補の音素環境パラメータと前記目標音声の韻律情報とからそれぞれ算出する第1コスト算出機能と、
    前記注目セグメントの前または後に隣接するセグメントである隣接セグメントの音声素片と、前記注目セグメントの前記各音声素片候補とを接続したときに生じる歪み量を表すそれぞれの接続コストを算出するものであって、(1)前記隣接セグメントが前記第2音声素片である場合には、前記第2音声素片の音素環境パラメータと、前記各音声素片候補の音素環境パラメータとから前記接続コストを算出し、または、(2)前記隣接セグメントが前記第2音声素片を有していない場合には、前記注目セグメントに対応する前記音声素片候補の音素環境パラメータと前記隣接セグメントに対応する前記音声素片候補の音素環境パラメータとから前記接続コストを算出する第2コスト算出機能と、
    前記注目セグメントにおける前記複数の音声素片候補の中で、前記目標コストと前記接続コストとの合計コストが低い複数の音声素片候補を、前記第1音声素片として選択する音声素片選択機能と、
    をコンピュータによって実現する音声合成プログラム。
  10. 前記選択機能は、
    複数の前記セグメントを一つのグループとして、前記セグメント毎に前記目標コストと前記接続コストとの合計からなるセグメントコストを算出するセグメントコスト算出機能と、
    前記各セグメントのセグメントコストの合計からなるトータルコストを算出するトータルコスト算出機能と、
    前記セグメント毎に音声素片を選択するものであって、(1)前記第2音声素片を有するセグメントでは前記第2音声素片を選択し、または、(2)前記第2音声素片を有しないセグメントでは前記各音声素片候補から前記トータルコストを最小にする1つの音声素片を選択するセグメント選択機能と、
    前記選択された前記第2音声素片、または、前記音声素片を前記各セグメントに対応させることにより、前記音声素片の系列である最適素片系列を求める系列算出機能と、
    を有し、
    前記第1コスト算出機能と前記第2コスト算出機能は、前記最適素片系列上の各セグメントに対し前記注目セグメントと前記隣接セグメントをそれぞれ設定する、
    請求項9記載の音声合成プログラム。
  11. 前記選択機能は、
    前記接続コストを、前記音声素片の音素環境パラメータと前記最適素片系列上における前記隣接セグメントの前記音声素片候補の音素環境パラメータとを用いて算出する、
    請求項10記載の音声合成プログラム。
  12. 前記選択機能は、
    前記各セグメントに予め付与された順序に従って、前記第1音声素片を複数選択する、
    請求項10記載の音声合成プログラム。
  13. 前記順序は、有声音のセグメントが上位になるように与えられている、
    請求項12記載の音声合成プログラム。
  14. 前記順序は、前記音声素片群に含まれる音声素片の数に従って与えられている、
    請求項4記載の音声合成プログラム。
  15. 音声素片群と、前記音声素片群のそれぞれの音声素片についての音素環境パラメータを格納する記憶機能と、
    合成したい目標音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれの中から一つのセグメントを注目セグメントとして設定するセグメント設定機能と、
    前記音声素片群の中から前記注目セグメントの音素と同じ特徴を持つ複数の音声素片を第3音声素片として複数抽出する抽出機能と、
    前記複数の第3音声素片を融合することによって第4音声素片を生成する生成機能と、
    前記第4音声素片の音素環境パラメータを算出するパラメータ算出機能と、
    前記注目セグメントの前記各第3音声素片及び前記第4音声素片を使用して生成される前記合成音声の歪み量を表す目標コストを、前記各第3音声素片及び前記第4音声素片の音素環境パラメータと前記目標音声の韻律情報とからそれぞれ算出する第3コスト算出機能と、
    前記注目セグメントの前または後に隣接するセグメントである隣接セグメントの前記第3音声素片及び前記第4音声素片と、前記注目セグメントの前記各第3音声素片及び前記第4音声素片とを接続したときに生じる歪み量を表すそれぞれの接続コストを、前記注目セグメントの前記第3音声素片及び前記第4音声素片の音素環境パラメータと、前記隣接セグメントの前記第3音声素片及び前記第4音声素片の音素環境パラメータから算出する第4コスト算出機能と、
    前記注目セグメントにおける前記複数の第3音声素片及び前記第4音声素片の中で、前記目標コストと前記接続コストとの合計コストが低い複数の音声素片を、前記第5音声素片として選択する音声素片選択機能と、
    前記各セグメントのそれぞれに対して生成された前記第5音声素片を接続することによって合成音声を生成する合成機能と、
    をコンピュータによって実現する音声合成プログラム。
  16. 複数の前記セグメントを一つのグループとして、前記セグメント毎に前記目標コストと前記接続コストとの合計からなるセグメントコストを算出するセグメントコスト算出機能と、
    前記各セグメントのセグメントコストの合計からなるトータルコストを算出するトータルコスト算出機能と、
    前記セグメント毎に音声素片を選択するものであって、前記各第3音声素片及び前記第4音声素片の中から前記トータルコストを最小にする1つの音声素片を選択するセグメント選択機能と、
    前記音声素片を前記各セグメントに対応させることにより、前記音声素片の系列である最適素片系列を求める系列算出機能と、
    を有し、
    前記第3コスト算出機能と前記第4コスト算出機能は、前記最適素片系列上の各セグメントに対し前記注目セグメントと前記隣接セグメントをそれぞれ設定する、
    請求項15記載の音声合成プログラム。
  17. 音声素片群と、前記音声素片群のそれぞれの音声素片についての音素環境パラメータを格納する記憶ステップと、
    合成したい目標音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、前記音声素片群から複数の第1音声素片を選択する選択ステップと、
    前記複数の第1音声素片を融合することによって、一つの第2音声素片を生成する生成ステップと、
    前記第2音声素片の音素環境パラメータを算出するパラメータ算出ステップと、
    前記各セグメントのそれぞれに対して生成された前記第2音声素片を接続することによって合成音声を生成する合成ステップと、
    を有し、
    前記選択ステップは、
    前記各セグメントの中から、前記第1音声素片を選択する一つのセグメントを注目セグメントとして設定するセグメント設定ステップと、
    前記音声素片群の中から前記注目セグメントの音素と同じ特徴を持つ複数の音声素片を音声素片候補として抽出する抽出ステップと、
    前記注目セグメントの前記各音声素片候補を使用して生成される前記合成音声の歪み量を表す目標コストを、前記各音声素片候補の音素環境パラメータと前記目標音声の韻律情報とからそれぞれ算出する第1コスト算出ステップと、
    前記注目セグメントの前または後に隣接するセグメントである隣接セグメントの音声素片と、前記注目セグメントの前記各音声素片候補とを接続したときに生じる歪み量を表すそれぞれの接続コストを算出するものであって、(1)前記隣接セグメントが前記第2音声素片である場合には、前記第2音声素片の音素環境パラメータと、前記各音声素片候補の音素環境パラメータとから前記接続コストを算出し、または、(2)前記隣接セグメントが前記第2音声素片を有していない場合には、前記注目セグメントに対応する前記音声素片候補の音素環境パラメータと前記隣接セグメントに対応する前記音声素片候補の音素環境パラメータとから前記接続コストを算出する第2コスト算出ステップと、
    前記注目セグメントにおける前記複数の音声素片候補の中で、前記目標コストと前記接続コストとの合計コストが低い複数の音声素片候補を、前記第1音声素片として選択する音声素片選択ステップと、
    を有する音声合成方法。
  18. 音声素片群と、前記音声素片群のそれぞれの音声素片についての音素環境パラメータを格納する記憶ステップと、
    合成したい目標音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれの中から一つのセグメントを注目セグメントとして設定するセグメント設定ステップと、
    前記音声素片群の中から前記注目セグメントの音素と同じ特徴を持つ複数の音声素片を第3音声素片として複数抽出する抽出ステップと、
    前記複数の第3音声素片を融合することによって第4音声素片を生成する生成ステップと、
    前記第4音声素片の音素環境パラメータを算出するパラメータ算出ステップと、
    前記注目セグメントの前記各第3音声素片及び前記第4音声素片を使用して生成される前記合成音声の歪み量を表す目標コストを、前記各第3音声素片及び前記第4音声素片の音素環境パラメータと前記目標音声の韻律情報とからそれぞれ算出する第3コスト算出ステップと、
    前記注目セグメントの前または後に隣接するセグメントである隣接セグメントの前記第3音声素片及び前記第4音声素片と、前記注目セグメントの前記各第3音声素片及び前記第4音声素片とを接続したときに生じる歪み量を表すそれぞれの接続コストを、前記注目セグメントの前記第3音声素片及び前記第4音声素片の音素環境パラメータと、前記隣接セグメントの前記第3音声素片及び前記第4音声素片の音素環境パラメータから算出する第4コスト算出ステップと、
    前記注目セグメントにおける前記複数の第3音声素片及び前記第4音声素片の中で、前記目標コストと前記接続コストとの合計コストが低い複数の音声素片を、前記第5音声素片として選択する音声素片選択ステップと、
    前記各セグメントのそれぞれに対して生成された前記第5音声素片を接続することによって合成音声を生成する合成ステップと、
    を有する音声合成方法。
JP2007307578A 2007-11-28 2007-11-28 音声合成装置及びその方法 Pending JP2009133890A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007307578A JP2009133890A (ja) 2007-11-28 2007-11-28 音声合成装置及びその方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007307578A JP2009133890A (ja) 2007-11-28 2007-11-28 音声合成装置及びその方法

Publications (1)

Publication Number Publication Date
JP2009133890A true JP2009133890A (ja) 2009-06-18

Family

ID=40865852

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007307578A Pending JP2009133890A (ja) 2007-11-28 2007-11-28 音声合成装置及びその方法

Country Status (1)

Country Link
JP (1) JP2009133890A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011030424A1 (ja) * 2009-09-10 2011-03-17 株式会社東芝 音声合成装置およびプログラム
JP2011107408A (ja) * 2009-11-17 2011-06-02 Nippon Telegr & Teleph Corp <Ntt> 音声合成装置、方法及びプログラム
JP2014062970A (ja) * 2012-09-20 2014-04-10 Hitachi Ulsi Systems Co Ltd 音声合成方法、装置、及びプログラム
CN109859736A (zh) * 2019-01-23 2019-06-07 北京光年无限科技有限公司 语音合成方法及***
WO2021189984A1 (zh) * 2020-10-22 2021-09-30 平安科技(深圳)有限公司 语音合成方法、装置、设备及计算机可读存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011030424A1 (ja) * 2009-09-10 2011-03-17 株式会社東芝 音声合成装置およびプログラム
JP2011107408A (ja) * 2009-11-17 2011-06-02 Nippon Telegr & Teleph Corp <Ntt> 音声合成装置、方法及びプログラム
JP2014062970A (ja) * 2012-09-20 2014-04-10 Hitachi Ulsi Systems Co Ltd 音声合成方法、装置、及びプログラム
CN109859736A (zh) * 2019-01-23 2019-06-07 北京光年无限科技有限公司 语音合成方法及***
WO2021189984A1 (zh) * 2020-10-22 2021-09-30 平安科技(深圳)有限公司 语音合成方法、装置、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
JP4469883B2 (ja) 音声合成方法及びその装置
JP4080989B2 (ja) 音声合成方法、音声合成装置および音声合成プログラム
JP4551803B2 (ja) 音声合成装置及びそのプログラム
US10347238B2 (en) Text-based insertion and replacement in audio narration
JP5024711B2 (ja) 歌声合成パラメータデータ推定システム
JP5159325B2 (ja) 音声処理装置及びそのプログラム
JP3910628B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP4406440B2 (ja) 音声合成装置、音声合成方法及びプログラム
JP2008033133A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP2010049196A (ja) 声質変換装置及び方法、音声合成装置及び方法
JPH10153998A (ja) 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置
JP5148026B1 (ja) 音声合成装置および音声合成方法
JP2009133890A (ja) 音声合成装置及びその方法
JP5930738B2 (ja) 音声合成装置及び音声合成方法
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP5328703B2 (ja) 韻律パターン生成装置
JP5177135B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP5106274B2 (ja) 音声処理装置、音声処理方法及びプログラム
JP4476855B2 (ja) 音声合成装置及びその方法
JP4034751B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP2006084854A (ja) 音声合成装置、音声合成方法および音声合成プログラム
WO2011030424A1 (ja) 音声合成装置およびプログラム
JP2008299266A (ja) 音声合成装置および音声合成方法
JP3318290B2 (ja) 音声合成方法および装置
JPH10301599A (ja) 音声合成装置