JP4738057B2 - ピッチパターン生成方法及びその装置 - Google Patents

ピッチパターン生成方法及びその装置 Download PDF

Info

Publication number
JP4738057B2
JP4738057B2 JP2005151568A JP2005151568A JP4738057B2 JP 4738057 B2 JP4738057 B2 JP 4738057B2 JP 2005151568 A JP2005151568 A JP 2005151568A JP 2005151568 A JP2005151568 A JP 2005151568A JP 4738057 B2 JP4738057 B2 JP 4738057B2
Authority
JP
Japan
Prior art keywords
pitch
pitch pattern
pattern
control unit
patterns
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005151568A
Other languages
English (en)
Other versions
JP2006330200A (ja
Inventor
剛 平林
岳彦 籠嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2005151568A priority Critical patent/JP4738057B2/ja
Priority to US11/233,021 priority patent/US20060271367A1/en
Priority to CNA200610080937XA priority patent/CN1870130A/zh
Publication of JP2006330200A publication Critical patent/JP2006330200A/ja
Application granted granted Critical
Publication of JP4738057B2 publication Critical patent/JP4738057B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

本発明は、例えば、テキスト音声合成のための音声合成方法及び装置に関し、特に、合成音声の自然性に大きく影響するピッチパターン生成方法及びその装置に関するものである。
近年、任意の文章から人工的に音声信号を生成するテキスト音声合成システムが開発されている。一般的に、このテキスト音声合成システムは、言語処理部、韻律生成部、音声信号生成部の3つのモジュールから構成される。この中で、韻律生成部の性能が合成音声の自然性に関係しており、とりわけ声の高さ(ピッチ)の変化パターンであるピッチパターンが生成される合成音声の自然性を大きく左右する。従来のテキスト音声合成におけるピッチパターン生成方法は、比較的単純なモデルを用いてピッチパターンの生成を行っていたため、抑揚が不自然で機械的な合成音声となっていた。
こうした問題を解決するために、自然音声から抽出した大量のピッチパターンをそのまま利用する方法が提案されている(例えば、特許文献1参照)。これは、ピッチパターンデータベースに自然音声から抽出したピッチパターンを格納しておき、入力テキストに対応する属性情報によって最適なピッチパターンをこのピッチパターンデータベースから1つ選択することによってピッチパターンを生成するものである。
また、ピッチパターンのパターン形状と、ピッチパターンの全体の高さを表すオフセットを別々に制御する方法も考えられている(例えば、非特許文献1参照)。これは、ピッチパターンのパターン形状とは別に、ピッチパターンの高さを表すオフセット値を、オフラインで生成した数量化I類などの統計モデルを用いて推定し、この推定オフセット値に基づいてピッチパターンの高さを決定するものである。
特開2002−297175号公報 音講論1−P−10,2001.10
ピッチパターンデータベースから選択したピッチパターンをそのまま利用する方法では、ピッチパターンのパターン形状とパターン全体の高さを表すオフセットが分離されていないため、パターン形状は適切でも全体的な高さが不自然であったり、またその逆に全体的な高さは適切でもパターン形状が不自然というピッチパターンしか選択できない可能性があり、ピッチパターンのバリエーション不足のために合成された音声の自然性が劣化してしまうという問題がある。
一方、オフセット値をパターン形状とは別に統計モデルを用いて推定する方法では、オフセット値とパターン形状それぞれの推定基準(評価尺度)が異なるため、推定されたオフセット値とパターン形状との不適合によって不自然なピッチパターンが生成されてしまうという問題がある。また、予めオフラインで生成した数量化I類などの統計モデルを用いるため、オンラインで選択されるパターン形状に比べて様々な入力テキストのバリエーションに対応したオフセット値を推定することが難しく、結果として生成されるピッチパターンの自然性が不十分となる可能性がある。
そこで、本発明は、上記問題に鑑み、パターン形状との親和性の高いオフセット値を生成することによって自然性の高い安定したピッチパターンを生成することができるピッチパターン生成方法及びその装置を提供することを目的とする。
本発明は、韻律制御単位の原型となるピッチパターンを変形して音声合成に用いられるピッチパターンを生成するピッチパターン生成方法であって、韻律制御単位毎のピッチパターンの高さを表す自然音声より抽出したオフセット値とこれに対するパターン属性情報とが対応付けて記憶されている記憶手段から複数のオフセット値を選択するものであり、音声合成対象となるテキストを解析することにより得られる言語属性情報と前記パターン属性情報に基づいて韻律制御単位毎に前記複数のオフセット値を選択するオフセット値選択ステップと、前記テキストの韻律制御単位毎に択された前記複数のオフセット値の統計量に基づいて前記韻律制御単位の原型となるピッチパターンを変形するピッチパターン生成ステップと、を有することを特徴とするピッチパターン生成方法である。
また、本発明は、自然音声より抽出した第1のピッチパターンとこれに対する第1の属性情報とが対応付けて記憶されている記憶手段から複数の第1のピッチパターンを選択するものであり、音声合成対象となるテキストを解析することにより得られる第2の属性情報と第1の属性情報に基づいて韻律制御単位毎に前記複数の第1のピッチパターンを選択するピッチパターン選択ステップと、前記テキストの韻律制御単位毎に選択された前記複数の第1のピッチパターンに基づいて、前記第1のピッチパターンの高さを表すオフセット値の統計量を求め、前記オフセット値の統計量に基づいて前記韻律制御単位の第2のピッチパターンを生成するピッチパターン生成ステップと、前記韻律制御単位毎に生成された第2のピッチパターンを接続して前記テキストに対応するピッチパターンを生成するピッチパターン接続ステップと、を有することを特徴とするピッチパターン生成方法である。
本発明によれば、オフセット値もしくはピッチパターンの記憶手段から複数のオフセット値もしくは原型となるピッチパターンを選択し、それらから算出したオフセット値の統計量に基づいて変形したピッチパターンをもとにして音声合成対象となるテキストに対応するピッチパターンを生成するため、自然性が高く安定したピッチパターンを生成することができ、その結果、人の発声した音声により近い合成音を生成することが可能となる。
以下、図1〜図11を参照して本発明の一実施形態を詳細に説明する。
(1)用語の説明
まず、本実施形態に使用する用語を説明する。
「オフセット値」は、音声の韻律的な特徴を制御するための単位である韻律制御単位に対応するピッチパターンの全体的な高さを表す情報であり、例えば、パターン内のピッチの平均値や中央値、最大・最小値、前後のパターンからの変化量などの情報である。
韻律制御単位は、入力テキストに対応する音声の韻律的な特徴を制御するための単位であり、例えば、半音素、音素、音節、形態素、単語、アクセント句、呼気段落などで構成され、これらが混在しているなど可変長であってもよい。
「言語属性情報」は、形態素解析や構文解析などの言語解析処理を行うことによって入力テキストから抽出可能な情報であり、例えば、音韻記号列、品詞、アクセント型、係り先、ポーズ、文中位置などの情報である。
「オフセット値の統計量」は、選択された複数のオフセット値から算出される統計量であり、例えば、平均値や中央値、重み和(重み付け加算値)、分散値、偏差値などである。
「パターン属性情報」は、当該ピッチパターンに関する属性の集合であり、例えば、アクセント型、音節数、文中位置、アクセント音韻種、先行アクセント型、後続アクセント型、先行境界条件、後続境界条件などがある。
(2)テキスト音声合成システムの構成
図1は、本実施形態に係るテキスト音声合成システムの構成例を示したもので、大きく分けて、言語処理部20、韻律生成部21、音声信号生成部22の3つのモジュールから構成される。
入力されたテキスト201は、まず言語処理部20において、形態素解析・構文解析等の言語処理が行われ、音韻記号列、アクセント型、品詞、文中位置などの言語属性情報100が出力される。
次に、韻律生成部21において、入力されたテキスト201に対応する音声の韻律的な特徴を表した情報、すなわち、例えば、音韻継続時間長や基本周波数(ピッチ)の時間経過に伴う変化を表したパターンなどが生成される。韻律生成部21は、音韻継続時間長生成部23とピッチパターン生成部1より構成される。音韻継続時間長生成部23は、言語属性情報100を参照して、各音素の音韻継続時間長111を生成して出力する。ピッチパターン生成部1は、言語属性情報100と音韻継続時間長111を入力として、声の高さの変化パターンであるピッチパターン121を出力する。
最後に、音声信号生成部22において、韻律生成部21で生成された韻律情報を基に、入力されたテキスト201に対応する音声を合成し、音声信号202として合成する。
(3)ピッチパターン生成部1の構成
本実施形態では、ピッチパターン生成部1の構成とその処理動作に特徴があり、以下、これらについて説明する。なお、ここでは、韻律制御単位はアクセント句であるとする場合を例にとって説明する。
図2は、図1のピッチパターン生成部1の構成例を示したものである、図2において、ピッチパターン生成部1は、パターン選択部10、パターン形状生成部11、オフセット制御部12、パターン接続部13、ピッチパターン記憶部14から構成される。
(3−1)ピッチパターン記憶部14
ピッチパターン記憶部14には、自然音声より抽出した大量のアクセント句毎のピッチパターンが、各ピッチパターンに対応するパターン属性情報と共に記憶されている。
図3は、ピッチパターン記憶部14に記憶されている情報の一例を示す図である。
ピッチパターンは、当該アクセント句に対応するピッチ(基本周波数)の時間変化を表したピッチ系列、もしくはその特徴を表すパラメータ系列などである。無声音の部分にはピッチは存在しないが、例えば、有声音部分のピッチの値を補間するなどして連続的な系列となっていることが好ましい。
なお、自然音声より抽出したピッチパターンは、予め作成したコードブックによってベクトル量子化するなど、量子化もしくは近似した情報をデータベース化して記憶してもよい。
(3−2)パターン選択部10
パターン選択部10は、アクセント句毎に、言語属性情報100及び音韻継続時間長111を基にピッチパターン記憶部14に蓄積されているピッチパターンの中からN個のピッチパターン101とM個のピッチパターン103を選択する(M>=N>1)。
(3−3)パターン形状生成部11
パターン形状生成部11は、パターン選択部10で選択されたN個のピッチパターン101を言語属性情報100に基づいて融合することで融合ピッチパターン生成し、さらに音韻継続時間長111に従って該融合ピッチパターンの時間軸方向の伸縮を行って、ピッチパターン102を生成する。
ここで、ピッチパターンの融合とは、複数のピッチパターンから何らかの規則に従って新たなピッチパターンを生成する操作であり、例えば、複数のピッチパターンの重み付け加算処理などによって実現されるものである。
(3−4)オフセット制御部12
オフセット制御部12は、パターン選択部10で選択されたM個のピッチパターン103からオフセット値の統計量を算出し、ピッチパターン102を該統計量に従って周波数軸上で平行移動させ、ピッチパターン104を出力する。
(3−5)パターン接続部13
パターン接続部13は、アクセント句毎に生成されたピッチパターン104を接続すると共に、接続境界部分で不連続が生じないような平滑化などの処理を行って、文ピッチパターン121を出力する。
(4)ピッチパターン生成部1の処理
次に、図4のピッチパターン生成部1における処理の流れを示すフローチャートを用いて、ピッチパターン生成部1の各処理について詳しく説明する。
(4−1)パターン選択
まず、ステップS41において、パターン選択部10は言語属性情報100及び音韻継続時間長111に基づいて、アクセント句毎に、ピッチパターン記憶部14に蓄積されているピッチパターンの中から、N個のピッチパターン101とM個のピッチパターン103を選択する。
各アクセント句に対して選択されるN個のピッチパターン101とM個のピッチパターン103は、当該アクセント句に対応する言語属性情報100とパターン属性情報が一致、あるいは類似するピッチパターンである。これは、例えば、目標となる当該アクセント句の言語属性情報100と各パターン属性情報とから、目標のピッチ変化に対する各ピッチパターンのずれの度合いを定量化したコストを推定し、このコストができるだけ小さいピッチパターンを選択することで実現される。ここでは、一例として、当該アクセント句のアクセント型と音節数にパターン属性情報が一致しているピッチパターンの中からコストの小さいM個及びN個のピッチパターンを選択するものとする。
(4−1−1)コストの推定
このコストの推定は、例えば、従来の音声合成装置におけるものと同様のコスト関数を計算することによって実行される。つまり、例えば、ピッチパターン形状やオフセットが異なる要因毎、またピッチパターンを変形・接続する際に生じる歪の要因毎にサブコスト関数C(u,ui−1,t)(但し、l=1〜L、Lはサブコスト関数の数)を定義し、これらの重み付き和をアクセント句コスト関数として定義する。
Figure 0004738057
ここで、tは、入力テキスト及び言語属性情報に対応する目標とするピッチパターンをt=(t、・・・,t)としたときの、i番目のアクセント句に対応する部分のピッチパターンの目標とする言語属性情報を表し、uは、ピッチパターン記憶部14に蓄積されているピッチパターンから選ばれた一ピッチパターンのパターン属性情報を表す。また、w は各サブコスト関数の重みを表す。
サブコスト関数は、ピッチパターン記憶部14に蓄積されているピッチパターンを用いた場合の目標とするピッチパターンに対するずれの度合いを推定するためのコストを算出するものである。当該コストを算出するために、ここでは具体例として、当該ピッチパターンを用いることによって生じる目標とするピッチ変化に対するずれの度合いを推定する目標コストと、当該アクセント句のピッチパターンを他のアクセント句のピッチパターンと接続したときに生じる歪の度合いを推定する接続コストという2種類(L=2)のサブコストを設定する。
目標コストの一例として、言語属性情報及びパターン属性情報の文中位置に関するサブコスト関数は、次式のように定義できる。
Figure 0004738057
ここで、fはピッチパターン記憶部14に蓄積されているピッチパターンのパターン属性情報、もしくは目標の言語属性情報から文中位置に関する情報を取り出す関数を表し、δは2つの情報が一致する場合は0、それ以外では1を出力する関数である。
また、接続コストの一例として、接続境界でのピッチの違い(差)に関するサブコスト関数は、次式のように定義できる。
Figure 0004738057
ここで、gはパターン属性情報から接続境界のピッチを取り出す関数を表す。
入力テキストのアクセント句毎に、上記式(1)よりアクセント句コストを算出した結果を、全アクセント句について足し合わせたものをコストと呼び、当該コストを算出するためのコスト関数を次式に示すように定義する。
Figure 0004738057
上記式(1)〜(4)に示したコスト関数を用いて、アクセント句あたり複数のピッチパターンをピッチパターン記憶部14より2段階で選択する。
(4−1−2)2段階での選択処理
図5は、この2段階での選択処理手順の一例を説明するためのフローチャートである。
まず1段階目のピッチパターン選択として、ステップS51では、ピッチパターン記憶部14から上記式(4)で算出されるコスト値が最小となるピッチパターンの系列を求める。このコストが最小となるピッチパターンの組み合わせを最適ピッチパターン系列と呼ぶこととする。なお、最適ピッチパターン系列の探索は、動的計画法を用いることで効率的に行うことができる。
次にステップS52に進み、2段階目のピッチパターン選択では、最適ピッチパターン系列を用いて、アクセント句あたり複数のピッチパターンを選ぶ。ここでは、入力テキスト中のアクセント句数をI個とし、それぞれのアクセント句に対して、オフセット値の統計量を算出するためのM個のピッチパターン103と、融合ピッチパターンを生成するためのN個のピッチパターン101を選択することとして、ステップS52の詳細を説明する。
ステップS521からS523までは、I個のアクセント句のうちの1つを注目アクセント句とする。ステップS521からS523はI回繰り返され、I個のアクセント句が1回ずつ注目アクセント句となるように処理を行う。まず、ステップS521では、注目アクセント以外のアクセント句に対しては、それぞれ最適ピッチパターン系列のピッチパターンを固定する。この状態で、注目アクセント句に対してピッチパターン記憶部14に記憶されているピッチパターンを式(4)のコストの値に応じて順位付けを行う。ここでは例えば、コストの値が最も小さいピッチパターンほど高い順位となるように順位付けを行う。次に、ステップS522においてオフセット値の統計量を算出するための上位M個のピッチパターンを選択し、さらにステップS523において融合ピッチパターンを生成するための上位N個(N=<M)のピッチパターンを選択する。
以上の手順によって、それぞれのアクセント句について、M個のピッチパターン101及びN個のピッチパターン103をピッチパターン記憶部14より選択し、次に図4のステップS42へ進む。
(4−2)パターン形状生成
ステップS42において、パターン形状生成部11はパターン選択部10で選択されたN個のピッチパターン101を言語属性情報100に基づいて融合することで融合ピッチパターン生成し、さらに音韻継続時間長111に従って該融合ピッチパターンの時間軸方向の伸縮を行って、新たなピッチパターン102を生成する。
ここでは、複数のアクセント句のうちのある1つのアクセント句について、パターン選択部10で選択されたN個のピッチパターンの融合及び時間軸方向の伸縮を行って1つの新たなピッチパターン102を生成する場合の処理手順の一例を、図6のフローチャートを参照して説明する。
まず、ステップS61において、N個のピッチパターンの各音節の長さを、N個のピッチパターンの中で最も長いものに合わせて、音節内のパターンを伸張することによって揃える。図7には、当該アクセント句のN個(例えば、ここでは3個)のピッチパターンp〜p(図7(a)参照)のそれぞれから、各音節についてパターンの長さを揃えたピッチパターンp'〜p'(図7(b)参照)を生成した様子を示している。なお、図7の例では、音節内のパターンの伸張を1音節分を表すデータの線形補間によって行っている(図7(b)の2重丸の部分参照)。
次にステップS62において、長さを揃えたN個のピッチパターンの重み付き加算によって、融合ピッチパターンを生成する。この重みは、例えば、当該アクセント句に対応する言語属性情報100と各ピッチパターンのパターン属性情報の類似度によって設定することができる。ここでは、パターン選択部10で計算された各ピッチパターンpに対するコストCの逆数を利用することで、より目標のピッチ変化に対して適切だと推定されたピッチパターン、つまりコストの小さいパターンにより大きな重みをつけることを考えると、各ピッチパターンpに対する重みwは次によって算出できる。
Figure 0004738057
N個のピッチパターンそれぞれにこの重みをかけて足し合わせることによって、融合ピッチパターンを生成する。図8に、当該アクセント句のN個(例えば、ここでは3個)の長さを揃えたピッチパターンの重み付け加算によって、融合ピッチパターンを生成する様子を示す。
次にステップS63において、融合ピッチパターンを、音韻継続時間長111に従って時間軸方向の伸縮を行い、新たなピッチパターン102を生成する。図9に、融合ピッチパターンの各音節長さを音韻継続時間長111に合わせて時間軸方向の伸縮を行ってピッチパターン102を生成した様子を示す。
以上のように、入力テキストに対応する複数のアクセント句のそれぞれについて、当該アクセント句に対して選択されたN個のピッチパターンを融合し、さらに時間軸方向の伸縮を行うことで新たなピッチパターン102を生成し、次に、図4のステップS43へ進む。
(4−3)オフセット制御
ステップS43において、オフセット制御部13は、パターン選択部10で選択されたM個のピッチパターン103からオフセット値の統計量を算出し、ピッチパターン102を該オフセット値の統計量に従って周波数軸上で平行移動させ、ピッチパターン104を生成する。
ここでは、一例として、複数のアクセント句のうちのある1つのアクセント句について、パターン選択部10で選択されたM個のピッチパターン103から算出したオフセット値の平均値に従ってピッチパターン102を周波数軸上で平行移動させ、ピッチパターン104を生成する場合の処理手順を、図10のフローチャートを参照して説明する。
まず、ステップS101において、選択されたM個のピッチパターンの平均オフセット値を求める。各ピッチパターンの平均オフセット値O
Figure 0004738057
として求め、求めた各ピッチパターンの平均オフセット値O(1=<i=<M)の平均値Oave
Figure 0004738057
として求めることにより、M個のピッチパターンの平均オフセット値を求める。ここで、p(n)はi番目のピッチパターンの対数基本周波数、Tはそのサンプル数を表す。
次に、ステップS102において、ピッチパターン102のオフセット値を、前記平均オフセット値Oaveになるようにピッチパターンを変形する。ピッチパターン102の平均オフセット値Oを式(6)により求め、オフセット値を補正する量Odiff
Figure 0004738057
により求める。この補正量Odiffをピッチパターン102全体に加算することによってピッチパターン102を周波数軸上で平行移動させ、ピッチパターン104を生成する。
図11にオフセット制御の一例を示す。
この例ではM=7、N=3であり、O〜Oは選択された各ピッチパターンの平均オフセット値を表している。ステップS42によって生成されたピッチパターン102の平均オフセット値Oは7.7[Octave]で、7個のピッチパターン103の平均オフセット値Oaveは7.5[Octave]となり、オフセット値の補正量Odiffは−0.2[Octave]となる。この補正量Odiffをピッチパターン102全体に加算することによってオフセット値を制御したピッチパターン104を生成する。
以上のように、ピッチパターン102をM個のピッチパターン103から算出したオフセット値の統計量に従って周波数軸上で平行移動させ、ピッチパターン104を生成し、次に、図4のステップS44へ進む。
(4−4)パターン接続
ステップ44において、パターン接続部13は、アクセント句毎に生成されたピッチパターン104を繋げて、入力されたテキスト201に対応する音声の韻律的な特徴の1つである文ピッチパターン121を生成する。各アクセント句のピッチパターン104を接続する際には、アクセント句境界で不連続が生じないように平滑化などの処理を行って、文ピッチパターン121を出力する。
(5)本実施形態の効果
以上説明したように、本実施形態によれば、パターン選択部10で入力テキストに対応した言語属性情報100に基づいて、自然音声より抽出した大量のピッチパターが記憶されているピッチパターン記憶部14から韻律制御単位あたりM個及びN個のピッチパターンを選択し、さらに、オフセット制御部12において、韻律制御単位毎に選択されたM個のピッチパターン103から算出したオフセット値の統計量に基づいてピッチパターンのオフセットを制御することができる。
パターン形状とは別にピッチパターン全体の高さを制御するため、パターン形状を過度に鈍らすことなく、ピッチパターンの高さのずれのばらつきを低減できる。
パターン形状を生成するためのデータであるピッチパターン101とオフセット値の統計量を算出するためデータであるピッチパターン103は、パターン選択部10において同じ基準(評価尺度)で選択されるため、オフセット値をパターン形状の生成とは別の手法で単独に推定する方法に比べて、パターン形状と親和性の高いオフセット制御が可能となる。
自然音声より抽出したピッチパターンをオンラインで選択して利用することにより、様々なバリエーションのピッチパターンが生成できるため、入力テキストに相応しい、より人の発声した音声のピッチ変化に近いピッチパターンが生成可能となり、その結果、自然性の高い音声を合成できる。
パターン選択部10において、最適なピッチパターンが一位で選択できなかった場合などでも、複数の適切なピッチパターンから求めたオフセット値の統計量を用いてピッチパターンを変形することで、より安定したピッチパターンを生成することができる。
[変更例1]
上記実施形態の変更例1について説明する。
上記実施形態では、図10のステップS101において、ピッチパターンを融合する際の重みをコスト値の関数として定義したが、これに限定されるものではない。
例えば、パターン選択部10で選択された複数のピッチパターン101についてセントロイドを求め、このセントロイドと各ピッチパターンとの距離に応じて重みを決定する方法も考えられる。
これによって、選択されたピッチパターンの中に突発的に不良パターンが混入してしまった場合でも、その悪影響を抑えたピッチパターンの生成が可能である。
また、韻律制御単位全体に均一の重みを適用した例を示したが、これに限定されるものではなく、例えば、アクセント核部分だけ重み付け方法を変えるなど、ピッチパターンの各部に異なる重みを設定して融合することも可能である。
[変更例2]
上記実施形態の変更例2について説明する。
上記実施形態では、図4のパターン選択ステップS41において、韻律制御単位あたりM個及びN個の複数のピッチパターンを選択するとしたが、これに限定されるものではない。
韻律制御単位毎に選択するパターンの個数を変えることもでき、コスト値やピッチパターン記憶部14に記憶されているピッチパターン数など何らかの要因によって、選択する個数を適応的に決定することも可能である。
また、当該アクセント句のアクセント型と音節数にパターン属性情報が一致しているピッチパターンの中から選択するとしたが、これに限定されるものではなく、ピッチパターンデータベース中に一致するピッチパターンが存在しない、あるいは少ない場合などでは、類似するピッチパターン候補の中から選択することも可能である。
さらに、N=1の場合、つまりパターン形状は最適な1つのピッチパタ−ン101から生成することも可能である。この場合は、図6のステップS61及びS62におけるピッチパターン101の融合処理が不要になる。
[変更例3]
上記実施形態の変更例3について説明する。
上記実施形態では、パターン選択部10における目標コストとして、属性情報のうちの文中位置に関する情報を用いるものを例に挙げたが、これに限定されるものではない。
例えば、属性情報に含まれる他の様々な情報の違いを数値化して用いたり、ピッチパターンの各音韻継続時間長と目標の音韻継続時間長との違い(差)などを用いたりしてもよい。
[変更例4]
上記実施形態の変更例4について説明する。
上記実施形態では、パターン選択部10における接続コストとして、接続境界でのピッチの差を用いるものを例に挙げたが、これに限定されるものではない。
例えば、接続境界でのピッチ変化の傾きの違い(差)などを用いることも可能である。
また、上記実施形態では、パターン選択部10におけるコスト関数として、サブコスト関数の重み付き和である韻律制御単位コストの和を用いたが、これに限定されるものではなく、サブコスト関数を引数にとった関数であれば良い。
[変更例5]
上記実施形態の変更例5について説明する。
上記実施形態では、パターン選択部10におけるコストの推定方法として、コスト関数を計算することによって実行するものを例に挙げたが、これに限定されるものではない。
例えば、言語属性情報とパターン属性情報から数量化I類などの公知の統計的手法を用いて推定することも可能である。
[変更例6]
上記実施形態の変更例6について説明する。
上記実施形態では、図6のステップS61において、選択された複数のピッチパターン101の長さを揃える際に、音節毎にピッチパターンの中で最も長いものに合わせてパターンを伸張したが、これに限定されるものではない。
例えば、ステップS63の処理と組み合わせることで、各ピッチパターンを音韻継続時間長111に従って実際に必要な長さに合わせて揃えることもできる。
また、ピッチパターン記憶部14のピッチパターンを、予め音節毎などの長さを正規化してから記憶しておくことなども可能である。
[変更例7]
上記実施形態の変更例7について説明する。
上記実施形態では、まずパターン形状を生成し、それからオフセットを制御しているが、この処理手順はこれに限定されるものではない。
例えば、図4のステップS42とステップS43の処理の順序を入れ替えることにより、まず、M個のピッチパターン103より平均オフセット値Oaveを算出し、この平均オフセット値Oaveに基づいてN個のピッチパターン101の各オフセット値を制御(パターンを変形)したのちに、該変形されたN個のピッチパターンを融合することで韻律制御単位毎のピッチパターンを生成することも可能である。
[変更例8]
上記実施形態の変更例8について説明する。
上記実施形態では、図4のステップS43において、オフセット値の統計量を、M個のピッチパターン103の各オフセット値から式(7)に従って算出した平均オフセット値Oaveであるとしたが、これに限定されるものではない。
例えば、M個のピッチパターン103のオフセット値の中央値や、式(5)で得られるような各パターンのコスト値に基づいた重みwを利用して、M個のピッチパターンの各オフセット値を重み付け加算することによって求めたものなどでもよい。
また、M個のピッチパターン103を融合したピッチパターンを作成し、この融合パターンとピッチパターン102との誤差を最小にするという基準でオフセット制御用の移動量を求めることも可能である。
[変更例9]
上記実施形態の変更例9について説明する。
上記実施形態では、図10のステップS102において、オフセット値の統計量に基づくピッチパターンの変形を、周波数軸上でのピッチパターン全体の平行移動であるとしたが、これに限定されるものではない。
例えば、ピッチパターンにオフセット値の統計量に基づく係数を乗じて、ピッチパターンのダイナミックレンジを変化させてオフセットを制御することなども可能である。
[変更例10]
上記実施形態の変更例10について説明する。
上記実施形態では、図6のステップS62において、ピッチパターンを融合する際の重みをコスト値の関数として定義したが、これに限定されるものではない。
例えば、M個のピッチパターン103から算出したオフセット値の統計量によって、融合重みを決定する方法なども考えられる。この場合、まずM個のピッチパターン103のオフセット値の平均μ及び分散σを求める。
Figure 0004738057
から求めることができる。
Figure 0004738057
この重みwは、N個のピッチパターンの各オフセット値が、M個のピッチパターンのオフセット値から求めた分布の平均に近いほど大きくなり、平均から外れるほど小さくなる。このため、融合されるN個のピッチパターンの中で、オフセット値が平均的な値から外れるパターンの融合重みを小さくすることが可能となり、オフセット値の大きく異なるパターンを融合することによるピッチパターン全体の高さのばらつきや自然性の劣化を低減することができる。
[変更例11]
上記実施形態の変更例11について説明する。
上記実施形態では、オフセット値の統計量を算出するために、図5のステップS522においてピッチパターンをピッチパターン記憶部14から選択し、図10のステップS101において選択されたM個のピッチパターン103から平均オフセット値を算出した。
これに代えて、予めオフラインで各ピッチパターンのオフセット値を求めておき、これを記憶したオフセット記憶部から複数のオフセット値を選択してオフセット制御に用いるという構成も可能である。
例えば、図12に示すように、アクセント句毎のピッチパターンを各ピッチパターンに対応する属性情報と共に記憶したピッチパターン記憶部14に加えて、アクセント句毎のオフセット値を対応する属性情報と共に記憶したオフセット値記憶部16を備えるような構成である。この構成において、パターン&オフセット値選択部15は、N個のピッチパターン101と、M個のオフセット値105をそれぞれピッチパターン記憶部14及びオフセット値記憶部16から選択し、オフセット制御部12は、選択されたM個のオフセット値105の統計量に基づいてピッチパターン102を変形する。
また、図13のようにピッチパターン選択部10とオフセット値選択部17とを分けた構成も可能である。このようにオフセット値記憶部からオンラインで選択した複数のオフセット値の統計量に基づいてオフセット制御を行うことにより、様々な入力テキストのバリエーションに対応した自然なオフセット値を持つピッチパターンを生成することができる。
[変更例12]
以上の各実施形態の機能は、ハードウェアとしても実現可能である。
また、本実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク、光ディスク、半導体メモリなどの記録媒体に格納して、もしくはネットワークを介して頒布することも可能である。
さらに、以上の各機能は、ソフトウェアとして記述し、適当な機構をもったコンピュータ装置に処理させても実現可能である。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
本発明の一実施形態に係るテキスト音声合成システムの構成を示すブロック図である。 ピッチパターン生成部の構成例を示すブロック図である。 ピッチパターン記憶部に蓄積されているピッチパターンの記憶例を示す図である。 ピッチパターン生成部における処理手順の一例を示すフローチャートである。 パターン選択部の処理手順の一例を示すフローチャートである。 パターン形状生成部の処理手順の一例を示すフローチャートである。 複数のピッチパターンの長さを揃える処理の一方法を説明するための図である。 複数のピッチパターンを融合することによって新たなピッチパターンを生成する処理の一方法を説明するための図である。 ピッチパターンの時間軸方向の伸縮処理の一方法を説明するための図である。 オフセット制御部における処理手順の一例を示すフローチャートである。 オフセット制御部の処理の一方法を説明するための図である。 変更例11に係るピッチパターン生成部の構成例を示すブロック図である。 変更例11の別の実施形態に係るピッチパターン生成部の構成例を示すブロック図である。
符号の説明
1 ピッチパターン生成部
10 パターン選択部
11 パターン形状生成部
12 オフセット制御部
13 パターン接続部
14 ピッチパターン記憶部
15 パターン&オフセット値選択部
16 オフセット値記憶部
17 オフセット値選択部
20 言語処理部
21 韻律生成部
22 音声信号生成部

Claims (14)

  1. 韻律制御単位の原型となるピッチパターンを変形して音声合成に用いられるピッチパターンを生成するピッチパターン生成方法であって、
    韻律制御単位毎のピッチパターンの高さを表す自然音声より抽出したオフセット値とこれに対するパターン属性情報とが対応付けて記憶されている記憶手段から複数のオフセット値を選択するものであり、音声合成対象となるテキストを解析することにより得られる言語属性情報と前記パターン属性情報に基づいて韻律制御単位毎に前記複数のオフセット値を選択するオフセット値選択ステップと、
    前記テキストの韻律制御単位毎に択された前記複数のオフセット値の統計量に基づいて前記韻律制御単位の原型となるピッチパターンを変形するピッチパターン生成ステップと、
    を有することを特徴とするピッチパターン生成方法。
  2. 自然音声より抽出した第1のピッチパターンとこれに対するパターン属性情報とが対応付けて記憶されている記憶手段から複数の第1のピッチパターンを選択するものであり、音声合成対象となるテキストを解析することにより得られる言語属性情報前記パターン属性情報に基づいて韻律制御単位毎に前記複数の第1のピッチパターンを選択するピッチパターン選択ステップと、
    前記テキストの韻律制御単位毎に選択された前記複数の第1のピッチパターンに基づいて、前記第1のピッチパターンの高さを表すオフセット値の統計量を求め、前記オフセット値の統計量に基づいて前記韻律制御単位の第2のピッチパターンを生成するピッチパターン生成ステップと、
    前記韻律制御単位毎に生成された第2のピッチパターンを接続して前記テキストに対応するピッチパターンを生成するピッチパターン接続ステップと、
    を有することを特徴とするピッチパターン生成方法。
  3. 前記選択ステップは、M個及びN個(M>=N>1)の第1のピッチパターンを選択するものであり、
    前記ピッチパターン生成ステップは、前記M個の第1のピッチパターンからオフセット値の統計量を求め、前記N個の第1のピッチパターンを融合することで生成した融合ピッチパターンを前記オフセット値の統計量に基づいて変形することにより第2のピッチパターンを生成する
    ことを特徴とする請求項2記載のピッチパターン生成方法。
  4. 前記選択ステップは、M個及びN個(M>=N>1)の第1のピッチパターンを選択するものであり、
    前記ピッチパターン生成ステップは、前記M個の第1のピッチパターンからオフセット値の統計量を求め、前記N個の第1のピッチパターンを前記オフセット値の統計量に基づいて変形し、前記変形したN個の第1のピッチパターンを融合することで第2のピッチパターンを生成する
    ことを特徴とする請求項2記載のピッチパターン生成方法。
  5. 前記選択ステップは、M個の第1のピッチパターン及び1つの第1のピッチパターンを選択するものであり、
    前記ピッチパターン生成ステップは、前記M個の第1のピッチパターンからオフセット値の統計量を求め、前記選択された1つの第1のピッチパターンを前記オフセット値の統計量に基づいて変形することにより第2のピッチパターンを生成する
    ことを特徴とする請求項2記載のピッチパターン生成方法。
  6. 前記オフセット値の統計量は、平均値、中央値、重み和のいずれかである
    ことを特徴とする請求項1から5のいずれか一項に記載のピッチパターン生成方法。
  7. 前記選択ステップは、M個及びN個(M>=N>1)の第1のピッチパターンを選択するものであり、
    前記ピッチパターン生成ステップは、前記M個の第1のピッチパターンからオフセット値の統計量を求め、前記N個の第1のピッチパターンの各オフセット値と前記オフセット値の統計量とに基づいて、前記N個の第1のピッチパターンそれぞれの重みを決定し、前記重みに基づいてN個の第1のピッチパターンを融合することにより第2のピッチパターンを生成する
    ことを特徴とする請求項2記載のピッチパターン生成方法。
  8. 前記記憶手段には、自然音声より抽出したピッチパターンの高さを表すオフセット値が記憶されるか、または、抽出したオフセット値を量子化したものが記憶されている
    ことを特徴とする請求項1記載のピッチパターン生成方法。
  9. 前記記憶手段には、自然音声より抽出した第1のピッチパターンが記憶されているか、前記第1のピッチパターンを量子化したものが記憶されているか、または、前記第1のピッチパターンを近似したものが記憶されている
    ことを特徴とする請求項2記載のピッチパターン生成方法。
  10. 前記パターン属性情報と前記言語属性情報に基づいて韻律制御単位毎に原型となる複数の第1のピッチパターンを選択する場合に、コスト関数を用いて前記パターン属性情報前記言語属性情報とからコストを推定し、前記コストの小さい前記複数の第1のピッチパターンを選択する
    ことを特徴とする請求項2記載のピッチパターン生成方法。
  11. 韻律制御単位の原型となるピッチパターンを変形して音声合成に用いられるピッチパターンを生成するピッチパターン生成装置であって、
    韻律制御単位毎のピッチパターンの高さを表す自然音声より抽出したオフセット値とこれに対するパターン属性情報とが対応付けて記憶されている記憶手段と、
    音声合成対象となるテキストを解析することにより得られる言語属性情報と前記パターン属性情報に基づいて韻律制御単位毎に前記複数のオフセット値を選択するオフセット値選択手段と、
    前記テキストの韻律制御単位毎に択された前記複数のオフセット値の統計量に基づいて前記韻律制御単位の原型となるピッチパターンを変形するピッチパターン生成手段と、
    を有することを特徴とするピッチパターン生成装置。
  12. 自然音声より抽出した第1のピッチパターンとこれに対するパターン属性情報とが対応付けて記憶されている記憶手段と、
    音声合成対象となるテキストを解析することにより得られる言語属性情報前記パターン属性情報に基づいて韻律制御単位毎に前記複数の第1のピッチパターンを選択するピッチパターン選択手段と、
    前記テキストの韻律制御単位毎に選択された前記複数の第1のピッチパターンに基づいて、前記第1のピッチパターンの高さを表すオフセット値の統計量を求め、前記オフセット値の統計量に基づいて前記韻律制御単位の第2のピッチパターンを生成するピッチパターン生成手段と、
    前記韻律制御単位毎に生成された第2のピッチパターンを接続して前記テキストに対応するピッチパターンを生成するピッチパターン接続手段と、
    を有することを特徴とするピッチパターン生成装置。
  13. 韻律制御単位の原型となるピッチパターンを変形して音声合成に用いられるピッチパターンを生成するピッチパターン生成プログラムであって、
    コンピュータに、
    韻律制御単位毎のピッチパターンの高さを表す自然音声より抽出したオフセット値とこれに対するパターン属性情報とが対応付けて記憶されている記憶手段から複数のオフセット値を選択するものであり、音声合成対象となるテキストを解析することにより得られる言語属性情報と前記パターン属性情報に基づいて韻律制御単位毎に前記複数のオフセット値を選択するオフセット値選択機能と、
    前記テキストの韻律制御単位毎に択された前記複数のオフセット値の統計量に基づいて前記韻律制御単位の原型となるピッチパターンを変形するピッチパターン生成機能と、
    を実現させるためのピッチパターン生成プログラム。
  14. コンピュータに、
    自然音声より抽出した第1のピッチパターンとこれに対するパターン属性情報とが対応付けて記憶されている記憶手段から複数の第1のピッチパターンを選択するものであり、音声合成対象となるテキストを解析することにより得られる言語属性情報前記パターン属性情報に基づいて韻律制御単位毎に前記複数の第1のピッチパターンを選択するピッチパターン選択機能と、
    前記テキストの韻律制御単位毎に選択された前記複数の第1のピッチパターンに基づいて、前記第1のピッチパターンの高さを表すオフセット値の統計量を求め、前記オフセット値の統計量に基づいて前記韻律制御単位の第2のピッチパターンを生成するピッチパターン生成機能と、
    前記韻律制御単位毎に生成された第2のピッチパターンを接続して前記テキストに対応するピッチパターンを生成するピッチパターン接続機能と、
    を実現させるためのピッチパターン生成プログラム。
JP2005151568A 2005-05-24 2005-05-24 ピッチパターン生成方法及びその装置 Expired - Fee Related JP4738057B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2005151568A JP4738057B2 (ja) 2005-05-24 2005-05-24 ピッチパターン生成方法及びその装置
US11/233,021 US20060271367A1 (en) 2005-05-24 2005-09-23 Pitch pattern generation method and its apparatus
CNA200610080937XA CN1870130A (zh) 2005-05-24 2006-05-23 音调模式生成方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005151568A JP4738057B2 (ja) 2005-05-24 2005-05-24 ピッチパターン生成方法及びその装置

Publications (2)

Publication Number Publication Date
JP2006330200A JP2006330200A (ja) 2006-12-07
JP4738057B2 true JP4738057B2 (ja) 2011-08-03

Family

ID=37443775

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005151568A Expired - Fee Related JP4738057B2 (ja) 2005-05-24 2005-05-24 ピッチパターン生成方法及びその装置

Country Status (3)

Country Link
US (1) US20060271367A1 (ja)
JP (1) JP4738057B2 (ja)
CN (1) CN1870130A (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4056470B2 (ja) * 2001-08-22 2008-03-05 インターナショナル・ビジネス・マシーンズ・コーポレーション イントネーション生成方法、その方法を用いた音声合成装置及びボイスサーバ
US20130070911A1 (en) * 2007-07-22 2013-03-21 Daniel O'Sullivan Adaptive Accent Vocie Communications System (AAVCS)
KR101395459B1 (ko) * 2007-10-05 2014-05-14 닛본 덴끼 가부시끼가이샤 음성 합성 장치, 음성 합성 방법 및 컴퓨터 판독가능 기억 매체
JP5275102B2 (ja) * 2009-03-25 2013-08-28 株式会社東芝 音声合成装置及び音声合成方法
US9286886B2 (en) * 2011-01-24 2016-03-15 Nuance Communications, Inc. Methods and apparatus for predicting prosody in speech synthesis
US9635067B2 (en) 2012-04-23 2017-04-25 Verint Americas Inc. Tracing and asynchronous communication network and routing method
US20130282844A1 (en) 2012-04-23 2013-10-24 Contact Solutions LLC Apparatus and methods for multi-mode asynchronous communication
JP5821824B2 (ja) 2012-11-14 2015-11-24 ヤマハ株式会社 音声合成装置
CN103714824B (zh) * 2013-12-12 2017-06-16 小米科技有限责任公司 一种音频处理方法、装置及终端设备
GB2540062B (en) 2014-02-06 2017-09-27 Contact Solutions LLC Systems, apparatuses and methods for communication flow modification
JP6520108B2 (ja) * 2014-12-22 2019-05-29 カシオ計算機株式会社 音声合成装置、方法、およびプログラム
US9166881B1 (en) 2014-12-31 2015-10-20 Contact Solutions LLC Methods and apparatus for adaptive bandwidth-based communication management
WO2017024248A1 (en) 2015-08-06 2017-02-09 Contact Solutions LLC Tracing and asynchronous communication network and routing method
US10063647B2 (en) 2015-12-31 2018-08-28 Verint Americas Inc. Systems, apparatuses, and methods for intelligent network communication and engagement
US10872598B2 (en) 2017-02-24 2020-12-22 Baidu Usa Llc Systems and methods for real-time neural text-to-speech
US10896669B2 (en) * 2017-05-19 2021-01-19 Baidu Usa Llc Systems and methods for multi-speaker neural text-to-speech
US10872596B2 (en) 2017-10-19 2020-12-22 Baidu Usa Llc Systems and methods for parallel wave generation in end-to-end text-to-speech
CN109992612B (zh) * 2019-04-19 2022-03-04 吉林大学 一种汽车仪表板造型形态元素特征库的开发方法
CN111292720B (zh) * 2020-02-07 2024-01-23 北京字节跳动网络技术有限公司 语音合成方法、装置、计算机可读介质及电子设备
CN113140230B (zh) * 2021-04-23 2023-07-04 广州酷狗计算机科技有限公司 音符音高值的确定方法、装置、设备及存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5278943A (en) * 1990-03-23 1994-01-11 Bright Star Technology, Inc. Speech animation and inflection system
JPH0934492A (ja) * 1995-07-25 1997-02-07 Matsushita Electric Ind Co Ltd ピッチパターン制御方法
US6081780A (en) * 1998-04-28 2000-06-27 International Business Machines Corporation TTS and prosody based authoring system
JP3583929B2 (ja) * 1998-09-01 2004-11-04 日本電信電話株式会社 ピッチパタン変形方法及びその記録媒体
US6260016B1 (en) * 1998-11-25 2001-07-10 Matsushita Electric Industrial Co., Ltd. Speech synthesis employing prosody templates
WO2002073595A1 (fr) * 2001-03-08 2002-09-19 Matsushita Electric Industrial Co., Ltd. Dispositif generateur de prosodie, procede de generation de prosodie, et programme
JP2002297175A (ja) * 2001-03-29 2002-10-11 Sanyo Electric Co Ltd テキスト音声合成装置、テキスト音声合成方法及びプログラム並びにプログラムを記録したコンピュータ読み取り可能な記録媒体
US6829581B2 (en) * 2001-07-31 2004-12-07 Matsushita Electric Industrial Co., Ltd. Method for prosody generation by unit selection from an imitation speech database
JP4056470B2 (ja) * 2001-08-22 2008-03-05 インターナショナル・ビジネス・マシーンズ・コーポレーション イントネーション生成方法、その方法を用いた音声合成装置及びボイスサーバ
JP3737788B2 (ja) * 2002-07-22 2006-01-25 株式会社東芝 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム
AU2003275134A1 (en) * 2002-09-19 2004-04-08 The Penn State Research Foundation Prosody based audio/visual co-analysis for co-verbal gesture recognition
JP2004117663A (ja) * 2002-09-25 2004-04-15 Matsushita Electric Ind Co Ltd 音声合成システム
JP2006309162A (ja) * 2005-03-29 2006-11-09 Toshiba Corp ピッチパターン生成方法、ピッチパターン生成装置及びプログラム

Also Published As

Publication number Publication date
CN1870130A (zh) 2006-11-29
JP2006330200A (ja) 2006-12-07
US20060271367A1 (en) 2006-11-30

Similar Documents

Publication Publication Date Title
JP4738057B2 (ja) ピッチパターン生成方法及びその装置
US11990118B2 (en) Text-to-speech (TTS) processing
JP4551803B2 (ja) 音声合成装置及びそのプログラム
US10692484B1 (en) Text-to-speech (TTS) processing
US11763797B2 (en) Text-to-speech (TTS) processing
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
US20040030555A1 (en) System and method for concatenating acoustic contours for speech synthesis
JP2006084715A (ja) 素片セット作成方法および装置
JP2006309162A (ja) ピッチパターン生成方法、ピッチパターン生成装置及びプログラム
JP2009047957A (ja) ピッチパターン生成方法及びその装置
JP4829477B2 (ja) 声質変換装置および声質変換方法ならびに声質変換プログラム
US20100250254A1 (en) Speech synthesizing device, computer program product, and method
JP5807921B2 (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
US8478595B2 (en) Fundamental frequency pattern generation apparatus and fundamental frequency pattern generation method
JP4533255B2 (ja) 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP3737788B2 (ja) 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム
JP4417892B2 (ja) 音声情報処理装置、音声情報処理方法および音声情報処理プログラム
JP6137708B2 (ja) 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP2006084854A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP3576792B2 (ja) 音声情報処理方法
Huang et al. Hierarchical prosodic pattern selection based on Fujisaki model for natural mandarin speech synthesis
JP2000047680A (ja) 音声情報処理装置
CN115798452A (zh) 一种端到端语音拼接合成方法
Wang Tone Nucleus Model for Emotional Mandarin Speech Synthesis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061020

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100615

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100729

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110405

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110426

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140513

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees