JP3737788B2 - 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム - Google Patents

基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム Download PDF

Info

Publication number
JP3737788B2
JP3737788B2 JP2002213188A JP2002213188A JP3737788B2 JP 3737788 B2 JP3737788 B2 JP 3737788B2 JP 2002213188 A JP2002213188 A JP 2002213188A JP 2002213188 A JP2002213188 A JP 2002213188A JP 3737788 B2 JP3737788 B2 JP 3737788B2
Authority
JP
Japan
Prior art keywords
value
pattern
fundamental frequency
time series
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002213188A
Other languages
English (en)
Other versions
JP2004054063A (ja
Inventor
剛 平林
岳彦 籠嶋
龍太郎 徳田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2002213188A priority Critical patent/JP3737788B2/ja
Publication of JP2004054063A publication Critical patent/JP2004054063A/ja
Application granted granted Critical
Publication of JP3737788B2 publication Critical patent/JP3737788B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、例えば、テキスト音声合成に関し、特に、基本周波数(F0)パターンを生成する方法および装置に関する。
【0002】
【従来の技術】
近年、任意の文章から人工的に音声信号を生成するテキスト音声合成システムが開発されている。通常、このテキスト音声合成システムは、言語処理部、韻律生成部、音声信号生成部の3つのモジュールから構成される。
【0003】
入力されたテキストは、まず言語処理部において、形態素解析・構文解析等の言語処理が行われ、音韻記号列・アクセント型、品詞などの言語情報が出力される。次に韻律生成部において、基本周波数(ピッチ)やリズムのパターンが生成される。
【0004】
韻律生成部は、音韻継続時間長生成部とピッチパターン生成部より構成される。音韻継続時間長生成部は、言語情報を参照して、各音素の音韻継続時間長を生成して出力する。ピッチパターン生成部は、言語情報と音韻継続時間長を入力として、声の高さの変化パターンであるピッチパターン(F0パターンとも云う)を出力する。最後に音声信号生成部において、音声信号が合成される。
【0005】
テキスト音声合成システムの中で、韻律生成部の性能が合成音声の自然性に関係しており、とりわけ声の高さの変化パターンであるピッチパターンの精度が生成される合成音声の自然性を大きく左右する。
【0006】
従来のテキスト音声合成におけるピッチパターン生成方法は、比較的単純なモデルを用いてピッチパターンの生成を行っていたため、抑揚が不自然で機械的な合成音声となっていた。
【0007】
こうした問題を解決するために、自然音声から抽出されたピッチパターンを利用するアプローチが提案されている。例えば、特開平11−095783号公報では、自然音声のピッチパターンから統計的な手法を用いて抽出されたアクセント句単位の典型的なパターンである代表パターンを複数記憶しておき、アクセント句毎に選択された代表パターンを変形し、接続することによってピッチパターンを生成する方法が開示されている。
【0008】
図9は、上述した従来のピッチパターン生成方法に係るピッチパターン生成部の構成例を示したものである。以下、図9を用いて従来のピッチパターン生成方法について説明する。
【0009】
代表パターン記憶部18は、アクセント句単位の典型的なピッチパターンを表す代表パターンを複数記憶している。代表パターンは音節単位の長さが一定となるように正規化されており、その各点は対数スケール上のピッチで表現されている。
【0010】
代表パターンの例を図10に示す。縦軸は対数スケールのピッチを表している。また、横軸は時間に相当するが、この例では、1音節を3点で表すように正規化されているため、1目盛りが1音節に対応する。
【0011】
代表パターン選択部10は、言語情報100を参照して、代表パターンを、代表パターン記憶部18よりアクセント句毎に選択して出力する。
【0012】
言語情報100は、入力されたテキストに言語解析を行って得られる各アクセント句およびその近傍のアクセント句に関する情報であり、音韻記号列、アクセント型、品詞、構文情報などから構成される。「今日はすばらしい青空です。」というテキストに対する言語情報の例を、図11に示す。言語情報100から代表パターン201を選択するための規則は、統計的手法や機械学習手法など何らかの公知の方法を用いて生成することが可能である。
【0013】
代表パターン変形部18は、代表パターンを、言語情報100および音韻継続時間長111に基づいて変形し、アクセント句パターン202を出力する。まず、音韻継続時間長111に従って音声単位で時間軸方向に線形伸縮を行う。次に、言語情報100から代表パターンのダイナミックレンジを推定し、その推定値に従ってパターンを周波数軸方向に線形伸縮する。ダイナミックレンジの推定には、数量化I類などの公知の統計的手法を用いることができる。
【0014】
オフセット推定部12は、アクセント句の平均的な高さに相当するオフセット値103を、言語情報100から推定して出力する。オフセット値の推定には、上述したダイナミックレンジの推定と同様に、数量化I類などの公知の統計的手法を用いることができる。
【0015】
オフセット制御部13は、アクセント句パターン202を、推定されたオフセット値103に従って周波数軸上で平行移動させ、アクセント句パターン204を出力する。上述したパターン変形およびオフセット制御の例を図12に示す。
【0016】
パターン接続部15は、アクセント句毎に生成されたアクセント句パターン204を接続するとともに、アクセント句境界で不連続が生じないように平滑化を行って、文ピッチパターン206を出力する。文ピッチパターンの例を図13に示す。
【0017】
上述したようなテキスト音声合成のピッチパターン生成方法においては、代表パターンの変形が必要となる。例えば音韻継続時間長に従って音節単位で時間軸方向にパターンの変形を行う場合、各点の平均ピッチなどの静的特徴量のみを用いた線形伸縮では、何等かの理論的根拠に基づいた適切な変形ではないため、この変形ピッチパターンに従って生成された合成音の自然性が低下するという問題がある。
【0018】
図14および図15にその一例を示す。ここで、図14(a)と図15(b)は、選択された代表パターンであり、図14(b)と図15(b)は、それぞれ(a)図に示した代表パターンを実際に時間軸方向に音節単位で線形伸縮することによって変形させたパターンを表し、図14(c)と図15(c)は理想とする変形後のパターンを示している。
【0019】
図14の例では、静的特徴のみを用いて伸縮を行っているために、パターンの傾きを考慮した変形ができず、2音節目付近で不自然なピッチ変化が生じている。また、図15の例では、代表パターンの各点の情報量、および伸縮による変形の精度が不十分なために、本来(c)図のように変形されるべきパターンであっても、単純で不正確な(b)図のような変形パターンが生成されてしまっている。
【0020】
一方で、電子情報通信学会技術研究報告2001年9月SP2001−70(53頁〜58頁)に記載されたような、動的特徴と静的特徴をパラメータとしてピッチを音素単位でモデル化し、動的特徴量を考慮して滑らかなピッチ変化パターンを生成するというものが提案されている。
【0021】
しかし、音素単位でモデル化する場合には、ピッチの存在しない無声音に対するモデル化に問題が生じてくる。また、アクセント型を陽に表現できないため、ピッチの変化が滑らかであっても、不自然、もしくは誤った抑揚のパターンが生成されてしまう可能性があるという問題があった。
【0022】
【発明が解決しようとする課題】
このように、従来は、代表パターンの変形を変形する際には、当該代表パターンの各点の平均ピッチなどの当該代表パターンの静的特徴量のみを用いていたため、変形した結果得られるパターンは不自然なものとなり、自然発声に近い合成音声を生成することができないという問題点があった。
【0023】
そこで、本発明は、以上の問題を考慮してなされたものであり、人の発声した音声の基本周波数パターンに近い音声の基本周波数パターンの生成が可能な基本周波数パターン生成方法および基本周波数パターン生成装置と、それを用いて、人の発声した音声に近い音声を合成することができる音声合成装置を提供することを目的とする。
【0024】
【課題を解決するための手段】
本発明は、テキストを解析することによって得られる言語情報を基に、当該テキストに対応する音声の韻律的な特徴の1つである、基本周波数の時間的変化を表した基本周波数パターンを生成するものであって、前記テキストに対応する音声の韻律的な特徴を制御するための1音節以上の時間長を有する音声の単位としての韻律制御単位毎の典型的な基本周波数パターンであって、当該基本周波数パターンを構成する各時系列点における静的特徴と、前記静的特徴の変化の特徴を表した動的特徴とが、それぞれの統計量で表現されている複数の代表パターンを記憶手段に記憶し、この記憶手段に記憶された複数の代表パターンの中から、前記言語情報に基づき前記テキストに対応する代表パターンを選択し、この選択された代表パターンの前記静的特徴の前記統計量と前記動的特徴の前記統計量とからの尤度に基づき、前記テキストに対応する音声の基本周波数パターンを推定することを特徴とする。
【0025】
本発明によれば、人の発声した音声の基本周波数パターンに近い音声の基本周波数パターンの生成が可能となる。
【0026】
本発明は、テキストを解析することによって得られる言語情報を基に、当該テキストに対応する音声の韻律的な特徴の1つである、基本周波数の時間的変化を表した基本周波数パターンを生成するものであって、前記テキストに対応する音声の韻律的な特徴を制御するための1音節以上の時間長を有する音声の単位としての韻律制御単位毎の典型的な基本周波数パターンであって、当該基本周波数パターンを構成する各時系列点における静的特徴と、前記静的特徴の変化の特徴を表した動的特徴とが、それぞれの統計量で表現されている複数の代表パターンを記憶手段に記憶し、この記憶手段に記憶された複数の代表パターンの中から、前記言語情報に基づき前記テキストに対応する代表パターンを選択し、この選択された代表パターンの前記静的特徴の前記統計量と前記動的特徴の前記統計量とからの尤度と、前記言語情報に基づき推定される、前記韻律制御単位毎の前記代表パターンの高さを表すオフセット値とを基に、前記代表パターンを変形することにより、前記テキストに対応する音声の基本周波数パターンを生成することを特徴とする。
【0027】
本発明によれば、人の発声した音声の基本周波数パターンに近い音声の基本周波数パターンの生成が可能となる。
【0028】
本発明は、テキストを解析することによって得られる言語情報を基に、予め記憶手段に記憶された、音声の韻律的な特徴を制御するための1音節以上の時間長を有する音声の単位としての韻律制御単位毎の典型的な基本周波数パターンである複数の代表パターンの中から、当該テキストに対応する代表パターンを選択し、この選択された代表パターンを、前記言語情報に基づき推定された、前記韻律制御単位毎の前記代表パターンの高さであるオフセット値に基づき変形を行うことにより、当該テキストに対応する音声の基本周波数パターンを生成するものであって、前記韻律制御単位毎の前記オフセット値を、その静的特徴の統計量と、前記静的特徴の変化の特徴を表した動的特徴の統計量とからの尤度に基づき推定することを特徴とする。
【0029】
本発明によれば、人の発声した音声の基本周波数パターンに近い音声の基本周波数パターンの生成が可能となる。
【0030】
なお、前記韻律制御単位は、形態素、単語、アクセント句のうちのいずれかであってもよい。
【0031】
また、前記静的特徴は、対数あるいは線形スケール上のピッチであってもよい。
【0032】
また、前記動的特徴は、前記時系列点間の前記静的特徴の差分、回帰係数、多項式展開係数のうちのいずれかであってもよい。
【0033】
また、前記統計量は、平均値と、分散値若しくは標準偏差であってもよい。
【0034】
さらに、前記代表パターンの変形は、前記選択された代表パターンを複数個接続したパターンに対して行うようにしてもよい。
【0035】
【発明の実施の形態】
以下、本発明の実施形態について図面を参照して説明する。
【0036】
図1は、本実施形態に係る音声合成システムの構成例を示したもので、大きく分けて、言語処理部20、韻律生成部21、音声信号生成部22から構成されている。
【0037】
テキスト208が入力されると、まず言語処理部20において、当該入力されたテキスト208に対し、形態素解析や構文解析などの言語解析処理が行われ、音韻記号列、アクセント型、品詞、係り先、ポーズなどの言語情報100が出力される。
【0038】
韻律生成部21では、言語情報100を基に、入力されたテキスト208に対応する音声の韻律的な特徴を表した情報(韻律情報)、すなわち、例えば、音韻継続時間長や、基本周波数(以下では、ピッチ、F0と簡単に表記することもある)の時間経過に伴う変化を表したパターン、すなわち、基本周波数パターン(以下、簡単にピッチパターンあるいは、F0パターンと呼ぶ)などが生成される。韻律生成部21は、音韻継続時間長生成部23とピッチパターン生成部1より構成される。
【0039】
音韻継続時間長生成部23は、言語情報100を参照して、各音素の時間的な長さ、すなわち、音韻継続時間長111を生成して出力する。なお、言語情報から音韻継続時間長を生成する手法は、従来と同様、公知技術を用いればよく、また、本願の要旨ではないので、説明は省略する。
【0040】
ピッチパターン生成部1は、言語情報100と音韻継続時間長111を入力として、声の高さの変化パターンであるピッチパターン106、より具体的には、例えば、アクセント句毎のピッチパターンをアクセント句境界で不連続が生じないように平滑化を行って接続することにより生成された文単位のピッチパターン(文ピッチパターン)106を出力する。
【0041】
音声信号生成部22では、言語情報100を基に生成されたピッチパターン106や音韻継続時間長111などの韻律情報などを基に、入力されたテキスト208に対応する音声を合成し、音声信号207として出力する。なお、ここで音声を合成する手法は、従来と同様、公知の技術を用いればよく、また、本願の要旨ではないので、説明は省略する。
【0042】
図2は、図1のピッチパターン生成部1の構成を示すブロック図で、代表パターン選択部10と、代表パターン伸縮部11と、オフセット推定部12と、オフセット制御部13と、最尤推定部14と、パターン接続部15と、代表パターン記憶部16とから構成されている。なお、図2において、図9と同一部分には同一符号を付している。
【0043】
図9に示した従来のピッチパターン生成部との相違点は、代表パターンの各点(時系列点)を、静的特徴である対数ピッチの平均および分散と、動的特徴である当該点における上記静的特徴の左側および右側の1次回帰係数の平均および分散とによって表現し、選択された代表パターンを尤度最大化基準に基づいて変形を行うことである。
【0044】
自然音声の複数のピッチパターンから統計的な手法を用いて抽出されたアクセント句単位の典型的なパターンである代表パターンの各点のピッチは、自然音声の複数のピッチパターンから求められた対数スケールあるいは線形スケール上の平均値であり、代表パターンの各点(時系列点)毎の静的特徴は、例えば、この平均値と分散値(分散値の代わりに分散値の平方根の標準偏差値でもよい)などの統計量で表現されている。これらを静的特徴量とも云う。
【0045】
また、代表パターンの各点における動的特徴とは、例えば、上記自然音声の複数のピッチパターンから求めた、当該点とその左側(あるいは右側)にあるいずれかの点(例えば、隣接する点)との間の上記静的特徴(例えば、対数あるいは線形スケール上のピッチの平均値)の変化の特徴(例えば、差分、回帰係数、多項式展開係数など)であり、動的特徴は、その平均値と分散値(分散値の代わりに分散値の平方根の標準偏差値でもよい)などの統計量で表現されている。これらは動的特徴量とも云う。
【0046】
以下、図16に示すフローチャートを参照しながら図2に示すピッチパターンの構成と動作について説明する。
【0047】
図2において、代表パターン記憶部16は、音声の韻律的な特徴を制御するための音声の単位(韻律制御単位)として、例えば、アクセント句単位の典型的なピッチパターンを表す代表パターンを複数記憶している。代表パターンは、音節単位の長さが一定となるように正規化されており、その各点は静的特徴である対数スケールのピッチの統計量(ここでは、平均および分散)と、動的特徴である当該点の左側および右側の1次回帰係数(いわゆる傾き)それぞれの統計量(ここでは、平均および分散)の情報を保持している。つまり、
【数1】
Figure 0003737788
図3に、4つの代表パターン(a)〜(d)のそれぞれについての静的特徴を示し、図4に、図3(a)〜(d)に示した4つの代表パターンのそれぞれに対応する動的特徴を示す。
【0048】
図3は、各代表パターンの各点における、静的特徴の情報である対数ピッチの平均値と標準偏差値(分散値の平方根)を表している。また、図4は、代表パターンの各点における、動的特徴の情報の1つである左側1次回帰係数の平均値と標準偏差値を表している。図3、図4において、縦軸は対数スケールの周波数であり、また、横軸は時間に相当するが、ここでは、1音節を3点で表現するように正規化されているため、1目盛りが1音節に対応する。
【0049】
図2の説明に戻り、代表パターン選択部10は、言語情報100を参照して、代表パターンを、代表パターン記憶部16よりアクセント句毎に選択して出力する(図16のステップS3)。
【0050】
言語情報100は、入力されたテキストに言語解析を行って得られる各アクセント句およびその近傍のアクセント句に関する情報であり、音韻記号列、アクセント型、品詞、構文情報などから構成される。「今日はすばらしい青空です。」というテキストに対する言語情報の例は、図11に示した通りである。言語情報100から代表パターン201を選択するための規則は、統計的手法や機械学習手法など何らかの公知の方法を用いて生成することが可能である。
【0051】
代表パターン伸縮部11は、代表パターンの各点のパラメータを音韻継続時間長111に従って音節単位で時間軸方向に線形伸縮を行い、アクセント句パターン102を出力する(図16のステップS4)。
【0052】
オフセット推定部12は、アクセント句の平均的な高さに相当するオフセット値103を、言語情報100から推定して出力する。オフセット値の推定には、上述したダイナミックレンジの推定と同様に、数量化I類などの公知の統計的手法を用いることができる。
【0053】
なお、オフセット値とは、韻律制御単位に対応するピッチパターンの全体的な音の高さを表す情報であって、例えば、上記のように、パターンの平均的な高さやパターンの最大ピッチ、最小ピッチ、高さの変化量などの情報であってもよい。
【0054】
オフセット制御部13は、アクセント句パターン102の各点のパラメータに対して、静的特徴である対数ピッチの平均値を、オフセット推定部12で推定されたオフセット値103に従って変更する。つまり、従来における処理と同様にして、パターンを周波数軸上で平行移動させ、アクセント句パターン104を出力する(図16のステップS5)。
【0055】
最尤推定部14は、オフセット制御部13にてオフセットの制御されたアクセント句パターン104について、当該パターンの各点における静的特徴と動的特徴のそれぞれについての統計量に対して尤度最大の意味で最適なパラメータ列を求めることで、パターンの変形を行い、パターン105を出力する(図16のステップS6)。
【0056】
【数2】
Figure 0003737788
【0057】
つまり、パラメータ列は、分散値とは無関係に平均値の列、すなわち各点のピッチの値としては静的特徴である対数ピッチの平均値となってしまう。
【0058】
そこで、このパラメータ列に、音声認識等で広く用いられている動的特徴を導入する。
【0059】
【数3】
Figure 0003737788
【0060】
図5、図6に、代表パターン101を変形する過程を示す。図5(a)は、選択された代表パターン101の各点におけるパラメータのうち、静的特徴である対数ピッチの平均値および標準偏差値(分散値の平方根)を示したものである。図5(a)に示した静的特徴に対し、代表パターン伸縮部11で時間軸方向の線形伸縮を行い、さらに、オフセット制御部13でオフセット制御を行った結果得られたパターン104の各点における平均値を示したものが、図5(b)である。
【0061】
図5(c)は、図5(a)に示した代表パターンについての動的特徴の1つである左側1次回帰係数の平均値および標準偏差値を示したものである。図5(c)に示した動的特徴に対し、代表パターン伸縮部11で時間軸方向の線形伸縮を行い、さらに、オフセット制御部13でオフセット制御を行った結果得られたパターン104の各点における平均値を示したものが、図5(d)である。
【0062】
図6は、図5(b)、(d)に示した、静的特徴と動的特徴の時間軸方向整形伸縮とオフセット制御の結果得られたパターンと、最尤推定部14において生成されたパラメータ列とから生成された最終的なアクセント句パターン、すなわち、パターン105である。
【0063】
図5〜図6に示した代表パターンの第2音節目は、静的特徴である対数ピッチの分散値が小さく(図5(a)参照)、動的特徴である1次回帰係数の分散値が比較的大きいため(図5(c)参照)、最尤推定部14では、元の代表パターンにおけるピッチの値、すなわち、静的特徴を重視するようなパターンの変形が行われている。一方で、当該代表パターンの第3〜4音節目においては、静的特徴の分散値が比較的大きく(図5(a)参照)、動的特徴の分散値が小さいために(図5(c)参照)、パターンの傾き、すなわち、動的特徴を重視した変形が行われていることがわかる。
【0064】
つまり、最尤推定により静的および動的特徴の統計量を反映したパラメータ生成を行っているため、パターンの各点のピッチ値を重視するべき部分と、パターンの変化(傾き)を重視すべき部分とを同時に考慮したような変形が可能となっている。さらに、静的および動的特徴の組み合わせによって代表パターンの各点を表現しているために、代表パターンの表現力も向上しており、この例の第1音節目ような精度の高い複雑な変形パターンの生成も可能となる。
【0065】
このように、動的特徴を考慮した尤度最大の意味で最適なパラメータを生成することによって、静的特徴であるピッチ情報のみから線形補間などを行う場合と比較して、より自然音声に近い滑らかで高精度のピッチパターンの変形が可能となり、自然性の高い合成音声を生成することができる。さらに、アクセント型はもとの代表パターンによって陽に表現されているため、アクセント位置の正しい滑らかで自然なパターンの生成が可能である。
【0066】
図2の説明に戻り、パターン接続部15は、アクセント句毎に生成されたアクセント句パターン105を接続するとともに、アクセント句境界で不連続が生じないように平滑化を行って、文ピッチパターン106を出力する(図16のステップS7)。
【0067】
以上のようにして生成されたピッチパターン106や音韻継続時間長111などの韻律情報などを基に、音声信号生成部22では、入力されたテキスト208に対応する音声を合成し、音声信号207として出力する(図16のステップS8)。
【0068】
本実施形態では、代表パターンに対して、時間長による線形伸縮を行い、オフセットを制御した後に、最尤推定による変形を行っているが、オフセット制御は、時間長による線形伸縮の前でも、最尤推定による変形の後でもよい。
【0069】
また、本実施形態では、各パターンの接続を行う前に、アクセント句単位の代表パターンに対し、最尤推定による変形を行っているが、順番を入れ替えて、韻律制御単位の代表パターンを複数接続した後に、最尤推定による変形を行ってもよい。
【0070】
また、本実施形態では、オフセット推定部12において推定されたオフセット値をそのまま利用してオフセット制御を行っているが、オフセット値についても静的および動的特徴の統計量によって表現し、これらの統計量からの尤度に基づいて変更を行ってから制御に利用してもよい。
【0071】
図7は、代表パターンに対して、時間長による線形伸縮を行って最尤推定による変形を行うとともに、オフセット推定部12において推定されたオフセット値についても静的および動的特徴の統計量によって表現し、これらの統計量からの尤度に基づいて変更を行ってからオフセット制御を行う場合のピッチパターン生成部1の構成例を示したものである。
【0072】
なお、図7において、図2と同一部分には同一符号を付し、異なる部分についてのみ説明する。すなわち、図7では、オフセット値最尤推定部19がオフセット推定部12とオフセット制御部13の間に設けられ、オフセット推定部12から出力されるオフセット値107が静的特徴と動的特徴とで表現されている点が、図2と異なる。
【0073】
図8は、複数(例えば、ここでは、4つ)のアクセント句単位のピッチパターンを接続してなる例えば1つの文について、オフセット値最尤推定部19で、各アクセント句のオフセット値を変更する場合を説明するための図である。
【0074】
図7のオフセット推定部12で推定されるオフセット値の静的特徴は、例えば、図8(a)に示すように、自然音声の複数のピッチパターンから統計的な手法を用いて抽出された、例えば、アクセント句単位の代表パターンの例えば対数スケール(あるいは線形スケール)上のピッチの値の平均値(平均的な高さ)と分散値(分散値の平方根の標準偏差値でもよい))といった統計量で表現されている。
【0075】
また、オフセット値の動的特徴とは、例えば、図8(b)に示すように、複数のアクセント句単位のピッチパターンを接続したときに、着目するピッチパターンについて、例えばその右側(あるいは左側)のいずれかにある他のピッチパターンと、当該着目するピッチパターンとの間の上記静的特徴(例えば、アクセント句毎のピッチの平均値)の変化の特徴(例えば、着目するピッチパターンと他のピッチパターンとの間の上記静的特徴の差分、回帰係数、多項式展開係数などのいずれか)を表したもので、この静的特徴の変化の平均値と分散値(分散値の平方根の標準偏差値でもよい)といった統計量で表現されている。
【0076】
オフセット値推定部19では、オフセット推定部12から出力された、上記のようなオフセット値107に対し、前述した図2の最尤推定部14と同様にして、例えば、図8(c)に示したように、第2アクセント句のように、静的特徴である対数ピッチの分散値が小さく、動的特徴である1次回帰係数の分散値が比較的大きい場合には、静的特徴を重視するようなオフセット値の変更を行い、第3〜4アクセント句のように、静的特徴の分散値が比較的大きく、動的特徴の分散値が小さい場合には、動的特徴を重視したオフセット値の変更を行う。
【0077】
なお、オフセット値推定部19では、代表パターン伸縮部11から出力された、アクセント句単位の複数のピッチパターンを接続した例えば1文単位で、当該文を構成する各アクセント句単位のオフセットを推定する。
【0078】
上記実施形態では、日本語のピッチパターン生成について説明したが、言語には依存しない方法であるため、適当な韻律制御単位を選択することで、英語・ドイツ語・フランス語・イタリア語・スペイン語・オランダ語・スウェーデン語・中国語など、外国語に本発明を適用することも可能である。
【0079】
また、上記実施形態では、韻律制御単位としてアクセント句単位のピッチパターンを処理対象とした場合について説明したが、本発明は、この場合に限らず、例えば、呼気段落、単語、形態素、音節、モーラなどや、さらにこれらを組み合わせた単位といった、他の韻律制御単位であっても適用可能である。
【0080】
以上説明したように、上記実施形態によれば、入力テキストに対応する音声の韻律的な特徴を制御するための1音節以上の時間長を有する音声の単位としての韻律制御単位(例えばアクセント句)毎の典型的な基本周波数パターンであって、当該基本周波数パターンを構成する各時系列点における静的特徴と、当該時系列点と他の時系列点との間の上記静的特徴の変化の特徴を表した動的特徴とが、それぞれの統計量で表現されている複数の代表パターンを代表パターン記憶部16に記憶し、代表パターン選択部10は、代表パターン記憶部16に記憶された複数の代表パターンの中から、上記言語情報に基づき入力テキストに対応する代表パターンを選択する。代表パターン伸縮部11では、当該選択された代表パターンの各点の静的特徴を音韻継続時間長111に従って音節単位で時間軸方向に線形伸縮を行い、その結果としてのアクセント句パターンを出力する。オフセット制御部13は、アクセント句パターンの各点の静的特徴である、例えば対数ピットの平均値を、オフセット推定部12で推定されたオフセット値に従って変更する。最尤推定部14では、オフセット制御部13にてオフセットの制御されたアクセント句パターン104を、その静的特徴の統計量と動的特徴の統計量とからの尤度を基に変形することにより、入力テキストに対応する音声の基本周波数パターンを生成する。
【0081】
このようにして生成された基本周波数パターンと、さらに音韻継続時間長111などの韻律情報などを基に、入力されたテキスト208に対応する音声を合成すると、自然性の高い合成音声を生成することができる。さらに、アクセント型はもとの代表パターンによって陽に表現されているため、アクセント位置の正しい滑らかで自然なパターンの生成が可能である。
【0082】
すなわち、上記実施形態によれば、韻律制御単位の代表パターンの各点を、静的特徴および動的特徴の統計量によって表現し、これらの統計情報を考慮した尤度最大化基準によるパターン変形を行うことで、より自然な合成音声を生成することができれる。
【0083】
ここで、韻律制御単位とは、ピッチパターンを生成する際の基本単位であって、1音節以上にわたるピッチの変化を表現可能な長さを有する、様々な文章の構成単位が用いられる。例えば、アクセント句・単語・形態素・呼気段落・音節・モーラなどや、さらにこれらを組み合わせた単位を用いることもできる。
なお、本発明の実施の形態に記載した本発明の手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フロッピーディスク、ハードディスクなど)、光ディスク(CD−ROM、DVDなど)、半導体メモリをなどの記録媒体に格納して、あるいは、インターネットなどのネットワークを介して頒布することもできる。
【0084】
また、本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。さらに、上記実施形態には種々の段階の発明は含まれており、開示される複数の構成用件における適宜な組み合わせにより、種々の発明が抽出され得る。例えば、実施形態に示される全構成要件から幾つかの構成要件が削除されても、発明が解決しようとする課題の欄で述べた課題(の少なくとも1つ)が解決でき、発明の効果の欄で述べられている効果(のなくとも1つ)が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。
【0085】
【発明の効果】
以上詳述したように、本発明のピッチパターン生成方法によれば、韻律制御単位の代表パターンの各時系列点を、静的特徴および動的特徴の統計量によって表現し、これらの情報を利用した最尤推定により高精度にパターン変形を行うことで、自然音声に近い正確で滑らかなピッチパターンの生成が可能であり、自然性の高い合成音声を生成することができる。
【図面の簡単な説明】
【図1】本発明の一実施形態にかかる音声合成システムの構成例を示した図。
【図2】図1のピッチパターン生成部の構成例を示した図。
【図3】代表パターンの静的特徴量について説明するための図。
【図4】代表パターンの動的特徴量について説明するための図。
【図5】代表パターンを変形する過程を示した図。
【図6】代表パターンを変形した結果得られたパターンの一例を示した図。
【図7】ピッチパターン生成部の他の構成例を示した図。
【図8】オフセット値を最尤推定によって求める過程を示した図。
【図9】従来のピッチパターン生成部の構成例を示した図。
【図10】代表パターンを示した図。
【図11】言語情報の例を示した図。
【図12】代表パターンを変形する過程を示した図。
【図13】生成された文ピッチパターンの一例を示した図。
【図14】従来の技術で代表パターンを変形する場合の問題点を説明するための図。
【図15】従来の技術で代表パターンを変形する場合の問題点を説明するための図。
【図16】図1の音声合成システムの動作を説明するためのフローチャート。
【符号の説明】
10…代表パターン選択部
11…代表パターン伸縮部
12…オフセット推定部
13…オフセット制御部
14…最尤推定部
15…パターン接続部
16…代表パターン記憶部
19…オフセット値最尤推定部
20…言語処理部
21…韻律生成部
22…音声信号生成部
23…音韻継続時間長生成部
24…ピッチパターン生成部

Claims (18)

  1. テキストを解析することによって得られる言語情報を基に、当該テキストに対応する音声の韻律的な特徴の1つである、基本周波数の時間的変化を表した基本周波数パターンを生成する基本周波数パターン生成方法であって、
    前記テキストに対応する音声の韻律的な特徴を制御するためのアクセント句または単語以上の長さを有する音声の単位としての韻律制御単位毎に、自然音声の複数の基本周波数パターンから算出された代表パターンであって、前記代表パターンを構成する各時系列点は、当該時系列点における基本周波数である静的特徴の平均値と分散値あるいは標準偏差値と、当該時系列点と近傍の時系列との間の基本周波数の変化量である動的特徴の平均値と分散値あるいは標準偏差値とで表現されている、前記韻律制御単位毎の複数の前記代表パターンを記憶手段に記憶し、
    この記憶手段に記憶された複数の代表パターンの中から、前記言語情報に基づき前記テキストに対応する代表パターンを選択し、この選択された代表パターンの各時系列点における前記静的特徴及び前記動的特徴の平均値と分散値あるいは標準偏差値とから算出される尤度を基に、当該選択された代表パターンの各時系列点の基本周波数の値を変化させることにより前記テキストに対応する音声の基本周波数パターンを生成することを特徴とする基本周波数パターン生成方法。
  2. 前記選択された前記韻律制御単位毎の代表パターンの各時系列点における前記静的特徴及び前記動的特徴の平均値と分散値あるいは標準偏差値とから算出される尤度を最大とするような各時系列点の基本周波数の値を求めることにより、前記基本周波数パターンを生成することを特徴とする請求項1記載の基本周波数パターン生成方法。
  3. テキストを解析することによって得られる言語情報を基に、当該テキストに対応する音声の韻律的な特徴の1つである、基本周波数の時間的変化を表した基本周波数パターンを生成する基本周波数パターン生成方法であって、
    前記テキストに対応する音声の韻律的な特徴を制御するためのアクセント句または単語以上の長さを有する音声の単位としての韻律制御単位毎に、自然音声の複数の基本周波数パターンから算出された代表パターンであって、前記代表パターンを構成する各時系列点は、当該時系列点における基本周波数である静的特徴の平均値と分散値あるいは標準偏差値と、当該時系列点と近傍の時系列点との間の基本周波数の変化量である動的特徴の平均値と分散値あるいは標準偏差値とで表現されている、前記韻律制御単位毎の複数の前記代表パターンを記憶手段に記憶し、
    この記憶手段に記憶された複数の代表パターンの中から、前記言語情報に基づき前記テキストに対応する代表パターンを選択し、この選択された代表パターンの各時系列点の基本周波数の値を、各時系列点における前記静的特徴及び前記動的特徴の平均値と分散値あるいは標準偏差値とから算出される尤度と、前記言語情報に基づき推定される、当該選択された代表パターンの高さを表すオフセット値を基に、当該選択された代表パターンの各時系列点の基本周波数の値を変化させることにより、前記テキストに対応する音声の基本周波数パターンを生成することを特徴とする基本周波数パターン生成方法。
  4. 前記推定されるオフセット値は、前記韻律制御単位毎の前記複数の基本周波数パターンの前記オフセット値から算出された,前記韻律制御単位毎の基本周波数パターンのオフセット値である静的特徴の平均値と分散値あるいは標準偏差値と、当該韻律制御単位のオフセット値と近傍のオフセット値との間の変化量である動的特徴の平均値と分散値あるいは標準偏差値とで表現され、
    前記推定されたオフセット値を,前記静的特徴及び前記動的特徴の平均値と分散値あるいは標準偏差値とから算出される尤度に基づいて変化させることを特徴とする請求項3記載の基本周波数パターン生成方法。
  5. 前記言語情報に基づき推定される、当該選択された代表パターンの高さを表すオフセット値を基に、当該選択された代表パターンの各時系列点の値を変化させた後、各時系列点における前記静的特徴及び前記動的特徴の平均値と分散値あるいは標準偏差値とから算出される尤度を最大とするような各時系列点の基本周波数の値を求めることにより、前記基本周波数パターンを生成することを特徴とする請求項3記載の基本周波数パターン生成方法。
  6. 前記選択された代表パターンの各時系列点における前記静的特徴及び前記動的特徴の平均値と分散値あるいは標準偏差値とから算出される尤度を最大とするような各時系列点の基本周波数の値を算出した後、前記言語情報に基づき推定される、当該選択された代表パターンの高さを表すオフセット値を基に、当該尤度最大の各時系列点の値を変化させることを特徴とする請求項3記載の基本周波数パターン生成方法。
  7. 前記静的特徴は、対数あるいは線形スケール上の基本周波数であることを特徴とする請求項1または3記載の基本周波数パターン生成方法。
  8. 前記動的特徴は、前記時系列点間の基本周波数の差分、回帰係数、多項式展開係数のうちのいずれかであることを特徴とする請求項1または3記載の基本周波数パターン生成方法。
  9. 選択された複数の代表パターンを接続した結果得られるパターンに対して、選択された各代表パターンの各時系列点の基本周波数の値を変化させることを特徴とする請求項記載の基本周波数パターン生成方法。
  10. テキストを解析することによって得られる言語情報を基に、当該テキストに対応する音声の韻律的な特徴の1つである、基本周波数の時間的変化を表した基本周波数パターンを生成する基本周波数パターン生成装置であって、
    前記テキストに対応する音声の韻律的な特徴を制御するためのアクセント句または単語以上の長さを有する音声の単位としての韻律制御単位毎に、自然音声の複数の基本周波数パターンから算出された代表パターンであって、前記代表パターンを構成する各時系列点は、当該時系列点における基本周波数である静的特徴の平均値と分散値あるいは標準偏差値と、当該時系列点と傍の時系列点との間の基本周波数の変化量である動的特徴の平均値と分散値あるいは標準偏差値とで表現されている、前記韻律制御単位毎の複数の前記代表パターンを記憶する記憶手段と、
    この記憶手段に記憶された複数の代表パターンの中から、前記言語情報に基づき前記テキストに対応する代表パターンを選択する手段と、
    選択された代表パターンの各時系列点における前記静的特徴及び前記動的特徴の平均値と分散値あるいは標準偏差値とから算出される尤度を基に、当該選択された代表パターンの各時系列点の基本周波数の値を変化させることにより、前記テキストに対応する音声の基本周波数パターンを生成する生成手段と、
    を具備したことを特徴とする基本周波数パターン生成装置。
  11. 前記生成手段は、前記選択された前記韻律制御単位毎の代表パターンの各時系列点における前記静的特徴及び前記動的特徴の平均値と分散値あるいは標準偏差値とから算出される尤度を最大とするような各時系列点の基本周波数の値を求めることにより、前記基本周波数パターンを生成することを特徴とする請求項10記載の基本周波数パターン生成方法。
  12. テキストを解析することによって得られる言語情報を基に、当該テキストに対応する音声の韻律的な特徴の1つである、基本周波数の時間的変化を表した基本周波数パターンを生成する基本周波数パターン生成装置であって、
    前記テキストに対応する音声の韻律的な特徴を制御するためのアクセント句または単語以上の長さを有する音声の単位としての韻律制御単位に、自然音声の複数の基本周波数パターンから算出された代表パターンであって、前記代表パターンを構成する各時系列点は、当該時系列点における基本周波数である静的特徴の平均値と分散値あるいは標準偏差値と、当該時系列点と近傍の時系列点との間の基本周波数の変化量である動的特徴の平均値と分散値あるいは標準偏差値とで表現されている、前記韻律制御単位毎の複数の前記代表パターンを記憶する記憶手段と、
    この記憶手段に記憶された複数の代表パターンの中から、前記言語情報に基づき前記テキストに対応する代表パターンを選択する手段と、
    選択された代表パターンの各時系列点の基本周波数の値を、各時系列点における前記静的特徴及び前記動的特徴の平均値と分散値あるいは標準偏差値とから算出される尤度と、前記言語情報に基づき推定される、当該選択された代表パターンの高さを表すオフセット値を基に、当該選択された代表パターンの各時系列点の基本周波数の値を変化させることにより、前記テキストに対応する音声の基本周波数パターンを生成する生成手段と、
    を具備したことを特徴とする基本周波数パターン生成装置。
  13. 前記推定るオフセット値は、前記韻律制御単位毎の前記複数の基本周波数パターンの前記オフセット値から算出された,前記韻律制御単位毎の基本周波数パターンのオフセット値である静的特徴の平均値と分散値あるいは標準偏差値と、当該韻律制御単位のオフセット値と近傍のオフセット値との間の変化量である動的特徴の平均値と分散値あるいは標準偏差値とで表現され、
    前記生成手段は、前記推定されたオフセット値を,前記静的特徴及び前記動的特徴の平均値と分散値あるいは標準偏差値とから算出される尤度に基づいて変化させること含むことを特徴とする請求項12記載の基本周波数パターン生成装置。
  14. テキストを解析することによって得られる言語情報を基に、少なくとも、当該テキストに対応する音声の基本周波数の時間的変化を表した基本周波数パターンを含む当該音声の韻律的な特徴を表した韻律情報を求めて、少なくともこの韻律情報を基に当該テキストに対応する音声を合成する音声合成装置において、
    前記テキストに対応する音声の韻律的な特徴を制御するためのアクセント句または単語以上の長さを有する音声の単位としての韻律制御単位に、自然音声の複数の基本周波数パターンから算出された代表パターンであって、前記代表パターンを構成する各時系列点は、当該時系列点における基本周波数である静的特徴の平均値と分散値あるいは標準偏差値と、当該時系列点と近傍の時系列点との間の基本周波数の変化量である動的特徴の平均値と分散値あるいは標準偏差値とで表現されている、前記韻律制御単位毎の複数の前記代表パターンを記憶する記憶手段と、
    この記憶手段に記憶された複数の代表パターンの中から、前記言語情報に基づき前記テキストに対応する代表パターンを選択する手段と、
    選択された代表パターンの各時系列点における前記静的特徴及び前記動的特徴の平均値と分散値あるいは標準偏差値とから算出される尤度を基に、当該選択された代表パターンの各時系列点の基本周波数の値を変化させることにより、前記テキストに対応する音声の基本周波数パターンを生成する生成手段と、
    前記生成手段で生成された前記基本周波数パターンを基に、前記テキストに対応する音声を合成する音声合成手段と、
    を具備したことを特徴とする音声合成装置。
  15. テキストを解析することによって得られる言語情報を基に、少なくとも、当該テキストに対応する音声の基本周波数の時間的変化を表した基本周波数パターンを含む当該音声の韻律的な特徴を表した韻律情報を求めて、少なくともこの韻律情報を基に当該テキストに対応する音声を合成する音声合成装置において、
    前記テキストに対応する音声の韻律的な特徴を制御するためのアクセント句または単語以上の長さを有する音声の単位としての韻律制御単位毎に、自然音声の複数の基本周波数パターンから算出された代表パターンであって、前記代表パターンを構成する各時系列点は、当該時系列点における基本周波数である静的特徴の平均値と分散値あるいは標準偏差値と、当該時系列点と近傍の時系列点との間の基本周波数の変化量である動的特徴の平均値と分散値あるいは標準偏差値とで表現されている、前記韻律制御単位毎の複数の前記代表パターンを記憶する記憶手段と、
    この記憶手段に記憶された複数の代表パターンの中から、前記言語情報に基づき前記テキストに対応する代表パターンを選択する手段と、
    選択された代表パターンの各時系列点の基本周波数の値を、各時系列点における前記静的特徴及び前記動的特徴の平均値と分散値あるいは標準偏差値とから算出される尤度と、前記言語情報に基づき推定される、当該選択された代表パターンの高さを表すオフセット値を基に、当該選択された代表パターンの各時系列点の基本周波数の値を変化させることにより、前記テキストに対応する音声の基本周波数パターンを生成する生成手段と、
    前記生成手段で生成された基本周波数パターンを基に、前記テキストに対応する音声を合成する音声合成手段と、
    を具備したことを特徴とする音声合成装置。
  16. 前記推定るオフセット値は、前記韻律制御単位毎の前記複数の基本周波数パターンの前記オフセット値から算出された,前記韻律制御単位毎の基本周波数パターンのオフセット値である静的特徴の平均値と分散値あるいは標準偏差値と、当該韻律制御単位のオフセット値と近傍のオフセット値との間の変化量である動的特徴の平均値と分散値あるいは標準偏差値とで表現され、
    前記推定されたオフセット値を,前記静的特徴及び前記動的特徴の平均値と分散値あるいは標準偏差値とから算出される尤度に基づいて変化させることを特徴とする請求項15記載の音声合成装置。
  17. テキストを解析することによって得られる言語情報を基に、当該テキストに対応する音声の韻律的な特徴の1つである、基本周波数の時間的変化を表した基本周波数パターンを生成する基本周波数パターン生成プログラムであって、
    前記テキストに対応する音声の韻律的な特徴を制御するためのアクセント句または単語以上の長さを有する音声の単位としての韻律制御単位毎に、自然音声の複数の基本周波数パターンから算出された代表パターンであって、前記代表パターンを構成する各時系列点は、当該時系列点における基本周波数である静的特徴の平均値と分散値あるいは標準偏差値と、当該時系列点と近傍の時系列点との間の基本周波数の変化量である動的特徴の平均値と分散値あるいは標準偏差値とで表現されている、前記韻律制御単位毎の複数の前記代表パターンを記憶する記憶手段を有するコンピュータに、
    前記記憶手段に記憶された複数の代表パターンの中から、前記言語情報に基づき前記テキストに対応する代表パターンを選択するステップと、
    選択された代表パターンの各時系列点の基本周波数の値を、各時系列点における前記静的特徴及び前記動的特徴の平均値と分散値あるいは標準偏差値とから算出される尤度と、前記言語情報に基づき推定される、当該選択された代表パターンの高さを表すオフセット値を基に、当該選択された代表パターンの各時系列点の基本周波数の値を変化させることにより、前記テキストに対応する音声の基本周波数パターンを生成するステップと、
    を実行させる基本周波数パターン生成プログラム。
  18. テキストを解析することによって得られる言語情報を基に、少なくとも、当該テキストに対応する音声の基本周波数の時間的変化を表した基本周波数パターンを含む当該音声の韻律的な特徴を表した韻律情報を求めて、少なくともこの韻律情報を基に当該テキストに対応する音声を合成する音声合成プログラムであって、
    前記テキストに対応する音声の韻律的な特徴を制御するためのアクセント句または単語以上の長さを有する音声の単位としての韻律制御単位毎に、自然音声の複数の基本周波数パターンから算出された代表パターンであって、前記代表パターンを構成する各時系列点は、当該時系列点における基本周波数である静的特徴の平均値と分散値あるいは標準偏差値と、当該時系列点と近傍の時系列点との間の基本周波数の変化量である動的特徴の平均値分散値あるいは標準偏差値とで表現されている、前記韻律制御単位毎の複数の前記代表パターンを記憶する記憶手段を有するコンピュータに、
    前記記憶手段に記憶された複数の代表パターンの中から、前記言語情報に基づき前記テキストに対応する代表パターンを選択するステップと、
    選択された代表パターンの各時系列点の基本周波数の値を、各時系列点における前記静的特徴及び前記動的特徴の平均値と分散値あるいは標準偏差値とから算出される尤度と、前記言語情報に基づき推定される、当該選択された代表パターンの高さを表すオフセット値を基に、当該選択された代表パターンの各時系列点の基本周波数の値を変化させることにより、前記テキストに対応する音声の基本周波数パターンを生成するステップと、
    生成された基本周波数パターンを基に、前記テキストに対応する音声を合成するステップと、
    を実行させる音声合成プログラム。
JP2002213188A 2002-07-22 2002-07-22 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム Expired - Fee Related JP3737788B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002213188A JP3737788B2 (ja) 2002-07-22 2002-07-22 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002213188A JP3737788B2 (ja) 2002-07-22 2002-07-22 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム

Publications (2)

Publication Number Publication Date
JP2004054063A JP2004054063A (ja) 2004-02-19
JP3737788B2 true JP3737788B2 (ja) 2006-01-25

Family

ID=31935850

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002213188A Expired - Fee Related JP3737788B2 (ja) 2002-07-22 2002-07-22 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム

Country Status (1)

Country Link
JP (1) JP3737788B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4738057B2 (ja) * 2005-05-24 2011-08-03 株式会社東芝 ピッチパターン生成方法及びその装置
JP4716192B2 (ja) * 2006-12-27 2011-07-06 日本ビクター株式会社 語学学習システム及び語学学習用プログラム
JP5025550B2 (ja) * 2008-04-01 2012-09-12 株式会社東芝 音声処理装置、音声処理方法及びプログラム
JP5345967B2 (ja) * 2010-03-26 2013-11-20 Kddi株式会社 音声合成装置、音声合成方法および音声合成プログラム

Also Published As

Publication number Publication date
JP2004054063A (ja) 2004-02-19

Similar Documents

Publication Publication Date Title
JP4738057B2 (ja) ピッチパターン生成方法及びその装置
JP4080989B2 (ja) 音声合成方法、音声合成装置および音声合成プログラム
US6778960B2 (en) Speech information processing method and apparatus and storage medium
JP4551803B2 (ja) 音声合成装置及びそのプログラム
JP4469883B2 (ja) 音声合成方法及びその装置
JP5300975B2 (ja) 音声合成装置、方法およびプログラム
JP5269668B2 (ja) 音声合成装置、プログラム、及び方法
JP2009047957A (ja) ピッチパターン生成方法及びその装置
JP4406440B2 (ja) 音声合成装置、音声合成方法及びプログラム
US20040030555A1 (en) System and method for concatenating acoustic contours for speech synthesis
JPWO2005109399A1 (ja) 音声合成装置および方法
JPH1195783A (ja) 音声情報処理方法
US20060224380A1 (en) Pitch pattern generating method and pitch pattern generating apparatus
JP2003337592A (ja) 音声合成方法及び音声合成装置及び音声合成プログラム
JP4533255B2 (ja) 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体
JP3737788B2 (ja) 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム
JP4247289B1 (ja) 音声合成装置、音声合成方法およびそのプログラム
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP6436806B2 (ja) 音声合成用データ作成方法、及び音声合成用データ作成装置
JP5328703B2 (ja) 韻律パターン生成装置
JP2004226505A (ja) ピッチパタン生成方法、音声合成方法とシステム及びプログラム
JP5393546B2 (ja) 韻律作成装置及び韻律作成方法
JP4787769B2 (ja) F0値時系列生成装置、その方法、そのプログラム、及びその記録媒体
JP2003330482A (ja) 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成方法、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム
JP3576792B2 (ja) 音声情報処理方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050708

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050926

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20051025

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20051027

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081104

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091104

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees