JP4738057B2

JP4738057B2 - ピッチパターン生成方法及びその装置

Info

Publication number: JP4738057B2
Application number: JP2005151568A
Authority: JP
Inventors: 剛平林; 岳彦籠嶋
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2005-05-24
Filing date: 2005-05-24
Publication date: 2011-08-03
Anticipated expiration: 2025-05-24
Also published as: CN1870130A; JP2006330200A; US20060271367A1

Description

本発明は、例えば、テキスト音声合成のための音声合成方法及び装置に関し、特に、合成音声の自然性に大きく影響するピッチパターン生成方法及びその装置に関するものである。

近年、任意の文章から人工的に音声信号を生成するテキスト音声合成システムが開発されている。一般的に、このテキスト音声合成システムは、言語処理部、韻律生成部、音声信号生成部の３つのモジュールから構成される。この中で、韻律生成部の性能が合成音声の自然性に関係しており、とりわけ声の高さ（ピッチ）の変化パターンであるピッチパターンが生成される合成音声の自然性を大きく左右する。従来のテキスト音声合成におけるピッチパターン生成方法は、比較的単純なモデルを用いてピッチパターンの生成を行っていたため、抑揚が不自然で機械的な合成音声となっていた。

こうした問題を解決するために、自然音声から抽出した大量のピッチパターンをそのまま利用する方法が提案されている（例えば、特許文献１参照）。これは、ピッチパターンデータベースに自然音声から抽出したピッチパターンを格納しておき、入力テキストに対応する属性情報によって最適なピッチパターンをこのピッチパターンデータベースから１つ選択することによってピッチパターンを生成するものである。

また、ピッチパターンのパターン形状と、ピッチパターンの全体の高さを表すオフセットを別々に制御する方法も考えられている（例えば、非特許文献１参照）。これは、ピッチパターンのパターン形状とは別に、ピッチパターンの高さを表すオフセット値を、オフラインで生成した数量化Ｉ類などの統計モデルを用いて推定し、この推定オフセット値に基づいてピッチパターンの高さを決定するものである。
特開２００２−２９７１７５号公報音講論１−Ｐ−１０，２００１．１０

ピッチパターンデータベースから選択したピッチパターンをそのまま利用する方法では、ピッチパターンのパターン形状とパターン全体の高さを表すオフセットが分離されていないため、パターン形状は適切でも全体的な高さが不自然であったり、またその逆に全体的な高さは適切でもパターン形状が不自然というピッチパターンしか選択できない可能性があり、ピッチパターンのバリエーション不足のために合成された音声の自然性が劣化してしまうという問題がある。

一方、オフセット値をパターン形状とは別に統計モデルを用いて推定する方法では、オフセット値とパターン形状それぞれの推定基準（評価尺度）が異なるため、推定されたオフセット値とパターン形状との不適合によって不自然なピッチパターンが生成されてしまうという問題がある。また、予めオフラインで生成した数量化Ｉ類などの統計モデルを用いるため、オンラインで選択されるパターン形状に比べて様々な入力テキストのバリエーションに対応したオフセット値を推定することが難しく、結果として生成されるピッチパターンの自然性が不十分となる可能性がある。

そこで、本発明は、上記問題に鑑み、パターン形状との親和性の高いオフセット値を生成することによって自然性の高い安定したピッチパターンを生成することができるピッチパターン生成方法及びその装置を提供することを目的とする。

本発明は、韻律制御単位の原型となるピッチパターンを変形して音声合成に用いられるピッチパターンを生成するピッチパターン生成方法であって、韻律制御単位毎のピッチパターンの高さを表す自然音声より抽出したオフセット値とこれに対するパターン属性情報とが対応付けて記憶されている記憶手段から複数のオフセット値を選択するものであり、音声合成対象となるテキストを解析することにより得られる言語属性情報と前記パターン属性情報に基づいて韻律制御単位毎に前記複数のオフセット値を選択するオフセット値選択ステップと、前記テキストの韻律制御単位毎に選択された前記複数のオフセット値の統計量に基づいて前記韻律制御単位の原型となるピッチパターンを変形するピッチパターン生成ステップと、を有することを特徴とするピッチパターン生成方法である。

また、本発明は、自然音声より抽出した第１のピッチパターンとこれに対する第１の属性情報とが対応付けて記憶されている記憶手段から複数の第１のピッチパターンを選択するものであり、音声合成対象となるテキストを解析することにより得られる第２の属性情報と第１の属性情報に基づいて韻律制御単位毎に前記複数の第１のピッチパターンを選択するピッチパターン選択ステップと、前記テキストの韻律制御単位毎に選択された前記複数の第１のピッチパターンに基づいて、前記第１のピッチパターンの高さを表すオフセット値の統計量を求め、前記オフセット値の統計量に基づいて前記韻律制御単位の第２のピッチパターンを生成するピッチパターン生成ステップと、前記韻律制御単位毎に生成された第２のピッチパターンを接続して前記テキストに対応するピッチパターンを生成するピッチパターン接続ステップと、を有することを特徴とするピッチパターン生成方法である。

本発明によれば、オフセット値もしくはピッチパターンの記憶手段から複数のオフセット値もしくは原型となるピッチパターンを選択し、それらから算出したオフセット値の統計量に基づいて変形したピッチパターンをもとにして音声合成対象となるテキストに対応するピッチパターンを生成するため、自然性が高く安定したピッチパターンを生成することができ、その結果、人の発声した音声により近い合成音を生成することが可能となる。

以下、図１〜図１１を参照して本発明の一実施形態を詳細に説明する。

（１）用語の説明
まず、本実施形態に使用する用語を説明する。

「オフセット値」は、音声の韻律的な特徴を制御するための単位である韻律制御単位に対応するピッチパターンの全体的な高さを表す情報であり、例えば、パターン内のピッチの平均値や中央値、最大・最小値、前後のパターンからの変化量などの情報である。

韻律制御単位は、入力テキストに対応する音声の韻律的な特徴を制御するための単位であり、例えば、半音素、音素、音節、形態素、単語、アクセント句、呼気段落などで構成され、これらが混在しているなど可変長であってもよい。

「言語属性情報」は、形態素解析や構文解析などの言語解析処理を行うことによって入力テキストから抽出可能な情報であり、例えば、音韻記号列、品詞、アクセント型、係り先、ポーズ、文中位置などの情報である。

「オフセット値の統計量」は、選択された複数のオフセット値から算出される統計量であり、例えば、平均値や中央値、重み和（重み付け加算値）、分散値、偏差値などである。

「パターン属性情報」は、当該ピッチパターンに関する属性の集合であり、例えば、アクセント型、音節数、文中位置、アクセント音韻種、先行アクセント型、後続アクセント型、先行境界条件、後続境界条件などがある。

（２）テキスト音声合成システムの構成
図１は、本実施形態に係るテキスト音声合成システムの構成例を示したもので、大きく分けて、言語処理部２０、韻律生成部２１、音声信号生成部２２の３つのモジュールから構成される。

入力されたテキスト２０１は、まず言語処理部２０において、形態素解析・構文解析等の言語処理が行われ、音韻記号列、アクセント型、品詞、文中位置などの言語属性情報１００が出力される。

次に、韻律生成部２１において、入力されたテキスト２０１に対応する音声の韻律的な特徴を表した情報、すなわち、例えば、音韻継続時間長や基本周波数（ピッチ）の時間経過に伴う変化を表したパターンなどが生成される。韻律生成部２１は、音韻継続時間長生成部２３とピッチパターン生成部１より構成される。音韻継続時間長生成部２３は、言語属性情報１００を参照して、各音素の音韻継続時間長１１１を生成して出力する。ピッチパターン生成部１は、言語属性情報１００と音韻継続時間長１１１を入力として、声の高さの変化パターンであるピッチパターン１２１を出力する。

最後に、音声信号生成部２２において、韻律生成部２１で生成された韻律情報を基に、入力されたテキスト２０１に対応する音声を合成し、音声信号２０２として合成する。

（３）ピッチパターン生成部１の構成
本実施形態では、ピッチパターン生成部１の構成とその処理動作に特徴があり、以下、これらについて説明する。なお、ここでは、韻律制御単位はアクセント句であるとする場合を例にとって説明する。

図２は、図１のピッチパターン生成部１の構成例を示したものである、図２において、ピッチパターン生成部１は、パターン選択部１０、パターン形状生成部１１、オフセット制御部１２、パターン接続部１３、ピッチパターン記憶部１４から構成される。

（３−１）ピッチパターン記憶部１４
ピッチパターン記憶部１４には、自然音声より抽出した大量のアクセント句毎のピッチパターンが、各ピッチパターンに対応するパターン属性情報と共に記憶されている。

図３は、ピッチパターン記憶部１４に記憶されている情報の一例を示す図である。

ピッチパターンは、当該アクセント句に対応するピッチ（基本周波数）の時間変化を表したピッチ系列、もしくはその特徴を表すパラメータ系列などである。無声音の部分にはピッチは存在しないが、例えば、有声音部分のピッチの値を補間するなどして連続的な系列となっていることが好ましい。

なお、自然音声より抽出したピッチパターンは、予め作成したコードブックによってベクトル量子化するなど、量子化もしくは近似した情報をデータベース化して記憶してもよい。

（３−２）パターン選択部１０
パターン選択部１０は、アクセント句毎に、言語属性情報１００及び音韻継続時間長１１１を基にピッチパターン記憶部１４に蓄積されているピッチパターンの中からＮ個のピッチパターン１０１とＭ個のピッチパターン１０３を選択する（Ｍ＞＝Ｎ＞１）。

（３−３）パターン形状生成部１１
パターン形状生成部１１は、パターン選択部１０で選択されたＮ個のピッチパターン１０１を言語属性情報１００に基づいて融合することで融合ピッチパターン生成し、さらに音韻継続時間長１１１に従って該融合ピッチパターンの時間軸方向の伸縮を行って、ピッチパターン１０２を生成する。

ここで、ピッチパターンの融合とは、複数のピッチパターンから何らかの規則に従って新たなピッチパターンを生成する操作であり、例えば、複数のピッチパターンの重み付け加算処理などによって実現されるものである。

（３−４）オフセット制御部１２
オフセット制御部１２は、パターン選択部１０で選択されたＭ個のピッチパターン１０３からオフセット値の統計量を算出し、ピッチパターン１０２を該統計量に従って周波数軸上で平行移動させ、ピッチパターン１０４を出力する。

（３−５）パターン接続部１３
パターン接続部１３は、アクセント句毎に生成されたピッチパターン１０４を接続すると共に、接続境界部分で不連続が生じないような平滑化などの処理を行って、文ピッチパターン１２１を出力する。

（４）ピッチパターン生成部１の処理
次に、図４のピッチパターン生成部１における処理の流れを示すフローチャートを用いて、ピッチパターン生成部１の各処理について詳しく説明する。

（４−１）パターン選択
まず、ステップＳ４１において、パターン選択部１０は言語属性情報１００及び音韻継続時間長１１１に基づいて、アクセント句毎に、ピッチパターン記憶部１４に蓄積されているピッチパターンの中から、Ｎ個のピッチパターン１０１とＭ個のピッチパターン１０３を選択する。

各アクセント句に対して選択されるＮ個のピッチパターン１０１とＭ個のピッチパターン１０３は、当該アクセント句に対応する言語属性情報１００とパターン属性情報が一致、あるいは類似するピッチパターンである。これは、例えば、目標となる当該アクセント句の言語属性情報１００と各パターン属性情報とから、目標のピッチ変化に対する各ピッチパターンのずれの度合いを定量化したコストを推定し、このコストができるだけ小さいピッチパターンを選択することで実現される。ここでは、一例として、当該アクセント句のアクセント型と音節数にパターン属性情報が一致しているピッチパターンの中からコストの小さいＭ個及びＮ個のピッチパターンを選択するものとする。

（４−１−１）コストの推定
このコストの推定は、例えば、従来の音声合成装置におけるものと同様のコスト関数を計算することによって実行される。つまり、例えば、ピッチパターン形状やオフセットが異なる要因毎、またピッチパターンを変形・接続する際に生じる歪の要因毎にサブコスト関数Ｃ_ｌ（ｕ_ｉ，ｕ_ｉ−１，ｔ_ｉ）（但し、ｌ=１〜Ｌ、Ｌはサブコスト関数の数）を定義し、これらの重み付き和をアクセント句コスト関数として定義する。

ここで、ｔ_ｉは、入力テキスト及び言語属性情報に対応する目標とするピッチパターンをｔ＝（ｔ_１、・・・，ｔ_Ｉ）としたときの、ｉ番目のアクセント句に対応する部分のピッチパターンの目標とする言語属性情報を表し、ｕ_ｉは、ピッチパターン記憶部１４に蓄積されているピッチパターンから選ばれた一ピッチパターンのパターン属性情報を表す。また、ｗ_ｌは各サブコスト関数の重みを表す。

サブコスト関数は、ピッチパターン記憶部１４に蓄積されているピッチパターンを用いた場合の目標とするピッチパターンに対するずれの度合いを推定するためのコストを算出するものである。当該コストを算出するために、ここでは具体例として、当該ピッチパターンを用いることによって生じる目標とするピッチ変化に対するずれの度合いを推定する目標コストと、当該アクセント句のピッチパターンを他のアクセント句のピッチパターンと接続したときに生じる歪の度合いを推定する接続コストという２種類（Ｌ＝２）のサブコストを設定する。

目標コストの一例として、言語属性情報及びパターン属性情報の文中位置に関するサブコスト関数は、次式のように定義できる。

ここで、ｆはピッチパターン記憶部１４に蓄積されているピッチパターンのパターン属性情報、もしくは目標の言語属性情報から文中位置に関する情報を取り出す関数を表し、δは２つの情報が一致する場合は０、それ以外では１を出力する関数である。

また、接続コストの一例として、接続境界でのピッチの違い（差）に関するサブコスト関数は、次式のように定義できる。

ここで、ｇはパターン属性情報から接続境界のピッチを取り出す関数を表す。

入力テキストのアクセント句毎に、上記式（１）よりアクセント句コストを算出した結果を、全アクセント句について足し合わせたものをコストと呼び、当該コストを算出するためのコスト関数を次式に示すように定義する。

上記式（１）〜（４）に示したコスト関数を用いて、アクセント句あたり複数のピッチパターンをピッチパターン記憶部１４より２段階で選択する。

（４−１−２）２段階での選択処理
図５は、この２段階での選択処理手順の一例を説明するためのフローチャートである。

まず１段階目のピッチパターン選択として、ステップＳ５１では、ピッチパターン記憶部１４から上記式（４）で算出されるコスト値が最小となるピッチパターンの系列を求める。このコストが最小となるピッチパターンの組み合わせを最適ピッチパターン系列と呼ぶこととする。なお、最適ピッチパターン系列の探索は、動的計画法を用いることで効率的に行うことができる。

次にステップＳ５２に進み、２段階目のピッチパターン選択では、最適ピッチパターン系列を用いて、アクセント句あたり複数のピッチパターンを選ぶ。ここでは、入力テキスト中のアクセント句数をＩ個とし、それぞれのアクセント句に対して、オフセット値の統計量を算出するためのＭ個のピッチパターン１０３と、融合ピッチパターンを生成するためのＮ個のピッチパターン１０１を選択することとして、ステップＳ５２の詳細を説明する。

ステップＳ５２１からＳ５２３までは、Ｉ個のアクセント句のうちの１つを注目アクセント句とする。ステップＳ５２１からＳ５２３はＩ回繰り返され、Ｉ個のアクセント句が１回ずつ注目アクセント句となるように処理を行う。まず、ステップＳ５２１では、注目アクセント以外のアクセント句に対しては、それぞれ最適ピッチパターン系列のピッチパターンを固定する。この状態で、注目アクセント句に対してピッチパターン記憶部１４に記憶されているピッチパターンを式（４）のコストの値に応じて順位付けを行う。ここでは例えば、コストの値が最も小さいピッチパターンほど高い順位となるように順位付けを行う。次に、ステップＳ５２２においてオフセット値の統計量を算出するための上位Ｍ個のピッチパターンを選択し、さらにステップＳ５２３において融合ピッチパターンを生成するための上位Ｎ個（Ｎ＝＜Ｍ）のピッチパターンを選択する。

以上の手順によって、それぞれのアクセント句について、Ｍ個のピッチパターン１０１及びＮ個のピッチパターン１０３をピッチパターン記憶部１４より選択し、次に図４のステップＳ４２へ進む。

（４−２）パターン形状生成
ステップＳ４２において、パターン形状生成部１１はパターン選択部１０で選択されたＮ個のピッチパターン１０１を言語属性情報１００に基づいて融合することで融合ピッチパターン生成し、さらに音韻継続時間長１１１に従って該融合ピッチパターンの時間軸方向の伸縮を行って、新たなピッチパターン１０２を生成する。

ここでは、複数のアクセント句のうちのある１つのアクセント句について、パターン選択部１０で選択されたＮ個のピッチパターンの融合及び時間軸方向の伸縮を行って１つの新たなピッチパターン１０２を生成する場合の処理手順の一例を、図６のフローチャートを参照して説明する。

まず、ステップＳ６１において、Ｎ個のピッチパターンの各音節の長さを、Ｎ個のピッチパターンの中で最も長いものに合わせて、音節内のパターンを伸張することによって揃える。図７には、当該アクセント句のＮ個（例えば、ここでは３個）のピッチパターンｐ_１〜ｐ_３（図７（ａ）参照）のそれぞれから、各音節についてパターンの長さを揃えたピッチパターンｐ_１'〜ｐ_３'（図７（ｂ）参照）を生成した様子を示している。なお、図７の例では、音節内のパターンの伸張を１音節分を表すデータの線形補間によって行っている（図７（ｂ）の２重丸の部分参照）。

次にステップＳ６２において、長さを揃えたＮ個のピッチパターンの重み付き加算によって、融合ピッチパターンを生成する。この重みは、例えば、当該アクセント句に対応する言語属性情報１００と各ピッチパターンのパターン属性情報の類似度によって設定することができる。ここでは、パターン選択部１０で計算された各ピッチパターンｐ_ｉに対するコストＣ_ｉの逆数を利用することで、より目標のピッチ変化に対して適切だと推定されたピッチパターン、つまりコストの小さいパターンにより大きな重みをつけることを考えると、各ピッチパターンｐ_ｉに対する重みｗ_ｉは次によって算出できる。

Ｎ個のピッチパターンそれぞれにこの重みをかけて足し合わせることによって、融合ピッチパターンを生成する。図８に、当該アクセント句のＮ個（例えば、ここでは３個）の長さを揃えたピッチパターンの重み付け加算によって、融合ピッチパターンを生成する様子を示す。

次にステップＳ６３において、融合ピッチパターンを、音韻継続時間長１１１に従って時間軸方向の伸縮を行い、新たなピッチパターン１０２を生成する。図９に、融合ピッチパターンの各音節長さを音韻継続時間長１１１に合わせて時間軸方向の伸縮を行ってピッチパターン１０２を生成した様子を示す。

以上のように、入力テキストに対応する複数のアクセント句のそれぞれについて、当該アクセント句に対して選択されたＮ個のピッチパターンを融合し、さらに時間軸方向の伸縮を行うことで新たなピッチパターン１０２を生成し、次に、図４のステップＳ４３へ進む。

（４−３）オフセット制御
ステップＳ４３において、オフセット制御部１３は、パターン選択部１０で選択されたＭ個のピッチパターン１０３からオフセット値の統計量を算出し、ピッチパターン１０２を該オフセット値の統計量に従って周波数軸上で平行移動させ、ピッチパターン１０４を生成する。

ここでは、一例として、複数のアクセント句のうちのある１つのアクセント句について、パターン選択部１０で選択されたＭ個のピッチパターン１０３から算出したオフセット値の平均値に従ってピッチパターン１０２を周波数軸上で平行移動させ、ピッチパターン１０４を生成する場合の処理手順を、図１０のフローチャートを参照して説明する。

まず、ステップＳ１０１において、選択されたＭ個のピッチパターンの平均オフセット値を求める。各ピッチパターンの平均オフセット値Ｏ_ｉを

として求め、求めた各ピッチパターンの平均オフセット値Ｏ_ｉ（１＝＜ｉ＝＜Ｍ）の平均値Ｏ_ａｖｅを

として求めることにより、Ｍ個のピッチパターンの平均オフセット値を求める。ここで、ｐ_ｉ（ｎ）はｉ番目のピッチパターンの対数基本周波数、Ｔ_ｉはそのサンプル数を表す。

次に、ステップＳ１０２において、ピッチパターン１０２のオフセット値を、前記平均オフセット値Ｏ_ａｖｅになるようにピッチパターンを変形する。ピッチパターン１０２の平均オフセット値Ｏ_ｒを式（６）により求め、オフセット値を補正する量Ｏ_ｄｉｆｆを

により求める。この補正量Ｏ_ｄｉｆｆをピッチパターン１０２全体に加算することによってピッチパターン１０２を周波数軸上で平行移動させ、ピッチパターン１０４を生成する。

図１１にオフセット制御の一例を示す。

この例ではＭ＝７、Ｎ＝３であり、Ｏ_１〜Ｏ_７は選択された各ピッチパターンの平均オフセット値を表している。ステップＳ４２によって生成されたピッチパターン１０２の平均オフセット値Ｏ_ｒは７．７［Ｏｃｔａｖｅ］で、７個のピッチパターン１０３の平均オフセット値Ｏ_ａｖｅは７．５［Ｏｃｔａｖｅ］となり、オフセット値の補正量Ｏ_ｄｉｆｆは−０．２［Ｏｃｔａｖｅ］となる。この補正量Ｏ_ｄｉｆｆをピッチパターン１０２全体に加算することによってオフセット値を制御したピッチパターン１０４を生成する。

以上のように、ピッチパターン１０２をＭ個のピッチパターン１０３から算出したオフセット値の統計量に従って周波数軸上で平行移動させ、ピッチパターン１０４を生成し、次に、図４のステップＳ４４へ進む。

（４−４）パターン接続
ステップ４４において、パターン接続部１３は、アクセント句毎に生成されたピッチパターン１０４を繋げて、入力されたテキスト２０１に対応する音声の韻律的な特徴の１つである文ピッチパターン１２１を生成する。各アクセント句のピッチパターン１０４を接続する際には、アクセント句境界で不連続が生じないように平滑化などの処理を行って、文ピッチパターン１２１を出力する。

（５）本実施形態の効果
以上説明したように、本実施形態によれば、パターン選択部１０で入力テキストに対応した言語属性情報１００に基づいて、自然音声より抽出した大量のピッチパターが記憶されているピッチパターン記憶部１４から韻律制御単位あたりＭ個及びＮ個のピッチパターンを選択し、さらに、オフセット制御部１２において、韻律制御単位毎に選択されたＭ個のピッチパターン１０３から算出したオフセット値の統計量に基づいてピッチパターンのオフセットを制御することができる。

パターン形状とは別にピッチパターン全体の高さを制御するため、パターン形状を過度に鈍らすことなく、ピッチパターンの高さのずれのばらつきを低減できる。

パターン形状を生成するためのデータであるピッチパターン１０１とオフセット値の統計量を算出するためデータであるピッチパターン１０３は、パターン選択部１０において同じ基準（評価尺度）で選択されるため、オフセット値をパターン形状の生成とは別の手法で単独に推定する方法に比べて、パターン形状と親和性の高いオフセット制御が可能となる。

自然音声より抽出したピッチパターンをオンラインで選択して利用することにより、様々なバリエーションのピッチパターンが生成できるため、入力テキストに相応しい、より人の発声した音声のピッチ変化に近いピッチパターンが生成可能となり、その結果、自然性の高い音声を合成できる。

パターン選択部１０において、最適なピッチパターンが一位で選択できなかった場合などでも、複数の適切なピッチパターンから求めたオフセット値の統計量を用いてピッチパターンを変形することで、より安定したピッチパターンを生成することができる。

［変更例１］
上記実施形態の変更例１について説明する。

上記実施形態では、図１０のステップＳ１０１において、ピッチパターンを融合する際の重みをコスト値の関数として定義したが、これに限定されるものではない。

例えば、パターン選択部１０で選択された複数のピッチパターン１０１についてセントロイドを求め、このセントロイドと各ピッチパターンとの距離に応じて重みを決定する方法も考えられる。

これによって、選択されたピッチパターンの中に突発的に不良パターンが混入してしまった場合でも、その悪影響を抑えたピッチパターンの生成が可能である。

また、韻律制御単位全体に均一の重みを適用した例を示したが、これに限定されるものではなく、例えば、アクセント核部分だけ重み付け方法を変えるなど、ピッチパターンの各部に異なる重みを設定して融合することも可能である。

［変更例２］
上記実施形態の変更例２について説明する。

上記実施形態では、図４のパターン選択ステップＳ４１において、韻律制御単位あたりＭ個及びＮ個の複数のピッチパターンを選択するとしたが、これに限定されるものではない。

韻律制御単位毎に選択するパターンの個数を変えることもでき、コスト値やピッチパターン記憶部１４に記憶されているピッチパターン数など何らかの要因によって、選択する個数を適応的に決定することも可能である。

また、当該アクセント句のアクセント型と音節数にパターン属性情報が一致しているピッチパターンの中から選択するとしたが、これに限定されるものではなく、ピッチパターンデータベース中に一致するピッチパターンが存在しない、あるいは少ない場合などでは、類似するピッチパターン候補の中から選択することも可能である。

さらに、Ｎ＝１の場合、つまりパターン形状は最適な１つのピッチパタ−ン１０１から生成することも可能である。この場合は、図６のステップＳ６１及びＳ６２におけるピッチパターン１０１の融合処理が不要になる。

［変更例３］
上記実施形態の変更例３について説明する。

上記実施形態では、パターン選択部１０における目標コストとして、属性情報のうちの文中位置に関する情報を用いるものを例に挙げたが、これに限定されるものではない。

例えば、属性情報に含まれる他の様々な情報の違いを数値化して用いたり、ピッチパターンの各音韻継続時間長と目標の音韻継続時間長との違い（差）などを用いたりしてもよい。

［変更例４］
上記実施形態の変更例４について説明する。

上記実施形態では、パターン選択部１０における接続コストとして、接続境界でのピッチの差を用いるものを例に挙げたが、これに限定されるものではない。

例えば、接続境界でのピッチ変化の傾きの違い（差）などを用いることも可能である。

また、上記実施形態では、パターン選択部１０におけるコスト関数として、サブコスト関数の重み付き和である韻律制御単位コストの和を用いたが、これに限定されるものではなく、サブコスト関数を引数にとった関数であれば良い。

［変更例５］
上記実施形態の変更例５について説明する。

上記実施形態では、パターン選択部１０におけるコストの推定方法として、コスト関数を計算することによって実行するものを例に挙げたが、これに限定されるものではない。

例えば、言語属性情報とパターン属性情報から数量化Ｉ類などの公知の統計的手法を用いて推定することも可能である。

［変更例６］
上記実施形態の変更例６について説明する。

上記実施形態では、図６のステップＳ６１において、選択された複数のピッチパターン１０１の長さを揃える際に、音節毎にピッチパターンの中で最も長いものに合わせてパターンを伸張したが、これに限定されるものではない。

例えば、ステップＳ６３の処理と組み合わせることで、各ピッチパターンを音韻継続時間長１１１に従って実際に必要な長さに合わせて揃えることもできる。

また、ピッチパターン記憶部１４のピッチパターンを、予め音節毎などの長さを正規化してから記憶しておくことなども可能である。

［変更例７］
上記実施形態の変更例７について説明する。

上記実施形態では、まずパターン形状を生成し、それからオフセットを制御しているが、この処理手順はこれに限定されるものではない。

例えば、図４のステップＳ４２とステップＳ４３の処理の順序を入れ替えることにより、まず、Ｍ個のピッチパターン１０３より平均オフセット値Ｏ_ａｖｅを算出し、この平均オフセット値Ｏ_ａｖｅに基づいてＮ個のピッチパターン１０１の各オフセット値を制御（パターンを変形）したのちに、該変形されたＮ個のピッチパターンを融合することで韻律制御単位毎のピッチパターンを生成することも可能である。

［変更例８］
上記実施形態の変更例８について説明する。

上記実施形態では、図４のステップＳ４３において、オフセット値の統計量を、Ｍ個のピッチパターン１０３の各オフセット値から式（７）に従って算出した平均オフセット値Ｏ_ａｖｅであるとしたが、これに限定されるものではない。

例えば、Ｍ個のピッチパターン１０３のオフセット値の中央値や、式（５）で得られるような各パターンのコスト値に基づいた重みｗ_ｉを利用して、Ｍ個のピッチパターンの各オフセット値を重み付け加算することによって求めたものなどでもよい。

また、Ｍ個のピッチパターン１０３を融合したピッチパターンを作成し、この融合パターンとピッチパターン１０２との誤差を最小にするという基準でオフセット制御用の移動量を求めることも可能である。

［変更例９］
上記実施形態の変更例９について説明する。

上記実施形態では、図１０のステップＳ１０２において、オフセット値の統計量に基づくピッチパターンの変形を、周波数軸上でのピッチパターン全体の平行移動であるとしたが、これに限定されるものではない。

例えば、ピッチパターンにオフセット値の統計量に基づく係数を乗じて、ピッチパターンのダイナミックレンジを変化させてオフセットを制御することなども可能である。

［変更例１０］
上記実施形態の変更例１０について説明する。

上記実施形態では、図６のステップＳ６２において、ピッチパターンを融合する際の重みをコスト値の関数として定義したが、これに限定されるものではない。

例えば、Ｍ個のピッチパターン１０３から算出したオフセット値の統計量によって、融合重みを決定する方法なども考えられる。この場合、まずＭ個のピッチパターン１０３のオフセット値の平均μ及び分散σ^２を求める。

から求めることができる。

この重みｗ_ｉは、Ｎ個のピッチパターンの各オフセット値が、Ｍ個のピッチパターンのオフセット値から求めた分布の平均に近いほど大きくなり、平均から外れるほど小さくなる。このため、融合されるＮ個のピッチパターンの中で、オフセット値が平均的な値から外れるパターンの融合重みを小さくすることが可能となり、オフセット値の大きく異なるパターンを融合することによるピッチパターン全体の高さのばらつきや自然性の劣化を低減することができる。

［変更例１１］
上記実施形態の変更例１１について説明する。

上記実施形態では、オフセット値の統計量を算出するために、図５のステップＳ５２２においてピッチパターンをピッチパターン記憶部１４から選択し、図１０のステップＳ１０１において選択されたＭ個のピッチパターン１０３から平均オフセット値を算出した。

これに代えて、予めオフラインで各ピッチパターンのオフセット値を求めておき、これを記憶したオフセット記憶部から複数のオフセット値を選択してオフセット制御に用いるという構成も可能である。

例えば、図１２に示すように、アクセント句毎のピッチパターンを各ピッチパターンに対応する属性情報と共に記憶したピッチパターン記憶部１４に加えて、アクセント句毎のオフセット値を対応する属性情報と共に記憶したオフセット値記憶部１６を備えるような構成である。この構成において、パターン＆オフセット値選択部１５は、Ｎ個のピッチパターン１０１と、Ｍ個のオフセット値１０５をそれぞれピッチパターン記憶部１４及びオフセット値記憶部１６から選択し、オフセット制御部１２は、選択されたＭ個のオフセット値１０５の統計量に基づいてピッチパターン１０２を変形する。

また、図１３のようにピッチパターン選択部１０とオフセット値選択部１７とを分けた構成も可能である。このようにオフセット値記憶部からオンラインで選択した複数のオフセット値の統計量に基づいてオフセット制御を行うことにより、様々な入力テキストのバリエーションに対応した自然なオフセット値を持つピッチパターンを生成することができる。

［変更例１２］
以上の各実施形態の機能は、ハードウェアとしても実現可能である。

また、本実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク、光ディスク、半導体メモリなどの記録媒体に格納して、もしくはネットワークを介して頒布することも可能である。

さらに、以上の各機能は、ソフトウェアとして記述し、適当な機構をもったコンピュータ装置に処理させても実現可能である。

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

本発明の一実施形態に係るテキスト音声合成システムの構成を示すブロック図である。ピッチパターン生成部の構成例を示すブロック図である。ピッチパターン記憶部に蓄積されているピッチパターンの記憶例を示す図である。ピッチパターン生成部における処理手順の一例を示すフローチャートである。パターン選択部の処理手順の一例を示すフローチャートである。パターン形状生成部の処理手順の一例を示すフローチャートである。複数のピッチパターンの長さを揃える処理の一方法を説明するための図である。複数のピッチパターンを融合することによって新たなピッチパターンを生成する処理の一方法を説明するための図である。ピッチパターンの時間軸方向の伸縮処理の一方法を説明するための図である。オフセット制御部における処理手順の一例を示すフローチャートである。オフセット制御部の処理の一方法を説明するための図である。変更例１１に係るピッチパターン生成部の構成例を示すブロック図である。変更例１１の別の実施形態に係るピッチパターン生成部の構成例を示すブロック図である。

符号の説明

１ピッチパターン生成部
１０パターン選択部
１１パターン形状生成部
１２オフセット制御部
１３パターン接続部
１４ピッチパターン記憶部
１５パターン＆オフセット値選択部
１６オフセット値記憶部
１７オフセット値選択部
２０言語処理部
２１韻律生成部
２２音声信号生成部

Claims

韻律制御単位の原型となるピッチパターンを変形して音声合成に用いられるピッチパターンを生成するピッチパターン生成方法であって、
韻律制御単位毎のピッチパターンの高さを表す自然音声より抽出したオフセット値とこれに対するパターン属性情報とが対応付けて記憶されている記憶手段から複数のオフセット値を選択するものであり、音声合成対象となるテキストを解析することにより得られる言語属性情報と前記パターン属性情報に基づいて韻律制御単位毎に前記複数のオフセット値を選択するオフセット値選択ステップと、
前記テキストの韻律制御単位毎に選択された前記複数のオフセット値の統計量に基づいて前記韻律制御単位の原型となるピッチパターンを変形するピッチパターン生成ステップと、
を有することを特徴とするピッチパターン生成方法。
自然音声より抽出した第１のピッチパターンとこれに対するパターン属性情報とが対応付けて記憶されている記憶手段から複数の第１のピッチパターンを選択するものであり、音声合成対象となるテキストを解析することにより得られる言語属性情報と前記パターン属性情報に基づいて韻律制御単位毎に前記複数の第１のピッチパターンを選択するピッチパターン選択ステップと、
前記テキストの韻律制御単位毎に選択された前記複数の第１のピッチパターンに基づいて、前記第１のピッチパターンの高さを表すオフセット値の統計量を求め、前記オフセット値の統計量に基づいて前記韻律制御単位の第２のピッチパターンを生成するピッチパターン生成ステップと、
前記韻律制御単位毎に生成された第２のピッチパターンを接続して前記テキストに対応するピッチパターンを生成するピッチパターン接続ステップと、
を有することを特徴とするピッチパターン生成方法。
前記選択ステップは、Ｍ個及びＮ個（Ｍ＞＝Ｎ＞１）の第１のピッチパターンを選択するものであり、
前記ピッチパターン生成ステップは、前記Ｍ個の第１のピッチパターンからオフセット値の統計量を求め、前記Ｎ個の第１のピッチパターンを融合することで生成した融合ピッチパターンを前記オフセット値の統計量に基づいて変形することにより第２のピッチパターンを生成する
ことを特徴とする請求項２記載のピッチパターン生成方法。
前記選択ステップは、Ｍ個及びＮ個（Ｍ＞＝Ｎ＞１）の第１のピッチパターンを選択するものであり、
前記ピッチパターン生成ステップは、前記Ｍ個の第１のピッチパターンからオフセット値の統計量を求め、前記Ｎ個の第１のピッチパターンを前記オフセット値の統計量に基づいて変形し、前記変形したＮ個の第１のピッチパターンを融合することで第２のピッチパターンを生成する
ことを特徴とする請求項２記載のピッチパターン生成方法。
前記選択ステップは、Ｍ個の第１のピッチパターン及び１つの第１のピッチパターンを選択するものであり、
前記ピッチパターン生成ステップは、前記Ｍ個の第１のピッチパターンからオフセット値の統計量を求め、前記選択された１つの第１のピッチパターンを前記オフセット値の統計量に基づいて変形することにより第２のピッチパターンを生成する
ことを特徴とする請求項２記載のピッチパターン生成方法。
前記オフセット値の統計量は、平均値、中央値、重み和のいずれかである
ことを特徴とする請求項１から５のいずれか一項に記載のピッチパターン生成方法。
前記選択ステップは、Ｍ個及びＮ個（Ｍ＞＝Ｎ＞１）の第１のピッチパターンを選択するものであり、
前記ピッチパターン生成ステップは、前記Ｍ個の第１のピッチパターンからオフセット値の統計量を求め、前記Ｎ個の第１のピッチパターンの各オフセット値と前記オフセット値の統計量とに基づいて、前記Ｎ個の第１のピッチパターンそれぞれの重みを決定し、前記重みに基づいてＮ個の第１のピッチパターンを融合することにより第２のピッチパターンを生成する
ことを特徴とする請求項２記載のピッチパターン生成方法。
前記記憶手段には、自然音声より抽出したピッチパターンの高さを表すオフセット値が記憶されるか、または、抽出したオフセット値を量子化したものが記憶されている
ことを特徴とする請求項１記載のピッチパターン生成方法。
前記記憶手段には、自然音声より抽出した第１のピッチパターンが記憶されているか、前記第１のピッチパターンを量子化したものが記憶されているか、または、前記第１のピッチパターンを近似したものが記憶されている
ことを特徴とする請求項２記載のピッチパターン生成方法。
前記パターン属性情報と前記言語属性情報に基づいて韻律制御単位毎に原型となる複数の第１のピッチパターンを選択する場合に、コスト関数を用いて前記パターン属性情報と前記言語属性情報とからコストを推定し、前記コストの小さい前記複数の第１のピッチパターンを選択する
ことを特徴とする請求項２記載のピッチパターン生成方法。
韻律制御単位の原型となるピッチパターンを変形して音声合成に用いられるピッチパターンを生成するピッチパターン生成装置であって、
韻律制御単位毎のピッチパターンの高さを表す自然音声より抽出したオフセット値とこれに対するパターン属性情報とが対応付けて記憶されている記憶手段と、
音声合成対象となるテキストを解析することにより得られる言語属性情報と前記パターン属性情報に基づいて韻律制御単位毎に前記複数のオフセット値を選択するオフセット値選択手段と、
前記テキストの韻律制御単位毎に選択された前記複数のオフセット値の統計量に基づいて前記韻律制御単位の原型となるピッチパターンを変形するピッチパターン生成手段と、
を有することを特徴とするピッチパターン生成装置。
自然音声より抽出した第１のピッチパターンとこれに対するパターン属性情報とが対応付けて記憶されている記憶手段と、
音声合成対象となるテキストを解析することにより得られる言語属性情報と前記パターン属性情報に基づいて韻律制御単位毎に前記複数の第１のピッチパターンを選択するピッチパターン選択手段と、
前記テキストの韻律制御単位毎に選択された前記複数の第１のピッチパターンに基づいて、前記第１のピッチパターンの高さを表すオフセット値の統計量を求め、前記オフセット値の統計量に基づいて前記韻律制御単位の第２のピッチパターンを生成するピッチパターン生成手段と、
前記韻律制御単位毎に生成された第２のピッチパターンを接続して前記テキストに対応するピッチパターンを生成するピッチパターン接続手段と、
を有することを特徴とするピッチパターン生成装置。
韻律制御単位の原型となるピッチパターンを変形して音声合成に用いられるピッチパターンを生成するピッチパターン生成プログラムであって、
コンピュータに、
韻律制御単位毎のピッチパターンの高さを表す自然音声より抽出したオフセット値とこれに対するパターン属性情報とが対応付けて記憶されている記憶手段から複数のオフセット値を選択するものであり、音声合成対象となるテキストを解析することにより得られる言語属性情報と前記パターン属性情報に基づいて韻律制御単位毎に前記複数のオフセット値を選択するオフセット値選択機能と、
前記テキストの韻律制御単位毎に選択された前記複数のオフセット値の統計量に基づいて前記韻律制御単位の原型となるピッチパターンを変形するピッチパターン生成機能と、
を実現させるためのピッチパターン生成プログラム。
コンピュータに、
自然音声より抽出した第１のピッチパターンとこれに対するパターン属性情報とが対応付けて記憶されている記憶手段から複数の第１のピッチパターンを選択するものであり、音声合成対象となるテキストを解析することにより得られる言語属性情報と前記パターン属性情報に基づいて韻律制御単位毎に前記複数の第１のピッチパターンを選択するピッチパターン選択機能と、
前記テキストの韻律制御単位毎に選択された前記複数の第１のピッチパターンに基づいて、前記第１のピッチパターンの高さを表すオフセット値の統計量を求め、前記オフセット値の統計量に基づいて前記韻律制御単位の第２のピッチパターンを生成するピッチパターン生成機能と、
前記韻律制御単位毎に生成された第２のピッチパターンを接続して前記テキストに対応するピッチパターンを生成するピッチパターン接続機能と、
を実現させるためのピッチパターン生成プログラム。