JP5665780B2

JP5665780B2 - 音声合成装置、方法およびプログラム

Info

Publication number: JP5665780B2
Application number: JP2012035520A
Authority: JP
Inventors: 正統田村; 眞弘森田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2012-02-21
Filing date: 2012-02-21
Publication date: 2015-02-04
Anticipated expiration: 2032-02-21
Also published as: JP2013171196A; US9135910B2; US20130218568A1

Description

本発明の実施の形態は、音声合成装置、方法およびプログラムに関する。

従来、入力されたテキストから音声波形を生成する音声合成装置が知られている。この音声合成装置は、主に、テキスト解析、韻律生成、および波形生成の各処理を経て、入力されたテキストに対応する合成音声を生成する。音声合成の方式としては、素片選択に基づく音声合成や、統計モデルに基づく音声合成がある。

素片選択に基づく音声合成は、音声素片データベースから音声素片を選択し、接続することにより波形生成を行う。また、安定感を高めるため、各合成単位に対して複数の音声素片を選択し、選択された複数の音声素片からピッチ波形の平均化などにより音声素片を生成して接続する複数素片選択融合方式も用いられる。韻律生成の方法としては、積和数量化モデルに基づく継続長生成方法や、基本周波数パターンコードブックとオフセット制御を利用した基本周波数列生成方法などを用いることができる。

統計モデルに基づく音声合成としては、ＨＭＭ（隠れマルコフモデル）に基づく音声合成が提案されている。ＨＭＭに基づく音声合成では、音声から求めたスペクトルパラメータ列、基本周波数列や帯域雑音強度列から合成単位に対応するＨＭＭを学習し、入力されたテキストに対応する出力分布列からパラメータ生成を行って波形生成を行う。ＨＭＭの出力分布に動的特徴量を加え、この動的特徴量を考慮したパラメータ生成アルゴリズムを用いて音声パラメータ列を生成することにより、滑らかに接続された合成音声が得られる。

入力音声の声質を目標とする声質に変換することを声質変換という。音声合成装置では、声質変換を利用して、目標の声質や韻律に近い合成音声を生成することができる。例えば、目標の発話音声から得られる少量の音声データを用いて、任意の発話音声から得られる大量の音声データを、目標の声質や韻律に近づけるように変換し、変換した大量の音声データから、音声合成に用いる音声合成データを生成することができる。この場合、目標の音声データとして少量の音声データのみを用意すれば、その目標の発話音声の特徴を再現した合成音声を生成することが可能になる。

しかし、従来の声質変換を利用した音声合成装置では、音声合成時には声質変換により生成された音声データのみを用い、目標の発話音声から得られる音声データそのものは利用されないため、目標の発話音声に対する類似性が十分ではない場合がある。

特開２０１１−５３４０４号公報米国特許第６，４６３，４１２号明細書

本発明が解決しようとする課題は、目標の発話音声に対する類似性を高めることができる音声合成装置、方法およびプログラムを提供することである。

実施の形態の音声合成装置は、第１記憶部と、第２記憶部と、第１生成部と、第２生成部と、第３生成部と、第４生成部と、を備える。第１記憶部は、目標の発話音声から得られる第１情報を属性情報とともに記憶する。第２記憶部は、任意の発話音声から得られる第２情報を属性情報とともに記憶する。第１生成部は、前記第２情報を目標の声質または韻律に近づけるように変換して第３情報を生成する。第２生成部は、前記第１情報と前記第３情報とを含む情報セットを生成する。第３生成部は、前記情報セットに基づいて、合成音声の生成に用いる第４情報を生成する。第４生成部は、入力されたテキストに対応する合成音声を、前記第４情報を用いて生成する。前記第２生成部は、前記第１情報と、前記属性情報に基づいて前記情報セットの属性ごとの網羅性を向上させるように選択した前記第３情報の一部とを併せることにより、前記情報セットを生成する。

実施形態に係る音声合成装置の構成を示すブロック図。音声データ変換部の構成例を示すブロック図。音声データセット生成部の構成例を示すブロック図。音声合成部の構成例を示すブロック図。実施形態に係る音声合成装置の処理を示すフローチャート。音声データ変換部および音声データセット生成部の構成例を示すブロック図。第１実施例の音声合成装置の構成を示すブロック図。音声素片および属性情報の具体例を示す図。音声素片変換部の構成例を示すブロック図。声質変換規則学習データ生成部の処理を示すフローチャート。声質変換規則学習部の処理を示すフローチャート。声質変換部の処理を示すフローチャート。声質変換部の処理の例を示す図。音声素片セット生成部の構成例を示すブロック図。音素頻度テーブルの例を示す図。音声合成部における波形生成部の詳細を示すブロック図。音声合成部における変形・接続部の処理の例を示す図。音声合成部における波形生成部の詳細を示すブロック図。第２実施例の音声合成装置の構成を示すブロック図。基本周波数列および属性情報の具体例を示す図。基本周波数列変換部の構成例を示すブロック図。基本周波数列変換部の処理の一例を示すフローチャート。基本周波数列変換部によるヒストグラム変換を説明する図。変換元基本周波数列を変換して得た変換基本周波数列の例を示す図。基本周波数列変換部の処理の他の例を示すフローチャート。基本周波数列セット生成部の構成例を示すブロック図。アクセント句頻度テーブルの例を示す図。基本周波数列生成データ生成部の処理を示すフローチャート。音声合成部における韻律生成部の詳細を示すブロック図。第３実施例の音声合成装置の構成を示すブロック図。継続長および属性情報の具体例を示す図。継続長変換部の処理の一例を示すフローチャート。継続長セット生成部の構成例を示すブロック図。第４実施例の音声合成装置の構成を示すブロック図。特徴パラメータの具体例を示す図。特徴パラメータおよび属性情報の具体例を示す図。特徴パラメータ変換部の処理を示すフローチャート。特徴パラメータセット生成部の構成例を示すブロック図。音声合成部の構成例を示すブロック図。ＨＭＭの一例を示す図。ＨＭＭの決定木の一例を示す図。ＨＭＭから音声パラメータを生成する処理の概要を説明する図。音声合成部の処理を示すフローチャート。

本実施形態に係る音声合成装置は、目標の発話音声から得られる目標音声データ（第１情報）と、任意の発話音声から得られる変換元音声データ（第２情報）を目標の声質または韻律に近づけるように変換した変換音声データ（第３情報）とを含む音声データセット（情報セット）に基づいて、音声合成データ（第４情報）を生成する。そして、得られた音声合成データを用いて、入力したテキストから合成音声を生成する。

図１は、本実施形態に係る音声合成装置の構成を示すブロック図である。この音声合成装置は、図１に示すように、変換元音声データ記憶部（第２記憶部）１１と、目標音声データ記憶部（第１記憶部）１２と、音声データ変換部（第１生成部）１３と、音声データセット生成部（第２生成部）１４と、音声合成データ生成部（第３生成部）１５と、音声合成データ記憶部２０と、音声合成部（第４生成部）１６と、を備える。

変換元音声データ記憶部１１は、任意の発話音声から得られる音声データ（変換元音声データ）をその属性情報とともに記憶する。

目標音声データ記憶部１２は、目標の発話音声から得られる音声データ（目標音声データ）をその属性情報とともに記憶する。

ここで、音声データとは、発話音声から得られる各種のデータを意味する。例えば、発話音声の音声波形を合成単位に区切ることにより生成される音声素片、発話音声の各アクセント句の基本周波数列、発話音声に含まれる音韻の継続長、発話音声から得られるスペクトルパラメータなどの特徴パラメータといった、発話音声から抽出される各種のデータが音声データに含まれる。

変換元音声データ記憶部１１および目標音声データ記憶部１２が記憶する音声データの種類は、音声データセットに基づいて生成される音声合成データの種類に応じて異なる。例えば、音声合成データとして波形生成に用いる音声素片データベースを生成する場合は、変換元音声データ記憶部１１および目標音声データ記憶部１２は、発話音声から得られる音声素片を音声データとして記憶する。また、音声合成データとして韻律生成に用いる基本周波数列生成データを生成する場合は、変換元音声データ記憶部１１および目標音声データ記憶部１２は、発話音声の各アクセント句の基本周波数列を音声データとして記憶する。また、音声合成データとして韻律生成に用いる継続長生成データを生成する場合は、変換元音声データ記憶部１１および目標音声データ記憶部１２は、発話音声に含まれる音韻の継続長を音声データとして記憶する。また、音声合成データとしてＨＭＭデータを生成する場合は、変換元音声データ記憶部１１および目標音声データ記憶部１２は、発話音声から得られるスペクトルパラメータなどの特徴パラメータを音声データとして記憶する。ただし、変換元音声データ記憶部１１が記憶する変換元音声データと、目標音声データ記憶部１２が記憶する目標音声データは、同じ種類の音声データである。

音声素片は、音声波形を音素・音節・半音素、またはそのいくつかの組み合わせなど、所定の音声単位（合成単位）に区切ったそれぞれの音声波形を示す。スペクトルパラメータは、ＬＰＣ係数、メルＬＳＰ係数、メルケプストラム係数など、音声波形を分析してフレームごとに得られたパラメータを示す。これらを音声データとして扱う場合、その属性情報としては、例えば、音韻種別や、前後の音韻環境（音韻環境情報）、韻律情報、文内の音素位置などの言語的な属性情報を用いることができる。

基本周波数は、抑揚やイントネーションなどの音の高さを表す情報である。アクセント句単位の基本周波数列を音声データとして扱う場合、その属性情報としては、アクセント句のモーラ数、アクセント型、アクセント句種別（文内のアクセント句位置）などの情報を用いることができる。

音韻の継続長は音の長さを表す情報であり、音声素片の長さやスペクトルパラメータのフレーム数などに相当する。音韻の継続長を音声データとして扱う場合、その属性情報としては、音韻の種別や、前後の音韻環境など、前述した情報を用いることができる。

なお、音声データとその属性情報は、前述した組み合わせに限定されるものではない。例えば、日本語以外の言語の場合は、単語区切り、ストレスアクセントやピッチアクセントの情報など、言語に応じて定めた属性情報を用いればよい。

目標音声は、本実施形態に係る音声合成装置において、その音声の声質や韻律の特徴を再現するように音声合成を行う目標とする音声である。目標音声は、変換元音声に対して、話者性や、感情、発話スタイルなどが異なる音声である。本実施形態では、変換元音声データとして大量の音声データが用意され、目標音声データとして少量の音声データが用意される場合を想定する。例えば、標準的なナレータが音韻・韻律の網羅性の高い文章を読み上げたときの音声を収録し、この収録音声から抽出された音声データを変換元音声データとして用い、目標音声データとしては、ユーザや特定の声優・著名人など、変換元音声データとは異なる話者の発話音声から得られる音声データや、怒り・喜び・悲しみ・丁寧調など、変換元音声データとは異なる感情や発話スタイルの音声データを用いることができる。

音声データ変換部１３は、目標音声データ記憶部１２が記憶する目標音声データおよびその属性情報と、変換元音声データ記憶部１１が記憶する変換元音声データの属性情報とに基づいて、変換元音声データ記憶部１１が記憶する変換元音声データを、目標の声質または韻律に近づけるように変換し、変換音声データを生成する。

図２は、音声データ変換部１３の構成例を示すブロック図である。音声データ変換部１３は、図２に示すように、変換規則生成部２１と、データ変換部２２と、を備える。変換規則生成部２１は、変換元音声データ記憶部１１に記憶されている変換元音声データと、目標音声データ記憶部１２に記憶されている目標音声データとから、変換規則を生成する。データ変換部２２は、変換規則生成部２１が生成した変換規則を変換元音声データに適用することにより、変換音声データを生成する。

音声データ変換部１３による具体的な音声データの変換方法は、音声データの種類によって異なる。音声素片や特徴パラメータを音声データとして扱う場合には、ＧＭＭおよび回帰分析を利用した声質変換方法、周波数ワーピングや振幅スペクトルのスケーリングに基づく声質変換方法など、任意の声質変換手法を用いることができる。また、アクセント句の基本周波数や音韻の継続長を音声データとして扱う場合には、平均と標準偏差を目標に合せて変換する方法や、ヒストグラムの変換による方法など、任意の韻律変換手法を用いることができる。

音声データセット生成部１４は、音声データ変換部１３により生成された変換音声データと、目標音声データ記憶部１２が記憶する目標音声データとを併せることにより、目標音声データと変換音声データとを含む音声データセットを生成する。

音声データセット生成部１４は、音声データ変換部１３により生成されたすべての変換音声データと目標音声データとを併せて音声データセットを生成してもよいが、変換音声データの一部を目標音声データに追加することで音声データセットを生成してもよい。変換音声データの一部を目標音声データに追加して音声データセットを生成する場合は、目標音声データの不足を変換音声データによって補うように音声データセットを生成することができ、より目標の発話音声の特徴を再現する音声データセットを生成することができる。その際、追加する変換音声データを、属性ごとの網羅性を向上させるように、音声データの属性情報に基づいて決定することができる。具体的には、属性情報に基づいて分類されたカテゴリごとの目標音声データの頻度に基づいて、追加する変換音声データを決定することができる。

図３は、変換音声データの一部を目標音声データに追加して音声データセットを生成する音声データセット生成部１４の構成例を示すブロック図である。この音声データセット生成部１４は、図３に示すように、頻度算出部（算出部）３１と、変換データカテゴリ決定部（決定部）３２と、変換音声データ追加部（追加部）３３と、を備える。頻度算出部３１は、目標音声データをその属性情報に基づいて複数のカテゴリに分類し、各カテゴリごとの目標音声データの個数であるカテゴリ頻度を算出する。変換データカテゴリ決定部３２は、算出されたカテゴリ頻度に基づいて、目標音声データに追加する変換音声データのカテゴリ（以下、変換データカテゴリという。）を決定する。変換音声データ追加部３３は、決定された変換データカテゴリに対応する変換音声データを目標音声データに追加して音声データセットを生成する。

カテゴリ頻度は、属性情報に基づいて分類されたカテゴリごとの目標音声データの頻度もしくは個数である。例えば、カテゴリを分類する属性情報として音韻環境を用いる場合、各音韻の音韻環境ごとの目標音声データの頻度もしくは個数がカテゴリ頻度となる。また、カテゴリを分類する属性情報としてアクセント句のモーラ数、アクセント型、アクセント句種別を用いる場合、各モーラ数・アクセント型・アクセント句種別ごとの目標音声データの頻度もしくは個数（目標音声データとして扱われる基本周波数列に対応するアクセント句の頻度もしくは個数）がカテゴリ頻度となる。なお、アクセント句種別は、文頭・文中・文末のアクセント句かどうかなど、文中のアクセント句の位置を表す属性情報である。アクセント句末の基本周波数が上昇しているどうかを表す情報や、主語、述語等の文法情報をさらにアクセント句種別として利用してもよい。

変換データカテゴリ決定部３２は、例えば、頻度算出部３１が算出したカテゴリ頻度が予め定めた所定値よりも小さいカテゴリを、変換データカテゴリとして決定することができる。なお、変換データカテゴリ決定部３２は、上記の方法に限らず、他の方法で変換データカテゴリを決定するようにしてもよい。例えば、変換元音声データのカテゴリごとの個数のバランス（頻度分布）に対して、音声データセットに含まれる音声データのカテゴリごとの個数のバランス（頻度分布）を近づけるように、変換データカテゴリを決定するようにしてもよい。

音声合成データ生成部１５は、音声データセット生成部１４により生成された音声データセットに基づいて、音声合成データを生成する。ここで、音声合成データとは、実際に合成音声の生成に用いるデータである。音声合成データ生成部１５は、音声合成部１６による音声合成の方式に応じた音声合成データを生成する。例えば、音声合成部１６が素片選択に基づく音声合成により合成音声を生成する場合は、合成音声の韻律生成に用いるデータ（基本周波数列生成データ、継続長生成データ）や、合成音声の波形生成に用いる音声素片の集合である音声素片データベースが音声合成データとなる。また、音声合成部１６が統計モデル（ＨＭＭ）に基づく音声合成により合成音声を生成する場合は、合成音声の生成に用いるＨＭＭデータが音声合成データとなる。

本実施形態に係る音声合成装置では、音声合成データ生成部１５が音声データセット生成部１４により生成された音声データセットに基づいて音声合成データを生成することにより、目標の発話音声の特徴を高精度に再現した音声合成データを生成することができる。なお、音声合成データ生成部１５は、音声データセットに基づいて音声合成データを生成する際に、目標音声データの重みが変換音声データの重みより高くなるように重みを決定し、重みづけ学習を行ってもよい。これにより、さらに目標の発話音声の特徴を反映した音声合成データを生成することができる。音声合成データ生成部１５により生成された音声合成データは、音声合成データ記憶部２０に格納される。

音声合成部１６は、音声合成データ生成部１５により生成された音声合成データを用いて、入力されたテキストから、合成音声を生成する。

図４は、音声合成部１６の構成例を示すブロック図である。音声合成部１６は、図４に示すように、テキスト解析部４３と、韻律生成部４４と、波形生成部４５と、を備える。テキスト解析部４３は、入力されたテキストからその読み情報、アクセント句区切り、アクセント型など、合成音声の韻律や波形の生成に用いる属性情報を求める。韻律生成部４４は、入力されたテキストに対応する合成音声の韻律、具体的には合成音声の基本周波数列および音韻の継続長を生成する。波形生成部４５は、入力されたテキストの読み情報から求めた音韻系列と、韻律生成部４４において生成された基本周波数列、音韻の継続長などの韻律情報を入力し、入力されたテキストに対応する合成音声の音声波形を生成する。

素片選択に基づく音声合成を用いる場合、韻律生成部４４は、積和数量化モデルによる継続長生成や、基本周波数パターンコードブックとオフセット制御を用いた基本周波数パターン生成方法を用いることができる。このとき、音声合成データ生成部１５が音声データセットに基づいて生成した音声合成データが、基本周波数列生成データ（基本周波数パターン選択用データやオフセット推定用データを含む）や継続長生成データ（継続長推定用データを含む）である場合、韻律生成部４４は、これらの音声合成データを用いて、入力されたテキストに対応する合成音声の韻律を生成する。韻律生成部４４は、生成した韻律情報を波形生成部４５へ入力する。

素片選択に基づく音声合成を用いる場合、波形生成部４５は、例えば、音声素片の歪みをコスト関数として表し、コストを最小化するように音声素片を選択する方法を用いることができる。このとき、音声合成データ生成部１５が音声データセットに基づいて生成した音声合成データが音声素片データベースである場合、波形生成部４５は、生成された音声素片データベースの中から、音声合成に用いる音声素片を選択する。コスト関数としては、波形生成部４５に入力された韻律情報と各音声素片の韻律情報との差や、入力されたテキストから得られた音韻環境および言語属性と各音声素片の音韻環境・言語属性の違いなどを表す目標コストと、隣接する音声素片の接続の歪みを表す接続コストが用いられ、動的計画法によりコストが最も小さくなる最適な音声素片系列が求められる。

波形生成部４５は、以上のように選択した音声素片を接続することにより、合成音声の波形を生成することができる。複数素片選択融合方式を用いる場合は、波形生成部４５は、音声単位ごとに複数の音声素片を選択し、ピッチ波形の平均化処理などにより複数の音声素片から生成した音声素片を接続して合成音声を生成する。

なお、音声合成部１６は、音声合成データを用いて音声合成を行う際に、変換音声データよりも目標音声データを優先的に利用して合成音声を生成するようにしてもよい。例えば、音声合成データとして音声素片データベースが生成された場合、音声素片データベースに含まれる各音声素片の属性情報として、当該音声素片が目標音声データであるか変換音声データであるかを識別する情報を保持しておき、素片選択の際に、目標コストの一つとして変換音声データが用いられる場合にコストが高くなるようなサブコスト関数を用いることにより、目標音声データを優先的に利用する方法を実現できる。このように、変換音声データよりも目標音声データを優先的に利用して合成音声を生成することにより、目標の発話音声に対する合成音声の類似性をさらに高めることができる。

ＨＭＭに基づく音声合成を用いる場合は、韻律生成部４４および波形生成部４５は、例えば基本周波数列およびスペクトルパラメータ列を特徴パラメータとして学習したＨＭＭデータに基づいて、合成音声の韻律生成および波形生成を行う。この場合、ＨＭＭデータは、音声合成データ生成部１５が音声データセットに基づいて生成した音声合成データである。なお、韻律生成部４４および波形生成部４５は、帯域雑音強度列も特徴パラメータとして用いて学習したＨＭＭデータに基づいて、合成音声の韻律生成および波形生成を行ってもよい。

ＨＭＭデータは、決定木および特徴パラメータの静的・動的特徴量をモデル化したガウス分布からなり、決定木を辿ることにより入力テキストに対応した分布列を生成して、動的特徴を考慮したパラメータ生成アルゴリズムによってパラメータ列を生成する。韻律生成部４４は、このＨＭＭデータに基づいて、継続長および基本周波数列を生成する。また、波形生成部４５は、ＨＭＭデータに基づいて、スペクトル列および帯域雑音強度列を生成する。基本周波数列・帯域雑音強度列から励振源を生成して、スペクトル列に基づくフィルタを適用することにより音声波形が生成される。

図５は、本実施形態に係る音声合成装置の処理の流れを示すフローチャートである。

まず、ステップＳ１０１において、音声データ変換部１３が、変換元音声データ記憶部１１に記憶されている変換元音声データを目標の声質または韻律に近づけるように変換して、変換音声データを生成する。

次に、ステップＳ１０２において、音声データセット生成部１４が、ステップＳ１０１で生成された変換音声データと、目標音声データ記憶部１２が記憶する目標音声データとを併せることにより、音声データセットを生成する。

次に、ステップＳ１０３において、音声合成データ生成部１５が、ステップＳ１０２で生成された音声データセットに基づいて、合成音声の生成に用いる音声合成データを生成する。

次に、ステップＳ１０４において、音声合成部１６が、ステップＳ１０３で生成された音声合成データを用いて、入力されたテキストに対応する合成音声を生成する。

次に、ステップＳ１０５において、ステップＳ１０４で生成された合成音声の音声波形が出力される。

なお、以上の説明では、ステップＳ１０１からステップＳ１０５までのすべての処理を音声合成装置の内部で行うようにしているが、ステップＳ１０１からステップＳ１０３までの処理を事前に外部装置で行い、音声合成装置が、ステップＳ１０４とステップＳ１０５の処理のみを行う構成とすることもできる。すなわち、音声合成装置は、ステップＳ１０１からステップＳ１０３までの処理により生成された音声合成データを記憶し、この記憶した音声合成データを用いて、入力されたテキストに対応した合成音声を生成してその音声波形を出力するようにしてもよい。この場合、音声合成装置は、目標音声データと変換音声データとを含む音声データセットに基づいて生成された音声合成データを記憶する音声合成データ記憶部２０と、音声合成部１６と、を備える構成となる。

以上のように、本実施形態に係る音声合成装置は、目標音声データと変換音声データとを含む音声データセットに基づいて音声合成データを生成し、生成した音声合成データを用いて、入力されたテキストに対応する合成音声を生成するので、目標の発話音声に対する合成音声の類似性を高めることができる。

また、本実施形態に係る音声合成装置は、変換音声データの一部を目標音声データに追加して音声データセットを生成することにより、音声合成データに反映される目標音声データの割合、つまり合成音声の生成に反映される目標音声データの割合を高めて、目標の発話音声に対する合成音声の類似性をさらに高めることができる。この際、目標音声データに追加する変換音声データを、目標音声データのカテゴリ頻度に基づいて決定することにより、属性ごとの網羅性の高い音声データセットを生成して、合成音声を生成するために適切な音声合成データを生成することができる。

なお、本実施形態に係る音声合成装置では、すべての変換音声データと目標音声データとを併せて音声データセットを生成する場合であっても、音声合成データ生成部１５が、目標音声データの重みが変換音声データの重みより高くなるような重みづけ学習を行って音声合成データを生成する、あるいは、音声合成部１６が、変換音声データよりも目標音声データを優先的に利用して合成音声を生成することにより、合成音声の生成に反映される目標音声データの割合を高めて、目標の発話音声に対する合成音声の類似性をさらに高めることができる。

また、上述した音声合成装置においては、音声データセット生成部１４の変換音声データ追加部３３が、音声データ変換部１３によって生成された変換音声データのうち、変換データカテゴリ決定部３２により決定された変換データカテゴリに対応する変換音声データを目標音声データに追加して音声データセットを生成するようにしている。しかし、まず、変換データカテゴリ決定部３２により変換データカテゴリを決定した後に、音声データ変換部１３が、この変換データカテゴリに対応する変換元音声データを変換して変換音声データを生成し、この変換音声データを変換音声データ追加部３３が目標音声データに追加して音声データセットを生成するようにしてもよい。

図６は、以上のような変形例における音声データ変換部１３および音声データセット生成部１４の構成例を示すブロック図である。この変形例の場合、音声データ変換部１３は、音声データセット生成部１４の内部に組み込まれて実現される。音声データ変換部１３は、頻度算出部３１により算出されたカテゴリ頻度に基づいて変換データカテゴリ決定部３２により決定された変換データカテゴリの情報を入力する。そして、音声データ変換部１３は、目標音声データおよびその属性情報と変換元音声データおよびその属性情報とから変換規則を生成した後、変換元音声データ記憶部１１が記憶する変換元音声データのうち、変換データカテゴリ決定部３２により決定された変換データカテゴリに対応する変換元音声データのみを変換して変換音声データを生成し、変換音声データ追加部３３に渡す。変換音声データ追加部３３は、音声データ変換部１３により生成された変換音声データを目標音声データに追加することにより、音声データセットを生成する。これにより、変換処理を行う音声データを減少させることができ、高速に処理を行うことができる。

また、本実施形態に係る音声合成装置は、変換データカテゴリ決定部３２により決定された変換データカテゴリをユーザに提示するカテゴリ提示部（図示せず）を備える構成としてもよい。この場合、カテゴリ提示部は、例えば、文字情報の表示や音声ガイドなどにより、変換データカテゴリ決定部３２により決定された変換データカテゴリをユーザに提示して、目標音声データが不足しているカテゴリをユーザに認識させる。これにより、ユーザは、目標音声データが不足しているカテゴリの音声データを追加収録して、目標の発話音声に対する類似性をより高めた音声合成装置にカスタマイズすることができる。つまり、まずは少量の目標音声データの収録のみで試用の音声合成装置を提供し、その後、追加収録されたデータも含めた目標音声データと変換音声データとを併せて音声合成データを再度生成することで、目標の発話音声に対する類似性をさらに高めた音声合成装置を実現することができる。

これにより、音声合成装置のアプリケーション開発者に対しては試用の音声合成装置を迅速に提供しつつ、最終版としては、より目標音声データとの類似性を高めた音声合成装置を市場に提供することが可能になる。

上述したように、本実施形態に係る音声合成装置は、目標音声データと変換音声データとを含む音声データセットを生成し、生成した音声データセットに基づいて、合成音声の生成に用いる音声合成データを生成する。この技術思想は、合成音声の音声波形の生成と韻律（基本周波数列、音韻の継続長）の生成のいずれにも適用することができ、また、様々な声質変換方式や音声合成方式に対しても広く適用することができる。

以下では、素片選択に基づく音声合成を行う音声合成装置において、合成音声の音声波形の生成に本実施形態の技術思想を適用した例を、第１実施例として説明する。また、素片選択に基づく音声合成を行う音声合成装置において、基本周波数パターンコードブックとオフセット制御を用いた基本周波数列の生成に本実施形態の技術思想を適用した例を、第２実施例として説明する。また、素片選択に基づく音声合成を行う音声合成装置において、積和数量化モデルによる継続長の生成に本実施形態の技術思想を適用した例を、第３実施例として説明する。また、ＨＭＭに基づく音声合成を行う音声合成装置において、合成音声の音声波形および韻律の生成に本実施形態の技術思想を適用した例を、第４実施例として説明する。

＜第１実施例＞
図７は、第１実施例の音声合成装置のブロック図である。第１実施例の音声合成装置は、図７に示すように、変換元音声素片記憶部（第２記憶部）１０１と、目標音声素片記憶部（第１記憶部）１０２と、音声素片変換部（第１生成部）１０３と、音声素片セット生成部（第２生成部）１０４と、音声素片データベース生成部（第３生成部）１０５と、音声素片データベース記憶部１１０と、音声合成部（第４生成部）１０６と、を備える。

変換元音声素片記憶部１０１は、任意の発話音声から得られる音声素片（変換元音声素片）を、音韻種別や音韻環境情報などの属性情報とともに記憶する。

目標音声素片記憶部１０２は、目標の発話音声から得られる音声素片（目標音声素片）を、音韻種別や音韻環境情報などの属性情報とともに記憶する。

図８は、目標音声素片記憶部１０２および変換元音声素片記憶部１０１に記憶されている音声素片および属性情報の具体例を示している。ここでは、合成単位として半音素を用いており、発話音声の音声波形を半音素単位に切り出した波形を音声素片として用いる。目標音声素片記憶部１０２および変換元音声素片記憶部１０１には、この音声素片の波形とともに、音韻種別を表す音素名や、音韻環境情報である隣接音素名のほか、基本周波数、継続時間長、境界スペクトルパラメータ、およびピッチマークの情報などが、音声素片の属性情報として記憶されている。

目標音声素片記憶部１０２および変換元音声素片記憶部１０１に記憶される音声素片と属性情報は、以下のように生成される。まず、発話音声の音声波形データとその読み情報から、音素境界を求めてラベリングを行い、基本周波数抽出を行う。次に、ラベリングした音素に基づいて、半音素を単位として波形の切り出しを行って音声素片を生成する。さらに、基本周波数からピッチマークを算出し、また素片の境界におけるスペクトルパラメータを求める。スペクトルパラメータとしては、メルケプストラムやメルＬＳＰなどのパラメータを用いることができる。音素名は、音素の名前と左側半音素か右側半音素かどうかの情報を表している。また、隣接音素名は、左側半音素の場合はその左の音素名、右側半音素の場合はその右側の音素名を隣接音素名として記憶させている。図８に示す／ＳＩＬ／は、ポーズや文頭など、隣接音素が無音であることを示している。基本周波数としては、音声素片内の平均基本周波数を、継続時間長は、音声素片の長さを表しており、接続境界におけるスペクトルパラメータを記憶している。

音声素片変換部１０３は、変換元音声素片記憶部１０１が記憶する変換元音声素片を、目標の声質に近づけるように変換し、変換音声素片を生成する。

図９は、音声素片変換部１０３の構成例を示すブロック図である。音声素片変換部１０３は、図９に示すように、声質変換規則学習データ生成部１１１と、声質変換規則学習部１１２と、声質変換規則記憶部１１３と、声質変換部１１４と、を備える。

声質変換規則学習データ生成部１１１は、目標音声素片記憶部１０２に記憶されている目標音声素片と変換元音声素片記憶部１０１に記憶されている変換元音声素片とを対応付けて、声質変換規則の学習データとなる音声素片の対を生成する。例えば、目標音声素片記憶部１０２と変換元音声素片記憶部１０１とを同じ文章を収録した音声から生成しておき、同一文内の音声素片を対応付けすることや、目標音声素片の各音声素片と変換元音声素片の距離を求めて最も近い音声素片を対応付けすることにより、音声素片のペアを生成することができる。

図１０は、声質変換規則学習データ生成部１１１が、属性の距離を用いて音声素片間のコストを求め、コストを最小化するように各目標音声素片に対して、変換元音声素片から素片選択する場合の処理を示すフローチャートである。この場合、声質変換規則学習データ生成部１１１は、目標音声素片記憶部１０２が記憶する各目標音声素片に対して、変換元音声素片記憶部１０１が記憶している同じ音韻のすべての音声素片に対するループをステップＳ２０１からステップＳ２０３で行い、ステップＳ２０２においてコストを計算する。コストは、目標音声素片の属性情報と変換元音声素片の属性情報との歪みをコスト関数として表したものであり、属性情報ごとにサブコスト関数Ｃ_ｎ（ｕ_ｔ，ｕ_ｃ）（ｎ：１，…，Ｎ、Ｎはサブコスト関数の数）として表す。ここで、ｕ_ｔは目標の音声素片、ｕ_ｃは変換元の音声素片を表す。サブコスト関数は、目標の音声素片と変換元の音声素片の基本周波数の違い（差）を表す基本周波数コストＣ₁（ｕ_ｔ，ｕ_ｃ）、音韻継続時間長の違い（差）を表す音韻継続時間長コストＣ₂（ｕ_ｔ，ｕ_ｃ）、素片境界におけるスペクトルの違い（差）を表すスペクトルコストＣ₃（ｕ_ｔ，ｕ_ｃ），Ｃ_４（ｕ_ｔ，ｕ_ｃ）、および音韻環境の違い（差）を表す音韻環境コストＣ_５（ｕ_ｔ，ｕ_ｃ），Ｃ_６（ｕ_ｔ，ｕ_ｃ）を用いる。

具体的には、基本周波数コストＣ₁（ｕ_ｔ，ｕ_ｃ）は、下記式（１）に示すように、対数基本周波数の差として算出する。
ここで、ｆ（ｕ）は、音声素片ｕに対応する属性情報から平均基本周波数を取り出す関数を表す。

また、音韻継続時間長コストＣ₂（ｕ_ｔ，ｕ_ｃ）は、下記式（２）から算出する。
ここで、ｇ（ｕ）は、音声素片ｕに対応する属性情報から音韻継続時間長を取り出す関数を表す。

また、スペクトルコストＣ₃（ｕ_ｔ，ｕ_ｃ），Ｃ_４（ｕ_ｔ，ｕ_ｃ）は、下記式（３）に示すように、音声素片の境界におけるケプストラム距離から算出する。
ここで、ｈ^ｌ（ｕ）は、音声素片ｕの左素片境界を表し、ｈ^ｒ（ｕ）は、右素片境界のケプストラム係数をベクトルとして取り出す関数を表す。

また、音韻環境コストＣ_５（ｕ_ｔ，ｕ_ｃ），Ｃ_６（ｕ_ｔ，ｕ_ｃ）は、下記式（４）に示すように、隣の素片が等しいかどうかを表す距離から算出する。

目標音声素片と変換元音声素片の属性情報の歪みを表すコスト関数Ｃ_ｎ（ｕ_ｔ，ｕ_ｃ）は、下記式（５）に示すように、上述の各サブコスト関数の重み付き和として定義する。
ここで、ｗ_ｎはサブコスト関数の重みを表す。ｗ_ｎはすべて「１」とすることもでき、適切な素片選択がなされるように任意の値を設定することができる。

上記式（５）は、ある目標音声素片に、変換元音声素片の一つを当てはめた場合の歪みを表す当該音声素片のコスト関数である。声質変換規則学習データ生成部１１１は、図１０のステップＳ２０２でこのようなコスト計算を行った後、ステップＳ２０４において、コストが最小となる変換元音声素片を選択する。これにより、学習データとなる音声素片の対が生成される。なお、ここでの同じ音韻とは、音声単位に対応した音韻の種類が等しいものであり、半音素単位であれば「ａの左素片」、「ｉの右素片」などの種類が等しいことを示す。

声質変換規則学習部１１２は、声質変換規則学習データ生成部１１１により声質変換規則の学習データとなる音声素片の対が生成されると、この学習データを用いた学習により、声質変換規則を生成する。声質変換規則とは、変換元音声素片を目標音声素片に近づけるための規則であり、例えば、音声素片のスペクトルパラメータの変換規則として生成することができる。

声質変換規則学習部１１２は、例えば、ＧＭＭに基づくメルケプストラムの回帰分析によって声質変換を行うための声質変換規則を学習により生成する。ＧＭＭに基づく声質変換規則では、ＧＭＭにより変換元スペクトルパラメータをモデル化し、入力した変換元スペクトルパラメータがＧＭＭの各混合成分において観測される事後確率により重み付けして声質変換を行う。ＧＭＭλは、ガウス分布の混合として、下記式（６）で表される。ｐは尤度を表し、ｃは混合、ｗ_ｃは混合重み、ｐ（ｘ｜λ_ｃ）＝Ｎ（ｘ｜μ_ｃ，Σ_ｃ）は混合ｃにおける平均μ_ｃ、分散Σ_ｃのガウス分布の尤度を表す。

このとき、ＧＭＭに基づく声質変換の変換規則は、各混合の回帰行列をＡ_ｃの重み付け和として下記式（７）で示される。
ただし、ｐ（ｍ_ｃ｜ｘ）は、ｘが混合ｍ_ｃにおいて観測される確率であり、下記式（８）により求める。

ＧＭＭに基づく声質変換では、各混合の間で連続に変化する回帰行列が得られるという特徴がある。各混合の回帰行列をＡ_ｃとしたとき、ｘは、上記式（７）の事後確率に基づいて、各混合の回帰行列を重み付けするように適応される。

図１１は、声質変換規則学習部１１２の処理を示すフローチャートである。声質変換規則学習部１１２は、図１１に示すように、まずステップＳ３０１において、学習データの音声素片対をスペクトル分析して特徴量を求める。スペクトル特徴としてピッチ同期分析によってメルケプストラムを抽出する場合、音声素片の各ピッチマークを中心としてピッチの２倍の長さのハニング窓による窓掛け処理を行ってピッチ波形を抽出し、抽出したピッチ波形にメルケプストラム分析を適用することで求めることができる。無声音の場合やピッチ同期分析を用いない場合は、所定のフレーム長、フレームレートによって短時間スペクトル分析を行って求めることもできるし、メルＬＳＰなどほかのパラメータも利用できる。

次に、声質変換規則学習部１１２は、ステップＳ３０２において、ＧＭＭを最尤推定する。ＧＭＭは、まずＬＢＧアルゴリズムで初期クラスタを生成し、ＥＭアルゴリズムによって更新することによりＧＭＭの各パラメータを最尤推定してモデルの学習を行うことができる。

次に、声質変換規則学習部１１２は、すべての学習データに対するループをステップＳ３０３からステップＳ３０５で行い、ステップＳ３０４において、回帰行列を求めるための方程式の係数を求める。具体的には、上記式（７）により求めた重みを利用して、回帰分析を行うため方程式の係数が求まる。回帰分析を行う方程式は、下記式（９）で表される。

ここで、ｋをスペクトルパラメータの次元としたとき、Ｙ^kは目標のｋ次のスペクトルパラメータを並べたベクトルであり、Ｘおよびａ^ｋは下記式（１０）で表されるように、Ｘは各行が、目標のスペクトルパラメータと対をなしている変化元のスペクトルパラメータにオフセット項ｌを加えてＧＭＭの各混合重みをかけて並べたベクトルからなる行列、ａ^ｋは、各混合の回帰行列のk次成分に対応するベクトルを並べたベクトルである。
ただし、Ｘ^Ｔは行列Ｘの転置を表す。

声質変換規則学習部１１２は、ステップＳ３０３からＳ３０５においては、（Ｘ^ＴＸ）およびＸ^ＴＹ^ｋを求め、ステップＳ３０６において、ガウスの消去法やコレスキー分解法などにより方程式の解を求めて、各混合の回帰行列Ａ_ｃを求める。

このように、ＧＭＭに基づく声質変換規則では、ＧＭＭのモデルパラメータλおよび、各混合における回帰行列Ａ_ｃが声質変換規則になり、得られた規則を声質変換規則記憶部１１３に記憶させる。

声質変換部１１４は、声質変換規則記憶部１１３が記憶する声質変換規則を変換元音声素片に適用して変換音声素片を求める。

図１２は、声質変換部１１４の処理を示すフローチャートである。声質変換部１１４は、図１２に示すように、まずステップＳ４０１において、変換元音声素片のスペクトル分析を行い、ステップＳ４０２において、ステップＳ４０１で求めたスペクトルパラメータに対して、声質変換規則記憶部１１３に記憶されている声質変換規則を用いてスペクトルパラメータの変換を行う。すなわち、声質変換部１１４は、ステップＳ４０２で上記式（７）による変換処理を適用する。

その後、声質変換部１１４は、ステップＳ４０３において、変換パラメータからピッチ波形を生成し、ステップＳ４０４において、ステップＳ４０３で得られたピッチ波形を重畳することにより、変換音声素片を生成する。

図１３は、実際に変換元音声素片を変換音声素片に変換した例を示している。声質変換部１１４は、変換元音声素片から抽出したピッチ波形にスペクトル分析を適用して（ステップＳ４０１）対数スペクトルを求め、スペクトルパラメータを求める。このスペクトルパラメータに声質変換規則を適用して（ステップＳ４０２）変換パラメータを得た後、逆ＦＦＴなどにより変換パラメータからピッチ波形を生成し（ステップＳ４０３）、生成されたピッチ波形を重畳して、変換音声素片を生成する（ステップＳ４０４）。

以上のように、音声素片変換部１０３では、変換元音声素片に対して、目標音声素片と変換元音声素片から生成した声質変換を適用して、変換音声素片を生成する。なお、音声素片変換部１０３の構成は上述したものに限定されるものではなく、回帰分析のみによる方法や、動的特徴の分布を考慮した方法、サブバンド基底パラメータに周波数ワーピングと振幅のシフトによって変換する方法など、他の声質変換手法を利用することができる。

音声素片セット生成部１０４は、音声素片変換部１０３により生成された変換音声素片と、目標音声素片記憶部１０２が記憶する目標音声素片とを併せることにより、目標音声素片と変換音声素片とを含む音声素片セットを生成する。

音声素片セット生成部１０４は、音声素片変換部１０３により生成されたすべての変換音声素片と目標音声素片とを併せて音声素片セットを生成してもよいが、変換音声素片の一部を目標音声素片に追加することで音声素片セットを生成することができる。大量の変換元音声素片と少量の目標音声素片とを用いる利用形態において、目標音声素片と変換音声素片すべてを併せて音声素片セットを生成すると、合成音声の生成時に変換音声素片の利用される割合が高くなり、適切な目標音声素片が存在する区間においても目標音声素片が利用されなくなる場合があるという問題がある。このため、目標音声素片に存在する音素は目標音声素片をそのまま用い、不足分の音声素片を変換音声素片から加えることにより、目標音声素片を反映しつつ網羅率の高い音声素片セットを生成することができる。

図１４は、変換音声素片の一部を目標音声素片に追加して音声素片セットを生成する音声素片セット生成部１０４の構成例を示すブロック図である。この音声素片セット生成部１０４は、音声素片の属性情報として音韻種別を表す音素名を用いる場合の構成例であり、図１４に示すように、音素頻度算出部（算出部）１２１と、変換音素カテゴリ決定部（決定部）１２２と、変換音声素片追加部（追加部）１２３と、を備える。

音素頻度算出部１２１は、目標音声素片記憶部１０２が記憶する目標音声素片の音素カテゴリごとの個数を算出して、音素カテゴリごとのカテゴリ頻度を算出する。音素カテゴリごとのカテゴリ頻度の算出には、例えば図８に示した属性情報のうち、音韻種別を表す音素名が用いられる。

変換音素カテゴリ決定部１２２は、算出された音素カテゴリごとのカテゴリ頻度に基づいて、目標音声素片に追加する変換音声素片のカテゴリ（以下、変換音素カテゴリという。）を決定する。変換音素カテゴリの決定には、例えば、算出されたカテゴリ頻度が予め定めた所定値よりも小さい音素カテゴリを、変換音素カテゴリとして決定するといった方法を利用することができる。

変換音声素片追加部１２３は、決定された変換音素カテゴリに対応する変換音声素片を目標音声素片に追加して音声素片セットを生成する。

図１５は、音素頻度算出部１２１により算出された音素カテゴリごとのカテゴリ頻度を表す音素頻度テーブルの一例を示す図である。図１５では、目標の１文章、１０文章、５０文章および、変換元の６００文章に含まれる、音素／ａ／、／ｉ／、・・・の音声素片数を示している。なお、目標の１文章、１０文章、５０文章とは、目標音声素片の抽出に用いる目標の発話音声を収録したときに読み上げられた文章がそれぞれ１文章、１０文章、５０文章であることを示し、変換元６００文章とは、変換元音声素片の抽出に用いる任意の発話音声を収録したときに読み上げられた文章が６００文章であることを示している。

図１５の例では、例えば、目標１０文章の場合、音素／ａ／のカテゴリ頻度は５３、音素／ｇ／のカテゴリ頻度は７であり、変換元６００文章の４４１０、７０８と比べて、非常に少ない。ここで、変換音素カテゴリを決定するための閾値となる上記の所定値を１５と定めた場合、変換音素カテゴリ決定部１２２は、目標１文章の場合はすべての音素カテゴリを、また目標１０文章の場合は、／ｇ／、／ｚ／、／ｃｈ／、／ｋｉ／を、また、５０文章の場合には／ｚ／および／ｋｉ／を、それぞれ変換音素カテゴリとして決定する。なお、／ｋｉ／は、無声化母音の／き／を表す。変換音声素片追加部１２３は、変換音素カテゴリとして決定された変換音素カテゴリに対応する変換音声素片を目標音声素片に追加して、音声素片セットを生成する。

図１４に示す構成の音声素片セット生成部１０４では、以上のように、目標音声素片の個数の少ない音素カテゴリに対応する変換音声素片が目標音声素片に追加されて、音声素片セットが生成される。ここで、変換元音声素片のすべてを目標音声素片と併せて音声素片セットを生成した場合を考えると、例えば、目標５０文章の／ａ／の場合には、２５３個の目標音声素片があり、入力文に対して適切な環境の音声素片が含まれている可能性がある。しかし、対応する音素カテゴリである／ａ／について、変換元音声素片の４４１０個すべてが追加された場合、／ａ／の音声素片の５．４％のみが目標音声素片となり、それらが利用される可能性が低くなるため、目標の発話音声に対する合成音声の類似性が低下する虞がある。これに対して、音素カテゴリごとのカテゴリ頻度に応じて変換音素カテゴリを決定し、カテゴリ頻度が小さい音素カテゴリに対応する変換音声素片を目標音声素片に追加して音声素片セットを生成するようにすれば、必要以上に変換音声素片を追加することによる合成音声の目標との類似度の低下を抑えることができ、目標の発話音声の特徴をより再現した合成音声が得られる。

なお、ここでは、音韻種別を表す音素名を属性情報として用いて音素カテゴリごとのカテゴリ頻度を求めたが、音素名および音韻環境を属性情報として用いて、各音素カテゴリのカテゴリ頻度を算出してもよい。目標音声素片記憶部１０２および変換元音声素片記憶部１０１には、図８に示したように、音韻環境情報である隣接音素名も音声素片の属性情報として記憶されているため、各音素内の隣接音素ごとにカテゴリ頻度を算出することができる。このように、音素名および隣接音素名を属性情報として用いてカテゴリ頻度を算出することで、より詳細に変換音素カテゴリを決定することができ、より適切に変換音声素片の追加を行うことができる。

また、カテゴリ頻度の算出に用いる属性情報としては、基本周波数や継続長など、他の属性情報をさらに利用してもよい。

また、変換音声素片を目標音声素片に追加して音声素片セットを生成する際に、変換素片カテゴリに対応する変換音声素片に隣接する音声素片、もしくはその近傍の複数の変換音声素片、もしくはその変換音声素片を含む文内の変換音声素片など、複数の変換音声素片を併せて追加してもよい。これにより、接続コストの低い近傍の変換音声素片を併せて音声素片セットに含ませることができる。

また、変換音声素片を目標音声素片に追加して音声素片セットを生成する際に、変換音素カテゴリに含まれるすべての変換音声素片を追加してもよいし、部分的に追加してもよい。部分的に追加する場合、追加する変換音声素片の個数の上限を定めて出現順もしくはランダムに選択してもよいし、変換音声素片をクラスタリングし、各クラスタの代表となる変換音声素片を追加してもよい。クラスタの代表を追加することで、網羅性を維持したまま適切に変換音声素片の追加を行うことができる。

音声素片データベース生成部１０５は、音声素片セット生成部１０４により生成された音声素片セットに基づいて、合成音声の波形生成に用いる音声素片の集合である音声素片データベースを生成する。ここでは、音声素片セットの音声素片および属性情報をまとめて音声素片データベースを生成し、必要に応じて波形圧縮処理等を適用して、音声合成部１０６に入力可能な形式の音声素片データを生成する。

音声素片データベース生成部１０５により生成される音声素片データベースは、音声合成部１０６において素片選択に基づく音声合成を行う際に用いる音声素片とその属性情報を含む。音声素片データベースは、音声合成部１０６での音声合成に用いるデータである音声合成データの一態様として、音声素片データベース記憶部１１０に格納される。音声素片データベースとしては、例えば、図８に示した目標音声素片記憶部１０２および変換元音声素片記憶部１０１の例と同様に、ピッチマークの付与された音声素片の波形が当該音声素片を識別するための番号とともに格納されており、さらに、音韻種別を表す音素名、音韻環境情報である隣接音素名、基本周波数、継続時間長（音韻の継続長）、接続境界ケプストラムパラメータなど、素片選択の際に用いる属性情報がともに格納されている。属性情報は、目標音声素片記憶部１０２および変換元音声素片記憶部１０１に記憶されている属性情報がそのまま用いられる。

音声合成部１０６は、音声素片データベース生成部１０５により生成された音声素片データベースを用いて、入力テキストに対応する合成音声を生成する。具体的には、音声合成部１０６は、入力されたテキストに対して、図４に示したテキスト解析部４３および韻律生成部４４の処理を行った後、波形生成部４５において、音声素片データベース生成部１０５により生成された音声素片データベースを用いて素片選択処理を行い、合成音声を生成する。

図１６は、音声合成部１０６における波形生成部４５の詳細を示すブロック図である。音声合成部１０６における波形生成部４５は、図１６に示すように、素片選択部１３１および変形・接続部１３２を備える。素片選択部１３１は、入力される音韻系列・韻律情報に基づいて、音声素片データベース１３３に格納されている音声素片の中から合成音声に用いる音声素片を選択する。変形・接続部１３２は、素片選択部１３１により選択された音声素片に対して、入力される韻律情報に従った韻律変形および接続処理を行って、合成音声の音声波形を生成する。なお、変形・接続部１３２は、韻律変形を行わず、素片選択部１３１により選択された素片をそのまま接続して合成音声の音声波形を生成してもよい。

素片選択部１３１の素片選択処理に用いる音声素片データベース１３３は、上述したように、目標音声素片と変換音声素片とを併せた音声素片セットから生成されたデータベースである。素片選択部１３１は、入力される音韻系列の各音声単位に対し、入力される韻律情報と、音声素片データベース１３３が保持する属性情報とに基づいて合成音声の歪みの度合いを推定し、推定した合成音声の歪みの度合いに基づいて音声素片データベース１３３に格納されている音声素片の中から、合成音声に用いる音声素片を選択する。

ここで、合成音声の歪みの度合いは、音声素片データベース１３３に保持されている属性情報と、図４に示したテキスト解析部４３および韻律生成部４４で生成される音韻系列や韻律情報などの属性情報との違いに基づく歪みである目標コストと、接続する音声素片間の音素環境の違いに基づく歪みである接続コストの重み付け和として求められる。

ここで、音声素片を変形・接続して合成音声を生成する際に生ずる歪みの要因ごとにサブコスト関数Ｃ_ｎ（ｕ_ｉ，ｕ_ｉ−１，ｔ_ｉ）（ｎ：１，…，Ｎ，Ｎはサブコスト関数の数）を定める。上記式（５）のコスト関数は、二つの音声素片の間の歪みを測るためのコスト関数であり、ここで定義するコスト関数は、波形生成部４５に入力される韻律・音韻系列と音声素片との間の歪みを測るためのコスト関数である点が異なる。

ｔ_ｉは、入力された音韻系列および韻律情報に対応する目標とする音声（目標音声）をｔ＝（ｔ_１，…，ｔ_Ｉ）としたときのｉ番目のセグメントに対応する部分の音声素片の目標とする属性情報を表し、ｕ_ｉは、音声素片データベース１３３に格納されている音声素片のうち、ｔ_ｉと同じ音韻の音声素片を表す。上記のサブコスト関数は、音声素片データベース１３３に格納されている音声素片を用いて合成音声を生成したときに生ずる当該合成音声の目標音声に対する歪みの度合いを推定するためのコストを算出するためのものである。

目標コストとしては、音声素片データベース１３３に記憶されている音声素片の基本周波数と目標の基本周波数との違い（差）を表す基本周波数コスト、音声素片の音韻継続時間長と目標の音韻継続時間長との違い（差）を表す音韻継続時間長コスト、および、音声素片の音韻環境と目標の音韻環境との違い（差）を表す音韻環境コストを用いる。接続コストとしては、接続境界でのスペクトルの違い（差）を表すスペクトル接続コストを用いる。

具体的には、基本周波数コストは、下記式（１１）から算出する。
ここで、ｖ_ｉは音声素片データベース１３３に格納されている音声素片ｕ_ｉの属性情報を表し、ｆ（ｖ_ｉ）は属性情報ｖ_ｉから平均基本周波数を取り出す関数を表す。

また、音韻継続時間長コストは、下記式（１２）から算出する。
ここで、ｇ（ｖ_ｉ）は、音素環境ｖ_ｉから音韻継続時間長を取り出す関数を表す。

また、音韻環境コストは、下記式（１３）から算出し、隣接する音韻が一致しているかどうかを表す。

また、スペクトル接続コストは、下記式（１４）に示すように、２つの音声素片間のケプストラム距離から算出する。
ここで、ｈ（ｕ_ｉ）は、音声素片ｕ_ｉの接続境界のケプストラム係数をベクトルとして取り出す関数を表す。

これらのサブコスト関数の重み付き和を音声単位コスト関数と定義する。音声単位コスト関数は、下記式（１５）のように表される。
ここで、ｗ_ｎはサブコスト関数の重みを表す。ｗ_ｎはすべて「１」としてもよいし、適宣調節して用いてもよい。

上記式（１５）は、ある音声単位に、ある音声素片を当てはめた場合の当該音声素片の音声単位コストである。入力される音韻系列を音声単位で区切ることにより得られる複数のセグメントのそれぞれに対し、上記式（１５）から音声単位コストを算出した結果を、全セグメントについて足し合わせたものをコストと呼び、当該コストを算出するためのコスト関数を下記式（１６）に示すように定義する。

素片選択部１３１は、上記式（１１）〜（１６）に示したコスト関数を用いて、音声素片データベース１３３に格納されている音声素片の中から合成音声に用いる音声素片を選択する。ここでは、音声素片データベース１３３に格納されている音声素片の中から、上記式（１６）で算出されるコスト関数の値が最小となる音声素片の系列を求める。このコストが最小となる音声素片の組み合わせを最適素片系列と呼ぶこととする。すなわち、最適音声素片系列中の各音声素片は、入力される音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対応し、最適音声素片系列中の各音声素片から算出された上記音声単位コストと上記式（１６）より算出されたコストの値は、他のどの音声素片系列よりも小さい値である。なお、最適素片系列の探索は、動的計画法（ＤＰ：ｄｙｎａｍｉｃｐｒｏｇｒａｍｍｉｎｇ）を用いることでより効率的に行うことができる。

変形・接続部１３２は、素片選択部１３１により選択された音声素片を、入力される韻律情報に従って変形し、接続することで合成音声の音声波形を生成する。変形・接続部１３２は、選択された音声素片からピッチ波形を抽出し、当該音声素片の基本周波数、音韻継続時間長のそれぞれが、入力される韻律情報に示されている目標の基本周波数、目標の音韻継続時間長になるようにピッチ波形を重畳することで、音声波形を生成することができる。

図１７は、変形・接続部１３２の処理を説明するための図である。図１７では、「あいさつ」という合成音声の音素「ａ」の音声波形を生成する例を示しており、図の上から順に、選択された音声素片、ピッチ波形抽出のためのハニング窓、ピッチ波形、合成音声をそれぞれ示している。合成音声の縦棒はピッチマークを表しており、入力される韻律情報に示されている目標の基本周波数、目標の音韻継続時間長に応じて生成される。変形・接続部１３２は、このピッチマークに従って所定の音声単位ごとに、選択された音声素片から抽出したピッチ波形を重畳合成することにより、素片の編集を行って基本周波数および音韻継続時間長を変更する。その後、音声単位（合成単位）間で、隣り合うピッチ波形を接続して合成音声を生成する。

以上詳細に説明したように、第１実施例の音声合成装置は、変換音声素片と目標音声素片とを併せて生成した音声素片セットに基づいて音声素片データベースを生成し、この音声素片データベースを用いて、素片選択型の音声合成により任意の入力文章に対応する合成音声を生成する。したがって、第１実施例の音声合成装置によれば、目標音声素片の特徴を再現しつつ、変換音声素片により網羅性を高めた音声素片データベースを生成して、合成音声を生成することができ、少量の目標音声素片から目標の発話音声に対する類似性の高い高品質な合成音声を得ることができる。

なお、上述した第１実施例の説明では、目標音声素片が音声合成時に利用される割合を高めるために、頻度に基づいて変換音素カテゴリを決定し、変換音素カテゴリに対応する変換音声素片のみを目標音声素片に追加して音声素片セットを生成したが、これに限定するものではない。例えば、目標音声素片と変換音声素片のすべてを含む音声素片セットを生成し、この音声素片セットに基づいて音声素片データベース１３３を作成しておき、素片選択部１３１において、音声素片データベース１３３から目標音声素片が選択される割合が高くなる、つまり、目標音声素片が優先的に合成音声に利用されるように素片選択を行ってもよい。

この場合、音声素片データベース１３３に、各音声素片が目標音声素片か変換音声素片かを示す情報を保持しておき、目標コストのサブコストの一つとして、目標音声素片を選択した場合にコストが小さくなるような目標音声素片コストを追加すればよい。下記式（１７）は、目標音声素片コストを表しており、当該音声素片が変換音声素片の場合１、目標音声素片の場合０を返す関数である。

この場合、素片選択部１３１は、上記式（１１）〜式（１４）に上記式（１７）を加えて、上記式（１８）で示す音声単位コスト関数を求め、上記式（１６）で示すコスト関数を求める。適切にサブコスト重みw₆を定めることにより、音声素片の目標との歪みの度合いと変換音声素片を用いることによる目標との類似性の低下とを考慮した素片選択を行うことができる。これにより、目標の発話音声の特徴をより反映した合成音声を生成することができる。

なお、上述した第１実施例の説明では、音声合成部１０６における波形生成部４５が素片選択型音声合成により合成音声を生成しているが、波形生成部４５は、複数素片選択融合型音声合成により合成音声を生成する構成であってもよい。

図１８は、複数素片選択融合型音声合成により合成音声を生成する構成の波形生成部４５の詳細を示すブロック図である。この場合の波形生成部４５は、図１８に示すように、複数素片選択部１４１、複数素片融合部１４２、および変形・接続部１３２を備える。複数素片選択部１４１は、入力される音韻系列・韻律情報に基づいて、音声素片データベース１３３に格納されている音声素片の中から合成音声に用いる音声素片を音声単位（合成単位）ごとに複数選択する。複数素片融合部１４２は、選択された複数の音声素片を融合して融合音声素片を生成する。変形・接続部１３２は、複数素片融合部１４２により生成された融合音声素片に対して、入力される韻律情報に従った韻律変形および接続処理を行って、合成音声の音声波形を生成する。

複数素片選択部１４１は、まず上記式（１６）のコスト関数の値を最小化するように、ＤＰアルゴリズムを用いて最適音声素片系列を選択する。その後、複数素片選択部１４１は、各音声単位に対応する区間において、前後の隣の音声単位区間の最適音声素片との接続コストおよび該当する区間の入力された属性との目標コストとの和をコスト関数として、音声素片データベース１３３に含まれる同じ音韻の音声素片の中からコスト関数の値の小さい順に、複数の音声素片を選択する。

複数素片選択部１４１により選択された複数の音声素片は、複数素片融合部１４２により融合され、選択された複数の音声素片を代表する音声素片である融合音声素片が得られる。複数素片融合部１４２による音声素片の融合は、選択された各音声素片からピッチ波形を抽出し、抽出したピッチ波形の波形数をピッチ波形の複製や削除を行うことにより目標とする韻律から生成したピッチマークに揃え、各ピッチマークに対応する複数のピッチ波形を時間領域で平均化することにより行うことができる。得られた融合音声素片は、変形・接続部１３２において、韻律の変更および他の融合音声素片との接続が行われる。これにより、合成音声の音声波形が生成される。

複数素片選択融合型の音声合成は、素片選択型の音声合成よりも安定感の高い合成音声が得られることが確認されている。このため、本構成によれば、目標の発話音声に対する類似性が極めて高く、また安定感・肉声感の高い音声合成を行うことができる。

＜第２実施例＞
図１９は、第２実施例の音声合成装置のブロック図である。第２実施例の音声合成装置は、図１９に示すように、変換元基本周波数列記憶部（第２記憶部）２０１と、目標基本周波数列記憶部（第１記憶部）２０２と、基本周波数列変換部（第１生成部）２０３と、基本周波数列セット生成部（第２生成部）２０４と、基本周波数列生成データ生成部（第３生成部）２０５と、基本周波数列生成データ記憶部２１０と、音声合成部（第４生成部）２０６と、を備える。

変換元基本周波数列記憶部２０１は、任意の発話音声から得られるアクセント句単位の基本周波数列（変換元基本周波数列）を、アクセント句のモーラ数、アクセント型、アクセント句種別（文内のアクセント句位置）などの属性情報とともに記憶する。

目標基本周波数列記憶部２０２は、目標の発話音声から得られるアクセント句単位の基本周波数列（目標基本周波数列）を、アクセント句のモーラ数、アクセント型、アクセント句種別（文内のアクセント句位置）などの属性情報とともに記憶する。

図２０は、目標基本周波数列記憶部２０２および変換元基本周波数列記憶部２０１に記憶されている基本周波数列および属性情報の具体例を示している。目標基本周波数列記憶部２０２および変換元基本周波数列記憶部２０１には、アクセント句単位の基本周波数列とその属性情報が記憶されている。図２０の例では、基本周波数列の属性情報として、アクセント句のモーラ境界情報、モーラ列、モーラ数、アクセント型、アクセント句種別、品詞などの情報が記憶されている。例えば、図２０の１番目（基本周波数列番号が１）には、「目の前の」という音声から抽出した基本周波数列に対して、各モーラ列の境界情報、モーラ列として／ｍｅ／ｎｏ／ｍａ／ｅ／ｎｏ／、モーラ数およびアクセント型として５モーラ３型（モーラ数が５でアクセント型は３型）、アクセント句種別（文や呼気段落内の当該アクセント句位置）として／文頭／、品詞として／名詞−格助／の各属性情報が保持されている。

基本周波数列変換部２０３は、変換元基本周波数列記憶部２０１が記憶する変換元基本周波数列を、目標の発話音声の韻律に近づけるように変換し、変換基本周波数列を生成する。

図２１は、基本周波数列変換部２０３の構成例を示すブロック図である。基本周波数列変換部２０３は、図２１に示すように、基本周波数列変換規則学習部２１１と、基本周波数列変換規則記憶部２１２と、変換部２１３と、を備える。基本周波数列変換規則学習部２１１は、変換元基本周波数列記憶部２０１に記憶されている変換元基本周波数列と、目標基本周波数列記憶部２０２に記憶されている目標基本周波数列とから、基本周波数列の変換を行うための変換規則を学習により生成し、基本周波数列変換規則記憶部２１２に記憶させる。変換部２１３は、基本周波数列変換規則記憶部２１２が記憶する変換規則を変換元基本周波数列に適用して変換基本周波数列を求める。

図２２は、基本周波数列変換部２０３の処理の一例を示すフローチャートであり、変換元基本周波数列のヒストグラムを目標基本周波数列のヒストグラムに揃えるように変換するヒストグラム変換による変換方法を適用した場合のフローチャートである。

基本周波数列変換部２０３は、ヒストグラム変換により基本周波数列の変換を行う場合、図２２に示すように、まずステップＳ５０１において、目標基本周波数列のヒストグラムを求める。次に、基本周波数列変換部２０３は、ステップＳ５０２において、変換元基本周波数列のヒストグラムを計算する。次に、基本周波数列変換部２０３は、ステップＳ５０３において、ステップＳ５０１およびステップＳ５０２で求めたヒストグラムに基づいて、ヒストグラム変換テーブルを生成する。次に、基本周波数列変換部２０３は、ステップＳ５０４において、ステップＳ５０３で生成したヒストグラム変換テーブルに基づいて変換元基本周波数列を変換し、変換基本周波数列を生成する。

図２３は、基本周波数列変換部２０３によるヒストグラム変換を説明する図であり、ヒストグラムおよび変換関数の具体例を示している。図２３（ａ）は、変換元基本周波数列のヒストグラム（変換元ヒストグラム）および累積分布を示す。図２３（ｂ）は、目標基本周波数列のヒストグラム（目標ヒストグラム）および累積分布を示す。図２３（ｃ）は、これらのヒストグラムから生成した基本周波数変換関数を示す。

図２３の例では、目標基本周波数列は、変換元基本周波数列と比較すると基本周波数が高く、またレンジも狭くなっている様子が分かる。図２３（ｃ）に示す基本周波数変換関数により、変換元基本周波数列の累積分布が目標基本周波数列の累積分布に揃うように変換される。図２３（ａ）から、変換元基本周波数列の累積分布の中央値は５．４７となっており、図２３（ｂ）から、目標基本周波数列の累積分布の中央値は５．７６となっており、図２３（ｃ）に示す基本周波数変換関数では、これらが対応づけられて変換されることが分かる。

図２３（ｃ）の基本周波数変換関数の入力および出力を所定の間隔で抽出し、テーブル化したものがヒストグラム変換テーブルである。このヒストグラム変換テーブルは、図２２のフローチャートのステップＳ５０３において、基本周波数列変換規則学習部２１１によって変換規則として生成され、基本周波数列変換規則記憶部２１２に記憶される。

変換元基本周波数列の変換時には、基本周波数列変換部２１３が、入力ｘに対して、ｘ^ｔ _ｋ≦ｘ＜ｘ^ｔ _ｋ＋１を満たすｋを変換テーブルから選び、下記式（１８）に示す線形補間により出力ｙを求める。
ただし、x^t、ｙ^ｔは、変換テーブルの入力エントリおよび出力エントリを示す。

図２２のフローチャートのステップＳ５０４では、以上のように生成した変換規則により変換元基本周波数列を変換し、変換基本周波数列を得る。

図２４は、実際に変換元基本周波数列を変換して得た変換基本周波数列の例を示す図である。図２４（ａ）は、「目の前の浜辺を」という句に対する変換元基本周波数列の概形を示し、図２４（ｂ）は、図２４（ａ）の変換元基本周波数列を変換することで得られる変換基本周波数列の概形を示している。図２４に示す例では、ヒストグラム変換によって、基本周波数が上昇し、また値のレンジが変換されていることが分かる。なお、本例では継続長も同様の変換を行っているため、時間方向にも変形されている。

なお、以上はヒストグラム変換による変換方法を適用した変換規則の例であるが、変換元基本周波数列を変換するための変換規則はこれに限らず、例えば、平均値および標準偏差を目標基本周波数列に揃える変換方法を適用してもよい。

図２５は、基本周波数列変換部２０３の処理の他の例を示すフローチャートであり、変換元基本周波数列の平均値および標準偏差を目標基本周波数列に揃えるように変換する変換方法を適用した場合のフローチャートである。

基本周波数列変換部２０３は、平均値および標準偏差を用いて基本周波数列の変換を行う場合は、図２５に示すように、まずステップＳ６０１において、目標基本周波数列の平均および標準偏差を計算する。次に、基本周波数列変換部２０３は、ステップＳ６０２において、変換元基本周波数列の平均および標準偏差を計算する。次に、基本周波数列変換部２０３は、ステップＳ６０３において、ステップＳ６０１およびステップＳ６０２で計算した値から、下記式（１９）に従って変換元基本周波数列を変換する。
ただし、μ_ｘ、μ_ｙは変換元基本周波数列および目標基本周波数列の平均、σ_ｘ、σ_ｙは標準偏差である。

また、基本周波数列の変換方法は、アクセント句種別ごとに分類して分類ごとにヒストグラム変換や平均・標準偏差に基づく変換を行う方法や、ＶＱ、ＧＭＭ、決定木などを用いて基本周波数列の分類を行って分類ごとに変更するなどを用いることができる。

基本周波数列セット生成部２０４は、基本周波数列変換部２０３により生成された変換基本周波数列と、目標基本周波数列記憶部２０２が記憶する目標基本周波数列とを併せることにより、目標基本周波数列と変換基本周波数列とを含む基本周波数列セットを生成する。

基本周波数列セット生成部２０４は、基本周波数列変換部２０３により生成されたすべての変換基本周波数列と目標基本周波数列とを併せて基本周波数列セットを生成してもよいが、変換基本周波数列の一部を目標基本周波数列に追加することで基本周波数列セットを生成することができる。

図２６は、変換基本周波数列の一部を目標基本周波数列に追加して基本周波数列セットを生成する基本周波数列セット生成部２０４の構成例を示すブロック図である。この基本周波数列セット生成部２０４は、アクセント句の分類ごとの基本周波数列の頻度に基づいて基本周波数列セットを生成する例であり、図２６に示すように、基本周波数列頻度算出部（算出部）２２１と、変換アクセント句カテゴリ決定部（決定部）２２２と、変換基本周波数列追加部（追加部）２２３と、を備える。

基本周波数列頻度算出部２２１は、目標基本周波数列記憶部２０２が記憶する目標基本周波数列について、アクセント句の分類（アクセント句カテゴリ）ごとの個数を算出して、アクセント句カテゴリごとのカテゴリ頻度を算出する。アクセント句の分類には、例えば図２０に示した属性情報のうち、アクセント句種別、モーラ数およびアクセント型が用いられる。

変換アクセント句カテゴリ決定部２２２は、算出されたアクセント句カテゴリごとのカテゴリ頻度に基づいて、目標基本周波数列に追加する変換基本周波数列のアクセント句カテゴリ（変換アクセント句カテゴリ）を決定する。変換アクセント句カテゴリの決定には、例えば、算出されたカテゴリ頻度が予め定めた所定値よりも小さいアクセント句カテゴリを、変換アクセント句カテゴリとして決定するといった方法を利用することができる。

変換基本周波数列追加部２２３は、決定された変換アクセント句カテゴリに対応する変換基本周波数列を目標基本周波数列に追加して基本周波数列セットを生成する。

図２７は、基本周波数列頻度算出部２２１により算出されたアクセント句カテゴリごとのカテゴリ頻度を表すアクセント句頻度テーブルの一例を示す図である。図２７では、目標の１文章、１０文章、５０文章および、変換元の６００文章に含まれるアクセント句の個数を示している。アクセント句は、アクセント句種別、モーラ数およびアクセント型により複数のアクセント句カテゴリに分類され、各アクセント句カテゴリに該当する基本周波数列の個数が、アクセント句の個数として示されている。例えば、／文頭−２−１／は、アクセント句種別が文頭で、２モーラ１型のアクセント句であることを示している。

変換アクセント句カテゴリ決定部２２２は、例えば、図２７に示すアクセント句個数が予め定めた所定値よりも小さいアクセント句カテゴリを変換アクセント句カテゴリとして決定する。例えば、所定値を５と定めた場合、変換アクセント句カテゴリ決定部２２２は、目標１文章、目標１０文章の場合はすべてのアクセント句カテゴリが変換アクセント句カテゴリとなり、目標５０文章の場合には、／文頭−２−１／、／文頭−７−０／、／文頭−３−１／、／文頭−５−４／が変換アクセント句カテゴリとして決定される。

変換基本周波数列追加部２２３は、以上のように決定された変換アクセント句カテゴリに対応する変換基本周波数列を目標基本周波数列に追加して基本周波数列セットを生成する。変換基本周波数列を目標基本周波数列に追加する際には、変換アクセント句カテゴリに対応するすべての変換基本周波数列を目標基本周波数列に追加してもよいし、変換アクセント句カテゴリに対応する変換基本周波数列の中から代表するいくつかの変換基本周波数列を目標基本周波数列に追加してもよい。また、変換アクセント句カテゴリを含む文全体、もしくは呼気段落全体から抽出されたすべての変換元基本周波数列を変換して生成したすべての変換基本周波数列を目標基本周波数列に追加してもよい。

なお、ここでは、アクセント句種別、モーラ数およびアクセント型を属性情報として用いてアクセント句カテゴリを定め、アクセント句カテゴリごとのカテゴリ頻度を算出したが、変換元基本周波数列をクラスタリングすることによってカテゴリの分類を決定する方法や、品詞などより詳細な属性情報を利用してカテゴリの分類を決定する方法を用いてもよい。また、いくつかのモーラ数、アクセント型をまとめて同一のアクセント句カテゴリとして扱ってもよい。

基本周波数列生成データ生成部２０５は、基本周波数列セット生成部２０４により生成された基本周波数列セットに基づいて、合成音声の韻律生成に用いる基本周波数列生成データを生成する。基本周波数列生成データは、基本周波数パターン選択用データとオフセット推定用データとを含む。基本周波数列生成データ生成部２０５は、基本周波数列セット生成部２０４により生成された基本周波数列セットから、基本周波数パターンコードブックとその選択規則（基本周波数パターン選択用データ）とオフセット推定規則（オフセット推定用データ）とを学習し、基本周波数列生成データとする。基本周波数列生成データは、音声合成部２０６での音声合成に用いるデータである音声合成データの一態様として、基本周波数列生成データ記憶部２１０に格納される。

図２８は、基本周波数列生成データ生成部２０５の処理を示すフローチャートである。基本周波数列生成データ生成部２０５は、図２８に示すように、まずステップＳ７０１において、基本周波数列セットに含まれる基本周波数列（目標基本周波数列および変換基本周波数列）のクラスタリングを行う。次に、基本周波数列生成データ生成部２０５は、ステップＳ７０２において、ステップＳ７０１でクラスタリングした各クラスタの基本周波数パターンを学習によって求める。これにより、基本周波数パターンコードブックが生成される。次に、基本周波数列生成データ生成部２０５は、ステップＳ７０３において、クラスタの選択規則を学習する。次に、基本周波数列生成データ生成部２０５は、ステップＳ７０４において、オフセット推定規則を学習する。以上の処理により、基本周波数列生成データが生成される。なお、基本周波数列生成データの具体例については、基本周波数列生成データを用いて合成音声の基本周波数列を生成する処理の具体例とともに、詳細を後述する。

音声合成部２０６は、基本周波数列生成データ生成部２０５により生成された基本周波数列生成データを用いて、入力テキストに対応する合成音声を生成する。具体的には、音声合成部２０６は、入力されたテキストに対して、図４に示したテキスト解析部４３の処理および韻律生成部４４での継続長生成の処理を行った後、韻律生成部４４において、基本周波数列生成データ生成部２０５により生成された基本周波数列生成データを用いて基本周波数列の生成を行い、生成した基本周波数列を用いて波形生成部４５で波形生成を行って、合成音声を生成する。

図２９は、音声合成部２０６における韻律生成部４４の詳細を示すブロック図である。音声合成部２０６における韻律生成部４４は、図２９に示すように、継続長生成部２３１と、基本周波数パターン選択部２３２と、オフセット推定部２３３と、基本周波数列変形・接続部２３４と、を備える。

継続長生成部２３１は、テキスト解析部４３での処理によって得られた入力テキストの読み情報および属性情報に基づき、予め用意された継続長生成データ２３５を用いて、合成音声の音韻ごとの継続長を推定する。

基本周波数パターン選択部２３２は、テキスト解析部４３での処理によって得られた入力テキストの読み情報および属性情報に基づき、基本周波数列生成データ２３６に含まれる基本周波数パターン選択用データ２３７を用いて、合成音声の各アクセント句に対応する基本周波数パターンを選択する。

オフセット推定部２３３は、テキスト解析部４３での処理によって得られた入力テキストの読み情報および属性情報に基づき、基本周波数列生成データ２３６に含まれるオフセット推定用データ２３８を用いてオフセット推定を行う。

基本周波数列変形・接続部２３４は、継続長生成部２３１が推定した音韻の継続長およびオフセット推定部２３３が推定したオフセットに従って、基本周波数パターン選択部２３２が選択した基本周波数パターンを変形させ、接続することにより、入力テキストに対応する合成音声の基本周波数列を生成する。

ここで、選択された基本周波数パターンをｐ、オフセットをｂ、継続長の時間伸縮を表す行列をＤとすると、生成されるアクセント句の基本周波数パターンｐは、下記式（２０）のように求められる。
ｐの次数をＮ，ｃの次数をＬとすると、ＤはＬ×Ｎの行列であり、ｂは定数、ｉはＬ次の要素を１とするベクトルである。ＮおよびＬは、それぞれモーラ数とモーラ毎の基本周波数の点数から算出される。このとき、学習データｒと生成される基本周波数パターンｐとの誤差ｅは、下記式（２１）で表される。

基本周波数列生成データを生成する処理を示す図２８のフローチャートのステップＳ７０１では、下記式（２２）で表される近似誤差が最小化されるように、基本周波数列セットに含まれる各アクセント句の基本周波数列をクラスタリングし、ステップＳ７０２では、クラスタ内の誤差の総和を最小化するように、下記式（２２）で表される方程式を解くことによって、基本周波数パターンを求めている。

基本周波数パターンの選択およびオフセットの推定は、数量化Ｉ類によって行うことができる。数量化Ｉ類では、下記式（２３）のように各属性のカテゴリから数値を推定する。
ａ_ｋｍは予測係数であり、入力属性が対応する場合の係数ａ_ｋの和によって予測値が求められる。

基本周波数パターンの選択は、誤差の予測に基づいて行うことができる。上記式（２１）により、学習データｒと各クラスタの基本周波数パターンとの誤差を求めておき、図２８のステップＳ７０３では、学習データｒの属性から誤差を予測する予測係数を算出する。実際の誤差と、予測誤差との誤差を最小化するように係数ａ_ｋｍを求める。これにより、各クラスタの基本周波数パターンの誤差の予測係数が求まり、基本周波数パターン選択用データ２３７に含まれるクラスタの選択規則となる。

オフセットは、アクセント句単位の基本周波数パターン全体を平行移動させる値であり、固定の値になる。オフセットの推定も、上記式（２３）の数量化Ｉ類によって行うことができる。学習データｒのオフセット値として、各アクセント句の最大値や平均値を用い、それらの値を上記式（２３）によって推定する。この場合、上記式（２３）の予測係数ａ_ｋｍがオフセット推定規則（オフセット推定用データ２３８）となり、図２８のステップＳ７０４では、学習データｒのオフセットと予測値との誤差を最小化するように係数を求める。

音声合成部２０６の韻律生成部４４では、基本周波数パターン選択部２３２が、入力された属性に対して基本周波数パターンそれぞれに対応するクラスタの誤差を、基本周波数パターン選択用データ２３７の数量化Ｉ類によって予測し、予測誤差が最小となるクラスタの基本周波数パターンを選択する。そして、オフセット推定部２３３が、オフセット推定用データ２３８である予測係数を用いて、数量化Ｉ類によりオフセット推定を行う。その後、基本周波数列変形・接続部２３４が、得られた基本周波数パターンｃおよびオフセットｂと、継続長から算出される変形行列Ｄを用いて、上記式（２０）によりアクセント句の基本周波数を生成し、隣接するアクセント句のスムージングや、疑問文等の語尾上げ処理を適用する。これにより、入力テキストに対応する合成音声の基本周波数列が生成される。

なお、以上の説明は、誤差予測に基づいて基本周波数パターンの選択を行う例であるが、決定木に基づくパターンの選択を適用することもできる。その場合、基本周波数列のクラスタリングを行う図２８のステップＳ７０１では、決定木を構築する。決定木構築時は、まず予め各属性を２分する質問を用意しておき、基本周波数列セットに含まれるアクセント句の基本周波数列すべてをルートノードの学習データとする。その後、各リーフノードに対して、各質問を適用して基本周波数列を２分した際の誤差（上記式（２１）で表される誤差）の総和が最小になるような質問を選択し、該質問を適用して、２文した子ノードを生成する。すべてのリーフノードの中から、分割したときに最も誤差の総和が小さくなるリーフノードおよび質問の選択を繰り返し、２文木を生成していく。所定の停止条件によって２文木の分割を停止させることによって、基本周波数列のクラスタリングが行われる。

その後、ステップＳ７０２において、各リーフノードに対応する基本周波数パターンを上記式（２２）によって求める。決定木の各ノードの質問がクラスタ選択規則となるため、ステップＳ７０３では、この質問を基本周波数パターン選択用データ２３７として記憶しておく。また、ステップＳ７０４では、上述したようにオフセット推定規則を求めて、オフセット推定用データとして記憶する。このように生成した決定木、基本周波数パターンおよびオフセット推定規則が基本周波数列生成データ２３６となる。

この場合、音声合成部２０６の韻律生成部４４では、基本周波数パターン選択部２３２が、基本周波数列生成データ２３６の基本周波数パターン選択用データとして生成された決定木を辿ることによってリーフノードを選択し、該リーフノードに対応する基本周波数パターンを選択する。その後、オフセット推定部２３３がオフセット推定を行い、基本周波数列変形・接続部２３４が、選択された基本周波数パターン、オフセット、および継続長に対応する基本周波数列を生成する。

以上詳細に説明したように、第２実施例の音声合成装置は、変換基本周波数列と目標基本周波数列とを併せて生成した基本周波数列セットに基づいて基本周波数列生成データを生成し、この基本周波数列生成データを用いて生成した基本周波数列を波形生成部に入力することで、任意の入力文章に対応する合成音声を生成する。したがって、第２実施例の音声合成装置によれば、目標基本周波数列の特徴を再現しつつ、変換基本周波数列により網羅性を高めた基本周波数列生成データを生成して、合成音声を生成することができ、少量の目標基本周波数列から目標の発話音声に対する類似性の高い高品質な合成音声を得ることができる。

なお、上述した第２実施例の説明では、目標基本周波数列が音声合成時に利用される割合を高めるために、頻度に基づいて変換アクセント句カテゴリを決定し、変換アクセント句カテゴリに対応する変換基本周波数列のみを目標基本周波数列に追加して基本周波数列セットを生成したが、これに限定するものではない。例えば、目標基本周波数列と変換基本周波数列のすべてを含む基本周波数列セットを生成し、この基本周波数列セットに基づいて基本周波数列生成データを生成する際に、変換基本周波数列に対する重みが目標基本周波数列に対する重みよりも小さくなるように設定した重み付け誤差を用いて、基本周波数列生成データを生成するようにしてもよい。つまり、基本周波数列生成データを生成する際の誤差尺度として、目標基本周波数列に対して重みが高くなる誤差尺度を用いることにより、目標基本周波数列の特徴を再現しつつ、変換基本周波数列によって網羅性を高めて生成した基本周波数列生成データを生成することができる。

また、上述した第２実施例の説明では、基本周波数列セット生成部２０４の変換基本周波数列追加部２２３が、基本周波数列変換部２０３によって生成された変換基本周波数列のうち、変換アクセント句カテゴリ決定部２２２により決定された変換アクセント句カテゴリに対応する変換基本周波数列を目標基本周波数列に追加して基本周波数列セットを生成するようにしている。しかし、まず、変換アクセント句カテゴリ決定部２２２により変換アクセント句カテゴリを決定した後に、基本周波数列変換部２０３が、この変換アクセント句カテゴリに対応する変換元基本周波数列を変換して変換基本周波数列を生成し、この変換基本周波数列を変換基本周波数列追加部２２３が目標基本周波数列に追加して基本周波数列セットを生成するようにしてもよい。これにより、事前にすべての変換元基本周波数列を変換しておく場合よりも高速に処理することができる。

＜第３実施例＞
図３０は、第３実施例の音声合成装置のブロック図である。第３実施例の音声合成装置は、図３０に示すように、変換元継続長記憶部（第２記憶部）３０１と、目標継続長記憶部（第１記憶部）３０２と、継続長変換部（第１生成部）３０３と、継続長セット生成部（第２生成部）３０４と、継続長生成データ生成部（第３生成部）３０５と、継続長生成データ記憶部３１０と、音声合成部（第４生成部）３０６と、を備える。

変換元継続長記憶部３０１は、任意の発話音声から得られる音韻の継続長（変換元継続長）を、音韻種別や音韻環境情報などの属性情報とともに記憶する。変換元継続長は、音素単位で継続長を制御する場合は音素区間の長さであり、音韻種別である音素名、音韻環境情報である隣接音素名、文内の位置などの属性情報とともに記憶される。

目標継続長記憶部３０２は、目標の発話音声から得られる音韻の継続長（目標継続長）を、音韻種別や音韻環境情報などの属性情報とともに記憶する。目標継続長は、音素単位で継続長を制御する場合は音素区間の長さであり、音韻種別である音素名、音韻環境情報である隣接音素名、文内の位置などの属性情報とともに記憶される。

図３１は、目標継続長記憶部３０２および変換元継続長記憶部３０１に記憶されている継続長および属性情報の具体例を示している。図３１の例では、音韻継続長番号１の音素は、文の先頭の／ａ／の素片であり、左側音素は無音／ＳＩＬ／、右側音素は／ｎ／であり、その継続長は１１２．２ｍｓｅｃであることを示している。

継続長変換部３０３は、変換元継続長記憶部３０１が記憶する変換元継続長を、目標の発話音声の韻律に近づけるように変換し、変換継続長を生成する。継続長変換部３０３は、第２実施例の基本周波数列変換部２０３と同様に、ヒストグラムの変換（上記式（１８））、もしくは平均・標準偏差の変換（上記式（１９））により、変換元継続長を変換して変換継続長を生成することができる。

図３２は、継続長変換部３０３の処理の一例を示すフローチャートであり、変換元継続長のヒストグラムを目標継続長のヒストグラムに揃えるように変換するヒストグラム変換による変換方法を適用した場合のフローチャートである。

継続長変換部３０３は、ヒストグラム変換により継続長の変換を行う場合、図３２に示すように、まずステップＳ８０１において、目標継続長のヒストグラムを算出する。次に、継続長変換部３０３は、ステップＳ８０２において、変換元継続長のヒストグラムを算出する。次に、継続長変換部３０３は、ステップＳ８０３において、ステップＳ８０１およびステップＳ８０２で求めたヒストグラムに基づいて、ヒストグラム変換テーブルを生成する。次に、継続長変換部３０３は、ステップＳ８０４において、ステップＳ８０３で生成したヒストグラム変換テーブルに基づいて変換元継続長を変換し、変換継続長を生成する。

また、継続長変換部３０３は、平均値および標準偏差を用いて継続長の変換を行う場合は、目標継続長と変換元継続長のそれぞれについて平均および標準偏差を算出し、算出した値から上記式（１９）に従って変換元継続長を変換する。

継続長セット生成部３０４は、継続長変換部３０３により生成された変換継続長と、目標継続長記憶部３０２が記憶する目標継続長とを併せることにより、目標継続長と変換継続長とを含む継続長セットを生成する。

継続長セット生成部３０４は、継続長変換部３０３により生成されたすべての変換継続長と目標継続長とを併せて継続長セットを生成してもよいが、変換継続長の一部を目標継続長に追加することで継続長セットを生成することができる。

図３３は、変換継続長の一部を目標継続長に追加して継続長セットを生成する継続長セット生成部３０４の構成例を示すブロック図である。この継続長セット生成部３０４は、継続長の属性情報として音韻種別を表す音素名を用いる場合の構成例であり、図３３に示すように、音素頻度算出部（算出部）３２１と、変換音素カテゴリ決定部（決定部）３２２と、変換継続長追加部（追加部）３２３と、を備える。

音素頻度算出部３２１は、目標継続長記憶部３０２が記憶する目標継続長の音素カテゴリごとの個数を算出して、音素カテゴリごとのカテゴリ頻度を算出する。音素カテゴリごとのカテゴリ頻度の算出には、例えば図３１に示した属性情報のうち、音韻種別を表す音素名が用いられる。

変換音素カテゴリ決定部３２２は、算出された音素カテゴリごとのカテゴリ頻度に基づいて、目標継続長に追加する変換継続長のカテゴリである変換音素カテゴリを決定する。変換音素カテゴリの決定には、例えば、算出されたカテゴリ頻度が予め定めた所定値よりも小さい音素カテゴリを、変換音素カテゴリとして決定するといった方法を利用することができる。

変換継続長追加部３２３は、決定された変換音素カテゴリに対応する変換継続長を目標継続長に追加して継続長セットを生成する。

なお、ここでは、音韻種別を表す音素名を属性情報として用いて音素カテゴリごとのカテゴリ頻度を求めたが、音素名および音韻環境を属性情報として用いて、各音素カテゴリのカテゴリ頻度を算出してもよい。目標継続長記憶部３０２および変換元継続長記憶部３０１には、図３１に示したように、音韻環境情報である隣接音素名や文内位置も継続長の属性情報として記憶されているため、各音素内の隣接音素や文内位置ごとにカテゴリ頻度を算出することができる。このように、音韻種別だけでなく隣接音素名や文内位置などの音韻環境を属性情報として用いてカテゴリ頻度を算出することで、より詳細に変換音素カテゴリを決定することができ、より適切に変換継続長の追加を行うことができる。

継続長生成データ生成部３０５は、継続長セット生成部３０４により生成された継続長セットに基づいて、音声合成部３０６における韻律生成部４４の継続長生成部２３１（図２９参照）が継続長を生成する際に用いる継続長生成データ２３５を生成する。音声合成部３０６の継続長生成部２３１は、積和数量化モデルに基づく継続長推定を利用することができ、この場合、積和数量化モデルの係数が継続長生成データ２３５となる。継続長生成データ２３５は、音声合成部３０６での音声合成に用いるデータである音声合成データの一態様として、継続長生成データ記憶部３１０に格納される。

積和数量化モデルでは、下記式（２４）のように、属性予測モデルの積和としてデータをモデル化する。そして、入力された属性の各カテゴリに対応するａ_ｋｍを係数として、その積の総和によって予測を行う。

継続長生成データ生成部３０５では、時間長の学習データと、積和モデルによる推定結果の誤差を最小化させるように係数ａ_ｋｍを算出して継続長生成データ２３５とする。

音声合成部３０６は、継続長生成データ生成部３０５により生成された継続長生成データ２３５を用いて、入力テキストに対応する合成音声を生成する。具体的には、音声合成部３０６は、入力されたテキストに対して、図４に示したテキスト解析部４３の処理を行った後、韻律生成部４４の継続長生成部２３１（図２９参照）において、継続長生成データ生成部３０５により生成された継続長生成データ２３５を用いて継続長の生成を行う。そして、生成した継続長を基本周波数パターン選択部２３２（図２９参照）に渡して基本周波数列を生成し、この基本周波数列を用いて波形生成部４５で波形生成を行って、合成音声を生成する。韻律生成部４４の継続長生成部２３１では、上記式（２４）によって継続長の推定を行うことができる。

以上詳細に説明したように、第３実施例の音声合成装置は、変換継続長と目標継続長とを併せて生成した継続長セットに基づいて継続長生成データを生成し、この継続長生成データを用いて生成した継続長に基づき基本周波数列を生成して波形生成部に入力することで、任意の入力文章に対応する合成音声を生成する。したがって、第３実施例の音声合成装置によれば、目標継続長の特徴を再現しつつ、変換継続長により網羅性を高めた継続長生成データを生成して、合成音声を生成することができ、少量の目標継続長から目標の発話音声に対する類似性の高い高品質な合成音声を得ることができる。

なお、上述した第３実施例の説明では、目標継続長が音声合成時に利用される割合を高めるために、頻度に基づいて変換音素カテゴリを決定し、変換音素カテゴリに対応する変換継続長のみを目標継続長に追加して継続長セットを生成したが、これに限定するものではない。例えば、目標継続長と変換継続長のすべてを含む継続長セットを生成し、この継続長セットに基づいて継続長生成データを生成する際に、積和数量化モデル学習の誤差計算において、目標継続長の重みが変換継続長の重みよりも高くなるように重みを設定し、重み付け学習を行って、継続長生成データを生成するようにしてもよい。

また、上述した第３実施例の説明では、継続長セット生成部３０４の変換継続長追加部３２３が、継続長変換部３０３によって生成された変換継続長のうち、変換音素カテゴリ決定部３２２により決定された変換音素カテゴリに対応する変換継続長を目標継続長に追加して継続長セットを生成するようにしている。しかし、まず、変換音素カテゴリ決定部３２２により変換音素カテゴリを決定した後に、継続長変換部３０３が、この変換音素カテゴリに対応する変換元継続長を変換して変換継続長を生成し、この変換継続長を変換継続長追加部３２３が目標継続長に追加して継続長セットを生成するようにしてもよい。これにより、事前にすべての変換元継続長を変換しておく場合よりも高速に処理することができる。

なお、音声合成装置が素片選択に基づく音声合成を行う場合、第１実施例による音声波形の生成と、第２実施例による基本周波数列の生成と、第３実施例による継続長の生成とをすべて組み合わせることで、合成音声の韻律および音声波形の双方で目標の発話音声の特徴を精度よく再現し、目標の発話音声に対する類似性が極めて高い高品質な合成音声を得ることができる。なお、第２実施例および第３実施例は、基本周波数パターンコードブックとオフセット制御を用いて基本周波数列を生成し、積和数量化モデルにより継続長を生成する例であるが、本実施形態の技術思想は、基本周波数列セットや継続長セットを用いた学習に基づいて合成音声の韻律生成に用いるデータ（基本周波数列生成データ、継続長生成データ）を生成する任意の方式に適用可能である。

＜第４実施例＞
第４実施例の音声合成装置では、統計モデルであるＨＭＭ（隠れマルコフモデル）に基づく音声合成により合成音声を生成する。ＨＭＭに基づく音声合成では、発話音声を分析することで得られる特徴パラメータを用いてＨＭＭを学習し、得られたＨＭＭを利用することにより、入力された任意のテキストに対応する音声パラメータを生成し、生成した音声パラメータから音源情報およびフィルタ係数を求めてフィルタ処理を行うことにより、合成音声の音声波形を生成する。

図３４は、第４実施例の音声合成装置のブロック図である。第４実施例の音声合成装置は、図３４に示すように、変換元特徴パラメータ記憶部（第２記憶部）４０１と、目標特徴パラメータ記憶部（第１記憶部）４０２と、特徴パラメータ変換部（第１生成部）４０３と、特徴パラメータセット生成部（第２生成部）４０４と、ＨＭＭデータ生成部（第３生成部）４０５と、ＨＭＭデータ記憶部４１０と、音声合成部（第４生成部）４０６と、を備える。

変換元特徴パラメータ記憶部４０１は、任意の発話音声から得られる特徴パラメータ（変換元特徴パラメータ）および音声単位ごとの境界や言語属性情報などを表すコンテキストラベルを、各音声単位に含まれるアクセント句のモーラ数、アクセント型、アクセント句種別、および各音声単位に含まれる音素の音韻名などの属性情報とともに記憶する。

目標特徴パラメータ記憶部４０２は、目標の発話音声から得られる特徴パラメータ（目標特徴パラメータ）および音声単位ごとの境界や言語属性情報などを表すコンテキストラベルを、各音声単位に含まれるアクセント句のモーラ数、アクセント型、アクセント句種別、および各音声単位に含まれる音素の音韻名などの属性情報とともに記憶する。

特徴パラメータは、ＨＭＭ音声合成において音声波形を生成するために用いるパラメータであり、スペクトル情報を生成するための声道パラメータと、励振源情報を生成するための音源パラメータとを含む。声道パラメータは、声道情報を表すスペクトルパラメータ系列であり、メルＬＳＰ、メルケプストラムなどのパラメータを利用できる。音源パラメータは、励振源情報を生成するためのパラメータであり、基本周波数系列および帯域雑音強度系列を用いることができる。帯域雑音強度系列は、音声スペクトルの所定の帯域毎に含まれる雑音成分の割合を求めたものであり、発話音声を周期成分・非周期成分に分割してスペクトル分析を行い、非周期成分の比率から求めることができる。特徴パラメータには、これらのパラメータとともにその動的特徴量も併せて同時にパラメータとして用い、ＨＭＭの学習に利用する。

図３５は、特徴パラメータの具体例を示す図である。図３５（ａ）は、発話音声の音声波形を示し、図３５（ｂ）は、図３５（ａ）の発話音声から得られるメルＬＳＰパラメータ列を示し、図３５（ｃ）は、図３５（ａ）の発話音声から得られる基本周波数系列を示し、図３５（ｄ）は、図３５（ａ）の発話音声から得られる帯域雑音強度系列を示している。

図３５（ｂ）のメルＬＳＰパラメータ列は、ピッチ同期分析により求めたスペクトルを固定フレームレートに補間したスペクトルから、３９次元のパラメータとゲインとを求めている。図３５（ｃ）の基本周波数列は、発話音声の各時刻の基本周波数を表している。図３５（ｄ）の帯域雑音強度系列は、５帯域に分割した各帯域の雑音成分の比率を抽出し、固定のフレームレートのパラメータとして求めている。このように、発話音声の各フレームに対して、メルＬＳＰパラメータｃ_ｔ、帯域強度パラメータｂ_ｔ、基本周波数ｆ_ｔを求め、これらを並べて特徴パラメータＯとして、目標特徴パラメータ記憶部４０２および変換元特徴パラメータ記憶部４０１に記憶する。つまり、目標特徴パラメータ記憶部４０２および変換元特徴パラメータ記憶部４０１が記憶する特徴パラメータＯは、下記式（２５）のように表すことができる。

図３６は、目標特徴パラメータ記憶部４０２および変換元特徴パラメータ記憶部４０１に記憶されている特徴パラメータおよび属性情報の具体例を示している。目標特徴パラメータ記憶部４０２および変換元特徴パラメータ記憶部４０１には、特徴パラメータＯとともに、コンテキストラベルＬ、音素列ｐｈｏｎｅ、モーラ数列ｎｍｏｒａｅ、アクセント型列ａｃｃＴｙｐｅ、アクセント句種別列ａｃｃＰｈｒａｓｅＴｙｐｅが記憶されている。

コンテキストラベルＬは、発話音声に含まれる各音素に対する｛先行，当該，後続｝音素、当該音素の単語内での音節位置、｛先行，当該，後続｝の品詞、｛先行，当該，後続｝単語の音節数、アクセント音節からの音節数・文内の単語の位置、前後のポーズの有無、｛先行，当該，後続｝呼気段落の音節数、当該呼気段落の位置、文の音節数、もしくはその一部の情報から構成される音素コンテキスト情報を、並べたものであり、ＨＭＭの学習に用いる。コンテキストラベルＬに音素境界の時間情報も含めるようにしてもよい。音素列ｐｈｏｎｅは音素を並べた情報であり、モーラ数列ｎｍｏｒａｅは各アクセント句のモーラ数を並べた情報であり、アクセント型列ａｃｃＴｙｐｅはアクセント型を並べた情報であり、アクセント句種別列ａｃｃＰｈｒａｓｅＴｙｐｅはアクセント句種別を並べた情報である。例えば、「今日はよい天気です。」の発話音声に対しては、音素列Ｌ＝｛ｋｙ，ｏ，ｏ，ｗ，ａ，ｐａｕ，ｙ，ｏ，ｉ，ｔ，ｅ，Ｎ，ｋ，ｉ，ｄ，ｅ，ｓｕ｝、モーラ数列ｎｍｏｒａｅ＝｛３，２，５｝、アクセント型列ａｃｃＴｙｐｅ＝｛１，１，１｝、アクセント句種別ａｃｃＰｈｒａｓｅＴｙｐｅ＝｛ＨＥＡＤ，ＭＩＤ，ＴＡＩＬ｝となり、コンテキストラベルＬは、この文に対する音素コンテキスト情報を並べたものになる。

特徴パラメータ変換部４０３は、変換元特徴パラメータを変換して変換特徴パラメータを生成する。特徴パラメータの変換は、スペクトルパラメータおよび帯域雑音強度に対しては、上記式（７）に示されるＧＭＭに基づく変換を適用することができ、基本周波数列や音素継続長に対しては、上記式（１８）に示されるヒストグラム変換、もしくは上記式（１９）に示される平均・標準偏差による変換を適用することができる。

図３７は、特徴パラメータ変換部４０３の処理を示すフローチャートである。特徴パラメータ変換部４０３は、図３７に示すように、まず、ステップＳ９０１において、変換元特徴パラメータに含まれるそれぞれの特徴量を変換するための変換規則を作成する。そして、特徴パラメータ変換部４０３は、ステップＳ９０２からＳ９１０の文単位のループを行う。

文単位のループ処理では、特徴パラメータ変換部４０３は、まずステップＳ９０３において、継続長の変換を行う。この変換継続長に合せて特徴パラメータを生成するため、さらにステップＳ９０４からステップＳ９０８までのフレーム単位のループを行う。

フレーム単位のループ処理では、特徴パラメータ変換部４０３は、ステップＳ９０５において、変換継続長に合せるために変換元のフレームを変換先のフレームに対応付ける。例えば、フレーム位置を線形にマッピングすることで対応付けができる。その後、特徴パラメータ変換部４０３は、ステップＳ９０６において、対応付けられた変換元フレームのスペクトルパラメータおよび帯域雑音強度を上記式（７）によって変換する。次に、特徴パラメータ変換部４０３は、ステップＳ９０７において、基本周波数の変換を行う。ここで対応づけられた変換元フレームの基本周波数を、上記式（１８）もしくは上記式（１９）によって変換する。

特徴パラメータ変換部４０３は、以上の処理を行った後、ステップＳ９０９において、コンテキストラベルに時間情報を含む場合は、その時間情報を変換継続長に合せて修正し、変換特徴パラメータおよびコンテキストラベルを生成する。

特徴パラメータセット生成部４０４は、特徴パラメータ変換部４０３により生成された変換特徴パラメータと、目標特徴パラメータ記憶部４０２が記憶する目標特徴パラメータとを併せることにより、目標特徴パラメータと変換特徴パラメータとを含む特徴パラメータセットを生成する。

特徴パラメータセット生成部４０４は、特徴パラメータ変換部４０３により生成されたすべての変換特徴パラメータと目標特徴パラメータとを併せて特徴パラメータセットを生成してもよいが、変換特徴パラメータの一部を目標特徴パラメータに追加することで特徴パラメータセットを生成することができる。

図３８は、変換特徴パラメータの一部を目標特徴パラメータに追加して特徴パラメータセットを生成する特徴パラメータセット生成部４０４の構成例を示すブロック図である。この特徴パラメータセット生成部４０４は、図３８に示すように、頻度算出部（算出部）４２１と、変換カテゴリ決定部（決定部）４２２と、変換特徴パラメータ追加部（追加部）４２３と、を備える。

頻度算出部４２１は、目標特徴パラメータ記憶部４０２が記憶する目標特徴パラメータについて、属性情報である音素およびアクセント句種別・アクセント型・モーラ数を用いて分類した複数のカテゴリに分類し、各カテゴリごとの目標特徴パラメータの個数を算出して、カテゴリ頻度を算出する。カテゴリの分類は、音素を単位とした分類に限らず、例えば、音素と隣接音素の組み合わせたトライフォン単位で分類し、カテゴリ頻度を求めるようにしてもよい。

変換カテゴリ決定部４２２は、頻度算出部４２１により算出されたカテゴリ頻度に基づいて、目標特徴パラメータに追加する変換特徴パラメータのカテゴリである変換カテゴリを決定する。変換カテゴリの決定には、例えば、算出されたカテゴリ頻度が予め定めた所定値よりも小さいカテゴリを、変換カテゴリとして決定するといった方法を利用することができる。

変換特徴パラメータ追加部４２３は、変換カテゴリ決定部４２２により決定された変換カテゴリに対応する変換特徴パラメータを目標特徴パラメータに追加して特徴パラメータセットを生成する。つまり、カテゴリ頻度によって決定された音素、もしくはアクセント句種別・アクセント型・モーラ数を含む文章に対応する変換特徴パラメータを目標特徴パラメータに追加することによって、特徴パラメータセットが作成される。

なお、変換特徴パラメータ追加部４２３は、文全体の変換特徴パラメータを目標特徴パラメータに追加するのではなく、決定された変換カテゴリに対応する区間の変換特徴パラメータのみを切り出して追加してもよい。この場合、カテゴリ頻度に基づいて選択された変換特徴パラメータ内の特定の属性に対応する区間の特徴パラメータを抽出し、該当する範囲のコンテキストラベルのみを抽出し、その時間情報を切り出した区間に対応するように修正することによって、追加する区間の変換特徴パラメータおよびコンテキストラベルが作成される。該当する区間の前後複数の変換特徴パラメータを同時に追加してもよいし、追加する区間は音素・音節・単語・アクセント句・呼気段落・文章など、任意の単位を用いることができる。これらの処理により変換特徴パラメータ追加部４２３により特徴パラメータセットが作成される。

ＨＭＭデータ生成部４０５は、特徴パラメータセット生成部４０４により生成された特徴パラメータセットに基づいて、音声合成部４０６で合成音声を生成する際に用いるＨＭＭデータを生成する。ＨＭＭデータ作成部４０５では、特徴パラメータセットに含まれる特徴パラメータおよびその動的特徴量、決定木構築に用いる属性情報を付与したコンテキストラベルから、ＨＭＭの学習を行う。音素ごとＨＭＭの学習、コンテキスト依存ＨＭＭの学習、ストリーム別のＭＤＬ基準を用いた決定木に基づく状態クラスタリング、およびそれぞれのモデルの最尤推定の処理により学習される。ＨＭＭデータ生成部４０５は、このようにして得られた決定木とガウス分布をＨＭＭデータ記憶部４１０に記憶させる。また、ＨＭＭデータ生成部４０５は、状態毎の継続時間長を表す分布も同時に学習し、決定木クラスタリングを行い、ＨＭＭデータ記憶部４１０に記憶させる。これらの処理により、音声合成部４０６での音声合成に用いる音声合成データであるＨＭＭデータが生成され、ＨＭＭデータ記憶部４１０に格納される。

音声合成部４０６は、ＨＭＭデータ生成部４０５により生成されたＨＭＭデータを用いて、入力テキストに対応する合成音声を生成する。

図３９は、音声合成部４０６の構成例を示すブロック図である。音声合成部４０６は、図３９に示すように、テキスト解析部４３１と、音声パラメータ生成部４３２と、音声波形生成部４３３と、を備える。テキスト解析部４３１は、上述した音声合成部１６のテキスト解析部４３と同じ構成であり、入力テキストから形態素解析処理などを行い、読みやアクセントなど音声合成に用いる言語情報を得る。

音声パラメータ生成部４３２は、ＨＭＭデータ記憶部４１０が記憶するＨＭＭデータ４３４からのパラメータ生成処理を行う。ＨＭＭデータ４３４は、あらかじめＨＭＭデータ生成部４０５において生成されたモデルであり、音声パラメータ生成部４３２は、このモデルを用いて音声パラメータ生成を行う。

具体的には、音声パラメータ生成部４３２は、言語解析の結果得られた音素系列やアクセント情報の系列に従って文単位のＨＭＭを構築する。文単位のＨＭＭは、音素単位のＨＭＭを接続して並べることにより構築する。ＨＭＭとしては状態ごと、ストリームごとの決定木クラスタリングを行ったモデルを利用でき、入力された属性情報に従って決定木をたどり、リーフノードの分布をＨＭＭの各状態の分布として用いて音素モデルを生成し、音素モデルを並べて文ＨＭＭを生成する。そして、音声パラメータ生成部４３２は、このように生成した文ＨＭＭの出力確率のパラメータから、音声パラメータの生成を行う。すなわち、音声パラメータ生成部４３２は、ＨＭＭの各状態の継続長分布のモデルから、各状態に対応したフレーム数を決定し、各フレームの音声パラメータを生成する。音声パラメータ生成の際に動的特徴量を考慮した生成アルゴリズムを利用することで、滑らかに接続された音声パラメータが生成される。

音声波形生成部４３３は、音声パラメータ生成部４３２により生成された音声パラメータから合成音声の音声波形を生成する。ここで、音声波形生成部４３３は、帯域雑音強度系列、基本周波数系列および声道パラメータ系列から、混合音源を生成し、スペクトルパラメータに対応するフィルタを適用することにより波形生成を行う。

ＨＭＭデータ記憶部４１０には、上述したように、ＨＭＭデータ生成部４０５において学習されたＨＭＭデータ４３４が記憶されている。ＨＭＭデータ４３４は、上述したように、目標特徴パラメータと変換特徴パラメータとを合わせて生成した特徴パラメータセットに基づいて生成されている。

ＨＭＭはここでは音素単位として記述するが、音素だけでなく音素を分割した半音素や、音節などいくつかの音素を含む単位を用いてもよい。ＨＭＭはいくつかの状態を持つ統計モデルであり、状態ごとの出力分布と、状態遷移の確率をあらわす状態遷移確率とから構成される。

ｌｅｆｔ−ｒｉｇｈｔ型ＨＭＭは、図４０に示すように、左側の状態から右側の状態への遷移と、自己遷移のみ可能なＨＭＭの形であり、音声など時系列情報のモデル化に用いられる。図４０は、５状態のモデルで、状態ｉから状態ｊへの状態遷移確率をａ_ｉｊ、ガウス分布による出力分布をＮ（ｏ｜μ_ｓ、Σ_ｓ）として表している。ＨＭＭデータ記憶部４１０には、これらＨＭＭがＨＭＭデータ４３４として記憶されている。ただし、状態ごとのガウス分布は、決定木によって共有された形で記憶されている。

ＨＭＭの決定木の一例を図４１に示す。図４１に示すように、ＨＭＭの各状態の決定木がＨＭＭデータ４３４として記憶されており、リーフノードにはガウス分布を保持している。決定木の各ノードには、音素や言語属性に基づいて子ノードを選択する質問が保持されている。質問としては、例えば、中心音素が「有声音かどうか」や、「文章の先頭からの音素数が１かどうか」、「アクセント核からの距離が１である」、「音素が母音である」、「左音素が“ａ”である」といった質問が記憶されており、言語解析部で得られた音素系列や言語情報に基づいて決定木を辿ることにより分布を選択することができる。

これら決定木は、特徴パラメータのストリームごとに生成しておくことができる。特徴パラメータとして、下記式（２６）に示すような学習データＯを用いる。
ただし、Ｏの時刻ｔのフレームｏ_ｔは、スペクトルパラメータｃ_ｔ、帯域雑音強度パラータｂ_ｔ、基本周波数パラメータｆ_ｔであり、それらの動的特徴を表すデルタパラメータにΔ、２次のΔパラメータにΔ^２を付して示している。基本周波数は、無声音のフレームでは、無声音であることを表す値として表されており、多空間上の確率分布に基づくＨＭＭによって、有声音と無声音の混在した学習データからＨＭＭを学習することができる。

ストリームとは、（ｃ’_ｔ，Δｃ’_ｔ，Δ^２ｃ’_ｔ）、（ｂ’_ｔ，Δｂ’_ｔ，Δ^２ｂ’_ｔ）、（ｆ’_ｔ，Δｆ’_ｔ，Δ^２ｆ’_ｔ）のように、それぞれの特徴パラメータなど特徴パラメータの一部分を取り出したものを指しており、ストリーム毎の決定木とは、スペクトルパラメータを表す決定木、帯域雑音強度パラメータｂ、基本周波数パラメータｆそれぞれに対して、決定木を持つことを意味する。この場合、音声合成時には、入力した音素系列・言語属性に基づいて、ＨＭＭの各状態に対して、それぞれの決定木を辿ってそれぞれのガウス分布を決定し、それらを併せて出力分布を生成し、ＨＭＭを生成することになる。

図４２は、ＨＭＭから音声パラメータを生成する処理の概要を説明する図である。例えば”ｒｉｇｈｔ（ｒ・ａｉ・ｔ）”という合成音声を生成する場合、図４２に示すように、音素ごとのＨＭＭを接続して全体のＨＭＭを生成し、各状態の出力分布から音声パラメータを生成する。ＨＭＭの各状態の出力分布は、ＨＭＭデータ４３４として記憶されている決定木から選択されたものである。これらの平均ベクトルおよび共分散行列から、音声パラメータを生成する。音声パラメータは、例えば、動的特徴量に基づくパラメータ生成アルゴリズムによって生成できる。ただし、平均ベクトルの線形補間やスプライン補間など、その他のＨＭＭの出力分布からパラメータを生成するアルゴリズムを用いてもよい。これらの処理により、合成した文章に対する声道フィルタの系列（メルＬＳＰ系列）、帯域雑音強度系列、基本周波数（ｆ_０）系列による音声パラメータの系列が生成される。

音声波形生成部４３３では、以上のように生成された音声パラメータに混合励振源生成処理およびフィルタ処理を適用して波形生成することにより、合成音声の音声波形が得られる。

図４３は、音声合成部４０６の処理を示すフローチャートである。図４３のフローチャートでは、テキスト解析部４３１による処理は省略し、音声パラメータ生成部４３２および音声波形生成部４３３による処理のみを示している。

音声パラメータ生成部４３２は、まず、ステップＳ１００１において、テキスト解析部４３１による言語解析の結果得られたコンテキストラベル列を入力する。そして、音声パラメータ生成部４３２は、ステップＳ１００２において、ＨＭＭデータ４３４としてＨＭＭデータ記憶部４１０に記憶されている決定木を探索し、状態継続長のモデルおよびＨＭＭモデルを生成する。次に、音声パラメータ生成部４３２は、ステップＳ１００３において、状態毎の継続長を決定し、ステップＳ１００４において、継続長に従って文全体の声道パラメータ、帯域雑音強度、および基本周波数の分布列を生成する。そして、音声パラメータ生成部４３２は、ステップＳ１００５において、ステップＳ１００４で生成した各分布列からパラメータ生成を行い、所望の文に対応するパラメータ列を得る。次に、音声波形生成部４３３が、ステップＳ１００６において、ステップＳ１００５で得られたパラメータから、波形生成を行い、合成音声を生成する。

以上詳細に説明したように、第４実施例の音声合成装置は、変換特徴パラメータと目標特徴パラメータとを併せて生成した特徴パラメータセットに基づいてＨＭＭデータを生成し、このＨＭＭデータを用いて音声合成部４０６において音声パラメータを生成することで、任意の入力文章に対応する合成音声を生成する。したがって、第４実施例の音声合成装置によれば、目標特徴パラメータの特徴を再現しつつ、変換特徴パラメータにより網羅性を高めたＨＭＭデータを生成して、合成音声を生成することができ、少量の目標特徴パラメータから目標の発話音声に対する類似性の高い高品質な合成音声を得ることができる。

なお、上述した第４実施例の説明では、変換元特徴パラメータを変換する変換規則として、ＧＭＭに基づく声質変換およびヒストグラムもしくは平均・標準偏差に基づく基本周波数および継続長の変換を適用したが、これに限定されるものではない。例えば、ＨＭＭを利用し、ＣＭＬＬＲ（制約付き最尤線形回帰）法を用いて変換規則を生成することができる。この場合、目標特徴パラメータから目標ＨＭＭモデルを生成し、変換元特徴パラメータと目標ＨＭＭモデルとからＣＭＬＬＲのための回帰行列を求める。ＣＭＬＬＲでは、特徴データを目標モデルに近づけるための線形変換行列を尤度最大化基準に基づいて求めることができる。この線形変換行列を、変換元特徴パラメータに適用することで、特徴パラメータ変換部４０３において変換元特徴パラメータの変換を行うことができる。なお、ＣＭＬＬＲに限らず、データを目標モデルに近づける任意の変換が適用可能であり、また、変換元特徴パラメータを目標特徴パラメータに近づける任意の変換方式を用いることができる。

また、上述した第４実施例の説明では、目標特徴パラメータが音声合成時に利用される割合を高めるために、頻度に基づいて変換カテゴリを決定し、変換カテゴリに対応する変換特徴パラメータのみを目標特徴パラメータに追加して特徴パラメータセットを生成したが、これに限定するものではない。例えば、目標特徴パラメータと変換特徴パラメータのすべてを含む特徴パラメータセットを生成し、ＨＭＭデータ生成部４０５におけるＨＭＭの学習時に、この特徴パラメータセットに基づいてＨＭＭデータを生成する際に、目標特徴パラメータの重みが変換特徴パラメータの重みより高くなるように重みを設定し、重みづけ学習を行って、ＨＭＭデータを生成するようにしてもよい。

また、上述した第４実施例の説明では、特徴パラメータセット生成部４０４の変換特徴パラメータ追加部４２３が、特徴パラメータ変換部４０３によって生成された変換特徴パラメータのうち、変換カテゴリ決定部４２２により決定された変換カテゴリに対応する変換特徴パラメータを目標特徴パラメータに追加して特徴パラメータセットを生成するようにしている。しかし、まず、変換カテゴリ決定部４２２により変換カテゴリを決定した後に、特徴パラメータ変換部４０３が、この変換カテゴリに対応する変換元特徴パラメータを変換して変換特徴パラメータを生成し、この変換特徴パラメータを変換特徴パラメータ追加部４２３が目標特徴パラメータに追加して特徴パラメータセットを生成するようにしてもよい。これにより、事前にすべての変換元特徴パラメータを変換しておく場合よりも高速に処理することができる。

以上、具体的な例を挙げながら詳細に説明したように、本実施形態に係る音声合成装置によれば、目標の発話音声に対して類似性が高い合成音声を生成することができる。

なお、本実施形態に係る音声合成装置は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いて実現することが可能である。すなわち、本実施形態に係る音声合成装置は、汎用のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、音声合成装置は、上記のプログラムをコンピュータ装置にあらかじめインストールすることで実現してもよいし、ＣＤ−ＲＯＭなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。また、上記のプログラムをサーバーコンピュータ装置上で実行させ、ネットワークを介してその結果をクライアントコンピュータ装置で受け取ることにより実現してもよい。

また、上記のコンピュータ装置に内蔵あるいは外付けされたメモリ、ハードディスクもしくはＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＡＭ、ＤＶＤ−Ｒなどの記憶媒体などを適宜利用して実現することができる。例えば、本実施形態に係る音声合成装置が備える変換元音声データ記憶部１１や目標音声データ記憶部１２は、これら記録媒体を適宜利用して実現することができる。

本実施形態に係る音声合成装置で実行されるプログラムは、音声合成装置の各処理部（音声データ変換部１３、音声データセット生成部１４、音声合成データ生成部１５および音声合成部１６など）を含むモジュール構成となっており、実際のハードウェアとしては、例えば、プロセッサが上記記憶媒体からプログラムを読み出して実行することにより、上記各部が主記憶装置上にロードされ、上述した各部が主記憶装置上に生成されるようになっている。

以上、本発明の実施形態を説明したが、ここで説明した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。ここで説明した新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。ここで説明した実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１１変換元音声データ記憶部
１２目標音声データ記憶部
１３音声データ変換部
１４音声データセット生成部
１５音声合成データ生成部
１６音声合成部
２１変換規則生成部
２２データ変換部
３１頻度算出部
３２変換データカテゴリ決定部
３３変換音声データ追加部
４３テキスト解析部
４４韻律生成部
４５波形生成部
１０１変換元音声素片記憶部
１０２目標音声素片記憶部
１０３音声素片変換部
１０４音声素片セット生成部
１０５音声素片データベース生成部
１０６音声合成部
２０１変換元基本周波数列記憶部
２０２目標基本周波数列記憶部
２０３基本周波数列変換部
２０４基本周波数列セット生成部
２０５基本周波数列生成データ生成部
２０６音声合成部
３０１変換元継続長記憶部
３０２目標継続長記憶部
３０３継続長変換部
３０４継続長セット生成部
３０５継続長生成データ生成部
３０６音声合成部
４０１変換元特徴パラメータ記憶部
４０２目標特徴パラメータ記憶部
４０３特徴パラメータ変換部
４０４特徴パラメータセット生成部
４０５ＨＭＭデータ生成部
４０６音声合成部

Claims

目標の発話音声から得られる第１情報を属性情報とともに記憶する第１記憶部と、
任意の発話音声から得られる第２情報を属性情報とともに記憶する第２記憶部と、
前記第２情報を目標の声質または韻律に近づけるように変換して第３情報を生成する第１生成部と、
前記第１情報と前記第３情報とを含む情報セットを生成する第２生成部と、
前記情報セットに基づいて、合成音声の生成に用いる第４情報を生成する第３生成部と、
入力されたテキストに対応する合成音声を、前記第４情報を用いて生成する第４生成部と、を備え、
前記第２生成部は、前記第１情報と、前記属性情報に基づいて前記情報セットの属性ごとの網羅性を向上させるように選択した前記第３情報の一部とを併せることにより、前記情報セットを生成することを特徴とする音声合成装置。
前記第２生成部は、前記第１情報において不足する属性に対応する前記第３情報を前記第１情報と併せることにより、前記情報セットを生成することを特徴とする請求項１に記載の音声合成装置。
前記第２生成部は、
前記属性情報に基づいて前記第１情報を複数のカテゴリに分類し、各カテゴリごとの前記第１情報の頻度もしくは個数であるカテゴリ頻度を算出する算出部と、
前記カテゴリ頻度に基づいて、前記第１情報に追加する前記第３情報のカテゴリを決定する決定部と、
決定されたカテゴリに対応する前記第３情報を前記第１情報に追加して前記情報セットを生成する追加部と、を有することを特徴とする請求項１または２に記載の音声合成装置。
前記決定部は、前記カテゴリ頻度が予め定めた所定値よりも小さいカテゴリを、前記第１情報に追加する前記第３情報のカテゴリとして決定することを特徴とする請求項３に記載の音声合成装置。
前記第１生成部は、前記決定部により決定されたカテゴリに対応する前記第２情報を変換して前記第３情報を生成し、
前記追加部は、前記第１生成部が生成した前記第３情報を前記第１情報に追加して前記情報セットを生成することを特徴とする請求項３に記載の音声合成装置。
前記決定部が決定したカテゴリをユーザに提示するカテゴリ提示部をさらに備えることを特徴とする請求項３に記載の音声合成装置。
前記第３生成部は、前記情報セットに含まれる前記第１情報を前記情報セットに含まれる前記第３情報よりも重みが高くなるように重みを決定し、重みづけ学習を行って前記第４情報を生成することを特徴とする請求項１に記載の音声合成装置。
前記第４生成部は、前記第３情報よりも前記第１情報を優先的に利用して合成音声を生成することを特徴とする請求項１に記載の音声合成装置。
前記第１情報および前記第２情報は、発話音声の音声波形を合成単位に区切ることにより生成される音声素片であり、
前記情報セットは、目標の発話音声から得られる音声素片と、任意の発話音声から得られる音声素片を目標の声質に近づけるように変換した音声素片と、を含む音声素片セットであり、
前記第３生成部は、前記音声素片セットに基づいて、合成音声の波形の生成に用いる音声素片データベースを前記第４情報として生成することを特徴とする請求項１に記載の音声合成装置。
前記第１情報および前記第２情報は、発話音声の各アクセント句の基本周波数列であり、
前記情報セットは、目標の発話音声から得られる基本周波数列と、任意の発話音声から得られる基本周波数列を目標の韻律に近づけるように変換した基本周波数列と、を含む基本周波数列セットであり、
前記第３生成部は、前記基本周波数列セットに基づいて、合成音声の基本周波数列を生成するための基本周波数列生成データを前記第４情報として生成することを特徴とする請求項１に記載の音声合成装置。
前記第１情報および前記第２情報は、発話音声に含まれる音韻の継続長であり、
前記情報セットは、目標の発話音声に含まれる音韻の継続長と、任意の発話音声に含まれる音韻の継続長を目標の韻律に近づけるように変換した継続長と、を含む継続長セットであり、
前記第３生成部は、前記継続長セットに基づいて、合成音声に含まれる音韻の継続長を生成するための継続長生成データを前記第４情報として生成することを特徴とする請求項１に記載の音声合成装置。
前記第１情報および前記第２情報は、スペクトルパラメータ系列、基本周波数系列、帯域雑音強度系列のうちの少なくとも一つを含む特徴パラメータであり、
前記情報セットは、目標の発話音声から得られる特徴パラメータと、任意の発話音声から得られる特徴パラメータを目標の声質または韻律に近づけるように変換した特徴パラメータと、を含む特徴パラメータセットであり、
前記第３生成部は、前記特徴パラメータセットに基づいて、合成音声の生成に用いるＨＭＭ（隠れマルコフモデル）データを前記第４情報として生成することを特徴とする請求項１に記載の音声合成装置。
目標の発話音声から得られる第１情報を属性情報とともに記憶する第１記憶部と、
任意の発話音声から得られる第２情報を属性情報とともに記憶する第２記憶部と、を備える音声合成装置において実行される方法であって、
前記第２情報を目標の声質または韻律に近づけるように変換して第３情報を生成するステップと、
前記第１情報と前記第３情報とを含む情報セットを生成するステップと、
前記情報セットに基づいて、合成音声の生成に用いる第４情報を生成するステップと、
入力されたテキストに対応する合成音声を、前記第４情報を用いて生成するステップと、を含み、
前記情報セットを生成するステップでは、前記第１情報と、前記属性情報に基づいて前記情報セットの属性ごとの網羅性を向上させるように選択した前記第３情報の一部とを併せることにより、前記情報セットを生成する音声合成方法。
目標の発話音声から得られる第１情報を属性情報とともに記憶する第１記憶部と、
任意の発話音声から得られる第２情報を属性情報とともに記憶する第２記憶部と、を備えるコンピュータに、
前記第２情報を目標の声質または韻律に近づけるように変換して第３情報を生成する機能と、
前記第１情報と前記第３情報とを含む情報セットを生成する機能であって、前記第１情報と、前記属性情報に基づいて前記情報セットの属性ごとの網羅性を向上させるように選択した前記第３情報の一部とを併せることにより、前記情報セットを生成する機能と、
前記情報セットに基づいて、合成音声の生成に用いる第４情報を生成する機能と、
入力されたテキストに対応する合成音声を、前記第４情報を用いて生成する機能と、を実現させるプログラム。