JP5689782B2

JP5689782B2 - 目標話者学習方法、その装置及びプログラム

Info

Publication number: JP5689782B2
Application number: JP2011256042A
Authority: JP
Inventors: 勇祐井島; 光昭磯貝; 水野　秀之; 秀之水野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2011-11-24
Filing date: 2011-11-24
Publication date: 2015-03-25
Anticipated expiration: 2031-11-24
Also published as: JP2013109274A

Description

本発明は、所望の話者の音声を合成するための技術に関する。

これまで、所望の話者の少量の音声データからその話者の音声を合成すること（任意話者音声合成）を目的として、モデル変換に基づく話者適応手法が提案されている（例えば、非特許文献１等参照）。従来の話者適応手法では、音声合成を行おうとする話者（目標話者）の音声を用い、あらかじめ学習された初期モデルを目標話者の適応モデルへ変換する。得られた目標話者の適応モデルを用いて音声合成を行うことで任意話者音声合成が実現される。

一方、これまで知覚実験の結果より、音声処理で一般的に使用されている特徴量であるケプストラム以外にも複数の音響特徴量が音声の類似性に寄与することが報告されている（例えば、非特許文献２等参照）。

田村他，"HMMに基づく音声合成におけるピッチ・スペクトルの話者適応"，信学論，vol.J85-D-II，no.4，pp.545-553，April 2002. 井島他，"声質類似性知覚と音響特徴量との相関分析"，音講論（秋），3-Q-13，pp.383-384，Sep. 2011.

従来の話者適応手法では、あらかじめ用意した音声データのケプストラム（特徴量）に対応する初期モデルを、目標話者の音声のケプストラムに対応する適応モデルに変換し、この適応モデルを用いて目標話者の音声合成を行っている。しかしながら、初期モデルを目標話者の音声のケプストラムに対応する適応モデルに変換することにより、合成音声の品質（自然性）が劣化することが課題となる。

本発明では、Ｎ人の話者の音声データＤ（ｎ）（ｎ＝１，．．．，Ｎ、Ｎ≧２）の特徴Ｆ（ｋ）（ｋ＝１，．．．，Ｋ、Ｋ≧２）を表す特徴量Ｆ（ｋ，ｎ）が特徴Ｆ（ｋ）ごとに独立にクラスタリングされることで、特徴Ｆ（ｋ）ごとにＪ（ｋ）個のクラスタＣＦ（ｋ，ｊ（ｋ））（ｋ＝１，．．．，Ｋ、ｊ（ｋ）＝１，．．．，Ｊ（ｋ）、Ｊ（ｋ）≧２）が設定される。これにより、音声データＤ（ｎ）それぞれのＫ個の特徴量Ｆ（ｋ，ｎ）がいずれかＫ個のクラスタＣＦ（ｋ，ｊ（ｋ，ｎ））（ｋ＝１，．．．，Ｋ、ｊ（ｋ，ｎ）＝１，．．．，Ｊ（ｋ）、Ｊ（ｋ，ｎ）≧２）に属する。

設定されたクラスタＣＦ（ｋ，ｊ（ｋ））から、目標話者の音声データＤ（Ｔ）（Ｔ≠１，．．．，Ｎ）のＫ個の特徴量Ｆ（ｋ，Ｔ）（ｋ＝１，．．．，Ｋ）が属するＫ個のクラスタＣＦ（ｋ，ｊ（ｋ，Ｔ））（ｋ＝１，．．．，Ｋ、ｊ（ｋ，Ｔ）＝１，．．．，Ｊ（ｋ））の組み合わせを選択する。さらにＮ人の話者の音声データＤ（ｎ）から、Ｋ個のクラスタＣＦ（ｋ，ｊ（ｋ，Ｔ））の組み合わせに対応する音声データＤ（Ｓ）を選択する。

音声データＤ（Ｓ）のＫ個の特徴量Ｆ（ｋ，Ｓ）（ｋ＝１，．．．，Ｋ）が属するＫ個のクラスタＣＦ（ｋ，ｊ（ｋ，Ｓ））（ｋ＝１，．．．，Ｋ、ｊ（ｋ，Ｓ）＝１，．．．，Ｊ（ｋ））の組み合わせと、Ｋ個のクラスタＣＦ（ｋ，ｊ（ｋ，Ｔ））の組み合わせとが異なる場合に、変換関数を用い、Ｋ個の特徴量Ｆ（ｋ，Ｓ）の一部の特徴量Ｆ（ｒ，Ｓ）（ｒ∈｛１，．．．，Ｋ｝）を特徴量ＴＦ（ｒ，Ｓ）に変換し、Ｋ個の特徴量Ｆ（ｋ’，Ｓ）（ｋ’∈｛１，．．．，Ｋ｝、ｋ’≠r），ＴＦ（ｒ，Ｓ）を得る。ただし、この変換関数は、特徴量Ｆ（ｒ，Ｓ）が属するクラスタＣＦ（ｒ，ｊ（ｒ，Ｓ））に属する特徴量を、Ｋ個の特徴量Ｆ（ｋ，Ｔ）の一部の特徴量Ｆ（ｒ，Ｔ）が属するクラスタＣＦ（ｒ，ｊ（ｒ，Ｔ））〔ＣＦ（ｒ，ｊ（ｒ，Ｔ））≠ＣＦ（ｒ，ｊ（ｒ，Ｓ））〕に属する特徴量に変換する。

本発明では、音声データＤ（Ｓ）のＫ個の特徴量Ｆ（ｋ，Ｓ）の一部の特徴量Ｆ（ｒ，Ｓ）のみを特徴量ＴＦ（ｒ，Ｓ）に変換し、目標話者の音声合成のためのＫ個の特徴量Ｆ（ｋ’，Ｓ）（ｋ’∈｛１，．．．，Ｋ｝、ｋ’≠r），ＴＦ（ｒ，Ｓ）を得るため、変換される特徴量の種別に応じ、変換による自然性の劣化の影響を制御できる。

図１は、実施形態の音声合成装置を説明するためのブロック図である。図２は、実施形態の話者クラスタリング部を説明するためのブロック図である。図３は、実施形態の目標話者学習部を説明するためのブロック図である。図４は、実施形態の音声合成部を説明するためのブロック図である。図５Ａは、実施形態の話者クラスタリング処理を説明するためのフローチャートであり、図５Ｂは、実施形態の目標話者学習処理を説明するためのフローチャートである。図６は、実施形態の変換関数学習処理を説明するためのフローチャートである。図７は、実施形態の話者選択処理を説明するためのフローチャートである。図８Ａは、実施形態のラベルデータを説明するための図であり、図８Ｂは、実施形態の多次元クラスタを例示した図である。図９Ａは、実施形態の変換関数学習処理を説明するための図であり、図９Ｂは、実施形態の多次元クラスタの選択処理を説明するための図であり、図９Ｃは、実施形態の特徴量変換処理を説明するための図である。

図面を参照して実施形態を説明する。
＜構成＞
図１に例示するように、本形態の音声合成装置１は、話者クラスタリング部１１０、目標話者学習部１２０、音声合成部１３０、及び制御部１４０を有する。話者クラスタリング部１１０、目標話者学習部１２０、及び音声合成部１３０は、制御部１４０の制御のもとで各処理を実行する。音声合成装置１は、例えば、CPU(central processing unit)、RAM(random-access memory)等を含む公知又は専用のコンピュータに特別なプログラムが読み込まれることで構成される特別な装置である。

図２に例示するように、本形態の話者クラスタリング部１１０は、多数話者音声ＤＢ（データベース）記憶部１１１ａ、特徴量音声ＤＢ記憶部１１１ｂ、クラスタ情報ＤＢ記憶部１１１ｃ、変換関数ＤＢ記憶部１１１ｄ、特徴量抽出部１１２ｂ、クラスタリング部１１２ｃ、及び変換関数学習部１１２ｄを有する。

図３に例示するように、本形態の目標話者学習部１２０は、目標話者音声記憶部１２１ａ、特徴量記憶部１２１ｂ、所属クラスタ記憶部１２１ｃ、選択話者記憶部１２１ｄ、目標話者ＤＢ記憶部１２１ｅ、特徴量抽出部１２２ｂ、クラスタ選択部１２２ｃ、話者選択部１２２ｄ、及び特徴量変換部１２２ｅを有する。

図４に例示するように、本形態の音声合成部１３０は、テキスト記憶部１３１ａ、コンテキスト記憶部１３１ｂ、韻律モデルＤＢ記憶部１３１ｃ、韻律パラメータ記憶部１３１ｄ、合成音声記憶部１３１ｅ、テキスト解析部１３２ｂ、韻律生成部１３２ｄ、及び素片選択部１３２ｅを有する。

＜話者クラスタリング処理＞
話者クラスタリング処理では、多数話者の音声データそれぞれの特徴量がクラスタリングされ、クラスタに属する特徴量を他のクラスタの特徴量に変換する変換関数が学習される。以下、図５Ａに従って本形態の話者クラスタリング処理を説明する。
Ｎ人（Ｎ≧２）の話者（多数話者）の音声が事前に収録され、各話者音声を表す音声データＤ（ｎ）（ｎ＝１，．．．，Ｎ）が多数話者音声ＤＢ記憶部１１１ａ（図２）に格納される（ステップＳ１１）。本形態では、話者と音声データＤ（ｎ）とが一対一で対応する。目標話者学習部１２０及び音声合成部１３０での処理性能の観点から、音声データＤ（ｎ）は以下の要件を満たすことが望ましい。ただし、これらの条件は本発明を限定しない。
（１）１名あたりの音声データ量（無音区間を除いた音声区間の時間）は、音声合成用のモデルを学習可能な時間以上である。音声合成用のモデルを学習可能な時間は、使用される音声合成方式によって異なる。例えば、素片選択型音声合成方式が用いられる場合、各話者について数時間程度の音声データが必要である。
（２）音声が収録される話者数Ｎは、性別ごとに最低でも数十名以上である。

本形態では、音声データＤ（ｎ）のそれぞれにラベルデータ（音素セグメンテーション情報）が対応付けられ、音声データＤ（ｎ）とラベルデータからなる多数話者の音声ＤＢが多数話者音声ＤＢ記憶部１１１ａに格納される。図８Ａはラベルデータの一例を示している。図８Ａの例では、音声データＤ（ｎ）に含まれる各音素（無音状態を含む）がそれらの開始時間と終了時間との組に対応付けられている。ラベルデータの付与は人手によって行われてもよいし、特開２００４−７７９０１等に開示された方法に従ってコンピュータによって自動的に行われてもよい。

特徴量抽出部１１２ｂは、多数話者音声ＤＢ記憶部１１１ａに格納された音声データＤ（ｎ）（ｎ＝１，．．．，Ｎ）の特徴Ｆ（ｋ）（ｋ＝１，．．．，Ｋ、Ｋ≧２）を表す特徴量Ｆ（ｋ，ｎ）を抽出する（ステップＳ１２）。特徴量Ｆ（ｋ，ｎ）は、音声データＤ（ｎ）それぞれの複数の特徴Ｆ（ｋ）について抽出される。説明の便宜上、本形態の特徴量Ｆ（ｋ，ｎ）は、特徴Ｆ（ｋ）と音声データＤ（ｎ）との組と一対一に対応するものとする。音声データＤ（ｎ）の特徴Ｆ（ｋ）についての特徴量が所定の区間（例えばフレームやサブバンド等）ごとに抽出される場合、特徴Ｆ（ｋ）と音声データＤ（ｎ）との組に対応するすべての特徴量の集合を「特徴量Ｆ（ｋ，ｎ）」と表記する。例えば、音声データＤ（１）の特徴Ｆ（１）についての特徴量がフレームごとに抽出される場合、複数のフレームに対して抽出された特徴Ｆ（１）と音声データＤ（１）との組に対応するすべての特徴量の集合を「特徴量Ｆ（１，１）」と表記する。抽出された特徴量Ｆ（ｋ，ｎ）は、対応する特徴Ｆ（ｋ）と音声データＤ（ｎ）との組に対応付けられて、特徴量ＤＢ記憶部１１１ｂに格納される。以下に特徴量の具体例を示す。
（特徴量１）音声データのケプストラム（例えばメルケプストラム）。
（特徴量２）帯域を制限した音声データＤ（ｎ）のスペクトルより得られるケプストラム（例えば帯域を４ｋＨｚに制限する等）。
（特徴量３）音声データの各帯域での周期成分と非周期成分の割合を表す非周期性指標。
（特徴量４）音声データの全帯域のスペクトルのパワーに対する各帯域のスペクトルのパワーの比。全帯域のスペクトルのパワーに対するi番目の帯域のスペクトルのパワーの比BSP_iは、例えば以下の式により求められる。
BSP_i=mean(spec_i)/mean(spec_all)
ここで、BSP_iはi番目の帯域のパワー比であり、spec_allは全帯域のスペクトルのパワー、spec_iはi番目の帯域のスペクトルのパワーである。mean(α)はαの平均値を算出する関数である。帯域の例は、0-1 kHz（i=1）, 1-2 kHz（i=2）, 2-4 kHz（i=3）, 4-6 kHz（i=4）, 6-8 kHz（i=5）である。
（特徴量５）音声データの話者間の声道長正規化（VTLN: Vocal Tract Length Normalization）のためのワーピングパラメータ（例えば、「E. Eide, “A Parametric Approach to Vocal Tract Length Normalization,” In Proceedings of the International Conference on Acoustics,. Speech and Signal Processing, pp. 346-348, 1996.」等参照）。

これらの特徴量１〜５はすべて音声の類似性に寄与するものである。しかしながら、特徴量１，２は、その特徴量の変換による合成音声の自然性低下への影響が大きい。すなわち、特徴量１，２では、変換前の特徴量から得られる合成音声の自然性に対する、変換後の特徴量から得られる合成音声の自然性の低下度合いが大きい。一方、特徴量３〜５は、その特徴量の変換による合成音声の自然性低下への影響が小さい。すなわち、特徴量３〜５では、変換前の特徴量から得られる合成音声の自然性に対する、変換後の特徴量から得られる合成音声の自然性の低下度合いが小さい。言い換えると、特徴量１，２よりも特徴量３〜５のほうが、特徴量の変換による合成音声の自然性低下への影響が小さい。本形態の特徴Ｆ（ｋ）（ｋ＝１，．．．，Ｋ、Ｋ≧２）は、特徴量の変換による合成音声の自然性低下への影響が互いに相違する複数の特徴を含む。すなわち、本形態の特徴量Ｆ（ｋ，ｎ）（ｋ＝１，．．．，Ｋ、Ｋ≧２）は、特徴量の変換による合成音声の自然性低下への影響が大きい特徴量（例えば、特徴量１，２）と、特徴量の変換による合成音声の自然性低下への影響が小さい特徴量（例えば、特徴量３〜５）とを含む。
なお自然性低下への影響が小さい特徴とは、以下に示す２つの特徴のうち、いずれかを有する特徴量である。
１．ある話者の音声データの特徴量〔スペクトル（ケプストラム）等〕が、１次オールパス関数、高域強調フィルタ、異なる話者の音声データのスペクトルパワー比を表すフィルタ（例えば後述のFIL_i）等の簡易なフィルタで、異なる話者の音声データの特徴量〔スペクトル（ケプストラム）等〕に変換可能である（例えば、特徴量４，特徴量５）。すなわち、この特徴量Ｆ（ｋ，ｎ）は、１次オールパス関数、高域強調フィルタ、異なる話者の音声データのスペクトルパワー比を表すフィルタ等の簡易なフィルタで、特徴量Ｆ（ｋ，ｎ’）（ｎ’∈｛１，．．．，Ｎ｝、ｎ≠ ｎ’）に変換可能である。
２．音声データ（周波数領域の音声データ）の周波数軸上の全帯域での平均パワーが類似性に影響を与える特徴量（例えば、特徴量３）。すなわち、特徴量間の類似度が当該特徴量のそれぞれに対応する音声データの周波数軸上の全帯域での平均パワーの類似度に対応する。

クラスタリング部１１２ｃは、特徴量ＤＢ記憶部１１１ｂに格納された特徴量Ｆ（ｋ，ｎ）を特徴Ｆ（ｋ）ごとに独立にクラスタリングし、特徴Ｆ（ｋ）ごとにＪ（ｋ）個のクラスタＣＦ（ｋ，ｊ（ｋ））（ｋ＝１，．．．，Ｋ、ｊ（ｋ）＝１，．．．，Ｊ（ｋ）、Ｊ（ｋ）≧２）を設定する。言い換えると、クラスタリング部１１２ｃは、特徴量Ｆ（１，ｎ）（ｎ＝１，．．．，Ｎ）をクラスタリングしてＪ（１）個のクラスタＣＦ（１，ｊ（１））（ｊ（１）＝１，．．．，Ｊ（１））を設定し、特徴量Ｆ（２，ｎ）（ｎ＝１，．．．，Ｎ）をクラスタリングしてＪ（２）個のクラスタＣＦ（２，ｊ（２））（ｊ（２）＝１，．．．，Ｊ（２））を設定し、・・・特徴量Ｆ（Ｋ，ｎ）（ｎ＝１，．．．，Ｎ）をクラスタリングしてＪ（Ｋ）個のクラスタＣＦ（Ｋ，ｊ（Ｋ））（ｊ（Ｋ）＝１，．．．，Ｊ（Ｋ））を設定する（ステップＳ１３）。

特徴量抽出部１１２ｂでフレームごとに特徴量が抽出される場合、特徴と音声データとの組に対応する特徴量の集合（フレーム単位で得られた特徴量からなる集合）をそのままサンプルとして用いてクラスタリングを行っても、適切なクラスタが生成されない場合が多い。そのような場合には、例えば、特徴量抽出部１１２ｂで得られた特徴量の集合から各母音に対応する特徴量を抽出し、特徴と音声データとからなる組ごとに当該集合での各母音の特徴量の平均値を求め、各母音に対応する特徴量の平均値を要素とする話者ベクトルをサンプルとしてクラスタリングを行ってもよい。例えば、各フレームで得られた特徴Ｆ（ｋ’）と音声データＤ（ｎ’）との組に対応する特徴量の集合から各母音に対応する特徴量を抽出し、特徴Ｆ（ｋ’）と音声データＤ（ｎ’）との組ごとに当該集合での母音ごとの特徴量の平均値を求め、各母音に対応する特徴量の平均値を要素とする話者ベクトルを、当該特徴Ｆ（ｋ’）と音声データＤ（ｎ’）との組に対応する特徴量のサンプルとしてクラスタリングを行ってもよい。その他、特徴と音声データとの各組に対応する特徴量の集合から得られるGaussian mixture model (GMM)のスーパーベクトル（例えば、「W. M. Campbell, “Support Vector Machines Using GMM Supervectors for Speaker Verification,” IEEE SIGNAL PROCESSING LETTERS, VOL. 13, NO. 5, pp.308-311, May 2006」等参照）等をサンプルとしてクラスタリングを行ってもよい。クラスタリングアルゴリズムとしては、k-means法やLBG法といった一般的に使用されている手法を使用できる。

クラスタリングの結果、各特徴量Ｆ（ｋ，ｎ）は何れかのクラスタＣＦ（ｋ，ｊ（ｋ，ｎ））に属する。すなわち、音声データＤ（ｎ）それぞれのＫ個の特徴量Ｆ（ｋ，ｎ）は、何れかＫ個のクラスタＣＦ（ｋ，ｊ（ｋ，ｎ））（ｋ＝１，．．．，Ｋ、ｊ（ｋ，ｎ）＝１，．．．，Ｊ（ｋ）、Ｊ（ｋ，ｎ）≧２）に属する。言い換えると、音声データＤ（ｎ）それぞれのＫ個の特徴量Ｆ（ｋ，ｎ）の組み合わせは、何れかＫ個のクラスタＣＦ（ｋ，ｊ（ｋ，ｎ））の組み合わせに対応する。Ｋ個のクラスタＣＦ（ｋ，ｊ（ｋ，ｎ））（ｋ＝１，．．．，Ｋ）の組み合わせを「多次元クラスタ」と呼び、以下のように表記する。
Ｃ（ｊ（１，ｎ），．．．，ｊ（Ｋ，ｎ））
＝（ＣＦ（１，ｊ（１，ｎ）），．．．，ＣＦ（Ｋ，ｊ（Ｋ，ｎ）））

図８Ｂは、Ｋ＝２，Ｊ（１）＝Ｊ（２）＝５の場合のクラスタリング結果を例示するための図である。図８Ｂの例では、２個のクラスタＣＦ（１，ｊ（１，ｎ）），ＣＦ（２，ｊ（２，ｎ））からなる組、すなわち多次元クラスタＣ（ｊ（１，ｎ），ｊ（２，ｎ））が５×５の表として表記されている。各列（縦）が特徴量Ｆ（１，ｎ）をクラスタリングして得られるクラスタＣＦ（１，ｊ（１，ｎ））を表し、各行（横）が特徴量Ｆ（２，ｎ）をクラスタリングして得られるクラスタＣＦ（２，ｊ（２，ｎ））を表す。図８Ｂの黒点は音声データＤ（ｎ）の２個の特徴量Ｆ（１，ｎ），Ｆ（２，ｎ）の組を表す。黒点の行方向（横方向）の座標が音声データＤ（ｎ）の特徴量Ｆ（１，ｎ）を表し、列方向（縦方向）の座標が音声データＤ（ｎ）の特徴量Ｆ（２，ｎ）を表す。図８Ｂの例では、音声データＤ（ｎ）それぞれの２個の特徴量Ｆ（１，ｎ），Ｆ（２，ｎ）が、何れか２個のクラスタＣＦ（１，ｊ（１，ｎ）），ＣＦ（２，ｊ（２，ｎ））からなる多次元クラスタＣ（ｊ（１，ｎ），ｊ（２，ｎ））にそれぞれ属する。例えば、音声データＤ（α）の特徴量Ｆ（１，α）はクラスタＣＦ（１，５）に属し、特徴量Ｆ（２，α）はクラスタＣＦ（２，１）に属し、音声データＤ（α）の２個の特徴量Ｆ（１，α），Ｆ（２，α）の組み合わせが多次元クラスタＣ（５，１）＝（ＣＦ（１，５），ＣＦ（２，１））に属する。なお、図８Ｂでは２種類の特徴量のそれぞれについてクラスタリングが行われた結果を２次元の表として表記したが、Ｋ種類の特徴量のそれぞれについてクラスタリングが行われた場合にはＪ（１）×・・・×Ｊ（Ｋ）のＫ次元の表で表記できる。

すべてのクラスタＣＦ（ｋ，ｊ（ｋ））を表す情報と、クラスタＣＦ（ｋ，ｊ（ｋ））のそれぞれに属する特徴量Ｆ（ｋ，ｎ）を表す情報とが対応付けられてクラスタ情報ＤＢ記憶部１１１ｃに格納される。これらの情報により、音声データＤ（ｎ）それぞれのＫ個の特徴量Ｆ（ｋ，ｎ）の組み合わせが何れのＫ個のクラスタＣＦ（ｋ，ｊ（ｋ，ｎ））の組み合わせに属するかを特定できる。

変換関数学習部１１２ｄは、クラスタ情報ＤＢ記憶部１１１ｃに格納された情報を用い、特徴Ｆ（ｋ）ごとに独立に、クラスタＣＦ（ｋ，ｊ（ｋ））に属する特徴量を別のクラスタＣＦ（ｋ，ｊ’（ｋ））に属する特徴量に変換する変換関数ｆ_{k,j(k),j’(k)}（ｋ＝１，．．．，Ｋ，ｊ（ｋ）≠ｊ’（ｋ））を学習（生成）する。変換関数ｆ_{k,j(k),j’(k)}は、クラスタＣＦ（ｋ，ｊ（ｋ））に属するすべての特徴量をクラスタＣＦ（ｋ，ｊ’（ｋ））に属する特徴量に変換するものであってもよいし、クラスタＣＦ（ｋ，ｊ（ｋ））に属する少なくとも一部の特徴量をクラスタＣＦ（ｋ，ｊ’（ｋ））に属する特徴量に変換するものであってもよい。図９Ａは、クラスタＣＦ（２，５）に属するすべての特徴量をＣＦ（２，３）に属する特徴量へ変換する変換関数ｆ_2,5,3を例示する。変換関数学習部１１２ｄは、すべての特徴Ｆ（ｋ）（ｋ＝１，．．．，Ｋ）について変換関数ｆ_{k,j(k),j’(k)}を生成することにしてもよいし、特徴量の変換による合成音声の自然性低下への影響が小さい特徴Ｆ（ｋ）のみについて変換関数ｆ_{k,j(k),j’(k)}を生成することにしてもよい。本形態では、すべての特徴Ｆ（ｋ）（ｋ＝１，．．．，Ｋ）について変換関数ｆ_{ｋ，ｊ（ｋ），ｊ’（ｋ）}を生成する例を説明する。生成された変換関数ｆ_{k,j(k),j’(k)}は変換関数ＤＢ記憶部１１１ｄに格納される（ステップＳ１４）。

変換関数ｆ_{k,j(k),j’(k)}の学習法の一例として、両クラスタＣＦ（ｋ，ｊ（ｋ）），ＣＦ（ｋ，ｊ’（ｋ））の代表値の差を使用する方法を説明する。この方法の場合、まず変換関数学習部１１２ｄは、クラスタＣＦ（ｋ，ｊ（ｋ）），ＣＦ（ｋ，ｊ’（ｋ））にそれぞれ含まれる全特徴量を用いて、各クラスタＣＦ（ｋ，ｊ（ｋ）），ＣＦ（ｋ，ｊ’（ｋ））の各代表値を求める。クラスタの代表値の例は、そのクラスタに属する全特徴量の平均値や中央値等である。次に変換関数学習部１１２ｄは、各クラスタＣＦ（ｋ，ｊ（ｋ）），ＣＦ（ｋ，ｊ’（ｋ））の各代表値を用い、以下のように変換関数ｆ_{k,j(k),j’(k)}を生成する。
ｆ_{k,j(k),j’(k)}(ν)=ν+(cent(CF(k,j’(k))-cent(CF(k,j(k)))
ここでcent(β)はクラスタβの代表値を求める関数を表し、νはクラスタＣＦ（ｋ，ｊ（ｋ））に属する任意の特徴量（ベクトル等）を表す。

その他、クラスタごとに統計モデル（HMM: Hidden Markov Model）を学習して、変換先のクラスタの特徴量を用い、非特許文献１の話者適応手法により、変換関数ｆ_{k,j(k),j’(k)}が学習されてもよい。この手法では、まずクラスタ毎にクラスタ内に存在する話者の特徴量を用いてHMMを学習する。学習した変換元のクラスタのHMMと変換先のクラスタの特徴量とを用いて、変換元のクラスタのHMMを変換先のクラスタへ変換するための回帰行列W（非特許文献１の式(4)）を最尤推定により求める。この回帰行列Wは変換関数ｆ_{k,j(k),j’(k)}に相当する。すべての話者の音声データＤ（ｎ）（ｎ＝１，．．．，Ｎ）が同一テキストを発話して得られたものなのであれば、ＧＭＭによる特徴量変換関数を変換関数ｆ_{k,j(k),j’(k)}として学習することも可能である（例えば、参考文献１「A. Kain and M.W. Macon, “Spectral voice conversion for text-to-speech synthesis,” 1998 ICASSP, pp.285-288, 1998.」等参照）。この手法では、まず２名の話者の同一発話の特徴量からGMMを学習する。変換関数ｆ_{k,j(k),j’(k)}は、学習したGMMの平均ベクトル、共分散行列により得られる。一般的に、この手法は２名の話者の音声を変換するための手法であるが、クラスタ内には複数名の話者が存在する場合がある。そのため、GMMの学習データとして、各クラスタに対応する話者の音声データの特徴量の組合せを用いてGMMを学習する。例えば、クラスタＣＦ（ｋ，ｊ（ｋ））に属する特徴量に対応する話者がA,Bの２名であり、クラスタＣＦ（ｋ，ｊ’（ｋ））に属する特徴量に対応する話者がA’,B’の２名であった場合、以下の４通りの特徴量の組み合わせが学習データとされる。
(1)話者Aの音声データの特徴量と話者A’の音声データの特徴量との組み合わせ。
(2)話者Aの音声データの特徴量と話者B’の音声データの特徴量との組み合わせ。
(3)話者Bの音声データの特徴量と話者A’の音声データの特徴量との組み合わせ。
(4)話者Bの音声データの特徴量と話者B’の音声データの特徴量との組み合わせ。
この手法では参考文献１の式(5)が変換関数ｆ_{k,j(k),j’(k)}となる。

図６を用いて、変換関数ｆ_{k,j(k),j’(k)}の生成手順を例示する。図６の例では、ｊ’（ｋ）＝１，．．．，Ｊ（ｋ）について変換関数ｆ_{k,j(k),j’(k)}を学習する処理をｊ（ｋ）＝１，．．．，Ｊ（ｋ）について行うループ処理を、ｋ＝１，．．．，Ｋのループ処理として実行する（ステップＳ１４１〜Ｓ１４７）。この例ではｊ（ｋ）＝ｊ’（ｋ）の変換関数ｆ_{k,j(k),j’(k)}も生成されるが、ｊ（ｋ）＝ｊ’（ｋ）の変換関数ｆ_{k,j(k),j’(k)}は生成されなくてもよい。

＜目標話者学習処理＞
目標話者学習処理では、入力された目標話者の音声データからその話者のモデルを学習する。以下、図５Ｂに従って本形態の目標話者学習処理を説明する。
目標話者の音声が収録され、目標話者の音声を表す音声データＤ（Ｔ）（Ｔ≠１，．．．，Ｎ）が目標話者学習部１２０（図３）の目標話者音声記憶部１２１ａに格納される。本形態では、目標話者と音声データＤ（Ｔ）とが一対一で対応する（ステップＳ２１）。

特徴量抽出部１２２ｂは、目標話者音声記憶部１２１ａに格納された音声データＤ（Ｔ）から、Ｋ個の特徴Ｆ（ｋ）（ｋ＝１，．．．，Ｋ）を表す特徴量Ｆ（ｋ，Ｔ）（ｋ＝１，．．．，Ｋ）を抽出し、特徴量記憶部１２１ｂに格納する（ステップＳ２２）。

クラスタ選択部１２２ｃは、特徴量記憶部１２１ｂに格納された目標話者の音声データＤ（Ｔ）の特徴量Ｆ（ｋ，Ｔ）を用い、ステップＳ１３で設定されたクラスタＣＦ（ｋ，ｊ（ｋ））から、目標話者の音声データＤ（Ｔ）のＫ個の特徴量Ｆ（ｋ，Ｔ）（ｋ＝１，．．．，Ｋ）が属するＫ個のクラスタＣＦ（ｋ，ｊ（ｋ，Ｔ））（ｋ＝１，．．．，Ｋ、ｊ（ｋ，Ｔ）＝１，．．．，Ｊ（ｋ））の組み合わせを選択する。選択されたＫ個のクラスタＣＦ（ｋ，ｊ（ｋ，Ｔ））の組み合わせからなる多次元クラスタＣ（ｊ（１，Ｔ），．．．，ｊ（Ｋ，Ｔ））＝（ＣＦ（１，ｊ（１，Ｔ）），．．．，ＣＦ（Ｋ，ｊ（Ｋ，Ｔ）））を表す情報は、所属クラスタ記憶部１２１ｃに格納される（ステップＳ２３）。

特徴量Ｆ（ｋ，Ｔ）が属するクラスタＣＦ（ｋ，ｊ（ｋ，Ｔ））の選択は特徴Ｆ（ｋ）ごとに独立に行われ、最終的にＫ個の特徴量Ｆ（ｋ，Ｔ）の組み合わせが属する多次元クラスタＣ（ｊ（１，Ｔ），．．．，ｊ（Ｋ，Ｔ））＝（ＣＦ（１，ｊ（１，Ｔ）），．．．，ＣＦ（Ｋ，ｊ（Ｋ，Ｔ）））が選択される。図９Ｂの例の場合、目標話者の音声データＤ（Ｔ）の２個の特徴量Ｆ（１，Ｔ），Ｆ（２，Ｔ）はそれぞれクラスタＣＦ（１，１），ＣＦ（２，３）に属し、特徴量Ｆ（１，Ｔ），Ｆ（２，Ｔ）の組み合わせが多次元クラスタＣ（１，３）＝（ＣＦ（１，１），ＣＦ（２，３））に属している。

クラスタの選択手法としては、例えば、目標話者の音声データＤ（Ｔ）のＫ個の特徴量Ｆ（ｋ，Ｔ）からステップＳ１３と同様に話者ベクトルを算出し、話者ベクトルとの距離が最も近い代表値を持つクラスタを選択する手法や、入力された特徴量が各クラスタに属する確率を出力するＧＭＭ等の統計モデルをクラスタごとに学習しておき、目標話者の音声データＤ（Ｔ）の各特徴量Ｆ（ｋ，Ｔ）を当該統計モデルに入力して各特徴量Ｆ（ｋ，Ｔ）が属する確率が最も高い（尤度が最も高い）クラスタをＣＦ（ｋ，ｊ（ｋ，Ｔ））として選択する手法等がある。

話者選択部１２２ｄは、話者クラスタリング部１１０（図３）の多数話者音声ＤＢ記憶部１１１ａに格納されたＮ人の話者の音声データＤ（ｎ）（ｎ＝１，．．．，Ｎ）から、所属クラスタ記憶部１２１ｃに格納されたＫ個のクラスタＣＦ（ｋ，ｊ（ｋ，Ｔ））の組み合わせに対応する音声データＤ（Ｓ）を選択し、選択した音声データＤ（Ｓ）を表す情報を選択話者記憶部１２１ｄに格納する（ステップＳ２４）。

話者選択部１２２ｄは、例えば、以下のように音声データＤ（Ｓ）を選択する。
（１）Ｎ人の話者の音声データＤ（ｎ）に音声データＤ（Ｓ’）が１個のみ含まれる場合、話者選択部１２２ｄは、当該音声データＤ（Ｓ’）を音声データＤ（Ｓ）とする。ただし、「音声データＤ（Ｓ’）」は、ステップＳ２３で選択された多次元クラスタＣ（ｊ（１，Ｔ），．．．，ｊ（Ｋ，Ｔ））＝（ＣＦ（１，ｊ（１，Ｔ）），．．．，ＣＦ（Ｋ，ｊ（Ｋ，Ｔ）））を構成するＫ個のクラスタＣＦ（ｋ，ｊ（ｋ，Ｔ））に属するＫ個の特徴量Ｆ（ｋ，Ｓ’）（ｋ＝１，．．．，Ｋ）を持つ音声データを表す。
（２）Ｎ人の話者の音声データＤ（ｎ）に上記音声データＤ（Ｓ’）が複数含まれる場合、話者選択部１２２ｄは、これら複数の音声データＤ（Ｓ’）から選択された１個を音声データＤ（Ｓ）とする。
（３）Ｎ人の話者の音声データＤ（ｎ）に上記音声データＤ（Ｓ’）が含まれない場合、話者選択部１２２ｄは、Ｋ個のクラスタＣＦ（ｋ，ｊ（ｋ，Ｔ））の組み合わせと異なるＫ個のクラスタＣＦ（ｋ，ｊ（ｋ，Ｓ”））（ｋ＝１，．．．，Ｋ、ｊ（ｋ，Ｓ”）＝１，．．．，Ｊ（ｋ））の組み合わせをなす、Ｋ個のクラスタＣＦ（ｋ，ｊ（ｋ，Ｓ”））に属するＫ個の特徴量Ｆ（ｋ，Ｓ”）（ｋ＝１，．．．，Ｋ）を持つ音声データＤ（Ｓ”）を、音声データＤ（Ｓ）として選択する。

次に図７を用いて音声データＤ（Ｓ）の選択手法を例示する。
話者選択部１２２ｄは、特徴量ＤＢ記憶部１１１ｂに格納された各音声データＤ（ｎ）の特徴量を参照し、多数話者音声ＤＢ記憶部１１１ａに格納されたＮ人の話者の音声データＤ（ｎ）（ｎ＝１，．．．，Ｎ）のうち、所属クラスタ記憶部１２１ｃに格納されたＫ個のクラスタＣＦ（ｋ，ｊ（ｋ，Ｔ））に属するＫ個の特徴量Ｆ（ｋ，Ｓ’）（ｋ＝１，．．．，Ｋ）を持つ音声データＤ（Ｓ’）の個数をカウントする。言い換えると、話者選択部１２２ｄは、ステップＳ２３で選択された多次元クラスタＣ（ｊ（１，Ｔ），．．．，ｊ（Ｋ，Ｔ））＝（ＣＦ（１，ｊ（１，Ｔ）），．．．，ＣＦ（Ｋ，ｊ（Ｋ，Ｔ）））に属するＫ個の特徴量Ｆ（ｋ，Ｓ’）（ｋ＝１，．．．，Ｋ）を持つ音声データＤ（Ｓ’）の個数をカウントする（ステップＳ２４１）。

上記のＮ人の話者の音声データＤ（ｎ）が上記の音声データＤ（Ｓ’）を１個のみ含む場合、話者選択部１２２ｄは当該１個の音声データＤ（Ｓ’）を音声データＤ（Ｓ）として選択する（ステップＳ２４２）。

上記のＮ人の話者の音声データＤ（ｎ）が上記の音声データＤ（Ｓ’）を２個以上含む場合、話者選択部１２２ｄは当該音声データＤ（Ｓ’）の何れかを音声データＤ（Ｓ）として選択する。この例の話者選択部１２２ｄは、各音声データＤ（Ｓ’）の特徴量Ｆ（ｋ，Ｓ’）（ｋ＝１，．．．，Ｋ）と目標話者の音声データＤ（Ｔ）の特徴量Ｆ（ｋ，Ｔ）（ｋ＝１，．．．，Ｋ）との類似度（距離）を算出し（ステップＳ２４３）、類似度が最も高い（最も近い）特徴量Ｆ（ｋ，Ｓ’）を持つ音声データＤ（Ｓ’）を、音声データＤ（Ｓ）として選択する（ステップＳ２４４）。

上記のＮ人の話者の音声データＤ（ｎ）が上記の音声データＤ（Ｓ’）を含まない場合、話者選択部１２２ｄは、以下の条件１，２を満たす、ステップＳ２３で選択された多次元クラスタＣ（ｊ（１，Ｔ），．．．，ｊ（Ｋ，Ｔ））＝（ＣＦ（１，ｊ（１，Ｔ）），．．．，ＣＦ（Ｋ，ｊ（Ｋ，Ｔ）））に最も近い、１個の多次元クラスタＣ（ｊ（１，Ｓ”），．．．，ｊ（Ｋ，Ｓ”））＝（ＣＦ（１，ｊ（１，Ｓ”）），．．．，ＣＦ（Ｋ，ｊ（Ｋ，Ｓ”）））を選択する。多次元クラスタ間の距離の比較は、例えば、各多次元クラスタを構成するＫ個のクラスタの代表値を要素として並べたベクトル間の距離を多次元クラスタ間の距離として行われる。
［条件１］多次元クラスタＣ（ｊ（１，Ｓ”），．．．，ｊ（Ｋ，Ｓ”））を構成するＫ個のクラスタＣＦ（ｋ，ｊ（ｋ，Ｓ”））（ｋ＝１，．．．，Ｋ）に属するＫ個の特徴量Ｆ（ｋ，Ｓ”）（ｋ＝１，．．．，Ｋ）を持つ音声データＤ（Ｓ”）がＮ人の話者の音声データＤ（ｎ）（ｎ＝１，．．．，Ｎ）に含まれる。
［条件２］多次元クラスタＣ（ｊ（１，Ｔ），．．．，ｊ（Ｋ，Ｔ））を構成するＫ個のクラスタＣＦ（ｋ，ｊ（ｋ，Ｔ））（ｋ＝１，．．．，Ｋ）が含む一部のクラスタＣＦ（ｗ，ｊ（ｗ，Ｔ））（ｗ∈｛１，．．．，Ｋ｝）と、多次元クラスタＣ（ｊ（１，Ｓ”），．．．，ｊ（Ｋ，Ｓ”））を構成するＫ個のクラスタＣＦ（ｋ，ｊ（ｋ，Ｓ”））（ｋ＝１，．．．，Ｋ）が含む一部のクラスタＣＦ（ｗ，ｊ（ｗ，Ｓ”））とが等しい。ただし、特徴ｆ（ｗ）（ｗ∈｛１，．．．，Ｋ｝）は、特徴量の変換による合成音声の自然性低下への影響が大きい特徴（例えば、前述の特徴量１，２）であり、その他の特徴ｆ（ｒ）（ｒ∈｛１，．．．，Ｋ｝，ｒ≠ｗ）は、特徴量の変換による合成音声の自然性低下への影響が小さい特徴（例えば、前述の特徴量３〜５）である（ステップＳ２４５）。
図９Ｂ及び図９Ｃの例において、特徴Ｆ（１）が特徴量の変換による合成音声の自然性低下への影響が大きい特徴であり、特徴Ｆ（２）が特徴量の変換による合成音声の自然性低下への影響が小さい特徴であるとする。この場合、話者選択部１２２ｄは、条件１，２を満たす多次元クラスタＣ（１，１），Ｃ（１，２），Ｃ（１，５）のうち、多次元クラスタＣ（１，３）に最も近いＣ（１，５）を選択する。

話者選択部１２２ｄは当該音声データＤ（Ｓ”）の何れかを音声データＤ（Ｓ）として選択する。この例の話者選択部１２２ｄは、各音声データＤ（Ｓ”）の特徴量Ｆ（ｋ，Ｓ”）（ｋ＝１，．．．，Ｋ）と目標話者の音声データＤ（Ｔ）の特徴量Ｆ（ｋ，Ｔ）（ｋ＝１，．．．，Ｋ）との類似度（距離）を算出し（ステップＳ２４６）、類似度が最も高い（最も近い）特徴量Ｆ（ｋ，Ｓ”）を持つ音声データＤ（Ｓ”）を、音声データＤ（Ｓ）として選択する（ステップＳ２４７）。

制御部１４０（図１）は、ステップＳ２３で選択された多次元クラスタＣ（ｊ（１，Ｔ），．．．，ｊ（Ｋ，Ｔ））に対応する音声データＤ（Ｓ）が存在しなかったかを判定する。言い換えると、制御部１４０は、ステップＳ２３で選択された多次元クラスタＣ（ｊ（１，Ｔ），．．．，ｊ（Ｋ，Ｔ））と、ステップＳ２４で選択された音声データＤ（Ｓ）のＫ個の特徴量Ｆ（ｋ，Ｓ）が属する多次元クラスタＣ（ｊ（１，），．．．，ｊ（Ｋ，））とが異なるか（図７の例では、ステップＳ２４５〜Ｓ２４７が実行されたか）を判定する（ステップＳ２５）。

ステップＳ２３で選択された多次元クラスタＣ（ｊ（１，Ｔ），．．．，ｊ（Ｋ，Ｔ））に対応する音声データＤ（Ｓ）が存在した場合、目標話者学習処理が終了する。この場合、ステップＳ２４で選択された音声データＤ（Ｓ）の特徴量（「目標話者の特徴量」となる）、音声データＤ（Ｓ）及びそのラベルデータ等、又は、目標話者の特徴量に対応するＨＭＭなどの統計モデルが、音声合成部１３０での目標話者の音声合成処理に利用される。

ステップＳ２３で選択された多次元クラスタＣ（ｊ（１，Ｔ），．．．，ｊ（Ｋ，Ｔ））に対応する音声データＤ（Ｓ）が存在しなかった場合、特徴量変換部１２２ｅ（図３）が以下の特徴量変換処理を実行する。
特徴量変換部１２２ｅは、変換関数ｆ_{r,j(r,S),j(r,T)}を用い、ステップＳ２４で選択された音声データＤ（Ｓ）のＫ個の特徴量Ｆ（ｋ，Ｓ）のうちクラスタＣＦ（ｒ，ｊ（ｒ，Ｓ））に属する一部の特徴量Ｆ（ｒ，Ｓ）（ｒ∈｛１，．．．，Ｋ｝）を、ステップＳ２３で選択された多次元クラスタＣ（ｊ（１，Ｔ），．．．，ｊ（Ｋ，Ｔ））を構成するＫ個のクラスタＣＦ（１，ｊ（１，Ｔ）），．．．，ＣＦ（Ｋ，ｊ（Ｋ，Ｔ））の一部のクラスタＣＦ（ｒ，ｊ（ｒ，Ｔ））〔ＣＦ（ｒ，ｊ（ｒ，Ｔ））≠ＣＦ（ｒ，ｊ（ｒ，Ｓ））〕に属する特徴量ＴＦ（ｒ，Ｓ）に変換する。特徴量Ｆ（ｒ，Ｓ）は、特徴量の変換による合成音声の自然性低下の影響が小さいものである（例えば、前述の特徴量３〜５を表す特徴量）。以上により、目標話者の音声の特徴量Ｆ（ｋ’，Ｓ）（ｋ’＝１，．．．，Ｋ、ｋ’≠ｒ），ＴＦ（ｒ，Ｓ）が得られる。図９Ｃの例の場合、特徴量変換部１２２ｅは、変換関数ｆ_2,5,3を用い、ステップＳ２４で選択された音声データＤ（Ｓ）の２個の特徴量Ｆ（１，Ｓ），Ｆ（２，Ｓ）のうち、クラスタＣＦ（２，５）に属する一部の特徴量Ｆ（２，Ｓ）を、ステップＳ２３で選択された多次元クラスタＣ（１，３）を構成する２個のクラスタＣＦ（１，１），ＣＦ（２，３）の一部のクラスタＣＦ（２，３）に属する特徴量ＴＦ（２，Ｓ）に変換する。これにより、Ｋ個の特徴量Ｆ（ｋ’，Ｓ）（ｋ’∈｛１，．．．，Ｋ｝、ｋ’≠r），ＴＦ（ｒ，Ｓ）が得られる。得られた特徴量Ｆ（ｋ’，Ｓ）（ｋ’＝１，．．．，Ｋ、ｋ’≠ｒ），ＴＦ（ｒ，Ｓ）、音声データＤ（Ｓ）及びそのラベルデータ等、又は、特徴量Ｆ（ｋ’，Ｓ）（ｋ’＝１，．．．，Ｋ、ｋ’≠ｒ），ＴＦ（ｒ，Ｓ）に対応するＨＭＭなどの統計モデルは、音声合成部１３０での目標話者の音声合成処理に利用される。変換された特徴量ＴＦ（ｒ，Ｓ）は、特徴量の変換による合成音声の自然性低下の影響が小さいが、音声の類似性には寄与する。よって、このように音声データＤ（Ｓ）の特徴量の一部を変換したものを目標話者の音声の特徴量とし、それを含む情報を音声合成処理に利用することで、自然性を低下させることなく目標話者の音声を合成できる（ステップＳ２６）。特徴量４，５は、スペクトル（ケプストラム）より得られる特徴量であるため、音声を合成する際には、これらの特徴量を用いて合成音声のスペクトル（ケプストラム）が変換される。スペクトル（ケプストラム）の変換は特徴量によって異なり、声道長正規化のワーピングパラメータが特徴量である場合（特徴量５）、１次オールパス関数を用いて合成音声のケプストラムが変換される。各帯域のスペクトルのパワー比が特徴量である場合（特徴量４）、変換前後のスペクトルパワー比から得られる各帯域のフィルタFIL_iを用いて、合成音声のスペクトルを変換する。
FIL_i=BSP’_i/BSP_i
ただし、BSP_iは変換前のi番目の帯域のパワー比であり、BSP’_iは変換後のi番目の帯域のパワー比である。変換後のi番目の帯域のスペクトルは、変換前のi番目の帯域のスペクトルにFIL_iを乗ずることにより得られる。

＜音声合成処理＞
音声合成処理部１３０は、目標話者学習部１２０で得られた目的話者の特徴量、音声データ及びラベルデータ等、又は、当該特徴量から得られるＨＭＭなどの統計モデル等を用い、公知の波形接続型音声合成方式（例えば「特許２７６１５５２」「特開２００９−１２２３８１」等参照）、又は、ＨＭＭ音声合成方式（例えば「益子貴史，徳田恵一，小林隆夫，今井聖，“動的特徴を用いたHMMに基づく音声合成，” 信学論（D-II），vol.J79-D-II, no.12, pp.2184-2190, 1996.」等参照）等に従い、入力されたテキストに対応する目標話者の音声を合成する。

図４を用い、目標話者学習部１２０で得られた特徴量、音声データ及びラベルデータ等を含む目標話者の音声データベースTDBを用い、波形接続型音声合成方式に従って音声合成を行う例を示す。図４の例の場合、入力されたテキスト（Text）がテキスト記憶部１３１ａに格納され、テキスト解析部１３２ｂがテキスト記憶部１３１ａに記憶されたテキストを読み込み、このテキストを形態素解析し、テキストに対応したコンテキスト情報（読み、アクセント等の情報）を生成し、これをコンテキスト記憶部１３１ｂに格納する。

韻律生成部１３２ｄは、韻律モデルＤＢ記憶部１３１ｃに格納された韻律モデルを用い、コンテキスト記憶部１３１ｂに格納されたコンテキスト情報に対応する韻律パラメータ（Ｆ０パターン、音素継続時間長、パワー情報等）を生成（推定）し、これを韻律パラメータ記憶部１３１ｄに格納する。

素片選択部１３２ｅには、コンテキスト記憶部１３１ｂから読み出したコンテキスト情報、韻律パラメータ記憶部１３１ｄから読み出した韻律パラメータ、目標話者学習部１２０で得られた目標話者の音声データベースTDBが入力される。素片選択部１３２ｅは、例えば、音声データベースTDBの音声データ及びラベルデータから特定される各音声素片を音声素片候補とし、公知の素片選択方式に従って、コンテキスト情報及び韻律パラメータに対する各音声素片候補の評価コストを求め、評価コストが最良となる音声素片候補を音声素片として抽出する。例えば、参考文献２「波形編集型合成方式におけるスペクトル連続性を考慮した波形選択法、日本音響学会講演論文集、2-6-10, pp.239-240, 1990/9」に記載された各サブコスト関数の線形和からなる評価コストが用いられる場合には、評価コストが最小となる音声素片候補が音声素片として選択される。さらに素片選択部１３２ｅは、公知の素片接続方式に従い、韻律パラメータと音声データベースTDBの音声データの特徴量とを用い、抽出した各音声素片に対応する音声データを接続して目標話者の合成音声Voiceを生成する。特徴量が変換されている場合は、抽出した各音声素片に対応する音声データを接続するのではなく、変換された特徴量（スペクトル、非周期性指標等）から得られる音声データを接続し、目標話者の合成音声Voiceを生成する。生成された合成音声Voiceは合成音声記憶部１３１ｅに格納され、必要に応じて読み出されて出力される。

＜変形例等＞
本発明は上述の実施の形態に限定されるものではない。例えば、上記実施形態のステップＳ２６では、音声データＤ（Ｓ）のＫ個の特徴量Ｆ（ｋ，Ｓ）のうち、特徴量の変換による合成音声の自然性低下の影響が小さい特徴量Ｆ（ｒ，Ｓ）のみを特徴量ＴＦ（ｒ，Ｓ）に変換することとした。しかしながら、音声データＤ（Ｓ）のＫ個の特徴量Ｆ（ｋ，Ｓ）のうち、特徴量の変換による合成音声の自然性の影響は多少大きいが音声の類似性への寄与度が大きい特徴量のみを変換する等、用途に応じて変換する特徴量が選択されることとしてもよい。また上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な（non-transitory）記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

上記の実施形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１音声合成装置
１１０話者クラスタリング部
１２０目標話者学習部
１３０音声合成部

Claims

Ｎ人の話者の音声データＤ（ｎ）（ｎ＝１，．．．，Ｎ、Ｎ≧２）の特徴Ｆ（ｋ）（ｋ＝１，．．．，Ｋ、Ｋ≧２）を表す特徴量Ｆ（ｋ，ｎ）が前記特徴Ｆ（ｋ）ごとに独立にクラスタリングされることで、前記特徴Ｆ（ｋ）ごとにＪ（ｋ）個のクラスタＣＦ（ｋ，ｊ（ｋ））（ｋ＝１，．．．，Ｋ、ｊ（ｋ）＝１，．．．，Ｊ（ｋ）、Ｊ（ｋ）≧２）が設定され、前記音声データＤ（ｎ）それぞれのＫ個の特徴量Ｆ（ｋ，ｎ）がいずれかＫ個のクラスタＣＦ（ｋ，ｊ（ｋ，ｎ））（ｋ＝１，．．．，Ｋ、ｊ（ｋ，ｎ）＝１，．．．，Ｊ（ｋ）、Ｊ（ｋ，ｎ）≧２）に属し、
設定された前記クラスタＣＦ（ｋ，ｊ（ｋ））から、目標話者の音声データＤ（Ｔ）（Ｔ≠１，．．．，Ｎ）のＫ個の特徴量Ｆ（ｋ，Ｔ）（ｋ＝１，．．．，Ｋ）が属するＫ個のクラスタＣＦ（ｋ，ｊ（ｋ，Ｔ））（ｋ＝１，．．．，Ｋ、ｊ（ｋ，Ｔ）＝１，．．．，Ｊ（ｋ））の組み合わせを選択するクラスタ選択ステップと、
前記Ｎ人の話者の音声データＤ（ｎ）から、前記Ｋ個のクラスタＣＦ（ｋ，ｊ（ｋ，Ｔ））の組み合わせに対応する音声データＤ（Ｓ）を選択する話者選択ステップと、
前記音声データＤ（Ｓ）のＫ個の特徴量Ｆ（ｋ，Ｓ）（ｋ＝１，．．．，Ｋ）が属するＫ個のクラスタＣＦ（ｋ，ｊ（ｋ，Ｓ））（ｋ＝１，．．．，Ｋ、ｊ（ｋ，Ｓ）＝１，．．．，Ｊ（ｋ））の組み合わせと、前記Ｋ個のクラスタＣＦ（ｋ，ｊ（ｋ，Ｔ））の組み合わせとが異なる場合に、変換関数を用い、前記Ｋ個の特徴量Ｆ（ｋ，Ｓ）の一部の特徴量Ｆ（ｒ，Ｓ）（ｒ∈｛１，．．．，Ｋ｝）を特徴量ＴＦ（ｒ，Ｓ）に変換し、Ｋ個の特徴量Ｆ（ｋ’，Ｓ）（ｋ’∈｛１，．．．，Ｋ｝、ｋ’≠r），ＴＦ（ｒ，Ｓ）を得る特徴量変換ステップと、
前記Ｋ個のクラスタＣＦ（ｋ，ｊ（ｋ，Ｓ））の組み合わせと、前記Ｋ個のクラスタＣＦ（ｋ，ｊ（ｋ，Ｔ））の組み合わせとが等しい場合に、前記特徴量Ｆ（ｋ，Ｓ）を前記目標話者の特徴量とする設定ステップと、を有し、
前記音声データＤ（Ｓ）は、前記Ｋ個のクラスタＣＦ（ｋ，ｊ（ｋ，Ｔ））に属するＫ個の特徴量Ｆ（ｋ，Ｓ’）（ｋ＝１，．．．，Ｋ）を持つ音声データ、または、Ｋ個のクラスタＣＦ（ｋ，ｊ（ｋ，Ｓ”））に属するＫ個の特徴量Ｆ（ｋ，Ｓ”）（ｋ＝１，．．．，Ｋ）を持つ音声データであり、前記Ｋ個のクラスタＣＦ（ｋ，ｊ（ｋ，Ｔ））（ｋ＝１，．．．，Ｋ）が含む一部のクラスタＣＦ（ｗ，ｊ（ｗ，Ｔ））（ｗ∈｛１，．．．，Ｋ｝、ｗ≠r）と、前記Ｋ個のクラスタＣＦ（ｋ，ｊ（ｋ，Ｓ”））（ｋ＝１，．．．，Ｋ）が含む一部のクラスタＣＦ（ｗ，ｊ（ｗ，Ｓ”））とが等しく、
前記変換関数は、前記特徴量Ｆ（ｒ，Ｓ）が属する前記クラスタＣＦ（ｒ，ｊ（ｒ，Ｓ））に属する特徴量を、前記Ｋ個の特徴量Ｆ（ｋ，Ｔ）の一部の特徴量Ｆ（ｒ，Ｔ）が属するクラスタＣＦ（ｒ，ｊ（ｒ，Ｔ））〔ＣＦ（ｒ，ｊ（ｒ，Ｔ））≠ＣＦ（ｒ，ｊ（ｒ，Ｓ））〕に属する特徴量に変換するものである、目標話者学習方法。
請求項１の目標話者学習方法であって、
前記一部の特徴量Ｆ（ｒ，Ｓ）は、
１次オールパス関数、高域強調フィルタ、異なる話者の音声データのスペクトルパワー比を表すフィルタの何れかで、異なる話者の音声データＤ（ｓ’）（ｓ’∈｛１，．．．，Ｎ｝、ｓ’≠Ｓ）の特徴量Ｆ（ｒ，ｓ’）に変換可能な特徴量、及び、前記音声データＤ（Ｓ）の周波数軸上の全帯域での平均パワーが類似性に影響を与える特徴量の何れかを含む、目標話者学習方法。
請求項１又は２の目標話者学習方法であって、
前記一部の特徴量Ｆ（ｒ，Ｓ）は、前記音声データＤ（Ｓ）の非周期性指標、前記音声データＤ（Ｓ）の全帯域のスペクトルのパワーに対する各帯域のスペクトルのパワーの比、又は前記音声データＤ（Ｓ）の声道長正規化のためのワーピングパラメータを表す、目標話者学習方法。
請求項１から３の何れかの目標話者学習方法であって、
前記話者選択ステップは、
前記Ｎ人の話者の音声データＤ（ｎ）が、前記Ｋ個のクラスタＣＦ（ｋ，ｊ（ｋ，Ｔ））に属するＫ個の特徴量Ｆ（ｋ，Ｓ’）（ｋ＝１，．．．，Ｋ）を持つ音声データＤ（Ｓ’）を含まない場合に、前記Ｋ個のクラスタＣＦ（ｋ，ｊ（ｋ，Ｔ））の組み合わせと異なるＫ個のクラスタＣＦ（ｋ，ｊ（ｋ，Ｓ”））（ｋ＝１，．．．，Ｋ、ｊ（ｋ，Ｓ”）＝１，．．．，Ｊ（ｋ））の組み合わせをなす、前記Ｋ個のクラスタＣＦ（ｋ，ｊ（ｋ，Ｓ”））に属するＫ個の特徴量Ｆ（ｋ，Ｓ”）（ｋ＝１，．．．，Ｋ）を持つ音声データＤ（Ｓ”）（Ｓ”∈｛１，．．．，Ｎ｝）を、前記音声データＤ（Ｓ）として選択するステップを含む、目標話者学習方法。
請求項４の目標話者学習方法であって、
前記Ｋ個のクラスタＣＦ（ｋ，ｊ（ｋ，Ｔ））（ｋ＝１，．．．，Ｋ）が含む一部のクラスタＣＦ（ｗ，ｊ（ｋ，Ｔ））（ｗ∈｛１，．．．，Ｋ｝、ｗ≠ｒ）と、前記Ｋ個のクラスタＣＦ（ｋ，ｊ（ｋ，Ｓ”））（ｋ＝１，．．．，Ｋ）が含む一部のクラスタＣＦ（ｗ，ｊ（ｋ，Ｓ”））とが等しい、目標話者学習方法。
請求項４又は５の目標話者学習方法であって、
前記話者選択ステップは、
前記Ｎ人の話者の音声データＤ（ｎ）が前記音声データＤ（Ｓ’）を１個のみ含む場合に、当該音声データＤ（Ｓ’）を前記音声データＤ（Ｓ）とするステップと、
前記Ｎ人の話者の音声データＤ（ｎ）が前記音声データＤ（Ｓ’）を複数個含む場合に、前記音声データＤ（Ｓ’）から選択された１個を前記音声データＤ（Ｓ）とするステップとを含む、目標話者学習方法。
Ｎ人の話者の音声データＤ（ｎ）（ｎ＝１，．．．，Ｎ、Ｎ≧２）の特徴Ｆ（ｋ）（ｋ＝１，．．．，Ｋ、Ｋ≧２）を表す特徴量Ｆ（ｋ，ｎ）が前記特徴Ｆ（ｋ）ごとに独立にクラスタリングされることで、前記特徴Ｆ（ｋ）ごとにＪ（ｋ）個のクラスタＣＦ（ｋ，ｊ（ｋ））（ｋ＝１，．．．，Ｋ、ｊ（ｋ）＝１，．．．，Ｊ（ｋ）、Ｊ（ｋ）≧２）が設定され、前記音声データＤ（ｎ）それぞれのＫ個の特徴量Ｆ（ｋ，ｎ）がいずれかＫ個のクラスタＣＦ（ｋ，ｊ（ｋ，ｎ））（ｋ＝１，．．．，Ｋ、ｊ（ｋ，ｎ）＝１，．．．，Ｊ（ｋ）、Ｊ（ｋ，ｎ）≧２）に属し、
設定された前記クラスタＣＦ（ｋ，ｊ（ｋ））から、目標話者の音声データＤ（Ｔ）（Ｔ≠１，．．．，Ｎ）のＫ個の特徴量Ｆ（ｋ，Ｔ）（ｋ＝１，．．．，Ｋ）が属するＫ個のクラスタＣＦ（ｋ，ｊ（ｋ，Ｔ））（ｋ＝１，．．．，Ｋ、ｊ（ｋ，Ｔ）＝１，．．．，Ｊ（ｋ））の組み合わせを選択するクラスタ選択部と、
前記Ｎ人の話者の音声データＤ（ｎ）から、前記Ｋ個のクラスタＣＦ（ｋ，ｊ（ｋ，Ｔ））の組み合わせに対応する音声データＤ（Ｓ）を選択する話者選択部と、
前記音声データＤ（Ｓ）のＫ個の特徴量Ｆ（ｋ，Ｓ）（ｋ＝１，．．．，Ｋ）が属するＫ個のクラスタＣＦ（ｋ，ｊ（ｋ，Ｓ））（ｋ＝１，．．．，Ｋ、ｊ（ｋ，Ｓ）＝１，．．．，Ｊ（ｋ））の組み合わせと、前記Ｋ個のクラスタＣＦ（ｋ，ｊ（ｋ，Ｔ））の組み合わせとが異なる場合に、変換関数を用い、前記Ｋ個の特徴量Ｆ（ｋ，Ｓ）の一部の特徴量Ｆ（ｒ，Ｓ）（ｒ∈｛１，．．．，Ｋ｝）を特徴量ＴＦ（ｒ，Ｓ）に変換し、Ｋ個の特徴量Ｆ（ｋ’，Ｓ）（ｋ’∈｛１，．．．，Ｋ｝、ｋ’≠r），ＴＦ（ｒ，Ｓ）を得る特徴量変換部と、
前記Ｋ個のクラスタＣＦ（ｋ，ｊ（ｋ，Ｓ））の組み合わせと、前記Ｋ個のクラスタＣＦ（ｋ，ｊ（ｋ，Ｔ））の組み合わせとが等しい場合に、前記特徴量Ｆ（ｋ，Ｓ）を前記目標話者の特徴量とする設定部と、を有し、
前記音声データＤ（Ｓ）は、前記Ｋ個のクラスタＣＦ（ｋ，ｊ（ｋ，Ｔ））に属するＫ個の特徴量Ｆ（ｋ，Ｓ’）（ｋ＝１，．．．，Ｋ）を持つ音声データ、または、Ｋ個のクラスタＣＦ（ｋ，ｊ（ｋ，Ｓ”））に属するＫ個の特徴量Ｆ（ｋ，Ｓ”）（ｋ＝１，．．．，Ｋ）を持つ音声データであり、前記Ｋ個のクラスタＣＦ（ｋ，ｊ（ｋ，Ｔ））（ｋ＝１，．．．，Ｋ）が含む一部のクラスタＣＦ（ｗ，ｊ（ｗ，Ｔ））（ｗ∈｛１，．．．，Ｋ｝、ｗ≠r）と、前記Ｋ個のクラスタＣＦ（ｋ，ｊ（ｋ，Ｓ”））（ｋ＝１，．．．，Ｋ）が含む一部のクラスタＣＦ（ｗ，ｊ（ｗ，Ｓ”））とが等しく、
前記変換関数は、前記特徴量Ｆ（ｒ，Ｓ）が属する前記クラスタＣＦ（ｒ，ｊ（ｒ，Ｓ））に属する特徴量を、前記Ｋ個の特徴量Ｆ（ｋ，Ｔ）の一部の特徴量Ｆ（ｒ，Ｔ）が属するクラスタＣＦ（ｒ，ｊ（ｒ，Ｔ））〔ＣＦ（ｒ，ｊ（ｒ，Ｔ））≠ＣＦ（ｒ，ｊ（ｒ，Ｓ））〕に属する特徴量に変換するものである、目標話者学習装置。
請求項１から６の何れかの目標話者学習方法の各ステップの処理をコンピュータに実行させるためのプログラム。