JP4966048B2

JP4966048B2 - 声質変換装置及び音声合成装置

Info

Publication number: JP4966048B2
Application number: JP2007039673A
Authority: JP
Inventors: 正統田村; 岳彦籠嶋
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-02-20
Filing date: 2007-02-20
Publication date: 2012-07-04
Anticipated expiration: 2027-02-20
Also published as: US8010362B2; US20080201150A1; JP2008203543A

Description

本発明は、変換元話者の音声を変換先話者の音声に変換する声質変換装置及び、任意の入力文から音声を合成する音声合成装置に関する。

変換元話者の音声を入力し、その声質を変換先話者に変換する技術を「声質変換技術」という。声質変換技術ではまず、音声のスペクトル情報をパラメータとして表現し、変換元話者のスペクトルパラメータと変換先話者のスペクトルパラメータとの関係から声質変換規則を学習する。そして、変換元話者の任意の入力音声を分析してスペクトルパラメータを求め、前記声質変換規則を適用して変換先のスペクトルパラメータに変換し、得られたスペクトルパラメータから音声波形を合成することにより、入力音声の声質を変換先話者の声質に変換する。

声質変換の一つの方法として、混合ガウス分布（ＧＭＭ）に基づいて声質変換を行う声質変換方法（例えば、非特許文献１参照）が開示されている。非特許文献１では、変換元話者の音声のスペクトルパラメータからＧＭＭを求め、ＧＭＭの各混合における回帰行列を、変換元話者のスペクトルパラメータと、変換先話者のスペクトルパラメータを対にして回帰分析を行うことにより求め、声質変換規則とする。声質変換を適用する際は、入力した変換元話者の音声のスペクトルパラメータがＧＭＭの各混合において出力される確率により重み付けして回帰行列を適用し、変換先のスペクトルパラメータを得る。ＧＭＭの出力確率により重み付け和する処理は、ＧＭＭの尤度に基づいて回帰分析を補間する処理であると見なせる。しかし、この場合に音声の時間方向に補間されるとは限らず、滑らかに隣り合うスペクトルパラメータが変換後に滑らかになるとは限らないという問題点がある。

また、わたり区間のスペクトル包絡変換規則を補間することにより声質変換を行う声質変換装置が開示されている（例えば、特許文献１参照）。音素間のわたり区間においては、わたり区間前の音素に対応するスペクトル包絡変換規則が、わたり区間の後の音素に対応するスペクトル包絡変換規則へとわたり区間において滑らかに変化するように、スペクトル包絡変換規則を補間する。特許文献１においてはその補間方法としては、スペクトル包絡変換規則の直線補間が挙げられている。特許文献１では、変換規則の学習時には時間方向に補間するという仮定に基づいておらず、変換規則学習時と変換処理時の不一致があり、また音声の時間的な変化は直線的であるとは限らないため、変換後の音質が低下する可能性がある。また、時間方向に補間するという仮定をもとに変換規則を学習した場合、変換規則のパラメータに対する学習時の制約が増加するために変換規則の推定精度が下がり、非特許文献１の方法と比較して声質変換後の音声の変換先話者への類似度が下がるという問題点がある。

任意の文章を入力し、音声波形を生成することを「テキスト音声合成」という。テキスト音声合成は、一般的に言語処理部、韻律処理部及び音声合成部の３つの段階によって行われる。入力されたテキストは、まず言語処理部において形態素解析や構文解析などが行われ、次に韻律処理部においてアクセントやイントネーションの処理が行われて、音韻系列・韻律情報（基本周波数、音韻継続時間長など）が出力される。最後に、音声波形生成部で音韻系列・韻律情報から音声波形を生成する。音声合成方法の一つとして、入力された音韻系列・韻律情報を目標にして、大量の音声素片を含む音声素片データベースから音声素片系列を選択して合成する素片選択型の音声合成方法がある。素片選択型の音声合成は、予め記憶された大量の音声素片の中から、入力された音韻系列・韻律情報に基づき音声素片を選択し、選択された音声素片を接続することで音声を合成する。また、入力された音韻系列・韻律情報を目標にして、入力音韻系列の各合成単位に対して、合成音声の歪みの度合いに基づいて複数の音声素片を選択し、選択された複数の音声素片を融合することによって新たな音声素片を生成し、それらを接続して音声を合成する複数素片選択型の音声合成方法がある。融合方法としては、例えばピッチ波形を平均化する方法が用いられる。

上述した複数素片選択型音声合成など、テキスト音声合成の音声素片データベースを、目標とする変換先話者の少量の音声データを用いて声質変換する方法が開示されている（例えば、非特許文献２参照）。非特許文献２では、大量の変換元話者の音声データと、少量の変換先話者の音声データとを用いて声質変換規則を学習し、得られた声質変換規則を音声合成のための変換元話者の音声素片データベースに適用することにより、変換先話者の声質で任意文の音声合成を可能にする。非特許文献２においては、声質変換規則としては、非特許文献１の方法などに基づいており、非特許文献１と同様変換後のスペクトルパラメータが時間方向に滑らかになるとは限らないという問題点がある。
特許第３７０３３９４号公報 Y. Stylianou, at el., 「Continuous Probabilistic Transform for Voice Conversion, 」 IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, VOL.6, NO.2, MARCH 1998 田村正統他，「複数素片選択・融合型音声合成のための声質変換，」日本音響学会春季研究発表会講演論文集，２００６年３月．

上述したように、従来技術である非特許文献１及び非特許文献２においては、声質変換規則の学習時にはモデルを考慮した変換規則が作成されるものの、変換規則が時間方向に補間されるとは限らず時間的に滑らかになるとは限らないという問題点があった。

また、特許文献１においては、わたり区間において時間的に滑らかになるような声質変換が行われるものの、変換規則の学習時には時間方向に補間するという仮定を考慮していないため、変換規則学習時と変換処理時に不一致が生じる可能性があり、また音声の時間的な変化は直線的であるとは限らないため、変換後の音質が低下する場合があった。さらに、時間方向に補間するという仮定をもとに変換規則を作成した場合、変換規則のパラメータに対する変換規則作成時の制限が増加するために変換規則の推定精度が下がり、変換後の音声の変換先話者への類似度が下がるという問題点があった。

そこで本発明は、上記従来技術の問題点を解決するためになされたものであって、音声の時間方向の変化を考慮した時間方向に滑らかな声質変換を可能にし、かつ、その制約のもとで声質変換規則を学習するために生じる変換先話者への類似度の低下を低減することを可能にする声質変換装置を提供することを目的とする。

本発明は、元話者の音声を先話者の音声に変換する声質変換装置において、前記元話者の音声を音声単位に区切って元話者音声素片を得る元話者音声素片生成部と、前記元話者音声素片の各時刻におけるスペクトルをそれぞれ求め、これら各時刻のスペクトルから各時刻のスペクトルパラメータをそれぞれ求めるパラメータ算出部と、前記元話者のスペクトルパラメータを前記先話者のスペクトルパラメータに変換する変換関数を、前記元話者のスペクトルパラメータに基づく変換関数選択パラメータに対応させて記憶している変換関数記憶部と、（１）前記元話者音声素片の開始時刻におけるスペクトルパラメータに対応する始点の変換関数を、前記開始時刻におけるスペクトルパラメータを用いて前記変換関数記憶部に記憶した変換関数から選択すると共に、（２）前記元話者音声素片の終了時刻におけるスペクトルパラメータに対応する終点の変換関数を、前記終了時刻におけるスペクトルパラメータを用いて前記変換関数記憶部に記憶した変換関数から選択する変換関数選択部と、前記元話者音声素片内の各時刻のスペクトルパラメータにそれぞれ対応し、かつ、前記始点の変換関数と前記終点の変換関数の間の補間係数を決定する補間係数決定部と、前記始点の変換関数及び前記終点の変換関数を前記補間係数により補間し、前記元話者音声素片内の各時刻のスペクトルパラメータにそれぞれ対応する変換関数を生成する変換関数生成部と、前記各時刻の変換関数を用いて前記元話者の各時刻のスペクトルパラメータを、前記先話者のスペクトルパラメータにそれぞれ変換するスペクトルパラメータ変換部と、前記変換した前記先話者の各時刻のスペクトルパラメータから前記先話者の音声波形を生成する音声波形生成部と、を有する声質変換装置である。

本発明によれば、時間方向に滑らかであり、かつ変換先話者への類似度の低下を低減する声質変換が可能になり、また変換先話者の声質による任意文の音声合成が可能となる。

以下、本発明の実施形態について説明する。

（第１の実施形態）
以下、本発明の第１の実施形態の声質変換装置について図１から図２２に基づいて説明する。

（１）声質変換装置の構成
図１は、本実施形態に係わる声質変換装置を示すブロック図である。

本実施形態に係わる声質変換装置は、音声素片変換部１において変換元話者音声素片の声質を、変換先話者の声質に変換し、変換先音声素片を得る。

音声素片変換部１は、声質変換規則記憶部１１と、スペクトル補正規則記憶部１２と、声質変換部１４と、スペクトル補正部１５と、音声波形生成部１６とを備える。

音声素片抽出部１３において、変換元話者音声データから変換元話者音声素片を抽出する。

声質変換規則記憶部１１は、変換元話者音声パラメータ（すなわち、変換元話者スペクトルパラメータ）を変換先話者音声パラメータ（すなわち、変換先話者スペクトルパラメータ）に変換する規則を保持する。この声質変換規則は、声質変換規則学習部１７において作成したものである。

スペクトル補正規則記憶部１２は、変換された音声パラメータのスペクトルを補正する規則を保持する。このスペクトル補正規則は、スペクトル補正規則学習部１８において作成したものである。

声質変換部１４において、入力された変換元話者音声素片の各音声パラメータに声質変換規則を適用することにより変換先話者の声質に変換する。

スペクトル補正部１５において、変換した音声パラメータは、スペクトル補正規則記憶部１２に保持されているスペクトル補正規則を用いてスペクトルを補正する。

音声波形生成部１６において、得られたスペクトルから音声波形を生成し、変換先の音声素片を得る。

（２）声質変換部１４
（２−１）声質変換部１４の構成
声質変換部１４は、図２に示すように、音声パラメータ抽出部２１と、変換規則選択部２２と、補間係数決定部２３と、変換規則生成部２４と、音声パラメータ変換部２５とを備える。

音声パラメータ抽出部２１では、変換元話者音声素片からスペクトルパラメータを抽出する。

変換規則選択部２２では、入力された変換元話者音声素片の開始点におけるスペクトルパラメータ、及び、終了点におけるスペクトルパラメータに対する声質変換規則を声質変換記憶部１１から選択し、始点変換規則及び終点変換規則とする。

補間係数決定部２３では、変換元話者音声素片内の各音声パラメータに対する補間係数を決定する。

変換規則生成部２４では、始点変換規則、及び、終点変換規則を、前記補間係数を用いて補間し、各音声パラメータに対する声質変換規則を生成する。

音声パラメータ変換部２５では、生成された声質変換規則を適用し、変換先話者音声パラメータを得る。

（２−２）声質変換部１４の処理
以下、声質変換部１４の処理の詳細を述べる。

声質変換部１４の入力となる変換元話者音声素片は、音声素片抽出部１３において変換元話者の音声データを音声単位に区切ることにより作成する。音声単位は、音素あるいは音素を分割したものの組み合わせであり、例えば、半音素、音素（Ｃ、Ｖ）、ダイフォン（ＣＶ、ＶＣ、ＶＶ）、トライフォン（ＣＶＣ、ＶＣＶ）、音節（ＣＶ、Ｖ）などであり（Ｖは母音、Ｃは子音を表す）、これらが混在しているなど可変長であってもよい。

（２−２−１）変換元話者音声素片抽出部１３
変換元話者音声素片抽出部１３の処理のフローチャートを図３に示す。

ステップ３１において、音声素片抽出部１３は、入力された変換元話者音声データに対して音素単位等のラベル付けを行う。

ステップ３２において、ピッチマークを付与する。

ステップ３３において、所定の音声単位に対応する音声素片に分割する。

図４に「そう話す」という文に対してラベリング、及び、ピッチマーキングを行った例を示す。

図４（ａ）は、音声データの音素境界にラベルを付与した例、（ｂ）は「ａ」の部分に対してピッチマーキングを行った例を示している。

「ラベリング」は音声単位の境界と各音声単位の音韻種別を表すラベルを付与することであり、隠れマルコフモデルを用いる方法などにより行われる。自動ラベリングに限らず、人手で付与してもよい。

また、「ピッチマーキング」は音声の基本周期に同期したマークを付与することであり、波形のピークを抽出する方法などにより行われる。

このように、ラベリング、ピッチマーキングを行い、音声素片に分割する。音声単位を半音素とした場合、図４（ｂ）に示すように音素境界及び音素中心で波形を分割し、「ａの左素片（ａ−ｌｅｆｔ）」、「ａの右素片（ａ−ｒｉｇｈｔ）」のように求められる。

（２−２−２）音声パラメータ抽出部２１
音声パラメータ抽出部２１では、変換元話者音声素片から、スペクトルパラメータを抽出する。

図５は音声素片の一つとそのスペクトルパラメータを示している。ここでは、スペクトルパラメータはピッチ同期分析により求めており、音声素片の各ピッチマークに対してスペクトルパラメータを抽出している。

まず、変換元話者音声素片からピッチ波形を抽出する。ピッチ波形は、ピッチマークを中心として、ピッチ周期の２倍の長さのハニング窓を掛けることによって抽出する。

得られたピッチ波形に対してスペクトル分析を行い、スペクトルパラメータを抽出する。スペクトルパラメータは、音声素片のスペクトル包絡の情報を表すパラメータであり、ＬＰＣ係数、ＬＳＦパラメータ、メルケプストラム等を用いることができる。

スペクトルパラメータの一つであるメルケプストラムは、正則化離散ケプストラムによる方法（O. Capp・ at el., "Regularization Techniques for Discrete Cepstrum Estimation," IEEE SIGNAL PROCESSING LETTERS, VOL. 3, NO. 4, APRIL 1996）、不偏推定による方法（小林隆夫, ``音声のケプストラム分析，メルケプストラム分析,'' 電子情報通信学会技術研究報告，DSP98-77/SP98-56, pp.33-40 ,1998.9）等により求めることができる。

（２−２−３）変換規則選択部２２
次に、変換規則選択部２２において、声質変換規則記憶部１１から変換元話者音声素片の始点及び終点における声質変換規則を選択する。

声質変換規則記憶部１１には、スペクトルパラメータ変換規則と、変換規則選択のための情報等が蓄積されている。ここでは、スペクトルパラメータ変換規則として回帰行列を用い、さらに各回帰行列に対応する変換元話者スペクトルパラメータの確率分布を保持するものとする。この確率分布は、回帰行列の選択及び補間のために用いるものである。

この場合、声質変換規則記憶部１１には、ｋ個の回帰行列W_ｋ（１＝＜ｋ＝＜Ｋ）とそれぞれの回帰行列に対応する確率分布ｐ_ｋ（ｘ）（１＝＜ｋ＝＜Ｋ）とを保持する。回帰行列は、変換元話者のスペクトルパラメータから、変換先話者のスペクトルパラメータへの変換を行列の形で表したものであり、回帰行列Wを用いて、スペクトルパラメータの変換は次式で表される。

但し、ｘは変換元のピッチ波形のスペクトルパラメータを表し、ξはｘにオフセット項１を加えたもの、ｙは得られた変換後のスペクトルパラメータを表す。スペクトルパラメータの次元数がｐの場合、Ｗはｐ×（ｐ＋１）の行列になる。

また、各回帰行列に対応する確率分布として、平均ベクトルをμ_ｋ、共分散行列をΣ_ｋとするガウス分布、

を用いる。但し、Ｎ（｜）は正規分布である。

声質変換規則記憶部１１は図６に示すように、Ｋ個の回帰行列W_ｋと、確率分布ｐ_ｋ（ｘ）とを保持している。

変換規則選択部２２では、音声素片の開始点に対応する回帰行列及び終了点に対応する回帰行列を選択する。

回帰行列の選択は前記確率分布の尤度に基づいて行う。音声素片は図５の上段に示すようにＴ個のスペクトルパラメータｘ_ｔ（１＝＜ｔ＝＜Ｔ）を持つ。

この時、開始点における回帰行列はｐ_ｋ（ｘ_１）を最大にするｋに対応する回帰行列W_ｋを選択する。具体的には、Ｎにｘ_１を代入して、ｐ_１（ｘ_１）〜ｐ_ｋ（ｘ_１）の中で最も尤度が高いｐ_ｔ（ｘ_１）を求め、それに対応する回帰行列を選択する。終了点における回帰行列はｐ_ｋ（ｘ_Ｔ）も同様にして、尤度を最大にするｋに対応する回帰行列W_ｋを選択することにより決定する。これらをそれぞれＷ_ｓ、Ｗ_ｅとする
（２−２−４）補間係数決定部２３
次に、補間係数決定部２３において、音声素片内のスペクトルパラメータに対する変換規則の補間係数を求める。

ここでは、補間係数は、隠れマルコフモデル（ＨＭＭ）に基づいて決定する。ＨＭＭを用いた補間係数決定を、図７を参照して説明する。

変換規則選択部１１で、選択された開始点に対する確率分布を第１の状態の出力分布とし、終了点に対する確率分布を第２の状態の出力分布とし、さらに状態遷移確率を与えて、音声素片に対応する状態２のＨＭＭを決定する。

このように構築されたＨＭＭに対して、音声素片の時刻ｔのスペクトルパラメータが状態１において出力される確率を第１の状態に対応する回帰行列の補間係数、状態２において出力される確率を第２の状態に対応する回帰行列の補間係数として、回帰行列を確率的に補間する。この様子を格子点に表したものが、図７の中央の図である。上段の格子点は、それぞれ、時刻ｔの観測ベクトルが状態１において観測される確率

下段の格子点は状態２において観測される確率

を示しており、矢印は取り得る状態遷移を表している。但し、ｑ_ｔは時刻ｔの状態、λはモデル、Ｘは音声素片から抽出したスペクトルパラメータ列Ｘ＝（ｘ_１、ｘ_２、・・・、ｘ_Ｔ）を表す。このγ_ｔ（ｉ）はＨＭＭのForward-Backwardアルゴリズムにより求めることができる。実際、観測系列ｘ_１からｘ_ｔを出力し、時刻ｔに状態ｉに存在する前向き確率をα_ｔ（ｉ）、時刻ｔに状態ｉに存在し、時刻ｘ_ｔ＋１からｘ_Ｔまで出力する後ろ向き確率β_ｔ（ｉ）を用いて、

として求めることができる。

このように、補間係数決定部２３では、γ_ｔ（１）を求め、これを開始点の回帰行列に対する補間係数ω_ｓ（ｔ）として決定する。同様に、γ_ｔ（２）を終了点の回帰行列に対する補間係数ω_ｅ（ｔ）として決定する。

図７の下段は、得られた補間比率ω_ｓ（ｔ）を示す。このように補間係数を決めた場合、ω_ｓ（ｔ）は図のように開始点において、１．０になり、音声スペクトルの変化と共に徐々に減少して、終了点において０．０になる。

（２−２−５）変換規則生成部２４
変換規則生成部２４では、音声素片の開始点の回帰行列Ｗ_ｓと、終了点の回帰行列Ｗ_ｅを、補間係数決定部２３で得られた補間係数ω_ｓ（ｔ）、ω_ｅ（ｔ）に従って補間し、各スペクトルパラメータの回帰行列を求める。時刻ｔの回帰行列Ｗ（ｔ）は、

として求める。

（２−２−６）音声パラメータ変換部２５
音声パラメータ変換部２５では、このようにして定めた回帰行列による変換規則を用いて、実際に音声パラメータを変換する。

音声パラメータの変換は式（１）で表されるように、回帰行列を変換元話者のスペクトルパラメータに適用することにより行う。

図８はこの処理を表している。時刻ｔの変換元話者のスペクトルパラメータｘ_ｔに対し、式（６）により求めた回帰行列Ｗ（ｔ）を適用し、変換先話者のスペクトルパラメータｙ_ｔを求める。

（２−３）効果
以上の処理により、声質変換部１４では時間方向において確率的に補間された音声素片の声質変換を行うことができる。

（３）スペクトル補正部１５
次に、スペクトル補正部１５の処理について述べる。スペクトル補正部１５の処理を、図９に示す。

まず、ステップ９１において、声質変換部１４において得られた変換先スペクトルパラメータから、変換先スペクトルを求める。

ステップ９２において、この変換先スペクトルに対してさらに、スペクトル補正規則記憶部１２に保持されているスペクトル補正規則を用いて補正し、補正スペクトルを得る。スペクトルの補正は、変換されたスペクトルに対して、補正フィルタを適用することにより行う。補正フィルタＨ（ｅ_ｊΩ）は、予めスペクトル補正規則学習部１８において作成しておく。図１０にスペクトル補正の例を示す。

ここで用いている補正フィルタは、変換先話者の平均スペクトルと、変換元話者のスペクトルパラメータを声質変換部１４によって変換した補正元のスペクトルパラメータから得られる平均スペクトルとの比を求めたものであり、低周波成分を低減し高周波成分を増幅する特性をもつ。

変換元のスペクトルパラメータｘ_ｔが声質変換部１４によって変換され、得られたスペクトルパラメータｙ_ｔから求めたスペクトルＹ_ｔ（ｅ_ｊΩ）に補正フィルタＨ（ｅ_ｊΩ）を適用することにより、補正スペクトルＹ_ｔｃ（ｅ_ｊΩ）を得る。

このフィルタにより、声質変換により得られたスペクトルパラメータのスペクトル特性をさらに変換先話者に近づけることができる。声質変換部１４に示す補間モデルによる声質変換は、時間方向にはスムーズになるものの、変換先話者スペクトルへの変換性能は低下する場合がある。声質変換後にスペクトル補正フィルタを適用することにより、この変換性能の低下を補償することができる。

さらに、ステップ９３において、変換先スペクトルのパワーを補正する。変換先スペクトルのパワーを変換元スペクトルのパワーにするためのパワーの比を求め、変換スペクトルにかけることにより、変換スペクトルのパワーを補正する。変換元スペクトルＸ_ｔ（ｅ_ｊΩ）、補正後の変換先スペクトルＹ_ｔｃ（ｅ_ｊΩ）からパワー比を求める場合、

として求められる。

このパワー比Ｒを適用することにより、変換スペクトルのパワーは、変換元スペクトルのパワーになり、声質変換によってパワーが不安定になることを避けることができる。

変換元スペクトルのパワーに対し、変換元の平均パワーと変換先の平均パワーとの比をさらにかけ、変換先話者のパワーに近づけたパワーをパワーの補正値としてもよい。

図１１にパワー補正の効果を示す。図は「いぬ（ｉ−ｎ−ｕ）」という発声の音声波形を示している。変換元音声波形に対し、声質変換部１４による変換と前述したスペクトル補正とを適用した波形が変換音声波形として示されている。

これに対して、変換元音声波形のパワーとなるように各ピッチ波形のスペクトルを補正したものが補正音声波形である。変換音声波形では「ｎ−Ｒ」の部分などにおいて不自然なパワーが見られるのに対し、前述した処理により補正されることがわかる。

（４）音声波形生成部１６
次に、音声波形生成部１６では、得られた変換先スペクトルから音声波形を生成する。

得られた変換先スペクトルに適当な位相を与え、逆フーリエ変換することによりピッチ波形を生成し、得られたピッチ波形をピッチマークに重畳合成することにより波形が合成される。図１２にこの処理を示す。

声質変換部１４で得られた変換先スペクトルパラメータ（ｙ_１、・・・、ｙ_Ｔ）は、スペクトル補正部１５でスペクトルを補正し、スペクトル包絡が得られる。

このスペクトル包絡からピッチ波形を生成し、さらにピッチマークに従って重畳することで、変換先音声素片が得られる。

ここでは、逆フーリエ変換によりピッチ波形を合成したが、適当な音源情報を与え、フィルタリングすることによりピッチ波形を再合成してもよい。ＬＰＣ係数の場合は全極フィルタ、メルケプストラムの場合はＭＬＳＡフィルタにより、音源情報とスペクトル包絡パラメータからピッチ波形を合成することができる。

また、上述したスペクトル補正では周波数領域でフィルタリング等を行っているが、波形生成した後、時間領域でフィルタリング等を行ってもよい。この場合、声質変換部において変換されたピッチ波形を生成し、ピッチ波形に対してスペクトル補正を適用することになる。

以上の声質変換部１４、スペクトル補正部１５、音声波形生成部１６の処理により変換元話者の音声素片に声質変換及びスペクトル補正を適用することで変換先音声素片が得られる。さらに変換先音声素片を接続することで、変換元話者の音声データに対応する変換先音声データを作成することができる。

（５）声質変換規則学習部１７
次に、声質変換規則学習部１７の処理について述べる。

声質変換規則学習部１７では、変換先話者の少量の音声データと、変換元話者の音声素片データベースから声質変換規則を学習する。声質変換規則の学習時も声質変換部１４で用いられている補間に基づく声質変換を仮定し、声質変換した際に誤差最小になるように回帰行列を求める。

（５−１）声質変換規則学習部１７の構成
声質変換規則学習部１７の構成を図１３に示す。

声質変換規則学習部１７は、変換元話者音声素片データベース１３１を持ち、声質変換規則学習データ作成部１３２と、音響モデル学習部１３３と、回帰行列学習部１３４から構成され、変換先話者の少量の音声データを用いて声質変換規則を学習する。

（５−２）声質変換規則学習データ作成部１３２
声質変換規則学習データ作成部１３２の処理を、図１４に示す。

（５−２−１）変換先話者音声素片抽出部１４１
変換先話者音声素片抽出部１４１において、学習データとして与えられた変換先話者音声データは、音声素片抽出部１３と同様の処理により音声素片に分割され、学習用の変換先話者音声素片となる。

（５−２−２）変換元話者音声素片選択部１４２
次に、変換元話者音声素片選択部１４２において、変換先話者の音声素片に対応する変換元話者の音声素片を変換元話者音声素片データベース１３１から選択する。

変換元話者音声素片データベース１３１は、図１５に示すように、音声波形情報と属性情報とを保持している。

「音声波形情報」は、音声素片の番号と共に音声単位の音声波形を保持している。

「属性情報」は、音声波形の素片番号に対応する音韻、基本周波数、音韻継続時間長、接続境界ケプストラム、音素環境の情報を持つ。

音声素片の選択は、非特許文献２と同様に、コスト関数に基づいて行うことができる。コスト関数は、変換先話者音声素片と変換元話者音声素片との間の歪みを、属性の歪みによって推定する関数であり、各属性の歪みを表すサブコスト関数の線形結合として表される。属性としては、対数基本周波数、継続長、音韻環境、端点のスペクトルパラメータである接続境界ケプストラム等を用い、これらの歪みの重み付け和として音声素片間のコスト関数を定義する。

ここで、Ｃ_ｎ（ｕ_ｔ，ｕ_ｃ）は、属性情報毎のサブコスト関数（ｎ：１，・・・，Ｎ、Ｎはサブコスト関数の数）であり、変換先話者の音声素片と変換元話者との音声素片の基本周波数の違い（差）を表す基本周波数コストＣ_１（ｕ_ｔ，ｕ_ｃ）、音韻継続時間長の違い（差）を表す音韻継続時間長コストＣ_２（ｕ_ｔ，ｕ_ｃ）、素片境界におけるスペクトルの違い（差）を表すスペクトルコストＣ_３（ｕ_ｔ，ｕ_ｃ）、Ｃ_４（ｕ_ｔ，ｕ_ｃ）_、音韻環境の違い（差）を表す音韻環境コストＣ_５（ｕ_ｔ，ｕ_ｃ）、Ｃ_６（ｕ_ｔ，ｕ_ｃ）を用いる。ｗ_ｎは各サブコストの重み、ｕ_ｔは変換先話者の音声素片、ｕ_ｃは変換元話者音声素片データベース１３１に含まれる変換元話者の音声素片のうち、ｕ_ｔと同じ音韻の音声素片を表す。

変換元話者音声素片選択部１４２では、変換先話者音声データそれぞれに対して、変換元話者音声素片データベース１３１内の同じ音韻の音声素片の中からコスト最小となる音声素片を選択する。

（５−２−３）ペクトルパラメータマッピング部１４３
選択された変換元話者の音声素片が変換先話者の音声素片はピッチ波形数が異なるため、ペクトルパラメータマッピング部１４３において、ピッチ波形数を揃える処理を行う。

これは、ＤＴＷ（動的時間伸縮）による方法、線形にマッピングする方法、区分線形関数でマッピングする方法などにより、変換元話者のスペクトルパラメータと変換先話者のスペクトルパラメータを時間方向に対応付けることにより行う。

この結果、変換先話者の各スペクトルパラメータに対して、変換元話者のスペクトルパラメータが対応づけられる。これらの処理により、変換元話者のスペクトルパラメータと、変換先話者のスペクトルパラメータを１対１対応させて、スペクトルパラメータの対を求め、これらを声質変換規則の学習データとする。

（５−３）音響モデル学習部１３３
次に、音響モデル学習部１３３において、声質変換規則記憶部１１に保持する確率分布ｐ_ｋ（ｘ）を作成する。ｐ_ｋ（ｘ）は変換元話者の音声素片を学習データとして、最尤推定によって求める。

音響モデル学習部１３３のフローチャートを図１７に示す。音響モデル学習部１３３は、端点ＶＱによる初期値生成ステップ１７１と、出力分布選択ステップ１７２と、最尤推定ステップ１７３と、収束判定ステップ１７４の処理により行われ、収束判定ステップにおいては最尤推定による尤度の増分が予め与えた閾値以下となる場合に終了する。以下、順番に詳しく説明する。

まず、変換元話者の音声素片データベースに含まれる音声素片の両端の音声スペクトルを抽出し、ベクトル量子化によりクラスタリングする。ＬＢＧアルゴリズムによりクラスタリングを行うことができる。その後各クラスタの平均ベクトル及び共分散行列を計算する。これら、クラスタリングした結果作成される分布を、確率分布ｐ_ｋ（ｘ）の初期値とする（図１６）。

次にＨＭＭによる補間モデルを仮定して、確率分布の最尤推定を行う。変換元話者音声素片データベースに含まれる音声素片それぞれについて、開始点及び終了点の音声パラメータに対して尤度最大となる確率分布を選択する。

このように選択された確率分布を、補間係数決定部２３と同様にＨＭＭの第１の状態の出力分布及び、第２の状態の出力分布として決定する。このように出力分布を決定し、ＥＭアルゴリズムによるＨＭＭの最尤推定により分布の平均ベクトル及び共分散行列、状態遷移確率の更新を行う。状態遷移確率は簡単のため固定値を用いてもよい。

尤度値が収束するまで更新を繰り返すことにより、ＨＭＭによる補間モデルを考慮した尤度最大となる確率分布ｐ_ｋ（ｘ）が得られる。

更新のステップにおいて、出力分布の再選択をしてもよい。その場合、更新の各ステップにおいて、ＨＭＭの尤度が増加するように各状態の分布を再選択し、更新していく。尤度最大となる分布を選択する場合、ＨＭＭの尤度計算がＫ_２回（Ｋは分布数）必要となるため現実的ではない。端点のスペクトルパラメータに対して尤度最大となる出力分布を選択し、それによって音声素片に対するＨＭＭの尤度が増加する場合のみ前の繰り返しに用いた分布から置き換えてもよい。

（５−４）回帰行列学習部１３４
回帰行列学習部１３４では、音響モデル学習部１３３において得られた確率分布に基づいて、回帰行列を学習する。回帰行列の計算は重回帰分析により行う。補間モデルを考えた場合、ある変換元スペクトルパラメータｘから変換先スペクトルパラメータｙを求める回帰行列による推定式は式（１）、式（６）より、

となる。但し、Ｗ_ｓ、Ｗ_ｅはそれぞれ開始点、終了点における回帰行列であり、ω_ｓ、ω_ｅはそれぞれの補間係数を表す。補間係数は、補間係数決定部２３と同じ処理により求めることができる。この時、ｐ次のパラメータｙ（ｐ）に対する回帰行列の推定式は、

として表される自乗誤差を最小とするＷを求めることにより求められる。但し、式中Ｙ_（ｐ）は、変換先スペクトルパラメータのｐ次のパラメータを並べたベクトルであり、

但し、Ｍは学習データのスペクトルパラメータ数を表す。Ｘは、変換元スペクトルパラメータに重みを掛けたものを並べたベクトルであり、ｍ番目の学習データに対して、ｋ_ｓを開始点における回帰行列番号、ｋ_ｅを終了点における回帰行列番号としたとき、Ｘ_ｍは、ｋ_ｓ×Ｐ、ｋ_ｅ×Ｐ番目（但し、Ｐはベクトルの次数）のみ値をもつベクトル

とし、これを並べた行列を

としたとき、ｐ次の係数に対する回帰係数Ｗ_（ｐ）は、

として表される方程式を解くことにより求められる。ここで、Ｗ_（ｐ）は、

但し、ｗ_ｋ（ｐ）は、図６に示す声質変換規則記憶部１１に含まれるｋ番目の回帰行列のｐ行目の値を表す。式（１２）を全ての次元について時、ｋ番目の回帰行列に対する成分を並べることにより、

として求めることができる。

以上の処理により回帰行列学習部１３４において、声質変換規則記憶部１１に保持する確率分布及び、回帰行列を作成することができる。

（６）スペクトル補正規則学習部１８
次に、スペクトル補正規則学習部１８の処理を述べる。

スペクトル補正部１５では、声質変換部１４において変換し得られたスペクトルに対し補正を行う。補正としては上述したようにスペクトル補正及びパワーの補正を行う。

（６−１）スペクトル補正
スペクトル補正は、声質変換部１４で得られた変換スペクトルパラメータをさらに変換先話者に近づけるように補正を行い、声質変換部１４において補間モデルを仮定したことに起因する変換精度の低下を補償する。

スペクトル補正規則学習のフローチャートを図１８に示す。スペクトル補正規則の学習も声質変換規則学習データ作成部１３２において得られた学習データ対を用いて行う。

まず、補正元平均スペクトル算出ステップ１８１において、補正元の平均スペクトルを算出する。変換元スペクトルパラメータを声質変換部１４により変換して変換先スペクトルパラメータを得る。この得られた変換先スペクトルパラメータから求めるスペクトルが、補正元スペクトルである。声質変換規則学習データ作成部１３２において得られた学習データ対の変換元のスペクトルパラメータを変換して補正元スペクトルを求め、全学習データの平均値を求めることにより補正元平均スペクトルを得る。

次に、変換先平均スペクトル算出ステップ１８２において、変換先の平均スペクトルを求める。これは、補正元と同様に、声質変換規則学習データ作成部１３２において得られた学習データ対の変換先のスペクトルパラメータから変換先スペクトルを求め、全学習データの平均値を求めることにより得られる。

次に、スペクトル比算出ステップ１８３において、補正元平均スペクトルと、変換先平均スペクトルの比を求め、これをスペクトル補正規則とする。ここではスペクトルとしては振幅スペクトルを用いている。

変換先話者の平均音声スペクトルを、Ｙ_ａｖｅ（ｅ_ｊΩ）、補正元の平均音声スペクトルを、Ｙ'_ａｖｅ（ｅ_ｊΩ）としたとき、平均スペクトル比Ｈ（ｅ_ｊΩ）は、振幅スペクトルの比として、式（１７）により求める。

（６−２）スペクトル補正規則
図１９及び図２０にスペクトル補正規則の例を示す。図１９の太線は、変換先平均スペクトル、細線は補正元平均スペクトル、点線は変換元平均スペクトルを示している。

声質変換部１４によって平均スペクトルは、変換元平均スペクトルから補正元平均スペクトルへと変換され、変換先話者平均スペクトルに近づくものの、一致せずに近似誤差が生じていることがわかる。

このずれを比率として表したものが図２０に示した振幅スペクトル比である。この振幅スペクトル比を声質変換部１４によって変換されたそれぞれのスペクトルに対して適用ことによりスペクトル形状を補正する。

スペクトル補正規則記憶部１２は、このように作成した平均スペクトル比による補正フィルタを保持しており、図１０に示したように、スペクトル補正部１５においてこの補正フィルタを適用する。

また、スペクトル補正規則記憶部１２には平均パワー比も保持してよい。この場合、変換先話者平均パワー及び、補正元平均パワーを求め、その比を保持する。パワー比Ｒ_ａｖｅは、変換先平均スペクトルＹ_ａｖｅ（ｅ_ｊΩ）及び、変換元平均スペクトルＸ_ａｖｅ（ｅ_ｊΩ）から、

として求められる。スペクトル補正部１５においては、声質変換部１４で得られたスペクトルパラメータから求めたスペクトルに対し、変換元スペクトルへのパワー補正を行い、さらに平均パワー比Ｒ_ａｖｅをかけることにより、平均パワーを変換先話者に近づけることができる。

（７）効果
上述したように、本実施形態によれば回帰行列を確率的に補間することにより、時間方向に滑らかな声質変換が可能になり、かつ、変換した音声パラメータのスペクトルもしくはパワーを補正することにより、補間モデルを仮定することに起因する変換先話者への類似度の低下を低減する声質変換が可能になる。

（８）変更例
本実施形態においては、確率的な補間モデルを仮定したが、処理を簡略にするために線形補間を用いてもよい。

その場合、声質変換規則記憶部１１は、図２１に示すようにＫ個の回帰行列及び各回帰行列に対応した代表スペクトルパラメータを保持する。変換規則選択部１１における回帰行列の選択は前記代表スペクトルパラメータを用いて行う。

図７と同様に、図２２に示すようにＴ個のスペクトルパラメータｘ_ｔ（１＝＜ｔ＝＜Ｔ）に、開始点ｘ_１における回帰行列はｘ_１と代表スペクトルパラメータとの距離最小のｋに対応する回帰行列W_ｋをＷ_ｓとし、終了点における回帰行列はｘ_Ｔと代表スペクトルパラメータとの距離最小のｋに対応する回帰行列W_ｋをＷ_ｅとして選択することにより決定する。

次に、補間係数決定部２３においては線形補間に基づいて補間係数を決定する。この場合、開始点の回帰行列に対する補間係数ω_ｓ（ｔ）は、

として求められ、また終了点の回帰行列に対する補間係数ω_ｅ（ｔ）は、１−ω_ｓ（ｔ）として求めることができる。これらの補間係数を用いて、式（６）により時刻ｔの回帰行列Ｗ（ｔ）を求めることができる。

線形補間を用いた場合の声質変換規則学習部１７における、音響モデル学習部１３３においては、声質変換規則記憶部１１に保持する代表スペクトルパラメータｃ_ｋを作成する。ｃ_ｋは図１７のステップ１７１において作成された端点ＶＱによる初期値の平均ベクトルを用いることができる。

すなわち、変換元話者の音声素片データベースに含まれる音声素片の両端の音声スペクトルを抽出し、ベクトル量子化によりクラスタリングする。ＬＢＧアルゴリズムによりクラスタリングを行うことができる。その後、各クラスタのセントロイドをｃ_ｋとして保持することができる。

また、声質変換規則学習部１７の回帰行列学習部１３４では、音響モデル学習部１３３において得られた代表スペクトルパラメータを用いて、回帰行列を学習する。回帰行列の計算は、上述した式（９）から式（１６）と同様に行うことができる。式（９）から式（１６）中のω_ｓ及びω_ｅとして、式（３）、（４）の変わりに式（１９）を用いることにより学習される。この場合、補間重み決定の際に変換元音声素片の各ピッチ波形の変化の度合いを考慮しないものの、声質変換時及び声質変換規則学習時の処理量を減少させることができる。

（第２の実施形態）
本発明の第２の実施形態に係わるテキスト音声合成装置について図２３〜図２８に基づいて説明する。このテキスト音声合成装置は、第１の実施形態に係わる声質変換装置を音声合成装置に適用したもので、任意文の入力に対して、変換先話者の声質をもつ合成音声を生成する。

（１）テキスト音声合成装置の構成
図２３は、本実施形態に係わるテキスト音声合成装置を示すブロック図である。

テキスト音声合成装置は、テキスト入力部２３１、言語処理部２３２、韻律処理部２３３、音声合成部２３４、音声波形出力部２３５から構成される。

言語処理部２３２は、テキスト入力部２３１から入力されるテキストの形態素解析・構文解析を行い、その結果を韻律処理部２３３へ送る。

韻律処理部２３３は、言語解析結果からアクセントやイントネーションの処理を行い、音韻系列（音韻記号列）及び韻律情報を生成し、音声合成部２３４へ送る。

音声合成部２３４は、音韻系列及び韻律情報から音声波形を生成する。

音声波形出力部２３５は、こうして生成された音声波形を出力する。

（２）音声合成部２３４
図２４は、音声合成部２３４の構成例を示したものである。音声合成部２３４は、音韻系列・韻律情報入力部２４１、音声素片選択部２４２、音声素片編集・接続部２４３、音声波形出力部２４５と、変換先の音声素片及び属性情報を保持する変換先音声素片データベース２４４より構成される。

本実施形態においては、変換先音声素片データベース２４４は、変換元話者音声素片データベース１３１に含まれる各音声素片に対して、第１の実施形態に係わる声質変換装置の音声素片変換部１を用いて変換することによって得られる変換先の音声素片データベースであることを特徴としている。

（２−１）変換元話者音声素片データベース１３１
変換元話者音声素片データベース１３１は、第１の実施形態と同様に、変換元話者の音声データから作成した所定の音声単位に分割された音声素片及び属性情報が記憶されている。

音声素片は、図１５に示すように、ピッチマークの付与された変換元話者の音声素片の波形が当該音声素片を識別するための番号と共に格納されており、属性情報は、音韻（半音素名など）、基本周波数、音韻継続時間長、接続境界ケプストラム、音素環境など、音声素片選択２４２において用いる情報が当該音声素片の素片番号と共に記憶されている。音声素片及び属性情報は、変換先話者の素片抽出部、属性作成部の処理と同様に、変換元話者の音声データから、ラベリング、ピッチマーキング、属性生成、素片抽出等の工程により作成される。

（２−２）音声素片変換部１
音声素片変換部１では、変換元話者音声素片データベースに含まれる各音声素片に対して第１の実施形態に示した声質変換装置を用いて変換先話者の声質に変換した変換先音声素片データベース２４４を作成する。

音声素片変換部１では、変換元話者の各音声素片に対して、図１に示す声質変換処理を行う。すなわち、声質変換部１４において音声素片の声質を変換し、スペクトル補正部１５において、変換音声素片のスペクトルを補正し、音声波形生成部１６においてピッチ波形を生成して重畳することにより変換先音声素片を得る。声質変換部１４においては、音声パラメータ抽出部２１、変換規則選択部２２、補間係数決定部２３、変換規則生成部２４、音声パラメータ変換部２５の処理により声質を変換し、さらにスペクトル補正部１５においては、図９に示すスペクトル補正の処理によりスペクトルを補正し、音声波形生成部１６においては、図１２に示すの音声波形生成部の処理により変換音声素片を得る。このように得られた変換先音声素片とその属性情報を変換先音声素片データベース２４４に蓄積する。

（２−３）音声合成部２３４の詳細
音声合成部２３４では、音声素片データベース２４４から音声素片を選択し、音声合成を行う。

（２−３−１）音韻系列・韻律情報入力部２４１
音韻系列・韻律情報入力部２４１には、韻律処理部２３３から出力された入力テキストに対応する音韻系列及び韻律情報が入力される。音韻系列・韻律情報入力部２４１に入力される韻律情報としては、基本周波数、音韻継続時間長などがある。

（２−３−２）音声素片選択部２４２
音声素片選択部２４２は、入力音韻系列の各音声単位に対し、入力韻律情報と、音声素片データベース２４４に保持されている属性情報とに基づいて合成音声の歪みの度合いを推定し、前記合成音声の歪みの度合いに基づいて音声素片データベース２４４に記憶されている音声素片の中から、音声素片を選択する。

ここで、合成音声の歪みの度合いは、音声素片データベース２４４に保持されている属性情報と音韻系列・韻律情報入力部２４１から送られる目標音素環境との違いに基づく歪みである目標コストと、接続する音声素片間の音素環境の違いに基づく歪みである接続コストの重み付け和として求められる。

音声素片を変形・接続して合成音声を生成する際に生ずる歪の要因毎にサブコスト関数Ｃ_ｎ（ｕ_ｉ，ｕ_ｉ−１，ｔ_ｉ）（ｎ：１，・・・，Ｎ，Ｎはサブコスト関数の数）を定める。第１の実施例に記述されている式（８）のコスト関数は、２つの音声素片の間の歪みを測るためのコスト関数であり、ここで定義するコスト関数は入力韻律・音韻系列と音声素片との間の歪みを測るためのコスト関数である点が異なる。ｔ_ｉは、入力音韻系列及び入力韻律情報に対応する目標とする音声（目標音声）をｔ＝（ｔ_１，・・・，ｔ_Ｉ）としたときのｉ番目のセグメントに対応する部分の音声素片の目標とする属性情報を表し、ｕ_ｉは変換先話者音声素片データベース２４４に記憶されている音声素片のうち、ｔ_ｉと同じ音韻の音声素片を表す。

サブコスト関数は、変換先話者音声素片データベース２４４に記憶されている音声素片を用いて合成音声を生成したときに生ずる当該合成音声の目標音声に対する歪みの度合いを推定するためのコストを算出するためのものである。目標コストとしては、変換先話者音声素片データベース２４４に記憶されている音声素片の基本周波数と目標の基本周波数との違い（差）を表す基本周波数コストＣ_１（ｕ_ｉ，ｕ_ｉ−１，ｔ_ｉ）、音声素片の音韻継続時間長と目標の音韻継続時間長との違い（差）を表す音韻継続時間長コストＣ_２（ｕ_ｉ，ｕ_ｉ−１，ｔ_ｉ）、音声素片の音韻環境と、目標の音韻環境との違い（差）を表す音韻環境コストＣ_３（ｕ_ｉ，ｕ_ｉ−１，ｔ_ｉ）を用いる。接続コストとしては、接続境界でのスペクトルの違い（差）を表すスペクトル接続コストＣ_４（ｕ_ｉ，ｕ_ｉ−１，ｔ_ｉ）を用いる。

これらのサブコスト関数の重み付き和を音声単位コスト関数と定義する。

ここで、ｗ_ｎはサブコスト関数の重みを表す。本実施例では、簡単のため、ｗ_ｎは全て「１」とする。上記式（２０）は、ある音声単位に、ある音声素片を当てはめた場合の当該音声素片の音声単位コストである。

入力音韻系列を音声単位で区切ることにより得られる複数のセグメントのそれぞれに対し、上記式（２０）から音声単位コストを算出した結果を、全セグメントについて足し合わせたものをコストと呼び、当該コストを算出するためのコスト関数を次式（２１）に示すように定義する。

音声素片選択部２４２では、上記式（２１）に示したコスト関数を用いて、音声素片を選択する。ここでは、変換先話者音声素片データベース２４４に記憶されている音声素片のなかから、上記式（２１）で算出されるコスト関数の値が最小となる音声素片の系列を求める。このコストが最小となる音声素片の組み合わせを最適素片系列と呼ぶこととする。すなわち、最適音声素片系列中の各音声素片は、入力音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対応し、最適音声素片系列中の各音声素片から算出された上記音声単位コストと式（２１）より算出されたコストの値は、他のどの音声素片系列よりも小さい値である。なお、最適素片系列の探索には、動的計画法（ＤＰ：ｄｙｎａｍｉｃｐｒｏｇｒａｍｍｉｎｇ）を用いることでより効率的に行うことができる。

（２−３−３）音声素片編集・接続部２４３
音声素片編集・接続部２４３では、選択された音声素片を、入力韻律情報に従って変形し、接続することで合成音声の音声波形を生成する。選択された音声素片からピッチ波形を抽出し、当該音声素片の基本周波数、音韻継続時間長のそれぞれが、入力韻律情報に示されている目標の基本周波数、目標の音韻継続時間長になるようにピッチ波形を重畳することで、音声波形を生成することができる。

図２５は、音声素片編集・接続部２４３の処理を説明するための図である。図２５では、「あいさつ」という合成音声の音素「ａ」の音声波形を生成する例を示している。上から選択された音声素片、ピッチ波形抽出のためのハニング窓、ピッチ波形及び合成音声を示している。合成音声の縦棒はピッチマークを表しており、入力韻律情報に示されている目標の基本周波数、目標の音韻継続時間長に応じて作成される。

このピッチマークにしたがって所定の音声単位毎に、選択された音声素片から抽出したピッチ波形を重畳合成することにより、素片の編集を行って基本周波数及び音韻継続時間長を変更する。その後に、音声単位間で、隣り合うピッチ波形を接続して合成音声を生成する。

（３）効果
上述したように、本実施形態では、第１の実施例に示す声質変換装置における音声素片変換部１により変換した変換先話者音声素片データベースを用いて、素片選択型の音声合成を行うことが可能になり、任意の入力文章に対応する合成音声を生成することができる。

すなわち、変換先話者の少量のデータを用いて作成した声質変換規則を、変換元話者の音声素片データベース中の各音声素片に適用して変換先話者の音声素片データベースを作成し、該変換先話者音声素片データベースから音声を合成することにより変化先話者の声質を持つ任意文の合成音を得ることができる。

また、本実施形態によれば、変換規則の補間に基づく時間方向に滑らかな声質変換を適用することができ、さらにスペクトル補正を行うことにより自然な声質変換を、変換元話者の音声素片データベースに適用することにより得られる変換先音声素片データベースから音声を合成することができ、自然な変換先話者の合成音声が得られる。

（４）変更例１
本実施形態では、声質変換規則を事前に変換元話者音声素片データベースの各音声素片に適用したが、合成時に声質変換規則を適用してもよい。

（４−１）構成
この場合、音声合成部２３４は図２６に示すように、変換元話者音声素片データベース１３１を保持する。

音声合成時には、音韻系列・韻律情報入力部２６１において、テキスト解析の結果得られた音韻系列及び韻律情報を入力し、音声素片選択部２６２において、変換元話者音声素片データベースから式（２１）より算出されたコストの値を最小化するように音声素片を選択し、音声素片変換部２６３において、選択された音声素片の声質を変換する。

音声素片変換部２６３における声質変換は、図１に示す音声素片変換部１に示す処理により行うことができる。

その後、変換された音声素片を音声素片編集・接続部２６４において、韻律の変更及び接続を行い合成音声が得られる。

（４−２）効果
本構成によれば、音声合成時に声質変換処理が加わるため音声合成時の計算量は増加するが、音声素片変換部１によって合成に用いる音声素片の声質を変換することができるため、変換先話者の声質で合成音声を生成する場合においても変換先音声素片データベースを保持する必要がなくなる。

このため、さまざまな話者の声質で音声合成する音声合成システムを構築する場合に、変換元話者の音声素片データベースと各話者へ変換する声質変換規則及びスペクトル補正規則を保持することのみで実現でき、全ての話者の音声素片データベースを保持するよりも少ないメモリ量で実現することができる。

また、新たな話者への変換規則を作成した場合に、その変換規則のみをネットワークを通じて他の音声合成システムに伝送することができ、あらたな話者の声質を伝送する際に、その話者の音声素片データベース全てを伝送する必要がなくなり、伝送に必要な情報量を減らすことができる。

（５）変更例２
本実施形態では、素片選択型の音声合成に声質変換を適用する場合について述べたが、これに限定するものではない。複数素片選択・融合型の音声合成に声質変換を適用してもよい。

この場合の音声合成装置を図２７に示す。

音声素片変換部１において変換元話者音声素片データベース１３１を変換し、変換先話者音声素片データベース２４４を作成する。

音声合成部２３４では、音韻系列・韻律情報入力部２７１において、テキスト解析の結果得られた音韻系列及び韻律情報を入力し、複数音声素片選択部２７２において音声素片データベースから式（２１）より算出されたコストの値に基づいて音声単位毎に複数の音声素片を選択する。

そして、複数音声素片融合部２７３において、選択された複数の音声素片を融合して融合音声素片を作成し、作成された融合音声素片を、融合音声素片編集・接続部２７４において韻律の変更及び接続を行い合成音声の音声波形を生成する。

複数素片選択部２７２の処理及び、複数音声素片融合部２７３の処理は（特開２００５‐１６４７４９公報参照）に示されている方法により行うことができる。

複数素片選択部２７２では、まず式（２１）のコスト関数の値を最小化するようにＤＰアルゴリズムを用いて最適音声素片系列を選択する。

その後、各音声単位に対応する区間において、前後の隣の音声単位区間の最適音声素片との接続コスト及び該当する区間の入力された属性との目標コストとの和をコスト関数として、変換先話者音声素片データベースに含まれる同じ音韻の音声素片の中からコスト関数の値の小さい順に、複数の音声素片を選択する。

このように、選択した複数の音声素片は、複数音声素片融合部において融合され、選択された複数の音声素片を代表する音声素片を得る。音声素片融合は、選択された各音声素片からピッチ波形を抽出し、抽出したピッチ波形の波形数をピッチ波形の複製や削除を行うことにより目標とする韻律から生成したピッチマークに揃え、各ピッチマークに対応する複数のピッチ波形を時間領域で平均化することにより行うことができる。この融合音声素片を融合音声素片編集・接続部２７４において、韻律の変更及び接続を行い合成音声の音声波形が生成される。複数素片選択・融合型の音声合成は、素片選択型より安定感の高い合成音声が得られることが確認されているため、本構成によれば、安定感・肉声感の高い変換先話者の声質の音声合成を行うことができる。

（６）変更例３
また、本実施形態では、予め声質変換規則を適用することにより作成した音声素片データベースを保持する複数素片選択・融合型の音声合成について述べたが、変換元話者音声素片データベースから複数の音声素片を選択し、選択された複数の音声素片を声質変換し、変換した複数の音声素片を融合することにより融合音声素片を作成し、編集・接続することにより音声を合成してもよい。

（６−１）構成
この場合、音声合成部２３４は図２８に示すように、変換元話者音声素片データベース１３１と共に、第１の実施形態に係わる声質変換装置における声質変換規則及びスペクトル補正規則を保持する。

音声合成時には、音韻系列・韻律情報入力部２８１において、テキスト解析の結果得られた音韻系列及び韻律情報を入力し、複数音声素片選択部２８２において、図２７の複数音声素片選択部２７２と同様に、変換元話者音声素片データベース１３１から音声単位毎に複数の音声素片を選択する。

選択された複数の音声素片は、音声素片変換部２８３において、変換先話者の声質を持つ音声素片に変換される。音声素片変換部２８３の処理は図１の音声素片変換部１と同様の処理により行う。

その後、変換された音声素片を複数音声素片融合部２８４において融合し、音声素片編集・接続部２８５において、韻律の変更及び接続を行い合成音声の音声波形が生成される。

（６−２）効果
本構成によれば、音声合成時に声質変換処理が加わるため音声合成時の計算量は増加するが、保持されている声質変換規則によって合成音声の声質を変換することができるため、変換先話者の声質で合成音声を生成する場合においても変換先話者の声質の音声素片データベースを保持する必要がなくなる。

このため、さまざまな話者の声質で音声合成する音声合成システムを構築する場合に、変換元話者の音声素片データベースと各話者の声質変換規則を保持することのみで実現でき、全ての話者の音声素片データベースを保持するよりも少ないメモリ量で実現することができる。

また、複数素片選択・融合型の音声合成は、素片選択型より安定感の高い合成音声が得られることが確認されているため、本構成によれば、安定感・肉声感の高い変換先話者の声質の音声合成を行うことができる。

（７）変更例４
また、本実施形態では素片選択型音声合成及び複数素片選択・融合型の音声合成に対して第１の実施形態に係わる声質変換装置を適用したが、これに限定するものではない。

例えば、素片学習型音声合成の一つである閉ル―プ学習に基づく音声合成装置（特許第３２８１２８１号公報参照）に適用することもできる。

素片学習型音声合成では、学習データとなる複数の音声素片からそれらを代表する音声素片を学習し保持し、その学習された音声素片を入力音韻系列・韻律情報に従って編集・接続することにより音声を合成する。

この場合、学習データとなる音声素片を声質変換し変換音声素片から代表音声素片を学習することにより声質変換を適用することができる。また、学習された音声素片に対して声質変換を適用し、変換先話者の声質の代表音声素片を作成することもできる。

また、第１及び第２の実施形態においては、ピッチ同期分析に基づいて音声素片を分析・合成しているが、これに限定するものではない。例えば無声音の区間ではピッチは観測されないためピッチ同期処理を行うことはできない。このような区間では、固定フレームレートによる分析合成により声質変換することができる。但し、無声音区間に限らず固定フレームレートによる分析合成を用いてもよい。また、無声音の音声素片は変換せず、変換元話者の音声素片をそのまま利用してもよい。

（８）変更例５
なお、本発明は上記第１及び第２の実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

本発明の第１の実施形態に係わる声質変換装置の構成を示すブロック図である。声質変換部１３の構成を示すブロック図である。音声素片抽出部１２の動作を示すフローチャートである。音声素片抽出部１２におけるラベリング及びピッチマーキングの例を示す図である。音声素片及び音声素片からのスペクトルパラメータ抽出の例を示す図である。声質変換規則記憶部１１の例を示す図である。声質変換部１４の処理を示す図である。音声パラメータ変換部２５の処理の例を示す図である。スペクトル補正部１５の動作を示すフローチャートである。スペクトル補正部１５の処理の例を示す図である。スペクトル補正部１５の処理の例を示す図である。音声波形生成部１５の処理の例を示す図である。声質変換規則学習部１７の構成を示すブロック図である。声質変換規則学習データ作成部１３２の構成を示すブロック図である。変換元話者音声素片データベースの波形情報及び属性情報の例を示す図である。音響モデル学習部の処理の例を示す図である。音響モデル学習部の動作を示すフローチャートである。スペクトル補正規則学習部１８の動作を示すフローチャートである。スペクトル補正規則学習部１８の処理の例を示す図である。スペクトル補正規則学習部１８の処理の例を示す図である。声質変換規則記憶部１１の例を示す図である。声質変換部１４の処理を示す図である。本発明の第２の実施形態に係わる音声合成装置の構成を示すブロック図である。音声合成部２３４の構成を示すブロック図である。音声素片編集・接続部２８３の動作の例を示す図である。音声合成部２３４の構成を示すブロック図である。音声合成部２３４の構成を示すブロック図である。音声合成部２３４の構成を示すブロック図である。

符号の説明

１・・・音声素片変換部
１１・・・声質変換規則記憶部
１２・・・スペクトル補正規則記憶部
１３・・・音声素片抽出部
１４・・・声質変換部
１５・・・スペクトル補正部
１６・・・音声波形生成部
１７・・・声質変換規則学習部
１８・・・スペクトル補正規則学習部
２１・・・音声パラメータ抽出部
２２・・・変換規則選択部
２３・・・補間係数決定部
２４・・・変換規則性西部
２５・・・音声パラメータ変換部

Claims

元話者の音声を先話者の音声に変換する声質変換装置において、
前記元話者の音声を音声単位に区切って元話者音声素片を得る元話者音声素片生成部と、
前記元話者音声素片の各時刻におけるスペクトルをそれぞれ求め、これら各時刻のスペクトルから各時刻のスペクトルパラメータをそれぞれ求めるパラメータ算出部と、
前記元話者のスペクトルパラメータを前記先話者のスペクトルパラメータに変換する変換関数を、前記元話者のスペクトルパラメータに基づく変換関数選択パラメータに対応させて記憶している変換関数記憶部と、
（１）前記元話者音声素片の開始時刻におけるスペクトルパラメータに対応する始点の変換関数を、前記開始時刻におけるスペクトルパラメータを用いて前記変換関数記憶部に記憶した変換関数から選択すると共に、（２）前記元話者音声素片の終了時刻におけるスペクトルパラメータに対応する終点の変換関数を、前記終了時刻におけるスペクトルパラメータを用いて前記変換関数記憶部に記憶した変換関数から選択する変換関数選択部と、
前記元話者音声素片内の各時刻のスペクトルパラメータにそれぞれ対応し、かつ、前記始点の変換関数と前記終点の変換関数の間の補間係数を決定する補間係数決定部と、
前記始点の変換関数及び前記終点の変換関数を前記補間係数により補間し、前記元話者音声素片内の各時刻のスペクトルパラメータにそれぞれ対応する変換関数を生成する変換関数生成部と、
前記各時刻の変換関数を用いて前記元話者の各時刻のスペクトルパラメータを、前記先話者のスペクトルパラメータにそれぞれ変換するスペクトルパラメータ変換部と、
前記変換した前記先話者の各時刻のスペクトルパラメータから前記先話者の音声波形を生成する音声波形生成部と、
を有する声質変換装置。
前記変換関数選択部は、前記元話者音声素片の開始時刻におけるスペクトルパラメータに対応する始点の確率分布を選択して第１の状態の確率分布とし、前記元話者音声素片の終了時刻におけるスペクトルパラメータに対応する終点の確率分布を選択して第２の状態の確率分布とし、ｌｅｆｔ−ｒｉｇｈｔ型の隠れマルコフモデルを構築し、
前記補間係数決定部は、前記元話者音声素片内の各時刻のスペクトルパラメータにそれぞれ対応し、かつ、前記始点の変換関数と前記終点の変換関数の間の補間係数を、前記隠れマルコフモデルに基づいて決定する
請求項１記載の声質変換装置。
前記補間係数決定部は、前記始点の時刻から前記終点の時刻の間の各時刻に応じて、線形に変化する重みによって補間係数を決定する
請求項１記載の声質変換装置。
前記先話者の各時刻のスペクトルと前記元話者の各時刻のスペクトルとから求めるスペクトル補正量、または、予め格納されているスペクトル補正量の少なくとも一方を用いて、前記先話者の各時刻のスペクトルを補正するためのスペクトル補正量を求めるスペクトル補正量算出部と、
前記先話者の各時刻のスペクトルパラメータから得られるそれぞれのスペクトルを、前記スペクトル補正量に基づいて補正するスペクトル補正部と、
をさらに有し、
前記音声波形生成部は、前記補正した前記先話者の各時刻のスペクトルから前記先話者の音声波形を生成する
請求項１記載の声質変換装置。
前記変換関数記憶部に記憶されている前記変換関数を学習する変換関数学習部を有し、
前記変換関数学習部は、
前記元話者の学習用元話者音声素片を格納する元話者音声素片記憶部と、
前記先話者の音声を音声単位に区切って前記先話者音声素片を得る先話者音声素片生成部と、
前記学習用元話者音声素片の各時刻におけるスペクトルをそれぞれ求め、これら各時刻のスペクトルを用いて変換関数選択パラメータを作成する変換関数選択パラメータ作成部と、
前記先話者音声素片に最も類似する学習用元話者音声素片を、前記元話者記憶部から選択する元話者音声素片選択部と、
前記元話者音声素片の開始時刻におけるスペクトルパラメータに対する変換規則である始点変換関数、及び、前記元話者音声素片の終了時刻におけるスペクトルパラメータに対する変換規則である終点変換関数を選択する変換規則選択部と、
前記先話者音声素片内の各スペクトルパラメータに対応する前記始点の変換関数、及び、前記終点の変換関数の補間係数を決める補間係数決定部と、
前記先話者音声素片内の各スペクトルパラメータと、前記選択された前記元話者音声素片の各スペクトルパラメータとをそれぞれ対応づけるスペクトルパラメータ対応付け部と、
前記対応づけられたスペクトルパラメータ及び前記補間係数を用いて前記変換関数を作成する変換規則作成部と、
を有する請求項１記載の声質変換装置。
前記変換関数記憶部は、前記変換関数及び前記各変換関数に対応するスペクトルパラメータの確率分布を記憶し、
前記変換関数選択部は、
前記隠れマルコフモデルを構築する構築部と、
前記始点の確率分布に対応する変換関数を前記始点の変換関数として前記変換関数記憶部から選択する始点変換関数選択部と、
前記終点の確率分布に対応する変換関数を前記終点の変換関数として前記変換関数記憶部から選択する終点変換関数選択部と、
を有し、
前記補間係数決定部は、
前記元話者音声素片内の各時刻のスペクトルパラメータに対応した前記隠れマルコフモデルの第１の状態において出力される確率を求めて始点類似度とし、前記隠れマルコフモデルの第２の状態において出力される確率を求めて終点類似度とする類似度算出部と、
前記始点類似度及び終点類似度を補間係数とする類似度決定部と、
を有する請求項２記載の声質変換装置。
前記変換関数記憶部は、前記変換関数及び前記各変換関数に対応する代表スペクトルパラメータを記憶し、
前記変換関数選択部は、前記元話者音声素片の開始時刻及び終了時刻におけるスペクトルパラメータから代表スペクトルパラメータをそれぞれ選択し、前記代表スペクトルパラメータに対応する変換関数を始点の変換関数及び前記終点の変換関数として選択し、
前記補間係数決定部は、前記始点の変換関数及び前記終点の変換関数の線形補間により補間係数を決定する、
請求項１記載の声質変換装置。
前記スペクトル補正部は、
前記元話者の学習用元話者音声素片を格納する元話者記憶部と、
前記先話者の音声を音声単位に区切って前記先話者の音声素片を得る先話者音声素片生成部と、
前記先話者音声素片に最も類似する学習用元話者音声素片を、前記元話者記憶部から選択する元話者音声素片選択部と、
前記スペクトルパラメータ変換部により前記元話者音声素片の各時刻のスペクトルパラメータを前記先話者のスペクトルパラメータにそれぞれ変換し、これら変換した各時刻におけるスペクトルパラメータに対応する各スペクトルを平均して第１平均スペクトルを求める第１平均スペクトル抽出部と、
前記先話者音声素片の各時刻のスペクトルを求め、前記各時刻のスペクトルを平均して第２平均スペクトルを求める第２平均スペクトル抽出部と、
前記第１平均スペクトルを前記第２平均スペクトルに補正する平均スペクトル補正量を、前記スペクトル補正量として格納する補正量作成部と、
を有する請求項４記載の声質変換装置。
前記スペクトル補正部は、
前記スペクトルパラメータ変換部において変換したスペクトルパラメータから得られる変換先スペクトルの変換先パワー情報、または、前記平均スペクトル補正量を用いて補正した変換先スペクトルの変換先パワー情報を求める変換先パワー情報抽出部と、
前記元話者音声素片の各時刻のスペクトルのパワー情報を求める変換元パワー情報抽出部と、
前記変換先パワー情報を前記変換元パワー情報に基づいて補正するパワー情報補正量を求めるパワー情報補正量作成部と、
前記パワー情報補正量を用いて前記変換先スペクトルを補正するパワー補正部と、
を有する請求項４記載の声質変換装置。
前記変換関数は、前記先話者スペクトルパラメータを、前記元話者スペクトルパラメータから予測する回帰行列である、
請求項１記載の声質変換装置。
入力されたテキストから得られる音韻系列を所定の合成単位のテキスト素片に区切る合成単位作成部と、
元話者音声素片を記憶する元話者音声素片記憶部と、
前記元話者音声素片記憶部から前記テキスト素片に対応する１つ、または、複数の元話者音声素片を選択する音声素片選択部と、
前記１つの元話者音声素片、または、前記複数の元話者音声素片を融合して得られる融合音声素片を元話者代表音声素片とする代表音声素片作成部と、
前記元話者代表音声素片を請求項１記載の声質変換装置により変換して先話者代表音声素片を得る声質変換部と、
前記先話者代表音声素片を接続して音声波形を生成する音声波形生成部と、
を有する音声合成装置。
元話者音声素片を記憶する元話者音声素片記憶部と、
前記元話者代表音声素片を請求項１記載の声質変換装置により変換して先話者代表音声素片を得る声質変換部と、
前記変換した先話者代表音声素片を記憶する先話者音声素片記憶部と、
入力されたテキストから得られる音韻系列を所定の合成単位のテキスト素片に区切る合成素片作成部と、
前記先話者音声素片記憶部から前記テキスト素片に対応する１つ、または、複数の先話者代表音声素片を選択する音声素片選択部と、
前記１つの先話者代表音声素片、または、前記複数の先話者代表音声素片を融合して得られる融合音声素片を先話者代表音声素片とする代表音声素片作成部と、
前記先話者代表音声素片を接続して音声波形を生成する音声波形生成部と、
を有する音声合成装置。
元話者の音声を先話者の音声に変換する声質変換方法において、
前記元話者の音声を音声単位に区切って元話者音声素片を得る元話者音声素片生成ステップと、
前記元話者音声素片の各時刻におけるスペクトルをそれぞれ求め、これら各時刻のスペクトルから各時刻のスペクトルパラメータをそれぞれ求めるパラメータ算出ステップと、
前記元話者のスペクトルパラメータを前記先話者のスペクトルパラメータに変換する変換関数を、前記元話者のスペクトルパラメータに基づく変換関数選択パラメータに対応させて記憶している変換関数記憶ステップと、
（１）前記元話者音声素片の開始時刻におけるスペクトルパラメータに対応する始点の変換関数を、前記開始時刻におけるスペクトルパラメータを用いて前記変換関数記憶ステップにおいて記憶した変換関数から選択すると共に、（２）前記元話者音声素片の終了時刻におけるスペクトルパラメータに対応する終点の変換関数を、前記終了時刻におけるスペクトルパラメータを用いて前記変換関数記憶ステップにおいて記憶した変換関数から選択する変換関数選択ステップと、
前記元話者音声素片内の各時刻のスペクトルパラメータにそれぞれ対応し、かつ、前記始点の変換関数と前記終点の変換関数の間の補間係数を決定する補間係数決定ステップと、
前記始点の変換関数及び前記終点の変換関数を前記補間係数により補間し、前記元話者音声素片内の各時刻のスペクトルパラメータにそれぞれ対応する変換関数を生成する変換関数生成ステップと、
前記各時刻の変換関数を用いて前記元話者の各時刻のスペクトルパラメータを、前記先話者のスペクトルパラメータにそれぞれ変換するスペクトルパラメータ変換ステップと、
前記変換した前記先話者の各時刻のスペクトルパラメータから前記先話者の音声波形を生成する音声波形生成ステップと、
を有する声質変換方法。
元話者の音声を先話者の音声に変換する声質変換プログラムにおいて、
前記元話者の音声を音声単位に区切って元話者音声素片を得る元話者音声素片生成機能と、
前記元話者音声素片の各時刻におけるスペクトルをそれぞれ求め、これら各時刻のスペクトルから各時刻のスペクトルパラメータをそれぞれ求めるパラメータ算出機能と、
前記元話者のスペクトルパラメータを前記先話者のスペクトルパラメータに変換する変換関数を、前記元話者のスペクトルパラメータに基づく変換関数選択パラメータに対応させて記憶している変換関数記憶機能と、
（１）前記元話者音声素片の開始時刻におけるスペクトルパラメータに対応する始点の変換関数を、前記開始時刻におけるスペクトルパラメータを用いて前記変換関数記憶機能において記憶した変換関数から選択すると共に、（２）前記元話者音声素片の終了時刻におけるスペクトルパラメータに対応する終点の変換関数を、前記終了時刻におけるスペクトルパラメータを用いて前記変換関数記憶機能において記憶した変換関数から選択する変換関数選択機能と、
前記元話者音声素片内の各時刻のスペクトルパラメータにそれぞれ対応し、かつ、前記始点の変換関数と前記終点の変換関数の間の補間係数を決定する補間係数決定機能と、
前記始点の変換関数及び前記終点の変換関数を前記補間係数により補間し、前記元話者音声素片内の各時刻のスペクトルパラメータにそれぞれ対応する変換関数を生成する変換関数生成機能と、
前記各時刻の変換関数を用いて前記元話者の各時刻のスペクトルパラメータを、前記先話者のスペクトルパラメータにそれぞれ変換するスペクトルパラメータ変換機能と、
前記変換した前記先話者の各時刻のスペクトルパラメータから前記先話者の音声波形を生成する音声波形生成機能と、
をコンピュータに実現させるための声質変換プログラム。