JP6142401B2

JP6142401B2 - 音声合成モデル学習装置、方法、及びプログラム

Info

Publication number: JP6142401B2
Application number: JP2013177166A
Authority: JP
Inventors: 弘和亀岡; 伸克北条; 幸太吉里; 大輔齋藤; 茂樹嵯峨山
Original assignee: Nippon Telegraph and Telephone Corp; University of Tokyo NUC
Current assignee: Nippon Telegraph and Telephone Corp; University of Tokyo NUC
Priority date: 2013-08-28
Filing date: 2013-08-28
Publication date: 2017-06-07
Anticipated expiration: 2033-08-28
Also published as: JP2015045755A

Description

本発明は、音声合成モデル学習装置、方法、及びプログラムに係り、特に、テキストデータから音声波形を合成するための音声合成モデルを学習する音声合成モデル学習装置、方法、及びプログラムに関する。

統計的モデルに基づくテキスト音声合成方式の基本戦略は、音声の確率的な生成モデルを立て、学習データからそのモデルパラメータを学習させ、学習したモデルを用いて任意のテキストデータに対して音声を生成するというものである。従って、音声における様々な性質や挙動をいかに適切に生成モデルの形で記述できるかが、合成音声の品質を左右する。特に音声の音韻に着目すると、スペクトル包絡特徴量の時系列をいかに適切にモデル化するかが重要であるが、従来の隠れマルコフモデル（Hidden Markov Model、ＨＭＭ）またはその変種による音声合成（以下、「ＨＭＭ音声合成」という）方式（例えば、非特許文献１参照）は、音声スペクトル系列の時間伸縮を確率的な現象として捉えようという考えの下、考案されたものである。

従来のＨＭＭ音声合成方式では、スペクトル包絡を表現する音声特徴量として、ケプストラムや線スペクトル対（Line Spectral Pairs、ＬＳＰ）が用いられている。ケプストラムを特徴量とした場合、スペクトル包絡がパワー方向にのみ確率的に揺らぐ現象を表現したモデルに相当し、ＬＳＰを特徴量とした場合、スペクトル包絡のピークが周波数方向にのみ確率的に揺らぐ現象を表現したモデルに相当する。ケプストラムを特徴量としたＨＭＭ音声合成方式では、合成音声のスペクトル包絡が周波数方向に平滑化される傾向にあるが、これは生成モデルがスペクトルの周波数方向の揺らぎを上手く捉えられないモデルであることが原因である。スペクトル包絡が平滑化されると、一般にはｂｕｚｚｙな音になるが、これは従来のＨＭＭ音声合成において良く知られた傾向である。

そのため、例えばスペクトル包絡のピークとディップとの間を強調する目的で、確率モデルにGlobal Variance（ＧＶ）を導入することにより改善が図られているが、ひとたび平滑化されたスペクトル包絡からは、本来あるべきピーク及びディップを復元することは難しく、根本的な解決には至っていない。

スペクトル包絡ピークの周波数及びパワーは、声道における共振の共振周波数及びパワーに相当するため、音声のスペクトル包絡には、実際にはパワー方向及び周波数方向の双方の揺らぎが存在する。共振周波数及びパワーは、声道形状の物理的な変化に従い時間方向に連続に変化すると考えられる。そのため、例えばある音素の中央部分付近のスペクトル包絡と、後続音素との接続部分付近のスペクトル包絡とを比較した場合、後者は声道形状が後続音素の声道形状へ連続的に変化する過程にあるため、両者のスペクトル包絡間には、共振周波数及びパワーに差異があり、これを揺らぎとしてモデル化することが重要である。

音声分析合成系のための音声スペクトルモデルとして、スペクトル包絡の各ピークがガウス分布で近似可能という仮定に基づき、スペクトル包絡全体を混合ガウス関数モデル（Gaussian Mixture Model、ＧＭＭ）によって表現した複合ウェーブレットモデル（Composite Wavelet Model、ＣＷＭ）と呼ぶモデルが提案されている（例えば、非特許文献２参照）。

ＣＷＭは、スペクトル包絡ピークの周波数及びパワーの双方をパラメータとして持つため、スペクトル包絡のパワー方向及び周波数方向の双方の揺らぎを確率モデル化するのに適している。なお、ＣＷＭパラメータから音声波形を合成する際は、周波数領域におけるガウス分布関数は時間領域ではＧａｂｏｒ関数に対応するため、このＧａｂｏｒ関数を基本周波数に対応する時間間隔で配置することにより音声波形が合成される。ＣＷＭに基づく音声分析合成は、ＦＩＲフィルタによる合成手法であり、従来のＬＳＰやケプストラムなどの巡回型フィルタによる合成手法に比べ、Ｑ値の高いフィルタであっても、基本周波数に依らず時間特性の良い音声が合成可能である。

以上のＣＷＭの利点より、ＣＷＭパラメータを音声特徴量としたＨＭＭ音声合成方式が提案されている（例えば、非特許文献３参照）。この方式では、パラメータ学習において、まず各時刻（短時間フレーム）の音声スペクトル包絡に対し、まずＣＷＭのパラメータ抽出を前段で行い、抽出したＣＷＭパラメータセットを並べたベクトルの系列をＨＭＭ音声合成における音声特徴量系列としている。

T.Yoshimura, K.Tokuda, T.Masuko, T.Kobayashi, and T.Kitamura, "Simultaneous modeling of spectrum, pitch and duration in HMM-based speech synthesis", in Proc. of Eurospeech 1999, 1999, pp.2347-2350. 槐武也他、"複合ウェーブレットモデルによる音声合成の検討"、日本音響学会２００６年春季研究発表会講演論文集、2-11-7、2006. 北条他、"複合ウェーブレットモデル分析合成系に基づくＨＭＭ音声合成"、no.2-2-7、2012.

非特許文献３の技術では、フォルマント周波数推定の問題に内在する難しさに起因して、十分な性能が得られないという問題がある。フォルマント軌跡は、音声スペクトログラムに鮮明に現れるが、自動的に取り出すことは容易ではない。実際に存在するはずのフォルマントを検出できなかったり、実際には存在しないはずのフォルマントを誤検出してしまったりするからである。各短時間フレームでＣＷＭパラメータの推定を行うことは、フォルマント抽出問題と同等と見なせるため、非特許文献３のような手法では、前段のＣＷＭパラメータの推定においても、これと同様な誤りが多発してしまう。

図９に、ある音声信号のサンプルに対して、時刻（短時間フレーム）毎にＣＷＭパラメータの推定を行った結果の例を示す。図９では、各時刻で推定されたＣＷＭにおける各ガウス関数の中心を、ガウス関数のインデックス毎に異なるマーカーでプロットしたものである。図９に示すように、ＣＷＭにおける各ガウス関数のインデックスの付けられ方が時刻毎に整合していないことが多々ある（例えば、図９中の楕円部分）。例えば、同一音素が発せられている異なる２つの時刻において、一方の時刻では第一フォルマント及び第二フォルマントに１番目のガウス関数及び２番目のガウス関数がフィッティングされているのに対し、他方の時刻では２番目のガウス関数及び３番目のガウス関数がフィッティングされる、というようなケースが頻繁に起こる。このような、ＣＷＭパラメータのインデックスの不整合は後段のＨＭＭ音声合成のパラメータ学習において、性能低下の原因となる。なぜなら各状態の特徴量分布の平均を得る際、異なるスペクトルピークに対応したガウス関数の中心同士の平均を算出する事態となってしまうからである。

以上のことから、ＣＷＭパラメータによるスペクトル表現は、スペクトル包絡のピークのパワー方向及び周波数方向の双方の揺らぎを確率モデル化するのに適しているという利点を持ちながら、ＣＷＭパラメータの推定とＨＭＭパラメータの学習とを単純に多段的に繋げた方式ではうまく動作しない、という問題がある。

本発明は、上記の事情を鑑みてなされたもので、各ガウス関数のインデックスが同一状態において整合するよう保証されたＣＷＭパラメータを音声特徴量としてＨＭＭを学習することができる音声合成モデル学習装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、本発明の音声合成モデル学習装置は、音声信号の各時刻のスペクトル包絡を混合ガウスモデルによって表現した複合ウェーブレットモデルＣＷＭのパラメータと、テキストデータから得られる情報によって表される各時刻の状態に対応する前記ＣＷＭのパラメータの系列を出力する隠れマルコフモデルＨＭＭのパラメータとを、同一の規準を最大化するように交互に更新して、前記ＣＷＭのパラメータを推定する推定部と、前記推定部により推定されたＣＷＭのパラメータ、及び前記音声信号の各時刻の状態を示すラベルを用いて、前記ＨＭＭを学習する学習部と、を含んで構成されている。

本発明の音声合成モデル学習装置によれば、推定部が、音声信号の各時刻のスペクトル包絡を混合ガウスモデルによって表現した複合ウェーブレットモデルＣＷＭのパラメータと、テキストデータから得られる情報によって表される各時刻の状態に対応するＣＷＭのパラメータの系列を出力する隠れマルコフモデルＨＭＭのパラメータとを、同一の規準を最大化するように交互に更新して、ＣＷＭのパラメータを推定する。そして、学習部が、推定部により推定されたＣＷＭのパラメータ、及び音声信号の各時刻の状態を示すラベルを用いて、ＨＭＭを学習する。

このように、ＣＷＭのパラメータと、テキストデータから得られる情報によって表される各時刻の状態に対応するＣＷＭのパラメータの系列を出力する隠れマルコフモデルＨＭＭのパラメータとを、同一の規準を最大化するように交互に更新して推定したＣＷＭパラメータを用いてＨＭＭを学習するため、各ガウス関数のインデックスが同一状態において整合するよう保証されたＣＷＭパラメータを音声特徴量としてＨＭＭを学習することができる。

また、前記推定部は、前記同一の規準を、前記ＣＷＭのパラメータが決まった場合に、前記スペクトル包絡が出力される確率と、前記ＨＭＭの状態系列の確率と、前記状態系列が決まった場合に、前記ＣＷＭのパラメータが出力される確率との積とすることができる。

また、前記推定部は、前記同一の規準を、前記ＨＭＭのパラメータ、前記ＣＷＭのパラメータ、及び補助変数によって表され、前記ＣＷＭのパラメータが決まった場合に、前記スペクトル包絡が出力される確率の対数を上回らず、かつ前記対数に接する関数とし、前記ＨＭＭのパラメータ、前記ＣＷＭのパラメータ、及び前記補助変数を交互に更新することができる。

また、前記推定部は、前記同一の規準を、負の対数関数の凸性を利用して、ジェンセンの不等式により得られる下限関数とすることができる。

また、本発明の音声合成モデル学習方法は、推定部が、音声信号の各時刻のスペクトル包絡を混合ガウスモデルによって表現した複合ウェーブレットモデルＣＷＭのパラメータと、テキストデータから得られる情報によって表される各時刻の状態に対応する前記ＣＷＭのパラメータの系列を出力する隠れマルコフモデルＨＭＭのパラメータとを、同一の規準を最大化するように交互に更新して、前記ＣＷＭのパラメータを推定するステップと、学習部が、前記推定部により推定されたＣＷＭのパラメータ、及び前記音声信号の各時刻の状態を示すラベルを用いて、前記ＨＭＭを学習するステップと、を含む方法である。

また、本発明の音声合成モデル学習プログラムは、コンピュータを、上記の音声合成モデル学習装置を構成する各部として機能させるためのプログラムである。

以上説明したように、本発明の音声合成モデル学習装置、方法、及びプログラムによれば、ＣＷＭのパラメータと、テキストデータから得られる情報によって表される各時刻の状態に対応するＣＷＭのパラメータの系列を出力する隠れマルコフモデルＨＭＭのパラメータとを、同一の規準を最大化するように交互に更新して推定したＣＷＭパラメータを用いてＨＭＭを学習するため、各ガウス関数のインデックスが同一状態において整合するよう保証されたＣＷＭパラメータを音声特徴量としてＨＭＭを学習することができる、という効果が得られる。

ＣＷＭパラメータを出力するＨＭＭの概略を示すイメージ図である。本実施の形態に係る音声合成装置の概略構成を示す機能ブロック図である。ＣＷＭパラメータ推定部の概略構成を示す機能ブロック図である。学習処理を示すフローチャートである。ＣＷＭパラメータ推定処理を示すフローチャートである。合成処理を示すフローチャートである。検証結果の一例を示すスペクトログラムである。検証結果の一例を示すグラフである。従来技術の問題点を説明するための図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜本実施の形態の概要＞
スペクトル包絡全体を混合ガウス関数モデル（Gaussian Mixture Model、ＧＭＭ）によって表現した複合ウェーブレットモデル（Composite Wavelet Model、ＣＷＭ）における各ガウス関数のインデックスが同一状態において整合するよう保証されたＣＷＭパラメータと隠れマルコフモデル（Hidden Markov Model、ＨＭＭ）との一体化モデルを構築したこと、及び学習データが与えられた下で当該モデルのパラメータを学習するための収束性が保証された反復アルゴリズムを実現したことが、本実施の形態のポイントである。具体的には以下により実現する。

１．ＨＭＭパラメータとＣＷＭパラメータとを、同一の規準を大きくするように交互に更新する
２．上記１において、同一の規準を、ＣＷＭパラメータが決まった場合に、スペクトル包絡が出力される確率と、ＨＭＭの状態系列の確率と、ＨＭＭの状態系列が決まった場合に、ＣＷＭパラメータが出力される確率との積（またはその対数）とする
３．上記２において、ＨＭＭパラメータとＣＷＭパラメータと補助変数λとによって表され、ＣＷＭパラメータが決まった場合にスペクトル包絡が出力される確率の対数を上回らず、かつ、これに接する関数を、同一の規準とし、この規準を大きくするようにＨＭＭパラメータとＣＷＭパラメータと補助変数とを交互に更新する
４．上記３において、同一の規準は、負の対数関数の凸性を利用してジェンセン（Ｊｅｎｓｅｎ）の不等式を用いて作られる下限関数である

＜ＣＷＭによるスペクトル包絡系列生成モデル＞
まず、スペクトル包絡系列の生成モデルについて述べる。

従来のＨＭＭ音声合成方式では、ケプストラム特徴量系列を出力するＨＭＭを立て、学習データから出力分布のパラメータを学習し、各状態での平均的なケプストラム特徴量が推定される。しかし、こうした手法では、スペクトル包絡の平滑化現象が起こる。なぜなら、ケプストラムは、スペクトル包絡の線形変換により得られるため、ケプストラムの平均を得ることは、スペクトル包絡のパワー方向の平均を得ることと同等である。しかし、スペクトル包絡ピークの周波数の揺らぎが存在すると、スペクトル包絡の山と谷とが平均化され、なだらかな形状へ平滑化されるためである。このようにスペクトル平滑化の原因は、ケプストラム特徴量の確率的な揺らぎを仮定し、スペクトル包絡のパワー方向のみの揺らぎをモデル化している点にあると考えられる。

音声のスペクトル包絡に見られる揺らぎには、声道形状の物理的な変化に基づく共振周波数及びパワーの変動が含まれると考えられるため、スペクトル包絡ピークの周波数及びパワーの双方の揺らぎを表現できる確率的生成モデルを立てるべきである。そこで、スペクトル包絡ピークの周波数及びパワーをパラメータに持つＣＷＭを用いれば、このような確率モデル化を行うことが可能である。ＣＷＭは、ＧＭＭによりスペクトル包絡を近似し、そのＧＭＭのパラメータを音声特徴量とするモデルである。ＣＷＭでは、スペクトル包絡ｆ_ω，ｌは下記（１）式のように表される。なお、ｆ_ω，ｌを、以下では「モデルスペクトル包絡」という。

ただし、ＫはＧＭＭの混合数である。μ_ｋ、ｗ_ｋ、σ_ｋはそれぞれＧＭＭの平均、重み、分散パラメータであり、それぞれモデルスペクトル包絡ピークの周波数、パワー、鋭さに相当するものと見なすことができる。

続いて、観測スペクトル包絡系列が生成される過程について述べる。図１に示すような、離散時刻ｌ毎に、平均μ_ｋ，ｌ、分散の逆数ρ_ｋ，ｌ、及び重みｗ_ｋ，ｌのＣＷＭパラメータを出力するＨＭＭを考える。ＨＭＭの各状態は、言語ラベルの一状態を表しており、例えば図１に示すように、それぞれ一つの音素に対応させることができる。また、従来のＨＭＭ音声合成方式などの手法と同様に、音素状態に加え、前後の音素のアクセント位置などの情報を用いたコンテキストラベルの一状態を対応させてもよい。本実施の形態では、各状態から出力されるＣＷＭパラメータの確率分布は、各時刻ｌの状態ｓ_ｌについて、下記（２）式〜（４）式と仮定した。

ここで、Ｎ（ｘ；ｍ，η^２）は正規分布、Ｇａｍｍａ（ｘ；ａ，ｂ）は下記（５）式に示すガンマ分布である。

ＣＷＭパラメータの系列＾μ＝｛μ_ｋ｝_ｋ，ｌ、＾ρ＝｛ρ_ｋ｝_ｋ，ｌ、及び＾ｗ＝｛ｗ_ｋ｝_ｋ，ｌが与えられたとき、時刻ｌにおいて、観測スペクトル包絡｛ｙ_ｗ，ｌ｝を生成する確率分布は、下記（６）式とする。なお、数式内の太字表記の記号、及び文章内の「＾」が前に付された記号は、行列またはベクトルを表している。

ここで、ｆ_ｗ，ｌは、ＣＷＭパラメータ系列＾μ、＾ρ、及び＾ｗが与えられたとき、時刻ｌのＣＷＭパラメータを用いて（１）式で表されるスペクトル包絡であり、Ｐｏｉｓｓｏｎ（ｘ；λ）は、下記（７）式に示すポアソン分布である。

上記の生成モデルを定めることにより、以下のパラメータ推定アルゴリズムを適用することが可能となる。

＜パラメータ推定アルゴリズム＞
パラメータの学習（推定）は、観測スペクトル包絡系列Ｙ＝｛ｙ_ｗ，ｌ｝_ｗ，ｌが与えられたときに、スペクトル包絡系列生成モデルのパラメータΘの事後確率Ｐ（Θ｜Ｙ）を最大化する問題として定式化される。推定すべきパラメータΘは、ＨＭＭの状態系列＾ｓ＝｛ｓ_ｌ｝_ｌ、ＨＭＭの各状態ｉの状態出力分布＾θ＝｛ｍ_ｋ，ｉ，η_ｋ，ｉ，ａ_ｋ，ｉ ^（σ），ｂ_ｋ，ｉ ^（σ），ａ_ｋ，ｉ ^（ｗ），ｂ_ｋ，ｉ ^（ｗ）｝、並びにＣＷＭパラメータ系列＾μ、＾ρ、及び＾ｗである。

パラメータΘの事後確率Ｐ（Θ｜Ｙ）を最大化するΘを求めることは難しいが、各変数について局所最適化を繰り返すことは可能である。このときＰ（Θ｜Ｙ）は、下記（８）式のように書ける。

ここで、αは正則化パラメータであり、対数尤度に対する対数事前分布の重みを表す。また、「＝」の上に「Ｃ」を付した記号は、定数部分を除いて一致することを意味する。

本実施の形態におけるパラメータ推定アルゴリズムでは、各変数について−ｌｏｇＰ（Θ｜Ｙ）の最小化を反復することにより、パラメータ推定を行う。ここで、−ｌｏｇＰ（Ｙ｜Θ）は、各時刻の観測スペクトル包絡ｙ_ω，ｌとモデルスペクトル包絡ｆ_ω，ｌとの擬距離であるＩ−ｄｉｖｅｒｇｅｎｃｅを全時刻について足し合わせたものに相当する。Ｉ−ｄｉｖｅｒｇｅｎｃｅは、下記（１０）で示される。

従って、Ｐ（Θ｜Ｙ）の最大化は、Θについて、Ｉ（Θ）−αｌｏｇＰ（Θ）を最小化することと同等である。

Ｉ−ｄｉｖｅｒｇｅｎｃｅの項についての最小化は、補助関数法を用いて各パラメータについて逐次的に実行可能である。すなわち、対数関数の凸性に基づき、Ｊｅｎｓｅｎの不等式を適用すると、下記（１２）となる。

ここで、ｇ_{ｋ，ω，ｌ}は、下記（１３）式である。また、（１２）式の等号成立条件は、下記（１４）式である。

Ｉ（Θ）の上限関数、すなわち（１２）式の右辺をＪ（Θ，λ）とする。ここで、任意のΘについて、λが（１４）式で与えられるとき、補助関数Ｊ（Θ、λ）−αｌｏｇＰ（Θ）は、目的関数Ｉ（Θ）−αｌｏｇＰ（Θ）と等しい。そして、任意の固定されたλについてＪ（Θ，λ）−αｌｏｇＰ（Θ）を減少させるΘは、（１２）式により、Ｉ（Θ）−αｌｏｇＰ（Θ）を必ず減少させる。以上より、（１４）式によるλの更新と、Ｊ（Θ，λ）−αｌｏｇＰ（Θ）を減少させるようなΘの更新とを繰り返すことにより、目的関数は局所最適解に到達するまで、単調に減少する。

＜音声合成装置の構成＞
本実施の形態に係る音声合成装置は、ＣＰＵと、ＲＡＭと、後述する学習処理及び合成処理を含む音声合成処理ルーチンを実行するためのプログラムを記憶したＲＯＭとを備えたコンピュータで構成されている。

図２に示すように、音声合成装置１０を構成するコンピュータは、機能的には、学習部２０及び合成部４０を含んだ構成で表すことができる。なお、学習部２０は、本発明の音声合成モデル学習装置の一例である。

さらに、学習部２０は、基本周波数系列抽出部２２、観測スペクトル包絡系列抽出部２４、ＣＷＭパラメータ推定部２６、及びＨＭＭ学習部２８を含んだ構成で表すことができる。学習部２０には、データベースから、音声信号の時系列データ及び各時刻の状態ｓ_ｌの情報を含むラベルが入力される。なお、ＣＷＭパラメータ推定部２６は、本発明の推定部の一例であり、ＨＭＭ学習部２８は、本発明の学習部の一例である。

基本周波数系列抽出部２２は、入力された音声信号の時系列データから、基本周波数の時系列データを抽出し、それらを離散時間ｌで表現するように変換して、音声信号の基本周波数の時系列データである基本周波数系列を抽出する。この基本周波数の抽出処理は、周知技術により実現でき、例えば、非特許文献４（H. Kameoka, "Statistical speech spectrum model incorporating all-pole vocal tract model and F0 contour generating process model," in Tech. Rep. IEICE, 2010, in Japanese.）に記載の手法を利用して、例えば８ｍｓ毎に基本周波数を抽出することができる。基本周波数系列抽出部２２は、抽出した基本周波数系列を、ＨＭＭ学習部２８へ出力する。

観測スペクトル包絡系列抽出部２４は、入力された音声信号の時系列データを時刻（短時間フレーム）毎にフーリエ変換して、観測スペクトル包絡系列Ｙを抽出する。観測スペクトル包絡系列抽出部２４は、抽出した観測スペクトル包絡系列ＹをＣＷＭパラメータ推定部２６へ出力する。

ＣＷＭパラメータ推定部２６は、観測スペクトル包絡系列抽出部２４から出力された観測スペクトル包絡系列Ｙ、及びデータベースから入力されたラベルを受け付け、観測スペクトル包絡系列事後確率Ｐ（Θ｜Ｙ）を最大化するパラメータΘを推定する。そして、ＣＷＭパラメータ推定部２６は、推定したパラメータΘに含まれるＣＷＭパラメータ＾μ、＾ρ、及び＾ｗを、ＨＭＭ学習部２８へ出力する。ＣＷＭパラメータ推定部２６は、さらに、図３に示すように、初期更新部２６０、補助変数更新部２６２、ＣＷＭパラメータ更新部２６４、第１収束判定部２６６、状態出力分布更新部２６８、状態系列更新部２７０、観測スペクトル包絡系列事後確率更新部２７２、及び第２収束判定部２７４を含んだ構成で表すことができる。

初期更新部２６０は、パラメータΘの初期値を用いて、観測スペクトル包絡系列事後確率Ｐ（Θ｜Ｙ）の初期更新を行う。パラメータΘの初期値として、状態出力分布＾θ、並びにＣＷＭパラメータ＾μ、＾ρ、及び＾ｗの初期値については、予め適当に設定した値を用いる。ＨＭＭの状態列＾ｓの初期値としては、入力されたラベルに含まれる情報を用いる。

補助変数更新部２６２は、前回更新されたＣＷＭパラメータ＾μ、＾ρ、及び＾ｗ、または初期値として設定されたＣＷＭパラメータ＾μ、＾ρ、及び＾ｗを用いて、（１４）式により、補助変数λを更新する。

ＣＷＭパラメータ更新部２６４は、状態系列＾ｓ及び状態出力分布＾θを、前回更新された値、または初期値として設定された値で固定し、補助変数更新部２６２により更新された補助変数λを用いて、補助関数Ｊ（Θ、λ）−αｌｏｇＰ（Θ）を減少させるように、ＣＷＭパラメータ＾μ、＾ρ、及び＾ｗを、下記（１５）式〜（１７）式の更新式により更新する。

ただし、Ｃ_ｋ，ｌ、Ｄ_ｋ，ｌ、及びＥ_ｋ，ｌは、下記（１８）式〜（２０）式である。

第１収束判定部２６６は、予め定められた収束条件を満足するか否かを判定し、収束条件を満足していない場合には、補助変数更新部２６２及びＣＷＭパラメータ更新部２６４の各処理を繰り返す。第１収束判定部２６６は、収束条件を満足したと判定した場合には、収束条件を満足したときのＣＷＭパラメータ＾μ、＾ρ、及び＾ｗを状態出力分布更新部２６８へ出力する。

収束条件としては、繰り返し回数ｎ_１が予め定めた回数Ｎ_１（例えば、２０回）に達したことを用いればよい。なお、ｎ_１−１回目のパラメータを用いたときの補助関数の値とｎ_１回目のパラメータを用いたときの補助関数の値との差が、予め定めた閾値よりも小さくなったことを、収束条件として用いてもよい。

状態出力分布更新部２６８は、ＣＷＭパラメータ＾μ、＾ρ、及び＾ｗを、第１収束判定部２６６から出力された＾μ、＾ρ、及び＾ｗで固定すると共に、状態出力分布＾θを、前回更新された値、または初期値として設定された値で固定し、補助変数更新部２６２により更新された補助変数λを用いて、補助関数Ｊ（Θ、λ）−αｌｏｇＰ（Θ）を減少させるように、状態出力分布＾θに含まれる｛ｍ_ｋ，ｉ，η_ｋ，ｉ ^２｝_ｋ，ｉを、下記（２１）式及び（２２）式の更新式により更新する。

ただし、Ｔｉ＝｛ｌ｜ｓ_ｌ＝ｉ｝である。また、状態出力分布＾θに含まれる｛ａ_ｋ，ｉ ^（ρ），ｂ_ｋ，ｉ ^（ρ），ａ_ｋ，ｉ ^（ｗ），ｂ_ｋ，ｉ ^（ｗ）｝_ｋ，ｌについての更新式は、下記（２３）式〜（２６）式の方程式の根として得られる。

ただし、ψ（ａ）は下記（２７）式に示すｄｉｇａｍｍａ関数を表す。

状態系列更新部２７０は、ＣＷＭパラメータ＾μ、＾ρ、及び＾ｗを、第１収束判定部２６６から出力された＾μ、＾ρ、及び＾ｗで固定すると共に、状態出力分布＾θを、前回更新された値、または初期値として設定された値で固定し、Ｖｉｔｅｒｂｉアルゴリズムにより、補助関数Ｊ（Θ、λ）−αｌｏｇＰ（Θ）を減少させるように、状態系列＾ｓを更新する。

観測スペクトル包絡系列事後確率更新部２７２は、ＣＷＭパラメータ更新部２６４で更新されたＣＷＭパラメータ＾μ、＾ρ、及び＾ｗ、状態出力分布更新部２６８で更新された状態出力分布＾θ、並びに状態系列更新部２７０で更新された状態系列＾ｓを用いて、観測スペクトル包絡系列事後確率Ｐ（Θ｜Ｙ）を更新する。

第２収束判定部２７４は、予め定められた収束条件を満足するか否かを判定し、収束条件を満足していない場合には、補助変数更新部２６２、ＣＷＭパラメータ更新部２６４、第１収束判定部２６６、状態出力分布更新部２６８、状態系列更新部２７０、及び観測スペクトル包絡系列事後確率更新部２７２の各処理を繰り返す。第２収束判定部２７４は、収束条件を満足したと判定した場合には、収束条件を満足したときのＣＷＭパラメータ＾μ、＾ρ、及び＾ｗを、ＨＭＭ学習部２８へ出力する。

収束条件としては、繰り返し回数ｎ_２が予め定めた回数Ｎ_２（例えば、２０回）に達したことを用いればよい。なお、ｎ_２−１回目のパラメータを用いたときの補助関数の値とｎ_２回目のパラメータを用いたときの補助関数の値との差が、予め定めた閾値よりも小さくなったことを、収束条件として用いてもよい。

ＨＭＭ学習部２８は、ＣＷＭパラメータ推定部２６から出力されたＣＷＭパラメータ＾μ、＾ρ、及び＾ｗ、並びにデータベースから入力されたラベルを用いて、例えば非特許文献１等の従来技術を用いて、ＨＭＭ３０を学習する。なお、学習したＨＭＭを用いて、テキストデータからモデルスペクトル包絡系列を求める際に、単に尤度最大の基準により求めたモデルスペクトル包絡系列は、音素境界付近で不連続となり、合成音声品質の劣化の原因となる。そこで、例えば非特許文献１の手法のように、音素状態を細かく分割し、さらに動的特徴量（特徴量の１階、２階の時間差分量）を用いて、ＨＭＭ３０を学習する。これにより、連続的なモデルスペクトル包絡系列を出力することができるＨＭＭ３０を学習することができる。ＨＭＭ学習部２８は、学習したＨＭＭ３０を所定の記憶領域に記憶する。

また、合成部４０は、図２に示すように、テキスト解析部４２、パラメータ合成部４４、及び音声波形合成部４６を含んだ構成で表すことができる。合成部４０には、テキストデータが入力される。

テキスト解析部４２は、入力されたテキストデータを解析し、例えば各音素に対応させたラベルで表される状態を解析し、ラベル系列をパラメータ合成部４４へ出力する。

パラメータ合成部４４は、テキスト解析部４２から出力されたラベル系列に対し、学習部２０で学習されたＨＭＭ３０を用いて、尤度最大の基準によりＣＷＭパラメータ系列を求める。このＣＷＭパラメータ系列に基づいて、モデルスペクトル包絡系列を得ることができる。また、パラメータ合成部４４は、テキスト解析部４２から出力されたラベル系列に基づいて、基本周波数系列を求める。なお、ＣＷＭパラメータ系列の出力の際には、音素状態のＤｕｒａｔｉｏｎに関するモデルが別途必要である。また、ラベル系列から基本周波数系列を求めるためには、別途基本周波数に関するモデルが必要である。これらのモデルとしては、例えば非特許文献１に記載のモデルを用いることができる。パラメータ合成部４４は、求めた基本周波数系列及びＣＷＭパラメータ系列を、音声波形合成部４６へ出力する。

音声波形合成部４６は、パラメータ合成部４４から出力されたＣＷＭパラメータ系列と基本周波数系列とを用いて、例えば非特許文献２、非特許文献３等の手法により、音声波形を合成する。すなわち、下記（２８）式に示すように、周波数領域のＧＭＭは時間領域ではＧａｂｏｒ関数に相当するため、ＣＷＭパラメータからＧａｂｏｒ関数の重ね合わせであるＧａｂｏｒＷａｖｅｌｅｔを生成し、基本周波数に対応する時間間隔で時間軸上に並べることにより、音声波形を合成する。

これは、ＦＩＲフィルタによる合成手法であり、基本周波数に依らず、時間特性の良い音声合成が可能である。音声波形合成部４６は、合成した音声波形を出力する。

＜音声合成装置の作用＞
次に、本実施の形態に係る音声合成装置１０の作用について説明する。まず、学習部２０に、データベースから、音声信号の時系列データ及び各時刻の状態ｓ_ｌの情報を含むラベルが入力され、学習部２０が、図４に示す学習処理を実行することにより、ＨＭＭ３０が学習される。そして、合成部４０に、テキストデータが入力され、合成部４０が、図６に示す合成処理を実行することにより、音声波形が出力される。以下、各処理について詳述する。

図４に示す学習処理のステップＳ１０で、基本周波数系列抽出部２２が、入力された音声信号の時系列データから、基本周波数の時系列データを抽出し、それらを離散時間ｌで表現するように変換して、音声信号の基本周波数の時系列データである基本周波数系列を抽出し、ＨＭＭ学習部２８へ出力する。

次に、ステップＳ１２で、観測スペクトル包絡系列抽出部２４が、入力された音声信号の時系列データを時刻（短時間フレーム）毎にフーリエ変換して、観測スペクトル包絡系列Ｙを抽出し、ＣＷＭパラメータ推定部２６へ出力する。

次に、ステップＳ１４で、ＣＷＭパラメータ推定部２６が、図５に示すＣＷＭパラメータ推定処理を実行する。

図５に示すＣＷＭパラメータ推定処理のステップＳ１４０で、初期更新部２６０が、状態出力分布＾θ、並びにＣＷＭパラメータ＾μ、＾ρ、及び＾ｗの初期値として、予め適当に設定した値を用い、ＨＭＭの状態列＾ｓの初期値として、入力されたラベルに含まれる情報を用い、観測スペクトル包絡系列事後確率Ｐ（Θ｜Ｙ）の初期更新を行う。

次に、ステップＳ１４２で、補助変数更新部２６２が、前回更新されたＣＷＭパラメータ＾μ、＾ρ、及び＾ｗ、または初期値として設定されたＣＷＭパラメータ＾μ、＾ρ、及び＾ｗを用いて、（１４）式により、補助変数λを更新する。

次に、ステップＳ１４４で、ＣＷＭパラメータ更新部２６４が、状態系列＾ｓ及び状態出力分布＾θを、前回更新された値、または初期値として設定された値で固定し、上記ステップＳ１４２で更新された補助変数λを用いて、補助関数Ｊ（Θ、λ）−αｌｏｇＰ（Θ）を減少させるように、ＣＷＭパラメータ＾μ、＾ρ、及び＾ｗを（１５）式〜（１７）式の更新式により更新する。

次に、ステップＳ１４６で、第１収束判定部２６６が、予め定められた収束条件を満足したか否かを判定する。収束条件を満足していない場合には、ステップＳ１４２へ戻り、ステップＳ１４２及びＳ１４４の各処理を繰り返す。一方、収束条件を満足した場合には、収束条件を満足したときのＣＷＭパラメータ＾μ、＾ρ、及び＾ｗを状態出力分布更新部２６８へ出力し、ステップＳ１４８へ移行する。

ステップＳ１４８では、状態出力分布更新部２６８が、ＣＷＭパラメータ＾μ、＾ρ、及び＾ｗを、第１収束判定部２６６から出力された＾μ、＾ρ、及び＾ｗで固定すると共に、状態出力分布＾θを、前回更新された値、または初期値として設定された値で固定し、上記ステップＳ１４２で更新された補助変数λを用いて、補助関数Ｊ（Θ、λ）−αｌｏｇＰ（Θ）を減少させるように、状態出力分布＾θを、（２１）式〜（２６）式により更新する。

次に、ステップＳ１５０で、状態系列更新部２７０が、ＣＷＭパラメータ＾μ、＾ρ、及び＾ｗを、第１収束判定部２６６から出力された＾μ、＾ρ、及び＾ｗで固定すると共に、状態出力分布＾θを、前回更新された値、または初期値として設定された値で固定し、Ｖｉｔｅｒｂｉアルゴリズムにより、補助関数Ｊ（Θ、λ）−αｌｏｇＰ（Θ）を減少させるように、状態系列＾ｓを更新する。

なお、上記ステップＳ１４８と上記ステップＳ１５０とは、いずれを先に実行してもよい。

次に、ステップＳ１５２で、観測スペクトル包絡系列事後確率更新部２７２が、上記ステップＳ１４４で更新されたＣＷＭパラメータ＾μ、＾ρ、及び＾ｗ、上記ステップＳ１４８で更新された状態出力分布＾θ、並びに上記ステップＳ１５０で更新された状態系列＾ｓを用いて、観測スペクトル包絡系列事後確率Ｐ（Θ｜Ｙ）を更新する。

次に、ステップＳ１５４で、第２収束判定部２７４が、予め定められた収束条件を満足したか否かを判定する。収束条件を満足していない場合には、ステップＳ１４２へ戻り、ステップＳ１４２〜Ｓ１５２の各処理を繰り返す。一方、収束条件を満足した場合には、収束条件を満足したときのＣＷＭパラメータ＾μ、＾ρ、及び＾ｗを、ＨＭＭ学習部２８へ出力し、学習処理へリターンする。

次に、図４に示す学習処理のステップＳ１６で、ＨＭＭ学習部２８が、上記ステップＳ１４で出力されたＣＷＭパラメータ＾μ、＾ρ、及び＾ｗ、並びにデータベースから入力されたラベルを用いて、例えば非特許文献１等の従来技術を用いて、ＨＭＭ３０を学習し、学習したＨＭＭ３０を所定の記憶領域に記憶して、学習処理を終了する。

次に、図６に示す合成処理のステップＳ２０で、テキスト解析部４２が、入力されたテキストデータを解析し、例えば各音素に対応させたラベルで表される状態を解析し、ラベル系列をパラメータ合成部４４へ出力する。

次に、ステップＳ２２で、パラメータ合成部４４が、上記ステップＳ２０で出力されたラベル系列に対し、図４に示す学習処理で学習されたＨＭＭ３０を用いて、尤度最大の基準によりＣＷＭパラメータ系列を求め、音声波形合成部４６へ出力する。また、パラメータ合成部４４が、上記ステップＳ２０で出力されたラベル系列に基づいて、基本周波数系列を求め、音声波形合成部４６へ出力する。

次に、ステップＳ２４で、音声波形合成部４６が、上記ステップＳ２２で出力されたＣＷＭパラメータ系列と基本周波数系列とを用いて、例えば非特許文献２、非特許文献３等の手法により、音声波形を合成して出力し、合成処理を終了する。

＜実験＞
本実施の形態に係る音声合成装置１０を用いた音声合成手法に関し、適切にＣＷＭパラメータの推定及び音声合成が実行可能であることの検証結果について説明する。

ＡＴＲ５０３のＪ０４文「切符を買うのは自動販売機からである。」の（Ａ）サンプル音声（肉声）のスペクトログラム、及び（Ｂ）本実施の形態の手法（以下、「本手法」という）による合成音声のスペクトログラムを図７に示す。また、冒頭「切符」の音素／ｉ／の中央部のスペクトル包絡を、本手法（実線）、従来法（破線）、及び肉声（一点破線）についてそれぞれ図８に示す。ここでの従来法とは、２４次メルケプストラムによる手法（非特許文献１参照）である。

図７に示すように、本手法による合成音声のスペクトログラムは、肉声のスペクトログラムと類似しており、本手法によりテキストデータの音声合成が可能であることを示している。本手法で再現されたスペクトル包絡は、主に４ｋＨｚから７ｋＨｚの周波数において、スペクトル包絡のディップを上手く再現する傾向があった。これは、ＣＷＭパラメータがスペクトル包絡ピークの周波数及びパワーの両方の揺らぎを捉えたため、従来法に比べ、スペクトル包絡が平滑化し難くなった結果であると考えることができる。

一方で、１ｋＨｚ以下の低周波数において、複数のスペクトル包絡ピークがなだらかな曲線で再現されており、共振周波数が不明瞭となり、品質劣化の原因となっていると考えられる。これは、ＣＷＭパラメータ抽出の際、複数のスペクトル包絡ピークを少数のガウス関数の和で近似しているためであると考えられる。例えばＧＭＭの混合数を増やすなど、スペクトル包絡の各ピークに対し、精緻にガウス関数を対応付けることにより、共振周波数がより明瞭な音声を合成することができると考えられる。

以上説明したように、本発明の実施の形態に係る音声合成装置によれば、ＣＷＭパラメータ及びＨＭＭパラメータを、同一の規準を最大化するように交互に更新して得られたＣＷＭパラメータを音声特徴量として用いることにより、各ガウス関数のインデックスが同一状態において整合するよう保証されたＣＷＭパラメータを音声特徴量としてＨＭＭを学習することができる。

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、上記の実施の形態では、学習部と合成部とを同一のコンピュータで構成する場合について説明したが、それぞれ別のコンピュータで構成するようにしてもよい。

また、上記の音声合成装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。

また、本願明細書中において、プログラムが予めインストールされている実施の形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

１０音声合成装置
２０学習部
２２基本周波数系列抽出部
２４観測スペクトル包絡系列抽出部
２６ＣＷＭパラメータ推定部
２８ＨＭＭ学習部
３０ＨＭＭ
４０合成部
４２テキスト解析部
４４パラメータ合成部
４６音声波形合成部
２６０初期更新部
２６２補助変数更新部
２６４ＣＷＭパラメータ更新部
２６６第１収束判定部
２６８状態出力分布更新部
２７０状態系列更新部
２７２観測スペクトル包絡系列事後確率更新部
２７４第２収束判定部

Claims

音声信号の各時刻のスペクトル包絡を混合ガウスモデルによって表現した複合ウェーブレットモデルＣＷＭのパラメータと、テキストデータから得られる情報によって表される各時刻の状態に対応する前記ＣＷＭのパラメータの系列を出力する隠れマルコフモデルＨＭＭのパラメータとを、同一の規準を最大化するように交互に更新して、前記ＣＷＭのパラメータを推定する推定部と、
前記推定部により推定されたＣＷＭのパラメータ、及び前記音声信号の各時刻の状態を示すラベルを用いて、前記ＨＭＭを学習する学習部と、を含み、
前記同一の規準を、前記ＣＷＭのパラメータが決まった場合に、前記スペクトル包絡が出力される確率と、前記ＨＭＭの状態系列の確率と、前記状態系列が決まった場合に、前記ＣＷＭのパラメータが出力される確率との積とする
音声合成モデル学習装置。
前記推定部は、前記同一の規準を、前記ＨＭＭのパラメータ、前記ＣＷＭのパラメータ、及び補助変数によって表され、前記ＣＷＭのパラメータが決まった場合に、前記スペクトル包絡が出力される確率の対数を上回らず、かつ前記対数に接する関数とし、前記ＨＭＭのパラメータ、前記ＣＷＭのパラメータ、及び前記補助変数を交互に更新する請求項１記載の音声合成モデル学習装置。
前記推定部は、前記同一の規準を、負の対数関数の凸性を利用して、ジェンセンの不等式により得られる下限関数とした請求項２記載の音声合成モデル学習装置。
推定部が、音声信号の各時刻のスペクトル包絡を混合ガウスモデルによって表現した複合ウェーブレットモデルＣＷＭのパラメータと、テキストデータから得られる情報によって表される各時刻の状態に対応する前記ＣＷＭのパラメータの系列を出力する隠れマルコフモデルＨＭＭのパラメータとを、同一の規準を最大化するように交互に更新して、前記ＣＷＭのパラメータを推定するステップと、
学習部が、前記推定部により推定されたＣＷＭのパラメータ、及び前記音声信号の各時刻の状態を示すラベルを用いて、前記ＨＭＭを学習するステップと、を含み、
前記同一の規準を、前記ＣＷＭのパラメータが決まった場合に、前記スペクトル包絡が出力される確率と、前記ＨＭＭの状態系列の確率と、前記状態系列が決まった場合に、前記ＣＷＭのパラメータが出力される確率との積とする
音声合成モデル学習方法。
コンピュータを、請求項１〜請求項３のいずれか１項記載の音声合成モデル学習装置を構成する各部として機能させるための音声合成モデル学習プログラム。