JP5722295B2

JP5722295B2 - 音響モデル生成方法と音声合成方法とそれらの装置とプログラム

Info

Publication number: JP5722295B2
Application number: JP2012248151A
Authority: JP
Inventors: 勇祐井島; 水野　秀之; 秀之水野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-11-12
Filing date: 2012-11-12
Publication date: 2015-05-20
Anticipated expiration: 2032-11-12
Also published as: JP2014095851A

Description

本発明は、ＨＭＭ（Hidden Markov Model）音声合成方式に用いる音響モデルを生成する音響モデル生成方法と音声合成方法と、それらの装置とプログラムに関する。

近年、音声合成方式として、ＨＭＭ音声合成方式が提案されている（例えば非特許文献１）。ＨＭＭ音声合成方式における音響モデル（音声データベース）は、合成単位ごとにスペクトルやＦ０を平均化した音声データのパラメータとして、合成単位ごとに一つのモデルを保持している。これにより、少量の音声データでも肉声感は低いが安定した品質の音声合成を可能にしている。

一方、非特許文献２に開示されているように、アクセント句間の音調結合型を導入することで、合成音声の自然性が向上することが知られている。

益子他、「動的特徴を用いたＨＭＭに基づく音声合成」信学論、vol.J79-D-II, no.12, pp.2184-2190, Dec.1996. 箱田他、「文章音声の音調結合型導出規則の検討」信学技法、SP89-5, pp.33-38, 1989.

従来のＨＭＭ音声合成方式では、モデル学習時、音声合成時に音調結合型を考慮できていないため、合成音声の品質が低下する課題がある。しかし、モデル学習のための音声データに対して、人手で音調結合型を付与することは高コストであるため、音調結合型を考慮したＨＭＭ音声合成方式はほとんど普及していない。

本発明は、この課題に鑑みてなされたものであり、音調結合型を自動的に付与した音響モデルを学習して生成することができる音響モデル生成方法と音声合成方法と、それらの装置とプログラムを提供することを目的とする。

本発明の音響モデル生成方法は、モデル学習過程と、音調結合型抽出過程と、音調結合型モデル学習過程と、を備える。モデル学習過程は、音高パラメータとスペクトルパラメータを含む学習用音声データと、当該学習用音声データの音素セグメンテーション情報とアクセント情報を含む発話情報とを入力として音声合成用ＨＭＭを学習する。音調結合型抽出過程は、音声合成用ＨＭＭから発話情報と同一の音素セグメンテーション情報を持つ音声パラメータを生成し、当該音声パラメータと上記学習用音声データのパラメータとを用いて各アクセント句間のピッチパタン形状に影響を与える音調結合型を抽出する。音調結合型モデル学習過程は、学習用音声データと発話情報と音調結合型とを入力として、音調結合型を考慮したモデル学習を行い音調結合型音響モデルを生成する。

また、本発明の音声合成方法は、テキスト解析過程と、音声パラメータ生成過程と、音声合成フィルタ過程と、を備える。テキスト解析過程は、音声合成対象テキストを入力として、当該音声合成対象テキストをテキスト解析して読みとアクセントと音調結合型とから成るテキスト情報を出力する。音声パラメータ生成過程は、上記した音響モデル生成方法で生成した音調結合型音響モデルと、テキスト情報とを用いて、音声パラメータを生成する。音声合成フィルタ過程は、上記音声パラメータを用いて音声波形を生成する。

本発明の音響モデル生成方法によれば、音調結合型を自動的に付与した音響モデルを生成することができるので、音調結合型を考慮したＨＭＭ音声合成方式を実現するためのコストを低減させることができる。

また、本発明の音声合成方法によれば、音調結合型を考慮した音響モデルを用いて合成音を生成するので、通常のＨＭＭ音声合成より合成音の品質を向上させることができる。

この発明の音響モデル生成装置１００の機能構成例を示す図。音響モデル生成装置１００の動作フローを示す図。音素セグメンテーション情報の例を示す図。３状態の音声合成用ＨＭＭの例を示す図。音調結合型抽出部２０の機能構成例を示す図。音声パラメータ生成手段２０１が生成する音声パラメータの概念を示す図。アクセント句間の概念を示す図。音調結合型抽出部２０の動作フローを示す図。音調結合型抽出部２０′の動作フローを示す図。この発明の音声合成装置２００の機能構成例を示す図。音声合成装置２００の動作フローを示す図。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。

図１に、この発明の音響モデル生成装置１００の機能構成例を示す。その動作フローを図２に示す。音響モデル生成装置１００は、モデル学習部１０と、音調結合型抽出部２０と、音調結合型モデル学習部３０と、制御部４０と、を具備する。音響モデル生成装置１００は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

モデル学習部１０は、音高パラメータとスペクトルパラメータを含む学習用音声データと、当該学習用音声データの音素セグメンテーション情報とアクセント情報を含む発話情報と、を入力として音声合成用ＨＭＭを学習する（ステップＳ１０）。学習用音声データは、音声データベースを構築する対象の話者がＮ個の文章を発話した音声を収録したデータである。学習用音声データには、音声信号に対して信号処理を行った結果得られる音高パラメータ（基本周波数：Ｆ０）とスペクトルパラメータ（ケプストラム、メルケプストラム等）とが含まれる。

これらのパラメータは、フレームと呼ばれる所定の時間間隔毎のデータである。１フレームは、音声信号を、例えばサンプリング周波数１６ｋＨｚで離散的なディジタル信号に変換した音声信号の所定数（例えば１６０個）から成る時間（１０ｍｓ）である。なお、モデル学習部１０に、音声データそのものを与え、ディジタル信号処理によって、パラメータを生成するようにしても良い。

発話情報は、学習用音声データ中の各発話に付与された情報であり、少なくとも発話を構成する各音素の開始時間と終了時間の情報から成る音素セグメンテーション情報と、アクセント句境界、アクセント型、アクセント句長等のアクセント情報と、から成る。図３に、音素セグメンテーション情報の例を示す。図３の1列目は音素名、２列目は開始時間、３列目は終了時間である。開始・終了時間は、各発話の始点を０［秒］とした時の経過時間である。

モデル学習部１０では、学習用音声データと発話情報から音声合成用のＨＭＭを学習する。このＨＭＭは、３状態または５状態のleft-to-right型ＨＭＭと呼ばれるものである。図４に、３状態の音声合成用ＨＭＭの例を示す。１は第１状態でＨＭＭの開始を表す。２は第２状態、３は第３状態を表す。そしてＨＭＭは、自己遷移ａ_１１，ａ_２２，ａ_３３と、次状態への状態遷移ａ_１２，ａ_２３とから成る確率連鎖で表される。

ＨＭＭの各状態１，２，３には、それぞれ出力確率分布ｂ_１（ｏ_ｔ），ｂ_２（ｏ_ｔ），ｂ_３（ｏ_ｔ），が対応付けられている。出力確率分布は、Ｆ０、ケプストラム等の音を特徴付けるモデルパラメータである。モデル学習部１０は、音素ラベルに従って、例えばBaum-Welchアルゴリズム等を用いて音声合成用ＨＭＭを学習する。学習した音声合成用ＨＭＭは、音調結合型抽出部２０に出力される。学習した音声合成用ＨＭＭは、音声合成用ＨＭＭ５０として記録装置に蓄えるようにしても良い。

音調結合型抽出部２０は、音声合成用ＨＭＭから発話情報と同一の音素セグメンテーション情報を持つ音声パラメータを生成し、当該音声パラメータと、外部から入力される学習用音声データのパラメータとを用いてアクセント句間の音調結合型を抽出する（ステップＳ２０）。音調結合型抽出部２０の詳しい動作説明は後述する。

音調結合型モデル学習部３０は、外部から入力される学習用音声データと発話情報と、音調結合型抽出部２０で抽出した音調結合型を入力として音調結合型を考慮したモデル学習を行い音調結合型音響モデルを生成する（ステップＳ３０）。音調結合型モデル学習部３０におけるモデルの学習は、音調結合型を加えて学習する点で、モデル学習部１０のモデル学習と異なる。制御部４０は、各部の時系列的な動作を制御する。

以上説明したように、音響モデル生成装置１００によれば、学習用音声データから自動的に音調結合型を抽出し、その音調結合型も加えた形で音声合成用ＨＭＭを学習することができる。従って、音調結合型を考慮した音響モデルを低コストで提供することが可能になる。

図５に、本発明の要部である音調結合型抽出部２０のより具体的な機能構成例を示して更に詳しく動作を説明する。音調結合型抽出部２０は、音声パラメータ生成手段２０１と、音調結合型抽出手段２０２と、を備える。

音声パラメータ生成手段２０１は、モデル学習部１０で生成された音声合成用ＨＭＭと、外部から入力される発話情報とを入力として、当該発話情報と同一の音素セグメンテーション情報を持つ音声パラメータを生成する（ステップＳ２０１、図２）。図６に、音声パラメータ生成手段２０１が生成する音声パラメータの概念を示す。

まず、発話ｉのｐ番目の音素のｓ番目の状態のフレーム数を求める。各状態のフレーム数の算出は、ｐ番目の音素の継続時間長を状態数で等分することにより行う。例えば、図３に示した音素「ｏ」の継続時間長は１５０［ｍｓ］である。そして、音声合成用ＨＭＭの状態数を例えば３状態とすると、各状態には５０［ｍｓ］の時間が割り振られる。１フレームを例えば１０［ｍｓ］とすると各状態は、それぞれ５フレームで構成される（図６の３行目）。

次に、音声パラメータ生成手段２０１は、各フレームにモデルパラメータの平均ベクトルμ_ｐｓを割り振ることで発話ｉの音声パラメータ系列を生成する（図６の４行目）。そして最後に、当該音声パラメータ系列に対して補間を行う。音声パラメータの補間は、非特許文献１に開示されているように、モデルパラメータの動的特徴量と分散を用いて行う。なお、スプライン補間のような一般的な補間手法を用いても良い
音調結合型抽出手段２０２は、音声パラメータ生成手段２０１で生成した音声パラメータ系列と、外部から入力される学習用音声データとを用いて、アクセント句間の音調結合型を抽出する。図７に、アクセント句間の概念を示す。例えば「今日は打ち合わせです。」の一文は、「今日は」、「打ち合わせ」、「です」の３つのアクセント句で構成される。このアクセント句の位置（時間）は、発話情報を参照することで得られる。

音調結合型抽出手段２０２は、音声パラメータ生成手段２０１で生成した音声パラメータ系列のｉ番目の発話のｊ番目、ｊ＋１番目のアクセント句の境界周辺のＦ０の対数値の平均値をｍｓ_ｉｊを求めると共に、学習用音声データの同じアクセント句の境界周辺のＦ０の対数値の平均値をｍｏ_ｉｊを求める。そして、その差分ｄを計算し、差分ｄが閾値αより大きい場合の音調結合型を弱結合、小さい場合を強結合として抽出する。

一般的に、アクセント句間の結合の強さが小さい場合（強結合）、二つのアクセント句の境界付近の学習音声データのＦ０は低くなる傾向があり、結合の強さが大きい場合（弱結合）、二つのアクセント句間の境界付近のＦ０は高くなる傾向がある。一方、生成した音声パラメータ系列のＦ０は、音調結合型を考慮せずに学習した音声合成用ＨＭＭから生成しているため、強結合・弱結合が考慮されていない中間程度の高さのＦ０が生成される。そのため、音声パラメータ生成手段２０１で生成した音声パラメータ系列のＦ０と比較して学習音声データのＦ０が低い（差分が小さい）場合は強結合、高い（差分ｄが大きい）場合は弱結合として音調結合型を判別することができる。

図７に音調結合型抽出部２０で行う処理を、図８にその動作フローを示して更に具体適に説明する。図７の横軸は経過時間ｔ［ｍｓ］、縦軸はＦ０［Ｈｚ］であり、ある一つのアクセント境界のＦ０を示している。

音声パラメータ生成手段２０１は、モデル学習部１０で生成された音声合成用ＨＭＭと、外部から入力される発話情報とを用いて、当該発話情報と同一の音素セグメンテーション情報を持つ音声パラメータ系列を全ての発話ｉについて生成する（ループＳ２０１のステップＳ２０１ａ、図８）。

音調結合型抽出手段２０２は、音声パラメータ系列のｉ番目の発話のｊ番目、ｊ＋１番目のアクセント句の境界周辺のＦ０の対数値の平均値をｍｓ_ｉｊを求めると共に、学習用音声データの同じアクセント句の境界周辺のＦ０の対数値の平均値をｍｏ_ｉｊを求め、その差分ｄを計算する（ループＳ２０２のステップＳ２０２ａ）。アクセント句間の境界付近のＦ０の平均値は、アクセント句の境界の前後ｔ［ｍｓ］のＦ０を用いて計算する（図７のｍｓ_ｉｊとｍｏ_ｉｊを参照）。

そして音調結合型抽出手段２０２は、差分ｄが閾値αより大であればそのアクセント句は弱結合（ステップＳ２０２ｂ）、差分ｄが閾値α以下であればそのアクセント句は強結合（ステップＳ２０２ｂ′）と判定する。この音調結合型の抽出は、全ての発話の全てのアクセント句に対して行われる。

〔変形例１〕
アクセント句の境界の前後ｔ［ｍｓ］のＦ０の平均値から音調結合型を求める例を説明したが、ｊ番目とｊ＋１番目のアクセント句を構成する全ての発話のＦ０の平均値の差分で音調結合型を判別しても良い。音声パラメータ系列のｉ番目の発話のｊ番目、ｊ＋１番目のアクセント句の平均値をｆｓ_ｉｊ，ｆｓ_ｉｊ＋１、学習用音声データの同じアクセント句の平均値をｆｏ_ｉｊ，ｆｏ_ｉｊ＋１として求め、音声パラメータ系列の差分をｄｓ＝ｆｓ_ｉｊ−ｆｓ_ｉｊ＋１、学習用音声データの差分ｄｏ＝ｆｏ_ｉｊ−ｆｏ_ｉｊ＋１とした時のｄｓとｄｏとの差分（ｄｏ−ｄｓ）が閾値αより大の場合を弱結合、小の場合を強結合として判別しても良い。

〔変形例２〕
音調結合型として弱結合と強結合の２種類のみを抽出する例で説明をしたが、任意のＮ種類の音調結合型を抽出することも可能である。図９に、Ｎ種類の音調結合型を抽出するようにした音調結合型抽出部２０の動作フローを示す。

図９は、図８に対して複数の閾値α_ｉを備え、差分を判定するステップＳ２０２ｂが、複数の閾値α_１，α_２，…，α_Ｎ−１のそれぞれと、差分ｄを比較してＮ個の結合型に判別する点で異なる。このように２種類以上の音調結合型に分類することで、合成音声をより自然な音声にすることが可能になる。

〔音声合成装置〕
図１０に、この発明の音声合成装置２００の機能構成例を示す。その動作フローを図１１に示す。音声合成装置２００は、テキスト解析部２１０と、音声パラメータ生成部２２０と、音調結合型音響モデル２３０と、音声合成フィルタ部２５０と、制御部２４０と、を具備する。音声合成装置２００は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

テキスト解析部２１０は、音声合成対象テキストを入力として、当該音声合成対象テキストをテキスト解析し、読みとアクセントと音調結合型とから成るテキスト情報を出力する（ステップＳ２１０）。音調結合型音響モデル２３０は、上記した音響モデル生成装置１００で生成した音調結合型を考慮したモデル学習した音響モデルである。

音声パラメータ生成部２２０は、音調結合型音響モデル２３０とテキスト情報を用いて、音声パラメータを生成する（ステップＳ２２０）。音声合成フィルタ部２５０は、音声パラメータ生成部２２０が出力する音声パラメータを用いて音声波形を生成する（ステップＳ２５０）。ステップＳ２１０〜Ｓ２５０は全てのテキストについての処理が終了するまで繰り返される（ステップＳ２４０）。この繰り返し動作に制御は制御部２４０が行う。

この発明の音声合成装置２００によれば、音調結合型を考慮した音響モデルに基づいて音声を合成するので、通常のＨＭＭ音声合成より合成音の品質を向上させることができる。

上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD（Digital Versatile Disc）、DVD-RAM（Random Access Memory）、CD-ROM（Compact Disc Read Only Memory）、CD-R（Recordable）/RW（ReWritable）等を、光磁気記録媒体として、MO（Magneto Optical disc）等を、半導体メモリとしてEEP-ROM（Electronically Erasable and Programmable-Read Only Memory）等を用いることが出来る。

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

音高パラメータとスペクトルパラメータを含む学習用音声データと、当該学習用音声データの音素セグメンテーション情報とアクセント情報とを含む発話情報と、を入力として音声合成用ＨＭＭを学習して生成するモデル学習過程と、
上記音声合成用ＨＭＭから、上記発話情報と同一の音素セグメンテーション情報を持つ音声パラメータを生成し、当該音声パラメータと上記学習用音声データのパラメータとを用いて各アクセント句間のピッチパタン形状に影響を与える音調結合型を抽出する音調結合型抽出過程と、
上記学習用音声データと上記発話情報と上記音調結合型とを入力として、上記音調結合型を考慮したモデル学習を行い音調結合型音響モデルを生成する音調結合型モデル学習過程と、
を備える音響モデル生成方法。
請求項１に記載した音響モデル生成方法において、
上記音調結合型抽出過程は、
上記モデル学習過程で生成された音声合成用ＨＭＭと上記発話情報を入力として、当該発話情報と同一の音素セグメンテーション情報を持つ音声パラメータ系列を生成する音声パラメータ生成ステップと、
上記音声パラメータ系列と上記学習用音声データのパラメータを用いて、アクセント句間の上記音調結合型を抽出する音調結合型抽出ステップと、
を含むことを特徴とする音響モデル生成方法。
請求項１又は２に記載した音響モデル生成方法で生成した音調結合型音響モデルと、
音声合成対象テキストを入力として、当該音声合成対象テキストをテキスト解析して読みとアクセントと音調結合型とから成るテキスト情報を出力するテキスト解析過程と、
上記音調結合型音響モデルと上記テキスト情報とを用いて、音声パラメータを生成する音声パラメータ生成過程と、
上記音声パラメータを用いて音声波形を生成する音声合成フィルタ過程と、
を備える音声合成方法。
音高パラメータとスペクトルパラメータを含む学習用音声データと、当該学習用音声データの音素セグメンテーション情報とアクセント情報とを含む発話情報と、を入力として音声合成用ＨＭＭを学習して生成するモデル学習部と、
上記音声合成用ＨＭＭから、上記発話情報と同一の音素セグメンテーション情報を持つ音声パラメータを生成し、当該音声パラメータと上記学習用音声データのパラメータとを用いて各アクセント句間のピッチパタン形状に影響を与える音調結合型を抽出する音調結合型抽出部と、
上記学習用音声データと上記発話情報と上記音調結合型とを入力として、上記音調結合型を考慮したモデル学習を行い音調結合型音響モデルを生成する音調結合型モデル学習部と、
を具備する音響モデル生成装置。
請求項４に記載した音響モデル生成装置において、
上記音調結合型抽出部は、
上記モデル学習部で生成された音声合成用ＨＭＭと上記発話情報を入力として、当該発話情報と同一の音素セグメンテーション情報を持つ音声パラメータ系列を生成する音声パラメータ生成手段と、
上記音声パラメータ系列と上記学習用音声データのパラメータを用いて、アクセント句間の上記音調結合型を抽出する音調結合型抽出手段と、
を備えることを特徴とする音響モデル生成装置。
請求項４又は５に記載した音響モデル生成装置で生成した音調結合型音響モデルと、
音声合成対象テキストを入力として、当該音声合成対象テキストをテキスト解析して読みとアクセントと音調結合型とから成るテキスト情報を出力するテキスト解析部と、
上記音調結合型音響モデルと上記テキスト情報とを用いて、音声パラメータを生成する音声パラメータ生成部と、
上記音声パラメータを用いて音声波形を生成する音声合成フィルタ部と、
を具備する音声合成装置。
請求項４又は５に記載した音響モデル生成装置、又は請求項６に記載した音声合成装置としてコンピュータを機能させるためのプログラム。