JP6497065B2

JP6497065B2 - 音声合成用ライブラリ生成装置および音声合成装置

Info

Publication number: JP6497065B2
Application number: JP2014259287A
Authority: JP
Inventors: 誠橘; 橘　　誠; 雅史吉田
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2014-12-22
Filing date: 2014-12-22
Publication date: 2019-04-10
Anticipated expiration: 2034-12-22
Also published as: JP2016118712A

Description

本発明は、音声素片の接続で音声を合成する技術に関する。

収録音声から採取された複数の音声素片を相互に接続して所望の音色の合成音声を合成する素片接続型の音声合成技術が知られている。例えば、特許文献１には、複数の定常音データを音声素片毎に事前に収録し、目標ピッチに応じて複数の定常音データ（音声素片）を選択して相互に補間することで目標ピッチの定常音データを生成する構成が開示されている。

特開２０１３−１１８６３号公報

ところで、多様な声質の音声を合成するためには、声質毎に音声素片のライブラリを別個に用意する必要がある。例えば、音韻（発音内容）の明瞭度が相違する２種類の音声の合成を想定すると、発声者が曖昧に発音した音声を収録して曖昧な音声のライブラリを作成する一方、発声者が明瞭に発音した音声を収録して明瞭な音声のライブラリを生成する必要があり、ライブラリの作成の負担が大きいという問題がある。特に、曖昧性または明瞭性の度合を一定に維持しながら音声を継続して発音することは容易ではないから、発声者に過大な負担を強いる結果となる。以上の事情を考慮して、本発明は、音声合成用のライブラリを作成する負担を軽減しながら、受聴者に曖昧と知覚される程度が高い合成音声を生成することを目的とする。

以上の課題を解決するために、本発明の第１態様に係る音声合成用ライブラリ生成装置は、音声素片毎に素片データを含む音声合成用の第１ライブラリから第２ライブラリを生成する要素であって、複数の音声素片のうち特定母音以外の母音を含む音声素片について、前記第１ライブラリのうち当該母音を前記特定母音に置換した音声素片の素片データを含む第２ライブラリを生成する生成部を具備する。以上の構成によれば、既存の第１ライブラリから第２ライブラリが生成されるから、第１ライブラリと第２ライブラリとを相異なる収録音から別個に用意する場合と比較して、音声合成用のライブラリを作成する負担を軽減することが可能である。また、特定母音以外の母音を含む音声素片について、第１ライブラリのうち当該母音を特定母音に置換した音声素片の素片データが第２ライブラリに含まれるから、受聴者に曖昧と知覚される合成音声を第２ライブラリの素片データから生成することが可能である。例えば「う」の音声は、口の開き具合が他の母音（「あ」「い」「え」「お」）と比較して小さく、音韻が曖昧であると受聴者に知覚され易いという傾向がある。以上の傾向を考慮すると、「う」を特定母音とした構成が好適である。

第１態様に係る音声合成用ライブラリ生成装置の好適例において、前記生成部は、前記特定母音に音響特性が近似する特定子音と母音とを含む音声素片について、前記第１ライブラリにおける当該音声素片の素片データのうち前記特定子音の区間を示す素片データを含む第２ライブラリを生成する。以上の態様では、特定子音と母音とを含む音声素片について、第１ライブラリにおける当該音声素片の素片データのうち特定子音の区間を示す素片データを含む第２ライブラリが生成されるから、特定母音を含む音声素片に対応する素片データが第１ライブラリに存在しない場合でも、特定子音の区間を示す素片データを利用して受聴者に曖昧と知覚される合成音声を生成することが可能である。

第１態様に係る音声合成用ライブラリ生成装置の好適例において、前記生成部は、第１子音と母音とを含む音声素片について、前記第１ライブラリのうち前記第１子音とは相違する第２子音と前記特定母音とを含む音声素片の素片データを含む第２ライブラリを生成する。以上の態様では、第１子音と母音とを含む音声素片について、第１ライブラリのうち第１子音とは相違する第２子音と特定母音とを含む音声素片の素片データを含む第２ライブラリが生成されるから、第１子音と特定母音を含む素片データが第１ライブラリに存在しない場合でも、第２子音と特定母音とを含む音声素片の素片データを利用して受聴者に曖昧と知覚される合成音声を生成することが可能である。

以上の課題を解決するために、本発明の第２態様に係る音声合成装置は、音声素片毎に素片データを含む音声合成用の第１ライブラリから第２ライブラリを生成する要素であって、複数の音声素片のうち特定母音以外の母音を含む音声素片について、前記第１ライブラリのうち当該母音を前記特定母音に置換した音声素片の素片データを含む第２ライブラリを生成する生成部と、前記第１ライブラリのうち合成対象の発音文字に対応する音声素片の第１素片データと、前記第２ライブラリのうち当該音声素片の第２素片データとを選択する素片選択部と、前記第１素片データと前記第２素片データとを混合する素片混合部と、前記素片混合部による混合後の素片データを利用して合成音声を生成する合成処理部とを具備する。第２態様では、特定母音以外の母音を含む音声素片について、第１ライブラリのうち当該母音を特定母音に置換した音声素片の素片データが第２ライブラリに含まれるから、第１態様と同様に、音声合成用のライブラリを作成する負担を軽減することが可能である。また、第１素片データと第２素片データとの混合後の素片データを利用して合成音声が生成されるから、混合の度合に応じて受聴者に曖昧（または明瞭）と知覚される合成音声を生成することが可能である。

以上の課題を解決するために、本発明の第３態様に係る音声合成装置は、音声素片毎に素片データを含む音声合成用のライブラリから合成対象の発音文字に対応する音声素片の素片データを選択する要素であって、特定母音以外の母音を含む音声素片については、当該母音を前記特定母音に置換した音声素片の素片データを選択する素片選択部と、前記素片選択部が選択した音声素片を利用して合成音声を生成する合成処理部とを具備する。第３態様では、特定母音以外の母音を含む音声素片については、当該母音を特定母音に置換した音声素片の素片データが既存の音声合成用のライブラリから選択されるから、相異なる声質に対応する複数のライブラリを事前に用意する構成と比較して、音声合成用のライブラリを作成する負担を軽減しながら、受聴者に曖昧と知覚される合成音声を生成することが可能である。また、第１ライブラリから生成された第２ライブラリを記憶する必要がある第１態様と比較すると、第３態様では第２ライブラリの記憶が不要であるという利点もある。

第３態様に係る音声合成装置の好適例において、前記素片選択部は、前記特定母音に音響特性が近似する特定子音と母音とを含む音声素片について、当該音声素片の素片データのうち前記特定子音の区間を示す素片データを選択する。以上の態様では、特定母音に音響特性が近似する特定子音と母音とを含む音声素片について、当該音声素片の素片データのうち特定子音の区間を示す素片データが選択されるから、特定母音を含む音声素片に対応する素片データが音声合成用のライブラリに存在しない場合でも、特定子音の区間を示す素片データを利用して受聴者に曖昧と知覚される合成音声を生成することが可能になる、という効果が実現される。

第３態様に係る音声合成装置の好適例において、前記素片選択部は、第１子音と母音とを含む音声素片について、前記第１子音とは相違する第２子音と前記特定母音とを含む音声素片のデータを選択する。以上の態様では、第１子音と母音とを含む音声素片について、第１子音とは相違する第２子音と特定母音とを含む音声素片のデータが選択されるから、第１子音と特定母音を含む素片データが音声合成用のライブラリに存在しない場合でも、第２子音と特定母音とを含む音声素片の素片データを利用して受聴者に曖昧と知覚される合成音声を生成することが可能になる、という効果が実現される。

第３態様に係る音声合成装置の好適例において、前記素片選択部は、前記特定母音以外の母音を含む音声素片について、当該音声素片の第１素片データと、当該母音を前記特定母音に置換した音声素片の第２素片データとを選択し、前記第１素片データと前記第２素片データとを混合する素片混合部を具備し、前記合成処理部は、前記素片混合部による混合後の素片データを利用して合成音声を生成する。以上の態様では、第１素片データと第２素片データとが混合されるから、第２素片データのみを利用して合成音声を生成する構成と比較して、多様な声質の音声を生成できるという利点がある。

第２態様および第３態様に係る音声合成装置の好適例において、合成対象の特徴量に応じた混合比を設定する変数設定部を具備し、前記素片混合部は、前記変数設定部が設定した混合比で前記第１素片データと前記第２素片データとを混合する。以上の構成では、合成対象の特徴量に応じて第１素片データと第２素片データとの混合比が設定されるから、例えば利用者が混合比を指示する構成と比較して利用者の負担を軽減することが可能である。特徴量の好例は音高である。例えば、高音域の音声ほど音韻が曖昧と知覚され易いという傾向を前提とすれば、合成対象の音高が高いほど前記第２素片データの比率が高くなるように変数設定部が前記混合比を設定する構成が好適である。

以上の各態様に係るライブラリ生成装置および音声合成装置は、専用のハードウェア（電子回路）によって実現されるほか、CPU（Central Processing Unit）等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、例えば、本発明のプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。また、本発明は、以上に説明した各態様に係る音声合成用ライブラリ生成装置の動作方法（ライブラリ生成方法）や音声合成装置の動作方法（音声合成方法）としても特定される。

第１実施形態に係る音声合成装置のブロック図である。編集画面４０の説明図である。生成部３２による素片データＱの置換処理の説明図である。音声素片Ｐに対応する素片データＱの説明図である。第１実施形態のライブラリ生成処理の動作のフローチャートである。第２実施形態に係る音声合成装置のブロック図である。第２実施形態の素片選択の処理の動作のフローチャートである。第３実施形態に係る音声合成装置のブロック図である。第３実施形態における混合比Ｋの設定の説明図である。第４実施形態における音声合成装置のブロック図である。変形例に係る音声合成装置における補間処理についての説明図である。変形例に係る音声合成装置における補間処理についての説明図である。

＜第１実施形態＞
図１は、本発明の第１実施形態に係る音声合成装置１００のブロック図である。第１実施形態の音声合成装置１００は、複数の音声素片を連結する素片接続型の音声合成で任意の楽曲（以下「合成楽曲」という）の歌唱音声の音声信号Ｖを生成する信号処理装置である。

図１に例示される通り、音声合成装置１００は、演算処理装置１０と記憶装置１２と表示装置１４と入力装置１６と放音装置１８とを具備するコンピュータシステム（例えば携帯電話機やパーソナルコンピュータ等の情報処理装置）で実現される。表示装置１４（例えば液晶表示パネル）は、演算処理装置１０から指示された画像を表示する。入力装置１６は、音声合成装置１００に対する各種の指示のために利用者が操作する操作機器（例えばマウス等のポインティングデバイスやキーボード）であり、例えば利用者が操作する複数の操作子を含んで構成される。なお、表示装置１４と一体に構成されたタッチパネルを入力装置１６として採用することも可能である。放音装置１８（例えばスピーカやヘッドホン）は、音声信号Ｖに応じた音響を再生する。

記憶装置１２は、演算処理装置１０が実行するプログラムＰGMや演算処理装置１０が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置１２として任意に採用される。第１実施形態の記憶装置１２は、以下に例示する通り、第１ライブラリＬ1と合成情報Ｓとを記憶する。

第１ライブラリＬ1は、相異なる音声素片Ｐに対応する複数の素片データＱの集合（音声合成用ライブラリ）である。第１実施形態における１個の音声素片Ｐは、２個の音素を連結した音素連鎖（ダイフォン）である。第１ライブラリＬ1の１個の音声素片Ｐの素片データＱは、特定の発声者の収録音声のうち当該音声素片Ｐに対応する区間の音声波形を表すデータである。具体的には、各素片データＱは、時間領域の音声波形のサンプル系列や、音声波形のフレーム毎に算定された周波数領域のスペクトルの時系列で表現され得る。本実施形態の第１ライブラリＬ1の各素片データＱは、受聴者が音韻を明確に知覚し得る音声を表す。

合成情報Ｓは、合成楽曲の歌唱音声を指定する時系列データであり、合成楽曲を構成する音符毎に発音文字Ｘ1と発音期間Ｘ2と音高（例えばノートナンバー）Ｘ3とを時系列に指定する。発音文字Ｘ1は、合成対象の音声の発音内容（すなわち合成楽曲の歌詞）を指定する。発音期間Ｘ2は、例えば発音の開始時刻と継続長（または終了時刻）とで規定される。

図１の演算処理装置１０（ＣＰＵ）は、記憶装置１２に格納されたプログラムＰGMを実行することで、合成情報Ｓの編集や音声信号Ｖの生成のための複数の機能（生成部３２，表示制御部３３，素片選択部３４，指示受付部３５，合成処理部３６）を実現する。なお、演算処理装置１０の各機能を複数の装置に分散した構成や、専用の電子回路（例えばＤＳＰ）が演算処理装置１０の一部の機能を実現する構成も採用され得る。

指示受付部３５は、入力装置１６に対する操作に応じた利用者からの指示を受付ける。表示制御部３３は、各種の画像を表示装置１４に表示させる。具体的には、第１実施形態の表示制御部３３は、合成情報Ｓが指定する合成楽曲の内容を利用者が確認するための図２の編集画面４０を表示装置１４に表示させる。図２に例示される通り、編集画面４０の音符列画像４２は、相互に交差する時間軸（横軸）および音高軸（縦軸）が設定されたピアノロール型の座標平面である。

表示制御部３３は、合成情報Ｓが指定する音符毎に音符図像５４と発音文字Ｘ1とを編集画面４０に配置する。音符図像５４は、合成楽曲の各音符を表象する画像である。具体的には、音高軸の方向における音符図像５４の位置は、合成情報Ｓが指定する音高Ｘ3に応じて設定され、時間軸の方向における音符図像５４の位置および表示長は、合成情報Ｓが指定する発音期間Ｘ2に応じて設定される。発音文字Ｘ1は音符図像５４の先頭の近傍に配置される。

利用者は、図２の編集画面４０の音符列画像４２を確認しながら入力装置１６を適宜に操作することで、音符図像５４の追加または移動や発音文字Ｘ1の追加または変更を指示することが可能である。表示制御部３３は、指示受付部３５が利用者から受付けた指示に応じて編集画面４０（音符図像５４や発音文字Ｘ1）を更新する。

図１の素片選択部３４は、合成情報Ｓが指定する音符毎の発音文字Ｘ1に対応する音声素片Ｐの素片データＱを第１ライブラリＬ1から順次に選択する。合成処理部３６は、素片選択部３４によって第１ライブラリＬ1から選択された素片データＱと合成情報Ｓとを利用して音声信号Ｖを生成する。具体的には、合成処理部３６は、素片選択部３４が選択した素片データＱが示す音声波形を、合成情報Ｓが指定する音高Ｘ3および発音期間Ｘ2に調整したうえで相互に連結することで音声信号Ｖを生成する。合成処理部３６が生成した音声信号Ｖが放音装置１８に供給されることで合成楽曲の歌唱音声が再生される。前述の通り、各素片データＱは明瞭な発音の音声を表すから、第１ライブラリＬ1を利用して生成された音声信号Ｖの再生音は、受聴者により明瞭と知覚される。

図１の生成部３２は、第１ライブラリＬ1を利用して生成される音声信号Ｖと比較して音韻が曖昧と知覚される合成音声を生成するための第２ライブラリＬ2を既存の第１ライブラリＬ1から生成する。第２ライブラリＬ2は、第１ライブラリＬ1と同様に、相異なる音声素片Ｐに対応する複数の素片データＱの集合である。生成部３２が生成した第２ライブラリＬ2は、図１に例示される通り、第１ライブラリＬ1とともに記憶装置１２に格納されて合成処理部３６による音声信号Ｖの生成に利用される。

具体的には、生成部３２は、受聴者が曖昧と知覚する傾向がある特定の母音（以下「特定母音」という）以外の母音を含む音声素片Ｐについて、第１ライブラリＬ1のうち当該母音を特定母音に置換した音声素片Ｐの素片データＱを含む第２ライブラリＬ2を生成する。母音[M]（う）は、発音時の口の開き度合が小さいこともあり、他の母音（[a],[i],[e],[o]）と比較して曖昧と知覚され易いという傾向がある。以上の傾向を考慮して、第１実施形態では、母音[M]を特定母音として例示する。なお、各音素の表記は、X-SAMPA(Extended Speech Assessment Method Phonetic Alphabet)に準拠している。符号「Sil」は無音(Silence)を意味する。また、以下の説明における符号「V」は母音（Vowel）を意味し、符号「C」は子音（Consonant）を意味する。

図３は、生成部３２による置換処理について具体的に説明するための図である。図３には、第１ライブラリＬ1および第２ライブラリＬ2について共通の音声素片Ｐに対応する素片データＱの内容が図示されている。第１ライブラリＬ1における１個の音声素片Ｐは、２つの音素を連結した音素連鎖であるから、特定母音以外の母音を含む音声素片Ｐとしては、２個の母音を配列した音声素片と、母音および子音を含む音声素片との２種類が想定される。

（１）母音＋母音：［V-V］
図３(a)は、第２ライブラリＬ2のうち２個の母音を配列した音声素片Ｐ［V-V］の素片データＱの説明図である。図３(a)に例示される通り、第１ライブラリＬ1には、５種類の母音（あ,い,う,え,お）に対応する音声素片Ｐ([a-a],[i-i],[M-M],[e-e],[o-o])について、当該音声素片Ｐの音声波形を表す素片データＱ([a-a],[i-i],[M-M],[e-e],[o-o])が記憶される。生成部３２は、各音声素片Ｐ［V-V］（[a-a],[i-i],[M-M],[e-e],[o-o]）のうち特定母音以外の母音（［a］，［i］，［e］，［o］）を特定母音［M］に置換した音声素片Ｐ[M-M]について第１ライブラリＬ1に記憶された素片データＱ[M-M]を複製し、第２ライブラリＬ2における当該音声素片Ｐ[V-V]の素片データＱとして記憶する。例えば、第２ライブラリＬ2の音声素片[a-a]については、音素[a]を特定母音[M]に置換した音声素片[M-M]について第１ライブラリＬ1に記憶された素片データＱ[M-M]が複製される。なお、以上の説明では、同じ母音同士の組み合わせで構成される音声素片Ｐを例示したが、相異なる母音同士の組み合わせにより構成される音声素片Ｐ([a-i],[a-M],[a-e],[a-o],[i-a],[i-M],[i-e],[i-o],[M-a],[M-i],[M-e],[M-o],[o-a],[o-i],[o-M],[o-e])についても同様に、特定母音以外の母音（［a］，［i］，［e］，［o］）を特定母音［M］に置換した音声素片Ｐ[M-M]について第１ライブラリＬ1に記憶された素片データＱ[M-M]を複製し、第２ライブラリＬ2における当該音声素片Ｐ[V-V]の素片データＱとして記憶する。
なお、特定母音のみで構成される音声素片Ｐ[M-M]については、第１ライブラリＬ1のうち当該音声素片[M-M]の素片データＱ[M-M]が第２ライブラリＬ2に複製される。

（２）母音＋子音または子音＋母音：[C,V]（[C-V]，[V-C]）
図３(b)は、第２ライブラリＬ2のうち母音と子音とを配列した音声素片Ｐ[C,V]の素片データＱの説明図である。図３(b)に例示される通り、生成部３２は、各音声素片Ｐ[C,V]のうち特定母音以外の母音を特定母音[M]に置換した音声素片[C,M]について第１ライブラリＬ1に記憶された素片データＱ[C,M]を複製し、第２ライブラリＬ2における当該音声素片[C,V]の素片データＱとして記憶する。例えば、第２ライブラリＬ2の音声素片Ｐ[s-a]については、母音[a]を特定母音[M]に置換した音声素片[s-M]について第１ライブラリＬ1に記憶された素片データＱ[s-M]が第２ライブラリＬ2に複製される。

以上に説明した通り、図３(a)および図３(b)では、特定母音[M]を包含する音声素片Ｐの素片データＱが第１ライブラリＬ1に存在する場合の処理を例示したが、特定母音[M]を含む特定の音声素片Ｐの素片データＱが第１ライブラリＬ1に存在しない場合がある。以上の場合に実行される例外処理について説明する。

（３）例外処理１
図３(c)に例示される通り、特定母音[M]に音響特性（例えば受聴者が知覚する音韻）が近似する子音（以下「特定子音」という）[w]に特定母音[M]以外の各母音が後続する音声素片Ｐ（[w-a]，[w-i]，[w-e]，[w-o]）および素片データＱ（[w-a]，[w-i]，[w-e]，[w-o]）については第１ライブラリＬ1に記憶されている。他方、特定子音[w]に特定母音[M]以外の各母音が後続する音声素片Ｐ[w-M]よび素片データＱ[w-M]については、第１ライブラリＬ1に記憶されない場合を想定する。

生成部３２は、第１ライブラリＬ1において特定子音[w]と母音[V]（図３(c)の例では[a]）とを含む音声素片Ｐの素片データＱ[w-V]のうち、特定子音[w]の区間を示す素片データＱ[w]を当該音声素片Ｐ[w-V]について含む第２ライブラリＬ2を生成する。具体的には、図３(c)に例示されるように、第１ライブラリＬ1における音声素片Ｐ[w-a]の素片データＱ[w-a]のうち特定子音[w]の区間を表す素片データＱ[w]が、第２ライブラリＬ2における音声素片Ｐ[w-V]の素片データＱとして複製される。

以上の説明から理解される通り、第１実施形態では、特定子音[w]と母音[V]とを含む音声素片Ｐ[w-V]について、第１ライブラリＬ1における音声素片Ｐの素片データＱのうち特定子音[w]の区間の素片データＱを含む第２ライブラリＬ2が生成される。したがって、特定母音[M]を含む音声素片Ｐの素片データＱが第１ライブラリＬ1に存在しない場合でも、特定子音[w]の区間を示す素片データＱ[w]を利用して、曖昧な発音に対応する合成音声を生成することが可能である。

（４）例外処理２
図３(d)に例示される通り、第１ライブラリＬ1には、子音（以下「第１子音」という）[h]と母音[a],[e],[o]とを含む音声素片Ｐ([h-a],[h-e],[h-o])については素片データＱ([h-a],[h-e],[h-o])が記憶されるが、第１子音[h]とそれ以外の母音[i]，[M]とを含む音声素片Ｐ（[h-i],[h-M])については素片データＱが記憶されない場合が想定される。他方、第１ライブラリＬ1には、第１子音[h]とは相違する子音（以下「第２子音」という）[p\]と母音[a],[M],[e],[o]とを含む音声素片Ｐ([p\-a],[p\-M],[p\-e],[p\-o])についての素片データＱ([p\-a],[p\-M],[p\-e],[p\-o])が記憶される。

生成部３２は、第１ライブラリＬ1のうち第２子音[p\]と、特定母音[M]とを含む素片データＱ[p\-M]を含む第２ライブラリＬ2を生成する。具体的には、図３(d)に例示されるように、第１ライブラリＬ1の素片データＱ（例えば[p\-a]）のうち第２子音[p\]と特定母音[M]とを含む音声素片Ｐ[p\-M]の素片データＱ[p\-M]が、第２ライブラリＬ2の音声素片Ｐ[h-V]の素片データＱとして複製される。

以上の説明から理解される通り、第１実施形態では、第１子音[h]と母音[V]とを含む音声素片Ｐについて、第１子音[h]とは相違する第２子音[p\]と特定母音[M]とを含む音声素片Ｐの素片データＱを含む第２ライブラリＬ2が生成されるから、第１子音[h]と特定母音[M]とを含む素片データＱが第１ライブラリＬ1に存在しない場合でも、第２子音[p\]と特定母音[M]とを含む音声素片Ｐの素片データＱを利用して、曖昧な発音の合成音声を生成することが可能である。

図３(a)から図３(d)では、母音[V]を含む音声素片Ｐについて説明した。子音[C]と無音[sil]とを配列した音声素片Ｐのように母音[V]を含まない音声素片Ｐ（例えば[Sil-k],[k-Sil]等）については、第１ライブラリＬ1のうち当該音声素片Ｐに対応する素片データＱが第２ライブラリＬ2に複製される。

以上の説明から理解される通り、第１ライブラリＬ1と第２ライブラリＬ2とでは、素片データＱが用意される音声素片Ｐの種類は共通する一方、各音声素片Ｐについて用意される素片データＱが表す音声波形は相違し得る。以上の手順で生成された第２ライブラリＬ2は、第１ライブラリＬ1と同様に音声信号Ｖの生成に利用される。すなわち、発音文字Ｘ1に対応する音声素片Ｐの素片データＱを素片選択部３４が第２ライブラリＬ2から順次に選択し、素片選択部３４が選択した各素片データＱを合成処理部３６が調整および連結することで、受聴者に曖昧と知覚される音声の音声信号Ｖが生成される。第１実施形態では、第１ライブラリＬ1を利用した明瞭な音声の合成と、第２ライブラリＬ2を利用した曖昧な音声の合成とが、例えば入力装置１６に対する利用者からの指示に応じて択一的に実行される。

図４は、第１ライブラリＬ1を利用した音声合成と第２ライブラリＬ2を利用した音声合成との説明図である。図４(a)には、合成情報Ｓで指定された発音文字Ｘ1「まや」に対応して選択される音声素片Ｐの時系列が例示され、図４(b)には、第１ライブラリＬ1を利用した音声合成時に第１ライブラリＬ1から読み出される素片データＱの時系列が例示され、図４(c)には、第２ライブラリＬ2を利用した音声合成時に第２ライブラリＬ2から読み出される素片データＱの時系列が例示されている。

第１ライブラリＬ1を利用した音声合成（明瞭な音声の合成）が指示された場合、素片選択部３４は、図４(b)に例示された素片データＱ（[Sil-m],[m-a],[a-a],[a-j],[j-a],[a-a],[a-Sil]）を第１ライブラリＬ1から順次に選択する。合成処理部３６は、素片選択部３４によって選択された素片データＱを利用して、「まや（maya）」という発音文字Ｘ1が受聴者に明瞭に知覚される合成音声を生成する。

他方、第２ライブラリＬ2を利用した音声合成（曖昧な音声の合成）が指示された場合、素片選択部３４は、図４(c)の素片データＱ（[Sil-m],[m-M],[M-M],[M-j],[j-M],[M-M],[M-Sil]）を第２ライブラリＬ2から順次に選択する。合成処理部３６は、素片選択部３４によって選択された素片データＱを利用して、発音文字Ｘ1「まや(maya)」の発音を曖昧にしたと利用者に知覚され得る「むゆ（muyu）」という合成音声を生成する。

図５は、第１実施形態の生成部３２が第２ライブラリＬ2を生成する処理のフローチャートである。例えば、第２ライブラリＬ2の生成が利用者から指定された場合に図５の処理が開始される。

生成部３２は、任意の１個の音声素片（以下「対象素片」という）Ｐを選択し（ＳA1）、対象素片Ｐが母音を含むか否かを判定する（ＳA2）。対象素片Ｐが母音を含まない場合（ＳA2：NO）、生成部３２は、対象素片Ｐについて第１ライブラリＬ1に記憶された素片データＱを第２ライブラリＬ2の対象素片Ｐの素片データＱとして複製する（ＳA3）。他方、対象素片Ｐが母音を含む場合（ＳA2：YES）、生成部３２は、対象素片Ｐの母音を特定母音[M]に置換した音声素片Ｐの素片データＱが第１ライブラリＬ1に存在するか否かを判定する（ＳA4）。判定結果が肯定である場合（ＳA4：YES）、生成部３２は、対象素片Ｐの母音を特定母音[M]に置換した音声素片Ｐの素片データＱを第１ライブラリＬ1から取得し、第２ライブラリＬ2における対象素片Ｐの素片データＱとして記憶する（ＳA5）。他方、対象素片Ｐの母音を特定母音[M]に置換した音声素片Ｐの素片データＱが第１ライブラリＬ1に存在しない場合（ＳA4：NO）、生成部３２は、前述の例外処理１または例外処理２を実行することで、第２ライブラリＬ2のうち対象素片Ｐの素片データＱを用意する（ＳA6）。以上の処理が、全種類の音声素片Ｐについて順次に反復されることで（ＳA7：NO）、音声素片Ｐ毎に素片データＱを含む第２ライブラリＬ2が生成される。

以上に説明した通り、第１実施形態では、第１ライブラリＬ1の複数の音声素片Ｐのうち、特定母音[M]以外の母音（［a］，［i］，［e］，［o］）を含む音声素片Ｐについて、当該母音を特定母音[M]に置換した音声素片Ｐの素片データＱが第２ライブラリＬ2に複製される。すなわち、既存の第１ライブラリＬ1の音声素片Ｐの素片データＱを利用して、曖昧な発音の合成音声に利用される第２ライブラリＬ2が生成される。したがって、明瞭な音声に対応する第１ライブラリＬ1と曖昧な音声に対応する第２ライブラリＬ2とを実際の収録音から個別に生成する場合と比較して、音声合成用のライブラリを作成する負担を軽減しながら、受聴者に曖昧と知覚される合成音声を生成することが可能である。

＜第２実施形態＞
第１実施形態では、第２ライブラリＬ2を既存の第１ライブラリＬ1から事前に生成して音声合成に利用した。第２実施形態では、合成情報Ｓに応じた音声信号Ｖを生成する場面において、第１実施形態で第１ライブラリＬ1から第２ライブラリＬ2を生成したのと同様の規則のもとで、素片選択部３４が既存のライブラリＬから素片データＱを動的に選択することで、第２ライブラリＬ2を生成することなく曖昧な音声の音声信号Ｖを生成する。なお、以下に例示する各態様において作用や機能が第１実施形態と同様である要素については、第１実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。

図６は、第２実施形態における音声合成装置１００のブロック図である。第２実施形態では、第１実施形態の生成部３２および第２ライブラリＬ2が省略される。図６のライブラリＬは、第１実施形態の第１ライブラリＬ1に相当し、明瞭な音声の素片データＱを音声素片Ｐ毎に包含する。利用者から明瞭な発音の合成音声の生成が指示された場合、第２実施形態の素片選択部３４は、第１実施形態（図４(b)の例示）と同様に、発音文字Ｘ1に対応する各音声素片Ｐの素片データＱをライブラリＬから順次に選択する。他方、利用者から曖昧な発音の合成音声の生成が指示された場合、素片選択部３４は、図３(a)から図３(d)を参照して前述した置換処理と実質的に同様の規則に則って、図４(c)に例示される素片データＱをライブラリＬから順次に選択する。素片選択部３４による素片選択について具体的に説明する。

（１）母音＋母音：［V-V］
素片選択部３４は、発音文字Ｘ1に対応する音声素片Ｐが特定母音[M]以外の母音（[a],[i],[e],[o]）を含む場合、当該母音を特定母音[M]に置換した音声素片Ｐの素片データＱをライブラリＬから選択する。

（２）母音＋子音または子音＋母音：[C,V]（[V-C]，[C-V]）
素片選択部３４は、発音文字Ｘ1に対応する音声素片Ｐが特定母音[M]以外の母音（[a],[i],[e],[o]）と子音とを含む場合、特定母音[M]以外の母音を特定母音[M]に置換した音声素片Ｐの素片データＱをライブラリＬから選択する。

（３）例外処理１
発音文字Ｘ1に対応する音声素片Ｐが、特定子音[w]と特定母音[M]以外の母音[V]とを含む音声素片Ｐ[w-V]である場合、素片選択部３４は、特定子音[w]と特定母音[M]以外の母音[V]とを含む音声素片Ｐ[w-V]の素片データＱ[w-V]をライブラリＬから選択し、当該素片データＱ[w-V]のうち特定子音[w]の区間を示す素片データＱ[w]を生成する。

（４）例外処理２
発音文字Ｘ1に対応する音声素片Ｐが、第１子音[h]と特定母音[M]以外の母音[V]とを含む音声素片Ｐ[h-V]である場合、素片選択部３４は、第１子音[h]とは相違する第２子音[p\]と特定母音[M]とを含む音声素片Ｐの素片データＱをライブラリＬから選択する。

合成処理部３６は、素片選択部３４によって選択された音声素片Ｐの素片データＱを利用して合成音声を生成する。第２実施形態では、第１実施形態と同様の規則のもとで素片データＱが選択されるから、第１実施形態と同様に、発音が明瞭な合成音声と発音が曖昧な合成音声との双方を生成することが可能である。

図７は、第２実施形態の素片選択部３４が素片データＱを選択する処理のフローチャートである。例えば音声合成の開始が利用者から指示された場合に、合成情報Ｓで指定される各発音文字Ｘ1に対応する音声素片（対象素片）Ｐ毎に図７の処理が順次に実行される。

素片選択部３４は、対象素片Ｐが特定母音[M]以外の母音を含むか否かを判定する（ＳB1）。対象素片Ｐが特定母音[M]以外の母音を含まない場合（ＳB1：NO）、素片選択部３４は、当該対象素片Ｐの素片データＱをライブラリＬから選択する（ＳB2）。他方、対象素片Ｐが特定母音[M]以外の母音を含む場合（ＳB1：YES）、素片選択部３４は、当該母音を特定母音[M]に置換した音声素片Ｐの素片データＱがライブラリＬに存在するか否かを判定する（ＳB3）。判定結果が肯定である場合（ＳB3：YES）、素片選択部３４は、対象素片Ｐの母音を特定母音[M]に置換した音声素片Ｐの素片データＱをライブラリＬから選択する（ＳB4）。他方、該当する素片データＱがライブラリＬに存在しない場合（ＳB3：No）、素片選択部３４は、前述の例外処理１または例外処理２により素片データＱを用意する(SB5)。以降については第１実施形態と同様であるので詳細な説明を省略する。

以上の説明から理解される通り、第２実施形態では、素片選択部３４は、特定母音[M]以外の母音（［a］，［i］，［e］，［o］）を含まない音声素片Ｐについて当該音声素片Ｐの素片データＱを選択し、特定母音[M]以外の母音（［a］，［i］，［e］，［o］）を含む音声素片Ｐについては、当該母音を特定母音[M]に置換した音声素片Ｐの素片データＱを選択する。すなわち、明瞭な音声と曖昧な音声との各々に対応するライブラリを別個に用意する必要がない。したがって、第２実施形態においても第１実施形態と同様に、音声合成用のライブラリを作成する負担を軽減しながら、曖昧な発音の合成音声を生成することが可能である。また、第２実施形態では第２ライブラリＬ2の生成および記憶が不要であるから、第１ライブラリＬ1と第２ライブラリＬ2との双方を記憶装置１２に記憶する必要がある第１実施形態と比較して、記憶装置１２に必要な容量が削減されるという利点もある。

＜第３実施形態＞
第２実施形態では、発音文字Ｘ1に対応する音声素片Ｐの各素片データＱを相互に連結することで明瞭な音声の音声信号Ｖを生成する動作と、発音文字Ｘ1に対応する音声素片の母音を特定母音[M]に置換した音声素片の各素片データＱを相互に連結することで曖昧な音声の音声信号Ｖを生成する動作とを選択的に実行した。第３実施形態では、発音文字Ｘ1に対応する各音声素片Ｐについて、前者の素片データＱ（以下「第１素片データＱ1」という）と後者の素片データＱ（以下「第２素片データＱ2」という）とが混合される。

図８は、第３実施形態の音声合成装置１００のブロック図である。第３実施形態では、第２実施形態の構成に対して変数設定部３７と素片混合部３８とが付加される。第３実施形態の素片選択部３４は、合成情報Ｓが指定する発音文字Ｘ1に対応する各音声素片Ｐについて、第１素片データＱ1と第２素片データＱ2とをライブラリＬから選択する。前述の通り、第１素片データＱ1は、発音文字Ｘ1に対応する各音声素片ＰについてライブラリＬに記憶された素片データＱであり、第２素片データＱ2は、図７と同様の処理により、例えば発音文字Ｘ1に対応する音声素片Ｐの母音を特定母音[M]に置換した音声素片Ｐの素片データＱである。第１素片データＱ1は明瞭に発音された音声素片Ｐの音声波形を表し、第２素片データＱ2は当該音声素片Ｐを曖昧に発音した場合の音声波形を表す、とも換言され得る。

素片混合部３８は、素片選択部３４が１個の音声素片Ｐについて選択した第１素片データＱ1と第２素片データＱ2とを混合比Ｋに応じて混合することで素片データＱを生成する。具体的には、素片混合部３８は、以下の数式(1)で表現される通り、混合比Ｋに応じた加重値を適用した第１素片データＱ1と第２素片データＱ2との加重和を素片データＱとして生成する。

数式(1)の記号αは所定の定数である。数式(1)から理解される通り、混合比Ｋが大きいほど、素片データＱにおける第２素片データＱ2の比率が増加し、結果的に音声信号Ｖの音声の音韻が聴感的に曖昧になる。合成処理部３６は、素片混合部３８による混合後の各素片データＱを、第１実施形態と同様の方法で調整および連結することで音声信号Ｖを生成する。

図８の変数設定部３７は、合成対象の音声の特徴量に応じて第１素片データＱ1と第２素片データＱ2との混合比Ｋを設定する。ここで、高音域の音声ほど、受聴者が知覚する音韻が曖昧になる、という傾向を想定する。以上の傾向を考慮して、第３実施形態の変数設定部３７は、合成対象の音符に指定された音高Ｘ3を特徴量として、当該音高Ｘに応じた混合比Ｋを設定する。具体的には、音符の音高Ｘ3が高いほど混合比Ｋが増加する（すなわち音声信号Ｖの音声が曖昧になる）ように混合比Ｋが制御される。

図９は、変数設定部３７による混合比Ｋの設定についての説明図である。図９に例示される編集画面４０のうち音符列画像４２では、利用者に指定された“あさやけの（asayakeno）”という発音文字Ｘ1が５個の音符に割当てられた場合が例示されている。第３実施形態では、時間軸上の特定の区間ｔ内の音符毎に、第１素片データＱ1と第２素片データＱ2との混合比Ｋが設定される。区間ｔは、混合比Ｋの設定対象となる区間であり、例えば入力装置１６に対する操作で利用者が選択した区間や合成楽曲の全区間等の任意の区間である。

図９の記号Ｒは、区間ｔ内の音高Ｘ3の最大値ＮHと最小値ＮLとの差異（すなわち区間ｔ内の音高Ｘ3の分布幅）を意味する（Ｒ＝ＮH−ＮL）。変数設定部３７は、以下の数式(2)の演算により、音符の音高Ｘ3に応じた混合比Ｋを区間ｔ内の音符毎に算定する。

数式(2)の記号βは所定の定数（典型的には正数）である。数式(2)から理解される通り、音高Ｘ3が区間ｔ内の最小値ＮLである音符（Ｘ3＝ＮL）の混合比Ｋは最小値０となり、音高Ｘ3が区間ｔ内の最大値ＮHである音符（Ｘ3＝ＮH）の混合比Ｋは最大値βとなる。すなわち、混合比Ｋは、音高Ｘ3が高いほど増加するように最小値０と最大値βとの間の範囲内で音高Ｘ3に応じて変化する。図９に例示される通り、編集画面４０の変数領域４４には、音符毎の混合比Ｋが表示（グラフ表示）される。

以上の説明から理解される通り、第３実施形態では、発音文字Ｘ1に対応する音声素片Ｐについて、ライブラリＬのうち当該音声素片の第１素片データＱ1と、ライブラリＬのうち母音を特定母音[M]に置換した音声素片Ｐの第２素片データＱ2とが混合される。したがって、第１実施形態や第２実施形態と同様に、音声合成用のライブラリを作成する負担を軽減しながら、曖昧な発音の合成音声を生成することが可能である。

ところで、第１素片データＱ1と第２素片データＱ2とを混合する構成としては、例えば、利用者からの指示に応じた混合比Ｋで混合を実行する構成（以下「対比例」という）も採用され得る。しかし、対比例では、混合比Ｋを指示する利用者の負担が大きいという問題が発生し得る。第３実施形態では、合成対象の特徴量（具体的には各音符の音高Ｘ3）に応じて混合比Ｋが可変に設定されるから、対比例と比較して利用者の負担を軽減することが可能である。第１実施形態では特に、各音符の音高Ｘ3が高いほど第２素片データＱ2の比率が増加するように混合比Ｋが設定されるから、高音域の音声ほど音韻が曖昧になるという傾向を再現した自然な合成音声を生成できるという利点がある。

＜第４実施形態＞
第４実施形態では、第１ライブラリＬ1から第２ライブラリＬ2を事前に生成する第１実施形態の構成を前提として、第１ライブラリＬ1から選択された第１素片データＱ1と、第２ライブラリＬ2から選択された音声素片Ｐの第２素片データＱ2とを、第３実施形態と同様に混合して合成音声を生成する。

図１０は、第４実施形態の音声合成装置１００のブロック図である。図１０の生成部３２は、第１実施形態と同様の方法で既存の第１ライブラリＬ1から第２ライブラリＬ2を生成する。したがって、第４実施形態によれば第１実施形態と同様の効果が実現される。他方、素片選択部３４は、合成対象の発音文字Ｘ1に対応する音声素片Ｐ毎に、第１ライブラリＬ1の第１素片データＱ1と第２ライブラリＬ2の第２素片データＱ2とを順次に選択する。

図１０に例示されるように、第４実施形態では、第１実施形態の音声合成装置１００に対して、第３実施形態と同様の変数設定部３７と素片混合部３８が追加される。変数設定部３７は、第３実施形態と同様に、音符毎の特徴量である音高Ｘ3に応じて混合比Ｋを音符毎に設定する。具体的には、音高Ｘ3が高いほど混合比Ｋが増加するように、例えば数式(2)の演算で混合比Ｋが算定される。素片混合部３８は、第３実施形態と同様に、素片選択部３４が選択した第１素片データＱ1と第２素片データＱ2とを、変数設定部３７が設定した混合比Ｋに応じて混合することで素片データＱを生成する。したがって、第４実施形態によれば、第３実施形態と同様に、混合比Ｋを利用者が指示する対比例と比較して利用者の負担を軽減することが可能である。

＜変形例＞
前述の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様を適宜に併合することも可能である。

（１）第３実施形態のように第１素片データＱ1と第２素片データＱ2との混合比Ｋを音符毎に設定する構成では混合比Ｋが音符毎に段階的（不連続）に変動し得る。そこで、各音符の混合比Ｋを補間することで混合比Ｋを時間的に連続に変化させる構成も好適である。例えば図１１に例示されるように、各音符の発音期間Ｘ2の中間地点において当該音符の音高Ｘ3に応じた数値（数式(2)の演算値）となるように各音符の混合比Ｋを直線補間することで、複数の音符に亘って混合比Ｋを連続的に変化させてもよい。

また、例えば図１２に例示される通り、音符の発音期間Ｘ2のうち一部の期間（以下「定常期間」という）σにおいて当該音符の音高Ｘ3に応じた混合比Ｋを維持し、各発音期間Ｘ2内の定常期間σの終点と直後の発音期間Ｘ2内の定常期間σの始点との間で混合比Ｋを補間（図１２の例示では直線補間）することも可能である。定常期間σは、例えば発音期間Ｘ2の始点から所定長（例えば継続長の１／４）だけ経過した時点を始点とし、発音期間Ｘ2の終点から所定長だけ手前の時点を終点とする期間である。なお、図１１や図１２の例示では直線補間を例示したが、補間の具体的な方法は任意であり、例えば公知の曲線補間を利用してもよい。

（２）第３実施形態では、混合比Ｋの最大値βを所定の定数としたが、入力装置１６に対する利用者からの指示に応じて最大値βを可変に設定することも可能である。また、第３実施形態では、音高Ｘ3が高いほど混合比Ｋが増加する構成を例示したが、音高Ｘ3の高低と混合比Ｋの大小との関係は以上の例示に限定されない。例えば、音高Ｘ3が高いほど混合比Ｋが減少する（合成音声が明瞭になる）ように混合比Ｋを算定することも可能である。

（３）混合比Ｋの算定に適用される特徴量は、第３実施形態で例示した音高Ｘ3に限定されない。例えば、各音符の音量に応じて混合比Ｋを設定する構成も採用され得る。例えば、音量が小さいほど、受聴者が知覚する音韻が曖昧になる、という傾向を想定すると、音量が小さいほど混合比Ｋが増加するように変数設定部３７が混合比Ｋを設定する構成が好適である。

（４）合成対象の特徴量に応じて混合比Ｋを設定する第３実施形態や第４実施形態の構成にとって、生成部３２が第１ライブラリＬ1から第２ライブラリＬ2を生成する第１実施形態の構成や、母音を特定母音[M]に置換した音声素片の素片データＬ2を素片選択部３４が選択する第２実施形態の構成は必須ではない。例えば、相異なる声質の収録音から第１ライブラリＬ1および第２ライブラリＬ2が事前に用意された構成において、第１ライブラリＬ1から選択された第１素片データＱ1と第２ライブラリＬ2から選択された第２素片データＱ2とを例えば音高Ｘ3に応じた混合比Ｋで混合することも可能である。

（５）第１実施形態では、生成部３２が生成した第２ライブラリＬ2を利用して音声信号Ｖを生成する音声合成装置１００を例示したが、既存の第１ライブラリＬ1から第１実施形態に例示した方法で第２ライブラリＬ2を生成する装置（音声合成用ライブラリ生成装置）としても本発明は実現され得る。音声合成用ライブラリ生成装置において、音声合成のための機能（素片選択部３４，合成処理部３６）の有無は不問である。

１００……音声合成装置、１０……演算処理装置、１２……記憶装置、１４……表示装置、１６……入力装置、１８……放音装置、３２……生成部、３３……表示制御部、３４……素片選択部、３５……指示受付部、３６……合成処理部、３７……変数設定部、３８……素片混合部、４０……編集画面、４２……音符列画像、４４……変数領域、５４……音符図像。

Claims

音声素片毎に素片データを含む音声合成用の第１ライブラリから第２ライブラリを生成する要素であって、複数の音声素片のうち特定母音以外の母音を含む音声素片について、前記第１ライブラリのうち当該母音を前記特定母音に置換した音声素片の素片データを含む第２ライブラリを生成する生成部
を具備する音声合成用ライブラリ生成装置。
音声素片毎に素片データを含む音声合成用の第１ライブラリから第２ライブラリを生成する要素であって、複数の音声素片のうち特定母音以外の母音を含む音声素片について、前記第１ライブラリのうち当該母音を前記特定母音に置換した音声素片の素片データを含む第２ライブラリを生成する生成部と、
前記第１ライブラリのうち合成対象の発音文字に対応する音声素片の第１素片データと、前記第２ライブラリのうち当該音声素片の第２素片データとを選択する素片選択部と、
前記第１素片データと前記第２素片データとを混合する素片混合部と、
前記素片混合部による混合後の素片データを利用して合成音声を生成する合成処理部と
を具備する音声合成装置。
音声素片毎に素片データを含む音声合成用のライブラリから合成対象の発音文字に対応する音声素片の素片データを選択する要素であって、受聴者が曖昧と知覚する傾向がある特定母音以外の母音を含む音声素片については、当該母音を前記特定母音に置換した音声素片の素片データを選択し、前記特定母音を含む音声素片については、当該特定母音を置換せずに音声素片の素片データを選択する素片選択部と、
前記素片選択部が選択した音声素片を利用して合成音声を生成する合成処理部と
を具備する音声合成装置。
前記素片選択部は、前記特定母音以外の母音を含む音声素片について、当該音声素片の第１素片データと、当該母音を前記特定母音に置換した音声素片の第２素片データとを選択し、
前記第１素片データと前記第２素片データとを混合する素片混合部を具備し、
前記合成処理部は、前記素片混合部による混合後の素片データを利用して合成音声を生成する
請求項３の音声合成装置。
合成対象の特徴量に応じた混合比を設定する変数設定部を具備し、
前記素片混合部は、前記変数設定部が設定した混合比で前記第１素片データと前記第２素片データとを混合する
請求項２または請求項４の音声合成装置。