JP5552797B2

JP5552797B2 - 音声合成装置および音声合成方法

Info

Publication number: JP5552797B2
Application number: JP2009256027A
Authority: JP
Inventors: 隼人大下; 靖雄吉岡; 雅史吉田; 橘　　誠
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2009-11-09
Filing date: 2009-11-09
Publication date: 2014-07-16
Anticipated expiration: 2029-11-09
Also published as: JP2011100055A

Description

本発明は、音声（典型的には歌唱音）を合成する技術に関する。

音声素片を示す複数の素片データの集合（以下「音声ライブラリ」という）を利用して所望の音声を合成する技術が従来から提案されている（例えば特許文献１）。音声ライブラリは、実際の音声を採取したうえで音声素片毎に区分および解析することで作成される。

特開２００２−２０２７９０号公報

特許文献１の技術のもとでは、合成すべき音声の特性毎に別個の音声ライブラリが必要となる。したがって、既存の音声ライブラリとは特性が異なる音声（例えば別の歌手の歌唱音）を合成するためには、音声ライブラリを新規に作成する必要がある。また、多様な音声の合成には多数の音声ライブラリが使用されるから、これらの音声ライブラリの記憶に必要な記憶装置の容量が増大するという問題もある。以上の事情を考慮して、本発明は、音声ライブラリの作成の労力や音声ライブラリの記憶に必要な容量を削減しながら多様な音声を合成することを目的とする。

以上の課題を解決するために、本発明の第１態様に係る音声合成装置は、音声素片を示す複数の素片データを含む音声ライブラリと、素片データの利用を規定する素片利用情報が、音声ライブラリ内の１個以上の素片データを単位として複数の前記単位の各々を対象に設定された付属情報とを記憶する記憶手段と、指定音（合成の対象として指定された音）の時系列を示す音楽情報に応じて音声ライブラリの素片データを順次に選択する素片選択手段と、素片選択手段が選択した各素片データを、付属情報にて当該素片データに設定された素片利用情報に応じて加工する素片加工手段と、素片加工手段による加工後の素片データから音声を合成する合成処理手段とを具備する。以上の構成においては、付属情報を音声ライブラリに適用することで合成音が生成されるから、新規な音声ライブラリを追加せずに、既存の音声ライブラリからの合成音とは音響的な特性が相違する合成音を生成することが可能である。すなわち、音声ライブラリの作成の労力や音声ライブラリの記憶に必要な容量を削減しながら多様な音声を合成することが可能である。

なお、記憶手段は、音声ライブラリおよび付属情報を記憶する単体の記録媒体と、音声ライブラリおよび付属情報の各々を別個に記憶する別体の複数の記録媒体とを含む概念である。また、記憶手段と音楽情報を記憶する手段とは、別体の記録媒体、または、単体の記録媒体に設定された別個の記憶領域であり得る。

本発明の好適な態様において、付属情報は、素片データのうち音声の合成に使用される区間を示す区間情報を含み、素片加工手段は、素片選択手段が選択した素片データのうち区間情報が示す区間を抽出する。以上の態様においては、各素片データの使用区間を既存の音声ライブラリの素片データから相違させることで多様な合成音を生成することが可能である。また、他の態様において、付属情報は、素片データに対応する音声素片内の特徴量を示す特性情報を含み、素片加工手段は、素片選択手段が選択した素片データの特徴量を特性情報に応じて制御する。以上の態様においては、各素片データの特徴量の変化を既存の音声ライブラリの素片データから相違させることで多様な合成音を生成することが可能である。以上の各態様の具体例は第１実施形態として後述される。

本発明の好適な態様において、記憶手段は、複数の音声ライブラリを記憶し、付属情報は、複数の音声ライブラリの各々の素片データの混合比を指示し、素片選択手段は、複数の音声ライブラリの各々から素片データを選択し、素片加工手段は、素片選択手段が各音声ライブラリから選択した素片データを、付属情報が示す混合比で混合する。以上の態様においては、各音声ライブラリから選択された素片データが付属情報の規定する混合比で混合されるから、複数の音声ライブラリの各々の素片データの特性を反映した合成音を生成することが可能である。以上の態様の具体例は第２実施形態として後述される。

本発明の第２態様に係る音声合成装置は、音声素片を示す複数の素片データを各々が含む複数の音声ライブラリと、複数の音声ライブラリの各々の素片データについて制御変数の設定値を示す付属情報とを記憶する第１記憶手段と、指定音の時系列を示す音楽情報を記憶する第２記憶手段と、制御変数の指示値を順次に指示する変数指示手段と、複数の音声ライブラリの各々において音楽情報に応じた素片データのうち、付属情報における設定値が変数指示手段による指示値に近い素片データを選択する素片選択手段と、素片選択手段が選択した素片データから音声を合成する合成処理手段とを具備する。以上の構成においては、各音声ライブラリから選択された素片データを利用して合成音が生成されるから、新規な音声ライブラリを追加せずに、既存の１個の音声ライブラリからの合成音とは音響的な特性が相違する合成音を生成することが可能である。すなわち、音声ライブラリの作成の労力や音声ライブラリの記憶に必要な容量を削減しながら多様な音声を合成することが可能である。以上の態様の具体例は第３実施形態として後述される。

以上の各態様に係る音声合成装置は、音声の合成に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明の第１態様に係るプログラムは、音声素片を示す複数の素片データを含む音声ライブラリと、素片データの利用を規定する素片利用情報が、音声ライブラリ内の１個以上の素片データを単位として複数の前記単位の各々を対象に設定された付属情報とを記憶する記憶手段を具備するコンピュータに、指定音の時系列を示す音楽情報に応じて音声ライブラリの素片データを順次に選択する素片選択処理と、素片選択処理で選択した各素片データを、付属情報にて当該素片データに設定された素片利用情報に応じて加工する素片加工処理と、素片加工処理による加工後の素片データから音声を合成する合成処理処理とを実行させる。以上のプログラムによれば、第１態様に係る音声合成装置と同様の作用および効果が実現される。

また、本発明の第２態様に係るプログラムは、音声素片を示す複数の素片データを各々が含む複数の音声ライブラリと、複数の音声ライブラリの各々の素片データについて制御変数の設定値を示す付属情報とを記憶する第１記憶手段と、指定音の時系列を示す音楽情報を記憶する第２記憶手段とを具備するコンピュータに、制御変数の指示値を順次に指示する変数指示処理と、複数の音声ライブラリの各々において音楽情報に応じた素片データのうち、付属情報における設定値が変数指示処理による指示値に近い素片データを選択する素片選択処理と、素片選択処理で選択した素片データから音声を合成する合成処理処理とを実行させる。以上のプログラムによれば、第２態様に係る音声合成装置と同様の作用および効果が実現される。

本発明の各態様に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。

第１実施形態に係る音声合成装置のブロック図である。音声素片の波形の模式図である。付属情報の模式図である。編集画像の模式図である。音声合成部による処理を説明するための模式図である。第２実施形態における音声合成部の処理を説明するための模式図である。第３実施形態における音声合成部の処理を説明するための模式図である。第３実施形態における編集画像の模式図である。変形例における仮想ライブラリの構成を示す模式図である。変形例における仮想ライブラリの構成を示す模式図である。変形例における仮想ライブラリの構成を示す模式図である。

＜Ａ：第１実施形態＞
図１は、本発明の第１実施形態に係る音声合成装置１００のブロック図である。音声合成装置１００は、歌唱音などの様々な音声（以下「合成音」という）を合成する装置であり、図１に示すように、制御装置１０と記憶装置１２と入力装置１４と表示装置１６と放音装置１８とを具備するコンピュータシステムで実現される。音声合成装置１００を楽曲の歌唱音の合成に利用する場合を以下では想定する。

制御装置（ＣＰＵ）１０は、記憶装置１２に記憶されたプログラムＰGの実行で、音声信号ＳOUTの生成に必要な複数の機能（表示制御部２２，情報生成部２４，音声合成部２６）を実現する。音声信号ＳOUTは、合成音の波形を表す信号である。なお、制御装置１０の各機能を専用の電子回路（ＤＳＰ）で実現した構成や、制御装置１０の各機能を複数の集積回路に分散した構成も採用され得る。

入力装置１４は、利用者からの指示を受付ける機器（例えばマウスやキーボード）である。表示装置（例えば液晶表示装置）１６は、制御装置１０から指示された画像を表示する。放音装置（例えばスピーカやヘッドホン）１８は、制御装置１０が生成する音声信号ＳOUTに応じた音波を放射する。

記憶装置１２は、制御装置１０が実行するプログラムＰGや制御装置１０が使用する各種のデータ（音楽情報ＤS，音声ライブラリＬ，付属情報Ａ）を記憶する。半導体記録媒体や磁気記録媒体などの公知の記録媒体または複数種の記録媒体の組合せが記憶装置１２として任意に採用される。なお、プログラムＰGや各データ（ＤS，Ｌ，Ａ）を複数の記録媒体に分散して記憶した構成も採用される。

音楽情報ＤSは、楽曲を構成する音符（以下「指定音」という）の時系列を示す情報（スコアデータ）である。具体的には、音楽情報ＤSは、指定音の音高（ノートナンバ）と発音期間と発音文字とを楽曲内の指定音毎に指定する。発音期間は、例えば発音が開始する時刻と発音が継続される時間長とで規定される。発音文字は、音節を単位として発音の内容（歌詞）を示す文字である。

図１の音声ライブラリＬは、相異なる音声素片に対応する複数の素片データＶの集合である。各素片データＶは、合成音の素材として利用される。音声素片は、例えば、音声を聴覚的に区別し得る最小の単位に相当する音素、または複数の音素を連結した音素連鎖である。音素連鎖は、典型的には２個の音素の連鎖（子音-母音，母音-子音，子音-子音，母音-母音）であるが、３個以上の音素の連鎖（例えば子音-母音-子音）や音節をも包含する概念である。

図１に示すように、音声ライブラリＬを構成する各音声素片の素片データＶは、その音声素片の波形（以下「素片波形」という）Ｗと、素片波形Ｗの初期的な使用区間を指示する区間情報Ｑとを含んで構成される。使用区間は、素片波形Ｗのうち実際に合成音の生成に使用される区間に相当する。図２は、母音の音素［ａ］と子音の音素［ｓ］とを連続させた音声素片（音素連鎖）［ａ_ｓ］の素片波形Ｗの模式図である。区間情報Ｑは、始点ｓ0と終点ｅ0とにわたる素片波形Ｗの全区間のうち、使用区間の初期的な始点（以下「初期始点」という）ｑSと、使用区間の初期的な終点（以下「初期終点」という）ｑEとを指示する。

図１の付属情報Ａは、音声ライブラリＬ内の各素片データＶの加工に適用される。図３に示すように、付属情報Ａは、音声ライブラリＬに収録された複数の音声素片（素片データＶ）のうち利用者が編集を指示した音声素片毎に、区間情報Ｐおよび特性情報Ｆの少なくとも一方を含んで構成される。利用者が編集を指示しない音声素片について区間情報Ｐや特性情報Ｆは付属情報Ａに含まれない。

区間情報Ｐは、音声ライブラリＬ内の素片データＶが示す素片波形Ｗのうち実際に音声合成に使用される使用区間を指定する情報である。図２に示すように、区間情報Ｐは、使用区間の始点ｐSおよび終点ｐEを可変に指示する。区間情報Ｐが指定する始点ｐSは、音声ライブラリＬ内の区間情報Ｑが指定する初期始点ｑSとは相違し得る。同様に、区間情報Ｐの終点ｐEは初期終点ｑEとは相違し得る。始点ｐSは初期始点ｑSに対する変化量として指定され、終点ｐEは初期終点ｑEに対する変化量として指定される。

図３の特性情報Ｆは、音声ライブラリＬ内の各素片データＶが示す素片波形Ｗ内での特徴量（特に時間的な変化）を示す。具体的には、素片波形Ｗ内の音量，ピッチ，ホルマント周波数，または音色の時間的な変化が特性情報Ｆで指示される。音色の時間的な変化は、例えばスペクトルやMFCC（mel-frequency cepstrum coefficient）の遷移で定義される。

図１の表示制御部２２は、音楽情報ＤSや付属情報Ａの生成および編集のために利用者が視認する編集画像４０を表示装置１６に表示させる。図４は、編集画像４０の模式図である。図４に例示するように、編集画像４０は、指定音の時系列を表示する楽譜領域４２と、付属情報Ａの編集に利用される編集領域４４とを含んで構成される。

楽譜領域４２は、音高に対応する縦軸（音高軸）と時間に対応する横軸（時間軸）とが設定されたピアノロール型の画像領域である。利用者は、楽譜領域４２を視認しながら入力装置１４を適宜に操作することで指定音の音高と発音期間と発音文字とを指示する。表示制御部２２は、利用者から指示された指定音に対応する音指示子５１を楽譜領域４２内に配置する。音高軸の方向における音指示子５１の位置は利用者が指示した音高に応じて決定され、時間軸の方向における音指示子５１の各端点は利用者が指示した発音期間の始点および終点に相当する。また、利用者から指示された発音文字が各音指示子５１に付加される。なお、指定音の音譜を五線譜に記譜した楽譜の画像を楽譜領域４２に配置した構成も採用され得る。

図１の情報生成部２４は、利用者が楽譜領域４２に対して指示した指定音の音高と発音期間と発音文字とを対応させて記憶装置１２の音楽情報ＤSに格納する。以上の処理が反復されることで、利用者から指示された指定音の時系列を示す音楽情報ＤSが記憶装置１２に生成され、各指定音の音指示子の時系列が図４の例示のように楽譜領域４２に表示される。

編集領域４４は、波形領域４４１と特性領域４４３とを含んで構成される。表示制御部２２は、利用者が指示した指定音の合成に使用される各素片データＶの素片波形Ｗを波形領域４４１内に時系列に配置する。波形領域４４１に素片波形Ｗが表示される素片データＶは、指定音に指示された発音文字に応じて選択される。例えば、図４の例示のように「あさ（朝）」が発音文字として指示された場合、表示制御部２２は、音声素片［＃_ａ］（「＃」は無音を意味する），［ａ］，［ａ_ｓ］，［ｓ_ａ］，［ａ］および［ａ_＃］の各々に対応する素片データＶを記憶装置１２の音声ライブラリＬから取得して各素片波形Ｗを波形領域４４１内に時系列に配列する。

表示制御部２２は、素片波形Ｗのうち使用区間の始点を示す始点指示子５３２と使用区間の終点を示す終点指示子５３４とを素片波形Ｗ毎に配置する。始点指示子５３２の初期的な位置は、音声ライブラリＬ内の素片データＶの区間情報Ｑが示す初期始点ｑSに設定される。同様に、終点指示子５３４の初期的な位置は、素片データＶの区間情報Ｑが示す初期終点ｑEに設定される。利用者は、入力装置１４を適宜に操作することで、波形領域４４１内に配置された複数の素片波形Ｗの何れかを選択するとともにその素片波形Ｗの始点指示子５３２および終点指示子５３４の移動を指示することが可能である。表示制御部２２は、入力装置１４に対する利用者からの指示に応じて、始点指示子５３２と終点指示子５３４とを、各素片波形Ｗの始点ｓ0から終点ｅ0までの範囲内で移動させる。

また、表示制御部２２は、各指定音の合成に使用される素片データＶの特徴量の遷移を示す特性遷移画像５５を素片波形Ｗ毎に特性領域４４３に配置する。例えば、表示制御部２２は、図４の例示のように、各素片データＶの音量の時間的な遷移を示すグラフ（折線グラフ）を特性遷移画像５５として表示装置１６に表示させる。各素片波形Ｗに対応する特性遷移画像５５は、波形領域４４１におけるその素片波形Ｗと時間軸を共通にして表示される。利用者は、入力装置１４を適宜に操作することで、特性遷移画像５５の編集（変更）を指示することが可能である。表示制御部２２は、利用者からの指示に応じて特性遷移画像５５を編集する。

情報生成部２４は、編集領域４４に対する利用者からの指示に応じて付属情報Ａを更新する。具体的には、情報生成部２４は、各素片データＶの素片波形Ｗに対して利用者から指示された始点指示子５３２および終点指示子５３４の各々の位置を特定し、始点指示子５３２の位置に応じた始点ｐSと終点指示子５３４の位置に応じた終点ｐEとを示す情報を、その素片データＶの区間情報Ｐとして生成したうえで付属情報Ａに格納する。すなわち、音声ライブラリＬ内の区間情報Ｑが指示する使用区間が維持されたまま、付属情報Ａの区間情報Ｐが指示する使用区間は、利用者からの指示に応じて可変に設定される。

また、情報生成部２４は、各素片データＶの素片波形Ｗについて利用者が編集した特性遷移画像５５から特性情報Ｆを生成して付属情報Ａに格納する。すなわち、音声ライブラリＬ内の各素片データＶの素片波形Ｗが維持されたまま、付属情報Ａの特性情報Ｆが素片波形Ｗについて指示する特徴量は、利用者からの指示に応じて可変に設定される。以上に説明したように、始点指示子５３２または終点指示子５３４の移動や特性遷移画像５５の変更が利用者から指示された場合でも、付属情報Ａが更新されるだけで、音声ライブラリＬ内の各素片データＶは何ら変更されない。

図１の音声合成部２６は、記憶装置１２に格納された音楽情報ＤSが示す指定音を合成して音声信号ＳOUTを生成する。概略的には、音声合成部２６は、音声ライブラリＬのうち音楽情報ＤSに応じて選択した素片データＶを付属情報Ａに応じて加工して相互に連結することで音声信号ＳOUTを生成する。図５に示すように、音声合成部２６は、素片選択部３２と素片加工部３４と合成処理部３６とを含んで構成される。素片選択部３２は、音楽情報ＤSにて各指定音に指示された発音文字に対応する各音声素片の素片データＶを記憶装置１２の音声ライブラリＬから順次に選択する。

素片加工部３４は、素片選択部３２が選択した各素片データＶを加工する。素片選択部３２が選択した素片データＶについて付属情報Ａに区間情報Ｐや特性情報Ｆが含まれない場合、素片加工部３４は、その素片データＶが示す素片波形Ｗのうち音声ライブラリＬの区間情報Ｑで指示される使用区間（図２の始点ｑSと終点ｑEとにわたる区間）を、音楽情報ＤSが指示する音高および発音期間に調整する。

他方、素片選択部３２が選択した素片データＶについて付属情報Ａに区間情報Ｐが含まれる場合、素片加工部３４は、その素片データＶが示す素片波形Ｗのうち当該区間情報Ｐで指示された使用区間（始点ｐSと終点ｐEとにわたる区間）を抽出し、抽出後の使用区間を、音楽情報ＤSが指示する音高および発音期間に調整する。すなわち、付属情報Ａの区間情報Ｐに応じた加工（使用区間の抽出）が素片データＶに対して実行される。なお、素片データＶの音高や発音期間の調整には公知の技術が任意に採用される。また、素片データＶの音高や発音期間の調整後に区間情報Ｐに応じた使用区間を抽出する構成も採用され得る。

また、素片選択部３２が選択した素片データＶについて付属情報Ａに特性情報Ｆが含まれる場合、素片加工部３４は、その素片データＶが示す素片波形Ｗの使用区間を、音楽情報ＤSが指示する音高および発音期間に調整するとともに特性情報Ｆに応じて加工する。具体的には、素片加工部３４は、特性情報Ｆで指示される特性が素片波形Ｗの使用区間に対して付加されるように、素片波形Ｗの特徴量を特性情報Ｆに応じて制御する。例えば、特性情報Ｆが音量の時系列を示す場合、素片加工部３４は、素片波形Ｗの使用区間内の音量が特性情報Ｆの音量の時系列に沿うように素片データＶを加工する。なお、素片データＶのうち特性情報Ｆに応じた加工の対象となる使用区間は、付属情報Ａが区間情報Ｐを含まない素片データＶについては音声ライブラリＬの区間情報Ｑが示す使用区間であり、付属情報Ａが区間情報Ｐを含む素片データＶについては当該区間情報Ｐが示す使用区間である。

図５の合成処理部３６は、素片加工部３４による加工後の各素片データＶを時間軸上で相互に連結することで音声信号ＳOUTを生成する。以上の説明から理解されるように、楽譜領域４２の各音指示子５１が示す音符で構成される楽曲を各指定音の発音文字で歌唱した歌唱音の音声信号ＳOUTが生成される。なお、素片データＶを利用した音声信号ＳOUTの生成には公知の技術が任意に採用される。

以上に説明したように、第１実施形態においては、既存の音声ライブラリＬに付属情報Ａを適用することで合成音が生成されるから、音声ライブラリＬとは別個の音声ライブラリを実際には用意することなく、収録音の特性が音声ライブラリＬとは相違する新規な音声ライブラリ（仮想的な音声ライブラリ）を利用した場合と同等の音声信号ＳOUTを生成することが可能である。すなわち、音声毎に別個の音声ライブラリＬを用意しなくても、相異なる特性の音声を合成することが可能である。したがって、音声ライブラリＬの作成の労力を削減しながら、新規な音声ライブラリＬを作成および利用した場合と同様に多様な音声を合成できるという利点がある。また、付属情報Ａは音声ライブラリＬと比較してデータ量が少ないから、新規な音声ライブラリＬを用意する場合と比較して、記憶装置１２に必要な容量が削減されるという利点もある。

＜Ｂ：第２実施形態＞
次に、本発明の第２実施形態を説明する。なお、以下の各例示において作用や機能が第１実施形態と同等である要素については、以上と同じ符号を付して各々の詳細な説明を適宜に省略する。

図６は、第２実施形態における音声の合成を説明するための模式図である。図６に示すように、第２実施形態の記憶装置１２は、複数（以下の例示では２個）の音声ライブラリＬ（Ｌ1，Ｌ2）を記憶する。各音声ライブラリＬ（Ｌ1，Ｌ2）は、第１実施形態と同様に音声素片毎の素片データＶ（Ｖ1，Ｖ2）の集合である。音声ライブラリＬ1と音声ライブラリＬ2とは、相異なる特性の音声から生成される。例えば、各音声素片の抽出元となる音声の発声者が音声ライブラリＬ1と音声ライブラリＬ2とでは相違する。なお、ひとりの発声者が相異なる特性で発声した複数の音声の各々から音声ライブラリＬ1と音声ライブラリＬ2とを生成してもよい。

図６の素片選択部３２は、音楽情報ＤSにて各指定音に指定された発音文字に対応する各音声素片の素片データＶを音声ライブラリＬ1および音声ライブラリＬ2の各々から順次に選択する。したがって、音声ライブラリＬ1内の素片データＶ1と音声ライブラリＬ2内の素片データＶ2とが、各発音文字に対応する音声素片毎に順次に選択される。

図６に示すように、第２実施形態の付属情報Ａは、音声ライブラリＬ1および音声ライブラリＬ2に収録された複数の音声素片の各々について、音声ライブラリＬ1内の素片データＶ1と音声ライブラリＬ2内の素片データＶ2との混合比Ｒを指示する。付属情報Ａが指示する各混合比Ｒは、例えば入力装置１４に対する利用者からの指示に応じて可変に設定される。

素片加工部３４は、素片選択部３２が音声ライブラリＬ1から選択した素片データＶ1と音声ライブラリＬ2から選択した素片データＶ2とを、その音声素片に対して付属情報Ａに指示された混合比Ｒで混合（加算）することで素片データＶAを生成する。なお、音楽情報ＤSに応じた音高や発音期間の調整は、素片加工部３４による混合前または混合後に、第１実施形態にて例示した方法で実行される。合成処理部３６は、素片加工部３４による加工後（混合後）の素片データＶAから音声信号ＳOUTを生成する。

以上の形態においては、音声ライブラリＬ1の素片データＶ1と音声ライブラリＬ2の素片データＶ2とを付属情報Ａの混合比Ｒで混合したうえで音声信号ＳOUTの生成に利用する。したがって、音声ライブラリＬを新規に作成することなく、音声ライブラリＬ1および音声ライブラリＬ2の双方の特性を反映した音声ライブラリ（すなわち、音声ライブラリＬ1の素片データＶと音声ライブラリＬ2の素片データＶとを混合した素片データＶで構成される仮想的な音声ライブラリ）を利用した場合と同等の音声信号ＳOUTを生成することが可能である。すなわち、第１実施形態と同様に、音声ライブラリＬの作成の労力や記憶装置１２に必要な容量を削減しながら、新規な音声ライブラリＬを用意した場合と同様に多様な音声を合成できるという利点がある。

＜Ｃ：第３実施形態＞
図７は、本発明の第３実施形態における音声の合成を説明するための模式図である。図７に示すように、第３実施形態の記憶装置１２は、第２実施形態と同様に、相異なる特性の音声から生成された複数（以下の例示では２個）の音声ライブラリＬ（Ｌ1，Ｌ2）を記憶する。

また、記憶装置１２は、音声合成に適用される制御変数（コントロールパラメータ）Ｘの数値の変化を示す変数情報ＤPを記憶する。制御変数Ｘは、合成音に付与される音楽的な表情を制御するための変数である。具体的には、指定音の発音の強弱（velocity），音量（dynamics），息成分の強弱（breathness）、明瞭度（brightness，clearness），発音時の開口度（opening），発音者の性別（genderfactor），音高を連続的に変化（ポルタメント）させる時点（portamento-timing），音高の微小変化（pitch-bend），音高の微小変化の最大幅（pitch-bend sensitivity）など、音声合成に適用される公知の変数が制御変数Ｘとして任意に採用される。また、以上の例示から選択された複数の変数の組合せ（例えば利用者から指示された複数の変数）を新規な（仮想的な）制御変数Ｘとして変数情報ＤPで指定した構成も採用され得る。

図８は、第３実施形態における編集画像４０の模式図である。図８の例示のように、表示制御部２２は、変数情報ＤPが示す制御変数Ｘの時系列を示す画像（以下「変数遷移画像」という）５７を、楽譜領域４２内の各音指示子５１の時系列と共通の時間軸のもとで編集領域４６内に配置する。具体的には、制御変数Ｘの数値の遷移を示すグラフ（例えば折線グラフ）が変数遷移画像５７として表示される。表示制御部２２は、入力装置１４に対する利用者からの指示に応じて変数遷移画像５７を随時に変更する。情報生成部２４は、変更後の変数遷移画像５７に応じた制御変数Ｘの時系列を示す内容に記憶装置１２の変数情報ＤPを更新する。すなわち、変数情報ＤPは利用者からの指示に応じて可変に設定される。

第３実施形態の付属情報Ａは、図７に示すように、音声ライブラリＬ1の素片データＶ1と音声ライブラリＬ2の素片データＶ2との各々について、制御変数Ｘの数値（以下「設定値」という）ｘAを音声素片毎に指示する。各素片データＶ1には設定値ｘA1が指示され、各素片データＶ2には設定値ｘA2が指示される。音声素片が共通する素片データＶ1と素片データＶ2とでは設定値ｘA（ｘA1，ｘA2）が相違する。例えば、図７では、音声素片［ａ_ｓ］の素片データＶ1の設定値ｘA1を0.2に設定し、同じ音声素片［ａ_ｓ］の素片データＶ2の設定値ｘA2を0.6に設定した場合が例示されている。各設定値ｘA1および各設定値ｘA2は、例えば入力装置１４に対する利用者からの指示に応じて可変に設定される。

図７に示すように、第３実施形態の音声合成部２６は、素片選択部３２と素片加工部３４と合成処理部３６とに加えて変数指示部３８を含んで構成される。変数指示部３８は、制御変数Ｘの数値（以下「指示値」という）ｘBを素片選択部３２に対して順次に指定する。具体的には、変数指示部３８は、変数情報ＤPが時系列に指定する制御変数Ｘの数値を指示値ｘBとして順次に記憶装置１２から取得して素片選択部３２に指示する。

素片選択部３２は、音声ライブラリＬ1および音声ライブラリＬ2の各々において音楽情報ＤSの発音文字に対応する音声素片の素片データＶ（素片データＶ1および素片データＶ2）の何れかを、各々に対して付属情報Ａに規定された設定値ｘA（ｘA1，ｘA2）と変数指示部３８からの指示値ｘBとに応じて順次に選択する。具体的には、素片選択部３２は、発音文字に応じた素片データＶ1および素片データＶ2のうち、付属情報Ａにて各々に規定された設定値ｘA（ｘA1，ｘA2）が変数指示部３８からの指示値ｘBに近い素片データＶを素片データＶAとして選択する。

例えば、付属情報Ａが図７に例示した内容に設定された状況で音声素片［ａ_ｓ］の合成が指示された場合を想定する。変数指示部３８からの指示値ｘBが例えば0.3である場合、素片選択部３２は、音声素片［ａ_ｓ］について付属情報Ａに規定された設定値ｘA1（0.2）および設定値ｘA2（0.6）のうち指示値ｘB（0.3）に近い設定値ｘA1に対応する素片データＶ1を音声ライブラリＬ1から素片データＶAとして選択する。他方、変数指示部３８からの指示値ｘBが例えば0.5である場合、素片選択部３２は、音声素片［ａ_ｓ］に関する設定値ｘA1（0.2）および設定値ｘA2（0.6）のうち、指示値ｘB（0.5）に近い設定値ｘA1に対応する素片データＶ2を音声ライブラリＬ2から素片データＶAとして選択する。したがって、素片選択部３２による素片データＶAの選択の対象となる音声ライブラリＬは、変数指示部３８からの指示値ｘB（変数情報ＤPが規定する制御変数Ｘの時系列）に応じて音声ライブラリＬ1および音声ライブラリＬ2の一方から他方に順次に変更される。

素片加工部３４は、素片選択部３２が選択した素片データＶAを音楽情報ＤSが指示する音高および発音期間に調整する。なお、素片加工部３４による素片データＶの加工には第１実施形態と同様の方法が採用され得る。また、合成処理部３６は、素片加工部３４による処理後の素片データＤSの連結で音声信号ＳOUTを生成する。

以上に説明したように、第３実施形態においては、音声ライブラリが規定する設定値ｘAと変数指示部３８からの指示値ｘBとの大小に応じて複数の音声ライブラリＬ（Ｌ1，Ｌ2）から択一的に素片データＶAが選択されて合成音の生成に利用される。したがって、音声ライブラリＬを新規に作成することなく、音声ライブラリＬ1および音声ライブラリＬ2の双方の特性を反映した音声ライブラリ（すなわち、音声ライブラリＬ1および音声ライブラリＬ2から音声素片毎に択一的に抽出した素片データＶで構成される仮想的な音声ライブラリ）を利用した場合と同等の多様な音声信号ＳOUTを生成することが可能である。すなわち、第１実施形態と同様に、音声ライブラリＬの作成の労力や記憶装置１２に必要な容量を削減しながら、新規な音声ライブラリＬを用意した場合と同様に多様な音声を合成できるという利点がある。

＜Ｄ：変形例＞
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様は適宜に併合され得る。

（１）変形例１
以上の各形態においては、音声ライブラリＬが音声素片毎に１個の素片データＶを含む構成を便宜的に例示したが、素片データＶを更に細分化した構成も採用され得る。例えば、音高（周波数）や音量などの音響的な属性（以下「素片属性」という）が相違する複数の素片データＶを音声素片毎に音声ライブラリＬに含ませる構成も採用され得る。素片選択部３２は、指定音に指示された発音文字の音声素片に対応する複数の素片データＶのうち、その指定音に対して指示された素片属性の素片データＶ（例えば音楽情報ＤSで指示される音高の素片データＶ）を選択する。

以上の構成によれば、音声素片毎に１個の素片データＶを用意した構成と比較して多様な合成音を生成できるという利点がある。他方、素片データＶの個数が多いほど音声ライブラリＬのデータ量は増大するから、記憶装置１２に必要な容量を削減しながら合成音を多様化できるという各形態の効果は、音声素片に加えて素片属性（音高や音量）に応じて素片データＶを用意した変形例１のもとでは格別に顕著である。

（２）変形例２
以上の各形態では、音声合成部２６における素片データＶの利用（素片選択部３２による選択または素片加工部３４による加工）を規定するための情報（以下「素片利用情報」という）を素片データＶ毎（音声素片毎）に付属情報Ａに設定したが、以下に例示するように、複数の素片データＶを単位として素片利用情報を設定する構成も採用され得る。素片利用情報は、第１実施形態における区間情報Ｐおよび特性情報Ｆと、第２実施形態における混合比Ｒと、第３実施形態における制御変数Ｘの設定値ｘAとを包括する概念である。

例えば、音声素片の分類毎に付属情報Ａに素片利用情報を設定する構成が採用される。音声素片の分類としては、音素の構造による分類（音素単体／音素連鎖）や、母音または子音の有無による分類が想定される。例えば、音素単体で構成される複数の音声素片の素片データＶの集合と、音素連鎖で構成される複数の音声素片の素片データＶの集合との各々について、付属情報Ａに素片利用情報が設定される。分類が共通する複数の音声素片の素片データＶについては同じ素片利用情報が適用される。

また、音声ライブラリＬ内の全部の素片データＶに対して共通の素片利用情報を設定した構成も採用され得る。例えば、第１実施形態では、１個の区間情報Ｐや１個の特性情報Ｆが総ての素片データＶに対して共通に適用される。第２実施形態では、音声ライブラリＬ1内の素片データＶ1と音声ライブラリＬ2内の素片データＶ2とが、音声素片に関わらず共通の混合比Ｒで混合される。また、第３実施形態では、音声ライブラリＬ1の素片データＶ1および音声ライブラリＬ2の素片データＶ2の何れかが、音声素片に関わらず共通の設定値ｘA（ｘA1，ｘA2）に応じて選択される。

変形例１のように音高や音量などの素片属性毎に素片データＶを用意する場合には、素片属性に関わらず音声素片毎に素片利用情報を設定する構成や、素片属性毎に素片利用情報を設定する構成が採用される。前者の構成では、音声素片が共通する複数の素片データＶに対して、素片属性に関わらず共通の素片利用情報が適用される。後者の構成では、素片属性が相違する各素片データＶに対しては、音声素片が共通する場合でも別個の素片利用情報が適用される。

（３）変形例３
第１実施形態から第３実施形態は、以下の例示のように適宜に併合され得る。なお、以下の説明では、音声ライブラリＬ内の各素片データＶに付属情報Ａを適用した素片データＶAで構成される仮想的な音声ライブラリＬを便宜的に「仮想ライブラリ」と表記する。各形態の説明から理解されるように、実際には総ての音声素片に対応する素片データＶAの集合（音声ライブラリ）が記憶装置１２に生成される訳ではない（つまり、音声ライブラリＬの各素片データＶに対する付属情報Ａの適用で素片データＶAが順次に生成される）ことを考慮して、「仮想」という文言を付記した。

例えば、第１実施形態では、既存の音声ライブラリＬの全部の素片データＶに対して付属情報Ａを適用したと仮定した場合に生成され得る複数の素片データＶAの集合が仮想ライブラリＬVに相当する。第２実施形態では、音声ライブラリＬ1内の素片データＶ1と音声ライブラリＬ2内の素片データＶ2とを混合比Ｒで混合する処理を、音声素片が共通する素片データＶ1と素片データＶ2との全対について実行した、と仮定した場合に得られる複数の素片データＶAの集合が、仮想ライブラリＬVに相当する。同様に、第３実施形態では、音声ライブラリＬ1内の素片データＶ1と音声ライブラリＬ2内の素片データＶ2との何れかを設定値ｘA（ｘA1，ｘA2）に応じて選択する処理を、音声素片が共通する素片データＶ1と素片データＶ2との全対について実行した、と仮定した場合に得られる複数の素片データＶAの集合が、仮想ライブラリＬVに相当する。

まず、図９に示すように、仮想ライブラリＬV1と仮想ライブラリＬV2とに対して第２実施形態や第３実施形態の付属情報Ａ3を適用することで、仮想ライブラリＬV3が構成される。仮想ライブラリＬV1は、例えば、区間情報Ｐや特性情報Ｆを含む第１実施形態の付属情報Ａ1を既存の音声ライブラリＬ1に適用することで構成される。同様に、仮想ライブラリＬV2は、第１実施形態の付属情報Ａ2を既存の音声ライブラリＬ2に適用することで構成される。また、図１０に示すように、仮想ライブラリＬV1と既存の音声ライブラリＬ2とに対して第２実施形態や第３実施形態の付属情報Ａ4を適用することで、仮想ライブラリＬV4が構成される。以上のように、第１実施形態から第３実施形態を適宜に併合することで、様々な特性の音声に対応した多様な仮想ライブラリＬVを構築することが可能である。

また、図１１に示すように、既存の音声ライブラリＬに対して複数の付属情報Ａ（Ａ1，Ａ2）を用意した構成も採用され得る。音声ライブラリＬに対する付属情報Ａ1の適用で仮想ライブラリＬV1が構築され、音声ライブラリＬに対する付属情報Ａ2の適用で仮想ライブラリＬV2が構築される。すなわち、付属情報Ａの個数に相当する仮想ライブラリＬVが１個の音声ライブラリＬから生成される。

（４）変形例４
第１実施形態では、付属情報Ａの区間情報Ｐが素片データＶの素片波形Ｗの使用区間を指定する場合を例示したが、例えば、音楽情報ＤSにて継続的な発音が指示された母音の補間（クロスフェード）に使用される素片データＶの区間を区間情報Ｐが指定する構成も採用される。例えば、「あさが（朝が）」という発音文字の音声を音声素片［＃_ａ］，［ａ］，［ａ_ｓ］，［ｓ_ａ］，［ａ］，［ａ_ｇ］，［ｇ_ａ］，［ａ_＃］から生成する場合を想定すると、音声素片［ｓ_ａ］のうち区間情報Ｐが示す後方の区間と、音声素片［ａ_ｇ］のうち区間情報Ｐが示す前方の区間との補間で両者間の［ａ］の音声を合成する。

（５）変形例５
第３実施形態では、変数情報ＤPが記憶装置１２に格納された場合を例示したが、変数指示部３８が制御変数Ｘの指示値ｘBを指示する方法は適宜に変更される。例えば、入力装置１４に対する入力に応じて変数指示部３８が指示値ｘBを時系列に指示する構成や、通信網から順次に受信される指示値ｘBを変数指示部３８が順次に素片選択部３２に指示する構成も採用される。すなわち、変数指示部３８は、制御変数Ｘの指示値ｘBを順次に指示する要素として包括され、変数情報ＤPを予め用意して記憶装置１２に格納した構成は省略され得る。

（６）変形例６
以上の各形態では、素片データＶが素片波形Ｗを示す場合を例示したが、素片データＶの内容は適宜に変更される。例えば、音声素片を公知の手法で解析した結果を示す情報（例えば音声素片の周波数スペクトルに関する情報）を素片データＶとして利用してもよい。

（７）変形例７
以上の各形態では、利用者からの指示に応じて音楽情報ＤSを編集したが、音楽情報ＤSの編集は省略され得る。すなわち、記憶装置１２に予め記憶された音楽情報ＤSや、可搬型の記録媒体または通信網を介して音声合成装置１００に提供された音楽情報ＤSを合成音の生成に利用する構成も採用される。したがって、以上の各形態における情報生成部２４は省略され得る。

１００……音声合成装置、１０……制御装置、１２……記憶装置、１４……入力装置、１６……表示装置、１８……放音装置、２２……表示制御部、２４……情報生成部、２６……音声合成部、３２……素片選択部、３４……素片加工部、３６……合成処理部、３８……変数指示部。

Claims

音声素片を示す複数の素片データを含む音声ライブラリと、素片データの利用を規定する素片利用情報が、前記音声ライブラリ内の１個以上の素片データを単位として複数の前記単位の各々を対象に設定された付属情報とを記憶する記憶手段と、
指定音の時系列を示す音楽情報に応じて前記音声ライブラリの前記素片データを順次に選択する素片選択手段と、
前記素片選択手段が選択した各素片データを、前記付属情報にて当該素片データに設定された素片利用情報に応じて加工する素片加工手段と、
前記素片加工手段による加工後の素片データから音声を合成する合成処理手段と
を具備する音声合成装置。
音楽情報が指定する指定音に対応する各素片データの素片波形の時系列と、各素片波形のうち音声の合成に使用される使用区間の始点を示す始点指示子と、前記使用区間の終点を示す終点指示子とを表示装置に表示させ、利用者からの指示に応じて前記始点指示子および前記終点指示子の各々を移動させる表示制御手段を具備し、
前記付属情報にて各素片データに設定された素片利用情報は、当該素片データの素片波形のうち前記始点指示子および前記終点指示子で規定される使用区間を示す区間情報を含み、
前記素片加工手段は、前記素片選択手段が選択した素片データのうち前記区間情報が示す区間を抽出する
請求項１の音声合成装置。
前記表示制御手段は、前記音楽情報が示す指定音の時系列を示す画像を、前記素片波形の時系列と並列に前記表示装置に表示させる
請求項２の音声合成装置。
前記表示制御手段は、音楽情報が指定する指定音に対応する各素片データの特徴量の遷移を示す特性遷移画像を、前記素片波形毎に、当該素片波形と共通の時間軸のもとで前記表示装置に表示させ、利用者からの指示に応じて前記特性遷移画像を編集し、
前記付属情報にて各素片データに設定された素片利用情報は、当該素片データの特性遷移画像に応じた特徴量を示す特性情報を含み、
前記素片加工手段は、前記素片選択手段が選択した素片データの特徴量を前記特性情報に応じて制御する
請求項２または請求項３の音声合成装置。
前記記憶手段は、前記音声ライブラリにおける各素片データの音声素片の分類毎に前記素片利用情報が設定された付属情報を記憶し、
前記素片加工手段は、一の分類に属する各音声素片の素片データの加工に、前記付属情報にて当該一の分類に設定された前記素片利用情報を共通に適用する
請求項１から請求項４の何れかの音声合成装置。
音声素片を示す複数の素片データを含む音声ライブラリと、素片データの利用を規定する素片利用情報が、前記音声ライブラリ内の１個以上の素片データを単位として複数の前記単位の各々を対象に設定された付属情報とを記憶する記憶手段を具備するコンピュータが、
指定音の時系列を示す音楽情報に応じて前記音声ライブラリの前記素片データを順次に選択し、
前記選択した各素片データを、前記付属情報にて当該素片データに設定された素片利用情報に応じて加工し、
前記加工後の素片データから音声を合成する
音声合成方法。