JP5552797B2 - 音声合成装置および音声合成方法 - Google Patents

音声合成装置および音声合成方法 Download PDF

Info

Publication number
JP5552797B2
JP5552797B2 JP2009256027A JP2009256027A JP5552797B2 JP 5552797 B2 JP5552797 B2 JP 5552797B2 JP 2009256027 A JP2009256027 A JP 2009256027A JP 2009256027 A JP2009256027 A JP 2009256027A JP 5552797 B2 JP5552797 B2 JP 5552797B2
Authority
JP
Japan
Prior art keywords
segment
speech
information
data
library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009256027A
Other languages
English (en)
Other versions
JP2011100055A (ja
Inventor
隼人 大下
靖雄 吉岡
雅史 吉田
橘  誠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2009256027A priority Critical patent/JP5552797B2/ja
Publication of JP2011100055A publication Critical patent/JP2011100055A/ja
Application granted granted Critical
Publication of JP5552797B2 publication Critical patent/JP5552797B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrophonic Musical Instruments (AREA)

Description

本発明は、音声(典型的には歌唱音)を合成する技術に関する。
音声素片を示す複数の素片データの集合(以下「音声ライブラリ」という)を利用して所望の音声を合成する技術が従来から提案されている(例えば特許文献1)。音声ライブラリは、実際の音声を採取したうえで音声素片毎に区分および解析することで作成される。
特開2002−202790号公報
特許文献1の技術のもとでは、合成すべき音声の特性毎に別個の音声ライブラリが必要となる。したがって、既存の音声ライブラリとは特性が異なる音声(例えば別の歌手の歌唱音)を合成するためには、音声ライブラリを新規に作成する必要がある。また、多様な音声の合成には多数の音声ライブラリが使用されるから、これらの音声ライブラリの記憶に必要な記憶装置の容量が増大するという問題もある。以上の事情を考慮して、本発明は、音声ライブラリの作成の労力や音声ライブラリの記憶に必要な容量を削減しながら多様な音声を合成することを目的とする。
以上の課題を解決するために、本発明の第1態様に係る音声合成装置は、音声素片を示す複数の素片データを含む音声ライブラリと、素片データの利用を規定する素片利用情報が音声ライブラリ内の1個以上の素片データを単位として複数の前記単位の各々を対象に設定された付属情報とを記憶する記憶手段と、指定音(合成の対象として指定された音)の時系列を示す音楽情報に応じて音声ライブラリの素片データ順次に選択する素片選択手段と、素片選択手段が選択した各素片データを、付属情報にて当該素片データに設定された素片利用情報に応じて加工する素片加工手段と、素片加工手段による加工後の素片データから音声を合成する合成処理手段とを具備する。以上の構成においては、付属情報を音声ライブラリに適用することで合成音が生成されるから、新規な音声ライブラリを追加せずに、既存の音声ライブラリからの合成音とは音響的な特性が相違する合成音を生成することが可能である。すなわち、音声ライブラリの作成の労力や音声ライブラリの記憶に必要な容量を削減しながら多様な音声を合成することが可能である。
なお、記憶手段は、音声ライブラリおよび付属情報を記憶する単体の記録媒体と、音声ライブラリおよび付属情報の各々を別個に記憶する別体の複数の記録媒体とを含む概念である。また、記憶手段と音楽情報を記憶する手段とは、別体の記録媒体、または、単体の記録媒体に設定された別個の記憶領域であり得る。
本発明の好適な態様において、付属情報は、素片データのうち音声の合成に使用される区間を示す区間情報を含み、素片加工手段は、素片選択手段が選択した素片データのうち区間情報が示す区間を抽出する。以上の態様においては、各素片データの使用区間を既存の音声ライブラリの素片データから相違させることで多様な合成音を生成することが可能である。また、他の態様において、付属情報は、素片データに対応する音声素片内の特徴量を示す特性情報を含み、素片加工手段は、素片選択手段が選択した素片データの特徴量を特性情報に応じて制御する。以上の態様においては、各素片データの特徴量の変化を既存の音声ライブラリの素片データから相違させることで多様な合成音を生成することが可能である。以上の各態様の具体例は第1実施形態として後述される。
本発明の好適な態様において、記憶手段は、複数の音声ライブラリを記憶し、付属情報は、複数の音声ライブラリの各々の素片データの混合比を指示し、素片選択手段は、複数の音声ライブラリの各々から素片データを選択し、素片加工手段は、素片選択手段が各音声ライブラリから選択した素片データを、付属情報が示す混合比で混合する。以上の態様においては、各音声ライブラリから選択された素片データが付属情報の規定する混合比で混合されるから、複数の音声ライブラリの各々の素片データの特性を反映した合成音を生成することが可能である。以上の態様の具体例は第2実施形態として後述される。
本発明の第2態様に係る音声合成装置は、音声素片を示す複数の素片データを各々が含む複数の音声ライブラリと、複数の音声ライブラリの各々の素片データについて制御変数の設定値を示す付属情報とを記憶する第1記憶手段と、指定音の時系列を示す音楽情報を記憶する第2記憶手段と、制御変数の指示値を順次に指示する変数指示手段と、複数の音声ライブラリの各々において音楽情報に応じた素片データのうち、付属情報における設定値が変数指示手段による指示値に近い素片データを選択する素片選択手段と、素片選択手段が選択した素片データから音声を合成する合成処理手段とを具備する。以上の構成においては、各音声ライブラリから選択された素片データを利用して合成音が生成されるから、新規な音声ライブラリを追加せずに、既存の1個の音声ライブラリからの合成音とは音響的な特性が相違する合成音を生成することが可能である。すなわち、音声ライブラリの作成の労力や音声ライブラリの記憶に必要な容量を削減しながら多様な音声を合成することが可能である。以上の態様の具体例は第3実施形態として後述される。
以上の各態様に係る音声合成装置は、音声の合成に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明の第1態様に係るプログラムは、音声素片を示す複数の素片データを含む音声ライブラリと、素片データの利用を規定する素片利用情報が音声ライブラリ内の1個以上の素片データを単位として複数の前記単位の各々を対象に設定された付属情報とを記憶する記憶手段を具備するコンピュータに、指定音の時系列を示す音楽情報に応じて音声ライブラリの素片データ順次に選択する素片選択処理と、素片選択処理で選択した各素片データを、付属情報にて当該素片データに設定された素片利用情報に応じて加工する素片加工処理と、素片加工処理による加工後の素片データから音声を合成する合成処理処理とを実行させる。以上のプログラムによれば、第1態様に係る音声合成装置と同様の作用および効果が実現される。
また、本発明の第2態様に係るプログラムは、音声素片を示す複数の素片データを各々が含む複数の音声ライブラリと、複数の音声ライブラリの各々の素片データについて制御変数の設定値を示す付属情報とを記憶する第1記憶手段と、指定音の時系列を示す音楽情報を記憶する第2記憶手段とを具備するコンピュータに、制御変数の指示値を順次に指示する変数指示処理と、複数の音声ライブラリの各々において音楽情報に応じた素片データのうち、付属情報における設定値が変数指示処理による指示値に近い素片データを選択する素片選択処理と、素片選択処理で選択した素片データから音声を合成する合成処理処理とを実行させる。以上のプログラムによれば、第2態様に係る音声合成装置と同様の作用および効果が実現される。
本発明の各態様に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
第1実施形態に係る音声合成装置のブロック図である。 音声素片の波形の模式図である。 付属情報の模式図である。 編集画像の模式図である。 音声合成部による処理を説明するための模式図である。 第2実施形態における音声合成部の処理を説明するための模式図である。 第3実施形態における音声合成部の処理を説明するための模式図である。 第3実施形態における編集画像の模式図である。 変形例における仮想ライブラリの構成を示す模式図である。 変形例における仮想ライブラリの構成を示す模式図である。 変形例における仮想ライブラリの構成を示す模式図である。
<A:第1実施形態>
図1は、本発明の第1実施形態に係る音声合成装置100のブロック図である。音声合成装置100は、歌唱音などの様々な音声(以下「合成音」という)を合成する装置であり、図1に示すように、制御装置10と記憶装置12と入力装置14と表示装置16と放音装置18とを具備するコンピュータシステムで実現される。音声合成装置100を楽曲の歌唱音の合成に利用する場合を以下では想定する。
制御装置(CPU)10は、記憶装置12に記憶されたプログラムPGの実行で、音声信号SOUTの生成に必要な複数の機能(表示制御部22,情報生成部24,音声合成部26)を実現する。音声信号SOUTは、合成音の波形を表す信号である。なお、制御装置10の各機能を専用の電子回路(DSP)で実現した構成や、制御装置10の各機能を複数の集積回路に分散した構成も採用され得る。
入力装置14は、利用者からの指示を受付ける機器(例えばマウスやキーボード)である。表示装置(例えば液晶表示装置)16は、制御装置10から指示された画像を表示する。放音装置(例えばスピーカやヘッドホン)18は、制御装置10が生成する音声信号SOUTに応じた音波を放射する。
記憶装置12は、制御装置10が実行するプログラムPGや制御装置10が使用する各種のデータ(音楽情報DS,音声ライブラリL,付属情報A)を記憶する。半導体記録媒体や磁気記録媒体などの公知の記録媒体または複数種の記録媒体の組合せが記憶装置12として任意に採用される。なお、プログラムPGや各データ(DS,L,A)を複数の記録媒体に分散して記憶した構成も採用される。
音楽情報DSは、楽曲を構成する音符(以下「指定音」という)の時系列を示す情報(スコアデータ)である。具体的には、音楽情報DSは、指定音の音高(ノートナンバ)と発音期間と発音文字とを楽曲内の指定音毎に指定する。発音期間は、例えば発音が開始する時刻と発音が継続される時間長とで規定される。発音文字は、音節を単位として発音の内容(歌詞)を示す文字である。
図1の音声ライブラリLは、相異なる音声素片に対応する複数の素片データVの集合である。各素片データVは、合成音の素材として利用される。音声素片は、例えば、音声を聴覚的に区別し得る最小の単位に相当する音素、または複数の音素を連結した音素連鎖である。音素連鎖は、典型的には2個の音素の連鎖(子音-母音,母音-子音,子音-子音,母音-母音)であるが、3個以上の音素の連鎖(例えば子音-母音-子音)や音節をも包含する概念である。
図1に示すように、音声ライブラリLを構成する各音声素片の素片データVは、その音声素片の波形(以下「素片波形」という)Wと、素片波形Wの初期的な使用区間を指示する区間情報Qとを含んで構成される。使用区間は、素片波形Wのうち実際に合成音の生成に使用される区間に相当する。図2は、母音の音素[a]と子音の音素[s]とを連続させた音声素片(音素連鎖)[a_s]の素片波形Wの模式図である。区間情報Qは、始点s0と終点e0とにわたる素片波形Wの全区間のうち、使用区間の初期的な始点(以下「初期始点」という)qSと、使用区間の初期的な終点(以下「初期終点」という)qEとを指示する。
図1の付属情報Aは、音声ライブラリL内の各素片データVの加工に適用される。図3に示すように、付属情報Aは、音声ライブラリLに収録された複数の音声素片(素片データV)のうち利用者が編集を指示した音声素片毎に、区間情報Pおよび特性情報Fの少なくとも一方を含んで構成される。利用者が編集を指示しない音声素片について区間情報Pや特性情報Fは付属情報Aに含まれない。
区間情報Pは、音声ライブラリL内の素片データVが示す素片波形Wのうち実際に音声合成に使用される使用区間を指定する情報である。図2に示すように、区間情報Pは、使用区間の始点pSおよび終点pEを可変に指示する。区間情報Pが指定する始点pSは、音声ライブラリL内の区間情報Qが指定する初期始点qSとは相違し得る。同様に、区間情報Pの終点pEは初期終点qEとは相違し得る。始点pSは初期始点qSに対する変化量として指定され、終点pEは初期終点qEに対する変化量として指定される。
図3の特性情報Fは、音声ライブラリL内の各素片データVが示す素片波形W内での特徴量(特に時間的な変化)を示す。具体的には、素片波形W内の音量,ピッチ,ホルマント周波数,または音色の時間的な変化が特性情報Fで指示される。音色の時間的な変化は、例えばスペクトルやMFCC(mel-frequency cepstrum coefficient)の遷移で定義される。
図1の表示制御部22は、音楽情報DSや付属情報Aの生成および編集のために利用者が視認する編集画像40を表示装置16に表示させる。図4は、編集画像40の模式図である。図4に例示するように、編集画像40は、指定音の時系列を表示する楽譜領域42と、付属情報Aの編集に利用される編集領域44とを含んで構成される。
楽譜領域42は、音高に対応する縦軸(音高軸)と時間に対応する横軸(時間軸)とが設定されたピアノロール型の画像領域である。利用者は、楽譜領域42を視認しながら入力装置14を適宜に操作することで指定音の音高と発音期間と発音文字とを指示する。表示制御部22は、利用者から指示された指定音に対応する音指示子51を楽譜領域42内に配置する。音高軸の方向における音指示子51の位置は利用者が指示した音高に応じて決定され、時間軸の方向における音指示子51の各端点は利用者が指示した発音期間の始点および終点に相当する。また、利用者から指示された発音文字が各音指示子51に付加される。なお、指定音の音譜を五線譜に記譜した楽譜の画像を楽譜領域42に配置した構成も採用され得る。
図1の情報生成部24は、利用者が楽譜領域42に対して指示した指定音の音高と発音期間と発音文字とを対応させて記憶装置12の音楽情報DSに格納する。以上の処理が反復されることで、利用者から指示された指定音の時系列を示す音楽情報DSが記憶装置12に生成され、各指定音の音指示子の時系列が図4の例示のように楽譜領域42に表示される。
編集領域44は、波形領域441と特性領域443とを含んで構成される。表示制御部22は、利用者が指示した指定音の合成に使用される各素片データVの素片波形Wを波形領域441内に時系列に配置する。波形領域441に素片波形Wが表示される素片データVは、指定音に指示された発音文字に応じて選択される。例えば、図4の例示のように「あさ(朝)」が発音文字として指示された場合、表示制御部22は、音声素片[#_a](「#」は無音を意味する),[a],[a_s],[s_a],[a]および[a_#]の各々に対応する素片データVを記憶装置12の音声ライブラリLから取得して各素片波形Wを波形領域441内に時系列に配列する。
表示制御部22は、素片波形Wのうち使用区間の始点を示す始点指示子532と使用区間の終点を示す終点指示子534とを素片波形W毎に配置する。始点指示子532の初期的な位置は、音声ライブラリL内の素片データVの区間情報Qが示す初期始点qSに設定される。同様に、終点指示子534の初期的な位置は、素片データVの区間情報Qが示す初期終点qEに設定される。利用者は、入力装置14を適宜に操作することで、波形領域441内に配置された複数の素片波形Wの何れかを選択するとともにその素片波形Wの始点指示子532および終点指示子534の移動を指示することが可能である。表示制御部22は、入力装置14に対する利用者からの指示に応じて、始点指示子532と終点指示子534とを、各素片波形Wの始点s0から終点e0までの範囲内で移動させる。
また、表示制御部22は、各指定音の合成に使用される素片データVの特徴量の遷移を示す特性遷移画像55を素片波形W毎に特性領域443に配置する。例えば、表示制御部22は、図4の例示のように、各素片データVの音量の時間的な遷移を示すグラフ(折線グラフ)を特性遷移画像55として表示装置16に表示させる。各素片波形Wに対応する特性遷移画像55は、波形領域441におけるその素片波形Wと時間軸を共通にして表示される。利用者は、入力装置14を適宜に操作することで、特性遷移画像55の編集(変更)を指示することが可能である。表示制御部22は、利用者からの指示に応じて特性遷移画像55を編集する。
情報生成部24は、編集領域44に対する利用者からの指示に応じて付属情報Aを更新する。具体的には、情報生成部24は、各素片データVの素片波形Wに対して利用者から指示された始点指示子532および終点指示子534の各々の位置を特定し、始点指示子532の位置に応じた始点pSと終点指示子534の位置に応じた終点pEとを示す情報を、その素片データVの区間情報Pとして生成したうえで付属情報Aに格納する。すなわち、音声ライブラリL内の区間情報Qが指示する使用区間が維持されたまま、付属情報Aの区間情報Pが指示する使用区間は、利用者からの指示に応じて可変に設定される。
また、情報生成部24は、各素片データVの素片波形Wについて利用者が編集した特性遷移画像55から特性情報Fを生成して付属情報Aに格納する。すなわち、音声ライブラリL内の各素片データVの素片波形Wが維持されたまま、付属情報Aの特性情報Fが素片波形Wについて指示する特徴量は、利用者からの指示に応じて可変に設定される。以上に説明したように、始点指示子532または終点指示子534の移動や特性遷移画像55の変更が利用者から指示された場合でも、付属情報Aが更新されるだけで、音声ライブラリL内の各素片データVは何ら変更されない。
図1の音声合成部26は、記憶装置12に格納された音楽情報DSが示す指定音を合成して音声信号SOUTを生成する。概略的には、音声合成部26は、音声ライブラリLのうち音楽情報DSに応じて選択した素片データVを付属情報Aに応じて加工して相互に連結することで音声信号SOUTを生成する。図5に示すように、音声合成部26は、素片選択部32と素片加工部34と合成処理部36とを含んで構成される。素片選択部32は、音楽情報DSにて各指定音に指示された発音文字に対応する各音声素片の素片データVを記憶装置12の音声ライブラリLから順次に選択する。
素片加工部34は、素片選択部32が選択した各素片データVを加工する。素片選択部32が選択した素片データVについて付属情報Aに区間情報Pや特性情報Fが含まれない場合、素片加工部34は、その素片データVが示す素片波形Wのうち音声ライブラリLの区間情報Qで指示される使用区間(図2の始点qSと終点qEとにわたる区間)を、音楽情報DSが指示する音高および発音期間に調整する。
他方、素片選択部32が選択した素片データVについて付属情報Aに区間情報Pが含まれる場合、素片加工部34は、その素片データVが示す素片波形Wのうち当該区間情報Pで指示された使用区間(始点pSと終点pEとにわたる区間)を抽出し、抽出後の使用区間を、音楽情報DSが指示する音高および発音期間に調整する。すなわち、付属情報Aの区間情報Pに応じた加工(使用区間の抽出)が素片データVに対して実行される。なお、素片データVの音高や発音期間の調整には公知の技術が任意に採用される。また、素片データVの音高や発音期間の調整後に区間情報Pに応じた使用区間を抽出する構成も採用され得る。
また、素片選択部32が選択した素片データVについて付属情報Aに特性情報Fが含まれる場合、素片加工部34は、その素片データVが示す素片波形Wの使用区間を、音楽情報DSが指示する音高および発音期間に調整するとともに特性情報Fに応じて加工する。具体的には、素片加工部34は、特性情報Fで指示される特性が素片波形Wの使用区間に対して付加されるように、素片波形Wの特徴量を特性情報Fに応じて制御する。例えば、特性情報Fが音量の時系列を示す場合、素片加工部34は、素片波形Wの使用区間内の音量が特性情報Fの音量の時系列に沿うように素片データVを加工する。なお、素片データVのうち特性情報Fに応じた加工の対象となる使用区間は、付属情報Aが区間情報Pを含まない素片データVについては音声ライブラリLの区間情報Qが示す使用区間であり、付属情報Aが区間情報Pを含む素片データVについては当該区間情報Pが示す使用区間である。
図5の合成処理部36は、素片加工部34による加工後の各素片データVを時間軸上で相互に連結することで音声信号SOUTを生成する。以上の説明から理解されるように、楽譜領域42の各音指示子51が示す音符で構成される楽曲を各指定音の発音文字で歌唱した歌唱音の音声信号SOUTが生成される。なお、素片データVを利用した音声信号SOUTの生成には公知の技術が任意に採用される。
以上に説明したように、第1実施形態においては、既存の音声ライブラリLに付属情報Aを適用することで合成音が生成されるから、音声ライブラリLとは別個の音声ライブラリを実際には用意することなく、収録音の特性が音声ライブラリLとは相違する新規な音声ライブラリ(仮想的な音声ライブラリ)を利用した場合と同等の音声信号SOUTを生成することが可能である。すなわち、音声毎に別個の音声ライブラリLを用意しなくても、相異なる特性の音声を合成することが可能である。したがって、音声ライブラリLの作成の労力を削減しながら、新規な音声ライブラリLを作成および利用した場合と同様に多様な音声を合成できるという利点がある。また、付属情報Aは音声ライブラリLと比較してデータ量が少ないから、新規な音声ライブラリLを用意する場合と比較して、記憶装置12に必要な容量が削減されるという利点もある。
<B:第2実施形態>
次に、本発明の第2実施形態を説明する。なお、以下の各例示において作用や機能が第1実施形態と同等である要素については、以上と同じ符号を付して各々の詳細な説明を適宜に省略する。
図6は、第2実施形態における音声の合成を説明するための模式図である。図6に示すように、第2実施形態の記憶装置12は、複数(以下の例示では2個)の音声ライブラリL(L1,L2)を記憶する。各音声ライブラリL(L1,L2)は、第1実施形態と同様に音声素片毎の素片データV(V1,V2)の集合である。音声ライブラリL1と音声ライブラリL2とは、相異なる特性の音声から生成される。例えば、各音声素片の抽出元となる音声の発声者が音声ライブラリL1と音声ライブラリL2とでは相違する。なお、ひとりの発声者が相異なる特性で発声した複数の音声の各々から音声ライブラリL1と音声ライブラリL2とを生成してもよい。
図6の素片選択部32は、音楽情報DSにて各指定音に指定された発音文字に対応する各音声素片の素片データVを音声ライブラリL1および音声ライブラリL2の各々から順次に選択する。したがって、音声ライブラリL1内の素片データV1と音声ライブラリL2内の素片データV2とが、各発音文字に対応する音声素片毎に順次に選択される。
図6に示すように、第2実施形態の付属情報Aは、音声ライブラリL1および音声ライブラリL2に収録された複数の音声素片の各々について、音声ライブラリL1内の素片データV1と音声ライブラリL2内の素片データV2との混合比Rを指示する。付属情報Aが指示する各混合比Rは、例えば入力装置14に対する利用者からの指示に応じて可変に設定される。
素片加工部34は、素片選択部32が音声ライブラリL1から選択した素片データV1と音声ライブラリL2から選択した素片データV2とを、その音声素片に対して付属情報Aに指示された混合比Rで混合(加算)することで素片データVAを生成する。なお、音楽情報DSに応じた音高や発音期間の調整は、素片加工部34による混合前または混合後に、第1実施形態にて例示した方法で実行される。合成処理部36は、素片加工部34による加工後(混合後)の素片データVAから音声信号SOUTを生成する。
以上の形態においては、音声ライブラリL1の素片データV1と音声ライブラリL2の素片データV2とを付属情報Aの混合比Rで混合したうえで音声信号SOUTの生成に利用する。したがって、音声ライブラリLを新規に作成することなく、音声ライブラリL1および音声ライブラリL2の双方の特性を反映した音声ライブラリ(すなわち、音声ライブラリL1の素片データVと音声ライブラリL2の素片データVとを混合した素片データVで構成される仮想的な音声ライブラリ)を利用した場合と同等の音声信号SOUTを生成することが可能である。すなわち、第1実施形態と同様に、音声ライブラリLの作成の労力や記憶装置12に必要な容量を削減しながら、新規な音声ライブラリLを用意した場合と同様に多様な音声を合成できるという利点がある。
<C:第3実施形態>
図7は、本発明の第3実施形態における音声の合成を説明するための模式図である。図7に示すように、第3実施形態の記憶装置12は、第2実施形態と同様に、相異なる特性の音声から生成された複数(以下の例示では2個)の音声ライブラリL(L1,L2)を記憶する。
また、記憶装置12は、音声合成に適用される制御変数(コントロールパラメータ)Xの数値の変化を示す変数情報DPを記憶する。制御変数Xは、合成音に付与される音楽的な表情を制御するための変数である。具体的には、指定音の発音の強弱(velocity),音量(dynamics),息成分の強弱(breathness)、明瞭度(brightness,clearness),発音時の開口度(opening),発音者の性別(genderfactor),音高を連続的に変化(ポルタメント)させる時点(portamento-timing),音高の微小変化(pitch-bend),音高の微小変化の最大幅(pitch-bend sensitivity)など、音声合成に適用される公知の変数が制御変数Xとして任意に採用される。また、以上の例示から選択された複数の変数の組合せ(例えば利用者から指示された複数の変数)を新規な(仮想的な)制御変数Xとして変数情報DPで指定した構成も採用され得る。
図8は、第3実施形態における編集画像40の模式図である。図8の例示のように、表示制御部22は、変数情報DPが示す制御変数Xの時系列を示す画像(以下「変数遷移画像」という)57を、楽譜領域42内の各音指示子51の時系列と共通の時間軸のもとで編集領域46内に配置する。具体的には、制御変数Xの数値の遷移を示すグラフ(例えば折線グラフ)が変数遷移画像57として表示される。表示制御部22は、入力装置14に対する利用者からの指示に応じて変数遷移画像57を随時に変更する。情報生成部24は、変更後の変数遷移画像57に応じた制御変数Xの時系列を示す内容に記憶装置12の変数情報DPを更新する。すなわち、変数情報DPは利用者からの指示に応じて可変に設定される。
第3実施形態の付属情報Aは、図7に示すように、音声ライブラリL1の素片データV1と音声ライブラリL2の素片データV2との各々について、制御変数Xの数値(以下「設定値」という)xAを音声素片毎に指示する。各素片データV1には設定値xA1が指示され、各素片データV2には設定値xA2が指示される。音声素片が共通する素片データV1と素片データV2とでは設定値xA(xA1,xA2)が相違する。例えば、図7では、音声素片[a_s]の素片データV1の設定値xA1を0.2に設定し、同じ音声素片[a_s]の素片データV2の設定値xA2を0.6に設定した場合が例示されている。各設定値xA1および各設定値xA2は、例えば入力装置14に対する利用者からの指示に応じて可変に設定される。
図7に示すように、第3実施形態の音声合成部26は、素片選択部32と素片加工部34と合成処理部36とに加えて変数指示部38を含んで構成される。変数指示部38は、制御変数Xの数値(以下「指示値」という)xBを素片選択部32に対して順次に指定する。具体的には、変数指示部38は、変数情報DPが時系列に指定する制御変数Xの数値を指示値xBとして順次に記憶装置12から取得して素片選択部32に指示する。
素片選択部32は、音声ライブラリL1および音声ライブラリL2の各々において音楽情報DSの発音文字に対応する音声素片の素片データV(素片データV1および素片データV2)の何れかを、各々に対して付属情報Aに規定された設定値xA(xA1,xA2)と変数指示部38からの指示値xBとに応じて順次に選択する。具体的には、素片選択部32は、発音文字に応じた素片データV1および素片データV2のうち、付属情報Aにて各々に規定された設定値xA(xA1,xA2)が変数指示部38からの指示値xBに近い素片データVを素片データVAとして選択する。
例えば、付属情報Aが図7に例示した内容に設定された状況で音声素片[a_s]の合成が指示された場合を想定する。変数指示部38からの指示値xBが例えば0.3である場合、素片選択部32は、音声素片[a_s]について付属情報Aに規定された設定値xA1(0.2)および設定値xA2(0.6)のうち指示値xB(0.3)に近い設定値xA1に対応する素片データV1を音声ライブラリL1から素片データVAとして選択する。他方、変数指示部38からの指示値xBが例えば0.5である場合、素片選択部32は、音声素片[a_s]に関する設定値xA1(0.2)および設定値xA2(0.6)のうち、指示値xB(0.5)に近い設定値xA1に対応する素片データV2を音声ライブラリL2から素片データVAとして選択する。したがって、素片選択部32による素片データVAの選択の対象となる音声ライブラリLは、変数指示部38からの指示値xB(変数情報DPが規定する制御変数Xの時系列)に応じて音声ライブラリL1および音声ライブラリL2の一方から他方に順次に変更される。
素片加工部34は、素片選択部32が選択した素片データVAを音楽情報DSが指示する音高および発音期間に調整する。なお、素片加工部34による素片データVの加工には第1実施形態と同様の方法が採用され得る。また、合成処理部36は、素片加工部34による処理後の素片データDSの連結で音声信号SOUTを生成する。
以上に説明したように、第3実施形態においては、音声ライブラリが規定する設定値xAと変数指示部38からの指示値xBとの大小に応じて複数の音声ライブラリL(L1,L2)から択一的に素片データVAが選択されて合成音の生成に利用される。したがって、音声ライブラリLを新規に作成することなく、音声ライブラリL1および音声ライブラリL2の双方の特性を反映した音声ライブラリ(すなわち、音声ライブラリL1および音声ライブラリL2から音声素片毎に択一的に抽出した素片データVで構成される仮想的な音声ライブラリ)を利用した場合と同等の多様な音声信号SOUTを生成することが可能である。すなわち、第1実施形態と同様に、音声ライブラリLの作成の労力や記憶装置12に必要な容量を削減しながら、新規な音声ライブラリLを用意した場合と同様に多様な音声を合成できるという利点がある。
<D:変形例>
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
(1)変形例1
以上の各形態においては、音声ライブラリLが音声素片毎に1個の素片データVを含む構成を便宜的に例示したが、素片データVを更に細分化した構成も採用され得る。例えば、音高(周波数)や音量などの音響的な属性(以下「素片属性」という)が相違する複数の素片データVを音声素片毎に音声ライブラリLに含ませる構成も採用され得る。素片選択部32は、指定音に指示された発音文字の音声素片に対応する複数の素片データVのうち、その指定音に対して指示された素片属性の素片データV(例えば音楽情報DSで指示される音高の素片データV)を選択する。
以上の構成によれば、音声素片毎に1個の素片データVを用意した構成と比較して多様な合成音を生成できるという利点がある。他方、素片データVの個数が多いほど音声ライブラリLのデータ量は増大するから、記憶装置12に必要な容量を削減しながら合成音を多様化できるという各形態の効果は、音声素片に加えて素片属性(音高や音量)に応じて素片データVを用意した変形例1のもとでは格別に顕著である。
(2)変形例2
以上の各形態では、音声合成部26における素片データVの利用(素片選択部32による選択または素片加工部34による加工)を規定するための情報(以下「素片利用情報」という)を素片データV毎(音声素片毎)に付属情報Aに設定したが、以下に例示するように、複数の素片データVを単位として素片利用情報を設定する構成も採用され得る。素片利用情報は、第1実施形態における区間情報Pおよび特性情報Fと、第2実施形態における混合比Rと、第3実施形態における制御変数Xの設定値xAとを包括する概念である。
例えば、音声素片の分類毎に付属情報Aに素片利用情報を設定する構成が採用される。音声素片の分類としては、音素の構造による分類(音素単体/音素連鎖)や、母音または子音の有無による分類が想定される。例えば、音素単体で構成される複数の音声素片の素片データVの集合と、音素連鎖で構成される複数の音声素片の素片データVの集合との各々について、付属情報Aに素片利用情報が設定される。分類が共通する複数の音声素片の素片データVについては同じ素片利用情報が適用される。
また、音声ライブラリL内の全部の素片データVに対して共通の素片利用情報を設定した構成も採用され得る。例えば、第1実施形態では、1個の区間情報Pや1個の特性情報Fが総ての素片データVに対して共通に適用される。第2実施形態では、音声ライブラリL1内の素片データV1と音声ライブラリL2内の素片データV2とが、音声素片に関わらず共通の混合比Rで混合される。また、第3実施形態では、音声ライブラリL1の素片データV1および音声ライブラリL2の素片データV2の何れかが、音声素片に関わらず共通の設定値xA(xA1,xA2)に応じて選択される。
変形例1のように音高や音量などの素片属性毎に素片データVを用意する場合には、素片属性に関わらず音声素片毎に素片利用情報を設定する構成や、素片属性毎に素片利用情報を設定する構成が採用される。前者の構成では、音声素片が共通する複数の素片データVに対して、素片属性に関わらず共通の素片利用情報が適用される。後者の構成では、素片属性が相違する各素片データVに対しては、音声素片が共通する場合でも別個の素片利用情報が適用される。
(3)変形例3
第1実施形態から第3実施形態は、以下の例示のように適宜に併合され得る。なお、以下の説明では、音声ライブラリL内の各素片データVに付属情報Aを適用した素片データVAで構成される仮想的な音声ライブラリLを便宜的に「仮想ライブラリ」と表記する。各形態の説明から理解されるように、実際には総ての音声素片に対応する素片データVAの集合(音声ライブラリ)が記憶装置12に生成される訳ではない(つまり、音声ライブラリLの各素片データVに対する付属情報Aの適用で素片データVAが順次に生成される)ことを考慮して、「仮想」という文言を付記した。
例えば、第1実施形態では、既存の音声ライブラリLの全部の素片データVに対して付属情報Aを適用したと仮定した場合に生成され得る複数の素片データVAの集合が仮想ライブラリLVに相当する。第2実施形態では、音声ライブラリL1内の素片データV1と音声ライブラリL2内の素片データV2とを混合比Rで混合する処理を、音声素片が共通する素片データV1と素片データV2との全対について実行した、と仮定した場合に得られる複数の素片データVAの集合が、仮想ライブラリLVに相当する。同様に、第3実施形態では、音声ライブラリL1内の素片データV1と音声ライブラリL2内の素片データV2との何れかを設定値xA(xA1,xA2)に応じて選択する処理を、音声素片が共通する素片データV1と素片データV2との全対について実行した、と仮定した場合に得られる複数の素片データVAの集合が、仮想ライブラリLVに相当する。
まず、図9に示すように、仮想ライブラリLV1と仮想ライブラリLV2とに対して第2実施形態や第3実施形態の付属情報A3を適用することで、仮想ライブラリLV3が構成される。仮想ライブラリLV1は、例えば、区間情報Pや特性情報Fを含む第1実施形態の付属情報A1を既存の音声ライブラリL1に適用することで構成される。同様に、仮想ライブラリLV2は、第1実施形態の付属情報A2を既存の音声ライブラリL2に適用することで構成される。また、図10に示すように、仮想ライブラリLV1と既存の音声ライブラリL2とに対して第2実施形態や第3実施形態の付属情報A4を適用することで、仮想ライブラリLV4が構成される。以上のように、第1実施形態から第3実施形態を適宜に併合することで、様々な特性の音声に対応した多様な仮想ライブラリLVを構築することが可能である。
また、図11に示すように、既存の音声ライブラリLに対して複数の付属情報A(A1,A2)を用意した構成も採用され得る。音声ライブラリLに対する付属情報A1の適用で仮想ライブラリLV1が構築され、音声ライブラリLに対する付属情報A2の適用で仮想ライブラリLV2が構築される。すなわち、付属情報Aの個数に相当する仮想ライブラリLVが1個の音声ライブラリLから生成される。
(4)変形例4
第1実施形態では、付属情報Aの区間情報Pが素片データVの素片波形Wの使用区間を指定する場合を例示したが、例えば、音楽情報DSにて継続的な発音が指示された母音の補間(クロスフェード)に使用される素片データVの区間を区間情報Pが指定する構成も採用される。例えば、「あさが(朝が)」という発音文字の音声を音声素片[#_a],[a],[a_s],[s_a],[a],[a_g],[g_a],[a_#]から生成する場合を想定すると、音声素片[s_a]のうち区間情報Pが示す後方の区間と、音声素片[a_g]のうち区間情報Pが示す前方の区間との補間で両者間の[a]の音声を合成する。
(5)変形例5
第3実施形態では、変数情報DPが記憶装置12に格納された場合を例示したが、変数指示部38が制御変数Xの指示値xBを指示する方法は適宜に変更される。例えば、入力装置14に対する入力に応じて変数指示部38が指示値xBを時系列に指示する構成や、通信網から順次に受信される指示値xBを変数指示部38が順次に素片選択部32に指示する構成も採用される。すなわち、変数指示部38は、制御変数Xの指示値xBを順次に指示する要素として包括され、変数情報DPを予め用意して記憶装置12に格納した構成は省略され得る。
(6)変形例6
以上の各形態では、素片データVが素片波形Wを示す場合を例示したが、素片データVの内容は適宜に変更される。例えば、音声素片を公知の手法で解析した結果を示す情報(例えば音声素片の周波数スペクトルに関する情報)を素片データVとして利用してもよい。
(7)変形例7
以上の各形態では、利用者からの指示に応じて音楽情報DSを編集したが、音楽情報DSの編集は省略され得る。すなわち、記憶装置12に予め記憶された音楽情報DSや、可搬型の記録媒体または通信網を介して音声合成装置100に提供された音楽情報DSを合成音の生成に利用する構成も採用される。したがって、以上の各形態における情報生成部24は省略され得る。
100……音声合成装置、10……制御装置、12……記憶装置、14……入力装置、16……表示装置、18……放音装置、22……表示制御部、24……情報生成部、26……音声合成部、32……素片選択部、34……素片加工部、36……合成処理部、38……変数指示部。

Claims (6)

  1. 音声素片を示す複数の素片データを含む音声ライブラリと、素片データの利用を規定する素片利用情報が前記音声ライブラリ内の1個以上の素片データを単位として複数の前記単位の各々を対象に設定された付属情報とを記憶する記憶手段と、
    指定音の時系列を示す音楽情報に応じて前記音声ライブラリの前記素片データを順次に選択する素片選択手段と、
    前記素片選択手段が選択した各素片データを、前記付属情報にて当該素片データに設定された素片利用情報に応じて加工する素片加工手段と、
    前記素片加工手段による加工後の素片データから音声を合成する合成処理手段と
    を具備する音声合成装置。
  2. 音楽情報が指定する指定音に対応する各素片データの素片波形の時系列と、各素片波形のうち音声の合成に使用される使用区間の始点を示す始点指示子と、前記使用区間の終点を示す終点指示子とを表示装置に表示させ、利用者からの指示に応じて前記始点指示子および前記終点指示子の各々を移動させる表示制御手段を具備し、
    前記付属情報にて各素片データに設定された素片利用情報は、当該素片データの素片波形のうち前記始点指示子および前記終点指示子で規定される使用区間を示す区間情報を含み、
    前記素片加工手段は、前記素片選択手段が選択した素片データのうち前記区間情報が示す区間を抽出する
    請求項1の音声合成装置。
  3. 前記表示制御手段は、前記音楽情報が示す指定音の時系列を示す画像を、前記素片波形の時系列と並列に前記表示装置に表示させる
    請求項2の音声合成装置。
  4. 前記表示制御手段は、音楽情報が指定する指定音に対応する各素片データの特徴量の遷移を示す特性遷移画像を、前記素片波形毎に、当該素片波形と共通の時間軸のもとで前記表示装置に表示させ、利用者からの指示に応じて前記特性遷移画像を編集し、
    前記付属情報にて各素片データに設定された素片利用情報は、当該素片データの特性遷移画像に応じた特徴量を示す特性情報を含み、
    前記素片加工手段は、前記素片選択手段が選択した素片データの特徴量を前記特性情報に応じて制御する
    請求項2または請求項3の音声合成装置。
  5. 前記記憶手段は、前記音声ライブラリにおける各素片データの音声素片の分類毎に前記素片利用情報が設定された付属情報を記憶し、
    前記素片加工手段は、一の分類に属する各音声素片の素片データの加工に、前記付属情報にて当該一の分類に設定された前記素片利用情報を共通に適用する
    請求項1から請求項4の何れかの音声合成装置。
  6. 音声素片を示す複数の素片データを含む音声ライブラリと、素片データの利用を規定する素片利用情報が前記音声ライブラリ内の1個以上の素片データを単位として複数の前記単位の各々を対象に設定された付属情報とを記憶する記憶手段を具備するコンピュータが、
    指定音の時系列を示す音楽情報に応じて前記音声ライブラリの前記素片データを順次に選択し、
    前記選択した各素片データを、前記付属情報にて当該素片データに設定された素片利用情報に応じて加工し、
    前記加工後の素片データから音声を合成する
    音声合成方法。
JP2009256027A 2009-11-09 2009-11-09 音声合成装置および音声合成方法 Expired - Fee Related JP5552797B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009256027A JP5552797B2 (ja) 2009-11-09 2009-11-09 音声合成装置および音声合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009256027A JP5552797B2 (ja) 2009-11-09 2009-11-09 音声合成装置および音声合成方法

Publications (2)

Publication Number Publication Date
JP2011100055A JP2011100055A (ja) 2011-05-19
JP5552797B2 true JP5552797B2 (ja) 2014-07-16

Family

ID=44191264

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009256027A Expired - Fee Related JP5552797B2 (ja) 2009-11-09 2009-11-09 音声合成装置および音声合成方法

Country Status (1)

Country Link
JP (1) JP5552797B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9401138B2 (en) * 2011-05-25 2016-07-26 Nec Corporation Segment information generation device, speech synthesis device, speech synthesis method, and speech synthesis program

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0950295A (ja) * 1995-08-09 1997-02-18 Fujitsu Ltd 音声合成方法およびそのための装置
JPH11184490A (ja) * 1997-12-25 1999-07-09 Nippon Telegr & Teleph Corp <Ntt> 規則音声合成による歌声合成方法
JP4736483B2 (ja) * 2005-03-15 2011-07-27 ヤマハ株式会社 歌データ入力プログラム
JP4639932B2 (ja) * 2005-05-06 2011-02-23 株式会社日立製作所 音声合成装置
JP2007086316A (ja) * 2005-09-21 2007-04-05 Mitsubishi Electric Corp 音声合成装置、音声合成方法、音声合成プログラムおよび音声合成プログラムを記憶したコンピュータ読み取り可能な記憶媒体
JP4858173B2 (ja) * 2007-01-05 2012-01-18 ヤマハ株式会社 歌唱音合成装置およびプログラム
JP4247289B1 (ja) * 2007-11-14 2009-04-02 日本電信電話株式会社 音声合成装置、音声合成方法およびそのプログラム
JP4844623B2 (ja) * 2008-12-08 2011-12-28 ヤマハ株式会社 合唱合成装置、合唱合成方法およびプログラム

Also Published As

Publication number Publication date
JP2011100055A (ja) 2011-05-19

Similar Documents

Publication Publication Date Title
EP2983168B1 (en) Voice analysis method and device, voice synthesis method and device and medium storing voice analysis program
JP6236765B2 (ja) 音楽データ編集装置および音楽データ編集方法
US10354629B2 (en) Sound control device, sound control method, and sound control program
JP6507579B2 (ja) 音声合成方法
JP6127371B2 (ja) 音声合成装置および音声合成方法
JP2007240564A (ja) 歌唱合成装置および歌唱合成プログラム
JP5625321B2 (ja) 音声合成装置およびプログラム
JP5423375B2 (ja) 音声合成装置
JP6390690B2 (ja) 音声合成方法および音声合成装置
JP6179221B2 (ja) 音響処理装置および音響処理方法
JP6255744B2 (ja) 楽曲表示装置および楽曲表示方法
JP6044284B2 (ja) 音声合成装置
JP5157922B2 (ja) 音声合成装置、およびプログラム
JP5552797B2 (ja) 音声合成装置および音声合成方法
JP5176981B2 (ja) 音声合成装置、およびプログラム
JP7124870B2 (ja) 情報処理方法、情報処理装置およびプログラム
JP5935831B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP5790860B2 (ja) 音声合成装置
JP7127682B2 (ja) 情報処理方法、情報処理装置およびプログラム
JP5641266B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP6286946B2 (ja) 音声合成装置および音声合成方法
JP5782799B2 (ja) 音声合成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120920

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130529

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130604

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130815

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140324

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140430

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140513

R150 Certificate of patent or registration of utility model

Ref document number: 5552797

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees