JP6756151B2 - 歌唱合成データ編集の方法および装置、ならびに歌唱解析方法 - Google Patents

歌唱合成データ編集の方法および装置、ならびに歌唱解析方法 Download PDF

Info

Publication number
JP6756151B2
JP6756151B2 JP2016102192A JP2016102192A JP6756151B2 JP 6756151 B2 JP6756151 B2 JP 6756151B2 JP 2016102192 A JP2016102192 A JP 2016102192A JP 2016102192 A JP2016102192 A JP 2016102192A JP 6756151 B2 JP6756151 B2 JP 6756151B2
Authority
JP
Japan
Prior art keywords
data
singing
note
note data
virtual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016102192A
Other languages
English (en)
Other versions
JP2017027021A (ja
Inventor
誠 橘
橘  誠
雅史 吉田
雅史 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to US15/215,882 priority Critical patent/US9818396B2/en
Publication of JP2017027021A publication Critical patent/JP2017027021A/ja
Application granted granted Critical
Publication of JP6756151B2 publication Critical patent/JP6756151B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrophonic Musical Instruments (AREA)

Description

この発明は、歌唱合成の制御を指示する歌唱合成データを編集するための歌唱合成データ編集方法および歌唱合成データ編集装置、ならびにこの歌唱合成データの編集において利用する歌唱特性データを生成する歌唱解析方法に関する。
歌唱合成に関する技術として、歌唱合成データに従って歌唱合成を行う技術がある。この歌唱合成データは、発音の期間および発音のピッチを指示するノートデータと、このノートデータに関連付けられた歌詞データと、音響制御データとを時系列化したデータである。ここで、音響制御データには、歌詞データが示す歌詞の歌唱音声を出力する際の音量を制御するための音量制御データ、ピッチを制御するためのピッチ制御データ等が含まれる。ユーザはこの歌唱合成データを任意に編集してメモリに格納することが可能である。従来技術の下では、この歌唱合成データを構成する各ノートデータと、各ノートデータに関連付けられた歌詞データと、音響制御データがシーケンサによってメモリから順次読み出され、歌唱合成部に供給される。歌唱合成部では、シーケンサから供給される歌詞データが示す歌詞に対応し、かつ、ノートデータが示すピッチおよび発音期間を有する歌唱音声信号を合成するとともに、その歌唱音声信号に音響制御データに従って音量制御、ピッチ制御等の音響制御を施して出力する。
特開2015−034920号公報
ところで、自然人が行う歌唱では、無音区間によって区切られたフレーズの歌い出しの部分の歌唱に顕著に個性が現れる。そこで、このフレーズの歌い出しの部分に対して音量やピッチの変化を与えて歌唱の表現力を高めたい。特許文献1は、ある楽曲の参照楽曲データ(ノートデータと歌詞データとを合わせたもの)が示す合成歌唱のピッチ遷移と、その楽曲を歌唱することにより得られた参照歌唱データのピッチ遷移との関係を確率モデルに学習させ、この確率モデルを規定する歌唱特性データを生成する技術を開示している。そこで、この特許文献1の技術により歌唱特性データを生成し、この歌唱特性データを利用してフレーズの歌い出しの部分にピッチや音量の変化を与える音響制御データを生成することが考えられる。しかし、この特許文献1の技術では、確率モデルの学習を行う区間が参照楽曲データのノートデータを基準に決定される。そして、特許文献1の技術では、ノートオン直前の区間を、発音区間と区別し、無音区間として捉えるため、ノートオン直前の区間について、歌唱の表現力を高める歌唱特性データを得ることができない。
この発明は、以上説明した事情に鑑みてなされたものであり、その目的のひとつは、フレーズの歌い出し部分の歌唱の表現力を高めることを可能にする歌唱合成データ編集の方法および装置を提供することにある。また、この発明の目的のひとつは、この歌唱合成データ編集の方法および装置の利用価値を高める歌唱解析方法を提供することにある。
この発明の一態様にかかる歌唱合成データ編集方法は、歌唱のメロディを表す時系列の音符の各々の発音期間および発音のピッチを各々が指示する複数のノートデータと、前記複数のノートデータの少なくともいずれかに各々が関連付けられた複数の歌詞データと、前記複数の歌詞データから合成される歌唱音声に対する音響制御を指示する音響制御データとを含む歌唱合成データに対して、連続した先行ノートデータを有しないノートデータの直前に位置する仮想ノートデータを追加するステップと、前記複数の歌詞データから合成される歌唱音声に対する音響制御を指示する音響制御データであって、前記仮想ノートデータに関連付けられた音響制御データを取得するステップと、を含む。また、上記歌唱合成データ編集方法は、当該歌唱合成データ編集方法を実行する歌唱合成データ編集装置としても実現される。
この歌唱合成データ編集方法又は歌唱合成データ編集装置によれば、フレーズの歌い出し部分のような連続した先行ノートデータを有しないノートデータがある場合に、その直前に位置する仮想ノートデータが歌唱合成データに追加される。そして、仮想ノートデータに関連付けられた音響制御データが取得される。従って、フレーズの最初のノートオンタイミング以前の区間について音響制御データによる音響制御を行うことが可能になり、フレーズの歌い出し部分の歌唱の表現力を高めることが可能になる。
また、この発明の別の態様にかかる歌唱解析方法は、歌唱のメロディを表す時系列の音符の各々の発音期間および発音のピッチを各々が指示する複数のノートデータと、前記複数のノートデータの少なくともいずれかに各々が関連付けられた複数の歌詞データとを含む楽曲データと、前記時系列の音符によりメロディが表される楽曲を歌唱した歌唱音声波形を示す歌唱データとに基づいて、前記楽曲データから前記歌唱データを生じさせる確率モデルを規定する歌唱特性データを生成するステップと、前記歌唱特性データの生成対象となる楽曲データに対し、前記複数のノートデータのうち連続した先行ノートデータを有しないノートデータの直前に位置する仮想ノートデータを追加するステップと、を含む。また、上記歌唱解析方法は、当該解消解析方法を実行する歌唱解析装置としても実現される。
この歌唱解析方法又は歌唱解析装置によれば、仮想ノートデータの追加された楽曲データに基づいて、歌唱特性データが生成される。従って、上記歌唱合成データ編集方法又は歌唱合成データ編集装置では、取得した歌唱特性データを利用して、追加された仮想ノートデータに適した音響制御データを生成することが可能になる。
この発明の一実施形態である歌唱合成データ編集装置としての機能を備えた歌唱合成装置とこの歌唱合成装置に歌唱特性データを提供する歌唱解析装置とを含む歌唱合成システムの構成を示すブロック図である。 同歌唱解析装置の変数抽出部の動作の説明図である。 同変数抽出部の機能構成を示すブロック図である。 同歌唱解析装置の補間処理部の動作を示す図である。 同歌唱解析装置の特性解析部の構成を示すブロック図である。 同歌唱解析装置における確率モデルおよび歌唱特性データを示す図である。 同歌唱解析装置における決定木の説明図である。 同歌唱解析装置の動作を示すフローチャートである。 同実施形態における歌唱合成プログラムの実行によって実現される機能構成を示すブロック図である。 同実施形態における歌唱合成データ編集部の処理内容を示すフローチャートである。 同実施形態における前処理の内容を示す図である。 同実施形態における仮想ノートデータ追加処理の処理内容を示す図である。 同実施形態における仮想ノートデータ追加処理の処理内容を示す図である。
以下、図面を参照し、この発明の実施の形態を説明する。
図1はこの発明の一実施形態である歌唱合成システムの構成を示すブロック図である。図1に示すように、歌唱合成システムは、歌唱合成装置200と、この歌唱合成装置200に歌唱特性データを提供する歌唱解析装置100とを含む。
歌唱解析装置100は、特定の歌唱者(以下「参照歌唱者」という)の歌唱スタイルを表す歌唱特性データZを生成する。歌唱スタイルは、例えば参照歌唱者に特有の歌い廻し(例えばしゃくり)や表情等の表現法を意味する。歌唱合成装置200は、歌唱解析装置100が生成した歌唱特性データZを適用した歌唱合成を実行し、参照歌唱者の歌唱スタイルを反映した任意の楽曲の歌唱音声の歌唱音声信号を生成する。すなわち、歌唱合成装置200は、所望の楽曲について参照歌唱者の歌唱音声が存在しない場合でも、参照歌唱者の歌唱スタイルが付与された当該楽曲の歌唱音声(すなわち参照歌唱者が当該楽曲を歌唱したような音声)を生成することが可能である。
<歌唱解析装置100>
歌唱解析装置100は、CPU12と、揮発性記憶部13と、不揮発性記憶部14と、通信I/F15とを有する。不揮発性記憶部14は、ROMやHDD(ハードディスク装置)により構成されており、歌唱特性データZの生成に利用される参照歌唱データXAと参照楽曲データXBとを記憶する。参照歌唱データXAは、図2に例示される通り、参照歌唱者が特定の楽曲(以下「参照楽曲」という)を歌唱した音声(以下「参照音声」という)の波形を表現する。他方、参照楽曲データXBは、参照歌唱データXAに対応する参照楽曲の楽譜を表現する。具体的には、参照楽曲データXBは、図2から理解される通り、参照楽曲を構成する音符毎に音高と発音期間と歌詞(発音文字)とを時系列に指定する時系列データ(例えばVSQ形式のファイル)である。すなわち、参照楽曲データXBは、各音符の発音期間および発音のピッチを各々が指示する複数のノートデータと、当該複数のノートデータの少なくともいずれかに各々が関連付けられた複数の歌詞データとを含む。
CPU12は、不揮発性記憶部14に記憶された歌唱解析プログラムGAを実行することで、参照歌唱者の歌唱特性データZを生成するための複数の機能(変数抽出部22、特性解析部24、および仮想ノートデータ追加部26)を実現する。歌唱解析プログラムGAは、コンピュータが読取可能な記録媒体に格納された形態で提供されて歌唱解析装置100にインストールされ得る。かかる記録媒体および不揮発性記憶部14は、例えば、非一過性(non-transitory)の記録媒体であり、CD−ROM等の光学式記録媒体(光ディスク)、半導体記録媒体、および磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。なお、本明細書中において、「非一過性」の記録媒体とは、一過性の伝搬信号(transitory,propagating signal)を除く全てのコンピュータ読み取り可能な記録媒体を含み、揮発性の記録媒体を除外するものではない。
また、歌唱解析プログラムGAは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。
変数抽出部22は、参照歌唱データXAから参照音声の時系列の特徴量を取得する。この例において、変数抽出部22は、参照楽曲データXBを適用した音声合成で生成される合成音声のピッチPBと参照歌唱データXAが表す参照音声のピッチPAとの差分(以下「相対ピッチ」という)Rを特徴量として順次に算定する。すなわち、相対ピッチRは、参照音声のピッチベンドの数値(基準となる合成音声のピッチPBに対する参照音声のピッチPAの変動量)とも換言され得る。図3に例示される通り、変数抽出部22は、遷移生成部32とピッチ検出部34と補間処理部36と差分算定部38とを含む。
遷移生成部32は、参照楽曲データXBを適用した音声合成で生成される合成音声のピッチPBの遷移(以下「合成ピッチ遷移」という)CPを設定する。参照楽曲データXBを適用した音素接続型の音声合成では、参照楽曲データXBが音符毎に指定するピッチと発音期間とに応じて合成ピッチ遷移(ピッチカーブ)CPが生成され、各音符の歌詞に対応する音素を合成ピッチ遷移CPの各ピッチPBに調整して相互に連結することで合成音声が生成される。遷移生成部32は、参照楽曲の参照楽曲データXBに応じて合成ピッチ遷移CPを生成する。以上の説明から理解される通り、合成ピッチ遷移CPは、参照楽曲の歌唱音声の模範的(標準的)なピッチPBの軌跡に相当する。なお、前述の通り合成ピッチ遷移CPは音声合成に利用され得るが、歌唱解析装置100では、参照楽曲データXBに応じた合成ピッチ遷移CPさえ生成されれば、実際の合成音声の生成までは必須ではない。
図2には、参照楽曲データXBから生成される合成ピッチ遷移CPが図示されている。図2に例示される通り、参照楽曲データXBが音符毎に指定する音高は離散的(不連続)に変動するのに対し、合成音声の合成ピッチ遷移CPではピッチPBが連続に変動する。すなわち、合成音声のピッチPBは、任意の1個の音符に対応する音高の数値から直後の音符の音高に対応する数値まで連続的に変動する。以上の説明から理解される通り、遷移生成部32は、時間軸上で連続に変動する合成音声のピッチPBを示す合成ピッチ遷移CPを生成する。
図3のピッチ検出部34は、参照歌唱データXAが表す参照音声のピッチPAを順次に検出する。ピッチPAの検出には公知の技術が任意に採用される。図2から理解される通り、参照音声のうち調波構造が存在しない無声区間(例えば子音区間や無音区間)ではピッチPAが検出されない。図3の補間処理部36は、参照音声の無声区間についてピッチPAを設定(補間)する。
図4は、補間処理部36の動作の説明図である。参照音声のピッチPAが検出された有声区間σ1および有声区間σ2と、両者間の無声区間(子音区間または無音区間)σ0とが図4では例示されている。補間処理部36は、有声区間σ1および有声区間σ2を跨る時系列のピッチPAに応じて無声区間σ0内のピッチPAを設定する。
具体的には、補間処理部36は、有声区間σ1のうち終点側に位置する所定長の区間(第1区間)ηA1内のピッチPAの時系列に応じて、無声区間σ0のうち始点側に位置する所定長の補間区間(第1補間区間)ηA2内のピッチPAの時系列を設定する。例えば、区間ηA1内のピッチPAの時系列の近似線(例えば回帰直線)L1上の各数値が区間ηA1の直後の補間区間ηA2内のピッチPAとして設定される。すなわち、有声区間σ1(区間ηA1)から直後の無声区間σ0(補間区間ηA2)にわたりピッチPAの遷移が連続するように有声区間σ1内のピッチPAの時系列が無声区間σ0内にも拡張される。
同様に、補間処理部36は、有声区間σ2のうち始点側に位置する所定長の区間(第2区間)ηB1内のピッチPAの時系列に応じて、無声区間σ0のうち終点側に位置する所定長の補間区間(第2補間区間)ηB2内のピッチPAの時系列を設定する。例えば、区間ηB1内のピッチPAの時系列の近似線(例えば回帰直線)L2上の各数値が区間ηB1の直前の補間区間ηB2内のピッチPAとして設定される。すなわち、有声区間σ2(区間ηB1)から直前の無声区間σ0(補間区間ηB2)にわたりピッチPAの遷移が連続するように有声区間σ2内のピッチPAの時系列が無声区間σ0内にも拡張される。なお、区間ηA1と補間区間ηA2とは相等しい時間長に設定され、区間ηB1と補間区間ηB2とは相等しい時間長に設定される。ただし、各区間の時間長を相違させることも可能である。また、区間ηA1と区間ηB1との時間長の異同や補間区間ηA2と補間区間ηB2との時間長の異同も不問である。
図3の差分算定部38は、図2および図4に例示される通り、遷移生成部32が算定した合成音声のピッチPB(合成ピッチ遷移CP)と補間処理部36による処理後の参照音声のピッチPAとの差分を相対ピッチRとして順次に算定する(R=PB−PA)。図4の例示のように、無声区間σ0内で補間区間ηA2と補間区間ηB2とが相互に離間する場合、差分算定部38は、補間区間ηA2と補間区間ηB2との間隔内の相対ピッチRを所定値(例えばゼロ)に設定する。変数抽出部22は、以上の構成および処理により時系列の相対ピッチRを生成する。
図1において特性解析部24は、変数抽出部22が生成した時系列の相対ピッチRを解析することで歌唱特性データZを生成する。この特性解析部24は、図5に例示される通り、区間設定部42と解析処理部44とを含む。
区間設定部42は、変数抽出部22が生成した時系列の相対ピッチRを時間軸上で複数の区間(以下「単位区間」という)UAに区分する。具体的には、区間設定部42は、図2から理解される通り、所定の音価(以下「単位音価」という)を単位として相対ピッチRの時系列を時間軸上で複数の単位区間UAに区分する。区間設定部42のさらに具体的な動作は、図8のフローチャートを参照しながら後段で説明する。この単位区間UAは、例えば120tick、すなわち、16分音符に相当する時間長を有する。そして、1個の単位区間UAには、参照楽曲内の単位音価に相当する区間にわたる相対ピッチRの時系列が包含される。区間設定部42は、参照楽曲データXBを参照することで参照楽曲内に複数の単位区間UAを設定する。なお、単位区間UAの時間長は16分音符長(120tick)に限られない、他の音符長に相当する時間長、あるいは、音符長に限られず任意の時間長でもよい。また、区間設定部42は、複数の単位区間UAの各々に次の情報を関連付ける。
・楽曲全体についてのテンポ情報
・フレーズ情報
フレーズ内に含まれるノートの個数
フレーズ内に含まれるノートの最高、最低、最頻音のノートナンバ
フレーズ内の最初のノートのノートナンバ
フレーズ内の小休符(フレーズ区切り未満の長さの休符)の数
・ノート情報(当該単位区間が属するノートとその先行、後続のノートの情報も利用)
ノートナンバ
ノートの長さ(含まれる単位区間数)
含まれる音素の種類
・単位区間情報
ノート内での当該単位区間の前から/後ろからの位置
フレーズは、参照楽曲のうち音楽的な纏まりが受聴者に知覚される旋律(複数の音符の時系列)の区間であり、区間設定部42が設定する単位区間UAとは区別される。例えば、所定長を上回る無音区間(例えば4分休符以上の無音区間)を境界として参照楽曲は複数のフレーズに区分され得る。
図5の解析処理部44は、区間設定部42が生成した単位区間UA毎の相対ピッチRに応じて参照歌唱者の歌唱特性データZを生成する。歌唱特性データZの生成には図6の確率モデルMが利用される。この確率モデルMは、N個(Nは2以上の自然数)の状態Stで規定される隠れセミマルコフモデル(HSMM:Hidden Semi Markov Model)である。図6に例示される通り、歌唱特性データZは、確率モデルMの相異なる状態Stに対応するN個の単位データz[n](z[1]〜z[N])を包含する。確率モデルMのうち第n番目(n=1〜N)の状態Stに対応する1個の単位データz[n]は、決定木T[n]と変数情報D[n]とを含む。
解析処理部44は、単位区間UAに関連する所定の条件(質問)の成否を順次に判定する機械学習(決定木学習)により決定木T[n]を生成する。決定木T[n]は、単位区間UAを複数の集合に分類(クラスタリング)するための分類木であり、複数の節点(ノード)ν(νa,νb,νc)を複数の階層にわたり相互に連結した木構造で表現される。図7に例示される通り、決定木T[n]は、分類の開始点となる始端節(ルートノード)νaと、最終的な分類に対応する複数(K個)の終端節(リーフノード)νcと、始端節νaから各終端節νcまでの経路上の分岐点に位置する中間節(内部ノード)νbとを含む。
始端節νaおよび中間節νbでは、例えば単位区間UAが無音区間であるか否か、単位区間UA内の音符が16分音符未満であるか否か、単位区間UAが音符の始点側に位置するか否か、単位区間UAが音符の終点側に位置するか否か、といった条件の成否(コンテキスト)が判定される。各単位区間UAの分類を停止する時点(決定木T[n]を確定する時点)は、例えば最小記述長(MDL:Minimum Description Length)基準に応じて決定される。決定木T[n]の構造(例えば中間節νbの個数および条件、ならびに終端節νcの個数K)は確率モデルMの状態St毎に相違する。
図6の単位データz[n]の変数情報D[n]は、確率モデルMの第n番目の状態Stに関連する変数(確率)を規定する情報であり、図6に例示される通り、決定木T[n]の相異なる終端節νcに対応するK個の変数群Ω[k](Ω[1]〜Ω[K])を含む。変数情報D[n]のうち第k番目(k=1〜K)の変数群Ω[k]は、決定木T[n]のK個の終端節νcのうち第k番目の1個の終端節νcに分類された各単位区間UA内の相対ピッチRに応じた変数の集合であり、変数ω0と変数ω1と変数ω2と変数ωdとを含む。変数ω0と変数ω1と変数ω2との各々は、相対ピッチRに関連する出現確率の確率分布を規定する変数(例えば確率分布の平均および分散)である。具体的には、変数ω0は相対ピッチRの確率分布を規定し、変数ω1は相対ピッチRの時間変化(微分値)ΔRの確率分布を規定し、変数ω2は相対ピッチの2階微分値ΔRの確率分布を規定する。また、変数ωdは、状態Stの継続長の確率分布を規定する変数(例えば確率分布の平均および分散)である。解析処理部44は、確率モデルMの第n番目の状態Stに対応する決定木T[n]のうち第k番目の終端節νcに分類された複数の単位区間UAの相対ピッチRの出現確率が最大となるように単位データz[n]の変数情報D[n]の変数群Ω[k](ω0〜ω2,ωd)を設定する。以上の手順で生成された決定木T[n]と変数情報D[n]とを確率モデルMの状態St毎に含む歌唱特性データZが不揮発性記憶部14に格納される。
図8は、歌唱解析プログラムGAがCPU12により実行されたときの処理内容を示すフローチャートである。この歌唱解析プログラムGAは、図示しない操作子あるいは通信I/F15を介して起動指示が与えられた場合に起動される。歌唱解析プログラムGAが起動されると、遷移生成部32は、参照楽曲データXBから合成ピッチ遷移CP(ピッチPB)を生成する(SA1)。また、ピッチ検出部34は、参照歌唱データXAが表す参照音声のピッチPAを検出し(SA2)、補間処理部36は、ピッチ検出部34が検出したピッチPAを利用した補間で参照音声の無声区間内のピッチPAを設定する(SA3)。差分算定部38は、ステップSA1で生成された各ピッチPBとステップSA3による補間後の各ピッチPAとの差分を相対ピッチRとして算定する(SA4)。
他方、区間設定部42は、参照楽曲データXBを参照することで参照楽曲を単位音価毎に複数の単位区間UAに区分する(SA5)。その際、仮想ノートデータ追加部26がまず参照楽曲データXBに仮想ノートデータの追加を行い、区間設定部42は、仮想ノートデータの追加後の参照楽曲データXBを参照して区分する。すなわち、仮想ノートデータ追加部26は、参照楽曲データXBにおいて、前後隣り合った2つの音符のうち先行する音符のノートオフタイミングと後続の音符のノートオンタイミングとの間に所定時間以上の時間差がある場合(例えばフレーズの歌い出し部分)に、後続の音符の直前に位置する仮想ノートデータを追加する。そして、区間設定部42は、この仮想ノートデータを含む参照楽曲データXBに含まれている複数の音符のすべてを、音符ごとに、音符の先頭から順に、予め定められた時間長(例えば、16分音符長)の区間に区分する。具体的には、区間設定部42は、仮想ノートデータを除く参照楽曲データXBに含まれる各音符を単位区間UAに区分するとともに、仮想ノートデータに対応する音符を単位区間UAと同じ長さの単位区間UA’に区分する(図2参照)。仮想ノートデータは、参照楽曲データXBにもともと含まれていた原音符の先頭位置に追加されるノートデータである。本実施例では、区間設定部42は、原音符と、仮想ノートデータが表す仮想音符とをそれぞれ独立した音符と捉えて原音符及び仮想音符それぞれを区分する。また、1つの音符を予め定められた時間長の複数の区間に区分できない場合がある。すなわち、1つの音符の音符長を予め定められた時間長で除算して剰余又は不足が生じる場合がある。この場合、当該音符の複数の区間のうちの少なくとも1つの区間について、予め定められた時間長よりも時間長を長くするか、あるいは時間長を短くする。なお、仮想ノートデータの追加方法の詳細は後述する図12及び図13の方法と同じである。また、仮想ノートデータの追加前に、後述する図11の処理(前処理)を参照楽曲データXBに対して行っておくことが好ましい。前処理は、あるノートデータのノートオフタイミングと後続するノートデータのノートオンタイミングとの時間差が所定値以下の場合に、先行するノートデータの直後に当該時間差に相当するノートデータを追加する処理である。したがって、前処理で参照楽曲データXBに追加されるノートデータは、上記の区間設定処理においては原音符の部分として取り扱うようにしてもよい。
解析処理部44は、各単位区間(UAやUA’)を適用した機械学習で確率モデルMの状態St毎の決定木T[n]を生成するとともに(SA6)、決定木T[n]の各終端節νcに分類された各単位区間(UAやUA’)内の相対ピッチRに応じた変数情報D[n]を生成する(SA7)。そして、解析処理部44は、ステップSA6で生成した決定木T[n]とステップSA7で生成した変数情報D[n]とを含む単位データz[n]を確率モデルMの状態St毎に包含する歌唱特性データZを不揮発性記憶部14に格納する(SA8)。参照歌唱者(参照歌唱データXA)と参照楽曲データXBとの組合せ毎に以上の動作が反復されることで、相異なる参照歌唱者に対応する複数の歌唱特性データZが不揮発性記憶部14に蓄積される。
以上、ピッチ遷移を示す歌唱特性データの生成を中心に歌唱解析装置100の機能を説明したが、音量遷移を示す歌唱特性データも基本的に同様な方法により生成される。ただし、ピッチ遷移を示す歌唱特性データの生成と異なり、音量遷移を示す歌唱特性データは、参照楽曲データXBの音量特性は使用せず、参照歌唱データXAから検出した音量特性をそのまま歌唱特性データとして使用する。
<歌唱合成装置200>
図1において、本実施形態による歌唱合成装置200は、パーソナルコンピュータ等の情報処理装置に本実施形態による歌唱合成プログラムをインストールしてなるものである。図1に示すように、歌唱合成装置200は、同歌唱合成装置200の制御中枢として機能するCPU201と、不揮発性記憶部202と、揮発性記憶部203と、表示部204と、操作部205と、通信I/F206と、メモリI/F207と、サウンドシステム208とを有する。不揮発性記憶部202は、ROMやHDD(ハードディスク装置)により構成されており、CPU201が実行する各種のプログラムとCPU201が参照する各種のデータベースを記憶している。揮発性記憶部203は、例えばRAMであり、CPU201によってワークエリアとして使用される。表示部204は、CPU201による制御の下、各種の情報を表示する表示手段であり、例えば液晶表示パネルとその駆動回路により構成されている。操作部205は、CPU201に対して操作情報を提供する手段であり、キーボードやマウス等の各種の操作子により構成されている。通信I/F206は、例えばNIC(Network Interface Card)であり、CPU201と他の装置との間のネットワーク経由の通信の仲介を行う。メモリI/F207は、メモリカード等の各種の記憶媒体からのデータ読み出しと各種記憶媒体へのデータ書き込みを行う装置である。サウンドシステム208は、CPU201から供給されるデジタル音響信号をアナログ音響信号に変換するD/A変換器と、このアナログ音響信号を増幅するアンプと、このアンプにより駆動されるスピーカとにより構成されている。
本実施形態において不揮発性記憶部202には歌唱合成プログラム210と音素データベース220と歌唱特性データベース230が記憶されている。ここで、歌唱合成プログラム210と音素データベース220は、例えばメモリI/F207によって記憶媒体から読み出され、あるいは通信I/F206によりネットワーク上のサーバから受信され、不揮発性記憶部202に格納されたものである。また、歌唱特性データベース230は、上述した歌唱解析装置100によって生成された歌唱特性データZを例えば通信I/F206を利用してダウンロードし、あるいは記憶媒体に記憶された同歌唱特性データZをメモリI/F207により読み出し、不揮発性記憶部202に格納してデータベース化したものである。
上記に例示された、歌唱合成プログラム210が読み出される記録媒体、ならびに不揮発性記憶部202および揮発性記憶部203は、例えば非一過性の記録媒体であり、CD−ROM等の光学式記録媒体(光ディスク)、半導体記録媒体、および磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。
音素データベース220は、子音や母音など、歌声の素材となる各種の音素の波形を示す音素波形データの集合体である。これらの音素波形データは、実際の人間が発した音声波形から抽出された音素波形に基づいて作成されたデータである。音素データベース220では、男性歌手、女性歌手、澄んだ声の歌手、あるいはハスキーな声の歌手など、声質の異なった歌手毎に、各歌手の歌唱音声波形から得られた音素波形データのグループが用意されている。歌唱合成プログラム210は、この音素データベース220と歌唱特性データベース230を利用した歌唱合成をCPU201に実行させるためのプログラムである。
図9は、CPU201が歌唱合成プログラム210を実行することにより実現される機能構成を示すブロック図である。図9に示すように、CPU201は、歌唱合成プログラム210を実行することにより、歌唱合成データ編集部211と、シーケンサ部212と、歌唱合成部213として機能する。図9には、歌唱合成データ編集部211により編集される歌唱合成データ310が例示されている。
歌唱合成データ310は、例えばVSQ形式やVSQX形式のデータであり、ノートデータ311と、歌詞データ312と、音響制御データ313とを含む。ノートデータ311は、歌唱のメロディをあらわす時系列の音符を示すデータであり、具体的には各音符の発音期間と発音のピッチを指定する複数のノートデータのシーケンスデータである。歌詞データ312は、音符に合わせて歌唱する歌詞を示すデータであり、具体的には歌詞を構成する複数の音素の音素名を示す複数の歌詞データのシーケンスデータである。歌詞の音素名を示す各歌詞データは、前記ノートデータ311の各ノートデータの少なくともいずれかに関連付けられている。すなわち、各歌詞データは、前記ノートデータ311の音符を示すデータ(すなわち、ノートデータ)ごとの、対応する歌詞、具体的には歌詞の音素名を示すデータを指定するデータである。音響制御データ313は、前記ノートデータ311の音符に合わせて、前記歌詞データ312の歌詞に基づいて行われる歌唱の音量やピッチを制御するためのシーケンスデータである。
歌唱合成データ編集部211は、この歌唱合成データ310の入力操作を受け付けるためのGUIを表示部204に表示させる。この状態において、ユーザは操作部205を操作して歌唱合成データ310の各データを入力する。歌唱合成データ編集部211は、ユーザが操作部205の操作により入力した歌唱合成データ310を揮発性記憶部203内の所定の記憶エリアに格納する。また、操作部205の操作により歌唱合成データ310の保存指示が与えられた場合、歌唱合成データ編集部211は揮発性記憶部203内の歌唱合成データ310を不揮発性記憶部202内に保存する。
歌唱合成データ編集部211は、本実施形態に特有の機能として、仮想ノートデータ追加部211aと、音響制御データ取得部211bとを有する。ここで、仮想ノートデータ追加部211aは、歌唱合成データ310のノートデータ311において、連続した先行ノートデータを有しないノートデータがある場合に、その直前に位置する仮想ノートデータをノートデータ311に追加する手段である。仮想ノートデータの追加は、後述する図11〜図13に例示される。仮想ノートデータの追加は、歌唱合成データ310のノートデータ311におけるすべての該当箇所において実施する方法に限られない。連続した先行ノートデータを有しないノートデータが複数ある場合には、当該複数のノートデータの一部においてのみ実行しても良い。その場合、実行する箇所をユーザが操作部205を介して選択するか、あるいは、仮想ノートデータ追加部211aが選択(すなわち、自動的に選択)する方法が適用され得る。また、実行する箇所ではなく、実行しない箇所をユーザ又は仮想ノートデータ選択部211aが選択するようにしてもよい。仮想ノートデータ追加部211aによる選択は予め定めた条件にしたがってもよいし、ランダムに選択するようにしてもよい。また、音響制御データ取得部211bは、この仮想ノートデータを含むノートデータ311に関連付けられた音響制御データ313を取得する手段である。すなわち、音響制御データ取得部211bは、仮想ノートデータに関連付けられた音響制御データ313を取得する。音響制御データ取得部211bが音響制御データ313を取得する態様には2つの態様がある。第1の態様において、音響制御データ取得部211bは、ユーザが操作部205の操作により入力する音響制御データ313を取得する。第2の態様において音響制御データ取得部211bは、ノートデータ311および歌詞データ312とユーザが歌唱特性データベース230の中から選択した所望の歌手の歌唱特性データZとに基づいて相対ピッチの時間変化および音量の時間変化を求め、この相対ピッチの時間変化を示すピッチ制御データおよび音量の時間変化を示す音量制御データを含む音響制御データ313を取得する。
シーケンサ部212は、操作部205の操作により歌唱合成指示が与えられた場合に、揮発性記憶部203内の歌唱合成データ310の開始点を基準とした相対時刻を進めつつ、相対時刻が発音期間の始期であるノートデータ311と、このノートデータ311に関連付けられた歌詞データ312および音響制御データ313とを揮発性記憶部203から読み出す。そして、シーケンサ部212は、ノートデータ311と、歌詞データ312と、音響制御データ313に含まれる音量制御データおよびピッチ制御データとを歌唱合成部213に供給する。
歌唱合成部213は、シーケンサ部212から供給される歌詞データが示す音素名に対応した音素波形データを音素データベース220から読み出し、この音素波形データに対してピッチ変換を施すことにより、ノートデータ311が示すピッチをピッチ制御データに従って変更したピッチを持った音素波形データを生成し、この生成された音素波形データに対して音量制御データが示す音量制御を施す。そして、歌唱合成部213は、このようにして得られる音素波形データを時間軸上において滑らかに接続することで、歌唱を出力するためのデジタル音響信号(波形形式のデータである歌唱波形データ)を生成し、生成した歌唱波形データをサウンドシステム208に出力する。
以上が歌唱合成プログラム210の実行により実現される機能の構成である。
<本実施形態の動作>
次に本実施形態の動作を説明する。
本実施形態において、歌唱合成装置200のユーザは、歌唱解析装置100により生成された所望の歌手の歌唱特性データZを不揮発性記憶部202の歌唱特性データベース230に蓄積することができる。歌唱合成装置200のユーザは、この歌唱特性データベース230の中の所望の歌手の歌唱特性データを歌唱合成に利用することができる。
歌唱合成装置200のユーザが操作部205に対して所定の操作を行うと、CPU201は、歌唱合成プログラム210を実行する。この歌唱合成プログラム210の歌唱合成データ編集部211では、ユーザが例えば操作部205の操作等により入力するノートデータ311および歌詞データ312を取り込み、揮発性記憶部203内の所定のエリアに格納する。本実施形態における歌唱合成データ編集部211は、このノートデータ311および歌詞データ312に関連付けられた音響制御データ313を編集する機能を有している。
図10はこの歌唱合成データ編集部211における音響制御データ313の編集機能に関連した処理内容を示すフローチャートである。このフローチャートにおいて、SB2は図9の仮想ノートデータ追加部211aに対応した処理であり、SB4およびSB5は図9の音響制御データ取得部211bに対応した処理である。
まず、CPU201は、前処理を実行する(SB1)。図11は、この前処理の内容を示す図である。図11のセクション(a)および(b)において、横軸は時間であり、縦軸はピッチである。前処理では、楽曲を構成する各ノートのノートデータ311について、セクション(a)に示すようにノートデータN1のノートオフタイミングと後続のノートデータN2のノートオンタイミングとの時間差Δtを求める。そして、この時間差Δtが所定値以下である場合、セクション(b)に示すように、先行するノートデータN1のノートオフタイミングを後続のノートデータN2のノートオンタイミングに一致させる補正をノートデータN1に対して施す。所定値とは例えば100tickである。
また、前処理では、音響制御データの編集モードを手動編集モードとするか自動編集モードとするかの選択をユーザに行わせる。また、前処理では、ユーザが自動編集モードを選択した場合に、音響制御データの自動編集を行う時間軸上の区間をユーザに選択させる。ここで、ユーザが区間の選択を行わなかった場合、楽曲の全区間が音響制御データの自動編集の対象となる。なお、図11に示す前処理は割愛してもよい。
次にCPU201は、仮想ノートデータ追加処理を実行する(SB2)。図12および図13は、この仮想ノートデータ追加処理の内容を例示する図である。図12および図13のセクション(a)〜(d)において、横軸は時間であり、縦軸はピッチである。図12のセクション(a)に示す例では、先行するノートデータN1のノートオフタイミングと後続のノートデータN2のノートオンタイミングとの時間差Δtが100tickより大きく120tick以下の範囲内にある。この場合、仮想ノートデータ追加処理では、図12のセクション(b)に示すように、先行するノートデータN1のノートオフタイミングをノートオンタイミングとし、後続のノートデータN2のノートオンタイミングをノートオフタイミングとする仮想ノートデータNVを生成する。図13のセクション(c)に示す例では、先行するノートデータN1のノートオフタイミングと後続のノートデータN2のノートオンタイミングとの時間差Δtが120tick以上である。この場合、仮想ノートデータ追加処理では、セクション(d)に示すように、後続のノートデータN2のノートオンタイミングをノートオフタイミングとし、長さが120tickである仮想ノートデータNVを生成する。ここで、仮想ノートデータNVが示すノートは、後続のノートデータN2が示すノートと同じピッチおよび歌詞を有する。仮想ノートデータ追加処理において生成された仮想ノートデータNVは、フレーズの歌い出し部分等のノートオン前の無音区間について音響制御データを生成するために、ノートデータ311に追加されるものである。すなわち、本実施形態では、ノートデータ311と仮想ノートデータNVとを合わせたものに基づいて音響制御データが生成されるが、仮想ノートデータはこの音響制御データの生成のみに用いられる。仮想ノートデータはユーザに直接提供されることはなく、シーケンサ部212によって読み出されることもない。つまり、上述したように、歌唱合成部213はノートデータ311が示すピッチをピッチ制御データに従って変更することで音素波形データを生成するが、このノートデータ311に仮想ノートデータは含まれない。
なお、上述したように、前処理におけるノートデータN1の補正(図11のセクション(a)から(b)への補正)において、当該補正の実行条件となる時間差Δtは100tick以下である。また、仮想ノートデータ追加処理において、図12のセクション(b)に示す仮想ノートデータNVを追加するにあたっての実行条件となる時間差Δtは100tickより大きく120tick以下であり、図13のセクション(d)に示す仮想ノートデータを追加するにあたっての実行条件となる時間差Δtは120tickを超えるか否かである。しかしながら、これらの時間差Δtは以上の例に限られず、任意の他の値が適宜採用可能である。
また、図12のセクション(b)および図13のセクション(d)から理解できるように、仮想ノートデータNVを追加する場合、追加する仮想ノートデータNVの先頭位置(発音開始タイミング、すなわち、発音期間の始点)が必ず、先行するノートデータN1の終了位置(発音期間の終点)よりも後ろ(時間的に後)になるようにする。なお、この条件を満たしていれば、追加する仮想ノートデータNVの時間長は120tickに限られず、任意に設定可能である。
次にCPU201は、ユーザにより選択された音響制御データの編集モードが手動編集モードであるか自動編集モードであるかを判断する(SB3)。
手動編集モードがユーザによって選択されている場合、CPU201は、ノートデータ311と歌詞データ312を表示部204に表示させ、ユーザが操作部205の操作により入力する音量制御データやピッチ制御データ等の音響制御データを取得する(SB4)。この場合、ユーザは仮想ノートデータの区間についても音響制御データを入力することが可能である。ただし、シーケンサ部212に供給されるノートデータ311に、仮想ノートデータは含まれない。
一方、自動編集モードがユーザによって選択されている場合、CPU201は、ノートデータ311および歌詞データ312と、ユーザが選択した所望の歌手の歌唱特性データZとに基づいて、音響制御データを生成する(SB5)。
具体的には、CPU201は、仮想ノートデータの追加されたノートデータ311を参照し、歌唱合成の対象となる楽曲のメロディーラインを時間軸上で前述の単位区間UAやUA’と同様の単位音価(例えば16分音符)毎に複数の単位区間に区分する。歌唱合成の対象となる合成楽曲とは、歌唱合成データ310のノートデータ311(仮想ノートデータの追加されたノートデータ311)であり、CPU201は、当該ノートデータ311に含まれる複数の音符(もともとノートデータ311に含まれていた音符のノートデータ及び追加された仮想ノートデータ)のそれぞれを区分する。この区分方法は、前述した単位区間UA及びUA’の区分方法と同様である。そして、CPU201は、歌唱特性データZのうち確率モデルMの第n番目の状態Stに対応する単位データz[n]の決定木T[n]に各単位区間を適用することで、決定木T[n]のK個の終端節νcのうち当該単位区間が所属する1個の終端節νcを特定し、変数情報D[n]のうち当該終端節νcに対応する変数群Ω[k]の各変数ω(ω0,ω1,ω2,ωd)を利用して相対ピッチRの時系列を特定する。以上の処理を確率モデルMの状態St毎に順次に実行することで、単位区間内の相対ピッチRの時系列が特定される。具体的には、各状態Stの継続長が変数群Ω[k]の変数ωdに応じて設定され、変数ω0で規定される相対ピッチRの出現確率と、変数ω1で規定される相対ピッチRの時間変化ΔRの出現確率と、変数ω2で規定される相対ピッチRの2階微分値ΔRの出現確率との同時確率が最大となるように各相対ピッチRが算定される。複数の単位区間にわたり相対ピッチRの時系列を時間軸上で連結することで合成楽曲の全域にわたる相対ピッチ遷移CRが生成される。そして、CPU201はこのようにして生成された相対ピッチ遷移CRを示すピッチ制御データを音響制御データ313とする。
以上、ピッチ制御データの編集を例に説明したが、音量制御データについても同様であり、CPU1は、仮想ノートデータの追加されたノートデータ311と、歌詞データ312と、歌唱特性データZとに基づいて、歌唱時の音量遷移を示す音量制御データを生成する。
ユーザが操作部205の操作により歌唱合成指示を入力すると、シーケンサ部212は、上述したように、ノートデータ311と、このノートデータ311に関連付けられた歌詞データ312と、音響制御データ313とを揮発性記憶部203から読み出して歌唱合成部213に供給する。ここで、音響制御データ313には、仮想ノートデータの区間の音量やピッチを制御する音響制御データも含まれている。
そして、歌唱合成部213は、シーケンサ部212から供給される歌詞データが示す音素名に対応した音素波形データを音素データベース220から読み出し、この音素波形データに対してピッチ変換を施すことにより、ノートデータが示すピッチをピッチ制御データに従って変更したピッチを持った音素波形データを生成し、この音素波形データに対して音量制御データが示す音量制御を施す。
この場合、ピッチ制御データや音量制御データには、仮想ノートの区間に対応したピッチ制御データや音量制御データも含まれる。
従って、本実施形態によれば、フレーズの歌い出し部分のように、連続した先行ノートがない区間の直前の区間に所望の歌手の歌唱特性に応じたピッチの変化や音量の変化を与え、歌唱の表現力を高めることができる。
また、本実施形態において、歌唱解析装置100(図1参照)の変数抽出部22および特性解析部24は、参照歌唱データXAと仮想ノートデータ追加後の参照楽曲データXBとに基づいて歌唱特性データZを生成する。従って、歌唱合成プログラム210によって実現される仮想ノートデータ追加部211aがノートデータ311に仮想ノートデータを追加した場合に、音響制御データ取得部211bが仮想ノートに対して最適な音響制御データを歌唱特性データベース230に基づいて取得することができる可能性を高めることができる。
<他の実施形態>
以上、この発明の一実施形態について説明したが、この発明には他にも実施形態が有り得る。例えば次の通りである。
(1)音量遷移についての歌唱特性データを次のようにして生成してもよい。まず、上記実施形態と同様、楽曲を単位区間に分割する。そして、各単位区間について上記実施形態と同様な情報を付与した上で、参照楽曲データXBと参照歌唱データXAの音量変化の時系列データとの対応付けを行う確率モデルの学習を行い、この確率モデルを規定する歌唱特性データを生成する。
(2)上記実施形態の歌唱合成システムをサーバ−クライアントシステムとして実現してもよい。例えば上記実施形態における歌唱解析装置100の機能と歌唱合成装置200の仮想ノートデータ追加部211aおよび音響制御データ取得部211bの機能をサーバに持たせ、歌唱合成装置200の仮想ノートデータ追加部211aおよび音響制御データ取得部211b以外の機能をクライアント端末に設ける。そして、クライアント端末は、サーバを利用してフレーズの歌い出し部分等の表現力を高めるための音響制御データを取得し、歌唱合成を行うのである。
また、歌唱解析装置100のCPU12の機能の一部を専用の電子回路が分担する構成も採用され得る。同様に、歌唱合成装置200のCPU201の機能の一部を専用の電子回路が分担する構成も採用され得る。
100……歌唱解析装置、200……歌唱合成装置、12,201……CPU、14,202……不揮発性記憶部、12,203……揮発性記憶部、15,206……通信I/F、204……表示部、205……操作部、207……メモリI/F、208……サウンドシステム、GA……歌唱解析プログラム、22……変数抽出部、24……特性解析部、XA……参照歌唱データ、XB……参照楽曲データ、Z……歌唱特性データ、210……歌唱合成プログラム、220……音素データベース、230……歌唱特性データベース、211……歌唱合成データ編集部、211a,26……仮想ノートデータ追加部、211b……音響制御データ取得部、212……シーケンサ部、213……歌唱合成部、310……歌唱合成データ、311……ノートデータ、312……歌詞データ、313……音響制御データ。

Claims (7)

  1. 歌唱のメロディを表す時系列の音符の各々の発音期間および発音のピッチを各々が指示する複数のノートデータと、前記複数のノートデータの少なくともいずれかに各々が関連付けられた複数の歌詞データと、前記複数の歌詞データから合成される歌唱音声に対する音響制御を指示する音響制御データとを含む歌唱合成データに対して、連続した先行ノートデータを有しないノートデータの直前に位置する仮想ノートデータを追加するステップと、
    前記複数の歌詞データから合成される歌唱音声に対する音響制御を指示する音響制御データであって、前記仮想ノートデータに関連付けられた音響制御データを取得するステップと
    を含む歌唱合成データ編集方法。
  2. 前記仮想ノートデータを追加するステップでは、連続した先行ノートデータを有しない前記ノートデータのノートオンタイミングと、当該ノートデータの先行ノートデータのノートオフタイミングとの時間差が所定値以下の場合、当該時間差に相当する時間長のノートデータを、前記仮想ノートデータとして追加する
    請求項1に記載の歌唱合成データ編集方法。
  3. 前記仮想ノートデータを追加するステップでは、連続した先行ノートデータを有しない前記ノートデータのノートオンタイミングと、当該ノートデータの先行ノートデータのノートオフタイミングとの時間差が所定値を超える場合、当該所定値に相当する時間長のノートデータを、前記仮想ノートデータとして追加する
    請求項2に記載の歌唱合成データ編集方法。
  4. 前記仮想ノートデータを追加するステップでは、連続した先行ノートデータを有しない前記ノートデータのノートオンタイミングと、当該ノートデータの先行ノートデータのノートオフタイミングとの時間差が所定値以下の場合、当該時間差に相当する時間長のノートデータを、前記仮想ノートデータとして追加する一方、前記時間差が前記所定値を超える場合、当該所定値に相当する時間長のノートデータを、前記仮想ノートデータとして追加する
    請求項2に記載の歌唱合成データ編集方法。
  5. 前記仮想ノートデータを追加するステップでは、前記仮想ノートデータを前記歌唱合成データに追加する前に、連続した先行ノートデータを有しない前記ノートデータのノートオンタイミングと、当該ノートデータの先行ノートデータのノートオフタイミングとの時間差が前記所定値よりも短い所定値以下の場合、前記先行ノートデータの直後に位置するノートデータであって、前記時間差に相当する時間長のノートデータを、前記歌唱合成データに追加する
    請求項4に記載の歌唱合成データ編集方法。
  6. 歌唱のメロディを表す時系列の音符の各々の発音期間および発音のピッチを各々が指示する複数のノートデータと、前記複数のノートデータの少なくともいずれかに各々が関連付けられた複数の歌詞データとを含む楽曲データと、前記時系列の音符によりメロディが表される楽曲を歌唱した歌唱音声波形を示す歌唱データとに基づいて、前記楽曲データから前記歌唱データを生じさせる確率モデルを規定する歌唱特性データを生成するステップと、
    前記歌唱特性データの生成対象となる楽曲データに対し、前記複数のノートデータのうち連続した先行ノートデータを有しないノートデータの直前に位置する仮想ノートデータを追加するステップと
    を含む歌唱解析方法。
  7. 歌唱のメロディを表す時系列の音符の各々の発音期間および発音のピッチを各々が指示する複数のノートデータと、前記複数のノートデータの少なくともいずれかに各々が関連付けられた複数の歌詞データと、前記複数の歌詞データから合成される歌唱音声に対する音響制御を指示する音響制御データとを含む歌唱合成データに対して、前記複数のノートデータのうち連続した先行ノートデータを有しないノートデータの直前に位置する仮想ノートデータを追加する仮想ノートデータ追加手段と、
    前記複数の歌詞データから合成される歌唱音声に対する音響制御を指示する音響制御データであって、前記仮想ノートデータに関連付けられた音響制御データを取得する音響制御データ取得手段と
    を具備することを特徴とする歌唱合成データ編集装置。
JP2016102192A 2015-07-24 2016-05-23 歌唱合成データ編集の方法および装置、ならびに歌唱解析方法 Active JP6756151B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US15/215,882 US9818396B2 (en) 2015-07-24 2016-07-21 Method and device for editing singing voice synthesis data, and method for analyzing singing

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015146889 2015-07-24
JP2015146889 2015-07-24

Publications (2)

Publication Number Publication Date
JP2017027021A JP2017027021A (ja) 2017-02-02
JP6756151B2 true JP6756151B2 (ja) 2020-09-16

Family

ID=57949684

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016102192A Active JP6756151B2 (ja) 2015-07-24 2016-05-23 歌唱合成データ編集の方法および装置、ならびに歌唱解析方法

Country Status (1)

Country Link
JP (1) JP6756151B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6610714B1 (ja) 2018-06-21 2019-11-27 カシオ計算機株式会社 電子楽器、電子楽器の制御方法、及びプログラム
JP6610715B1 (ja) 2018-06-21 2019-11-27 カシオ計算機株式会社 電子楽器、電子楽器の制御方法、及びプログラム
JP7059972B2 (ja) 2019-03-14 2022-04-26 カシオ計算機株式会社 電子楽器、鍵盤楽器、方法、プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008018056A2 (en) * 2006-08-07 2008-02-14 Silpor Music Ltd. Automatic analasis and performance of music
US8244546B2 (en) * 2008-05-28 2012-08-14 National Institute Of Advanced Industrial Science And Technology Singing synthesis parameter data estimation system
JP6171711B2 (ja) * 2013-08-09 2017-08-02 ヤマハ株式会社 音声解析装置および音声解析方法

Also Published As

Publication number Publication date
JP2017027021A (ja) 2017-02-02

Similar Documents

Publication Publication Date Title
US9818396B2 (en) Method and device for editing singing voice synthesis data, and method for analyzing singing
JP6171711B2 (ja) 音声解析装置および音声解析方法
JP3985814B2 (ja) 歌唱合成装置
JP3823930B2 (ja) 歌唱合成装置、歌唱合成プログラム
JP6083764B2 (ja) 歌声合成システム及び歌声合成方法
JP5024711B2 (ja) 歌声合成パラメータデータ推定システム
JP4839891B2 (ja) 歌唱合成装置および歌唱合成プログラム
JP6004358B1 (ja) 音声合成装置および音声合成方法
JP2017107228A (ja) 歌声合成装置および歌声合成方法
WO2018084305A1 (ja) 音声合成方法
JP4265501B2 (ja) 音声合成装置およびプログラム
JP6756151B2 (ja) 歌唱合成データ編集の方法および装置、ならびに歌唱解析方法
JP6390690B2 (ja) 音声合成方法および音声合成装置
JP2009217141A (ja) 音声合成装置
JP4844623B2 (ja) 合唱合成装置、合唱合成方法およびプログラム
JP2017097332A (ja) 音声合成装置および音声合成方法
JP4304934B2 (ja) 合唱合成装置、合唱合成方法およびプログラム
JP5699496B2 (ja) 音合成用確率モデル生成装置、特徴量軌跡生成装置およびプログラム
JP6191094B2 (ja) 音声素片切出装置
JP4432834B2 (ja) 歌唱合成装置および歌唱合成プログラム
JP5552797B2 (ja) 音声合成装置および音声合成方法
JP6331470B2 (ja) ブレス音設定装置およびブレス音設定方法
del Blanco et al. Bertsokantari: a TTS Based Singing Synthesis System.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190322

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200128

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20200304

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20200304

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200728

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200810

R151 Written notification of patent or utility model registration

Ref document number: 6756151

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151