JP2004061753A - Method and device for synthesizing singing voice - Google Patents
Method and device for synthesizing singing voice Download PDFInfo
- Publication number
- JP2004061753A JP2004061753A JP2002218583A JP2002218583A JP2004061753A JP 2004061753 A JP2004061753 A JP 2004061753A JP 2002218583 A JP2002218583 A JP 2002218583A JP 2002218583 A JP2002218583 A JP 2002218583A JP 2004061753 A JP2004061753 A JP 2004061753A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- singing
- breath
- phoneme
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
【0001】
【発明の属する技術分野】
この発明は、歌唱音および吸気音の混ざった歌唱音声を合成する方法および装置に関する。
【0002】
【従来の技術】
人工的に音声を作り出す音声合成技術が種々提案されている。このような音声合成技術を利用するものとして、歌詞を複数の音節に分解し、各音節に対応した音素を順次合成する歌唱音声合成装置がある。
【0003】
【発明が解決しようとする課題】
しかしながら、従来の歌唱音声合成装置においては、歌唱音声の合成に際して歌詞を分解した各音節に対応する音素のみが合成されており、歌詞と歌詞との間で息継ぎをする際に発せられる吸気音(ブレス音)については考慮されていない。このため、発声区間と非発声区間との差が顕著になりすぎてしまい、これらの区間の切り替わりが唐突な印象を与えてしまうことから、非人間的、かつ不自然であるという評価にもつながっていた。
【0004】
この発明は、上述した事情に鑑みてなされたものであり、より自然な歌唱音声を合成できる歌唱音声合成方法および歌唱音声合成装置を提供することを目的とする。
【0005】
【課題を解決するための手段】
この発明は、時系列的な歌唱音の合成指示に従い、歌唱音を順次合成する歌唱音合成過程と、時間的に前後した2つの歌唱音の合成指示の間に吸気音の合成指示が与えられた場合に、少なくとも当該吸気音の直後の歌唱音の音素が関与した選択方法に従って、吸気音を決定付けるパラメータを選択し、該パラメータを用いて吸気音を合成する吸気音合成過程とを具備することを特徴とする歌唱音声合成方法を提供する。
【0006】
好ましい態様において、前記吸気音合成過程では、当該吸気音の直後の歌唱音の音素と当該吸気音の直前の歌唱音の音素の両方が関与した選択方法に従って、前記吸気音を決定付けるパラメータを選択する。
【0007】
また、好ましい態様において、前記吸気音合成過程では、当該吸気音の直後の歌唱音の音素と当該吸気音の直前の歌唱音の音素の組み合わせに基づいて、記憶手段に予め記憶された複数種類の吸気音の波形データの中から1種類の吸気音の波形データを選択し、前記吸気音を決定付けるパラメータとして用いる。
また、好ましい態様において、前記吸気音合成過程では、当該吸気音の直後の歌唱音の音素に応じて、当該吸気音の振幅を制御する。
【0008】
この発明は、以上掲げたような歌唱音声合成方法として実施される他、これらの方法に従って、歌唱音と吸気音を含んだ歌唱音声を合成する歌唱音声合成装置を生産しあるいは譲渡するといった態様でも実施される。
【0009】
【発明の実施の形態】
以下、図面を参照して本発明の実施形態について説明する。
図1はこの発明の一実施形態に係る歌唱音声合成装置の構成を示すブロック図である。図1に示すように、この歌唱音声合成装置は、歌唱情報解析部10と、歌唱音合成部20と、歌唱音素片記憶部30と、ブレス音合成部40と、ブレス音素片記憶部50と、加算器60とを有する。
【0010】
歌唱情報解析部10は、時系列の歌唱情報を解析する装置である。好ましい態様において、この歌唱情報は通信手段を介して歌唱情報解析部10に入力される。また、別の好ましい態様においては、ハードディスクなどの記憶手段から歌唱情報が読み出され、歌唱情報解析部10に入力される。
【0011】
図2には、ある曲の歌唱情報が例示されている。図2に示すように、歌唱情報は、曲を表す一連の音符#1、#2、…の各々に対応した情報セグメントにより構成されている。そして、1つの音符に対応した情報セグメントは、その音符の音高を示す音高情報、その音符の符長を示す符長情報およびその音符に合わせて発音すべき1または複数の音節を表す歌詞情報を含み、さらに、その音符に適用されるべきテンポ情報、ダイナミックス情報およびビブラート情報を含んでいる。図2に示す例において、音符#4は、符長1/4、つまり、4分音符の符長を有する休符である。この休符のタイミングにおいて、発音すべき音節はなく、歌唱者は息継ぎを行う。このため、音符#4に対応した歌詞情報として、ブレス音の合成を指示するブレスマーク$が用いられている。これらの歌唱情報は、合成する歌唱音声の歌唱者の情報である歌唱者情報に対応していてもよい。
【0012】
図3に示すように、歌唱情報解析部10は、歌詞フィルタ11と、言語処理部12と、シーケンサ13とを有している。
【0013】
歌詞フィルタ11は、歌詞情報中にブレスマーク$がある場合に、そのブレスマーク$に応じて発音すべきブレス音を特定するブレス制御情報を生成し、歌詞情報を言語処理部12へ、ブレス制御情報をシーケンサ13へ出力する。ここで、歌詞が日本語である場合を例にブレス制御情報の生成方法を説明すると、次の通りである。例えば図2に示す歌詞情報は、音符#4に対応したブレスマーク$の前後に、音節情報「た」と音節情報「さ」を有している。ここで、ブレスマーク$の直前の音節“た”は2個の音素/t/および/a/に分解することができ、ブレスマーク$の直後の音節“さ”は2個の音素/s/および/a/に分解することができる。そこで、歌詞フィルタ11は、ブレスマーク$の前の音節“た”の最後の音素/a/を表す先行音素記号と、ブレスマーク$の後の音節“さ”の最初の音素/s/を表す後続音素記号を生成し、それらの組をブレス制御情報として出力するのである。
【0014】
言語処理部12は、歌詞フィルタ11から与えられる歌詞情報中の音節情報を音素記号に分解して出力する。
【0015】
シーケンサ13は、曲の進行に合わせて、歌唱情報中の各情報、歌詞フィルタ11によって生成されるブレス制御情報および言語処理部12によって生成される音素記号を歌唱音合成部20またはブレス音合成部40に供給するためのタイミング制御を行う装置である。
【0016】
図1において、歌唱音素片記憶部30は、歌唱音素片データベースを記憶している。この歌唱音素片データベースは、人によって発声される各種の音声波形を収集し、これらの音声波形を音素の波形に分割し、各音素波形を符号化することにより得られたデータの集合体である。各音素の波形データは、その音素の音素記号をキーとして歌唱音素片データベースから読み出すことができる。音声波形の波形データは、例えばLPC(Linear Predictive Coding:線形予測分析)合成技術、波形重畳合成技術、フォルマント合成技術等が利用して得られたものでもよい。
【0017】
歌唱音合成部20は、上述した歌詞情報中の音節情報に対応した歌唱音を合成する装置である。ある音符に対応した音節の歌唱音を合成すべきとき、シーケンサ13は、この歌唱音合成部20に対し、その音符に対応した音高情報と、符長情報と、テンポ情報と、ダイナミックス情報と、ビブラート情報を供給する。また、シーケンサ13は、その音符に対応した音節情報から得られた音素記号を言語処理部12から受け取り、歌唱音合成部20に供給する。さらに、シーケンサ13は、その音符に対応した符長情報を符長情報として歌唱音合成部20に供給する。これに応じて、歌唱音合成部20は、ピッチエンベロープと振幅エンベロープをを生成する。そして、歌唱音合成部20は、シーケンサ13から受け取った音素記号により指示された音素の波形データを、時々刻々と変化するピッチエンベロープの瞬時値に応じた読み出し速度で、歌唱音素片記憶部30から読み出し、振幅エンベロープにより振幅変調し、歌唱音波形として出力する。ピッチエンベロープおよび振幅エンベロープは、シーケンサ13から与えられたテンポ情報と符長情報によって定まる時間だけ持続する。また、ピッチエンベロープの波形は、音高情報およびビブラート情報により決定され、振幅エンベロープの波形は、ダイナミックス情報により決定される。
【0018】
ブレス音素片記憶部50には、予め人が発したブレス音の波形を表すデータの集合体であるブレス音データベースが記憶されている。ブレス音の波形データは、音素波形の波形データと同様に種々の合成技術等を利用して得られたものであってもよい。ブレス音合成部40には、歌詞情報中のブレスマーク$のタイミングにおいて、ブレス音データベースを参照してブレス音を合成する装置である。
【0019】
図4はブレス音素片記憶部50およびブレス音合成部40の構成を示すブロック図である。本実施形態では、複数の歌唱者の各々についてブレス音データベースがブレス音素片記憶部50に記憶されている。各ブレス音データベースは、複数種類のブレス音の波形データの集合体である。人から発声されるブレス音の波形は、そのブレス音の直後の音素の影響を強く受ける。また、ブレス音の波形には、その直前に発声された音素の影響も現れる。そこで、本実施形態では、あるブレスマーク$の発生に応じてブレス音を合成する場合に、そのブレスマーク$の直前の先行音素記号と直後の後続音素記号の組み合わせに応じてブレス音の音素波形を決定し、その音素波形を用いてブレス音を合成する。このようなブレス音の合成を可能にするため、本実施形態におけるブレス音データベースは、先行音素記号と後続音素記号の可能な組み合わせのすべてについて、ブレス音の音素波形の波形データを含んでいる。
【0020】
ブレス音素片選択部41には、歌唱者情報が与えられる。好ましい態様において、この歌唱者情報は、図示しない操作部から入力される。ブレス音素片選択部41は、ブレス音素片記憶部50に記憶された複数の歌唱者のブレス音データベースの中から歌唱者情報によって指定されたものを選択する。また、ブレスマーク$に対応したタイミングにおいて、シーケンサ13は、ブレス制御情報を出力する。ブレス音素片選択部41は、このブレス制御情報中の先行音素記号および後続音素記号の組み合わせに対応したブレス音の音素の波形データを、選択したブレス音データベースの中から読み出し、ブレス音振幅制御部42に出力する。
【0021】
ブレス音振幅制御部42は、ブレス制御情報中の後続音素記号に基づいて、ブレス音素片選択部41から出力されたブレス音の波形データの振幅を制御する。さらに詳述すると、ブレス音振幅制御部42は、後続音素記号が特定の音素、具体的には母音を表している場合に、ブレス音波形がその終期付近において急激に立ち上がり、その後に急激に減衰するように、波形データに振幅変調処理を施す。
【0022】
ブレス区間長計算部43には、シーケンサ13から符長情報とテンポ情報が与えられる。ブレス区間長計算部43は、符長情報とテンポ情報に基づいて休符の実時間長tを求め、これを所定の内分比によりブレス音長t’と無音区間長tsとに分ける。ここで、t、t’、tsの間には、
t=t’+ts
の関係がある。
【0023】
ブレス音音長制御部44には、ブレス音長t’がブレス区間長計算部43から通知される。ブレス音音長制御部44は、ブレス音振幅制御部42によって振幅が制御されたブレス音の波形データを受け取ると、ブレス音波形の持続時間がこのブレス音長t’に相当する期間となるように、波形データの調整を行う。好ましい態様において、この調整は、ブレス音波形の前縁部分と後縁部分(すなわち、上記振幅変調処理の対象となる部分)との間の中間部分の波形データを一旦出力した後、再度、この中間部分を1または複数回出力してブレス音波形の持続時間を長くしたり、あるいはその中間部分を間引くことにより持続時間を短くするという方法により行われる。
【0024】
無音区間付加部45は、ブレス音音長制御部44から出力されたブレス音長t’のブレス音の波形データをそのまま出力するとともに、これに続けて、無音区間tsに相当する期間、無音状態を表す波形データを出力する。
【0025】
図1における加算器60は、このようにして無音区間付加部45から出力されるブレス音の波形データと、歌唱音合成部20から出力される歌唱音の波形データとを加算し、歌唱合成音の波形データとして出力する。この波形データは、図示しないD/A変換器、アンプおよびスピーカを介することにより歌唱音声として出力される。
【0026】
以下、図5に示すタイムチャートを参照し、本実施形態の動作を説明する。図示のような歌詞情報、音高情報、符長情報およびその他の情報が与えられた場合、歌詞フィルタ11は、歌詞情報を先頭から順に読み、ブレスマーク$を発見した場合、ブレスマーク$の直前直後の各音素を表す先行音素記号と後続音素記号とを求め、これらの情報によりブレス制御情報を構成する。また、言語処理部12は、歌詞情報中の音節情報を音素記号に分解する。なお、歌詞フィルタ11および言語処理部12は、1曲分の歌詞情報を取得したときに、それらの全てを対象として以上の処理を一括して行い、音素記号列とブレス制御情報を生成してもよい。あるいは歌詞フィルタ11および言語処理部12は、シーケンサ13によって行われる歌唱音またはブレス音の合成のためのタイミング制御に対し、例えば音符1個分だけ進んだ位相で以上の処理を逐次実行してもよい。要するに、音素記号およびブレス制御情報の生成は、シーケンサ13がそれらの情報を必要とするときまでに行われればよい。
【0027】
歌唱音声の合成を開始するとき、シーケンサ13は、最初の音符に対応した音高情報、符長情報、テンポ情報、ダイナミックス情報、ビブラート情報を歌唱データから取り込むとともに、最初の音符に対応した音節の音素記号を言語処理部12から取り込む。
【0028】
図5に示す例では、音高が“ド”であり、符長が4分の1拍である最初の音符の音高情報および符長情報とこれに適用されるテンポ、ダイナミックス、ビブラートの各情報がシーケンサ13に取り込まれる。また、最初の音符に合わせて発声する音節“さ”を分解した音素の音素記号/s/および/a/が言語処理部12から出力され、シーケンサ13に取り込まれる。なお、この最初の音符に対応した情報の送信時、シーケンサ13に送るべきブレス制御情報はない。
【0029】
このようにして最初の音符に対応した各情報を取得すると、シーケンサ13は、音素記号/s/および/a/を歌唱音合成部20に送る。同時にシーケンサ13は、その音符の音高情報“ド”、符長情報「1/4」、テンポ情報、ダイナミックス情報、ビブラート情報を歌唱音合成部20に送る。
【0030】
この結果、音素記号/s/および/a/に対応した音素の波形データが歌唱音素片記憶部30から読み出され、音高が“ド”である音節“さ”の歌唱音の波形データが歌唱音合成部20から出力され、加算器60を介することにより歌唱音として出力される。
【0031】
以上の動作が行われている間、シーケンサ13は、最初の音符に対応したテンポ情報と符長情報「1/4」により決定される時間の計時を行う。そして、計時が終了したときに、後続の音符に対応した各情報を取り込むのである。
【0032】
図5に示す例では、2番目の音符と3番目の音符についても以上の同様な動作が行われる。そして、3番目の音符の符長に対応した計時が終了すると、シーケンサ13は、3番目の音符の次の休符に対応した符長情報と、テンポ情報と、ダイナミックス情報とを歌唱データから取り込むとともに、ブレスマーク$に応じて生成したブレス制御情報を歌詞フィルタ11から取り込む。そして、シーケンサ13は、取り込んだ各情報をブレス音合成部40に送り、4分の1拍相当の時間の計時を開始する。
【0033】
ブレス音合成部40は、ブレス制御情報により特定されるブレス音を合成する。この例の場合、ブレス制御情報は、先行音素記号/a/および後続音素記号/s/を含んでいる。これらのうち先行音素記号/a/は、図5において休符の直前に発声する音節“た”の最後の音素を表しており、後続音素記号/s/は休符の直後に発声する音節“さ”の最初の音素を表している。ブレス音合成部40のブレス音素片選択部41は、これらの先行音素記号/a/および後続音素記号/s/の組み合わせに対応したブレス音の音素の波形データを、歌唱者情報により選択されたブレス音データベースの中から読み出し、ブレス音振幅制御部42に出力する。
【0034】
ブレス音振幅制御部42は、ブレス制御情報中の後続音素記号に基づいて、ブレス音素片選択部41から出力されたブレス音の波形データの振幅変調を行う。そして、ブレス区間長計算部43には、シーケンサ13からの符長情報とテンポ情報に基づいて休符の実時間長tを求め、これからブレス音長t’と無音区間長tsとを求める。例えば、テンポ情報が1分間に4分音符110個分の歌唱が行われるような速度を示しており、ブレス符長情報が1/4拍、つまり4分休符である場合には、休符の実時間長tは、“60/110秒=545ms”となる。ブレス区間長計算部43は、この実時間長tを所定の比で内分し、ブレス音長t’と無音区間長tsを求める。好ましい態様において、この比は例えば9:1である。この場合、ブレス音長t’は490ms、無音区間長tsは55msとなる。
【0035】
ブレス音音長制御部44および無音区間付加部45は、ブレス区間長計算部43の計算結果に従い、ブレス音振幅制御部42から受け取ったブレス音の波形データを用いて、ブレス音長t’相当の時間継続し、後は無音状態となるブレス音の波形データを生成する。
【0036】
このようにして得られたブレス音の波形データがブレス音合成部40から出力され、加算器60を介することによりブレス音として出力される。
【0037】
このブレス音の合成の後は、図5において休符の後の音節“さ”“い”等の歌唱音の合成が行われるが、それらの動作は既に説明したものと同様なので説明を省略する。
【0038】
図6は本実施形態の効果を説明するものである。図6(a)に示されるブレス音波形K1は、ブレス音の直前および直後に発音される音素の音素記号がともに/a/である。一方、図6(b)に示されるブレス音波形K2は、ブレス音の直前に発音される音素の音素記号が/e/であり、ブレス音の直後に発音される音素の音素記号が/t/である。ブレス音波形K1の始期部分F1およびブレス音波形K2の始期部分F2は、先行音素の影響を受け、特に先行音素の音色による影響が反映される。ブレス音波形K1の終期部分B1およびブレス音波形K2の終期部分B2は、後続音素の影響を受け、後続音素が有声音であるか無声子音であるかにより受ける影響が異なる。例えば、後続音素が有声音、特に母音・鼻音である場合には、図6(a)に示されるように、ブレス音波形K1の終期部分B1の振幅が急激に増大して減衰するという特徴が見受けられる。また、例えば、後続音素が無声子音である場合には、図6(b)に示されるように、ブレス音波形K2の終期部分B2の振幅がゆるやかに減衰する。
【0039】
本実施形態によれば、ブレス音の直前の先行音素と直後の後続音素との組み合わせによりブレス音の波形を選択するので、以上のような現象を再現し、自然なブレス音を合成することができる。
【0040】
本実施形態には、次のような変形例が考えられる。
<変形例1>
上記実施形態では、ブレス音の直後の音節に関しては、最初の音素のみを考慮してブレス音の波形の制御を行った。これに対し、本変形例では、ブレス音の直後の連続した2個の音素の組み合わせが特定の組み合わせである場合、ブレス音波形の後縁の部分を急激に立ち上げ急激に減衰させる振幅変調を行う。特定の組み合わせとは、例えば図6(a)に示されるような、母音/a/の後に鼻音/n/が続くような組み合わせである。本変形例によれば、より自然なブレス音を合成することができる。
【0041】
<変形例2>
本変形例では、ブレス音の直後に発音される音素の音素記号のみに基づいて、ブレス音波形を選択する。本変形例によれば、ブレス音データベースのデータ量を削減することが可能になる。
【0042】
<変形例3>
本変形例における歌唱音声合成装置は、ブレス音採否制御部を有している。これは、歌唱音声を合成するに当たって、歌唱音声にブレス音を含めるか否かの切り換え制御を行う装置である。好ましい態様においては、歌唱情報にこの切り換え制御のための制御情報が含まれている。この態様において、ブレス音採否制御部は、この歌唱情報に含まれる制御情報に基づいて歌唱音声にブレス音を含めるか否かの切り換えを行う。また、別の好ましい態様において、ブレス音採否制御部は、図示しない操作部から与えられる指令に従い、歌唱音声にブレス音を含めるか否かの切り換えを行う。
【0043】
【発明の効果】
以上説明したように本発明によれば、歌唱音に続けてブレス音を合成する場合に、少なくともそのブレス音の直後の歌唱音の音素に基づいてブレス音波形を決定付けるパラメータを選択するので、より自然な歌唱音声を合成することができる。
【図面の簡単な説明】
【図1】この発明の一実施形態に係る歌唱音声合成装置の構成を示すブロック図である。
【図2】同実施形態において取り扱う歌唱情報を示す図である。
【図3】同実施形態における歌唱情報解析部の構成を示すブロック図である。
【図4】同実施形態におけるブレス音記憶部およびブレス音合成部の構成を示すブロック図である。
【図5】同実施形態の動作を示すフローチャートである。
【図6】同実施形態の効果を説明する図である。
【符号の説明】
10……歌唱情報解析部、20……歌唱音合成部、30……歌唱音素片記憶部、40……ブレス音合成部、50……ブレス音素片記憶部、60……加算器。[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a method and an apparatus for synthesizing a singing voice in which a singing sound and an intake sound are mixed.
[0002]
[Prior art]
Various voice synthesis techniques for artificially generating voice have been proposed. There is a singing voice synthesizer that utilizes such a voice synthesis technology to decompose lyrics into a plurality of syllables and sequentially synthesize phonemes corresponding to each syllable.
[0003]
[Problems to be solved by the invention]
However, in the conventional singing voice synthesizer, only the phonemes corresponding to the respective syllables obtained by decomposing the lyrics are synthesized at the time of synthesizing the singing voice, and the intake sound ( Breath sound) is not considered. For this reason, the difference between the vocal section and the non-vocal section becomes too noticeable, and the switching of these sections gives an abrupt impression, which leads to the evaluation of being unhuman and unnatural. I was
[0004]
The present invention has been made in view of the above-described circumstances, and has as its object to provide a singing voice synthesizing method and a singing voice synthesizing apparatus capable of synthesizing a more natural singing voice.
[0005]
[Means for Solving the Problems]
According to the present invention, a singing sound synthesizing process for sequentially synthesizing singing sounds in accordance with a chronological singing sound synthesizing instruction and an intake sound synthesizing instruction are provided between two singing sounds synthesizing instructions that are temporally delayed. In this case, at least according to a selection method involving a phoneme of a singing sound immediately after the intake sound, a parameter for determining the intake sound is selected, and the intake sound is synthesized using the parameter. A singing voice synthesis method is provided.
[0006]
In a preferred aspect, in the intake sound synthesizing step, a parameter for determining the intake sound is selected according to a selection method involving both a phoneme of a singing sound immediately after the intake sound and a phoneme of a singing sound immediately before the intake sound. I do.
[0007]
In a preferred aspect, in the intake sound synthesizing process, based on a combination of a phoneme of a singing sound immediately after the intake sound and a phoneme of a singing sound immediately before the intake sound, a plurality of types of pieces are stored in the storage unit in advance. One type of waveform data of the intake sound is selected from the waveform data of the intake sound, and is used as a parameter for determining the intake sound.
In a preferred aspect, in the intake sound synthesis process, the amplitude of the intake sound is controlled according to a phoneme of a singing sound immediately after the intake sound.
[0008]
The present invention can be implemented as a singing voice synthesizing method as described above, or in a mode of producing or transferring a singing voice synthesizing device that synthesizes a singing voice including a singing sound and an intake sound in accordance with these methods. Will be implemented.
[0009]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
FIG. 1 is a block diagram showing a configuration of a singing voice synthesizer according to one embodiment of the present invention. As shown in FIG. 1, the singing voice synthesizer includes a singing
[0010]
The singing
[0011]
FIG. 2 illustrates singing information of a certain song. As shown in FIG. 2, the singing information is composed of information segments corresponding to each of a series of
[0012]
As shown in FIG. 3, the singing
[0013]
When there is a breath mark 歌詞 in the lyrics information, the
[0014]
The
[0015]
The
[0016]
In FIG. 1, the singing voice
[0017]
The singing
[0018]
The breath
[0019]
FIG. 4 is a block diagram showing the configurations of the breath
[0020]
The singer information is given to the breath
[0021]
The breath sound
[0022]
The breath section
t = t '+ ts
There is a relationship.
[0023]
The breath sound
[0024]
The silence section addition unit 45 outputs the breath sound waveform data of the breath sound length t ′ output from the breath sound
[0025]
The
[0026]
Hereinafter, the operation of the present embodiment will be described with reference to the time chart shown in FIG. When lyrics information, pitch information, note length information, and other information as shown in the drawing are given, the lyrics filter 11 reads the lyrics information in order from the beginning, and when a breath mark 発 見 is found, A preceding phoneme symbol and a succeeding phoneme symbol representing each immediately succeeding phoneme are obtained, and these information constitute breath control information. Further, the
[0027]
When the synthesis of the singing voice is started, the
[0028]
In the example shown in FIG. 5, pitch information and note length information of the first note whose pitch is “do” and the note length is a quarter beat, and the tempo, dynamics and vibrato applied thereto Each information is taken into the
[0029]
Upon acquiring each piece of information corresponding to the first note in this way, the
[0030]
As a result, the waveform data of the phoneme corresponding to the phoneme symbols / s / and / a / is read from the singing phoneme
[0031]
While the above operation is being performed, the
[0032]
In the example shown in FIG. 5, the same operation as described above is performed for the second note and the third note. When the timing corresponding to the note length of the third note ends, the
[0033]
The
[0034]
The breath
[0035]
The breath sound
[0036]
The breath sound waveform data obtained in this way is output from the breath
[0037]
After the synthesis of the breath sound, the synthesis of the singing sounds such as the syllables “sa” and “i” after the rest in FIG. 5 is performed, but the operation is the same as that already described, and the description is omitted. .
[0038]
FIG. 6 illustrates the effect of the present embodiment. In the breath sound waveform K1 shown in FIG. 6A, the phoneme symbols of the phonemes generated immediately before and after the breath sound are both / a /. On the other hand, in the breath sound waveform K2 shown in FIG. 6B, the phoneme symbol of the phoneme pronounced immediately before the breath sound is / e /, and the phoneme symbol of the phoneme pronounced immediately after the breath sound is / t. /. The beginning portion F1 of the breath sound waveform K1 and the beginning portion F2 of the breath sound waveform K2 are affected by the preceding phoneme, and particularly reflect the effect of the timbre of the preceding phoneme. The ending part B1 of the breath sound waveform K1 and the ending part B2 of the breath sound waveform K2 are affected by the succeeding phoneme, and have different effects depending on whether the succeeding phoneme is a voiced sound or an unvoiced consonant. For example, when the succeeding phoneme is a voiced sound, in particular, a vowel or a nasal sound, as shown in FIG. 6A, the characteristic is that the amplitude of the final part B1 of the breath sound waveform K1 rapidly increases and attenuates. Can be seen. For example, when the succeeding phoneme is an unvoiced consonant, as shown in FIG. 6B, the amplitude of the end portion B2 of the breath sound waveform K2 gradually decreases.
[0039]
According to the present embodiment, since the waveform of the breath sound is selected by a combination of the preceding phoneme immediately before the breath sound and the succeeding phoneme immediately after the breath sound, it is possible to reproduce the above phenomenon and synthesize a natural breath sound. it can.
[0040]
The following modifications are conceivable in the present embodiment.
<
In the above embodiment, for the syllable immediately after the breath sound, the waveform of the breath sound was controlled in consideration of only the first phoneme. On the other hand, in this modification, when the combination of two consecutive phonemes immediately after the breath sound is a specific combination, the amplitude modulation for rapidly rising the trailing edge portion of the breath sound waveform and rapidly attenuating the amplitude is performed. Do. The specific combination is, for example, a combination in which a vowel / a / is followed by a nasal / n / as shown in FIG. According to this modification, a more natural breath sound can be synthesized.
[0041]
<
In this modification, a breath sound waveform is selected based only on the phoneme symbols of the phonemes pronounced immediately after the breath sound. According to this modification, the data amount of the breath sound database can be reduced.
[0042]
<
The singing voice synthesizing device according to the present modification has a breath sound adoption / non-admission control unit. This is a device that performs switching control of whether or not to include a breath sound in the singing voice when synthesizing the singing voice. In a preferred embodiment, the singing information includes control information for this switching control. In this aspect, the breath sound adoption / non-execution control unit switches whether to include the breath sound in the singing voice based on the control information included in the singing information. In another preferred aspect, the breath sound adoption / non-execution control unit switches whether or not to include the breath sound in the singing voice according to a command given from an operation unit (not shown).
[0043]
【The invention's effect】
As described above, according to the present invention, when synthesizing a breath sound following a singing sound, a parameter that determines a breath sound waveform is selected based on at least the phoneme of the singing sound immediately after the breath sound. A more natural singing voice can be synthesized.
[Brief description of the drawings]
FIG. 1 is a block diagram illustrating a configuration of a singing voice synthesis device according to an embodiment of the present invention.
FIG. 2 is a diagram showing singing information handled in the embodiment.
FIG. 3 is a block diagram showing a configuration of a singing information analyzing unit in the embodiment.
FIG. 4 is a block diagram illustrating a configuration of a breath sound storage unit and a breath sound synthesis unit according to the first embodiment.
FIG. 5 is a flowchart showing the operation of the embodiment.
FIG. 6 is a diagram illustrating the effect of the embodiment.
[Explanation of symbols]
10 singing information analyzing unit, 20 singing sound synthesizing unit, 30 singing voice unit storing unit, 40 breath sound synthesizing unit, 50 breath unit storing unit, 60 adder.
Claims (5)
時間的に前後した2つの歌唱音の合成指示の間に吸気音の合成指示が与えられた場合に、少なくとも当該吸気音の直後の歌唱音の音素が関与した選択方法に従って、吸気音を決定付けるパラメータを選択し、該パラメータを用いて吸気音を合成する吸気音合成過程と
を具備することを特徴とする歌唱音声合成方法。A singing sound synthesis process for sequentially synthesizing singing sounds in accordance with a chronological singing sound synthesis instruction;
When an instruction for synthesizing an intake sound is given between instructions for synthesizing two singing sounds that are temporally different from each other, an intake sound is determined according to a selection method involving at least a phoneme of a singing sound immediately after the intake sound. Selecting a parameter and synthesizing an intake sound using the parameter.
時間的に前後した2つの歌唱音の合成指示の間に吸気音の合成指示が与えられた場合に、少なくとも当該吸気音の直後の歌唱音の音素が関与した選択方法に従って、吸気音を決定付けるパラメータを選択し、該パラメータを用いて吸気音を合成する吸気音合成部と
を具備することを特徴とする歌唱音声合成装置。A singing sound synthesizer for sequentially synthesizing singing sounds in accordance with a chronological singing sound synthesis instruction;
When an instruction for synthesizing an intake sound is given between instructions for synthesizing two singing sounds that are temporally different from each other, an intake sound is determined according to a selection method involving at least a phoneme of a singing sound immediately after the intake sound. A singing voice synthesizing device, comprising: an intake sound synthesizing unit that selects a parameter and synthesizes an intake sound using the parameter.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002218583A JP4300764B2 (en) | 2002-07-26 | 2002-07-26 | Method and apparatus for synthesizing singing voice |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002218583A JP4300764B2 (en) | 2002-07-26 | 2002-07-26 | Method and apparatus for synthesizing singing voice |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004061753A true JP2004061753A (en) | 2004-02-26 |
JP4300764B2 JP4300764B2 (en) | 2009-07-22 |
Family
ID=31939725
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002218583A Expired - Fee Related JP4300764B2 (en) | 2002-07-26 | 2002-07-26 | Method and apparatus for synthesizing singing voice |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4300764B2 (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015161822A (en) * | 2014-02-27 | 2015-09-07 | ヤマハ株式会社 | breath sound setting device |
JP2016156989A (en) * | 2015-02-25 | 2016-09-01 | ブラザー工業株式会社 | Voice synthesizer and program |
JP2016177276A (en) * | 2015-03-20 | 2016-10-06 | ヤマハ株式会社 | Pronunciation device, pronunciation method, and pronunciation program |
JP2021051249A (en) * | 2019-09-26 | 2021-04-01 | ヤマハ株式会社 | Sound generation control method and sound generation control device |
CN114360492A (en) * | 2021-10-26 | 2022-04-15 | 腾讯科技(深圳)有限公司 | Audio synthesis method and device, computer equipment and storage medium |
-
2002
- 2002-07-26 JP JP2002218583A patent/JP4300764B2/en not_active Expired - Fee Related
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015161822A (en) * | 2014-02-27 | 2015-09-07 | ヤマハ株式会社 | breath sound setting device |
JP2016156989A (en) * | 2015-02-25 | 2016-09-01 | ブラザー工業株式会社 | Voice synthesizer and program |
JP2016177276A (en) * | 2015-03-20 | 2016-10-06 | ヤマハ株式会社 | Pronunciation device, pronunciation method, and pronunciation program |
JP2021051249A (en) * | 2019-09-26 | 2021-04-01 | ヤマハ株式会社 | Sound generation control method and sound generation control device |
WO2021060273A1 (en) * | 2019-09-26 | 2021-04-01 | ヤマハ株式会社 | Sound output control method and sound output control device |
JP7380008B2 (en) | 2019-09-26 | 2023-11-15 | ヤマハ株式会社 | Pronunciation control method and pronunciation control device |
CN114360492A (en) * | 2021-10-26 | 2022-04-15 | 腾讯科技(深圳)有限公司 | Audio synthesis method and device, computer equipment and storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP4300764B2 (en) | 2009-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10629179B2 (en) | Electronic musical instrument, electronic musical instrument control method, and storage medium | |
US11545121B2 (en) | Electronic musical instrument, electronic musical instrument control method, and storage medium | |
US11468870B2 (en) | Electronic musical instrument, electronic musical instrument control method, and storage medium | |
US10789922B2 (en) | Electronic musical instrument, electronic musical instrument control method, and storage medium | |
JP4207902B2 (en) | Speech synthesis apparatus and program | |
JP6561499B2 (en) | Speech synthesis apparatus and speech synthesis method | |
CN112951198A (en) | Singing voice synthesis | |
US11417312B2 (en) | Keyboard instrument and method performed by computer of keyboard instrument | |
JP2019061135A (en) | Electronic musical instrument, musical sound generating method of electronic musical instrument, and program | |
JP2006030575A (en) | Speech synthesizing device and program | |
JP4844623B2 (en) | CHORAL SYNTHESIS DEVICE, CHORAL SYNTHESIS METHOD, AND PROGRAM | |
JP4304934B2 (en) | CHORAL SYNTHESIS DEVICE, CHORAL SYNTHESIS METHOD, AND PROGRAM | |
JP6737320B2 (en) | Sound processing method, sound processing system and program | |
JP4300764B2 (en) | Method and apparatus for synthesizing singing voice | |
JP6171393B2 (en) | Acoustic synthesis apparatus and acoustic synthesis method | |
JP3307283B2 (en) | Singing sound synthesizer | |
JP4433734B2 (en) | Speech analysis / synthesis apparatus, speech analysis apparatus, and program | |
JP3233036B2 (en) | Singing sound synthesizer | |
JP6011039B2 (en) | Speech synthesis apparatus and speech synthesis method | |
JP5106437B2 (en) | Karaoke apparatus, control method therefor, and control program therefor | |
JP7276292B2 (en) | Electronic musical instrument, electronic musical instrument control method, and program | |
JP6331470B2 (en) | Breath sound setting device and breath sound setting method | |
JP2003288095A (en) | Sound synthesizer, sound synthetic method, program for sound synthesis and computer readable recording medium having the same program recorded thereon | |
JP2003108179A (en) | Method and program for gathering rhythm data for singing voice synthesis and recording medium where the same program is recorded | |
JP2004144814A (en) | Method and device for breath sound synthesis and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050224 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070524 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070529 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070730 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080930 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081112 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20081208 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090331 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120501 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4300764 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090413 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130501 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140501 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |