JP2015082028A

JP2015082028A - 歌唱合成装置および歌唱合成プログラム

Info

Publication number: JP2015082028A
Application number: JP2013219805A
Authority: JP
Inventors: 土屋　豪; Takeshi Tsuchiya; 豪土屋; 川▲原▼　毅彦; Takehiko Kawahara; 毅彦川▲原▼; 純也浦; Junya Ura
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2013-10-23
Filing date: 2013-10-23
Publication date: 2015-04-27
Also published as: WO2015060340A1

Abstract

【課題】歌唱者に、歌唱の表現を拡大させるとともに、新たなる歌唱を体験させる。
【解決手段】入力音声の音高を検出する音高検出部１０４と、入力音声の音量を検出する音量検出部１０８と、歌詞と当該歌詞の発声タイミングが規定された歌詞データが演奏の進行に応じて供給されると、歌詞データに基づく歌唱音声を、音高検出部１０４で検出された音高と、音量検出部１０８で検出された音量とに応じて合成する音声合成部１４０と、を備える。
【選択図】図１

Description

本発明は、歌唱音声を合成する歌唱合成装置および歌唱合成プログラムに関する。

従来より、歌唱者の歌唱（音声）を他人の歌唱に変換する技術としては、次のようなものが知られている。すなわち、予め特定人（例えばオリジナルの歌手）が歌唱したときのフォルマントシーケンスデータを記憶しておき、歌唱者による歌唱音声を変換する際には、当該歌唱音声の音高および音量に合わせて、オリジナル歌手のフォルマントシーケンスに基づくフォルマントを整形して、歌唱音声を合成する技術が提案されている（例えば特許文献１参照）。

特開平１０−２６８８９５号公報

ところで、上記技術では、オリジナル歌手のフォルマントシーケンスデータに基づくフォルマントを整形するので、出力される歌唱音声において、オリジナルの歌手の歌い方の影響が残存するのは避けられない。
本発明は、上述した事情に鑑みてなされたもので、その目的の一つは、入力音声、例えば歌唱者の歌唱とは違う声質の歌唱音声で出力する際に、出力される歌唱音声にオリジナルの歌手の歌い方の影響が残存しない歌唱合成装置および歌唱合成プログラムを提供することにある。

上記目的を達成するために本発明の一態様に係る歌唱合成装置は、入力音声の歌唱の音高を検出する音高検出部と、前記入力音声の音量を検出する音量検出部と、歌詞と当該歌詞の歌唱タイミングとが規定された歌詞データが演奏の進行に応じて供給されると、前記歌詞データに基づく歌唱音声を、前記音高検出部で検出された音高と、前記音量検出部で検出された音量とに応じて合成する音声合成部と、を備えることを特徴とする。

この一態様によれば、歌詞データに基づく歌唱音声が、検出された音高および音量で合成される。このため、オリジナルの歌手の歌い方という概念が存在しない。また、歌唱者による歌唱の音高、音量が反映されつつ、歌唱者とは異なる声質で歌唱音声が合成されるので、歌唱者からみれば、歌唱の表現を拡大することができるとともに、新たなる歌唱を体験することができる。
また、好ましい一態様において、音声合成部は、音声素片であるライブラリに基づいて歌唱音声を合成する構成が良い。
なお、音声合成部は、歌唱音声を、例えば、音高検出部で検出された音高と同じ音高で合成しても良いし、検出された音高に対して所定の関係でシフトした音高で合成しても良い。また、音声合成部は、歌唱音声を、例えば、音量検出部で検出された音量と同じ音量で合成しても良いし、検出された音量に対して所定の関係にある音量で合成しても良いし、検出された音量が閾値を超えたときに当該音量に応じて合成しても良い。

上記一態様において、前記演奏の進行に応じて伴奏音を生成する音源部と、前記伴奏音と、前記入力音声と、前記歌唱音声と、を出力する出力部と、を備える構成としても良い。この構成によれば、入力音声と、音声合成部よって合成された歌唱音声と、演奏の進行に応じた伴奏音とが出力されるので、歌唱者に新たなる歌唱を体験させることができる。

上記態様において、前記音声合成部は、前記音量検出部で検出された音量に応じて前記歌詞データの歌唱タイミングを変化させて歌唱音声を合成する構成としても良い。この構成によれば、歌唱者は、合成される歌詞音声を、歌詞データで規定されるタイミング通りではなく、ある程度コントロールできる。このため、音声合成される歌唱のタイミングを即興（アドリブ）的に変化させることが可能になる。
なお、本発明の態様については、歌唱合成装置のみならず、コンピュータを当該歌唱合成装置として機能させるプログラムとして概念することが可能である。

第１実施形態に係る歌唱合成装置の構成を示す機能ブロック図である。歌唱合成装置における歌詞データ等を示す図である。歌唱合成装置における歌唱音声合成処理を示すフローチャートである。歌唱合成装置における歌唱音声の出力例を示す図である。第２実施形態に係る歌唱合成装置の構成を示す機能ブロック図である。歌唱合成装置における歌唱音声の出力例を示す図である。第３実施形態に係る歌唱合成装置の構成を示す機能ブロック図である。

以下、本発明の実施形態について図面を参照して説明する。

＜第１実施形態＞
図１は、第１実施形態に係る歌唱合成装置１０の構成を示す機能ブロック図である。
この図において、歌唱合成装置１０は、ノート型やタブレット型などのコンピュータであって、音声入力部１０２、音高検出部１０４、音量検出部１０８、操作部１１２、制御部１２０、データベース１３０、音声合成部１４０、音源部１６０、スピーカ１７２、１７４を有する。
これらの機能ブロックのうち、例えば音声入力部１０２、操作部１１２、音声合成部１４０、スピーカ１７２、１７４についてはハードウェアによって構築され、音高検出部１０４、音量検出部１０８、制御部１２０、データベース１３０、音源部１６０については、図示省略したＣＰＵ（Central Processing Unit）が予めインストールされたアプリケーションプログラムを実行することによって構築される。
なお、特に図示しないが、歌唱合成装置１０は、このほかにも表示部を有し、利用者が装置の状況や設定を確認することができるようになっている。

音声入力部１０２は、詳細については省略するが、歌唱者（ユーザ）による歌唱音声を電気信号の歌唱音声信号に変換するマイクロフォンと、変換された歌唱音声信号の高域成分をカットするＬＰＦ（ローパスフィルタ）と、高域成分をカットした歌唱音声信号をデジタル信号に変換するＡ／Ｄ変換器とで構成される。
音高検出部１０４は、デジタル信号に変換された歌唱音声信号（入力音声）を周波数解析するとともに、解析して得られた音高（周波数）を示す音高データをほぼリアルタイムで出力する。なお、周波数解析については、ＦＦＴ（Fast Fourier Transform）や、その他公知の方法を用いることができる。

音量検出部１０８は、例えばデジタル信号に変換された歌唱音声信号の振幅エンベロープをローパスフィルタで濾波するなどして、歌唱者の音量を示す音量データを、ほぼリアルタイムで出力する。
一方、操作部１１２は、歌唱者による操作、例えば歌唱する楽曲の選択操作などを入力して、当該操作を示す情報を、制御部１２０に供給する。
データベース１３０は、複数の曲分の楽曲データを記憶する。１曲分の楽曲データは、当該曲の伴奏音を１以上のトラックで規定する伴奏データ、および、当該曲の歌詞を示す歌詞データから構成される。

制御部１２０は、データベース１３０を管理するほか、演奏の進行時にあたっては、シーケンサとして機能する。
シーケンサとして機能する制御部１２０は、データベース１３０から読み出した楽曲データのうち、伴奏データを解釈して、発生すべき楽音を規定する楽音情報を、演奏の開始時から演奏の進行に合わせて時系列の順で音源部１６０に供給する。ここで、伴奏データとして例えばＭＩＤＩ規格に準拠したものが用いられる。なお、ＭＩＤＩ規格に準拠した場合、当該伴奏データは、イベントと、イベント同士の時間間隔を示すデュレーションとの組み合わせで規定される。このため、制御部１２０は、デュレーションで示される時間が経過する毎に、イベントの内容を示す楽音情報を、音源部１６０に供給する。つまり、制御部１２０は、伴奏データを解釈して、楽音情報を音源部１６０に供給することで当該曲の演奏を進行させることになる。

また、制御部１２０は、伴奏データを解釈する際に、演奏開始からのデュレーションの積算値を求める。制御部１２０は、当該積算値によって、演奏の進行状態、すなわち曲のどの部分が演奏されているかを把握することができる。

音源部１６０は、制御部１２０から供給される楽音情報にしたがって、伴奏音を示す楽音信号を合成する。なお、本実施形態では、必ずしも伴奏音を出力する必要はないので、音源部１６０は必須ではない。また、音源部１６０から出力される楽音信号は、図示省略したＤ／Ａ変換部によってアナログ信号に変換された後、スピーカ１７４によって音響変換されて出力される。

制御部１２０は、楽音情報を音源部１６０に供給するほか、演奏の進行に合わせて、歌詞データを音声合成部１４０に供給する。
音声合成部１４０は、制御部１２０から供給される歌詞データと、音高検出部１０４から供給される音高データと、音量検出部１０８から供給される音量データと、にしたがって歌唱音声を合成し、歌唱音声信号として出力する。なお、音声合成部１４０から出力される歌唱音声信号は、図示省略したＤ／Ａ変換部によってアナログ信号に変換された後、スピーカ１７２によって音響変換されて出力される。

図２は、歌詞データの一例を示す図である。この図の例では、楽曲として「さくら」の歌詞データが旋律（歌詞の上に表示された楽譜）とともに示されている。なお、「さくら」の著作権の保護期間は、我が国の著作権法第５１条及び第５７条の規定によりすでに満了している。

この図に示されるように、歌詞データは、歌唱すべき歌詞を、演奏の開始時から順番に配列される。歌詞データは、歌詞を示す文字情報を含み、歌唱に対応した文字（文字列を含む。以下同じ）が図に示されるように区切られるとともに、旋律の音符、すなわち、歌詞を歌唱すべき歌唱タイミングおよび歌唱すべき音高に、それぞれ対応付けられている。この例では、歌詞５１〜（図では歌詞５７までを図示し、以降については図示省略）のそれぞれに対して１つの音符が割り当てられているが、曲（歌詞）によっては、１つの文字に対して複数の音符が割り当てられる場合もあれば、１つの音符に対して複数の文字が割り当てられる場合もある。
演奏の進行が音符で示される歌唱タイミングに到達したときに、制御部１２０は、当該音符に対応する歌詞の文字および当該歌詞の音高を示すデータを音声合成部１４０に供給する。

なお、演奏の進行が歌唱タイミングに到達したか否かについて、伴奏データの解釈におけるデュレーションの積算値と歌詞データの歌唱タイミングとを予め対応付けておけば、演奏進行において当該積算値が歌詞データの歌唱タイミングに対応付けられた値に達したか否かによって、制御部１２０が判別することができる。
また、伴奏音を出力しない場合（伴奏データを使用しない場合）には、伴奏データのデュレーションの積算値で演奏の進行を把握できないので、この場合には、例えば歌詞の歌唱タイミングを、伴奏データと同じように、イベント（歌詞の歌唱イベント）と当該イベント同士の時間間隔を示すデュレーションとで規定して、歌唱タイミングであるか否かについては、当該歌詞データにおいて歌唱すべきイベントが到来しているか否かで判別すれば良い。

図１において、音声合成部１４０は、制御部１２０から供給された歌詞データの文字を、ライブラリ（図示省略）に登録された音声素片データを用いて音声合成する。このライブラリには、単一の音素や音素から音素への遷移部分など、歌唱音声の素材となる各種の音声素片の波形を定義した音声素片データが予め登録されている。
詳細には、音声合成部１４０は、供給された歌詞データの文字で示される音素列を音声素片の列に変換し、これらの音声素片に対応する音声素片データをライブラリから選択して接続するとともに、接続した音声素片データに対して各々のピッチを、指定された音高に合わせて変換して、歌唱音声を示す歌唱音声信号を合成する。
なお、音声合成部１４０における歌唱音声の音高および音量については、後述する。

また、本実施形態では、歌唱音声をスピーカ１７２によって、伴奏音をスピーカ１７４によって、それぞれ別々に出力する構成としたが、歌唱音声と伴奏音とをミキシングして同じスピーカから出力する構成としても良い。

次に、本実施形態に係る歌唱合成装置１０における動作について説明する。
この歌唱合成装置１０では、歌唱者が操作部１１２を操作して、所望の曲を選択すると、制御部１２０が、当該曲に対応する楽曲データをデータベース１３０から読み出すとともに、当該楽曲データのうち、伴奏データを解釈し、合成すべき伴奏音の楽音情報を音源部１６０に供給して、当該音源部１６０に楽音信号を合成させる一方、当該楽曲データのうち、歌詞データを演奏の進行に合わせて音声合成部１４０に供給して、当該音声合成部１４０に歌唱音声信号を合成させる。
すなわち、歌唱合成装置１０において、演奏が開始されると、第１に、演奏の進行に合わせて楽音信号を合成する楽音合成処理と、第２に、当該演奏の進行に合わせて歌詞データを供給することによる歌唱音声合成処理とが互いに独立して実行される。
このうち、楽音合成処理は、制御部１２０が演奏の進行に合わせて楽音情報を供給する一方、音源部１６０が当該楽音情報に基づいて楽音信号を合成する処理であり、この処理自体は周知である（例えば特開平７−１９９９７５号公報等参照）。このため、楽音合成処理の詳細については説明を省略し、以下においては、歌唱音声合成処理について説明する。

なお、曲が操作部１１２によって選択された場合に、制御部１２０は、当該曲の伴奏データや歌詞データの供給を自動的に開始する。これによって、当該曲の演奏開始が指示されることになる。ただし、制御部１２０は、曲が選択された場合であっても、他の曲の演奏が進行していれば、当該他の曲が終了するまで、選択された曲の演奏を待機させる。

図３は、歌唱音声合成処理を示すフローチャートである。この歌唱音声合成処理は、制御部１２０と音声合成部１４０とで実行される。
演奏が開始されると、制御部１２０は、まず演奏の進行段階が歌唱タイミングであるか否かを判別する（ステップＳａ１１）。

演奏の進行段階が歌唱タイミングでないと判別すれば（ステップＳａ１１の判別結果が「Ｎｏ」であれば）、制御部１２０は、処理手順をステップＳａ１１に戻す。換言すれば、演奏の進行段階が歌唱タイミングになるまで、ステップＳａ１１で待機することになる。
また、演奏の進行段階が歌唱タイミングになったと判別すれば（ステップＳａ１１の判別結果が「Ｙｅｓ」であれば）、制御部１２０は、歌詞データ、すなわち、当該歌唱タイミングで歌唱すべき文字、音高を規定するデータを音声合成部１４０に供給する（ステップＳａ１２）。

音声合成部１４０は、制御部１２０から、歌詞データが供給された場合に、当該歌詞データに基づき音声合成するが、音高および音量ついては、次のように制御する（ステップＳａ１３）。
すなわち、音声合成部１４０は、音量検出部１０８から供給される音量データで示される音量が閾値以下であれば、当該歌詞データの文字を、当該歌詞データの音高で、音量検出部１０８から供給される音量データで示される音量で音声合成して、歌唱音声信号として出力する。ただし、当該音量データで示される音量が閾値以下であることから、当該歌唱音声信号をスピーカ１７２から出力させても、聴感上無視できるレベルである。
一方、音声合成部１４０は、制御部１２０から歌詞データが供給された場合に音量データで示される音量が閾値を超えたとき、制御部１２０から供給される歌詞データの音高を音高検出部１０４から供給された音高データで示される音高に変更して、音量検出部１０８から供給される音量データで示される音量で、当該歌詞データの文字を音声合成して歌唱音声信号として出力する。
このため、スピーカ１７２から聴こえる当該歌唱音声信号は、歌詞データの文字を、歌唱者が歌唱した音高で、歌唱者が歌唱した音量で、音声合成したものとなる。

一方、制御部１２０は、歌唱タイミングに至った歌詞データを音声合成部１４０に供給した後、次に歌唱すべき歌詞データが存在しないか否かを判別する（ステップＳａ１４）。
存在すれば（ステップＳａ１４の判別結果が「Ｎｏ」であれば）、制御部１２０は、処理手順をステップＳａ１１に戻す。これにより、演奏の進行段階が次の歌唱タイミングに至ったときにステップＳａ１２、１３の処理が実行される。
また、次に歌唱すべきデータが存在しなければ（ステップＳａ１４の判別結果が「Ｙｅｓ」であれば）、制御部１２０は、歌唱音声合成処理を終了させる。

図４は、歌唱音声の具体的な合成例を示す図である。この図は、歌唱者が歌唱する曲として「さくら」（図２参照）を選択した場合の例である。当該歌唱者が、伴奏音を聴きながら演奏の進行に合わせて、（ｂ）で示されるような音量で歌唱したときに、本実施形態では、同図（ｃ）で示されるように歌唱音声が出力される。
すなわち、歌唱者が演奏の進行に対して、「さ」（歌詞５１）の冒頭から若干遅れ気味のタイミングで音量を上げて歌唱した場合、音声合成部１４０は、音量検出部１０８から供給された音量データで示される音量が閾値を超えたときに、歌唱音声信号の振幅を当該音量に合わせて調整するので、（ｃ）の歌唱音声の「さ」（符号６１）は、（ａ）の歌詞データ（歌詞５１）で規定されるようなタイミング通りとはならない。
また、歌唱者が、演奏の進行に対して、「く」（歌詞５２）から「ら」（歌詞５３）までにおいて音量を下げたとき（または音声入力部１０２のマイクロフォンを口から遠ざけたとき）、（ｃ）の歌唱音声では、「く」（符号６２）と「ら」（符号６３−１）とに間が空くことになる。
歌唱者が演奏の進行に対して、「ら」（歌詞５３）の途中において音量を下げたとき、同様な理由により、（ｃ）の歌唱音声では、「ら」が符号６３−１、６３−２に分断されることになる。なお、時間的後方の「ら」（符号６３−２）は、説明の便宜のために「ら」と表記しているが、実際には「ら」の母音である「あ」として聴こえることになる。

なお、図４の例では、歌唱者がどのような音量で歌唱したときに、歌唱音声がどのように音声合成されるのか、という観点で説明した図である。この例では、歌唱者がどのような音高で歌唱したときに、歌唱音声がどのような音高で声合成されるのか、という点については示していないが、特段に説明は要しないであろう。
また、第１実施形態における歌唱合成装置１０は、歌唱音声の合成にあたって、歌唱者による音高および音量のみを用いている。したがって、歌唱者が、「さくら、さくら…」という歌詞ではなく、例えば「あああ、あああ…」と歌唱しても、歌唱合成装置１０によって合成される歌唱音声は、「さくら、さくら…」となる。

背景技術で述べたようなフォルマントシーケンスデータを用いる場合には、オリジナルの歌手が歌唱したときのデータを採取する必要がある。また、この場合、歌唱者が歌唱した音高および音量に応じて、フォルマントシーケンスデータに基づくフォルマントを整形するので、オリジナルの歌手の歌い方の影響を受けるのは避けられない。
これに対して、本実施形態では、音声素片であるライブラリを用いて歌唱音声を合成するので、モデルとなる人物の歌い方の影響を受けないし、そもそもモデルとなる人物に曲を歌わせる必要がないほか、歌唱者が実際にその場で歌唱した音高および音量に対して忠実に、歌唱音声を音声合成することができる、という利点がある。
そして、本実施形態によれば、歌唱者による歌唱の意図（音高、音量）が反映されつつ、歌唱者とは異なる声質で合成された歌唱音声が出力されるので、歌唱者に対して、歌唱することの表現を拡げさせることができるとともに、新たなる歌唱を体験させることができる。

＜第２実施形態＞
第１実施形態では、歌唱者による歌唱の音高および音量を反映させて、歌唱音声を合成する構成であり、音高および音量以外の情報、端的にいえば、歌唱者による歌唱それ自体は全く利用していない。
そこで次に、歌唱者による歌唱それ自体と、音声合成した歌唱音声とで合唱させる第２実施形態について説明する。この第２実施形態は、概略すると、例えば歌唱者による歌唱を根音とする一方、当該根音に対して３度上の音と、当該根音に対して５度上の音とを音声合成して、歌唱者がひとりで歌唱しているにもかかわらず、三和音でハモるようにしたものである。

図５は、第２実施形態に係る歌唱合成装置１０の構成を示す機能ブロック図である。
この図に示される歌唱合成装置１０が、図１に示した第１実施形態と相違する部分は、音高変換部１０６ａ、１０６ｂが設けられた点と、２系統の音声合成部１４０ａ、１４０ｂが設けられた点、および、ミキサ１５０が設けられた点である。
このため、第２実施形態では、これらの相違部分を中心に説明することにする。

音高変換部１０６ａは、音高検出部１０４から供給される音高データで示される音高に対して、予め定められた関係にある音高、例えば３度上にある音高に変換して、音声合成部１４０ａに供給する。音高変換部１０６ｂは、音高検出部１０４から供給される音高データで示される音高に対して、予め定められた関係にある音高、例えば５度上にある音高に変換して、音声合成部１４０ｂに供給する。なお、根音に対する３度には短３度と長３度とがあり、根音に対して５度には完全５度と減５度と増５度とがある。いずれになるかについては、根音の音高（および調号）で定まるので、音高変換部１０６ａ、１０６ｂは、例えば、根音の音高に対する変換後の音高を予めテーブル化しておき、音高検出部１０４から供給される音高データで示される音高を、当該テーブルを参照して変換する構成とすれば良い。
音声合成部１４０ａ、１４０ｂは、機能的には第１実施形態における音声合成部１４０と同機能を有するものであり、制御部１２０から同じ歌詞データの供給を受けるが、音声合成部１４０ａには、音高変換部１０６ａで変換された音高が指定され、音声合成部１４０ｂには、音高変換部１０６ｂで変換された音高が指定される。
ミキサ１５０は、音声入力部１０２による歌唱音声信号と、音声合成部１４０ａによる歌唱音声信号と、音声合成部１４０ｂによる歌唱音声信号とをミキシングする。なお、ミキシングされた歌唱音声信号は、図示省略したＤ／Ａ変換部によってアナログ信号に変換された後、スピーカ１７２によって音響変換されて出力される。

図６は、第２実施形態による歌唱音声の具体的な合成例を示す図である。この図は、歌唱者が歌唱する曲として「さくら」（図２参照）を選択して、当該歌唱者が、伴奏音を聴きながら演奏の進行に合わせて、符号７１、７２、７３、…の歌詞を同図の左欄の鍵盤で示される音高で歌唱した場合、すなわち、同図の上欄で示される楽譜（歌詞データ）の音高および歌唱タイミングで歌唱した場合の例である。この場合、音声合成部１４０ａは、符号６１ａ、６２ａ、６３ａ、…で示されるように当該歌唱の音高に対して３度上の音高で音声合成し、音声合成部１４０ｂは、符号６１ｂ、６２ｂ、６３ｂ、…で示されるように歌唱者の歌唱の音高に対して５度上の音高で音声合成する。
なお、図６の例では、符号６１ａは、ハ長調において符号７１に対して短３度の関係にあり、符号６１ｂは、符号６１ａに対して長３度の関係にある。このため、符号７１、６１ａ、６１ｂは短三和音となる。符号７２、６２ａ、６２ｂも同様に短三和音となる。また、符号６３ａは、符号７３に対して短３度の関係にあり、符号６３ｂは、符号６３ａに対して短３度の関係にある。このため、符号７３、６３ａ、６３ｂは減三和音となる。
このように、歌唱者が、閾値を超える音量で、かつ、同図に示される楽譜通りの音高、タイミングで歌唱したとき、スピーカ１７２からは、歌唱者による歌唱を根音とする三和音でハモった歌唱音声が出力されることになる。

このように、第２実施形態によれば、歌唱者は、１人で歌唱しているにもかかわらず、ハモることができるので、歌唱者に対して、歌唱の表現をさらに拡大させることができる。なお、上述した音高の変換は、あくまでも一例に過ぎない。和音以外となるように変換しても良いし、オクターブ変換しても良い。また、音声合成部は２系統に限られず、１系統として、所定の関係にある音高に変換する構成であっても良いし、３系統以上でも良い。

なお、第２実施形態では、歌唱者の歌唱音声と音声合成部１４０ａ、１４０ｂの歌唱音声とをミキシングしてスピーカ１７２から出力し、音源部１６０による伴奏音を別のスピーカ１７４から出力する構成としたが、歌唱音声と伴奏音とをミキシングして１つのスピーカから出力する構成としても良い。すなわち、歌唱音声と伴奏音とを出力する出力部は、別々のスピーカであるか、同じスピーカであるかについては問われない。
また、音高変換部１０６ａは、音高検出部１０４から供給される音高データで示される音高に対して、予め定められた関係にある音高にそれぞれ変換するが、変換する音高の関係については、制御部１２０や操作部１１２による指示によって変更可能な構成にしても良い。音高変換部１０６ｂについても同様であり、変換する音高の関係を制御部１２０や操作部１１２による指示によって変更可能な構成にしても良い。

＜第３実施形態＞
第１実施形態において、演奏の進行段階が歌唱タイミングになったときに、歌詞データのうち、当該歌唱タイミングで歌唱すべきデータ（文字、音高）が音声合成部１４０に供給される構成であるので、歌唱者からみれば、音声合成される歌詞のタイミングをコントロールすることができなかった。
そこで、歌唱者が、音声合成される歌詞のタイミングをある程度、コントロールすることができる第３実施形態について説明することにする。

図７は、第３実施形態に係る歌唱合成装置１０の構成を示す機能ブロック図である。
この図に示される歌唱合成装置１０が、図１に示した第１実施形態と相違する部分は、音量検出部１０８から出力される音量データが音声合成部１４０とともに制御部１２０に供給される点である。このため、第３実施形態では、この相違部分を中心に説明することにする。

第３実施形態において制御部１２０は、音量検出部１０８から供給される音量データで示される音量が閾値を超えたこと、または、当該音量の時間的な変化が所定値を超えたことをトリガーとして、次の音符に対応する歌詞データを音声合成部１４０に供給する。すなわち、制御部１２０は、歌唱者の歌唱した音量が閾値を超えたとき等において、次の音符に対応する歌詞データを、演奏の進行段階が当該歌詞データの歌詞タイミングでなくても、音声合成部１４０に供給する。

第３実施形態による歌唱音声の具体的な合成例について説明する。
ここでは、第１実施形態と同様に、図４（ａ）に示されるように、歌唱者が歌唱する曲として「さくら」を選択した場合であって、当該歌唱者が、伴奏音を聴きながら演奏の進行に合わせて、同図の（ｂ）で示されるような音量で歌唱した場合を例にとって説明すると、第３実施形態では、同図の（ｄ）で示されるように歌唱音声が出力される。
第３実施形態の特徴的な部分について説明すると、歌唱者が演奏の進行に対して、「ら」（歌詞５３）の途中において音量を下げた後、次の「さ」（歌詞５４）の前に、音量を上げたとき（当該音量の時間的な変化が所定値を超えたとき）、音量検出部１０８から供給される音量データの変化に応じて、制御部１２０は、次の「さ」（符号５４）の歌詞データを音声合成部１４０に供給する。
このため、歌詞データで規定される歌唱タイミングよりも早いタイミングで「さ」（符号６４）が音声合成されることになる。
なお、次の音符に対応する歌詞データの読み出しについては、音量検出部１０８から供給される音量データで示される音量が閾値を超えたことや、当該音量の時間的な変化が所定値を超えたこと以外にも、当該音量の時間的な変化の傾き（加速度）が所定値を超えたことをトリガーとして実行しても良い。

ところで、歌唱者が、ある歌詞をほぼ同じ音高で、ほぼ同じ音量で、歌詞データで規定されるタイミングよりも長く継続して歌唱する場合、当該歌詞を意図的に（余韻を込めて）延ばしていると考えられる。
このような場合に対応するためには、図７において破線で示されるような構成とすれば良い。すなわち、音高検出部１０４から出力される音高データを、音声合成部１４０とともに制御部１２０に供給して、当該制御部１２０が、音高検出部１０４から供給される音高データで示される音高が所定値以内で一定であって、音量検出部１０８から供給される音量データで示される音量が所定値以内で一定である場合、次の歌唱タイミングが到来していても、当該次の歌詞データを音声合成部１４０に供給しないで、所定時間だけ（または音量が下がるまで）待機する構成とすれば良い。この構成により、歌唱者は、所望の歌詞を、歌詞データで規定されるタイミングよりも長く継続させて歌唱音声を合成させることができる。

このように、第３実施形態によれば、歌唱者が、音声合成される歌詞を、歌詞データで規定されるタイミング通りではなく、ある程度コントロールできるので、音声合成される歌唱のタイミングを即興（アドリブ）的に変化させることが可能になる。
なお、この第３実施形態は、第１実施形態に限られず、歌唱者自身による歌唱と、音声合成された歌唱とをミキシングする第２実施形態と組み合わせても良い。

＜応用・変形例＞
本発明は、上述した第１乃至第３実施形態に限定されるものではなく、例えば次に述べるような各種の応用・変形が可能である。なお、次に述べる応用・変形の態様は、任意に選択された一または複数を適宜に組み合わせることもできる。

第１（第２）実施形態において、制御部１２０は、演奏の進行段階が歌唱タイミングになったときに、当該歌唱タイミングに対応する歌詞データ（文字、音高）を音声合成部１４０に供給する構成であったが、このうち、音高について、制御部１２０は、音声合成部１４０に供給しなくても良い。その理由は、音声合成部１４０は、音量データで示される音量が閾値以下のときは、歌唱音声信号を実質的に出力せず、音量がしきい値を超えたときは、歌詞データの音高ではなく、音高検出部１０４から出力された音高データで示される音高であるためである。
制御部１２０が、歌詞の音高を供給しない構成であっても、音声合成部１４０は、制御部１２０から供給される歌詞データの文字を、音量データで示される音量が閾値を超えたときに、音高データで示される音高で、当該音量に応じて音声合成すれば良い。

各実施形態において伴奏データとしてＭＩＤＩデータを用いたが、本発明はこれに限られない。例えばコンパクトディスクを再生させることによって楽音信号を得る構成としても良い。この構成において演奏の進行状態を把握するための情報としては、経過時間情報や残り時間情報を用いることができる。このため、制御部１２０は、経過時間情報や残り時間情報で把握した演奏の進行に合わせて歌詞データを音声合成部１４０（１４０ａ、１４０ｂ）に供給すれば良い。

各実施形態では、音声入力部１０２が、歌唱者の歌唱をマイクロフォンで入力して歌唱音声信号に変換する構成としたが、歌唱音声信号（入力音声）をなんらかの形で入力する、または、入力される構成であれば良い。例えば、音声入力部１０２としては、他の処理部で処理された歌唱音声信号や、他の装置から供給（または転送された）歌唱音声信号を入力する構成でも良いし、さらには、単に歌唱音声信号を受信し後段に転送する入力インターフェース回路等であっても良い。

各実施形態において、音高検出部１０４、音高変換部１０６ａ、１０６ｂ、および、音量検出部１０８については、ソフトウェアで構成したが、ハードウェアで構成しても良い。また、音声合成部１４０（１４０ａ、１４０ｂ）をソフトウェアで構成しても良い。

１０…歌唱合成装置、１０４…音高検出部、１０６ａ、１０６ｂ…音高変換部、１２０…制御部、１４０、１４０ａ、１４０ｂ…音声合成部、１５０…ミキサ、１６０…音源部。

Claims

入力音声の音高を検出する音高検出部と、
前記入力音声の音量を検出する音量検出部と、
歌詞と当該歌詞の発声タイミングが規定された歌詞データが演奏の進行に応じて供給されると、前記歌詞データに基づく歌唱音声を、前記音高検出部で検出された音高と、前記音量検出部で検出された音量とに応じて合成する音声合成部と、
を備える歌唱合成装置。
前記演奏の進行に応じて伴奏音を生成する音源部と、
前記伴奏音と、前記入力音声と、前記歌唱音声と、を出力する出力部と、
を備える請求項１に記載の歌唱合成装置。
前記音声合成部は、
前記音量検出部で検出された音量に応じて前記歌詞データの発声タイミングを変化させて歌唱音声を合成する
こと特徴とする請求項１または２に記載の歌唱合成装置。
コンピュータを、
入力音声の音高を検出する音高検出部と、
前記入力音声の音量を検出する音量検出部と、
歌詞と当該歌詞の発声タイミングが規定された歌詞データが演奏の進行に応じて供給されると、前記歌詞データに基づく歌唱音声を、前記音高検出部で検出された音高と、前記音量検出部で検出された音量とに応じて合成する音声合成部、
として機能させることを特徴とする歌唱合成プログラム。