JP2015082028A - 歌唱合成装置および歌唱合成プログラム - Google Patents

歌唱合成装置および歌唱合成プログラム Download PDF

Info

Publication number
JP2015082028A
JP2015082028A JP2013219805A JP2013219805A JP2015082028A JP 2015082028 A JP2015082028 A JP 2015082028A JP 2013219805 A JP2013219805 A JP 2013219805A JP 2013219805 A JP2013219805 A JP 2013219805A JP 2015082028 A JP2015082028 A JP 2015082028A
Authority
JP
Japan
Prior art keywords
singing
pitch
volume
voice
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013219805A
Other languages
English (en)
Inventor
土屋 豪
Takeshi Tsuchiya
豪 土屋
川▲原▼ 毅彦
Takehiko Kawahara
毅彦 川▲原▼
純也 浦
Junya Ura
純也 浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2013219805A priority Critical patent/JP2015082028A/ja
Priority to PCT/JP2014/078080 priority patent/WO2015060340A1/ja
Publication of JP2015082028A publication Critical patent/JP2015082028A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • G10L2013/105Duration
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

【課題】歌唱者に、歌唱の表現を拡大させるとともに、新たなる歌唱を体験させる。
【解決手段】入力音声の音高を検出する音高検出部104と、入力音声の音量を検出する音量検出部108と、歌詞と当該歌詞の発声タイミングが規定された歌詞データが演奏の進行に応じて供給されると、歌詞データに基づく歌唱音声を、音高検出部104で検出された音高と、音量検出部108で検出された音量とに応じて合成する音声合成部140と、を備える。
【選択図】図1

Description

本発明は、歌唱音声を合成する歌唱合成装置および歌唱合成プログラムに関する。
従来より、歌唱者の歌唱(音声)を他人の歌唱に変換する技術としては、次のようなものが知られている。すなわち、予め特定人(例えばオリジナルの歌手)が歌唱したときのフォルマントシーケンスデータを記憶しておき、歌唱者による歌唱音声を変換する際には、当該歌唱音声の音高および音量に合わせて、オリジナル歌手のフォルマントシーケンスに基づくフォルマントを整形して、歌唱音声を合成する技術が提案されている(例えば特許文献1参照)。
特開平10−268895号公報
ところで、上記技術では、オリジナル歌手のフォルマントシーケンスデータに基づくフォルマントを整形するので、出力される歌唱音声において、オリジナルの歌手の歌い方の影響が残存するのは避けられない。
本発明は、上述した事情に鑑みてなされたもので、その目的の一つは、入力音声、例えば歌唱者の歌唱とは違う声質の歌唱音声で出力する際に、出力される歌唱音声にオリジナルの歌手の歌い方の影響が残存しない歌唱合成装置および歌唱合成プログラムを提供することにある。
上記目的を達成するために本発明の一態様に係る歌唱合成装置は、入力音声の歌唱の音高を検出する音高検出部と、前記入力音声の音量を検出する音量検出部と、歌詞と当該歌詞の歌唱タイミングとが規定された歌詞データが演奏の進行に応じて供給されると、前記歌詞データに基づく歌唱音声を、前記音高検出部で検出された音高と、前記音量検出部で検出された音量とに応じて合成する音声合成部と、を備えることを特徴とする。
この一態様によれば、歌詞データに基づく歌唱音声が、検出された音高および音量で合成される。このため、オリジナルの歌手の歌い方という概念が存在しない。また、歌唱者による歌唱の音高、音量が反映されつつ、歌唱者とは異なる声質で歌唱音声が合成されるので、歌唱者からみれば、歌唱の表現を拡大することができるとともに、新たなる歌唱を体験することができる。
また、好ましい一態様において、音声合成部は、音声素片であるライブラリに基づいて歌唱音声を合成する構成が良い。
なお、音声合成部は、歌唱音声を、例えば、音高検出部で検出された音高と同じ音高で合成しても良いし、検出された音高に対して所定の関係でシフトした音高で合成しても良い。また、音声合成部は、歌唱音声を、例えば、音量検出部で検出された音量と同じ音量で合成しても良いし、検出された音量に対して所定の関係にある音量で合成しても良いし、検出された音量が閾値を超えたときに当該音量に応じて合成しても良い。
上記一態様において、前記演奏の進行に応じて伴奏音を生成する音源部と、前記伴奏音と、前記入力音声と、前記歌唱音声と、を出力する出力部と、を備える構成としても良い。この構成によれば、入力音声と、音声合成部よって合成された歌唱音声と、演奏の進行に応じた伴奏音とが出力されるので、歌唱者に新たなる歌唱を体験させることができる。
上記態様において、前記音声合成部は、前記音量検出部で検出された音量に応じて前記歌詞データの歌唱タイミングを変化させて歌唱音声を合成する構成としても良い。この構成によれば、歌唱者は、合成される歌詞音声を、歌詞データで規定されるタイミング通りではなく、ある程度コントロールできる。このため、音声合成される歌唱のタイミングを即興(アドリブ)的に変化させることが可能になる。
なお、本発明の態様については、歌唱合成装置のみならず、コンピュータを当該歌唱合成装置として機能させるプログラムとして概念することが可能である。
第1実施形態に係る歌唱合成装置の構成を示す機能ブロック図である。 歌唱合成装置における歌詞データ等を示す図である。 歌唱合成装置における歌唱音声合成処理を示すフローチャートである。 歌唱合成装置における歌唱音声の出力例を示す図である。 第2実施形態に係る歌唱合成装置の構成を示す機能ブロック図である。 歌唱合成装置における歌唱音声の出力例を示す図である。 第3実施形態に係る歌唱合成装置の構成を示す機能ブロック図である。
以下、本発明の実施形態について図面を参照して説明する。
<第1実施形態>
図1は、第1実施形態に係る歌唱合成装置10の構成を示す機能ブロック図である。
この図において、歌唱合成装置10は、ノート型やタブレット型などのコンピュータであって、音声入力部102、音高検出部104、音量検出部108、操作部112、制御部120、データベース130、音声合成部140、音源部160、スピーカ172、174を有する。
これらの機能ブロックのうち、例えば音声入力部102、操作部112、音声合成部140、スピーカ172、174についてはハードウェアによって構築され、音高検出部104、音量検出部108、制御部120、データベース130、音源部160については、図示省略したCPU(Central Processing Unit)が予めインストールされたアプリケーションプログラムを実行することによって構築される。
なお、特に図示しないが、歌唱合成装置10は、このほかにも表示部を有し、利用者が装置の状況や設定を確認することができるようになっている。
音声入力部102は、詳細については省略するが、歌唱者(ユーザ)による歌唱音声を電気信号の歌唱音声信号に変換するマイクロフォンと、変換された歌唱音声信号の高域成分をカットするLPF(ローパスフィルタ)と、高域成分をカットした歌唱音声信号をデジタル信号に変換するA/D変換器とで構成される。
音高検出部104は、デジタル信号に変換された歌唱音声信号(入力音声)を周波数解析するとともに、解析して得られた音高(周波数)を示す音高データをほぼリアルタイムで出力する。なお、周波数解析については、FFT(Fast Fourier Transform)や、その他公知の方法を用いることができる。
音量検出部108は、例えばデジタル信号に変換された歌唱音声信号の振幅エンベロープをローパスフィルタで濾波するなどして、歌唱者の音量を示す音量データを、ほぼリアルタイムで出力する。
一方、操作部112は、歌唱者による操作、例えば歌唱する楽曲の選択操作などを入力して、当該操作を示す情報を、制御部120に供給する。
データベース130は、複数の曲分の楽曲データを記憶する。1曲分の楽曲データは、当該曲の伴奏音を1以上のトラックで規定する伴奏データ、および、当該曲の歌詞を示す歌詞データから構成される。
制御部120は、データベース130を管理するほか、演奏の進行時にあたっては、シーケンサとして機能する。
シーケンサとして機能する制御部120は、データベース130から読み出した楽曲データのうち、伴奏データを解釈して、発生すべき楽音を規定する楽音情報を、演奏の開始時から演奏の進行に合わせて時系列の順で音源部160に供給する。ここで、伴奏データとして例えばMIDI規格に準拠したものが用いられる。なお、MIDI規格に準拠した場合、当該伴奏データは、イベントと、イベント同士の時間間隔を示すデュレーションとの組み合わせで規定される。このため、制御部120は、デュレーションで示される時間が経過する毎に、イベントの内容を示す楽音情報を、音源部160に供給する。つまり、制御部120は、伴奏データを解釈して、楽音情報を音源部160に供給することで当該曲の演奏を進行させることになる。
また、制御部120は、伴奏データを解釈する際に、演奏開始からのデュレーションの積算値を求める。制御部120は、当該積算値によって、演奏の進行状態、すなわち曲のどの部分が演奏されているかを把握することができる。
音源部160は、制御部120から供給される楽音情報にしたがって、伴奏音を示す楽音信号を合成する。なお、本実施形態では、必ずしも伴奏音を出力する必要はないので、音源部160は必須ではない。また、音源部160から出力される楽音信号は、図示省略したD/A変換部によってアナログ信号に変換された後、スピーカ174によって音響変換されて出力される。
制御部120は、楽音情報を音源部160に供給するほか、演奏の進行に合わせて、歌詞データを音声合成部140に供給する。
音声合成部140は、制御部120から供給される歌詞データと、音高検出部104から供給される音高データと、音量検出部108から供給される音量データと、にしたがって歌唱音声を合成し、歌唱音声信号として出力する。なお、音声合成部140から出力される歌唱音声信号は、図示省略したD/A変換部によってアナログ信号に変換された後、スピーカ172によって音響変換されて出力される。
図2は、歌詞データの一例を示す図である。この図の例では、楽曲として「さくら」の歌詞データが旋律(歌詞の上に表示された楽譜)とともに示されている。なお、「さくら」の著作権の保護期間は、我が国の著作権法第51条及び第57条の規定によりすでに満了している。
この図に示されるように、歌詞データは、歌唱すべき歌詞を、演奏の開始時から順番に配列される。歌詞データは、歌詞を示す文字情報を含み、歌唱に対応した文字(文字列を含む。以下同じ)が図に示されるように区切られるとともに、旋律の音符、すなわち、歌詞を歌唱すべき歌唱タイミングおよび歌唱すべき音高に、それぞれ対応付けられている。この例では、歌詞51〜(図では歌詞57までを図示し、以降については図示省略)のそれぞれに対して1つの音符が割り当てられているが、曲(歌詞)によっては、1つの文字に対して複数の音符が割り当てられる場合もあれば、1つの音符に対して複数の文字が割り当てられる場合もある。
演奏の進行が音符で示される歌唱タイミングに到達したときに、制御部120は、当該音符に対応する歌詞の文字および当該歌詞の音高を示すデータを音声合成部140に供給する。
なお、演奏の進行が歌唱タイミングに到達したか否かについて、伴奏データの解釈におけるデュレーションの積算値と歌詞データの歌唱タイミングとを予め対応付けておけば、演奏進行において当該積算値が 歌詞データの歌唱タイミングに対応付けられた値に達したか否かによって、制御部120が判別することができる。
また、伴奏音を出力しない場合(伴奏データを使用しない場合)には、伴奏データのデュレーションの積算値で演奏の進行を把握できないので、この場合には、例えば歌詞の歌唱タイミングを、伴奏データと同じように、イベント(歌詞の歌唱イベント)と当該イベント同士の時間間隔を示すデュレーションとで規定して、歌唱タイミングであるか否かについては、当該歌詞データにおいて歌唱すべきイベントが到来しているか否かで判別すれば良い。
図1において、音声合成部140は、制御部120から供給された歌詞データの文字を、ライブラリ(図示省略)に登録された音声素片データを用いて音声合成する。このライブラリには、単一の音素や音素から音素への遷移部分など、歌唱音声の素材となる各種の音声素片の波形を定義した音声素片データが予め登録されている。
詳細には、音声合成部140は、供給された歌詞データの文字で示される音素列を音声素片の列に変換し、これらの音声素片に対応する音声素片データをライブラリから選択して接続するとともに、接続した音声素片データに対して各々のピッチを、指定された音高に合わせて変換して、歌唱音声を示す歌唱音声信号を合成する。
なお、音声合成部140における歌唱音声の音高および音量については、後述する。
また、本実施形態では、歌唱音声をスピーカ172によって、伴奏音をスピーカ174によって、それぞれ別々に出力する構成としたが、歌唱音声と伴奏音とをミキシングして同じスピーカから出力する構成としても良い。
次に、本実施形態に係る歌唱合成装置10における動作について説明する。
この歌唱合成装置10では、歌唱者が操作部112を操作して、所望の曲を選択すると、制御部120が、当該曲に対応する楽曲データをデータベース130から読み出すとともに、当該楽曲データのうち、伴奏データを解釈し、合成すべき伴奏音の楽音情報を音源部160に供給して、当該音源部160に楽音信号を合成させる一方、当該楽曲データのうち、歌詞データを演奏の進行に合わせて音声合成部140に供給して、当該音声合成部140に歌唱音声信号を合成させる。
すなわち、歌唱合成装置10において、演奏が開始されると、第1に、演奏の進行に合わせて楽音信号を合成する楽音合成処理と、第2に、当該演奏の進行に合わせて歌詞データを供給することによる歌唱音声合成処理とが互いに独立して実行される。
このうち、楽音合成処理は、制御部120が演奏の進行に合わせて楽音情報を供給する一方、音源部160が当該楽音情報に基づいて楽音信号を合成する処理であり、この処理自体は周知である(例えば特開平7−199975号公報等参照)。このため、楽音合成処理の詳細については説明を省略し、以下においては、歌唱音声合成処理について説明する。
なお、曲が操作部112によって選択された場合に、制御部120は、当該曲の伴奏データや歌詞データの供給を自動的に開始する。これによって、当該曲の演奏開始が指示されることになる。ただし、制御部120は、曲が選択された場合であっても、他の曲の演奏が進行していれば、当該他の曲が終了するまで、選択された曲の演奏を待機させる。
図3は、歌唱音声合成処理を示すフローチャートである。この歌唱音声合成処理は、制御部120と音声合成部140とで実行される。
演奏が開始されると、制御部120は、まず演奏の進行段階が歌唱タイミングであるか否かを判別する(ステップSa11)。
演奏の進行段階が歌唱タイミングでないと判別すれば(ステップSa11の判別結果が「No」であれば)、制御部120は、処理手順をステップSa11に戻す。換言すれば、演奏の進行段階が歌唱タイミングになるまで、ステップSa11で待機することになる。
また、演奏の進行段階が歌唱タイミングになったと判別すれば(ステップSa11の判別結果が「Yes」であれば)、制御部120は、歌詞データ、すなわち、当該歌唱タイミングで歌唱すべき文字、音高を規定するデータを音声合成部140に供給する(ステップSa12)。
音声合成部140は、制御部120から、歌詞データが供給された場合に、当該歌詞データに基づき音声合成するが、音高および音量ついては、次のように制御する(ステップSa13)。
すなわち、音声合成部140は、音量検出部108から供給される音量データで示される音量が閾値以下であれば、当該歌詞データの文字を、当該歌詞データの音高で、音量検出部108から供給される音量データで示される音量で音声合成して、歌唱音声信号として出力する。ただし、当該音量データで示される音量が閾値以下であることから、当該歌唱音声信号をスピーカ172から出力させても、聴感上無視できるレベルである。
一方、音声合成部140は、制御部120から歌詞データが供給された場合に音量データで示される音量が閾値を超えたとき、制御部120から供給される歌詞データの音高を音高検出部104から供給された音高データで示される音高に変更して、音量検出部108から供給される音量データで示される音量で、当該歌詞データの文字を音声合成して歌唱音声信号として出力する。
このため、スピーカ172から聴こえる当該歌唱音声信号は、歌詞データの文字を、歌唱者が歌唱した音高で、歌唱者が歌唱した音量で、音声合成したものとなる。
一方、制御部120は、歌唱タイミングに至った歌詞データを音声合成部140に供給した後、次に歌唱すべき歌詞データが存在しないか否かを判別する(ステップSa14)。
存在すれば(ステップSa14の判別結果が「No」であれば)、制御部120は、処理手順をステップSa11に戻す。これにより、演奏の進行段階が次の歌唱タイミングに至ったときにステップSa12、13の処理が実行される。
また、次に歌唱すべきデータが存在しなければ(ステップSa14の判別結果が「Yes」であれば)、制御部120は、歌唱音声合成処理を終了させる。
図4は、歌唱音声の具体的な合成例を示す図である。この図は、歌唱者が歌唱する曲として「さくら」(図2参照)を選択した場合の例である。当該歌唱者が、伴奏音を聴きながら演奏の進行に合わせて、(b)で示されるような音量で歌唱したときに、本実施形態では、同図(c)で示されるように歌唱音声が出力される。
すなわち、歌唱者が演奏の進行に対して、「さ」(歌詞51)の冒頭から若干遅れ気味のタイミングで音量を上げて歌唱した場合、音声合成部140は、音量検出部108から供給された音量データで示される音量が閾値を超えたときに、歌唱音声信号の振幅を当該音量に合わせて調整するので、(c)の歌唱音声の「さ」(符号61)は、(a)の歌詞データ(歌詞51)で規定されるようなタイミング通りとはならない。
また、歌唱者が、演奏の進行に対して、「く」(歌詞52)から「ら」(歌詞53)までにおいて音量を下げたとき(または音声入力部102のマイクロフォンを口から遠ざけたとき)、(c)の歌唱音声では、「く」(符号62)と「ら」(符号63−1)とに間が空くことになる。
歌唱者が演奏の進行に対して、「ら」(歌詞53)の途中において音量を下げたとき、同様な理由により、(c)の歌唱音声では、「ら」が符号63−1、63−2に分断されることになる。なお、時間的後方の「ら」(符号63−2)は、説明の便宜のために「ら」と表記しているが、実際には「ら」の母音である「あ」として聴こえることになる。
なお、図4の例では、歌唱者がどのような音量で歌唱したときに、歌唱音声がどのように音声合成されるのか、という観点で説明した図である。この例では、歌唱者がどのような音高で歌唱したときに、歌唱音声がどのような音高で声合成されるのか、という点については示していないが、特段に説明は要しないであろう。
また、第1実施形態における歌唱合成装置10は、歌唱音声の合成にあたって、歌唱者による音高および音量のみを用いている。したがって、歌唱者が、「さくら、さくら…」という歌詞ではなく、例えば「あああ、あああ…」と歌唱しても、歌唱合成装置10によって合成される歌唱音声は、「さくら、さくら…」となる。
背景技術で述べたようなフォルマントシーケンスデータを用いる場合には、オリジナルの歌手が歌唱したときのデータを採取する必要がある。また、この場合、歌唱者が歌唱した音高および音量に応じて、フォルマントシーケンスデータに基づくフォルマントを整形するので、オリジナルの歌手の歌い方の影響を受けるのは避けられない。
これに対して、本実施形態では、音声素片であるライブラリを用いて歌唱音声を合成するので、モデルとなる人物の歌い方の影響を受けないし、そもそもモデルとなる人物に曲を歌わせる必要がないほか、歌唱者が実際にその場で歌唱した音高および音量に対して忠実に、歌唱音声を音声合成することができる、という利点がある。
そして、本実施形態によれば、歌唱者による歌唱の意図(音高、音量)が反映されつつ、歌唱者とは異なる声質で合成された歌唱音声が出力されるので、歌唱者に対して、歌唱することの表現を拡げさせることができるとともに、新たなる歌唱を体験させることができる。
<第2実施形態>
第1実施形態では、歌唱者による歌唱の音高および音量を反映させて、歌唱音声を合成する構成であり、音高および音量以外の情報、端的にいえば、歌唱者による歌唱それ自体は全く利用していない。
そこで次に、歌唱者による歌唱それ自体と、音声合成した歌唱音声とで合唱させる第2実施形態について説明する。この第2実施形態は、概略すると、例えば歌唱者による歌唱を根音とする一方、当該根音に対して3度上の音と、当該根音に対して5度上の音とを音声合成して、歌唱者がひとりで歌唱しているにもかかわらず、三和音でハモるようにしたものである。
図5は、第2実施形態に係る歌唱合成装置10の構成を示す機能ブロック図である。
この図に示される歌唱合成装置10が、図1に示した第1実施形態と相違する部分は、音高変換部106a、106bが設けられた点と、2系統の音声合成部140a、140bが設けられた点、および、ミキサ150が設けられた点である。
このため、第2実施形態では、これらの相違部分を中心に説明することにする。
音高変換部106aは、音高検出部104から供給される音高データで示される音高に対して、予め定められた関係にある音高、例えば3度上にある音高に変換して、音声合成部140aに供給する。音高変換部106bは、音高検出部104から供給される音高データで示される音高に対して、予め定められた関係にある音高、例えば5度上にある音高に変換して、音声合成部140bに供給する。なお、根音に対する3度には短3度と長3度とがあり、根音に対して5度には完全5度と減5度と増5度とがある。いずれになるかについては、根音の音高(および調号)で定まるので、音高変換部106a、106bは、例えば、根音の音高に対する変換後の音高を予めテーブル化しておき、音高検出部104から供給される音高データで示される音高を、当該テーブルを参照して変換する構成とすれば良い。
音声合成部140a、140bは、機能的には第1実施形態における音声合成部140と同機能を有するものであり、制御部120から同じ歌詞データの供給を受けるが、音声合成部140aには、音高変換部106aで変換された音高が指定され、音声合成部140bには、音高変換部106bで変換された音高が指定される。
ミキサ150は、音声入力部102による歌唱音声信号と、音声合成部140aによる歌唱音声信号と、音声合成部140bによる歌唱音声信号とをミキシングする。なお、ミキシングされた歌唱音声信号は、図示省略したD/A変換部によってアナログ信号に変換された後、スピーカ172によって音響変換されて出力される。
図6は、第2実施形態による歌唱音声の具体的な合成例を示す図である。この図は、歌唱者が歌唱する曲として「さくら」(図2参照)を選択して、当該歌唱者が、伴奏音を聴きながら演奏の進行に合わせて、符号71、72、73、…の歌詞を同図の左欄の鍵盤で示される音高で歌唱した場合、すなわち、同図の上欄で示される楽譜(歌詞データ)の音高および歌唱タイミングで歌唱した場合の例である。この場合、音声合成部140aは、符号61a、62a、63a、…で示されるように当該歌唱の音高に対して3度上の音高で音声合成し、音声合成部140bは、符号61b、62b、63b、…で示されるように歌唱者の歌唱の音高に対して5度上の音高で音声合成する。
なお、図6の例では、符号61aは、ハ長調において符号71に対して短3度の関係にあり、符号61bは、符号61aに対して長3度の関係にある。このため、符号71、61a、61bは短三和音となる。符号72、62a、62bも同様に短三和音となる。また、符号63aは、符号73に対して短3度の関係にあり、符号63bは、符号63aに対して短3度の関係にある。このため、符号73、63a、63bは減三和音となる。
このように、歌唱者が、閾値を超える音量で、かつ、同図に示される楽譜通りの音高、タイミングで歌唱したとき、スピーカ172からは、歌唱者による歌唱を根音とする三和音でハモった歌唱音声が出力されることになる。
このように、第2実施形態によれば、歌唱者は、1人で歌唱しているにもかかわらず、ハモることができるので、歌唱者に対して、歌唱の表現をさらに拡大させることができる。なお、上述した音高の変換は、あくまでも一例に過ぎない。和音以外となるように変換しても良いし、オクターブ変換しても良い。また、音声合成部は2系統に限られず、1系統として、所定の関係にある音高に変換する構成であっても良いし、3系統以上でも良い。
なお、第2実施形態では、歌唱者の歌唱音声と音声合成部140a、140bの歌唱音声とをミキシングしてスピーカ172から出力し、音源部160による伴奏音を別のスピーカ174から出力する構成としたが、歌唱音声と伴奏音とをミキシングして1つのスピーカから出力する構成としても良い。すなわち、歌唱音声と伴奏音とを出力する出力部は、別々のスピーカであるか、同じスピーカであるかについては問われない。
また、音高変換部106aは、音高検出部104から供給される音高データで示される音高に対して、予め定められた関係にある音高にそれぞれ変換するが、変換する音高の関係については、制御部120や操作部112による指示によって変更可能な構成にしても良い。音高変換部106bについても同様であり、変換する音高の関係を制御部120や操作部112による指示によって変更可能な構成にしても良い。
<第3実施形態>
第1実施形態において、演奏の進行段階が歌唱タイミングになったときに、歌詞データのうち、当該歌唱タイミングで歌唱すべきデータ(文字、音高)が音声合成部140に供給される構成であるので、歌唱者からみれば、音声合成される歌詞のタイミングをコントロールすることができなかった。
そこで、歌唱者が、音声合成される歌詞のタイミングをある程度、コントロールすることができる第3実施形態について説明することにする。
図7は、第3実施形態に係る歌唱合成装置10の構成を示す機能ブロック図である。
この図に示される歌唱合成装置10が、図1に示した第1実施形態と相違する部分は、音量検出部108から出力される音量データが音声合成部140とともに制御部120に供給される点である。このため、第3実施形態では、この相違部分を中心に説明することにする。
第3実施形態において制御部120は、音量検出部108から供給される音量データで示される音量が閾値を超えたこと、または、当該音量の時間的な変化が所定値を超えたことをトリガーとして、次の音符に対応する歌詞データを音声合成部140に供給する。すなわち、制御部120は、歌唱者の歌唱した音量が閾値を超えたとき等において、次の音符に対応する歌詞データを、演奏の進行段階が当該歌詞データの歌詞タイミングでなくても、音声合成部140に供給する。
第3実施形態による歌唱音声の具体的な合成例について説明する。
ここでは、第1実施形態と同様に、図4(a)に示されるように、歌唱者が歌唱する曲として「さくら」を選択した場合であって、当該歌唱者が、伴奏音を聴きながら演奏の進行に合わせて、同図の(b)で示されるような音量で歌唱した場合を例にとって説明すると、第3実施形態では、同図の(d)で示されるように歌唱音声が出力される。
第3実施形態の特徴的な部分について説明すると、歌唱者が演奏の進行に対して、「ら」(歌詞53)の途中において音量を下げた後、次の「さ」(歌詞54)の前に、音量を上げたとき(当該音量の時間的な変化が所定値を超えたとき)、音量検出部108から供給される音量データの変化に応じて、制御部120は、次の「さ」(符号54)の歌詞データを音声合成部140に供給する。
このため、歌詞データで規定される歌唱タイミングよりも早いタイミングで「さ」(符号64)が音声合成されることになる。
なお、次の音符に対応する歌詞データの読み出しについては、音量検出部108から供給される音量データで示される音量が閾値を超えたことや、当該音量の時間的な変化が所定値を超えたこと以外にも、当該音量の時間的な変化の傾き(加速度)が所定値を超えたことをトリガーとして実行しても良い。
ところで、歌唱者が、ある歌詞をほぼ同じ音高で、ほぼ同じ音量で、歌詞データで規定されるタイミングよりも長く継続して歌唱する場合、当該歌詞を意図的に(余韻を込めて)延ばしていると考えられる。
このような場合に対応するためには、図7において破線で示されるような構成とすれば良い。すなわち、音高検出部104から出力される音高データを、音声合成部140とともに制御部120に供給して、当該制御部120が、音高検出部104から供給される音高データで示される音高が所定値以内で一定であって、音量検出部108から供給される音量データで示される音量が所定値以内で一定である場合、次の歌唱タイミングが到来していても、当該次の歌詞データを音声合成部140に供給しないで、所定時間だけ(または音量が下がるまで)待機する構成とすれば良い。この構成により、歌唱者は、所望の歌詞を、歌詞データで規定されるタイミングよりも長く継続させて歌唱音声を合成させることができる。
このように、第3実施形態によれば、歌唱者が、音声合成される歌詞を、歌詞データで規定されるタイミング通りではなく、ある程度コントロールできるので、音声合成される歌唱のタイミングを即興(アドリブ)的に変化させることが可能になる。
なお、この第3実施形態は、第1実施形態に限られず、 歌唱者自身による歌唱と、音声合成された歌唱とをミキシングする第2実施形態と組み合わせても良い。
<応用・変形例>
本発明は、上述した第1乃至第3実施形態に限定されるものではなく、例えば次に述べるような各種の応用・変形が可能である。なお、次に述べる応用・変形の態様は、任意に選択された一または複数を適宜に組み合わせることもできる。
第1(第2)実施形態において、制御部120は、演奏の進行段階が歌唱タイミングになったときに、当該歌唱タイミングに対応する歌詞データ(文字、音高)を音声合成部140に供給する構成であったが、このうち、音高について、制御部120は、音声合成部140に供給しなくても良い。その理由は、音声合成部140は、音量データで示される音量が閾値以下のときは、歌唱音声信号を実質的に出力せず、音量がしきい値を超えたときは、歌詞データの音高ではなく、音高検出部104から出力された音高データで示される音高であるためである。
制御部120が、歌詞の音高を供給しない構成であっても、音声合成部140は、制御部120から供給される歌詞データの文字を、音量データで示される音量が閾値を超えたときに、音高データで示される音高で、当該音量に応じて音声合成すれば良い。
各実施形態において伴奏データとしてMIDIデータを用いたが、本発明はこれに限られない。例えばコンパクトディスクを再生させることによって楽音信号を得る構成としても良い。この構成において演奏の進行状態を把握するための情報としては、経過時間情報や残り時間情報を用いることができる。このため、制御部120は、経過時間情報や残り時間情報で把握した演奏の進行に合わせて歌詞データを音声合成部140(140a、140b)に供給すれば良い。
各実施形態では、音声入力部102が、歌唱者の歌唱をマイクロフォンで入力して歌唱音声信号に変換する構成としたが、歌唱音声信号(入力音声)をなんらかの形で入力する、または、入力される構成であれば良い。例えば、音声入力部102としては、他の処理部で処理された歌唱音声信号や、他の装置から供給(または転送された)歌唱音声信号を入力する構成でも良いし、さらには、単に歌唱音声信号を受信し後段に転送する入力インターフェース回路等であっても良い。
各実施形態において、音高検出部104、音高変換部106a、106b、および、音量検出部108については、ソフトウェアで構成したが、ハードウェアで構成しても良い。また、音声合成部140(140a、140b)をソフトウェアで構成しても良い。
10…歌唱合成装置、104…音高検出部、106a、106b…音高変換部、120…制御部、140、140a、140b…音声合成部、150…ミキサ、160…音源部。

Claims (4)

  1. 入力音声の音高を検出する音高検出部と、
    前記入力音声の音量を検出する音量検出部と、
    歌詞と当該歌詞の発声タイミングが規定された歌詞データが演奏の進行に応じて供給されると、前記歌詞データに基づく歌唱音声を、前記音高検出部で検出された音高と、前記音量検出部で検出された音量とに応じて合成する音声合成部と、
    を備える歌唱合成装置。
  2. 前記演奏の進行に応じて伴奏音を生成する音源部と、
    前記伴奏音と、前記入力音声と、前記歌唱音声と、を出力する出力部と、
    を備える請求項1に記載の歌唱合成装置。
  3. 前記音声合成部は、
    前記音量検出部で検出された音量に応じて前記歌詞データの発声タイミングを変化させて歌唱音声を合成する
    こと特徴とする請求項1または2に記載の歌唱合成装置。
  4. コンピュータを、
    入力音声の音高を検出する音高検出部と、
    前記入力音声の音量を検出する音量検出部と、
    歌詞と当該歌詞の発声タイミングが規定された歌詞データが演奏の進行に応じて供給されると、前記歌詞データに基づく歌唱音声を、前記音高検出部で検出された音高と、前記音量検出部で検出された音量とに応じて合成する音声合成部、
    として機能させることを特徴とする歌唱合成プログラム。
JP2013219805A 2013-10-23 2013-10-23 歌唱合成装置および歌唱合成プログラム Pending JP2015082028A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013219805A JP2015082028A (ja) 2013-10-23 2013-10-23 歌唱合成装置および歌唱合成プログラム
PCT/JP2014/078080 WO2015060340A1 (ja) 2013-10-23 2014-10-22 歌唱音声の合成

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013219805A JP2015082028A (ja) 2013-10-23 2013-10-23 歌唱合成装置および歌唱合成プログラム

Publications (1)

Publication Number Publication Date
JP2015082028A true JP2015082028A (ja) 2015-04-27

Family

ID=52992930

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013219805A Pending JP2015082028A (ja) 2013-10-23 2013-10-23 歌唱合成装置および歌唱合成プログラム

Country Status (2)

Country Link
JP (1) JP2015082028A (ja)
WO (1) WO2015060340A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020013170A (ja) * 2019-10-30 2020-01-23 カシオ計算機株式会社 電子楽器、電子楽器の制御方法、及びプログラム
CN110741430A (zh) * 2017-06-14 2020-01-31 雅马哈株式会社 歌唱合成方法及歌唱合成***

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6222262B2 (ja) * 2016-03-17 2017-11-01 ヤマハ株式会社 音声合成方法および音声合成制御装置
CN107025902B (zh) * 2017-05-08 2020-10-09 腾讯音乐娱乐(深圳)有限公司 数据处理方法及装置
JP6587007B1 (ja) * 2018-04-16 2019-10-09 カシオ計算機株式会社 電子楽器、電子楽器の制御方法、及びプログラム
JP7117228B2 (ja) * 2018-11-26 2022-08-12 株式会社第一興商 カラオケシステム、カラオケ装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10268895A (ja) * 1997-03-28 1998-10-09 Yamaha Corp 音声信号処理装置
JP3879402B2 (ja) * 2000-12-28 2007-02-14 ヤマハ株式会社 歌唱合成方法と装置及び記録媒体
JP2006030609A (ja) * 2004-07-16 2006-02-02 Yamaha Corp 音声合成データ生成装置、音声合成装置、音声合成データ生成プログラム及び音声合成プログラム
JP4631726B2 (ja) * 2006-01-30 2011-02-16 ヤマハ株式会社 歌唱合成装置及び記録媒体
JP2013195928A (ja) * 2012-03-22 2013-09-30 Yamaha Corp 音声素片切出装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110741430A (zh) * 2017-06-14 2020-01-31 雅马哈株式会社 歌唱合成方法及歌唱合成***
CN110741430B (zh) * 2017-06-14 2023-11-14 雅马哈株式会社 歌唱合成方法及歌唱合成***
JP2020013170A (ja) * 2019-10-30 2020-01-23 カシオ計算機株式会社 電子楽器、電子楽器の制御方法、及びプログラム

Also Published As

Publication number Publication date
WO2015060340A1 (ja) 2015-04-30

Similar Documents

Publication Publication Date Title
JP3598598B2 (ja) カラオケ装置
WO2015060340A1 (ja) 歌唱音声の合成
JP6784022B2 (ja) 音声合成方法、音声合成制御方法、音声合成装置、音声合成制御装置およびプログラム
JP2011048335A (ja) 歌声合成システム、歌声合成方法及び歌声合成装置
JP2013045082A (ja) 楽曲生成装置
JP7355165B2 (ja) 楽曲再生システム、楽曲再生システムの制御方法およびプログラム
JP4038836B2 (ja) カラオケ装置
JP2010237260A (ja) 重唱曲の主声部を際立たせるカラオケ装置
JP4844623B2 (ja) 合唱合成装置、合唱合成方法およびプログラム
JP4839967B2 (ja) 指導装置及びプログラム
JP2003015672A (ja) 声域告知機能付きカラオケ装置
JP4180548B2 (ja) 声域告知機能付きカラオケ装置
JP2017173655A (ja) 音評価装置および音評価方法
JP2011215292A (ja) 歌唱判定装置およびカラオケ装置
JPH11249675A (ja) カラオケ装置における歌唱採点方式
JP7509127B2 (ja) 情報処理装置、電子楽器システム、電子楽器、音節進行制御方法及びプログラム
JP2009244790A (ja) 歌唱指導機能を備えるカラオケシステム
JP6144593B2 (ja) 歌唱採点システム
WO2023233856A1 (ja) 音制御装置およびその制御方法、プログラム、電子楽器
JP5703555B2 (ja) 楽音信号処理装置及びプログラム
JP7158331B2 (ja) カラオケ装置
JP4033146B2 (ja) カラオケ装置
JP3706386B2 (ja) キー変更ユーザインタフェースに特徴を有するカラオケ装置
JP2011154290A (ja) 部分的に一人二重唱になる楽曲の歌唱を支援するカラオケ装置
JP3279299B2 (ja) 楽音要素抽出装置及び方法並びに記憶媒体

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150410