JP5949607B2 - 音声合成装置 - Google Patents

音声合成装置 Download PDF

Info

Publication number
JP5949607B2
JP5949607B2 JP2013052758A JP2013052758A JP5949607B2 JP 5949607 B2 JP5949607 B2 JP 5949607B2 JP 2013052758 A JP2013052758 A JP 2013052758A JP 2013052758 A JP2013052758 A JP 2013052758A JP 5949607 B2 JP5949607 B2 JP 5949607B2
Authority
JP
Japan
Prior art keywords
retake
singing
editing
user
sequence data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013052758A
Other languages
English (en)
Other versions
JP2014178512A (ja
Inventor
入山 達也
達也 入山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2013052758A priority Critical patent/JP5949607B2/ja
Priority to EP14157748.6A priority patent/EP2779159A1/en
Priority to US14/198,464 priority patent/US9355634B2/en
Priority to CN201410098488.6A priority patent/CN104050961A/zh
Publication of JP2014178512A publication Critical patent/JP2014178512A/ja
Application granted granted Critical
Publication of JP5949607B2 publication Critical patent/JP5949607B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/315Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/315Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
    • G10H2250/455Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

この発明は、音声を電気的に合成する音声合成技術に関する。
この種の音声合成技術の一例としては、楽曲のメロディを構成する音符列を示す情報(すなわち、メロディの韻律変化を表す情報:以下、楽曲情報)と各音符に合わせて発声する歌詞を表す情報(歌詞を構成する音素列を示す情報:以下、歌詞情報)とに基づいて歌唱音声を電気的に合成する歌唱合成技術が挙げられる(例えば、特許文献1〜3参照)。近年では、このような歌唱合成をパーソナルコンピュータなどの一般的なコンピュータに行わせるアプリケーションソフトウェアが一般に流通している。この種のアプリケーションソフトウェアの一例としては、声優や歌手の音声から切り出した様々な音素の波形データを格納した歌唱合成用データベースと、歌唱合成プログラムとをセットにしたものが挙げられる。
歌唱合成プログラムとは、歌詞情報により指定された音素の波形データを歌唱合成用データベースから読み出し、楽曲情報の指定するピッチとなるようにピッチ変換を施して発音順に結合し、歌唱音声の音波形を表す波形データを生成する処理をコンピュータに実行させるプログラムである。また、歌唱合成プログラムのなかには、人間の歌唱音声に近い自然な歌唱音声を得られるようにするために、歌詞を構成する音素列やその歌詞を発音する際の音高のほかに、その歌詞を発音する際のベロシティや音量など音声の発声態様を表す各種パラメータをきめこまかく指定可能なものもある。
WO2007/010680 特開2005−181840号公報 特開2002−268664号公報
CD化等のために歌手の歌唱音声をレコーディングする場合、レコーディングディレクタ等が納得行くまで歌唱し直させ、歌唱音声の全部或いは一部を録音し直す「リテイク」が行われることがある。このようなリテイクにおいては、レコーディングディレクタ等はリテイクする時間区間(以下、リテイク区間)とそのリテイク区間における歌唱態様(例えば、「もっとやわらかく」とか「歌詞をはっきりと」など)を指定して歌唱者に歌い直しを命じる一方、歌唱者はディレクタ等の指示した歌唱態様が実現されるように試行錯誤しつつ歌唱し直す、といった具合である。
歌唱合成においても、歌唱合成プログラムのユーザの所望する歌唱態様の歌唱音声が合成されることが好ましいことは言うまでもない。歌唱合成においては、発声態様を規定する各種各パラメータを編集することで、人が歌唱する場合のリテイクと同様に、合成歌唱音声における歌唱態様を変化させることができる。しかし、一般的なユーザの立場から見ると、どのパラメータをどのように編集すれば「もっとやわらかく」等の歌唱態様を実現することができるのか判らないことが多く、所望の歌唱態様を簡単に実現することはできない。これは、文芸作品の朗読音声や各種案内のためのガイダンス音声などの歌唱音声以外の音声を、合成対象の音声における韻律変化を示す情報(歌唱合成における楽曲情報に対応する情報)と発声内容を表す情報(歌唱合成における歌詞情報に対応する情報)に基づいて電気的に合成する場合においても同様である。以下では、音声合成において所望の発声(歌唱合成であれば歌唱)態様が実現されるように音声合成をし直すこともリテイクと呼ぶ。
本発明は上記課題に鑑みて為されたものであり、音声の発声態様を表す各種パラメータを直接編集することなく、合成音声のリテイクを行えるようにする技術を提供することを目的とする。
上記課題を解決するために本発明は、音声の発声態様を表す複数種のパラメータを含むシーケンスデータに従って音声を合成する音声合成装置において、音声を合成し直すリテイク区間をユーザに指定させ、前記シーケンスデータに含まれるパラメータのうち当該リテイク区間におけるパラメータを予め定められた編集処理によって編集し、リテイク結果を表すシーケンスデータを生成するリテイク手段と、前記リテイク手段により生成されたシーケンスデータの表す音を提示してリテイク再実行またはリテイク完了をユーザに選択させる選択支援手段と、を有することを特徴とする音声合成装置、を提供する。
このような音声合成装置によれば、リテイク指示手段により音声を合成し直すリテイク区間が指定されると、当該リテイク区間のシーケンスデータに含まれるパラメータが予め定められた編集処理によって編集され、編集後のシーケンスデータの表す音がユーザに提示される。ユーザは、このようにして提示される合成音声が自身の所望する発声態様のものであればリテイク完了を指示し、所望のものとは異なる場合にはリテイクの再実行を指示することがで、各種パラメータを直接編集することなく、合成音声のリテイクを行うことができる。なお、編集処理は1種類だけ用意されていても良く、また、複数種類用意されていても良い。複数種類の編集処理が予め定められている場合には、選択支援手段には、それら複数種類の編集処理の各々による編集結果をユーザに提示して所望の発声態様となっているものをユーザに選択させる(すなわち、リテイク完了を指示させる)ようにすれば良い。この場合、ユーザが何れの編集結果も選択しなかった場合にはリテイク再実行が指示されたと見做し、編集処理の強さを調整する等して再度リテイク手段による処理を行うようにしても良い。
このような音声合成装置の具体例としては、楽曲情報と歌詞情報とに基づいて歌唱音声を合成する歌唱合成装置が考えられる。また、上記音声合成装置の他の具体例としては、文芸作品の朗読音声や各種案内のためのガイダンス音声などの歌唱音声以外の音声を、合成対象の音声における韻律変化を示す情報と発声内容を表す情報に基づいて電気的に合成する音声合成装置が挙げられる。また、本発明の別の態様としては、コンピュータを、音声の発声態様を表す複数種のパラメータを含むシーケンスデータに従って音声合成を行う音声合成手段、音声を合成し直すリテイク区間をユーザに指定させ、前記シーケンスデータに含まれるパラメータのうち当該リテイク区間におけるパラメータを予め定められた編集処理によって編集し、リテイク結果を表すシーケンスデータを生成するリテイク手段、および前記リテイク手段により生成された各シーケンスデータの表す音を提示してリテイク再実行またはリテイク完了をユーザに選択させる選択支援手段として機能させるプログラムを提供する態様が考えられる。
より好ましい態様においては、前記編集処理は複数種類あるとともに、編集処理を施すことで実現される音声の発声態様(歌唱合成であれば、「やわらかく」や「子音をはっきり」などの歌唱態様)毎にグループ分けされており、前記リテイク手段は、リテイク区間とともに当該リテイク区間における音声の発声態様をユーザに指定させ、ユーザにより指定された音声の発声態様に対応する編集処理によってリテイク結果を表すシーケンスデータを生成する。このような態様によれば、ユーザは所望の発声態様およびリテイク区間を指定してリテイクを指示するだけで、各種パラメータを直接編集することなく、合成歌唱音声のリテイクを行うことが可能になる。
また、別の好ましい態様においては、前記編集処理による編集を経たシーケンスデータにしたがって合成される音声のうち編集前のシーケンスデータにしたがって合成される音声との差が少ないものを前記選択支援手段による提示対象から除外する事前評価手段をさらに有することを特徴とする。詳細については後述するが、上記編集処理のなかには音素依存性を有し、特定の音素に対しては殆ど効果を奏さないものがある。本態様によれば、音素依存性等により殆ど効果を奏さなかった編集結果をユーザへの提示対象から除外することができる。
また、さらに好ましい別の態様としては、前記編集処理の処理内容を表す処理内容データと当該編集処理を用いる優先度を表す優先度データとを対応付けて格納したテーブルと、前記リテイク手段により生成されたシーケンスデータ毎にそのシーケンスデータの表す音に対するユーザの評価値を入力させ、そのシーケンスデータの生成に用いた編集処理の処理内容を表す処理内容データに対応付けられた優先度データを当該評価値に応じて更新する評価手段と、を有し、前記選択支援手段は、前記優先度の高い順に前記リテイク手段により生成されたシーケンスデータの表す音を提示する態様が考えられる。同じ発声態様を実現するための編集処理であっても、その編集結果に対する評価はユーザの好みに応じて異なることが多い。このような態様によれば、ある発声態様を実現する際にどの編集処理を用いるのかについてユーザの好みを反映させることが可能になるとともに、ユーザの好みに応じた順にリテイク結果を提示することが可能になる。
この発明の第1実施形態の歌唱合成装置10Aの構成例を示す図である。 歌唱合成装置10AのユーザI/部120の表示部に表示される入力画面の一例を示す図である。 歌唱合成装置10AのユーザI/部120の表示部に表示されるリテイク支援画面の一例を示す図である。 歌唱合成装置10Aの不揮発性記憶部144に格納されているリテイク支援テーブル144cの一例を示す図である。 同不揮発性記憶部144に格納されている歌唱合成プログラム144aにしたがって制御部110が実行する処理の流れを示すフローチャートである。 制御部110が生成する歌唱合成用シーケンスデータの一例を示す図である。 本実施形態における編集処理の一例を示す図である。 同編集処理の効果を説明するための図である。 この発明の第2実施形態の歌唱合成装置10Bの構成例を示す図である。 歌唱合成装置10Bの制御部110が歌唱合成プログラム144dにしたがって実行する処理の流れを示すフローチャートである。
以下、図面を参照しつつ、本発明の実施形態について説明する。
(A:第1実施形態)
図1は、本発明の第1実施形態の歌唱合成装置10Aの構成例を示す図である。歌唱合成装置10Aは、従来の歌唱合成装置と同様に、歌唱音声の合成対象の曲のメロディを構成する音符列を表す楽曲情報と、各音符に合わせて歌唱する歌詞を表す歌詞情報とから、歌唱音声の波形データを電気的に生成する装置である。図1に示すように歌唱合成装置10Aは、制御部110、ユーザI/F部120、外部機器I/F部130、記憶部140、およびこれら構成要素間のデータ授受を仲介するバス150を含んでいる。
制御部110は、例えばCPU(Central Processing Unit)である。制御部110は、記憶部140(より正確には、不揮発性記憶部144)に格納された歌唱合成プログラム144aを読み出して実行し、歌唱合成装置10Aの制御中枢として機能する。歌唱合成プログラム144aにしたがって制御部110が実行する処理については後に明らかにする。
ユーザI/F部120は、歌唱合成装置10Aをユーザに利用させるための各種ユーザインタフェースを提供する。ユーザI/F部120には、各種画面を表示するための表示部と、各種データや指示をユーザに入力させるための操作部とが含まれる(図1では、何れも図示略)。表示部は、液晶ディスプレイとその駆動回路により構成され、制御部110による制御の下、各種画面を表す画像を表示する。操作部は、テンキーやカーソルキーなどの多数の操作子を備えたキーボードと、マウスなどのポインティングデバイスとを含んでいる。操作部に対してユーザが何らかの操作を行うと、操作部はその操作内容を表すデータをバス150を介して制御部110に与える。これにより、ユーザの操作内容が制御部110に伝達される。
ユーザI/F部120に含まれる表示部に表示される画面の一例としては、楽曲情報と歌詞情報とをユーザに入力させるための入力画面と、合成歌唱音声のリテイクを支援するためのリテイク支援画面が挙げられる。図2は、入力画面の一例を示す図である。図2に示すように、この入力画面は領域A01と領域A02の2つの領域を有している。領域A01にはピアノロールを模した画像が表示される。この画像では縦軸方向(ピアノロールにおける鍵の配列方向)がピッチを表し、横軸方向が時間を表す。ユーザは、所望の音高および発音時刻に対応する位置に矩形R1をマウスなどを用いて領域A01に描画することで音符に関する情報(音高、発音開始時刻および音符の継続長)を入力することができ、当該音符に合わせて発音する音素を表す平仮名や発音記号を矩形R1内に入力することで歌詞情報を入力することができる。また、上記矩形R1の下にピッチカーブPCをマウス等を用いて描画することでピッチの時間変化を指定することができる。
領域A02は、ベロシティ(図2では、「VEL」と表記)や音量(図2では、「DYN」と表記)など、音声の発声態様を表すパラメータのうち、楽曲情報ではなく歌詞情報でもないパラメータの値およびその時間変化をユーザに指定させるための領域である。例えば、図2では、ベロシティを指定する場合について例示されている。ユーザは、マウス等を用いて所望のパラメータに対応する文字列を指定し、当該パラメータの値を示すグラフ(図2に示す例ではグラフG1およびG2)を描画することで当該パラメータの値および時間変化を指定することができる。
図2に示す入力画面においてリテイクを所望する時間区間をマウス等によるドラッグにより指定すると、図3(a)に示すリテイク支援画面が表示部に表示される。図3(a)では、第3小節と第4小節がリテイク区間として指定された場合について例示されている。このリテイク支援画面を視認したユーザは、指示ボタンB1をマウスクリックすることで歌唱態様指定メニューM1を表示させることができ、この歌唱態様指定メニューM1に表示された複数種の歌唱態様(図3に示す例では、「やわらかく」、「かたく」、「子音はっきり」および「母音はっきり」の4種類)のうちから所望のものを選択し、歌唱態様を指示することができる。なお、歌唱態様の指定は音符単位のものに限られず、複数の音符に亙るものであっても良い。例えば、図3(b)に示すように「のびのびと」という歌唱態様が選択された場合には指示の強さを指定するボタンB2を表示させ、このボタンB2のマウスクリックを契機として指示の強さの時間変化をユーザに指定させるためのグラフ曲線GPを表示し、このグラフ曲線GPをマウス等を用いて変形させることで指示の強さをユーザに入力させるようにすれば良い。
前述した入力画面(図2参照)に対する操作によって各種パラメータを直接編集することで合成歌唱音声のリテイクを行えることは言うまでもない。特に、歌唱合成に精通したユーザであれば、各種パラメータの値をきめ細かく調整することで所望の歌唱態様を自在に実現することができる。しかし、一般的なユーザにとっては、どのパラメータをどのように編集すれば所望の歌唱態様を実現できるのか判らないことが多い。本実施形態の歌唱合成装置10Aでは、どのパラメータをどのように編集すれば所望の歌唱態様を実現できるのか判らない一般的なユーザであっても、リテイク区間を指定し、さらにリテイク支援画面にて歌唱態様を指定することで手軽にリテイクを行うことができ、この点に本実施形態の特徴がある。
外部機器I/F部130は、USB(Universal Serial Bus)インタフェースやNIC(Network Interface Card)などの各種入出力インタフェースの集合体である。歌唱合成装置10Aに外部機器を接続する場合、当該外部機器は外部機器I/F部130に含まれる各種入出力インタフェースのうちの好適なものに接続される。外部機器I/F部130に接続される外部機器の一例としては、波形データにしたがって音を再生するサウンドシステムが挙げられる。なお、本実施形態では、歌詞情報および楽曲情報をユーザI/F部120を介して歌唱合成装置10Aに入力するが、これらの情報を外部機器I/F部130を介して入力しても良い。具体的には、歌唱音の合成対象の曲についての楽曲情報と歌詞情報とが書き込まれたUSBメモリ等の記憶装置を外部機器I/F部130に接続し、当該記憶装置からこれら情報を読み出す処理を制御部110に実行させるようにすれば良い。
記憶部140は、揮発性記憶部142と不揮発性記憶部144とを含んでいる。揮発性記憶部142は、例えばRAM(Random Access Memory)により構成されている。揮発性記憶部142は、各種プログラムを実行する際のワークエリアとして制御部110によって利用される。不揮発性記憶部144は、例えばハードディスクやフラッシュメモリなどの不揮発性メモリにより構成されている。不揮発性記憶部144には、本実施形態の歌唱合成装置10A特有の機能を制御部110に実現させるためのプログラムとデータが格納されている。
不揮発性記憶部144に格納されているプログラムの一例としては、歌唱合成プログラム144aが挙げられる。歌唱合成プログラム144aは、従来の歌唱合成技術におけるものと同様、楽曲情報および歌詞情報に基づいて合成歌唱音声を表す波形データを生成する処理を制御部110に実行させるとともに、本実施形態特有のリテイク支援処理を制御部110に実行させるものである。不揮発性記憶部144に格納されているデータの一例としては、各種画面のフォーマットを規定する画面フォーマットデータ(図1では図示略)、歌唱合成用データベース144b、およびリテイク支援テーブル144cが挙げられる。歌唱合成用データベース144bの詳細については、従来の歌唱合成装置の有する歌唱合成用データベースと特段に変わるとことがないため詳細な説明を省略する。
図4は、リテイク支援テーブル144cの一例を示す図である。
図4に示すように、リテイク支援テーブル144cには、リテイク支援画面(図3参照)にて指定可能な歌唱態様を示す歌唱態様識別子(各歌唱態様を表す文字列情報)に対応付けてその歌唱態様を実現し得る複数種類の編集処理を表す処理内容データが格納されている。図4に示す例では、「子音はっきり」という歌唱態様識別子に対応付けて、「(手法A):ベロシティを下げる(換言すれば、子音の継続長を長くする)」、「(手法B):子音の音量を上げる」および「(手法C):子音のピッチを下げる」の3種類の編集処理の処理内容を表す処理内容データが格納されている。
図4に示すように一つの歌唱態様に対して複数種類の編集処理を対応付けたのは、その歌唱態様を実現する際にそれら複数種類の編集内容のうちの何れが最も効果的であるのかが、リテイク区間に含まれる音素の前後関係や種類に応じて異なり得るからである。例えば、リテイク区間に含まれる歌詞の子音が「s」であれば、子音「s」はピッチを有しないため、(手法C)は効果がなく、(手法A)および(手法B)が効果的と考えられる。また、リテイク区間に含まれる歌詞の子音が「t」であれば、(手法B)が効果的と考えられ、リテイク区間に含まれる歌詞の子音が「d」であれば、(手法A)、(手法B)および(手法C)の何れも効果的と考えられる。
次いで、歌唱合成プログラム144aにしたがって制御部110が実行する処理について説明する。制御部110は、歌唱合成プログラム144aを揮発性記憶部142に読み出し、その実行を開始する。図5は、歌唱合成プログラム144aにしたがって制御部110が実行する処理の流れを示すフローチャートである。図5に示すように、歌唱合成プログラム144aにしたがって制御部110が実行する処理は、歌唱合成処理(ステップSA100〜ステップSA120)と、リテイク支援処理(ステップSA130〜ステップSA170)に分けられる。
歌唱合成プログラム144aの実行を開始した制御部110は、まず、図2に示す入力画面をユーザI/F部120の表示部に表示させ(ステップSA100)、楽曲情報および歌詞情報の入力を促す。図2に示す入力画面を視認したユーザは、ユーザI/F部120の操作部を操作し、歌唱音声の合成を所望する曲の楽曲情報および歌詞情報を入力して合成開始を指示する。ユーザI/F部120を介して合成開始を指示されると、制御部110はユーザI/F部120を介して受け取った楽曲情報および歌詞情報から歌唱合成用シーケンスデータを生成する(ステップSA110)。
図6(a)は歌唱合成用シーケンスデータの一例である歌唱合成用スコアを示す図である。図6(a)に示すように、歌唱合成用スコアは、ピッチデータトラックと音韻データトラックとを含んでいる。ピッチデータトラックと音韻データトラックは時間軸を同じくする時系列データである。ピッチデータトラックには、楽曲を構成する各音符のピッチや音量等を表す各種パラメータがマッピングされ、音韻データトラックには各音符に合わせた発音する歌詞を構成する音素の列がマッピングされる。つまり、図6(a)に示す歌唱合成用スコアでは、ピッチデータトラックの時間軸と音韻データトラックの時間軸とを同じにすることで、歌唱音声の合成対象の曲のメロディを構成する音符に関する情報とその音符に合わせて歌唱する歌詞の音素とが対応付けられている。
図6(b)は、歌唱合成用シーケンスデータの他の具体例を示す図である。図6(b)に示す歌唱合成用シーケンスデータはXML形式のデータであり、楽曲を構成する音符毎に、当該音符により表される音に関する情報(発音時刻、音符の長さ、音高、音量およびベロシティなど)と、当該音符に合わせて発音する歌詞に関する情報(当該歌詞を表す表音文字および音素)とを対にして記述したデータである。例えば、図6(b)に示すXML形式の歌唱合成用シーケンスデータでは、タグ<note>とタグ</note>により区画されたデータが1つの音符に対応する。より詳細に説明すると、タグ<note>とタグ</note>により区画されたデータのうち、タグ<posTick>とタグ</posTick>により区画されたデータは音符の発音時刻を、タグ<durTick>とタグ</durTick>により区画されたデータは音符の長さを、タグ<noteNum>とタグ</noteNum>により区画されたデータは音符の音高を各々表す。さらに、タグ<Lyric>とタグ</Lyric>により区画されたデータは音符に合わせて発音する歌詞を、タグ<phnms>とタグ</phnms>により区画されたデータは当該歌詞に対応する音素を各々表す。
歌唱合成用シーケンスデータをどのような単位で生成するのかについては種々の態様が考えられる。例えば、歌唱音声の合成対象の楽曲全体に亙って一つの歌唱合成用シーケンスデータを生成する態様であっても良く、楽曲の一番や二番、或いはAメロ、Bメロ、サビといったブロック毎に歌唱合成用シーケンスデータを生成する態様であっても良い。ただし、リテイクを行うことを考慮すると、後者の態様が好ましいことは言うまでもない。
ステップSA110に後続するステップSA120では、制御部110は、まず、ステップSA110にて生成した歌唱合成用シーケンスデータに基づいて合成歌唱音声の波形データを生成する。なお、合成歌唱音声の波形データの生成については、従来の歌唱合成装置におけるものと特段に変わるところはないため、詳細な説明を省略する。次いで、制御部110は、歌唱合成用シーケンスデータに基づいて生成した波形データを、外部機器I/F部130に接続されたサウンドシステムに与え、音として出力する。
以上が歌唱合成処理である。
次いで、リテイク支援処理について説明する。
ユーザは、サウンドシステムから出力される合成歌唱音を聴き、意図した通りの歌唱音声が合成されているか否かを確かめることができる。そして、ユーザは、ユーザI/F部120の操作部を操作し、合成完了、またはリテイクの指示(具体的には、リテイクする時間区間を示す情報)を与えることができる。意図した通りの歌唱音声が合成されていれば、合成完了を指示し、意図した通りに歌唱音声が合成されていない場合にはリテイクを指示するといった具合である。制御部110は、ユーザI/F部120を介して与えられた指示が、合成完了であるのかそれともリテイクであるのかを判定する(ステップSA130)。与えられた指示が合成完了である場合には、制御部110は、ステップSA110にて生成した歌唱合成用シーケンスデータ(或いはステップSA120にて生成した波形データ)を不揮発性記憶部144の所定の記憶領域に書き込んで歌唱合成プログラム144aの実行を終了する。これに対して、リテイクを指示された場合には、ステップSA140以降の処理を実行する。
リテイクを指示された場合に実行されるステップSA140では、制御部110は、図3に示すリメイク支援画面をユーザI/F部120の表示部に表示させる。このリテイク支援画面を視認したユーザはユーザI/F部120の操作部を操作して所望する歌唱態様を指定することができる。このようにして歌唱態様を指定された制御部110は、まず、その歌唱態様に対応付けてリテイク支援テーブル144cに格納されている複数の処理内容データを読み出す(ステップSA150)。
次いで、制御部110は、ステップSA150にて読み出した複数種の処理内容データの各々の示す処理内容にしたがってパラメータを編集する処理を、ステップSA140にて指定された区間に属する歌唱合成用シーケンスデータに施すリテイク処理(ステップSA160)を実行する。なお、このリテイク処理では、ステップSA150にて読み出した複数種の処理内容データの各々にしたがって編集処理を行うだけでなく、それら編集処理のうちの複数を組み合わせて実行するようにしても良い。
例えば、ユーザにより指定された歌唱態様が「子音はっきり」である場合には、図4に示す(手法A)、(手法B)、および(手法C)の他に、(手法A)と(手法B)の組み合わせ、(手法A)と(手法C)の組み合わせ、(手法B)と(手法C)の組み合わせ、さらに(手法A)と(手法B)と(手法C)の組み合わせをそれぞれ実行するのである。これはリテイク対象の合成歌唱音声のテンポが遅い場合には(手法A)、(手法B)、および(手法C)の何れか1つを実行することで子音の発音をはっきりさせるといった効果が得られると考えられるが、テンポが速い場合やリテイク区間に含まれる音符の音符長が短い場合には、複数の手法を複合的に用いなければ充分な効果が得られないと考えられるからである。
また、リテイク区間におけるフレーズ構造や楽曲構造をリテイク処理に利用しても良い。例えば、歌唱態様として「もっと強く」が指示された場合には、1小節を単位として、リテイク区間全体を強くする、1拍目だけを強くする、2拍目だけを強くする・・・1拍目だけを10%強くする、1拍目を20%強くする等の選択肢をユーザに提示し、ユーザの選択に応じてリテイク処理の処理内容を異ならせても良い。また、単語毎にアクセント位置を示す情報を格納した辞書を参照し、リテイク区間の歌詞に含まれる単語のアクセント部分を強調するようにしても良く、このようなアクセント部分の強調を行うか否かをユーザに指定させる選択肢を提示しても良い。
本実施形態の(手法A)による編集では、制御部110は、編集前のベロシティV0に1/10を乗算して編集後のベロシティV1を算出する。また、(手法B)による編集では、制御部110は、編集前の音量を表すパラメータD0[t]に、ノートオン時刻(本動作例では、t=0)においてピークとなり、その他の時間区間では一定値(本実施形態では、1)となる曲線を表す関数k[t](図7(a)参照)を乗算して編集後の音量を表すパラメータD1[t]算出する。これにより、ノートオン時刻付近のみ音量が引き上げられる。そして、(手法C)による編集では、制御部110は、編集前のピッチを表すパラメータP0[t]から、ノートオン時刻(本動作例では、t=0)において急峻な谷を有する曲線を表す関数k[t](図7(b)参照)を減算して編集後のピッチを表すパラメータP1[t]算出し、さらにピッチベンドセンシビリティを表すパラメータB1[t]として図7(b)に示す関数n[t]の値を用いる。
上記リテイク処理を完了すると、制御部110は、選択支援処理を実行する(ステップSA170)。この選択支援処理では、制御部110は、リテイク処理により生成した各歌唱合成用シーケンスデータの表す歌唱音声をユーザに提示し、何れか1の歌唱合成用シーケンスデータの選択をユーザに促す。ユーザは、歌唱合成装置10Aにより提示される歌唱音声を試聴し、リテイク支援画面にて指定した歌唱態様を最も実現できていると思うものを選択することでリテイク完了を歌唱合成装置10Aに指示する。制御部110は、ユーザから与えられた指示にしたがって歌唱合成用シーケンスデータを保存し、これにより合成歌唱音声のリテイクが完了する。
例えば、リテイク区間における歌詞が「あさ」であり、リテイク前の音波形が図8(a)に示す波形である場合、(手法A)による編集を施すことで編集後の音波形は図8(b)に示す波形となり、(手法B)による編集を施すことで編集後の音波形は図8(c)に示す波形となる。また、リテイク区間における歌詞が「あだ」であり、リテイク前の音波形が図8(d)に示す波形である場合、(手法C)による編集を施すことで編集後の音波形は図8(e)に示す波形となる。図8(a)に示す音波形と図8(b)(或いは図8(c))に示す音波形との相違、或いは図8(d)に示す音波形と図8(e)に示す音波形との相違をユーザは、子音がはっきりと聴こえるといった聴感の相違として感得するのである。
以上説明したように本実施形態によれば、ピッチやベロシティ、音量などのパラメータを直接編集することなく、所望の歌唱態様による合成歌唱音声のリテイクを実現することが可能になる。なお、本実施形態では、ステップSA150にて取得した処理内容データの各々を用いて歌唱合成用シーケンスデータを編集し、各処理内容データに応じた歌唱合成用シーケンスデータを生成した後に選択支援処理を実行する場合について説明したが、処理内容データの数分だけリテイク処理およびリテイク結果の提示を繰り返しても良い。具体的には、処理内容データの数分だけ、歌唱合成用シーケンスデータの編集→編集後の歌唱合成用シーケンスデータに基づく波形データの生成→当該波形データを音として出力(すなわち、編集結果の提示)を繰り返しても勿論良い。
また、指定可能な歌唱態様の種類に比較して歌唱態様指定メニューM1として表示可能な画面サイズが小さい場合には、それら歌唱態様を予めグループ分け(例えば、音符単位の歌唱態様に関するものと、複数の音符に亙る歌唱態様に関するものとでグループ分けするなど)しておき、音符単位の歌唱態様の指定→歌唱合成用シーケンスデータの編集→編集後の歌唱合成用シーケンスデータに基づく波形データの生成→当該波形データを音として出力→複数の音符に亙る歌唱態様の指定→歌唱合成用シーケンスデータの編集→・・・といった具合に、ステップSA140〜ステップSA170の処理をグループの数分だけ繰り返す(或いは、1つのグループについてのステップSA140〜ステップSA170の処理の完了を契機としてステップSA130の処理を実行して合成完了またはリテイクの指示入力をユーザに促し、リテイク指示が与えられた場合(すなわち、リテイクの再実行の指示が与えられた場合)に他のグループについての処理を開始し、合成完了を指示された場合には他のグループについての処理を省略する)ようにしても良い。なお、リテイクの再実行を指示された場合には改めてリテイク区間を再指定させても良く、リテイク区間の指定を省略しても(すなわち、1つ前のグループと同じリテイク区間とする)良い。このような態様によれば、歌唱態様指定メニューM1を充分な画面サイズで表示できない場合に対処できることは勿論、様々な歌唱態様を一度に提示することに起因するユーザの混乱を避けることができるといった効果もある。
また、歌唱態様を音符単位のもの、複数の音符に亙るもの、複数の小節に亙るもの・・・とグループ分けする態様においては、音符単位の歌唱態様のグループから順にユーザに歌唱態様を提示することで、音符単位のものからより編集範囲の広いものへとシステマティックにリテイク結果を確認することが可能になり、歌唱合成に不慣れな初心者ユーザであっても、歌唱音声のリテイクを簡単かつシステマティックに行うことが可能になる。なお、歌唱態様をグループ分けの結果、1つのグループに属する歌唱態様が1種類だけとなって勿論良く、その場合は当該グループについて歌唱態様指定メニューM1を表示する際にその歌唱態様を表す歌唱態様識別子(例えば、「子音をはっきり」など)に代えて単に「リテイク」と記載した歌唱態様指定メニューM1を表示しても良い。初心者ユーザに対しては詳細な情報を提示しても迷いや不安を生じさせる虞があり、簡素な表示とすることが好ましい場合があるからである。
(B:第2実施形態)
図9は、本発明の第2実施形態の歌唱合成装置10Bの構成例を示す図である。
図9では図1と同一の構成要素には同一の符号が付与されている。図9と図1とを対比すれば明らかなように、歌唱合成装置10Bの構成は、歌唱合成プログラム144aに換えて歌唱合成プログラム144dが不揮発性記憶部144に格納されている点が歌唱合成装置10Aの構成と異なる。以下、第1実施形態との相違点である歌唱合成プログラム144dを中心に説明する。
図10は歌唱合成プログラム144dにしたがって制御部110が実行する処理の流れを示すフローチャートである。図10と図5とを対比すれば明らかように、本実施形態の歌唱合成プログラム144dは、リテイク処理(ステップSA160)に後続して事前評価処理(ステップSA165)を制御部110に実行させ、この事前評価処理の実行後に選択支援処理(ステップSA170)を制御部110に実行させる点が第1実施形態の歌唱合成プログラム144aと異なる。以下、第1実施形態との相違点である事前評価処理(ステップSA165)を中心に説明する。
事前評価処理(ステップSA165)では、制御部110は、リテイク処理にて生成した各歌唱合成用シーケンスデータについて、その歌唱合成用シーケンスデータにしたがって波形データを生成し、元の歌唱合成用シーケンスデータにしたがって生成した波形データと差があるか否かを判定し、差がないと判定した歌唱合成用シーケンスデータを選択支援処理(ステップSA170)におけるユーザへの提示対象から除外する。ここで、リテイク処理にて生成された歌唱合成用シーケンスデータにしたがって生成された波形データと元の歌唱合成用シーケンスデータにしたがって生成した波形データとに差があるか否かの具体的な判定方法としては、前者の波形データを表すサンプル列と後者の波形データを表すサンプル列とについて、同じ時刻のサンプル同士の差(例えば振幅差)を求め、当該差の絶対値の総和が所定の閾値を上回っている場合に「差がある」と判定する態様や、両サンプル列の相関係数を求め、当該相関係数の値がどの程度1を下回っているかに応じて判定する態様が考えられる。このような事前評価処理を設けた理由は以下の通りである。
歌唱態様識別子に対応付けられた複数種の処理内容データの各々の表す編集処理は、何れもその歌唱態様識別子の表す歌唱態様を実現し得るものではあるが、リテイク区間に含まれる音素との関係、或いはテンポや音符長との関係では充分な効果が得られない場合があることは前述した通りである。処理内容データの示す編集を施して生成された歌唱合成用シーケンスデータにしたがって生成された波形データと、元の歌唱合成用シーケンスデータにしたがって生成された波形データとに差がないということは、その処理内容データの示す編集内容が歌唱態様の実現に充分な効果を発揮していないことを意味する。つまり、本実施形態の事前評価処理は、ユーザにより指定された歌唱態様を充分に実現することができなかったリテイク結果をユーザによる確認対象から除外し、ユーザによる確認作業を効率的に行わせるようにするために設けられているのである。
本実施形態によっても、第1実施形態と同様に、ピッチやベロシティ、音量などのパラメータを直接編集することなく、所望の歌唱態様による合成歌唱音声のリテイクを実現することができる。加えて、本実施形態によれば、効果のなかったリテイク結果をユーザへの提示対象から除外し、ユーザによるリテイク結果の確認および選択を効率的に行わせることができる。
(C:変形)
以上本発明の第1および第2実施形態について説明したが、これら実施形態に以下の変形を加えても勿論良い。
(1)上記各実施形態では、楽曲情報および歌詞情報に基づいて歌唱音声を電気的に合成する歌唱合成装置への適用例を説明した。しかし、本発明の適用対象は歌唱合成装置に限定されるものではなく、文芸作品の朗読音声やガイダンス音声を、合成対象の音声における韻律変化を示す情報(歌唱合成における楽曲情報に対応する情報)とその音声の音素列を表す情報(歌唱合成における歌詞情報に対応する情報)とに基づいて電気的に合成する音声合成装置に適用しても勿論良い。また、専ら音声合成を行う装置ではなく、例えば、キャラクタのセリフを音声出力するロールプレイングゲーム等を実行するゲーム機や音声再生機能を備えた玩具など、他の処理と並列に(或いは他の処理の一部として)音声合成処理を実行する装置に本発明を適用しても勿論良い。
(2)上記各実施形態では、リテイク支援テーブル144cは歌唱合成プログラムとは別個のデータとして不揮発性記憶部144に格納されていた。しかし、リテイク支援テーブル144cを歌唱合成プログラムと一体にして(すなわち、歌唱合成プログラムにリテイク支援テーブル144cを内蔵して)不揮発性記憶部144に格納しても良い。
(3)上記各実施形態では、歌唱態様を示す歌唱態様識別子に対応付けて各々異なる編集処理を表す処理内容データがリテイク支援テーブル144cに格納されていた。しかし、同じ編集内容を表すものの各々編集の強さが異なる複数の処理内容データを、各々異なる編集内容を表すものとしてリテイク支援テーブル144cに格納しておいても良い。例えば、ベロシティを1/2にすることを示す処理内容データを(手法A1)を示す処理内容データとして、ベロシティを1/3にすることを示す処理内容データを(手法A2)を示す処理内容データとして、ベロシティを1/10にすることを示す処理内容データを(手法A3)を示す処理内容データとして、前述した(手法A)を示す処理内容データに換えて図4に示すリテイク支援テーブル144cに格納しておくといった具合である。この場合、(手法A1)と(手法A2)の組み合わせを、ベロシティを1/6にする編集処理として扱っても良く、同じ編集内容を表すものの各々編集の強さが異なる複数の編集処理を組み合わせないようにしても良い。
(4)上記各実施形態では、リテイク支援テーブル144cには、リテイク支援画面にて指定可能な歌唱態様を示す歌唱態様識別子に対応付けてその歌唱態様を実現し得る複数種類の編集処理を表す処理内容データが格納されていた。しかし、リテイク支援テーブル144cには各々異なる処理内容を表す処理内容データのみを格納しておき、これら処理内容データの各々にしたがった編集処理を歌唱合成用シーケンスデータに施し、その編集結果をユーザに確認させて所望のリテイク結果を選択させるようにしても良く、また、その編集処理によってどのような効果があったのかをユーザに確認させ、効果毎に処理内容データをユーザに分類させても良い。
(5)同じ歌唱態様を実現する複数種の編集処理の各々にユーザの好みに応じた優先度を付け、優先度の高い編集処理によるリテイク結果から順にユーザに提示されるようにしても良い。具体的には、処理内容データに対応付けてその処理内容データの表す編集処理の優先度を示す優先度データ(工場出荷時などの初期状態では、全て同じ値)をリテイク支援テーブル144cに格納しておき、選択支援処理において、リテイク結果に対する評価値(例えば、効果がないと思われる場合には0、効果が大きいと思われるほど大きな値、)をユーザに入力させ、その評価値に応じて各処理内容データの優先度を更新する評価処理を制御部110に実行させるのである。そして、選択支援処理においては優先度の高い処理内容データの表す処理内容により生成されたリテイク結果から順にユーザに提示するのである。このような態様によれば、ある歌唱態様を実現する際にどの編集処理を用いるのかについてユーザの好みを反映させることが可能になるとともに、ユーザの好みに応じた順にリテイク結果を提示することが可能になる。また、リテイク区間に含まれる音素毎に優先度データを格納し、ユーザにより指定された歌唱態様とリテイク区間に含まれる音素とに応じて編集処理を選択するようにしても良い。
また、優先度の高い順に処理内容データ毎にリテイク処理、リテイク結果の提示、および評価入力(合成完了またはリテイク指示の何れかの入力を促す処理)を行い、リテイクを指示される毎に優先度の更新を行うようにしても良い。このような態様によれば、編集処理の採用順が動的に入れ替わる可能性があり、ユーザによるリテイク結果の確認および選択を効率的に行わせるといった効果を一層強めることができると期待される。
(6)上記各実施形態では、楽曲情報および歌詞情報の入力やリテイク区間および歌唱態様の指定を、歌唱合成装置に設けられたユーザI/F部120を介して行う場合について説明した。しかし、インターネットなどの電気通信回線を介して通信相手とデータの送受信を行う通信I/F部をユーザI/F部120の代わりに設け、上記電気通信回線を介して楽曲情報および歌詞情報の入力や、リテイク区間および歌唱態様の指定を行うとともに、リテイク処理にて生成した各歌唱合成用シーケンスデータ(或いは当該歌唱合成用シーケンスデータにしたがって生成した波形データ)を上記電気通信回線を介して返信するようにしても良い。このような態様によれば、所謂クラウド形態の歌唱合成サービスを提供することが可能になる。
(7)上記各実施形態では、本発明の特徴を顕著に示す処理を制御部110に実行させるプログラム(第1実施形態では歌唱合成プログラム144a、第2実施形態では歌唱合成プログラム144d)が歌唱合成装置の不揮発性記憶部に予め格納されていた。しかし、上記プログラムをCD−ROMなどのコンピュータ読み取り可能な記録媒体に書き込んで配布しても良く、また、インターネットなどの電気通信回線経由のダウンロードにより配布しても良い。このようにして配布されるプログラムにしたがって一般的なコンピュータを上記各実施形態の歌唱合成装置として機能させることが可能になるからである。
また、上記各実施形態では、本発明の特徴を顕著に示す処理(第1実施形態においてはリテイク処理および選択支援処理、第2実施形態においてはこれら2つの処理に加えて事前評価処理)をソフトウェアにより実現した。しかし、リテイク処理を実行するリテイク手段を電子回路により構成するとともに選択支援処理を実行する選択支援手段を電子回路により構成し、これら電子回路を一般的な歌唱合成装置に組み込んで上記第1実施形態の歌唱合成装置10Aとしても良く、さらに事前評価処理を実行する電子回路を事前評価手段として組み込んで上記第2実施形態の歌唱合成装置10Bとしても良い。
10A,10B…歌唱合成装置、110…制御部、120…ユーザI/F部、130…外部機器I/F部、140…記憶部、142…揮発性記憶部、144…不揮発性記憶部、150…バス。

Claims (3)

  1. 音声の発声態様を表す複数種のパラメータを含むシーケンスデータに従って音声を合成する音声合成装置において、
    音声を合成し直すリテイク区間をユーザに指定させ、前記シーケンスデータに含まれるパラメータのうち当該リテイク区間におけるパラメータを予め定められた複数種の編集処理の各々によって編集し、リテイク結果を表すシーケンスデータを生成するリテイク手段と、
    前記リテイク手段により生成されたシーケンスデータの表す音を提示してリテイク再実行またはリテイク完了をユーザに選択させる選択支援手段と、
    前記複数種の編集処理の各々による編集を経たシーケンスデータにしたがって合成される音声のうち編集前のシーケンスデータにしたがって合成される音声との差が少ないものを前記選択支援手段による提示対象から除外する事前評価手段と、
    を有することを特徴とする音声合成装置。
  2. 前記複数種の編集処理の各々編集処理を施すことで実現される音声の発声態様毎にグループ分けされており、
    前記リテイク手段は、リテイク区間とともに当該リテイク区間における音声の発声態様をユーザに指定させ、ユーザにより指定された音声の発声態様に対応する編集処理によってリテイク結果を表すシーケンスデータを生成する
    ことを特徴とする請求項1に記載の音声合成装置。
  3. 前記複数種の編集処理の各々の処理内容を表す処理内容データと当該複数種の編集処理の各々を用いる優先度を表す優先度データとを対応付けて格納したテーブルと、
    前記リテイク手段により生成されたシーケンスデータの表す音に対するユーザの評価値を入力させ、そのシーケンスデータの生成に用いた編集処理の処理内容を表す処理内容データに対応付けられた優先度データを当該評価値に応じて更新する評価手段と、を有し、
    前記選択支援手段は、前記優先度の高い順に前記リテイク手段により生成されたシーケンスデータの表す音を提示する
    ことを特徴とする請求項1または2に記載の音声合成装置。
JP2013052758A 2013-03-15 2013-03-15 音声合成装置 Active JP5949607B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2013052758A JP5949607B2 (ja) 2013-03-15 2013-03-15 音声合成装置
EP14157748.6A EP2779159A1 (en) 2013-03-15 2014-03-05 Voice synthesis device, voice synthesis method, and recording medium having a voice synthesis program stored thereon
US14/198,464 US9355634B2 (en) 2013-03-15 2014-03-05 Voice synthesis device, voice synthesis method, and recording medium having a voice synthesis program stored thereon
CN201410098488.6A CN104050961A (zh) 2013-03-15 2014-03-17 语音合成装置和方法以及存储有语音合成程序的记录介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013052758A JP5949607B2 (ja) 2013-03-15 2013-03-15 音声合成装置

Publications (2)

Publication Number Publication Date
JP2014178512A JP2014178512A (ja) 2014-09-25
JP5949607B2 true JP5949607B2 (ja) 2016-07-13

Family

ID=50190344

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013052758A Active JP5949607B2 (ja) 2013-03-15 2013-03-15 音声合成装置

Country Status (4)

Country Link
US (1) US9355634B2 (ja)
EP (1) EP2779159A1 (ja)
JP (1) JP5949607B2 (ja)
CN (1) CN104050961A (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9159310B2 (en) 2012-10-19 2015-10-13 The Tc Group A/S Musical modification effects
WO2014088036A1 (ja) * 2012-12-04 2014-06-12 独立行政法人産業技術総合研究所 歌声合成システム及び歌声合成方法
US9123315B1 (en) * 2014-06-30 2015-09-01 William R Bachand Systems and methods for transcoding music notation
US9384728B2 (en) * 2014-09-30 2016-07-05 International Business Machines Corporation Synthesizing an aggregate voice
JP6728754B2 (ja) * 2015-03-20 2020-07-22 ヤマハ株式会社 発音装置、発音方法および発音プログラム
JP6004358B1 (ja) * 2015-11-25 2016-10-05 株式会社テクノスピーチ 音声合成装置および音声合成方法
JP2019066649A (ja) * 2017-09-29 2019-04-25 ヤマハ株式会社 歌唱音声の編集支援方法、および歌唱音声の編集支援装置
JP7000782B2 (ja) * 2017-09-29 2022-01-19 ヤマハ株式会社 歌唱音声の編集支援方法、および歌唱音声の編集支援装置
JP6988343B2 (ja) 2017-09-29 2022-01-05 ヤマハ株式会社 歌唱音声の編集支援方法、および歌唱音声の編集支援装置
JP6729539B2 (ja) * 2017-11-29 2020-07-22 ヤマハ株式会社 音声合成方法、音声合成システムおよびプログラム
JP6737320B2 (ja) 2018-11-06 2020-08-05 ヤマハ株式会社 音響処理方法、音響処理システムおよびプログラム
JP6747489B2 (ja) * 2018-11-06 2020-08-26 ヤマハ株式会社 情報処理方法、情報処理システムおよびプログラム

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4731847A (en) * 1982-04-26 1988-03-15 Texas Instruments Incorporated Electronic apparatus for simulating singing of song
JP3333022B2 (ja) * 1993-11-26 2002-10-07 富士通株式会社 歌声合成装置
US5703311A (en) * 1995-08-03 1997-12-30 Yamaha Corporation Electronic musical apparatus for synthesizing vocal sounds using format sound synthesis techniques
US5895449A (en) * 1996-07-24 1999-04-20 Yamaha Corporation Singing sound-synthesizing apparatus and method
JPH117296A (ja) * 1997-06-18 1999-01-12 Oputoromu:Kk 電子回路を有する記憶媒体と該記憶媒体を有する音声合成装置
JP2000105595A (ja) * 1998-09-30 2000-04-11 Victor Co Of Japan Ltd 歌唱装置及び記録媒体
JP2002268664A (ja) 2001-03-09 2002-09-20 Ricoh Co Ltd 音声変換装置及びプログラム
JP3815347B2 (ja) * 2002-02-27 2006-08-30 ヤマハ株式会社 歌唱合成方法と装置及び記録媒体
JP3823930B2 (ja) * 2003-03-03 2006-09-20 ヤマハ株式会社 歌唱合成装置、歌唱合成プログラム
US20040193429A1 (en) * 2003-03-24 2004-09-30 Suns-K Co., Ltd. Music file generating apparatus, music file generating method, and recorded medium
JP4409279B2 (ja) 2003-12-22 2010-02-03 株式会社日立製作所 音声合成装置及び音声合成プログラム
JP4114888B2 (ja) 2005-07-20 2008-07-09 松下電器産業株式会社 声質変化箇所特定装置
US8244546B2 (en) * 2008-05-28 2012-08-14 National Institute Of Advanced Industrial Science And Technology Singing synthesis parameter data estimation system
JP5269668B2 (ja) * 2009-03-25 2013-08-21 株式会社東芝 音声合成装置、プログラム、及び方法
JP5510852B2 (ja) * 2010-07-20 2014-06-04 独立行政法人産業技術総合研究所 声色変化反映歌声合成システム及び声色変化反映歌声合成方法
JP5743625B2 (ja) * 2011-03-17 2015-07-01 株式会社東芝 音声合成編集装置および音声合成編集方法
KR101274961B1 (ko) * 2011-04-28 2013-06-13 (주)티젠스 클라이언트단말기를 이용한 음악 컨텐츠 제작시스템
US9236045B2 (en) * 2011-05-23 2016-01-12 Nuance Communications, Inc. Methods and apparatus for proofing of a text input
JP5712818B2 (ja) * 2011-06-30 2015-05-07 富士通株式会社 音声合成装置、音質修正方法およびプログラム
US8729374B2 (en) * 2011-07-22 2014-05-20 Howling Technology Method and apparatus for converting a spoken voice to a singing voice sung in the manner of a target singer

Also Published As

Publication number Publication date
US20140278433A1 (en) 2014-09-18
EP2779159A1 (en) 2014-09-17
JP2014178512A (ja) 2014-09-25
CN104050961A (zh) 2014-09-17
US9355634B2 (en) 2016-05-31

Similar Documents

Publication Publication Date Title
JP5949607B2 (ja) 音声合成装置
US10354627B2 (en) Singing voice edit assistant method and singing voice edit assistant device
US9489938B2 (en) Sound synthesis method and sound synthesis apparatus
JP3823930B2 (ja) 歌唱合成装置、歌唱合成プログラム
JP5293460B2 (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP6236765B2 (ja) 音楽データ編集装置および音楽データ編集方法
TWI394142B (zh) 歌聲合成系統、方法、以及裝置
KR20090041392A (ko) 악곡 연습 지원 장치, 악곡 연습 지원 장치의 제어 방법, 악곡 연습 지원 장치를 제어하는 제어 방법을 컴퓨터로 실행시키는 프로그램을 기록한 컴퓨터로 읽을 수 있는 매체
JP6728754B2 (ja) 発音装置、発音方法および発音プログラム
JP2008026622A (ja) 評価装置
CN111418006B (zh) 声音合成方法、声音合成装置及记录介质
JP2019066649A (ja) 歌唱音声の編集支援方法、および歌唱音声の編集支援装置
JP4929604B2 (ja) 歌データ入力プログラム
JP2013164609A (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP6179221B2 (ja) 音響処理装置および音響処理方法
JP6255744B2 (ja) 楽曲表示装置および楽曲表示方法
JP6044284B2 (ja) 音声合成装置
JP3807380B2 (ja) スコアデータ編集装置、スコアデータ表示装置およびプログラム
WO2019239971A1 (ja) 情報処理方法、情報処理装置およびプログラム
JP5953743B2 (ja) 音声合成装置及びプログラム
JP6144593B2 (ja) 歌唱採点システム
WO2023153033A1 (ja) 情報処理方法、プログラム、および情報処理装置
JP7158331B2 (ja) カラオケ装置
JP2018151548A (ja) 発音装置及びループ区間設定方法
JP5439994B2 (ja) データ集配システム,通信カラオケシステム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141023

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150324

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150519

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151110

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160510

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160523

R151 Written notification of patent or utility model registration

Ref document number: 5949607

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151