JP5949607B2

JP5949607B2 - 音声合成装置

Info

Publication number: JP5949607B2
Application number: JP2013052758A
Authority: JP
Inventors: 入山　達也; 達也入山
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2013-03-15
Filing date: 2013-03-15
Publication date: 2016-07-13
Anticipated expiration: 2033-03-15
Also published as: US20140278433A1; EP2779159A1; JP2014178512A; CN104050961A; US9355634B2

Description

この発明は、音声を電気的に合成する音声合成技術に関する。

この種の音声合成技術の一例としては、楽曲のメロディを構成する音符列を示す情報（すなわち、メロディの韻律変化を表す情報：以下、楽曲情報）と各音符に合わせて発声する歌詞を表す情報（歌詞を構成する音素列を示す情報：以下、歌詞情報）とに基づいて歌唱音声を電気的に合成する歌唱合成技術が挙げられる（例えば、特許文献１〜３参照）。近年では、このような歌唱合成をパーソナルコンピュータなどの一般的なコンピュータに行わせるアプリケーションソフトウェアが一般に流通している。この種のアプリケーションソフトウェアの一例としては、声優や歌手の音声から切り出した様々な音素の波形データを格納した歌唱合成用データベースと、歌唱合成プログラムとをセットにしたものが挙げられる。

歌唱合成プログラムとは、歌詞情報により指定された音素の波形データを歌唱合成用データベースから読み出し、楽曲情報の指定するピッチとなるようにピッチ変換を施して発音順に結合し、歌唱音声の音波形を表す波形データを生成する処理をコンピュータに実行させるプログラムである。また、歌唱合成プログラムのなかには、人間の歌唱音声に近い自然な歌唱音声を得られるようにするために、歌詞を構成する音素列やその歌詞を発音する際の音高のほかに、その歌詞を発音する際のベロシティや音量など音声の発声態様を表す各種パラメータをきめこまかく指定可能なものもある。

ＷＯ２００７／０１０６８０特開２００５−１８１８４０号公報特開２００２−２６８６６４号公報

ＣＤ化等のために歌手の歌唱音声をレコーディングする場合、レコーディングディレクタ等が納得行くまで歌唱し直させ、歌唱音声の全部或いは一部を録音し直す「リテイク」が行われることがある。このようなリテイクにおいては、レコーディングディレクタ等はリテイクする時間区間（以下、リテイク区間）とそのリテイク区間における歌唱態様（例えば、「もっとやわらかく」とか「歌詞をはっきりと」など）を指定して歌唱者に歌い直しを命じる一方、歌唱者はディレクタ等の指示した歌唱態様が実現されるように試行錯誤しつつ歌唱し直す、といった具合である。

歌唱合成においても、歌唱合成プログラムのユーザの所望する歌唱態様の歌唱音声が合成されることが好ましいことは言うまでもない。歌唱合成においては、発声態様を規定する各種各パラメータを編集することで、人が歌唱する場合のリテイクと同様に、合成歌唱音声における歌唱態様を変化させることができる。しかし、一般的なユーザの立場から見ると、どのパラメータをどのように編集すれば「もっとやわらかく」等の歌唱態様を実現することができるのか判らないことが多く、所望の歌唱態様を簡単に実現することはできない。これは、文芸作品の朗読音声や各種案内のためのガイダンス音声などの歌唱音声以外の音声を、合成対象の音声における韻律変化を示す情報（歌唱合成における楽曲情報に対応する情報）と発声内容を表す情報（歌唱合成における歌詞情報に対応する情報）に基づいて電気的に合成する場合においても同様である。以下では、音声合成において所望の発声（歌唱合成であれば歌唱）態様が実現されるように音声合成をし直すこともリテイクと呼ぶ。

本発明は上記課題に鑑みて為されたものであり、音声の発声態様を表す各種パラメータを直接編集することなく、合成音声のリテイクを行えるようにする技術を提供することを目的とする。

上記課題を解決するために本発明は、音声の発声態様を表す複数種のパラメータを含むシーケンスデータに従って音声を合成する音声合成装置において、音声を合成し直すリテイク区間をユーザに指定させ、前記シーケンスデータに含まれるパラメータのうち当該リテイク区間におけるパラメータを予め定められた編集処理によって編集し、リテイク結果を表すシーケンスデータを生成するリテイク手段と、前記リテイク手段により生成されたシーケンスデータの表す音を提示してリテイク再実行またはリテイク完了をユーザに選択させる選択支援手段と、を有することを特徴とする音声合成装置、を提供する。

このような音声合成装置によれば、リテイク指示手段により音声を合成し直すリテイク区間が指定されると、当該リテイク区間のシーケンスデータに含まれるパラメータが予め定められた編集処理によって編集され、編集後のシーケンスデータの表す音がユーザに提示される。ユーザは、このようにして提示される合成音声が自身の所望する発声態様のものであればリテイク完了を指示し、所望のものとは異なる場合にはリテイクの再実行を指示することがで、各種パラメータを直接編集することなく、合成音声のリテイクを行うことができる。なお、編集処理は１種類だけ用意されていても良く、また、複数種類用意されていても良い。複数種類の編集処理が予め定められている場合には、選択支援手段には、それら複数種類の編集処理の各々による編集結果をユーザに提示して所望の発声態様となっているものをユーザに選択させる（すなわち、リテイク完了を指示させる）ようにすれば良い。この場合、ユーザが何れの編集結果も選択しなかった場合にはリテイク再実行が指示されたと見做し、編集処理の強さを調整する等して再度リテイク手段による処理を行うようにしても良い。

このような音声合成装置の具体例としては、楽曲情報と歌詞情報とに基づいて歌唱音声を合成する歌唱合成装置が考えられる。また、上記音声合成装置の他の具体例としては、文芸作品の朗読音声や各種案内のためのガイダンス音声などの歌唱音声以外の音声を、合成対象の音声における韻律変化を示す情報と発声内容を表す情報に基づいて電気的に合成する音声合成装置が挙げられる。また、本発明の別の態様としては、コンピュータを、音声の発声態様を表す複数種のパラメータを含むシーケンスデータに従って音声合成を行う音声合成手段、音声を合成し直すリテイク区間をユーザに指定させ、前記シーケンスデータに含まれるパラメータのうち当該リテイク区間におけるパラメータを予め定められた編集処理によって編集し、リテイク結果を表すシーケンスデータを生成するリテイク手段、および前記リテイク手段により生成された各シーケンスデータの表す音を提示してリテイク再実行またはリテイク完了をユーザに選択させる選択支援手段として機能させるプログラムを提供する態様が考えられる。

より好ましい態様においては、前記編集処理は複数種類あるとともに、編集処理を施すことで実現される音声の発声態様（歌唱合成であれば、「やわらかく」や「子音をはっきり」などの歌唱態様）毎にグループ分けされており、前記リテイク手段は、リテイク区間とともに当該リテイク区間における音声の発声態様をユーザに指定させ、ユーザにより指定された音声の発声態様に対応する編集処理によってリテイク結果を表すシーケンスデータを生成する。このような態様によれば、ユーザは所望の発声態様およびリテイク区間を指定してリテイクを指示するだけで、各種パラメータを直接編集することなく、合成歌唱音声のリテイクを行うことが可能になる。

また、別の好ましい態様においては、前記編集処理による編集を経たシーケンスデータにしたがって合成される音声のうち編集前のシーケンスデータにしたがって合成される音声との差が少ないものを前記選択支援手段による提示対象から除外する事前評価手段をさらに有することを特徴とする。詳細については後述するが、上記編集処理のなかには音素依存性を有し、特定の音素に対しては殆ど効果を奏さないものがある。本態様によれば、音素依存性等により殆ど効果を奏さなかった編集結果をユーザへの提示対象から除外することができる。

また、さらに好ましい別の態様としては、前記編集処理の処理内容を表す処理内容データと当該編集処理を用いる優先度を表す優先度データとを対応付けて格納したテーブルと、前記リテイク手段により生成されたシーケンスデータ毎にそのシーケンスデータの表す音に対するユーザの評価値を入力させ、そのシーケンスデータの生成に用いた編集処理の処理内容を表す処理内容データに対応付けられた優先度データを当該評価値に応じて更新する評価手段と、を有し、前記選択支援手段は、前記優先度の高い順に前記リテイク手段により生成されたシーケンスデータの表す音を提示する態様が考えられる。同じ発声態様を実現するための編集処理であっても、その編集結果に対する評価はユーザの好みに応じて異なることが多い。このような態様によれば、ある発声態様を実現する際にどの編集処理を用いるのかについてユーザの好みを反映させることが可能になるとともに、ユーザの好みに応じた順にリテイク結果を提示することが可能になる。

この発明の第１実施形態の歌唱合成装置１０Ａの構成例を示す図である。歌唱合成装置１０ＡのユーザＩ／部１２０の表示部に表示される入力画面の一例を示す図である。歌唱合成装置１０ＡのユーザＩ／部１２０の表示部に表示されるリテイク支援画面の一例を示す図である。歌唱合成装置１０Ａの不揮発性記憶部１４４に格納されているリテイク支援テーブル１４４ｃの一例を示す図である。同不揮発性記憶部１４４に格納されている歌唱合成プログラム１４４ａにしたがって制御部１１０が実行する処理の流れを示すフローチャートである。制御部１１０が生成する歌唱合成用シーケンスデータの一例を示す図である。本実施形態における編集処理の一例を示す図である。同編集処理の効果を説明するための図である。この発明の第２実施形態の歌唱合成装置１０Ｂの構成例を示す図である。歌唱合成装置１０Ｂの制御部１１０が歌唱合成プログラム１４４ｄにしたがって実行する処理の流れを示すフローチャートである。

以下、図面を参照しつつ、本発明の実施形態について説明する。
（Ａ：第１実施形態）
図１は、本発明の第１実施形態の歌唱合成装置１０Ａの構成例を示す図である。歌唱合成装置１０Ａは、従来の歌唱合成装置と同様に、歌唱音声の合成対象の曲のメロディを構成する音符列を表す楽曲情報と、各音符に合わせて歌唱する歌詞を表す歌詞情報とから、歌唱音声の波形データを電気的に生成する装置である。図１に示すように歌唱合成装置１０Ａは、制御部１１０、ユーザＩ／Ｆ部１２０、外部機器Ｉ／Ｆ部１３０、記憶部１４０、およびこれら構成要素間のデータ授受を仲介するバス１５０を含んでいる。

制御部１１０は、例えばＣＰＵ（Central Processing Unit）である。制御部１１０は、記憶部１４０（より正確には、不揮発性記憶部１４４）に格納された歌唱合成プログラム１４４ａを読み出して実行し、歌唱合成装置１０Ａの制御中枢として機能する。歌唱合成プログラム１４４ａにしたがって制御部１１０が実行する処理については後に明らかにする。

ユーザＩ／Ｆ部１２０は、歌唱合成装置１０Ａをユーザに利用させるための各種ユーザインタフェースを提供する。ユーザＩ／Ｆ部１２０には、各種画面を表示するための表示部と、各種データや指示をユーザに入力させるための操作部とが含まれる（図１では、何れも図示略）。表示部は、液晶ディスプレイとその駆動回路により構成され、制御部１１０による制御の下、各種画面を表す画像を表示する。操作部は、テンキーやカーソルキーなどの多数の操作子を備えたキーボードと、マウスなどのポインティングデバイスとを含んでいる。操作部に対してユーザが何らかの操作を行うと、操作部はその操作内容を表すデータをバス１５０を介して制御部１１０に与える。これにより、ユーザの操作内容が制御部１１０に伝達される。

ユーザＩ／Ｆ部１２０に含まれる表示部に表示される画面の一例としては、楽曲情報と歌詞情報とをユーザに入力させるための入力画面と、合成歌唱音声のリテイクを支援するためのリテイク支援画面が挙げられる。図２は、入力画面の一例を示す図である。図２に示すように、この入力画面は領域Ａ０１と領域Ａ０２の２つの領域を有している。領域Ａ０１にはピアノロールを模した画像が表示される。この画像では縦軸方向（ピアノロールにおける鍵の配列方向）がピッチを表し、横軸方向が時間を表す。ユーザは、所望の音高および発音時刻に対応する位置に矩形Ｒ１をマウスなどを用いて領域Ａ０１に描画することで音符に関する情報（音高、発音開始時刻および音符の継続長）を入力することができ、当該音符に合わせて発音する音素を表す平仮名や発音記号を矩形Ｒ１内に入力することで歌詞情報を入力することができる。また、上記矩形Ｒ１の下にピッチカーブＰＣをマウス等を用いて描画することでピッチの時間変化を指定することができる。

領域Ａ０２は、ベロシティ（図２では、「ＶＥＬ」と表記）や音量（図２では、「ＤＹＮ」と表記）など、音声の発声態様を表すパラメータのうち、楽曲情報ではなく歌詞情報でもないパラメータの値およびその時間変化をユーザに指定させるための領域である。例えば、図２では、ベロシティを指定する場合について例示されている。ユーザは、マウス等を用いて所望のパラメータに対応する文字列を指定し、当該パラメータの値を示すグラフ（図２に示す例ではグラフＧ１およびＧ２）を描画することで当該パラメータの値および時間変化を指定することができる。

図２に示す入力画面においてリテイクを所望する時間区間をマウス等によるドラッグにより指定すると、図３（ａ）に示すリテイク支援画面が表示部に表示される。図３（ａ）では、第３小節と第４小節がリテイク区間として指定された場合について例示されている。このリテイク支援画面を視認したユーザは、指示ボタンＢ１をマウスクリックすることで歌唱態様指定メニューＭ１を表示させることができ、この歌唱態様指定メニューＭ１に表示された複数種の歌唱態様（図３に示す例では、「やわらかく」、「かたく」、「子音はっきり」および「母音はっきり」の４種類）のうちから所望のものを選択し、歌唱態様を指示することができる。なお、歌唱態様の指定は音符単位のものに限られず、複数の音符に亙るものであっても良い。例えば、図３（ｂ）に示すように「のびのびと」という歌唱態様が選択された場合には指示の強さを指定するボタンＢ２を表示させ、このボタンＢ２のマウスクリックを契機として指示の強さの時間変化をユーザに指定させるためのグラフ曲線ＧＰを表示し、このグラフ曲線ＧＰをマウス等を用いて変形させることで指示の強さをユーザに入力させるようにすれば良い。

前述した入力画面（図２参照）に対する操作によって各種パラメータを直接編集することで合成歌唱音声のリテイクを行えることは言うまでもない。特に、歌唱合成に精通したユーザであれば、各種パラメータの値をきめ細かく調整することで所望の歌唱態様を自在に実現することができる。しかし、一般的なユーザにとっては、どのパラメータをどのように編集すれば所望の歌唱態様を実現できるのか判らないことが多い。本実施形態の歌唱合成装置１０Ａでは、どのパラメータをどのように編集すれば所望の歌唱態様を実現できるのか判らない一般的なユーザであっても、リテイク区間を指定し、さらにリテイク支援画面にて歌唱態様を指定することで手軽にリテイクを行うことができ、この点に本実施形態の特徴がある。

外部機器Ｉ／Ｆ部１３０は、ＵＳＢ（Universal Serial Bus）インタフェースやＮＩＣ（Network Interface Card）などの各種入出力インタフェースの集合体である。歌唱合成装置１０Ａに外部機器を接続する場合、当該外部機器は外部機器Ｉ／Ｆ部１３０に含まれる各種入出力インタフェースのうちの好適なものに接続される。外部機器Ｉ／Ｆ部１３０に接続される外部機器の一例としては、波形データにしたがって音を再生するサウンドシステムが挙げられる。なお、本実施形態では、歌詞情報および楽曲情報をユーザＩ／Ｆ部１２０を介して歌唱合成装置１０Ａに入力するが、これらの情報を外部機器Ｉ／Ｆ部１３０を介して入力しても良い。具体的には、歌唱音の合成対象の曲についての楽曲情報と歌詞情報とが書き込まれたＵＳＢメモリ等の記憶装置を外部機器Ｉ／Ｆ部１３０に接続し、当該記憶装置からこれら情報を読み出す処理を制御部１１０に実行させるようにすれば良い。

記憶部１４０は、揮発性記憶部１４２と不揮発性記憶部１４４とを含んでいる。揮発性記憶部１４２は、例えばＲＡＭ（Random Access Memory）により構成されている。揮発性記憶部１４２は、各種プログラムを実行する際のワークエリアとして制御部１１０によって利用される。不揮発性記憶部１４４は、例えばハードディスクやフラッシュメモリなどの不揮発性メモリにより構成されている。不揮発性記憶部１４４には、本実施形態の歌唱合成装置１０Ａ特有の機能を制御部１１０に実現させるためのプログラムとデータが格納されている。

不揮発性記憶部１４４に格納されているプログラムの一例としては、歌唱合成プログラム１４４ａが挙げられる。歌唱合成プログラム１４４ａは、従来の歌唱合成技術におけるものと同様、楽曲情報および歌詞情報に基づいて合成歌唱音声を表す波形データを生成する処理を制御部１１０に実行させるとともに、本実施形態特有のリテイク支援処理を制御部１１０に実行させるものである。不揮発性記憶部１４４に格納されているデータの一例としては、各種画面のフォーマットを規定する画面フォーマットデータ（図１では図示略）、歌唱合成用データベース１４４ｂ、およびリテイク支援テーブル１４４ｃが挙げられる。歌唱合成用データベース１４４ｂの詳細については、従来の歌唱合成装置の有する歌唱合成用データベースと特段に変わるとことがないため詳細な説明を省略する。

図４は、リテイク支援テーブル１４４ｃの一例を示す図である。
図４に示すように、リテイク支援テーブル１４４ｃには、リテイク支援画面（図３参照）にて指定可能な歌唱態様を示す歌唱態様識別子（各歌唱態様を表す文字列情報）に対応付けてその歌唱態様を実現し得る複数種類の編集処理を表す処理内容データが格納されている。図４に示す例では、「子音はっきり」という歌唱態様識別子に対応付けて、「（手法Ａ）：ベロシティを下げる（換言すれば、子音の継続長を長くする）」、「（手法Ｂ）：子音の音量を上げる」および「（手法Ｃ）：子音のピッチを下げる」の３種類の編集処理の処理内容を表す処理内容データが格納されている。

図４に示すように一つの歌唱態様に対して複数種類の編集処理を対応付けたのは、その歌唱態様を実現する際にそれら複数種類の編集内容のうちの何れが最も効果的であるのかが、リテイク区間に含まれる音素の前後関係や種類に応じて異なり得るからである。例えば、リテイク区間に含まれる歌詞の子音が「ｓ」であれば、子音「ｓ」はピッチを有しないため、（手法Ｃ）は効果がなく、（手法Ａ）および（手法Ｂ）が効果的と考えられる。また、リテイク区間に含まれる歌詞の子音が「ｔ」であれば、（手法Ｂ）が効果的と考えられ、リテイク区間に含まれる歌詞の子音が「ｄ」であれば、（手法Ａ）、（手法Ｂ）および（手法Ｃ）の何れも効果的と考えられる。

次いで、歌唱合成プログラム１４４ａにしたがって制御部１１０が実行する処理について説明する。制御部１１０は、歌唱合成プログラム１４４ａを揮発性記憶部１４２に読み出し、その実行を開始する。図５は、歌唱合成プログラム１４４ａにしたがって制御部１１０が実行する処理の流れを示すフローチャートである。図５に示すように、歌唱合成プログラム１４４ａにしたがって制御部１１０が実行する処理は、歌唱合成処理（ステップＳＡ１００〜ステップＳＡ１２０）と、リテイク支援処理（ステップＳＡ１３０〜ステップＳＡ１７０）に分けられる。

歌唱合成プログラム１４４ａの実行を開始した制御部１１０は、まず、図２に示す入力画面をユーザＩ／Ｆ部１２０の表示部に表示させ（ステップＳＡ１００）、楽曲情報および歌詞情報の入力を促す。図２に示す入力画面を視認したユーザは、ユーザＩ／Ｆ部１２０の操作部を操作し、歌唱音声の合成を所望する曲の楽曲情報および歌詞情報を入力して合成開始を指示する。ユーザＩ／Ｆ部１２０を介して合成開始を指示されると、制御部１１０はユーザＩ／Ｆ部１２０を介して受け取った楽曲情報および歌詞情報から歌唱合成用シーケンスデータを生成する（ステップＳＡ１１０）。

図６（ａ）は歌唱合成用シーケンスデータの一例である歌唱合成用スコアを示す図である。図６（ａ）に示すように、歌唱合成用スコアは、ピッチデータトラックと音韻データトラックとを含んでいる。ピッチデータトラックと音韻データトラックは時間軸を同じくする時系列データである。ピッチデータトラックには、楽曲を構成する各音符のピッチや音量等を表す各種パラメータがマッピングされ、音韻データトラックには各音符に合わせた発音する歌詞を構成する音素の列がマッピングされる。つまり、図６（ａ）に示す歌唱合成用スコアでは、ピッチデータトラックの時間軸と音韻データトラックの時間軸とを同じにすることで、歌唱音声の合成対象の曲のメロディを構成する音符に関する情報とその音符に合わせて歌唱する歌詞の音素とが対応付けられている。

図６（ｂ）は、歌唱合成用シーケンスデータの他の具体例を示す図である。図６（ｂ）に示す歌唱合成用シーケンスデータはＸＭＬ形式のデータであり、楽曲を構成する音符毎に、当該音符により表される音に関する情報（発音時刻、音符の長さ、音高、音量およびベロシティなど）と、当該音符に合わせて発音する歌詞に関する情報（当該歌詞を表す表音文字および音素）とを対にして記述したデータである。例えば、図６（ｂ）に示すＸＭＬ形式の歌唱合成用シーケンスデータでは、タグ＜ｎｏｔｅ＞とタグ＜／ｎｏｔｅ＞により区画されたデータが１つの音符に対応する。より詳細に説明すると、タグ＜ｎｏｔｅ＞とタグ＜／ｎｏｔｅ＞により区画されたデータのうち、タグ＜ｐｏｓＴｉｃｋ＞とタグ＜／ｐｏｓＴｉｃｋ＞により区画されたデータは音符の発音時刻を、タグ＜ｄｕｒＴｉｃｋ＞とタグ＜／ｄｕｒＴｉｃｋ＞により区画されたデータは音符の長さを、タグ＜ｎｏｔｅＮｕｍ＞とタグ＜／ｎｏｔｅＮｕｍ＞により区画されたデータは音符の音高を各々表す。さらに、タグ＜Ｌｙｒｉｃ＞とタグ＜／Ｌｙｒｉｃ＞により区画されたデータは音符に合わせて発音する歌詞を、タグ＜ｐｈｎｍｓ＞とタグ＜／ｐｈｎｍｓ＞により区画されたデータは当該歌詞に対応する音素を各々表す。

歌唱合成用シーケンスデータをどのような単位で生成するのかについては種々の態様が考えられる。例えば、歌唱音声の合成対象の楽曲全体に亙って一つの歌唱合成用シーケンスデータを生成する態様であっても良く、楽曲の一番や二番、或いはＡメロ、Ｂメロ、サビといったブロック毎に歌唱合成用シーケンスデータを生成する態様であっても良い。ただし、リテイクを行うことを考慮すると、後者の態様が好ましいことは言うまでもない。

ステップＳＡ１１０に後続するステップＳＡ１２０では、制御部１１０は、まず、ステップＳＡ１１０にて生成した歌唱合成用シーケンスデータに基づいて合成歌唱音声の波形データを生成する。なお、合成歌唱音声の波形データの生成については、従来の歌唱合成装置におけるものと特段に変わるところはないため、詳細な説明を省略する。次いで、制御部１１０は、歌唱合成用シーケンスデータに基づいて生成した波形データを、外部機器Ｉ／Ｆ部１３０に接続されたサウンドシステムに与え、音として出力する。
以上が歌唱合成処理である。

次いで、リテイク支援処理について説明する。
ユーザは、サウンドシステムから出力される合成歌唱音を聴き、意図した通りの歌唱音声が合成されているか否かを確かめることができる。そして、ユーザは、ユーザＩ／Ｆ部１２０の操作部を操作し、合成完了、またはリテイクの指示（具体的には、リテイクする時間区間を示す情報）を与えることができる。意図した通りの歌唱音声が合成されていれば、合成完了を指示し、意図した通りに歌唱音声が合成されていない場合にはリテイクを指示するといった具合である。制御部１１０は、ユーザＩ／Ｆ部１２０を介して与えられた指示が、合成完了であるのかそれともリテイクであるのかを判定する（ステップＳＡ１３０）。与えられた指示が合成完了である場合には、制御部１１０は、ステップＳＡ１１０にて生成した歌唱合成用シーケンスデータ（或いはステップＳＡ１２０にて生成した波形データ）を不揮発性記憶部１４４の所定の記憶領域に書き込んで歌唱合成プログラム１４４ａの実行を終了する。これに対して、リテイクを指示された場合には、ステップＳＡ１４０以降の処理を実行する。

リテイクを指示された場合に実行されるステップＳＡ１４０では、制御部１１０は、図３に示すリメイク支援画面をユーザＩ／Ｆ部１２０の表示部に表示させる。このリテイク支援画面を視認したユーザはユーザＩ／Ｆ部１２０の操作部を操作して所望する歌唱態様を指定することができる。このようにして歌唱態様を指定された制御部１１０は、まず、その歌唱態様に対応付けてリテイク支援テーブル１４４ｃに格納されている複数の処理内容データを読み出す（ステップＳＡ１５０）。

次いで、制御部１１０は、ステップＳＡ１５０にて読み出した複数種の処理内容データの各々の示す処理内容にしたがってパラメータを編集する処理を、ステップＳＡ１４０にて指定された区間に属する歌唱合成用シーケンスデータに施すリテイク処理（ステップＳＡ１６０）を実行する。なお、このリテイク処理では、ステップＳＡ１５０にて読み出した複数種の処理内容データの各々にしたがって編集処理を行うだけでなく、それら編集処理のうちの複数を組み合わせて実行するようにしても良い。

例えば、ユーザにより指定された歌唱態様が「子音はっきり」である場合には、図４に示す（手法Ａ）、（手法Ｂ）、および（手法Ｃ）の他に、（手法Ａ）と（手法Ｂ）の組み合わせ、（手法Ａ）と（手法Ｃ）の組み合わせ、（手法Ｂ）と（手法Ｃ）の組み合わせ、さらに（手法Ａ）と（手法Ｂ）と（手法Ｃ）の組み合わせをそれぞれ実行するのである。これはリテイク対象の合成歌唱音声のテンポが遅い場合には（手法Ａ）、（手法Ｂ）、および（手法Ｃ）の何れか１つを実行することで子音の発音をはっきりさせるといった効果が得られると考えられるが、テンポが速い場合やリテイク区間に含まれる音符の音符長が短い場合には、複数の手法を複合的に用いなければ充分な効果が得られないと考えられるからである。

また、リテイク区間におけるフレーズ構造や楽曲構造をリテイク処理に利用しても良い。例えば、歌唱態様として「もっと強く」が指示された場合には、１小節を単位として、リテイク区間全体を強くする、１拍目だけを強くする、２拍目だけを強くする・・・１拍目だけを１０％強くする、１拍目を２０％強くする等の選択肢をユーザに提示し、ユーザの選択に応じてリテイク処理の処理内容を異ならせても良い。また、単語毎にアクセント位置を示す情報を格納した辞書を参照し、リテイク区間の歌詞に含まれる単語のアクセント部分を強調するようにしても良く、このようなアクセント部分の強調を行うか否かをユーザに指定させる選択肢を提示しても良い。

本実施形態の（手法Ａ）による編集では、制御部１１０は、編集前のベロシティＶ０に１／１０を乗算して編集後のベロシティＶ１を算出する。また、（手法Ｂ）による編集では、制御部１１０は、編集前の音量を表すパラメータＤ０［ｔ］に、ノートオン時刻（本動作例では、ｔ＝０）においてピークとなり、その他の時間区間では一定値（本実施形態では、１）となる曲線を表す関数ｋ［ｔ］（図７（ａ）参照）を乗算して編集後の音量を表すパラメータＤ１［ｔ］算出する。これにより、ノートオン時刻付近のみ音量が引き上げられる。そして、（手法Ｃ）による編集では、制御部１１０は、編集前のピッチを表すパラメータＰ０［ｔ］から、ノートオン時刻（本動作例では、ｔ＝０）において急峻な谷を有する曲線を表す関数ｋ［ｔ］（図７（ｂ）参照）を減算して編集後のピッチを表すパラメータＰ１［ｔ］算出し、さらにピッチベンドセンシビリティを表すパラメータＢ１［ｔ］として図７（ｂ）に示す関数ｎ［ｔ］の値を用いる。

上記リテイク処理を完了すると、制御部１１０は、選択支援処理を実行する（ステップＳＡ１７０）。この選択支援処理では、制御部１１０は、リテイク処理により生成した各歌唱合成用シーケンスデータの表す歌唱音声をユーザに提示し、何れか１の歌唱合成用シーケンスデータの選択をユーザに促す。ユーザは、歌唱合成装置１０Ａにより提示される歌唱音声を試聴し、リテイク支援画面にて指定した歌唱態様を最も実現できていると思うものを選択することでリテイク完了を歌唱合成装置１０Ａに指示する。制御部１１０は、ユーザから与えられた指示にしたがって歌唱合成用シーケンスデータを保存し、これにより合成歌唱音声のリテイクが完了する。

例えば、リテイク区間における歌詞が「あさ」であり、リテイク前の音波形が図８（ａ）に示す波形である場合、（手法Ａ）による編集を施すことで編集後の音波形は図８（ｂ）に示す波形となり、（手法Ｂ）による編集を施すことで編集後の音波形は図８（ｃ）に示す波形となる。また、リテイク区間における歌詞が「あだ」であり、リテイク前の音波形が図８（ｄ）に示す波形である場合、（手法Ｃ）による編集を施すことで編集後の音波形は図８（ｅ）に示す波形となる。図８（ａ）に示す音波形と図８（ｂ）（或いは図８（ｃ））に示す音波形との相違、或いは図８（ｄ）に示す音波形と図８（ｅ）に示す音波形との相違をユーザは、子音がはっきりと聴こえるといった聴感の相違として感得するのである。

以上説明したように本実施形態によれば、ピッチやベロシティ、音量などのパラメータを直接編集することなく、所望の歌唱態様による合成歌唱音声のリテイクを実現することが可能になる。なお、本実施形態では、ステップＳＡ１５０にて取得した処理内容データの各々を用いて歌唱合成用シーケンスデータを編集し、各処理内容データに応じた歌唱合成用シーケンスデータを生成した後に選択支援処理を実行する場合について説明したが、処理内容データの数分だけリテイク処理およびリテイク結果の提示を繰り返しても良い。具体的には、処理内容データの数分だけ、歌唱合成用シーケンスデータの編集→編集後の歌唱合成用シーケンスデータに基づく波形データの生成→当該波形データを音として出力（すなわち、編集結果の提示）を繰り返しても勿論良い。

また、指定可能な歌唱態様の種類に比較して歌唱態様指定メニューＭ１として表示可能な画面サイズが小さい場合には、それら歌唱態様を予めグループ分け（例えば、音符単位の歌唱態様に関するものと、複数の音符に亙る歌唱態様に関するものとでグループ分けするなど）しておき、音符単位の歌唱態様の指定→歌唱合成用シーケンスデータの編集→編集後の歌唱合成用シーケンスデータに基づく波形データの生成→当該波形データを音として出力→複数の音符に亙る歌唱態様の指定→歌唱合成用シーケンスデータの編集→・・・といった具合に、ステップＳＡ１４０〜ステップＳＡ１７０の処理をグループの数分だけ繰り返す（或いは、１つのグループについてのステップＳＡ１４０〜ステップＳＡ１７０の処理の完了を契機としてステップＳＡ１３０の処理を実行して合成完了またはリテイクの指示入力をユーザに促し、リテイク指示が与えられた場合（すなわち、リテイクの再実行の指示が与えられた場合）に他のグループについての処理を開始し、合成完了を指示された場合には他のグループについての処理を省略する）ようにしても良い。なお、リテイクの再実行を指示された場合には改めてリテイク区間を再指定させても良く、リテイク区間の指定を省略しても（すなわち、１つ前のグループと同じリテイク区間とする）良い。このような態様によれば、歌唱態様指定メニューＭ１を充分な画面サイズで表示できない場合に対処できることは勿論、様々な歌唱態様を一度に提示することに起因するユーザの混乱を避けることができるといった効果もある。

また、歌唱態様を音符単位のもの、複数の音符に亙るもの、複数の小節に亙るもの・・・とグループ分けする態様においては、音符単位の歌唱態様のグループから順にユーザに歌唱態様を提示することで、音符単位のものからより編集範囲の広いものへとシステマティックにリテイク結果を確認することが可能になり、歌唱合成に不慣れな初心者ユーザであっても、歌唱音声のリテイクを簡単かつシステマティックに行うことが可能になる。なお、歌唱態様をグループ分けの結果、１つのグループに属する歌唱態様が１種類だけとなって勿論良く、その場合は当該グループについて歌唱態様指定メニューＭ１を表示する際にその歌唱態様を表す歌唱態様識別子（例えば、「子音をはっきり」など）に代えて単に「リテイク」と記載した歌唱態様指定メニューＭ１を表示しても良い。初心者ユーザに対しては詳細な情報を提示しても迷いや不安を生じさせる虞があり、簡素な表示とすることが好ましい場合があるからである。

（Ｂ：第２実施形態）
図９は、本発明の第２実施形態の歌唱合成装置１０Ｂの構成例を示す図である。
図９では図１と同一の構成要素には同一の符号が付与されている。図９と図１とを対比すれば明らかなように、歌唱合成装置１０Ｂの構成は、歌唱合成プログラム１４４ａに換えて歌唱合成プログラム１４４ｄが不揮発性記憶部１４４に格納されている点が歌唱合成装置１０Ａの構成と異なる。以下、第１実施形態との相違点である歌唱合成プログラム１４４ｄを中心に説明する。

図１０は歌唱合成プログラム１４４ｄにしたがって制御部１１０が実行する処理の流れを示すフローチャートである。図１０と図５とを対比すれば明らかように、本実施形態の歌唱合成プログラム１４４ｄは、リテイク処理（ステップＳＡ１６０）に後続して事前評価処理（ステップＳＡ１６５）を制御部１１０に実行させ、この事前評価処理の実行後に選択支援処理（ステップＳＡ１７０）を制御部１１０に実行させる点が第１実施形態の歌唱合成プログラム１４４ａと異なる。以下、第１実施形態との相違点である事前評価処理（ステップＳＡ１６５）を中心に説明する。

事前評価処理（ステップＳＡ１６５）では、制御部１１０は、リテイク処理にて生成した各歌唱合成用シーケンスデータについて、その歌唱合成用シーケンスデータにしたがって波形データを生成し、元の歌唱合成用シーケンスデータにしたがって生成した波形データと差があるか否かを判定し、差がないと判定した歌唱合成用シーケンスデータを選択支援処理（ステップＳＡ１７０）におけるユーザへの提示対象から除外する。ここで、リテイク処理にて生成された歌唱合成用シーケンスデータにしたがって生成された波形データと元の歌唱合成用シーケンスデータにしたがって生成した波形データとに差があるか否かの具体的な判定方法としては、前者の波形データを表すサンプル列と後者の波形データを表すサンプル列とについて、同じ時刻のサンプル同士の差（例えば振幅差）を求め、当該差の絶対値の総和が所定の閾値を上回っている場合に「差がある」と判定する態様や、両サンプル列の相関係数を求め、当該相関係数の値がどの程度１を下回っているかに応じて判定する態様が考えられる。このような事前評価処理を設けた理由は以下の通りである。

歌唱態様識別子に対応付けられた複数種の処理内容データの各々の表す編集処理は、何れもその歌唱態様識別子の表す歌唱態様を実現し得るものではあるが、リテイク区間に含まれる音素との関係、或いはテンポや音符長との関係では充分な効果が得られない場合があることは前述した通りである。処理内容データの示す編集を施して生成された歌唱合成用シーケンスデータにしたがって生成された波形データと、元の歌唱合成用シーケンスデータにしたがって生成された波形データとに差がないということは、その処理内容データの示す編集内容が歌唱態様の実現に充分な効果を発揮していないことを意味する。つまり、本実施形態の事前評価処理は、ユーザにより指定された歌唱態様を充分に実現することができなかったリテイク結果をユーザによる確認対象から除外し、ユーザによる確認作業を効率的に行わせるようにするために設けられているのである。

本実施形態によっても、第１実施形態と同様に、ピッチやベロシティ、音量などのパラメータを直接編集することなく、所望の歌唱態様による合成歌唱音声のリテイクを実現することができる。加えて、本実施形態によれば、効果のなかったリテイク結果をユーザへの提示対象から除外し、ユーザによるリテイク結果の確認および選択を効率的に行わせることができる。

（Ｃ：変形）
以上本発明の第１および第２実施形態について説明したが、これら実施形態に以下の変形を加えても勿論良い。
（１）上記各実施形態では、楽曲情報および歌詞情報に基づいて歌唱音声を電気的に合成する歌唱合成装置への適用例を説明した。しかし、本発明の適用対象は歌唱合成装置に限定されるものではなく、文芸作品の朗読音声やガイダンス音声を、合成対象の音声における韻律変化を示す情報（歌唱合成における楽曲情報に対応する情報）とその音声の音素列を表す情報（歌唱合成における歌詞情報に対応する情報）とに基づいて電気的に合成する音声合成装置に適用しても勿論良い。また、専ら音声合成を行う装置ではなく、例えば、キャラクタのセリフを音声出力するロールプレイングゲーム等を実行するゲーム機や音声再生機能を備えた玩具など、他の処理と並列に（或いは他の処理の一部として）音声合成処理を実行する装置に本発明を適用しても勿論良い。

（２）上記各実施形態では、リテイク支援テーブル１４４ｃは歌唱合成プログラムとは別個のデータとして不揮発性記憶部１４４に格納されていた。しかし、リテイク支援テーブル１４４ｃを歌唱合成プログラムと一体にして（すなわち、歌唱合成プログラムにリテイク支援テーブル１４４ｃを内蔵して）不揮発性記憶部１４４に格納しても良い。

（３）上記各実施形態では、歌唱態様を示す歌唱態様識別子に対応付けて各々異なる編集処理を表す処理内容データがリテイク支援テーブル１４４ｃに格納されていた。しかし、同じ編集内容を表すものの各々編集の強さが異なる複数の処理内容データを、各々異なる編集内容を表すものとしてリテイク支援テーブル１４４ｃに格納しておいても良い。例えば、ベロシティを１／２にすることを示す処理内容データを（手法Ａ１）を示す処理内容データとして、ベロシティを１／３にすることを示す処理内容データを（手法Ａ２）を示す処理内容データとして、ベロシティを１／１０にすることを示す処理内容データを（手法Ａ３）を示す処理内容データとして、前述した（手法Ａ）を示す処理内容データに換えて図４に示すリテイク支援テーブル１４４ｃに格納しておくといった具合である。この場合、（手法Ａ１）と（手法Ａ２）の組み合わせを、ベロシティを１／６にする編集処理として扱っても良く、同じ編集内容を表すものの各々編集の強さが異なる複数の編集処理を組み合わせないようにしても良い。

（４）上記各実施形態では、リテイク支援テーブル１４４ｃには、リテイク支援画面にて指定可能な歌唱態様を示す歌唱態様識別子に対応付けてその歌唱態様を実現し得る複数種類の編集処理を表す処理内容データが格納されていた。しかし、リテイク支援テーブル１４４ｃには各々異なる処理内容を表す処理内容データのみを格納しておき、これら処理内容データの各々にしたがった編集処理を歌唱合成用シーケンスデータに施し、その編集結果をユーザに確認させて所望のリテイク結果を選択させるようにしても良く、また、その編集処理によってどのような効果があったのかをユーザに確認させ、効果毎に処理内容データをユーザに分類させても良い。

（５）同じ歌唱態様を実現する複数種の編集処理の各々にユーザの好みに応じた優先度を付け、優先度の高い編集処理によるリテイク結果から順にユーザに提示されるようにしても良い。具体的には、処理内容データに対応付けてその処理内容データの表す編集処理の優先度を示す優先度データ（工場出荷時などの初期状態では、全て同じ値）をリテイク支援テーブル１４４ｃに格納しておき、選択支援処理において、リテイク結果に対する評価値（例えば、効果がないと思われる場合には０、効果が大きいと思われるほど大きな値、）をユーザに入力させ、その評価値に応じて各処理内容データの優先度を更新する評価処理を制御部１１０に実行させるのである。そして、選択支援処理においては優先度の高い処理内容データの表す処理内容により生成されたリテイク結果から順にユーザに提示するのである。このような態様によれば、ある歌唱態様を実現する際にどの編集処理を用いるのかについてユーザの好みを反映させることが可能になるとともに、ユーザの好みに応じた順にリテイク結果を提示することが可能になる。また、リテイク区間に含まれる音素毎に優先度データを格納し、ユーザにより指定された歌唱態様とリテイク区間に含まれる音素とに応じて編集処理を選択するようにしても良い。

また、優先度の高い順に処理内容データ毎にリテイク処理、リテイク結果の提示、および評価入力（合成完了またはリテイク指示の何れかの入力を促す処理）を行い、リテイクを指示される毎に優先度の更新を行うようにしても良い。このような態様によれば、編集処理の採用順が動的に入れ替わる可能性があり、ユーザによるリテイク結果の確認および選択を効率的に行わせるといった効果を一層強めることができると期待される。

（６）上記各実施形態では、楽曲情報および歌詞情報の入力やリテイク区間および歌唱態様の指定を、歌唱合成装置に設けられたユーザＩ／Ｆ部１２０を介して行う場合について説明した。しかし、インターネットなどの電気通信回線を介して通信相手とデータの送受信を行う通信Ｉ／Ｆ部をユーザＩ／Ｆ部１２０の代わりに設け、上記電気通信回線を介して楽曲情報および歌詞情報の入力や、リテイク区間および歌唱態様の指定を行うとともに、リテイク処理にて生成した各歌唱合成用シーケンスデータ（或いは当該歌唱合成用シーケンスデータにしたがって生成した波形データ）を上記電気通信回線を介して返信するようにしても良い。このような態様によれば、所謂クラウド形態の歌唱合成サービスを提供することが可能になる。

（７）上記各実施形態では、本発明の特徴を顕著に示す処理を制御部１１０に実行させるプログラム（第１実施形態では歌唱合成プログラム１４４ａ、第２実施形態では歌唱合成プログラム１４４ｄ）が歌唱合成装置の不揮発性記憶部に予め格納されていた。しかし、上記プログラムをＣＤ−ＲＯＭなどのコンピュータ読み取り可能な記録媒体に書き込んで配布しても良く、また、インターネットなどの電気通信回線経由のダウンロードにより配布しても良い。このようにして配布されるプログラムにしたがって一般的なコンピュータを上記各実施形態の歌唱合成装置として機能させることが可能になるからである。

また、上記各実施形態では、本発明の特徴を顕著に示す処理（第１実施形態においてはリテイク処理および選択支援処理、第２実施形態においてはこれら２つの処理に加えて事前評価処理）をソフトウェアにより実現した。しかし、リテイク処理を実行するリテイク手段を電子回路により構成するとともに選択支援処理を実行する選択支援手段を電子回路により構成し、これら電子回路を一般的な歌唱合成装置に組み込んで上記第１実施形態の歌唱合成装置１０Ａとしても良く、さらに事前評価処理を実行する電子回路を事前評価手段として組み込んで上記第２実施形態の歌唱合成装置１０Ｂとしても良い。

１０Ａ，１０Ｂ…歌唱合成装置、１１０…制御部、１２０…ユーザＩ／Ｆ部、１３０…外部機器Ｉ／Ｆ部、１４０…記憶部、１４２…揮発性記憶部、１４４…不揮発性記憶部、１５０…バス。

Claims

音声の発声態様を表す複数種のパラメータを含むシーケンスデータに従って音声を合成する音声合成装置において、
音声を合成し直すリテイク区間をユーザに指定させ、前記シーケンスデータに含まれるパラメータのうち当該リテイク区間におけるパラメータを予め定められた複数種の編集処理の各々によって編集し、リテイク結果を表すシーケンスデータを生成するリテイク手段と、
前記リテイク手段により生成されたシーケンスデータの表す音を提示してリテイク再実行またはリテイク完了をユーザに選択させる選択支援手段と、
前記複数種の編集処理の各々による編集を経たシーケンスデータにしたがって合成される音声のうち編集前のシーケンスデータにしたがって合成される音声との差が少ないものを前記選択支援手段による提示対象から除外する事前評価手段と、
を有することを特徴とする音声合成装置。
前記複数種の編集処理の各々は、編集処理を施すことで実現される音声の発声態様毎にグループ分けされており、
前記リテイク手段は、リテイク区間とともに当該リテイク区間における音声の発声態様をユーザに指定させ、ユーザにより指定された音声の発声態様に対応する編集処理によってリテイク結果を表すシーケンスデータを生成する
ことを特徴とする請求項１に記載の音声合成装置。
前記複数種の編集処理の各々の処理内容を表す処理内容データと当該複数種の編集処理の各々を用いる優先度を表す優先度データとを対応付けて格納したテーブルと、
前記リテイク手段により生成されたシーケンスデータの表す音に対するユーザの評価値を入力させ、そのシーケンスデータの生成に用いた編集処理の処理内容を表す処理内容データに対応付けられた優先度データを当該評価値に応じて更新する評価手段と、を有し、
前記選択支援手段は、前記優先度の高い順に前記リテイク手段により生成されたシーケンスデータの表す音を提示する
ことを特徴とする請求項１または２に記載の音声合成装置。