JP6435791B2

JP6435791B2 - 表示制御装置および表示制御方法

Info

Publication number: JP6435791B2
Application number: JP2014228912A
Authority: JP
Inventors: 誠橘; 橘　　誠
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2014-11-11
Filing date: 2014-11-11
Publication date: 2018-12-12
Anticipated expiration: 2034-11-11
Also published as: JP2016090966A

Description

本発明は、音声合成に利用する合成情報を表示させる技術に関する。

発音文字と発音期間と音高とを音符毎に指定する合成情報に応じて所望の音声を合成する音声合成技術が従来から提案されている。例えば、特許文献１には、音楽情報画像（音高に対応する音高軸と時間に対応する時間軸とが設定されたピアノロール型の画像領域）を表示させて、利用者が各音符の音高や発音文字や発音期間（発音期間の始点および終点，継続長）を視覚的に確認しながら音楽情報を生成または編集することが可能な構成が開示されている。

特開２０１１−０９５３９６号公報

ところで、合成情報で指定される音符の発音期間の始点で母音が発音されて、子音の発音期間は音符の発音期間の始点に先行する。しかし、特許文献１の技術では、合成情報で指定された発音期間が音楽情報画像に表示されるに過ぎないから、子音の発音期間の開始点を利用者が視覚的に認識できないという問題があった。以上の事情を考慮して、本発明は、合成情報で指定される発音期間の始点に先行して発音される音素の発音期間の始点を利用者が視覚的に把握できるようにすることを目的とする。

以上の課題を解決するために、本発明の表示制御装置は、発音文字と発音期間と音高とを音符毎に指定する音声合成用の合成情報を参照して、各音符を表象する音符図像を時間軸上に配置した音符列画像を表示装置に表示させる表示制御手段を具備し、前記表示制御手段は、前記合成情報で指定される一の音符の発音文字が第１音素と前記第１音素の後方の第２音素とを含み、且つ、前記合成情報を適用した合成音声において前記第１音素の発音の始点が当該一の音符の発音期間の始点に対して時間軸上で先行する場合に、前記第１音素の発音の始点を時間軸上で示す先行音素画像を前記一の音符の音符図像に対応付けて表示させる。以上の構成では、合成情報で指定される一の音符の発音文字が第１音素と第２音素とを含み、且つ、第１音素の発音の始点が、当該一の音符の発音期間の始点に対して時間軸上で先行する場合には、先行音素画像が表示されるから、利用者は、音符の発音期間の始点を音符図像により視覚的に把握するとともに、第１音素の発音の始点を先行音素画像により視覚的に把握することが可能である。なお、第１音素は、第２音素の直前の１個の音素、または、第２音素に先行する複数の音素のうち任意の１個の音素（典型的には複数個のうち最初の音素）を意味する。

本発明の好適な態様において、前記表示制御手段は、各音符の音高遷移を示す線状の音高遷移画像と前記先行音素画像とを前記各音符の音符図像に対応付けて表示させ、前記先行音素画像は、時間軸上における第１音素の発音の始点を端点として前記音高遷移画像に連続する線状の画像である。以上の態様では、第１音素の発音の始点を端点として、音高遷移画像に連続する線状の音高遷移画像が、各音符の音高遷移を示す線状の音高遷移画像に対応付けて表示される。以上の態様によれば、利用者は時間軸上における各音符の音高遷移を音高遷移画像により視覚的に把握するとともに、先行音素画像の端点で第１音素の発音の始点を視覚的に把握することが可能である。また、先行音素画像と音高遷移画像とは、時間軸上で連続する線状の画像として表示されるから、利用者は第１音素の発音の開始点と各音符の音高遷移とを直感的に把握することが可能である。

本発明の好適な態様において、前記表示制御手段は、前記先行音素画像の前記端点の音高軸上の位置を、直前の音符の音高に応じて変化させる。以上の態様では、先行音素画像の端点の音高軸上の位置は、直前の音符の音高に応じて変化する。したがって、先行音素画像を視認することで、利用者は、前述の通り第１音素の発音の始点を視覚的に把握するとともに、直前の音符からの音高の変化も直観的に把握できるという利点がある。

本発明の好適な態様において、前記表示制御手段は、一の音符と直前の音符との間隔が閾値を上回る場合に、前記先行音素画像の端点の位置を、前記一の音符の音高に応じた所定の初期位置に設定し、前記一の音符と直前の音符との間隔が閾値を下回る場合に、前記先行音素画像の端点の位置を前記初期位置から変化させる。時間軸上で相前後する音符が存在する場合、先行する音符と後続する音符との間隔に応じて、先行する音符の音高が後続する音符の音高に影響を与える傾向がある。具体的には、先行する音符と後続する音符との間隔が長ければ、先行する音符の音高が後続する音符の音高に与える影響が少ない。他方、先行する音符と後続する音符との間隔が短い場合では、先行する音符の音高が後続する音符の音高に与える影響が大きい。直前の音符との間隔が閾値を上回る場合に先行音素画像の端点の位置を初期位置に設定し、間隔が閾値を下回る場合に端点の位置を初期位置から変化させる前述の態様によれば、音符間の間隔による音高の影響を利用者が直観的に把握できるという利点がある。

本発明の好適な態様において、前記表示制御手段は、前記音高遷移画像と前記先行音素画像とを相異なる態様で表示させる。相異なる態様の一例としては、例えば、音高遷移画像と先行音素画像とで、相互に色彩や明度や彩度を異ならせる構成が好適に採用され得る。以上の態様によれば、音符の音高遷移と、第１音素の発音の始点とを、利用者が視覚的且つ直感的に認識することが可能である。

本発明の好適な態様において、前記表示制御手段は、第１音素の種別に応じて第１音素の発音の時間長を設定する。以上の態様によれば、例えば、第１音素の種別に応じて第１音素の発音の時間長が設定される。したがって、音素の種別毎の相違を踏まえた最適な時間長を設定することが可能になる。

本発明の好適な態様において、前記合成情報は、利用者からの指示に応じた制御情報を音符毎に含み、前記表示制御手段は、第１音素の種別に応じた数値を上限値として前記第１音素の発音の時間長を、前記制御情報に応じて設定する。以上の態様によれば、音素の種別毎に設定された上限値の範囲内で利用者から指定された制御情報に応じて第１音素の発音の時間長が設定されるから、音素の種別毎の相違を前提として、利用者の指示を反映させた時間長を設定することが可能になる。

以上の各態様に係る表示制御装置は、合成情報の編集や音声信号の生成に専用されるDSP（Digital Signal Processor）等のハードウェア（電子回路）によって実現されるほか、CPU（Central Processing Unit）等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、例えば、本発明のプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。また、本発明は、以上に説明した各態様に係る表示制御装置の動作方法（表示制御方法）としても特定される。

第１実施形態に係る音声合成装置１００のブロック図である。第１実施形態の合成情報Ｓの模式図である。第１実施形態の表示制御部２４に表示される編集画面４０の模式図である。第１音素と第２音素とを包含する音符図像５４を拡大して示す模式図である。第１実施形態の音素種別情報Ｆの説明図である。第１実施形態の表示制御部２４の動作を示すフローチャートである。第２実施形態の合成情報Ｓの模式図である。第２実施形態の表示制御部２４に表示される編集画面４０の模式図である。第２実施形態の音素種別情報Ｆの説明図である。第３実施形態の表示制御部２４に表示される編集画面４０の模式図である。第３実施形態の表示制御部２４に表示される編集画面４０の模式図である。第４実施形態の表示制御部２４に表示される編集画面４０の模式図である。変形例の音符図像５４の模式図である。変形例の音符図像５４の模式図である。変形例の音符図像５４の模式図である。

＜第１実施形態＞
図１は、本発明の第１実施形態に係る音声合成装置１００のブロック図である。音声合成装置１００は、発話音や歌唱音等の音声を素片接続型の音声合成処理で生成する信号処理装置であり、図１に示すように、演算処理装置１２と記憶装置１４と表示装置１６と入力装置１７と放音装置１８とを具備するコンピュータシステムで実現される。第１実施形態では、特定の楽曲（以下「合成楽曲」という）の歌唱音声の音声信号Ｚを生成する場合を想定する。

表示装置１６（例えば液晶表示装置）は、演算処理装置１２から指示された画像を表示する。入力装置１７は、利用者からの指示を受付ける機器（例えばマウスやキーボード）である。放音装置１８（例えばヘッドホンやスピーカ）は、演算処理装置１２が生成した音声信号Ｚに応じた音波を放射する。

記憶装置１４は、演算処理装置１２が実行するプログラムＰGMや演算処理装置１２が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置１４として採用される。第１実施形態の記憶装置１４は、以下に例示する通り、音声素片群Ｌと合成情報Ｓと音素種別情報Ｆとを記憶する。

音声素片群Ｌは、特定の発声者の収録音声から事前に採取された複数の音声素片の集合（音声合成用ライブラリ）である。各音声素片は、言語的な意味の最小単位である音素単体（例えば母音や子音）、または複数の音素を連結した音素連鎖（例えばダイフォンやトライフォン）であり、時間領域の音声波形のサンプル系列や、音声波形のフレーム毎に算定された周波数領域のスペクトルの時系列で表現される。

合成情報Ｓは、図２に例示される通り、合成楽曲の歌唱音声を指定する時系列データであり、合成楽曲を構成する音符毎に発音文字Ｘ1と発音期間Ｘ2と音高（例えばノートナンバー）Ｘ3とを時系列に指定する。発音文字Ｘ1は、母音単体または子音と母音との組合せで構成される音節（モーラ）を表現する符号である。発音期間Ｘ2は、音符の時間長（音価）であり、例えば発音の開始時刻と時間長（継続長）または終了時刻とで規定される。以上の説明から理解される通り、合成情報Ｓは、合成楽曲の楽譜を指定する時系列データとも換言され得る。

演算処理装置１２（ＣＰＵ）は、記憶装置１４に格納されたプログラムＰGMの実行で、合成音の波形を表す音声信号Ｚを生成するための複数の機能（情報編集部２２，表示制御部２４，音声合成部２８）を実現する。なお、演算処理装置１２の各機能を複数の集積回路に分散した構成や、専用の電子回路（ＤＳＰ）が一部の機能を実現する構成も採用され得る。

表示制御部２４は、各種の画像を表示装置１６に表示させる。第１実施形態の表示制御部２４は、合成情報Ｓを参照して、合成楽曲の内容（音符列）を利用者が確認および編集するための図３の編集画面４０を表示装置１６に表示させる。

図３は編集画面４０の一例を示す図である。図３に例示される通り、編集画面４０は、利用者から指示された各音符を表象する画像（以下「音符図像」という）５４を時間軸上に配置した音符列画像Ｎを包含する。音符列画像Ｎは、相互に交差する時間軸（横軸）および音高軸（縦軸）が設定されたピアノロール型の座標平面を包含する。音高軸の方向における音符図像５４の位置は当該音符の音高Ｘ3に応じて選定され、時間軸の方向における音符図像５４の位置および表示長は当該音符の発音期間Ｘ2に応じて選定される。利用者は、編集画面４０を視認しながら入力装置１７を適宜に操作することで、新規な音符図像５４の追加や既存の音符図像５４の移動または伸縮を指示することが可能である。

図１の情報編集部２２は、合成情報Ｓを管理する。具体的には、情報編集部２２は、入力装置１７に対する利用者からの指示に応じて合成情報Ｓを生成および編集する。例えば、情報編集部２２は、音符列画像Ｎに対する音符図像５４の追加や、任意の音符図像５４の移動や時間軸上の伸縮の指示に応じて、編集画面４０での編集内容を反映させるように合成情報Ｓを更新する。

表示制御部２４は、利用者から指示された発音文字Ｘ1を、音符図像５４とともに（例えば図３の例示のように音符図像５４に重ねて）表示装置１６に表示させる。図３の編集画面４０では、時間軸上に配置された各発音文字Ｘ1“す”，“な”，“あ”，“る”，“あ”を５個の音符に割当てた音符図像５４を例示している。以上の例示から把握される通り、各発音文字Ｘ1は、母音単体で構成される発音文字（“あ[a]”）と、子音と母音との組み合わせで構成される発音文字（“す[s-u]”，“な[n-a]”，“る[r-u]”）とを包含する。

音声合成部２８は、記憶装置１４に記憶された音声素片群Ｌと合成情報Ｓとを利用した音声合成処理で音声信号Ｚを生成する。第１実施形態の音声合成部２８は、音高遷移生成部２８２を包含する。音高遷移生成部２８２は、合成情報Ｓが指定する各音符の音高の時間軸上の変化（以下「音高遷移」という）を生成する。例えば、時間軸上で相連続する音符間で音高が滑らかに変化するように音高遷移生成部２８２は音高遷移を設定する。音声合成部２８は、合成情報Ｓが時系列に指定する各発音文字Ｘ1に対応した音声素片を音声素片群Ｌから順次に選択するとともに、音高遷移生成部２８２が生成した音高遷移に沿うように各音声素片の音高を調整し、発音期間Ｘ2に応じて伸縮したうえで相互に連結することで音声信号Ｚを生成する。音声合成部２８は、発音文字Ｘ1を構成する母音の音素が、音符の始点（音符図像５４の始点）に合致するように音声合成する。具体的には、子音と母音との組み合わせで構成される発音文字Ｘ1は、各音符の発音期間の始点前に子音の音素の発音が開始され、音符の発音期間の始点で母音の発音が開始されるように音声合成する。他方、母音単体で構成される発音文字Ｘ1では、母音の音素の発音の始点が音符の始点に合致するように音声合成する。

図３に例示される通り、第１実施形態の表示制御部２４は、各音符図像５４に遷移画像ＴRを対応付けて表示させる。本実施形態の表示制御部２４は、図３に例示される通り、発音文字Ｘ1が母音単体で構成される場合（“あ[a]”）と、子音と母音との組み合わせにより構成される場合（“す[s-u]”，“な[n-a]”，“る[r-u]”）とで、相異なる遷移画像ＴRを、音符図像５４に対応付けて表示させる。具体的には、例えば図３の発音文字“あ[a]”のように発音文字Ｘ1が母音単体で構成される場合、遷移画像ＴRは、音高遷移生成部２８２が当該音符について生成した音高遷移（ピッチカーブ）を示す線状の音高遷移画像ＰCで構成される。他方、発音文字Ｘ1が子音と母音との組み合わせにより構成される場合（例えば、子音の第１音素「s」と母音の第２音素「u」とを含む発音文字“す[s-u]”）、遷移画像ＴRは、図３および図４に例示される通り、第１音素の発音の始点を時間軸上で示す先行音素画像Ｇと音高遷移画像ＰCとによって構成される。第２音素は、第１音素の後方の音素（第１実施形態の例示のように発音文字Ｘ1が第１音素および第２音素の２個の音素で構成される構成では第１音素の直後の音素）である。

図４は、発音文字Ｘ1が第１音素（子音）と第２音素（母音）との組み合わせにより構成される場合の遷移画像ＴRの説明図である。表示制御部２４は、第１音素「s」の発音の始点を示す先行音素画像Ｇと当該音符の音高遷移を表す音高遷移画像ＰCとを包含する遷移画像ＴRを音符図像５４に対応付けて表示させる。図４に例示されるように、先行音素画像Ｇは、第１音素「s」の発音の始点を端点Ｅとして後続の音高遷移画像ＰCに連続する線状の画像である。以上の通り、第１音素たる子音については実際には音高を特定できないが、遷移画像ＴRでは、便宜的に、先行音素画像Ｇと音高遷移画像ＰCとが時間軸上で連続する線状の画像として表示される。以上の説明では、図３の音符列画像Ｎの第１番目に表示される発音文字“す[s-u]”を例示して説明したが、第１音素と第２音素とを包含する他の発音文字（“な[n-a]”，“る[r-u]”）についても、先行音素画像Ｇと音高遷移画像ＰCとを含む遷移画像ＴRが表示制御部２４によって表示される。

本実施形態の表示制御部２４は、遷移画像ＴRを構成する音高遷移画像ＰCと先行音素画像Ｇとを相異なる態様で表示させる。例えば、図４に例示されるように、先行音素画像Ｇと音高遷移画像ＰCとは、線の太さが相互に異なるように、表示制御部２４によって表示される。利用者は、編集画面４０上に相異なる態様で表示された先行音素画像Ｇと音高遷移画像ＰCとを視認することで、第１音素の発音の開始点Ｅと、時間軸上における各音符列画像Ｎの音高遷移との両方を直感的に把握することが可能である。

図４で、先行音素画像Ｇの端点Ｅと音符図像５４の始点（音符の発音の始点）とで規定される継続長ＴAは、第１音素「s」の発音の時間長を意味する。他方、音符図像５４の始点と終点とで規定される継続長ＴBは、母音である第２音素の発音の時間長（すなわち発音期間Ｘ2）を意味する。第１音素の継続長ＴAは、第１音素の種別に応じて、表示制御部２４によって設定される。例えば、図３では、第１音素の種別（[s]と[n]と[r]）に応じて相異なる継続長ＴAが設定された場合が例示されている。種別毎の音素の継続長ＴAの設定には、記憶装置１４に記憶された音素種別情報Ｆが利用される。

図５は、音素種別情報Ｆの説明図である。音素種別情報Ｆは、音素の種別毎に継続長ＴA（ＴA1，ＴA2，……）を指定するデータテーブルである。図５では、半母音（/ｗ/，/ｙ/），鼻音（/ｍ/，/ｎ/），流音（/ｒ/），破裂音（/ｔ/，/ｋ/，/ｐ/），破擦音（/ｔｓ/），摩擦音（/ｓ/，/ｆ/）が音素の種別として例示されている。音素種別情報Ｆで指定される発音の継続長ＴAは音素の種別毎に相違する。例えば、伸張処理に使用するアルゴリズムの違いに応じて、破擦音や摩擦音の時間長ＴAを破裂音や流音の時間長ＴAよりも長い傾向に設定することができる。

表示制御部２４は、音素種別情報Ｆを参照し、各音符の発音文字Ｘ1が包含する第１音素の種別に対応付けられた継続長ＴAを、当該音符の第１音素の発音の時間の継続長ＴAとして設定する。図３の例では、第１番目の音符の第１音素[s]には継続長ＴA6が、第２番目の音符の第１音素[n]には継続長ＴA2が、第４番目の音符の第１音素[r]には継続長ＴA3が、第１音素（[s]，[n]，[r]）の発音の継続長ＴAとして表示制御部２４によって設定される。表示制御部２４は、以上の方法で設定した継続長ＴAだけ当該音符の始点から手前の時点を端点Ｅとして音高遷移画像ＰCまで継続長ＴAにわたる先行音素画像Ｇを、各音符の音符図像５４と音高遷移画像ＰCとに対応付けて表示装置１６に表示させる。

図６は、第１実施形態に係る表示制御部２４の概略的な動作のフローチャートである。例えば入力装置１７に対する利用者からの指示（合成情報Ｓの編集指示）に応じて編集画面４０が表示装置１６に表示された状態で、所定の時間毎に発生する割込を契機として図６の処理が開始される。

利用者は、編集画面４０を確認しながら入力装置１７を適宜に操作することで、音符列画像Ｎの任意の位置に音符図像５４を配置して新規な音符（以下「対象音符」という）の追加を指示するとともに当該対象音符の発音文字Ｘ1を指定することが可能である。表示制御部２４は、利用者が入力装置１７に対する操作で対象音符の追加を指示したか否かを判定する（ＳA1）。対象音符が追加された場合には（ＳA1：YES）、表示制御部２４は、対象音符について利用者が指定した発音文字Ｘ1が第１音素と第２音素とを包含するか否かを判定する（ＳA2）。そして、第１音素と第２音素とを包含する場合（ＳA2：YES）、表示制御部２４は、音素種別情報Ｆにおいて第１音素の種別に対応付けられた継続長ＴAを特定し、対象音符の始点から継続長ＴAだけ手前の時点を端点Ｅとする先行音素画像Ｇを生成する（ＳA3）。表示制御部２４は、音高遷移生成部２８２によって生成された各音符の音高遷移を示す音高遷移画像ＰCを生成し（ＳA4）、第１音素の先行音素画像Ｇと音高遷移画像ＰCとを含む遷移画像ＴRを音符図像５４に対応付けて表示させる（ＳA5）。他方、音符の発音文字Ｘ1が例えば音素単体で構成される場合（ＳA2：No）、表示制御部２４は、先行音素画像Ｇを生成する処理を実行することなく、音高遷移画像ＰCを遷移画像ＴRとして音符図像５４に対応付けて表示させる（ＳA4−ＳA5）。

以上の説明から理解される通り、第１実施形態では、合成情報Ｓで指定された音符の発音文字Ｘ1が第１音素と第２音素とを包含し、且つ、合成情報Ｓを適用した合成音声において第１音素の発音の始点が音符の発音期間の始点（音符図像５４の始点）に先行する場合に、表示制御部２４は、第１音素の発音の始点を時間軸上で示す先行音素画像Ｇを表示させる。したがって、利用者は、各音符の発音期間Ｘ2の始点に先行して発音される第１音素の発音の始点を先行音素画像Ｇにより視覚的に把握することが可能である。

先行音素画像Ｇは、第１音素の発音の始点を端点Ｅとして音高遷移画像ＰCに連続する線状の画像として構成されるから、利用者は第１音素の発音の始点Ｅを視覚的に認識するとともに、時間軸上で連続する各音符の音高遷移を直感的に把握することが可能である。第１実施形態では、先行音素画像Ｇと音高遷移画像ＰCとが相異なる態様で表示されるから、利用者は、音符の音高遷移と第１音素の発音の始点とを明確に把握することが可能である。また、表示制御部２４は、第１音素の種別（子音の種別）に応じて第１音素の発音の継続長ＴAを選定するから、音素の種別毎の相違を踏まえた最適な継続長ＴAを設定することが可能になる。

＜第２実施形態＞
本発明の第２実施形態を以下に説明する。第１実施形態では、発音文字Ｘ1の第１音素の継続長ＴAを、音素種別情報Ｆから特定される固定値に設定した。第２実施形態では、第１音素の継続長ＴAが利用者からの指示に応じて可変に制御される。なお、以下に例示する各態様において作用や機能が第１実施形態と同様である要素については、第１実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。

図７は、第２実施形態の合成情報Ｓの模式図である。第２実施形態の合成情報Ｓは、図７に例示される通り、第１実施形態と同様の情報（発音文字Ｘ1，発音期間Ｘ2，音高Ｘ3）に加えて制御情報Ｖを音符毎に指定する。本実施形態の制御情報Ｖは、継続長ＴAの設定に利用されるパラメータであり、利用者からの指示に応じて可変に設定される。

図８は、制御情報Ｖの設定についての説明図である。図８の編集画面４０は、第１実施形態と同様の音符列画像Ｎの下方に制御変数指定画面Ｃを追加した画像である。制御変数指定画面Ｃは、利用者が制御情報Ｖの数値を音符毎に指定するための画面である。図８では各音符の制御情報Ｖの数値を棒グラフで表示した場合が例示されている。利用者は入力装置１７を適宜操作することで、各音符の制御情報Ｖについて予め定められた範囲内で所望の値を指示することが可能である。第２実施形態では、制御情報Ｖに応じて第１音素の発音の継続長ＴAを設定する。

図９は、第２実施形態の音素種別情報Ｆの説明図である。音素種別情報Ｆは、継続長ＴAの初期値Ｌ（Ｌ1，Ｌ2，Ｌ3，Ｌ4，Ｌ5，Ｌ6，…）と、上限値Ａ（Ａ1，Ａ2，Ａ3，Ａ4，Ａ5，Ａ6…）とが音素の種別毎に設定されたデータテーブルである。初期値Ｌおよび上限値Ａの各々は音素の種別毎に相違する。

表示制御部２４は、各音符の発音文字Ｘ1に包含される第１音素の発音の継続長ＴAを、
当該第１音素の種別に対応する初期値Ｌと上限値Ａとを音素種別情報Ｆから特定し、上限値Ａを下回る範囲内で初期値Ｌを制御情報Ｖに応じて調整した数値を、第１音素の継続長ＴAとして算定する。具体的には、図８には、共通の発音文字Ｘ1が指定された４個の音符の制御情報Ｖが相異なる数値に設定された状況が例示されている。図８から理解される通り、制御情報Ｖの数値が大きいほど継続長ＴAが短くなるように、上限値Ａの範囲内で初期値Ｌが制御情報Ｖに応じて調整される。継続長ＴAに応じた先行音素画像Ｇの表示は第１実施形態と同様である。

第２実施形態においても第１実施形態と同様の効果が実現される。また、第２実施形態では、利用者から指示された制御情報Ｖに応じて第１音素の継続長ＴAが可変に設定されるから、利用者の意図を反映させた先行音素画像Ｇを表示できるという利点がある。また、継続長ＴAの上限値Ａは音素の種別毎に設定されるから、音素の特性（継続長の長短）を視覚的に表現した先行音素画像Ｇを表示できるという利点もある。

＜第３実施形態＞
図１０は、第３実施形態の表示制御部２４により表示される編集画面４０の説明図である。図１０から把握される通り、第３実施形態の表示制御部２４は、先行音素画像Ｇの端点Ｅの音高軸上の位置を、直前の音符の音高に応じて変化させる。具体的には、任意の１個の音符の先行音素画像Ｇの端点Ｅは、当該音符の音高Ｘ3と比較して直前の音符の音高Ｘ3が高いほど、音高軸上の高音側（直前の音符の音高Ｘ3に近い側）に位置する。例えば図１０では、表示制御部２４によって、第２番目の音符と第４番目の音符とで音高Ｘ3が共通するとともに、第１番目の音符は、第３番目の音符よりも音高Ｘ3が高く、第１番目の音符と第２番目の音符との音高差は、第３番目の音符と第４番目の音符との音高差よりも大きい場合が想定されている。したがって、表示制御部２４は、図１０に例示されるように、音符列画像Ｎのうち第２番目の音符図像５４に対応付けられる先行音素画像Ｇの端点Ｅを、第４番目の音符図像５４に対応付けられる先行音素画像Ｇの端点Ｅと比較して、音高軸上における高い位置に位置させる。

また、表示制御部２４は、任意の１個の音符の先行音素画像Ｇの端点Ｅは、当該音符の音高Ｘ3と比較して直前の音符の音高Ｘ3が低いほど、音高軸上の低音側（直前の音符の音高Ｘ3に近い側）に位置するように表示させる。図１１では、表示制御部２４によって、第２番目の音符と第４番目の音符とで音高Ｘ3が共通するとともに、第１番目の音符は、第３番目の音符よりも音高Ｘ3が低く、第１番目の音符と第２番目の音符との音高差は、第３番目の音符と第４番目の音符との音高差よりも大きい場合が想定されている。したがって、表示制御部２４は、図１１に例示される通り、第２番目の音符図像５４に対応付けられる先行音素画像Ｇの端点Ｅを、第４番目の音符図像５４に対応付けられる先行音素画像Ｇの端点Ｅと比較して、音高軸上における低い位置に位置させる。

第３実施形態においても第１実施形態と同様の効果が実現される。また、第３実施形態では、先行音素画像Ｇの端点Ｅの音高軸上の位置が直前の音符の音高Ｘ3に応じて変化する。したがって、直前の音符からの音高の遷移（音高差）を利用者が直観的に把握できるという利点がある。

＜第４実施形態＞
第３実施形態では、直前の音符の音高Ｘ3に応じて先行音素画像Ｇの端点Ｅの音高軸上の位置を変化させたが、直前の音符との間に充分な間隔が存在する場合には、直前の音符の音高との相関（直前の音符との音高差）を利用者に提示する必要がない（あるいは敢えて提示しないほうが望ましい）、という事情が想定される。以上の事情を考慮して、第４実施形態の表示制御部２４は、先行音素画像Ｇの端点Ｅの位置を直前の音符の音高Ｘ3に応じて変化させるか否かを、直前の音符との間隔に応じて切り換える。

図１２は、第４実施形態の表示制御部２４により表示される編集画面４０の説明図である。図１２の音符列画像Ｎのうち、第１番目および第３番目の各音符の発音文字“あ[a]”は母音単体の音素で構成され、第２番目および第４番目の各音符の発音文字“さ[s-a]”は、子音と母音との組合せで構成される。

音高軸上で相前後する音符の区間長ＴCが閾値を上回る場合には、表示制御部２４は、後方の先行音素画像Ｇの端点Ｅを、音符の音高Ｘ3に応じた初期位置に位置させる。後方の音符と直前の音符との区間長ＴCが十分に長い場合には、後方の音符と直前の音符との相関が低いと考えられるから、図１２に例示されるように、各音符の区間長ＴC2が閾値Ｄthを上回る（ＴC2＞Ｄth）場合には、表示制御部２４は、第４番目の音符図像５４に対応付けられる先行音素画像Ｇの端点Ｅを、音高Ｘ3に応じた初期的な位置（以下「初期位置」という）に位置させる。

他方、音高軸上で相前後する音符の区間長ＴCが閾値を下回る場合には、表示制御部２４は、後方の先行音素画像Ｇの端点Ｅの位置を、音符の音高Ｘ3に応じた初期位置から変化させる。後方の音符と直前の音符との区間長ＴCが十分に短い場合には、後方の音符と直前の音符との相関が高いと考えられるから、図１２に例示されるように、各音符の区間長ＴC1が閾値Ｄthを下回る（ＴC1＜Ｄth）場合には、表示制御部２４は、第２番目の音符図像５４に対応付けられる先行音素画像Ｇの端点Ｅを、直前の音符の音高Ｘ3に応じて、例えば、直前の音符の音高遷移画像ＰCの延長線上に位置させる。したがって、相前後する音符間の間隔（区間長ＴC）による各音符の音高の影響を利用者が視覚的および直観的に把握できるという利点がある。

＜変形例＞
前述の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様を適宜に併合することも可能である。

（１）前述した各実施形態では、第１音素の発音の始点を端点Ｅとする線状の先行音素画像Ｇを例示したが、第１音素の発音の始点Ｅを利用者が視認することが可能な態様であれば、以上の例示に限定されない。

図１３は、変形例にかかる先行音素画像Ｇの説明図である。図１３の領域（ａ）に例示されるように、先行音素画像Ｇの線種は前述の各形態の例示に限定されない。また、図１３の領域（ｂ）に例示されるように、先行音素画像Ｇは、線状の画像ではなく、第１音素の発音の始点Ｅに位置する点状の画像として構成してもよい。以上の態様によっても、利用者は第１音素の発音の始点、および、端点Ｅと音符図像５４の始点とで規定される第１音素の継続長ＴAを視覚的に把握することが可能である。図１３の領域（ｃ）に例示されるように、先行音素画像Ｇを、音符図像５４から前方に連続する矩形状の図形としてもよい。図１３の領域（ｄ）に例示されるように、時間軸上における第１音素の発音の始点に配置されて音高軸に平行な線分（例えば音符図像５４の高さと同等の長さの線分）を先行音素画像Ｇとして表示することも可能である。また、図１３の領域（ｂ）および（ｄ）から把握される通り、先行音素画像Ｇが音高遷移画像ＰCや音符図像５４に連続する必要はない。上述した例示以外に、例えば、先行音素画像Ｇと音高遷移画像ＰCとを共通の態様で表示することも可能である。

（２）前述した各実施形態では、第１音素の発音の始点が、一の音符の発音期間の始点（音符図像５４の始点）に対して時間軸上で先行する第１音素の始点を端点Ｅとする線状の先行音素画像Ｇを例示したが、第２音素の発音の終点（音符図像５４の終点）に後続する後行音素画像Ｈを併せて表示させる構成も採用され得る。例えば、音声素片の区分の仕方や音声素片の伸縮の方法によっては、発音期間Ｘ2の終点の後方まで音声素片が継続して発音される可能性がある。そこで、図１４に例示されるように、発音文字“す[s-u]”の第２音素の発音の終点（音符図像５４の終点）に後続するように、第２音素の余韻を表象する後行音素画像（すなわち発音期間Ｘ2の終点の経過後の発音を表象する画像）Ｈを表示させてもよい。具体的には、後行音素画像Ｈは、音高遷移画像ＰCの終点（発音期間Ｘ2の終点）から音声素片の発音の終点までにわたる線状の画像である。

（３）図１５に例示される通り、複数の音符の時系列から設定される音高遷移以外のビブラートのような付加的な音高変化を表象する付加画像Ｂを、音高遷移画像ＰCとともに各音符図像５４に対応付けて表示装置１６に表示させることも可能である。

（４）前述の各実施形態では、ビブラートのような付加的な音高変化を除外した音高遷移を音高遷移画像ＰCで表現したが、複数の音符の時系列のみから特定される音高変化以外の付加的な音高変化（典型的には歌唱表現としての音高変化）を含む音高遷移を音高遷移画像ＰCで表すことも可能である。付加的な音高変化としては、前述のビブラートのほか、ピッチベンドやポルタメント（上行形／下行形）が例示され得る。音高遷移画像ＰCは、ビブラートやピッチベンドの深度や速度など付加的な音高変化の特性（パラメータ）を反映した形状となる。

（５）第２実施形態では、継続長ＴAの初期値Ｌに対して、固定値の上限値Ａが対応付けられた音素種別情報Ｆを例示し、初期値Ｌが上限値Ａの範囲内で指示された制御情報Ｖに応じて、第１音素の継続長ＴAが可変に設定される構成を例示したが、例えば初期値Ｌに対して制御情報Ｖに応じた可変の係数（以下「伸縮倍率」という）を乗算することで継続長ＴAを算定する構成では、伸縮倍率の最大値を音素の種別毎に設定することも可能である。初期値Ｌに最大倍率を乗算する構成によれば、伸縮倍率が共通する場合でも、音声素片の各音素の継続長に応じて継続長ＴAが相違し得るから、第２実施形態のように継続長ＴAの上限値Ａを設定する構成と比較して、継続長ＴAを多様に変化させることが可能である。

（６）前述の各形態では、音声合成部２８の音高遷移生成部２８２が生成した音高遷移の音高遷移画像ＰCを表示したが、音声合成部２８による音声信号Ｚの生成は、音高遷移画像ＰCの表示に必ずしも必要ではない。すなわち、音高遷移生成部２８２が生成した音高遷移を適用した各音声素片の音高の調整や各音声素片の接続等の処理は、音高遷移画像ＰCを表示するという観点のみからすれば省略することも可能である。音声信号Ｚの生成に必要な処理を省略した構成によれば、処理負荷（演算時間等）を軽減できるという利点がある。

（７）前述の各形態では、利用者による音符（対象音符）の追加のたびに先行音素画像Ｇおよび音高遷移画像ＰCを表示したが、遷移画像ＴRの更新の契機は以上の例示（音符の追加）に限定されない。例えば、編集画面４０に配置済の各音符の遷移画像ＴRの更新が編集画面４０に対する利用者からの操作（例えば「再描画」ボタンに対する操作）で指示された場合に、配置済の各音符の遷移画像ＴRを追加または更新する構成や、利用者による明示的な指示を必要とせずに自動的に（例えば所定の時間毎や、利用者が何らかの編集を指示するたびに）、各音符の遷移画像ＴRを追加または更新する構成も採用され得る。

（８）前述の各形態では、音声素片を利用した素片接続型の音声合成部２８を例示したが、合成情報Ｓを適用した音声合成には公知の技術が任意に採用される。例えば、隠れマルコフモデル（HMM: Hidden Markov Model）等の確率モデルを利用して、合成情報Ｓで指定された合成楽曲の歌唱音声を合成することも可能である。

（９）前述の各形態では、日本語の発音文字Ｘ1を例示したが、発音文字Ｘ1の言語（合成対象となる音声の言語）は任意である。例えば、英語，スペイン語，中国語，韓国語等の任意の言語の音声を生成する場合にも本発明を適用することが可能である。なお、言語によっては、例えば英語の単語“string”のように第２音素[i]（母音）の前方に複数の子音（第１音素[s]，[t]，[r]）が存在する発音文字Ｘ1も想定される。この場合、第２音素の前方に位置する複数の子音([s]，[t]，[r]）のうち１個の子音（典型的には複数個のうち先頭の子音[s]）を第１音素として、当該第１音素の発音の始点を表現する先行音素画像Ｇを表示することも可能である。以上の説明から理解される通り、第２音素は、第１音素の後方に位置する音素として表現され、第１音素の直後の音素には限定されない。

（１０）前述の各形態では、音声素片群Ｌと合成情報Ｓとを記憶する記憶装置１４を音声合成装置１００に搭載したが、音声合成装置１００とは独立した外部装置（例えばサーバ装置）が音声素片群Ｌや合成情報Ｓを記憶する構成も採用される。音声合成装置１００は、例えば通信網を介して音声素片群Ｌまたは合成情報Ｓを取得して編集処理や音声合成処理を実行する。以上の説明から理解される通り、音声素片群Ｌや合成情報Ｓを記憶する要素は音声合成装置１００の必須の要素ではない。

１００……音声合成装置、１２……演算処理装置、１４……記憶装置、１６……表示装置、１７……入力装置、１８……放音装置、２２……情報編集部、２４……表示制御部、２８……音声合成部、４０……編集画面、５４……音符図像、２８２……音高遷移生成部、Ｇ……先行音素画像、Ｎ……音符列画像、ＰC……音高遷移画像、Ｅ……端点、Ｃ……制御変数指定画面。

Claims

発音文字と発音期間と音高とを音符毎に指定する音声合成用の合成情報を参照して、各音符を表象する音符図像を時間軸上に配置した音符列画像と、前記各音符の音符図像に対応付けて配置されて前記各音符の音高遷移を示す線状の音高遷移画像とを表示装置に表示させる表示制御手段を具備し、
前記表示制御手段は、前記合成情報で指定される一の音符の発音文字が第１音素と前記第１音素の後方の第２音素とを含み、且つ、前記合成情報を適用した合成音声において前記第１音素の発音の始点が当該一の音符の発音期間の始点に対して時間軸上で先行する場合に、前記第１音素の発音の始点を端点として前記音高遷移画像に連続する線状の先行音素画像を前記一の音符の音符図像に対応付けて表示させ、前記先行音素画像の前記端点の音高軸上の位置を、直前の音符の音高に応じて変化させる
表示制御装置。
前記表示制御手段は、前記第１音素の種別に応じて当該第１音素の発音の時間長を設定する
請求項１の表示制御装置。
前記合成情報は、利用者からの指示に応じた制御情報を音符毎に含み
前記表示制御手段は、前記第１音素の種別に応じた数値を上限値として、当該第１音素の発音の時間長を前記制御情報に応じて設定する
請求項１または請求項２の表示制御装置。
発音文字と発音期間と音高とを音符毎に指定する音声合成用の合成情報を参照して、各音符を表象する音符図像を時間軸上に配置した音符列画像と、前記各音符の音符図像に対応付けて配置されて前記各音符の音高遷移を示す線状の音高遷移画像とを表示装置に表示させる表示制御方法であって、
前記合成情報で指定される一の音符の発音文字が第１音素と前記第１音素の後方の第２音素とを含み、且つ、前記合成情報を適用した合成音声において前記第１音素の発音の始点が当該一の音符の発音期間の始点に対して時間軸上で先行する場合に、前記第１音素の発音の始点を端点として前記音高遷移画像に連続する線状の先行音素画像を前記一の音符の音符図像に対応付けて表示させ、前記先行音素画像の前記端点の音高軸上の位置を、直前の音符の音高に応じて変化させる
コンピュータシステムにより実現される表示制御方法。