JP6435791B2 - 表示制御装置および表示制御方法 - Google Patents

表示制御装置および表示制御方法 Download PDF

Info

Publication number
JP6435791B2
JP6435791B2 JP2014228912A JP2014228912A JP6435791B2 JP 6435791 B2 JP6435791 B2 JP 6435791B2 JP 2014228912 A JP2014228912 A JP 2014228912A JP 2014228912 A JP2014228912 A JP 2014228912A JP 6435791 B2 JP6435791 B2 JP 6435791B2
Authority
JP
Japan
Prior art keywords
note
phoneme
image
pitch
display control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014228912A
Other languages
English (en)
Other versions
JP2016090966A (ja
Inventor
誠 橘
橘  誠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2014228912A priority Critical patent/JP6435791B2/ja
Publication of JP2016090966A publication Critical patent/JP2016090966A/ja
Application granted granted Critical
Publication of JP6435791B2 publication Critical patent/JP6435791B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrophonic Musical Instruments (AREA)
  • Auxiliary Devices For Music (AREA)

Description

本発明は、音声合成に利用する合成情報を表示させる技術に関する。
発音文字と発音期間と音高とを音符毎に指定する合成情報に応じて所望の音声を合成する音声合成技術が従来から提案されている。例えば、特許文献1には、音楽情報画像(音高に対応する音高軸と時間に対応する時間軸とが設定されたピアノロール型の画像領域)を表示させて、利用者が各音符の音高や発音文字や発音期間(発音期間の始点および終点,継続長)を視覚的に確認しながら音楽情報を生成または編集することが可能な構成が開示されている。
特開2011−095396号公報
ところで、合成情報で指定される音符の発音期間の始点で母音が発音されて、子音の発音期間は音符の発音期間の始点に先行する。しかし、特許文献1の技術では、合成情報で指定された発音期間が音楽情報画像に表示されるに過ぎないから、子音の発音期間の開始点を利用者が視覚的に認識できないという問題があった。以上の事情を考慮して、本発明は、合成情報で指定される発音期間の始点に先行して発音される音素の発音期間の始点を利用者が視覚的に把握できるようにすることを目的とする。
以上の課題を解決するために、本発明の表示制御装置は、発音文字と発音期間と音高とを音符毎に指定する音声合成用の合成情報を参照して、各音符を表象する音符図像を時間軸上に配置した音符列画像を表示装置に表示させる表示制御手段を具備し、前記表示制御手段は、前記合成情報で指定される一の音符の発音文字が第1音素と前記第1音素の後方の第2音素とを含み、且つ、前記合成情報を適用した合成音声において前記第1音素の発音の始点が当該一の音符の発音期間の始点に対して時間軸上で先行する場合に、前記第1音素の発音の始点を時間軸上で示す先行音素画像を前記一の音符の音符図像に対応付けて表示させる。以上の構成では、合成情報で指定される一の音符の発音文字が第1音素と第2音素とを含み、且つ、第1音素の発音の始点が、当該一の音符の発音期間の始点に対して時間軸上で先行する場合には、先行音素画像が表示されるから、利用者は、音符の発音期間の始点を音符図像により視覚的に把握するとともに、第1音素の発音の始点を先行音素画像により視覚的に把握することが可能である。なお、第1音素は、第2音素の直前の1個の音素、または、第2音素に先行する複数の音素のうち任意の1個の音素(典型的には複数個のうち最初の音素)を意味する。
本発明の好適な態様において、前記表示制御手段は、各音符の音高遷移を示す線状の音高遷移画像と前記先行音素画像とを前記各音符の音符図像に対応付けて表示させ、前記先行音素画像は、時間軸上における第1音素の発音の始点を端点として前記音高遷移画像に連続する線状の画像である。以上の態様では、第1音素の発音の始点を端点として、音高遷移画像に連続する線状の音高遷移画像が、各音符の音高遷移を示す線状の音高遷移画像に対応付けて表示される。以上の態様によれば、利用者は時間軸上における各音符の音高遷移を音高遷移画像により視覚的に把握するとともに、先行音素画像の端点で第1音素の発音の始点を視覚的に把握することが可能である。また、先行音素画像と音高遷移画像とは、時間軸上で連続する線状の画像として表示されるから、利用者は第1音素の発音の開始点と各音符の音高遷移とを直感的に把握することが可能である。
本発明の好適な態様において、前記表示制御手段は、前記先行音素画像の前記端点の音高軸上の位置を、直前の音符の音高に応じて変化させる。以上の態様では、先行音素画像の端点の音高軸上の位置は、直前の音符の音高に応じて変化する。したがって、先行音素画像を視認することで、利用者は、前述の通り第1音素の発音の始点を視覚的に把握するとともに、直前の音符からの音高の変化も直観的に把握できるという利点がある。
本発明の好適な態様において、前記表示制御手段は、一の音符と直前の音符との間隔が閾値を上回る場合に、前記先行音素画像の端点の位置を、前記一の音符の音高に応じた所定の初期位置に設定し、前記一の音符と直前の音符との間隔が閾値を下回る場合に、前記先行音素画像の端点の位置を前記初期位置から変化させる。時間軸上で相前後する音符が存在する場合、先行する音符と後続する音符との間隔に応じて、先行する音符の音高が後続する音符の音高に影響を与える傾向がある。具体的には、先行する音符と後続する音符との間隔が長ければ、先行する音符の音高が後続する音符の音高に与える影響が少ない。他方、先行する音符と後続する音符との間隔が短い場合では、先行する音符の音高が後続する音符の音高に与える影響が大きい。直前の音符との間隔が閾値を上回る場合に先行音素画像の端点の位置を初期位置に設定し、間隔が閾値を下回る場合に端点の位置を初期位置から変化させる前述の態様によれば、音符間の間隔による音高の影響を利用者が直観的に把握できるという利点がある。
本発明の好適な態様において、前記表示制御手段は、前記音高遷移画像と前記先行音素画像とを相異なる態様で表示させる。相異なる態様の一例としては、例えば、音高遷移画像と先行音素画像とで、相互に色彩や明度や彩度を異ならせる構成が好適に採用され得る。以上の態様によれば、音符の音高遷移と、第1音素の発音の始点とを、利用者が視覚的且つ直感的に認識することが可能である。
本発明の好適な態様において、前記表示制御手段は、第1音素の種別に応じて第1音素の発音の時間長を設定する。以上の態様によれば、例えば、第1音素の種別に応じて第1音素の発音の時間長が設定される。したがって、音素の種別毎の相違を踏まえた最適な時間長を設定することが可能になる。
本発明の好適な態様において、前記合成情報は、利用者からの指示に応じた制御情報を音符毎に含み、前記表示制御手段は、第1音素の種別に応じた数値を上限値として前記第1音素の発音の時間長を、前記制御情報に応じて設定する。以上の態様によれば、音素の種別毎に設定された上限値の範囲内で利用者から指定された制御情報に応じて第1音素の発音の時間長が設定されるから、音素の種別毎の相違を前提として、利用者の指示を反映させた時間長を設定することが可能になる。
以上の各態様に係る表示制御装置は、合成情報の編集や音声信号の生成に専用されるDSP(Digital Signal Processor)等のハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、例えば、本発明のプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。また、本発明は、以上に説明した各態様に係る表示制御装置の動作方法(表示制御方法)としても特定される。
第1実施形態に係る音声合成装置100のブロック図である。 第1実施形態の合成情報Sの模式図である。 第1実施形態の表示制御部24に表示される編集画面40の模式図である。 第1音素と第2音素とを包含する音符図像54を拡大して示す模式図である。 第1実施形態の音素種別情報Fの説明図である。 第1実施形態の表示制御部24の動作を示すフローチャートである。 第2実施形態の合成情報Sの模式図である。 第2実施形態の表示制御部24に表示される編集画面40の模式図である。 第2実施形態の音素種別情報Fの説明図である。 第3実施形態の表示制御部24に表示される編集画面40の模式図である。 第3実施形態の表示制御部24に表示される編集画面40の模式図である。 第4実施形態の表示制御部24に表示される編集画面40の模式図である。 変形例の音符図像54の模式図である。 変形例の音符図像54の模式図である。 変形例の音符図像54の模式図である。
<第1実施形態>
図1は、本発明の第1実施形態に係る音声合成装置100のブロック図である。音声合成装置100は、発話音や歌唱音等の音声を素片接続型の音声合成処理で生成する信号処理装置であり、図1に示すように、演算処理装置12と記憶装置14と表示装置16と入力装置17と放音装置18とを具備するコンピュータシステムで実現される。第1実施形態では、特定の楽曲(以下「合成楽曲」という)の歌唱音声の音声信号Zを生成する場合を想定する。
表示装置16(例えば液晶表示装置)は、演算処理装置12から指示された画像を表示する。入力装置17は、利用者からの指示を受付ける機器(例えばマウスやキーボード)である。放音装置18(例えばヘッドホンやスピーカ)は、演算処理装置12が生成した音声信号Zに応じた音波を放射する。
記憶装置14は、演算処理装置12が実行するプログラムPGMや演算処理装置12が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置14として採用される。第1実施形態の記憶装置14は、以下に例示する通り、音声素片群Lと合成情報Sと音素種別情報Fとを記憶する。
音声素片群Lは、特定の発声者の収録音声から事前に採取された複数の音声素片の集合(音声合成用ライブラリ)である。各音声素片は、言語的な意味の最小単位である音素単体(例えば母音や子音)、または複数の音素を連結した音素連鎖(例えばダイフォンやトライフォン)であり、時間領域の音声波形のサンプル系列や、音声波形のフレーム毎に算定された周波数領域のスペクトルの時系列で表現される。
合成情報Sは、図2に例示される通り、合成楽曲の歌唱音声を指定する時系列データであり、合成楽曲を構成する音符毎に発音文字X1と発音期間X2と音高(例えばノートナンバー)X3とを時系列に指定する。発音文字X1は、母音単体または子音と母音との組合せで構成される音節(モーラ)を表現する符号である。発音期間X2は、音符の時間長(音価)であり、例えば発音の開始時刻と時間長(継続長)または終了時刻とで規定される。以上の説明から理解される通り、合成情報Sは、合成楽曲の楽譜を指定する時系列データとも換言され得る。
演算処理装置12(CPU)は、記憶装置14に格納されたプログラムPGMの実行で、合成音の波形を表す音声信号Zを生成するための複数の機能(情報編集部22,表示制御部24,音声合成部28)を実現する。なお、演算処理装置12の各機能を複数の集積回路に分散した構成や、専用の電子回路(DSP)が一部の機能を実現する構成も採用され得る。
表示制御部24は、各種の画像を表示装置16に表示させる。第1実施形態の表示制御部24は、合成情報Sを参照して、合成楽曲の内容(音符列)を利用者が確認および編集するための図3の編集画面40を表示装置16に表示させる。
図3は編集画面40の一例を示す図である。図3に例示される通り、編集画面40は、利用者から指示された各音符を表象する画像(以下「音符図像」という)54を時間軸上に配置した音符列画像Nを包含する。音符列画像Nは、相互に交差する時間軸(横軸)および音高軸(縦軸)が設定されたピアノロール型の座標平面を包含する。音高軸の方向における音符図像54の位置は当該音符の音高X3に応じて選定され、時間軸の方向における音符図像54の位置および表示長は当該音符の発音期間X2に応じて選定される。利用者は、編集画面40を視認しながら入力装置17を適宜に操作することで、新規な音符図像54の追加や既存の音符図像54の移動または伸縮を指示することが可能である。
図1の情報編集部22は、合成情報Sを管理する。具体的には、情報編集部22は、入力装置17に対する利用者からの指示に応じて合成情報Sを生成および編集する。例えば、情報編集部22は、音符列画像Nに対する音符図像54の追加や、任意の音符図像54の移動や時間軸上の伸縮の指示に応じて、編集画面40での編集内容を反映させるように合成情報Sを更新する。
表示制御部24は、利用者から指示された発音文字X1を、音符図像54とともに(例えば図3の例示のように音符図像54に重ねて)表示装置16に表示させる。図3の編集画面40では、時間軸上に配置された各発音文字X1“す”,“な”,“あ”,“る”,“あ”を5個の音符に割当てた音符図像54を例示している。以上の例示から把握される通り、各発音文字X1は、母音単体で構成される発音文字(“あ[a]”)と、子音と母音との組み合わせで構成される発音文字(“す[s-u]”,“な[n-a]”,“る[r-u]”)とを包含する。
音声合成部28は、記憶装置14に記憶された音声素片群Lと合成情報Sとを利用した音声合成処理で音声信号Zを生成する。第1実施形態の音声合成部28は、音高遷移生成部282を包含する。音高遷移生成部282は、合成情報Sが指定する各音符の音高の時間軸上の変化(以下「音高遷移」という)を生成する。例えば、時間軸上で相連続する音符間で音高が滑らかに変化するように音高遷移生成部282は音高遷移を設定する。音声合成部28は、合成情報Sが時系列に指定する各発音文字X1に対応した音声素片を音声素片群Lから順次に選択するとともに、音高遷移生成部282が生成した音高遷移に沿うように各音声素片の音高を調整し、発音期間X2に応じて伸縮したうえで相互に連結することで音声信号Zを生成する。音声合成部28は、発音文字X1を構成する母音の音素が、音符の始点(音符図像54の始点)に合致するように音声合成する。具体的には、子音と母音との組み合わせで構成される発音文字X1は、各音符の発音期間の始点前に子音の音素の発音が開始され、音符の発音期間の始点で母音の発音が開始されるように音声合成する。他方、母音単体で構成される発音文字X1では、母音の音素の発音の始点が音符の始点に合致するように音声合成する。
図3に例示される通り、第1実施形態の表示制御部24は、各音符図像54に遷移画像TRを対応付けて表示させる。本実施形態の表示制御部24は、図3に例示される通り、発音文字X1が母音単体で構成される場合(“あ[a]”)と、子音と母音との組み合わせにより構成される場合(“す[s-u]”,“な[n-a]”,“る[r-u]”)とで、相異なる遷移画像TRを、音符図像54に対応付けて表示させる。具体的には、例えば図3の発音文字“あ[a]”のように発音文字X1が母音単体で構成される場合、遷移画像TRは、音高遷移生成部282が当該音符について生成した音高遷移(ピッチカーブ)を示す線状の音高遷移画像PCで構成される。他方、発音文字X1が子音と母音との組み合わせにより構成される場合(例えば、子音の第1音素「s」と母音の第2音素「u」とを含む発音文字“す[s-u]”)、遷移画像TRは、図3および図4に例示される通り、第1音素の発音の始点を時間軸上で示す先行音素画像Gと音高遷移画像PCとによって構成される。第2音素は、第1音素の後方の音素(第1実施形態の例示のように発音文字X1が第1音素および第2音素の2個の音素で構成される構成では第1音素の直後の音素)である。
図4は、発音文字X1が第1音素(子音)と第2音素(母音)との組み合わせにより構成される場合の遷移画像TRの説明図である。表示制御部24は、第1音素「s」の発音の始点を示す先行音素画像Gと当該音符の音高遷移を表す音高遷移画像PCとを包含する遷移画像TRを音符図像54に対応付けて表示させる。図4に例示されるように、先行音素画像Gは、第1音素「s」の発音の始点を端点Eとして後続の音高遷移画像PCに連続する線状の画像である。以上の通り、第1音素たる子音については実際には音高を特定できないが、遷移画像TRでは、便宜的に、先行音素画像Gと音高遷移画像PCとが時間軸上で連続する線状の画像として表示される。以上の説明では、図3の音符列画像Nの第1番目に表示される発音文字“す[s-u]”を例示して説明したが、第1音素と第2音素とを包含する他の発音文字(“な[n-a]”,“る[r-u]”)についても、先行音素画像Gと音高遷移画像PCとを含む遷移画像TRが表示制御部24によって表示される。
本実施形態の表示制御部24は、遷移画像TRを構成する音高遷移画像PCと先行音素画像Gとを相異なる態様で表示させる。例えば、図4に例示されるように、先行音素画像Gと音高遷移画像PCとは、線の太さが相互に異なるように、表示制御部24によって表示される。利用者は、編集画面40上に相異なる態様で表示された先行音素画像Gと音高遷移画像PCとを視認することで、第1音素の発音の開始点Eと、時間軸上における各音符列画像Nの音高遷移との両方を直感的に把握することが可能である。
図4で、先行音素画像Gの端点Eと音符図像54の始点(音符の発音の始点)とで規定される継続長TAは、第1音素「s」の発音の時間長を意味する。他方、音符図像54の始点と終点とで規定される継続長TBは、母音である第2音素の発音の時間長(すなわち発音期間X2)を意味する。第1音素の継続長TAは、第1音素の種別に応じて、表示制御部24によって設定される。例えば、図3では、第1音素の種別([s]と[n]と[r])に応じて相異なる継続長TAが設定された場合が例示されている。種別毎の音素の継続長TAの設定には、記憶装置14に記憶された音素種別情報Fが利用される。
図5は、音素種別情報Fの説明図である。音素種別情報Fは、音素の種別毎に継続長TA(TA1,TA2,……)を指定するデータテーブルである。図5では、半母音(/w/,/y/),鼻音(/m/,/n/),流音(/r/),破裂音(/t/,/k/,/p/),破擦音(/ts/),摩擦音(/s/,/f/)が音素の種別として例示されている。音素種別情報Fで指定される発音の継続長TAは音素の種別毎に相違する。例えば、伸張処理に使用するアルゴリズムの違いに応じて、破擦音や摩擦音の時間長TAを破裂音や流音の時間長TAよりも長い傾向に設定することができる。
表示制御部24は、音素種別情報Fを参照し、各音符の発音文字X1が包含する第1音素の種別に対応付けられた継続長TAを、当該音符の第1音素の発音の時間の継続長TAとして設定する。図3の例では、第1番目の音符の第1音素[s]には継続長TA6が、第2番目の音符の第1音素[n]には継続長TA2が、第4番目の音符の第1音素[r]には継続長TA3が、第1音素([s],[n],[r])の発音の継続長TAとして表示制御部24によって設定される。表示制御部24は、以上の方法で設定した継続長TAだけ当該音符の始点から手前の時点を端点Eとして音高遷移画像PCまで継続長TAにわたる先行音素画像Gを、各音符の音符図像54と音高遷移画像PCとに対応付けて表示装置16に表示させる。
図6は、第1実施形態に係る表示制御部24の概略的な動作のフローチャートである。例えば入力装置17に対する利用者からの指示(合成情報Sの編集指示)に応じて編集画面40が表示装置16に表示された状態で、所定の時間毎に発生する割込を契機として図6の処理が開始される。
利用者は、編集画面40を確認しながら入力装置17を適宜に操作することで、音符列画像Nの任意の位置に音符図像54を配置して新規な音符(以下「対象音符」という)の追加を指示するとともに当該対象音符の発音文字X1を指定することが可能である。表示制御部24は、利用者が入力装置17に対する操作で対象音符の追加を指示したか否かを判定する(SA1)。対象音符が追加された場合には(SA1:YES)、表示制御部24は、対象音符について利用者が指定した発音文字X1が第1音素と第2音素とを包含するか否かを判定する(SA2)。そして、第1音素と第2音素とを包含する場合(SA2:YES)、表示制御部24は、音素種別情報Fにおいて第1音素の種別に対応付けられた継続長TAを特定し、対象音符の始点から継続長TAだけ手前の時点を端点Eとする先行音素画像Gを生成する(SA3)。表示制御部24は、音高遷移生成部282によって生成された各音符の音高遷移を示す音高遷移画像PCを生成し(SA4)、第1音素の先行音素画像Gと音高遷移画像PCとを含む遷移画像TRを音符図像54に対応付けて表示させる(SA5)。他方、音符の発音文字X1が例えば音素単体で構成される場合(SA2:No)、表示制御部24は、先行音素画像Gを生成する処理を実行することなく、音高遷移画像PCを遷移画像TRとして音符図像54に対応付けて表示させる(SA4−SA5)。
以上の説明から理解される通り、第1実施形態では、合成情報Sで指定された音符の発音文字X1が第1音素と第2音素とを包含し、且つ、合成情報Sを適用した合成音声において第1音素の発音の始点が音符の発音期間の始点(音符図像54の始点)に先行する場合に、表示制御部24は、第1音素の発音の始点を時間軸上で示す先行音素画像Gを表示させる。したがって、利用者は、各音符の発音期間X2の始点に先行して発音される第1音素の発音の始点を先行音素画像Gにより視覚的に把握することが可能である。
先行音素画像Gは、第1音素の発音の始点を端点Eとして音高遷移画像PCに連続する線状の画像として構成されるから、利用者は第1音素の発音の始点Eを視覚的に認識するとともに、時間軸上で連続する各音符の音高遷移を直感的に把握することが可能である。第1実施形態では、先行音素画像Gと音高遷移画像PCとが相異なる態様で表示されるから、利用者は、音符の音高遷移と第1音素の発音の始点とを明確に把握することが可能である。また、表示制御部24は、第1音素の種別(子音の種別)に応じて第1音素の発音の継続長TAを選定するから、音素の種別毎の相違を踏まえた最適な継続長TAを設定することが可能になる。
<第2実施形態>
本発明の第2実施形態を以下に説明する。第1実施形態では、発音文字X1の第1音素の継続長TAを、音素種別情報Fから特定される固定値に設定した。第2実施形態では、第1音素の継続長TAが利用者からの指示に応じて可変に制御される。なお、以下に例示する各態様において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
図7は、第2実施形態の合成情報Sの模式図である。第2実施形態の合成情報Sは、図7に例示される通り、第1実施形態と同様の情報(発音文字X1,発音期間X2,音高X3)に加えて制御情報Vを音符毎に指定する。本実施形態の制御情報Vは、継続長TAの設定に利用されるパラメータであり、利用者からの指示に応じて可変に設定される。
図8は、制御情報Vの設定についての説明図である。図8の編集画面40は、第1実施形態と同様の音符列画像Nの下方に制御変数指定画面Cを追加した画像である。制御変数指定画面Cは、利用者が制御情報Vの数値を音符毎に指定するための画面である。図8では各音符の制御情報Vの数値を棒グラフで表示した場合が例示されている。利用者は入力装置17を適宜操作することで、各音符の制御情報Vについて予め定められた範囲内で所望の値を指示することが可能である。第2実施形態では、制御情報Vに応じて第1音素の発音の継続長TAを設定する。
図9は、第2実施形態の音素種別情報Fの説明図である。音素種別情報Fは、継続長TAの初期値L(L1,L2,L3,L4,L5,L6,…)と、上限値A(A1,A2,A3,A4,A5,A6…)とが音素の種別毎に設定されたデータテーブルである。初期値Lおよび上限値Aの各々は音素の種別毎に相違する。
表示制御部24は、各音符の発音文字X1に包含される第1音素の発音の継続長TAを、
当該第1音素の種別に対応する初期値Lと上限値Aとを音素種別情報Fから特定し、上限値Aを下回る範囲内で初期値Lを制御情報Vに応じて調整した数値を、第1音素の継続長TAとして算定する。具体的には、図8には、共通の発音文字X1が指定された4個の音符の制御情報Vが相異なる数値に設定された状況が例示されている。図8から理解される通り、制御情報Vの数値が大きいほど継続長TAが短くなるように、上限値Aの範囲内で初期値Lが制御情報Vに応じて調整される。継続長TAに応じた先行音素画像Gの表示は第1実施形態と同様である。
第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態では、利用者から指示された制御情報Vに応じて第1音素の継続長TAが可変に設定されるから、利用者の意図を反映させた先行音素画像Gを表示できるという利点がある。また、継続長TAの上限値Aは音素の種別毎に設定されるから、音素の特性(継続長の長短)を視覚的に表現した先行音素画像Gを表示できるという利点もある。
<第3実施形態>
図10は、第3実施形態の表示制御部24により表示される編集画面40の説明図である。図10から把握される通り、第3実施形態の表示制御部24は、先行音素画像Gの端点Eの音高軸上の位置を、直前の音符の音高に応じて変化させる。具体的には、任意の1個の音符の先行音素画像Gの端点Eは、当該音符の音高X3と比較して直前の音符の音高X3が高いほど、音高軸上の高音側(直前の音符の音高X3に近い側)に位置する。例えば図10では、表示制御部24によって、第2番目の音符と第4番目の音符とで音高X3が共通するとともに、第1番目の音符は、第3番目の音符よりも音高X3が高く、第1番目の音符と第2番目の音符との音高差は、第3番目の音符と第4番目の音符との音高差よりも大きい場合が想定されている。したがって、表示制御部24は、図10に例示されるように、音符列画像Nのうち第2番目の音符図像54に対応付けられる先行音素画像Gの端点Eを、第4番目の音符図像54に対応付けられる先行音素画像Gの端点Eと比較して、音高軸上における高い位置に位置させる。
また、表示制御部24は、任意の1個の音符の先行音素画像Gの端点Eは、当該音符の音高X3と比較して直前の音符の音高X3が低いほど、音高軸上の低音側(直前の音符の音高X3に近い側)に位置するように表示させる。図11では、表示制御部24によって、第2番目の音符と第4番目の音符とで音高X3が共通するとともに、第1番目の音符は、第3番目の音符よりも音高X3が低く、第1番目の音符と第2番目の音符との音高差は、第3番目の音符と第4番目の音符との音高差よりも大きい場合が想定されている。したがって、表示制御部24は、図11に例示される通り、第2番目の音符図像54に対応付けられる先行音素画像Gの端点Eを、第4番目の音符図像54に対応付けられる先行音素画像Gの端点Eと比較して、音高軸上における低い位置に位置させる。
第3実施形態においても第1実施形態と同様の効果が実現される。また、第3実施形態では、先行音素画像Gの端点Eの音高軸上の位置が直前の音符の音高X3に応じて変化する。したがって、直前の音符からの音高の遷移(音高差)を利用者が直観的に把握できるという利点がある。
<第4実施形態>
第3実施形態では、直前の音符の音高X3に応じて先行音素画像Gの端点Eの音高軸上の位置を変化させたが、直前の音符との間に充分な間隔が存在する場合には、直前の音符の音高との相関(直前の音符との音高差)を利用者に提示する必要がない(あるいは敢えて提示しないほうが望ましい)、という事情が想定される。以上の事情を考慮して、第4実施形態の表示制御部24は、先行音素画像Gの端点Eの位置を直前の音符の音高X3に応じて変化させるか否かを、直前の音符との間隔に応じて切り換える。
図12は、第4実施形態の表示制御部24により表示される編集画面40の説明図である。図12の音符列画像Nのうち、第1番目および第3番目の各音符の発音文字“あ[a]”は母音単体の音素で構成され、第2番目および第4番目の各音符の発音文字“さ[s-a]”は、子音と母音との組合せで構成される。
音高軸上で相前後する音符の区間長TCが閾値を上回る場合には、表示制御部24は、後方の先行音素画像Gの端点Eを、音符の音高X3に応じた初期位置に位置させる。後方の音符と直前の音符との区間長TCが十分に長い場合には、後方の音符と直前の音符との相関が低いと考えられるから、図12に例示されるように、各音符の区間長TC2が閾値Dthを上回る(TC2>Dth)場合には、表示制御部24は、第4番目の音符図像54に対応付けられる先行音素画像Gの端点Eを、音高X3に応じた初期的な位置(以下「初期位置」という)に位置させる。
他方、音高軸上で相前後する音符の区間長TCが閾値を下回る場合には、表示制御部24は、後方の先行音素画像Gの端点Eの位置を、音符の音高X3に応じた初期位置から変化させる。後方の音符と直前の音符との区間長TCが十分に短い場合には、後方の音符と直前の音符との相関が高いと考えられるから、図12に例示されるように、各音符の区間長TC1が閾値Dthを下回る(TC1<Dth)場合には、表示制御部24は、第2番目の音符図像54に対応付けられる先行音素画像Gの端点Eを、直前の音符の音高X3に応じて、例えば、直前の音符の音高遷移画像PCの延長線上に位置させる。したがって、相前後する音符間の間隔(区間長TC)による各音符の音高の影響を利用者が視覚的および直観的に把握できるという利点がある。
<変形例>
前述の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を適宜に併合することも可能である。
(1)前述した各実施形態では、第1音素の発音の始点を端点Eとする線状の先行音素画像Gを例示したが、第1音素の発音の始点Eを利用者が視認することが可能な態様であれば、以上の例示に限定されない。
図13は、変形例にかかる先行音素画像Gの説明図である。図13の領域(a)に例示されるように、先行音素画像Gの線種は前述の各形態の例示に限定されない。また、図13の領域(b)に例示されるように、先行音素画像Gは、線状の画像ではなく、第1音素の発音の始点Eに位置する点状の画像として構成してもよい。以上の態様によっても、利用者は第1音素の発音の始点、および、端点Eと音符図像54の始点とで規定される第1音素の継続長TAを視覚的に把握することが可能である。図13の領域(c)に例示されるように、先行音素画像Gを、音符図像54から前方に連続する矩形状の図形としてもよい。図13の領域(d)に例示されるように、時間軸上における第1音素の発音の始点に配置されて音高軸に平行な線分(例えば音符図像54の高さと同等の長さの線分)を先行音素画像Gとして表示することも可能である。また、図13の領域(b)および(d)から把握される通り、先行音素画像Gが音高遷移画像PCや音符図像54に連続する必要はない。上述した例示以外に、例えば、先行音素画像Gと音高遷移画像PCとを共通の態様で表示することも可能である。
(2)前述した各実施形態では、第1音素の発音の始点が、一の音符の発音期間の始点(音符図像54の始点)に対して時間軸上で先行する第1音素の始点を端点Eとする線状の先行音素画像Gを例示したが、第2音素の発音の終点(音符図像54の終点)に後続する後行音素画像Hを併せて表示させる構成も採用され得る。例えば、音声素片の区分の仕方や音声素片の伸縮の方法によっては、発音期間X2の終点の後方まで音声素片が継続して発音される可能性がある。そこで、図14に例示されるように、発音文字“す[s-u]”の第2音素の発音の終点(音符図像54の終点)に後続するように、第2音素の余韻を表象する後行音素画像(すなわち発音期間X2の終点の経過後の発音を表象する画像)Hを表示させてもよい。具体的には、後行音素画像Hは、音高遷移画像PCの終点(発音期間X2の終点)から音声素片の発音の終点までにわたる線状の画像である。
(3)図15に例示される通り、複数の音符の時系列から設定される音高遷移以外のビブラートのような付加的な音高変化を表象する付加画像Bを、音高遷移画像PCとともに各音符図像54に対応付けて表示装置16に表示させることも可能である。
(4)前述の各実施形態では、ビブラートのような付加的な音高変化を除外した音高遷移を音高遷移画像PCで表現したが、複数の音符の時系列のみから特定される音高変化以外の付加的な音高変化(典型的には歌唱表現としての音高変化)を含む音高遷移を音高遷移画像PCで表すことも可能である。付加的な音高変化としては、前述のビブラートのほか、ピッチベンドやポルタメント(上行形/下行形)が例示され得る。音高遷移画像PCは、ビブラートやピッチベンドの深度や速度など付加的な音高変化の特性(パラメータ)を反映した形状となる。
(5)第2実施形態では、継続長TAの初期値Lに対して、固定値の上限値Aが対応付けられた音素種別情報Fを例示し、初期値Lが上限値Aの範囲内で指示された制御情報Vに応じて、第1音素の継続長TAが可変に設定される構成を例示したが、例えば初期値Lに対して制御情報Vに応じた可変の係数(以下「伸縮倍率」という)を乗算することで継続長TAを算定する構成では、伸縮倍率の最大値を音素の種別毎に設定することも可能である。初期値Lに最大倍率を乗算する構成によれば、伸縮倍率が共通する場合でも、音声素片の各音素の継続長に応じて継続長TAが相違し得るから、第2実施形態のように継続長TAの上限値Aを設定する構成と比較して、継続長TAを多様に変化させることが可能である。
(6)前述の各形態では、音声合成部28の音高遷移生成部282が生成した音高遷移の音高遷移画像PCを表示したが、音声合成部28による音声信号Zの生成は、音高遷移画像PCの表示に必ずしも必要ではない。すなわち、音高遷移生成部282が生成した音高遷移を適用した各音声素片の音高の調整や各音声素片の接続等の処理は、音高遷移画像PCを表示するという観点のみからすれば省略することも可能である。音声信号Zの生成に必要な処理を省略した構成によれば、処理負荷(演算時間等)を軽減できるという利点がある。
(7)前述の各形態では、利用者による音符(対象音符)の追加のたびに先行音素画像Gおよび音高遷移画像PCを表示したが、遷移画像TRの更新の契機は以上の例示(音符の追加)に限定されない。例えば、編集画面40に配置済の各音符の遷移画像TRの更新が編集画面40に対する利用者からの操作(例えば「再描画」ボタンに対する操作)で指示された場合に、配置済の各音符の遷移画像TRを追加または更新する構成や、利用者による明示的な指示を必要とせずに自動的に(例えば所定の時間毎や、利用者が何らかの編集を指示するたびに)、各音符の遷移画像TRを追加または更新する構成も採用され得る。
(8)前述の各形態では、音声素片を利用した素片接続型の音声合成部28を例示したが、合成情報Sを適用した音声合成には公知の技術が任意に採用される。例えば、隠れマルコフモデル(HMM: Hidden Markov Model)等の確率モデルを利用して、合成情報Sで指定された合成楽曲の歌唱音声を合成することも可能である。
(9)前述の各形態では、日本語の発音文字X1を例示したが、発音文字X1の言語(合成対象となる音声の言語)は任意である。例えば、英語,スペイン語,中国語,韓国語等の任意の言語の音声を生成する場合にも本発明を適用することが可能である。なお、言語によっては、例えば英語の単語“string”のように第2音素[i](母音)の前方に複数の子音(第1音素[s],[t],[r])が存在する発音文字X1も想定される。この場合、第2音素の前方に位置する複数の子音([s],[t],[r])のうち1個の子音(典型的には複数個のうち先頭の子音[s])を第1音素として、当該第1音素の発音の始点を表現する先行音素画像Gを表示することも可能である。以上の説明から理解される通り、第2音素は、第1音素の後方に位置する音素として表現され、第1音素の直後の音素には限定されない。
(10)前述の各形態では、音声素片群Lと合成情報Sとを記憶する記憶装置14を音声合成装置100に搭載したが、音声合成装置100とは独立した外部装置(例えばサーバ装置)が音声素片群Lや合成情報Sを記憶する構成も採用される。音声合成装置100は、例えば通信網を介して音声素片群Lまたは合成情報Sを取得して編集処理や音声合成処理を実行する。以上の説明から理解される通り、音声素片群Lや合成情報Sを記憶する要素は音声合成装置100の必須の要素ではない。
100……音声合成装置、12……演算処理装置、14……記憶装置、16……表示装置、17……入力装置、18……放音装置、22……情報編集部、24……表示制御部、28……音声合成部、40……編集画面、54……音符図像、282……音高遷移生成部、G……先行音素画像、N……音符列画像、PC……音高遷移画像、E……端点、C……制御変数指定画面。

Claims (4)

  1. 発音文字と発音期間と音高とを音符毎に指定する音声合成用の合成情報を参照して、各音符を表象する音符図像を時間軸上に配置した音符列画像と、前記各音符の音符図像に対応付けて配置されて前記各音符の音高遷移を示す線状の音高遷移画像とを表示装置に表示させる表示制御手段を具備し、
    前記表示制御手段は、前記合成情報で指定される一の音符の発音文字が第1音素と前記第1音素の後方の第2音素とを含み、且つ、前記合成情報を適用した合成音声において前記第1音素の発音の始点が当該一の音符の発音期間の始点に対して時間軸上で先行する場合に、前記第1音素の発音の始点を端点として前記音高遷移画像に連続する線状の先行音素画像を前記一の音符の音符図像に対応付けて表示させ、前記先行音素画像の前記端点の音高軸上の位置を、直前の音符の音高に応じて変化させ
    表示制御装置。
  2. 前記表示制御手段は、前記第1音素の種別に応じて当該第1音素の発音の時間長を設定する
    請求項の表示制御装置。
  3. 前記合成情報は、利用者からの指示に応じた制御情報を音符毎に含み
    前記表示制御手段は、前記第1音素の種別に応じた数値を上限値として、当該第1音素の発音の時間長前記制御情報に応じて設定する
    請求項1または請求項2の表示制御装置。
  4. 発音文字と発音期間と音高とを音符毎に指定する音声合成用の合成情報を参照して、各音符を表象する音符図像を時間軸上に配置した音符列画像と、前記各音符の音符図像に対応付けて配置されて前記各音符の音高遷移を示す線状の音高遷移画像とを表示装置に表示させる表示制御方法であって、
    前記合成情報で指定される一の音符の発音文字が第1音素と前記第1音素の後方の第2音素とを含み、且つ、前記合成情報を適用した合成音声において前記第1音素の発音の始点が当該一の音符の発音期間の始点に対して時間軸上で先行する場合に、前記第1音素の発音の始点を端点として前記音高遷移画像に連続する線状の先行音素画像を前記一の音符の音符図像に対応付けて表示させ、前記先行音素画像の前記端点の音高軸上の位置を、直前の音符の音高に応じて変化させる
    コンピュータシステムにより実現される表示制御方法。
JP2014228912A 2014-11-11 2014-11-11 表示制御装置および表示制御方法 Active JP6435791B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014228912A JP6435791B2 (ja) 2014-11-11 2014-11-11 表示制御装置および表示制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014228912A JP6435791B2 (ja) 2014-11-11 2014-11-11 表示制御装置および表示制御方法

Publications (2)

Publication Number Publication Date
JP2016090966A JP2016090966A (ja) 2016-05-23
JP6435791B2 true JP6435791B2 (ja) 2018-12-12

Family

ID=56017970

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014228912A Active JP6435791B2 (ja) 2014-11-11 2014-11-11 表示制御装置および表示制御方法

Country Status (1)

Country Link
JP (1) JP6435791B2 (ja)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3632522B2 (ja) * 1999-09-24 2005-03-23 ヤマハ株式会社 演奏データ編集装置、方法及び記録媒体
JP3879402B2 (ja) * 2000-12-28 2007-02-14 ヤマハ株式会社 歌唱合成方法と装置及び記録媒体
JP3963141B2 (ja) * 2002-03-22 2007-08-22 ヤマハ株式会社 歌唱合成装置、歌唱合成用プログラム及び歌唱合成用プログラムを記録したコンピュータで読み取り可能な記録媒体
JP3823928B2 (ja) * 2003-02-27 2006-09-20 ヤマハ株式会社 スコアデータ表示装置およびプログラム
JP4186851B2 (ja) * 2004-03-18 2008-11-26 ヤマハ株式会社 演奏情報表示装置およびプログラム
JP5423375B2 (ja) * 2009-12-15 2014-02-19 ヤマハ株式会社 音声合成装置
JP2013003205A (ja) * 2011-06-13 2013-01-07 Kawai Musical Instr Mfg Co Ltd 楽譜表示装置、楽譜表示プログラム及び楽譜
JP6236765B2 (ja) * 2011-11-29 2017-11-29 ヤマハ株式会社 音楽データ編集装置および音楽データ編集方法

Also Published As

Publication number Publication date
JP2016090966A (ja) 2016-05-23

Similar Documents

Publication Publication Date Title
US8975500B2 (en) Music data display control apparatus and method
JP5482042B2 (ja) 合成音声テキスト入力装置及びプログラム
JP6236765B2 (ja) 音楽データ編集装置および音楽データ編集方法
JP5728913B2 (ja) 音声合成情報編集装置およびプログラム
JP6620462B2 (ja) 合成音声編集装置、合成音声編集方法およびプログラム
US9424831B2 (en) Voice synthesizing having vocalization according to user manipulation
EP2645363B1 (en) Sound synthesizing apparatus and method
JP6507579B2 (ja) 音声合成方法
JP5423375B2 (ja) 音声合成装置
JP2008185911A (ja) 音声合成装置
JP2009133890A (ja) 音声合成装置及びその方法
JP6435791B2 (ja) 表示制御装置および表示制御方法
JP6413220B2 (ja) 合成情報管理装置
JP5935545B2 (ja) 音声合成装置
JP6372066B2 (ja) 合成情報管理装置および音声合成装置
JP5935831B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP2006349787A (ja) 音声合成方法および装置
JP6762454B1 (ja) ピッチパターン補正装置、プログラム及びピッチパターン補正方法
JP6439288B2 (ja) 合成情報管理装置および合成情報管理方法
JP5552797B2 (ja) 音声合成装置および音声合成方法
JP5641266B2 (ja) 音声合成装置、音声合成方法およびプログラム
KR20120060757A (ko) 음성 합성 정보 편집 장치
JP2015079063A (ja) 合成情報管理装置
JP2006030691A (ja) 制作・編集装置およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170922

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180807

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180928

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181016

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181029

R151 Written notification of patent or utility model registration

Ref document number: 6435791

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151