JP6261924B2 - 韻律編集装置、方法およびプログラム - Google Patents

韻律編集装置、方法およびプログラム Download PDF

Info

Publication number
JP6261924B2
JP6261924B2 JP2013192359A JP2013192359A JP6261924B2 JP 6261924 B2 JP6261924 B2 JP 6261924B2 JP 2013192359 A JP2013192359 A JP 2013192359A JP 2013192359 A JP2013192359 A JP 2013192359A JP 6261924 B2 JP6261924 B2 JP 6261924B2
Authority
JP
Japan
Prior art keywords
approximate
point
locus
trajectory
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013192359A
Other languages
English (en)
Other versions
JP2015060002A (ja
Inventor
紘一郎 森
紘一郎 森
悠 那須
悠 那須
正統 田村
正統 田村
眞弘 森田
眞弘 森田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2013192359A priority Critical patent/JP6261924B2/ja
Priority to US14/474,591 priority patent/US20150081306A1/en
Priority to CN201410458186.5A priority patent/CN104464718A/zh
Publication of JP2015060002A publication Critical patent/JP2015060002A/ja
Application granted granted Critical
Publication of JP6261924B2 publication Critical patent/JP6261924B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明の実施形態は、韻律編集装置、方法およびプログラムに関する。
テキストから合成音を生成する音声合成技術においては、近年、統計的韻律モデルの利用により、生成される合成音の品質が大幅に向上している。しかし、いかに大量の音声コーパスから精緻な韻律モデルを構築しても、韻律モデルから生成される平均的な韻律では満足できないケースがある。たとえば、韻律が多様な挨拶などの口語表現や語尾表現などである。そのため、韻律モデルから生成される韻律をユーザの操作に応じて編集する装置が提案されている。
ユーザの操作に応じて韻律を編集する装置では、編集後の韻律が不自然になることに起因した合成音の品質低下を招くことなく、編集作業におけるユーザの操作性向上を実現するために、直感的かつ簡便な操作で、ユーザが望む自然な韻律を得られるようにすることが求められる。
特開2008−268477号公報 特開2010−60886号公報
本発明が解決しようとする課題は、直感的かつ簡便な操作でユーザが望む自然な韻律を得ることができる韻律編集装置、方法およびプログラムを提供することである。
実施形態の韻律編集装置は、生成部と、設定部と、表示制御部と、操作受付部と、更新部と、を備える。生成部は、韻律情報の時系列を表す軌跡を所定単位ごとにパラメトリック曲線により近似し、近似軌跡を生成する。設定部は、前記パラメトリック曲線の制御点に対応する操作点を前記近似軌跡上に設定する。表示制御部は、前記操作点を明示した前記近似軌跡を含む操作画面を表示装置に表示させる。操作受付部は、前記操作画面上で任意の前記操作点を移動させる操作を受け付ける。更新部は、前記操作点の移動量から移動後の該操作点に対応する前記制御点の位置を求め、前記近似軌跡を更新する。
実施形態の韻律編集装置の構成例を示すブロック図。 3次ベジェ曲線の一例を示す図。 近似軌跡の一例を示す図。 近似軌跡上に操作点を設定する様子を示す模式図。 表示装置に表示される操作画面の一例を示す図。 操作点を移動させる操作に応じて近似軌跡を更新する様子を示す模式図。 更新された操作画面の一例を示す図。 実施形態の韻律編集装置が実行する一連の処理を示すフローチャート。 編集処理の詳細を示すフローチャート。 近似軌跡上の任意の位置に操作点を追加する様子を示す模式図。 実施形態の韻律編集装置のハードウェア構成の一例を示すブロック図。
図1は、本実施形態の韻律編集装置100の構成例を示すブロック図である。図1に示すように、韻律編集装置100は、音声合成部101と、生成部102と、設定部103と、表示制御部104と、操作受付部105と、更新部106と、を備える。また、韻律編集装置100は、ユーザインタフェースとして、スピーカ110と、液晶ディスプレイなどの表示装置120と、マウスやタッチパネルなどの入力装置130と、を備える。入力装置130にタッチパネルを用いる場合は、表示装置120と入力装置130とが一体化される。
音声合成部101は、外部からテキストを入力し、韻律や合成音を生成する。韻律の生成には、例えば統計的韻律モデルが用いられる。音声合成の方式には、一般的に知られている素片接続型音声合成や隠れマルコフモデル音声合成など、任意の方式を採用することができる。また、音声合成部101は、ユーザの操作により編集された韻律(後述する更新された近似軌跡)を入力とし、その韻律を適用した合成音を生成することもできる。音声合成部101が生成した合成音は、スピーカ110から出力される。
音声の韻律を表す韻律情報(計算機で扱えるパラメータ)としては、基本周波数(F0)、音素の継続時間長、パワーなどがある。F0は、横軸を時間、縦軸を周波数としたときに、その時系列を線で表すことができる。このような線で表されるF0の時系列をF0軌跡と呼ぶ。F0軌跡を編集することで、様々なイントネーションを持った合成音を生成できる。
以下では、音声合成部101が生成したF0軌跡を編集の対象とする場合について説明する。ただし、編集の対象となる韻律情報はF0軌跡に限定されるものではない。本実施形態の韻律編集方法は、線(軌跡)で表すことができる韻律情報の時系列に対して広く適用できる。例えば、音素の継続時間長は、横軸を音素の発生時間、縦軸を時間長としたときに、その時系列を線(軌跡)で表すことができる。また、パワーは、横軸を時間、縦軸をパワーの大きさとしたときに、その時系列を線(軌跡)で表すことができる。本実施形態は、これら音素の継続時間長の時系列やパワーの時系列を編集する場合にも同様に適用できる。
生成部102は、音声合成部101が生成したF0軌跡を所定単位ごとにパラメトリック曲線により近似し、近似軌跡を生成する。パラメトリック曲線とは、例えば、スプライン曲線、Bスプライン曲線、ベジェ曲線などである。本実施形態では、パラメトリック曲線としてベジェ曲線を用いて近似軌跡を生成する。ただし、近似に用いるパラメトリック曲線は、ベジェ曲線に限定されるものではない。
ベジェ曲線は、N個の制御点から得られるN−1次のパラメトリック曲線である。ベジェ曲線は、連続曲線を少ないパラメータで表現できることから、滑らかな曲線を描く際によく用いられる。m次ベジェ曲線の方程式を下記式(1)に示す。
Figure 0006261924
ここで、mはベジェ曲線の次数、tiは媒介変数、iは媒介変数のインデックス、Pkは二次元座標平面上のk番目の制御点の座標である。媒介変数tiが0から1まで変化することで、1つのベジェ曲線が得られる。
m次ベジェ曲線の場合、m+1個の制御点の集合{P0、P1,P2,・・・、Pm}から一意の形状が決まる。例えば、3次ベジェ曲線の方程式は、下記式(2)で定義される。
Figure 0006261924
図2は、3次ベジェ曲線の一例を示す図である。図2に示す3次ベジェ曲線201は、P0、P1、P2、P3の4つの制御点から成り立つ。P0とP3はベジェ曲線201の端点となる制御点である。一般的に、端点以外の制御点はベジェ曲線201上に存在するとは限らない。
生成部102は、音声合成部101が生成したF0軌跡を所定単位ごとに区切り、各区間をベジェ曲線で近似することで近似軌跡を生成する。本実施形態では、F0軌跡の各区間を近似するベジェ曲線の制御点を最小二乗法で求める。ここでは、簡単のため3次ベジェ曲線により近似する場合を例に挙げて説明するが、3次以外のm次ベジェ曲線でも同様の方法で一般化できる。
生成部102は、F0軌跡の任意の区間の二次元座標平面上の座標をpi(i=1〜n)、ベジェ曲線をq(ti)としたときに、下記式(3)で定義される二乗誤差和を最小にする制御点Pkを推定する。ここでnは媒介変数tのデータ数である。
Figure 0006261924
最小二乗法で解くと、最終的に制御点の座標Pkは、下記式(4),(5)で計算できる。なお、P0とP3はベジェ曲線の端点であるため、これらの座標はF0軌跡の任意の区間の端点であるp1とpnの座標に等しい。数式(4),(5)の各定数は、数式(6)〜(10)で定義される。
Figure 0006261924
Figure 0006261924
以上のようにして、F0軌跡の各区間を近似するベジェ曲線の制御点が求められる。そして、これら各区間のベジェ曲線を時間軸に沿って繋げたものが近似軌跡となる。本実施形態では、この近似軌跡をF0軌跡とみなして編集を行う。
本実施形態では、入力テキストが日本語であることを想定し、F0軌跡を区切る所定単位をアクセント句単位とする。つまり、F0軌跡をアクセント句ごとにベジェ曲線で近似する。この場合、F0軌跡の各区間を近似するベジェ曲線の次数は、その区間のアクセント句に含まれるモーラ数と同じ値もしくはそれよりも大きな値とすることが望ましい。これにより、F0軌跡に対する近似軌跡(ベジェ曲線)の近似誤差を小さくできる。なお、F0軌跡を区切る所定単位はアクセント句に限定されるものではなく、近似誤差が大きくならない任意の単位を定めておけばよい。
図3は、生成部102により生成される近似軌跡の一例を示す図である。図3に示す近似軌跡301は、「これは/音声合成の/テストです」という3アクセント句(ポーズは除く)の入力テキスト302のF0軌跡を、アクセント句ごとにベジェ曲線で近似した例である。図の横方向が時間軸(以下、X軸という。)に対応し、図の縦方向が周波数軸(以下、Y軸という。)に対応する。図中の黒塗りの四角が、ベジェ曲線の制御点303である。なお、破線の縦線304はX軸における音素の境界を示し、実線の縦線305はX軸におけるアクセント句の境界を示している。また、入力テキスト302上部の「k/o/r/e/w/a」などは音素列306である。アクセント句ごとに制御点303の座標を推定し、それらの制御点303で表されるベジェ曲線を繋げる(ポーズは除く)ことで、近似軌跡301が生成される。
設定部103は、F0軌跡を近似したベジェ曲線の制御点に対応する操作点を、近似軌跡上(つまりベジェ曲線上)に設定する。操作点とは、ユーザが近似軌跡を用いてF0軌跡の編集を行う際に後述の操作画面上で操作する点であり、必ず近似軌跡上に存在する。ベジェ曲線の制御点と近似軌跡上の操作点はペアになり、必ず一対一に対応する。また、操作点を設定するとは、操作点の座標を記憶することを意味する。
ベジェ曲線の端点を除く制御点は、上述したように、ベジェ曲線上に存在するとは限らない。そこで、本実施形態では、ベジェ曲線の制御点に対応する操作点を近似軌跡上に設定し、ユーザが近似軌跡上の操作点を操作することで、F0軌跡(近似軌跡)の編集を行えるようにしている。近似軌跡上に存在しない制御点よりも近似軌跡上に存在する操作点の方が、ユーザはより直観的に操作することができる。なお、ベジェ曲線の端点となる制御点は、その制御点を操作点に設定すればよい。
図4は、近似軌跡上に操作点を設定する様子を示す模式図である。図4の例では、図3に示した近似軌跡301の一部(アクセント句「テストです」に対応する部分)を近似軌跡401として示している。また、この近似軌跡401を構成するベジェ曲線の制御点402を図3と同様に黒塗りの四角で示し、それぞれの制御点402に対応する操作点403を白抜きの丸で示している。なお、ベジェ曲線の端点の制御点は近似軌跡401上に存在するため、制御点そのものが操作点となる。
図4に示す例では、制御点402の数を入力テキスト404のモーラ数と一致させ、各モーラが1つの操作点403を持つようにしている。図中の操作点403を表す白抜きの丸内の文字が、その操作点403に対応するモーラを表している。なお、制御点402およびこれに対応する操作点403の数は、必ずしも入力テキスト404のモーラ数と一致させる必要はない。例えば、入力テキスト404の音素ごとに制御点402および操作点403を持つようにしてもよいし、モーラや音素とは関係なく、制御点402および操作点403を持つようにしてもよい。
図4(a)に示すように、制御点402のX座標がモーラのX座標と一致している場合は、各制御点402を近似軌跡401上に垂直(Y軸方向)に射影することで、制御点402に対応する操作点403を近似軌跡401上に設定することができる。ただし、上記式(4),(5)により計算される制御点402のX座標は、図4(b)に示すように、必ずしも各モーラのX座標と一致するとは限らない。その場合は、制御点402のX座標がモーラのX座標と一致するように、制御点402の位置を調整する。例えば、図4(b)中の矢印で示すように、制御点402を、そのX座標がモーラのX座標と一致するように平行移動する。
この制御点402の移動によってベジェ曲線の形状は若干変化する。これにより、オリジナルのF0軌跡との誤差(近似誤差)が大きくなる場合がある。そこで、近似誤差がある閾値を超える場合は、制御点402の平行移動は行わず、制御点402をそのまま近似軌跡401上に垂直(Y軸方向)に射影して操作点403を設定するようにしてもよい。また、より高度な手法として、F0軌跡をベジェ曲線で近似する際に、制御点402のX座標がモーラのX座標と一致するような制約を入れて近似誤差を最小にする制約付き最小二乗法を用いるようにしてもよい。また、ユーザの操作に応じて新たな操作点を追加する機能(変形例として後述する)を用いて、近似軌跡401上のモーラの発生位置に新たに操作点403を追加することで対応してもよい。
表示制御部104は、操作点を明示した近似軌跡を含む操作画面を表示装置120に表示させる。
図5は、表示制御部104による制御のもとで表示装置120に表示される操作画面の一例を示す図である。図5に示す操作画面501は、画面の横方向がX軸に対応し、縦方向がY軸に対応する。この操作画面501は、操作点502を明示した近似軌跡503を含んでいる。近似軌跡503は、図3に示した近似軌跡301と同様に、「これは/音声合成の/テストです」という入力テキスト504のF0軌跡を、アクセント句ごとにベジェ曲線で近似したものである。近似軌跡503上の操作点502は、図4の例と同様に白抜きの丸で示され、その丸の中に、操作点502に対応するモーラの表記が書き込まれている。なお、音素ごとに操作点502が設定された場合は、モーラの表記の代わりに音素の表記を白抜きの丸内に書き込めばよい。
また、図5に示す操作画面501では、図3の例と同様に、入力テキスト504と音素列505を近似軌跡503とともに示している。なお、破線の縦線506は音素の境界を示し、実線の縦線507はアクセント句の境界を示している。制御点は、操作画面501上で表示する必要はないが、目安として表示するようにしてもよい。
ユーザは、入力装置130を用い、この図5に示す操作画面501上で、任意の操作点502をY軸方向に移動させる操作を行うことで、F0軌跡の編集を行うことができる。例えば、入力装置130としてマウスを用いる場合には、任意の操作点502に対するドラッグアンドドロップ操作により、その操作点502をY軸方向に移動させることができる。また、入力装置130としてタッチパネルを用いる場合には、任意の操作点502に対するタッチ操作により、その操作点502をY軸方向に移動させることができる。
なお、表示装置120に表示される操作画面の形式は、図5に示す形式に限定されるものではない。表示装置120に表示される操作画面は、少なくとも、ユーザの操作により移動可能な操作点を明示した近似軌跡を含んだものであればよい。
操作受付部105は、表示装置120に表示された操作画面上で任意の操作点を移動させるユーザの操作を受け付けて、操作点の移動量を更新部106に渡す。
更新部106は、操作受付部105から渡された操作点の移動量から移動後の該操作点に対応する制御点の位置を求め、近似軌跡を更新する。更新後の新たな近似軌跡が、編集されたF0軌跡を表したものとなる。
近似軌跡上の操作点は、この近似軌跡を構成するベジェ曲線の制御点と一対一に対応するため、操作点が移動すると、この操作点に対応する制御点も移動することになる。しかし、操作点の移動量と制御点の移動量は一致しないため、以下で説明する計算によって、操作点の移動量から制御点の位置(座標)を求める必要がある。
この計算を簡単化するために、2つの仮定を導入する。1つ目の仮定は、ユーザが操作点を垂直方向(Y軸方向)にしか移動できないように制限することである。2つ目の仮定は、ユーザが移動させた操作点に対応する制御点以外の他の制御点の座標は不変とすることである。この2つの仮定を導入すると、近似軌跡上の操作点の移動量から、該操作点に対応する制御点の移動量を次のように容易に求められる。
例えば、移動した操作点に対応する制御点をP2とする。この制御点P2に対応する操作点の位置での媒介変数の値をtとし、その操作点の垂直方向の移動量をΔq、制御点P2の垂直方向への移動量をΔPとすると、下記式(11)が成り立つ。
Figure 0006261924
ここで、式(11)に上記式(2)のq(t)を代入して式を整理すると、下記式(12)が得られる。
Figure 0006261924
この式(12)により、既知である操作点の移動量Δqから制御点の移動量ΔPを導くことができる。よって、制御点P2のy座標にΔPを加えて更新すれば、新たな制御点P2の座標が得られる。同様の方法で任意の操作点の移動量から制御点の移動量を導出し、新たな制御点の位置を求めることができる。
更新部106は、以上の計算により、操作点の移動量から制御点の位置を求め、新たな制御点を用いてベジェ曲線を再描画することにより、近似軌跡を更新する。
図6は、操作点を移動させるユーザの操作に応じて近似軌跡を更新する様子を示す模式図である。図6では、図5に示した操作画面501上で、ユーザがモーラ「て」に対応する操作点を垂直方向に移動させた場合の例を示している。この図6において、破線の曲線が更新前の近似軌跡601Bを示し、実線の曲線が更新された近似軌跡601Aを示している。また、操作点602は白抜きの丸、更新前の近似軌跡601Bを構成するベジェ曲線の制御点603は破線の四角、移動後の操作点602Aに対応する制御点603Aは黒塗りの四角で示している。なお、ベジェ曲線の端点の制御点は近似軌跡601A(601B)上に存在するため、制御点そのものが操作点となる。
更新部106は、図6に示すように、モーラ「て」に対応する操作点602の移動量Δqをもとに、上述した計算によって制御点603の移動量ΔPを求め、移動前の制御点603のy座標にΔPを加算することで、移動後の操作点602Aに対応する新たな制御点603Aの位置を求めることができる。そして、更新部106は、新たな制御点603Aと、移動していない他の操作点602に対応する制御点603とを用いて新たなベジェ曲線を描画することで、近似軌跡601Bを近似軌跡601Aのように更新することができる。
更新部106により近似軌跡が更新されると、この更新された近似軌跡が新たなF0軌跡として音声合成部101に入力され、新たなF0軌跡を用いて生成された合成音がスピーカ110から出力される。ユーザは、このスピーカ110から出力される合成音を聴くことにより、編集の効果を確認することができる。
また、更新部106により近似軌跡が更新されると、設定部103により更新された近似軌跡上に新たに操作点が設定される。そして、表示制御部104が、新たに設定された操作点を明示した、更新された近似軌跡を含む操作画面を表示装置120に表示させる。これにより、表示装置120に表示される操作画面が更新される。ユーザは、この更新された操作画面により、さらに編集作業を進めることができる。
図7は、更新された操作画面の一例を示す図である。図7に示す操作画面701は、図5に示した操作画面501上で、ユーザがモーラ「て」に対応する操作点を図6のように移動させたことにより更新された操作画面を示している。この図7に示す操作画面701を図5に示した操作画面501と比較すると明らかなように、ユーザがモーラ「て」に対応する操作点702を移動させる操作を行うと、このモーラ「て」を含むアクセント句「テストです」の区間全体に亘って、近似軌跡703が変化している。そして、この新たな近似軌跡703上の各モーラに対応する位置に新たに操作点702が設定される。なお、ユーザが操作点702を移動させたモーラ「て」を除く他のモーラについては、操作点702の位置は変化するが制御点の位置は変化しない。
次に、本実施形態の韻律編集装置100の動作を説明する。図8は、韻律編集装置100が実行する一連の処理を示すフローチャートである。
まず、音声合成部101が、例えば、予め作成された統計的韻律モデルを用いて、入力テキストのF0軌跡を生成する(ステップS101)。
次に、生成部102が、ステップS101で生成されたF0軌跡を、例えばアクセント句などの所定単位ごとにベジェ曲線で近似し、近似軌跡を生成する(ステップS102)。
次に、設定部103が、F0軌跡を近似したベジェ曲線の制御点に対応する操作点を、ステップS102で生成された近似軌跡上に設定する(ステップS103)。
次に、表示制御部104が、ステップS103で設定された操作点を明示した近似軌跡を含む操作画面を表示装置120に表示させる(ステップS104)。ユーザは、この表示装置120に表示された操作画面を用いて、F0軌跡を編集する編集作業を行う。
本実施形態の韻律編集装置100は、ユーザに対して編集作業を終了するか否かを随時問い合わせ(ステップS105)、ユーザが編集作業を終了する旨の指示を行わない間は(ステップS105:No)、ステップS106の編集処理を繰り返し行う。そして、ユーザが編集作業を終了する旨の指示を行うと(ステップS105:Yes)、一連の処理を終了する。
図9は、図8のステップS106の編集処理の詳細を示すフローチャートである。
まず、ユーザが入力装置130を用いて表示装置120に表示された操作画面上で任意の操作点を移動させる操作を行うと、操作受付部105がそのユーザの操作を受け付けて、操作点の移動量を更新部106に渡す(ステップS201)。
次に、更新部106が、操作点の移動量から上述した方法で移動後の操作点に対応する新たな制御点の位置を算出する(ステップS202)。そして、更新部106は、ステップS202で算出した新たな制御点を用いて、近似軌跡を更新する(ステップS203)。
次に、表示制御部104が、ステップS203で更新された近似軌跡を含む新たな操作画面を表示装置120に表示させ、表示装置120に表示される操作画面を更新する(ステップS204)。なお、更新された操作画面では、更新された近似軌跡上に新たな操作点が明示されている。
また、ステップS203で更新された近似軌跡は、編集後のF0軌跡として音声合成部101に送られる。音声合成部101は、この編集後のF0軌跡を用いて合成音を生成し、スピーカ110から出力する(ステップS205)。ユーザはこの合成音を聴いて所望の韻律が得られたかどうかを確認し、さらに編集作業を行う場合はステップS204で更新された操作画面上で任意の操作点を移動させる操作を行い、編集作業を終了する場合はその旨の指示を行う。
以上、具体的な例を挙げながら詳細に説明したように、本実施形態の韻律編集装置100は、韻律情報の時系列を表す軌跡をパラメトリック曲線で近似して近似軌跡を生成し、パラメトリック曲線の制御点に対応する操作点を近似軌跡上に設定する。そして、操作点を明示した近似軌跡を含む操作画面を表示して、この操作画面上で操作点を移動させるユーザの操作に応じて近似軌跡を更新する。本実施形態の韻律編集装置100によれば、このような手順で韻律を編集するようにしたため、直感的かつ簡便な操作でユーザが望む自然な韻律を得ることができる。
すなわち、本実施形態の韻律編集装置100では、韻律情報の時系列を表す軌跡をパラメトリック曲線で近似して近似軌跡を生成し、この近似軌跡を編集対象の軌跡とみなして、操作点に対するユーザの操作に応じて近似軌跡を更新することで編集を行う。したがって、1つの操作点を移動させる操作で、その操作点の位置だけでなくその周辺も含めて滑らかに変化した軌跡を得ることができ、簡便な操作でユーザが望む自然な韻律を得ることができる。
また、本実施形態の韻律編集装置100では、軌跡を編集するために操作する操作点を近似軌跡上に設定しているので、ユーザは、編集対象の軌跡そのものを変形させる感覚で、直感的な操作により軌跡の編集を行うことができる。
制御点を移動させることで曲線を変形する方法はよく知られているが、制御点は必ずしも曲線上にはないため、この方法をそのまま韻律を編集する技術に適用しても、直感的な操作を行うことはできない。また、編集対象の軌跡とは別に操作のためのインターフェースを設け、そのインターフェースを用いた操作に応じて軌跡を変形させる方法もあるが、この場合も編集対象の軌跡そのものを変形させるような直感的な操作を行うことはできない。これに対して、本実施形態では、近似軌跡上の操作点に対する操作に応じて近似軌跡を更新することで軌跡の編集を行うので、編集対象の軌跡そのものを変形させる感覚で、直感的な操作により軌跡の編集を行うことができる。これを実現するために、本実施形態の韻律編集装置100では、制御点に対応する操作点を近似軌跡上に設定し、その操作点の移動量から新たな制御点の位置を求めて、軌跡を更新する構成を採用している。
また、本実施形態の韻律編集装置100では、音声合成部101が、更新された近似軌跡を用いて合成音を生成してスピーカ110から出力させるため、ユーザは、この合成音を聴きながら編集の効果を確認することができる。
また、本実施形態の韻律編集装置100では、韻律情報の時系列を表す軌跡を近似するパラメトリック曲線として、特にベジェ曲線を用いることで、近似の精度を高めて自然な韻律を得ることができる。つまり、パラメトリック曲線の中でも特にベジェ曲線は、韻律情報の時系列を表す軌跡に近い変化が得られるため、ベジェ曲線を用いて近似軌跡を生成することにより、自然な韻律を得ることができる。
また、本実施形態の韻律編集装置100では、図4(b)を用いて説明したように、制御点402の時間軸方向の位置(X座標)が近似軌跡401の音素またはモーラの発生位置(X座標)と異なる場合に、制御点402のX座標を音素またはモーラのX座標と一致させるように調整した上で操作点403を設定することで、ユーザは変化させたい音素またはモーラそのものを操作する感覚で編集作業を行うことができ、より直感的な操作が可能になる。
また、本実施形態の韻律編集装置100では、図5に示したように、近似軌跡503上の操作点502を音素またはモーラを表す表記を用いて明示し、このような近似軌跡503を含む操作画面501を表示装置120に表示させることで、ユーザは変化させたい音素またはモーラそのものを操作する感覚で編集作業を行うことができ、より直感的な操作が可能になる。
(変形例)
上述した実施形態では、操作受付部105は、操作画面に含まれる近似軌跡上にすでに設定されている操作点を移動させるユーザの操作を受け付けるようにしていた。しかし、操作受付部105は、すでに設定されている操作点を移動させる操作だけでなく、近似軌跡上の任意の位置に操作点を追加する操作を受け付けるようにしてもよい。
図10は、ユーザの操作に応じて近似軌跡上の任意の位置に操作点を追加する様子を示す模式図である。図10に示す例は、図5に例示した操作画面501において、アクセント句「これは」の区間の近似軌跡上における音素「w」と音素「a」の境界位置に、ユーザが新たな操作点1001を追加する操作を行った場合を示している。
ユーザは、入力装置130を用いて、操作画面に含まれる近似軌跡上の任意の位置に操作点を追加する操作を行う。例えば、入力装置130としてマウスを用いる場合には、近似軌跡上の任意の位置にカーソルを合わせてダブルクリック、あるいは右クリックの操作を行うことで、カーソルの位置に操作点を追加することができる。また、入力装置130としてタッチパネルを用いる場合には、近似軌跡上の任意の位置に対するタッチ操作により、タッチした位置に操作点を追加することができる。
操作受付部105は、近似軌跡上の任意の位置に操作点を追加するユーザの操作を受け付けて、追加された操作点の位置情報(座標)を更新部106に渡す。
更新部106は、ユーザの操作により追加された操作点の位置情報をもとに、以下で説明する計算によって、その操作点に対応する制御点の位置を求めて、近似軌跡を更新する。
ユーザの操作により追加された操作点の座標をqとし、その位置での媒介変数の値をtとする。このとき、追加された操作点に対応する制御点の位置がPk、それ以外の制御点の座標が不変だと仮定すると、下記式(13)が成り立つ。
Figure 0006261924
この式(13)は、右辺で追加された制御点Pkの項と左辺の操作点の変化量が一致することを表している。よって、追加された操作点に対応する制御点の座標Pkは、下記式(14)で求められる。
Figure 0006261924
更新部106は、このように求めた新たな制御点を、すでにある制御点に加えてベジェ曲線を再描画することにより、近似軌跡を更新することができる。図10に示した例では、破線の四角が、追加された操作点1001に対応する新たな制御点1002である。そして、この制御点1002を用いて、更新された近似軌跡1003が得られる。更新された近似軌跡1003の形状は、操作点が追加される前の近似軌跡からあまり変化しないが、新たな制御点1002が加えられたことで、つまり次数が大きくなったことで、より滑らかな形状となっている。
近似軌跡が更新されると、上述した実施形態と同様に、更新された近似軌跡を含む操作画面が表示装置120に表示される。ユーザは、この更新された操作画面を用いて、上述した実施形態と同様の方法で、F0軌跡の編集を行うことができる。
本変形例では、近似軌跡上の任意の位置に操作点を追加することができるので、ユーザの操作性がさらに向上する。また、例えば上述したように、制御点のX座標と近似軌跡上の音素やモーラのX座標とが一致しない場合であっても、制御点をX軸方向に平行移動させる調整を行うことなく、音素やモーラのX座標と一致する位置に操作点を追加することで対応できるので、近似誤差を少なくすることができる。
なお、本実施形態の韻律編集装置は、例えば、汎用のコンピュータを基本ハードウェアとして用いて実現することが可能である。図11は、本実施形態の韻律編集装置100のハードウェア構成の一例を示すブロック図である。図11に示す例では、韻律編集装置100は、韻律編集処理を実行するプログラムなどが格納されているメモリ140と、メモリ140内のプログラムに従って韻律編集装置100の各部を制御するCPU150と、韻律編集装置100の制御に必要な種々のデータを記憶する外部記憶装置160と、合成音などを出力するスピーカ110と、操作画面を表示する表示装置120と、ユーザが操作画面を操作する際に使用する入力装置130と、各部を接続するバス170と、を含む。なお、外部記憶装置160は、有線または無線によるLAN(Local Area Network)などで各部に接続されてもよい。
上述の実施形態で説明した各処理に関する指示は、一例として、ソフトウェアであるプログラムに基づいて実行される。上述の実施形態で説明した各処理に関する指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RW、Blu−ray(登録商標)Discなど)、半導体メモリ、またはこれに類する記録媒体に記録される。コンピュータが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。
コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPU150で実行することにより、上述した実施形態の韻律編集装置100として機能する。もちろん、コンピュータがプログラムを取得する場合または読み込む場合は、ネットワークを通じて取得または読み込んでもよい。
また、記録媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
コンピュータが実行するプログラムは、本実施形態の韻律編集装置100を構成する各処理部(音声合成部101、生成部102、設定部103、表示制御部104、操作受付部105および更新部106)を含むモジュール構成となっており、実際のハードウェアとしては、例えば、CPU150がメモリ140からプログラムを読み出して実行することにより、上記各処理部が主記憶部にロードされ、主記憶部上に生成されるようになっている。
なお、本実施形態におけるコンピュータは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
以上、本発明の実施形態を説明したが、ここで説明した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。ここで説明した新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。ここで説明した実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100 韻律編集装置
101 音声合成部
102 生成部
103 設定部
104 表示制御部
105 操作受付部
106 更新部
110 スピーカ
120 表示装置
130 入力装置

Claims (7)

  1. 韻律情報の時系列を表す軌跡を所定単位ごとにパラメトリック曲線により近似し、近似軌跡を生成する生成部と、
    前記パラメトリック曲線の制御点に対応する操作点を前記近似軌跡上に設定する設定部と、
    前記操作点を明示した前記近似軌跡を含む操作画面を表示装置に表示させる表示制御部と、
    前記操作画面上で任意の前記操作点を移動させる操作を受け付ける操作受付部と、
    前記操作点の移動量から移動後の該操作点に対応する前記制御点の位置を求め、前記近似軌跡を更新する更新部と、を備え
    前記設定部は、前記制御点の時間軸方向の位置が前記近似軌跡の音素またはモーラの位置と異なる場合に、前記制御点の時間軸方向の位置を前記近似軌跡の音素またはモーラの位置と一致させるように調整し、調整後の前記制御点に対応する前記操作点を前記近似軌跡上の音素またはモーラの位置に設定する韻律編集装置。
  2. 前記近似軌跡を用いて合成音を生成する音声合成部をさらに備える、請求項1に記載の韻律編集装置。
  3. 前記生成部は、前記パラメトリック曲線としてベジェ曲線を用い、前記近似軌跡を生成する、請求項1または2に記載の韻律編集装置。
  4. 前記表示制御部は、前記操作点を該操作点の位置に対応する音素またはモーラを表す表記を用いて明示した前記近似軌跡を含む前記操作画面を前記表示装置に表示させる、請求項1乃至3のいずれか一項に記載の韻律編集装置。
  5. 前記操作受付部は、前記操作画面に含まれる前記近似軌跡上の任意の位置に前記操作点を追加する操作をさらに受け付け、
    前記更新部は、前記操作点が追加された場合に、追加された該操作点に対応する前記制御点の位置を求め、前記近似軌跡を更新する、請求項1乃至4のいずれか一項に記載の韻律編集装置。
  6. 韻律編集装置において実行される韻律編集方法であって、
    律情報の時系列を表す軌跡を所定単位ごとにパラメトリック曲線により近似し、近似軌跡を生成する生成ステップと、
    記パラメトリック曲線の制御点に対応する操作点を前記近似軌跡上に設定する設定ステップと、
    記操作点を明示した前記近似軌跡を含む操作画面を表示装置に表示させる表示制御ステップと、
    記操作画面上で任意の前記操作点を移動させる操作を受け付ける操作受付ステップと、
    記操作点の移動量から移動後の該操作点に対応する前記制御点の位置を求め、前記近似軌跡を更新する更新ステップと、を含み、
    前記設定ステップでは、前記制御点の時間軸方向の位置が前記近似軌跡の音素またはモーラの位置と異なる場合に、前記制御点の時間軸方向の位置を前記近似軌跡の音素またはモーラの位置と一致させるように調整し、調整後の前記制御点に対応する前記操作点を前記近似軌跡上の音素またはモーラの位置に設定する韻律編集方法。
  7. コンピュータに、
    韻律情報の時系列を表す軌跡を所定単位ごとにパラメトリック曲線により近似し、近似軌跡を生成する生成機能と、
    前記パラメトリック曲線の制御点に対応する操作点を前記近似軌跡上に設定する設定機能と、
    前記操作点を明示した前記近似軌跡を含む操作画面を表示装置に表示させる表示制御機能と、
    前記操作画面上で任意の前記操作点を移動させる操作を受け付ける操作受付機能と、
    前記操作点の移動量から移動後の該操作点に対応する前記制御点の位置を求め、前記近似軌跡を更新する更新機能と、を実現させ
    前記設定機能は、前記制御点の時間軸方向の位置が前記近似軌跡の音素またはモーラの位置と異なる場合に、前記制御点の時間軸方向の位置を前記近似軌跡の音素またはモーラの位置と一致させるように調整し、調整後の前記制御点に対応する前記操作点を前記近似軌跡上の音素またはモーラの位置に設定するプログラム。
JP2013192359A 2013-09-17 2013-09-17 韻律編集装置、方法およびプログラム Active JP6261924B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2013192359A JP6261924B2 (ja) 2013-09-17 2013-09-17 韻律編集装置、方法およびプログラム
US14/474,591 US20150081306A1 (en) 2013-09-17 2014-09-02 Prosody editing device and method and computer program product
CN201410458186.5A CN104464718A (zh) 2013-09-17 2014-09-10 韵律编辑装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013192359A JP6261924B2 (ja) 2013-09-17 2013-09-17 韻律編集装置、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2015060002A JP2015060002A (ja) 2015-03-30
JP6261924B2 true JP6261924B2 (ja) 2018-01-17

Family

ID=52668748

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013192359A Active JP6261924B2 (ja) 2013-09-17 2013-09-17 韻律編集装置、方法およびプログラム

Country Status (3)

Country Link
US (1) US20150081306A1 (ja)
JP (1) JP6261924B2 (ja)
CN (1) CN104464718A (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6461660B2 (ja) * 2015-03-19 2019-01-30 株式会社東芝 検出装置、検出方法およびプログラム
US10553199B2 (en) * 2015-06-05 2020-02-04 Trustees Of Boston University Low-dimensional real-time concatenative speech synthesizer
EP3602539A4 (en) * 2017-03-23 2021-08-11 D&M Holdings, Inc. SYSTEM FOR PROVIDING EXPRESSIVE AND EMOTIONAL TEXT-TO-LANGUAGE
JP6737320B2 (ja) 2018-11-06 2020-08-05 ヤマハ株式会社 音響処理方法、音響処理システムおよびプログラム
JP6747489B2 (ja) 2018-11-06 2020-08-26 ヤマハ株式会社 情報処理方法、情報処理システムおよびプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04362998A (ja) * 1990-12-13 1992-12-15 Ricoh Co Ltd ピッチパターン分析装置及び合成装置
JPH0620021A (ja) * 1992-07-03 1994-01-28 Mutoh Ind Ltd 図形処理方法および装置
JP3303835B2 (ja) * 1999-04-30 2002-07-22 日本電気株式会社 音声の規則合成のためのピッチパタン生成装置及び方法
JP4639532B2 (ja) * 2001-06-05 2011-02-23 日本電気株式会社 自然音声の節点抽出装置
US20050177369A1 (en) * 2004-02-11 2005-08-11 Kirill Stoimenov Method and system for intuitive text-to-speech synthesis customization
US8438032B2 (en) * 2007-01-09 2013-05-07 Nuance Communications, Inc. System for tuning synthesized speech
JP5119700B2 (ja) * 2007-03-20 2013-01-16 富士通株式会社 韻律修正装置、韻律修正方法、および、韻律修正プログラム
JP2008268477A (ja) * 2007-04-19 2008-11-06 Hitachi Business Solution Kk 韻律調整可能な音声合成装置
JP5262464B2 (ja) * 2008-09-04 2013-08-14 ヤマハ株式会社 音声処理装置およびプログラム
TWI394142B (zh) * 2009-08-25 2013-04-21 Inst Information Industry 歌聲合成系統、方法、以及裝置
US8577141B2 (en) * 2010-11-05 2013-11-05 Lg Innotek Co., Ltd. Method of enhancing contrast using bezier curve

Also Published As

Publication number Publication date
CN104464718A (zh) 2015-03-25
US20150081306A1 (en) 2015-03-19
JP2015060002A (ja) 2015-03-30

Similar Documents

Publication Publication Date Title
JP6261924B2 (ja) 韻律編集装置、方法およびプログラム
US9135909B2 (en) Speech synthesis information editing apparatus
JP4714441B2 (ja) フラットオーディオボリュームコントロールモデルを実装するシステムおよび方法
JP2008268477A (ja) 韻律調整可能な音声合成装置
JP2014038282A (ja) 韻律編集装置、方法およびプログラム
US20150113453A1 (en) Methods and devices for simplified graphical object editing
KR102218640B1 (ko) 디스플레이 장치 및 디스플레이 장치의 제어 방법
US9984503B2 (en) Systems and methods of updating graphical objects
Kawahara et al. Interactive tools for making vocoder-based signal processing accessible: Flexible manipulation of speech attributes for explorational research and education
JP2020052262A (ja) 修正候補提示方法、修正候補提示プログラムおよび情報処理装置
Steidl et al. Java visual speech components for rapid application development of GUI based speech processing applications
JP2009157220A (ja) 音声編集合成システム、音声編集合成プログラム及び音声編集合成方法
JP2013218406A (ja) タイミング編集装置、タイミング編集方法及びコンピュータプログラム
JP5449284B2 (ja) ユーザインタフェース設計支援装置、ユーザインタフェース設計支援方法、およびユーザインタフェース設計支援プログラム
JP6767128B2 (ja) 手話cg生成装置及びプログラム
JP2003006552A (ja) シミュレーションシステム、シミュレーション方法及びシミュレーションプログラム
JP5590111B2 (ja) 周波数特性決定装置
KR20240070793A (ko) 발음 요소 단위 기반의 운율 변형이 가능한 사용자 인터페이스를 제공하는 음성 합성 장치 및 방법
JP6569205B2 (ja) 属性調整装置
JP2018128543A (ja) 手話cg編集装置及びプログラム
JP2005283788A (ja) 表示制御装置およびプログラム
JP5802807B2 (ja) 韻律編集装置、方法およびプログラム
JP4851542B2 (ja) ルート曲線生成システム、方法、及びプログラム
JP6439288B2 (ja) 合成情報管理装置および合成情報管理方法
JP2002351486A (ja) 音声合成編集装置及び音声合成編集方法並びに音声合成編集プログラム

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20151102

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160316

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170421

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170530

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170613

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171213

R151 Written notification of patent or utility model registration

Ref document number: 6261924

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350