JP5802807B2 - 韻律編集装置、方法およびプログラム - Google Patents

韻律編集装置、方法およびプログラム Download PDF

Info

Publication number
JP5802807B2
JP5802807B2 JP2014150385A JP2014150385A JP5802807B2 JP 5802807 B2 JP5802807 B2 JP 5802807B2 JP 2014150385 A JP2014150385 A JP 2014150385A JP 2014150385 A JP2014150385 A JP 2014150385A JP 5802807 B2 JP5802807 B2 JP 5802807B2
Authority
JP
Japan
Prior art keywords
prosodic
prosody
phrase
pattern
prosodic pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014150385A
Other languages
English (en)
Other versions
JP2014219695A (ja
Inventor
紘一郎 森
紘一郎 森
籠嶋 岳彦
岳彦 籠嶋
眞弘 森田
眞弘 森田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2014150385A priority Critical patent/JP5802807B2/ja
Publication of JP2014219695A publication Critical patent/JP2014219695A/ja
Application granted granted Critical
Publication of JP5802807B2 publication Critical patent/JP5802807B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明の実施形態は、韻律編集装置、方法およびプログラムに関する。
近年、テキストから音声を合成する音声合成技術の発展により、人間の発声に近い自然な合成音が得られるようになっている。
近年の音声合成システムでは、人間の音声を録音した音声コーパスから、韻律または声質の統計モデルを学習する方法が一般的に用いられている。たとえば、韻律の統計モデルとして、決定木モデルや隠れマルコフモデルなどが知られている。これらの統計モデルを用いることで、学習コーパスには存在しない任意のテキストのイントネーションもある程度自然に再現できる。
しかし、統計モデルは音声コーパスの多くの発話から平均的な韻律特徴を学習するために、統計モデルから生成した合成音声のイントネーションは単調になりやすい。そこで、統計モデルにより生成される韻律のパターンを可視化してユーザに提示し、ユーザがマウスなどのデバイスを用いてグラフィカルに編集できるようにしたシステムがある。
特開2008−268477号公報 特許第4296231号明細書
しかし、グラフィカルな編集では、合成音声として出力可能であれば、どのような韻律でも作成できる。よって、韻律パターン編集は編集の自由度が大きくなるが、逆に妥当ではない韻律のパターンも作成できてしまう。つまり、音声に関する知識がないユーザが、意図した韻律のパターンを作成するのは非常に難しいという問題がある。
また、自由度の問題点を解決するために自由度が非常に大きいパラメータ空間を二次元座標平面に圧縮する方法もある。しかし、編集できるのはフレーズの韻律のパターンではなく、合成音の声質であるため編集対象が異なり、テキストの任意のフレーズの基本周波数や継続時間長を編集する目的には使えないという問題がある。
本開示は、上述の課題を解決するためになされたものであり、容易に韻律を編集できる韻律編集装置、方法およびプログラムを提供することを目的とする。
本実施形態に係る韻律編集装置は、第1選択部、格納部、検索部、正規化部、マッピング部、表示部、第2選択部、復元部および置換部を含む。第1選択部は、音素からなるフレーズをテキストから選択フレーズとして選択する。格納部は、フレーズに関する属性を示す属性情報と、該フレーズの韻律の型式を示しかつ該フレーズの韻律を表現するパラメータが該フレーズの音素数以上の要素数を含む1以上の韻律パターンとを対応づけて格納する。検索部は、前記選択フレーズと属性情報が一致する前記1以上の韻律パターンを前記格納部から検索し、韻律パターン集合として得る。正規化部は、前記韻律パターン集合に含まれる韻律パターンをそれぞれ正規化する。マッピング部は、正規化された前記韻律パターンを、前記要素数よりも少ない数の座標で表現される低次元空間にそれぞれマッピングし、マッピング座標を生成する。表示部は、前記マッピング座標を表示する。第2選択部は、前記マッピング座標から選択された座標を選択座標として得る。復元部は、前記選択座標に応じて韻律パターンを復元し、復元韻律パターンを得る。置換部は、前記選択フレーズに基づいて生成される合成音声の韻律を前記復元韻律パターンに置換する。
第1の実施形態に係る韻律編集装置を示すブロック図。 韻律パターンDBに格納されるフレーズの属性情報の一例を示す図。 韻律パターンDBに格納される韻律パターンの一例を示す図。 基本周波数、継続時間長およびパワーの関係性を示す図。 韻律編集装置の動作を示すフローチャート。 韻律パターン正規化部における正規化処理を示す図。 韻律パターンマッピング部のマッピング処理を説明するための図。 韻律パターンマッピング部のマッピング処理を説明するための図。 表示部に表示されるマッピング座標の一例を示す図。 表示部に表示されるユーザインタフェースにおける、(a)韻律パターンのグラフ、(b)二次元座標平面を示す図。 第1の変形例に係る韻律パターンマッピング部のマッピング処理における、(a)基本周波数の二次元座標平面、(b)継続時間長の二次元座標平面を示す図。 第1の変形例に係るインタフェースの一例を示す図。 第2の変形例に係るクラスタリング処理後の二次元座標平面の表示例を示す図。 第3の変形例に係る韻律パターンDBに格納される韻律パターンの一例を示す図。 第3の変形例に係るクラスタリング処理後の二次元座標平面の表示例を示す図。 第2の実施形態に係る韻律編集装置を示すブロック図。 第2の実施形態に係る韻律パターン復元部の処理を示す図。 韻律編集装置のハードウェア構成を示すブロック図。
以下、図面を参照しながら本実施形態に係る韻律編集装置、方法およびプログラムについて詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作をおこなうものとして、重複する説明を適宜省略する。
(第1の実施形態)
第1の実施形態に係る韻律編集装置について図1のブロック図を参照して説明する。
第1の実施形態に係る韻律編集装置100は、音声合成部101、フレーズ選択部102、韻律パターンデータベース103(以下、韻律パターンDB103という)、韻律パターン検索部104、韻律モデルデータベース105(以下、韻律モデルDB105という)、韻律パターン生成部106、韻律パターン正規化部107、韻律パターンマッピング部108、座標選択部109、韻律パターン復元部110、韻律パターン置換部111および表示部112を含む。
音声合成部101は、外部からテキストを受け取り、テキストを音声合成して合成音声を生成し、外部へ出力する。音声合成の方式には、音素の断片を接続する素片接続型音声合成、または隠れマルコフモデルを用いて韻律や声質をモデル化するHMM音声合成などが一般的に知られている。ここでは、合成音声の韻律パターンが取得できればどのような音声合成方式を用いてもよい。韻律パターンとは、フレーズの韻律の型式を示し、フレーズの韻律を表す基本周波数、継続時間長、パワーなどのパラメータの時系列変化を意味する。また、韻律パターンを表すパラメータは、フレーズの音素数以上の要素数を有する。
フレーズ選択部102は、外部からテキストを受け取り、ユーザの入力に応じて、テキストから韻律を編集する範囲であるフレーズを選択し、選択フレーズを得る。選択フレーズの選択方法としては、例えばマウス、キーボード、タッチパネルなどがあり、マウスなどによりフレーズの範囲を選択すればよい。フレーズ選択部102は、選択されたフレーズに対応する合成音声の属性情報を音声合成部101から取得する。属性情報とは、フレーズの表層表現、音素列の並び方、モーラ数、およびアクセント型などのフレーズに関する属性を示す。
韻律パターンDB103は、フレーズの属性情報と、フレーズの1以上の韻律パターンとをそれぞれ対応づけて格納する。韻律パターンDB103への属性情報および韻律パターンの登録方法は、例えば、録音音声から切り出した肉声韻律パターンを登録する、ユーザが編集済みの韻律パターンを登録する、韻律の統計モデルから自動生成した韻律を登録するといった一般的な方法を用いればよい。
韻律パターン検索部104は、フレーズ選択部102から選択フレーズおよび属性情報を受け取る。韻律パターン検索部104は、選択フレーズの属性情報と属性情報が一致するフレーズを韻律パターンDB103から検索し、一致したフレーズに対応する1以上の韻律パターンを、韻律パターン集合として得る。
韻律モデルDB105は、統計モデルを格納する。統計モデルは、音声コーパスを用いて学習した決定木モデルや隠れマルコフモデルを示す。多様な発話スタイル、感情、および話者の統計モデルを用意しておけば、ユーザが指定した選択フレーズに対して多様な韻律パターンを生成することができる。
韻律パターン生成部106は、韻律パターン検索部104から選択フレーズおよび韻律パターン集合を受け取る。韻律パターン生成部106は、韻律モデルDB105を用いて選択フレーズに関する韻律パターンを生成し、生成した韻律パターンを韻律パターン集合に追加する。
なお、韻律パターン検索部104で検索された韻律パターン集合に含まれる韻律パターンの数が閾値以上であれば、韻律パターン生成部106は、新たに韻律パターンを生成しなくともよい。
韻律パターン正規化部107は、韻律パターン検索部104から韻律パターン集合を受け取る。なお、韻律パターン生成部106で韻律パターン集合に韻律パターンが追加される場合は、韻律パターン生成部106から韻律パターン集合を受け取る。韻律パターン正規化部107は、生成された韻律パターン集合の韻律パターンをそれぞれ正規化する。
韻律パターンマッピング部108は、韻律パターン正規化部107から正規化された韻律パターンを受け取り、正規化された韻律パターンをパラメータの要素数よりも少ない数の座標で表現される低次元空間にマッピングし、韻律パターンごとにマッピング座標を得る。
座標選択部109は、ユーザからの指示に応じて座標を選択し、選択座標を得る。
韻律パターン復元部110は、韻律パターンマッピング部108からマッピング座標を、座標選択部109から選択座標をそれぞれ受け取る。韻律パターン復元部110は、マッピング座標と選択座標とを比較して、選択座標に対応する座標の韻律パターンを復元し、復元韻律パターンを得る。
韻律パターン置換部111は、韻律パターン復元部110から復元韻律パターンを受け取り、音声合成部101で生成されるデフォルトの韻律パターンを復元韻律パターンで置換する。
表示部112は、音声合成部101から韻律パターンを受け取って表示し、韻律パターンマッピング部108からマッピング座標を受け取って表示する。
なお、本実施形態では、韻律編集装置100が音声合成部101を含む場合を想定するが、韻律編集装置100が、音声合成部101を含まずに外部にある音声合成装置を用いてもよい。この場合、韻律パターン置換部111が選択フレーズに対応する復元韻律パターンを外部の音声合成装置に出力すればよい。
次に、韻律パターンDB103に格納されるフレーズの属性情報の一例について図2を参照して説明する。
図2に示すように、韻律パターンDB103には、識別子201(以下、ID201という)、表層表現202、音素列203、モーラ数およびアクセント型204がそれぞれ対応づけられてフレーズの属性情報205として格納され、さらにフレーズに応じた韻律パターンのパターン数206が属性情報205に対応づけられて格納される。
ID201はフレーズの識別番号を示す。表層表現202は、フレーズの文字列を示す。音素列203は、表層表現202に対応する音素の文字列を示し、音素のまとまりごとに「/」で区切られる。モーラ数およびアクセント型204は、表層表現202を発話する場合のアクセントを示す。パターン数206は、音素列203の韻律パターンの数を示す。具体的には、例えば、ID201「1」、表層表現202「下さい」、音素列203「/K/U/D/A/S/A/I/」、モーラ数およびアクセント型204「4モーラ3型」、パターン数206「182」が対応づけられて格納される。
なお、言語が英語の場合は、ID201、表層表現202および音素列203がそれぞれ属性情報205として対応づけられ、韻律パターンのパターン数206が属性情報205に対応づけられる。具体的には、図2の例では、ID201「14」、表層表現202「Please」、音素列203「/p/l/ii/z/」およびパターン数206「7」がそれぞれ対応づけられる。英語の場合は、日本語に特有のモーラ数・アクセント型が存在しないためここでは省略する。
次に、韻律パターンDB103に格納される韻律パターンの一例について図3を参照して説明する。
図2に示す1つのID201に対して、対応する韻律パターンごとに、ID201と、PID301、基本周波数302および継続時間長303がパラメータとしてそれぞれ対応づけられて格納される。PID301は、1つのID201に対応する各パターンを識別する識別子を示す。基本周波数302は、音素の音の高さである。ここでは1フレームごとの周波数が要素として格納される。継続時間長303は、音素の発声が継続する時間の長さである。ここでは1つの音素が何フレームにわたり継続するかを示し、音素ごとのフレーム数が要素として格納される。
例えば、図2中のID201「9」の「いかがですか」というフレーズは、41個の韻律パターンを有し、図3では、41個のパターンのうちの4つが示される。例えば、PID301「1」、基本周波数302「[284,278,273,266,261,259,255、…]」、継続時間長303「[12,12,11,7,9,9,9,18,12,23]」がそれぞれ対応づけられて格納される。すなわち、フレーズ「いかがですか」の音素「I」は12フレームの長さであり、フレームごとに基本周波数「284,278,273,266,261,259,255、…」と続くことがわかる。
上述したパターンは、できるだけ多様なパターンを用意することが望ましい。例えば、様々なパラ言語情報、感情、スタイル、話者による韻律パターンを用意できれば、ユーザは多様な韻律パターンから所望のパターンを選択できる。なお、図3の例では、パラメータとして基本周波数および継続時間長を示すが、パラメータとしてさらに、音素が発音されるときの音量を示すパワーも対応づけて格納してもよい。
次に、韻律パターンにおける基本周波数、継続時間長およびパワーの関係性について図4を参照して説明する。
図4は、フレーズ「いかがですか」の韻律パターンのパラメータである基本周波数、継続時間長およびパワーに基づいて生成されたグラフである。横軸は時間(単位はフレーム)を示し、縦軸は左側が周波数(単位はHz)を、右側がパワー(単位はdB)をそれぞれ示す。なお、時間の単位として秒、周波数の単位としてオクターブなど他の単位を用いてもよい。
継続時間長は、各音素幅401の時系列データとして表せる。たとえば、音素「/I/」は12フレーム、音素「/K/」は12フレーム、音素「/A/」は11フレームである。これらの音素幅を時系列に沿って並べたデータが図3に示す継続時間長303に格納される要素である。
基本周波数は、この座標空間の中で各フレームに対して1つの周波数値が対応し、周波数値をつないだ1本の軌跡402として表せる。ここではフレームごとに周波数値を持つと想定するが、音素ごと、母音ごとなど、どのような単位でもよい。これらの周波数値を時系列に沿って順番に並べたデータが図3に示す基本周波数302に格納される要素である。
パワーは、基本周波数の軌跡402と同様に、フレームごとのパワーの値をつないだ1本の軌跡403として表せる。
次に、本実施形態にかかる韻律編集装置の動作について図5のフローチャートを参照して説明する。
ステップS501では、韻律パターン検索部104が、ユーザから選択された選択フレーズを受け取る。
ステップS502では、韻律パターン検索部104が、選択フレーズの属性情報と属性情報が一致するフレーズを韻律パターンDB103から検索し、属性情報が一致するフレーズに対応する韻律パターンを韻律パターン集合として得る。検索方法としては、フレーズの属性情報として表層表現を用いて、選択フレーズの表層表現と一致する表層表現を有するフレーズがあるかどうかを検索すればよい。また、属性情報として音素列を用いて、選択フレーズの音素列と一致する音素列を有するフレーズがあるかどうかを検索してもよい。さらに、属性情報としてモーラ数およびアクセント型を用いて、選択フレーズのモーラ数およびアクセント型と一致するモーラ数およびアクセント型を有するフレーズがあるかどうかを検索してもよい。
モーラ数およびアクセント型が同じであるフレーズの韻律パターンは、互いに類似していることが多いため、表層表現が一致するフレーズの韻律パターン数が少ない場合でも、表層表現は異なるがモーラ数およびアクセント型が一致する韻律パターンを韻律パターン集合として用いることで、韻律パターンのバリエーションを増やすことができる。
なお、韻律パターン生成部106が、韻律モデルDB105に格納される統計モデルを用いて選択フレーズの韻律パターンを生成してもよい。韻律モデルDB105に格納される統計モデルを用いることで、選択フレーズが韻律パターンDB103に格納される韻律パターンと属性が一致しないフレーズである場合でも、韻律パターンを生成できる。
ステップS503では、韻律パターン正規化部107が、韻律パターン集合に含まれる韻律パターンをそれぞれ正規化する。正規化処理については図6を参照して後述する。
ステップS504では、韻律パターンマッピング部108が、正規化された韻律パターン集合の各韻律パターンを、低次元空間にマッピングする。低次元空間へのマッピング処理は、例えば、主成分分析を用いればよい。具体的なマッピング処理については図7および図8を参照して後述する。
ステップS505では、表示部112が、マッピングされた韻律パターン集合のマッピング座標を表示する。
ステップS506では、座標選択部109が、ユーザにより選択された領域の座標を選択座標として得る。
ステップS507では、韻律パターン復元部110が、選択された韻律パターンを復元し、復元韻律パターンを生成する。具体的な復元処理については後述する。
ステップS508では、韻律パターン置換部111が、選択フレーズの韻律パターンを復元韻律パターンで置換する。ここで、単純に置換処理する場合は、フレーズの前後と韻律が滑らかにつながらないため、合成音声が不自然となる可能性がある。その場合は、基本周波数の軌跡を補間するなどの一般的な手法を用いればよい。
ステップS509では、音声合成部101が、復元韻律パターンを用いて音声合成する。
ステップS510では、復元韻律パターンがユーザの所望する韻律パターンの合成音声であるかどうかが判定され、ユーザが所望する韻律パターンの合成音声であると判定されれば、処理を終了する。ユーザが所望する合成音声であるという判定は、例えば表示部112に表示される決定ボタンがユーザにより選択されることで判定すればよい。一方、ユーザが所望する韻律パターンの合成音声でないと判定されれば、ステップS506の処理に戻り、表示部112に表示されるマッピング座標からさらに韻律パターンの選択を行なう。以上で、本実施形態に係る韻律編集装置100の動作を終了する。
次に、韻律パターン正規化部107における正規化処理について図6を参照して説明する。
図6は、図3に示すフレーズ「いかがですか」の4つの韻律パターン(PID=1,2,3,4)を正規化した例を示す。縦軸は基本周波数の平均値をゼロとした場合の正規化値を示し、横軸はフレーム数を示す。ここでは、韻律パターンのフレーム数を200フレームに揃えている、すなわち各韻律パターンの要素数は200個(200次元のデータ)である。
一般に、基本周波数は、人によって声の高さが違うように基本周波数の平均値が異なる。そのため、基本周波数の平均値がゼロとなるように調整し、韻律パターンを復元するときに対象の話者の基本周波数で平均値を調整する。また、基本周波数のデータ長は韻律パターンによって異なるため、音素ごとに定めた任意の固定長となるまでデータ長を線形収縮し、他の韻律パターンのデータ長を揃える。最終的には、基本周波数と継続時間長の各フレームとを平均がゼロ、標準偏差が1となるように正規化する。これらの処理により、基本周波数と継続時間長との単位を揃えることができる。なお、正規化に使用した元の平均および標準偏差のデータを保持しておき、元の値に復元できるようにする。
次に、韻律パターンマッピング部108のマッピング処理について図7および図8を参照して説明する。
ここでは、主成分分析を用いて韻律パターン集合を低次元空間にマッピングする一例を示す。なお、低次元空間としては、三次元以下の座標空間にマッピングすることが望ましく、本実施形態では二次元座標平面にマッピングする例を示すが、二次元座標平面に限らず、韻律パターンを、パラメータの要素数よりも少ない座標で表示できる座標平面であればよい。
図7に示すように、マッピング処理を行なうに際し、最初に正規化した韻律パターン集合の基本周波数の要素701と継続時間長の要素702とを結合した行列X703を生成する。Xの各行が各韻律パターンの基本周波数と継続時間長とを結合した要素に該当する。このように行列を生成することにより、基本周波数と継続時間長とを同時に編集することができる。
続いて、韻律パターン集合の行列Xの行列サイズを図8に示す。
韻律パターン集合の行列X801は、図8に簡略化して示すようにn行p列となる。このn行p列の行列X801に対して、式(1)を用いて行列X801の分散・共分散行列V802を算出する。
Figure 0005802807
ここで、Xは、Xの転置行列を意味する。この分散・共分散行列V802のサイズは、p行p列となる。次に、分散・共分散行列V802の固有値と固有ベクトルとを計算し、p個の固有値に対応するp個の固有ベクトル(縦ベクトル)を得る。固有値の大きい順に固有ベクトルを並べた行列を係数行列A803とし、係数行列A803の最初の2列(第2主成分まで)を抽出した行列を行列A’804とする。つまり、行列A’804の行列サイズは、p行2列となる。
次に、韻律パターン集合の各韻律パターンを式(2)で二次元座標に変換する。
Figure 0005802807
行列Zのサイズはn行2列となる。すなわち、行列Zの各行が各韻律パターンを二次元座標に変換したデータとなり、これがマッピング座標となる。
次に、表示部112に表示されるマッピング座標の一例について図9を参照して説明する。
図9は、韻律パターンが2次元座標平面にマッピングされた表示例であり、ここでは、韻律パターンのマッピング座標901、902、903がそれぞれ星印で表現される。なお、2次元座標平面の表示範囲は、第1座標軸(−15から25)、第2座標軸(−15から15)として韻律パターンが存在する範囲にクリッピングする。このようにクリッピングすることで、ユーザが二次元座標平面上の任意の点を選択する場合でも、韻律パターンDB103に登録されている韻律パターンと大きく異なる不適切な韻律が生成されない。
次に、韻律パターン復元部110における復元韻律パターン生成処理について説明する。
韻律パターン復元部110は、ユーザにより図9に示すような二次元座標平面から、座標zが選択されたとすると、式(3)を用いて選択座標zを復元韻律パターンxに復元する。
Figure 0005802807
なお、復元された韻律パターンxは、正規化されているため、保存された平均と標準偏差とのデータを用いて、基本周波数はHz、継続時間長はフレームの単位にそれぞれ戻すことで復元韻律パターンを得る。
なお、ユーザは点が存在する座標だけではなく、任意の座標を選択してもよい。例えばユーザが図9の波線の円で示される点904を選択した場合、上述の式(3)に点904の座標を代入することで、復元韻律パターンxを得ることができる。この場合の復元韻律パターンは、点904が韻律パターン902と韻律パターン903との中間に位置するので、韻律パターン902と韻律パターン903との中間の特徴を有する復元韻律パターンとなる。すなわち、韻律パターンDB103に格納されていない韻律パターンを生成することができるので韻律パターンの微調整が可能となり、編集の自由度を向上させることができる。
次に、表示部112に表示されるユーザインタフェースの一例について図10を参照して説明する。
図10は韻律編集画面を示し、図10(a)は韻律パターンのパラメータグラフ1001を示し、図10(b)は二次元座標平面1002を示す。使用例としては、ユーザが「いかがですか」というフレーズの韻律を編集するため、文字列「いかがですか」を選択すると、韻律編集装置が上述した処理を行ない、パラメータグラフ1001と二次元座標平面1002とを表示部112に表示するといった方法が挙げられる。
パラメータグラフには、フレーズ「いかがですか」の韻律パターンの軌跡1003、1004および1005が示される。韻律パターンの軌跡1003は、二次元座標平面1002上において、カーソルが座標1006の位置にあるときの韻律パターンである。他の韻律パターンの軌跡1004および軌跡1005についても同様に、カーソルが座標1007および座標1008の位置にそれぞれあるときの韻律パターンである。
ユーザは、二次元座標平面1002上でカーソルを動かすことで、様々な韻律パターンの変化をリアルタイムに認識することができる。また、ユーザは、二次元座標平面1002上の座標をマウスなどのポインティングデバイスで座標を指定する、または画面の座標を指などでタッチすることで、対象の韻律パターンを適用した合成音声を再生することができる。よって、いつでも選択した韻律パターンを音声で確認することができる。
また、上述したマッピング処理により、二次元座標平面上で類似する韻律パターンは互いに近い距離に存在し、類似していない韻律パターンは離れた距離に存在するようにマッピングされるので、異なる韻律パターンが視覚的に把握しやすくなり、異なる韻律パターンを容易に試すことができる。
なお、韻律パターンDB103に格納されており編集可能なフレーズのみを先にユーザに提示し、提示したフレーズの中からユーザにフレーズを選択させ、選択フレーズを得てもよい。
以上に示した第1の実施形態によれば、ユーザにより選択された選択フレーズの属性情報と一致する属性情報を有するフレーズの韻律パターンを検索し、複数の韻律パターンを二次元座標平面のような低次元空間にマッピングすることで、ユーザは座標を指定するだけで容易に所望の韻律パターンを得ることができる。また、ユーザが選択可能な韻律パターンを2次元座標平面上に限定することで、通常では想定されない韻律パターンが生成されることを抑制し、効率よく韻律を編集することができる。
(第1の変形例)
本実施形態では、正規化した基本周波数と継続時間長とを結合して1つの行列を生成し、主成分分析を用いて二次元座標平面にマッピングしたが、第1の変形例では、基本周波数と継続時間長とのそれぞれの行列を二次元座標平面にマッピングする点が異なる。
第1の変形例に係る韻律パターンマッピング部108のマッピング処理について図11を参照して説明する。
図11(a)は正規化した基本周波数の行列1101および対応する二次元座標平面1102を示し、図11(b)は正規化した継続時間長の行列1103および対応する二次元座標平面1104を示す。
図11(a)および(b)に示すように、韻律パターンマッピング部108は、基本周波数と継続時間長とに対してそれぞれ独立に主成分分析を行ない、低次元空間である二次元座標平面上にマッピングする。主成分分析の手法は上述した手法を用いればよいためここでの説明は省略する。
次に、第1の変形例に係るインタフェースの一例について図12を参照して説明する。
図12に示すように、表示部112には、韻律編集画面1201、基本周波数の二次元座標平面1202、継続時間長の二次元座標平面1203がそれぞれ示される。
ユーザは、第1の実施形態と同様の方法で、二次元座標平面1202または二次元座標平面1203上のカーソルを移動させることで、韻律パターンを編集することができる。
以上に示した第1の変形例によれば、制御するパラメータを増やし、それぞれ独立に制御することで、韻律の編集の自由度を大きくし、さらに詳細な韻律パターンを生成することができる。
(第2の変形例)
本実施形態では、二次元座標平面上に各韻律パターンを点で表示しているが、韻律パターンの数が多くなるほど点の数が増加し、ユーザが視認しにくくなる。そこで第2の変形例では、いくつかの点をクラスタリングして代表となる点を表示させる。これにより、韻律パターンのグループを容易に区別することができる。
第2の変形例に係るクラスタリング処理後の二次元座標平面の表示例について図13を参照して説明する。
図13は、韻律パターンを二次元座標平面上にマッピングした図であるが、クラスタ1301、1302および1303が表示され、さらに各クラスタの代表点1304、1305および1306が表示される。
韻律パターンマッピング部108が、韻律パターンをクラスタリングすることにより、1以上の韻律パターンをまとめたクラスタを生成する。クラスタリングは、一般的な手法を用いればよいためここでの説明は省略する。代表点はクラスタの中心点(図13では円の中心点)とすればよいが、クラスタの特徴を表す代表点であればどのような設定方法でもよい。なお、ここでは韻律パターンの点とクラスタの代表点とを同時に表示させているが、クラスタの代表点のみ表示させてもよい。
以上に示した第2の変形例によれば、韻律パターンをクラスタリングすることで、韻律パターンのグループを容易に区別することができる。
(第3の変形例)
第3の変形例では、韻律パターンDB103に格納される、基本周波数302および継続時間長303に加え、韻律パターンの韻律の特徴を表すラベルを対応づけて格納してもよい。
第3の変形例に係る韻律パターンDB103に格納される韻律パターンの一例を図14に示す。
図14に示すように、韻律パターンDB103は、ID201、PID301、基本周波数302、継続時間長303およびラベル1401をそれぞれ対応づけて格納する。ラベル1401は、例えば、標準、語尾上げ調、怒りなどの分類が挙げられる。
第3の変形例に係るクラスタリング処理後の二次元座標平面における表示例について図15を参照して説明する。
韻律パターンDB103にラベルが格納される場合、韻律パターンマッピング部108は、韻律パターンをクラスタリング処理した後、クラスタ内の韻律パターンに対応づけられたラベルの分類を集計し、最も多い分類をクラスタのラベル1501、1502および1503として表示する。こうすることで、ユーザは実際に合成音声を聞かなくともどのような韻律であるかを認識することができる。
以上に示した第3の変形例によれば、韻律パターンをクラスタリングしたグループにラベルを付すことで、韻律パターンのグループがどのような分類の韻律であるかを容易に区別することができる。
(第2の実施形態)
第1の実施形態では、ユーザが選択した座標を式(3)を用いて韻律パターン復元部が韻律パターンを復元する。ただし、主成分分析によって韻律パターンを二次元座標平面にマッピングする処理は非可逆処理であることが多く、二次元座標平面上の座標から韻律パターンDBに格納される韻律パターンを完全に復元できるとは限らない。
そこで、第2の実施形態では、式(3)に示すような復元処理を行わずに、韻律パターンDB103に格納される韻律パターンを適用する。
第2の実施形態に係る韻律編集装置について図16のブロック図を参照して説明する。
第2の実施形態に係る韻律編集装置1600は、音声合成部101、フレーズ選択部102、韻律パターンDB103、韻律パターン検索部104、韻律モデルDB105、韻律パターン生成部106、韻律パターン正規化部107、韻律パターンマッピング部108、座標選択部109、韻律パターン復元部1601、韻律パターン置換部111、表示部112を含む。韻律パターン復元部1601以外は、第1の実施形態に係る韻律編集装置100と同様であるので説明を省略する。
韻律パターン復元部1601は、座標選択部109からユーザが選択した選択座標を、韻律パターンマッピング部108からマッピング座標をそれぞれ受け取る。韻律パターン復元部1601は、選択座標と複数のマッピング座標との距離が閾値以内であるマッピング座標があるかどうかを判定する。距離が閾値以内であるマッピング座標があれば、このマッピング座標に対応する元の韻律パターンの基本周波数および継続時間長を、韻律パターンDB103から復元韻律パターンとして取得する。
第2の実施形態に係る韻律パターン復元部1601の処理について図17を参照して説明する。
図17は、表示部112に表示される二次元座標平面である。ここで、ユーザが韻律パターンの点が存在しない座標1701を選択したと想定する。
韻律パターン復元部1601は、座標1701から距離が閾値以内の範囲にマッピング座標があるかどうかを判定する。この判定方法は、例えば、座標1701から距離が一定の円1702の内に韻律パターンの点があるかどうかを検索すればよい。図17では、円1702内に韻律パターンの点1703が存在するので、点1703に対応する元の韻律パターンを韻律パターンDB103から取得する。取得した元の韻律パターンを復元韻律パターンとして後段の置換処理に利用する。
以上に示した第2の実施形態によれば、選択された座標から閾値以内の距離に韻律パターンの点が存在すれば、対応する韻律パターンをデータベースから取得することで、韻律パターンの劣化を抑えつつ、容易かつ効率的に韻律を編集することができる。
なお、上述した実施形態に係る韻律編集装置は、ハードウェアに実装されてもよい。
本実施形態に係る韻律編集装置のハードウェア構成を示すブロック図を図18に示す。韻律編集装置は、韻律編集処理を実行する韻律編集プログラムなどが格納されているメモリ1801と、メモリ1801内のプログラムに従って韻律編集装置の各部を制御するCPU1802と、韻律編集装置の制御に必要な種々のデータを記憶する外部記憶装置1803と、ユーザからの入力を受け付ける入力装置1804と、韻律編集処理の結果などのユーザインタフェースを表示する表示装置1805と、合成音声などを出力するスピーカと、各部を接続するバス1807を含む。なお、外部記憶装置1803とは有線または無線によるLAN(Local Area Network)などで各部に接続されてもよい。
上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した韻律編集装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RW、Blu−ray(登録商標)Discなど)、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態の韻律編集装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100,1600・・・韻律編集装置、101・・・音声合成部、102・・・フレーズ選択部、103・・・韻律パターンデータベース(韻律パターンDB)、104・・・韻律パターン検索部、105・・・韻律パターンデータベース(韻律モデルDB)、106・・・韻律パターン生成部、107・・・韻律パターン正規化部、108・・・韻律パターンマッピング部、109・・・座標選択部、110,1601・・・韻律パターン復元部、111・・・韻律パターン置換部、112・・・表示部、201・・・識別子(ID)、202・・・表層表現、203・・・音素列、204・・・モーラ数およびアクセント型、205・・・属性情報、206・・・パターン数、301・・・PID、302・・・基本周波数、303・・・継続時間長、401・・・音素幅、402,403・・・軌跡、701,702・・・要素、703,801,804,1101,1103・・・行列、802・・・分散・共分散行列、803・・・係数行列、901,902,903・・・マッピング座標、904,1703・・・点、1001・・・パラメータグラフ、1002,1102,1104,1202,1203・・・二次元座標平面、1003,1004,1005・・・軌跡、1006,1007,1008,1701・・・座標、1201・・・韻律編集画面、1301,1302,1303・・・クラスタ、1304,・・・代表点、1401,1501,1502,1503・・・ラベル、1702・・・円、1801・・・メモリ、1802・・・CPU、1803・・・外部記憶装置、1804・・・入力装置、1805・・・表示装置、1807・・・バス。

Claims (16)

  1. フレーズに関する属性を示す属性情報と、該フレーズの韻律パターンとを対応づけて格納した格納部と、
    所定のフレーズと属性情報が一致する前記韻律パターンを前記格納部から検索し、韻律パターン集合として得る検索部と、
    前記韻律パターン集合に含まれる韻律パターンを、低次元空間にマッピングし、マッピング座標を生成するマッピング部と、
    前記マッピング座標から選択された座標を選択座標として得る選択部と、
    前記選択座標に対応する韻律パターンを復元し復元韻律パターンを得る復元部と、
    前記所定のフレーズに基づいて生成される合成音声の韻律を前記復元韻律パターンに置換する置換部と、を具備することを特徴とする韻律編集装置。
  2. 統計モデルを用いて前記所定のフレーズに関する韻律パターンを生成し、生成した韻律パターンを前記韻律パターン集合に追加する生成部をさらに具備する請求項1に記載の韻律編集装置。
  3. 前記復元韻律パターンに基づいてテキストを音声合成し、合成音声を生成する音声合成部をさらに具備することを特徴とする請求項1または請求項2に記載の韻律編集装置。
  4. 前記属性情報は、前記フレーズの文字列を示す表層表現を含み、
    前記検索部は、前記所定のフレーズの表層表現と前記フレーズの表層表現とが一致するかどうかを検索することを特徴とする請求項1から請求項3のいずれか1項に記載の韻律編集装置。
  5. 前記属性情報は、前記フレーズの音素の文字列を示す音素列を含み、
    前記検索部は、前記所定のフレーズの音素列と前記フレーズの音素列とが一致するかどうかを検索することを特徴とする請求項1から請求項3のいずれか1項に記載の韻律編集装置。
  6. 前記属性情報は、前記フレーズのモーラ数およびアクセント型を含み、
    前記検索部は、前記所定のフレーズのモーラ数およびアクセント型と、前記フレーズのモーラ数およびアクセント型とが一致するかどうかを検索することを特徴とする請求項1から請求項3のいずれか1項に記載の韻律編集装置。
  7. 前記韻律パターンのパラメータは、音素の基本周波数、音素の継続時間長および音素のパワーを含み、
    前記マッピング部は、前記基本周波数、前記継続時間長、および前記パワーのうちの1以上のパラメータについて、独立してマッピングすることを特徴とする請求項1から請求項6のいずれか1項に記載の韻律編集装置。
  8. 前記韻律パターンは、音素の基本周波数、音素の継続時間長および音素のパワーで表現され、
    前記マッピング部は、前記基本周波数、前記継続時間長、および前記パワーのうちの1以上のパラメータを結合してマッピングすることを特徴とする請求項1から請求項6のいずれか1項に記載の韻律編集装置。
  9. 前記マッピング座標を表示する表示部をさらに具備することを特徴とする請求項1から請求項8のいずれか1項に記載の韻律編集装置。
  10. 前記マッピング部は、前記マッピング座標間の距離に基づいて該マッピング座標をクラスタリングして、クラスタリングされた複数のマッピング座標の中から代表点を決定し、
    前記表示部は、前記代表点を表示すること特徴とする請求項9に記載の韻律編集装置。
  11. 前記復元部は、前記選択座標とマッピング座標との距離が閾値以内である場合、該マッピング座標をマッピングする前の韻律パターンを復元韻律パターンとして得ることを特徴とする請求項1から請求項10のいずれか1項に記載の韻律編集装置。
  12. 前記フレーズをテキストから選択するフレーズ選択部をさらに具備することを特徴とする請求項1から請求項11のいずれか1項に記載の韻律編集装置。
  13. 前記韻律パターン集合に含まれる韻律パターンをそれぞれ正規化する正規化部をさらに具備することを特徴とする請求項1から請求項12のいずれか1項に記載の韻律編集装置。
  14. 前記低次元空間は、前記韻律パターンが含むフレーズの音素数以上の要素数よりも、少ない数の座標で表現されることを特徴とする請求項1から請求項13のいずれか1項に記載の韻律編集装置。
  15. フレーズに関する属性を示す属性情報と該フレーズの韻律パターンとの対応づけから、所定のフレーズと属性情報が一致する前記韻律パターンを検索して韻律パターン集合として得、
    前記韻律パターン集合に含まれる韻律パターンを、低次元空間にマッピングしてマッピング座標を生成し、
    前記マッピング座標から選択された座標を選択座標として得、
    前記選択座標に対応する韻律パターンを復元し復元韻律パターンを得、
    前記所定のフレーズに基づいて生成される合成音声の韻律を前記復元韻律パターンに置換することを特徴とする韻律編集方法。
  16. コンピュータを、
    フレーズに関する属性を示す属性情報と、該フレーズの韻律パターンとを対応づけて格納した格納手段と、
    所定のフレーズと属性情報が一致する前記韻律パターンを前記格納手段から検索し、韻律パターン集合として得る検索手段と、
    前記韻律パターン集合に含まれる韻律パターンを、低次元空間にマッピングし、マッピング座標を生成するマッピング手段と、
    前記マッピング座標から選択された座標を選択座標として得る選択手段と、
    前記選択座標に対応する韻律パターンを復元し復元韻律パターンを得る復元手段と、
    前記所定のフレーズに基づいて生成される合成音声の韻律を前記復元韻律パターンに置換する置換手段として機能させるための韻律編集プログラム。
JP2014150385A 2014-07-24 2014-07-24 韻律編集装置、方法およびプログラム Active JP5802807B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014150385A JP5802807B2 (ja) 2014-07-24 2014-07-24 韻律編集装置、方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014150385A JP5802807B2 (ja) 2014-07-24 2014-07-24 韻律編集装置、方法およびプログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2012181616A Division JP2014038282A (ja) 2012-08-20 2012-08-20 韻律編集装置、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2014219695A JP2014219695A (ja) 2014-11-20
JP5802807B2 true JP5802807B2 (ja) 2015-11-04

Family

ID=51938119

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014150385A Active JP5802807B2 (ja) 2014-07-24 2014-07-24 韻律編集装置、方法およびプログラム

Country Status (1)

Country Link
JP (1) JP5802807B2 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3616250B2 (ja) * 1997-05-21 2005-02-02 日本電信電話株式会社 合成音声メッセージ作成方法、その装置及びその方法を記録した記録媒体
JP3513071B2 (ja) * 2000-02-29 2004-03-31 株式会社東芝 音声合成方法及び音声合成装置
US20040054534A1 (en) * 2002-09-13 2004-03-18 Junqua Jean-Claude Client-server voice customization
JP2008268477A (ja) * 2007-04-19 2008-11-06 Hitachi Business Solution Kk 韻律調整可能な音声合成装置
WO2008149547A1 (ja) * 2007-06-06 2008-12-11 Panasonic Corporation 声質編集装置および声質編集方法

Also Published As

Publication number Publication date
JP2014219695A (ja) 2014-11-20

Similar Documents

Publication Publication Date Title
JP2014038282A (ja) 韻律編集装置、方法およびプログラム
US7603278B2 (en) Segment set creating method and apparatus
US10535335B2 (en) Voice synthesizing device, voice synthesizing method, and computer program product
US10217454B2 (en) Voice synthesizer, voice synthesis method, and computer program product
JP6523893B2 (ja) 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム
US8046225B2 (en) Prosody-pattern generating apparatus, speech synthesizing apparatus, and computer program product and method thereof
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
US20140210830A1 (en) Computer generated head
JP6639285B2 (ja) 声質嗜好学習装置、声質嗜好学習方法及びプログラム
JP2015152630A (ja) 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム
JP6669081B2 (ja) 音声処理装置、音声処理方法、およびプログラム
US10157608B2 (en) Device for predicting voice conversion model, method of predicting voice conversion model, and computer program product
JP6631883B2 (ja) クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム
JP2016151736A (ja) 音声加工装置、及びプログラム
JP5726822B2 (ja) 音声合成装置、方法及びプログラム
US10978076B2 (en) Speaker retrieval device, speaker retrieval method, and computer program product
JP6436806B2 (ja) 音声合成用データ作成方法、及び音声合成用データ作成装置
JP5802807B2 (ja) 韻律編集装置、方法およびプログラム
KR102051235B1 (ko) 스피치 합성에서 푸어 얼라인먼트를 제거하기 위한 아웃라이어 식별 시스템 및 방법
WO2012032748A1 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP2004117662A (ja) 音声合成システム
JP2004279436A (ja) 音声合成装置及びコンピュータプログラム
JP4034751B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP4282609B2 (ja) 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム
JP2011191634A (ja) 音声合成装置及びプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150210

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150408

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150804

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150831

R151 Written notification of patent or utility model registration

Ref document number: 5802807

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350