JP5320341B2 - 発声用テキストセット作成方法、発声用テキストセット作成装置及び発声用テキストセット作成プログラム - Google Patents

発声用テキストセット作成方法、発声用テキストセット作成装置及び発声用テキストセット作成プログラム Download PDF

Info

Publication number
JP5320341B2
JP5320341B2 JP2010112423A JP2010112423A JP5320341B2 JP 5320341 B2 JP5320341 B2 JP 5320341B2 JP 2010112423 A JP2010112423 A JP 2010112423A JP 2010112423 A JP2010112423 A JP 2010112423A JP 5320341 B2 JP5320341 B2 JP 5320341B2
Authority
JP
Japan
Prior art keywords
distribution
speech
unit
text set
tone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010112423A
Other languages
English (en)
Other versions
JP2011242470A (ja
Inventor
公人 田中
秀之 水野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010112423A priority Critical patent/JP5320341B2/ja
Publication of JP2011242470A publication Critical patent/JP2011242470A/ja
Application granted granted Critical
Publication of JP5320341B2 publication Critical patent/JP5320341B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、音声合成用音声素片DBを構築する際に、発声者が読み上げるテキストセットを作成する発声用テキストセット作成方法、発声用テキストセット作成装置及び発声用テキストセット作成プログラムに関する。
波形接続型音声合成システムは、音声合成を行う際に、音声素片を接続する必要があるため、音声合成用音声素片DBを有する。なお、音声素片とは、予め用意した短い単位の音声データである。例えば、音声素片の単位としては、CV、VCV、CVC、[C]V等があり、個別のTTS(text-to-speech system)に依存する。但し、Cは子音を、Vは母音を表し、[C]はCがない場合がありえることを、Vは1つ以上のVの連鎖を表す。音声合成用音声素片DBを構築する際には、予め発声者が発声用テキストセットを読み上げ、その自然音声データを用いて、音声素片を求める必要がある。なお、自然音声データとは、単語、文等の自然な単位で発声者が発声した音を収録した音声データであり、音声合成用音声素片DBとは、自然音声データから音声合成に必要な音声素片のみを抽出したデータベースである。より自然な音声合成処理を行うために、音声合成用音声素片DBには、音声合成に必要な音声素片がより多く含まれることが望まれる。そのためには、発声用テキストセットが、音声素片を効率的に収集することができる文章からなることが必要である。
多様な口調や発話スタイル、豊かな感情を含んだ音声を高品質に合成する場合、目的とする口調や発話スタイル、感情を含んだ音声(以下「X口調」という)から作成された音声素片DBを用いた方が、朗読口調で発声された音声から作成された音声素片DBを用いるよりも合成音声の品質が高くなることが、非特許文献1により知られている。これは、X口調のバリエーション毎に、韻律やスペクトルの特徴が異なるため、大きな韻律変形量及びスペクトルの差異によって生じる自然性等の低下が原因であると考えられる。なお、発話スタイルとは、話者の環境や文化等によって起こる音響特性のことであり、例えば、方言、早口、ぞんざいな話し方、丁寧な話し方、ゆっくりとした話し方、はっきりと発音しない話し方等である。また、感情とは、悲しげな話し方、楽しげな話し方等である。口調とは、口に出したときの言葉の調子や、ものの言い方のようすのことであり、前記発話スタイルや感情を含んだ音声を含む概念とする。韻律の特徴とは声の高さ、イントネーション、リズム、ポーズ等であり、スペクトルとは、音声を周波数成分に分け、周波数毎の強さを表したものである。
一般的には大量日本語テキストの音韻列及び韻律特徴のカバレッジを最大化するようなアルゴリズムを用いて発声用テキストセットが作成されていた(非特許文献2参照)。なお、音韻列とは、音韻(音素)の列であり、読み仮名である。音韻とは、任意の個別言語において意味の区別(弁別)に用いられる最小の音の単位を指し、母音や子音等である。また、カバレッジとは、波形接続型音声合成システムで音声合成を行う際に、処理対象のテキストを音声合成する際に必要となる音声素片が、音素環境、音韻継続時間長及び基本周波数パタンを考慮したときに、音声合成用音声素片DBに含まれている確率である。
大西浩二、益子貴史、小林隆夫著、「HMM音声合成における異なる発話スタイルの生成の検討」、電子情報通信学会技術研究報告、2003年、102巻、619号(SP2002-17)、p17〜22 河井恒、樋口宜男、山本誠一著、「基本周波数及び音素時間継続時間長を考慮した音声合成用波形素片データセットの作成」、電子情報通信学会論文誌(D−II)、1999年8月、Vol.J82−D−II、no.8、p.1229−1238
発声用テキストセットを作成する際に、漢字仮名混じり文の大量日本語テキストから音韻列を推定するために、音声合成プログラムが用いられるが、一般的な音声合成プログラムは朗読口調で読み上げる場合を想定している。そのため、従来技術は、X口調で発声する場合に、推定した通りに発声者が発声しない場合が生じる。例えば、朗読口調を想定した一般的な音声合成プログラムを利用して音韻列を推定して発声用テキストセットを作成し、それを用いてX口調で発声者が発声した場合、音声合成プログラムが推定した音韻列と実際にX口調で発声して得られる音韻列に差(読みの揺れ)が生じると想定される。例えば、「明日」という単語は、一般的な音声合成プログラムを用いて音韻列を推定すると“あし^た”(^は無声化を表す記号)となるが、驚きの感情で発声すると“あし^たー”と語尾が長母音化する。また、強調した発声の場合“あした!”と“し”が無声化しなかったりする場合が想定される。
このように、発声用テキストセット生成時に想定した音韻列と、実際にX口調で発声して得られる音韻列とが異なる場合、発声用テキストセット生成時に計算した「音韻列及び韻律特徴のカバレッジ最大化」が想定した通り実現されず、それにより合成音声の品質が低下するという問題がある。
前記の課題を解決するために、本発明に係る発声用テキストセット作成技術は、朗読口調の自然音声データから求めたパラメータの分布を、目的とするX口調の自然音声データから求めたパラメータの分布に変換するパラメータ分布変換関数を予め記憶しておき、発声用テキストセット候補を用いて音声合成プログラムにより音声合成処理を行い、音声合成データから所定のパラメータを求め、パラメータ分布変換関数を用いて、求めたパラメータの分布を変換し、変換後のパラメータ分布を用いて発声用テキストセット候補を評価する。
本発明は、朗読口調以外の口調で発声した場合にも、音韻列及び韻律特徴のカバレッジを最大化する発声用テキストセットを生成することができるという効果を奏する。
発声用テキストセット作成部の構成図。 発声用テキストセット作成部の処理フローを示す図。 変換関数作成部の構成図。 変換関数作成部の処理フローを示す図。 (a−1)朗読口調における素片分布を、(a−2)X口調における素片分布を、(b−1)朗読口調における継続長分布を、(b−2)X口調における継続長分布を、(c−1)朗読口調におけるF0分布を、(b−2)X口調におけるF0分布を示す図。 テキストセット作成部の構成図。 テキストセット作成部の処理フローを示す図。
以下、本発明の実施の形態について、詳細に説明する。
<発声用テキストセット作成装置1000>
図1及び図2を用いて実施例1に係る発声用テキストセット作成装置1000を説明する。発声用テキストセット作成装置1000は、音声合成用音声素片DBを構築する際に、発声者が読み上げるテキストセットを作成する。
発声用テキストセット作成装置1000は、入出力インタフェース部101と、変換関数作成部100と、記憶部203と、テキストセット作成部200を有する。
発声用テキストセット作成装置1000は、入出力インタフェース部101を介して、発声用テキストセット作成者(以下「ユーザ」という)から変換関数作成指示を受信すると、変換関数作成部100は、オフライン処理により、朗読口調の自然音声データから求めたパラメータの分布を、目的とするX口調の自然音声データから求めたパラメータの分布に変換するパラメータ分布変換関数(例えば、後述する素片分布変換関数、継続長分布変換関数及びF0分布変換関数)を作成し(s100)、後述する発声用テキストセット候補を作成する前に、記憶部203に記憶する。
さらに、発声用テキストセット作成装置1000は、入出力インタフェース部101を介して、ユーザからテキストセット作成指示と口調指定情報を受信すると(s101)、テキストセット作成部200は、オンライン処理により、X口調で発声した場合のカバレッジを最大化するテキストセットを作成し(s200)、入出力インタフェース部101を介して、ユーザに出力する。以下各部の処理内容を説明する。
<入出力インタフェース部101>
入出力インタフェース部101は、ユーザからの入力を受け付けると共に、当該ユーザに対して情報を出力する。例えば、データが入力される入力インタフェース(例えばキーボード、マウス等)とデータが出力される出力インタフェース(例えばディスプレイ、プリンタ等)、または、それらの入出力インタフェースに対する入出力端子からなる。また、発声用テキストセット作成装置1000がネットワーク上のサーバ等であり、ユーザがネットワークを介してアクセスする場合には、入出力インタフェース部101は、ユーザとデータを送受信するための通信部等であってもよい。
<記憶部203>
記憶部203は、入出力される各データや演算過程の各データを、逐一、格納・読み出しする。それにより各演算処理が進められる。但し、必ずしも記憶部203に記憶しなければならないわけではなく、各部間で直接データを受け渡してもよい。なお、後述する素片分布変換関数DB234、継続長分布変換関数DB236及びF0分布変換関数DB238は、記憶部203の一部であってもよい。
<変換関数作成部100>
変換関数作成部100は、例えば、X口調で人間が発声した自然音声を利用して、朗読口調とX口調の差分(音韻列に含まれる音声素片の出現頻度分布の差、音声素片毎の音韻継続時間長の出現頻度分布の差、音声素片毎の基本周波数パタンの出現頻度分布の差)を抽出し、パラメータ分布変換関数を求め、これを記憶部203に記憶する。
図3及び図4を用いて変換関数作成部100を説明する。変換関数作成部100は、自然音声DB110と、音韻ラベリング部111と、第1パラメータ分布抽出部120と、パラメータ分布変換関数算出部130とを備える。
(自然音声DB110及び音韻ラベリング部111)
自然音声DB110は、朗読口調自然音声データとX口調自然音声データとを予め記憶しておく。例えば、各自然音声データは、同じテキスト(例えば「旋回する」)を朗読口調とX口調で読み上げたものである。なお、X口調として様々なバリエーションを有してもよく、バリエーション毎に自然音声データを作成し、記憶する。
音韻ラベリング部111は、入出力インタフェース部101を介して変換関数作成指示を受信すると、自然音声DB110から、朗読口調自然音声データとX口調自然音声データとを取得し(s110)、各自然音声データに、手動または自動で、音韻ラベル(例えば/seNkaisuru/等)を付与し(s111)、取得した各自然音声データとそれに対するラベルデータを素片分布抽出部123に出力する。
(第1パラメータ分布抽出部120)
第1パラメータ分布抽出部120は、所定の文書を朗読口調で読み上げた朗読口調自然音声データと、同一の文書をX口調で読み上げたX口調自然音声データとからそれぞれ所定のパラメータを求め、それぞれパラメータの分布を抽出する(s120)。
例えば、第1パラメータ分布抽出部120は、全音声素片バリエーション記憶部122と、素片分布抽出部123と、継続長分布抽出部125と、F0分布抽出部127とを備える。
{全音声素片バリエーション記憶部122及び素片分布抽出部123}
素片分布抽出部123は、全音声素片バリエーション記憶部122を参照して、それぞれの自然音声データから得られる音声素片に対し音声素片番号を付与し(s123a)、音声素片の出現頻度の分布(以下「素片分布」という)を抽出する(s123b)。
全音声素片バリエーション記憶部122には、音声素片(または音声素片から得られる特徴量や音声素片に対応するラベルデータ等)と各音声素片に対する音声素片番号が記憶されている。但し、全音声素片バリエーション記憶部122に記憶される音声素片は、開発しようとするテキスト音声合成システムに依存したものになる。
素片分布抽出部123は、各自然音声データとラベルデータを受信し、自然音声データから得られる音声素片をキーとして、全音声素片バリエーション記憶部122を検索し、各音声素片に対する音声素片番号を取得する。得られた音声素片番号の数(出現頻度)に基づき、全ての音声素片の種類毎の出現頻度を求め、その素片分布を抽出する。素片分布を素片分布変換関数算出部133に、各自然音声データとそれに紐付けられた音声素片番号を継続長分布抽出部125とF0分布抽出部127に送信し、継続長分布抽出部125にはさらに各自然音声データに付与したラベルデータも送信する。
{継続長分布抽出部125}
継続長分布抽出部125は、ラベルデータと、音声素片番号を受信し、これを用いて、音声素片毎の音韻継続時間長を計算し(s125a)、音声素片毎の音韻継続時間長の出現頻度の分布(以下「継続長分布」という)を抽出し(s125b)、これを継続長分布変換関数算出部135に送信する。なお、音韻継続長はベクトルデータとして計算される。例えば、音声素片”KAS”の各音韻の継続時間長がそれぞれ、Kの長さが12ms、Aの長さが22ms、Sの長さが11msの場合には、ベクトルデータを(12,22,11)とする。但し、他の従来技術により音声素片毎の音韻継続時間長を表してもよい。
{F0分布抽出部127}
F0分布抽出部127は、自然音声データと、音声素片番号と、ラベルデータとを受信し、これらを用いて、音声素片毎の基本周波数パタンを抽出し(s127a)、音声素片毎の基本周波数パタンの出現頻度の分布(以下「F0分布」という)を抽出し(s127b)、F0分布抽出部127に送信する。なお、基本周波数パタンはベクトルデータとして計算される。例えば、音声素片”ASU”の各音韻の基本周波数パタンの周波数の平均値がそれぞれ、Aの平均値が120Hz、Sの平均値が0Hz(Sは無声子音であり基本周波数がないため)、Uの平均値が220Hzの場合には、ベクトルデータを(120,0,220)とする。但し、基本周波数パタンの指定方法は、この方法以外にも様々なものがあり、他の従来技術により音声素片毎の基本周波数パタンを表してもよい。例えば、音声素片の基本周波数パタンの周波数の平均値と、周波数の分散と、始点の周波数と、終点の周波数からなるベクトルデータを抽出してもよいし、音韻毎に平均値をとるのではなく、基本周波数の時間的変化パタンを3点の折れ線で近似してもよい。
(パラメータ分布変換関数算出部130)
パラメータ分布変換関数算出部130は、朗読口調の自然音声データから求めたパラメータ分布を、X口調の自然音声データから求めたパラメータ分布に、変換するパラメータ分布変換関数を算出する(s130)。
例えば、パラメータ分布変換関数算出部130は、素片分布変換関数算出部133と、継続長分布変換関数算出部135と、F0分布変換関数算出部137とを備える。
{素片分布変換関数算出部133}
素片分布変換関数算出部133は、各自然音声データから求めた素片分布を受信し、朗読口調の自然音声データから求めた素片分布(図5(a−1))を、X口調の自然音声データから求めた素片分布(図5(a−2))に変換する素片分布変換関数を算出し(s133)、素片分布変換関数DB234に送信し、登録する。図5の上段は、朗読口調からX口調へ素片出現頻度分布を変換する素片分布変換関数fのイメージを示している。(a−1)及び(a−2)の横軸上にN個の音声素片番号が左から順番に並べられている。縦軸は出現頻度である。変換関数fは、左の分布を右の分布に変換する関数である。これにより、読みの揺れに関する両口調間の差などを変換関数fに織り込むことができる。
例えば、音声素片の種類数をNとするとき、音声素片毎に朗読口調の素片分布{u1w,u2w,…,nNw}とX口調の素片分布{u1x,u2x,…,nNx}との差分{u1w−u1x,u2w−u2x,…,nNw−uNx}を求め、記憶しておく。後述する素片分布変換部233において、素片分布変換関数は、入力される素片分布から、この差分を差し引くことで分布を変換する。また、例えば、素片分布変換関数は、音声素片毎に朗読口調の素片分布とX口調の素片分布との比を、入力される素片分布に乗じることで変換してもよい。また他の方法によって、朗読口調の素片分布をX口調の素片分布に変換してもよい。なお、素片分布変換関数算出部133はX口調のバリエーション数分の素片分布変換関数を算出し、素片分布変換関数DB234に送信し、登録する。
{継続長分布変換関数算出部135}
継続長分布変換関数算出部135は、各自然音声データの音声素片毎の継続長分布を受信し、朗読口調の自然音声データから求めた音声素片毎の継続長分布(図5(b−1))を、X口調の自然音声データから求めた音声素片毎の継続長分布(図5(b−2))に変換する継続長分布変換関数を算出し(s135)、継続長分布変換関数DB236に送信し、登録する。よって、継続長分布変換関数DB236には、(X口調のバリエーション数)×(音声素片の種類数N)分の継続長分布変換関数が登録されることになる。図5の中段は、朗読口調からX口調へ音韻継続時間長の出現頻度分布を変換する継続長分布変換関数のイメージを示している。左側が朗読口調におけるある音声素片iの音韻継続時間長の出現頻度(音韻継続時間長ベクトルのバリエーション数をMiとする)、右側がX口調におけるある音声素片iの音韻継続時間長の出現頻度を示しており、(b−1)及び(b−2)の横軸上にMi個の音韻継続長ベクトルが左から順番に並べられている。縦軸は出現頻度である。変換関数giは、左の分布を右の分布に変換する関数である。
例えば、ある音声素片iに対する音韻継続時間長ベクトルのバリエーション数をMiとするとき、音声素片毎に朗読口調の継続長分布{u1w,u2w,…,nMiw}とX口調の継続長分布{u1x,u2x,…,nMix}との差分{u1w−u1x,u2w−u2x,…,nMiw−uMix}を求め、記憶しておく。後述する継続長分布変換部235において、継続長分布変換関数は、入力される継続長分布から、この差分を差し引くことで分布を変換する。この処理を全ての音声素片に対して行う。また他の方法によって、朗読口調の継続長分布をX口調の継続長分布に変換してもよい。後述するF0分布変換関数算出部137及びF0分布変換部237についても同様の処理により、F0分布変換関数を求め、F0分布を変換することができる。
{F0分布変換関数算出部137}
F0分布変換関数算出部137は、各自然音声データの音声素片毎のF0分布を受信し、朗読口調の自然音声データから求めた音声素片毎のF0分布(図5(c−1))を、X口調の自然音声データから求めた音声素片毎のF0分布(図5(c−2))に変換するF0分布変換関数を算出し(s137)、F0分布変換関数DB238に送信し、登録する。F0分布変換関数DB238には、(X口調のバリエーション数)×(音声素片の種類数N)分のF0分布変換関数が登録されることになる。図5の下段は、朗読口調からX口調へF0分布を変換する関数のイメージを示している。左側が朗読口調におけるある音声素片iの基本周波数パタンの出現頻度(基本周波数パタンベクトルのバリエーション数をLiとする)、右側がX口調におけるある素片iの基本周波数パタンの出現頻度を示しており、(c−1)及び(c−2)の横軸上にLi個の基本周波数パタンベクトルが左から順番に並べられている。縦軸は出現頻度である。変換関数hiは、左の分布を右の分布に変換する関数である。
<テキストセット作成部200>
図6及び図7を用いてテキストセット作成部200を説明する。テキストセット作成部200は、発声用テキストセット候補作成部210と、大量日本語DB211と、第2パラメータ分布抽出部220と、パラメータ分布変換部230と、評価部250と、終了判定部260とを有する。なお、図6中、パラメータ分布変換部230と、変換関数DB234、236及び238とが本発明によって追加される部分であり、その他の部分は従来の技術と同等の繰り返し処理を行ってもよい(例えば非特許文献2)。繰り返し処理には「交換法」や「貪欲アルゴリズム」等があるが、図6及び図7では交換法を例として示している。
(発声用テキストセット候補作成部210及び大量日本語DB211)
発声用テキストセット候補作成部210は、インタフェース部101を介してテキストセット作成指示を受信すると、大量日本語文章DB211から所定数(例えば、500個)の文章を抽出し、最初の発声用テキストセット候補(以下「T」という)を作成し(s210)、第2パラメータ分布抽出部220に送信する。なお、テキストセット作成指示に大量日本語文章DB211から抽出する文章の数を指定する情報(以下「抽出数指定情報」という)を加えてもよい。なお、抽出数指定情報は、ユーザが最初に指定し、入力する値である。
(第2パラメータ分布抽出部220)
第2パラメータ分布抽出部220は、Tを用いて、音声合成プログラムにより音声合成処理を行い、音声合成データから所定のパラメータを求め、求めたパラメータの分布を抽出する(s220)。
例えば、第2パラメータ分布抽出部220は、音韻列、基本周波数パタン、音韻継続時間長抽出部221と、素片分布抽出部223と、継続長分布抽出部225と、F0分布抽出部227とを備える。
{音韻列、基本周波数パタン、音韻継続時間長抽出部221}
音韻列、基本周波数パタン、音韻継続時間長抽出部221は、発声用テキストセット候補を受信し、これを用いて、音声合成プログラムにより音声合成処理を行い、音声合成データから音韻列、基本周波数パタン及び音韻継続時間長を推定し、これらを抽出して(s221)、素片分布抽出部223に送信する。
{素片分布抽出部223}
素片分布抽出部223は、音韻列、基本周波数パタン及び音韻継続時間長を受信し、音韻列を用いて各音声素片の出現頻度を求め、素片分布を抽出し(s223)、素片分布変換部233に送信する。また、音声素片とそれに紐付けられた音韻継続長を継続長分布抽出部225に、音声素片とそれに紐付けられた基本周波数パタンをF0分布抽出部227に送信する。
{継続長分布抽出部225}
継続長分布抽出部225は、素片分布と音声素片毎の音韻継続長を受信し、音声素片毎の音韻継続時間長を求め、その出現頻度から継続長分布を抽出し(s225)、継続長分布変換部235に送信する。
{F0分布抽出部227}
F0分布抽出部227は、素片分布と音声素片毎の基本周波数パタンを受信し、音声素片毎の基本周波数パタンを求め、その出現頻度からF0分布を抽出し(s227)、F0分布変換部237に送信する。
なお、素片分布抽出部223では素片分布を1つ、継続長分布抽出部225及びF0分布抽出部227では音声素片のバリエーション数分のF0分布及び継続長分布を抽出する。
(パラメータ分布変換部230)
パラメータ分布変換部230は、入出力インタフェース部101を介して口調指定情報を受信し、口調指定情報に基づき、記憶部203からパラメータ分布変換関数を取り出し、そのパラメータ分布変換関数を用いて、音声合成データから求めたパラメータ分布を変換する(s230)例えば、パラメータ分布変換部230は、素片分布変換部233と、継続長分布変換部235と、F0分布変換部237とを備える。
{素片分布変換部233}
素片分布変換部233は、口調指定情報と素片分布を受信し、口調指定情報をキーとして、記憶部203内の素片分布変換関数DB234を検索し、対応する素片分布変換関数を取り出し、これを用いて、(合成データから求めた)受信した素片分布を変換し(s233)、変換後の素片分布を評価部250に送信する。
{継続長分布変換部235}
継続長分布変換部235は、口調指定情報と継続長分布を受信し、口調指定情報をキーとして、記憶部203内の継続長分布変換関数DB236を検索し、対応する継続長分布変換関数を取り出し、これを用いて、(音声合成データから求めた)受信した継続長分布を変換し(s235)、変換後の継続長分布を評価部250に送信する。
{F0分布変換部237}
F0分布変換部237は、口調指定情報とF0分布を受信し、口調指定情報をキーとして、記憶部203内のF0分布変換関数DBを検索し、対応するF0分布変換関数を取り出し、これを用いて、(音声合成データから求めた)受信したF0分布を変換し(s237)、変換後のF0分布を評価部250に送信する。
(評価部250)
評価部250は、変換後のパラメータ分布(素片分布、継続長分布及びF0分布)を用いて評価関数を計算し、発声用テキストセット候補を評価し(s250)、評価結果を終了判定部260を介して発声用テキストセット候補作成部210に送信する。例えば、非特許文献2の方法等により評価関数を計算する。
例えば、全ての音声素片の種類をN、発声用テキストセット候補中に現れる音声素片の出現頻度を{u,u,…,n}と表し、uの相対出現頻度をpとする。uに対応する音韻継続時間長の種類をN、それぞれの出現頻度を{vi1,vi2,…,viNi}と表し、vijの相対出現頻度をqijとする。なお、基本周波数パタンについても、音韻継続時間長と同様の方法により求めることができる。
音声素片uのカバレッジの達成度を表す指標として、rを導入する。但し、
Figure 0005320341
であり、dij(T)は、品質劣化の許容範囲内の変形によってvijの基本周波数及び音韻継続時間長を実現できるような波形素片が発声用テキストセット候補Tに含まれるとき1、そうでないとき0をとる関数とする。
発声用テキストセット候補Tに含まれる音声素片のカバレッジの総和は
Figure 0005320341
であり、同一の音声素片に属する音韻継続時間長や基本周波数パタンの間では、音韻継続時間長や基本周波数パタンの出現頻度が高いものほど被覆の良さを測る評価規準への寄与が大きくなる。これを評価関数として用いてもよい。さらに、音素環境の広がりと基本周波数パタン、音声素片継続時間長の広がりの間の重みを調整するメカニズムとして、非線形関数等を導入しても良い(非特許文献2参照)。
(終了判定部260)
終了判定部260は、終了条件を満たすか否かを判定し(s260)、終了判定結果を発声用テキストセット候補作成部210に送信する。終了条件とは、例えば、交換を試みた文数が所定の値に達していることや、評価関数の大きさが所定の値以上であること等である。
[繰り返し処理]
発声用テキストセット候補作成部210は、評価結果と終了判定結果を受信し、終了判定結果が終了条件を満たすことを意味する場合には(s260)、その時点の発声用テキストセット候補を発声用テキストセットとして出力する(s315)。終了判定結果が終了条件を満たしていないことを意味する場合には(s260)、新たな発声用テキストセット候補を作成し(s210)、処理(s210〜s260)を繰り返す。
なお、新たな発声用テキストセット候補は、大量日本語DB211から任意の1文を取り出し、発声用テキストセット候補中の任意の1文と交換することによって作成してもよい。この場合、任意の1文を交換した発声用テキストセット候補と、交換していない発声用テキストセット候補とを、記憶部203に記憶しておき、評価部250の評価結果に従って、評価の低い発声用テキストセット候補を削除する構成としてもよい。2週目以降の各処理は、差分のみを処理すればよいため、効率的に処理することができる。
<プログラム>
なお、上述した発声用テキストセット作成装置は、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置(実施例で図に示した機能構成をもつ装置)として機能させるためのプログラム、または、その処理手順(実施例で示したもの)の各過程をコンピュータに実行させるためのプログラムを、CD−ROM、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。
<効果>
本発明では、X口調毎に、朗読口調との間に生じ易い発声の差分を予め抽出し、パタン化しておき、その発声差分に応じて音韻列や韻律特徴のカバレッジが最大になるように、発声用テキストセットを補正することで、朗読口調以外の口調で発声した場合でもカバレッジが最大化できるようにする。本発明により作成された発声用テキストセットを用いて、発声者が発声し、その自然音声データに基づいて音声素片DBを構築することで、X口調における合成音声の劣化を防ぐことができる。
[変形例]
発声用テキストセット1000は、変換関数作成部100を有さずともよい。例えば、他の装置で作成した各変換関数を、記憶部203に記憶してもよい。
発声用テキストセット1000は、3つのパラメータ分布(素片分布、継続長分布、F0分布)を変換対象としているが、少なくとも1つを変換対象とすればよい。推定精度が落ちるが、データ量、計算量を減らすことができる。また、前記の3つのパラメータ分布以外のパラメータ分布を変換対象としてもよい。
実施例1では、非特許文献2記載の方法を用いて、発声用テキストセット候補を評価したが、他の既存技術を用いて評価してもよい。
本発明は、音声合成用音声素片DBを構築する際に、発声者が読み上げるテキストセットを作成する際に利用することができる。本発明の発話用テキストセット作成装置1000により作成されたテキストセットをX口調で発声者が読み上げることで、X口調における音韻列及び韻律特徴のカバレッジを最大化した音声合成用音声素片DBを構築することができ、そのDBを用いることで、X口調における高品質の合成音声を可能とする。
1000 発声用テキストセット作成装置
100 変換関数作成部
101 入出力インタフェース部
110 自然音声DB
111 音韻ラベリング部
120 第1パラメータ分布抽出部
130 パラメータ分布変換関数算出部
200 テキストセット作成部
203 記憶部
210 発話用テキストセット候補作成部
220 第2パラメータ分布抽出部
230 パラメータ分布変換部
234 素片分布変換関数DB
236 継続長分布変換関数DB
238 F0分布変換関数DB
250 評価部
260 終了判定部

Claims (9)

  1. 音声合成用音声素片DBを構築する際に、発声者が読み上げるテキストセットを作成する発声用テキストセット作成方法であって、
    記憶部には、朗読口調の自然音声データから求めたパラメータの分布を、目的とするX口調の自然音声データから求めたパラメータの分布に変換するパラメータ分布変換関数が、予め記憶されているものとし、
    大量日本語文章DBからランダムに所定数の文章を抽出し、発声用テキストセット候補を作成する発声用テキストセット候補作成ステップと、
    前記発声用テキストセット候補を用いて、音声合成プログラムにより音声合成処理を行い、音声合成データから所定のパラメータを求め、求めたパラメータの分布を抽出する第2パラメータ分布抽出ステップと、
    前記記憶部から前記パラメータ分布変換関数を取り出し、そのパラメータ分布変換関数を用いて、前記音声合成データから求めたパラメータ分布を変換するパラメータ分布変換ステップと、
    変換後のパラメータ分布を用いて前記発声用テキストセット候補を評価する評価ステップと、を有する、
    ことを特徴とする発声用テキストセット生成方法。
  2. 請求項1記載の発声用テキストセット生成方法であって、
    所定の文書を朗読口調で読み上げた朗読口調自然音声データと、同一の文書をX口調で読み上げたX口調自然音声データとからそれぞれ所定のパラメータを求め、それぞれパラメータの分布を抽出する第1パラメータ分布抽出ステップと、
    朗読口調の自然音声データから求めたパラメータ分布を、X口調の自然音声データから求めたパラメータ分布に、変換するパラメータ分布変換関数を算出するパラメータ分布変換関数算出ステップと、
    前記パラメータ分布変換関数を、発声用テキストセット候補を作成する前に、前記記憶部に記憶するステップと、を有する、
    ことを特徴とする発声用テキストセット生成方法。
  3. 音声合成用音声素片DBを構築する際に、発声者が読み上げるテキストセットを作成する発声用テキストセット作成方法であって、
    記憶部には、朗読口調の自然音声データから求めた各音声素片の出現頻度分布、音声素片毎の音韻継続時間長の分布(以下「継続長分布」という)及び音声素片毎の基本周波数の分布(以下「F0分布」という)を、それぞれ目的とするX口調の自然音声データから求めた各音声素片の出現頻度分布、音声素片毎の継続長分布、音声素片毎のF0分布に変換する素片分布変換関数、継続長分布変換関数及びF0分布変換関数が、予め記憶されているものとし、
    大量日本語文章DBからランダムに所定数の文章を抽出し、発声用テキストセット候補を作成する発声用テキストセット候補作成ステップと、
    前記発声用テキストセット候補を用いて、音声合成プログラムにより音声合成処理を行い、音声合成データから音韻列、基本周波数パタン及び音韻継続時間長を抽出する音韻列、基本周波数パタン及び音韻継続時間長抽出ステップと、
    前記音韻列から各音声素片の出現頻度を求め、素片分布を抽出する第2素片分布抽出ステップと、
    音声素片毎の音韻継続時間長を求め継続長分布を抽出し、音声素片毎の基本周波数パタンを求めF0分布を抽出する第2音韻継続時間長及びF0分布抽出ステップと、
    前記記憶部から素片分布変換関数、継続長分布変換関数及びF0分布変換関数を取り出し、これらの分布変換関数を用いて、それぞれ前記音声合成データから求めた素片分布、継続長分布及びF0分布を変換するパラメータ分布変換ステップと、
    変換後の素片分布、継続長分布及びF0分布を用いて評価関数を計算し、前記発声用テキストセット候補を評価する評価ステップと、を有する、
    ことを特徴とする発声用テキストセット生成方法。
  4. 請求項3記載の発声用テキストセット生成方法であって、
    所定の文書を朗読口調で読み上げた朗読口調自然音声データと、同一の文書をX口調で読み上げたX口調自然音声データとに音韻ラベルを付与する音韻ラベリングステップと、
    全音声素片バリエーション記憶部を参照して、それぞれの自然音声データから得られる音声素片に対し音声素片番号を付与し、音声素片の出現頻度分布を抽出する第1素片分布抽出ステップと、
    音声素片毎の音韻継続時間長を計算し、継続長分布を抽出し、音声素片毎の基本周波数パタンを抽出し、F0分布を抽出する第1音韻継続時間長及びF0分布抽出ステップと、
    朗読口調の自然音声データから求めた素片分布、継続長分布及びF0分布を、それぞれX口調の自然音声データから求めた素片分布、継続長分布及びF0分布に変換する素片分布変換関数、継続長分布変換関数及びF0分布変換関数を算出するパラメータ分布変換関数算出ステップと、
    素片分布変換関数、継続長分布変換関数及びF0分布変換関数を、発声用テキストセット候補を作成する前に、前記記憶部に記憶するステップと、を有する、
    ことを特徴とする発声用テキストセット生成方法。
  5. 音声合成用音声素片DBを構築する際に、発声者が読み上げるテキストセットを作成する発声用テキストセット作成装置であって、
    朗読口調の自然音声データから求めたパラメータの分布を、目的とするX口調の自然音声データから求めたパラメータの分布に変換するパラメータ分布変換関数を、予め記憶している記憶部と、
    大量日本語文章DBからランダムに所定数の文章を抽出し、発声用テキストセット候補を作成する発声用テキストセット候補作成部と、
    前記発声用テキストセット候補を用いて、音声合成プログラムにより音声合成処理を行い、音声合成データから所定のパラメータを求め、求めたパラメータの分布を抽出する第2パラメータ分布抽出部と、
    前記記憶部から前記パラメータ分布変換関数を取り出し、そのパラメータ分布変換関数を用いて、前記音声合成データから求めたパラメータ分布を変換するパラメータ分布変換部と、
    変換後のパラメータ分布を用いて前記発声用テキストセット候補を評価する評価部と、を有する、
    ことを特徴とする発声用テキストセット生成装置。
  6. 請求項5記載の発声用テキストセット生成装置であって、
    所定の文書を朗読口調で読み上げた朗読口調自然音声データと、同一の文書をX口調で読み上げたX口調自然音声データとからそれぞれ所定のパラメータを求め、それぞれパラメータの分布を抽出する第1パラメータ分布抽出部と、
    朗読口調の自然音声データから求めたパラメータ分布を、X口調の自然音声データから求めたパラメータ分布に、変換するパラメータ分布変換関数を算出するパラメータ分布変換関数算出部と、を有し、
    前記記憶部は、前記パラメータ分布変換関数を、発声用テキストセット候補を作成する前に、記憶する、
    ことを特徴とする発声用テキストセット生成装置。
  7. 音声合成用音声素片DBを構築する際に、発声者が読み上げるテキストセットを作成する発声用テキストセット作成装置であって、
    朗読口調の自然音声データから求めた各音声素片の出現頻度分布(以下「素片分布」という)、音声素片毎の音韻継続時間長の出現頻度の分布(以下「継続長分布」という)及び音声素片毎の基本周波数パタンの出現頻度の分布((以下「F0分布」という)を、それぞれ目的とするX口調の自然音声データから求めた各音声素片の出現頻度分布、音声素片毎の継続長分布、音声素片毎のF0分布に変換する素片分布変換関数、継続長分布変換関数及びF0分布変換関数が、予め記憶されている記憶部と、
    大量日本語文章DBからランダムに所定数の文章を抽出し、発声用テキストセット候補を作成する発声用テキストセット候補作成部と、
    前記発声用テキストセット候補を用いて、音声合成プログラムにより音声合成処理を行い、音声合成データから音韻列、基本周波数パタン及び音韻継続時間長を抽出する音韻列、基本周波数パタン及び音韻継続時間長抽出部と、
    前記音韻列から各音声素片の出現頻度を求め、素片分布を抽出する第2素片分布抽出部と、
    音声素片毎の音韻継続時間長を求め継続長分布を抽出する第2継続長分布抽出部と、
    音声素片毎の基本周波数パタンを求めF0分布を抽出する第2F0分布抽出部と、
    前記記憶部から素片分布変換関数、継続長分布変換関数及びF0分布変換関数を取り出し、これらの分布変換関数を用いて、それぞれ前記音声合成データから求めた素片分布、継続長分布及びF0分布を変換するパラメータ分布変換部と、
    変換後の素片分布、継続長分布及びF0分布を用いて評価関数を計算し、前記発声用テキストセット候補を評価する評価部と、を有する、
    ことを特徴とする発声用テキストセット生成装置。
  8. 請求項7記載の発声用テキストセット生成装置であって、
    所定の文書を朗読口調で読み上げた朗読口調自然音声データと、同一の文書をX口調で読み上げたX口調自然音声データとに音韻ラベルを付与する音韻ラベリング部と、
    全音声素片バリエーション記憶部を参照して、それぞれの自然音声データから得られる音声素片に対し音声素片番号を付与し、素片分布を抽出する第1素片分布抽出部と、
    音声素片毎の音韻継続時間長を計算し、継続長分布を抽出する第1継続長分布抽出部と、
    音声素片毎の基本周波数パタンを抽出し、F0分布を抽出する第1F0分布抽出部と、
    朗読口調の自然音声データから求めた素片分布、継続長分布及びF0分布を、それぞれX口調の自然音声データから求めた素片分布、継続長分布及びF0分布に変換する素片分布変換関数、継続長分布変換関数及びF0分布変換関数を算出するパラメータ分布変換関数算出部と、を有し、
    前記記憶部は、素片分布変換関数、継続長分布変換関数及びF0分布変換関数を、発声用テキストセット候補を作成する前に、記憶する、
    ことを特徴とする発声用テキストセット生成装置。
  9. コンピュータを請求項5から8の何れかに記載の発声用テキストセット生成装置として機能させるための発声用テキストセット生成プログラム。
JP2010112423A 2010-05-14 2010-05-14 発声用テキストセット作成方法、発声用テキストセット作成装置及び発声用テキストセット作成プログラム Expired - Fee Related JP5320341B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010112423A JP5320341B2 (ja) 2010-05-14 2010-05-14 発声用テキストセット作成方法、発声用テキストセット作成装置及び発声用テキストセット作成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010112423A JP5320341B2 (ja) 2010-05-14 2010-05-14 発声用テキストセット作成方法、発声用テキストセット作成装置及び発声用テキストセット作成プログラム

Publications (2)

Publication Number Publication Date
JP2011242470A JP2011242470A (ja) 2011-12-01
JP5320341B2 true JP5320341B2 (ja) 2013-10-23

Family

ID=45409217

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010112423A Expired - Fee Related JP5320341B2 (ja) 2010-05-14 2010-05-14 発声用テキストセット作成方法、発声用テキストセット作成装置及び発声用テキストセット作成プログラム

Country Status (1)

Country Link
JP (1) JP5320341B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015092936A1 (ja) 2013-12-20 2015-06-25 株式会社東芝 音声合成装置、音声合成方法およびプログラム
WO2016042626A1 (ja) 2014-09-17 2016-03-24 株式会社東芝 音声処理装置、音声処理方法及びプログラム
JP7348027B2 (ja) * 2019-10-28 2023-09-20 株式会社日立製作所 対話システム、対話プログラムおよび対話システムの制御方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02106799A (ja) * 1988-10-14 1990-04-18 A T R Shichiyoukaku Kiko Kenkyusho:Kk 合成音声情緒付与回路

Also Published As

Publication number Publication date
JP2011242470A (ja) 2011-12-01

Similar Documents

Publication Publication Date Title
US7603278B2 (en) Segment set creating method and apparatus
JP4125362B2 (ja) 音声合成装置
JP5665780B2 (ja) 音声合成装置、方法およびプログラム
JP6266372B2 (ja) 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム
Donovan et al. A hidden Markov-model-based trainable speech synthesizer
JP3910628B2 (ja) 音声合成装置、音声合成方法およびプログラム
Qian et al. A cross-language state sharing and mapping approach to bilingual (Mandarin–English) TTS
US20040030555A1 (en) System and method for concatenating acoustic contours for speech synthesis
KR20070077042A (ko) 음성처리장치 및 방법
JP5411845B2 (ja) 音声合成方法、音声合成装置及び音声合成プログラム
JP2020034883A (ja) 音声合成装置及びプログラム
WO2015025788A1 (ja) 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
JP5320341B2 (ja) 発声用テキストセット作成方法、発声用テキストセット作成装置及び発声用テキストセット作成プログラム
JP6330069B2 (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
JP6436806B2 (ja) 音声合成用データ作成方法、及び音声合成用データ作成装置
JP6170384B2 (ja) 音声データベース生成システム、音声データベース生成方法、及びプログラム
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP6523423B2 (ja) 音声合成装置、音声合成方法およびプログラム
Takaki et al. Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012
Ninh A speaker-adaptive hmm-based vietnamese text-to-speech system
JP5722295B2 (ja) 音響モデル生成方法と音声合成方法とそれらの装置とプログラム
JP2003208188A (ja) 日本語テキスト音声合成方法
CN102122505A (zh) 一种提高语音合成***表现力的建模方法
JP2011141470A (ja) 素片情報生成装置、音声合成システム、音声合成方法、及び、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121004

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130619

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130702

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130712

R150 Certificate of patent or registration of utility model

Ref document number: 5320341

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130822

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees