JP5320341B2

JP5320341B2 - 発声用テキストセット作成方法、発声用テキストセット作成装置及び発声用テキストセット作成プログラム

Info

Publication number: JP5320341B2
Application number: JP2010112423A
Authority: JP
Inventors: 公人田中; 秀之水野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2010-05-14
Filing date: 2010-05-14
Publication date: 2013-10-23
Anticipated expiration: 2030-05-14
Also published as: JP2011242470A

Description

本発明は、音声合成用音声素片ＤＢを構築する際に、発声者が読み上げるテキストセットを作成する発声用テキストセット作成方法、発声用テキストセット作成装置及び発声用テキストセット作成プログラムに関する。

波形接続型音声合成システムは、音声合成を行う際に、音声素片を接続する必要があるため、音声合成用音声素片ＤＢを有する。なお、音声素片とは、予め用意した短い単位の音声データである。例えば、音声素片の単位としては、ＣＶ、ＶＣＶ、ＣＶＣ、［Ｃ］Ｖ^＊等があり、個別のＴＴＳ（text-to-speech system）に依存する。但し、Ｃは子音を、Ｖは母音を表し、［Ｃ］はＣがない場合がありえることを、Ｖ^＊は1つ以上のＶの連鎖を表す。音声合成用音声素片ＤＢを構築する際には、予め発声者が発声用テキストセットを読み上げ、その自然音声データを用いて、音声素片を求める必要がある。なお、自然音声データとは、単語、文等の自然な単位で発声者が発声した音を収録した音声データであり、音声合成用音声素片ＤＢとは、自然音声データから音声合成に必要な音声素片のみを抽出したデータベースである。より自然な音声合成処理を行うために、音声合成用音声素片ＤＢには、音声合成に必要な音声素片がより多く含まれることが望まれる。そのためには、発声用テキストセットが、音声素片を効率的に収集することができる文章からなることが必要である。

多様な口調や発話スタイル、豊かな感情を含んだ音声を高品質に合成する場合、目的とする口調や発話スタイル、感情を含んだ音声（以下「Ｘ口調」という）から作成された音声素片ＤＢを用いた方が、朗読口調で発声された音声から作成された音声素片ＤＢを用いるよりも合成音声の品質が高くなることが、非特許文献１により知られている。これは、Ｘ口調のバリエーション毎に、韻律やスペクトルの特徴が異なるため、大きな韻律変形量及びスペクトルの差異によって生じる自然性等の低下が原因であると考えられる。なお、発話スタイルとは、話者の環境や文化等によって起こる音響特性のことであり、例えば、方言、早口、ぞんざいな話し方、丁寧な話し方、ゆっくりとした話し方、はっきりと発音しない話し方等である。また、感情とは、悲しげな話し方、楽しげな話し方等である。口調とは、口に出したときの言葉の調子や、ものの言い方のようすのことであり、前記発話スタイルや感情を含んだ音声を含む概念とする。韻律の特徴とは声の高さ、イントネーション、リズム、ポーズ等であり、スペクトルとは、音声を周波数成分に分け、周波数毎の強さを表したものである。

一般的には大量日本語テキストの音韻列及び韻律特徴のカバレッジを最大化するようなアルゴリズムを用いて発声用テキストセットが作成されていた（非特許文献２参照）。なお、音韻列とは、音韻（音素）の列であり、読み仮名である。音韻とは、任意の個別言語において意味の区別（弁別）に用いられる最小の音の単位を指し、母音や子音等である。また、カバレッジとは、波形接続型音声合成システムで音声合成を行う際に、処理対象のテキストを音声合成する際に必要となる音声素片が、音素環境、音韻継続時間長及び基本周波数パタンを考慮したときに、音声合成用音声素片ＤＢに含まれている確率である。

大西浩二、益子貴史、小林隆夫著、「ＨＭＭ音声合成における異なる発話スタイルの生成の検討」、電子情報通信学会技術研究報告、２００３年、１０２巻、６１９号（SP2002-17）、ｐ１７〜２２河井恒、樋口宜男、山本誠一著、「基本周波数及び音素時間継続時間長を考慮した音声合成用波形素片データセットの作成」、電子情報通信学会論文誌（Ｄ−II）、１９９９年８月、Ｖｏｌ．Ｊ８２−Ｄ−II、ｎｏ．８、ｐ．１２２９−１２３８

発声用テキストセットを作成する際に、漢字仮名混じり文の大量日本語テキストから音韻列を推定するために、音声合成プログラムが用いられるが、一般的な音声合成プログラムは朗読口調で読み上げる場合を想定している。そのため、従来技術は、Ｘ口調で発声する場合に、推定した通りに発声者が発声しない場合が生じる。例えば、朗読口調を想定した一般的な音声合成プログラムを利用して音韻列を推定して発声用テキストセットを作成し、それを用いてＸ口調で発声者が発声した場合、音声合成プログラムが推定した音韻列と実際にＸ口調で発声して得られる音韻列に差（読みの揺れ）が生じると想定される。例えば、「明日」という単語は、一般的な音声合成プログラムを用いて音韻列を推定すると“あし^た”（^は無声化を表す記号）となるが、驚きの感情で発声すると“あし^たー”と語尾が長母音化する。また、強調した発声の場合“あした！”と“し”が無声化しなかったりする場合が想定される。

このように、発声用テキストセット生成時に想定した音韻列と、実際にＸ口調で発声して得られる音韻列とが異なる場合、発声用テキストセット生成時に計算した「音韻列及び韻律特徴のカバレッジ最大化」が想定した通り実現されず、それにより合成音声の品質が低下するという問題がある。

前記の課題を解決するために、本発明に係る発声用テキストセット作成技術は、朗読口調の自然音声データから求めたパラメータの分布を、目的とするＸ口調の自然音声データから求めたパラメータの分布に変換するパラメータ分布変換関数を予め記憶しておき、発声用テキストセット候補を用いて音声合成プログラムにより音声合成処理を行い、音声合成データから所定のパラメータを求め、パラメータ分布変換関数を用いて、求めたパラメータの分布を変換し、変換後のパラメータ分布を用いて発声用テキストセット候補を評価する。

本発明は、朗読口調以外の口調で発声した場合にも、音韻列及び韻律特徴のカバレッジを最大化する発声用テキストセットを生成することができるという効果を奏する。

発声用テキストセット作成部の構成図。発声用テキストセット作成部の処理フローを示す図。変換関数作成部の構成図。変換関数作成部の処理フローを示す図。（ａ−１）朗読口調における素片分布を、（ａ−２）Ｘ口調における素片分布を、（ｂ−１）朗読口調における継続長分布を、（ｂ−２）Ｘ口調における継続長分布を、（ｃ−１）朗読口調におけるＦ０分布を、（ｂ−２）Ｘ口調におけるＦ０分布を示す図。テキストセット作成部の構成図。テキストセット作成部の処理フローを示す図。

以下、本発明の実施の形態について、詳細に説明する。

＜発声用テキストセット作成装置１０００＞
図１及び図２を用いて実施例１に係る発声用テキストセット作成装置１０００を説明する。発声用テキストセット作成装置１０００は、音声合成用音声素片ＤＢを構築する際に、発声者が読み上げるテキストセットを作成する。

発声用テキストセット作成装置１０００は、入出力インタフェース部１０１と、変換関数作成部１００と、記憶部２０３と、テキストセット作成部２００を有する。

発声用テキストセット作成装置１０００は、入出力インタフェース部１０１を介して、発声用テキストセット作成者（以下「ユーザ」という）から変換関数作成指示を受信すると、変換関数作成部１００は、オフライン処理により、朗読口調の自然音声データから求めたパラメータの分布を、目的とするＸ口調の自然音声データから求めたパラメータの分布に変換するパラメータ分布変換関数（例えば、後述する素片分布変換関数、継続長分布変換関数及びＦ０分布変換関数）を作成し（ｓ１００）、後述する発声用テキストセット候補を作成する前に、記憶部２０３に記憶する。

さらに、発声用テキストセット作成装置１０００は、入出力インタフェース部１０１を介して、ユーザからテキストセット作成指示と口調指定情報を受信すると（ｓ１０１）、テキストセット作成部２００は、オンライン処理により、Ｘ口調で発声した場合のカバレッジを最大化するテキストセットを作成し（ｓ２００）、入出力インタフェース部１０１を介して、ユーザに出力する。以下各部の処理内容を説明する。

＜入出力インタフェース部１０１＞
入出力インタフェース部１０１は、ユーザからの入力を受け付けると共に、当該ユーザに対して情報を出力する。例えば、データが入力される入力インタフェース（例えばキーボード、マウス等）とデータが出力される出力インタフェース（例えばディスプレイ、プリンタ等）、または、それらの入出力インタフェースに対する入出力端子からなる。また、発声用テキストセット作成装置１０００がネットワーク上のサーバ等であり、ユーザがネットワークを介してアクセスする場合には、入出力インタフェース部１０１は、ユーザとデータを送受信するための通信部等であってもよい。

＜記憶部２０３＞
記憶部２０３は、入出力される各データや演算過程の各データを、逐一、格納・読み出しする。それにより各演算処理が進められる。但し、必ずしも記憶部２０３に記憶しなければならないわけではなく、各部間で直接データを受け渡してもよい。なお、後述する素片分布変換関数ＤＢ２３４、継続長分布変換関数ＤＢ２３６及びＦ０分布変換関数ＤＢ２３８は、記憶部２０３の一部であってもよい。

＜変換関数作成部１００＞
変換関数作成部１００は、例えば、Ｘ口調で人間が発声した自然音声を利用して、朗読口調とＸ口調の差分（音韻列に含まれる音声素片の出現頻度分布の差、音声素片毎の音韻継続時間長の出現頻度分布の差、音声素片毎の基本周波数パタンの出現頻度分布の差）を抽出し、パラメータ分布変換関数を求め、これを記憶部２０３に記憶する。

図３及び図４を用いて変換関数作成部１００を説明する。変換関数作成部１００は、自然音声ＤＢ１１０と、音韻ラベリング部１１１と、第１パラメータ分布抽出部１２０と、パラメータ分布変換関数算出部１３０とを備える。

（自然音声ＤＢ１１０及び音韻ラベリング部１１１）
自然音声ＤＢ１１０は、朗読口調自然音声データとＸ口調自然音声データとを予め記憶しておく。例えば、各自然音声データは、同じテキスト（例えば「旋回する」）を朗読口調とＸ口調で読み上げたものである。なお、Ｘ口調として様々なバリエーションを有してもよく、バリエーション毎に自然音声データを作成し、記憶する。

音韻ラベリング部１１１は、入出力インタフェース部１０１を介して変換関数作成指示を受信すると、自然音声ＤＢ１１０から、朗読口調自然音声データとＸ口調自然音声データとを取得し（ｓ１１０）、各自然音声データに、手動または自動で、音韻ラベル（例えば/seNkaisuru/等）を付与し（ｓ１１１）、取得した各自然音声データとそれに対するラベルデータを素片分布抽出部１２３に出力する。

（第１パラメータ分布抽出部１２０）
第１パラメータ分布抽出部１２０は、所定の文書を朗読口調で読み上げた朗読口調自然音声データと、同一の文書をＸ口調で読み上げたＸ口調自然音声データとからそれぞれ所定のパラメータを求め、それぞれパラメータの分布を抽出する（ｓ１２０）。

例えば、第１パラメータ分布抽出部１２０は、全音声素片バリエーション記憶部１２２と、素片分布抽出部１２３と、継続長分布抽出部１２５と、Ｆ０分布抽出部１２７とを備える。

｛全音声素片バリエーション記憶部１２２及び素片分布抽出部１２３｝
素片分布抽出部１２３は、全音声素片バリエーション記憶部１２２を参照して、それぞれの自然音声データから得られる音声素片に対し音声素片番号を付与し（ｓ１２３ａ）、音声素片の出現頻度の分布（以下「素片分布」という）を抽出する（ｓ１２３ｂ）。

全音声素片バリエーション記憶部１２２には、音声素片（または音声素片から得られる特徴量や音声素片に対応するラベルデータ等）と各音声素片に対する音声素片番号が記憶されている。但し、全音声素片バリエーション記憶部１２２に記憶される音声素片は、開発しようとするテキスト音声合成システムに依存したものになる。

素片分布抽出部１２３は、各自然音声データとラベルデータを受信し、自然音声データから得られる音声素片をキーとして、全音声素片バリエーション記憶部１２２を検索し、各音声素片に対する音声素片番号を取得する。得られた音声素片番号の数（出現頻度）に基づき、全ての音声素片の種類毎の出現頻度を求め、その素片分布を抽出する。素片分布を素片分布変換関数算出部１３３に、各自然音声データとそれに紐付けられた音声素片番号を継続長分布抽出部１２５とＦ０分布抽出部１２７に送信し、継続長分布抽出部１２５にはさらに各自然音声データに付与したラベルデータも送信する。

｛継続長分布抽出部１２５｝
継続長分布抽出部１２５は、ラベルデータと、音声素片番号を受信し、これを用いて、音声素片毎の音韻継続時間長を計算し（ｓ１２５ａ）、音声素片毎の音韻継続時間長の出現頻度の分布（以下「継続長分布」という）を抽出し（ｓ１２５ｂ）、これを継続長分布変換関数算出部１３５に送信する。なお、音韻継続長はベクトルデータとして計算される。例えば、音声素片”ＫＡＳ”の各音韻の継続時間長がそれぞれ、Ｋの長さが１２ｍｓ、Ａの長さが２２ｍｓ、Ｓの長さが１１ｍｓの場合には、ベクトルデータを（１２，２２，１１）とする。但し、他の従来技術により音声素片毎の音韻継続時間長を表してもよい。

｛Ｆ０分布抽出部１２７｝
Ｆ０分布抽出部１２７は、自然音声データと、音声素片番号と、ラベルデータとを受信し、これらを用いて、音声素片毎の基本周波数パタンを抽出し（ｓ１２７ａ）、音声素片毎の基本周波数パタンの出現頻度の分布（以下「Ｆ０分布」という）を抽出し（ｓ１２７ｂ）、Ｆ０分布抽出部１２７に送信する。なお、基本周波数パタンはベクトルデータとして計算される。例えば、音声素片”ＡＳＵ”の各音韻の基本周波数パタンの周波数の平均値がそれぞれ、Ａの平均値が１２０Ｈｚ、Ｓの平均値が０Ｈｚ（Ｓは無声子音であり基本周波数がないため）、Ｕの平均値が２２０Ｈｚの場合には、ベクトルデータを（１２０，０，２２０）とする。但し、基本周波数パタンの指定方法は、この方法以外にも様々なものがあり、他の従来技術により音声素片毎の基本周波数パタンを表してもよい。例えば、音声素片の基本周波数パタンの周波数の平均値と、周波数の分散と、始点の周波数と、終点の周波数からなるベクトルデータを抽出してもよいし、音韻毎に平均値をとるのではなく、基本周波数の時間的変化パタンを３点の折れ線で近似してもよい。

（パラメータ分布変換関数算出部１３０）
パラメータ分布変換関数算出部１３０は、朗読口調の自然音声データから求めたパラメータ分布を、Ｘ口調の自然音声データから求めたパラメータ分布に、変換するパラメータ分布変換関数を算出する（ｓ１３０）。

例えば、パラメータ分布変換関数算出部１３０は、素片分布変換関数算出部１３３と、継続長分布変換関数算出部１３５と、Ｆ０分布変換関数算出部１３７とを備える。

｛素片分布変換関数算出部１３３｝
素片分布変換関数算出部１３３は、各自然音声データから求めた素片分布を受信し、朗読口調の自然音声データから求めた素片分布（図５（ａ−１））を、Ｘ口調の自然音声データから求めた素片分布（図５（ａ−２））に変換する素片分布変換関数を算出し（ｓ１３３）、素片分布変換関数ＤＢ２３４に送信し、登録する。図５の上段は、朗読口調からＸ口調へ素片出現頻度分布を変換する素片分布変換関数ｆのイメージを示している。（ａ−１）及び（ａ−２）の横軸上にＮ個の音声素片番号が左から順番に並べられている。縦軸は出現頻度である。変換関数ｆは、左の分布を右の分布に変換する関数である。これにより、読みの揺れに関する両口調間の差などを変換関数ｆに織り込むことができる。

例えば、音声素片の種類数をＮとするとき、音声素片毎に朗読口調の素片分布｛ｕ_１ｗ，ｕ_２ｗ，…，ｎ_Ｎｗ｝とＸ口調の素片分布｛ｕ_１ｘ，ｕ_２ｘ，…，ｎ_Ｎｘ｝との差分｛ｕ_１ｗ−ｕ_１ｘ，ｕ_２ｗ−ｕ_２ｘ，…，ｎ_Ｎｗ−ｕ_Ｎｘ｝を求め、記憶しておく。後述する素片分布変換部２３３において、素片分布変換関数は、入力される素片分布から、この差分を差し引くことで分布を変換する。また、例えば、素片分布変換関数は、音声素片毎に朗読口調の素片分布とＸ口調の素片分布との比を、入力される素片分布に乗じることで変換してもよい。また他の方法によって、朗読口調の素片分布をＸ口調の素片分布に変換してもよい。なお、素片分布変換関数算出部１３３はＸ口調のバリエーション数分の素片分布変換関数を算出し、素片分布変換関数ＤＢ２３４に送信し、登録する。

｛継続長分布変換関数算出部１３５｝
継続長分布変換関数算出部１３５は、各自然音声データの音声素片毎の継続長分布を受信し、朗読口調の自然音声データから求めた音声素片毎の継続長分布（図５（ｂ−１））を、Ｘ口調の自然音声データから求めた音声素片毎の継続長分布（図５（ｂ−２））に変換する継続長分布変換関数を算出し（ｓ１３５）、継続長分布変換関数ＤＢ２３６に送信し、登録する。よって、継続長分布変換関数ＤＢ２３６には、（Ｘ口調のバリエーション数）×（音声素片の種類数Ｎ）分の継続長分布変換関数が登録されることになる。図５の中段は、朗読口調からＸ口調へ音韻継続時間長の出現頻度分布を変換する継続長分布変換関数のイメージを示している。左側が朗読口調におけるある音声素片iの音韻継続時間長の出現頻度（音韻継続時間長ベクトルのバリエーション数をＭｉとする）、右側がＸ口調におけるある音声素片iの音韻継続時間長の出現頻度を示しており、（ｂ−１）及び（ｂ−２）の横軸上にＭｉ個の音韻継続長ベクトルが左から順番に並べられている。縦軸は出現頻度である。変換関数ｇｉは、左の分布を右の分布に変換する関数である。

例えば、ある音声素片ｉに対する音韻継続時間長ベクトルのバリエーション数をＭｉとするとき、音声素片毎に朗読口調の継続長分布｛ｕ_１ｗ，ｕ_２ｗ，…，ｎ_Ｍｉｗ｝とＸ口調の継続長分布｛ｕ_１ｘ，ｕ_２ｘ，…，ｎ_Ｍｉｘ｝との差分｛ｕ_１ｗ−ｕ_１ｘ，ｕ_２ｗ−ｕ_２ｘ，…，ｎ_Ｍｉｗ−ｕ_Ｍｉｘ｝を求め、記憶しておく。後述する継続長分布変換部２３５において、継続長分布変換関数は、入力される継続長分布から、この差分を差し引くことで分布を変換する。この処理を全ての音声素片に対して行う。また他の方法によって、朗読口調の継続長分布をＸ口調の継続長分布に変換してもよい。後述するＦ０分布変換関数算出部１３７及びＦ０分布変換部２３７についても同様の処理により、Ｆ０分布変換関数を求め、Ｆ０分布を変換することができる。

｛Ｆ０分布変換関数算出部１３７｝
Ｆ０分布変換関数算出部１３７は、各自然音声データの音声素片毎のＦ０分布を受信し、朗読口調の自然音声データから求めた音声素片毎のＦ０分布（図５（ｃ−１））を、Ｘ口調の自然音声データから求めた音声素片毎のＦ０分布（図５（ｃ−２））に変換するＦ０分布変換関数を算出し（ｓ１３７）、Ｆ０分布変換関数ＤＢ２３８に送信し、登録する。Ｆ０分布変換関数ＤＢ２３８には、（Ｘ口調のバリエーション数）×（音声素片の種類数Ｎ）分のＦ０分布変換関数が登録されることになる。図５の下段は、朗読口調からＸ口調へＦ０分布を変換する関数のイメージを示している。左側が朗読口調におけるある音声素片iの基本周波数パタンの出現頻度（基本周波数パタンベクトルのバリエーション数をＬｉとする）、右側がＸ口調におけるある素片iの基本周波数パタンの出現頻度を示しており、（ｃ−１）及び（ｃ−２）の横軸上にＬｉ個の基本周波数パタンベクトルが左から順番に並べられている。縦軸は出現頻度である。変換関数ｈｉは、左の分布を右の分布に変換する関数である。

＜テキストセット作成部２００＞
図６及び図７を用いてテキストセット作成部２００を説明する。テキストセット作成部２００は、発声用テキストセット候補作成部２１０と、大量日本語ＤＢ２１１と、第２パラメータ分布抽出部２２０と、パラメータ分布変換部２３０と、評価部２５０と、終了判定部２６０とを有する。なお、図６中、パラメータ分布変換部２３０と、変換関数ＤＢ２３４、２３６及び２３８とが本発明によって追加される部分であり、その他の部分は従来の技術と同等の繰り返し処理を行ってもよい（例えば非特許文献２）。繰り返し処理には「交換法」や「貪欲アルゴリズム」等があるが、図６及び図７では交換法を例として示している。

（発声用テキストセット候補作成部２１０及び大量日本語ＤＢ２１１）
発声用テキストセット候補作成部２１０は、インタフェース部１０１を介してテキストセット作成指示を受信すると、大量日本語文章ＤＢ２１１から所定数（例えば、５００個）の文章を抽出し、最初の発声用テキストセット候補（以下「Ｔ」という）を作成し（ｓ２１０）、第２パラメータ分布抽出部２２０に送信する。なお、テキストセット作成指示に大量日本語文章ＤＢ２１１から抽出する文章の数を指定する情報（以下「抽出数指定情報」という）を加えてもよい。なお、抽出数指定情報は、ユーザが最初に指定し、入力する値である。

（第２パラメータ分布抽出部２２０）
第２パラメータ分布抽出部２２０は、Ｔを用いて、音声合成プログラムにより音声合成処理を行い、音声合成データから所定のパラメータを求め、求めたパラメータの分布を抽出する（ｓ２２０）。

例えば、第２パラメータ分布抽出部２２０は、音韻列、基本周波数パタン、音韻継続時間長抽出部２２１と、素片分布抽出部２２３と、継続長分布抽出部２２５と、Ｆ０分布抽出部２２７とを備える。

｛音韻列、基本周波数パタン、音韻継続時間長抽出部２２１｝
音韻列、基本周波数パタン、音韻継続時間長抽出部２２１は、発声用テキストセット候補を受信し、これを用いて、音声合成プログラムにより音声合成処理を行い、音声合成データから音韻列、基本周波数パタン及び音韻継続時間長を推定し、これらを抽出して（ｓ２２１）、素片分布抽出部２２３に送信する。

｛素片分布抽出部２２３｝
素片分布抽出部２２３は、音韻列、基本周波数パタン及び音韻継続時間長を受信し、音韻列を用いて各音声素片の出現頻度を求め、素片分布を抽出し（ｓ２２３）、素片分布変換部２３３に送信する。また、音声素片とそれに紐付けられた音韻継続長を継続長分布抽出部２２５に、音声素片とそれに紐付けられた基本周波数パタンをＦ０分布抽出部２２７に送信する。

｛継続長分布抽出部２２５｝
継続長分布抽出部２２５は、素片分布と音声素片毎の音韻継続長を受信し、音声素片毎の音韻継続時間長を求め、その出現頻度から継続長分布を抽出し（ｓ２２５）、継続長分布変換部２３５に送信する。

｛Ｆ０分布抽出部２２７｝
Ｆ０分布抽出部２２７は、素片分布と音声素片毎の基本周波数パタンを受信し、音声素片毎の基本周波数パタンを求め、その出現頻度からＦ０分布を抽出し（ｓ２２７）、Ｆ０分布変換部２３７に送信する。

なお、素片分布抽出部２２３では素片分布を１つ、継続長分布抽出部２２５及びＦ０分布抽出部２２７では音声素片のバリエーション数分のＦ０分布及び継続長分布を抽出する。

（パラメータ分布変換部２３０）
パラメータ分布変換部２３０は、入出力インタフェース部１０１を介して口調指定情報を受信し、口調指定情報に基づき、記憶部２０３からパラメータ分布変換関数を取り出し、そのパラメータ分布変換関数を用いて、音声合成データから求めたパラメータ分布を変換する（ｓ２３０）例えば、パラメータ分布変換部２３０は、素片分布変換部２３３と、継続長分布変換部２３５と、Ｆ０分布変換部２３７とを備える。

｛素片分布変換部２３３｝
素片分布変換部２３３は、口調指定情報と素片分布を受信し、口調指定情報をキーとして、記憶部２０３内の素片分布変換関数ＤＢ２３４を検索し、対応する素片分布変換関数を取り出し、これを用いて、（合成データから求めた）受信した素片分布を変換し（ｓ２３３）、変換後の素片分布を評価部２５０に送信する。

｛継続長分布変換部２３５｝
継続長分布変換部２３５は、口調指定情報と継続長分布を受信し、口調指定情報をキーとして、記憶部２０３内の継続長分布変換関数ＤＢ２３６を検索し、対応する継続長分布変換関数を取り出し、これを用いて、（音声合成データから求めた）受信した継続長分布を変換し（ｓ２３５）、変換後の継続長分布を評価部２５０に送信する。

｛Ｆ０分布変換部２３７｝
Ｆ０分布変換部２３７は、口調指定情報とＦ０分布を受信し、口調指定情報をキーとして、記憶部２０３内のＦ０分布変換関数ＤＢを検索し、対応するＦ０分布変換関数を取り出し、これを用いて、（音声合成データから求めた）受信したＦ０分布を変換し（ｓ２３７）、変換後のＦ０分布を評価部２５０に送信する。

（評価部２５０）
評価部２５０は、変換後のパラメータ分布（素片分布、継続長分布及びＦ０分布）を用いて評価関数を計算し、発声用テキストセット候補を評価し（ｓ２５０）、評価結果を終了判定部２６０を介して発声用テキストセット候補作成部２１０に送信する。例えば、非特許文献２の方法等により評価関数を計算する。

例えば、全ての音声素片の種類をＮ、発声用テキストセット候補中に現れる音声素片の出現頻度を｛ｕ_１，ｕ_２，…，ｎ_Ｎ｝と表し、ｕ_ｉの相対出現頻度をｐ_ｉとする。ｕ_ｉに対応する音韻継続時間長の種類をＮ_ｉ、それぞれの出現頻度を｛ｖ_ｉ１，ｖ_ｉ２，…，ｖ_ｉＮｉ｝と表し、ｖ_ｉｊの相対出現頻度をｑ_ｉｊとする。なお、基本周波数パタンについても、音韻継続時間長と同様の方法により求めることができる。

音声素片ｕ_ｉのカバレッジの達成度を表す指標として、ｒ_ｉを導入する。但し、

であり、ｄ_ｉｊ（Ｔ）は、品質劣化の許容範囲内の変形によってｖ_ｉｊの基本周波数及び音韻継続時間長を実現できるような波形素片が発声用テキストセット候補Ｔに含まれるとき１、そうでないとき０をとる関数とする。

発声用テキストセット候補Ｔに含まれる音声素片のカバレッジの総和は

であり、同一の音声素片に属する音韻継続時間長や基本周波数パタンの間では、音韻継続時間長や基本周波数パタンの出現頻度が高いものほど被覆の良さを測る評価規準への寄与が大きくなる。これを評価関数として用いてもよい。さらに、音素環境の広がりと基本周波数パタン、音声素片継続時間長の広がりの間の重みを調整するメカニズムとして、非線形関数等を導入しても良い（非特許文献２参照）。

（終了判定部２６０）
終了判定部２６０は、終了条件を満たすか否かを判定し（ｓ２６０）、終了判定結果を発声用テキストセット候補作成部２１０に送信する。終了条件とは、例えば、交換を試みた文数が所定の値に達していることや、評価関数の大きさが所定の値以上であること等である。

［繰り返し処理］
発声用テキストセット候補作成部２１０は、評価結果と終了判定結果を受信し、終了判定結果が終了条件を満たすことを意味する場合には（ｓ２６０）、その時点の発声用テキストセット候補を発声用テキストセットとして出力する（ｓ３１５）。終了判定結果が終了条件を満たしていないことを意味する場合には（ｓ２６０）、新たな発声用テキストセット候補を作成し（ｓ２１０）、処理（ｓ２１０〜ｓ２６０）を繰り返す。

なお、新たな発声用テキストセット候補は、大量日本語ＤＢ２１１から任意の１文を取り出し、発声用テキストセット候補中の任意の１文と交換することによって作成してもよい。この場合、任意の１文を交換した発声用テキストセット候補と、交換していない発声用テキストセット候補とを、記憶部２０３に記憶しておき、評価部２５０の評価結果に従って、評価の低い発声用テキストセット候補を削除する構成としてもよい。２週目以降の各処理は、差分のみを処理すればよいため、効率的に処理することができる。

＜プログラム＞
なお、上述した発声用テキストセット作成装置は、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置（実施例で図に示した機能構成をもつ装置）として機能させるためのプログラム、または、その処理手順（実施例で示したもの）の各過程をコンピュータに実行させるためのプログラムを、ＣＤ−ＲＯＭ、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。

＜効果＞
本発明では、Ｘ口調毎に、朗読口調との間に生じ易い発声の差分を予め抽出し、パタン化しておき、その発声差分に応じて音韻列や韻律特徴のカバレッジが最大になるように、発声用テキストセットを補正することで、朗読口調以外の口調で発声した場合でもカバレッジが最大化できるようにする。本発明により作成された発声用テキストセットを用いて、発声者が発声し、その自然音声データに基づいて音声素片ＤＢを構築することで、Ｘ口調における合成音声の劣化を防ぐことができる。

［変形例］
発声用テキストセット１０００は、変換関数作成部１００を有さずともよい。例えば、他の装置で作成した各変換関数を、記憶部２０３に記憶してもよい。

発声用テキストセット１０００は、３つのパラメータ分布（素片分布、継続長分布、Ｆ０分布）を変換対象としているが、少なくとも１つを変換対象とすればよい。推定精度が落ちるが、データ量、計算量を減らすことができる。また、前記の３つのパラメータ分布以外のパラメータ分布を変換対象としてもよい。

実施例１では、非特許文献２記載の方法を用いて、発声用テキストセット候補を評価したが、他の既存技術を用いて評価してもよい。

本発明は、音声合成用音声素片ＤＢを構築する際に、発声者が読み上げるテキストセットを作成する際に利用することができる。本発明の発話用テキストセット作成装置１０００により作成されたテキストセットをＸ口調で発声者が読み上げることで、Ｘ口調における音韻列及び韻律特徴のカバレッジを最大化した音声合成用音声素片ＤＢを構築することができ、そのＤＢを用いることで、Ｘ口調における高品質の合成音声を可能とする。

１０００発声用テキストセット作成装置
１００変換関数作成部
１０１入出力インタフェース部
１１０自然音声ＤＢ
１１１音韻ラベリング部
１２０第１パラメータ分布抽出部
１３０パラメータ分布変換関数算出部
２００テキストセット作成部
２０３記憶部
２１０発話用テキストセット候補作成部
２２０第２パラメータ分布抽出部
２３０パラメータ分布変換部
２３４素片分布変換関数ＤＢ
２３６継続長分布変換関数ＤＢ
２３８Ｆ０分布変換関数ＤＢ
２５０評価部
２６０終了判定部

Claims

音声合成用音声素片ＤＢを構築する際に、発声者が読み上げるテキストセットを作成する発声用テキストセット作成方法であって、
記憶部には、朗読口調の自然音声データから求めたパラメータの分布を、目的とするＸ口調の自然音声データから求めたパラメータの分布に変換するパラメータ分布変換関数が、予め記憶されているものとし、
大量日本語文章ＤＢからランダムに所定数の文章を抽出し、発声用テキストセット候補を作成する発声用テキストセット候補作成ステップと、
前記発声用テキストセット候補を用いて、音声合成プログラムにより音声合成処理を行い、音声合成データから所定のパラメータを求め、求めたパラメータの分布を抽出する第２パラメータ分布抽出ステップと、
前記記憶部から前記パラメータ分布変換関数を取り出し、そのパラメータ分布変換関数を用いて、前記音声合成データから求めたパラメータ分布を変換するパラメータ分布変換ステップと、
変換後のパラメータ分布を用いて前記発声用テキストセット候補を評価する評価ステップと、を有する、
ことを特徴とする発声用テキストセット生成方法。
請求項１記載の発声用テキストセット生成方法であって、
所定の文書を朗読口調で読み上げた朗読口調自然音声データと、同一の文書をＸ口調で読み上げたＸ口調自然音声データとからそれぞれ所定のパラメータを求め、それぞれパラメータの分布を抽出する第１パラメータ分布抽出ステップと、
朗読口調の自然音声データから求めたパラメータ分布を、Ｘ口調の自然音声データから求めたパラメータ分布に、変換するパラメータ分布変換関数を算出するパラメータ分布変換関数算出ステップと、
前記パラメータ分布変換関数を、発声用テキストセット候補を作成する前に、前記記憶部に記憶するステップと、を有する、
ことを特徴とする発声用テキストセット生成方法。
音声合成用音声素片ＤＢを構築する際に、発声者が読み上げるテキストセットを作成する発声用テキストセット作成方法であって、
記憶部には、朗読口調の自然音声データから求めた各音声素片の出現頻度分布、音声素片毎の音韻継続時間長の分布（以下「継続長分布」という）及び音声素片毎の基本周波数の分布（以下「Ｆ０分布」という）を、それぞれ目的とするＸ口調の自然音声データから求めた各音声素片の出現頻度分布、音声素片毎の継続長分布、音声素片毎のＦ０分布に変換する素片分布変換関数、継続長分布変換関数及びＦ０分布変換関数が、予め記憶されているものとし、
大量日本語文章ＤＢからランダムに所定数の文章を抽出し、発声用テキストセット候補を作成する発声用テキストセット候補作成ステップと、
前記発声用テキストセット候補を用いて、音声合成プログラムにより音声合成処理を行い、音声合成データから音韻列、基本周波数パタン及び音韻継続時間長を抽出する音韻列、基本周波数パタン及び音韻継続時間長抽出ステップと、
前記音韻列から各音声素片の出現頻度を求め、素片分布を抽出する第２素片分布抽出ステップと、
音声素片毎の音韻継続時間長を求め継続長分布を抽出し、音声素片毎の基本周波数パタンを求めＦ０分布を抽出する第２音韻継続時間長及びＦ０分布抽出ステップと、
前記記憶部から素片分布変換関数、継続長分布変換関数及びＦ０分布変換関数を取り出し、これらの分布変換関数を用いて、それぞれ前記音声合成データから求めた素片分布、継続長分布及びＦ０分布を変換するパラメータ分布変換ステップと、
変換後の素片分布、継続長分布及びＦ０分布を用いて評価関数を計算し、前記発声用テキストセット候補を評価する評価ステップと、を有する、
ことを特徴とする発声用テキストセット生成方法。
請求項３記載の発声用テキストセット生成方法であって、
所定の文書を朗読口調で読み上げた朗読口調自然音声データと、同一の文書をＸ口調で読み上げたＸ口調自然音声データとに音韻ラベルを付与する音韻ラベリングステップと、
全音声素片バリエーション記憶部を参照して、それぞれの自然音声データから得られる音声素片に対し音声素片番号を付与し、音声素片の出現頻度分布を抽出する第１素片分布抽出ステップと、
音声素片毎の音韻継続時間長を計算し、継続長分布を抽出し、音声素片毎の基本周波数パタンを抽出し、Ｆ０分布を抽出する第１音韻継続時間長及びＦ０分布抽出ステップと、
朗読口調の自然音声データから求めた素片分布、継続長分布及びＦ０分布を、それぞれＸ口調の自然音声データから求めた素片分布、継続長分布及びＦ０分布に変換する素片分布変換関数、継続長分布変換関数及びＦ０分布変換関数を算出するパラメータ分布変換関数算出ステップと、
素片分布変換関数、継続長分布変換関数及びＦ０分布変換関数を、発声用テキストセット候補を作成する前に、前記記憶部に記憶するステップと、を有する、
ことを特徴とする発声用テキストセット生成方法。
音声合成用音声素片ＤＢを構築する際に、発声者が読み上げるテキストセットを作成する発声用テキストセット作成装置であって、
朗読口調の自然音声データから求めたパラメータの分布を、目的とするＸ口調の自然音声データから求めたパラメータの分布に変換するパラメータ分布変換関数を、予め記憶している記憶部と、
大量日本語文章ＤＢからランダムに所定数の文章を抽出し、発声用テキストセット候補を作成する発声用テキストセット候補作成部と、
前記発声用テキストセット候補を用いて、音声合成プログラムにより音声合成処理を行い、音声合成データから所定のパラメータを求め、求めたパラメータの分布を抽出する第２パラメータ分布抽出部と、
前記記憶部から前記パラメータ分布変換関数を取り出し、そのパラメータ分布変換関数を用いて、前記音声合成データから求めたパラメータ分布を変換するパラメータ分布変換部と、
変換後のパラメータ分布を用いて前記発声用テキストセット候補を評価する評価部と、を有する、
ことを特徴とする発声用テキストセット生成装置。
請求項５記載の発声用テキストセット生成装置であって、
所定の文書を朗読口調で読み上げた朗読口調自然音声データと、同一の文書をＸ口調で読み上げたＸ口調自然音声データとからそれぞれ所定のパラメータを求め、それぞれパラメータの分布を抽出する第１パラメータ分布抽出部と、
朗読口調の自然音声データから求めたパラメータ分布を、Ｘ口調の自然音声データから求めたパラメータ分布に、変換するパラメータ分布変換関数を算出するパラメータ分布変換関数算出部と、を有し、
前記記憶部は、前記パラメータ分布変換関数を、発声用テキストセット候補を作成する前に、記憶する、
ことを特徴とする発声用テキストセット生成装置。
音声合成用音声素片ＤＢを構築する際に、発声者が読み上げるテキストセットを作成する発声用テキストセット作成装置であって、
朗読口調の自然音声データから求めた各音声素片の出現頻度分布（以下「素片分布」という）、音声素片毎の音韻継続時間長の出現頻度の分布（以下「継続長分布」という）及び音声素片毎の基本周波数パタンの出現頻度の分布（（以下「Ｆ０分布」という）を、それぞれ目的とするＸ口調の自然音声データから求めた各音声素片の出現頻度分布、音声素片毎の継続長分布、音声素片毎のＦ０分布に変換する素片分布変換関数、継続長分布変換関数及びＦ０分布変換関数が、予め記憶されている記憶部と、
大量日本語文章ＤＢからランダムに所定数の文章を抽出し、発声用テキストセット候補を作成する発声用テキストセット候補作成部と、
前記発声用テキストセット候補を用いて、音声合成プログラムにより音声合成処理を行い、音声合成データから音韻列、基本周波数パタン及び音韻継続時間長を抽出する音韻列、基本周波数パタン及び音韻継続時間長抽出部と、
前記音韻列から各音声素片の出現頻度を求め、素片分布を抽出する第２素片分布抽出部と、
音声素片毎の音韻継続時間長を求め継続長分布を抽出する第２継続長分布抽出部と、
音声素片毎の基本周波数パタンを求めＦ０分布を抽出する第２Ｆ０分布抽出部と、
前記記憶部から素片分布変換関数、継続長分布変換関数及びＦ０分布変換関数を取り出し、これらの分布変換関数を用いて、それぞれ前記音声合成データから求めた素片分布、継続長分布及びＦ０分布を変換するパラメータ分布変換部と、
変換後の素片分布、継続長分布及びＦ０分布を用いて評価関数を計算し、前記発声用テキストセット候補を評価する評価部と、を有する、
ことを特徴とする発声用テキストセット生成装置。
請求項７記載の発声用テキストセット生成装置であって、
所定の文書を朗読口調で読み上げた朗読口調自然音声データと、同一の文書をＸ口調で読み上げたＸ口調自然音声データとに音韻ラベルを付与する音韻ラベリング部と、
全音声素片バリエーション記憶部を参照して、それぞれの自然音声データから得られる音声素片に対し音声素片番号を付与し、素片分布を抽出する第１素片分布抽出部と、
音声素片毎の音韻継続時間長を計算し、継続長分布を抽出する第１継続長分布抽出部と、
音声素片毎の基本周波数パタンを抽出し、Ｆ０分布を抽出する第１Ｆ０分布抽出部と、
朗読口調の自然音声データから求めた素片分布、継続長分布及びＦ０分布を、それぞれＸ口調の自然音声データから求めた素片分布、継続長分布及びＦ０分布に変換する素片分布変換関数、継続長分布変換関数及びＦ０分布変換関数を算出するパラメータ分布変換関数算出部と、を有し、
前記記憶部は、素片分布変換関数、継続長分布変換関数及びＦ０分布変換関数を、発声用テキストセット候補を作成する前に、記憶する、
ことを特徴とする発声用テキストセット生成装置。
コンピュータを請求項５から８の何れかに記載の発声用テキストセット生成装置として機能させるための発声用テキストセット生成プログラム。