JP6479637B2 - Sentence set generation device, sentence set generation method, program - Google Patents
Sentence set generation device, sentence set generation method, program Download PDFInfo
- Publication number
- JP6479637B2 JP6479637B2 JP2015236629A JP2015236629A JP6479637B2 JP 6479637 B2 JP6479637 B2 JP 6479637B2 JP 2015236629 A JP2015236629 A JP 2015236629A JP 2015236629 A JP2015236629 A JP 2015236629A JP 6479637 B2 JP6479637 B2 JP 6479637B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- selection
- learning
- unit
- sentence set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
本発明は、音声合成用モデルの学習に用いる文章を選択する技術に関し、特にモデル適応により変換元となる音声合成用モデルから別の音声合成用モデルを学習する際に用いる文章を選択する技術に関する。 The present invention relates to a technique for selecting a sentence to be used for learning a speech synthesis model, and more particularly to a technique for selecting a sentence to be used when learning another voice synthesis model from a voice synthesis model to be converted by model adaptation. .
コーパスベース音声合成技術では、学習用文章セット(コーパス)を発話した音声から音声合成用モデルを学習し、当該モデルを用いて合成音声を生成する。近年、コーパスベース音声合成技術の一つとして、任意の話者に関する少量の音声データを用いて、事前に学習した音声合成用モデル(変換元モデル)から当該話者の音声合成用モデル(変換後モデル)を生成し、変換後モデルから当該話者の合成音声を生成する手法であるモデル適応技術が提案されている(非特許文献1)。このモデル適応技術は、目標話者の音声を合成するために必要な音声データが少量でよいという特徴を有する。 In the corpus-based speech synthesis technology, a speech synthesis model is learned from speech that utters a learning sentence set (corpus), and synthesized speech is generated using the model. In recent years, as one of the corpus-based speech synthesis technologies, using a small amount of speech data about an arbitrary speaker, the speech synthesis model of the speaker (after conversion) Model adaptation technology, which is a method of generating a model) and generating synthesized speech of the speaker from the converted model has been proposed (Non-patent Document 1). This model adaptation technique has a feature that a small amount of speech data is required to synthesize the speech of the target speaker.
コーパスベース音声合成技術を用いて、できる限り低コストで高品質な合成音声を生成するためには、音韻、韻律などにおいてバランスが取れた学習用文章セットを準備する必要がある。バランスが取れた学習用文章セットを生成するためには、事前に用意する大量の文章の集合(以下、母集団文章セットという)から、音素(monophone、diphone、triphoneなど)、音節、単語といった音韻情報をできるだけ多くカバーするように学習用文章セットを生成する手法(特許文献1)や発話単位に加えてアクセント等も考慮して学習用文章セットを生成する手法(非特許文献2)等が提案されている。 In order to generate a high-quality synthesized speech at as low a cost as possible using a corpus-based speech synthesis technology, it is necessary to prepare a learning sentence set balanced in phonology, prosody and the like. In order to generate a balanced learning sentence set, phonemes such as phonemes (monophone, diphone, triphone, etc.), syllables, words, etc. are prepared from a large set of prepared sentences (hereinafter referred to as a population sentence set). Proposed methods to generate a learning sentence set so as to cover as much information as possible (Patent Document 1), a technique to generate a learning sentence set in consideration of accents in addition to speech units (Non-Patent Document 2), etc. Has been.
これらの文献に記載の手法では、学習用文章セットを発話した音声によりカバーされる対象となる音韻、韻律などの文章選択に用いる要素(以下、文章選択要素という)が膨大とならないように、事前に人手で絞り込む必要がある。例えば、非特許文献2に記載の手法では、音素の連鎖を考慮する際に人手で音素をグルーピングすることで、カバー対象となる文章選択要素を絞り込んでいる。しかし、このような人手での絞り込みは、音声合成用モデルの学習で用いる情報を落としてしまう可能性があり、必ずしも最適な学習用文章セットが生成されているとは限らない。
In the methods described in these documents, elements used for sentence selection such as phonemes and prosody (hereinafter referred to as sentence selection elements) to be covered by the speech uttered from the learning sentence set are prevented in advance. It is necessary to narrow down manually. For example, in the method described in Non-Patent
そこで、変換元モデルを用いて、変換後モデル学習に用いる音声データの元になる学習用文章セットを母集団文章セットから生成することにより、音韻、韻律などの文章選択に用いる要素においてバランスのとれた学習用文章セットを生成する文章セット生成装置を提供することを目的とする。 Therefore, by using the conversion source model, a learning sentence set that is the basis of the speech data used for the model learning after conversion is generated from the population sentence set, so that the elements used for sentence selection such as phonology and prosody can be balanced. An object of the present invention is to provide a sentence set generation device that generates a learning sentence set.
本発明の一態様は、決定木として表現される音声合成用モデルである変換元モデルから別の音声合成用モデルである変換後モデルを学習する際に用いる学習用文章セットを、母集団文章セットの部分集合として生成する文章セット生成装置であって、前記決定木のリーフノード以外の各内部ノードには、文章選択に用いる文章選択要素に関する問いが付与されており、解析後文章記録部に記録した、前記母集団文章セットの選択元文章と前記文章選択要素を用いて表現されるコンテキストの組である解析後文章の集合から、前記決定木と前記コンテキストを用いて前記解析後文章に対応する選択元文章を前記学習用文章セットに追加するか否かを判断することにより、前記学習用文章セットを生成する文章選択部とを有する。 According to one aspect of the present invention, a learning sentence set used when learning a converted model that is another speech synthesis model from a conversion source model that is a speech synthesis model expressed as a decision tree is a population sentence set. Is a sentence set generation device that generates a subset of the above, and each internal node other than the leaf node of the decision tree is given a question regarding a sentence selection element used for sentence selection, and is recorded in a post-analysis sentence recording unit Corresponding to the post-analysis text using the decision tree and the context from the set of post-analysis text that is a set of contexts expressed using the source text of the population text set and the text selection element A sentence selection unit that generates the learning sentence set by determining whether or not to add a selection source sentence to the learning sentence set.
本発明によれば、変換元モデルを用いて母集団文章セットから学習用文章セットを生成することにより、音韻、韻律などの文章選択に用いる要素においてバランスのとれた学習用文章セットを生成することが可能となる。 According to the present invention, by generating a learning sentence set from a population sentence set using a conversion source model, a learning sentence set balanced in elements used for sentence selection such as phonemes and prosody is generated. Is possible.
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。 Hereinafter, embodiments of the present invention will be described in detail. In addition, the same number is attached | subjected to the structure part which has the same function, and duplication description is abbreviate | omitted.
まず、図1を参照してモデル適応技術の概略について説明する。モデル適応では、変換元モデル学習用音声データから変換元モデルを学習する処理(変換元モデル学習処理)、変換後モデル学習用音声データを用いて変換元モデルを変換後モデルに変換する処理(変換後モデル学習処理)が行われる。変換後モデル学習用音声データは、学習用文章セットの文章を発話した音声であり、この学習用文章セットの文章は母集団文章セットから選択される。この選択処理を行う(つまり、学習用文章セットを生成する)のが、本願発明の文章セット生成装置である。 First, an outline of the model adaptation technique will be described with reference to FIG. In model adaptation, the process of learning the conversion source model from the conversion model learning speech data (conversion source model learning process), and the process of converting the conversion source model into the converted model using the converted model learning speech data (conversion Post model learning processing) is performed. The post-conversion model learning speech data is speech that utters a sentence in the learning sentence set, and the sentence in the learning sentence set is selected from the population sentence set. The sentence set generation device of the present invention performs this selection process (that is, generates a learning sentence set).
次に、いくつかの用語について定義・説明を与える。音声合成用モデルとは、音声合成の際に必要となる音声の特徴量(例えば、基本周波数(F0)などの音高パラメータ、ケプストラムやメルケプストラムなどのスペクトルパラメータ)、継続時間長を音声合成単位ごとに統計的にモデル化したものである。音声合成単位の例として、音素、音節、単語などがある。 Next, definitions and explanations are given for some terms. A voice synthesis model is a voice synthesis unit that includes voice feature values (eg, pitch parameters such as fundamental frequency (F0), spectrum parameters such as cepstrum and mel cepstrum), and duration length required for voice synthesis. Each is a statistical model. Examples of speech synthesis units include phonemes, syllables, and words.
本願発明では音声合成用モデルの中でも決定木構造を持つモデルを扱う。決定木構造を持つモデルとして代表的なものにHMM(Hidden Markov Model)音声合成(参考非特許文献3)がある。HMM音声合成では、パラメータごとに音声合成用モデルが決定木で表現される。その例として、スペクトルパラメータ、音高パラメータ、継続時間長の3つのパラメータを用いたHMM音声合成モデルの二分決定木を図2に示す。決定木の表現に用いられている情報は変換元モデルの学習に用いた情報であり、文章選択に用いる文章選択要素となるものである。決定木は文章選択要素を用いて表現される木である。具体的には、リーフノード以外の内部ノードには文章選択要素に関する問いが付与されており、YES(該当する)、NO(該当しない)の判断に従い、次の深さのノード(内部ノードまたはリーフノード)に進むような決定木となっている。
(参考非特許文献3)益子貴史、徳田恵一、小林隆夫、今井聖、“動的特徴を用いたHMMに基づく音声合成”、電子情報通信学会論文誌、電子情報通信学会、1996年12月、Vol.J79-D-II No.12 pp.2184-2190.
In the present invention, a model having a decision tree structure is handled among the speech synthesis models. A typical model having a decision tree structure is HMM (Hidden Markov Model) speech synthesis (Reference Non-Patent Document 3). In HMM speech synthesis, a speech synthesis model is represented by a decision tree for each parameter. As an example, FIG. 2 shows a binary decision tree of an HMM speech synthesis model using three parameters: a spectrum parameter, a pitch parameter, and a duration length. The information used for the representation of the decision tree is information used for learning the conversion source model and serves as a sentence selection element used for sentence selection. A decision tree is a tree expressed using sentence selection elements. Specifically, the internal node other than the leaf node is given a question regarding the sentence selection element, and the node (internal node or leaf) of the next depth is determined according to the determination of YES (applicable) or NO (not applicable). Node).
(Reference Non-Patent Document 3) Takashi Masuko, Keiichi Tokuda, Takao Kobayashi, Kiyoshi Imai, “HMM-based speech synthesis using dynamic features”, IEICE Transactions, IEICE, December 1996, Vol.J79-D-II No.12 pp.2184-2190.
以下、図3、図4を参照して実施例1の文章セット生成装置100について説明する。図3は、実施例1の文章セット生成装置100の構成を示すブロック図である。図4は、実施例1の文章セット生成装置100の動作を示すフローチャートである。図3に示すように文章セット生成装置100は、文章選択用情報テーブル作成部110と、文章選択用情報テーブル記録部103と、テキスト解析部120と、解析後文章記録部104と、文章選択部130を含む。文章セット生成装置100は、変換元モデル記録部101、選択元文章記録部102と接続している。
Hereinafter, the sentence set generation apparatus 100 according to the first embodiment will be described with reference to FIGS. 3 and 4. FIG. 3 is a block diagram illustrating a configuration of the sentence set generation device 100 according to the first embodiment. FIG. 4 is a flowchart illustrating the operation of the sentence set generation apparatus 100 according to the first embodiment. As shown in FIG. 3, the sentence set generation device 100 includes a sentence selection information
変換元モデル記録部101には、モデル適応の変換元モデル学習処理で学習した変換元モデルを記録しておく。選択元文章記録部102には、母集団文章セットの要素である選択元文章を記録しておく。
The conversion source
文章選択用情報テーブル作成部110は、決定木で表現された変換元モデルから文章選択用情報テーブルを作成し、初期化する(S110)。文章選択用情報テーブルは、各パラメータの決定木に対応して作成される。例えば、スペクトルパラメータ、音高パラメータ、継続時間長の3つのパラメータを用いた音声合成用モデルでは、3つの決定木(図2参照)から3つの文章選択用情報テーブル(図5参照)が作成される。スペクトルパラメータ、音高パラメータ、継続時間長の決定木のリーフノード数をNsp、NF0、Ndurとし、リーフノードが1〜Nsp、1〜NF0、1〜Ndurで識別されるとすると、スペクトルパラメータ、音高パラメータ、継続時間長の文章選択用情報テーブルはリーフノード1〜Nsp、リーフノード1〜NF0、リーフノード1〜Ndurの選択頻度を保持するテーブルとなる。選択頻度は選択元文章を処理する過程でそのリーフノードが選択された回数を表すが、詳細については文章選択部130で説明する。文章選択用情報テーブル作成部110では、各テーブルの各リーフノードの選択頻度の値を0で初期化する。
The text selection information
当該文章選択用情報テーブルは、文章選択用情報テーブル記録部103に記録する。文章選択用情報テーブル記録部103は、RAM、ハードディスクなど一時的な記録媒体、永続的な記録媒体のいずれであってもよい。
The sentence selection information table is recorded in the sentence selection information
テキスト解析部120は、母集団文章セットの各選択元文章に対して、読み、アクセントなどの情報を付与した後、読み、アクセント、形態素などの文章選択要素を用いて表現されるコンテキストを音声合成単位ごとに付与した文章である解析後文章を生成する(S120)。つまり、解析後文章とは、選択元文章と1以上のコンテキストの組である。また、コンテキストは、文章選択部130による処理に必要な情報であり、決定木構造をたどるために用いられる。コンテキストは、例えば、図6のコンテキストラベルを用いて表現することができる(参考非特許文献4)。
(参考非特許文献4)吉岡元貴、田村正統、益子貴史、小林隆夫、徳田恵一、“HMM音声合成における韻律の変動要因の検討”、電子情報通信学会技術研究報告.SP,音声、電子情報通信学会、2001年10月、Vol.101, No.352, pp.51-56.
The
(Reference Non-Patent Document 4) Mototaka Yoshioka, Masanori Tamura, Takashi Masuko, Takao Kobayashi, Keiichi Tokuda, “Examination of variation factors of prosody in HMM speech synthesis”, IEICE technical report. SP, Voice, IEICE, October 2001, Vol. 101, No. 352, pp. 51-56.
したがって、(読み、アクセント、形態素などの)コンテキストの表現に用いる文章選択要素の種類は、決定木の表現に用いられているものと同一である必要がある。例えば、変換元モデルの学習に読みとアクセントを使用した場合は、テキスト解析部120で得られるコンテキストは読みとアクセントのみでよい。
Therefore, the types of sentence selection elements used for expressing the context (such as reading, accent, and morpheme) need to be the same as those used for expressing the decision tree. For example, when reading and accent are used for learning the conversion source model, the context obtained by the
当該解析後文章は、解析後文章記録部104に記録する。解析後文章記録部104は、文章選択用情報テーブル記録部103と同様、RAM、ハードディスクなど一時的な記録媒体、永続的な記録媒体のいずれであってもよい。
The analyzed sentence is recorded in the analyzed
また、コンテキストは何らかのテキスト解析手法により付与されるものとする。なお、テキスト解析する代わりに事前に人手で付与しておいてもよい。この場合、テキスト解析部120は不要である。文章セット生成装置100はテキスト解析部120を有さない構成となり、選択元文章記録部102と接続する代わりに母集団文章セットの選択元文章を解析した解析後文章を記録した解析後文章記録部104と接続することになる。このときの解析後文章記録部104は永続的な記録媒体を用いて構成されることになる。
The context is given by some text analysis method. Instead of text analysis, it may be given manually in advance. In this case, the
文章選択部130は、変換元モデルの決定木を用いて、解析後文章の集合から学習用文章セットを生成する(S130)。以下、図7、図8を参照して文章選択部130の処理について詳細に説明する。図7は、文章選択部130の構成を示すブロック図である。図8は、文選択部130の動作を示すフローチャートである。図7に示すように文章選択部130は、リーフノード決定部131と、スコア計算部132と、最高スコア文章選択部133と、文章選択用情報テーブル更新部134と、終了判定部135を含む。
The
母集団文章セットに含まれる選択元文章の数をSとして、選択元文章をB1、B2、…、BSで表す。また、選択元文章Bi(i=1,2,…,S)をテキスト解析部120が処理した結果である解析後文章をAiで表す。解析後文章をAiに含まれるコンテキストの数(つまり、音声合成単位の数)をk(i)とし、コンテキストをCj(j=1,…,k(i))で表すことにすると、Ai=(Bi,C1,…,Ck(i))と表すことができる。各コンテキストCjには文章選択要素の種類数の情報が含まれる。例えば、図6のコンテキストラベルには、音素、形態素、アクセント句の3種類の文章選択要素が含まれている。
The number of selection source sentences included in the population sentence set is S, and the selection source sentences are represented by B 1 , B 2 ,..., B S. A post-analysis sentence that is a result of processing the selection source sentence B i (i = 1, 2,..., S) by the
リーフノード決定部131は、母集団文章セットの選択元文章Bi(i=1,2,…,S、ただし、すでに学習用文章セットの要素となっている文章(以下、このすでに学習用文章セットの要素となっている文章の集合のことを生成済み学習用文章セットという)を除く)に対応する解析後文章Aiに含まれるコンテキストCj(j=1,…,k(i))について、各パラメータの決定木をたどり、コンテキストCjに対応するリーフノードを決定する(S131)。あわせて当該リーフノードの選択頻度を1増加させることで文章選択用情報テーブルを更新する。決定木をたどるとは、コンテキストを表現するために用いられている文章選択要素を用いて、内部ノードに付与されている問いに対してYES−NOを判断し、ルートからリーフノードに向かって進んでいくことをいう。なお、ルートからリーフノードに至るまでの判断結果のノードの列をパスといい、パスに含まれる内部ノード、リーフノードのことをカバーされる内部ノード、リーフノードという。
The leaf
スコア計算部132は、S131で更新した文章選択用情報テーブル(つまり、生成済み学習用文章セットに選択元文章Biを追加した集合に対応する文章選択用情報テーブル)を用いて、スコアSCiを算出する(S132)。なお、生成済み学習用文章セットは最初のS131の処理が始まるまでに空集合で初期化されているものとする。
The
文章選択におけるスコアの代表的なものとして、カバー率(特許文献1)、エントロピー(非特許文献2)がある。以下では、スコアにカバー率を採用して説明する。文章選択におけるカバー率とは、選択された1以上の文章により(音素環境などの)文章選択要素がどれだけカバーされているかを示す指標である。本実施例では、決定木のリーフノードを用いてカバー率を算出する。リーフノードを用いたカバー率の計算式は次式により表される。 Typical scores for sentence selection include a coverage rate (Patent Document 1) and entropy (Non-Patent Document 2). In the following description, the cover rate is adopted for the score. The coverage in sentence selection is an index indicating how much a sentence selection element (such as phoneme environment) is covered by one or more selected sentences. In this embodiment, the coverage rate is calculated using the leaf nodes of the decision tree. The formula for calculating the coverage using leaf nodes is expressed by the following formula.
ここで、Nsp、NF0、Ndurはスペクトルパラメータ、音高パラメータ、継続時間長の決定木のリーフノード数である。また、関数osp(k)、oF0(k)、odur(k)は、スペクトルパラメータ、音高パラメータ、継続時間長の決定木のk番目のリーフノードがカバー(選択)されているかどうかを出力する関数である。これらの関数は当該リーフノードの選択頻度が1以上であれば1を、0であれば0を出力する。これにより、学習用文章セット(S131とS132の繰り返し処理の過程では、生成済み学習用文章セットに選択元文章Biを追加した集合)に含まれる文章を用いて3つの決定木に含まれるリーフノードが選択される割合を示すことができる。
Here, N sp , N F0 , and N dur are the number of leaf nodes in the decision tree for the spectrum parameter, pitch parameter, and duration. Also, the functions o sp (k), o F0 (k), and o dur (k) indicate whether or not the k-th leaf node of the decision tree of the spectrum parameter, pitch parameter, and duration is covered (selected). Is a function that outputs These
スコアを算出した後、S131で更新した文章選択用情報テーブルを更新前の文章選択用情報テーブルに戻す。ただし、S131で更新した文章選択用情報テーブルの情報は文章選択用情報テーブル更新部134で用いるので、元に戻す際に当該情報は文章選択用情報テーブル更新部134が後ほど利用できるよう、コピーするなどして退避しておく。リーフノード決定部131での処理(S131)及びスコア計算部132での処理(S132)を母集団文章セットの選択元文章B1、B2、…、BS(ただし、生成済み学習用文章セットに含まれるものを除く)に対して実行する。
After the score is calculated, the text selection information table updated in S131 is returned to the text selection information table before update. However, since the information in the text selection information
最高スコア文章選択部133は、スコア計算部132が計算したSC1、SC2、…、SCS(ただし、生成済み学習用文章セットの文章に対応するものを除く)のうち、最も高くなるスコア(最高スコア)に対応する選択元文章Bkを選択し、生成済み学習用文章セットに追加する(S133)。
Highest score
文章選択用情報テーブル更新部134は、リーフノード決定部131が選択元文章Bkを処理した際に生成した文章選択用情報テーブルの情報により、文章選択用情報テーブルを更新する(S134)。
Text selection information
終了判定部135は、終了条件を満たしているかどうかの判定を行い、満たしている場合、生成済み学習用文章セットを学習用文章セットとして出力する(S135)。終了条件としては、選択された文章数が所定値に達したか(例えば、生成済み学習用文章セットの濃度が|S|/2を超えたか)、S133で計算した最高スコアが所定値に達したか(例えば、最高スコアが0.8を超えたか)などがある。また、これらの組合せであってもよい。なお、最高スコアが所定値に達することがなかったために、すべての選択元文章を生成済み学習用文章セットに追加することもありえる。
The
変換元モデルの決定木を利用して学習用文章セットを生成するための基準となる(音素、アクセント等の)文章選択要素をモデル適応の過程において動的に設定することにより、文章選択要素においてバランスのとれた学習用文章セットを生成することが可能となる。また、その結果、当該学習用文章セットと同程度の文章量の文章セットを発話した音声データに基づいて生成する合成音声に比して、合成音声の品質が向上する。 By dynamically setting the text selection elements (phonemes, accents, etc.) that are the basis for generating the learning text set using the decision tree of the conversion source model, A well-balanced learning sentence set can be generated. As a result, the quality of the synthesized speech is improved as compared to synthesized speech generated based on speech data in which a sentence set having the same amount of text as the learning sentence set is uttered.
実施例1では、スコア計算時に各パラメータのリーフノードを同等に扱っているため、ある特定のパラメータを重視して文章選択を行うことができない。そこで、実施例2では、パラメータに重みづけをしてスコアを計算する。これにより、文章選択の基準として特定のパラメータを重視した形で学習用文章セットを生成することが可能となる。 In Example 1, since the leaf node of each parameter is handled equally at the time of score calculation, it is not possible to select a sentence with an emphasis on a specific parameter. Therefore, in the second embodiment, the score is calculated by weighting the parameters. As a result, a learning sentence set can be generated in a form that emphasizes a specific parameter as a reference for sentence selection.
以下に、実施例1と相違するスコア計算部132の計算式について説明する。スコア計算部132は、次式のようにパラメータごとのサブスコアを算出し、それらの重み付き和としてスコアSCiを計算する(S132)。
Below, the calculation formula of the
ここで、wsp、wF0 、wdurはスペクトルパラメータ、音高パラメータ、継続時間長の各パラメータの重みである。 Here, w sp , w F0 , and w dur are weights of the parameters of the spectrum parameter, pitch parameter, and duration time.
この重みを調整することで、特定のパラメータを重視した文章選択が可能になる。 By adjusting this weight, it becomes possible to select a sentence with an emphasis on a specific parameter.
実施例1及び2では、スコア計算時にリーフノードの情報しか利用しない。相対的には深さが深い位置にあるリーフノードの方が多いため、リーフノードを用いて文章を選択してしまうと、学習用文章セットに偏りが出てしまい、その結果バランスよく適切な文章が選択されない可能性がある。そこで、実施例3では、リーフノードだけでなく、内部ノードも活用してスコア計算を行うこととする。これにより、全体のバランスを考慮した文章選択を行うことが可能となる。 In the first and second embodiments, only leaf node information is used at the time of score calculation. Since there are more leaf nodes at relatively deep positions, if you select a sentence using the leaf nodes, the learning sentence set will be biased, and as a result, an appropriate sentence with a good balance May not be selected. Thus, in the third embodiment, score calculation is performed using not only leaf nodes but also internal nodes. Thereby, it becomes possible to perform sentence selection in consideration of the overall balance.
以下、図9、図10を参照して実施例3の文章セット生成装置300について説明する。図9は、実施例3の文章セット生成装置300の構成を示すブロック図である。図10は、実施例3の文章セット生成装置300の動作を示すフローチャートである。図9に示すように文章セット生成装置300は、文章選択用情報テーブル作成部310と、文章選択用情報テーブル記録部103と、テキスト解析部120と、文章選択部330を含む。文章セット生成装置300は、変換元モデル記録部101、選択元文章記録部102と接続している。
Hereinafter, the sentence set generation apparatus 300 according to the third embodiment will be described with reference to FIGS. 9 and 10. FIG. 9 is a block diagram illustrating a configuration of the sentence set generation device 300 according to the third embodiment. FIG. 10 is a flowchart illustrating the operation of the sentence set generation apparatus 300 according to the third embodiment. As shown in FIG. 9, the sentence set generation device 300 includes a sentence selection information
実施例1と相違するのは、文章選択用情報テーブル作成部310、文章選択部330である。
The difference from the first embodiment is a text selection information
文章選択用情報テーブル作成部310は、決定木で表現された変換元モデルから文章選択用情報テーブルを作成し、初期化する(S310)。ここで作成される文章選択用情報テーブルを図11に示す。3つのパラメータ(スペクトルパラメータ、音高パラメータ、継続時間長)について、テーブルが作成される点では実施例1と同じであるが、リーフノードでなく、決定木の深さごとにレコードが作成される点で相違する。スペクトルパラメータの決定木の深さをDsp、深さ1のノード数をNsp、1、深さ2のノード数をNsp、2、…、深さDspのノード数をNsp、Dspとし、深さ1のノードが1〜Nsp、1、深さ2のノードが1〜Nsp、2、…、深さDspのノードが1〜Nsp、Dspで識別されるとすると、スペクトルパラメータの文章選択用情報テーブルは深さ1のノード1〜Nsp、1、深さ2のノード1〜Nsp、2、…、深さDspのノード1〜Nsp、Dspでの選択頻度を保持するテーブルとなる。音高パラメータの文章選択用情報テーブル、継続時間長の文章選択用情報テーブルも同様である。ただし、音高パラメータの決定木の深さをDF0、深さ1のノード数をNF0、1、深さ2のノード数をNF0、2、…、深さDF0のノード数をNF0、DF0とする。また、継続時間長の決定木の深さをDdur、深さ1のノード数をNdur、1、深さ2のノード数をNdur、2、…、深さDdurのノード数をNdur、Ddurとする。文章選択用情報テーブル作成部310では、実施例1同様、各テーブルの各ノードの選択頻度の値を0で初期化する。
The text selection information
文章選択部330は、変換元モデルの決定木を用いて、解析後文章の集合から学習用文章セットを生成する(S330)。以下、図12、図13を参照して文章選択部330の処理について詳細に説明する。図12は、文章選択部330の構成を示すブロック図である。図13は、文選択部330の動作を示すフローチャートである。図12に示すように文章選択部330は、ノード決定部331と、スコア計算部332と、最高スコア文章選択部133と、文章選択用情報テーブル更新部134と、終了判定部135を含む。
The
ノード決定部331は、母集団文章セットの選択元文章Bi(i=1,2,…,S、ただし、生成済み学習用文章セットの文章を除く)に対応する解析後文章Aiに含まれるコンテキストCj(j=1,…,k(i))について、各パラメータの決定木をたどり、ルートからリーフノードに至るまでのパスに含まれる内部ノード、リーフノードを決定する(S331)。あわせて当該ノードの選択頻度を1増加させることで文章選択用情報テーブルを更新する。
The
スコア計算部332は、S331で更新した文章選択用情報テーブル(つまり、生成済み学習用文章セットに選択元文章Biを追加した集合に対応する文章選択用情報テーブル)を用いて、スコアSCiを算出する(S332)。なお、生成済み学習用文章セットは最初のS331の処理が始まるまでに空集合で初期化されているのは、実施例1と同様である。
The
スコアSCiは、各決定木の内部ノードとリーフノードを用いたサブスコアの重み付き和として計算される。 The score SC i is calculated as a weighted sum of subscores using the internal nodes and leaf nodes of each decision tree.
ここで、SCsp,i、SCF0,i、SCdur,iはスペクトルパラメータ、音高パラメータ、継続時間長のサブスコアである。Nsp,d、NF0,d、Ndur,dはスペクトルパラメータ、音高パラメータ、継続時間長の決定木の深さdのノード数である。また、関数osp,d(k)、oF0,d(k)、odur,d(k)は、各パラメータの決定木の深さdのk番目のノードがカバー(選択)されているかどうかを出力する関数である。この関数は当該ノードの選択頻度が1以上であれば1を、0であれば0を出力する。wsp,d、wF0,d、wdur,dは、各パラメータの決定木の深さdの重みを示す。これにより、各パラメータの決定木のノードのうち、どれだけの割合を選択できているか示すことができる。最後に、wsp、wF0、wdurを各パラメータの重みとし、上記サブスコアを用いてSCiを計算する。 Here, SC sp, i , SC F0, i , and SC dur, i are sub-scores of spectrum parameters, pitch parameters, and duration lengths. N sp, d , N F0, d , and N dur, d are the number of nodes of the depth d of the decision tree of the spectrum parameter, pitch parameter, and duration length. The functions o sp, d (k), o F0, d (k), and o dur, d (k) indicate whether the k-th node of the decision tree depth d of each parameter is covered (selected). This function outputs whether or not. This function outputs 1 if the node selection frequency is 1 or more, and 0 if it is 0. w sp, d , w F0, d , and w dur, d indicate the weights of the depth d of the decision tree of each parameter. As a result, it is possible to indicate how much of the decision tree nodes for each parameter can be selected. Finally, w sp , w F0 , and w dur are used as the weight of each parameter, and SC i is calculated using the subscore.
スコア計算方法を内部ノードも含めたカバー率とすることにより、スコア計算時に内部ノードの選択頻度を考慮したうえで文章選択をすることが可能になる。これにより、一部の部分木のみに偏って文章が選択されてしまうことを避けることが可能になる。その結果、文章選択のための要素がバランスよく選択されるため、実施例1よりも合成音声の品質が向上する。 By setting the score calculation method to the coverage rate including the internal nodes, it becomes possible to select a sentence in consideration of the selection frequency of the internal nodes when calculating the score. As a result, it is possible to avoid selecting a sentence biased toward only a part of the partial tree. As a result, the elements for sentence selection are selected in a balanced manner, so that the quality of the synthesized speech is improved as compared with the first embodiment.
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
<Supplementary note>
The apparatus of the present invention includes, for example, a single hardware entity as an input unit to which a keyboard or the like can be connected, an output unit to which a liquid crystal display or the like can be connected, and a communication device (for example, a communication cable) capable of communicating outside the hardware entity Can be connected to a communication unit, a CPU (Central Processing Unit, may include a cache memory or a register), a RAM or ROM that is a memory, an external storage device that is a hard disk, and an input unit, an output unit, or a communication unit thereof , A CPU, a RAM, a ROM, and a bus connected so that data can be exchanged between the external storage devices. If necessary, the hardware entity may be provided with a device (drive) that can read and write a recording medium such as a CD-ROM. A physical entity having such hardware resources includes a general-purpose computer.
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。 The external storage device of the hardware entity stores a program necessary for realizing the above functions and data necessary for processing the program (not limited to the external storage device, for example, reading a program) It may be stored in a ROM that is a dedicated storage device). Data obtained by the processing of these programs is appropriately stored in a RAM or an external storage device.
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。 In the hardware entity, each program stored in an external storage device (or ROM or the like) and data necessary for processing each program are read into a memory as necessary, and are interpreted and executed by a CPU as appropriate. . As a result, the CPU realizes a predetermined function (respective component requirements expressed as the above-described unit, unit, etc.).
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。 The present invention is not limited to the above-described embodiment, and can be appropriately changed without departing from the spirit of the present invention. In addition, the processing described in the above embodiment may be executed not only in time series according to the order of description but also in parallel or individually as required by the processing capability of the apparatus that executes the processing. .
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。 As described above, when the processing functions in the hardware entity (the apparatus of the present invention) described in the above embodiments are realized by a computer, the processing contents of the functions that the hardware entity should have are described by a program. Then, by executing this program on a computer, the processing functions in the hardware entity are realized on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。 The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used. Specifically, for example, as a magnetic recording device, a hard disk device, a flexible disk, a magnetic tape or the like, and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only). Memory), CD-R (Recordable) / RW (ReWritable), etc., magneto-optical recording medium, MO (Magneto-Optical disc), etc., semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. Can be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。 A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, the computer reads a program stored in its own recording medium and executes a process according to the read program. As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 In this embodiment, a hardware entity is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.
Claims (5)
前記決定木のリーフノード以外の各内部ノードには、文章選択に用いる文章選択要素に関する問いが付与されており、
解析後文章記録部に記録した、前記母集団文章セットの選択元文章と前記文章選択要素を用いて表現されるコンテキストの組である解析後文章の集合から、前記決定木と前記コンテキストを用いて前記解析後文章に対応する選択元文章を前記学習用文章セットに追加するか否かを判断することにより、前記学習用文章セットを生成する文章選択部と
を有する文章セット生成装置。 A sentence that generates a learning sentence set as a subset of the population sentence set used when learning a converted model that is another speech synthesis model from a conversion source model that is a speech synthesis model expressed as a decision tree A set generator,
Each internal node other than the leaf node of the decision tree is given a question regarding a sentence selection element used for sentence selection,
From the set of post-analysis sentences recorded in the post-analysis sentence recording unit, which is a set of contexts expressed using the selection source sentence of the population sentence set and the sentence selection element, using the decision tree and the context A sentence set generation device comprising: a sentence selection unit that generates the learning sentence set by determining whether or not to add a selection source sentence corresponding to the analyzed sentence to the learning sentence set.
前記文章選択部は、
前記解析後文章に対して、当該解析後文章のコンテキストごとに前記決定木をたどることによりカバーされるリーフノードを決定するリーフノード決定部と、
生成済み学習用文章セットの文章と前記解析後文章によりカバーされるリーフノードの数を用いて前記解析後文章のスコアを計算するスコア計算部と、
前記スコアが最高になる前記解析後文章に対応する選択元文章を前記生成済み学習用文章セットに追加することにより、前記生成済み学習用文章セットを更新する最高スコア文章選択部と、
終了条件を満たしている場合、前記生成済み学習用文章セットを前記学習用文章セットとして出力する終了判定部と
を有する文章セット生成装置。 The sentence set generation device according to claim 1,
The sentence selection unit
For the analyzed sentence, a leaf node determination unit that determines a leaf node that is covered by following the decision tree for each context of the analyzed sentence;
A score calculation unit that calculates the score of the analyzed sentence using the sentences of the generated learning sentence set and the number of leaf nodes covered by the analyzed sentence;
A highest score sentence selection unit for updating the generated learning sentence set by adding a selection source sentence corresponding to the analyzed sentence having the highest score to the generated learning sentence set;
A sentence set generation device comprising: an end determination unit that outputs the generated learning sentence set as the learning sentence set when an end condition is satisfied.
前記文章選択部は、
前記解析後文章に対して、当該解析後文章のコンテキストごとに前記決定木をたどることによりカバーされる内部ノードとリーフノードを決定するノード決定部と、
生成済み学習用文章セットの文章と前記解析後文章によりカバーされる内部ノードとリーフノードに基づいて算出される数を用いて前記解析後文章のスコアを計算するスコア計算部と、
前記スコアが最高になる前記解析後文章に対応する選択元文章を前記生成済み学習用文章セットに追加することにより、前記生成済み学習用文章セットを更新する最高スコア文章選択部と、
終了条件を満たしている場合、前記生成済み学習用文章セットを前記学習用文章セットとして出力する終了判定部と
を有する文章セット生成装置。 The sentence set generation device according to claim 1,
The sentence selection unit
For the analyzed sentence, a node determination unit that determines an internal node and a leaf node that are covered by following the decision tree for each context of the analyzed sentence,
A score calculation unit that calculates a score of the analyzed sentence using a number calculated based on a sentence of the generated learning sentence set, an internal node covered by the analyzed sentence, and a leaf node;
A highest score sentence selection unit for updating the generated learning sentence set by adding a selection source sentence corresponding to the analyzed sentence having the highest score to the generated learning sentence set;
A sentence set generation device comprising: an end determination unit that outputs the generated learning sentence set as the learning sentence set when an end condition is satisfied.
前記決定木のリーフノード以外の各内部ノードには、文章選択に用いる文章選択要素に関する問いが付与されており、
前記文章セット生成装置が備える解析後文章記録部に記録した、前記母集団文章セットの選択元文章と前記文章選択要素を用いて表現されるコンテキストの組である解析後文章の集合から、前記決定木と前記コンテキストを用いて前記解析後文章に対応する選択元文章を前記学習用文章セットに追加するか否かを判断することにより、前記学習用文章セットを生成する文章選択ステップと
を実行する文章セット生成方法。 The learning sentence set used when the sentence set generating device learns a converted model that is another speech synthesis model from a conversion source model that is a speech synthesis model expressed as a decision tree, A sentence set generation method for generating as a subset,
Each internal node other than the leaf node of the decision tree is given a question regarding a sentence selection element used for sentence selection,
The determination is made from a set of post-analysis texts, which is a set of contexts expressed using the source text of the population text set and the text selection elements, recorded in the post-analysis text recording unit included in the text set generation device. Executing a sentence selection step of generating the learning sentence set by determining whether or not to add a selection source sentence corresponding to the analyzed sentence to the learning sentence set using the tree and the context Sentence set generation method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015236629A JP6479637B2 (en) | 2015-12-03 | 2015-12-03 | Sentence set generation device, sentence set generation method, program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015236629A JP6479637B2 (en) | 2015-12-03 | 2015-12-03 | Sentence set generation device, sentence set generation method, program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017102328A JP2017102328A (en) | 2017-06-08 |
JP6479637B2 true JP6479637B2 (en) | 2019-03-06 |
Family
ID=59017208
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015236629A Active JP6479637B2 (en) | 2015-12-03 | 2015-12-03 | Sentence set generation device, sentence set generation method, program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6479637B2 (en) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3981619B2 (en) * | 2002-10-15 | 2007-09-26 | 日本電信電話株式会社 | Recording list acquisition device, speech segment database creation device, and device program thereof |
JP3960928B2 (en) * | 2003-02-14 | 2007-08-15 | 日本電信電話株式会社 | Text selection method, apparatus and program |
JP2004251953A (en) * | 2003-02-18 | 2004-09-09 | Nippon Telegr & Teleph Corp <Ntt> | Method, device, and program for text selection |
JP2009237564A (en) * | 2008-03-05 | 2009-10-15 | Panasonic Electric Works Co Ltd | Data selection method for speech synthesis |
-
2015
- 2015-12-03 JP JP2015236629A patent/JP6479637B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017102328A (en) | 2017-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10347238B2 (en) | Text-based insertion and replacement in audio narration | |
JP6622505B2 (en) | Acoustic model learning device, speech synthesis device, acoustic model learning method, speech synthesis method, program | |
JP4328698B2 (en) | Fragment set creation method and apparatus | |
US9484012B2 (en) | Speech synthesis dictionary generation apparatus, speech synthesis dictionary generation method and computer program product | |
JP5631915B2 (en) | Speech synthesis apparatus, speech synthesis method, speech synthesis program, and learning apparatus | |
JP4455610B2 (en) | Prosody pattern generation device, speech synthesizer, program, and prosody pattern generation method | |
JP4241762B2 (en) | Speech synthesizer, method thereof, and program | |
JP2007249212A (en) | Method, computer program and processor for text speech synthesis | |
US20160140953A1 (en) | Speech synthesis apparatus and control method thereof | |
US8380508B2 (en) | Local and remote feedback loop for speech synthesis | |
JP5148026B1 (en) | Speech synthesis apparatus and speech synthesis method | |
JP5411845B2 (en) | Speech synthesis method, speech synthesizer, and speech synthesis program | |
JP2019179257A (en) | Acoustic model learning device, voice synthesizer, acoustic model learning method, voice synthesis method, and program | |
JP6631883B2 (en) | Model learning device for cross-lingual speech synthesis, model learning method for cross-lingual speech synthesis, program | |
JP4247289B1 (en) | Speech synthesis apparatus, speech synthesis method and program thereof | |
JP5726822B2 (en) | Speech synthesis apparatus, method and program | |
JP5512597B2 (en) | Speech synthesis apparatus, method and program thereof | |
JP2017167526A (en) | Multiple stream spectrum expression for synthesis of statistical parametric voice | |
JP2013164609A (en) | Singing synthesizing database generation device, and pitch curve generation device | |
JP4648878B2 (en) | Style designation type speech synthesis method, style designation type speech synthesis apparatus, program thereof, and storage medium thereof | |
JP6479637B2 (en) | Sentence set generation device, sentence set generation method, program | |
JP6006678B2 (en) | Speech model generation apparatus, method, and program | |
JP5840075B2 (en) | Speech waveform database generation apparatus, method, and program | |
JP6314828B2 (en) | Prosody model learning device, prosody model learning method, speech synthesis system, and prosody model learning program | |
JP6523423B2 (en) | Speech synthesizer, speech synthesis method and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180215 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190124 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190205 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190206 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6479637 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |