JP6479637B2 - Sentence set generation device, sentence set generation method, program - Google Patents

Sentence set generation device, sentence set generation method, program Download PDF

Info

Publication number
JP6479637B2
JP6479637B2 JP2015236629A JP2015236629A JP6479637B2 JP 6479637 B2 JP6479637 B2 JP 6479637B2 JP 2015236629 A JP2015236629 A JP 2015236629A JP 2015236629 A JP2015236629 A JP 2015236629A JP 6479637 B2 JP6479637 B2 JP 6479637B2
Authority
JP
Japan
Prior art keywords
sentence
selection
learning
unit
sentence set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015236629A
Other languages
Japanese (ja)
Other versions
JP2017102328A (en
Inventor
勇祐 井島
勇祐 井島
吉田 明弘
明弘 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015236629A priority Critical patent/JP6479637B2/en
Publication of JP2017102328A publication Critical patent/JP2017102328A/en
Application granted granted Critical
Publication of JP6479637B2 publication Critical patent/JP6479637B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、音声合成用モデルの学習に用いる文章を選択する技術に関し、特にモデル適応により変換元となる音声合成用モデルから別の音声合成用モデルを学習する際に用いる文章を選択する技術に関する。   The present invention relates to a technique for selecting a sentence to be used for learning a speech synthesis model, and more particularly to a technique for selecting a sentence to be used when learning another voice synthesis model from a voice synthesis model to be converted by model adaptation. .

コーパスベース音声合成技術では、学習用文章セット(コーパス)を発話した音声から音声合成用モデルを学習し、当該モデルを用いて合成音声を生成する。近年、コーパスベース音声合成技術の一つとして、任意の話者に関する少量の音声データを用いて、事前に学習した音声合成用モデル(変換元モデル)から当該話者の音声合成用モデル(変換後モデル)を生成し、変換後モデルから当該話者の合成音声を生成する手法であるモデル適応技術が提案されている(非特許文献1)。このモデル適応技術は、目標話者の音声を合成するために必要な音声データが少量でよいという特徴を有する。   In the corpus-based speech synthesis technology, a speech synthesis model is learned from speech that utters a learning sentence set (corpus), and synthesized speech is generated using the model. In recent years, as one of the corpus-based speech synthesis technologies, using a small amount of speech data about an arbitrary speaker, the speech synthesis model of the speaker (after conversion) Model adaptation technology, which is a method of generating a model) and generating synthesized speech of the speaker from the converted model has been proposed (Non-patent Document 1). This model adaptation technique has a feature that a small amount of speech data is required to synthesize the speech of the target speaker.

コーパスベース音声合成技術を用いて、できる限り低コストで高品質な合成音声を生成するためには、音韻、韻律などにおいてバランスが取れた学習用文章セットを準備する必要がある。バランスが取れた学習用文章セットを生成するためには、事前に用意する大量の文章の集合(以下、母集団文章セットという)から、音素(monophone、diphone、triphoneなど)、音節、単語といった音韻情報をできるだけ多くカバーするように学習用文章セットを生成する手法(特許文献1)や発話単位に加えてアクセント等も考慮して学習用文章セットを生成する手法(非特許文献2)等が提案されている。   In order to generate a high-quality synthesized speech at as low a cost as possible using a corpus-based speech synthesis technology, it is necessary to prepare a learning sentence set balanced in phonology, prosody and the like. In order to generate a balanced learning sentence set, phonemes such as phonemes (monophone, diphone, triphone, etc.), syllables, words, etc. are prepared from a large set of prepared sentences (hereinafter referred to as a population sentence set). Proposed methods to generate a learning sentence set so as to cover as much information as possible (Patent Document 1), a technique to generate a learning sentence set in consideration of accents in addition to speech units (Non-Patent Document 2), etc. Has been.

特開2004−246140号公報JP 2004-246140 A

田村正統、益子貴史、徳田恵一、小林隆夫、“HMMに基づく音声合成におけるピッチ・スペクトルの話者適応”、電子情報通信学会論文誌、電子情報通信学会、2002年4月、Vol.J85-D-II No.4 pp.545-553.Masanori Tamura, Takashi Masuko, Keiichi Tokuda, Takao Kobayashi, “Speaker Adaptation of Pitch / Spectrum in Speech Synthesis Based on HMM”, IEICE Transactions, IEICE, April 2002, Vol.J85-D -II No.4 pp.545-553. 荒生侑介、能勢隆、郡山知樹、篠崎隆宏、小林隆夫、“音声合成のための音韻・韻律コンテキストを考慮した文選択アルゴリズムの評価”、日本音響学会2014年春季研究発表会講演論文集、日本音響学会、2014年3月、pp.405-406.Kyosuke Arao, Takashi Nose, Tomoki Koriyama, Takahiro Shinozaki, Takao Kobayashi, “Evaluation of sentence selection algorithm considering phoneme / prosodic context for speech synthesis”, Acoustical Society of Japan 2014 Spring Conference Presentation, Proc. Academic Society, March 2014, pp.405-406.

これらの文献に記載の手法では、学習用文章セットを発話した音声によりカバーされる対象となる音韻、韻律などの文章選択に用いる要素(以下、文章選択要素という)が膨大とならないように、事前に人手で絞り込む必要がある。例えば、非特許文献2に記載の手法では、音素の連鎖を考慮する際に人手で音素をグルーピングすることで、カバー対象となる文章選択要素を絞り込んでいる。しかし、このような人手での絞り込みは、音声合成用モデルの学習で用いる情報を落としてしまう可能性があり、必ずしも最適な学習用文章セットが生成されているとは限らない。   In the methods described in these documents, elements used for sentence selection such as phonemes and prosody (hereinafter referred to as sentence selection elements) to be covered by the speech uttered from the learning sentence set are prevented in advance. It is necessary to narrow down manually. For example, in the method described in Non-Patent Document 2, sentence selection elements to be covered are narrowed down by manually grouping phonemes when considering a chain of phonemes. However, such manual narrowing may drop information used for learning the speech synthesis model, and an optimal learning sentence set is not always generated.

そこで、変換元モデルを用いて、変換後モデル学習に用いる音声データの元になる学習用文章セットを母集団文章セットから生成することにより、音韻、韻律などの文章選択に用いる要素においてバランスのとれた学習用文章セットを生成する文章セット生成装置を提供することを目的とする。   Therefore, by using the conversion source model, a learning sentence set that is the basis of the speech data used for the model learning after conversion is generated from the population sentence set, so that the elements used for sentence selection such as phonology and prosody can be balanced. An object of the present invention is to provide a sentence set generation device that generates a learning sentence set.

本発明の一態様は、決定木として表現される音声合成用モデルである変換元モデルから別の音声合成用モデルである変換後モデルを学習する際に用いる学習用文章セットを、母集団文章セットの部分集合として生成する文章セット生成装置であって、前記決定木のリーフノード以外の各内部ノードには、文章選択に用いる文章選択要素に関する問いが付与されており、解析後文章記録部に記録した、前記母集団文章セットの選択元文章と前記文章選択要素を用いて表現されるコンテキストの組である解析後文章の集合から、前記決定木と前記コンテキストを用いて前記解析後文章に対応する選択元文章を前記学習用文章セットに追加するか否かを判断することにより、前記学習用文章セットを生成する文章選択部とを有する。   According to one aspect of the present invention, a learning sentence set used when learning a converted model that is another speech synthesis model from a conversion source model that is a speech synthesis model expressed as a decision tree is a population sentence set. Is a sentence set generation device that generates a subset of the above, and each internal node other than the leaf node of the decision tree is given a question regarding a sentence selection element used for sentence selection, and is recorded in a post-analysis sentence recording unit Corresponding to the post-analysis text using the decision tree and the context from the set of post-analysis text that is a set of contexts expressed using the source text of the population text set and the text selection element A sentence selection unit that generates the learning sentence set by determining whether or not to add a selection source sentence to the learning sentence set.

本発明によれば、変換元モデルを用いて母集団文章セットから学習用文章セットを生成することにより、音韻、韻律などの文章選択に用いる要素においてバランスのとれた学習用文章セットを生成することが可能となる。   According to the present invention, by generating a learning sentence set from a population sentence set using a conversion source model, a learning sentence set balanced in elements used for sentence selection such as phonemes and prosody is generated. Is possible.

モデル適応技術の概要を示す図。The figure which shows the outline | summary of a model adaptation technique. 決定木により表現した変換元モデルの一例を示す図。The figure which shows an example of the conversion origin model expressed by the decision tree. 実施例1の文章セット生成装置100の構成を示すブロック図。1 is a block diagram illustrating a configuration of a text set generation device 100 according to a first embodiment. 実施例1の文章セット生成装置100の動作を示すフローチャート。5 is a flowchart illustrating the operation of the sentence set generation device 100 according to the first embodiment. 実施例1の文章選択用情報テーブルの一例を示す図。The figure which shows an example of the information table for text selections of Example 1. FIG. コンテキストの一例を示す図。The figure which shows an example of a context. 実施例1の文章選択部130の構成を示す図。The figure which shows the structure of the text selection part 130 of Example 1. FIG. 実施例1の文章選択部130の動作を示すフローチャート。6 is a flowchart illustrating an operation of a text selection unit according to the first embodiment. 実施例3の文章セット生成装置300の構成を示すブロック図。The block diagram which shows the structure of the text set production | generation apparatus 300 of Example 3. FIG. 実施例3の文章セット生成装置300の動作を示すフローチャート。10 is a flowchart illustrating the operation of the sentence set generation apparatus 300 according to the third embodiment. 実施例3の文章選択用情報テーブルの一例を示す図。The figure which shows an example of the information table for text selections of Example 3. FIG. 実施例3の文章選択部330の構成を示す図。The figure which shows the structure of the text selection part 330 of Example 3. FIG. 実施例3の文章選択部330の動作を示すフローチャート。10 is a flowchart illustrating the operation of a text selection unit 330 according to the third embodiment.

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。   Hereinafter, embodiments of the present invention will be described in detail. In addition, the same number is attached | subjected to the structure part which has the same function, and duplication description is abbreviate | omitted.

まず、図1を参照してモデル適応技術の概略について説明する。モデル適応では、変換元モデル学習用音声データから変換元モデルを学習する処理(変換元モデル学習処理)、変換後モデル学習用音声データを用いて変換元モデルを変換後モデルに変換する処理(変換後モデル学習処理)が行われる。変換後モデル学習用音声データは、学習用文章セットの文章を発話した音声であり、この学習用文章セットの文章は母集団文章セットから選択される。この選択処理を行う(つまり、学習用文章セットを生成する)のが、本願発明の文章セット生成装置である。   First, an outline of the model adaptation technique will be described with reference to FIG. In model adaptation, the process of learning the conversion source model from the conversion model learning speech data (conversion source model learning process), and the process of converting the conversion source model into the converted model using the converted model learning speech data (conversion Post model learning processing) is performed. The post-conversion model learning speech data is speech that utters a sentence in the learning sentence set, and the sentence in the learning sentence set is selected from the population sentence set. The sentence set generation device of the present invention performs this selection process (that is, generates a learning sentence set).

次に、いくつかの用語について定義・説明を与える。音声合成用モデルとは、音声合成の際に必要となる音声の特徴量(例えば、基本周波数(F0)などの音高パラメータ、ケプストラムやメルケプストラムなどのスペクトルパラメータ)、継続時間長を音声合成単位ごとに統計的にモデル化したものである。音声合成単位の例として、音素、音節、単語などがある。   Next, definitions and explanations are given for some terms. A voice synthesis model is a voice synthesis unit that includes voice feature values (eg, pitch parameters such as fundamental frequency (F0), spectrum parameters such as cepstrum and mel cepstrum), and duration length required for voice synthesis. Each is a statistical model. Examples of speech synthesis units include phonemes, syllables, and words.

本願発明では音声合成用モデルの中でも決定木構造を持つモデルを扱う。決定木構造を持つモデルとして代表的なものにHMM(Hidden Markov Model)音声合成(参考非特許文献3)がある。HMM音声合成では、パラメータごとに音声合成用モデルが決定木で表現される。その例として、スペクトルパラメータ、音高パラメータ、継続時間長の3つのパラメータを用いたHMM音声合成モデルの二分決定木を図2に示す。決定木の表現に用いられている情報は変換元モデルの学習に用いた情報であり、文章選択に用いる文章選択要素となるものである。決定木は文章選択要素を用いて表現される木である。具体的には、リーフノード以外の内部ノードには文章選択要素に関する問いが付与されており、YES(該当する)、NO(該当しない)の判断に従い、次の深さのノード(内部ノードまたはリーフノード)に進むような決定木となっている。
(参考非特許文献3)益子貴史、徳田恵一、小林隆夫、今井聖、“動的特徴を用いたHMMに基づく音声合成”、電子情報通信学会論文誌、電子情報通信学会、1996年12月、Vol.J79-D-II No.12 pp.2184-2190.
In the present invention, a model having a decision tree structure is handled among the speech synthesis models. A typical model having a decision tree structure is HMM (Hidden Markov Model) speech synthesis (Reference Non-Patent Document 3). In HMM speech synthesis, a speech synthesis model is represented by a decision tree for each parameter. As an example, FIG. 2 shows a binary decision tree of an HMM speech synthesis model using three parameters: a spectrum parameter, a pitch parameter, and a duration length. The information used for the representation of the decision tree is information used for learning the conversion source model and serves as a sentence selection element used for sentence selection. A decision tree is a tree expressed using sentence selection elements. Specifically, the internal node other than the leaf node is given a question regarding the sentence selection element, and the node (internal node or leaf) of the next depth is determined according to the determination of YES (applicable) or NO (not applicable). Node).
(Reference Non-Patent Document 3) Takashi Masuko, Keiichi Tokuda, Takao Kobayashi, Kiyoshi Imai, “HMM-based speech synthesis using dynamic features”, IEICE Transactions, IEICE, December 1996, Vol.J79-D-II No.12 pp.2184-2190.

以下、図3、図4を参照して実施例1の文章セット生成装置100について説明する。図3は、実施例1の文章セット生成装置100の構成を示すブロック図である。図4は、実施例1の文章セット生成装置100の動作を示すフローチャートである。図3に示すように文章セット生成装置100は、文章選択用情報テーブル作成部110と、文章選択用情報テーブル記録部103と、テキスト解析部120と、解析後文章記録部104と、文章選択部130を含む。文章セット生成装置100は、変換元モデル記録部101、選択元文章記録部102と接続している。   Hereinafter, the sentence set generation apparatus 100 according to the first embodiment will be described with reference to FIGS. 3 and 4. FIG. 3 is a block diagram illustrating a configuration of the sentence set generation device 100 according to the first embodiment. FIG. 4 is a flowchart illustrating the operation of the sentence set generation apparatus 100 according to the first embodiment. As shown in FIG. 3, the sentence set generation device 100 includes a sentence selection information table creation unit 110, a sentence selection information table recording unit 103, a text analysis unit 120, a post-analysis sentence recording unit 104, and a sentence selection unit. 130 is included. The sentence set generation device 100 is connected to a conversion source model recording unit 101 and a selection source sentence recording unit 102.

変換元モデル記録部101には、モデル適応の変換元モデル学習処理で学習した変換元モデルを記録しておく。選択元文章記録部102には、母集団文章セットの要素である選択元文章を記録しておく。   The conversion source model recording unit 101 records the conversion source model learned in the model adaptation conversion source model learning process. The selection source sentence recording unit 102 records the selection source sentence that is an element of the population sentence set.

文章選択用情報テーブル作成部110は、決定木で表現された変換元モデルから文章選択用情報テーブルを作成し、初期化する(S110)。文章選択用情報テーブルは、各パラメータの決定木に対応して作成される。例えば、スペクトルパラメータ、音高パラメータ、継続時間長の3つのパラメータを用いた音声合成用モデルでは、3つの決定木(図2参照)から3つの文章選択用情報テーブル(図5参照)が作成される。スペクトルパラメータ、音高パラメータ、継続時間長の決定木のリーフノード数をNsp、NF0、Ndurとし、リーフノードが1〜Nsp、1〜NF0、1〜Ndurで識別されるとすると、スペクトルパラメータ、音高パラメータ、継続時間長の文章選択用情報テーブルはリーフノード1〜Nsp、リーフノード1〜NF0、リーフノード1〜Ndurの選択頻度を保持するテーブルとなる。選択頻度は選択元文章を処理する過程でそのリーフノードが選択された回数を表すが、詳細については文章選択部130で説明する。文章選択用情報テーブル作成部110では、各テーブルの各リーフノードの選択頻度の値を0で初期化する。 The text selection information table creation unit 110 creates a text selection information table from the conversion source model represented by the decision tree and initializes it (S110). The text selection information table is created corresponding to each parameter decision tree. For example, in a speech synthesis model using three parameters: a spectrum parameter, a pitch parameter, and a duration length, three text selection information tables (see FIG. 5) are created from three decision trees (see FIG. 2). The When the number of leaf nodes of a decision tree of spectrum parameters, pitch parameters, and duration lengths is N sp , N F0 , N dur and the leaf nodes are identified by 1 to N sp , 1 to N F0 , and 1 to N dur Then, the text selection information table of the spectrum parameter, pitch parameter, and duration is a table that holds the selection frequency of the leaf nodes 1 to N sp , the leaf nodes 1 to N F0 , and the leaf nodes 1 to N dur . The selection frequency indicates the number of times the leaf node is selected in the process of processing the selection source sentence, and the details will be described in the sentence selection unit 130. The text selection information table creation unit 110 initializes the value of the selection frequency of each leaf node in each table to 0.

当該文章選択用情報テーブルは、文章選択用情報テーブル記録部103に記録する。文章選択用情報テーブル記録部103は、RAM、ハードディスクなど一時的な記録媒体、永続的な記録媒体のいずれであってもよい。   The sentence selection information table is recorded in the sentence selection information table recording unit 103. The text selection information table recording unit 103 may be a temporary recording medium such as a RAM or a hard disk, or a permanent recording medium.

テキスト解析部120は、母集団文章セットの各選択元文章に対して、読み、アクセントなどの情報を付与した後、読み、アクセント、形態素などの文章選択要素を用いて表現されるコンテキストを音声合成単位ごとに付与した文章である解析後文章を生成する(S120)。つまり、解析後文章とは、選択元文章と1以上のコンテキストの組である。また、コンテキストは、文章選択部130による処理に必要な情報であり、決定木構造をたどるために用いられる。コンテキストは、例えば、図6のコンテキストラベルを用いて表現することができる(参考非特許文献4)。
(参考非特許文献4)吉岡元貴、田村正統、益子貴史、小林隆夫、徳田恵一、“HMM音声合成における韻律の変動要因の検討”、電子情報通信学会技術研究報告.SP,音声、電子情報通信学会、2001年10月、Vol.101, No.352, pp.51-56.
The text analysis unit 120 assigns information such as reading and accent to each selection source sentence in the population sentence set, and then synthesizes a context expressed using sentence selection elements such as reading, accent, and morpheme. A post-analysis sentence that is a sentence given for each unit is generated (S120). That is, the post-analysis sentence is a set of a selection source sentence and one or more contexts. The context is information necessary for processing by the text selection unit 130 and is used to follow a decision tree structure. The context can be expressed using, for example, the context label in FIG. 6 (Reference Non-Patent Document 4).
(Reference Non-Patent Document 4) Mototaka Yoshioka, Masanori Tamura, Takashi Masuko, Takao Kobayashi, Keiichi Tokuda, “Examination of variation factors of prosody in HMM speech synthesis”, IEICE technical report. SP, Voice, IEICE, October 2001, Vol. 101, No. 352, pp. 51-56.

したがって、(読み、アクセント、形態素などの)コンテキストの表現に用いる文章選択要素の種類は、決定木の表現に用いられているものと同一である必要がある。例えば、変換元モデルの学習に読みとアクセントを使用した場合は、テキスト解析部120で得られるコンテキストは読みとアクセントのみでよい。   Therefore, the types of sentence selection elements used for expressing the context (such as reading, accent, and morpheme) need to be the same as those used for expressing the decision tree. For example, when reading and accent are used for learning the conversion source model, the context obtained by the text analysis unit 120 may be only reading and accent.

当該解析後文章は、解析後文章記録部104に記録する。解析後文章記録部104は、文章選択用情報テーブル記録部103と同様、RAM、ハードディスクなど一時的な記録媒体、永続的な記録媒体のいずれであってもよい。   The analyzed sentence is recorded in the analyzed sentence recording unit 104. Similar to the sentence selection information table recording unit 103, the post-analysis sentence recording unit 104 may be a temporary recording medium such as a RAM or a hard disk, or a permanent recording medium.

また、コンテキストは何らかのテキスト解析手法により付与されるものとする。なお、テキスト解析する代わりに事前に人手で付与しておいてもよい。この場合、テキスト解析部120は不要である。文章セット生成装置100はテキスト解析部120を有さない構成となり、選択元文章記録部102と接続する代わりに母集団文章セットの選択元文章を解析した解析後文章を記録した解析後文章記録部104と接続することになる。このときの解析後文章記録部104は永続的な記録媒体を用いて構成されることになる。   The context is given by some text analysis method. Instead of text analysis, it may be given manually in advance. In this case, the text analysis unit 120 is not necessary. The sentence set generation device 100 does not include the text analysis unit 120, and instead of being connected to the selection source sentence recording unit 102, the post-analysis sentence recording unit that records the analysis sentence after analyzing the selection source sentence of the population sentence set 104 is connected. The post-analysis sentence recording unit 104 at this time is configured using a permanent recording medium.

文章選択部130は、変換元モデルの決定木を用いて、解析後文章の集合から学習用文章セットを生成する(S130)。以下、図7、図8を参照して文章選択部130の処理について詳細に説明する。図7は、文章選択部130の構成を示すブロック図である。図8は、文選択部130の動作を示すフローチャートである。図7に示すように文章選択部130は、リーフノード決定部131と、スコア計算部132と、最高スコア文章選択部133と、文章選択用情報テーブル更新部134と、終了判定部135を含む。   The sentence selection unit 130 generates a learning sentence set from the set of analyzed sentences using the decision tree of the conversion source model (S130). Hereinafter, the processing of the text selection unit 130 will be described in detail with reference to FIGS. 7 and 8. FIG. 7 is a block diagram illustrating a configuration of the text selection unit 130. FIG. 8 is a flowchart showing the operation of the sentence selection unit 130. As shown in FIG. 7, the sentence selection unit 130 includes a leaf node determination unit 131, a score calculation unit 132, a highest score sentence selection unit 133, a sentence selection information table update unit 134, and an end determination unit 135.

母集団文章セットに含まれる選択元文章の数をSとして、選択元文章をB、B、…、Bで表す。また、選択元文章B(i=1,2,…,S)をテキスト解析部120が処理した結果である解析後文章をAで表す。解析後文章をAに含まれるコンテキストの数(つまり、音声合成単位の数)をk(i)とし、コンテキストをC(j=1,…,k(i))で表すことにすると、A=(B,C,…,Ck(i))と表すことができる。各コンテキストCには文章選択要素の種類数の情報が含まれる。例えば、図6のコンテキストラベルには、音素、形態素、アクセント句の3種類の文章選択要素が含まれている。 The number of selection source sentences included in the population sentence set is S, and the selection source sentences are represented by B 1 , B 2 ,..., B S. A post-analysis sentence that is a result of processing the selection source sentence B i (i = 1, 2,..., S) by the text analysis unit 120 is denoted by A i . Assuming that the number of contexts (that is, the number of speech synthesis units) included in A i is k (i) and the context is represented by C j (j = 1,..., K (i)), A i = (B i , C 1 ,..., C k (i) ). Each context C j includes information on the number of types of sentence selection elements. For example, the context label in FIG. 6 includes three types of sentence selection elements, phonemes, morphemes, and accent phrases.

リーフノード決定部131は、母集団文章セットの選択元文章B(i=1,2,…,S、ただし、すでに学習用文章セットの要素となっている文章(以下、このすでに学習用文章セットの要素となっている文章の集合のことを生成済み学習用文章セットという)を除く)に対応する解析後文章Aに含まれるコンテキストC(j=1,…,k(i))について、各パラメータの決定木をたどり、コンテキストCに対応するリーフノードを決定する(S131)。あわせて当該リーフノードの選択頻度を1増加させることで文章選択用情報テーブルを更新する。決定木をたどるとは、コンテキストを表現するために用いられている文章選択要素を用いて、内部ノードに付与されている問いに対してYES−NOを判断し、ルートからリーフノードに向かって進んでいくことをいう。なお、ルートからリーフノードに至るまでの判断結果のノードの列をパスといい、パスに含まれる内部ノード、リーフノードのことをカバーされる内部ノード、リーフノードという。 The leaf node determination unit 131 selects the source sentence set B i (i = 1, 2,..., S of the population sentence set, but the sentence that is already an element of the learning sentence set (hereinafter, this already learned sentence) Context C j (j = 1,..., K (i)) included in the post-analysis sentence A i corresponding to the set of sentences that are elements of the set (except for the generated learning sentence set). Is followed through the decision tree of each parameter to determine the leaf node corresponding to the context C j (S131). In addition, the sentence selection information table is updated by increasing the selection frequency of the leaf node by one. Tracing a decision tree uses a sentence selection element used to express a context, determines YES-NO for a question given to an internal node, and proceeds from a root toward a leaf node. It means to go. The sequence of nodes from the root to the leaf node is called a path, and the internal nodes and leaf nodes included in the path are called covered internal nodes and leaf nodes.

スコア計算部132は、S131で更新した文章選択用情報テーブル(つまり、生成済み学習用文章セットに選択元文章Bを追加した集合に対応する文章選択用情報テーブル)を用いて、スコアSCを算出する(S132)。なお、生成済み学習用文章セットは最初のS131の処理が始まるまでに空集合で初期化されているものとする。 The score calculation unit 132 uses the sentence selection information table updated in S131 (that is, the sentence selection information table corresponding to the set obtained by adding the selection source sentence B i to the generated learning sentence set) to obtain the score SC i. Is calculated (S132). Note that the generated learning sentence set is initialized as an empty set before the first processing of S131 is started.

文章選択におけるスコアの代表的なものとして、カバー率(特許文献1)、エントロピー(非特許文献2)がある。以下では、スコアにカバー率を採用して説明する。文章選択におけるカバー率とは、選択された1以上の文章により(音素環境などの)文章選択要素がどれだけカバーされているかを示す指標である。本実施例では、決定木のリーフノードを用いてカバー率を算出する。リーフノードを用いたカバー率の計算式は次式により表される。   Typical scores for sentence selection include a coverage rate (Patent Document 1) and entropy (Non-Patent Document 2). In the following description, the cover rate is adopted for the score. The coverage in sentence selection is an index indicating how much a sentence selection element (such as phoneme environment) is covered by one or more selected sentences. In this embodiment, the coverage rate is calculated using the leaf nodes of the decision tree. The formula for calculating the coverage using leaf nodes is expressed by the following formula.

Figure 0006479637
Figure 0006479637

ここで、Nsp、NF0、Ndurはスペクトルパラメータ、音高パラメータ、継続時間長の決定木のリーフノード数である。また、関数osp(k)、oF0(k)、odur(k)は、スペクトルパラメータ、音高パラメータ、継続時間長の決定木のk番目のリーフノードがカバー(選択)されているかどうかを出力する関数である。これらの関数は当該リーフノードの選択頻度が1以上であれば1を、0であれば0を出力する。これにより、学習用文章セット(S131とS132の繰り返し処理の過程では、生成済み学習用文章セットに選択元文章Bを追加した集合)に含まれる文章を用いて3つの決定木に含まれるリーフノードが選択される割合を示すことができる。 Here, N sp , N F0 , and N dur are the number of leaf nodes in the decision tree for the spectrum parameter, pitch parameter, and duration. Also, the functions o sp (k), o F0 (k), and o dur (k) indicate whether or not the k-th leaf node of the decision tree of the spectrum parameter, pitch parameter, and duration is covered (selected). Is a function that outputs These functions output 1 if the selection frequency of the leaf node is 1 or more, and 0 if it is 0. Thus, (in the course of iteration S131 and S132, the generated learned for text sets to add the selected original texts B i set) training sentence set leaves contained in the three decision trees using the sentence contained in It can indicate the rate at which nodes are selected.

スコアを算出した後、S131で更新した文章選択用情報テーブルを更新前の文章選択用情報テーブルに戻す。ただし、S131で更新した文章選択用情報テーブルの情報は文章選択用情報テーブル更新部134で用いるので、元に戻す際に当該情報は文章選択用情報テーブル更新部134が後ほど利用できるよう、コピーするなどして退避しておく。リーフノード決定部131での処理(S131)及びスコア計算部132での処理(S132)を母集団文章セットの選択元文章B、B、…、B(ただし、生成済み学習用文章セットに含まれるものを除く)に対して実行する。 After the score is calculated, the text selection information table updated in S131 is returned to the text selection information table before update. However, since the information in the text selection information table updating unit 134 updated in S131 is used in the text selection information table updating unit 134, when the information is restored, the information is copied so that the text selection information table updating unit 134 can use it later. Evacuate it. The processing of the leaf node determination unit 131 (S131) and the processing of the score calculation unit 132 (S132) are selected from the population sentence set source sentences B 1 , B 2 ,..., B S (however, the generated learning sentence set (Except for those included in).

最高スコア文章選択部133は、スコア計算部132が計算したSC、SC、…、SC(ただし、生成済み学習用文章セットの文章に対応するものを除く)のうち、最も高くなるスコア(最高スコア)に対応する選択元文章Bを選択し、生成済み学習用文章セットに追加する(S133)。 Highest score sentence selection unit 133, SC 1, SC 2, which score calculation unit 132 has calculated, ..., SC S (except for those corresponding to the sentence of the generated training sentence sets) of, becomes highest score select the selection original sentence B k corresponding to the (highest score), to add to the generated learning sentence set (S133).

文章選択用情報テーブル更新部134は、リーフノード決定部131が選択元文章Bを処理した際に生成した文章選択用情報テーブルの情報により、文章選択用情報テーブルを更新する(S134)。 Text selection information table update section 134, the generated information of the text selection information table when a leaf node determining unit 131 has processed the selected original texts B k, and updates the information table for the text selection (S134).

終了判定部135は、終了条件を満たしているかどうかの判定を行い、満たしている場合、生成済み学習用文章セットを学習用文章セットとして出力する(S135)。終了条件としては、選択された文章数が所定値に達したか(例えば、生成済み学習用文章セットの濃度が|S|/2を超えたか)、S133で計算した最高スコアが所定値に達したか(例えば、最高スコアが0.8を超えたか)などがある。また、これらの組合せであってもよい。なお、最高スコアが所定値に達することがなかったために、すべての選択元文章を生成済み学習用文章セットに追加することもありえる。   The end determination unit 135 determines whether or not the end condition is satisfied. If the end condition is satisfied, the end determination unit 135 outputs the generated learning sentence set as a learning sentence set (S135). Termination conditions include whether the number of selected sentences has reached a predetermined value (for example, whether the concentration of the generated learning sentence set exceeds | S | / 2), or the highest score calculated in S133 reaches the predetermined value (For example, whether the highest score exceeded 0.8). Moreover, these combinations may be sufficient. Since the highest score never reaches a predetermined value, all the selection source sentences may be added to the generated learning sentence set.

変換元モデルの決定木を利用して学習用文章セットを生成するための基準となる(音素、アクセント等の)文章選択要素をモデル適応の過程において動的に設定することにより、文章選択要素においてバランスのとれた学習用文章セットを生成することが可能となる。また、その結果、当該学習用文章セットと同程度の文章量の文章セットを発話した音声データに基づいて生成する合成音声に比して、合成音声の品質が向上する。   By dynamically setting the text selection elements (phonemes, accents, etc.) that are the basis for generating the learning text set using the decision tree of the conversion source model, A well-balanced learning sentence set can be generated. As a result, the quality of the synthesized speech is improved as compared to synthesized speech generated based on speech data in which a sentence set having the same amount of text as the learning sentence set is uttered.

実施例1では、スコア計算時に各パラメータのリーフノードを同等に扱っているため、ある特定のパラメータを重視して文章選択を行うことができない。そこで、実施例2では、パラメータに重みづけをしてスコアを計算する。これにより、文章選択の基準として特定のパラメータを重視した形で学習用文章セットを生成することが可能となる。   In Example 1, since the leaf node of each parameter is handled equally at the time of score calculation, it is not possible to select a sentence with an emphasis on a specific parameter. Therefore, in the second embodiment, the score is calculated by weighting the parameters. As a result, a learning sentence set can be generated in a form that emphasizes a specific parameter as a reference for sentence selection.

以下に、実施例1と相違するスコア計算部132の計算式について説明する。スコア計算部132は、次式のようにパラメータごとのサブスコアを算出し、それらの重み付き和としてスコアSCを計算する(S132)。 Below, the calculation formula of the score calculation part 132 different from Example 1 is demonstrated. The score calculation unit 132 calculates a sub-score for each parameter as in the following equation, and calculates a score SC i as a weighted sum thereof (S132).

Figure 0006479637
Figure 0006479637

ここで、wsp、wF0 、wdurはスペクトルパラメータ、音高パラメータ、継続時間長の各パラメータの重みである。 Here, w sp , w F0 , and w dur are weights of the parameters of the spectrum parameter, pitch parameter, and duration time.

この重みを調整することで、特定のパラメータを重視した文章選択が可能になる。   By adjusting this weight, it becomes possible to select a sentence with an emphasis on a specific parameter.

実施例1及び2では、スコア計算時にリーフノードの情報しか利用しない。相対的には深さが深い位置にあるリーフノードの方が多いため、リーフノードを用いて文章を選択してしまうと、学習用文章セットに偏りが出てしまい、その結果バランスよく適切な文章が選択されない可能性がある。そこで、実施例3では、リーフノードだけでなく、内部ノードも活用してスコア計算を行うこととする。これにより、全体のバランスを考慮した文章選択を行うことが可能となる。   In the first and second embodiments, only leaf node information is used at the time of score calculation. Since there are more leaf nodes at relatively deep positions, if you select a sentence using the leaf nodes, the learning sentence set will be biased, and as a result, an appropriate sentence with a good balance May not be selected. Thus, in the third embodiment, score calculation is performed using not only leaf nodes but also internal nodes. Thereby, it becomes possible to perform sentence selection in consideration of the overall balance.

以下、図9、図10を参照して実施例3の文章セット生成装置300について説明する。図9は、実施例3の文章セット生成装置300の構成を示すブロック図である。図10は、実施例3の文章セット生成装置300の動作を示すフローチャートである。図9に示すように文章セット生成装置300は、文章選択用情報テーブル作成部310と、文章選択用情報テーブル記録部103と、テキスト解析部120と、文章選択部330を含む。文章セット生成装置300は、変換元モデル記録部101、選択元文章記録部102と接続している。   Hereinafter, the sentence set generation apparatus 300 according to the third embodiment will be described with reference to FIGS. 9 and 10. FIG. 9 is a block diagram illustrating a configuration of the sentence set generation device 300 according to the third embodiment. FIG. 10 is a flowchart illustrating the operation of the sentence set generation apparatus 300 according to the third embodiment. As shown in FIG. 9, the sentence set generation device 300 includes a sentence selection information table creation unit 310, a sentence selection information table recording unit 103, a text analysis unit 120, and a sentence selection unit 330. The sentence set generation device 300 is connected to the conversion source model recording unit 101 and the selection source sentence recording unit 102.

実施例1と相違するのは、文章選択用情報テーブル作成部310、文章選択部330である。   The difference from the first embodiment is a text selection information table creation unit 310 and a text selection unit 330.

文章選択用情報テーブル作成部310は、決定木で表現された変換元モデルから文章選択用情報テーブルを作成し、初期化する(S310)。ここで作成される文章選択用情報テーブルを図11に示す。3つのパラメータ(スペクトルパラメータ、音高パラメータ、継続時間長)について、テーブルが作成される点では実施例1と同じであるが、リーフノードでなく、決定木の深さごとにレコードが作成される点で相違する。スペクトルパラメータの決定木の深さをDsp、深さ1のノード数をNsp、1、深さ2のノード数をNsp、2、…、深さDspのノード数をNsp、Dspとし、深さ1のノードが1〜Nsp、1、深さ2のノードが1〜Nsp、2、…、深さDspのノードが1〜Nsp、Dspで識別されるとすると、スペクトルパラメータの文章選択用情報テーブルは深さ1のノード1〜Nsp、1、深さ2のノード1〜Nsp、2、…、深さDspのノード1〜Nsp、Dspでの選択頻度を保持するテーブルとなる。音高パラメータの文章選択用情報テーブル、継続時間長の文章選択用情報テーブルも同様である。ただし、音高パラメータの決定木の深さをDF0、深さ1のノード数をNF0、1、深さ2のノード数をNF0、2、…、深さDF0のノード数をNF0、DF0とする。また、継続時間長の決定木の深さをDdur、深さ1のノード数をNdur、1、深さ2のノード数をNdur、2、…、深さDdurのノード数をNdur、Ddurとする。文章選択用情報テーブル作成部310では、実施例1同様、各テーブルの各ノードの選択頻度の値を0で初期化する。 The text selection information table creation unit 310 creates a text selection information table from the conversion source model represented by the decision tree and initializes it (S310). The sentence selection information table created here is shown in FIG. For the three parameters (spectrum parameter, pitch parameter, duration length), the same as in the first embodiment in that a table is created, but a record is created for each depth of a decision tree, not a leaf node. It is different in point. The depth of the spectrum parameter decision tree is D sp , the number of nodes at depth 1 is N sp 1 , the number of nodes at depth 2 is N sp 2 ,..., And the number of nodes at depth D sp is N sp, Dsp. and then, a node of the depth 1 is 1 to N sp, 1, node depth 2 1 to N sp, 2, ..., node depth D sp is 1 to N sp, tries to be identified by Dsp, nodes 1 to N sp, 1 sentence selection information table depth 1 of the spectral parameters, depth 2 nodes 1 to N sp, 2, ..., a depth D sp nodes 1 to N sp, selection in Dsp It becomes a table that holds the frequency. The same applies to the pitch selection text selection information table and the duration time text selection information table. However, the depth of the decision tree for the pitch parameter is D F0 , the number of nodes at depth 1 is N F0 , 1, the number of nodes at depth 2 is N F0 , 2,..., And the number of nodes at depth D F0 is N Let F0 and DF0 . Further, the depth of the decision tree of the duration length is D dur , the number of nodes at depth 1 is N dur, 1 , the number of nodes at depth 2 is N dur, 2 ,..., And the number of nodes at depth D dur is N dur and Ddur . The text selection information table creation unit 310 initializes the value of the selection frequency of each node of each table to 0 as in the first embodiment.

文章選択部330は、変換元モデルの決定木を用いて、解析後文章の集合から学習用文章セットを生成する(S330)。以下、図12、図13を参照して文章選択部330の処理について詳細に説明する。図12は、文章選択部330の構成を示すブロック図である。図13は、文選択部330の動作を示すフローチャートである。図12に示すように文章選択部330は、ノード決定部331と、スコア計算部332と、最高スコア文章選択部133と、文章選択用情報テーブル更新部134と、終了判定部135を含む。   The sentence selection unit 330 generates a learning sentence set from the set of analyzed sentences using the decision tree of the conversion source model (S330). Hereinafter, the process of the text selection unit 330 will be described in detail with reference to FIGS. 12 and 13. FIG. 12 is a block diagram illustrating a configuration of the sentence selection unit 330. FIG. 13 is a flowchart showing the operation of the sentence selection unit 330. As shown in FIG. 12, the sentence selection unit 330 includes a node determination unit 331, a score calculation unit 332, a highest score sentence selection unit 133, a sentence selection information table update unit 134, and an end determination unit 135.

ノード決定部331は、母集団文章セットの選択元文章B(i=1,2,…,S、ただし、生成済み学習用文章セットの文章を除く)に対応する解析後文章Aに含まれるコンテキストC(j=1,…,k(i))について、各パラメータの決定木をたどり、ルートからリーフノードに至るまでのパスに含まれる内部ノード、リーフノードを決定する(S331)。あわせて当該ノードの選択頻度を1増加させることで文章選択用情報テーブルを更新する。 The node determination unit 331 includes the post-analysis sentence A i corresponding to the selection source sentence B i (i = 1, 2,..., S, excluding the sentences in the generated learning sentence set) of the population sentence set. For each context C j (j = 1,..., K (i)), the internal node and leaf node included in the path from the root to the leaf node are determined by following the decision tree of each parameter (S331). At the same time, the information selection table is updated by increasing the selection frequency of the node by one.

スコア計算部332は、S331で更新した文章選択用情報テーブル(つまり、生成済み学習用文章セットに選択元文章Bを追加した集合に対応する文章選択用情報テーブル)を用いて、スコアSCを算出する(S332)。なお、生成済み学習用文章セットは最初のS331の処理が始まるまでに空集合で初期化されているのは、実施例1と同様である。 The score calculation unit 332 uses the sentence selection information table updated in S331 (that is, the sentence selection information table corresponding to the set in which the selection source sentence B i is added to the generated learning sentence set) to obtain the score SC i. Is calculated (S332). It should be noted that the generated learning sentence set is initialized as an empty set before the first processing of S331 starts, as in the first embodiment.

スコアSCは、各決定木の内部ノードとリーフノードを用いたサブスコアの重み付き和として計算される。 The score SC i is calculated as a weighted sum of subscores using the internal nodes and leaf nodes of each decision tree.

Figure 0006479637
Figure 0006479637

ここで、SCsp,i、SCF0,i、SCdur,iはスペクトルパラメータ、音高パラメータ、継続時間長のサブスコアである。Nsp,d、NF0,d、Ndur,dはスペクトルパラメータ、音高パラメータ、継続時間長の決定木の深さdのノード数である。また、関数osp,d(k)、oF0,d(k)、odur,d(k)は、各パラメータの決定木の深さdのk番目のノードがカバー(選択)されているかどうかを出力する関数である。この関数は当該ノードの選択頻度が1以上であれば1を、0であれば0を出力する。wsp,d、wF0,d、wdur,dは、各パラメータの決定木の深さdの重みを示す。これにより、各パラメータの決定木のノードのうち、どれだけの割合を選択できているか示すことができる。最後に、wsp、wF0、wdurを各パラメータの重みとし、上記サブスコアを用いてSCを計算する。 Here, SC sp, i , SC F0, i , and SC dur, i are sub-scores of spectrum parameters, pitch parameters, and duration lengths. N sp, d , N F0, d , and N dur, d are the number of nodes of the depth d of the decision tree of the spectrum parameter, pitch parameter, and duration length. The functions o sp, d (k), o F0, d (k), and o dur, d (k) indicate whether the k-th node of the decision tree depth d of each parameter is covered (selected). This function outputs whether or not. This function outputs 1 if the node selection frequency is 1 or more, and 0 if it is 0. w sp, d , w F0, d , and w dur, d indicate the weights of the depth d of the decision tree of each parameter. As a result, it is possible to indicate how much of the decision tree nodes for each parameter can be selected. Finally, w sp , w F0 , and w dur are used as the weight of each parameter, and SC i is calculated using the subscore.

スコア計算方法を内部ノードも含めたカバー率とすることにより、スコア計算時に内部ノードの選択頻度を考慮したうえで文章選択をすることが可能になる。これにより、一部の部分木のみに偏って文章が選択されてしまうことを避けることが可能になる。その結果、文章選択のための要素がバランスよく選択されるため、実施例1よりも合成音声の品質が向上する。   By setting the score calculation method to the coverage rate including the internal nodes, it becomes possible to select a sentence in consideration of the selection frequency of the internal nodes when calculating the score. As a result, it is possible to avoid selecting a sentence biased toward only a part of the partial tree. As a result, the elements for sentence selection are selected in a balanced manner, so that the quality of the synthesized speech is improved as compared with the first embodiment.

<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
<Supplementary note>
The apparatus of the present invention includes, for example, a single hardware entity as an input unit to which a keyboard or the like can be connected, an output unit to which a liquid crystal display or the like can be connected, and a communication device (for example, a communication cable) capable of communicating outside the hardware entity Can be connected to a communication unit, a CPU (Central Processing Unit, may include a cache memory or a register), a RAM or ROM that is a memory, an external storage device that is a hard disk, and an input unit, an output unit, or a communication unit thereof , A CPU, a RAM, a ROM, and a bus connected so that data can be exchanged between the external storage devices. If necessary, the hardware entity may be provided with a device (drive) that can read and write a recording medium such as a CD-ROM. A physical entity having such hardware resources includes a general-purpose computer.

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。   The external storage device of the hardware entity stores a program necessary for realizing the above functions and data necessary for processing the program (not limited to the external storage device, for example, reading a program) It may be stored in a ROM that is a dedicated storage device). Data obtained by the processing of these programs is appropriately stored in a RAM or an external storage device.

ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。   In the hardware entity, each program stored in an external storage device (or ROM or the like) and data necessary for processing each program are read into a memory as necessary, and are interpreted and executed by a CPU as appropriate. . As a result, the CPU realizes a predetermined function (respective component requirements expressed as the above-described unit, unit, etc.).

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。   The present invention is not limited to the above-described embodiment, and can be appropriately changed without departing from the spirit of the present invention. In addition, the processing described in the above embodiment may be executed not only in time series according to the order of description but also in parallel or individually as required by the processing capability of the apparatus that executes the processing. .

既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。   As described above, when the processing functions in the hardware entity (the apparatus of the present invention) described in the above embodiments are realized by a computer, the processing contents of the functions that the hardware entity should have are described by a program. Then, by executing this program on a computer, the processing functions in the hardware entity are realized on the computer.

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。   The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used. Specifically, for example, as a magnetic recording device, a hard disk device, a flexible disk, a magnetic tape or the like, and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only). Memory), CD-R (Recordable) / RW (ReWritable), etc., magneto-optical recording medium, MO (Magneto-Optical disc), etc., semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. Can be used.

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。   The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。   A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, the computer reads a program stored in its own recording medium and executes a process according to the read program. As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。   In this embodiment, a hardware entity is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.

Claims (5)

決定木として表現される音声合成用モデルである変換元モデルから別の音声合成用モデルである変換後モデルを学習する際に用いる学習用文章セットを、母集団文章セットの部分集合として生成する文章セット生成装置であって、
前記決定木のリーフノード以外の各内部ノードには、文章選択に用いる文章選択要素に関する問いが付与されており、
解析後文章記録部に記録した、前記母集団文章セットの選択元文章と前記文章選択要素を用いて表現されるコンテキストの組である解析後文章の集合から、前記決定木と前記コンテキストを用いて前記解析後文章に対応する選択元文章を前記学習用文章セットに追加するか否かを判断することにより、前記学習用文章セットを生成する文章選択部と
を有する文章セット生成装置。
A sentence that generates a learning sentence set as a subset of the population sentence set used when learning a converted model that is another speech synthesis model from a conversion source model that is a speech synthesis model expressed as a decision tree A set generator,
Each internal node other than the leaf node of the decision tree is given a question regarding a sentence selection element used for sentence selection,
From the set of post-analysis sentences recorded in the post-analysis sentence recording unit, which is a set of contexts expressed using the selection source sentence of the population sentence set and the sentence selection element, using the decision tree and the context A sentence set generation device comprising: a sentence selection unit that generates the learning sentence set by determining whether or not to add a selection source sentence corresponding to the analyzed sentence to the learning sentence set.
請求項1に記載の文章セット生成装置であって、
前記文章選択部は、
前記解析後文章に対して、当該解析後文章のコンテキストごとに前記決定木をたどることによりカバーされるリーフノードを決定するリーフノード決定部と、
生成済み学習用文章セットの文章と前記解析後文章によりカバーされるリーフノードの数を用いて前記解析後文章のスコアを計算するスコア計算部と、
前記スコアが最高になる前記解析後文章に対応する選択元文章を前記生成済み学習用文章セットに追加することにより、前記生成済み学習用文章セットを更新する最高スコア文章選択部と、
終了条件を満たしている場合、前記生成済み学習用文章セットを前記学習用文章セットとして出力する終了判定部と
を有する文章セット生成装置。
The sentence set generation device according to claim 1,
The sentence selection unit
For the analyzed sentence, a leaf node determination unit that determines a leaf node that is covered by following the decision tree for each context of the analyzed sentence;
A score calculation unit that calculates the score of the analyzed sentence using the sentences of the generated learning sentence set and the number of leaf nodes covered by the analyzed sentence;
A highest score sentence selection unit for updating the generated learning sentence set by adding a selection source sentence corresponding to the analyzed sentence having the highest score to the generated learning sentence set;
A sentence set generation device comprising: an end determination unit that outputs the generated learning sentence set as the learning sentence set when an end condition is satisfied.
請求項1に記載の文章セット生成装置であって、
前記文章選択部は、
前記解析後文章に対して、当該解析後文章のコンテキストごとに前記決定木をたどることによりカバーされる内部ノードとリーフノードを決定するノード決定部と、
生成済み学習用文章セットの文章と前記解析後文章によりカバーされる内部ノードとリーフノードに基づいて算出される数を用いて前記解析後文章のスコアを計算するスコア計算部と、
前記スコアが最高になる前記解析後文章に対応する選択元文章を前記生成済み学習用文章セットに追加することにより、前記生成済み学習用文章セットを更新する最高スコア文章選択部と、
終了条件を満たしている場合、前記生成済み学習用文章セットを前記学習用文章セットとして出力する終了判定部と
を有する文章セット生成装置。
The sentence set generation device according to claim 1,
The sentence selection unit
For the analyzed sentence, a node determination unit that determines an internal node and a leaf node that are covered by following the decision tree for each context of the analyzed sentence,
A score calculation unit that calculates a score of the analyzed sentence using a number calculated based on a sentence of the generated learning sentence set, an internal node covered by the analyzed sentence, and a leaf node;
A highest score sentence selection unit for updating the generated learning sentence set by adding a selection source sentence corresponding to the analyzed sentence having the highest score to the generated learning sentence set;
A sentence set generation device comprising: an end determination unit that outputs the generated learning sentence set as the learning sentence set when an end condition is satisfied.
文章セット生成装置が、決定木として表現される音声合成用モデルである変換元モデルから別の音声合成用モデルである変換後モデルを学習する際に用いる学習用文章セットを、母集団文章セットの部分集合として生成する文章セット生成方法であって、
前記決定木のリーフノード以外の各内部ノードには、文章選択に用いる文章選択要素に関する問いが付与されており、
前記文章セット生成装置が備える解析後文章記録部に記録した、前記母集団文章セットの選択元文章と前記文章選択要素を用いて表現されるコンテキストの組である解析後文章の集合から、前記決定木と前記コンテキストを用いて前記解析後文章に対応する選択元文章を前記学習用文章セットに追加するか否かを判断することにより、前記学習用文章セットを生成する文章選択ステップと
を実行する文章セット生成方法。
The learning sentence set used when the sentence set generating device learns a converted model that is another speech synthesis model from a conversion source model that is a speech synthesis model expressed as a decision tree, A sentence set generation method for generating as a subset,
Each internal node other than the leaf node of the decision tree is given a question regarding a sentence selection element used for sentence selection,
The determination is made from a set of post-analysis texts, which is a set of contexts expressed using the source text of the population text set and the text selection elements, recorded in the post-analysis text recording unit included in the text set generation device. Executing a sentence selection step of generating the learning sentence set by determining whether or not to add a selection source sentence corresponding to the analyzed sentence to the learning sentence set using the tree and the context Sentence set generation method.
請求項1ないし3のいずれか1項に記載の文章セット生成装置としてコンピュータを機能させるためのプログラム。   The program for functioning a computer as a text set production | generation apparatus of any one of Claim 1 thru | or 3.
JP2015236629A 2015-12-03 2015-12-03 Sentence set generation device, sentence set generation method, program Active JP6479637B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015236629A JP6479637B2 (en) 2015-12-03 2015-12-03 Sentence set generation device, sentence set generation method, program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015236629A JP6479637B2 (en) 2015-12-03 2015-12-03 Sentence set generation device, sentence set generation method, program

Publications (2)

Publication Number Publication Date
JP2017102328A JP2017102328A (en) 2017-06-08
JP6479637B2 true JP6479637B2 (en) 2019-03-06

Family

ID=59017208

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015236629A Active JP6479637B2 (en) 2015-12-03 2015-12-03 Sentence set generation device, sentence set generation method, program

Country Status (1)

Country Link
JP (1) JP6479637B2 (en)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3981619B2 (en) * 2002-10-15 2007-09-26 日本電信電話株式会社 Recording list acquisition device, speech segment database creation device, and device program thereof
JP3960928B2 (en) * 2003-02-14 2007-08-15 日本電信電話株式会社 Text selection method, apparatus and program
JP2004251953A (en) * 2003-02-18 2004-09-09 Nippon Telegr & Teleph Corp <Ntt> Method, device, and program for text selection
JP2009237564A (en) * 2008-03-05 2009-10-15 Panasonic Electric Works Co Ltd Data selection method for speech synthesis

Also Published As

Publication number Publication date
JP2017102328A (en) 2017-06-08

Similar Documents

Publication Publication Date Title
US10347238B2 (en) Text-based insertion and replacement in audio narration
JP6622505B2 (en) Acoustic model learning device, speech synthesis device, acoustic model learning method, speech synthesis method, program
JP4328698B2 (en) Fragment set creation method and apparatus
US9484012B2 (en) Speech synthesis dictionary generation apparatus, speech synthesis dictionary generation method and computer program product
JP5631915B2 (en) Speech synthesis apparatus, speech synthesis method, speech synthesis program, and learning apparatus
JP4455610B2 (en) Prosody pattern generation device, speech synthesizer, program, and prosody pattern generation method
JP4241762B2 (en) Speech synthesizer, method thereof, and program
JP2007249212A (en) Method, computer program and processor for text speech synthesis
US20160140953A1 (en) Speech synthesis apparatus and control method thereof
US8380508B2 (en) Local and remote feedback loop for speech synthesis
JP5148026B1 (en) Speech synthesis apparatus and speech synthesis method
JP5411845B2 (en) Speech synthesis method, speech synthesizer, and speech synthesis program
JP2019179257A (en) Acoustic model learning device, voice synthesizer, acoustic model learning method, voice synthesis method, and program
JP6631883B2 (en) Model learning device for cross-lingual speech synthesis, model learning method for cross-lingual speech synthesis, program
JP4247289B1 (en) Speech synthesis apparatus, speech synthesis method and program thereof
JP5726822B2 (en) Speech synthesis apparatus, method and program
JP5512597B2 (en) Speech synthesis apparatus, method and program thereof
JP2017167526A (en) Multiple stream spectrum expression for synthesis of statistical parametric voice
JP2013164609A (en) Singing synthesizing database generation device, and pitch curve generation device
JP4648878B2 (en) Style designation type speech synthesis method, style designation type speech synthesis apparatus, program thereof, and storage medium thereof
JP6479637B2 (en) Sentence set generation device, sentence set generation method, program
JP6006678B2 (en) Speech model generation apparatus, method, and program
JP5840075B2 (en) Speech waveform database generation apparatus, method, and program
JP6314828B2 (en) Prosody model learning device, prosody model learning method, speech synthesis system, and prosody model learning program
JP6523423B2 (en) Speech synthesizer, speech synthesis method and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180215

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190206

R150 Certificate of patent or registration of utility model

Ref document number: 6479637

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150