JP2006227589A - Device and method for speech synthesis - Google Patents
Device and method for speech synthesis Download PDFInfo
- Publication number
- JP2006227589A JP2006227589A JP2005376598A JP2005376598A JP2006227589A JP 2006227589 A JP2006227589 A JP 2006227589A JP 2005376598 A JP2005376598 A JP 2005376598A JP 2005376598 A JP2005376598 A JP 2005376598A JP 2006227589 A JP2006227589 A JP 2006227589A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- unit
- text
- phoneme
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
本発明は音声の発話スタイルの時間的変化を記述した音声合成用テキスト構造に基づき、発話スタイルの時間的変化を実現した音声合成装置および音声合成方法に関するものである。 The present invention relates to a speech synthesizer and a speech synthesis method that realize a temporal change of an utterance style based on a text structure for speech synthesis that describes a temporal change of a speech utterance style.
従来の発話スタイルの時間的変化を実現した音声合成方法としては、部分的な強調や、感情表現などを音声の韻律のみを変化させることによって表現するものがあった(例えば、特許文献1、特許文献2、特許文献3参照)。強調や感情表現を含む時間経過に伴って滑らかに変化する音声における豊かな表現を合成音声において実現しようとする要求は、合成音声が単なる情報提供手段でなく、ひとつの表現手段としてコンテンツ制作に取り入れられるようになってより高くなっている。そのような時間経過に伴って変化する感情表現を合成音声に付け加える手段として、合成すべきテキストの意味解析により感情の種類と強度を抽出し、時間経過に伴う変化を設定し、指定された変化に合わせて韻律および音声パラメータをあらかじめ定められた関数とその混合関数に従って変形することによって音声の感情の時間的変化を実現したものがある(例えば、特許文献4、特許文献5参照)。
As a conventional speech synthesis method that realizes temporal changes in the utterance style, there are methods that express partial emphasis, emotional expression, etc. by changing only the prosody of the speech (for example,
さらに、コンテンツが流通し、機能、方式および能力の異なる再生装置によって再生されることを考慮して、再生装置の状況にかかわらず再生時に一定の再現精度を保証するために、マークアップ言語が作られ、音声においてはVoiceXMLVer.2.0およびSSML(Speech Synthesis Markup Language)Ver.1.0が規格化されている。音声の時間経過に伴う変化をマークアップ言語により記述する方式については、音声に変換しようとする自然言語テキストの単語あるいは文字間にタグを挿入して、音声の変化の対象となるテキスト範囲の始点と終点を示し、音声の属性とその強度、変化方式等を記述するものがある(例えば特許文献2、特許文献3参照)。図20は、前記特許文献3に記載された従来の音声の時間的変化を記述した音声合成用テキスト構造を示すものであり、図21は図20のような音声合成用テキストを取得して音声合成により音声を生成する音声合成装置の構成を示すブロック図である。図20は「冬型の気圧配置となった9日、近畿地方など西日本は雪の影響で交通機関が乱れました」というテキストを合成音声にする際に、文の最初は「幸せそう(happy)」な声で話し始め、文中で徐々に変化し最後には「怒り(angry)」の声で終了するよう指示するものである。これは、タグ内の<morphing type = "express" start = "happy" end = "angry" >で示されている。morphing type = "express"は、声に対する変形が表現に関することを示している。かつ、start = "happy"は、文の最初で「幸せそう(happy)」に話し始めること、end = "angry" は、最後に「怒り(angry)」の声で終了することを示している。図21において、テキスト入力部104はこのようなタグ付きテキスト103の入力を受け付け、テキスト解析部105は、タグ付きテキスト103のどこが指示でどこが指示でないかを解析する。タグ解析部106は入力されたタグ付きテキスト103のマークアップ言語の記述を解析し、タグ属性解析部107はタグ間の整合性を確認した後タグによる指示を解釈する。次いで、言語処理部108は言語辞書110を参照しながら、タグを省いた音声に変換する対象のテキストを言語解析する。さらに、音声合成部109は韻律・波形辞書を参照しながら、タグ属性解析部107で解釈されたタグによる指示に基づき、音の高低、デュレーションおよび強弱からなる韻律を変形し、音声を合成する。始点と終点との間は実際の音声の時間長に対する関数として定義された補間関数により変形量が設定される。
しかしながら、マークアップ言語については、時間的変化を時間と韻律パラメータの関係として記述する際に、実時間を記述している。図22(a)は、対象となるテキスト範囲が音声に変換された際の実時間に対応付けて韻律の変化を指示するマークアップ言語の一例を示す図である。図22(a)のVoiceXMLVer.2.0のように実時間による記述では、韻律の動きを、0.1秒後に声の高さを20Hz高くし、それより0.75秒後に声の高さをさらに10Hz高くするよう指示している。しかし、音声合成装置ごとの内部の動作や標準データによって、合成される音声の時間長が異なるため、図23の音声合成装置Aと音声合成装置Bとでは音声開始から0.10秒と0.75秒の時間位置で発音されている音韻が異なる。例えば、音声合成装置Aでは音声開始から0.10秒で、「は」という音声の開始直後であるが、音声合成装置Bでは音声開始から0.10秒で、まだ「お」という音声の終わりの方が発音されている。このように、マークアップ言語で指定した時間位置と音韻列や単語列との時間位置の関係は音声合成装置ごとに異なることになり、場合によっては指定時間位置が、音声が終了した後になってしまう等、音声合成装置ごとの再現性があまり高いとは言えないという問題がある。 However, in the markup language, the real time is described when the temporal change is described as the relationship between the time and the prosodic parameter. FIG. 22A is a diagram illustrating an example of a markup language that indicates a change in prosody in association with real time when a target text range is converted into speech. In the description in real time like VoiceXMLVer.2.0 in FIG. 22 (a), the prosody movement is set to increase the voice pitch by 20 Hz after 0.1 second, and further increase the voice pitch by 10 Hz after 0.75 seconds. I am instructing. However, since the time length of the synthesized speech differs depending on the internal operation and standard data for each speech synthesizer, the speech synthesizer A and speech synthesizer B in FIG. 23 have a time of 0.10 seconds and 0.75 seconds from the start of speech. The phonemes that are pronounced at different positions are different. For example, in the speech synthesizer A, it is 0.10 seconds from the start of speech and immediately after the start of the speech “ha”, but in the speech synthesizer B, it is 0.10 seconds from the start of speech and the end of the speech “o” is still pronounced. Has been. Thus, the relationship between the time position specified in the markup language and the time position between the phoneme string and the word string will be different for each speech synthesizer, and in some cases, the specified time position may be after the end of the speech. For example, the reproducibility of each speech synthesizer is not very high.
また、図22(b)は、韻律の時間的変化を記述するために、変化の対象となるテキスト範囲が音声に変換された際の時間長に対する先頭位置からの比率で時間位置を記述している一例を示す図である。しかし、図23に示すように、実時間で記述する場合と同様、音声合成装置ごとに音韻ごとの時間長は異なり、音声合成装置Aと音声合成装置Bとでは、音声の先頭から40%の時間位置で発音されている音韻が異なる。例えば、音声合成装置Aでは音声開始から40%の時間位置で、「ご」という音声の開始直後であるが、音声合成装置Bでは音声開始から40%の時間位置で、「よー」の「ー」という音声の中間が発音されているところである。このように、マークアップ言語による韻律変化の指示を記述した場合には、期待した音韻に対応した時間位置で発話スタイルを制御することができない。 Further, FIG. 22 (b) describes the time position by the ratio from the head position to the time length when the text range to be changed is converted to speech in order to describe the temporal change of the prosody. FIG. However, as shown in FIG. 23, the time length for each phoneme is different for each speech synthesizer, as in the case of description in real time, and the speech synthesizer A and the speech synthesizer B are 40% from the beginning of the speech. The phonemes that are pronounced at the time position are different. For example, in the speech synthesizer A, the voice position is 40% from the start of the voice and immediately after the start of the voice “go”, but in the voice synthesizer B, the voice position “40” is 40% from the start of the voice. Is in the middle of the sound. As described above, when an instruction for prosody change by a markup language is described, the utterance style cannot be controlled at the time position corresponding to the expected phoneme.
文中のある形態素の先頭のつもりで時間位置30%を指定した場合に、音声合成装置によっては音韻の時間長データがマークアップ言語記述時の予測と異なるために、時間位置30%の位置は、意図した形態素の末尾になってしまうというように、やはり音声合成装置ごとの再現性が低くなってしまう。すなわちマークアップ言語の記述作業者が意図する時間的変化を音韻や単語といった記述作業者にとって自然な、自身の発話イメージの再現として発話スタイルの時間的変化を記述する方法が無く、それを再現する音声合成装置も無かった。また、マークアップ言語は、欧州言語のような言語であれば単語の間、日本語や中国語のような表記方法を持つ言語であれば文字の間にタグを記述するが、欧州言語においては複数音節からなる長い単語、日本語であれば複数音節あるいはモーラを持つ1文字の漢字の途中に発話スタイル制御の始点や終点を設定することが難しく、欧州言語の単語や日本語の文字以下の単位での制御を指示することが困難である。すなわち「掌」という文字の「たなごころ」という読みに対して、読みの一部である「ごころ」を強調する、基本周波数を上昇させる、声質を変える等の指示をすることができなかった。 When 30% time position is specified at the beginning of a certain morpheme in a sentence, the time length data of phonemes differs from the prediction at the time of markup language description depending on the speech synthesizer. The reproducibility for each speech synthesizer is also lowered, such as the end of the intended morpheme. In other words, there is no way to describe the temporal change of the utterance style as a reproduction of one's own utterance image, which is natural for the writer of the phoneme and words, and reproduces the temporal change intended by the markup language description worker. There was no speech synthesizer. In markup languages, tags are written between words in languages such as European languages, and between characters in languages with notation methods such as Japanese and Chinese. In European languages, It is difficult to set the start and end points of utterance style control in the middle of a single word kanji with multiple syllables or mora for long words consisting of multiple syllables. It is difficult to instruct control in units. In other words, for the reading “palm” of the word “palm”, it was not possible to give instructions such as emphasizing “Kokoro” as part of the reading, increasing the fundamental frequency, changing the voice quality, etc. .
さらに、欧州言語については文と発音の関係が複雑な言語もあり、単語中の音素あるいは音節の区切りに対応する文字位置にタグを記述するのは困難である。すなわちマークアップ言語の記述作業者が意図する時間的変化を音韻や単語といった記述作業者にとって自然な、自身の発話イメージの再現として精度よく発話スタイルの時間的変化を記述することができず、音声合成装置が異なると記述作業者が意図する時間的変化が再現できないという課題を有している。 Furthermore, in some European languages, the relationship between sentence and pronunciation is complicated, and it is difficult to describe a tag at a character position corresponding to a phoneme or syllable break in a word. In other words, it is not possible to accurately describe the temporal change of the utterance style as a reproduction of one's utterance image, which is natural for the description worker such as phonology or words, with respect to the temporal change intended by the markup language description worker. If the synthesizing apparatus is different, there is a problem that the temporal change intended by the description worker cannot be reproduced.
本発明は、前記従来の課題を解決するもので、合成音声の発話スタイルの時間的変化を音声合成装置ごとの標準データや動作の違いにかかわらず、精度よく再現するための音声合成用テキスト構造と、そのテキスト構造を用いて指定された発話スタイルの時間的変化を忠実に再現するための音声合成装置および音声合成方法を提供することを目的とする。 The present invention solves the above-described conventional problems, and is a text structure for speech synthesis for accurately reproducing a temporal change in the speech style of synthesized speech regardless of differences in standard data and operation for each speech synthesizer. Another object of the present invention is to provide a speech synthesizer and a speech synthesis method for faithfully reproducing temporal changes in the utterance style specified by using the text structure.
前記従来の課題を解決するために、本発明の音声合成装置は、コマンド付きテキストを入力とし、前記テキストを読み上げる音声を合成する音声合成装置であって、コマンド付きテキストを、(1)音声に合成すべき前記テキストと(2)前記テキストから合成される音声の発話表現である発話スタイルの時間的変化を、音素、モーラ、音節のいずれか1つを単位として指定する発話スタイルコマンドとに分離する分離手段と、分離された前記テキストを言語解析し、少なくとも前記テキストを表す音素列、モーラ列、音節列のうち前記発話スタイルコマンドにおいて前記時間的変化を指定する単位として使用された単位で表記された音韻列を出力する言語処理手段と、前記発話スタイルコマンドで指定された単位を識別し、出力された前記音韻列中において、前記発話スタイルコマンドで前記発話スタイルの前記時間的変化が指定された音韻区間を、識別した単位で特定する区間特定手段と、特定された前記音韻区間において、前記発話スタイルの時間的変化に従って発話される音声を合成する音声合成手段とを備えることを特徴とする。 In order to solve the above-described conventional problems, a speech synthesizer according to the present invention is a speech synthesizer that synthesizes a speech that reads out text with a command-attached text as an input. Separation of the text to be synthesized and (2) utterance style commands that specify temporal changes in the utterance style, which is the utterance expression of speech synthesized from the text, in units of one of phonemes, mora, or syllables Separation means for performing linguistic analysis on the separated text, and at least a phoneme string, a mora string, and a syllable string representing the text are expressed in a unit used as a unit for specifying the temporal change in the utterance style command A linguistic processing means for outputting the phoneme sequence that has been output, and identifying the unit specified by the utterance style command; In the rhyme sequence, a section specifying means for specifying, in the identified unit, a phonological section in which the temporal change of the utterance style is specified by the utterance style command, and a time of the utterance style in the specified phonological section. Voice synthesis means for synthesizing a voice uttered according to a change in the sound.
本構成によって、マークアップ言語を用いることにより、個々の音声合成装置が標準の音韻時間長として設定している音韻時間長にかかわり無く、発話スタイルコマンドで発話スタイルの時間的変化が指定された音韻区間を正確に特定することができ、これによって、発話スタイルの時間的変化を正確に再現した合成音声を生成することができる。さらに、本発明の音声合成装置によれば、発話スタイルコマンドにより、発話スタイルの時間的変化を、音素、モーラ、音節のいずれか1つを単位として指定することができるので、発話スタイルの時間的変化をより滑らかに表した自然な合成音声を生成することができる。 With this configuration, by using a markup language, a phoneme whose utterance style changes over time is specified by the utterance style command regardless of the phoneme duration set by each speech synthesizer as the standard phoneme duration. It is possible to accurately specify the section, and thereby, it is possible to generate synthesized speech that accurately reproduces the temporal change of the utterance style. Furthermore, according to the speech synthesizer of the present invention, the temporal change of the speech style can be specified in units of one of phonemes, mora, and syllables by the speech style command. It is possible to generate a natural synthesized speech that represents changes more smoothly.
なお、本発明は、このような音声合成装置として実現することができるだけでなく、このような音声合成装置が備える特徴的な手段をステップとする音声合成方法として実現したり、それらのステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、CD−ROM等の記録媒体やインターネット等の伝送媒体を介して配信することができるのは言うまでもない。 Note that the present invention can be realized not only as such a speech synthesizer, but also as a speech synthesis method using steps characteristic of the speech synthesizer as a step, or by performing these steps as a computer. It can also be realized as a program to be executed. Needless to say, such a program can be distributed via a recording medium such as a CD-ROM or a transmission medium such as the Internet.
本発明の音声合成用テキスト構造によれば、合成音声の発話スタイルの時間的変化を記述する際に、時間位置を音声あるいは言語単位で指定することで、音声合成装置ごとの標準データや動作の違いによって生じる音声合成装置ごとの音韻時間長の差のために、マークアップ言語記述時の意図とは異なった音韻や単語等の音声的あるは言語的位置で発話スタイルが制御されることを防ぎ、個々の音声合成装置のデータや動作に非依存な、再現精度の高い発話スタイルの時間的変化の記述方法を提供することができる。さらに発話スタイルの時間的変化を音声あるいは言語の単位で指定することで、実時間や時間比率による指定では困難な自然言語文字列との明確な対応を定義することができるため、記述作業者が意図する時間的変化を自身の発話イメージで定義することができ、より直感的に指定することができる。さらにタグが挿入可能な単位であるテキスト表記の単語あるいは文字よりも小さい、音素、モーラ、音節の単位で時間的変化の始点や終点を指定することができる。また、そのようなマークアップ言語の記述に対して、本発明の音声合成装置および音声合成方法によれば、発話スタイル変換関数の選択と変形、統計的学習による発話スタイル空間の変換、素片ごとに用意された混合のための対応点を利用した音声合成パラメータや音声分析パラメータの混合(モーフィング)により、発話スタイルの再現と時間的変化の制御が可能となり韻律のみならず、スペクトル情報も含めた音声の特徴を細やかに制御することができ、記述された発話スタイルの時間的変化を高精度に再現することができる。 According to the text structure for speech synthesis of the present invention, when describing the temporal change of the speech style of synthesized speech, by specifying the time position in speech or language units, the standard data and operation of each speech synthesizer can be specified. Due to differences in phoneme durations between speech synthesizers caused by differences, it prevents speech styles from being controlled at phonetic or linguistic positions, such as phonemes and words, which are different from the intentions of markup language descriptions. In addition, it is possible to provide a method for describing a temporal change of an utterance style with high reproducibility that is independent of data and operations of individual speech synthesizers. Furthermore, by designating temporal changes in utterance style in units of speech or language, it is possible to define a clear correspondence with natural language character strings that are difficult to specify by real time or time ratio, so that the description worker can The intended temporal change can be defined by its own speech image and can be specified more intuitively. Furthermore, the start point and end point of temporal change can be specified in units of phonemes, mora, and syllables that are smaller than a word or character in text notation, which is a unit in which a tag can be inserted. Further, according to such a markup language description, according to the speech synthesizer and speech synthesis method of the present invention, the selection and modification of the utterance style conversion function, the conversion of the utterance style space by statistical learning, and the unit By combining speech synthesis parameters and speech analysis parameters using corresponding points for mixing prepared in (Morphing), it is possible to reproduce utterance styles and control temporal changes, including spectral information as well as prosody It is possible to finely control the characteristics of the speech and to reproduce the temporal change of the described utterance style with high accuracy.
以下本発明の実施の形態について、図面を参照しながら説明する。 Embodiments of the present invention will be described below with reference to the drawings.
(実施の形態1)
図1は、本発明の実施の形態1における音声合成装置の機能ブロック図である。図2(a)及び(b)は、テキストに付与されたマークアップ言語のタグの一例を示す図である。図2(a)は、「あらゆる現実をすべて自分の方へ捻じ曲げたのだ」というテキストの先頭から14モーラ目までを、声の感情が怒りの「5」から「1」に変化しつつ発音されるよう音声の合成を指示したマークアップ言語を示している。図2(b)は、図2(a)に示した漢字かな混じりテキストをモーラで表し、合成音声の音韻部分と感情表現の変形との対応を具体的に示している。図3は、本発明の実施の形態1の音声合成装置の動作を示すフローチャートである。図4は、本発明の実施の形態1の音声合成装置の処理内容を模式的に示した図である。
(Embodiment 1)
FIG. 1 is a functional block diagram of the speech synthesizer according to
図1において、実施の形態1の音声合成装置は、韻律に変化を施すべき音韻の位置を、モーラを単位として指定する音声合成装置であって、テキスト入力部201、マークアップ言語解析部202、言語処理部203、辞書204、韻律制御部205、標準韻律パタンデータベース206、変形位置・変形重み決定部207、変換関数選択部208、変換関数データベース209、変換関数パラメータ設定部210、素片選択部211、標準素片データベース212、合成パラメータ生成部213および波形生成部214を備える。
In FIG. 1, the speech synthesizer of
テキスト入力部201は、定められたマークアップ言語の基準に従って記述されたタグ付きテキストの入力を受け付ける。
The
マークアップ言語解析部202は、テキスト入力部201に入力されたタグ付きテキストを解析し、タグ部分とタグ以外の自然言語部分(例えば、かな漢字混じりテキストなど)とに分離する。タグによる指示情報は、変形位置・変形重み決定部207に出力する。また、タグが挿入されていた位置情報(例えば、タグが、図2(a)に示した「あらゆる現実をすべて自分の方へ捻じ曲げたのだ」というテキストの「あ」の前に挿入されていたことを示す情報)をタグ以外の自然言語部分とともに、言語処理部203に出力する。
The markup
言語処理部203は、マークアップ言語解析部202で生成された(1)タグ以外の自然言語部分と(2)タグが挿入されていた位置情報との入力をうけ、辞書204を参照して自然言語部分の言語解析を行う。これにより、タグ以外の自然言語部分のモーラの数がわかる。そして、タグ挿入位置が対応付けられた読みを表す音韻列と、アクセントやアクセント句区切りおよびポーズ位置等を表す韻律指定情報、各形態素の品詞や文節の係り受け等をあらわす言語情報を出力する。
The
辞書204は、形態素の読み、品詞、アクセント、アクセント結合規則等を格納したデータベースである。
The
韻律制御部205は、言語処理部203により生成されたタグ挿入位置が対応付けられた音韻列、韻律指定情報と言語情報を入力され、音韻列、韻律指定情報、言語情報に基づき、標準韻律パタンデータベース206を参照して音韻列に対応した基本周波数、振幅、音韻時間長、ポーズ時間長を生成し、タグ挿入位置と対応付けて出力する。
The
変形位置・変形重み決定部207は、韻律制御部205で生成された音韻列に対応付けられたタグ挿入位置と音韻およびポーズ時間長と、マークアップ言語解析部202より出力されたタグによる指示情報を入力され、タグの指示とタグ挿入位置と音韻列に基づき発話スタイルの指定を解析し、音韻列上の区間と発話スタイルの対応を決定する。さらに、音韻列上で発話スタイルの変形を行う区間を決定し、発話スタイルの変形重みを決定する。
The deformation position / deformation
変換関数選択部208は変形位置・変形重み決定部207で生成された音韻列に対応する発話スタイルに従って、代表的あるいは基本的な発話スタイル、すなわち話者、声質、感情、対話の相手との人間関係等、発話の状況のようなパラ言語的表現に変化が起こる属性に対して、あらかじめ実音声より素片単位で韻律とスペクトルの対応点の差分を求めることで生成された韻律およびスペクトル情報を変換するための変換関数を変換関数データベース209から選択する。より具体的には、音韻や、形態素、韻律指定情報等と合わせて格納した変換関数データベース209より、音韻列に対応する変換関数を抽出する。例えば、図2(a)の「あらゆる現実を・・・」の「あ」の音声の表現が、後述する変換関数パラメータ設定部210により設定されるパラメータによって、anger「5」になるような変換関数を抽出する。
The conversion
変換関数パラメータ設定部210は、変形位置・変形重み決定部207で生成された変形区間と変形区間内の変形重みにより変換関数選択部208で抽出された各音韻に対応する発話スタイル変換関数のパラメータを設定する。
The conversion function
一方、素片選択部211は、韻律制御部205で生成された音韻列に対応した基本周波数、振幅、音韻時間長と、言語処理部203により生成された言語情報とから、後述の標準素片データベース212を参照して音韻列に対応する音声合成パラメータ素片を抽出する。
On the other hand, the
標準素片データベース212は、実音声より生成した音韻ごとの音声合成パラメータと音韻環境、基本周波数、振幅、音韻時間長、言語情報等の属性を格納しているデータベースである。
The
合成パラメータ生成部213は、素片選択部211で抽出された音声合成パラメータ素片を接続し、変換関数パラメータ設定部210でパラメータを設定された、音韻ごとの変換関数により各音韻の音声合成パラメータを変換し、発話スタイル変形を行った一連の音声合成パラメータ列を生成する。
The synthesis
波形生成部214は、合成パラメータ生成部213で生成された一連の音声合成パラメータに基づき音声波形を生成し、出力する。
The
次に、上記の構成による音声合成装置の動作を詳細に説明する。テキスト入力部201は、図2(a)に示すマークアップ言語によるタグ付きテキストを入力テキストとして受け付ける。図2(a)のタグ付きテキストは、「あらゆる現実をすべて自分の方へ捻じ曲げたのだ」というテキストについて、(b)に示すように、テキストの先頭は怒りの重み5の発話スタイルで、先頭音韻から、14モーラ目すなわち「自分の」の「ぶ」では怒りの重み1の発話スタイルとなるよう、14モーラの間に徐々に発話スタイルを変化させることを指示するものである。まずテキスト入力部201は図2の(a)のタグ付きテキストを受けつける(S2001)。マークアップ言語解析部202は入力テキスト中のタグを識別し(S2002)、タグ位置情報つきの自然言語と、タグによる発話スタイルの指示とに分離する(S2003)。言語処理部203は形態素の読み、品詞、アクセント、アクセント結合規則等を格納した辞書204を参照して形態素解析を行い、さらに形態素の構成から構文解析を行って、入力された自然言語テキストに対応する音韻列と言語情報を生成する。さらに、音韻列と言語情報に基づきアクセント、アクセント句の区切れ確率、ポーズ存在確率等の韻律指定情報を生成する(S2004)。さらに言語処理部203は、入力テキスト中のタグ位置に対応する音韻列中の位置にタグ位置を記録する(S2005)。韻律制御部205は音韻列と韻律指定情報および言語情報を属性として用いて、あらかじめ属性ごとにパラメータが設定された関数により、入力音韻列に対応する標準音韻時間長およびポーズ時間長を設定する。次いで、音韻列と韻律指定情報および言語情報の属性により、基本周波数と振幅の標準韻律パタンを標準韻律パタンデータベース204より抽出し、さらに属性に基づいて変形を加えて入力音韻列に対応する標準基本周波数パタン、標準振幅パタンを生成する(S2006)。図4は、タグによる発話スタイルの指示に基づいて、変形位置・変形重み決定部207によって決定されたモーラ単位の変形区間の一例を示す図である。変形位置・変形重み決定部207は韻律制御部205で生成された音韻列に対応する標準音韻時間長およびポーズ時間長とタグ位置、マークアップ言語解析部202で分離されたタグによる指示情報とに基づき、図4に示すように、モーラ単位で変形区間を設定し、さらにその変形区間の音韻時間長より変形区間の実時間を計算する(S2007)。次いで、実時間上で発話スタイルの重みを線形に補間する(S2008)。ステップS2008で実時間上で補間された重みより、音韻時間長を用いて素片選択単位の中心点と素片接続点での発話スタイルの重みを計算する(S2009)。変換関数選択部208はステップS2006で韻律制御部205によって生成された基本周波数パタン、振幅パタン、音韻時間長と、ステップS2007で変形位置・変形重み決定部207によって設定された変形区間と区間ごとに指定された発話スタイルとに基づいて、標準音声を生成する際に使用される素片を変換するのに最適な変換関数を各素片選択単位ごとに変換関数データベース209より抽出する。一方、素片選択部211はステップS2006で韻律制御部205によって生成された基本周波数パタン、振幅パタン、音韻時間長と音韻列とに従って、合成しようとする音声の音声合成パラメータ素片を標準素片データベース212より抽出する(S2010)。変換関数パラメータ設定部210はステップS2009で変形位置・変形重み決定部207により計算された素片選択単位の中心点と素片接続点での発話スタイルの重みに基づいて、ステップS2010で変換関数選択部208により変換関数データベース209から素片単位ごとに選択された変換関数の素片選択単位の中心と素片接続点での変換関数パラメータを設定する(S2011)。音声パラメータ生成部213はステップS2010で素変選択部211により選択された音韻列に対応する標準音声を生成する音声合成パラメータと、ステップS2006で生成された基本周波数パタン、振幅パタン、音韻時間長、ポーズ時間長とをステップS2011でパラメータ設定された素片単位ごとの変換関数を用いて変換し、タグにより指定された発話スタイルの時間変化を実現する、連続した音声の音声合成パラメータ列を生成する(S2012)。波形生成部214はステップS2012で生成された音声合成パラメータに従って音声波形を合成する(S2013)。
Next, the operation of the speech synthesizer configured as described above will be described in detail. The
かかる読み、すなわち音韻列および韻律を設定した後に、タグによる発話スタイルの時間変化を設定する構成によれば、入力されたモーラ等の音声の単位で時間位置を記述されたタグ付きテキストに対して、ステップS2008、S2009で変形位置・変形重み決定部207が、韻律制御部205で生成されたテキストの読みに対応する個々の音韻の時間長を取得し、モーラ単位で記述された発話スタイル変形の指示を実時間軸上に配置された音韻列に対応させ、実時間上での変形重みの補間を行うことができる。従って、各音韻での変形重みを設定し、ステップS2011で変換関数パラメータ設定部210が、変換関数選択部208で素片ごとに選択された変換関数について、実時間上の変形重みの変化を実現するよう、音韻ごとに設定された変形重みに合わせて変換関数のパラメータを設定することができる。これにより、モーラ等の音声の単位で記述された時間位置は、音声合成装置ごとに音韻時間長データが異なっていても、正確に指定された音声単位に設定されることができる。かつ、各音声合成装置ごとの音韻時間長設定に従って実時間軸へ変換された上で補間され、実時間上で設定された発話スタイルの重みを音韻を基準とした関数選択の単位に従って参照して関数の選択単位ごとに発話スタイルの変形重みを設定し、その変形重みに従って発話スタイルを変換する変換関数のパラメータを設定して適用することで、標準音声の音声合成パラメータを変換して発話スタイルが実時間上で徐々に変化する滑らかな音声合成パラメータを生成することができる。タグとして記述された発話スタイルの時間変化は、タグを挿入することができない1文字より小さい音声単位で指定された、記述時に意図した音韻位置を正確に再現することができる。また、タグに指定された発話スタイルに対応する、音声素片単位であらかじめ生成されたスペクトル情報の変換を含む変換関数のパラメータを制御することで時間的に徐々に変化する発話スタイルの時間変化を韻律のみならず、スペクトル情報も合わせて制御し、タグに指定された発話スタイルの時間的変化を精度よく再現することができる。
After setting such a reading, that is, a phoneme string and a prosody, according to the configuration in which the time change of the utterance style by the tag is set, with respect to the tagged text in which the time position is described in the unit of speech such as input mora In steps S2008 and S2009, the transformation position / deformation
このように、本発明の実施の形態1の音声合成装置によれば、韻律を変化させる音韻列の位置をモーラに対応させて示すので、音声合成装置によって異なることなく正確に同一の音韻列を指定して韻律の変化を指示することができる。また、モーラに対応させて韻律の変化を指示することができるので、音韻列の長さが短い場合の細かい調整も可能になる。また、韻律を変化させる音韻列の範囲を正確に特定した上で、その範囲の発音に要する実時間を測定し、測定された時間に対応させて平均して変化させるので、音韻ごとに韻律を変化させる場合よりも、韻律の変化が滑らかに聞こえるという効果がある。
As described above, according to the speech synthesizer of
なお、上記実施の形態1では、韻律を変化させる音韻列の位置を、モーラに対応させて特定したが、モーラに限らず、モーラとは異なる音韻の単位を用いて特定するようにしてもよい。例えば、音節や音素などを単位として、韻律を変化させる音韻列の範囲を特定するとしてもよい。図5(a)、(b)および(c)は、本発明の実施の形態1における音声合成用テキスト構造の異なる形態とそのタグによる指示内容の模式図である。図5(a)は、図2(a)に示したタグ付きテキストと同様の韻律変更の指示を、その変更範囲を音節単位で数える場合のタグ付きテキストの一例を示している。図5(b)は、図5(a)に示した漢字かな混じりテキストを音節(syllable)で表し、合成音声の音韻部分と感情表現の変形との対応を具体的に示している。図5(c)は、変化する感情表現(発話スタイル)の重みの時間的変化をグラフで表している。図5(a)に示される「あらゆる現実をすべて自分の方へ捻じ曲げたのだ」という漢字かな混じりテキストは、音節では、「ん」や「を」が直前の音と1音で発音されるため、図5(b)にカタカナで示すように区切られる。すなわち、6音節目は、図2(b)に示した「ン」ではなく、「現実(「ゲン ジツ)」の「ジ」となる。このため、変更範囲を音節単位で6音節と指定した場合には、「アラユルゲン ジ」までの音声が実時間で線形補間されることになる。
In the first embodiment, the position of the phoneme string for changing the prosody is specified in association with the mora. However, the position is not limited to the mora, and may be specified using a unit of phoneme different from the mora. . For example, the range of the phoneme string that changes the prosody may be specified in units of syllables and phonemes. FIGS. 5A, 5B, and 5C are schematic diagrams of different forms of the text structure for speech synthesis and the contents of instructions by the tags according to
さらに、音素を単位として韻律を変化させる音韻列の範囲を特定するとしてもよい。図6(a)、(b)及び(c)は、本発明の実施の形態1における音声合成用テキスト構造の異なる形態とそのタグによる指示内容を示す模式図である。図6(a)は、図2(a)に示したタグ付きテキストと同様の韻律変更の指示を、その変更範囲を音素単位で数える場合のタグ付きテキストの一例を示している。ただし、図6(a)では、韻律を変化させる音韻列の範囲を13音素目までとしている。図6(b)は、図6(a)に示した漢字かな混じりテキストを音素(phoneme)で表し、合成音声の音韻部分と感情表現の変形との
対応を具体的に示している。図6(c)は、感情表現の時間的変化をグラフで表した図である。図6(b)および(c)に示すように、韻律の変更範囲を音素単位で13音素目とすると、「arayurugenjits」の「ts」が13音素目と数えられるので、結果的に「あらゆる現実」の「arayurugenjits」までの音声の韻律が、怒りの重み「5」から重み「1」まで、実時間的に滑らかに変化されて合成され、それ以降は重み「1」が維持されることになる。
Furthermore, a range of phoneme strings whose prosody is changed in units of phonemes may be specified. FIGS. 6A, 6B, and 6C are schematic views showing different forms of the text structure for speech synthesis and the contents of instructions by the tags according to
以上のように、本実施の形態1の音声合成装置によれば、発話スタイルの時間変化をタグとして記述し、しかも、記述時に意図した音韻位置を、タグを挿入することができないような1文字より小さい音声単位(例えば、音素、モーラ、音節)を単位として指定することができる。従って、単語等を単位として発話スタイルの時間変化を表す従来の音声合成装置と比較した場合、(1)発話スタイルの時間変化を指定するための音韻位置を、利用者の意図した音韻位置に、より正確に一致させることができる。さらに、(2)発話スタイルの時間変化を、より滑らかに自然な感じで表現することができるという効果がある。 As described above, according to the speech synthesizer of the first embodiment, one character that describes the time change of the utterance style as a tag and that cannot be inserted into the phoneme position intended at the time of description. Smaller speech units (eg, phonemes, mora, syllables) can be specified as units. Therefore, when compared with a conventional speech synthesizer that represents a time change of the utterance style in units of words or the like, (1) the phoneme position for designating the time change of the utterance style is changed to the phoneme position intended by the user. It can be matched more accurately. Furthermore, (2) there is an effect that the time change of the speech style can be expressed more smoothly and naturally.
(実施の形態2)
上記実施の形態1では、「怒り」という1つの感情表現についてのみ音韻列を変形したが、本発明の実施の形態2では、2つの感情表現の変形を混ぜ合わせて音韻列を変形し音声を合成する場合の例について説明する。また、実施の形態1では、モーラ、音節及び音素によって韻律の変更範囲を特定する場合について説明したが、本発明の実施の形態2では、アクセント句を単位として音韻列の範囲を特定する場合について説明する。図7は、本発明の実施の形態2のテキストに付与されたマークアップ言語のタグの一例を示す図である。図7(a)は、1つのタグ付きテキストに2つの韻律変更を行なう指示を示し、その変更範囲をアクセント句の単位で数える場合の例を示している。図7(b)は、図7(a)に示した漢字かな混じりテキストをアクセント句(acphrase)で表し、合成音声の音韻部分と感情表現の変形との対応を具体的に示している。図7(c)は、図7(b)のように重みが補間され、2つの感情表現の変形が混ぜ合わされたときのそれぞれの重みの時間的変化をグラフで表している。図8は本発明の実施の形態2の音声合成装置の動作を示すフローチャートである。図8において、図3と同じ動作ステップについては同じ符号を用い、説明を省略する。
(Embodiment 2)
In
なお、本実施の形態2の音声合成装置の構成は図1に同様であるので説明を省略する。
本発明の実施の形態2の音声合成装置の動作を詳細に説明する。テキスト入力部201は図7の(a)に示すマークアップ言語によるタグ付きテキストを入力テキストとして受け付ける。図7の(a)のタグ付きテキストは、「あらゆる現実をすべて自分の方へ捻じ曲げたのだ」というテキストについて、(b)に示すように、テキストの第1アクセント句すなわち、「あらゆる」の先頭は怒りの重み5の発話スタイルで表され、第1アクセント句から第3アクセント句まで、すなわち「すべて」まで徐々に怒りの重みが変化し、第3アクセント句の終端では怒りの重み2の発話スタイルとなる。さらに、第2アクセント句すなわち「現実を」の先頭では、笑いの重み0の発話スタイルで表現され、第2アクセント句から第5アクセント句まで徐々に笑いの重みが変化し、第5アクセント句すなわち「捻じ曲げたのだ」の終端では笑いの重み3の発話スタイルになる。すなわち、第2アクセント句から第5アクセント句の間では怒りと笑いの発話スタイルが重みを変えながら混合される複雑な表情の変化が指示されている。
The configuration of the speech synthesizer according to the second embodiment is the same as that shown in FIG.
The operation of the speech synthesizer according to the second embodiment of the present invention will be described in detail. The
このような入力に対し、図8のフローチャートではステップS2006の過程までは実施の形態1に共通であるので、以降の動作についてのみ説明する。変形位置・変形重み決定部207はステップS2006で韻律制御部205により生成された音韻列に対応する標準音韻時間長およびポーズ時間長とタグ位置、マークアップ言語解析部202で分離されたタグによる指示情報とに基づき、図7の(b)に示すように、アクセント句単位で指定された発話スタイルの時間変化の時間位置について、変化の開始点については指定されたアクセント句の先頭モーラを設定し、変化の終端については指定されたアクセント句の最終モーラを設定する。すなわち、「あらゆる」の「あ」の怒りの重み5からはじまり、「すべて」の「て」の怒りの重み2へ変化し、その後は終点タグのある文末まで怒りの重み2を維持する。一方「現実を」の「げ」の笑いの重み0から「捻じ曲げたのだ」の「だ」の笑いの重みを3に変化する。「現実を」の「げ」から「すべて」の「て」までは怒りの重み、および笑いの重み共に時間的に変化しており、「自分の方へ」の「じ」から一定の重みの怒りの発話スタイルに徐々に重みが変化する笑いの発話スタイルが混合されるよう、変形区間と発話スタイルが設定される。変形区間内の音韻時間長より変形区間の実時間を計算し(S2107)、発話スタイルごとに実時間上で発話スタイルの重みを線形に補間する(S2108)。ステップS2108で実時間上で補間された重みより、発話スタイルごとに音韻時間長を用いて素片選択単位の中心点と素片接続点での発話スタイルの重みを計算する(S2109)。変換関数選択部208はステップS2006で韻律制御部205によって生成された基本周波数パタン、振幅パタン、音韻時間長と、ステップS2107で変形位置・変形重み決定部207によって設定された変形区間と区間ごとに指定された発話スタイルに基づいて、標準音声を生成する際に使用される素片を変換するのに最適な変換関数を各素片選択単位ごとに変換関数データベース209より抽出する。複数の発話スタイルが指定されている区間にある音韻に対応する素片については指定されているすべての発話スタイルについて該当する変換関数を抽出する。一方素片選択部211はステップS2006で韻律制御部205によって生成された基本周波数パタン、振幅パタン、音韻時間長と音韻列とに従って、合成しようとする音声の音声合成パラメータ素片を標準素片データベース212より抽出する(S2110)。変換関数パラメータ設定部210はステップS2009で変形位置・変形重み決定部207により発話スタイルごとに計算された素片選択単位の中心点と素片接続点での発話スタイルの重みに基づき変換関数を合成する。複数の発話スタイルに対応して選択された変換関数の組み合わせによっては、合成結果としての変換関数による変換結果が音声として聞き取ることができないような、例えば基本周波数が高すぎて音韻の識別に重要な第1、第2フォルマントの周波数を超えてしまうような音声合成パラメータ列になる可能性がある。変換関数の合成に際し、あらかじめ作成されたパラメータ間の関係を考慮したパラメータ設定可能空間の中で変換関数を合成することにより合成された変換関数で変換された合成音声パラメータによる音声が破綻するのを防止する。上記のようにしてステップS2110で変換関数選択部208により変換関数データベース209から素片単位ごとに複数の発話スタイルに対応して選択された変換関数を1つの変換関数に合成し、素変選択単位の中心と素片接続点での変換関数パラメータを設定する(S2111)。音声パラメータ生成部213はステップS2110で素変選択部211により選択された音韻列に対応する標準音声を生成する音声合成パラメータと、ステップS2006で生成された基本周波数パタン、振幅パタン、音韻時間長、ポーズ時間長とをステップS2111で合成され、パラメータ設定された素片単位ごとの変換関数を用いて変換し、タグにより指定された複数の発話スタイルを混合する時間変化を実現する、連続した音声の音声合成パラメータ列を生成する(S2012)。波形生成部214はステップS2012で生成された音声合成パラメータに従って音声波形を合成する(S2013)。
With respect to such an input, since the process up to step S2006 is common to the first embodiment in the flowchart of FIG. 8, only the subsequent operation will be described. The deformed position / deformed
また、図9(a)、(b)及び(c)は、本発明の実施の形態2のテキストに付与されたマークアップ言語のタグの変形例を示す図である。図9(a)は、テキストを一対のタグで挟んで韻律変更の指示を記述するのではなく、1つのタグに続くテキストの先頭から韻律変更範囲をモーラの単位で数える場合の例を示している。図9(b)は、図9(a)に示した漢字かな混じりテキストをモーラで表し、混合される2つの合成音声の音韻部分と表現の変形(男声と女声)との対応を具体的に示している。図9(c)は、図9(b)のように重みが補間され、2つの表現の変形が混ぜ合わされたときのそれぞれの重みの時間的変化をグラフで表している。 FIGS. 9A, 9B, and 9C are diagrams showing modifications of the markup language tag attached to the text according to the second embodiment of the present invention. FIG. 9A shows an example in which the prosody change range is counted in units of mora from the beginning of the text following one tag, rather than describing the prosody change instruction by sandwiching the text between a pair of tags. Yes. FIG. 9B shows the kana-kana mixed text shown in FIG. 9A with mora, and specifically shows the correspondence between the phoneme portion of the two synthesized speech to be mixed and the transformation of the expression (male voice and female voice). Show. FIG. 9C is a graph showing temporal changes in the respective weights when the weights are interpolated as shown in FIG. 9B and the deformations of the two expressions are mixed.
変形例の音声合成装置の動作も図8に従って詳細に説明する。
図9の(a)のタグ付きテキストは、タグの指示が及ぶ範囲について終端を明示的に示さず、次の同内容のパラメータ変更指示あるいは、リセットの指示が入力されるまで最終の指定が維持される方式をとっている。例えば、<voice gender=male[5,0]14mora/>というタグでは、対になる2つのタグでテキストを挟んで発話スタイルの範囲を指定するのではなく、このタグの直後に来るテキストの先頭から、それに続くテキストの14モーラ目までを範囲として指定している。このように指定された範囲では、重み5から始まる男声が重み0に滑らかに変形されることが指示されている。すなわち、「あらゆる現実をすべて自分の方へ捻じ曲げたのだ」というテキストについて、(b)に示すように、発話スタイルのうち話者の性別について図9の(a)の1行目のタグでテキストの先頭で男声の重み5の発話スタイルから「あらゆる」の「あ」から14モーラ目に男声の重み0の発話スタイルになるように指定しており、図9の(a)の3行目のタグで「すべて」の「す」で女声の重み0の発話スタイルから「すべて」の「す」から15モーラ目で女声の重み5の発話スタイルになるように指定している。すなわち、男性らしい発話スタイルの先頭の「あ」から「現実を」の「を」にかけて徐々に中性的な発話スタイルへと変化していき、さらに「すべて」の「す」からさらに男性らしさが減少すると共に女性らしさが加わっていき、「自分」の「ぶ」でついには男性らしさが消え、その後さらに「捻じ曲げた」の「た」まで徐々に女性らしさが強くなり、「のだ」はそのまま女性らしい発話スタイルで話されるという複雑な話者様態の変化を指示するものである。このような入力に対し、図8のステップS2006の過程までは実施の形態1に共通であるので、以降の動作についてのみ説明する。
The operation of the modified speech synthesizer will also be described in detail with reference to FIG.
The tagged text in FIG. 9A does not explicitly indicate the end of the range covered by the tag instruction, and the final specification is maintained until the next parameter change instruction or reset instruction of the same content is input. Is used. For example, in the <voice gender = male [5,0] 14mora /> tag, instead of specifying the utterance style range with the text between two pairs of tags, the beginning of the text that comes immediately after this tag To the 14th mora of the text that follows. In the range specified in this way, it is instructed that a male voice starting from
変形位置・変形重み決定部207は韻律制御部205で生成された音韻列に対応する標準音韻時間長およびポーズ時間長とタグ位置、マークアップ言語解析部202で分離されたタグによる指示情報とに基づき、図9の(b)に示すように、モーラ単位で指定された発話スタイルの時間変化の時間位置について、変化の開始点についてはタグ直後のテキストの先頭に対応するモーラを設定し、変化の終端については開始点から数えたモーラ数に当たるモーラを設定する。すなわち、1行目のタグに対しては「あらゆる」の「あ」の男声の重み5からはじまり、「自分」の「ぶ」の男声の重み0へ変化し、その後は新たな指定がない限り男声の重みについては0を維持する一方「すべて」の「す」の女声の重み0から「捻じ曲げた」の「た」の女声の重み5に変化し、その後新たな指定がない限り女声の重みについては5を維持する。「すべて」の「す」から「自分」の「ぶ」までは男声の重み、女声の重み共に時間的に変化するよう、変形区間と発話スタイルが設定される。変形区間の実時間を計算し(S2107)、各発話スタイルの重みを線形に補間する(S2108)。さらにステップS2109で発話スタイルごとに素片選択単位の中心点と素片接続点での発話スタイルの重みを計算する。ステップS2110で変換関数選択部208は素片を変換する変換関数を各素片選択単位ごとに変換関数データベース209より抽出し、一方素片選択部211は音声の音声合成パラメータ素片を標準素片データベース212より抽出する。ステップ2111で変換関数パラメータ設定部210は発話スタイル重みに基づき変換関数を合成し、パラメータを設定する。ステップS2012で音声パラメータ生成部213が連続した音声の音声合成パラメータ列を生成し、ステップS2013で波形生成部214が音声合成パラメータに従って音声波形を合成する。
The deformation position / deformation
かかる変形位置・変形重み決定部207でタグによる発話スタイルを混合して実現する時間変化を設定する構成によれば、入力されたアクセント句、呼気段落等の音声の単位で時間位置を記述されたタグ付きテキストに対して、変形位置・変形重み決定部207が韻律制御部205によってステップS2006で生成された実時間で示された音韻時間長にアクセント句等の音声単位で発話スタイルの時間変化を指示したタグを対応させ、音韻時間長に応じて設定された発話スタイルの時間変化を実現するように変換関数パラメータ設定部210で変換関数を合成してパラメータを設定することができる。これにより、音声合成装置ごとにそれぞれに異なる音韻時間長ごとに対応して、アクセント句等の音声の単位で記述された時間位置を、指定された音声単位に実時間軸上で正確に設定することができる。従って、実時間軸上で補間された発話スタイル重みに従って発話スタイルを混合して変換する合成変換関数を作成してパラメータを設定し、適用することができる。そして、標準音声の音声合成パラメータを変換して複数の発話スタイルがあるスタイルから、徐々に他のスタイルへ変化していくような、実時間上で徐々に変化、遷移する音声合成パラメータを生成することにより、滑らかな発話スタイルの変化を表現することができる。すなわち、タグとして記述された発話スタイルの時間変化は音声単位で指定された、記述時に意図した音韻位置を正確に再現することができる。また、タグに指定された発話スタイルに対応する、音声素片単位であらかじめ生成されたスペクトル情報の変換を含む変換関数のパラメータを波形生成時に音声として破綻しない範囲で合成、制御することで時間的に徐々に変化、遷移する発話スタイルの時間変化を韻律のみならず、スペクトル情報も合わせて制御し、タグに指定された発話スタイルの時間的変化を精度よく再現することができる。
According to the configuration in which the change position / deformation
なお、本実施の形態において、発話スタイルを混合する際に音声波形が破綻しない範囲のパラメータ空間内で変換関数を合成するとしたが、特開2003−233388号公報のように、発話スタイル重みを正規化して発話スタイルの混合比率を設定し、合成変換関数が合成音声が破綻するような極端な変換を行わないように制御するものとしても良い。 In this embodiment, when the utterance styles are mixed, the conversion function is synthesized within the parameter space in a range where the speech waveform does not fail. However, as disclosed in JP-A-2003-233388, the utterance style weights are normalized. It is also possible to set the utterance style mixing ratio and control the composite conversion function so as not to perform extreme conversion that causes the synthesized speech to fail.
(実施の形態3)
上記実施の形態1および実施の形態2では、タグ付きテキストの表現を時間的に滑らかに変形させる場合について説明したが、本発明の実施の形態3ではテキストの一部分だけ臨時的に表現を変形させる方法について説明する。図10(a)、(b)及び(c)は、本実施の形態3のテキストに付与されたマークアップ言語のタグの一例を示す図である。図10(a)は、図9(a)に示した記述に加えて、一時的にテキストの一部分の感情表現を変更する場合に、そのテキスト部分を一対のタグで挟んで韻律変更の指示を記述する例を示している。図10(b)は、図10(a)に示した漢字かな混じりテキストをモーラで表し、混合される2つの合成音声の音韻部分と感情表現の重み変形処理との対応を具体的に示している。図10(c)は、図10(b)のように重みが補間および臨時処理され、2つの表現の変形が混ぜ合わされたときの「怒り」の重みの時間的変化をグラフで表している。図11は、本実施の形態3の音声合成装置の動作を示すフローチャートの一部である。図11においてはステップS2009までは図3と同じ動作であるので図示及び説明を省略し、さらにS2009以降においても図3と同じ動作ステップについては同じ符号を用い、説明を省略する。
(Embodiment 3)
In the first embodiment and the second embodiment, the case where the expression of the tagged text is smoothly deformed in time has been described, but in the third embodiment of the present invention, the expression is temporarily modified only for a part of the text. A method will be described. FIGS. 10A, 10B, and 10C are diagrams showing an example of a markup language tag attached to the text of the third embodiment. FIG. 10A shows a prosody change instruction in addition to the description shown in FIG. 9A when the emotional expression of a part of the text is temporarily changed by sandwiching the text part between a pair of tags. An example to describe is shown. FIG. 10B shows the kanji-kana mixed text shown in FIG. 10A with a mora, and specifically shows the correspondence between the phoneme portion of the two synthesized speech to be mixed and the weight transformation processing of the emotion expression. Yes. FIG. 10C is a graph showing temporal changes in the weight of “anger” when the weights are interpolated and temporarily processed as shown in FIG. 10B and the deformations of the two expressions are mixed. FIG. 11 is a part of a flowchart showing the operation of the speech synthesis apparatus according to the third embodiment. In FIG. 11, the operations up to step S2009 are the same as those in FIG. 3, and thus illustration and description thereof are omitted. Further, even after S2009, the same operation steps as those in FIG.
音声合成装置の構成は図1に同様であるので説明を省略する。
テキスト入力部201は図10の(a)に示すマークアップ言語によるタグ付きテキストを入力テキストとして受け付ける。図10の(a)のタグ付きテキストは、「あらゆる現実をすべて自分の方へ捻じ曲げたのだ」というテキストについて、(b)に示すように、テキストの先頭は怒りの重み5の発話スタイルで、先頭音韻から、17モーラ目すなわち「方」の「ー(長音部分)」では怒りの重み0の発話スタイルとなるよう、17モーラの間に徐々に発話スタイルを変化させることを指示するものである。さらに、その発話スタイルの時間的変化の途中で、設定した時間的変化を指定区間のみ無効とする臨時処理が指定され、「すべて」の区間のみ1行目のタグによって指定された発話スタイルとはかかわり無く、怒りの重み5の発話スタイルを指示するものである。ステップS2001からステップS2008までは、実施の形態1では発話スタイルの時間的変化の終端が先頭から14モーラ目であったのが、本実施の形態では先頭から17モーラ目に変わった以外は同様の動作であるので説明を省略し、ステップS2009より詳細を説明する。実施の形態1と同様にステップS2009で、実時間上で補間された重みに基づき、音韻時間長を用いて素片選択単位の中心点と素片接続点での発話スタイル重みを計算する。変形区間内に臨時処理を指示するタグがない場合には(S2201)実施の形態1と同様にステップS2010からステップS2013の処理を経て、素片と変換関数を選択し、標準韻律と標準素片を変換関数に従って変換し、音声合成パラメータを生成し、その音声合成パラメータに従って音声波形を合成する。変形区間内に臨時処理を指示するタグがある場合には(S2201)、変形位置・変形重み決定部207は臨時処理区間の音韻を特定し(S2202)、臨時処理区間内に発話スタイルの時間変化指定がない場合には(S2203)ステップS2209で設定された発話スタイルとその重みのうちステップS2202で特定された臨時処理区間の音韻に対応する音声素片に対応する発話スタイルとその重みを臨時処理で指定されたものと入れ替える(S2206)。臨時処理区間内に発話スタイルの時間変化指定がある場合には(S2203)臨時処理区間の音韻時間長より実時間位置での発話スタイル重みを設定し(S2204)、ステップS2204で設定した実時間軸上で補間した発話スタイルとその重みを音韻時間長より素片選択単位に変換する(S2205)。ステップS2205で素片選択単位に変換された発話スタイルとその重みに基づき、ステップS2209で設定された発話スタイルとその重みのうち臨時処理区間の音韻に対応する音声素片に対応する発話スタイルとその重みを臨時処理で指定されたものと入れ替える(S2206)。図10の例では、図10の(a)の1行目で指定する発話スタイルの時間変化の変形区間内に指定された臨時処理は時間的変化を含まないため、「あらゆる」の「あ」から「方へ」の「ー」で、徐々に怒りの発話スタイルの重みが減少していく途中、3行目と5行目のタグによって「すべて」のみ怒りの重み5の発話スタイルを維持し、「自分の方へ」で再度1行目のタグの指示する時間的変化に戻るように、発話スタイルとその重みが素片選択単位で設定される。変形位置・変形重み決定部207により上記ステップS2009からS2206のように計算された素片選択単位の中心点と素片接続点での発話スタイル重みに基づいて、実施の形態1と同様に変換関数パラメータ設定部210はステップS2010で変換関数選択部208により変換関数データベース209から素片単位ごとに選択された変換関数の素変選択単位の中心と素片接続点での変換関数パラメータを設定する。音声パラメータ生成部213はステップS2010で素変選択部211により選択された音韻列に対応する標準音声を生成する音声合成パラメータと、ステップS2006で生成された基本周波数パタン、振幅パタン、音韻時間長、ポーズ時間長とをステップS2011でパラメータ設定された素片単位ごとの変換関数を用いて変換し、タグによりしてされた発話スタイルの時間変化を実現する、連続した音声の音声合成パラメータ列を生成する(S2012)。波形生成部214はステップS2012で生成された音声合成パラメータに従って音声波形を合成する(S2013)。
The configuration of the speech synthesizer is the same as that shown in FIG.
The
かかる変形位置・変形重み決定部207において発話スタイルの臨時処理を記述したタグに対応する構成によれば、モーラ等の音声の単位で時間位置を記述され、一連の時間変化を行う区間の途中にその連続した変化を一時中断して臨時の処理を行う指示が記述されたタグ付きテキストに対し、変形位置・変形重み決定部207で背景となる発話スタイルの変形区間内に臨時処理が含まれるかどうかを判断し、臨時処理区間の発話スタイル重みを設定して背景となる発話スタイル重みの情報と入れ替えることで発話スタイルが実時間上で徐々に変化する途中で、背景となる変化とは独立に指定された発話スタイルを挿入した音声合成パラメータを生成することととなり、時間的変化を指定した区間内に臨時処理を指定する方法を提供することで、比較的広範にわたる変化の中で、局所的な変化を指定することができ、音声の表現のバリエーションは大きくなる。このような臨時処理の指定は音声合成の対象となるテキストと合成された音声の時間位置の関係が明確でなければ不可能である。本発明の音声あるいは言語単位で時間位置を指定する方式であれば、広範な時間変化指定が局所表現の対象となるテキスト中の文字列を含むか否かが、マークアップ言語の記述作業時に確認可能であり、臨時処理の記述による表現が可能になる。
According to the configuration corresponding to the tag describing the temporary processing of the utterance style in the deformation position / deformation
なお、本実施の形態において、臨時処理で指定した発話スタイルと、臨時処理を含む区間において指定した発話スタイルは同じもので、臨時処理は重みの変更のみであったが、臨時処理区間を含む区間において指定した発話スタイルとはまったく異なる発話スタイルを指定し、臨時処理区間を含む区間において指定した発話スタイルおよびその重みの内容を臨時処理区間内のみにおいて無効とするとしても良い。あるいは、臨時処理区間を含む区間において指定した発話スタイルとは異なる発話スタイルを指定し、臨時処理区間を含む区間において指定した発話スタイルおよびその重みの内容に、さらに、臨時処理区間内のみにおいて、指定した発話スタイルを混合するとしてもよい。 In this embodiment, the utterance style specified in the temporary process is the same as the utterance style specified in the section including the temporary process, and the temporary process only changes the weight, but includes the temporary process section. The utterance style that is completely different from the utterance style specified in step S3 may be specified, and the utterance style specified in the section including the temporary processing section and the content of the weight may be invalidated only in the temporary processing section. Or, specify an utterance style that is different from the utterance style specified in the section including the temporary processing section, specify the utterance style specified in the section including the temporary processing section and the contents of the weight, and specify only in the temporary processing section. The utterance styles may be mixed.
(実施の形態4)
上記実施の形態1〜3では、同一の構成により、様々な発話スタイルで音声合成の表現の変形を行う場合について説明したが、以下では、異なる構成により様々な表現の変形を行う場合について説明する。
(Embodiment 4)
In the first to third embodiments, the case where the expression of speech synthesis is modified in various utterance styles using the same configuration has been described. However, the case where various expressions are modified using different configurations will be described below. .
図12は、本発明の実施の形態4における音声合成装置の機能ブロック図であり、図13は本発明の実施の形態4の音声合成装置の動作を示すフローチャートである。 FIG. 12 is a functional block diagram of the speech synthesizer according to Embodiment 4 of the present invention, and FIG. 13 is a flowchart showing the operation of the speech synthesizer according to Embodiment 4 of the present invention.
図12において図1と共通する部分については同一の番号を付与し、説明を省略する。また図13において図3と共通する動作ステップについても同一の番号を付与し、説明を省略する。 12 that are the same as those in FIG. 1 are assigned the same reference numerals and descriptions thereof are omitted. Also, in FIG. 13, the same steps as those in FIG.
図12において、本実施の形態の音声合成装置は、相異なる2つの発話スタイルA、Bに対応し、変形位置・重み決定部によって切り替えまたは混合される2組の韻律パタンデータベース、韻律制御部、混合基準点付き素片データベースおよび合成パラメータ生成部を備え、これら2組の構成から出力される音声合成パラメータが、変形位置・重み決定部からの混合重み変化情報に従ってモーフィングされる装置であり、テキスト入力部201、マークアップ言語解析部202、言語処理部203、辞書204、変形位置・重み決定部305、スイッチ306a、スイッチ306b、韻律制御部A307a、韻律制御部B307b、韻律パタンデータベースA308a、韻律パタンデータベースB308b、合成パラメータ生成部A309a、合成パラメータ生成部B309b、混合基準点付素片データベースA310a、混合基準点付素片データベースB310b、モーフィング部311、および波形生成部214を備える。
In FIG. 12, the speech synthesizer of the present embodiment corresponds to two different utterance styles A and B, and two sets of prosodic pattern databases, prosodic control units, which are switched or mixed by the deformed position / weight determining unit, A device comprising a unit database with a mixture reference point and a synthesis parameter generation unit, in which speech synthesis parameters output from these two sets are morphed according to the mixture weight change information from the deformation position / weight determination unit, and a
変形位置・重み決定部305は、言語処理部203で生成された音韻列に対応付けられたタグ挿入位置と、マークアップ言語解析部202より出力されたタグによる指示情報を入力され、タグの指示とタグ挿入位置と音韻列に基づき発話スタイルの指定を解析する。次いで、音韻列上の区間と発話スタイルの対応を解析し、スイッチ306aとスイッチ306bとを制御する。さらに、音韻列上で発話スタイルの混合を行う区間を解析し、複数発話スタイルの混合重みを設定する。
The deformation position /
スイッチ306aとスイッチ306bとは変形位置・重み決定部305より出力される制御信号によって韻律制御部A307a、および韻律制御部B307bの動作を制御する。
The
韻律制御部A307a、韻律制御部B307bは、言語処理部203により生成されたタグ挿入位置が対応付けられた音韻列、韻律指定情報と言語情報の入力をスイッチ306a、スイッチ306bに制御され、スイッチ306a、スイッチ306bがつながり、言語処理部203からの入力があったときにのみ音韻列、韻律指定情報、言語情報に基づき、それぞれA、Bの発話スタイルの実音声より生成した韻律パタンデータベースA308a、韻律パタンデータベースB308bを参照して音韻列に対応した基本周波数、振幅、音韻時間長、ポーズ時間長を生成し、タグ挿入位置と対応付けてそれぞれに出力する。
The prosody control unit A307a and the prosody control unit B307b are controlled by the
混合基準点付素片データベースA310a、混合基準点付素片データベースB310bは、それぞれの発話スタイルA、発話スタイルBの実音声より生成した音韻ごとの音声合成パラメータと音韻環境、基本周波数、振幅、音韻時間長、言語情報等の属性と、音声をモーフィングする際のパラメータの混合の基準となる点を周波数と素片内の時間位置で示した混合位置情報とを格納している。
The mixed reference point-attached
合成パラメータ生成部A309a、合成パラメータ生成部B309bは、各々韻律制御部A305a、韻律制御部B305bで生成された音韻列に対応した基本周波数、振幅、
音韻時間長と言語処理部203により生成された言語情報とから、混合基準点付素片データベースA310a、混合基準点付素片データベースB310bをそれぞれに参照して音韻列に対応する音声合成パラメータ素片を抽出する。次いで、音声合成パラメータ素片を接続してそれぞれ発話スタイルAの音声合成パラメータ列、発話スタイルBの音声合成パラメータ列を生成し、素片ごとの混合基準点を付与して出力する。
The synthesis parameter generation unit A309a and the synthesis parameter generation unit B309b are respectively provided with a fundamental frequency, an amplitude, and a frequency corresponding to the phoneme strings generated by the prosody control unit A305a and the prosody control unit B305b.
A speech synthesis parameter segment corresponding to a phoneme sequence by referring to the mixed reference point-attached segment database A310a and the mixed reference point-attached segment database B310b, respectively, from the phoneme duration and the language information generated by the
モーフィング部311は合成パラメータ生成部A309a、合成パラメータ生成部B309bがそれぞれに生成した発話スタイルの異なる混合基準点付き音声合成パラメータ列を取得し、変形位置・重み決定部305で設定された混合区間と混合重み情報に基づき合成パラメータ生成部A309aが生成した発話スタイルAの音声合成パラメータ列と合成パラメータ生成部B309bが生成した発話スタイルBの音声合成パラメータ列とを混合基準点を対応させてモーフィングし、複数の発話スタイルを混合した音声合成パラメータ列を生成する。波形生成部214はモーフィング部311で生成された一連の音声合成パラメータに基づき音声波形を生成し、出力する。
The morphing
次に、上記の構成による音声合成装置の動作を詳細に説明する。実施の形態1と同様に図2の(a)に示す入力に対し、ステップS2005の過程までは実施の形態1に共通であるので、以降の動作についてのみ説明する。変形位置・重み決定部305はマークアップ言語解析部202によって分離された発話スタイルの指示とステップS2005で生成されたタグ位置を記録した音韻列より、タグにより指定された時間位置を音韻列に当てはめ、音韻列上に混合の元となる発話スタイルとその重みを設定する(S3006)。変形位置・重み決定部305はステップS3006で設定した混合元となる発話スタイルに従って、スイッチ306a、306bを接続する(S3007)ここでは発話スタイルをA、Bの2種類のみ図示しているが、さらに多数の発話スタイルを備え、多数の発話スタイルのうち、ステップS3006で設定した発話スタイルの韻律を生成する韻律制御部につながるスイッチを選択して接続するものとする。図2の(a)の入力テキストについては、発話スタイルAを標準スタイル、発話スタイルBを怒りのスタイルとする。韻律制御部A307aはステップS2004で言語処理部203により生成された音韻列と韻律指定情報および言語情報を属性として用いてあらかじめ属性ごとにパラメータが設定された関数により入力音韻列に対応する発話スタイルA(標準スタイル)の音韻時間長およびポーズ時間長を設定し、音韻列と韻律指定情報および言語情報の属性により基本周波数と振幅の発話スタイルA(標準スタイル)の韻律パタンを韻律パタンデータベースA308aより抽出し、さらに属性に基づいて変形を加えて入力音韻列に対応する発話スタイルA(標準スタイル)の基本周波数パタン、発話スタイルA(標準スタイル)振幅パタンを生成する。一方発話スタイルB(怒りのスタイル)についても同様に韻律制御部B307bは発話スタイルB(怒りのスタイル)の音韻時間長およびポーズ時間長を設定し、発話スタイルB(怒りのスタイル)の韻律パタンを韻律パタンデータベースB308bより抽出し、さらに入力音韻列に対応する発話スタイルB(怒りのスタイル)の基本周波数パタン、発話スタイルB(怒りのスタイル)の振幅パタンを生成する(S3008)。合成パラメータ生成部A309aはステップS3008で韻律制御部A307aによって生成された発話スタイルA(標準スタイル)の基本周波数パタン、振幅パタン、音韻時間長と音韻列とに従って、合成しようとする音声の音声合成パラメータ素片を発話スタイルAの素片を格納した混合基準点つき素片データベースA310aより抽出し、接続する。同様に合成パラメータ生成部B309bはステップS3008で韻律制御部B307bによって生成された発話スタイルB(怒りのスタイル)の基本周波数パタン、振幅パタン、音韻時間長と音韻列とに従って、合成しようとする音声の音声合成パラメータ素片を発話スタイルBの素片を格納した混合基準点つき素片データベースB310bより抽出し、接続する(S3009)。モーフィング部311はステップS3006で変形位置・重み決定部305によって設定された混合区間において、ステップS3009で生成された発話スタイルA(標準スタイル)と発話スタイルB(怒りのスタイル音声合成パラメータ列を素片ごとの混合基準点を対応させ、混合基準点間を時間方向とスペクトル方向に線形に補間し、ステップ3006で変形位置・重み決定部305によって設定された各音韻ごとに設定された混合重みに従ってモーフィングして、混合区間において発話スタイルが徐々に変化する音声合成パラメータ列を生成する。波形生成部214はステップS3010で生成された音声合成パラメータに従って音声波形を合成する(S2013)。
Next, the operation of the speech synthesizer configured as described above will be described in detail. Similar to the first embodiment, with respect to the input shown in FIG. 2A, the process up to step S2005 is common to the first embodiment, so only the subsequent operation will be described. The deformed position /
かかる発話スタイルごとの韻律パタンデータベース308、混合基準点付き素片データベース310とモーフィング部311を備えた構成によれば、発話スタイルごとに用意された韻律制御部と韻律パタンデータベース、および合成パラメータ生成部と混合基準点付き素片データベースを選択して韻律生成、素片選択および素片接続を実行し、混合元の発話スタイルの音声合成パラメータ列を生成して、混合重みに従ってモーフィング部311で各発話スタイルの音声合成パラメータ列の混合基準点を対応付けてモーフィングすることにより、各発話スタイルごとの音韻時間長設定を混合基準点を用いることで素片単位で
補間することができる。また、スペクトル方向にも混合基準点を用いることで音声パラメータ同士を対応付けて補間することで、複数の発話スタイルの音声合成パラメータを実時間のばらつき、スペクトル特性のばらつきを発話スタイルの特性として抽出して混合し、新しい発話スタイルを自由に生成することができる。
According to the configuration including the prosodic pattern database 308 for each utterance style, the segment database with mixing reference points 310, and the morphing
なお、本実施の形態において、図2の(a)のような1つの発話スタイルの重みが変化する場合について説明したが、図7の(a)のように複数の発話スタイルを混合する際には、本実施の形態で標準スタイルとした発話スタイルAを笑いの発話スタイル等とし、発話スタイルBの怒りの発話スタイルと混合するものとすれば良い。 In the present embodiment, the case where the weight of one utterance style changes as shown in FIG. 2A has been described. However, when a plurality of utterance styles are mixed as shown in FIG. The utterance style A, which is the standard style in the present embodiment, may be used as the laughing utterance style or the like and mixed with the angry utterance style of the utterance style B.
なお、本実施の形態において、2つの発話スタイルA,Bに対応する2組の韻律パラメー
タデータベース、韻律制御部、混合基準点付き素片データベースおよび合成パラメータ生成部を備えるとしたが、3つ以上の発話スタイルに対応する韻律パラメータデータベース、韻律制御部、混合基準点付き素片データベースおよび合成パラメータ生成部の組を備え、スイッチで切り替えるとしてもよい。
In the present embodiment, two sets of prosodic parameter databases, prosody control units, segment database with mixed reference points, and synthesis parameter generation units corresponding to two utterance styles A and B are provided. A prosody parameter database corresponding to the utterance style, a prosody control unit, a segment database with mixed reference points, and a synthesis parameter generation unit may be provided and switched by a switch.
なお、本実施の形態において、各混合元の発話スタイルの音声合成パラメータ列の生成に、各発話スタイルを生成する韻律制御部と合成パラメータ生成部とを設けたが、図14に示すように、韻律制御部と合成パラメータ生成部は単一で、韻律パタンデータベース、混合基準点つき素片データベースが発話スタイルごとに複数個用意されており、韻律制御部と合成パラメータ生成部はこれらのデータベースを切り替えて、各々の発話スタイルの韻律情報、合成パラメータ列を生成し、合成パラメータ記憶部320に一時的に記憶し、記憶された複数個の発話スタイルの音声合成パラメータ列をモーフィングするものとしても良い。
In the present embodiment, the prosody control unit and the synthesis parameter generation unit for generating each utterance style are provided for the generation of the speech synthesis parameter sequence of each utterance style, but as shown in FIG. There is a single prosodic control unit and synthesis parameter generation unit, and a plurality of prosody pattern databases and segment database with mixed reference points are prepared for each utterance style. The prosody control unit and synthesis parameter generation unit switch between these databases. Thus, the prosodic information and the synthesis parameter sequence of each utterance style may be generated, temporarily stored in the synthesis
(実施の形態5)
本実施の形態の音声合成装置では、混合基準点付き素片データベース内にパラメータ素片を格納しておくのではなく、混合基準点付き素片波形データベースの中に、混合されるべき音声の波形そのものを保持している点が前述の実施の形態と異なる。図15は、本発明の実施の形態5における音声合成装置の機能ブロック図であり、図16は本発明の実施の形態5の音声合成装置の動作を示すフローチャートである。
(Embodiment 5)
In the speech synthesizer according to the present embodiment, the parameter segment is not stored in the segment database with the mixing reference point, but the waveform of the speech to be mixed in the segment waveform database with the mixing reference point. This is different from the above-described embodiment in that it is retained. FIG. 15 is a functional block diagram of the speech synthesizer according to the fifth embodiment of the present invention, and FIG. 16 is a flowchart showing the operation of the speech synthesizer according to the fifth embodiment of the present invention.
図15において図1、図12と共通する部分については同一の番号を付与し、説明を省略する。また図16において図3、図13と共通する動作ステップについても同一の番号を付与し、説明を省略する。 In FIG. 15, parts that are the same as those in FIGS. 1 and 12 are given the same numbers, and descriptions thereof are omitted. In FIG. 16, the same operation steps as those in FIG. 3 and FIG.
図15において、波形重畳部A409a、波形重畳部B409bは各々韻律制御部A3
05a、韻律制御部B305bで生成された音韻列に対応した基本周波数、振幅、音韻時
間長と言語処理部203により生成された言語情報とから、それぞれの発話スタイルA、発話スタイルBの実音声より生成した音韻ごとの素片波形と音韻環境、基本周波数、振幅、音韻時間長、言語情報等の属性と、音声をモーフィングする際のパラメータの混合の基準となる点を周波数と素片内の時間位置で示した混合位置情報とを格納した混合基準点付素片波形データベースA410a、混合基準点付素片波形データベースB410bをそれぞれに参照して音韻列に対応する素片波形を抽出し、波形を接続してそれぞれ発話スタイルAの音声波形、発話スタイルBの音声波形を生成し、素片ごとの混合基準点を付与して出力する。
In FIG. 15, the waveform superimposing unit A409a and the waveform superimposing unit B409b are respectively connected to the prosody control unit A3.
05a, based on the basic speech, the amplitude, the phoneme duration corresponding to the phoneme sequence generated by the prosody control unit B305b, and the linguistic information generated by the
スペクトル分析部411は波形重畳部A409aと波形重畳部B409bがそれぞれに生成した混合基準点を付与した音声波形をスペクトル分析し、モーフィング可能な音声合成パラメータ列に変換する。
The
モーフィング部311は波形重畳部A409aで生成された発話スタイルAの音声波形と波形重畳部B409bで生成された発話スタイルBの音声波形とについて、変形位置・重み決定部305で設定された混合区間と混合重み情報に基づきスペクトル分析部411で分析され生成された発話スタイルAの音声パラメータ列と発話スタイルBの音声パラメータ列とを混合基準点を対応させてモーフィングし、複数の発話スタイルを混合した音声パラメータ列を生成する。
The morphing
波形生成部214はモーフィング部311で生成された一連の音声パラメータに基づき音声波形を生成し、出力する。
The
次に、上記の構成による音声合成装置の動作を詳細に説明する。実施の形態1と同様に図2の(a)に示す入力に対し、ステップS2005の過程までは実施の形態1に共通であり、ステップS3008の過程までは実施の形態2に共通であるので、以降の動作についてのみ説明する。 Next, the operation of the speech synthesizer configured as described above will be described in detail. As in the first embodiment, for the input shown in FIG. 2A, the process up to step S2005 is common to the first embodiment, and the process up to step S3008 is common to the second embodiment. Only the subsequent operation will be described.
波形重畳部A409aはステップS3008で韻律制御部A307aによって生成された発話スタイルA(標準スタイル)の基本周波数パタン、振幅パタン、音韻時間長と音韻列とに従って、合成しようとする音声の素片波形を発話スタイルAの素片を格納した混合基準点付素片波形データベースA410aより抽出し、接続して音声波形を生成する。
The waveform superimposing unit A409a generates a speech unit waveform to be synthesized according to the basic frequency pattern, amplitude pattern, phoneme time length and phoneme sequence of the speech style A (standard style) generated by the prosody control unit A307a in step S3008. Extracted from the mixed reference point-attached segment
同様に波形重畳部B309bはステップS3008で韻律制御部B307bによって生成された発話スタイルB(怒りのスタイル)の基本周波数パタン、振幅パタン、音韻時間長と音韻列とに従って、合成しようとする音声の素片波形を発話スタイルBの素片を格納した混合基準点付素片波形データベースB410bより抽出し、接続して音声波形を生成する(S4009)。 Similarly, the waveform superimposing unit B309b generates a speech element to be synthesized according to the fundamental frequency pattern, amplitude pattern, phoneme time length, and phoneme sequence of the speech style B (anger style) generated by the prosody control unit B307b in step S3008. The single waveform is extracted from the mixed reference point-attached segment waveform database B410b storing the speech style B segments and connected to generate a speech waveform (S4009).
スペクトル分析部411はステップS4009で波形重畳部A、波形重畳部Bでそれぞれに生成された発話スタイルA(標準スタイル)の音声波形、発話スタイルB(怒りのスタイル)の音声波形を分析し、それぞれを発話スタイルA(標準スタイル)の音声パラメータ列、発話スタイルB(怒りのスタイル)の音声パラメータ列に変換する(S4010)。
In step S4009, the
モーフィング部311はステップS3006で変形位置・重み決定部305によって設定された混合区間において、ステップS4010で生成された発話スタイルA(標準スタイル)と発話スタイルB(怒りのスタイル)の音声パラメータ列を素片ごとの混合基準点を対応させ、混合基準点間を時間方向とスペクトル方向に線形に補間し、ステップS3006で変形位置・重み決定部305によって設定された各音韻ごとに設定された混合重みに従ってモーフィングして、混合区間において発話スタイルが徐々に変化する音声合成パラメータ列を生成する。
The morphing
波形生成部214はステップS3010で生成された音声パラメータに従って音声波形を合成する(S2013)。
The
かかる発話スタイルごとに混合基準点付素片波形データベースと波形重畳部とスペクトル分析部を備えた構成によれば、発話スタイルごとに用意された混合基準点付素片波形データベースを選択して、素片波形選択および素片波形接続を実行し、混合元の発話スタイルの音声波形を生成し、波形を分析して音声パラメータ列を生成して、混合重みに従ってモーフィング部311で各発話スタイルの音声合成パラメータ列の混合基準点を対応付けてモーフィングすることにより、音声波形のスペクトル分析をしてスペクトル方向にも混合基準点を用いて音声パラメータどうしを対応付けて補間することで、波形重畳方式を採用している音声合成装置であっても複数発話スタイルの実時間のばらつき、スペクトル特性のばらつきを発話スタイルの特性として抽出して混合し、新しい発話スタイルを自由に生成することができる。
According to the configuration including the mixed reference point-attached fragment waveform database, the waveform superimposing unit, and the spectrum analyzing unit for each utterance style, the mixed reference point-attached fragment waveform database prepared for each utterance style is selected, Single waveform selection and segment waveform connection are executed, a speech waveform of the utterance style of the mixing source is generated, a speech parameter string is generated by analyzing the waveform, and speech synthesis of each utterance style is performed by the morphing
なお、本実施の形態において、図2の(a)のような1つの発話スタイルの重みが変化する場合について説明したが、図7の(a)のように複数の発話スタイルを混合する際には、本実施の形態で標準スタイルとした発話スタイルAを笑いの発話スタイル等とし、発話スタイルBの怒りの発話スタイルと混合するものとしても良い。 In the present embodiment, the case where the weight of one utterance style changes as shown in FIG. 2A has been described. However, when a plurality of utterance styles are mixed as shown in FIG. The utterance style A, which is the standard style in the present embodiment, may be the laughing utterance style or the like, and may be mixed with the angry utterance style of the utterance style B.
なお、本実施形態において、2つの発話スタイルA,Bに対応する2組の韻律パラメータ
データベース、韻律制御部、混合基準点付き素片データベースおよび合成パラメータ生成部を備えるとしたが、3つ以上の発話スタイルに対応する韻律パラメータデータベース、韻律制御部、混合基準点付き素片データベースおよび合成パラメータ生成部の組を備え、スイッチで切り替えるとしてもよい。
In the present embodiment, two sets of prosodic parameter databases corresponding to two utterance styles A and B, a prosody control unit, a segment database with mixed reference points, and a synthesis parameter generation unit are provided. A set of a prosodic parameter database corresponding to the utterance style, a prosodic control unit, a segment database with mixed reference points, and a synthesis parameter generating unit may be provided and switched by a switch.
なお、本実施の形態において、各混合元の発話スタイルの音声波形データの生成に、各発話スタイルを生成する韻律制御部と波形重畳部とを設けたが、図14において韻律制御部と合成パラメータ生成部は単一で、韻律パタンデータベース308a、308b、308c・・・、混合基準点付素片データベース310a、310b、310c・・・が発話スタイルごとに複数個用意されていたのと同様に、韻律制御部と波形重畳部が単一で、韻律パタンデータベース、混合基準点付素片波形データべースが発話スタイルごとに複数個用意され、韻律制御部と波形重畳部はこれらのデータベースを切り替えて、各々の発話スタイルの韻律情報、音声波形データを生成し、合成パラメータ記憶部320に対応する音声波形記憶部に一時的に記憶し、記憶された複数個の発話スタイルの音声波形を分析して音声パラメータ列に変換し、その音声パラメータ列をモーフィングするものとしても良い。
In the present embodiment, the prosody control unit and the waveform superimposing unit for generating each utterance style are provided for generating the speech waveform data of the utterance style of each mixing source. As the generation unit is single, a plurality of
(実施の形態6)
本実施の形態では、音声合成パラメータの高次ベクトル空間として表される声質空間を変換・回転する変換関数を用いて、発話スタイルコマンドによって指示される音声を合成する場合の一例について説明する。
(Embodiment 6)
In the present embodiment, an example of synthesizing speech instructed by an utterance style command using a conversion function that converts and rotates a voice quality space expressed as a higher-order vector space of speech synthesis parameters will be described.
図17は、本発明の実施の形態6における音声合成装置の機能ブロック図であり、図18は本発明の実施の形態6の音声合成装置の動作を示すフローチャートである。 FIG. 17 is a functional block diagram of the speech synthesizer according to Embodiment 6 of the present invention, and FIG. 18 is a flowchart showing the operation of the speech synthesizer according to Embodiment 6 of the present invention.
図17において図1と共通する部分については同一の番号を付与し、説明を省略する。また図18において図3と共通する動作ステップについても同一の番号を付与し、説明を省略する。 In FIG. 17, parts that are the same as those in FIG. In FIG. 18, the same steps as those in FIG.
図17において、変形位置・重み決定部505はマークアップ言語解析部202によって入力テキストから分離された、タグとして記述されていた指示情報と、言語処理部203で生成されたタグ位置が付与された音韻列より音韻列上での変形位置と、発話スタイルの混合重みを決定する。
In FIG. 17, the transformation position /
混合声質空間計算部506は標準声質から基本的な発話スタイルへ変換するために音声合成パラメータのベクトル空間として表現される声質空間を変形、回転する変換関数を記憶した、基本変換式データベース507を参照し、基本変換式を元に変形位置・重み決定部505によって決定された発話スタイルの混合重みに従って基本変換式を混合、合成して制御単位ごとの変換式を生成する。
The mixed voice quality
基本変換式データベース507に格納された基本変換式は、標準発話スタイルのベクトル空間から、基本的な発話スタイルごとに実音声によって構成された各発話スタイルのベクトル空間へ変換する式である。
The basic conversion formula stored in the basic
基本変換式は、各発話スタイルのベクトル空間中の実音声を確率統計モデルで表現し、モデル間の変換式としてあらかじめ作成されたものである。声質空間変換部508は混合声質空間計算部506によって生成された制御単位ごとの変換式により標準声質空間データ509を変換し、制御単位ごとの声質空間データを作成する。
The basic conversion formula expresses real speech in the vector space of each utterance style with a probability statistical model, and is created in advance as a conversion formula between models. The voice quality
変換後声質空間データ記憶部510は声質空間変換部508で生成された制御単位ごとの声質空間データを蓄積する。韻律生成部511は変換後声質空間データ記憶部510に蓄積された声質空間データのうち、当該制御単位に対応する制御単位の声質空間において、言語処理部203で生成された音韻列、韻律指示情報、言語情報を属性として用いた確率統計モデルにより基本周波数、振幅および、音韻時間長を設定する。
The converted voice quality space
スペクトルパラメータ生成部512は変換後声質空間データ記憶部510に蓄積された声質空間データのうち、当該制御単位に対応する制御単位の声質空間において、言語処理部203で生成された音韻列、言語情報、および韻律生成部511で生成された基本周波数、振幅、音韻時間長を属性として用いた確率統計モデルによりスペクトル情報を生成する。波形生成部513は韻律生成部511で生成された韻律情報とスペクトルパラメータ生成部512で生成されたスペクトル情報とに基づき音声波形を合成する。
The spectrum
次に、上記の構成による音声合成装置の動作を詳細に説明する。実施の形態1および実施の形態2と同様に図2の(a)あるいは図7の(a)に示す入力に対し、ステップS2005の過程までは実施の形態1に共通であるので、以降の動作についてのみ説明する。変形位置・重み決定部505はマークアップ言語解析部202によって入力テキストから分離された発話スタイル変化に関する指示情報と、言語処理部203で生成されたタグ位置が付与された音韻列より音韻列上での発話スタイルの変形位置を設定し、音韻列上で発話スタイル変化あるいは重みを線形に補間し、音韻列上での混合重みあるいは重みの変化を設定する(S5006)。
Next, the operation of the speech synthesizer configured as described above will be described in detail. Similar to the first embodiment and the second embodiment, the input shown in FIG. 2A or FIG. 7A is common to the first embodiment until step S2005. Only will be described. The transformation position /
混合声質空間計算部506はステップS5006で変形位置・重み決定部505によって設定された混合元の発話スタイルへ標準声質空間を変換させる、基本変換式を基本変換式データベース507より抽出する。ステップS5006で設定された音韻列上での発話スタイルの変形あるいは重みの変化を時間単位を音声合成時の制御単位に変換し、ステップS5006で決定された発話スタイルの混合重みに従って制御単位ごとに基本変換式データベース507より抽出した基本変換式を混合、合成、パラメータ調整して制御単位ごとの変換式を生成する(S5007)。
In step S5006, the mixed voice quality
声質空間変換部508は混合声質空間計算部506によって生成された制御単位ごとの変換式により標準声質空間データ509を変換し、制御単位ごとの声質空間データを作成する。作成された声質空間データは変換後声質空間データ記憶部510へ蓄積される(S5008)。
The voice quality
韻律生成部511はステップS5008で変換後声質空間データ記憶部509に蓄積された声質空間データのうち、当該制御単位に対応する制御単位の声質空間を抽出し、その声質空間においてステップS2004で言語処理部203で生成された音韻列、韻律指示情報、言語情報を属性として用いて確率統計モデルに基づき基本周波数、振幅および、音韻時間長を生成する(S5009)。次いでスペクトルパラメータ生成部512はステッ
プS5008で変換後声質空間データ記憶部509に蓄積された声質空間データのうち、当該制御単位に対応する声質空間において、ステップS2004で生成された音韻列、言語情報、およびステップS5009で韻律生成部511によって生成された基本周波数、振幅、音韻時間長を属性として用いて、確率統計モデルに基づいてスペクトル情報を生成する(S5010)。
The
制御単位ごとに生成されたステップS5009で生成された韻律情報と、ステップS5010で生成されたスペクトル情報を音声合成パラメータとして波形生成部513により音声波形を生成する(S5011)。
A speech waveform is generated by the
かかる混合声質空間計算部506、基本変換式データベース507、声質空間変換部508、標準声質空間データ509、および変換後声質空間データ記憶部を備えた構成によれば、標準声質空間を混合元となる発話スタイルの声質空間に変換するための基本変換式を抽出し、発話スタイルの時間変化に合わせて音声合成時の制御単位ごとに基本変換式を混合、合成する。
According to the configuration including the mixed voice quality
混合、合成されてできた発話スタイルの変換式により声質空間変換部508で標準声質空間を変換する。音声合成時の制御単位ごとに異なる声質空間を生成してこれらを変換後声質空間データ記憶部510に記憶して、韻律生成部511、スペクトルパラメータ生成部512がそれぞれ韻律情報、スペクトル情報を生成する際に該当する制御単位の声質空間を参照して音声合成パラメータを制御単位で生成することにより、韻律情報とスペクトル情報を含む声質空間を変換することで、発話スタイルの変化を韻律のみならず、スペクトル情報も合わせて制御し、タグに指定された発話スタイルの時間的変化を精度よく再現することができる。
The voice quality
なお、本実施の形態において、韻律とスペクトルパラメータを1つの声質空間で表現したが、韻律空間とスペクトル空間等、複数個の空間に分割して変換するものとしても良い。 In this embodiment, the prosody and spectrum parameters are expressed by one voice quality space, but may be divided into a plurality of spaces such as a prosody space and a spectrum space for conversion.
なお、本実施の形態において、音韻列を単位とした時間軸上で発話スタイル混合比率を補間したが、実施の形態1のように音韻列上に設定した時間位置を実時間に変更し、実時間上で発話スタイル混合比率を補間しても良い。
In this embodiment, the utterance style mixture ratio is interpolated on the time axis in units of phoneme strings, but the time position set on the phoneme string is changed to real time as in
なお、実施の形態1、実施の形態2、実施の形態3、実施の形態4、実施の形態5において、韻律制御部は音韻ごとの時間長モデルにより音韻時間等とポーズ時間長を決定し、韻律パタンデータベースを参照して、パタン選択と変形によって基本周波数パタン、振幅パタンを生成するとしたが、言語情報や音韻列を属性として用いる確率統計モデルによって基本周波数パタン、振幅パタン、音韻時間長、ポーズ時間長を生成するとしても良い。 In the first embodiment, the second embodiment, the third embodiment, the fourth embodiment, and the fifth embodiment, the prosody control unit determines the phoneme time and the pause time length by the time length model for each phoneme, Referring to the prosodic pattern database, the basic frequency pattern and amplitude pattern are generated by pattern selection and transformation. However, the basic frequency pattern, amplitude pattern, phonological time length, and pause are based on a probabilistic statistical model using linguistic information and phoneme strings as attributes. A time length may be generated.
なお、実施の形態1、実施の形態2、実施の形態3、実施の形態4、実施の形態5において、音韻列上に設定した時間位置を実時間に変更し、実時間上で発話スタイル重み、発話スタイル混合比率、あるいは変換関数パラメータ混合比率を補間した後、素片単位へ変換して発話スタイルの制御を行ったが、実施の形態6のように音韻列を単位とした時間軸上で発話スタイル重み、発話スタイル混合比率、あるいは変換関数パラメータ混合比率を補間して発話スタイルの制御を行うとしても良い。 In the first embodiment, the second embodiment, the third embodiment, the fourth embodiment, and the fifth embodiment, the time position set on the phonological sequence is changed to the real time, and the utterance style weight in the real time. Then, after interpolating the utterance style mixture ratio or the conversion function parameter mixture ratio, the utterance style is controlled by converting into the unit of unit, but on the time axis in units of phoneme strings as in the sixth embodiment. The utterance style may be controlled by interpolating the utterance style weight, the utterance style mixture ratio, or the conversion function parameter mixture ratio.
図19は、タグ付きテキストを作成するための処理部を、音声合成装置の内部に備えた場合の構成の一例を示す図である。なお、実施の形態1、実施の形態2、実施の形態3、実施の形態4、実施の形態5、実施の形態6において、図19に示すように、音声合成の対象となるテキスト本文を作成するテキスト作成部601およびテキストの所望の位置に
所定のタグと、タグの属性を挿入してタグ付テキストを作成するタグ作成部602を付しても良い。また、これらのテキスト作成部601、タグ作成部602は音声合成装置の外部部であっても、音声合成装置自身が備えるものであっても良い。
FIG. 19 is a diagram illustrating an example of a configuration in a case where a processing unit for creating tagged text is provided in the speech synthesizer. In
なお、実施の形態1、実施の形態2、実施の形態3において、ステップS2010で素片選択を行った後にステップS2011で変換関数パラメータを設定したが、素変選択はステップS2006の韻律生成より後で、かつステップS2012の音声合成パラメータ素片を変換して音声合成パラメータを生成するより前であれば、いつ行っても良い。 In the first embodiment, the second embodiment, and the third embodiment, the conversion function parameters are set in step S2011 after performing the segment selection in step S2010. However, the variational selection is performed after the prosody generation in step S2006. As long as it is before the speech synthesis parameter segment is generated by converting the speech synthesis parameter segment in step S2012, it may be performed at any time.
なお、発話スタイルの時間的変化を指定する際の時間単位を、実施の形態1、実施の形態3、実施の形態4、実施の形態5、においてはモーラ、実施の形態2においてはアクセント句、実施の形態6においては特に定めず制御単位としたが、音素、モーラ、音節、アクセント句、ストレス句、フレーズ、呼気段落等の音声単位あるいは文字、形態素、単語、文節、節、文等の言語単位としても良く、特に図5に示すように音節を時間単位としてもよいし、あるいは図6に示すように音素を時間単位としてもよい。 The time unit for designating the temporal change of the utterance style is the mora in the first embodiment, the third embodiment, the fourth embodiment, and the fifth embodiment, and the accent phrase in the second embodiment. Although the control unit is not particularly defined in the sixth embodiment, a speech unit such as phonemes, mora, syllables, accent phrases, stress phrases, phrases, exhalation paragraphs, or languages such as characters, morphemes, words, phrases, clauses, sentences, etc. The syllable may be a time unit as shown in FIG. 5, or the phoneme may be a time unit as shown in FIG.
なお、実施の形態1、実施の形態2、実施の形態3、実施の形態4、実施の形態5、実施の形態6において、発話スタイルの重みを線形に補間したが、指数関数、対数関数、シグモイド曲線等、単調増加あるいは単調減少する他の関数を用いてもよい。 In the first embodiment, the second embodiment, the third embodiment, the fourth embodiment, the fifth embodiment, and the sixth embodiment, the utterance style weights are linearly interpolated, but the exponential function, logarithmic function, Other functions that monotonously increase or monotonously decrease, such as a sigmoid curve, may be used.
なお、実施の形態1、実施の形態2、実施の形態3において、変換関数のパラメータを設定する時間位置を音声素片単位の中心点を接続点としたが、音声合成装置の制御点として適当なものであればこれ以外の時間位置で変換関数のパラメータを設定するものとしても良い。 In the first embodiment, the second embodiment, and the third embodiment, the time position for setting the parameters of the conversion function is set as the connection point at the center point of the speech unit unit, but it is suitable as the control point of the speech synthesizer. If so, the parameters of the conversion function may be set at other time positions.
本発明にかかる音声合成用テキスト構造、音声合成方法および音声合成装置は、発話中徐々に発話スタイルが変化する合成音声を指示し、再現する機能を有する音声対話装置等として有用である。またカーナビゲーションシステム、電話による応対システム、電子メールの読み上げ装置、せりふの読み上げ装置等の用途にも応用できる。 The text structure for speech synthesis, the speech synthesis method, and the speech synthesizer according to the present invention are useful as a speech dialogue apparatus or the like having a function of instructing and reproducing synthesized speech in which the speech style gradually changes during speech. It can also be used in applications such as car navigation systems, telephone response systems, e-mail reading devices, and dialogue reading devices.
101、601 テキスト作成部
102、602 タグ作成部
103 タグ付きテキスト
104 テキスト入力部
105 テキスト解析部
106 タグ解析部
107 タグ属性解析部
108 言語処理部
109 音声合成部
110 言語辞書
111 韻律・波形辞書
201 テキスト入力部
202 マークアップ言語解析部
203 言語処理部
204 辞書
205、307a、307b 韻律制御部
206 標準韻律パタンデータ
207 変形位置・変形重み決定部
208 変換関数選択部
209 変換関数データベース
210 変換関数パラメータ設定部
211 素片選択部
212 標準素片データベース
213、309a、309b 合成パラメータ生成部
214、513 波形生成部
305、505 変形位置・重み決定部
306a、306b スイッチ
308a、308b、308c 韻律パタンデータベース
310a、310b、310c 混合基準点付き素片データベース
311 モーフィング部
320 合成パラメータ記憶部
409a、409b 波形重畳部
410a,410b 混合基準点付き素片波形データベース
411 スペクトル分析部
506 混合声質空間計算部
507 基本変換式データベース
508 声質空間変換部
509 標準声質空間データ
510 変換後声質空間データ記憶部
511 韻律生成部
512 スペクトルパラメータ生成部
101, 601
Claims (12)
コマンド付きテキストを、(1)音声に合成すべき前記テキストと(2)前記テキストから合成される音声の発話表現である発話スタイルの時間的変化を、音素、モーラ、音節のいずれか1つを単位として指定する発話スタイルコマンドとに分離する分離手段と、
分離された前記テキストを言語解析し、少なくとも前記テキストを表す音素列、モーラ列、音節列のうち前記発話スタイルコマンドにおいて前記時間的変化を指定する単位として使用された単位で表記された音韻列を出力する言語処理手段と、
前記発話スタイルコマンドで指定された単位を識別し、出力された前記音韻列中において、前記発話スタイルコマンドで前記発話スタイルの前記時間的変化が指定された音韻区間を、識別した単位で特定する区間特定手段と、
特定された前記音韻区間において、前記発話スタイルの時間的変化に従って発話される音声を合成する音声合成手段と
を備えることを特徴とする音声合成装置。 A speech synthesizer that synthesizes speech that reads a text with a command and reads the text,
The commanded text is changed to (1) the text to be synthesized with the speech and (2) the temporal change of the utterance style, which is the speech expression of the speech synthesized from the text, with one of phonemes, mora, or syllables. Separation means for separating speech style commands that are specified as units,
The separated text is linguistically analyzed, and at least a phoneme sequence expressed in a unit used as a unit for designating the temporal change in the utterance style command among a phoneme sequence, a mora sequence, and a syllable sequence representing the text. Language processing means for outputting;
A unit that identifies a unit specified by the utterance style command and identifies a phoneme segment in which the temporal change of the utterance style is specified by the utterance style command in the output unit. Specific means,
A speech synthesizer comprising: speech synthesis means for synthesizing speech uttered in accordance with a temporal change of the utterance style in the identified phoneme section.
ことを特徴とする請求項1記載の音声合成装置。 2. The speech according to claim 1, wherein the speech synthesis unit synthesizes speech in which the utterance style changes in accordance with real time required to read out the specified phonological section in accordance with the utterance style command. Synthesizer.
前記音声合成手段は、前記発話スタイルコマンドに従って、前記音韻区間の読み上げに要する実時間に対応して、前記発話スタイルの重みが変化する音声を合成する
ことを特徴とする請求項2記載の音声合成装置。 The temporal change of the utterance style is represented by the temporal change of the weight of the utterance style,
3. The speech synthesis according to claim 2, wherein the speech synthesis means synthesizes speech in which the weight of the speech style changes in accordance with the real time required to read out the phoneme section according to the speech style command. apparatus.
合成される音声を表す音声合成パラメータの音声合成処理単位のまとまりである音声合成パラメータ素片を格納した音声合成パラメータ素片データベースと、
前記音声合成パラメータ素片データベースから、複数の音声合成パラメータ素片を選択し、接続して、所定の韻律を生成し、前記言語処理手段によって出力される音韻列に対応した音声合成パラメータを生成する音声合成パラメータ生成部と、
特定された前記音韻区間に対応する音声合成パラメータを前記発話スタイルコマンドに従って変換するための変換規則を格納した変換規則データベースと、
前記発話スタイルコマンドに対応する前記変換規則を前記変換規則データベースより選択する変換規則選択部と、
特定された前記音韻区間に対応する前記音声合成パラメータを、選択された前記変換規則に基づいて変換する音声合成パラメータ変換部と、
前記音声合成パラメータに基づき音声波形を生成する音声波形生成部とを備える
ことを特徴とする請求項1記載の音声合成装置。 The speech synthesis means
A speech synthesis parameter segment database storing speech synthesis parameter segments that are a unit of speech synthesis processing units of speech synthesis parameters representing speech to be synthesized;
A plurality of speech synthesis parameter segments are selected from the speech synthesis parameter segment database, connected, a predetermined prosody is generated, and a speech synthesis parameter corresponding to a phoneme sequence output by the language processing unit is generated. A speech synthesis parameter generation unit;
A conversion rule database storing conversion rules for converting speech synthesis parameters corresponding to the specified phoneme section according to the utterance style command;
A conversion rule selection unit that selects the conversion rule corresponding to the utterance style command from the conversion rule database;
A speech synthesis parameter conversion unit that converts the speech synthesis parameter corresponding to the identified phoneme section based on the selected conversion rule;
The speech synthesis apparatus according to claim 1, further comprising: a speech waveform generation unit that generates a speech waveform based on the speech synthesis parameter.
合成される音声を表す音声合成パラメータの音声合成処理単位のまとまりである音声合成パラメータ素片と、前記音声合成パラメータ素片内で音声の混合時に複数音声の対応を
特定するための周波数と時間とによって定義される基準点とを共に格納した音声合成パラメータ素片データベースと、
前記音声合成パラメータ素片データベースから、複数の音声合成パラメータ素片を選択し、接続して、所定の韻律を生成し、前記言語処理手段によって出力される音韻列に対応する音声合成パラメータを生成する音声合成パラメータ生成部と、
前記音声合成パラメータ素片データベースより前記音声合成パラメータ素片とともに選択した前記基準点を複数音声の対応点として、前記音声合成パラメータ生成部により生成された前記音声合成パラメータを、前記区間特定手段によって特定された前記音韻区間において混合する音声混合部と、
混合された前記音声合成パラメータに基づいて、音声波形を生成する音声波形生成部と
を備えることを特徴とする請求項1記載の音声合成装置。 The speech synthesis means
A speech synthesis parameter segment, which is a unit of speech synthesis processing units of speech synthesis parameters representing speech to be synthesized, and a frequency and time for specifying the correspondence of a plurality of speeches when mixing speech within the speech synthesis parameter segment A speech synthesis parameter fragment database that stores both reference points defined by
A plurality of speech synthesis parameter segments are selected from the speech synthesis parameter segment database, connected to generate a predetermined prosody, and a speech synthesis parameter corresponding to a phoneme sequence output by the language processing means is generated. A speech synthesis parameter generation unit;
The section specifying means identifies the speech synthesis parameter generated by the speech synthesis parameter generation unit with the reference point selected together with the speech synthesis parameter segment from the speech synthesis parameter segment database as a corresponding point of a plurality of speeches. A speech mixing unit that mixes in the phoneme section
The speech synthesis apparatus according to claim 1, further comprising: a speech waveform generation unit that generates a speech waveform based on the mixed speech synthesis parameters.
ことを特徴とする請求項5記載の音声合成装置。 When mixing speech synthesis parameters corresponding to different utterance styles, the speech mixing unit changes the weight of each speech synthesis parameter according to the passage of real time required to read out the phonological section, thereby changing the speech style. The speech synthesizer according to claim 5, wherein a temporal change is generated.
音声の一部分の波形を表し、音声合成処理単位のまとまりである音声波形素片と、前記音声波形素片内で音声の混合時に複数音声の対応を特定するための周波数と時間とによって定義される基準点とを共に格納した音声波形素片データベースと、
前記音声波形素片データベースから、複数の音声波形素片を選択し、接続して、前記言語処理手段によって出力される音韻列と所定の韻律に対応する音声波形を生成する音声波形生成部と、
前記音声波形生成部により生成された前記音声波形を分析し韻律情報とスペクトル情報を抽出する音声波形分析部と、
前記音声波形分析部によって抽出された前記韻律情報と前記スペクトル情報とを、前記音声波形素片データベースから音声波形素片とともに選択した前記基準点を複数音声の対応点として、前記区間特定手段によって特定された前記音韻区間において混合する音声混合部と、
前記音声混合部で混合された前記韻律情報と前記スペクトル情報に基づき音声波形を生成する音声波形生成部と
を備えることを特徴とする請求項1記載の音声合成装置。 The speech synthesis means
Represents a waveform of a part of speech, and is defined by a speech waveform segment that is a unit of speech synthesis processing unit, and a frequency and time for specifying correspondence of a plurality of speeches when speech is mixed in the speech waveform segment Speech waveform segment database that stores both reference points and
A speech waveform generation unit that selects and connects a plurality of speech waveform segments from the speech waveform segment database and generates a speech waveform corresponding to a phoneme sequence output by the language processing means and a predetermined prosody;
A speech waveform analysis unit that analyzes the speech waveform generated by the speech waveform generation unit and extracts prosodic information and spectrum information;
Identifying the prosody information and the spectrum information extracted by the speech waveform analysis unit together with the speech waveform segment from the speech waveform segment database as the corresponding points of a plurality of speech, by the section identifying means A speech mixing unit that mixes in the phoneme section
The speech synthesis apparatus according to claim 1, further comprising: a speech waveform generation unit configured to generate a speech waveform based on the prosodic information mixed by the speech mixing unit and the spectrum information.
ことを特徴とする請求項7記載の音声合成装置。 When the speech mixing unit mixes speech waveform segments corresponding to different utterance styles, the weight of mixing a plurality of the prosodic information and the spectrum information is obtained as a result of real time required for reading out the phoneme section. The speech synthesizer according to claim 7, wherein a temporal change of the utterance style is generated by changing in accordance with.
ことを特徴とする請求項1〜8のいずれか1項に記載の音声合成装置。 The utterance style command includes the gender of the speaker, age, speaker, personality, physical condition during utterance, mood during utterance, human relationship between speakers, physical distance between speakers, communication status between speakers, The command or tag for controlling the expression of the synthesized speech for any of the location of the utterance, the time zone during the utterance, the environment in which the speaker is placed, the surrounding noise or emotion. The speech synthesis device according to any one of the above.
あらかじめ自然音声の韻律情報、スペクトル情報、音韻列および言語情報を統計的に学習した第1の統計モデルに基づいて韻律を生成する韻律生成部と、
あらかじめ自然音声の韻律情報、スペクトル情報、音韻列および言語情報を統計的に学習した、前記第1の統計モデルとは異なる第2の統計モデルに基づいてスペクトル情報を
生成するスペクトル情報生成部と、
前記韻律生成部が持つ前記第1の統計モデルと、前記スペクトル情報生成部が持つ前記第2の統計モデルとを、前記発話スタイルコマンドに従って変換するための変換規則を格納した変換規則データベースと、
前記発話スタイルコマンドに対応する前記変換規則を、前記変換規則データベースより選択する変換規則選択部と、
前記変換規則選択部によって選択された前記変換規則を変形または混合し、変形または混合された前記変換規則に基づいて、前記第1の統計モデルと前記第2の統計モデルとを変換する統計モデル変換部と、
変換された第1の統計モデルに基づいて前記韻律生成部により生成された韻律と、変換された第2の統計モデルに基づいて前記スペクトル情報生成部により生成されたスペクトル情報とに基づいて、音声波形を生成する音声波形生成部と
を備えることを特徴とする請求項1記載の音声合成装置。 The speech synthesis means
A prosody generation unit that generates a prosody based on a first statistical model in which prosody information, spectrum information, phoneme strings, and language information of natural speech are statistically learned in advance;
A spectral information generating unit that statistically learns prosodic information, spectral information, phoneme strings, and linguistic information of natural speech beforehand, and generates spectral information based on a second statistical model different from the first statistical model;
A conversion rule database storing conversion rules for converting the first statistical model of the prosody generation unit and the second statistical model of the spectrum information generation unit in accordance with the utterance style command;
A conversion rule selection unit that selects the conversion rule corresponding to the utterance style command from the conversion rule database;
A statistical model transformation that transforms or mixes the transformation rule selected by the transformation rule selection unit and transforms the first statistical model and the second statistical model based on the transformed or mixed transformation rule. And
Based on the prosody generated by the prosody generation unit based on the converted first statistical model and the spectrum information generated by the spectrum information generation unit based on the converted second statistical model, speech The speech synthesis apparatus according to claim 1, further comprising: a speech waveform generation unit that generates a waveform.
コマンド付きテキストを、(1)音声に合成すべき前記テキストと(2)前記テキストから合成される音声の発話表現である発話スタイルの時間的変化を、音素、モーラ、音節のいずれか1つを単位として指定する発話スタイルコマンドとに分離する分離ステップと、
分離された前記テキストを言語解析し、少なくとも前記テキストを表す音素列、モーラ列、音節列のうち前記発話スタイルコマンドにおいて前記時間的変化を指定する単位として使用された単位で表記された音韻列を出力する言語処理ステップと、
前記発話スタイルコマンドで指定された単位を識別し、出力された前記音韻列中において、前記発話スタイルコマンドで前記発話スタイルの前記時間的変化が指定された音韻区間を、識別した単位で特定する区間特定ステップと、
特定された前記音韻区間において、前記発話スタイルの時間的変化に従って発話される音声を合成する音声合成ステップと
を含むことを特徴とする音声合成方法。 A speech synthesis method for inputting text with a command and synthesizing speech that reads out the text,
The commanded text is changed to (1) the text to be synthesized with the speech and (2) the temporal change of the utterance style, which is the speech expression of the speech synthesized from the text, with one of phonemes, mora, or syllables. A separation step for separating the speech style command specified as a unit;
The separated text is linguistically analyzed, and at least a phoneme sequence expressed in a unit used as a unit for designating the temporal change in the utterance style command among a phoneme sequence, a mora sequence, and a syllable sequence representing the text. A language processing step to output;
A unit that identifies a unit specified by the utterance style command and identifies a phoneme segment in which the temporal change of the utterance style is specified by the utterance style command in the output unit. Specific steps,
A speech synthesis method comprising: synthesizing speech uttered in accordance with a temporal change of the utterance style in the identified phoneme section.
コマンド付きテキストを、(1)音声に合成すべき前記テキストと(2)前記テキストから合成される音声の発話表現である発話スタイルの時間的変化を、音素、モーラ、音節のいずれか1つを単位として指定する発話スタイルコマンドとに分離する分離ステップと、分離された前記テキストを言語解析し、少なくとも前記テキストを表す音素列、モーラ列、音節列のうち前記発話スタイルコマンドにおいて前記時間的変化を指定する単位として使用された単位で表記された音韻列を出力する言語処理ステップと、前記発話スタイルコマンドで指定された単位を識別し、出力された前記音韻列中において、前記発話スタイルコマンドで前記発話スタイルの前記時間的変化が指定された音韻区間を、識別した単位で特定する区間特定ステップと、特定された前記音韻区間において、前記発話スタイルの時間的変化に従って発話される音声を合成する音声合成ステップと
を実行させるためのプログラム。 A program for a speech synthesizer that inputs a text with a command and synthesizes a speech that reads out the text, the command-attached text to a computer, (1) the text to be synthesized with the speech and (2) the text A separation step for separating temporal changes in the speech style, which is a speech expression of the synthesized speech, into speech style commands that specify one of phonemes, mora, or syllables, and the separated text as a language A linguistic processing step of analyzing and outputting a phoneme string expressed in a unit used as a unit for designating the temporal change in the utterance style command among at least a phoneme string representing the text, a mora string, and a syllable string; Identify the unit specified in the utterance style command, and in the output phoneme string, A step of specifying a phoneme segment in which the temporal change of the utterance style is specified by the spoken utterance style command in an identified unit, and the utterance is spoken in accordance with the temporal change of the utterance style in the identified phoneme segment. A program for executing a speech synthesis step for synthesizing speech.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005376598A JP2006227589A (en) | 2005-01-20 | 2005-12-27 | Device and method for speech synthesis |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005013282 | 2005-01-20 | ||
JP2005376598A JP2006227589A (en) | 2005-01-20 | 2005-12-27 | Device and method for speech synthesis |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006227589A true JP2006227589A (en) | 2006-08-31 |
Family
ID=36988976
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005376598A Pending JP2006227589A (en) | 2005-01-20 | 2005-12-27 | Device and method for speech synthesis |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006227589A (en) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012247557A (en) * | 2011-05-26 | 2012-12-13 | Nippon Telegr & Teleph Corp <Ntt> | Voice synthesizer, method and program thereof |
US8898062B2 (en) | 2007-02-19 | 2014-11-25 | Panasonic Intellectual Property Corporation Of America | Strained-rough-voice conversion device, voice conversion device, voice synthesis device, voice conversion method, voice synthesis method, and program |
JP2015096140A (en) * | 2013-11-15 | 2015-05-21 | 国立大学法人佐賀大学 | Mood guidance device, mood guidance program, and mood guidance method |
JP2017107228A (en) * | 2017-02-20 | 2017-06-15 | 株式会社テクノスピーチ | Singing voice synthesis device and singing voice synthesis method |
JP2018077281A (en) * | 2016-11-07 | 2018-05-17 | ヤマハ株式会社 | Speech synthesis method |
WO2018230670A1 (en) * | 2017-06-14 | 2018-12-20 | ヤマハ株式会社 | Method for outputting singing voice, and voice response system |
KR20190106890A (en) * | 2019-08-28 | 2019-09-18 | 엘지전자 주식회사 | Speech synthesis method based on emotion information and apparatus therefor |
CN114783405A (en) * | 2022-05-12 | 2022-07-22 | 马上消费金融股份有限公司 | Voice synthesis method and device, electronic equipment and storage medium |
US11929059B2 (en) | 2018-08-02 | 2024-03-12 | Neosapience, Inc. | Method, device, and computer readable storage medium for text-to-speech synthesis using machine learning on basis of sequential prosody feature |
-
2005
- 2005-12-27 JP JP2005376598A patent/JP2006227589A/en active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8898062B2 (en) | 2007-02-19 | 2014-11-25 | Panasonic Intellectual Property Corporation Of America | Strained-rough-voice conversion device, voice conversion device, voice synthesis device, voice conversion method, voice synthesis method, and program |
JP2012247557A (en) * | 2011-05-26 | 2012-12-13 | Nippon Telegr & Teleph Corp <Ntt> | Voice synthesizer, method and program thereof |
JP2015096140A (en) * | 2013-11-15 | 2015-05-21 | 国立大学法人佐賀大学 | Mood guidance device, mood guidance program, and mood guidance method |
JP2018077281A (en) * | 2016-11-07 | 2018-05-17 | ヤマハ株式会社 | Speech synthesis method |
JP2017107228A (en) * | 2017-02-20 | 2017-06-15 | 株式会社テクノスピーチ | Singing voice synthesis device and singing voice synthesis method |
WO2018230670A1 (en) * | 2017-06-14 | 2018-12-20 | ヤマハ株式会社 | Method for outputting singing voice, and voice response system |
JP2019003000A (en) * | 2017-06-14 | 2019-01-10 | ヤマハ株式会社 | Output method for singing voice and voice response system |
US11929059B2 (en) | 2018-08-02 | 2024-03-12 | Neosapience, Inc. | Method, device, and computer readable storage medium for text-to-speech synthesis using machine learning on basis of sequential prosody feature |
KR20190106890A (en) * | 2019-08-28 | 2019-09-18 | 엘지전자 주식회사 | Speech synthesis method based on emotion information and apparatus therefor |
KR102321789B1 (en) * | 2019-08-28 | 2021-11-05 | 엘지전자 주식회사 | Speech synthesis method based on emotion information and apparatus therefor |
CN114783405A (en) * | 2022-05-12 | 2022-07-22 | 马上消费金融股份有限公司 | Voice synthesis method and device, electronic equipment and storage medium |
CN114783405B (en) * | 2022-05-12 | 2023-09-12 | 马上消费金融股份有限公司 | Speech synthesis method, device, electronic equipment and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4125362B2 (en) | Speech synthesizer | |
US6751592B1 (en) | Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically | |
US6470316B1 (en) | Speech synthesis apparatus having prosody generator with user-set speech-rate- or adjusted phoneme-duration-dependent selective vowel devoicing | |
US11763797B2 (en) | Text-to-speech (TTS) processing | |
JP2006227589A (en) | Device and method for speech synthesis | |
WO2009021183A1 (en) | System-effected text annotation for expressive prosody in speech synthesis and recognition | |
JP3616250B2 (en) | Synthetic voice message creation method, apparatus and recording medium recording the method | |
JP5198046B2 (en) | Voice processing apparatus and program thereof | |
JPH1138989A (en) | Device and method for voice synthesis | |
JP6013104B2 (en) | Speech synthesis method, apparatus, and program | |
JPWO2008056590A1 (en) | Text-to-speech synthesizer, program thereof, and text-to-speech synthesis method | |
Carlson | Synthesis: Modeling variability and constraints | |
JP4409279B2 (en) | Speech synthesis apparatus and speech synthesis program | |
JPH08335096A (en) | Text voice synthesizer | |
Theobald | Audiovisual speech synthesis | |
Trouvain et al. | Speech synthesis: text-to-speech conversion and artificial voices | |
WO1999046732A1 (en) | Moving picture generating device and image control network learning device | |
JP2021148942A (en) | Voice quality conversion system and voice quality conversion method | |
JPH0580791A (en) | Device and method for speech rule synthesis | |
JPS62138898A (en) | Voice rule synthesization system | |
Ngo et al. | A study on prosody of vietnamese emotional speech | |
JPH06214585A (en) | Voice synthesizer | |
Kaur et al. | BUILDING AText-TO-SPEECH SYSTEM FOR PUNJABI LANGUAGE | |
Muralishankar et al. | Human touch to Tamil speech synthesizer | |
JP2006227367A (en) | Speech synthesizer |