CN102103856A

CN102103856A - 语音合成方法及***

Info

Publication number: CN102103856A
Application number: CN2009102020136A
Authority: CN
Inventors: 燕鹏举
Original assignee: Shanda Computer Shanghai Co Ltd
Current assignee: Shanda Computer Shanghai Co Ltd
Priority date: 2009-12-21
Filing date: 2009-12-21
Publication date: 2011-06-22

Abstract

本发明公开了一种语音合成方法，根据高层韵律标注规范，对一文本进行高层韵律标注，得到该文本的高层韵律标注文件；通过语音合成器中的低层韵律标注器根据低层韵律标注模型，对所述文本及其高层韵律标注文件进行低层韵律标注，得到该文本的低层韵律标注文件；所述语音合成器根据该文本及其低层韵律标注文件，通过波形拼接或者参数合成的方式生成语音信号并输出。本发明还公开了一种语音合成***。本发明的语音合成方法及***，所生成语音的韵律包含高层韵律信息，韵律丰富自然，表现力强。

Description

语音合成方法及***

技术领域

本发明涉及人工智能技术，特别涉及一种语音合成方法及***。

背景技术

目前的人工智能技术，尚不足以对文本所内含的句式、情感、音色等韵律进行准确判断，所以传统的语音合成***忽略句式、情感、音色等高层韵律，不对之建模，在语音合成标注体系中，仅对较低层面的韵律参数做出描述，比如SSML(Speech Synthesis Markup Language)仅描述了强调(emphasis)强度，停顿(break)强度，音高(pitch)的高低、轮廓、范围，语速(rate)快慢，时长(duration)值，音量(volume)高低，频谱参数等低层韵律参数。因此传统语音合成***所生成语音的韵律具有单一、平淡或者不自然的特征，用户长时间听读会造成疲劳，用户接受度或粘度比较低。

发明内容

本发明要解决的技术问题是提供一种语音合成方法及***，所生成语音的韵律包含高层韵律信息，韵律丰富自然，表现力强。

为解决上述技术问题，本发明的语音合成方法，包括以下步骤：

一.根据高层韵律标注规范，对一文本进行高层韵律标注，得到该文本的高层韵律标注文件；

二.通过语音合成器中的低层韵律标注器根据低层韵律标注模型，对所述文本及其高层韵律标注文件进行低层韵律标注，得到该文本的低层韵律标注文件；

三.所述语音合成器根据该文本及其低层韵律标注文件，通过波形拼接或者参数合成的方式生成语音信号并输出。

所述高层韵律标注文件，含有文本及该文本的高层韵律信息，或者只含有对应于文本的高层韵律信息并与该文本对齐。

所述高层韵律信息包括句式、情感、音色。

所述低层韵律文件包含低层韵律信息，低层韵律信息包括时长大小、音高、音量大小、频谱参数，所述音高包括音高的高低、轮廓、范围。

所述高层韵律标注文件，是通过外源高层韵律器或人工，以离线工作的方式，根据高层韵律标注规范，对输入文本进行处理得到，或者由设置于语音合成器中的内嵌高层韵律标注器根据高层韵律标注模型对输入文本进行标注得到。

为解决上述技术问题，本发明的语音合成***，包括语音合成器、低层韵律标注模型，所述语音合成器包括应用程序接口、低层韵律标注器，通过应用程序接口输入文本，低层韵律标注器根据低层韵律标注模型，对所述文本及其包含有高层韵律信息的高层韵律标注文件进行低层韵律标注，得到该文本的包含有低层韵律信息的低层韵律标注文件，所述语音合成器根据该文本及其低层韵律标注文件，通过波形拼接或者参数合成的方式生成语音信号并输出。

所述的语音合成***，还可以包括高层韵律标注模型，所述语音合成器还包括内嵌高层韵律标注器，所述高层韵律标注器根据高层韵律标注模型，对所述通过应用程序接口输入的文本进行高层韵律标注，得到该文本的高层韵律标注文件。

所述高层韵律标注文件也可以是通过外源高层韵律器或人，以离线工作的方式，根据高层韵律标注规范，对输入文本进行处理得到，并输入到所述语音合成器。

本发明的语音合成方法及***，引入高层韵律信息，将现有语音合成方法及***一体的从文本到低层韵律信息，然后到语音合成的模式，变成从文本到高层韵律信息，再到低层韵律信息，最后到语音合成的模式。根据高层韵律信息，语音合成***在较低的声学参数层面将这些韵律要求进行实现，使得用户可以直接描述高层韵律信息，通过提高各个细节模块的准确性，从而使生成语音的韵律包含高层韵律信息，韵律丰富自然，表现力强。

附图说明

下面结合附图和具体实施方式对本发明作进一步的详细说明。

图1是本发明的语音合成***一实施方式示意图；

图2是高层韵律标注模型的训练示意图；

图3是低层韵律标注模型的训练示意图；

图4是高层韵律标注器使用示意图；

图5是低层韵律标注器使用示意图。

具体实施方式

本发明的语音合成***一实施方式如图1所示，包括语音合成器、低层韵律标注模型、高层韵律标注模型；所述语音合成器中包括内嵌高层韵律标注器、内嵌低层韵律标注器、应用程序接口(API)；

所述高层韵律标注模型，用于被内嵌高层韵律标注器调用，以完成对输入文本的高层韵律标注，得到该文本的高层韵律标注文件。高层韵律标注模型是通过离线训练得到的模型，可以是自动生成的规则也可以是自动生成的概率模型，以CART(classification and regression trees，分类回归树)算法生成的规则为例：如果本句句末标点符号是感叹号，含有象声词，含有好这个词，则本句的情感是欢快。注意，具体训练出来的模型是由训练语料所决定的，这里只是给出形象的例子。高层韵律标注模型的训练，如图2所示，是高层韵律模型训练器使用机器学***行语料，即每句文本都有根据高层韵律规范人工标注的高层韵律标注数据；高层韵律模型训练器中的特征抽取器，对高层韵律训练语料做处理，将其从表面的文本和高层韵律标注数据转化为训练器要使用的特征数据，其中包括句子层面的信息，如句子长度、句型、标点符号；短语层面的信息，如短语长度、在句子中的位置；词层面的信息，如词长、词性；目标特征，即高层韵律特征。注意，由于常用特征的数目非常大，这里不能一一枚举，这些特征是高层韵律标注训练器所需要使用的。

所述低层韵律标注模型，用于被内嵌低层韵律标注器调用，以完成对输入文本及其高层韵律标注文件的低层韵律标注，得到该文本的低层韵律标注文件。低层韵律标注模型是通过离线训练得到的模型，可以是自动生成的规则，也可以是自动生成的概率模型，以CART生成的规则为例：如果本句情感是欢快，并且句末词是象声词，则句末音节的时长为300ms。注意，具体训练出来的模型是由训练语料所决定的，这里只是给出形象的例子。低层韵律标注模型的训练，如图3所示，是低层韵律模型训练器使用机器学***行语料，即每句文本都有人工标注的高层韵律标注数据，以及使用专用工具抽取得到的低层韵律标注数据；低层韵律模型训练器中的特征抽取器，对低层韵律训练语料做处理，将其从表面的文本、高层韵律标注数据和低层韵律标注数据转化为训练器要使用的特征数据，其中包括句子层面的信息，如句子长度、句型、标点符号；短语层面的信息，如短语长度、在句子中的位置；词层面的信息，如词长、词性；高层韵律特征；目标特征，即低层韵律特征。注意，由于常用特征的数目非常大，这里不能一一枚举。这些特征是低层韵律标注训练器所需要使用的。

所述内嵌高层韵律标注器，作为语音合成器内嵌的一部分，或者是其紧密相关的一部分，功能是根据高层韵律标注规范，使用高层韵律标注模型对输入文本进行自动标注，得到高层韵律标注文件。该模块以在线的方式运行。高层韵律标注器使用方法如图4所示，文本作为内嵌高层韵律标注器的输入，内嵌高层韵律标注器使用特征抽取器将输入文本转换成特征，使用高层韵律标注模型，得到高层韵律标注文件，内嵌高层韵律标注器中的特征抽取器与高层韵律模型训练器中的特征抽取器相同(只是由于在标注器的输入不含有高层韵律标注，所以这里转化成的特征数据中不包括目标特征，即高层韵律特征)。高层韵律标注文件中含有对应于输入文本的高层韵律信息，包括句式、情感、音色等，句式比如陈述句、感叹句、疑问句(及更多的类别，或更细的分类)等，情感比如普通、欢快、悲伤、恐惧(及更多的类别，或更细的分类)等，音色比如普通、甜美、沙哑、低沉(及更多的类别，或更细的分类)等，高层韵律标注文件可以将输入文本本身包含在内，也可以不包含输入文本，但以某种形式与输入文本进行对齐。

内嵌低层韵律标注器，作为语音合成器内嵌的一部分，或者是其紧密相关的一部分，功能是使用低层韵律标注模型对输入文本及其高层韵律标注文件进行自动标注，得到该文本的低层韵律标注文件。该模块以在线的方式运行。低层韵律标注器使用方法如图5所示，文本及其高层韵律标注文件作为内嵌低层韵律标注器的输入，内嵌低层韵律标注器使用特征抽取器将输入文本及其高层韵律标注数据转换成特征，使用低层韵律标注模型，得到低层韵律标注文件，内嵌低层韵律标注器中的特征抽取器与低层韵律模型训练器中的特征抽取器相同。低层韵律标注文件中含有对应于输入文本的低层韵律信息，包括时长、音高、音量、频谱参数等，作为语音合成器的输入。

所述应用程序接口(API)，用于输入文本到语音合成器。

语音合成器，根据输入文本及内嵌低层韵律标注器输出的该文本的低层韵律标注文件，通过波形拼接或者参数合成的方式生成语音信号并输出。语音合成器中也可以不设置内嵌高层韵律标注器，而是通过外源高层韵律标注器或人工，根据高层韵律标注规范对输入文本进行处理，得到高层韵律标注文件，然后将该高层韵律标注文件传送到语音合成器中的内嵌低层韵律标注器。

高层韵律标注规范，定义了高层韵律标注的标准，高层韵律包括：

句式：比如陈述句、感叹句、疑问句(及更多的类别，或更细的分类)等；

情感：比如普通、欢快、悲伤、恐惧(及更多的类别，或更细的分类)等；

音色：比如普通、甜美、沙哑、低沉(及更多的类别，或更细的分类)等；

下面以XML的形式给出高层韵律标注规范。显然，规范格式可以以其他任意类似形式存在。

A.句式元素：<sentenceType>，包括但不限于以下属性值：

a.陈述句：declarative

b.疑问句：interrogative

c.感叹句：exclamatory

B.情感元素：<emotionType>，包括但不限于以下属性值：

a.普通：normal

b.欢快：happy

c.悲伤：sad

d.恐惧：scared

C.音色元素：<timbreType>，包括但不限于以下属性值：

a.普通：normal

b.甜美：sweet

c.沙哑：hoarse

d.低沉：deep

上述所有这些元素可以是嵌套的，以便进行各种方式的组合，比如以甜美的音色、恐惧的感情表现一个感叹据句。

下面是一个含有各种高层韵律的例子(本例将输入文本也包含在标注结果xml内)

<？version＝″1.0″？>

<speak>

...

<sentenceType value＝″exclamatory″>今天我终于见识到他了！</sentenceType>

<sentenceType value＝″interrogative″>你希望本书重点写什么？</sentenceType>

<sentenceType value＝″declarative″>众人都凝神于大厅中的对决。</sentenceType>

...

<emotionType value＝″normal″>颇有搁肘自笑的嫌疑。</emotionType>

<emotionType value＝″happy″>我们又见面了！</emotionType>

<emotionType value＝″sad″>而且是头破血流。</emotionType>

...

<timbreType value＝″normal″>将在睡梦中的我吵醒。</timbreType>

<timbreType value＝″sweet″>你猜我给你买了什么？</timbreType>

沙僧道：<timbreType value＝″hoarse″>“我乃流沙河主是也。″</timbreType>

老张说：<timbreType value＝″deep″>我本来是不打算回去的。</timbreType>

...

</speak>

进行语音合成时，文本经由用户界面或者应用程序接口(API)输入到本发明的语音合成***，可以通过外源高层韵律器或人工，以离线工作的方式，根据高层韵律标注规范，对输入文本进行处理，得到包含句式、情感、音色等高低层韵律信息的高层韵律标注文件，如果语音合成***存在高层韵律标注模型并且语音合成器中也存在内嵌高层韵律标注器，则该内嵌高层韵律标注器根据高层韵律标注模型对输入文本进行自动标注，得到高层韵律标注文件，该内嵌高层韵律标注器的使用与否，可以通过用户配置文件进行设置；然后语音合成器通过其中的低层韵律标注器使用低层韵律标注模型对输入文本及其高层韵律标注文件进行处理，以得到包含低层韵律信息的低层韵律标注文件，低层韵律信息包括时长、音高、音量、频谱参数等，最终所述语音合成器根据该文本及其低层韵律标注文件，通过波形拼接或者参数合成的方式生成语音信号并输出。

Claims

1.一种语音合成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的语音合成方法，其特征在于，所述高层韵律标注文件，含有文本及该文本的高层韵律信息。

3.根据权利要求1所述的语音合成方法，其特征在于，所述高层韵律标注文件，只含有对应于文本的高层韵律信息，并与该文本对齐。

4.根据权利要求3或4所述的语音合成方法，其特征在于，所述高层韵律信息包括句式、情感、音色。

5.根据权利要求1所述的语音合成方法，其特征在于，所述低层韵律文件包含低层韵律信息，低层韵律信息包括时长大小、音高、音量大小、频谱参数，所述音高包括音高的高低、轮廓、范围。

6.根据权利要求1所述的语音合成方法，其特征在于，所述高层韵律标注文件，是通过外源高层韵律器或人工，以离线工作的方式，根据高层韵律标注规范，对输入文本进行处理得到，或者由设置于语音合成器中的内嵌高层韵律标注器根据高层韵律标注模型对输入文本进行标注得到。

7.一种语音合成***，其特征在于，包括语音合成器、低层韵律标注模型，所述语音合成器包括应用程序接口、低层韵律标注器，通过应用程序接口输入文本，低层韵律标注器根据低层韵律标注模型，对所述文本及其包含有高层韵律信息的高层韵律标注文件进行低层韵律标注，得到该文本的包含有低层韵律信息的低层韵律标注文件，所述语音合成器根据该文本及其低层韵律标注文件，通过波形拼接或者参数合成的方式生成语音信号并输出。

8.根据权利要求7所述的语音合成***，其特征在于，还包括高层韵律标注模型，所述语音合成器还包括内嵌高层韵律标注器，所述高层韵律标注器根据高层韵律标注模型，对所述通过应用程序接口输入的文本进行高层韵律标注，得到该文本的高层韵律标注文件。

9.根据权利要求7所述的语音合成***，其特征在于，所述高层韵律标注文件是通过外源高层韵律器或人，以离线工作的方式，根据高层韵律标注规范，对输入文本进行处理得到，并输入到所述语音合成器。

10.根据权利要求7所述的语音合成***，其特征在于，所述高层韵律信息包括句式、情感、音色，所述低层韵律信息包括时长大小、音高、音量大小、频谱参数，所述音高包括音高的高低、轮廓、范围。