CN108597492A

CN108597492A - 语音合成方法和装置

Info

Publication number: CN108597492A
Application number: CN201810410481.1A
Authority: CN
Inventors: 李�昊; 康永国; 王振宇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-05-02
Filing date: 2018-05-02
Publication date: 2018-09-28
Anticipated expiration: 2038-05-02
Also published as: CN108597492B

Abstract

本发明实施例提供一种语音合成方法和装置。该方法包括：获取待处理文本的音素特征和韵律及情感特征，根据音素特征和韵律及情感特征，采用预先训练的时长模型，确定待处理文本的语音时长，所述时长模型基于卷积神经网络训练得到，根据音素特征、韵律及情感特征和语音时长，采用预先训练的声学参数模型，确定待处理文本的声学特征参数，所述声学参数模型基于卷积神经网络训练得到，根据声学特征参数，合成待处理文本的语音。本发明实施例的方法，能够在满足实时性要求的前提下，提供音质更高，更加具有情感表现力，更加自然流畅的合成语音。

Description

语音合成方法和装置

技术领域

本发明实施例涉及文语转换(Text To Speech，简称：TTS)技术领域，尤其涉及一种语音合成方法和装置。

背景技术

随着多媒体通信技术的不断发展，作为人机交互重要方式之一的语音合成技术以其方便、快捷的优点受到了研究者的广泛关注。语音合成是通过机械的、电子的方法产生人造语音的技术，它是将计算机自己产生的或者外部输入的文字信息转变为可以听得懂的、流利的口语输出的技术。语音合成的目的是将文本转换为语音播放给用户，目标是达到真人文本播报的效果。

语音合成技术已经获得了广泛的应用，例如语音合成技术已经用于信息流、地图导航、阅读、翻译、智能家电等。现有技术中，谷歌新一代WaveNet语音合成***，虽然能够合成高音质的语音，但是由于其计算量过大，根本无法在需要实时合成的场合应用，而语音合成技术的很多应用场合都对实时性有较高的要求。基于隐马尔可夫模型(Hidden MarkovModel，简称：HMM)的参数合成方法和基于循环神经网络(Recurrent Neural Network，简称：RNN)的语音合成方法，虽然能够满足实时性的要求，但是，基于HMM的参数合成方法，获得的声学参数会出现过平滑现象，该过平滑现象会导致所合成的语音音质低、节奏单调平淡，基于RNN的语音合成方法，由于网络深度较浅，用于输入的文本特征以及输出的声学参数比较原始粗糙，合成的语音音质模糊且表现力差，用户体验较差。

综上所述，现有语音合成技术无法在满足实时性要求的前提下，提供高音质，强表现力的语音。

发明内容

本发明实施例提供一种语音合成方法和装置，用以解决现有语音合成方法无法在满足实时性要求的前提下，提供高音质，强表现力的合成语音的问题。

第一方面，本发明实施例提供一种语音合成方法，包括：

获取待处理文本的音素特征和韵律及情感特征；

根据音素特征和韵律及情感特征，采用预先训练的时长模型，确定待处理文本的语音时长，所述时长模型基于卷积神经网络训练得到；

根据音素特征、韵律及情感特征和语音时长，采用预先训练的声学参数模型，确定待处理文本的声学特征参数，所述声学参数模型基于卷积神经网络训练得到；

根据声学特征参数，合成待处理文本的语音。

在第一方面的一种可能的实现方式中，时长模型至少可以包括：

对音素特征进行卷积处理的第一卷积网络滤波器和对韵律及情感特征进行卷积处理的第二卷积网络滤波器。

在第一方面的一种可能的实现方式中，声学参数模型至少可以包括：

对音素特征和语音时长进行卷积处理的第三卷积网络滤波器，和对韵律及情感特征和语音时长进行卷积处理的第四卷积网络滤波器。

在第一方面的一种可能的实现方式中，声学特征参数包括：

谱包络、能量参数、非周期参数、基频和声带振动判断参数。

用于输出谱包络的第一双向门控循环单元网络、用于输出能量参数的第二双向门控循环单元网络、用于输出非周期参数的第三双向门控循环单元网络和用于输出基频的第四双向门控循环单元网络。

在第一方面的一种可能的实现方式中，在根据音素特征和韵律及情感特征，采用预先训练的时长模型，确定待处理文本的语音时长之前，还包括：

从训练语料库中获取多个训练样本的音素特征、韵律及情感特征和语音时长；

将多个训练样本的音素特征和韵律及情感特征作为时长模型的输入特征，将多个训练样本的语音时长作为时长模型的期望输出特征，对时长模型进行训练。

在第一方面的一种可能的实现方式中，在根据音素特征、韵律及情感特征和语音时长，采用预先训练的声学参数模型，确定待处理文本的声学特征参数之前，还包括：

从训练语料库中获取多个训练样本的音素特征、韵律及情感特征、语音时长和声学特征参数；

将多个训练样本的音素特征、韵律及情感特征和语音时长作为声学参数模型的输入特征，将多个训练样本的声学特征参数作为声学参数模型的期望输出特征，对声学参数模型进行训练。

第二方面，本发明实施例还提供一种语音合成装置，包括：

获取模块，用于获取待处理文本的音素特征和韵律及情感特征；

第一确定模块，用于根据音素特征和韵律及情感特征，采用预先训练的时长模型，确定待处理文本的语音时长，时长模型基于卷积神经网络训练得到；

第二确定模块，用于根据音素特征、韵律及情感特征和语音时长，采用预先训练的声学参数模型，确定待处理文本的声学特征参数，声学参数模型基于卷积神经网络训练得到；

合成模块，用于根据声学特征参数，合成待处理文本的语音。

在第二方面的一种可能的实现方式中，时长模型至少包括：

在第二方面的一种可能的实现方式中，声学参数模型至少包括：

在第二方面的一种可能的实现方式中，声学特征参数包括：

第三方面，本发明实施例还提供一种语音合成装置，包括：

存储器；

处理器；以及

计算机程序；

其中，计算机程序存储在存储器中，并被配置为由处理器执行以实现上述任一项的方法。

第四方面，本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行以实现上述任一项的方法。

本发明实施例提供的语音合成方法和装置，通过基于卷积神经网络训练得到的时长模型和声学参数模型，根据待处理文本的音素特征和韵律及情感特征，依次确定待处理文本的语音时长和声学特征参数，根据确定的声学特征参数合成待处理文本的语音。由于综合考虑了音素特征和韵律及情感特征，因此获取到的声学特征参数更加准确，合成的语音的音质更高；由于在确定语音时长以及声学特征参数时充分考虑了韵律及情感特征，据此合成的语音更加具有韵律表现力和情感表现力；且卷积神经网络的规模适当，能够实现实时处理。综上所述，本发明实施例提供的语音合成方法能够在满足实时性要求的前提下，提供音质更高，更加具有情感表现力，更加自然流畅的合成语音。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1为本发明提供的语音合成方法一实施例的流程图；

图2为本发明提供的语音合成方法一实施例中的时长模型的示意图；

图3为本发明提供的语音合成方法一实施例中的声学参数模型的示意图；

图4为本发明提供的语音合成方法一实施例中的基于卷积神经网络训练时长模型的示意图；

图5为本发明提供的语音合成方法一实施例中的的基于卷积神经网络训练声学参数模型的示意图；

图6为本发明提供的语音合成装置一实施例的结构示意图；

图7为本发明提供的语音合成装置又一实施例的结构示意图。

通过上述附图，已示出本发明明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围，而是通过参考特定实施例为本领域技术人员说明本发明的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

本发明的说明书和权利要求书中的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明中的“第一”、“第二”、“第三”等只起标识作用，而不能理解为指示或暗示顺序关系、相对重要性或者隐含指明所指示的技术特征的数量。“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本发明的说明书中通篇提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

图1为本发明提供的语音合成方法一实施例的流程图。本实施例提供的语音合成方法可以由语音合成设备执行，该语音合成设备包括但不限于以下中的至少一个：用户设备、网络设备。用户设备包括但不限于计算机、智能手机、平板电脑、个人数字助理等。网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算的由大量计算机或网络服务器构成的云，其中，云计算是分布式计算的一种，由一群松散耦合的计算机组成的一个超级虚拟计算机。如图1所示，本实施例提供的方法可以包括：

步骤S101、获取待处理文本的音素特征和韵律及情感特征。

音素特征，影响语音合成的正确性，本实施例中的音素特征包括但不限于：声韵母、声调等。需要说明的是，对于不同语种的语音合成，其关注的音素特征可能是不同的，需要根据具体语种确定相适应的音素特征。例如，以英语为例，与声韵母相对应的音素特征为音标。

本实施例中的音素特征既可以为音子级，也可以为比音子级更小的状态级，例如以汉语为例，音素特征可以为音子级的拼音的声韵母，也可以为比音子级更小的状态级的声韵母的子片段。

韵律及情感特征，影响语音合成的表现力，本实施例中的韵律及情感特征包括但不限于：停顿、语气、重音等。

待处理文本的音素特征和韵律及情感特征，可以通过对待处理文本进行分析得到，本实施例对于具体的分析方法不做具体限制。

步骤S102、根据音素特征和韵律及情感特征，采用预先训练的时长模型，确定待处理文本的语音时长，所述时长模型基于卷积神经网络训练得到。

本实施例中的时长模型基于卷积神经网络训练得到，对音素特征和韵律及情感特征分别进行处理，然后联合确定待处理文本的语音时长。

举例来说，对于文本“我是中国人。”和“我是中国人！”，若仅仅考虑音素特征，其音素信息为wo3shi4zhong1guo2ren2，根据该音素信息确定的两个文本的语音时长相等。当同时考虑韵律及情感特征时，感叹句和陈述句中的停顿位置以及停顿时长、语气及重音的位置可能不同，这些都可能会影响该文本对应的语音时长。因此，本实施例提供的方法能够获取到更加符合真人朗读的语音时长。

步骤S103、根据音素特征、韵律及情感特征和语音时长，采用预先训练的声学参数模型，确定待处理文本的声学特征参数，所述声学参数模型基于卷积神经网络训练得到。

本实施例中的声学参数模型基于卷积神经网络训练得到，根据音素特征、韵律及情感特征和步骤S102中确定的待处理文本的语音时长，确定待处理文本的声学特征参数。由于充分利用了韵律及情感特征，根据本实施例确定的声学特征参数合成的语音将更加具有抑扬顿挫的感觉，更加自然流畅。

本实施例中的声学特征参数可以为利用声码器合成语音时所需要的参数，也可以为采用其他方法合成语音时所需要的参数，本实施例对于参数的具体形式不做限制。

步骤S104、根据声学特征参数，合成待处理文本的语音。

利用步骤S103中确定的声学特征参数，便可以合成待处理文本的语音。例如，可以将确定的声学特征参数输入到声码器中，合成语音信号，完成语音合成过程。本实施例对于具体的合成方法不做具体限制。

本实施例提供的语音合成方法，通过基于卷积神经网络训练得到的时长模型和声学参数模型，根据待处理文本的音素特征和韵律及情感特征，依次确定待处理文本的语音时长和声学特征参数，根据确定的声学特征参数合成待处理文本的语音。由于综合考虑了音素特征和韵律及情感特征，因此获取到的声学特征参数更加准确，合成的语音的音质更高；由于在确定语音时长以及声学特征参数时充分考虑了韵律及情感特征，据此合成的语音更加具有韵律表现力和情感表现力；且卷积神经网络的规模适当，能够实现实时处理。综上所述，本实施例提供的语音合成方法能够在满足实时性要求的前提下，提供音质更高，更加具有情感表现力，更加自然流畅的合成语音。

下面采用几个具体的实施例，对图1所示方法实施例的技术方案进行详细说明。

在一种可能的实现方式中，时长模型至少可以包括：对音素特征进行卷积处理的第一卷积网络滤波器和对韵律及情感特征进行卷积处理的第二卷积网络滤波器。

其中，第一卷积网络滤波器用于接收音素特征，第二卷积网络滤波器用于接收韵律及情感特征，分别对音素特征和韵律及情感特征进行卷积滤波处理，第一卷积网络滤波器和第二卷积网络滤波器的结构可以相同也可以不同，本实施例对此不做限制。

可选的，第一卷积网络滤波器和第二卷积网络滤波器可以位于卷积神经网络的同一层，并列存在，即两者地位等同，同样重要。通过两个并列的卷积网络滤波器分别处理韵律及情感特征和音素特征，突出了韵律及情感特征在语音合成过程中的作用，能够获取到更加准确的语音时长信息，进而能够提高合成语音的韵律及情感表现力。

下面通过一个具体的时长模型来对本发明实施例中的时长模型进行说明。请参见图2所示，仅以图2为例进行说明，并不表示本发明仅限于此。图2为本发明提供的语音合成方法一实施例中的时长模型的示意图。如图2所示，该时长模型包括依次连接的：并列的第一卷积网络滤波器和第二卷积网络滤波器、最大池化层、卷积映射层、激活函数和双向门控循环单元。其中，第一卷积网络滤波器用于接收音素特征，并对其进行卷积滤波处理，第二卷积网络滤波器用于接收韵律及情感特征，并对其进行卷积滤波处理，最大池化层对第一卷积网络滤波器和第二卷积网络滤波器的输出进行时间维度的一维最大值池化，以降维和避免过拟合。然后再经过卷积映射层和激活函数层，由双向门控循环单元输出语音时长。通过最大池化层、卷积映射层和激活函数可以提取到文本的高层特征。需要说明的是，由于语音信号是时序一维信号，因此，本实施例中的卷积操作均为一维的。激活函数可以根据实际需要选定，例如，可以采用High way layer实现，本实施例对此不做限制。图2仅示出了一种可能的时长模型，实际使用中还可以使用包括有更多卷积映射层和最大池化层的时长模型。本实施例提供的时长模型，由于采用了两个卷积网络滤波器，分别接收并处理音素特征和韵律及情感特征，能够获取到更加准确的语音时长信息。

在一种可能的实现方式中，声学参数模型至少可以包括：对音素特征和语音时长进行卷积处理的第三卷积网络滤波器，和对韵律及情感特征和语音时长进行卷积处理的第四卷积网络滤波器。

其中，第三卷积网络滤波器用于接收音素特征和语音时长信息，第四卷积网络滤波器用于接收韵律及情感特征和语音时长信息，分别进行卷积滤波处理，第三卷积网络滤波器和第四卷积网络滤波器的结构可以相同也可以不同，本实施例对此不做限制。

可选的，第三卷积网络滤波器和第四卷积网络滤波器可以位于卷积神经网络的同一层，并列存在，即两者地位等同，同样重要。通过两个并列的卷积网络滤波器分别处理韵律及情感特征和音素特征，突出了韵律及情感特征在语音合成过程中的作用，能够获取到更加准确的声学特征参数，进而能够提高合成语音的韵律及情感表现力。

需要说明的是，由于输入第三卷积网络滤波器的特征维度大于输入第一卷积网络滤波器的特征维度，因此，第三卷积网络滤波器的卷积宽度可以大于第一卷积网络滤波器。同理，第四卷积网络滤波器的卷积宽度可以大于第二卷积网络滤波器。例如，可以使第三卷积网络滤波器的卷积宽度为第一卷积网络滤波器的5倍。同样以文本“我是中国人”举例说明，第一卷积网络滤波器接收到的音素特征为“wo3shi4zhong1guo2ren2”，假设通过时长模型确定其语音时长信息为(以帧数表示，通常选用5毫秒为1帧)“4 3 5 5 4”，此处数字仅用于举例说明，并不对本发明形成任何限制。则第三卷积网络滤波器接收到的音素特征和语音时长信息可以表示为“w w w w o3 o3 o3 o3 sh sh sh i4 i4 i4 zh zh zh zh zhong1 ong1 ong1 ong1 ong1 g g g g g uo2 uo2 uo2 uo2 uo2 r r r r r en2 en2 en2en2 en2”，特征维度得到了明显提升。

在一种具体的实现方式中，声学特征参数可以包括：谱包络、能量参数、非周期参数、基频和声带振动判断参数。

由于语音信号的能量随时间而变化，清音和浊音之间的能量差别相当显著，因此，对于能量的准确估计能够提升合成语音的情感表现力。本实施例中采用独立的能量参数用于对能量进行估计，增强了能量对于合成语音的影响，可以提升合成语音的情感和韵律表现力。

基音的频率即为基频，基频的高低可以反映语音声调的高低，基频的变化可以反映声调的变化。人在讲话时产生的语音的基频，取决于声带的大小、厚薄、松紧程度以及声门上下之间的气压差的效应，因此，准确的基频参数是合成正确语音的前提，且可以使得合成的语音更加逼近真人发声。

声带振动判断参数用于指示声带是否振动，如可以使用第一值表示声带振动，产生浊音，使用第二值表示声带不振动，产生清音，第一值与第二值不相等。本实施例中，声带振动判断参数可以与基频参数配合使用，例如，当声带振动判断参数指示声带振动时，基频有效；当声带振动判断参数指示声带不振动时，基频无效。

非周期参数用于描述语音中的噪音信息以及发音时气流与空气的摩擦等。谱包络用于描述语音的谱信息。

本实施例提供的语音合成方法，通过包括谱包络、能量参数、非周期参数、基频和声带振动判断参数的声学特征参数，合成待处理文本的语音，能够提高所合成语音的音质和自然度，特别的，由于增加了描述语音信号能量的能量参数，进一步提升了合成语音的韵律及情感表现力。

在上一实施例的基础上，本实施例提供的语音合成方法中的声学参数模型至少可以包括：用于输出谱包络的第一双向门控循环单元网络、用于输出能量参数的第二双向门控循环单元网络、用于输出非周期参数的第三双向门控循环单元网络和用于输出基频的第四双向门控循环单元网络。其中，第一双向门控循环单元网络、第二双向门控循环单元网络、第三双向门控循环单元网络和第四双向门控循环单元网络可以位于卷积神经网络中的同一层，且各单元网络之间相互独立。

本实施例提供的语音合成方法，由于采用了相互独立的双向门控循环单元网络分别用于输出不同的声学特征参数，避免了参数之间的相互干扰，使获取到的声学特征参数更加准确，减弱了输出过平滑现象，大大提升了合成语音的音质，且准确的参数能够使合成语音的韵律及情感表现力得到提升，更加自然流畅。

在上述实施例的基础上，本实施例对上述实施例进行结合，提供一种具体的声学参数模型。图3为本发明提供的语音合成方法一实施例中的声学参数模型的示意图。如图3所示，该声学参数模型包括依次连接的：并列的第三卷积网络滤波器和第四卷积网络滤波器、最大池化层、卷积映射层、激活函数、并列的第一双向门控循环单元、第二双向门控循环单元、第三双向门控循环单元和第四双向门控循环单元。各层的作用与图2所示实施例类似，此处不再赘述。本实施例提供的声学参数模型，由于采用了两个卷积网络滤波器，分别接收并处理音素特征和韵律及情感特征，且通过四个相互独立的双向门控循环单元分别输出不同的参数，不仅增强了韵律及情感特征对于声学特征参数的影响，且避免了各参数之间的相互干扰，进一步提升了合成语音的音质和韵律及情感表现力。

在一种具体的实现方式中，可以采用图2所示的时长模型用于确定待处理文本的语音时长，然后采用图3所示的声学参数模型用于确定待处理文本的声学特征参数，最后根据获取到的声学特征参数合成待处理文本的语音。本实施例提供的语音合成方法，模型规模适当，能够在满足实时性要求的前提下，大幅提高合成音质；对输入的韵律及情感特征使用单独的卷积网络滤波器进行卷积滤波且输出独立的能量参数，大大提升了合成语音的情感和韵律表现力；输出层对不同参数采用相互独立的双向门控循环单元层，减少了参数之间的相互干扰，减弱了输出参数过平滑的现象，大大提升了合成音质。

在上述任一实施例的基础上，本实施例提供的语音合成方法，在根据音素特征和韵律及情感特征，采用预先训练的时长模型，确定待处理文本的语音时长之前，还可以包括：

图4为本发明提供的语音合成方法一实施例中的基于卷积神经网络训练时长模型的示意图。如图4所示，在训练时长模型时，使用卷积神经网络根据训练样本的音素特征和韵律及情感特征与语音时长之间的映射关系建立时长模型，将训练样本的音素特征和韵律及情感特征作为输入参数，将训练样本的语音时长作为期望输出参数，利用卷积神经网络的多层非线性特性可以学习到输入参数与输出参数之间复杂的映射关系，从而可以训练得到具有较高精度的时长预测模型。

在上述任一实施例的基础上，本实施例提供的语音合成方法，在根据音素特征、韵律及情感特征和语音时长，采用预先训练的声学参数模型，确定待处理文本的声学特征参数之前，还包括：

图5为本发明提供的语音合成方法一实施例中的的基于卷积神经网络训练声学参数模型的示意图。如图5所示，在训练声学参数模型时，使用卷积神经网络根据训练样本的音素特征、韵律及情感特征、语音时长与声学特征参数之间的映射关系建立声学参数模型，将训练样本的音素特征、韵律及情感特征和语音时长作为输入参数，将训练样本的声学特征参数作为期望输出参数，利用卷积神经网络的多层非线性特性可以学习到输入参数与输出参数之间复杂的映射关系，从而可以训练得到具有较高精度的声学参数模型。

图6为本发明提供的语音合成装置一实施例的结构示意图。如图6所示，本实施例提供的语音合成装置60包括：获取模块601、第一确定模块602、第二确定模块603和合成模块604。

获取模块601，用于获取待处理文本的音素特征和韵律及情感特征；

第一确定模块602，用于根据音素特征和韵律及情感特征，采用预先训练的时长模型，确定待处理文本的语音时长，时长模型基于卷积神经网络训练得到；

第二确定模块603，用于根据音素特征、韵律及情感特征和语音时长，采用预先训练的声学参数模型，确定待处理文本的声学特征参数，声学参数模型基于卷积神经网络训练得到；

合成模块604，用于根据声学特征参数，合成待处理文本的语音。

本实施例的装置，可以用于执行图1所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

在一种可能的实现方式中，时长模型至少可以包括：

在一种可能的实现方式中，声学参数模型至少可以包括：

在一种可能的实现方式中，声学特征参数可以包括：

在一种可能的实现方式中，声学参数模型至少可以包括：

本发明实施例还提供一种语音合成装置，请参见图7所示，本发明实施例仅以图7为例进行说明，并不表示本发明仅限于此。图7为本发明提供的语音合成装置又一实施例的结构示意图。如图7所示，本实施例提供的语音合成装置70包括：存储器701、处理器702和总线703。其中，总线703用于实现各元件之间的连接。

存储器701中存储有计算机程序，计算机程序被处理器702执行时可以实现上述任一方法实施例的技术方案。

其中，存储器701和处理器702之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可以通过一条或者多条通信总线或信号线实现电性连接，如可以通过总线703连接。存储器701中存储有实现语音合成方法的计算机程序，包括至少一个可以软件或固件的形式存储于存储器701中的软件功能模块，处理器702通过运行存储在存储器701内的软件程序以及模块，从而执行各种功能应用以及数据处理。

存储器701可以是，但不限于，随机存取存储器(Random Access Memory，简称：RAM)，只读存储器(Read Only Memory，简称：ROM)，可编程只读存储器(ProgrammableRead-Only Memory，简称：PROM)，可擦除只读存储器(Erasable Programmable Read-OnlyMemory，简称：EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，简称：EEPROM)等。其中，存储器701用于存储程序，处理器702在接收到执行指令后，执行程序。进一步地，上述存储器701内的软件程序以及模块还可包括操作***，其可包括各种用于管理***任务(例如内存管理、存储设备控制、电源管理等)的软件组件和/或驱动，并可与各种硬件或软件组件相互通信，从而提供其他软件组件的运行环境。

处理器702可以是一种集成电路芯片，具有信号的处理能力。上述的处理器702可以是通用处理器，包括中央处理器(Central Processing Unit，简称：CPU)、网络处理器(Network Processor，简称：NP)等。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。可以理解，图7的结构仅为示意，还可以包括比图7中所示更多或者更少的组件，或者具有与图7所示不同的配置。图7中所示的各组件可以采用硬件和/或软件实现。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时可以实现上述任一方法实施例提供的语音合成方法。本实施例中的计算机可读存储介质可以是计算机能够存取的任何可用介质，或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备，可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如SSD)等。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种语音合成方法，其特征在于，包括：

获取待处理文本的音素特征和韵律及情感特征；

根据所述音素特征和所述韵律及情感特征，采用预先训练的时长模型，确定所述待处理文本的语音时长，所述时长模型基于卷积神经网络训练得到；

根据所述音素特征、所述韵律及情感特征和所述语音时长，采用预先训练的声学参数模型，确定所述待处理文本的声学特征参数，所述声学参数模型基于卷积神经网络训练得到；

根据所述声学特征参数，合成所述待处理文本的语音。

2.根据权利要求1所述的方法，其特征在于，所述时长模型至少包括：

对所述音素特征进行卷积处理的第一卷积网络滤波器和对所述韵律及情感特征进行卷积处理的第二卷积网络滤波器。

3.根据权利要求1所述的方法，其特征在于，所述声学参数模型至少包括：

对所述音素特征和所述语音时长进行卷积处理的第三卷积网络滤波器，和对所述韵律及情感特征和所述语音时长进行卷积处理的第四卷积网络滤波器。

4.根据权利要求1所述的方法，其特征在于，所述声学特征参数包括：

5.根据权利要求4所述的方法，其特征在于，所述声学参数模型至少包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，在所述根据所述音素特征和所述韵律及情感特征，采用预先训练的时长模型，确定所述待处理文本的语音时长之前，还包括：

将所述多个训练样本的音素特征和韵律及情感特征作为所述时长模型的输入特征，将所述多个训练样本的语音时长作为所述时长模型的期望输出特征，对所述时长模型进行训练。

7.根据权利要求1-5任一项所述的方法，其特征在于，在根据所述音素特征、所述韵律及情感特征和所述语音时长，采用预先训练的声学参数模型，确定所述待处理文本的声学特征参数之前，还包括：

将所述多个训练样本的音素特征、韵律及情感特征和语音时长作为所述声学参数模型的输入特征，将所述多个训练样本的声学特征参数作为所述声学参数模型的期望输出特征，对所述声学参数模型进行训练。

8.一种语音合成装置，其特征在于，包括：

第一确定模块，用于根据所述音素特征和所述韵律及情感特征，采用预先训练的时长模型，确定所述待处理文本的语音时长，所述时长模型基于卷积神经网络训练得到；

第二确定模块，用于根据所述音素特征、所述韵律及情感特征和所述语音时长，采用预先训练的声学参数模型，确定所述待处理文本的声学特征参数，所述声学参数模型基于卷积神经网络训练得到；

合成模块，用于根据所述声学特征参数，合成所述待处理文本的语音。

9.根据权利要求8所述的装置，其特征在于，所述时长模型至少包括：

10.根据权利要求8所述的装置，其特征在于，所述声学参数模型至少包括：

11.根据权利要求8所述的装置，其特征在于，所述声学特征参数包括：

12.根据权利要求11所述的装置，其特征在于，所述声学参数模型至少包括：

13.一种语音合成装置，其特征在于，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1-7任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行以实现如权利要求1-7任一项所述的方法。