CN114267330A

CN114267330A - 语音合成方法、装置、电子设备和存储介质

Info

Publication number: CN114267330A
Application number: CN202111659164.1A
Authority: CN
Inventors: 刘丹; 伍芸荻
Original assignee: iFlytek Co Ltd
Current assignee: University of Science and Technology of China USTC; iFlytek Co Ltd
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-04-01

Abstract

本发明提供一种语音合成方法、装置、电子设备和存储介质，其中方法包括：确定待合成的篇章文本的篇章音素序列；对所述篇章音素序列进行编码，得到所述篇章文本的语音学特征；基于所述语音学特征进行语音合成，得到所述篇章文本的合成语音。本发明提供的方法、装置、电子设备和存储介质，通过对篇章文本的篇章音素序列进行编码，从而得到针对篇章文本整体建模的语音学特征，据此进行语音合成，能够保证合成语音在韵律、情感等语感层面的连贯性，提高合成语音的自然度。

Description

语音合成方法、装置、电子设备和存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种语音合成方法、装置、电子设备和存储介质。

背景技术

语音合成(Text to Speech,TTS)是一种将文本转换为语音的技术。现有的基于深度学习的语音合成方法主要分为两大类：自回归语音合成方法和非自回归语音合成方法。

上述两类语音合成方法在对单个语句进行语音合成时均有不错的表现，但是对于包含了多个语句的篇章类文本而言，上述两类语音合成方法需要将针对每个语句独立合成所得的语音拼接为一段语音，容易出现上下句韵律、情感不连贯的情况，影响用户体验。

发明内容

本发明提供一种语音合成方法、装置、电子设备和存储介质，用以解决现有技术中篇章合成语音不连贯的问题。

本发明提供一种语音合成方法，包括：

确定待合成的篇章文本的篇章音素序列；

对所述篇章音素序列进行编码，得到所述篇章文本的语音学特征；

基于所述语音学特征进行语音合成，得到所述篇章文本的合成语音。

根据本发明提供的一种语音合成方法，所述基于所述语音学特征进行语音合成，得到所述篇章文本的合成语音，包括：

基于所述语音学特征，以及所述篇章文本中各分句的语感特征，进行语音合成，得到所述篇章文本的合成语音。

根据本发明提供的一种语音合成方法，所述篇章文本中各分句的语感特征基于如下步骤确定：

基于样本篇章文本中各分句的样本语感特征，对所述篇章文本中各分句进行语感提取，得到所述篇章文本中各分句的语感特征；

所述样本语感特征是对所述样本篇章文本对应的真实语音进行语感特征提取得到的。

根据本发明提供的一种语音合成方法，所述基于样本篇章文本中各分句的样本语感特征，对所述篇章文本中各分句进行语感提取，得到所述篇章文本中各分句的语感特征，包括：

对所述篇章文本中各分句进行语义提取，得到所述篇章文本中各分句的语义特征；

基于语义语感转换关系，对所述篇章文本中各分句的语义特征进行语感转换，得到所述篇章文本中各分句的语感特征；

所述语义语感转换关系是基于样本篇章文本中各分句的样本语义特征和样本语感特征确定的。

根据本发明提供的一种语音合成方法，所述样本语感特征基于如下步骤确定：

对所述样本篇章文本对应的真实语音的声学特征进行编码，得到所述真实语音的语音特征；

基于语音语感转换关系，对所述语音特征进行语感转换，得到所述样本篇章文本中各分句的样本语感特征；

所述语音语感转换关系是基于所述语音特征中各分句的句级特征，以所述语音特征中各分句的局部特征为正例点、以所述语音特征中其他分句的局部特征为反例点对比学习得到。

根据本发明提供的一种语音合成方法，所述基于所述语音学特征，以及所述篇章文本中各分句的语感特征，进行语音合成，得到所述篇章文本的合成语音，包括：

对所述语音学特征以及所述篇章文本中各分句的语感特征，以分句为单位进行融合，得到所述篇章文本中各分句的融合特征；

基于所述篇章文本中各分句的融合特征，进行语音合成，得到所述篇章文本的合成语音。

根据本发明提供的一种语音合成方法，所述对所述篇章音素序列进行编码，得到所述篇章文本的语音学特征，包括：

对所述篇章音素序列进行编码，得到所述篇章文本的音素级矢量；

基于所述音素级矢量，预测所述篇章音素序列中每个音素的时长；

基于所述篇章音素序列中每个音素的时长，对所述音素级矢量进行上采样，得到所述语音学特征。

本发明还提供一种语音合成装置，包括：

音素确定单元，用于确定待合成的篇章文本的篇章音素序列；

篇章编码单元，用于对所述篇章音素序列进行编码，得到所述篇章文本的语音学特征；

语音合成单元，用于基于所述语音学特征进行语音合成，得到所述篇章文本的合成语音。

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述语音合成方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述语音合成方法的步骤。

本发明提供的语音合成方法、装置、电子设备和存储介质，通过对篇章文本的篇章音素序列进行编码，从而得到针对篇章文本整体建模的语音学特征，据此进行语音合成，能够保证合成语音在韵律、情感等语感层面的连贯性，提高合成语音的自然度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图简要地说明，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的语音合成方法的流程示意图；

图2是本发明提供的语感特征提取方法的流程示意图；

图3是本发明提供的样本语感特征提取方法的流程示意图；

图4是本发明提供的语感特征提取模型的结构示意图；

图5是本发明提供的语感特征提取方法中步骤120的流程示意图；

图6是本发明提供的语音合成***的结构示意图；

图7是本发明提供的语音合成装置的结构示意图；

图8是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前基于深度学习的语音合成方法，可以分为自回归语音合成方法和非自回归语音合成方法两类。自回归语音合成方法采用经典的编码器-解码器(Encoder-Decoder,E-D)框架，其中编码器对输入语言特征进行编码，解码器用自回归的方式来逐帧预测声学特征，编码器和解码器之间用注意力机制进行序列对齐。Tacotron模型是该类方法的主要代表。对比自回归语音合成方法，非自回归语音合成方法同样采用E-D框架且编码器作用相同，不同的是其解码器采用非自回归的方式同时生成整个声学特征序列，并且不再使用不稳定的注意力机制，转而增加了一个额外的时长模型，用时长模型预测的时长来将编码器输出序列上采样到声学特征序列相同的长度。FastSpeech是该类方法的主要代表。

但无论是自回归合成方法还是非自回归合成方法，都是对单句话进行建模，即以语句为单位进行语音合成。由于对单句话建模时，每句话都看不见相邻句的信息，因此其生成的状态相对随机，拼接而成的语音容易出现上下句韵律、情感不连贯的情况，影响用户体验，尤其是在将上述语音合成方法应用到有声小说的录制时，上下句韵律、情感不连贯的问题会使得录制得到的有声小说出现类似前一句话情绪高昂、后一句话情绪低沉的情况，导致用户体验感极差。

针对上述问题，本发明实施例提供一种语音合成方法。图1是本发明提供的语音合成方法的流程示意图，如图1所示，该方法包括：

步骤110，确定待合成的篇章文本的篇章音素序列。

具体地，待合成的篇章文本即包含多个语句的文本，篇章文本可以是一个段落的文本，也可以是包含了多个段落的整个篇章的文本。篇章文本可以是用户直接输入的，也可以是通过扫描仪、手机、相机等图像采集设备采集得到图像，并对图像进行OCR(OpticalCharacter Recognition，光学字符识别)得到的，还可以是通过互联网络爬取得到的，本发明实施例对此不作具体限定。

篇章音素序列是针对篇章文本整体的音素级文本序列，篇章音素序列中包含了篇章文本中每个语句的音素级文本，具体可以是对篇章文本中每个语句的音素级文本按照篇章文本中每个语句的排列顺序进行拼接得到的。此处，音素级文本可以是将对应文本转换为音素得到的，例如可以以字为单位对篇章文本整体进行音素转换，从而得到篇章音素序列。

步骤120，对所述篇章音素序列进行编码，得到所述篇章文本的语音学特征。

具体地，常规的语音合成可以划分为编解码两个部分，其中编码即针对文本的语音学特征提取，解码即针对语音学特征的语音解码。考虑到目前以语句为单位的语音合成方法在进行编码时，通常是针对单个语句的音素级文本进行编码，因此忽略了篇章中其他语句与该语句之间的上下文关系。

针对这一问题，本发明实施例中对篇章音素序列进行编码，从而实现篇章文本的语音学特征提取。由于篇章音素序列涵盖了篇章文本中所有语句的音素级文本，因此基于篇章音素序列进行编码的过程，可以参考到篇章文本中全局的信息，由此得到针对篇章文本整体建模得到的语音学特征，相较于相关技术中针对单个语句建模得到的语音学特征，更加能够反映篇章文本全局的信息，其中涉及到各个语句的语音学特征间的连贯性更强。

步骤130，基于所述语音学特征进行语音合成，得到所述篇章文本的合成语音。

具体地，基于步骤120针对篇章文本整体建模得到语音学特征进行语音合成，即针对语音学特征进行语音解码，即可得到篇章文本的合成语音。由于本发明实施例中的语音学特征参考了篇章文本的全局信息，由此合成的合成语音也在韵律、情感等语感的层面上更加连续自然，能够有效克服基于篇章文本合成的语音存在韵律、情感不连贯的问题。

本发明实施例提供的语音合成方法，通过对篇章文本的篇章音素序列进行编码，从而得到针对篇章文本整体建模的语音学特征，据此进行语音合成，能够保证合成语音在韵律、情感等语感层面的连贯性，提高合成语音的自然度。

考虑到模型建模能力相对有限，针对篇章文本整体建模固然能够增强前后句之间的连贯性，避免让听众产生句间突变的感觉，但是合成语音的质量仍待进一步优化。基于上述实施例，步骤130包括：

具体地，在针对篇章文本进行语音合成时，不仅可以参考篇章文本的语音学特征，还可以结合篇章文本中各分句的语感特征，此处各分句的语感特征用于反映对应分句在篇章文本中的韵律、情感走势等语感层面的特征，语感特征可以是针对篇章文本中的各分句的文本进行情绪分析得到，也可以是将篇章文本作为整体对其中各分句的文本进行情绪分析得到，本发明实施例对此不作具体限定。

在进行语音合成之前，可以将篇章文本的语音学特征中每个分句的语音学特征和语感特征进行融合，并将融合得到的每个分句的特征应用于语音合成，也可以是在针对篇章文本的语音学特征进行语音解码的过程中，基于篇章文本中每个分句的语感特征调整对应分句进行语音解码时应用的参数，即以语感特征引导语音学特征的语音解码，由此得到篇章文本的合成语音。

本发明实施例提供的方法，在语音合成的过程中结合了篇章文本中各分句的语感特征，通过分句级的语感特征引导合成语音的韵律、情感走势，使得语音合成在基于篇章建模保证局部连贯性的基础上，能够进一步增强篇章语音的长时连贯性，即，使得合成的篇章语音能具备与真人语音相似的韵律、情感起伏。

基于上述任一实施例，步骤130中，所述篇章文本中各分句的语感特征基于如下步骤确定：

具体地，针对篇章文本中各分句的语感提取，可以通过样本篇章文本中的各分句及其样本语感特征之间的映射关系，对篇章文本中的各分句进行语感映射得到。此处的映射关系，具体可以体现为通过模型训练得到的语感提取模型，也可以体现为通过关联挖掘得到语感提取规则，本发明实施例对此不作具体限定。

进一步地，考虑到语感特征反映的是韵律、情感等方面的特征，相较于从文本中提取语感特征，从语音中提取的语感特征能够得到更加真实、贴切地表现真人阅读时的特点，本发明实施例在针对样本篇章文本中各分句的样本语感特征的获取之前，先收集了样本篇章文本的真实语音，此处样本篇章文本的真实语音是真人对样本篇章文本进行阅读时录制的语音，对真实语音进行语感特征提取所得样本语感特征，学习了真人阅读的特点，表征的韵律、情感等方面的特征也更加真实生动自然。在此基础上，应用样本篇章文本中各分句及其样本语感特征，对篇章文本中的各分句进行语感提取，即可进一步提高篇章文本中各分句的语感特征在表达韵律、情感等信息上的真实性和可靠性。

基于上述任一实施例，图2是本发明提供的语感特征提取方法的流程示意图，如图2所示，步骤130中，所述篇章文本中各分句的语感特征基于如下步骤确定：

步骤210，对所述篇章文本中各分句进行语义提取，得到所述篇章文本中各分句的语义特征。

此处，针对篇章文本中的各分句进行语义提取，具体可以是针对篇章文本中的各分句独立进行语义提取，也可以是针对篇章文本整体，对篇章文本中的各分句基于上下文进行语义提取，从而得到篇章文本中各分句的语义特征。

进一步地，语义提取可以通过自然语言处理领域的BERT(Bidirectional EncoderRepresentation from Transformers)模型实现，也可以应用其他具备编码能力的语言模型实现，例如Transformer模型中的Encoder编码器。以BERT模型为例，BERT模型本身具备对于文本的理解能力，且具备较强的建模能力，能够输出含有语义信息的高维矢量。BERT模型的输入为篇章文本的字级文本序列，输出为相同尺度的含有语义信息的高维度编码矢量，此处所指的字级文本序列由篇章文本中的各分句的文本拼接而成，其形式可以是“<CLS>句1<SEP><CLS>句2<SEP>…<CLS>句n<SEP>”，输出的编码矢量和输入是相同的尺度，本发明实施例中可以直接取模型输出的各分句的<CLS>标签对应位置的矢量作为各分句的语义特征。

步骤220，基于语义语感转换关系，对所述篇章文本中各分句的语义特征进行语感转换，得到所述篇章文本中各分句的语感特征；

具体地，在得到篇章文本中各分句的语义特征之后，即可基于语义语感转换关系，对各分句的语义特征进行转换，从而得到各分句的语感特征。此处的语义语感转换关系可以理解为上述实施例中所指的映射关系中的一部分，即上述映射关系可以拆分为文本语义转换关系和语义语感转换关系两个部分，此处的语义语感转换关系可以体现为通过样本篇章文本中各分句的样本语义特征和样本语感特征有监督训练得到的语感提取模型，也可以体现为通过对样本篇章文本中各分句的样本语义特征和样本语感特征进行关联挖掘得到语感提取规则，本发明实施例对此不作具体限定。

此处，语义语感转换关系可以与步骤210中用于语义提取的模块共同构成语感提取模型，也可以独立于步骤210中用于语义提取的模块作为语感提取模型，应用神经网络表示语义语感转换关系时，其网络结构可以是LSTM(Long Short-Term Memory，长短期记忆网络)加上一层线性投影层，也可以是其他能够实现映射关系表征的结构，本发明实施例对此不作具体限定。相应地，在语义语感转换关系与步骤210中用于语义提取的模块共同构成语感提取模型的情况下，可以基于样本篇章文本中各分句及其样本语感特征作为样本进行训练，在语义语感转换关系独立于步骤210中用于语义提取的模块作为语感提取模型的情况下，可以基于样本篇章文本中各分句的语义特征及其样本语感特征作为样本进行训练。

基于上述任一实施例，图3是本发明提供的样本语感特征提取方法的流程示意图，如图3所示，所述样本语感特征基于如下步骤确定：

步骤310，对所述样本篇章文本对应的真实语音的声学特征进行编码，得到所述真实语音的语音特征；

步骤320，基于语音语感转换关系，对所述语音特征进行语感转换，得到所述样本篇章文本中各分句的样本语感特征；

具体地，针对于样本篇章文本，可以首先获取样本篇章文本对应的真实语音，再基于真实语进行样本语感特征的提取。进一步地，可以首先获取真实语音的声学特征，此处的声学特征可以是对真实语音进行分帧加窗后，通过快速傅里叶变换FFT提取得到的，例如可以是梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)特征或感知线性预测(Perceptual Linear Predictive，PLP)特征等。随后，可以对真实语音的声学特征做进一步特征提取，由此得到帧级别的语音特征

在此基础上，可以基于语音情感转换关系，对提取所得的真实语音的语音特征进行转换，从而得到真实语音的语感特征，即真实语音所对应的样本篇章文本中各分句的样本语感特征。

此处，语音情感转换关系可以体现为通过训练得到的语感提取模型，也可以体现为通过关联挖掘得到语感提取规则，并且考虑到在语音情感转换关系的获取阶段，真实语音的语感特征是未知的，本发明实施例中通过对比学习的方式实现语音情感转换关系的确定。

对比学习的关键在于如何选取合适的正例点和反例点集合，以辅助锚点学习到有用的信息。具体到本发明实施例中，锚点即样本篇章文本中各分句的样本语感特征c_sent，样本篇章文本中各分句的样本语感特征c_sent是基于样本篇章文本对应真实语音的语音特征中各分句的句级特征确定的。此处所指的句级特征，即对真实语音的语音特征以分句为单位进行划分后得到的该分句的帧级别的语音特征。考虑到分句级别的信息与分句级别的信息当中的局部信息，即各分句的句级特征和各分句的局部特征应当是高度相关的，因此基于各分句的句级特征得到的样本语感特征，同样应该与对应分句的局部特征高度相关。

基于此，在锚点为样本篇章文本中任一分句的样本语感特征c_sent的情况下，可以随机选取该分句的句级特征中的局部特征作为正例点，选取其他分句的句级特征中的局部特征作为反例点进行对比学习，从而得到可以实现语感转换的语音语感转换关系。

本发明实施例提供的方法，通过对比学习获取得到的语音语感转换关系进行语感提取，有助于提高样本语感特征的表征能力，从而提高语音合成的逼真度。

基于上述任一实施例，图4是本发明提供的语感特征提取模型的结构示意图，如图4所示，真实语音以语音波形的形式表现，通过对真实语音进行声学特征提取，可以得到真实语音的声学特征，即图中示出的…、x_t-2、x_t-1、x_t、…，其中x_t为第t帧的声学特征。图中的编码器可以执行步骤310的声学特征编码，从而得到真实语音的语音特征，此处的语音特征同样是帧级别的，即图中示出的…、z_t-2、z_t-1、z_t、…。假设第t-2帧至第t+3帧对应一个分句，可以通过图中的特征提取器对z_t-2至z_t+3构成的分句的句级特征进行语感转换，从而得到该分句的样本语感特征c_sent。

此处，通过特征提取器进行语感转换，具体可以是对句级特征做进一步的特征提取，再将特征提取所得的一个分句中的矢量进行平均，作为抽象后的分句的样本语感特征c_sent。

相应地，针对语感特征提取模型训练，锚点样本语感特征c_sent的正例点

可以是从该分句的句级特征z_t-2至z_t+3中随机选取的局部特特征，例如可以是z_t。反例点可以是其他分句的句级特征中的局部特特征，例如可以随机选取其他分句中的多个局部特征构建反例点集合

例如可以随机选取其他分句中的300个z_t作为反例点集合。

具体在对比学习的过程中，可以将InfoNCE loss作为损失函数驱动语感特征提取模型的更新，InfoNCE loss如下式所示：

式中，L_N即InfoNCE loss，f(c_sent,z_t)＝exp(c_sent·z_t)。在模型训练收敛之后，将真实语音的声学特征输入到语感特征提取模型中，即可得到模型输出的真实语音对应样本篇章文本中各分句的样本语感特征。

基于上述任一实施例，步骤130包括：

具体地，针对篇章文本整体建模得到语音学特征，以及反映篇章文本中分句在篇章文本中的韵律、情感走势等的语感特征，可以以分句为单位对此两者进行融合，例如可以以分句为单位从篇章文本的语音学特征中定位到每个分句的语音学特征，并将每个分句的语音学特征与对应分句的语感特征进行拼接，将拼接所得的特征作为每个分句的融合特征，也可以将每个分句拼接后的特征通过双向LSTM或者RNN(Recurrent Neural Network，循环神经网络)等进行再编码，并将再编码后的特征作为各分句的融合特征。

在得到篇章文本中各分句的融合特征之后，即可通过对各分句的融合特征进行语音解码，实现语音合成，从而得到篇章文本的合成语音。

基于上述任一实施例，图5是本发明提供的语感特征提取方法中步骤120的流程示意图，如图5所示，步骤120包括：

步骤121，对所述篇章音素序列进行编码，得到所述篇章文本的音素级矢量；

步骤122，基于所述音素级矢量，预测所述篇章音素序列中每个音素的时长；

步骤123，基于所述篇章音素序列中每个音素的时长，对所述音素级矢量进行上采样，得到所述语音学特征。

具体地，对于篇章音素序列进行编码的过程，可以通过非自回归方式实现。首先，可以应用自注意力、多层自注意力或者多层多头注意力(multi-head self attention)等网络对篇章音素序列进行非线性编码，以提取篇章音素序列在语音学方面的特征，从而得到篇章文本的音素级矢量，此处的音素级矢量可以记为memory。

随后，可以针对编码所得的音素级矢量，预测篇章音素序列中每个音素的时长，具体可以是通过LSTM、双向LSTM或者RNN等形式的网络对音素级矢量做进一步的特征编码，再应用进一步的特征编码所得的特征进行时长预测，由此得到篇章音素序列中每个音素在合成语音中的持续时长，即得到篇章音素序列中每个音素的时长。

在此基础上，即可基于篇章音素序列中每个音素的时长，对音素级矢量中每个音素的矢量进行上采样，上采样之后每个音素的矢量所反映的帧长与每个音素的时长相对应，从而得到帧级别的语音学特征。例如，篇章音素序列中存在3个音素，音素级矢量memory表示为[h1,h2,h3]，其中各音素对应的时长为[2,3,2]，则复制上采样后的输出，即语音学特征可以是[h1,h1,h2,h2,h2,h3,h3]。需要注意的是，如果预测所得的时长很有可能不是整数，此时需要对时长做四舍五入规整，例如预测所得的各音素的时长为[2.5,4.3,2.7]，需要规整成[3,4,3]后再进行上采样。

本发明实施例提供的方法，通过非自回归的方式，实现了更高生成效率和稳定性的语音合成。

基于上述任一实施例，图6是本发明提供的语音合成***的结构示意图，如图6所示，语音合成需要依赖非自回归声学模块、抽象编码模块和BERT预测模块三部分实现。图6中，点划线形式的箭头仅在训练时生效，虚线形式的箭头仅在应用时生效，实线形式的箭头既在训练时生效也在应用时生效，双箭头的实线表示的是训练时的误差损失。

其中，非自回归声学模块，其主要功能是构建输入的篇章音素序列和输出的声学特征之间的映射关系，非自回归声学模块包含编码器、时长预测模块、上采样模块和解码器四个模块。非自回归声学模块的输入为整个篇章的音素级文本特征拼接而成的序列，即篇章音素序列，通过编码器进行非线性编码得到篇章文本的音素级矢量，记为memory。音素级矢量memory通过时长预测模块预测出每个音素的时长，并与真实语音中每个音素的真实时长计算误差，以驱动时长预测模块的学习。同时，将音素级矢量memory和音素时长(训练时为真实时长，应用时为时长预测模块输出的预测时长)输入到上采样模块进行扩展，得到和声学特征相同尺度的帧级的语音学特征。最后，将帧级的语音学特征和语感特征(训练时为样本语感特征，应用时为BERT预测模块输出的语感特征)拼接后，通过解码器预测声学特征，用预测声学特征和真实声学特征之间的误差来驱动非自回归声学模块中编码器和解码器的学习。

抽象编码模块，其主要功能是通过从声学特征中提取出每句话的韵律、情感等方面的语感特征，使得生成语音更接近真人。主要结构包括特征提取层和池化层，抽象编码模块的输入为真实语音的声学特征，通过特征提取层编码后，再经过池化层下采样为真实语音中每个分句的矢量，称作每个分句的样本语感特征。该模块生成的样本语感特征将会在非自回归声学模块中与帧级的语音学特征拼接，共同指导声学特征的生成。需要注意的是，抽象编码模块是预先通过对比学习的方式学习的，并在训练非自回归声学模块时抽象编码模块是固定不动的。

BERT预测模块，由于真实的样本语感特征是从声学特征里提取的，因此在合成语音时，还需要一个工具去预测各分句的语感特征，BERT预测模块即用于执行这一功能。BERT预测模块包括一个BERT模块和一个自回归预测模块，其中BERT模块通过大批量语料数据预训练好后固定。BERT预测模块的输入为篇章文本，即整个篇章的字级文本，通过BERT之后即可得到字级编码矢量，并取各分句的<CLS>标签所对应的矢量作为各分句的语义特征，通过自回归预测模块去建模各分句的语感特征，应用预测的语感特征和真实的样本语感特征之间的误差驱动自回归预测模块的学习。

本发明实施例提供的方法，通过非自回归声学模块进行语音合成，保证了语音合成的稳定性和高效率；并且，在语音合成的过程中，对整个篇章文本进行联合建模，使得在建模时篇章文本中的每个分句均能够看到前后多句的信息，有助于提升整段合成时上下句之间的连贯性。此外，通过大尺度的句子级的语感特征控制篇章语音的韵律、情感走势，保证了合成语音中每句话韵律、情感的合理性。

基于上述任一实施例，图7是本发明提供的语音合成装置的结构示意图，如图7所示，该装置包括：

音素确定单元710，用于确定待合成的篇章文本的篇章音素序列；

篇章编码单元720，用于对所述篇章音素序列进行编码，得到所述篇章文本的语音学特征；

语音合成单元730，用于基于所述语音学特征进行语音合成，得到所述篇章文本的合成语音。

本发明实施例提供的语音合成装置，通过对篇章文本的篇章音素序列进行编码，从而得到针对篇章文本整体建模的语音学特征，据此进行语音合成，能够保证合成语音在韵律、情感等语感层面的连贯性，提高合成语音的自然度。

基于上述任一实施例，语音合成单元730用于：

基于上述任一实施例，该装置还包括：

语感提取单元，用于基于样本篇章文本中各分句的样本语感特征，对所述篇章文本中各分句进行语感提取，得到所述篇章文本中各分句的语感特征；

基于上述任一实施例，语感提取单元，用于：

基于上述任一实施例，该装置还包括：

样本语感获取单元，用于对所述样本篇章文本对应的真实语音的声学特征进行编码，得到所述真实语音的语音特征；

基于上述任一实施例，语音合成单元730用于：

基于上述任一实施例，篇章编码单元720包括：

图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行语音合成方法，该方法包括：

确定待合成的篇章文本的篇章音素序列；

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的语音合成方法，该方法包括：

确定待合成的篇章文本的篇章音素序列；

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的语音合成方法，该方法包括：

确定待合成的篇章文本的篇章音素序列；

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音合成方法，其特征在于，包括：

确定待合成的篇章文本的篇章音素序列；

2.根据权利要求1所述的语音合成方法，其特征在于，所述基于所述语音学特征进行语音合成，得到所述篇章文本的合成语音，包括：

3.根据权利要求2所述的语音合成方法，其特征在于，所述篇章文本中各分句的语感特征基于如下步骤确定：

4.根据权利要求3所述的语音合成方法，其特征在于，所述基于样本篇章文本中各分句的样本语感特征，对所述篇章文本中各分句进行语感提取，得到所述篇章文本中各分句的语感特征，包括：

5.根据权利要求3所述的语音合成方法，其特征在于，所述样本语感特征基于如下步骤确定：

6.根据权利要求2所述的语音合成方法，其特征在于，所述基于所述语音学特征，以及所述篇章文本中各分句的语感特征，进行语音合成，得到所述篇章文本的合成语音，包括：

7.根据权利要求1至6中任一项所述的语音合成方法，其特征在于，所述对所述篇章音素序列进行编码，得到所述篇章文本的语音学特征，包括：

8.一种语音合成装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述语音合成方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音合成方法的步骤。