CN113870838A

CN113870838A - 一种语音合成方法、装置、设备及介质

Info

Publication number: CN113870838A
Application number: CN202111138183.XA
Authority: CN
Inventors: 张旭龙; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-09-27
Filing date: 2021-09-27
Publication date: 2021-12-31

Abstract

本申请涉及人工智能技术，提供一种语音合成方法、装置、设备及介质。方法包括：通过训练后的语音合成模型对目标文本信息进行文本解析，得到目标文本信息的音素序列；对目标文本信息的音素序列中各个第一音素进行音素映射编码，得到各个第一音素的编码信息；根据各个第一音素的音素时长，对各个第一音素的编码信息进行序列扩展，得到各个第一音素的扩展编码信息；根据各个第一音素的扩展编码信息和上一帧的声学特征，预测当前帧的声学特征；根据获取到的目标文本信息对应的待合成语音中所有帧的声学特征，合成目标文本信息对应的预测语音信息，可对音素序列和声学特征进行时间对齐，提高对齐准确度，进而提高语音合成的可靠性。

Description

一种语音合成方法、装置、设备及介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种语音合成方法、装置、设备及介质。

背景技术

传统的语音合成模型通常基于注意力机制对音素序列和声学特征在时间上对齐，例如从文本到语音(Text To Speech，TTS)模型就是基于注意力机制的序列到序列的语音合成模型，但是基于注意力机制对齐有可能出错，导致合成的语音信息的可靠性较低。

发明内容

本申请实施例提供了一种语音合成方法、装置、设备及介质，可对音素序列和声学特征进行时间对齐，提高对齐准确度，进而提高语音合成的可靠性。

一方面，本申请实施例提供一种语音合成方法，该方法包括：

将目标文本信息输入至训练后的语音合成模型，并通过训练后的语音合成模型对目标文本信息进行文本解析，得到目标文本信息的音素序列；

对目标文本信息的音素序列中各个第一音素进行音素映射编码，得到各个第一音素的编码信息；

根据各个第一音素的音素时长，对各个第一音素的编码信息进行序列扩展，得到各个第一音素的扩展编码信息；

根据各个第一音素的扩展编码信息和目标文本信息对应的待合成语音中上一帧的声学特征，预测当前帧的声学特征，直至获取到目标文本信息对应的待合成语音中所有帧的声学特征；

根据获取到的目标文本信息对应的待合成语音中所有帧的声学特征，合成目标文本信息对应的预测语音信息。

在一个实施例中，根据各个第一音素的音素时长，对各个第一音素的编码信息进行序列扩展，得到各个第一音素的扩展编码信息的具体实施过程为：

获取目标文本信息对应的待合成语音的采样率；

根据各个第一音素的音素时长和所述采样率，对各个第一音素的编码信息进行序列扩展，得到各个第一音素的扩展编码信息。

在一个实施例中，根据各个第一音素的音素时长和所述采样率，对各个第一音素的编码信息进行序列扩展，得到各个第一音素的扩展编码信息的具体实施过程为：

将采样率和各个第一音素的音素时长相乘，得到各个第一音素的扩展因子；

将数量为扩展因子的各个第一音素的编码信息组成各个第一音素的扩展编码信息。

在一个实施例中，训练后的语音合成模型包括音素时长预测模型；

根据各个第一音素的音素时长，对各个第一音素的编码信息进行序列扩展，得到各个第一音素的扩展编码信息之前，还可以实施以下过程：

将目标文本信息的音素序列输入至所述音素时长预测模型，并通过音素时长预测模型对目标文本信息的音素序列中各个第一音素进行音素时长预测，得到各个第一音素的音素时长。

在一个实施例中，根据各个第一音素的扩展编码信息和目标文本信息对应的待合成语音中上一帧的声学特征，预测当前帧的声学特征，直至获取到目标文本信息对应的待合成语音中所有帧的声学特征的具体实施过程为：

根据各个第一音素的扩展编码信息和目标文本信息对应的待合成语音中上一帧的声学特征，预测当前帧的声学特征；

若获取到用于指示所述目标文本信息结束的终止标识，则确定获取到目标文本信息对应的待合成语音中所有帧的声学特征；

若未获取到用于指示目标文本信息结束的终止标识，则根据各个第一音素的扩展编码信息和目标文本信息对应的待合成语音中当前帧的声学特征，预测下一帧的声学特征，直至获取到用于指示目标文本信息结束的终止标识。

在一个实施例中，训练后的语音合成模型包括目标编码器和目标解码器；

对目标文本信息的音素序列中各个第一音素进行音素映射编码，得到各个第一音素的编码信息的具体实施过程为：

通过目标编码器对目标文本信息的音素序列中各个第一音素进行音素映射编码，得到各个第一音素的编码信息；

根据获取到的目标文本信息对应的待合成语音中所有帧的声学特征，合成目标文本信息对应的预测语音信息，包括：

通过目标解码器对获取到的目标文本信息对应的待合成语音中所有帧的声学特征进行语音合成，得到目标文本信息对应的预测语音信息。

在一个实施例中，语音合成模型的训练方法的具体实施过程为：

获取训练样本，训练样本包括训练文本信息和训练文本信息对应的训练语音信息；

通过语音合成模型对训练文本信息进行文本解析，得到训练文本信息的音素序列；

对训练文本信息的音素序列中各个第二音素进行音素映射编码，得到各个第二音素的编码信息；

根据各个第二音素的音素时长，对各个第二音素的编码信息进行序列扩展，得到各个第二音素的扩展编码信息；

根据各个第二音素的扩展编码信息和训练文本信息对应的待合成语音中上一帧的声学特征，预测当前帧的声学特征，直至获取到训练文本信息对应的待合成语音中所有帧的声学特征；

根据获取到的训练文本信息对应的待合成语音中所有帧的声学特征，合成训练文本信息对应的预测语音信息；

根据训练文本信息对应的预测语音信息和训练语音信息，对语音合成模型进行训练，得到训练后的语音合成模型。

另一方面，本申请实施例提供了一种语音合成装置，该语音合成装置包括：

输入单元，用于将目标文本信息输入至训练后的语音合成模型；

处理单元，用于通过训练后的语音合成模型对目标文本信息进行文本解析，得到目标文本信息的音素序列；

处理单元，还用于对目标文本信息的音素序列中各个第一音素进行音素映射编码，得到各个第一音素的编码信息；

处理单元，还用于根据各个第一音素的音素时长，对各个第一音素的编码信息进行序列扩展，得到各个第一音素的扩展编码信息；

处理单元，还用于根据各个第一音素的扩展编码信息和目标文本信息对应的待合成语音中上一帧的声学特征，预测当前帧的声学特征，直至获取到目标文本信息对应的待合成语音中所有帧的声学特征；

处理单元，还用于根据获取到的目标文本信息对应的待合成语音中所有帧的声学特征，合成目标文本信息对应的预测语音信息。

再一方面，本申请实施例提供一种电子设备，包括处理器、存储器和通信接口，处理器、存储器和通信接口相互连接，其中，存储器用于存储支持终端执行上述方法的计算机程序，计算机程序包括程序指令，处理器被配置用于调用程序指令，执行如下步骤：将目标文本信息输入至训练后的语音合成模型，并通过训练后的语音合成模型对目标文本信息进行文本解析，得到目标文本信息的音素序列；对目标文本信息的音素序列中各个第一音素进行音素映射编码，得到各个第一音素的编码信息；根据各个第一音素的音素时长，对各个第一音素的编码信息进行序列扩展，得到各个第一音素的扩展编码信息；根据各个第一音素的扩展编码信息和目标文本信息对应的待合成语音中上一帧的声学特征，预测当前帧的声学特征，直至获取到目标文本信息对应的待合成语音中所有帧的声学特征；根据获取到的目标文本信息对应的待合成语音中所有帧的声学特征，合成目标文本信息对应的预测语音信息。

又一方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序包括程序指令，程序指令当被处理器执行时使处理器执行上述语音合成方法。

本申请实施例中，在得到目标文本信息的音素序列之后，对目标文本信息的音素序列中各个第一音素进行音素映射编码，得到各个第一音素的编码信息，根据各个第一音素的音素时长，对各个第一音素的编码信息进行序列扩展，得到各个第一音素的扩展编码信息，根据各个第一音素的扩展编码信息和目标文本信息对应的待合成语音中上一帧的声学特征，预测当前帧的声学特征，直至获取到目标文本信息对应的待合成语音中所有帧的声学特征，可对音素序列和声学特征进行时间对齐，提高对齐准确度。进一步的，根据获取到的目标文本信息对应的待合成语音中所有帧的声学特征，合成目标文本信息对应的预测语音信息，可提高语音合成的可靠性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种语音合成***的架构示意图；

图2是本申请实施例提供的一种语音合成方法的流程示意图；

图3是本申请实施例提供的一种语音合成模型的训练方法的流程示意图；

图4是本申请实施例提供的一种语音合成装置的结构示意图；

图5是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

本申请实施例可以利用预测得到的音素序列的音素时长保证声学特征和音素序列在时间上的对齐，解决了基于注意力机制对齐方案不稳定的问题，避免了语音合成漏字以及重复等问题，进而提高语音合成的可靠性。

本申请实施例中的语言合成方法可以应用在第一电子设备中，其中，第一电子设备可以为智能手机、平板电脑、笔记本电脑、台式计算机、智能车载设备以及智能可穿戴设备中的任意一种或多种。

在一个示例中，第一电子设备运行有阅读客户端，阅读客户端提供了听书功能，如果用户对某个文本信息(例如小说或者诗歌等)提交听书指令，那么第一电子设备在检测到听书指令之后可以获取该文本信息，并执行本申请实施例所公开的语音合成方法。

在另一个示例中，第一电子设备运行有即时通讯客户端，在用户驾车或者处于颠簸环境等不方便浏览设备的场景中，即时通讯客户端中的某个会话界面包括至少一个文本信息，如果用户需要将某个文本信息转换成语音，那么用户可以对该文本信息提交语音转换指令，第一电子设备在检测到语音转换指令之后，可以获取该文本信息，并执行本申请实施例所公开的语音合成方法。

在另一个示例中，第一电子设备运行有智能客服客户端，用户在与第一电子设备中的智能客服客户端进行交互时，如果用户通过第一电子设备向智能客服客户端提交交互信息(交互信息的类型可以是文本或者语音)，智能客服客户端可以基于交互信息确定待输出至用户的文本信息，并执行本申请实施例所公开的语音合成方法。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

请参见图1，图1是本申请实施例提供的一种语音合成***的架构示意图。如图1所示，***的整体流程从需要合成语音的文本输入开始，如果需要合成语音的文本信息为目标文本信息，则将目标文本信息经过文本解析得到音素序列，音素序列中各个音素的处理过程为：根据预训练的音素时长预测模型得到音素序列中各个音素的时长扩展编码表示，作为解码器的输入。解码器为序列到序列的自回归解码，上一时刻输出的帧级声学特征也会作为解码器的输入，通过解码器可以得出预测的声学特征，以及通过解码器判断是否到达目标文本信息结束的终止符，如果到达目标文本信息结束的终止符，则将所有声学特征输入到声码器合成对应的波形音频，即得到目标文本信息对应的预测语音信息。如果未到达目标文本信息结束的终止符，则上一时刻输出的帧级声学特征和当前时刻的音素的时长扩展编码表示作为解码器的输入，通过解码器得出预测的声学特征，直至到达目标文本信息结束的终止符。

作为一种可行的实施方式，语音合成***的解码器为tacotron解码器，但是不使用tacotron编码器，即语音合成***中的编码器为不同于tacotron编码器的编码器。语音合成***不使用tacotron编码器，可以避免学习到的隐变量中重复的帧级别特征输入到tacotron解码器，而是利用估计的音素时长保证了时间上的对齐，避免了tacotron编码器与tacotron解码器之间的基于位置的注意力机制的错误对齐，本申请实施例有效的加强了声学特征和音素序列时间上的对齐，可以生成更加准确地帧级别声学特征，进而提高语音合成的可靠性。

请参见图2，图2是本申请实施例提供的一种语音合成方法的流程示意图；如图1所示的语音合成方法可由第一电子设备来执行，该方案包括但不限于步骤S201-步骤S205，其中：

S201，将目标文本信息输入至训练后的语音合成模型，并通过训练后的语音合成模型对目标文本信息进行文本解析，得到目标文本信息的音素序列。

训练后的语音合成模型可以包括单词到音素(Grapheme-to-Phoneme，G2P)模块，第一电子设备可以通过训练后的语音合成模型对目标文本信息进行分词处理，得到文本字符串，然后通过G2P模块将文本字符串转化成音素序列。

其中，音素序列可以包括一个或者多个音素(phone)。音素是根据语音的自然属性划分出来的最小语音单位，从声学性质来看，音素是从音质角度划分出来的最小语音单位，从生理性质来看，一个发音动作形成一个音素。如“ma”包含“m”以及“a”两个发音动作，是两个音素。相同发音动作发出的音就是同一音素，不同发音动作发出的音就是不同音素。如“ma-mi”中，两个“m”发音动作相同，是相同音素，“a”以及“i”发音动作不同，是不同音素。对音素的分析，一般是根据发音动作来描写的。如“m”的发音动作是：上唇和下唇闭拢，声带振动，气流从鼻腔流出发音。

举例来说，如果目标文本信息为“祝你生日快乐”，那么第一电子设备通过训练后的语音合成模型对目标文本信息进行文本解析，得到该文本信息的音素序列为“zhunishengrikuaile”，其中该音素序列包括18个音素。

其中，G2P模块使用循环神经网络(recurrent neural network，RNN)和长短期记忆网络(long short-termmemory units，LSTM)，来实现从英文单词到音素的转化。

S202，对目标文本信息的音素序列中各个第一音素进行音素映射编码，得到各个第一音素的编码信息。

目标文本信息的音素序列包括的任一音素为第一音素，第一电子设备可以通过音素编码器对目标文本信息的音素序列中各个第一音素进行音素映射编码，得到各个第一音素的编码信息。其中，音素编码器可以将音素序列依照基周参数，振幅参数与频谱参数加以编码，得到各个第一音素的编码信息。

本申请实施例中的训练后的语音合成模型相对传统的Tacotron模型，不使用Tacotron编码器，而是直接对音素序列中的各个音素进行音素映射编码，得到编码信息。例如音素a可编码为整数0，那么第一电子设备通过训练后的语音合成模型对音素序列中的音素“a”进行音素映射编码，得到音素“a”的编码信息“0”。

S203，根据各个第一音素的音素时长，对各个第一音素的编码信息进行序列扩展，得到各个第一音素的扩展编码信息。

在一个可行的实施例中，训练后的语音合成模型可以包括音素时长预测模型，第一电子设备可以通过音素时长预测模型对各个音素进行音素时长预测，得到各个音素的音素时长。其中，音素时长预测模型的功能是输入一个音素序列，输出音素序列中每个音素对应的时长估计值(即音素时长)。音素时长预测模型是预先训练好的，在对语音合成模型进行训练过程中，并不对音素时长预测模型进行训练。

第一电子设备可以通过训练后的语音合成模型对各个音素的编码信息进行序列扩展，得到各个音素的扩展编码信息。例如，第一电子设备可以获取该文本信息对应的待合成语音的采样率，如果采样率为8000赫兹(Hz)，预测得到音素a的音素时长为0.3秒，那么第一电子设备可以通过训练后的语音合成模型将音素a的编码0扩展成2400个0，即音素a的扩展编码信息为2400个0。

音素时长预测的目的就是为了使输入的语言学特征音素序列和声学特征频谱进行时间上对齐，例如声学特征通常帧数比较多可达200帧，而对应音素个数可能是10，利用时间预测将10扩展到总大小为200即完成对齐。同时每个音素对应的帧数不尽相同。

S204，根据各个第一音素的扩展编码信息和目标文本信息对应的待合成语音中上一帧的声学特征，预测当前帧的声学特征，直至获取到目标文本信息对应的待合成语音中所有帧的声学特征。

在一个可行的实施例中，训练后的语音合成模型中的解码器可以为传统的Tacotron模型中的Tacotron解码器，例如基于RNN的解码器。本申请实施例中的tacotron解码器为序列到序列的自回归解码，上一时刻输出的帧级声学特征(即上一帧的声学特征)也会作为tacotron解码器输入，通过tacotron解码器可以得出预测的当前帧的声学特征，以及是否到达文本信息结束的终止符。第一电子设备可以通过解码器对各个音素的扩展编码信息和文本信息对应的待合成语音中上一帧的声学特征，预测当前帧的声学特征，使得音素序列和声学特征频谱进行时间上对齐。其中，当前帧为最近获取到的声学特征所属帧的下一帧。例如，第一电子设备通过解码器最近获取到第五帧的声学特征，那么解码器可以根据各个音素的扩展编码信息和第五帧的声学特征，预测第六帧的声学特征。

其中，声学特征指的是表示语音声学特性的物理量，也是声音诸要素声学表现的统称。如表示音色的能量集中区、共振峰频率、共振峰强度和带宽，以及表示语音韵律特性的时长、基频、平均语声功率等。

本申请实施例在获取到音素序列之后，通过预测音素序列中各个音素的音素时长，以及根据各个音素的音素时长对各个音素进行序列扩展的目的就是：为了使输入的语言学特征音素序列和声学特征频谱进行时间上对齐，例如声学特征通常帧数比较多可达200帧，而对应音素个数可能是10，利用时间预测将10扩展到总大小为200即完成时间对齐。其中，音素序列中每个音素的音素时长不尽相同，那么每个音素对应的帧数也不尽相同。

S205，根据获取到的目标文本信息对应的待合成语音中所有帧的声学特征，合成目标文本信息对应的预测语音信息。

如果解码器确定到达文本信息结束的终止符，那么可以确定获取到待合成语音中所有帧的声学特征，进而第一电子设备可以根据所有帧的声学特征合成目标文本信息对应的预测语音信息，例如解码器可以将所有帧的声学特征输入到声码器，通过声码器合成对应的波形音频，即预测语音信息。

请参见图3，图3是本申请实施例提供的一种语音合成模型的训练方法的流程示意图；如图3所示的语音合成模型的训练方法可由第二电子设备来执行，该方案包括但不限于步骤S301-步骤S307，其中：

S301，获取训练样本，训练样本包括训练文本信息和训练文本信息对应的训练语音信息。

第二电子设备可以获取训练样本，训练样本中的训练语音信息可以为单条训练语音信息，即一个用户输入的音频数据，例如某个用户输入关于“祝你生日快乐”的音频数据，那么第二电子设备可以将该音频数据作为训练语音信息，该训练语音信息对应的训练文本信息可以为“祝你生日快乐”。

可以理解的是，训练样本可以是用户输入至第二电子设备的，例如第二电子设备通过麦克风采集训练语音信息，并通过第二电子设备的输入装置(例如触控面板或者键盘等)采集该训练语音信息对应的训练文本信息。可选的，训练样本也可以是第二电子设备从本地存储器中获取的，也可以是第二电子设备从其他设备中获取的，还可以是第二电子设备通过互联网下载得到的，具体不受本申请实施例的限制。

其中，第二电子设备可以为智能手机、平板电脑、笔记本电脑、台式计算机、智能车载设备以及智能可穿戴设备中的任意一种或多种。可选的，第二电子设备也可以为服务器，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***等。也就是说，服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。S302，通过语音合成模型对训练文本信息进行文本解析，得到训练文本信息的音素序列。

S303，对训练文本信息的音素序列中各个第二音素进行音素映射编码，得到各个第二音素的编码信息。

训练文本信息的音素序列包括的任一音素为第二音素，本申请实施例对训练文本信息的音素序列中各个第二音素进行音素映射编码的方式与第一电子设备对目标文本信息的音素序列中各个第一音素进行音素映射编码的方式相同，具体可参见步骤S202的描述，本申请实施例不再赘述。

S304，根据各个第二音素的音素时长，对各个第二音素的编码信息进行序列扩展，得到各个第二音素的扩展编码信息。

其中，第二电子设备根据各个第二音素的音素时长，对各个第二音素的编码信息进行序列扩展，得到各个第二音素的扩展编码信息的方式可以为：第二电子设备根据训练样本中的训练语音信息的语音频谱确定采样率，即一秒钟有多少个采样点来表示音频的时域波形。然后第二电子设备可以将采样率和各个第二音素的音素时长相乘，得到该第二音素的扩展因子，将数量为该扩展因子的该第二音素的编码组成该第二音素的扩展编码信息。目前语音合成的训练样本通常会统一采样率到8000Hz或者16000Hz。

S305，根据各个第二音素的扩展编码信息和训练文本信息对应的待合成语音中上一帧的声学特征，预测当前帧的声学特征，直至获取到训练文本信息对应的待合成语音中所有帧的声学特征。

本申请实施例根据各个第二音素的扩展编码信息和训练文本信息对应的待合成语音中上一帧的声学特征，预测当前帧的声学特征的方式与第一电子设备根据各个第一音素的扩展编码信息和目标文本信息对应的待合成语音中上一帧的声学特征，预测当前帧的声学特征的方式相同，具体可参见步骤S204的描述，本申请实施例不再赘述。

S306，根据获取到的所述训练文本信息对应的待合成语音中所有帧的声学特征，合成训练文本信息对应的预测语音信息。

本申请实施例根据获取到的所述训练文本信息对应的待合成语音中所有帧的声学特征，合成训练文本信息对应的预测语音信息的方式与第一电子设备根据获取到的目标文本信息对应的待合成语音中所有帧的声学特征，合成目标文本信息对应的预测语音信息的方式相同，具体可参见步骤S205的描述，本申请实施例不再赘述。

S307，根据训练文本信息对应的预测语音信息和训练语音信息，对语音合成模型进行训练，得到训练后的语音合成模型。

具体实现中，第二电子设备可以将合成得到的语音信息和训练样本中的语音信息进行比较，得到损失值，根据该损失值对语音合成模型进行训练，得到训练后的语音合成模型。

本申请实施例中，通过语音合成模型对训练文本信息进行文本解析，得到训练文本信息的音素序列，对训练文本信息的音素序列中各个第二音素进行音素映射编码，得到各个第二音素的编码信息，根据各个第二音素的音素时长，对各个第二音素的编码信息进行序列扩展，得到各个第二音素的扩展编码信息，根据各个第二音素的扩展编码信息和训练文本信息对应的待合成语音中上一帧的声学特征，预测当前帧的声学特征，直至获取到训练文本信息对应的待合成语音中所有帧的声学特征，根据获取到的所述训练文本信息对应的待合成语音中所有帧的声学特征，合成训练文本信息对应的预测语音信息，根据训练文本信息对应的预测语音信息和训练语音信息，对语音合成模型进行训练，得到训练后的语音合成模型，可通过训练后的语音合成模型对音素序列和声学特征进行时间对齐，提高对齐准确度，进而提高语音合成的可靠性。

本申请实施例还提供了一种计算机存储介质，该计算机存储介质中存储有程序指令，该程序指令被执行时，用于实现上述实施例中描述的相应方法。

再请参见图4，图4是本申请实施例的提供一种语音合成装置的结构示意图。

本申请实施例的装置的一个实现方式中，装置包括如下结构。

输入单元401，用于将目标文本信息输入至训练后的语音合成模型；

处理单元402，用于通过训练后的语音合成模型对目标文本信息进行文本解析，得到目标文本信息的音素序列；

处理单元402，还用于对目标文本信息的音素序列中各个第一音素进行音素映射编码，得到各个第一音素的编码信息；

处理单元402，还用于根据各个第一音素的音素时长，对各个第一音素的编码信息进行序列扩展，得到各个第一音素的扩展编码信息；

处理单元402，还用于根据各个第一音素的扩展编码信息和目标文本信息对应的待合成语音中上一帧的声学特征，预测当前帧的声学特征，直至获取到目标文本信息对应的待合成语音中所有帧的声学特征；

处理单元402，还用于根据获取到的目标文本信息对应的待合成语音中所有帧的声学特征，合成目标文本信息对应的预测语音信息。

在一个实施例中，处理单元402根据各个第一音素的音素时长，对各个第一音素的编码信息进行序列扩展，得到各个第一音素的扩展编码信息，包括：

获取目标文本信息对应的待合成语音的采样率；

根据各个第一音素的音素时长和采样率，对各个第一音素的编码信息进行序列扩展，得到各个第一音素的扩展编码信息。

在一个实施中，处理单元402根据各个第一音素的音素时长和采样率，对各个第一音素的编码信息进行序列扩展，得到各个第一音素的扩展编码信息，包括：

处理单元402根据各个第一音素的音素时长，对各个第一音素的编码信息进行序列扩展，得到各个第一音素的扩展编码信息之前，还包括：

将目标文本信息的音素序列输入至音素时长预测模型，并通过音素时长预测模型对目标文本信息的音素序列中各个第一音素进行音素时长预测，得到各个第一音素的音素时长。

在一个实施例中，处理单元402根据各个第一音素的扩展编码信息和目标文本信息对应的待合成语音中上一帧的声学特征，预测当前帧的声学特征，直至获取到目标文本信息对应的待合成语音中所有帧的声学特征，包括：

若获取到用于指示目标文本信息结束的终止标识，则确定获取到目标文本信息对应的待合成语音中所有帧的声学特征；

处理单元402对目标文本信息的音素序列中各个第一音素进行音素映射编码，得到各个第一音素的编码信息，包括：

处理单元402根据获取到的目标文本信息对应的待合成语音中所有帧的声学特征，合成目标文本信息对应的预测语音信息，包括：

在一个实施例中，装置还包括：

获取单元403，用于获取训练样本，训练样本包括训练文本信息和训练文本信息对应的训练语音信息；

处理单元402，还用于通过语音合成模型对训练文本信息进行文本解析，得到训练文本信息的音素序列；

处理单元402，还用于对训练文本信息的音素序列中各个第二音素进行音素映射编码，得到各个第二音素的编码信息；

处理单元402，还用于根据各个第二音素的音素时长，对各个第二音素的编码信息进行序列扩展，得到各个第二音素的扩展编码信息；

处理单元402，还用于根据各个第二音素的扩展编码信息和训练文本信息对应的待合成语音中上一帧的声学特征，预测当前帧的声学特征，直至获取到训练文本信息对应的待合成语音中所有帧的声学特征；

处理单元402，还用于根据获取到的训练文本信息对应的待合成语音中所有帧的声学特征，合成训练文本信息对应的预测语音信息；

处理单元402，还用于根据训练文本信息对应的预测语音信息和训练语音信息，对语音合成模型进行训练，得到训练后的语音合成模型。

再请参见图5，图5是本申请实施例提供的一种电子设备的结构示意图，本申请实施例的电子设备包括供电模块等结构，并包括处理器501、存储器502以及通信接口503。处理器501、存储器502以及通信接口503之间可以交互数据，由处理器501实现相应的数据处理方案。

存储器502可以包括易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器502也可以包括非易失性存储器(non-volatilememory)，例如快闪存储器(flash memory)，固态硬盘(solid-state drive，SSD)等；存储器502还可以包括上述种类的存储器的组合。

处理器501可以是中央处理器501(central processing unit，CPU)。处理器501也可以是由CPU和GPU的组合。在电子设备中，可以根据需要包括多个CPU和GPU进行相应的数据处理。在一个实施例中，存储器502用于存储程序指令。处理器501可以调用程序指令，实现如本申请实施例中上述涉及的各种方法。

在第一个可能的实施方式中，电子设备的处理器501，调用存储器502中存储的程序指令，用于执行如下操作：

将目标文本信息输入至训练后的语音合成模型；

通过训练后的语音合成模型对目标文本信息进行文本解析，得到目标文本信息的音素序列；

在一个实施例中，处理器501在根据各个第一音素的音素时长，对各个第一音素的编码信息进行序列扩展，得到各个第一音素的扩展编码信息时，具体用于执行如下操作：

获取目标文本信息对应的待合成语音的采样率；

在一个实施中，处理器501在根据各个第一音素的音素时长和采样率，对各个第一音素的编码信息进行序列扩展，得到各个第一音素的扩展编码信息时，具体用于执行如下操作：

处理器501根据各个第一音素的音素时长，对各个第一音素的编码信息进行序列扩展，得到各个第一音素的扩展编码信息之前，还用于执行如下操作：

在一个实施例中，处理器501在根据各个第一音素的扩展编码信息和目标文本信息对应的待合成语音中上一帧的声学特征，预测当前帧的声学特征，直至获取到目标文本信息对应的待合成语音中所有帧的声学特征时，具体用于执行如下操作：

处理器501在对目标文本信息的音素序列中各个第一音素进行音素映射编码，得到各个第一音素的编码信息时，具体用于执行如下操作：

处理器501在根据获取到的目标文本信息对应的待合成语音中所有帧的声学特征，合成目标文本信息对应的预测语音信息时，具体用于执行如下操作：

在一个实施例中，处理器501还用于执行如下操作：

通过通信接口503获取训练样本，训练样本包括训练文本信息和训练文本信息对应的训练语音信息；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。所述的计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

其中，本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

以上所揭露的仅为本申请的部分实施例而已，当然不能以此来限定本申请之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本申请权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种语音合成方法，其特征在于，包括：

将目标文本信息输入至训练后的语音合成模型，并通过所述训练后的语音合成模型对所述目标文本信息进行文本解析，得到所述目标文本信息的音素序列；

对所述目标文本信息的音素序列中各个第一音素进行音素映射编码，得到所述各个第一音素的编码信息；

根据所述各个第一音素的音素时长，对所述各个第一音素的编码信息进行序列扩展，得到所述各个第一音素的扩展编码信息；

根据所述各个第一音素的扩展编码信息和所述目标文本信息对应的待合成语音中上一帧的声学特征，预测当前帧的声学特征，直至获取到所述目标文本信息对应的待合成语音中所有帧的声学特征；

根据获取到的所述目标文本信息对应的待合成语音中所有帧的声学特征，合成所述目标文本信息对应的预测语音信息。

2.如权利要求1所述的方法，其特征在于，所述根据所述各个第一音素的音素时长，对所述各个第一音素的编码信息进行序列扩展，得到所述各个第一音素的扩展编码信息，包括：

获取所述目标文本信息对应的待合成语音的采样率；

根据所述各个第一音素的音素时长和所述采样率，对所述各个第一音素的编码信息进行序列扩展，得到所述各个第一音素的扩展编码信息。

3.如权利要求2所述的方法，其特征在于，所述根据所述各个第一音素的音素时长和所述采样率，对所述各个第一音素的编码信息进行序列扩展，得到所述各个第一音素的扩展编码信息，包括：

将所述采样率和所述各个第一音素的音素时长相乘，得到所述各个第一音素的扩展因子；

将数量为所述扩展因子的所述各个第一音素的编码信息组成所述各个第一音素的扩展编码信息。

4.如权利要求1所述的方法，其特征在于，所述训练后的语音合成模型包括音素时长预测模型；

所述根据所述各个第一音素的音素时长，对所述各个第一音素的编码信息进行序列扩展，得到所述各个第一音素的扩展编码信息之前，还包括：

将所述目标文本信息的音素序列输入至所述音素时长预测模型，并通过所述音素时长预测模型对所述目标文本信息的音素序列中所述各个第一音素进行音素时长预测，得到所述各个第一音素的音素时长。

5.如权利要求1所述的方法，其特征在于，所述根据所述各个第一音素的扩展编码信息和所述目标文本信息对应的待合成语音中上一帧的声学特征，预测当前帧的声学特征，直至获取到所述目标文本信息对应的待合成语音中所有帧的声学特征，包括：

根据所述各个第一音素的扩展编码信息和所述目标文本信息对应的待合成语音中上一帧的声学特征，预测当前帧的声学特征；

若获取到用于指示所述目标文本信息结束的终止标识，则确定获取到所述目标文本信息对应的待合成语音中所有帧的声学特征；

若未获取到用于指示所述目标文本信息结束的终止标识，则根据所述各个第一音素的扩展编码信息和所述目标文本信息对应的待合成语音中当前帧的声学特征，预测下一帧的声学特征，直至获取到用于指示所述目标文本信息结束的终止标识。

6.如权利要求1所述的方法，其特征在于，所述训练后的语音合成模型包括目标编码器和目标解码器；

所述对所述目标文本信息的音素序列中各个第一音素进行音素映射编码，得到所述各个第一音素的编码信息，包括：

通过所述目标编码器对所述目标文本信息的音素序列中各个第一音素进行音素映射编码，得到所述各个第一音素的编码信息；

所述根据获取到的所述目标文本信息对应的待合成语音中所有帧的声学特征，合成所述目标文本信息对应的预测语音信息，包括：

通过所述目标解码器对所述获取到的所述目标文本信息对应的待合成语音中所有帧的声学特征进行语音合成，得到所述目标文本信息对应的预测语音信息。

7.如权利要求1所述的方法，其特征在于，所述语音合成模型的训练方法包括：

获取训练样本，所述训练样本包括训练文本信息和所述训练文本信息对应的训练语音信息；

通过语音合成模型对所述训练文本信息进行文本解析，得到所述训练文本信息的音素序列；

对所述训练文本信息的音素序列中各个第二音素进行音素映射编码，得到所述各个第二音素的编码信息；

根据所述各个第二音素的音素时长，对所述各个第二音素的编码信息进行序列扩展，得到所述各个第二音素的扩展编码信息；

根据所述各个第二音素的扩展编码信息和所述训练文本信息对应的待合成语音中上一帧的声学特征，预测当前帧的声学特征，直至获取到所述训练文本信息对应的待合成语音中所有帧的声学特征；

根据获取到的所述训练文本信息对应的待合成语音中所有帧的声学特征，合成所述训练文本信息对应的预测语音信息；

根据所述训练文本信息对应的预测语音信息和所述训练语音信息，对所述语音合成模型进行训练，得到所述训练后的语音合成模型。

8.一种语音合成装置，其特征在于，所述装置包括：

处理单元，用于通过所述训练后的语音合成模型对所述目标文本信息进行文本解析，得到所述目标文本信息的音素序列；

所述处理单元，还用于对所述目标文本信息的音素序列中各个第一音素进行音素映射编码，得到所述各个第一音素的编码信息；

所述处理单元，还用于根据所述各个第一音素的音素时长，对所述各个第一音素的编码信息进行序列扩展，得到所述各个第一音素的扩展编码信息；

所述处理单元，还用于根据所述各个第一音素的扩展编码信息和所述目标文本信息对应的待合成语音中上一帧的声学特征，预测当前帧的声学特征，直至获取到所述目标文本信息对应的待合成语音中所有帧的声学特征；

所述处理单元，还用于根据获取到的所述目标文本信息对应的待合成语音中所有帧的声学特征，合成所述目标文本信息对应的预测语音信息。

9.一种电子设备，其特征在于，包括处理器、存储器和通信接口，所述处理器、所述存储器和所述通信接口相互连接，其中，所述存储器用于存储计算机程序指令，所述处理器被配置用于执行所述程序指令，实现如权利要求1-7任一项所述的语音合成方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序指令，所述计算机程序指令被处理器执行时，用于执行如权利要求1-7任一项所述的语音合成方法。