CN113793591B

CN113793591B - 语音合成方法及相关装置和电子设备、存储介质

Info

Publication number: CN113793591B
Application number: CN202110768683.5A
Authority: CN
Inventors: 宋飞豹; 江源; 宋锐; 侯秋侠
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2021-07-07
Filing date: 2021-07-07
Publication date: 2024-05-31
Anticipated expiration: 2041-07-07
Also published as: CN113793591A

Abstract

本申请公开了一种语音合成方法及相关装置和电子设备、存储介质，其中，语音合成方法包括：获取待合成文本的待合成音素；利用语音合成模型对待合成音素进行合成处理，得到合成音频；其中，语音合成模型是利用发言对象的样本数据训练预设语音网络而得到的，样本数据是利用发言对象的第一音频提取得到的，样本数据包括第一音频的样本音素序列以及第一音频的样本音频频谱和样本融合频谱，且样本音素序列包括若干样本音素，样本音频频谱包含若干样本音频帧，样本融合频谱是分别融合各个样本音素对应的样本音频帧而得到的。上述方案，能够提高语音合成质量。

Description

语音合成方法及相关装置和电子设备、存储介质

技术领域

本申请涉及音频处理技术领域，特别是涉及一种语音合成方法及相关装置和电子设备、存储介质。

背景技术

得益于机器学习的快速发展，机器学习已经在众多行业、领域得到广泛应用。在此其中，由于语音合成在国际会议、日常沟通等诸多场景均具有极其重要作用，将机器学习应用于语音合成，已经逐渐成为语音合成的主流技术之一。

研究发现，目前机器学习的语音合成质量仍然无法完全满足使用需求。有鉴于此，如何提高语音合成质量成为亟待解决的问题。

发明内容

本申请主要解决的技术问题是提供一种语音合成方法及相关装置和电子设备、存储介质，能够提高语音合成质量。

为了解决上述技术问题，本申请第一方面提供了一种语音合成方法，包括：获取待合成文本的待合成音素；利用语音合成模型对待合成音素进行合成处理，得到合成音频；其中，语音合成模型是利用发言对象的样本数据训练预设语音网络而得到的，样本数据是利用发言对象的第一音频提取得到的，样本数据包括第一音频的样本音素序列以及第一音频的样本音频频谱和样本融合频谱，且样本音素序列包括若干样本音素，样本音频频谱包含若干样本音频帧，样本融合频谱是分别融合各个样本音素对应的样本音频帧而得到的。

为了解决上述技术问题，本申请第二方面提供了一种语音合成装置，包括：音素获取模块和合成处理模块，音素获取模块用于获取待合成文本的待合成音素；合成处理模块用于利用语音合成模型对待合成音素进行合成处理，得到合成音频；其中，语音合成模型是利用发言对象的样本数据训练预设语音网络而得到的，样本数据是利用发言对象的第一音频提取得到的，样本数据包括第一音频的样本音素序列以及第一音频的样本音频频谱和样本融合频谱，且样本音素序列包括若干样本音素，样本音频频谱包含若干样本音频帧，样本融合频谱是分别融合各个样本音素对应的样本音频帧而得到的。

为了解决上述技术问题，本申请第三方面提供了一种电子设备，包括相互耦接的存储器和处理器，存储器中存储有程序指令，处理器用于执行程序指令以实现上述第一方面中的语音合成方法。

为了解决上述技术问题，本申请第四方面提供了一种计算机可读存储介质，存储有能够被处理器运行的程序指令，程序指令用于实现上述第一方面中的语音合成方法。

上述方案，获取待合成文本的待合成音素，并利用语音合成模型对待合成音素进行合成处理，得到合成音频，而语音合成模型是利用发言对象的样本数据训练得到的，样本数据又是利用发言对象的第一音频提取得到的，样本数据包括第一音频的样本音素序列以及第一音频的样本音频频谱和样本融合频谱，且样本音素序列包括若干样本音素，样本音频频谱包含若干样本音频帧，样本融合频谱是分别融合各个样本音素对应的样本音频帧而得到的，故样本融合频谱中不仅包含第一音频的特征信息，还包含样本音素的对齐信息，在此基础上再利用样本音素序列、样本音频频谱和样本融合频谱训练预设语音网络，能够学习到音频特征信息和音素对齐信息，从而使得语音合成模型在语音合成过程中更容易对齐，进而使得合成音频更逼近于真实语料，有利于提高利用语音合成模型的语音合成质量。

附图说明

图1是本申请语音合成模型的训练方法一实施例的流程示意图；

图2是本申请语音合成模型的训练方法一实施例的过程示意图；

图3是音色转换网络一实施例的框架示意图；

图4是图1中步骤S14一实施例的流程示意图；

图5是图1中步骤S14另一实施例的流程示意图；

图6是本申请语音合成模型的训练方法另一实施例的过程示意图；

图7是本申请语音合成方法一实施例的流程示意图；

图8是本申请语音合成装置一实施例的框架示意图；

图9是本申请电子设备一实施例的框架示意图；

图10是本申请计算机可读存储介质一实施例的框架示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定***结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“***”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。

本申请公开实施例，获取待合成文本的待合成音素，并利用语音合成模型对待合成音素进行合成处理，得到合成音频，而语音合成模型是利用发言对象的样本数据训练得到的，样本数据又是利用发言对象的第一音频提取得到的，样本数据包括第一音频的样本音素序列以及第一音频的样本音频频谱和样本融合频谱，且样本音素序列包括若干样本音素，样本音频频谱包含若干样本音频帧，样本融合频谱是分别融合各个样本音素对应的样本音频帧而得到的，故样本融合频谱中不仅包含第一音频的特征信息，还包含样本音素的对齐信息，在此基础上再利用样本音素序列、样本音频频谱和样本融合频谱训练预设语音网络，能够学习到音频特征信息和音素对齐信息，从而使得语音合成模型在语音合成过程中更容易对齐，进而使得合成音频更逼近于真实语料，有利于提高利用语音合成模型的语音合成质量。为便于理解本申请方案，本申请先陈述语音合成模型的“训练阶段”，再陈述基于语音合成模型的“预测阶段”，具体可以参阅下述公开实施例。

请参阅图1，图1是本申请语音合成模型的训练方法一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S11：获取发言对象的第一音频和第一音频的样本音素序列。

本公开实施例中，第一音频包含若干语种，样本音素序列包含若干样本音素。需要说明的是，本申请公开实施例中，如无特殊限定，“若干”可以表示至少一个(如，一个、两个、三个等)，在此不做限定。例如，第一音频可以仅包含一个语种，也可以包含多个(如，两个、三个等)语种，在此不做限定；又例如，样本音素序列可以仅包含一个样本音素，也可以包含多个(如，两个、三个等)样本音素，在此不做限定。

在一个实施场景中，在现实场景中，单一发言对象往往不具备多语种发言能力，故在第一音频包含多个语种的情况下，第一音频可以是利用多种语种分别对应的候选音频拼接得到的，候选音频均具有发言对象的音色，多种语种分别对应的候选音频中可以包含发言对象本身的音频数据以及由参考对象的音频数据经音色转换(即Voice Conversion，VC)而得到的音频数据。例如，对于具备中文发言能力的发言对象甲而言，在其第一音频包含中文、英文的情况下，该第一音频可以是由发言对象甲本身的音频数据，以及由具有英语发言能力的参考对象乙的音频数据经音色转换而得到的音频数据，两者拼接得到。其他情况可以以此类推，在此不再一一举例。需要说明的是，音色可以反映不同发言对象发出声音的固有品质。例如：低沉、尖锐、沉闷、浑厚、圆润等，在此不再一一举例。上述方式，通过将第一音频数据设置为包含多个语种，不仅能够使得语音合成模型具有合成包含多语种语音数据的能力，而且由于经后续音素对齐操作也能够使得语音合成模型更容易对齐，从而能够缓解经音色转换所得的音频数据与真实语料之间在韵律、音色等方面的差异，进而能够在多语种合成场景，提高语音合成质量。

在一个实施场景中，在第一音频包含多个语种的情况下，可以获取若干参考对象的第二音频，且第二音频包含一个语种，即每一第二音频均仅包含一个语种。此外，第二音频所包含的语种可以相同，也可以不完全相同，还可以完全不相同。例如，可以获取参考对象乙、参考对象丙和参考对象丁的第二音频，三者的第二音频可以均包含英语(即三者完全相同)，或者，参考对象乙的第二音频可以包含日语，参考对象丙的第二音频可以包含英语，参考对象丁的第二音频可以包含法语(即三者完全不相同)；或者，参考对象乙的第二音频可以包含日语，参考对象丙和参考对象丁的第二音频可以包含英语(即三者不完全相同)，在此不做限定。基于此，可以将第二音频的音色转换为发言对象的音色，得到第三音频。例如，可以将包含英语的第二音频进行音色转换，得到包含英语且具有发言对象音色的第三音频；或者，可以将包含法语的第二音频进行音色转换，得到包含法语且具有发言对象音色的第三音频，其他情况可以以此类推，在此不再一一举例。在此基础上，可以基于第三音频，按照预设策略获取发言对象的候选音频，并将发言对象的候选音频进行拼接，得到第一音频。上述方式，不仅能够使得语音合成模型具有合成包含多语种语音数据的能力，而且由于经后续音素对齐操作也能够使得语音合成模型更容易对齐，从而能够缓解经音色转换所得的音频数据与真实语料之间在韵律、音色等方面的差异，进而能够在多语种合成场景，提高语音合成质量。

在一个具体的实施场景中，请结合参阅图2，图2是本申请语音合成模型的训练方法一实施例的过程示意图。如图2所示，为了提高音色转换效率，可以利用音色转换网络将参考对象的第二音频进行音色转换，得到具有发言对象音色的第三音频。请继续结合参阅图3，图3是音色转换网络一实施例的框架示意图。如图3所示，音色转换网络可以包括特征提取层、PPG(Phonetic PosteriorGram，语音后验图)提取层、编码层、解码层以及LPCNet，其中，编码层和解码层可以包含于tacotron。在音色转换网络的训练过程中，可以输入发言对象的样本音频，经特征提取层提取得到声学特征(如梅尔频率倒谱系数)和基频特征(即log f0)，并利用PPG特征提取层对声学特征进行特征提取，得到PPG特征，以及利用PPG特征和基频特征训练tacotron，最终经LPCNet处理得到目标音频，在此训练过程中，音色转换网络能够充分学习到发言对象的音色特征；而在音色转换网络的预测阶段，可以输入参考对象的第二音频，经特征提取层提取得到声学特征和基频特征，并利用PPG特征提取层对声学特征进行特征提取，得到PPG特征，以及利用PPG特征和基频特征预测得到与第二音频所含语种相同且具有发言对象音色的第三音频。需要说明的是，关于PPG、tacotron以及LPCNet的具体含义，可以分别参阅PPG、tacotron以及LPCNet的技术细节，在此不再赘述。此外，需要说明的是，在存在多个发言对象的情况下，可以每一发言对象分别训练得到一个音色转换网络，且每一音色转换网络分别具备将音频数据转换为对应发言对象音色的能力。

在另一个具体的实施场景中，可以获取音频数据集合，且音频数据集合包含可以包含第三音频和发言对象的第四音频，且第四音频包含一个语种，即发言对象本身所具备发言能力的语种，在此基础上，可以按照预设策略，在音频数据集合内选择得到候选音频。即在音频数据集合内所选择到的候选音频即可以包含第三音频，也可以包含第四音频，还可以同时包含第三音频和第四音频，在此不做限定。上述方式，获取音频数据集合，且音频数据集合包含第三音频和发言对象的第四音频，第四音频包含一个语种，并按照预设策略，在音频数据集合内选择得到候选音频，能够扩展候选音频的选择范围，有利于提高后续训练预设语音网络的鲁棒性。

在又一个具体的实施场景中，预设策略可以包括以下至少一者：相邻候选音频所包含的语种不同，发言对象的候选音频的总时长与预设时长之间的差值在预设范围之内。在预设策略包括相邻候选音频所包含的语种不同的情况下，按照预设策略选择到的候选音频可以排列为：包含语种A的候选音频01、包含语种B的候选音频02、包含语种A的候选音频03，或者，包含语种A的候选音频01、包含语种B的候选音频02、包含语种C的候选音频04，在此不做限定。也就是说，选择得到的候选音频一共可以包含2个语种，也可以包含2个以上(如，3个、4个等)的语种，在此不做限定。在预设策略包括发言对象的候选音频的总时长与预设时长之间的差值在预设范围之内的情况下，可以预先将音频数据集合内的音频数据按照时长进行分类，例如，可以将超过20s的音频数据作为长音频，将10s至20s之间的音频数据作为中音频，将短于10s的音频数据作为短音频，在此情况下，按照预设策略选择到的候选音频可以排列为：A语种中音频、B语种中音频；或者，B语种中音频、A语种中音频；或者，A语种短音频、B语种中音频、A语种短音频；或者，B语种短音频、A语种能中音频、B语种短音频；或者，A语种长音频、B语种短音频；或者，A语种短音频、B语种长音频，在此不做限定。上述方式，通过将预设策略设置为包括相邻候选音频所包含的语种不同，能够模拟真实多语种合成任务，提高语音合成模型性能，而将预设策略设置为包括发言对象的候选音频的总时长与预设时长之间的差值在预设范围之内，能够使得输入样本长度大致相当，有利于提高训练质量。

在一个实施场景中，以中文场景为例，第一音频“今天天气真好”可以提取到样本音素序列“jin tian tian qi zhen hao”；或者，以中英文混杂场景为例，第一音频“今天天气真nice”可以提取到样本音素序列“jin tian tian qi”。其他情况可以以此类推，在此不再一一举例。

步骤S12：对第一音频进行特征提取，得到样本音频频谱。

本公开实施例中，样本音频频谱包含若干样本音频帧。例如，可以利用预设滑窗对第一音频进行分帧处理，得到若干帧，再对每一帧分别进行特征提取，得到对应的样本音频帧，若干帧分别对应的样本音频帧的组合，即可视为样本音频频谱。需要说明的是，样本音频频谱可以包括但不限于梅尔谱，在此不做限定。此外，具体提取过程，可以参阅诸如梅尔谱等频谱的技术细节，在此不再赘述。

步骤S13：分别融合各个样本音素对应的样本音频帧，得到样本融合频谱。

具体地，可以识别若干样本音素的持续时长，并对于每一样本音素，可以融合持续时长内的样本音频帧，得到样本音素的样本融合帧，以及基于若干样本音素的样本融合帧，得到样本融合频谱。上述方式，对于每一样本音素通过融合持续时长内的样本音频帧，得到样本音素的样本融合帧，能够将样本音素进行强制对齐，使得模型在训练过程中能够学习到音频特征信息和音素对齐信息，特别是在第一音频包含经音色转换得到的音频数据的情况下，能够大大缓解经音色转换所得的音频数据与真实语料之间在韵律、音色等方面的差异。

在一个实施场景中，各个样本音素的持续时长可以是利用隐马尔可夫模型(Hidden Markov Model，HMM)识别得到的。具体识别过程，可以参阅隐马尔可夫的技术细节，在此不再赘述。上述方式，通过隐马尔可夫模型识别得到各个样本音素的持续时长，有利于提升持续时长的识别准确性。

在一个实施场景中，具体可以对持续时长内的样本音频帧取均值，得到样本融合帧。例如，以第一音频长度是N秒为例，该第一音频由N音素组成，且每个样本音素持续时长均为1秒，每10ms为1个样本音频帧，故可以对第i个连续100帧的样本音频帧取平均作为第i个样本音素的样本融合帧，故将N个音素的样本融合帧的组合，作为样本融合频谱。其他情况可以以此类推，在此不再一一举例。

步骤S14：利用样本音素序列、样本音频频谱和样本融合频谱训练预设语音网络，得到语音合成模型。

在一个实施场景中，在预设语音网络的训练过程中，可以对样本音素序列进行编码，得到样本音素表示，并对样本音素表示进行解码，得到预测融合频谱，以及对样本融合频谱进行解码，得到预测音频频谱，在此基础上，再基于样本音频频谱和预测音频频谱之间的差异，以及样本融合频谱与预测融合频谱之间的差异，优化预设语音网络。上述方式，通过约束样本音频频谱和预测音频频谱之间的差异以及样本融合频谱与预测融合频谱之间的差异，预设语音网络在训练过程中能够学习到样本音频频谱的特征和样本融合频谱的特征，使得预设语音网络预测得到的预测融合频谱和预测音频频谱趋于真实，提高网络性能。

在一个具体的实施场景中，请继续结合参阅图2，如图2所示，预设语音网络可以包括音素编码子网络、第一解码子网络和第二解码子网络，在此基础上，可以利用音素编码子网络对样本音素序列进行编码，得到样本音素表示，并利用第一解码子网络对样本音素表示进行解码，得到预测融合频谱，以及利用第二解码子网络对样本融合频谱进行解码，得到预测音频频谱。上述方式，能够在训练过程使音素编码子网络学习到音素特征信息，并使第一解码子网络学习到融合频谱特征信息，以及使第二解码子网络学习到音频频谱特征信息，有利于提高模型性能。

在另一个具体的实施场景中，可以响应于预设语音网络的训练结果满足预设条件，得到语音合成模型。训练结果可以包括上述损失值，预设条件可以设置为损失值小于预设阈值，即在损失值小于预设阈值的情况下，可以认为预设语音网络已经训练到收敛，此时可以将训练收敛的预设语音网络作为语音合成模型。

在又一个具体的实施场景中，预测融合频谱是经过若干解码阶段得到的，且样本融合频谱包含若干样本融合帧，在当前解码阶段t，可以利用第一解码子网络对参考融合帧和样本音素表示进行解码，得到当前解码阶段t的预测融合帧，并基于若干解码阶段分别解码得到的预测融合帧，得到预测融合频谱，且参考融合帧为与当前解码阶段t的上一解码阶段t-1对应的样本融合帧。

在又一个具体的实施场景中，预测音频频谱也是经过若干解码阶段得到的，此外样本融合频谱包含若干样本融合帧，在当前解码阶段t，可以利用第二解码子网络对样本音素表示、参考音频帧和参考融合帧进行解码，得到当前解码阶段t的预测音频帧，并基于若干解码阶段分别解码得到的预测音频帧，得到预测音频频谱，且参考音频帧为与当前解码阶段t的上一解码阶段t-1对应的样本音频帧，而参考融合帧为与当前解码阶段t的上一解码阶段t-1对应的样本融合帧。

在又一个具体的实施场景中，具体可以采用诸如MSE(Mean Square Error，均方误差)损失函数量化样本音频频谱与预测音频频谱之间的差异，以及样本融合频谱与预测融合频谱之间的差异，得到预设语音网络的损失值，并基于该损失值采用梯度下降等优化方式对预设语音网络的网络参数进行优化。具体过程可以参阅梯度下降等优化方式的技术细节，在此不再赘述。

在另一个实施场景中，为了能够使得语音合成模型具备针对不同音色的发言对象进行语音合成能力，在预设语音网络的训练过程中，还可以对样本音素序列进行编码，得到样本音素表示，并对样本音素表示、发言对象的初始表示进行解码，得到预测融合频谱，以及对样本融合频谱进行解码，得到预测音频频谱，从而可以基于样本音频频谱与预测音频频谱之间的差异，以及样本融合频谱与预测融合频谱之间的差异，优化预设语音网络和发言对象的初始表示。需要说明的是，对象表示能够区分不同发言对象，如可以区分不同发言对象的音色、发音等特征。此外，初始表示可以通过随机初始化向量得到。例如，对于发言对象甲，可以随机初始化向量[0.5 0.6 0.7 0.8 0.9 1.0]作为其初始表示，在此不做限定。

在一个具体的实施场景中，如前所述，预设语音网络可以包括音素编码子网络、第一解码子网络和第二解码子网络，在此基础上，可以利用音素编码子网络对样本音素序列进行编码，得到样本音素表示，并利用第一解码子网络对样本音素表示、发言对象的初始表示进行解码，得到预测融合频谱，以及利用第二解码子网络对样本融合频谱、发言对象的初始表示进行解码，得到预测音频频谱，从而可以基于样本音频频谱与预测音频频谱之间的差异，以及样本融合频谱与预测融合频谱之间的差异，优化预设语音网络和发言对象的初始表示。

在另一个具体的实施场景中，如前所述，可以响应于预设语音网络的训练结果满足预设条件，得到语音合成模型和发言对象的对象表示。训练结果以及预设条件的具体设置方式，可以参阅前述相关描述，在此不再赘述。

在又一个具体的实施场景中，第一解码子网络和第二解码子网络的具体解码过程，可以参阅前述相关描述，在此不再赘述。需要说明的是，与前述相关描述的不同之处在于，在解码过程中还输入发言对象的初始表示，以通过发言对象的初始表示，实现针对性地对不同发言对象进行语音合成。

在又一个具体的实施场景中，具体可以采用诸如MSE(Mean Square Error，均方误差)损失函数量化样本音频频谱与预测音频频谱之间的差异，以及样本融合频谱与预测融合频谱之间的差异，得到预设语音网络的损失值，并基于该损失值优化预设语音网络的网络参数和发言对象的初始表示。

上述方案，获取发言对象的第一音频和第一音频的样本音素序列，且第一音频包含若干语种，样本音素序列包含若干样本音素，并对第一音频进行特征提取，得到样本音频数据，且样本音频数据包含若干样本音频帧，以及分别融合各个样本音素对应的样本音频帧，得到样本融合频谱，在此基础上，再利用样本音素序列、样本音频频谱和样本融合频谱训练预设语音网络，得到合成模型，由于样本音频频谱是通过对第一音频进行特征提取得到的，故样本音频频谱中包含第一音频的特征信息，且由于样本融合频谱是通过融合各个样本音素对应的样本音频帧得到的，即样本融合频谱与样本音素强相关，故样本融合频谱中不仅包含第一音频的特征信息，还包含样本音素的对齐信息，在此基础上再利用样本音素序列、样本音频频谱和样本融合频谱训练预设语音网络，能够学习到音频特征信息和音素对齐信息，从而使得语音合成模型在语音合成过程中更容易对齐，进而使得合成音频更逼近于真实语料，有利于提高语音合成质量。

请参阅图4，图4是图1中步骤S14一实施例的流程示意图。具体而言，请结合参阅图2，本公开实施例中，预设语音网络可以包括音素编码子网络、第一解码子网络和第二解码子网络。本公开实施例可以包括如下步骤：

步骤S41：利用音素编码子网络对样本音素序列进行编码，得到样本音素表示。

具体可以参阅前述公开实施例中相关描述，在此不再赘述。

步骤S42：利用第一解码子网络对样本音素表示进行解码，得到预测融合频谱，并利用第二解码子网络对样本融合频谱进行解码，得到预测音频频谱。

在一个实施场景中，如前述公开实施例所述，预测融合频谱和预测音频频谱均是通过若干解码阶段得到的，具体解码过程可以参阅前述公开实施例中相关描述，在此不再赘述。

在一个实施场景中，如前述公开实施例所述，在训练过程中，第一解码子网络的输入为样本音素表示和样本融合帧，第二解码子网络的输入为样本音素表示、样本融合帧和样本音频帧，而在预测阶段中，由于不存在可供参考的先验信息，故第一解码子网络的输入为音素表示和上一解码阶段预测的融合帧，第二解码子网络的输入为音素表示、上一解码阶段预测的融合帧和上一解码阶段预测的音频帧，由此导致训练阶段与预测阶段不匹配。有鉴于此，预设语音网络进行若干轮训练而得到语音合成模型的过程中，可以基于当前训练轮次，确定样本融合频谱的选择概率，且当前训练轮次与选择概率负相关，并基于选择概率，得到当前训练轮次的样本解码频谱，且样本解码频谱是在样本融合频谱和预测融合频谱中选择的，即当前训练轮次越小，选择样本融合频谱的可能性越高，选择预测融合频谱的可能性越低，反之当前训练轮次越大，选择样本融合频谱的可能性越低，选择预测融合频谱的可能性越高，在此基础上，再对样本解码频谱进行解码，得到预测音频频谱。例如，可以利用第二解码子网络对样本解码频谱进行解码，得到预测音频频谱。上述方式，在预设语音网络的训练前期，能够尽可能多地参考样本融合频谱，以提高训练稳定性，而在预设语音网络的训练中后期，能够尽可能多地参考预测融合频谱，以提升训练阶段和预测阶段的一致性，有利于降低训练得到的语音合成模型解码出噪点的可能性，提升语音合成模型性能。

在一个具体的实施场景中，以预设语音网络经过N轮训练得到语音合成模型为例，在第T轮训练时，第一解码子网络可以解码得到预测融合频谱，在利用第二解码子网络进行进一步解码之前，可以基于当前训练轮次T的数值大小，确定样本融合频谱的选择概率，以基于该选择概率从样本融合频谱和第一解码子网络解码得到的预测融合频谱中选择得到样本解码频谱，并对样本解码频谱进行解码，得到预测音频频谱。

在另一个具体的实施场景中，为了便于确定选择概率，可以划分M个轮次区间，且每一轮次区间对应有选择概率与训练轮次之间的映射关系，每一轮次区间对应的的映射关系均为负相关关系。例如，可以划分3个轮次区间，分别为少于3000次、3000次之20000次、多于20000次，则选择概率P可以表示为：

上述公式(1)中，P_src表示初始概率，例如，可以设置为0.9、0.95等，在此不做限定。step表示当前训练轮次，dec_step表示调节因子，具体可以根据实际应用需要进行设置。例如，在随着训练轮次的增加，需要尽可能多地参考预测融合频谱(即尽可能少地参考样本融合频谱)的情况下，dec_step可以设置地稍微小一些，而在随着训练轮次的增加，需要适当多一些参考预测融合频谱(即仍然需要适当少量参考样本融合频谱)的情况下，dec_step可以设置地稍微大一些，dec_step的具体数值，在此不做限定。

在一个实施场景中，如前所述公开实施例所述，为了使模型具备针对不同音色的发言对象进行语音合成能力，还可以在训练过程中加入发言对象的初始表示，并在优化预设语音网络过程中同时优化该初始表示，以及在训练收敛之后，将发言对象的初始表示作为发言对象的对象表示。具体可以参阅前述公开实施例中相关描述，在此不再赘述。

步骤S43：基于样本音频频谱与预测音频频谱之间的差异，以及样本融合频谱与预测融合频谱之间的差异，优化预设语音网络。

具体可以参阅前述公开实施例中相关描述，在此不再赘述。

步骤S44：响应于预设语音网络的训练结果满足预设条件，得到语音合成模型。

具体可以参阅前述公开实施例中相关描述，在此不再赘述。

上述方案，通过先对样本音素表示信息解码，得到预测融合频谱，再对样本融合频谱进行解码，得到预测音频频谱，以基于样本音频频谱与预测音频频谱之间的差异，以及样本融合频谱与预测融合频谱之间的差异，优化预设语音网络，能够在训练过程使音素编码子网络学习到音素特征信息，并使第一解码子网络学习到融合频谱特征信息，以及使第二解码子网络学习到音频频谱特征信息，有利于提高模型性能。

请参阅图5，图5是图1中步骤S14另一实施例的流程示意图。具体而言，本公开实施例可以包括如下步骤：

步骤S501：对样本音素序列进行编码，得到样本音素表示。

具体可以参阅前述公开实施例中相关描述，在此不再赘述。

步骤S502：对样本音素表示进行解码，得到预测融合频谱。

具体可以参阅前述公开实施例中相关描述，在此不再赘述。此外，如前述公开实施例所述，为了使模型具备针对不同音色的发言对象进行语音合成能力，还可以在训练过程中加入发言对象的初始表示，并在优化预设语音网络过程中同时优化该初始表示，以及在训练收敛之后，将发言对象的初始表示作为发言对象的对象表示。具体可以参阅前述公开实施例中相关描述，在此不再赘述。

步骤S503：基于当前训练轮次，确定样本融合频谱的选择概率。

本公开实施例中，当前训练轮次与选择概率负相关。具体可以参阅前述公开实施例中相关描述，在此不再赘述。

步骤S504：基于选择概率，得到当前训练轮次的样本解码频谱。

本公开实施例中，样本解码频谱是在样本融合频谱、预测融合频谱中选择的。具体可以参阅前述公开实施例中相关描述，在此不再赘述。

步骤S505：判断样本解码频谱是否为预测融合频谱，若是，则执行步骤S506，否则执行步骤S508。

在选择预测融合频谱作为样本解码频谱的情况下，可以在解码之前先对预测融合频谱进行降噪优化，之后再进行解码，而在选择样本融合频谱作为样本解码频谱的情况下，可以直接进行解码。

步骤S506：对预测融合频谱进行降噪优化，得到预测优化频谱。

在一个实施场景中，可以通过滤波器(如，二阶带通滤波器等)实现降噪优化，在此不做限定。滤波器的设计方式，可以参阅滤波器的技术细节，在此不再赘述。

在另一个实施场景中，预设语音网络还可以包括频谱优化子网络，在此基础上，可以利用匹配优化子网络对预测融合频谱进行降噪优化，得到预测优化频谱。频谱优化子网络具体可以包括若干卷积层，例如，可以额包含5层卷积层、6层卷积层等，在此不做限定。需要说明的是，优化之前的预测融合频谱与优化之后的预测融合频谱具有相同分辨率，即频谱优化子网络并不改变预测融合频谱的分辨率。在频谱优化子网络的优化过程中，能够吸收第一解码子网络解码得到的预测融合频谱带来的噪声，以提升之后输入第二解码子网络的预测融合频谱的质量。

步骤S507：对预测优化频谱进行解码，得到预测音频频谱。

请结合参阅图6，图6是本申请语音合成模型的训练方法另一实施例的过程示意图。如图6所示，在利用频谱优化子网络对预测融合频谱进行降噪优化之后，可以利用第二解码子网络对优化后的样本解码频谱进行解码，得到预测音频频谱。此外，如前述公开实施例所述，为了使模型具备针对不同音色的发言对象进行语音合成能力，还可以在训练过程中加入发言对象的初始表示，并在优化预设语音网络过程中同时优化该初始表示，以及在训练收敛之后，将发言对象的初始表示作为发言对象的对象表示。具体可以参阅前述公开实施例中相关描述，在此不再赘述。

步骤S508：对样本解码频谱进行解码，得到预测音频频谱。

在选择样本融合频谱作为样本解码频谱的情况下，可以直接利用第二解码子网络对样本解码频谱进行解码，得到预测音频频谱。具体可以参阅前述公开实施例中相关描述，在此不再赘述。此外，如前述公开实施例所述，为了使模型具备针对不同音色的发言对象进行语音合成能力，还可以在训练过程中加入发言对象的初始表示，并在优化预设语音网络过程中同时优化该初始表示，以及在训练收敛之后，将发言对象的初始表示作为发言对象的对象表示。具体可以参阅前述公开实施例中相关描述，在此不再赘述。

步骤S509：基于样本音频频谱与预测音频频谱之间的差异，以及样本融合频谱与预测融合频谱之间的差异，优化预设语音网络。

在一个实施场景中，可以基于样本音频频谱与预测音频频谱之间的差异，得到第一损失值，并基于样本融合频谱与预测融合频谱之间的差异，得到第二损失值，并基于第一损失值和第二损失值，得到预设语音网络的总损失值，以基于总损失值，利用梯度下降等优化方式对预设语音网络进行降噪优化。

在另一个实施场景中，在选择预测融合频谱作为样本解码频谱的情况下，请继续结合参阅图6，还可以基于预测优化频谱和样本融合频谱之间的差异，得到第三损失值。例如，可以采用MSE损失函数量化优化后的预测融合频谱和样本融合频谱之间的差异，具体计算方式可以参阅MSE的技术细节，在此不再赘述。在此基础上，可以基于上述第一损失值、第二损失值和第三损失值，得到预设语音网络的总损失值，或者，也可以基于上述第一损失值和第三损失值，得到预设语音网络的总损失值，以基于总损失值，利用梯度下降等优化方式对预设语音网络进行优化。

在又一个实施场景中，如前述公开实施例所述，为了使模型具备针对不同音色的发言对象进行语音合成能力，还可以在训练过程中加入发言对象的初始表示，在此情况下，还可以基于总损失值，利用梯度下降等优化方式对预设语音网络和初始表示进行优化。

步骤S510：响应于预设语音网络的训练结果满足预设条件，得到语音合成模型。

具体可以参阅前述公开实施例中相关描述，在此不再赘述。

上述方案，在样本解码频谱为预测融合频谱的情况下，对预测融合频谱进行降噪优化，并对优化后的样本解码频谱进行解码，得到预测音频频谱，能够吸收第一解码子网络解码得到的预测融合频谱带来的噪声，以提升之后解码得到的预测融合频谱的质量。

请参阅图7，图7是本申请语音合成方法一实施例的流程示意图。

具体而言，可以包括如下步骤：

步骤S71：获取待合成文本的待合成音素。

具体地，通过待合成文本可以直接提取其对应的待合成音素。以单语种合成为例，对于待合成文本“今天天气真好”而言，可以提取其待合成音素“jin tian tian qi zhenhao”；或者，以中英双语合成为例，对于待合成文本“今天天气真nice”而言，可以提取其待合成音素“jin tian tian qi”。其他情况可以以此类推，在此不再一一举例。

步骤S72：利用语音合成模型对待合成音素进行合成处理，得到合成音频。

本公开实施例中，语音合成模型是利用上述任一语音合成模型的训练方法实施例中的步骤得到的利用发言对象的样本数据训练预设语音网络而得到的，样本数据是利用发言对象的第一音频提取得到的，样本数据包括第一音频的样本音素序列以及第一音频的样本音频频谱和样本融合频谱，且样本音素序列包括若干样本音素，样本音频频谱包含若干样本音频帧，样本融合频谱是分别融合各个样本音素对应的样本音频帧而得到的。具体可以参阅前述公开实施例，在此不再赘述。

在一个实施场景中，如前述公开实施例所述，语音合成模型可以包括音素编码子网络、第一解码子网络和第二解码子网络，则可以利用音素编码子网络对待合成音素进行编码，得到待合成音素表示，并利用第一解码子网络对待合成音素表示进行解码，得到融合频谱，以及利用第二解码子网络对融合频谱和待合成音素表示进行解码，得到合成音频。故在语音合成过程中更容易对齐，进而使得合成音频更逼近于真实语料，有利于提高语音合成质量。

在另一个实施场景中，为了能够合成不同音色的合成音频，可以获取目标对象的对象表示，需要说明的是，对象表示的具体获取过程，可以参阅前述公开实施例中相关描述，在此不再赘述。在此基础上，可以利用音素编码子网络对待合成音素表示和目标对象的对象表示进行解码，得到融合频谱，并利用第二解码子网络对融合频谱、待合成音素表示和目标对象的对象表示进行解码，得到合成音频，且该合成音频具有目标对象的音色。上述方式，在语音合成过程中加入目标对象的对象表示，能够使得语音合成模型合成得到的合成音频具有目标对象的音色，有利于大大扩展语音合成的适用范围。

在又一个实施场景中，如前述公开实施例所述，为了吸收第一解码子网络解码得到的融合频谱带来的噪声，语音合成模型可以进一步包括频谱优化子网络，在此基础上，可以利用音素编码子网络对待合成音素进行解码，得到待合成音素表示，并利用第一解码子网络对待合成音素表示进行解码，得到融合频谱，以及利用频谱优化子网络对融合频谱进行降噪优化，得到优化频谱，进一步利用第二解码子网络对优化频谱和待合成音素表示进行解码，得到合成音频。需要说明的是，频谱优化子网络的网络结构，可以参阅前述公开实施例中相关描述，在此不再赘述。上述方式，在第二解码子网络进行解码之前，先利用频谱优化子网络对融合频谱进行降噪优化，能够吸收第一解码子网络所解码得到的融合频谱带来的噪声，有利于提升语音合成质量。

在又一个具体的实施场景中，如前所述，为了能够合成不同音色的合成音频，可以获取目标对象的对象表示，在此基础上，可以利用第一解码子网络对待合成音素表示和目标对象的对象表示进行解码，得到融合频谱，并利用频谱优化子网络对融合频谱进行降噪优化，得到优化频谱，以及利用第二解码子网络对优化频谱、待合成音素表示和目标对象的对象表示进行解码，得到合成音频，且该合成音频具有目标对象的音色。上述方式，通过在语音合成过程中，加入目标对象的对象表示，并采用频谱优化子网络对融合频谱进行降噪优化，一方面能够使得语音合成模型合成得到的合成音频具有目标对象的音色，有利于大大扩展语音合成的适用范围，另一方面能够吸收第一解码子网络所解码得到的融合频谱带来的噪声，有利于提升语音合成质量。

需要说明的是，融合频谱和合成音频可以是经过若干解码阶段得到的，第一解码子网络和第二解码子网络的具体解码过程可以参阅前述公开实施例相关描述，在此不再赘述。

上述方案，获取待合成文本的待合成音素，并利用语音合成模型对待合成音素进行合成处理，得到合成音频，且语音合成模型是利用上述任一语音合成模型的训练方法实施例中步骤得到的，故在语音合成过程中更容易对齐，进而使得合成音频更逼近于真实语料，有利于提高语音合成质量。

请参阅图8，图8是本申请语音合成装置80一实施例的框架示意图。语音合成装置80包括：音素获取模块81和合成处理模块82，音素获取模块81用于获取待合成文本的待合成音素；合成处理模块82用于利用语音合成模型对待合成音素进行合成处理，得到合成音频；其中，语音合成模型是利用发言对象的样本数据训练预设语音网络而得到的，样本数据是利用发言对象的第一音频提取得到的，样本数据包括第一音频的样本音素序列以及第一音频的样本音频频谱和样本融合频谱，且样本音素序列包括若干样本音素，样本音频频谱包含若干样本音频帧，样本融合频谱是分别融合各个样本音素对应的样本音频帧而得到的。

上述方案，获取待合成文本的待合成音素，并利用语音合成模型对待合成音素进行合成处理，得到合成音频，而语音合成模型是利用发言对象的样本数据训练得到的，样本数据又是利用发言对象的第一音频提取得到的，样本数据包括第一音频的样本音素序列以及第一音频的样本音频频谱和样本融合频谱，且样本音素序列包括若干样本音素，样本音频频谱包含若干样本音频帧，样本融合频谱是分别融合各个样本音素对应的样本音频帧而得到的，故样本融合频谱中不仅包含第一音频的特征信息，还包含样本音素的对齐信息，在此基础上再利用样本音素序列、样本音频频谱和样本融合频谱训练预设语音网络，能够学习到音频特征信息和音素对齐信息，从而使得语音合成模型在语音合成过程中更容易对齐，进而使得合成音频更逼近于真实语料，有利于提高利用语音合成模型的语音合成质量。在一些公开实施例中，在一些公开实施例中，语音合成装置80还包括网络训练模块，网络训练模块包括样本音素编码子模块，用于对样本音素序列进行编码，得到样本音素表示；网络训练模块包括第一样本解码子模块，用于对样本音素表示进行解码，得到预测融合频谱；网络训练模块包括第二样本解码子模块，用于对样本融合频谱进行解码，得到预测音频频谱；网络训练模块包括网络优化子模块，用于基于样本音频频谱与预测音频频谱之间的差异，以及样本融合频谱与预测融合频谱之间的差异，优化预设语音网络。

因此，通过先对样本音素表示信息解码，得到预测融合频谱，再对样本融合频谱进行解码，得到预测音频频谱，以基于样本音频频谱与预测音频频谱之间的差异，以及样本融合频谱与预测融合频谱之间的差异，优化预设语音网络，能够预设语音网络在训练过程中学习到音素特征信息和、融合频谱特征信息和音频频谱特征信息，有利于提高模型性能

在一些公开实施例中，预设语音网络包括音素编码子网络、第一解码子网络和第二解码子网络，音素编码子网络用于对样本音素序列进行编码，得到样本音素表示，第一解码子网络用于对样本音素表示进行解码，得到预测融合频谱，第二解码子网络用于对样本融合频谱进行解码，得到预测音频频谱。

因此，能够在训练过程使音素编码子网络学习到音素特征信息，并使第一解码子网络学习到融合频谱特征信息，以及使第二解码子网络学习到音频频谱特征信息，有利于提高模型性能。

在一些公开实施例中，语音合成模型是对预设语音网络进行若干轮训练得到的；第二样本解码子模块包括选择概率确定单元，用于基于当前训练轮次，确定样本融合频谱的选择概率；其中，当前训练轮次与选择概率负相关；第二样本解码子模块包括解码频谱获取单元，用于基于选择概率，得到当前训练轮次的样本解码频谱；其中，样本解码频谱是在样本融合频谱、预测融合频谱中选择的；第二样本解码子模块包括音频频谱解码单元，用于对样本解码频谱进行解码，得到预测音频频谱。

因此，在预设语音网络的训练前期，能够尽可能多地参考样本融合频谱，以提高训练稳定性，而在预设语音网络的训练中后期，能够尽可能多地参考预测融合频谱，以提升训练阶段和预测阶段的一致性，有利于降低训练得到的语音合成模型解码出噪点的可能性，提升语音合成模型性能。

在一些公开实施例中，第二样本解码子模块包括融合频谱优化单元，用于在样本解码频谱为预测融合频谱的情况下，利用对预测融合频谱进行降噪优化，得到预测优化频谱；音频频谱解码单元具体用于对预测优化频谱进行解码，得到预测音频频谱。

因此，在样本解码频谱为预测融合频谱的情况下，对预测融合频谱进行降噪优化，得到预测优化频谱，并对预测优化频谱进行解码，得到预测音频频谱，能够吸收预测融合频谱带来的噪声，以提升之后解码得到的预测融合频谱的质量。

在一些公开实施例中，预设语音网络还包括频谱优化子网络，频谱优化子网络用于对预测融合频谱进行降噪优化；和/或，网络优化子模块包括第一损失计算单元，用于基于样本音频频谱与预测音频频谱之间的差异，得到第一损失值，网络优化子模块包括第二损失计算单元，用于基于样本融合频谱与预测融合频谱之间的差异，得到第二损失值，网络优化子模块包括第三损失计算单元，用于基于预测优化频谱与样本融合频谱之间的差异，得到第三损失值，网络优化子模块包括网络参数优化单元，用于基于第一损失值、第二损失值和第三损失值，优化预设语音网络。

因此，预设语音网络还包括频谱优化子网络，且频谱优化子网络用于对预测融合频谱进行降噪优化，从而能够有利于提高降噪优化的效率；此外，通过约束样本融合频谱与预测融合频谱之间的差异、样本融合频谱与预测融合频谱之间的差异以及预测优化频谱与样本融合频谱之间的差异，从而能够有利于进一步提高网络性能。

在一些公开实施例中，第一音频包含多个语种；语音合成装置80还包括样本获取模块，用于获取第一音频，且样本获取模块具体包括音频获取子模块，用于获取若干参考对象的第二音频；其中，第二音频包含一个语种；样本获取模块包括音色转换子模块，用于将第二音频的音色转换为发言对象的音色，得到第三音频；样本获取模块包括候选获取子模块，用于基于第三音频，按照预设策略获取发言对象的候选音频；样本获取模块包括音频拼接子模块，用于将发言对象的候选音频进行拼接，得到第一音频。

因此，不仅能够使得语音合成模型具有合成包含多语种语音数据的能力，而且由于经后续音素对齐操作也能够使得语音合成模型更容易对齐，从而能够缓解经音色转换所得的音频数据与真实语料之间在韵律、音色等方面的差异，进而能够在多语种合成场景，提高语音合成质量。

在一些公开实施例中，候选获取子模块包括集合获取单元，用于获取音频数据集合；其中，音频数据集合包括第三音频和发言对象的第四音频，且第四音频包含一个语种；候选获取子模块包括音频选择单元，用于按照预设策略，在音频数据集合内选择得到候选音频。

因此，获取音频数据集合，且音频数据集合包含第三音频和发言对象的第四音频，第四音频包含一个语种，并按照预设策略，在音频数据集合内选择得到候选音频，能够扩展候选音频的选择范围，有利于提高后续训练预设语音网络的鲁棒性。

在一些公开实施例中，预设策略包括以下至少一者：相邻候选音频所包含的语种不同，发言对象的候选音频的总时长与预设时长之间的差值在预设范围之内。

因此，通过将预设策略设置为包括相邻候选音频所包含的语种不同，能够模拟真实多语种合成任务，提高语音合成模型性能，而将预设策略设置为包括发言对象的候选音频的总时长与预设时长之间的差值在预设范围之内，能够使得输入样本长度大致相当，有利于提高训练质量。

在一些公开实施例中，语音合成装置80还包括频谱融合模块，用于融合各个样本音素对应的样本音频帧得到样本融合频谱，且频谱融合模块具体包括时长识别子模块，用于识别若干样本音素的持续时长；频谱融合模块包括音频帧融合子模块，用于对于每一样本音素，融合持续时长内的样本音频帧，得到样本音素的样本融合帧；频谱融合模块包括频谱获取子模块，用于基于若干样本音素的样本融合帧，得到样本融合频谱。

因此，对于每一样本音素通过融合持续时长内的样本音频帧，得到样本音素的样本融合帧，能够将样本音素进行强制对齐，使得模型在训练过程中能够学习到音频特征信息和音素对齐信息，特别是在第一音频包含经音色转换得到的音频数据的情况下，能够大大缓解经音色转换所得的音频数据与真实语料之间在韵律、音色等方面的差异。

在一些公开实施例中，持续时长是利用隐马尔可夫模型识别得到的。

因此，利用隐马尔可夫模型识别样本音素的持续时长，能够有利于提升持续时长识别的准确性。

在一些公开实施例中，音频帧融合子模块具体用于对持续时长内的样本音频帧取均值，得到样本融合帧。

因此，通过对持续时长内的样本音频帧取均值得到样本融合帧，能够有利于降低融合样本音频帧的复杂度。

请参阅图9，图9是本申请电子设备90一实施例的框架示意图。电子设备90包括相互耦接的存储器91和处理器92，存储器91中存储有程序指令，处理器92用于执行程序指令以实现上述任一语音合成方法实施例中的步骤。具体地，电子设备90可以包括但不限于：台式计算机、笔记本电脑、服务器、手机、平板电脑等等，在此不做限定。

具体而言，处理器92用于控制其自身以及存储器91以实现上述任一语音合成方法实施例中的步骤。处理器92还可以称为CPU(Central Processing Unit，中央处理单元)。处理器92可能是一种集成电路芯片，具有信号的处理能力。处理器92还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器92可以由集成电路芯片共同实现。

上述方案，样本融合频谱中不仅包含第一音频的特征信息，还包含样本音素的对齐信息，在此基础上再利用样本音素序列、样本音频频谱和样本融合频谱训练预设语音网络，能够学习到音频特征信息和音素对齐信息，从而使得语音合成模型在语音合成过程中更容易对齐，进而使得合成音频更逼近于真实语料，有利于提高语音合成质量。

请参阅图10，图10是本申请计算机可读存储介质100一实施例的框架示意图。计算机可读存储介质100存储有能够被处理器运行的程序指令101，程序指令101用于实现上述任一语音合成方法实施例中的步骤。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种语音合成方法，其特征在于，包括：

获取待合成文本的待合成音素；

利用语音合成模型对所述待合成音素进行合成处理，得到合成音频；

其中，所述语音合成模型是利用发言对象的样本数据训练预设语音网络而得到的，所述预设语音网络包括用于对所述待合成音素进行编码以得到待合成音素表示的音素编码子网络、用于对所述待合成音素表示进行解码以得到融合频谱的第一解码子网络和用于对所述融合频谱和所述待合成音素表示进行解码以得到所述合成音频的第二解码子网络，所述样本数据是利用所述发言对象的第一音频提取得到的，所述样本数据包括所述第一音频的样本音素序列以及所述第一音频的样本音频频谱和样本融合频谱，且所述样本音素序列包含若干样本音素，所述样本音频频谱包含若干样本音频帧，所述样本融合频谱是分别融合各个所述样本音素对应的所述样本音频帧而得到的，用于使所述预设语音网络在训练过程中学习音频特征信息和音素对齐信息。

2.根据权利要求1所述的方法，其特征在于，所述预设语音网络的训练步骤包括：

对所述样本音素序列进行编码，得到样本音素表示；

对所述样本音素表示进行解码，得到预测融合频谱，并对所述样本融合频谱进行解码，得到预测音频频谱；

基于所述样本音频频谱与所述预测音频频谱之间的差异，以及所述样本融合频谱与所述预测融合频谱之间的差异，优化所述预设语音网络。

3.根据权利要求2所述的方法，其特征在于，所述音素编码子网络用于对所述样本音素序列进行编码，得到所述样本音素表示，所述第一解码子网络用于对所述样本音素表示进行解码，得到所述预测融合频谱，所述第二解码子网络用于对所述样本融合频谱进行解码，得到所述预测音频频谱。

4.根据权利要求2所述的方法，其特征在于，所述语音合成模型是对所述预设语音网络进行若干轮训练得到的；所述对所述样本融合频谱进行解码，得到预测音频频谱，包括：

基于当前训练轮次，确定所述样本融合频谱的选择概率；其中，所述当前训练轮次与所述选择概率负相关；

基于所述选择概率，得到所述当前训练轮次的样本解码频谱；其中，所述样本解码频谱是在所述样本融合频谱、所述预测融合频谱中选择的；

对所述样本解码频谱进行解码，得到所述预测音频频谱。

5.根据权利要求4所述的方法，其特征在于，在所述样本解码频谱为所述预测融合频谱的情况下；在所述对所述样本解码频谱进行解码，得到所述预测音频频谱之前，所述方法还包括：

对所述预测融合频谱进行降噪优化，得到预测优化频谱；

所述对所述样本解码频谱进行解码，得到所述预测音频频谱，包括：

对所述预测优化频谱进行解码，得到所述预测音频频谱。

6.根据权利要求5所述的方法，其特征在于，所述预设语音网络还包括频谱优化子网络，所述频谱优化子网络用于对所述预测融合频谱进行降噪优化；

和/或，所述预设语音网络的训练步骤还包括：

基于所述样本音频频谱与所述预测音频频谱之间的差异，得到第一损失值，并基于所述样本融合频谱与所述预测融合频谱之间的差异，得到第二损失值，以及基于所述预测优化频谱与所述样本融合频谱之间的差异，得到第三损失值；

基于所述第一损失值、所述第二损失值和所述第三损失值，优化所述预设语音网络。

7.根据权利要求1所述的方法，其特征在于，所述第一音频包含多个语种；所述发言对象的第一音频的获取步骤包括：

获取若干参考对象的第二音频；其中，所述第二音频包含一个语种；

将所述第二音频的音色转换为所述发言对象的音色，得到第三音频；

基于所述第三音频，按照预设策略获取所述发言对象的候选音频；

将所述发言对象的候选音频进行拼接，得到所述第一音频。

8.根据权利要求7所述的方法，其特征在于，所述基于所述第三音频，按照预设策略获取所述发言对象的候选音频，包括：

获取音频数据集合；其中，所述音频数据集合包括所述第三音频和所述发言对象的第四音频，且所述第四音频包含一个语种；

按照所述预设策略，在所述音频数据集合内选择得到所述候选音频。

9.根据权利要求7或8所述的方法，其特征在于，所述预设策略包括以下至少一者：相邻所述候选音频所包含的语种不同，所述发言对象的候选音频的总时长与预设时长之间的差值在预设范围之内。

10.根据权利要求1所述的方法，其特征在于，所述样本融合频谱的获取步骤包括：

识别所述若干样本音素的持续时长；

对于每一所述样本音素，融合所述持续时长内的所述样本音频帧，得到所述样本音素的样本融合帧；

基于所述若干样本音素的样本融合帧，得到所述样本融合频谱。

11.根据权利要求10所述的方法，其特征在于，所述持续时长是利用隐马尔可夫模型识别得到的；

和/或，所述融合所述持续时长内的所述样本音频帧，得到所述样本音素的样本融合帧，包括：

对所述持续时长内的所述样本音频帧取均值，得到所述样本融合帧。

12.一种语音合成装置，其特征在于，包括：

音素获取模块，用于获取待合成文本的待合成音素；

合成处理模块，用于利用语音合成模型对所述待合成音素进行合成处理，得到合成音频；

13.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现权利要求1至11任一项所述的语音合成方法。

14.一种计算机可读存储介质，其特征在于，存储有能够被处理器运行的程序指令，所述程序指令用于实现权利要求1至11任一项所述的语音合成方法。