CN117373431A

CN117373431A - 音频合成方法、训练方法、装置、设备及存储介质

Info

Publication number: CN117373431A
Application number: CN202311307828.7A
Authority: CN
Inventors: 顾宇; 翁超
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-10-10
Filing date: 2023-10-10
Publication date: 2024-01-09

Abstract

本申请提供了一种音频合成方法、音频合成模型的训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品；涉及人工智能技术；方法包括：基于目标文本的语言信息以及待合成的目标风格信息，调用音频合成模型，其中，音频合成模型包括先验编码器以及波形解码器；通过先验编码器，对语言信息以及目标风格信息进行音频帧生成处理，得到目标文本对应的音频帧的音频特征；通过先验编码器，对音频特征进行归一化流处理，得到目标文本的隐藏变量；通过波形解码器，对目标文本的隐藏变量进行波形解码处理，得到符合目标风格信息描述的音频风格且与目标文本对应的波形。通过本申请，能够提高音频合成的质量以及表达性。

Description

音频合成方法、训练方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术，尤其涉及一种音频合成方法、音频合成模型的训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

背景技术

人工智能(AI，Artificial Intelligence)是计算机科学的一个综合技术，通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，例如自然语言处理技术以及机器学习/深度学习等几大方向，随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

音频合成是人工智能领域的重要应用之一，能够通过机械的、电子的方法产生人造音频。

相关技术中对于音频的合成方式比较粗糙，通常是先通过声学模型预测出文本数据的梅尔频谱图，然后通过声码器结合梅尔频谱图生成音频波形，以对文本数据对应的梅尔频谱图进行合成，以得到文本数据对应的音频数据，这种合成方式无法实现音频的精准合成，容易导致合成音频中的伪像，从而影响用户体验正常的音频合成。

发明内容

本申请实施例提供一种音频合成方法、音频合成模型的训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品，能够提高音频合成的质量以及表达性。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种音频合成方法，包括：

基于目标文本的语言信息以及待合成的目标风格信息，调用音频合成模型，其中，所述音频合成模型包括先验编码器以及波形解码器；

通过所述先验编码器，对所述语言信息以及所述目标风格信息进行音频帧生成处理，得到所述目标文本对应的音频帧的音频特征；

通过所述先验编码器，对所述音频特征进行归一化流处理，得到所述目标文本的隐藏变量；

通过所述波形解码器，对所述目标文本的隐藏变量进行波形解码处理，得到符合所述目标风格信息描述的音频风格且与所述目标文本对应的合成波形。

本申请实施例提供一种音频合成模型的训练方法，音频合成模型包括先验编码器、后验编码器、波形解码器、鉴别器；所述方法包括：

获取文本样本的样本语言信息、合成的样本风格信息、所述文本样本的波形标注以及所述波形标注对应的频谱图；

通过所述后验编码器，对所述波形标注对应的频谱图以及所述样本风格信息进行编码处理，得到所述频谱图的隐藏变量；

通过所述波形解码器，对所述频谱图的隐藏变量进行波形解码处理，得到符合所述样本风格信息描述的音频风格且与所述文本样本对应的合成波形；

通过所述鉴别器，对所述合成波形进行鉴别处理，得到鉴别结果；

通过所述先验编码器，对所述样本语言信息以及所述样本风格信息进行编码处理，得到所述文本样本的隐藏变量；

基于所述文本样本的隐藏变量、所述频谱图的隐藏变量以及所述鉴别结果，对所述音频合成模型进行训练，得到训练好的音频合成模型。

本申请实施例提供一种音频合成装置，包括：

调用模块，用于基于目标文本的语言信息以及待合成的目标风格信息，调用音频合成模型，其中，所述音频合成模型包括先验编码器以及波形解码器；

生成模块，用于通过所述先验编码器，对所述语言信息以及所述目标风格信息进行音频帧生成处理，得到所述目标文本对应的音频帧的音频特征；

归一化模块，用于通过所述先验编码器，对所述音频特征进行归一化流处理，得到所述目标文本的隐藏变量；

波形解码模块，用于通过所述波形解码器，对所述目标文本的隐藏变量进行波形解码处理，得到符合所述目标风格信息描述的音频风格且与所述目标文本对应的合成波形。

本申请实施例提供一种音频合成模型的训练装置，音频合成模型包括先验编码器、后验编码器、波形解码器、鉴别器；所述装置包括：

获取模块，用于获取文本样本的样本语言信息、合成的样本风格信息、所述文本样本的波形标注以及所述波形标注对应的频谱图；

后验模块，用于通过所述后验编码器，对所述波形标注对应的频谱图以及所述样本风格信息进行编码处理，得到所述频谱图的隐藏变量；

解码模块，用于通过所述波形解码器，对所述频谱图的隐藏变量进行波形解码处理，得到符合所述样本风格信息描述的音频风格且与所述文本样本对应的合成波形；

鉴别模块，用于通过所述鉴别器，对所述合成波形以及所述波形标注进行鉴别处理，得到鉴别结果；

先验模块，用于通过所述先验编码器，对所述样本语言信息以及所述样本风格信息进行编码处理，得到所述文本样本的隐藏变量；

训练模块，用于基于所述文本样本的隐藏变量、所述频谱图的隐藏变量以及所述鉴别结果，对所述音频合成模型进行训练，得到训练好的音频合成模型。

本申请实施例提供一种电子设备，所述电子设备包括：

存储器，用于存储计算机程序或计算机可执行指令；

处理器，用于执行所述存储器中存储的计算机程序或计算机可执行指令时，实现本申请实施例提供的音频合成方法，或音频合成模型的训练方法。

本申请实施例提供一种计算机可读存储介质，存储有计算机程序或计算机可执行指令，所述计算机程序或计算机可执行指令被处理器执行时实现本申请实施例提供的音频合成方法，或音频合成模型的训练方法。

本申请实施例提供一种计算机程序产品，包括计算机程序或计算机可执行指令，所述计算机程序或计算机可执行指令被处理器执行时实现本申请实施例提供的音频合成方法，或音频合成模型的训练方法。

本申请实施例具有以下有益效果：

通过先验编码生成目标文本对应的音频帧的音频特征，并对音频特征进行归一化流处理，得到目标文本的隐藏变量，然后通过波形解码器，对目标文本的隐藏变量进行波形解码，直接生成合成波形，相较于相关技术，无需通过声码器结合梅尔频谱图这一中间产物来生成合成波形，避免伪像的产生，从而基于准确的隐藏变量实现精准地音频生成，提高音频合成的质量以及表达性。

附图说明

图1是本申请实施例提供的音频合成***的应用场景示意图；

图2A-图2B是本申请实施例提供的电子设备的结构示意图；

图3A-图3F是本申请实施例提供的音频合成方法的流程示意图；

图4A-图4B是本申请实施例提供的音频合成模型的训练方法的流程示意图；

图5是本申请实施例提供的音频合成模型的示意图；

图6是本申请实施例提供的语言编码器的示意图；

图7是本申请实施例提供的帧级编码器的示意图；

图8是本申请实施例提供的后验编码器的示意图；

图9是本申请实施例提供的不同DurIAN模型的音高轮廓示例；

图10是本申请实施例提供的不同TTS模型的光谱示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，所涉及的术语“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)响应于：用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

2)卷积神经网络(CNN，Convolutional Neural Networks)：一类包含卷积计算且具有深度结构的前馈神经网络(FNN，Feedforward Neural Networks)，是深度学***移不变分类(shift-invariantclassification)。

3)循环神经网络(RNN，Recurrent Neural Network)：一类以序列(sequence)数据为输入，在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(Recursive Neural Network)。循环神经网络具有记忆性、参数共享并且图灵完备(Turing Completeness)，因此在对序列的非线性特征进行学习时具有一定优势。

4)音素：音频中最小的基本单位，音素是人类能区别一个单词和另一个单词的基础。音素构成音节，音节又构成不同的词和短语。

5)隐含状态：解码器(例如，隐马尔可夫模型)输出的用于表征频谱数据的序列，对隐含状态进行平滑处理，可以得到对应的频谱数据。由于音频信号在长时间段内(例如，一秒以上)是非平稳信号，而在短时间内(例如，50毫秒)则可近似为平稳信号。平稳信号的特点在于信号的频谱分布是稳定的，在不同时间段内的频谱分布相似。隐马尔可夫模型将一小段相似频谱对应的连续信号归为一个隐含状态，隐含状态是马尔可夫模型中实际所隐含的状态，无法通过直接观测而得到的用于表征频谱数据的序列。隐马尔可夫模型的训练过程是最大化似然度，每一个隐含状态产生的数据用一个概率分布表示，只有当相似的连续信号被归为同一个状态，似然度才能尽可能的大。

6)音色：不同音频表现在波形方面总是有与众不同的特性，不同的物体振动都有不同的特点。不同的发声体由于其材料、结构不同，则发出音频的音色也不同。例如钢琴、小提琴和人发出的声音不一样，每一个人发出的音频也不一样，即音色可以理解为音频的特征。

7)目标对象：真实世界中的真实对象或者虚拟场景中的虚拟对象，例如真实用户、虚拟人物、虚拟动物、动漫人物等。

8)从文本到语音(TTS，Text To Speech)技术：同时运用语言学和心理学的杰出之作，在内置芯片的支持之下，通过神经网络的设计，把文字智能地转化为自然语音流。TTS技术对文本文件进行实时转换，转换时间之短可以秒计算。在其特有智能语音控制器作用下，文本输出的语音音律流畅，使得听者在听取信息时感觉自然，毫无机器语音输出的冷漠与生涩感。

9)损失值：用于表示模型的输出结果与实际结果(或称标注结果)之间的差异。模型的训练主要涉及前向传播(Forward Propagation)及反向传播(Back Propagation)两个过程，以包括输入层、隐藏层及输出层的神经网络模型为例，前向传播处理是指依次通过输入层、隐藏层及输出层进行处理，最终得到输出结果；反向传播处理是指根据计算出的损失值依次传播至输出层、隐藏层及输入层，从而对各个层中的权重参数进行更新。

本申请实施例提供一种音频合成方法、音频合成模型的训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品，能够提高音频合成的准确性。

本申请实施例提供的音频合成方法、音频合成模型的训练方法可采用人工智能(Artificial Intelligence，AI)技术实现，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互***、机电一体化等。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例所提供的音频合成方法，可以由终端独自实现；也可以由终端和服务器协同实现，例如终端独自承担下文所述的音频合成方法或音频合成模型的训练方法，或者，终端向服务器发送针对音频的生成请求(包括目标文本的语言信息以及待合成的目标风格信息)，服务器根据接收的针对音频的合成请求执行音频合成方法，响应于针对音频的生成请求，基于目标文本的语言信息以及待合成的目标风格信息，生成合成波形，从而实现音频的智能化地精准生成。

下面说明本申请实施例提供的电子设备的示例性应用，本申请实施例提供的电子设备可以实施为笔记本电脑、平板电脑、台式计算机、机顶盒、移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备，车载设备)、智能手机、智能音箱、智能手表、智能电视、车载终端等各种类型的用户终端。下面，将说明电子设备实施为终端时示例性应用。

以服务器为例，例如可以是部署在云端的服务器集群，向用户开放人工智能云服务(AI as a Service，AIaaS)，AIaaS平台会把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务，这种服务模式类似于一个AI主题商城，所有的用户都可以通过应用程序编程接口的方式来接入使用AIaaS平台提供的一种或者多种人工智能服务。

例如，其中的一种人工智能云服务可以为音频合成服务，即云端的服务器封装有本申请实施例提供的音频合成的程序。用户通过终端(运行有客户端，例如音响客户端、车载客户端等)调用云服务中的音频合成服务，以使部署在云端的服务器调用封装的音频合成的程序，基于目标文本的语言信息以及待合成的目标风格信息，生成合成波形，从而实现音频的智能化地精准生成。

作为一个应用示例，对于车载客户端，当用户在开车时，不方便通过文本的形式了解信息，但是可以通过读取音频的方式了解信息，避免遗漏重要的信息。例如，用户在开车时，领导向用户发送一段重要会议的文本，需要用户及时读取并处理该文本，则车载客户端接收到该文本后，需要将该文本转化为音频，以向该用户播放该音频，基于领导的风格信息以及目标文本进行合成处理，得到符合领导的风格且与目标文本对应的合成波形，以向用户播放生成的音频，使得用户可以及时读取到领导的音频。

参见图1，图1是本申请实施例提供的音频合成***10的应用场景示意图，终端200通过网络300连接服务器100，网络300可以是广域网或者局域网，又或者是二者的组合。

终端200(运行有客户端，例如音响客户端、车载客户端等)可以被用来获取针对音频的合成请求，例如，用户通过终端200输入目标文本的语言信息以及待合成的目标风格信息，则终端200自动获取目标文本的语言信息以及待合成的目标风格信息，并自动生成针对音频的生成请求。

在一些实施例中，终端中运行的客户端中可以植入有音频合成插件，用以在客户端本地实现音频合成方法以及音频合成模型的训练方法。例如，终端200获取针对音频的合成请求(包括目标文本的语言信息以及待合成的目标风格信息)后，调用音频合成模型的训练插件，以实现音频合成模型的训练方法，首先通过后验编码器，对波形标注对应的频谱图以及样本风格信息进行编码处理，得到频谱图的隐藏变量；通过波形解码器，对频谱图的隐藏变量进行波形解码处理，得到符合样本风格信息描述的音频风格且与文本样本对应的合成波形；通过鉴别器，对合成波形进行鉴别处理，得到鉴别结果；通过先验编码器，对样本语言信息以及样本风格信息进行编码处理，得到文本样本的隐藏变量；基于文本样本的隐藏变量、频谱图的隐藏变量以及鉴别结果，对音频合成模型进行训练，得到训练好的音频合成模型。然后，终端200基于针对音频的合成请求调用音频合成插件，以基于目标文本的语言信息以及待合成的目标风格信息，调用训练好的音频合成模型，其中，音频合成模型包括先验编码器以及波形解码器；通过先验编码器，对语言信息以及目标风格信息进行音频帧生成处理，得到目标文本对应的音频帧的音频特征；通过先验编码器，对音频特征进行归一化流处理，得到目标文本的隐藏变量；通过波形解码器，对目标文本的隐藏变量进行波形解码处理，得到符合目标风格信息描述的音频风格且与目标文本对应的合成波形，以响应针对音频的合成请求，从而实现音频的智能化地精准生成。

在一些实施例中，终端200获取针对音频的合成请求后，调用服务器100的音频合成接口(可以提供为云服务的形式，即音频生成服务)，服务器100调用音频合成模型的训练插件，以实现音频合成模型的训练方法，首先通过后验编码器，对波形标注对应的频谱图以及样本风格信息进行编码处理，得到频谱图的隐藏变量；通过波形解码器，对频谱图的隐藏变量进行波形解码处理，得到符合样本风格信息描述的音频风格且与文本样本对应的合成波形；通过鉴别器，对合成波形进行鉴别处理，得到鉴别结果；通过先验编码器，对样本语言信息以及样本风格信息进行编码处理，得到文本样本的隐藏变量；基于文本样本的隐藏变量、频谱图的隐藏变量以及鉴别结果，对音频合成模型进行训练，得到训练好的音频合成模型。然后，服务器100调用音频合成插件，以基于目标文本的语言信息以及待合成的目标风格信息，调用训练好的音频合成模型，其中，音频合成模型包括先验编码器以及波形解码器；通过先验编码器，对语言信息以及目标风格信息进行音频帧生成处理，得到目标文本对应的音频帧的音频特征；通过先验编码器，对音频特征进行归一化流处理，得到目标文本的隐藏变量；通过波形解码器，对目标文本的隐藏变量进行波形解码处理，得到符合目标风格信息描述的音频风格且与目标文本对应的合成波形，并将合成波形发送至终端200，以响应针对音频的合成请求，从而实现音频的智能化地精准生成。

在一些实施例中，终端或服务器可以通过运行各种计算机可执行指令或计算机程序来实现本申请实施例提供的音频合成方法或音频合成模型的训练方法。举例来说，计算机可执行指令可以是微程序级的命令、机器指令或软件指令。计算机程序可以是操作***中的原生程序或软件模块；可以是本地(Native)应用程序(APP，Application)，即需要在操作***中安装才能运行的程序，如音频类的应用程序或者即时通信应用程序；也可以是嵌入至任意APP中的小程序，即只需要下载到浏览器环境中就可以运行的程序。总而言之，上述的计算机可执行指令可以是任意形式的指令，上述计算机程序可以是任意形式的应用程序、模块或插件。

在一些实施例中，服务器100可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器，其中，云服务可以是音频合成服务，供终端进行调用。

在一些实施例中，多个服务器可组成为一区块链，而服务器100为区块链上的节点，区块链中的每个节点之间可以存在信息连接，节点之间可以通过上述信息连接进行信息传输。其中，本申请实施例提供的音频合成方法或音频合成模型的训练方法所相关的数据(例如音频合成的逻辑、合成波形)可保存于区块链上。

下面说明本申请实施例提供的电子设备的结构，参见图2A，图2A是本申请实施例提供的电子设备500的结构示意图。以电子设备500是终端为例说明，图2A所示的用于音频合成的电子设备500包括：至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。电子设备500中的各个组件通过总线***540耦合在一起。可理解，总线***540用于实现这些组件之间的连接通信。总线***540除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2A中将各种总线都标为总线***540。

处理器510可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

存储器550包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。

在一些实施例中，存储器550能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作***551，包括用于处理各种基本***服务和执行硬件相关任务的***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块552，用于经由一个或多个(有线或无线)网络接口520到达其他电子设备，示例性的网络接口520包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

在一些实施例中，本申请实施例提供的音频合成装置可以采用软件方式实现，本申请实施例提供的音频合成装置可以提供为各种软件实施例，包括应用程序、软件、软件模块、脚本或代码在内的各种形式。

图2A示出了存储在存储器550中的音频合成装置555，其可以是程序和插件等形式的软件，并包括一系列的模块，包括调用模块5551、生成模块5552、归一化模块5553以及波形解码模块5554，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分，将在下文中说明各个模块的功能。

在一些实施例中，本申请实施例提供的音频合成模型的训练装置可以采用软件方式实现，图2B示出了存储在存储器550中的音频合成模型的训练装置556，其可以是程序和插件等形式的软件，包括以下软件模块：获取模块5561、后验模块5562、解码模块5563、鉴别模块5564、先验模块5565以及训练模块5566，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。值得说明的是，图2B中除了示出的音频合成模型的训练装置556外，其余结构均可与图2A相同。

需要说明的是，音频合成装置555与音频合成模型的训练装置556可以集成在一个电子设备上，即电子设备可以同时实现模型训练以及模型应用；音频合成装置555与音频合成模型的训练装置556可以分别集成在两个电子设备上，即两个电子设备分别实现模型训练以及模型应用。

下面介绍本申请实施例提供的音频合成方法。如前所述，本申请实施例提供的音频合成方法可以由各种类型的电子设备实施，例如终端、服务器，又或者是二者的结合。因此下文中不再重复说明各个步骤的执行主体。参见图3A，图3A是本申请实施例提供的音频合成方法的流程示意图，结合图3A示出的步骤进行说明。

在步骤101中，基于目标文本的语言信息以及待合成的目标风格信息，调用音频合成模型，其中，音频合成模型包括先验编码器以及波形解码器。

作为获取目标文本的语言信息以及待合成的目标风格信息的示例，用户通过终端输入目标文本的语言信息以及待合成的目标风格信息，则终端自动生成针对音频的生成请求，并将针对音频的生成请求发送至服务器，服务器解析针对音频的生成请求，得到目标文本的语言信息以及待合成的目标风格信息，并基于目标文本的语言信息以及待合成的目标风格信息，调用音频合成模型，通过音频合成模型执行音频合成方法，以对目标文本的语言信息以及待合成的目标风格信息进行音频合成。

其中，目标文本的语言信息用于表达目标文本的内容，也就是合成音频的内容。语言信息可以为目标文本的语言文本，也可以是将语言文本中的各个词语映射为各个词向量之后所得到的语言向量(又称语言嵌入)。语言向量是语言文本的向量形式，和语言文本表达相同的内容。

其中，目标风格信息用于描述待合成的音频风格。目标风格信息可以为待合成的风格文本，也可以是将风格文本中的各个词语映射为各个词向量之后所得到的风格向量(又称风格嵌入)。风格向量是风格文本的向量形式，和风格文本表达相同的内容。目标风格信息用于描述将目标文本合成为音频后，合成音频的音频风格，该音频风格可以是快乐、悲伤、愤怒、激动、恼人、惊奇、怀疑、狡黠、庄严、妖娆、嘲讽等风格。

在步骤102中，通过先验编码器，对语言信息以及目标风格信息进行音频帧生成处理，得到目标文本对应的音频帧的音频特征。

其中，音频特征用于表征与生成的音频帧的音频相关的特征。

参见图3B，图3B是本申请实施例提供的音频合成方法的流程示意图，图3B示出图3A中的步骤102可以通过步骤1021-步骤1023实现。

在步骤1021中，通过先验编码器执行以下处理：对语言信息进行音素级编码处理，得到语言信息中的音素的文本特征。

这里，目标文本的语言信息包括多个音素，音素为根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。例如，ma包括m和a两个发音动作，也就是ma包括两个音素。

当语言信息为语言文本时，则可以将语言文本中的各个词语映射为各个词向量，得到语言向量，然后，对语言向量进行音素级编码处理，得到语言信息中的音素的文本特征(又称音素序列特征)。当语言信息为语言向量，则可以对语言向量进行音素级编码处理，得到语言信息中的音素的文本特征(又称音素序列特征)。其中，音素的文本特征用于表征音素的语义。

参见图3C，图3C是本申请实施例提供的音频合成方法的流程示意图，先验编码器包括语言编码器，图3C示出图3B中的步骤1021可以通过步骤10211-步骤10212实现。

在步骤10211中，通过语言编码器，对语言信息进行声学编码处理，得到目标文本的语言特征，其中，语言特征包括多个音素的文本特征和多个韵律的文本特征。

这里，语言文本包括多个音素和多个韵律，韵律用于描述音素的发声方式。韵律包括音调、音量、节奏等数据。音调用于表征音频高低变化的程度和频率，例如，音调包括升调、降调、平调等。音量用于表征音频发声的强度。节奏用于表征音频的停顿间隔，例如，节奏包括长停顿、短停顿、不停顿等。由于语言文本包括多个音素和多个韵律，因此，在基于语言文本得到语言向量之后，可以通过图5所示的先验编码器中的语言编码器对语言向量进行声学编码，得到包括各个音素的文本特征和各个韵律的文本特征的语言特征。其中，韵律的文本特征用于表征韵律的语义。

其中，本申请实施例并不局限语言编码器的结构、参数、大小等，示例性地，语言编码器可以为自编码器、变分自编码器等。例如，语言编码器可以包括卷积层、池化层、注意力层、自注意力层、多头自注意力层、批量归一化层、层归一化层等中的至少一项。例如，语言编码器包括嵌入层和卷积层，将语言文本输入语言编码器之后，执行以下声学编码方法：通过语言编码器的嵌入层将语言文本中的各个音素和各个韵律映射为对应的向量，得到语言向量，并通过卷积层对语言向量进行卷积，得到目标文本的语言特征。

在一些实施例中，语言编码器包括一个语言编码块，可以通过一个语言编码块对语言信息进行声学编码处理，以提取出目标文本的语言特征。因此，步骤10211可以通过以下方式实现：通过一个语言编码块，对语言信息进行声学编码处理，得到目标文本的语言特征。

在一些实施例中，如图6所示，语言编码器包括多个级联的语言编码块，可以通过级联的语言编码块对语言信息进行声学编码处理，从而通过渐进式的结构，精准地提取出目标文本的语言特征。因此，步骤10211可以通过以下方式实现：通过多个级联的语言编码块中的第一个语言编码块，对语言信息进行声学编码处理；将第一个语言编码块的编码结果输出到后续级联的语言编码块，通过后续级联的语言编码块继续进行声学编码处理和编码结果输出，直至输出到最后一个语言编码块；将最后一个语言编码块输出的编码结果作为目标文本的语言特征。

需要说明的是，每一个语言编码块的处理过程类似，仅处理对象不同，第一个语言编码块的处理对象为语言信息，其他语言编码块的处理对象为其他语言编码块的前一个语言编码块的输出，其中，其他语言编码块为级联的语言编码块中除第一个语言编码块以外的语言编码块。

作为示例，如图6所示，每个语言编码块包括注意力层、激活网络层、丢弃添加层以及层归一化层。下面以第一个语言编码块为例进行说明，参见图3D，图3D是本申请实施例提供的音频合成方法的流程示意图，图3D示出“通过多个级联的语言编码块中的第一个语言编码块，对语言信息进行声学编码处理”，可以通过以下步骤102111-102114实现。

在步骤102111中，通过第一个语言编码块包括的注意力层，对语言信息进行注意力处理，得到第一个语言编码块的第一注意力特征。

本申请实施例中，语言编码器包括基于注意力机制的网络层，基于注意力机制的网络层可以为自注意力层、多头自注意力层等注意力层。当语言信息为语言向量时，语言向量包括各个音素的向量和各个韵律的向量。第一注意力特征包括音素的注意力特征以及韵律的注意力特征。

需要说明的是，由于音素和韵律的处理方式相类似，为了便于描述，将一个音素或者一个韵律称为一个声学元素，也就是说，语言向量包括多个声学元素的向量。对于任一个声学元素，可以基于注意力机制对该声学元素的向量进行注意力处理，得到该声学元素的注意力特征。

在步骤102112中，通过第一个语言编码块包括的激活网络层，对第一个语言编码块的第一注意力特征进行映射处理，得到第一个语言编码块的映射特征。

这里，第一注意力特征包括多个声学元素的注意力特征，声学元素为音素或音律。通过第一个语言编码块包括的激活网络层，执行以下映射处理：通过激活函数以及线性函数，对任一声学元素的相关特征以及任一声学元素的注意力特征进行映射，得到任一声学元素的映射特征，将所有声学元素的映射特征作为第一个语言编码块的映射特征。其中，当任一声学元素为首个声学元素时，任一声学元素的相关特征为设定特征，当任一声学元素为非首个声学元素时，任一声学元素的相关特征是基于设定特征和位于任一声学元素之前的各个声学元素的注意力特征得到的。

其中，如果任一个声学元素是多个声学元素中的第一个声学元素，则可以获取配置的设定特征，并将设定特征作为第一个声学元素的相关特征，例如，配置的设定特征为零矩阵，还可以是根据统计分布函数进行随机采样所得到的特征，其中，统计分布函数包括但不限于正态分布函数、二项分布函数、伯努利分布函数等。如果任一个声学元素是多个声学元素中的非首个声学元素，则可以基于设定特征和位于任一声学元素之前的各个声学元素的注意力特征，确定任一声学元素的相关特征，例如如果任一个声学元素是多个声学元素中的第三个声学元素，则可以基于第二个声学元素的相关特征、第一个声学元素的第一特征和第二个声学元素的第一特征，确定第三个声学元素的相关特征。

本申请实施例中，语言编码器包括激活网络层，可以通过激活网络层采用激活函数以及线性函数，对任一个声学元素的相关特征和该声学元素的注意力特征进行映射处理，得到该声学元素的映射特征。其中，可以按照至少一种激活函数进行激活，本申请实施例不限定激活函数的形式，例如，激活函数包括但不限于sigmoid激活函数、Swish激活函数、修正线性单元(Rectified Linear Unit，ReLU)激活函数等。当然，按照至少一种线性函数进行线性变换。

首先，激活网络层对各个声学元素的注意力特征进行两次线性变换，如公式(1)所示。

其中，X表示各个声学元素的注意力特征，第t个声学元素的注意力特征为X_t。W₁表示第一次线性变换时的权重项。W₂表示第二次线性变换时的权重项。W₁和W₂是训练过程中需要调整的模型参数，即可学习参数。包括各个声学元素在第一次线性变换后的特征。/>包括各个声学元素在第二次线性变换后的特征。l表示声学元素的数量。

然后，激活网络层基于任一个声学元素的相关特征和任一个声学元素在第一次线性变换后的特征进行第一激活，确定下一个声学元素的相关特征，如下公式(2)所示。

c[i]＝Swish(c[i-1]-x₁[i])+x₁[i] (2)

其中，c[i]表示激活网络层基于第i个声学元素的相关特征c[i-1]和第i个声学元素在第一次线性变换后的特征x₁[i]进行第一激活后得到的特征，该特征可以作为第i+1个声学元素的相关特征。Swish()表示逐元素进行Swish激活，在公式(2)中，第一激活为Swish激活，可以理解的是，在实际应用时，第一激活还可以是其他类型的激活，例如，第一激活为Softmax激活。Swish(x)＝sigmoid(α·x+β)·x，α和β是Swish激活函数的两个参数，x为自变量。Swish(c[i-1]-x₁[i])相当于在c[i-1]和x₁[i]之间选择较大值进行池化操作，使得当x₁[i]＞＞c[i-1]时，c[i]＝x₁[i]，当x₁[i]＜＜c[i-1]时，c[i]＝c[i-1]。按照公式(2)可以确定出各个声学元素的相关特征

接着，激活网络层基于任一个声学元素在第二次线性变换后的特征进行第二激活，对第二激活后得到的特征和第一激活后得到的特征进行线性变换，得到任一个声学元素的映射特征，如公式(3)所示。

H＝W₃((C+b_c)⊙σ(X₂+b_σ))+b₃ (3)

其中，H表示各个声学元素的映射特征，第t个声学元素的映射特征为ht。W₃表示线性变换时的权重项。C包括各个声学元素在第一激活后得到的特征，相当于b_c表示C对应的偏置项。⊙表示逐元素相乘。σ()表示sigmoid门控激活函数，在公式(3)中，第二激活为sigmoid激活，可以理解的是，在实际应用时，第二激活也可以是其他类型的激活，例如，第二激活为Softmax激活。X₂包括各个声学元素在第二激活后得到的特征，相当于b_σ表示X₂对应的偏置项。b₃表示线性变换时的偏置项。

例如，激活网络层中的第一激活为Swish激活、第二激活为sigmoid激活时，该激活网络层也称为Swish循环神经网络(Recurrent Neural Network，RNN)。SwishRNN包括一个乘法门控循环单元，使用两次矩阵乘法操作和一个简单的顺序池化操作。由于激活网络层的结构简单，主要包括激活和线性变换，因此，通过激活网络层进行特征映射，可以加快编码速度，提高音频特征的生成效率。

在步骤102113中，通过第一个语言编码块包括的丢弃添加层，对第一个语言编码块的映射特征以及第一个语言编码块的第一注意力特征进行丢弃添加处理，得到第一个语言编码块的丢弃添加特征。

这里，通过第一个语言编码块包括的丢弃添加层，可以将映射特征和注意力特征进行拼接，得到拼接特征，然后对拼接特征丢弃添加处理(Dropout&Add)，得到第一个语言编码块的丢弃添加特征。

在步骤102114中，通过第一个语言编码块包括的层归一化层，对第一个语言编码块的丢弃添加特征进行归一化处理，得到第一个语言编码块的编码结果。

这里，通过第一个语言编码块包括的层归一化层(LayerNorm)，采用LayerNorm函数对第一个语言编码块的丢弃添加特征进行归一化处理，得到第一个语言编码块的编码结果。当然，本申请实施例并不局限于LayerNorm函数，还可以是其他归一化函数。

需要说明的是，每一个语言编码块的处理过程类似，仅处理对象不同，第一个语言编码块的处理对象为语言信息，其他语言编码块的处理对象为其他语言编码块的前一个语言编码块的输出，其中，其他语言编码块为级联的语言编码块中除第一个语言编码块以外的语言编码块。以第一个语言编码块的后续级联的语言编码块为例进行说明，“通过后续级联的语言编码块继续进行声学编码处理和编码结果输出”，可以通过以下方式实现：通过第l个语言编码块包括的注意力层，对第l-1个语言编码块输出的编码结果进行注意力处理，得到第l个语言编码块的第一注意力特征；通过第l个语言编码块包括的激活网络层，对第l个语言编码块的第一注意力特征进行映射处理，得到第l个语言编码块的映射特征；通过第l个语言编码块包括的丢弃添加层，对第l个语言编码块的映射特征以及第l个语言编码块的第一注意力特征进行丢弃添加处理，得到第l个语言编码块的丢弃添加特征；通过第l个语言编码块包括的层归一化层，对第l个语言编码块的丢弃添加特征进行归一化处理，得到第l个语言编码块的编码结果，并输出第l个语言编码块的编码结果，其中，l为依次递增的正整数，1＜l＜L，L为语言编码块的数量。其中，第l个语言编码块的处理过程与第一个语言编码块的处理过程类似，仅处理对象不同。

综上，语言编码器是一个音素级别的模型，该模型的输入为基于语言文本转化得到的语言向量，语言文本包括多个音素和不同音素之间的韵律。语言编码器包括语言编码块，语言编码块中的激活网络层为SwishRNN。由于SwishRNN是一个循环架构，能对语言序列中各音素、各韵律的时间顺序进行建模，提高了语言特征的稳定性和表征能力，此外，将注意力处理和SwishRNN的循环处理相结合，能进一步提高语言特征的稳定性和表征能力。

在步骤10212中，从语言特征中提取出多个音素的文本特征。

这里，由于语言特征包括多个音素的文本特征和多个韵律的文本特征，在对语言信息进行音素编码的过程中，各音素与各韵律之间的相对位置关系保持不变。因此，当需要音素的文本特征时，可以基于各音素在语言文本中的位置，从语言特征中提取各音素的文本特征。

在一些实施例中，步骤10212可以通过对语言特征包括的各个韵律的文本特征进行隐藏，以提取出音素的文本特征。例如，基于各韵律在语言文本中的位置，对语言特征包括的各韵律的文本特征进行隐藏。图5所示，先验编码器还包括特征隐藏网络(又称跳过编码器(Skip-Encoder))，通过特征隐藏网络对语言特征包括的各个韵律的文本特征进行隐藏，实现了丢弃韵律的文本特征，保留音素的文本特征，得到包括各个音素的文本特征的音素序列特征。本申请实施例不对特征隐藏网络的结构、参数、大小等做限定，例如特征隐藏网络包括丢弃层，通过丢弃层隐藏韵律的文本特征。

承接步骤1021，在步骤1022中，基于音素的文本特征以及目标风格信息，确定音素的声学特征。

这里，先验编码器还包括变量预测器(Variance Predictor)。如果待合成的目标风格信息为风格文本，则可以将风格文本转化为风格向量。将多个音素的文本特征和风格向量输入变量预测器，通过变量预测器确定多个音素的声学特征。其中，本申请实施例不对变量预测器的结构、参数、大小等做限定。

其中，音素的声学特征用于表征基于目标风格信息描述的音频风格阅读音素时声音的物理特性，该物理特性可以反应声音的音质、音色等。本申请实施例不对音素的声学特征进行限定，例如音素的声学特征包括音素的发声时长、音素的基频和基频范围中的至少一项。音素的发声时长可以表征阅读音素时该音素所占音频帧的数量，基于此，音素的发声时长也可以称为音素的发声帧数。音素的基频用于表征声带发出音素期间产生的基本频率，该基本频率可以是最低频率。基频范围用于表征基频的波动幅度，通过预测基频范围，扩大了基频的选择范围，提高韵律建模能力，有利于生成表现力高的音频。

需要说明的是，变量预测器的输入除包括多个音素的文本特征和目标风格向量之外，还可以包括其他信息。例如，变量预测器的输入还可以包括目标对象的标识信息。目标对象的标识信息可以为目标对象的标识文本，也可以是将目标对象的标识文本中的各个词语映射为各个词向量之后得到的目标对象的标识向量(又称目标对象的标识嵌入)。目标对象的标识嵌入是目标对象的标识文本的向量形式，和目标对象的标识文本表达相同的内容。不同的目标对象对应不同的标识信息，也就是说，目标对象的标识信息具有唯一性。

因此，通过目标对象的标识向量、目标风格向量和多个音素的文本特征，确定各个音素的声学特征，使得音素的声学特征可以表征目标对象基于目标风格信息描述的音频风格阅读音素时声音的物理特性，实现了区分不同对象、不同风格声音，有利于生成个性化的音频，提高音频的表达性。

在步骤1023中，对音素的声学特征进行音频帧级编码处理，得到目标文本对应的音频帧的音频特征。

本申请实施例中，先验编码器结合音素的文本特征以及目标风格信息，对音素的声学特征进行音频帧级编码处理，得到目标文本对应的音频帧的音频特征，也就是音素所占音频帧的音频特征。其中，音频帧可以用时长来衡量，例如，一帧音频帧为10毫秒或者25毫秒。

需要说明的是，一个音素占至少一个音频帧，音频帧的音频特征用于表征该音频帧的音频风格和内容，音频帧的音频风格是目标风格信息所描述的音频风格，音频帧的内容是音素。

参见图3E，图3E是本申请实施例提供的音频合成方法的流程示意图，先验编码器包括帧级编码器，音素的声学特征包括音素占音频帧的数量，图3E示出图3B中的步骤1023可以通过步骤10231-步骤10232实现。

在步骤10231中，基于音素占音频帧的数量以及多个音素的文本特征，确定目标文本对应的音频帧的初始特征。

作为一种示例，音素的声学特征包括音素的发声时长，音素的发声时长也是音素占音频帧的数量。图5所示，先验编码器还可以包括特征扩展网络，对于任一个音素，通过特征扩展网络基于音素占音频帧的数量，扩展音素的文本特征，得到目标文本对应的音频帧的初始特征，也就是音素所占各帧音频帧的初始特征。例如，音素占3帧音频帧，则可以通过特征扩展网络将音素的文本特征扩展成3份，一份音素的文本特征为音素所占一帧音频帧的初始特征。这种情况下，音频帧的初始特征用于描述音素的语义。

作为一种示例，音素的声学特征还包括音素的基频和基频范围。可以通过特征扩展网络将任一个音素的文本特征、音素的基频和该音素的基频范围进行融合，得到该音素的融合特征，并基于音素占音频帧的数量，扩展音素的融合特征，得到音素所占各帧音频帧的初始特征。例如，音素占3帧音频帧，则可以通过特征扩展网络将音素的文本特征、音素的基频和音素的基频范围进行融合，得到音素的融合特征，并将音素的融合特征扩展成3份，一份音素的融合特征为音素所占一帧音频帧的初始特征。这种情况下，音素占音频帧的初始特征用于描述音素的语义和阅读音素时声音的物理特性。

本申请实施例不对特征扩展网络的结构、大小、参数等做限定。特征扩展网络可以基于音素占音频帧的数量，通过复制将音素序列特征扩展为对齐到音频帧时各音频帧的初始特征/>其中，h[i]表示第i个音素的文本特征或者融合特征，e[i]表示第i帧音频帧的初始特征，N′表示音素的数量，T表示音频帧的数量。

在步骤10232中，通过帧级编码器，对目标风格信息以及音频帧的初始特征进行融合处理，得到目标文本对应的音频帧的音频特征。

这里，对于任一个音频帧，通过帧级编码器(又称风格编码器)将目标风格信息和该音频帧的初始特征进行融合，得到该音频帧的音频特征，通过音频帧的音频特征描述在目标风格信息描述的音频风格的情况下音频帧的语义和声音的物理特性。其中，当目标风格信息为风格文本，则可以通过帧级编码器先将风格文本转化为风格向量，再将风格向量和音频帧的初始特征进行融合。如果目标风格信息为风格向量，则可以通过帧级编码器直接将风格向量和音频帧的初始特征进行融合。

参见图3F，图3F是本申请实施例提供的音频合成方法的流程示意图，图3F示出图3E中的步骤10232可以通过步骤102321-步骤102324实现。

在步骤102321中，对目标风格信息以及音频帧的初始特征进行注意力处理，得到第二注意力特征。

本申请实施例中，如图7所示，帧级编码器包括基于注意力机制的网络层，基于注意力机制的网络层可以为自注意力层、多头自注意力层等注意力层。对于任一个音频帧，可以基于注意力机制，对目标风格信息以及音频帧的初始特征进行注意力处理，得到该音频帧的第二注意力特征。其中，音频帧的第二注意力特征包括该音频帧在至少一个通道的注意力特征。需要说明的是，音频信号对应一个频率范围，通过对该频率范围进行划分，得到多个频率分段，一个频率分段就是一个通道。也就是说，任一个通道是音频信号对应的一个频率分段，不同通道对应的频率分段可以部分重叠或者不重叠。

在步骤102322中，对第二注意力特征进行风格自适应实例规范化处理，得到风格归一化特征。

其中，第二注意力特征包括音频帧在至少一个通道上的注意力特征。

在一些实施例中，步骤102322可以通过以下方式实现：对于任一个通道，基于音频帧在任一个通道上的第一特征，确定任一个通道上的第一统计特征；对于任一个音频帧，基于目标风格信息以及任一个通道上的第一统计特征，对任一个音频帧在任一个通道的注意力特征进行线性变换，得到风格归一化特征。

作为示例，首先，对于任一个通道，可以对各个音频帧在该通道的注意力特征进行统计，得到该通道的第一统计信息。通道的第一统计信息包括均值和方差，通过通道的均值反映注意力特征在该通道的平均情况，通过通道的方差反映注意力特征在该通道的波动情况。

然后，可以将目标风格信息映射为第一线性变换参数，映射方式在此不做限定。第一线性变换参数包括权重项和偏置项中的至少一项，权重项用于控制任一个音频帧在任一个通道的注意力特征的重要性，偏置项用于控制任一个音频帧在任一个通道的风格归一化特征更能反应音频风格，使得任一个音频帧在任一个通道的风格归一化特征更具有表现力。

接下来，基于任一个通道的均值和方差，对任一个音频帧在该通道的注意力特征进行调整，得到该音频帧在该通道的调整特征。之后，基于权重项和偏置项中的至少一项，对该音频帧在该通道的调整特征进行线性变换，得到该音频帧在该通道的风格归一化特征。

综上，如图7所示，帧级编码器包括风格自适应实例规范化(Style AdaptiveInstance Normalization，Style-AdaIN)层(又称风格归一化层)。风格归一化层用于进行风格自适应实例规范化处理，且风格归一化层是沿着序列进行归一化的。例如，风格归一化层按照所示的公式(4)确定任一个音频帧在任一个通道的风格归一化特征(简称风格归一化特征)。

其中，Style-AdaIN(x,s)表示风格归一化特征，x表示该音频帧在该通道的注意力特征，S表示风格向量，G(s)表示基于将风格向量s映射得到的权重项，B(s)表示基于将风格向量s映射得到的偏置项，μ(x)表示注意力特征在该通道的平均值，σ(x)表征注意力特征在该通道的方差。

因此，帧级编码器基于通道的第一统计信息和第一线性变换参数进行特征处理，可以提高编码效率。通过风格归一化层进行特征处理，提高特征的表现力，便于实现风格控制。

在步骤102323中，对风格归一化特征进行映射处理，得到映射特征。

这里，本申请实施例并不局限于映射处理的形式，例如可以对风格归一化特征依次进行卷积、随机丢弃、随机添加等处理，以实现对风格归一化特征的映射处理。具体的，本申请实施例可以对风格归一化特征进行卷积处理后，通过丢弃添加层对卷积结果进行丢弃添加处理，得到映射特征。

在步骤102324中，对映射特征进行风格自适应实例规范化处理，得到目标文本对应的音频帧的音频特征。

这里，步骤102324中的风格自适应实例规范化处理与步骤102322中的风格自适应实例规范化处理类似，仅处理对象不同。

在一些实施例中，帧级编码器包括一个风格编码块，可以通过一个风格编码块执行步骤102321-步骤102324，以对目标风格信息以及音频帧的初始特征进行融合处理，得到目标文本对应的音频帧的音频特征。

在一些实施例中，如图7所示，帧级编码器包括多个级联的风格编码块，可以通过级联的风格编码块对目标风格信息以及音频帧的初始特征进行融合处理，从而通过渐进式的结构，精准地提取出目标文本对应的音频帧的音频特征。因此，步骤10232可以通过以下方式实现：通过多个级联的风格编码块中的第一个风格编码块，对目标风格信息以及音频帧的初始特征进行融合处理；将第一个风格编码块的融合结果输出到后续级联的风格编码块，通过后续级联的风格编码块继续进行融合处理和融合结果输出，直至输出到最后一个风格编码块；将最后一个风格编码块输出的融合结果作为目标文本对应的音频帧的音频特征。

需要说明的是，每一个风格编码块的处理过程类似，仅处理对象不同，第一个风格编码块的处理对象为目标风格信息以及音频帧的初始特征，其他风格编码块的处理对象为其他风格编码块的前一个风格编码块的输出，其中，其他风格编码块为级联的风格编码块中除第一个风格编码块以外的风格编码块。

承接步骤102，在步骤103中，通过先验编码器，对音频特征进行归一化流处理，得到目标文本的隐藏变量。

其中，隐藏变量包括隐含表征待合成的音频数据的波形(即合成波形)的先验分布数据，例如音频特征符合先验分布的均值和方差。隐藏变量用于除了让波形生成器尽可能合成出符合目标风格信息描述的音频风格且与目标文本对应的合成波形，同时也能生成合成波形中不存在的数据。

在一些实施例中，步骤103可以通过以下方式实现：对音频特征进行线性投影处理，得到先验分布的统计特征；对先验分布的统计特征进行可逆变换，得到目标文本的隐藏变量。

这里，先验编码器还包括线性投影层，通过线性投影层对音频特征进行线性投影处理，得到先验分布的统计特征，其中，统计特征包括用于构建先验分布的均值以及方差。先验编码器还包括具有仿射耦合层的归一化流模型，通过具有仿射耦合层的归一化流模型，对先验分布的统计特征进行可逆变换，以复合出目标文本的隐藏变量。

需要说明的是，归一化流(Normalizing Flow)模型致力于在目标空间(例如先验分布的空间)和隐空间(例如服从正态分布的隐藏变量z)之间学习一个双射。归一化流的模型结构通常是由多层可逆变换组成的一个可逆神经网络(Invertible Neural Network)。本申请实施例并不局限于归一化流模型的结构，归一化模型可采用标准归一化流，还可以采用全归一化流(Fully Normalizing Flow)等归一化流。

本申请实施例使用概率分布来音频数据的特征和分布情况。Normalizing Flow技术是一种基于变换的方法，通过对一个简单的概率分布(即先验分布的统计特征)进行一系列可逆变换，使其逐渐转化为更为复杂的概率分布(即隐藏变量)，从而可以利用这个复杂的概率分布来更好地描述音频数据的特征和分布情况，以便于基于隐藏变量合成出准确的波形。

在步骤104中，通过波形解码器，对目标文本的隐藏变量进行波形解码处理，得到符合目标风格信息描述的音频风格且与目标文本对应的合成波形。

这里，通过波形解码器，直接对目标文本的隐藏变量进行波形解码处理，得到符合目标风格信息描述的音频风格且与目标文本对应的合成波形。无需通过声学模型预测出目标文本的梅尔频谱图，并通过声码器结合梅尔频谱图生成音频波形，从而避免受到声学模型预测的声学特征和用于训练声码器的声学特征之间的分布不匹配的影响，所导致的合成音频中的伪像，提高音频合成的质量以及表达性。其中，合成波形是合成音频的可视化表示，也就是合成波形用于唯一表征合成音频。

在一些实施例中，波形解码器为生成对抗网络中的生成器，步骤104可以通过以下方式实现：通过训练好的生成对抗网络中的生成器执行以下处理：对目标文本的隐藏变量进行卷积，得到卷积结果；对卷积结果进行抗锯齿多周期合成操作，得到语义特征；对语义特征进行非线性映射处理，得到符合目标风格信息描述的音频风格且与目标文本对应的合成波形。

这里，波形解码器可以是BigVGAN生成器。BigVGAN生成器中引入了周期非线性和抗锯齿表示，为波形合成带来了所需的电感偏置，以改善音频质量。通过BigVGAN生成器能够从音频数据中提取出语义特征，语义特征表示与目标风格信息描述的音频风格且与目标文本相关的特征。需要说明的是，本申请实施例并不局限于波形解码器的结构。

需要说明的是，抗锯齿多周期合成操作可以一次性操作，即对卷积结果进行一次抗锯齿多周期合成操作，得到语义特征；抗锯齿多周期合成操作也可以是级联的操作，即对卷积结果进行级联的抗锯齿多周期合成操作，得到语义特征，通过级联的抗锯齿多周期合成操作，以渐进地提取出语义特征。

在一些实施例中，对卷积结果进行抗锯齿多周期合成操作，得到语义特征，可以通过以下方式实现：对卷积结果进行转置卷积，得到转置卷积特征；对转置卷积特征进行抗锯齿多周期合成运算，得到语义特征。

例如，对卷积结果先进行一次一维转置卷积(TransposedConv1d)，然后对一维的转置卷积特征进行抗锯齿多周期合成运算(Anti-aliased Multi-periodicity，AMP)，得到语义特征。需要说明的是，当抗锯齿多周期合成操作是级联的操作时，每次抗锯齿多周期合成操作类似，仅处理对象不同，第一次抗锯齿多周期合成操作的处理对象为卷积结果，其他抗锯齿多周期合成操作的处理对象为其他抗锯齿多周期合成操作的上一次抗锯齿多周期合成操作的输出，其中，其他抗锯齿多周期合成操作为级联的抗锯齿多周期合成操作中除第一次抗锯齿多周期合成操作之外的抗锯齿多周期合成操作。

下面介绍音频合成模型的训练方法。如前所述，本申请实施例提供的音频合成模型的训练方法可以由各种类型的电子设备实施，例如终端、服务器，又或者是二者的结合。因此下文中不再重复说明各个步骤的执行主体。参见图4A，图4A是本申请实施例提供的音频合成模型的训练方法的流程示意图，结合图4A示出的步骤进行说明，其中音频合成模型包括先验编码器、后验编码器、波形解码器、鉴别器。

在步骤201中，获取文本样本的样本语言信息、合成的样本风格信息、文本样本的波形标注以及波形标注对应的频谱图。

其中，文本样本为用于训练音频合成模型的训练样本，文本样本的样本语言信息用于表达文本样本的内容，也就是合成音频的内容。样本语言信息可以为文本样本的语言文本，也可以是将语言文本中的各个词语映射为各个词向量之后所得到的语言向量(又称样本语言嵌入)。语言向量是语言文本的向量形式，和语言文本表达相同的内容。

其中，样本风格信息用于描述合成的音频风格。样本风格信息可以为合成的风格文本，也可以是将风格文本中的各个词语映射为各个词向量之后所得到的风格向量(又称样本风格嵌入)。风格向量是风格文本的向量形式，和风格文本表达相同的内容。

其中，文本样本的波形标注表示文本样本对应的真实音频所对应的真实波形。波形标注对应的频谱图为对波形标注进行信号处理所得到的频谱图，历史梅尔频谱图。

在步骤202中，通过后验编码器，对波形标注对应的频谱图以及样本风格信息进行编码处理，得到频谱图的隐藏变量。

其中，频谱图的隐藏变量包括隐含表征待合成的音频数据的波形(即合成波形)的后验分布数据，例如频谱图符合后验分布的均值和方差。

参见图4B，图4A是本申请实施例提供的音频合成模型的训练方法的流程示意图，图4B示出图4A中的步骤202可以通过步骤2021-步骤2023实现。

在步骤2021中，通过后验编码器执行以下处理：对波形标注对应的频谱图以及样本风格信息进行因果残差处理，得到因果残差结果。

这里，本申请实施例的后验编码器包括波网残差块(WaveNet residual block)，并将样本风格信息作为全局条件加入到波网残差块，通过波网残差块，对对波形标注对应的频谱图以及样本风格信息进行因果残差处理，得到因果残差结果，以补足从梅尔频谱图重建音频数据所缺失的信息(如相位等)。使用波网残差块所重建的音频数据，比起使用传统声码器或算法生成的声音更为自然。

在一些实施例中，步骤2021可以通过以下方式实现：对波形标注对应的频谱图进行卷积，得到卷积结果；对卷积结果以及样本风格信息进行多次基于门控激活单元(gatedactivation unit)的残差(residual)处理，得到多个残差结果，其中，一次基于门控激活单元的残差处理对应一个残差结果；对多个残差结果进行跳连接(Skip-connection)处理，得到因果残差结果。

例如，首先对波形标注对应的频谱图进行因果卷积(Causal Convolution)，得到卷积结果，本申请实施例并不局限于因果卷积，还可以是是膨胀卷积等。

然后，对卷积结果以及样本风格信息进行多次基于门控激活单元的残差处理，得到多个残差结果，其中，基于门控激活单元的残差处理可以通过以下方式实现：对卷积结果进行膨胀卷积处理，得到膨胀卷积结果；将样本风格信息作为全局条件加入门控激活单元，通过门控激活单元对膨胀卷积结果进行激活处理，得到激活结果；对激活结果以及卷积结果进行残差处理，得到残差结果。其中，激活处理如公式(5)所示。

其中，W_f,k、W_g,k、表示第k次基于门控激活单元的残差处理的可学习参数。tanh()表示Tanh激活函数，σ()表示sigmoid门控激活函数。x表示门控激活单元的输入，即膨胀卷积结果。z表示门控激活单元的输出，即激活结果。y表示样本风格信息。

接着，对多个残差结果进行跳连接处理，得到因果残差结果。当然，对多个残差结果进行跳连接处理后，还可以对跳连接结果进行映射处理，以得到因果残差结果，例如，通过ReLU函数对跳连接结果进行处理后，经过一维普通卷积，最后通过softmax函数进行非线性映射，得到因果残差结果。

在步骤2022中，对因果残差结果进行风格自适应实例规范化处理，得到风格归一化特征。

这里，步骤2022中的风格自适应实例规范化处理与步骤102322中的风格自适应实例规范化处理类似，仅处理对象不同。通过对因果残差结果进行风格自适应实例规范化处理，更好地从多种风格中区分不同的声学特征并进一步提高音频合成的有效性。

在步骤2023中，对风格归一化特征进行线性投影处理，得到后验分布的统计特征。

这里，步骤2023中的线性投影处理与步骤103中的线性投影处理类似，仅处理对象不同。后验编码器还包括线性投影层，通过线性投影层对风格归一化特征进行线性投影处理，得到后验分布的统计特征，其中，统计特征包括用于构建后验分布的均值以及方差。

在步骤2024中，对后验分布的统计特征进行重参数化处理，得到频谱图的隐藏变量。

其中，隐藏变量用于除了让波形生成器尽可能合成出符合样本风格信息描述的音频风格且与文本样本对应的合成波形，同时也能生成合成波形中不存在的数据。

这里，采用重参数化(Reparameterize)函数，结合随机噪声ε，对后验分布的统计特征进行重参数化处理，得到频谱图的隐藏变量，例如，后验分布的统计特征包括方差σ以及均值μ，则重参数化函数为z＝μ+σ⊙ε，ε表示随机噪声，z表示隐藏变量。需要说明的是，本申请实施例并不局限于重参数化函数的形式。

承接步骤202，在步骤203中，通过波形解码器，对频谱图的隐藏变量进行波形解码处理，得到符合样本风格信息描述的音频风格且与文本样本对应的合成波形。

这里，步骤203中的波形解码处理与步骤104中的波形解码处理类似，仅处理对象不同。

在步骤204中，通过鉴别器，对合成波形以及波形标注进行鉴别处理，得到鉴别结果。

这里，鉴别器为生成对抗网络中的判别器，鉴别器可以是BigVGAN鉴别器，通过鉴别器，对合成波形以及波形标注进行鉴别处理，得到鉴别结果，其中，鉴别结果包括合成波形的判别结果以及波形标注的判别结果，判别结果为真或假。

其中，本申请实施例中的鉴别器可以包括多个多分辨率鉴别器(MRD)，也就是鉴别器子模块，通过多个鉴别器子模块对合成波形以及波形标注进行不同分辨率的鉴别处理，得到不同分辨率下的鉴别结果。

在步骤205中，通过先验编码器，对样本语言信息以及样本风格信息进行编码处理，得到文本样本的隐藏变量。

这里，步骤205可以通过以下方式实现：通过先验编码器，对样本语言信息以及样本风格信息进行音频帧生成处理，得到文本样本对应的音频帧的音频特征；通过先验编码器，对文本样本对应的音频帧的音频特征进行归一化流处理，得到文本样本的隐藏变量。需要说明的是，步骤205中的音频帧生成处理与步骤102中的音频帧生成处理类似，仅处理对象不同。步骤205中的归一化流处理与步骤103中的归一化流处理类似，仅处理对象不同。

在步骤206中，基于文本样本的隐藏变量、频谱图的隐藏变量以及鉴别结果，对音频合成模型进行训练，得到训练好的音频合成模型，其中，训练好的音频合成模型包括的先验编码器、波形解码器用于执行音频合成方法。

这里，基于文本样本的隐藏变量、频谱图的隐藏变量以及鉴别结果，构建音频合成模型的损失函数，基于损失函数更新音频合成模型的参数，以训练音频合成模型，得到训练好的音频合成模型。

其中，损失值用于表示模型(即本申请实施例中的音频合成模型)的输出结果与实际结果(或称标注结果)之间的差异。模型的训练主要涉及前向传播(ForwardPropagation)及反向传播(Back Propagation)两个过程，以包括输入层、隐藏层及输出层的神经网络模型为例，前向传播处理是指依次通过输入层、隐藏层及输出层进行处理，最终得到输出结果；反向传播处理是指根据计算出的损失值依次传播至输出层、隐藏层及输入层，从而对各个层中的权重参数进行更新。

在一些实施例中，可以分别训练音频合成模型包括的波形解码器、鉴别器，则步骤206可以通过方式实现：基于鉴别结果，对音频合成模型包括的波形解码器、鉴别器进行训练；基于文本样本的隐藏变量、频谱图的隐藏变量，对音频合成模型包括的先验编码器进行训练。

例如，基于波形标注的判别结果，训练波形解码器，以使波形解码器基于真实的文本样本的隐藏变量生成虚假的合成波形；基于虚假的合成波形的判别结果以及真实的波形标注的判别结果，训练鉴别器，以使鉴别器区分真实的波形标注和虚假的合成波形；其中，当训练波形解码器时，固定鉴别器的参数不变；当训练鉴别器时，固定生成模型的参数不变。在鉴别器优化阶段尽量让鉴别器区分真实的波形和波形解码器所生成的虚假波形，在波形解码器优化阶段尽量让波形解码器得到可以迷惑鉴别器的波形，通过鉴别器与波形解码器的相互博弈，使得波形解码器能够生成尽可能真实的波形。

例如，基于文本样本的隐藏变量、频谱图的隐藏变量，构建先验编码器的损失函数，基于先验编码器的损失函数更新先验编码器的参数，对先验编码器进行训练。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

相关技术中对于音频的合成方式比较粗糙，通常是先通过声学模型预测出文本数据的梅尔频谱图，然后通过声码器结合梅尔频谱图生成音频波形，以对文本数据对应的梅尔频谱图进行合成，以得到文本数据对应的音频数据，这种合成方式由于受到声学模型预测的声学特征和用于训练声码器的声学特征之间的分布不匹配的影响，容易导致合成音频中的伪像，无法实现音频的精准合成，从而影响用户体验正常的音频合成。

对此，本申请实施例提供一种用于实现高表达性和高保真度的基于时序注意力网络神经的音频合成模型，通过音频合成模型实现音频合成方法。在提出的音频合成模型中，基于多层堆叠的SwishRNN的变换块被作为上述语言编码器，并且将风格自适应的实例规范化(SAIN)层也开发到帧级编码器中，以提高建模的表达能力。同时，在音频合成模型中增加了归一化流的变分自编码器(VAEs)和具有对抗训练策略的BigVGAN生成器(又称波形解码器)，进一步提高了语音合成的质量和表达能力。

下面结合图5示出的音频合成模型说明本申请实施例提供的音频合成方法。

如图5所示，本申请实施例提供的音频合成模型可以被看作是一个增加了归一化流的变分自动编码器VAE，音频合成模型包括由状态跳跃先验编码器(state-skip priorencoder，简称先验编码器)、基于SAIN的后验编码器(SAIN-based posterior encoder)、BigVGAN生成器(BigVGAN decoder)和位于BigVGAN生成器之后的鉴别器(discriminators)。其中，先验编码器以语言信息为条件，后验编码器以声学特征(例如梅尔频谱图)为条件。先验编码器中还包括变量预测器(variance predictors)，变量预测器可以预测每个音素的发声时长、基频、基频范围等。其中，后验编码器(SAIN-basedposterior encoder)和鉴别器(discriminators)仅用于训练音频合成模型。

下面对音频合成模型中的先验编码器、后验编码器以及BigVGAN生成器进行说明。

1)关于先验编码器

本申请实施例中的先验编码器采用两级分级的跳跃编码器(hierarchical skip-encoders)可以显著减少发音错误并提高语音质量和表达能力，两级分级跳跃编码器(hierarchical skip-encoders)包括具有一堆基于SwishRNN的变换块的音素级的语言编码器(linguistic encoder)(如图6所示)，以及具有SAIN层的帧级编码器(frame-levelencoder)(如图7所示)。先验编码器还包括跳跃编码器之后的线性投影层(linearprojection layer)，并通过线性投影层针对基于SAIN的帧级编码器(frame-levelencoder)输出的序列c构建先验分布的统计特征(包括均值和方差)。先验编码器还具有一堆仿射耦合层的归一化流f_θ，用于提高先验分布的灵活性。其中，归一化流f_θ的正态先验分布用一组可逆变换来复合，以得到如公式(6)所示的概率分布p_θ(z|c):

其中，c表示基于SAIN的帧级编码器(frame-level encoder)的输出。Z表示先验分布的隐藏变量。f_θ表示归一化流函数，μ_θ表示先验分布的均值，σ_θ表示先验分布的方差。

2)关于基于SAIN的后验编码器(SAIN-based posterior encoder)

如图8所示，对于在给定声学特征条件x的情况下预估隐藏变量z的后验分布的后验编码器，使用由门控激活单元(gated activation unit)和跳跃连接的膨胀卷积(dilated convolutions)组成的WaveNet残差块(WaveNet residual block)。将风格标签的风格嵌入作为全局条件添加到WaveNet残差块中。为了更好地从多种风格中区分不同的声学特征，还在WaveNet残差块之后添加SAIN层(Style-AdaIN)和线性投影层(Linear)，以产生后验分布的均值和方差。然后计算KL散度以优化音频合成模型，其中，KL散度L_KL的计算公式如公式(7)所示。

L_KL＝log q_φ(z|x)-log p_θ(z|c) (7)

其中，z～q_φ(z|x)＝N(z；μ_φ(x),σ_φ(x))，x表示目标语音的高分辨率线性尺度频谱图(简称频谱图)。logq_φ(z|x)中的z表示基于SAIN的后验编码器输出的隐藏变量，logp_θ(z|c)中的z表示归一化流f_θ输出的隐藏变量，。

3)关于BigVGAN生成器

采用BigVGAN生成器作为波形解码器(waveform decoder)，条件是VAE中的潜在的隐藏变量z。该BigVGAN生成器包括多个转置卷积块以及抗锯齿多周期合成(AMP)模块，通过转置卷积块实现转置卷积运算，通过抗锯齿多周期合成模块实现抗锯齿多周期合成运算。AMP模块在一维的膨胀卷积之前添加来不同信道周期的多个残差块的特征，一维的膨胀卷积使用Snake函数来提供周期性感应偏置，并使用低通滤波器来实现抗锯齿目的。

遵循BigVGAN的鉴别器架构，在时间-频率域上使用多分辨率鉴别器(MRD)，该多分辨率鉴别器对具有不同STFT分辨率的多个频谱图进行操作，该多分辨率鉴别器使用多周期鉴别器，多周期鉴别器中的一维信号被重塑为具有变化的高度和宽度的二维表示，以通二维卷积来分别捕获多个周期性结构。BigVGAN生成器(G)的损失函数L_G和鉴别器的损失函数L_D分别如下，通过损失函数L_G和鉴别器的损失函数L_D训练BigVGAN生成器以及鉴别器，损失函数L_G如公式(8)所示，鉴别器的损失函数L_D如公式(9)所示：

其中，D_k表示第k个MRD鉴别器。L_adv使用最小二乘生成对抗损失，L_fm表示特征匹配损失(来自鉴别器的中间特征的l1距离)，L_mel(G)表示合成波形的梅尔频谱图与相应的波形标注之间的光谱l1回归损失。

为了更好地评估本申请实施例所提出的音频合成模型(简称本模型)与其他TTS模型的性能，采用了以下实验设置：使用了包含11.8小时的高表达性汉语语料库作为训练数据集，该语料库包含7个不同说话者发出的12种风格的语音。TTS模型包括DurIAN、FastSpeech2、DiffSpeech、VITS和DurIAN-E。除了VITS和本申请实施例提出的音频合成模型之外，所有模型都共享一个额外的BigVGAN声码器，该BigVGAN声码器是在真实的梅尔频谱图的条件下单独训练的，以更好地比较不同声学模型之间的性能。

通过目标测试对不同的TTS模型进行了客观评价。在该目标测试中，为了便于比较，所有TTS模型都保持与自然语音(即真实语音)相同的持续时间。表1中给出了不同TTS模型在自然语音和合成语音之间的线性尺度上的F0值的均方根误差(RMSE)和相关系数，并且根据这些***是使用基于DDPM的去噪器还是直接生成波形，将这些***分为三组。从合成波形中重新提取出用于比较的声学特征。

表1来自不同TTS模型的自然语音和合成语音的声学特征之间的失真，V/UV表示帧级有声/无声错误，BAP和Corr.分别表示BAP预测误差和相关系数，MCD表示梅尔倒谱失真、

BAP表示频带非周期性失真

表1示出的结果表明，本模型合成的语音可以获得最准确的F0和BAP值。

如图9所示的不同DurIAN模型的音高轮廓示例，与DurIAN-E和本模型相比，DurIAN的F0曲线更平滑且没有波动。在使用基于DDPM的去噪器和直接生成波形的TTS模型中，本模型的MCD值也是最小的。在三组***中，DurIAN和FastSpeech2所对应的一组中的频谱失真最小，主要是因为这组模型中的声学模型直接优化了频谱特征的MSE损失。尽管DurIAN和FastSpeech2可以实现最小的MCD，但图10所示的过平滑问题严重降低了语音质量。如图10所示，本模型的性能优于DurIAN-E，可以产生更清晰的谐波结构和与更真实的光谱细节。

对于主观MOS测试，从测试集中随机选择由不同的模型合成的20个测试语音，并由10名经验丰富的听众进行评估，得到如表2所示的MOS结果。

表2具有95％置信区间的不同模型的MOS值

由表2客户自，相对于其他TTS模型，本模型可以获得最好的MOS分数，这表明所提出的本模型容量是足够的。VITS模型可以以端到端的方式直接生成波形，它超越了多阶段模型DiffSpeech，在DiffSpeech中，预测的梅尔频谱图首先由基于DDPM的去噪器增强，然后由声码器转换为波形。尽管DurIAN-E也是这样一个多阶段模型，但由于采用了两级分层跳跃编码器架构，DurIAN-E获得了比VITS更好的MOS结果。本模型结合了这些模型的优点，包括VITS中的端到端波形生成方法和其他复杂结构，如SwishRNN和SAIN层作为先验编码器和前置编码器，因此可以合成更具表现力和高保真度的语音。

综上，本申请实施例提出的音频合成模型，利用两级分层的跳跃编码器和基于SAIN的后验编码器，以实现更自然的韵律和更好的表达性。为了进一步提高语音质量，还采用了基于可变隐藏变量和风格嵌入的BigVGAN解码器。客观测试和主观测试的实验结果证明，与其他TTS模型相比，本申请实施例提出的音频合成模型可以获得更好的性能。

至此已经结合本申请实施例提供的电子设备的示例性应用和实施，说明本申请实施例提供的音频合成方法，下面继续说明本申请实施例提供的音频合成装置555中各个模块配合实现音频合成方案。

调用模块5551，用于基于目标文本的语言信息以及待合成的目标风格信息，调用音频合成模型，其中，所述音频合成模型包括先验编码器以及波形解码器；生成模块5552，用于通过所述先验编码器，对所述语言信息以及所述目标风格信息进行音频帧生成处理，得到所述目标文本对应的音频帧的音频特征；归一化模块5553，用于通过所述先验编码器，对所述音频特征进行归一化流处理，得到所述目标文本的隐藏变量；波形解码模块5554，用于通过所述波形解码器，对所述目标文本的隐藏变量进行波形解码处理，得到符合所述目标风格信息描述的音频风格且与所述目标文本对应的合成波形。

在一些实施例中，所述归一化模块5553还用于对所述音频特征进行线性投影处理，得到先验分布的统计特征；对所述先验分布的统计特征进行可逆变换，得到所述目标文本的隐藏变量。

在一些实施例中，所述波形解码器为生成对抗网络中的生成器；所述波形解码模块5554还用于通过训练好的所述生成对抗网络中的生成器执行以下处理：对所述目标文本的隐藏变量进行卷积，得到卷积结果；对所述卷积结果进行抗锯齿多周期合成操作，得到语义特征；对所述语义特征进行非线性映射处理，得到符合所述目标风格信息描述的音频风格且与所述目标文本对应的合成波形。

在一些实施例中，所述波形解码模块5554对所述卷积结果进行转置卷积，得到转置卷积特征；对所述转置卷积特征进行抗锯齿多周期合成运算，得到所述语义特征。

在一些实施例中，所述生成模块5552还用于通过所述先验编码器执行以下处理：对所述语言信息进行音素级编码处理，得到所述语言信息中的音素的文本特征；基于所述音素的文本特征以及所述目标风格信息，确定所述音素的声学特征；对所述音素的声学特征进行音频帧级编码处理，得到所述目标文本对应的音频帧的音频特征。

在一些实施例中，所述先验编码器包括语言编码器；所述生成模块5552还用于通过所述语言编码器，对所述语言信息进行声学编码处理，得到所述目标文本的语言特征，其中，所述语言特征包括多个音素的文本特征和多个韵律的文本特征；从所述语言特征中提取出所述多个音素的文本特征。

在一些实施例中，所述语言编码器包括多个级联的语言编码块；所述生成模块5552还用于通过所述多个级联的语言编码块中的第一个语言编码块，对所述语言信息进行声学编码处理；将所述第一个语言编码块的编码结果输出到后续级联的语言编码块，通过所述后续级联的语言编码块继续进行声学编码处理和编码结果输出，直至输出到最后一个语言编码块；将所述最后一个语言编码块输出的编码结果作为所述目标文本的语言特征。

在一些实施例中，每个所述语言编码块包括注意力层、激活网络层、丢弃添加层以及层归一化层；所述生成模块5552还用于通过第l个语言编码块包括的注意力层，对第l-1个语言编码块输出的编码结果进行注意力处理，得到所述第l个语言编码块的第一注意力特征；通过所述第l个语言编码块包括的激活网络层，对所述第l个语言编码块的第一注意力特征进行映射处理，得到所述第l个语言编码块的映射特征；通过所述第l个语言编码块包括的丢弃添加层，对所述第l个语言编码块的映射特征以及所述第l个语言编码块的第一注意力特征进行丢弃添加处理，得到所述第l个语言编码块的丢弃添加特征；通过所述第l个语言编码块包括的层归一化层，对所述第l个语言编码块的丢弃添加特征进行归一化处理，得到所述第l个语言编码块的编码结果，并输出所述第l个语言编码块的编码结果，其中，l为依次递增的正整数，1＜l＜L，L为语言编码块的数量。

在一些实施例中，所述先验编码器包括帧级编码器，所述音素的声学特征包括所述音素占音频帧的数量；所述生成模块5552还用于基于所述音素占音频帧的数量以及多个音素的文本特征，确定所述目标文本对应的音频帧的初始特征；通过所述帧级编码器，对所述目标风格信息以及所述音频帧的初始特征进行融合处理，得到所述目标文本对应的音频帧的音频特征。

在一些实施例中，所述生成模块5552还用于对所述目标风格信息以及所述音频帧的初始特征进行注意力处理，得到第二注意力特征；对所述第二注意力特征进行风格自适应实例规范化处理，得到风格归一化特征；对所述风格归一化特征进行映射处理，得到映射特征；对所述映射特征进行风格自适应实例规范化处理，得到所述目标文本对应的音频帧的音频特征。

至此已经结合本申请实施例提供的电子设备的示例性应用和实施，说明本申请实施例提供的音频合成模型的训练方法，下面继续说明本申请实施例提供的音频合成模型的训练装置556中各个模块配合实现音音频合成模型的训练方案。

获取模块5561，用于获取文本样本的样本语言信息、合成的样本风格信息、所述文本样本的波形标注以及所述波形标注对应的频谱图；后验模块5562，用于通过所述后验编码器，对所述波形标注对应的频谱图以及所述样本风格信息进行编码处理，得到所述频谱图的隐藏变量；解码模块5563，用于通过所述波形解码器，对所述频谱图的隐藏变量进行波形解码处理，得到符合所述样本风格信息描述的音频风格且与所述文本样本对应的合成波形；鉴别模块5564，用于通过所述鉴别器，对所述合成波形以及所述波形标注进行鉴别处理，得到鉴别结果；先验模块5565，用于通过所述先验编码器，对所述样本语言信息以及所述样本风格信息进行编码处理，得到所述文本样本的隐藏变量；训练模块5566，用于基于所述文本样本的隐藏变量、所述频谱图的隐藏变量以及所述鉴别结果，对所述音频合成模型进行训练，得到训练好的音频合成模型。

在一些实施例中，所述训练模块5566还用于基于所述鉴别结果，对所述音频合成模型包括的波形解码器、鉴别器进行训练；基于所述文本样本的隐藏变量、所述频谱图的隐藏变量，对所述音频合成模型包括的先验编码器进行训练。

在一些实施例中，所述后验模块5562还用于通过所述后验编码器执行以下处理：对所述波形标注对应的频谱图以及所述样本风格信息进行因果残差处理，得到因果残差结果；对所述因果残差结果进行风格自适应实例规范化处理，得到风格归一化特征；对所述风格归一化特征进行线性投影处理，得到后验分布的统计特征；对所述后验分布的统计特征进行重参数化处理，得到所述频谱图的隐藏变量。

本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机程序或计算机可执行指令，该计算机程序或计算机可执行指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机程序或计算机可执行指令，处理器执行该计算机程序或计算机可执行指令，使得该电子设备执行本申请实施例上述的音频合成方法，或音频合成模型的训练方法。

本申请实施例提供一种存储有计算机可执行指令的计算机可读存储介质，其中存储有计算机可执行指令或者计算机程序，当计算机可执行指令或者计算机程序被处理器执行时，将引起处理器执行本申请实施例提供的音频合成方法，或音频合成模型的训练方法，例如，如图3A示出的音频合成方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，计算机可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，计算机可执行指令可以但不一定对应于文件***中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，HyperText Markup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，计算机可执行指令可被部署为在一个电子设备上执行，或者在位于一个地点的多个电子设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个电子设备上执行。

可以理解的是，在本申请实施例中，涉及到用户信息等相关的数据，当本申请实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种音频合成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述音频特征进行归一化流处理，得到所述目标文本的隐藏变量，包括：

对所述音频特征进行线性投影处理，得到先验分布的统计特征；

对所述先验分布的统计特征进行可逆变换，得到所述目标文本的隐藏变量。

3.根据权利要求1所述的方法，其特征在于，

所述波形解码器为生成对抗网络中的生成器；

所述通过所述波形解码器，对所述目标文本的隐藏变量进行波形解码处理，得到符合所述目标风格信息描述的音频风格且与所述目标文本对应的合成波形，包括：

通过训练好的所述生成对抗网络中的生成器执行以下处理：

对所述目标文本的隐藏变量进行卷积，得到卷积结果；

对所述卷积结果进行抗锯齿多周期合成操作，得到语义特征；

对所述语义特征进行非线性映射处理，得到符合所述目标风格信息描述的音频风格且与所述目标文本对应的合成波形。

4.根据权利要求3所述的方法，其特征在于，所述对所述卷积结果进行抗锯齿多周期合成操作，得到语义特征，包括：

对所述卷积结果进行转置卷积，得到转置卷积特征；

对所述转置卷积特征进行抗锯齿多周期合成运算，得到所述语义特征。

5.根据权利要求1所述的方法，其特征在于，所述通过所述先验编码器，对所述语言信息以及所述目标风格信息进行音频帧生成处理，得到所述目标文本对应的音频帧的音频特征，包括：

通过所述先验编码器执行以下处理：

对所述语言信息进行音素级编码处理，得到所述语言信息中的音素的文本特征；

基于所述音素的文本特征以及所述目标风格信息，确定所述音素的声学特征；

对所述音素的声学特征进行音频帧级编码处理，得到所述目标文本对应的音频帧的音频特征。

6.根据权利要求5所述的方法，其特征在于，

所述先验编码器包括语言编码器；

所述对所述语言信息进行音素级编码处理，得到所述语言信息中的音素的文本特征，包括：

通过所述语言编码器，对所述语言信息进行声学编码处理，得到所述目标文本的语言特征，其中，所述语言特征包括多个音素的文本特征和多个韵律的文本特征；

从所述语言特征中提取出所述多个音素的文本特征。

7.根据权利要求6所述的方法，其特征在于，

所述语言编码器包括多个级联的语言编码块；

所述通过所述语言编码器，对所述语言信息进行声学编码处理，得到所述目标文本的语言特征，包括：

通过所述多个级联的语言编码块中的第一个语言编码块，对所述语言信息进行声学编码处理；

将所述第一个语言编码块的编码结果输出到后续级联的语言编码块，通过所述后续级联的语言编码块继续进行声学编码处理和编码结果输出，直至输出到最后一个语言编码块；

将所述最后一个语言编码块输出的编码结果作为所述目标文本的语言特征。

8.根据权利要求7所述的方法，其特征在于，

每个所述语言编码块包括注意力层、激活网络层、丢弃添加层以及层归一化层；

所述通过所述后续级联的语言编码块继续进行声学编码处理和编码结果输出，包括：

通过第l个语言编码块包括的注意力层，对第l-1个语言编码块输出的编码结果进行注意力处理，得到所述第l个语言编码块的第一注意力特征；

通过所述第l个语言编码块包括的激活网络层，对所述第l个语言编码块的第一注意力特征进行映射处理，得到所述第l个语言编码块的映射特征；

通过所述第l个语言编码块包括的丢弃添加层，对所述第l个语言编码块的映射特征以及所述第l个语言编码块的第一注意力特征进行丢弃添加处理，得到所述第l个语言编码块的丢弃添加特征；

通过所述第l个语言编码块包括的层归一化层，对所述第l个语言编码块的丢弃添加特征进行归一化处理，得到所述第l个语言编码块的编码结果，并输出所述第l个语言编码块的编码结果，其中，l为依次递增的正整数，1＜l＜L，L为语言编码块的数量。

9.根据权利要求5所述的方法，其特征在于，

所述先验编码器包括帧级编码器，所述音素的声学特征包括所述音素占音频帧的数量；

所述对所述音素的声学特征进行音频帧级编码处理，得到所述目标文本对应的音频帧的音频特征，包括：

基于所述音素占音频帧的数量以及多个音素的文本特征，确定所述目标文本对应的音频帧的初始特征；

通过所述帧级编码器，对所述目标风格信息以及所述音频帧的初始特征进行融合处理，得到所述目标文本对应的音频帧的音频特征。

10.根据权利要求9所述的方法，其特征在于，所述通过所述帧级编码器，对所述目标风格信息以及所述音频帧的初始特征进行融合处理，得到所述目标文本对应的音频帧的音频特征，包括：

对所述目标风格信息以及所述音频帧的初始特征进行注意力处理，得到第二注意力特征；

对所述第二注意力特征进行风格自适应实例规范化处理，得到风格归一化特征；

对所述风格归一化特征进行映射处理，得到映射特征；

对所述映射特征进行风格自适应实例规范化处理，得到所述目标文本对应的音频帧的音频特征。

11.一种音频合成模型的训练方法，其特征在于，音频合成模型包括先验编码器、后验编码器、波形解码器、鉴别器；

所述方法包括：

通过所述鉴别器，对所述合成波形以及所述波形标注进行鉴别处理，得到鉴别结果；

12.根据权利要求11所述的方法，其特征在于，所述基于所述文本样本的隐藏变量、所述频谱图的隐藏变量以及所述鉴别结果，对所述音频合成模型进行训练，包括：

基于所述鉴别结果，对所述音频合成模型包括的波形解码器、鉴别器进行训练；

基于所述文本样本的隐藏变量、所述频谱图的隐藏变量，对所述音频合成模型包括的先验编码器进行训练。

13.根据权利要求11所述的方法，其特征在于，所述通过所述后验编码器，对所述波形标注对应的频谱图以及所述样本风格信息进行编码处理，得到所述频谱图的隐藏变量，包括：

通过所述后验编码器执行以下处理：

对所述波形标注对应的频谱图以及所述样本风格信息进行因果残差处理，得到因果残差结果；

对所述因果残差结果进行风格自适应实例规范化处理，得到风格归一化特征；

对所述风格归一化特征进行线性投影处理，得到后验分布的统计特征；

对所述后验分布的统计特征进行重参数化处理，得到所述频谱图的隐藏变量。

14.一种音频合成装置，其特征在于，所述装置包括：

15.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储计算机程序或计算机可执行指令；

处理器，用于执行所述存储器中存储的计算机程序或计算机可执行指令时，实现权利要求1至10任一项所述的音频合成方法，或权利要求11至13任一项所述的音频合成模型的训练方法。

16.一种计算机可读存储介质，其特征在于，存储有计算机程序或者计算机可执行指令，所述计算机程序或计算机可执行指令被处理器执行时实现权利要求1至10任一项所述的音频合成方法，或权利要求11至13任一项所述的音频合成模型的训练方法。

17.一种计算机程序产品，包括计算机程序或计算机可执行指令，其特征在于，所述计算机程序或计算机可执行指令被处理器执行时实现权利要求1至10任一项所述的音频合成方法，或权利要求11至13任一项所述的音频合成模型的训练方法。