CN116959464A

CN116959464A - 音频生成网络的训练方法、音频生成方法以及装置

Info

Publication number: CN116959464A
Application number: CN202310161152.9A
Authority: CN
Inventors: 张泽旺
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-02-24
Filing date: 2023-02-24
Publication date: 2023-10-27

Abstract

本申请提供一种音频生成网络的训练方法、音频生成方法及装置，应用于人工智能等各种场景，该音频生成网络的训练方法包括：输入样本内容编码特征、样本音色编码特征和目标样本语音音色至预设音频生成网络得到样本预测音频；输入样本预测音频和样本源音频至预设音频判别网络得到音频判别结果；基于样本预测音频、样本源音频和音频判别结果，确定第一损失函数和第二损失函数；根据第一损失函数和第二损失函数更新网络的参数，得到目标音频生成网络。本申请实施例通过端对端的训练即可得到目标音频生成网络，无需分多个阶段进行训练，提高了目标音频生成网络的训练精度，降低了目标音频生成网络的训练成本。

Description

音频生成网络的训练方法、音频生成方法以及装置

技术领域

本申请属于计算机技术领域，具体涉及一种音频生成网络的训练方法、音频生成方法以及装置。

背景技术

智能变音技术是指给定任意发音人的任意音频，通过算法可以实现将该音频转化成指定音色的音频，并且保留其他部分的风格。因此，智能变音技术除了需要满足语音合成的高自然度、高清晰度的要求之外，还要使得两个音频的说话内容、说话节奏、语气情绪尽可能相似。

相关技术中的智能变音***一般包括内容编码器、目标音色声学模型、声码器三部分。该智能变音***分为两阶段进行训练，首先需要将内容编码器与基于独热编码和全连接神经元模块得到的说话人向量一起送入到基于多层长短记忆网络的目标音色声学模型中，得到目标音色的频谱特征；其次，将目标音色的频谱特征经过声码器模型得到目标音色的波形。以上两个阶段是各自进行训练，在推理阶段再进行联合。然而相关技术中的两个阶段训练的梯度互相不流通，第一阶段的声学模型输出的频谱分布跟第二阶段声码器所见过的频谱分布存在一定的差距，即便在推理阶串联起来使用，也会降低音质高清度和音色相似度，从而降低了音频合成的精度。

发明内容

为了解决上述技术问题，本申请提供一种音频生成网络的训练方法、音频生成方法以及装置。

一方面，本申请提出了一种音频生成网络的训练方法，所述方法包括：获取样本源音频和所述样本源音频的样本内容编码特征；所述样本源音频对应有样本语音风格；

对所述样本源音频中的语音音色进行音色编码处理，得到所述样本源音频的样本音色编码特征；

输入所述样本内容编码特征、所述样本音色编码特征和目标样本语音音色至对抗网络中的预设音频生成网络进行音频生成处理，得到样本预测音频；所述样本预测音频对应有所述样本语音风格和所述目标样本语音音色；

输入所述样本预测音频和样本源音频至所述对抗网络中的预设音频判别网络进行音频判别处理，得到音频判别结果；

基于所述样本预测音频、所述样本源音频和所述音频判别结果，确定第一损失函数和第二损失函数；

根据所述第一损失函数更新所述预设生成网络的参数，以及根据所述第二损失函数更新所述预设音频判别网络的参数，得到目标音频生成网络。

另一方面，本申请实施例提供了一种音频生成方法，所述方法包括：

获取待处理源音频和目标对象音频；所述待处理源音频对应有目标语音风格，所述目标对象音频对应有目标语音音色；

对所述待处理源音频中的语音内容进行内容编码处理，得到所述待处理源音频的内容编码特征；以及对所述目标对象音频的语音音色进行音色编码处理，得到所述目标对象音频的音色编码特征；

输入所述内容编码特征和所述音色编码特征至所述目标音频生成网络进行音频生成处理，得到目标音频；

其中，所述目标音频对应有所述目标语音风格和所述目标语音音色；所述目标音频生成网络为采用上述音频生成网络的训练方法训练得到。

另一方面，本申请实施例提供了一种音频生成网络的训练装置，所述装置包括：

编码特征；所述样本源音频对应有样本语音风格；

样本音色编码特征生成模块，用于对所述样本源音频中的语音音色进行音色编码处理，得到所述样本源音频的样本音色编码特征；

样本预测音频生成模块，用于输入所述样本内容编码特征、所述样本音色编码特征和目标样本语音音色至对抗网络中的预设音频生成网络进行音频生成处理，得到样本预测音频；所述样本预测音频对应有所述样本语音风格和所述目标样本语音音色；

音频判别结果生成模块，用于输入所述样本预测音频和样本源音频至所述对抗网络中的预设音频判别网络进行音频判别处理，得到音频判别结果；

损失函数确定模块，用于基于所述样本预测音频、所述样本源音频和所述音频判别结果，确定第一损失函数和第二损失函数；

更新模块，用于根据所述第一损失函数更新所述预设生成网络的参数，以及根据所述第二损失函数更新所述预设音频判别网络的参数，得到目标音频生成网络。

另一方面，本申请实施例提供了一种音频生成装置，所述装置包括：

音频获取模块，用于获取待处理源音频和目标对象音频；所述待处理源音频对应有目标语音风格，所述目标对象音频对应有目标语音音色；

编码音色特征获取模块，用于对所述待处理源音频中的语音内容进行内容编码处理，得到所述待处理源音频的内容编码特征；以及对所述目标对象音频的语音音色进行音色编码处理，得到所述目标对象音频的音色编码特征；

目标音频生成模块，用于输入所述内容编码特征和所述音色编码特征至所述目标音频生成网络进行音频生成处理，得到目标音频；

另一方面，本申请提出了一种音频生成网络的训练或音频生成的电子设备，所述电子设备包括处理器和存储器，存储器中存储有至少一条指令或至少一段程序，至少一条指令或至少一段程序由处理器加载并执行以实现如上述所述的音频生成网络的训练方法或音频生成方法。

另一方面，本申请提出了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上述所述的音频生成网络的训练方法或音频生成方法。

另一方面，本申请提出了一种计算机程序产品，所述计算机程被处理器执行时实现如上述所述的音频生成网络的训练方法或音频生成方法。

本申请实施例提出的音频生成网络的训练方法，通过获取样本源音频和样本源音频的样本内容编码特征；对样本源音频中的语音音色进行音色编码处理，得到样本源音频的样本音色编码特征；输入样本内容编码特征、样本音色编码特征和目标样本语音音色至对抗网络中的预设音频生成网络进行音频生成处理，得到对应有所述样本语音风格和所述目标样本语音音色的样本预测音频；输入样本预测音频和样本源音频至对抗网络中的预设音频判别网络进行音频判别处理，得到音频判别结果；基于样本预测音频、样本源音频和音频判别结果，确定第一损失函数和第二损失函数；根据第一损失函数更新预设生成网络的参数，以及根据第二损失函数更新预设音频判别网络的参数，得到目标音频生成网络，由此通过一次性训练即可得到目标音频生成网络，无需分多个阶段进行训练，即实现了端对端的智能变声训练，该端对端的智能变声训练的流程较为简单，且避免了中间特征带来的质量下降，能够更好地发挥神经网络的表征能力，更直接地将波形的建模误差传递到整个神经网络，从而提高了目标音频生成网络的训练精度，降低了目标音频生成网络的训练成本以及该目标音频生成网络的训练过程对***资源的消耗。再者，本申请实施例提出的智能变音***是一个基于非平行语料训练的(即不需要两个人说一模一样的话的这种平行语料)，也即不需要一一对应的样本音频和目标说话人音频，能够进一步降低目标音频生成网络的训练过程对***资源的消耗。

此外，在使用该目标音频生成网络生成目标音频的过程中，由于目标音频生成网络是基于端对端的方式训练得到的，通过该目标音频生成网络生成目标音频，不仅能够高度逼真的还原源音频的内容、节奏和语气，还可以与目标音色保持很高的音色相似度，从而提高了音频合成的精度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是根据一示例性实施例示出的一种方法的实施环境示意图。

图2是根据一示例性实施例示出的一种音频生成网络的训练方法的流程示意图一。

图3是根据一示例性实施例示出的一种音频生成网络的训练方法的流程示意图二。

图4是根据一示例性实施例示出的一种音频生成网络的训练方法的流程示意图三。

图5是根据一示例性实施例示出的一种音频生成方法的流程图一。

图6是根据一示例性实施例示出的一种音频生成方法的流程图二。

图7是根据一示例性实施例示出的一种音频生成网络的训练装置的框图。

图8是根据一示例性实施例示出的一种音频生成装置的框图。

图9是根据一示例性实施例提供的一种服务器的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请实施例的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了使本申请实施例公开的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请实施例进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请实施例，并不用于限定本申请实施例。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

需要说明的是，在本申请的具体实施方式中，涉及到用户信息(例如，说话人的身份、声音、情感、语气……)等相关的数据，当本申请的实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括图像语义理解技术、语音技术、自然语言处理技术以及机器学习/深度学习等几大方向。

具体地，本申请实施例涉及人工智能领域中的语音技术。其中，语音技术的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

图1是根据一示例性实施例示出的一种音频生成网络的训练方法或音频生成方法的实施环境示意图。如图1所示，该实施环境至少可以包括终端01和服务器02，该终端01和服务器02之间可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例在此不做限制。

具体地，该服务器02可以用于训练目标音频生成网络以及使用训练好的目标网络生成目标音频。可选地，该服务器02可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

具体地，该终端01可以用于采集样本源音频、待处理音频；以及用于将样本源音频、待处理音频发送至服务器进行处理；以及用于接收服务器生成的目标音频，并对目标音频进行播放。可选地，该终端01可以包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。

本申请实施例可以应用于各种具有语音合成能力、游戏配音、直播娱乐场景、智能客服的产品中，包括但不限于智能音箱、有屏音箱、智能手表、智能手机、智能家居、智能汽车等智能设备，智能机器人、虚拟主播、虚拟助教、智能客服、智能变音云服务等等。使用本申请实施例提供的方法可以降低AI数据录制的成本并提升合成音频的表现力，同时提供广阔的娱乐应用效果。

需要说明的是，图1仅仅是一种示例。在其他场景中，还可以包括其他实施环境。

为了便于理解本申请实施例的技术方案及其产生的技术效果，首先对本申请实施例对所使用到的技术术语进行解释：

VC：全称为Voice Conversion，中文名一般为语音转换、变声等。即给定任意一个说话人的音频，都可以转换为其他说话人的声音，并且保留语气、情感、内容等信息。

智能变声：是指基于人工智能的技术来实现变声的效果。

源说话人音频：是指要被智能变音的输入音频。

目标音色音频：是指希望转到的目标音色说话人的音频。

端到端训练：是指模型的输入和输出分别是源音频和目标音频，并且一次性训练即可得到想要的效果，而不用分多个阶段进行。

基频(Fundamental Frequency，F0)：是指一段音频发声部分的振动频率，或者说是一秒内振动的次数，单位为赫兹(Hz)。通常基频的范围是80～450Hz。

梅尔谱(MelFilterbanks)：对音频进行傅里叶变换后得到功率谱，然后对功率谱使用梅尔尺度的滤波器进行滤波得到。

说话人表征(Speaker Embedding)：用来区分不同说话人身份或音色的向量。

音高参数(Pitch Parameters)：指的是音高和相关系数两个变量。

图2是根据一示例性实施例示出的一种音频生成网络的训练方法的流程示意图一。该方法可以用于图1中的实施环境中。本说明书提供了如实施例或流程图上述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的***或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示，该方法可以包括：

S101.获取样本源音频和样本源音频的样本内容编码特征；样本源音频对应有样本语音风格。

该实施例中的样本源音频为训练过程中需要被智能变声的输入音频，其可以为各种类型的音频，本申请实施例对该样本源音频的类型不做具体限定。该样本源音频对应有样本语音风格和样本语音音色。可选地，样本语音风格可以指的该样本源音频的对象的语气、情绪、情感、说话节奏等。样本语音音色指的是发出该样本源音频的对象的音色。其中，“对象”指的是发出该样本源音频的说话人。

该实施例中的样本内容编码特征为该样本源音频的内容表征，其可以通过对样本源音频的语音内容进行编码得到，本申请实施例可以采用多种方式获取该样本内容编码特征，在此不做具体限定。

本申请实施例提出的智能变音***是一个基于非平行语料训练的(即不需要两个人说一模一样的话的这种平行语料)，也就是不需要一一对应的样本音频和目标说话人音频，而是基于自动编解码器的思想，只需要样本源音频即可训练。

S103.对样本源音频中的语音音色进行音色编码处理，得到样本源音频的样本音色编码特征。

该实施例中的样本音色编码特征可以为发出该样本源音频的对象的身份表征向量(样本说话人向量)，其可以通过对发出该样本源音频的对象的语音音色进行编码得到，本申请实施例可以采用多种方式获取该样本音色编码特征，在此不做具体限定。

S105.输入样本内容编码特征、样本音色编码特征和目标样本语音音色至对抗网络中的预设音频生成网络进行音频生成处理，得到样本预测音频；样本预测音频对应有样本语音风格和目标样本语音音色。

该实施例中的目标样本语音音色为需要将样本源音频中的语音音色转换到的语音音色。例如，样本源音频中的说话人为张三，需要将张三的音色转转换为李四的音色，则李四的音色为目标样本语音音色。

本申请实施例可以采用基于生成式对抗网络(Generative AdversarialNetwork，GAN)的训练方法训练得到目标音频生成网络，该对抗网络可以包括预设音频生成网络和预设音频判别网络。针对该预设音频生成网络，可以将样本内容编码特征、样本音色编码特征和目标样本语音音色至对抗网络中的预设音频生成网络，以通过该预设音频生成网络进行音频生成处理，得到对应有样本语音风格和目标样本语音音色的样本预测音频。

可选地，该样本预测音频对应有样本语音风格，指的是该样本预测音频可以高度还原样本源音频的节奏、语气、情绪、情感等。该样本预测音频对应有目标样本语音音色，指的是样本预测音频与目标样本语音音色具有较高的音色相似度。需要说明的是，样本预测音频与样本源音频具有相同的语音内容。

S107.输入样本预测音频和样本源音频至对抗网络中的预设音频判别网络进行音频判别处理，得到音频判别结果。

S109.基于样本预测音频、样本源音频和音频判别结果，确定第一损失函数和第二损失函数。

S1011.根据第一损失函数更新预设生成网络的参数，以及根据第二损失函数更新预设音频判别网络的参数，得到目标音频生成网络。

该实施例中，在得到样本预测音频之后，可以输入样本预测音频和样本源音频至对抗网络中的预设音频判别网络，以通过该预设音频判别网络对样本预测音频和样本源音频进行打分，打分越接近于1表示预设音频判别网络认为音频是真实的，而越接近于0表示音频不是真的，从而得到音频判别结果。

在得到音频判别结果之后，可以基于样本预测音频、样本源音频和音频判别结果，确定预设生成网络的第一损失函数和预设音频判别网络的第二损失函数，并基于第一损失函数更新预设生成网络的参数，以及根据第二损失函数更新预设音频判别网络的参数，得到目标音频生成网络。在训练时，预设音频判别网络通常认为预设音频生成网络生成的样本预测音频不够真实。这样，预设音频生成网络为了骗过预设音频判别网络，只能生成更加真实的音频。预设音频生成网络和预设音频判别网络在这样的零和博弈中不断提高自己的能力，最终，预设音频生成网络生成的样本预测音频接近真实音频，由此就可以训练得到一个质量较高的目标音频生成网络。由此，通过一次性训练即可得到目标音频生成网络，无需分多个阶段进行训练，即实现了端对端的智能变声训练，该端对端的智能变声训练的流程较为简单，且避免了中间特征带来的质量下降，能够更好地发挥神经网络的表征能力，更直接地将波形的建模误差传递到整个神经网络，从而提高了目标音频生成网络的训练精度，降低了目标音频生成网络的训练成本以及该目标音频生成网络的训练过程对***资源的消耗；本申请实施例提出的智能变音***是一个基于非平行语料训练的(即不需要两个人说一模一样的话的这种平行语料)，也就是不需要一一对应的样本音频和目标说话人音频，能够进一步降低目标音频生成网络的训练过程对***资源的消耗。

在一个可行的实施例中，上述样本源音频的样本内容编码特征可以通过流式的低延迟的内容编码器(例如，Emformer模型)来获取得到。该内容编码器先通过预设时间窗口(例如，200ms)对音频进行分片，得到多个窗口。该内容编码器每次识别某个窗口后会将状态信息传递给后面的窗口，使得后面的窗口可以有效缓存前面的信息，即该编码器通过分片+有效缓存前片的方式高效地实现流式的低延迟。该内容编码器可以以语音识别中的损失函数(例如，CTC损失函数)进行训练得到。为了使得内容编码器产生的特征足够鲁棒且丰富，可以将Emformer模型在较多对象的较多场景下的语音识别语料上进行充分的预训练，得到预训练好的Emformer模型。对将从样本源音频中提取的对数级别梅尔滤波输入至预训练好的Emformer模型，并且获取预训练后的Emformer模型的第预设层(例如，第24层)的输出特征作为内容编码器的输出，对该输出特征进行归一化，并以此作为样本源音频的内容表征，从而得到样本内容编码特征。

图3是根据一示例性实施例示出的一种音频生成网络的训练方法的流程示意图二，如图3所示，在一个可选的实施例中，在上述步骤S103中，上述对样本源音频中的语音音色进行音色编码处理，得到样本源音频的样本音色编码特征，可以包括：

S1031.获取样本源音频的样本频谱，在时间维度随机打乱样本频谱，得到处理后的样本频谱。

S1033.输入处理后的样本频谱至深度残差卷积网络进行音色编码处理，得到样本源音频的样本初始音色编码特征。

S1035.在时间维度对样本初始音色编码特征进行平均池化处理，得到样本音色编码特征。

可选地，样本源音频的数量可以为多个，该样本源音频可以对应多个说话人，每个说话人对应有不同的训练预料。在上述步骤S1031中，可以对各个样本源音频进行傅里叶变换，以将各个样本源音频从时域转换为频域，得到各个样本源音频的线性频谱，即样本频谱。由于样本频谱是从时域转换而来的，样本频谱中的频率均可以与时域中的时间相对应，因此可以在时间维度对线性频谱进行随机打乱处理，即在样本源音频对应的音频时间上随机打乱该线性频谱，得到各个样本源音频对应的处理后的样本频谱。

可选地，上述步骤S1031-S1035可以通过声纹提取网络来实现，该声纹提取网络包括深度残差卷积网(Deep CNN)和平均池化层(Avg Pooling)。可以输入各个样本源音频对应的处理后的样本频谱至深度残差卷积网络，以经过多层二维卷积进行音色编码处理后得到新的特征序列，确定该新的特征序列为各个样本源音频的样本初始音色编码特征。然后再在时间维度上对这些新的特征序列做个平均池化即可得到发出各个样本源音频的对应的全局身份表征向量，即得到各个样本源音频的样本音色编码特征。

相比于传统固定的独热编码(one-hot)+全连接神经元结构的音色表征，本申请实施例的音色学习方案是从每个说话人的所有训练语料中直接充分学习得到，并且在每步训练迭代中，均是以完全随机打乱的频谱来作为深度残差卷积网络输入，这样不仅可以起到数据增广的效果，还可以进一步降低学习语料的成本；此外，本申请实施例引入的样本说话人向量表征，可以使得在少语料的情况下避免训练过拟合的现象，从而提高智能变音的鲁棒性。

在一个可选的实施例中，上述预设音频生成网络包括神经网络编码器和反卷积声码器。在上述步骤S105中，上述输入样本内容编码特征、样本音色编码特征和目标样本语音音色至对抗网络中的预设音频生成网络进行音频生成处理，得到样本预测音频，可以包括：

融合样本内容编码特征、样本音色编码特征和目标样本语音音色，得到目标样本编码特征。

输入目标样本编码特征至神经网络编码器进行上下文特征建模处理，得到样本上下文特征处理结果。

输入样本上下文特征处理结果至反卷积声码器，以将样本上下文特征处理结果转换为样本预测音频。

可选地，由于样本内容编码特征、样本音色编码特征和目标样本语音音色均与时间有关联，可以在时间维度融合样本内容编码特征、样本音色编码特征和目标样本语音音色，得到目标样本编码特征，即得到最终的汇总特征向量。接着可以将汇总特征向量输入到两层一维卷积神经网络的神经网络编码器中，以实现对汇总特征向量的上下文表征建模，从而增强相邻特征之间的相互作用，得到样本上下文特征处理结果。接着可以使用基于反卷积声码器(例如，基于HiFiGAN的反卷积声码器)将频谱转化成波形，得到样本预测音频。

由于样本音色编码特征是从每个说话人的所有训练语料中直接充分学习得到的，不仅可以起到数据增广的效果，还可以进一步降低学习语料的成本。样本内容编码特征是通过Emformer模型得到的，鲁棒性较高。通过该样本音色编码特征和样本内容编码特征融合生成目标样本编码特征，并以该目标样本编码特征为基础生成样本预测音频，能够提高样本预测音频的生成精度，使得生成的样本预测音频不仅能够高度逼真的还原样本源音频的内容、节奏和语气，还可以与目标样本语音音色保持很高的音色相似度，从而提高了样本预测音频的生成精度；此外，通过目标样本编码特征对神经网络编码器进行上下文特征建模处理，能够增强相邻特征之间的相互作用，进一步提高样本预测音频的生成精度。

可选地，预设音频判别网络包括多尺度判别网络、多周期判别网络和多层级判别网络。则继续如图3所示，在上述步骤S107中，上述输入样本预测音频和样本源音频至对抗网络中的预设音频判别网络进行音频判别处理，得到音频判别结果，可以包括：

S1071.分别输入目标样本音频至多尺度判别网络、多周期判别网络和多层级判别网络，以通过多尺度判别网络对目标样本音频进行多层下采样处理，得到目标样本音频的第一样本音频判别结果和第一样本语音特征；目标样本音频为样本预测音频或样本源音频；

以及通过多周期判别网络对目标样本音频进行分段处理，得到目标样本音频对应的至少两个语音片段；对至少两个语音片段分别进行语音判别处理，基于判别结果得到目标样本音频的第二样本音频判别结果和第二样本语音特征；

以及通过多层级判别网络对目标样本音频进行时间维度和通道维度的判别处理，得到目标样本音频的第三样本音频判别结果和第三样本语音特征。

S1073.根据第一样本音频判别结果、第一样本语音特征、第二样本音频判别结果、第二样本语音特征、第三样本音频判别结果和第三样本语音特征生成音频判别结果。

该实施例提出了一个可以生成高清逼真的语音波形的对抗式多判别器训练方案。该对抗式多判别器训练方案引入了多尺度判别网络、多周期判别网络和多层级判别网络。

该多尺度判别网络用于对样本预测音频或样本源音频的波形进行多层级降维，并经过一维深度卷积神经网络对波形的时间维度进行处理，以获得样本预测音频或样本源音频的第一样本音频判别结果、第一样本语音特征

该多尺度判别网络的本质是对样本预测音频或样本源音频的波形进行多尺度(例如，1/2、1/4、1/8等)的下采样，因此，第一样本语音特征可以认为是不同波形尺度的隐含特征。该第一样本音频判别结果可以为该多尺度判别网络输出的、对样本预测音频或样本源音频的打分。打分越接近于1表示预设音频判别网络认为音频是真实的，而越接近于0表示音频不是真的。

该周期判别网络用于对样本预测音频或样本源音频的波形分别进行分段处理，以将样本预测音频或样本源音频的波形分别划分为不同长度的片段组合，得到样本预测音频或样本源音频的至少两个语音片段。再使用二维深度卷积神经网络对不同片段组合进行处理获得判别真伪的得分以及不同的隐含特征。该判别真伪的得分可以认为是第二样本音频判别结果，该不同的隐含特征可以认为是第二样本语音特征。

例如，可以对样本预测音频或样本源音频的波形分别划分周期为2,3,5,7,11的多个片段组合，相当于得到了样本预测音频或样本源音频的五张长宽不同的照片。每个周期的片段都会有一个得分，最终对五个周期的得分取平均值即可得到样本预测音频或样本源音频的第二样本音频判别结果。此处的隐含特征可以是提取了二维深度卷积神经网络的中间层状态矩阵。由于傅里叶变换后的矩阵是一个时频图，既有时域也有频域，因此使用二维深度卷积神经网络来刻画时频之间的内在联系，能够提高第二样本音频判别结果和第二样本语音特征的确定准确率。

该多层级判别网络为对傅里叶变换后的线性幅度频谱的多层级判别器，通过使用二维深度卷积神经网络对预测音频或样本源音频的频谱的时间维度和通道维度进行同时处理获得判别真伪的得分以及不同的隐含特征。该判别真伪的得分可以为第三样本音频判别结果，该不同的隐含特征可以是第三样本语音特征。因为傅里叶变换后的矩阵是一个时频图，既有时域也有频域，使用二维深度卷积神经网络来刻画时频之间的内在联系，能够提高第三样本音频判别结果和第三样本语音特征的确定准确率。此处的隐含特征指的就是某些二维卷积层的输出矩阵。

可选地，在上述步骤S1073中，可以将第一样本音频判别结果、第一样本语音特征、第二样本音频判别结果、第二样本语音特征、第三样本音频判别结果和第三样本语音特征确定为音频判别结果。在另一种实施方式中，还可以根据实际业务需求，对上述各个样本判别结果和样本语音特征乘以对应的权重，根据对应的权重生成该音频判别结果。

本申请实施例通过对抗式多判别器训练方案能够得到不同维度的样本音频判别结果和样本语音特征，通过不同维度的样本音频判别结果和样本语音特征进行网络训练，提高了目标音频生成网络的训练精度，从而能够通过训练好的目标音频生成网络生成高清逼真的语音波形。

在一个可选的实施例中，继续如图3所示，在上述步骤S109中，上述基于样本预测音频、样本源音频和音频判别结果，确定第一损失函数和第二损失函数，可以包括：

S1091.分别获取样本预测音频的第一样本梅尔谱和样本源音频的第二样本梅尔谱；以及根据第一样本梅尔谱和第二样本梅尔谱的差异，生成第一损失子函数。

S1093.根据样本预测音频的样本语音特征和样本源音频的样本语音特征之间的差异，生成第二损失子函数；样本预测音频的样本语音特征为基于样本预测音频的第一样本语音特征、第二样本语音特征和第三样本语音特征生成，样本源音频的样本语音特征为基于样本源音频的第一样本语音特征、第二样本语音特征和第三样本语音特征生成。

S1095.基于样本预测音频的第一样本音频判别结果、第二样本音频判别结果和第三样本音频判别结果，生成第三损失子函数。

S1097.对第一损失子函数、第二损失子函数和第三损失子函数进行数学运算，得到第一损失函数。

S1099.根据样本预测音频的第一音频判别结果、第二音频判别结果和第三音频判别结果，以及样本源音频的第一音频判别结果、第二音频判别结果和第三音频判别结果，生成第二损失函数。

上述步骤S1091-步骤S1097为计算预设音频生成网络的第一损失函数的过程，该第一损失函数的生成过程可以为：

一方面，在上述步骤S1091中，本申请实施例可以获取样本预测音频的第一样本梅尔谱和样本源音频的第二样本梅尔谱，计算第一样本梅尔谱和样本源音频的第二样本梅尔谱之间进行绝对值差的计算，得到重构损失函数(Reconstruction Loss)，即重构损失函数。

另一方面，本申请实施例还可以计算样本预测音频经过上述三个判别器得到N组特征，与样本源音频经过上述三个判别器得到N组特征之间的差值，得到第二损失子函数。该样本预测音频经过上述三个判别器得到N组特征可以为对样本预测音频的第一样本语音特征、第二样本语音特征和第三样本语音特征进行组合生成。该样本源音频的经过上述三个判别器得到N组特征可以为对样本源音频的第一样本语音特征、第二样本语音特征和第三样本语音特征进行组合生成。

第三方面，本申请实施例还可以将样本预测音频的波形送入上述三个判别器的判别得分(即第一样本音频判别结果、第二样本音频判别结果和第三样本音频判别结果)来作为预设生成网络的指导信号，得到对抗损失函数(Adversarial Loss)，即第三损失子函数。

在得到第一损失子函数、第二损失子函数和第三损失子函数之后，本申请实施例可以对第一损失子函数、第二损失子函数和第三损失子函数进行数学运算，得到第一损失函数。可选地，该数学运算可以包括但不限于：求和运算、加权求和运算等。

上述步骤S1099为计算预设音频判别网络的第二损失函数的过程，该第二损失函数的生成过程可以为：

将样本预测音频和样本源音频的波形分别送入以上三个判别器得到的真和伪的判别得分(即样本预测音频的第一音频判别结果、第二音频判别结果和第三音频判别结果，以及样本源音频的第一音频判别结果、第二音频判别结果和第三音频判别结果)，作为判别器的损失函数。

本申请实施例在得到第一损失函数和第二损失函数之后，可以根据第一损失函数更新预设生成网络的参数，以及根据第二损失函数更新预设音频判别网络的参数，网络收敛的目标是预设音频判别网络能够将样本源音频和样本预测波形都判别为真即可，这说明预设音频生成网络产生的波形已经足够逼真了，从而得到训练完成的目标音频生成网络。

本申请实施例采用的是基于GAN的训练方案，而不是单纯的L1或L2 loss的训练方案，可以避免频谱过度平滑，并且使得音质高清、同时也能够提高目标音色建模的相似度。再者，本申请实施例采取的端到端的训练方案，相比于传统的以梅尔谱为中间过渡特征的声学模型和声码器两阶段的训练方案，可以使得误差传播更加充分，从而进一步提高音质高清度和音色相似度。且该端对端的智能变声训练的流程较为简单，而且避免了中间特征带来的质量下降，能够更好地发挥神经网络的表征能力，更直接地将波形的建模误差传递到整个神经网络，从而提高了目标音频生成网络的训练精度，降低了目标音频生成网络的训练成本以及该目标音频生成网络的训练过程对***资源的消耗。

需要说明的是，上述步骤S101-S1011中可以适应实时性要求特别高、同时录音语气和情绪变化很小的使用场景下，例如，常规说话场景。而在游戏配音等语气丰富场景下，为了既能够高度逼真的还原源音频的内容、节奏和语气，又可以与目标音色保持很高的音色相似度，还可以在上述步骤S101-S1011的基础上引入基频(F0)特征。相应地，上述音频生成网络的训练方法还包括：

获取样本源音频的样本基频特征；以及基于样本基频特征复合目标样本语音音色，得到复合目标样本语音音色的样本基频特征。

图4是根据一示例性实施例示出的一种音频生成网络的训练方法的流程示意图三，如图4所示，该实施例中，除了获取样本内容编码特征和样本音色编码特征之外，还可以提取样本源音频的振动频率，得到样本基频特征(样本F0特征)，该样本F0特征可以用于复合目标样本语音音色，得到复合目标样本语音音色的样本基频特征。

相应地，继续如图4所示，在上述步骤S1015中，上述输入样本内容编码特征、样本音色编码特征和目标样本语音音色至对抗网络中的预设音频生成网络进行音频生成处理，得到样本预测音频，包括：

输入样本内容编码特征、样本音色编码特征和复合目标样本语音音色的样本基频特征至预设音频生成网络进行音频生成处理，得到样本预测音频。

上述融合样本内容编码特征、样本音色编码特征和目标样本语音音色，得到目标样本编码特征，可以包括：融合样本内容编码特征、样本音色编码特征和复合目标样本语音音色的样本基频特征，得到目标样本编码特征。

该实施例中，在游戏配音等语气丰富场景下，除了输入样本内容编码特征、样本音色编码特征之外，还可以输入复合目标样本语音音色的样本基频特征至预设音频生成网络进行音频生成处理，从而提高变音效果的语音自然度、语音高清度和音色相似度，使得样本预测音频既可以最大程度上保证智能变音，又可以做到高度还原源说话人音频的语气与情绪，从而提高样本预测音频的生成精度。

在一个可选的实施例中，继续如图4所示，上述基于样本基频特征复合目标样本语音音色，得到复合目标样本语音音色的样本基频特征，可以包括：

S201.确定样本基频特征的对数，得到样本对数基频特征。

S203.归一化处理样本对数基频特征，并基于目标样本语音音色对归一化后的样本对数基频特征进行反归一化处理，得到反归一化后的样本对数基频特征。

S205.离散化反归一化后的样本对数基频特征，得到复合目标样本语音音色的样本基频特征。

可选地，在上述步骤S201-步骤S205中，可以确定样本基频特征的对数，得到样本对数基频特征(样本对数F0)，归一化处理该样本对数基频特征，得到归一化处理后的样本对数基频特征。使用目标样本语音音色对归一化后的样本对数基频特征进行全局的反归一化处理，即可得到复合目标样本音色的音高表现，从而得到反归一化后的样本对数基频特征。上述归一化处理和反归一化处理的过程可以认为是对对数F0进行计算并统计分布的过程。为了让网络更有效地学习不同音高的表现力，还可以将反归一化后的样本对数基频特征划分为预设档位(例如，划分成360个档位)，即离散化反归一化后的样本对数基频特征，得到复合目标样本语音音色的样本基频特征。接着通过嵌入式表征码表将复合目标样本语音音色的样本基频特征的转化成样本F0表征向量。

需要说明的是，上述归一化可以指的是对音频的采用频率进行归一化。例如，将音频的采样频率归一化为6kHz、24kHz、4.4kHz等。

该实施例通过将预设数量的说话人的训练语料中的F0进行计算并统计分布，然后对F0进行离散化处理，能够更有效地学习不同音高(pitch)的表现力，即本申请实施例显式地提供了目标样本语音音色的pitch，从而能够高度还原样本源音频中的说话人音频的语气、情绪，同时还能够复合目标样本音色的音高表现，使得样本预测音频既可以最大程度上保证智能变音，又可以做到高度还原样本源音频中的说话人音频的语气与情绪，从而提高样本预测音频的生成精度。

在一个可行的实施例中，上述样本源音频包括至少两条样本语句，每条样本语句包括至少两个样本语音帧。则在上述步骤S201中，上述确定样本基频特征的对数，得到样本对数基频特征，可以包括：

确定每条样本语句对应的各个样本语音帧的样本基频特征的对数，得到每条样本语句对应的各个样本语音帧的样本对数基频特征。

在上述步骤S203中，上述归一化处理样本对数基频特征，包括：

对每条样本语句对应的各个样本语音帧的样本对数基频特征进行数学运算，对数学运算结果进行归一化处理，得到归一化后的样本对数基频特征。

该实施例中，该样本源音频包括至少两条样本语句，每条样本语句均对应有至少两个样本语音帧。每条样本语句对应的各个样本语音帧均可以提取到各自对应的样本对数基频特征。可以对样本源音频提取的样本对数F0首先做每个句子内部的归一化，再基于目标样本语音音色做全局的反归一化，并离散化得到相应的样本对数F0，再通过嵌入式表征码表将离散化后的样本对数F0转化成样本对数F0表征向量。

作为一种示例，目标样本语音音色做全局的反归一化的过程可以为：获取目标样本语音音色的所有音频的所有帧数的F0，计算出所有帧数的F0的总的平均值和标准差，通过该所有帧数的F0的总的平均值和标准差对归一化后的样本对数基频特征进行反归一化处理，得到反归一化后的样本对数基频特征。

该实施例对样本源音频提取的对数F0首先做每个句子内部的归一化，再基于目标样本语音音色做全局的反归一化，能够从更细致的维度学习不同音高的表现力，从而进一步高度还原源说话人音频的语气、情绪，同时还能够进一步复合目标样本音色的音高表现，从而进一步显式地提供了目标样本语音音色的pitch，使得样本预测音频既可以最大程度上保证智能变音，又可以做到高度还原源说话人音频的语气与情绪，从而进一步提高样本预测音频的生成精度。

本申请实施例提供的音频生成网络的训练方法，具有如下有益效果：

1)本申请实施例提出一种端到端智能变音的训练算法框架，相比于传统的以梅尔谱为中间过渡特征的声学模型和声码器两阶段的训练方案，本申请实施例提出的端对端的智能变声训练的流程较为简单，而且避免了中间特征带来的质量下降，能够更好地发挥神经网络的表征能力，更直接地将波形的建模误差传递到整个神经网络。从而提高了目标音频生成网络的训练精度，降低了目标音频生成网络的训练成本以及该目标音频生成网络的训练过程对***资源的消耗。此外，采用基于GAN的训练方案而不是单纯的L1或L2 loss的训练方案，可以避免频谱过度平滑，并且使得音质高清、同时也会提高目标语音音色建模的相似度。

2)本申请实施例提出了全并行的智能变音的神经网络，该网络以卷积神经元结构和全连接神经元结构(例如，Emformer模型)构成，不包含循环神经网络模块。相比于传统的循环神经网络为代表的智能变音算法，一方面本申请实施例采用的是并行运算的方案，可充分利用图形处理器(Graphics Processing Unit，GPU)的矩阵计算能力，以获得训练速度与推理速度的明显提升，从而提高模型推理阶段的实时性；另一方面本文模型不需要teacher-force的指导训练方案。因此，训练与推理之间没有效果差异。其中，teacher-force指的是将真实值作为输入的方式，例如用2～81时间步的真实值预测第82个。

3)本申请实施例引入的说话人向量(speaker encoder)表征，可以使得在少语料的情况下避免训练过拟合的现象，从而提高智能变音定制的鲁棒性。

4)本申请实施例显式地提供目标语音音色的pitch，使得转换出来的音频可以更逼真地复现源说话人的说话语气。

5)本申请实施例提出的智能变音***是一个基于非平行语料训练的(即不需要两个人说一模一样的话的这种平行语料)，也就是不需要一一对应的样本音频和目标说话人音频，能够进一步降低目标音频生成网络的训练过程对***资源的消耗；此外，对于智能变音自身的属性，本申请实施例也不需要对音频做任何的文本和韵律的标注操作，从而进一步低目标音频生成网络的训练过程对***资源的消耗。

图5是根据一示例性实施例示出的一种音频生成方法的流程图一。如图5所示，该音频生成方法可以包括：

S301.获取待处理源音频和目标对象音频；待处理源音频对应有目标语音风格，目标对象音频对应有目标语音音色。

该实施例中的待处理源音频为推理过程中需要被智能变声的输入音频，其可以为各种类型的音频，本申请实施例对该样本源音频的类型不做具体限定。该待处理源音频对应有目标语音风格。目标语音风格可以指的是发出该待处理源音频的对象的语气、情绪、情感、说话节奏等。该目标对象音频对应有目标语音音色，该目标语音音色指的是发出该目标对象音频的对象的音色。其中，“对象”指的是发出该待处理源音频的说话人。发出该目标对象音频的说话人，与发出该待处理源音频的说话人不同。

S303.对待处理源音频中的语音内容进行内容编码处理，得到待处理源音频的内容编码特征；以及对目标对象音频的语音音色进行音色编码处理，得到目标对象音频的音色编码特征。

该实施例中对待处理源音频中的语音内容进行内容编码处理的过程，请参阅上述实施例中获取样本源音频的样本内容编码特征的过程，在此不再赘述。

S305.输入内容编码特征和音色编码特征至目标音频生成网络进行音频生成处理，得到目标音频；其中，目标音频对应有目标语音风格和目标语音音色；目标音频生成网络为采用上述任一实施例中的音频生成网络的训练方法训练得到。

该实施例在得到内容编码特征和音色编码特征之后，可以输入内容编码特征和音色编码特征至目标音频生成网络进行音频生成处理，得到目标音频，以精准、实时地还原源说话人音频中的语气、韵律，并且高度逼近目标语音音色的效果，即使得目标音频对应有目标语音风格和目标语音音色，从而可以将任意发音人的音频转换为指定的多个人的音色的音频。同时，由于目标音频生成网络是通过端对端的方式训练得到的，通过该目标音频生成网络生成目标音频能够提高目标音频的生成效率。此外，该实施例提供的音频生成方法可以用于游戏配音、网络直播、电话客服、数字人、娱乐助手等场景中，从而达到对目标语音音色的高自然度、高清晰度、高相似度的转换效果。

在一个可选的实施例中，在上述步骤S303中，上述目标对象音频的数量为至少两个，上述对目标对象音频的语音音色进行音色编码处理，得到目标对象音频的音色编码特征，可以包括：

输入每个目标对象音频至深度残差卷积网络进行音色编码处理，得到每个目标对象音频的初始音色编码特征。

对每个目标对象音频的初始音色编码特征进行平均池化处理，得到目标对象音频的音色编码特征。

推理阶段获取目标对象音频的音色编码特征，即获取说话人身份表征向量的过程与训练阶段的获取方式不同。在推理阶段，目标对象音频的数量为至少两个，每个目标对象音频均具有目标语音音色。可以将目标语音音色的所有训练集音频(即每个目标对象音频)均经过深度残差卷积网络提取到各自的身份表征向量，即得到各自的初始音色编码特征。接着对每个目标对象音频的初始音色编码特征进行平均池化处理，求取一个平均的身份表征向量，得到目标对象音频的音色编码特征。由此，可以将这个平均的身份表征向量作为固定向量输入到目标音频生成网络中，而不需要每次都计算一遍深度残差卷积网络和平均池化层等，从而提高了目标音频的生成效率，降低了目标音频的生成过程对***资源的消耗。

需要说明的是，上述步骤S301-S303中可以适应实时性要求特别高、同时录音语气和情绪变化很小的使用场景下，例如，常规说话场景。而在游戏配音等语气丰富场景下，为了不对变音效果的语音自然度、语音高清度、音色相似度产生明显影响，还可以在上述步骤S301-S303的基础上引入基频(F0)特征

相应地，图6是根据一示例性实施例示出的一种音频生成方法的流程图二，如图6所示，上述音频生成的方法还包括：

获取待处理源音频的基频特征；以及基于基频特征复合目标语音音色，得到复合目标语音音色的基频特征。

该实施例中，可以提取待处理源音频的振动频率，得到基频特征(F0特征)，该F0特征可以用于复合目标语音音色，得到复合目标语音音色的基频特征。

相应地，在上述步骤S305中，上述输入内容编码特征和音色编码特征至目标音频生成网络进行音频生成处理，得到目标音频，可以包括：

输入内容编码特征、音色编码特征和复合目标语音音色的基频特征至目标音频生成网络进行音频生成处理，得到目标音频。

该实施例中，在游戏配音等语气丰富场景下，除了输入内容编码特征、音色编码特征之外，还可以输入复合目标语音音色的基频特征至目标音频生成网络进行音频生成处理，从而提高变音效果的语音自然度、语音高清度和音色相似度，使得目标音频既可以最大程度上保证智能变音，又可以做到高度还原源说话人音频的语气与情绪，从而提高目标音频的生成精度。

在一个可选的实施例中，上述基于基频特征复合目标语音音色，得到复合目标语音音色的基频特征，可以包括：

确定基频特征的对数，得到对数基频特征。

归一化处理对数基频特征，并基于目标语音音色对归一化后的对数基频特征进行反归一化处理，得到反归一化后的对数基频特征。

离散化反归一化后的对数基频特征，得到复合目标语音音色的基频特征。

可选地，可以确定基频特征的对数，得到对数基频特征(对数F0)，归一化处理该对数基频特征，得到归一化处理后的对数基频特征。使用目标语音音色对归一化后的对数基频特征进行全局的反归一化处理，即可得到复合目标语音音色的音高表现，也即得到反归一化后的对数基频特征。上述归一化处理和反归一化处理的过程可以认为是对对数F0进行计算并统计分布的过程。为了让网络更有效地学习不同音高的表现力，还可以将反归一化后的对数基频特征划分为预设档位(例如，划分成360个档位)，即离散化反归一化后的对数基频特征，得到复合目标语音音色的样本基频特征。接着通过嵌入式表征码表将复合目标语音音色的样本基频特征的转化成F0表征向量。

该实施例通过将待处理源音频的说话人的语料中的F0进行计算并统计分布，然后对F0进行离散化处理，能够更有效地学习不同音高的表现力，从而高度还原待处理源音频中的说话人音频的语气、情绪，同时还能够复合目标语音音色的音高表现，使得生成的目标音频既可以最大程度上保证智能变音，又可以做到高度还原待处理源音频中的说话人音频的语气与情绪，从而进一步提高目标音频的生成精度。

在一个可选的实施例中，待处理源音频包括按照时间序列排序的至少两个语音帧，上述确定基频特征的对数，得到对数基频特征，包括：

确定每个语音帧的基频特征的对数，得到每个语音帧的对数基频特征。

相应地，上述归一化处理对数基频特征，包括：

对排序前预设数量个语音帧的对数基频特征进行数学运算。

对数学运算结果和剩余语音帧的对数基频特征进行归一化处理，得到归一化后的对数基频特征；剩余语音帧为至少两个语音帧中除排序前预设数量个语音帧之外的语音帧。

推理阶段获取F0表征向量，即获取复合目标语音音色的基频特征的过程与训练阶段的获取方式不同。在推理阶段，对待处理源音频提取的对数F0首先进行流式归一化，然后再做基于目标音色统计量的反归一化，并离散化得到相应的对数F0级别，再通过嵌入式表征码表将离散化后的F0级别转化成F0表征向量。

在一种实施方式中，流式归一化可以为：对排序前预设数量个语音帧的对数基频特征进行数学运算，例如，一次性计算排序前预设数量个语音帧的对数基频特征的平均值和标准差，得到排序前预设数量个语音帧的对数F0的统计量。对数学运算结果和剩余语音帧的对数基频特征进行移动的逐帧计算对数F0的统计量，得到归一化后的对数基频特征。其中，移动的逐帧计算F0的统计量可以为：将剩余语音帧按照时间顺序排序，得到剩余语音帧序列，计算剩余语音帧序列排序首位的语音帧的平均值和标准差，得到剩余语音帧序列排序首位的语音帧的对数F0的统计量，累计计算剩余语音帧序列排序首位的语音帧的对数F0的统计量，与排序前预设数量个语音帧的对数F0的统计量的均值，得到一个当前累计对数F0平均值。计算剩余语音帧序列排序第二位的语音帧的平均值和标准差，得到剩余语音帧序列排序第二位的语音帧的对数F0的统计量，计算剩余语音帧序列排序第二位的语音帧的对数F0的统计量和上一次计算得到的累计对数F0平均值的平均值和标准差，重新得到当前累计F0平均值。以此类推，直至剩余语音帧序列中的每个语音帧的F0均被计算过。

该实施例首先统计待处理源音频中的说话人的一定持续时间的对数F0，并计算它的均值和标准差，然后对待处理源音频中的说话人的对数F0进行自归一化得到标准分布的对数F0，紧接着再用事先保存好的目标语音音色F0的均值和标准差进行反归一化，即可得到复合目标语音音色的音高表现，从而很大程度上保证流式智能变音，且可以做到高度还原源说话人音频的语气与情绪，从而进一步提高目标音频的生成精度。

图7是根据一示例性实施例示出的一种音频生成网络的训练装置的框图，如图7所示，该音频生成网络的训练装置包括：

样本音频内容获取模块401，用于获取样本源音频和样本源音频的样本内容编码特征；样本源音频对应有样本语音风格。

样本音色编码特征生成模块403，用于对样本源音频中的语音音色进行音色编码处理，得到样本源音频的样本音色编码特征。

样本预测音频生成模块405，用于输入样本内容编码特征、样本音色编码特征和目标样本语音音色至对抗网络中的预设音频生成网络进行音频生成处理，得到样本预测音频；样本预测音频对应有样本语音风格和目标样本语音音色。

音频判别结果生成模块407，用于输入样本预测音频和样本源音频至对抗网络中的预设音频判别网络进行音频判别处理，得到音频判别结果。

损失函数确定模块409，用于基于样本预测音频、样本源音频和音频判别结果，确定第一损失函数和第二损失函数。

更新模块4011，用于根据第一损失函数更新预设生成网络的参数，以及根据第二损失函数更新预设音频判别网络的参数，得到目标音频生成网络。

在一个可选的实施例中，上述样本音色编码特征生成模块403，包括：

打乱单元，用于获取样本源音频的样本频谱，在时间维度随机打乱样本频谱，得到处理后的样本频谱。

样本初始音色编码特征生成单元，用于输入处理后的样本频谱至深度残差卷积网络进行音色编码处理，得到样本源音频的样本初始音色编码特征。

第一平均池化处理单元，用于在时间维度对样本初始音色编码特征进行平均池化处理，得到样本音色编码特征。

在一个可选的实施例中，预设音频生成网络包括神经网络编码器和反卷积声码器，上述样本预测音频生成模块405包括：

融合单元，用于融合样本内容编码特征、样本音色编码特征和目标样本语音音色，得到目标样本编码特征。

建模单元，用于输入目标样本编码特征至神经网络编码器进行上下文特征建模处理，得到样本上下文特征处理结果。

转换单元，用于输入样本上下文特征处理结果至反卷积声码器，以将样本上下文特征处理结果转换为样本预测音频。

在一个可选的实施例中，预设音频判别网络包括多尺度判别网络、多周期判别网络和多层级判别网络，上述音频判别结果生成模块407，包括：

判别处理单元，用于分别输入目标样本音频至多尺度判别网络、多周期判别网络和多层级判别网络，以通过多尺度判别网络对目标样本音频进行多层下采样处理，得到目标样本音频的第一样本音频判别结果和第一样本语音特征；目标样本音频为样本预测音频或样本源音频。

以及通过多周期判别网络对目标样本音频进行分段处理，得到目标样本音频对应的至少两个语音片段；对至少两个语音片段分别进行语音判别处理，基于判别结果得到目标样本音频的第二样本音频判别结果和第二样本语音特征。

音频判别结果生成模块，用于根据第一样本音频判别结果、第一样本语音特征、第二样本音频判别结果、第二样本语音特征、第三样本音频判别结果和第三样本语音特征生成音频判别结果。

在一个可选的实施例中，上述损失函数确定模块409，包括：

第一损失子函数生成单元，用于分别获取样本预测音频的第一样本梅尔谱和样本源音频的第二样本梅尔谱；以及根据第一样本梅尔谱和第二样本梅尔谱的差异，生成第一损失子函数。

第二损失子函数生成单元，用于根据样本预测音频的样本语音特征和样本源音频的样本语音特征之间的差异，生成第二损失子函数；样本预测音频的样本语音特征为基于样本预测音频的第一样本语音特征、第二样本语音特征和第三样本语音特征生成，样本源音频的样本语音特征为基于样本源音频的第一样本语音特征、第二样本语音特征和第三样本语音特征生成。

第三损失子函数生成单元，用于基于样本预测音频的第一样本音频判别结果、第二样本音频判别结果和第三样本音频判别结果，生成第三损失子函数；

第一损失函数生成单元，用于对第一损失子函数、第二损失子函数和第三损失子函数进行数学运算，得到第一损失函数。

第二损失函数生成单元，用于根据样本预测音频的第一音频判别结果、第二音频判别结果和第三音频判别结果，以及样本源音频的第一音频判别结果、第二音频判别结果和第三音频判别结果，生成第二损失函数。

在一个可选的实施例中，上述装置还包括：

样本基频获取复合模块，用于获取样本源音频的样本基频特征；以及基于样本基频特征复合目标样本语音音色，得到复合目标样本语音音色的样本基频特征。

相应地，上述样本预测音频生成模块405，用于输入样本内容编码特征、样本音色编码特征和复合目标样本语音音色的样本基频特征至预设音频生成网络进行音频生成处理，得到样本预测音频。

在一个可选的实施例中，上述样本基频获取复合模块，包括：

样本对数基频特征生成单元，用于确定样本基频特征的对数，得到样本对数基频特征。

第一归一和反归一化单元，用于归一化处理样本对数基频特征，并基于目标样本语音音色对归一化后的样本对数基频特征进行反归一化处理，得到反归一化后的样本对数基频特征。

第一离散单元，用于离散化反归一化后的样本对数基频特征，得到复合目标样本语音音色的样本基频特征。

在一个可选的实施例中，上述样本源音频包括至少两条样本语句，每条样本语句包括至少两个样本语音帧；

上述样本对数基频特征生成单元，用于确定每条样本语句对应的各个样本语音帧的样本基频特征的对数，得到每条样本语句对应的各个样本语音帧的样本对数基频特征。

上述第一归一和反归一化单元，用于对每条样本语句对应的各个样本语音帧的样本对数基频特征进行数学运算，对数学运算结果进行归一化处理，得到归一化后的样本对数基频特征。

图8是根据一示例性实施例示出的一种音频生成装置的框图，如图8所示，该音频生成装置包括：

音频获取模块501，用于获取待处理源音频和目标对象音频；待处理源音频对应有目标语音风格，目标对象音频对应有目标语音音色；

编码音色特征获取模块503，用于对待处理源音频中的语音内容进行内容编码处理，得到待处理源音频的内容编码特征；以及对目标对象音频的语音音色进行音色编码处理，得到目标对象音频的音色编码特征；

目标音频生成模块505，用于输入内容编码特征和音色编码特征至目标音频生成网络进行音频生成处理，得到目标音频；

其中，目标音频对应有目标语音风格和目标语音音色；目标音频生成网络为采用上述音频生成网络的训练方法训练得到。

在一个可选的实施例中，上述目标对象音频的数量为至少两个，上述编码音色特征获取模块503，包括：

初始音色编码特征生成单元，用于输入每个目标对象音频至深度残差卷积网络进行音色编码处理，得到每个目标对象音频的初始音色编码特征；

第二平均池化处理单元，用于对每个目标对象音频的初始音色编码特征进行平均池化处理，得到目标对象音频的音色编码特征。

在一个可选的实施例中，上述装置还包括：

基频获取复合模块，用于获取待处理源音频的基频特征；以及基于基频特征复合目标语音音色，得到复合目标语音音色的基频特征。

相应地，上述目标音频生成模块505，用于输入内容编码特征、音色编码特征和复合目标语音音色的基频特征至目标音频生成网络进行音频生成处理，得到目标音频。

在一个可选的实施例中，上述基频获取复合模块，包括：

对数基频特征生单元，用于确定基频特征的对数，得到对数基频特征。

第二归一化和反归一化单元，用于归一化处理对数基频特征，并基于目标语音音色对归一化后的对数基频特征进行反归一化处理，得到反归一化后的对数基频特征。

第二离散单元，用于离散化反归一化后的对数基频特征，得到复合目标语音音色的基频特征。

在一个可选的实施例中，待处理源音频包括按照时间序列排序的至少两个语音帧，则上述对数基频特征生单元，用于确定每个语音帧的基频特征的对数，得到每个语音帧的对数基频特征。

相应地，上述第二归一化和反归一化单元，包括：

运算子单元，用于对排序前预设数量个语音帧的对数基频特征进行数学运算。

归一化子单元，用于对数学运算结果和剩余语音帧的对数基频特征进行归一化处理，得到归一化后的对数基频特征；剩余语音帧为至少两个语音帧中除排序前预设数量个语音帧之外的语音帧。

需要说明的是，本申请实施例提供的装置实施例与上述方法实施例基于相同的发明构思。

本申请实施例还提供了一种音频生成网络的训练或音频生成方法的电子设备，该电子设备包括处理器和存储器，存储器中存储有至少一条指令或至少一段程序，至少一条指令或至少一段程序由处理器加载并执行以实现如上述任一实施例提供的音频生成网络的训练或音频生成方法。

本申请的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质可设置于终端之中以保存用于实现方法实施例中一种方法的至少一条指令或至少一段程序，至少一条指令或至少一段程序由处理器加载并执行以实现如上述方法实施例提供的音频生成网络的训练或音频生成方法。

可选地，在本说明书实施例中，存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书实施例存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用程序以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、功能所需的应用程序等；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方法实施例提供的音频生成网络的训练或音频生成方法。

本申请实施例所提供的音频生成网络的训练或音频生成方法实施例可以在终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例，图9是根据一示例性实施例提供的一种服务器的硬件结构框图。如图9所示，该服务器600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(Central ProcessingUnits，CPU)610(中央处理器610可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器630，一个或一个以上存储应用程序623或数据622的存储介质620(例如一个或一个以上海量存储设备)。其中，存储器630和存储介质620可以是短暂存储或持久存储。存储在存储介质620的程序可以包括一个或一个以上模块，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器610可以设置为与存储介质620通信，在服务器600上执行存储介质620中的一系列指令操作。服务器600还可以包括一个或一个以上电源660，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口640，和/或，一个或一个以上操作***621，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等等。

输入输出接口640可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器600的通信供应商提供的无线网络。在一个实例中，输入输出接口640包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，输入输出接口640可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解，图9所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器600还可包括比图9中所示更多或者更少的组件，或者具有与图9所示不同的配置。

需要说明的是：上述本申请实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和服务器实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频生成网络的训练方法，其特征在于，所述方法包括：

获取样本源音频和所述样本源音频的样本内容编码特征；所述样本源音频对应有样本语音风格；

2.根据权利要求1所述的音频生成网络的训练方法，其特征在于，所述对所述样本源音频中的语音音色进行音色编码处理，得到所述样本源音频的样本音色编码特征，包括：

获取所述样本源音频的样本频谱，在时间维度随机打乱所述样本频谱，得到处理后的样本频谱；

输入所述处理后的样本频谱至深度残差卷积网络进行音色编码处理，得到所述样本源音频的样本初始音色编码特征；

在时间维度对所述样本初始音色编码特征进行平均池化处理，得到所述样本音色编码特征。

3.根据权利要求1所述的音频生成网络的训练方法，其特征在于，所述预设音频生成网络包括神经网络编码器和反卷积声码器，所述输入所述样本内容编码特征、所述样本音色编码特征和目标样本语音音色至对抗网络中的预设音频生成网络进行音频生成处理，得到样本预测音频，包括：

融合所述样本内容编码特征、所述样本音色编码特征和所述目标样本语音音色，得到目标样本编码特征；

输入所述目标样本编码特征至所述神经网络编码器进行上下文特征建模处理，得到样本上下文特征处理结果；

输入所述样本上下文特征处理结果至所述反卷积声码器，以将所述样本上下文特征处理结果转换为所述样本预测音频。

4.根据权利要求1所述的音频生成网络的训练方法，其特征在于，所述预设音频判别网络包括多尺度判别网络、多周期判别网络和多层级判别网络，所述输入所述样本预测音频和样本源音频至所述对抗网络中的预设音频判别网络进行音频判别处理，得到音频判别结果，包括：

分别输入目标样本音频至所述多尺度判别网络、多周期判别网络和多层级判别网络，以通过所述多尺度判别网络对所述目标样本音频进行多层下采样处理，得到所述目标样本音频的第一样本音频判别结果和第一样本语音特征；所述目标样本音频为所述样本预测音频或所述样本源音频；

以及通过所述多周期判别网络对所述目标样本音频进行分段处理，得到所述目标样本音频对应的至少两个语音片段；对所述至少两个语音片段分别进行语音判别处理，基于判别结果得到所述目标样本音频的第二样本音频判别结果和第二样本语音特征；

以及通过所述多层级判别网络对所述目标样本音频进行时间维度和通道维度的判别处理，得到所述目标样本音频的第三样本音频判别结果和第三样本语音特征；

根据所述第一样本音频判别结果、所述第一样本语音特征、所述第二样本音频判别结果、所述第二样本语音特征、所述第三样本音频判别结果和所述第三样本语音特征生成所述音频判别结果。

5.根据权利要求4所述的音频生成网络的训练方法，其特征在于，所述基于所述样本预测音频、所述样本源音频和所述音频判别结果，确定第一损失函数和第二损失函数，包括：

分别获取所述样本预测音频的第一样本梅尔谱和所述样本源音频的第二样本梅尔谱；以及根据所述第一样本梅尔谱和所述第二样本梅尔谱的差异，生成第一损失子函数；

根据所述样本预测音频的样本语音特征和所述样本源音频的样本语音特征之间的差异，生成第二损失子函数；所述样本预测音频的样本语音特征为基于所述样本预测音频的第一样本语音特征、第二样本语音特征和第三样本语音特征生成，所述样本源音频的样本语音特征为基于所述样本源音频的第一样本语音特征、第二样本语音特征和第三样本语音特征生成；

基于所述样本预测音频的第一样本音频判别结果、第二样本音频判别结果和第三样本音频判别结果，生成第三损失子函数；

对所述第一损失子函数、所述第二损失子函数和所述第三损失子函数进行数学运算，得到所述第一损失函数；

根据所述样本预测音频的第一音频判别结果、第二音频判别结果和第三音频判别结果，以及所述样本源音频的第一音频判别结果、第二音频判别结果和第三音频判别结果，生成所述第二损失函数。

6.根据权利要求1至5中任一项所述的音频生成网络的训练方法，其特征在于，所述方法还包括：

获取所述样本源音频的样本基频特征；以及基于所述样本基频特征复合所述目标样本语音音色，得到复合目标样本语音音色的样本基频特征；

所述输入所述样本内容编码特征、所述样本音色编码特征和目标样本语音音色至对抗网络中的预设音频生成网络进行音频生成处理，得到样本预测音频，包括：

输入所述样本内容编码特征、样本音色编码特征和复合目标样本语音音色的样本基频特征至所述预设音频生成网络进行音频生成处理，得到所述样本预测音频。

7.根据权利要求6所述的音频生成网络的训练方法，其特征在于，所述基于所述样本基频特征复合所述目标样本语音音色，得到复合目标样本语音音色的样本基频特征，包括：

确定所述样本基频特征的对数，得到样本对数基频特征；

归一化处理所述样本对数基频特征，并基于所述目标样本语音音色对归一化后的样本对数基频特征进行反归一化处理，得到反归一化后的样本对数基频特征；

离散化所述反归一化后的样本对数基频特征，得到复合目标样本语音音色的样本基频特征。

8.根据权利要求7所述的音频生成网络的训练方法，其特征在于，所述样本源音频包括至少两条样本语句，每条样本语句包括至少两个样本语音帧；

所述确定所述样本基频特征的对数，得到样本对数基频特征，包括：

确定每条样本语句对应的各个样本语音帧的样本基频特征的对数，得到每条样本语句对应的各个样本语音帧的样本对数基频特征；

所述归一化处理所述样本对数基频特征，包括：

对每条样本语句对应的各个样本语音帧的样本对数基频特征进行数学运算，对数学运算结果进行归一化处理，得到所述归一化后的样本对数基频特征。

9.一种音频生成方法，其特征在于，所述方法包括：

其中，所述目标音频对应有所述目标语音风格和所述目标语音音色；所述目标音频生成网络为采用所述权利要求1至8中任一项所述的音频生成网络的训练方法训练得到。

10.根据权利要求9所述的音频生成方法，其特征在于，所述目标对象音频的数量为至少两个，所述对所述目标对象音频的语音音色进行音色编码处理，得到所述目标对象音频的音色编码特征，包括：

输入每个所述目标对象音频至深度残差卷积网络进行音色编码处理，得到每个所述目标对象音频的初始音色编码特征；

对每个所述目标对象音频的初始音色编码特征进行平均池化处理，得到所述目标对象音频的音色编码特征。

11.根据权利要求9所述的音频生成方法，其特征在于，所述方法还包括：

获取所述待处理源音频的基频特征；以及基于所述基频特征复合所述目标语音音色，得到复合目标语音音色的基频特征；

所述输入所述内容编码特征和所述音色编码特征至所述目标音频生成网络进行音频生成处理，得到目标音频，包括：

输入所述内容编码特征、所述音色编码特征和所述复合目标语音音色的基频特征至所述目标音频生成网络进行音频生成处理，得到所述目标音频。

12.根据权利要求11所述的音频生成方法，其特征在于，所述基于所述基频特征复合所述目标语音音色，得到复合目标语音音色的基频特征，包括：

确定所述基频特征的对数，得到对数基频特征；

归一化处理所述对数基频特征，并基于所述目标语音音色对归一化后的对数基频特征进行反归一化处理，得到反归一化后的对数基频特征；

离散化所述反归一化后的对数基频特征，得到所述复合目标语音音色的基频特征。

13.根据权利要求12所述的音频生成网络的训练方法，其特征在于，所述待处理源音频包括按照时间序列排序的至少两个语音帧，所述确定所述基频特征的对数，得到对数基频特征，包括：

确定每个语音帧的基频特征的对数，得到每个语音帧的对数基频特征；

所述归一化处理所述对数基频特征，包括：

对排序前预设数量个语音帧的对数基频特征进行数学运算；

对数学运算结果和剩余语音帧的对数基频特征进行归一化处理，得到归一化后的对数基频特征；所述剩余语音帧为所述至少两个语音帧中除所述排序前预设数量个语音帧之外的语音帧。

14.一种音频生成网络的训练装置，其特征在于，所述装置包括：

样本音频内容获取模块，用于获取样本源音频和所述样本源音频的样本内容编码特征；所述样本源音频对应有样本语音风格；

15.一种音频生成装置，其特征在于，所述装置包括：