CN115910002A

CN115910002A - 一种音频生成的方法、存储介质及电子设备

Info

Publication number: CN115910002A
Application number: CN202310017843.1A
Authority: CN
Inventors: 李太豪; 郑书凯; 阮玉平; 岳鹏程
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-01-06
Filing date: 2023-01-06
Publication date: 2023-04-04
Anticipated expiration: 2043-01-06
Also published as: CN115910002B

Abstract

本说明书公开了一种音频生成的方法、存储介质及电子设备，其中，可以获取实际音频以及该实际音频的相关信息；将该实际音频对应的歌词信息与音乐风格信息输入到歌谱生成模型中，得到歌谱预测结果，并以最小化该歌谱预测结果与该歌谱信息之间的差异为优化目标，对该歌谱预测模型进行训练。还可以将歌谱信息、歌词信息以及音乐风格信息输入到音频生成模型中，以使音频生成模型预测实际音频的音频频谱特征，并根据该音频频谱特征生成目标音频，并以最小化目标音频与实际音频之间的差异为优化目标，对音频生成模型进行训练，训练后的歌谱预测模型与训练后的音频生成模型可以共同用于通过用户的输入生成音频，从而提高了音乐生成的效果。

Description

一种音频生成的方法、存储介质及电子设备

技术领域

本说明书涉及神经网络领域，尤其涉及一种音频生成的方法、存储介质及电子设备。

背景技术

当前，在许多种业务场景中，可以存在有生成音乐的需求，例如，在幼儿教育相关的业务中，可以存在生成音乐的需求。

在实际应用中，根据用户的需求自动生成音乐在具体实现时技术难度较高，因此，如何有效地自动生成音乐，则是一个亟待解决的问题。

发明内容

本说明书提供一种音频生成的方法、装置、存储介质及电子设备，以部分的解决现有技术存在的上述问题。

本说明书采用下述技术方案：

本说明书提供了一种音频生成的方法，包括：

获取实际音频，所述实际音频对应的歌谱信息、歌词信息以及音乐风格信息；

将所述歌谱信息、所述歌词信息以及所述音乐风格信息输入到音频生成模型中，以使所述音频生成模型根据所述歌谱信息、所述歌词信息以及所述音乐风格信息，确定预设概率分布下的发音特征，并根据所述预设概率分布下的发音特征，确定所述实际音频的音频频谱特征，以及根据所述音频频谱特征生成目标音频；

以最小化所述目标音频与所述实际音频之间的差异为优化目标，对所述音频生成模型进行训练，训练后的音频生成模型用于通过用户输入的信息生成音频。

可选地，所述方法还包括：

将所述歌词信息与所述音乐风格信息输入到歌谱生成模型中，以得到生成的目标歌谱，以最小化所述目标歌谱与所述歌谱信息之间的差异为优化目标，对所述歌谱生成模型进行训练。

可选地，所述方法还包括：

获取用户输入的音乐风格信息以及歌词信息；

将所述音乐风格信息以及所述歌词信息输入到训练后的歌谱生成模型中，得到生成出的歌谱信息；

将所述生成出的歌谱信息、所述音乐风格信息以及所述歌词信息输入到训练后的音频生成模型，以生成与所述歌词信息对应的音频。

可选地，所述音频生成模型中包含分布预测网络以及分布转换网络；

将所述歌谱信息、所述歌词信息以及所述音乐风格信息输入到音频生成模型中，以使所述音频生成模型确定预设概率分布下的发音特征，并根据所述预设概率分布下的发音特征，确定所述实际音频的音频频谱特征，具体包括：

将所述歌谱信息、所述歌词信息以及所述音乐风格信息输入到所述音频生成模型中，以使所述音频生成模型通过所述分布预测网络，针对所述歌词信息中的每个语音单元，根据所述歌谱信息、所述歌词信息以及所述音乐风格信息，确定该语音单元对应的发音特征，所述发音特征符合所述预设概率分布，所述预设概率分布包括高斯分布；

将各语音单元对应的发音特征输入到所述分布转换网络中，得到所述音频频谱特征，其中，所述分布转换网络为可逆神经网络。

可选地，以最小化所述目标音频与所述实际音频之间的差异为优化目标，对所述音频生成模型进行训练，具体包括：

确定所述实际音频对应的实际频谱特征；

将所述实际频谱特征反向输入到所述分布转换网络中，得到所述分布转换网络转换得到的发音特征；

以最小化所述转换得到的发音特征，与所述各语音单元对应的发音特征之间的差异，以及最小化所述目标音频与所述实际音频之间的差异为优化目标，对所述音频生成模型进行训练。

可选地，所述歌谱信息中包括音符信息、音符时长信息以及音符连奏信息；

将所述歌谱信息、所述歌词信息以及所述音乐风格信息输入到音频生成模型中，以使所述音频生成模型确定预设概率分布下的发音特征，具体包括：

将所述歌谱信息、所述歌词信息以及所述音乐风格信息输入到所述音频生成模型中，确定所述歌谱信息中各音符信息对应的音符特征、音符时长信息对应的音符时长特征以及音符联奏信息对应的联奏特征，确定所述音乐风格信息对应的风格特征，以及确定歌词信息中各语音单元对应的信息特征；

根据所述音符特征、所述音符时长特征、所述联奏特征、所述风格特征以及所述信息特征，确定综合特征；

根据所述综合特征，确定预设概率分布下的发音特征。

可选地，所述音频生成模型中包括：时长预测网络；

根据所述综合特征，确定预设概率分布下的发音特征，具体包括：

将所述综合特征输入到所述时长预测网络中，预测每个语音单元对应的发音时长；

根据每个语音单元对应的发音时长，对所述综合特征进行调整，得到调整后的综合特征；

根据所述调整后的综合特征，确定预设概率分布下的发音特征；

以最小化所述目标音频与所述实际音频之间的差异为优化目标，对所述音频生成模型进行训练，具体包括：

以最小化预测出的每个语音单元对应的发音时长与所述实际音频中每个语音单元的实际发音时长之间的差异，以及最小化所述目标音频与所述实际音频之间的差异为优化目标，对所述音频生成模型进行训练。

可选地，根据所述综合特征，确定预设概率分布下的发音特征，包括：

根据所述综合特征以及所述音符特征，预测所述歌词信息中各语音单元对应的基频信息；

根据各语音单元的基频信息,确定预设概率分布下的发音特征；

以最小化所述目标音频与所述实际音频之间的差异，以及最小化所述基频信息与各语音单元的实际基频之间的差异为优化目标，对所述音频生成模型进行训练。

本说明书提供了一种音频生成的装置，包括：

获取模块，用于获取实际音频，所述实际音频对应的歌谱信息、歌词信息以及音乐风格信息；

输入模块，用于将所述歌谱信息、所述歌词信息以及所述音乐风格信息输入到音频生成模型中，以使所述音频生成模型根据所述歌谱信息、所述歌词信息以及所述音乐风格信息，确定预设概率分布下的发音特征，并根据所述预设概率分布下的发音特征，确定所述实际音频的音频频谱特征，以及根据所述音频频谱特征生成目标音频；

优化模块，用于以最小化所述目标音频与所述实际音频之间的差异为优化目标，对所述音频生成模型进行训练，训练后的音频生成模型用于通过用户输入的信息生成音频。

本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述音频生成的方法。

本说明书提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述音频生成的方法。

本说明书采用的上述至少一个技术方案能够达到以下有益效果：

从上述音频生成的方法中可以看出，可以获取实际音频，该实际音频对应的歌谱信息、歌词信息以及音乐风格信息；而后，将歌谱信息、歌词信息以及音乐风格信息输入到音频生成模型中，以使音频生成模型根据歌谱信息、歌词信息以及音乐风格信息，确定预设概率分布下的发音特征，并根据预设概率分布下的发音特征，确定实际音频的音频频谱特征，以及根据音频频谱特征生成目标音频；以最小化目标音频与实际音频之间的差异为优化目标，对音频生成模型进行训练，训练后的音频生成模型用于通过用户输入的信息生成音频。

从上述内容中可以看出，本说明书提供的音频生成的方法可以训练出音频生成模型，该音频生成模型可以先确定出预设概率分布下的发音特征，再将预设概率分布下的发音特征转换为符合真实分布的音频频谱特征，继而生成音频，可以看出，该音频生成模型可以自动生成音乐，并且能够提高音乐生成的效果。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书中一种音频生成的方法的流程示意图；

图2为本说明书中提供的一种歌谱生成模型的结构示意图；

图3为本说明书提供的一种音频生成模型的结构示意图；

图4为本说明书中一种音频生成的方法的流程示意图；

图5为本说明书提供的一种音频生成的装置示意图；

图6为本说明书提供的对应于图1的电子设备示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

在现有技术中，音乐生成的步骤可以是：将歌词以及歌谱输入到声学神经网络模型中生成频谱图，然后将频谱图输入声码器神经网络模型中生成音乐的音频。这种方式存在的问题是，生成音乐的过程为两阶段生成，先生成频谱图，再生成音乐，那么在训练时，也是训练声学神经网络模型完成后，再训练声码器神经网络模型。由于神经网络模型的训练方式是梯度更新，使用这种两阶段方式，造成了音频生成在不同阶段的推断误差会累积，从而导致生成出的音乐效果较差。

而通过本说明书提供的音频生成的方法训练出的音频生成模型则是单阶段生成音频的模型，从而相比于上述方式可以提高音乐生成的效果。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

图1为本说明书中一种音频生成的方法的流程示意图，具体包括以下步骤：

S100：获取实际音频，所述实际音频对应的歌谱信息、歌词信息以及音乐风格信息。

在实际应用中，可以存在有多种场景，具有生成音乐的需求，在本说明书中，提供训练歌谱生成模型与音频生成模型的训练方式，从而，在实际应用中，用户可以自定义歌词与需要生成的音乐的音乐风格，通过歌谱生成模型与音频生成模型生成音乐。

首先，服务器可以获取用于训练歌谱生成模型和/或音频生成模型的训练样本。训练样本中可以包含实际音频、实际音频对应的歌谱信息、歌词信息以及音乐风格信息。这里提到的音乐风格信息可以用于表示该实际音频对应音乐的音乐风格，如流行、摇滚、说唱、民谣等。需要指出的是，该实际音频可以是不包含伴奏仅包含歌声的音频。

在训练歌谱生成模型时，服务器可以将该实际音频对应的歌词信息与该实际音频对应的音乐风格信息输入到歌谱生成模型中，得到生成的歌谱，并以最小化生成的歌谱与上述实际音频对应的歌谱信息之间的差异为优化目标，对该歌谱预测模型进行训练。

其中，可以确定出歌词信息中的每个语音单元，从而确定歌词信息中各语音单元对应的信息特征。这里提到的语音单元可以为音素（或者，语音单元也可以为一个字）。具体的，可以通过pypinyin工具，将歌词信息转换为音素序列，再将音素序列转换为各语音单元对应的信息特征，其中，可以为以下的矩阵形式：

其中，T为音素序列的长度，即，音素序列中包含T个音素，为第i个音素对应的特征向量，维度为D，D可以人为进行设定。

而后，可以将流行、摇滚、说唱、民谣四种音乐风格信息分别表示为数字0，1，2，3，然后通过表征映射，映射为D维的矩阵向量，然后将其进行T倍复制，生成T维D列的矩阵，矩阵表示为：

即，这里提到的与上述矩阵的大小相同。

而后，可以将与相加，得到，从将输入到歌谱生成模型中，歌谱生成模型根据，得到歌谱预测结果，进而以最小化该歌谱预测结果与实际音频对应的歌谱信息之间的差异为优化目标，对该歌谱生成模型进行优化。

歌谱生成模型的结构具体可以如图2所示。

图2为本说明书中提供的一种歌谱生成模型的结构示意图。

具体的，该歌谱生成模型可以为Transformer模型，其中，Transformer为业界常用的网络模型，它能够进行对输入的全部信息进行有效学习，被广泛应用于相关的神经网络模型中，应该被相关从业人士所熟知，具体的，所使用的Transformer的编码器和解码器可以分别包含6个前馈网络模块，网络宽度参数可以设置为192。

在本说明书中，为了便于描述，将执行主体直接作为服务器，进行说明，在此不对本说明书中执行音频生成的方法的执行主体进行限定，具体可以是服务器、台式电脑、大型的服务平台等，并且，进行模型训练的执行主体与后续为用户生成音频的执行主体可以不为同一执行主体。

S102：将所述歌谱信息、所述歌词信息以及所述音乐风格信息输入到音频生成模型中，以使所述音频生成模型根据所述歌谱信息、所述歌词信息以及所述音乐风格信息，确定预设概率分布下的发音特征，并根据所述预设概率分布下的发音特征，确定所述实际音频的音频频谱特征，以及根据所述音频频谱特征生成目标音频。

S104：以最小化所述目标音频与所述实际音频之间的差异为优化目标，对所述音频生成模型进行训练，训练后的音频生成模型用于通过用户输入的信息生成音。

需要说明的是，训练歌谱生成模型与训练音频生成模型的顺序不进行限定，两个模型既可以同时进行训练，也可以分先后顺序进行训练。

在训练音频生成模型时，服务器可以将歌谱信息、歌词信息以及音乐风格信息输入到音频生成模型中，以使音频生成模型根据歌谱信息、歌词信息以及音乐风格信息，确定预设概率分布下的发音特征，并根据预设概率分布下的发音特征，确定目标音频的音频频谱特征，以及根据音频频谱特征生成目标音频。

音频生成模型中可以包含有多个子网络，可以通过分布预测网络确定出预设概率分布下的发音特征，通过分布转换网络，基于该预设概率分布下的发音特征，确定出上述音频频谱特征。

而后，可以以最小化目标音频与实际音频之间的差异为优化目标，对音频生成模型进行训练，训练后的歌谱预测模型与训练后的音频生成模型可以共同用于通过用户输入的歌词生成音频。这里提到的预设概率分布可以是预设的某种常规的概率分布，如高斯分布。

上述发音特征可以是指常规的概率分布下的特征，确定出该发音特征后，再根据该发音特征，确定出更为符合真实发音的分布下的音频频谱特征，也就是说，可以先确定出较为简单的概率分布下的发音上的特征，再确定出更加符合真实情况的发音上的特征（即，音频频谱特征）。

上述提到的发音特征可以通过高斯分布下的均值和方差进行表示，当然，也可以将确定出的高斯分布下的均值和方差进行采样，从而得到该发音特征，具体该发音特征可以是什么形式的，在下面提到该音频生成模型中包含的分布预测网络以及分布转换网络时将会讲到。

其中，上述歌谱信息中可以包含有音符信息、音符时长信息以及音符连奏信息，其中，音符信息表示歌谱中包含的每个音符，音符时长信息表示歌谱中包含的每个音符对应的发音时长，音符联奏信息表示歌谱中包含的每个音符之间是否连奏。

需要说明的是，为了使得本方法中的音频生成模型能够一次性的生成音频，而不是与现有技术类似地存在两个生成音频的模型，先生成频谱图，再生成音频。在本说明书中，将歌谱信息、歌词信息以及音乐风格信息输入到音频生成模型中后，音频生成模型可以通过分布预测网络，针对每个语音单元确定该语音单元对应的发音特征，其中，该发音特征符合上述预设概率分布，这里提到的预设概率分布可以包括高斯分布等常规的概率分布，而后，可以将各语音单元对应的发音特征输入到分布转换子网络中，得到该音频频谱特征，其中，该分布转换网络可以为可逆神经网络。

而在训练音频生成模型时，训练目标可以加入该音频频谱特征对应的训练目标，即，在训练该音频生成模型时，可以确定出该目标音频的实际频谱特征，并且训练目标中可以添加有希望生成的音频频谱特征更加贴近该实际频谱特征的目标。

而由于后续需要通过该音频频谱特征生成音频，又不希望影响到通过该音频频谱特征生成音频的子网络，因此，上述训练目标可以间接地通过分布预测网络的输出实现。具体的，在进行训练时，可以将实际频谱特征反向输入到分布转换网络中，得到该分布转换网络转换得到的发音特征，也就是说，这一阶段与生成音频频谱特征的方向是相反的。生成音频频谱特征是将发音特征从左边输入到分布转换网络中（可看图3），得到音频频谱特征，而在训练时，或者说需要计算损失时，可以将实际频谱特征从右边输入到分布转换网络中，使得分布转换网络，确定出转换得到的发音特征，这也是为什么该分布转换网络为可逆神经网络的原因。

而后，可以以最小化转换得到的发音特征与上述通过分布预测网络确定出的预设概率分布下的发音特征（即，各语音单元对应的发音特征）之间的差异，以及最小化目标音频与该实际音频之间的差异为优化目标，对音频生成模型进行训练，也就是说，这里提到的转换得到的发音特征，是通过实际音频的实际频谱对应的特征经过分布转换网络计算得到的。

即，之所以上述分布转换网络可以为可逆神经网络，是因为可逆神经网络具有：可以由输出反推出输入的特点。那么这里使用可逆神经网络来确定音频频谱特征，可以使得在训练时，由实际的频谱特征推出需要预测出的音频频谱特征，而在使用该音频生成模型生成音频时，可由预测出的预设概率分布下的发音特征推出实际的频谱特征。

需要说明的是，上述实际频谱特征可以通过该实际音频确定出，具体的，可以确定出实际音频对应的频谱图，并将该频谱图输入到特征提取网络（如：Transformer模型中的编码器）中，得到该实际频谱特征。

还需说明的是，可以将歌谱信息、歌词信息以及音乐风格信息输入到音频生成模型中，确定歌谱信息中各音符信息对应的音符特征、音符时长信息对应的音符时长特征以及音符联奏信息对应的联奏特征，确定音乐风格信息对应的风格特征，以及确定歌词信息中各语音单元对应的信息特征，并根据音符特征、音符时长特征、联奏特征、风格特征以及信息特征，确定综合特征，进而根据综合特征，确定目标音频的音频频谱特征。

需要说明的是，本方法中的音频生成模型内部可以存在有多个子网络，如上述的分布预测网络、分布转换网络等，该音频生成模型不仅仅可以生成音频，内部的子网络所预测出的信息也可以参与音频生成模型的训练，除了上述分布预测网络、分布转换网络等，音频生成模型中还可以包括基频预测网络、时长预测网络等。

具体的，可以将综合特征输入到时长预测网络中，以预测每个语音单元对应的发音时长，并根据每个语音单元对应的发音时长，对综合特征进行调整，得到调整后的综合特征；进而根据调整后的综合特征，确定预设概率分布下的发音特征。这样一来，在训练时，可以加入预测出的发音时长对音频生成模型的影响，即，以最小化预测出的每个语音单元对应的发音时长与每个语音单元的实际发音时长之间的差异，以及最小化该目标音频与实际音频之间的差异为优化目标，对音频生成模型进行训练。

基频预测网络用于预测每个语音单元对应的基频信息，具体的，可以根据综合特征以及音符特征，预测各语音单元对应的基频信息，并根据各语音单元的基频信息,确定预设概率分布下的发音特征，在训练时，以最小化目标音频与实际音频之间的差异为优化目标，以及最小化该基频信息与各语音单元的实际基频之间的差异为优化目标，对音频生成模型进行训练。这里提到的实际基频可以通过parselmouth工具包从实际音频中进行提取。

下面将整体性的说明本说明书中的音频生成模型的结构，以及该音频生成模型内部生成音频的步骤，如图3所示。

图3为本说明书提供的一种音频生成模型的结构示意图。

首先，可以将歌谱信息中的音符信息、音符时长信息、音符连奏信息分别进行向量化表征，即类似对歌词信息中音素表征的方式进行表征，分别得到长度为T的表征：音符特征、音符时长特征、联奏特征。

其中，之所以这些特征与上述音素序列的长度相同，是因为同一个音符可以对应多个音素，则对于一个音符来说，可以将该音符的相关信息（如音符本身、音符时长信息以及联奏信息）进行复制，这样得到的音符特征、音符时长特征、联奏特征，可以使得每个音符与该音符对应的音素相关的特征一一对应，

然后将上述三个特征与S102中的音素特征，风格特征进行相加，可以得到输入表征，即：

该输入表征可以作为上述综合特征。当然，也可以使得与音符相关的特征和与歌词相关的特征进行进一步的融合，即可以将输入到特征融合网络（可以由6层Transformer中FFT（前馈网络模块）构成）中，得到长度为T的融合表征，可以将该融合表征作为上述综合特征：

其中可以是维度为N的向量，N为正整数。

具体的，可以将综合特征输入到时长预测网络（该时长预测网络可以由5层一维卷积网络构成的），通过时长预测网络分析综合特征，以预测出每个语音单元对应的发音时长（如，每个音素对应的发音时长）。是将上述融合表征输入到时长预测网络中，则时长预测网络预测出的是每个对应的发音时长（即表示每个音素对应的发音时长）：

其中可以是一个表示时长的正整数。

而在通过每个语音单元对应的发音时长，对综合特征进行调整时，这里以调整融合表征为例进行说明。具体的，可以将融合表征里面的根据得到的，进行倍复制，得到，将类似的进行倍复制，即，将中的每个语音单元对应的向量按照该语音单元的发音时长进行复制，得到。

也就是说，上述的意思是按照发音时长将融合表征中每个语音单元对应的向量进行复制，这样也是为了使得每个语音单元的向量的数量符合该语音单元的发音时长。这样一来，在后续得到的发音特征以及音频频谱特征等也是符合每个语音单元的发音时长的，从而通过音频频谱特征预测得到的音频是结合了预测出的语音单元的发音时长，那么生成的音频能够更加贴合音乐中实际发音的节奏。

而后，可以将和进行相加，输入到基频预测网络（具体可以由4层Transformer中FFT（前馈网络模块）构成）中，预测出基频信息，之所以在中添加与音符相关的特征，是因为在音乐中，特定音符对应的就是音乐中歌词发音的基频，因此引入能够更加准确的进行人声基频的预测。

而后，可以将得到的进行向量化表征，得到，并将其与进行相加，得到，将输入到分布预测网络(可以由6层Transformer中FFT（前馈网络模块）构成)，得到高斯分布下的均值矩阵以及方差矩阵，这里提到的均值矩阵以及方差矩阵可以作为上述提到的各语音单元对应的发音特征，当然，也可以将后续通过均值矩阵以及方差矩阵采样出的，作为上述发音特征。

即，假设人歌唱某个音素时，其唱音可以为类似高斯分布一样的某种分布，在一个特定范围内进行变化，而不是一个音素对应一种固定的发音，这也比较符合真实的歌唱发音情况。

因此，在该分布预测网络中，一个音素的发音可以对应着一系列高斯分布的集合，而高斯分布只要求出均值和方差就能推断出其分布形式，因此，上面预测了音素在高斯分布下的均值与方差。

而后，可以从和所表示的高斯分布中进行采样，得到隐含的发音特征，将输入到分布转换网络中，预测真实歌声的音频频谱特征。

其中，该分布转换网络可以是由可逆卷积神经网络构成的深度流模型。其设计思路来自于物流学中的流形，用在此处的目的就是将简单分布，如上述高斯分布，转换为复杂分布，即真实音乐发音的分布。

之所以网络需要可逆是因为训练时可以通过真实的发音推测简单的高斯分布，而，在实际使用阶段，即，推理过程是逆向使用，即从高斯分布预测真实的发音分布。

而后，为了提高模型训练的效率，可以对音频频谱特征进行截取，得到截取后的音频频谱特征，并通过截取后的音频频谱特征，生成目标音频。即，可以从中取出设定长度的特征（如长度为32的特征），输入到音频生成模型中，生成目标音频。

这里之所以是从中取出设定长度的特征用于生成目标音频，是为了单次生成长度较短的音频，虽然单次生成的音频较短，但是随着不断的训练，也能够使得音频生成模型学习到所有音频的特征。当然，为了更好的音频生成效果，对于同一训练样本，可以在截取该训练样本对应的音频频谱特征时，可以通过滑动窗口的方式，使得每次尽可能地截取到该音频频谱特征中属于不同时间段下的特征，例如，第一次截取出音频频谱特征前1~32的部分特征，第二次截取4~35的部分特征，并以此类推。

需要说明的是，为了提高音频生成模型的准确性，可以在音频生成模型最后接入一个判别器网络（如，HiFiGAN），可以将上述目标音频，以及实际音频输入到HiFiGAN的判别器网络中，使得该判别器网络与音频生成模型进行联合训练，该判别器网络输出的判别结果用于表示输入的音频是否是真实的音频，那么对于目标音频来说，该目标音频对应的实际结果表示该目标音频不是真实的音频，对于实际音频来说，该实际音频对应的实际结果表示该目标音频为真实的音频。

在训练时，模型损失可以包括上述判别器网络的损失，还可以包括基频预测网络、时长预测网络以及分布转换网络的损失等。具体的，可以以最小化预测出的基频信息与各语音单元的实际基频之间的差异，最小化预测出的各音素的发音时长与通过上述实际音频确定出的音素的实际发音时长之间的差异，最小化预测出的音频频谱特征与该实际音频对应的实际频谱特征之间的差异，最小化生成的目标音频与该实际音频之间的差异，以及最大化该判别器网络输出的判别结果与实际结果之间的差异为优化目标，对该音频生成模型与判别器网络进行联合训练。

下面站在使用上述音频生成模型进行音乐生成的角度，进行说明，如图4所示。

图4为本说明书中一种音频生成的方法的流程示意图，具体包括以下步骤：

S400：获取用户输入的音乐风格信息以及歌词信息。

S402：将所述音乐风格信息以及所述歌词信息输入到训练后的歌谱生成模型中，得到生成出的歌谱信息。

S404：将所述生成出的歌谱信息、所述音乐风格信息以及所述歌词信息输入到训练后的音频生成模型，以生成与所述歌词信息对应的音频。

在使用上述歌谱预测模型与音频生成模型生成音乐时，用户可以自定义出歌词与所想要生成的音乐的音乐风格信息，服务器可以将获取到的用户输入的音乐风格信息以及歌词信息，输入到预先训练的歌谱生成模型中，得到生成出的歌谱信息。其中，可以通过HTML5实现用户输入歌词的模块，使用一个文本输入框进行歌词输入，一个选择框进行歌曲风格选择。

针对用户输入的歌词信息，可以进行预处理，具体的，可以去除非法字词，生成歌词信息对应的音素序列。在生成音素序列时，可以识别标点符号，并可以将标点符号按照预设的符号（如空格符号）进行表示，并，利用设计的词典进行非法字词去除，利用pypinyin进行汉字转音素（这里提到的预处理也可以适用在模型训练阶段对于歌词信息的预处理）。

而后，可以将生成出的歌谱信息、上述音乐风格信息以及歌词信息输入到预先训练的音频生成模型，以生成与该歌词信息对应的音频，其中，该歌谱生成模型与音频生成模型通过上述方式进行训练得到。

从上述方法中可以看出，本说明书可以训练出歌谱生成模型以及音频生成模型，因此，在需要生成音乐时，用户可以仅提供自定义出的歌词以及所需生成的音乐的音乐风格信息，即可通过该歌谱生成模型预测出用户所需的歌谱，而后，将歌谱、歌词以及音乐风格信息输入到音频生成模型中，这样可以直接生成音频，相比于现有技术中，用户需要自行给出歌谱的方式，降低了用户使用音频生成模型生成音乐的难度，提高了音乐生成的效率。

并且，本方法中在训练音频生成模型时，对在较为简单的概率分布下的发音进行预测，再转换成实际发音的特征（音频频谱特征），并且，结合发音时长预测、基频预测等多种信息进行监督训练，将现有的方式转换为了单阶段生成音频的音频生成模型，从而提升了歌声合成的质量，并提升了歌声合成的效率。

以上为本说明书的一个或多个实施例提供的音频生成的方法，基于同样的思路，本说明书还提供了相应的音频生成的装置，如图5所示。

图5为本说明书提供的一种音频生成的装置示意图，具体包括：

获取模块501，用于获取实际音频，所述实际音频对应的歌谱信息、歌词信息以及音乐风格信息；

输入模块502，用于将所述歌谱信息、所述歌词信息以及所述音乐风格信息输入到音频生成模型中，以使所述音频生成模型根据所述歌谱信息、所述歌词信息以及所述音乐风格信息，确定预设概率分布下的发音特征，并根据所述预设概率分布下的发音特征，确定所述实际音频的音频频谱特征，以及根据所述音频频谱特征生成目标音频；

优化模块503，用于以最小化所述目标音频与所述实际音频之间的差异为优化目标，对所述音频生成模型进行训练，训练后的音频生成模型用于通过用户输入的信息生成音频。

可选地，所述装置还包括：

训练模块504，用于将所述歌词信息与所述音乐风格信息输入到歌谱生成模型中，以得到生成的目标歌谱，以最小化所述目标歌谱与所述歌谱信息之间的差异为优化目标，对所述歌谱生成模型进行训练。

可选地，所述装置还包括：

生成模块505，用于获取用户输入的音乐风格信息以及歌词信息；将所述音乐风格信息以及所述歌词信息输入到训练后的歌谱生成模型中，得到生成出的歌谱信息；将所述生成出的歌谱信息、所述音乐风格信息以及所述歌词信息输入到训练后的音频生成模型，以生成与所述歌词信息对应的音频。

所述输入模块502，具体用于将所述歌谱信息、所述歌词信息以及所述音乐风格信息输入到所述音频生成模型中，以使所述音频生成模型通过所述分布预测网络，针对所述歌词信息中的每个语音单元，根据所述歌谱信息、所述歌词信息以及所述音乐风格信息，确定该语音单元对应的发音特征，所述发音特征符合所述预设概率分布，所述预设概率分布包括高斯分布；将各语音单元对应的发音特征输入到所述分布转换网络中，得到所述音频频谱特征，其中，所述分布转换网络为可逆神经网络。

可选地，所述优化模块503，具体用于确定所述实际音频对应的实际频谱特征；将所述实际频谱特征反向输入到所述分布转换网络中，得到所述分布转换网络转换得到的发音特征；以最小化所述转换得到的发音特征，与所述各语音单元对应的发音特征之间的差异，以及最小化所述目标音频与所述实际音频之间的差异为优化目标，对所述音频生成模型进行训练。

所述输入模块502，具体用于将所述歌谱信息、所述歌词信息以及所述音乐风格信息输入到所述音频生成模型中，确定所述歌谱信息中各音符信息对应的音符特征、音符时长信息对应的音符时长特征以及音符联奏信息对应的联奏特征，确定所述音乐风格信息对应的风格特征，以及确定歌词信息中各语音单元对应的信息特征；根据所述音符特征、所述音符时长特征、所述联奏特征、所述风格特征以及所述信息特征，确定综合特征；根据所述综合特征，确定预设概率分布下的发音特征。

可选地，所述音频生成模型中包括：时长预测网络；

所述输入模块502，具体用于将所述综合特征输入到所述时长预测网络中，预测每个语音单元对应的发音时长；根据每个语音单元对应的发音时长，对所述综合特征进行调整，得到调整后的综合特征；根据所述调整后的综合特征，确定预设概率分布下的发音特征；所述优化模块503，具体用于以最小化预测出的每个语音单元对应的发音时长与所述实际音频中每个语音单元的实际发音时长之间的差异，以及最小化所述目标音频与所述实际音频之间的差异为优化目标，对所述音频生成模型进行训练。

可选地，所述输入模块502，具体用于根据所述综合特征以及所述音符特征，预测所述歌词信息中各语音单元对应的基频信息；根据各语音单元的基频信息,确定预设概率分布下的发音特征；所述优化模块503，具体用于以最小化所述目标音频与所述实际音频之间的差异，以及最小化所述基频信息与各语音单元的实际基频之间的差异为优化目标，对所述音频生成模型进行训练。

本说明书还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述音频生成的方法。

本说明书还提供了图6所示的电子设备的示意结构图。如图6所述，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述音频生成的方法。当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进（例如，对二极管、晶体管、开关等电路结构的改进）还是软件上的改进（对于方法流程的改进）。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件（Programmable Logic Device, PLD）（例如现场可编程门阵列（Field Programmable GateArray，FPGA））就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字***“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器（logic compiler）”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言（Hardware Description Language，HDL），而HDL也并非仅有一种，而是有许多种，如ABEL（Advanced Boolean Expression Language）、AHDL（Altera Hardware DescriptionLanguage）、Confluence、CUPL（Cornell University Programming Language）、HDCal、JHDL（Java Hardware Description Language）、Lava、Lola、MyHDL、PALASM、RHDL（RubyHardware Description Language）等，目前最普遍使用的是VHDL（Very-High-SpeedIntegrated Circuit Hardware Description Language）与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该（微）处理器执行的计算机可读程序代码（例如软件或固件）的计算机可读介质、逻辑门、开关、专用集成电路（Application Specific Integrated Circuit，ASIC）、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（***）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、***或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种音频生成的方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

3.如权利要求2所述的方法，其特征在于，所述方法还包括：

获取用户输入的音乐风格信息以及歌词信息；

4.如权利要求1所述的方法，其特征在于，所述音频生成模型中包含分布预测网络以及分布转换网络；

5.如权利要求1或4所述的方法，其特征在于，以最小化所述目标音频与所述实际音频之间的差异为优化目标，对所述音频生成模型进行训练，具体包括：

确定所述实际音频对应的实际频谱特征；

以最小化所述转换得到的发音特征，与各语音单元对应的发音特征之间的差异，以及最小化所述目标音频与所述实际音频之间的差异为优化目标，对所述音频生成模型进行训练。

6.如权利要求1所述的方法，其特征在于，所述歌谱信息中包括音符信息、音符时长信息以及音符连奏信息；

根据所述综合特征，确定预设概率分布下的发音特征。

7.如权利要求6所述的方法，其特征在于，所述音频生成模型中包括：时长预测网络；

8.如权利要求6所述的方法，其特征在于，根据所述综合特征，确定预设概率分布下的发音特征，包括：

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1~8任一项所述的方法。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1~8任一项所述的方法。