CN115810341A

CN115810341A - 音频合成方法、装置、设备以及介质

Info

Publication number: CN115810341A
Application number: CN202211475167.4A
Authority: CN
Inventors: 贺思颖
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-11-23
Filing date: 2022-11-23
Publication date: 2023-03-17

Abstract

本申请实施例提供了一种音频合成方法、装置、设备以及介质，其中，方法包括：获取用于合成音频数据的音频关键信息；对音频关键信息进行编码处理，得到音频属性特征，根据音频属性特征和扩散频次信息，生成K个候选频谱特征；K为正整数；获取K个候选频谱特征对应的时间维度信息和频率维度信息，根据时间维度信息和频率维度信息，对K个候选频谱特征进行采样处理，得到K个目标频谱特征；对K个目标频谱特征进行特征融合处理，得到融合频谱特征，将融合频谱特征合成为目标音频数据。采用本申请实施例，可以提高音频合成的质量。

Description

音频合成方法、装置、设备以及介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种音频合成方法、装置、设备以及介质。

背景技术

音频合成技术是通过音频合成模型对待合成音频数据的文本信息和乐谱信息进行学习自动生成音频数据的技术。目前该技术被广泛应用于虚拟主播、智能家居、智能机器人等领域。传统的音频合成模型在提取用于合成音频的频谱特征时，往往通过简单卷积处理提取所需要的频谱特征。然而，通过这种方式提取得到的频谱特征过于单调，导致由该频谱特征合成得到的音频数据与所期望的音频数据具有较大的区别，音频合成质量低下。

发明内容

本申请实施例提供一种音频合成方法、装置、设备以及介质，可以提高音频合成的效率。

本申请实施例一方面提供了一种音频合成方法，包括：

获取用于合成音频数据的音频关键信息；

对音频关键信息进行编码处理，得到音频属性特征，根据音频属性特征和扩散频次信息，生成K个候选频谱特征；K为正整数；

获取K个候选频谱特征对应的时间维度信息和频率维度信息，根据时间维度信息和频率维度信息，对K个候选频谱特征进行采样处理，得到K个目标频谱特征；

对K个目标频谱特征进行特征融合处理，得到融合频谱特征，将融合频谱特征合成为目标音频数据。

本申请实施例一方面提供了一种音频合成装置，包括：

第一获取模块，用于获取用于合成音频数据的音频关键信息；

生成模块，用于对音频关键信息进行编码处理，得到音频属性特征，根据音频属性特征和扩散频次信息，生成K个候选频谱特征；K为正整数；

采样模块，用于获取K个候选频谱特征对应的时间维度信息和频率维度信息，根据时间维度信息和频率维度信息，对K个候选频谱特征进行采样处理，得到K个目标频谱特征；

合成模块，用于对K个目标频谱特征进行特征融合处理，得到融合频谱特征，将融合频谱特征合成为目标音频数据。

其中，音频关键信息包括音素序列、时长序列以及音高序列，生成模块包括：

拼接单元，用于将音素序列、时长序列以及音高序列进行拼接，得到音频输入特征，将音频输入特征输入至音频合成模型；

编码单元，用于根据音频合成模型中的编码器对音频输入特征进行编码处理，得到音频属性特征。

转换单元，用于通过音频合成模型的扩散解码器，将音频属性特征转换为初始频谱特征M0；

增强单元，用于将初始频谱特征M0输入至扩散解码器，基于扩散解码器对初始频谱特征M0进行特征增强处理，得到初始频谱特征M1；

第一获取单元，用于当初始频谱特征的数量与扩散频次信息所指示的数值T相匹配时，获取T个初始频谱特征，从T个初始频谱特征获取K个候选频谱特征；T为大于K的整数。

其中，时间维度信息包括K个候选频谱特征中的第a个候选频谱特征在采样处理中的目标时间维度，频率维度信息包括第a个候选频谱特征在采样处理中的b个目标频率维度；a为小于或等于K的正整数，b为大于1的整数；采样模块包括：

组合单元，用于对目标时间维度和b个目标频率维度进行组合，得到b个采样维度信息组；

上采样单元，用于根据b个采样维度信息组，对第a个候选频谱特征进行上采样处理，得到第a个候选频谱特征对应的b个第一子频谱特征；

下采样单元，用于根据第a个候选频谱特征对应的初始时间维度和初始频率维度，对b个第一子频谱特征进行下采样处理，得到b个第二子频谱特征，将b个第二子频谱特征进行加和操作，得到第a个目标频谱特征。

其中，合成模块包括：

卷积单元，用于获取K个目标频谱特征对应的卷积参数信息，根据卷积参数信息对K个目标频谱特征进行卷积处理，得到K个目标频谱特征对应的卷积频谱特征；

激活单元，用于对卷积频谱特征进行激活处理，得到卷积频谱特征对应的融合频谱特征。

其中，该音频合成装置还包括：

第二获取模块，用于获取用于合成音频数据的样本关键信息，通过初始合成模型的编码器，得到样本关键信息对应的样本属性特征；

第三获取模块，用于通过初始合成模型的扩散解码器，输出样本属性特征对应的V个初始样本频谱特征；V为大于K的整数；

第四获取模块，用于按照V个目标样本频谱特征对应的生成时间顺序，在V个初始样本频谱特征中依次获取第i个初始样本频谱特征和第j个初始样本频谱特征，在V个初始样本频谱特征中确定标签频谱特征；i为小于V的正整数；j为小于或等于V，且大于i的整数；

确定模块，用于根据第i个初始样本频谱特征和第j个初始样本频谱特征，确定第一损失值，根据第j个初始样本频谱特征和标签频谱特征，确定第二损失值；

修正模块，用于基于第一损失值和第二损失值，对初始合成模型中的网络参数进行修正，将包含修正后的网络参数的初始合成模型确定为音频合成模型。

其中，确定模块包括：

第二获取单元，用于根据第i个初始样本频谱特征对应的时间维度信息和频率维度信息，对第i个初始样本频谱特征进行采样处理，得到第i个目标样本频谱特征，获取第i个目标样本频谱特征和第j个初始样本频谱特征之间的第一损失值；

第三获取单元，用于根据第j个初始样本频谱特征对应的时间维度信息和频率维度信息，对第j个初始样本频谱特征进行采样处理，得到第j个目标样本频谱特征，将第i个目标样本频谱特征和第j个目标样本频谱特征进行特征融合处理，得到样本融合频谱特征，获取样本融合频谱特征和标签频谱特征之间的第二损失值。

本申请实施例一方面提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行本申请实施例中一方面中方法的步骤。

本申请实施例一方面提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序包括程序指令，程序指令被处理器执行时，执行本申请实施例中一方面中方法的步骤。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述一方面的各种可选方式中提供的方法。

在本申请实施例中，在获取用于合成音频数据的音频关键信息之后，先对音频关键信息进行编码处理，获取音频属性特征，以将音频关键信息转换成向量形式，有助于保障音频合成的可行性；然后，根据音频属性特征和扩散频次信息，生成K个候选频谱特征，使得获得的K个候选频谱特征具有较高的特征丰富度；进而获取K个候选频谱特征对应的时间维度信息和频率维度信息，根据时间维度信息和频率维度信息，对K个候选频谱特征进行采样处理，得到K个目标频谱特征，对K个目标频谱特征进行特征融合处理，得到融合频谱特征，并将融合频谱特征合成为目标音频数据。本申请实施例中，通过增强在时间维度以及频率维度中所包含的音频信息的特征抽取，实现对频谱信息进行深度扩展，从而可以增强融合频谱特征在时间维度以及频率维度上特征表达的有效性，使得获取得到的融合频谱特征的丰富度较高，因此采用融合频谱特征合成对应的目标音频数据更加符合预期要求，可以提高音频合成的质量。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种网络架构的结构示意图；

图2是本申请实施例提供的一种音频合成的应用场景图；

图3是本申请实施例提供的一种音频合成模型的结构示意图；

图4是本申请实施例提供的一种音频合成方法的流程示意图；

图5是本申请实施例提供的一种音频关键信息的组成示意图；

图6是本申请实施例提供的一种获取目标频谱特征的示意图；

图7是本申请实施例提供的一种获取融合频谱特征的示意图；

图8是本申请实施例提供的一种音频合成模型训练方法的流程示意图；

图9是本申请实施例提供的一种音频合成模型训练的示意图；

图10是本申请实施例提供的一种音频合成装置的结构示意图；

图11是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供的数据处理方法具体可以涉及云技术(cloud technology)中的云数据库(cloud database)。云数据库，简而言之，可视为电子化的文件柜(存储电子文件的处所)，用户可以对文件中的数据进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。本申请实施例中，计算机设备可以在获取用于合成音频数据的音频关键信息之后，基于该音频关键信息通过音频合成模型合成目标音频数据，并将最终合成得到的目标音频数据存储在云数据库中。

请参见图1，图1是本申请实施例提供的一种网络架构的结构示意图。如图1所示，该网络架构可以包括服务器101、终端设备102a、终端设备102b及终端设备102c等，该网络架构可以包括一个或者多个服务器，还可以包括至少一个或者多个终端设备，这里将不对服务器和终端设备的数量进行限制。如图1所示，服务器101可以与各个终端设备之间进行网络连接，以便于服务器101可以通过网络连接与各个终端设备之间进行数据交互。

其中，上述服务器101可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云数据库、云服务、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端集群(包括终端设备102a、终端设备102b、终端设备103c等)可以是智能手机、平板电脑、笔记本电脑、台式计算机、掌上电脑、移动互联网设备(mobileinternet device，MID)、可穿戴设备(例如智能手表、智能手环等)、智能电脑、智能车载等智能终端。其中，服务器101与终端集群中的各终端设备可以建立通信连接，终端集群中的各终端设备之间也可以建立通信连接。换句话说，服务器101可以与终端设备102a、终端设备102b、终端设备103c等中的各终端设备建立通信连接，例如终端设备102a与服务器101之间可以建立通信连接。终端设备102a与终端设备102b之间可以建立通信连接，终端设备102a与终端设备102c之间也可以建立通信连接。其中，上述通信连接不限定连接方式，可以通过有线通信方式进行直接或间接地连接，也可以通过无线通信方式进行直接或间接地连接等，具体可根据实际应用场景确定，本申请实施例在此不做限制。

本申请实施例中，服务器101和终端设备(例如终端设备102a等)均可独立用于合成目标音频数据，服务器101和终端设备(例如终端设备102a等)也可以协同用于目标音频数据。其中，目标音频数据可以是指语音广播、歌曲、朗诵、戏剧、说话声等等。请一并参见图2，图2是本申请实施例提供的一种音频合成的应用场景图，以音频合成为歌曲合成为例，进行举例说明。需要说明的是，图2所示的界面仅为一个示意，在实际应用中，该界面的布局和显示内容可根据需求进行调整，此处不做限定。当用户A需要进行音频合成时，可以在终端设备102a打开音频合成应用20(其对应的服务器可以是服务器101)，在音频合成应用20中显示有音频合成界面201，用户A可以在音频合成界面201中设置用于合成音频数据的音频关键信息，其中，音频关键信息可以包括音素序列、时长序列和音高序列等。如图2所示，音频合成界面201中包括歌词输入区域202、画笔控件206、音频关键信息确定区域30和合成控件208。在一种可能的实施方式中，用户A可以在歌词输入区域202中输入歌词(例如可以输入歌词对应的拼音)，根据歌词确定用于音频关键信息中的音素序列。除此之外，用户A还可以通过点击菜单栏210中的文件，导入相应的文本作为音频关键信息中的音素序列。在确定音素序列之后，可以点击画笔控件206，在音频关键信息确定区域30中绘制相应的格子，从而确定音频关键信息中的时长序列和音高序列。例如，用户A在歌词输入区域202中输入了歌词“La”，用户A希望设置歌词“La”对应的音高为C5，对应的时长为63ms，可以根据点击画笔控件206在音高C5处绘制格子207，通过拉伸格子207，根据格子的长度设置对应歌词的时长，将其长度控制为63，从而确定其对应的时长为63ms。其中，格子越长，表明歌词对应的时长也就越长。

可选地，音频合成界面201还可以包括切换歌手控件205、其他参数设置控件209等。用户A可以通过触发切换歌手控件205，将当前歌手小A切换为其他歌手，其中，每个歌手的性别、年龄以及擅长的音域可以不同，例如，歌曲小A的信息可以是性别女、年龄28、擅长音域C4-E5等。用户A可以根据实际需要，触发切换歌手控件205选择合适的歌手。用户A还可以通过其他参数设置控件209为音频加入伴奏、呼吸声、换气等等，使得最终合成的目标音频数据更贴近真实的发音，有助于提高目标音频数据的自然度。当设置完成所有的参数之后，用户A可以通过触发合成控件208，完成最终的目标音频数据的合成。

可以理解的是，音频合成应用20中可以集成用于合成目标音频数据的音频合成模型，在获取完成用于合成音频数据的音频关键信息之后，响应合成控件208的触发操作，基于音频合成模型，合成目标音频数据。

具体地，请一并参见图3，图3是本申请实施例提供的一种音频合成模型的结构示意图。如图3所示，音频合成模型可以包括编码器401、扩散解码器402、频谱选择组件403、采样组件404、融合组件405以及声码器406。需要说明的是，目标音频数据的具体合成过程，以及音频合成模型中各个组件的作用，将在下文中结合图4所示的音频合成方法进行详细描述，此处将不再赘述。

如图2所示，在完成目标音频数据的合成之后，可以在音频合成界面201中显示合成成功提示消息211，例如，合成成功提示消息211可以是“歌曲合成完成，请欣赏您的作品吧！”，以提示用户A目标音频数据合成完成。用户A可以通过触发播放控件213，播放该目标音频数据，以便根据目标音频数据的当前所呈现的效果，确定是否要调整合成参数。此外，用户A还可以通过触发保存控件212，将该目标音频数据存储在本地数据库，或者也可以将其存储在云数据库中。可以理解的是，通过本申请实施例提供的音频合成模型，可以快速合成目标音频数据，有助于提高音频合成的质量。

进一步地，请参见图4，图4是本申请实施例提供的一种音频合成方法的流程示意图。可以理解地，该音频合成方法由计算机设备执行，该计算机设备可以为终端设备(例如，图1所对应实施例中的终端设备102a、终端设备102b或终端设备102c)，或者为服务器(例如，图1所对应实施例中的服务器101)，或者为计算机程序(包括程序代码)。如图4所示，该音频合成方法可以包括以下步骤S101-步骤S104：

步骤S101：获取用于合成音频数据的音频关键信息。

其中，音频关键信息可以理解为用于合成音频数据的信息，例如，音频关键信息可以包括但不限于音素序列、时长序列和音高序列等信息。当然，在一些可能的实施方式中，音频关键信息还可以包括伴奏、呼吸声等信息。在本申请实施例中，合成后的目标音频数据可以是指语音广播、歌曲、朗诵、戏剧、说话声等等，本申请实施例对此不做限定。以歌曲为例，歌曲对应的音频关键信息可以从歌曲对应的乐谱中获取，也可以是根据计算机设备的使用者输入的参数确定，本申请实施例对此不做限定。

其中，音素序列可以理解为由多个音素组成的序列，音素序列可以用于表征最终目标音频数据的发音。其中，音素可以理解为是根据语音的自然属性划分的最小语音单位，音素依据音节里的发音动作来分析，一个动作构成一个音素。例如，如音节“wang”包含“w”、“ang”两个发音动作，也就是包括了两个音素。时长序列用于指示音素序列中每一个音素在发音过程中的持续时长所组成的序列，时长序列可以用于表征最终目标音频数据的节奏。由于，最终合成的目标音频数据是以音频帧的形式输出的，而音频帧的最短时长可以根据音频的采样率确定，例如，可以根据采样率将音频帧每一帧的最短时长设置为32ms，或者设置为40ms等等，当然还可以设置为其他的数值，本申请实施例对此不做限定。当音频帧每一帧的最短时长设置为32ms时，可以设置节奏的最小分辨率为32ms，也就是说，时长最短为32ms。此外，为了便于表示每一音素的时长，还可以以递增的方式将每一音素对应的时长分为200个等级，或者分为300个等级等，具体等级设置的数量可以根据实际需求确定，本申请实施例对此不做限定。例如，音素序列包括“w”和“ang”，其中，音素“w”对应的时长可以设置为63ms，音素“ang”对应的时长可以设置为267ms，那么时长序列为63ms和267ms。音高序列可以理解为音素序列中各个音素在发音过程中的音的高度所组成的序列，音高序列可以用于表征最终目标音频数据的音的高度。由于音高的本质是频率，因此可以参考国际音高赫兹谱将音高划分为88个等级，例如，A3、C4等。

请一并参见图5，图5是本申请实施例提供的一种音频关键信息的组成示意图。由图5可知，以中文文本“凭”、“什”、“么”、“要”、“失”、“望”为例进行举例说明，文本包括5个音节“ping”、“shen”、“me”、“yao”、“shi”、“wang”，每个音节可以被示例性地划分为至少一个音素，例如，音节“wang”可以被划分为2个音素“w”和“ang”，音素“w”对应声母，音素“ang”对应韵母，各个音素组成了一个音素序列[p，ing，sh，en，m，e，y，ao，sh，i，w，ang]，其对应的时长序列可以是[63ms，157ms，63ms，157ms，63ms，157ms，63ms，237ms，63ms，197ms，63ms，267ms]。一般而言，一个音节对应同一个音高，也就是说，同一音节中所有音素均对应同一音高。例如，图5中的音节“yao”对应音高C4，则音素“y”和“ao”均对应音高C4。那么文本“凭什么要失望”所对应的音高序列可以是[G3，A#3，A#3，C4，C4，A#3-G#3]。

步骤S102：对音频关键信息进行编码处理，得到音频属性特征，根据音频属性特征和扩散频次信息，生成K个候选频谱特征；K为正整数。

其中，音频属性特征可以理解为表征音频关键信息中与音频信息相关的特征。如前文所述，音频关键信息可以包括但不限于音素序列、时长序列以及音高序列等等。音频序列、时长序列以及音高序列的定义可以参见前文的描述，在此不再赘述。扩散频次信息可以理解为图3所示的音频合成模型中的扩散解码器402的相关参数，具体地，扩散频次信息可以包括扩散次数，扩散次数可以理解为扩散解码器402的迭代次数。候选频谱特征可以理解为音频属性特征经过特征增强处理之后得到的特征，候选频谱特征可以用于表示音频关键信息中的声学特性，具体可以是梅尔频谱，还可以是表示音色的能量集中区、共振峰频率、共振峰强度、带宽、表示语音韵律特性的时长、基频或者平均语声功率等其他的声学特征，本申请实施例对此不做限定。K为正整数，K可以取值为1，2，3，……。

在一种可能的实施方式中，计算机设备可以将音素序列、时长序列以及音高序列进行拼接，得到音频输入特征，将音频输入特征输入至音频合成模型；进而根据音频合成模型中的编码器对音频输入特征进行编码处理，得到音频属性特征。

其中，音频输入特征可以理解为同时包含音素序列、时长序列以及音高序列三者的相关信息的特征。具体地，可以将音素序列、时长序列以及音高序列进行拼接，得到音频序列，进而将音频序列进行向量转换，得到音频属性特征。其中，音频序列中包含包括多个元素，每个元素均包括音素及该音素对应的音高和时长，可以表示为(音素，音高，时长)。例如(i，C4，197)，i代表音素，C4代表音高，197代表时长，单位可以是ms。

进一步地，请参见图3，计算机设备将音频关键信息中的音素序列、时长序列以及音高序列拼接得到音频输入特征之后，可以将音频输入特征输入至音频合成模型中的编码器401，通过编码器401对音频输入特征进行编码处理，从而得到音频属性特征。其中，编码器401的作用是对音频输入特征进行编码处理。编码器401可以包括歌词编码器、时长预测器和音高编码器，利用歌词编码器、时长预测器和音高编码器同时提取音频输入特征中音素序列、时长序列和音高序列中的特征，得到音频属性特征。可以看出，通过编码器对音频输入特征进行编码处理，可以提高音频属性特征的提取效率以及准确性，进而可以提高音频合成的质量。

在一种可能的实施方式中，在得到音频属性特征之后，计算机设备可以通过音频合成模型的扩散解码器，将音频属性特征转换为初始频谱特征M0；将初始频谱特征M0输入至扩散解码器，基于扩散解码器对初始频谱特征M0进行特征增强处理，得到初始频谱特征M1；当初始频谱特征的数量与扩散频次信息所指示的数值T相匹配时，获取T个初始频谱特征，从T个初始频谱特征获取K个候选频谱特征。

初始频谱特征M0可以理解为音频属性特征进行扩散解码器进行转换后得到的频谱特征；初始频谱特征M1是将初始频谱特征M0作为扩散解码器的输入之后得到的输出结果。其中，扩散解码器可以理解成一种自回归模型，需要自身做回归变量的过程。换句话说，扩散解码器需要利用前期的变量来描述后续时间随机变量的线性回归模型。在本申请实施例中，具体可以表现为，初始频谱特征M1依赖于初始频谱特征M0。此外，每经过一次迭代，后续输出的初始频谱特征的特征丰富度均高于前一次作为输入的初始频谱特征，也就是说，初始频谱特征M1的特征丰富度高于初始频谱特征M0，重复迭代T次的目的是为了使得最终得到的第T个初始频谱特征具有较高的特征丰富度。

具体地，请一并参见图3，如图3所示，在通过扩散解码器402将音频属性特征转换为初始频谱特征M0之后，可以将初始频谱特征M0再次作为扩散解码器402的输入，经过扩散解码器402对初始频谱特征M0进行特征增强，输出初始频谱特征M1，进而再初始频谱特征M1作为扩散解码器402的输入，经过扩散解码器402对初始频谱特征M1进行特征增强，输出初始频谱特征M2，依次重复迭代，直至迭代次数达到扩散频次信息所指示的数值，并将扩散解码器402输出的结果保存下来。例如，扩散频次信息所指示的数值，那么就迭代T次，从而得到T个初始频谱特征。扩散解码器402的特征增强过程本质上是一个具有固定参数的马尔科夫链，每一次迭代都向上一次得到的初始频谱特征中添加特征，直至得到符合预期的初始频谱特征。在本申请实施例中，可以认为当初始频谱特征的数量与扩散频次信息所指示的数值T相匹配时，即可认为第T个初始频谱特征达到预期要求。此外，可以将经过扩散解码器402输出的T个初始频谱特征全部存储在本地数据库或者云数据库中，以便后续进行使用。扩散解码器402的结构可以是包括非因果WaveNet结构，可以包括1x1卷积层和多个卷积模块，在具体的应用中，扩散解码器的结构可以根据实际需求进行调整。

在得到T个初始频谱特征之后，可以通过频谱选择组件403对T个初始频谱特征进行筛选，得到K个候选频谱特征。由于K个候选频谱特征是从T个初始频谱特征中选出的，所以T为大于K的整数，T的具体取值可以为K可以取值为1，2，3，……，K，K+1，……。在一种可能的实施方式中，可以在T个初始频谱特征中随机选择K个初始频谱特征，作为K个候选频谱特征；例如，当T为10，K为3时，可以选择第1个初始频谱特征、第2个初始频谱特征以及第5个初始频谱特征作为K个候选频谱特征。

在另一种可能的实施方式中，还可以根据T个初始频谱特征中各个初始频谱特征中的相似度来筛选出K个候选频谱特征。具体地，在得到T个初始频谱特征之后，可以采用聚类算法对T个初始频谱特征进行聚类。可选地，下面以K-means为例，对聚类过程进行具体说明。

计算机设备可以先对T个初始频谱特征进行向量转换，得到T个初始频谱特征向量，并从T个初始频谱特征向量中选择中心向量tx，其中x为小于或等于K的正整数；获取T个初始频谱特征向量的每个初始频谱特征向量分别与中心向量tx之间的相似度，若T个初始频谱特征向量中的初始频谱特征向量Gy与中心向量tx的相似度最大，则将初始频谱特征向量Gy添加至中心向量tx所属的待处理簇Cx；进而可以根据待处理簇Cx中所包含的初始频谱特征向量，更新中心向量tx，直至待处理簇Cx中更新后的中心向量tx与更新前的中心向量tx达到预设条件时，根据待处理簇Cx得到K个初始频谱特征集合。其中，预设条件可以理解为预先设定的条件，具体可以是待处理簇Cx中更新后的中心向量tx与更新前的中心向量tx之间的误差小于预设阈值，或者可以是达到预设的迭代次数等等；预设阈值以及迭代次数的具体取值可以根据实际需求确定，本申请实施例对此不做限定。其中，初始频谱特征向量Gy为T个初始频谱特征向量中的其中一个初始频谱特征向量。

可选地，为了达到更好的聚类效果，计算机设备可以从T个初始频谱特征向量中选取K个初始频谱特征向量作为初始的中心向量。具体选择方式为：从T个初始频谱特征向量中随机选择一个初始频谱特征向量作为第一个中心向量t1；进而可以从T个初始频谱特征向量剩余的初始频谱特征向量(未被选择的初始频谱特征向量)中选择与第一个中心向量t1距离最远的初始频谱特征向量作为第二个中心向量t2；可以计算第一个中心向量t1和第二个中心向量t2之间的中心点(该中心点可以为第一个中心向量t1和第二个中心向量t2之间的平均值所对应的初始频谱特征向量，如与该平均值距离最近的初始频谱特征向量)，从T个初始频谱特征向量剩余的初始频谱特征向量中选择与该中心点距离最远的初始频谱特征向量作为第三个中心向量t3；以此类推，直至确定第K个中心向量tK，即可以确定K个中心向量。

进一步地，计算机设备可以计算T个初始频谱特征向量中每个初始频谱特征向量与各个中心向量之间的距离(可以用两个初始频谱特征向量之间的相似度来衡量两者之间的距离，相似度越大，距离越短，相似度越小，距离越大)，即T个初始频谱特征向量中每个初始频谱特征向量Gy与每个中心向量tx之间的距离，将初始频谱特征向量Gy划分到距离最近的中心向量所属的待处理簇，可以初步得到K个待处理簇，每个中心向量对应一个待处理簇，每个待处理簇均可以包括多个初始频谱特征向量。不同的待处理簇中所包含的初始频谱特征向量的数量可以一样，也可以不一样。

其中，计算两个初始频谱特征向量之间的距离所采用的方法可以包括但不限于：欧几里得距离(Eucledian Distance)、曼哈顿距离(Manhattan Distance)、明可夫斯基距离(Minkowski distance)、余弦相似度(Cosine Similarity)。以余弦相似度为例，对于T个初始频谱特征向量中每个初始频谱特征向量Gy与每个中心向量tx，其两者之间的距离可以表示为：dis<Gy，tx>＝cosin(Gy，tx)，其中，dis<Gy，tx>用于表示初始频谱特征向量Gy与中心向量tx之间的距离，cosin为余弦函数，若T个初始频谱特征向量中每个初始频谱特征向量Gy与3个中心向量(此处的聚类数K取值为3)的距离分别为：10，15，3，则可以将初始频谱特征向量Gy划分到第3个中心向量所属的待处理簇C3。

对于上述得到的K个待处理簇，可以计算每一个待处理簇中所包含的所有初始频谱特征向量的均值，根据均值更新待处理簇对应的中心向量，得到一个新的中心向量，进而根据T个初始频谱特征向量中每个初始频谱特征向量与每个新的中心向量之间的距离，对每个待处理簇中所包含的初始频谱特征向量进行更新。不断重复上述过程，当每个待处理簇中所包含的初始频谱特征向量不再发生变化，即每个待处理簇分别对应的中心向量达到指定条件时，此时的K个待处理簇可以确定为T个初始频谱特征向量最终的聚类结果。其中，指定条件可以理解为预先设定的条件，具体包括但不限于达到预设的迭代次数，或者每个待处理簇分别对应的中心向量固定不变等等；其中，迭代次数的具体取值可以根据实际需求确定，本申请实施例对此不做限定。然后从K个待处理簇中的每一待处理簇中随机选择一个初始频谱特征向量，得到K个初始频谱特征向量，进而得到K个候选频谱特征。可以看出，通过上述方式获得的K个候选频谱特征中的每一个候选频谱特征之间的频谱特征相似度较小，因此，可以在后续对K个候选频谱特征进行采样处理以及融合处理时，可以减少初始频谱特征中部分对质量评估影响较大的特征的削弱或者丢失，可以使得最终用于合成目标音频数据的融合频谱特征具有更丰富的特征。

步骤S103：获取K个候选频谱特征对应的时间维度信息和频率维度信息，根据时间维度信息和频率维度信息，对K个候选频谱特征进行采样处理，得到K个目标频谱特征。

其中，时间维度信息可以理解为候选频谱特征在时间维度上的信息；类似地，频率维度信息可以理解为候选频谱特征在频率维度上的信息。目标频谱特征可以理解为候选频谱特征进行采样处理后得到的频谱特征，目标频谱特征相对于候选频谱特征而言，具有更丰富的细节信息。

请参见图3，在获取到K个候选频谱特征之后，可以基于K个候选频谱特征对应的时间维度信息和频率维度信息，通过音频合成模型中的采样组件404对候选频谱特征进行采样处理，从而得到K个目标频谱特征。其中，采样组件404的具体结构可以参见图6，采样组件404的作用是使得采样处理得到的目标频谱特征融合了时间维度和频率维度上的特征，可以避免候选频谱特征在时间维度以及频率维度上中部分对音频合成影响较大的特征的削弱或者丢失，进而可以提高目标频谱特征的利用率和表达能力。

为了便于理解，以下以获取K个候选频谱特征中的第a个候选频谱特征对应的第a个目标频谱特征为例，对目标频谱特征进行详细介绍，其他目标频谱特征的获取过程可以参考下文的处理过程。具体地，以第a个候选频谱特征的尺寸(shape)为[N,F,T]＝[N,80,T]为例，进行具体说明。其中，N表示批量大小(batch_size)，F表示频率维度，T表示时间维度，在本申请实施例中，N取定值，也就是说，N保持不变。

在本申请实施例中，时间维度信息具体可以包括K个候选频谱特征中的第a个候选频谱特征在采样处理中的目标时间维度，频率维度信息具体可以包括第a个候选频谱特征在采样处理中的b个目标频率维度；a为小于或等于K的正整数，b为大于1的整数。具体地，计算机设备可以对目标时间维度和b个目标频率维度进行组合，得到b个采样维度信息组；然后根据b个采样维度信息组，对第a个候选频谱特征进行上采样处理，得到第a个候选频谱特征对应的b个第一子频谱特征；进而根据第a个候选频谱特征对应的初始时间维度和初始频率维度，对b个第一子频谱特征进行下采样处理，得到b个第二子频谱特征，将b个第二子频谱特征进行加和操作，得到第a个目标频谱特征。

其中，目标时间维度可以理解为第a个候选频谱特征在采样处理中的时间维度；类似地，目标频率维度可以理解为第a个候选频谱特征在采样处理中的频率维度。在本申请实施例中，以目标时间维度设置为一个，目标频率维度设置为两个及两个以上进行举例说明，在实际应用中，目标时间维度也可以根据实际需要设置多个。采样维度信息组是由目标时间维度和b个目标频率维度进行组合，得到的采样维度集合。初始时间维度可以理解为第a个候选频谱特征未经采样处理之前的时间维度；类似地，初始频率维度可以理解为第a个候选频谱特征未经采样处理之前的频率维度。以第a个候选频谱特征的尺寸(shape)为[N,F,T]＝[N,80,T]为例，初始时间维度为T，初始频率维度为80；目标时间维度可以设置为2T；以b＝3为例，目标频率维度可以设置为120，160和240；采样维度信息组可以为[N,120,2^＊T]、[N,160,2^＊T]和[N,240,2*T]。

为了更好地理解本申请实施例，以b＝3为例，进行举例说明。可以理解的是，b为其他取值时，目标频谱特征的具体获取过程，与下文类似，具体可以参考下文的描述。

具体地，请一并参见图6，本申请实施例提供的一种获取目标频谱特征的示意图。可以理解的是，图6示出的采样组件404中的上采样层和下采样层的数量仅为示例，在实际的应用中，可以根据需求进行相应地调整。如图6所示，采样组件404可以包括三个上采样层，分别是第一上采样层501、第二上采样层502、第三上采样层503；以及三个下采样层，分别是第一下采样层504、第二下采样层505和第三下采样层506。在对第a个候选频谱特征进行采样处理之前，可以对目标时间维度和3个目标频率维度进行组合，得到3个采样维度信息组，例如，3个采样维度信息组可以为[N,120,2*T]、[N,160,2*T]和[N,240,2*T]，其中，第一上采样层501对应的采样维度信息组可以为[N,120,2*T]、第二上采样层502对应的采样维度信息组可以为[N,160,2*T]、第三上采样层503对应的采样维度信息组可以为[N,240,2*T]；下采样层的采样维度信息组与第a个候选频谱特征对应的初始时间维度和初始频率维度关联，因此可以将第一下采样层504、第二下采样层505和第三下采样层506的采样维度信息组均设置为[N,80,T]。

在对第a个候选频谱特征进行上采样处理时，可以将第a个候选频谱特征通过第一上采样层501进行上采样处理。其中，第一上采样层501可以具体包括第一反卷积子网络和第一激活子网络。第一反卷积子网络的反卷积参数可以是：输入通道Cin＝80，输出通道Cout＝120，卷积核大小k＝4，步长stride＝2，填充padding＝2。第一激活子网络对应的激活函数可以包括但不限于leaky_relu、relu、sigmod、tanh等激活函数。由于第一上采样层501对应的采样维度信息组为[N,120,2*T]，经过第一上采样层501对第a个候选频谱特征进行上采样处理后，得到第一子频谱特征1，其对应的尺寸(shape)为[N,120,2*T]。也就是说，相比第a个候选频谱特征而言，第一子频谱特征1的频率维度从80维扩展到了120维，时间维度从T扩展到了2T，达到丰富频率维度和时间维度特征的作用。为了保证第一子频谱特征1的质量，可以根据第a个候选频谱特征对应的初始时间维度和初始频率维度，通过第一下采样层504进行对第一子频谱特征1进行下采样处理。其中，第一下采样层504可以具体包括第一卷积子网络和第二激活子网络。第一卷积子网络的卷积参数可以是：输入通道Cin＝120，输出通道Cout＝80，卷积核大小k＝7，步长stride＝2，padding＝3。第二激活子网络对应的激活函数可以包括但不限于leaky_relu、relu、sigmod、tanh等激活函数。第一下采样层504对应的采样维度信息组为[N,80,T]，经过第一下采样层504对第一子频谱特征1进行下采样处理后，得到第二子频谱特征1，其对应的尺寸(shape)为[N,80,T]。也就是说，通过下采样处理之后，得到的第二子频谱特征1与第a个候选频谱特征具有相同的频率维度和时间维度，从而可以使得得到的第二子频谱特征1在进行特征增强的同时，可以具有较高的质量。

类似地，为了得到更丰富的特征信息，还可以在对第a个候选频谱特征进行上采样处理时，可以将第a个候选频谱特征首先通过第二上采样层502进行上采样处理。其中，第二上采样层502可以具体包括第二反卷积子网络和第三激活子网络。第二反卷积子网络的反卷积参数可以是：输入通道Cin＝80，输出通道Cout＝160，卷积核大小k＝4，步长stride＝2，填充padding＝2。第三激活子网络对应的激活函数可以包括但不限于leaky_relu、relu、sigmod、tanh等激活函数。由于第二上采样层502对应的采样维度信息组为[N,160,2*T]，经过第二上采样层502对第a个候选频谱特征进行上采样处理后，得到第二子频谱特征2，其对应的尺寸(shape)为[N,160,2*T]。也就是说，相比第a个候选频谱特征而言，第二子频谱特征2的频率维度从80维扩展到了160维，时间维度从T扩展到了2T，达到丰富频率维度和时间维度特征的作用。进一步地，为了保证第一子频谱特征2的质量，可以根据第a个候选频谱特征对应的初始时间维度和初始频率维度，通过第二下采样层505进行对第一子频谱特征2进行下采样处理。其中，第二下采样层505可以具体包括第二卷积子网络和第四激活子网络。第二卷积子网络的卷积参数可以是：输入通道Cin＝160，输出通道Cout＝80，卷积核大小k＝7，步长stride＝2，padding＝3。第四激活子网络对应的激活函数可以包括但不限于leaky_relu、relu、sigmod、tanh等激活函数。第二下采样层505对应的采样维度信息组为[N,80,T]，经过第二下采样层505对第一子频谱特征2进行下采样处理后，得到第二子频谱特征2，其对应的尺寸(shape)为[N,80,T]。也就是说，通过下采样处理之后，得到的第二子频谱特征2与第a个候选频谱特征具有相同的频率维度和时间维度，从而可以使得得到的第二子频谱特征2在进行特征增强的同时，可以具有较高的质量。

此外，为了得到更丰富的特征信息，还可以在对第a个候选频谱特征进行上采样处理时，将第a个候选频谱特征首先通过第三上采样层503进行上采样处理。其中，第三上采样层503可以具体包括第三反卷积子网络和第五激活子网络。第三反卷积子网络的反卷积参数可以是：输入通道Cin＝80，输出通道Cout＝240，卷积核大小k＝4，步长stride＝2，填充padding＝2。第五激活子网络对应的激活函数可以包括但不限于leaky_relu、relu、sigmod、tanh等激活函数。由于第三上采样层503对应的采样维度信息组为[N,240,2*T]，经过第三上采样层503对第a个候选频谱特征进行上采样处理后，得到第一子频谱特征3，其对应的尺寸(shape)为[N,240,2*T]。也就是说，相比第a个候选频谱特征而言，第一子频谱特征3的频率维度从80维扩展到了240维，时间维度从T扩展到了2T，达到丰富频率维度和时间维度特征的作用。进一步地，为了保证第一子频谱特征3的质量，可以根据第a个候选频谱特征对应的初始时间维度和初始频率维度，通过第三下采样层506进行对第一子频谱特征3进行下采样处理。其中，第三下采样层506可以具体包括第三卷积子网络和第六激活子网络。第三卷积子网络的卷积参数可以是：输入通道Cin＝240，输出通道Cout＝80，卷积核大小k＝7，步长stride＝2，padding＝3。第四激活子网络对应的激活函数可以包括但不限于leaky_relu、relu、sigmod、tanh等激活函数。第三下采样层506对应的采样维度信息组为[N,80,T]，经过第三下采样层506对第二子频谱特征3进行下采样处理后，得到第二子频谱特征3，其对应的尺寸(shape)为[N,80,T]。也就是说，通过下采样处理之后，得到的第二子频谱特征3与第a个候选频谱特征具有相同的频率维度和时间维度，从而可以使得得到的第二子频谱特征3在进行特征增强的同时，可以具有较高的质量。

可以理解的是，本申请实施例中的第一上采样层501、第二上采样层502、第三上采样层503、第一下采样层504、第二下采样层505和第三下采样层506的参数仅为示例，在具体的应用中，可以根据需求进行相应地调整。

进一步地，在得到第二子频谱特征1、第二子频谱特征2和第二子频谱特征3之后，可以将这3个第二子频谱特征进行加和操作，从而得到第a个目标频谱特征。可以看出，通过增强候选频谱特征在时间维度以及频率维度中所包含的音频信息的特征抽取，实现对频谱信息进行深度扩展，使得获取得到的目标频谱特征的丰富度较高。

S104：对K个目标频谱特征进行特征融合处理，得到融合频谱特征，将融合频谱特征合成为目标音频数据。

其中，融合频谱特征为最终用于合成目标音频数据的特征。目标音频数据是最终合成的音频数据，可以以音频帧的形式输出，具体可以包括但不限于语音广播、歌曲、朗诵、戏剧、说话声等等。

请参见图3，在获取到K个目标频谱特征之后，可以通过音频合成模型中的融合组件405对K个目标频谱特征进行特征融合处理，从而得到融合频谱特征，最后通过。其中，融合组件405的具体结构可以参见图7，采样组件404的作用是使得采样处理得到的目标频谱特征融合了时间维度和频率维度上的特征，可以避免候选频谱特征在时间维度以及频率维度上的部分对音频合成影响较大的特征的削弱或者丢失，进而可以提高目标频谱特征的利用率和表达能力。

具体地，计算机设备可以获取K个目标频谱特征对应的卷积参数信息，根据卷积参数信息对K个目标频谱特征进行卷积处理，得到K个目标频谱特征对应的卷积频谱特征；进而对卷积频谱特征进行激活处理，得到卷积频谱特征对应的融合频谱特征。

其中，卷积参数信息可以理解为对K个目标频谱特征进行卷积操作时的参数，具体可以包括输入通道(Cin)，输出通道(Cout)，卷积核大小，步长(stride)以及填充(padding)等等。卷积频谱特征可以理解为K个目标频谱特征进过卷积操作之后得到的特征；激活处理可以理解为对卷积频谱特征进行非线性变化，使得处理后的融合频谱特征具有更丰富的表达。

具体地，请一并参见图7，图7是本申请实施例提供的一种获取融合频谱特征的示意图。可以理解的是，图7示出的融合组件中的卷积层601和激活层602的参数仅为示例，在实际的应用中，可以根据需求进行相应地调整。如图7所示，融合组件可以包括卷积层601和激活层602。在得到K个目标频谱特征之后，可以首先获取K个目标频谱特征对应的卷积参数信息，例如，卷积参数信息可以是：输入通道Cin＝3，输出通道Cout＝1，卷积核大小k＝K，步长stride＝1，填充padding＝“same”。然后基于上述的卷积参数信息，将K个目标频谱特征通过融合组件405中的卷积层601进行卷积操作，得到卷积融合特征。在本申请实施例中，卷积层的作用是通过大小为K的卷积核，对采样组件404所得到的K个目标频谱特征，在时间和频率维度进行特征融合，使得得到的卷积融合特征具有更高的丰富性。最后，在通过采样组件404中的激活层602对卷积融合特征进行激活处理，目标融合频谱特征。其中，激活层602对应的激活函数可以包括但不限于leaky_relu、relu、sigmod、tanh等激活函数。可以看出，通过对K个目标频谱特征进行卷积处理以及激活处理，可以增强最终用于合成目标音频数据的融合频谱特征在时间维度以及频率维度上特征表达的有效性。

可选地，在一种可能的实施方式中，融合组件405还可以包括图7中未示出的转换层。在对K个目标频谱特征进行融合处理之前，还可以将K个目标频谱特征进行拼接操作(concat)，得到拼接频谱特征，再通过融合组件405的转换层对拼接频谱特征进行维度转换处理，得到K个目标频谱特征。可以理解的是，K个目标频谱特征中每一个目标频谱特征的尺寸(shape)均为[N,F,T]，K个目标频谱特征进行拼接操作(concat)，得到的拼接频谱特征尺寸(shape)为[N,K*F,T]。在本申请实施例中，相对于K个目标频谱特征而言，拼接频谱特征的尺寸(shape)更适合作为融合组件405的输入。因此，将K个目标频谱特征进行拼接操作(concat)得到的拼接频谱特征，作为融合组件405的输入，有利于降低融合组件405出错的概率。随后，可以通过融合组件405的转换层对尺寸(shape)为[N,K*F,T]的拼接频谱特征，进行维度变换操作，使之从三维数据变成四维数据，将拼接频谱特征重新转换成尺寸(shape)为[N,F,T]的K个目标频谱特征。然后，再对K个目标频谱特征进行卷积操作以及激活操作，卷积操作以及激活操作的具体过程可以参考前文的描述，在此不再赘述。

进一步地，在得到融合频谱特征之后，通过声码器406将融合频谱特征转换合成为目标合成音频。可以理解的是，计算机设备可以采用但不限于griffin-lim声码器、hifi-gan声码器和pwg声码器等声码器，对融合频谱特征进行转换合成，获取目标合成音频。

在将音频合成模型应用在音频合成场景(例如，由音频关键信息合成目标音频数据的过程)之前，需要预先对音频合成模型进行训练，其训练过程可以参见图8，图8是本申请实施例提供的一种音频合成模型训练方法的流程示意图。可以理解地，该音频合成模型训练方法由计算机设备执行，该计算机设备可以为终端设备(例如，图1所对应实施例中的终端设备102a、终端设备102b或终端设备102c)，或者为服务器(例如，图1所对应实施例中的服务器101)，或者为计算机程序(包括程序代码)。如图8所示，该音频合成模型训练方法可以包括以下步骤S201-步骤S205：

步骤S201：获取用于合成音频数据的样本关键信息，通过初始合成模型的编码器，得到样本关键信息对应的样本属性特征。

其中，样本关键信息是用于对初始合成模型进行训练的样本。具体地，样本关键信息可以包括样本音素序列、样本时长序列以及样本音高序列等等。初始合成模型可以是指音频合成模型未完成训练之前的网络模型。样本属性特征可以理解为表征样本关键信息中与音频信息相关的特征。

具体地，计算机设备可以在本地数据库或云数据库中上获取用于训练的样本关键信息，然后可以通过初始合成模型的编码器，得到样本关键信息对应的样本属性特征。

步骤S202：通过初始合成模型的扩散解码器，输出样本属性特征对应的V个初始样本频谱特征；V为大于K的整数。

其中，初始样本频谱特征可以理解为对样本属性特征进行特征增强后得到的频谱特征。其中，V可以根据扩散解码器的扩散频次信息确定，V为大于K的整数，且V为大于T的整数，也就是说，训练阶段的迭代次数大于应用阶段的迭代次数。当初始样本频谱特征的数量与扩散频次信息所指示的数值V相匹配时，获取V个初始样本频谱特征。其中，第1个初始样本频谱特征为第2个初始样本频谱特征的输入，在得到第2个初始样本频谱特征之后，可以将第2个初始样本频谱特征再次作为扩散解码器的输入，经过扩散解码器对初始样本频谱特征进行特征增强，输出第3个初始样本频谱特征，依次重复迭代，直至得到V个初始样本频谱特征，从而使得初始样本频谱特征的特征增强。

步骤S203：按照V个目标样本频谱特征对应的生成时间顺序，在V个初始样本频谱特征中依次获取第i个初始样本频谱特征和第j个初始样本频谱特征，在V个初始样本频谱特征中确定标签频谱特征；i为小于V的正整数；j为小于或等于V，且大于i的整数。

其中，第i个初始样本频谱特征的生成时间顺序早于第j个初始样本频谱特征的生成时间顺序。例如，第i个初始样本频谱特征的生成时间为t0时刻，第j个初始样本频谱特征的生成时间可以是t1时刻或者t2时刻等等。标签频谱特征可以是V个初始样本频谱特征中的任一初始样本频谱特征，例如可以是第V个初始样本频谱特征，或者是第V-1个初始样本频谱特征等等，标签频谱特征的生成是时间顺序晚于第j个初始样本频谱特征的生成时间顺序。

具体地，计算机设备在得到V个初始样本频谱特征之后，可以通过初始合成模型的频谱选择组件，按照V个目标样本频谱特征对应的生成时间顺序，在V个初始样本频谱特征中依次获取第i个初始样本频谱特征和第j个初始样本频谱特征，并确定标签频谱特征。i为小于V的正整数，i可以取值为1，2，3，……，V-1；j为小于或等于V，且大于i的整数，i可以取值为i+1，……，V-1。

步骤S204：根据第i个初始样本频谱特征和第j个初始样本频谱特征，确定第一损失值，根据第j个初始样本频谱特征和标签频谱特征，确定第二损失值。

其中，第一损失值可以理解为第i个初始样本频谱特征对应的第i个目标样本频谱特征与第j个初始样本频谱特征之间的差异程度。其中，第i个目标样本频谱特征为第i个初始样本频谱特征经过采样处理之后得到的频谱特征。计算第一损失值所采用的损失函数可以是L1_los、L2_loss等中的任一项。第二损失值可以理解为样本融合频谱特征和标签频谱特征之间的差异程度，其中，样本融合频谱特征为第i个初始样本频谱特征对应的第i个目标样本频谱特征，与第j个初始样本频谱特征对应的第j个目标样本频谱特征进行特征融合后得到的特征；第j个目标样本频谱特征为第j个初始样本频谱特征进行采样处理之后得到的频谱特征。计算第二损失值所采用的损失函数可以是L1_los、L2_loss等中的任一项。通过第一损失值和第二损失值可以确定是否需要调整初始合成模型的网络参数(例如学习率、卷积参数信息等)。

具体地，计算机设备可以根据第i个初始样本频谱特征对应的时间维度信息和频率维度信息，对第i个初始样本频谱特征进行采样处理，得到第i个目标样本频谱特征；其中，时间维度信息和频率维度信息的具体定义以及具体的采样处理过程可以参考前文的描述，在此不再赘述。在获取到第i个目标样本频谱特征之后，可以将第j个初始样本频谱特征作为第i个目标样本频谱特征的约束，获取二者之间的第一损失值。该过程的主要作用是帮助初始合成模型迅速学习第i个初始样本频谱特征对应的特征生成时刻到第j个初始样本频谱特征对应的特征生成时刻的映射关系，使得第i个目标样本频谱特征的特征信息逐渐接近于第V个初始样本频谱特征，从而可以提高音频合成的质量和效率。然后，计算机设备可以根据第j个初始样本频谱特征对应的时间维度信息和频率维度信息，对第j个初始样本频谱特征进行采样处理，得到第j个目标样本频谱特征，并将第i个目标样本频谱特征和第j个目标样本频谱特征进行特征融合处理，得到样本融合频谱特征。其中，时间维度信息和频率维度信息的具体定义以及具体的采样处理和融合处理过程可以参考前文的描述，在此不再赘述。在获取到样本融合频谱特征之后，可以将标签频谱特征作为样本融合频谱特征的约束，获取二者之间的第二损失值。该过程的主要作用是帮助初始合成模型迅速学习第j个初始样本频谱特征对应的特征生成时刻到标签频谱特征对应的特征生成时刻的映射关系，使得第j个目标样本频谱特征的特征信息更接近于第V个初始样本频谱特征，从而可以在提高音频合成的质量的同时，可以提高音频合成的效率。

步骤S205：基于第一损失值和第二损失值，对初始合成模型中的网络参数进行修正，将包含修正后的网络参数的初始合成模型确定为音频合成模型。

其中，初始合成模型中的网络参数可以包括但不限于学习率、卷积参数信息等。具体地，可以通过将第一损失值与第一损失阈值进行比较，以及将第二损失值与第二损失阈值进行比较，若满足不预设条件，则对初始合成模型的网络参数进行修正，直至满足预设条件。例如，若第一损失值大于第一损失阈值，则可以认为第一损失值未达到收敛；或者若第二损失值大于第二损失阈值，则可以认为第二损失值未达到收敛；此时，需要对初始合成模型的网络参数进行调整，并且继续对该初始合成模型进行迭代训练，直至第一损失值小于第一损失阈值，且第二损失值小于第二损失阈值，此时可认为第一损失值和第二损失值收敛，从而确定此时得到的初始合成模型收敛，并将包含修正后的网络参数的初始合成模型确定为音频合成模型，如此得到的音频合成模型具有较高的准确率。第一损失阈值和第二损失阈值为预先设置的参数，其具体取值可以根据实际的应用场景确定，本申请实施例对此不做限定。

请一并参见图9，图9是本申请实施例提供的一种音频合成模型训练的示意图。如图9所示，初始合成模型可以包括编码器701、扩散解码器702、频谱选择组件703、第一采样组件704、第二采样组件705、第三采样组件706、融合组707以及声码器708。可以理解的是，图9所示的采样组件的个数仅为示例，在具体的应用中，可以根据实际需求进行调整。如图9所示，可以将样本关键信息输入至初始合成模型中，通过初始合成模型中的编码器701对样本关键信息进行编码处理，得到样本属性特征；通过扩散解码器702，输出样本属性特征对应的V个初始样本频谱特征；并通过频谱选择组件703从V个初始样本频谱特征筛选出初始样本频谱特征V0、初始样本频谱特征V1、初始样本频谱特征V2以及标签频谱特征。其中，初始样本频谱特征V1的生成时间顺序早于初始样本频谱特征V2，晚于初始样本频谱特征V0；标签频谱特征的生成时间顺序晚于初始样本频谱特征V2。以V＝10为例，初始样本频谱特征V0可以是扩散解码器第1次输出的初始样本频谱特征；初始样本频谱特征V1可以是扩散解码器第2次输出的初始样本频谱特征；初始样本频谱特征V2可以是扩散解码器第5次输出的初始样本频谱特征；标签频谱特征可以是扩散解码器第10次输出的初始样本频谱特征。

进一步地，可以根据初始样本频谱特征V0对应的时间维度信息和频率维度信息，通过第一采样组件704对初始样本频谱特征V0进行采样处理，得到目标样本频谱特征V0；然后，可以将初始样本频谱特征V1作为目标样本频谱特征V0的约束，获取二者之间的第一损失值1。该过程的主要作用是帮助初始合成模型迅速学习初始样本频谱特征V0对应的特征生成时刻到初始样本频谱特征V1对应的特征生成时刻的映射关系，使得目标样本频谱特征V0的特征信息逐渐接近于第V个初始样本频谱特征，从而可以在提高音频合成的质量的同时，可以提高音频合成的效率。类似地，可以根据初始样本频谱特征V1对应的时间维度信息和频率维度信息，通过第二采样组件705对初始样本频谱特征V1进行采样处理，得到目标样本频谱特征V1；然后，可以将初始样本频谱特征V2作为目标样本频谱特征V1的约束，获取二者之间的第一损失值2。该过程的主要作用是帮助初始合成模型迅速学习初始样本频谱特征V1对应的特征生成时刻到初始样本频谱特征V2对应的特征生成时刻的映射关系，使得目标样本频谱特征V1的特征信息逐渐接近于第V个初始样本频谱特征，从而可以提高音频合成的质量和效率。

进一步地，可以根据初始样本频谱特征V2对应的时间维度信息和频率维度信息，通过第三采样组件706对初始样本频谱特征V2进行采样处理，得到目标样本频谱特征V2；并将第i个目标样本频谱特征和第j个目标样本频谱特征进行特征融合处理，得到样本融合频谱特征。其中，时间维度信息和频率维度信息的具体定义以及具体的采样处理和融合处理过程可以参考前文的描述，在此不再赘述。在获取到样本融合频谱特征之后，可以将标签频谱特征作为样本融合频谱特征的约束，获取二者之间的第二损失值。该过程的主要作用是帮助初始合成模型迅速学习第j个初始样本频谱特征对应的特征生成时刻到标签频谱特征对应的特征生成时刻的映射关系，使得第j个目标样本频谱特征的特征信息更接近于第V个初始样本频谱特征，从而可以提高音频合成的准确率和效率。然后，计算机设备可以基于第一损失值1、第二损失值2和第二损失值，对初始合成模型中的网络参数进行修正，并将包含修正后的网络参数的初始合成模型确定为音频合成模型，使得最终声码器708输出的合成音频，具有良好的合成质量。

在本申请实施例中，基于第一损失值和第二损失值，对初始合成模型中的网络参数进行修正，使得第j个目标样本频谱特征经过采样处理之后的目标样本融合特征以及样本融合频谱特征更接近于标签频谱特征，因此，可以使得最终获取得到的音频合成模型具有良好的合成质量。在合成目标音频数据的过程中，通过选取音频合成模型中的频谱选择组件选择小于V的K个候选频谱特征作为采样组件的输入，并通过采样处理和融合处理，使得融合频谱特征增强了在时间维度以及频谱维度上的特征表达的有效性，可以使得采用融合频谱特征合成得到的目标音频数据的音频合成效果，优于采用标签频谱特征合成得到的音频数据的音频合成效果。此外，在将融合频谱特征合成目标音频数据时，无需进行V次迭代，显著减少了迭代的时间，提高了音频合成的处理速度，进而可以提高音频合成的效率。

请参见图10，图10是本申请实施例提供的一种音频合成装置的结构示意图。如图10所示，该音频合成装置1可以包括：第一获取模块11，生成模块12、采样模块13和合成模块14，各个模块的详细描述如下：

其中，第一获取模块11，生成模块12、采样模块13和合成模块14的具体功能实现方式可以参见图4所对应的实施例中的步骤S101-步骤S104，这里不再进行赘述。

在一个或者多个实施例中，音频关键信息包括音素序列、时长序列以及音高序列，生成模块12可以包括：拼接单元121、编码单元122、转换单元123、增强单元124和第一获取单元125，其中：

拼接单元121，用于将音素序列、时长序列以及音高序列进行拼接，得到音频输入特征，将音频输入特征输入至音频合成模型；

编码单元122，用于根据音频合成模型中的编码器对音频输入特征进行编码处理，得到音频属性特征。

转换单元123，用于通过音频合成模型的扩散解码器，将音频属性特征转换为初始频谱特征M0；

增强单元124，用于将初始频谱特征M0输入至扩散解码器，基于扩散解码器对初始频谱特征M0进行特征增强处理，得到初始频谱特征M1；

第一获取单元125，用于当初始频谱特征的数量与扩散频次信息所指示的数值T相匹配时，获取T个初始频谱特征，从T个初始频谱特征获取K个候选频谱特征；T为大于K的整数。

其中，拼接单元121、编码单元122、转换单元123、增强单元124和第一获取单元125的具体功能实现方式可以参见图4所对应实施例中的步骤S102，这里不再进行赘述。

在一个或者多个实施例中，时间维度信息包括K个候选频谱特征中的第a个候选频谱特征在采样处理中的目标时间维度，频率维度信息包括第a个候选频谱特征在采样处理中的b个目标频率维度；a为小于或等于K的正整数，b为大于1的整数，采样模块13可以包括：组合单元131、上采样单元132和下采样单元133，其中：

组合单元131，用于对目标时间维度和b个目标频率维度进行组合，得到b个采样维度信息组；

上采样单元132，用于根据b个采样维度信息组，对第a个候选频谱特征进行上采样处理，得到第a个候选频谱特征对应的b个第一子频谱特征；

下采样单元133，用于根据第a个候选频谱特征对应的初始时间维度和初始频率维度，对b个第一子频谱特征进行下采样处理，得到b个第二子频谱特征，将b个第二子频谱特征进行加和操作，得到第a个目标频谱特征。

其中，组合单元131、上采样单元132和下采样单元133的具体功能实现方式可以参见图4所对应实施例中的步骤S103，这里不再进行赘述。

在一个或者多个实施例中，合成模块14可以包括：卷积单元141和激活单元142，其中：

卷积单元141，用于获取K个目标频谱特征对应的卷积参数信息，根据卷积参数信息对K个目标频谱特征进行卷积处理，得到K个目标频谱特征对应的卷积频谱特征；

激活单元142，用于对卷积频谱特征进行激活处理，得到卷积频谱特征对应的融合频谱特征。

其中，卷积单元141和激活单元142的具体功能实现方式可以参见图4所对应实施例中的步骤S104，这里不再进行赘述。

在一个或多个实施例中，音频合成装置1还可以包括：第二获取模块15、第三获取模块16、第四获取模块17、确定模块18和修正模块19，其中：

第二获取模块15，用于获取用于合成音频数据的样本关键信息，通过初始合成模型的编码器，得到样本关键信息对应的样本属性特征；

第三获取模块16，用于通过初始合成模型的扩散解码器，输出样本属性特征对应的V个初始样本频谱特征；V为大于K的整数；

第四获取模块17，用于按照V个目标样本频谱特征对应的生成时间顺序，在V个初始样本频谱特征中依次获取第i个初始样本频谱特征和第j个初始样本频谱特征，在V个初始样本频谱特征中确定标签频谱特征；i为小于V的正整数；j为小于或等于V，且大于i的整数；

确定模块18，用于根据第i个初始样本频谱特征和第j个初始样本频谱特征，确定第一损失值，根据第j个初始样本频谱特征和标签频谱特征，确定第二损失值；

修正模块19，用于基于第一损失值和第二损失值，对初始合成模型中的网络参数进行修正，将包含修正后的网络参数的初始合成模型确定为音频合成模型。

其中，第二获取模块15、第三获取模块16、第四获取模块17、确定模块18和修正模块19的具体功能实现方式可以参见图4所对应实施例中的步骤S104，这里不再进行赘述。

在一个或者多个实施例中，确定模块18可以包括：第二获取单元181和第三获取单元182，其中：

第二获取单元181，用于根据第i个初始样本频谱特征对应的时间维度信息和频率维度信息，对第i个初始样本频谱特征进行采样处理，得到第i个目标样本频谱特征，获取第i个目标样本频谱特征和第j个初始样本频谱特征之间的第一损失值；

第三获取单元182，用于根据第j个初始样本频谱特征对应的时间维度信息和频率维度信息，对第j个初始样本频谱特征进行采样处理，得到第j个目标样本频谱特征，将第i个目标样本频谱特征和第j个目标样本频谱特征进行特征融合处理，得到样本融合频谱特征，获取样本融合频谱特征和标签频谱特征之间的第二损失值。

其中，第二获取单元181和第三获取单元182的具体功能实现方式可以参见图4所对应实施例中的步骤S104，这里不再进行赘述。

在本申请实施例中，在获取用于合成音频数据的音频关键信息之后，先对音频关键信息进行编码处理，获取音频属性特征，以将音频关键信息转换成向量形式，有助于保障音频合成的可行性；然后，根据音频属性特征和扩散频次信息，生成K个候选频谱特征，使得获得的K个候选频谱特征具有较高的特征丰富度；进而获取K个候选频谱特征对应的时间维度信息和频率维度信息，根据时间维度信息和频率维度信息，对K个候选频谱特征进行采样处理，得到K个目标频谱特征，对K个目标频谱特征进行特征融合处理，得到融合频谱特征，并将融合频谱特征合成为目标音频数据。本申请实施例中，通过增强在时间维度以及频率维度中所包含的音频信息的特征抽取，实现对频谱信息进行深度扩展，从而可以增强融合频谱特征在时间维度以及频率维度上特征表达的有效性，使得获取得到的融合频谱特征的丰富度较高。，因此采用融合频谱特征合成对应的目标音频数据更加符合预期要求，可以提高音频合成的质量。

请参见图11，图11是本申请实施例提供的一种计算机设备的结构示意图。如图11所示，该计算机设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，上述计算机设备1000还可以包括：用户接口1003，和一个或多个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。可选地，网络接口1004可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如一个或多个磁盘存储器。可选的，存储器1005还可以是一个或多个位于远离前述处理器1001的存储装置。如图11所示，作为一种计算机可读存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及设备控制应用程序。

在如图11所示的计算机设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

获取用于合成音频数据的音频关键信息；

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图4所对应实施例中对音频合成方法的描述，也可执行前文图10所对应实施例中对音频合成装置1的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且计算机可读存储介质中存储有前文提及的音频合成装置1所执行的计算机程序，且计算机程序包括程序指令，当处理器执行程序指令时，能够执行前文图4所对应实施例中对音频合成方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。作为示例，程序指令可被部署在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行，分布在多个地点且通过通信网络互连的多个计算设备可以组成区块链***。

此外，需要说明的是：本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或者计算机程序可以包括计算机指令，该计算机指令可以存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器可以执行该计算机指令，使得该计算机设备执行前文图4所对应实施例中对音频合成方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节，请参照本申请方法实施例的描述。

需要说明的是，对于前述的各个方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储器(Read-Only Memory，ROM)或随机存储器(Random Access Memory，RAM)等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种音频合成方法，其特征在于，包括：

获取用于合成音频数据的音频关键信息；

对所述音频关键信息进行编码处理，得到音频属性特征，根据所述音频属性特征和扩散频次信息，生成K个候选频谱特征；K为正整数；

获取所述K个候选频谱特征对应的时间维度信息和频率维度信息，根据所述时间维度信息和所述频率维度信息，对所述K个候选频谱特征进行采样处理，得到K个目标频谱特征；

对所述K个目标频谱特征进行特征融合处理，得到融合频谱特征，将所述融合频谱特征合成为目标音频数据。

2.根据权利要求1所述的方法，其特征在于，所述音频关键信息包括音素序列、时长序列以及音高序列；

所述对所述音频关键信息进行编码处理，得到音频属性特征，包括：

将所述音素序列、所述时长序列以及所述音高序列进行拼接，得到音频输入特征，将所述音频输入特征输入至音频合成模型；

根据所述音频合成模型中的编码器对所述音频输入特征进行编码处理，得到音频属性特征。

3.根据权利要求1所述的方法，其特征在于，所述根据所述音频属性特征和扩散频次信息，生成K个候选频谱特征，包括：

通过音频合成模型的扩散解码器，将所述音频属性特征转换为初始频谱特征M0；

将所述初始频谱特征M0输入至所述扩散解码器，基于所述扩散解码器对所述初始频谱特征M0进行特征增强处理，得到初始频谱特征M1；

当初始频谱特征的数量与所述扩散频次信息所指示的数值T相匹配时，获取T个初始频谱特征，从所述T个初始频谱特征获取K个候选频谱特征；T为大于K的整数。

4.根据权利要求1所述的方法，其特征在于，所述时间维度信息包括所述K个候选频谱特征中的第a个候选频谱特征在采样处理中的目标时间维度，所述频率维度信息包括所述第a个候选频谱特征在采样处理中的b个目标频率维度；a为小于或等于K的正整数，b为大于1的整数；

所述根据所述时间维度信息和所述频率维度信息，对所述K个候选频谱特征进行采样处理，得到K个目标频谱特征，包括：

对所述目标时间维度和所述b个目标频率维度进行组合，得到b个采样维度信息组；

根据所述b个采样维度信息组，对所述第a个候选频谱特征进行上采样处理，得到所述第a个候选频谱特征对应的b个第一子频谱特征；

根据所述第a个候选频谱特征对应的初始时间维度和初始频率维度，对所述b个第一子频谱特征进行下采样处理，得到b个第二子频谱特征，将所述b个第二子频谱特征进行加和操作，得到第a个目标频谱特征。

5.根据权利要求1所述的方法，其特征在于，所述对所述K个目标频谱特征进行特征融合处理，得到融合频谱特征，包括：

获取所述K个目标频谱特征对应的卷积参数信息，根据所述卷积参数信息对所述K个目标频谱特征进行卷积处理，得到所述K个目标频谱特征对应的卷积频谱特征；

对所述卷积频谱特征进行激活处理，得到所述卷积频谱特征对应的融合频谱特征。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述方法还包括：

获取用于合成音频数据的样本关键信息，通过初始合成模型的编码器，得到所述样本关键信息对应的样本属性特征；

通过所述初始合成模型的扩散解码器，输出所述样本属性特征对应的V个初始样本频谱特征；V为大于K的整数；

按照所述V个目标样本频谱特征对应的生成时间顺序，在所述V个初始样本频谱特征中依次获取第i个初始样本频谱特征和第j个初始样本频谱特征，在所述V个初始样本频谱特征中确定标签频谱特征；i为小于V的正整数；j为小于或等于V，且大于i的整数；

根据所述第i个初始样本频谱特征和第j个初始样本频谱特征，确定第一损失值，根据所述第j个初始样本频谱特征和标签频谱特征，确定第二损失值；

基于所述第一损失值和所述第二损失值，对所述初始合成模型中的网络参数进行修正，将包含修正后的网络参数的初始合成模型确定为音频合成模型。

7.根据权利要求6所述的方法，其特征在于，所述根据所述第i个初始样本频谱特征和第j个初始样本频谱特征，确定第一损失值，根据所述第j个初始样本频谱特征和标签频谱特征，确定第二损失值，包括：

根据所述第i个初始样本频谱特征对应的时间维度信息和频率维度信息，对所述第i个初始样本频谱特征进行采样处理，得到第i个目标样本频谱特征，获取所述第i个目标样本频谱特征和所述第j个初始样本频谱特征之间的第一损失值；

根据所述第j个初始样本频谱特征对应的时间维度信息和频率维度信息，对所述第j个初始样本频谱特征进行采样处理，得到第j个目标样本频谱特征，将所述第i个目标样本频谱特征和所述第j个目标样本频谱特征进行特征融合处理，得到样本融合频谱特征，获取所述样本融合频谱特征和所述标签频谱特征之间的第二损失值。

8.一种音频合成装置，其特征在于，包括：

获取模块，用于获取用于合成音频数据的音频关键信息；

生成模块，用于对所述音频关键信息进行编码处理，得到音频属性特征，根据所述音频属性特征和扩散频次信息，生成K个候选频谱特征；K为正整数；

采样模块，用于获取所述K个候选频谱特征对应的时间维度信息和频率维度信息，根据所述时间维度信息和所述频率维度信息，对所述K个候选频谱特征进行采样处理，得到K个目标频谱特征；

合成模块，用于对所述K个目标频谱特征进行特征融合处理，得到融合频谱特征，将所述融合频谱特征合成为目标音频数据。

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，所述处理器执行权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时，执行权利要求1至7中任一项所述方法的步骤。