CN110706679B

CN110706679B - 一种音频处理方法及电子设备

Info

Publication number: CN110706679B
Application number: CN201910952208.6A
Authority: CN
Inventors: 秦帅
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2022-03-29
Anticipated expiration: 2039-09-30
Also published as: CN110706679A

Abstract

本发明实施例提供了歌曲录制方法及电子设备，该方法包括：获取第一音频数据；对第一音频数据中的第一人声数据进行人声优化处理，得到第二人声数据；基于第二人声数据，生成第二音频数据。实现对用户录制的歌曲的第一音频数据中的第一人声数据进行优化，得到具有第二音频数据的播放效果较优的录制的歌曲，不需要用户利用专业的软件对录制的歌曲中的音频数据进行处理。

Description

一种音频处理方法及电子设备

技术领域

本发明实施例涉及音频技术领域，尤其涉及音频处理方法及电子设备。

背景技术

目前，很多用户喜欢录制自己演唱的歌曲，将录制的歌曲分享给朋友、亲人。为了使得录制的歌曲具有比较好的播放效果，需要用户自己利用专业音频处理软件对录制的歌曲中的相关数据进行相关的处理。

然而，由于缺乏音乐知识和音效处理技巧，使得用户难以利用专业音频处理软件对录制的歌曲中的音频数据进行处理，难以得到播放效果较优的录制的歌曲。

发明内容

本发明实施例提供一种音频处理方法，以解决用户难以利用专业音频处理软件对录制的歌曲中的音频数据进行处理，难以得到播放效果较优的录制的歌曲的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种音频处理方法，包括：

用户录制的歌曲第一音频数据用户录制的歌曲第一音频数据人声数据人声优化处理第二人声数据人声数据第二人声数据人声数据

获取第一音频数据；

对所述第一音频数据中的第一人声数据进行人声优化处理，得到第二人声数据；

基于所述第二人声数据，生成第二音频数据。

在一些实施例中，所述人声优化处理包括以下至少一项：调节音频、调节音量、爆音修复、混音添加、噪声过滤。

在一些实施例中，所述对所述第一音频数据中的第一人声数据进行人声优化处理，得到第二人声数据之前，还包括：

通过预设的人声优化策略模型，确定人声优化参数；

所述对所述第一音频数据中的第一人声数据进行人声优化处理，得到第二人声数据，包括：

基于所述人声优化参数，对所述第一音频数据中的第一人声数据进行人声优化处理，得到第二人声数据；

其中，所述人声优化参数包括以下至少一项：所述人声优化处理中的项的类型、所述人声优化处理中的项的执行顺序、所述人声优化处理的处理时长；

所述人声优化策略模型通过强化学习方式训练得到，所述人声优化策略模型的训练样本包括：人声数据质量得分小于第一分数阈值的人声数据、人声数据质量得分大于第二分数阈值的人声数据，所述第二分数阈值大于所述第一分数阈值。

在一些实施例中，所述获取第一音频数据之后，所述对所述第一音频数据中的第一人声数据进行人声优化处理，得到第二人声数据之前，还包括：

确定所述第一音频数据是否包含伴奏数据；

在所述第一音频数据包括伴奏数据的情况下，将所述第一音频数据分离为第一人声数据和第一伴奏数据。

在一些实施例中，所述确定所述第一音频数据是否包含伴奏数据，包括：

将所述第一音频数据输入到伴奏音乐判别模型，得到伴奏音乐判别模型输出的判别结果，所述判别结果指示所述第一音频数据是否包括伴奏数据；

其中，所述伴奏音乐判别模型被预先训练，所述伴奏音乐判别模型的训练样本包括：包括伴奏音乐的歌曲的音频数据或未包括伴奏音乐的歌曲的音频数据。

在一些实施例中，所述在所述第一音频数据包括伴奏数据的情况下，将所述第一音频数据分离为第一人声数据和第一伴奏数据，包括：

将所述第一音频数据输入到人声伴奏分离模型，得到人声伴奏分离模型输出的分离结果，所述分离结果包括：所述第一人声数据和所述第一伴奏数据；

其中，所述人声伴奏分离模型被预先训练，所述人声伴奏分离模型的训练样本包括：用于训练的歌曲的音频数据、所述用于训练的歌曲的音频数据中的人声数据、所述用于训练的歌曲的音频数据中的伴奏音乐数据。

在一些实施例中，所述基于所述第二人声数据，生成第二音频数据，包括：

将所述第二人声数据和分离出的所述第一伴奏数据进行融合处理，得到第一融合音频数据；

基于第一融合音频数据，生成第二音频数据。

在一些实施例中，所述第一音频数据不包括伴奏数据；

所述基于所述第二人声数据，生成第二音频数据，包括：

将所述第二人声数据和预设的第二伴奏数据进行融合处理，得到第二融合音频数据，基于第二融合音频数据，生成第二音频数据。

在一些实施例中，所述预设的第二伴奏数据通过以下方式生成：

将所述第二人声数据输入到伴奏音乐生成模型，得到伴奏音乐生成模型输出的伴奏数据；

将所述伴奏音乐生成模型输出的伴奏数据作为所述预设的第二伴奏数据；

其中，所述伴奏音乐生成模型包括：判别子模型、生成子模型，判别子模型和生成子模型被预先利用伴奏音乐生成模型的训练样本联合地训练，伴奏音乐生成模型的训练样本包括：用于训练的人声数据、用于训练的人声数据对应的伴奏音乐数据。

在一些实施例中，所述基于第一融合音频数据，生成第二音频数据，包括：

对所述第一融合音频数据进行歌曲优化处理，生成第二音频数据；

其中，所述歌曲优化处理包括以下至少一项：人声和伴奏轨道对齐、人声音量调节和伴奏音量调节、噪声过滤和频谱平滑。

在一些实施例中，所述基于第二融合音频数据，生成第二音频数据，包括：

对所述第二融合音频数据进行歌曲优化处理，生成第二音频数据；

在一些实施例中，还包括：

通过预设的歌曲优化策略模型，确定歌曲优化参数；

其中，所述歌曲优化参数包括以下至少一项：所述歌曲优化处理中的项的类型、所述歌曲优化处理中的项的执行顺序、所述歌曲优化处理的处理时长；

其中，所述歌曲优化策略模型预先被以强化学习方式训练，所述歌曲优化策略模型的训练样本包括：歌曲质量得分小于第三分数阈值的歌曲的音频数据、歌曲质量得分大于第四分数阈值的歌曲的音频数据，所述第四分数阈值大于所述第三分数阈值。

第二方面，本发明实施例还提供了一种电子设备，包括：

获取单元，被配置为获取第一音频数据；

优化单元，被配置为对所述第一音频数据中的第一人声数据进行人声优化处理，得到第二人声数据；

生成单元，被配置为基于所述第二人声数据，生成第二音频数据。

在一些实施例中，所述电子设备还包括：人声优化策略确定单元，被配置为：通过预设的人声优化策略模型，确定人声优化参数；所述优化单元还包括：人声优化模块，被配置为：基于所述人声优化参数，对所述第一音频数据中的第一人声数据进行人声优化处理，得到第二人声数据；

其中，所述人声优化参数包括以下至少一项：人声优化处理中的项的类型、人声优化处理中的项的执行顺序、人声优化处理中的项的执行时长；

所述人声优化策略模型通过强化学习方式训练得到，所述人声优化策略模型的训练样本包括：人声数据质量得分小于第一分数阈值的人声数据、人声数据质量得分大于第二分数阈值的人声数据，所述第二分数阈值大于第一分数阈值。

在一些实施例中，所述电子设备还包括：分离模块，被被配置为：在获取第一音频数据之后，所述对所述第一音频数据中的第一人声数据进行人声优化处理，得到第二人声数据之前，确定所述第一音频数据是否包含伴奏数据；在所述第一音频数据包括伴奏数据的情况下，将所述第一音频数据分离为第一人声数据和第一伴奏数据。

在一些实施例中，所述分离模块还包括：

判别子模块，被配置为：

其中，伴奏音乐判别模型被预先训练，伴奏音乐判别模型的训练样本包括：包括伴奏音乐的歌曲的音频数据或未包括伴奏音乐的歌曲的音频数据。

在一些实施例中，所述分离模块还包括：分离结果获取子模块被配置为：

其中，人声伴奏分离模型被预先训练，人声伴奏分离模型的训练样本包括：用于训练的歌曲的音频数据、所述用于训练的歌曲的音频数据中的人声数据、所述用于训练的歌曲的音频数据中的伴奏音乐数据。

在一些实施例中，所述生成单元还包括：

第一处理模块，被配置为：将所述第二人声数据和分离出的所述第一伴奏数据进行融合处理，得到第一融合音频数据，基于第一融合音频数据，生成第二音频数据。

在一些实施例中，所述生成单元还包括：

第二处理模块，被配置为：在所述第一音频数据不包括伴奏数据的情况下，将所述第二人声数据和预设的第二伴奏数据进行融合处理，得到第二融合音频数据，基于第二融合音频数据，生成第二音频数据。

在一些实施例中，所述电子设备还包括：

第二伴奏数据生成单元，被配置为：将所述第二人声数据输入到伴奏音乐生成模型，得到伴奏音乐生成模型输出的伴奏数据，将伴奏音乐生成模型输出的伴奏数据作为所述预设的第二伴奏数据；

在一些实施例中，第一处理模块包括：

第一歌曲优化子模块，被配置为：对所述第一融合音频数据进行歌曲优化处理，所述歌曲优化处理包括以下至少一项：人声和伴奏轨道对齐、人声音量调节和伴奏音量调节、噪声过滤和频谱平滑。

在一些实施例中，所述第二处理模块包括：

第二歌曲优化子模块，被配置为：

在一些实施例中，所述电子设备还包括：

歌曲优化参数确定单元，被配置为：通过预设的歌曲优化策略模型，确定歌曲优化参数；

其中，所述歌曲优化参数包括以下至少一项：所述歌曲优化处理中的项的类型、所述歌曲优化处理中的项的执行顺序、所述歌曲优化处理中的项的执行时长；

其中，歌曲优化策略模型预先被以强化学习方式训练，歌曲优化策略模型的训练样本包括：歌曲质量得分小于第三分数阈值的歌曲的音频数据、歌曲质量得分大于第四分数阈值的歌曲的音频数据，所述第四分数阈值大于所述第三分数阈值。

在本发明实施例中，通过获取第一音频数据；对第一音频数据中的第一人声数据进行人声优化处理，得到第二人声数据；基于第二人声数据，生成第二音频数据。能够实现对用户录制的歌曲的第一音频数据中的第一人声数据进行优化，得到具有第二音频数据的播放效果较优的录制的歌曲，不需要用户利用专业的软件对录制的歌曲中的音频数据进行处理。

附图说明

图1示出了本发明实施例提供的音频处理方法的一个流程图；

图2示出了对用户录制的歌曲进行优化的一个流程示意图；

图3示出了本发明实施例提供的电子设备的结构框图；

图4示出了实现本发明实施例提供的音频处理方法的移动终端的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本发明实施例提供的音频处理方法的一个流程图，该方法包括：

步骤101，获取第一音频数据。

在本发明中，用户录制的歌曲的音频数据可以称之为第一音频数据。用户录制的歌曲可以为用户清唱时录制的歌曲。用户录制的歌曲也可以为在有伴奏音乐播放情况下用户演唱时录制的歌曲。

步骤102，对第一音频数据中的第一人声数据进行人声优化处理，得到第二人声数据第一音频数据人声数据人声优化处理第二人声数据人声数据。

在本发明中，可以将第一音频数据中的人声数据称之为第一人声数据。为了对用户录制的歌曲的第一音频数据中的第一人声数据进行人声优化处理，可以首先确定第一音频数据中的第一人声数据。然后，可以对第一人声数据进行人声优化处理，对第一人声数据进行人声优化处理之后得到的人声数据作为第二人声数据。例如，调整第一人声数据中的与人声的频率相关的参数的参数值、调整第一人声数据中的与人声的音量相关的参数的参数值等。

在一些实施例中，人声优化处理人声优化处理包括以下至少一项：调节音频、调节音量、爆音修复、混音添加、噪声过滤。

在一些实施例中，对第一音频数据中的第一人声数据进行人声优化处理，得到第二人声数据之前，还包括：通过预设的人声优化策略模型，确定人声优化参数；对第一音频数据中的第一人声数据进行人声优化处理，得到第二人声数据，包括：基于人声优化参数，对第一音频数据中的第一人声数据进行人声优化处理，得到第二人声数据；其中，人声优化参数包括以下至少一项：人声优化处理中的项的类型、人声优化处理中的项的执行顺序、人声优化处理的处理时长；人声优化策略模型通过强化学习方式训练得到，人声优化策略模型的训练样本包括：人声数据质量得分小于第一分数阈值的人声数据、人声数据质量得分大于第二分数阈值的人声数据，第二分数阈值大于第一分数阈值。

通过预设的人声优化策略模型，确定人声优化参数中的人声优化处理中的项的类型相当于确定在对第一音频数据中的第一人声数据进行人声优化处理时，对第一音频数据中的第一人声数据进行的人声优化处理包括调节音频、调节音量、爆音修复、混音添加、噪声过滤中的哪些项。

在本发明中，人声数据质量得分小于第一分数阈值的人声数据可以称之为低质量的人声数据，人声数据质量得分大于第二分数阈值的人声数据可以称之为高质量的人声数据。

在本发明中，可以采用以下方式预先对人声优化策略模型进行训练：预先创建人声优化策略模型，创建的人声优化策略模型具有初始的模型参数。然后，可以利用低质量的人声信号即人声数据质量得分小于第一分数阈值的人声数据和高质量的人声信号即人声数据质量得分大于第二分数阈值的人声数据，以强化学习方式对人声优化策略模型进行训练。

以强化学习方式对人声优化策略模型进行训练的基本原理如下：高质量的人声信号即人声数据质量得分大于第二分数阈值的人声数据作为参考的人声信号，由人声优化策略模型对调节音频、调节音量、爆音修复、混音添加、噪声过滤等进行组合，得到使用不同的候选的策略。使用不同的候选的策略对低质量的人声信号即人声数据质量得分小于第一分数阈值的人声数据进行处理，候选的策略的处理后得到的信号的音频特征越接近高质量的人声信号即人声数据质量得分大于第二分数阈值的人声数据的音频特征，则候选的策略的越优，给予较优的候选的策略奖励。当一个候选的策略的处理效果较差，例如，经过一个候选的策略对低质量的人声信号进行处理后，相关的音频特征并没有得到改善，则给予候选的策略惩罚。通过多次训练，使得人声优化策略模型可以针对输入的人声数据，使用适合于输入的人声数据的策略对输入的人声信号进行优化。

在训练过程中，可以将各个时刻前后T时间作为一段人声数据作为输入V_l(t-T＜t＜t+T)，问题可以表示为P＝(S,A)，S表示状态空间，具体的，表示人声数据空间。A为可选择策略方案空间，选择策略方案空间可以包括但不限于:调节音频、调节音量、爆音修复、混音添加、噪声过滤等，策略方案可以为空。训练函数可以表示为p:S×A→S，状态转换可以表达为s_i+1＝p(s_i,a_i),s_i∈S,a_i∈A，可以得到相应的reward，r:S×A→R，因此，可以得到状态、动作和反馈{s₁,a₁,r₁,s₂,a₂,r₂,…s_t,a_t,r_t}。以强化学习方式对优化策略模型进行训练的过程就是不断通过策略改变使得总的return最大。当前时刻return可以表示为

r表示reward反馈，λ是折扣因子。价值函数可以表达为v(s)＝E[G(t)|S(t)＝s]，通过策略迭代的方式不断优化价值函数就可以得到最优的优化策略模型。

可选的，考虑到相对于获取低质量的人声信号V_l，获得高质量的人声数据V_h较为容易。因此，为获取低质量的人声信号，可以在高质量的人声信号中添加各种噪声，对声音信号做各种频谱扰动，添加冲击信号等等退化技术，来生成低质量的人声信号。低质量信号可以通过公式V_l＝f_preprocess(V_h)得到，其中f_preprocess是各种退化技术的一种或者多种的组合。

在一些实施例中，获取第一音频数据之后，对第一音频数据中的第一人声数据进行人声优化处理，得到第二人声数据之前，还包括：确定第一音频数据是否包含伴奏数据；在第一音频数据包括伴奏数据的情况下，将第一音频数据分离为第一人声数据和第一伴奏数据。

在一些实施例中，确定第一音频数据是否包含伴奏数据，包括：将第一音频数据输入到伴奏音乐判别模型，得到伴奏音乐判别模型输出的判别结果，判别结果指示第一音频数据是否包括伴奏数据；其中，伴奏音乐判别模型被预先训练，伴奏音乐判别模型的训练样本包括：包括伴奏音乐的歌曲的音频数据或未包括伴奏音乐的歌曲的音频数据。

在本发明中，可以采用以下方式预先对伴奏音乐判别模型进行训练：获取伴奏音乐判别模型的训练样本集合。伴奏音乐判别模型的每一个训练样本为以下之一：包括伴奏音乐的歌曲的音频数据、未包括伴奏音乐的歌曲的音频数据。对每一个训练样本进行标注，得到训练样本的标注结果。一个训练样本的标注结果为以下之一：包括伴奏数据、未包括伴奏数据。在训练过程中，采用有监督学习方式对伴奏音乐判别模型进行训练。在训练过程中，对于每一个训练样本，在伴奏音乐判别模型中得到训练样本对应的预测结果，每一次得到的预测结果为以下之一：音频数据包括伴奏数据、音频数据未包括伴奏数据。通过损失函数计算训练样本对应的预测结果与训练样本的标注结果的差异程度，根据差异程度，更新伴奏音乐判别模型的模型参数。

在一些实施例中，在第一音频数据包括伴奏数据的情况下，将第一音频数据分离为第一人声数据和第一伴奏数据，包括：将第一音频数据输入到人声伴奏分离模型，得到人声伴奏分离模型输出的分离结果，分离结果包括：第一人声数据和第一伴奏数据；人声伴奏分离模型被预先训练，人声伴奏分离模型的训练样本包括：用于训练的歌曲的音频数据、用于训练的歌曲的音频数据中的人声数据、用于训练的歌曲的音频数据中的伴奏音乐数据。

在本发明中，伴奏数据也可称之为伴奏音乐数据。第一音频数据中的伴奏数据可以称之为第一伴奏数据。

在本发明中，在第一音频数据包括伴奏数据的情况下，可以利用人声伴奏分离模型将第一音频数据分离为第一人声数据和第一伴奏数据。

在本发明中，可以采用以下方式预先对人声伴奏分离模型进行训练：预先创建人声伴奏分离模型，创建的人声伴奏分离模型具有初始的模型参数。获取人声伴奏分离模型的训练样本集合。人声伴奏分离模型的每一个训练样本包括：一个用于训练的歌曲的音频数据、该用于训练的歌曲的音频数据中的人声数据、该用于训练的歌曲的音频数据中的伴奏音乐数据。然后，可以利用人声伴奏分离模型的训练样本集合，以深度学习方式对人声伴奏分离模型进行训练。

在每一次训练过程中，将用于训练的歌曲的音频数据输入到人声伴奏分离模型，得到人声伴奏分离模型预测出的人声数据和预测出的伴奏音乐数据。通过损失函数计算预测出的人声数据和该用于训练的歌曲的音频数据中的人声数据的差异程度以及计算预测出的伴奏音乐数据和该用于训练的歌曲的音频数据中的伴奏音乐数据的差异程度，根据计算出的差异程度，更新人声伴奏分离模型的模型参数。

步骤103，基于第二人声数据，生成第二音频数据。

在本发明中，第二音频数据可以包括对用户录制的歌曲的第一音频数据中的第一人声数据进行人声优化处理之后得到的第二人声数据和用户录制的歌曲中的原有的未被处理的数据。

在本发明中，在基于第二人声数据，生成第二音频数据之后，可以将第二音频数据作为播放效果较优的录制的歌曲的音频数据，将具有第二音频数据的播放效果较优的录制的歌曲提供给用户。

在一些实施例中，基于第二人声数据，生成第二音频数据，包括：将第二人声数据和分离出的第一伴奏数据进行融合处理，得到第一融合音频数据；基于第一融合音频数据，生成第二音频数据。

在本发明中，当基于第二人声数据，生成第二音频数据时，可以直接将第一融合音频数据作为第二音频数据。换言之，可以直接将第一融合音频数据作为用于提供给用户的播放效果较优的录制的歌曲的音频数据。

在本发明中，可以通过以下方式将第二人声数据和分离出的第一伴奏数据进行融合处理，得到第一融合音频数据：将第二人声数据和分离出的第一伴奏数据通过FFT进行频域变换，分别得到第二人声数据的频域信号F₁、第一伴奏数据的频域信号F₂，然后，将F₁和F₂进行叠加得到融合的歌曲信号F_all，对融合的歌曲信号F_all进行DFT变换可以得到其相应的时域信号T_all，得到的时域信号作为第一融合音频数据。

在一些实施例中，第一音频数据不包括伴奏数据；基于第二人声数据，生成第二音频数据，包括：将第二人声数据和预设的第二伴奏数据进行融合处理，得到第二融合音频数据，基于第二融合音频数据，生成第二音频数据。

在本发明中，在第一音频数据不包括伴奏数据的情况下，可以将第二人声数据和预设的第二伴奏数据进行融合处理，得到第二融合音频数据。预设的第二伴奏数据可以为预设的伴奏音乐的音频数据。将第二人声数据和预设的第二伴奏数据进行融合处理，得到第二融合音频数据的方式参考上述生成第一融合音频数据的方式。

在本发明中，当基于第二融合音频数据，生成第二音频数据时，可以直接将第二融合音频数据作为第二音频数据。换言之，可以直接将第二融合音频数据作为用于提供给用户的播放效果较优的录制的歌曲的音频数据。

在一些实施例中，预设的第二伴奏数据通过以下方式生成：将第二人声数据输入到伴奏音乐生成模型，得到伴奏音乐生成模型输出的伴奏数据；将伴奏音乐生成模型输出的伴奏数据作为预设的第二伴奏数据；

其中，伴奏音乐生成模型包括：判别子模型、生成子模型，判别子模型和生成子模型被预先利用伴奏音乐生成模型的训练样本联合地训练，伴奏音乐生成模型的训练样本包括：用于训练的人声数据、用于训练的人声数据对应的伴奏音乐数据。

在本发明中，在第一音频数据不包括伴奏数据的情况下，可以利用伴奏音乐生成模型生成与第二人声数据适配的预设的第二伴奏数据，并且利用伴奏音乐生成模型生成的预设的第二伴奏数据更加接近于真实的伴奏音乐数据。

从而，使得提供给用户的播放效果较优的录制的歌曲包括具有第二伴奏数据所属的伴奏音乐，并且伴奏音乐接近于真实的伴奏音乐。

在本发明中，可以采用以下方式预先对伴奏音乐生成模型中的判别子模型和生成子模型进行联合地训练：获取伴奏音乐生成模型的训练样本集合。伴奏音乐生成模型的训练样本包括：人声数据、人声数据对应的伴奏音乐数据。训练样本中的人声数据对应的伴奏音乐数据为与训练样本中的人声数据适配的伴奏音乐数据。

在对伴奏音乐生成模型中的判别子模型和生成子模型进行联合地训练时，可以首先对判别子模型进行训练，在对判别子模型进行训练时，生成子模型不参与训练。例如，在对判别子模型进行训练时，对所有用于训练的人声数据对应的伴奏音乐数据中的部分伴奏音乐数据进行一些变换，使得变换后的伴奏音乐数据具有一些生成的信号的音频特征。通过未进行变换的伴奏音乐数据和变换后的伴奏音乐数据对判别子模型进行训练，训练后的判别子模型可以用于判断伴奏音乐数据是否是生成的。

当判别子模型训练收敛时，固定判别子模型，开始训练生成子模型，直到生成子模型收敛。在训练生成子模型的过程中，利用判别子模型输出指示训练生成子模型输出的伴奏音乐数据是否为生成的伴奏音乐数据的结果，可以基于判别子模型输出的结果，调整生成子模型中的相关的参数，通过多次训练，使得生成子模型输出的伴奏音乐数据更加接近于真实的伴奏音乐数据。通过多次训练，训练后的生成子模型不仅可以生成与输入的人声数据适配的伴奏音乐数据，并且生成的伴奏音乐数据更加接近于真实的伴奏音乐数据。

在一些实施例中，基于第一融合音频数据，生成第二音频数据，包括：对第一融合音频数据进行歌曲优化处理，生成第二音频数据；其中，歌曲优化处理包括以下至少一项：人声和伴奏轨道对齐、人声音量调节和伴奏音量调节、噪声过滤和频谱平滑。

在本发明中，当基于第一融合音频数据，生成第二音频数据时，可以对第一融合音频数据进行人声和伴奏轨道对齐、人声音量调节和伴奏音量调节、噪声过滤和频谱平滑中的一项或多项处理，将进行处理之后得到的音频数据作为第二音频数据。

在一些实施例中，基于第二融合音频数据，生成第二音频数据，包括：对第二融合音频数据进行歌曲优化处理，歌曲优化处理包括以下至少一项：人声和伴奏轨道对齐、人声音量调节和伴奏音量调节、噪声过滤和频谱平滑。

在本发明中，当基于第二融合音频数据，生成第二音频数据时，可以对第二融合音频数据进行人声和伴奏轨道对齐、人声音量调节和伴奏音量调节、噪声过滤和频谱平滑中的一项或多项处理，将进行处理之后得到的音频数据作为第二音频数据。

在一些实施例中，还包括：通过预设的歌曲优化策略模型，确定歌曲优化参数；其中，歌曲优化参数包括以下至少一项：歌曲优化处理中的项的类型、歌曲优化处理中的项的执行顺序、歌曲优化处理的处理时长；歌曲优化策略模型预先被以强化学习方式训练，所述歌曲优化策略模型的训练样本包括：歌曲质量得分小于第三分数阈值的歌曲的音频数据、歌曲质量得分大于第四分数阈值的歌曲的音频数据，第四分数阈值大于所述第三分数阈值。

在本发明中，通过预设的歌曲优化策略模型，确定歌曲优化参数中的歌曲优化处理中的项的类型相当于确定对第一融合音频数据或第二融合音频数据进行歌曲优化处理时，对第一融合音频数据或第二融合音频数据进行的歌曲优化处理中包括人声和伴奏轨道对齐、人声音量调节和伴奏音量调节、噪声过滤和频谱平滑中的哪些项。

在本发明中，歌曲质量得分小于第三分数阈值的歌曲可以称之为低质量的歌曲，歌曲质量得分大于第四分数阈值的歌曲可以称之为高质量的歌曲。

在本发明中，可以采用以下方式预先对歌曲优化策略模型进行训练：预先创建歌曲优化策略模型，创建的歌曲优化策略模型具有初始的模型参数。然后，可以利用低质量的歌曲的音频数据和高质量的的歌曲的音频数据，以强化学习方式对歌曲优化策略模型进行训练。

以强化学***滑等进行组合，得到使用不同的候选的策略。使用不同的候选的策略对低质量的歌曲的音频数据作为参考的音频数据进行处理，候选的策略的处理后得到的音频数据的音频特征越接近高质量的歌曲的音频数据的音频特征，则候选的策略的越优，给予较优的候选的策略奖励。当一个候选的策略的处理效果较差，例如，经过一个候选的策略对低质量的歌曲的音频数据进行处理，相关的音频特征并没有得到改善，则给予候选的策略惩罚。通过多次训练，使得歌曲优化策略模型可以针对输入的歌曲的音频数据，使用适合于输入的歌曲的音频数据的策略对输入的歌曲的音频数据进行优化。

请参考图2，其示出了对用户录制的歌曲进行优化的一个流程示意图。

步骤201、获取用户录制的歌曲的音频数据。

用户录制的歌曲可以为用户清唱时录制的歌曲。用户录制的歌曲也可以为在伴奏音乐播放情况下用户演唱时录制的歌曲。用户录制的歌曲的音频数据也可称之为第一音频数据。

步骤202，确定用户录制的歌曲是否包括伴奏音乐。

通过伴奏音乐判别模型确定用户录制的歌曲是否包括伴奏音乐。换言之，判断第一音频数据是否包括伴奏数据。

如果用户录制的歌曲包括伴奏音乐执行步骤203，如果用户录制的歌曲未包括伴奏音乐执行步骤204。

步骤203，第一人声数据和第一伴奏数据分离。

第一音频数据中的伴奏数据可以称之为第一伴奏数据。从用户录制的歌曲的音频数据即第一音频数据中提取出人声数据和第一伴奏数据，从而，使得第一音频数据中的人声数据和第一音频数据中的伴奏数据分离。

换言之，将第一音频数据分离为第一人声数据和第一伴奏数据。可以将第一音频数据输入到人声伴奏分离模型，得到人声伴奏分离模型输出的第一音频数据中的人声数据和第一音频数据中的伴奏数据。

步骤204，生成第二伴奏数据。

对用户录制的歌曲的音频数据中的人声数据即第一人声数据进行人声优化处理之后得到的人声数据可以称之为第二人声数据。在用户录制的歌曲未包括伴奏音乐的情况下，可以生成与第二人声数据适配的伴奏数据。与第二人声数据适配的伴奏数据可以称之为第二伴奏数据。可以通过伴奏音乐生成模型得到与第二人声数据适配的伴奏数据。可以将第二人声数据输入伴奏音乐生成模型，得到伴奏音乐生成模型输出的伴奏数据，伴奏音乐生成模型输出的伴奏数据作为第二伴奏数据。

步骤205，第一人声数据智能优化。

第一智能优化为对第一人声数据进行人声优化处理，得到第二人声数据。可以对第一人声数据进行调节音频、调节音量、爆音修复、混音添加、噪声过滤中的至少一个处理，将得到的人声数据作为第二人声数据。

步骤206，第二人声数据和伴奏数据融合。

将通过步骤203分离出的第一伴奏数据或通过步骤204得到的第二伴奏数据和通过步骤205得到的第二人声数据进行融合，得到第一融合音频数据或第二融合音频数据。

步骤207，融合音频数据智能优化。

可以对第一融合音频数据或第二融合音频数据进行人声和伴奏轨道对齐、人声和伴奏音量调节、噪声过滤和频谱平滑中的至少一个歌曲优化处理，得到第二音频数据。

步骤208，向用户提供具有第二音频数据的歌曲。

将第二音频数据在用户的电子设备上进行存储，从而，向用户提供具有第二音频数据的歌曲。

请参考图3，其示出了本发明实施例提供的电子设备的结构框图。电子设备包括：获取单元301，优化单元302，生成单元303。

获取单元301被配置为获取第一音频数据；

优化单元302被配置为对所述第一音频数据中的第一人声数据进行人声优化处理，得到第二人声数据；

生成单元303被配置为基于所述第二人声数据，生成第二音频数据。

在一些实施例中，电子设备还包括：人声优化策略确定单元，被配置为：通过预设的人声优化策略模型，确定人声优化参数；所述优化单元还包括：人声优化模块，被配置为：基于所述人声优化参数，对所述第一音频数据中的第一人声数据进行人声优化处理，得到第二人声数据；

其中，人声优化参数包括以下至少一项：人声优化处理中的项的类型、人声优化处理中的项的执行顺序、人声优化处理中的项的执行时长；

声优化策略模型通过强化学习方式训练得到，人声优化策略模型的训练样本包括：人声数据质量得分小于第一分数阈值的人声数据、人声数据质量得分大于第二分数阈值的人声数据，所述第二分数阈值大于第一分数阈值。

在一些实施例中，电子设备还包括：分离模块，被被配置为：在获取第一音频数据之后，所述对所述第一音频数据中的第一人声数据进行人声优化处理，得到第二人声数据之前，确定所述第一音频数据是否包含伴奏数据；在所述第一音频数据包括伴奏数据的情况下，将所述第一音频数据分离为第一人声数据和第一伴奏数据。

在一些实施例中，分离模块还包括：

判别子模块，被配置为：

在一些实施例中，分离模块还包括：分离结果获取子模块，被配置为：

在一些实施例中，生成单元303还包括：

在一些实施例中，电子设备还包括：

在一些实施例中，第一处理模块包括：

在一些实施例中，第二处理模块包括：

第二歌曲优化子模块，被配置为：

在一些实施例中，电子设备还包括：

本发明实施例提供的电子设备能够实现图1至图2中所示的方法实施例的各个过程，为避免重复，这里不再赘述。

在本发明实施例中，对用户录制的歌曲的第一音频数据中的第一人声数据进行优化，得到具有第二音频数据的播放效果较优的录制的歌曲，不需要用户利用专业的软件对录制的歌曲中的音频数据进行处理。

图4为实现本发明实施例提供的音频处理方法的移动终端的硬件结构示意图。

该移动终端400包括但不限于：射频单元401、网络模块402、音频输出单元403、输入单元404、传感器405、显示单元406、用户输入单元407、接口单元408、存储器409、处理器410、以及电源411等部件。本领域技术人员可以理解，图4中示出的移动终端结构并不构成对移动终端的限定，移动终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，移动终端包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

其中，处理器410，用于获取第一音频数据；对所述第一音频数据中的第一人声数据进行人声优化处理，得到第二人声数据；基于所述第二人声数据，生成第二音频数据。

应理解的是，本发明实施例中，射频单元401可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器410处理；另外，将上行的数据发送给基站。通常，射频单元401包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元401还可以通过无线通信***与网络和其他设备通信。

移动终端通过网络模块402为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元403可以将射频单元401或网络模块402接收的或者在存储器409中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元403还可以提供与移动终端400执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元403包括扬声器、蜂鸣器以及受话器等。

输入单元404用于接收音频或视频信号。输入单元404可以包括图形处理器(Graphics Processing Unit，GPU)4041和麦克风4042，图形处理器4041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元406上。经图形处理器4041处理后的图像帧可以存储在存储器409(或其它存储介质)中或者经由射频单元401或网络模块402进行发送。麦克风4042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元401发送到移动通信基站的格式输出。

移动终端400还包括至少一种传感器405，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板4061的亮度，接近传感器可在移动终端400移动到耳边时，关闭显示面板4061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别移动终端姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器405还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元406用于显示由用户输入的信息或提供给用户的信息。显示单元406可包括显示面板4061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板4061。

用户输入单元407可用于接收输入的数字或字符信息，以及产生与移动终端的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元407包括触控面板4071以及其他输入设备4072。触控面板4071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板4071上或在触控面板4071附近的操作)。触控面板4071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器410，接收处理器410发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板4071。除了触控面板4071，用户输入单元407还可以包括其他输入设备4072。具体地，其他输入设备4072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板4071可覆盖在显示面板4061上，当触控面板4071检测到在其上或附近的触摸操作后，传送给处理器410以确定触摸事件的类型，随后处理器410根据触摸事件的类型在显示面板4061上提供相应的视觉输出。虽然在图中，触控面板4071与显示面板4061是作为两个独立的部件来实现移动终端的输入和输出功能，但是在某些实施例中，可以将触控面板4071与显示面板4061集成而实现移动终端的输入和输出功能，具体此处不做限定。

接口单元408为外部装置与移动终端400连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元408可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到移动终端400内的至少一个元件或者可以用于在移动终端400和外部装置之间传输数据。

存储器409可用于存储软件程序以及各种数据。存储器409可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器409可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器410是移动终端的控制中心，利用各种接口和线路连接整个移动终端的各个部分，通过运行或执行存储在存储器409内的软件程序和/或模块，以及调用存储在存储器409内的数据，执行移动终端的各种功能和处理数据，从而对移动终端进行整体监控。处理器410可包括至少一个处理单元；优选的，处理器410可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器410中。

移动终端400还可以包括给各个部件供电的电源411(比如电池)，优选的，电源411可以通过电源管理***与处理器410逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种音频处理方法，其特征在于，所述方法包括：

获取第一音频数据；

基于所述第二人声数据，生成第二音频数据；

其中，所述对所述第一音频数据中的第一人声数据进行人声优化处理，得到第二人声数据之前，还包括：

通过预设的人声优化策略模型，确定人声优化参数；

2.根据权利要求1所述的方法，其特征在于，所述人声优化处理包括以下至少一项：调节音频、调节音量、爆音修复、混音添加、噪声过滤。

3.根据权利要求1所述的方法，其特征在于，所述获取第一音频数据之后，所述对所述第一音频数据中的第一人声数据进行人声优化处理，得到第二人声数据之前，还包括：

确定所述第一音频数据是否包含伴奏数据；

4.根据权利要求3所述的方法，其特征在于，所述确定所述第一音频数据是否包含伴奏数据，包括：

5.根据权利要求3所述的方法，其特征在于，所述在所述第一音频数据包括伴奏数据的情况下，将所述第一音频数据分离为第一人声数据和第一伴奏数据，包括：

6.根据权利要求3所述的方法，其特征在于，所述基于所述第二人声数据，生成第二音频数据，包括：

基于第一融合音频数据，生成第二音频数据。

7.根据权利要求1所述的方法，其特征在于，所述第一音频数据不包括伴奏数据；

所述基于所述第二人声数据，生成第二音频数据，包括：

8.根据权利要求7所述的方法，其特征在于，所述预设的第二伴奏数据通过以下方式生成：

9.根据权利要求6所述的方法，其特征在于，所述基于第一融合音频数据，生成第二音频数据，包括：

10.根据权利要求7所述的方法，其特征在于，所述基于第二融合音频数据，生成第二音频数据，包括：

11.根据权利要求9或10所述的方法，其特征在于，所述方法还包括：

通过预设的歌曲优化策略模型，确定歌曲优化参数；

12.一种电子设备，其特征在于，所述电子设备包括：

获取单元，被配置为获取第一音频数据；

生成单元，被配置为基于所述第二人声数据，生成第二音频数据；

其中，所述优化单元，还被配置为：

所述对所述第一音频数据中的第一人声数据进行人声优化处理，得到第二人声数据之前，

通过预设的人声优化策略模型，确定人声优化参数；