CN111063364B

CN111063364B - 生成音频的方法、装置、计算机设备和存储介质

Info

Publication number: CN111063364B
Application number: CN201911252135.6A
Authority: CN
Inventors: 肖纯智; 孙洪文
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2024-05-10
Anticipated expiration: 2039-12-09
Also published as: CN111063364A

Abstract

本公开提供了一种生成音频的方法、装置、计算机设备和存储介质，属于音频技术领域。方法包括：获取音频片段，其中，音频片段为用户演唱歌曲的音频片段，对音频片段的每个音频帧的时域信号进行频域转换，获得音频片段中每个音频帧的频谱信号。对于每个音频帧，根据音频帧的频谱信号和音频片段对应的音色调整策略，生成音频帧的至少一种音色的频谱信号，将至少一种音色的频谱信号进行时域转换，获得至少一种音色的时域信号。将音频片段中每个音频帧的时域信号与每个音频帧的至少一种音色的时域信号进行混音处理，获得包括多种音色的音频片段。采用本公开，可以提升合唱的灵活性。

Description

生成音频的方法、装置、计算机设备和存储介质

技术领域

本公开涉及音频技术领域，特别涉及一种生成音频的方法、装置、计算机设备和存储介质。

背景技术

随着计算机技术和网络技术的发展，用户可以在终端上安装音频应用程序，在该音频应用程序中，用户可以与他人合唱歌曲，具体处理是：用户通过终端下载他人演唱歌曲的音频片段，在播放该音频片段时，用户演唱该歌曲，实现与他人合唱。

在用户想要合唱某首歌曲时，若其他人没有演唱过这首歌曲，则无法进行合唱，导致合唱的灵活性较差。

发明内容

为了解决合唱的灵活性较差的问题，本公开实施例提供了一种生成音频的方法、装置、计算机设备和存储介质。所述技术方案如下：

第一方面，提供了一种生成音频的方法，所述方法包括：

获取音频片段，其中，所述音频片段为用户演唱歌曲的音频片段；

对所述音频片段的每个音频帧的时域信号进行频域转换，获得所述音频片段中每个音频帧的频谱信号；

对于每个音频帧，根据所述音频帧的频谱信号和所述音频片段对应的音色调整策略，生成所述音频帧的至少一种音色的频谱信号，将所述至少一种音色的频谱信号进行时域转换，获得所述至少一种音色的时域信号；

将所述音频片段中每个音频帧的时域信号与每个音频帧的至少一种音色的时域信号进行混音处理，获得包括多种音色的音频片段。

在一种可能的实现方式中，所述方法还包括：

接收所述用户输入的所述音频片段对应的音色数目和音色类别，其中，所述音色数目用于指示生成的频谱信号所属音色的数目，所述音色类别用于指示频谱包络的共振峰的调整参数；

根据所述音频片段对应的音色数目和音色类别，确定所述音频片段对应的音色调整策略。

在一种可能的实现方式中，所述对于每个音频帧，根据所述音频帧的频谱信号和所述音频片段对应的音色调整策略，生成所述音频帧的至少一种音色的频谱信号，包括：

对于每个音频帧，根据所述音频帧的频谱信号，获得所述音频帧的频谱包络和激励谱；

根据所述频谱包络和所述音频片段对应的音色调整策略，生成所述音频帧的至少一种音色的频谱包络；

根据所述音频帧的激励谱和所述音频帧的至少一种音色的频谱包络，确定所述音频帧的至少一种音色的频谱信号。

在一种可能的实现方式中，所述根据所述频谱包络和所述音频片段对应的音色调整策略，生成所述音频帧的至少一种音色的频谱包络，包括：

根据所述音频片段对应的音色调整策略中的共振峰的调整参数，对所述频谱包络的共振峰进行调整，生成所述音频帧的至少一种音色的频谱包络。

在一种可能的实现方式中，所述根据所述音频帧的频谱信号，获得所述音频帧的频谱包络和激励谱，包括：

从所述音频帧的频谱信号中，提取所述音频帧的频谱包络；

根据所述音频帧的频谱包络和所述音频帧的频谱信号，确定所述音频帧的激励谱。

在一种可能的实现方式中，所述方法还包括：

当接收到包括多种音色的音频片段的播放指令时，播放包括多种音色的音频片段。

第二方面，提供了一种生成音频的装置，所述装置包括：

获取模块，用于获取音频片段，其中，所述音频片段为用户演唱歌曲的音频片段；

转换模块，用于对所述音频片段的每个音频帧的时域信号进行频域转换，获得所述音频片段中每个音频帧的频谱信号；

音色调整模块，用于对于每个音频帧，根据所述音频帧的频谱信号和所述音频片段对应的音色调整策略，生成所述音频帧的至少一种音色的频谱信号，将所述至少一种音色的频谱信号进行时域转换，获得所述至少一种音色的时域信号；

混音模块，用于将所述音频片段中每个音频帧的时域信号与每个音频帧的至少一种音色的时域信号进行混音处理，获得包括多种音色的音频片段。

在一种可能的实现方式中，所述获取模块，还用于：

所述装置还包括：

确定模块，用于根据所述音频片段对应的音色数目和音色类别，确定所述音频片段对应的音色调整策略。

在一种可能的实现方式中，所述音色调整模块，用于：

从所述音频帧的频谱信号中，提取所述音频帧的频谱包络；

在一种可能的实现方式中，所述装置还包括：

播放模块，用于当接收到包括多种音色的音频片段的播放指令时，播放包括多种音色的音频片段。

第三方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如上述第一方面所述的生成音频的方法。

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如如上述第一方面所述的生成音频的方法。

本公开实施例提供的技术方案带来的有益效果至少包括：

本公开实施例中，用户在进行合唱时，终端可以获取用户演唱歌曲的音频片段，对该音频片段的每个音频帧的时域信号进行频域转换，获得该音频片段中每个音频帧的频谱信号。对于每个音频帧，终端根据该音频帧的频谱信号和该音频片段对应的音色调整策略，生成该音频帧的至少一种音色的频谱信号，将该至少一种音色的频谱信号进行时域转换，获得该至少一种音色的时域信号。终端将该音频片段中每个音频帧的时域信号与每个音频帧的至少一种音色的时域信号进行混音处理，获得包括多种音色的音频片段。这样，即使没有人演唱过某首歌曲，通过对用户演唱的歌曲的音频片段的音色进行调整，也可以获得包括多种音色的音频片段，达到合唱歌曲的效果，所以可以提升合唱的灵活性。而且通过本公开实施例，还可以通过控制合唱者的数目，以及男性、女性的数目，进一步可以提升合唱的灵活性。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本公开实施例提供的一种生成音频的方法的流程示意图；

图2是本公开实施例提供的一种调整共振峰的中心频率的示意图；

图3是本公开实施例提供的一种调整共振峰的带宽的示意图；

图4是本公开实施例提供的一种调整共振峰的数目的示意图；

图5是本公开实施例提供的一种生成音频的装置的结构示意图；

图6是本公开实施例提供的一种生成音频的装置的结构示意图；

图7是本公开实施例提供的一种生成音频的装置的结构示意图；

图8是本公开实施例提供的一种终端的结构示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚，下面将结合附图对本公开实施方式作进一步地详细描述。

本公开实施例提供了一种生成音频的方法，该方法的执行主体可以是终端或者服务器。其中，终端可以是手机、平板电脑、电脑等。服务器可以是合唱的音频应用程序的后台服务器。

终端中可以设置有录音部件、处理器、存储器和收发器。录音部件用于录制用户演唱歌曲的音频，处理器可以用于生成音频的过程的处理，存储器可以用于存储生成音频的过程中需要的数据以及产生的数据，收发器用于接收以及发送数据。

服务器中可以设置有处理器、存储器和收发器。处理器可以用于生成音频的过程的处理，存储器可以用于存储生成音频的过程中需要的数据以及产生的数据，收发器用于接收以及发送数据。

本实施例中以执行主体为终端进行方案的详细描述，其它情况与之类似，本实施例不再累述。

在进行实施前，首先描述本公开实施例的应用场景：

用户想要与他人合唱歌曲，用户可以在终端中安装合唱的音频应用程序。然后使用注册的账户登录该音频应用程序。用户若要合唱某首歌曲，用户可以在音频应用程序中，找到合唱界面，在该合唱界面中选择与他人合唱，或者选择将自己演唱歌曲的音频合成多人合唱的音频。若用户选择与他人合唱，则找到他人演唱该歌曲的音频，进行下载，在下载完成后，播放该音频，在播放该音频的过程中，用户演唱该歌曲，实现与他人合唱。若用户选择与他人合唱，但是未找到他人演唱该歌曲的音频，或者用户选择将自己演唱歌曲的音频合成多人合唱的音频，用户可以在合唱界面点击生成音频的选项，触发进入生成音频的流程，详细描述在后文中说明。

以下将结合图1描述生成音频的流程：

步骤101，终端获取音频片段，其中，音频片段为用户演唱歌曲的音频片段。

在本实施例中，用户在合唱界面点击生成音频的选项后，则会触发终端显示合唱歌曲的选择界面，用户可以选择所要合唱的歌曲。然后用户点击开始合唱选项，终端则会播放该歌曲的伴奏。用户可以演唱歌曲，终端通过录音部件采集到用户演唱歌曲的音频片段。

或者，用户在合唱界面点击生成音频的选项后，则会触发终端显示合唱歌曲的选择界面，该选择界面中显示有导入选项，用户可以通过触发导入选项，将已经录制好的演唱歌曲的音频片段导入终端。

步骤102，终端对音频片段的每个音频帧的时域信号进行频域转换，获得音频片段中每个音频帧的频谱信号。

在本实施例中，终端获取到音频片段后，将该音频片段划分为音频帧，然后将划分获得的每个音频帧，进行加窗处理和傅里叶变换，获得每个音频的频谱信号(也可以称为是短时频谱信号)。

此处需要说明的是，在未进行步骤103和步骤104处理之前，音频片段仅包括一种音色。

步骤103，对于每个音频帧，终端根据音频帧的频谱信号和音频片段对应的音色调整策略，生成音频帧的至少一种音色的频谱信号，将至少一种音色的频谱信号进行时域转换，获得至少一种音色的时域信号。

其中，音色调整策略用于指示对每个音频帧所要进行的处理的内容，具体可以包括如何调整音频帧的频谱包络的共振峰。

在本实施例中，终端获得每个音频的频谱信号后，可以获取音频片段对应的音色调整策略。对于音频片段的每个音频帧，终端可以使用音频帧的频谱信号和音频片段对应的音色调整策略，生成音频帧的至少一种音色的频谱信号。

然后终端将该至少一种音色的频谱信号依次进行逆傅里叶变换和逆加窗处理，获得该至少一种音色的时域信号。

这样，终端可以获取到每个音频帧的至少一种音色的时域信号。

步骤104，终端将音频片段中每个音频帧的时域信号与每个音频帧的至少一种音色的时域信号进行混音处理，获得包括多种音色的音频片段。

在本实施例中，对于音频片段的每个音频帧，终端可以将该音频帧的时域信号(该时域信号为步骤102中的时域信号)和该音频帧的至少一种音色的时域信号，进行混音处理，获得该音频的多种音色的时域信号。这样，整个音频片段都变成了包括多种音色的音频片段。例如，步骤103获得的音频帧的至少一种音色的时域信号为两种音色的时域信号，原有音频片段包括一种音色，这样，最终获得的音频片段包括三种音色。

需要说明的是，混音处理可以为任一种混音处理算法，具体可以包括均衡器(EQ，Equaliser)、降噪、动态范围控制、音量调整、并轨、限幅器等操作，或者也可以仅包括其中的几种，如仅包括并轨等，本公开实施例不做限定。

这样，由于通过上述处理将原有包括一种音色的音频片段，变为包括多种音色的音频片段，而每种音色代表一个演唱者，所以包括多种音色的音频片段，相当于多人合唱歌曲的音频片段。

在一种可能的实现方式中，用户可以决定音色调整策略，相应的处理可以如下：

终端接收用户输入的音频片段对应的音色数目和音色类别，其中，音色数目用于指示生成的频谱信号所属音色的数目，音色类别用于指示频谱包络的共振峰的调整参数。根据音频片段对应的音色数目和音色类别，确定音频片段对应的音色调整策略。

其中，共振峰为频谱包络中的波峰，一个频谱包络可以包括至少一个共振峰。

在本实施例中，合唱应用程序的合唱界面中，还为用户提供自己演唱歌曲的音频合成多人合唱的音频的设置选项，用户可以通过触发该设置选项，设置合唱者的数目和合唱者的类型。例如，合唱者的数目为3，合唱者的类型为两男一女等。终端获取到合唱者的数目和合唱者的类型后，可以将该合唱者的数目，确定为音频片段对应的音色数目，说明后续要调整出三种音色，并且可以将合唱者的类型，确定为音色类别，说明后续将音频帧调整为包括两个男生的音色和一个女生的音色。

然后终端可以根据音频片段对应的音色数目和音色类别，确定音频片段对应的音色调整策略。例如，原有音频片段的音色为女生音色，音色数目为3，音色类别为两男一女，音色调整策略包括：将原有一个女生的音色，调整为另外一个女生的音色的策略，以及将原有一个女生的音色，调整为两个不同的男生的音色的策略。

在一种可能的实现方式中，上述步骤103的处理可以为：

对于每个音频帧，根据音频帧的频谱信号，获得音频帧的频谱包络和激励谱。根据频谱包络和音频片段对应的音色调整策略，生成音频帧的至少一种音色的频谱包络。根据音频帧的激励谱和音频帧的至少一种音色的频谱包络，确定音频帧的至少一种音色的频谱信号。

在本实施例中，对于音频片段中的每个音频帧，终端可以根据该音频帧的频谱信号，获得音频帧的频谱包络和激励谱。然后终端根据频谱包络和音频片段对应的音色调整策略，生成该音频帧的至少一种音色的频谱包络。

然后终端将该至少一种音色的频谱包络与该音频帧的激励谱结合，获得该音频帧的至少一种音色的频谱信号。

例如，假设对于音频帧i，至少一种音色为n种音色，使用该公式获得至少一种音色的频谱信号，即在式子中，Y_n,i(k)为音频帧i的n种音色的频谱信号，E_i(k)为音频帧i的激励谱，H_n,i(k)为音频帧i的n种不同音色的频谱包络，“·”表示点乘。其中，k为频点，如k为1025，相当于音频帧i的频谱信号为1025个频点的频谱信号。

在一种可能的实现方式中，终端可以按照如下方式，获得音频帧的激励谱和频谱包络：

终端从音频帧的频谱信号中，提取音频帧的频谱包络；根据音频帧的频谱包络和音频帧的频谱信号，确定音频帧的激励谱。

在本实施例中，终端获取到音频帧i的频谱信号为X_i(k)，然后将音频帧i的频谱信号X_i(k)，输入至包络提取算法(如倒谱算法等)，提取出音频帧i的频谱包络H_i(k)。然后终端可以按照获得音频帧i的激励谱E_i(k)。

在一种可能的实现方式中，终端可以按照如下方式，确定音频帧的至少一种音色的频谱包络：

终端根据音频片段对应的音色调整策略中的共振峰的调整参数，对频谱包络的共振峰进行调整，生成音频帧的至少一种音色的频谱包络。

在本实施例中，终端可以根据音频片段对应的音色调整策略，对每个音频帧的频谱包络的共振峰进行调整，获得每个音频帧的至少一种音色的频谱包络。具体的，如果是将女性的音色变为男性的音色，或者将男性的音色变为女性的音色，则音色调整策略包括频谱包络的共振峰的中心频率的调整参数(此种情况下，音色调整策略还可以包括频谱包络的共振峰的带宽的调整参数和/或频谱包络的共振峰的数目的调整参数(后文中进行描述))。具体的，如果是将女性的音色变为男性的音色，则音色调整策略包括对频谱包络的共振峰的中心频率进行减小处理的调整参数，例如，将每个共振峰的中心频率减小第一预设数值；或者将每个共振峰的中心频率按照第一预设比例进行缩小；或者将每个共振峰的中心频率分别进行减小(每个共振峰的中心频率减少的幅度不相同，此处也可以按照比例进行缩小，也可以是按照数值减少)等。当然，上述对共振峰的中心频率减少的方式仅为举例，只要能达到共振峰的中心频率减少的效果，采用任何方式均可以。反之如果是将男性的音色变为女性的音色，则音色调整策略包括对频谱包络的共振峰的中心频率进行增加处理的调整参数。例如，将每个共振峰的中心频率增加第一预设数值；或者将每个共振峰的中心频率按照第一预设比例进行放大；或者将每个共振峰的中心频率分别进行增加(每个共振峰的中心频率减少的幅度不相同，此处也可以按照比例进行放大，也可以是按照数值减少)。当然，上述对共振峰的中心频率增加的方式仅为举例，只要能达到共振峰的中心频率增加的效果，采用任何方式均可以。

如果是将音色变为同一性别的不同音色，则音色调整策略可以包括对频谱包络的共振峰的带宽的调整参数和/或频谱包络的共振峰的数目的调整参数。例如，将每个共振峰的带宽增加第三预设数值或减小第三预设数值；或者将每个共振峰的带宽缩小第二预设比例或者放大第二预设比例；或者将每个共振峰的带宽分别增加一定数值或减少一定数值(每个共振峰的带宽增加的数值不相同，每个共振峰的带宽减小的数值也不相同)；或者将每个共振峰的带宽分别放大一定比例或缩小一定比例(每个共振峰的带宽放大的比例不相同，每个共振峰的带宽缩小的比例也不相同)等。当然，上述对共振峰的带宽进行调整的方式仅为举例，任意一种调整的方式均可以应用于本公开实施例。

例如，如图2所示，如果用户为女性，用户指示与一个男性进行合唱，则音色调整策略为频谱包络的共振峰的中心频率减小第一预设数值，终端可以将每个音频帧的频谱包络的共振峰的中心频率减少第一预设数值，从而获得该音频帧的男性音色的频谱包络。图2中仅示出了中心频率减少第一预设数值。

如果用户为女性，用户指示与两个男性进行合唱，则音色调整策略为频谱包络的共振峰的中心频率减小第一预设数值，以及频谱包络的共振峰的带宽增加第二预设数值。终端可以将每个音频帧的频谱包络的共振峰的中心频率减少第一预设数值，从而获得该音频帧的男性音色的频谱包络。然后终端再将该男性音色的频谱包络的共振峰的带宽减少或增加第二预设数值，获得该音频帧的另一男性音色的频谱包络，至此，终端获得两个音频帧的男性音色的频谱包络。

如果用户为女性，用户指示与两个男性进行合唱，则音色调整策略为频谱包络的共振峰的中心频率减小第一预设数值，以及频谱包络的共振峰的数目增加第一预设数目个。终端可以将每个音频帧的频谱包络的共振峰的中心频率减少第一预设数值，从而获得该音频帧的男性音色的频谱包络。然后终端再将该男性音色的频谱包络的共振峰的数目减少或增加第一预设数目个，获得该音频帧的另一男性音色的频谱包络，至此，终端获得两个音频帧的男性音色的频谱包络。

再例如，如图3所示，如果用户为女性，用户指示与一个女性进行合唱，则音色调整策略为频谱包络的共振峰的带宽减小或增加第三预设数值。终端可以将每个音频帧的频谱包络的共振峰的带宽减小或增加第三预设数值，获得该音频帧的另一女性音色的频谱包络。图3中仅示出了带宽减少第三预设数值。

如图4所示，如果用户为女性，用户指示与一个女性进行合唱，则音色调整策略为频谱包络的共振峰的数目减小或增加第二预设数目个。终端可以将每个音频帧的频谱包络的共振峰的数目减小或增加第二预设数目个(如可以是在音频帧的频谱包络的尾部增加一个共振峰)，获得该音频帧的另一女性音色的频谱包络。当然，音色调整策略为频谱包络的共振峰的数目减小或增加第二预设数目个，以及频谱包络的共振峰的带宽减小或增加第三预设数值，获得该音频帧的另一女性音色的频谱包络。图4中仅示出了共振峰的数目减少第二预设数目个(1个)。

需要说明的是，上述在调整音频帧的频谱包络的共振峰的中心频率时，由于一个音频帧的频谱包络的前三个共振峰对音频帧的音色起最大作用，所以可以仅调整前三个共振峰的中心频率。在调整音频帧的频谱包络的共振峰的带宽时，由于一个音频帧的频谱包络的前三个共振峰对音频帧的音色起最大作用，所以可以仅调整前三个共振峰的带宽。在调整音频帧的频谱包络的共振峰的数目时，由于一个音频帧的频谱包络的前三个共振峰对音频帧的音色起最大作用，所以可以仅调整前三个共振峰的数目。

在一种可能的实现方式中，终端还可以播放包括多种音色的音频片段，处理为：

在本实施例中，终端在获得包括多种音色的音频片段后，可以显示播放选项，用户可以点击播放选项，则会触发终端接收到播放指令，终端可以播放包括多种音色的音频片段。

需要说明的是，本公开实施例中，由于用户在演唱过程中，终端每获取到音频片段的一音频帧，就可以生成包括多种音色的音频帧，所以在用户演唱完歌曲后，终端可以及时的将包括多种音色的音频片段提供给用户，使用户相当于实时获取到合唱歌曲的音频片段。

另外，在上述描述过程中是以执行主体为终端为例进行说明，当然执行主体也可以是服务器。服务器执行与终端执行的区别是：终端将音频片段发送至服务器，服务器确定包括多种音色的音频片段(此部分处理与终端的处理过程相同)。然后服务器将包括多种音色的音频片段发送至终端。

基于相同的技术构思，本公开实施例还提供了一种生成音频的装置的结构示意图，如图5所示，该装置包括：

获取模块510，用于获取音频片段，其中，所述音频片段为用户演唱歌曲的音频片段；

转换模块520，用于对所述音频片段的每个音频帧的时域信号进行频域转换，获得所述音频片段中每个音频帧的频谱信号；

音色调整模块530，用于对于每个音频帧，根据所述音频帧的频谱信号和所述音频片段对应的音色调整策略，生成所述音频帧的至少一种音色的频谱信号，将所述至少一种音色的频谱信号进行时域转换，获得所述至少一种音色的时域信号；

混音模块540，用于将所述音频片段中每个音频帧的时域信号与每个音频帧的至少一种音色的时域信号进行混音处理，获得包括多种音色的音频片段。

在一种可能的实现方式中，所述获取模块510，还用于：

所述装置还包括：

如图6所示，确定模块550，用于根据所述音频片段对应的音色数目和音色类别，确定所述音频片段对应的音色调整策略。

在一种可能的实现方式中，所述音色调整模块530，用于：

从所述音频帧的频谱信号中，提取所述音频帧的频谱包络；

在一种可能的实现方式中，如图7所示，所述装置还包括：

播放模块560，用于当接收到包括多种音色的音频片段的播放指令时，播放包括多种音色的音频片段。

需要说明的是：上述实施例提供的生成音频的装置在生成音频时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将服务器的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的生成音频的装置与生成音频的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图8示出了本公开一个示例性实施例提供的终端800的结构框图。该终端800可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio LayerIV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端800包括有：处理器801和存储器802。

处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器801可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器801还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器801所执行以实现本公开中方法实施例提供的生成音频的方法。

在一些实施例中，终端800还可选包括有：***设备接口803和至少一个***设备。处理器801、存储器802和***设备接口803之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口803相连。具体地，***设备包括：射频电路804、触摸显示屏805、摄像头806、音频电路807、定位组件808和电源809中的至少一种。

***设备接口803可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器801和存储器802。在一些实施例中，处理器801、存储器802和***设备接口803被集成在同一芯片或电路板上；在一些其他实施例中，处理器801、存储器802和***设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路804用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路804包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路804还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本公开对此不加以限定。

显示屏805用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时，显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时，显示屏805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏805可以为一个，设置终端800的前面板；在另一些实施例中，显示屏805可以为至少两个，分别设置在终端800的不同表面或呈折叠设计；在再一些实施例中，显示屏805可以是柔性显示屏，设置在终端800的弯曲表面上或折叠面上。甚至，显示屏805还可以设置成非矩形的不规则图形，也即异形屏。显示屏805可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件806用于采集图像或视频。可选地，摄像头组件806包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器801进行处理，或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路807还可以包括耳机插孔。

定位组件808用于定位终端800的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件808可以是基于美国的GPS(GlobalPositioning System，全球定位***)、中国的北斗***、俄罗斯的格雷纳斯***或欧盟的伽利略***的定位组件。

电源809用于为终端800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端800还包括有一个或多个传感器810。该一个或多个传感器810包括但不限于：加速度传感器811、陀螺仪传感器812、压力传感器813、指纹传感器814、光学传感器815以及接近传感器816。

加速度传感器811可以检测以终端800建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器811可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号，控制触摸显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器812可以检测终端800的机体方向及转动角度，陀螺仪传感器812可以与加速度传感器811协同采集用户对终端800的3D动作。处理器801根据陀螺仪传感器812采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器813可以设置在终端800的侧边框和/或触摸显示屏805的下层。当压力传感器813设置在终端800的侧边框时，可以检测用户对终端800的握持信号，由处理器801根据压力传感器813采集的握持信号进行左右手识别或快捷操作。当压力传感器813设置在触摸显示屏805的下层时，由处理器801根据用户对触摸显示屏805的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器814用于采集用户的指纹，由处理器801根据指纹传感器814采集到的指纹识别用户的身份，或者，由指纹传感器814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器801授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器814可以被设置终端800的正面、背面或侧面。当终端800上设置有物理按键或厂商Logo时，指纹传感器814可以与物理按键或厂商Logo集成在一起。

光学传感器815用于采集环境光强度。在一个实施例中，处理器801可以根据光学传感器815采集的环境光强度，控制触摸显示屏805的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏805的显示亮度；当环境光强度较低时，调低触摸显示屏805的显示亮度。在另一个实施例中，处理器801还可以根据光学传感器815采集的环境光强度，动态调整摄像头组件806的拍摄参数。

接近传感器816，也称距离传感器，通常设置在终端800的前面板。接近传感器816用于采集用户与终端800的正面之间的距离。在一个实施例中，当接近传感器816检测到用户与终端800的正面之间的距离逐渐变小时，由处理器801控制触摸显示屏805从亮屏状态切换为息屏状态；当接近传感器816检测到用户与终端800的正面之间的距离逐渐变大时，由处理器801控制触摸显示屏805从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图8中示出的结构并不构成对终端800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本公开实施例中还提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如上述所述的生成音频的方法。

本公开实施例中还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如上述所述的生成音频的方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本公开的较佳实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种生成音频的方法，其特征在于，所述方法包括：

响应于用户在合唱界面点击生成音频的选项，获取音频片段，其中，所述音频片段为所述用户演唱歌曲的音频片段；

接收所述用户输入的音色数目和音色类别，其中，所述音色数目用于指示生成的频谱信号所属音色的数目，所述音色类别用于指示频谱包络的共振峰的调整参数；

根据所述音色数目和所述音色类别，确定所述音频片段对应的音色调整策略，其中，在所述音频片段的音色类别与所述用户输入的音色类别不相同的情况下，所述音色调整策略包括频谱包络的共振峰的中心频率调整参数以及带宽调整参数或数目调整参数，在所述音频片段的音色类别与所述用户输入的音色类别相同的情况下，所述音色调整策略包括频谱包络的共振峰的带宽调整参数和数目调整参数；

如果所述用户为女性，且所述音色类别对应男性，则将所述频谱包络包括的前三个共振峰的中心频率减少第一预设数值，并且将所述频谱包络包括的前三个共振峰的带宽增加第二预设数值，或者，将所述频谱包络包括的前三个共振峰的中心频率减少第一预设数值，并且将所述频谱包络包括的共振峰的数目增加预设数目个，生成所述音频帧的至少一种音色的频谱包络；

如果所述用户为男性，且所述音色类别对应女性，则将所述频谱包络包括的前三个共振峰的中心频率增加第一预设数值，并且将所述频谱包络包括的前三个共振峰的带宽减小第二预设数值，或者，将所述频谱包络包括的前三个共振峰的中心频率增加第一预设数值，并且将所述频谱包络包括的共振峰的数目减少预设数目个，生成所述音频帧的至少一种音色的频谱包络；

如果所述用户的性别与所述音色类别对应的性别相同，则将所述频谱包络的前三个共振峰的带宽增加或者减少第三预设数值，并且将所述频谱包络的共振峰的数目减小或者增加预设数目个，生成所述音频帧的至少一种音色的频谱包络；

根据所述音频帧的激励谱和所述音频帧的至少一种音色的频谱包络，确定所述音频帧的至少一种音色的频谱信号，将所述至少一种音色的频谱信号进行时域转换，获得所述至少一种音色的时域信号；

2.根据权利要求1所述的方法，其特征在于，所述根据所述音频帧的频谱信号，获得所述音频帧的频谱包络和激励谱，包括：

从所述音频帧的频谱信号中，提取所述音频帧的频谱包络；

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.一种生成音频的装置，其特征在于，所述装置包括：

获取模块，用于：

确定模块，用于根据所述音色数目和所述音色类别，确定所述音频片段对应的音色调整策略，其中，在所述音频片段的音色类别与所述用户输入的音色类别不相同的情况下，所述音色调整策略包括频谱包络的共振峰的中心频率调整参数以及带宽调整参数或数目调整参数，在所述音频片段的音色类别与所述用户输入的音色类别相同的情况下，所述音色调整策略包括频谱包络的共振峰的带宽调整参数和数目调整参数；

音色调整模块，用于

5.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如权利要求1至3任一项所述的生成音频的方法。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至3任一项所述的生成音频的方法。