CN110992970A

CN110992970A - 音频合成方法及相关装置

Info

Publication number: CN110992970A
Application number: CN201911289583.3A
Authority: CN
Inventors: 闫震海
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2020-04-10
Anticipated expiration: 2039-12-13
Also published as: CN110992970B

Abstract

本申请实施例公开了一种音频合成方法及相关装置，该方法包括：根据目标伴奏的时间戳确定目标伴奏的播放时长内的至少一个第一时间段和至少一个第二时间段；其中，至少存在一个第一时间段与至少一个第二时间段不重合；确定第一音频的左声道音频右声道音频；确定第二音频的左声到音频右声道音频；在至少一个第一时间段内将第一音频的左声道音频和右声道音频分别混入到目标伴奏的左声道和右声道中，以及，在至少一个第二时间段内将第二音频的左声道音频和右声道音频分别混入到目标伴奏的左声道中和右声道中，得到合成音频。本申请实施例提供的音频合成方法，能高效地合成双耳双音形式的音乐，提升了双耳双音形式音乐的聆听效果。

Description

音频合成方法及相关装置

技术领域

本申请涉及音频处理领域，尤其涉及一种音频合成方法及相关装置。

背景技术

随着时代发展，人们物质水平不断提升，对精神层面的要求也越来越高。音乐作为大众最喜爱的艺术形式之一，早已融入生活的日常点滴，人们对于听音乐的热情不断高涨，例如，根据QQ音乐的数据显示，周杰伦和杨瑞代共同演唱的《等你下课》在上线的第一天播放量就已经破亿，后续被重新翻唱为英语、法语、德语、西班牙语等几十种版本在QQ音乐、优兔YouTube、哔哩哔哩等平台上播放。

而随着计算机技术的发展和人们音乐欣赏水平的不断提高，传统的音乐效果已经不能满足人们的需求，因此需要制作出多样化的音乐形式，在这个过程中也产生了一系列的问题亟待解决。比如，双耳双音形式的音乐是一种新兴的音乐形式，可以在左声道和右声道分别播放不同的音乐，使得用户可以同时收听两段不同的音乐，但是双耳双音形式的音乐制作步骤复杂，且合成的音乐效果空洞，难以满足用户的需求。

发明内容

本申请实施例公开了一种音频合成方法及相关装置，能高效地合成双耳双音形式的音乐，提升双耳双音形式音乐的聆听效果。

第一方面，本申请实施例提供一种音频合成方法，包括：根据目标伴奏的时间戳确定该目标伴奏的播放时长内的至少一个第一时间段和至少一个第二时间段；其中，至少存在一个第一时间段与上述至少一个第二时间段不重合；

确定第一音频的左声道音频和第一音频的右声道音频；

确定第二音频的左声到音频和第二音频的右声道音频；

在至少一个第一时间段内将第一音频的左声道音频混入到目标伴奏的左声道中，在至少一个第一时间段内将第一音频的右声道音频混入到目标伴奏的右声道中；在至少一个第二时间段内将第二音频的左声道音频混入到目标伴奏的左声道中，在至少一个第二时间段内将第二音频的右声道音频混入到目标伴奏的右声道中，得到合成音频。

现有的双耳双音音乐是简单的将两段音乐分别设置为单声道音频，将第一段音乐置于左声道，将另一段音乐置于右声道，合成输入为双耳双音形式的音乐。这样合成的音乐，左通道和右通道的音源相互独立，由于左声道的音乐不包含第一段音乐，声像集中在最左边。同理，右声道音乐的声像集中在最右边。中间位置空洞，听感较差。本申请实施例提供的音频合成方法，可以根据目标伴奏的时间戳确定第一时间段和第二时间段，根据时间段将第一音频和第二音频混入目标伴奏的左右声道中。在具体合成时，可以将第一音频调制得到左声道音频和右声道音频，按照第一时间段分别混入伴奏的左声道和右声道中，同理，将第二音频的左声道音频和右声道音频，按照第二时间段分别混入伴奏的左声道和右声道中，从而高效地合成双耳双音形式的音频，提升了双耳双音形式音乐的聆听效果。进一步的，由于音频混入的第一时间段和第二时间段是根据目标伴奏的时间戳确定的，因此左右声道的合成音乐节奏可以相互对应，避免了两个音乐节奏不对齐的问题，提升了双耳双音形式音乐的聆听效果。

在第一方面的一种可能的实施方式中，上述在至少一个第一时间段内将第一音频的左声道音频混入到目标伴奏的左声道中，在至少一个第一时间段内将第一音频的右声道音频混入到目标伴奏的右声道中，包括：

在至少一个第一时间段内将第一音频片段混入到第一伴奏片段的左声道中，在至少一个第一时间段内将第二音频片段混入到第一伴奏片段的右声道中，第一音频片段为第一音频的左声道音频中对应于至少一个第一时间段的音频片段，第二音频片段为第一音频的右声道音频中对应于至少一个第一时间段的音频片段，第一伴奏片段为目标伴奏中对应于至少一个第一时间段的部分；

上述在至少一个第一时间段内将第一音频的左声道音频混入到目标伴奏的左声道中，在至少一个第一时间段内将第一音频的右声道音频混入到目标伴奏的右声道中，包括：

在至少一个第二时间段内将第三音频片段混入到第二伴奏片段的左声道中，在至少一个第二时间段内将第四音频片段混入到第二伴奏片段的右声道中，第三音频片段为第二音频的左声道音频中对应于至少一个第二时间段的音频片段，第二伴奏片段为目标伴奏中对应于至少一个第二时间段的部分，第四音频片段为第二音频的右声道音频中对应于至少一个第二时间段的音频片段。

由于第一音频和第二音频与目标伴奏有对应关系，在混入时，为了保证合成效果，该音频合成装置先根据第一时间段，提取出第一音频中对应第一时间段的音频序列，将该音频序列合并到对应第一时间段的目标伴奏中，同理将对应于第二时间段内的第一音频的另一个片段混入到与这个片段对应的伴奏中，使得在混音时，对于目标伴奏只需要对有音频混入的片段进行合成处理，而不需要整段伴奏重新合成，降低了计算压力，节省了***资源。

在第一方面的又一种可能的实施方式中，该目标伴奏包括至少两段歌词；上述确定单元，用于根据目标伴奏的时间戳确定目标伴奏的播放时长内的至少一个第一时间段和至少一个第二时间段，具体为：

根据上述至少两段歌词中的一部分歌词确定第一时间段；

根据上述至少两段歌词中的另一部分歌词确定第二时间段。

可以看出，通过将歌词划分为不同的段落，在不同的歌词段落中分别混入第一音频和第二音频，可以实现不同歌手共同演唱一首歌曲的效果。例如，用户将自己演唱的版本和原唱歌手的版本分别混入到原唱伴奏中，可以通过混入不同的演唱段落，使得用户的声音和歌手的声音间隔出现，更是让合唱效果更加逼真。进一步的，可以根据用户演唱的多句歌词进行评分，将评分高于或等于预设阈值的一句或多句歌词混入原唱伴奏中，而评分低于阈值的另一部分歌词，则由原唱歌手的音频混入原唱伴奏，使得合成的音频更加悦耳，提升听音体验。

在第一方面的一种可能的实施方式中，上述目标伴奏对应有N个第一歌词段和M个第二歌词段，该第一歌词段为主歌歌词段，该第二歌词段为副歌歌词段，或者，该第一歌词段为第一演唱者演唱的歌词段，该第二歌词段为第二演唱者演唱的歌词段，其中，M为大于或等于1的整数，N为大于或等于1的整数；上述确定单元，用于根据目标伴奏的时间戳确定目标伴奏的播放时长内的至少一个第一时间段和至少一个第二时间段，具体为：

根据M个第一歌词段的开始时间戳和结束时间戳，确定至少一个第一时间段；

根据N个第二歌词段的开始时间戳和结束时间戳，或者根据M个第一歌词段的开始时间戳和结束时间戳和N个第二歌词段的开始时间戳和结束时间戳，确定至少一个第二时间段。

可以看出，可以将主歌、副歌作为划分歌词段的依据，或者将不同歌手演唱的歌词作为划分歌词的依据。例如，通常由于歌曲的主歌部分传唱度不高，用户对副歌部分更熟悉，因此将原唱演唱的第一音频混入到目标伴奏的主歌部分，将用户演唱的第二音频混入到目标伴奏的副歌部分。再如，若是多个歌手合唱的歌曲，可以将第一音频混入到一个歌手演唱的歌词段中，将第二音频混入到另一个歌手演唱的段落中，形成两个音频互相对唱的效果，使得合成的音频形式更多样化。

在第一方面的一种可能的实施方式中，上述根据目标伴奏的时间戳确定目标伴奏的播放时长内的至少一个第一时间段和至少一个第二时间段，包括：

接收输入的第一信息，其中，该第一信息指示了至少一个第一时间段和至少一个第二时间段；

根据第一信息确定至少一个第一时间段和至少一个第二时间段。

可以看出，用户还可以根据自身喜好设置第一音频和第二音频的混入时间，从而构造个性化的听音效果，增加了听音体验的趣味性。

在第一方面的一种可能的实施方式中，上述确定第一音频的左声道音频和第一声道的右声道音频，包括：

对第一音频卷积从第一音频的声源的位置到左耳和右耳的第一头相关传递函数，得到第一音频的左声道音频和第一音频的右声道音频；该第一音频的声源的位置为预设的声像位置或者接收的第一操作指令指示的位置；

上述确定第一音频的左声道音频和第一声道的右声道音频，包括：

对第二音频卷积从第二音频的声源的位置到左耳和右耳的第一头相关传递函数，得到第一音频的左声道音频和第一音频的右声道音频；上述第二音频的声源的位置为预设的声像位置或者接收的第二操作指令指示的位置。

可以看出，在确定音频的左声道和右声道音频时，可以利用头相关传递函数做声像调制，使得调制后的左声道音频和右声道音频在播放时，能够使人感觉到音频仿佛是从声源的位置传递过来的，避免了极端声像的情况出现。相比使用时延法、增益法等，使用头相关传递函数对音频进行声像调制，可以提高声像的真实感，可以丰富各个角度的音乐成分，提升用户的听音体验。

在第一方面的一种可能的实施方式中，第二音频的音量小于或等于第一音频的音量。

在合成双耳双音形式的音乐时，左声道和右声道音频的音量需要相互适应，若音频的音量较大，会损伤听者的听力，若音频的音量太小，则听者感觉不到音乐效果，影响用户的听音体验。本申请提供的方法，可以先根据第一音频的音量来调节第一音频的音量，防止第二音频的音频音量太大伤害听者的耳朵，也可以防止音频由于音量过小而作用不明显的情况发生，使得第一音频和第二音频的音量相协调，提升用户的听音体验。

在第一方面的一种可能的实施方式中，上述第一音频的音量为第三操作指令指示的音量，上述第二音频的音量为第四操作指令指示的音量。

可以看出，用户可以根据自身喜好设置第一音频和第二音频的音量，从而构造个性化的听音效果，增加了合成音乐的趣味性和灵活性。

第二方面，本申请实施例提供一种音频合成装置，包括：

确定单元，用于根据目标伴奏的时间戳确定目标伴奏的播放时长内的至少一个第一时间段和至少一个第二时间段；其中，至少存在一个第一时间段与至少一个第二时间段不重合；

调制单元，用于确定第一音频的左声道音频和第一音频的右声道音频；

该调制单元，还用于确定第二音频的左声到音频和第二音频的右声道音频；

合成单元，用于在至少一个第一时间段内将第一音频的左声道音频混入到目标伴奏的左声道中，在至少一个第一时间段内将第一音频的右声道音频混入到目标伴奏的右声道中；在至少一个第二时间段内将第二音频的左声道音频混入到目标伴奏的左声道中，在至少一个第二时间段内将第二音频的右声道音频混入到目标伴奏的右声道中，得到合成音频。

现有的双耳双音音乐是简单的将两段音乐分别设置为单声道音频，将第一段音乐置于左声道，将另一段音乐置于右声道，合成输入为双耳双音形式的音乐。这样合成的音乐，左通道和右通道的音源相互独立，由于左声道的音乐不包含第一段音乐，声像集中在最左边。同理，右声道音乐的声像集中在最右边。中间位置空洞，听感较差。本申请实施例提供的音频合成装置，可以根据目标伴奏的时间戳确定第一时间段和第二时间段，根据时间段将第一音频和第二音频混入目标伴奏的左右声道中。在具体合成时，可以将第一音频调制得到左声道音频和右声道音频，按照第一时间段分别混入伴奏的左声道和右声道中，同理，将第二音频的左声道音频和右声道音频，按照第二时间段分别混入伴奏的左声道和右声道中，从而高效地合成双耳双音形式的音频，提升了双耳双音形式音乐的聆听效果。进一步的，由于音频混入的第一时间段和第二时间段是根据目标伴奏的时间戳确定的，因此左右声道的合成音乐节奏可以相互对应，避免了两个音乐节奏不对齐的问题，提升了双耳双音形式音乐的聆听效果。

在第二方面的一种可能的实施方式中，上述合成单元，用于在至少一个第一时间段内将第一音频的左声道音频混入到目标伴奏的左声道中，在至少一个第一时间段内将第一音频的右声道音频混入到目标伴奏的右声道中，具体为：

上述合成单元，还用于在至少一个第二时间段内将第二音频的左声道音频混入到目标伴奏的左声道中，在至少一个第二时间段内将第二音频的右声道音频混入到目标伴奏的右声道中，具体为：

由于第一音频和第二音频与目标伴奏有对应关系，在混入时，为了保证合成效果，先根据第一时间段，提取出第一音频中对应第一时间段的音频序列，将该音频序列合并到对应第一时间段的目标伴奏中，同理将对应于第二时间段内的第一音频的另一个片段混入到与这个片段对应的伴奏中，使得在混音时，对于目标伴奏只需要对有音频混入的片段进行合成处理，而不需要整段伴奏重新合成，降低了计算压力，节省了***资源。

在第二方面的一种可能的实施方式中，该目标伴奏包括至少两段歌词；上述确定单元，用于根据目标伴奏的时间戳确定目标伴奏的播放时长内的至少一个第一时间段和至少一个第二时间段，具体为：

根据至少两段歌词中的一部分歌词确定第一时间段；

根据至少两段歌词中的另一部分歌词确定第二时间段。

在第二方面的一种可能的实施方式中，上述目标伴奏对应有N个第一歌词段和M个第二歌词段，该第一歌词段为主歌歌词段，该第二歌词段为副歌歌词段，或者，该第一歌词段为第一演唱者演唱的歌词段，该第二歌词段为第二演唱者演唱的歌词段，其中，M为大于或等于1的整数，N为大于或等于1的整数；上述确定单元，用于根据目标伴奏的时间戳确定目标伴奏的播放时长内的至少一个第一时间段和至少一个第二时间段，具体为：

在第二方面的一种可能的实施方式中，上述装置还包括：

输入单元，用于接收输入的第一信息，其中，该第一信息指示了至少一个第一时间段和至少一个第二时间段；

上述确定单元，用于根据目标伴奏的时间戳确定目标伴奏的播放时长内的至少一个第一时间段和至少一个第二时间段，具体为：

根据该第一信息确定至少一个第一时间段和至少一个第二时间段。

可以看出，用户可以根据自身需求确定第一音频和第二音频的混入时间，用户可以根据自身喜好设置第一音频和第二音频的混入时间，从而构造个性化的听音效果，增加了听音体验的趣味性。

在第二方面的一种可能的实施方式中，上述调制单元，用于确定第一音频的左声道音频和第一音频的右声道音频，具体为：

对第一音频卷积从第一音频的声源的位置到左耳和右耳的第一头相关传递函数，得到第一音频的左声道音频和第一音频的右声道音频；上述第一音频的声源的位置为预设的声像位置或者接收的第一操作指令的位置；

上述调制单元，还用于确定第二音频的左声道音频和第二音频的右声道音频，具体为：

对上述第二音频卷积从第二音频的声源的位置到左耳和右耳的第一头相关传递函数，得到第一音频的左声道音频和第一音频的右声道音频；上述第二音频的声源的位置为预设的声像位置或者接收的第二操作指令的位置。

在第二方面的一种可能的实施方式中，第二音频的音量小于或等于第一音频的音量。

在第二方面的一种可能的实施方式中，上述第一音频的音量为第三操作指令指示的音量，上述第二音频的音量为第四操作指令指示的音量。

第三方面，本申请实施例提供一种音频合成装置，包括：处理器和存储器，所述存储器存储有计算机程序，所述处理器用于调用所述计算机程序，以执行本申请实施例第一方面或第一方面的任意一种实现方式提供的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，当该计算机程序在一个或多个处理器上运行时，执行本申请实施例第一方面或第一方面的任意一种实现方式提供的方法。

第五方面，本申请实施例提供了一种计算机程序产品，所述计算机程序产品包括：计算机可读存储介质，其随之包含计算机可读程序代码，所述计算机可读程序代码在由一个或多个处理器运行，用于执行本申请实施例第一方面或第一方面的任意一种实现方式提供的方法。

可以理解地，上述提供的第二方面提供的音频合成装置、第三方面提供的音频合成装置、第四方面提供的计算机存储介质，以及第五方面提供的计算机程序产品均用于执行第一方面所提供的音频合成方法，因此，其所能达到的有益效果可参考第一方面所提供的音频合成方法中的有益效果，此处不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图作简单地介绍。

图1是本申请实施例提供的一种音频合成***的架构示意图；

图2是本申请实施例提供的一种音频合成***的运行场景示意图；

图3是本申请实施例提供的一种音频合成方法的流程示意图；

图4是本申请实施例提供的一种获取音频的方法的示意图；

图5是本申请实施例提供的一种确定时间的方法示意图；

图6是本申请实施例提供的又一种确定时间的方法示意图；

图7是本申请实施例提供的又一种确定时间的方法示意图；

图8是本申请实施例提供的一种音频混音的方法的示意图；

图9是本申请实施例提供的一种声像调制的方法的示意图；

图10是本申请实施例提供的一种音量控制的方法的示意图；

图11是本申请实施例提供的一种音频合成装置的结构示意图；

图12是本申请实施例提供的又一种音频合成装置的结构示意图。

具体实施方式

下面将结合附图对本申请实施例中的技术方案进行描述。显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，在本说明书和权利要求书中使用中，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参见图1，图1是本申请实施例提供的一种可能的音频合成***的架构示意图。该音频合成***可以包括电子设备101、录音设备102、音频播放设备103和网络104。

电子设备101是带有数据处理能力的设备，可以通过网络104接收录音设备102、音频播放设备103的发送的数据，也可以向录音设备102、音频播放设备103发送数据。具体实现中，本申请中描述的电子设备包括但不限于诸如具有数据处理能力的移动电话、膝上型计算机或平板计算机之类的其它便携式设备。还应当理解的是，在某些实施例中，所述电子设备并非便携式通信设备，而是具有数据处理能力的台式计算机或者服务器。当然，该电子设备也可能是车载设备(例如，汽车、自行车、电动车、飞机、船舶等)、可穿戴设备(例如智能手表(如iWatch等)、智能手环、计步器等)、智能家居设备(例如，冰箱、电视、空调、电表等)、智能机器人、唱歌的***设备(例如，KTV中的全套歌唱设备、小型唱吧中的全套歌唱设备等等)。

录音设备102是麦克风、麦克风集成模块等音频采集的设备，可以将声音信号记录在媒体介质上，使声音信号可以形成各种音频文件格式。本申请后续描述的第一音频和/或第二音频可以是该录音设备采集得到的。当第一音频和第二音频都是由录音设备102来采集时，可以是由一个录音设备采集，也可以是两个录音设备分别采集第一音频和第二音频。

播放设备103是有线耳机、蓝牙耳机、音响等播放设备，或者集成了播放设备的终端，可以将媒体介质上记录的信号播放出声音。该播放设备可以通过网络104与电子设备101进行连接。

网络104可以是在电子设备101、录音设备102和音频播放设备103之间提供通信链路的介质，也可以是包含网络设备和传输介质的互联网，不限于此。网络104可以包括各种类型的连接介质，例如但不限于，有线链路、无线链路(如WIFI、蓝牙)和光纤链路等。

可选的，录音设备的录制第一音频和/或第二音频的功能也可以由电子设备来实现，同理，播放设备播放音频的功能也可以由电子设备来实现。例如，以电子设备101是智能手机为例，智能手机中可以集成有麦克风模块，因此可以完成录制音频的功能。电子设备也可以通过耳机接口连接有线耳机，完成播放音频的功能。

可以理解地，图1所示的架构中的电子设备101、录音设备102和播放设备103的数目仅作为示例，在具体实现中，音频合成***的网络架构可以包含任意数目的电子设备、录音设备和播放设备，例如，电子设备101可以是一个服务器，也可以是多个服务器组成的服务器集群。

参见图3，图3是本申请实施例提供的一种可能的音频合成***运行时的场景示意图，包括电子设备201、录音设备202、音频播放设备203。该音频合成***运行过程中涉及对原唱音频VOL1、目标伴奏BGM和翻唱音频VOL2的处理，电子设备201具体处理时涉及以下单元：时间确定单元204、声道分离单元205、左声道混音单元206、右声道混音单元207和输出单元208。

可以理解的是，上述各个单元、模块是根据功能划分出的功能模块，在具体实现中其中部分功能模块可能被细分为更多细小的功能模块，部分功能模块也可能组合成一个功能模块，但无论这些功能模块是进行了细分还是组合，电子设备在进行音频合成的过程中所执行的大致流程是相同的。例如，上述时间确定单元204执行的是确定时间的功能，在具体划分时可以表示为确定单元，再如，上述声道分离单元205、左声道混音单元206、右声道混音单元207、输出单元208所完成的功能也可以由一个合成单元来完成，为了便于描述因此划分成了更小的功能模块。通常，每个功能模块都对应有各自的程序代码(或者说程序指令)，这些功能模块各自对应的程序代码在处理器上运行时，使得功能模块执行相应的流程从而实现相应功能。

作为一种可选的实施方式，录音设备202录制得到翻唱音频VOL2并通过以太网发送给电子设备201。相应的，电子设备201接收到录音设备202发送的翻唱音频VOL2，电子设备可以通过其他方式(数据查找、音乐分离等方式)获取原唱音频VOL1和目标伴奏BGM。

电子设备201可以通过时间确定单元207确定原唱音频VOL1混入目标伴奏BGM的时间段，为了方便说明，表示为第一时间段。同理，电子设备201可以通过时间确定单元207确定翻唱音频VOL2混入目标伴奏BGM的时间段，为了方便说明，表示为第二时间段。电子设备201可以通过声道分离单元205分离出目标伴奏BGM的左声道音频BGM_L和右声道音频BGM_R，通过左声道混音单元206将原唱音频VOL1按照第一时间段混入目标伴奏的左声道音频BGN_L中，得到左声道合成音频M_L，同理，通过右声道混音单元207将翻唱音频VOL2按照第二时间段混入目标伴奏部分音频的右声道音频BGM_R中，得到右声道合成音频M_R。电子设备201通过输出单元208，将左声道合成音频和右声道合成音频输出为合成后的音频文件，即目标音频，并发送给播放设备203。

相应的，播放设备203接收到电子设备201发送的目标音频后，可以播放该目标音频，在歌曲播放到第一时间段时左声道可以听到翻唱人声，相应的，在第二时间段时右声道可以听到原唱人声，呈现出双耳双音形式的听觉体验。可选的，若第一时间与第二时间具有重合部分，则可以听到原唱人声和翻唱人声分别在左右耳播放的效果，可以呈现出合唱、对唱等演唱效果。

请参见图3，图3是本申请实施例提供的一种音频合成方法，该方法可以基于图1所示的音频合成***来实现，该方法包括但不限于如下步骤：

S301：电子设备获取目标伴奏、第一音频和第二音频。

具体的，上述目标伴奏可以是目标音乐的伴奏部分的音频，目标音乐可以歌曲、录音母带等音乐信号。以目标音乐是歌曲《等你下课》为例，目标伴奏可以是《等你下课》的伴奏部分。第一音频是根据目标伴奏演唱的一段音频，例如，第一音频可以是《等你下课》的原唱人声部分的音频。

电子设备(电脑、手机等)可以通过以下可选方式获取目标伴奏和第一音频：

方式一，根据目标音乐提取第一音频和目标伴奏。电子设备获取目标音乐的数据文件，通过分割人声部分和背景部分的相关算法，提取出目标音乐的人声部分和伴奏部分。例如，电子设备获取目标音乐的音频，其中目标音乐的音频符合中央/侧边(Mid/Sid，M/S)制式，人声部分属于Mid声道，而伴奏部分属于Side声道，因此获取Mid声道的音频作为第一音频，获取Side声道的音频作为目标伴奏。

方式二，根据目标音乐查找目标音乐的人声部分和伴奏部分的音频，可以将人声部分确定为第一音频，可以将伴奏部分确定为目标伴奏。例如，电子设备中存储了一个或多个音乐的人声音频或伴奏音频，或者电子设备可以通过网络服务获取到一个或多个音乐的人声音频或伴奏音频。用户输入目标音乐的名称、歌手、专辑等关键字，或者使用听歌识曲等方法，可以查找到一个或多个人声音频和伴奏音频。

参见图4，图4是本申请实施例提供的可能的一种获取第一音频和目标伴奏的方法的示意图，电子设备的用户界面中包含了搜索框组件401、列表信息组件402和选择组件403。用户通过搜索框组件401可以输入目标音乐的名称、歌手等关键字，例如，用户输入“等你下课”四个字符作为查找关键字，电子设备通过网络连接，向服务器发送该音乐的查找服务，查找到相关的人声音频和伴奏音频，通过列表信息组件402显示查找到的内容，如音乐名称为《等你下课》，由歌手周杰伦和杨瑞代演唱，在2018年发行的音乐。电子设备可以通过选择组件403接收到用户选择操作，将用户选择操作指示的人声音频作为第一音频。可选的，电子设备可以预先存储有第一音频的音频文件，或者通过网络下载该第一音频对应的数据文件，获取第一音频的音频。同理，电子设备接收针对目标伴奏的用户选择操作，将用户选择操作指示的伴奏作为目标伴奏。可选的，电子设备可以预先存储有目标伴奏的音频文件，或者通过网络下载该目标伴奏对应的数据文件，获取目标伴奏的音频。

第二音频是根据目标伴奏演唱的另一段音频，例如，《等你下课(英文版)》的英文翻唱人声即是根据《等你下课》的伴奏演唱的一段音频。可以理解的是，第二音频是根据目标伴奏演唱的另一段音频，并不限定第二音频对应的伴奏一定是目标伴奏。例如，《等你下课(英文版)》的伴奏部分与《等你下课》的原唱音乐的伴奏并不完全相同，但《等你下课(英文版)》中的演唱节奏是根据原唱的音乐伴奏相适应的，因此，《等你下课(英文版)》仍可以看作是根据《等你下课》的伴奏演唱的一段音频。

电子设备可以通过以下可选方案获取第二音频：

方案一，电子设备可以通过麦克风等获取输入的第二音频，该第二音频可以是演唱者根据目标音乐的伴奏演唱的人声部分的音频。例如，电子设备向演唱者提供《等你下课》的伴奏部分的音频，演唱者根据该伴奏，通过麦克风进行演唱，电子设备通过麦克风可以获取演唱者演唱《等你下课》的音频，将该音频作为第二音频。其中，演唱者可以是普通用户、专业歌手等可以根据伴奏演唱音频的人，为了方便描述，将演唱的人表示为演唱者，本实施例中对于演唱者的身份不做限定。

方案二，电子设备根据名称、演唱者等关键字获取第二音频。例如，电子设备中存储有多个音频，或者电子设备可以通过网络服务获取到一个或多个音频，用户输入名称、歌手、专辑等关键字，或者使用听歌识曲等方法，可以查找到一个或多个音频。例如，用户在搜索框中输入目标音乐的名称，即输入“等你下课英文版”四个字符，电子设备通过网络连接，向服务器发送该音乐的查找服务，查找音频，电子设备向用户提供多个音频的选项，接收针对第二音频的用户选择操作，将用户选择操作指示的伴奏作为第二音频。可选的，电子设备可以预先存储有第二音频的音频文件，或者通过网络下载该第二音频对应的数据文件，获取第二音频的音频。

方案三，根据第二音乐得到第二音频，其中，第二音乐的伴奏与目标伴奏的音乐相关。电子设备获取第二音乐的数据文件，通过分割人声部分和背景部分的相关算法，提取出第二音乐的人声部分和伴奏部分。例如，电子设备获取第二音乐《等你下课(英文版)》的音频，通过分离人声和伴奏的相关算法，将第二音乐的人声部分的音频作为第二音频。

S302：电子设备确定至少一个第一时间段和至少一个第二时间段。

具体的，电子设备确定第一音频混入目标伴奏的开始时间戳和结束时间戳，将开始时间戳和结束时间戳中间的时间段确定为第一时间段，其中，时间戳(timestamp)指的是一个时间数据，通常是一个字符序列，可标识歌曲的一个时间刻度。相应的，电子设备确定第二音频混入目标伴奏的开始时间戳和结束时间戳，将开始时间戳和结束时间戳中间的时间段确定为第二时间段。电子设备可以通过可选方式确定至少一个第一时间段和至少一个第二时间段：

方式一，根据目标伴奏的对应的歌词段确定至少一个第一时间段和至少一个第二时间段。具体的，目标伴奏可以有对应的歌词，所述歌词预设有至少一个第一歌词段和至少一个第二歌词段，例如，第一歌词段为主歌歌词段，第二歌词段为副歌歌词段，再如，第一歌词段为第一演唱者演唱的歌词段，第二歌词段为第二演唱者演唱的歌词段。由于目标歌词与目标伴奏具有对应关系，因此目标歌词的时间戳可以对应目标伴奏的时间戳。因此，电子设备根据第一歌词段的开始时间戳和结束时间戳，确定第一时间段，表明第一歌词段内可以将第一音频混入目标伴奏中。同理，根据第二歌词段的开时间戳和结束时间戳，确定第二时间段，表明第二歌词段内将第二音频混入目标伴奏中。可选的，可以根据第一歌词段对应的时间段和第二歌词段对应的时间段，确定第二时间段，表明第一歌词段和第二歌词段内都将第二音频混入目标伴奏中。同理，可以根据第一歌词段对应的时间段和第二歌词段对应的时间段，确定第一时间段，表明第一歌词段和第二歌词段内都将第一音频混入目标伴奏中。具体实现过程可以参见如下案例：

案例1，目标伴奏对应有一个或多个主歌歌词段和一个或多个副歌的歌词段，将主歌歌词段对应的时间段确定为第一时间段，将副歌歌词对应的歌词段确定为第二歌词段。可选的，电子设备将目标伴奏对应的歌词划分为主歌歌词段和副歌歌词段，将主歌歌词段对应的时间段作为第一时间段，将副歌歌词段对应的时间段作为第二时间段。参见图5，图5是本申请实施例提供的一种可能的确定时间的方法的示意图，该方法涉及对目标音乐的歌词501、目标音乐的人声部分502、目标音乐的伴奏部分503的处理。电子设备可以将歌词501划分为主歌歌词段和副歌歌词段，或者通过歌词划分设备将歌词501划分为主歌歌词段和副歌歌词段。例如，若目标歌曲为周杰伦和杨瑞代共同演唱的《等你下课》，根据歌词可知，在歌词“你住的箱子里”开始演唱(t1时刻)时，到歌词“你耳机听什么能不能告诉我”演唱结束时(t2时刻)为主歌部分，而从歌词“躺在你学校的操场看星空”开始演唱时(t3时刻)到歌词“也代表我已经走远”演唱结束时(t4时刻)为副歌部分。因此，可以将主歌部分对应的开始演唱的时间t1和结束时间t2中间的时间段确定第一时间段，将副歌部分开始演唱的时间t3和结束时间t4中间的时间段确定为第二时间段。

案例2，通过目标音乐的歌词，将歌词根据演唱者划分为多个歌词段，例如，将第一演唱者开始演唱的歌词段开始的时间作为第一时间，将第二演唱者开始演唱的歌词段开始的时间作为第二时间。可选的，一个演唱者可以演唱一个或多个歌词段。例如，参见图5，若目标音乐为周杰伦和杨瑞代共同演唱的《等你下课》，根据歌词可知，其中，在歌词“你住的箱子里”开始演唱(t1时刻)时，到歌词“你耳机听什么能不能告诉我”演唱结束时(t2时刻)为第一演唱者(周杰伦)演唱的歌词段，而从歌词“躺在你学校的操场看星空”开始演唱时(t3时刻)到歌词“也代表我已经走远”演唱结束时(t4时刻)为第一演唱者和第二演唱者(杨瑞代)共同演唱的部分。因此将第一演唱者演唱的开始时间t1和结束时间t2中间的时间段确定为一个第一时间段，将第一演唱者演唱的开始时间t3和结束时间t4中间的时间确定为另一个第一时间段，将第二演唱者演唱的开始时间t3和结束时间t4中间的时间确定为另一个第一时间段。

方式二，目标伴奏的歌词包含两部分歌词，将第一部分歌词对应的目标伴奏的时间段确定为第一时间段，将另一部份歌词对应的时间段确定为第二时间段。例如，将目标伴奏的歌词划分为多个歌词句，按照歌词句对应的时间段轮流混入第一音频和第二音频。再如，电子设备可以对第二音频进行评分，根据歌词的不同歌词句，将分数低于预设阈值的歌词确定为第一部分歌词，将分数高于或等于预设阈值的歌词句确定为第二部分歌词。将第一部分歌词对应的时间段确定为第一时间段，将第二部分歌词对应的时间段确定为第二时间段。具体实现过程可以参见如下案例：

案例3，参见图6，图6是本申请实施例提供的一种可能的确定时间的方法的示意图，该方法涉及对目标音乐的歌词601、目标音乐的人声部分602、目标音乐的伴奏部分603的处理。例如，将周杰伦和杨瑞代共同演唱的《等你下课》作为目标音乐，歌词中可以包含该歌词句开始的时间。电子设备将等你下课的歌词划分为多个歌词句，第一个歌词句为“你住的巷子里我租了一间公寓”，通过歌词句开始的时间“[00:13.89]”可知，该歌词是在《等你下课》这个音乐的13.89秒(t5时刻)开始演唱的歌词，并且在下一句歌词的开始(t6时刻)之前会结束演唱，因此将第一歌词句开始的时间(t5)和下一句歌词的开始(t6时刻)之间的时间段确定为第一时间段。同理，第二个歌词句为“为了想与你不期而遇”，通过歌词句开始的时间“[00:22.88]”可知，该歌词是在《等你下课》这个音乐的22.88秒(t6时刻)开始演唱的歌词，并且会在下一句歌词的开始时间(t7时刻)之前结束演唱，因此将第二歌词句开始的时间(t6)和下一句歌词的开始(t7时刻)之间的时间段确定为第二时间段。可以理解，电子设备还将第三句歌词(”高中三年我为什么为什么不好好读书“)演唱的时间段(t7时刻至t8时刻)确定为第一时间段，以此类推，使得第一音频和第二音频按照每一歌词句交替混入的节奏，形成对唱的效果，增加音乐的趣味性和互动性。

案例4，电子设备根据第二音频的演唱评分，将分数低于预设阈值的歌词对应的时间段确定为第一时间段，将分数高于或等于预设阈值的歌词对应的时间段确定为第二时间段。具体的，电子设备根据歌词中的多个歌词句，提取第二音频中分别演唱各歌词句的音频序列。例如，以第一音频为原唱人生音频为例，电子设备可以根据第一音频中演唱第一歌词句的声调、节奏，通过评分算法对第二音频中演唱的第一歌词句的音频序列进行评分，记录用户的评分数据。为了保证混音效果更满足用户需求，可以设置分数阈值，若第一歌词句的屏分不低于预设分数阈值，则第一歌词句开始的时间确定为第二时间，即第一个歌词句混入翻唱人声。根据多个歌词的评分数据，将多个歌词句中，低于预设分数阈值的音频序列所对应的歌词句的时间段确定为第一时间段，即翻唱的评分低于预设阈值的多个歌词句由原唱人声进行演唱。

方式三，电子设备可以接收用户对第一时间段的选择操作，同理，电子设备也可以接收用户对第二时间段的选择操作，根据用户的选择操作生成选择信息，为了方便描述，将用户选择操作生成的信息作为第一信息，根据第一信息确定至少一个第一时间段和/或第二时间段。参见图7，图7是本申请实施例提供的又一种可能的确定时间的方法的示意图，包括电子设备70、第一音轨701、第二音轨702、第三音轨703、第四音轨704和时间选择控件705，其中，音轨表示一段音频所在的平行“轨道”，电子设备可以将第一音频置于第一音轨，将目标伴奏的左声道和右声道分别置于第二音轨和第三音轨，将第二音频置于第三音轨。在确定混入时间时，用户可以通过控件705，选择音频混入的时间段。可选的，用户可以剪切第一音频，将第一音频剪切为多个音频序列，将剪切出的第一音频序列在时间轴上拖动，确定第一时间段。同理，用户可以剪切第二音频，将第二音频剪切为多个音频序列，将剪切出的第二音频序列在时间轴上拖动，确定第二时间段。

可选的，电子设备根据歌词中的多个歌词句将第一音频和/或第三音频划分为多个音频序列。电子设备接收用户针对每一句歌词需要混入的音频的选择，点击第一歌词句，确定该歌词句对应的时间需要混入的是第一音频中演唱该句歌词的音频序列，或者是第三音频中演唱该句歌词的音频序列，或者是同时混入第一音频中和第三音频中演唱该句歌词的音频序列。电子设备接收用户的选择操作，进而确定第一时间和/或第二时间。可选的，电子设备可以向用户提供音频序列的试听，并决定该歌词句对应的时间需要混入的是第一音频中演唱该句歌词的音频序列，或者是第三音频中演唱该句歌词的音频序列，或者是同时混入第一音频中和第三音频中演唱该句歌词的音频序列。以便最大限度地开放二者的时间分配权限给用户。完全由用户自主决定合唱模式。

可选的，确定第一音频和第二音频出现的时间段后，第一音频和第二音频依然是两个独立的音轨，在不应当出现的时间将对应的音频数据置零或者置空。确定第一时间段的各个方案可以用户自行选择，也可将某一方案设置为默认选项。

S303：电子设备确定第一音频的左声道音频和第一音频的右声道音频，以及确定第二音频的左声道音频和右声道音频。

具体的，电子设备通过可以通过以下可选方式确定第一音频的左声道音频和右声道音频：

方式一，第一音频为包含了左右声道的音频，通过分离声道确定左声道音频和右声道音频。

方式二，通过对第一音频进行声像调制确定第一音频的左声道音频和第一音频的右声道音频。具体的，电子设备对第一音频进行声像调制得到第一音频的左声道音频和第一音频的右声道音频，对第二音频进行声像调制得到第二音频的左声道音频和右声道音频。其中，电子设备进行声像调制时可以使用时延法、强度差法和HRTF函数进行声像调制，使得调制后的声音听起来仿佛是从某一位置上传来的效果。

可选的，电子设备进行调制时可以使用头相关传递函数(head related transferfunctions，HRTF)对第一音频和第二音频进行声像调制。头相关传递函数(head relatedtransfer functions，HRTF)又称为生理传输函数(anatomical transfer function,ATF)，是一种音效定位算法，可以利用耳间时间延迟(interaural time delay,ITD)、相互放大差异(interaural amplitude difference，IAD)和耳廓频率振动等技术产生立体音效，使声音传递至人耳内的耳廓，耳道和鼓膜时，聆听者会有环绕音效的感觉。人能听到声音是声音在空间中传播的结果，声音从声源到人耳鼓膜传播过程中发生了变化，这种变化可以看成是人的双耳对声音的滤波作用，可以通过经过HRTF处理过的音频模拟这种滤波效果。也即是说，聆听者可通过经过HRTF处理过的音频判断音频的声源的位置。电子设备可以通过声像调制平台，使用头相关传递函数做声像调制，其中，头相关传递函数有许多开源库可供选择，如美国麻省理工学院MIT HRTF数据库，美国加利福尼亚大学戴维斯分校CIPIC HRTF数据库，微软HRTF数据库，北大HRTF数据库等。另外，也可通过HRTF建模计算得到。

具体的，对第一音频进行声像调制时，电子设备先确定音频的声源的位置，根据音频的声源的位置可以得到该位置对应的头相关传递函数，电子设备对音频分别卷积从声源的位置到左右耳的头相关传递函数，得到音频的双声道音频。声源的位置可以是预先设置的声源的位置，也可以是接收用户操作指示的位置，为了方便描述，将针对第一音频的声源的位置的用户操作指令作为第一操作指令，将针对第二音频的声源的位置的用户操作指令作为第二操作指令。

参见图5，图5是本申请实施例提供的一种声像调制的效果示意图，包含第一位置801、第二位置802和听者803，其中，声源的位置可以用三位坐标表示，例如可以使用[方位角，仰角，距离]这一种三位坐标来表示位置，第一位置为第一音频的声源的位置，第二位置为第二音频的声源的位置。例如，以CIPIC库为例，电子设备取第一位置[30,15,1.5]的头相关传递函数，第一位置到左右耳的函数值分别记做H_1L、H_1R。电子设备取第二位置[-30,16,1.6]的头相关传递函数，第二位置到左右耳的函数值分别记做H_2L，H_2R。电子设备将第一音频分别与第一位置的传递函数(H_1L和H_1R)做卷积，得到第一音频的左声道音频和右声道音频，在播放时，听者能够感觉到第一音频仿佛是从第一位置传来的效果。同理，将第二音频分别与第二位置的传递函数(H_2L和H_2R)做卷积，得到第二音频的左声道音频和右声道音频，在播放时，听者能够感觉到第二音频仿佛是从第二位置传来的效果。

S303：电子设备在至少一个第一时间段内将第一音频的左声道音频和右声道音频分别混入到目标伴奏的左声道中，以及在至少一个第二时间段将第二音频的左声道音频和右声道音频分别混入到目标伴奏的右声道中，得到合成音频。

具体的，电子设备可以将目标伴奏分为目标伴奏的左声道音频和目标伴奏的右声道音频，其中，目标伴奏的格式可以为立体声格式，则分离出的左声道音频和右声道音频并不是完全相同的音频。可以理解的，上述分离目标伴奏的功能可以由电子设备中的声道分离单元完成，或者通过合成单元中的一个模块进行分离处理，或者通过其他设备获取得到，在这里不做限制。

第一时间段即第一音频混入目标伴奏的时间，电子设备根据第一时间段，将第一音频的左声道音频混入目标伴奏的左声道音频中，将第一音频的右声道音频混入目标伴奏的右声道音频中，以及，根据第二时间段，将第二音频的左声道音频混入目标伴奏的左声道音频中，将第二音频的右声道音频混入目标伴奏的右声道音频中，从而得到合成音频。电子设备将音频混入目标伴奏的过程可以有以下两种可选情况。

情况一，在第一时间段内，将第一音频的左声道音频混入到目标伴奏的左声道中，将第一音频的右声道音频混入到目标伴奏的右声道中；在第二时间段内，将第二音频的左声道音频混入到目标伴奏的左声道中，将第二音频的右声道音频混入到目标伴奏的右声道中，从而得到合成音频。

例如，参见图5，在通过案例1描述的方法来确定第一时间段和第二时间段的情况下，可知t1至t2为演唱第一歌词段的时间段，即第一时间段，t3至t4为演唱第二歌词段的时间段，即第二时间段。

为了方便描述，可以将第一音频、目标伴奏的左声道、目标伴奏的右声道和第二音频分别置于第一音轨、第二音轨、第三音轨和第四音轨。在混音时，电子设备可以按照音轨的时间轴将多个音轨的音频合成为一个音频文件。在目标伴奏的左声道行进至t1时，将第一音频的对应音频的左声道音频和右声道音频分别混入目标伴奏的左声道和右声道，该第一音频的对应音频为第一音频中对应于t1时间的音频，而在目标伴奏的左声道行进至t2时刻时停止混入第一音频。相应的，在目标伴奏的右声道行进至t3时，将第二音频的对应音频的左声道音频和右声道音频分别混入目标伴奏的左声道和右声道，在目标伴奏的左声道行进至t4时刻时停止混入第二音频，从而得到合成音频。

情况二，电子设备先获取第一音频中对应第一时间段的部分，获取第二音频对应第二时间段的部分，获取目标伴奏中对应第一时间段的部分。为了方便描述，将第一音频中对应于第一时间段的部分的左声道音频称为第一音频片段，将第一音频中对应于第一时间段的部分的右声道音频称为第二音频片段，将第二音频中对应于第二时间段的部分的左声道音频称为第三音频片段，将第二音频中对应于第二时间段的部分的右声道音频称为第四音频片段，将目标伴奏中对应于第一时间段的部分称为第一伴奏片段，将目标伴奏中对应第二时间段的部分称为第二伴奏片段。

在合成时，将第一音频片段的混入到第一伴奏片段的左声道中，将第二音频片段混入到第一伴奏片段的右声道中，以及将第三音频片段的混入到第二伴奏片段的左声道中，将第四音频片段混入到第二伴奏片段的右声道中，得到合成音频。

例如，参见图9，图9是本申请实施例提供的一种可能的混音方法的示意图，包括第一音频片段901、第二音频片段902、目标伴奏的左声道音频903、目标伴奏的右声道音频904、第三音频片段905和第四音频片段906。其中，第一音频片段901和第二音频片段902分别为第一音频在t1到t2时间段内的部分的左声道音频和右声道音频，第三音频片段905和第四音频片段902分别为第二音频在t3到t4时间段内的部分的左声道音频和右声道音频。电子设备将第一音频片段901混入到目标伴奏的左声道中，将第二音频片段902混入到第一伴奏片段的右声道中，以及将第三音频片段的混入到第二伴奏片段的左声道中，将第四音频片段混入到第二伴奏片段的右声道中，得到合成音频。采用这种方法，电子设备只需要对需要混入音频的目标伴奏片段进行处理，而对其他没有音频混入的目标伴奏片段无需重新进行合成，减小了电子设备的处理压力。

可选的，在进行混音之前，可以对第一音频进行调制，得到第一音频的左声道音频和右声道音频，相应的，也可以对第二音频进行调制，得到第二音频的左声道和右声道音频。例如，可以通过分离调制，将第一音频分离为左声道音频和右声道音频。

可选的，电子设备在进行混音时，可以对第一音频的音量进行调整，避免混入后声音过大或者过小。电子设备可以通过以下可选方式对音量进行调整：

方式一，根据第一音频的音量调整第二音频的音量，调整后的第二音频的音量等于或者小于第一音频的音量。具体的，电子设备确定第一音频后，可以计算第一音频的音量，根据第一音频的音量来调整第二音频的音量，例如，使得第二音频的音量与第一音频的音量呈现固定比例系数或者差值。可选的，音频的音量可以使用均方根值(root meamsquare,RMS)来表示，电子设备可以通过第一音频的RMS，来对确定第二音频的音量进行调整。例如，第一音频可以是目标音乐的原唱人声data1，第二音频可以是用户翻唱的一段翻唱人声data2，若调整之前第二音频的音量为Vol0，电子设备可以计算第一音频的音量为Vol1，则可以调整第二音频的音量为Vol2，使得Vol2满足如下等式：

Vol2＝min(Vol0,Vol1)

可以看出，调整后，第二音频的音量小于或等于第一音频的音量。

方式二，接收输入的第三操作指令和第四操作指令，根据第三操作指令指示的信息对第一音频进行音量调整，根据第四操作指令指示的信息对第二音频进行音量调整。例如，电子设备通过触摸屏、键盘等输入设备接受用户的操作指令，为了方便描述，将针对第一音频音量的用户操作指令作为第三操作指令，将针对第二音频音量的用户操作指令作为第四操作指令，根据第三操作指令指示的音量调整第一音频的音量，根据第四操作指令指示的音量调整第二音频的音量。参考图10，图10是本申请提供的一种可能的调整音量的界面示意图，包括电子设备100、第一音轨1001、第二音轨1002、第三音轨1003、第四音轨1004、音量输入框1005和音量滑动控件1006。电子设备100将第一音频、第一音频的左声道音频、第一音频的右声道音频、第二音频分别置于第一音轨、第二音轨、第三音轨、第四音轨中，用户可以通过音量输入框1005和音量滑动控件1006对音轨的音量进行调整。例如，用户可以滑动控件，将第一音轨中的第一音频的音量调整为40。可选的，电子设备可以提供针对第一音频和目标背景的比例系数的多个选项，或者提供针对第一音频和目标背景的比例系数的多个选项，使用户可以根据自己的需求选择音频与背景的音量比例。

可选的，电子设备可以将合成音频输出到电子设备中的音频播放模块，则可以播放该合成音频。可选的，电子设备也可以将合成音频输出为目标音频文件，即目标双声道音频，传送给播放设备。其中，播放设备可以是集成在电子设备中的模块，或者通过有线接口、无线接口(蓝牙，WiFi等)连接的设备。使得播放设备播放目标双声道音频时，在歌曲播放到第一时间段内左声道可以听到第一音频，相应的，在第二时间段内右声道可以听到第二音频，呈现出双耳双音形式的听觉体验。可选的，若第一时间与第二时间具有重合部分，则可以听到原唱人声和翻唱人声分别在左右耳播放的效果，呈现共同演唱的效果。

在图3所示的方法中，电子设备可以根据目标伴奏的时间戳确定第一时间段和第二时间段，根据时间段将第一音频和第二音频混入目标伴奏的左右声道中。在具体合成时，可以将第一音频调制得到左声道音频和右声道音频，按照第一时间段分别混入伴奏的左声道和右声道中，同理，将第二音频的左声道音频和右声道音频，按照第二时间段分别混入伴奏的左声道和右声道中，从而高效地合成双耳双音形式的音频，提升了双耳双音形式音乐的聆听效果。进一步的，由于音频混入的第一时间段和第二时间段是根据目标伴奏的时间戳确定的，因此左右声道的合成音乐节奏可以相互对应，避免了两个音乐节奏不对齐的问题，提升了双耳双音形式音乐的聆听效果。

上述详细阐述了本申请实施例的方法，下面提供了本申请实施例的装置。

请参见图11，图11是本申请实施例提供的一种音频合成装置110的结构示意图，该音频合成装置110可以包括确定单元1101、调制单元1102和合成单元1103，其中，各个单元的详细描述如下：

确定单元1101，用于根据目标伴奏的时间戳确定目标伴奏的播放时长内的至少一个第一时间段和至少一个第二时间段；其中，至少存在一个第一时间段与至少一个第二时间段不重合；

调制单元1102，用于确定第一音频的左声道音频和第一音频的右声道音频；

该调制单元1102，还用于确定第二音频的左声到音频和第二音频的右声道音频；

合成单元1103，用于在至少一个第一时间段内将第一音频的左声道音频混入到目标伴奏的左声道中，在至少一个第一时间段内将第一音频的右声道音频混入到目标伴奏的右声道中；在至少一个第二时间段内将第二音频的左声道音频混入到目标伴奏的左声道中，在至少一个第二时间段内将第二音频的右声道音频混入到目标伴奏的右声道中，得到合成音频。

在一种可能的实施方式中，上述合成单元1103，用于在至少一个第一时间段内将第一音频的左声道音频混入到目标伴奏的左声道中，在至少一个第一时间段内将第一音频的右声道音频混入到目标伴奏的右声道中，具体为：

上述合成单元1103，还用于在至少一个第二时间段内将第二音频的左声道音频混入到目标伴奏的左声道中，在至少一个第二时间段内将第二音频的右声道音频混入到目标伴奏的右声道中，具体为：

在一种可能的实施方式中，该目标伴奏包括至少两段歌词；上述确定单元1101，用于根据目标伴奏的时间戳确定目标伴奏的播放时长内的至少一个第一时间段和至少一个第二时间段，具体为：

根据至少两段歌词中的一部分歌词确定第一时间段；

根据至少两段歌词中的另一部分歌词确定第二时间段。

在一种可能的实施方式中，上述目标伴奏对应有N个第一歌词段和M个第二歌词段，该第一歌词段为主歌歌词段，该第二歌词段为副歌歌词段，或者，该第一歌词段为第一演唱者演唱的歌词段，该第二歌词段为第二演唱者演唱的歌词段，其中，M为大于或等于1的整数，N为大于或等于1的整数；上述确定单元1101，用于根据目标伴奏的时间戳确定目标伴奏的播放时长内的至少一个第一时间段和至少一个第二时间段，具体为：

在第二方面的一种可能的实施方式中，上述装置还包括：

输入单元1104，用于接收输入的第一信息，其中，该第一信息指示了至少一个第一时间段和至少一个第二时间段；

上述确定单元1101，用于根据目标伴奏的时间戳确定目标伴奏的播放时长内的至少一个第一时间段和至少一个第二时间段，具体为：

在一种可能的实施方式中，上述调制单元1102，用于确定第一音频的左声道音频和第一音频的右声道音频，具体为：

上述调制单元1102，还用于确定第二音频的左声道音频和第二音频的右声道音频，具体为：

在一种可能的实施方式中，第二音频的音量小于或等于第一音频的音量。

在一种可能的实施方式中，上述第一音频的音量为第三操作指令指示的音量，上述第二音频的音量为第四操作指令指示的音量。可以看出，用户可以根据自身喜好设置第一音频和第二音频的音量，从而构造个性化的听音效果，增加了合成音乐的趣味性和灵活性。

需要说明的是，各个操作的实现还可以对应参照图3所示的方法实施例的相应描述。该音频合成装置110为图3所示方法实施例中的电子设备。

请参见图12，图12是本申请实施例提供的又一种音频合成装置120的结构示意图，该音频合成装置可以包括存储器1201、处理器1202和输入设备1203，其中，存储器1201、处理器1202和输入设备1203可通过总线1204或其他方式连接，本申请实施例以通过总线连接为例，各个单元的详细描述如下。

其中，存储器1201(Memory)是音频合成装置中的存储设备，用于存放程序和数据。可以理解的是，此处的存储器1201既可以包括音频合成装置的内置存储器，当然也可以包括音频合成装置所支持的扩展存储器。存储器1201提供存储空间，该存储空间存储了音频合成装置的操作***及其他数据，可包括但不限于：Android***、iOS***、Windows Phone***等等，本申请对此并不作限定。

处理器1202(或称中央处理器(Central Processing Unit，CPU))是音频合成装置的计算核心以及控制核心，其可以解析音频合成装置内的各类指令以及处理音频合成装置的各类数据，例如：CPU可以在音频合成装置内部结构之间传输各类交互数据，等等。

输入设备1203可以是用于录制音频的设备，如麦克风或者音频记录模块，或者输入设备可以是键盘、鼠标、或者可触摸显示屏等数据采集的模块，在这里不限制。可选的，输入1203设备可以集成在设备120中，也可以是通过数据接口或者网络接口与装置进行连接。音频合成装置可以是一个独立的设备，也可以集成在手机、电脑等终端中，或者集成在服务器或者服务器集群中。

所述存储器中可以存储有计算机程序，处理器1202可以用于调用存储器1201中存储的计算机程序，可以执行如图3所示实施例提供的方法。

需要说明的是，音频合成装置所执行的具体操作还可以对应参照图3所示的方法实施例的相应描述。该音频合成装置120为图3所示方法实施例中的电子设备。

本申请实施例还提供了一种计算机可读存储介质，上述计算机可读存储介质中存储有计算机指令，当上述计算机可读存储介质在处理器上运行时，实现图3所的实施例中电子设备所执行的操作。

本申请实施例还提供一种计算机程序产品，当上述计算机程序产品在处理器上运行时，实现图3所的实施例中电子设备所执行的操作。本领域的技术人员应明白，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。例如，用于音频合成的应用程序(applications，APP)、插件等。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如，固态硬盘(solid state disk，SSD))等。

Claims

1.一种音频合成的方法，所述合成方法至少包括第一音频和第二音频，其特征在于，所述合成方法包括：

根据目标伴奏的时间戳确定所述目标伴奏的播放时长内的至少一个第一时间段和至少一个第二时间段；其中，至少存在一个所述第一时间段与所述至少一个第二时间段不重合；

确定所述第一音频的左声道音频和所述第一音频的右声道音频；

确定所述第二音频的左声到音频和所述第二音频的右声道音频；

在所述至少一个第一时间段内将所述第一音频的左声道音频混入到所述目标伴奏的左声道中，在所述至少一个第一时间段内将所述第一音频的右声道音频混入到所述目标伴奏的右声道中；以及在所述至少一个第二时间段内将所述第二音频的左声道音频混入到所述目标伴奏的左声道中，在所述至少一个第二时间段内将所述第二音频的右声道音频混入到所述目标伴奏的右声道中，得到合成音频。

2.根据权利要求1所述的方法，其特征在于，所述在所述至少一个第一时间段内将所述第一音频的左声道音频混入到所述目标伴奏的左声道中，在所述至少一个第一时间段内将所述第一音频的右声道音频混入到所述目标伴奏的右声道中，包括：

在所述至少一个第一时间段内将第一音频片段混入到第一伴奏片段的左声道中，在所述至少一个第一时间段内将第二音频片段混入到第一伴奏片段的右声道中，所述第一音频片段为所述第一音频的左声道音频中对应于所述至少一个第一时间段的音频片段，所述第二音频片段为所述第一音频的右声道音频中对应于所述至少一个第一时间段的音频片段，所述第一伴奏片段为所述目标伴奏中对应于所述至少一个第一时间段的部分；

所述在所述至少一个第一时间段内将所述第一音频的左声道音频混入到所述目标伴奏的左声道中，在所述至少一个第一时间段内将所述第一音频的右声道音频混入到所述目标伴奏的右声道中，包括：

在所述至少一个第二时间段内将第三音频片段混入到第二伴奏片段的左声道中，在所述至少一个第二时间段内将第四音频片段混入到第二伴奏片段的右声道中，所述第三音频片段为所述第二音频的左声道音频中对应于所述至少一个第二时间段的音频片段，所述第二伴奏片段为所述目标伴奏中对应于所述至少一个第二时间段的部分，所述第四音频片段为所述第二音频的右声道音频中对应于所述至少一个第二时间段的音频片段。

3.根据权利要求1所述的方法，其特征在于，所述目标伴奏包括至少两段歌词；所述根据目标伴奏的时间戳确定至少一个第一时间段和至少一个第二时间段，包括：

根据所述至少两段歌词中的一部分歌词确定第一时间段；

根据所述至少两段歌词中的另一部分歌词确定第二时间段。

4.根据权利要求1所述的方法，其特征在于，所述目标伴奏对应有N个第一歌词段和M个第二歌词段，所述第一歌词段为主歌歌词段，所述第二歌词段为副歌歌词段，或者，所述第一歌词段为第一演唱者演唱的歌词段，所述第二歌词段为第二演唱者演唱的歌词段，其中，M为大于或等于1的整数，N为大于或等于1的整数；所述根据目标伴奏的时间戳确定所述目标伴奏的播放时长内的至少一个第一时间段和至少一个第二时间段，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据目标伴奏的时间戳确定所述目标伴奏的播放时长内的至少一个第一时间段和至少一个第二时间段，包括：

接收输入的第一信息，其中，所述第一信息指示了至少一个第一时间段和至少一个第二时间段；

根据所述第一信息确定所述至少一个第一时间段和所述至少一个第二时间段。

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述确定第一音频的左声道音频和第一声道的右声道音频，包括：

对所述第一音频卷积从第一音频的声源的位置到左耳和右耳的第一头相关传递函数，得到第一音频的左声道音频和第一音频的右声道音频；所述第一音频的声源的位置为预设的声像位置或者接收的第一操作指令指示的位置；

所述确定第一音频的左声道音频和第一声道的右声道音频，包括：

对所述第二音频卷积从第二音频的声源的位置到左耳和右耳的第一头相关传递函数，得到第一音频的左声道音频和第一音频的右声道音频；所述第二音频的声源的位置为预设的声像位置或者接收的第二操作指令指示的位置。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述第二音频的音量小于或等于所述第一音频的音量。

8.根据权利要求1至6中任一项所述的方法，其特征在于，所述第一音频的音量为第三操作指令指示的音量，所述第二音频的音量为第四操作指令指示的音量。

9.一种音频合成装置，其特征在于，所述合成方法至少包括第一音频和第二音频，包括：

确定单元，用于根据目标伴奏的时间戳确定所述目标伴奏的播放时长内的至少一个第一时间段和至少一个第二时间段；其中，至少存在一个所述第一时间段与所述至少一个第二时间段不重合；

所述调制单元，还用于确定第二音频的左声到音频和第二音频的右声道音频；

合成单元，用于在所述至少一个第一时间段内将第一音频的左声道音频混入到所述目标伴奏的左声道中，在所述至少一个第一时间段内将第一音频的右声道音频混入到所述目标伴奏的右声道中；在所述至少一个第二时间段内将第二音频的左声道音频混入到所述目标伴奏的左声道中，在所述至少一个第二时间段内将第二音频的右声道音频混入到所述目标伴奏的右声道中，得到合成音频。

10.根据权利要求9所述的装置，其特征在于，所述合成单元，用于在所述至少一个第一时间段内将第一音频的左声道音频混入到所述目标伴奏的左声道中，在所述至少一个第一时间段内将第一音频的右声道音频混入到所述目标伴奏的右声道中，具体为：

所述合成单元，还用于在所述至少一个第二时间段内将第二音频的左声道音频混入到所述目标伴奏的左声道中，在所述至少一个第二时间段内将第二音频的右声道音频混入到所述目标伴奏的右声道中，具体为：

11.根据权利要求9所述的装置，其特征在于，所述目标伴奏包括至少两段歌词；所述确定单元，用于根据目标伴奏的时间戳确定所述目标伴奏的播放时长内的至少一个第一时间段和至少一个第二时间段，具体为：

根据所述至少两段歌词中的一部分歌词确定第一时间段；

根据所述至少两段歌词中的另一部分歌词确定第二时间段。

12.根据权利要求9所述的装置，其特征在于，所述目标伴奏对应有N个第一歌词段和M个第二歌词段，所述第一歌词段为主歌歌词段，所述第二歌词段为副歌歌词段，或者，所述第一歌词段为第一演唱者演唱的歌词段，所述第二歌词段为第二演唱者演唱的歌词段，其中，M为大于或等于1的整数，N为大于或等于1的整数；所述确定单元，用于根据目标伴奏的时间戳确定所述目标伴奏的播放时长内的至少一个第一时间段和至少一个第二时间段，具体为：

13.根据权利要求9所述的装置，其特征在于，所述装置还包括：

输入单元，用于接收输入的第一信息，其中，所述第一信息指示了至少一个第一时间段和至少一个第二时间段；

所述确定单元，用于根据目标伴奏的时间戳确定所述目标伴奏的播放时长内的至少一个第一时间段和至少一个第二时间段，具体为：

14.根据权利要求9-13中任一项中所述的装置，其特征在于，所述调制单元，用于确定第一音频的左声道音频和第一音频的右声道音频，具体为：

对所述第一音频卷积从第一音频的声源的位置到左耳和右耳的第一头相关传递函数，得到第一音频的左声道音频和第一音频的右声道音频；所述第一音频的声源的位置为预设的声像位置或者接收的第一操作指令的位置；

所述调制单元，还用于确定第二音频的左声道音频和第二音频的右声道音频，具体为：

对所述第二音频卷积从第二音频的声源的位置到左耳和右耳的第一头相关传递函数，得到第一音频的左声道音频和第一音频的右声道音频；所述第二音频的声源的位置为预设的声像位置或者接收的第二操作指令的位置。

15.根据权利要求9-14中任一项所述的装置，其特征在于，所述第二音频的音量小于或等于所述第一音频的音量。

16.根据权利要求9-15中任一项所述的装置，其特征在于，所述第一音频的音量为第三操作指令指示的音量，所述第二音频的音量为第四操作指令指示的音量。

17.一种音频合成装置，其特征在于，包括：处理器和存储器，所述存储器用于存储有计算机程序，所述处理器用于调用所述计算机程序，以执行权利要求1-8中任一项所述的方法。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，当所述计算机程序在一个或多个处理器上运行时，执行如权利要求1-8任一项所述的方法。

19.一种用于音频合成的计算机程序产品，其特征在于，所述计算机程序产品包括：

计算机可读存储介质，其随之包含的计算机可读程序，所述计算机可读程序由一个或多个处理器运行，用于执行如权利要求1-8任一项所述的方法。