CN109743461B

CN109743461B - 音频数据处理方法、装置、终端及存储介质

Info

Publication number: CN109743461B
Application number: CN201910085395.2A
Authority: CN
Inventors: 夏佳权
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2019-01-29
Filing date: 2019-01-29
Publication date: 2021-07-02
Anticipated expiration: 2039-01-29
Also published as: CN109743461A

Abstract

本发明公开了一种音频数据处理方法、装置、终端及存储介质，属于数据处理技术领域。本发明实施例通过用户音频数据中的用户音量，调节目标歌曲的原唱音频的播放音量，使得当用户音量降低时，该原唱音频的播放音量可以提高，当用户音量提高时，该原唱音频的播放音量可以降低，实现了用户音量与原唱音频的播放音量的相辅相成，提高了终端对目标歌曲进行播放的效果。

Description

音频数据处理方法、装置、终端及存储介质

技术领域

本发明涉及数据处理技术领域，特别涉及一种音频数据处理方法、装置、终端及存储介质。

背景技术

随着终端的不断发展，终端为用户提供了越来越多的功能，例如，用户可以通过终端的录制功能和音频数据处理功能，实现卡拉OK的目的。

目前，常用的音频数据处理方法为：用户在终端上的歌曲搜索页面选择所要进行演唱的目标歌曲，终端将该目标歌曲对应的伴奏音频下载到本地之后，开始播放该伴奏音频，同时，用户开始跟随该伴奏音频唱歌，终端基于麦克风采集到用户音频数据和伴奏音频之后，基于该伴奏音频和该用户音频数据得到音频数据，用户可以播放该音频数据，或者，将该音频数据上传到服务器中供其他用户收听。

基于上述音频数据处理方法，终端所播放的音频较为固定，当用户在演唱过程中出现不会唱的情况时，终端无法对该目标歌曲的音频进行调节，降低了终端的播放效果。

发明内容

本发明实施例提供了一种音频数据处理方法、装置、终端及存储介质，能够解决终端无法对目标歌曲的音频进行调节，降低了终端的播放效果的问题。该技术方案如下：

一方面，提供了一种音频数据处理方法，所述方法包括：

接收用户选择目标歌曲的指令，播放所述目标歌曲的伴奏音频；

采集用户演唱所述目标歌曲的用户音频数据，获取所述用户音频数据中的用户音量；

当所述用户音量低于预设条件时，播放所述目标歌曲的原唱音频，随所述用户音量降低，调大所述目标歌曲的原唱音频的播放音量，随所述用户音量的提高，调小所述目标歌曲的原唱音频的播放音量。

在一种可能实现方式中，所述随所述用户音量降低，调大所述目标歌曲的原唱音频的播放音量包括：

当所述用户音量降低且大于第一预设阈值时，将所述原唱音频的播放音量调大，所述用户音量与所述原唱音频的播放音量之和为第二预设阈值；

当所述用户音量在预设时间段内持续小于所述第一预设阈值时，将所述原唱音频的播放音量调大至所述第二预设阈值。

在一种可能实现方式中，所述随所述用户音量的提高，调小所述目标歌曲的原唱音频的播放音量包括：

当所述用户音量提高且小于第三预设阈值时，将所述原唱音频的播放音量调小，所述用户音量与所述原唱音频的播放音量之和为第二预设阈值；

当所述用户音量在预设时间段内持续大于所述第三预设阈值时，将所述原唱音频的播放音量调小至第四预设阈值。

在一种可能实现方式中，所述方法还包括：

当接收到智能伴唱指令时，执行所述用户音量的获取过程以及基于所述用户音量的播放调整过程。

在一种可能实现方式中，所述方法还包括：

在播放所述目标歌曲的伴奏音频时，采用淡入淡出的方式播放所述原唱音频。

在一种可能实现方式中，所述方法还包括：

在对所述伴奏音频和所述用户音频数据进行合并的过程中，当所述用户音频数据的任一片段的用户音量低于所述预设条件时，合并所述伴奏音频、所述用户音频数据以及所述原唱音频中的对应片段。

一方面，提供了一种音频数据处理装置，所述装置包括：

播放模块，用于接收用户选择目标歌曲的指令，播放所述目标歌曲的伴奏音频；

获取模块，用于采集用户演唱所述目标歌曲的用户音频数据，获取所述用户音频数据中的用户音量；

调节模块，用于当所述用户音量低于预设条件时，播放所述目标歌曲的原唱音频，随所述用户音量降低，调大所述目标歌曲的原唱音频的播放音量，随所述用户音量的提高，调小所述目标歌曲的原唱音频的播放音量。

在一种可能实现方式中，所述调节模块用于：

当所述用户音量在所述预设时间段内持续大于所述第三预设阈值时，将所述原唱音频的播放音量调小至第四预设阈值。

在一种可能实现方式中，所述装置还包括：

执行模块，用于当接收到智能伴唱指令时，执行所述用户音量的获取过程以及基于所述用户音量的播放调整过程。

在一种可能实现方式中，所述装置还包括：

淡入淡出模块，用于在播放所述目标歌曲的伴奏音频时，采用淡入淡出的方式播放所述原唱音频。

在一种可能实现方式中，所述装置还包括：

合并模块，用于在对所述伴奏音频和所述用户音频数据进行合并的过程中，当所述用户音频数据的任一片段的用户音量低于所述预设条件，合并所述伴奏音频、所述用户音频数据以及所述原唱音频中的对应片段。

本发明实施例通过用户音频数据中的用户音量，调节目标歌曲的原唱音频的播放音量，使得当用户音量降低时，该原唱音频的播放音量可以提高，当用户音量提高时，该原唱音频的播放音量可以降低，实现了用户音量与原唱音频的播放音量的相辅相成，提高了终端对目标歌曲进行播放的效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种音频数据处理方法的流程图；

图2是本发明实施例提供的一种音频数据处理方法的流程图；

图3是本发明实施例提供的一种音频数据处理装置的结构示意图；

图4是本发明实施例提供的一种终端400的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1是本发明实施例提供的一种音频数据处理方法的流程图，参见图1，该实施例具体包括：

101、接收用户选择目标歌曲的指令，播放该目标歌曲的伴奏音频。

102、采集用户演唱该目标歌曲的用户音频数据，获取该用户音频数据中的用户音量。

103、当该用户音量低于预设条件时，播放该目标歌曲的原唱音频，随该用户音量降低，调大该目标歌曲的原唱音频的播放音量，随该用户音量的提高，调小该目标歌曲的原唱音频的播放音量。

在一些实施例中，随该用户音量降低，调大该目标歌曲的原唱音频的播放音量包括：

当该用户音量降低且大于第一预设阈值时，将该原唱音频的播放音量调大，该用户音量与该原唱音频的播放音量之和为第二预设阈值；

当该用户音量在预设时间段内持续小于该第一预设阈值时，将该原唱音频的播放音量调大至该第二预设阈值。

在一些实施例中，随该用户音量的提高，调小该目标歌曲的原唱音频的播放音量包括：

当该用户音量提高且小于第三预设阈值时，将该原唱音频的播放音量调小，该用户音量与该原唱音频的播放音量之和为第二预设阈值；

当该用户音量在预设时间段内持续大于该第三预设阈值时，将该原唱音频的播放音量调小至第四预设阈值。

在一些实施例中，该方法还包括：

当接收到智能伴唱指令时，执行该用户音量的获取过程以及基于该用户音量的播放调整过程。

在一些实施例中，该方法还包括：

在播放该目标歌曲的伴奏音频时，采用淡入淡出的方式播放该原唱音频。

在一些实施例中，该方法还包括：

在对该伴奏音频和该用户音频数据进行合并的过程中，当该用户音频数据的任一片段的用户音量低于该预设条件时，合并该伴奏音频、该用户音频数据以及该原唱音频中的对应片段。

图2是本发明实施例提供的一种音频数据处理方法的流程图，参见图2，该实施例包括：

201、终端显示歌曲搜索页面。

在本发明实施例中，该终端可以具有音频播放功能等，该歌曲搜索页面可以提供搜索并确定目标歌曲的功能，该目标歌曲为用户想要在该终端上进行演唱的歌曲，该歌曲搜索页面可以显示有搜索框、歌手排行榜以及各个类别选项等，例如，该类别选项可以为“经典”、“民谣”以及“影视金曲”等。当然，该歌曲搜索页面还可以显示有其他信息，本发明实施例在此对该歌曲搜索页面所显示的具体信息不做限定。终端可以通过相关应用进入该歌曲搜索页面，例如，该相关应用可以是歌曲播放应用。

202、终端基于该歌曲搜索页面，触发用户选择目标歌曲的指令。

在本发明实施例中，该用户选择目标歌曲的指令用于指示播放该目标歌曲的伴奏音频。例如，终端基于该歌曲搜索页面，触发用户选择目标歌曲的指令的过程可以包括以下步骤202A至步骤202B：

202A：终端基于该歌曲搜索页面，确定目标歌曲，显示该目标歌曲的详情页面。

其中，该目标歌曲的详情页面可以用于用户查看有关该目标歌曲的热点信息等，该目标歌曲的详情页面可以提供有选择选项，该选择选项用于为终端提供音频数据播放功能的入口。

具体地，终端可以通过该歌曲搜索页面上的搜索框、歌手排行榜或者类别选项等，获取歌曲列表，该歌曲列表可以显示至少一个歌曲条目。当终端检测到对该歌曲列表中任一个歌曲条目的选中操作时，终端可以确定该任一个歌曲条目对应的歌曲为目标歌曲，并跳转到该目标歌曲的详情页面。

202B：基于该目标歌曲的详情页面，当终端检测到对选择选项的选中操作时，终端触发用户选择目标歌曲的指令。

其中，该选择选项可以位于该详情页面的任意位置，例如，该选择选项可以位于该详情页面的底端居中的位置，本发明实施例在此对该选择选项的显示位置不做限定。

上述步骤201至步骤202是以终端基于歌曲搜索页面先确定目标歌曲，再通过对该目标歌曲对应的选择选项进行触发，来触发用户选择目标歌曲的指令为例进行说明的。在其他实施例中，终端还可以同时确定目标歌曲与触发目标歌曲对应的选择选项，来触发用户选择目标歌曲的指令。例如，上述步骤202可以替换为以下步骤：终端可以基于歌曲搜索页面，获取歌曲列表，该歌曲列表中的每个歌曲条目都可以显示一个选择选项，当终端检测到对任一个歌曲条目中的选择选项的选中操作时，终端可以确定该任一个歌曲条目所对应的歌曲为目标歌曲，同时触发用户选择目标歌曲的指令。

此外，终端还可以先触发选择选项，再通过歌曲搜索页面确定目标歌曲，来触发用户选择目标歌曲的指令。例如，上述步骤201至步骤202还可以替换为以下步骤：终端可以显示歌曲功能页面，该歌曲功能页面可以为终端开启相关应用时，该相关应用所显示的默认页面，该歌曲功能页面可以提供有选择选项，当终端检测到对该选择选项的选中操作时，终端显示歌曲搜索页面，终端可以基于该歌曲搜索页面，获取歌曲列表，当终端检测到对该歌曲列表中任一个歌曲条目的选中操作时，终端可以确定该任一个歌曲条目所对应的歌曲为目标歌曲，并触发用户选择目标歌曲的指令。

当然，终端还可以通过其他方式来触发用户选择目标歌曲的指令，本发明实施例在此不做限定。

203、终端基于用户选择目标歌曲的指令，播放该目标歌曲的伴奏音频。

在本发明实施例中，终端只要获取到用户选择目标歌曲的指令，即可播放该目标歌曲的伴奏音频。例如，终端基于该用户选择目标歌曲的指令，播放该目标歌曲的伴奏音频的过程可以为：当终端获取到该用户选择目标歌曲的指令时，终端显示目标歌曲的播放页面，终端可以基于该播放页面，播放该目标歌曲的伴奏音频。进一步的，终端可以采用淡入的方式播放该目标歌曲的伴奏音频。该淡入的方式指的是终端将音频的播放音量逐渐调大，使得终端可以从无到有地逐渐对音频进行播放，避免了终端突然播放音频，提高了终端的播放效果。

进一步的，终端可以基于该播放页面，获取到智能伴唱指令，终端可以基于该智能伴唱指令，开启智能伴唱模式，以播放该目标歌曲的伴奏音频以及原唱音频。此外，终端还可以基于其他任意页面，获取到该智能伴唱指令，本发明实施例在此对该智能伴唱指令的获取方式不做限定。

更进一步的，上述终端基于智能伴唱指令，播放该目标歌曲的伴奏音频以及原唱音频的过程可以应用于对该目标歌曲的录制场景中。例如，在录制场景中，终端基于智能伴唱指令，播放该目标歌曲的伴奏音频以及原唱音频的过程可以包括以下步骤203A至步骤203B：

203A：终端基于用户选择目标歌曲的指令，显示该目标歌曲对应的录制页面，该录制页面提供有智能伴唱选项。

其中，该录制页面用于为用户提供终端对用户音频数据的录制进程，该用户音频数据为用户的演唱音频数据，该演唱音频数据与该目标歌曲相对应，该录制页面可以提供有智能伴唱选项以及歌曲进度区域等。其中，该智能伴唱选项用于终端开启智能伴唱模式，该智能伴唱模式为终端默认播放该目标歌曲的伴奏音频和原唱音频，且在播放过程中，对该目标歌曲的原唱音频对应的音量进行动态调节。该歌曲进度区域用于显示该目标歌曲的播放时间轴以及不同播放时间点所对应的音高等信息。

具体地，终端触发用户选择目标歌曲的指令之后，终端可以基于该用户选择目标歌曲的指令，从服务器中获取该目标歌曲的伴奏音频、原唱音频、歌词以及歌曲属性信息等，终端可以基于该目标歌曲的歌词和歌曲属性信息等，显示该目标歌曲对应的录制页面。当然，终端还可以根据该用户选择目标歌曲的指令，从终端本地获取该目标歌曲的伴奏音频、原唱音频、歌词以及歌曲属性信息等，本发明实施例在此不做限定。

203B：当终端检测到对该智能伴唱选项的选中操作时，终端触发智能伴唱指令，终端基于该智能伴唱指令，播放该目标歌曲的伴奏音频和原唱音频。

具体地，当终端检测到对该智能伴唱选项的选中操作时，终端开启智能伴唱模式，终端基于步骤203A中获取到的该目标歌曲的伴奏音频和原唱音频，播放该伴奏音频和原唱音频。

上述步骤203A至步骤203B是以目标歌曲的录制页面中提供有智能伴唱选项为例，对终端播放目标歌曲的伴奏音频和原唱音频的过程进行说明的。在其他实施例中，该智能伴唱选项还可以由其他任意页面提供，例如，该智能伴唱选项可以由上述歌曲搜索页面提供，也可以由上述歌曲功能页面提供，本发明实施例在此对提供该智能伴唱选项的页面不做限定。

204、在终端对该目标歌曲的伴奏音频播放的过程中，终端实时采集该目标歌曲的用户音频数据。

在本发明实施例中，终端实时采集该目标歌曲的用户音频数据的过程可以包括以下步骤204A至步骤204D：

204A：终端确定目标时长。

具体地，终端可以基于该目标歌曲的原唱音频，获取该原唱音频中每个原唱音频帧的时长，终端可以将该每个原唱音频帧的时长，确定为该目标时长。

204B：当终端检测到对该目标歌曲的预设采集起始点时，终端根据该目标时长采集各个用户音频帧。

其中，该预设采集起始点即为终端上该目标歌曲对应的播放时间轴上的时间点。例如，该预设采集起始点可以为终端播放该目标歌曲的伴奏音频的时间点，当然，该预设采集起始点也可以为终端开始播放该目标歌曲的原唱音频的时间点，避免了终端在播放该目标歌曲的伴奏音频时，采集到与该目标歌曲不相关的音频数据，大大提高了终端采集得到的用户音频数据的质量。

具体地，终端可以在该目标歌曲对应的播放时间轴上，预先选定第一时间点作为该预设采集起始点，终端可以在该第一时间点处设置第一标记，在终端对该目标歌曲的伴奏音频进行播放的过程中，终端可以在检测到该第一标记时，或者，在检测到该第一标记之后的预设时长内开启麦克风，终端可以基于该麦克风，根据目标时长采集用户演唱该目标歌曲的各个用户音频帧，并对该各个用户音频帧进行编码、流化和封装后得到音频流，以实现终端对该用户音频数据的采集。其中，终端可以通过预设的录音类对该各个用户音频帧进行采集，该录音类可以为AudioRecord录音类。

204C：终端从预设采集起始点开始，将获取到的每个用户音频帧都打上第一时间戳。

其中，该第一时间戳用于表示该每个用户音频帧的时间信息，后续终端可以基于该第一时间戳，确定该用户音频数据的各个用户音频帧的播放顺序。该每个用户音频帧所携带的第一时间戳，与该预设采集起始点之后的该目标歌曲的每个原唱音频帧或者每个伴奏音频帧所携带的第二时间戳相对应，该伴奏音频帧即为上述伴奏音频中的音频帧。

204D：当终端检测到对该目标歌曲的预设采集结束点时，终端结束对用户音频帧的采集。

其中，该预设采集结束点也为终端上该目标歌曲对应的播放时间轴上的时间点。例如，该预设采集结束点可以为终端结束播放该目标歌曲的伴奏音频的时间点，当然，该预设采集结束点也可以为终端结束播放该目标歌曲的原唱音频的时间点，本发明实施例在此对该预设采集结束点不做具体限定。

具体地，终端可以在该目标歌曲对应的播放时间轴上，预先选定第二时间点作为该预设采集结束点，终端可以在该第二时间点处设置第二标记，在终端对该目标歌曲的伴奏音频播放的过程中，终端可以在检测到该第二标记时，或者，在检测到该第二标记之后的预设时长内关闭麦克风，以结束采集该目标歌曲的用户音频帧。

进一步的，该步骤204可以应用于对目标歌曲的录制场景中，在该录制场景中，终端可以将采集得到的该目标歌曲的各个用户音频帧依次进行拼接，以实现录制得到用户音频数据的目的。当然，终端也可以在采集得到各个用户音频帧的过程中，实时对各个用户音频帧进行拼接，本发明实施例在此不做限定。

205、终端在采集该目标歌曲的用户音频数据的过程中，实时获取该用户音频数据中的用户音量。

具体地，终端在预设采集起始点之后，对每个用户音频帧进行采集的过程中，终端实时获取每个用户音频帧中的用户音量的大小。

206、当该用户音量低于预设条件时，播放该目标歌曲的原唱音频。

在本发明实施例中，该预设条件可以为终端所获取的较小音量阈值，基于上述步骤203中获取到的智能伴唱指令，终端可以开启智能伴唱模式，在该智能伴唱模式下，当终端每获取到一个用户音频帧中的用户音量低于预设条件时，终端可以播放与该一个用户音频帧对应的该目标歌曲的原唱音频帧。

进一步的，当该用户音量低于预设条件时，终端可以采用淡入的方式，播放该目标歌曲的原唱音频。也即是，当终端获取到用户音量低于预设条件时，终端可以将该目标歌曲的原唱音频逐渐调大，使得终端可以从无到有地逐渐对该原唱音频进行播放，避免了终端突然播放该原唱音频，提高了终端的播放效果。

此外，当该用户音量高于或者等于该预设条件时，终端可以采用淡出的方式，结束对该目标歌曲的原唱音频的播放。该淡出的方式指的是终端将音频的播放音量逐渐调小，使得终端可以从有到无地逐渐结束对音频的播放，避免了终端突然结束播放音频，提高了终端的播放效果。

207、当该用户音频数据中的用户音量降低且大于第一预设阈值时，终端实时将该原唱音频的播放音量调大，该用户音量与该原唱音频的播放音量之和为第二预设阈值。

其中，该第一预设阈值为终端预设的较小音量阈值，该第二预设阈值为终端在对该目标歌曲的用户音频数据进行采集的过程中，该用户音频数据中的用户音量与该原唱音频的播放音量一共所能达到的最大音量，该第二预设阈值可以为终端所设置的固定音量阈值，当然，该第二预设阈值也可以与该目标歌曲的伴奏音频的播放音量相同，该第二预设阈值也可以为用户在终端上所设置的音量阈值，本发明实施例在此对该第二预设阈值不做具体限定。

具体地，以终端从预设采集起始点之后，获取到前两个用户音频帧中的用户音量时，对前两个原唱音频帧的播放音量进行调整的过程为例，终端可以设置获取到的第一个用户音频帧中的用户音量为第一预设音量，当该第一预设音量大于第一预设阈值时，终端可以将该原唱音频的初始音量作为该第一个原唱音频帧的播放音量，当该第二个用户音频帧中的用户音量低于该第一预设音量，且大于第一预设阈值时，终端将第二个原唱音频帧的播放音量调大，且，使得该第二个原唱音频帧的播放音量与该第二个用户音频帧中的用户音量之和为第二预设阈值。

以此类推，只要终端检测到当前用户音频帧中的当前用户音量低于上一个用户音频帧中的用户音量，且该当前用户音量大于该第一预设阈值时，终端就可以直接将当前原唱音频帧的播放音量调大为第二预设阈值与当前用户音量之差。

进一步的，终端还可以采用淡入的方式将该原唱音频的播放音量调大为该第二预设阈值与该当前用户音量之差，避免了终端突然将该原唱音频的播放音量调大至该第二预设阈值与该当前用户音量之差，提高了终端的播放效果。

更进一步的，在终端对原唱音频进行录制，并将采集到的用户音频数据与对应的原唱音频以及伴唱音频实时合并成音频帧的场景中，终端可以采用与上述步骤207同理的过程，根据用户音频数据中的用户音量，在合并过程中，对终端存储的原唱音频对应的音量进行调节。例如，终端在实时合并得到前两个音频帧的过程中，可以通过以下步骤207A至步骤207C，将该原唱音频对应的音量调大：

207A：终端在开始播放该目标歌曲的伴奏音频时，可以获取第一预设音量，将该目标歌曲的伴奏音频对应的音量设置成第一预设音量。

其中，该第一预设音量可以为在终端播放该目标歌曲之前，用户通过终端上该目标歌曲的录制页面为该伴奏音频所设置的音量。当然，该第一预设音量也可以为终端所预设的固定音量，本发明实施例在此不做具体限定。

207B：当终端在预设采集起始点之后获得第一个用户音频帧时，终端基于该第一个用户音频帧和该预设采集起始点之后的第一个伴奏音频帧和第一个原唱音频帧合成第一个音频帧，终端在合成该第一个音频帧的过程中，终端将该第一个伴奏音频帧对应的音量保持在第一预设音量，终端设置该第一个原唱音频帧对应的音量为第二预设音量。

其中，该第二预设音量可以为在终端播放该目标歌曲之前，用户通过该录制页面为该原唱音频所设置的音量，当然，该第二预设音量也可以为终端所预设的固定音量，本发明实施例在此不做具体限定。

207C：当终端在该预设采集起始点之后获得第二个用户音频帧时，若该第二个用户音频帧对应的用户音量大于该第一个用户音频帧对应的用户音量，且该第二个用户音频帧对应的用户音量大于第一预设阈值，则终端在基于该第二个用户音频帧、第二个伴奏音频帧和第二个原唱音频帧合成第二个音频帧的过程中，终端直接将该第二个原唱音频帧对应的音量调大。

上述步骤207是当终端获取到用户音量降低且大于第一预设阈值时，终端根据该用户音量实时调大原唱音频的播放音量的过程，通过上述对原唱音频的播放音量调大的过程，可以使得用户音量与原唱音频的播放音量相辅相成，进而使得用户音量与原唱音频的播放音量可以始终达到平衡状态，提升了播放效果。进一步的，提高了终端合并得到的音频数据的质量。

208、当该用户音量在预设时间段内持续低于该第一预设阈值时，终端实时将该原唱音频的播放音量调大至该第二预设阈值。

具体地，当终端所获取到的连续数目个用户音频帧中的用户音量都小于该第一预设阈值，且该连续数目个用户音频帧的时长之和大于或者等于该预设时间段的时长时，终端可以将与该连续数目个用户音频帧携带有相同时间戳的各个原唱音频帧的播放音量直接调大至该第二预设阈值。

例如，每个用户音频帧的时长为0.4秒，该预设时间段的时长为1秒，如果终端在预设采集起始点之后获取到的第二个用户音频帧与第三个用户音频帧中的用户音量都小于该第一预设阈值，则终端可以将该第二个用户音频帧与第三个用户音频帧分别对应的原唱音频帧的播放音量都直接调大到该第二预设阈值。

进一步的，当终端所获取到的连续数目个用户音频帧中的用户音量都小于该第一预设阈值，且该连续数目个用户音频帧的时长之和大于或者等于该预设时间段的时长时，终端可以将该各个原唱音频帧的播放音量逐渐调大至该第二预设阈值，使得原唱音频对应的音量达到淡入的效果。

更进一步的，当该用户音量在预设时间段内持续低于该第一预设阈值时，终端实时将该原唱音频的播放音量调大至该第二预设阈值的过程，也可以应用于终端对用户音频数据进行录制，并将用户音频数据与原唱音频以及伴奏音频进行实时合并的场景中，本发明实施例在此不做一一赘述。

上述步骤208是当终端获取到用户音量持续小于第一预设阈值时，将原唱音频的播放音量调大到第二预设阈值的过程，其中，当用户音量持续小于该第一预设阈值时，可以认为用户在持续时间内未演唱该目标歌曲，或者，用户在持续时间内演唱该目标歌曲的声音非常小，此时，终端将该原唱音频的播放音量调大至该第二预设阈值，使得终端播放目标歌曲的过程中，不会缺失部分人声的音量，提升了播放效果。进一步的，在终端对用户音频数据和原唱音频以及伴奏音频进行合并的场景中，提高了终端合并得到的音频数据的质量。

209、当该用户音频数据中的用户音量提高时，终端实时将该原唱音频的播放音量调小。

具体地，与上述步骤207中终端将原唱音频的播放音量调大的过程类似，当该用户音频数据中的当前用户音频帧中的当前用户音量大于上一个用户音频帧中的用户音量，且该当前用户音量小于第三预设阈值时，终端可以将与该当前用户音频帧携带相同时间戳的原唱音频帧的播放音量直接调小。其中，调小后的该原唱音频帧的播放音量与该当前用户音量之和可以为上述第二预设阈值。

进一步的，当该用户音频数据中的当前用户音频帧中的当前用户音量大于上一个用户音频帧中的用户音量，且该当前用户音量小于该第三预设阈值时，终端可以将与该当前用户音频帧携带相同时间戳的原唱音频帧的播放音量逐渐调小至第二预设阈值与当前用户音量之差，使得该原唱音频的播放音量达到淡出的效果。

此外，当该用户音频数据中的用户音量在预设时间段内持续大于第三预设阈值时，终端可以实时将该原唱音频的播放音量调小至第四预设阈值。

具体地，当终端所获取到的连续数目个用户音频帧中的用户音量都大于该第三预设阈值，且该连续数目个用户音频帧的时长之和大于或者等于该预设时间段的时长时，终端可以将与该连续数目个用户音频帧携带有相同时间戳的各个原唱音频帧的播放音量直接调小至该第四预设阈值。

例如，每个用户音频帧的时长为0.4秒，该预设时间段的时长为1秒，如果终端在预设采集起始点之后获取到的第二个用户音频帧与第三个用户音频帧中的用户音量都大于该第三预设阈值，则终端将该第二个用户音频帧与第三个用户音频帧分别对应的原唱音频帧的播放音量都直接调小到该第四预设阈值。

进一步的，当终端所获取到的连续数目个用户音频帧中的用户音量都大于该第三预设阈值，且该连续数目个用户音频帧的时长之和大于或者等于该预设时间段的时长时，终端可以将该各个原唱音频帧的播放音量逐渐调小至该第四预设阈值，使得原唱音频的播放音量达到淡出的效果。

更进一步的，当该用户音频数据中的用户音量提高时，终端实时将该原唱音频的播放音量调小的过程，在终端对用户音频数据进行录制，并将用户音频数据和伴奏音频以及原唱音频进行合并的场景中，终端可以采用与上述步骤209同理的过程，根据用户音频数据中的用户音量，在合并的过程中，对终端存储的原唱音频对应的音量进行调节，本发明实施例在此不做一一赘述。

上述步骤209是终端获取到的用户音量变大时，实时将原唱音频的播放音量调小的过程，该过程使得用户音量与原唱音频的播放音量能够相辅相成，提升了播放效果。进一步的，在终端对用户音频数据和伴奏音频以及原唱音频进行合并的场景中，避免了用户在终端播放最终合并得到音频数据时听到两种不同的人声，提高了音频质量。

需要说明的是，在终端对该原唱音频的播放音量进行调节的过程中，终端可以使得该目标歌曲的伴奏音频的播放音量始终保持在第一预设音量，当然，终端也可以根据用户音频数据中的用户音量，对该伴奏音频的播放音量进行相应调节，本发明实施例在此不做具体限定。

上述步骤207至步骤209为当终端获取到的用户音频数据中的用户音量发生变化时，终端可以基于不同用户音量对原唱音频的播放音量进行实时调节的过程。

在其他实施例中，当终端获取到的该用户音频数据中的用户音量不发生变化时，终端可以保持原唱音频的播放音量不变。

进一步的，在终端对用户音频数据、伴奏音频以及原唱音频进行合并的场景中，到哪该终端获取到的该用户音量不发生变化时，终端的合并过程可以如下：终端实时获取携带有第一时间戳的各个用户音频帧，终端基于每个用户音频帧所携带的第一时间戳，从终端获取到的该目标歌曲的伴奏音频和原唱音频中，实时确定携带有与第一时间戳相同的第二时间戳的伴奏音频帧和原唱音频帧，终端实时将携带有相同时间戳的每个用户音频帧和每个伴奏音频帧以及每个原唱音频帧进行解码并编码的过程，以将该具有相同时间戳的该用户音频帧和该伴奏音频帧以及原唱音频帧合并为同一音频帧。

上述步骤204至步骤209为终端采集目标歌曲的用户音频数据，并根据用户音频数据中的用户音量，对原唱音频的播放音量进行调节的过程，在终端对用户音频数据进行录制，并基于用户音频数据、伴奏音频以及对应的原唱音频片段进行合并的场景中，终端均可以采用与上述步骤204至步骤209同理的过程。在该场景中，终端最终可以输出目标音频数据，该目标音频数据由该用户音频数据和该目标歌曲的伴奏音频以及对应的原唱音频片段合并得到。

例如，终端最终输出目标音频数据的过程可以如下：基于上述将各个用户音频帧和对应的伴奏音频帧和原唱音频帧合并得到的各个音频帧，终端可以在获取该各个音频帧的过程中，实时将该各个音频帧进行拼接，得到目标音频数据。当然，终端也可以先获取到该各个音频帧，再根据该各个音频帧所对应的第一时间戳或者第二时间戳，对该各个音频帧依次进行拼接，得到该目标音频数据，本发明实施例在此对基于该各个音频帧得到该目标音频数据的过程不做限定。

本发明实施例通过用户音频数据中的用户音量，调节目标歌曲的原唱音频的播放音量，使得当用户音量降低时，该原唱音频的播放音量可以提高，当用户音量提高时，该原唱音频的播放音量可以降低，实现了用户音量与原唱音频的播放音量的相辅相成，提高了终端对目标歌曲进行播放的效果。进一步的，使得终端基于用户音频数据中的用户音量和原唱音频的播放音量，录制得到的音频数据中不会缺失人声的音频数据。更进一步的，在终端对用户音频数据进行录制，并基于录制得到的用户音频数据和终端存储的原唱音频片段以及伴奏音频合并得到目标音频数据的场景中，使得用户在演唱该目标歌曲的过程中即使出现不会唱的情况时，终端最终合并得到的音频数据中也不会缺失人声的音频数据，提高了合并后的音频数据的质量。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

图3是本发明实施例提供的一种音频数据处理装置的结构示意图。参见图3，该装置包括：播放模块301、获取模块302、调节模块303。

播放模块301，用于接收用户选择目标歌曲的指令，播放该目标歌曲的伴奏音频；

获取模块302，用于采集用户演唱该目标歌曲的用户音频数据，获取该用户音频数据中的用户音量；

调节模块303，用于当该用户音量低于预设条件时，播放该目标歌曲的原唱音频，随该用户音量降低，调大该目标歌曲的原唱音频的播放音量，随该用户音量的提高，调小该目标歌曲的原唱音频的播放音量。

在一些实施例中，该调节模块303用于：

当该用户音量在该预设时间段内持续大于该第三预设阈值时，将该原唱音频的播放音量调小至第四预设阈值。

在一些实施例中，该装置还包括：

执行模块，用于当接收到智能伴唱指令时，执行该用户音量的获取过程以及基于该用户音量的播放调整过程。

在一些实施例中，该装置还包括：

淡入淡出模块，用于在播放该目标歌曲的伴奏音频时，采用淡入淡出的方式播放该原唱音频。

在一些实施例中，该装置还包括：

合并模块，用于在对该伴奏音频和该用户音频数据进行合并的过程中，当该用户音频数据的任一片段的用户音量低于该预设条件，合并该伴奏音频、该用户音频数据以及该原唱音频中的对应片段。

需要说明的是：上述实施例提供的音频数据处理装置在音频数据处理时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将终端的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频数据处理装置与音频数据处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图4是本发明实施例提供的一种终端400的结构框图。该终端400可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端400还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端400包括有：处理器401和存储器402。

处理器401可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器401可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器401也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器401可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器401还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器402可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器402还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器402中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器401所执行以实现本发明中方法实施例提供的音频数据处理方法。

在一些实施例中，终端400还可选包括有：***设备接口403和至少一个***设备。处理器401、存储器402和***设备接口403之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口403相连。具体地，***设备包括：射频电路404、显示屏405、摄像头406、音频电路407、定位组件408和电源409中的至少一种。

***设备接口403可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器401和存储器402。在一些实施例中，处理器401、存储器402和***设备接口403被集成在同一芯片或电路板上；在一些其他实施例中，处理器401、存储器402和***设备接口403中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路404用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路404通过电磁信号与通信网络以及其他通信设备进行通信。射频电路404将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路404包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路404可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路404还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本发明对此不加以限定。

显示屏405用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏405是触摸显示屏时，显示屏405还具有采集在显示屏405的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器401进行处理。此时，显示屏405还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏405可以为一个，设置终端400的前面板；在另一些实施例中，显示屏405可以为至少两个，分别设置在终端400的不同表面或呈折叠设计；在再一些实施例中，显示屏405可以是柔性显示屏，设置在终端400的弯曲表面上或折叠面上。甚至，显示屏405还可以设置成非矩形的不规则图形，也即异形屏。显示屏405可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件406用于采集图像或视频。可选地，摄像头组件406包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件406还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路407可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器401进行处理，或者输入至射频电路404以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端400的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器401或射频电路404的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路407还可以包括耳机插孔。

定位组件408用于定位终端400的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件408可以是基于美国的GPS(GlobalPositioning System，全球定位***)、中国的北斗***、俄罗斯的格雷纳斯***或欧盟的伽利略***的定位组件。

电源409用于为终端400中的各个组件进行供电。电源409可以是交流电、直流电、一次性电池或可充电电池。当电源409包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端400还包括有一个或多个传感器410。该一个或多个传感器410包括但不限于：加速度传感器411、陀螺仪传感器412、压力传感器413、指纹传感器414、光学传感器415以及接近传感器416。

加速度传感器411可以检测以终端400建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器411可以用于检测重力加速度在三个坐标轴上的分量。处理器401可以根据加速度传感器411采集的重力加速度信号，控制显示屏405以横向视图或纵向视图进行用户界面的显示。加速度传感器411还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器412可以检测终端400的机体方向及转动角度，陀螺仪传感器412可以与加速度传感器411协同采集用户对终端400的3D动作。处理器401根据陀螺仪传感器412采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器413可以设置在终端400的侧边框和/或显示屏405的下层。当压力传感器413设置在终端400的侧边框时，可以检测用户对终端400的握持信号，由处理器401根据压力传感器413采集的握持信号进行左右手识别或快捷操作。当压力传感器413设置在显示屏405的下层时，由处理器401根据用户对显示屏405的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器414用于采集用户的指纹，由处理器401根据指纹传感器414采集到的指纹识别用户的身份，或者，由指纹传感器414根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器401授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器414可以被设置终端400的正面、背面或侧面。当终端400上设置有物理按键或厂商Logo时，指纹传感器414可以与物理按键或厂商Logo集成在一起。

光学传感器415用于采集环境光强度。在一个实施例中，处理器401可以根据光学传感器415采集的环境光强度，控制显示屏405的显示亮度。具体地，当环境光强度较高时，调高显示屏405的显示亮度；当环境光强度较低时，调低显示屏405的显示亮度。在另一个实施例中，处理器401还可以根据光学传感器415采集的环境光强度，动态调整摄像头组件406的拍摄参数。

接近传感器416，也称距离传感器，通常设置在终端400的前面板。接近传感器416用于采集用户与终端400的正面之间的距离。在一个实施例中，当接近传感器416检测到用户与终端400的正面之间的距离逐渐变小时，由处理器401控制显示屏405从亮屏状态切换为息屏状态；当接近传感器416检测到用户与终端400的正面之间的距离逐渐变大时，由处理器401控制显示屏405从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图4中示出的结构并不构成对终端400的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述实施例中音频数据处理方法。例如，该计算机可读存储介质可以是ROM(Read-Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory，只读光盘)、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，上述程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频数据处理方法，其特征在于，所述方法包括：

当所述用户音量低于预设条件时，播放所述目标歌曲的原唱音频，当所述用户音量降低且大于第一预设阈值时，调大所述目标歌曲的原唱音频的播放音量，当所述用户音量提高且小于第三预设阈值时，调小所述目标歌曲的原唱音频的播放音量，且使得所述用户音量与所述原唱音频的播放音量之和为第二预设阈值，所述预设条件为终端所获取的音量阈值；

2.根据权利要求1所述的方法，其特征在于，随所述用户音量降低，调大所述目标歌曲的原唱音频的播放音量包括：

3.根据权利要求1所述的方法，其特征在于，随所述用户音量的提高，调小所述目标歌曲的原唱音频的播放音量包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.一种音频数据处理装置，其特征在于，所述装置包括：

调节模块，用于当所述用户音量低于预设条件时，播放所述目标歌曲的原唱音频，当所述用户音量降低且大于第一预设阈值时，调大所述目标歌曲的原唱音频的播放音量，当所述用户音量提高且小于第三预设阈值时，调小所述目标歌曲的原唱音频的播放音量，且使得所述用户音量与所述原唱音频的播放音量之和为第二预设阈值，所述预设条件为终端所获取的音量阈值；

7.根据权利要求6所述的装置，其特征在于，所述调节模块用于：

8.根据权利要求6所述的装置，其特征在于，所述调节模块用于：

9.根据权利要求6所述的装置，其特征在于，所述装置还包括：

10.根据权利要求6所述的装置，其特征在于，所述装置还包括：

11.一种终端，其特征在于，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如权利要求1至权利要求5任一项所述的音频数据处理方法所执行的操作。

12.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至权利要求5任一项所述的音频数据处理方法所执行的操作。