CN111312297A

CN111312297A - 音频处理方法、装置、存储介质及电子设备

Info

Publication number: CN111312297A
Application number: CN202010093308.0A
Authority: CN
Inventors: 徐东
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2020-02-14
Filing date: 2020-02-14
Publication date: 2020-06-19
Anticipated expiration: 2040-02-14
Also published as: CN111312297B

Abstract

本申请公开了一种音频处理方法，包括：获取歌曲音频以及该歌曲音频对应的伴奏音频；若该歌曲音频和该伴奏音频的采样率不一致，则对该歌曲音频和该伴奏音频的采样率进行预设处理，以使该歌曲音频和该伴奏音频的采样率一致；对采样率一致的该歌曲音频和该伴奏音频进行音频特征检测，得到音频特征检测结果；提取该歌曲音频的第一音频指纹信息以及该伴奏音频的第二音频指纹信息，并对该第一音频指纹信息和该第二音频指纹信息进行匹配，得到音频指纹信息匹配结果；根据该音频特征检测结果和该音频指纹信息匹配结果，输出该歌曲音频和该伴奏音频的时间偏移值。本申请可以准确检测出完整歌曲和相应的伴奏之间的时间偏移值。

Description

音频处理方法、装置、存储介质及电子设备

技术领域

本申请属于音频技术领域，尤其涉及一种音频处理方法、装置、存储介质及电子设备。

背景技术

目前，用户可以利用诸如智能手机等终端设备提供的伴奏音频来录制自己演唱的歌曲。但是，如果该伴奏音频与完整的歌曲音频在时间上存在偏移，那么用户利用该伴奏音频录制的歌曲相对于完整的歌曲音频也将出现时间偏移，即如果同时播放用户录制的歌曲和完整歌曲的话，这二者在步调上会出现不同步的问题。相关技术中，无法准确地对完整歌曲和其相应的伴奏音频存在的时间偏移进行检测。

发明内容

本申请实施例提供一种音频处理方法、装置、存储介质及电子设备，可以有效检测出完整的歌曲音频和相应的伴奏音频存在的时间偏移值。

本申请实施例提供一种音频处理方法，包括：

获取歌曲音频以及所述歌曲音频对应的伴奏音频；

若所述歌曲音频和所述伴奏音频的采样率不一致，则对所述歌曲音频和所述伴奏音频的采样率进行预设处理，以使所述歌曲音频和所述伴奏音频的采样率一致；

对采样率一致的所述歌曲音频和所述伴奏音频进行音频特征检测，得到音频特征检测结果，所述音频特征检测包括播放时长差检测、音频帧功率差检测、端点静音时长差检测、鼓点同步数量检测中的至少一种；

提取所述歌曲音频的第一音频指纹信息以及所述伴奏音频的第二音频指纹信息，并对所述第一音频指纹信息和所述第二音频指纹信息进行匹配，得到音频指纹信息匹配结果；

根据所述音频特征检测结果和所述音频指纹信息匹配结果，输出所述歌曲音频和所述伴奏音频的时间偏移值。

本申请实施例提供一种音频处理装置，包括：

获取单元，用于获取歌曲音频以及所述歌曲音频对应的伴奏音频；

处理单元，用于若所述歌曲音频和所述伴奏音频的采样率不一致，则对所述歌曲音频和所述伴奏音频的采样率进行预设处理，以使所述歌曲音频和所述伴奏音频的采样率一致；

检测单元，用于对采样率一致的所述歌曲音频和所述伴奏音频进行音频特征检测，得到音频特征检测结果，所述音频特征检测包括播放时长差检测、音频帧功率差检测、端点静音时长差检测、鼓点同步数量检测中的至少一种；

匹配单元，用于提取所述歌曲音频的第一音频指纹信息以及所述伴奏音频的第二音频指纹信息，并对所述第一音频指纹信息和所述第二音频指纹信息进行匹配，得到音频指纹信息匹配结果；

判断单元，用于根据所述音频特征检测结果和所述音频指纹匹配结果，输出所述歌曲音频和所述伴奏音频的时间偏移值。

本申请实施例提供一种存储介质，其上存储有计算机程序，当所述计算机程序在计算机上执行时，使得所述计算机执行本申请实施例提供的音频处理方法中的流程。

本申请实施例还提供一种电子设备，包括存储器，处理器，所述处理器通过调用所述存储器中存储的计算机程序，用于执行本申请实施例提供的音频处理方法中的流程。

本申请实施例中，由于对歌曲音频和伴奏音频进行的包括播放时长差检测、音频帧功率差检测、端点静音时长差检测、鼓点同步数量检测中的至少一种在内的音频特征检测结果，以及音频指纹信息匹配结果，均可以表示歌曲音频和伴奏音频存在时间偏移的可能性大小。并且，通过音频指纹信息匹配结果电子设备可以输出该歌曲音频和该伴奏音频的具体的时间偏移值。因此，电子设备可以通过音频特征检测以及音频指纹信息匹配来有效地判定歌曲音频和伴奏音频是否存在时间偏移，以及具体的时间偏移值。

附图说明

下面结合附图，通过对本申请的具体实施方式详细描述，将使本申请的技术方案及其有益效果显而易见。

图1是本申请实施例提供的音频处理方法的流程示意图。

图2A是本申请实施例提供的音频处理方法的另一流程示意图。

图2B是本申请实施例提供的电子设备对歌曲和伴奏进行音频帧功率差检测的流程示意图。

图2C是本申请实施例提供的电子设备对歌曲和伴奏进行端点静音时长差检测的流程示意图。

图2D为本申请实施例提供的电子设备对歌曲和伴奏进行鼓点同步数量检测的流程示意图。

图3A至图3D是本申请实施例提供的音频处理方法的场景示意图。

图4是本申请实施例提供的音频处理装置的结构示意图。

图5是本申请实施例提供的电子设备的结构示意图。

图6是本申请实施例提供的电子设备的另一结构示意图。

具体实施方式

请参照图示，其中相同的组件符号代表相同的组件，本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例，其不应被视为限制本申请未在此详述的其它具体实施例。

可以理解的是，本申请实施例的执行主体可以是诸如智能手机或平板电脑等的电子设备。

请参阅图1，图1是本申请实施例提供的音频处理方法的流程示意图，流程可以包括：

101、获取歌曲音频以及该歌曲音频对应的伴奏音频。

伴奏是指伴随衬托歌曲的器乐演奏。一般的，将完整歌曲(或称之为原唱歌曲)中歌手的人声部分消除后得到的音乐即为伴奏。相关技术中可以利用人声分离等消音处理技术对完整歌曲进行消音处理，从而得到歌曲消音后的伴奏。

用户可以利用诸如智能手机等终端设备提供的伴奏音频来录制自己演唱的歌曲。但是，如果该伴奏音频与完整的歌曲音频在时间上存在偏移，那么用户利用该伴奏音频录制的歌曲相对于完整的歌曲音频也将出现时间偏移，即如果同时播放用户录制的歌曲和完整歌曲的话，这二者在步调上会出现不同步的问题。例如，在完整歌曲中播放到第10秒出现歌词A和伴奏B，但在用户利用伴奏音频录制的歌曲中直到第12秒才出现歌词A和伴奏B，即二者存在时间偏移。又如，完整歌曲的播放时长一共有5分钟，但伴奏音频的播放时长只有4分30秒(例如伴奏音频是从完整歌曲中截取的一部分)，那么利用该伴奏音频录制的歌曲也将只有4份30秒。显然这将导致用户利用该伴奏音频录制的歌曲与完整歌曲在步调上不同步，即二者存在时间偏移。然而，相关技术中，无法准确地对完整歌曲和其相应的伴奏音频存在的时间偏移进行检测。

在本申请实施例的101中，比如，电子设备可以先获取需要进行时间偏移检测的歌曲音频以及该歌曲音频对应的伴奏音频。可以理解的是，该歌曲音频可以为包含歌手的人声和伴奏的音频(即完整歌曲)，该伴奏音频为不包含歌手人声的音频，例如该伴奏音频为将完整歌曲中歌手的人声部分消除后得到的音频。

在本申请实施例中，歌曲音频和伴奏音频的格式、大小、声道数、码率、采样率等不限。例如，歌曲音频和伴奏音频的格式可以是mp3、flac、wav、ogg等格式中的任意一种。歌曲音频和伴奏音频可以是单声道、双声道或多声道等。歌曲音频和伴奏音频的码率可以是128kpbs或256kpbs等。歌曲音频和伴奏音频的采样率可以是16kHz、44.1kHz或48kHz等等。

在获取到歌曲音频和对应的伴奏音频后，电子设备可以检测该歌曲音频和该伴奏音频的采样率是否一致。

如果检测到该歌曲音频和该伴奏音频的采样率不一致，那么可以进入102中。

如果检测到该歌曲音频和该伴奏音频的采样率一致，那么可以直接进入103中。

102、若歌曲音频和伴奏音频的采样率不一致，则对该歌曲音频和该伴奏音频的采样率进行预设处理，以使该歌曲音频和该伴奏音频的采样率一致。

比如，电子设备检测到歌曲音频的采样率和伴奏音频的采样率不一致，例如歌曲音频的采样率为48KHz，而伴奏音频的采样率为44.1KHz。在这种情况下，电子设备可以对歌曲音频和伴奏音频的采样率进行预设处理，以使该歌曲音频和该伴奏音频的采样率一致。

在一种实施方式中，电子设备可以将歌曲音频和伴奏音频中采样率较高的音频进行降采样，从而使得歌曲音频和伴奏音频的采样率一致。例如，将歌曲音频的采样率由48KHz降采样到44.1KHz等。在另一种实施方式中，电子设备还可以将歌曲音频和伴奏音频的采样率统一降采样到一个较低的采样率，从而使歌曲音频和伴奏音频的采样率一致。例如，将歌曲音频和伴奏音频的采样率统一降采样到16KHz。即，将歌曲音频的采样率由48KHz降采样到16KHz，并将伴奏音频的采样率由44.1KHz降采样到16KHz等。

在对歌曲音频和伴奏音频的采样率进行预设处理使这二者的采样率一致后，可以进入103中。

需要说明的是，本申请实施例中，之所以要求歌曲音频和伴奏音频的采样率一致，是因为在歌曲音频和伴奏音频的采样率一致的情况下，有利于在后续的103和104流程中进行音频特征检测和音频指纹信息匹配。

103、对采样率一致的歌曲音频和伴奏音频进行音频特征检测，得到音频特征检测结果，该音频特征检测包括播放时长差检测、音频帧功率差检测、端点静音时长差检测、鼓点同步数量检测中的至少一种。

比如，电子设备可以对采样率一致的歌曲音频和伴奏音频进行音频特征检测，从而得到对应的音频特征检测结果。其中，该音频特征检测包括播放时长差检测、音频帧功率差检测、端点静音时长差检测、鼓点同步数量检测中的至少一种。

例如，电子设备对歌曲音频和伴奏音频进行的音频特征检测可以为播放时长差检测。或者，电子设备对歌曲音频和伴奏音频进行的音频特征检测可以为端点静音时长差检测。

又如，电子设备对歌曲音频和伴奏音频进行的音频特征检测可以包括播放时长差检测和音频帧功率差检测。或者，电子设备对歌曲音频和伴奏音频进行的音频特征检测可以包括播放时长差检测和端点静音时长差检测。

又如，电子设备对歌曲音频和伴奏音频进行的音频特征检测可以包括播放时长差检测、音频帧功率差检测以及端点静音时长差检测。或者，电子设备对歌曲音频和伴奏音频进行的音频特征检测可以包括播放时长差检测、端点静音时长差检测和鼓点同步数量检测。

再如，电子设备对歌曲音频和伴奏音频进行的音频特征检测可以包括播放时长差检测、音频帧功率差检测、端点静音时长差检测、鼓点同步数量检测，等等。

需要说明的是，播放时长差检测是指计算歌曲音频的播放时长与伴奏音频的播放时长的差值，并检测该差值是否为0。若该差值为0，则表明该歌曲音频和该伴奏音频的播放时长相等。若该差值不为0，则表明该歌曲音频和该伴奏音频的播放时长不相等。当播放时长不等时，该歌曲音频和该伴奏音频很有可能存在时间偏移。

音频帧功率差检测是指检测歌曲音频播放到静音或人耳听不到歌曲声音时，伴奏音频是否出现声音。若歌曲音频播放到静音或人耳听不到歌曲声音时伴奏音频出现声音，则歌曲音频和伴奏音频很有可能存在时间偏移。

端点静音时长差检测是指比较歌曲音频和伴奏音频在音频开始部分的静音时长的差值，以及歌曲音频和伴奏音频在音频结尾部分的静音时长的差值。一般，音频开始部分会有一段静音，这段静音是音频从没有声音到发出人耳能够听到声音的过程。音频结尾部分也会有一段静音，这段静音是音频结束前从仍然有人耳能够听到的声音到没有声音的过程。例如，对于歌曲音频而言，其音频开始部分的静音时长为T1，音频结尾部分的静音时长为T2。对于伴奏音频而言，其音频开始部分的静音时长为T3，音频结尾部分的静音时长为T4。那么，电子设备在进行端点静音时长差检测时可以检测T1和T3是否相等，以及检测T2和T4是否相等。若T1和T3不相等或者T2和T4不相等，那么表示歌曲音频和伴奏音频很有可能存在时间偏移。

鼓点同步数量检测是指检测歌曲音频和伴奏音频在相同播放时间内的能量密集(鼓点)的频率是否相同。比如，歌曲音频在某一时间内的能量密集的频率包括500Hz、600Hz、700Hz、1000Hz和2000Hz。伴奏音频在相同播放时间内的能量密集的频率包括500Hz、600Hz、700Hz。那么，表明歌曲音频和伴奏音频在该相同播放时间内的能量密集的频率包含500Hz、600Hz、700Hz，即有3个频率是相同的。相同频率的数量越少可以表示歌曲音频和伴奏音频越有可能存在时间偏移。相同频率的数量越多可以表示歌曲音频和伴奏音频越不可能存在时间偏移。

需要说明的是，电子设备在对采样率一致的歌曲音频和伴奏音频进行各项音频特征检测时，其输入相同，均为歌曲音频和伴奏音频。

104、提取歌曲音频的第一音频指纹信息以及伴奏音频的第二音频指纹信息，并对该第一音频指纹信息和该第二音频指纹信息进行匹配，得到音频指纹信息匹配结果。

比如，电子设备可以提取歌曲音频的第一音频指纹信息以及伴奏音频的第二音频指纹信息，并对该第一音频指纹信息和该第二音频指纹信息进行匹配，从而得到对应的音频指纹信息匹配结果。

需要说明的是，本实施例中的音频指纹信息不仅可以包括音频指纹，还可以包括其他信息，例如还可以包括音频指纹所对应的哈希值等与音频指纹有关的信息。

可以理解的是，通过提取歌曲音频的音频指纹信息和伴奏音频的音频指纹信息并将这二者进行匹配，得到的匹配结果可以用于表示歌曲音频和伴奏音频的音频之间的匹配度。匹配度越小则歌曲音频和伴奏音频存在时间偏移的可能性越大。并且，通过歌曲音频对应的第一音频指纹信息和伴奏音频的第二音频指纹信息之间的匹配度可以计算得到该歌曲音频和该伴奏音频的时间偏移值。

105、根据音频特征检测结果和音频指纹信息匹配结果，输出歌曲音频和伴奏音频的时间偏移值。

比如，在得到音频特征检测结果和音频指纹信息匹配结果后，电子设备可以根据这二者来判断歌曲和伴奏是否存在时间偏移，并且通过音频指纹信息匹配结果电子设备可以输出该歌曲音频和该伴奏音频的具体的时间偏移值。可以理解的是，由于音频特征检测中的各项检测以及音频指纹信息匹配结果均可以表示歌曲和伴奏存在时间偏移的可能性，因此根据音频特征检测和音频指纹匹配检测的结果可以判定歌曲音频和伴奏音频是否存在时间偏移。

例如，对歌曲音频和伴奏音频进行的播放时长差检测表示歌曲音频和伴奏音频的播放时长不等。对歌曲音频和伴奏音频进行的音频帧功率差检测表示在歌曲音频的多个静音处，相同播放时间的伴奏音频却有声音。对歌曲音频和伴奏音频进行的端点静音时长差检测表示歌曲音频和伴奏音频的开始部分和结尾部分的静音时长均不相等。对歌曲音频和伴奏音频进行的鼓点同步数量检测表示歌曲音频和伴奏音频在相同播放时间内的能量密集的频率很少相同。并且，歌曲音频的音频指纹信息和伴奏音频的音频指纹信息的匹配度较低。基于上述检测结果，电子设备可以判定歌曲音频和伴奏音频存在时间偏移。此外，根据音频指纹信息匹配结果电子设备可以输出该歌曲音频和该伴奏音频的具体的时间偏移值。

又如，对歌曲音频和伴奏音频进行的播放时长差检测表示歌曲音频和伴奏音频的播放时长相等。对歌曲音频和伴奏音频进行的音频帧功率差检测表示在歌曲音频的多个静音处，相同播放时间的伴奏音频没有声音。对歌曲音频和伴奏音频进行的端点静音时长差检测表示歌曲音频和伴奏音频的开始部分和结尾部分的静音时长均相等。对歌曲音频和伴奏音频进行的鼓点同步数量检测表示歌曲音频和伴奏音频在相同播放时间内的能量密集的频率大部分相同。并且，歌曲音频的音频指纹信息和伴奏音频的音频指纹信息的匹配度很高。基于上述检测结果，电子设备可以判定歌曲音频和伴奏音频不存在时间偏移。即，该歌曲音频和该伴奏音频的时间偏移值为0。

可以理解的是，本申请实施例中，由于对歌曲音频和伴奏音频进行的包括播放时长差检测、音频帧功率差检测、端点静音时长差检测、鼓点同步数量检测中的至少一种在内的音频特征检测结果，以及音频指纹信息匹配结果，均可以表示歌曲音频和伴奏音频存在时间偏移的可能性大小。并且，通过音频指纹信息匹配结果电子设备可以输出该歌曲音频和该伴奏音频的具体的时间偏移值。因此，电子设备可以通过音频特征检测以及音频指纹信息匹配来有效地判定歌曲音频和伴奏音频是否存在时间偏移，以及具体的时间偏移值。

请参阅图2A，图2A为本申请实施例提供的音频处理方法的另一流程示意图，流程可以包括：

201、电子设备获取歌曲音频以及该歌曲音频对应的伴奏音频。

比如，电子设备可以先获取需要进行时间偏移检测的歌曲音频以及该歌曲音频对应的伴奏音频。可以理解的是，该歌曲音频可以为包含歌手的人声和伴奏的音频(即完整歌曲)，该伴奏音频为不包含歌手人声的音频，例如该伴奏音频为将完整歌曲中歌手的人声部分消除后得到的音频。

如果检测到该歌曲音频和该伴奏音频的采样率不一致，那么可以进入202中。

如果检测到该歌曲音频和该伴奏音频的采样率一致，那么可以直接进入203中。

202、若歌曲音频和伴奏音频的采样率不一致，则电子设备对该歌曲音频和该伴奏音频的采样率进行预设处理，以使该歌曲音频和该伴奏音频的采样率一致。

比如，电子设备检测到歌曲音频的采样率和伴奏音频的采样率不一致，例如歌曲音频的采样率为48KHz，而伴奏音频的采样率为44.1KHz。在这种情况下，电子设备可以对歌曲音频和伴奏音频的采样率进行预设的重采样处理，以使该歌曲音频和该伴奏音频的采样率一致。

在一种实施方式中，电子设备可以将歌曲音频和伴奏音频中采样率较高的音频进行降采样，从而使得歌曲音频和伴奏音频的采样率一致。例如，将歌曲的采样率由48KHz降采样到44.1KHz(即伴奏音频的采样率)等。在另一种实施方式中，电子设备还可以将歌曲音频和伴奏音频的采样率统一降采样到一个较低的采样率，从而使歌曲音频和伴奏音频的采样率一致。例如，将歌曲音频和伴奏音频的采样率统一降采样到16KHz。即，将歌曲音频的采样率由48KHz降采样到16KHz，并将伴奏音频的采样率由44.1KHz降采样到16KHz等。

在对歌曲音频和伴奏音频的采样率进行预设处理从而使这二者的采样率一致后，可以进入203中。

需要说明的是，本申请实施例中，之所以要求歌曲音频和伴奏音频的采样率一致，是因为在歌曲音频和伴奏音频的采样率一致的情况下，有利于在后续的流程中对该歌曲音频和伴奏音频进行音频特征检测和音频指纹信息匹配。

203、电子设备对采样率一致的歌曲音频和伴奏音频进行播放时长差检测，得到对应的结果。

比如，在获取到采样率一致的歌曲音频和伴奏音频之后，电子设备可以对该采样率一致的歌曲音频和伴奏音频进行播放时长差检测，从而得到对应的检测结果。

播放时长差检测是指计算歌曲音频的播放时长与伴奏音频的播放时长的差值，并检测该差值是否为0。若该差值为0，则表明该歌曲音频和该伴奏音频的播放时长相等。若该差值不为0，则表明该歌曲音频和该伴奏音频的播放时长不相等。当播放时长不等时，表明该歌曲音频和该伴奏音频很有可能存在时间偏移。例如，歌曲音频的播放时长为5分钟，而伴奏音频的播放时长只有4分30秒，如该伴奏音频是从完整歌曲中截取出的一部分并消除人声后得到的。在这种情况下，歌曲音频和伴奏音频很可能存在时间偏移。

204、电子设备对采样率一致的歌曲音频和伴奏音频进行音频帧功率差检测，得到对应的结果。

比如，在获取到采样率一致的歌曲音频和伴奏音频之后，电子设备可以对该采样率一致的歌曲音频和伴奏音频进行音频帧功率差检测，从而得到对应的检测结果。

在一种实施方式中，请参阅图2B，图2B为本实施例提供的电子设备对歌曲音频和伴奏音频进行音频帧功率差检测的流程示意图，流程可以包括：

2041、按照播放时间先后的顺序，电子设备将歌曲音频划分为多个歌曲音频帧，得到歌曲音频帧序列，并将伴奏音频划分为多个伴奏音频帧，得到伴奏音频帧序列。

比如，在音频帧功率差检测时，电子设备可以先按照播放时间先后的顺序，将歌曲音频划分为多个歌曲音频帧，得到歌曲音频帧序列，并将伴奏音频划分为多个伴奏音频帧，得到伴奏音频帧序列。例如，电子设备得到的歌曲音频帧序列为G₁，G₂，G₃，……，G_n-1，G_n。其中，G₁为歌曲音频的第一个音频帧，G₂为歌曲音频的第二个音频帧，……，G_n为歌曲音频的第n个音频帧。伴奏音频帧序列为B₁，B₂，B₃，……，B_m-1，B_m。其中，B₁为伴奏音频的第一个音频帧，B₂为伴奏音频的第二个音频帧，……，B_m为伴奏音频的第m个音频帧。

在一种实施方式中，前后两个音频帧可以具有一定的重叠率。例如，前后两个音频帧的重叠率为50％或者25％或者75％等等。以具有重叠率50％为例，前后两个音频帧具有50％的重叠率是指前一个音频帧的后半部分与后一个音频帧的前半部分一样。以具有重叠率25％为例，前后两个音频帧具有25％的重叠率是指前一个音频帧的后四分之一部分与后一个音频帧的前四分之一部分一样。

2042、电子设备获取每一歌曲音频帧的功率值，以及每一伴奏音频帧的功率值。

2043、电子设备依次比较歌曲音频帧序列和伴奏音频帧序列中位于相同位次的音频帧的功率值。

2044、在功率值比较过程中，若检测到相同位次的歌曲音频帧的功率值小于预设第一阈值且伴奏音频帧的功率值大于预设第二阈值，则电子设备记录对应的位次信息，其中，预设第二阈值大于预设第一阈值，音频特征检测结果包含该位次信息。

比如，2042、2043、2044可以包括：

在获取到歌曲音频帧序列和伴奏音频帧序列后，电子设备可以获取歌曲音频帧序列中的每一歌曲音频帧的功率值，并获取伴奏音频帧序列中的每一伴奏音频帧的功率值。

之后，电子设备可以依次比较歌曲音频帧序列和伴奏音频帧序列中位于相同位次的音频帧的功率值大小。即，电子设备可以依次比较第一个歌曲音频帧G₁和第一个伴奏音频帧B₁的功率值，接着电子设备再比较第二个歌曲音频帧G₂和第二个伴奏音频帧B₂的功率值，再比较第三个歌曲音频帧G₃和第三个伴奏音频帧B₃的功率值，以此类推。

其中，在功率值比较过程中，如果检测到相同位次的歌曲音频帧的功率值小于预设第一阈值并且伴奏音频帧的功率值大于预设第二阈值，那么，电子设备可以记录对应的位次信息。其中，当歌曲音频帧的功率值小于预设第一阈值时，可以认为该歌曲音频帧对应的音频为静音部分或者人耳听不到的声音。当伴奏音频帧的功率值大于预设第二阈值时，可以认为该伴奏音频帧对应的音频为人耳能够听到的声音。也即，当检测到相同位次的歌曲音频帧的功率值小于预设第一阈值并且伴奏音频帧的功率值大于预设第二阈值时，可以认为此时(即相同的播放时间或者说模拟在相同的播放时间时)歌曲部分为静音或者人耳听不到声音但伴奏为人耳能够听到的声音。在这种情况下，电子设备可以记录对应的位次信息。例如，电子设备检测到第1000个歌曲音频帧G₁₀₀₀的功率值小于预设第一阈值并且第1000个伴奏音频帧B₁₀₀₀的功率值大于预设第二阈值，那么电子设备可以记录1000这一位次信息。

在记录得到一个或多个位次信息后，电子设备可以得到音频帧功率差检测对应的检测结果。其中，该对应的检测结果在后续可以作为音频特征检测结果的一部分。

在一种实施方式中，电子设备可以通过如下方式来计算音频帧的功率值。例如，电子设备可以先获取音频帧的能量值，再将该能量值转换为对应的功率值。

205、电子设备对采样率一致的歌曲音频和伴奏音频进行端点静音时长差检测，得到对应的结果。

比如，在获取到采样率一致的歌曲音频和伴奏音频之后，电子设备可以对该采样率一致的歌曲音频和伴奏音频进行端点静音时长差检测，从而得到对应的检测结果。

端点静音时长差检测是指比较歌曲音频和伴奏音频在音频开始部分的静音时长的差值，以及歌曲音频和伴奏音频在音频结尾部分的静音时长的差值。一般，音频开始部分会有一段静音，这段静音是音频从没有声音到发出人耳能够听到声音的过程。音频结尾部分也会有一段静音，这段静音是音频结束前从仍然有人耳能够听到的声音到没有声音的过程。

在一种实施方式中，请参阅图2C，图2C为本实施例提供的电子设备进行端点静音时长差检测的流程示意图，流程可以包括：

2051、电子设备获取歌曲音频开始部分的第一静音时长，以及歌曲音频结尾部分的第二静音时长。

比如，电子设备可以先获取歌曲音频开始部分的静音时长，即第一静音时长，以及结尾部分的静音时长，即第二静音时长。

在一种实施方式中，电子设备可以预先设定一个音频能量阈值，当歌曲音频开始部分的音频的能量值从0或者一个很小的数值增大到该音频能量阈值时，可以认为该增大过程所对应的时长为静音时长。即，第一静音时长为音频开始部分从人耳听不到声音到第一次能听到声音这一过程的时长。而第二静音时长则是音频结尾部分从最后一次仍然有人耳能够听到的声音到没有声音这一过程的时长。

2052、电子设备获取伴奏音频开始部分的第三静音时长，以及伴奏音频结尾部分的第四静音时长。

比如，电子设备可以获取伴奏音频开始部分的静音时长，即第三静音时长，以及结尾部分的静音时长，即第四静音时长。

2053、电子设备获取第一静音时长与第三静音时长的第一目标时长差，以及第二静音时长和第四静音时长的第二目标时长差，端点静音时长差检测结果包含第一目标时长差和第二目标时长差。

比如，在得到第一静音时长、第二静音时长、第三静音时长和第四静音时长后，电子设备可以获取第一静音时长与第三静音时长的时长差，即第一目标时长差，并获取第二静音时长与第四静音时长的时长差，即第二目标时长差。

之后，电子设备可以保存该第一目标时长差和第二目标时长差，并根据该第一目标时长差和第二目标时长差得到端点静音时长差的检测结果。

其中，若第一目标时长差不为零或者第二目标时长差不为零，那么表示歌曲和伴奏很有可能存在时间偏移。

上述端点静音时长差的检测结果可以作为音频特征检测结果的一部分。

206、电子设备对采样率一致的歌曲音频和伴奏音频进行鼓点同步数量检测，得到对应的结果。

比如，在获取到采样率一致的歌曲音频和伴奏音频之后，电子设备可以对该采样率一致的歌曲音频和伴奏音频进行鼓点同步数量检测，从而得到对应的检测结果。

鼓点同步数量检测是指检测歌曲和伴奏在相同播放时间内的能量密集(鼓点)的频率是否相同。

在一种实施方式中，请参阅图2D，图2D为电子设备进行鼓点同步数量检测的流程示意图，流程可以包括：

2061、按照播放时间先后的顺序，电子设备将歌曲音频划分为多个歌曲音频帧，得到歌曲音频帧序列，并获取该歌曲音频帧序列中每一音频帧的频谱能量值。

2062、按照播放时间先后的顺序，电子设备将伴奏音频划分为多个伴奏音频帧，得到伴奏音频帧序列，并获取该伴奏音频帧序列中每一音频帧的频谱能量值。

比如，电子设备可以先按照播放时间先后的顺序，将歌曲音频划分为多个歌曲音频帧，得到歌曲音频帧序列。例如，电子设备得到的歌曲音频帧序列为G₁，G₂，G₃，……，G_n-1，G_n。其中，G₁为歌曲音频的第一个音频帧，G₂为歌曲音频的第二个音频帧，……，G_n为歌曲音频的第n个音频帧。之后，电子设备可以获取歌曲音频帧序列中每一音频帧的频谱能量值。

比如，电子设备可以按照播放时间先后的顺序，将伴奏音频划分为多个伴奏音频帧，得到伴奏音频帧序列。例如，伴奏音频帧序列为B₁，B₂，B₃，……，B_m-1，B_m。其中，B₁为伴奏音频的第一个音频帧，B₂为伴奏音频的第二个音频帧，……，B_m为伴奏音频的第m个音频帧。之后，电子设备可以获取伴奏音频帧序列中每一音频帧的频谱能量值。

2063、电子设备将歌曲音频帧序列中的后一音频帧与前一音频帧的频谱能量值相减，并记录频谱能量差值大于预设能量阈值的第一频率值。

2064、电子设备将伴奏音频帧序列中的后一音频帧与前一音频帧的频谱能量值相减，并记录频谱能量差值大于预设能量阈值的第二频率值。

2065、电子设备将依次得到的第一频率值和第二频率值进行比较，统计其中频率相同的个数并累计，并将累计得到的数值确定为鼓点同步数量检测结果。

比如，电子设备可以将歌曲音频帧序列中的后一个音频帧与前一个音频帧的频谱能量值相减，并记录频谱能量差值大于预设能量阈值的第一频率值，记为F₁。例如，预设阈值为10分贝。例如，音频帧G₂与音频帧G₁的频谱能量值相减后，可以获取到频谱能量差值大于10分贝的一个或多个频率值，这些频率值记为F₁。例如，F₁包括500Hz、600Hz、700Hz、1000Hz、2000Hz。即，相对于音频帧G1，音频帧G2在500Hz、600Hz、700Hz、1000Hz、2000Hz这些频率上的能量有较大增加(对应于频谱能量差值大于10分贝)。

并且，电子设备可以将伴奏音频帧序列中的后一个音频帧与前一个音频帧的频谱能量值相减，并得到频谱能量差值大于预设阈值的第一频率值，记为F₂。例如，预设阈值为10分贝。例如，音频帧B₂与音频帧B₁的频谱能量值相减后，可以获取到频谱能量差值大于10分贝的一个或多个频率值，这些频率值记为F₂。例如，F₂包括600Hz、700Hz、2000Hz、5000Hz。即，相对于音频帧B1，音频帧B2在600Hz、700Hz、2000Hz、5000Hz这些频率上的能量有较大增加(对应于频谱能量差值大于10分贝)。

比如，在得到对应于音频帧G₂和音频帧G₁的频谱相减后得到的第一频率值，以及对应于音频帧B₂和音频帧B₁的频谱相减后得到的第二频率值后，电子设备可以将得到的第一频率值和第二频率值进行比较，统计其中频率相同的个数并累计，并将累计得到的数值确定为鼓点同步数量检测结果。

例如，在获取到音频帧G₂与音频帧G₁的频谱能量值相减后对应得到的F₁(包括500Hz、600Hz、700Hz、1000Hz、2000Hz)，以及在获取到音频帧B₂与音频帧B₁的频谱能量值相减后对应得到的F₂(包括600Hz、700Hz、2000Hz、5000Hz)后，电子设备可以统计其中频率相同的个数并累计。例如，该F₁和F₂具有3个相同的频率值600Hz、700Hz、2000Hz。这表示在歌曲音频由音频帧G₁到G₂，伴奏音频由B₁到B₂的过程中，歌曲音频和伴奏音频在600Hz、700Hz、2000Hz这3个频率上的能量均有较大增加。累计的数值此时为3。

又如，音频帧G₃与音频G₂的频谱能量值相减后，可以获取到频谱能量差值大于10分贝的一个或多个频率值，这些频率值也被记为F₁。例如，F₁包括500Hz、600Hz、800Hz、1200Hz、2000Hz。即，相对于音频帧G₂，音频帧G₃在500Hz、600Hz、800Hz、1200Hz、2000Hz这些频率上的能量有较大增加(对应于频谱能量差值大于10分贝)。

音频帧B₃与音频B₂的频谱能量值相减后，可以获取到频谱能量差值大于10分贝的一个或多个频率值，这些频率值记为F₂。例如，F₂包括800Hz、1300Hz、1800Hz。即，相对于音频帧B₂，音频帧B₃在800Hz、1300Hz、1800Hz这些频率上的能量有较大增加(对应于频谱能量差值大于10分贝)。

在获取到音频帧G₃与音频帧G₂的频谱能量值相减后对应得到的F₁(包括500Hz、600Hz、800Hz、1200Hz、2000Hz)，以及在获取到音频帧B₃与音频帧B₂的频谱能量值相减后对应得到的F₂(包括800Hz、1300Hz、1800Hz)后，电子设备可以统计其中频率相同的个数并累计。例如，该F₁和F₂具有1个相同的频率值800Hz。这表示在歌曲音频由音频帧G₂到G₃，伴奏音频由B₂到B₃的过程中，歌曲音频和伴奏音频在8000Hz这个频率上的能量均有较大增加。此时累计的数值由3增加1变为4。

同理，以此类推，电子设备可以依次比较得到的第一频率值和第二频率值中相同频率的个数并进行累计。

最终累计得到的数值可以被确定为歌曲音频和伴奏音频的鼓点同步数量检测结果。

可以理解的是，鼓点同步数量可以表示歌曲音频和伴奏音频的能量变化的同步性。例如，当鼓点同步数量越大时表示歌曲音频和伴奏音频的能量变化越趋于同步。

207、电子设备将歌曲音频划分为多个歌曲音频帧，得到歌曲音频帧序列，并获取该歌曲音频帧序列中的每一歌曲音频帧的音频指纹，并获取每一歌曲音频帧的音频指纹所对应的哈希值，将每一歌曲音频帧对应的哈希值确定为每一歌曲音频帧的音频指纹信息，得到对应的第一哈希值序列，将该第一哈希值序列确定为对应的歌曲音频指纹信息序列，以及将该歌曲音频指纹信息序列确定为第一音频指纹信息。

比如，在对歌曲音频和伴奏音频进行音频特征检测后，电子设备可以提取该歌曲音频的第一音频指纹信息以及该伴奏音频的第二音频指纹信息，并对该第一音频指纹信息和该第二音频指纹信息进行匹配，以得到音频指纹信息匹配结果。

其中，电子设备可以先将歌曲音频划分为多个歌曲音频帧，得到歌曲音频帧序列。然后，电子设备可以获取该歌曲音频帧序列中的每一歌曲音频帧的音频指纹信息，得到对应的歌曲音频指纹信息序列，并将该歌曲音频指纹信息序列确定为第一音频指纹信息。并且，电子设备可以将伴奏音频划分为多个伴奏音频帧，得到伴奏音频帧序列。然后，电子设备可以获取伴奏音频帧序列中的每一伴奏音频帧的音频指纹信息，得到对应的伴奏音频指纹信息序列，并将该伴奏音频指纹信息序列确定为第二音频指纹信息。

比如，电子设备可以按照播放时间先后的顺序，将歌曲音频划分为多个歌曲音频帧，得到歌曲音频帧序列。例如，电子设备得到的歌曲音频帧序列为G₁，G₂，G₃，……，G_n-1，G_n。其中，G₁为歌曲音频的第一个音频帧，G₂为歌曲音频的第二个音频帧，……，G_n为歌曲音频的第n个音频帧。

之后，电子设备可以获取该歌曲音频帧序列中的每一歌曲音频帧的音频指纹，得到对应的歌曲音频指纹序列。例如，歌曲音频指纹序列为ZG₁，ZG₂，ZG₃，……，ZG_n-1，ZG_n。

比如，在得到歌曲音频指纹序列ZG₁，ZG₂，ZG₃，……，ZG_n-1，ZG_n后，电子设备可以获取每一歌曲音频帧的音频指纹所对应的哈希值，并将每一歌曲音频帧对应的哈希值确定为每一歌曲音频帧的音频指纹信息，从而得到对应的第一哈希值序列。例如，第一哈希值序列为HG₁，HG₂，HG₃，……，HG_n-1，HG_n。之后，电子设备可以将该第一哈希值序列确定为歌曲音频所对应的歌曲音频指纹信息序列，以及将该歌曲音频指纹信息序列确定为第一音频指纹信息。即，第一哈希值序列被确定为歌曲音频对应的第一音频指纹信息。

208、电子设备将伴奏音频划分为多个伴奏音频帧，得到伴奏音频帧序列，并获取该伴奏音频帧序列中的每一伴奏音频帧的音频指纹，并获取每一伴奏音频帧的音频指纹所对应的哈希值，将每一伴奏音频帧对应的哈希值确定为每一伴奏音频帧的音频指纹信息，得到对应的第二哈希值序列，将该第二哈希值序列确定为对应的伴奏音频指纹信息序列，以及将该伴奏音频指纹信息序列确定为第二音频指纹信息。

比如，电子设备可以按照播放时间先后的顺序，将伴奏音频划分为多个伴奏音频帧，得到伴奏音频帧序列。例如，电子设备得到的伴奏音频帧序列为B₁，B₂，B₃，……，B_m-1，B_m。其中，B₁为伴奏音频的第一个音频帧，B₂为伴奏音频的第二个音频帧，……，B_m为伴奏音频的第m个音频帧。

之后，电子设备可以获取该伴奏音频帧序列中的每一伴奏音频帧的音频指纹，得到对应的伴奏音频指纹序列。例如，伴奏音频指纹序列为ZB₁，ZB₂，ZB₃，……，ZB_m-1，ZB_m。

在得到伴奏音频指纹序列ZB₁，ZB₂，ZB₃，……，ZB_m-1，ZB_m后，电子设备可以获取每一伴奏音频帧的音频指纹所对应的哈希值，并将每一伴奏音频帧对应的哈希值确定为每一伴奏音频帧的音频指纹信息，从而得到对应的第二哈希值序列。例如，第二哈希值序列为HB₁，HB₂，HB₃，……，HB_m-1，HB_m。之后，电子设备可以将该第二哈希值序列确定为伴奏音频所对应的伴奏音频指纹信息序列，以及将该伴奏音频指纹信息序列确定为第二音频指纹信息。即，第二哈希值序列被确定为伴奏音频对应的第二音频指纹信息。

209、电子设备对第一哈希值序列和第二哈希值序列进行匹配，得到对应的匹配结果，并将该对应的匹配结果确定为音频指纹信息匹配结果。

比如，在得到第一哈希值序列和第二哈希值序列后，电子设备对第一哈希值序列和第二哈希值序列进行匹配，得到对应的匹配结果，并将该对应的匹配结果确定为音频指纹信息匹配结果。

在一种实施方式中，电子设备对第一哈希值序列和第二哈希值序列进行的匹配可以包括精确匹配和模糊匹配两种实施方式。

即，电子设备对第一哈希值序列和第二哈希值序列进行匹配，得到对应的匹配结果，并将该对应的匹配结果确定为音频指纹信息匹配结果的流程，可以包括：

电子设备获取多个偏移值，每一偏移值为整数；

按照每一偏移值，电子设备将第一哈希值序列和第二哈希值序列中的哈希值进行匹配，其中，进行匹配的每两个哈希值的位次相差该偏移值；若哈希值匹配成功，则与该偏移值对应的匹配数量的数值递增1，其中，该匹配数量的初始值均为0；

电子设备比较不同偏移值对应的匹配数量，并将数值最大的匹配数量确定为目标值，并将该目标值确定为音频指纹信息匹配结果，其中，该目标值用于计算歌曲音频和伴奏音频的时间偏移值。

在一种实施方式中，电子设备可以预先设定多个偏移值。例如，该偏移值可以包括0，1，2，3，4，5，-1，-2，-3等等。

其中，当偏移值为0时，电子设备对第一哈希值序列和第二哈希值序列进行的是精确匹配，流程可以如下：

电子设备将第一哈希值序列和第二哈希值序列中位于相同位次的哈希值进行匹配；

若位于相同位次的哈希值匹配成功，则与偏移值0对应的匹配数量的数值递增1，其中，与偏移值0对应的匹配数量的初始值为0。

比如，第一哈希值序列为HG₁，HG₂，HG₃，……，HG_n-1，HG_n。第二哈希值序列为HB₁，HB₂，HB₃，……，HB_m-1，HB_m。那么，在进行精确匹配时，电子设备是将两个序列中位于相同位次的哈希值进行匹配。例如，电子设备是将HG₁和HB₁进行匹配，将HG₂和HB₂进行匹配，将HG₃和HB₃进行匹配，等等。

若位于相同位次的哈希值匹配成功，则电子设备可以将与偏移值0对应的匹配数量的数值递增1，该与偏移值0对应的匹配数量的初始值为0。例如，HG₁和HB₁匹配成功，则与偏移值0对应的匹配数量的数值由0增加到1。若HG₂和HB₂也匹配成功，则与偏移值0对应的匹配数量的数值由1增加到2。若HG₃和HB₃匹配失败，则与偏移值0对应的匹配数量的数值保持为2，而不递增。若HG₄和HB₄匹配成功，则与偏移值0对应的匹配数量的数值由2递增到3，等等。

当偏移值不为0时，电子设备对第一哈希值序列和第二哈希值序列进行的模糊匹配的流程可以如下：

比如，在对第一哈希值序列和第二哈希值序列进行模糊匹配时，电子设备可以先获取多个不为0的整数的偏移值。例如，偏移值可以包括-4，-3，-2，-1，1，2，3，4，5，等等。

在获取到这些偏移值之后，电子设备可以按照每一偏移值，将第一哈希值序列和第二哈希值序列中的哈希值进行匹配，其中，进行匹配的每两个哈希值的位次相差该偏移值。

例如，当偏移值取1时，将第一哈希值序列中的HG₁与第二哈希值序列中的HB₂进行匹配，将第一哈希值序列中的HG₂与第二哈希值序列中的HB₃进行匹配，将第一哈希值序列中的HG₃与第二哈希值序列中的HB₄进行匹配，等等，以此类推。其中，若哈希值匹配成功，则与偏移值1对应的匹配数量的数值递增1，该与偏移值1对应的匹配数量的初始值为0。

当偏移值取2时，将第一哈希值序列中的HG₁与第二哈希值序列中的HB₃进行匹配，将第一哈希值序列中的HG₂与第二哈希值序列中的HB₄进行匹配，将第一哈希值序列中的HG₃与第二哈希值序列中的HB₅进行匹配，等等，以此类推。其中，若哈希值匹配成功，则与偏移值2对应的匹配数量的数值递增1，该与偏移值2对应的匹配数量的初始值为0。

当偏移值取-1时，将第一哈希值序列中的HG₂与第二哈希值序列中的HB₁进行匹配，将第一哈希值序列中的HG₃与第二哈希值序列中的HB₂进行匹配，将第一哈希值序列中的HG₄与第二哈希值序列中的HB₃进行匹配，等等，以此类推。其中，若哈希值匹配成功，则与偏移值-1对应的匹配数量的数值递增1，该与偏移值-1对应的匹配数量的初始值为0。

通过上述匹配，电子设备可以得到在不同的偏移值下第一哈希值序列和第二哈希值序列中的哈希值的匹配数量。

在得到各偏移值下第一哈希值序列和第二哈希值序列中的哈希值的匹配数量后，电子设备可以将数值最大的匹配数量确定为目标值，并将该目标值确定为音频指纹信息匹配结果。其中，该目标值可以用于计算歌曲音频和伴奏音频的时间偏移值。

例如，偏移值取1时，第一哈希值序列和第二哈希值序列中的哈希值的匹配数量为5100。偏移值取2时，第一哈希值序列和第二哈希值序列中的哈希值的匹配数量为5500。偏移值取3时，第一哈希值序列和第二哈希值序列中的哈希值的匹配数量为8000。偏移值取-1时，第一哈希值序列和第二哈希值序列中的哈希值的匹配数量为4500。偏移值取-2时，第一哈希值序列和第二哈希值序列中的哈希值的匹配数量为3900，等等。其中，偏移值取3时，第一哈希值序列和第二哈希值序列中的哈希值的匹配数量的数值最大，那么电子设备可以将偏移值3确定为目标值。

210、根据播放时长差检测的结果、音频帧功率差检测的结果、端点静音时长差检测的结果、鼓点同步数量检测的结果以及音频指纹信息匹配结果，电子设备输出歌曲音频和伴奏音频的时间偏移值。

比如，在得到播放时长差检测的结果、音频帧功率差检测的结果、端点静音时长差检测的结果、鼓点同步数量检测的结果以及音频指纹信息匹配结果后，电子设备可以根据这些检测结果判断歌曲音频和伴奏音频是否存在时间偏移，并输出对应的时间偏移值。

例如，电子设备检测到歌曲音频和伴奏音频的播放时长相等；通过音频帧功率差检测未检测到歌曲音频在静音时伴奏音频出现声音；检测到端点静音时长差为0；鼓点同步数量为10000，其数值较大；检测到第一哈希值序列和第二哈希值序列在精确匹配时的第一匹配数量大于模糊匹配下的匹配数量。在这种情况下，电子设备可以判定出歌曲和伴奏不存在时间偏移，它们在时间上是对齐的。即，歌曲音频和伴奏音频的时间偏移值为0。

又如，电子设备检测到歌曲音频和伴奏音频的播放时长不相等；通过音频帧功率差检测检测到歌曲音频在多处静音时伴奏音频出现声音；检测到端点静音时长差不为0；鼓点同步数量为5000，其数值较小；检测到第一哈希值序列和第二哈希值序列在精确匹配时的匹配数量小于模糊匹配下的匹配数量，其中偏移值取3时，匹配数量最大。在这种情况下，电子设备可以判定出歌曲音频和伴奏音频存在时间偏移，它们在时间上是不对齐的。

在一些实施方式中，电子设备可以通过预先设置的判断逻辑来判断歌曲音频和伴奏音频是否存在时间偏移。例如，若第一哈希值序列和第二哈希值序列在精确匹配时的匹配数量小于或等于某个模糊匹配下的匹配数量，那么电子设备可以直接判定歌曲音频和伴奏音频存在时间偏移。

若第一哈希值序列和第二哈希值序列在精确匹配时的匹配数量大于某个模糊匹配下的匹配数量，但是通过音频帧功率差检测到歌曲音频在多处静音时伴奏音频出现声音，并且端点静音时长差不为0，并且鼓点同步数量的数值小于预设的数值，那么可以判定歌曲音频和伴奏音频存在时间偏移。

即，对于本实施例得到的各项检测结果，电子设备可以预先设置一定的判断逻辑来根据检测结果判断歌曲音频和伴奏音频是否存在时间偏移。各种判断逻辑可以根据需要进行设置，它们均应包含在本申请的保护范围内。

在一种实施方式中，电子设备在进行音频指纹信息匹配时，还可以获取歌曲音频中各歌词所在的音频帧，那么在音频指纹信息匹配时电子设备可以不将歌词所在的音频帧与伴奏音频中的对应音频帧进行音频指纹信息匹配。这是因为歌词所在的音频帧同时有人声和伴奏，因此其音频指纹信息与伴奏对应的音频帧的音频指纹信息较难匹配成功，因此可以不对这种音频帧进行音频指纹信息匹配。

本申请实施例在歌曲音频和伴奏音频存在时间偏移的情况下，还可以计算它们之间的时间偏移值。例如，电子设备检测到歌曲音频和伴奏音频在偏移值取10时第一哈希值序列和第二哈希值序列的哈希值的匹配数量最大，那么，电子设备可以获取在进行音频指纹提取时的音频指纹提取精度，该音频指纹提取精度是指电子设备每隔多长时间采集一次音频指纹，例如电子设备每60毫秒采集一次音频指纹，那么歌曲和伴奏的时间偏移值为600毫秒(60毫秒乘以10)。即，歌曲音频和伴奏音频的时间偏移为0.6秒。

可以理解的是，本申请实施例提供的音频处理方法可以有效地检测出歌曲音频和伴奏音频是否存在时间偏移以及具体的时间偏移值，可以有效节省高昂的人工筛选成本和时间成本。本实施例提供的音频处理方法的相关流程可以在移动终端侧处理，也可以在云端处理。

在一种实施方式中，在将歌曲音频和伴奏音频对应的音频划分为多个歌曲音频帧和多个伴奏音频帧以进行音频指纹提取前，电子设备可以对歌曲音频和伴奏音频进行降采样，将歌曲音频和伴奏音频降采样到一个较低的采样率，例如8KHz。降采样后，电子设备再将歌曲音频和伴奏音频划分为音频帧，从而得到对应的歌曲音频帧序列和伴奏音频帧序列。

可以理解的是，在对歌曲音频和伴奏音频进行音频分帧并提取音频指纹前，对歌曲音频和伴奏音频先进行一次降采样，从而将歌曲音频和伴奏音频的采样率降到一个降低的数值，如8KHz等，这样可以方便后续音频指纹提取，减少计算量。

在一种实施方式中，在对歌曲音频和伴奏音频进行音频分帧时，歌曲音频帧中的前后两帧可以具有第一重叠率，并且，伴奏音频帧中的前后两帧也可以具有第一重叠率。即，歌曲音频帧序列中顺序相邻的前后两帧具有第一重叠率，并且伴奏音频帧序列中顺序相邻的前后两帧也具有该第一重叠率。该第一重叠率例如可以为50％、25％或75％等等。

请参阅图3A至图3D，图3A至图3D为本申请实施例提供的音频处理方法的场景示意图。

比如，用户想要检测一歌曲音频和该歌曲音频对应的一伴奏音频是否存在时间偏移。那么，用户可以利用电子设备选取该歌曲音频和该伴奏音频，并将该歌曲音频和该伴奏音频输入至电子设备中以检测它们是否存在时间偏移，以及当存在时间偏移时该歌曲音频和该伴奏音频之间具体的时间偏移值。

比如，电子设备可以获取该歌曲音频和该伴奏音频。之后，电子设备可以检测该歌曲音频和该伴奏音频的采样率是否一致。例如，电子设备检测到歌曲音频的采样率和伴奏音频的采样率不一致，例如歌曲音频的采样率为48KHz，而伴奏音频的采样率为44.1KHz。在这种情况下，电子设备可以对歌曲音频和伴奏音频的采样率进行预设的重采样处理。例如，电子设备可以将歌曲音频和伴奏音频的采样率统一降采样到16KHz。即，将歌曲音频的采样率由48KHz降采样到16KHz，并将伴奏音频的采样率由44.1KHz降采样到16KHz。

之后，电子设备可以对该歌曲音频和该伴奏音频进行音频特征检测，其中，该音频特征检测可以包括播放时长差检测、音频帧功率差检测、端点静音时长差检测以及鼓点同步数量检测。电子设备进行的上述各项检测均可以得到对应的检测结果，从而形成音频特征检测结果。

之后，电子设备可以对歌曲音频和伴奏音频进行降采样，例如降采样后的歌曲音频和伴奏音频的采样率为8KHz。

接着，电子设备可以按照播放时间先后的顺序，将歌曲音频划分为多个歌曲音频帧，得到歌曲音频帧序列，并获取该歌曲音频帧序列中的每一歌曲音频帧的音频指纹，以及每一歌曲音频帧的音频指纹对应的哈希值，从而得到第一哈希值序列。

并且，电子设备可以按照播放时间先后的顺序，将伴奏音频划分为多个伴奏音频帧，得到伴奏音频帧序列，并获取该伴奏音频帧序列中的每一伴奏音频帧的音频指纹，以及每一伴奏音频帧的音频指纹对应的哈希值，从而得到第二哈希值序列。

在得到第一哈希值序列和第二哈希值序列后，电子设备可以进行哈希值的精确匹配和模糊匹配，并统计在精确匹配和模糊匹配下哈希值匹配成功的数量。

例如，第一哈希值序列为HG₁，HG₂，HG₃，……，HG_n-1，HG_n。第二哈希值序列为HB₁，HB₂，HB₃，……，HB_m-1，HB_m。

例如，如图3B所示进行的是第一哈希值序列和第二哈希值序列的哈希值精确匹配。如图3C和3D所示进行的是第一哈希值序列和第二哈希值序列的哈希值模糊匹配。其中，如图3C所示的模糊匹配为基于偏移值为1时的模糊匹配，如图3D所示的模糊匹配为基于偏移值为2时的模糊匹配。

在对第一哈希值序列和第二哈希值序列进行过哈希值的匹配后，电子设备可以得到对应的匹配结果，并将该匹配结果确定为音频指纹信息匹配结果。

之后，电子设备可以根据音频特征检测结果和音频指纹信息匹配结果，判断歌曲音频和伴奏音频是否存在时间偏移。例如，电子设备检测到歌曲音频和伴奏音频的播放时长相等；通过音频帧功率差检测未检测到歌曲音频在静音时伴奏音频出现声音；检测到端点静音时长差为0；鼓点同步数量为10000，其数值较大；检测到第一哈希值序列和第二哈希值序列在精确匹配时的匹配数量大于模糊匹配下的匹配数量。在这种情况下，电子设备可以判定出歌曲音频和伴奏音频不存在时间偏移，它们在时间上是对齐的。即，电子设备可以输出该歌曲音频和该伴奏音频的时间偏移值为0。

请参阅图4，图4为本申请实施例提供的音频处理装置的结构示意图。音频处理装置400可以包括：获取单元401，处理单元402，检测单元403，匹配单元404，判断单元405。

获取单元401，用于获取歌曲音频以及所述歌曲音频对应的伴奏音频。

处理单元402，用于若所述歌曲音频和所述伴奏音频的采样率不一致，则对所述歌曲音频和所述伴奏音频的采样率进行预设处理，以使所述歌曲音频和所述伴奏音频的采样率一致。

检测单元403，用于对采样率一致的所述歌曲音频和所述伴奏音频进行音频特征检测，得到音频特征检测结果，所述音频特征检测包括播放时长差检测、音频帧功率差检测、端点静音时长差检测、鼓点同步数量检测中的至少一种。

匹配单元404，用于提取所述歌曲音频的第一音频指纹信息以及所述伴奏音频的第二音频指纹信息，并对所述第一音频指纹信息和所述第二音频指纹信息进行匹配，得到音频指纹信息匹配结果。

判断单元405，用于根据所述音频特征检测结果和所述音频指纹信息匹配结果，输出所述歌曲音频和所述伴奏音频的时间偏移值。

在一种实施方式中，所述匹配单元404可以用于：

将所述歌曲音频划分为多个歌曲音频帧，得到歌曲音频帧序列；

获取所述歌曲音频帧序列中的每一歌曲音频帧的音频指纹信息，得到对应的歌曲音频指纹信息序列，并将所述歌曲音频指纹信息序列确定为第一音频指纹信息；

将所述伴奏音频划分为多个伴奏音频帧，得到伴奏音频帧序列；

获取所述伴奏音频帧序列中的每一伴奏音频帧的音频指纹信息，得到对应的伴奏音频指纹信息序列，并将所述伴奏音频指纹信息序列确定为第二音频指纹信息。

在一种实施方式中，所述匹配单元404可以用于：

获取所述歌曲音频帧序列中的每一歌曲音频帧的音频指纹，并获取每一歌曲音频帧的音频指纹所对应的哈希值，将每一歌曲音频帧对应的哈希值确定为每一歌曲音频帧的音频指纹信息，得到对应的第一哈希值序列，将所述第一哈希值序列确定为对应的歌曲音频指纹信息序列；

获取所述伴奏音频帧序列中的每一伴奏音频帧的音频指纹信息，得到对应的伴奏音频指纹信息序列，包括：获取所述伴奏音频帧序列中的每一伴奏音频帧的音频指纹，并获取每一伴奏音频帧的音频指纹所对应的哈希值，将每一伴奏音频帧对应的哈希值确定为每一伴奏音频帧的音频指纹信息，得到对应的第二哈希值序列，将所述第二哈希值序列确定为对应的伴奏音频指纹信息序列；

对所述第一哈希值序列和所述第二哈希值序列进行匹配，得到对应的匹配结果，并将所述对应的匹配结果确定为音频指纹信息匹配结果。

在一种实施方式中，所述匹配单元404可以用于：

将所述歌曲音频进行降采样，按照播放时间先后的顺序，将降采样后的歌曲音频划分为多个歌曲音频帧，得到歌曲音频帧序列；

将所述伴奏音频进行降采样，按照播放时间先后的顺序，将降采样后的伴奏音频划分为多个伴奏音频帧，得到伴奏音频帧序列；

其中，所述降采样后的歌曲音频和所述降采样后的伴奏音频的采样率一致。

在一种实施方式中，所述歌曲音频帧序列中顺序相邻的前后两帧具有第一重叠率，并且所述伴奏音频帧序列中顺序相邻的前后两帧具有所述第一重叠率。

在一种实施方式中，所述匹配单元404可以用于：

获取多个偏移值，每一所述偏移值为整数；

按照每一所述偏移值，将所述第一哈希值序列和所述第二哈希值序列中的哈希值进行匹配，其中，进行匹配的每两个哈希值的位次相差所述偏移值；若哈希值匹配成功，则与所述偏移值对应的匹配数量的数值递增1，其中，所述匹配数量的初始值均为0；

比较不同偏移值对应的匹配数量，并将数值最大的匹配数量确定为目标值，并将所述目标值确定为音频指纹信息匹配结果，其中，所述目标值用于计算所述歌曲音频和所述伴奏音频的时间偏移值。

在一种实施方式中，所述检测单元403可以用于：

按照播放时间先后的顺序，将所述歌曲音频划分为多个歌曲音频帧，得到歌曲音频帧序列，并将所述伴奏音频划分为多个伴奏音频帧，得到伴奏音频帧序列；

获取每一歌曲音频帧的功率值，以及每一伴奏音频帧的功率值；

依次比较所述歌曲音频帧序列和所述伴奏音频帧序列中位于相同位次的音频帧的功率值；

在功率值比较过程中，若检测到相同位次的歌曲音频帧的功率值小于预设第一阈值且伴奏音频帧的功率值大于预设第二阈值，则记录对应的位次信息，其中，所述预设第二阈值大于所述预设第一阈值；

所述音频特征检测结果包含所述位次信息。

在一种实施方式中，所述检测单元403可以用于：

获取所述歌曲音频的开始部分的第一静音时长，以及所述歌曲音频的结尾部分的第二静音时长；

获取所述伴奏音频的开始部分的第三静音时长，以及所述伴奏音频的结尾部分的第四静音时长；

获取所述第一静音时长与所述第三静音时长的第一目标时长差，以及所述第二静音时长和所述第四静音时长的第二目标时长差；

所述音频特征检测结果包含所述第一目标时长差和所述第二目标时长差。

在一种实施方式中，所述检测单元403可以用于：

按照播放时间先后的顺序，将所述歌曲音频划分为多个歌曲音频帧，得到歌曲音频帧序列，并获取所述歌曲音频帧序列中每一音频帧的频谱能量值；

按照播放时间先后的顺序，将所述伴奏音频划分为多个伴奏音频帧，得到伴奏音频帧序列，并获取所述伴奏音频帧序列中每一音频帧的频谱能量值；

将所述歌曲音频帧序列中的后一音频帧与前一音频帧的频谱能量值相减，并记录频谱能量差值大于预设能量阈值的第一频率值；

将所述伴奏音频帧序列中的后一音频帧与前一音频帧的频谱能量值相减，并记录频谱能量差值大于预设能量阈值的第二频率值；

将依次得到的第一频率值和第二频率值进行比较，统计其中频率相同的个数并累计；

将累计得到的数值确定为所述鼓点同步数量检测结果。

本申请实施例提供一种计算机可读的存储介质，其上存储有计算机程序，当所述计算机程序在计算机上执行时，使得所述计算机执行如本实施例提供的音频处理方法中的流程。

本申请实施例还提供一种电子设备，包括存储器，处理器，所述处理器通过调用所述存储器中存储的计算机程序，用于执行本实施例提供的音频处理方法中的流程。

例如，上述电子设备可以是诸如平板电脑或者智能手机等移动终端。请参阅图5，图5为本申请实施例提供的电子设备的结构示意图。

该电子设备500可以包括显示屏501、存储器502、处理器503等部件。本领域技术人员可以理解，图5中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

显示屏501可以用于显示诸如图文等信息。

存储器502可用于存储应用程序和数据。存储器502存储的应用程序中包含有可执行代码。应用程序可以组成各种功能模块。处理器503通过运行存储在存储器502的应用程序，从而执行各种功能应用以及数据处理。

处理器503是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器502内的应用程序，以及调用存储在存储器502内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。

在本实施例中，电子设备中的处理器503会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行代码加载到存储器502中，并由处理器503来运行存储在存储器502中的应用程序，从而执行：

获取歌曲音频以及所述歌曲音频对应的伴奏音频；

请参阅图6，电子设备500可以包括显示屏501、存储器502、处理器503、输入单元504、扬声器505等部件。

显示屏501可以用于显示图文等信息。

输入单元504可用于接收输入的数字、字符信息或用户特征信息(比如指纹)，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

获取歌曲音频以及所述歌曲音频对应的伴奏音频；

根据所述音频特征检测结果和所述音频指纹信息匹配结果，输出所述歌曲和所述伴奏的时间偏移值。

在一种实施方式中，处理器503执行所述提取所述歌曲音频的第一音频指纹信息以及所述伴奏音频的第二音频指纹信息时，可以执行：将所述歌曲音频划分为多个歌曲音频帧，得到歌曲音频帧序列；获取所述歌曲音频帧序列中的每一歌曲音频帧的音频指纹信息，得到对应的歌曲音频指纹信息序列，并将所述歌曲音频指纹信息序列确定为第一音频指纹信息；将所述伴奏音频划分为多个伴奏音频帧，得到伴奏音频帧序列；获取所述伴奏音频帧序列中的每一伴奏音频帧的音频指纹信息，得到对应的伴奏音频指纹信息序列，并将所述伴奏音频指纹信息序列确定为第二音频指纹信息。

在一种实施方式中，处理器503执行获取所述歌曲音频帧序列中的每一歌曲音频帧的音频指纹信息，得到对应的歌曲音频指纹信息序列时，可以执行：获取所述歌曲音频帧序列中的每一歌曲音频帧的音频指纹，并获取每一歌曲音频帧的音频指纹所对应的哈希值，将每一歌曲音频帧对应的哈希值确定为每一歌曲音频帧的音频指纹信息，得到对应的第一哈希值序列，将所述第一哈希值序列确定为对应的歌曲音频指纹信息序列；

处理器503执行所述获取所述伴奏音频帧序列中的每一伴奏音频帧的音频指纹信息，得到对应的伴奏音频指纹信息序列时，可以执行：获取所述伴奏音频帧序列中的每一伴奏音频帧的音频指纹，并获取每一伴奏音频帧的音频指纹所对应的哈希值，将每一伴奏音频帧对应的哈希值确定为每一伴奏音频帧的音频指纹信息，得到对应的第二哈希值序列，将所述第二哈希值序列确定为对应的伴奏音频指纹信息序列；

那么，处理器503执行所述对所述第一音频指纹信息和所述第二音频指纹信息进行匹配，得到音频指纹信息匹配结果时，可以执行：对所述第一哈希值序列和所述第二哈希值序列进行匹配，得到对应的匹配结果，并将所述对应的匹配结果确定为音频指纹信息匹配结果。

在一种实施方式中，处理器503执行所述将所述歌曲音频划分为多个歌曲音频帧，得到歌曲音频帧序列时，可以执行：将所述歌曲音频进行降采样，将降采样后的歌曲音频划分为多个歌曲音频帧，得到歌曲音频帧序列。

处理器503执行所述将所述伴奏音频划分为多个伴奏音频帧，得到伴奏音频帧序列时，可以执行：将所述伴奏音频进行降采样，将降采样后的伴奏音频划分为多个伴奏音频帧，得到伴奏音频帧序列；其中，所述降采样后的歌曲音频和所述降采样后的伴奏音频的采样率一致。

在一种实施方式中，处理器503执行对所述第一哈希值序列和所述第二哈希值序列进行匹配，得到对应的匹配结果，并将所述对应的匹配结果确定为音频指纹信息匹配结果时，可以执行：获取多个偏移值，每一所述偏移值为整数；按照每一所述偏移值，将所述第一哈希值序列和所述第二哈希值序列中的哈希值进行匹配，其中，进行匹配的每两个哈希值的位次相差所述偏移值；若哈希值匹配成功，则与所述偏移值对应的匹配数量的数值递增1，其中，所述匹配数量的初始值均为0；比较不同偏移值对应的匹配数量，并将数值最大的匹配数量确定为目标值，并将所述目标值确定为音频指纹信息匹配结果，其中，所述目标值用于计算所述歌曲音频和所述伴奏音频的时间偏移值。

在一种实施方式中，所述音频帧功率差检测包括：按照播放时间先后的顺序，将所述歌曲音频划分为多个歌曲音频帧，得到歌曲音频帧序列，并将所述伴奏音频划分为多个伴奏音频帧，得到伴奏音频帧序列；获取每一歌曲音频帧的功率值，以及每一伴奏音频帧的功率值；依次比较所述歌曲音频帧序列和所述伴奏音频帧序列中位于相同位次的音频帧的功率值；在功率值比较过程中，若检测到相同位次的歌曲音频帧的功率值小于预设第一阈值且伴奏音频帧的功率值大于预设第二阈值，则记录对应的位次信息，其中，所述预设第二阈值大于所述预设第一阈值；所述音频特征检测结果包含所述位次信息。

在一种实施方式中，所述端点静音时长差检测包括：获取所述歌曲音频的开始部分的第一静音时长，以及所述歌曲音频的结尾部分的第二静音时长；获取所述伴奏音频的开始部分的第三静音时长，以及所述伴奏音频的结尾部分的第四静音时长；获取所述第一静音时长与所述第三静音时长的第一目标时长差，以及所述第二静音时长和所述第四静音时长的第二目标时长差；所述音频特征检测结果包含所述第一目标时长差和所述第二目标时长差。

在一种实施方式中，所述鼓点同步数量检测，包括：按照播放时间先后的顺序，将所述歌曲音频划分为多个歌曲音频帧，得到歌曲音频帧序列，并获取所述歌曲音频帧序列中每一音频帧的频谱能量值；按照播放时间先后的顺序，将所述伴奏音频划分为多个伴奏音频帧，得到伴奏音频帧序列，并获取所述伴奏音频帧序列中每一音频帧的频谱能量值；将所述歌曲音频帧序列中的后一音频帧与前一音频帧的频谱能量值相减，并记录频谱能量差值大于预设能量阈值的第一频率值；将所述伴奏音频帧序列中的后一音频帧与前一音频帧的频谱能量值相减，并记录频谱能量差值大于预设能量阈值的第二频率值；将依次得到的第一频率值和第二频率值进行比较，统计其中频率相同的个数并累计；将累计得到的数值确定为所述鼓点同步数量检测结果。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对音频处理方法的详细描述，此处不再赘述。

本申请实施例提供的所述音频处理装置与上文实施例中的音频处理方法属于同一构思，在所述音频处理装置上可以运行所述音频处理方法实施例中提供的任一方法，其具体实现过程详见所述音频处理方法实施例，此处不再赘述。

需要说明的是，对本申请实施例所述音频处理方法而言，本领域普通技术人员可以理解实现本申请实施例所述音频处理方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，所述计算机程序可存储于一计算机可读取存储介质中，如存储在存储器中，并被至少一个处理器执行，在执行过程中可包括如所述音频处理方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)等。

对本申请实施例的所述音频处理装置而言，其各功能模块可以集成在一个处理芯片中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中，所述存储介质譬如为只读存储器，磁盘或光盘等。

以上对本申请实施例所提供的一种音频处理方法、装置、存储介质以及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种音频处理方法，其特征在于，包括：

获取歌曲音频以及所述歌曲音频对应的伴奏音频；

2.根据权利要求1所述的音频处理方法，其特征在于，提取所述歌曲音频的第一音频指纹信息以及所述伴奏音频的第二音频指纹信息，包括：

3.根据权利要求2所述的音频处理方法，其特征在于，获取所述歌曲音频帧序列中的每一歌曲音频帧的音频指纹信息，得到对应的歌曲音频指纹信息序列，包括：获取所述歌曲音频帧序列中的每一歌曲音频帧的音频指纹，并获取每一歌曲音频帧的音频指纹所对应的哈希值，将每一歌曲音频帧对应的哈希值确定为每一歌曲音频帧的音频指纹信息，得到对应的第一哈希值序列，将所述第一哈希值序列确定为对应的歌曲音频指纹信息序列；

对所述第一音频指纹信息和所述第二音频指纹信息进行匹配，得到音频指纹信息匹配结果，包括：对所述第一哈希值序列和所述第二哈希值序列进行匹配，得到对应的匹配结果，并将所述对应的匹配结果确定为音频指纹信息匹配结果。

4.根据权利要求2或3所述的音频处理方法，其特征在于，所述将所述歌曲音频划分为多个歌曲音频帧，得到歌曲音频帧序列，包括：将所述歌曲音频进行降采样，将降采样后的歌曲音频划分为多个歌曲音频帧，得到歌曲音频帧序列；

所述将所述伴奏音频划分为多个伴奏音频帧，得到伴奏音频帧序列，包括：将所述伴奏音频进行降采样，将降采样后的伴奏音频划分为多个伴奏音频帧，得到伴奏音频帧序列；

5.根据权利要求4所述的音频处理方法，其特征在于，所述歌曲音频帧序列中顺序相邻的前后两帧具有第一重叠率，并且所述伴奏音频帧序列中顺序相邻的前后两帧具有所述第一重叠率。

6.根据权利要求3所述的音频处理方法，其特征在于，对所述第一哈希值序列和所述第二哈希值序列进行匹配，得到对应的匹配结果，并将所述对应的匹配结果确定为音频指纹信息匹配结果，包括：

获取多个偏移值，每一所述偏移值为整数；

7.根据权利要求1所述的音频处理方法，其特征在于，所述音频帧功率差检测包括：

所述音频特征检测结果包含所述位次信息。

8.根据权利要求1所述的音频处理方法，其特征在于，所述端点静音时长差检测包括：

9.根据权利要求1所述的音频处理方法，其特征在于，所述鼓点同步数量检测，包括：

将累计得到的数值确定为所述鼓点同步数量检测结果。

10.一种音频处理装置，其特征在于，包括：

判断单元，用于根据所述音频特征检测结果和所述音频指纹信息匹配结果，输出所述歌曲音频和所述伴奏音频的时间偏移值。

11.一种存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序在计算机上执行时，使得所述计算机执行如权利要求1至9中任一项所述的方法。

12.一种电子设备，包括存储器，处理器，其特征在于，所述处理器通过调用所述存储器中存储的计算机程序，用于执行如权利要求1至9中任一项所述的方法。