CN113192531B

CN113192531B - 检测音频是否是纯音乐音频方法、终端及存储介质

Info

Publication number: CN113192531B
Application number: CN202110594788.3A
Authority: CN
Inventors: 张超鹏; 姜涛; 胡鹏
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2024-04-16
Anticipated expiration: 2041-05-28
Also published as: CN113192531A

Abstract

本申请公开了一种检测音频是否是纯音乐音频方法、终端及存储介质，属于互联网技术领域。该方法包括：基于目标音频中每个音频帧中每个采样频率点的频率和每个音级对应的多个频段单元，确定每个音频帧中每个音级的总能量；对于每个音频帧，在音频帧的每个音级的总能量中，确定最大总能量和次大总能量，根据次大总能量与最大总能量的比值，确定音频帧是否为纯音乐音频帧；根据非纯音乐音频帧或纯音乐音频帧的数目与目标音频中音频帧的总数目的比值，确定目标音频是否是纯音乐音频。本申请实施例提供的方法相比于使用神经网络模型检测音频是否为纯音乐音频，可以更加简单快速的检测出音频是否为纯音乐音频。

Description

检测音频是否是纯音乐音频方法、终端及存储介质

技术领域

本申请涉及互联网技术领域，特别涉及一种检测音频是否是纯音乐音频方法、终端及存储介质。

背景技术

为了提高音频的质量，往往需要检测音频是否是纯音乐音频，进而对音频进行针对性处理。例如，对纯音乐音频进行混响处理。

在相关技术中，将音频输入预先训练的神经网络模型，预先训练的神经网络模型对音频进行多次迭代计算，进而检测出该音频是否是纯音乐音频。

上述过程中神经网络模型所需要的计算量大。

发明内容

本申请实施例提供了一种检测音频是否是纯音乐音频方法、终端及存储介质，相比于神经网络模型，可以简单快速的检测音频是否是纯音乐音频。该技术方案如下：

第一方面，本申请实施例提供了一种检测音频是否是纯音乐音频方法，该方法包括：

根据目标音频中每个音频帧中每个采样频率点的频率和每个音级对应的多个频段单元，确定每个音频帧中每个音级对应的所有采样频率点；

根据每个音频帧中每个音级对应的所有采样频率点的幅值，确定每个音频帧中每个音级的总能量；

对于每个音频帧，在所述音频帧的每个音级的总能量中，确定最大总能量和次大总能量，根据所述次大总能量与所述最大总能量的比值，确定所述音频帧是否为纯音乐音频帧；

根据非纯音乐音频帧或纯音乐音频帧的数目与所述目标音频中音频帧的总数目的比值，确定所述目标音频是否是纯音乐音频。

可选的，所述根据目标音频中每个音频帧中每个采样频率点的频率和每个音级对应的多个频段单元，确定每个音频帧中每个音级对应的所有采样频率点，包括：

获取每个音级对应的带通滤波器，其中，所述带通滤波器的多个通过频段分别为对应的音级所包含的多个频段单元；

对于每个音频帧，通过每个音级对应的带通滤波器，分别对所述音频帧中的每个采样频率点的频率进行筛选，得到每个音级对应的所有采样频率点。

可选的，所述音级对应的带通滤波器为滤波器组，所述滤波器组由多个单通带带通滤波器组成，每个单通带带通滤波器对应的通过频段分别为所述音级的一个频段单元。

可选的，所述音级对应的带通滤波器为滤波器，所述滤波器为多通带带通滤波器，所述带通滤波器上的每个通过频段分别为所述带通滤波器对应的音级的一个频段单元。

可选的，所述根据每个音频帧中每个音级对应的所有采样频率点的幅值，确定每个音频帧中每个音级的总能量，包括：

根据每个音频帧中每个音级对应的所有采样频率点的幅值，确定每个音频帧中每个音级对应的所有采样频率点的幅值的平方和，作为每个音频帧中每个音级的总能量。

根据每个音频帧中每个音级对应的所有采样频率点的幅值，确定每个音频帧中每个音级对应的所有采样频率点的幅值和，作为每个音频帧中每个音级的总能量。

可选的，所述方法还包括：

确定第h个八度第c个音级对应的中心音分值；

根据每个频点索引对应的频率以及音分值和频率之间的转换公式，确定每个频点索引对应的音分值；

根据第h个八度第c个音级对应的中心音分值以及每个索引频点对应的音分值，构造第h个八度第c个音级的带通滤波器的增益特性曲线。

可选的，所述第h个八度第c个音级的带通滤波器的增益特性曲线描述公式为：

其中，W_h,c(k)表示第h个八度第c个音级的带通滤波器在第k个频点索引处对应的增益，F_c(k)表示第k个频点索引对应的音分值，F_cent(p)表示第h个八度第c个音级对应的中心音分值，p表示第h个八度第c个音级对应的半音标识。

第二方面，本申请实施例提供了一种检测音频是否是纯音乐音频装置，该装置包括：

第一确定模块，被配置为根据目标音频中每个音频帧中每个采样频率点的幅值，确定每个音频帧中各音级的总能量；

第二确定模块，被配置为根据每个音频帧中每个音级对应的所有采样频率点的幅值，确定每个音频帧中每个音级的总能量；

第三确定模块，被配置为对于每个音频帧，在所述音频帧的各音级的总能量中，确定最大总能量和次大总能量，根据所述次大总能量与所述最大总能量的比值，确定所述音频帧是否为纯音乐音频帧；

第四确定模块，被配置为根据非纯音乐音频帧或纯音乐音频帧的数目与所述目标音频中音频帧的总数目的比值，确定所述目标音频是否是纯音乐音频。

可选的，所述第一确定模块，被配置为：

可选的，所述第二确定模块，被配置为：

可选的，所述装置还包括带通滤波器构建模块，所述带通滤波器构建模块被配置为：

确定第h个八度第c个音级对应的中心音分值；

第三方面，本申请实施例提供了一种终端，该终端包括处理器和存储器，该存储器中存储有至少一条程序代码，该至少一条程序代码由该处理器加载并执行以实现上述的检测音频是否是纯音乐音频方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条程序代码，该至少一条程序代码由处理器加载并执行以实现上述的检测音频是否是纯音乐音频方法。

第五方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得该计算机设备执行上述的检测音频是否是纯音乐音频方法。

本申请实施例提供的技术方案是根据最大能量值和最小能量值的比值来确定目标音频是否为纯音乐音频，而确定最大能量值和最小能量值是可以是根据幅值直接确定的，而这种处理方法相比于基于神经网络模型确定目标音频是否为纯音乐的方法所需的计算量小，可以快速检测目标音频是否是纯音乐音频。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种检测音频是否是纯音乐音频方法的实施环境的示意图；

图2是本申请实施例提供的一种检测音频是否是纯音乐音频方法的流程图；

图3是本申请实施例提供的一种检测音频是否是纯音乐音频方法的示意图；

图4是本申请实施例提供的一种检测音频是否是纯音乐音频方法的示意图；

图5是本申请实施例提供的一种检测音频是否是纯音乐音频装置的结构示意图；

图6是本申请实施例提供的一种终端的结构示意图；

图7是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图1是本申请实施例提供的一种检测音频是否是纯音乐音频方法的实施环境的示意图。如图1所示，该方法可以由终端101或服务器102实现。

终端101可以包括处理器、存储器等部件。处理器，可以为CPU(CentralProcessing Unit，中央处理单元)等，可以用于确定每个音频帧每个音级对应的总能量、确定每个音频帧对应的最大总能量和次大总能量、确定音频帧是否为纯音乐音频帧、确定音频是否是纯音乐音频等处理。存储器，可以为RAM(Random Access Memory，随机存取存储器)，Flash(闪存)等，可以用于存储接收到的数据、处理过程所需的数据、处理过程中生成的数据等，如目标音频、每个音频帧对应的最大能量值和最小能量值、目标音频中音频帧的总数目、非纯音乐音频帧的数目、纯音乐音频帧的数目等。终端101还可以包括收发器、图像检测部件、屏幕、音频输出部件和音频输入部件等。收发器，可以用于与其它设备进行数据传输，例如，向其它设备发送目标音频是否是纯音乐音频的结果等，可以包括天线、匹配电路、调制解调器等。图像检测部件可以是摄像头等。屏幕可以是触控屏，可以用于显示目标音频是否是纯音乐音频的结果等。音频输出部件可以是音箱、耳机等。音频输入部件可以是麦克风等。

服务器102可以包括处理器、存储器等部件。处理器，可以为CPU(CentralProcessing Unit，中央处理单元)等，可以用于确定每个音频帧每个音级对应的总能量、确定每个音频帧对应的最大总能量和次大总能量、确定音频帧是否为纯音乐音频帧、确定音频是否是纯音乐音频。存储器，可以为RAM(Random Access Memory，随机存取存储器)，Flash(闪存)等，可以用于存储接收到的数据、处理过程所需的数据、处理过程中生成的数据等，如目标音频、每个音频帧对应的最大能量值和最小能量值、目标音频中音频帧的总数目、非纯音乐音频帧的数目、纯音乐音频帧的数目等。

图2是本申请实施例提供的一种检测音频是否是纯音乐音频方法的流程图。该实施例以电子设备为执行主体进行说明，电子设备可以是服务器或者终端，参见图2，该实施例包括：

步骤201、根据目标音频中每个音频帧中每个采样频率点的频率和每个音级对应的多个频段单元，确定每个音频帧中每个音级对应的所有采样频率点。

其中，目标音频为待识别的音频。目标音频可以为整首歌曲音频，也可以是歌曲音频中的部分音频。

在本申请实施例中，通过每个音级对应的带通滤波器来确定每个音级对应的所有采样频率点。具体步骤为：获取每个音级对应的带通滤波器，其中，带通滤波器的多个通过频段分别为对应的音级所包含的多个频段单元。对于每个音频帧，通过每个音级对应的带通滤波器，分别对音频帧中的每个采样频率点的频率进行筛选，得到每个音级对应的所有采样频率点。

在实施中，预先根据每个音级对应的多个频段单元构造每个音级对应的带通滤波器，并将每个音级对应的带通滤波器存储在电子设备中。对目标音频进行分帧处理，获取目标音频包括的多个音频帧以及每个音频帧对应的幅度谱，其中该幅度谱中包括每个采样频率点的频率和幅值。对于任意一个音频帧，通过每个音级对应的带通滤波器对音频帧对应的采样频率点的频率进行筛选，得到每个音级对应的所有频率采样点。

其中，对目标音频进行分帧处理，获取目标音频包括的多个音频帧以及每个音频帧对应的幅度谱的具体步骤为：以帧长256ms，帧移80ms对目标音频进行分帧处理，并基于汉宁窗的表示公式对目标音频的时域信号进行加窗处理，获得加窗之后的时域信号。其中，汉宁窗的表示公式为w(i)表示样本索引i对应的时域信号，i表示样点索引的标识，N表示窗长，具体数值为N＝4096。帧移之后的时域信号的表示公式为xw_n(i)＝x(L·n+i)·w(i)，xw_n(i)表示第n个音频帧中第i个样本索引对应的时域信号，L表示帧移长度，w(i)表示第i个样本索引对应的时域信号。对上述帧移之后的时域信号进行傅里叶变换，得到加窗之后的频域信号，该加窗之后的频域信号的表示公式为其中，X(n,k)表示第n个音频帧的第k个采样频率点的频域信号，n表示音频帧标识，i表示样本索引的标识，k表示采样频率点的标识。对上述加窗之后的频域信号进行取模计算，进而确定目标音频中每个音频帧中每个采样频率点对应的幅度值，其中，取模公式为A(n,k)＝||X(n,k)||。

上述过程涉及到的取模计算过程为：获取频域信号中的实部和虚部，并确定实部的平方值和虚部的平方值。将两个平方值进行相加，得到平方和。对该平方和进行开方，得到该平方和对应开方值，将其作为该频域信号对应的模。

可选的，每个音级对应的带通滤波器为滤波器组，滤波器组由多个单通带带通滤波器组成，每个单通带带通滤波器对应的通过频段分别为音级的一个频段单元。也就是说，每个音级对应多个单带通滤波器，每个单带通滤波器对应的通过频段为该音级对应的一个频段单元。

其中，本申请实施例中的第1音级和第12音级分别对应8个频段单元，即第1音级和第12音级分别对应8个单通带带通滤波器。而其他音级对应9个频段单元，即其他音级对应9个单通带带通滤波器。

在本申请实施例中，构建第h个八度第c个音级对应的单带通带通滤波器的过程如下所述：

子步骤2011、确定第h个八度第c个音级对应的中心音分值。

其中，八度用于衡量音和音之间在听觉上的距离，是一种度量。对八度进行进一步划分，得到12个音级。相同八度相邻音级对应的中心音分值之差为100。相邻八度相同音级对应的中心音分差为1200。

在实施中，根据电子设备中预先存储的公式F_cent(h,c)＝1200h+100(c-1)，确定第h个八度第c个音级对应的中心音分值。其中，F_cent(h,c)表示第h个八度第c个音级对应的中心音分值，h表示八度标识，c表示音级标识。

或者，预先将每个八度每个音级对应的中心音分值存储在电子设备中，进而直接读取出第h个八度第c个音级对应的中心音分值。其中，每个八度每个音级对应的中心音分值可以如表1所示。

表1

	0	1	2	3	4	5	6	7	8
										1	/	1200	2400	3600	4800	6000	7200	8400	9600
2	100	1300	2500	3700	4900	6100	7300	8500	9700
										3	200	1400	2600	3800	5000	6200	7400	8600	9800
4	300	1500	2700	3900	5100	6300	7500	8700	9900
										5	400	1600	2800	4000	5200	6400	7600	8800	10000
6	500	1700	2900	4100	5300	6500	7700	8900	10100
										7	600	1800	3000	4200	5400	6600	7800	9000	10200
8	700	1900	3100	4300	5500	6700	7900	9100	10300
										9	800	2000	3200	4400	5600	6800	8000	9200	10400
10	900	2100	3300	4500	5700	6900	8100	9300	10500
										11	1000	2200	3400	4600	5800	7000	8200	9400	10600
12	1100	2300	3500	4700	5900	7100	8300	9500	/

在表2中，横轴的0、1、2……8分别表示第0个八度、第1个八度、第2个八度……第8个八度，纵轴的1、2、3……12分别表示第1个音级、第2个音级、第3个音级……第12个音级。

需要说明的是，在实际中，除第0个八度第1个音级和第8个八度第12个音级之外的其他频段单元已经涵盖了绝大多数音乐信号的频率，因此播放音频中的声音的频率一般不会在第0个八度第1个音级和第8个八度第12个音级对应的频段单元内，这样便不需要确定第0个八度第1个音级和第8个八度第12个音级分别对应的带通滤波器，更不需要确定第0个八度第1个音级和第8个八度第12个音级分别对应的中心音分值。

子步骤2012、根据每个频点索引对应的频率以及音分值和频率之间的转换公式，确定每个频点索引对应的音分值。

其中，在预设频率范围内每间隔预设频率对频率进行采样，获得每个频点索引对应的频率。其中，预设频率范围可以基于音分范围(0，10600)得到的。

在实施中，根据每个频点索引对应的频率以及音分和频率之间的转换公式确定每个频点索引对应的音分值。其中，f_cent为音分值，f_Hz为频率值。

子步骤2013、根据第h个八度第c个音级对应的中心音分值以及每个索引频点对应的音分值，构造第h个八度第c个音级的带通滤波器的增益特性曲线。

其中，第h个八度第c个音级的带通滤波器的增益特性曲线描述公式为：其中，W_h,c(k)表示第h个八度第c个音级的带通滤波器在第k个频点索引处对应的增益，F_c(k)表示第k个频点索引对应的音分值，F_cent(p)表示第h个八度第c个音级对应的中心音分值，p表示第h个八度第c个音级对应的半音标识，h表示八度标识，c表示音级标识。

需要说明的是，F_cent(p)＝100*p，F_cent(p+1)＝100*(p+1)，F_cent(p-1)＝100*(p-1)。也就是说，带通滤波器可以过滤的索引频点k所在的音分值范围为(100*(p-1)，100*(p-1))，即与带通滤波器的通过频段对应的音分值范围为(100*(p-1)，100*(p-1))。

当然，在本申请实施例中，还可以通过以下步骤构建每个八度每个音级对应的带通滤波器。

步骤a、根据音分和频率之间的转换公式以及每个八度每个音级对应的音分单元，确定每个八度每个音级对应的频段单元。

确定每个八度每个音级对应的音分单元的方法为：在确定每个八度每个音级对应的中心音分值之后，对于每个八度每个音级而言，将该中心音分值与二分之一个半音的音分值相加，确定对应的音分单元中的最大音分值，将该中心音分值减去二分之一个半音的音分值，确定对应的音分单元中的最小音分值，根据最小音分值和最大音分值，确定对应的音分单元，进而得到每个八度每个音级对应的音分单元。其中，一个半音对应的音分值为100，二分之一个半音对应的音分值为50。

例如，第0个八度第3个音级对应的中心音分值为200，二分之一个半音的音分值为50，这样第0个八度第3个音级对应的音分单元中的最小音分值为150，对应的音分单元中的最大音分值为250。由此可知，第3个音级对应的音分范围为150～250。

需要说明的，为了保证每个音分值都存在对应的八度和音级，可以将每个八度每个音级对应的音分单元设为半开半闭区间，这样基于可以保证每个音分值都存在对应的音级。例如，将第0个八度第3个音级对应的音分单元设置为(150，250]，将第0个八度第4个音级对应的音分单元设置为(250，350]。

在实施中，对于每个八度每个音级对应的音分单元，根据音分和频率之间的转换公式对该音分单元的最大音分值和最小音分值进行转换，得到该频段单元对应的最大频率值和最小频率值，进而得到该音分单元对应的频段单元。通过这样的方法，确定出每个八度每个音级对应的频段单元。

其中，音分和频率之间的转换公式为其中，f_cent为音分值，f_Hz为频率值。

步骤b、根据每个八度每个c个音级对应的频段单元，构造每个八度每个音级对应的带通滤波器。

在本申请实施例中，可以根据已有的构造带通带通滤波器的方法以及每个八度每个音级对应的频段单元，构造每个八度每个音级对应的带通滤波器。

然而，根据步骤b确定出的每个八度每个音级对应的频段单元适合构造没有过滤带的过滤器。而在实际过程设置的滤波器往往存在衰减频段，衰减频段的存在会影响到每个八度每个音级对应的采样频率点的数目和幅值，进而最终得到每个音级对应的总能量。为了避免这种影响，在本申请中，可以根据每个八度每个音级对应的中心音分值和半音对应的半音值，确定每个八度每个音级对应的音分单元。即将每个八度每个音级对应的中心音分值与半音对应的音分值进行相加，确定每个八度每个音级对应的音分单元中的最大音分值，将每个八度每个音级对应的中心音分值与半音对应的音分值进行相减，确定每个八度每个音级对应的音分单元中的最小音分值。根据每个八度每个半音对应的音分单元构造每个八度每个半音对应的带通滤波器。这样可以在一定程度上避免滤波器中的过滤带对每个音级对应的总能量影响。

需要说明的是,本申请还可以使用相关技术中的其他方法建立每个八度每个半音对应的带通滤波器。

可选的，每个音级对应的带通滤波器为滤波器，滤波器为多通带带通滤波器，带通滤波器上的每个通过频段分别为带通滤波器对应的音级的一个频段单元。

其中，本申请中的第1音级和第12音级分别对应8个频段单元，即第1音级对应的带通滤波器和第12音级对应的带通滤波器只存在8个通过频段。而其他音级对应9个频段单元，即其他音级对应的带通滤波器都存在9个通过频段。上述涉及到的通过频段为允许频段单元内的频率通过的频段。

在本申请实施例中，在确定出每个音级对应的至少一个频段单元之后，可以通过相关技术中的其他方法建立每个音级对应的多通带滤波器。

步骤202、根据每个音频帧中每个音级对应的所有采样频率点的幅值，确定每个音频帧中每个音级的总能量。

在实施中，在确定每个音频帧中每个音级对应的所有采样频率点之后，确定每个音频帧中每个音级对应的所有采样频率点的幅值。根据每个音频帧中每个音级对应的所有采样频率点的幅值，确定每个音频帧中每个音级的总能量。

可选的，确定每个音级对应的所有采样频率点的幅值的平方和，作为每个音级的总能量。

在实施中，对于每个音级而言，计算该音级对应的所有采样频率点的幅值的平方，进而将每个幅值的平方进行相加，确定出该音级对应的所有采样频率点的幅值的平方和。将这个平方和作为对应音级的总能量。

可选的，确定每个音级对应的所有采样频率点的幅值和，作为每个音级的总能量。

在实施中，对于每个音级而言，将音级对应的所有采样频率点的幅值进行相加，确定该音级对应的幅值和。将该幅值和作为每个音级的总能量。

步骤203、对于每个音频帧，在音频帧的各音级的总能量中，确定最大总能量和次大总能量，根据次大总能量与最大总能量的比值，确定音频帧是否为纯音乐音频帧。

在实施中，对于每个音频帧，在音频帧的各音级的总能量中，确定最大总能量和次大总能量。之后，确定次大总能量与最大总能量的比值，将次大总能量与最大总能量的比值，确定为音频帧是非纯音乐音频帧的概率。最后，当音频帧为非纯音乐音频帧的概率大于第一预设数值时，确定该音频帧是非纯音乐音频帧，当该音频帧为非纯音乐音频帧的概率小于或者等于第一预设数值时，确定该音频帧是纯音乐音频帧。

或者，根据预设公式确定音频帧为纯音乐音频帧的概率，其中，v¹(n)表示第n个音频帧对应的最大总能量，v²(n)为表示第n个音频帧对应的次大总能量，p_I(n)表示第n个音频帧为纯音乐音频帧的概率。当该音频帧为纯音乐音频帧的概率大于或者等于第二预设数值时，确定该音频帧为纯音乐音频帧。当该音频帧为纯音乐音频帧的概率小于第二预设数值时，确定该音频帧为非纯音乐音频帧。

综上可知，本申请实施例中确定音频帧是否为纯音乐音频帧的方法存在两种，第一种方法是当次大总能量与最大总能量的比值大于第一预设数值时，确定该音频帧为非纯音乐音频帧。当次大总能量与最大总能量的比值小于或等于第一预设数值时，确定该音频帧为纯音乐音频帧。第二种方法是当音频帧为纯音乐音频帧的概率小于第二预设数值时，确定该音频帧为非纯音乐音频帧。当音频帧为纯音乐音频帧的概率大于或者等于第二预设数值时，确定该音频帧为纯音乐音频帧。

上述过程涉及到的第一预设数值和第二预设数值之间的关系为第一预设数值和第二预设数值的和为1。例如若第一预设数值设置为0.25，则将第二预设数值设置为0.75。

步骤204、根据非纯音乐音频帧或纯音乐音频帧的数目与目标音频中音频帧的总数目的比值，确定目标音频是否是纯音乐音频。

在本申请实施例中，根据非纯音乐音频帧或纯音乐音频帧的数目与目标音频中音频帧的总数目的比值，确定目标音频是否是纯音乐音频存在两种方法，这两种方法如下所述：

第一种方法，当非纯音乐音频帧的数目与目标音频中音频帧的总数目的比值小于第一预设比值时，确定目标音频是纯音乐音频；当非纯音乐音频帧的数目与目标音频中音频帧的总数目的比值大于或者等于第一预设比值时，确定目标音频不是纯音乐音频。

在实施中，统计非纯音乐音频帧的数目以及目标音频中音频帧的总数目，然后，计算非纯音乐音频帧的数目和总数目的比值，当该比值小于第一预设比值时，确定目标音频是纯音乐音频，当该比值大于或者等于第一预设比值时，确定所述目标音频不是纯音乐音频。

第二种方法，当纯音乐音频帧的数目与目标音频中音频帧的总数目的比值大于或者等于第二预设比值时，确定目标音频为纯音乐音频；当纯音乐音频帧的数目与目标音频中音频帧的总数目的比值小于第二预设比值时，确定目标音频不是纯音乐音频。

在实施中，统计纯音乐音频帧的数目以及目标音频中音频帧的总数目，然后，计算纯音乐音频帧的数目和总数目的比值，当该比值大于或者等于第二预设比值时，确定目标音频是纯音乐音频，当该比值小于第一预设比值时，确定目标音频不是纯音乐音频。

在本申请实施例中，还可以通过纯音乐音频帧的数目和非纯音乐音频帧的数目来检测音频是否是纯音乐音频。具体的，当纯音乐音频帧的数目与非纯音乐音频帧的数目的比值大于或者等于第三预设比值时，确定目标音频是纯音乐音频。当纯音乐音频帧的数目与非纯音乐音频帧的数目的比值小于第三预设比值时，确定目标音频不是纯音乐音频。

在实施中，统计目标音频中的纯音乐音频帧的数目和非纯音乐音频帧的数目，然后，计算纯音乐音频帧的数目和非纯音乐音频帧的数目之间的比值。当该比值大于或者等于第三预设比值时，确定目标音频是纯音乐音频，当该比值小于第三预设比值时，确定目标音频不是纯音乐音频。

在实际过程中，对于乐器来说，乐器发出的1000HZ的声音产生的频谱图如图3所示，在1000HZ、2000HZ、3000HZ……处会存在极窄的信号，而这种信号的宽度一般是小于每个音级对应的频率宽度的，其中，1000HZ对应的信号为基频信号，2000HZ、3000HZ……对应的信号为倍频信号。对于这样的音频信号，最大总能量是主要由1000HZ对应的信号确定的，即最大总能量是主要由基频信号确定的。次大总能量主要由2000HZ对应的信号确定的，即次大总能量主要是由部分倍频信号确定的。而基频信号的幅值要远远大于倍频信号，进而根据该特性确定音频帧是否为乐器声。

而对于人声而言，人物发出的1000HZ的声音产生的频谱图如图3所示，其中，人声发出的声音大小和乐器声发出的声音大小相同。在图3中可知，人声在1000HZ处的基频信号是较宽的，而这种信号宽度一般大于每个音级对应的频率宽度的，这样确定的出最大总能量和次大总能量相差不大，进而可以根据该特性确定音频帧是否包含人声。

需要说明的是，人声之所以存在这种特性，是由于人声引号会受到声门齐声以及声道(口腔等)等影响，使得人声信号的音调特性远不如乐器清晰。

在本申请实施例中，根据最大能量值和最小能量值的比值来确定目标音频是否为纯音乐音频，而确定最大能量值和最小能量值是可以是根据幅值直接确定的，而这种处理方法相比于基于神经网络模型确定目标音频是否为纯音乐的方法所需的计算量小，可以快速检测目标音频是否是纯音乐音频。

图5是本申请实施例提供的一种检测音频是否是纯音乐音频装置的结构示意图，参见图5，该装置包括：

第一确定模块510，被配置为根据目标音频中每个音频帧中每个采样频率点的幅值，确定每个音频帧中各音级的总能量；

第二确定模块520，被配置为根据每个音频帧中每个音级对应的所有采样频率点的幅值，确定每个音频帧中每个音级的总能量；

第三确定模块530，被配置为对于每个音频帧，在所述音频帧的各音级的总能量中，确定最大总能量和次大总能量，根据所述次大总能量与所述最大总能量的比值，确定所述音频帧是否为纯音乐音频帧；

第四确定模块540，被配置为根据非纯音乐音频帧或纯音乐音频帧的数目与所述目标音频中音频帧的总数目的比值，确定所述目标音频是否是纯音乐音频。

可选的，所述第一确定模块510，被配置为：

可选的，所述第二确定模块520，被配置为：

确定第h个八度第c个音级对应的中心音分值；

需要说明的是：上述实施例提供的检测音频是否是纯音乐音频装置在检测音频是否是纯音乐音频时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的检测音频是否是纯音乐音频装置与检测音频是否是纯音乐音频方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图6示出了本申请一个示例性实施例提供的终端600的结构框图。该终端600可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio LayerIV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端600包括有：处理器601和存储器602。

处理器601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器601可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器601还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器602中的非暂态的计算机可读存储介质用于存储至少一个程序代码，该至少一个程序代码用于被处理器601所执行以实现本申请中方法实施例提供的检测音频是否是纯音乐音频方法。

在一些实施例中，终端600还可选包括有：***设备接口603和至少一个***设备。处理器601、存储器602和***设备接口603之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口603相连。具体地，***设备包括：射频电路604、显示屏605、摄像头组件606、音频电路607、定位组件608和电源609中的至少一种。

***设备接口603可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器601和存储器602。在一些实施例中，处理器601、存储器602和***设备接口603被集成在同一芯片或电路板上；在一些其他实施例中，处理器601、存储器602和***设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路604用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路604包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路604还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏605用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时，显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时，显示屏605还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏605可以为一个，设置在终端600的前面板；在另一些实施例中，显示屏605可以为至少两个，分别设置在终端600的不同表面或呈折叠设计；在另一些实施例中，显示屏605可以是柔性显示屏，设置在终端600的弯曲表面上或折叠面上。甚至，显示屏605还可以设置成非矩形的不规则图形，也即异形屏。显示屏605可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件606用于采集图像或视频。可选地，摄像头组件606包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器601进行处理，或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路607还可以包括耳机插孔。

定位组件608用于定位终端600的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件608可以是基于美国的GPS(GlobalPositioning System，全球定位***)、中国的北斗***、俄罗斯的格雷纳斯***或欧盟的伽利略***的定位组件。

电源609用于为终端600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于：加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。

加速度传感器611可以检测以终端600建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号，控制显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器612可以检测终端600的机体方向及转动角度，陀螺仪传感器612可以与加速度传感器611协同采集用户对终端600的3D动作。处理器601根据陀螺仪传感器612采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器613可以设置在终端600的侧边框和/或显示屏605的下层。当压力传感器613设置在终端600的侧边框时，可以检测用户对终端600的握持信号，由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在显示屏605的下层时，由处理器601根据用户对显示屏605的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器614用于采集用户的指纹，由处理器601根据指纹传感器614采集到的指纹识别用户的身份，或者，由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器601授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置在终端600的正面、背面或侧面。当终端600上设置有物理按键或厂商Logo时，指纹传感器614可以与物理按键或厂商Logo集成在一起。

光学传感器615用于采集环境光强度。在一个实施例中，处理器601可以根据光学传感器615采集的环境光强度，控制显示屏605的显示亮度。具体地，当环境光强度较高时，调高显示屏605的显示亮度；当环境光强度较低时，调低显示屏605的显示亮度。在另一个实施例中，处理器601还可以根据光学传感器615采集的环境光强度，动态调整摄像头组件606的拍摄参数。

接近传感器616，也称距离传感器，通常设置在终端600的前面板。接近传感器616用于采集用户与终端600的正面之间的距离。在一个实施例中，当接近传感器616检测到用户与终端600的正面之间的距离逐渐变小时，由处理器601控制显示屏605从亮屏状态切换为息屏状态；当接近传感器616检测到用户与终端600的正面之间的距离逐渐变大时，由处理器601控制显示屏605从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图6中示出的结构并不构成对终端600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本申请实施例提供的计算机设备可提供为一种服务器。图7是本申请实施例提供的一种服务器的结构示意图，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)701和一个或一个以上的存储器702，其中，该存储器702中存储有至少一条程序代码，该至少一条程序代码由该处理器701加载并执行以实现上述各个方法实施例提供的检测音频是否是纯音乐音频方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括程序代码的存储器，上述程序代码可由终端或服务器中的处理器执行以完成上述实施例中的检测音频是否是纯音乐音频方法。例如，所述计算机可读存储介质可以是只读内存(read-onlymemory，ROM)、随机存取存储器(random access memory)，RAM)、只读光盘(compact-discread-only memory)、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来程序代码相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种检测音频是否是纯音乐音频方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据目标音频中每个音频帧中每个采样频率点的频率和每个音级对应的多个频段单元，确定每个音频帧中每个音级对应的所有采样频率点，包括：

3.根据权利要求2所述的方法，其特征在于，所述音级对应的带通滤波器为滤波器组，所述滤波器组由多个单通带带通滤波器组成，每个单通带带通滤波器对应的通过频段分别为所述音级的一个频段单元。

4.根据权利要求2所述的方法，其特征在于，所述音级对应的带通滤波器为滤波器，所述滤波器为多通带带通滤波器，所述带通滤波器上的每个通过频段分别为所述带通滤波器对应的音级的一个频段单元。

5.根据权利要求1所述的方法，其特征在于，所述根据每个音频帧中每个音级对应的所有采样频率点的幅值，确定每个音频帧中每个音级的总能量，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据每个音频帧中每个音级对应的所有采样频率点的幅值，确定每个音频帧中每个音级的总能量，包括：

7.根据权利要求3所述的方法，其特征在于，所述方法还包括：

确定第h个八度第c个音级对应的中心音分值；

8.根据权利要求7所述的方法，其特征在于，所述第h个八度第c个音级的带通滤波器的增益特性曲线描述公式为：

9.一种终端，其特征在于，所述终端包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行以实现如权利要求1至权利要求8任一项所述的检测音频是否是纯音乐音频方法所执行的操作。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行以实现如权利要求1至权利要求8任一项所述的检测音频是否是纯音乐音频方法所执行的操作。