CN110890083A

CN110890083A - 音频数据的处理方法、装置、电子设备及存储介质

Info

Publication number: CN110890083A
Application number: CN201911058911.9A
Authority: CN
Inventors: 张晨; 董培
Original assignee: Reach Best Technology Co Ltd
Current assignee: Reach Best Technology Co Ltd
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2020-03-17
Anticipated expiration: 2039-10-31
Also published as: CN110890083B

Abstract

本公开关于一种音频数据的处理方法、装置、电子设备及存储介质，其中，所述方法包括：计算每一帧音频信号的能量值和短时平均能量值；根据当前帧音频信号的能量值、短时平均能量值和门限值检测得到多个第一节拍点；根据节拍点提取函数在多个第一节拍点中搜索出多个第二节拍点，第二节拍点表示音频数据的强弱规律的程度大于或等于第一节拍点表示音频数据的强弱规律的程度。本公开通过音频信号的能量值和短时平均能量值初步检测得到多个第一节拍点，再利用节拍点提取函数从多个第一节拍点中搜索出多个第二节拍点，相比于直接将重音信号作为节拍点而言，第二节拍点更加能够表示音频数据的强弱规律的程度，本公开检测节拍点的准确度更高。

Description

音频数据的处理方法、装置、电子设备及存储介质

技术领域

本公开涉及音频数据处理技术领域，尤其涉及一种音频数据的处理方法、装置、电子设备及存储介质。

背景技术

节拍是衡量节奏的单位，比喻有规律的进程。在音乐中，节拍指有一定强弱区别的一系列拍子在每隔一定时间重复出现。音乐的节拍点检测除了用于对音乐进行类型分析之外，越来越多地应用于服务或者内容生产方面。例如，利用对视频数据中的音乐检测到的节拍点控制魔法表情，或者控制视频、图片的转场，以提升视频数据的律动性。

相关技术中，在检测音乐的节拍点时，过滤出音乐的低频部分，将低频部分能量较大的信号认为是重音信号，将重音信号标记为节拍点。但是，重音信号表示音乐中强度较大的信号，无法表示强度本身。重音信号是构成节奏的主要因素，无法替代节拍点。因此，通过目前的节拍点检测方案检测到的节拍点不准确。

发明内容

本公开提供了一种音频数据的处理方法、装置、电子设备及存储介质，以至少解决相关技术中节拍点检测不准确的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供了一种音频数据的处理方法，包括：获取待处理的音频数据；计算所述音频数据的每一帧音频信号的能量值和短时平均能量值，所述短时平均能量值表示一帧音频信号对应的时间段的平均能量值；针对每一帧音频信号，根据当前帧音频信号的所述能量值、所述短时平均能量值和预设的门限值检测得到所述当前帧音频信号的多个第一节拍点；根据预设的节拍点提取函数在多个所述第一节拍点中搜索出多个第二节拍点，所述第二节拍点表示所述音频数据的强弱规律的程度大于或等于所述第一节拍点表示所述音频数据的强弱规律的程度。

可选地，所述针对每一帧音频信号，根据当前帧音频信号的所述能量值、所述短时平均能量值和预设的门限值检测得到所述当前帧音频信号的多个第一节拍点的步骤，包括：针对每一帧音频信号，将当前帧音频信号的所述能量值与所述短时平均能量值的比值与所述门限值进行比较；若所述比值大于所述门限值，则将所述当前帧音频信号作为所述第一节拍点。

可选地，所述根据预设的节拍点提取函数在多个所述第一节拍点中搜索出多个第二节拍点的步骤，包括：计算所述节拍点提取函数的最大值；所述节拍点提取函数表示cos(2*M_PI*(t-t0)/p)，其中，所述M_PI表示圆周率，所述t表示所述第一节拍点在所述音频数据中的帧序号，所述t0表示偏移值，所述偏移值表示第一个所述第二节拍点在所述音频数据中的帧序号，所述p表示所述第一节拍点的数量，所述t0∈[1，p]；将所述节拍点提取函数为所述最大值时的所述偏移值对应的所述第一节拍点作为第一个所述第二节拍点；根据所述节拍点提取函数为所述最大值时的所述数量计算相邻两个所述第二节拍点之间的时间间隔；从第一个所述第二节拍点开始，按照所述时间间隔依次确定多个所述第二节拍点。

可选地，所述计算所述音频数据的每一帧音频信号的能量值的步骤，包括：根据如下公式计算所述能量值：POW_Y2(n)＝sum(Y2(n)[k])；其中，所述n表示音频信号的帧序号，所述n大于或等于1，所述POW_Y2(n)表示第n帧的音频信号的所述能量值，所述k表示音频信号的各个频率的编号，所述Y2(n)[k]表示第n帧音频信号的第k个频率的能量值，所述Y2(n)表示第n帧音频信号的各个频率的能量值之和。

可选地，所述计算所述音频数据的每一帧音频信号的短时平均能量值的步骤，包括：根据如下公式计算所述短时平均能量值：POW_Y2_Average(n+1)＝POW_Y2_Average(n)*a+POW_Y2(n)*(1-a)；其中，所述n表示音频信号的帧序号，所述n大于或等于1，所述POW_Y2_Average(n+1)表示第n+1帧的音频信号的所述短时平均能量值，所述POW_Y2_Average(n)表示第n帧的音频信号的所述短时平均能量值，当n＝1时，所述POW_Y2_Average(1)初始化为0，所述a表示滑动系数，所述a大于或等于0且小于1，所述POW_Y2(n)表示第n帧的音频信号的所述能量值。

可选地，在所述计算所述音频数据的每一帧音频信号的能量值和短时平均能量值的步骤之前，所述方法还包括：对所述音频数据进行降采样处理和/或频率加重处理。

可选地，所述对所述音频数据进行频率加重处理的步骤，包括：将所述音频数据由时域信号转换为频域信号；获取与所述音频数据对应的频率响应曲线；根据所述频率响应曲线对所述频域信号进行频率加重处理。

根据本公开实施例的第二方面，提供了一种音频数据的处理装置，包括：获取模块，被配置为获取待处理的音频数据；计算模块，被配置为计算所述音频数据的每一帧音频信号的能量值和短时平均能量值，所述短时平均能量值表示一帧音频信号对应的时间段的平均能量值；检测模块，被配置为针对每一帧音频信号，根据当前帧音频信号的所述能量值、所述短时平均能量值和预设的门限值检测得到所述当前帧音频信号的多个第一节拍点；搜索模块，被配置为根据预设的节拍点提取函数在多个所述第一节拍点中搜索出多个第二节拍点，所述第二节拍点表示所述音频数据的强弱规律的程度大于或等于所述第一节拍点表示所述音频数据的强弱规律的程度。

可选地，所述检测模块，被配置为针对每一帧音频信号，将当前帧音频信号的所述能量值与所述短时平均能量值的比值与所述门限值进行比较；若所述比值大于所述门限值，则将所述当前帧音频信号作为所述第一节拍点。

可选地，所述搜索模块，包括：函数计算模块，被配置为计算所述节拍点提取函数的最大值；所述节拍点提取函数表示cos(2*M_PI*(t-t0)/p)，其中，所述M_PI表示圆周率，所述t表示所述第一节拍点在所述音频数据中的帧序号，所述t0表示偏移值，所述偏移值表示第一个所述第二节拍点在所述音频数据中的帧序号，所述p表示所述第一节拍点的数量，所述t0∈[1，p]；节拍点确定模块，被配置为将所述节拍点提取函数为所述最大值时的所述偏移值对应的所述第一节拍点作为第一个所述第二节拍点；根据所述节拍点提取函数为所述最大值时的所述数量计算相邻两个所述第二节拍点之间的时间间隔；从第一个所述第二节拍点开始，按照所述时间间隔依次确定多个所述第二节拍点。

可选地，所述计算模块，被配置为根据如下公式计算所述能量值：POW_Y2(n)＝sum(Y2(n)[k])；其中，所述n表示音频信号的帧序号，所述n大于或等于1，所述POW_Y2(n)表示第n帧的音频信号的所述能量值，所述k表示音频信号的各个频率的编号，所述Y2(n)[k]表示第n帧音频信号的第k个频率的能量值，所述Y2(n)表示第n帧音频信号的各个频率的能量值之和。

可选地，所述计算模块，被配置为根据如下公式计算所述短时平均能量值：POW_Y2_Average(n+1)＝POW_Y2_Average(n)*a+POW_Y2(n)*(1-a)；其中，所述n表示音频信号的帧序号，所述n大于或等于1，所述POW_Y2_Average(n+1)表示第n+1帧的音频信号的所述短时平均能量值，所述POW_Y2_Average(n)表示第n帧的音频信号的所述短时平均能量值，当n＝1时，所述POW_Y2_Average(1)初始化为0，所述a表示滑动系数，所述a大于或等于0且小于1，所述POW_Y2(n)表示第n帧的音频信号的所述能量值。

可选地，所述装置还包括：预处理模块，被配置为在所述计算模块计算所述音频数据的每一帧音频信号的能量值和短时平均能量值之前，对所述音频数据进行降采样处理和/或频率加重处理。

可选地，所述预处理模块，包括：域转换模块，被配置为将所述音频数据由时域信号转换为频域信号；曲线获取模块，被配置为获取与所述音频数据对应的频率响应曲线；频率加重模块，被配置为根据所述频率响应曲线对所述频域信号进行频率加重处理。

根据本公开实施例的第三方面，提供了一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如第一方面所述的音频数据的处理方法。

根据本公开实施例的第四方面，提供了一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如第一方面所述的音频数据的处理方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括可读性程序代码，所述可读性程序代码可由电子设备的处理器执行以完成如第一方面所述的音频数据的处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开的实施例计算待处理的音频数据中每一帧音频信号的能量值和短时平均能量值，其中，短时平均能量值表示一帧音频信号对应的时间段的平均能量值。然后，针对每一帧音频信号，根据当前帧音频信号的能量值、短时平均能量值和门限值检测得到当前帧音频信号的多个第一节拍点。再根据节拍点提取函数在多个第一节拍点中搜索出多个第二节拍点。第二节拍点表示音频数据的强弱规律的程度大于或等于第一节拍点表示音频数据的强弱规律的程度。

本公开的实施例计算每一帧音频信号的能量值和短时平均能量值，根据能量值和短时平均能量值检测得到每一帧音频信号的多个第一节拍点，第一节拍点表示音频数据的强弱规律的程度较小。再根据节拍点提取函数从多个第一节拍点中搜索出多个第二节拍点，第二节拍点表示音频数据的强弱规律的程度较大。本公开的实施例通过音频信号的能量值和短时平均能量值初步检测得到多个第一节拍点，再利用节拍点提取函数从多个第一节拍点中搜索出更加能够表示音频数据的强弱规律的程度的多个第二节拍点，相比于直接将重音信号作为节拍点而言，第二节拍点更加能够表示音频数据的强弱规律的程度，因此，本公开的实施例检测节拍点的准确度更高。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种音频数据的处理方法的流程图。

图2是根据一示例性实施例示出的一种音频数据的处理装置的框图。

图3是根据一示例性实施例示出的一种音频数据的处理电子设备的框图。

图4是根据一示例性实施例示出的一种用于对音频数据进行处理的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种音频数据的处理方法的流程图，如图1所示，该音频数据的处理方法可以包括以下步骤。

在步骤S11中，获取待处理的音频数据。

在本公开的实施例中，音频数据可以为一段包含音乐的音频文件，除了包含有音乐之外，还可以夹杂有噪音等。音频数据可以为常用的音频格式，例如，无损音频压缩编码(Free Lossless Audio Codec，FLAC)等。本公开的实施例对音频格式的带宽、速度等不作具体限制。

在本公开的一种示例性实施例中，由于音频数据的采样率、频率等特征不理想，不适宜直接检测节拍点。因此可以先对音频数据进行相关的预处理操作。在实际应用中，对音频数据进行预处理操作时，可以对音频数据进行降采样处理和/或频率加重处理。

在对音频数据进行降采样处理时，可以采用常用的降采样函数对音频数据进行降采样处理，例如，通过如下公式对音频数据进行降采样处理：

y(n)＝Resample(x(n))；

其中，y(n)表示降采样处理后的音频数据，Resample()表示降采样函数，x(n)表示音频数据，n表示音频数据中音频信号的帧序号，n大于或等于1。

在对音乐等音频数据进行降采样处理时，可以将音频数据的采样率降低至16kHZ，本公开实施例对音频数据的采样率降低值或者采样率降低目的值等不作具体限制。

在对音频数据进行频率加重处理时，可以将音频数据由时域信号转换为频域信号，例如，通过如下公式将音频数据由时域信号转换为频域信号：

Y1(n)＝FFT(y(n))；

其中，Y1(n)表示转换后的频域信号，FFT()表示快速傅里叶变换函数，y(n)表示音频数据，n表示音频信号的帧序号，n大于或等于1。

然后，利用频率响应曲线对频域信号进行频率加重处理。例如，根据如下公式对频域信号进行频率加重处理：

Y2(n)＝W*Y1(n)；

其中，Y2(n)表示频率加重处理后的音频数据，W表示频率响应曲线，Y1(n)表示转换后的频域信号，n表示音频信号的帧序号，n大于或等于1。

上述频率响应曲线可以根据音频数据的类型、音频数据的各频带的能量比例或变化程度选择得到。例如，音频数据的类型为古典音乐或者摇滚音乐，低频部分明显，因此可以选择加重低频的频率响应曲线。又例如，音频数据的类型为流行音乐，高频部分明显，因此可以选择加重高频的频率响应曲线。还例如，音频数据的各频带的能量比例较大或者变化较大，可以选择加重该能量较大比例或者变化较大的频带的频率响应曲线。

在对音频数据进行降采样处理和频率加重处理时，可以先对音频数据进行降采样处理，再对降采样处理后的音频数据进行频率加重处理。或者，可以先对音频数据进行频率加重处理，再对频率加重处理后的音频数据进行降采样处理。降采样处理和频率加重处理只是预处理操作中的两种示例操作，本公开的实施例对预处理操作的技术手段等不做具体限制。

在步骤S12中，计算音频数据的每一帧音频信号的能量值和短时平均能量值。

在本公开的实施例中，计算音频数据的每一帧音频信号的能量值时，可以根据如下公式计算能量值：

POW_Y2(n)＝sum(Y2(n)[k])；

其中，n表示音频信号的帧序号，n大于或等于1，POW_Y2(n)表示第n帧的音频信号的能量值，k表示音频信号的各个频率的编号，Y2(n)[k]表示第n帧音频信号的第k个频率的能量值。通常，音频信号的频率的编号范围可以[0，2048]，Y2(n)表示第n帧音频信号的各个频率的能量值之和，。

在本公开的实施例中，计算音频数据的每一帧音频信号的短时平均能量值时，可以利用滑动平均的方法计算短时平均能量值，例如：根据如下公式计算短时平均能量值：

POW_Y2_Average(n+1)＝POW_Y2_Average(n)*a+POW_Y2(n)*(1-a)；

其中，n表示音频信号的帧序号，n大于或等于1，POW_Y2_Average(n+1)表示第n+1帧的音频信号的短时平均能量值，POW_Y2_Average(n)表示第n帧的音频信号的短时平均能量值，当n＝1时，POW_Y2_Average(1)可以初始化为0，a表示滑动系数，a大于或等于0且小于1，a可以根据实际经验确定，POW_Y2(n)表示第n帧的音频信号的能量值。

在步骤S13中，针对每一帧音频信号，根据当前帧音频信号的能量值、短时平均能量值和预设的门限值检测得到当前帧音频信号的多个第一节拍点。

在本公开的实施例中，可以针对每一帧音频信号，根据当前帧音频信号的能量值、短时平均能量值和预设的门限值进行初步检测，得到多个第一节拍点。第一节拍点可以理解为表示音频数据的强弱规律的程度较小的节拍点。程度较小只是相对而言，可以根据实际情况进行初步检测得到第一节拍点，本公开的实施例对第一节拍点表示强弱规律的程度等不做具体限制。

在本公开的一种示例性实施例中，可以针对每一帧音频信号，将当前帧音频信号的能量值与短时平均能量值的比值与门限值进行比较，若比值大于门限值，则当前帧音频信号可以作为第一节拍点；若比值小于或等于门限值，则当前帧音频信号不可以作为第一节拍点。最终，确定每一帧音频信号是否可以作为第一节拍点，进而可以得到多个第一节拍点。例如，Feature(n)＝POW_Y2(n)/POW_Y2_Average(n)，其中，Feature(n)>0。Feature(n)表示第n帧的音频信号的能量值与短时平均能量值的比值，Feature(n)越大，表示当前帧音频信号为第一节拍点的可能性越高。可以根据经验设定一门限值，将超过该门限值的Feature(n)对应的当前帧音频信号作为第一节拍点，同时，还可以记录下该第一节拍点的时间信息，即该第一节拍点在音频数据中的帧序号。

至此，从音频数据中检测得到了多个第一节拍点。但是，并非每个第一节拍点均适合于魔法表情或者视频、图片转场等场景，或者，若第一节拍点的数量较多，不需要在每个第一节拍点均进行视频、图片转场。因此，需要在多个第一节拍点中搜索出多个第二节拍点，第二节拍点表示音频数据的强弱规律的程度可以大于或等于第一节拍点表示音频数据的强弱规律的程度。以便以利用第二节拍点实现魔法表情或者视频、图片转场等。

步骤S14，根据预设的节拍点提取函数在多个第一节拍点中搜索出多个第二节拍点。

通常，一段音频数据的第一节拍点可以有多个，第一节拍点的数量可以为40至120个。可以根据预设的节拍点提取函数从多个第一节拍点中提取出多个第二节拍点。在实际应用中，考虑到各种翻唱音乐的复杂性和不精确性，为了增加鲁棒性，可以采用余弦函数作为节拍点提取函数。具体地，可以计算节拍点提取函数的最大值，该节拍点提取函数可以为cos(2*M_PI*(t-t0)/p)，其中，M_PI表示圆周率，t表示第一节拍点在音频数据中的帧序号，t0表示偏移值，偏移值表示第一个第二节拍点在音频数据中的帧序号，p表示第一节拍点的数量，t0∈[1，p]。考虑到实现魔法表情或者视频、图片转场的实际需要，将该p设置为40至120之间的任意整数，以搜索得到更准确的第二节拍点；将节拍点提取函数为最大值时的偏移值对应的第一节拍点作为第一个第二节拍点；根据节拍点提取函数为最大值时的第一节拍点的数量计算相邻两个第二节拍点之间的时间间隔，从第一个第二节拍点开始，按照时间间隔依次确定多个第二节拍点。

在计算时间间隔时，例如，一帧音频信号的时间长度为1分钟，可以将1分钟的60s除以一帧音频信号中的第一节拍点的数量得到的商值作为时间间隔。

在确定了第二节拍点之后，可以利用每个第二节拍点的Feature(n)作为强度值。而且，为了提高强度值的鲁棒性，可以搜索第二节拍点在音频数据中所在位置周围的最大Feature(n)作为最佳强度值。该第二节拍点在音频数据中所在位置周围可以理解为与第二节拍点相隔3-4帧范围内，该第二节拍点在音频数据中所在位置周围的具体帧数范围可以根据实际情况设定。例如，第二节拍点在音频数据的第5帧，则可以在音频数据的第1帧至第9帧范围内搜索最佳强度值。最终，可以在最佳强度值的音信信号处进行视频、图片转场。

例如，基于一段2分钟时长的音乐文件制作具有图片转场效果的短视频，利用本公开实施例中的上述技术方案在音乐文件中确定出100个第一节拍点，预设10张图片作为转场时使用的图片。在音乐文件播放的2分钟时间里，从100个第一节拍点中搜索出9个强度值最大的第二节拍点，在音乐文件开始处，以及9个强度值最大的第二节拍点处在10张图片中自动切换，最终制作完成一个有节奏感的图片短视频。

在将本公开实施例中的技术方案应用于图片、视频转场等应用场景时，由于音频数据的第一节拍点数量较多，不适合每个第一节拍点均进行图片、视频转场。因此，在多个第一节拍点中搜索出几个第二节拍点，并将第二节拍点周围的强度值最大的音频信号作为图片、视频转场处的音频信号，提高转场位置处强度的鲁棒性。

图2是根据一示例性实施例示出的一种音频数据的处理装置的框图。该装置具体可以包括如下模块。

获取模块21，被配置为获取待处理的音频数据；

计算模块22，被配置为计算所述音频数据的每一帧音频信号的能量值和短时平均能量值，所述短时平均能量值表示一帧音频信号对应的时间段的平均能量值；

检测模块23，被配置为针对每一帧音频信号，根据当前帧音频信号的所述能量值、所述短时平均能量值和预设的门限值检测得到所述当前帧音频信号的多个第一节拍点；

搜索模块24，被配置为根据预设的节拍点提取函数在多个所述第一节拍点中搜索出多个第二节拍点，所述第二节拍点表示所述音频数据的强弱规律的程度大于或等于所述第一节拍点表示所述音频数据的强弱规律的程度。

在本公开的一种示例性实施例中，所述检测模块23，被配置为针对每一帧音频信号，将当前帧音频信号的所述能量值与所述短时平均能量值的比值与所述门限值进行比较；若所述比值大于所述门限值，则将所述当前帧音频信号作为所述第一节拍点。

在本公开的一种示例性实施例中，所述搜索模块24，包括：

函数计算模块241，被配置为计算所述节拍点提取函数的最大值；所述节拍点提取函数表示cos(2*M_PI*(t-t0)/p)，其中，所述M_PI表示圆周率，所述t表示所述第一节拍点在所述音频数据中的帧序号，所述t0表示偏移值，所述偏移值表示第一个所述第二节拍点在所述音频数据中的帧序号，所述p表示所述第一节拍点的数量，所述t0∈[1，p]；

节拍点确定模块242，被配置为将所述节拍点提取函数为所述最大值时的所述偏移值对应的所述第一节拍点作为第一个所述第二节拍点；根据所述节拍点提取函数为所述最大值时的所述数量计算相邻两个所述第二节拍点之间的时间间隔；从第一个所述第二节拍点开始，按照所述时间间隔依次确定多个所述第二节拍点。

在本公开的一种示例性实施例中，所述计算模块22，被配置为根据如下公式计算所述能量值：

POW_Y2(n)＝sum(Y2(n)[k])；

其中，所述n表示音频信号的帧序号，所述n大于或等于1，所述POW_Y2(n)表示第n帧的音频信号的所述能量值，所述k表示音频信号的各个频率的编号，所述Y2(n)[k]表示第n帧音频信号的第k个频率的能量值，所述Y2(n)表示第n帧音频信号的各个频率的能量值之和。

在本公开的一种示例性实施例中，所述计算模块22，被配置为根据如下公式计算所述短时平均能量值：

POW_Y2_Average(n+1)＝POW_Y2_Average(n)*a+POW_Y2(n)*(1-a)；

其中，所述n表示音频信号的帧序号，所述n大于或等于1，所述POW_Y2_Average(n+1)表示第n+1帧的音频信号的所述短时平均能量值，所述POW_Y2_Average(n)表示第n帧的音频信号的所述短时平均能量值，当n＝1时，所述POW_Y2_Average(1)初始化为0，所述a表示滑动系数，所述a大于或等于0且小于1，所述POW_Y2(n)表示第n帧的音频信号的所述能量值。

在本公开的一种示例性实施例中，所述装置还包括：

预处理模块25，被配置为在所述计算模块22计算所述音频数据的每一帧音频信号的能量值和短时平均能量值之前，对所述音频数据进行降采样处理和/或频率加重处理。

在本公开的一种示例性实施例中，所述预处理模块25，包括：

域转换模块251，被配置为将所述音频数据由时域信号转换为频域信号；

曲线获取模块252，被配置为获取与所述音频数据对应的频率响应曲线；

频率加重模块253，被配置为根据所述频率响应曲线对所述频域信号进行频率加重处理。

所述预处理模块25还可以包括降采样模块254，被配置为对音频数据进行降采样操作。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图3是根据一示例性实施例示出的一种音频数据的处理电子设备300的框图。例如，电子设备300可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图3，电子设备300可以包括以下一个或多个组件：处理组件302，存储器304，电力组件306，多媒体组件308，音频组件310，输入/输出(I/O)的接口312，传感器组件314，以及通信组件316。

处理组件302通常控制电子设备300的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件302可以包括一个或多个处理器320来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件302可以包括一个或多个模块，便于处理组件302和其他组件之间的交互。例如，处理组件302可以包括多媒体模块，以方便多媒体组件308和处理组件302之间的交互。

存储器304被配置为存储各种类型的数据以支持在电子设备300的操作。这些数据的示例包括用于在电子设备300上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件306为电子设备300的各种组件提供电力。电源组件306可以包括电源管理***，一个或多个电源，及其他与为电子设备300生成、管理和分配电力相关联的组件。

多媒体组件308包括在所述电子设备300和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件308包括一个前置摄像头和/或后置摄像头。当电子设备300处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件310被配置为输出和/或输入音频信号。例如，音频组件310包括一个麦克风(MIC)，当电子设备300处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器304或经由通信组件316发送。在一些实施例中，音频组件310还包括一个扬声器，用于输出音频信号。

I/O接口312为处理组件302和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件314包括一个或多个传感器，用于为电子设备300提供各个方面的状态评估。例如，传感器组件314可以检测到电子设备300的打开/关闭状态，组件的相对定位，例如所述组件为电子设备300的显示器和小键盘，传感器组件314还可以检测电子设备300或电子设备300一个组件的位置改变，用户与电子设备300接触的存在或不存在，电子设备300方位或加速/减速和电子设备300的温度变化。传感器组件314可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件314还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件314还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件316被配置为便于电子设备300和其他设备之间有线或无线方式的通信。电子设备300可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件316经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件316还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备300可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器304，上述指令可由电子设备300的处理器320执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，该计算机程序产品包括可读性程序代码，该可读性程序代码可由电子设备300的处理器320执行以完成上述方法。可选地，该程序代码可以存储在电子设备300的存储介质中，该存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图4是根据一示例性实施例示出的一种用于对音频数据进行处理的电子设备400的框图。例如，电子设备400可以被提供为一服务器。参照图4，电子设备400包括处理组件422，其进一步包括一个或多个处理器，以及由存储器432所代表的存储器资源，用于存储可由处理组件422的执行的指令，例如应用程序。存储器432中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件422被配置为执行指令，以执行上述音频数据的处理方法。

电子设备400还可以包括一个电源组件426被配置为执行电子设备400的电源管理，一个有线或无线网络接口450被配置为将电子设备400连接到网络，和一个输入输出(I/O)接口458。电子设备400可以操作基于存储在存储器432的操作***，例如WindowsServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种音频数据的处理方法，其特征在于，包括：

获取待处理的音频数据；

计算所述音频数据的每一帧音频信号的能量值和短时平均能量值，所述短时平均能量值表示一帧音频信号对应的时间段的平均能量值；

针对每一帧音频信号，根据当前帧音频信号的所述能量值、所述短时平均能量值和预设的门限值检测得到所述当前帧音频信号的多个第一节拍点；

根据预设的节拍点提取函数在多个所述第一节拍点中搜索出多个第二节拍点，所述第二节拍点表示所述音频数据的强弱规律的程度大于或等于所述第一节拍点表示所述音频数据的强弱规律的程度。

2.根据权利要求1所述的音频数据的处理方法，其特征在于，所述针对每一帧音频信号，根据当前帧音频信号的所述能量值、所述短时平均能量值和预设的门限值检测得到所述当前帧音频信号的多个第一节拍点的步骤，包括：

针对每一帧音频信号，将当前帧音频信号的所述能量值与所述短时平均能量值的比值与所述门限值进行比较；

若所述比值大于所述门限值，则将所述当前帧音频信号作为所述第一节拍点。

3.根据权利要求1所述的音频数据的处理方法，其特征在于，所述根据预设的节拍点提取函数在多个所述第一节拍点中搜索出多个第二节拍点的步骤，包括：

计算所述节拍点提取函数的最大值；所述节拍点提取函数表示cos(2*M_PI*(t-t0)/p)，其中，所述M_PI表示圆周率，所述t表示所述第一节拍点在所述音频数据中的帧序号，所述t0表示偏移值，所述偏移值表示第一个所述第二节拍点在所述音频数据中的帧序号，所述p表示所述第一节拍点的数量，所述t0∈[1，p]；

将所述节拍点提取函数为所述最大值时的所述偏移值对应的所述第一节拍点作为第一个所述第二节拍点；

根据所述节拍点提取函数为所述最大值时的所述数量计算相邻两个所述第二节拍点之间的时间间隔；

从第一个所述第二节拍点开始，按照所述时间间隔依次确定多个所述第二节拍点。

4.根据权利要求1所述的音频数据的处理方法，其特征在于，所述计算所述音频数据的每一帧音频信号的能量值的步骤，包括：

根据如下公式计算所述能量值：

POW_Y2(n)＝sum(Y2(n)[k])；

5.根据权利要求1所述的音频数据的处理方法，其特征在于，所述计算所述音频数据的每一帧音频信号的短时平均能量值的步骤，包括：

根据如下公式计算所述短时平均能量值：

POW_Y2_Average(n+1)＝POW_Y2_Average(n)*a+POW_Y2(n)*(1-a)；

6.根据权利要求1所述的音频数据的处理方法，其特征在于，在所述计算所述音频数据的每一帧音频信号的能量值和短时平均能量值的步骤之前，所述方法还包括：

对所述音频数据进行降采样处理和/或频率加重处理。

7.根据权利要求6所述的音频数据的处理方法，其特征在于，所述对所述音频数据进行频率加重处理的步骤，包括：

将所述音频数据由时域信号转换为频域信号；

获取与所述音频数据对应的频率响应曲线；

根据所述频率响应曲线对所述频域信号进行频率加重处理。

8.一种音频数据的处理装置，其特征在于，包括：

获取模块，被配置为获取待处理的音频数据；

计算模块，被配置为计算所述音频数据的每一帧音频信号的能量值和短时平均能量值，所述短时平均能量值表示一帧音频信号对应的时间段的平均能量值；

检测模块，被配置为针对每一帧音频信号，根据当前帧音频信号的所述能量值、所述短时平均能量值和预设的门限值检测得到所述当前帧音频信号的多个第一节拍点；

搜索模块，被配置为根据预设的节拍点提取函数在多个所述第一节拍点中搜索出多个第二节拍点，所述第二节拍点表示所述音频数据的强弱规律的程度大于或等于所述第一节拍点表示所述音频数据的强弱规律的程度。

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的音频数据的处理方法。

10.一种存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至7中任一项所述的音频数据的处理方法。