CN104091591B

CN104091591B - 一种音频处理方法及装置

Info

Publication number: CN104091591B
Application number: CN201310481839.7A
Authority: CN
Inventors: 赵伟峰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2013-10-15
Filing date: 2013-10-15
Publication date: 2016-01-27
Anticipated expiration: 2033-10-15
Also published as: CN104091591A

Abstract

本发明实施例提供一种音频处理方法及装置，其中的方法可包括：从待处理的音频文件中选取区间音频数据；构建所述区间音频数据的特征参数序列，所述特征参数序列包括能量序列和频谱滚降序列；根据所述区间音频数据的特征参数序列，定位所述音频文件的副歌。本发明可以对音频文件进行副歌定位，提升音频处理的智能性。

Description

一种音频处理方法及装置

技术领域

本发明涉及互联网技术领域，具体涉及音频处理技术领域，尤其涉及一种音频处理方法及装置。

背景技术

副歌，通常指音频文件（如歌曲、音乐等等）的高潮部分。以歌曲为例，一首歌曲通常采用AA’BA’Form（音乐结构），A代表主歌，而B代表副歌；也即时说，通常一首歌曲由“前奏+两段主歌+一段副歌+过门音乐+一段副歌+一段主歌+结尾音乐”按顺序连接构成。副歌定位对音频文件的分析和处理起着重要作用，因此，如何在音频文件中进行副歌定位，成为音频处理领域的一个亟待解决的重要问题。

发明内容

本发明实施例提供一种音频处理方法及装置，可以对音频文件进行副歌定位，提升音频处理的智能性。

本发明第一方面提供一种音频处理方法，可包括：

从待处理的音频文件中选取区间音频数据；

构建所述区间音频数据的特征参数序列，所述特征参数序列包括能量序列和频谱滚降序列；

根据所述区间音频数据的特征参数序列，定位所述音频文件的副歌。

本发明第二方面提供一种音频处理装置，可包括：

选取模块，用于从待处理的音频文件中选取区间音频数据；

构建模块，用于构建所述区间音频数据的特征参数序列，所述特征参数序列包括能量序列和频谱滚降序列；

定位模块，用于根据所述区间音频数据的特征参数序列，定位所述音频文件的副歌。

实施本发明实施例，具有如下有益效果：

本发明实施例可从待处理的音频文件中选取区间音频数据，构建区间音频数据的特征参数序列，以实现音频文件的副歌定位，提升了音频处理的智能性；另外，由于仅需要从音频文件中选取区间音频数据进行音频处理，可有效提升音频处理的效率，进一步提升音频处理的智能性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种音频处理方法的流程图；

图2为本发明实施例提供的图1所示的步骤S101的实施例的流程图；

图3为本发明实施例提供的图1所示的步骤S102的实施例的部分流程图；

图4为本发明实施例提供的图1所示的步骤S102的实施例的另一部分流程图；

图5为本发明实施例提供的图1所示的步骤S103的实施例的流程图；

图6为本发明实施例提供的一种音频处理装置的结构示意图；

图7为本发明实施例提供的选取模块的实施例的结构示意图；

图8为本发明实施例提供的构建模块的实施例的部分结构示意图；

图9为本发明实施例提供的构建模块的实施例的另一部分结构示意图；

图10为本发明实施例提供的定位模块的实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例中，音频文件可以包括但不限于：歌曲、歌曲片段、音乐、音乐片段、演奏乐、演奏乐片段、哼唱歌曲、哼唱歌曲片段等文件。本发明实施例的音频处理方案可以应用于互联网领域的多个场景中，例如：可以应用于对互联网音频库中的音频文件进行分析处理的场景，包括：可应用于主音查找的场景中进行副歌的快速定位和准确提取，也可应用于哼唱搜索的场景中进行副歌的快速定位和准确提取，还可应用于乐曲识别的场景中进行副歌的快速定位和准确提取等等；或者，可以应用于对互联网音频库中的音频文件进行试听的场景，包括：可提供副歌进行在线播放或音乐下载前的试听；或者，可以应用于彩铃下载或试听场景，包括：快速定位和准确提取副歌，将副歌作为彩铃提供给用户进行下载或试听，等等。

下面将结合附图1-附图5，对本发明实施例提供的音频处理方法进行详细介绍。需要说明的是，附图1-附图5所示的音频处理方法可以由本发明实施例提供的音频处理装置所执行，该音频处理装置可运行于终端设备或服务器中，其中，终端设备可包括但不限于：PC（PersonalComputer，个人计算机）、PAD（平板电脑）、手机、智能手机、笔记本电脑等设备。

请参见图1，为本发明实施例提供的一种音频处理方法的流程图；该方法可包括以下步骤S101-步骤S103。

S101，从待处理的音频文件中选取区间音频数据。

本发明实施例中，区间音频数据指从音频文件中所选取的、某个时长区间范围所确定的音频数据，例如：假设音频文件的时长为T，[T/5，3T/5]的时长区间范围可确定一个区间音频数据，[T/2，T]的时长区间范围又可确定另一个区间音频数据，等等。本步骤中，可根据实际情况从音频文件中选取合理的区间音频数据，例如：根据对大量音频文件的统计数据，从音频文件中选取区间音频数据；或者根据对音频文件进行分析处理获得的实验数据，从音频文件中选取区间音频数据。

S102，构建所述区间音频数据的特征参数序列，所述特征参数序列包括能量序列和频谱滚降序列。

一个区间音频数据可以表示为多帧音频帧信号组成的一个帧序列，该区间音频数据的每帧音频帧信号均具备能量。频谱滚降可表征连续的两帧音频帧信号的归一化频谱系数之间的关系。本步骤中，可以对该区间音频数据的每一帧音频帧信号进行能量计算，获得该区间音频数据的每一帧音频帧信号的能量，从而构建该区间音频数据的能量序列；可以检测该区间音频数据的连续两帧音频帧信号的归一化频谱系数之间的关系，构建该区间音频数据的频谱滚降序列。

S103，根据所述区间音频数据的特征参数序列，定位所述音频文件的副歌。

副歌，通常指音频文件的高潮部分。以歌曲为例，一首歌曲通常采用AA’BA’Form，A代表主歌，而B代表副歌；也即时说，通常一首歌曲由“前奏+两段主歌+一段副歌+过门音乐+一段副歌+一段主歌+结尾音乐”按顺序连接构成。本步骤可基于所选取的区间音频数据的特征参数序列，定位音频文件的副歌。

下面将结合附图2-附图5，对图1所示的音频处理方法中的各步骤进行详细介绍。

请参见图2，为本发明实施例提供的图1所示的步骤S101的实施例的流程图；该步骤S101可包括以下步骤s1101-步骤s1103。

s1101，获取所述待处理的音频文件的时长。本实施例可假设音频文件的时长为T，即所述音频文件的时长区间为[0，T]。

s1102，按照预设的时间比范围，计算所选取的时长区间。

时间比范围可表示为[R_L，R_H]，其中R_L和R_H分别代表时间占比，[R_L，R_H]的取值为[0，1]，且R_L<R_H。时间比范围[R_L，R_H]可以根据实际情况进行设定，例如：时间比范围可根据对大量音频文件的统计数据进行设定；或者时间比范围可根据对音频文件进行分析处理获得的实验数据进行设定。假设预设的时间比范围为[1/5，3/5]，即R_L=1/5，R_H=3/5，本步骤计算获得所选取的时长区间则为[T/5，3T/5]。

s1103，根据所述时长区间，从所述音频文件中选取区间音频数据。

参照步骤s1102所示例子，本步骤可从音频文件中选取[T/5，3T/5]这一时长区间所确定的区间音频数据。

下面将结合图3-图4，对图1所示的步骤S102进行详细介绍。需要说明的是，该步骤S102由两个构建过程组成，其中一个构建过程为“构建所述区间音频数据的能量序列”的过程，该构建过程具体可参见下述图3所示实施例的描述；另一个构建过程为“构建所述区间音频数据的频谱滚降序列”的过程，该构建过程具体可参见下述图4所示实施例的描述。

请参见图3，为本发明实施例提供的图1所示的步骤S102的实施例的部分流程图；该步骤S102可包括以下步骤s1201-步骤s1203。

s1201，对所述区间音频数据进行分帧处理，获得至少一帧音频帧信号。

一个区间音频数据可以表示为多帧音频帧信号组成的一个帧序列，本步骤中，假设该区间音频数据包含的任一帧音频帧信号可表示为x_i(n)，每帧音频帧信号的帧长为T_s，进行分帧处理可获得的音频帧信号的数量为FN。其中，i表示该区间音频数据中该帧音频帧信号的顺序，i为正整数且i＝1,2,...FN-1；n为正整数且n＝0,1,2,N-1，其中N为该帧音频帧信号的长度，即N为该帧音频帧信号的采样点数。

s1202，计算所述至少一帧音频帧信号中的各帧音频帧信号的能量。

本步骤可基于下述（1）所示的能量公式，计算FN帧音频帧信号中的各帧音频帧信号的能量。

E_{i} (n) = Σ_{n = 0}^{N - 1} x_{i} {(n)}^{2} - - - (1)

上述（1）式中，E_i(n)表示音频帧信号x_i(n)的能量。

s1203，按照所述至少一帧音频帧信号中的各帧音频帧信号的顺序，对所述各帧音频帧信号的能量进行排列，构建所述区间音频数据的能量序列。

所述至少一帧音频帧信号中的各帧音频帧信号的顺序，即指所述至少一帧音频帧信号中的各帧音频帧信号组成所述区间音频帧数据的帧序列时的顺序。本步骤中，按照所述至少一帧音频帧信号中的各帧音频帧信号的顺序，对所述各帧音频帧信号的能量进行排列，可构建所述区间音频数据的能量序列为E_i(n)。

请参见图4，为本发明实施例提供的图1所示的步骤S102的实施例的另一部分流程图；该S102可包括以下步骤s1211-步骤s1215。

s1211，对所述区间音频数据进行分帧处理，获得至少一帧音频帧信号。

本步骤可参见图3所示实施例中的步骤s1201，在此不赘述。

s1212，对所述至少一帧音频帧信号中的各帧音频帧信号的频谱系数进行归一化处理，获得所述各帧音频帧信号的归一化频谱系数。

本步骤的归一化处理过程具体可包含下述步骤A-B。

A、对所述各帧音频帧信号进行变换处理。步骤A的变换处理可采用下述公式（2）进行。

y_i(n)＝fft(x_i(n))（2）

上述公式（2）中，fft()表示快速傅里叶变换。

B、对变换处理后的各帧音频帧信号的频谱***进行归一化处理。步骤B可采用下述（3）所示的公式，对所述FN帧音频帧信号中的各帧音频帧信号的频谱系数进行归一化处理，获得所述各帧音频帧信号的归一化频谱系数X_i(n)。

X_{i} (n) = \frac{y_{i} (n)}{{(y_{i} (n))}_{\max}} - - - (3)

上述公式（3）中，(y_i(n))_max为y_i(n)序列中的最大值。

s1213，按照所述至少一帧音频帧信号中的各帧音频帧信号的顺序，计算连续两帧音频帧信号的归一化频谱系数的差的平方和。

本步骤计算获得的连续两帧音频帧信号的归一化频谱系数的差的平方和可表示为(X_i+1(n)-X_i(n))²。

s1214，对所述连续两帧音频帧信号的归一化频谱系数的差的平方和进行求和计算，获得所述区间音频数据的频谱滚降序列。

本步骤中，所述区间音频数据的频谱滚降序列可表示为FX_i(n)，该FX_i(n)可采用如下公式（4）计算获得。

{FX}_{i} (n) = Σ_{n = 0}^{N - 1} {(X_{i + 1} (n) - X_{i} (n))}^{2} - - - (4)

需要说明的是，上述公式（4）中，当n＝0时，FX_i(0)的值可以为0或固定值。

请参见图5，为本发明实施例提供的图1所示的步骤S103的实施例的流程图；该步骤S103可包括以下步骤s1301-步骤s1303。

s1301，分别对所述区间音频数据的能量序列和频谱滚降序列进行归一化处理。

按照图3-图4所示实施例的描述，所述区间音频数据的能量序列可表示为E_i(n)，所述区间音频数据的频谱滚降序列可表示为FX_i(n)。本步骤可采用下述公式（5），对所述E_i(n)进行归一化处理，获得归一化后的能量序列为Em_i(n)，该公式（5）可表示如下：

{Em}_{i} (n) = \frac{E_{i} (n)}{{(E_{i} (n))}_{\max}} - - - (5)

上述公式（5）中，Em_i(n)为归一化后的能量序列，(E_i(n))_max为能量序列E_i(n)中的最大值。

本步骤可采用下述公式（6），对所述FX_i(n)进行归一化处理，获得归一化后的频谱滚降序列为FXm_i(n)，该公式（6）可表示如下：

{FXm}_{i} (n) = \frac{{FX}_{i} (n)}{{({FX}_{i} (n))}_{\max}} - - - (6)

上述公式（6）中，FXm_i(n)为归一化后的频谱滚降序列，(FX_i(n))_max为频谱滚降序列FX_i(n)中的最大值。

s1302，根据所述归一化后的能量序列、所述归一化后的频谱滚降序列以及预设的副歌时长，计算副歌在所述区间音频数据中的位置。

本步骤的计算过程具体可包括以下步骤C-H：

C、计算Em_i(n)序列和FXm_i(n)序列的和，获得S_i(n)序列，该S_i(n)序列可表示如下公式（7）所示：

S_i(n)＝Em_i(n)+FXm_i(n)（7）

D、假设副歌时长为T'，需要说明的是，副歌时长可以根据用户的实际需要进行设定，例如可以为10s，20s等等。由于该区间音频数据包含的任一帧音频帧信号x_i(n)的帧长为T_s，步骤D则可计算获得副歌时长相对于每帧音频帧信号的比值L，该L可表示如下公式（8）所示：

L＝T'/T_s（8）

E、对S_i(n)序列进行均值滤波处理，获得Sm_i(n)序列。需要说明的是，步骤E对S_i(n)序列进行均值滤波处理时，所采用的阶数tap为可表示为下述公式（9）。

tap＝(L-1)/2（9）

F、查找Sm_i(n)序列中的最大值，并获取该最大值对应的n的取值，假设此时n的取值为IND。

G、确定副歌在所述区间音频数据中的帧起止位置，其中，帧起始位置str可表示如下公式（10）所示：

str＝IND-tap（10）

其中，帧终止位置end可表示如下公式（11）所示：

end＝IND+tap（11）

H、确定副歌在所述区间音频数据中的时间起止位置，其中，副歌在所述区间音频数据中的时间起始位置t_str可表示如下公式（12）所示：

t_str＝str*T_s（12）

其中，所述副歌在所述区间音频数据中的时间终止位置t_end可表示如下公式（13）所示：

t_end＝end*T_s（13）

s1303，根据所述副歌在所述区间音频数据中的位置，在所述音频文件中定位所述副歌。

本步骤中，根据所述副歌在所述区间音频数据中的时间起止位置，可在所述音频文件中定位所述副歌的时间起止位置，其中，副歌在所述音频文件中的时间起始位置T_str可表示如下公式（14）所示：

T_str＝R_L*T+t_str（14）

其中，副歌在所述音频文件中的时间终端位置T_end可表示如下公式（15）所示：

T_end＝R_H*T+t_end（15）

上述（14）和（15）中，R_L和R_H分别为预设的时间比范围[R_L，R_H]的两个端点值，T为所述音频文件的时长。

通过上述附图1-附图5所示实施例的描述，本发明实施例可从待处理的音频文件中选取区间音频数据，构建区间音频数据的特征参数序列，以实现音频文件的副歌定位，提升了音频处理的智能性；另外，由于仅需要从音频文件中选取区间音频数据进行音频处理，可有效提升音频处理的效率，进一步提升音频处理的智能性。

下面将结合附图6-附图10，对本发明实施例提供的音频处理装置进行详细介绍。需要说明的是，附图6-附图10所示的音频处理装置可运行于终端设备或服务器中，用于执行附图1-附图5所示的音频处理方法。其中，终端设备可包括但不限于：PC、PAD、手机、智能手机、笔记本电脑等设备。

请参见图6，为本发明实施例提供的一种音频处理装置的结构示意图；该装置可包括：选取模块101、构建模块102和定位模块103。

选取模块101，用于从待处理的音频文件中选取区间音频数据。

本发明实施例中，区间音频数据指从音频文件中所选取的、某个时长区间范围所确定的音频数据，例如：假设音频文件的时长为T，[T/5，3T/5]的时长区间范围可确定一个区间音频数据，[T/2，T]的时长区间范围又可确定另一个区间音频数据，等等。所述选取模块101可根据实际情况从音频文件中选取合理的区间音频数据，例如：根据对大量音频文件的统计数据，从音频文件中选取区间音频数据；或者根据对音频文件进行分析处理获得的实验数据，从音频文件中选取区间音频数据。

构建模块102，用于构建所述区间音频数据的特征参数序列，所述特征参数序列包括能量序列和频谱滚降序列。

一个区间音频数据可以表示为多帧音频帧信号组成的一个帧序列，该区间音频数据的每帧音频帧信号均具备能量。频谱滚降可表征连续的两帧音频帧信号的归一化频谱系数之间的关系。所述构建模块102可以对该区间音频数据的每一帧音频帧信号进行能量计算，获得该区间音频数据的每一帧音频帧信号的能量，从而构建该区间音频数据的能量序列；所述构建模块102可以检测该区间音频数据的连续两帧音频帧信号的归一化频谱系数之间的关系，构建该区间音频数据的频谱滚降序列。

定位模块103，用于根据所述区间音频数据的特征参数序列，定位所述音频文件的副歌。

副歌，通常指音频文件的高潮部分。以歌曲为例，一首歌曲通常采用AA’BA’Form，A代表主歌，而B代表副歌；也即时说，通常一首歌曲由“前奏+两段主歌+一段副歌+过门音乐+一段副歌+一段主歌+结尾音乐”按顺序连接构成。所述定位模块103可基于所选取的区间音频数据的特征参数序列，定位音频文件的副歌。

下面将结合附图7-附图10，对图6所示的音频处理装置的各模块进行详细介绍。

请参见图7，为本发明实施例提供的选取模块的实施例的结构示意图；该选取模块101可包括：时长获取单元1101、区间计算单元1102和选取单元1103。

时长获取单元1101，用于获取所述待处理的音频文件的时长。本实施例可假设音频文件的时长为T，即所述音频文件的时长区间为[0，T]。

区间计算单元1102，用于按照预设的时间比范围，计算所选取的时长区间。

时间比范围可表示为[R_L，R_H]，其中R_L和R_H分别代表时间占比，[R_L，R_H]的取值为[0，1]，且R_L<R_H。时间比范围[R_L，R_H]可以根据实际情况进行设定，例如：时间比范围可根据对大量音频文件的统计数据进行设定；或者时间比范围可根据对音频文件进行分析处理获得的实验数据进行设定。假设预设的时间比范围为[1/5，3/5]，即R_L=1/5，R_H=3/5，所述区间计算单元1102计算获得所选取的时长区间则为[T/5，3T/5]。

选取单元1103，用于根据所述时长区间，从所述音频文件中选取区间音频数据。

参照本实施例所示例子，所述选取单元1103可从音频文件中选取[T/5，3T/5]这一时长区间所确定的区间音频数据。

下面将结合图8-图9，对图7所示的构建模块102的结构和功能进行详细介绍。需要说明的是，该构建模块102可实现两个构建过程，其中一个构建过程为“构建所述区间音频数据的能量序列”的过程，实现该构建过程时该构建模块102的结构具体可参见下述图8所示实施例的描述；另一个构建过程为“构建所述区间音频数据的频谱滚降序列”的过程，实现该构建过程时该构建模块102的结构具体可参见下述图9所示实施例的描述。

请参见图8，为本发明实施例提供的构建模块的实施例的部分结构示意图；该构建模块102可包括：分帧处理单元1201、能量计算单元1202和能量序列构建单元1203。

分帧处理单元1201，用于对所述区间音频数据进行分帧处理，获得至少一帧音频帧信号。

一个区间音频数据可以表示为多帧音频帧信号组成的一个帧序列，假设该区间音频数据包含的任一帧音频帧信号可表示为x_i(n)，每帧音频帧信号的帧长为T_s，所述分帧处理单元1201进行分帧处理可获得的音频帧信号的数量为FN。其中，i表示该区间音频数据中该帧音频帧信号的顺序，i为正整数且i＝1,2,...FN-1；n为正整数且n＝0,1,2,N-1，其中N为该帧音频帧信号的长度，即N为该帧音频帧信号的采样点数。

能量计算单元1202，用于计算所述至少一帧音频帧信号中的各帧音频帧信号的能量。

所述能量计算单元1202可采用图3所示实施例中的公式（1）所示的能量公式，计算FN帧音频帧信号中的各帧音频帧信号的能量E_i(n)。

能量序列构建单元1203，用于按照所述至少一帧音频帧信号中的各帧音频帧信号的顺序，对所述各帧音频帧信号的能量进行排列，构建所述区间音频数据的能量序列。

所述至少一帧音频帧信号中的各帧音频帧信号的顺序，即指所述至少一帧音频帧信号中的各帧音频帧信号组成所述区间音频帧数据的帧序列时的顺序。所述能量序列构建单元1203按照所述至少一帧音频帧信号中的各帧音频帧信号的顺序，对所述各帧音频帧信号的能量进行排列，可构建所述区间音频数据的能量序列为E_i(n)。

请参见图9，为本发明实施例提供的构建模块的实施例的另一部分结构示意图；该构建模块102可包括：分帧处理单元1201、系数归一化处理单元1204、频谱系数计算单元1205和频谱滚降序列构建单元单元1206。其中，分帧处理单元1201可参见图8所示实施例的相关描述，在此不赘述。

系数归一处理单元1204，用于对所述至少一帧音频帧信号中的各帧音频帧信号的频谱系数进行归一化处理，获得所述各帧音频帧信号的归一化频谱系数。

所述系数归一处理单元1204的归一化处理过程具体可包含下述步骤A’-B’。

A’、对所述各帧音频帧信号进行变换处理。该变换处理可采用图4所示实施例中的公式（2）进行。

B’、对变换处理后的各帧音频帧信号的频谱***进行归一化处理。具体可采用图4所示实施例中的公式（3），对所述FN帧音频帧信号中的各帧音频帧信号的频谱系数进行归一化处理，获得所述各帧音频帧信号的归一化频谱系数X_i(n)。

系数归一处理单元1205，用于对所述至少一帧音频帧信号中的各帧音频帧信号的频谱系数进行归一化处理，获得所述各帧音频帧信号的归一化频谱系数。

所述系数归一处理单元1205计算获得的连续两帧音频帧信号的归一化频谱系数的差的平方和可表示为(X_i+1(n)-X_i(n))²。

频谱滚降序列构建单元1206，用于对所述连续两帧音频帧信号的归一化频谱系数的差的平方和进行求和计算，获得所述区间音频数据的频谱滚降序列。

所述区间音频数据的频谱滚降序列可表示为FX_i(n)，所述频谱滚降序列构建单元1206可采用图4所示实施列中的公式（4）计算获得该FX_i(n)。

请参见图10，为本发明实施例提供的定位模块的实施例的结构示意图；该定位模块103可包括：归一化处理单元1301、位置计算单元1302和定位单元1303。

归一化处理单元1301，用于分别对所述区间音频数据的能量序列和频谱滚降序列进行归一化处理。

按照图8-图9所示实施例的描述，所述区间音频数据的能量序列可表示为E_i(n)，所述区间音频数据的频谱滚降序列可表示为FX_i(n)。所述归一化处理单元1301可采用图5所示实施例中的公式（5），对所述E_i(n)进行归一化处理，获得归一化后的能量序列为Em_i(n)；所述归一化处理单元1301可采用图5所示实施例中的公式（6），对所述FX_i(n)进行归一化处理，获得归一化后的频谱滚降序列为FXm_i(n)。

位置计算单元1302，用于根据所述归一化后的能量序列、所述归一化后的频谱滚降序列以及预设的副歌时长，计算副歌在所述区间音频数据中的位置。

所述位置计算单元1302的计算过程具体可包括以下步骤C’-H’：

C’、计算Em_i(n)序列和FXm_i(n)序列的和，获得S_i(n)序列，该S_i(n)序列可表示为图5所示实施例中的公式（7）。

D’、假设副歌时长为T'，需要说明的是，副歌时长可以根据用户的实际需要进行设定，例如可以为10s，20s等等。由于该区间音频数据包含的任一帧音频帧信号x_i(n)的帧长为T_s，则可计算获得副歌时长相对于每帧音频帧信号的比值L，该L可表示为图5所示实施例中的公式（8）。

E’、对S_i(n)序列进行均值滤波处理，获得Sm_i(n)序列。需要说明的是，对S_i(n)序列进行均值滤波处理时，所采用的阶数tap为可表示为图5所示实施例中的公式（9）。

F’、查找Sm_i(n)序列中的最大值，并获取该最大值对应的n的取值，假设此时n的取值为IND。

G’、确定副歌在所述区间音频数据中的帧起止位置，其中，帧起始位置str可表示为图5所示实施例中的公式（10），帧终止位置end可表示为图5所示实施例中的公式（11）。

H’、确定副歌在所述区间音频数据中的时间起止位置，其中，副歌在所述区间音频数据中的时间起始位置t_str可表示为图5所示实施例中的公式（12），所述副歌在所述区间音频数据中的时间终止位置t_end可表示为图5所示实施例中的公式（13）。

定位单元1303，用于根据所述副歌在所述区间音频数据中的位置，在所述音频文件中定位所述副歌。

所述定位单元1303根据所述副歌在所述区间音频数据中的时间起止位置，可在所述音频文件中定位所述副歌的时间起止位置，其中，副歌在所述音频文件中的时间起始位置T_str可表示为图5所示实施例中的公式（14），副歌在所述音频文件中的时间终端位置T_end可表示为图5所示实施例中的公式（15）。

通过上述附图6-附图10所示实施例的描述，本发明实施例可从待处理的音频文件中选取区间音频数据，构建区间音频数据的特征参数序列，以实现音频文件的副歌定位，提升了音频处理的智能性；另外，由于仅需要从音频文件中选取区间音频数据进行音频处理，可有效提升音频处理的效率，进一步提升音频处理的智能性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，附图6-附图10所示音频处理装置的模块或单元对应的程序可存储在终端设备或服务器的可读存储介质内，并被该终端设备或服务器中的至少一个处理器执行，以实现上述音频处理方法，该方法包括图1至图5中各方法实施例所述的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-OnlyMemory，ROM）或随机存储记忆体（RandomAccessMemory，RAM）等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种音频处理方法，其特征在于，包括：

从待处理的音频文件中选取区间音频数据；

构建所述区间音频数据的特征参数序列，所述特征参数序列包括能量序列和频谱滚降序列，所述频谱滚降序列是通过对所述音频数据的连续两帧音频帧信号的归一化频谱系数的差的平方和进行求和计算获得的序列；

2.如权利要求1所述的方法，其特征在于，所述从待处理的音频文件中选取区间音频数据，包括：

获取所述待处理的音频文件的时长；

按照预设的时间比范围，计算所选取的时长区间；

根据所述时长区间，从所述音频文件中选取区间音频数据。

3.如权利要求2所述的方法，其特征在于，所述构建所述区间音频数据的特征参数序列，包括：

对所述区间音频数据进行分帧处理，获得至少一帧音频帧信号；

计算所述至少一帧音频帧信号中的各帧音频帧信号的能量；

按照所述至少一帧音频帧信号中的各帧音频帧信号的顺序，对所述各帧音频帧信号的能量进行排列，构建所述区间音频数据的能量序列。

4.如权利要求3所述的方法，其特征在于，所述构建所述区间音频数据的特征参数序列，还包括：

对所述至少一帧音频帧信号中的各帧音频帧信号的频谱系数进行归一化处理，获得所述各帧音频帧信号的归一化频谱系数；

按照所述至少一帧音频帧信号中的各帧音频帧信号的顺序，计算连续两帧音频帧信号的归一化频谱系数的差的平方和；

对所述连续两帧音频帧信号的归一化频谱系数的差的平方和进行求和计算，获得所述区间音频数据的频谱滚降序列。

5.如权利要求2-4任一项所述的方法，其特征在于，所述根据所述区间音频数据的特征参数序列，定位所述音频文件的副歌，包括：

分别对所述区间音频数据的能量序列和频谱滚降序列进行归一化处理；

根据所述归一化后的能量序列、所述归一化后的频谱滚降序列以及预设的副歌时长，计算副歌在所述区间音频数据中的位置；

根据所述副歌在所述区间音频数据中的位置，在所述音频文件中定位所述副歌。

6.一种音频处理装置，其特征在于，包括：

选取模块，用于从待处理的音频文件中选取区间音频数据；

构建模块，用于构建所述区间音频数据的特征参数序列，所述特征参数序列包括能量序列和频谱滚降序列，所述频谱滚降序列是通过对所述音频数据的连续两帧音频帧信号的归一化频谱系数的差的平方和进行求和计算获得的序列；

7.如权利要求6所述的装置，其特征在于，所述选取模块包括：

时长获取单元，用于获取所述待处理的音频文件的时长；

区间计算单元，用于按照预设的时间比范围，计算所选取的时长区间；

选取单元，用于根据所述时长区间，从所述音频文件中选取区间音频数据。

8.如权利要求7所述的装置，其特征在于，所述构建模块包括：

分帧处理单元，用于对所述区间音频数据进行分帧处理，获得至少一帧音频帧信号；

能量计算单元，用于计算所述至少一帧音频帧信号中的各帧音频帧信号的能量；

能量序列构建单元，用于按照所述至少一帧音频帧信号中的各帧音频帧信号的顺序，对所述各帧音频帧信号的能量进行排列，构建所述区间音频数据的能量序列。

9.如权利要求8所述的装置，其特征在于，所述构建模块还包括：

系数归一处理单元，用于对所述至少一帧音频帧信号中的各帧音频帧信号的频谱系数进行归一化处理，获得所述各帧音频帧信号的归一化频谱系数；

频谱系数计算单元，用于按照所述至少一帧音频帧信号中的各帧音频帧信号的顺序，计算连续两帧音频帧信号的归一化频谱系数的差的平方和；

频谱滚降序列构建单元，用于对所述连续两帧音频帧信号的归一化频谱系数的差的平方和进行求和计算，获得所述区间音频数据的频谱滚降序列。

10.如权利要求7-9任一项所述的装置，其特征在于，所述定位模块包括：

归一化处理单元，用于分别对所述区间音频数据的能量序列和频谱滚降序列进行归一化处理；

位置计算单元，用于根据所述归一化后的能量序列、所述归一化后的频谱滚降序列以及预设的副歌时长，计算副歌在所述区间音频数据中的位置；

定位单元，用于根据所述副歌在所述区间音频数据中的位置，在所述音频文件中定位所述副歌。