CN102903357A

CN102903357A - 一种提取歌曲副歌的方法、装置和***

Info

Publication number: CN102903357A
Application number: CN2011102165202A
Authority: CN
Inventors: 李伟; 梁达文; 顾旻玮; 杨素娟
Original assignee: Fudan University; Huawei Technologies Co Ltd
Current assignee: Fudan University; Huawei Technologies Co Ltd
Priority date: 2011-07-29
Filing date: 2011-07-29
Publication date: 2013-01-30

Abstract

本发明实施例公开了一种提取歌曲副歌的方法、装置和***。本发明实施例采用对获取到的音频信号进行节拍追踪，然后根据节拍追踪结果，以节拍为单位提取chroma特征向量，根据chroma特征向量选择副歌估计片段，再根据预置条件对副歌估计片段进行评分，根据评分结果从副歌估计片段中选择副歌。由于该方案可以对歌曲的节拍进行跟踪，并基于歌曲的节拍来进行后续的chroma特征向量提取，以实现对副歌的提取，所以相对现在技术所采用的传统方法而言，更能贴合不同节拍的歌曲的需求，可以更灵活和准确地提取副歌。

Description

一种提取歌曲副歌的方法、装置和***

技术领域

本发明涉及通信技术领域，具体涉及一种提取歌曲副歌的方法、装置和***。

背景技术

通常，一首歌曲是由一定结构性的段落组成，包括前奏、主歌、副歌、间奏等。而其中的副歌，一般会重复2至3次，其旋律和歌词都非常相似，形成了流行歌曲中通常最容易被人记忆的部分，给予听者一种歌曲达到“高潮”的感觉。因此，副歌可以称为一首歌曲当中“最具代表性”和“最吸引人”的部分。另外，副歌片段的长度明显短于整个歌曲的长度，因此副歌片段可以作为一首歌曲的有效标志。

作为一首歌曲的标志，如果能够准确的提取副歌部分将会在音乐概要和彩铃等方面有很广阔的商业应用前景。但是，一首歌曲音频文件中信号的复杂性和不同歌曲之间的差异性为副歌提取带来很多的困难。现有技术中具有很多提取副歌的方法，但是其效果均不太理想，基于音高特征分布向量(即chroma特征向量)的副歌提取方法是其中的一种较为常用的方法，其方案具体可以如下：

第一步，将音频信号分为等长的片段，每一片段称为帧，从片段中提取12维的chroma特征向量，其中，这12维的chroma特征向量代表12个不同半音量值的分布。

第二步，计算chroma特征向量的相似性。

第三步，通过比较不同两个片段的相似性，得到重复片段。

第四步，对得到的重复片段进行分类和整合。

第五步，对第四步中得到的整合后的重复片段进行修正。比如在第四步中没有考虑到基音的变化(即变调)，则此时需要对第四步得到的重复片段提高音高再去提取重复片段。

第六部，选择副歌部分。比如，当一个重复片段在两个较长的重复片段之间时更有可能为副歌部分；又比如，副歌部分一般含有两个重复的子部分，如果一个重复片段有两个重复子片段时更有可能为副歌部分。将这些假设设置为条件，根据条件对重复片段进行打分，得分高的即为副歌部分。

在对现有技术的研究和实践过程中，本发明的发明人发现，现有技术主要采用固定分帧的方法，在默认节奏是固定的情况下，将歌曲分割成等长度的片段(即帧)。但实际上，歌曲的节拍并不是固定的，所以采用该方案并不能准确地提取副歌部分。

发明内容

本发明实施例提供一种提取歌曲副歌的方法、装置和***；可以较为准确地提取歌曲的副歌部分。

一种提取歌曲副歌的方法，包括：

获取音频信号；

对所述音频信号进行节拍追踪，得到节拍追踪结果；

根据节拍追踪结果，以节拍为单位提取音高特征分布向量chroma特征向量；

根据chroma特征向量选择副歌估计片段；

根据预置条件对副歌估计片段进行评分，得到评分结果；

根据评分结果从副歌估计片段中选择副歌。

一种副歌提取设备，包括：

获取单元，用于获取音频信号；

节拍追踪单元，用于对获取单元获取到的音频信号进行节拍追踪，得到节拍追踪结果；

特征提取单元，用于根据节拍追踪单元得到的节拍追踪结果，以节拍为单位提取音高特征分布向量chroma特征向量；

估计单元，用于根据特征提取单元提取到的chroma特征向量选择副歌估计片段；

评分单元，用于根据预置条件对估计单元选择出的副歌估计片段进行评分，得到评分结果；

选择单元，用于根据评分单元得到的评分结果从副歌估计片段中选择副歌。

本发明实施例采用对获取到的音频信号进行节拍追踪，然后根据节拍追踪结果，以节拍为单位提取音高特征分布向量chroma特征向量，根据chroma特征向量选择副歌估计片段，再根据预置条件对副歌估计片段进行评分，根据评分结果从副歌估计片段中选择副歌；由于该方案可以对歌曲的节拍进行跟踪，并基于歌曲的节拍来进行后续的chroma特征向量提取，实现对副歌进行提取，所以相对现有技术所采用的固定分帧方法而言，更能贴合不同节拍的歌曲的需求，可以更灵活和准确地提取副歌。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的提取歌曲副歌的方法的流程图；

图2是本发明实施例提供的提取歌曲副歌的方法的另一流程图；

图3是本发明实施例提供的副歌提取设备的结构示意图；

图4是本发明实施例提供的副歌提取设备的另一结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

副歌提取在日常生活中具有很广泛的应用：

首先，由于***以及彩铃在时间长度上的限制性，一般不可能使用整首歌曲。因此对于任意给定的流行音乐歌曲，如果可以自动生成***以及彩铃的话，则可以为用户提供更加丰富的个性化服务，为用户带来更好的使用体验。而副歌的提取则可以满足该需求，副歌的提取可以应用于***以及彩铃的自动生成，用户可以在大量的提取出的副歌数据库选择自己喜欢的副歌作为***或彩铃，也可以利用该副歌提取方法制作自己喜欢的***以及彩铃。

其次，在大规模的音乐数据库中，可以通过副歌提取来制作示范片段，使得用户可以通过欣赏提取出的较少的副歌部分来决定是否下载，从而可以避免直接下载整首歌曲，以节省网络带宽。

最后，副歌提取技术可以应用在音乐版权的管理和保护中。

当然，副歌的提取也可以有其他的应用，在此不再赘述。

本发明实施例提供一种提取歌曲副歌的方法、装置和***。以下分别进行详细说明。

实施例一、

本实施例将从副歌提取设备的角度进行描述。该副歌提取设备具体可以为计算机。

一种提取歌曲副歌的方法，包括：获取音频信号，对该音频信号进行节拍追踪，得到节拍追踪结果，根据节拍追踪结果，以节拍为单位提取音色(chroma)特征向量，根据chroma特征向量选择副歌估计片段，根据预置条件对副歌估计片段进行评分，得到评分结果，根据评分结果从副歌估计片段中选择副歌。

如图1所示，具体流程可以如下：

101、获取音频信号；例如，读取一个音频文件，比如一首流行歌曲，该音频文件具体可以由***自动读取，也可以由用户输入。

102、对获取到的音频信号进行节拍追踪，得到节拍追踪结果；

例如，可以对音频信号进行音符开端检测(Onset Detection)，得到音符开端检测结果，然后根据音符开端检测结果进行节拍追踪，使得节拍的开端尽可能与音符开端重合，并且使得两个节拍之间的时间长度恒定。如下：

(1)对音频信号进行音符开端检测，得到音符开端检测结果，具体可以如下：

将音频信号划分为第一预置长度的帧；对划分为帧的音频信号通过短时傅立叶变换(STFT，Short-time Fourier Transform)映射到频域；对映射到频域的音频信号进行频谱分析，得到音符开端检测函数(此时音符开端检测函数即为音符开端检测结果)。

其中，第一预置长度的大小可以根据实际应用的需求进行设置，一般为了保证短时傅里叶变换中的信号相对稳定，可以对音频信号进行固定长度的分帧，即第一预置长度为一固定的值，比如可以设置第一预置长度为32毫秒(ms)，且每次以4ms为单位进行推进一进行分帧。例如，如果一音频信号的长度为60ms，则可以划分为：1ms～32ms为第一帧，5ms～36ms为第二帧，9ms～40ms为第三帧，13ms～44ms为第四帧，17ms～48ms为第五帧，21ms～52ms为第六帧，25ms～56ms为第七帧，29ms～60ms为第八帧，以此类推。

(2)根据音符开端检测结果进行节拍追踪(Beat Tracking)，使得节拍的开端尽可能与音符开端重合，并且使得两个节拍之间的时间长度恒定，具体可以如下：

将音符开端检测函数与预置的衡量标准函数的和作为目标函数，计算可以使得该目标函数的值最大的节拍序列。

其中，衡量标准函数为用于衡量速率的一个标准。另外，如果能够找到使得目标函数的值最大的节拍序列，则意味着可以满足“使得节拍的开端尽可能与音符开端重合，并且使得两个节拍之间的时间长度恒定”这两个条件。

103、根据节拍追踪结果，以节拍为单位提取音高特征分布向量chroma特征向量；例如，具体可以如下：

将音频信号划分为第二预置长度的帧；其中，第二预置长度的大小可以根据实际应用的需求进行设置，比如，如果音频信号的采样率是44100Hz，则每一帧的长度可以为：2048个点/44100Hz＝46ms，即设置第二预置长度为46ms。

将每一帧内的音频信号通过傅里叶变换(FT，Fourier Transform)由时域映射到频域；

在频域中，将对应于不同八度但对应同一音名频率的部分映射到对应的半音音名中，产生一个12维向量，其中，每一维对应于一个八度中的一个半音；

根据节拍追踪结果将划分后的帧与节拍同步；

计算属于同一个节拍内的所有帧的12维向量的平均值，得到与该节拍同步的chroma特征向量。

此外，如果在步骤102中，已经得到了可以使得目标函数的值最大的节拍序列，则此时，根据节拍追踪结果，以节拍为单位提取chroma特征向量(即步骤103)具体可以为：

根据得到的节拍序列，以节拍为单位提取音高特征分布向量chroma特征向量。

104、根据chroma特征向量选择副歌估计片段；

例如，具体可以采用现有技术的方法来根据chroma特征向量选择副歌估计片段，具体可参见现有技术。也可以采用不同于现有技术的方法来根据chroma特征向量选择副歌估计片段，即：

可以利用chroma特征向量进行自距离矩阵(SDM，Self-distance Matrix)计算，再根据自距离矩阵中每一个元素所表示的距离大小对自距离矩阵进行二值化处理，得到二值化结果，然后根据二值化结果选择副歌估计片段。具体可以如下：

(1)利用chroma特征向量进行自距离矩阵计算，包括：

根据音频信号的总节拍数和chroma特征向量定义自距离矩阵，从自距离矩阵的主对角线开始向左下方平移，计算每一条子对角线上所有矩阵元素的平均值，得到元素平均值，计算第一函数的极小值，其中，第一函数为一个以k为自变量，元素平均值为函数值的函数。k表示该子对角线与主对角线相比而言，向左下方平移的长度；m是整个音频文件的节拍数。

(2)根据自距离矩阵中每一个元素所表示的距离大小对自距离矩阵进行二值化处理，得到二值化结果，包括：

根据第一函数的极小值获取对应的子对角线，将获取到的对角线上的矩阵元素与预置第一阈值进行比较，若矩阵元素大于第一阈值，则将矩阵元素设置为0，若矩阵元素小于等于第一阈值，则将矩阵元素设置为1。

其中，第一阈值可以根据实际应用的需求进行设置。

(3)根据二值化结果选择副歌估计片段，包括：

若连续出现1的音频信号片段的长度大于预置的第二阈值，则确定该音频信号片段为副歌估计片段。

其中，第二阈值可以根据实际应用的需求进行设置。

105、根据预置条件对副歌估计片段进行评分，得到评分结果；

例如，一般来讲，某一类副歌的出现位置都是在一个大约的位置，因此，可以对该位置进行估计。比如，大部分流行音乐歌曲的副歌都会出现在接近歌曲四分之以及四分之三的位置附近，因为，可以通过副歌可能出现的段落与整首歌曲四分之一以及四分之三的位置之间的距离作为一个衡量的评分标准。若段落与四分之一或四分之三较近，则得分较高。即，根据预置条件对副歌估计片段进行评分，得到评分结果(即步骤105)具体可以为：

根据副歌估计片段在音频信号中位置对副歌估计片段进行评分，得到评分结果。

又例如，副歌部分通常给人以歌曲达到了“高潮”的感觉，而这种“高潮”的感觉说明副歌部分的信号具有较高的能量，因此能量也可以作为一个衡量的评分标准，能量越高得分越高。即，除了可以根据副歌估计片段在音频信号中位置对副歌估计片段进行评分，得到评分结果之外，根据预置条件对副歌估计片段进行评分，得到评分结果(即步骤105)具体也可以为：

根据副歌估计片段对应的音频信号的平均能量以及在自距离矩阵中的平均距离对副歌估计片段进行评分，得到评分结果。

当然，也可以将将上述两种评分方式综合起来，即，根据副歌估计片段在音频信号中位置、副歌估计片段对应的音频信号的平均能量、以及在自距离矩阵中的平均距离对副歌估计片段进行评分。

106、根据评分结果从副歌估计片段中选择副歌。例如，具体可以如下：

可以对评分结果进行预置的权值处理，得到总分数，选取总分数最高的副歌估计片段为副歌。

可选的，由于通常的音频信号的采样率是44.1kHz，如果直接进行处理的话，数据量会较大，因此，为了有效地减少数据量，以便提高运算速度，在对音频信号进行节拍追踪(即步骤102)之前，还可以对音频信号进行预处理，如下：

对获取到的音频信号进行重采样。比如，其中，重采样的采样频率可以定为8kHz。

则此时，对音频信号进行节拍追踪(即步骤102)具体为：对重采样后的音频信号进行节拍追踪，得到节拍追踪结果。

由上可知，本实施例采用对获取到的音频信号进行节拍追踪，然后根据节拍追踪结果，以节拍为单位提取chroma特征向量，根据chroma特征向量选择副歌估计片段，再根据预置条件对副歌估计片段进行评分，根据评分结果从副歌估计片段中选择副歌；由于该方案可以对歌曲的节拍进行跟踪，并基于歌曲的节拍来进行后续的chroma特征向量提取，实现对副歌进行提取，所以相对现在技术所采用的固定分帧方法而言，更能贴合不同节拍的歌曲的需求，可以更灵活和准确地提取副歌。

实施例二、

根据实施例所描述的方法，以下将举例作进一步详细说明。

如图2所示，具体流程可以如下：

201、副歌提取装置获取音频信号，比如读取需要提取副歌的音频文件。

需说明的是，该音频文件的编码格式需要是该副歌提取装置所能支持的编码格式，比如，如果该副歌提取装置默认所能支持的编码格式为波形格式数据(wav，Wave)格式，则需要将音频文件先转换为wav格式。所以，在读取了需要提取副歌的音频文件之后，可选的，还可以包括：

将读取到的音频文件转换为副歌提取装置所能支持的编码格式。

202、副歌提取装置对获取到的音频信号进行节拍追踪，得到节拍追踪结果。如下：

首先，可以对音频信号进行预处理，比如，由于通常的音频信号的采样率是44.1kHz，如果直接进行处理的话，数据量会较大，因此，为了有效地减少数据量，以便提高运算速度，可以对音频信号进行重采样。其中，重采样的采样频率可以定为8kHz。通过执行该重采样步骤，可以有效的减少数据量，提高运算速度，而且对结果也不会产生大的影响。

其次，在对音频信号进行重采样之后，对重采样后的音频信号进行节拍追踪，以得到节拍追踪结果。具体可以包括以下步骤：

(1)对于音乐信号进行基于能量和相位结合的音符开端检测，检测的方法可以如下：

首先，对音频信号进行固定长度的分帧，例如，帧长可以设置为32ms，并且设置每次的划分以4ms为单位进行推进，比如，第一帧为1ms～32ms，第二帧为5ms～36ms，第三帧为9ms～40ms，等等，以此类推，直至全部音频信号划分完毕。也就是说，帧与帧之间是具有重叠部分的，之所以让帧与帧之间具有重叠部分，主要是为了让音频信号能够平滑过渡，以便进行更好地检测。

其次，将每一帧音频信号通过短时傅立叶变换映射到频域，并进行频谱分析，以得到音符开端包络线，该音符开端包络线可以用音符开端检测函数来表示。也就是说，此时在频域会有n个bin，其中，n为该帧短时信号的采样点个数，而bin指的是一种二进制文件，一般来讲是机器代码，汇编语言编译后的结果，具体可参见现有技术。

对于其中的某一帧的第k个bin，可以以复数的形式来表示，如下：

其中，m表示该帧的帧数，R_k(m)为第m帧中的第k个bin的幅度，

(m)为第m帧中的第k个bin的相位，e是对于某一帧的复数表示，映射到复平面，j是虚数。

此后，可以根据当前一帧对下一帧进行估计，其中，对于某一帧内的每一个bin，其幅度的估计值“～R_k(m)”即为该帧的前一帧中，与之对应的bin的幅度，比如，第二帧内的第k个bin的幅度，等于第一帧的第k个bin的幅度，用公式表示即为：

～R_k(m)＝R_k(m-1)。

而相位的估计值

则为前一帧与之对应的bin的相位，以及该前一帧与该一帧的前一帧的相位的差分之和。比如，第三帧内的第k个bin的相位的估计值，等于“第二帧的第k个bin的相位”与“第二帧内的第k个bin的相位和第一帧内的第k个bin的相位的差分”之和，用公式表示即为：

其中，函数princarg将相位映射到[-π，π]的范围中。这样就得到了第m帧的幅度的估计值和相位的估计值。此时可以在复平面上对这两个点求欧几里德距离，若用

表示第m帧的第k个bin的实际值与估计值之间的距离，则：

将这n个距离相加，就可以得到一个以帧为单位的音符开端检测函数D(m)：

D (m) = Σ_{1}^{k} γ_{k} (m)

(2)应用动态规划的方式对音符开端检测结果进行节拍追踪(BeatTracking)，使得检测出的节拍同时满足以下两个条件：

第一个条件：节拍的开端尽可能与音符开端重合；

第二个条件：两个节拍之间的时间长度恒定。

节拍实际上即为固定间隔的时间点序列，所以如果要使得节拍的开端尽可能与音符开端重合，就要让尽可能多的音符开端落在节拍的时间点上。其中，动态规划的过程也正是在这两个限制条件下寻求最优的节拍位置，以及节拍间隔的一个过程，可以将该过程用一个函数来表示，为了描述方便，在本发明实施例中，将该函数成为目标函数(C{t_i})，如下：

C {t_{i}} = Σ_{i = 1}^{N} D (m) + a Σ_{i = 2}^{N} F (t_{i}, τ_{p});

其中，是一个衡量速率的标准，在本发明实施例中称为衡量标准函数。其目标是寻找最优的节拍序列{t_i}，来使得目标函数C{t_i}的值最大。其中，衡量标准函数F(t_i，τ_p)具体为：

需说明的是，如果能找到可以使得目标函数C{t_i}的值最大的节拍序列，则意味着该找到的节拍序列可以满足上述两个条件。

203、副歌提取装置根据节拍追踪结果，以节拍为单位提取chroma特征向量。具体如下：

副歌提取装置将音频信号划分为第二预置长度的帧，比如，如果音频信号的采样率是44100Hz，则每一帧的长度可以为：2048个点/44100Hz＝46ms，即设置第二预置长度为46ms。在将音频信号进行分帧以后，则可以提取与节拍同步的chroma特征向量。如下：

将每一帧内的信号通过傅立叶变换由时域映射到频域，在频域中，将对应于不同八度同一个音名频率内的部分映射到对应的半音音名中，产生一个12维的向量，其中，每一维对应于一个八度中的一个半音，根据节拍追踪结果，比如根据得到的节拍序列，将分帧后的音频信号与节拍同步。一般的，一个节拍的长度为0.4～1秒，因此，一个节拍一般可以包括多个帧。在一个节拍之内，计算属于该节拍的帧的12维向量的平均值，得到与节拍同步的一个chroma特征向量，也就是说，每个节拍对应着一个chroma特征向量，该chroma特征向量为该节拍内所有帧所对应的12维向量的平均值。

比如，节拍1包括有3个帧：帧1、帧2和帧3，帧1的12维向量为a1，帧2的12维向量为a2，帧3的12维向量为a3，则节拍1的chroma特征向量为(a1+a2+a3)/3。

204、副歌提取装置以节拍为单位对步骤203中得到的chroma特征向量进行自距离矩阵的计算；如下：

定义自距离矩阵为D[m，m]，其中，m为整个音频文件的节拍数，自距离矩阵D[m，m]矩阵包括矩阵元素D(i，j)，矩阵元素D(i，j)表示第i拍所对应的chroma特征向量与第j拍所对应的chroma特征向量的欧式距离。具体公式如下：

D (i, j) = 0.5 (1 - \frac{&lang; V_{i}, V_{j} &rang;}{| | V_{i} | | | | V_{j} | |})

其中V_i表示第i个节拍对应的特征向量，V_j表示第j个节拍对应的特征向量。使用自距离矩阵，可以对歌曲节拍与节拍之间的关系进行衡量，并且可以非常直观的反映出歌曲的结构信息。

从自距离矩阵的主对角线开始向左下方平移，计算每一条子对角线上所有矩阵元素D(i，j)的平均值，得到元素平均值，并且将得出的结果表示成为一个以k为自变量，元素平均值为函数值的函数F(k)，为了描述方便，在本发明实施例中，将函数F(k)称为第一函数。具体表示为：

F (k) = \frac{1}{m - k} Σ_{c = 2}^{M - k} D (c + k, c)

其中，k表示该子对角线与主对角线相比而言，向左下方平移的长度；m是整个音频文件的节拍数，c指的是计算的时候，每一条子对角线的第c个元素值。

可以认为，若整个子对角线上的矩阵元素平均值较小，则说明可能有重复的段落出现在该子对角线所表示的音乐片段中，因此找出函数F(k)的极小值，得到对应于这些极小值的子对角线，则音频文件中多次重复的部分，比如副歌则应该会包含在其中。

205、副歌提取装置根据自距离矩阵中每一个元素所表示的距离大小对自距离矩阵进行二值化，得到二值化结果，具体可以如下：

在步骤204中找出第一函数F(k)的极小值后，根据该极小值确定对应的子对角线，将确定的子对角线上矩阵元素与预置第一阈值进行比较，若矩阵元素大于第一阈值，则将矩阵元素设置为0，若矩阵元素小于等于第一阈值，则将矩阵元素设置为1。

其中，该第一阈值可以根据实际应用的需求进行设置，在实现中，第一阈值可使80％的元素值取值为1，20％的元素取值为0。

比如，如果将第一阈值设置为3的话，那么，若某一条子对角线上的矩阵元素序列为：12123423432125333221144，则将该矩阵元素序列进行二值化处理之后，得到序列(即二值化结果)：11111011011110111111100。

206、副歌提取装置将二值化矩阵中连续出现在子对角线中的1选出，找到所有连续出现长度大于预置第二阈值的片段，比如找到所有连续出现长度大于4秒的片段，作为可能的副歌段落，在本发明实施例中称为副歌估计片段。

当然，为了更准确地选出副歌估计片段，还可以先对副歌的位置进行粗略估计，然后再根据二值化结果选择副歌估计片段。

207、副歌提取装置根据预置条件(即评分标准)对选择出的所有副歌估计片段进行评分，评分最高的即被选为副歌。

例如，可以根据副歌估计片段在音频信号中位置对副歌估计片段进行评分，也可以根据副歌估计片段对应的音频信号的平均能量以及在自距离矩阵中的平均距离对副歌估计片段进行评分；具体如下：

(1)根据副歌估计片段在音频信号中位置对副歌估计片段进行评分；

一般来讲，某一类副歌的出现位置都是在一个大约的位置，因此可以对该位置进行估计。例如，大部分的流行音乐歌曲的副歌都会出现在接近歌曲1/4以及3/4的位置附近，因此，可以通过副歌估计片段与歌曲1/4以及3/4的距离作为一个衡量的评分标准。若副歌估计片段在歌曲中所在的位置与整首歌曲的1/4位置或者3/4位置较近，则得分较高。根据该方法，可以定义副歌估计片段为Xp，则其表达式可以为：

Xp＝[i，j，i’，j’]；

其中，(i，j)为副歌估计片段在自距离矩阵中的开始位置所对应的矩阵元素的下标；(i’，j’)为副歌估计片段在自距离矩阵中的结束位置所对应的矩阵元素的下标；比如，若某一个副歌估计片段在自距离矩阵中所对应的矩阵元素序列为：D(1，1)，D(2，2)，D(3，3)，D(4，4)，D(5，5)；其中，D(1，1)为开始位置所对应的矩阵元素，D(5，5)为结束位置所对应的矩阵元素，则，该副歌估计片段Xp＝[1，1，5，5]。

进一步，可以将副歌估计片段的长度表示为：

ΔXp＝j’-j+1；

其中，该副歌估计片段的长度以节拍为单位。则进行打分的过程用公式表示为：

S_{1} (Xp) = 1 - \frac{| (i + \frac{ΔXp}{2}) - round (\frac{m}{4}) |}{round (\frac{m}{4})};

S_{2} (Xp) = 1 - \frac{| (i + \frac{ΔXp}{2}) - round (\frac{3 m}{4}) |}{round (\frac{3 m}{4})} .

其中，round是取整函数的意思，有的时候节拍长度不为4的倍数，但是计算的时候还是要化为整数，m是整个歌曲的节拍数，S₁(Xp)表示副歌估计片段与歌曲1/4处距离的评分分数，S₂(Xp)表示副歌估计片段与歌曲3/4处距离的评分分数。从这两个式子可以看出，该评分标准会对于首次出现的副歌片段予以更加高的评分。

(2)根据副歌估计片段对应的音频信号的平均能量以及在自距离矩阵中的平均距离对副歌估计片段进行评分；

副歌部分之所以通常会给人以歌曲达到了“高潮”的感觉，正是由于副歌部分信号具有较高的能量。因此，可以将能量也作为一个评分标准，能量越高，则得分越高。可以用S₃(Xp)来表示副歌估计片段的平均对数能量和整个音频文件(比如一首歌曲)的总对数能量的比值。

此外，在自距离矩阵中，若该副歌估计段落的平均距离与整个音频文件(比如整首歌曲)的平均距离比较接近，那么，它也更有可能是副歌。因此，这一项也可以作为一个评分标准。若用S₄(Xp)来表示此项得分的话，则可以表示为：

其中，

是副歌估计片段Xp在自距离矩阵中所对应段落的距离的中间值，而

是整个自距离矩阵的平均距离。

当然，为了使得评分更为客观和准确，除了可以分别采用上述方法进行评分之外，还可以将上述评分方法进行整合，以进行综合考虑，即同时采用评分方法(1)和(2)进行评分。具体可以如下：

对根据评分方法(1)得到的分数S₁(Xp)和S₂(Xp)，以及根据评分方法(2)得到的分数S₃(Xp)和S₄(Xp)进行预置的权值处理，得到总分数，选取总分数最高的副歌估计片段为副歌。比如，可以采用如下公式：

S(Xp)＝0.5S₁(Xp)+0.5S₂(Xp)+0.5S₃(Xp)+S₄(Xp)；

其中，S(Xp)表示副歌估计片段Xp的最终得分。该权值的分配为实验测试中较为良好的测试结果对应的权值。

根据上述评分方法，计算出所有副歌估计片段的得分，最高得分的副歌估计片段即被确定为副歌。

需说明的是，除了上述权值处理仅仅只是本发明实施例的其中一种实现方式，应当理解的是，还可以采用其他的权值处理方式，其具体实现与此类似。此外，除了上述评分方法之外，还可以采用其他的评分方式，在此不再赘述。

实施例三、

为了更好地实现以上方法，本发明实施例还相应地提供一种副歌提取设备，如图3所示，该副歌提取设备包括获取单元301、节拍追踪单元302、特征提取单元303、估计单元304、评分单元305和选择单元306；

获取单元301，用于获取音频信号；例如，读取一个音频文件，比如一首流行歌曲，该音频文件具体可以由***自动读取，也可以由用户输入。

节拍追踪单元302，用于对获取单元301获取到的音频信号进行节拍追踪，得到节拍追踪结果；

特征提取单元303，用于根据节拍追踪单元302得到的节拍追踪结果，以节拍为单位提取chroma特征向量；

估计单元304，用于根据特征提取单元303提取到的chroma特征向量选择副歌估计片段；

评分单元305，用于根据预置条件对估计单元304选择出的副歌估计片段进行评分，得到评分结果；

选择单元306，用于根据评分单元305得到的评分结果从副歌估计片段中选择副歌。

其中，参见图4，估计单元304可以包括自距离计算子单元3041、二值化计算子单元3042和选择子单元3043；

自距离计算子单元3041，用于利用特征提取单元303提取到的chroma特征向量进行自距离矩阵计算；

二值化计算子单元3042，用于根据自距离矩阵中每一个元素所表示的距离大小对自距离矩阵进行二值化处理，得到二值化结果；

选择子单元3043，用于根据二值化计算子单元3042得到的二值化结果选择副歌估计片段。

例如，在根据chroma特征向量选择副歌估计片段时，首先，具体可以由自距离计算子单元3041根据音频信号的总节拍数和chroma特征向量定义自距离矩阵，然后从自距离矩阵的主对角线开始向左下方平移，计算每一条子对角线上所有矩阵元素的平均值，得到元素平均值，利用元素平均值构造一个以k为自变量，元素平均值为函数值的函数，称为第一函数，计算第一函数的极小值。其中，k表示该子对角线与主对角线相比而言，向左下方平移的长度；m是整个音频文件的节拍数。其次，再由二值化计算子单元3042根据第一函数的极小值获取对应的子对角线，将获取到的对角线上的矩阵元素与预置第一阈值进行比较，将大于第一阈值的矩阵元素设置为0，将小于等于第一阈值的矩阵元素设置为1；最后，由选择子单元3043通过对连续出现1的音频信号片段的长度，与预置的第二阈值之间的比较，来确定副歌可能出现的片段，即确定副歌估计片段。也就是说，自距离计算子单元3041、二值化计算子单元3042和选择子单元3043的功能具体可以如下：

自距离计算子单元3041，具体可以用于根据音频信号的总节拍数和特征提取单元303提取到的chroma特征向量定义自距离矩阵，从自距离矩阵的主对角线开始向左下方平移，计算每一条子对角线上所有矩阵元素的平均值，得到元素平均值，计算第一函数的极小值，其中，第一函数为一个以k为自变量，元素平均值为函数值的函数；

二值化计算子单元3042，具体用于根据第一函数的极小值获取对应的子对角线，将获取到的对角线上的矩阵元素与预置第一阈值进行比较，若矩阵元素大于第一阈值，则将矩阵元素设置为0，若矩阵元素小于等于所述第一阈值，则将矩阵元素设置为1；

选择子单元3043，具体用于若连续出现1的音频信号片段的长度大于预置的第二阈值，则确定该音频信号片段为副歌估计片段。

当然，为了更准确地选出副歌估计片段，还可以先对副歌的位置进行粗略估计，然后再根据二值化结果选择副歌估计片段。即：

选择子单元3043，具体还用于在对副歌的位置进行粗略估计的前提下，确定连续出现1的音频信号片段的长度是否大于预置的第二阈值，若是，则确定该音频信号片段为副歌估计片段，若否，则确定该音频信号片段不是副歌估计片段。

其中，第二阈值可以根据实际应用的需求进行设置，比如，将该第二阈值设置为4秒，那么，若选择子单元3043找到连续出现长度大于4秒的片段，则可以将该片段作为副歌估计片段。

其中，如图4所示，节拍追踪单元302可以包括检测子单元3021和追踪子单元3022；

检测子单元3021，用于对音频信号进行音符开端检测，得到音符开端检测结果；

追踪子单元3022，用于根据检测子单元3021得到的音符开端检测结果进行节拍追踪，使得节拍的开端尽可能与音符开端重合，并且使得两个节拍之间的时间长度恒定。

例如，在进行节拍追踪时，具体可以由检测子单元3021将音频信号划分为第一预置长度的帧；并对划分为帧的音频信号通过短时傅立叶变换映射到频域，然后对映射到频域的音频信号进行频谱分析，以得到音符开端检测函数(此时音符开端检测函数即为音符开端检测结果)。然后由追踪子单元3022将音符开端检测函数与预置的衡量标准函数的和作为目标函数，计算可以使得该目标函数的值最大的节拍序列。其中，衡量标准函数为用于衡量速率的一个标准。另外，如果能够找到使得目标函数的值最大的节拍序列，则意味着可以满足“使得节拍的开端尽可能与音符开端重合，并且使得两个节拍之间的时间长度恒定”这两个条件。即：

检测子单元3021，具体用于将音频信号划分为第一预置长度的帧，对划分为帧的音频信号通过短时傅立叶变换映射到频域，对映射到频域的音频信号进行频谱分析，得到音符开端检测函数。

追踪子单元3022，具体用于将音符开端检测函数与预置的衡量标准函数的和作为目标函数，所述衡量标准函数为用于衡量速率的一个标准；计算可以使得所述目标函数的值最大的节拍序列；

则此时，特征提取单元303，具体用于根据追踪子单元3022得到的节拍序列，以节拍为单位提取chroma特征向量。

其中，第一预置长度的大小可以根据实际应用的需求进行设置，一般为了保证短时傅里叶变换中的信号相对稳定，可以对音频信号进行固定长度的分帧，即第一预置长度为一固定的值，比如可以设置第一预置长度为32毫秒(ms)，且每次以4ms为单位进行推进一进行分帧。例如，如果一个音频信号的长度为60ms，则可以划分为：1ms～32ms为第一帧，5ms～36ms为第二帧，9ms～40ms为第三帧，13ms～44ms为第四帧，17ms～48ms为第五帧，21ms～52ms为第六帧，25ms～56ms为第七帧，29ms～60ms为第八帧，以此类推。

如图4所示，特征提取单元303可以包括划分子单元3031、第一映射子单元3032、第二映射子单元3033、同步子单元3034和特征计算子单元3035；

划分子单元3031，用于将音频信号划分为第二预置长度的帧；

其中，第二预置长度可以根据实际应用的需求进行设定，比如，如果音频信号的采样率是44100Hz，则每一帧的长度可以为：2048个点/44100Hz＝46ms，即设置第二预置长度为46ms。

第一映射子单元3032，用于将每一帧内的音频信号通过傅里叶变换由时域映射到频域；

第二映射子单元3033，用于在频域中，将对应于不同八度但对应同一音名频率的部分映射到对应的半音音名中，产生一个12维向量，其中，每一维对应于一个八度中的一个半音；

同步子单元3034，用于根据节拍追踪结果将划分后的帧(已经映射到频域的帧)与节拍同步；

特征计算子单元3035，用于计算属于同一个节拍内的所有帧的12维向量的平均值，得到与该节拍同步的chroma特征向量。

比如，如果音频信号的采样率是44100Hz，则每一帧的长度可以为：2048个点/44100Hz＝46ms，即设置第二预置长度为46ms。则在划分子单元3031将音频信号进行分帧以后，可以由第一映射子单元3032和第二映射子单元3033对音频信号进行映射，然后由同步子单元3034根据节拍追踪结果，比如根据得到的节拍序列将分帧后的音频信号与节拍进行同步，最后由特征计算子单元3035提取与节拍同步的chroma特征向量。具体可参见前面的方法实施例，在此不再赘述。

在对选择出的副歌估计片段进行评分时，可以根据实际应用的需求采用合适的评分标准，例如：

评分单元305，具体用于根据副歌估计片段在音频信号中位置对副歌估计片段进行评分，得到评分结果；和/或，根据副歌估计片段对应的音频信号的平均能量以及在自距离矩阵中的平均距离对副歌估计片段进行评分，得到评分结果。

为了使得评分所得的分数更为客观和准确，可以对通过不同评分标准得到的分数进行预置的权值处理，即：

选择单元306，具体用于对评分结果进行预置的权值处理，得到总分数，选取总分数最高的副歌估计片段为副歌。

可选的，由于通常的音频信号的采样率是44.1kHz，如果直接进行处理的话，数据量会较大，因此，为了有效地减少数据量，以便提高运算速度，该副歌提取设备还可以包括预处理单元；

预处理单元，用于对获取单元301获取到的音频信号进行重采样。比如，其中，重采样的采样频率可以定为8kHz。

则此时，节拍追踪单元302，用于对预处理单元重采样后的音频信号进行节拍追踪，得到节拍追踪结果。

以上各个单位的具体实施可参见前面的方法实施例，在此不再赘述。

另外，需说明的是，在具体实现时，以上各个单元可以作为独立的实体实现，也可以进行任意组合，作为同一实体或若干个实体来实现，比如，由计算机中的处理器来实现，等等，在此不再赘述。

由上可知，本实施例的副歌提取设备中的节拍追踪单元302采用对获取到的音频信号进行节拍追踪，并由特征提取单元303根据节拍追踪结果，以节拍为单位提取chroma特征向量，然后由估计单元304根据chroma特征向量选择副歌估计片段，再由评分单元305根据预置条件对副歌估计片段进行评分，最后选择单元306根据评分结果从副歌估计片段中选择副歌；由于该方案可以对歌曲的节拍进行跟踪，并基于歌曲的节拍来进行后续的chroma特征向量提取，实现对副歌进行提取，所以相对现在技术所采用的固定分帧方法而言，更能贴合不同节拍的歌曲的需求，可以更灵活和准确地提取副歌。

实施例四、

相应地，本发明实施例提供一种通信***，包括本发明实施例提供的任一种副歌提取设备。具体可参见实施例三，在此不再赘述。

例如，具体可以如下：

副歌提取设备，用于获取音频信号，对该音频信号进行节拍追踪，得到节拍追踪结果，根据节拍追踪结果，以节拍为单位提取chroma特征向量，根据chroma特征向量选择副歌估计片段，根据预置条件对副歌估计片段进行评分，得到评分结果，根据评分结果从副歌估计片段中选择副歌。

其中，可以采用现有技术的方法来根据chroma特征向量选择副歌估计片段(具体可参见现有技术)，也可以采用不同于现有技术的方法来根据chroma特征向量选择副歌估计片段，比如，利用chroma特征向量进行自距离矩阵计算，根据自距离矩阵中每一个元素所表示的距离大小对自距离矩阵进行二值化处理，得到二值化结果，然后根据二值化结果选择副歌估计片段。即：

该副歌提取设备，具体用于利用chroma特征向量进行自距离矩阵计算，根据自距离矩阵中每一个元素所表示的距离大小对自距离矩阵进行二值化处理，得到二值化结果，根据二值化结果选择副歌估计片段。其中，自距离矩阵计算以及二值化处理的具体步骤可参见前面的实施例，在此不再赘述。

其中，对音频信号进行节拍追踪可以采用多种方式来实现，比如，可以对音频信号进行音符开端检测，得到音符开端检测结果，然后根据音符开端检测结果进行节拍追踪。即：

该副歌提取设备，具体用于对音频信号进行音符开端检测，得到音符开端检测结果，根据音符开端检测结果进行节拍追踪。其中，节拍应同时满足如下两个条件：(1)节拍的开端尽可能与音符开端重合；(2)两个节拍之间的时间长度恒定。其中，对音频信号进行音符开端检测，以及节拍追踪的处理具体可参见前面的实施例，在此不再赘述。

其中，根据节拍追踪结果，以节拍为单位提取chroma特征向量具体可以为：将音频信号划分为第二预置长度的帧；将每一帧内的音频信号通过傅里叶变换由时域映射到频域；在频域中将对应于不同八度但对应同一音名频率的部分映射到对应的半音音名中，产生一个12维向量，其中，每一维对应于一个八度中的一个半音；根据节拍追踪结果将划分后的帧与节拍同步；计算属于同一个节拍内的所有帧的12维向量的平均值，得到与该节拍同步的chroma特征向量。即：

该副歌提取设备，具体用于将每一帧内的音频信号通过傅里叶变换由时域映射到频域；在频域中将对应于不同八度但对应同一音名频率的部分映射到对应的半音音名中，产生一个12维向量，其中，每一维对应于一个八度中的一个半音；根据节拍追踪结果将划分后的帧与节拍同步；计算属于同一个节拍内的所有帧的12维向量的平均值，得到与该节拍同步的chroma特征向量。

其中，根据预置条件对副歌估计片段进行评分，得到评分结果具体可以为：根据副歌估计片段在音频信号中位置对副歌估计片段进行评分，得到评分结果；和/或，根据副歌估计片段对应的音频信号的平均能量以及在自距离矩阵中的平均距离对副歌估计片段进行评分，得到评分结果。即：

该副歌提取设备，具体用于根据副歌估计片段在音频信号中位置对副歌估计片段进行评分，得到评分结果；和/或，根据副歌估计片段对应的音频信号的平均能量以及在自距离矩阵中的平均距离对副歌估计片段进行评分，得到评分结果。

此外，该通信***还可以包括音频文件提供装置；

音频文件提供装置，用于为副歌提取设备提供音频文件。

以下将对该通信***提取副歌的流程作简略说明。如下：

步骤1、副歌提取装置获取音频信号，比如读取需要提取副歌的音频文件。

步骤2、副歌提取装置对获取到的音频信号进行节拍追踪，得到节拍追踪结果。例如，具体如下：

首先，可以对音频信号进行重采样。其中，重采样的采样频率可以定为8kHz。通过执行该重采样步骤，可以有效的减少数据量，提高运算速度，而且对结果也不会产生大的影响。

(1)对于音乐信号进行基于能量和相位结合的音符开端检测，具体可参见前面的方法实施例，在此不再赘述；

第一个条件：节拍的开端尽可能与音符开端重合；

第二个条件：两个节拍之间的时间长度恒定。

步骤3、副歌提取装置根据节拍追踪结果，以节拍为单位提取chroma特征向量。如下：

副歌提取装置将音频信号划分为第二预置长度的帧，比如，如果音频信号的采样率是44100Hz，则每一帧的长度可以为：2048个点/44100Hz＝46ms，即设置第二预置长度为46ms。在将音频信号进行分帧以后，将每一帧内的信号通过傅立叶变换由时域映射到频域，在频域中，将对应于不同八度同一个音名频率内的部分映射到对应的半音音名中，产生一个12维的向量，其中，每一维对应于一个八度中的一个半音，根据节拍追踪结果将分帧后的音频信号与节拍同步。在一个节拍之内，计算属于该节拍的帧的12维向量的平均值，得到与节拍同步的一个chroma特征向量。

步骤4、副歌提取装置以节拍为单位对步骤3中得到的chroma特征向量进行自距离矩阵的计算，找出第一函数

的极小值，其中，D(i，j)为自距离矩阵D[m，m]的矩阵元素，表示第i拍所对应的chroma特征向量与第j拍所对应的chroma特征向量的欧式距离，m为整个音频文件的节拍数，k表示该子对角线与主对角线相比而言，向左下方平移的长度。

步骤5、在步骤4中找出第一函数F(k)的极小值后，副歌提取装置根据该极小值确定对应的子对角线，将确定的子对角线上矩阵元素与预置第一阈值进行比较，若矩阵元素大于第一阈值，则将矩阵元素设置为0，若矩阵元素小于等于第一阈值，则将矩阵元素设置为1。

步骤6、副歌提取装置将连续出现在子对角线中的1选出，找到所有连续出现长度大于预置第二阈值的片段，比如找到所有连续出现长度大于4秒的片段，作为可能的副歌段落，在本发明实施例中称为副歌估计片段。

步骤7、副歌提取装置根据预置条件(即评分标准)对选择出的所有副歌估计片段进行评分，评分最高的即被选为副歌。

比如，可以根据副歌估计片段在音频信号中位置对副歌估计片段进行评分，得到评分结果；和/或，根据副歌估计片段对应的音频信号的平均能量以及在自距离矩阵中的平均距离对副歌估计片段进行评分，得到评分结果，然后对评分结果进行预置的权值处理，得到总分数；选取总分数最高的副歌估计片段为副歌，等等。

由上可知，本实施例的通信***中的副歌提取设备采用对获取到的音频信号进行节拍追踪，然后根据节拍追踪结果，以节拍为单位提取chroma特征向量，根据chroma特征向量选择副歌估计片段，再根据预置条件对副歌估计片段进行评分，根据评分结果从副歌估计片段中选择副歌；由于该方案可以对歌曲的节拍进行跟踪，并基于歌曲的节拍来进行后续的chroma特征向量提取，实现对副歌进行提取，所以相对现在技术所采用的固定分帧方法而言，更能贴合不同节拍的歌曲的需求，可以更灵活和准确地提取副歌。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

以上对本发明实施例所提供的一种提取歌曲副歌的方法、装置和***进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种提取歌曲副歌的方法，其特征在于，包括：

获取音频信号；

对所述音频信号进行节拍追踪，得到节拍追踪结果；

根据chroma特征向量选择副歌估计片段；

根据预置条件对副歌估计片段进行评分，得到评分结果；

根据评分结果从副歌估计片段中选择副歌。

2.根据权利要求1所述的方法，其特征在于，所述根据chroma特征向量选择副歌估计片段包括：

利用chroma特征向量进行自距离矩阵计算；

根据自距离矩阵中每一个元素所表示的距离大小对自距离矩阵进行二值化处理，得到二值化结果；

根据二值化结果选择副歌估计片段。

3.根据权利要求2所述的方法，其特征在于，

所述利用chroma特征向量进行自距离矩阵计算包括：根据音频信号的总节拍数和chroma特征向量定义自距离矩阵，从自距离矩阵的主对角线开始向左下方平移，计算每一条子对角线上所有矩阵元素的平均值，得到元素平均值，计算第一函数的极小值，其中，第一函数为一个以k为自变量，元素平均值为函数值的函数；

则所述根据自距离矩阵中每一个元素所表示的距离大小对自距离矩阵进行二值化处理，得到二值化结果包括：根据第一函数的极小值获取对应的子对角线，将获取到的对角线上的矩阵元素与预置第一阈值进行比较，若矩阵元素大于所述第一阈值，则将矩阵元素设置为0，若矩阵元素小于等于所述第一阈值，则将矩阵元素设置为1；

所述根据二值化结果选择副歌估计片段包括：若连续出现1的音频信号片段的长度大于预置的第二阈值，则确定该音频信号片段为副歌估计片段。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述对音频信号进行节拍追踪具体为：

对音频信号进行音符开端检测，得到音符开端检测结果；

根据音符开端检测结果进行节拍追踪，使得节拍的开端尽可能与音符开端重合，并且使得两个节拍之间的时间长度恒定。

5.根据权利要求4所述的方法，其特征在于，所述对音频信号进行音符开端检测，得到音符开端检测结果具体为：

将音频信号划分为第一预置长度的帧；

对划分为帧的音频信号通过短时傅立叶变换映射到频域；

对映射到频域的音频信号进行频谱分析，得到音符开端检测函数。

6.根据权利要求5所述的方法，其特征在于，所述根据音符开端检测结果进行节拍追踪，使得节拍的开端尽可能与音符开端重合，并且使得两个节拍之间的时间长度恒定包括：

将音符开端检测函数与预置的衡量标准函数的和作为目标函数，所述衡量标准函数为用于衡量速率的一个标准；

计算可以使得所述目标函数的值最大的节拍序列；

则所述根据节拍追踪结果，以节拍为单位提取chroma特征向量具体为：根据所述节拍序列，以节拍为单位提取chroma特征向量。

7.根据权利要求1至3中任一项所述的方法，其特征在于，所述根据节拍追踪结果，以节拍为单位提取chroma特征向量包括：

将音频信号划分为第二预置长度的帧；

将每一帧内的音频信号通过傅里叶变换由时域映射到频域；

在频域中将对应于不同八度但对应同一音名频率的部分映射到对应的半音音名中，产生一个12维向量，其中，每一维对应于一个八度中的一个半音；

根据节拍追踪结果将划分后的帧与节拍同步；

8.根据权利要求1至3中任一项所述的方法，其特征在于，所述根据预置条件对副歌估计片段进行评分，得到评分结果包括：

根据副歌估计片段在音频信号中位置对副歌估计片段进行评分，得到评分结果；和/或，

9.根据权利要求1至3中任一项所述的方法，其特征在于，所述根据评分结果从副歌估计片段中选择副歌，包括：

对评分结果进行预置的权值处理，得到总分数；

选取总分数最高的副歌估计片段为副歌。

10.一种副歌提取设备，其特征在于，包括：

获取单元，用于获取音频信号；

11.根据权利要求10所述的副歌提取设备，其特征在于，所述估计单元包括：

自距离计算子单元，用于利用特征提取单元提取到的chroma特征向量进行自距离矩阵计算；

二值化计算子单元，用于根据自距离矩阵中每一个元素所表示的距离大小对自距离矩阵进行二值化处理，得到二值化结果；

选择子单元，用于根据二值化计算子单元得到的二值化结果选择副歌估计片段。

12.根据权利要求11所述的副歌提取设备，其特征在于，

所述自距离计算子单元，具体用于根据音频信号的总节拍数和特征提取单元提取到的chroma特征向量定义自距离矩阵，从自距离矩阵的主对角线开始向左下方平移，计算每一条子对角线上所有矩阵元素的平均值，得到元素平均值，计算第一函数的极小值，其中，第一函数为一个以k为自变量，元素平均值为函数值的函数；

所述二值化计算子单元，具体用于根据第一函数的极小值获取对应的子对角线，将获取到的对角线上的矩阵元素与预置第一阈值进行比较，若矩阵元素大于第一阈值，则将矩阵元素设置为0，若矩阵元素小于等于所述第一阈值，则将矩阵元素设置为1；

所述选择子单元，具体用于若连续出现1的音频信号片段的长度大于预置的第二阈值，则确定该音频信号片段为副歌估计片段。

13.根据权利要求10至12中任一项所述的副歌提取设备，其特征在于，所述节拍追踪单元包括：

检测子单元，用于对音频信号进行音符开端检测，得到音符开端检测结果；

追踪子单元，用于根据检测子单元得到的音符开端检测结果进行节拍追踪，使得节拍的开端尽可能与音符开端重合，并且使得两个节拍之间的时间长度恒定。