CN101398825B

CN101398825B - 用于快速音乐分类和检索的方法和设备

Info

Publication number: CN101398825B
Application number: CN200710151768.9A
Authority: CN
Inventors: 邓菁; 朱璇; 史媛媛; 严基完; 李在原
Original assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Current assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Priority date: 2007-09-29
Filing date: 2007-09-29
Publication date: 2013-07-03
Anticipated expiration: 2027-09-29
Also published as: CN101398825A

Abstract

本发明公开了一种用于快速音乐分类和搜索的方法和设备。所述方法包括以下步骤：输入音乐文件；提取输入的音乐文件的每一帧的基于MDCT的声学特征；计算每一帧的能量；按照能量大小将每一帧的声学特征进行排序。所述方法还包括以下步骤：将排序后的声学特征划分为多个段；针对所述多个段中的一个或多个计算均值和标准偏差；将计算的均值和标准偏差组合成向量。本发明使用的短时音乐特征，即MFCC和音色特征，直接从MDCT系数中得到。所以特征提取的速度非常快。为了分类一首音乐，仅需对音乐文件的12秒长度的部分进行解码。

Description

用于快速音乐分类和检索的方法和设备

技术领域

本发明涉及一种快速音乐分类和检索的方法，更具体地说，涉及这样一种方法和设备，其根据音乐文件的情感对音乐文件进行分类，并且通过给定一个特定的音乐文件从音乐集中搜索与该特定的音乐文件的情感最相似的音乐文件。

背景技术

在自动检测音乐的情感的传统方法中，音色特征(例如，谱形特征、谱对比特征)和节奏特征(例如，强度特征)、平均激烈度(strength)、平均规律(regularity)以及平均节拍(tempo)被提取并且用于对音乐的情感进行分类。另外，在自动检测音乐的情感的一些传统方法中，利用高斯混合模型(GMM)将音乐的情感通过等级结构分为四类。但是，在自动检测音乐的情感的传统方法中，因为必须从编码的音乐文件被解码的解压缩域中提取音乐的特征，所以提取速度很慢，结果检测的速度降低了。另外，在自动检测音乐的情感的一些传统方法中，通过建模简单地限定而不管音乐的类型的情感类来分类音乐的情感，从而产生许多分类错误。

相反地，在传统的音乐推荐(recommendation)***中，存储在硬盘驱动器(HDD)上的大容量的音乐文件被根据用户的喜好进行分类。具体地说，例如，在传统的音乐推荐***中存储了249首曲调，10种曲调代表用户指定的每种情感，并且用户对于每种曲调适合/不适合做出反馈，从而对被分类为欢快、激动、平静、悲伤和平复的情感的音乐进行选择。但是，在这种传统的音乐推荐***中，因为必须从编码的音乐文件被解码的解压缩域中提取音乐的特征，所以提取速度很慢。

如上所述，在传统的音乐情感分类方法中，因为需要对编码的音乐文件(例如，MP3)解压为PCM数据以便从解压缩域中提取音乐文件的特征(例如，音色、节拍和强度)，所以提取速度慢。

第2007/0107584号美国专利申请公开了一种从音乐文件的压缩域中提取基于修正离散余弦变换(MDCT)的音色特征和节拍特征的方法和设备，并且基于提取的音色特征和提取的节拍特征对音乐的情感进行分类。在所述申请中，GMM直接使用短时特征进行分类，使得分类较复杂并且分类速度相对慢。

因此，需要一种更快速的音乐文件情感分类方法和设备。

发明内容

提出本发明以解决以上在传统技术中出现的不足和缺点，并且提供以下优点。

本发明的一方面提供一种用于快速音乐分类的方法，包括以下步骤：输入音乐文件；提取输入的音乐文件的每一帧的基于修正离散余弦变换(MDCT)的声学特征；计算每一帧的能量；按照能量大小将每一帧的声学特征进行排序。

根据本发明的一方面，所述方法还包括以下步骤：将排序后的声学特征划分为多个段；针对所述多个段中的一个或多个计算均值和标准偏差；将计算的均值和标准偏差组合成向量。

本发明的另一方面提供一种用于从音乐集中搜索与预定音乐文件的情感最相似的音乐文件的相似性搜索方法，包括以下步骤：输入音乐文件；针对输入的音乐文件的每一帧提取基于MDCT的声学特征；计算每一帧的能量；按照能量大小将每一帧的声学特征进行排序。

根据本发明的另一方面，所述方法还包括以下步骤：将排序后的声学特征划分为多个段；针对所述多个段中的一个或多个计算均值和标准偏差；将计算的均值和标准偏差组合成向量。

本发明的另一方面提供一种用于音乐情感分类的设备，包括以下部分：基于MDCT的特征提取部分，当输入音乐文件时，用于从所述音乐文件中提取基于MDCT的声学特征；特征向量创建部分，用于通过计算输入的音乐文件的每一帧的能量、按照能量大小排序从基于MDCT的特征提取部分输出的声学特征来创建输入的音乐文件的最终特征向量；基于支持向量机(SVM)的情感分类器，用于根据特征向量创建部分创建的最终特征向量来对输入的音乐文件的情感进行分类。

根据本发明的另一方面，特征向量创建部分通过将排序后的声学特征划分为多个段，计算所述多个段中的一个或多个的均值和标准偏差并且将计算后的均值和标准偏差组合来创建最终特征向量。

本发明的另一方面提供一种用于从音乐集中搜索与预定音乐文件的情感最相似的音乐文件的相似性搜索设备，包括以下部分：基于MDCT的特征提取部分，当输入音乐文件时，用于从所述音乐文件中提取基于MDCT的声学特征；特征向量创建部分，用于通过计算输入的音乐文件的每一帧的能量、按照能量大小排序从基于MDCT的特征提取部分输出的声学特征来创建输入的音乐文件的最终特征向量；基于SVM的情感分类器，用于根据特征向量创建部分创建的最终特征向量来从音乐集中搜索与预定音乐文件的情感最相似的音乐文件。

在本发明中使用的短时特征，通常是MFCC和音色特征是直接从MDCT系数中提取的。所以特征提取的处理速度非常快。为了对一首音乐进行分类，仅需对该音乐文件的12秒长度的部分进行解码。

通过有效的统计学处理，并且一个音乐文件最终仅输出一个用于分类的特征向量，因此，大大提高了分类速度。

通常，本发明提供一种快速音乐分类的方法。并且本发明应用在只支持MP3解码的软件的消费品也可成功实现实时的分类。

附图说明

通过下面结合附图对实施例进行的描述，本发明的上述和/或其它目的和特点将会变得更加清楚，其中：

图1是根据本发明实施例的快速音乐分类和检索的***概括图；

图2示出了根据本发明实施例的基于MDCT的特征提取以及传统的基于DFT的特征提取的比较示图；

图3是根据本发明实施例的基于MDCT的MFCC提取的流程图；

图4示出了在一个音乐文件中基于MDCT的声学特征提取的位置和时间段的示图；

图5是显示根据本发明实施例的创建新类型的特征向量的流程图；

图6是示出用于训练SVM分类器和情感分类的最终特征向量的结构的示图。

具体实施方式

现在，将参照附图详细说明本发明的实施例，其例子表示在附图中，图中相同的标号始终指代相同的部件和步骤。以下，通过参照附图描述实施例以解释本发明。

图1是根据本发明实施例的快速音乐分类和检索的***概括图。如图1所示，当用户输入一个MP3文件时，***输出该输入的MP3文件的情感类型。

根据本发明的***主要包括以下三个部分：基于MDCT的特征提取部分100、新类型的特征向量创建部分200和基于支持向量机(SVM)的情感分类器300。

基于MDCT的特征提取部分100从音乐文件的压缩域中提取声学音乐特征，尤其是提取音色特征集和Mel倒谱系数(MFCC)。具体地说，基于MDCT的特征提取部分100通过对编码(例如，使用MP3方法编码)的音乐文件的一部分进行解码可提取MDCT系数，可从提取的MDCT系数中选取预定的一部分，并且可从选取的MDCT系数中提取声学音乐特征。

新类型的特征向量创建部分200通过预定的统计学方法从提取的升学音乐特征中创建作为输出的新类型的特征向量以用于音乐文件情感分类。

如上所述，应该理解，因为基于MDCT的特征提取部分100从音乐文件的压缩域中提取声学音乐特征，并且只有一个用于音乐文件情感分类的向量从特征向量创建部分200输出，所以分类速度相对于传统方法较快。

基于SVM的情感分类器300基于从特征向量创建部分200输出的向量对音乐文件的情感进行分类。例如，具体地说，基于SVM的情感分类器300可基于从特征向量创建部分200输出的向量将音乐文件的情感分类为高兴、悲伤、平静和甜美中的任何一种。

以下，将详细描述基于MDCT的特征提取部分100、特征向量创建部分200和基于SVM的情感分类器300。

基于MDCT的特征提取部分100用于从音乐文件的压缩域中提取声学音乐特征，特别是音色特征集和MFCC。

图2是根据本发明实施例的基于MDCT的特征提取以及传统的基于离散傅立叶变换(DFT)的特征提取的比较的示图。

如图2所示，根据本发明，直接从MDCT系数中提取音乐特征。可以看出，根据本发明的基于MDCT的特征提取不需要非常耗时间的修正离散余弦反变换(IMDCT)合成和多相合成(polyphase synthesis)的步骤。因此，基于MDCT的特征提取显著地提高了特征提取的速度。

实际上，在压缩文件的解码过程当中，就内嵌了子带滤波信号，比如：修正离散余弦变换系数等，这一信号普遍存在于MP3、AC-3、Ogg Vorbis，AAC等多种音频压缩格式中。直接从这些信号中提取特征，将显著提高***特征提取的效率。

在MP3编解码过程中，多相位滤波器组将数字音频信号等分成为32个子带信号，而修正离散余弦变换系数则通过在频域方向上的细分，得到更为精细的频率分辨率。对于标准的44.1kHz采样频率的MP3文件而言，其帧长约为13ms，每帧包含576个修正离散余弦变换系数子带，每个子带带宽约为38.28Hz。

以下，将详细描述提取音乐文件的基于MDCT的声学特征(音色特征和MFCC)的过程。这里，用s_t(i)表示修正离散余弦变换系数，其中t表示MDCT子带系数，范围为0至575，i为MDCT系数序号。

音色特征是表征音频信号声学特点的一类特征，通常由时长、能量、音高、和弦结构等参数来描述，基于短时傅立叶变换计算得到。而本实施例中所提取的所有音色特征，则是以修正离散余弦变换系数来代替信号的短时频谱而来的，覆盖了65Hz～8372Hz共计7个八度的频率范围。在下列公式中，N₀和N分别表示了对应65Hz和8372Hz的修正离散余弦变换系数的序号。

公式(1)表示修正离散余弦变换子带质心，其用于表示信号是高频占主导还是低频占主导，类似于物体的重心。

C_{t} = \frac{Σ_{i {= N}_{0}}^{N} ({| S_{t} (i) |}^{2} \times i)}{Σ_{i = N_{0}}^{M} {| S_{t} (i) |}^{2}} - - - (1)

公式(2)表示修正离散余弦变换子带带宽，其用于表示MDCT谱的形状。

B_{t} = \sqrt{\frac{Σ_{i = N_{0}}^{N} ({| S_{t} (i) |}^{2} \times {(i - C_{t})}^{2})}{Σ_{i = N_{0}}^{N} {| S_{t} (i) |}^{2}}} - - - (2)

公式(3)表示修正离散余弦变换子带滚降，也用于表示一帧MDCT系数的形状，即数值集中于低频部分，还是高频部分。

Σ_{i = N_{0}}^{Rt} {| S_{t} (i) |}^{2} = 0.95 \times Σ_{i = N_{0}}^{N} {| S_{t} (i) |}^{2} - - - (3)

公式(4)表示修正离散余弦变换子带通量，用于描述相邻MDCT帧间的变化情况，类似于加速度的概念。

F_{t} = Σ_{i = N_{0}}^{N} {(| S_{t} (i) | - | S_{t - 1} (i) |)}^{2} - - - (4)

公式(5)表示修正离散余弦变换子带平坦度，即估计几何均值与算术均值的比率，用于描述信号谱的平坦度

L_{t} = 10 \times \log (\frac{\sqrt[(N - N_{0} + 1)]{Π_{i = N_{0}}^{N} {| S_{t} (i) |}^{2}}}{(Σ_{i = N_{0}}^{N} {| S_{t} (i) |}^{2}) / (N - N_{0} + 1)}) - - - (5)

公式(6)、(7)、(8)表示修正离散余弦变换子带对比系数。

在音乐分类领域，基于音乐八度的谱对比系数要比常见的MFCC提供更佳的区分度。基于音乐八度的谱对比特征集由八度子带的峰值、谷值、均值组成。

本发明的实施例使用了基于MDCT系数的对比系数，选择了7个子带，每个子带覆盖了一个八度的频率范围：65～131Hz、131～262Hz、262～523Hz、523～1047Hz、1047～2093Hz、2093～4186Hz、4186～8372Hz。

对于第k个子带，可以将其包含的MDCT系数按照降序排列，得到序列{|S_t(k，1)|＞|S_t(k，2)|＞Λ＞|S_t(k，N_k)|}，而该子带的峰值、谷值、均值分别可根据公式(6)、(7)、(8)求得：

P_{t} (k) = \log (\frac{1}{α N_{k}} Σ_{i = 1}^{α N_{k}} {| S_{t} (k, i) |}^{2}) - - - (6)

V_{t} (k) = \log (\frac{1}{α N_{k}} Σ_{i = 1}^{α N_{k}} {| S_{t} (k, N_{k} - i + 1) |}^{2}) - - - (7)

M_{t} (k) = \log (\frac{1}{N_{k}} Σ_{i = 1}^{N_{k}} {| S_{t} (k, i) |}^{2}) - - - (8)

其中N_k是第k个子带修正离散余弦变换系数的序号，而α则是一个0.02到0.2之间的常数，使得相邻的八度子带之间有一定的交叠。

可见，本文中每帧音色特征均由26个分量组成，包括修正离散余弦变换子带质心、带宽、滚降、通量、平坦度和21个对比系数。每帧音色特征均与MP3帧同步，其帧移亦为13ms。

图3是根据本发明实施例的基于MDCT的MFCC提取的流程图。如图3所示，基于MDCT的MFCC提取可通过如下步骤实现：针对每一帧的MDCT系数应用Mel滤波器组分析，接着，对Mel滤波器组分析的结果进行离散余弦变换(DCT)得到MFCC系数。以上基于MDCT的MFCC提取的过程对于本领域技术人员来说是公知的，因此，为了简明起见，在此不做详细描述。

传统的特征提取方法对音乐文件的固定位置的固定长度部分进行分析，这使得最终的结果(即，音乐文件的情感类型)极大地依赖所述位置和所述长度。根据本发明，不对音乐文件的起始部分和终止部分进行分析，这是因为对于多数音乐文件来说，这些部分比较相似，都是平缓的或是乐器的伴奏。根据本发明的当前实施例，在音乐文件的中间部分选取固定长度(3秒)的4段以进行分析，并且从所述4段分别基于MDCT提取声学特征，如图4所示。

图5是显示根据本发明实施例的创建新类型的特征向量的流程图，图6是示出用于训练SVM分类器和情感分类的最终特征向量的结构的示图。

在步骤201中，通过将基于MDCT的短时声学音乐特征(包括音色特征集和MFCC)组合而创建作为***输入的向量。输入音乐文件的基于MDCT的声学特征，即，将根据步骤100得到的基于MDCT的MFCC和音色特征组合为一个向量作为输入。该向量的各系数的顺序可由用户确定或由***指定。在用户输入音乐文件之后，音乐文件的中间部分被选取出各自具有3s长度的4段。从所述4段中分别提取每一帧的基于MDCT的短时声学音乐特征。然后，对于所选出的4段的每一帧，这些提取出的基于MDCT的短时声学特征组合成一个向量作为输入。

在步骤202中，计算从输入的音乐文件中选取的部分的每一帧的能量。根据本发明的当前实施例，所述能量通过将每一帧的576个MCDT系数相加而得到。

在步骤203中，按照在步骤202中计算得到的每一帧的能量的降序排列每一帧的声学特征向量。

在步骤204中，将排列后的声学特征向量组成的序列划分为四段，所述四段分别占所述序列的总长的12.5％、50％、25％和12.5％。

在步骤205中，分别针对步骤204中的前三段计算均值和标准偏差。实际上，每一部分的均值是维数与每一帧的声学特征向量的维数相同的向量。相似地，每一部分的标准偏差是维数与每一帧的声学特征向量的维数相同的向量。

根据本发明的实施例，因为能量最小的12.5％的最后一段的区分性最小，所以将这段丢弃。但是，本发明不限于上述实施例，例如，上述四段中的后两段可被丢弃或者可以不丢弃任一段。应该清楚的是，丢弃的部分越多，音乐分类的速度越快。

以下，为了清楚和简明起见，将仅针对12.5％的第一段详细描述计算的均值和标准偏差向量。这里，为了方便描述，假设12.5％的第一段音乐文件具有N个D维的向量，均值{m_i}和标准偏差{d_i}分别从这N个向量中计算出，其中，i是范围为从1到D变化的自然数，m_i和d_i分别是计算的均值向量和标准偏差向量的第i个系数。当然，计算的均值向量和标准偏差向量可组合成为一个向量。根据本发明的实施例，针对每个部分计算的统计值组合为一个向量，因此，针对前三段计算出三个统计学向量。

在步骤206中，将在步骤205中计算得到的均值和标准偏差前后连接组成一个最终的特征向量，如图6所示。

在步骤207中，输出最终的特征向量，将其用于训练基于SVM的情感分类器以及基于音乐情感分类。

应该理解，以上实施例只是示例性的，并不用于限制本发明的范围。例如，将在不脱离本发明的原理的情况下，在步骤203中，可按照在步骤202中计算得到的每一帧的能量的升序排列每一帧的声学特征向量。可将排列后的特征序列划分为多段而不限于四段，并且每一段占总长的百分比也可根据需要改变。

当经过步骤201至207输出音乐文件的最终的特征向量时，基于SVM的情感分类器300利用所述最终的特征向量对音乐文件的情感进行分类。

根据本发明的实施例，用预先标记的情感音乐文件库训练基于SVM的情感分类器300，其中，使用的核函数是用于计算两个向量之间的距离的径向基函数(RBF)。当然，用于训练基于SVM的情感分类器300的预先标记的情感音乐文件库中的每个音乐文件都经过上述步骤201至207被计算出最终的特征向量。预先标记的情感音乐文件库中的音乐文件按照以下四类情感进行分类：愉悦、悲伤、平静、甜美，但是本发明并不限于此，例如，预先标记的情感音乐文件库中的音乐文件可按照平静、悲伤、高兴和激动或者其它类型来分类。由于训练基于SVM的情感分类器300的过程是本领域技术人员公知的，因此，将省略对训练分类器的过程的描述。

通过根据本发明的实施例训练后的基于SVM的情感分类器300基于通过步骤201至207计算得到的最终的特征向量，根据音乐的情感将音乐文件按照以下四类进行划分，所述四类为：愉悦、悲伤、平静、甜美。

根据本发明的另一实施例，还公开了一种在音乐集中搜索与预定音乐文件的情感最相似的情感的音乐文件(以下，称作相似性搜索)的方法。

在根据本发明实施例的相似性搜索方法中，选择在步骤204中获得的四段中能量第二强的50％的第二段。能量最强的第一段和能量第三强的第三段均被舍弃，这是因为它们相对于第二段区别性较弱。另外，根据本发明的实施例，只针对第二段计算均值和标准偏差将大大提高相似性搜索的速度。第二段的统计学向量(即均值和标准偏差)被用作相似性搜索的相似性测量向量。然后，将该相似性测量向量的每个系数都标准化到N(0，1)分布。被标准化的相似性测量向量被称作标准特征向量。

当用户输入一个MP3文件并且希望在一个音乐集中搜索到与其输入的文件情感最相似的文件时，提取该输入的MP3文件的标准特征向量。同时，该音乐集中所有音乐文件的标准特征向量也被预先提取出，并被存储在该音乐集中。根据本发明实施例的相似性搜索通过将该输入的MP3文件的标准特征向量与音乐集中的所有音乐文件的标准特征向量进行比较，并找到与输入的MP3文件的标准特征向量最接近的标准特征向量来执行。与该最接近的标准特征向量对应的音乐文件即为与输入的MP3文件的情感最相似的音乐文件。

以下是根据本发明实施例的相似性搜索所使用的等式。假设在所述音乐集中有M个音乐文件，i的范围为从1到M。假设N是标准特征向量的维数，n的范围为从1到N。

D_{\min - \max} ((q_{m_{1}}, q_{d_{1}}, q_{m_{2}}, q_{d_{2}}, Λ, q_{m_{N}}, q_{d_{N}}), {(s_{m_{1}}, s_{d_{1}}, s_{m_{2}}, s_{d_{2}}, Λ, s_{m_{N}}, s_{d_{N}})}_{i})

= {Min}_{i = 1}^{M} ({Max}_{n = 1}^{N} (Eud ((q_{m_{n}}, q_{d_{n}}), (s_{m_{n}}, s_{d_{n}}))))

在以上等式中，(q_m1，q_d1，q_m2，q_d2，Λ，q_mN，q_dN)表示用户输入的MP3文件的标准特征向量；(s_m1，s_d1，s_m2，s_d2，Λ，s_mN，s_dN)_i表示音乐集中第i个音乐文件的标准特征向量。Eud((q_mn，q_dn)，(s_mn，s_dn))表示两个二维向量之间的距离，根据公知技术可知：

Eud ((q_{m_{n}}, q_{d_{n}}), (s_{m_{n}}, s_{d_{n}})) = \sqrt{{(q_{m_{n}} - s_{m_{n}})}^{2} + {(q_{d_{n}} - s_{d_{n}})}^{2}} .

上述等式的含义为：首先针对第i个音乐文件计算出Eud((q_mn，q_dn)，(s_mn，s_dn))的最大值，其中，n＝1～N；然后在M个最大值中取最小值。与所述最小值对应的那个音乐文件即为音乐集中与输入的音乐文件情感最相似的音乐文件。

在此公开的本发明可被用于关于音乐和多媒体内容的多种产品。例如，本发明可用于个人PC、MP3播放器、移动电话等的音乐管理工具。

根据上述本发明的实施例，提供了用于根据音乐的情感用于快速音乐分类和搜索的方法和设备，其通过提取压缩域中的音乐文件的基于MDCT的声学特征，根据每一帧的能量来排列这些基于MDCT的声学特征，并从每一音乐文件中提取出一个最终的特征向量。根据本发明的用于分类的最终的特征向量的统计学计算方法不同于传统方法。根据本发明的统计学计算方法最大限度地体现了短时特征的特点，并且尽可能地去除音乐组分在不同位置的影响。

根据上述本发明的上述实施例，还提供一种自动地将下载的或离线存储的音乐文件自动分类的方法和设备。情感分类的结果可被存储在数据库中或被存储在音乐文件中。因此，用户可选择期望情感类型的音乐文件。

根据上述本发明的实施例，还提供一种用于从音乐集中选择情感与给定的音乐文件的情感最相似的音乐文件的方法和设备。首先，给定的音乐文件的统计学向量和音乐集中的音乐文件的统计学向量被按照步骤201至207提取出来；然后，将上述统计学向量标准化为标准特征向量；最后，将给定的音乐文件的标准特征向量与音乐集中的音乐文件的标准特征向量进行比较。比较方法可用D_min-max来实现，也可用本领域内公知的其它的向量之间距离的测量方法来实现。

虽然已经显示并描述了本发明总体构思的一些实施例，但是本领域技术人员应该理解，在不脱离本发明总体构思的原理和精神的情况下，可以对这些实施例进行改变，本发明总体构思的范围由权利要求及其等同物限定。

Claims

1.一种用于快速音乐分类的方法，包括以下步骤：

a输入音乐文件；

b提取输入的音乐文件的每一帧的基于修正离散余弦变换的声学特征；

c计算每一帧的能量；

d按照能量大小将每一帧的声学特征进行排序；

e将排序后的声学特征划分为多个段；

f针对所述多个段中的一个或多个计算均值和标准偏差；

g将计算的均值和标准偏差组合成一个特征向量；

h利用所述特征向量将音乐文件进行分类。

2.如权利要求1所述的方法，在步骤b之前还包括以下步骤：

i从输入的音乐文件的中间部分选取多个部分。

3.如权利要求2所述的方法，步骤i包括：从输入的音乐文件的中间部分选取均为3秒的4段。

4.如权利要求2或3所述的方法，步骤b包括：从音乐文件的选取的部分中提取基于修正离散余弦变换的声学特征。

5.如权利要求1所述的方法，步骤c包括：通过将每一帧的修正离散余弦变换系数相加来计算每一帧的能量。

6.如权利要求1所述的方法，步骤d包括：根据能量降序排列每一帧的声学特征。

7.如权利要求6所述的方法，步骤e包括：将排序后的声学特征按照12.5％、50％、25％、12.5％划分。

8.如权利要求7所述的方法，步骤f包括：针对4段中的前三段计算均值和标准偏差。

9.一种用于从音乐集中搜索与预定音乐文件的情感最相似的音乐文件的相似性搜索方法，包括以下步骤：

a输入音乐文件；

b针对输入的音乐文件的每一帧提取基于修正离散余弦变换的声学特征；

c计算每一帧的能量；

d按照能量大小将每一帧的声学特征进行排序；

e将排序后的声学特征划分为多个段；

f针对所述多个段中的一个或多个计算均值和标准偏差；

g将计算的均值和标准偏差组合成一个特征向量；

h将所述特征向量与音乐集中的音乐文件的特征向量进行比较，以从音乐集中找出与所输入的音乐文件的情感最相似的音乐文件。

10.如权利要求9所述的方法，在步骤b之前还包括以下步骤：

i从输入的音乐文件的中间部分选取多个部分。

11.如权利要求10所述的方法，步骤i包括：从输入的音乐文件的中间部分选取均为3秒的4段。

12.如权利要求10或11所述的方法，步骤b包括：从音乐文件的选取的部分中提取基于修正离散余弦变换的声学特征。

13.如权利要求9所述的方法，步骤c包括：通过将每一帧的修正离散余弦变换系数相加来计算每一帧的能量。

14.如权利要求9所述的方法，步骤d包括：根据能量降序排列每一帧的声学特征。

15.如权利要求14所述的方法，步骤e包括：将排序后的声学特征按照12.5％、50％、25％、12.5％划分。

16.如权利要求15所述的方法，步骤f包括：针对4段中的第二段计算均值和标准偏差。

17.如权利要求15所述的方法，还包括以下步骤：

i将均值和标准偏差组合成的向量标准化到N(0，1)分布。

18.一种用于音乐情感分类的设备，包括以下部分：

基于修正离散余弦变换的特征提取部分，当输入音乐文件时，用于从所述音乐文件中提取基于修正离散余弦变换的声学特征；

特征向量创建部分，用于通过计算输入的音乐文件的每一帧的能量、按照能量大小排序从基于修正离散余弦变换的特征提取部分输出的声学特征来创建输入的音乐文件的最终特征向量；

基于支持向量机的情感分类器，用于根据特征向量创建部分创建的最终特征向量来对输入的音乐文件的情感进行分类。

19.如权利要求18所述的设备，其中，特征向量创建部分通过将排序后的声学特征划分为多个段，计算所述多个段中的一个或多个的均值和标准偏差并且将计算后的均值和标准偏差组合来创建最终特征向量。

20.一种用于从音乐集中搜索与预定音乐文件的情感最相似的音乐文件的相似性搜索设备，包括以下部分：

基于支持向量机的情感分类器，用于根据特征向量创建部分创建的最终特征向量来从音乐集中搜索与预定音乐文件的情感最相似的音乐文件。

21.如权利要求20所述的设备，其中，特征向量创建部分通过将排序后的声学特征划分为多个段，计算所述多个段中的一个或多个的均值和标准偏差并且将计算后的均值和标准偏差组合来创建最终特征向量。