CN102842310A

CN102842310A - 中国民族民间音乐音频修复的音频特征提取及使用的方法

Info

Publication number: CN102842310A
Application number: CN2012102849714A
Authority: CN
Inventors: 王劲松; 李柏岩; 宋辉; 黄钢; 袁征
Original assignee: SHANGHAI XIEYAN SCIENCE AND TECHNOLOGY SERVICE Co Ltd
Current assignee: SHANGHAI XIEYAN SCIENCE AND TECHNOLOGY SERVICE Co Ltd
Priority date: 2012-08-10
Filing date: 2012-08-10
Publication date: 2012-12-26

Abstract

本发明公开了一种音频特征提取及使用的方法，尤其适用于中国民族民间音乐的修复，包括：确定样本音频的音乐类型以及关于该音乐类型的各文化特征的值作为其文化特征集合；提取样本音频的数字音频信号的数字特征并进行特征选择和分类，获得样本音频的数字特征集合；关联文化特征集合和数字特征集合以建立音频特征数据库；确定待修复音频的音乐类型以及关于该音乐类型中的各文化特征的值作为其文化特征集合，在音频特征数据库中检索获得与其匹配度最高的文化特征集合，提取与该文化特征集合关联的数字特征集合作为该待修复音频的数字特征集合并将其导出以用于对待修复音频的修复。本发明实现了在音频修复中引入音频的文化特征，保证了修复的质量。

Description

中国民族民间音乐音频修复的音频特征提取及使用的方法

技术领域

本发明涉及一种音频特征提取及使用的方法，尤其涉及一种用于中国民族民间音乐音频修复的历史音频修复的音频特征提取及使用的方法。

背景技术

音乐在人们的生活中可谓无处不在。从古到今，音乐穿插在人类社会的整个发展历程中，记载了无数个生活中美好的瞬间，给人们以心灵上的震撼和感动。

为了将丰富多彩的音乐记录下来，人们发明了各种各样的音乐存储介质，同时音乐的各种处理技术也应运而生。在模拟音频处理技术为主的年代，音频的处理主要是依靠各种专业设备进行处理，音频的混合、延迟、改变都是通过各种设备来完成，由于各种设备的放大、滤波、延迟等电路都有可能引入新噪声和音频的畸变，另外这些设备的造价是非常昂贵的，这就在某种程度上影响了模拟音频技术的发展。

随着计算机技术的飞速发展，以计算机为核心的信息处理扮演着越来越重要的角色，数字音频处理技术也得到了飞速的发展。数字音频处理技术与模拟音频处理技术不同，它通过把模拟信号进行时间上的离散化和幅度上的量化处理以后，变成一连串数字信号加以存储和传输。当音频信号变成数字形式后，所有的处理实际上都是一种数字的处理，基于数字信号处理的理论和各种算法就可以通过软件在计算机上实现。以计算机软件为主的实现方法具有成本低和处理方式灵活的优点，一台计算机配上声卡和音频处理软件就可以做各种处理，而且可以反复修改、多次加工，随着计算机处理能力的不断提高，其非实时的缺点也逐步得到克服。

虽然计算机的出现为音乐的处理带来了极大的便利，但是仍然有很多早期的音乐仍然以模拟信号的方式存储在老旧的载体介质中。例如我国各大专业音乐院校的图书馆内一般都收藏有大量的不同时期、不同载体介质的音频资料，其中不乏经典的演奏、演唱音响资料，但是随着时间的变迁推移和载体材料的技术局限性，一些早期的音频资料已濒临失效的边缘。对珍贵历史音频资料进行清洗、数字化及修复是保护以及实现再利用的有效途径。但是，由于作曲者、演绎者、作曲发生的地域及时间和演绎发生的地域及时间的不同，各音乐曲目会具有不同的表现风格(包括旋律、节奏、音色、力度、和声、肢体和曲式等的音乐要素的富有个性的结合方式)。另外，音乐曲目的载体介质也会影响该音乐曲目的表现风格。即音乐曲目的文化特征(诸如作曲者、演绎者、载体等)会影响到其表现风格。如果在对历史音频资料修复过程中忽略了这部分的考虑，那么这样的修复将是不成功的。

因此，本领域的技术人员致力于开发一种历史音频修复的音频特征提取及使用的方法，以便在对中国民族民间音乐(民乐)的历史音频修复过程中引入该音频的文化特征进行修复。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是提供一种历史音频修复的音频特征提取及使用的方法，通过建立关联音频的文化特征的集合和数字特征的集合的音频特征数据库，以实现在对音频的修复过程中，从音频特征数据库中导出与该音频的文化特征相关的数字特征进行修复。

为实现上述目的，本发明提供了一种历史音频修复的音频特征提取及使用的方法，其特征在于，包括步骤：

确定样本音频的音乐类型，确定所述样本音频关于所述音乐类型的各个文化特征的值作为所述样本音频的文化特征集合；

将所述样本音频转换成WAV格式的数字音频信号，并对所述数字音频信号进行预处理；

提取经过所述预处理的所述数字音频信号的数字特征，使用分类器对所述数字特征进行特征选择和分类，获得所述样本音频的数字特征集合；

关联所述样本音频的所述文化特征集合和所述数字特征集合以建立所述音乐类型的音频特征数据库；

确定待修复音频的音乐类型，确定所述待修复音频关于所述音乐类型中的各个文化特征的值作为所述待修复音频的文化特征集合，在所述音乐类型的音频特征数据库中检索所述待修复音频的文化特征集合，获得与所述待修复音频的文化特征集合匹配度最高的所述样本音频的所述文化特征集合，使用与所述样本音频的所述文化特征集合关联的所述数字特征集合作为所述待修复音频的数字特征集合；

将所述待修复音频的所述数字特征集合导出以用于对所述待修复音频的修复。

进一步地，所述样本音频和所述待修复音频皆为民乐的音频，所述音乐类型包括古琴类、福建南音类和呼麦类。

进一步地，所述古琴类的文化特征包括琴派、风格、载体和年代；所述福建南音类的文化特征包括曲牌、乐器、载体和年代；所述呼麦类的文化特征包括发声部位、载体和年代。

进一步地，所述样本音频关于所述音乐类型的所述文化特征的值是描述项。

进一步地，所述预处理包括统一采样率、声道合并以及加窗分帧，经过所述统一采样率的所述数字音频信号的采样率为16kHz。

进一步地，在对所述数字音频信号进行所述加窗分帧时，使用汉明窗作为窗函数，帧移为1/2，窗长为512个采样点的长度。

进一步地，所述数字特征包括所述样本音频的所述数字音频信号的音调特征、响度特征、音色特征和节奏特征；所述音调特征包括所述数字音频信号的谱峰值；所述响度特征包括所述数字音频信号的低能量帧的比率；所述音色特征包括所述数字音频信号的短时过零率、频谱质心和MFCC；所述节奏特征包括所述数字音频信号的节拍强度和、最强节拍和最强节拍的强度。

进一步地，所述分类器为支持向量机分类器。

进一步地，在对所述数字音频信号进行所述特征选择时采用的算法是启发式向前搜索(HBS)和启发式向后搜索(HFS)。

进一步地，所述匹配度是使用模糊匹配获得的所述待修复音频的文化特征集合与所述样本音频的所述文化特征集合重合的元素个数与所述待修复音频的所述文化特征集合的元素个数之比。

在本发明的较佳实施方式中，使用本发明的历史音频修复的音频特征提取及使用的方法应用于中国民族民间音乐的历史音频的修复，建立了包括古琴类、福建南音类和呼麦类的音频特征数据库，包括步骤：首先使用多个样本音频，确定它们的音乐类型，音乐类型包括古琴类、福建南音类和呼麦类；每个音乐类型具有多个文化特征，例如古琴类的文化特征包括琴派、风格、载体和年代；福建南音类的文化特征包括曲牌、乐器、载体和年代；呼麦类的文化特征包括发声部位、载体和年代；然后分别确定每个样本音频关于其所属的音乐类型的各个文化特征的值，并以这些值的集合作为该样本音频的文化特征集合，样本音频关于某个文化特征的值是一个描述项；另外，将该样本音频转换成WAV格式的数字音频信号后进行包括对该数字音频信号统一采样率、声道合并以及加窗分帧的预处理；然后提取经过预处理的数字音频信号的数字特征；数字特征包括音调特征、响度特征、音色特征和节奏特征，其中音调特征包括该数字音频信号的谱峰值，响度特征包括该数字音频信号的低能量帧的比率，音色特征包括该数字音频信号的短时过零率、频谱质心、和MFCC，节奏特征包括该数字音频信号的节拍强度和、最强节拍和最强节拍的强度；然后使用分类器对上述的数字特征进行特征选择和分类，获得该样本音频的数字特征集合；最后关联该样本音频的文化特征集合和数字特征集合，并把每个样本音频的关联的文化特征集合和数字特征集合存入数据库，由此建立各个音乐类型的音频特征数据库。在本发明的较佳实施方式中，还提供了使用本发明的历史音频修复的音频特征提取及使用的方法获取待修复音频的数字特征集合以用于对该音频的修复。包括步骤：确定待修复音频的音乐类型，确定该待修复音频关于其所属音乐类型中的各个文化特征的值，并将这些值的集合作为待修复音频的文化特征集合；其中待修复音频关于某个文化特征的值是一个描述项；然后在该待修复音频所属音乐类型的音频特征数据库中检索，使用待修复音频的文化特征集合中的元素作为关键词，使用模糊匹配，获得与待修复音频的文化特征集合匹配度最高的样本音频的文化特征集合；然后提取与该样本音频的文化特征集合关联的数字特征集合作为待修复音频的数字特征集合；最后将该待修复音频的数字特征集合导出以用于对该修复音频的修复。

由此可见，本发明采用包括了文化特征和数字特征的音频特征，通过多个样本音频，建立了关联多个音频的文化特征集合和数字特征集合的多个音乐类型的音频特征数据库，并且，在对待修复音频进行修复的过程中，可以通过确定该待修复音频的文化特征集合，从其所属音乐类型的音频特征数据库中导出与其文化特征集合最相似的样本音频的数字特征集合，并将该数字特征集合用于对该待修复音频的修复，从而能够使修复后的音频更符合其文化特征，保证修复的质量。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是使用本发明的历史音频修复的音频特征提取及使用的方法建立音频特征数据库的流程图。

图2是使用本发明的历史音频修复的音频特征提取及使用的方法获得待修复音频的数字特征集合以用于修复的流程图。

图3是使用本发明的历史音频修复的音频特征提取及使用的方法进行修复的修复后的音频与未使用本发明进行修复的修复后的音频的比较实验的结果图。

具体实施方式

如图1所示，在本发明的一个实施例中，使用本发明的历史音频修复的音频特征提取及使用的方法应用于中国民族民间音乐的历史音频的修复。首先，使用本发明的历史音频修复的音频特征提取及使用的方法建立音频特征数据库，步骤如下：

步骤101、获取文化特征集合。

由于音乐曲目的流派、演绎方式及表现形式上的差异，可以划分为多个音乐类型，对于同属于一个音乐类型的多个音乐曲目而言，可以认为它们在其文化特征上具有较多的相似之处。因此本发明首先对音乐类型进行划分，确定各个音乐类型的文化特征，并建立各个音乐类型的音频特征数据库。

在本实施例中，通过对各类音频资料的收集、整理和分析工作，确定了包括古琴类、福建南音类和呼麦类的各种音乐类型；同时确定古琴类的文化特征包括琴派、风格、载体和年代，福建南音类的文化特征包括曲牌、乐器、载体和年代，呼麦类的文化特征包括发声部位、载体和年代。其中载体是指该音频所在的介质，例如：虫胶唱片、聚乙烯材质唱片、磁性录音带及激光唱片等。年代指该音频被存储到该载体上的时间，如果是翻录，则以母版制作的时间为准。

对于每个音乐类型，选择多个音乐曲目作为样本音频。这些被选择的样本音频必须具有较好的状态，例如音***真、噪声低等。可以选择一些经过修复的质量较好的老旧唱片所载的音乐曲目作为样本音频。

分别确定每个样本音频关于其所属的音乐类型的各个文化特征的值，并以这些值的集合作为该样本音频的文化特征集合。其中，样本音频关于某个文化特征的值是一个描述项。例如对于1930年录制在虫胶唱片上的古琴曲《潇湘水云》，它关于古琴类的各个文化特征的值分别是：琴派＝浙派，风格＝优美，载体＝虫胶唱片，年代＝1930年。因此，可以获取该样本音频的文化特征集合为{浙派、优美、虫胶唱片、1930年}。

步骤102、音频转换。

将步骤101中选择的各个样本音频转换成WAV格式的数字音频信号。

常见的音频格式主要有MP3、WAV等，因此首先应该将音频的格式统一。由于MP3格式主要是一种音频压缩的编码规则，不利于之后的数字特征的提取，本实施例中将所有样本音频统一转换为有利于进行分析的WAV格式。

步骤103、信号预处理。

对步骤102中得到的数字音频信号进行包括统一采样率、声道合并以及加窗分帧的预处理。

由于参差不齐的采样率会对一些特殊的数字特征的提取产生不良印象，并且过大的采样率并不会增加音乐中所能够提取的有用信息，相反还会带来庞大的存储开销，本实施例中，将所用的样本音频的统一重采样设定为16kHz。

将样本音频中两声道的音频都合并为单声道，以为音乐特征的提取提供便利。

对经过统一采样率和声道合并的数字音频信号进行滤波处理后，进行加窗分帧处理。一般每秒的帧数约为33～100帧，采用交叠分段的方法以使帧与帧之间平滑过渡，保持其连续性。前一帧和后一帧的交叠部分称为帧移。帧移与帧长的比值一般取为0～1/2。分帧用可移动的有限长度窗口加权的方法来实现的，也即用一定的窗函数w(n)来乘信号s(n)，从而形成加窗的信号S_w(n)＝s(n)*w(n)。本实施例中使用汉明窗作为窗函数，帧移为1/2，窗长为512个采样点的长度。

步骤104、提取数字特征。

对经过步骤103的预处理得到的数字音频信号提取数字特征。

在本实施例中，通过对各类音频资料的收集、整理和分析工作，确定了包括音调特征、响度特征、音色特征和节奏特征的各类数字特征，其中，音调特征包括该数字音频信号的谱峰值，响度特征包括该数字音频信号的低能量帧的比率，音色特征包括该数字音频信号的短时过零率、频谱质心和MFCC，节奏特征包括该数字音频信号的节拍强度和、最强节拍和最强节拍的强度。

能量频谱是把信号S_w(n)从时域变换到频域而得到的各频率能量的度量，具体地为信号S_w(n)经过傅里叶变换之后求其实部和虚部的平方和。

幅度频谱为信号S_w(n)经过傅里叶变换之后求其实部和虚部的平方和，然后再求平方根。

节拍直方图计算方法为：首先求得信号S_w(n)每个窗中的短时能量均方值(RMS)，然后对RMS序列做快速傅里叶变换(FFT)，得到RMS的能量谱图表示音乐信号能量的周期性，用音乐信号能量的周期性来代表节拍。

谱峰值是一个维度为1维的数字特征，通过分析信号S_w(n)经过FFT之后的频谱幅值得到。通过在信号S_w(n)的频域局部区域内设定一个门限来检测峰值，所有在该门限内的最大值都可以视为峰值。

低能量帧的比例是一个维度为1维的数字特征，其表示帧与帧之间在能量上的变化情况，通过计算k个相邻的帧中在时域上的能量小于这k个帧的时域平均能量而得到的百分比。本实施例中，k＝100。

短时过零率Z(i)是一个维度为1维的数字特征，其是信号S_w(n)在第i帧内的采样值由正到负和由负到正变化的次数。其计算方法为：

Z (i) = \frac{1}{2 N} Σ_{n}^{N - 1} | sgn [x_{i} (n) - sgn x_{i} (n - 1)] |,

其中

N为第i帧中采样点的个数，x_i(n)为某个采样点在时域上的幅值。

频谱质心C(i)是一个维度为1维的数字特征，其是第i个帧谱形状的度量，其值大对应比较明亮的声学结构，在高频处有更多的能量。其计算方法为：

其中X_i为第i个帧的样本，X_i(m)为对应的傅立叶变换的系数。

MFCC是一个维度为13维的数字特征，即Mel倒谱系数，它将人耳的听觉特性运用到信号的处理中，在语音和声音识别与分类中，这是最有用的特征之一。其提取流程为：计算信号S_w(n)的功率谱、计算离散余弦变换、计算Mel频谱倒谱、得到MFCC。

节拍强度和是一个维度为1维的数字特征，其是在一段音乐信号中检测到的所有节拍的强度之和。

最强节拍是一个维度为1维的数字特征，其是节拍直方图中强度最大的节拍，通过计算节拍直方图中值最大的那一点对应的节拍数而得，单位是节拍/每分钟。

最强节拍的强度是一个维度为1维的数字特征，其通过计算最强节拍的强度与节拍直方图中所有节拍的强度和的比值得到，值域为(0，1)。

将上述的样本音频的各个数字特征构成一个20维的特征矩阵，并且分别计算各数字特征的标准差后，将各数字特征及其标准差顺序组合成一个40维的向量，并将该40维的向量作为分类特征向量。

步骤105、获取数字特征集合。

对分类特征向量使用分类器验证分类效果，分类器可以是朴素贝叶斯分类器、BP神经网络分类器、K近邻分类器(K分别取3和5)、决策树分类器和支持向量机分类器。本实施例中使用支持向量机分类器(SVM)。

由于每个数字特征以及它们的不同组合，对于分类性能的影响是各不相同的；有些特征能够起到较大的作用，而有些特征的作用则微乎其微，甚至会降低分类器的性能，因此需要进行特征选择。本实施例中，设计了两种启发式的混合特征选择方法：启发式向前搜索(HFS)和启发式向后搜索(HBS)。

HFS的算法执行的步骤如下，实验中使用SVM作为分类器：

1)将所有的40维的向量作为初始特征子集FS_opt，并用分类器对数据集分类；

2)将分类错误的样本数据从测试集D_te中分离出来，作为错误数据集D_er；

3)计算各维特征的ReliefF权值，并将权值最低的特征从FS_opt中去掉，注意每个特征至多被剔除一次；

4)用FS_opt中所含特征的对应数据集进行分类实验，如果准确率提高，则返回步骤2)，否则跳入下一步；

5)重新加入刚刚被剔除的特征，并且使加入新特征所需要的搜索次数增1。如果次数超过了预先设定的阈值，则算法终止；否则返回步骤2)。

HBS的算法执行的步骤如下，实验中使用SVM作为分类器：

1)置最优特征子集FS_opt为空，在训练数据集D_tr上计算所有特征的ReliefF权值，然后将权值最高的一个特征加入到FS_opt中；

2)用FS_opt中包含的特征数据进行分类实验；

3)将分类正确的样本从测试集D_te中分离出来，作为正确的数据集D_ri；

4)计算D_ri中各维特征的ReliefF权值，并把权值最高且不在FS_opt中的特征加入到FS_opt中；

5)对FS_opt中的特征数据进行分类测试，如果分类准确率提高，则返回步骤3)，否则进入步骤6)；

6)剔除刚刚加入的特征，并使加入新特征所需要的搜索次数增1。如果次数超过了预先设定的阈值，则算法终止；否则返回步骤3)。

上面提到的各维特征的ReliefF权值为使用ReliefF算法时各维特征的权值。这样，通过上述的特征选择后，可以得到样本音频的多个数字特征，将它们组成集合作为该样本音频的数字特征集合。

步骤106、建立音频特征数据库。

对于属于某个音乐类型的各个样本音频，将步骤101中获得的该样本音频的文化特征集合和步骤105中获得的该样本音频的数字特征集合相关联，例如组成一对向量，并存储到数据库中，由此建立该音乐类型的音频特征数据库。

本实施例中，分别建立了古琴类的音频特征数据库、福建南音类的音频特征数据库和呼麦类的音频特征数据库。在本发明的其它实施例中，可以用类似的步骤建立其它音乐类型的音频特征数据库，例如对于中国民乐还可以建立唢呐、笛子、古筝等各种音乐类型的音频特征数据库，对于西方音乐可以建立钢琴、小提琴、长笛、歌剧等各种音乐类型的音频特征数据库。

图2显示了使用本发明的历史音频修复的音频特征提取及使用的方法获得待修复音频的数字特征集合以用于修复的流程，包括如下步骤：

步骤201、获取文化特征集合。

在使用本发明的历史音频修复的音频特征提取及使用的方法获取某一待修复音频的数字特征集合前，首先需要确定该待修复音频的音乐类型，然后确定该待修复音频关于该音乐类型的各个文化特征的值。具体方法与步骤101中描述的确定样本音频的音乐类型及确定该样本音频关于该音乐类型的各个文化特征的值的方法是一样的。例如，对于待修复音频为1930年录制在虫胶唱片上的古琴曲《渔歌》，首先确定该待修复音频的音乐类型为古琴类，然后确定其关于古琴类的各个文化特征的值分别是：琴派＝浙派，风格＝优美，载体＝虫胶唱片，年代＝1930年。因此，可以获取该待修复音频的文化特征集合为{浙派、优美、虫胶唱片、1930年}。

步骤202、检索音频特征数据库。

将步骤101中获得的待修复音频的文化特征集合中的元素作为关键词，在该待修复音频所属音乐类型的音频特征数据库中检索，使用模糊匹配，获得与待修复音频的文化特征集合匹配度最高的样本音频的文化特征集合。匹配度是指使用模糊匹配获得的待修复音频的文化特征集合与样本音频的文化特征集合重合的元素个数与待修复音频的文化特征集合的元素个数之比。

例如对于待修复音频为1930年录制在虫胶唱片上的古琴曲《渔歌》，它的文化特征集合为{浙派、优美、虫胶唱片、1930年}。该文化特征集合的元素为浙派、优美、虫胶唱片和1930年，个数为4个。将这些元素作为关键词，使用模糊匹配算法在古琴类的音频特征数据库中检索，得到检索结果如下：

1、{浙派、优美、虫胶唱片、1930年}；

2、{虞山派、淡远、虫胶唱片、1930年}；

3、{浙派、优美、聚乙烯材质唱片、1950年}；

4、{九嶷派、苍劲、虫胶唱片、1935年}。

这样可以分别计算出该待修复音频的文化特征集合与上述4个检索结果的音频的文化特征集合之间的匹配度。对于检索结果1，匹配度为100％；对于检索结果2，匹配度为50％；对于检索结果3，匹配度为50％；对于检索结果4，匹配度为25％。可以看出，与该待修复音频的文化特征集合匹配度最高的是检索结果1的音频的文化特征集合。

步骤203、获取数字特征集合。

从待修复音频所属的音乐类型的音频特征数据库中获取与步骤201中获得的样本音频的文化特征集合相关联的数字特征集合，并将该数字特征集合作为待修复音频的数字特征集合。

步骤204、导入音频修复。

把步骤203中获得的待修复音频的数字特征集合从该待修复音频所属的音乐类型的音频特征数据库中导出，发送到音频修复软件或程序，以参与在对该待修复音频进行修复时修复参数的设定。

图3给出了历史音频修复的音频特征提取及使用的方法应用于中国民族民间音乐的历史音频的修复的比较实验的结果，其中A组的音频是使用了本发明进行修复的修复后的音频，B、C和D组的音频是未使用本发明进行修复的修复后的音频。实验中，每组采用了10个音频，由音乐专家组成员关于各音频的信噪比、艺术价值、音色音质和动态改变四个方面进行双盲品评并打分。从结果可以看出，使用了本发明进行修复的修复后的音频在艺术价值、音色音质和动态改变方面的表现均更为出色。即使用了本发明进行修复的修复后的音频更符合其文化特征，从而保证了修复的质量。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域的技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种音频特征提取及使用的方法，用于历史音频的修复，其特征在于，包括步骤：

2.如权利要求1所述的音频特征提取及使用的方法，其中所述样本音频和所述待修复音频皆为民乐的音频，所述音乐类型包括古琴类、福建南音类和呼麦类。

3.如权利要求2所述的音频特征提取及使用的方法，其中所述古琴类的文化特征包括琴派、风格、载体和年代；所述福建南音类的文化特征包括曲牌、乐器、载体和年代；所述呼麦类的文化特征包括发声部位、载体和年代。

4.如权利要求3所述的音频特征提取及使用的方法，其中所述样本音频关于所述音乐类型的所述文化特征的值是描述项。

5.如权利要求4所述的音频特征提取及使用的方法，其中所述预处理包括统一采样率、声道合并以及加窗分帧，经过所述统一采样率的所述数字音频信号的采样率为16kHz。

6.如权利要求5所述的音频特征提取及使用的方法，其中在对所述数字音频信号进行所述加窗分帧时，使用汉明窗作为窗函数，帧移为1/2，窗长为512个采样点的长度。

7.如权利要求1或3所述的音频特征提取及使用的方法，其中所述数字特征包括所述样本音频的所述数字音频信号的音调特征、响度特征、音色特征和节奏特征；所述音调特征包括所述数字音频信号的谱峰值；所述响度特征包括所述数字音频信号的低能量帧的比率；所述音色特征包括所述数字音频信号的短时过零率、频谱质心和MFCC；所述节奏特征包括所述数字音频信号的节拍强度和、最强节拍和最强节拍的强度。

8.如权利要求1或3所述的音频特征提取及使用的方法，其中所述分类器为支持向量机分类器。

9.如权利要求1或3所述的音频特征提取及使用的方法，其中在对所述数字音频信号的所述数字特征进行所述特征选择时采用的算法是启发式向前搜索和启发式向后搜索。

10.如权利要求1或3所述的音频特征提取及使用的方法，其中所述匹配度是使用模糊匹配获得的所述待修复音频的所述文化特征集合与所述样本音频的所述文化特征集合重合的元素个数与所述待修复音频的所述文化特征集合的元素个数之比。