CN102723079A

CN102723079A - 基于稀疏表示的音乐和弦自动识别方法

Info

Publication number: CN102723079A
Application number: CN2012101856392A
Authority: CN
Inventors: 关欣; 李锵; 董丽梦
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2012-06-07
Filing date: 2012-06-07
Publication date: 2012-10-10
Anticipated expiration: 2032-06-07
Also published as: CN102723079B

Abstract

本发明属于计算机听觉技术领域，涉及一种基于稀疏表示的音乐和弦自动识别方法，包括：自实际音乐音频中截取同一和弦的不同样本，建立K个和弦的模板数据库；对每个和弦的每个样本提取MFCC和PCP两种特征，得到每个和弦的每个样本的特征矢量，构成每个和弦的特征矩阵；实现和弦的自动分类；进行最小化二范数，由二范数最小值对应的i确定y所对应的和弦。本发明能够准确、快速地将不同的和弦检测出来，所分析的乐曲不局限于某种固定的音乐风格。

Description

基于稀疏表示的音乐和弦自动识别方法

技术领域

本发明属于计算机听觉技术领域，涉及一种音乐和弦识别方法。

背景技术

随着互联网上音乐信息的存储和发布越来越普遍,音乐信息的存储量呈现出急剧增长态势，在这种情况下，单纯的基于文本的检索己经不能满足应用的需求。于是,基于内容的音乐信息检索（MusicInformation Retrieval，MIR）成为近几年来国内外学者研究的热点之一。现有的大多数对音乐信息的检索是通过Mel频率倒谱系数（Mel-Frequency Cepstral Coefficients,MFCC）等底层特征进行分析的。虽然Mel频率倒谱系数反应了人耳的听觉特性，然而该特征与音乐的语义内容并没有直接关系，因此在很多应用方面，这些底层特征所表现出来的信息量往往难以直接应用，而一些中层特征则包含了大量的音乐信息，能够更好地表现音乐的属性，对音乐内容的分析更加具有实用价值，其中，和弦就是典型的中层特征。不仅如此，和弦还可以为音乐的高层特征应用服务。例如，如果能够将任意一段音乐音频正确地转化为和弦序列的***可以实现音乐结构的分割，能够识别出一段特定的旋律。另外，由于谐波进程与音乐潜在的情感有着密切的联系，因此在风格、情感相似的歌曲中很容易发现相同的和弦。由此可见，在音乐检索领域，音乐的情感分析领域，和弦都会起到至关重要的作用。

音乐和弦识别的算法主要集中在两个方面：特征提取和识别模型。现在用于和弦识别的特征虽然众多，但是大都是音高类别分布参数（Pitch Class Profiles，PCP）的变体，该特征不仅能表示音乐的结构，还能够表示音乐的谐波信息。用于和弦识别的分类器主要有基于模板的分类器和基于隐马尔科夫模型（Hidden Markov Model,HMM）的分类器。但是这两种分类器的识别效果都不佳，识别率集中在70%到80%之间。若是将和弦识别运用到实际中，这个结果显然有待提高。

专利CN101123085提出通过拍子检测、小节检测、基音检测等单元来确定和弦名，该方法的每一个检测单元的错误可能会直接影响到后面的检测单元，这样三个检测单元的层层错误的传递和累积会影响最后的识别结果。

近年来，基于最小一范数的稀疏表示分类器（Sparse Representation based Classification,SRC）已经成功应用于模式识别与分类的很多领域，尤其在人脸识别中，表现出很强的稳定性和鲁棒性。该方法为基于内容的音乐语义符号的识别提供了全新的理论和技术支撑。SRC在音乐乐器分类、音乐流派分类、钢琴演奏转录等领域同样取得了良好的识别效果，而且该分类器不会产生累加错误，也不需要HMM中模型训练的过程，但目前尚未有基于最小一范数稀疏表示分类器用于音乐和弦自动识别的报道。

发明内容

本发明的目的是克服现有技术的上述不足，提供一种能够准确、快速地将不同的和弦检测出来的音乐和弦的自动识别方法，它主要是结合音乐理论知识分析音频数据并快速准确的识别出每种和弦，所分析的乐曲没有局限于某种固定的音乐风格。

本发明的音乐和弦自动识别方法，包括下列步骤：

1）自实际音乐音频中截取同一和弦的不同样本，建立K个和弦的模板数据库；

2）对每个和弦的每个样本提取MFCC和PCP两种特征，得到每个和弦的每个样本的特征矢量，构成每个和弦的特征矩阵A_i，A_i为第i个和弦的特征矩阵，i=1,2,...,K；

3）实现和弦的自动分类，方法如下：将特征矩阵按和弦类别分块，得到分块后的特征矩阵A=[A₁,A₂,...,A_i,...,A_K]，设y为待识别和弦样本的特征矢量，x代表待识别和弦样本关于特征矩阵A的系数向量，求出满足等式y=Ax，并使x的一范数||x ||1最小的解

与Ai对应，i=1,2,...,K；分别保留K个和弦对应的系数

构建K个矢量

i=1,2,...,K，矢量的维数与相同；

4）求取二范数

i=1，2,...,K，由二范数最小值对应的i确定y所对应的和弦。

在特征选取方面，本发明选择了在其它识别***中被成功采用的具有12维特征向量的PCP特征，并与传统的音乐特征向量MFCC相结合。相对于传统的仅依靠PCP这一种特征识别和弦相比，MFCC可以反映和弦旋律的低频段，具有较好的平滑性和感知性，正好可以弥补PCP没有考虑听者因素这一缺陷。然后将特征向量输入基于最小一范数稀疏表示分类器建模的和弦识别***。最后我们将本实验结果同MIREX08、09中收录的多种和弦识别方法进行比较。从表1中可以看出该方法优于现有的任何一种方法，说明了SRC具有良好的分类效果。

附图说明

图1.本发明和弦识别流程图。

图2.提取和弦特征的流程图。

图3.大E和弦的PCP图。

图4（a）被测试的某大E和弦的36维特征图；（b）图：计算所得的最小一范数解；（c）图：测试和弦关于24类和弦的冗余图。

具体实施方式

下面结合附图和实施例对本发明做进一步说明。图1为本发明的总流程图。具体步骤如下：

1.建立音乐数据库

自实际音乐音频中截取同一和弦的不同样本，建立K个和弦的模板数据库。其中每个和弦的不同样本应尽可能涵盖不同音色的乐器及不同的演奏风格等。该数据库来自于由Harte和Sandler标注的Beatles乐队的13首专辑(180首歌,采样率44100赫兹,16比特,单通道)。从这180首歌曲中截取所需的大三和弦和小三和弦共24类，每一类60个样本，几乎涵盖了该乐队的所有演奏风格。

1..建立音乐数据库

所述的有监督和弦模板数据库是自音乐音频中截取K个和弦的多个样本。其中每个和弦的不同样本应尽可能涵盖不同音色的乐器及不同的演奏风格等。

2.提取音乐特征

首先将所有的音乐数据格式转化成WAV格式，单通道。

对每个和弦的每个样本提取MFCC和PCP两种特征，，得到每个和弦的每个样本的特征矢量，构成每个和弦的特征矩阵A_i，A_i为第i个和弦的特征矩阵，i=1,2,...,K，其流程图如图2所示。

a.计算MFCC特征具体的计算步骤如下：

①将时域离散和弦音乐信号进行预加重，分帧和加窗处理。预加重滤波器是一阶的，***函数为H(z)=1-uz^-1；取帧长为N，帧移为

所加窗的窗函数类型为汉明窗（hamming）。

②经过快速傅里叶变换（Fast Fourier Transform,FFT）转化为频域信号,得到其频谱X(k)。计算其能量谱S(k)=|X(k)|²,k∈1,2,...,N。

③用M个Mel频率带通滤波器H_m(k)进行滤波；滤波器输出值为P_m(k),m=1,2,...,M。

P_m(k)=H_m(k)S(k),k=1,2,...,N

④将每个滤波器的输出值P_m(k)取自然对数，得到M_m(k),m=1,2,...,M。

M_m(k)=ln(P_m(k)),k=1,2,...,N

⑤对④所得的结果作离散余弦变换（Discrete Cosine Transformation,DCT），对于每一帧信号，得到M个MFCC系数。

{MFCC}_{m} = \sqrt{\frac{2}{N}} Σ_{k = 1}^{N} M_{m} (k) \cos (\frac{πm}{M} (k - 0.5)), 1 \leq m \leq M

⑥Mel滤波器的通道个数设置为M个，每个和弦样本得到的MFCC系数矩阵的大小为M*L，L为帧数。对每一帧第m(1≤m≤M)个滤波器的输出值MFCC_m取平均值，公式如下：

{MFCC}_{m} = \frac{1}{L} Σ_{l = 1}^{L} {MFCC}_{m} (l), m = 1,2, . . ., M

其中MFCC_m(l)代表第l帧第m个滤波器的输出值。这样得到的每个和弦的MFCC统计平均值的大小为M*1。

b.计算PCP统计平均值特征的步骤如下：

①对时域离散和弦音乐信号x(m)分帧，加窗，进行常Q（品质因数）变换（ConstantQ Transform,CQT）将时域变换到频域。取帧长为N，帧移为

所加窗的类型为汉明窗（hamming）。

X_{n}^{cqt} (k) = \frac{1}{N_{k}} Σ_{m = 1}^{N_{k}} x (m) w_{N_{k}} (m) e^{\frac{- 2 πjmQ}{N_{k}}}, k = 1,2, . . ., M

它表示第n帧十二平均律中第k个半音的频谱，故通常M值为12。其中x(m)为输入的时域离散和弦音乐信号；

表示第k个半音对应的窗长；f_s表示采样频率；f_k表示第k个半音的频率；

表示窗长为N_k的hamming窗。

②频谱映射。将频谱

映射为音级域的p(k)，它由12维向量组成，每维向量代表一个半音音级的强度。从频率到音级的映射按照音乐理论中的十二平均律以对数方式计算，

中的k被映射为PCP中的p,映射公式如下：

f₀=130.8Hz为参考频率，f_s为采样率。mod 12为对12的求余运算。

③通过累加所有与某一特定音级相对应的频率点的频率幅度平方值，得到每一帧信号的各个PCP分量的值。具体公式如下：

PCP (p) = \underset{k : p (k) = p}{Σ} {| X^{cqt} (k) |}^{2}, p = 1,2, . . ., 12

④经过上面的计算得到一个12*L的矩阵音色图（chromagram），其中L代表帧数。计算每一个音级（行）的均值，公式如下：

PCP (p) = \frac{1}{L} Σ_{l = 1}^{L} {PCP}_{l} (p), p = 1,2, . . ., 12

经过上面的计算，得到一个12*1的矢量，这就是所求的每个和弦样本的PCP统计平均值。

以大E和弦为例，其PCP图如图3所示。

最后将M维的MFCC统计平均值和12维的PCP统计平均值连接，得到一个M+12维的和弦特征值。

3.基于稀疏表示的和弦识别

①K个和弦的特征矩阵构成总的和弦模板特征矩阵A=[A₁,A₂,...,A_K]∈R^m×n,其中A_i为第i个和弦的特征矩阵，m为特征个数，n为样本个数；

②y∈R^m为待识别和弦样本的特征矢量，满足y=Ax，其中x代表待识别和弦y关于特征矩阵A的系数向量，用于译码y所属和弦的类别。求使x的一范数||x||₁最小的解

其中

与A_i对应，i=1,2,...,K；

③分别保留K个和弦对应的系数构建K个矢量

i=1，2,...,K，矢量

的维数与

相同；

④计算冗余值，即二范数

⑤由最小冗余值对应的i确定y所对应的和弦。

以大E和弦为例，其最小一范数解和冗余值如图4（c）所示。

为验证本发明的有效性，将本发明所提出的SRC方法与MIREX08、09收录的多种方法进行比较，并取实验结果列于下表中。

表1和弦识别结果统计

注：MIREX是Music Information Retrieval Evaluation exchange的缩写，中文意思是音乐信号检索估计交流。

从上表中SRC与多种方法的比较结果，可以看出SRC比MIREX中最好的方法（DE）高11.3%。

Claims

1.一种基于稀疏表示的音乐和弦自动识别方法，包括下列步骤：

3）实现和弦的自动分类，方法如下：将特征矩阵按和弦类别分块，得到分块后的特征矩阵A=[A₁,A₂,...,A_i,...,A_K]，设y为待识别和弦样本的特征矢量，x代表待识别和弦样本关于特征矩阵A的系数向量，求出满足等式y=Ax，并使x的一范数||x||₁最小的解

与A_i对应，i=1,2,...,K；分别保留K个和弦对应的系数构建K个矢量i=1，2,...,K，矢量的维数与

相同。

4）求取二范数由二范数最小值对应的i确定y所对应的和弦。