CN103177722A - 一种基于音色相似度的歌曲检索方法 - Google Patents

一种基于音色相似度的歌曲检索方法 Download PDF

Info

Publication number
CN103177722A
CN103177722A CN2013100748681A CN201310074868A CN103177722A CN 103177722 A CN103177722 A CN 103177722A CN 2013100748681 A CN2013100748681 A CN 2013100748681A CN 201310074868 A CN201310074868 A CN 201310074868A CN 103177722 A CN103177722 A CN 103177722A
Authority
CN
China
Prior art keywords
sigma
song
lambda
rightarrow
prime
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013100748681A
Other languages
English (en)
Other versions
CN103177722B (zh
Inventor
罗森林
谢尔曼
潘丽敏
孔令志
吕英
高晓芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201310074868.1A priority Critical patent/CN103177722B/zh
Publication of CN103177722A publication Critical patent/CN103177722A/zh
Application granted granted Critical
Publication of CN103177722B publication Critical patent/CN103177722B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Auxiliary Devices For Music (AREA)

Abstract

本发明涉及一种基于音色相似度的歌曲检索方法,针对基于内容的音乐检索技术,综合利用歌曲背景音乐音色、歌唱者声音特点等特征,提出了一种基于MFCC和GMM的歌曲个性建模、计算和检索匹配的方法并加以实现,实验结果表明,该***的检索速度快,***稳定性高、可扩展性强。本发明特别适合对于音色要求较高的音频检索场合,例如器乐音频检索***、多媒体音频管理***等。

Description

一种基于音色相似度的歌曲检索方法
技术领域
本发明涉及一种基于音色相似度的歌曲检索方法,属于多媒体信息处理技术领域;具体来讲,属于音频处理技术领域。
背景技术
音乐作为一种重要的媒体资源,音乐的检索对于音乐数据库和数字图书馆建设有着非常重要的意义。网络上多媒体资源量非常巨大,人们需要高效的搜索引擎从浩如烟海的数据中找出需要的音乐资源。另外,音乐检索在卡拉OK检索以及辅助视频检索等方面都有广阔的研究前景和巨大的应用价值。面对不断增长的海量资源与人们对音乐检索的高标准,基于背景音乐及歌唱者音色的音乐检索需求也不断增加。利用相关技术实现对于相似音乐的检索不仅可以改变现在的人工检索方式,而且歌唱者可以根据自己声音和风格利用***检索与自己相似的歌曲,不仅可以节约大量的时间,能够取得更好的效果,同时,用户可以从大量的歌曲音乐库中自动选择自己喜爱的歌曲,满足个性化音乐检索和服务。
目前,对于歌曲的检索方法分为两大类:基于文本标注的方法和基于内容的方法。
目前实用的歌曲检索***都使用了基于文本的方法,如百度音乐检索、九酷音乐网、搜刮网等,这种方法需要首先对歌曲库中的歌曲进行人工标注,标注出歌曲名、演唱者、歌曲分类等特征,再利用关键字匹配的方法进行查找。这种方法在实用中有着一些难以弥补的缺陷。首先,歌曲的很多特征难以用文字准确描述(例如歌唱者声音特征、歌曲风格、节奏、背景音乐音色等),因而难以针对这些特性进行检索;其次,文本匹配的检索准确性能很大程度上取决于文本标注的准确性,而很多特性(如歌曲分类、情绪等)的评价具有很强的主观性,准确性难以保证;第三,对于“以歌找歌”的相似歌曲检索需求,基于文本的方法目前还无法实现。
在基于内容的歌曲检索方面,目前常用的方法有:
1.种基于时间序列的方法。在该方法将整首歌曲中音符的组合转化为时间序列的组合,然后再计算时间序列间的距离,并将结果作为衡量歌曲间相似度的标准。该方法有利于使用DTW方法进行匹配,但是需要进行音符序列的平移和时间弯曲,还需要对每个时间序列进行匹配,时间复杂度非常高。
基于隐马尔可夫模型(HMM)的匹配算法。该方法对音高误差比较敏感,但能较好地容忍遗漏音符和节奏上的哼唱误差。基于SOM神经网络算法和基于文本特征的技术的方法等,这些方法通过用户哼唱一首乐曲的旋律片段,从音乐中提取旋律和节奏等特征信息进行搜索的。
然而,面对用户对于音色相似性的检索需求,目前可用的方法却很少。本发明就是针对这一问题提出的,用户可以根据自己喜欢的歌曲,利用检索***检索与之音色相似的歌曲,满足个性化音乐检索和服务的需要。
发明内容
本发明的目标是:提出一种基于音色相似度的歌曲检索方法,能实现根据音色的相似度完成歌曲检索的目的。
本发明的设计原理为:采用Mel频率倒谱系数(MFCC)和高斯混合模型(GMM)算法来构造该模型,并用期望最大化(EM)算法进行训练,最终使用GMM模型匹配的方式进行检索。原理图见图1。
本发明的技术方案是通过如下步骤实现的:
步骤1,对音频库的所有S首样本歌曲进行预处理,利用音频片段平均短时能量和过零率标准偏差的融合判决方法去除歌曲中的静音部分。每首歌的处理流程如下:
步骤1.1,对音频进行分帧处理,具体方法为:
帧移长度选为半帧,窗函数选用哈明窗(Hamming Window),如下式所示。
Figure BDA00002899402300021
式中α的取值根据***部署时的实际情况来确定。
步骤1.2,计算短时能量,具体方法为:
E n = Σ m = - ∞ ∞ [ x ( m ) w ( n - m ) ] 2 = Σ m = n n + N - 1 [ x ( m ) w ( n - m ) ] 2
上式中,n是第n个短时帧,x(m)表示第n个短时帧内第m个采样点信号值,N是窗长,可以在***部署时根据实际应用具体确定,w(n)表示长度为N的窗函数。上式也可以改写为
E n = Σ m = - ∞ ∞ [ x ( m ) w ( n - m ) ] 2 = Σ m = - ∞ ∞ x 2 ( m ) h ( n - m ) = x 2 ( n ) * h ( n )
上式中h(n)定义如下
h(n)=w(n)2
步骤1.3,设定音频片段的长度为t,计算各音频片段的平均短时能量E平m,及整个语音的平均短时能量E平all
Figure BDA00002899402300032
Figure BDA00002899402300033
式中,G为整首歌曲的音频帧数,g为t秒片段中包含的音频帧数。
步骤1.4,按照如下规则删除静音片段:
(1)当一个音频片段的能量低于某个阈值,就认为它是静音帧。
(2)当一个片段中的静音帧的比例超过阈值TS时,就认为它是静音片段。
阈值的设定与当前声音的响度和频率有关系,响度高阈值就高,所以阈值的设定应随不同的音频片段而变化。为此,所提方法采用自适应的阈值TE的判定方法:当音频帧的短时能量于一个3秒大小的滑动窗口内的平均短时能量的比值低于阈值TR时,就认为是静音帧。
步骤2,在步骤1删除静音段之后,提取音频库中每首歌曲剩余的有效音频帧的MFCC参数。处理流程见图2,每首歌的具体操作过程如下:
步骤2.1,语音信号在经过加窗处理后变为短时信号,用FFT将这些时域信号x(n)转化为频域信号x(m),并由此可以计算它的短时能量谱P(f)。
步骤2.2,将P(f)由在频率轴上的频谱转化为在Mel坐标上的P(M),其中M表示Mel频率,使用公式:fmel=2595lg(1+fHz)/700来完成变换。
步骤2.3,在Mel频域内将三角带通滤波器加于Mel坐标得到滤波器组Hm(k),如所示。然后计算Mel坐标上的能量P(M)经过此滤波器组的输出
θ ( M k ) = ln [ Σ k = 1 K | X ( k ) | 2 H m ( k ) ] , k = 1,2 , . . . K
上式中,k表示第k个三角滤波器,K表示滤波器个数。这K个滤波器中,在1000Hz以下的滤波器是线性划分的,在1000Hz以上的滤波器是在Mel坐标上线性划分的。
步骤2.4,如果θ(Mk)表示第k个滤波器的能量输出,则Mel频率倒谱系数Cmel(n)在Mel刻度谱上可以采用修改的离散余弦反变换(IDCT)求得
上式中,p为MFCC参数的阶数。
步骤2.5,将这种直接得到的MFCC特征作为静态特征,再将这种静态特征做一阶和二阶差分,得到响应的动态特征。标准的MFCC参数只是反映了语音信号的静态特征,适用于纯净的语音信号情况下;动态特征更适合于实际***中测试环境和训练环境失配的情况。差分参数的计算公式如下
d ( n ) = [ Σ k = - M M c ( n + k ) k ] / Σ k = - M M k 2
在上式中,d(n)表示一阶MFCC差分参数,c(n)是MFCC参数;M为一个自定义的常数,一般取2或者3。如果取2,这时差分参数就称为当前帧的前两帧和后两帧参数的线性组合。
步骤3,在步骤2的基础上,为音频库的每首歌训练相应的GMM模型,得到模型集合D={λ12,…,λS}。每首歌训练的流程如图3所示,具体过程如下:
步骤3.1,确定GMM模型的阶数K(码本容量),和初始参数λ,这些参数由实际部署时的情况来确定。
步骤3.2,从歌曲库中,读取一首新的歌曲。
步骤3.3,对于本首歌曲的每个特征向量xi,用下式计算pi(xi),
p i ( x ; μ i , Σ i ) = 1 ( 2 π ) D / 2 | Σ i | 1 / 2 exp { - 1 2 ( x - μ i ) T Σ i - 1 ( x - μ i )
步骤3.4,用下式计算p(i|xi,λ);
p ( y i = i | x i , λ ′ ) = ω i ′ p i ( x t ; μ i ′ , Σ i ′ ) p ( x t | λ ′ ) = ω i ′ p i ( x t ; μ i ′ , Σ i ′ ) Σ i = 1 M ω i ′ p i ( x t ; μ i ′ , Σ i ′ )
步骤3.5,用以下三个公式重估模型参数;
p → i = 1 T Σ t = 1 T p ( i | x → t , λ )
μ → i = Σ t = 1 T p ( i | x → t , λ ) x → t / Σ t = 1 T p ( i | x → t , λ )
σ → i 2 = Σ t = 1 T p ( i | x → t , λ ) x → t 2 / Σ t = 1 T p ( i | x → t , λ ) - μ → i 2
步骤3.6,用以下两个公式分别更新p(i|xi,λ)、计算Q(λ,λ′);
p ( i | x → t , λ ) = p i b i ( x → t ) / Σ k = 1 M p k b k ( x → t )
Q ( λ , λ ′ ) = Σ y log [ L ( λ | X , y ) ] P ( y | X , λ ′ ) = Σ y log [ P ( X , y | λ ) ] P ( y | X , λ ′ )
步骤3.7,若Q(λ,λ′)当前值相对于上一次迭代时的值的增幅小于设定的收敛域,则结束本首歌曲的建模,转步骤3.2,否则回转步骤3.3继续。
步骤3.8,将每首歌曲的模型集合起来统一存储,得到歌曲库对应的模型库D={λ12,…,λS}。
步骤4,对于给定的歌曲样本,首先提取其MFCC系数,进而与步骤3得到的模型库D中的每个模型进行匹配,完成歌曲检索。具体步骤如图4所示,操作步骤为:
步骤4.1,提取歌曲样本的MFCC系数,得到观察矢量序列X={xt,t=1,2,…,T},具体操作方法,同步骤1.1-步骤2.5。
步骤4.2,依次与D中的S个模型进行匹配,按照下式获得检索结果。
S ^ = arg max 1 ≤ k ≤ S Σ t = 1 T log P ( x t | λ k )
步骤4.3,将
Figure BDA00002899402300062
作为检索结果输出,检索完成。
有益效果
相比于基于文本标签标注的歌曲检索方法和基于旋律相似性的歌曲检索方法,本发明采用MFCC技术提取歌曲的语音特征,并利用GMM算法生成该歌曲的模板,然后利用歌曲模板库对歌曲文件进行相似度计算,实现了基于歌曲背景音乐和歌手音色相似性的检索。
本发明首次使用对完整歌曲进行相似性比较,用户可以根据自己的音色风格检索歌曲,满足个性化歌曲推荐和服务,不仅可以单独使用,也可以成为既有歌曲检索***的有益补充,具有较高的实用价值。
附图说明
图1为本发明的原理框图;
图2为本发明提出的音频特征提取流程图;
图3为本发明的音频库中每首歌曲GMM模型构建流程;
图4为本发明的音频检索流程;
具体实施方式
为了更好的说明本发明的目的和优点,下面结合实施例对本发明方法的实施方式做进一步详细说明。
本实施例采用的数据资源如下:首先建立一个由1250首MP3歌曲组成的音频库,其中包括132位男歌手歌曲555首,大小为2.48GB,116位女歌手歌曲695首,大小为3.21GB,歌曲库中包含中文、英语、韩语、日语等类型的歌曲。首先把MP3歌曲解码成单声道、采样速率16kHz、解析度16bit的WAV格式语音文件,然后利用基于音频片段平均短时能量过滤歌曲中的静音部分。
本实施例的总体步骤为:从男女歌手中分别选取两首不同歌手的歌曲,共4首歌曲。首先采用本发明的***进行识别,然后将***检索到的前10首歌曲记录下来,然后用主观评价的方法(通过人为判断的方式)判断检索到的歌曲与相关歌曲是否具有相同的音色风格。
人工分类是经过对20人对检索结果进行判定的结果统计分析得出的,在实验中,Y表示与样本歌曲相似,N表示与样本歌曲不相似。而对检索结果进行歌曲相似性统计的原则是,20人中若80%以上认为相似则认为相似,否则认为不相似。
以下所有测试均在同一台计算机上完成,具体配置为:Intel双核CPU(主频1.8G),1G内存,WindowsXP SP3操作***。
具体的实施步骤为:
步骤1,对音频库的所有S首样本歌曲进行预处理,利用音频片段平均短时能量和过零率标准偏差的融合判决方法可以去除歌曲中的静音部分。每首歌的处理流程如下:
步骤1.1,对音频进行分帧处理
帧移长度选为半帧,窗函数选用哈明窗(Hamming Window),如下式所示。
Figure BDA00002899402300071
本实施例中,上式α=0.46
步骤1.2,计算短时能量,具体方法为:
E n = Σ m = - ∞ ∞ [ x ( m ) w ( n - m ) ] 2 = Σ m = n n + N - 1 [ x ( m ) w ( n - m ) ] 2
上式中,n是第n个短时帧,x(m)表示第n个短时帧内第m个采样点信号值,N是窗长,本实施例中,N=30毫秒,帧移为15毫秒,w(n)表示长度为N的窗函数。上式也可以改写为
E n = Σ m = - ∞ ∞ [ x ( m ) w ( n - m ) ] 2 = Σ m = - ∞ ∞ x 2 ( m ) h ( n - m ) = x 2 ( n ) * h ( n )
上式中h(n)定义如下
h(n)=w(n)2
步骤1.3,设定音频片段的长度为t,计算各音频片段的平均短时能量E平m,及整个语音的平均短时能量E平all。在本实施例中,t=1s.
Figure BDA00002899402300083
式中,G为整首歌曲的音频帧数,g为1秒片段中包含的音频帧数。
步骤1.4,按照如下规则删除静音片段:
(1)当一个音频片段的能量低于某个阈值,就认为它是静音帧。
(2)当一个片段中的静音帧的比例超过阈值TS时,就认为它是静音片段。
阈值的设定与当前声音的响度和频率有关系,响度高阈值就高,所以阈值的设定应随不同的音频片段而变化。为此,所提方法采用自适应的阈值TE的判定方法:当音频帧的短时能量于一个3秒大小的滑动窗口内的平均短时能量的比值低于阈值TR时,就认为是静音帧。
步骤2,在步骤1删除静音段之后,提取音频库中每首歌曲剩余的有效音频帧的MFCC参数。处理流程见图2,每首歌的具体操作过程如下:
步骤2.1,语音信号在经过加窗处理后变为短时信号,用FFT将这些时域信号x(n)转化为频域信号x(m),并由此可以计算它的短时能量谱P(f)。
步骤2.2,将P(f)由在频率轴上的频谱转化为在Mel坐标上的P(M),其中M表示Mel频率,使用公式:fmel=2595lg(1+fHz)/700来完成变换。
步骤2.3,在Mel频域内将三角带通滤波器加于Mel坐标得到滤波器组Hm(k),如所示。然后计算Mel坐标上的能量P(M)经过此滤波器组的输出
θ ( M k ) = ln [ Σ k = 1 K | X ( k ) | 2 H m ( k ) ] , k = 1,2 , . . . K
上式中,k表示第k个三角滤波器,K表示滤波器个数。这K个滤波器中,在1000Hz以下的滤波器是线性划分的,在1000Hz以上的滤波器是在Mel坐标上线性划分的。
步骤2.4,如果θ(Mk)表示第k个滤波器的能量输出,则Mel频率倒谱系数Cmel(n)在Mel刻度谱上可以采用修改的离散余弦反变换(IDCT)求得
上式中,p为MFCC参数的阶数。
步骤2.5,将这种直接得到的MFCC特征作为静态特征,再将这种静态特征做一阶和二阶差分,得到响应的动态特征。标准的MFCC参数只是反映了语音信号的静态特征,适用于纯净的语音信号情况下;动态特征更适合于实际***中测试环境和训练环境失配的情况。差分参数的计算公式如下:
d ( n ) = [ Σ k = - M M c ( n + k ) k ] / Σ k = - M M k 2
在上式中,d(n)表示一阶MFCC差分参数,c(n)是MFCC参数;M为一个自定义的常数,本实施例中,M取2.
步骤3,在步骤2的基础上,为音频库的每首歌训练相应的GMM模型,得到模型集合D={λ12,…,λS}。每首歌训练的流程如图3所示,具体过程如下:
步骤3.1,确定GMM模型的阶数K(码本容量),和初始参数λ。
确定初始值K与λ采用的方法是:从训练数据中任取若干特征矢量求其均值和方差,作为初始均值和方差;而对于模型的混合数K,如果取值太小,则训练出的GMM不能有效地表征语音的特征,从而使整个***的性能下降。如果取值过大,则模型参数会很多,从有效的训练数据中可能得不到收敛的模型参数,而且太多的模型参数要求更多的存储空间,同时还会大大增加训练和识别的运算复杂度。本实施例中,K=32.
步骤3.2,从歌曲库中,读取一首新的歌曲。
步骤3.3,对于本首歌曲的每个特征向量xi,用下式计算pi(xi),
p i ( x ; μ i , Σ i ) = 1 ( 2 π ) D / 2 | Σ i | 1 / 2 exp { - 1 2 ( x - μ i ) T Σ i - 1 ( x - μ i )
步骤3.4,用下式计算p(i|xi,λ);
p ( y i = i | x i , λ ′ ) = ω i ′ p i ( x t ; μ i ′ , Σ i ′ ) p ( x t | λ ′ ) = ω i ′ p i ( x t ; μ i ′ , Σ i ′ ) Σ i = 1 M ω i ′ p i ( x t ; μ i ′ , Σ i ′ )
步骤3.5,用以下三个公式重估模型参数;
p → i = 1 T Σ t = 1 T p ( i | x → t , λ )
μ → i = Σ t = 1 T p ( i | x → t , λ ) x → t / Σ t = 1 T p ( i | x → t , λ )
σ → i 2 = Σ t = 1 T p ( i | x → t , λ ) x → t 2 / Σ t = 1 T p ( i | x → t , λ ) - μ → i 2
步骤3.6,用以下两个公式分别更新p(i|xi,λ)、计算Q(λ,λ′);
p ( i | x → t , λ ) = p i b i ( x → t ) / Σ k = 1 M p k b k ( x → t )
Q ( λ , λ ′ ) = Σ y log [ L ( λ | X , y ) ] P ( y | X , λ ′ ) = Σ y log [ P ( X , y | λ ) ] P ( y | X , λ ′ )
步骤3.7,若Q(λ,λ′)当前值相对于上一次迭代时的值的增幅小于设定的收敛域,则结束本首歌曲的建模,转步骤3.2,否则回转步骤3.3继续。
步骤3.8,将每首歌曲的模型集合起来统一存储,得到歌曲库对应的模型库D={λ12,…,λS}。
步骤4,对于给定的歌曲样本,首先提取其MFCC系数,进而与模型库D中的每个模型进行匹配,完成歌曲检索。具体步骤如图4所示,操作步骤为:
步骤4.1,提取歌曲样本的MFCC系数,得到观察矢量序列X={xt,t=1,2,…,T},具体操作方法,同步骤1.1-步骤2.5。
步骤4.2,依次与D中的S个模型进行匹配,按照下式获得检索结果。
S ^ = arg max 1 ≤ k ≤ S Σ t = 1 T log P ( x t | λ k )
步骤4.3,将
Figure BDA00002899402300114
作为检索结果输出,检索完成。
本实施例的检索结果如下:为了方便,对4组实验检索结果的歌曲分别进行了编号。
第1组:样本歌曲为刘若英的“人之初”。
检索相似性排名前10首歌曲:①王菲的“暗涌”;②那英的“出卖”;③王菲的“但愿人长久”;④王菲的“给自己的情书”;⑤王菲的“只愿为你守着约”;⑥萧亚轩的“给我重新爱你的机会”;⑦那英的“我来因为你在”;⑧王菲的“雪中莲”;⑨梁咏琪的“我很好”;⑩孙燕姿的“年轻无极限”。
第2组:样本歌曲为梁静茹的“给未来的自己”。
检索相似性排名前10首歌曲:①刘若英的“说话”;②真宫寺的“樱花大战”;③王菲的“再见萤火虫”;④王菲的“单行道”;⑤杨丞琳的“True Blue”;⑥The Corrs的“Only When I Sleep”;⑦王菲的“天使”;⑧王菲的“闷人咖啡”;⑨“True Love”;⑩王菲的“香奈儿”。
第3组:样本歌曲为周华健的“忘忧草”。
检索相似性排名前10首歌曲:①猫王的“Can′t Help Falling in Love”;②郑伊健的“热血燃烧”;③张信哲的“且行且珍惜”;④羽泉的“CityStory”;⑤阿牛的“Hello,Hong Kong”;⑥周杰伦的“心雨”;⑦阿牛的“你还好吗”;⑧李圣杰的“手放开”;⑨动力火车的“火柴天堂”;⑩Buzz的“胆小鬼”。
第4组:样本歌曲为王力宏的“爱我的歌”。
检索相似性排名前10首歌曲:①五月天的“心中无别人”;②五月天的“我们”;③五月天的“米老鼠”;④五月天的“我又初恋了”;⑤五月天的“约翰蓝侬”;⑥五月天的“憨人”;⑦“火影忍者”;⑧Westlife的“Uptown Girl”;⑨周杰伦的“珊瑚海”;⑩五月天的“摇滚舞台”。
实验结果如下表所示。
实验结果数据统计表
Figure BDA00002899402300131
经过对上表中的准确率平均,得到歌曲检索的平均准确率为90%,说明本发明的检索达到了较好的效果。从具有1250首歌曲的音乐库,检索出10首具有相似特征的歌曲时间小于3min,检索时间性能比较高,达到了较为理想的效果。

Claims (5)

1.一种基于音色相似度的歌曲检索方法,其特征在于,所述方法包括以下步骤:
步骤1,对音频库的所有S首样本歌曲进行预处理,去除歌曲中的静音部分。
步骤2,在步骤1删除静音段之后,提取音频库中每首歌曲剩余的有效音频帧的MFCC参数。
步骤3,在步骤2的基础上,为音频库的每首歌训练相应的GMM模型。
步骤4,对于给定的歌曲样本,首先对其进行GMM建模,进而与步骤3得到的模型库D中的每个模型进行匹配,完成歌曲检索。
2.根据权利要求1所述的方法,其特征在于,所述预处理的方法包括如下步骤:
步骤1,对音频进行分帧处理,具体方法为:
帧移长度选为半帧,窗函数选用哈明窗(Hamming Window),如下式所示。
式中α的取值根据***部署时的实际情况来确定。
步骤2,计算短时能量,具体方法为:
E n = Σ m = - ∞ ∞ [ x ( m ) w ( n - m ) ] 2 = Σ m = n n + N - 1 [ x ( m ) w ( n - m ) ] 2
公式中,n是第n个短时帧,x(m)表示第n个短时帧内第m个采样点信号值,N是窗长,可以在***部署时根据实际应用具体确定,w(n)表示长度为N的窗函数。上式也可以改写为
E n = Σ m = - ∞ ∞ [ x ( m ) w ( n - m ) ] 2 = Σ m = - ∞ ∞ x 2 ( m ) h ( n - m ) = x 2 ( n ) * h ( n )
上式中h(n)定义如下
h(n)=w(n)2
步骤3,设定音频片段的长度为t,计算各音频片段的平均短时能量E平m,及整个语音的平均短时能量E平all
Figure FDA00002899402200021
式中,G为整首歌曲的音频帧数,g为t秒片段中包含的音频帧数。
步骤4,按照如下规则删除静音片段:
(1)当一个音频片段的能量低于某个阈值,就认为它是静音帧。
(2)当一个片段中的静音帧的比例超过阈值TS时,就认为它是静音片段。
阈值的设定与当前声音的响度和频率有关系,响度高阈值就高,所以阈值的设定应随不同的音频片段而变化。为此,所提方法采用自适应的阈值TE的判定方法:当音频帧的短时能量于一个3秒大小的滑动窗口内的平均短时能量的比值低于阈值TR时,就认为是静音帧。
3.根据权利要求1所述的方法,其特征在于,所述MFCC参数的提取步骤具体包括:
步骤1,语音信号在经过加窗处理后变为短时信号,用FFT将这些时域信号x(n)转化为频域信号x(m),并由此可以计算它的短时能量谱P(f)。
步骤2,将P(f)由在频率轴上的频谱转化为在Mel坐标上的P(M),其中M表示Mel频率,使用公式:fmel=2595lg(1+fHz)/700来完成变换。
步骤3,在Mel频域内将三角带通滤波器加于Mel坐标得到滤波器组Hm(k),如所示。然后计算Mel坐标上的能量P(M)经过此滤波器组的输出
θ ( M k ) = ln [ Σ k = 1 K | X ( k ) | 2 H m ( k ) ] , k = 1,2 , . . . K
上式中,k表示第k个三角滤波器,K表示滤波器个数。这K个滤波器中,在1000Hz以下的滤波器是线性划分的,在1000Hz以上的滤波器是在Mel坐标上线性划分的。
步骤4,如果θ(Mk)表示第k个滤波器的能量输出,则Mel频率倒谱系数Cmel(n)在Mel刻度谱上可以采用修改的离散余弦反变换(IDCT)求得
Figure 3
上式中,p为MFCC参数的阶数。
步骤5,将这种直接得到的MFCC特征作为静态特征,再将这种静态特征做一阶和二阶差分,得到响应的动态特征。标准的MFCC参数只是反映了语音信号的静态特征,适用于纯净的语音信号情况下;动态特征更适合于实际***中测试环境和训练环境失配的情况。差分参数的计算公式如下
d ( n ) = [ Σ k = - M M c ( n + k ) k ] / Σ k = - M M k 2
在上式中,d(n)表示一阶MFCC差分参数,c(n)是MFCC参数;M为一个自定义的常数,一般取2或者3。如果取2,这时差分参数就称为当前帧的前两帧和后两帧参数的线性组合。
4.根据权利要求1所述的方法,其特征在于,所述GMM的建模方法为:
步骤1,确定GMM模型的阶数K(码本容量),和初始参数λ,这些参数由实际部署时的情况来确定。
步骤2,从歌曲库中,读取一首新的歌曲。
步骤3,对于本首歌曲的每个特征向量xi,用下式计算pi(xi),
p i ( x ; μ i , Σ i ) = 1 ( 2 π ) D / 2 | Σ i | 1 / 2 exp { - 1 2 ( x - μ i ) T Σ i - 1 ( x - μ i )
步骤4,用下式计算p(i|xi,λ);
p ( y i = i | x i , λ ′ ) = ω i ′ p i ( x t ; μ i ′ , Σ i ′ ) p ( x t | λ ′ ) = ω i ′ p i ( x t ; μ i ′ , Σ i ′ ) Σ i = 1 M ω i ′ p i ( x t ; μ i ′ , Σ i ′ )
步骤5,用以下三个公式重估模型参数;
p → i = 1 T Σ t = 1 T p ( i | x → t , λ )
μ → i = Σ t = 1 T p ( i | x → t , λ ) x → t / Σ t = 1 T p ( i | x → t , λ )
σ → i 2 = Σ t = 1 T p ( i | x → t , λ ) x → t 2 / Σ t = 1 T p ( i | x → t , λ ) - μ → i 2
步骤6,用以下两个公式分别更新p(i|xi,λ)、计算Q(λ,λ′);
p ( i | x → t , λ ) = p i b i ( x → t ) / Σ k = 1 M p k b k ( x → t )
Q ( λ , λ ′ ) = Σ y log [ L ( λ | X , y ) ] P ( y | X , λ ′ ) = Σ y log [ P ( X , y | λ ) ] P ( y | X , λ ′ )
步骤7,若Q(λ,λ′)当前值相对于上一次迭代时的值的增幅小于设定的收敛域,则结束本首歌曲的建模,转步骤2,否则回转步骤3继续。
步骤8,将每首歌曲的模型集合起来统一存储,得到歌曲库对应的模型库D={λ12,…,λS}。
5.根据权利要求1所述的方法,其特征在于,所述歌曲检索的具体方法为:
步骤1,提取歌曲样本的MFCC系数,得到观察矢量序列X={xt,t=1,2,…,T},具体操作方法,同步骤1.1-步骤2.5。
步骤2,依次与D中的S个模型进行匹配,按照下式获得检索结果。
S ^ = arg max 1 ≤ k ≤ S Σ t = 1 T log P ( x t | λ k )
步骤3,将
Figure FDA00002899402200048
作为检索结果输出,检索完成。
CN201310074868.1A 2013-03-08 2013-03-08 一种基于音色相似度的歌曲检索方法 Expired - Fee Related CN103177722B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310074868.1A CN103177722B (zh) 2013-03-08 2013-03-08 一种基于音色相似度的歌曲检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310074868.1A CN103177722B (zh) 2013-03-08 2013-03-08 一种基于音色相似度的歌曲检索方法

Publications (2)

Publication Number Publication Date
CN103177722A true CN103177722A (zh) 2013-06-26
CN103177722B CN103177722B (zh) 2016-04-20

Family

ID=48637529

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310074868.1A Expired - Fee Related CN103177722B (zh) 2013-03-08 2013-03-08 一种基于音色相似度的歌曲检索方法

Country Status (1)

Country Link
CN (1) CN103177722B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103440873A (zh) * 2013-08-27 2013-12-11 大连理工大学 一种基于相似性的音乐推荐方法
CN103955490A (zh) * 2014-04-16 2014-07-30 华为技术有限公司 一种播放音频的方法和设备
CN103971702A (zh) * 2013-08-01 2014-08-06 哈尔滨理工大学 声音监控方法、装置及***
CN104050259A (zh) * 2014-06-16 2014-09-17 上海大学 一种基于som算法的音频指纹提取方法
CN104183245A (zh) * 2014-09-04 2014-12-03 福建星网视易信息***有限公司 一种演唱者音色相似的歌星推荐方法与装置
CN105550316A (zh) * 2015-12-14 2016-05-04 广州酷狗计算机科技有限公司 音频列表的推送方法及装置
CN105575400A (zh) * 2015-12-24 2016-05-11 广东欧珀移动通信有限公司 一种获取歌曲信息的方法、终端、服务器和***
WO2016141535A1 (zh) * 2015-03-09 2016-09-15 常平 推荐歌曲时的产品信息推送方法以及点歌***
CN106250400A (zh) * 2016-07-19 2016-12-21 腾讯科技(深圳)有限公司 一种音频数据处理方法、装置以及***
CN106887241A (zh) * 2016-10-12 2017-06-23 阿里巴巴集团控股有限公司 一种语音信号检测方法与装置
CN106909576A (zh) * 2015-12-23 2017-06-30 小米科技有限责任公司 歌曲推荐方法及装置
CN106970950A (zh) * 2017-03-07 2017-07-21 腾讯音乐娱乐(深圳)有限公司 相似音频数据的查找方法及装置
CN106997765A (zh) * 2017-03-31 2017-08-01 福州大学 人声音色的定量表征方法
CN107798107A (zh) * 2017-10-31 2018-03-13 维沃移动通信有限公司 歌曲推荐的方法和移动设备
CN107825433A (zh) * 2017-10-27 2018-03-23 安徽硕威智能科技有限公司 一种儿童语音指令识别的卡片机器人
CN107886956A (zh) * 2017-11-13 2018-04-06 广州酷狗计算机科技有限公司 音频识别方法、装置及计算机存储介质
CN108021635A (zh) * 2017-11-27 2018-05-11 腾讯科技(深圳)有限公司 一种音频相似度的确定方法、装置和存储介质
CN108255840A (zh) * 2016-12-28 2018-07-06 北京酷我科技有限公司 一种歌曲的推荐方法和***
WO2019128593A1 (zh) * 2017-12-29 2019-07-04 广州酷狗计算机科技有限公司 搜索音频的方法和装置
CN111444383A (zh) * 2020-03-30 2020-07-24 腾讯科技(深圳)有限公司 一种音频数据处理方法、装置以及计算机可读存储介质
CN112767920A (zh) * 2020-12-31 2021-05-07 深圳市珍爱捷云信息技术有限公司 通话语音的识别方法、装置、设备及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951474B (zh) * 2017-03-06 2020-06-23 上海海事大学 一种基于lda模型的歌曲分类方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100869387B1 (ko) * 2007-02-21 2008-11-19 인하대학교 산학협력단 서포트 벡터머신을 이용한 음성신호에 기초한 성별 인식방법
CN101552000A (zh) * 2009-02-25 2009-10-07 北京派瑞根科技开发有限公司 音乐相似性处理方法
CN101552003A (zh) * 2009-02-25 2009-10-07 北京派瑞根科技开发有限公司 一种媒体信息处理方法
CN102129456A (zh) * 2011-03-09 2011-07-20 天津大学 去相关稀疏映射音乐流派有监督自动分类方法
CN102324232A (zh) * 2011-09-12 2012-01-18 辽宁工业大学 基于高斯混合模型的声纹识别方法及***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100869387B1 (ko) * 2007-02-21 2008-11-19 인하대학교 산학협력단 서포트 벡터머신을 이용한 음성신호에 기초한 성별 인식방법
CN101552000A (zh) * 2009-02-25 2009-10-07 北京派瑞根科技开发有限公司 音乐相似性处理方法
CN101552003A (zh) * 2009-02-25 2009-10-07 北京派瑞根科技开发有限公司 一种媒体信息处理方法
CN102129456A (zh) * 2011-03-09 2011-07-20 天津大学 去相关稀疏映射音乐流派有监督自动分类方法
CN102324232A (zh) * 2011-09-12 2012-01-18 辽宁工业大学 基于高斯混合模型的声纹识别方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
牛滨等: "基于MFCC和GMM的个性音乐推荐模型", 《北京理工大学学报》 *

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103971702A (zh) * 2013-08-01 2014-08-06 哈尔滨理工大学 声音监控方法、装置及***
CN103440873B (zh) * 2013-08-27 2015-10-28 大连理工大学 一种基于相似性的音乐推荐方法
CN103440873A (zh) * 2013-08-27 2013-12-11 大连理工大学 一种基于相似性的音乐推荐方法
CN103955490A (zh) * 2014-04-16 2014-07-30 华为技术有限公司 一种播放音频的方法和设备
CN104050259A (zh) * 2014-06-16 2014-09-17 上海大学 一种基于som算法的音频指纹提取方法
CN104183245A (zh) * 2014-09-04 2014-12-03 福建星网视易信息***有限公司 一种演唱者音色相似的歌星推荐方法与装置
WO2016141535A1 (zh) * 2015-03-09 2016-09-15 常平 推荐歌曲时的产品信息推送方法以及点歌***
CN105550316A (zh) * 2015-12-14 2016-05-04 广州酷狗计算机科技有限公司 音频列表的推送方法及装置
CN105550316B (zh) * 2015-12-14 2019-07-02 广州酷狗计算机科技有限公司 音频列表的推送方法及装置
CN106909576A (zh) * 2015-12-23 2017-06-30 小米科技有限责任公司 歌曲推荐方法及装置
CN105575400A (zh) * 2015-12-24 2016-05-11 广东欧珀移动通信有限公司 一种获取歌曲信息的方法、终端、服务器和***
CN106250400A (zh) * 2016-07-19 2016-12-21 腾讯科技(深圳)有限公司 一种音频数据处理方法、装置以及***
CN106250400B (zh) * 2016-07-19 2021-03-26 腾讯科技(深圳)有限公司 一种音频数据处理方法、装置以及***
CN106887241A (zh) * 2016-10-12 2017-06-23 阿里巴巴集团控股有限公司 一种语音信号检测方法与装置
KR20190061076A (ko) * 2016-10-12 2019-06-04 알리바바 그룹 홀딩 리미티드 오디오 신호를 검출하기 위한 방법 및 디바이스
KR102214888B1 (ko) * 2016-10-12 2021-02-15 어드밴스드 뉴 테크놀로지스 씨오., 엘티디. 오디오 신호를 검출하기 위한 방법 및 디바이스
US10706874B2 (en) 2016-10-12 2020-07-07 Alibaba Group Holding Limited Voice signal detection method and apparatus
CN108255840A (zh) * 2016-12-28 2018-07-06 北京酷我科技有限公司 一种歌曲的推荐方法和***
CN106970950B (zh) * 2017-03-07 2021-08-24 腾讯音乐娱乐(深圳)有限公司 相似音频数据的查找方法及装置
CN106970950A (zh) * 2017-03-07 2017-07-21 腾讯音乐娱乐(深圳)有限公司 相似音频数据的查找方法及装置
CN106997765A (zh) * 2017-03-31 2017-08-01 福州大学 人声音色的定量表征方法
CN106997765B (zh) * 2017-03-31 2020-09-01 福州大学 人声音色的定量表征方法
CN107825433A (zh) * 2017-10-27 2018-03-23 安徽硕威智能科技有限公司 一种儿童语音指令识别的卡片机器人
CN107798107A (zh) * 2017-10-31 2018-03-13 维沃移动通信有限公司 歌曲推荐的方法和移动设备
CN107886956A (zh) * 2017-11-13 2018-04-06 广州酷狗计算机科技有限公司 音频识别方法、装置及计算机存储介质
CN108021635A (zh) * 2017-11-27 2018-05-11 腾讯科技(深圳)有限公司 一种音频相似度的确定方法、装置和存储介质
WO2019128593A1 (zh) * 2017-12-29 2019-07-04 广州酷狗计算机科技有限公司 搜索音频的方法和装置
US11574009B2 (en) 2017-12-29 2023-02-07 Guangzhou Kugou Computer Technology Co., Ltd. Method, apparatus and computer device for searching audio, and storage medium
CN111444383A (zh) * 2020-03-30 2020-07-24 腾讯科技(深圳)有限公司 一种音频数据处理方法、装置以及计算机可读存储介质
CN112767920A (zh) * 2020-12-31 2021-05-07 深圳市珍爱捷云信息技术有限公司 通话语音的识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN103177722B (zh) 2016-04-20

Similar Documents

Publication Publication Date Title
CN103177722B (zh) 一种基于音色相似度的歌曲检索方法
Jiang et al. Music type classification by spectral contrast feature
WO2019109787A1 (zh) 音频分类方法、装置、智能设备和存储介质
Shao et al. Unsupervised classification of music genre using hidden markov model
Tsunoo et al. Beyond timbral statistics: Improving music classification using percussive patterns and bass lines
Aucouturier et al. A scale-free distribution of false positives for a large class of audio similarity measures
WO2016102737A1 (en) Tagging audio data
De Leon et al. Enhancing timbre model using MFCC and its time derivatives for music similarity estimation
Yu et al. Sparse cepstral codes and power scale for instrument identification
Ajayakumar et al. Predominant instrument recognition in polyphonic music using gmm-dnn framework
Turnbull et al. Modelling music and words using a multi-class naıve bayes approach
Langlois et al. A Music Classification Method based on Timbral Features.
Kızrak et al. Classification of classic Turkish music makams
Sarkar et al. Raga identification from Hindustani classical music signal using compositional properties
Nagavi et al. An extensive analysis of query by singing/humming system through query proportion
Paschalidou et al. Multimodal deep learning architecture for hindustani raga classification
Rajan et al. Oktoechos classification in liturgical music using musical texture features
Qin et al. A bag-of-tones model with MFCC features for musical genre classification
Sridhar et al. Music information retrieval of carnatic songs based on carnatic music singer identification
Patil et al. Content-based audio classification and retrieval: A novel approach
Fujihara et al. Concurrent estimation of singing voice F0 and phonemes by using spectral envelopes estimated from polyphonic music
Krishnan et al. Multimodal fusion for segment classification in folk music
Zhang Music Data Feature Analysis and Extraction Algorithm Based on Music Melody Contour
Balachandra et al. Music Genre Classification for Indian Music Genres
Zhang Extraction and recognition of music melody features using a deep neural network

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160420

Termination date: 20170308

CF01 Termination of patent right due to non-payment of annual fee