CN101566999A - 一种快速音频检索的方法 - Google Patents

一种快速音频检索的方法 Download PDF

Info

Publication number
CN101566999A
CN101566999A CNA2009100721610A CN200910072161A CN101566999A CN 101566999 A CN101566999 A CN 101566999A CN A2009100721610 A CNA2009100721610 A CN A2009100721610A CN 200910072161 A CN200910072161 A CN 200910072161A CN 101566999 A CN101566999 A CN 101566999A
Authority
CN
China
Prior art keywords
frame
retrieval
audio
execution
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2009100721610A
Other languages
English (en)
Other versions
CN101566999B (zh
Inventor
任广辉
吴静龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN200910072161.0A priority Critical patent/CN101566999B/zh
Publication of CN101566999A publication Critical patent/CN101566999A/zh
Application granted granted Critical
Publication of CN101566999B publication Critical patent/CN101566999B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种快速音频检索的方法,它涉及一种音频检索的方法。本发明的目的是提供一种快速音频检索的方法,以进一步提高音频检索的速度。本发明所述的快速音频检索的方法经过预处理阶段后进入检索阶段;所述预处理阶段的过程为:对音频库提取MFCC参数、分类、对查询音频段(检索目标)提取MFCC参数、按划分的类别对所述查询音频段进行归类;所述检索阶段的检索过程为:查看查询音频段的类别、粗检索、精检索。用本发明方法的速度为4ms检索8.5小时,速度换算过后比经典方法快了大约3倍(Pentium M 1.6GHz)。

Description

一种快速音频检索的方法
技术领域
本发明涉及一种音频检索的方法。
背景技术
在音频检索领域,现有的经典算法是基于子带能量的直方图法,该方法采用7通道的IIR滤波器得到一系列子带能量的参数,继而生成直方图,然后在检索过程当中动态地滤除大量不可能的匹配点,来达到快速检索的目的,目前该方法的检索速度已达0.3秒检索200小时(CPU Pentium IV 2.0GHz)。[1]
现有的基于子带能量的直方图法的检索速度虽然较其它方法的检索速度有明显的提高,但如果在一个极其庞大的音频库中查询一个音频段仍需花费较长的时间,其检索速度无法满足使用要求。无疑检索速度是越快越好。
参考文献:[1]Kimura&Kashino,A Quick Search Method for Audio SignalsBased on a Piecewise Linear Representation of Feature Trajectories,IEEE TRANSACTIONS ON AUDIO,SPEECH,AND LANGUAGE PROCESSING,2008,2。
发明内容
本发明的目的是提供一种快速音频检索的方法,以进一步提高音频检索的速度。
本发明为解决上述技术问题采取的技术方案是:一种快速音频检索的方法,所述方法经过预处理阶段后进入检索阶段;
所述预处理阶段的过程为:
步骤A1、对音频库提取MFCC参数:对待查询的音频库的音频信号进行特征提取,获得特征信息;所获得的特征信息用a×m的矩阵表示,a为大于6且小于等于30的整数;m、n均为整数,m>>n,n≥4;特征提取时,帧长为2~3s,帧移为0.2~0.3s;
按所述的帧长、帧移,将所述a×m的矩阵分成若干个a×n的矩阵,每个矩阵为一帧;n为整数,n≥4;
步骤A2、对查询音频段(检索目标)提取MFCC参数:按步骤A1所述的帧长、帧移,对查询音频段的音频信号进行特征提取,获得特征信息;所获得的特征信息为一帧,用一个12×n的矩阵表示,n为整数,n≥4;
步骤A3、分类:将步骤A1中的所述若干个帧分为32类;按每帧的前X列的元素分类,X可取3~4;
步骤A4、按步骤A3中划分的类别对所述查询音频段进行归类;
所述检索阶段的检索过程为:查看查询音频段的类别、粗检索和精检索;
查看查询音频段的类别:
步骤B1、开始检索,取新的一帧,所述帧为待查询的音频库中的帧;
步骤B2、判断步骤B1中所述帧是否到帧尾;如果是,结束此次查看查询音频段的类别的过程;否则,执行步骤B3;
步骤B3、判断类别是否匹配;判断查询音频段所对应的帧与待查询的音频库中的当前帧的类别是否匹配;
如果是,执行步骤B4;否则,执行步骤B1;
粗检索:
步骤B4、取特征参数中的一个新元素:取待查询的音频库中匹配帧中的一个新元素;
步骤B5、计算待查询的音频库中匹配帧中的一个新元素与查询音频段对应元素的距离;
步骤B6、判断步骤B5中所得距离是否大于门限;如果是,执行步骤B1;否则,执行步骤B7;
步骤B7、计算待查询的音频库中匹配帧中下一个特征参数元素的距离;
步骤B8、判断是否取到的是最后一个元素;所述最后一个元素是指所述帧的前Y列的最后一个元素,Y可取2~8;如果是,执行步骤B9;否则,执行步骤B4;
步骤B9、记录下该帧的位置,存入位置数组中;
精检索:
步骤B10、取位置数组中新的一帧;
步骤B11、判断步骤B10中所述帧是否到帧尾;如果是,结束此次检索;否则,执行步骤B12;
步骤B12、计算与查询音频段特征矩阵的距离;所述距离是指查询音频段特征矩阵与所对比的特征矩阵的各个对应元素差的平方和。
步骤B13、判断是否大于门限;如果是,执行步骤B10;否则,执行步骤B14;
步骤B14、找到目标;然后再执行步骤B10,直到结束此次检索。
本发明的有益效果是:本发明采用了粗检索和精检索相结合的方法,提高了检索速度和正确率,正确率的计算公式为:正确率=100%-(虚警率+漏检率)/2。如图6所示,用本发明方法的速度为4ms检索8.5小时,速度换算过后比经典方法快了大约3倍(Pentium M 1.6GHz)。本发明由于采用了粗检索和精检索相结合的方法,尤其是粗检索的引入,使本发明方法在保证正确率的前提下,可实现较大的帧长和帧移。用本发明方法检索时帧长为2~3s,帧移为0.2~0.3s;而常用的帧长是25ms,帧移是10ms,因此提高了检索速度。
附图说明
图1是本发明的预处理阶段和检索阶段的总体框图(方框内为预处理阶段),图2是本发明检索阶段的查看查询音频段的类别阶段和粗检索阶段的流程图,图3是本发明检索阶段的精检索阶段的流程图,图4是计算特征向量对应元素部分的示意图,图5是提取特征参数示意图;图6是本发明的检索精度对比图(横座标为表示信号比噪声大的数值,单位为分贝;纵座标为检出率,带星点的曲线是背景技术中所述方法检索正确率曲线图),图7是MFCC的计算过程流程图。
具体实施方式
具体实施方式一:如图1~5所示,本实施方式所述的快速音频检索的方法经过预处理阶段后进入检索阶段;
所述预处理阶段的过程为:
步骤A1、对音频库提取MFCC参数:对待查询的音频库的音频信号进行特征提取,获得特征信息;所获得的特征信息用a×m的矩阵表示,a为大于6且小于等于30的整数;m、n均为整数,m>>n,n≥4;特征提取时,帧长为2~3s,帧移为0.2~0.3s;
按所述的帧长、帧移,将所述a×m的矩阵分成若干个a×n的矩阵,每个矩阵为一帧;n为整数,n≥4;
步骤A2、对查询音频段(检索目标)提取MFCC参数:按步骤A1所述的帧长、帧移,对查询音频段的音频信号进行特征提取,获得特征信息;所获得的特征信息为一帧,用一个12×n的矩阵表示,n为整数,n≥4;
步骤A3、分类:将步骤A1中的所述若干个帧分为32类;按每帧的前X列的元素分类,X可取3~4;
步骤A4、按步骤A3中划分的类别对所述查询音频段进行归类;
所述检索阶段的检索过程为:查看查询音频段的类别、粗检索和精检索;
查看查询音频段的类别:
步骤B1、开始检索,取新的一帧,所述帧为待查询的音频库中的帧;
步骤B2、判断步骤B1中所述帧是否到帧尾;如果是,结束此次查看查询音频段的类别的过程;否则,执行步骤B3;
步骤B3、判断类别是否匹配;判断查询音频段所对应的帧与待查询的音频库中的当前帧的类别是否匹配;
如果是,执行步骤B4;否则,执行步骤B1;
粗检索:
步骤B4、取特征参数中的一个新元素:取待查询的音频库中匹配帧中的一个新元素;
步骤B5、计算待查询的音频库中匹配帧中的一个新元素与查询音频段对应元素的距离;
步骤B6、判断步骤B5中所得距离是否大于门限;如果是,执行步骤B1;否则,执行步骤B7;
步骤B7、计算待查询的音频库中匹配帧中下一个特征参数元素的距离;
步骤B8、判断是否取到的是最后一个元素;所述最后一个元素是指所述帧的前Y列的最后一个元素,Y可取2~8;如果是,执行步骤B9;否则,执行步骤B4;
步骤B9、记录下该帧的位置,存入位置数组中;
精检索:
步骤B10、取位置数组中新的一帧;
步骤B11、判断步骤B10中所述帧是否到帧尾;如果是,结束此次检索;否则,执行步骤B12;
步骤B12、计算与查询音频段特征矩阵的距离;所述距离是指查询音频段特征矩阵与所对比的特征矩阵的各个对应元素差的平方和。
步骤B13、判断是否大于门限;如果是,执行步骤B10;否则,执行步骤B14;
步骤B14、找到目标;然后再执行步骤B10,直到结束此次检索。
提取特征参数,如图5所示,一般来说音频信号的特征是按帧提取的,即截取一定时间长度的信号当作一帧,计算其特征参数,再平移一定距离(称为帧移),继续截取下一帧,以此类推。
本方案采用具有很强鲁棒性的MFCC(Mel Frequency CepstralCoefficient)参数为特征,由于这个特点,使得在提取特征的时候,可以跳跃较大地提取,也就是说帧移可以取得较大,这样可以减少后期检索时所需计算的数据量。在本实验中,采用24个Mel滤波器组和DCT变换得到的12阶MFCC。帧长可为2.5s,帧移可为0.25s。
对所得到的MFCC利用VQ(Vector Quantization矢量量化)进行分类,本方案采用的方法是将之前提取的MFCC参数,每36个一组进行VQ(如果取12阶MFCC的前三列即为36元素),目的还是提高抗干扰性,VQ码本选择为32(即在步骤A
Figure A20091007216100101
中所述的32类)。
在检索阶段,本方案的优势也就是极大地提高了此阶段的速度。在检索阶段,首先根据查询音频段的类别,只在特征库中寻找相应类别的特征即可,其他类别的不予查找。然后,在该类别下逐个比较每一帧特征参数中的每个元素(以前没有人这么做,以前的方法是将特征参数整个进行匹配),如差值大于一个预先设定的门限,即删除该帧,继续判断下一帧。最后,根据保留下来的帧的位置,逐一计算与查询音频段参数的距离(距离越小代表相似度越大),当小于某一给定门限,则判断为目标。
关于MFCC参数:
美尔频标倒谱系数(MFCC)考虑了人耳的听觉特性,将频谱转化为基于Mel频标的非线性频谱,然后转换到倒谱域上。由于充分考虑了人的听觉特性,而且没有任何前提假设,MFCC参数具有良好的识别性能和抗噪能力。
MFCC是采用滤波器组的方法计算出来的,这组滤波器在频率的美尔坐标上是等带宽的。这是因为人类在对约1000Hz以上的声音频率范围的感知不遵循线性关系,而是遵循在对数频率坐标上的近似线性关系。根据声学测量结果可给出Mel频率映射函数:
mel = 2595 × log ( 1 + f 700 )
f为普通频率,mel为美尔坐标频率;
其计算过程如图7所示;
1.原始语音信号进过加窗分帧后,得到每个语音帧的时域信号
2.将时域信号后补若干个零以形成长为N的序列,然后经过DFT后得到线性频谱,转换公式为
X ( k ) = Σ n = 0 N - 1 x ( n ) e - j 2 πnk / N , ( 0 ≤ n , k ≤ N - 1 )
在实际应用中,常常通过FFT过程加以计算,其中N一般称之为DFT(或FFT)窗宽。
3.将上述线性频谱通过Mel频率滤波器组得到Mel频谱,并通过对数能量的处理,得到对数频谱。
4.将上述对数频谱经过离散余弦变换(DCT)变换到倒谱频谱域,即可得到Mel频率倒谱系数(MFCC参数),一般系数取12-16个左右,MFCC系数为
C n = Σ k = 1 M log x ( k ) cos [ π ( k - 0.5 ) n / M ] , n = 1,2 , . . . , L
5.将这种直接得到的MFCC系数作为静态特征,再将这种静态特征做一阶和二阶差分,得到相应的动态特征。
该美尔倒谱系数受到滤波器组中滤波器个数、形状、分布及能量谱等各因素的影响。
由于考虑到鲁棒性,本方案中MFCC只取静态特征,不取动态特征。
具体实施方式二:如图1~5所示,本实施方式在步骤A1中,特征提取时,帧长为2.5s,帧移为0.25s,这样可在保证检索精度的同时提高检索速度。其它步骤与具体实施方式一相同。
具体实施方式三:如图1~5所示,本实施方式所述在步骤A1中,a取12。在本方法中,采用24个Mel滤波器组和DCT变换得到的12阶MFCC。其它步骤与具体实施方式一相同。
具体实施方式四:如图1~5所示,本实施方式在步骤B8中,所述最后一个元素是指所述帧的前4列的最后一个元素。粗检索取前4列矩阵的原因是,如果列数过多可能会使检索速度降低并增大漏检概率,如果列数过少会导致不能有效筛选。其它步骤与具体实施方式一相同。

Claims (4)

1、一种快速音频检索的方法,所述方法经过预处理阶段后进入检索阶段,其特征在于:
所述预处理阶段的过程为:
步骤A1、对音频库提取MFCC参数:对待查询的音频库的音频信号进行特征提取,获得特征信息;所获得的特征信息用a×m的矩阵表示,a为大于6且小于等于30的整数;m、n均为整数,m>>n,n≥4;特征提取时,帧长为2~3s,帧移为0.2~0.3s;
按所述的帧长、帧移,将所述a×m的矩阵分成若干个a×n的矩阵,每个矩阵为一帧;n为整数,n≥4;
步骤A2、对查询音频段提取MFCC参数:按步骤A1所述的帧长、帧移,对查询音频段的音频信号进行特征提取,获得特征信息;所获得的特征信息为一帧,用一个12×n的矩阵表示,n为整数,n≥4;
步骤A3、分类:将步骤A1中的所述若干个帧分为32类;按每帧的前X列的元素分类,X可取3~4;
步骤A4、按步骤A3中划分的类别对所述查询音频段进行归类;
所述检索阶段的检索过程为:查看查询音频段的类别、粗检索和精检索;
查看查询音频段的类别:
步骤B1、开始检索,取新的一帧,所述帧为待查询的音频库中的帧;
步骤B2、判断步骤B1中所述帧是否到帧尾;如果是,结束此次查看查询音频段的类别的过程;否则,执行步骤B3;
步骤B3、判断类别是否匹配;判断查询音频段所对应的帧与待查询的音频库中的当前帧的类别是否匹配;
如果是,执行步骤B4;否则,执行步骤B1;
粗检索:
步骤B4、取特征参数中的一个新元素:取待查询的音频库中匹配帧中的一个新元素;
步骤B5、计算待查询的音频库中匹配帧中的一个新元素与查询音频段对应元素的距离;
步骤B6、判断步骤B5中所得距离是否大于门限;如果是,执行步骤B1;否则,执行步骤B7;
步骤B7、计算待查询的音频库中匹配帧中下一个特征参数元素的距离;
步骤B8、判断是否取到的是最后一个元素;所述最后一个元素是指所述帧的前Y列的最后一个元素,Y可取2~8;如果是,执行步骤B9;否则,执行步骤B4;
步骤B9、记录下该帧的位置,存入位置数组中;
精检索:
步骤B10、取位置数组中新的一帧;
步骤B11、判断步骤B10中所述帧是否到帧尾;如果是,结束此次检索;否则,执行步骤B12;
步骤B12、计算与查询音频段特征矩阵的距离;所述距离是指查询音频段特征矩阵与所对比的特征矩阵的各个对应元素差的平方和。
步骤B13、判断是否大于门限;如果是,执行步骤B10;否则,执行步骤B14;
步骤B14、找到目标;然后再执行步骤B10,直到结束此次检索。
2、根据权利要求1所述的一种快速音频检索的方法,其特征在于:在步骤A1中,特征提取时,帧长为2.5s,帧移为0.25s。
3、根据权利要求1所述的一种快速音频检索的方法,其特征在于:在步骤A1中,a取12。
4、根据权利要求1所述的一种快速音频检索的方法,其特征在于:在步骤B8中,所述最后一个元素是指所述帧的前4列的最后一个元素。
CN200910072161.0A 2009-06-02 2009-06-02 一种快速音频检索的方法 Expired - Fee Related CN101566999B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910072161.0A CN101566999B (zh) 2009-06-02 2009-06-02 一种快速音频检索的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910072161.0A CN101566999B (zh) 2009-06-02 2009-06-02 一种快速音频检索的方法

Publications (2)

Publication Number Publication Date
CN101566999A true CN101566999A (zh) 2009-10-28
CN101566999B CN101566999B (zh) 2010-11-17

Family

ID=41283152

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910072161.0A Expired - Fee Related CN101566999B (zh) 2009-06-02 2009-06-02 一种快速音频检索的方法

Country Status (1)

Country Link
CN (1) CN101566999B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033927A (zh) * 2010-12-15 2011-04-27 哈尔滨工业大学 一种基于gpu实现的快速音频检索方法
CN102253993A (zh) * 2011-07-08 2011-11-23 北京航空航天大学 一种基于词汇树的音频片段检索算法
CN102375834A (zh) * 2010-08-17 2012-03-14 腾讯科技(深圳)有限公司 音频文件检索方法、***和音频文件类型识别方法、***
CN104239372A (zh) * 2013-06-24 2014-12-24 浙江大华技术股份有限公司 一种音频数据分类方法及装置
CN105893549A (zh) * 2016-03-31 2016-08-24 中国人民解放军信息工程大学 音频检索方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9706174D0 (en) * 1997-03-25 1997-11-19 Secr Defence Recognition system
CN100461179C (zh) * 2006-10-11 2009-02-11 北京新岸线网络技术有限公司 基于内容的音频分析***
CN101398825B (zh) * 2007-09-29 2013-07-03 三星电子株式会社 用于快速音乐分类和检索的方法和设备
CN101226558B (zh) * 2008-01-29 2011-08-31 福州大学 一种基于mfccm的音频数据检索方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102375834A (zh) * 2010-08-17 2012-03-14 腾讯科技(深圳)有限公司 音频文件检索方法、***和音频文件类型识别方法、***
CN102375834B (zh) * 2010-08-17 2016-01-20 腾讯科技(深圳)有限公司 音频文件检索方法、***和音频文件类型识别方法、***
CN102033927A (zh) * 2010-12-15 2011-04-27 哈尔滨工业大学 一种基于gpu实现的快速音频检索方法
CN102033927B (zh) * 2010-12-15 2012-09-05 哈尔滨工业大学 一种基于gpu实现的快速音频检索方法
CN102253993A (zh) * 2011-07-08 2011-11-23 北京航空航天大学 一种基于词汇树的音频片段检索算法
CN102253993B (zh) * 2011-07-08 2013-08-21 北京航空航天大学 一种基于词汇树的音频片段检索算法
CN104239372A (zh) * 2013-06-24 2014-12-24 浙江大华技术股份有限公司 一种音频数据分类方法及装置
CN104239372B (zh) * 2013-06-24 2017-09-12 浙江大华技术股份有限公司 一种音频数据分类方法及装置
CN105893549A (zh) * 2016-03-31 2016-08-24 中国人民解放军信息工程大学 音频检索方法及装置
CN105893549B (zh) * 2016-03-31 2019-11-19 中国人民解放军信息工程大学 音频检索方法及装置

Also Published As

Publication number Publication date
CN101566999B (zh) 2010-11-17

Similar Documents

Publication Publication Date Title
CN100461179C (zh) 基于内容的音频分析***
CN103093761B (zh) 音频指纹检索方法及装置
CN101477798B (zh) 一种分析和提取设定场景的音频数据的方法
CN112257521B (zh) 基于数据增强和时频分离的cnn水声信号目标识别方法
CN101566999B (zh) 一种快速音频检索的方法
CN106802960B (zh) 一种基于音频指纹的分片音频检索方法
Xie et al. Algorithm of abnormal audio recognition based on improved MFCC
CN112035696B (zh) 一种基于音频指纹的语音检索方法及***
CN101833986A (zh) 一种三级音频索引的创建方法及音频检索方法
US8108452B2 (en) Keyword based audio comparison
Zhang et al. An efficient perceptual hashing based on improved spectral entropy for speech authentication
Anguera Information retrieval-based dynamic time warping.
CN103854661A (zh) 一种提取音乐特征的方法及装置
CN107293306A (zh) 一种基于输出的客观语音质量的评估方法
CN111583957B (zh) 基于五音阶乐律声谱图和级联神经网络的戏曲分类方法
CN101594527B (zh) 从音频视频流中高精度检测模板的两阶段方法
CN110767248B (zh) 一种抗变调干扰的音频指纹提取方法
CN115510909A (zh) 一种dbscan进行异常声音特征的无监督算法
CN114295195A (zh) 基于特征提取的光纤传感振动信号的异常判断方法和***
Pan et al. The implementation of speech recognition systems on FPGA-based embedded systems with SoC architecture
Jiang et al. Birdsong recognition based on improved dtw
Zhang et al. Audio Fingerprint Retrieval Method Based on Feature Dimension Reduction and Feature Combination.
CN116840743A (zh) 电力变压器故障处理方法、装置、电子设备及存储介质
Nagavi et al. Content based audio retrieval with MFCC feature extraction, clustering and sort-merge techniques
Syu et al. FPGA implementation of automatic speech recognition system in a car environment

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Assignee: Shenzhen Microlab Electronics Co., Ltd.

Assignor: Harbin Institute of Technology

Contract record no.: 2011440000273

Denomination of invention: A quick audio retrieval method

Granted publication date: 20101117

License type: Exclusive License

Open date: 20091028

Record date: 20110401

C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20101117

Termination date: 20120602