CN102623007A - 基于可变时长的音频特征分类方法 - Google Patents
基于可变时长的音频特征分类方法 Download PDFInfo
- Publication number
- CN102623007A CN102623007A CN2011100334102A CN201110033410A CN102623007A CN 102623007 A CN102623007 A CN 102623007A CN 2011100334102 A CN2011100334102 A CN 2011100334102A CN 201110033410 A CN201110033410 A CN 201110033410A CN 102623007 A CN102623007 A CN 102623007A
- Authority
- CN
- China
- Prior art keywords
- vector
- short
- time characteristic
- training sequence
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了多媒体信号处理和模式识别技术领域中的一种基于可变时长的音频特征分类方法。包括将确定类型并经过标注的音频序列作为训练序列;提取训练序列中的音频信号的短时特征构成短时特征向量;计算各个短时特征在设定时长内的统计参量,进而得到短时特征向量对应的统计特征向量;计算得到短时特征向量对应的一组统计特征向量,由该组统计特征向量构成训练序列的长时特征向量;利用训练序列的长时特征向量训练分类器;提取测试序列中第i帧的音频信号的短时特征并计算测试序列的第i帧的输入长时特征向量;将第i帧的输入长时特征向量送入训练后的分类器中,得到分类类型。本发明避免提取长时特征导致的延时问题,实现了音频特征的实时分类。
Description
技术领域
本发明属于多媒体信号处理和模式识别技术领域,尤其涉及一种基于可变时长的音频特征分类方法。
背景技术
随着通信技术的不断发展,数字音频处理在移动通信、互联网、广播以及个人电子等多个领域得到了广泛的应用。以音频编解码技术来看,其已经从传统的以窄带话音为主的语音编码,逐渐扩展到带宽扩展质量更高的多媒体音频编码,3G、LTE的兴起也进一步对新一代音频编解码技术在对信道的适应性、传输的可靠性以及编解码质量等方面有了更高的要求。而无论是音频编解码,或是音效编辑制作,音频信号本身所具有的多样性,使得对不同类型的音频信号可能需要选择不同的处理技术。如ITU-T的G.718和G.729.1,就对音频信号分成了语音和音乐两种编码模式,而在之后的G.718-SWB中又添加了对含正弦特性的音频信号的编码模式。由此可以看出,在某些应用场景中,需要先对音频信号进行简单而高效的分类,获知所属类型。
分类时,提取音频信号的短时特征和长时特征。由于音频信号的短时平稳性,通常相比短时特征,长时特征的稳定性和可区分性更好,但缺点是检测延时大,对实时分类***上的应用有一定局限性。此外,不同特征表现出来的平稳周期可能不一致,若对这些特征都取定同一时长下计算对应的长时特征可能并非最优。
发明内容
本发明的目的在于,针对常用的音频特征分类方法主要采用提取长时特征的技术方案影响实时效果的问题,提出一种基于可变时长的音频特征分类方法,通过提取同一短时特征在不同时长下的同一统计参量构成的可变时长长时特征来训练分类器,并利用训练好的分类器进行音频特征分类。
本发明的技术方案是,一种基于可变时长的音频特征分类方法,其特征是所述方法包括下列步骤:
步骤1:将确定类型并经过标注的音频序列作为训练序列;
步骤3:计算各个短时特征Fk在设定时长内,当前帧和之前的(n-1)帧的短时特征的统计参量,n为设定时长内的总帧数;每个短时特征Fk对应一组由该短时特征的统计参量构成的统计特征向量,进而短时特征向量对应一个统计特征向量,其中;1≤k≤K;
步骤4:选取P个值,N1,N2,...,NP满足N1<N2<...<NP,令n分别等于N1,N2,...,NP,按照步骤3计算得到短时特征向量对应的一组统计特征向量,由该组统计特征向量构成训练序列的长时特征向量:
所述短时特征包括对数能量、过零率和均匀子带能量分布。
所述当前帧和之前的(n-1)帧的短时特征的统计参量包括当前帧和之前的(n-1)帧的短时特征最大值MaxFk(n)、最小值MinFk(n)、算术平均AvgFk(n)或方差VarFk(n)中的一个或多个。
所述单个分类器为基于正态分布的独立特征分类器。
本发明通过提取同一短时特征在不同时长下的同一统计参量构成的可变时长长时特征训练分类器,并利用训练好的分类器进行音频特征分类,避免提取长时特征导致的延时问题,实现了音频特征的实时分类。
附图说明
图1是基于可变时长的音频特征分类方法流程图;
图2是利用训练序列的长时特征向量训练单个分类器的示意图;
图3是利用训练序列的长时特征向量的有效特征构成的有效长时特征向量训练单个分类器的示意图;
图4是利用训练序列的长时特征向量的分向量各自分别训练同类型的单个分类器后并联构成分类器组示意图;
图5是训练样本库信息表;
图6是测试样本库信息表;
图7是分类器性能对比表。
具体实施方式
下面结合附图,对优选实施例作详细说明。应该强调的是,下述说明仅仅是示例性的,而不是为了限制本发明的范围及其应用。
本发明以32kHz采样率下的语音/音乐信号分类为例进行说明。对其他类型的音频信号分类,本发明仍然适用。
图1是基于可变时长的音频特征分类方法流程图。图1中,基于可变时长的音频特征分类方法包括下列步骤:
步骤1:将确定类型并经过标注的音频序列作为训练序列。
步骤2:提取训练序列中的音频信号的短时特征F1,F2,...,FK,构成短时特征向量,K是短时特征向量的分量个数。
本实施例中音频信号按每40ms一帧,计算的短时特征包括对数能量、过零率和均匀子带能量分布。在本发明中,短时特征包括但不限于对数能量、过零率和均匀子带能量分布。
设第i帧的音频信号样点为x(n),n=(i-1)L,(i-1)L+1,L,i·L-1,L是帧长,各个短时特征的计算公式如下:
A、对数能量
E2(i)=max(log[E1(i)],-10)
B、过零率
其中,sign(x)是符号函数, ;
C、均匀子带能量分布
其中,X(i,m)是第i帧音频信号做FFT变换后的幅度谱。
根据实序列FFT的性质可知,X(i,m)关于m=L/2+1偶对称,故可以只保留前(L/2+1)个值。K为均匀子带数,本实施例中令K=16。
本实施例提取音频特征时,第i帧的短时特征向量
其向量维度为18。E2(i)、ZCR(i)、SubE(i,1),...,SubE(i,16)即分别为第i帧的短时特征向量F1,F2,...,F18。
步骤3:计算各个短时特征Fk在设定时长内,当前帧和之前的(n-1)帧的短时特征的统计参量,n为设定时长内的总帧数;每个短时特征Fk对应一组由该短时特征的统计参量构成的统计特征向量,进而短时特征向量对应一个统计特征向量,其中;1≤k≤K。
当前帧和之前的(n-1)帧的短时特征的统计参量包括当前帧和之前的(n-1)帧的短时特征最大值MaxFk(n)、最小值MinFk(n)、算术平均AvgFk(n)或方差VarFk(n)中的一个或多个。在本实施例中,选择最大值和方差作为统计参量,则每个短时特征Fk对应一组由该短时特征的统计参量构成的统计特征向量 。由于本实施例第2步骤计算后,有18个短时特征,每个短时特征对应的由该短时特征的统计参量构成的统计特征向量有2个,则短时特征向量对应的一个统计特征向量的维度为36维。
步骤4:选取P个值,N1,N2,...,NP满足N1<N2<...NP,令n分别等于N1,N2,...,NP,按照步骤3计算得到短时特征向量对应的一组统计特征向量,由该组统计特征向量构成训练序列的长时特征向量
在本实施例中,取P=3,N1=5,N2=15,N3=25,得到第i帧的3个短时特征向量对应一组统计特征向量,它们的向量维度都是36维。进而,由该组统计特征向量构成训练序列的长时特征向量,其向量维度是108维。
图2是利用训练序列的长时特征向量训练单个分类器的示意图。图2中,利用训练序列的长时特征向量训练分类器可以利用训练序列的长时特征向量直接训练单个分类器。
图3是利用训练序列的长时特征向量的有效特征构成的有效长时特征向量训练单个分类器的示意图。图3中,利用训练序列的长时特征向量训练分类器也可以使用前向特征选择法,在训练序列的长时特征向量中选择有效特征构成有效长时特征向量,并利用有效长时特征向量训练单个分类器。
图4是利用训练序列的长时特征向量的分向量各自分别训练同类型的单个分类器后并联构成的分类器组示意图。图4中,利用训练序列的长时特征向量训练分类器还可以利用训练序列的长时特征向量的分向量 各自分别训练同类型的单个分类器后并联构成的分类器组。
在本实施例中,单个分类器选择基于正态分布的独立特征分类器,对于其他的分类器,本发明仍然适用。训练分类器时,使用如图3和图4所示的方法训练分类器。即使用前向特征选择法,在训练序列的长时特征向量的108维特征中,选择36维有效特征构成有效长时特征向量,并利用有效长时特征向量训练单个分类器。同时,分别以为分类特征向量,独立训练相同类型的分类器。
本实施例中的训练样本库和测试样本库均由语音序列和音乐序列组成,两个数据库之间相互独立。图5是训练样本库信息表,图6是测试样本库信息表。在如上所述的测试样本库上测试,对比分类器性能结果如图7所示。由图7中测试结果对比可以看出:长时特征的时长越大,分类正确率越高,但同时检测到类型变换的延时也越大;相比之下,根据本发明训练得到的分类器,在音频类型的分类准确性和检测类型改变的及时性两方面,有更优的性能表现,更适合实时音乐/语音分类的***。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (8)
1.一种基于可变时长的音频特征分类方法,其特征是所述方法包括下列步骤:
步骤1:将确定类型并经过标注的音频序列作为训练序列;
步骤3:计算各个短时特征Fk在设定时长内,当前帧和之前的(n-1)帧的短时特征的统计参量,n为设定时长内的总帧数;每个短时特征Fk对应一组由该短时特征的统计参量构成的统计特征向量,进而短时特征向量对应一个统计特征向量,其中;1≤k≤K;
步骤4:选取P个值,N1,N2,...,NP满足N1<N2<...<NP,令n分别等于N1,N2,...,NP,按照步骤3计算得到短时特征向量对应的一组统计特征向量,由该组统计特征向量构成训练序列的长时特征向量;
2.根据权利要求1所述的一种基于可变时长的音频特征分类方法,其特征是所述短时特征包括对数能量、过零率和均匀子带能量分布。
3.根据权利要求1所述的一种基于可变时长的音频特征分类方法,其特征是所述当前帧和之前的(n-1)帧的短时特征的统计参量包括当前帧和之前的(n-1)帧的短时特征最大值MaxFk(n)、最小值MinFk(n)、算术平均AvgFk(n)或方差VarFk(n)中的一个或多个。
7.根据权利要求4-6中任意一项权利要求所述的一种基于可变时长的音频特征分类方法,其特征是所述单个分类器为基于正态分布的独立特征分类器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110033410.2A CN102623007B (zh) | 2011-01-30 | 2011-01-30 | 基于可变时长的音频特征分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110033410.2A CN102623007B (zh) | 2011-01-30 | 2011-01-30 | 基于可变时长的音频特征分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102623007A true CN102623007A (zh) | 2012-08-01 |
CN102623007B CN102623007B (zh) | 2014-01-01 |
Family
ID=46562887
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110033410.2A Expired - Fee Related CN102623007B (zh) | 2011-01-30 | 2011-01-30 | 基于可变时长的音频特征分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102623007B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102968986A (zh) * | 2012-11-07 | 2013-03-13 | 华南理工大学 | 基于长时特征和短时特征的重叠语音与单人语音区分方法 |
CN105654944A (zh) * | 2015-12-30 | 2016-06-08 | 中国科学院自动化研究所 | 一种融合了短时与长时特征建模的环境声识别方法及装置 |
CN106328152A (zh) * | 2015-06-30 | 2017-01-11 | 芋头科技(杭州)有限公司 | 一种室内噪声污染自动识别监测*** |
CN108305616A (zh) * | 2018-01-16 | 2018-07-20 | 国家计算机网络与信息安全管理中心 | 一种基于长短时特征提取的音频场景识别方法及装置 |
CN110249320A (zh) * | 2017-04-28 | 2019-09-17 | 惠普发展公司有限责任合伙企业 | 利用使用音频持续时间的机器学习模型进行的音频分类 |
CN113780180A (zh) * | 2021-09-13 | 2021-12-10 | 江苏环雅丽书智能科技有限公司 | 一种音频长时指纹提取及匹配方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101067930A (zh) * | 2007-06-07 | 2007-11-07 | 深圳先进技术研究院 | 一种智能音频辨识***及辨识方法 |
CN101236742A (zh) * | 2008-03-03 | 2008-08-06 | 中兴通讯股份有限公司 | 音乐/非音乐的实时检测方法和装置 |
CN101364408A (zh) * | 2008-10-07 | 2009-02-11 | 西安成峰科技有限公司 | 一种声像联合的监控方法及*** |
CN101398825A (zh) * | 2007-09-29 | 2009-04-01 | 三星电子株式会社 | 用于快速音乐分类和检索的方法和设备 |
-
2011
- 2011-01-30 CN CN201110033410.2A patent/CN102623007B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101067930A (zh) * | 2007-06-07 | 2007-11-07 | 深圳先进技术研究院 | 一种智能音频辨识***及辨识方法 |
CN101398825A (zh) * | 2007-09-29 | 2009-04-01 | 三星电子株式会社 | 用于快速音乐分类和检索的方法和设备 |
CN101236742A (zh) * | 2008-03-03 | 2008-08-06 | 中兴通讯股份有限公司 | 音乐/非音乐的实时检测方法和装置 |
CN101364408A (zh) * | 2008-10-07 | 2009-02-11 | 西安成峰科技有限公司 | 一种声像联合的监控方法及*** |
Non-Patent Citations (1)
Title |
---|
CYRIL JODER等: "Temporal Integration for Audio Classification With Application to Musical Instrument Classification", 《IEEE TRANSACTIONS ON AUDIO,SPEECH,AND LANGUAGE PROCESSING》, vol. 17, no. 1, 31 January 2009 (2009-01-31), pages 174 - 186, XP011241211, DOI: doi:10.1109/TASL.2008.2007613 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102968986A (zh) * | 2012-11-07 | 2013-03-13 | 华南理工大学 | 基于长时特征和短时特征的重叠语音与单人语音区分方法 |
CN102968986B (zh) * | 2012-11-07 | 2015-01-28 | 华南理工大学 | 基于长时特征和短时特征的重叠语音与单人语音区分方法 |
CN106328152A (zh) * | 2015-06-30 | 2017-01-11 | 芋头科技(杭州)有限公司 | 一种室内噪声污染自动识别监测*** |
CN105654944A (zh) * | 2015-12-30 | 2016-06-08 | 中国科学院自动化研究所 | 一种融合了短时与长时特征建模的环境声识别方法及装置 |
CN105654944B (zh) * | 2015-12-30 | 2019-11-01 | 中国科学院自动化研究所 | 一种融合了短时与长时特征建模的环境声识别方法及装置 |
CN110249320A (zh) * | 2017-04-28 | 2019-09-17 | 惠普发展公司有限责任合伙企业 | 利用使用音频持续时间的机器学习模型进行的音频分类 |
CN108305616A (zh) * | 2018-01-16 | 2018-07-20 | 国家计算机网络与信息安全管理中心 | 一种基于长短时特征提取的音频场景识别方法及装置 |
CN113780180A (zh) * | 2021-09-13 | 2021-12-10 | 江苏环雅丽书智能科技有限公司 | 一种音频长时指纹提取及匹配方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102623007B (zh) | 2014-01-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102623007B (zh) | 基于可变时长的音频特征分类方法 | |
CN101599271B (zh) | 一种数字音乐情感的识别方法 | |
CN101527141B (zh) | 基于径向基神经网络的耳语音转换为正常语音的方法 | |
CN102272832B (zh) | 基于峰值检测的选择性缩放掩码计算 | |
CN106297770A (zh) | 基于时频域统计特征提取的自然环境声音识别方法 | |
CN103854646A (zh) | 一种实现数字音频自动分类的方法 | |
CN101159834A (zh) | 一种重复性视频音频节目片段的检测方法和*** | |
CN102446504A (zh) | 语音/音乐识别方法及装置 | |
CN101221766B (zh) | 音频编码器切换的方法 | |
CN103308919A (zh) | 一种基于小波包多尺度信息熵的鱼类识别方法及*** | |
Lu et al. | Self-supervised audio spatialization with correspondence classifier | |
CN107293306A (zh) | 一种基于输出的客观语音质量的评估方法 | |
CN104732970A (zh) | 一种基于综合特征的舰船辐射噪声识别方法 | |
CN108615536A (zh) | 基于麦克风阵列的时频联合特征乐器音质评价***及方法 | |
Taenzer et al. | Investigating CNN-based Instrument Family Recognition for Western Classical Music Recordings. | |
CN117095694A (zh) | 一种基于标签层级结构属性关系的鸟类鸣声识别方法 | |
CN102214219B (zh) | 音视频内容检索***及其方法 | |
Zeinali et al. | Acoustic scene classification using fusion of attentive convolutional neural networks for DCASE2019 challenge | |
Valero et al. | Narrow-band autocorrelation function features for the automatic recognition of acoustic environments | |
Frid et al. | Acoustic-phonetic analysis of fricatives for classification using SVM based algorithm | |
CN103295573B (zh) | 基于费舍比率最优小波包分解的语音情感特征提取方法 | |
CN101814289A (zh) | 低码率dra数字音频多声道编码方法及其*** | |
Liu et al. | A linguistic data acquisition front-end for language recognition evaluation. | |
CN104536007A (zh) | 一种基于多视角声学数据的鱼类识别方法 | |
CN103323853A (zh) | 一种基于小波包和双谱的鱼类识别方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20140101 Termination date: 20180130 |
|
CF01 | Termination of patent right due to non-payment of annual fee |