CN102623007A - 基于可变时长的音频特征分类方法 - Google Patents

基于可变时长的音频特征分类方法 Download PDF

Info

Publication number
CN102623007A
CN102623007A CN2011100334102A CN201110033410A CN102623007A CN 102623007 A CN102623007 A CN 102623007A CN 2011100334102 A CN2011100334102 A CN 2011100334102A CN 201110033410 A CN201110033410 A CN 201110033410A CN 102623007 A CN102623007 A CN 102623007A
Authority
CN
China
Prior art keywords
vector
short
time characteristic
training sequence
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011100334102A
Other languages
English (en)
Other versions
CN102623007B (zh
Inventor
卢敏
窦维蓓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201110033410.2A priority Critical patent/CN102623007B/zh
Publication of CN102623007A publication Critical patent/CN102623007A/zh
Application granted granted Critical
Publication of CN102623007B publication Critical patent/CN102623007B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了多媒体信号处理和模式识别技术领域中的一种基于可变时长的音频特征分类方法。包括将确定类型并经过标注的音频序列作为训练序列;提取训练序列中的音频信号的短时特征构成短时特征向量;计算各个短时特征在设定时长内的统计参量,进而得到短时特征向量对应的统计特征向量;计算得到短时特征向量对应的一组统计特征向量,由该组统计特征向量构成训练序列的长时特征向量;利用训练序列的长时特征向量训练分类器;提取测试序列中第i帧的音频信号的短时特征并计算测试序列的第i帧的输入长时特征向量;将第i帧的输入长时特征向量送入训练后的分类器中,得到分类类型。本发明避免提取长时特征导致的延时问题,实现了音频特征的实时分类。

Description

基于可变时长的音频特征分类方法
技术领域
本发明属于多媒体信号处理和模式识别技术领域,尤其涉及一种基于可变时长的音频特征分类方法。
背景技术
随着通信技术的不断发展,数字音频处理在移动通信、互联网、广播以及个人电子等多个领域得到了广泛的应用。以音频编解码技术来看,其已经从传统的以窄带话音为主的语音编码,逐渐扩展到带宽扩展质量更高的多媒体音频编码,3G、LTE的兴起也进一步对新一代音频编解码技术在对信道的适应性、传输的可靠性以及编解码质量等方面有了更高的要求。而无论是音频编解码,或是音效编辑制作,音频信号本身所具有的多样性,使得对不同类型的音频信号可能需要选择不同的处理技术。如ITU-T的G.718和G.729.1,就对音频信号分成了语音和音乐两种编码模式,而在之后的G.718-SWB中又添加了对含正弦特性的音频信号的编码模式。由此可以看出,在某些应用场景中,需要先对音频信号进行简单而高效的分类,获知所属类型。
分类时,提取音频信号的短时特征和长时特征。由于音频信号的短时平稳性,通常相比短时特征,长时特征的稳定性和可区分性更好,但缺点是检测延时大,对实时分类***上的应用有一定局限性。此外,不同特征表现出来的平稳周期可能不一致,若对这些特征都取定同一时长下计算对应的长时特征可能并非最优。
发明内容
本发明的目的在于,针对常用的音频特征分类方法主要采用提取长时特征的技术方案影响实时效果的问题,提出一种基于可变时长的音频特征分类方法,通过提取同一短时特征在不同时长下的同一统计参量构成的可变时长长时特征来训练分类器,并利用训练好的分类器进行音频特征分类。
本发明的技术方案是,一种基于可变时长的音频特征分类方法,其特征是所述方法包括下列步骤:
步骤1:将确定类型并经过标注的音频序列作为训练序列;
步骤2:提取训练序列中的音频信号的短时特征F1,F2,...,FK,构成短时特征向量
Figure BDA0000046240470000021
,K是短时特征向量的分量个数;
步骤3:计算各个短时特征Fk在设定时长内,当前帧和之前的(n-1)帧的短时特征的统计参量,n为设定时长内的总帧数;每个短时特征Fk对应一组由该短时特征的统计参量构成的统计特征向量
Figure BDA0000046240470000022
,进而短时特征向量
Figure BDA0000046240470000023
对应一个统计特征向量
Figure BDA0000046240470000024
,其中
Figure BDA0000046240470000025
;1≤k≤K;
步骤4:选取P个值,N1,N2,...,NP满足N1<N2<...<NP,令n分别等于N1,N2,...,NP,按照步骤3计算得到短时特征向量
Figure BDA0000046240470000026
对应的一组统计特征向量
Figure BDA0000046240470000027
,由该组统计特征向量构成训练序列的长时特征向量:
Figure BDA0000046240470000028
步骤5:利用训练序列的长时特征向量
Figure BDA0000046240470000031
训练分类器;
步骤6:提取测试序列中的音频信号的短时特征,并按照步骤2和步骤3的方法计算测试序列的第i帧的统计特征向量
Figure BDA0000046240470000032
以及测试序列的;
Figure BDA0000046240470000033
Figure BDA0000046240470000034
步骤7:根据测试序列的第i帧的统计特征向量
Figure BDA0000046240470000035
以及测试序列的
Figure BDA0000046240470000036
Figure BDA0000046240470000037
,计算测试序列的第i帧的输入长时特征向量;
Figure BDA0000046240470000038
步骤8:将第i帧的输入长时特征向量
Figure BDA0000046240470000039
送入步骤5训练后的分类器中,其输出即为第i帧的分类类型。
所述短时特征包括对数能量、过零率和均匀子带能量分布。
所述当前帧和之前的(n-1)帧的短时特征的统计参量包括当前帧和之前的(n-1)帧的短时特征最大值MaxFk(n)、最小值MinFk(n)、算术平均AvgFk(n)或方差VarFk(n)中的一个或多个。
所述利用训练序列的长时特征向量
Figure BDA00000462404700000310
训练分类器具体是利用训练序列的长时特征向量
Figure BDA00000462404700000311
训练单个分类器。
所述利用训练序列的长时特征向量
Figure BDA00000462404700000312
训练分类器具体是使用前向特征选择法,在训练序列的长时特征向量
Figure BDA00000462404700000313
中选择有效特征构成有效长时特征向量
Figure BDA00000462404700000314
,并利用有效长时特征向量
Figure BDA00000462404700000315
训练单个分类器。
所述利用训练序列的长时特征向量
Figure BDA00000462404700000316
训练分类器具体是利用训练序列的长时特征向量
Figure BDA00000462404700000317
的分向量
Figure BDA00000462404700000318
各自分别训练同类型的单个分类器后并联构成的分类器组。
所述计算测试序列的第i帧的输入长时特征向量
Figure BDA0000046240470000041
具体利用公式
其中,q=1,2,L,P-1,
Figure BDA0000046240470000043
中的
Figure BDA0000046240470000044
共有q个,
Figure BDA0000046240470000045
中的
Figure BDA0000046240470000046
共有P-q个。
所述单个分类器为基于正态分布的独立特征分类器。
本发明通过提取同一短时特征在不同时长下的同一统计参量构成的可变时长长时特征训练分类器,并利用训练好的分类器进行音频特征分类,避免提取长时特征导致的延时问题,实现了音频特征的实时分类。
附图说明
图1是基于可变时长的音频特征分类方法流程图;
图2是利用训练序列的长时特征向量训练单个分类器的示意图;
图3是利用训练序列的长时特征向量的有效特征构成的有效长时特征向量训练单个分类器的示意图;
图4是利用训练序列的长时特征向量的分向量各自分别训练同类型的单个分类器后并联构成分类器组示意图;
图5是训练样本库信息表;
图6是测试样本库信息表;
图7是分类器性能对比表。
具体实施方式
下面结合附图,对优选实施例作详细说明。应该强调的是,下述说明仅仅是示例性的,而不是为了限制本发明的范围及其应用。
本发明以32kHz采样率下的语音/音乐信号分类为例进行说明。对其他类型的音频信号分类,本发明仍然适用。
图1是基于可变时长的音频特征分类方法流程图。图1中,基于可变时长的音频特征分类方法包括下列步骤:
步骤1:将确定类型并经过标注的音频序列作为训练序列。
步骤2:提取训练序列中的音频信号的短时特征F1,F2,...,FK,构成短时特征向量,K是短时特征向量的分量个数。
本实施例中音频信号按每40ms一帧,计算的短时特征包括对数能量、过零率和均匀子带能量分布。在本发明中,短时特征包括但不限于对数能量、过零率和均匀子带能量分布。
设第i帧的音频信号样点为x(n),n=(i-1)L,(i-1)L+1,L,i·L-1,L是帧长,各个短时特征的计算公式如下:
A、对数能量
E 1 ( i ) = Σ n = ( i - 1 ) L i · L - 1 x 2 ( n )
E2(i)=max(log[E1(i)],-10)
B、过零率
ZCR ( i ) = Σ n = ( i - 1 ) L i · L - 1 [ sign ( x ( n ) - x ( n - 1 ) ) + 1 ] / 2
其中,sign(x)是符号函数, sign ( x ) = 1 , x > 0 0 , x = 0 - 1 , x < 0
C、均匀子带能量分布
SubE ( i , k ) = &Sigma; m = ( k - 1 ) L / 2 K kL / 2 K - 1 X ( i , m ) ,k=1,2,L,K
其中,X(i,m)是第i帧音频信号做FFT变换后的幅度谱。
X ( i , m ) = | &Sigma; k = 1 L x ( ( i - 1 ) L + k - 1 ) &CenterDot; exp [ - j &CenterDot; 2 &pi; L ( m - 1 ) ( k - 1 ) ] | ,m=1,2,L,L
根据实序列FFT的性质可知,X(i,m)关于m=L/2+1偶对称,故可以只保留前(L/2+1)个值。K为均匀子带数,本实施例中令K=16。
本实施例提取音频特征时,第i帧的短时特征向量
V r s ( i ) = E 2 ( i ) ZCR ( i ) SubE ( i , 1 ) M SubE ( i , 16 )
其向量维度为18。E2(i)、ZCR(i)、SubE(i,1),...,SubE(i,16)即分别为第i帧的短时特征向量F1,F2,...,F18
步骤3:计算各个短时特征Fk在设定时长内,当前帧和之前的(n-1)帧的短时特征的统计参量,n为设定时长内的总帧数;每个短时特征Fk对应一组由该短时特征的统计参量构成的统计特征向量
Figure BDA0000046240470000064
,进而短时特征向量
Figure BDA0000046240470000065
对应一个统计特征向量
Figure BDA0000046240470000066
,其中
Figure BDA0000046240470000067
;1≤k≤K。
当前帧和之前的(n-1)帧的短时特征的统计参量包括当前帧和之前的(n-1)帧的短时特征最大值MaxFk(n)、最小值MinFk(n)、算术平均AvgFk(n)或方差VarFk(n)中的一个或多个。在本实施例中,选择最大值和方差作为统计参量,则每个短时特征Fk对应一组由该短时特征的统计参量构成的统计特征向量
Figure BDA0000046240470000071
Figure BDA0000046240470000072
。由于本实施例第2步骤计算后,有18个短时特征,每个短时特征对应的由该短时特征的统计参量构成的统计特征向量有2个,则短时特征向量
Figure BDA0000046240470000073
对应的一个统计特征向量
Figure BDA0000046240470000074
的维度为36维。
步骤4:选取P个值,N1,N2,...,NP满足N1<N2<...NP,令n分别等于N1,N2,...,NP,按照步骤3计算得到短时特征向量
Figure BDA0000046240470000075
对应的一组统计特征向量
Figure BDA0000046240470000076
,由该组统计特征向量构成训练序列的长时特征向量
在本实施例中,取P=3,N1=5,N2=15,N3=25,得到第i帧的3个短时特征向量对应一组统计特征向量
Figure BDA0000046240470000078
,它们的向量维度都是36维。进而,由该组统计特征向量构成训练序列的长时特征向量
Figure BDA0000046240470000079
,其向量维度是108维。
步骤5:利用训练序列的长时特征向量
Figure BDA00000462404700000710
训练分类器。
当取得训练序列的长时特征向量
Figure BDA00000462404700000711
后,可以使用已知技术,利用训练序列的长时特征向量训练分类器。
图2是利用训练序列的长时特征向量训练单个分类器的示意图。图2中,利用训练序列的长时特征向量训练分类器可以利用训练序列的长时特征向量直接训练单个分类器。
图3是利用训练序列的长时特征向量的有效特征构成的有效长时特征向量训练单个分类器的示意图。图3中,利用训练序列的长时特征向量
Figure BDA0000046240470000081
训练分类器也可以使用前向特征选择法,在训练序列的长时特征向量中选择有效特征构成有效长时特征向量,并利用有效长时特征向量
Figure BDA0000046240470000084
训练单个分类器。
图4是利用训练序列的长时特征向量的分向量各自分别训练同类型的单个分类器后并联构成的分类器组示意图。图4中,利用训练序列的长时特征向量
Figure BDA0000046240470000085
训练分类器还可以利用训练序列的长时特征向量
Figure BDA0000046240470000086
的分向量
Figure BDA0000046240470000087
Figure BDA0000046240470000088
各自分别训练同类型的单个分类器后并联构成的分类器组。
在本实施例中,单个分类器选择基于正态分布的独立特征分类器,对于其他的分类器,本发明仍然适用。训练分类器时,使用如图3和图4所示的方法训练分类器。即使用前向特征选择法,在训练序列的长时特征向量的108维特征中,选择36维有效特征构成有效长时特征向量
Figure BDA00000462404700000810
,并利用有效长时特征向量
Figure BDA00000462404700000811
训练单个分类器。同时,分别以
Figure BDA00000462404700000812
为分类特征向量,独立训练相同类型的分类器。
步骤6:提取测试序列中的音频信号的短时特征,并按照步骤2和步骤3的方法计算测试序列的第i帧的统计特征向量
Figure BDA00000462404700000813
以及测试序列的。
Figure BDA00000462404700000814
Figure BDA00000462404700000815
步骤7:根据测试序列的第i帧的统计特征向量
Figure BDA00000462404700000816
以及测试序列的
Figure BDA00000462404700000817
Figure BDA00000462404700000818
,计算测试序列的第i帧的输入长时特征向量。
Figure BDA00000462404700000819
计算测试序列的第i帧的输入长时特征向量
Figure BDA00000462404700000820
具体利用公式
Figure BDA0000046240470000091
其中,q=1,2,L,P-1,
Figure BDA0000046240470000092
中的
Figure BDA0000046240470000093
共有q个,
Figure BDA0000046240470000094
中的
Figure BDA0000046240470000095
共有P-q个。
步骤8:将第i帧的输入长时特征向量
Figure BDA0000046240470000096
送入步骤5训练的分类器中,其输出即为第i帧的分类类型。
本实施例中的训练样本库和测试样本库均由语音序列和音乐序列组成,两个数据库之间相互独立。图5是训练样本库信息表,图6是测试样本库信息表。在如上所述的测试样本库上测试,对比分类器性能结果如图7所示。由图7中测试结果对比可以看出:长时特征的时长越大,分类正确率越高,但同时检测到类型变换的延时也越大;相比之下,根据本发明训练得到的分类器,在音频类型的分类准确性和检测类型改变的及时性两方面,有更优的性能表现,更适合实时音乐/语音分类的***。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (8)

1.一种基于可变时长的音频特征分类方法,其特征是所述方法包括下列步骤:
步骤1:将确定类型并经过标注的音频序列作为训练序列;
步骤2:提取训练序列中的音频信号的短时特征F1,F2,...,FK,构成短时特征向量
Figure FDA0000046240460000011
,K是短时特征向量的分量个数;
步骤3:计算各个短时特征Fk在设定时长内,当前帧和之前的(n-1)帧的短时特征的统计参量,n为设定时长内的总帧数;每个短时特征Fk对应一组由该短时特征的统计参量构成的统计特征向量
Figure FDA0000046240460000012
,进而短时特征向量
Figure FDA0000046240460000013
对应一个统计特征向量
Figure FDA0000046240460000014
,其中;1≤k≤K;
步骤4:选取P个值,N1,N2,...,NP满足N1<N2<...<NP,令n分别等于N1,N2,...,NP,按照步骤3计算得到短时特征向量
Figure FDA0000046240460000016
对应的一组统计特征向量
Figure FDA0000046240460000017
,由该组统计特征向量构成训练序列的长时特征向量;
Figure FDA0000046240460000018
步骤5:利用训练序列的长时特征向量
Figure FDA0000046240460000019
训练分类器;
步骤6:提取测试序列中的音频信号的短时特征,并按照步骤2和步骤3的方法计算测试序列的第i帧的统计特征向量
Figure FDA00000462404600000110
以及测试序列的
Figure FDA00000462404600000111
Figure FDA0000046240460000021
步骤7:根据测试序列的第i帧的统计特征向量
Figure FDA0000046240460000022
以及测试序列的
Figure FDA0000046240460000023
Figure FDA0000046240460000024
,计算测试序列的第i帧的输入长时特征向量;
Figure FDA0000046240460000025
步骤8:将第i帧的输入长时特征向量
Figure FDA0000046240460000026
送入步骤5训练后的分类器中,其输出即为第i帧的分类类型。
2.根据权利要求1所述的一种基于可变时长的音频特征分类方法,其特征是所述短时特征包括对数能量、过零率和均匀子带能量分布。
3.根据权利要求1所述的一种基于可变时长的音频特征分类方法,其特征是所述当前帧和之前的(n-1)帧的短时特征的统计参量包括当前帧和之前的(n-1)帧的短时特征最大值MaxFk(n)、最小值MinFk(n)、算术平均AvgFk(n)或方差VarFk(n)中的一个或多个。
4.根据权利要求1所述的一种基于可变时长的音频特征分类方法,其特征是所述利用训练序列的长时特征向量
Figure FDA0000046240460000027
训练分类器具体是利用训练序列的长时特征向量训练单个分类器。
5.根据权利要求1所述的一种基于可变时长的音频特征分类方法,其特征是所述利用训练序列的长时特征向量
Figure FDA0000046240460000029
训练分类器具体是使用前向特征选择法,在训练序列的长时特征向量
Figure FDA00000462404600000210
中选择有效特征构成有效长时特征向量,并利用有效长时特征向量
Figure FDA00000462404600000212
训练单个分类器。
6.根据权利要求1所述的一种基于可变时长的音频特征分类方法,其特征是所述利用训练序列的长时特征向量
Figure FDA00000462404600000213
训练分类器具体是利用训练序列的长时特征向量的分向量
Figure FDA0000046240460000032
各自分别训练同类型的单个分类器后并联构成的分类器组。
7.根据权利要求4-6中任意一项权利要求所述的一种基于可变时长的音频特征分类方法,其特征是所述单个分类器为基于正态分布的独立特征分类器。
8.根据权利要求1所述的一种基于可变时长的音频特征分类方法,其特征是所述计算测试序列的第i帧的输入长时特征向量
Figure FDA0000046240460000033
具体利用公式
Figure FDA0000046240460000034
其中,q=1,2,L,P-1,
Figure FDA0000046240460000035
中的
Figure FDA0000046240460000036
共有q个,
Figure FDA0000046240460000037
中的共有P-q个。
CN201110033410.2A 2011-01-30 2011-01-30 基于可变时长的音频特征分类方法 Expired - Fee Related CN102623007B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110033410.2A CN102623007B (zh) 2011-01-30 2011-01-30 基于可变时长的音频特征分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110033410.2A CN102623007B (zh) 2011-01-30 2011-01-30 基于可变时长的音频特征分类方法

Publications (2)

Publication Number Publication Date
CN102623007A true CN102623007A (zh) 2012-08-01
CN102623007B CN102623007B (zh) 2014-01-01

Family

ID=46562887

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110033410.2A Expired - Fee Related CN102623007B (zh) 2011-01-30 2011-01-30 基于可变时长的音频特征分类方法

Country Status (1)

Country Link
CN (1) CN102623007B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968986A (zh) * 2012-11-07 2013-03-13 华南理工大学 基于长时特征和短时特征的重叠语音与单人语音区分方法
CN105654944A (zh) * 2015-12-30 2016-06-08 中国科学院自动化研究所 一种融合了短时与长时特征建模的环境声识别方法及装置
CN106328152A (zh) * 2015-06-30 2017-01-11 芋头科技(杭州)有限公司 一种室内噪声污染自动识别监测***
CN108305616A (zh) * 2018-01-16 2018-07-20 国家计算机网络与信息安全管理中心 一种基于长短时特征提取的音频场景识别方法及装置
CN110249320A (zh) * 2017-04-28 2019-09-17 惠普发展公司有限责任合伙企业 利用使用音频持续时间的机器学习模型进行的音频分类
CN113780180A (zh) * 2021-09-13 2021-12-10 江苏环雅丽书智能科技有限公司 一种音频长时指纹提取及匹配方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101067930A (zh) * 2007-06-07 2007-11-07 深圳先进技术研究院 一种智能音频辨识***及辨识方法
CN101236742A (zh) * 2008-03-03 2008-08-06 中兴通讯股份有限公司 音乐/非音乐的实时检测方法和装置
CN101364408A (zh) * 2008-10-07 2009-02-11 西安成峰科技有限公司 一种声像联合的监控方法及***
CN101398825A (zh) * 2007-09-29 2009-04-01 三星电子株式会社 用于快速音乐分类和检索的方法和设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101067930A (zh) * 2007-06-07 2007-11-07 深圳先进技术研究院 一种智能音频辨识***及辨识方法
CN101398825A (zh) * 2007-09-29 2009-04-01 三星电子株式会社 用于快速音乐分类和检索的方法和设备
CN101236742A (zh) * 2008-03-03 2008-08-06 中兴通讯股份有限公司 音乐/非音乐的实时检测方法和装置
CN101364408A (zh) * 2008-10-07 2009-02-11 西安成峰科技有限公司 一种声像联合的监控方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CYRIL JODER等: "Temporal Integration for Audio Classification With Application to Musical Instrument Classification", 《IEEE TRANSACTIONS ON AUDIO,SPEECH,AND LANGUAGE PROCESSING》, vol. 17, no. 1, 31 January 2009 (2009-01-31), pages 174 - 186, XP011241211, DOI: doi:10.1109/TASL.2008.2007613 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968986A (zh) * 2012-11-07 2013-03-13 华南理工大学 基于长时特征和短时特征的重叠语音与单人语音区分方法
CN102968986B (zh) * 2012-11-07 2015-01-28 华南理工大学 基于长时特征和短时特征的重叠语音与单人语音区分方法
CN106328152A (zh) * 2015-06-30 2017-01-11 芋头科技(杭州)有限公司 一种室内噪声污染自动识别监测***
CN105654944A (zh) * 2015-12-30 2016-06-08 中国科学院自动化研究所 一种融合了短时与长时特征建模的环境声识别方法及装置
CN105654944B (zh) * 2015-12-30 2019-11-01 中国科学院自动化研究所 一种融合了短时与长时特征建模的环境声识别方法及装置
CN110249320A (zh) * 2017-04-28 2019-09-17 惠普发展公司有限责任合伙企业 利用使用音频持续时间的机器学习模型进行的音频分类
CN108305616A (zh) * 2018-01-16 2018-07-20 国家计算机网络与信息安全管理中心 一种基于长短时特征提取的音频场景识别方法及装置
CN113780180A (zh) * 2021-09-13 2021-12-10 江苏环雅丽书智能科技有限公司 一种音频长时指纹提取及匹配方法

Also Published As

Publication number Publication date
CN102623007B (zh) 2014-01-01

Similar Documents

Publication Publication Date Title
CN102623007B (zh) 基于可变时长的音频特征分类方法
CN101599271B (zh) 一种数字音乐情感的识别方法
CN101527141B (zh) 基于径向基神经网络的耳语音转换为正常语音的方法
CN102272832B (zh) 基于峰值检测的选择性缩放掩码计算
CN106297770A (zh) 基于时频域统计特征提取的自然环境声音识别方法
CN103854646A (zh) 一种实现数字音频自动分类的方法
CN101159834A (zh) 一种重复性视频音频节目片段的检测方法和***
CN102446504A (zh) 语音/音乐识别方法及装置
CN101221766B (zh) 音频编码器切换的方法
CN103308919A (zh) 一种基于小波包多尺度信息熵的鱼类识别方法及***
Lu et al. Self-supervised audio spatialization with correspondence classifier
CN107293306A (zh) 一种基于输出的客观语音质量的评估方法
CN104732970A (zh) 一种基于综合特征的舰船辐射噪声识别方法
CN108615536A (zh) 基于麦克风阵列的时频联合特征乐器音质评价***及方法
Taenzer et al. Investigating CNN-based Instrument Family Recognition for Western Classical Music Recordings.
CN117095694A (zh) 一种基于标签层级结构属性关系的鸟类鸣声识别方法
CN102214219B (zh) 音视频内容检索***及其方法
Zeinali et al. Acoustic scene classification using fusion of attentive convolutional neural networks for DCASE2019 challenge
Valero et al. Narrow-band autocorrelation function features for the automatic recognition of acoustic environments
Frid et al. Acoustic-phonetic analysis of fricatives for classification using SVM based algorithm
CN103295573B (zh) 基于费舍比率最优小波包分解的语音情感特征提取方法
CN101814289A (zh) 低码率dra数字音频多声道编码方法及其***
Liu et al. A linguistic data acquisition front-end for language recognition evaluation.
CN104536007A (zh) 一种基于多视角声学数据的鱼类识别方法
CN103323853A (zh) 一种基于小波包和双谱的鱼类识别方法及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140101

Termination date: 20180130

CF01 Termination of patent right due to non-payment of annual fee