CN108615532A - 一种应用于声场景的分类方法及装置 - Google Patents
一种应用于声场景的分类方法及装置 Download PDFInfo
- Publication number
- CN108615532A CN108615532A CN201810413386.7A CN201810413386A CN108615532A CN 108615532 A CN108615532 A CN 108615532A CN 201810413386 A CN201810413386 A CN 201810413386A CN 108615532 A CN108615532 A CN 108615532A
- Authority
- CN
- China
- Prior art keywords
- echo signal
- signal
- matrix
- audio
- statistical nature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000003595 spectral effect Effects 0.000 claims abstract description 18
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 239000011159 matrix material Substances 0.000 claims description 52
- 238000012545 processing Methods 0.000 claims description 30
- 238000012549 training Methods 0.000 claims description 16
- 238000009432 framing Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000001228 spectrum Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 239000004568 cement Substances 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 241000288105 Grus Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 244000144992 flock Species 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请提供了一种应用于声场景的分类方法及装置,提取目标信号所述目标信号包括待分类音频的左通道信号、右通道信号、左右通道信号之和、以及左右通道信号之差,并依据所述目标信号,获取所述目标信号的统计特征,依据所述统计特征,形成超矢量,再对所述超矢量进行谱聚类,得到所述待分类音频的声学场景,可以看出,基于目标信号,形成超矢量,并对所述超矢量进行谱聚类,得到所述待分类音频的声学场景,因此,采用的是一种无监督的分类方式实现声学场景的分类。
Description
技术领域
本申请涉及电子信息领域,尤其涉及一种应用于声场景的分类方法及装置。
背景技术
声音包含着大量的环境信息,所以,分析和理解非语音的音频,比如环境声音并从中提取有用信息十分重要。
声学场景分类(Acoustic scene classification,ASC)通过分析音频片段,从而识别出这个音频录制时所处的环境,给其赋予相应环境语义标签,如火车,公园或者地铁等。声学场景分类的主要研究目标是让计算机能够像人类的听觉***一样,通过分析声音来理解周围的环境。有了环境信息以后,就可以在需要针对环境变化而提供不同服务的***设计上提供一个较好的先验信息,如语音识别、语音增强、机器人应用等,从而可以提供更智能更人性化的服务。
目前应用的关于声学场景分类的方法多数都使用的是有监督的方法,即使用已经含有标签的数据提取特征,训练一个分类器,然后用训练获得的分类器对新的样本进行分类。然而,随着社会和科技的快速发展,每天都有大量的音频产生,如音视频联合监控的应用等。有监督的方法显然不再适用,它严重依赖数据及其对应标签的质量。当需要处理大量没有标签的音频时,面临以下几个问题:1)音频的标注需要耗费大量的人力物力,尤其是针对大规模的音频;2)标签的准确度问题,不同人对同一段音频的场景的感知也有所不同,况且,面对大规模长时间的标注任务,工作人员难免因为疲倦、粗心等各种因素干扰而不能对音频进行正确标记;3)一个音频可能对应多个标注,根据不同声学场景的分类方法,我们对同一个音频给出不同的标记,比如,一个办公室的音频,我们也可以将之标记为室内音频。
发明内容
申请人在研究的过程中发现,无监督学习并不依赖于数据集的标签,是通过聚类学习算法来自动地确定数据集的标记和类型的分类方法。因此,无监督的分类方法,适用于对大量无标签的音频进行分类。所以,如何使用无监督的分类方法,实现声学场景的分类,成为目前亟待解决的问题。
本申请提供了一种应用于声场景的分类方法及装置,目的在于解决如何使用无监督的分类方法实现声学场景的分类的问题。
为了实现上述目的,本申请提供了以下技术方案:
一种应用于声场景的分类方法,包括:
提取目标信号,所述目标信号包括待分类音频的左通道信号、右通道信号、左右通道信号之和、以及左右通道信号之差;
依据所述目标信号,获取所述目标信号的统计特征;
依据所述统计特征,形成超矢量;
对所述超矢量进行谱聚类,得到所述待分类音频的声学场景。
可选的,所述依据所述目标信号,获取所述目标信号的统计特征包括:
依据所述目标信号中的任意一个信号,训练该信号的通用背景模型UBM;
对于所述目标信号中的任意一个信号,计算该目标信号在UBM下的统计量,所述统计量包括高斯混合模型GMM的零阶和一阶充分统计量;
所述依据所述统计特征,形成超矢量包括:
将所述目标信号中的所有信号的统计量形成所述超矢量。
可选的,所述依据所述目标信号中的任意一个信号,训练该信号的通用背景模型UBM包括:
对于所述目标信号中的任意一个信号,提取梅尔频率倒谱系数MFCC特征及其一阶差分和二阶差分,并将该信号的MFCC特征及其一阶差分和二阶差分作为输入,训练该信号的通用背景模型UBM。
可选的,所述对所述超矢量进行谱聚类,得到所述待分类音频的声学场景包括:
用Cosine核计算所述超矢量的邻接矩阵W;
依据所述邻接矩阵构造对角矩阵拉普拉斯矩阵;
依据所述对角矩阵拉普拉斯矩阵的前k个最小特征值及对应的特征向量构建矩阵;
对所述矩阵的每一行进行聚类,得到所述矩阵对应的类别,所述类别为所述待分类音频的声学场景。
可选的,在所述依据所述目标信号,获取所述目标信号的统计特征之前,还包括:
对所述目标信号进行预处理,所述预处理包括:预加重、分帧和加窗;
所述依据所述目标信号,获取所述目标信号的统计特征包括:
依据进行所述预处理后的目标信号,获取所述预处理后的目标信号的统计特征。
一种应用于声场景的分类装置,包括:
信号提取模块,用于提取目标信号,所述目标信号包括待分类音频的左通道信号、右通道信号、左右通道信号之和、以及左右通道信号之差;
第一处理模块,用于依据所述目标信号,获取所述目标信号的统计特征;
第二处理模块,用于依据所述统计特征,形成超矢量;
聚类模块,用于对所述超矢量进行谱聚类,得到所述待分类音频的声学场景。
可选的,所述第一处理模块用于依据所述目标信号,获取所述目标信号的统计特征包括:
所述第一处理模块具体用于,依据所述目标信号中的任意一个信号,训练该信号的通用背景模型UBM;对于所述目标信号中的任意一个信号,计算该目标信号在UBM下的统计量,所述统计量包括高斯混合模型GMM的零阶和一阶充分统计量;
第二处理模块用于依据所述统计特征,形成超矢量包括:
第二处理模块具体用于,将所述目标信号中的所有信号的统计量形成所述超矢量。
可选的,所述第一处理模块用于依据所述目标信号中的任意一个信号,训练该信号的通用背景模型UBM包括:
所述第一处理模块具体用于,对于所述目标信号中的任意一个信号,提取梅尔频率倒谱系数MFCC特征及其一阶差分和二阶差分,并将该信号的MFCC特征及其一阶差分和二阶差分作为输入,训练该信号的通用背景模型UBM。
可选的,所述聚类模块用于对所述超矢量进行谱聚类,得到所述待分类音频的声学场景包括:
所述聚类模块具体用于,用Cosine核计算所述超矢量的邻接矩阵W;依据所述邻接矩阵构造对角矩阵拉普拉斯矩阵;依据所述对角矩阵拉普拉斯矩阵的前k个最小特征值及对应的特征向量构建矩阵;对所述矩阵的每一行进行聚类,得到所述矩阵对应的类别,所述类别为所述待分类音频的声学场景。
可选的,还包括:
预处理模块,用于在所述第一处理模块依据所述目标信号,获取所述目标信号的统计特征之前,对所述目标信号进行预处理,所述预处理包括:预加重、分帧和加窗;
所述第一处理模块用于依据所述目标信号,获取所述目标信号的统计特征包括:
所述第一处理模块具体用于,依据进行所述预处理后的目标信号,获取所述预处理后的目标信号的统计特征。
本申请所述的应用于声场景的分类方法及装置,提取目标信号所述目标信号包括待分类音频的左通道信号、右通道信号、左右通道信号之和、以及左右通道信号之差,并依据所述目标信号,获取所述目标信号的统计特征,依据所述统计特征,形成超矢量,再对所述超矢量进行谱聚类,得到所述待分类音频的声学场景,可以看出,基于目标信号,形成超矢量,并对所述超矢量进行谱聚类,得到所述待分类音频的声学场景,因此,采用的是一种无监督的分类方式实现声学场景的分类。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例公开的一种应用于声场景的分类方法的流程图;
图2为本申请实施例公开的应用于声场景的分类方法中的谱聚类方法的流程图;
图3为本申请实施例公开的一种应用于声场景的分类装置的结构示意图。
具体实施方式
在现有技术中,获取的音频通常为立体声音频,即左右两个声音通道的信号不同,不同的信号通过人的两耳感知到差异,达到立体声的效果。因此,本申请的实施例中,以立体声音频为例进行说明,但不作为对于音频的限定,其它类型的音频也可以使用本申请所述的方法进行分类。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
图1为本申请实施例公开的一种应用于声场景的分类方法,包括以下步骤:
S101:提取待分类音频的多个通道信号:左通道信号、右通道信号、左右通道信号之和、以及左右通道信号之差。
为了便于后续描述,本实施例中,将提取的上述四个信号中的任意一个信号称为目标信号。
S102:对提取的目标信号进行预处理。
本实施例中,预处理包括:对每个目标信号进行预加重(为便于信号的传输或记录,而对其某些频谱分量的幅值相对于其它分量的幅值预先有意予以增强的措施)、分帧和加窗。
S103:从预处理后的目标信号中提取特征。
本实施例中,从每个目标信号中提取梅尔频率倒谱系数MFCC特征(包含对数能量和零阶谱系数)及其一阶差分和二阶差分。
S104:对于每个目标信号(即目标信号中的任意一个信号),将从该目标信号中提取的特征作为输入,用来训练一个通用背景模型(UBM)。
即一个目标信号得到一个对应的UBM,四个目标信号共得到四个UBM。
其中,使用特征训练UBM的方式可以参见现有技术,这里不再赘述。
S105:对于每个目标信号,将从该目标信号中提取的特征作为输入,计算该目标信号在UBM下的高斯混合模型GMM的Baum-Welch统计量,即零阶和一阶充分统计量。
即任意一个目标信号均可以得到对应的在UBM下的GMM的Baum-Welch统计量。
其中,使用特征计算GMM的Baum-Welch统计量的方式可以参见现有技术,这里不再赘述。
S106:多通道特征融合:即将四路目标信号的统计特征并在一起,形成新的超矢量。
其中,任意一路目标信号的统计特征包括在UBM下的GMM的Baum-Welch统计量。
S107:声学场景聚类:利用谱聚类算法对上述得到的超矢量进行聚类,其中,谱聚类中用Cosine核函数计算邻接矩阵。
其中,谱聚类算法可以参见现有技术,这里不再赘述。
从图1所示的过程可以看出:
1、本申请实施例所述的方法充分利用了立体声音频的信息,即左右两个通道的差异性,即相比之前直接将左右音频进行平均相比,隐式地利用了双耳时差和双耳级差的特征。
2、本申请实施例所述的方法,通过在UBM下的GMM提取Baum-Welch统计量构造新的统计量,相比传统的声学特征,能够更加有效地刻画音频特征的分布,更加便于后期的聚类。
3、本申请实施例所述的方法是一种无监督的声学场景分类方法,不依赖于音频的标签,相比有监督的方法更加具有普适性。
4、本申请实施例所述的方法可为语音增强、声音事件检测、复杂音频内容分析与检索等应用提供有用的先验信息。
图2为图1中的S107的具体实现过程,即谱聚类具体算法步骤如下:
S201:假设得到的超矢量为V=v1,v2,...,vN,用Cosine核计算超矢量的邻接矩阵W,W的具体定义如下:
S202:构造对角矩阵拉普拉斯矩阵Lsys=I-D-1/2WD-1/2,其中,I为单位矩阵,D为对角矩阵,W为邻接矩阵。
S203:求解Lsys的前k个最小特征值及对应的特征向量u1,u2,...,uk,并构建矩阵U=u1,u2,...,uk。k为大于0的整数。
S204:用K-means算法对U的每一行进行聚类,uk所对应的类别即为音频对应的声学场景类别。
根据S204得到的聚类结果,即可将相同声场景下的音频聚集在一起。
图3为本申请实施例提供的一种应用于声场景的分类装置,包括:信号提取模块、第一处理模块、第二处理模块和聚类模块,可选的,还可以包括预处理模块。
其中,信号提取模块用于提取目标信号,所述目标信号包括待分类音频的左通道信号、右通道信号、左右通道信号之和、以及左右通道信号之差。第一处理模块用于依据所述目标信号,获取所述目标信号的统计特征。第二处理模块用于依据所述统计特征,形成超矢量。聚类模块用于对所述超矢量进行谱聚类,得到所述待分类音频的声学场景。
具体的,第一处理模块对于所述目标信号中的任意一个信号,提取梅尔频率倒谱系数MFCC特征及其一阶差分和二阶差分,并将该信号的MFCC特征及其一阶差分和二阶差分作为输入,训练该信号的通用背景模型UBM。并对于所述目标信号中的任意一个信号,计算该目标信号在UBM下的统计量,所述统计量包括高斯混合模型GMM的零阶和一阶充分统计量。第二处理模块将所述目标信号中的所有信号的统计量形成所述超矢量。
聚类模块用Cosine核计算所述超矢量的邻接矩阵W;依据所述邻接矩阵构造对角矩阵拉普拉斯矩阵;依据所述对角矩阵拉普拉斯矩阵的前k个最小特征值及对应的特征向量构建矩阵;对所述矩阵的每一行进行聚类,得到所述矩阵对应的类别,所述类别为所述待分类音频的声学场景(如图2所示)。
可选的,预处理模块用于在所述第一处理模块依据所述目标信号,获取所述目标信号的统计特征之前,对所述目标信号进行预处理,所述预处理包括:预加重、分帧和加窗。在预处理模块进行预处理的情况下,第一处理模块的处理对象为进行预处理后的目标信号,即依据进行所述预处理后的目标信号,获取所述预处理后的目标信号的统计特征。
图3所示的分类装置,创新性地提出依据立体声音频的不同通道信号提取出的目标信号,基于该目标信号,提取统计特征、形成超矢量,并针对超矢量进行聚类分析,得到立体声音频的声场景分类结果。而聚类这种非监督的分类方法,适用于对大量无标签的音频进行分类的场景。
本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种应用于声场景的分类方法,其特征在于,包括:
提取目标信号,所述目标信号包括待分类音频的左通道信号、右通道信号、左右通道信号之和、以及左右通道信号之差;
依据所述目标信号,获取所述目标信号的统计特征;
依据所述统计特征,形成超矢量;
对所述超矢量进行谱聚类,得到所述待分类音频的声学场景。
2.根据权利要求1所述的方法,其特征在于,所述依据所述目标信号,获取所述目标信号的统计特征包括:
依据所述目标信号中的任意一个信号,训练该信号的通用背景模型UBM;
对于所述目标信号中的任意一个信号,计算该目标信号在UBM下的统计量,所述统计量包括高斯混合模型GMM的零阶和一阶充分统计量;
所述依据所述统计特征,形成超矢量包括:
将所述目标信号中的所有信号的统计量形成所述超矢量。
3.根据权利要求2所述的方法,其特征在于,所述依据所述目标信号中的任意一个信号,训练该信号的通用背景模型UBM包括:
对于所述目标信号中的任意一个信号,提取梅尔频率倒谱系数MFCC特征及其一阶差分和二阶差分,并将该信号的MFCC特征及其一阶差分和二阶差分作为输入,训练该信号的通用背景模型UBM。
4.根据权利要求1所述的方法,其特征在于,所述对所述超矢量进行谱聚类,得到所述待分类音频的声学场景包括:
用Cosine核计算所述超矢量的邻接矩阵W;
依据所述邻接矩阵构造对角矩阵拉普拉斯矩阵;
依据所述对角矩阵拉普拉斯矩阵的前k个最小特征值及对应的特征向量构建矩阵;
对所述矩阵的每一行进行聚类,得到所述矩阵对应的类别,所述类别为所述待分类音频的声学场景。
5.根据权利要求1-4任一项所述的方法,其特征在于,在所述依据所述目标信号,获取所述目标信号的统计特征之前,还包括:
对所述目标信号进行预处理,所述预处理包括:预加重、分帧和加窗;
所述依据所述目标信号,获取所述目标信号的统计特征包括:
依据进行所述预处理后的目标信号,获取所述预处理后的目标信号的统计特征。
6.一种应用于声场景的分类装置,其特征在于,包括:
信号提取模块,用于提取目标信号,所述目标信号包括待分类音频的左通道信号、右通道信号、左右通道信号之和、以及左右通道信号之差;
第一处理模块,用于依据所述目标信号,获取所述目标信号的统计特征;
第二处理模块,用于依据所述统计特征,形成超矢量;
聚类模块,用于对所述超矢量进行谱聚类,得到所述待分类音频的声学场景。
7.根据权利要求6所述的装置,其特征在于,所述第一处理模块用于依据所述目标信号,获取所述目标信号的统计特征包括:
所述第一处理模块具体用于,依据所述目标信号中的任意一个信号,训练该信号的通用背景模型UBM;对于所述目标信号中的任意一个信号,计算该目标信号在UBM下的统计量,所述统计量包括高斯混合模型GMM的零阶和一阶充分统计量;
第二处理模块用于依据所述统计特征,形成超矢量包括:
第二处理模块具体用于,将所述目标信号中的所有信号的统计量形成所述超矢量。
8.根据权利要求7所述的装置,其特征在于,所述第一处理模块用于依据所述目标信号中的任意一个信号,训练该信号的通用背景模型UBM包括:
所述第一处理模块具体用于,对于所述目标信号中的任意一个信号,提取梅尔频率倒谱系数MFCC特征及其一阶差分和二阶差分,并将该信号的MFCC特征及其一阶差分和二阶差分作为输入,训练该信号的通用背景模型UBM。
9.根据权利要求6所述的装置,其特征在于,所述聚类模块用于对所述超矢量进行谱聚类,得到所述待分类音频的声学场景包括:
所述聚类模块具体用于,用Cosine核计算所述超矢量的邻接矩阵W;依据所述邻接矩阵构造对角矩阵拉普拉斯矩阵;依据所述对角矩阵拉普拉斯矩阵的前k个最小特征值及对应的特征向量构建矩阵;对所述矩阵的每一行进行聚类,得到所述矩阵对应的类别,所述类别为所述待分类音频的声学场景。
10.根据权利要求6-9任一项所述的装置,其特征在于,还包括:
预处理模块,用于在所述第一处理模块依据所述目标信号,获取所述目标信号的统计特征之前,对所述目标信号进行预处理,所述预处理包括:预加重、分帧和加窗;
所述第一处理模块用于依据所述目标信号,获取所述目标信号的统计特征包括:
所述第一处理模块具体用于,依据进行所述预处理后的目标信号,获取所述预处理后的目标信号的统计特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810413386.7A CN108615532B (zh) | 2018-05-03 | 2018-05-03 | 一种应用于声场景的分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810413386.7A CN108615532B (zh) | 2018-05-03 | 2018-05-03 | 一种应用于声场景的分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108615532A true CN108615532A (zh) | 2018-10-02 |
CN108615532B CN108615532B (zh) | 2021-12-07 |
Family
ID=63661649
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810413386.7A Active CN108615532B (zh) | 2018-05-03 | 2018-05-03 | 一种应用于声场景的分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108615532B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109859771A (zh) * | 2019-01-15 | 2019-06-07 | 华南理工大学 | 一种联合优化深层变换特征与聚类过程的声场景聚类方法 |
CN110046655A (zh) * | 2019-03-26 | 2019-07-23 | 天津大学 | 一种基于集成学习的音频场景识别方法 |
CN110176250A (zh) * | 2019-05-30 | 2019-08-27 | 哈尔滨工业大学 | 一种基于局部学习的鲁棒声学场景识别方法 |
CN111326172A (zh) * | 2018-12-17 | 2020-06-23 | 北京嘀嘀无限科技发展有限公司 | 冲突检测方法、装置、电子设备及可读存储介质 |
CN112489678A (zh) * | 2020-11-13 | 2021-03-12 | 苏宁云计算有限公司 | 一种基于信道特征的场景识别方法及装置 |
CN113205820A (zh) * | 2021-04-22 | 2021-08-03 | 武汉大学 | 一种用于声音事件检测的声音编码器的生成方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101563935A (zh) * | 2006-12-19 | 2009-10-21 | 皇家飞利浦电子股份有限公司 | 将二维视频转换为三维视频的方法和*** |
CN102237084A (zh) * | 2010-04-22 | 2011-11-09 | 松下电器产业株式会社 | 声音空间基准模型的在线自适应调节方法及装置和设备 |
CN106782565A (zh) * | 2016-11-29 | 2017-05-31 | 重庆重智机器人研究院有限公司 | 一种声纹特征识别方法及*** |
CN107203777A (zh) * | 2017-04-19 | 2017-09-26 | 北京协同创新研究院 | 音频场景分类方法及装置 |
CN107358947A (zh) * | 2017-06-23 | 2017-11-17 | 武汉大学 | 说话人重识别方法及*** |
CN107358945A (zh) * | 2017-07-26 | 2017-11-17 | 谢兵 | 一种基于机器学习的多人对话音频识别方法及*** |
-
2018
- 2018-05-03 CN CN201810413386.7A patent/CN108615532B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101563935A (zh) * | 2006-12-19 | 2009-10-21 | 皇家飞利浦电子股份有限公司 | 将二维视频转换为三维视频的方法和*** |
CN102237084A (zh) * | 2010-04-22 | 2011-11-09 | 松下电器产业株式会社 | 声音空间基准模型的在线自适应调节方法及装置和设备 |
CN106782565A (zh) * | 2016-11-29 | 2017-05-31 | 重庆重智机器人研究院有限公司 | 一种声纹特征识别方法及*** |
CN107203777A (zh) * | 2017-04-19 | 2017-09-26 | 北京协同创新研究院 | 音频场景分类方法及装置 |
CN107358947A (zh) * | 2017-06-23 | 2017-11-17 | 武汉大学 | 说话人重识别方法及*** |
CN107358945A (zh) * | 2017-07-26 | 2017-11-17 | 谢兵 | 一种基于机器学习的多人对话音频识别方法及*** |
Non-Patent Citations (1)
Title |
---|
胡奎: "基于听觉场景分析的近讲语音增强算法", 《清华大学学报 (自然科学版)》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111326172A (zh) * | 2018-12-17 | 2020-06-23 | 北京嘀嘀无限科技发展有限公司 | 冲突检测方法、装置、电子设备及可读存储介质 |
CN109859771A (zh) * | 2019-01-15 | 2019-06-07 | 华南理工大学 | 一种联合优化深层变换特征与聚类过程的声场景聚类方法 |
CN109859771B (zh) * | 2019-01-15 | 2021-03-30 | 华南理工大学 | 一种联合优化深层变换特征与聚类过程的声场景聚类方法 |
CN110046655A (zh) * | 2019-03-26 | 2019-07-23 | 天津大学 | 一种基于集成学习的音频场景识别方法 |
CN110046655B (zh) * | 2019-03-26 | 2023-03-31 | 天津大学 | 一种基于集成学习的音频场景识别方法 |
CN110176250A (zh) * | 2019-05-30 | 2019-08-27 | 哈尔滨工业大学 | 一种基于局部学习的鲁棒声学场景识别方法 |
CN110176250B (zh) * | 2019-05-30 | 2021-05-07 | 哈尔滨工业大学 | 一种基于局部学习的鲁棒声学场景识别方法 |
CN112489678A (zh) * | 2020-11-13 | 2021-03-12 | 苏宁云计算有限公司 | 一种基于信道特征的场景识别方法及装置 |
CN112489678B (zh) * | 2020-11-13 | 2023-12-05 | 深圳市云网万店科技有限公司 | 一种基于信道特征的场景识别方法及装置 |
CN113205820A (zh) * | 2021-04-22 | 2021-08-03 | 武汉大学 | 一种用于声音事件检测的声音编码器的生成方法 |
CN113205820B (zh) * | 2021-04-22 | 2022-05-13 | 武汉大学 | 一种用于声音事件检测的声音编码器的生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108615532B (zh) | 2021-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108615532A (zh) | 一种应用于声场景的分类方法及装置 | |
Su et al. | Performance analysis of multiple aggregated acoustic features for environment sound classification | |
CN110120218B (zh) | 基于gmm-hmm的高速公路大型车辆识别方法 | |
CN105022835A (zh) | 一种群智感知大数据公共安全识别方法及*** | |
Colonna et al. | Automatic classification of anuran sounds using convolutional neural networks | |
CN105096955B (zh) | 一种基于模型生长聚类的说话人快速识别方法及*** | |
Cyrta et al. | Speaker diarization using deep recurrent convolutional neural networks for speaker embeddings | |
CN112700794B (zh) | 一种音频场景分类方法、装置、电子设备和存储介质 | |
CN111724770B (zh) | 一种基于深度卷积生成对抗网络的音频关键词识别方法 | |
Yang et al. | Multi-scale semantic feature fusion and data augmentation for acoustic scene classification | |
CN104795064A (zh) | 低信噪比声场景下声音事件的识别方法 | |
JP7348445B2 (ja) | 話者識別を結合した話者ダイアライゼーション方法、システム、およびコンピュータプログラム | |
CN105702251B (zh) | 基于Top-k加强音频词袋模型的语音情感识别方法 | |
CN108091326A (zh) | 一种基于线性回归的声纹识别方法及*** | |
CN111462761A (zh) | 声纹数据生成方法、装置、计算机装置及存储介质 | |
US20160210988A1 (en) | Device and method for sound classification in real time | |
CN108831506A (zh) | 基于gmm-bic的数字音频篡改点检测方法及*** | |
CN112562725A (zh) | 基于语谱图和胶囊网络的混合语音情感分类方法 | |
Ji et al. | Investigation of acoustic and visual features for pig cough classification | |
Ji et al. | LBP-based bird sound classification using improved feature selection algorithm | |
Birla | A robust unsupervised pattern discovery and clustering of speech signals | |
Bear et al. | City classification from multiple real-world sound scenes | |
Mallikarjunan et al. | Text-independent speaker recognition in clean and noisy backgrounds using modified VQ-LBG algorithm | |
Xie et al. | Investigation of acoustic and visual features for frog call classification | |
Elizalde et al. | There is no data like less data: Percepts for video concept detection on consumer-produced media |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |