CN106328120A - 公共场所异常声音特征提取方法 - Google Patents

公共场所异常声音特征提取方法 Download PDF

Info

Publication number
CN106328120A
CN106328120A CN201610680298.4A CN201610680298A CN106328120A CN 106328120 A CN106328120 A CN 106328120A CN 201610680298 A CN201610680298 A CN 201610680298A CN 106328120 A CN106328120 A CN 106328120A
Authority
CN
China
Prior art keywords
signal
component
abnormal sound
lmd
decomposition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610680298.4A
Other languages
English (en)
Other versions
CN106328120B (zh
Inventor
李伟红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN201610680298.4A priority Critical patent/CN106328120B/zh
Publication of CN106328120A publication Critical patent/CN106328120A/zh
Application granted granted Critical
Publication of CN106328120B publication Critical patent/CN106328120B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明涉及公共场所异常声音特征提取方法,属于音频信号处理领域。声音特征提取方法基于自适应噪声的完备总体局部均值分解CELMDAN,引入分解嵌套思想。利用CELMDAN方法分解公共场所异常声音信号,得到一系列乘积函数(PF)分量。并将各PF分量与原始异常声音信号的能量比值作为其特征向量。最后输入支持向量机(SVM)进行分类。相比于目前常用的特征提取方法,本发明提出的CELMDAN方法更能够准确提取异常声音的特征,并且对环境背景噪声具有较好的鲁棒性。

Description

公共场所异常声音特征提取方法
技术领域
本发明属于音频信号特征提取及模式识别技术领域,尤其涉及公共场所异常声音特征提取方法。
背景技术
公共场所如地铁、火车站、广场等具有地域广、人流量大等典型特点,是国家安全防卫最重要的部分之一。目前公共场所安全监控主要以视频监控为主。异常事件发生时产生的异常声音,包含异常事件大量的相关信息,因此音频监控已经成为公共安全监控领域研究的发展方向。目前现有的音频监控***仅为简单的声音采集、传输等,缺乏对异常声音的有效识别,原因是音频监控核心理论及技术没有得到突破。
局部均值分解(Local Mean Decomposition,LMD)是目前音频信号处理采用的常用技术,但是LMD自身存在的端点效应、分解耗时及模态混叠问题。(1)公共场所异常声音信号具有极值点间距较小且分布紧密的特点,通常由于端点检测等预处理操作,异常声音信号的端点不是极值点,而LMD直接以端点值作为极值的处理方式是不合理的,其结果是生成的乘积函数(Product Function,PF)分量在两端出现虚假成分,随着分解过程的进行,这种失真现象从信号两端蔓延到中间,造成分解结果失真,即端点效应问题。(2)公共场所异常声音信号具有上下波动频繁、局部信息丰富的特点,而LMD的滑动平均过程不仅耗时而且易造成信号的某些局部信息损失。此外,异常声音信号持续时间较长且主要信息包含在高频部分,而LMD方法的PF分量阶数及筛选次数不确定都会造成分解耗时,同时也会影响分解效果。(3)公共场所异常声音信号频率成分复杂,而LMD的模态混叠问题会影响其特征提取效果。现有总体局部均值分解(Ensemble Local Mean Decomposition,ELMD)方法虽能有效缓解模态混叠,但存在重构误差大、分量掺杂噪声信息等新问题。
公共场所异常声音特征提取方法大多采用语音信号处理的典型参数或几种参数的组合,如短时过零率、短时平均能量、梅尔频率倒谱系数(Mel-Frequency CepstrumCoefficient,MFCC)等,在一定范围取得较好的效果。但是由于异常声音信号的特殊性,上述参数提取特征的效果有很大局限。
发明内容
针对以上现有技术存在的问题,本发明的目的在于以局部均值分解LMD为基础进行相关改进,提出一种基于CELMDAN的公共场所异常声音特征提取方法,旨在解决将LMD 应用于异常声音特征提取中面临的关键理论及技术难题,即一是LMD自身存在的端点效应、分解耗时及模态混叠问题;二是公共场所异常声音的特征提取问题。
为实现发明目的采用的技术手段如下:
公共场所异常声音特征提取方法,其特征在于:首先,采集公共场所异常声音信号,完成声音信号的预处理;然后,采用自适应噪声的完备总体局部均值分解CELMDAN方法将公共场所异常声音信号分解为一系列乘积函数PF分量,每阶分量分别包含异常声音信号的某个频率段信息;再然后,用各阶PF分量与异常声音信号的能量比作为其特征向量,判断特征向量是否有效;最后,将有效的特征向量输入支持向量机SVM进行识别。
所述的CELMDAN方法是基于局部均值分解LMD方法,并对该方法的端点效应、分解耗时及模态混叠问题进行改进;所述的CELMDAN方法的核心是CELMDAN方法的模型的建立。
所述的局部均值分解LMD的端点效应的问题改进是采用边界处理方法,估计信号两侧极值信息,缓解端点效应。
所述的分解耗时的问题改进是采用线性插值过程代替局部均值分解LMD的滑动平均过程,并且将乘积函数PF分量作为反馈评估,对乘积函数PF分量阶数及筛选次数进行约束,减小分解耗时。
所述的模态混叠问题的改进是采用自适应加噪方式,通过噪声缓解模态混叠,降低重构误差。
具体地,所述的边界处理包括左边界处理和右边界处理,且左边界处理与右边界处理方式相同,下面以左边界处理为例进行详细介绍。
左边界处理方法如下:首先将信号的左端点值记为Y1,连接信号第一、二个极大值点构成的直线方程为y(t)=k1(t-1)+b1,连接信号第一、二个极小值点构成的直线方程为y(t)=k2(t-1)+b2,式中,k为连接两个极值点的直线的斜率,b为直线与y轴的交点。左边界极大值记为Zmax,左边界极小值记为Zmin;具体处理方法如下:
步骤2.1:若满足表达式b2≤Y1≤b1,则Zmax=b1且Zmin=b2
步骤2.2:若满足表达式b1<Y1≤(b1+b2)/2+(b1-b2)=(3b1-b2)/2,则Zmax=Y1且Zmin=b2;否则若(3b2-b1)/2=(b1+b2)/2-(b1-b2)≤Y1<b2,则Zmax=b1且Zmin=Y1
步骤2.3:若满足表达式Y1>(3b1-b2)/2,则Zmax=Y1,以第一个极小值点作直线y(t)=k*(t-1)+b*,该直线平行于过左端点和第一个极大值点的直线,且Zmin=b*;否则若Y1<(3b2-b1)/2,则Zmin=Y1,以第一个极大值点作直线y(t)=k*(t-1)+b*,该直线平行于过左端点 和第一个极小值点的直线,且Zmax=b*
具体地,所述的采用线性插值过程代替局部均值分解LMD的滑动平均过程,包括:首先对信号x(t)的极大值点、极小值点分别进行线性插值,得到相应的上包络线A(t)、下包络线B(t);然后根据式
计算局部均值曲线m11(t)和包络估计曲线a11(t)。
具体地,所述的乘积函数PF分量作为反馈评估,对乘积函数PF分量阶数及筛选次数进行约束的具体操作为:首先,采用方差比率Ratio=σ/σ0来反映LMD分解效果,各参数定义如下:
式中,x(n)为原始信号,N为原始信号长度,为原始信号x(t)的数学期望,r(t)为最终余项;然后,对LMD的筛选次数限制K进行优化设置,K的值需要事先作一系列先验分解实验,并根据实验结果的统计分析进行设置。
具体地,所述的自适应加噪方式的特点是分解嵌套思想,具体的分解步骤如下:
第1轮加噪:分别将一定信噪比的白噪声wi(t)叠加到原始信号x(t)上,i=1,2,…,I,其中I为加噪次数;然后通过LMD分解得到混合信号的第一阶分量,再取平均值作为本方法的第一阶PF分量:
其中,ε为加噪幅度,L1[A(t)]表示LMD对信号A(t)分解得到的第1阶分量,此时的余项为:
r1(t)=x(t)-PF1
第2轮加噪:分别将白噪声wi(t)的第一阶PF分量叠加到r1(t)上,再用LMD分解得到混合信号的第一阶分量,取平均作为本方法的第二阶PF分量:
其中,ε为加噪幅度,L1[A(t)]表示LMD对信号A(t)分解得到的第1阶分量,此时的余项为:
r2(t)=r1(t)-PF2
第m轮加噪:分别将白噪声wi(t)的第(m-1)阶PF分量叠加到余项rm-1(t)上,若白噪声的PF分量阶数不够,则该轮不加噪;然后通过LMD分解得到混合信号的第一阶分量,再取平均值作为本方法的第m阶PF分量,即:
此时得到的余项为:
rm(t)=rm-1(t)-PFm
重复执行M轮加噪,直至满足停止条件,即余项的极值点数达到下限或者所得PF分量的阶数达到上限,最终的余项为rM(t)=rM-1(t)-PFM
具体地,所述的CELMDAN方法的模型为:
上式从理论上证明CELMDAN方法是完备的,即分解所得分量重构原信号的误差为零;其中:x(t)为需要分析的异常声音信号,PFm是分解结果中的一系列乘积函数,m表示分量阶数,而rM(t)是最终余项。各阶PF分量的产生方式:在加噪的第m轮环节中,在余项基础上叠加高斯噪声的第(m-1)阶PF分量,然后通过LMD分解得到该混合信号的第一阶分量,如此重复m次,取平均作为本方法的第m阶分量PFm
具体地,所述的公共场所异常声音特征提取的操作步骤具体如下:
步骤7.1:用CELMDAN方法对公共场所异常声音信号进行分解,得到PF分量。
步骤7.2:计算原始异常声音信号能量E及各分量的能量Ei;计算各阶PF分量相对于原始异常声音信号的能量比,并组合成向量形式进行归一化处理,作为原始信号的特征向量。
步骤7.3:将归一化后的异常声音特征向量输入M-ay SVM分类器,得到识别结果,判断异常声音种类。
本发明的有效增益在于:
本发明以非线性、非平稳信号处理方法LMD为基础,针对技术难题提出相关改进,形成CELMDAN方法,并用于公共场所异常声音特征描述。CELMDAN方法更能够准确提取异常声音的特征,并且对环境背景噪声具有较好的鲁棒性。
具体增益效果为:
1、本发明充分考虑将LMD方法应用于公共场所异常声音特征提取面临的关键理论和技术难题,同时结合异常声音与背景噪声各自的特点,从理论上研究LMD存在的端点效应、分解耗时及模态混叠问题的产生根源,并提出CELMDAN方法,使其能够更好反映公共场所异常声音丰富的频率-能量分布信息。
2、提出一种更适合于公共场所异常声音特征描述的方法,即自适应噪声的完备总体局部均值分解CELMDAN方法,该方法的思想是分解嵌套。利用提出的CELMDAN方法分解公共场所异常声音信号,得到一系列频率成分较为单一的PF分量,然后将各阶PF分量相对于原始信号的能量比作为特征向量,简单有效。
3、本发明通过实验验证,相比于传统的MFCC及其它时频分析方法,本发明提出CELMDAN方法有更好的特征提取能力,对公共场所典型异常声音的识别率也更高。
附图说明
图1:本发明提出的公共场所异常声音特征提取方法及识别流程框图;
图2:本发明提出边界处理方法,用于缓解LMD存在的端点效应,其中(a)、(b)、(c)分别对应信号不同极值分布时的处理;
图3:本发明提出CELMDAN方法用于分解***声(公共场所典型异常声音之一)信号得到的结果图,其中RE是由分解结果重构原始信号造成的误差;
图4:本发明与其它几种异常声音特征提取方法的受试者工作特征曲线(ReceiverOperating Characteristic,ROC)曲线对比图。
具体实施方式
以下结合附图进一步详细阐述本发明:
如图1所示,本发明提出的公共场所异常声音特征提取方法流程,主要内容为两部分:对LMD端点效应、分解耗时及模态混叠问题的改进,以及公共场所异常声音特征提取。
对LMD端点效应、分解耗时及模态混叠问题的改进:是从原理上分析三个问题的产生根源,然后提出相关改进措施。
(一)本发明中,LMD端点效应的根源及改进:
从LMD的分解步骤可知,整个分解需要较准确的信号极值分布信息。公共场所异常声音信号的极值点间距较小且分布紧密,但是由于端点检测等预处理,有限长度的信号在两端的极值信息并不明确。LMD方法直接将端点作为极大值或极小值点,这与异常声音信号的实际变化趋势不相符,由此将无法得到准确的边界极值点数据而使端点处出现“失真”。随着筛选迭代过程的进行,虚假的极值点信息会逐渐向内蔓延直至影响整个信号范围,最终使分解结果出现失真,即端点效应。
为此,本发明提出一种边界处理方法,如图2所示,准确估计待分解信号端点处的极值信息,从源头上避免由于该位置极值信息失真而造成分解结果出现端点效应。
为了缓解端点效应,根本问题是需要准确估计信号端点处的极值情况,尽量避免失真现象。本发明提出一种边界处理方法,改进这一问题。左边界与右边界处理方式相同,下文以左边界为例处理进行详细阐述。在引出本发明提出的改进方法之前,首先将信号的左端点值记为Y1,由信号第一、二个极大值点构成的直线方程为y(t)=k1(t-1)+b1,由信号第一、二个极小值点构成的直线方程为y(t)=k2(t-1)+b2,式中,k为连接两个极值点的直线的斜率,b为直线与y轴的交点。直线方程表达式考虑到了信号数据点序号从1开始,亦即横坐标起点为1而非0。在改进后,得到的左边界极大值、左边界极小值依次记为Zmax、Zmin。具体改进方法如下:
1)若满足表达式b2≤Y1≤b1,则Zmax=b1且Zmin=b2
2)若满足表达式b1<Y1≤(b1+b2)/2+(b1-b2)=(3b1-b2)/2,则Zmax=Y1且Zmin=b2;否则若(3b2-b1)/2=(b1+b2)/2-(b1-b2)≤Y1<b2,则Zmax=b1且Zmin=Y1
3)若满足表达式Y1>(3b1-b2)/2,则Zmax=Y1,以第一个极小值点作直线y(t)=k*(t-1)+b*,该直线平行于过左端点和第一个极大值点的直线,且Zmin=b*;否则若Y1<(3b2-b1)/2,则Zmin=Y1,以第一个极大值点作直线y(t)=k*(t-1)+b*,该直线平行于过左端点和第一个极小值点的直线,且Zmax=b*
本发明方法在模拟信号上进行的实验表明,提出方法是有效的。
(二)本发明中,LMD分解耗时的根源及改进:
从分解步骤来看,LMD是三重循环迭代的过程,包括滑动平均过程、每阶PF分量的产生过程以及整个分解过程。耗时问题体现在:一方面,LMD涉及滑动平均过程,在该过程中信号的局部均值曲线和包络估计曲线需要一直重复滑动平均的操作,因此每阶PF分量的产生过程经历多次重复运算。另一方面,PF分量阶数及筛选次数的不确定也会引起分解耗时,并且直接影响分解效果,若筛选次数过少则容易出现欠筛选现象,分解所得分量对 称性不够;若筛选次数过多则容易出现过筛选现象,分解结果中相邻分量的相似性较大。
为此,本发明采用线性插值过程代替LMD的滑动平均过程,在保证信息完整性的同时降低运算量。通过LMD大量分解结果的统计分析,解决PF分量阶数不确定的问题,并将分解结果作为筛选次数的反馈评估,选择与最佳分解结果对应的筛选次数,在减小LMD分解耗时的同时避免过筛选和欠筛选现象。本发明所作改进如下:
1、针对滑动平均过程耗时的问题,结合公共场所异常声音信号上下波动频繁、局部信息丰富这一特点,本发明提出将线性插值引入到LMD分解中。首先对信号x(t)的极大值点、极小值点分别进行线性插值,得到相应的上包络线A(t)、下包络线B(t)。然后根据式(2)计算局部均值曲线m11(t)和包络估计曲线a11(t)。之后的操作与原始LMD方法一致。
这避免了原LMD方法中滑动平均过程的一重循环,使得改进后的LMD只有两层循环,显著提高分解效率;而且线性插值过程也能较好保留异常声音信号更多的局部信息。
2、针对分量阶数导致耗时的问题,根据炸声、尖叫声、枪声和玻璃破碎声等典型异常声音信号的信息主要集中在高频成分中,而PF分量的阶数越高,对应成分的频率越低,本发明结合实验中PF分量阶数取不同值时异常声音识别的结果,最终将PF分量最大阶数限制为7。
而针对筛选次数导致耗时的问题,本发明将分解结果作为筛选次数的反馈评估,选择与最佳分解结果对应的筛选次数,在减小LMD分解耗时的同时保证较好的分解效果。本发明采用方差比率Ratio=σ/σ0来反映LMD分解效果,各参数定义如下:
其中,x为原始信号,N为信号长度,x为原始信号x(t)的数学期望,r(t)为最终余项。
在此基础上,本发明对LMD的筛选次数限制K进行优化设置,K的值需要事先作一系列先验分解实验,并根据实验结果的统计分析进行设置。对大量异常声音信号的分解实验结果表明,K的值分布在20左右,因此设置K=20。统计分析实验的具体操作如下:
a.对最大筛选次数K进行限制,结合PF分量最大阶数为7的限制,作为整个LMD分解过程的停止条件之一,其中K的具体取值将由以下步骤确定;
b.让最大筛选次数K在[1,50]整数区间逐个取值,分别进行LMD分解,然后计算方差比率Ratio,在K-Ratio曲线中找到Ratio最小时对应的K。
(三)本发明中,LMD模态混叠的根源及改进:
引起模态混叠的根源在于,由于原始信号中高频间歇噪声的干扰,LMD在分解过程中得到的局部均值曲线和包络估计曲线将同时包含低频信号和高频间歇噪声的双重极值点信息,由此计算的PF分量也将包含不同频率成分。根据高斯白噪声的频率成分均匀分布于整个时-频空间的特性,总体局部均值分解ELMD能够有效缓解模态混叠,但是却带来较大的重构误差。
为此,本发明借鉴ELMD的基本思路,结合对LMD端点效应及分解耗时问题的改进,提出自适应噪声的完备总体局部均值分解(Complete Ensemble Local MeanDecomposition with Adaptive Noise,CELMDAN)方法。该方法的特点是引入分解嵌套思想,在加噪的第m轮环节中,在余项基础上叠加高斯噪声的第(m-1)阶PF分量,然后通过LMD分解得到该混合信号的第一阶PF分量,如此重复多次,取平均作为本方法的第m阶分量。最后,本发明方法分别对模拟信号和异常声音信号进行分解实验,验证了上述改进的有效性。
具体的分解步骤如下说明(除非特殊说明,此处及之后提到的LMD指的是在改进端点效应及分解耗时后的LMD方法):
1、第1轮加噪:分别将一定信噪比的白噪声wi(t)(i=1,2,…,I,其中I为加噪次数)叠加到原始信号x(t)上,然后通过LMD分解得到混合信号的第一阶分量,再取平均值作为本方法的第一阶PF分量:
其中,ε为加噪幅度,Lk[A(t)]表示LMD对信号A(t)分解得到的第k阶分量,此时的余项为:
r1(t)=x(t)-PF1
2、第2轮加噪:分别将白噪声wi(t)的第一阶PF分量叠加到r1(t)上,再用LMD分解得到混合信号的第一阶分量,取平均作为本方法的第二阶PF分量:
此时得到的余项为:
r2(t)=r1(t)-PF2
3、第m轮加噪:分别将白噪声wi(t)的第(m-1)阶PF分量叠加到余项rm-1(t)上(若白噪声的PF分量阶数不够,则该轮不加噪),然后通过LMD分解得到混合信号的第一阶分量,再取平均值作为本方法的第m阶PF分量,即:
此时得到的余项为:
rm(t)=rm-1(t)-PFm
4、重复执行M轮加噪,直至满足停止条件(余项的极值点数达到下限或者所得PF分量的阶数达到上限),最终的余项为:
rM(t)=rM-1(t)-PFM
至此,整个CELMDAN的分解流程结束。
自适应噪声的完备总体局部均值分解CELMDAN方法的模型为:
上式从理论上证明CELMDAN方法是完备的,即分解所得分量重构原信号的误差为零;其中:x(t)为需要分析的异常声音信号,PFm是分解结果中的一系列乘积函数,m表示分量阶数,而rM(t)是最终余项。各阶PF分量的产生方式:在加噪的第m轮环节中,在余项基础上叠加高斯噪声的第(m-1)阶PF分量,然后通过LMD分解得到该混合信号的第一阶分量,如此重复m次,取平均作为本方法的第m阶分量PFm
二、公共场所异常声音特征提取
公共场所异常声音比一般语音信号更复杂,它通常包含较多的频率成分,而且没有特定规律。提取异常声音信号的特征,实质上就是从中挖掘这些频率成分信息。因此时频分析方法不失为一种有效的分析手段,它在处理异常声音等非线性、非平稳信号方面比传统 语音信号处理方法更具优势。公共场所异常声音具有各自独特的频率-能量分布特点,因此频率-能量分布信息可以被用来利用概括其本质特征。
如图3所示,首先,利用本发明提出的CELMDAN方法将异常声音信号分解成一系列PF分量,***声信号的分解结果如图2所示。然后,计算各阶PF分量相对于原始信号的能量比km,并将其组合成向量形式作为特征向量。其中,为了尽可能减小运算量,结合Parseval定理能量守恒的思想,对于以离散点形式存在的信号,本发明拟采用各离散点的幅值平方和作为该信号的能量表征。最后,将上述得到的特征向量输入M-ary SVM分类器,即可得到分类识别结果。
图4为本发明与其它几种异常声音特征提取方法的ROC曲线对比图。其中,MFCC为梅尔频率倒谱系数,EEMD为总体经验模态分解方法,ESMD为极点对称模态分解方法,ELMD为总体局部均值分解方法,CELMDAN为本发明提出的基于自适应噪声的完备总体局部均值分解方法。

Claims (7)

1.公共场所异常声音特征提取方法,其特征在于:首先,采集公共场所异常声音信号,完成声音信号的预处理;然后,采用自适应噪声的完备总体局部均值分解CELMDAN方法将公共场所异常声音信号分解为一系列乘积函数PF分量,每阶分量分别包含异常声音信号的某个频率段信息;再然后,用各阶PF分量与异常声音信号的能量比作为其特征向量,判断特征向量是否有效;最后,将有效的特征向量输入支持向量机SVM进行识别;
所述的CELMDAN方法是基于局部均值分解LMD方法,并对该方法的端点效应、分解耗时及模态混叠问题进行改进而获得;所述的CELMDAN方法的核心是CELMDAN方法的模型的建立;
所述的端点效应的问题改进是采用边界处理方法,估计信号两侧极值信息,缓解端点效应;
所述的分解耗时的问题改进是采用线性插值过程代替局部均值分解LMD的滑动平均过程,并且将乘积函数PF分量作为反馈评估,对乘积函数PF分量阶数及筛选次数进行约束,减小分解耗时;
所述的模态混叠问题的改进是采用自适应加噪方式,通过噪声缓解模态混叠,降低重构误差。
2.根据权利要求1所述的公共场所异常声音特征提取方法,其特征在于,所述的边界处理包括左边界处理和右边界处理;左边界处理方法如下:首先将信号的左端点值记为Y1,由信号第一、二个极大值点构成的直线方程为y(t)=k1(t-1)+b1,由信号第一、二个极小值点构成的直线方程为y(t)=k2(t-1)+b2,式中,k为连接两个极值点的直线的斜率,b为直线与y轴的交点,补充过后左边界极大值Zmax,左边界极小值依次记为Zmin;具体处理方法如下:
步骤2.1:若满足表达式b2≤Y1≤b1,则Zmax=b1且Zmin=b2
步骤2.2:若满足表达式b1<Y1≤(b1+b2)/2+(b1-b2)=(3b1-b2)/2,则Zmax=Y1且Zmin=b2;否则若(3b2-b1)/2=(b1+b2)/2-(b1-b2)≤Y1<b2,则Zmax=b1且Zmin=Y1
步骤2.3:若满足表达式Y1>(3b1-b2)/2,则Zmax=Y1,以第一个极小值点作直线y(t)=k*(t-1)+b*,该直线平行于过左端点和第一个极大值点的直线,且Zmin=b*;否则若Y1<(3b2-b1)/2,则Zmin=Y1,以第一个极大值点作直线y(t)=k*(t-1)+b*,该直线平行于过左端点和第一个极小值点的直线,且Zmax=b*p;对于右边的处理方式与左边界处理方式相同。
3.根据权利要求1所述的公共场所异常声音特征提取方法,其特征在于,所述的采用线性插值过程代替局部均值分解LMD的滑动平均过程,包括:首先对信号x(t)的极大值点、极小值点分别进行线性插值,得到相应的上包络线A(t)、下包络线B(t);然后根据式
m 11 ( t ) = A ( t ) + B ( t ) 2 a 11 ( t ) = | A ( t ) - B ( t ) | 2
计算局部均值曲线m11(t)和包络估计曲线a11(t)。
4.根据权利要求1所述的公共场所异常声音特征提取方法,其特征在于,所述的对乘积函数PF分量阶数及筛选次数进行约束的具体操作为:首先,采用方差比率Ratio=σ/σ0来反映LMD分解效果,各参数定义如下:
&sigma; = 1 N &Sigma; n = 1 N &lsqb; x ( n ) - r ( n ) &rsqb; 2 &sigma; 0 = 1 N &Sigma; n = 1 N &lsqb; x ( n ) - x &OverBar; &rsqb; 2
其中,x(n)为原始信号,N为原始信号长度,为原始信号x(t)的数学期望,r(t)为最终余项;然后,对LMD的筛选次数限制K进行优化设置,K的值需要事先作一系列先验分解实验,并根据实验结果的统计分析进行设置。
5.根据权利要求1所述的公共场所异常声音特征提取方法,其特征在于,所述的自适应加噪方式的特点是分解嵌套思想,具体的分解步骤如下:
第1轮加噪:分别将一定信噪比的白噪声wi(t)叠加到原始信号x(t)上,i=1,2,…,I,其中I为加噪次数;然后通过LMD分解得到混合信号的第一阶分量,再取平均值作为本方法的第一阶PF分量:
PF 1 = 1 I &Sigma; i = 1 I L 1 &lsqb; &epsiv;w i ( t ) + x ( t ) &rsqb;
其中,ε为加噪幅度,Lk[A(t)]表示LMD对信号A(t)分解得到的第k阶分量,此时的余项为:
r1(t)=x(t)-PF1
第2轮加噪:分别将白噪声wi(t)的第一阶PF分量叠加到r1(t)上,再用LMD分解得到混合信号的第一阶分量,取平均作为本方法的第二阶PF分量:
PF 2 = 1 I &Sigma; i = 1 I L 1 &lsqb; &epsiv;L 1 ( w i ( t ) ) + r 1 ( t ) &rsqb;
此时得到的余项为:
r2(t)=r1(t)-PF2
第m轮加噪:分别将白噪声wi(t)的第(m-1)阶PF分量叠加到余项rm-1(t)上,若白噪声的PF分量阶数不够,则该轮不加噪;然后通过LMD分解得到混合信号的第一阶分量,再取平均值作为本方法的第m阶PF分量,即:
PF m = 1 I &Sigma; i = 1 I L 1 &lsqb; &epsiv; L m - 1 ( w i ( t ) ) + r m - 1 ( t ) &rsqb; , &Exists; L m - 1 &lsqb; &epsiv; w i ( t ) &rsqb; 1 I &Sigma; i = 1 I L 1 &lsqb; r m - 1 ( t ) &rsqb; , e l s e
此时得到的余项为:
rm(t)=rm-1(t)-PFm
重复执行M轮加噪,直至满足停止条件,即余项的极值点数达到下限或者所得PF分量的阶数达到上限,最终的余项为rM(t)=rM-1(t)-PFM
6.根据权利要求1所述的公共场所异常声音特征提取方法,其特征在于,所述的CELMDAN方法的模型为:
x ( t ) = &Sigma; m = 1 M PF m + r M ( t )
上式从理论上证明CELMDAN方法是完备的,即分解所得分量重构原信号的误差为零;其中:x(t)为需要分析的异常声音信号,PFm是分解结果中的一系列乘积函数,m表示分量阶数,而rM(t)是最终余项;各阶PF分量的产生方式:在加噪的第m轮环节中,在余项基础上叠加高斯噪声的第(m-1)阶PF分量,然后通过LMD分解得到该混合信号的第一阶分量,如此重复m次,取平均作为本方法的第m阶分量PFm
7.根据权利要求1所述的公共场所异常声音特征提取方法,其特征在于,所述的公共场所异常声音特征提取的操作步骤具体如下:
步骤7.1:用CELMDAN方法对公共场所异常声音信号进行分解,得到PF分量。
步骤7.2:计算原始异常声音信号能量E及各分量的能量Ei;计算各阶PF分量相对于原始异常声音信号的能量比,并组合成向量形式进行归一化处理,作为原始信号的特征向量。
步骤7.3:将归一化后的异常声音特征向量输入M-ay SVM分类器,得到识别结果,判断异常声音种类。
CN201610680298.4A 2016-08-17 2016-08-17 公共场所异常声音特征提取方法 Active CN106328120B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610680298.4A CN106328120B (zh) 2016-08-17 2016-08-17 公共场所异常声音特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610680298.4A CN106328120B (zh) 2016-08-17 2016-08-17 公共场所异常声音特征提取方法

Publications (2)

Publication Number Publication Date
CN106328120A true CN106328120A (zh) 2017-01-11
CN106328120B CN106328120B (zh) 2020-01-10

Family

ID=57743049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610680298.4A Active CN106328120B (zh) 2016-08-17 2016-08-17 公共场所异常声音特征提取方法

Country Status (1)

Country Link
CN (1) CN106328120B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107527617A (zh) * 2017-09-30 2017-12-29 上海应用技术大学 基于声音识别的监控方法、装置及***
CN109630908A (zh) * 2019-01-23 2019-04-16 常州大学 一种多次降噪的管道泄漏定位方法
CN110189756A (zh) * 2019-06-28 2019-08-30 北京派克盛宏电子科技有限公司 一种用于监测生猪异常声音的方法及***
CN111337277A (zh) * 2020-02-21 2020-06-26 云知声智能科技股份有限公司 一种基于声音识别的家用电器故障判定方法及装置
CN113505703A (zh) * 2021-07-13 2021-10-15 天津工业大学 一种用于噪声分布不均匀的光谱信号去噪方法
CN114863951A (zh) * 2022-07-11 2022-08-05 中国科学院合肥物质科学研究院 一种基于模态分解的构音障碍快速检测方法
CN114997242A (zh) * 2022-06-30 2022-09-02 吉林大学 一种极值定位波形延拓lmd信号分解方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10253444A (ja) * 1997-03-14 1998-09-25 Tokyo Gas Co Ltd 異常音の検出方法及びその検出値を用いた機械の異常判定方法、並びに、振動波の類似度検出方法及びその検出値を用いた音声認識方法
JP2010008474A (ja) * 2008-06-24 2010-01-14 National Institute Of Advanced Industrial & Technology 非日常音検出システム
CN102063180A (zh) * 2010-10-29 2011-05-18 西安交通大学 基于hht高频组合编码稳态视觉诱发电位脑机接口方法
CN102522082A (zh) * 2011-12-27 2012-06-27 重庆大学 一种公共场所异常声音的识别与定位方法
CN102855408A (zh) * 2012-09-18 2013-01-02 福州大学 基于ica的改进emd过程中imf判定方法
CN103730109A (zh) * 2014-01-14 2014-04-16 重庆大学 一种公共场所异常声音特征提取方法
CN103941091A (zh) * 2014-04-25 2014-07-23 福州大学 基于改进emd端点效应的电力***hht谐波检测方法
CN104637481A (zh) * 2015-01-22 2015-05-20 沈阳大学 基于lmd及能量投影法的车型音频特征提取方法
CN104835498A (zh) * 2015-05-25 2015-08-12 重庆大学 基于多类型组合特征参数的声纹识别方法
CN105125204A (zh) * 2015-07-31 2015-12-09 华中科技大学 一种基于esmd方法的心电信号降噪方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10253444A (ja) * 1997-03-14 1998-09-25 Tokyo Gas Co Ltd 異常音の検出方法及びその検出値を用いた機械の異常判定方法、並びに、振動波の類似度検出方法及びその検出値を用いた音声認識方法
JP2010008474A (ja) * 2008-06-24 2010-01-14 National Institute Of Advanced Industrial & Technology 非日常音検出システム
CN102063180A (zh) * 2010-10-29 2011-05-18 西安交通大学 基于hht高频组合编码稳态视觉诱发电位脑机接口方法
CN102522082A (zh) * 2011-12-27 2012-06-27 重庆大学 一种公共场所异常声音的识别与定位方法
CN102855408A (zh) * 2012-09-18 2013-01-02 福州大学 基于ica的改进emd过程中imf判定方法
CN103730109A (zh) * 2014-01-14 2014-04-16 重庆大学 一种公共场所异常声音特征提取方法
CN103941091A (zh) * 2014-04-25 2014-07-23 福州大学 基于改进emd端点效应的电力***hht谐波检测方法
CN104637481A (zh) * 2015-01-22 2015-05-20 沈阳大学 基于lmd及能量投影法的车型音频特征提取方法
CN104835498A (zh) * 2015-05-25 2015-08-12 重庆大学 基于多类型组合特征参数的声纹识别方法
CN105125204A (zh) * 2015-07-31 2015-12-09 华中科技大学 一种基于esmd方法的心电信号降噪方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张亢: "局部均值分解方法及其在旋转机械故障诊断中的应用研究", 《中国博士学位论文全文数据库 工程科技Ⅱ辑》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107527617A (zh) * 2017-09-30 2017-12-29 上海应用技术大学 基于声音识别的监控方法、装置及***
CN109630908A (zh) * 2019-01-23 2019-04-16 常州大学 一种多次降噪的管道泄漏定位方法
CN110189756A (zh) * 2019-06-28 2019-08-30 北京派克盛宏电子科技有限公司 一种用于监测生猪异常声音的方法及***
CN111337277A (zh) * 2020-02-21 2020-06-26 云知声智能科技股份有限公司 一种基于声音识别的家用电器故障判定方法及装置
CN113505703A (zh) * 2021-07-13 2021-10-15 天津工业大学 一种用于噪声分布不均匀的光谱信号去噪方法
CN114997242A (zh) * 2022-06-30 2022-09-02 吉林大学 一种极值定位波形延拓lmd信号分解方法
CN114997242B (zh) * 2022-06-30 2023-08-29 吉林大学 一种极值定位波形延拓lmd信号分解方法
CN114863951A (zh) * 2022-07-11 2022-08-05 中国科学院合肥物质科学研究院 一种基于模态分解的构音障碍快速检测方法
CN114863951B (zh) * 2022-07-11 2022-09-23 中国科学院合肥物质科学研究院 一种基于模态分解的构音障碍快速检测方法

Also Published As

Publication number Publication date
CN106328120B (zh) 2020-01-10

Similar Documents

Publication Publication Date Title
CN106328120A (zh) 公共场所异常声音特征提取方法
CN103730109B (zh) 一种公共场所异常声音特征提取方法
CN106228979B (zh) 一种公共场所异常声音特征提取及识别方法
CN101149921B (zh) 一种静音检测方法和装置
CN103065627A (zh) 基于dtw与hmm证据融合的特种车鸣笛声识别方法
CN105810213A (zh) 一种典型异常声音检测方法及装置
CN103995237A (zh) 一种卫星电源***在线故障诊断方法
CN110879372A (zh) 基于特征相关的牵引***主回路接地故障诊断方法及***
CN107728028A (zh) 基于单类支持向量机的gis局部放电故障判别方法
CN111627429A (zh) 一种基于CycleGAN的语音识别模型的防御方法及装置
CN107688553A (zh) 基于小波变换和逻辑回归算法检测心电波形特征的方法
CN105760347A (zh) 一种基于数据/极值联合对称延拓的hht端点效应抑制方法
CN104485979A (zh) 基于时频图修正的欠定混合跳频参数盲估计方法
CN108009122A (zh) 一种改进的hht方法
CN104200093B (zh) 一种积分延拓抑制局域均值分解端点效应的方法
CN104614767A (zh) 基于分段延拓的时变地震子波相位校正方法
CN114358093A (zh) 一种电力设备中局部放电的检测方法及设备
Moravej et al. Power transformer protection scheme based on time‐frequency analysis
CN109635428B (zh) 一种基于机械状态信号分析的gis机械故障诊断方法
Zhou et al. Robust Sound Event Detection Through Noise Estimation and Source Separation Using NMF.
CN104267835A (zh) 自适应手势识别方法
CN106207995A (zh) 一种差动保护方法、装置及其ct饱和识别方法、装置
CN109342091A (zh) 基于自适应形态滤波及改进emd的振动故障提取方法
Graciarena et al. The SRI System for the NIST OpenSAD 2015 Speech Activity Detection Evaluation.
CN116720059A (zh) CEEMDAN-Grey-SSA弱信号提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant