CN114333773A - 一种基于自编码器的工业场景异常声音检测与识别方法 - Google Patents

一种基于自编码器的工业场景异常声音检测与识别方法 Download PDF

Info

Publication number
CN114333773A
CN114333773A CN202111513430.XA CN202111513430A CN114333773A CN 114333773 A CN114333773 A CN 114333773A CN 202111513430 A CN202111513430 A CN 202111513430A CN 114333773 A CN114333773 A CN 114333773A
Authority
CN
China
Prior art keywords
sound
abnormal
imf
signal
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111513430.XA
Other languages
English (en)
Inventor
罗文俊
邵鑫
陈自刚
陈龙
牟覃宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202111513430.XA priority Critical patent/CN114333773A/zh
Publication of CN114333773A publication Critical patent/CN114333773A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明提出了一种基于自编码器的工业场景异常声音检测与识别方法,该方法包括三个过程:声音特征的提取、工业场景声音建模和异常声音的检测与识别。工业场景的声音特征提取,预处理之后的每帧信号经互补集合经验模态分解,得到若干层固有模态函数(Intrinsic Mode Function,IMF)分量,将各层IMF分量的短时能量、IMF能量与该帧原始信号的能量比和IMF的梅尔倒谱系数取合集,构成目标声音信号的特征向量;用提取的特征向量训练自编码器,调整编码器和解码器的参数,得到正常场景声音模型和特定异常场景声音模型;异常声音检测与识别,将待测声音特征经过训练好的自编码器,通过重构误差的阈值条件判定待测声音是否为异常声音或某种已知异常声音。

Description

一种基于自编码器的工业场景异常声音检测与识别方法
技术领域
本发明涉及声音信号处理技术,具体涉及一种基于自编码器的工业场景异常声音检测与识别方法。
背景技术
声音是一种重要的信息载体,其中蕴含着十分重要的信息。同时异常事件的发生往往会伴随着异常声音的产生,例如公共场景下的异常事件往往伴有***声、尖叫声、玻璃***声。同样在工业场景下,正常运行下的各种设备会产生规则的振动,其声音特征有一定的规律,一旦发生了机器损坏或其他异常事件,工业场景的声音特征将会发生改变,因此检测并识别声音信号中的异常声音对工业场景的安全监控具有重要作用。
目前,许多异常声音的识别采用梅尔倒谱系数(MFCC)、线性预测系数(LPC)、短时能量和短时平均过零率等时域和频域特征作为声音信息的特征。但异常声音具有高度的非平稳性和非线性,导致单一特征的提取会使最终的识别效率降低。因此对于声音特征的提取既需要结合提取的不同类型的特征,同时也需要突出各类特征的作用,这样才能使得提取的特征更适合于异常声音的检测与识别。
经验模态分解(Empirical Mode Decomposition,EMD)是一种自适应信号处理方法,它依据数据自身的时间尺度来进行信号分解,产生多个具有不同特征尺度的数据序列,从本质上对信号进行了平稳化处理,因此比较适合对非线性非平稳信号的处理。互补集合经验模态分解(Complementary Ensemble Empirical Mode Decomposition,CEEMD)是EMD的一种改进算法,能够有效的降低模态混叠,还可以一定程度提高计算速度,并且将IMF进行重构,重构信号与初始信号差别更小,说明其分解效果更好。
自编码器是一种典型的无监督深度学习模型,旨在通过将网络的期望输出(声音特征的重构输出)等同于输入样本(声音特征的输入),实现对输入样本的抽象特征学习。
发明内容
本发明提出一种基于自编码器的工业场景异常声音的检测与识别方法和***,有效的提高了工业场景下异常声音检测的泛化性和已知异常声音识别的准确性。
本发明的目的在于填补针对工业场景异常声音检测与识别领域的空缺并改进现有技术的不足,采用互补集合经验模态分解声音信号,综合不同类型的声音特征并突出各类特征的作用,来训练不同类别的自编码器,构建工业场景声音模型,通过训练完成的自编码器来实现对异常的检测和已知异常的识别。
本发明方案具体包括工业场景声音特征提取、工业场景声音建模和异常声音检测与识别三个部分。
声音特征的提取过程为:
对训练数据中工业场景的正常声音样本和已知异常声音样本进行预加重、分帧和加窗。
将每帧信号经CEEMD将其分解成若干层IMF分量。
计算每一层IMF的短时能量、每一层IMF能量与原始信号的能量比值和每一层IMF的MFCC,并取三者的并集构成目标声音信号的特征向量。
工业场景声音建模过程为:
将提取的特征向量输入自编码器;
编码:编码器将输入特征向量X,转换为潜在特征Z;
解码:解码器将潜在特征Z,重构成输入特征向量X';
利用平方误差函数计算网络误差J(X,X′);
利用梯度下降算法反向传播误差以调整网络参数训练自编码器,通过迭代微调逐步使重构误差函数达到最小值,以学习样本数据中的关键抽象特征,得到工业场景声音模型。
异常声音检测与识别过程为:
对待测声音进行预处理,并提取其特征向量;
将特征向量输入到训练好的异常检测自编码器或异常识别自编码器进行特征重构,得到重构误差分数;
通过重构误差的阈值条件判定待测声音是否为异常声音或某种已知异常声音。
本发明的优点在于:(1)对于声音特征的提取,将CEEMD算法和短时能量、能量比、MFCC相结合,即综合了不同特征的特点,又突出各类特征的作用,有利于异常声音的检测与识别。(2)采用无监督的自编码器学习样本数据中的关键抽象特征,具有很强的特征表示能力,并且网络结构相对简单、容易训练。
附图说明
图1本发明方案的整体框图;
图2本发明方案工业场景声音特征的提取流程图;
图3本发明方案异常检测自编码器与异常识别自编码器的训练的流程图;
具体实施方式
下面结合附图,详细描述本发明的技术方案。
图1为本发明方案的整体框图,具体涉及一种基于自编码器的工业场景异常声音检测与识别方法及***。该方法针对工业场景下的声音信号,首先是对工业场景的声音进行预处理,包括预加重、分帧和加窗;然后每帧信号经CEEMD将其分解成若干层IMF分量,计算每一层的IMF的短时能量、每一层IMF能量与原始信号的能量比值和每一层IMF的MFCC,并取三者的并集构成目标声音信号的特征向量;用提取的特征向量训练自编码器,对正常声音和已知异常声音的特征进行重建,利用梯度下降算法反向传播误差以调整网络参数,通过迭代微调逐步使重构误差函数达到最小值,以学习样本数据中的关键抽象特征,得到工业场景声音模型;最后异常声音检测与识别,异常声音的特征经过训练好的自编码器后,无法很好的重建特征,会产生很大的重构误差,以此重构误差与误差阈值进行比较,再通过阈值条件判定待测声音是否为异常声音;同理异常声音的特征经过异常识别自编码器后,通过阈值条件判定待测声音是否为某种已知异常。
本发明方案主要包括工业场景声音特征提取、工业场景声音建模和异常声音检测与识别三个模块。
图2是本发明方案中的工业场景声音特征提取流程图,具体步骤为:
步骤1、输入一帧待提取的目标信号,信号长度为N;
步骤2、计算该帧信号的能量E;
步骤3、初始化重复次数Q;
步骤4、对初始信号s(t)加入一对幅值相同,相位相反的随机白噪声±wq(t)(q=1,2...Q)得到Hq(t)和Jq(t),即:
Figure BDA0003403862260000031
步骤5、计算Hq(t)和Jq(t)的所有极值点,利用三次样条插值法将所有极大值和极小值点连接起来,形成Hq(t)和Jq(t)上包络线uH(t)、uJ(t)和下包络线vH(t)、vJ(t),将上下包络线相加求平均值,得到信号的平均包络线mH(t)、mJ(t);
步骤6、用Hq(t)和Jq(t)减去各自对应的mH(t)、mJ(t),结果得到一个新序列hHi(t)和hJi(t),即:
Figure BDA0003403862260000041
步骤7、根据IMF约束条件判断hHi(t)和hJi(t)是否是要求得的函数,若不是,则用hHi(t)、hJi(t)替换原来的信号Hq(t)和Jq(t),然后继续执行步骤5至步骤7;若满足IMF约束条件,则输出hHi(t)和hJi(t)作为本层的
Figure BDA0003403862260000042
Figure BDA0003403862260000043
将本层的
Figure BDA0003403862260000044
Figure BDA0003403862260000045
记为
Figure BDA0003403862260000046
Figure BDA0003403862260000047
IMF约束条件:
1、在整个数据段内,极值点的个数和过零点的个数必须相等或相差最多不能超过一个。
2、在任意时刻,由局部极大值点形成的上包络线和由局部极小值点形成的下包络线的平均值为零,即上、下包络线相对于时间轴局部对称。
步骤8、从Hq(t)和Jq(t)中减去刚刚求得的IMF分量
Figure BDA0003403862260000048
Figure BDA0003403862260000049
结果得到残余函数
Figure BDA00034038622600000410
Figure BDA00034038622600000411
将残余函数
Figure BDA00034038622600000412
Figure BDA00034038622600000413
看成新的初始信号Hq(t)和Jq(t),重复执步骤5至步骤8,直到分解得到所规定M层的IMF;
步骤9、判断当前重复次数是否等于Q,若不等于Q,继续执行步骤4至步骤9,直到完成Q次重复为止;
步骤10、对Q次EMD得到的所有各层的IMF分量分别求整体平均,得到最终每层的IMF分量,即:
Figure BDA00034038622600000414
步骤11、计算每层的IMF的能量,并计算该层IMF能量与该帧原始信号的能量比;
步骤12、计算每层的IMF的MFCC;
步骤13、将信号能量E、各层IMF能量与该帧原始信号的能量比和每层IMF的MFCC的平均值合并,构成目标声音信号的特征向量。
图3是本发明方案中的工业场景声音建模流程图,具体步骤为:
步骤1、初始化最小迭代次数N,隐含层节点数m,激活函数g(.),学习效率η,期望误差
Figure BDA0003403862260000051
随机赋值连接权值W与节点偏置bm、bd,得到映射函数:f:Rn→Rn
步骤2、正向传播,计算出隐含层输出H和样本重构X′,即:
H=g(WX+bm)
X′=g(WTH+bd)
步骤3、利用平方误差函数,计算网络误差J(W,b),即:
Figure BDA0003403862260000052
步骤4、反向传播,利用梯度下降算法,更新权值W和偏置bm、bd,即:
Figure BDA0003403862260000053
Figure BDA0003403862260000054
步骤4、判断当前迭代次数是否等于Q,若不等于Q,则重复执行步骤2至步骤4,直到完成Q次重复进入步骤5;
步骤5、判断重构误差是否小于期望误差
Figure BDA0003403862260000055
若否,则重复执行步骤2步骤5,直到重构误差小于期望误差
Figure BDA0003403862260000056
进入步骤6;
返回映射函数,即:
f(X)=g(WTg(WX+bm)+bd)
即得到工业场景声音模型。
本发明方案中的工业场景异常声音的检测和识别包括以下步骤:
步骤1、将期望误差
Figure BDA0003403862260000057
作为重构误差的阈值;
步骤2、将待检测的声音特征输入训练好的异常检测自编码器;
步骤3、对重构异常分数S进行阈值
Figure BDA0003403862260000058
处理,进行异常声音的检测,即
Figure BDA0003403862260000059
步骤4、将测试集的异常声音特征输入多个异常识别自编码器;
步骤5、对重构异常分数S进行阈值
Figure BDA00034038622600000510
处理,进行异常声音的识别;
步骤6、将无法识别的异常判定为未知异常。

Claims (5)

1.一种基于自编码器的工业场景异常声音检测与识别方法,其特征在于:首先是对工业场景的声音进行预处理,包括预加重、分帧和加窗;然后每帧信号经互补集合经验模态分解(Complementary Ensemble Empirical Mode Decomposition,CEEMD),得到若干层IMF分量,计算每一层的IMF的短时能量、每一层IMF能量与原始信号的能量比值和每一层IMF的梅尔倒谱系数(Mel Frequency CepstrumCoefficients,MFCC),并取三者的并集构成目标声音信号的特征向量;用提取的特征向量训练自编码器,对正常声音和已知异常声音的特征进行重建,利用梯度下降算法反向传播误差以调整网络参数,通过迭代微调逐步使重构误差函数达到最小值,以学习样本数据中的关键抽象特征,得到正常场景声音模型和特定异常场景声音模型;最后异常声音检测与识别,异常声音的特征经过训练好的异常检测自编码器后,无法很好的重建特征,会产生很大的重构误差,以此重构误差与误差阈值进行比较,再通过阈值条件判定待测声音是否为异常声音;同理异常声音的特征经过异常识别自编码器后,通过阈值条件判定待测声音是否为特定异常;
所诉方法具体包括三个必要过程:声音特征提取、场景声音建模和异常声音检测与识别。
(1)声音特征提取过程为:
(1.1)对工业场景的正常声音和已知异常声音的样本进行预加重、分帧和加窗;
(1.2)将每帧信号经CEEMD将其分解成若干层IMF分量;
(1.3)计算每一层的IMF的短时能量、每一层IMF能量与原始信号的能量比值和每一层IMF的MFCC,并取三者的并集构成目标声音信号的特征向量。
(2)工业场景声音建模过程为:
(2.1)编码:编码器将输入特征向量X,转换为潜在特征Z;
(2.2)解码:解码器将潜在特征Z,重构成输入特征向量X';
(2.3)利用平方误差函数计算网络误差J(X,X′);
(2.4)利用梯度下降算法反向传播误差以调整网络参数,通过迭代微调逐步使重构误差函数达到最小值,以学习样本数据中的关键抽象特征,得到工业场景声音模型。
(3)异常声音检测与识别过程为:
(3.1)对待测声音进行预处理,并提取其特征向量;
(3.2)将特征向量输入到训练好的异常检测自编码器或异常识别自编码器进行特征重构,得到重构误差分数;
(3.3)通过重构误差的阈值条件判定待测声音是否为异常声音或某种已知异常声音。
2.如权利要求1所述基于自编码器的工业场景异常声音检测与识别方法,其特征在于,预处理的过程为:
(2.1)预加重:预加重技术的主要作用就是增强信号的高频成分,以补偿信号的高频分量在传输过程中的衰减。一般情况下常采用一阶FIR高通数字滤波器来对信号进行预加重处理,其传递函数为:
H(z)=1-μz-1
其中μ为预加重系数,0.9<μ<1.0。
(2.2)分帧:语音信号具有短时平稳性,因此可以对异常声音信号进行分段处理,其中分开的每段称为一帧。分帧时一般采用重叠分段的方法,两帧重合的数据部分称为帧移。帧移一般取帧长的1/4~1/2。
(2.3)加窗:语音信号的分帧是采用可移动的有限长度窗口进行加权的方法来实现的,在语音领域,最常见的窗函数是利用余弦函数的汉宁窗(Hanning windows)和汉明窗(Hamming windows)。对于长度为N的离散信号x[n],0≤n≤N-1,这两种窗函数所对应的权重ω[n]可表示为:
Figure FDA0003403862250000021
其中当α=0.5时,为汉宁窗;当α=0.46时,为汉明窗。对异常声音信号进行预处理时,需要尽可能保留声音信号的波形特征,通过综合考虑,选择汉明窗进行分帧。
3.如权利要求1所述基于自编码器的工业场景异常声音检测与识别方法,其特征在于,预处理后的信号特征提取过程为:
(3.1)输入一帧待提取的目标信号;
(3.2)计算该帧信号的能量E;
(3.3)初始化迭代次数Q;
(3.4)对初始信号s(t)加入一对幅值相同,相位相反的随机白噪声±wq(t),其中q表示第q次迭代,q=1,2...Q,得到Hq(t)和Jq(t);
(3.5)以信号Hq(t)和Jq(t)为分解对象,应用EMD方法展开分解,从而获得两者的IMF分量
Figure FDA0003403862250000022
Figure FDA0003403862250000023
即:
Figure FDA0003403862250000031
(3.6)判断当前迭代次数是否满足Q次,若不等于Q,继续执行步骤(3.4)至步骤(3.6),直到完成Q次重复为止;
(3.7)对Q次EMD得到的所有各层的IMF分量分别求整体平均,得到最终每层的IMF分量,即:
Figure FDA0003403862250000032
(3.8)计算每层的IMF的能量,并计算该层IMF能量与该帧原始信号的能量比;
(3.9)计算每层的IMF的MFCC;
(3.10)将信号能量E、各层IMF能量与该帧原始信号的能量比和每层IMF的MFCC的,并取三者的并集构成目标声音信号的特征向量;
4.如权利要求1所述基于自编码器的工业场景异常声音检测与识别方法,其特征在于,工业场景声音建模过程为:
(4.1)初始化最小迭代次数N,隐含层节点数m,激活函数g(.),学习效率η,期望误差
Figure FDA0003403862250000033
随机赋值连接权值W与节点偏置bm、bd,得到映射函数:f:Rn→Rn
(4.2)输入特征向量样本X,正向传播,利用
H=g(WX+bm)
X′=g(WTH+bd)
计算出隐含层输出H和样本重构X′;
(4.3)利用平方误差函数
Figure FDA0003403862250000034
计算网络误差J(W,b);
(4.4)反向传播,利用梯度下降算法,连接权值与偏置更新式为:
Figure FDA0003403862250000035
Figure FDA0003403862250000041
更新权值W和偏置bm、bd
(4.5)判断当前迭代次数是否等于Q,若不等于Q,则重复执行步骤(4.2)步骤(4.5),直到完成Q次重复进入步骤(4.6);
(4.6)判断重构误差是否小于期望误差
Figure FDA0003403862250000042
若否,则重复执行步骤(4.2)步骤(4.6),直到重构误差小于期望误差
Figure FDA0003403862250000043
进入步骤(4.7);
(4.7)返回映射函数
f(X)=g(WTg(WX+bm)+bd)
即得到正常场景声音模型和特定异常场景声音模型。
5.如权利要求1所述基于自编码器的工业场景异常声音检测与识别方法,其特征在于,异常声音检测与识别过程为:
(5.1)将期望误差
Figure FDA0003403862250000044
作为重构误差的阈值;
(5.1)将待检测的声音特征输入训练好的异常检测自编码器;
(5.2)对重构误差分数S进行阈值
Figure FDA0003403862250000045
处理,进行异常声音的检测,
Figure FDA0003403862250000046
(5.3)将被判定为异常声音的特征输入多个异常识别自编码器;
(5.4)对异常分数S进行阈值
Figure FDA0003403862250000047
处理,进行异常声音的识别;
(5.5)将无法识别的异常判定为未知异常。
CN202111513430.XA 2021-12-10 2021-12-10 一种基于自编码器的工业场景异常声音检测与识别方法 Pending CN114333773A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111513430.XA CN114333773A (zh) 2021-12-10 2021-12-10 一种基于自编码器的工业场景异常声音检测与识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111513430.XA CN114333773A (zh) 2021-12-10 2021-12-10 一种基于自编码器的工业场景异常声音检测与识别方法

Publications (1)

Publication Number Publication Date
CN114333773A true CN114333773A (zh) 2022-04-12

Family

ID=81051448

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111513430.XA Pending CN114333773A (zh) 2021-12-10 2021-12-10 一种基于自编码器的工业场景异常声音检测与识别方法

Country Status (1)

Country Link
CN (1) CN114333773A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115424635A (zh) * 2022-11-03 2022-12-02 南京凯盛国际工程有限公司 一种基于声音特征的水泥厂设备故障诊断方法
CN116453526A (zh) * 2023-04-24 2023-07-18 中国长江三峡集团有限公司 基于声音识别的水轮发电机组多工况异常监测方法及装置
CN117059128A (zh) * 2023-09-04 2023-11-14 深圳远大科技工程有限公司 基于声音识别的机房异常监测方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115424635A (zh) * 2022-11-03 2022-12-02 南京凯盛国际工程有限公司 一种基于声音特征的水泥厂设备故障诊断方法
CN115424635B (zh) * 2022-11-03 2023-02-10 南京凯盛国际工程有限公司 一种基于声音特征的水泥厂设备故障诊断方法
CN116453526A (zh) * 2023-04-24 2023-07-18 中国长江三峡集团有限公司 基于声音识别的水轮发电机组多工况异常监测方法及装置
CN116453526B (zh) * 2023-04-24 2024-03-08 中国长江三峡集团有限公司 基于声音识别的水轮发电机组多工况异常监测方法及装置
CN117059128A (zh) * 2023-09-04 2023-11-14 深圳远大科技工程有限公司 基于声音识别的机房异常监测方法

Similar Documents

Publication Publication Date Title
CN114333773A (zh) 一种基于自编码器的工业场景异常声音检测与识别方法
Dave Feature extraction methods LPC, PLP and MFCC in speech recognition
JP5554893B2 (ja) 音声特徴ベクトル変換方法及び装置
Tachibana et al. An investigation of noise shaping with perceptual weighting for WaveNet-based speech generation
CN109346087B (zh) 对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法和装置
CN112767959B (zh) 语音增强方法、装置、设备及介质
CN113506562A (zh) 基于声学特征与文本情感特征融合的端到端语音合成方法及***
CN109036470B (zh) 语音区分方法、装置、计算机设备及存储介质
Yuliani et al. Speech enhancement using deep learning methods: A review
CN110648684B (zh) 一种基于WaveNet的骨导语音增强波形生成方法
CN111899757A (zh) 针对目标说话人提取的单通道语音分离方法及***
CN112086100B (zh) 基于量化误差熵的多层随机神经网络的城市噪音识别方法
CN114495969A (zh) 一种融合语音增强的语音识别方法
CN114783418B (zh) 基于稀疏自注意力机制的端到端语音识别方法及***
Yoneyama et al. Unified source-filter GAN: Unified source-filter network based on factorization of quasi-periodic parallel WaveGAN
CN111724809A (zh) 一种基于变分自编码器的声码器实现方法及装置
Labied et al. An overview of automatic speech recognition preprocessing techniques
Zhang et al. Complex image generation swintransformer network for audio denoising
CN116631383A (zh) 基于自监督预训练和交互式融合网络的语音识别方法
Saeki et al. SelfRemaster: Self-supervised speech restoration with analysis-by-synthesis approach using channel modeling
Gaafar et al. An improved method for speech/speaker recognition
Srivastava Fundamentals of linear prediction
CN113066483B (zh) 一种基于稀疏连续约束的生成对抗网络语音增强方法
Maged et al. Improving speaker identification system using discrete wavelet transform and AWGN
CN108573698B (zh) 一种基于性别融合信息的语音降噪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination