CN114333773A

CN114333773A - 一种基于自编码器的工业场景异常声音检测与识别方法

Info

Publication number: CN114333773A
Application number: CN202111513430.XA
Authority: CN
Inventors: 罗文俊; 邵鑫; 陈自刚; 陈龙; 牟覃宇
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-12-10
Filing date: 2021-12-10
Publication date: 2022-04-12

Abstract

本发明提出了一种基于自编码器的工业场景异常声音检测与识别方法，该方法包括三个过程：声音特征的提取、工业场景声音建模和异常声音的检测与识别。工业场景的声音特征提取，预处理之后的每帧信号经互补集合经验模态分解，得到若干层固有模态函数(Intrinsic Mode Function,IMF)分量，将各层IMF分量的短时能量、IMF能量与该帧原始信号的能量比和IMF的梅尔倒谱系数取合集，构成目标声音信号的特征向量；用提取的特征向量训练自编码器，调整编码器和解码器的参数，得到正常场景声音模型和特定异常场景声音模型；异常声音检测与识别，将待测声音特征经过训练好的自编码器，通过重构误差的阈值条件判定待测声音是否为异常声音或某种已知异常声音。

Description

一种基于自编码器的工业场景异常声音检测与识别方法

技术领域

本发明涉及声音信号处理技术，具体涉及一种基于自编码器的工业场景异常声音检测与识别方法。

背景技术

声音是一种重要的信息载体，其中蕴含着十分重要的信息。同时异常事件的发生往往会伴随着异常声音的产生，例如公共场景下的异常事件往往伴有***声、尖叫声、玻璃***声。同样在工业场景下，正常运行下的各种设备会产生规则的振动，其声音特征有一定的规律，一旦发生了机器损坏或其他异常事件，工业场景的声音特征将会发生改变，因此检测并识别声音信号中的异常声音对工业场景的安全监控具有重要作用。

目前，许多异常声音的识别采用梅尔倒谱系数(MFCC)、线性预测系数(LPC)、短时能量和短时平均过零率等时域和频域特征作为声音信息的特征。但异常声音具有高度的非平稳性和非线性，导致单一特征的提取会使最终的识别效率降低。因此对于声音特征的提取既需要结合提取的不同类型的特征，同时也需要突出各类特征的作用，这样才能使得提取的特征更适合于异常声音的检测与识别。

经验模态分解(Empirical Mode Decomposition，EMD)是一种自适应信号处理方法，它依据数据自身的时间尺度来进行信号分解，产生多个具有不同特征尺度的数据序列，从本质上对信号进行了平稳化处理，因此比较适合对非线性非平稳信号的处理。互补集合经验模态分解(Complementary Ensemble Empirical Mode Decomposition,CEEMD)是EMD的一种改进算法，能够有效的降低模态混叠，还可以一定程度提高计算速度，并且将IMF进行重构，重构信号与初始信号差别更小，说明其分解效果更好。

自编码器是一种典型的无监督深度学习模型，旨在通过将网络的期望输出(声音特征的重构输出)等同于输入样本(声音特征的输入)，实现对输入样本的抽象特征学习。

发明内容

本发明提出一种基于自编码器的工业场景异常声音的检测与识别方法和***，有效的提高了工业场景下异常声音检测的泛化性和已知异常声音识别的准确性。

本发明的目的在于填补针对工业场景异常声音检测与识别领域的空缺并改进现有技术的不足，采用互补集合经验模态分解声音信号，综合不同类型的声音特征并突出各类特征的作用，来训练不同类别的自编码器，构建工业场景声音模型，通过训练完成的自编码器来实现对异常的检测和已知异常的识别。

本发明方案具体包括工业场景声音特征提取、工业场景声音建模和异常声音检测与识别三个部分。

声音特征的提取过程为：

对训练数据中工业场景的正常声音样本和已知异常声音样本进行预加重、分帧和加窗。

将每帧信号经CEEMD将其分解成若干层IMF分量。

计算每一层IMF的短时能量、每一层IMF能量与原始信号的能量比值和每一层IMF的MFCC，并取三者的并集构成目标声音信号的特征向量。

工业场景声音建模过程为：

将提取的特征向量输入自编码器；

编码：编码器将输入特征向量X，转换为潜在特征Z；

解码：解码器将潜在特征Z，重构成输入特征向量X＇；

利用平方误差函数计算网络误差J(X,X′)；

利用梯度下降算法反向传播误差以调整网络参数训练自编码器，通过迭代微调逐步使重构误差函数达到最小值，以学习样本数据中的关键抽象特征，得到工业场景声音模型。

异常声音检测与识别过程为：

对待测声音进行预处理，并提取其特征向量；

将特征向量输入到训练好的异常检测自编码器或异常识别自编码器进行特征重构，得到重构误差分数；

通过重构误差的阈值条件判定待测声音是否为异常声音或某种已知异常声音。

本发明的优点在于：(1)对于声音特征的提取，将CEEMD算法和短时能量、能量比、MFCC相结合，即综合了不同特征的特点，又突出各类特征的作用，有利于异常声音的检测与识别。(2)采用无监督的自编码器学习样本数据中的关键抽象特征，具有很强的特征表示能力，并且网络结构相对简单、容易训练。

附图说明

图1本发明方案的整体框图；

图2本发明方案工业场景声音特征的提取流程图；

图3本发明方案异常检测自编码器与异常识别自编码器的训练的流程图；

具体实施方式

下面结合附图，详细描述本发明的技术方案。

图1为本发明方案的整体框图，具体涉及一种基于自编码器的工业场景异常声音检测与识别方法及***。该方法针对工业场景下的声音信号，首先是对工业场景的声音进行预处理，包括预加重、分帧和加窗；然后每帧信号经CEEMD将其分解成若干层IMF分量，计算每一层的IMF的短时能量、每一层IMF能量与原始信号的能量比值和每一层IMF的MFCC，并取三者的并集构成目标声音信号的特征向量；用提取的特征向量训练自编码器，对正常声音和已知异常声音的特征进行重建，利用梯度下降算法反向传播误差以调整网络参数，通过迭代微调逐步使重构误差函数达到最小值，以学习样本数据中的关键抽象特征，得到工业场景声音模型；最后异常声音检测与识别，异常声音的特征经过训练好的自编码器后，无法很好的重建特征，会产生很大的重构误差，以此重构误差与误差阈值进行比较，再通过阈值条件判定待测声音是否为异常声音；同理异常声音的特征经过异常识别自编码器后，通过阈值条件判定待测声音是否为某种已知异常。

本发明方案主要包括工业场景声音特征提取、工业场景声音建模和异常声音检测与识别三个模块。

图2是本发明方案中的工业场景声音特征提取流程图，具体步骤为：

步骤1、输入一帧待提取的目标信号，信号长度为N；

步骤2、计算该帧信号的能量E；

步骤3、初始化重复次数Q；

步骤4、对初始信号s(t)加入一对幅值相同，相位相反的随机白噪声±w_q(t)(q＝1，2...Q)得到H_q(t)和J_q(t)，即：

步骤5、计算H_q(t)和J_q(t)的所有极值点，利用三次样条插值法将所有极大值和极小值点连接起来，形成H_q(t)和J_q(t)上包络线u_H(t)、u_J(t)和下包络线v_H(t)、v_J(t)，将上下包络线相加求平均值，得到信号的平均包络线m_H(t)、m_J(t)；

步骤6、用H_q(t)和J_q(t)减去各自对应的m_H(t)、m_J(t)，结果得到一个新序列h_Hi(t)和h_Ji(t)，即：

步骤7、根据IMF约束条件判断h_Hi(t)和h_Ji(t)是否是要求得的函数，若不是，则用h_Hi(t)、h_Ji(t)替换原来的信号H_q(t)和J_q(t)，然后继续执行步骤5至步骤7；若满足IMF约束条件，则输出h_Hi(t)和h_Ji(t)作为本层的

和

将本层的

和

记为

和

IMF约束条件：

1、在整个数据段内，极值点的个数和过零点的个数必须相等或相差最多不能超过一个。

2、在任意时刻，由局部极大值点形成的上包络线和由局部极小值点形成的下包络线的平均值为零，即上、下包络线相对于时间轴局部对称。

步骤8、从H_q(t)和J_q(t)中减去刚刚求得的IMF分量

和

结果得到残余函数

和

将残余函数

和

看成新的初始信号H_q(t)和J_q(t)，重复执步骤5至步骤8，直到分解得到所规定M层的IMF；

步骤9、判断当前重复次数是否等于Q，若不等于Q，继续执行步骤4至步骤9，直到完成Q次重复为止；

步骤10、对Q次EMD得到的所有各层的IMF分量分别求整体平均，得到最终每层的IMF分量，即：

步骤11、计算每层的IMF的能量，并计算该层IMF能量与该帧原始信号的能量比；

步骤12、计算每层的IMF的MFCC；

步骤13、将信号能量E、各层IMF能量与该帧原始信号的能量比和每层IMF的MFCC的平均值合并，构成目标声音信号的特征向量。

图3是本发明方案中的工业场景声音建模流程图，具体步骤为：

步骤1、初始化最小迭代次数N，隐含层节点数m，激活函数g(.)，学习效率η，期望误差

随机赋值连接权值W与节点偏置b_m、b_d，得到映射函数：f：Rⁿ→Rⁿ；

步骤2、正向传播，计算出隐含层输出H和样本重构X′，即：

H＝g(WX+b_m)

X′＝g(W^TH+b_d)

步骤3、利用平方误差函数，计算网络误差J(W，b)，即：

步骤4、反向传播，利用梯度下降算法，更新权值W和偏置b_m、b_d，即：

步骤4、判断当前迭代次数是否等于Q，若不等于Q，则重复执行步骤2至步骤4，直到完成Q次重复进入步骤5；

步骤5、判断重构误差是否小于期望误差

若否，则重复执行步骤2步骤5，直到重构误差小于期望误差

进入步骤6；

返回映射函数，即：

f(X)＝g(W^Tg(WX+b_m)+b_d)

即得到工业场景声音模型。

本发明方案中的工业场景异常声音的检测和识别包括以下步骤：

步骤1、将期望误差

作为重构误差的阈值；

步骤2、将待检测的声音特征输入训练好的异常检测自编码器；

步骤3、对重构异常分数S进行阈值

处理，进行异常声音的检测，即

步骤4、将测试集的异常声音特征输入多个异常识别自编码器；

步骤5、对重构异常分数S进行阈值

处理，进行异常声音的识别；

步骤6、将无法识别的异常判定为未知异常。

Claims

1.一种基于自编码器的工业场景异常声音检测与识别方法，其特征在于：首先是对工业场景的声音进行预处理，包括预加重、分帧和加窗；然后每帧信号经互补集合经验模态分解(Complementary Ensemble Empirical Mode Decomposition，CEEMD)，得到若干层IMF分量，计算每一层的IMF的短时能量、每一层IMF能量与原始信号的能量比值和每一层IMF的梅尔倒谱系数(Mel Frequency CepstrumCoefficients，MFCC)，并取三者的并集构成目标声音信号的特征向量；用提取的特征向量训练自编码器，对正常声音和已知异常声音的特征进行重建，利用梯度下降算法反向传播误差以调整网络参数，通过迭代微调逐步使重构误差函数达到最小值，以学习样本数据中的关键抽象特征，得到正常场景声音模型和特定异常场景声音模型；最后异常声音检测与识别，异常声音的特征经过训练好的异常检测自编码器后，无法很好的重建特征，会产生很大的重构误差，以此重构误差与误差阈值进行比较，再通过阈值条件判定待测声音是否为异常声音；同理异常声音的特征经过异常识别自编码器后，通过阈值条件判定待测声音是否为特定异常；

所诉方法具体包括三个必要过程：声音特征提取、场景声音建模和异常声音检测与识别。

(1)声音特征提取过程为：

(1.1)对工业场景的正常声音和已知异常声音的样本进行预加重、分帧和加窗；

(1.2)将每帧信号经CEEMD将其分解成若干层IMF分量；

(1.3)计算每一层的IMF的短时能量、每一层IMF能量与原始信号的能量比值和每一层IMF的MFCC，并取三者的并集构成目标声音信号的特征向量。

(2)工业场景声音建模过程为：

(2.1)编码：编码器将输入特征向量X，转换为潜在特征Z；

(2.2)解码：解码器将潜在特征Z，重构成输入特征向量X＇；

(2.3)利用平方误差函数计算网络误差J(X，X′)；

(2.4)利用梯度下降算法反向传播误差以调整网络参数，通过迭代微调逐步使重构误差函数达到最小值，以学习样本数据中的关键抽象特征，得到工业场景声音模型。

(3)异常声音检测与识别过程为：

(3.1)对待测声音进行预处理，并提取其特征向量；

(3.2)将特征向量输入到训练好的异常检测自编码器或异常识别自编码器进行特征重构，得到重构误差分数；

(3.3)通过重构误差的阈值条件判定待测声音是否为异常声音或某种已知异常声音。

2.如权利要求1所述基于自编码器的工业场景异常声音检测与识别方法，其特征在于，预处理的过程为：

(2.1)预加重：预加重技术的主要作用就是增强信号的高频成分，以补偿信号的高频分量在传输过程中的衰减。一般情况下常采用一阶FIR高通数字滤波器来对信号进行预加重处理，其传递函数为：

H(z)＝1-μz^-1

其中μ为预加重系数，0.9＜μ＜1.0。

(2.2)分帧：语音信号具有短时平稳性，因此可以对异常声音信号进行分段处理，其中分开的每段称为一帧。分帧时一般采用重叠分段的方法，两帧重合的数据部分称为帧移。帧移一般取帧长的1/4～1/2。

(2.3)加窗：语音信号的分帧是采用可移动的有限长度窗口进行加权的方法来实现的，在语音领域，最常见的窗函数是利用余弦函数的汉宁窗(Hanning windows)和汉明窗(Hamming windows)。对于长度为N的离散信号x[n]，0≤n≤N-1，这两种窗函数所对应的权重ω[n]可表示为：

其中当α＝0.5时，为汉宁窗；当α＝0.46时，为汉明窗。对异常声音信号进行预处理时，需要尽可能保留声音信号的波形特征，通过综合考虑，选择汉明窗进行分帧。

3.如权利要求1所述基于自编码器的工业场景异常声音检测与识别方法，其特征在于，预处理后的信号特征提取过程为：

(3.1)输入一帧待提取的目标信号；

(3.2)计算该帧信号的能量E；

(3.3)初始化迭代次数Q；

(3.4)对初始信号s(t)加入一对幅值相同，相位相反的随机白噪声±w_q(t)，其中q表示第q次迭代，q＝1，2...Q，得到H_q(t)和J_q(t)；

(3.5)以信号H_q(t)和J_q(t)为分解对象，应用EMD方法展开分解，从而获得两者的IMF分量

和

即：

(3.6)判断当前迭代次数是否满足Q次，若不等于Q，继续执行步骤(3.4)至步骤(3.6)，直到完成Q次重复为止；

(3.7)对Q次EMD得到的所有各层的IMF分量分别求整体平均，得到最终每层的IMF分量，即：

(3.8)计算每层的IMF的能量，并计算该层IMF能量与该帧原始信号的能量比；

(3.9)计算每层的IMF的MFCC；

(3.10)将信号能量E、各层IMF能量与该帧原始信号的能量比和每层IMF的MFCC的，并取三者的并集构成目标声音信号的特征向量；

4.如权利要求1所述基于自编码器的工业场景异常声音检测与识别方法，其特征在于，工业场景声音建模过程为：

(4.1)初始化最小迭代次数N，隐含层节点数m，激活函数g(.)，学习效率η，期望误差

(4.2)输入特征向量样本X，正向传播，利用

H＝g(WX+b_m)

和

X′＝g(W^TH+b_d)

计算出隐含层输出H和样本重构X′；

(4.3)利用平方误差函数

计算网络误差J(W，b)；

(4.4)反向传播，利用梯度下降算法，连接权值与偏置更新式为：

和

更新权值W和偏置b_m、b_d；

(4.5)判断当前迭代次数是否等于Q，若不等于Q，则重复执行步骤(4.2)步骤(4.5)，直到完成Q次重复进入步骤(4.6)；

(4.6)判断重构误差是否小于期望误差

若否，则重复执行步骤(4.2)步骤(4.6)，直到重构误差小于期望误差

进入步骤(4.7)；

(4.7)返回映射函数

f(X)＝g(W^Tg(WX+b_m)+b_d)

即得到正常场景声音模型和特定异常场景声音模型。

5.如权利要求1所述基于自编码器的工业场景异常声音检测与识别方法，其特征在于，异常声音检测与识别过程为：

(5.1)将期望误差

作为重构误差的阈值；

(5.1)将待检测的声音特征输入训练好的异常检测自编码器；

(5.2)对重构误差分数S进行阈值

处理，进行异常声音的检测，

(5.3)将被判定为异常声音的特征输入多个异常识别自编码器；

(5.4)对异常分数S进行阈值

处理，进行异常声音的识别；

(5.5)将无法识别的异常判定为未知异常。