CN115510909A - 一种dbscan进行异常声音特征的无监督算法 - Google Patents

一种dbscan进行异常声音特征的无监督算法 Download PDF

Info

Publication number
CN115510909A
CN115510909A CN202211193188.7A CN202211193188A CN115510909A CN 115510909 A CN115510909 A CN 115510909A CN 202211193188 A CN202211193188 A CN 202211193188A CN 115510909 A CN115510909 A CN 115510909A
Authority
CN
China
Prior art keywords
algorithm
dbscan
time
abnormal sound
spectral
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211193188.7A
Other languages
English (en)
Inventor
谭笑
姚兆明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202211193188.7A priority Critical patent/CN115510909A/zh
Publication of CN115510909A publication Critical patent/CN115510909A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明公开了一种DBSCAN进行异常声音特征的无监督算法,包括以下步骤:S1、将声音的光谱形状和时间形态作为机器学习的声学特征,来识别输入的音频数据的物理特性,并采用Peeter's声学特徵提分类方法提取声学特征来识别异常声音。本发明集成了增量PCA和DBSCAN聚类,在提取机器声音的声学特征后检测异常声音,能够在不需要高计算能力的情况下实现高性能,能够训练大型正常数据集,根据转换后的音频信号提取声音特征,并检测小型异常数据进入时的异常性,该算法采用局部聚类准则,基于IPCA的DSBCAN采用密度和半径的线性优化计算,经过训练后正确找到所有聚类,达到高稳定性,新算法的体系结构采用了噪声调节方法,使背景噪声免受异常声音观测的影响。

Description

一种DBSCAN进行异常声音特征的无监督算法
技术领域
本发明涉及异常声音检测算法技术领域,具体为一种DBSCAN进行异常声音特征的无监督算法。
背景技术
物联网是指与设备启用相关的计算,这些设备能够在没有人类直接参与的情况下与内部或外部环境通信数据,异常声音检测(ASD)是这类设备的一种,它作为一种“智能”传感器,通过机器学习方法检测来自目标机器的异常声音,这有助于机器的操作人员避免由于高级检测而造成的额外损失。随着深度学习和人工智能的广泛采用,以缓解保持和扩大当前生产规模的劳动力需求不断增加与市场上劳动力减少的现实之间的冲突,ASD正成为现代产业的重要元素。
现有技术中,如中国专利号为:CN110706720A的“一种端到端无监督深度支撑网络的声学异常检测方法”,其步骤如下:将声学信号转化为梅尔频谱的声学谱图信号;将搜集到的声音信号划分为训练、验证、测试集,其中验证集负责用来确定异常阈值;构建无监督的深度支撑网络,包括特征学习网络负责提取声学特征,深度检测网络负责判决声音信号是否异常;构建深度支撑网络的损失函数,包括特征学习的最小二乘损失函数,以及深度检测网络的软间隔铰链损失函数;训练验证集,计算最优检测阈值;采用训练好的深度支撑网络定量计算声学的异常值。
但现有技术在实际应用时,利用异常声音检测提取设备声音数据特征,然后观察和检测目标机械发出的异常声音,作为目标运行状态的预警依据,发给操作员,工厂内的所有机械都可能发生故障,这给公司造成了潜在的损失风险,声学监测传感器可以在故障真正发生之前检测到机器状态的异常变化,但是对预测性维护的需求是巨大的,由于缺乏人性化的环境或熟练工人,维修服务的质量将受到重大影响;除了预测性维护的成本较低外,由于设备事故造成的死亡和严重伤害的风险降低是在维护实践中实施异常声音检测技术的另一个重要原因;然而,尽管随着工业4.0和物联网的发展,异常声音检测仍面临着相当多的挑战,而这些挑战主要与数据收集的限制有关,如不平衡训练数据集、高性能稳定性、硬编码体系结构、噪音、计算成本。
所以我们提出了一种DBSCAN进行异常声音特征的无监督算法,以便于解决上述中提出的问题。
发明内容
本发明的目的在于提供一种DBSCAN进行异常声音特征的无监督算法,以解决上述背景技术提出的问题。
为实现上述目的,本发明提供如下技术方案:一种DBSCAN进行异常声音特征的无监督算法,包括以下步骤:
S1、将声音的光谱形状和时间形态作为机器学习的声学特征,来识别输入的音频数据的物理特性,并采用Peeter's声学特征分类方法提取声学特征来识别异常声音;
S2、采用增强的增量主成分分析方法进行降维,并根据不同机器类型的最优历史结果,采用遗传算法选择IPCA的输入参数;
S3、基于密度的噪声应用程序的空间聚类,DBSCAN基于密度的聚类算法,通过低密度区域分离聚类。
优选的,在步骤S1中,所述音频数据的物理特性分为时域或频域和时域,基于不同的计算范围,区分时间扩展有效性的全局描述符计算整个信号和瞬时描述符计算每个时间帧。
优选的,在步骤S1中,描述符包括时间形状、光谱形状特征、谐波特性、强度和派生特征,所述进一步的机器学习处理的描述符包括:
S10、频繁性:采用基于短时傅里叶变换的分析方法对连续音频信号进行了线性频率计算,计算公式如下:
Figure BDA0003869791650000031
其中,fS其中k为索引箱,为样本的频率,k为块的长度,为块的频率。fQ
S11、振幅:根据STFT后的连续信号计算振幅,并从对数缩放转换为db缩放;
S12、自相关系数:信号的互相关,即信号频谱能量分布的傅里叶反变换,表示信号在时域内的频谱分布,其公式为:
Figure BDA0003869791650000032
其中,每个系数都在系数的范围内,随着滞后时间的增加,系数减小得越快,信号就会越白;
S13、过零率:过零率越高,高频内容就越高,音频信号假设的周期性就越小,计算方法为:
Figure BDA0003869791650000033
符号函数被定义为:
Figure BDA0003869791650000034
其中,如果x(i-1)不存在,则将x(i-1)=0用作初始化,特征值的范围为[0,1];
S14、起始包络:开始是指与声音开始所需的时间相关的感知,起始包络被计算为一个光谱通量的起始强度包络,光谱通量测量光谱形状的变化量,它被计算为连续的STFT帧之间的平均差值,t时刻的起始强度由:
mean_fmax(0,S[f,t]–ref[f,t-lag])
其中,ref为沿频率轴进行局部最大滤波后的S,如果提供了一个时间序列y,S将是对数功率的Mel谱图,发病与攻击时间的对数相关;
S15、光谱质心:表示光谱能量的重心,光谱质心与音色维度的亮度或锐度相关,它被计算为由其非加权和归一化的频谱的频率加权和:
Figure BDA0003869791650000041
S16、光谱滚动:光谱滚动测量了所分析的音频样本块n的带宽,光谱滚动点是STFTX(k,n)的累积达到的频率:
Figure BDA0003869791650000042
其中,共同值为0.85。K光谱下降的值范围为[0,K/2-1];
S17、梅尔频率倒流系数:MFCC被定义为对音频信号的光谱包络形状的紧凑描述,它是由离散余弦变换或傅里叶变换后的频谱的对数计算出来的,其配方为:
Figure BDA0003869791650000043
其中,系数的数量是20;
S18、基本频率:基于信号是周期或准周期的假设,它是一个整数倍,基于理想的谱插值计算轨迹上的螺距;
S19、强度:通过音频样本或没有STFT处理的光谱图中计算出均方根能量,基于音频信号直接计算RMSE,RMSE输出每一帧的均方根值;
S20、节奏特征:通常以每分钟的节拍来测量并绘制节奏图,所述节奏图由起始强度包络的局部自相关导出,其计算公式如下:
Figure BDA0003869791650000044
其中,对于时间t∈Z和时间滞后l∈[0,N],W用于窗口函数:
Figure BDA0003869791650000051
以t=0为中心,支持[-N:N],
Figure BDA0003869791650000052
优选的,在步骤S1中,所述进一步的机器学习处理的描述符还包括派生特征:温度图通常以每分钟的节拍来测量。
优选的,在步骤S2中,所述采用增强的增量主成分分析方法包括以下步骤:
S21、在第一帧中定位目标对象,并将特征基U初始化为空,且均值μ为目标在第一帧中的出现,到目前为止的有效观测数是n=1。
S22、前进到下一帧,
Figure BDA0003869791650000053
具体地说,其中为一个对角协方差矩阵,其元素为确定参数的相应方差;
S23、对于每个粒子,从当前帧中提取相应的窗口,并计算其权重,及其在观测模型下的可能性;
S24、对特征基、平均值和有效观测数进行增量更新;
S25、转到步骤S22:增强的增量主成分分析用一个额外的向量来增加新的训练数据来校正时变平均值。
优选的,在步骤S24中,主要的计算过程包括以下步骤:
S250、根据
Figure BDA0003869791650000054
的SVD计算U和∑,以及
Figure BDA0003869791650000055
n和B,根据
Figure BDA0003869791650000056
的SVD计算
Figure BDA0003869791650000057
U’和∑’:
S251、计算平均向量
Figure BDA0003869791650000058
S252、形成矩阵
Figure BDA0003869791650000059
S253、
Figure BDA00038697916500000510
计算,并且
Figure BDA00038697916500000511
在SKL算法中大一列;
SVD
S254、计算R:
Figure BDA0003869791650000061
S255、最终
Figure BDA0003869791650000062
优选的,在步骤S24中,在该算法中,当减少每个数据块对由f的附加因子建模的总体协方差的贡献时,遗忘因子对特征基础上的平均值的影响2在每次SVD更新时,并将遗忘因子与特征基的增量更新、平均观测数和有效观测数相乘,生成新的帧,当计算仿射运动参数的目标t,浓缩算法,基于因素抽样,采用近似的任意分布的观察随机生成的加权样本,随着它随着时间的推移。
优选的,在步骤S3中,所述基于密度的聚类算法细节包括:
S30、Eps:Eps(“ε”)是一个簇的半径,用来定义一个对象的邻域。p.对于集群D,Eps(p)={q∈D|距离(p,q)<=Eps};
S31、MinPts:MinPts是定义集群的最小点数,对于任何直接密度可达的qn对于对象p,它满足:qn∈Eps(p),n>=MinPts;
S32、这里p是核心对象和qi是从对象p可以达到的密度和最小值|q-p|=0,max|q–p|=Eps;
S33、时间复杂度:因为p和是密度连接的,DBSCAN的时间复杂度一般为O(n2);
S34、集群:设D为对象的数据组,集群C是D的一个非空子集;
S35、噪音:对于任何集群Ci(i=1,2,m),噪声点g不属于任何簇Ci.它可以被描述为:
Figure BDA0003869791650000063
优选的,在步骤S34中,所述集群满足:
Figure BDA0003869791650000064
q,如果p∈C和q是从pwrt到密度可达的,Eps和MinPts,然后是q∈C(最大值),
Figure BDA0003869791650000065
q,p是可以从p得到密度的。Eps和MinPts。
优选的,在步骤S3中,DBSCAN中对于任何属于数据集D的任意对象p,DBSCAN算法将检索通过ε和MinPts值从p中可到达的所有对象密度,对于任何对象p有三种情况:它是一个集群的核心对象,如果在距离p≤ε的距离内有足够的其他对象q,并且在数据集D中有q≥MinPts;如果没有足够的q密度连接到p,它就是边界对象;如果它不属于任何集群,那么它是噪声对象,DBSCAN算法将继续进行处理,将所有对象定位到集群或噪声组中。
与现有技术相比,本发明的有益效果是:
本方法一种集成主成分分析和基于密度的应用空间聚类算法(“DBSCAN”)的新算法,以相对较高的精度、效率和适应性来解决挑战和检测目标设备的异常声音,它集成了增量PCA和DBSCAN聚类,在提取真实工厂采集的机器声音的声学特征后检测异常声音;该方法能够在不需要高计算能力的情况下实现高性能,特别是对于大容量和高维机器的声音文件;该无监督的机器学习算法,不需要提前识别异常声音并贴上标签进行训练,能够训练大型正常数据集,根据转换后的音频信号提取声音特征,并检测與正常聲音特徵迥異的小型异常数据进入时的异常性,DBSCAN利用密度达到能力和密度连接能力找到优化的中心和半径不重叠集群在训练未标记的输入数据,并检测异常点基于他们的边界任何现有集群的训练;深度学习算法采用局部聚类准则,基于IPCA的DSBCAN采用密度和半径的线性优化计算,经过训练后正确找到所有聚类,即可达到较高的稳定性;基于IPCA的DBSCAN采用自适应的架构,能够将维数降低到可使DBSCAN继续进行的计算框架中,当环境发生变化,原始声音数据发生变化时,算法将自动改变输入声音数据的时间,这种设计在某种程度上有助于建立自动本地化的模型,以提高不同环境的自适应性;新算法的体系结构采用了噪声调节方法,使背景噪声免受异常声音观测的影响,噪声感知包含在数据预处理阶段,并在原始音频文件中添加高斯白噪声,这是为了提高算法中的噪声感知,并被证明可以更好地泛化表示;增强的基于IPCA的DBSCAN包括IPCA和DBSCAN两层,可以降低转换后的音频数据的尺寸,以适应DBSCAN优化后的架构,从而降低GPU的计算能力,保持较高的计算性能,该算法是基于对所提取的声学特征的分析,而不是基于音频信号,这有助于将音频数据的尺寸减少到声学特性的数量,高维音频数据文件经过降维技术后,可以在普通CPU而不是GPU或TPU中进行训练和预测,对性能的影响最小,由于连续的GPU(s)消耗,计算成本也可以显著降低。
附图说明
图1为本发明一种DBSCAN进行异常声音特征的无监督算法的流程图;
图2为本发明一种DBSCAN进行异常声音特征的无监督算法的标准GAN的体系结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施条例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1和图2,本发明提供一种技术方案:一种DBSCAN进行异常声音特征的无监督算法,包括以下步骤:
步骤一、将声音的光谱形状和时间形态作为机器学习的声学特征,来识别输入的音频数据的物理特性,并采用皮特斯分类方法提取声学特征来识别异常声音,音频数据的物理特性分为时域或频域和时域,基于不同的计算范围,区分时间扩展有效性的全局描述符计算整个信号和瞬时描述符计算每个时间帧,描述符包括时间形状、光谱形状特征、谐波特性、强度和派生特征,进一步的机器学习处理的描述符包括:
10)频繁性:采用基于短时傅里叶变换的分析方法对连续音频信号进行了线性频率计算,计算公式如下:
Figure BDA0003869791650000091
其中,fS其中k为索引箱,为样本的频率,k为块的长度,为块的频率。fQ
11)振幅:根据STFT后的连续信号计算振幅,并从对数缩放转换为db缩放;
12)自相关系数:信号的互相关,即信号频谱能量分布的傅里叶反变换,表示信号在时域内的频谱分布,其公式为:
Figure BDA0003869791650000092
其中,每个系数都在系数的范围内,随着滞后时间的增加,系数减小得越快,信号就会越白;
13)过零率:过零率越高,高频内容就越高,音频信号假设的周期性就越小,计算方法为:
Figure BDA0003869791650000093
符号函数被定义为:
Figure BDA0003869791650000094
其中,如果x(i-1)不存在,则将x(i-1)=0用作初始化,特征值的范围为[0,1];
14)起始包络:开始是指与声音开始所需的时间相关的感知,起始包络被计算为一个光谱通量的起始强度包络,光谱通量测量光谱形状的变化量,它被计算为连续的STFT帧之间的平均差值,t时刻的起始强度由:
mean_fmax(0,S[f,t]–ref[f,t-lag])
其中,ref为沿频率轴进行局部最大滤波后的S,如果提供了一个时间序列y,S将是对数功率的Mel谱图,起始与攻击时间的对数相关;
15)光谱质心:表示光谱能量的重心,光谱质心与音色维度的亮度或锐度相关,它被计算为由其非加权和归一化的频谱的频率加权和:
Figure BDA0003869791650000101
16)光谱滚动:光谱滚动测量了所分析的音频样本块n的带宽,光谱滚动点是STFTX(k,n)的累积达到的频率:
Figure BDA0003869791650000102
其中,共同值为0.85。K光谱下降的值范围为[0,K/2-1];
17)梅尔频率倒流系数:MFCC被定义为对音频信号的光谱包络形状的紧凑描述,它是由离散余弦变换或傅里叶变换后的频谱的对数计算出来的,其配方为:
Figure BDA0003869791650000103
其中,系数的数量是20;
18)基本频率:基于信号是周期或准周期的假设,它是一个整数倍,基于理想的谱插值计算轨迹上的螺距;
19)强度:通过音频样本或没有STFT处理的光谱图中计算出均方根能量,基于音频信号直接计算RMSE,RMSE输出每一帧的均方根值;
S20、节奏特征:通常以每分钟的节拍来测量并绘制节奏图,所述节奏图由起始强度包络的局部自相关导出,其计算公式如下:
Figure BDA0003869791650000104
20)其中,对于时间t∈Z和时间滞后l∈[0,N],W用于窗口函数:
Figure BDA0003869791650000105
以t=0为中心,支持[-N:N],
Figure BDA0003869791650000106
进一步的机器学习处理的描述符还包括派生特征:温度图通常以每分钟的节拍来测量。
步骤二、采用增强的增量主成分分析方法进行降维,并根据不同机器类型的最优历史结果,采用遗传算法选择IPCA的输入参数,采用增强的增量主成分分析方法包括以下步骤:
21)在第一帧中定位目标对象,并将特征基U初始化为空,且均值μ为目标在第一帧中的出现,到目前为止的有效观测数是n=1。
22)前进到下一帧,
Figure BDA0003869791650000111
具体地说,其中为一个对角协方差矩阵,其元素为确定参数的相应方差;
23)对于每个粒子,从当前帧中提取相应的窗口,并计算其权重,及其在观测模型下的可能性;
24)对特征基、平均值和有效观测数进行增量更新;
25)转到步骤S22:增强的增量主成分分析用一个额外的向量来增加新的训练数据来校正时变平均值,在该算法中,当减少每个数据块对由f的附加因子建模的总体协方差的贡献时,遗忘因子对特征基础上的平均值的影响2在每次SVD更新时,并将遗忘因子与特征基的增量更新、平均观测数和有效观测数相乘,生成新的帧,当计算仿射运动参数的目标t,浓缩算法,基于因素抽样,采用近似的任意分布的观察随机生成的加权样本,随着它随着时间的推移,主要的计算过程包括以下步骤:
根据
Figure BDA0003869791650000112
的SVD计算U和∑,以及
Figure BDA0003869791650000113
n和B,根据
Figure BDA0003869791650000114
的SVD计算
Figure BDA0003869791650000115
U’和∑’:
S251、计算平均向量
Figure BDA0003869791650000116
S252、形成矩阵
Figure BDA0003869791650000117
S253、
Figure BDA0003869791650000121
计算,并且
Figure BDA0003869791650000122
在SKL算法中大一列;
S254、计算R:
Figure BDA0003869791650000123
S255、最终
Figure BDA0003869791650000124
步骤三、基于密度的噪声应用程序的空间聚类,DBSCAN基于密度的聚类算法,通过低密度区域分离聚类,DBSCAN中对于任何属于数据集D的任意对象p,DBSCAN算法将检索通过ε和MinPts值从p中可到达的所有对象密度,对于任何对象p有三种情况:它是一个集群的核心对象,如果在距离p≤ε的距离内有足够的其他对象q,并且在数据集D中有q≥MinPts;如果没有足够的q密度连接到p,它就是边界对象;如果它不属于任何集群,那么它是噪声对象,DBSCAN算法将继续进行处理,将所有对象定位到集群或噪声组中,基于密度的聚类算法细节包括:
30)Eps:Eps(“ε”)是一个簇的半径,用来定义一个对象的邻域。p.对于集群D,Eps(p)={q∈D|距离(p,q)<=Eps};
31)MinPts:MinPts是定义集群的最小点数,对于任何直接密度可达的qn对于对象p,它满足:qn∈Eps(p),n>=MinPts;
32)这里p是核心对象和qi是从对象p可以达到的密度和最小值|q-p|=0,max|q–p|=Eps;
33)时间复杂度:因为p和是密度连接的,DBSCAN的时间复杂度一般为O(n2);
34)集群:设D为对象的数据组,集群C是D的一个非空子集;
35)噪音:对于任何集群Ci(i=1,2,m),噪声点g不属于任何簇Ci。
它可以被描述为:
Figure BDA0003869791650000125
实验设置:
步骤一、数据集和预处理:数据由真实机器的正常/异常工作声音组成,每个录音都是一个单通道2秒长度的音频,包括一个目标机器的操作声音和环境噪音,样品率为44100,在实验中,训练数据集只包含来自一种机器类型的正常数据,我们在总共228个样本的正常文件中随机选取100个正常波文件,连续50次,测试数据集包括10个非正常音频文件,从120个非正常数据文件中随机选择,预测的重点是从连续的100个正常音频文件到10个异常音频文件的转折点;数据预处理的步骤包括:
1)从228个样本各自的正常和非正常音频文件中随机选择100个正常音频文件和10个非正常音频文件;
2)转变将音频文件转换为可读数字数组,采用声学特征提取10个声学描述符来提取转换后的音频数字的特征,这10个声学特征包括:频繁性、振幅、自相关系数、零交叉率、起爆包络、光谱质心、光谱滚动、Mel频率反频系数(MFCC)、基本频率、均方根能量、节奏特征。
3)框架,计算帧速率,并使用调整后的帧速率将文件重帧到数据帧,调整后的帧数是DBSCAN算法中的MinPts;
4)缩放化和归一化:对训练和测试数据集进行缩放和归一化;
在实验中,训练数据大小为8820万,预测数据为441万,实验对每个算法连续运行50次,在总数据集中随机选取数据集,在预处理过程中,任何属性的空值都会被过滤掉;
步骤二、基准***及结果:采用一个简单的深度卷积神经网络(“DCGAN”)作为实验数据集的无监督异常检测的基准性能,生成对抗网络是一种深度神经网络结构,由一对“对抗”模型组成,分别称为生成器和鉴别器,生成器是捕获一个噪声向量,以映射到数据分布作为鉴别器的假输入,鉴别器使用一些策略来区分或识别两个输入,一个来自真实数据分布,另一个来自生成器生成的假数据分布,图2为一般对抗性网络的体系结构,DCGAN是在GAN体系结构中应用多个卷积层的GAN,详细情况列于表1中;
表1DCGAN的参数表
Figure BDA0003869791650000141
对于相同的音频数据,从实验结果可以看出,DCGAN能够达到0.765749902314364的精度,相对令人满意,此外,在GPU计算模块中,DCGAN的平均执行时间为90分钟,DCGAN的计算成本相对较高;
表2DCGAN的实验结果表
Figure BDA0003869791650000142
步骤三、噪声耐受性试验:另一系列实验测试了基于增强IPCA的DCNN-AE的最大噪声容忍度,实验结果表明,当信噪比为3.0103(信噪比=10*Log(1/0.5))时,算法的性能受到影响,其中0.5为噪声显著性因子;
步骤四、硬编码架构与参数化架构的比较:第三个实验是比较硬编码结构和参数化结构的预测性能,实验结果表明,该参数化体系结构在较短的训练时间内获得了较高的精度,例如,当Eps设置为0.07,MinPts的计数设置为2时,硬编码体系结构的平均AUC为0.816,平均Spearman相关系数为0.670029247226748,参数化架构的平均AUC为0.843,平均斯皮尔曼相关系数为0.721326016541718,从表3所示的50个随机测试用例的实验结果中可以看出,虽然硬编码体系结构的AUC为0.816,稳定性指标,包括杰卡德相似性系数和斯皮尔曼秩相关系数显著低于参数化体系结构,因此,与参数化体系结构相比,硬编码体系结构的仿真结果并不那么令人满意,
表350个随机测试用例下硬编码架构与参数化架构的比较表
Figure BDA0003869791650000151
步骤五、计算机模块和操作***参数:所有的计算都是执行在2.3GHz的四核处理器(TurboBoost,以实现3.8GHz)的个人电脑与8GbRAMiOS。
本方法的一种集成主成分分析和基于密度的应用空间聚类算法(“DBSCAN”)的新算法,以相对较高的精度、效率和适应性来解决挑战和检测目标设备的异常声音,它集成了增量PCA和DBSCAN聚类,在提取真实工厂采集的机器声音的声学特征后检测异常声音,增量主成分分析(“IPCA”);建立声学特性的组合基于原始的声音数据,然后部署两层机器学习算法提取特征和检测异常的声音基于声学特征的组合,该方法能够在不需要高计算能力的情况下实现高性能,特别是对于大容量和高维机器的声音文件;该无监督的机器学习算法,能够训练大型正常数据集,根据转换后的音频信号提取声音特征,并灵敏检测和识别小型异常数据进入时的异常性,DBSCAN利用密度达到能力和密度连接能力找到优化的中心和半径不重叠集群在训练未标记的输入数据,并检测异常点基于他们的边界任何现有集群的训练;深度学习算法,基于IPCA的DBSCAN,作为基于密度的聚类之一,采用局部聚类准则,基于IPCA的DSBCAN采用密度和半径的线性优化计算,经过训练后正确找到所有聚类,即可达到较高的稳定性;基于IPCA的DBSCAN在定义从中心点到边界点的半径(EPS)和定义簇的最小点数(MinPts)时,采用了参数化架构而不是硬编码,增强的IPCA中的向量数被定义为声学特征的个数,这种自适应的架构能够将维数降低到可使DBSCAN继续进行的计算框架中,当环境发生变化,原始声音数据发生变化时,算法将自动改变输入声音数据的时间,这种设计在某种程度上有助于建立自动本地化的模型,以提高不同环境的自适应性;新算法的体系结构采用了噪声调节方法,使背景噪声免受异常声音观测的影响,噪声感知包含在数据预处理阶段,并在原始音频文件中添加高斯白噪声,这是为了提高算法中的噪声感知,并被证明可以更好地泛化表示,这似乎也可以捕获输入的语义信息,然而,根据实验结果,基于IPCA的DBSCAN的噪声容忍度低至0.05,信噪比(“SNR”)为13.0103(信噪比=10*Log(1/0.05)而0.05是噪声与真实声音的比值,或噪声的显著性因子),这是因为DBSCAN对检测和过滤噪声异常值过敏,而不是添加在干净的音频样本中的连续噪声模式,这是它在应用于实验室实验时所观察到的缺点,因此,输入实际上是干净的样本值加上噪声:
Figure BDA0003869791650000161
Figure BDA0003869791650000162
解码后的输出被重新定义为。
Figure BDA0003869791650000163
增强的基于IPCA的DBSCAN包括IPCA和DBSCAN两层,可以降低转换后的音频数据的尺寸,以适应DBSCAN优化后的架构,从而降低GPU的计算能力,保持较高的计算性能,该算法是基于对所提取的声学特征的分析,而不是基于音频信号,这有助于将音频数据的尺寸减少到声学特性的数量,高维音频数据文件经过降维技术后,可以在普通CPU而不是GPU或TPU中进行训练和预测,对性能的影响最小,由于连续的GPU(s)消耗,计算成本也可以显著降低。
尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种DBSCAN进行异常声音特征的无监督算法,其特征在于,包括以下步骤:
S1、将声音的光谱形状和时间形态作为机器学习的声学特征,来识别输入的音频数据的物理特性,并采用Peeter's声学特徵分类方法提取声学特征来识别异常声音;
S2、采用增强的增量主成分分析方法进行降维,并根据不同机器类型的最优历史结果,采用遗传算法选择IPCA的输入参数;
S3、基于密度的噪声应用程序的空间聚类,DBSCAN基于密度的聚类算法,通过低密度区域分离聚类。
2.根据权利要求1所述的一种DBSCAN进行异常声音特征的无监督算法,其特征在于,在步骤S1中,所述音频数据的物理特性分为时域或频域和时域,基于不同的计算范围,区分时间扩展有效性的全局描述符计算整个信号和瞬时描述符计算每个时间帧。
3.根据权利要求1所述的一种DBSCAN进行异常声音特征的无监督算法,其特征在于,在步骤S1中,描述符包括时间形态、光谱形状特征、谐波特性、强度和派生特征,机器学习处理的描述符包括:
S10、频繁性:采用基于短时傅里叶变换的分析方法对连续音频信号进行了线性频率计算,计算公式如下:
Figure FDA0003869791640000011
其中,fS其中k为索引箱,为样本的频率,k为块的长度,为块的频率。fQ
S11、振幅:根据STFT后的连续信号计算振幅,并从对数缩放转换为db缩放;
S12、自相关系数:信号的互相关,即信号频谱能量分布的傅里叶反变换,表示信号在时域内的频谱分布,其公式为:
Figure FDA0003869791640000021
其中,每个系数都在系数的范围内,随着滞后时间的增加,系数减小得越快,信号就会越白;
S13、零交叉率:过零率越高,高频内容就越高,音频信号假设的周期性就越小,计算方法为:
Figure FDA0003869791640000022
符号函数被定义为:
Figure FDA0003869791640000023
其中,如果x(i-1)不存在,则将x(i-1)=0用作初始化,特征值的范围为[0,1];
S14、起始包络:开始是指与声音开始所需的时间相关的感知,起始包络被计算为一个光谱通量的起始强度包络,光谱通量测量光谱形状的变化量,它被计算为连续的STFT帧之间的平均差值,t时刻的起始强度由:
mean_fmax(0,S[f,t]–ref[f,t-lag])
其中,ref为沿频率轴进行局部最大滤波后的S,如果提供了一个时间序列y,S将是对数功率的Mel谱图,起始点与撞击的时间的对数相关;
S15、光谱质心:表示光谱能量的重心,光谱质心与音色维度的亮度或锐度相关,它被计算为由其非加权和归一化的频谱的频率加权和:
Figure FDA0003869791640000024
S16、光谱滚动:光谱滚动测量了所分析的音频样本块n的带宽,光谱滚动点是STFTX(k,n)的累积达到的频率K:
Figure FDA0003869791640000031
其中,共同值为0.85,K光谱下降的值范围为[0,K/2-1];
S17、梅尔频率倒流系数:MFCC被定义为对音频信号的光谱包络形状的紧凑描述,它是由离散余弦变换或傅里叶变换后的频谱的对数计算出来的,其配方为:
Figure FDA0003869791640000032
其中,系数的数量是20;
S18、基本频率:基于信号是周期或准周期的假设,它是一个整数倍,基于理想的谱插值计算轨迹上的螺距;
S19、强度:通过音频样本或没有STFT处理的光谱图中计算出均方根能量,基于音频信号直接计算RMSE,RMSE输出每一帧的均方根值;
S20、节奏特征:通常以每分钟的节拍来测量并绘制节奏图,所述节奏图由起始强度包络的局部自相关导出,其计算公式如下:
Figure FDA0003869791640000033
其中,对于时间t∈Z和时间滞后l∈[0,N],W用于窗口函数:
Figure FDA0003869791640000034
以t=0为中心,支持[-N:N],
Figure FDA0003869791640000035
4.根据权利要求1所述的一种DBSCAN进行异常声音特征的无监督算法,其特征在于,在步骤S1中,所述进一步的机器学习处理的描述符还包括派生特征:温度图通常以每分钟的节拍来测量。
5.根据权利要求1所述的一种DBSCAN进行异常声音特征的无监督算法,其特征在于,在步骤S2中,所述采用增强的增量主成分分析方法包括以下步骤:
S21、在第一帧中定位目标对象,并将特征基U初始化为空,且均值μ为目标在第一帧中的出现,到目前为止的有效观测数是n=1。
S22、前进到下一帧,
Figure FDA0003869791640000041
具体地说,其中为一个对角协方差矩阵,其元素为确定参数的相应方差;
S23、对于每个粒子,从当前帧中提取相应的窗口,并计算其权重,及其在观测模型下的可能性;
S24、对特征基、平均值和有效观测数进行增量更新;
S25、转到步骤S22:增强的增量主成分分析用一个额外的向量来增加新的训练数据来校正时变平均值。
6.根据权利要求5所述的一种DBSCAN进行异常声音特征的无监督算法,其特征在于,在步骤S24中,计算过程包括以下步骤:
S250、根据
Figure FDA0003869791640000042
的SVD计算U和∑,以及
Figure FDA0003869791640000043
n和B,根据
Figure FDA0003869791640000044
的SVD计算
Figure FDA0003869791640000045
U’和∑’:
S251、计算平均向量
Figure FDA0003869791640000046
S252、形成矩阵
Figure FDA0003869791640000047
S253、
Figure FDA0003869791640000048
计算,并且
Figure FDA0003869791640000049
在SKL算法中大一列;
S254、计算R:
Figure FDA00038697916400000410
S255、最终
Figure FDA00038697916400000411
7.根据权利要求5所述的一种DBSCAN进行异常声音特征的无监督算法,其特征在于,在步骤S24中,在该算法中,当减少每个数据块对由f的附加因子建模的总体协方差的贡献时,遗忘因子对特征基础上的平均值的影响2在每次SVD更新时,并将遗忘因子与特征基的增量更新、平均观测数和有效观测数相乘,生成新的帧,当计算仿射运动参数的目标t,浓缩算法,基于因素抽样,采用近似的任意分布的观察随机生成的加权样本,随着它随着时间的推移。
8.根据权利要求1所述的一种DBSCAN进行异常声音特征的无监督算法,其特征在于,在步骤S3中,所述基于密度的聚类算法细节包括:
S30、Eps:Eps(“ε”)是一个簇的半径,用来定义一个对象的邻域。p.对于集群D,Eps(p)={q∈D|距离(p,q)<=Eps};
S31、MinPts:MinPts是定义集群的最小点数,对于任何直接密度可达的qn对于对象p,它满足:qn∈Eps(p),n>=MinPts;
S32、这里p是核心对象和qi是从对象p可以达到的密度和最小值|q-p|=0,max|q–p|=Eps;
S33、时间复杂度:因为p和是密度连接的,DBSCAN的时间复杂度一般为O(n2);
S34、集群:设D为对象的数据组,集群C是D的一个非空子集;
S35、噪音:对于任何集群Ci(i=1,2,m),噪声点g不属于任何簇Ci.它可以被描述为:
Figure FDA0003869791640000051
9.根据权利要求8所述的一种DBSCAN进行异常声音特征的无监督算法,其特征在于,在步骤S34中,所述集群满足:
Figure FDA0003869791640000052
q,如果p∈C和q是从pwrt到密度可达的,Eps和MinPts,然后是q∈C(最大值),
Figure FDA0003869791640000053
q,p是可以从p得到密度的。Eps和MinPts。
10.根据权利要求1所述的一种DBSCAN进行异常声音特征的无监督算法,其特征在于,在步骤S3中,DBSCAN中对于任何属于数据集D的任意对象p,DBSCAN算法将检索通过ε和MinPts值从p中可到达的所有对象密度,对于任何对象p有三种情况:它是一个集群的核心对象,如果在距离p≤ε的距离内有足够的其他对象q,并且在数据集D中有q≥MinPts;如果没有足够的q密度连接到p,它就是边界对象;如果它不属于任何集群,那么它是噪声对象,DBSCAN算法将继续进行处理,将所有对象定位到集群或噪声组中。
CN202211193188.7A 2022-09-28 2022-09-28 一种dbscan进行异常声音特征的无监督算法 Pending CN115510909A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211193188.7A CN115510909A (zh) 2022-09-28 2022-09-28 一种dbscan进行异常声音特征的无监督算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211193188.7A CN115510909A (zh) 2022-09-28 2022-09-28 一种dbscan进行异常声音特征的无监督算法

Publications (1)

Publication Number Publication Date
CN115510909A true CN115510909A (zh) 2022-12-23

Family

ID=84507988

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211193188.7A Pending CN115510909A (zh) 2022-09-28 2022-09-28 一种dbscan进行异常声音特征的无监督算法

Country Status (1)

Country Link
CN (1) CN115510909A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116361673A (zh) * 2023-06-01 2023-06-30 西南石油大学 准周期时间序列无监督异常检测方法、***及终端
CN116953488A (zh) * 2023-09-19 2023-10-27 深圳市东陆科技有限公司 一种用于集成光电芯片的监测方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116361673A (zh) * 2023-06-01 2023-06-30 西南石油大学 准周期时间序列无监督异常检测方法、***及终端
CN116361673B (zh) * 2023-06-01 2023-08-11 西南石油大学 准周期时间序列无监督异常检测方法、***及终端
CN116953488A (zh) * 2023-09-19 2023-10-27 深圳市东陆科技有限公司 一种用于集成光电芯片的监测方法
CN116953488B (zh) * 2023-09-19 2023-12-12 深圳市东陆科技有限公司 一种用于集成光电芯片的监测方法

Similar Documents

Publication Publication Date Title
CN108281146B (zh) 一种短语音说话人识别方法和装置
CN115510909A (zh) 一种dbscan进行异常声音特征的无监督算法
CN110310666B (zh) 一种基于se卷积网络的乐器识别方法及***
CN110120230B (zh) 一种声学事件检测方法及装置
CN113488073B (zh) 一种基于多特征融合的伪造语音检测方法及装置
CN111986699B (zh) 基于全卷积网络的声音事件检测方法
CN110992985A (zh) 识别跑步机异音的识别模型确定方法、识别方法、***
CN106548786A (zh) 一种音频数据的检测方法及***
CN115310477A (zh) 基于分形特征和捕食者算法的泵机设备故障声音检测方法及其***
CN116895288A (zh) 基于伪Wigner-Ville分布的数字音频自适应复制粘贴检测方法及装置
Imran et al. An analysis of audio classification techniques using deep learning architectures
KR101671305B1 (ko) 입력 신호의 특징 파라미터 추출 장치 및 그를 이용한 화자 인식 장치
CN112052880A (zh) 一种基于更新权值支持向量机的水声目标识别方法
CN111025100A (zh) 变压器特高频局部放电信号模式识别方法与装置
CN114121025A (zh) 一种面向变电站设备的声纹故障智能检测方法及装置
CN115563500A (zh) 基于数据增强技术的配电设备局部放电模式识别方法、装置及***
CN114492543A (zh) 一种基于时频域特征的局部放电分类识别方法
Oo Comparative study of MFCC feature with different machine learning techniques in acoustic scene classification
CN106782550A (zh) 一种基于dsp芯片的自动语音识别***
Uzkent et al. Pitch-range based feature extraction for audio surveillance systems
Majeed et al. Hierarchical k-means algorithm applied on isolated malay digit speech recognition
Sarkar et al. Speaker recognition in bengali language from nonlinear features
Morovati Increase the accuracy of speech signal categories in high noise environments
Sameh et al. On the use of time-Frequency reassignment and SVM-Based classifier for audio surveillance applications
Fartash et al. A scale–rate filter selection method in the spectro-temporal domain for phoneme classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination