CN115510909A

CN115510909A - 一种dbscan进行异常声音特征的无监督算法

Info

Publication number: CN115510909A
Application number: CN202211193188.7A
Authority: CN
Inventors: 谭笑; 姚兆明
Original assignee: Individual
Current assignee: Individual
Priority date: 2022-09-28
Filing date: 2022-09-28
Publication date: 2022-12-23

Abstract

本发明公开了一种DBSCAN进行异常声音特征的无监督算法，包括以下步骤：S1、将声音的光谱形状和时间形态作为机器学习的声学特征，来识别输入的音频数据的物理特性，并采用Peeter's声学特徵提分类方法提取声学特征来识别异常声音。本发明集成了增量PCA和DBSCAN聚类，在提取机器声音的声学特征后检测异常声音，能够在不需要高计算能力的情况下实现高性能，能够训练大型正常数据集，根据转换后的音频信号提取声音特征，并检测小型异常数据进入时的异常性，该算法采用局部聚类准则，基于IPCA的DSBCAN采用密度和半径的线性优化计算，经过训练后正确找到所有聚类，达到高稳定性，新算法的体系结构采用了噪声调节方法，使背景噪声免受异常声音观测的影响。

Description

一种DBSCAN进行异常声音特征的无监督算法

技术领域

本发明涉及异常声音检测算法技术领域，具体为一种DBSCAN进行异常声音特征的无监督算法。

背景技术

物联网是指与设备启用相关的计算，这些设备能够在没有人类直接参与的情况下与内部或外部环境通信数据，异常声音检测(ASD)是这类设备的一种，它作为一种“智能”传感器，通过机器学习方法检测来自目标机器的异常声音，这有助于机器的操作人员避免由于高级检测而造成的额外损失。随着深度学习和人工智能的广泛采用，以缓解保持和扩大当前生产规模的劳动力需求不断增加与市场上劳动力减少的现实之间的冲突，ASD正成为现代产业的重要元素。

现有技术中，如中国专利号为：CN110706720A的“一种端到端无监督深度支撑网络的声学异常检测方法”，其步骤如下：将声学信号转化为梅尔频谱的声学谱图信号；将搜集到的声音信号划分为训练、验证、测试集，其中验证集负责用来确定异常阈值；构建无监督的深度支撑网络，包括特征学习网络负责提取声学特征，深度检测网络负责判决声音信号是否异常；构建深度支撑网络的损失函数，包括特征学习的最小二乘损失函数，以及深度检测网络的软间隔铰链损失函数；训练验证集，计算最优检测阈值；采用训练好的深度支撑网络定量计算声学的异常值。

但现有技术在实际应用时，利用异常声音检测提取设备声音数据特征，然后观察和检测目标机械发出的异常声音，作为目标运行状态的预警依据，发给操作员，工厂内的所有机械都可能发生故障，这给公司造成了潜在的损失风险，声学监测传感器可以在故障真正发生之前检测到机器状态的异常变化，但是对预测性维护的需求是巨大的，由于缺乏人性化的环境或熟练工人，维修服务的质量将受到重大影响；除了预测性维护的成本较低外，由于设备事故造成的死亡和严重伤害的风险降低是在维护实践中实施异常声音检测技术的另一个重要原因；然而，尽管随着工业4.0和物联网的发展，异常声音检测仍面临着相当多的挑战，而这些挑战主要与数据收集的限制有关，如不平衡训练数据集、高性能稳定性、硬编码体系结构、噪音、计算成本。

所以我们提出了一种DBSCAN进行异常声音特征的无监督算法，以便于解决上述中提出的问题。

发明内容

本发明的目的在于提供一种DBSCAN进行异常声音特征的无监督算法，以解决上述背景技术提出的问题。

为实现上述目的，本发明提供如下技术方案：一种DBSCAN进行异常声音特征的无监督算法，包括以下步骤：

S1、将声音的光谱形状和时间形态作为机器学习的声学特征，来识别输入的音频数据的物理特性，并采用Peeter's声学特征分类方法提取声学特征来识别异常声音；

S2、采用增强的增量主成分分析方法进行降维，并根据不同机器类型的最优历史结果，采用遗传算法选择IPCA的输入参数；

S3、基于密度的噪声应用程序的空间聚类，DBSCAN基于密度的聚类算法，通过低密度区域分离聚类。

优选的，在步骤S1中，所述音频数据的物理特性分为时域或频域和时域，基于不同的计算范围，区分时间扩展有效性的全局描述符计算整个信号和瞬时描述符计算每个时间帧。

优选的，在步骤S1中，描述符包括时间形状、光谱形状特征、谐波特性、强度和派生特征，所述进一步的机器学习处理的描述符包括：

S10、频繁性：采用基于短时傅里叶变换的分析方法对连续音频信号进行了线性频率计算，计算公式如下：

其中，f_S其中k为索引箱，为样本的频率，k为块的长度，为块的频率。f_Q；

S11、振幅：根据STFT后的连续信号计算振幅，并从对数缩放转换为db缩放；

S12、自相关系数：信号的互相关，即信号频谱能量分布的傅里叶反变换，表示信号在时域内的频谱分布，其公式为：

其中，每个系数都在系数的范围内，随着滞后时间的增加，系数减小得越快，信号就会越白；

S13、过零率：过零率越高，高频内容就越高，音频信号假设的周期性就越小，计算方法为：

符号函数被定义为：

其中，如果x(i-1)不存在，则将x(i-1)＝0用作初始化，特征值的范围为[0,1]；

S14、起始包络：开始是指与声音开始所需的时间相关的感知，起始包络被计算为一个光谱通量的起始强度包络，光谱通量测量光谱形状的变化量，它被计算为连续的STFT帧之间的平均差值，t时刻的起始强度由：

mean_fmax(0,S[f,t]–ref[f,t-lag])

其中，ref为沿频率轴进行局部最大滤波后的S，如果提供了一个时间序列y，S将是对数功率的Mel谱图，发病与攻击时间的对数相关；

S15、光谱质心：表示光谱能量的重心，光谱质心与音色维度的亮度或锐度相关，它被计算为由其非加权和归一化的频谱的频率加权和：

S16、光谱滚动：光谱滚动测量了所分析的音频样本块n的带宽，光谱滚动点是STFTX(k，n)的累积达到的频率：

其中，共同值为0.85。K光谱下降的值范围为[0,K/2-1]；

S17、梅尔频率倒流系数：MFCC被定义为对音频信号的光谱包络形状的紧凑描述，它是由离散余弦变换或傅里叶变换后的频谱的对数计算出来的，其配方为：

其中，系数的数量是20；

S18、基本频率：基于信号是周期或准周期的假设，它是一个整数倍，基于理想的谱插值计算轨迹上的螺距；

S19、强度：通过音频样本或没有STFT处理的光谱图中计算出均方根能量，基于音频信号直接计算RMSE，RMSE输出每一帧的均方根值；

S20、节奏特征：通常以每分钟的节拍来测量并绘制节奏图，所述节奏图由起始强度包络的局部自相关导出，其计算公式如下：

其中，对于时间t∈Z和时间滞后l∈[0，N]，W用于窗口函数：

以t＝0为中心，支持[-N:N]，

优选的，在步骤S1中，所述进一步的机器学习处理的描述符还包括派生特征：温度图通常以每分钟的节拍来测量。

优选的，在步骤S2中，所述采用增强的增量主成分分析方法包括以下步骤：

S21、在第一帧中定位目标对象，并将特征基U初始化为空，且均值μ为目标在第一帧中的出现，到目前为止的有效观测数是n＝1。

S22、前进到下一帧，

具体地说，其中为一个对角协方差矩阵，其元素为确定参数的相应方差；

S23、对于每个粒子，从当前帧中提取相应的窗口，并计算其权重，及其在观测模型下的可能性；

S24、对特征基、平均值和有效观测数进行增量更新；

S25、转到步骤S22：增强的增量主成分分析用一个额外的向量来增加新的训练数据来校正时变平均值。

优选的，在步骤S24中，主要的计算过程包括以下步骤：

S250、根据

的SVD计算U和∑，以及

n和B，根据

的SVD计算

U’和∑’：

S251、计算平均向量

S252、形成矩阵

S253、

计算，并且

在SKL算法中大一列；

SVD

S254、计算R：

S255、最终

优选的，在步骤S24中，在该算法中，当减少每个数据块对由f的附加因子建模的总体协方差的贡献时，遗忘因子对特征基础上的平均值的影响2在每次SVD更新时，并将遗忘因子与特征基的增量更新、平均观测数和有效观测数相乘，生成新的帧，当计算仿射运动参数的目标t，浓缩算法，基于因素抽样，采用近似的任意分布的观察随机生成的加权样本，随着它随着时间的推移。

优选的，在步骤S3中，所述基于密度的聚类算法细节包括：

S30、Eps：Eps(“ε”)是一个簇的半径，用来定义一个对象的邻域。p.对于集群D，Eps(p)＝{q∈D|距离(p，q)<＝Eps}；

S31、MinPts：MinPts是定义集群的最小点数，对于任何直接密度可达的q_n对于对象p，它满足：q_n∈Eps(p)，n>＝MinPts；

S32、这里p是核心对象和qi是从对象p可以达到的密度和最小值|q-p|＝0，max|q–p|＝Eps；

S33、时间复杂度：因为p和是密度连接的，DBSCAN的时间复杂度一般为O(n²)；

S34、集群：设D为对象的数据组，集群C是D的一个非空子集；

S35、噪音：对于任何集群Ci(i＝1,2，m)，噪声点g不属于任何簇Ci.它可以被描述为：

优选的，在步骤S34中，所述集群满足：

q，如果p∈C和q是从pwrt到密度可达的，Eps和MinPts，然后是q∈C(最大值)，

q，p是可以从p得到密度的。Eps和MinPts。

优选的，在步骤S3中，DBSCAN中对于任何属于数据集D的任意对象p，DBSCAN算法将检索通过ε和MinPts值从p中可到达的所有对象密度，对于任何对象p有三种情况：它是一个集群的核心对象，如果在距离p≤ε的距离内有足够的其他对象q，并且在数据集D中有q≥MinPts；如果没有足够的q密度连接到p，它就是边界对象；如果它不属于任何集群，那么它是噪声对象，DBSCAN算法将继续进行处理，将所有对象定位到集群或噪声组中。

与现有技术相比，本发明的有益效果是：

本方法一种集成主成分分析和基于密度的应用空间聚类算法(“DBSCAN”)的新算法，以相对较高的精度、效率和适应性来解决挑战和检测目标设备的异常声音，它集成了增量PCA和DBSCAN聚类，在提取真实工厂采集的机器声音的声学特征后检测异常声音；该方法能够在不需要高计算能力的情况下实现高性能，特别是对于大容量和高维机器的声音文件；该无监督的机器学习算法，不需要提前识别异常声音并贴上标签进行训练，能够训练大型正常数据集，根据转换后的音频信号提取声音特征，并检测與正常聲音特徵迥異的小型异常数据进入时的异常性，DBSCAN利用密度达到能力和密度连接能力找到优化的中心和半径不重叠集群在训练未标记的输入数据，并检测异常点基于他们的边界任何现有集群的训练；深度学习算法采用局部聚类准则，基于IPCA的DSBCAN采用密度和半径的线性优化计算，经过训练后正确找到所有聚类，即可达到较高的稳定性；基于IPCA的DBSCAN采用自适应的架构，能够将维数降低到可使DBSCAN继续进行的计算框架中，当环境发生变化，原始声音数据发生变化时，算法将自动改变输入声音数据的时间，这种设计在某种程度上有助于建立自动本地化的模型，以提高不同环境的自适应性；新算法的体系结构采用了噪声调节方法，使背景噪声免受异常声音观测的影响，噪声感知包含在数据预处理阶段，并在原始音频文件中添加高斯白噪声，这是为了提高算法中的噪声感知，并被证明可以更好地泛化表示；增强的基于IPCA的DBSCAN包括IPCA和DBSCAN两层，可以降低转换后的音频数据的尺寸，以适应DBSCAN优化后的架构，从而降低GPU的计算能力，保持较高的计算性能，该算法是基于对所提取的声学特征的分析，而不是基于音频信号，这有助于将音频数据的尺寸减少到声学特性的数量，高维音频数据文件经过降维技术后，可以在普通CPU而不是GPU或TPU中进行训练和预测，对性能的影响最小，由于连续的GPU(s)消耗，计算成本也可以显著降低。

附图说明

图1为本发明一种DBSCAN进行异常声音特征的无监督算法的流程图；

图2为本发明一种DBSCAN进行异常声音特征的无监督算法的标准GAN的体系结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施条例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1和图2，本发明提供一种技术方案：一种DBSCAN进行异常声音特征的无监督算法，包括以下步骤：

步骤一、将声音的光谱形状和时间形态作为机器学习的声学特征，来识别输入的音频数据的物理特性，并采用皮特斯分类方法提取声学特征来识别异常声音，音频数据的物理特性分为时域或频域和时域，基于不同的计算范围，区分时间扩展有效性的全局描述符计算整个信号和瞬时描述符计算每个时间帧，描述符包括时间形状、光谱形状特征、谐波特性、强度和派生特征，进一步的机器学习处理的描述符包括：

10)频繁性：采用基于短时傅里叶变换的分析方法对连续音频信号进行了线性频率计算，计算公式如下：

11)振幅：根据STFT后的连续信号计算振幅，并从对数缩放转换为db缩放；

12)自相关系数：信号的互相关，即信号频谱能量分布的傅里叶反变换，表示信号在时域内的频谱分布，其公式为：

13)过零率：过零率越高，高频内容就越高，音频信号假设的周期性就越小，计算方法为：

符号函数被定义为：

14)起始包络：开始是指与声音开始所需的时间相关的感知，起始包络被计算为一个光谱通量的起始强度包络，光谱通量测量光谱形状的变化量，它被计算为连续的STFT帧之间的平均差值，t时刻的起始强度由：

mean_fmax(0,S[f,t]–ref[f,t-lag])

其中，ref为沿频率轴进行局部最大滤波后的S，如果提供了一个时间序列y，S将是对数功率的Mel谱图，起始与攻击时间的对数相关；

15)光谱质心：表示光谱能量的重心，光谱质心与音色维度的亮度或锐度相关，它被计算为由其非加权和归一化的频谱的频率加权和：

16)光谱滚动：光谱滚动测量了所分析的音频样本块n的带宽，光谱滚动点是STFTX(k，n)的累积达到的频率：

其中，共同值为0.85。K光谱下降的值范围为[0,K/2-1]；

17)梅尔频率倒流系数：MFCC被定义为对音频信号的光谱包络形状的紧凑描述，它是由离散余弦变换或傅里叶变换后的频谱的对数计算出来的，其配方为：

其中，系数的数量是20；

18)基本频率：基于信号是周期或准周期的假设，它是一个整数倍，基于理想的谱插值计算轨迹上的螺距；

19)强度：通过音频样本或没有STFT处理的光谱图中计算出均方根能量，基于音频信号直接计算RMSE，RMSE输出每一帧的均方根值；

20)其中，对于时间t∈Z和时间滞后l∈[0，N]，W用于窗口函数：

以t＝0为中心，支持[-N:N]，

进一步的机器学习处理的描述符还包括派生特征：温度图通常以每分钟的节拍来测量。

步骤二、采用增强的增量主成分分析方法进行降维，并根据不同机器类型的最优历史结果，采用遗传算法选择IPCA的输入参数，采用增强的增量主成分分析方法包括以下步骤：

21)在第一帧中定位目标对象，并将特征基U初始化为空，且均值μ为目标在第一帧中的出现，到目前为止的有效观测数是n＝1。

22)前进到下一帧，

23)对于每个粒子，从当前帧中提取相应的窗口，并计算其权重，及其在观测模型下的可能性；

24)对特征基、平均值和有效观测数进行增量更新；

25)转到步骤S22：增强的增量主成分分析用一个额外的向量来增加新的训练数据来校正时变平均值，在该算法中，当减少每个数据块对由f的附加因子建模的总体协方差的贡献时，遗忘因子对特征基础上的平均值的影响2在每次SVD更新时，并将遗忘因子与特征基的增量更新、平均观测数和有效观测数相乘，生成新的帧，当计算仿射运动参数的目标t，浓缩算法，基于因素抽样，采用近似的任意分布的观察随机生成的加权样本，随着它随着时间的推移，主要的计算过程包括以下步骤：

根据

的SVD计算U和∑，以及

n和B，根据

的SVD计算

U’和∑’：

S251、计算平均向量

S252、形成矩阵

S253、

计算，并且

在SKL算法中大一列；

S254、计算R：

S255、最终

步骤三、基于密度的噪声应用程序的空间聚类，DBSCAN基于密度的聚类算法，通过低密度区域分离聚类，DBSCAN中对于任何属于数据集D的任意对象p，DBSCAN算法将检索通过ε和MinPts值从p中可到达的所有对象密度，对于任何对象p有三种情况：它是一个集群的核心对象，如果在距离p≤ε的距离内有足够的其他对象q，并且在数据集D中有q≥MinPts；如果没有足够的q密度连接到p，它就是边界对象；如果它不属于任何集群，那么它是噪声对象，DBSCAN算法将继续进行处理，将所有对象定位到集群或噪声组中，基于密度的聚类算法细节包括：

30)Eps：Eps(“ε”)是一个簇的半径，用来定义一个对象的邻域。p.对于集群D，Eps(p)＝{q∈D|距离(p，q)<＝Eps}；

31)MinPts：MinPts是定义集群的最小点数，对于任何直接密度可达的q_n对于对象p，它满足：q_n∈Eps(p)，n>＝MinPts；

32)这里p是核心对象和qi是从对象p可以达到的密度和最小值|q-p|＝0，max|q–p|＝Eps；

33)时间复杂度：因为p和是密度连接的，DBSCAN的时间复杂度一般为O(n²)；

34)集群：设D为对象的数据组，集群C是D的一个非空子集；

35)噪音：对于任何集群Ci(i＝1，2，m)，噪声点g不属于任何簇Ci。

它可以被描述为：

实验设置：

步骤一、数据集和预处理：数据由真实机器的正常/异常工作声音组成，每个录音都是一个单通道2秒长度的音频，包括一个目标机器的操作声音和环境噪音，样品率为44100，在实验中，训练数据集只包含来自一种机器类型的正常数据，我们在总共228个样本的正常文件中随机选取100个正常波文件，连续50次，测试数据集包括10个非正常音频文件，从120个非正常数据文件中随机选择，预测的重点是从连续的100个正常音频文件到10个异常音频文件的转折点；数据预处理的步骤包括：

1)从228个样本各自的正常和非正常音频文件中随机选择100个正常音频文件和10个非正常音频文件；

2)转变将音频文件转换为可读数字数组，采用声学特征提取10个声学描述符来提取转换后的音频数字的特征，这10个声学特征包括：频繁性、振幅、自相关系数、零交叉率、起爆包络、光谱质心、光谱滚动、Mel频率反频系数(MFCC)、基本频率、均方根能量、节奏特征。

3)框架，计算帧速率，并使用调整后的帧速率将文件重帧到数据帧，调整后的帧数是DBSCAN算法中的MinPts；

4)缩放化和归一化：对训练和测试数据集进行缩放和归一化；

在实验中，训练数据大小为8820万，预测数据为441万，实验对每个算法连续运行50次，在总数据集中随机选取数据集，在预处理过程中，任何属性的空值都会被过滤掉；

步骤二、基准***及结果：采用一个简单的深度卷积神经网络(“DCGAN”)作为实验数据集的无监督异常检测的基准性能，生成对抗网络是一种深度神经网络结构，由一对“对抗”模型组成，分别称为生成器和鉴别器，生成器是捕获一个噪声向量，以映射到数据分布作为鉴别器的假输入，鉴别器使用一些策略来区分或识别两个输入，一个来自真实数据分布，另一个来自生成器生成的假数据分布，图2为一般对抗性网络的体系结构，DCGAN是在GAN体系结构中应用多个卷积层的GAN，详细情况列于表1中；

表1DCGAN的参数表

对于相同的音频数据，从实验结果可以看出，DCGAN能够达到0.765749902314364的精度，相对令人满意，此外，在GPU计算模块中，DCGAN的平均执行时间为90分钟，DCGAN的计算成本相对较高；

表2DCGAN的实验结果表

步骤三、噪声耐受性试验：另一系列实验测试了基于增强IPCA的DCNN-AE的最大噪声容忍度，实验结果表明，当信噪比为3.0103(信噪比＝10*Log(1/0.5))时，算法的性能受到影响，其中0.5为噪声显著性因子；

步骤四、硬编码架构与参数化架构的比较：第三个实验是比较硬编码结构和参数化结构的预测性能，实验结果表明，该参数化体系结构在较短的训练时间内获得了较高的精度，例如，当Eps设置为0.07，MinPts的计数设置为2时，硬编码体系结构的平均AUC为0.816，平均Spearman相关系数为0.670029247226748，参数化架构的平均AUC为0.843，平均斯皮尔曼相关系数为0.721326016541718，从表3所示的50个随机测试用例的实验结果中可以看出，虽然硬编码体系结构的AUC为0.816，稳定性指标，包括杰卡德相似性系数和斯皮尔曼秩相关系数显著低于参数化体系结构，因此，与参数化体系结构相比，硬编码体系结构的仿真结果并不那么令人满意，

表350个随机测试用例下硬编码架构与参数化架构的比较表

步骤五、计算机模块和操作***参数：所有的计算都是执行在2.3GHz的四核处理器(TurboBoost，以实现3.8GHz)的个人电脑与8GbRAMiOS。

本方法的一种集成主成分分析和基于密度的应用空间聚类算法(“DBSCAN”)的新算法，以相对较高的精度、效率和适应性来解决挑战和检测目标设备的异常声音，它集成了增量PCA和DBSCAN聚类，在提取真实工厂采集的机器声音的声学特征后检测异常声音，增量主成分分析(“IPCA”)；建立声学特性的组合基于原始的声音数据，然后部署两层机器学习算法提取特征和检测异常的声音基于声学特征的组合，该方法能够在不需要高计算能力的情况下实现高性能，特别是对于大容量和高维机器的声音文件；该无监督的机器学习算法，能够训练大型正常数据集，根据转换后的音频信号提取声音特征，并灵敏检测和识别小型异常数据进入时的异常性，DBSCAN利用密度达到能力和密度连接能力找到优化的中心和半径不重叠集群在训练未标记的输入数据，并检测异常点基于他们的边界任何现有集群的训练；深度学习算法，基于IPCA的DBSCAN，作为基于密度的聚类之一，采用局部聚类准则，基于IPCA的DSBCAN采用密度和半径的线性优化计算，经过训练后正确找到所有聚类，即可达到较高的稳定性；基于IPCA的DBSCAN在定义从中心点到边界点的半径(EPS)和定义簇的最小点数(MinPts)时，采用了参数化架构而不是硬编码，增强的IPCA中的向量数被定义为声学特征的个数，这种自适应的架构能够将维数降低到可使DBSCAN继续进行的计算框架中，当环境发生变化，原始声音数据发生变化时，算法将自动改变输入声音数据的时间，这种设计在某种程度上有助于建立自动本地化的模型，以提高不同环境的自适应性；新算法的体系结构采用了噪声调节方法，使背景噪声免受异常声音观测的影响，噪声感知包含在数据预处理阶段，并在原始音频文件中添加高斯白噪声，这是为了提高算法中的噪声感知，并被证明可以更好地泛化表示，这似乎也可以捕获输入的语义信息，然而，根据实验结果，基于IPCA的DBSCAN的噪声容忍度低至0.05，信噪比(“SNR”)为13.0103(信噪比＝10*Log(1/0.05)而0.05是噪声与真实声音的比值，或噪声的显著性因子)，这是因为DBSCAN对检测和过滤噪声异常值过敏，而不是添加在干净的音频样本中的连续噪声模式，这是它在应用于实验室实验时所观察到的缺点，因此，输入实际上是干净的样本值加上噪声：

解码后的输出被重新定义为。

增强的基于IPCA的DBSCAN包括IPCA和DBSCAN两层，可以降低转换后的音频数据的尺寸，以适应DBSCAN优化后的架构，从而降低GPU的计算能力，保持较高的计算性能，该算法是基于对所提取的声学特征的分析，而不是基于音频信号，这有助于将音频数据的尺寸减少到声学特性的数量，高维音频数据文件经过降维技术后，可以在普通CPU而不是GPU或TPU中进行训练和预测，对性能的影响最小，由于连续的GPU(s)消耗，计算成本也可以显著降低。

尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种DBSCAN进行异常声音特征的无监督算法，其特征在于，包括以下步骤：

S1、将声音的光谱形状和时间形态作为机器学习的声学特征，来识别输入的音频数据的物理特性，并采用Peeter's声学特徵分类方法提取声学特征来识别异常声音；

2.根据权利要求1所述的一种DBSCAN进行异常声音特征的无监督算法，其特征在于，在步骤S1中，所述音频数据的物理特性分为时域或频域和时域，基于不同的计算范围，区分时间扩展有效性的全局描述符计算整个信号和瞬时描述符计算每个时间帧。

3.根据权利要求1所述的一种DBSCAN进行异常声音特征的无监督算法，其特征在于，在步骤S1中，描述符包括时间形态、光谱形状特征、谐波特性、强度和派生特征，机器学习处理的描述符包括：

S13、零交叉率：过零率越高，高频内容就越高，音频信号假设的周期性就越小，计算方法为：

符号函数被定义为：

mean_fmax(0,S[f,t]–ref[f,t-lag])

其中，ref为沿频率轴进行局部最大滤波后的S，如果提供了一个时间序列y，S将是对数功率的Mel谱图，起始点与撞击的时间的对数相关；

S16、光谱滚动：光谱滚动测量了所分析的音频样本块n的带宽，光谱滚动点是STFTX(k，n)的累积达到的频率K：

其中，共同值为0.85，K光谱下降的值范围为[0,K/2-1]；

其中，系数的数量是20；

其中，对于时间t∈Z和时间滞后l∈[0，N]，W用于窗口函数：

以t＝0为中心，支持[-N：N]，

4.根据权利要求1所述的一种DBSCAN进行异常声音特征的无监督算法，其特征在于，在步骤S1中，所述进一步的机器学习处理的描述符还包括派生特征：温度图通常以每分钟的节拍来测量。

5.根据权利要求1所述的一种DBSCAN进行异常声音特征的无监督算法，其特征在于，在步骤S2中，所述采用增强的增量主成分分析方法包括以下步骤：

S22、前进到下一帧，

S24、对特征基、平均值和有效观测数进行增量更新；

6.根据权利要求5所述的一种DBSCAN进行异常声音特征的无监督算法，其特征在于，在步骤S24中，计算过程包括以下步骤：

S250、根据

的SVD计算U和∑，以及

n和B，根据

的SVD计算

U’和∑’：

S251、计算平均向量

S252、形成矩阵

S253、

计算，并且

在SKL算法中大一列；

S254、计算R：

S255、最终

7.根据权利要求5所述的一种DBSCAN进行异常声音特征的无监督算法，其特征在于，在步骤S24中，在该算法中，当减少每个数据块对由f的附加因子建模的总体协方差的贡献时，遗忘因子对特征基础上的平均值的影响2在每次SVD更新时，并将遗忘因子与特征基的增量更新、平均观测数和有效观测数相乘，生成新的帧，当计算仿射运动参数的目标t，浓缩算法，基于因素抽样，采用近似的任意分布的观察随机生成的加权样本，随着它随着时间的推移。

8.根据权利要求1所述的一种DBSCAN进行异常声音特征的无监督算法，其特征在于，在步骤S3中，所述基于密度的聚类算法细节包括：

S34、集群：设D为对象的数据组，集群C是D的一个非空子集；

S35、噪音：对于任何集群Ci(i＝1,2,m)，噪声点g不属于任何簇Ci.它可以被描述为：

9.根据权利要求8所述的一种DBSCAN进行异常声音特征的无监督算法，其特征在于，在步骤S34中，所述集群满足：

q，p是可以从p得到密度的。Eps和MinPts。

10.根据权利要求1所述的一种DBSCAN进行异常声音特征的无监督算法，其特征在于，在步骤S3中，DBSCAN中对于任何属于数据集D的任意对象p，DBSCAN算法将检索通过ε和MinPts值从p中可到达的所有对象密度，对于任何对象p有三种情况：它是一个集群的核心对象，如果在距离p≤ε的距离内有足够的其他对象q，并且在数据集D中有q≥MinPts；如果没有足够的q密度连接到p，它就是边界对象；如果它不属于任何集群，那么它是噪声对象，DBSCAN算法将继续进行处理，将所有对象定位到集群或噪声组中。