CN115017988A - 一种用于状态异常诊断的竞争聚类方法 - Google Patents

一种用于状态异常诊断的竞争聚类方法 Download PDF

Info

Publication number
CN115017988A
CN115017988A CN202210619146.9A CN202210619146A CN115017988A CN 115017988 A CN115017988 A CN 115017988A CN 202210619146 A CN202210619146 A CN 202210619146A CN 115017988 A CN115017988 A CN 115017988A
Authority
CN
China
Prior art keywords
cluster
sample
class
clustering
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210619146.9A
Other languages
English (en)
Inventor
王培红
徐璐璐
汤若鑫
高俊彦
陈文菲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202210619146.9A priority Critical patent/CN115017988A/zh
Publication of CN115017988A publication Critical patent/CN115017988A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种用于状态异常诊断的竞争聚类方法,涉及数据挖掘技术领域,解决了现有聚类方法不能有效保留异常的小样本类且聚类性能较差的技术问题,其技术方案要点是通过对竞争聚类算法目标函数的改进得到新的隶属度与簇心计算公式,使得样本容量在聚类代价函数中发挥效用从而弱化了样本容量差异对聚类判决的干扰,有效保留了异常(或故障)的小样本类。随着迭代的进行,计算各个类簇的基数从而淘汰小于设定阈值的虚假类簇。通过簇与簇之间竞争,类簇个数逐渐减少达到稳定,当簇心位置不再发生变化,或者达到迭代次数,则算法终止,输出结果,从而实现数据集的聚类,提高了聚类的性能,拓展了基于数据样本聚类特征的应用。

Description

一种用于状态异常诊断的竞争聚类方法
技术领域
本申请涉及数据挖掘技术领域,具体涉及大数据处理技术,尤其涉及一种用于状态异常诊断的竞争聚类方法。
背景技术
聚类分析是数据挖掘领域最为常见的技术之一,用于发现数据集中未知的对象类。聚类分析在客户细分、模式识别、医疗决策、异常检测等诸多领域有着广泛的应用前景。传统的聚类算法能够很好地处理均衡数据的聚类问题,但是现实生活中存在许多不均衡数据,例如医疗诊断、故障诊断等领域的数据中表现正常的数据量要远远大于表现异常的数据量。这类不均衡数据集的特点是同一数据集中归属于某一类别的数据对象的数量和密度与其他类别数据对象的数量和密度有较大差异,通常数据对象数量较多的类称之为大类,数据对象数量较少的类称之为小类。目前的聚类方法主要反映均衡样本类的聚类特征,而异常(或故障)的小样本类常常被忽略,又或者习惯于将大类中的部分对象划分到小类中,从而使获得的类拥有相对均匀的尺度,这限制了基于数据样本聚类特征的应用。
为了解决不均衡数据的聚类问题,学者们从不同角度提出了多种方法,包括数据预处理、多中心点及优化目标函数这三大类方法。第一类方法是数据预处理,此类方法对数据集进行欠采样和过采样处理后再进行聚类,但是欠采样方法仅仅采用了属于大类中的一部分具有代表性的子集,导致大类中大量的有效信息被忽略,影响了聚类效果;过采样方法通过增加小类中对象数量来进行数据分析,使原有数据集达到均衡状态,但这样做一方面可能会导致过拟合,另一方面也可能给数据集带来噪声。
第二类方法是多中心点的方法,此类方法基于多中心的角度解决模糊聚类算法的“均匀效应”问题,其思想是用多个类中心代替单个类中心代表一个类,在某些情况下,借助该思想,模糊聚类算法在迭代过程中根据距离“中心”最近的原则,能够让部分被错分到小类中的数据对象校正回大类中,具有一定的有效性和可行性。但此类方法对于一些大类分布极其不均匀的不均衡数据聚类问题,不能全面地反映数据分布特征,导致算法的有效性降低。
第三类方法是优化目标函数的方法,此类方法从目标函数优化的角度提出新的算法,通过推导出相应的聚类优化目标函数,以解决“均匀效应”问题。这类方法从目标函数直接切入,相比于之前的聚类算法是一种较为直接的新方法且有一定的实用性,但是此类方法一般涉及目标函数参数的求解,属于非线性函数优化问题,难以得到全局最优解,这决定了该类算法的聚类结果具有相对较大的随机性,影响算法的聚类精度。
目前,还没有一种既可以自动计算类簇个数,同时有效保留异常(或故障)的小样本类的有效聚类方法。
发明内容
本申请提供了一种用于状态异常诊断的竞争聚类方法,其技术目的是有效保留异常(或故障)的小样本类,同时实现自动计算类簇个数,提高聚类性能。
本申请的上述技术目的是通过以下技术方案得以实现的:
一种用于状态异常诊断的竞争聚类方法,包括:
S1:输入数据集U,设定初始类簇个数c=cmax,确定模糊加权指数m、初始值η0、迭代次数常数τ和类簇的基数阈值N,并随机生成第一簇心集合V1,通过模糊C均值聚类算法获取数据集U的初始样本隶属度;其中,U={xj|j=1,...,n},xj表示数据集U中的样本,xj∈U,n表示U的样本总数;V1={vi|i=1,...,c},c表示数据集U的簇心总数,vi表示第i类类簇的簇心;
S2:计算样本xj与簇心vi的欧式距离,根据所述欧氏距离和所述初始样本隶属度得到比例系数α,根据欧氏距离和比例系数α构建竞争聚类算法的目标函数;
S3:通过所述目标函数计算获得样本隶属度;
S4:计算第i类类簇的基数Ni,若Ni小于基数阈值N,则淘汰该类类簇,得到留下类簇对应的样本隶属度与第二簇心集合V2';
S5:根据样本隶属度和第二簇心集合V2'计算每个类簇的聚类紧密度Ci,然后根据聚类紧密度Ci对样本隶属度和簇心进行更新,得到本轮迭代的最终样本隶属度和第二簇心集合V2。
S6:当簇心位置不再发生变化或达到最大迭代次数时,则输出最终结果,完成聚类;否则重复步骤S2至S5。
进一步地,所述步骤S2中,根据所述欧式距离和所述初始样本隶属度得到比例系数α,表示为:
Figure BDA0003674412930000021
η(k)=η0exp(-k/τ);
其中,
Figure BDA0003674412930000022
表示样本xj到簇心vi的距离,即欧式距离;uij表示第j个样本属于第i个类簇的隶属度;m表示模糊加权指数,取2;k表示迭代次数;
则所述目标函数表示为:
Figure BDA0003674412930000023
Figure BDA0003674412930000024
进一步地,所述步骤S3中,通过所述目标函数使用拉格朗日乘子法对样本隶属度进行计算获得样本隶属度,表示为:
Figure BDA0003674412930000031
Figure BDA0003674412930000032
Figure BDA0003674412930000033
进一步地,所述步骤S5中,每个类簇的聚类紧密度Ci表示为:
Figure BDA0003674412930000034
其中,
中Ti={xj|uij>ulj;l=1,2,···,c;l≠i};
ηj=||xj-vi||;
Figure BDA0003674412930000035
Ti表示划分为第i类类簇的样本集合;|Ti|表示第i类类簇样本集合的个数;ηj表示样本xj的滤波值;ui表示第i类类簇样本集合与簇心vi距离的平均值。
进一步地,所述步骤S5中,根据聚类紧密度Ci对样本隶属度和簇心进行更新,表示为:
Figure BDA0003674412930000036
Figure BDA0003674412930000037
Figure BDA0003674412930000038
Figure BDA0003674412930000039
其中,fi表示分配给第i类类簇的系数;Si为归一化后第i类类簇的紧密度,Smin为Si中的最小值。
本申请的有益效果在于:在已实现了自动计算类簇个数的基础上,通过改进竞争聚类算法的目标函数使得样本容量在聚类代价函数中发挥效用从而弱化了样本容量差异对聚类判决的干扰,得到新的隶属度计算方法,使其能自适应地调整对大类与小类的隶属度,从而改善算法处理不均衡数据集的聚类效果,有效保留了异常(或故障)的小样本类,同时又同时实现了自动计算类簇个数,提高了聚类的性能,拓展了基于数据样本聚类特征的应用。
附图说明
图1为本申请所述方法的流程图;
图2为本申请实施例的聚类结果与其他聚类算法的对比示意图。
具体实施方式
下面将结合附图对本申请技术方案进行详细说明。
图1为本申请所述方法的流程图,一种用于状态异常诊断的竞争聚类方法,选取UCI标准数据集的Aggregation数据集中3个不均衡类作为本发明验证的数据集U,该方法包括以下步骤:
S1:输入数据集U,设定初始类簇个数c=cmax=10,确定模糊加权指数m=2、初始值η0=1.3、迭代次数常数τ=10和类簇的基数阈值N=7,并随机生成cmax个簇心,通过模糊C均值聚类算法获取数据集U的初始样本隶属度。
S2:计算样本xj与簇心vi的欧式距离,根据欧式距离和初始样本隶属度得到比例系数α,根据欧氏距离和比例系数α构建竞争聚类算法的目标函数。
欧式距离dij的计算表示为:
Figure BDA0003674412930000041
其中,
Figure BDA0003674412930000042
表示样本xj到簇心vi的距离,即欧式距离;p表示xj的维度。
再根据得到的dij和uij计算比例系数α,表示为:
Figure BDA0003674412930000043
η(k)=η0exp(-k/τ)。
最后目标函数表示为:
Figure BDA0003674412930000044
Figure BDA0003674412930000051
其中,uij表示第j个样本属于第i个聚类的隶属度;m表示模糊加权指数,取2;k表示迭代次数。
S3:通过所述目标函数计算样本隶属度。
具体地,计算样本隶属度表示为:
Figure BDA0003674412930000052
其中,
Figure BDA0003674412930000053
表示第i类类簇的基数。
S4:计算每个类簇的基数Ni,若Ni小于基数阈值7,则淘汰该类类簇,得到留下类簇对应的样本隶属度与第二簇心集合V2'。
S5:在考虑类的大小对目标函数的影响外,还须注意到每一类的样本分布对于聚类结果的影响。本申请给出一种聚类紧密度Ci的计算公式用来衡量类别中样本的分布状态,从而得到本轮迭代的最终样本隶属度和第二簇心集合V2,Ci的计算公式表示为:
Figure BDA0003674412930000054
其中,
中Ti={xj|uij>ulj;l=1,2,···,c;l≠i};
ηj=||xj-vi||;
Figure BDA0003674412930000055
Ti表示划分为第i类类簇的样本集合;|Ti|表示第i类类簇样本集合的个数;ηj表示样本xj的滤波值;μi表示第i类类簇样本集合与簇心vi距离的平均值。
由聚类紧密度公式可以看出:Ci的值越小,表明该类越集中,紧密度越高;反之则表明该类越分散,紧密度越低。
根据聚类紧密度Ci对样本隶属度和簇心进行更新,表示为:
Figure BDA0003674412930000056
Figure BDA0003674412930000061
Figure BDA0003674412930000062
Figure BDA0003674412930000063
其中,fi表示分配给第i类类簇的系数;Si为归一化后第i类类簇的紧密度,Smin为Si中的最小值。
S6:簇与簇之间竞争,簇心个数逐渐减少达到稳定,当簇心位置不再发生变化或达到迭代次数时,则输出最终结果,完成聚类;否则重复步骤S2至S5。
选择模糊C均值聚类算法和竞争聚类算法作为比较算法,其中竞争聚类算法是从模糊C均值聚类算法的基础上演变过来的,其优势在于能够自动计算类簇个数,而模糊C均值聚类算法需要提前设置集群的数量。为了公平起见,我们以可用于状态异常(小样本)诊断的竞争聚类方法获得的簇数作为模糊C均值聚类算法的前提。对于竞争聚类算法,设置η0=4,其它参数设置与可用于状态异常(小样本)诊断的竞争聚类方法相同。
图2是此三种聚类算法在同一数据集下的聚类结果比较,中心的位置显示为叠加在数据集上的“+”符号,同时圈出最终的类簇,图2中(a)是本申请所验证的数据集。从图2中(b)可以看到,模糊C均值聚类算法在初始设定3个类簇的基础上,均分了3个类,说明此算法不能有效识别大小类间的差异性;从图2中(c)中看到,竞争聚类算法依旧解决不了模糊C均值聚类算法均分各个类的缺点,并且又由于此算法特有的竞争机制自动忽略了右小角的小类,将3个类错误分成了2个类,而故障点通常类似于这些小类,说明此算法有些情况下不能有效识别故障类。图2中(d)为本申请提出的可用于状态异常(小样本)诊断的竞争聚类方法应用于数据集的聚类结果,可以看到,三个数量密度差异较大的类被正确地分出,说明此算法有能有效识别故障类,同时又可以自动计算类簇个数。
本申请通过对传统的隶属度计算方法进行改进,让其能自适应地调整对大类与小类的隶属度,有效保留了异常(或故障)的小样本类,改善了算法处理不均衡数据集的聚类效果。
以上所述的实施例仅用以说明本发明的技术方案,而并不是对其限制;本发明属于技本领域的普技术人员依然可以对前述各实施例所记描述的技术方案进行修,或者对其中部分技术特征进行等同替换,只要不偏离本发明的结构或者超越本权利要求书多定义的范围。

Claims (5)

1.一种用于状态异常诊断的竞争聚类方法,其特征在于,包括:
S1:输入数据集U,设定初始类簇个数c=cmax,确定模糊加权指数m、初始值η0、迭代次数常数τ和类簇的基数阈值N,并随机生成第一簇心集合V1,通过模糊C均值聚类算法获取数据集U的初始样本隶属度;其中,U={xj|j=1,...,n},xj表示数据集U中的样本,xj∈U,n表示U的样本总数;V1={vi|i=1,...,c},c表示数据集U的簇心总数,vi表示第i类类簇的簇心;
S2:计算样本xj与簇心vi的欧式距离,根据所述欧氏距离和所述初始样本隶属度得到比例系数α,根据欧氏距离和比例系数α构建竞争聚类算法的目标函数;
S3:通过所述目标函数计算获得样本隶属度;
S4:计算第i类类簇的基数Ni,若Ni小于基数阈值N,则淘汰该类类簇,得到留下类簇对应的样本隶属度与第二簇心集合V2′;
S5:根据样本隶属度和第二簇心集合V2′计算每个类簇的聚类紧密度Ci,然后根据聚类紧密度Ci对样本隶属度和簇心进行更新,得到本轮迭代的最终样本隶属度和第二簇心集合V2;
S6:当簇心位置不再发生变化或达到迭代次数时,则输出最终结果,完成聚类;否则重复步骤S2至S5。
2.如权利要求1所述的一种用于状态异常诊断的竞争聚类方法,其特征在于,所述步骤S2中,根据所述欧式距离和所述初始样本隶属度得到比例系数α,表示为:
Figure FDA0003674412920000011
η(k)=η0exp(-k/τ);
其中,
Figure FDA0003674412920000014
表示样本xj到簇心vi的距离,即欧式距离;uij表示第j个样本属于第i个类簇的隶属度;m表示模糊加权指数,取2;k表示迭代次数;
则所述目标函数表示为:
Figure FDA0003674412920000012
Figure FDA0003674412920000013
3.如权利要求1所述的一种用于状态异常诊断的竞争聚类方法,其特征在于,所述步骤S3中,通过所述目标函数使用拉格朗日乘子法对样本隶属度进行计算获得样本隶属度,表示为:
Figure FDA0003674412920000021
Figure FDA0003674412920000022
Figure FDA0003674412920000023
4.如权利要求1所述的一种用于状态异常诊断的竞争聚类方法,其特征在于,所述步骤S5中,每个类簇的聚类紧密度Ci表示为:
Figure FDA0003674412920000024
其中,
中Ti={xj|uij>ulj;l=1,2,…,c;l≠i};
ηj=||xj-vi||;
Figure FDA0003674412920000025
Ti表示划分为第i类类簇的样本集合;|Ti|表示第i类类簇样本集合的个数;ηj表示样本xj的滤波值;ui表示第i类类簇样本集合与簇心vi距离的平均值。
5.如权利要求1所述的竞争聚类方法,其特征在于,所述步骤S5中,根据聚类紧密度Ci对样本隶属度和簇心进行更新,表示为:
Figure FDA0003674412920000026
Figure FDA0003674412920000027
Figure FDA0003674412920000028
Figure FDA0003674412920000029
其中,fi表示分配给第i类类簇的系数;Si为归一化后第i类类簇的紧密度,Smin为Si中的最小值。
CN202210619146.9A 2022-06-01 2022-06-01 一种用于状态异常诊断的竞争聚类方法 Pending CN115017988A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210619146.9A CN115017988A (zh) 2022-06-01 2022-06-01 一种用于状态异常诊断的竞争聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210619146.9A CN115017988A (zh) 2022-06-01 2022-06-01 一种用于状态异常诊断的竞争聚类方法

Publications (1)

Publication Number Publication Date
CN115017988A true CN115017988A (zh) 2022-09-06

Family

ID=83072562

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210619146.9A Pending CN115017988A (zh) 2022-06-01 2022-06-01 一种用于状态异常诊断的竞争聚类方法

Country Status (1)

Country Link
CN (1) CN115017988A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116975672A (zh) * 2023-09-22 2023-10-31 山东乐普矿用设备股份有限公司 一种煤矿皮带输送电机温度监测方法及***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116975672A (zh) * 2023-09-22 2023-10-31 山东乐普矿用设备股份有限公司 一种煤矿皮带输送电机温度监测方法及***
CN116975672B (zh) * 2023-09-22 2023-12-15 山东乐普矿用设备股份有限公司 一种煤矿皮带输送电机温度监测方法及***

Similar Documents

Publication Publication Date Title
CN111899882B (zh) 一种预测癌症的方法及***
CN108898154A (zh) 一种电力负荷som-fcm分层聚类方法
CN110532880B (zh) 样本筛选及表情识别方法、神经网络、设备及存储介质
CN111553127A (zh) 一种多标记的文本类数据特征选择方法及装置
CN113408605A (zh) 基于小样本学习的高光谱图像半监督分类方法
WO2020108159A1 (zh) 一种网络故障根因检测方法、***及存储介质
CN110795690A (zh) 风电场运行异常数据检测方法
CN108280236A (zh) 一种基于LargeVis的随机森林可视化数据分析方法
CN112001788A (zh) 一种基于rf-dbscan算法的***违约欺诈识别方法
CN110796159A (zh) 基于k-means算法的电力数据分类方法及***
CN113449802A (zh) 基于多粒度互信息最大化的图分类方法及装置
CN116187835A (zh) 一种基于数据驱动的台区理论线损区间估算方法及***
CN115017988A (zh) 一种用于状态异常诊断的竞争聚类方法
CN109948662B (zh) 一种基于K-means和MMD的人脸图像深度聚类方法
CN111209939A (zh) 一种具有智能参数优化模块的svm分类预测方法
CN113987910A (zh) 一种耦合神经网络与动态时间规划的居民负荷辨识方法及装置
CN117195027A (zh) 基于成员选择的簇加权聚类集成方法
Kiang et al. A comparative analysis of an extended SOM network and K-means analysis
CN112906751A (zh) 一种非监督学习识别异常值的方法
Jiang et al. Anomaly detection of Argo data using variational autoencoder and k-means clustering
CN111488903A (zh) 基于特征权重的决策树特征选择方法
Lv et al. Imbalanced Data Over-Sampling Method Based on ISODATA Clustering
CN115222945B (zh) 基于多尺度自适应课程学习的深度语义分割网络训练方法
CN116452910B (zh) 基于图神经网络的scRNA-seq数据特征表示和细胞类型识别方法
TWI419058B (zh) Image recognition model and the image recognition method using the image recognition model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination