CN116796214A - 一种基于差分特征的数据聚类方法 - Google Patents
一种基于差分特征的数据聚类方法 Download PDFInfo
- Publication number
- CN116796214A CN116796214A CN202310665159.4A CN202310665159A CN116796214A CN 116796214 A CN116796214 A CN 116796214A CN 202310665159 A CN202310665159 A CN 202310665159A CN 116796214 A CN116796214 A CN 116796214A
- Authority
- CN
- China
- Prior art keywords
- clustering
- differential
- center points
- points
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000004458 analytical method Methods 0.000 claims abstract description 65
- 238000012216 screening Methods 0.000 claims abstract description 31
- 238000012545 processing Methods 0.000 claims description 19
- 238000007621 cluster analysis Methods 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000003064 k means clustering Methods 0.000 claims description 8
- 229920000642 polymer Polymers 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 10
- 230000008569 process Effects 0.000 abstract description 9
- 238000004364 calculation method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 239000002699 waste material Substances 0.000 description 2
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种基于差分特征的数据聚类方法。一种基于差分特征的数据聚类方法,包括:对样本数据进行聚类得到K个第一类簇和K个第二类簇,确定K个第三聚类中心点,得到一阶差分特征和二阶差分特征,筛选得到M个第一目标聚类中心点;获取第三聚类中心点的样本点分析图,筛选得到第二目标聚类中心点,对样本数据进行聚类分析,得到聚类结果。本申请通过对初期聚类过程得到的聚类结果进行差分分析得到差分特征,对初始设定的聚类中心进行初次筛选,获取初次筛选得到的聚类中心对应的样本点分析图,对样本点分析图进行差分分析,对初次筛选得到的聚类中心进行再次筛选,作为最终的聚类中心对样本数据进行数据聚类,增强聚类效果。
Description
技术领域
本申请涉及数据挖掘技术领域,特别地涉及一种基于差分特征的数据聚类方法。
背景技术
随着大数据技术和计算机技术的发展,大量的数据被计算机处理,在数据处理过程中通过聚类分析从大量的数据中发现潜在的内容,目前聚类分析已被广泛应用于图像处理、机器学习等领域。
K均值聚类算法是常用的聚类算法之一,有着简单、快速的优点,在具体的聚类过程中,需要预先设定K个聚类中心,基于各个样本点与K个聚类中心之间的距离对样本数据进行迭代聚类,得到聚类结果。其中,K个聚类中心的设置会对最终的聚类结果产生影响,导致聚类效果不影响。
发明内容
针对上述问题,本申请提供一种基于差分特征的数据聚类方法,在聚类的初期基于差分分析方法对聚类得到的部分信息进行分析处理,基于得到的分析结果对聚类过程进行调整,以增强聚类效果。
本申请的技术方案为:一种基于差分特征的数据聚类方法,包括:
获取待处理数据,对所述待处理数据进行归一化处理,得到样本数据;
预设K个第一聚类中心点,遍历所述样本数据中的所有样本点,基于K个第一聚类中心点将所述样本数据中的所有样本点进行聚类得到K个第一类簇,分别对K个第一类簇进行重新选取聚类中心,得到K个第二聚类中心点,基于K个第二聚类中心点对K个第一聚类中心点进行差分处理,得到一阶差分特征;
遍历K个第一类簇中的所有样本点,基于K个第二聚类中心点将K个第一类簇中的所有样本点进行聚类得到K个第二类簇,分别对K个第二类簇进行重新选取聚类中心,得到K个第三聚类中心点,基于K个第三聚类中心点对K个第二聚类中心点进行差分处理,得到二阶差分特征;
基于所述一阶差分特征和所述二阶差分特征分别分析K个第一聚类中心点的参考值,根据K个第一聚类中心点对应的K个参考值和第一预设参考值对K个第一聚类中心点进行筛选,得到M个第一目标聚类中心点;
对于M个第一目标聚类中心点对应的M个第三聚类中心点,分别获取M个第三聚类中心点中每个第三聚类中心点的样本点分析图,分别对M个样本点分析图进行差分分析,得到M个目标差分特征,基于M个目标差分特征从M个第一目标聚类中心点筛选得到第二目标聚类中心点,基于第二目标聚类中心点对样本数据进行聚类分析,得到聚类结果。
进一步地,所述基于K个第二聚类中心点对K个第一聚类中心点进行差分处理,得到一阶差分特征,包括:
分别计算K个第二聚类中心点中每个第二聚类中心点与对应的第一聚类中心点的欧氏距离,得到所述一阶差分特征;
所述基于K个第三聚类中心点对K个第二聚类中心点进行差分处理,得到二阶差分特征,包括:
分别计算K个第三聚类中心点中每个第三聚类中心点与对应的第二聚类中心点的欧氏距离,得到所述二阶差分特征。
进一步地,所述基于所述一阶差分特征和所述二阶差分特征分别分析K个第一聚类中心点的参考值,包括:
基于所述一阶差分特征和所述二阶差分特征得到K个参考集合,每个参考集合包括分别来源于所述一阶差分特征和所述二阶差分特征的两个欧氏距离值,两个欧氏距离值关联同一个第二聚类中心点;
分别计算K个参考集合中,来源于所述二阶差分特征的欧氏距离值与来源于所述一阶差分特征的欧氏距离值的比值,得到分别与K个第一聚类中心点中每个第一聚类中心点对应的参考值。
进一步地,所述根据K个第一聚类中心点对应的K个参考值和第一预设参考值对K个第一聚类中心点进行筛选,得到M个第一目标聚类中心点包括:
筛除K个第一聚类中心点中,对应参考值小于所述第一预设参考值的第一聚类中心点,对于K个第一聚类中心点中剩余的第一聚类中心点,按照对应参考值从大到小的顺序选取M个第一目标聚类中心点。
进一步地,所述获取M个第三聚类中心点中每个第三聚类中心点的样本点分析图,分别对M个样本点分析图进行差分分析,得到M个目标差分特征,包括:
遍历K个第二类簇中的所有样本点,基于M个第三聚类中心点将K个第二类簇中的所有样本点进行聚类得到M个第三类簇;
基于M个第三聚类中心点和M个第三类簇分析得到M个第三聚类中心点中每个第三聚类中心点对应的样本点总量随距离变化的样本点分析图,以预设差分步长分别对M个样本点分析图进行差分分析,得到M个目标差分特征。
进一步地,所述以预设差分步长分别对M个样本点分析图进行差分分析,得到M个目标差分特征,包括:
对于M个样本点分析图中的任一样本点分析图,基于所述预设差分步长确定多个距离参考点,每两个相邻距离参考点之间的间距等于所述预设差分步长,对每相邻的两个距离参考点进行差分分析,用后一个距离参考点对应的样本点总量值减去前一个距离参考点对应的样本点总量值,得到样本点分析图对应的差分值集合,基于预设临界值对差分值集合进行偏离分析,D=(Q﹒Pmin)/P总,其中,D为偏离值,Q为差分值集合中小于所述预设临界值的差分值的总数,Pmin为差分值集合中的差分值最小值,P总为差分值集合中的差分值的总数,将偏离值作为任一样本点分析图对应的所述目标差分特征,计算得到M个所述目标差分特征。
进一步地,所述基于M个目标差分特征从M个第一目标聚类中心点筛选得到第二目标聚类中心点包括:
筛选出M个第一目标聚类中心点中所述目标差分特征大于第二预设参考值的第一目标聚类中心点作为第二目标聚类中心点。
进一步地,所述基于第二目标聚类中心点对样本数据进行聚类分析包括:
基于K均值聚类算法和第二目标聚类中心点对样本数据进行聚类分析。
本申请具有以下优点:
本申请通过对K均值聚类算法初期聚类过程得到的聚类结果进行差分分析得到差分特征,根据差分特征对初始设定的聚类中心进行初次筛选,获取初次筛选得到的聚类中心对应的样本点分析图,对样本点分析图再进行差分分析,根据分析结果对初次筛选得到的聚类中心进行再次筛选,作为最终的聚类中心进行数据聚类,增强聚类效果,减少时间和计算资源的浪费。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本申请实施例中提供的一种基于差分特征的数据聚类方法的流程示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请部分实施例进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。然而,本领域的普通技术人员可以理解,在本申请的各实施例中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施例的种种变化和修改,也可以实现本申请所要求保护的技术方案。
图1为本申请实施例中提供的一种基于差分特征的数据聚类方法,请参见图1,本方法可具体应用于相关的聚类装置或设备,聚类装置或设备上存储有对应的执行程序,可以想到的是,执行主体也可以有其它的选择,此处不以此为限。
请参见图1,一种基于差分特征的数据聚类方法,包括:
S1、获取待处理数据,对待处理数据进行归一化处理,得到样本数据;
值得说明的是,待处理数据具体可以是需要进行聚类的数据,例如基于大数据技术获取到的与用户相关的文本数据,基于摄像设备拍摄得到的图像数据或视频数据等,通过对待处理数据进行归一化处理得到样本数据,便于后续对数据的使用。
S2、预设K个第一聚类中心点,基于K个第一聚类中心点将样本数据进行聚类得到K个第一类簇,对K个第一类簇重新选取聚类中心得到K个第二聚类中心点;
值得说明的是,在得到样本数据后,基于K均值聚类算法设定K个第一聚类中心点,其中,第一聚类中心点可以根据经验知识和精度需要而进行设定,为了提升精度,可在实际需要达到的精度上适当提升数量,具体作用在下文中进行陈述,在设定K个第一聚类中心点后,分别用K个第一聚类中心点遍历样本数据中的所有样本点,对样本数据进行第一次聚类得到K个第一类簇,对K个第一类簇重新选取得到K个第二聚类中心点。
S3、基于K个第二聚类中心点对K个第一聚类中心点进行差分处理,得到一阶差分特征;
值得说明的是,对K个第一聚类中心点进行差分处理具体为,根据每个第一聚类中心点和对应第二聚类中心点的位置信息,分别计算K个第二聚类中心点中每个第二聚类中心点与对应的第一聚类中心点的欧氏距离,从而得到一阶差分特征。
S4、基于K个第二聚类中心点将K个第一类簇中的所有样本点进行聚类得到K个第二类簇,对K个第二类簇重新选取聚类中心得到K个第三聚类中心点;
值得说明的是,采用前述的方法基于K个第二聚类中心点对K个第一类簇对应的数据进行聚类处理,对K个第一类簇中的所有样本点,即样本数据进行第二次聚类,得到K个第二类簇,对K个第二类簇重新聚类中心,得到K个第二聚类中心点。
S5、基于K个第三聚类中心点对K个第二聚类中心点进行差分处理,得到二阶差分特征;
值得说明的是,分别计算K个第三聚类中心点中每个第三聚类中心点与对应的第二聚类中心点的欧氏距离,从而得到二阶差分特征。
S6、基于一阶差分特征和二阶差分特征分别分析K个第一聚类中心点的参考值,对K个第一聚类中心点进行筛选,得到M个第一目标聚类中心点;
值得说明的是,在该步骤中,参考值的计算过程包括:
根据一阶差分特征和二阶差分特征之间的关联关系建立得到K个参考集合,每个参考集合包括两个欧式距离值,分别来源于一阶差分特征和二阶差分特征的两个欧氏距离值,两个欧氏距离值之间以同一个第二聚类中心点作为关联;
通过下述方式计算得到K个第一聚类中心点的参考值,以任意一个参考集合为例,计算该参考集合中,来源于二阶差分特征的欧氏距离值与来源于一阶差分特征的欧氏距离值的比值,将计算得到的比值作为该参考集合对应的第一聚类中心点对应的参考值,计算得到K个第一聚类中心点的参考值。
根据第一预设参考值和第一聚类中心点对应的参考值从K个第一聚类中心点中筛选得到M个第一目标聚类中心点,对于步骤S2中第一聚类中心点的设定过程,为了提高聚类效果和精度,适当提升设定的第一聚类中心点的数量,在该步骤中对第一聚类中心点进行第一次筛选,提升用于聚类的中心点的价值。
在一种可选的实施方案中,从K个第一聚类中心点中选取得到M个第一目标聚类中心点具体包括:
通过第一预设参考值对K个第一聚类中心点进行初筛,舍去对应参考值小于第一预设参考值的第一聚类中心点,根据参考值从大到小的方式对初筛得到的第一聚类中心点进行排序,对排序好的第一聚类中心点按照对应参考值从大到小的顺序选取得到M个第一目标聚类中心点。
S7、获取M个第三聚类中心点中每个第三聚类中心点的样本点分析图,对M个样本点分析图进行差分分析,得到M个目标差分特征;
具体地,遍历K个第二类簇中的所有样本点,基于M个第三聚类中心点将K个第二类簇中的所有样本点进行聚类得到M个第三类簇;
值得说明的是,以任意一个第三聚类中心点为例,样本点分析图具体为,以该第三聚类中心点为中心,对于该第三聚类中心点内的所有样本点,随着距离的增大,满足与该第三聚类中心点的距离不大于当前距离的样本点的总量变化关系图。
S8、基于M个目标差分特征从M个第一目标聚类中心点筛选得到第二目标聚类中心点,基于第二目标聚类中心点对样本数据进行聚类分析,得到聚类结果;
值得说明的是,对M个第一目标聚类中心点进行筛选的方式为,从M个第一目标聚类中心点中筛选出目标差分特征大于第二预设参考值的第一目标聚类中心点作为第二目标聚类中心点,得到多个第二目标聚类中心点。
在筛选得到多个第二目标聚类中心点后,以多个第二目标聚类中心点作为初始设定的聚类中心点,以K均值聚类算法对样本数据进行聚类分析,得到聚类结果。
在一种可选的实施方案中,对于步骤S7,分别对M个样本点分析图进行差分分析,得到M个目标差分特征,包括:
以M个样本点分析图中的任一样本点分析图为例,基于预设差分步长和样本点分析图中的距离范围确定多个距离参考点,具体地,多个距离参考点中每两个相邻的距离参考点之间的间距等于预设差分步长,对于每相邻的两个距离参考点进行差分分析,具体为用后一个距离参考点对应的样本点总量值减去前一个距离参考点对应的样本点总量值,得到每相邻的两个距离参考点对应的差分值;
建立差分值集合,每个样本点分析图对应一个样本点分析图,基于预设临界值对样本点分析图对应的差分值集合进行偏离分析,在本实施例中,以0作为预设临界值,通过如下公式对差分值集合进行偏离分析,得到偏离值:
D=(Q﹒Pmin)/P总;
式中,D为偏离值,Q为差分值集合中小于预设临界值的差分值的总数,Pmin为差分值集合中的差分值最小值,P总为差分值集合中的差分值的总数;
通过上述方式计算出每个样本点分析图对应的目标差分特征,得到M个目标差分特征。
值得说明的是,K均值聚类算法对一些非凸状类簇的聚类效果较差,聚类中心选取不合适的情况下容易导致剧烈效果不理想,通过获取样本点分析图并分析出目标差分特征,可以对初期的聚类中心选取效果就行衡量,从而获得更优质的聚类中心。
在一种更优的实施方案中,在具体使用本申请的过程中,若筛选得到的第二目标聚类中心点的数量不满足预期,即筛选得到的第二目标聚类中心点的数量较少,表示初始设定的第一聚类中心的位置不合适,在这种情况下为了提升聚类效果,可基于经验知识重新选取聚类中心,以免继续使用筛选得到的第二目标聚类中心点进行聚类导致最终的聚类效果不理想,造成时间和计算资源的浪费。
在使用K均值聚类算法进行数据聚类的过程中,初始聚类中心的设定对后续的聚类结果有着较大的影响,可能导致聚类结果为局部最优而不是全局最优,在这种情况下,本申请实施例提供的一种基于差分特征的数据聚类方法,通过对前几次聚类过程得到的聚类结果进行差分分析,根据分析得到的结果对初始设定的聚类中心进行初次筛选,获取初次筛选得到的聚类中心对应的样本点分析图,对样本点分析图进行差分分析,根据分析结果对初次筛选得到的聚类中心进行再次筛选,作为最终的聚类中心进行数据聚类,增强聚类效果。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本申请所附权利要求的保护范围。本说明书中未作详细描述的部分属于本领域专业技术人员公知的现有技术。
Claims (8)
1.一种基于差分特征的数据聚类方法,其特征在于,包括:
获取待处理数据,对所述待处理数据进行归一化处理,得到样本数据;
预设K个第一聚类中心点,遍历所述样本数据中的所有样本点,基于K个第一聚类中心点将所述样本数据中的所有样本点进行聚类得到K个第一类簇,分别对K个第一类簇进行重新选取聚类中心,得到K个第二聚类中心点,基于K个第二聚类中心点对K个第一聚类中心点进行差分处理,得到一阶差分特征;
遍历K个第一类簇中的所有样本点,基于K个第二聚类中心点将K个第一类簇中的所有样本点进行聚类得到K个第二类簇,分别对K个第二类簇进行重新选取聚类中心,得到K个第三聚类中心点,基于K个第三聚类中心点对K个第二聚类中心点进行差分处理,得到二阶差分特征;
基于所述一阶差分特征和所述二阶差分特征分别分析K个第一聚类中心点的参考值,根据K个第一聚类中心点对应的K个参考值和第一预设参考值对K个第一聚类中心点进行筛选,得到M个第一目标聚类中心点;
对于M个第一目标聚类中心点对应的M个第三聚类中心点,分别获取M个第三聚类中心点中每个第三聚类中心点的样本点分析图,分别对M个样本点分析图进行差分分析,得到M个目标差分特征,基于M个目标差分特征从M个第一目标聚类中心点筛选得到第二目标聚类中心点,基于第二目标聚类中心点对样本数据进行聚类分析,得到聚类结果。
2.如权利要求1所述的一种基于差分特征的数据聚类方法,其特征在于,所述基于K个第二聚类中心点对K个第一聚类中心点进行差分处理,得到一阶差分特征,包括:
分别计算K个第二聚类中心点中每个第二聚类中心点与对应的第一聚类中心点的欧氏距离,得到所述一阶差分特征;
所述基于K个第三聚类中心点对K个第二聚类中心点进行差分处理,得到二阶差分特征,包括:
分别计算K个第三聚类中心点中每个第三聚类中心点与对应的第二聚类中心点的欧氏距离,得到所述二阶差分特征。
3.如权利要求1所述的一种基于差分特征的数据聚类方法,其特征在于,所述基于所述一阶差分特征和所述二阶差分特征分别分析K个第一聚类中心点的参考值,包括:
基于所述一阶差分特征和所述二阶差分特征得到K个参考集合,每个参考集合包括分别来源于所述一阶差分特征和所述二阶差分特征的两个欧氏距离值,两个欧氏距离值关联同一个第二聚类中心点;
分别计算K个参考集合中,来源于所述二阶差分特征的欧氏距离值与来源于所述一阶差分特征的欧氏距离值的比值,得到分别与K个第一聚类中心点中每个第一聚类中心点对应的参考值。
4.如权利要求3所述的一种基于差分特征的数据聚类方法,其特征在于,所述根据K个第一聚类中心点对应的K个参考值和第一预设参考值对K个第一聚类中心点进行筛选,得到M个第一目标聚类中心点包括:
筛除K个第一聚类中心点中,对应参考值小于所述第一预设参考值的第一聚类中心点,对于K个第一聚类中心点中剩余的第一聚类中心点,按照对应参考值从大到小的顺序选取M个第一目标聚类中心点。
5.如权利要求1所述的一种基于差分特征的数据聚类方法,其特征在于,所述获取M个第三聚类中心点中每个第三聚类中心点的样本点分析图,分别对M个样本点分析图进行差分分析,得到M个目标差分特征,包括:
遍历K个第二类簇中的所有样本点,基于M个第三聚类中心点将K个第二类簇中的所有样本点进行聚类得到M个第三类簇;
基于M个第三聚类中心点和M个第三类簇分析得到M个第三聚类中心点中每个第三聚类中心点对应的样本点总量随距离变化的样本点分析图,以预设差分步长分别对M个样本点分析图进行差分分析,得到M个目标差分特征。
6.如权利要求5所述的一种基于差分特征的数据聚类方法,其特征在于,所述以预设差分步长分别对M个样本点分析图进行差分分析,得到M个目标差分特征,包括:
对于M个样本点分析图中的任一样本点分析图,基于所述预设差分步长确定多个距离参考点,每两个相邻的距离参考点之间的间距等于所述预设差分步长,对每相邻的两个距离参考点进行差分分析,用后一个距离参考点对应的样本点总量值减去前一个距离参考点对应的样本点总量值,得到样本点分析图对应的差分值集合,基于预设临界值对差分值集合进行偏离分析,D=(Q﹒Pmin)/P总,其中,D为偏离值,Q为差分值集合中小于所述预设临界值的差分值的总数,Pmin为差分值集合中的差分值最小值,P总为差分值集合中的差分值的总数,将偏离值作为任一样本点分析图对应的所述目标差分特征,计算得到M个所述目标差分特征。
7.如权利要求6所述的一种基于差分特征的数据聚类方法,其特征在于,所述基于M个目标差分特征从M个第一目标聚类中心点筛选得到第二目标聚类中心点包括:
筛选出M个第一目标聚类中心点中所述目标差分特征大于第二预设参考值的第一目标聚类中心点作为第二目标聚类中心点。
8.如权利要求1所述的一种基于差分特征的数据聚类方法,其特征在于,所述基于第二目标聚类中心点对样本数据进行聚类分析包括:
基于K均值聚类算法和第二目标聚类中心点对样本数据进行聚类分析。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310665159.4A CN116796214B (zh) | 2023-06-07 | 2023-06-07 | 一种基于差分特征的数据聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310665159.4A CN116796214B (zh) | 2023-06-07 | 2023-06-07 | 一种基于差分特征的数据聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116796214A true CN116796214A (zh) | 2023-09-22 |
CN116796214B CN116796214B (zh) | 2024-01-30 |
Family
ID=88043055
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310665159.4A Active CN116796214B (zh) | 2023-06-07 | 2023-06-07 | 一种基于差分特征的数据聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116796214B (zh) |
Citations (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103292741A (zh) * | 2013-05-29 | 2013-09-11 | 哈尔滨工程大学 | 一种基于k均值颜色聚类的物体表面三维轮廓的结构光视觉测量方法 |
CN103683198A (zh) * | 2013-12-03 | 2014-03-26 | 昆明理工大学 | 一种基于差动电流相邻阶次差分构成的平面上相邻点距离的励磁涌流快速识别方法 |
US20150302042A1 (en) * | 2012-11-20 | 2015-10-22 | Hitachi, Ltd. | Data analysis apparatus and data analysis method |
CN106384119A (zh) * | 2016-08-23 | 2017-02-08 | 重庆大学 | 一种利用方差分析确定k值的k‑均值聚类改进算法 |
CN107240082A (zh) * | 2017-06-23 | 2017-10-10 | 微鲸科技有限公司 | 一种拼接线优化方法及设备 |
CN108121781A (zh) * | 2017-12-18 | 2018-06-05 | 辽宁师范大学 | 基于高效样本选取与参数优化的相关反馈图像检索方法 |
CN109711439A (zh) * | 2018-12-12 | 2019-05-03 | 浙江工业大学 | 一种使用Group算法加速邻居搜索的密度峰大规模游客画像数据聚类方法 |
CN109871412A (zh) * | 2018-12-26 | 2019-06-11 | 航天科工广信智能技术有限公司 | 基于K-Means聚类的车道流量分析方法 |
CN109886334A (zh) * | 2019-02-20 | 2019-06-14 | 安徽师范大学 | 一种隐私保护的共享近邻密度峰聚类方法 |
WO2019161592A1 (zh) * | 2018-02-26 | 2019-08-29 | 大连理工大学 | 一种利用聚类自动提取结构模态参数的方法 |
CN110995508A (zh) * | 2019-12-23 | 2020-04-10 | 中国人民解放军国防科技大学 | 基于kpi突变的自适应无监督在线网络异常检测方法 |
CN111274388A (zh) * | 2020-01-14 | 2020-06-12 | 平安科技(深圳)有限公司 | 一种文本聚类的方法及装置 |
CN111415049A (zh) * | 2020-04-27 | 2020-07-14 | 国网河北能源技术服务有限公司 | 一种基于神经网络及聚类的停电敏感性分析方法 |
CN111461185A (zh) * | 2020-03-19 | 2020-07-28 | 哈尔滨工程大学 | 一种基于改进K-means的驾驶行为分析方法 |
WO2020155756A1 (zh) * | 2019-01-28 | 2020-08-06 | 平安科技(深圳)有限公司 | 基于聚类和sse的异常点比例优化方法及装置 |
CN112446559A (zh) * | 2021-02-01 | 2021-03-05 | 中国测绘科学研究院 | 一种基于深度学习的大范围地面沉降时空预测方法和*** |
CN113867342A (zh) * | 2021-09-18 | 2021-12-31 | 中国人民解放军海军工程大学 | 一种基于Hough变换和优化K均值聚类的反舰导弹编队识别目标选择*** |
WO2022016884A1 (zh) * | 2020-07-22 | 2022-01-27 | 江苏科技大学 | 一种基于K-means聚类算法的海面风速方法 |
CN114358166A (zh) * | 2021-12-29 | 2022-04-15 | 青岛星科瑞升信息科技有限公司 | 一种基于自适应k均值聚类的多目标定位方法 |
WO2022126971A1 (zh) * | 2020-12-16 | 2022-06-23 | 平安科技(深圳)有限公司 | 基于密度的文本聚类方法、装置、设备及存储介质 |
CN114999564A (zh) * | 2022-06-10 | 2022-09-02 | 江苏品生医疗科技集团有限公司 | 蛋白质数据处理方法、装置、电子设备以及存储介质 |
WO2022252505A1 (zh) * | 2021-06-02 | 2022-12-08 | 杭州安脉盛智能技术有限公司 | 一种基于多指标集群分析的设备状态监测方法 |
CN115579065A (zh) * | 2022-12-09 | 2023-01-06 | 百图生科(苏州)智能科技有限公司 | 数据的聚类处理方法、装置、电子设备和存储介质 |
CN115935775A (zh) * | 2021-09-27 | 2023-04-07 | ***通信有限公司研究院 | 神经网络模型训练方法、装置、设备及存储介质 |
-
2023
- 2023-06-07 CN CN202310665159.4A patent/CN116796214B/zh active Active
Patent Citations (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150302042A1 (en) * | 2012-11-20 | 2015-10-22 | Hitachi, Ltd. | Data analysis apparatus and data analysis method |
CN103292741A (zh) * | 2013-05-29 | 2013-09-11 | 哈尔滨工程大学 | 一种基于k均值颜色聚类的物体表面三维轮廓的结构光视觉测量方法 |
CN103683198A (zh) * | 2013-12-03 | 2014-03-26 | 昆明理工大学 | 一种基于差动电流相邻阶次差分构成的平面上相邻点距离的励磁涌流快速识别方法 |
CN106384119A (zh) * | 2016-08-23 | 2017-02-08 | 重庆大学 | 一种利用方差分析确定k值的k‑均值聚类改进算法 |
CN107240082A (zh) * | 2017-06-23 | 2017-10-10 | 微鲸科技有限公司 | 一种拼接线优化方法及设备 |
CN108121781A (zh) * | 2017-12-18 | 2018-06-05 | 辽宁师范大学 | 基于高效样本选取与参数优化的相关反馈图像检索方法 |
WO2019161592A1 (zh) * | 2018-02-26 | 2019-08-29 | 大连理工大学 | 一种利用聚类自动提取结构模态参数的方法 |
CN109711439A (zh) * | 2018-12-12 | 2019-05-03 | 浙江工业大学 | 一种使用Group算法加速邻居搜索的密度峰大规模游客画像数据聚类方法 |
CN109871412A (zh) * | 2018-12-26 | 2019-06-11 | 航天科工广信智能技术有限公司 | 基于K-Means聚类的车道流量分析方法 |
WO2020155756A1 (zh) * | 2019-01-28 | 2020-08-06 | 平安科技(深圳)有限公司 | 基于聚类和sse的异常点比例优化方法及装置 |
CN109886334A (zh) * | 2019-02-20 | 2019-06-14 | 安徽师范大学 | 一种隐私保护的共享近邻密度峰聚类方法 |
CN110995508A (zh) * | 2019-12-23 | 2020-04-10 | 中国人民解放军国防科技大学 | 基于kpi突变的自适应无监督在线网络异常检测方法 |
CN111274388A (zh) * | 2020-01-14 | 2020-06-12 | 平安科技(深圳)有限公司 | 一种文本聚类的方法及装置 |
CN111461185A (zh) * | 2020-03-19 | 2020-07-28 | 哈尔滨工程大学 | 一种基于改进K-means的驾驶行为分析方法 |
CN111415049A (zh) * | 2020-04-27 | 2020-07-14 | 国网河北能源技术服务有限公司 | 一种基于神经网络及聚类的停电敏感性分析方法 |
WO2022016884A1 (zh) * | 2020-07-22 | 2022-01-27 | 江苏科技大学 | 一种基于K-means聚类算法的海面风速方法 |
WO2022126971A1 (zh) * | 2020-12-16 | 2022-06-23 | 平安科技(深圳)有限公司 | 基于密度的文本聚类方法、装置、设备及存储介质 |
CN112446559A (zh) * | 2021-02-01 | 2021-03-05 | 中国测绘科学研究院 | 一种基于深度学习的大范围地面沉降时空预测方法和*** |
WO2022252505A1 (zh) * | 2021-06-02 | 2022-12-08 | 杭州安脉盛智能技术有限公司 | 一种基于多指标集群分析的设备状态监测方法 |
CN113867342A (zh) * | 2021-09-18 | 2021-12-31 | 中国人民解放军海军工程大学 | 一种基于Hough变换和优化K均值聚类的反舰导弹编队识别目标选择*** |
CN115935775A (zh) * | 2021-09-27 | 2023-04-07 | ***通信有限公司研究院 | 神经网络模型训练方法、装置、设备及存储介质 |
CN114358166A (zh) * | 2021-12-29 | 2022-04-15 | 青岛星科瑞升信息科技有限公司 | 一种基于自适应k均值聚类的多目标定位方法 |
CN114999564A (zh) * | 2022-06-10 | 2022-09-02 | 江苏品生医疗科技集团有限公司 | 蛋白质数据处理方法、装置、电子设备以及存储介质 |
CN115579065A (zh) * | 2022-12-09 | 2023-01-06 | 百图生科(苏州)智能科技有限公司 | 数据的聚类处理方法、装置、电子设备和存储介质 |
Non-Patent Citations (5)
Title |
---|
JIANMING LIU等: ""Improved K-Means Algorithm for Optimizing Initial Centers"", 《ADVANCES IN 3D IMGAE AND GRAPHICS REPRESENTATION, ANALYSIS, COMPUTING AND INFORMATION TECHNOLOGY》, pages 213 - 219 * |
ZILLUR RAHMAN: ""An enhanced method of initial cluster center selection for K-means algorithm"", 《ARXIV》, pages 1 - 6 * |
刘莉莉等: ""基于差分进化算法的K-means算法改进"", 《计算机技术与发展》, vol. 25, no. 10, pages 88 - 92 * |
孙林等: ""基于优化初始聚类中心和轮廓系数的K-means聚类算法"", 《模糊***与数学》, vol. 36, no. 1, pages 47 - 65 * |
季赛花等: ""基于改进的K-means入侵检测算法"", 《计算机与数字工程。, vol. 49, no. 11, pages 2184 - 2188 * |
Also Published As
Publication number | Publication date |
---|---|
CN116796214B (zh) | 2024-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111291777B (zh) | 一种基于多组学集成的癌症亚型分类方法 | |
CN108269254B (zh) | 图像质量评估方法和装置 | |
Ma et al. | Estimation of large dimensional factor models with an unknown number of breaks | |
CN108287816B (zh) | 兴趣点在线检测、机器学习分类器训练方法和装置 | |
JP2017224283A (ja) | ビッグデータ解析方法及び該解析方法を利用した質量分析システム | |
Teo et al. | SAINTq: Scoring protein‐protein interactions in affinity purification–mass spectrometry experiments with fragment or peptide intensity data | |
CN109189876B (zh) | 一种数据处理方法及装置 | |
CN108717547B (zh) | 样本数据生成方法及装置、训练模型的方法及装置 | |
Liu et al. | A unified data-adaptive framework for high dimensional change point detection | |
CN115601368B (zh) | 一种建材装备钣金件缺陷检测方法 | |
CN108470194B (zh) | 一种特征筛选方法及装置 | |
CN109167753A (zh) | 一种网络入侵流量的检测方法及装置 | |
CN106452934B (zh) | 一种网络性能指标变化趋势的分析方法和装置 | |
Jankovic | Classifying cultural heritage images by using decision tree classifiers in WEKA | |
Chang et al. | iMet-Q: a user-friendly tool for label-free metabolomics quantitation using dynamic peak-width determination | |
CN112466334A (zh) | 一种音频识别方法、设备及介质 | |
CN116796214B (zh) | 一种基于差分特征的数据聚类方法 | |
CN111783812A (zh) | 违禁图像识别方法、装置和计算机可读存储介质 | |
Vega et al. | Accurate and reliable image classification by using conformal predictors in the TJ-II Thomson scattering | |
JP6356015B2 (ja) | 遺伝子発現情報解析装置、遺伝子発現情報解析方法、及びプログラム | |
CN113032547B (zh) | 基于人工智能的大数据处理方法、***及云平台 | |
CN114462581A (zh) | 网络结构搜索方法和装置 | |
CN112836747A (zh) | 眼动数据的离群处理方法及装置、计算机设备、存储介质 | |
CN114694771A (zh) | 样品分类方法、分类器的训练方法、设备和介质 | |
US11210605B1 (en) | Dataset suitability check for machine learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |