CN107480694B - 基于Spark平台采用两次评价的加权选择集成三支聚类方法 - Google Patents

基于Spark平台采用两次评价的加权选择集成三支聚类方法 Download PDF

Info

Publication number
CN107480694B
CN107480694B CN201710548072.3A CN201710548072A CN107480694B CN 107480694 B CN107480694 B CN 107480694B CN 201710548072 A CN201710548072 A CN 201710548072A CN 107480694 B CN107480694 B CN 107480694B
Authority
CN
China
Prior art keywords
cluster
clustering
data
members
partition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710548072.3A
Other languages
English (en)
Other versions
CN107480694A (zh
Inventor
于洪
陈云
胡峰
王国胤
胡军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201710548072.3A priority Critical patent/CN107480694B/zh
Publication of CN107480694A publication Critical patent/CN107480694A/zh
Application granted granted Critical
Publication of CN107480694B publication Critical patent/CN107480694B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明请求保护一种基于Spark平台采用两次评价的加权选择集成三支聚类方法,主要包括如下步骤:步骤1,对大数据集进行分区和管理并生成对应的弹性分布式数据集(RDD);步骤2,使用基于Spark的K‑Means聚类算法对每个分区数据进行聚类,生成多个不同的聚类成员;步骤3,通过两次评价,构造新的评价函数以及加权选择策略,对聚类成员进行选择,删除聚类效果不佳的聚类结果,构成新的聚类成员;步骤4,将聚类成员进行集成,构造一个加权的投票矩阵,根据三支决策规则进行聚类划分,得到最终的三支聚类结果。本发明大幅减少了算法运行时间,提高了算法效率。

Description

基于Spark平台采用两次评价的加权选择集成三支聚类方法
技术领域
本发明属于大数据处理和数据挖掘技术领域,尤其是涉及一种基于Spark的三支选择性集成方法,三支决策领域。
背景技术
随着社会信息化和网络化的高速发展,数据每天都以***式增长,面对海量数据的产生,大数据也吸引了越来越多的关注。医疗领域、生物科学领域、金融领域、互联网等领域,日常运营中生成、累积的数据,已经不能用GB或者TB来衡量。截止2012年,数据量已从TB级别跃升到PB、EB甚至ZB级别。这些数据蕴含着很多价值,而对这些数据的分析挖掘能够得到的新的信息和知识,对各个领域将有着广泛的应用,如电子商务、O2O、物流配送等,都是利用大数据进行发展的领域,这些创新的运营模式,正在协助企业不断地发展新业务。因此对大数据的有效处理是非常必要的,是当下广阔市场的强需求。
聚类集成技术本身具有并行化的思想,能够处理较大数据,但是单机算法的局限,使得以往聚类集成方法不能够处理大规模数据。Spark是一个开源大数据生态圈,由美国加州大学伯克利分校AMP实验室开发的一种基于内存的分布式计算***。相比MapReduce,Spark拥有MapReduce的优点的同时,减少了MapReduce各个Job的中间计算保存环节,大大减少了计算时间,以及数据处理的效率。Spark的核心是弹性分布式数据集(RDD),它是一个抽象的概念,分布于各个计算节点存储于内存中的数据对象集合,RDD分为转换和动作两种操作,可以对数据对象进行函数处理。
三支决策思想的提出,从另一个角度定义了现实生活中存在的各种现象,给出了新的思考问题和解决问题的方式。研究者们将三支决策思想转换为一个理论体系,广泛适用于各个领域,如心理学领域、医疗诊断领域、管理学领域等等。对于三支聚类,主要体现于对聚类过程的三支决策和聚类结果的三支划分。以往的聚类结果,通常用一个集合表示,从决策角度来看,这属于一种二支的表示方式,即集合中的某个数据对象要么属于这个类簇,要么不属于这个类簇。这种明确二支划分数据对象的缺点是,不能够表现出那些可能属于这个类簇的数据对象,因而不能直观地表现出对象对构建类簇的影响程度。因为用三支决策的类簇表示更为合理,将确定属于该类簇的数据对象划分到类簇的核心域部分;将可能属于该类簇的数据对象划分到类簇的边缘域部分;将确定不属于该类簇的数据对象划分到类簇的琐碎域部分。
选择性集成是聚类集成的一种扩展,选择性集成思想在于删除差的基聚类器,选择出具有准确度高、差异性大的聚类成员,以使得最终得到的聚类结果具有更高的质量以及鲁棒性。选择性集成的优势在于,能够剔除冗余,改善基聚类器的质量;减少聚类集成压力;优化最终聚类结果。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种有效提高聚类集成结果的质量,能够为用户提供一个鲁棒性更高、扩展性更强的数据挖掘策略,提高算法效率,以满足用户需求的方法。本发明的技术方案如下:
一种基于Spark平台采用两次评价的加权选择集成三支聚类方法,其包括以下步骤:
步骤1,对大数据集进行分区管理并生成对应的弹性分布式数据集RDD;
步骤2,使用基于Spark的K-Means聚类算法对每个分区的数据进行聚类,生成多个不同的聚类成员;
步骤3,通过两次评价,构造聚类成员新的评价函数以及加权选择策略,对聚类成员进行选择,删除聚类效果不佳的聚类结果,构成新的聚类成员;
步骤4,将聚类成员进行集成,构造一个加权的投票矩阵,根据三支决策规则进行聚类划分,得到最终的三支聚类结果。
进一步的,所述步骤1对大规模数据进行分区管理具体包括步骤:首先将大规模数据集存储在分布式文件***HDFS下;然后初始化环境变量SparkContext,再通过函数textFile()将数据集转换成弹性分布式数据集RDD形式,创建分区个数numPratitions,用函数getPartition(key:Any)对输入的key做计算,返回key的分区ID。
进一步的,所述步骤2使用基于Spark的K-Means聚类算法对每个分区的数据进行聚类,生成多个不同的聚类成员具体包括步骤:
通过设置类簇数目k以及不同的迭代次数,将类簇个数k映射到每个分区,运行算法,输出键值对(id,x),其中id标记了数据对象x的簇号,然后合并分区得到聚类结果,得到m个不同的聚类成员。
进一步的,所述K-Means聚类算法具体包括:
Step1:对输入数据集进行分区,得到K个分区的RDD1;
Step2:在前k个分区中,每个分区随机选择一个点作为初始聚类中心,存储在RDD2中;
Step3:根据欧式距离公式计算每个数据对象与聚类中心的距离,并以键值对(xi,e)的形式存储在RDD3中;
Step4:对RDD3进行Reduce操作,对数据对象进行类簇划分,并以键值对(id,xi)的形式存储在RDD4中,id记录每个数据对象的簇号;
Step5:在RDD5中计算每个类簇的平均值,得到新的聚类中心点;其中RDD1-RDD5分别表示第一弹性分布式数据集-第五弹性分布式数据集;
Step6:循环迭代Step3至Step5,直到达到最大迭代次数,输出聚类结果。
进一步的,步骤3中聚类成员的加权选择过程具体包括步骤:所述步骤4中三支聚类划分方法具体如下:
(1)OVERLAP重叠矩阵的构造,将第一个聚类成员作为参照划分,余下的m-1个聚类成员分别与该聚类成员构造一个k×k的OVERLAP矩阵,矩阵记录两个划分中每个类簇所覆盖的相同对象的个数,列表示需要标签对齐的聚类成员的簇号,行表示第一个参照划分的簇号,选择矩阵每行覆盖相同对象个数最大的类簇标签,然后将标签修改为参照划分对应的簇号标签;
(2)使用如下公式作为第一次评价,计算每个聚类成员的CH值:
Figure BDA0001343690110000041
其中,数据集U={x1,x2,...,xn,...,xN},
Figure BDA0001343690110000042
表示数据集中心点,N为总的数据对象个数,k为当前类簇,m个聚类成员的集合表示为R={R(1),R(2),...,R(i),...,R(m)}。对于每个聚类成员,存在K个类簇,表示为R(i)={C1,C2,...,Ck,...,CK},
Figure BDA0001343690110000043
表示类簇Ck的中心点,d表示计算对象间的距离。CH指标通过类间分离度和类内紧密度的比值得到,其中通过计算各类簇中心到其他类簇中心的距离得到分离度,计算一个类簇的各数据对象到该类簇中心的距离得到紧密度,取CH值最大的聚类成员作为参考划分;
求得每个聚类成员R={R(1),R(2),...,R(i),...,R(m)}的CH值,R(m)表示第m个聚类成员,R(i)表示第i个聚类成员,取CH值最大的聚类结果作为参考划分R(*)
(3)计算每个聚类成员的准确度N(a)和差异性N(d),根据得到的准确度和差异性构造评价函数E(Ri),规范化权值公式如下:
Figure BDA0001343690110000044
其中Z用于将权值规范化,使得聚类标记的权值满足以下条件:
Figure BDA0001343690110000045
(4)设置阈值
Figure BDA0001343690110000046
权值小于这个阈值的结果不参与集成,从而选出新的聚类成员
Figure BDA0001343690110000047
进一步的,将得到的新的聚类成员R*,根据多数投票规则,构造一个N×k的带权重的投票矩阵,投票矩阵记录了每个数据对象被划分到不同类簇所对应的聚类成员的权重之和,根据三支决策规则,设置阈值
Figure BDA0001343690110000048
阈值(α,β)取值范围为0≤β<α≤1,将每个数据对象依次划分到类簇的核心域和边缘域中,得到最终的三支聚类结果。
本发明的优点及有益效果如下:
本发明提出一种基于Spark平台采用两次评价的加权选择集成三支聚类,能够处理大规模不确定性数据,得到三支的聚类结果,可以直观的刻画不确定性数据的类簇划分,更加符合实际情况和很多现实应用场景。选择集成有效提高聚类集成结果的质量,能够为用户提供一个鲁棒性更高、扩展性更强的数据挖掘策略,提高算法效率,以满足用户需求。
本发明主要创新点包括:
1、基于Spark的分布式聚类算法框架,能够处理大规模数据集;
2、通过两次评价,构造新的评价函数,提出新的加权选择集成策略;
3、针对不确定数据对象,利用三支决策划分规则,对聚类结果三支表示,更直观精确的刻画了不确定数据的类簇划分。
附图说明
图1是本发明提供优选实施例的基于Spark平台采用两次评价的加权选择集成三支聚类流程框图;
图2基于Spark的数据分块流程框图;
图3Spark平台的执行流程框图;
图4基于Spark的K-Means聚类算法的RDD转换图;
图5聚类成员选择流程框图;
图6三支结果表示示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
图1为本发明提出的一种基于Spark平台采用两次评价的加权选择集成三支聚类流程框图,自定义分区阶段,对输入数据集进行数据分区;通过基于Spark的K-Means聚类算法,设置初始类簇数目以及不同的迭代次数,生成初始的聚类成员;将初始聚类成员进行标签对齐,然后通过两次评价,选择出新的聚类成员,其中第一次评价是为了寻找参考划分,作为第二次评价的输入,第二次评价通过计算准确度和差异性得到规范化权值;根据带权重的新的聚类成员,构造出带权重的投票矩阵,再根据三支决策规则,得到三支表示的聚类结果。
(1)自定义分区阶段
如图2所示为基于Spark的数据分块流程框图。对于输入的原始大规模数据集,将其转换为Spark平台的RDD,完成初始化操作。首先初始化环境变量SparkContext,然后通过函数textFile()将数据集转换成RDD形式,创建分布式数据集,以便之后可以对数据集进行并行处理。通过函数numPartitions:Int,返回需要创建的分区个数,函数getPartition(key:Any):Int根据键key计算分区值,返回该键key的分区ID,范围一定是0到numPartitons-1,确保返回的永远是一个非负数。最后通过函数partitionBy()使用自定义的这个分区。
如图3所示为Spark平台的执行流程图。首先客户端将生成的作业信息提交给ResourceManager,NodeManager启动SparkAppMaster,SparkAppMaster初始化作业并像ResourceManager申请资源,然后NodeManager启动相应的SparkExecutor执行任务,最后客户端可向SparkAPPMaster获得作业运行状态。
(2)聚类成员生成阶段
如图4所示为基于Spark的K-Means聚类算法的RDD转换图。旨在通过设置不同迭代次数,并行生成多个初始聚类成员,具体步骤如下:
Step1:根据上述分区方法对输入数据集进行分区,得到K个分区的RDD1;
Step2:在前k个分区中,每个分区随机选择一个点作为初始聚类中心,存储在RDD2中;
Step3:根据欧式距离公式计算每个数据对象与聚类中心的距离,并以键值对(xi,e)的形式存储在RDD3中;
Step4:对RDD3进行Reduce操作,对数据对象进行类簇划分,并以键值对(id,xi)的形式存储在RDD4中,id记录每个数据对象的簇号;
Step5:在RDD5中计算每个类簇的平均值,得到新的聚类中心点;
Step6:循环迭代Step3至Step5,直到达到最大迭代次数,输出聚类结果。
计算过程中,初始化设置不同的迭代次数,以并行得到多个不同的聚类结果作为初始聚类成员。
(3)聚类成员选择阶段
如图5为聚类成员选择流程框图。对于得到的初始聚类成员R={R(1),R(2),...,R(i),...,R(m)},以第一个聚类成员R(1)的类簇标签为标准,将剩余的m-1个聚类成员类簇标签进行对齐。得到一个k×k的OVERLAP矩阵,矩阵记录两个划分中每个类簇所覆盖的相同对象的个数,列表示需要标签对齐的聚类成员的簇号,行表示第一个参照划分的簇号。选择矩阵每行覆盖相同对象个数最大的类簇标签,然后将标签修改为参照划分对应的簇号标签。
通过第一个评价函数CH,计算每个聚类成员的CH值,选择值最大的聚类成员作为参考划分,用于第二次评价函数计算。构造第二次评价函数主要通过计算每个聚类成员的准确度和差异性,从而得到一个新的评价函数。将第二个评价函数根据公式(5)和(6)计算得到每个聚类成员的权重w={w(1),w(2),...,w(i),...,w(n)},再通过阈值λ得到新的聚类成员R*
(4)三支投票阶段
根据新的聚类成员
Figure BDA0001343690110000071
以及每个聚类成员的权重,构造一个N×k的投票矩阵,矩阵记录每个数据对象被划分到类簇Ci的权重之和。然后根据三支决策规则,设置阈值
Figure BDA0001343690110000072
其中,数据对象在某个类簇的得票数大于等于α,将其划分在该类簇的核心域Co(Ck);若票数大于等于β,将其划分在这些类簇的边缘域Fr(Ck);若以上条件都不满足,则找到该数据对象得票数大于0的类簇,将其划分在这些类簇的边缘域。
以下举例对本发明的实施作进一步说明。本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
假设一个数据集有10个对象,维度为2,数据集具体为{(1,3),(2,2),(9,2),(7,1),(5,4),(4,5),(4,4),(1,5),(9,4),(2,3)},初始类簇个数k设置为3,迭代次数分别为2,3,4,5,6次。
首先,读取数据集并将数据集转换为RDD形式,设置分区个数为3,假设划分结果为{((1,3),(2,2),(9,2)),((7,1),(5,4),(4,5)),((4,4),(1,5),(9,4),(2,3))},每个分区中选择一个数据对象作为初始聚类中心,分别是(2,2),(4,5),(9,4)。根据欧氏距离计算数据对象到聚类中心的距离如下表:
1 5 8
0 1.414214 3.605551 8.062258
2 7 5.830952 2
3 5.09902 5 3.605551
4 3.605551 1.414214 4
6 2.828427 1 5
7 3.162278 3 8.062258
9 1 2.828427 7.071068
所以第一次迭代得到的聚类结果是{((1,3),(2,2),(2,3)),((5,4),(4,5),(4,4),(1,5)),((9,2),(7,1),(9,4))},求每个类簇的平均值,更新聚类中心,得到第二次迭代的聚类中心为(1.6667,2.6667),(3.5,4.5),(8.3333,2.3333)。再次计算距离为:
Figure BDA0001343690110000081
Figure BDA0001343690110000091
所以第二次迭代得到的聚类结果是{((1,3),(2,2),(1,5),(2,3)),((5,4),(4,5),(4,4)),((9,2),(7,1),(9,4))}。假设通过基于Spark的K-Means聚类算法得到5个聚类结果,分别是R(1)={((1,3),(2,2),(2,3)),((5,4),(4,5),(4,4),(1,5)),((9,2),(7,1),(9,4))}、R(2)={((1,3),(2,2),(1,5),(2,3)),((5,4),(4,5),(4,4)),((9,2),(7,1),(9,4))}、R(3)={((1,3),(2,2),(1,5),(2,3)),((5,4),(4,5),(4,4),(9,4)),((9,2),(7,1))}、R(4)={((1,3),(2,2),(2,3),(7,1)),((5,4),(4,5),(4,4),(1,5)),((9,2),(9,4))}、R(5)={((1,3),(2,2),(1,5),(2,3)),((5,4),(4,5),(4,4)),((9,2),(7,1),(9,4))}。
然后,根据公式(1)计算以上每个聚类成员的CH值,分别为:10.88,16.95,5.58,3.60,8.98,其中,R(2)的CH值最大,说明其聚类效果最好,故选择R(2)作为参考划分。
公式(2)到公式(5),利用第一次评价结果,构建第二次新的评价函数,目的在于衡量聚类成员的聚类质量,然后将评价函数转换为权重。选择权重大于等于1/m=1/5=0.2的聚类成员进行三支投票,得到最终三支的聚类结果。计算得到R(1)-R(5)的权重分别为0.201332,0.217771,0.192346,0.173162,0.217771,故选择权重大于等于0.2的聚类结果得到新的聚类成员。
得到带权的投票矩阵为:
Figure BDA0001343690110000092
Figure BDA0001343690110000101
计算阈值
Figure BDA0001343690110000102
故将数据对象(1,3),(2,2),(1,5),(2,3)划分到类簇1的核心域,数据对象(5,4),(4,5),(4,4)划分到类簇2的核心域,数据对象(9,2),(7,1),(9,4)划分到类簇3的核心域,数据对象(1,5)划分到类簇2的边缘域。最终三支聚类结果示意图如图6所示。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (6)

1.一种基于Spark平台采用两次评价的物流配送数据聚类方法,其特征在于,包括以下步骤:
步骤1,对物流配送大数据集进行分区管理并生成对应的弹性分布式数据集RDD;
步骤2,使用基于Spark的K-Means聚类算法同时对每个分区的数据进行聚类,生成多个不同的聚类成员;
步骤3,通过两次评价,构造聚类成员新的评价函数以及加权选择策略,对聚类成员进行选择,删除聚类效果不佳的聚类结果,构成新的聚类成员;
步骤4,将聚类成员进行集成,构造一个加权的投票矩阵,根据三支决策规则进行聚类划分,得到最终的三支聚类结果。
2.根据权利要求1所述的基于Spark平台采用两次评价的物流配送数据聚类方法,其特征在于,所述步骤1对大规模数据进行分区管理具体包括步骤:首先将大规模数据集存储在分布式文件***HDFS下;然后初始化环境变量SparkContext,再通过函数textFile()将数据集转换成弹性分布式数据集RDD形式,创建分区个数numPratitions,用函数getPartition(key:Any)对输入的key做计算,返回key的分区ID。
3.根据权利要求1所述的基于Spark平台采用两次评价的物流配送数据聚类方法,其特征在于,所述步骤2使用基于Spark的K-Means聚类算法对每个分区的数据进行聚类,生成多个不同的聚类成员具体包括步骤:
通过设置类簇数目k以及不同的迭代次数,将类簇个数k映射到每个分区,运行算法,输出键值对(id,x),其中id标记了数据对象x的簇号,然后合并分区得到聚类结果,得到m个不同的聚类成员。
4.根据权利要求3所述的基于Spark平台采用两次评价的物流配送数据聚类方法,其特征在于,所述K-Means聚类算法具体包括:
Step1:对输入数据集进行分区,得到K个分区的RDD1;
Step2:在前k个分区中,每个分区随机选择一个点作为初始聚类中心,存储在RDD2中;
Step3:根据欧式距离公式计算每个数据对象与聚类中心的距离,并以键值对(xi,e)的形式存储在RDD3中;
Step4:对RDD3进行Reduce操作,对数据对象进行类簇划分,并以键值对(id,xi)的形式存储在RDD4中,id记录每个数据对象的簇号;
Step5:在第RDD5中计算每个类簇的平均值,得到新的聚类中心点,其中RDD1-RDD5分别表示第一弹性分布式数据集-第五弹性分布式数据集;
Step6:循环迭代Step3至Step5,直到达到最大迭代次数,输出聚类结果。
5.根据权利要求3或4所述的基于Spark平台采用两次评价的物流配送数据聚类方法,其特征在于,步骤3中聚类成员的加权选择过程具体包括步骤:所述步骤4中三支聚类划分方法具体如下:
(1)OVERLAP重叠矩阵的构造,将第一个聚类成员作为参照划分,余下的m-1个聚类成员分别与该聚类成员构造一个k×k的OVERLAP矩阵,矩阵记录两个划分中每个类簇所覆盖的相同对象的个数,列表示需要标签对齐的聚类成员的簇号,行表示第一个参照划分的簇号,选择矩阵每行覆盖相同对象个数最大的类簇标签,然后将标签修改为参照划分对应的簇号标签;
(2)使用如下公式作为第一次评价,计算每个聚类成员的CH值:
Figure FDA0002568594970000021
其中,数据集U={x1,x2,...,xn,...,xN},
Figure FDA0002568594970000022
表示数据集中心点,N为总的数据对象个数,k为当前类簇,m个聚类成员的集合表示为R={R(1),R(2),...,R(i),...,R(m)},对于每个聚类成员,存在K个类簇,表示为R(i)={C1,C2,...,Ck,...,CK},
Figure FDA0002568594970000023
表示类簇Ck的中心点,d表示计算对象间的距离,CH指标通过类间分离度和类内紧密度的比值得到,其中通过计算各类簇中心到其他类簇中心的距离得到分离度,计算一个类簇的各数据对象到该类簇中心的距离得到紧密度,取CH值最大的聚类成员作为参考划分;
求得每个聚类成员R={R(1),R(2),...,R(i),...,R(m)}的CH值,R(m)表示第m个聚类成员,R(i)表示第i个聚类成员,取CH值最大的聚类结果作为参考划分R(*)
(3)计算每个聚类成员的准确度N(a)和差异性N(d),根据得到的准确度和差异性构造评价函数E(Ri),规范化权值公式如下:
Figure FDA0002568594970000031
其中Z用于将权值规范化,使得聚类标记的权值满足以下条件:
Figure FDA0002568594970000032
(4)设置阈值
Figure FDA0002568594970000033
权值小于这个阈值的结果不参与集成,从而选出新的聚类成员
Figure FDA0002568594970000034
6.根据权利要求5所述的基于Spark平台采用两次评价的物流配送数据聚类方法,其特征在于,将得到的新的聚类成员R*,根据多数投票规则,构造一个N×k的带权重的投票矩阵,投票矩阵记录了每个数据对象被划分到不同类簇所对应的聚类成员的权重之和,根据三支决策规则,设置阈值
Figure FDA0002568594970000035
Figure FDA0002568594970000036
阈值(α,β)取值范围为0≤β<α≤1,将每个数据对象依次划分到类簇的核心域和边缘域中,得到最终的三支聚类结果。
CN201710548072.3A 2017-07-06 2017-07-06 基于Spark平台采用两次评价的加权选择集成三支聚类方法 Active CN107480694B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710548072.3A CN107480694B (zh) 2017-07-06 2017-07-06 基于Spark平台采用两次评价的加权选择集成三支聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710548072.3A CN107480694B (zh) 2017-07-06 2017-07-06 基于Spark平台采用两次评价的加权选择集成三支聚类方法

Publications (2)

Publication Number Publication Date
CN107480694A CN107480694A (zh) 2017-12-15
CN107480694B true CN107480694B (zh) 2021-02-09

Family

ID=60594919

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710548072.3A Active CN107480694B (zh) 2017-07-06 2017-07-06 基于Spark平台采用两次评价的加权选择集成三支聚类方法

Country Status (1)

Country Link
CN (1) CN107480694B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7205908B2 (ja) * 2017-08-03 2023-01-17 国立大学法人東北大学 クラスタリングの評価値算出方法及びクラスタ数決定方法
CN108898432B (zh) * 2018-06-25 2022-05-13 武汉斗鱼网络科技有限公司 一种广告投放效果评估方法、装置及电子设备
CN109241991A (zh) * 2018-07-23 2019-01-18 南昌大学 一种基于信息熵权重增量学习策略的数据聚类集成方法
CN110766032A (zh) * 2018-07-27 2020-02-07 国网江西省电力有限公司九江供电分公司 基于分层递进策略的配电网数据聚类集成方法
CN109359679A (zh) * 2018-10-10 2019-02-19 洪月华 适用于广域网的分布式交通大数据并行聚类方法
CN111401392B (zh) * 2019-01-02 2023-05-09 ***通信有限公司研究院 聚类集成方法及装置、电子设备及存储介质
CN110059142A (zh) * 2019-04-24 2019-07-26 重庆邮电大学 一种高效的并行不确定性数据聚类方法
CN110880015B (zh) * 2019-10-16 2023-04-07 河南工业大学 一种基于模糊c均值的分布式集成聚类分析方法
CN114124716B (zh) * 2020-08-30 2023-10-10 西南电子技术研究所(中国电子科技集团公司第十研究所) 面向软件定义网络的均衡分域方法
CN112418522B (zh) * 2020-11-23 2022-10-11 重庆邮电大学 一种基于三支集成预测模型的工业加热炉钢温预测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693287A (zh) * 2012-05-11 2012-09-26 北京航空航天大学 一种基于聚类方法和粒子群方法的群体决策共识度自动调整方法
CN104156463A (zh) * 2014-08-21 2014-11-19 南京信息工程大学 一种基于MapReduce的大数据聚类集成方法
CN106203507A (zh) * 2016-07-11 2016-12-07 上海凌科智能科技有限公司 一种基于分布式计算平台改进的k均值聚类方法
CN106682116A (zh) * 2016-12-08 2017-05-17 重庆邮电大学 基于Spark内存计算大数据平台的OPTICS点排序聚类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140351196A1 (en) * 2013-05-21 2014-11-27 Sas Institute Inc. Methods and systems for using clustering for splitting tree nodes in classification decision trees

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693287A (zh) * 2012-05-11 2012-09-26 北京航空航天大学 一种基于聚类方法和粒子群方法的群体决策共识度自动调整方法
CN104156463A (zh) * 2014-08-21 2014-11-19 南京信息工程大学 一种基于MapReduce的大数据聚类集成方法
CN106203507A (zh) * 2016-07-11 2016-12-07 上海凌科智能科技有限公司 一种基于分布式计算平台改进的k均值聚类方法
CN106682116A (zh) * 2016-12-08 2017-05-17 重庆邮电大学 基于Spark内存计算大数据平台的OPTICS点排序聚类方法

Also Published As

Publication number Publication date
CN107480694A (zh) 2017-12-15

Similar Documents

Publication Publication Date Title
CN107480694B (zh) 基于Spark平台采用两次评价的加权选择集成三支聚类方法
Li et al. Hierarchical community detection by recursive partitioning
Chi et al. k-pod: A method for k-means clustering of missing data
Jinyin et al. A novel cluster center fast determination clustering algorithm
Wang et al. Determination of temporal information granules to improve forecasting in fuzzy time series
Xu et al. EADP: An extended adaptive density peaks clustering for overlapping community detection in social networks
Wang et al. Clustering aggregation by probability accumulation
Zandkarimi et al. A generic framework for trace clustering in process mining
Yu et al. Self-paced learning for k-means clustering algorithm
CN103488662A (zh) 基于图形处理单元的自组织映射神经网络聚类方法及***
CN114647465B (zh) 多通道注意力图神经网络聚类的单体程序拆分方法及***
Guo et al. Machine learning based feature selection and knowledge reasoning for CBR system under big data
Jiang et al. A Density Peak Clustering Algorithm Based on the K‐Nearest Shannon Entropy and Tissue‐Like P System
Silva et al. An instance selection method for large datasets based on markov geometric diffusion
Mao et al. A MapReduce-based K-means clustering algorithm
Pang et al. PUMA: Parallel subspace clustering of categorical data using multi-attribute weights
Bulysheva et al. Segmentation modeling algorithm: a novel algorithm in data mining
Kalifullah et al. Retracted: Graph‐based content matching for web of things through heuristic boost algorithm
Wang et al. Mic-kmeans: a maximum information coefficient based high-dimensional clustering algorithm
Hao et al. Causal discovery on high dimensional data
Bichat et al. Hierarchical correction of p-values via an ultrametric tree running Ornstein-Uhlenbeck process
Huang et al. Community detection algorithm for social network based on node intimacy and graph embedding model
Maslennikov et al. An intuitive risk factors search algorithm: usage of the Bayesian network technique in personalized medicine
Sajjadi et al. A hybrid clustering approach for link prediction in heterogeneous information networks
Jafarzadegan et al. An agglomerative hierarchical clustering framework for improving the ensemble clustering process

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant