CN109409394A

CN109409394A - 一种基于半监督聚类的cop-kmeans方法与***

Info

Publication number: CN109409394A
Application number: CN201810794033.6A
Authority: CN
Inventors: 丁世飞; 秦悦; 从林
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2018-07-19
Filing date: 2018-07-19
Publication date: 2019-03-01

Abstract

本发明公布了一种基于半监督聚类的cop‑kmeans方法与***，涉及kmeans算法和基于半监督聚类的cop‑kmeans算法，有效的利用先验知识来提高半监督聚类算法的性能。本发明选择引入成对约束，利用数据对象之间的约束规则对数据对象进行分配，提高聚类的质量，属于人工智能及图像分类领域。本发明主要包括如下内容：步骤1：数据预处理；步骤2：定义距离函数；步骤3：按照最小距离原则聚类；步骤4：评价或输出，确定最终聚类成果。本方法成功的将带有背景知识的先验条件应用于聚类中。

Description

一种基于半监督聚类的cop-kmeans方法与***

技术领域

本发明公布了一种基于半监督聚类的cop-kmeans方法与***，涉及kmeans 算法和基于半监督聚类的cop-kmeans算法，能够对分散的数据集添加约束，进行分类，和普通kmeans算法有所区别，以显示约束效果，属于人工智能及图像分类领域。

背景技术

随着信息技术的迅猛发展，人们无时无刻都在与外界进行数据交流，“大数据”时代来临，如何将这些海量的数据转化为有用的信息，依旧是一个需要解决的问题。数据挖掘是从海量数据中挖掘出有价值的信息知识，提取隐含在其中潜在的有用的信息。数据挖掘起源于多种学科，包括数据库、可视化、机器学习、人工智能、商业智能、数理统计等。

聚类分析，作为数据挖掘中最普遍且常用的技术，成为了研究的重要方向。聚类，就是将已有的数据对象进行分类，让每一类内部之间的相似度尽可能的大，每一类外部之间的相似度尽可能的小。一般情况下，在对数据进行划分的过程中，只靠信息之间简单的相似性作为准则，没有任何背景知识和相应的假设，不需要定义类别和性质，按照自然属性进行分类，由此，聚类分析被认为是一种无监督分析方法。聚类在许多领域中都得到应用，如：生物学，统计学，神经网络，信息检索，图像处理和数据挖掘。聚类算法一般分为五类，分别是划分方法，层次方法，基于密度的方法，基于网格的方法和基于模型的方法。其中最经典的 kmeans算法就是基于划分的聚类方法。

然而在现实生活应用中，人们对数据对象的相关领域或多或少都会有相关的背景知识，那么如何利用这些领域知识来提高聚类分析的质量，是半监督聚类分析的重要研究内容。半监督学习，可以分成半监督分类和半监督聚类，前者用未标记类标签数据辅助监督，后者用部分已标签的数据辅助非监督的学习。传统的 kmeans聚类算法是一种无监督学习方法，它按照基础优化准则对数据进行分类，通过最自然的相关性，没有考虑用户真实世界提供的任何知识。半监督聚类相比传统的无监督聚类，它利用标签或成对约束等先验知识指导聚类过程来提高聚类性能。关于半监督聚类较早的研究有S.Basu等提出的基于种子的半监督聚类算法，对等约束半监督聚类，基于搜索和相似度的半监督聚类方法。

本发明研究的重要问题，就是更有效的利用这些信息来提高半监督聚类算法的性能。本发明选择引入成对约束，利用数据对象之间的约束规则对数据对象进行分配，提高聚类的质量。用有效的方式来整合地面信息聚类算法。Kmeans算法是聚类里另一种流行的聚类算法，用于各种应用领域，如图像分割和信息信息检索。由于其广泛使用，我们认为可以开发一个可以利用背景知识的修改版本。可以对聚类算法有重要的应用。

发明内容

本发明的目的在于将现实当中可能出现的先验知识应用到聚类当中，加入约束提高半监督聚类的性能。

为实现上述目的，本发明包括如下步骤：

步骤1:数据预处理；

步骤2：定义距离函数；

步骤3：按照最小距离原则聚类；

(3.1)kmeans算法

(3.2)Cop-kmeans算法

步骤4：评价或输出，确定最终聚类成果。

(4.1)传统kmeans算法实验结果

(4.2)基于半监督聚类的cop-kmeans方法实验结果

附图说明

附图1为传统kmeans算法流程图。

附图2(a)(b)分别为Cop-Kmeans算法数据分配过程中的must-link约束情况和cannot-link约束情况。

附图3为本发明一种基于半监督聚类的cop-kmeans方法与***的***流程图。

附图4(a)(b)分别为传统kmeans算法与***初始集群点和迭代最终结果。

附图5为本发明一种基于半监督聚类的cop-kmeans方法与***初始集群点。

附图6为本发明一种基于半监督聚类的cop-kmeans方法与***设置所需集群数量。

附图7(a)(b)分别为本发明一种基于半监督聚类的cop-kmeans方法与***未加约束的不同迭代结果。

附图8为本发明一种基于半监督聚类的cop-kmeans方法与***添加ML和 CL约束结果。

附图9(a)(b)分别为本发明一种基于半监督聚类的cop-kmeans方法与***添加must-link和cannot-link约束后不同实验结果图。

具体实施方式

步骤1:数据预处理

聚类分析的主要流程，主要包括数据预处理、定义距离函数、按照最小距离原则进行聚类分组，最后评价和输出。最开始的源数据通常是指待聚类或分组的数据。其中数据预处理阶段，是由于若直接使用原始数据，里面部分不需要的数据会造成影响，给计算带来误差，所以要进行数据预处理。所以在分析之前，要对数据进行标准化。所需要的是以下几种标准化方法。

假设有n个待分类样本，该样本具有m个属性，其数据矩阵如下：

规定X′_ij≥0。提出了6种标准化方法：

1.标准差标准化

式中，

2.极大值标准化

式中，X'_jmax＝max{X′_1j,X′_2j,...X′_nj}。

3.极差标准化

X_ij＝(X′_ij-X′_jmin)/(X′_jmax-X′_jmin) (3)

式中，X'_jmax意义同上，X'_jmin＝min{X′_1j,X'_2j,...X'_nj}。

4.均值标准化

5.中心规格化

6.对数规格化

X_ij＝log X′_ij (6)

步骤2：定义距离函数

在聚类分析过程中，需要定义一些分类的统计量，来度量分类对象之间互相相似的程度，从而定量进行分类。

对于N个数据样本的集合X的第i个样本xi＝(xi1,xi2,…,xid)，d是它们的属性个数。第j个样本xj＝(xj1,xj2,…,xjd)，一般采用样本之间的距离 Dist(xi,xj)度量样本之间的相似性。Dist(xi,xj)越大，表示样本i和j的相似性越小；Dist(xi,xj)越小，表示样本i和j的相似性越大。常见的计算Dist(xi, xj)的方法大致分为以下几种类型:

欧几里德距离(Euclidean Distance)

曼哈顿距离(Manhattan Distance)

Dist(x_i,x_j)＝|x_i1-x_j1|+|x_i2-x_j2|+…+|x_id-x_jd| (8)

明考斯基距离(Minkowski Distance)

夹角余弦距离(Cosine Distance)

欧几里德距离是最常用的距离，通常所描述的现实生活中两个物体的距离均采用此计算方法。明氏距离试用于一般的欧式空间。曼哈顿距离是一种计算样本属性绝对值的差之和的度量方法。

本发明采用的是欧几里德距离。

步骤3：按照最小距离原则聚类

1967年，MacQueen首次提出了K均值聚类算法，并且在实践中获得了很好的结果。半监督聚类算法是通过向无监督聚类算法引入少量的先验知识指导聚类过程，从而提高聚类性能。K-means算法则是其典型代表之一,其中心思想是将每一个数据对象分配到距离最近的类。

(3.1)kmeans算法：

kmeans算法的计算方法：

1.从N个数据对象中随机选取k个中心点；

2.遍历所有数据，将每个数据划分到距离最近的中心点中；

3.每完成一次迭代，计算每个聚类的平均值，并作为新的中心点；

4.不断重复二三步骤，直到这k个中线点不再变化(收敛了)，或执行了足够多的迭代。

其算法流程图如附图1。

其中m为每个元素字段个数，n为数据量，I为跌打个数。一般I,k,m均可认为是常量，所以时间和空间复杂度可以简化为O(n)，即线性的。

K-means算法的目标函数定义如下：

其中，u_j表示样本x_i所属的类C_j的中心点。J_K-means是数据样本到相应类中心距离的平方和，K-means算法的目标要求J_K-means越小越好。

(3.2)Cop-kmeans算法

在上世纪八九十年代，半监督学习被广泛讨论。在面对海量的数据的时候，如何进行分析挖成为人们研究的重中之重。传统的机器学习只考虑了有标记数据或者未标记的数据。然而在很多实际问题中，有标记的数据和未标记的往往是相互并存的关系。这时，出现了半监督学习。半监督学习的样本既包含了未标记的数据，也包含了标记的数据。

半监督学习，由自学习的概念引出的，介于监督学习和无监督学习的之间的一种学习方式。按照学习的目标不同，可以将半监督学习分为两类：半监督分类、半监督聚类。前者是从监督学习的角度出发，考虑有类标记的样本，利用无标记的样本进行辅助训练。半监督聚类则是利用部分已知数据的标记或者成对约束等先验知识指导聚类过程从而提高聚类性能。

在现实生活中，人们如何用已有的少量标记数据来处理问题，这便涉及到半监督用于聚类。半监督聚类，采用少量先验信息对未标记的数据进行处理。其中先验信息可用约束关系来表示。

先验知识，一种特定的约束，通常也称为背景知识或领域知识，将其引入到传统的无监督聚类算法中指导聚类过程，可以提高聚类质量。半监督算法中比较常用的先验知识主要有以下两种：

(1)成对约束关系

约束关系也称为限制条件，在现实生活中，往往独立的类标签的样本很难获得，倘若坚持使用独立的数据，则需要花费大量的精力收集，但是要找到数据间两两成对的关系倒是容易很多。为了把约束关系运用到聚类中，Wagstaff等人提出了两种成对约束，是Must-Link约束和Cannot-Link约束，Must-Link为正关联约束关系，表示两个数据实例是属于同一类的，而负关联约束关系表示两个数据实例是属于不同的类，用Cannot-Link表示。

(2)独立的类标签

在无监督聚类算法中，所有数据样本的类标签事先是未知的。当我们获知了少量样本的真实类标签时，原始数据集X可表示为：

上式中表示n_l个已知类标签的样本集合，表示n_u个未知类标签的样本集合。一般情况下n^l＜＜n^u，即已知类标签样本的数量要远小于未知类标签样本的数量。

正常情况下，一般的聚类是无监督的，既没有任何的指导和约束，自然进行分组。在之前就已经讨论过，其实在实际的应用中，并不是没有任何条件和约束的，聚类就是要为人们服务，也就要求聚类其实是需要各种不同的倾向。为了达到这种效果，提出了Cop-kmeans算法。

Cop-Kmeans算法是一种将成对约束信息引入到K-means算法中常用的半监督聚类算法，其基本聚类思想与K-means相同，只是在数据分配过程中，要求数据对象必须满足Must-link约束和Cannot-Link约束条件。假设某个数据集的聚类个数K＝2，C₁、C₂分别代表该数据集的两个划分，u₁、u₂分别代表各自划分的中心点，x_i和x_j是两个数据实例。实线代表两个数据实例之间具有 Must-link约束，而虚线代表两个数据实例之间具有Cannot-Link约束(如附图2)。

其中Must-Link代表被选中的两个点一定是属于同一类，而Cannot-Link代表被选中的两个点一定不是同一类的元素。假设两个数据实例x_i和x_j，分别属于类C_i和C_j，如果(x_i,x_j)∈Must-Link，要求i＝j；如果(x_i,x_j)∈Cannot-Link，则要求 i≠j。

如附图2(a)所示，当x_i已经在最初的距离计算后，被分配到较近的C₁类中，x_j则是当前没有被分配的样本，由于x_i和x_j存在正关联的约束关系，即(x_i, x_j)∈Must-Link。因此，Cop-Kmeans算法将不会计算样本x_j与两个类中心点的距离，而是直接将x_j分配到C₁类中，即使x_j可能与C₂类中心点的距离更近，因为 Must-Link约束要求两个数据实例必须分配到同一类。

由附图2(b)所示，当x_i已经在最初的距离计算后，被分配到较近的C₁类中，x_j为当前待分配的样本，由于x_i和x_j存在负关联的约束关系，即(x_i, x_j)∈Cannot-Link。因此，Cop-Kmeans算法仍将不会计算样本x_j与两个类中心点的距离，而是直接将x_j分配到C₂类中，保证与x_i分配到不同的类。如果聚类个数大于2，x_j将被分配到除C₁类之外的最近的类。

成对约束只能表示样本数据显而易见的约束关系，若只是直接的采用成对约束的约束信息，会导致算法出现错误的个别奇异点，也就是出现本应该在 Must-link的点却被分到了cannot-link中。所以研究出Must-Link和Cannot-Link 约束具有对称性和传递性：

对称性

传递性

Cop-kmeans算法流程：

1.输入最开始的聚类个数K,数据集合X＝{x₀,x₁,…,x_N-1}；

2.输出初始聚类划分的簇的集合。C＝{C₁,…,C_k}；

3.同kmeans算法一样，随机选择K个数据实例作为初始中心点；

4.从数据集中随机选取部分数据分别生成Must-Link约束集合，Cannot-Link约束集合；

5.对于任意待分配样本x_i，若(x_i,x_j)∈Must-Link，且x_j已被分配到类C_i中，则将x_j也分配到类C_i中；若(x_i,x_j)∈Cannot-Link，且x_j已被分配到类 C_i中，则将x_j分配到除了类C_i以外的最近的类C_j中；否则将x_i分配到最近的类C_i中；

6.每完成一次迭代，更新每个类的中心点；

7.重复5-6步骤，直到C_i值的变化小于给定阈值或迭代次数达到最大值。

Cop-kmeans算法流程图如附图3。

步骤4：评价或输出，确定最终聚类成果

(4.1)传统kmeans算法实验结果

本实验主要选用了人工数据集作为测试数据。数据集是通过高斯函数分布模型产生的人工数据集。随机生成3个点集，点到中心点距离服从高斯分布.测试数据集的相关描述如表1所示。

数据集	类型	维数	样本数	分类数
						人工数据	2	100	3

表1人工数据集和UCI数据集描述

实验环境：Windows8 32位操作***，matlab软件。

实验过程：

1.首先给出原始数据{x1,x2,...,xn}，这些数据没有被标记的。

2.初始化k个随机数据u1,u2,...,uk。这些xn和uk都是向量。

3.根据公式迭代就能求出最终所有的u,这些u就是最终所有类的中心位置。

4.编写程序。

5.随机生成测试点集，观察实验结果。

附图4(a)(b)为此实验初始集群点和迭代最终结果。

(4.2)基于半监督聚类的cop-kmeans方法实验结果

在之前的描述中，讨论了kmeans算法，针对成对约束的半监督cop-kmeans 算法，引用Must-link约束和Cannot-Link约束条件。那么在这个基础上，用java 实现kmeans算法和cop-kmeans算法，并做出相应的实验，来验证加入约束后的聚类和传统kmeans算法的区别，是本发明的重点。

关于K-MEANS算法的实验基本过程思想可见其流程图。大致为要根据数据对象任意选择K个对象作为初始的聚类中心，当然K值要小于总数据对象。然后根据所选的聚类对象，按照最小距离划分，不断迭代，直到不发生变化为止。最终输出满足方差最小标准的k个聚类。

Cop-kmeans算法和kmeans算法基本没有太大差异，在加入约束后生成 Must-Link约束集合，Cannot-Link约束集合；之后按照相关规则进行分配，迭代结束更新每个类中心点，直到变化小于给定阈值或迭代次数达到最大值。

本java实验的实现说明：假设给定一组c点资料X＝{x1,...,xc}，每一点都有2维；给定一个群聚的数目k,求其最好的聚类结果。这个演示允许您指定任意数量的二维点和一组可选的约束,然后集群点如何约束影响产生的集群。它使用一种修改版的k-means聚类算法可以适应任何指定的成对约束。请参阅下面的说明。

(1)左键点击，设置一组初始点。如附图5所示。

(2)移动滑块选择k(集群)的数量。我们选择的集群数量为3。如附图6所示。

(3)点击Cluster it！即可出现kmeans算法的集群结果。因为集群数量选定为 3，所以出现了三个集群。按照最近距离划分。如果过度约束问题(这时不可能找到k集群),当你点击“集群！”时会没有响应。不断点击cluster it，将进行迭代，会出现不同的结果。如附图7(a)(b)所示。

(4)中键点击并拖动链接两点的Must-link约束(蓝线)。右键点击并拖动链接两点cannot-link约束(红线)，如附图8所示。

(5)在有约束的情况下，形成cop-kmeans算法的实验结果，进行多次迭代的结果，如附图9(a)(b)所示。

备注：

(Cluster it！]显示输出给定数量的集群。每个点由绿线连接到集群的中心。此外,如果指定约束,关闭。

[Clear all]清除所有擦拭数据区域的清洁。

[Clear constraints]删除所有约束,但保留了数据点。

[Show closure]显示指定约束的传递闭包。

参考文献

[1]丁世飞.人工智能(第二版)[M].北京：清华大学出版社，2015.

[2]蔡自兴.人工智能及其应用[M].北京:清华大学出版社，1999.

[3]马少平，朱晓燕.人工智能[M].北京:清华大学出版社，2004.

[4]Strehl A,Ghosh J.Cluster ensembles-a knowledge reuse framework forcombining multiple partitions.Journal of Machine Learning Research, 2002,3:583-617.

[5]Wagstaff K,Cardie C.Constrained K-means Clustering with BackgroundKnowledge.Proceedings of the Eighteenth International Conference on MachineLearning,2001:577-584.

[6]汪军,王传玉,周鸣争.半监督的改进K-均值聚类算法.[J]计算机工程与应用,2009.

[7]朱煜，钱景辉，季正波.改进的基于广度优先搜索的COP-Kmeans算法.[J] 南京:南京工业大学电子与信息工程学院,211816.

[8]Basu S,Banerjee A,Mooney R J.Semi-supervised clustering byseeding. Proceedings of the 19th International Conference on MachineLearning, San Fransisco,2002:19-26.

[9]刘涛,尹红健.基于半监督学习的K-均值聚类算法研究.[J]计算机应用研究,2010,27(3):913-916.

[10]利永,王基一.一种改进的半监督K-means聚类算法.[J]计算机工程与应用,2011,33(6):138-143.

[11]尹学松,胡恩良,陈松灿.基于成对约束的判别型半监督聚类分析.[J]软件学报,2008,19(11):2791-2802.

[12]Bhavani R,Sudha G S,Radhika K.A Novel Parallel Hybrid K-means-DE-ACO Clustering Approach for Genomic Clustering using MapReduce.2011 WorldCongress on Information and Communication Technologies,2011: 132-137.

[13]Basu S,Banjeree A,Mooney R J.Active semi-supervision for pairwiseconstrained clustering.Proceedings of the SIAM International Conference onData Mining,Florida,2004:333-344.

[14]周丽娟,王慧,王文伯,张宁.面向海量数据的并行Kmeans.[J]华中科技大学学报(自然科学版),2012,40:150-152。

Claims

1.一种基于半监督聚类的cop-kmeans方法与***，其特征在于，主要包括：

步骤1:数据预处理；

步骤2：定义距离函数；

步骤3：按照最小距离原则聚类；

(3.1)kmeans算法

(3.2)Cop-kmeans算法

步骤4：评价或输出，确定最终聚类成果。

(4.1)传统kmeans算法实验结果

(4.2)基于半监督聚类的cop-kmeans方法实验结果。

2.根据权利要求1所述一种基于半监督聚类的cop-kmeans方法与***，其特征在于，在步骤1中，其中数据预处理阶段，是由于若直接使用原始数据，里面部分不需要的数据会造成影响，给计算带来误差，所以要进行数据预处理。所以在分析之前，要对数据进行标准化。K-means算法的目标函数定义如下：

3.根据权利要求1所述一种基于半监督聚类的cop-kmeans方法与***，其特征在于，在步骤2中需要定义一些分类的统计量，来度量分类对象之间互相相似的程度，从而定量进行分类。采用欧氏距离。

4.根据权利要求1所述一种基于半监督聚类的cop-kmeans方法与***，其特征在于，在步骤3.1中的kmeans算法。

5.根据权利要求1所述一种基于半监督聚类的cop-kmeans方法与***，其特征在于，在步骤3.2中的cop-kmeans算法。

6.根据权利要求1所述一种基于半监督聚类的cop-kmeans方法与***，其特征在于，在步骤4.1中，采用了人工数据集作为测试数据。数据集是通过高斯函数分布模型产生的人工数据集。随机生成3个点集，点到中心点距离服从高斯分布.测试数据集的相关描述如说明书表1所示。实验环境是Windows832位操作***，matlab软件。

7.根据权利所述一种基于半监督聚类的cop-kmeans方法与***，其特征在于，在步骤4.2中，假设给定一组c点资料X＝{x1,...,xc}，每一点都有2维；给定一个群聚的数目k,求其最好的聚类结果。这个演示允许您指定任意数量的二维点和一组可选的约束,然后集群点如何约束影响产生的集群。设置随机初始点，选择的集群数量为3(可按需求随机选择)。可出现kmeans算法的集群结果。可以手动加入约束，中键点击并拖动链接两点的Must-link约束(蓝线)。右键点击并拖动链接两点cannot-link约束(红线)，在有约束的情况下，形成cop-kmeans算法的实验结果。