CN108764324A

CN108764324A - 一种基于K-Means算法和共现词的文本数据快速处理方法

Info

Publication number: CN108764324A
Application number: CN201810498927.0A
Authority: CN
Inventors: 薛善良; 肖雪; 蒋丽; 李梦颖
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2018-05-23
Filing date: 2018-05-23
Publication date: 2018-11-06

Abstract

一种基于K‑Means算法和共现词的文本数据快速处理方法,其特征是基于共现词的原理计算词向量之间的相似性，并根据相似性阈值将数据划分为K+x个簇，再结合密度及聚类准则函数的思想，选取出K+x个初始聚类中心，最后在这K+x个初始聚类中心上进行K‑Means聚类算法。改进后的K‑Means聚类算法能有效减少聚类过程的迭代次数且聚类结果更准确更稳定。

Description

一种基于K-Means算法和共现词的文本数据快速处理方法

技术领域

本发明涉及一种数据处理技术，尤其是一种文本灵气的处理方法，具体地说是一种基于K-Means算法和共现词的文本数据快速处理方法。

背景技术

聚类(Clustering)是不需要人为监督的学习方式。经过聚类以后得到的数据集对象被称作簇。聚类的目标是要让属于同一个簇内的样本间的差别尽可能小，而不属于同一个簇的样本间的差别尽可能大。聚类不需要人为给予标记，它可以由聚类的算法进行自动运算。因此，在很多应用领域都用到了聚类分析，这些领域包括：统计学、模式识别、信息检索、市场研究调查以及Web文档分类等，随着聚类分析被越来越多的领域所用，它受到越来越多人的重视。

国际权威学术会议IEEE International Conference on Data Mining(ICDM)于2006年12月评选出了数据处理领域的十大经典算法，K-means聚类算法是其中之一。Means算法是基于原型的聚类算法，在基于原型的聚类中，簇是点的集合，其中每个点到定义该簇的原型的距离相似度比到其它簇的原型的距离相似度更近大，对于具有连续属性的数据，簇的原型通常是质心，即簇中所有点的平均值。K-Means最初由J.B.MaeQueen于1976年提出的。由于它易于理解、效率较高，在科学研究以及工业界都得到了广泛的应用。K-Means算法的主要步骤为：

Input：数据集合D(包含N个数据对象)以及聚类数K。

Output：满足聚类准则函数收敛或聚类中心不变的K个簇。

1.从数据集合D中随机挑选K个数据对象作为初始聚类中心C_j，j＝1,2,3,...,k；

2.在第K此迭代中，样本集通过如下的方法进行分类：

对于所有的i＝1,2,3,...,k,i≠j,若||Z-Z_j(k)||＜||Z-Z_i(k)||,则Z∈S_j(k)。

3.求出步骤2中得到的S_j(k)新类的平均值为Z_j(k+1)。

令最小，j＝1,2,3,...,k，则其中，N_j为S_j(k)中的样本点数。

4.对于所有的j＝1,2,3,...,k，若Z_j(k+1)＝Z_j(k)，则终止迭代，否则继续重复步骤2。

然而，人为设定的聚类数K会导致聚类结果的不同，聚类结果对聚类数K的依赖导致聚类结果的不稳定性且随机选取的K个初始聚类中心会使聚类陷入局部最优解，而且可能得不到最优的聚类结果，而本发明能够较好地解决上面的这些问题。

发明内容

本发明的目的是针对现有的文本数据处理过程中人为设定的聚类数K会导致聚类结果的不同，聚类结果对聚类数K的依赖导致聚类结果的不稳定性且随机选取的K个初始聚类中心会使聚类陷入局部最优解，而且可能得不到最优的聚类结果的问题，提供一种基于K-Means算法和共现词的文本数据快速处理方法，该方法较有效地避免人为设定聚类数K以及随机选取初始聚类中心的问题，改进后的K-Means算法能有效地减少聚类过程的迭代次数以及结果对参数的依赖且聚类结果更准确更稳定。

本发明的技术方案是：

一种基于K-Means算法和共现词的文本数据快速处理方法。该方法基于共现词的原理计算词向量之间的相似性，并根据相似性阈值将数据划分为K+x个簇，再结合密度及聚类准则函数的思想，选取出K+x个初始聚类中心，最后在这K+x个初始聚类中心上进行K-Means聚类算法，改进后的K-Means算法减少了结果对参数的依赖且聚类结果更准确更稳定。

一种基于K-Means算法和共现词的文本数据快速处理方法，包括以下步骤：

步骤1：取一部分数据，让它们互相做相似性比较，得出相似度的阈值判定。

步骤2：求出每个数据对象与聚类中心的相似度并将数据集合划为K+x类。计算出用户和类簇的相似度可以用矩阵来表示，矩阵的行代表类簇的个数，矩阵的列代表用户的个数。

步骤3：计算相似度矩阵中每个数据对象的平均距离。

步骤4：计算相似度矩阵中每个数据对象的分布密度，并将得到的分布密度值按从大到小的顺序排序，并选出最大分布密度值的簇b_i。

步骤5：计算其余数据点的密度值与最大分布密度值簇b_i的distance_out(k)(簇间距离)并按从大到小的顺序排序，选取由大到小的K+x-1个密度簇。

步骤6：在选取出K+x个初始聚类中心后，从数据集中删除已经经过划分过的数据点。

步骤7：取K+x个簇集合中每个簇中数据对象的均值，计算余下的数据对象与这K+x个簇均值的距离，根据距离将余下的对象划分到对应的类簇中。

步骤8：在选取出的K+x个初始聚类中心上使用K-Means聚类算法进行聚类。+

所述的数据的相似度阈值的计算公式为：

所述的用户和类簇的相似度矩阵为：

所述的相似度矩阵中每个数据对象的平均距离的计算公式为：

所述的计算相似度矩阵中每个数据对象的分布密度的计算公式为：

所述的计算余下的数据对象的密度值与最大分布密度值簇之间簇间距离的公式为：

所述的计算余下的数据对象与这K+x个簇均值的距离的公式为：

本发明的有益效果是：

本发明提出的解决传统K-Means聚类算法中存在的不足，提供一种解决传统K-Means聚类算法中人为设定聚类数K以及随机选取初始聚类中心问题的方法，该方法较有效地避免人为设定聚类数K以及随机选取初始聚类中心的问题，改进后的K-Means算法能有效地减少聚类过程的迭代次数以及结果对参数的依赖且聚类结果更准确更稳定。

附图说明

图1是本发明的流程图。

图2是测试随机选取初始聚类中心问题所用的Iris和Wine数据集。

图3是本发明方法和另两种方法测试随机选取初始聚类中心问题在Iris试数据集下的聚类结果对比图。

图4是本发明方法和另两种方法测试随机选取初始聚类中心问题在Wine试数据集下的聚类结果对比图。

图5是用户的搜索记录。

图6和图7是本发明方法和原始K-Means聚类算法对文本的聚类结果对比图。

图8是本发明方法和原始K-Means聚类算法对文本的聚类结果准确率。

具体实施方式

下面结合附图和具体实施例对本发明作进一步的说明明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

图1所示为本发明的流程图，从流程图中可以看出，本发明分为8个步骤，分别是：

步骤1：取一部分数据，让它们互相做相似性比较，得出相似度的阈值判定，计算相似度的阈值是用来对聚类数K的划分进行铺垫，将相似度大于某个阈值的记录划分到同一类类簇中。相似度阈值的计算公式为：

其中，cos(A,B)＞0.03表示输入句子A和B之间共现的词汇数目，考虑到词汇“连衣裙”和“裙子”虽不是共现词，但它们属于相似物品，故采用该公式。A和B代表搜索记录，需要利用记录的词向量来进行计算。N是语料库总数，df_ω是出现了共现词的语句数目，越大，表明该词汇的重要程度越大，对相似度计算的贡献也就越大。

步骤2：从数据集合D中随机选择K个数据对象作为初始聚类中心并保证K个数据对象不重复。(通过基于共现词的相似度计算，2个记录的相似度大于等于相似阈值，则认为这2个记录为一类，如果小于相似阈值，则新增一类，从而更新聚类中心)求出每个数据对象与聚类中心的相似度并将数据集合划为K+x类，计算出用户和类簇的相似度可以用矩阵来表示。用户和类簇的相似度矩阵为：

其中，矩阵的行代表类簇的个数，矩阵的列代表用户的个数。

步骤3：计算相似度矩阵中每个数据对象的平均距离。计算平均距离的目的在于为后续计算相似度矩阵中数据对象的分布密度做铺垫。数据集中每个数据对象的平均距离的计算公式为：

其中，|D|为相似度矩阵中数据对象的总数，是从|D|个数据集中任意选取两个点的组合。

步骤4：计算相似度矩阵中每个数据对象的分布密度，并将得到的分布密度值按从大到小的顺序排序，并选出最大分布密度值的簇b_i，密度值越大的数据对象说明该数据对象在以dis为半径的空间范围内分布的点越多，说明该数据对象处于高密度区域，以这个数据对象作为初始聚类中心更有利于聚类函数的收敛。数据集合中每个数据对象的分布密度的计算公式为：

以数据集中的任何一个数据对象x为中心，以公式(1)中定义的距离dis为半径的区域，在该区域内数据的个数，记为d(x,dis)。其中，u(x)为一个选择函数，当dis-|x_i-x|的值大于0时，u(x)的值为1，否则为0。|x_i-x|代表x_i和x之间的距离，经过计算后可以得到每一个数据对象的分布密度值。

聚类所要达到的目标是：属于同一个簇内的样本间的差别尽可能小，而不属于同一个簇的样本间的差别尽可能大。也就是说，同一个簇内的样本间的距离越小(簇内距离)，而不同簇之间样本的距离越大(簇间距离)，聚类的目标就达到了。传统的K-Means算法采用平均误差准则函数E来判断聚类质量的好坏，但是该方法评价准则只是将每个簇中的误差直接相加，对于簇内密度和大小相差较大的数据集来说，该聚类评价函数不能有效地评价聚类的好坏，聚类准则函数的选取应该和聚类所要达到的目的是相符的，由于改进的K均值聚类算法结合了密度的思想，平均误差准则函数无法处理密度相差较大的数据集，为此，本文选用簇间距离作为依据来评价聚类的有效性。取不同的簇之间数据对象的距离的最小值作为簇间距离，用dis tance_out(k)表示，如果两个相近且不同的簇满足要求，那么距离较远的簇肯定也满足要求。

步骤7：取K+x个簇集合中每个簇中数据对象的均值，计算余下的数据对象与这K+x个簇均值的距离，根据距离将余下的对象划分到对应的类簇中。计算余下的数据对象与这K+x个簇均值的距离的公式为：

该距离公式为欧式距离，用来计算余下的未经过划分的数据对象到K+x个初始聚类中心之间的距离，将这些数据对象划分到最近的K+x个初始聚类中心中。

步骤8：在选取出的K+x个初始聚类中心上使用传统K-Means聚类算法进行聚类操作。

如图2所示，测试数据集选取Iris数据集和Wine数据集，这两个数据集是被广泛使用的UCI数据之一，其中Iris数据集包含150个数据，这些数据可以划分为3个类别，每个类别中含有50个数据，每个数据又具有4种属性；Wine数据集包含了178条记录，这些数据可以划分为3个类别，每个数据具有13个属性。用原始K-Means算法和改进后的K-Means算法分别对Iris数据集和Wine数据集测试十次，观察聚类的结果。

如图3以及图4所示，原始K-Means聚类算法对Iris数据集和Wine数据集聚类准确率是不固定的，存在一定的波动，而改进后的K-Means聚类算法对两个数据集聚类的准确率是固定的。原始的K-Means聚类算法的初始聚类中心是随机选取的，采用这样的方式选取到的初始聚类中心具有很大的不一致性，选取到对的初始聚类中心，那么聚类就具有较高的准确性；反之，如果选取到低质量的聚类中心，那么聚类结果就不具有任何参考价值。原始K-Means算法对Iris数据集聚类的准确率平均下来为79.43％，对Wine数据集聚类的准确率平均下来为94.08％，但经过改进后的K-Means聚类算法选取的聚类中心是不变的，进行十次聚类结果都是相同的，对Iris数据集聚类的准确率平均下来为87.5％，Wine数据集聚类的准确率平均下来为97.4％。我们也可以看到别人也基于密度改进K-Means聚类算法，通过计算每个数据对象的密度参数，选择K个处于相对高密度分布的点作为初始中心点，使得初始聚类中心的选取能够反应数据对象之间的距离和分布特征，该算法对Iris数据集进行测试20次后的准确率为83.33％，对Wine数据集进行测试20次的准确率为96.63％，在本发明中，利用改进后的K-Means聚类算法对Iris进行测试10次后的准确率为87.5％，测试20次的准确率依然保持在87.5；对Wine数据集进行测试10次的准确率为97.4％。由此可见，改进后的K-Means聚类算法的准确率比现有方法以及原始K-Means聚类算法相对来说都要提高一点。

如图5所示，文本文档中的数据是从OFBiz网站上获取的用户登录后进行浏览商品的浏览记录，该记录是通过用户在电商网站中点击商品时，调用商品详情接口里添加的存放用户浏览记录的代码，将用户的浏览记录存入一个对应的文本文档中。因为浏览记录过多，所以只截取了前面30位用户的浏览记录，为了缩短用户id的显示，将用户名改为用户a1，用户a2等等。

如图6、图7以及图8所示，在数据集相同的情况下，实验的数据应该被分为7类，原始的K-Means算法输入聚类数k＝4，有很多数据被分到不正确的的类簇中导致传统K-Means聚类算法的准确率只有75.5％，聚类结果没有多大的参考意义，但改进后的K-Means算法会根据相似度自动将类簇划分为K+x个簇(k＝4，x＝3)，经过改进后的K-Means聚类算法基本可以达到满分的准确率，改进后的K-Means聚类算法比传统K-Means聚类算法在准确性上有了很大的提高。

本发明的文本数据快速处理方法，可应用于根据OFBiz网站上获取到的用户浏览商品记录，给不同的用户推荐其感兴趣的商品，通过实验证明本发明可以更准确地给用户推荐商品。此外本发明所提出的算法还可以应用于对新闻网站不同用户的新闻推荐，根据用户浏览新闻的记录，经过分析给不同的用户分别推荐与他们以往浏览内容相关或相似的内容，例如以为用户常浏览关于的文章主题关键词为“体育”，“足球”，“篮球”，“比赛”，那么本发明将会推荐给此用户有关体育运动比赛的相关新闻。

Claims

1.一种基于K-Means算法和共现词的文本数据快速处理方法，其特征在于：它采用基于共现词的原理计算词向量之间的相似性，并根据相似性阈值将数据划分为K+x个簇，结合密度及聚类准则函数的思想，选取出K+x个初始聚类中心，最后在这K+x个初始聚类中心上进行K-Means聚类算法，改进后的K-Means聚类算法能有效减少聚类过程的迭代次数且聚类结果更准确更稳定。

2.根据权利要法度1所述的方法，其特征是它包括以下步骤：

步骤1：取一部分数据，让它们互相做相似性比较，得出相似度的阈值判定；

步骤2：求出每个数据对象与聚类中心的相似度并将数据集合划为K+x类，计算出用户和类簇的相似度并用矩阵表示，矩阵的行代表类簇的个数，矩阵的列代表用户的个数；

步骤3：计算相似度矩阵中每个数据对象的平均距离；以便为后续计算数据集合中数据对象的分布密度做铺垫；

步骤4：计算相似度矩阵中每个数据对象的分布密度，并将得到的分布密度值按从大到小的顺序排序选出最大分布密度值的簇b_i；密度值越大的数据对象说明该数据对象在以dis为半径的空间范围内分布的点越多，说明该数据对象处于高密度区域，以这个数据对象作为初始聚类中心，以利于聚类函数的收敛；

步骤5：计算其余数据点的密度值与最大分布密度值簇b_i的distance_out(k)(簇间距离)并按从大到小的顺序排序，选取由大到小的K+x-1个密度簇；簇间距离的大小说明了两个簇的相似程度，簇间距离的值越大就代表两个簇越不相似；

步骤6：在选取出K+x个初始聚类中心后，从数据集中删除已经划分过的数据点；

3.根据权利要求2所述的方法，其特征在于：所述的数据的相似度阈值的计算公式为：

式中cos(A,B)是输入句子A和B之间共现的词汇数目，A和B分别为不同的句子，N为语句总数，df_w是出现了词汇W的实例句对数目。

4.根据权利要求2所述的方法，其特征在于：所述的用户和类簇的相似度矩阵为：

5.根据权利要求2所述的方法，其特征在于：所述的相似度矩阵中每个数据对象的平均距离的计算公式为：

式中是从D个点钟取两个点的组合数，x_i和x_jc为分别表示不同的点。

6.根据权利要求2所述的方法，其特征在于：所述的计算相似度矩阵中每个数据对象的分布密度的计算公式为：

式中x为任意数据点，u(dis-|x_i-x|)是一个函数，|x_i-x|表示x_i和xx为之间的欧式距离。

7.根据权利要求2所述的方法，其特征在于：所述的计算余下的数据对象的密度值与最大分布密度值簇之间簇间距离的公式为：

式中x_i和x_j分别为两个数据点，|x_i-x_j||代表两个数据点的距离。

8.根据权利要求2所述的方法，其特征在于：所述的计算余下的数据对象与这K+x个簇均值的距离的公式为：