CN105426426B

CN105426426B - 一种基于改进的K-Medoids的KNN文本分类方法

Info

Publication number: CN105426426B
Application number: CN201510740516.4A
Authority: CN
Inventors: 汪友生; 樊存佳; 王信
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2015-11-04
Filing date: 2015-11-04
Publication date: 2018-11-02
Anticipated expiration: 2035-11-04
Also published as: CN105426426A

Abstract

一种基于改进的K‑Medoids的KNN文本分类方法，该方法涉及计算机文本数据处理领域；首先将对训练文本集和测试文本集进行预先处理，包括分词，停用词去除，DF特征选择以及向量表示，得到训练文本向量空间和测试文本向量空间；然后进行基于改进的K‑Medoids方法的训练样本裁剪，即分别从初始中心点选择和替换中心点搜索策略角度进行优化，并将其运用到训练样本裁剪，得到新的训练文本空间；最后进行KNN分类，定义代表度函数，将其运用到类别属性函数中用于KNN分类，得到最终结果。实验结果表明，与传统KNN方法、基于K‑Medoids的KNN方法相比，本发明具有更高的分类精度和分类效率。

Description

一种基于改进的K-Medoids的KNN文本分类方法

技术领域

本发明涉及计算机文本数据处理领域，特别涉及一种基于改进的K-Medoids的K最近邻(K-Nearest-Neighbor,KNN)文本分类方法。

背景技术

随着互联网、物联网以及云计算的发展，数据正在以指数形式增长，引领我们步入大数据时代。美国互联网数据中心(IDC)指出，互联网上的数据每年以50％的比例增长，而目前世界上90％以上的数据是最近几年产生的。目前全球数据量已达到ZB级别，而伴随大量数据的产生的还有蕴含于其中的极大的潜在价值。

当今大数据时代，挖掘数据潜在的价值至关重要。数据挖掘作为发现数据潜在价值的技术，引起极大关注。大数据中文本数据占相当大的比例，而文本分类作为有效组织和管理文本数据的数据挖掘方法，逐渐成为关注热点。它在信息过滤、信息组织和管理、信息检索、数字图书馆以及垃圾邮件过滤等方面得到广泛应用。文本分类(TextClassification,TC)是指在预先给定的类别体系下对未知类别文本根据其内容将其自动划分到一类或多类的过程。常用的文本分类方法，如K最近邻，贝叶斯(Naive Bayes,NB)以及支持向量机(Support Vector Machine,SVM)等。

KNN作为经典的分类方法之一，有实现简单、鲁棒性高等优点；但也存在很多缺点，以至于不能适用于很多实际应用中。KNN的不足主要包括以下两个方面：第一，分类过程中因相似度计算量巨大而耗费大量时间，导致分类效率低。第二，分类性能容易受训练样本的影响，当数据出现严重不均匀分布时，分类器性能可能受到严重影响，甚至变得极差。针对KNN分类过程计算量大的问题，将很多研究者的改进总结为以下三个方面：第一，改进特征选择方法，将那些对分类贡献小的特征词舍弃，实现对VSM(Vector Space Model)模型的有效降维。第二，通过选取原始训练文本集中的一些代表文本作为新的训练文本集或者删除原来训练文本集中的某些对分类贡献小的文本，将删除后剩余的文本作为新的训练文本集。第三，设计快速搜索算法，以加快测试文本的K个最近邻文本的搜索速度。考虑到目前各种KNN改进型算法在速度和精度上难以兼顾的情况，设计分类精度高且分类速度快的KNN文本分类方法具有重要的学术意义和实用价值。

发明内容

本发明的目的在于，从分类速度和分类精度上改进KNN文本分类算法。一方面，为提高KNN算法分类速度，采用改进的K-Medoids聚类算法以裁剪对KNN分类贡献小的训练样本；另一方面，为提高KNN算法分类精度，定义代表度函数并将其引入KNN算法中，实现有差别地处理测试文本的K个最近邻文本。

本发明的特征如下：

步骤1，从互联网上下载已公开发布的中文语料库——训练文本集和测试文本集；

步骤2，采用分词软件ICTCLAS对训练文本集和测试文本集进行分词、停用词去除进行预处理，得到分词后的训练文本集和测试文本集；

步骤3，采用文档频率DF(Document Frequency)方法对分词后的训练文本集进行特征选择，得到该训练文本集对应的特征词库；

步骤4，将每个训练文本和每个测试文本分别用特征词库的特征词表示为向量形式，每一维的权重根据TFIDF＝TF×IDF计算，TF(Term Frequency)为词频，是指特征项在文档中出现的次数，IDF(Inverse Document)为逆文档频率，公式为IDF＝log(M/n_k+0.01)，M为文档集合中包含的文本数，n_k表示包含该词的文档数；

步骤5，基于改进的K-Medoids算法的训练样本裁剪，定义训练文本集为S，S包含C₁,C₂,......,C_N这N个类别，共包括文本数为M；

步骤5.1，对于训练文本集S，指定其需要划分为m个簇，m＝3×N；

步骤5.2，为每个簇随机选取一个中心点O_i(0＜i≤m)；

步骤5.3，计算训练文本集S中剩余非中心点文本与这m个中心点的余弦相似度，将它们分配到相似度最大的簇中，余弦相似度计算公式如下：

其中，n为特征向量维度阈值，X_j表示训练文本集S中剩余非中心点文本d的第j维的权重(0＜j≤n)，x_ij表示中心文本O_i的第j维的权重(0＜i≤m,0＜j≤n)。

步骤5.4，初始中心点选择的优化，在每个簇内，以簇内每个点作为中心点，计算它与簇内其它文本的相似度之和，选择相似度之和最小的点为新的中心点O_i′；

步骤5.5，选择一个未选择过的中心点O_i′，这是第p次迭代，p的取值范围为从1到m的所有整数，共进行m次迭代，替换中心点集U不再是全局非中心点集，而是O_i′的邻近范围，这个范围是指距中心点O_i′最近的p个簇包含的所有非中心点文本构成的区域；

步骤5.6，在中心点候选集U中选择一个未被选择过的非中心点Q，计算Q和O_i′的平方误差之差，记录在集合E中，直到U中的所有非中心点都被选择过；

步骤5.7，如果集合E中的最小值小于0(min(E)＜0)，用集合E中最小值对应的非中心点替换原中心点，替换后得到新的m个中心点的集合，把剩余的对象分配给相似度最大的中心点所代表的簇，重新从步骤5.5开始执行；

步骤5.8，如果min(E)＞0或min(E)＝0，替换中心点搜索过程结束，最终得到m个聚类中心点O_i″；

步骤5.9，设T_i为第i个簇的簇内阈值，它表示簇内文本与该簇中心点的最小相似度，计算测试文本与m个聚类中心的相似度Sim(D,O_i″)(0＜i≤m)，如果Sim(D,O_i″)＜T_i，说明测试文本与该簇内的文本相似度相当低，所以可以把该簇包含的文本裁剪掉；如果Sim(D,O_i″)＞T_i或者Sim(D,O_i″)＝T_i，把该簇内包含的文本加入到新的训练文本集S_new。

步骤6，进行KNN分类。

训练文本集为S_new，测试文本为d，n为特征向量维度阈值，K取5,10,15,20,25,30。

步骤6.1，利用向量夹角的余弦值来计算测试文本d与S_new中全部文本之间的相似度；

步骤6.2，选出步骤6.1得到的相似度最大的K个文本作为测试文本d的K个最近邻文本；

步骤6.3，计算测试文本d属于每个类别的权重，将测试文本d归到权重最大的类别。

设训练文本d_v的已知类别为C_q，则将d_v对于类别C_q的重要程度定义为代表度函数u(d_v,C_q)，定义代表度函数如下：

其中，表示类别C_q中心向量，是将类别C_q的所有文本向量相加再求平均。表示训练文本d_v到所属类别C_q的类别中心的欧式距离，为训练文本d_v与所属类别C_q的类别中心的余弦相似度。

权重计算公式如下：

其中，y(d_v,C_q)为类别属性函数，将代表度函数引入类别属性函数，公式如下：

本发明的效果为：

本发明提出一种基于改进的K-Medoids的KNN文本分类方法，快速且精确度高地实现了对测试文本的分类，流程图见图1，精确度指标见表1(传统的KNN算法、本文算法分别在K＝5、K＝10时分类效果最好，这里仅给出两种方法的最好效果)，时间指标见表2。与传统的KNN方法相比，一方面本发明定义了代表度函数，并将其引入传统方法的类别属性函数，实现有差别地处理测试文本的K个最近邻文本，提高了分类精度；另一方面本发明采用改进的K-Medoids聚类方法对原始训练样本集进行裁剪，提高了分类效率。与基于K-Medoids的KNN方法相比，本发明采用初始中心点优化和替换中心点搜索策略优化的方法，一是降低了K-Medoids方法初始中心点敏感的影响，二是加快了K-Medoids方法替换中心点搜索过程的进行。从表1和表2可以看出，与传统的KNN方法和基于K-Medoids的KNN方法相比，本发明在分类精度和分类效率上均有较明显地提高。

附图说明

图1是本发明方法的流程图。

具体实施方式

本发明是采用以下技术手段实现的：

一种基于改进的K-Medoids的KNN文本分类方法。首先进行训练文本集和测试文本集的预处理，包括分词，停用词处理，进行DF特征选择，将训练文本和测试文本均表示为向量形式；然后采用改进的K-Medoids方法对训练文本进行裁剪，得到新的训练文本集S_new；最后定义代表度函数，并将其引入原始KNN算法的类别属性函数，用于KNN分类。

上述改进的KNN文本分类方法，包括下述步骤：

步骤2，采用分词软件ICTCLAS对训练文本集和测试文本集进行分词、停用词去除预处理，得到分词后的训练文本集和测试文本集；

步骤4，将每个训练文本和每个测试文本分别用特征词库的特征词表示为向量形式，每一维的权重根据TFIDF＝TF×IDF计算，TF(Term Frequency)为词频，是指特征项在文档中出现的次数，IDF(Inverse Document)为逆文档频率，公式为IDF＝log(M/n_k+0.01)，M为文档集合中包含的文本数，n_k表示包含该词的文档数。

步骤5，基于改进的K-Medoids算法的训练样本裁剪；

定义训练文本集为S，S包含C₁,C₂,......,C_N这N个类别，共包括文本数为M。对于训练文本集S，指定其需要划分为m个簇，m＝3×N；为每个簇随机选取一个中心点O_i(0＜i≤m)；计算训练文本集S中剩余非中心点文本与这m个中心点的余弦相似度，将它们分配到相似度最大的簇中，余弦相似度计算公式如下：

初始中心点选择的优化。在每个簇内，以簇内每个点作为中心点，计算它与簇内其它文本的相似度之和，选择相似度之和最小的点为新的中心点O_i′。

选择一个未选择过的中心点O_i′，这是第p次迭代，p的取值范围为从1到m的所有整数，共进行m次迭代。替换中心点集U不再是全局非中心点集，而是O_i′的邻近范围，这个范围是指距中心点O_i′最近的p个簇包含的所有非中心点文本构成的区域；在中心点候选集U中选择一个未被选择过的非中心点Q，计算Q和O_i′的平方误差之差，记录在集合E中，直到U中的所有非中心点都被选择过。如果集合E中的最小值小于0(min(E)＜0)，用集合E中最小值对应的非中心点替换原中心点，替换后得到新的m个中心点的集合。把剩余的对象分配给相似度最大的中心点所代表的簇，重新从这步开始迭代；如果min(E)＞0或min(E)＝0，替换中心点搜索过程结束，最终得到m个聚类中心点O_i″。

设T_i为第i个簇的簇内阈值，它表示簇内文本与该簇中心点的最小相似度，计算测试文本与m个聚类中心的相似度Sim(D,O_i″)(0＜i≤m)，如果Sim(D,O_i″)＜T_i，说明测试文本与该簇内的文本相似度相当低，所以可以把该簇包含的文本裁剪掉；如果Sim(D,O_i″)＞T_i或者Sim(D,O_i″)＝T_i，则把该簇内包含的文本加入到新的训练文本集S_new。

步骤6，进行KNN分类。

利用向量夹角的余弦值来计算测试文本d与S_new中全部文本之间的相似度；选出计算得到的相似度最大的K个文本作为测试文本d的K个最近邻；计算测试文本d属于每个类别的权重，将测试文本d归到权重最大的类别。

其中，表示类别C_q中心向量，是将类别C_q的所有文本向量相加再求平均。表示训练文本d_v到所属类别C_q的类别中心的欧式距离，为训练文本d_v与所属类别C_q的类别中心的余弦相似度。权重计算公式如下：

表2三种算法实验结果

表3时间性能

Claims

1.一种基于改进的K-Medoids的KNN文本分类方法，其特征在于，包括以下步骤：

步骤5.2，为每个簇随机选取一个中心点O_i，0＜i≤m；

其中，n为特征向量维度阈值，X_j表示训练文本集S中剩余非中心点文本d的第j维的权重，0＜j≤n，x_ij表示中心文本O_i的第j维的权重，0＜i≤m,0＜j≤n；

步骤5.7，如果集合E中的最小值小于0，min(E)＜0，用集合E中最小值对应的非中心点替换原中心点，替换后得到新的m个中心点的集合，把剩余的对象分配给相似度最大的中心点所代表的簇，重新从步骤5.5开始执行；

步骤5.9，计算测试文本与m个聚类中心的相似度，如果Sim(D,O_i″)＜T_i，T_i为第i个簇的簇内阈值，即簇内文本与该簇中心点的最小相似度，说明测试文本与该簇内的文本相似度相当低，所以可以把该簇包含的文本裁剪掉；如果Sim(D,O_i″)＞T_i或者Sim(D,O_i″)＝T_i，把该簇内包含的文本加入到新的训练文本集S_new；

步骤6，进行KNN分类；

训练文本集为S_new，测试文本为d，n为特征向量维度阈值，K取5,10,15,20,25,30；

步骤6.3，计算测试文本d属于每个类别的权重，将测试文本d归到权重最大的类别；

其中，表示类别C_q中心向量，是将类别C_q的所有文本向量相加再求平均；表示训练文本d_v到所属类别C_q的类别中心的欧式距离，为训练文本d_v与所属类别C_q的类别中心的余弦相似度；

权重计算公式如下：