CN105426426B - 一种基于改进的K-Medoids的KNN文本分类方法 - Google Patents
一种基于改进的K-Medoids的KNN文本分类方法 Download PDFInfo
- Publication number
- CN105426426B CN105426426B CN201510740516.4A CN201510740516A CN105426426B CN 105426426 B CN105426426 B CN 105426426B CN 201510740516 A CN201510740516 A CN 201510740516A CN 105426426 B CN105426426 B CN 105426426B
- Authority
- CN
- China
- Prior art keywords
- text
- cluster
- classification
- training
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于改进的K‑Medoids的KNN文本分类方法,该方法涉及计算机文本数据处理领域;首先将对训练文本集和测试文本集进行预先处理,包括分词,停用词去除,DF特征选择以及向量表示,得到训练文本向量空间和测试文本向量空间;然后进行基于改进的K‑Medoids方法的训练样本裁剪,即分别从初始中心点选择和替换中心点搜索策略角度进行优化,并将其运用到训练样本裁剪,得到新的训练文本空间;最后进行KNN分类,定义代表度函数,将其运用到类别属性函数中用于KNN分类,得到最终结果。实验结果表明,与传统KNN方法、基于K‑Medoids的KNN方法相比,本发明具有更高的分类精度和分类效率。
Description
技术领域
本发明涉及计算机文本数据处理领域,特别涉及一种基于改进的K-Medoids的K最近邻(K-Nearest-Neighbor,KNN)文本分类方法。
背景技术
随着互联网、物联网以及云计算的发展,数据正在以指数形式增长,引领我们步入大数据时代。美国互联网数据中心(IDC)指出,互联网上的数据每年以50%的比例增长,而目前世界上90%以上的数据是最近几年产生的。目前全球数据量已达到ZB级别,而伴随大量数据的产生的还有蕴含于其中的极大的潜在价值。
当今大数据时代,挖掘数据潜在的价值至关重要。数据挖掘作为发现数据潜在价值的技术,引起极大关注。大数据中文本数据占相当大的比例,而文本分类作为有效组织和管理文本数据的数据挖掘方法,逐渐成为关注热点。它在信息过滤、信息组织和管理、信息检索、数字图书馆以及垃圾邮件过滤等方面得到广泛应用。文本分类(TextClassification,TC)是指在预先给定的类别体系下对未知类别文本根据其内容将其自动划分到一类或多类的过程。常用的文本分类方法,如K最近邻,贝叶斯(Naive Bayes,NB)以及支持向量机(Support Vector Machine,SVM)等。
KNN作为经典的分类方法之一,有实现简单、鲁棒性高等优点;但也存在很多缺点,以至于不能适用于很多实际应用中。KNN的不足主要包括以下两个方面:第一,分类过程中因相似度计算量巨大而耗费大量时间,导致分类效率低。第二,分类性能容易受训练样本的影响,当数据出现严重不均匀分布时,分类器性能可能受到严重影响,甚至变得极差。针对KNN分类过程计算量大的问题,将很多研究者的改进总结为以下三个方面:第一,改进特征选择方法,将那些对分类贡献小的特征词舍弃,实现对VSM(Vector Space Model)模型的有效降维。第二,通过选取原始训练文本集中的一些代表文本作为新的训练文本集或者删除原来训练文本集中的某些对分类贡献小的文本,将删除后剩余的文本作为新的训练文本集。第三,设计快速搜索算法,以加快测试文本的K个最近邻文本的搜索速度。考虑到目前各种KNN改进型算法在速度和精度上难以兼顾的情况,设计分类精度高且分类速度快的KNN文本分类方法具有重要的学术意义和实用价值。
发明内容
本发明的目的在于,从分类速度和分类精度上改进KNN文本分类算法。一方面,为提高KNN算法分类速度,采用改进的K-Medoids聚类算法以裁剪对KNN分类贡献小的训练样本;另一方面,为提高KNN算法分类精度,定义代表度函数并将其引入KNN算法中,实现有差别地处理测试文本的K个最近邻文本。
本发明的特征如下:
步骤1,从互联网上下载已公开发布的中文语料库——训练文本集和测试文本集;
步骤2,采用分词软件ICTCLAS对训练文本集和测试文本集进行分词、停用词去除进行预处理,得到分词后的训练文本集和测试文本集;
步骤3,采用文档频率DF(Document Frequency)方法对分词后的训练文本集进行特征选择,得到该训练文本集对应的特征词库;
步骤4,将每个训练文本和每个测试文本分别用特征词库的特征词表示为向量形式,每一维的权重根据TFIDF=TF×IDF计算,TF(Term Frequency)为词频,是指特征项在文档中出现的次数,IDF(Inverse Document)为逆文档频率,公式为IDF=log(M/nk+0.01),M为文档集合中包含的文本数,nk表示包含该词的文档数;
步骤5,基于改进的K-Medoids算法的训练样本裁剪,定义训练文本集为S,S包含C1,C2,......,CN这N个类别,共包括文本数为M;
步骤5.1,对于训练文本集S,指定其需要划分为m个簇,m=3×N;
步骤5.2,为每个簇随机选取一个中心点Oi(0<i≤m);
步骤5.3,计算训练文本集S中剩余非中心点文本与这m个中心点的余弦相似度,将它们分配到相似度最大的簇中,余弦相似度计算公式如下:
其中,n为特征向量维度阈值,Xj表示训练文本集S中剩余非中心点文本d的第j维的权重(0<j≤n),xij表示中心文本Oi的第j维的权重(0<i≤m,0<j≤n)。
步骤5.4,初始中心点选择的优化,在每个簇内,以簇内每个点作为中心点,计算它与簇内其它文本的相似度之和,选择相似度之和最小的点为新的中心点Oi′;
步骤5.5,选择一个未选择过的中心点Oi′,这是第p次迭代,p的取值范围为从1到m的所有整数,共进行m次迭代,替换中心点集U不再是全局非中心点集,而是Oi′的邻近范围,这个范围是指距中心点Oi′最近的p个簇包含的所有非中心点文本构成的区域;
步骤5.6,在中心点候选集U中选择一个未被选择过的非中心点Q,计算Q和Oi′的平方误差之差,记录在集合E中,直到U中的所有非中心点都被选择过;
步骤5.7,如果集合E中的最小值小于0(min(E)<0),用集合E中最小值对应的非中心点替换原中心点,替换后得到新的m个中心点的集合,把剩余的对象分配给相似度最大的中心点所代表的簇,重新从步骤5.5开始执行;
步骤5.8,如果min(E)>0或min(E)=0,替换中心点搜索过程结束,最终得到m个聚类中心点Oi″;
步骤5.9,设Ti为第i个簇的簇内阈值,它表示簇内文本与该簇中心点的最小相似度,计算测试文本与m个聚类中心的相似度Sim(D,Oi″)(0<i≤m),如果Sim(D,Oi″)<Ti,说明测试文本与该簇内的文本相似度相当低,所以可以把该簇包含的文本裁剪掉;如果Sim(D,Oi″)>Ti或者Sim(D,Oi″)=Ti,把该簇内包含的文本加入到新的训练文本集Snew。
步骤6,进行KNN分类。
训练文本集为Snew,测试文本为d,n为特征向量维度阈值,K取5,10,15,20,25,30。
步骤6.1,利用向量夹角的余弦值来计算测试文本d与Snew中全部文本之间的相似度;
步骤6.2,选出步骤6.1得到的相似度最大的K个文本作为测试文本d的K个最近邻文本;
步骤6.3,计算测试文本d属于每个类别的权重,将测试文本d归到权重最大的类别。
设训练文本dv的已知类别为Cq,则将dv对于类别Cq的重要程度定义为代表度函数u(dv,Cq),定义代表度函数如下:
其中,表示类别Cq中心向量,是将类别Cq的所有文本向量相加再求平均。表示训练文本dv到所属类别Cq的类别中心的欧式距离,为训练文本dv与所属类别Cq的类别中心的余弦相似度。
权重计算公式如下:
其中,y(dv,Cq)为类别属性函数,将代表度函数引入类别属性函数,公式如下:
本发明的效果为:
本发明提出一种基于改进的K-Medoids的KNN文本分类方法,快速且精确度高地实现了对测试文本的分类,流程图见图1,精确度指标见表1(传统的KNN算法、本文算法分别在K=5、K=10时分类效果最好,这里仅给出两种方法的最好效果),时间指标见表2。与传统的KNN方法相比,一方面本发明定义了代表度函数,并将其引入传统方法的类别属性函数,实现有差别地处理测试文本的K个最近邻文本,提高了分类精度;另一方面本发明采用改进的K-Medoids聚类方法对原始训练样本集进行裁剪,提高了分类效率。与基于K-Medoids的KNN方法相比,本发明采用初始中心点优化和替换中心点搜索策略优化的方法,一是降低了K-Medoids方法初始中心点敏感的影响,二是加快了K-Medoids方法替换中心点搜索过程的进行。从表1和表2可以看出,与传统的KNN方法和基于K-Medoids的KNN方法相比,本发明在分类精度和分类效率上均有较明显地提高。
附图说明
图1是本发明方法的流程图。
具体实施方式
本发明是采用以下技术手段实现的:
一种基于改进的K-Medoids的KNN文本分类方法。首先进行训练文本集和测试文本集的预处理,包括分词,停用词处理,进行DF特征选择,将训练文本和测试文本均表示为向量形式;然后采用改进的K-Medoids方法对训练文本进行裁剪,得到新的训练文本集Snew;最后定义代表度函数,并将其引入原始KNN算法的类别属性函数,用于KNN分类。
上述改进的KNN文本分类方法,包括下述步骤:
步骤1,从互联网上下载已公开发布的中文语料库——训练文本集和测试文本集;
步骤2,采用分词软件ICTCLAS对训练文本集和测试文本集进行分词、停用词去除预处理,得到分词后的训练文本集和测试文本集;
步骤3,采用文档频率DF(Document Frequency)方法对分词后的训练文本集进行特征选择,得到该训练文本集对应的特征词库;
步骤4,将每个训练文本和每个测试文本分别用特征词库的特征词表示为向量形式,每一维的权重根据TFIDF=TF×IDF计算,TF(Term Frequency)为词频,是指特征项在文档中出现的次数,IDF(Inverse Document)为逆文档频率,公式为IDF=log(M/nk+0.01),M为文档集合中包含的文本数,nk表示包含该词的文档数。
步骤5,基于改进的K-Medoids算法的训练样本裁剪;
定义训练文本集为S,S包含C1,C2,......,CN这N个类别,共包括文本数为M。对于训练文本集S,指定其需要划分为m个簇,m=3×N;为每个簇随机选取一个中心点Oi(0<i≤m);计算训练文本集S中剩余非中心点文本与这m个中心点的余弦相似度,将它们分配到相似度最大的簇中,余弦相似度计算公式如下:
其中,n为特征向量维度阈值,Xj表示训练文本集S中剩余非中心点文本d的第j维的权重(0<j≤n),xij表示中心文本Oi的第j维的权重(0<i≤m,0<j≤n)。
初始中心点选择的优化。在每个簇内,以簇内每个点作为中心点,计算它与簇内其它文本的相似度之和,选择相似度之和最小的点为新的中心点Oi′。
选择一个未选择过的中心点Oi′,这是第p次迭代,p的取值范围为从1到m的所有整数,共进行m次迭代。替换中心点集U不再是全局非中心点集,而是Oi′的邻近范围,这个范围是指距中心点Oi′最近的p个簇包含的所有非中心点文本构成的区域;在中心点候选集U中选择一个未被选择过的非中心点Q,计算Q和Oi′的平方误差之差,记录在集合E中,直到U中的所有非中心点都被选择过。如果集合E中的最小值小于0(min(E)<0),用集合E中最小值对应的非中心点替换原中心点,替换后得到新的m个中心点的集合。把剩余的对象分配给相似度最大的中心点所代表的簇,重新从这步开始迭代;如果min(E)>0或min(E)=0,替换中心点搜索过程结束,最终得到m个聚类中心点Oi″。
设Ti为第i个簇的簇内阈值,它表示簇内文本与该簇中心点的最小相似度,计算测试文本与m个聚类中心的相似度Sim(D,Oi″)(0<i≤m),如果Sim(D,Oi″)<Ti,说明测试文本与该簇内的文本相似度相当低,所以可以把该簇包含的文本裁剪掉;如果Sim(D,Oi″)>Ti或者Sim(D,Oi″)=Ti,则把该簇内包含的文本加入到新的训练文本集Snew。
步骤6,进行KNN分类。
训练文本集为Snew,测试文本为d,n为特征向量维度阈值,K取5,10,15,20,25,30。
利用向量夹角的余弦值来计算测试文本d与Snew中全部文本之间的相似度;选出计算得到的相似度最大的K个文本作为测试文本d的K个最近邻;计算测试文本d属于每个类别的权重,将测试文本d归到权重最大的类别。
设训练文本dv的已知类别为Cq,则将dv对于类别Cq的重要程度定义为代表度函数u(dv,Cq),定义代表度函数如下:
其中,表示类别Cq中心向量,是将类别Cq的所有文本向量相加再求平均。表示训练文本dv到所属类别Cq的类别中心的欧式距离,为训练文本dv与所属类别Cq的类别中心的余弦相似度。权重计算公式如下:
其中,y(dv,Cq)为类别属性函数,将代表度函数引入类别属性函数,公式如下:
表2三种算法实验结果
表3时间性能
Claims (1)
1.一种基于改进的K-Medoids的KNN文本分类方法,其特征在于,包括以下步骤:
步骤1,从互联网上下载已公开发布的中文语料库——训练文本集和测试文本集;
步骤2,采用分词软件ICTCLAS对训练文本集和测试文本集进行分词、停用词去除进行预处理,得到分词后的训练文本集和测试文本集;
步骤3,采用文档频率DF(Document Frequency)方法对分词后的训练文本集进行特征选择,得到该训练文本集对应的特征词库;
步骤4,将每个训练文本和每个测试文本分别用特征词库的特征词表示为向量形式,每一维的权重根据TFIDF=TF×IDF计算,TF(Term Frequency)为词频,是指特征项在文档中出现的次数,IDF(Inverse Document)为逆文档频率,公式为IDF=log(M/nk+0.01),M为文档集合中包含的文本数,nk表示包含该词的文档数;
步骤5,基于改进的K-Medoids算法的训练样本裁剪,定义训练文本集为S,S包含C1,C2,......,CN这N个类别,共包括文本数为M;
步骤5.1,对于训练文本集S,指定其需要划分为m个簇,m=3×N;
步骤5.2,为每个簇随机选取一个中心点Oi,0<i≤m;
步骤5.3,计算训练文本集S中剩余非中心点文本与这m个中心点的余弦相似度,将它们分配到相似度最大的簇中,余弦相似度计算公式如下:
其中,n为特征向量维度阈值,Xj表示训练文本集S中剩余非中心点文本d的第j维的权重,0<j≤n,xij表示中心文本Oi的第j维的权重,0<i≤m,0<j≤n;
步骤5.4,初始中心点选择的优化,在每个簇内,以簇内每个点作为中心点,计算它与簇内其它文本的相似度之和,选择相似度之和最小的点为新的中心点Oi′;
步骤5.5,选择一个未选择过的中心点Oi′,这是第p次迭代,p的取值范围为从1到m的所有整数,共进行m次迭代,替换中心点集U不再是全局非中心点集,而是Oi′的邻近范围,这个范围是指距中心点Oi′最近的p个簇包含的所有非中心点文本构成的区域;
步骤5.6,在中心点候选集U中选择一个未被选择过的非中心点Q,计算Q和Oi′的平方误差之差,记录在集合E中,直到U中的所有非中心点都被选择过;
步骤5.7,如果集合E中的最小值小于0,min(E)<0,用集合E中最小值对应的非中心点替换原中心点,替换后得到新的m个中心点的集合,把剩余的对象分配给相似度最大的中心点所代表的簇,重新从步骤5.5开始执行;
步骤5.8,如果min(E)>0或min(E)=0,替换中心点搜索过程结束,最终得到m个聚类中心点Oi″;
步骤5.9,计算测试文本与m个聚类中心的相似度,如果Sim(D,Oi″)<Ti,Ti为第i个簇的簇内阈值,即簇内文本与该簇中心点的最小相似度,说明测试文本与该簇内的文本相似度相当低,所以可以把该簇包含的文本裁剪掉;如果Sim(D,Oi″)>Ti或者Sim(D,Oi″)=Ti,把该簇内包含的文本加入到新的训练文本集Snew;
步骤6,进行KNN分类;
训练文本集为Snew,测试文本为d,n为特征向量维度阈值,K取5,10,15,20,25,30;
步骤6.1,利用向量夹角的余弦值来计算测试文本d与Snew中全部文本之间的相似度;
步骤6.2,选出步骤6.1得到的相似度最大的K个文本作为测试文本d的K个最近邻文本;
步骤6.3,计算测试文本d属于每个类别的权重,将测试文本d归到权重最大的类别;
设训练文本dv的已知类别为Cq,则将dv对于类别Cq的重要程度定义为代表度函数u(dv,Cq),定义代表度函数如下:
其中,表示类别Cq中心向量,是将类别Cq的所有文本向量相加再求平均;表示训练文本dv到所属类别Cq的类别中心的欧式距离,为训练文本dv与所属类别Cq的类别中心的余弦相似度;
权重计算公式如下:
其中,y(dv,Cq)为类别属性函数,将代表度函数引入类别属性函数,公式如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510740516.4A CN105426426B (zh) | 2015-11-04 | 2015-11-04 | 一种基于改进的K-Medoids的KNN文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510740516.4A CN105426426B (zh) | 2015-11-04 | 2015-11-04 | 一种基于改进的K-Medoids的KNN文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105426426A CN105426426A (zh) | 2016-03-23 |
CN105426426B true CN105426426B (zh) | 2018-11-02 |
Family
ID=55504638
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510740516.4A Expired - Fee Related CN105426426B (zh) | 2015-11-04 | 2015-11-04 | 一种基于改进的K-Medoids的KNN文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105426426B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021578B (zh) * | 2016-06-01 | 2019-07-23 | 南京邮电大学 | 一种基于聚类和隶属度融合的改进型文本分类算法 |
CN106971005A (zh) * | 2017-04-27 | 2017-07-21 | 杭州杨帆科技有限公司 | 一种云计算环境下基于MapReduce的分布式并行文本聚类方法 |
CN107273416B (zh) * | 2017-05-05 | 2021-05-04 | 深信服科技股份有限公司 | 网页暗链检测方法、装置及计算机可读存储介质 |
CN107463705A (zh) * | 2017-08-17 | 2017-12-12 | 陕西优百信息技术有限公司 | 一种数据清洗方法 |
CN107562853B (zh) * | 2017-08-28 | 2021-02-23 | 武汉烽火普天信息技术有限公司 | 一种面向海量互联网文本数据的流式聚类及展现的方法 |
CN107832456B (zh) * | 2017-11-24 | 2021-11-26 | 云南大学 | 一种基于临界值数据划分的并行knn文本分类方法 |
CN108154178A (zh) * | 2017-12-25 | 2018-06-12 | 北京工业大学 | 基于改进的svm-knn算法的半监督托攻击检测方法 |
CN108959453B (zh) * | 2018-06-14 | 2021-08-27 | 中南民族大学 | 基于文本聚类的信息提取方法、装置及可读存储介质 |
CN110969172A (zh) * | 2018-09-28 | 2020-04-07 | 武汉斗鱼网络科技有限公司 | 一种文本的分类方法以及相关设备 |
CN109543739A (zh) * | 2018-11-15 | 2019-03-29 | 杭州安恒信息技术股份有限公司 | 一种日志分类方法、装置、设备及可读存储介质 |
CN109766437A (zh) * | 2018-12-07 | 2019-05-17 | 中科恒运股份有限公司 | 一种文本聚类方法、文本聚类装置及终端设备 |
CN109960799B (zh) * | 2019-03-12 | 2021-07-27 | 中南大学 | 一种面向短文本的优化分类方法 |
CN110287328B (zh) * | 2019-07-03 | 2021-03-16 | 广东工业大学 | 一种文本分类方法、装置、设备及计算机可读存储介质 |
CN111104510B (zh) * | 2019-11-15 | 2023-05-09 | 南京中新赛克科技有限责任公司 | 一种基于词嵌入的文本分类训练样本扩充方法 |
CN113806732B (zh) * | 2020-06-16 | 2023-11-03 | 深信服科技股份有限公司 | 一种网页篡改检测方法、装置、设备及存储介质 |
CN112381181B (zh) * | 2020-12-11 | 2022-10-04 | 桂林电子科技大学 | 一种建筑能耗异常的动态检测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102033949A (zh) * | 2010-12-23 | 2011-04-27 | 南京财经大学 | 基于修正的k近邻文本分类方法 |
CN103092931A (zh) * | 2012-12-31 | 2013-05-08 | 武汉传神信息技术有限公司 | 多策略结合文档自动分类方法 |
CN103345528A (zh) * | 2013-07-24 | 2013-10-09 | 南京邮电大学 | 一种基于关联分析和knn的文本分类方法 |
CN104063472A (zh) * | 2014-06-30 | 2014-09-24 | 电子科技大学 | 一种优化训练样本集的knn文本分类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100426382B1 (ko) * | 2000-08-23 | 2004-04-08 | 학교법인 김포대학 | 엔트로피 정보와 베이지안 에스오엠을 이용한 문서군집기반의 순위조정 방법 |
-
2015
- 2015-11-04 CN CN201510740516.4A patent/CN105426426B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102033949A (zh) * | 2010-12-23 | 2011-04-27 | 南京财经大学 | 基于修正的k近邻文本分类方法 |
CN103092931A (zh) * | 2012-12-31 | 2013-05-08 | 武汉传神信息技术有限公司 | 多策略结合文档自动分类方法 |
CN103345528A (zh) * | 2013-07-24 | 2013-10-09 | 南京邮电大学 | 一种基于关联分析和knn的文本分类方法 |
CN104063472A (zh) * | 2014-06-30 | 2014-09-24 | 电子科技大学 | 一种优化训练样本集的knn文本分类方法 |
Non-Patent Citations (1)
Title |
---|
An improved K-nearest-neighbor algorithm for text categorization;Ll B et al.;《Expert Systems with Applications》;20121231;第1503-1509页 * |
Also Published As
Publication number | Publication date |
---|---|
CN105426426A (zh) | 2016-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105426426B (zh) | 一种基于改进的K-Medoids的KNN文本分类方法 | |
US10346257B2 (en) | Method and device for deduplicating web page | |
Jiang et al. | An improved K-nearest-neighbor algorithm for text categorization | |
Su et al. | Effective semantic annotation by image-to-concept distribution model | |
Goh et al. | Comprehensive literature review on machine learning structures for web spam classification | |
WO2014120835A1 (en) | System and method for automatically classifying documents | |
CN107291895B (zh) | 一种快速的层次化文档查询方法 | |
CN109508374B (zh) | 基于遗传算法的文本数据半监督聚类方法 | |
JP5094830B2 (ja) | 画像検索装置、画像検索方法及びプログラム | |
Tsai et al. | SVOIS: support vector oriented instance selection for text classification | |
CN105183792B (zh) | 一种基于局部敏感哈希的分布式快速文本分类方法 | |
CN107784110A (zh) | 一种索引建立方法及装置 | |
CN108427686A (zh) | 文本数据查询方法及装置 | |
CN103778206A (zh) | 一种网络服务资源的提供方法 | |
Carbonera | An efficient approach for instance selection | |
CN115098690B (zh) | 一种基于聚类分析的多数据文档分类方法及*** | |
Xiao et al. | A K-Farthest-Neighbor-based approach for support vector data description | |
Jayady et al. | Theme Identification using Machine Learning Techniques | |
Gupta et al. | Feature selection: an overview | |
Boushaki et al. | Improved cuckoo search algorithm for document clustering | |
CN112287102A (zh) | 数据挖掘方法和装置 | |
Ha et al. | FC-MST: Feature correlation maximum spanning tree for multimedia concept classification | |
Kadhim et al. | Combined chi-square with k-means for document clustering | |
Pattanshetti et al. | Performance evaluation and analysis of feature selection algorithms | |
CN104199959A (zh) | 一种针对互联网涉税数据的文本分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20181102 Termination date: 20211104 |
|
CF01 | Termination of patent right due to non-payment of annual fee |