CN105760471B - 基于组合凸线性感知器的两类文本分类方法 - Google Patents

基于组合凸线性感知器的两类文本分类方法 Download PDF

Info

Publication number
CN105760471B
CN105760471B CN201610083975.4A CN201610083975A CN105760471B CN 105760471 B CN105760471 B CN 105760471B CN 201610083975 A CN201610083975 A CN 201610083975A CN 105760471 B CN105760471 B CN 105760471B
Authority
CN
China
Prior art keywords
text
class
sample
classification
follows
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201610083975.4A
Other languages
English (en)
Other versions
CN105760471A (zh
Inventor
李玉鑑
王曼丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201610083975.4A priority Critical patent/CN105760471B/zh
Publication of CN105760471A publication Critical patent/CN105760471A/zh
Application granted granted Critical
Publication of CN105760471B publication Critical patent/CN105760471B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于组合凸线性感知器的两类文本的分类方法。本发明包括:收集文本数据集,将其划分为训练集和测试集;预处理数据集;提取总词表并统计词频;对训练样本集进行特征选取,得到特征向量表;将数据集中的所有样本特征项赋权值表示成向量;将所有数据降维到低维特征空间,得到组合凸线性感知器最终处理的数据;利用SMA算法构造组合凸线性感知器,从而判断测试样本的类别。本发明结合tf*idf特征提取法和PCA降维方法,使用SMA算法进行两类文本分类,这是首次将组合凸线性感知器应用到文本分类领域,非常具有独创意义。

Description

基于组合凸线性感知器的两类文本分类方法
技术领域
本发明属于电子信息技术领域,具体涉及一种组合凸线性感知器在两类文本分类中的应用及评测研究。
背景技术
文本分类是指使用计算机对文本自动的进行类别标记的过程。它属于监督学习的范畴,基本思想如下:给定一个类别信息已知的训练文本集合,通过一定的训练模型训练出这些文本与类别间的一个关系模型,即具有某些特征的文本都会属于同一个类别,然后根据这个训练出来的关系模型对待分类文本进行分类。具体文本分类的过程如附图1所示。其中,训练出一个恰当地文本特征与文本类别间的关系模型对分类效果的影响是至关重要的。目前,已经存在多种较成熟的分类器,比如相似度计算法、朴素贝叶斯、支持向量机等。
分片线性分类器作为一种分类方法,提出时间早于支持向量机。分片线性分类器确定的决策面是由若干个超平面段组成,所以与一般超曲面相比,仍是简单易于实现的,且需要较少的内存消耗。又由于它是由多段超平面组成的,所以它能逼近各种形状的超曲面,具有很强的适应能力。由于上述优点,分片线性分类器已引起广泛关注,许多设计分片线性分类器的方法被提出。如线性规划的方法,决策树方法,甚至经典的最近邻方法也可看作分片线性分类器的特殊形式。然而,目前人们对于分片线性分类器的研究尚未应用到文本分类领域。因此,对于这些分片线性分类器应用于文本分类的效果,有待进一步的评测研究。
本发明题主要研究将分片线性分类器中的组合凸线性感知器模型应用到文本分类领域,说明所构造的组合凸线性感知器在文本分类中的性能。同时,由于是首次将组合凸线性感知器应用到文本分类中进行评测研究。因此,本发明对于组合凸线性感知器在文本分类领域中的应用具有重要意义。最后,本发明也说明了实现组合凸线性感知器的SMA算法虽然能够有效对两类文本进行分类,但是不适用于海量数据和高维空间。
发明内容
本发明提出了将组合凸线性感知器(Multiconlitron,MCLP)应用于两类文本分类的方法,即使用支持组合凸线性感知器算法(Support Multiconlitron Algorithm,SMA)构造组合凸线性感知器,从而判断文本的类别。其中,组合凸线性感知器是指由若干个凸线感知器构成的分类器,凸线性感知器是指由若干个线性函数构成的分类器。显然,本发明使用的SMA算法不同于以往常规的两类分类算法,它的基本目标是找出多组线性判别函数构造的组合凸线器。以下,本发明统一将“凸线性感知器”简称为“凸线器”,将“组合凸线性感知器”简称为“组合凸线器”。
SMA算法的主要目标是找到一个组合凸线器,它包含若干个凸线器,每个凸线器又包含了若干个线性函数。因此,对于数据集X和Y,该组合凸线器的求解过程,即首先通过求Y中单个点距整个X集的最近点对,获得最近点对连线的垂直平分面作为一个线性判断函数,每获得一个线性判断函数,就将X中已正确划分类别的数据去除,形成新的X集,再求Y中单个点距整个新X集的最近点对,获得新的一个线性函数,再次去除X中已正确划分类别的数据,如此迭代,最后X集为空,得到的这些线性函数便构成了第一个凸线器。如果该凸线器未能将Y集划分为空,说明至少存在另一个凸线器,在Y集未正确划分的部分,再选取一个点,继续对原来整个完整的X集作划分,如此迭代,直到最后Y集也为空,获得的若干个凸线器,即最终的组合凸线器。
本发明的基本原理:对每一个文本提取特征,将一个文本表示为一个特征向量的形式,进而将所有文本表示成向量集合的形式。然后,采用主成分分析(PrincipalComponent Analysis,PCA)对文本特征信息进行降维,然后利用SMA算法构造组合凸线器,完成分类过程。根据实验结果,评测并研究其性能。
本发明实现了基于组合凸线器的两类文本分类方法,具体应用过程包括以下步骤:
步骤一,收集文本数据集,将收集得到的文本数据集分为训练样本集和测试样本集。
步骤二,预处理数据集,方法如下:
对文本数据样本进行分词,实现单词字符小写化、去停用词以及删除标点符号的初步处理,同时,统计每个测试样本以及训练样本的词频。
步骤三,对训练样本集,提取出总词表,方法如下:
对于总词表中的每一个词项,统计包含该词项的正类样本个数和负类样本个数,过滤掉训练样本集中所有正、负类文档频率均小于3的词项,得到文档频率表。
步骤四,对训练样本集进行特征选取,得到特征向量表。具体方法如下:
对于步骤三得到的总词表中的每一个词项,计算词项t对于文本类别ci的χ2统计值χ2(t,ci)。若χ2统计值越高,说明它与该类之间的相关性越大,同时携带的类别信息也比较多,计算公式如下:
其中,N表示训练样本集中的文本总数,A表示属于ci类且包含t的文档频数,B表示不属于ci类但是包含t的文档频数,C表示属于ci类但是不包含t的文档频数,D是既不属于ci也不包含t的文档频数。
步骤五,为数据集中所有样本特征项赋权值,得到每个样本的向量表示;本发明采用tf·idf的赋权值方法,tf·idf(Term Frequency-Inverse Document Frequency)是目前最为经典的文本特征权值计算方法,其中tf是词频(term frequency),idf是逆向文件频率(inverse document frequency);对于词项tk,令文本d关于tk的权值为ωk,产生文本d的向量表示d=(ω12,…ωk…,ωn);根据tf·idf计算权值ωk的公式为:
ωk=tfk·idfk
其中,tfk表示词项tk在文档d中的出现频率,已由步骤二得到,idfk值的计算方法如下:
其中,N表示训练样本集中的文本总数,dfk表示包含tk的所有文档数目;
步骤六,对步骤五得到的所有样本向量组,包括训练集与测试集的所有数据,采用主成分分析对文本特征信息进行降维;这里,将训练样本集处理得到k维向量集合称为T1,将测试样本集处理得到k维向量集合称为T2;其中,T2即最终的测试样本集合;
步骤七,对T2每一个测试样本t,利用SMA算法构造组合凸线性感知器,从而判断测试样本的类别;其中,判断测试样本类别的具体步骤如下:
(1)输入由步骤六得到的训练样本集合T1和测试样本集合T2;
(2)将T1分为正类样本集合X'和负类样本集合Y',P为正类文本个数,F为负类文本
个数:
X'={xi,1≤i≤P},Y'={yj,1≤j≤F};
(3)根据SMA算法构造X'关于Y'组合凸线器,其构造步骤如下:
①找到当前X'关于Y'最近的两个样本,即对X'中的任意向量样本xi,对Y'中的任意向量样本yj,计算xi与yj的距离dij=d(xi,yj),公式如下:
比较所有dij的值,得到当前所有dij的最小值dmin,即dmin=min{dij,1≤i≤P,1≤j≤F};
如果dmin<ε,ε取值0.000001,则输出“X'和Y'不可分”,停止并退出;
②使用I和J分别用于存储X'和Y'的指标,即I={i,1≤i≤P},J={j,1≤j≤F};g用于存贮凸线器的组别数,lg存贮第g组凸线器含有的线性判别函数的个数,g、lg初值均赋为1,即g=1,lg=1;
③分配数据空间J1用于存贮J的子集,并把J赋给J1,即J1=J;
④分配数据空间I1用于存贮I的子集,并把I赋给I1,即I1=I;
⑤找到当前I1关于J1最近的两个样本xm和yn,m和n的值计算公式如下:
(m,n)=argmin{dij,i∈I1,j∈J1};
⑥得到第g组的第lg个线性判别函数计算公式如下:
其中,
⑦使用上一步得到的线性判别函数将I1中已正确划分类别的数据去除,形成新的I1集,即从I1中删除所有满足条件的指标i,I1更新为:
⑧如果I1仍存在数据未正确划分类别,那么继续求第g组的下一个线性判别函数,先更新lg,lg的值增加1,再求当前J1中单个点距整个新I1集的最近点对,即计算m=argmin{din,i∈I1},返回步骤6;否则,用Lg存贮lg的当前值,显然,Lg表示X'关于Y'的组合凸线器中的第g组线性判别函数的总个数;
⑨将J1中已正确划分类别的数据去除,即从J1中删除所有满足条件的指标j,J1更新为:
⑩如果J1中仍存在数据未正确划分类别,那么继续求下一组凸线器,先更新g,g的值增加1,再返回步骤5;否则,用变量G存贮g的当前值,显然,G表示X'关于Y'的组合凸线器包含的线性判别函数的总组数;
(4)得到X'关于Y'的组合凸线器MCLP,即
其中:
(5)根据该组合凸线器MCLP,由决策函数判断T2中每一个测试样本t的类别,具体决策函数如下:
其中,+1表示正类,-1表示负类。
本发明与现有技术相比,具有以下明显的意义和有益效果:
本发明在文本分类过程中采用了一种全新的文本分类方法,即基于组合凸线性感知器的两类文本分类方法。首先对原数据通过预处理、特征提取和PCA降维等步骤获取最终的组合凸线器处理的数据,然后利用SMA方法判断样本类别。通过数值实验可看出,生成组合凸线器的SMA算法在数据集有着不错的实验性能,尤其对于处理平衡性较好的数据集,分类正确率高达94%。鉴于以往对于组合凸线器的进行的研究,并未应用到文本分类中,本发明首次将SMA方法应用到文本分类领域,因此,本发明对于组合凸线器在文本分类中的应用具有独创性,也为后续研究组合凸线器在实际生活中的应用提供了参考;
附图说明
图1为本发明所涉及的文本分类的模块构成图;
图2为本发明所涉及的方法流程图;
具体实施方式
下面结合附图及具体实施例对本发明作进一步的描述。
组合凸线器在文本分类中的应用及评测研究的流程图如图2所示。基于组合凸线器在文本分类中的应用及评测,其基本特征在于包括以下步骤:
步骤一,收集数据集,将收集的数据集分为训练样本集和测试样本集。
步骤二,预处理数据集。
步骤三,提取总词表并统计词频,得到文档频率表。
步骤四,对训练样本集进行特征提取,得到特征向量表。
步骤五,为数据集中所有样本的特征项赋权值,得到每个样本的向量表示。
步骤六,将训练样本集和测试样本集中正、负类样本用PCA降维,得到组合凸线器支持维度的数据。
步骤七,对每一个测试样本,利用SMA算法判断其类别。
下面给出一个应用本发明对文本进行分类的实例。
从UCI数据集网站上收集Reuters数据集,共下载了68274篇文本,其中65740篇作为训练集,其余的2534篇作为测试集。本发明采用Reuters数据集中文本书目最多的前10类文本,包括acq、com、crude、earn、grain、interest、money-fx、ship、trade、wheat。RCV1数据集是一个维数较高的文本数据集,平衡性好,文本维数高达29992维,而偏斜率最低的4类(CCAT、ECAT、GCAT、MCAT)分别被选为正类进行实验。各类文本详细信息如表1所示:
表1实验数据集描述
本发明解决将组合凸线器应用到两类文本分类问题,而数据集Reuters共包含10个类别的样本,RCV1_4共包含4个类别的样本。故在实验时指定其中的一类作为正类样本,其余的样本作为负类样本。
对于Reuters数据集,通过指定不同的类作为正类,测试10组数据以分析对比分类器的实验效果。例如当acq作为正类时,其余的9类都作为负类。每次实验中有6574篇文本作为训练样本,2534篇样本作为测试样本。文本降维之后的k值设为20,所有实验效果以正确率、召回率和F1-测度三个指标进行评价。实验结果如表2所示。对于RCV1_4数据集,通过指定不同的类作为正类,测试4组数据以分析对比分类器的实验效果。例如当CCAT作为正类时,其余的3类都作为负类。每次实验中有7217篇文本作为训练样本,2408篇样本作为测试样本。文本降维之后的k值设为25,所有实验效果也以正确率、召回率、F1-测度三个指标进行评价。实验结果如表3所示。
表2在Reuters上以正确率、召回率和F1-测度为评价指标的实验结果
从以上实验结果表2中可以看出。SMA在处理平衡性较差的数据集Reuters上,当ship等作为正类时,因为数据的不平衡性,最近邻分类器将所有的样本都分为负类,此时的召回率为0,从而导致F1-测度无法计算。当计算组合凸线器的各个评价指标的平均值时,不考虑这组数据。整体来看,在选定不同的类作为正类的情况下,基于组合凸线器的文本分类算法正确率高达95.5%,分类性能表现突出,但是召回率和F1-测度性能分别为78.1%、72.1%。总体来看,在处理平衡性一般的数据集上,本发明的分类器表现的性能有待进一步提高。
表3在RCV1_4上以正确率、召回率和F1-测度为评价指标的实验结果
从以上实验结果中表3可以看出,SMA在处理平衡性较好的数据集RCV1_4上,在选定不同的类作为正类的情况下,基于组合凸线器感知器的文本分类算法三项指标普遍表现突出,从上表中可以看出,本发明的分类器能够保证稳定的分类效果。平均都能保证分类的平均正确率在94%以上,平均召回率为94.4%,以及平均F1值为0.944,充分证明了该方法的有效性以及优越性。
综上所述,本发明中的分类器的分类性能受文本数据本身的特点影响,对于处理平衡性较好的文本数据,本发明的分类器更能体现它的优势,分类准确率高达94%,整体分类性能表现突出。但是,受数据维数和数据平衡性限制,本发明中的分类器目前仍不宜适用于海量数据和高维空间。
以上实施例仅用以说明本发明,而并非限制本发明所描述的技术方案。因此,一切不脱离本发明的精神和范围的技术方案及其改进,均应涵盖在本发明的权利要求范围当中。

Claims (1)

1.一种基于组合凸线性感知器的两类文本的分类方法,其特征在于包括以下步骤:
步骤一,收集文本数据集,将收集得到的文本数据集分为训练样本集和测试样本集;
步骤二,预处理数据集,方法如下:
对文本数据样本进行分词,实现单词字符小写化、去停用词以及删除标点符号的初步处理,同时,统计每个测试样本以及训练样本的词频;
步骤三,对训练样本集,提取出总词表,方法如下:
对于总词表中的每一个词项,统计包含该词项的正类样本个数和负类样本个数,过滤掉训练样本集中所有正、负类文档频率均小于3的词项,得到总词表;
步骤四,对训练样本集进行特征选取,得到特征向量表;具体方法如下:
对于步骤三得到的总词表中的每一个词项,计算词项t对于文本类别ci的χ2统计值χ2(t,ci);若χ2统计值越高,说明它与该类之间的相关性越大,同时携带的类别信息也比较多,计算公式如下:
其中,N表示训练样本集中的文本总数,A表示属于ci类且包含t的文档频数,B表示不属于ci类但是包含t的文档频数,C表示属于ci类但是不包含t的文档频数,D是既不属于ci也不包含t的文档频数;
步骤五,为数据集中所有样本特征项赋权值,得到每个样本的向量表示;采用tf·idf的赋权值方法,其中tf是词频,idf是逆向文件频率;对于词项tk,令文本d关于tk的权值为ωk,产生文本d的向量表示d=(ω12,…ωk…,ωn);根据tf·idf计算权值ωk的公式为:
ωk=tfk·idfk
其中,tfk表示词项tk在文档d中的出现频率,已由步骤二得到,idfk值的计算方法如下:
其中,N表示训练样本集中的文本总数,dfk表示包含tk的所有文档数目;
步骤六,对步骤五得到的所有样本向量组,包括训练集与测试集的所有数据,采用主成分分析对文本特征信息进行降维;这里,将训练样本集处理得到k维向量集合称为T1,将测试样本集处理得到k维向量集合称为T2;其中,T2即最终的测试样本集合;
步骤七,对T2每一个测试样本t,利用SMA算法构造组合凸线性感知器,从而判断测试样本的类别;其中,判断测试样本类别的具体步骤如下:
(1)输入由步骤六得到的训练样本集合T1和测试样本集合T2;
(2)将T1分为正类样本集合X'和负类样本集合Y',P为正类文本个数,F为负类文本个数:
X'={xi,1≤i≤P},Y'={yj,1≤j≤F};
(3)根据SMA算法构造X'关于Y'组合凸线器,其构造步骤如下:
①找到当前X'关于Y'最近的两个样本,即对X'中的任意向量样本xi,对Y'中的任意向量样本yj,计算xi与yj的距离dij=d(xi,yj),公式如下:
比较所有dij的值,得到当前所有dij的最小值dmin,即dmin=min{dij,1≤i≤P,1≤j≤F};
如果dmin<ε,ε取值0.000001,则输出“X'和Y'不可分”,停止并退出;
②使用I和J分别用于存储X'和Y'的指标,即I={i,1≤i≤P},J={j,1≤j≤F};g用于存贮凸线器的组别数,lg存贮第g组凸线器含有的线性判别函数的个数,g、lg初值均赋为1,即g=1,lg=1;
③分配数据空间J1用于存贮J的子集,并把J赋给J1,即J1=J;
④分配数据空间I1用于存贮I的子集,并把I赋给I1,即I1=I;
⑤找到当前I1关于J1最近的两个样本xm和yn,m和n的值计算公式如下:
(m,n)=argmin{dij,i∈I1,j∈J1};
⑥得到第g组的第lg个线性判别函数计算公式如下:
其中,
⑦使用上一步得到的线性判别函数将I1中已正确划分类别的数据去除,形成新的I1集,即从I1中删除所有满足条件的指标i,I1更新为:
⑧如果I1仍存在数据未正确划分类别,那么继续求第g组的下一个线性判别函数,先更新lg,lg的值增加1,再求当前J1中单个点距整个新I1集的最近点对,即计算m=argmin{din,i∈I1},返回步骤⑥;否则,用Lg存贮lg的当前值,显然,Lg表示X'关于Y'的组合凸线器中的第g组线性判别函数的总个数;
⑨将J1中已正确划分类别的数据去除,即从J1中删除所有满足条件的指标j,J1更新为:
⑩如果J1中仍存在数据未正确划分类别,那么继续求下一组凸线器,先更新g,g的值增加1,再返回步骤⑤;否则,用变量G存贮g的当前值,显然,G表示X'关于Y'的组合凸线器包含的线性判别函数的总组数;
(4)得到X'关于Y'的组合凸线器MCLP,即
其中:
(5)根据该组合凸线器MCLP,由决策函数判断T2中每一个测试样本t的类别,具体决策函数如下:
其中,+1表示正类,-1表示负类。
CN201610083975.4A 2016-02-06 2016-02-06 基于组合凸线性感知器的两类文本分类方法 Expired - Fee Related CN105760471B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610083975.4A CN105760471B (zh) 2016-02-06 2016-02-06 基于组合凸线性感知器的两类文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610083975.4A CN105760471B (zh) 2016-02-06 2016-02-06 基于组合凸线性感知器的两类文本分类方法

Publications (2)

Publication Number Publication Date
CN105760471A CN105760471A (zh) 2016-07-13
CN105760471B true CN105760471B (zh) 2019-04-19

Family

ID=56330076

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610083975.4A Expired - Fee Related CN105760471B (zh) 2016-02-06 2016-02-06 基于组合凸线性感知器的两类文本分类方法

Country Status (1)

Country Link
CN (1) CN105760471B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107644104B (zh) * 2017-10-17 2021-06-25 北京锐安科技有限公司 一种文本特征提取方法及***
CN107679244A (zh) * 2017-10-30 2018-02-09 中国联合网络通信集团有限公司 文本分类方法及装置
CN111598080B (zh) * 2020-03-31 2023-08-25 之江实验室 基于凸多面体分段线性分类的二叉划分树车牌识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101290626A (zh) * 2008-06-12 2008-10-22 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法
CN101464898A (zh) * 2009-01-12 2009-06-24 腾讯科技(深圳)有限公司 一种提取文本主题词的方法
CN101667194A (zh) * 2009-09-29 2010-03-10 北京大学 基于用户评论文本特征的自动摘要方法及其自动摘要***
CN101876987A (zh) * 2009-12-04 2010-11-03 中国人民解放军信息工程大学 一种面向类间交叠的两类文本分类方法
CN101923560A (zh) * 2010-04-03 2010-12-22 崔志明 只提供简单查询接口的深层网页数据库的分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101290626A (zh) * 2008-06-12 2008-10-22 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法
CN101464898A (zh) * 2009-01-12 2009-06-24 腾讯科技(深圳)有限公司 一种提取文本主题词的方法
CN101667194A (zh) * 2009-09-29 2010-03-10 北京大学 基于用户评论文本特征的自动摘要方法及其自动摘要***
CN101876987A (zh) * 2009-12-04 2010-11-03 中国人民解放军信息工程大学 一种面向类间交叠的两类文本分类方法
CN101923560A (zh) * 2010-04-03 2010-12-22 崔志明 只提供简单查询接口的深层网页数据库的分类方法

Also Published As

Publication number Publication date
CN105760471A (zh) 2016-07-13

Similar Documents

Publication Publication Date Title
CN104951548B (zh) 一种负面舆情指数的计算方法及***
Li et al. Using discriminant analysis for multi-class classification: an experimental investigation
Liu et al. Semi-supervised text classification with universum learning
CN109902953B (zh) 一种基于自适应粒子群聚类的电力用户分类方法
CN106339416B (zh) 基于网格快速搜寻密度峰值的教育数据聚类方法
CN109002492B (zh) 一种基于LightGBM的绩点预测方法
CN109492673A (zh) 一种基于谱聚类采样的不平衡数据预测方法
CN106599913A (zh) 一种基于聚类的多标签不平衡生物医学数据分类方法
CN105975518B (zh) 基于信息熵的期望交叉熵特征选择文本分类***及方法
CN105760493A (zh) 一种电力营销服务热点95598工单自动分类方法
CN105760471B (zh) 基于组合凸线性感知器的两类文本分类方法
CN103020167A (zh) 一种计算机中文文本分类方法
Untoro et al. Evaluation of decision tree, k-NN, Naive Bayes and SVM with MWMOTE on UCI dataset
CN109933619A (zh) 一种半监督分类预测方法
CN106227802A (zh) 一种基于中文自然语言处理和多核分类器的多信源股价预测方法
Lakshmi et al. Feature extraction and feature set selection for cervical cancer diagnosis
Jingbiao et al. Research and improvement of clustering algorithm in data mining
CN110399493A (zh) 一种基于增量学习的作者消歧方法
Wang et al. An Improved Algorithm of K-means Based on Evolutionary Computation.
CN111507528A (zh) 一种基于cnn-lstm的股票长期趋势预测方法
CN108804422B (zh) 一种科技论文文本建模方法
Kadhim et al. Combined chi-square with k-means for document clustering
CN103207893A (zh) 基于向量组映射的两类文本的分类方法
Li et al. Research on the evaluation of learning behavior on MOOCs based on cluster analysis
CN112347162A (zh) 一种基于在线学习的多元时序数据规则挖掘方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190419

Termination date: 20220206