CN105760471B

CN105760471B - 基于组合凸线性感知器的两类文本分类方法

Info

Publication number: CN105760471B
Application number: CN201610083975.4A
Authority: CN
Inventors: 李玉鑑; 王曼丽
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2016-02-06
Filing date: 2016-02-06
Publication date: 2019-04-19
Anticipated expiration: 2036-02-06
Also published as: CN105760471A

Abstract

本发明公开了一种基于组合凸线性感知器的两类文本的分类方法。本发明包括：收集文本数据集，将其划分为训练集和测试集；预处理数据集；提取总词表并统计词频；对训练样本集进行特征选取，得到特征向量表；将数据集中的所有样本特征项赋权值表示成向量；将所有数据降维到低维特征空间，得到组合凸线性感知器最终处理的数据；利用SMA算法构造组合凸线性感知器，从而判断测试样本的类别。本发明结合tf*idf特征提取法和PCA降维方法，使用SMA算法进行两类文本分类，这是首次将组合凸线性感知器应用到文本分类领域，非常具有独创意义。

Description

基于组合凸线性感知器的两类文本分类方法

技术领域

本发明属于电子信息技术领域，具体涉及一种组合凸线性感知器在两类文本分类中的应用及评测研究。

背景技术

文本分类是指使用计算机对文本自动的进行类别标记的过程。它属于监督学习的范畴，基本思想如下：给定一个类别信息已知的训练文本集合，通过一定的训练模型训练出这些文本与类别间的一个关系模型，即具有某些特征的文本都会属于同一个类别，然后根据这个训练出来的关系模型对待分类文本进行分类。具体文本分类的过程如附图1所示。其中，训练出一个恰当地文本特征与文本类别间的关系模型对分类效果的影响是至关重要的。目前，已经存在多种较成熟的分类器，比如相似度计算法、朴素贝叶斯、支持向量机等。

分片线性分类器作为一种分类方法，提出时间早于支持向量机。分片线性分类器确定的决策面是由若干个超平面段组成，所以与一般超曲面相比，仍是简单易于实现的，且需要较少的内存消耗。又由于它是由多段超平面组成的，所以它能逼近各种形状的超曲面，具有很强的适应能力。由于上述优点，分片线性分类器已引起广泛关注，许多设计分片线性分类器的方法被提出。如线性规划的方法，决策树方法，甚至经典的最近邻方法也可看作分片线性分类器的特殊形式。然而，目前人们对于分片线性分类器的研究尚未应用到文本分类领域。因此，对于这些分片线性分类器应用于文本分类的效果，有待进一步的评测研究。

本发明题主要研究将分片线性分类器中的组合凸线性感知器模型应用到文本分类领域，说明所构造的组合凸线性感知器在文本分类中的性能。同时，由于是首次将组合凸线性感知器应用到文本分类中进行评测研究。因此，本发明对于组合凸线性感知器在文本分类领域中的应用具有重要意义。最后，本发明也说明了实现组合凸线性感知器的SMA算法虽然能够有效对两类文本进行分类，但是不适用于海量数据和高维空间。

发明内容

本发明提出了将组合凸线性感知器(Multiconlitron，MCLP)应用于两类文本分类的方法，即使用支持组合凸线性感知器算法(Support Multiconlitron Algorithm，SMA)构造组合凸线性感知器，从而判断文本的类别。其中，组合凸线性感知器是指由若干个凸线感知器构成的分类器，凸线性感知器是指由若干个线性函数构成的分类器。显然，本发明使用的SMA算法不同于以往常规的两类分类算法，它的基本目标是找出多组线性判别函数构造的组合凸线器。以下，本发明统一将“凸线性感知器”简称为“凸线器”，将“组合凸线性感知器”简称为“组合凸线器”。

SMA算法的主要目标是找到一个组合凸线器，它包含若干个凸线器，每个凸线器又包含了若干个线性函数。因此，对于数据集X和Y，该组合凸线器的求解过程，即首先通过求Y中单个点距整个X集的最近点对，获得最近点对连线的垂直平分面作为一个线性判断函数，每获得一个线性判断函数，就将X中已正确划分类别的数据去除，形成新的X集，再求Y中单个点距整个新X集的最近点对，获得新的一个线性函数，再次去除X中已正确划分类别的数据，如此迭代，最后X集为空，得到的这些线性函数便构成了第一个凸线器。如果该凸线器未能将Y集划分为空，说明至少存在另一个凸线器，在Y集未正确划分的部分，再选取一个点，继续对原来整个完整的X集作划分，如此迭代，直到最后Y集也为空，获得的若干个凸线器，即最终的组合凸线器。

本发明的基本原理：对每一个文本提取特征，将一个文本表示为一个特征向量的形式，进而将所有文本表示成向量集合的形式。然后，采用主成分分析(PrincipalComponent Analysis,PCA)对文本特征信息进行降维，然后利用SMA算法构造组合凸线器，完成分类过程。根据实验结果，评测并研究其性能。

本发明实现了基于组合凸线器的两类文本分类方法，具体应用过程包括以下步骤：

步骤一，收集文本数据集，将收集得到的文本数据集分为训练样本集和测试样本集。

步骤二，预处理数据集，方法如下：

对文本数据样本进行分词，实现单词字符小写化、去停用词以及删除标点符号的初步处理，同时，统计每个测试样本以及训练样本的词频。

步骤三，对训练样本集，提取出总词表，方法如下：

对于总词表中的每一个词项，统计包含该词项的正类样本个数和负类样本个数，过滤掉训练样本集中所有正、负类文档频率均小于3的词项，得到文档频率表。

步骤四，对训练样本集进行特征选取，得到特征向量表。具体方法如下：

对于步骤三得到的总词表中的每一个词项，计算词项t对于文本类别c_i的χ²统计值χ²(t,c_i)。若χ²统计值越高，说明它与该类之间的相关性越大，同时携带的类别信息也比较多，计算公式如下：

其中，N表示训练样本集中的文本总数，A表示属于c_i类且包含t的文档频数，B表示不属于c_i类但是包含t的文档频数，C表示属于c_i类但是不包含t的文档频数，D是既不属于c_i也不包含t的文档频数。

步骤五，为数据集中所有样本特征项赋权值，得到每个样本的向量表示；本发明采用tf·idf的赋权值方法，tf·idf(Term Frequency-Inverse Document Frequency)是目前最为经典的文本特征权值计算方法，其中tf是词频(term frequency)，idf是逆向文件频率(inverse document frequency)；对于词项t_k，令文本d关于t_k的权值为ω_k，产生文本d的向量表示d＝(ω₁,ω₂，…ω_k…,ω_n)；根据tf·idf计算权值ω_k的公式为：

ω_k＝tf_k·idf_k

其中，tf_k表示词项t_k在文档d中的出现频率，已由步骤二得到，idf_k值的计算方法如下：

其中，N表示训练样本集中的文本总数，df_k表示包含t_k的所有文档数目；

步骤六，对步骤五得到的所有样本向量组，包括训练集与测试集的所有数据，采用主成分分析对文本特征信息进行降维；这里，将训练样本集处理得到k维向量集合称为T1，将测试样本集处理得到k维向量集合称为T2；其中，T2即最终的测试样本集合；

步骤七，对T2每一个测试样本t，利用SMA算法构造组合凸线性感知器，从而判断测试样本的类别；其中，判断测试样本类别的具体步骤如下：

(1)输入由步骤六得到的训练样本集合T1和测试样本集合T2；

(2)将T1分为正类样本集合X'和负类样本集合Y'，P为正类文本个数，F为负类文本

个数：

X'＝{x_i,1≤i≤P},Y'＝{y_j,1≤j≤F}；

(3)根据SMA算法构造X'关于Y'组合凸线器，其构造步骤如下：

①找到当前X'关于Y'最近的两个样本，即对X'中的任意向量样本x_i，对Y'中的任意向量样本y_j，计算x_i与y_j的距离d_ij＝d(x_i,y_j)，公式如下：

比较所有d_ij的值，得到当前所有d_ij的最小值d_min，即d_min＝min{d_ij,1≤i≤P,1≤j≤F}；

如果d_min<ε，ε取值0.000001，则输出“X'和Y'不可分”，停止并退出；

②使用I和J分别用于存储X'和Y'的指标，即I＝{i,1≤i≤P},J＝{j,1≤j≤F}；g用于存贮凸线器的组别数，l_g存贮第g组凸线器含有的线性判别函数的个数，g、l_g初值均赋为1，即g＝1，l_g＝1；

③分配数据空间J₁用于存贮J的子集，并把J赋给J₁，即J₁＝J；

④分配数据空间I₁用于存贮I的子集，并把I赋给I₁，即I₁＝I；

⑤找到当前I₁关于J₁最近的两个样本x_m和y_n，m和n的值计算公式如下：

(m,n)＝argmin{d_ij,i∈I₁,j∈J₁}；

⑥得到第g组的第l_g个线性判别函数计算公式如下：

其中，

⑦使用上一步得到的线性判别函数将I₁中已正确划分类别的数据去除，形成新的I₁集，即从I₁中删除所有满足条件的指标i，I₁更新为：

⑧如果I₁仍存在数据未正确划分类别，那么继续求第g组的下一个线性判别函数，先更新l_g，l_g的值增加1，再求当前J₁中单个点距整个新I₁集的最近点对，即计算m＝argmin{d_in,i∈I₁}，返回步骤6；否则，用L_g存贮l_g的当前值，显然，L_g表示X_'关于Y_'的组合凸线器中的第g组线性判别函数的总个数；

⑨将J₁中已正确划分类别的数据去除，即从J₁中删除所有满足条件的指标j，J₁更新为：

⑩如果J₁中仍存在数据未正确划分类别，那么继续求下一组凸线器，先更新g，g的值增加1，再返回步骤5；否则，用变量G存贮g的当前值，显然，G表示X'关于Y'的组合凸线器包含的线性判别函数的总组数；

(4)得到X'关于Y'的组合凸线器MCLP，即

其中：

(5)根据该组合凸线器MCLP，由决策函数判断T2中每一个测试样本t的类别，具体决策函数如下：

其中，+1表示正类，-1表示负类。

本发明与现有技术相比，具有以下明显的意义和有益效果：

本发明在文本分类过程中采用了一种全新的文本分类方法，即基于组合凸线性感知器的两类文本分类方法。首先对原数据通过预处理、特征提取和PCA降维等步骤获取最终的组合凸线器处理的数据，然后利用SMA方法判断样本类别。通过数值实验可看出，生成组合凸线器的SMA算法在数据集有着不错的实验性能，尤其对于处理平衡性较好的数据集，分类正确率高达94％。鉴于以往对于组合凸线器的进行的研究，并未应用到文本分类中，本发明首次将SMA方法应用到文本分类领域，因此，本发明对于组合凸线器在文本分类中的应用具有独创性，也为后续研究组合凸线器在实际生活中的应用提供了参考；

附图说明

图1为本发明所涉及的文本分类的模块构成图；

图2为本发明所涉及的方法流程图；

具体实施方式

下面结合附图及具体实施例对本发明作进一步的描述。

组合凸线器在文本分类中的应用及评测研究的流程图如图2所示。基于组合凸线器在文本分类中的应用及评测，其基本特征在于包括以下步骤：

步骤一，收集数据集，将收集的数据集分为训练样本集和测试样本集。

步骤二，预处理数据集。

步骤三，提取总词表并统计词频，得到文档频率表。

步骤四，对训练样本集进行特征提取，得到特征向量表。

步骤五，为数据集中所有样本的特征项赋权值，得到每个样本的向量表示。

步骤六，将训练样本集和测试样本集中正、负类样本用PCA降维，得到组合凸线器支持维度的数据。

步骤七，对每一个测试样本，利用SMA算法判断其类别。

下面给出一个应用本发明对文本进行分类的实例。

从UCI数据集网站上收集Reuters数据集，共下载了68274篇文本，其中65740篇作为训练集，其余的2534篇作为测试集。本发明采用Reuters数据集中文本书目最多的前10类文本，包括acq、com、crude、earn、grain、interest、money-fx、ship、trade、wheat。RCV1数据集是一个维数较高的文本数据集，平衡性好，文本维数高达29992维，而偏斜率最低的4类(CCAT、ECAT、GCAT、MCAT)分别被选为正类进行实验。各类文本详细信息如表1所示：

表1实验数据集描述

本发明解决将组合凸线器应用到两类文本分类问题，而数据集Reuters共包含10个类别的样本，RCV1_4共包含4个类别的样本。故在实验时指定其中的一类作为正类样本，其余的样本作为负类样本。

对于Reuters数据集，通过指定不同的类作为正类，测试10组数据以分析对比分类器的实验效果。例如当acq作为正类时，其余的9类都作为负类。每次实验中有6574篇文本作为训练样本，2534篇样本作为测试样本。文本降维之后的k值设为20，所有实验效果以正确率、召回率和F1-测度三个指标进行评价。实验结果如表2所示。对于RCV1_4数据集，通过指定不同的类作为正类，测试4组数据以分析对比分类器的实验效果。例如当CCAT作为正类时，其余的3类都作为负类。每次实验中有7217篇文本作为训练样本，2408篇样本作为测试样本。文本降维之后的k值设为25，所有实验效果也以正确率、召回率、F1-测度三个指标进行评价。实验结果如表3所示。

表2在Reuters上以正确率、召回率和F1-测度为评价指标的实验结果

从以上实验结果表2中可以看出。SMA在处理平衡性较差的数据集Reuters上，当ship等作为正类时，因为数据的不平衡性，最近邻分类器将所有的样本都分为负类，此时的召回率为0，从而导致F1-测度无法计算。当计算组合凸线器的各个评价指标的平均值时，不考虑这组数据。整体来看，在选定不同的类作为正类的情况下，基于组合凸线器的文本分类算法正确率高达95.5％，分类性能表现突出，但是召回率和F1-测度性能分别为78.1％、72.1％。总体来看，在处理平衡性一般的数据集上，本发明的分类器表现的性能有待进一步提高。

表3在RCV1_4上以正确率、召回率和F1-测度为评价指标的实验结果

从以上实验结果中表3可以看出，SMA在处理平衡性较好的数据集RCV1_4上，在选定不同的类作为正类的情况下，基于组合凸线器感知器的文本分类算法三项指标普遍表现突出，从上表中可以看出，本发明的分类器能够保证稳定的分类效果。平均都能保证分类的平均正确率在94％以上，平均召回率为94.4％，以及平均F1值为0.944，充分证明了该方法的有效性以及优越性。

综上所述，本发明中的分类器的分类性能受文本数据本身的特点影响，对于处理平衡性较好的文本数据，本发明的分类器更能体现它的优势，分类准确率高达94％，整体分类性能表现突出。但是，受数据维数和数据平衡性限制，本发明中的分类器目前仍不宜适用于海量数据和高维空间。

以上实施例仅用以说明本发明，而并非限制本发明所描述的技术方案。因此，一切不脱离本发明的精神和范围的技术方案及其改进，均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于组合凸线性感知器的两类文本的分类方法，其特征在于包括以下步骤：

步骤一，收集文本数据集，将收集得到的文本数据集分为训练样本集和测试样本集；

步骤二，预处理数据集，方法如下：

对文本数据样本进行分词，实现单词字符小写化、去停用词以及删除标点符号的初步处理，同时，统计每个测试样本以及训练样本的词频；

步骤三，对训练样本集，提取出总词表，方法如下：

对于总词表中的每一个词项，统计包含该词项的正类样本个数和负类样本个数，过滤掉训练样本集中所有正、负类文档频率均小于3的词项，得到总词表；

步骤四，对训练样本集进行特征选取，得到特征向量表；具体方法如下：

对于步骤三得到的总词表中的每一个词项，计算词项t对于文本类别c_i的χ²统计值χ²(t,c_i)；若χ²统计值越高，说明它与该类之间的相关性越大，同时携带的类别信息也比较多，计算公式如下：

其中，N表示训练样本集中的文本总数，A表示属于c_i类且包含t的文档频数，B表示不属于c_i类但是包含t的文档频数，C表示属于c_i类但是不包含t的文档频数，D是既不属于c_i也不包含t的文档频数；

步骤五，为数据集中所有样本特征项赋权值，得到每个样本的向量表示；采用tf·idf的赋权值方法，其中tf是词频，idf是逆向文件频率；对于词项t_k，令文本d关于t_k的权值为ω_k，产生文本d的向量表示d＝(ω₁,ω₂，…ω_k…,ω_n)；根据tf·idf计算权值ω_k的公式为：

ω_k＝tf_k·idf_k

(1)输入由步骤六得到的训练样本集合T1和测试样本集合T2；

(2)将T1分为正类样本集合X'和负类样本集合Y'，P为正类文本个数，F为负类文本个数：

X'＝{x_i,1≤i≤P},Y'＝{y_j,1≤j≤F}；

(3)根据SMA算法构造X'关于Y'组合凸线器，其构造步骤如下：

如果d_min＜ε，ε取值0.000001，则输出“X'和Y'不可分”，停止并退出；

(m,n)＝argmin{d_ij,i∈I₁,j∈J₁}；

⑥得到第g组的第l_g个线性判别函数计算公式如下：

其中，

⑧如果I₁仍存在数据未正确划分类别，那么继续求第g组的下一个线性判别函数，先更新l_g，l_g的值增加1，再求当前J₁中单个点距整个新I₁集的最近点对，即计算m＝argmin{d_in,i∈I₁}，返回步骤⑥；否则，用L_g存贮l_g的当前值，显然，L_g表示X'关于Y'的组合凸线器中的第g组线性判别函数的总个数；

⑩如果J₁中仍存在数据未正确划分类别，那么继续求下一组凸线器，先更新g，g的值增加1，再返回步骤⑤；否则，用变量G存贮g的当前值，显然，G表示X'关于Y'的组合凸线器包含的线性判别函数的总组数；

(4)得到X'关于Y'的组合凸线器MCLP，即

其中：

其中，+1表示正类，-1表示负类。