CN107368611B

CN107368611B - 一种短文本分类方法

Info

Publication number: CN107368611B
Application number: CN201710686945.7A
Authority: CN
Inventors: 康琦; 张量
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2017-08-11
Filing date: 2017-08-11
Publication date: 2018-06-26
Anticipated expiration: 2037-08-11
Also published as: CN107368611A

Abstract

本发明涉及一种短文本分类方法，该短文本分类方法在超平面分割两类样本后，计算每个多类样本与超平面间的几何间距，根据几何间距划分多个子域，每个子域区间被赋予不同的权重，与超平面距离越远的子域，权重越小，在欠采样阶段，根据权重对数据进行欠采样，此时，得到的采样后样本再导入SVM算法中进行分类。故，该短文本分类方法能有效地解决文本分类中的高维度稀疏性和类别不平衡的问题。

Description

一种短文本分类方法

技术领域

本发明涉及一种短文本分类方法，属于机器学习和数据挖掘领域。

背景技术

近年来，大数据与人工智能技术迅猛发展，语音图像识别、自然语言处理和知识图谱等已成为热点研究领域。文本分类(Text Categorization)是机器学***衡问题，特别是短文本天然的高维度稀疏特性，对现有分类算法带来了挑战。

基于上述原因，有必要提供一种能够处理文本分类中的高维度稀疏性和类别不平衡的算法。

发明内容

本发明的目的在于提供一种组合类降维算法和加权欠采样SVM算法相结合的方式来处理文本分类中的高维度稀疏性和类别不平衡的问题。

为达到上述目的，本发明提供如下技术方案：一种短文本分类方法，包括以下步骤：

S1、设置子域的数目，并初始化训练数据集，使用组合类降维算法为所述训练数据集中的每个样本分配所述子域，并对每个所述子域赋予权重，然后根据所述权重得到排序后的样本向量，再根据所述样本向量进行欠采样，得到重采样数据集；

S2、使用加权欠采样SVM算法对所述重采样数据集进行分类器训练，得到最优分类器参数，输出分类模型。

进一步地：步骤S1具体步骤如下：

S11、设置m个子域，m≥2，并初始化训练数据集X:{x₁,x₂,…,x_n}；

S12、得到分割所述训练数据集X:{x₁,x₂,…,x_n}中两类样本的超平面w^Tx+b＝0，计算每个所述样本到所述超平面w^Tx+b＝0的几何间距d_j，j∈(1,n)；

S13、取所述几何间距d_j的最大值d_M和最小值d_m，并取每个所述子域的长为：γ＝(d_M-d_m)/m；

S14、根据所述几何间距d_j、几何间距的最小值d_m以及子域的长γ，确定每个所述样本所在的子域，并赋予每个所述子域相应的权重；

S15、根据每个所述权重将所述子域排序并得到排序后的样本向量，再根据每个所述权重和样本向量进行欠采样，得到重采样数据集X’:{x₁’,x₂’,…,x_n’}。

进一步地：步骤S14具体为：通过公式a＝(d_j-d_m)/γ，确定每个所述样本在第a个子域中，并赋予每个所述子域相应的权重W_j＝1-a/m，j∈(1,m)。

进一步地：步骤S15中，所述子域排序后为V₁:{N₁,N₂,…,N_m}，其中N_j为第j个子域中的样本数，j∈(1,m)；每个所述子域的权重为V₂:{W₁:1,W₂:1-1/m,…,W_m-1:1-(m-1)/m,W_m:0}；根据所述V₁和V₂，通过V₁·V₂得到所述重采样数据集X’:{x₁’,x₂’,…,x_s’}。

进一步地：步骤S2具体步骤如下：

S21、设置相应参数、临时变量α*和训练数据集X:{x₁,x₂,…,x_n}，所述相应参数包括惩罚参数C，松弛变流量ξ_i，核函数参数σ²，迭代停止阈值ε，最大迭代次数I_M和迭代次数k＝0；

S22、根据所述重采样数据集X’:{x₁’,x₂’,…,x_s’}，初始化临时变量x₁＝x₁’,x₂＝x₂’，i,j∈(1,s)，以存储每轮迭代的两个样本，并初始化alpha解的集合α⁽⁰⁾＝{a₁ ⁽⁰⁾,a₂ ⁽⁰⁾,…,a_s ⁽⁰⁾}＝0，并设置临时变量α*存储最优alpha解；

S23、使用SMO算法求出最优alpha解，并设定所述临时变量α*存储所述最优alpha解；

S24、根据步骤S23中所述临时变量α*存储的最优alpha解，得出最优分类器参数w和b，并输出所述分类模型。

进一步地：所述alpha解集合α⁽⁰⁾＝{a₁ ⁽⁰⁾,a₂ ⁽⁰⁾,…,a_s ⁽⁰⁾}＝0根据以下方程组确定：

进一步地：步骤S23具体步骤如下：

S231、根据步骤S22中所述临时变量x₁和x₂，通过所述alpha解集合α⁽⁰⁾＝{a₁ ⁽⁰⁾,a₂ ⁽⁰⁾,…,a_s ⁽⁰⁾}＝0得到alpha解α_i ^(k)和α_j ^(k)，并保持其他α^(k)为固定值，再根据以下方程组求出所述超平面w^Tx+b＝0中的w和b

S232、根据步骤S22中所述临时变量x₁和x₂，通过误差公式得到每个样本的训练误差E₁和E₂；

S233、根据所述训练误差E1、E2以及所述迭代停止阈值ε，得出所述最优alpha解，设定所述临时变量α*存储所述最优alpha解。

进一步地：使用所述SMO算法求出所述最优alpha解存在以下约束条件：

进一步地：步骤S232中，所述误差公式为E＝(w·x+b)-y。

进一步地：步骤S233中，所述最优alpha解根据以下方式得出：

如果|E1-E2|＜ε，则α*＝α^(k)；否则，如果E1＜E2，则保存x₁，取与x_j’距离最远的点x_p’，并设定x₂＝x_p’，α*＝α^(k)，如果E1≥E2，则保存x₂，取与x_i’距离最远的点x_p’，并设定x₁＝x_p’，α*＝α^(k)。

本发明的有益效果在于：本发明的一种短文本分类方法在超平面分割两类样本后，计算每个多类样本与超平面间的几何间距，根据几何间距划分多个子域，每个子域区间被赋予不同的权重，与超平面距离越远的子域，权重越小，在欠采样阶段，根据权重对数据进行欠采样，此时，得到的采样后样本再导入SVM算法中进行分类。故，该短文本分类方法能有效地解决文本分类中的高维度稀疏性和类别不平衡的问题。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

图1为本发明一实施例所示的短文本分类方法中组合类降维算法的流程图；

图2为本发明一实施例所示的短文本分类方法中加权欠采样SVM算法的流程图；

图3至图7为本发明一实施例所示的组合类降维算法的仿真实验数据图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本发明的一种短文本分类方法提供一种组合类降维算法和加权欠采样SVM算法相结合的方式来处理文本分类中的高维度稀疏性和类别不平衡的问题，该分类方法通过采用组合类降维算法在超平面分割两类样本后，计算每个多类样本与超平面间的几何间距，根据几何间距划分多个子域，每个子域区间被赋予不同的权重，与超平面距离越远的子域，权重越小，在欠采样阶段，根据权重对数据进行欠采样，此时，然后将得到的采样后样本再导入SVM算法中进行分类，以得到最优分类器参数，输出分类模型。

请参见图1，本发明一实施例所示的短文本分类方法中组合类降维算法具体包括以下步骤：

S1、设置子域数m＝15，初始化训练数据集X:{x₁,x₂,…,x_n}；

S2、得到分割所述训练数据集X:{x₁,x₂,…,x_n}中两类样本的超平面w^Tx+b＝0，计算每个所述样本x_j到所述超平面w^Tx+b＝0的几何间距d_j，j∈(1,n)；

S3、在所有多类样本中，取所述几何间距d_j的最大值d_M和最小值d_m，并取每个所述子域的长为：γ＝(d_M-d_m)/m。对于每个所述多类样本，根据a＝(d_j-d_m)/γ，确定每个所述样本在第a个子域中，并赋予每个所述子域相应的权重W_j＝1-a/m，j∈(1,m)；

S4、根据每个所述权重将所述多类样本排序，得到向量v1：

v1:{N₁,N₂,…,N_m}，其中N_j为第j个子域中的样本数，j∈(1,m)，

且有每个所述子域的权重：

V₂:{W₁:1,W₂:1-1/m,…,W_m-1:1-(m-1)/m,W_m:0}；

S5、由v1·v2得到重采样数据集X’:{x₁’,x₂’,…,x_n’}。

请参见图2，本发明一实施例所示的短文本分类方法中加权欠采样SVM算法具体包括以下步骤：

S1’、设置惩罚参数C＝0.1，松弛变量ξ_i＝10，核函数参数＝1/n_features，迭代停止阈值ε＝1e-3，最大迭代次数I_M＝2000，迭代次数k＝0；输入训练数据集X:{x₁,x₂,…,x_n}；

S2’、根据组合类降维算法所得到的重采样数据集X’:{x₁’,x₂’,…,x_s’}，初始化临时变量x₁＝x₁’,x₂＝x₂’，i,j∈(1,s)，以存储每轮迭代的两个样本，再根据方程组

初始化alpha解的集合α⁽⁰⁾＝{a₁ ⁽⁰⁾,a₂ ⁽⁰⁾,…,a_s ⁽⁰⁾}＝0，并设置临时变量α*以存储最优alpha解；

S3’、当迭代次数k＜最大迭代次数I_M时，根据步骤S2’中所述临时变量x₁和x₂，通过所述alpha解集合α⁽⁰⁾＝{a₁ ⁽⁰⁾,a₂ ⁽⁰⁾,…,a_s ⁽⁰⁾}＝0得到alpha解α_i ^(k)和α_j ^(k)，保持其他α^(k)为固定值，并设定所述临时变量α*存储所述最优alpha解，再根据以下方程组求出所述超平面w^Tx+b＝0中的w和b

S4’、根据步骤S2’中所述临时变量x₁和x₂，通过公式E＝(w·x+b)-y计算得到个样本的训练误差E₁和E₂，根据所述训练误差E1、E2以及所述迭代停止阈值ε进行如下算法判断：

如果|E1-E2|＜ε：

α*＝α^(k)

循环结束

否则如果E1＜E2：

保存x₁，取与x_j’距离最远的点x_p’，x₂＝x_p’

α*＝α^(k)

否则如果E1≥E2：

保存x₂，取与x_i’距离最远的点x_p’，x₁＝x_p’

α*＝α^(k)

k＝k+1

以得出最优alpha解α*＝α^(k)；

S5’、根据步骤S5’中临时变量α*所存储的最优alpha解，通过公式

求得最优分类器参数w和b，并输出所述分类模型。

在本实施例中，使用SMO算法(Sequential Minimal Optimization，序列最小优化)求出所述最优alpha解时，存在以下约束条件：

诚然，在其他实施例中，该约束条件还可以为其他不同方式的约束条件。同时，本实施例中，设置的惩罚参数C＝0.1，松弛变量ξ_i＝10，核函数参数＝1/n_features，迭代停止阈值ε＝1e-3以及最大迭代次数I_M＝2000在其他实施例中，还可设置成不同参数，其根据具体需要设置。

下面结合具体的实验数据来对本发明所示的短文本分类方法进行进步一详细说明。

针对文本的高纬度稀疏性问题，本发明所示的组合类降维算法是将PCA(Principal Component Analysis，主成分分析)、SVD(Sigular Value Decomposition，奇异值分解)和CHI(Chi-square test，卡方检测)三种经典降维算法引入SVM，通过仿真实验比较了各算法的性能，考虑到各特征降维算法适用不同数据集，并通过优化SVM核函数来解决数据的高纬度稀疏性问题，提出了基于PCA、SVD和CHI估计结合的P+S+C-SVM算法。在本实施例的仿真实验中，采用表格1所示的具有高纬度稀疏性特征的五个UCI(University ofCaliforniaIrvine，加州大学欧文分校)标准数据集。

数据集	样本数量	维度(特征数)	\|S_M\|/\|S_m\|	不平衡比例
					IA	3279	1558	2821/458	6.1
Dexter	2600	20000	10053/9947	1.0
					Gisette	13500	5000	2500/2500	1.0
micromass	931	1300	718/213	3.4
					P53	16772	5409	9523/7249	1.3

表格1

表格1中，|Sm|和|SM|分别表示两类样本的数量，并选用AUC(Area Under ROCCurve，ROC曲线下方面积)作为评价标准。

请参见图3至图7，本发明所示的组合类降维算法仿真实验将结合与SVM算法的PCA、SVD、CHI、PCA+SVD+CHI以及空白对照五种形式的特征处理方法分别进行仿真，得出基于五种数据集的仿真结果，每组仿真50次。

通过实验结果可以得出结论，对于高维度稀疏性问题，P+S+C-SVM方法明显优于其他几种比较算法，其次是S-SVM，效果仅次于组合算法，P-SVM和C-SVM则效果稍差。

同时，上述几种降维算法所对应的时间复杂度如表格2所示。

数据集	P-SVM	S-SVM	C-SVM	P+S+C-SVM
					IA	3.453	4.419	4.551	6.693
Dexter	1.123	1.903	2.001	3.444
					Gisette	1.783	3.920	4.913	5.555
Micromass	3.902	4.440	4.981	5.902
					P53	1.113	1.893	3.289	4.555

表格2

结果表明，P+S+C-SVM算法花费时间较长，单个算法中，P-SVM算法时间复杂度较小，C-SVM较大。

针对类别不平衡问题，本发明提出基于距离的加权欠采样SVM算法，简称为WU-SVM算法。以UCI的21组二分类数据集进行仿真实验，分别与基本SVM、SMO、U-SVM(Undersampling SVM,随机欠采样SVM)、SMOTE(Synthetic Minority OversamplingTechnique，合成少数类过采样技术)以及EasyEnsemble(多类类别不平衡学***衡数据分类问题中具有最好的性能。在本实施例的仿真实验中，采用表格3所示的UCI不平衡样本数据。

数据集	样本数量	维度(特征数)	Target	\|S_M\|/\|S_m\|	Ratio
						pima	768	8	class 1	500/268	1.9
haberman	306	3	class 2	225/81	2.8
						cmc	1473	9	class 2	1140/333	3.4
yeast	1484	8	NUC	1321/146	8.1
						zernike	2000	47	class 10	1800/200	9
satimage	6435	36	class 4	5809/626	9.3
						balance	625	4	balance	576/49	11.8
letter	20000	16	A	19211/789	16
						wilt	4839	5	class＝w	4578/261	17.5
housing	49082	14	MEDV	41637/7445	5.6
						Ionosphere	351	34	None	326/25	13
Wdbc	569	23	M	503/66	7.6
						Wpbc	895	12	F	774/121	6.4
Morph	2000	6	None	1564/436	3.6
						wine-white	4898	11	quality＝3	4723/10	472.3
wine-red	1599	11	quality＝3	1546/20	77.3
						pageblock¹	5473	10	picture	5358/115	46.6
pageblock²	5473	10	vertline	5385/88	61.2
						poker	2075	10	5	2050/25	82
creditcard¹	23364	22	age<＝60	23121/243	95.1
						creditcard²	6636	22	age<＝62	6584/52	126.6

表格3

表格3中，Target表示少数类样本类别；|Sm|和|SM|分别表示少数类样本和多数类样本的数量，Ratio为不平衡比例。

在本实施例中，所设置的参数如表格4所示。

参数名	参数含义	参数值/参数计算式
			C	惩罚参数	0.1
ξ_i	松弛变量	10
			gamma	Rbf核函数参数	1/n_features
I_M	最大迭代次数	2000
			m	初始化子域数	15
Err	停止训练时误差阈值	1e-3

表格4

本仿真实验先用SVM，SMO，U-SVM算法作为比较算法，进行50次仿真运行，结果去均值和方差，实验结果表格5所示。

表格5

其次再将SMOTE算法，EasyEnsemble和ESOS-ELM作为比较算法，通过50次仿真运算，结果以均值和方差的形式在表格6中表示。

表格6

由于WU算法的预处理过程中，遍历多类样本，计算几何间距的过程能够中耗费了O(n)的时间复杂度，所以在仿真运算时，WU-SVM的时间复杂度和SMO算法相当。时间复杂度从大到小依次为：U-SVM，EasyEnsemble，SMOTE，SVM，WU-SVM，ESOS-ELM,SMO，如表格7所示。

Dataset	SVM	U-SVM	SMO	SMOTE	EasyEnsemble	ESOS-ELM	WU-SVM
								haberman	2.094	3.399	2.452	1.843	2.963	2.193	2.043
housing	3.503	3.083	1.333	3.294	1.828	1.112	1.054
								cmc	1.583	3.208	1.652	2.083	1.999	2.542	2.001
ionosphere	3.602	5.084	3.004	2.532	4.284	2.154	2.003
								wdbc	2.673	7.984	2.342	3.553	3.432	2.472	2.043
wpbc	4.403	3.094	1.422	3.468	3.209	1.555	1.834
								letter	2.474	4.048	1.624	4.564	2.974	1.033	2.012
zernike	5.404	4.390	1.152	3.833	3.923	2.443	2.281
								morph	3.094	5.649	4.225	3.224	3.872	3.332	2.983
balance	1.313	4.390	3.256	1.632	2.984	1.148	1.573
								pima	4.843	3.094	1.222	1.302	3.972	1.382	1.832
satimage	3.403	4.390	3.324	1.383	3.082	2.483	2.425
								Yeast	2.737	3.443	2.937	1.896	2.344	1.833	1.771
Wilt	3.472	3.637	2.828	2.743	2.743	1.782	2.333
								Wine-white	2.888	2.935	2.334	2.123	2.677	2.193	2.001
Wine-red	3.414	3.973	3.776	3.916	3.712	3.291	3.023
								Pageblock1	1.776	1.828	1.926	1.274	1.111	2.381	1.033
Pageblock2	1.943	1.888	1.334	1.728	1.482	2.812	1.333
								Poker	2.737	2.838	2.617	2.889	2.178	2.183	2.011
Creditcard1	3.121	3.474	3.092	2.887	2.388	2.831	2.103
								Creditcard2	2.843	2.993	2.783	2.178	2.389	3.291	2.301

表格7

综上所述：本发明的一种短文本分类方法提供一种组合类降维算法和加权欠采样SVM算法相结合的方式来处理文本分类中的高维度稀疏性和类别不平衡的问题，该分类方法通过采用组合类降维算法在超平面分割两类样本后，计算每个多类样本与超平面间的几何间距，根据几何间距划分多个子域，每个子域区间被赋予不同的权重，与超平面距离越远的子域，权重越小，在欠采样阶段，根据权重对数据进行欠采样，此时，然后将得到的采样后样本再导入SVM算法中进行分类，以得到最优分类器参数，输出分类模型。故，该短文本分类方法能有效地解决文本分类中的高维度稀疏性和类别不平衡的问题。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种短文本分类方法，其特征在于：包括以下步骤：

S1、设置子域的数目，并初始化训练数据集，使用组合类降维算法在超平面分割两类样本后，计算每个多类样本与超平面间的几何间距，根据几何间距划分多个子域，并对每个所述子域赋予权重，然后根据所述权重得到排序后的样本向量，再根据所述样本向量进行欠采样，得到重采样数据集；

S2、使用加权欠采样SVM算法对所述重采样数据集进行分类器训练，得到最优分类器参数，输出分类模型；

其中，步骤S1具体步骤如下：

2.如权利要求1所述的短文本分类方法，其特征在于，步骤S14具体为：通过公式a＝(d_j-d_m)/γ，确定每个所述样本在第a个子域中，并赋予每个所述子域相应的权重W_j＝1-a/m，j∈(1,m)。

3.如权利要求1所述的短文本分类方法，其特征在于，步骤S15中，所述子域排序后为V₁:{N₁,N₂,…,N_m}，其中N_j为第j个子域中的样本数，j∈(1,m)；每个所述子域的权重为V₂:{W₁:1,W₂:1-1/m,…,W_m-1:1-(m-1)/m,W_m:0}；根据所述V₁和V₂，通过V₁·V₂得到所述重采样数据集X’:{x₁’,x₂’,…,x_s’}。

4.如权利要求1所述的短文本分类方法，其特征在于，步骤S2具体步骤如下：

S21、设置相应参数、临时变量α*和训练数据集X:{x₁,x₂,…,x_n}，所述相应参数包括惩罚参数C，松弛变量ξ_i，核函数参数σ²，迭代停止阈值ε，最大迭代次数I_M和迭代次数k＝0；

S22、根据所述重采样数据集X’:{x₁’,x₂’,…,x_s’}，初始化临时变量x₁＝x₁’,x₂＝x₂’，i,j∈(1,s)，以存储每轮迭代的两个样本，初始化alpha解的集合α⁽⁰⁾＝{a₁ ⁽⁰⁾,a₂ ⁽⁰⁾,…,a_s ⁽⁰⁾}＝0，并设置临时变量α*存储最优alpha解；

5.如权利要求4所述的短文本分类方法，其特征在于，所述alpha解集合α⁽⁰⁾＝{a₁ ⁽⁰⁾,a₂ ⁽⁰⁾,…,a_s ⁽⁰⁾}＝0根据以下方程组确定：

6.如权利要求4所述的短文本分类方法，其特征在于，步骤S23具体步骤如下：

7.如权利要求4或6所述的短文本分类方法，其特征在于，使用所述SMO算法求出所述最优alpha解存在以下约束条件：

8.如权利要求6所述的短文本分类方法，其特征在于，步骤S232中，所述误差公式为E＝(w·x+b)-y。

9.如权利要求6所述的短文本分类方法，其特征在于，步骤S233中，所述最优alpha解根据以下方式得出：