CN107368611B - 一种短文本分类方法 - Google Patents
一种短文本分类方法 Download PDFInfo
- Publication number
- CN107368611B CN107368611B CN201710686945.7A CN201710686945A CN107368611B CN 107368611 B CN107368611 B CN 107368611B CN 201710686945 A CN201710686945 A CN 201710686945A CN 107368611 B CN107368611 B CN 107368611B
- Authority
- CN
- China
- Prior art keywords
- subdomain
- sample
- text classification
- short text
- classification method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种短文本分类方法,该短文本分类方法在超平面分割两类样本后,计算每个多类样本与超平面间的几何间距,根据几何间距划分多个子域,每个子域区间被赋予不同的权重,与超平面距离越远的子域,权重越小,在欠采样阶段,根据权重对数据进行欠采样,此时,得到的采样后样本再导入SVM算法中进行分类。故,该短文本分类方法能有效地解决文本分类中的高维度稀疏性和类别不平衡的问题。
Description
技术领域
本发明涉及一种短文本分类方法,属于机器学习和数据挖掘领域。
背景技术
近年来,大数据与人工智能技术迅猛发展,语音图像识别、自然语言处理和知识图谱等已成为热点研究领域。文本分类(Text Categorization)是机器学***衡问题,特别是短文本天然的高维度稀疏特性,对现有分类算法带来了挑战。
基于上述原因,有必要提供一种能够处理文本分类中的高维度稀疏性和类别不平衡的算法。
发明内容
本发明的目的在于提供一种组合类降维算法和加权欠采样SVM算法相结合的方式来处理文本分类中的高维度稀疏性和类别不平衡的问题。
为达到上述目的,本发明提供如下技术方案:一种短文本分类方法,包括以下步骤:
S1、设置子域的数目,并初始化训练数据集,使用组合类降维算法为所述训练数据集中的每个样本分配所述子域,并对每个所述子域赋予权重,然后根据所述权重得到排序后的样本向量,再根据所述样本向量进行欠采样,得到重采样数据集;
S2、使用加权欠采样SVM算法对所述重采样数据集进行分类器训练,得到最优分类器参数,输出分类模型。
进一步地:步骤S1具体步骤如下:
S11、设置m个子域,m≥2,并初始化训练数据集X:{x1,x2,…,xn};
S12、得到分割所述训练数据集X:{x1,x2,…,xn}中两类样本的超平面wTx+b=0,计算每个所述样本到所述超平面wTx+b=0的几何间距dj,j∈(1,n);
S13、取所述几何间距dj的最大值dM和最小值dm,并取每个所述子域的长为:γ=(dM-dm)/m;
S14、根据所述几何间距dj、几何间距的最小值dm以及子域的长γ,确定每个所述样本所在的子域,并赋予每个所述子域相应的权重;
S15、根据每个所述权重将所述子域排序并得到排序后的样本向量,再根据每个所述权重和样本向量进行欠采样,得到重采样数据集X’:{x1’,x2’,…,xn’}。
进一步地:步骤S14具体为:通过公式a=(dj-dm)/γ,确定每个所述样本在第a个子域中,并赋予每个所述子域相应的权重Wj=1-a/m,j∈(1,m)。
进一步地:步骤S15中,所述子域排序后为V1:{N1,N2,…,Nm},其中Nj为第j个子域中的样本数,j∈(1,m);每个所述子域的权重为V2:{W1:1,W2:1-1/m,…,Wm-1:1-(m-1)/m,Wm:0};根据所述V1和V2,通过V1·V2得到所述重采样数据集X’:{x1’,x2’,…,xs’}。
进一步地:步骤S2具体步骤如下:
S21、设置相应参数、临时变量α*和训练数据集X:{x1,x2,…,xn},所述相应参数包括惩罚参数C,松弛变流量ξi,核函数参数σ2,迭代停止阈值ε,最大迭代次数IM和迭代次数k=0;
S22、根据所述重采样数据集X’:{x1’,x2’,…,xs’},初始化临时变量x1=x1’,x2=x2’,i,j∈(1,s),以存储每轮迭代的两个样本,并初始化alpha解的集合α(0)={a1 (0),a2 (0),…,as (0)}=0,并设置临时变量α*存储最优alpha解;
S23、使用SMO算法求出最优alpha解,并设定所述临时变量α*存储所述最优alpha解;
S24、根据步骤S23中所述临时变量α*存储的最优alpha解,得出最优分类器参数w和b,并输出所述分类模型。
进一步地:所述alpha解集合α(0)={a1 (0),a2 (0),…,as (0)}=0根据以下方程组确定:
进一步地:步骤S23具体步骤如下:
S231、根据步骤S22中所述临时变量x1和x2,通过所述alpha解集合α(0)={a1 (0),a2 (0),…,as (0)}=0得到alpha解αi (k)和αj (k),并保持其他α(k)为固定值,再根据以下方程组求出所述超平面wTx+b=0中的w和b
S232、根据步骤S22中所述临时变量x1和x2,通过误差公式得到每个样本的训练误差E1和E2;
S233、根据所述训练误差E1、E2以及所述迭代停止阈值ε,得出所述最优alpha解,设定所述临时变量α*存储所述最优alpha解。
进一步地:使用所述SMO算法求出所述最优alpha解存在以下约束条件:
进一步地:步骤S232中,所述误差公式为E=(w·x+b)-y。
进一步地:步骤S233中,所述最优alpha解根据以下方式得出:
如果|E1-E2|<ε,则α*=α(k);否则,如果E1<E2,则保存x1,取与xj’距离最远的点xp’,并设定x2=xp’,α*=α(k),如果E1≥E2,则保存x2,取与xi’距离最远的点xp’,并设定x1=xp’,α*=α(k)。
本发明的有益效果在于:本发明的一种短文本分类方法在超平面分割两类样本后,计算每个多类样本与超平面间的几何间距,根据几何间距划分多个子域,每个子域区间被赋予不同的权重,与超平面距离越远的子域,权重越小,在欠采样阶段,根据权重对数据进行欠采样,此时,得到的采样后样本再导入SVM算法中进行分类。故,该短文本分类方法能有效地解决文本分类中的高维度稀疏性和类别不平衡的问题。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。
附图说明
图1为本发明一实施例所示的短文本分类方法中组合类降维算法的流程图;
图2为本发明一实施例所示的短文本分类方法中加权欠采样SVM算法的流程图;
图3至图7为本发明一实施例所示的组合类降维算法的仿真实验数据图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本发明的一种短文本分类方法提供一种组合类降维算法和加权欠采样SVM算法相结合的方式来处理文本分类中的高维度稀疏性和类别不平衡的问题,该分类方法通过采用组合类降维算法在超平面分割两类样本后,计算每个多类样本与超平面间的几何间距,根据几何间距划分多个子域,每个子域区间被赋予不同的权重,与超平面距离越远的子域,权重越小,在欠采样阶段,根据权重对数据进行欠采样,此时,然后将得到的采样后样本再导入SVM算法中进行分类,以得到最优分类器参数,输出分类模型。
请参见图1,本发明一实施例所示的短文本分类方法中组合类降维算法具体包括以下步骤:
S1、设置子域数m=15,初始化训练数据集X:{x1,x2,…,xn};
S2、得到分割所述训练数据集X:{x1,x2,…,xn}中两类样本的超平面wTx+b=0,计算每个所述样本xj到所述超平面wTx+b=0的几何间距dj,j∈(1,n);
S3、在所有多类样本中,取所述几何间距dj的最大值dM和最小值dm,并取每个所述子域的长为:γ=(dM-dm)/m。对于每个所述多类样本,根据a=(dj-dm)/γ,确定每个所述样本在第a个子域中,并赋予每个所述子域相应的权重Wj=1-a/m,j∈(1,m);
S4、根据每个所述权重将所述多类样本排序,得到向量v1:
v1:{N1,N2,…,Nm},其中Nj为第j个子域中的样本数,j∈(1,m),
且有每个所述子域的权重:
V2:{W1:1,W2:1-1/m,…,Wm-1:1-(m-1)/m,Wm:0};
S5、由v1·v2得到重采样数据集X’:{x1’,x2’,…,xn’}。
请参见图2,本发明一实施例所示的短文本分类方法中加权欠采样SVM算法具体包括以下步骤:
S1’、设置惩罚参数C=0.1,松弛变量ξi=10,核函数参数=1/n_features,迭代停止阈值ε=1e-3,最大迭代次数IM=2000,迭代次数k=0;输入训练数据集X:{x1,x2,…,xn};
S2’、根据组合类降维算法所得到的重采样数据集X’:{x1’,x2’,…,xs’},初始化临时变量x1=x1’,x2=x2’,i,j∈(1,s),以存储每轮迭代的两个样本,再根据方程组
初始化alpha解的集合α(0)={a1 (0),a2 (0),…,as (0)}=0,并设置临时变量α*以存储最优alpha解;
S3’、当迭代次数k<最大迭代次数IM时,根据步骤S2’中所述临时变量x1和x2,通过所述alpha解集合α(0)={a1 (0),a2 (0),…,as (0)}=0得到alpha解αi (k)和αj (k),保持其他α(k)为固定值,并设定所述临时变量α*存储所述最优alpha解,再根据以下方程组求出所述超平面wTx+b=0中的w和b
S4’、根据步骤S2’中所述临时变量x1和x2,通过公式E=(w·x+b)-y计算得到个样本的训练误差E1和E2,根据所述训练误差E1、E2以及所述迭代停止阈值ε进行如下算法判断:
如果|E1-E2|<ε:
α*=α(k)
循环结束
否则如果E1<E2:
保存x1,取与xj’距离最远的点xp’,x2=xp’
α*=α(k)
否则如果E1≥E2:
保存x2,取与xi’距离最远的点xp’,x1=xp’
α*=α(k)
k=k+1
以得出最优alpha解α*=α(k);
S5’、根据步骤S5’中临时变量α*所存储的最优alpha解,通过公式
求得最优分类器参数w和b,并输出所述分类模型。
在本实施例中,使用SMO算法(Sequential Minimal Optimization,序列最小优化)求出所述最优alpha解时,存在以下约束条件:
诚然,在其他实施例中,该约束条件还可以为其他不同方式的约束条件。同时,本实施例中,设置的惩罚参数C=0.1,松弛变量ξi=10,核函数参数=1/n_features,迭代停止阈值ε=1e-3以及最大迭代次数IM=2000在其他实施例中,还可设置成不同参数,其根据具体需要设置。
下面结合具体的实验数据来对本发明所示的短文本分类方法进行进步一详细说明。
针对文本的高纬度稀疏性问题,本发明所示的组合类降维算法是将PCA(Principal Component Analysis,主成分分析)、SVD(Sigular Value Decomposition,奇异值分解)和CHI(Chi-square test,卡方检测)三种经典降维算法引入SVM,通过仿真实验比较了各算法的性能,考虑到各特征降维算法适用不同数据集,并通过优化SVM核函数来解决数据的高纬度稀疏性问题,提出了基于PCA、SVD和CHI估计结合的P+S+C-SVM算法。在本实施例的仿真实验中,采用表格1所示的具有高纬度稀疏性特征的五个UCI(University ofCaliforniaIrvine,加州大学欧文分校)标准数据集。
数据集 | 样本数量 | 维度(特征数) | |SM|/|Sm| | 不平衡比例 |
IA | 3279 | 1558 | 2821/458 | 6.1 |
Dexter | 2600 | 20000 | 10053/9947 | 1.0 |
Gisette | 13500 | 5000 | 2500/2500 | 1.0 |
micromass | 931 | 1300 | 718/213 | 3.4 |
P53 | 16772 | 5409 | 9523/7249 | 1.3 |
表格1
表格1中,|Sm|和|SM|分别表示两类样本的数量,并选用AUC(Area Under ROCCurve,ROC曲线下方面积)作为评价标准。
请参见图3至图7,本发明所示的组合类降维算法仿真实验将结合与SVM算法的PCA、SVD、CHI、PCA+SVD+CHI以及空白对照五种形式的特征处理方法分别进行仿真,得出基于五种数据集的仿真结果,每组仿真50次。
通过实验结果可以得出结论,对于高维度稀疏性问题,P+S+C-SVM方法明显优于其他几种比较算法,其次是S-SVM,效果仅次于组合算法,P-SVM和C-SVM则效果稍差。
同时,上述几种降维算法所对应的时间复杂度如表格2所示。
数据集 | P-SVM | S-SVM | C-SVM | P+S+C-SVM |
IA | 3.453 | 4.419 | 4.551 | 6.693 |
Dexter | 1.123 | 1.903 | 2.001 | 3.444 |
Gisette | 1.783 | 3.920 | 4.913 | 5.555 |
Micromass | 3.902 | 4.440 | 4.981 | 5.902 |
P53 | 1.113 | 1.893 | 3.289 | 4.555 |
表格2
结果表明,P+S+C-SVM算法花费时间较长,单个算法中,P-SVM算法时间复杂度较小,C-SVM较大。
针对类别不平衡问题,本发明提出基于距离的加权欠采样SVM算法,简称为WU-SVM算法。以UCI的21组二分类数据集进行仿真实验,分别与基本SVM、SMO、U-SVM(Undersampling SVM,随机欠采样SVM)、SMOTE(Synthetic Minority OversamplingTechnique,合成少数类过采样技术)以及EasyEnsemble(多类类别不平衡学***衡数据分类问题中具有最好的性能。在本实施例的仿真实验中,采用表格3所示的UCI不平衡样本数据。
数据集 | 样本数量 | 维度(特征数) | Target | |SM|/|Sm| | Ratio |
pima | 768 | 8 | class 1 | 500/268 | 1.9 |
haberman | 306 | 3 | class 2 | 225/81 | 2.8 |
cmc | 1473 | 9 | class 2 | 1140/333 | 3.4 |
yeast | 1484 | 8 | NUC | 1321/146 | 8.1 |
zernike | 2000 | 47 | class 10 | 1800/200 | 9 |
satimage | 6435 | 36 | class 4 | 5809/626 | 9.3 |
balance | 625 | 4 | balance | 576/49 | 11.8 |
letter | 20000 | 16 | A | 19211/789 | 16 |
wilt | 4839 | 5 | class=w | 4578/261 | 17.5 |
housing | 49082 | 14 | MEDV | 41637/7445 | 5.6 |
Ionosphere | 351 | 34 | None | 326/25 | 13 |
Wdbc | 569 | 23 | M | 503/66 | 7.6 |
Wpbc | 895 | 12 | F | 774/121 | 6.4 |
Morph | 2000 | 6 | None | 1564/436 | 3.6 |
wine-white | 4898 | 11 | quality=3 | 4723/10 | 472.3 |
wine-red | 1599 | 11 | quality=3 | 1546/20 | 77.3 |
pageblock1 | 5473 | 10 | picture | 5358/115 | 46.6 |
pageblock2 | 5473 | 10 | vertline | 5385/88 | 61.2 |
poker | 2075 | 10 | 5 | 2050/25 | 82 |
creditcard1 | 23364 | 22 | age<=60 | 23121/243 | 95.1 |
creditcard2 | 6636 | 22 | age<=62 | 6584/52 | 126.6 |
表格3
表格3中,Target表示少数类样本类别;|Sm|和|SM|分别表示少数类样本和多数类样本的数量,Ratio为不平衡比例。
在本实施例中,所设置的参数如表格4所示。
参数名 | 参数含义 | 参数值/参数计算式 |
C | 惩罚参数 | 0.1 |
ξi | 松弛变量 | 10 |
gamma | Rbf核函数参数 | 1/n_features |
IM | 最大迭代次数 | 2000 |
m | 初始化子域数 | 15 |
Err | 停止训练时误差阈值 | 1e-3 |
表格4
本仿真实验先用SVM,SMO,U-SVM算法作为比较算法,进行50次仿真运行,结果去均值和方差,实验结果表格5所示。
表格5
其次再将SMOTE算法,EasyEnsemble和ESOS-ELM作为比较算法,通过50次仿真运算,结果以均值和方差的形式在表格6中表示。
表格6
由于WU算法的预处理过程中,遍历多类样本,计算几何间距的过程能够中耗费了O(n)的时间复杂度,所以在仿真运算时,WU-SVM的时间复杂度和SMO算法相当。时间复杂度从大到小依次为:U-SVM,EasyEnsemble,SMOTE,SVM,WU-SVM,ESOS-ELM,SMO,如表格7所示。
Dataset | SVM | U-SVM | SMO | SMOTE | EasyEnsemble | ESOS-ELM | WU-SVM |
haberman | 2.094 | 3.399 | 2.452 | 1.843 | 2.963 | 2.193 | 2.043 |
housing | 3.503 | 3.083 | 1.333 | 3.294 | 1.828 | 1.112 | 1.054 |
cmc | 1.583 | 3.208 | 1.652 | 2.083 | 1.999 | 2.542 | 2.001 |
ionosphere | 3.602 | 5.084 | 3.004 | 2.532 | 4.284 | 2.154 | 2.003 |
wdbc | 2.673 | 7.984 | 2.342 | 3.553 | 3.432 | 2.472 | 2.043 |
wpbc | 4.403 | 3.094 | 1.422 | 3.468 | 3.209 | 1.555 | 1.834 |
letter | 2.474 | 4.048 | 1.624 | 4.564 | 2.974 | 1.033 | 2.012 |
zernike | 5.404 | 4.390 | 1.152 | 3.833 | 3.923 | 2.443 | 2.281 |
morph | 3.094 | 5.649 | 4.225 | 3.224 | 3.872 | 3.332 | 2.983 |
balance | 1.313 | 4.390 | 3.256 | 1.632 | 2.984 | 1.148 | 1.573 |
pima | 4.843 | 3.094 | 1.222 | 1.302 | 3.972 | 1.382 | 1.832 |
satimage | 3.403 | 4.390 | 3.324 | 1.383 | 3.082 | 2.483 | 2.425 |
Yeast | 2.737 | 3.443 | 2.937 | 1.896 | 2.344 | 1.833 | 1.771 |
Wilt | 3.472 | 3.637 | 2.828 | 2.743 | 2.743 | 1.782 | 2.333 |
Wine-white | 2.888 | 2.935 | 2.334 | 2.123 | 2.677 | 2.193 | 2.001 |
Wine-red | 3.414 | 3.973 | 3.776 | 3.916 | 3.712 | 3.291 | 3.023 |
Pageblock1 | 1.776 | 1.828 | 1.926 | 1.274 | 1.111 | 2.381 | 1.033 |
Pageblock2 | 1.943 | 1.888 | 1.334 | 1.728 | 1.482 | 2.812 | 1.333 |
Poker | 2.737 | 2.838 | 2.617 | 2.889 | 2.178 | 2.183 | 2.011 |
Creditcard1 | 3.121 | 3.474 | 3.092 | 2.887 | 2.388 | 2.831 | 2.103 |
Creditcard2 | 2.843 | 2.993 | 2.783 | 2.178 | 2.389 | 3.291 | 2.301 |
表格7
综上所述:本发明的一种短文本分类方法提供一种组合类降维算法和加权欠采样SVM算法相结合的方式来处理文本分类中的高维度稀疏性和类别不平衡的问题,该分类方法通过采用组合类降维算法在超平面分割两类样本后,计算每个多类样本与超平面间的几何间距,根据几何间距划分多个子域,每个子域区间被赋予不同的权重,与超平面距离越远的子域,权重越小,在欠采样阶段,根据权重对数据进行欠采样,此时,然后将得到的采样后样本再导入SVM算法中进行分类,以得到最优分类器参数,输出分类模型。故,该短文本分类方法能有效地解决文本分类中的高维度稀疏性和类别不平衡的问题。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (9)
1.一种短文本分类方法,其特征在于:包括以下步骤:
S1、设置子域的数目,并初始化训练数据集,使用组合类降维算法在超平面分割两类样本后,计算每个多类样本与超平面间的几何间距,根据几何间距划分多个子域,并对每个所述子域赋予权重,然后根据所述权重得到排序后的样本向量,再根据所述样本向量进行欠采样,得到重采样数据集;
S2、使用加权欠采样SVM算法对所述重采样数据集进行分类器训练,得到最优分类器参数,输出分类模型;
其中,步骤S1具体步骤如下:
S11、设置m个子域,m≥2,并初始化训练数据集X:{x1,x2,…,xn};
S12、得到分割所述训练数据集X:{x1,x2,…,xn}中两类样本的超平面wTx+b=0,计算每个所述样本到所述超平面wTx+b=0的几何间距dj,j∈(1,n);
S13、取所述几何间距dj的最大值dM和最小值dm,并取每个所述子域的长为:γ=(dM-dm)/m;
S14、根据所述几何间距dj、几何间距的最小值dm以及子域的长γ,确定每个所述样本所在的子域,并赋予每个所述子域相应的权重;
S15、根据每个所述权重将所述子域排序并得到排序后的样本向量,再根据每个所述权重和样本向量进行欠采样,得到重采样数据集X’:{x1’,x2’,…,xn’}。
2.如权利要求1所述的短文本分类方法,其特征在于,步骤S14具体为:通过公式a=(dj-dm)/γ,确定每个所述样本在第a个子域中,并赋予每个所述子域相应的权重Wj=1-a/m,j∈(1,m)。
3.如权利要求1所述的短文本分类方法,其特征在于,步骤S15中,所述子域排序后为V1:{N1,N2,…,Nm},其中Nj为第j个子域中的样本数,j∈(1,m);每个所述子域的权重为V2:{W1:1,W2:1-1/m,…,Wm-1:1-(m-1)/m,Wm:0};根据所述V1和V2,通过V1·V2得到所述重采样数据集X’:{x1’,x2’,…,xs’}。
4.如权利要求1所述的短文本分类方法,其特征在于,步骤S2具体步骤如下:
S21、设置相应参数、临时变量α*和训练数据集X:{x1,x2,…,xn},所述相应参数包括惩罚参数C,松弛变量ξi,核函数参数σ2,迭代停止阈值ε,最大迭代次数IM和迭代次数k=0;
S22、根据所述重采样数据集X’:{x1’,x2’,…,xs’},初始化临时变量x1=x1’,x2=x2’,i,j∈(1,s),以存储每轮迭代的两个样本,初始化alpha解的集合α(0)={a1 (0),a2 (0),…,as (0)}=0,并设置临时变量α*存储最优alpha解;
S23、使用SMO算法求出最优alpha解,并设定所述临时变量α*存储所述最优alpha解;
S24、根据步骤S23中所述临时变量α*存储的最优alpha解,得出最优分类器参数w和b,并输出所述分类模型。
5.如权利要求4所述的短文本分类方法,其特征在于,所述alpha解集合α(0)={a1 (0),a2 (0),…,as (0)}=0根据以下方程组确定:
6.如权利要求4所述的短文本分类方法,其特征在于,步骤S23具体步骤如下:
S231、根据步骤S22中所述临时变量x1和x2,通过所述alpha解集合α(0)={a1 (0),a2 (0),…,as (0)}=0得到alpha解αi (k)和αj (k),并保持其他α(k)为固定值,再根据以下方程组求出所述超平面wTx+b=0中的w和b
S232、根据步骤S22中所述临时变量x1和x2,通过误差公式得到每个样本的训练误差E1和E2;
S233、根据所述训练误差E1、E2以及所述迭代停止阈值ε,得出所述最优alpha解,设定所述临时变量α*存储所述最优alpha解。
7.如权利要求4或6所述的短文本分类方法,其特征在于,使用所述SMO算法求出所述最优alpha解存在以下约束条件:
8.如权利要求6所述的短文本分类方法,其特征在于,步骤S232中,所述误差公式为E=(w·x+b)-y。
9.如权利要求6所述的短文本分类方法,其特征在于,步骤S233中,所述最优alpha解根据以下方式得出:
如果|E1-E2|<ε,则α*=α(k);否则,如果E1<E2,则保存x1,取与xj’距离最远的点xp’,并设定x2=xp’,α*=α(k),如果E1≥E2,则保存x2,取与xi’距离最远的点xp’,并设定x1=xp’,α*=α(k)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710686945.7A CN107368611B (zh) | 2017-08-11 | 2017-08-11 | 一种短文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710686945.7A CN107368611B (zh) | 2017-08-11 | 2017-08-11 | 一种短文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107368611A CN107368611A (zh) | 2017-11-21 |
CN107368611B true CN107368611B (zh) | 2018-06-26 |
Family
ID=60310144
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710686945.7A Active CN107368611B (zh) | 2017-08-11 | 2017-08-11 | 一种短文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107368611B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635839B (zh) * | 2018-11-12 | 2020-07-14 | 国家电网有限公司 | 一种基于机器学***衡数据集的处理方法和装置 |
CN109582706A (zh) * | 2018-11-14 | 2019-04-05 | 重庆邮电大学 | 基于Spark大数据平台的邻域密度不平衡数据混合采样方法 |
CN110209758B (zh) * | 2019-04-18 | 2021-09-03 | 同济大学 | 一种基于张量分解的文本增量降维方法 |
CN111159404B (zh) * | 2019-12-27 | 2023-09-19 | 海尔优家智能科技(北京)有限公司 | 文本的分类方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1310825A (zh) * | 1998-06-23 | 2001-08-29 | 微软公司 | 用于分类文本以及构造文本分类器的方法和装置 |
CN101876987A (zh) * | 2009-12-04 | 2010-11-03 | 中国人民解放军信息工程大学 | 一种面向类间交叠的两类文本分类方法 |
CN102591988A (zh) * | 2012-01-16 | 2012-07-18 | 宋胜利 | 基于语义图的短文本分类方法 |
CN103345525A (zh) * | 2013-07-22 | 2013-10-09 | 苏州大学 | 文本分类方法、装置及处理器 |
CN104978354A (zh) * | 2014-04-10 | 2015-10-14 | 中电长城网际***应用有限公司 | 文本分类方法和装置 |
CN106547739A (zh) * | 2016-11-03 | 2017-03-29 | 同济大学 | 一种文本语义相似度分析方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298646B (zh) * | 2011-09-21 | 2014-04-09 | 苏州大学 | 一种主观文本和客观文本分类方法及装置 |
CN104391835B (zh) * | 2014-09-30 | 2017-09-29 | 中南大学 | 文本中特征词选择方法及装置 |
CN105205124B (zh) * | 2015-09-11 | 2016-11-30 | 合肥工业大学 | 一种基于随机特征子空间的半监督文本情感分类方法 |
-
2017
- 2017-08-11 CN CN201710686945.7A patent/CN107368611B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1310825A (zh) * | 1998-06-23 | 2001-08-29 | 微软公司 | 用于分类文本以及构造文本分类器的方法和装置 |
CN101876987A (zh) * | 2009-12-04 | 2010-11-03 | 中国人民解放军信息工程大学 | 一种面向类间交叠的两类文本分类方法 |
CN102591988A (zh) * | 2012-01-16 | 2012-07-18 | 宋胜利 | 基于语义图的短文本分类方法 |
CN103345525A (zh) * | 2013-07-22 | 2013-10-09 | 苏州大学 | 文本分类方法、装置及处理器 |
CN104978354A (zh) * | 2014-04-10 | 2015-10-14 | 中电长城网际***应用有限公司 | 文本分类方法和装置 |
CN106547739A (zh) * | 2016-11-03 | 2017-03-29 | 同济大学 | 一种文本语义相似度分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107368611A (zh) | 2017-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107368611B (zh) | 一种短文本分类方法 | |
CN106326984A (zh) | 用户意图识别方法和装置、自动应答*** | |
CN103605711B (zh) | 支持向量机分类器的构造方法及装置、分类方法及装置 | |
CN107563410A (zh) | 基于局部类别一致聚类和多任务学习的分类方法及设备 | |
Kamada et al. | A structural learning method of restricted Boltzmann machine by neuron generation and annihilation algorithm | |
CN109840413A (zh) | 一种钓鱼网站检测方法及装置 | |
CN105975611A (zh) | 自适应组合降采样增强学习机 | |
Peng et al. | Using supervised pretraining to improve generalization of neural networks on binary classification problems | |
Qian et al. | Mr 2DNM: A Novel Mutual Information‐Based Dendritic Neuron Model | |
CN111813939A (zh) | 一种基于表征增强与融合的文本分类方法 | |
CN108763418A (zh) | 一种文本的分类方法及装置 | |
CN112541530B (zh) | 针对聚类模型的数据预处理方法及装置 | |
Bai et al. | Conic relaxations for semi-supervised support vector machines | |
CN109034200A (zh) | 一种基于联合稀疏表示和多视图字典学习的学习方法 | |
Chen et al. | Extreme semi-supervised learning for multiclass classification | |
Nguyen et al. | Meta-learning and personalization layer in federated learning | |
Beyazit et al. | Learning simplified decision boundaries from trapezoidal data streams | |
Cao et al. | Adaptable focal loss for imbalanced text classification | |
Gulnashin et al. | A new deterministic method of initializing spherical K-means for document clustering | |
Tran et al. | An evolutionary extreme learning machine based on chemical reaction optimization | |
Lu et al. | A study on mobile customer churn based on learning from soft label proportions | |
Ircio et al. | Minimum recall-based loss function for imbalanced time series classification | |
Kamath et al. | How do SGD hyperparameters in natural training affect adversarial robustness? | |
Laureano et al. | Affinity propagation SMOTE approach for imbalanced dataset used in predicting student at risk of low performance | |
Luo et al. | Brain storm optimization algorithm with estimation of distribution |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |