CN108536730A - 一种混合傅里叶核函数支持向量机文本分类方法 - Google Patents

一种混合傅里叶核函数支持向量机文本分类方法 Download PDF

Info

Publication number
CN108536730A
CN108536730A CN201810160983.3A CN201810160983A CN108536730A CN 108536730 A CN108536730 A CN 108536730A CN 201810160983 A CN201810160983 A CN 201810160983A CN 108536730 A CN108536730 A CN 108536730A
Authority
CN
China
Prior art keywords
kernel function
indicate
fourier
mixing
support vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810160983.3A
Other languages
English (en)
Other versions
CN108536730B (zh
Inventor
于舒娟
张昀
朱文峰
何伟
董茜茜
金海红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University Of Posts And Telecommunications Nantong Institute Ltd
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University Of Posts And Telecommunications Nantong Institute Ltd
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University Of Posts And Telecommunications Nantong Institute Ltd, Nanjing Post and Telecommunication University filed Critical Nanjing University Of Posts And Telecommunications Nantong Institute Ltd
Priority to CN201810160983.3A priority Critical patent/CN108536730B/zh
Publication of CN108536730A publication Critical patent/CN108536730A/zh
Application granted granted Critical
Publication of CN108536730B publication Critical patent/CN108536730B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种混合傅里叶核函数支持向量机文本分类方法。所述方法根据支持向量机中各种核函数不同的学习、泛化能力,进而通过线性加权混合多项式与傅里叶核函数,组成新的混合傅里叶核函数;由于核函数的学习能力以及泛化能力很大程度上影响支持向量机分类效果,因此把多项式核函数与傅里叶核函数相结合。本发明方法继承了傅里叶核函数的高学习能力与多项式核函数的泛化能力,提高了支持向量机分类器的性能;并且与单核中的多项式核函数、高斯核函数、傅里叶核函数以及混合核函数中的多项式与高斯核组合核函数比较,混合傅里叶核函数具有更好的泛化、学习能力,文本分类效果最佳。

Description

一种混合傅里叶核函数支持向量机文本分类方法
技术领域
本发明主要应用在机器学习中的自然语言处理方面,尤其是涉及到一种混合傅里叶核函数支持向量机文本分类方法。
背景技术
随着大数据时代的来临,自然语言处理、图像处理等有关数据处理方面都有了快速的发展。由于文本信息高维度的特征,如何在这些复杂的高维度特征中找到特有的规律,以便日后能为人们更好的服务,这是统计学习理论的重要研究方向。支持向量机(SupportVectorMachines,SVM)是1995年由Vapnik等人提出的一种基于统计学习理论的机器学习方法。SVM通过依靠多种核函数解决了非线性问题。
目前SVM在非线性的文本分类问题上也得到了广泛的研究。文章[刘高辉,杨星.一种混合核函数的支持向量机[J].微型机与应用,2017,36(11):19-22.]中提到多项式核函数优秀的泛化能力非常适合文本分类问题。对于学习能力较强的核函数加入多项式核函数往往能提高分类的效果。文章[刘志康.一种改进的混合核函数支持向量机文本分类方法[J].工业控制计算机.2016,29(6):113-117]中提出了多项式核函数与条件正定核组成的混合核函数。文章[J.A.K.Suykens,J.Vandewalle,Least squares support vectormachine classifiers,Neural Processing Letters 9(3),293(1999).]提出了最小二乘支持向量机来解决非线性问题,但是精确度并不是很高。文献[张勇.支持向量机中傅里叶核的性能分析[D].华东师范大学.2008.]在一维傅里叶核基础上研究了N维傅里叶核,但通过实验分析表明在文本分类问题上,N维与一维傅里叶核函数分类效果近似。本文首先说明了支持向量机得基本理论,并分析比较了传统的核函数以及傅里叶核在文本分类上的优缺点。通过比较分析核函数表现出的不同的分类效果、学习能力、泛化能力等,提出了一种混合傅里叶核函数支持向量机模型文本分类方法。
发明内容
本发明所要解决的技术问题是为了提高支持向量机在文本分类中效果,提出了一种混合傅里叶核函数支持向量机文本分类方法。本发明的方法主要是在一维傅里叶核函数上加入多项式核函数组成新的混合傅里叶核函数,混合傅里叶核函数继承了傅里叶核函数的学习能力以及多项式核函数的泛化能力,从而构成新的支持向量机模型,提高了文本分类的效果。
为解决上述技术问题,本发明所采用的技术方案是:
一种混合傅里叶核函数支持向量机文本分类方法,包含如下步骤:
步骤A,训练支持向量机,以得到αi和b,根据优化问题中常用的拉格朗日乘法以及KKT条件,将求解表达式分别与等式约束条件以及不等式约束条件结合,简化支持向量机求解过程,求解转化为:
约束条件:其中C表示松弛变量;
式中,表示支持向量最大间隔等价转换结果;
表示求表达式最小值;
表示求表达式最大值;
表示对表达式求和;
xi,xj∈{x1,x2,...,xn}表示第i,j个训练集文档向量化值,其中,n表示训练集文档数量,1≤i,j≤n;
yi,yj∈{y1,y2,...,yn}表示第i,j个训练集文档所属的类别,取值1或-1;
αij∈α={α12,...,αn}表示xi,xj对应的拉格朗日乘子;
表示法向量;
wT表示w转置;
||w||2表示w欧几里得范数的平方;
b表示超平面在坐标轴上的截距;
K(xi,xj)表示核函数;
步骤B,构造混合傅里叶核函数,以引入支持向量机中,混合傅里叶核函数为:
式中,0≤u≤1;
Kpoly=(xi×xj+c)d表示多项式核函数,其中c取值为1,d取值2或3;
表示傅里叶核函数,其中cos(xi-xj)表示xi-xj的余弦值,0<q<1;
步骤C,将混合傅里叶核函数引入支持向量机:
步骤D,文档向量化:
式中,λkj表示文档de中特征词tk的权值,作为向量化结果
tk∈{t1,t2,...,tm}表示特征词tk,其中m表示总文档中特征词总数量,1≤i≤m;
de∈{d1,d2,...,dN}表示总文档中第e个文档,1≤e≤N;
tf(tk,de)表示特征词tk在文档de中出现的次数;
Nk表示包含特征词tk文档数量;
N表示总文档数;
β是经验值,取值为0.1;
步骤E,总文档通过交叉验证方法选取训练集和测试集,最终决策函数:
式中,f(x's)表示支持向量机模型分类结果;
xs'∈{x1',x'2,...,x'z}表示向量化后第s个测试集文档,其中z表示测试集文档数量1≤s≤z;
K(x's,xi)表示提出的混合傅里叶核函数;
αi和b表示训练支持向量机得到的参数;
sgn(·)表示符号函数;
本发明的有益效果是:本发明使用新的混合傅里叶核函数支持向量机模型,从而提高了文本分类的效果。所述的方法:根据支持向量机中各种核函数不同的学习、泛化能力,进而通过线性加权混合多项式与傅里叶核函数,组成新的混合傅里叶核函数。由于核函数的学习能力以及泛化能力很大程度上影响支持向量机分类效果,因此把多项式核函数与傅里叶核函数相结合,本发明继承了傅里叶核函数的高学习能力与多项式核函数的泛化能力,提高了支持向量机分类器的性能;并且与单核中的多项式核函数、高斯核函数、傅里叶核函数以及混合核函数中的多项式与高斯核组合核函数比较,混合傅里叶核函数具有更好的泛化、学习能力,文本分类效果最佳。
附图说明:
图1为传统的多项式核函数与高斯核函数的线性加权组合核函数在二维空间中的样例图。
图2为本发明混合傅里叶混合核函数二维空间样例图。
具体实施方式
下面结合附图与仿真结果,对本发明提出的一种混合傅里叶核函数支持向量机文本分类方法进行详细说明:
一种混合傅里叶核函数支持向量机文本分类方法,其实施过程如下:
训练支持向量机,以得到αi和b,根据优化问题中常用的拉格朗日乘法以及KKT条件,将求解表达式分别与等式约束条件以及不等式约束条件结合,简化支持向量机求解过程,求解转化为:
约束条件:其中C表示松弛变量;
式中,表示支持向量最大间隔等价转换结果;
表示求表达式最小值;
表示求表达式最大值;
表示对表达式求和;
xi,xj∈{x1,x2,...,xn}表示第i,j个训练集文档向量化值,其中,n表示训练集文档数量,1≤i,j≤n;
yi,yj∈{y1,y2,...,yn}表示第i,j个训练集文档所属的类别,取值1或-1;
αij∈α={α12,...,αn}表示xi,xj对应的拉格朗日乘子;
表示法向量;
wT表示w转置;
||w||2表示w欧几里得范数的平方;
b表示超平面在坐标轴上的截距;
K(xi,xj)表示核函数;
构造混合傅里叶核函数,以引入支持向量机中,混合傅里叶核函数为:
式中,0≤u≤1;
Kpoly=(xi×xj+c)d表示多项式核函数,其中c取值为1,d取值2或3;
表示傅里叶核函数,其中cos(xi-xj)表示xi-xj的余弦值,0<q<1;
将混合傅里叶核函数引入支持向量机:
文档向量化:
式中,λkj表示文档de中特征词tk的权值,作为向量化结果
tk∈{t1,t2,...,tm}表示特征词tk,其中m表示总文档中特征词总数量,1≤i≤m;
de∈{d1,d2,...,dN}表示总文档中第e个文档,1≤e≤N;
tf(tk,de)表示特征词tk在文档de中出现的次数;
Nk表示包含特征词tk文档数量;
N表示总文档数;
β是经验值,取值为0.1;
总文档通过交叉验证方法选取训练集和测试集,最终决策函数:
式中,f(x's)表示支持向量机模型分类结果;
xs'∈{x1',x'2,...,x'z}表示向量化后第s个测试集文档,其中z表示测试集文档数量1≤s≤z;
K(x's,xi)表示提出的混合傅里叶核函数;
αi和b表示训练支持向量机得到的参数;
sgn(·)表示符号函数。
图1所示多项式与高斯核函数混合核函数,在测试点的值与高斯核函数一致,说明混合核函数在学习能力上未发生大的改变,但在远离测试点处的值都得到增长,说明多项式与高斯核函数混合核函数提高了泛化能力。图中d,gamma分别表示多项式核函数中指数参数以及高斯核函数参数。
图2中参数u表示公式3中线性加权系数u。傅里叶核函数参数q取值为0.5,与一维傅里叶核函数相比,混合傅里叶核函数在测试点的值与一维傅里叶核函数近似,说明混合傅里叶核函数继承了一维傅里叶核函数的学习能力;在远离测试点的值要高于一维傅里叶核函数,说明混合傅里叶核函数泛化能力要高于传统一维傅里叶核函数。对比多项式与高斯核函数混合核函数,混合傅里叶核函数在测试点的值以及其他点处的值都要高于多项式与高斯核函数的混合核函数,说明混合傅里叶核函数无论在学习能力还是泛化能力上都要高于多项式与高斯核函数混合核函数。
文档通过词频方法进行特征维度的选取,特征数量选择500到3000以及5000、7000、9000维。将这些特征传输到不同的核函数组成的支持向量机模型中,对比不同核函数支持向量机模型结果的查准率、召回率以及F1值。对比结果显示,随着维度的增加,各个核函数三个指标都有2%~4%左右的增长,对比其他单核函数,一维傅里叶核函数三个指标均高出2%~3%,混合傅里叶函数相比一维傅里叶核函数提升2%~3%,相比多项式与高斯核函数提升1.5%~2%。
综上所述,本发明提出的混合傅里叶核函数支持向量机模型在学习能力以及泛化能力要优于其他核函数,在数据集以及特征数量等各参数同等情况下,分类性能要优于传统的核函数。

Claims (1)

1.一种混合傅里叶核函数支持向量机文本分类方法,其特征在于,所述方法包含如下步骤:步骤A,训练支持向量机,以得到αi和b,根据拉格朗日乘法以及KKT条件,简化支持向量机求解过程,求解转化为:
约束条件:其中C表示松弛变量;
式中,表示支持向量最大间隔等价转换结果;
表示求表达式最小值;
表示求表达式最大值;
表示对表达式求和;
xi,xj∈{x1,x2,...,xn}表示第i,j个训练集文档向量化值,其中,n表示训练集文档数量,1≤i,j≤n;
yi,yj∈{y1,y2,...,yn}表示第i,j个训练集文档所属的类别,取值1或-1;
αij∈α={α12,...,αn}表示xi,xj对应的拉格朗日乘子;
表示法向量;
wT表示w转置;
||w||2表示w欧几里得范数的平方;
b表示超平面在坐标轴上的截距;
K(xi,xj)表示核函数;
步骤B,构造混合傅里叶核函数,以引入支持向量机中,混合傅里叶核函数为:
式中,0≤η≤1;
Kpoly=(xi×xj+c)d表示多项式核函数,其中c取值为1,d取值2或3;
表示傅里叶核函数,其中cos(xi-xj)表示xi-xj的余弦值,0<q<1;
步骤C,将混合傅里叶核函数引入支持向量机:
步骤D,文档向量化:
式中,λkj表示文档de中特征词tk的权值,作为向量化结果;
tk∈{t1,t2,...,tm}表示特征词tk,其中m表示总文档中特征词总数量,1≤i≤m;
de∈{d1,d2,...,dN}表示总文档中第e个文档,1≤e≤N;
tf(tk,de)表示特征词tk在文档de中出现的次数;
Nk表示包含特征词tk文档数量;
N表示总文档数;
β是经验值,取值为0.1;
步骤E,总文档通过交叉验证方法选取训练集和测试集,最终决策函数:
式中,f(x's)表示支持向量机模型分类结果;
x′s∈{x′1,x′2,...,x′z}表示向量化后第s个测试集文档,其中z表示测试集文档数量1≤s≤z;
K(x's,xi)表示提出的混合傅里叶核函数;
αi和b表示训练支持向量机得到的参数;
sgn(·)表示符号函数。
CN201810160983.3A 2018-02-27 2018-02-27 一种混合傅里叶核函数支持向量机文本分类方法 Active CN108536730B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810160983.3A CN108536730B (zh) 2018-02-27 2018-02-27 一种混合傅里叶核函数支持向量机文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810160983.3A CN108536730B (zh) 2018-02-27 2018-02-27 一种混合傅里叶核函数支持向量机文本分类方法

Publications (2)

Publication Number Publication Date
CN108536730A true CN108536730A (zh) 2018-09-14
CN108536730B CN108536730B (zh) 2020-04-07

Family

ID=63486141

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810160983.3A Active CN108536730B (zh) 2018-02-27 2018-02-27 一种混合傅里叶核函数支持向量机文本分类方法

Country Status (1)

Country Link
CN (1) CN108536730B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010086466A (ja) * 2008-10-02 2010-04-15 Toyota Central R&D Labs Inc データ分類装置及びプログラム
CN102567742A (zh) * 2010-12-15 2012-07-11 中国科学院电子学研究所 一种基于自适应核函数选择的支持向量机自动分类方法
CN103366175A (zh) * 2013-07-14 2013-10-23 西安电子科技大学 基于潜在狄利克雷分配的自然图像分类方法
CN106874935A (zh) * 2017-01-16 2017-06-20 衢州学院 基于多核函数自适应融合的支持向量机参数选择方法
CN106951466A (zh) * 2017-03-01 2017-07-14 常州大学怀德学院 基于knn‑svm的领域文本特征提取方法和***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010086466A (ja) * 2008-10-02 2010-04-15 Toyota Central R&D Labs Inc データ分類装置及びプログラム
CN102567742A (zh) * 2010-12-15 2012-07-11 中国科学院电子学研究所 一种基于自适应核函数选择的支持向量机自动分类方法
CN103366175A (zh) * 2013-07-14 2013-10-23 西安电子科技大学 基于潜在狄利克雷分配的自然图像分类方法
CN106874935A (zh) * 2017-01-16 2017-06-20 衢州学院 基于多核函数自适应融合的支持向量机参数选择方法
CN106951466A (zh) * 2017-03-01 2017-07-14 常州大学怀德学院 基于knn‑svm的领域文本特征提取方法和***

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
N. JANNAH,S. HADJILOUCAS: "Detection of ECG arrhythmia conditions using CSVM and MSVM classifiers", 《 2015 IEEE SIGNAL PROCESSING IN MEDICINE AND BIOLOGY SYMPOSIUM (SPMB)》 *
李希鹏: "基于混合核函数支持向量机的文本分类研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
黄瑜青: "基于混合核函数的SVM 在文本自动分类的应用", 《计算机光盘软件与应用》 *

Also Published As

Publication number Publication date
CN108536730B (zh) 2020-04-07

Similar Documents

Publication Publication Date Title
CN109086658B (zh) 一种基于生成对抗网络的传感器数据生成方法与***
CN100585617C (zh) 基于分类器集成的人脸识别***及其方法
CN107451278A (zh) 基于多隐层极限学习机的中文文本分类方法
CN104966105A (zh) 一种鲁棒机器错误检索方法与***
CN102156885A (zh) 基于级联式码本生成的图像分类方法
CN109766911A (zh) 一种行为预测方法
CN111813939A (zh) 一种基于表征增强与融合的文本分类方法
CN114970725A (zh) 一种基于Adaboost-SVM的变压器工况辨识方法
Xueli et al. An improved KNN algorithm based on kernel methods and attribute reduction
Ma et al. Chinese text classification review
CN108536730A (zh) 一种混合傅里叶核函数支持向量机文本分类方法
Wang et al. Kernel-based deep learning for intelligent data analysis
Cao et al. Adaptable focal loss for imbalanced text classification
Li et al. Multi-lingual hybrid handwritten signature recognition based on deep residual attention network
CN107644074A (zh) 一种基于卷积神经网络的中文教材可读性分析的方法
CN113917370A (zh) 一种基于油中溶解气体小样本数据的变压器故障诊断方法
Liu et al. Multi-loss Siamese convolutional neural network for Chinese calligraphy style classification
Laureano et al. Affinity propagation SMOTE approach for imbalanced dataset used in predicting student at risk of low performance
CN102637205B (zh) 一种基于Hadoop的文档分类方法
Xu et al. Classification method of marine tourism resource of least square support vector machines based on particle swarm algorithm
CN105184311A (zh) 一种测试分类数据集的方法
CN105320968A (zh) 一种质心分类器的改进方法
Song et al. Towards deeper insights into deep learning from imbalanced data
Liu et al. Automatic decision support by rule exhaustion decision tree algorithm
Li et al. One-shot chinese character recognition based on deep siamese networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: No. 9 Wenyuan Road, Yadong New District, Nanjing, Jiangsu Province, 210012

Applicant after: Nanjing Post & Telecommunication Univ.

Applicant after: Nanjing University of Posts and Telecommunications Nantong Institute Limited

Address before: 210044 No. 9 Wenyuan Road, Qixia District, Nanjing, Jiangsu Province

Applicant before: Nanjing Post & Telecommunication Univ.

Applicant before: Nanjing University of Posts and Telecommunications Nantong Institute Limited

CB02 Change of applicant information
CB02 Change of applicant information

Address after: 226000 No. 33 Xinkang Road, Gangzhao District, Nantong City, Jiangsu Province

Applicant after: NANJING UNIVERSITY OF POSTS AND TELECOMMUNICATIONS

Applicant after: Nanjing University of Posts and Telecommunications Nantong Institute Limited

Address before: 210012 9 Wen Yuan Road, Ya Dong new town, Nanjing, Jiangsu.

Applicant before: NANJING UNIVERSITY OF POSTS AND TELECOMMUNICATIONS

Applicant before: Nanjing University of Posts and Telecommunications Nantong Institute Limited

GR01 Patent grant
GR01 Patent grant