CN109447178A

CN109447178A - 一种基于混合核函数的svm分类方法

Info

Publication number: CN109447178A
Application number: CN201811343420.4A
Authority: CN
Inventors: 朱芳; 陈得宝; 纵海宝
Original assignee: Huaibei Normal University
Current assignee: Huaibei Normal University
Priority date: 2018-11-13
Filing date: 2018-11-13
Publication date: 2019-03-08

Abstract

本发明公开了一种基于混合核函数的SVM分类方法，一、收集数据集，对收集的数据集记录中的每个样本进行分析，区分样本不同属性，确定输入输出样本；二、选择和构造核函数，将指数分布核函数与径向基核函数进行混合；三、对混合核函数中的参数进行优化；四、选择C‑SVC模型，建立基于新型混合核函数的支持向量机分类模型；五、通过所建立的支持向量机分类模型进行分类预测。本发明充分利用指数函数的全局性能和径向基函数的局部性能，并采用具有高斯变异的粒子群优化算法优化模型参数，提高了支持向量机的总体性能；全局性指数分布核函数的学习和泛化性能均高于其他单一核函数，新型混合核函数的支持向量机性能明显优于其他混合核函数的支持向量机性能。

Description

一种基于混合核函数的SVM分类方法

技术领域

本发明涉及一种SVM分类方法，具体涉及一种基于混合核函数的SVM分类方法。

背景技术

SVM(Support Vector Machine)指的是支持向量机，是常见的一种判别方法。在机器学***面实现线性划分(或回归)。一般的升维都会带来计算的复杂化，SVM方法巧妙地解决了这个难题：引入核函数，且不需要知道非线性映射的显式表达式；由于是在高维特征空间中建立线性学习机，所以与线性模型相比，不但几乎不增加计算的复杂性，而且在某种程度上避免了"维数灾难"。

现阶段，SVM已经应用到人脸检测，汽轮发电机组的故障诊断，分类，回归，聚类，时间序列预测，***辨识，金融工程，生物医药信号处理，数据挖掘，生物信息，文本挖掘，自适应信号处理，剪接位点识别，基于支持向量机的数据库学习算法，手写体相似字识别，支持向量机函数拟合在分形插值中的应用，基于支持向量机的惯导初始对准***，岩爆预测的支持向量机，缺陷识别，计算机键盘用户身份验证，视频字幕自动定位于提取，说话人的确认等多个领域。

核函数能够将原样本从低维空间投射到高维空间，是支持向量机(SVM)处理非线性不可分问题的重要方法之一，它使得样本从原空间非线性不可分状态转换为高维空间的近似线性可分状态。核函数的类型确定了映射内积和高维空间的大小，从而改变了样本数据在高维空间分布的复杂程度。如果数据投射的空间维数较大，则得到的模型较复杂，经验风险小但置信范围大，容易出现过学习；反之亦然。

目前对于核函数的选择或构造还没有统一的规则，一般采用经验方法选择核函数，只要满足Mercer条件的函数在理论上都可选为核函数。因此，需要设计一种高效的核函数，将数据投影到合适的高维空间，才能够使得分类效果更优。

发明内容

本发明的目的在于克服现有技术存在的缺陷，提供一种基于混合核函数的SVM分类方法。

为达到上述目的，本发明所采用的技术方案是：一种基于混合核函数的SVM分类方法，步骤如下：

一、收集数据集，对收集的数据集记录中的每个样本进行分析，区分样本不同属性，确定输入输出样本；

二、选择和构造核函数，将满足Mercer条件的指数分布全局性核函数与径向基核函数进行混合，得到新型混合核函数：

式中，参数t为两种核函数所占的比例，σ为径向基核函数的核宽度，γ为指数分布核函数的参数，x、y为样本集中输入输出样本对；

三、对新型混合核函数中的参数进行优化；

四、选择C-SVC模型，建立基于新型混合核函数的支持向量机分类模型；

五、通过所建立的支持向量机分类模型进行分类预测。

进一步的，所述优化采用引入高斯变异的粒子群优化算法，对新型混合核函数中的三个参数σ、γ、t进行优化。

更进一步，所述引入高斯变异的粒子群优化算法的步骤如下：

1、设置参数，群体规模值、最大迭代次数值，局部搜索能力C1，全局搜索能力C2，惯性权重ω值，限制粒子搜寻范围和粒子群飞行速度；

2、初始化粒子(σ，γ，t)的位置X_i和速度V_i；

3、计算每个粒子的适应度值；

4、确定全局极值和个体极值；

5、迭代寻优，判断是否达到最大分类准确率，如果是，转向步骤八，否则继续向下执行；

6、根据和更新粒子的速度和位置；

7、随机选择一个粒子，对其进行高斯变异，保持种群多样性，转回步骤三；

8、输出最优解。

本发明的有益技术效果是：采用满足Mercer条件的指数分布全局性核函数和径向基核函数构建的新型混合核函数，即具有较好的外推能力，可使相距很远的数据点对核函数值有影响，又具有较强的学习能力，对附近的局部信息也有影响；引入高斯变异的粒子群优化算法对基于新型混合核函数的支持向量机分类模型的参数同时进行优化，比其他常用混合核函数具有更高的分类准确率。

附图说明

下面结合附图和实施实例对本发明做进一步的阐述。

图1为本发明RBF的输出特性曲线图；

图2为本发明指数核函数的输出特性曲线图；

图3为本发明组合核函数在测试点处的曲线图(γ＝0.2)；

图4为本发明组合核函数在测试点处的曲线图(σ＝0.2)。

具体实施方式

实施例1

一种基于混合核函数的SVM分类方法，步骤如下：

二、选择和构造核函数，将指数分布核函数与径向基核函数进行混合；

三、对混合核函数中的参数进行优化，采用引入高斯变异的粒子群优化算法；

五、通过所建立的支持向量机分类模型进行分类预测。

其中新型混合核函数的产生依据如下：

核函数的概念，假设给定m个训练样本{x₁，x₂，...，x_m}，每一个x_i对应一个特征向量。那么，有一个函数K(x_i，x_j)满足K(x_i，x_j)＝Φ(x_i)^TΦ(x_j)且满足Mercer条件，则K(x_i，x_j)称为核函数。其中，Φ(x)为某个非线性映射函数。Mercer条件是指对于任意的g(x)∈Rⁿ且≠0，都有∫∫K(x_i，x_j)g(x_i)g(x_j)dx_idx_j≥0。即对于所有的训练样本(x₁，x₂，...，x_m}，K(x_i，x_j)是有效的核函数，则其相应的核矩阵是对称且半正定的。

混合核函数的设计，根据核函数的特性，可将核函数分为两大类：全局核函数和局部核函数。全局核函数具有全局特性，其特点是插值能力较弱善于提取样本全局特性，如线性、多项式核函数等。局部核函数具有局部性，其局部学习能力高于全局学习能力。本方法采用的局部核函数是径向基核函数(Radial Basis Function，RBF)，公式如下：

图1所示，测试点取0.2，σ取0.1、0.2、0.5、0.8、1时的RBF核函数输出曲线图，就是一个典型的局部核函数。从图中可以看出，测试点附近的区域，核函数对其影响甚大，而离测试点越远，其输出值趋近于0。

采用一个指数分布的全局性核函数，它满足Mercer条件，是一个有效的核函数。

证明：对于m个训练样本{x₁，x₂，...，x_m}，将任意两个x_i和x_j带入上式(3)中，可得：

可见，对应的m×m矩阵K是一个对称矩阵。

假设每个训练样本有k个属性特征，Φ_k(x)表示原空间样本x映射到高维空间所对应的映射函数Φ(x)的第k维属性值。那么对于任意向量z，得：

因此，在训练集上得到的核函数矩阵K是半正定的(K≥0)。

综上，指数核矩阵K是对称半正定的即满足Mercer条件。因此，指数核函数是有效的核函数，已用于核学习。测试点同样取0.2，γ分别取0.1、0.2、0.5、0.8、1时的指数核函数输出曲线如图2所示。从图中可以看出，该核函数具有较好的外推能力，可使得相距很远的数据点对核函数值都有影响。虽然指数核函数的输出特性与多项式核函数类似，但是从函数原型上看，该函数的参数只有一个γ，而多项式核函数却有γ、r、d三个参数需要选择，因此对参数的依赖性降低。

将RBF核函数与上述指数核函数结合，为充分发挥二者的优点，形成本发明的新型混合核函数。

根据核函数的定义，若K₁、K₂是核函数，则存在α＞0，β＞0对于任意的向量z， z^TαK₁z＞0，z^TβK₂z＞0。因此，z^TαK₁z+z^Tβk₂z＝z^T(αK₁+βK₂)z＞0，(α，β＞0)，即得到αK₁+βK₂的核矩阵是正定的，也即αK₁+βK₂是核函数。公式如下：

式中，参数t为两种核函数所占的比例，一般取0≤t≤1。新组合核函数在测试点为0.2 时的输出如下图3所示。

基于PSO的核函数参数优化，新型核函数中有三个参数(RBF中的σ、新核函数中的γ、核函数所占比例t)需要进行优化，它们的取值对SVM模型的结果有直接影响。采用结构简单、易于实现的粒子群优化算法(Particle Swarm Optimization，PSO)对模型参数进行优化。

本发明使用带惩罚参数C的支持向量机(C-SVC)，因此参数C也需要优化。

算法的具体步骤如下：

Step1：参数设置，群体规模设置为20，最大迭代次数为200，代表局部搜索能力的c₁＝1.5，为了使粒子向全局最优点进化，设置代表全局搜索能力的c₂＝1.7，惯性权重ω的取值为1，粒子搜寻范围C∈[0.1，100]，σ∈[0.1，100]，γ∈[0.01，10]，t∈[0.01，1]；粒子群飞行速度范围[-0.6*C_max，0.6*C_max]， [-0.6*σ_max，0.6*σ_max]，[-0.6*γ_max，0.6*γ_max]，[-0.6*t_max，0.6*t_max]；

Step2：初始化粒子(C，σ，γ，t)的位置和速度，每个粒子的位置： X_i＝(X_max-X_min)*rand+X_min；速度：V_i＝V_max*rands；

Step3：计算每个粒子的适应度值，将训练集的分类准确率作为适应度函数：

Step4：保留每个个体运行到当前时刻所得到的最好位置和当前代群体的最好位置

Step5：迭代寻优，判断是否达到最大分类准确率，如果是，转向Step 8，否则执行Step 6～7；

Step6：根据和更新粒子的速度和位置；

Step7：随机选择一个粒子，对其进行高斯变异X_i＝X_i×g，g∈N(0，1)，保持种群多样性，转回Step3；

Step8：输出最优解。

实施例2

记录意大利同一区域上三种不同品种的葡萄酒的化学成分分析形成Wine数据集，数据集共有178个样本，每个样本含有13个属性。

验证本发明新型混合核函数的有效性，将Wine数据集经过10次随机分组，建立基于混合核函数的支持向量机分类模型，所涉及参数均使用PSO优化，进行分类预测实验。随机分组用于反映新型混合核函数的适应性。

将得到的结果与其它核函数所构造的支持向量机分类模型的分类结果对比，如下表1所示。

表1 Wine数据集随机分组不同核函数的分类准确率

从表1中可知，总体上对于Wine数据集的随机划分训练集和测试集，新型混合核函数的训练集分类准确率和测试集分类准确率均高于其它核函数；因此，新型混合核函数充分发挥了RBF的局部性和指数核的全局性，其学习能力和泛化能力都较其他核函数高，证明本发明新型混合核函数的有效性。

实施例3

本实施例为Iris数据集验证实例，为了更全面的比较各类核函数或单一或混合的SVM 分类效果，实验对象为UCI数据库网站提供的Iris数据集。

Iris数据集包含150个样本，均分为3个类别，且每个样本含有4个属性。本发明将该数据集的每类样本的50％作为训练集，另外的50％作为测试集。分别将参数经PSO优化，建立SVM分类模型，测试集的分类准确率如下表2所示。

表2 Iris数据集不同核函数下的分类结果

由表2可知，对于使用单一核函数而言，本发明所提出的核函数比线性、多项式、RBF 核函数的分类准确率要高；对于混合核函数而言，本发明的新型混合核函数的分类效果较其他混合核函数要好，说明本发明的新型混合核函数构造的支持向量机性能优于其它混合核函数的支持向量机。

本方法构造了一种新的能兼顾学习和推广能力的混合核函数，实验结果表明，其数据集的分类准确率要比单一的核函数和其它混合核函数都高。因此，以本发明新型混合核函数构造的SVM模型进行分类，能获得更好的分类预测结果。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种基于混合核函数的SVM分类方法，步骤如下：

三、对新型混合核函数中的参数进行优化；

五、通过所建立的支持向量机分类模型进行分类预测。

2.根据权利要求1所述的基于混合核函数的SVM分类方法，其特征在于：所述优化采用引入高斯变异的粒子群优化算法，对新型混合核函数中的三个参数σ、γ、t进行优化。

3.根据权利要求2所述的基于混合核函数的SVM分类方法，其特征在于：所述引入高斯变异的粒子群优化算法的步骤如下：

步骤一、设置参数，群体规模值、最大迭代次数值，局部搜索能力C1，全局搜索能力C2，惯性权重ω值，限制粒子搜寻范围和粒子群飞行速度；

步骤二、初始化粒子(σ，γ，t)的位置X_i和速度V_i；

步骤三、计算每个粒子的适应度值；

步骤四、确定全局极值和个体极值；

步骤五、迭代寻优，判断是否达到最大分类准确率，如果是，转向步骤八，否则继续向下执行；

步骤六、根据和更新粒子的速度和位置；

步骤七、随机选择一个粒子，对其进行高斯变异，保持种群多样性，转回步骤三；

步骤八、输出最优解。