CN108446735A

CN108446735A - 一种基于差分进化优化近邻成分分析的特征选择方法

Info

Publication number: CN108446735A
Application number: CN201810233510.1A
Authority: CN
Inventors: 童楚东; 俞海珍; 朱莹
Original assignee: Ningbo University
Current assignee: Ningbo University
Priority date: 2018-03-06
Filing date: 2018-03-06
Publication date: 2018-08-24

Abstract

本发明公开一种基于差分进化优化近邻成分分析的特征选择方法，旨在解决如何从最优化的角度优化近邻成分分析(NCA)算法，从而得到最优的特征权重系数。本发明方法利用差分进化算法优化NCA算法的目标函数，从而得到全局最优的特征权重系数。相比于传统的NCA方法，利用差分进化算法来优化为NCA算法的目标函数，以保证最后的权重系数向量是全局最优结果而非局部最优。其次，本发明方法与传统NCA的不同之处在于未曾考虑包含规划化参数的目标函数，也就不需要确定规则化参数的大小。可以说，本发明发法是对传统NCA方法用于分类特征选择的一种完善策略。

Description

一种基于差分进化优化近邻成分分析的特征选择方法

技术领域

本发明涉及一种特征选择方法，尤其涉及一种基于差分进化优化近邻成分分析的特征选择方法。

背景技术

近年来，数据挖掘方法在各行各业都得到了广泛的应，针对数据挖掘方法的理论研究与应用研究同样得到了广泛的关注。在工业信息化建设、金融领域、互联网行业，对数据挖掘与机器学习的研究投入了大量的人力与物力。特征选择在数据挖掘与机器学习中占有者重要的地位，它虽然不是某种特定的数据挖掘或机器学习算法，但是特征选择能显著地改善后续数据挖掘算法的性能。尤其是针对高维数据进行数据建模时，特征选择所能发挥出的积极作用是有目共睹的。以模式识别中常见的分类模型为例，模型的输入通常是高维的样本数据，而模型的输出则为各样本数据对应的类别标号。在应用相同的分类算法的前提下，采取与不采取输入数据特征选择在分类准确率上有着显著地差异。因为，实施特征选择后再建立分类模型时，能够剔除很多干扰信息的负面影响，从而提升分类模型的精度。

针对特征选择的研究，已有很多研究人员针对不同的对象、不同的问题提出了相应的解决思路。这其中，近邻成分分析(Neighborhood Component Analysis，NCA)是一种较新颖的特征选择算法，可专门用于分类建模前的特征选择。NCA通过1阶近邻的方式优化Leave-One-Out分类正确率，进而得到各个输入特征的权重系数。那么，权重系数接近于0的特征就是无用特征，可以予以剔除。然而，传统NCA方法的优化求解特征权重系数的过程很容易陷入局部最优，而且权重系数也容易出现过拟合现象。虽然，可通过引入规则化参数调整过拟合程度，但是如何选择该规则化参数目前只能依靠交叉验证的方式进行。因此，传统NCA算法的完善还有待进一步的研究。

发明内容

本发明所要解决的主要技术问题是：如何从最优化的角度优化NCA算法，从而得到最优的特征权重系数。具体来讲，本发明方法利用差分进化算法优化NCA算法的目标函数，从而得到全局最优的特征权重系数。

本发明解决上述技术问题所采用的技术方案为：一种基于差分进化优化近邻成分分析的特征选择方法，包括以下步骤：

(1)收集应用对象不同类别y₁，y₂，…，y_C所对应的样本数据集X₁，X₂，…，X_C，其中，C表示类别总数，第c类数据集包含m个特征的N_c个样本数据，c＝1，2，…，C。

(2)将数据集X₁，X₂，…，X_C组成一个矩阵X∈R^N×m，并对X按列实施标准化处理得到X＝[x₁，x₂，…，x_N]^T∈R^N×m从而消除各特征的量纲的影响，其中N＝N₁+N₁+…+N_C，x_i∈R^m×1表示第i个样本数据。

(3)设置差分进化算法的参数，包括种群数nP＝6m、缩放因子Z＝0.6、最大迭代次数Imax≥2000、以及交叉概率p＝0.1。

(4)任意初始化m×nP维的矩阵W＝[w₁，w₂，…，w_nP]后，置迭代次数iter＝0与k＝1。

(5)取矩阵W中第k个列向量作为种群w_k∈R^m×1后，根据公式d_ij＝w_k|x_i-x_j|计算矩阵中任意两样本点x_i与x_j之间的距离d_ij，其中|x_i-x_j|表示将向量x_i-x_j中的元素都取绝对值，下标号i，j＝1，2，…，N。

(6)根据如下所示公式计算x_i选择x_j作为其参考数据点的概率p_ij：

(7)根据公式f_k＝∑_i∑_jz_ijp_ij计算第k个种群w_k对应的目标函数f_k，其中z_ij为二进制数且只在x_i与x_j属于同一种类时取值1。

(8)判断是否满足条件k＜N？若是，置k＝k+1后返回步骤(5)；若否，得到目标函数向量F＝[f₁，f₂，…，f_N]后找出F中最大值f_best所对应的种群w_best，并执行下一步骤(9)。

(9)根据如下所示公式为每个种群产生一个对应的变异向量v_k：

v_k＝w_k+Z(w_best-w_k)+Z(w_a-w_b) (2)

上式中，下标号a与b为从区间[1，nP]中随机产生的2个互不相同的整数。

(10)按照如下所示公式对变异向量v_k进行修正，即；

其中，v_k，n表示向量v_k中的第n个元素，n＝1，2，…，m。

(11)根据如下所示公式产生尝试向量u_k∈R^m×1，即：

其中，u_k，n与w_k，n分别为u_k与w_k中第n个元素，向量rand∈R^m×1中各元素都是0到1之间均匀分布的任意随机小数，rand_n则为随机向量rand中的第n个元素。

(12)依据如下所示公式更新种群w_k，即：

上式中，h(u_k)表示将u_k作为种群w_k的替换值后计算得到的目标函数值。

(13)重复步骤(9)～(12)直至所有种群都更新完毕以得到新矩阵W，并置iter＝iter+1。

(14)判断是否满足条件iter＞Imax？若否，返回步骤(5)继续执行；若是，则输出最大目标函数f_best所对应的种群w_best，即为各个特征的相应权重系数。

(15)根据w_best∈R^m×1中各个元素的具体数值大小，将接近于0的元素所对应的特征剔除，那么剩余的特征即为特征选择后的结果。

与传统方法相比，本发明方法的优势在于：

首先，本发明方法利用差分进化算法来优化NCA算法的目标函数，以保证最后的权重系数向量是全局最优结果而非局部最优。其次，本发明方法与传统NCA的不同之处在于未曾考虑包含规划化参数的目标函数，也就不需要确定规则化参数的大小。可以说，本发明发法是对传统NCA方法用于分类特征选择的一种完善策略。

附图说明

图1为本发明方法的实施流程图。

图2为本发明方法的特征选择结果示意图。

具体实施方式

下面结合附图与具体的实施案例对本发明方法进行详细的说明。

如图1所示，本发明公开一种基于差分进化优化近邻成分分析的特征选择方法。下面设计一个两分类的数值案例验证本发明方法的有效性。

随机产生一个500×20维的在区间[0，1]之间均匀分布的数据集X，将数据集X中满足条件X₃·X₉/X₁₅＜0.4的样本的类别标号设置成y₁＝1，而其他不满足条件的样本的类别标号设置成y₂＝2。

(1)上述训练数据集由两类样本数据组成，特征选择的结果理应选择数据集X中第3、9、和15列所对应的特征，下面继续实施本发明方法。

(2)对X按列实施标准化处理得到X＝[x₁，x₂，…，x₅₀₀]^T∈R^500×20从而消除各特征的量纲的影响。

(3)设置差分进化算法的参数，包括种群数nP＝120、缩放因子Z＝0.6、最大迭代次数Imax＝2000、以及交叉概率p＝0.1。

(4)利任意初始化m×nP维的矩阵W＝[w₁，w₂，…，w_nP]后，置迭代次数iter＝0与k＝1。

(5)取矩阵W中第k个列向量作为种群w_k∈R^m×1后，根据公式d_ij＝w_k|x_i-x_j|计算矩阵中任意两样本点x_i与x_j之间的距离d_ij。

(6)计算x_i选择x_j作为其参考数据点的概率p_ij。

(7)根据公式f_k＝∑_i∑_jz_ijp_ij计算第k个种群w_k对应的目标函数f_k。

(8)判断是否满足条件k＜500？若是，置k＝k+1后返回步骤(5)；若否，得到目标函数向量F＝[f₁，f₂，…，f₅₀₀]后找出F中最大值f_best所对应的种群w_best，并执行下一步骤(9)。

(9)为每个种群产生一个对应的变异向量v_k。

(10)对变异向量v_k进行修正。

(11)根据如下所示公式产生尝试向量u_k∈R^m×1，即：

(12)更新种群w_k。

(15)根据w_best∈R^33×1中各个元素的具体数值大小，将接近于0的元素所对应的特征剔除，那么剩余的特征即为特征选择后的结果。

如图2所示，各个特征对应的加权系数散点图，从图中可以发现本发明方法正确地选择出了相应的特征。

上述实施案例只用来解释说明本发明的具体实施，而不是对本发明进行限制。在本发明的精神和权利要求的保护范围内，对本发明做出的任何修改，都落入本发明的保护范围。

Claims

1.一种基于差分进化优化近邻成分分析的特征选择方法，其特征在于，包括以下步骤：

步骤(1)：收集应用对象不同类别y₁，y₂，…，y_C所对应的样本数据集X₁，X₂，…，X_C，其中，C表示类别总数，第c类数据集包含m个特征的N_c个样本数据，c＝1，2，…，C；

步骤(2)：将数据集X₁，X₂，…，X_C组成一个矩阵X∈R^N×m，并对X按列实施标准化处理得到X＝[x₁，x₂，…，x_N]^T∈R^N×m从而消除各特征的量纲的影响，其中N＝N₁+N₁+…+N_C，x_i∈R^m×1表示第i个样本数据，上标号T表示矩阵或向量的转置；

步骤(3)：设置差分进化算法的参数，包括种群数nP＝6m、缩放因子Z＝0.6、最大迭代次数Imax≥2000、以及交叉概率p＝0.1；

步骤(4)：利任意初始化m×nP维的矩阵W＝[w₁，w₂，…，w_nP]后，置迭代次数iter＝0与k＝1；

步骤(5)：取矩阵W中第k个列向量作为种群w_k∈R^m×1后，根据公式d_ij＝w_k|x_i-x_j|计算矩阵中任意两样本点x_i与x_j之间的距离d_ij，其中|x_i-x_j|表示将向量x_i-x_j中的元素都取绝对值，下标号i，j＝1，2，…，N；

步骤(6)：根据如下所示公式计算x_i选择x_j作为其参考数据点的概率p_ij：

步骤(7)：根据公式f_k＝∑_i∑_jz_ijp_ij计算第k个种群w_k对应的近邻成分分析目标函数f_k，其中z_ij为二进制数且只在x_i与x_j属于同一种类时取值1；

步骤(8)：判断是否满足条件k＜N？若是，置k＝k+1后返回步骤(5)；若否，得到目标函数向量F＝[f₁，f₂，…，f_N]后找出F中最大值f_best所对应的种群w_best，并执行下一步骤(9)；

步骤(9)：根据如下所示公式为每个种群产生一个对应的变异向量v_k：

v_k＝w_k+Z(w_best-w_k)+Z(w_a-w_b) (2)

上式中，下标号a与b为从区间[1，nP]中随机产生的2个互不相同的整数；

步骤(10)：按照如下所示公式对变异向量v_k进行修正，即：

上式中，v_k，n表示向量v_k中的第n个元素，n＝1，2，…，m；

步骤(11)：根据如下所示公式产生尝试向量u_k∈R^m×1，即：

其中，u_k，n与w_k，n分别为u_k与w_k中第n个元素，向量rand∈R^m×1中各元素都是0到1之间均匀分布的任意随机小数，rand_n则为随机向量rand中的第n个元素；

步骤(12)：依据如下所示公式更新种群w_k，即：

上式中，h(u_k)表示将u_k作为种群w_k的替换值后计算得到的目标函数值；

步骤(13)：重复步骤(9)～(12)直至所有种群都更新完毕以得到新矩阵W，并置iter＝iter+1；

步骤(14)：判断是否满足条件iter＞Imax？若否，返回步骤(5)继续执行；若是，则输出最大目标函数f_best所对应的种群w_best，即为各个特征的相应权重系数；

步骤(15)：根据w_best∈R^m×1中各个元素的具体数值大小，将接近于0的元素所对应的特征剔除，那么剩余的特征即为特征选择后的结果。