CN108446735A - 一种基于差分进化优化近邻成分分析的特征选择方法 - Google Patents

一种基于差分进化优化近邻成分分析的特征选择方法 Download PDF

Info

Publication number
CN108446735A
CN108446735A CN201810233510.1A CN201810233510A CN108446735A CN 108446735 A CN108446735 A CN 108446735A CN 201810233510 A CN201810233510 A CN 201810233510A CN 108446735 A CN108446735 A CN 108446735A
Authority
CN
China
Prior art keywords
feature
vector
population
formula
nca
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201810233510.1A
Other languages
English (en)
Inventor
童楚东
俞海珍
朱莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo University
Original Assignee
Ningbo University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo University filed Critical Ningbo University
Priority to CN201810233510.1A priority Critical patent/CN108446735A/zh
Publication of CN108446735A publication Critical patent/CN108446735A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种基于差分进化优化近邻成分分析的特征选择方法,旨在解决如何从最优化的角度优化近邻成分分析(NCA)算法,从而得到最优的特征权重系数。本发明方法利用差分进化算法优化NCA算法的目标函数,从而得到全局最优的特征权重系数。相比于传统的NCA方法,利用差分进化算法来优化为NCA算法的目标函数,以保证最后的权重系数向量是全局最优结果而非局部最优。其次,本发明方法与传统NCA的不同之处在于未曾考虑包含规划化参数的目标函数,也就不需要确定规则化参数的大小。可以说,本发明发法是对传统NCA方法用于分类特征选择的一种完善策略。

Description

一种基于差分进化优化近邻成分分析的特征选择方法
技术领域
本发明涉及一种特征选择方法,尤其涉及一种基于差分进化优化近邻成分分析的特征选择方法。
背景技术
近年来,数据挖掘方法在各行各业都得到了广泛的应,针对数据挖掘方法的理论研究与应用研究同样得到了广泛的关注。在工业信息化建设、金融领域、互联网行业,对数据挖掘与机器学习的研究投入了大量的人力与物力。特征选择在数据挖掘与机器学习中占有者重要的地位,它虽然不是某种特定的数据挖掘或机器学习算法,但是特征选择能显著地改善后续数据挖掘算法的性能。尤其是针对高维数据进行数据建模时,特征选择所能发挥出的积极作用是有目共睹的。以模式识别中常见的分类模型为例,模型的输入通常是高维的样本数据,而模型的输出则为各样本数据对应的类别标号。在应用相同的分类算法的前提下,采取与不采取输入数据特征选择在分类准确率上有着显著地差异。因为,实施特征选择后再建立分类模型时,能够剔除很多干扰信息的负面影响,从而提升分类模型的精度。
针对特征选择的研究,已有很多研究人员针对不同的对象、不同的问题提出了相应的解决思路。这其中,近邻成分分析(Neighborhood Component Analysis,NCA)是一种较新颖的特征选择算法,可专门用于分类建模前的特征选择。NCA通过1阶近邻的方式优化Leave-One-Out分类正确率,进而得到各个输入特征的权重系数。那么,权重系数接近于0的特征就是无用特征,可以予以剔除。然而,传统NCA方法的优化求解特征权重系数的过程很容易陷入局部最优,而且权重系数也容易出现过拟合现象。虽然,可通过引入规则化参数调整过拟合程度,但是如何选择该规则化参数目前只能依靠交叉验证的方式进行。因此,传统NCA算法的完善还有待进一步的研究。
发明内容
本发明所要解决的主要技术问题是:如何从最优化的角度优化NCA算法,从而得到最优的特征权重系数。具体来讲,本发明方法利用差分进化算法优化NCA算法的目标函数,从而得到全局最优的特征权重系数。
本发明解决上述技术问题所采用的技术方案为:一种基于差分进化优化近邻成分分析的特征选择方法,包括以下步骤:
(1)收集应用对象不同类别y1,y2,…,yC所对应的样本数据集X1,X2,…,XC,其中,C表示类别总数,第c类数据集包含m个特征的Nc个样本数据,c=1,2,…,C。
(2)将数据集X1,X2,…,XC组成一个矩阵X∈RN×m,并对X按列实施标准化处理得到X=[x1,x2,…,xN]T∈RN×m从而消除各特征的量纲的影响,其中N=N1+N1+…+NC,xi∈Rm×1表示第i个样本数据。
(3)设置差分进化算法的参数,包括种群数nP=6m、缩放因子Z=0.6、最大迭代次数Imax≥2000、以及交叉概率p=0.1。
(4)任意初始化m×nP维的矩阵W=[w1,w2,…,wnP]后,置迭代次数iter=0与k=1。
(5)取矩阵W中第k个列向量作为种群wk∈Rm×1后,根据公式dij=wk|xi-xj|计算矩阵中任意两样本点xi与xj之间的距离dij,其中|xi-xj|表示将向量xi-xj中的元素都取绝对值,下标号i,j=1,2,…,N。
(6)根据如下所示公式计算xi选择xj作为其参考数据点的概率pij
(7)根据公式fk=∑ijzijpij计算第k个种群wk对应的目标函数fk,其中zij为二进制数且只在xi与xj属于同一种类时取值1。
(8)判断是否满足条件k<N?若是,置k=k+1后返回步骤(5);若否,得到目标函数向量F=[f1,f2,…,fN]后找出F中最大值fbest所对应的种群wbest,并执行下一步骤(9)。
(9)根据如下所示公式为每个种群产生一个对应的变异向量vk
vk=wk+Z(wbest-wk)+Z(wa-wb) (2)
上式中,下标号a与b为从区间[1,nP]中随机产生的2个互不相同的整数。
(10)按照如下所示公式对变异向量vk进行修正,即;
其中,vk,n表示向量vk中的第n个元素,n=1,2,…,m。
(11)根据如下所示公式产生尝试向量uk∈Rm×1,即:
其中,uk,n与wk,n分别为uk与wk中第n个元素,向量rand∈Rm×1中各元素都是0到1之间均匀分布的任意随机小数,randn则为随机向量rand中的第n个元素。
(12)依据如下所示公式更新种群wk,即:
上式中,h(uk)表示将uk作为种群wk的替换值后计算得到的目标函数值。
(13)重复步骤(9)~(12)直至所有种群都更新完毕以得到新矩阵W,并置iter=iter+1。
(14)判断是否满足条件iter>Imax?若否,返回步骤(5)继续执行;若是,则输出最大目标函数fbest所对应的种群wbest,即为各个特征的相应权重系数。
(15)根据wbest∈Rm×1中各个元素的具体数值大小,将接近于0的元素所对应的特征剔除,那么剩余的特征即为特征选择后的结果。
与传统方法相比,本发明方法的优势在于:
首先,本发明方法利用差分进化算法来优化NCA算法的目标函数,以保证最后的权重系数向量是全局最优结果而非局部最优。其次,本发明方法与传统NCA的不同之处在于未曾考虑包含规划化参数的目标函数,也就不需要确定规则化参数的大小。可以说,本发明发法是对传统NCA方法用于分类特征选择的一种完善策略。
附图说明
图1为本发明方法的实施流程图。
图2为本发明方法的特征选择结果示意图。
具体实施方式
下面结合附图与具体的实施案例对本发明方法进行详细的说明。
如图1所示,本发明公开一种基于差分进化优化近邻成分分析的特征选择方法。下面设计一个两分类的数值案例验证本发明方法的有效性。
随机产生一个500×20维的在区间[0,1]之间均匀分布的数据集X,将数据集X中满足条件X3·X9/X15<0.4的样本的类别标号设置成y1=1,而其他不满足条件的样本的类别标号设置成y2=2。
(1)上述训练数据集由两类样本数据组成,特征选择的结果理应选择数据集X中第3、9、和15列所对应的特征,下面继续实施本发明方法。
(2)对X按列实施标准化处理得到X=[x1,x2,…,x500]T∈R500×20从而消除各特征的量纲的影响。
(3)设置差分进化算法的参数,包括种群数nP=120、缩放因子Z=0.6、最大迭代次数Imax=2000、以及交叉概率p=0.1。
(4)利任意初始化m×nP维的矩阵W=[w1,w2,…,wnP]后,置迭代次数iter=0与k=1。
(5)取矩阵W中第k个列向量作为种群wk∈Rm×1后,根据公式dij=wk|xi-xj|计算矩阵中任意两样本点xi与xj之间的距离dij
(6)计算xi选择xj作为其参考数据点的概率pij
(7)根据公式fk=∑ijzijpij计算第k个种群wk对应的目标函数fk
(8)判断是否满足条件k<500?若是,置k=k+1后返回步骤(5);若否,得到目标函数向量F=[f1,f2,…,f500]后找出F中最大值fbest所对应的种群wbest,并执行下一步骤(9)。
(9)为每个种群产生一个对应的变异向量vk
(10)对变异向量vk进行修正。
(11)根据如下所示公式产生尝试向量uk∈Rm×1,即:
(12)更新种群wk
(13)重复步骤(9)~(12)直至所有种群都更新完毕以得到新矩阵W,并置iter=iter+1。
(14)判断是否满足条件iter>Imax?若否,返回步骤(5)继续执行;若是,则输出最大目标函数fbest所对应的种群wbest,即为各个特征的相应权重系数。
(15)根据wbest∈R33×1中各个元素的具体数值大小,将接近于0的元素所对应的特征剔除,那么剩余的特征即为特征选择后的结果。
如图2所示,各个特征对应的加权系数散点图,从图中可以发现本发明方法正确地选择出了相应的特征。
上述实施案例只用来解释说明本发明的具体实施,而不是对本发明进行限制。在本发明的精神和权利要求的保护范围内,对本发明做出的任何修改,都落入本发明的保护范围。

Claims (1)

1.一种基于差分进化优化近邻成分分析的特征选择方法,其特征在于,包括以下步骤:
步骤(1):收集应用对象不同类别y1,y2,…,yC所对应的样本数据集X1,X2,…,XC,其中,C表示类别总数,第c类数据集包含m个特征的Nc个样本数据,c=1,2,…,C;
步骤(2):将数据集X1,X2,…,XC组成一个矩阵X∈RN×m,并对X按列实施标准化处理得到X=[x1,x2,…,xN]T∈RN×m从而消除各特征的量纲的影响,其中N=N1+N1+…+NC,xi∈Rm×1表示第i个样本数据,上标号T表示矩阵或向量的转置;
步骤(3):设置差分进化算法的参数,包括种群数nP=6m、缩放因子Z=0.6、最大迭代次数Imax≥2000、以及交叉概率p=0.1;
步骤(4):利任意初始化m×nP维的矩阵W=[w1,w2,…,wnP]后,置迭代次数iter=0与k=1;
步骤(5):取矩阵W中第k个列向量作为种群wk∈Rm×1后,根据公式dij=wk|xi-xj|计算矩阵中任意两样本点xi与xj之间的距离dij,其中|xi-xj|表示将向量xi-xj中的元素都取绝对值,下标号i,j=1,2,…,N;
步骤(6):根据如下所示公式计算xi选择xj作为其参考数据点的概率pij
步骤(7):根据公式fk=∑ijzijpij计算第k个种群wk对应的近邻成分分析目标函数fk,其中zij为二进制数且只在xi与xj属于同一种类时取值1;
步骤(8):判断是否满足条件k<N?若是,置k=k+1后返回步骤(5);若否,得到目标函数向量F=[f1,f2,…,fN]后找出F中最大值fbest所对应的种群wbest,并执行下一步骤(9);
步骤(9):根据如下所示公式为每个种群产生一个对应的变异向量vk
vk=wk+Z(wbest-wk)+Z(wa-wb) (2)
上式中,下标号a与b为从区间[1,nP]中随机产生的2个互不相同的整数;
步骤(10):按照如下所示公式对变异向量vk进行修正,即:
上式中,vk,n表示向量vk中的第n个元素,n=1,2,…,m;
步骤(11):根据如下所示公式产生尝试向量uk∈Rm×1,即:
其中,uk,n与wk,n分别为uk与wk中第n个元素,向量rand∈Rm×1中各元素都是0到1之间均匀分布的任意随机小数,randn则为随机向量rand中的第n个元素;
步骤(12):依据如下所示公式更新种群wk,即:
上式中,h(uk)表示将uk作为种群wk的替换值后计算得到的目标函数值;
步骤(13):重复步骤(9)~(12)直至所有种群都更新完毕以得到新矩阵W,并置iter=iter+1;
步骤(14):判断是否满足条件iter>Imax?若否,返回步骤(5)继续执行;若是,则输出最大目标函数fbest所对应的种群wbest,即为各个特征的相应权重系数;
步骤(15):根据wbest∈Rm×1中各个元素的具体数值大小,将接近于0的元素所对应的特征剔除,那么剩余的特征即为特征选择后的结果。
CN201810233510.1A 2018-03-06 2018-03-06 一种基于差分进化优化近邻成分分析的特征选择方法 Withdrawn CN108446735A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810233510.1A CN108446735A (zh) 2018-03-06 2018-03-06 一种基于差分进化优化近邻成分分析的特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810233510.1A CN108446735A (zh) 2018-03-06 2018-03-06 一种基于差分进化优化近邻成分分析的特征选择方法

Publications (1)

Publication Number Publication Date
CN108446735A true CN108446735A (zh) 2018-08-24

Family

ID=63196015

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810233510.1A Withdrawn CN108446735A (zh) 2018-03-06 2018-03-06 一种基于差分进化优化近邻成分分析的特征选择方法

Country Status (1)

Country Link
CN (1) CN108446735A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109407649A (zh) * 2018-10-09 2019-03-01 宁波大学 一种基于故障特征变量选择的故障类型匹配方法
CN109636487A (zh) * 2019-01-14 2019-04-16 平安科技(深圳)有限公司 广告推送方法、服务器、计算机设备及存储介质
CN113177608A (zh) * 2021-05-21 2021-07-27 河南大学 一种针对不完整数据的近邻模型特征选择方法及装置
CN113191616A (zh) * 2021-04-18 2021-07-30 宁波大学科学技术学院 一种基于双层相关特征分析的聚丙烯产品质量异常检测方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109407649A (zh) * 2018-10-09 2019-03-01 宁波大学 一种基于故障特征变量选择的故障类型匹配方法
CN109636487A (zh) * 2019-01-14 2019-04-16 平安科技(深圳)有限公司 广告推送方法、服务器、计算机设备及存储介质
CN109636487B (zh) * 2019-01-14 2023-09-29 平安科技(深圳)有限公司 广告推送方法、服务器、计算机设备及存储介质
CN113191616A (zh) * 2021-04-18 2021-07-30 宁波大学科学技术学院 一种基于双层相关特征分析的聚丙烯产品质量异常检测方法
CN113191616B (zh) * 2021-04-18 2023-01-24 宁波大学科学技术学院 一种基于双层相关特征分析的聚丙烯产品质量异常检测方法
CN113177608A (zh) * 2021-05-21 2021-07-27 河南大学 一种针对不完整数据的近邻模型特征选择方法及装置
CN113177608B (zh) * 2021-05-21 2023-09-05 河南大学 一种针对不完整数据的近邻模型特征选择方法及装置

Similar Documents

Publication Publication Date Title
CN108446735A (zh) 一种基于差分进化优化近邻成分分析的特征选择方法
CN102521656B (zh) 非平衡样本分类的集成迁移学习方法
CN104536412B (zh) 基于指标预报和解相似度分析的光刻工序动态调度方法
CN111191732A (zh) 一种基于全自动学习的目标检测方法
CN109214449A (zh) 一种电网投资需求预测方法
CN105373606A (zh) 一种改进c4.5决策树算法下的不平衡数据抽样方法
CN105929690B (zh) 一种基于分解多目标进化算法的柔性车间鲁棒调度方法
CN103886330A (zh) 基于半监督svm集成学习的分类方法
CN112685504B (zh) 一种面向生产过程的分布式迁移图学习方法
CN103617435A (zh) 一种主动学习图像分类方法和***
Shamrat et al. A comprehensive study on pre-pruning and post-pruning methods of decision tree classification algorithm
Febriantono et al. Classification of multiclass imbalanced data using cost-sensitive decision tree C5. 0
CN110751378A (zh) 一种核设施退役方案评价方法以及***
CN113392587A (zh) 一种大区域滑坡危险性评价的并行支持向量机分类方法
CN104966106A (zh) 一种基于支持向量机的生物年龄分步预测方法
CN107273922A (zh) 一种面向多源实例迁移学习的样本筛选和权重计算方法
CN111737924B (zh) 一种基于多源数据选取典型负荷特性变电站的方法
CN110084376B (zh) 对数据自动分箱的方法及装置
CN108805152A (zh) 一种场景分类方法及装置
CN108830407B (zh) 多工况条件下结构健康监测中的传感器分布优化方法
CN116993548A (zh) 基于增量学习的LightGBM-SVM的教育培训机构信用评估方法及***
CN110837853A (zh) 一种快速分类模型构建方法
CN116306785A (zh) 一种基于注意力机制的卷积长短期网络的学生成绩预测方法
CN116452373A (zh) 基于多目标遗传算法的街区建筑体量智能生成方法与***
CN115758462A (zh) 信创环境下实现敏感数据识别的方法、装置、处理器及其计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20180824