CN108446735A - 一种基于差分进化优化近邻成分分析的特征选择方法 - Google Patents
一种基于差分进化优化近邻成分分析的特征选择方法 Download PDFInfo
- Publication number
- CN108446735A CN108446735A CN201810233510.1A CN201810233510A CN108446735A CN 108446735 A CN108446735 A CN 108446735A CN 201810233510 A CN201810233510 A CN 201810233510A CN 108446735 A CN108446735 A CN 108446735A
- Authority
- CN
- China
- Prior art keywords
- feature
- vector
- population
- formula
- nca
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种基于差分进化优化近邻成分分析的特征选择方法,旨在解决如何从最优化的角度优化近邻成分分析(NCA)算法,从而得到最优的特征权重系数。本发明方法利用差分进化算法优化NCA算法的目标函数,从而得到全局最优的特征权重系数。相比于传统的NCA方法,利用差分进化算法来优化为NCA算法的目标函数,以保证最后的权重系数向量是全局最优结果而非局部最优。其次,本发明方法与传统NCA的不同之处在于未曾考虑包含规划化参数的目标函数,也就不需要确定规则化参数的大小。可以说,本发明发法是对传统NCA方法用于分类特征选择的一种完善策略。
Description
技术领域
本发明涉及一种特征选择方法,尤其涉及一种基于差分进化优化近邻成分分析的特征选择方法。
背景技术
近年来,数据挖掘方法在各行各业都得到了广泛的应,针对数据挖掘方法的理论研究与应用研究同样得到了广泛的关注。在工业信息化建设、金融领域、互联网行业,对数据挖掘与机器学习的研究投入了大量的人力与物力。特征选择在数据挖掘与机器学习中占有者重要的地位,它虽然不是某种特定的数据挖掘或机器学习算法,但是特征选择能显著地改善后续数据挖掘算法的性能。尤其是针对高维数据进行数据建模时,特征选择所能发挥出的积极作用是有目共睹的。以模式识别中常见的分类模型为例,模型的输入通常是高维的样本数据,而模型的输出则为各样本数据对应的类别标号。在应用相同的分类算法的前提下,采取与不采取输入数据特征选择在分类准确率上有着显著地差异。因为,实施特征选择后再建立分类模型时,能够剔除很多干扰信息的负面影响,从而提升分类模型的精度。
针对特征选择的研究,已有很多研究人员针对不同的对象、不同的问题提出了相应的解决思路。这其中,近邻成分分析(Neighborhood Component Analysis,NCA)是一种较新颖的特征选择算法,可专门用于分类建模前的特征选择。NCA通过1阶近邻的方式优化Leave-One-Out分类正确率,进而得到各个输入特征的权重系数。那么,权重系数接近于0的特征就是无用特征,可以予以剔除。然而,传统NCA方法的优化求解特征权重系数的过程很容易陷入局部最优,而且权重系数也容易出现过拟合现象。虽然,可通过引入规则化参数调整过拟合程度,但是如何选择该规则化参数目前只能依靠交叉验证的方式进行。因此,传统NCA算法的完善还有待进一步的研究。
发明内容
本发明所要解决的主要技术问题是:如何从最优化的角度优化NCA算法,从而得到最优的特征权重系数。具体来讲,本发明方法利用差分进化算法优化NCA算法的目标函数,从而得到全局最优的特征权重系数。
本发明解决上述技术问题所采用的技术方案为:一种基于差分进化优化近邻成分分析的特征选择方法,包括以下步骤:
(1)收集应用对象不同类别y1,y2,…,yC所对应的样本数据集X1,X2,…,XC,其中,C表示类别总数,第c类数据集包含m个特征的Nc个样本数据,c=1,2,…,C。
(2)将数据集X1,X2,…,XC组成一个矩阵X∈RN×m,并对X按列实施标准化处理得到X=[x1,x2,…,xN]T∈RN×m从而消除各特征的量纲的影响,其中N=N1+N1+…+NC,xi∈Rm×1表示第i个样本数据。
(3)设置差分进化算法的参数,包括种群数nP=6m、缩放因子Z=0.6、最大迭代次数Imax≥2000、以及交叉概率p=0.1。
(4)任意初始化m×nP维的矩阵W=[w1,w2,…,wnP]后,置迭代次数iter=0与k=1。
(5)取矩阵W中第k个列向量作为种群wk∈Rm×1后,根据公式dij=wk|xi-xj|计算矩阵中任意两样本点xi与xj之间的距离dij,其中|xi-xj|表示将向量xi-xj中的元素都取绝对值,下标号i,j=1,2,…,N。
(6)根据如下所示公式计算xi选择xj作为其参考数据点的概率pij:
(7)根据公式fk=∑i∑jzijpij计算第k个种群wk对应的目标函数fk,其中zij为二进制数且只在xi与xj属于同一种类时取值1。
(8)判断是否满足条件k<N?若是,置k=k+1后返回步骤(5);若否,得到目标函数向量F=[f1,f2,…,fN]后找出F中最大值fbest所对应的种群wbest,并执行下一步骤(9)。
(9)根据如下所示公式为每个种群产生一个对应的变异向量vk:
vk=wk+Z(wbest-wk)+Z(wa-wb) (2)
上式中,下标号a与b为从区间[1,nP]中随机产生的2个互不相同的整数。
(10)按照如下所示公式对变异向量vk进行修正,即;
其中,vk,n表示向量vk中的第n个元素,n=1,2,…,m。
(11)根据如下所示公式产生尝试向量uk∈Rm×1,即:
其中,uk,n与wk,n分别为uk与wk中第n个元素,向量rand∈Rm×1中各元素都是0到1之间均匀分布的任意随机小数,randn则为随机向量rand中的第n个元素。
(12)依据如下所示公式更新种群wk,即:
上式中,h(uk)表示将uk作为种群wk的替换值后计算得到的目标函数值。
(13)重复步骤(9)~(12)直至所有种群都更新完毕以得到新矩阵W,并置iter=iter+1。
(14)判断是否满足条件iter>Imax?若否,返回步骤(5)继续执行;若是,则输出最大目标函数fbest所对应的种群wbest,即为各个特征的相应权重系数。
(15)根据wbest∈Rm×1中各个元素的具体数值大小,将接近于0的元素所对应的特征剔除,那么剩余的特征即为特征选择后的结果。
与传统方法相比,本发明方法的优势在于:
首先,本发明方法利用差分进化算法来优化NCA算法的目标函数,以保证最后的权重系数向量是全局最优结果而非局部最优。其次,本发明方法与传统NCA的不同之处在于未曾考虑包含规划化参数的目标函数,也就不需要确定规则化参数的大小。可以说,本发明发法是对传统NCA方法用于分类特征选择的一种完善策略。
附图说明
图1为本发明方法的实施流程图。
图2为本发明方法的特征选择结果示意图。
具体实施方式
下面结合附图与具体的实施案例对本发明方法进行详细的说明。
如图1所示,本发明公开一种基于差分进化优化近邻成分分析的特征选择方法。下面设计一个两分类的数值案例验证本发明方法的有效性。
随机产生一个500×20维的在区间[0,1]之间均匀分布的数据集X,将数据集X中满足条件X3·X9/X15<0.4的样本的类别标号设置成y1=1,而其他不满足条件的样本的类别标号设置成y2=2。
(1)上述训练数据集由两类样本数据组成,特征选择的结果理应选择数据集X中第3、9、和15列所对应的特征,下面继续实施本发明方法。
(2)对X按列实施标准化处理得到X=[x1,x2,…,x500]T∈R500×20从而消除各特征的量纲的影响。
(3)设置差分进化算法的参数,包括种群数nP=120、缩放因子Z=0.6、最大迭代次数Imax=2000、以及交叉概率p=0.1。
(4)利任意初始化m×nP维的矩阵W=[w1,w2,…,wnP]后,置迭代次数iter=0与k=1。
(5)取矩阵W中第k个列向量作为种群wk∈Rm×1后,根据公式dij=wk|xi-xj|计算矩阵中任意两样本点xi与xj之间的距离dij。
(6)计算xi选择xj作为其参考数据点的概率pij。
(7)根据公式fk=∑i∑jzijpij计算第k个种群wk对应的目标函数fk。
(8)判断是否满足条件k<500?若是,置k=k+1后返回步骤(5);若否,得到目标函数向量F=[f1,f2,…,f500]后找出F中最大值fbest所对应的种群wbest,并执行下一步骤(9)。
(9)为每个种群产生一个对应的变异向量vk。
(10)对变异向量vk进行修正。
(11)根据如下所示公式产生尝试向量uk∈Rm×1,即:
(12)更新种群wk。
(13)重复步骤(9)~(12)直至所有种群都更新完毕以得到新矩阵W,并置iter=iter+1。
(14)判断是否满足条件iter>Imax?若否,返回步骤(5)继续执行;若是,则输出最大目标函数fbest所对应的种群wbest,即为各个特征的相应权重系数。
(15)根据wbest∈R33×1中各个元素的具体数值大小,将接近于0的元素所对应的特征剔除,那么剩余的特征即为特征选择后的结果。
如图2所示,各个特征对应的加权系数散点图,从图中可以发现本发明方法正确地选择出了相应的特征。
上述实施案例只用来解释说明本发明的具体实施,而不是对本发明进行限制。在本发明的精神和权利要求的保护范围内,对本发明做出的任何修改,都落入本发明的保护范围。
Claims (1)
1.一种基于差分进化优化近邻成分分析的特征选择方法,其特征在于,包括以下步骤:
步骤(1):收集应用对象不同类别y1,y2,…,yC所对应的样本数据集X1,X2,…,XC,其中,C表示类别总数,第c类数据集包含m个特征的Nc个样本数据,c=1,2,…,C;
步骤(2):将数据集X1,X2,…,XC组成一个矩阵X∈RN×m,并对X按列实施标准化处理得到X=[x1,x2,…,xN]T∈RN×m从而消除各特征的量纲的影响,其中N=N1+N1+…+NC,xi∈Rm×1表示第i个样本数据,上标号T表示矩阵或向量的转置;
步骤(3):设置差分进化算法的参数,包括种群数nP=6m、缩放因子Z=0.6、最大迭代次数Imax≥2000、以及交叉概率p=0.1;
步骤(4):利任意初始化m×nP维的矩阵W=[w1,w2,…,wnP]后,置迭代次数iter=0与k=1;
步骤(5):取矩阵W中第k个列向量作为种群wk∈Rm×1后,根据公式dij=wk|xi-xj|计算矩阵中任意两样本点xi与xj之间的距离dij,其中|xi-xj|表示将向量xi-xj中的元素都取绝对值,下标号i,j=1,2,…,N;
步骤(6):根据如下所示公式计算xi选择xj作为其参考数据点的概率pij:
步骤(7):根据公式fk=∑i∑jzijpij计算第k个种群wk对应的近邻成分分析目标函数fk,其中zij为二进制数且只在xi与xj属于同一种类时取值1;
步骤(8):判断是否满足条件k<N?若是,置k=k+1后返回步骤(5);若否,得到目标函数向量F=[f1,f2,…,fN]后找出F中最大值fbest所对应的种群wbest,并执行下一步骤(9);
步骤(9):根据如下所示公式为每个种群产生一个对应的变异向量vk:
vk=wk+Z(wbest-wk)+Z(wa-wb) (2)
上式中,下标号a与b为从区间[1,nP]中随机产生的2个互不相同的整数;
步骤(10):按照如下所示公式对变异向量vk进行修正,即:
上式中,vk,n表示向量vk中的第n个元素,n=1,2,…,m;
步骤(11):根据如下所示公式产生尝试向量uk∈Rm×1,即:
其中,uk,n与wk,n分别为uk与wk中第n个元素,向量rand∈Rm×1中各元素都是0到1之间均匀分布的任意随机小数,randn则为随机向量rand中的第n个元素;
步骤(12):依据如下所示公式更新种群wk,即:
上式中,h(uk)表示将uk作为种群wk的替换值后计算得到的目标函数值;
步骤(13):重复步骤(9)~(12)直至所有种群都更新完毕以得到新矩阵W,并置iter=iter+1;
步骤(14):判断是否满足条件iter>Imax?若否,返回步骤(5)继续执行;若是,则输出最大目标函数fbest所对应的种群wbest,即为各个特征的相应权重系数;
步骤(15):根据wbest∈Rm×1中各个元素的具体数值大小,将接近于0的元素所对应的特征剔除,那么剩余的特征即为特征选择后的结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810233510.1A CN108446735A (zh) | 2018-03-06 | 2018-03-06 | 一种基于差分进化优化近邻成分分析的特征选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810233510.1A CN108446735A (zh) | 2018-03-06 | 2018-03-06 | 一种基于差分进化优化近邻成分分析的特征选择方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108446735A true CN108446735A (zh) | 2018-08-24 |
Family
ID=63196015
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810233510.1A Withdrawn CN108446735A (zh) | 2018-03-06 | 2018-03-06 | 一种基于差分进化优化近邻成分分析的特征选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108446735A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109407649A (zh) * | 2018-10-09 | 2019-03-01 | 宁波大学 | 一种基于故障特征变量选择的故障类型匹配方法 |
CN109636487A (zh) * | 2019-01-14 | 2019-04-16 | 平安科技(深圳)有限公司 | 广告推送方法、服务器、计算机设备及存储介质 |
CN113177608A (zh) * | 2021-05-21 | 2021-07-27 | 河南大学 | 一种针对不完整数据的近邻模型特征选择方法及装置 |
CN113191616A (zh) * | 2021-04-18 | 2021-07-30 | 宁波大学科学技术学院 | 一种基于双层相关特征分析的聚丙烯产品质量异常检测方法 |
-
2018
- 2018-03-06 CN CN201810233510.1A patent/CN108446735A/zh not_active Withdrawn
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109407649A (zh) * | 2018-10-09 | 2019-03-01 | 宁波大学 | 一种基于故障特征变量选择的故障类型匹配方法 |
CN109636487A (zh) * | 2019-01-14 | 2019-04-16 | 平安科技(深圳)有限公司 | 广告推送方法、服务器、计算机设备及存储介质 |
CN109636487B (zh) * | 2019-01-14 | 2023-09-29 | 平安科技(深圳)有限公司 | 广告推送方法、服务器、计算机设备及存储介质 |
CN113191616A (zh) * | 2021-04-18 | 2021-07-30 | 宁波大学科学技术学院 | 一种基于双层相关特征分析的聚丙烯产品质量异常检测方法 |
CN113191616B (zh) * | 2021-04-18 | 2023-01-24 | 宁波大学科学技术学院 | 一种基于双层相关特征分析的聚丙烯产品质量异常检测方法 |
CN113177608A (zh) * | 2021-05-21 | 2021-07-27 | 河南大学 | 一种针对不完整数据的近邻模型特征选择方法及装置 |
CN113177608B (zh) * | 2021-05-21 | 2023-09-05 | 河南大学 | 一种针对不完整数据的近邻模型特征选择方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108446735A (zh) | 一种基于差分进化优化近邻成分分析的特征选择方法 | |
CN102521656B (zh) | 非平衡样本分类的集成迁移学习方法 | |
CN104536412B (zh) | 基于指标预报和解相似度分析的光刻工序动态调度方法 | |
CN111191732A (zh) | 一种基于全自动学习的目标检测方法 | |
CN109214449A (zh) | 一种电网投资需求预测方法 | |
CN105373606A (zh) | 一种改进c4.5决策树算法下的不平衡数据抽样方法 | |
CN105929690B (zh) | 一种基于分解多目标进化算法的柔性车间鲁棒调度方法 | |
CN103886330A (zh) | 基于半监督svm集成学习的分类方法 | |
CN112685504B (zh) | 一种面向生产过程的分布式迁移图学习方法 | |
CN103617435A (zh) | 一种主动学习图像分类方法和*** | |
Shamrat et al. | A comprehensive study on pre-pruning and post-pruning methods of decision tree classification algorithm | |
Febriantono et al. | Classification of multiclass imbalanced data using cost-sensitive decision tree C5. 0 | |
CN110751378A (zh) | 一种核设施退役方案评价方法以及*** | |
CN113392587A (zh) | 一种大区域滑坡危险性评价的并行支持向量机分类方法 | |
CN104966106A (zh) | 一种基于支持向量机的生物年龄分步预测方法 | |
CN107273922A (zh) | 一种面向多源实例迁移学习的样本筛选和权重计算方法 | |
CN111737924B (zh) | 一种基于多源数据选取典型负荷特性变电站的方法 | |
CN110084376B (zh) | 对数据自动分箱的方法及装置 | |
CN108805152A (zh) | 一种场景分类方法及装置 | |
CN108830407B (zh) | 多工况条件下结构健康监测中的传感器分布优化方法 | |
CN116993548A (zh) | 基于增量学习的LightGBM-SVM的教育培训机构信用评估方法及*** | |
CN110837853A (zh) | 一种快速分类模型构建方法 | |
CN116306785A (zh) | 一种基于注意力机制的卷积长短期网络的学生成绩预测方法 | |
CN116452373A (zh) | 基于多目标遗传算法的街区建筑体量智能生成方法与*** | |
CN115758462A (zh) | 信创环境下实现敏感数据识别的方法、装置、处理器及其计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20180824 |