CN108805159A - 一种基于过滤法和遗传算法的高维数据特征选择方法 - Google Patents

一种基于过滤法和遗传算法的高维数据特征选择方法 Download PDF

Info

Publication number
CN108805159A
CN108805159A CN201810344521.7A CN201810344521A CN108805159A CN 108805159 A CN108805159 A CN 108805159A CN 201810344521 A CN201810344521 A CN 201810344521A CN 108805159 A CN108805159 A CN 108805159A
Authority
CN
China
Prior art keywords
feature
genetic algorithm
population
high dimensional
dimensional data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810344521.7A
Other languages
English (en)
Inventor
葛瑞泉
马浙萍
吴卿
邬惠峰
徐岗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201810344521.7A priority Critical patent/CN108805159A/zh
Publication of CN108805159A publication Critical patent/CN108805159A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2111Selection of the most significant subset of features by using evolutionary computational techniques, e.g. genetic algorithms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Physiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于过滤法和遗传算法的高维数据特征选择方法。传统的特征选择方法存在容易陷入局部最优、删除有用特征概率高等局限性,不适用于高维、小样本数据。本发明首先采用最大信息系数计算输入数据的特征与类标之间的相关性;接着,根据相关性的值对特征进行降序排序,设置阈值,删除弱相关的特征;最后对剩余的强相关特征采用遗传算法进行随机搜索优化得到最优特征子集。本发明能够有效地对高维数据进行特征选择,实现降维,特征选择的结果对样本类别判定具有重要意义,当应用于基因表达谱数据时,选择出来的特征同时还具有重要的生物意义。

Description

一种基于过滤法和遗传算法的高维数据特征选择方法
技术领域
本发明属于数据挖掘技术领域,涉及一种基于过滤法和遗传算法的高维数据特征选择方法。
背景技术
数据收集和存储技术的进步使得各组织机构积累了海量数据,如何从中提取出有用的信息成为当前的巨大挑战。高维数据一般具有数据稀疏性和维数灾难等特点。高维数据大多数为零少数有值的稀疏性特点使得直接对数据进行分析挖掘具有一定的困难。随着数据维度(属性)的增加,计算量呈指数倍增长,从而产生了维度灾难。通过对高维数据进行有效的特征选择,选取对识别或分类有效的特征,从而简化计算。目前,有基于过滤法、包装法和嵌入法的特征选择方法。基于过滤法的特征选择是根据发散性或相关性对各个特征进行评分,设定阈值,选择特征;基于包装法的特征选择是根据目标函数(通常是根据预测效果评分),每次选择若干特征或者排除若干特征;基于嵌入法的特征选择是先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据权值系数从小到大进行特征选择,其在局部空间中进行最优特征选择,效果相对有限。
上述所介绍的方法存在容易陷入局部最优、删除有用特征概率高等局限性,不适用于高维、小样本数据的特征选择。
发明内容
本发明的目的是针对现有的对高维、小样本数据的特征选择的需求,提出一种基于过滤法和遗传算法结合的特征选择方法。该方法采用基于最大信息系数(the maximalinformation coefficient,简写MIC)(见DN,R.,et al.的论文Detecting novelassociations in large data sets.Science(New York,N.Y.),2011.334(6062))计算相关性的过滤法,删除大量冗余特征,达到提高后续方法的效率,其中最大信息系数是基于互信息的,它可以识别线性和非线性函数关系,相比互信息具有更高准确率。另外,我们采用遗传算法进行特征搜索优化,获得规模相对较小的特征子集,同时保持较高分类准确率。
一种基于过滤法和遗传算法的高维数据特征选择方法,该方法的具体步骤如下:
步骤1、输入基因表达谱数据样本,数据样本包含患病人群和正常人群,数据样本属性是基因表达谱特征,又叫探针;;
步骤2、应用最大信息系数计算各基因表达谱特征与类标之间的相关性;
步骤3、根据MIC值对特征进行降序排序,设置阈值,删除弱相关的特征;
步骤4、对剩余的强相关特征采用遗传算法进行随机搜索优化得到最优特征子集。
所述的遗传算法采用MATLAB中的ga函数,设计ga函数中的适应度函数为公式(1):
FitVal=0.1*sum(chrom)+(1-Accuracy) (1)
其中chrom是一条由0、1组成的染色体,代表一个种群,0代表该种群不拥有此特征,1代表该种群拥有此特征,chrom长度为特征总数;sum(chrom)是指每个种群所拥有的特征数量,Accuracy是根据每个种群所选的特征进行分类建模得到的预测准确率。
所述的分类建模使用二分类器SVM,根据每个种群的特征子集对样本进行分类建模,使用FitVal评价效果。
所述的应用最大信息系数计算各基因表达谱特征与类标之间的相关性,具体如下:首先将一列基因表达谱特征记成向量X,一列类标记成向量Y,X中的一个x标量对应Y中的一个y标量组成一个样本;将所有样本化成散点图,然后根据给定网格行列分多种不同的网格去分割散点图,计算散点落入每个网格的概率为p(x,y),散点落入一列网格的概率为p(x),散点落入一行网格的概率为p(y);计算散点落入每个网格的概率,根据公式(2)计算在该种方案下的互信息值,比较各方案的互信息值,得到最大互信息值;继续用行列不同的网格重复上述步骤,比较多种行列不同的网格所得的最大互信息值,从中挑选出最大的值,即为最大信息系数;
本发明的有益效果:
本发明解决了传统算法中过滤法大量删除特征时可能删除有用特征的问题,同时解决了包装法时间计算开销大,不适用高维数据的问题,是一种比较适用于高维数据集同时保持较高准确率的方法。
附图说明
图1为本发明的算法总流程图;
图2为本发明的MIC流程图;
图3为本发明的遗传算法流程图;
图4为Gastric1(胃癌)数据集通过本发明得到的特征子集规模示意图;
图5为Gastric1(胃癌)数据集通过本发明得到的特征子集,通过支持向量机(Support Vector Machine,简写SVM)分类建模再预测得到的分类准确率示意图。
具体实施方式
本实施例中没有详细说明的部分请参照发明内容的描述。
如图1所示,一种基于过滤法和遗传算法的高维数据特征选择方法,具体步骤如下:
步骤1、输入数据集Gastric1,样本数量为144,特征数量22283,其中非贲门胃癌样本数量为72,正常样本数量为72。Gastric1(accession:GSE29272)在the NCBI GeneExpression Omnibus(GEO)database中下载。
步骤2、利用最大信息系数(MIC)计算各基因表达谱特征与类标之间的相关性。首先将一列基因表达谱特征记成向量X,一列类标记成向量Y,X中的一个x标量对应Y中的一个y标量组成一个样本。将样本化成散点图,然后根据给定网格行列分多种不同的网格去分割散点图,计算散点落入每个网格的概率,根据公式(2)计算在该种方案下的互信息值,比较各方案的互信息值,得到最大互信息值。继续用行列不同的网格重复上述步骤,比较多种行列不同的网格所得的最大互信息值,从中挑选出最大的值,即为最大信息系数,MIC计算流程图见图2。
步骤3、根据MIC值对特征进行降序排序,设置阈值,删除弱相关的特征。
步骤4、对剩余的强相关特征采用遗传算法进行随机搜索优化得到最优特征子集。本方法希望在选择较少的特征数的同时获得较高的分类准确性。因此,设计遗传算法适应度函数为公式(1):
FitVal=0.1*sum(chrom)+(1-Accuracy) (1)
其中chrom是一条由0、1组成的染色体,代表一个种群,0代表该种群不拥有此特征,1代表该种群拥有此特征,chrom长度为特征总数。sum(chrom)是指每个种群所选特征数量,Accuracy是根据每个种群所选的特征进行分类建模得到的预测准确率。分类建模使用二分类器SVM,根据每个种群的特征子集对样本进行分类建模,使用FitVal评价效果。该适应度函数使所选的特征数尽可能少,同时使分类错误率尽可能低。遗传算法流程图见图3。
步骤5、以上四个步骤重复循环20次得到的特征子集规模示意图见图4,每次得到的特征子集,通过支持向量机(Support Vector Machine,简写SVM)分类建模再预测得到的分类准确率示意图见图5。

Claims (4)

1.一种基于过滤法和遗传算法的高维数据特征选择方法,其特征在于:该方法的具体步骤如下:
步骤1、输入基因表达谱数据样本,数据样本包含患病人群和正常人群,数据样本属性是基因表达谱特征,又叫探针;
步骤2、应用最大信息系数计算各基因表达谱特征与类标之间的相关性;
步骤3、根据MIC值对特征进行降序排序,设置阈值,删除弱相关的特征;
步骤4、对剩余的强相关特征采用遗传算法进行随机搜索优化得到最优特征子集。
2.根据权利要求1所述的一种基于过滤法和遗传算法的高维数据特征选择方法,其特征在于:所述的遗传算法采用MATLAB中的ga函数,设计ga函数中的适应度函数为公式(1):
FitVal=0.1*sum(chrom)+(1-Accuracy) (1)
其中chrom是一条由0、1组成的染色体,代表一个种群,0代表该种群不拥有此特征,1代表该种群拥有此特征,chrom长度为特征总数;sum(chrom)是指每个种群所拥有的特征数量,Accuracy是根据每个种群所选的特征进行分类建模得到的预测准确率。
3.根据权利要求2所述的一种基于过滤法和遗传算法的高维数据特征选择方法,其特征在于:所述的分类建模使用二分类器SVM,根据每个种群的特征子集对样本进行分类建模,使用FitVal评价效果。
4.根据权利要求1所述的一种基于过滤法和遗传算法的高维数据特征选择方法,其特征在于:所述的应用最大信息系数计算各基因表达谱特征与类标之间的相关性,具体如下:首先将一列基因表达谱特征记成向量X,一列类标记成向量Y,X中的一个x标量对应Y中的一个y标量组成一个样本;将所有样本化成散点图,然后根据给定网格行列分多种不同的网格去分割散点图,计算散点落入每个网格的概率为p(x,y),散点落入一列网格的概率为p(x),散点落入一行网格的概率为p(y);计算散点落入每个网格的概率,根据公式(2)计算在该种方案下的互信息值,比较各方案的互信息值,得到最大互信息值;继续用行列不同的网格重复上述步骤,比较多种行列不同的网格所得的最大互信息值,从中挑选出最大的值,即为最大信息系数;
CN201810344521.7A 2018-04-17 2018-04-17 一种基于过滤法和遗传算法的高维数据特征选择方法 Pending CN108805159A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810344521.7A CN108805159A (zh) 2018-04-17 2018-04-17 一种基于过滤法和遗传算法的高维数据特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810344521.7A CN108805159A (zh) 2018-04-17 2018-04-17 一种基于过滤法和遗传算法的高维数据特征选择方法

Publications (1)

Publication Number Publication Date
CN108805159A true CN108805159A (zh) 2018-11-13

Family

ID=64094333

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810344521.7A Pending CN108805159A (zh) 2018-04-17 2018-04-17 一种基于过滤法和遗传算法的高维数据特征选择方法

Country Status (1)

Country Link
CN (1) CN108805159A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210529A (zh) * 2019-05-14 2019-09-06 浙江大学 一种基于二进制量子粒子群算法的特征选择方法
WO2020118743A1 (zh) * 2018-12-14 2020-06-18 深圳先进技术研究院 数据特征提取方法、装置及电子设备
CN112348168A (zh) * 2020-10-27 2021-02-09 国网四川省电力公司经济技术研究院 考虑数据缺失和特征冗余的超短期负荷预测方法及***
CN112528554A (zh) * 2020-11-17 2021-03-19 中国运载火箭技术研究院 一种适于多发多源火箭试验数据的数据融合方法及***

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020118743A1 (zh) * 2018-12-14 2020-06-18 深圳先进技术研究院 数据特征提取方法、装置及电子设备
CN111325227A (zh) * 2018-12-14 2020-06-23 深圳先进技术研究院 数据特征提取方法、装置及电子设备
CN111325227B (zh) * 2018-12-14 2023-04-07 深圳先进技术研究院 数据特征提取方法、装置及电子设备
CN110210529A (zh) * 2019-05-14 2019-09-06 浙江大学 一种基于二进制量子粒子群算法的特征选择方法
CN112348168A (zh) * 2020-10-27 2021-02-09 国网四川省电力公司经济技术研究院 考虑数据缺失和特征冗余的超短期负荷预测方法及***
CN112348168B (zh) * 2020-10-27 2023-04-07 国网四川省电力公司经济技术研究院 考虑数据缺失和特征冗余的超短期负荷预测方法及***
CN112528554A (zh) * 2020-11-17 2021-03-19 中国运载火箭技术研究院 一种适于多发多源火箭试验数据的数据融合方法及***

Similar Documents

Publication Publication Date Title
CN108805159A (zh) 一种基于过滤法和遗传算法的高维数据特征选择方法
Gonbadi et al. Supervised geochemical anomaly detection by pattern recognition
CN104050242B (zh) 基于最大信息系数的特征选择、分类方法及其装置
CN104484681B (zh) 基于空间信息和集成学习的高光谱遥感影像分类方法
CN107103332A (zh) 一种面向大规模数据集的相关向量机分类方法
CN105825078B (zh) 基于基因大数据的小样本基因表达数据分类方法
CN105930862A (zh) 一种基于密度自适应距离的密度峰聚类算法
CN107368807A (zh) 一种基于视觉词袋模型的监控视频车型分类方法
Witten et al. Supervised multidimensional scaling for visualization, classification, and bipartite ranking
CN105550715A (zh) 一种基于近邻传播聚类的集成分类器构建方法
CN106991296A (zh) 基于随机化贪心特征选择的集成分类方法
CN106339416A (zh) 基于网格快速搜寻密度峰值的数据聚类方法
CN110837884B (zh) 基于改进的二元磷虾群算法和信息增益算法的有效混合特征选择方法
CN106971091A (zh) 一种基于确定性粒子群优化和支持向量机的肿瘤识别方法
CN105183792B (zh) 一种基于局部敏感哈希的分布式快速文本分类方法
CN102819688A (zh) 基于半监督分类的二维地震数据全层位追踪方法
CN111368936A (zh) 基于改进svm-rfe的特征选择方法
CN110210529A (zh) 一种基于二进制量子粒子群算法的特征选择方法
CN103631753A (zh) 递减子空间集成学习算法
CN106548041A (zh) 一种基于先验信息和并行二进制微粒群算法的肿瘤关键基因识别方法
CN111275127B (zh) 基于条件互信息的动态特征选择方法
CN116612307A (zh) 一种基于迁移学习的茄科病害等级识别方法
CN103793600A (zh) 结合独立分量分析和线性判别分析的癌症预测方法
Sharma et al. Strategy of finding optimal number of features on gene expression data
CN111709460A (zh) 基于相关系数的互信息特征选择方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181113