CN108805159A

CN108805159A - 一种基于过滤法和遗传算法的高维数据特征选择方法

Info

Publication number: CN108805159A
Application number: CN201810344521.7A
Authority: CN
Inventors: 葛瑞泉; 马浙萍; 吴卿; 邬惠峰; 徐岗
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2018-04-17
Filing date: 2018-04-17
Publication date: 2018-11-13

Abstract

本发明公开了一种基于过滤法和遗传算法的高维数据特征选择方法。传统的特征选择方法存在容易陷入局部最优、删除有用特征概率高等局限性，不适用于高维、小样本数据。本发明首先采用最大信息系数计算输入数据的特征与类标之间的相关性；接着，根据相关性的值对特征进行降序排序，设置阈值，删除弱相关的特征；最后对剩余的强相关特征采用遗传算法进行随机搜索优化得到最优特征子集。本发明能够有效地对高维数据进行特征选择，实现降维，特征选择的结果对样本类别判定具有重要意义，当应用于基因表达谱数据时，选择出来的特征同时还具有重要的生物意义。

Description

一种基于过滤法和遗传算法的高维数据特征选择方法

技术领域

本发明属于数据挖掘技术领域，涉及一种基于过滤法和遗传算法的高维数据特征选择方法。

背景技术

数据收集和存储技术的进步使得各组织机构积累了海量数据，如何从中提取出有用的信息成为当前的巨大挑战。高维数据一般具有数据稀疏性和维数灾难等特点。高维数据大多数为零少数有值的稀疏性特点使得直接对数据进行分析挖掘具有一定的困难。随着数据维度(属性)的增加，计算量呈指数倍增长，从而产生了维度灾难。通过对高维数据进行有效的特征选择，选取对识别或分类有效的特征，从而简化计算。目前，有基于过滤法、包装法和嵌入法的特征选择方法。基于过滤法的特征选择是根据发散性或相关性对各个特征进行评分，设定阈值，选择特征；基于包装法的特征选择是根据目标函数(通常是根据预测效果评分)，每次选择若干特征或者排除若干特征；基于嵌入法的特征选择是先使用某些机器学习的算法和模型进行训练，得到各个特征的权值系数，根据权值系数从小到大进行特征选择，其在局部空间中进行最优特征选择，效果相对有限。

上述所介绍的方法存在容易陷入局部最优、删除有用特征概率高等局限性，不适用于高维、小样本数据的特征选择。

发明内容

本发明的目的是针对现有的对高维、小样本数据的特征选择的需求，提出一种基于过滤法和遗传算法结合的特征选择方法。该方法采用基于最大信息系数(the maximalinformation coefficient，简写MIC)(见DN,R.,et al.的论文Detecting novelassociations in large data sets.Science(New York,N.Y.),2011.334(6062))计算相关性的过滤法，删除大量冗余特征，达到提高后续方法的效率，其中最大信息系数是基于互信息的，它可以识别线性和非线性函数关系，相比互信息具有更高准确率。另外，我们采用遗传算法进行特征搜索优化，获得规模相对较小的特征子集，同时保持较高分类准确率。

一种基于过滤法和遗传算法的高维数据特征选择方法，该方法的具体步骤如下：

步骤1、输入基因表达谱数据样本，数据样本包含患病人群和正常人群，数据样本属性是基因表达谱特征，又叫探针；；

步骤2、应用最大信息系数计算各基因表达谱特征与类标之间的相关性；

步骤3、根据MIC值对特征进行降序排序，设置阈值，删除弱相关的特征；

步骤4、对剩余的强相关特征采用遗传算法进行随机搜索优化得到最优特征子集。

所述的遗传算法采用MATLAB中的ga函数，设计ga函数中的适应度函数为公式(1)：

FitVal＝0.1*sum(chrom)+(1-Accuracy) (1)

其中chrom是一条由0、1组成的染色体，代表一个种群，0代表该种群不拥有此特征，1代表该种群拥有此特征，chrom长度为特征总数；sum(chrom)是指每个种群所拥有的特征数量，Accuracy是根据每个种群所选的特征进行分类建模得到的预测准确率。

所述的分类建模使用二分类器SVM，根据每个种群的特征子集对样本进行分类建模，使用FitVal评价效果。

所述的应用最大信息系数计算各基因表达谱特征与类标之间的相关性，具体如下：首先将一列基因表达谱特征记成向量X，一列类标记成向量Y，X中的一个x标量对应Y中的一个y标量组成一个样本；将所有样本化成散点图，然后根据给定网格行列分多种不同的网格去分割散点图，计算散点落入每个网格的概率为p(x,y)，散点落入一列网格的概率为p(x)，散点落入一行网格的概率为p(y)；计算散点落入每个网格的概率，根据公式(2)计算在该种方案下的互信息值，比较各方案的互信息值，得到最大互信息值；继续用行列不同的网格重复上述步骤，比较多种行列不同的网格所得的最大互信息值，从中挑选出最大的值，即为最大信息系数；

本发明的有益效果：

本发明解决了传统算法中过滤法大量删除特征时可能删除有用特征的问题，同时解决了包装法时间计算开销大，不适用高维数据的问题，是一种比较适用于高维数据集同时保持较高准确率的方法。

附图说明

图1为本发明的算法总流程图；

图2为本发明的MIC流程图；

图3为本发明的遗传算法流程图；

图4为Gastric1(胃癌)数据集通过本发明得到的特征子集规模示意图；

图5为Gastric1(胃癌)数据集通过本发明得到的特征子集，通过支持向量机(Support Vector Machine，简写SVM)分类建模再预测得到的分类准确率示意图。

具体实施方式

本实施例中没有详细说明的部分请参照发明内容的描述。

如图1所示，一种基于过滤法和遗传算法的高维数据特征选择方法，具体步骤如下：

步骤1、输入数据集Gastric1，样本数量为144，特征数量22283，其中非贲门胃癌样本数量为72，正常样本数量为72。Gastric1(accession:GSE29272)在the NCBI GeneExpression Omnibus(GEO)database中下载。

步骤2、利用最大信息系数(MIC)计算各基因表达谱特征与类标之间的相关性。首先将一列基因表达谱特征记成向量X，一列类标记成向量Y，X中的一个x标量对应Y中的一个y标量组成一个样本。将样本化成散点图，然后根据给定网格行列分多种不同的网格去分割散点图，计算散点落入每个网格的概率，根据公式(2)计算在该种方案下的互信息值，比较各方案的互信息值，得到最大互信息值。继续用行列不同的网格重复上述步骤，比较多种行列不同的网格所得的最大互信息值，从中挑选出最大的值，即为最大信息系数，MIC计算流程图见图2。

步骤3、根据MIC值对特征进行降序排序，设置阈值，删除弱相关的特征。

步骤4、对剩余的强相关特征采用遗传算法进行随机搜索优化得到最优特征子集。本方法希望在选择较少的特征数的同时获得较高的分类准确性。因此，设计遗传算法适应度函数为公式(1)：

FitVal＝0.1*sum(chrom)+(1-Accuracy) (1)

其中chrom是一条由0、1组成的染色体，代表一个种群，0代表该种群不拥有此特征，1代表该种群拥有此特征，chrom长度为特征总数。sum(chrom)是指每个种群所选特征数量，Accuracy是根据每个种群所选的特征进行分类建模得到的预测准确率。分类建模使用二分类器SVM，根据每个种群的特征子集对样本进行分类建模，使用FitVal评价效果。该适应度函数使所选的特征数尽可能少，同时使分类错误率尽可能低。遗传算法流程图见图3。

步骤5、以上四个步骤重复循环20次得到的特征子集规模示意图见图4，每次得到的特征子集，通过支持向量机(Support Vector Machine，简写SVM)分类建模再预测得到的分类准确率示意图见图5。

Claims

1.一种基于过滤法和遗传算法的高维数据特征选择方法，其特征在于：该方法的具体步骤如下：

步骤1、输入基因表达谱数据样本，数据样本包含患病人群和正常人群，数据样本属性是基因表达谱特征，又叫探针；

2.根据权利要求1所述的一种基于过滤法和遗传算法的高维数据特征选择方法，其特征在于：所述的遗传算法采用MATLAB中的ga函数，设计ga函数中的适应度函数为公式(1)：

FitVal＝0.1*sum(chrom)+(1-Accuracy) (1)

3.根据权利要求2所述的一种基于过滤法和遗传算法的高维数据特征选择方法，其特征在于：所述的分类建模使用二分类器SVM，根据每个种群的特征子集对样本进行分类建模，使用FitVal评价效果。

4.根据权利要求1所述的一种基于过滤法和遗传算法的高维数据特征选择方法，其特征在于：所述的应用最大信息系数计算各基因表达谱特征与类标之间的相关性，具体如下：首先将一列基因表达谱特征记成向量X，一列类标记成向量Y，X中的一个x标量对应Y中的一个y标量组成一个样本；将所有样本化成散点图，然后根据给定网格行列分多种不同的网格去分割散点图，计算散点落入每个网格的概率为p(x,y)，散点落入一列网格的概率为p(x)，散点落入一行网格的概率为p(y)；计算散点落入每个网格的概率，根据公式(2)计算在该种方案下的互信息值，比较各方案的互信息值，得到最大互信息值；继续用行列不同的网格重复上述步骤，比较多种行列不同的网格所得的最大互信息值，从中挑选出最大的值，即为最大信息系数；