CN110135494A - 基于最大信息系数和基尼指标的特征选择方法 - Google Patents
基于最大信息系数和基尼指标的特征选择方法 Download PDFInfo
- Publication number
- CN110135494A CN110135494A CN201910400495.XA CN201910400495A CN110135494A CN 110135494 A CN110135494 A CN 110135494A CN 201910400495 A CN201910400495 A CN 201910400495A CN 110135494 A CN110135494 A CN 110135494A
- Authority
- CN
- China
- Prior art keywords
- feature
- sample
- data
- value
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010187 selection method Methods 0.000 title abstract description 4
- 238000000034 method Methods 0.000 claims abstract description 46
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 29
- 238000007637 random forest analysis Methods 0.000 claims abstract description 18
- 238000012360 testing method Methods 0.000 claims abstract description 18
- 238000005457 optimization Methods 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims description 14
- 208000029078 coronary artery disease Diseases 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 8
- 238000013459 approach Methods 0.000 claims description 7
- 238000003066 decision tree Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 7
- 238000012706 support-vector machine Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 4
- 230000000875 corresponding effect Effects 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 230000002596 correlated effect Effects 0.000 claims description 2
- 238000007418 data mining Methods 0.000 claims description 2
- 238000011161 development Methods 0.000 claims description 2
- 230000009977 dual effect Effects 0.000 claims description 2
- 238000003780 insertion Methods 0.000 claims description 2
- 230000037431 insertion Effects 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 238000005192 partition Methods 0.000 claims description 2
- 238000012216 screening Methods 0.000 abstract description 3
- 241001269238 Data Species 0.000 description 2
- 238000013480 data collection Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于最大信息系数和基尼指标的特征选择方法,其中,所述方法包括:S101:用于特征选择的非平衡数据集;S102:利用RM‑SMOTE算法对非平衡数据集进行处理;S103:利用最大信息系数法对处理过的数据进行相关性特征筛选,得出筛选后的特征集;S104:通过随机森林模型(random forest,RF)中的Gini指数计算筛选后的每个特征对RF模型的特征重要度并对其进行排序,去除重要度较低的特征,得到最终特征数据集;S105:将得到的特征数据集输入到SVM模型中,得到数据集优化后的SVM模型;S106:利用测试集对新的模型进行测试,使用AUC值作为评判模型的标准。
Description
技术领域
本发明公开了一种特征选择方法,涉及了数据处理技术领域。
背景技术
随着互联网应用和技术的不断进步,数据规模呈现出爆发式增长的状态,这也带来了“维度灾难”等问题,如何有效的降低数据集中的特征维度,成为实际数据挖掘工作需要解决的问题。特征选择方法通过选取优质特征,删除无关和冗余特征,实现降低数据集特征维度,提高分类效率和准确率的功能,且有去噪、防止过拟合的作用。
非平衡数据集在日常生活和产生过程中是很常见的,即多数类和少数类之间的比例严重失衡,如医疗诊断、风险控制、交易欺诈等。支持向量机算法模型(support vectormachine,SVM)在解决非线性、小样本、高维模式分类识别中展现了诸多优势,其在生物医学、模式识别等领域受到广泛关注,为了提高SVM的分类精度和泛化能力,相关学者提出通过特征工程来提高该模型分类精度的方法。胡峰等人提出了基于特征聚类的封装式特征选择方法,王凯等人提出了改进特征选择RF算法,吴辰文等人提出了基于RF模型Gini指标特征加权的支持向量机方法(RFG-SVM)。
发明内容
本发明的目的在于提供一种基于最大信息系数和基尼指标的特征选择方法,能够提高对非平衡数据集分类的精度。
为实现上述目的,本发明提供一种基于最大信息系数和基尼指标的特征选择方法,所述方法包括:
S101:选取UCI数据库中冠状动脉疾病数据集数据;
S102:对冠状动脉疾病数据集的数据进行数据预处理,所述预处理包括数据离散化、归一化以及数据平衡化处理;
S103:利用最大信息系数法对处理后的数据进行相关性特征选择,得到筛选后的特征数据集;
S104:通过随机森林模型中的Gini指数计算筛选后的每个特征对RF模型的特征重要度并对其进行排序,去除重要度较低的特征,得到最终特征数据集;
S105:将得到的特征数据集输入到SVM模型中,得到数据集优化后的SVM模型;
S106:利用测试集对新的模型进行测试,使用AUC值作为评判模型的标准;
根据所述的方法,其特征在于,所述方法还包括:
S1021:本发明采用RM-SMOTE算法进行数据平衡化。
本发明采用一种球形插值思想(round means,RM)来改进SMOTE算法的插值公式,从而构建一种改进的采样算法为RM-SMOTE算法。该算法是对数据集中的少数类进行聚类操作,形成若干个聚类簇,然后根据欧几里得距离计算少数类样本各聚类簇的聚类中心和聚类簇中其他少数类样本到聚类中心的距离,然后以最远的聚类样本到聚类中心的距离为半径建立球形空间,最后在这个空间内进行插值。具体步骤如下:
将预处理后的少数类样本数据随机选择K个初始聚类中心对少数类样本进行聚类,得到K个聚类簇。
根据欧几里得距离计算各个簇类少数类样本到聚类中心的距离,然后以最远的聚类样本到聚类中心的距离为半径建立球形空间。按照如下公式计算欧几里得距离:
d(xi,xj)=||xi-xj||2
其中,d(xi,xj)表示样本xi与其余样本xj之间的欧氏距离,i=1,2,...,n,j=1,2,...,m, ||*||2表示二范数运算。
S1025:在球形空间内进行插值,插值公式如下:
Pj=uij+rand(0,1)×(bj-aj),1≤j≤E
其中uij(i=1,2,...,k,j=1,2,...,E)为簇心ui的第j个属性,E为少数类样本集样本的属性个数,pj(j=1,2,...,E)为新合成的“人造”样本P的第j个属性的属性值,rand(0,1)为(0,1) 之间的一个随机数,而(bj-aj)满足如下公式的条件。
aj=uij-|Xmaxj-uij|,bj=uij+|Xmaxj-uij|,1≤j≤E
其中|Xmaxj-uij|表示取得最大欧式距离的数据Xmax与簇心ui两者之间第j个属性的属性差的绝对值。
这样构造产生的人造样本不再是传统的SMOTE算法在少数类样本连线或者延长线之间的插值了,而是在一个设定半径所构成的球形空间内进行插值,这种插值方式控制了***的范围,对于正负类样本边界模糊的问题具有更好的效果。
根据所述的S103最大信息系数法对处理后的数据进行相关性特征选择,其特征在于,所述方法还包括:
S1031:Reshef等提出的最大信息系数理论和求解方法,重点描述了变量间度量关系,通过这种度量关系进一步得到它们间的非函数依赖关系。最大信息系数主要利用互信息和网格划分方法进行计算,互信息是用来衡量变量之间的相关程度,对于给定变量A={ai,i= 1,2,...,n}和B={bi,i=1,2,...,n},其中n为样本的数量,则其互信息定义为:
其中P(a,b)是a和b的联合概率密度函数,而P(a)和P(b)分别是a和b的边缘概率密度函数,使用直方图估计对上述的概率密度进行估算。假设D={(ai,bi),i=1,2,...,n}为一个有限的有序对的集合,定义划分G将变量A的值域分成x段,将B的值域分成y段,G即为x×y的网格。在得到的每一种网格划分内部计算互信息MI(A,B)最大值作为划分G的互信息值,定义划分G下D的最大互信息公式为:
MI*(D,x,y)=maxI(D|G)
其中(D|G)表示数据D在使用D进行划分,虽然最大信息系数是利用互信息来表示网格的好坏,但是其并不是简单地估计互信息,而是将不同划分下得到的最大归一化MI值组成特征矩阵,特征矩阵定义为M(D)x,y,计算公式如下所示:
则最大信息系数可以定义为:
MIC(D)=maxxy<B(n){M(D)x,y}
其中,B(n)为网格划分x×y的上限值,一般地,B(n)=n0.6时效果最好,因此本发明也采用该值。
本文使用最大信息系数来定义特征与类别、特征与特征间的相关性,给定一个n条样本的特征集F={f1,f2,...,fm,c},其特征数为m,类别为c。
对任意特征fi和类别c间的相关性定义为MIC(fi,c),取值范围在[0,1]。MIC(fi,c)值越大表明fi和类别c之间的相关性越强,那么fi则被认为是强相关特征,倾向于保留此特征, MIC(fi,c)值越小表明fi和类别c之间的相关性越弱,那么fi则被认为是弱相关特征,倾向于删除此特征;如果MIC(fi,c)的值为0,说明fi是无关冗余的特征,需要删除。
任意两个特征fi和fj之间的冗余性也是一种相关性,我们定义其为MIC(fi,fj),该值越大则表示这两个特征之间的相似度越高,冗余度也就越高。如果该值为0,说明这两个特征相互独立。
根据所述的S104 Gini指数筛选重要特征,其特征在于,所述方法还包括:
S1041:决策树是数据挖掘领域一种比较典型的单分类器,可以把它看作一个树形结构的模型,通过典型的节点展现树的特征,分别为:根节点、中间节点、叶子节点。决策树从根节点出发,再经过许多个中间节点,最后到达叶子节点,整个过程路径要符合某些规则,且输出单一值,即每棵决策树到达唯一的叶子节点,实现了数据集的分类。为了解决决策树分类规则复杂、易得到局部最优解、过度拟合等问题,集成单个分类器,这就是随机森林的思想。
随机森林在特征随机选取后,需要通过节点***算法进行最优属性的选取,且采用程序递归的方式,将根节点分为两颗子树,又从选中的子树继续生成左右子树,如此递归,直到生成最终的叶子节点。节点***算法有很多种,包括ID3、C4.5、CART等。本文主要使用CART算法,它采用的***方式是Gini指标最小原则,Gini指标是衡量特征属性重要度的方式。
假设样本集合R中包含J个类别的样本,则其基尼指数为:
其中Pj为第j类样本的概率,在一次分割后集合R分成了m个部分{N1,N2,...,Nm},则分割的基尼指数ginisplit(T)为:
根据S105所述的方法,其特征在于,所述方法还包括:
S1051:支持向量机是在统计学里的SRM(structural risk minimization,SRM)原则和VC(vapnik-chervonenkis,VC)维理论基础上发展来的,其主要思想是将输入向量通过相关核函数映射到高维空间中,并在这个空间中创建一个最优分类超平面。设样本集为{(x1,y1),(x2,y2),...,(xi,yi),...,(xn,yn)},其中n为样本数,xi∈Rn表示输入矢量, yi∈{+1,-1},线性判别函数为g(x)=w·x+b,分类超平面为w.x+b=0。通过超平面可以将样本分的两类,且存在一个最优的超平面使得这两类样本中到该平面的最短的点距离之和最大。考虑到数据噪音的存在,加入松弛变量εi(εi≥0,i=1,2,...,n),同时分配一个惩罚系数C。因此,超平面优化问题可转为:
对于非线性划分问题,可通过核函数实现一种非线性映射,将输入变量映射到高维空间中,并在这个高维空间中找到一个最优分类超平面。在引入核函数后,可用Lagrange乘子上述求解最优超平面问题转化为其对偶问题:
最终的决策函数为:
其中:sign(*)为符号函数,b*是阀值。
算法详细步骤如下:
步骤1设样本集为S={(x(i),y(i))},i=1,2,...,n,其中x(i)为特征向量,y(i)为类别变量。取样本的70%为训练集Strain,30%为测试集Stest。对训练集Strain执行RM-SMOTE以及离散化和归一化及等数据预处理,再使用Bootstrap方法对其重复抽样n次,得到最终的训练集Strain。
步骤2设集合F为步骤1得到的特征集,S为空集;计算出每个特征与类变量之间的最大信息系数MIC(fi,c),i=1,2,...,m,然后进行MIC(fi,c)的排序,MIC(fi,c)值大的排在前面,表示强相关特征,根据阈值选取前k个特征得到筛选后的特征子集。
步骤3对步骤2中得到的特征子集训练RF模型,根据gini指数选取重要特征,计算每个特征的gini指数并按照从小到大的方式进行排序并设置相应的阀值,去除指数值明显小于其他特征的特征。
步骤4将新产生的特征子集输入SVM模型中,选择径向基函数为核函数,并选择合适的惩罚C,核参数σ生成最终的支持向量机模型。
步骤5利用测试集Stest对新的训练模型进行测试,使用AUC值作为评判模型的标准。
由上可见,本发明采用以上技术方案与现有技术相比,至少具有以下技术效果:
传统特征选择方法无关和冗余特征较多,本发明利用最大信息系数和基尼指标的特征选择方法进行特征选择,使得无关和冗余特征大大减少,降低了数据维度。
在原本的基础上对冠状动脉疾病数据集进行分析,从中得出数据集的分类精度,再与传统SVM分类精度进行对比,使得该方法相比传统SVM分类模型精度更高。
本发明在对数据集进行特征选择时,通过最大信息系数法在原始的数据n个特征中找到最相关的k个特征,由于最大信息系数法独特的优势,它可以探索到更多的相关性,而且不仅可以计算线性相关性,也可以计算非线性相关性。
本发明在冠状动脉疾病数据集上利用改进的特征选择算法优化特征数据集,此方法将最大信息系数与随机森林的基尼指标相结合,形成一种新的优化算法,将此算法应用到SVM的模型中,相比传统模型预测精度有所提高。
附图说明
图1是本发明总体流程图
图2是用RM-SMOTE算法进行数据平衡化的流程图
图3是用最大信息系数法进行特征选择的流程图
图4是基于改进特征选择算法的SVM模型优化流程图
具体实施方式
本申请提供一种基于最大信息系数和基尼指标的特征选择方法,所述方法包括:选取UCI数据库中冠状动脉疾病数据集数据;对冠状动脉疾病数据集的数据进行数据预处理,所述预处理包括数据离散化、归一化以及数据平衡化处理;利用最大信息系数法对处理后的数据进行相关性特征选择,得到筛选后的特征数据集;通过随机森林(RF)模型中的Gini指数计算筛选后的每个特征对RF模型的特征重要度并对其进行排序,去除重要度较低的特征,得到最终特征数据集;将得到的特征数据集输入到SVM模型中,得到数据集优化后的SVM 模型;利用测试集对新的模型进行测试,使用AUC值作为评判模型的标准;
在本实施方式中,所述平衡化处理包括:
步骤1:从全部少数类样本数据中随机选择K个初始聚类中心对少数类样本进行聚类,得到k个聚类簇。
步骤2:根据欧几里得距离计算各个簇类少数类样本到聚类中心的距离,然后以最远的聚类样本到聚类中心的距离为半径建立球形空间。按照如下公式计算欧几里得距离:
d(xi,xj)=||xi-xj||2
其中,d(xi,xj)表示样本xi与其余样本xj之间的欧氏距离,i=1,2,...,n,j=1,2,...,m, ||*||2表示二范数运算。
步骤3:在球形空间内进行插值,插值公式如下:
Pj=uij+rand(0,1)×(bj-aj),1≤j≤E
其中uij(i=1,2,...,k,j=1,2,...,E)为簇心ui的第j个属性,E为少数类样本集样本的属性个数,pj(j=1,2,...,E)为新合成的“人造”样本P的第j个属性的属性值,rand(0,1)为(0,1) 之间的一个随机数,而(bj-aj)满足如下公式的条件。
aj=uij-|Xmaxj-uij|,bj=uij+|Xmaxj-uij|,1≤j≤E
其中|Xmaxj-uij|表示取得最大欧式距离的数据Xmax与簇心ui两者之间第j个属性的属性差的绝对值。
在本实施方式中,所述的最大信息系数法对处理后的数据进行相关性特征选择包括:
步骤1:初始化一个样本数量为n的特征集F={f1,f2,...,fm,c},其中特征的个数为m,类别为c。
步骤2:计算任意一个特征fi与类别c之间的相关性MIC(fi,c)。
步骤3:对特征集F中所有特征按照MIC(fi,c)值进行降序排序,越是排在前面的特征表示相关性越强,越需要保留。
步骤4:根据阈值选取前k个特征。
在本实施方式中,所述的Gini指数筛选重要特征包括:
步骤1:假设样本集合F中包含c个类别的样本,计算其基尼指数,基尼指数公式如下所示:
其中Pi为第j类样本的概率
步骤2:若在一次分割后集合R分成了m个部分{N1,N2,...,Nm},则分割的基尼指数ginisplit(T)公式如下所示:
在本实施方式中,所述支持向量机的参数包括C,σ,ε,相应地,所述模型优化单元按照以下步骤进行处理:
步骤1设样本集为S={(x(i),y(i))},i=1,2,...,n,其中x(i)为特征向量,y(i)为类别变量。取样本的70%为训练集Strain,30%为测试集Stest。对训练集Strain执行RM-SMOTE以及离散化和归一化及等数据预处理,再使用Bootstrap方法对其重复抽样n次,得到最终的训练集Strain。
步骤2设集合F为步骤1得到的特征集,S为空集;计算出每个特征与类变量之间的最大信息系数MIC(fi,c),i=1,2,...,m,然后进行MIC(fi,c)的排序,MIC(fi,c)值大的排在前面,表示强相关特征,根据阈值选取前k个特征得到筛选后的特征子集。
步骤3对步骤2中得到的特征子集训练RF模型,根据gini指数选取重要特征,计算每个特征的gini指数并按照从小到大的方式进行排序并设置相应的阀值,去除指数值明显小于其他特征的特征。
步骤4将新产生的特征子集输入SVM模型中,选择径向基函数为核函数,并选择合适的惩罚C,核参数σ生成最终的支持向量机模型。
步骤5利用测试集Stest对新的训练模型进行测试,使用AUC值作为评判模型的标准。
结合图1,本发明基于最大信息系数和基尼指标的特征选择,包括以下几个部分:
数据处理部分:在获得数据后需要对数据进行处理,包括缺失值处理、数据离散化、归一化以及数据平衡化处理以及利用RM-SMOTE算法,对数据进行平衡化处理。此块最突出的为数据的非平衡化处理,如图2显示,在此将方法具体说明。
步骤1:从全部少数类样本数据中随机选择K个初始聚类中心对少数类样本进行聚类,得到k个聚类簇。
步骤2:根据欧几里得距离计算各个簇类少数类样本到聚类中心的距离,然后以最远的聚类样本到聚类中心的距离为半径建立球形空间。按照如下公式计算欧几里得距离:
d(xi,xj)=||xi-xj||2
其中,d(xi,xj)表示样本xi与其余样本xj之间的欧氏距离,i=1,2,...,n,j=1,2,...,m, ||*||2表示二范数运算。
步骤3:在球形空间内进行插值,插值公式如下:
Pj=uij+rand(0,1)×(bj-aj),1≤j≤E
其中uij(i=1,2,...,k,j=1,2,...,E)为簇心ui的第j个属性,E为少数类样本集样本的属性个数,pj(j=1,2,...,E)为新合成的“人造”样本P的第j个属性的属性值,rand(0,1)为(0,1) 之间的一个随机数,而(bj-aj)满足如下公式的条件。
aj=uij-|Xmaxj-uij|,bj=uij+|Xmaxj-uij|,1≤j≤E
其中|Xmaxj-uij|表示取得最大欧式距离的数据Xmax与簇心ui两者之间第j个属性的属性差的绝对值。
特征筛选部分:将处理好的数据进行特征筛选,本发明在特征筛选阶段先是利用最大信息系数法对处理后的数据进行相关性特征选择,得到筛选后的特征数据集;再通过随机森林模型中的Gini指数计算筛选后的每个特征对RF模型的特征重要度并对其进行排序,去除重要度较低的特征,得到最终特征数据集;
请参阅图3,需具体说明的是利用最大信息系数法进行相关性特征选择具体实现过程:
步骤1:初始化一个样本数量为n的特征集F={f1,f2,...,fm,c},其中特征的个数为m,类别为c。
步骤2:计算任意一个特征fi与类别c之间的相关性MIC(fi,c)。
步骤3:对特征集F中所有特征按照MIC(fi,c)值进行降序排序,越是排在前面的特征表示相关性越强,越需要保留。
步骤4:根据阈值选取前k个特征。
通过随机森林模型中的Gini指数筛选重要特征的具体实现过程如下:
步骤1首先计算各特征的基尼指数,选择最优特征以及其最优切分点。则其基尼指数可通过如下公式求得:
其中Pj为第j类样本的概率,N为类变量的个数,若一次分割后集合R分成了m个部分 {N1,N2,...,Nm},则分割的基尼指数ginisplit(T)可通过如下公式求得:
步骤2找到基尼指数最小的那个特征,以此为最优特征和最优切分点。
步骤3于是根节点生成两个子节点,其中一个为叶结点,对另一个结点继续以上步骤,最终所得结点都是叶结点。由此得到筛选后的最终特征数据集。
模型优化部分:本发明从基分类器的特征重要度和相关性两个方面考虑,权衡增加强度和减少相关度两个方面,保证新模型的预测效果。如图4所示,具体实施过程如下所示:
步骤1将新产生的特征子集输入到SVM模型中,选择径向基函数为核函数,并选择合适的惩罚C,核参数σ生成最终的支持向量机模型。
步骤2利用测试集Stest对新的训练模型进行测试,使用AUC值作为评判模型的标准。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
Claims (5)
1.一种基于最大信息系数和基尼指标的特征选择方法,其中,所述方法包括:
S101:选取UCI数据库中冠状动脉疾病数据集数据。
S102:对冠状动脉疾病数据集的数据进行数据预处理,所述预处理包括数据离散化、归一化以及数据平衡化处理。
S103:利用最大信息系数法对处理后的数据进行相关性特征选择,得到筛选后的特征数据集。
S104:通过随机森林模型中的Gini指数计算筛选后的每个特征对RF模型的特征重要度并对其进行排序,去除重要度较低的特征,得到最终特征数据集。
S105:将得到的特征数据集输入到SVM模型中,得到数据集优化后的SVM模型。
S106:利用测试集对新的模型进行测试,使用AUC值作为评判模型的标准。
2.根据权利要求1所述的S102数据平衡化,其特征在于,所述方法还包括:
S1021:本发明采用RM-SMOTE算法进行数据平衡化。
S1022:本发明采用一种球形插值思想(round means,RM)来改进SMOTE算法的插值公式,从而构建一种改进的采样算法为RM-SMOTE算法。该算法是对数据集中的少数类进行聚类操作,形成若干个聚类簇,然后根据欧几里得距离计算少数类样本各聚类簇的聚类中心和聚类簇中其他少数类样本到聚类中心的距离,然后以最远的聚类样本到聚类中心的距离为半径建立球形空间,最后在这个空间内进行插值。具体步骤如下:
S1023:将预处理后的少数类样本数据随机选择K个初始聚类中心对少数类样本进行聚类,得到K个聚类簇。
S1024:根据欧几里得距离计算各个簇类少数类样本到聚类中心的距离,然后以最远的聚类样本到聚类中心的距离为半径建立球形空间。按照如下公式计算欧几里得距离:
d(xi,xj)=||xi-xj||2 (1)
其中,d(xi,xj)表示样本xi与其余样本xj之间的欧氏距离,i=1,2,...,n,j=1,2,...,m,||*||2表示二范数运算。
S1025:在球形空间内进行插值,插值公式如下:
Pj=uij+rand(0,1)×(bj-aj),1≤j≤E (2)
其中uij(i=1,2,...,k,j=1,2,...,E)为簇心ui的第j个属性,E为少数类样本集样本的属性个数,pj(j=1,2,...,E)为新合成的“人造”样本P的第j个属性的属性值,rand(0,1)为(0,1)之间的一个随机数,而(bj-aj)满足如下公式的条件。
aj=uij-|Xmaxj-uij|,bj=uij+|Xmaxj-uij|,1≤j≤E (3)
其中|Xmaxj-uij|表示取得最大欧式距离的数据Xmax与簇心ui两者之间第j个属性的属性差的绝对值。
这样构造产生的人造样本不再是传统的SMOTE算法在少数类样本连线或者延长线之间的插值了,而是在一个设定半径所构成的球形空间内进行插值,这种插值方式控制了***的范围,对于正负类样本边界模糊的问题具有更好的效果。
3.根据权利要求1所述的S103最大信息系数法对处理后的数据进行相关性特征选择,其特征在于,所述方法还包括:
S1031:Reshef等提出的最大信息系数理论和求解方法,重点描述了变量间度量关系,通过这种度量关系进一步得到它们间的非函数依赖关系。最大信息系数主要利用互信息和网格划分方法进行计算,互信息是用来衡量变量之间的相关程度,对于给定变量A={ai,i=1,2,...,n}和B={bi,i=1,2,...,n},其中n为样本的数量,则其互信息定义为:
其中P(a,b)是a和b的联合概率密度函数,而P(a)和P(b)分别是a和b的边缘概率密度函数,使用直方图估计对上述的概率密度进行估算。假设D={(ai,bi),i=1,2,...,n}为一个有限的有序对的集合,定义划分G将变量A的值域分成x段,将B的值域分成y段,G即为x×y的网格。在得到的每一种网格划分内部计算互信息MI(A,B)最大值作为划分G的互信息值,定义划分G下D的最大互信息公式为:
MI*(D,x,y)=max I(D|G) (5)
其中(D|G)表示数据D在使用D进行划分,虽然最大信息系数是利用互信息来表示网格的好坏,但是其并不是简单地估计互信息,而是将不同划分下得到的最大归一化MI值组成特征矩阵,特征矩阵定义为M(D)x,y,计算公式如下所示:
则最大信息系数可以定义为:
其中,B(n)为网格划分x×y的上限值,一般地,B(n)=n0.6时效果最好,因此本发明也采用该值。
本文使用最大信息系数来定义特征与类别、特征与特征间的相关性,给定一个n条样本的特征集F={f1,f2,...,fm,c},其特征数为m,类别为c。
对任意特征fi和类别c间的相关性定义为MIC(fi,c),取值范围在[0,1]。MIC(fi,c)值越大表明fi和类别c之间的相关性越强,那么fi则被认为是强相关特征,倾向于保留此特征,MIC(fi,c)值越小表明fi和类别c之间的相关性越弱,那么fi则被认为是弱相关特征,倾向于删除此特征;如果MIC(fi,c)的值为0,说明fi是无关冗余的特征,需要删除。
任意两个特征fi和fj之间的冗余性也是一种相关性,我们定义其为MIC(fi,fj),该值越大则表示这两个特征之间的相似度越高,冗余度也就越高。如果该值为0,说明这两个特征相互独立。
4.根据权利要求1所述的S104 Gini指数筛选重要特征,其特征在于,所述方法还包括:
S1041:决策树是数据挖掘领域一种比较典型的单分类器,可以把它看作一个树形结构的模型,通过典型的节点展现树的特征,分别为:根节点、中间节点、叶子节点。决策树从根节点出发,再经过许多个中间节点,最后到达叶子节点,整个过程路径要符合某些规则,且输出单一值,即每棵决策树到达唯一的叶子节点,实现了数据集的分类。为了解决决策树分类规则复杂、易得到局部最优解、过度拟合等问题,集成单个分类器,这就是随机森林的思想。
随机森林在特征随机选取后,需要通过节点***算法进行最优属性的选取,且采用程序递归的方式,将根节点分为两颗子树,又从选中的子树继续生成左右子树,如此递归,直到生成最终的叶子节点。节点***算法有很多种,包括ID3、C4.5、CART等。本文主要使用CART算法,它采用的***方式是Gini指标最小原则,Gini指标是衡量特征属性重要度的方式。
假设样本集合R中包含J个类别的样本,则其基尼指数为:
其中Pj为第j类样本的概率,在一次分割后集合R分成了m个部分{N1,N2,...,Nm},则分割的基尼指数ginisplit(T)为:
5.根据权利要求1所述的S106所述的方法,其特征在于,所述方法还包括:
S1051:支持向量机是在统计学里的SRM(structural risk minimization,SRM)原则和VC(vapnik-chervonenkis,VC)维理论基础上发展来的,其主要思想是将输入向量通过相关核函数映射到高维空间中,并在这个空间中创建一个最优分类超平面。设样本集为{(x1,y1),(x2,y2),...,(xi,yi),...,(xn,yn)},其中n为样本数,xi∈Rn表示输入矢量,yi∈{+1,-1},线性判别函数为g(x)=w·x+b,分类超平面为w·x+b=0。通过超平面可以将样本分的两类,且存在一个最优的超平面使得这两类样本中到该平面的最短的点距离之和最大。考虑到数据噪音的存在,加入松弛变量εi(εi≥0,i=1,2,...,n),同时分配一个惩罚系数C。因此,超平面优化问题可转为:
对于非线性划分问题,可通过核函数实现一种非线性映射,将输入变量映射到高维空间中,并在这个高维空间中找到一个最优分类超平面。在引入核函数后,可用Lagrange乘子上述求解最优超平面问题转化为其对偶问题:
最终的决策函数为:
其中:sign(*)为符号函数,b*是阀值。
算法详细步骤如下:
步骤1设样本集为S={(x(i),y(i))},i=1,2,...,n,其中x(i)为特征向量,y(i)为类别变量。取样本的70%为训练集Strain,30%为测试集Stest。对训练集Strain执行RM-SMOTE以及离散化和归一化及等数据预处理,再使用Bootstrap方法对其重复抽样n次,得到最终的训练集Strain。
步骤2设集合F为步骤1得到的特征集,S为空集;计算出每个特征与类变量之间的最大信息系数MIC(fi,c),i=1,2,...,m,然后进行MIC(fi,c)的排序,MIC(fi,c)值大的排在前面,表示强相关特征,根据阈值选取前k个特征得到筛选后的特征子集。
步骤3对步骤2中得到的特征子集训练RF模型,根据gini指数选取重要特征,计算每个特征的gini指数并按照从小到大的方式进行排序并设置相应的阀值,去除指数值明显小于其他特征的特征。
步骤4将新产生的特征子集输入SVM模型中,选择径向基函数为核函数,并选择合适的惩罚C,核参数σ生成最终的优化的支持向量机模型。
步骤5利用测试集Stest对新的训练模型进行测试,使用AUC值作为评判模型的标准。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910400495.XA CN110135494A (zh) | 2019-05-10 | 2019-05-10 | 基于最大信息系数和基尼指标的特征选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910400495.XA CN110135494A (zh) | 2019-05-10 | 2019-05-10 | 基于最大信息系数和基尼指标的特征选择方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110135494A true CN110135494A (zh) | 2019-08-16 |
Family
ID=67574035
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910400495.XA Pending CN110135494A (zh) | 2019-05-10 | 2019-05-10 | 基于最大信息系数和基尼指标的特征选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110135494A (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110852527A (zh) * | 2019-11-20 | 2020-02-28 | 成都理工大学 | 一种结合深度学习的储层物性参数预测方法 |
CN111079164A (zh) * | 2019-12-18 | 2020-04-28 | 深圳前海微众银行股份有限公司 | 特征相关性计算方法、装置、设备及计算机可读存储介质 |
CN111161879A (zh) * | 2020-02-24 | 2020-05-15 | 梅里医疗科技(洋浦)有限责任公司 | 一种基于大数据的疾病预测*** |
CN111275239A (zh) * | 2019-12-20 | 2020-06-12 | 西安电子科技大学 | 一种基于多模态的网络化教学数据分析方法及*** |
CN111783840A (zh) * | 2020-06-09 | 2020-10-16 | 苏宁金融科技(南京)有限公司 | 一种随机森林模型的可视化方法、装置及存储介质 |
CN112116593A (zh) * | 2020-08-06 | 2020-12-22 | 北京工业大学 | 一种基于基尼指数的领域自适应语义分割方法 |
CN112200667A (zh) * | 2020-11-30 | 2021-01-08 | 上海冰鉴信息科技有限公司 | 一种数据处理方法、装置及计算机设备 |
CN112232892A (zh) * | 2020-12-14 | 2021-01-15 | 南京华苏科技有限公司 | 基于移动运营商的满意度的易访用户的挖掘方法 |
CN112232387A (zh) * | 2020-09-29 | 2021-01-15 | 南京财经大学 | 基于lselm-rfe的粮食作物病害症状的有效特征识别方法 |
CN112463763A (zh) * | 2020-11-19 | 2021-03-09 | 东北大学 | 基于RF算法的MySQL数据库参数筛选方法 |
CN112465245A (zh) * | 2020-12-04 | 2021-03-09 | 复旦大学青岛研究院 | 一种针对不平衡数据集的产品质量预测方法 |
CN112633167A (zh) * | 2020-12-23 | 2021-04-09 | 杭州电子科技大学 | 一种基于SaO2信号多种基线特征的自动识别SAHS方法 |
WO2021139115A1 (zh) * | 2020-05-26 | 2021-07-15 | 平安科技(深圳)有限公司 | 特征选择方法、装置、设备及存储介质 |
CN113568368A (zh) * | 2021-07-30 | 2021-10-29 | 北京石油化工学院 | 一种工控数据特征重排序算法的自适应确定方法 |
CN113657499A (zh) * | 2021-08-17 | 2021-11-16 | 中国平安财产保险股份有限公司 | 基于特征选择的权益分配方法、装置、电子设备及介质 |
CN113780416A (zh) * | 2021-09-10 | 2021-12-10 | 电子科技大学长三角研究院(衢州) | 基于图的特征排序和降维方法 |
CN113946720A (zh) * | 2020-07-17 | 2022-01-18 | ***通信集团广东有限公司 | 一种识别群组中用户的方法、装置及电子设备 |
CN114400026A (zh) * | 2022-01-30 | 2022-04-26 | 燕山大学 | 基于语音特征选择的帕金森病患者updrs得分预测方法 |
CN114512232A (zh) * | 2022-02-16 | 2022-05-17 | 盐城吉研智能科技有限公司 | 基于级联机器学习模型的爱德华氏综合征筛查*** |
CN115346682A (zh) * | 2022-10-18 | 2022-11-15 | 中国地质大学(北京) | 基于乳腺癌数据的变量筛选方法及***、可读存储介质 |
CN115358351A (zh) * | 2022-10-18 | 2022-11-18 | 中国地质大学(北京) | 基于乳腺癌变量的分类模型建立方法及***、存储介质 |
CN115688034A (zh) * | 2022-12-30 | 2023-02-03 | 浙江图胜数字科技有限公司 | 数值型和类别型的混合资料的提取和缩减方法 |
CN117556233A (zh) * | 2023-12-29 | 2024-02-13 | 巢湖学院 | 一种基于不平衡数据环境下的特征选择***及方法 |
-
2019
- 2019-05-10 CN CN201910400495.XA patent/CN110135494A/zh active Pending
Cited By (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110852527A (zh) * | 2019-11-20 | 2020-02-28 | 成都理工大学 | 一种结合深度学习的储层物性参数预测方法 |
CN110852527B (zh) * | 2019-11-20 | 2022-05-31 | 成都理工大学 | 一种结合深度学习的储层物性参数预测方法 |
CN111079164A (zh) * | 2019-12-18 | 2020-04-28 | 深圳前海微众银行股份有限公司 | 特征相关性计算方法、装置、设备及计算机可读存储介质 |
CN111079164B (zh) * | 2019-12-18 | 2021-09-07 | 深圳前海微众银行股份有限公司 | 特征相关性计算方法、装置、设备及计算机可读存储介质 |
CN111275239B (zh) * | 2019-12-20 | 2023-09-29 | 西安电子科技大学 | 一种基于多模态的网络化教学数据分析方法及*** |
CN111275239A (zh) * | 2019-12-20 | 2020-06-12 | 西安电子科技大学 | 一种基于多模态的网络化教学数据分析方法及*** |
CN111161879A (zh) * | 2020-02-24 | 2020-05-15 | 梅里医疗科技(洋浦)有限责任公司 | 一种基于大数据的疾病预测*** |
WO2021139115A1 (zh) * | 2020-05-26 | 2021-07-15 | 平安科技(深圳)有限公司 | 特征选择方法、装置、设备及存储介质 |
CN111783840A (zh) * | 2020-06-09 | 2020-10-16 | 苏宁金融科技(南京)有限公司 | 一种随机森林模型的可视化方法、装置及存储介质 |
CN113946720A (zh) * | 2020-07-17 | 2022-01-18 | ***通信集团广东有限公司 | 一种识别群组中用户的方法、装置及电子设备 |
CN112116593A (zh) * | 2020-08-06 | 2020-12-22 | 北京工业大学 | 一种基于基尼指数的领域自适应语义分割方法 |
CN112116593B (zh) * | 2020-08-06 | 2024-06-21 | 北京工业大学 | 一种基于基尼指数的领域自适应语义分割方法 |
CN112232387A (zh) * | 2020-09-29 | 2021-01-15 | 南京财经大学 | 基于lselm-rfe的粮食作物病害症状的有效特征识别方法 |
CN112232387B (zh) * | 2020-09-29 | 2024-02-06 | 南京财经大学 | 基于lselm-rfe的粮食作物病害症状的有效特征识别方法 |
CN112463763A (zh) * | 2020-11-19 | 2021-03-09 | 东北大学 | 基于RF算法的MySQL数据库参数筛选方法 |
CN112463763B (zh) * | 2020-11-19 | 2023-09-29 | 东北大学 | 基于RF算法的MySQL数据库参数筛选方法 |
CN112200667A (zh) * | 2020-11-30 | 2021-01-08 | 上海冰鉴信息科技有限公司 | 一种数据处理方法、装置及计算机设备 |
US11367019B1 (en) | 2020-11-30 | 2022-06-21 | Shanghai Icekredit, Inc. | Data processing method and apparatus, and computer device |
CN112465245A (zh) * | 2020-12-04 | 2021-03-09 | 复旦大学青岛研究院 | 一种针对不平衡数据集的产品质量预测方法 |
CN112232892A (zh) * | 2020-12-14 | 2021-01-15 | 南京华苏科技有限公司 | 基于移动运营商的满意度的易访用户的挖掘方法 |
CN112633167B (zh) * | 2020-12-23 | 2024-04-16 | 杭州电子科技大学 | 一种基于SaO2信号多种基线特征的自动识别SAHS方法 |
CN112633167A (zh) * | 2020-12-23 | 2021-04-09 | 杭州电子科技大学 | 一种基于SaO2信号多种基线特征的自动识别SAHS方法 |
CN113568368B (zh) * | 2021-07-30 | 2022-12-23 | 北京石油化工学院 | 一种工控数据特征重排序算法的自适应确定方法 |
CN113568368A (zh) * | 2021-07-30 | 2021-10-29 | 北京石油化工学院 | 一种工控数据特征重排序算法的自适应确定方法 |
CN113657499A (zh) * | 2021-08-17 | 2021-11-16 | 中国平安财产保险股份有限公司 | 基于特征选择的权益分配方法、装置、电子设备及介质 |
CN113657499B (zh) * | 2021-08-17 | 2023-08-11 | 中国平安财产保险股份有限公司 | 基于特征选择的权益分配方法、装置、电子设备及介质 |
CN113780416A (zh) * | 2021-09-10 | 2021-12-10 | 电子科技大学长三角研究院(衢州) | 基于图的特征排序和降维方法 |
CN113780416B (zh) * | 2021-09-10 | 2024-04-02 | 电子科技大学长三角研究院(衢州) | 基于图的特征排序和降维方法 |
CN114400026A (zh) * | 2022-01-30 | 2022-04-26 | 燕山大学 | 基于语音特征选择的帕金森病患者updrs得分预测方法 |
CN114512232A (zh) * | 2022-02-16 | 2022-05-17 | 盐城吉研智能科技有限公司 | 基于级联机器学习模型的爱德华氏综合征筛查*** |
CN115358351A (zh) * | 2022-10-18 | 2022-11-18 | 中国地质大学(北京) | 基于乳腺癌变量的分类模型建立方法及***、存储介质 |
CN115346682A (zh) * | 2022-10-18 | 2022-11-15 | 中国地质大学(北京) | 基于乳腺癌数据的变量筛选方法及***、可读存储介质 |
CN115688034B (zh) * | 2022-12-30 | 2023-08-15 | 浙江图胜数字科技有限公司 | 数值型和类别型的混合资料的提取和缩减方法 |
CN115688034A (zh) * | 2022-12-30 | 2023-02-03 | 浙江图胜数字科技有限公司 | 数值型和类别型的混合资料的提取和缩减方法 |
CN117556233A (zh) * | 2023-12-29 | 2024-02-13 | 巢湖学院 | 一种基于不平衡数据环境下的特征选择***及方法 |
CN117556233B (zh) * | 2023-12-29 | 2024-03-26 | 巢湖学院 | 一种基于不平衡数据环境下的特征选择***及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110135494A (zh) | 基于最大信息系数和基尼指标的特征选择方法 | |
CN107909117B (zh) | 基于脑功能网络特征对早晚期轻度认知障碍的分类装置 | |
Xu et al. | A comparison study of validity indices on swarm-intelligence-based clustering | |
Khaparde et al. | Differential evolution algorithm with hierarchical fair competition model. | |
CN107301171A (zh) | 一种基于情感词典学习的文本情感分析方法和*** | |
CN108509982A (zh) | 一种处理二分类不平衡医学数据的方法 | |
CN108319987A (zh) | 一种基于支持向量机的过滤-封装式组合流量特征选择方法 | |
Manivannan et al. | Dengue fever prediction using K-means clustering algorithm | |
CN107291895B (zh) | 一种快速的层次化文档查询方法 | |
CN108846338A (zh) | 基于面向对象随机森林的极化特征选择及分类方法 | |
Dharmarajan et al. | Lung cancer data analysis by k-means and farthest first clustering algorithms | |
CN112800115B (zh) | 数据处理方法及数据处理装置 | |
Martínez-Ballesteros et al. | Improving a multi-objective evolutionary algorithm to discover quantitative association rules | |
CN113052225A (zh) | 基于聚类算法和时序关联规则的报警收敛方法及装置 | |
Gabbay et al. | Isolation forests and landmarking-based representations for clustering algorithm recommendation using meta-learning | |
CN109409434A (zh) | 基于随机森林的肝脏疾病数据分类规则提取的方法 | |
Khamis et al. | Deep learning is Competing with Random forest in Computational Docking | |
CN107480441A (zh) | 一种基于支持向量机的儿童脓毒性休克预后预测的建模方法及*** | |
Balamurugan et al. | An integrated approach to performance measurement, analysis, improvements and knowledge management in healthcare sector | |
CN109784354A (zh) | 基于改进分类效用的无参数聚类方法及电子设备 | |
Ntoutsi et al. | A general framework for estimating similarity of datasets and decision trees: exploring semantic similarity of decision trees | |
Hamidzadeh et al. | Clustering data stream with uncertainty using belief function theory and fading function | |
CN114169504B (zh) | 基于自适应滤波的图卷积神经网络池化方法 | |
Xu et al. | CoSimGNN: towards large-scale graph similarity computation | |
CN108268620A (zh) | 一种基于hadoop数据挖掘的文档分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190816 |
|
WD01 | Invention patent application deemed withdrawn after publication |