CN110135494A

CN110135494A - 基于最大信息系数和基尼指标的特征选择方法

Info

Publication number: CN110135494A
Application number: CN201910400495.XA
Authority: CN
Inventors: 梁雪春; 毕青松
Original assignee: Nanjing Tech University
Current assignee: Nanjing Tech University
Priority date: 2019-05-10
Filing date: 2019-05-10
Publication date: 2019-08-16

Abstract

本发明公开了一种基于最大信息系数和基尼指标的特征选择方法，其中，所述方法包括：S101：用于特征选择的非平衡数据集；S102：利用RM‑SMOTE算法对非平衡数据集进行处理；S103：利用最大信息系数法对处理过的数据进行相关性特征筛选，得出筛选后的特征集；S104：通过随机森林模型(random forest，RF)中的Gini指数计算筛选后的每个特征对RF模型的特征重要度并对其进行排序，去除重要度较低的特征，得到最终特征数据集；S105：将得到的特征数据集输入到SVM模型中，得到数据集优化后的SVM模型；S106：利用测试集对新的模型进行测试，使用AUC值作为评判模型的标准。

Description

基于最大信息系数和基尼指标的特征选择方法

技术领域

本发明公开了一种特征选择方法，涉及了数据处理技术领域。

背景技术

随着互联网应用和技术的不断进步，数据规模呈现出爆发式增长的状态，这也带来了“维度灾难”等问题，如何有效的降低数据集中的特征维度，成为实际数据挖掘工作需要解决的问题。特征选择方法通过选取优质特征，删除无关和冗余特征，实现降低数据集特征维度，提高分类效率和准确率的功能，且有去噪、防止过拟合的作用。

非平衡数据集在日常生活和产生过程中是很常见的，即多数类和少数类之间的比例严重失衡，如医疗诊断、风险控制、交易欺诈等。支持向量机算法模型(support vectormachine，SVM)在解决非线性、小样本、高维模式分类识别中展现了诸多优势，其在生物医学、模式识别等领域受到广泛关注，为了提高SVM的分类精度和泛化能力，相关学者提出通过特征工程来提高该模型分类精度的方法。胡峰等人提出了基于特征聚类的封装式特征选择方法，王凯等人提出了改进特征选择RF算法，吴辰文等人提出了基于RF模型Gini指标特征加权的支持向量机方法(RFG-SVM)。

发明内容

本发明的目的在于提供一种基于最大信息系数和基尼指标的特征选择方法，能够提高对非平衡数据集分类的精度。

为实现上述目的，本发明提供一种基于最大信息系数和基尼指标的特征选择方法，所述方法包括：

S101：选取UCI数据库中冠状动脉疾病数据集数据；

S102：对冠状动脉疾病数据集的数据进行数据预处理，所述预处理包括数据离散化、归一化以及数据平衡化处理；

S103：利用最大信息系数法对处理后的数据进行相关性特征选择，得到筛选后的特征数据集；

S104：通过随机森林模型中的Gini指数计算筛选后的每个特征对RF模型的特征重要度并对其进行排序，去除重要度较低的特征，得到最终特征数据集；

S105：将得到的特征数据集输入到SVM模型中，得到数据集优化后的SVM模型；

S106：利用测试集对新的模型进行测试，使用AUC值作为评判模型的标准；

根据所述的方法，其特征在于，所述方法还包括：

S1021：本发明采用RM-SMOTE算法进行数据平衡化。

本发明采用一种球形插值思想(round means，RM)来改进SMOTE算法的插值公式，从而构建一种改进的采样算法为RM-SMOTE算法。该算法是对数据集中的少数类进行聚类操作，形成若干个聚类簇，然后根据欧几里得距离计算少数类样本各聚类簇的聚类中心和聚类簇中其他少数类样本到聚类中心的距离，然后以最远的聚类样本到聚类中心的距离为半径建立球形空间，最后在这个空间内进行插值。具体步骤如下：

将预处理后的少数类样本数据随机选择K个初始聚类中心对少数类样本进行聚类，得到K个聚类簇。

根据欧几里得距离计算各个簇类少数类样本到聚类中心的距离，然后以最远的聚类样本到聚类中心的距离为半径建立球形空间。按照如下公式计算欧几里得距离：

d(x_i，x_j)＝||x_i-x_j||₂

其中，d(x_i，x_j)表示样本x_i与其余样本x_j之间的欧氏距离，i＝1，2，...，n，j＝1，2，...，m， ||*||₂表示二范数运算。

S1025：在球形空间内进行插值，插值公式如下：

P_j＝u_ij+rand(0，1)×(b_j-a_j)，1≤j≤E

其中u_ij(i＝1，2，...，k，j＝1，2，...，E)为簇心u_i的第j个属性，E为少数类样本集样本的属性个数，p_j(j＝1，2，...，E)为新合成的“人造”样本P的第j个属性的属性值，rand(0，1)为(0，1) 之间的一个随机数，而(b_j-a_j)满足如下公式的条件。

a_j＝u_ij-|X_maxj-u_ij|，b_j＝u_ij+|X_maxj-u_ij|，1≤j≤E

其中|X_maxj-u_ij|表示取得最大欧式距离的数据X_max与簇心u_i两者之间第j个属性的属性差的绝对值。

这样构造产生的人造样本不再是传统的SMOTE算法在少数类样本连线或者延长线之间的插值了，而是在一个设定半径所构成的球形空间内进行插值，这种插值方式控制了***的范围，对于正负类样本边界模糊的问题具有更好的效果。

根据所述的S103最大信息系数法对处理后的数据进行相关性特征选择，其特征在于，所述方法还包括：

S1031：Reshef等提出的最大信息系数理论和求解方法，重点描述了变量间度量关系，通过这种度量关系进一步得到它们间的非函数依赖关系。最大信息系数主要利用互信息和网格划分方法进行计算，互信息是用来衡量变量之间的相关程度，对于给定变量A＝{a_i，i＝ 1，2，...，n}和B＝{b_i，i＝1，2，...，n}，其中n为样本的数量，则其互信息定义为：

其中P(a，b)是a和b的联合概率密度函数，而P(a)和P(b)分别是a和b的边缘概率密度函数，使用直方图估计对上述的概率密度进行估算。假设D＝{(a_i，b_i)，i＝1，2，...，n}为一个有限的有序对的集合，定义划分G将变量A的值域分成x段，将B的值域分成y段，G即为x×y的网格。在得到的每一种网格划分内部计算互信息MI(A，B)最大值作为划分G的互信息值，定义划分G下D的最大互信息公式为：

MI^*(D，x，y)＝maxI(D|G)

其中(D|G)表示数据D在使用D进行划分，虽然最大信息系数是利用互信息来表示网格的好坏，但是其并不是简单地估计互信息，而是将不同划分下得到的最大归一化MI值组成特征矩阵，特征矩阵定义为M(D)_x，y，计算公式如下所示：

则最大信息系数可以定义为：

MIC(D)＝max_xy＜B(n){M(D)_x，y}

其中，B(n)为网格划分x×y的上限值，一般地，B(n)＝n^0.6时效果最好，因此本发明也采用该值。

本文使用最大信息系数来定义特征与类别、特征与特征间的相关性，给定一个n条样本的特征集F＝{f₁，f₂，...，f_m，c}，其特征数为m，类别为c。

对任意特征fi和类别c间的相关性定义为MIC(f_i，c)，取值范围在[0，1]。MIC(f_i，c)值越大表明f_i和类别c之间的相关性越强，那么f_i则被认为是强相关特征，倾向于保留此特征， MIC(f_i，c)值越小表明f_i和类别c之间的相关性越弱，那么f_i则被认为是弱相关特征，倾向于删除此特征；如果MIC(f_i，c)的值为0，说明f_i是无关冗余的特征，需要删除。

任意两个特征f_i和f_j之间的冗余性也是一种相关性，我们定义其为MIC(f_i，f_j)，该值越大则表示这两个特征之间的相似度越高，冗余度也就越高。如果该值为0，说明这两个特征相互独立。

根据所述的S104 Gini指数筛选重要特征，其特征在于，所述方法还包括：

S1041：决策树是数据挖掘领域一种比较典型的单分类器，可以把它看作一个树形结构的模型，通过典型的节点展现树的特征，分别为：根节点、中间节点、叶子节点。决策树从根节点出发，再经过许多个中间节点，最后到达叶子节点，整个过程路径要符合某些规则，且输出单一值，即每棵决策树到达唯一的叶子节点，实现了数据集的分类。为了解决决策树分类规则复杂、易得到局部最优解、过度拟合等问题，集成单个分类器，这就是随机森林的思想。

随机森林在特征随机选取后，需要通过节点***算法进行最优属性的选取，且采用程序递归的方式，将根节点分为两颗子树，又从选中的子树继续生成左右子树，如此递归，直到生成最终的叶子节点。节点***算法有很多种，包括ID3、C4.5、CART等。本文主要使用CART算法，它采用的***方式是Gini指标最小原则，Gini指标是衡量特征属性重要度的方式。

假设样本集合R中包含J个类别的样本，则其基尼指数为：

其中P_j为第j类样本的概率，在一次分割后集合R分成了m个部分{N₁，N₂，...，N_m}，则分割的基尼指数gini_split(T)为：

根据S105所述的方法，其特征在于，所述方法还包括：

S1051：支持向量机是在统计学里的SRM(structural risk minimization，SRM)原则和VC(vapnik-chervonenkis，VC)维理论基础上发展来的，其主要思想是将输入向量通过相关核函数映射到高维空间中，并在这个空间中创建一个最优分类超平面。设样本集为{(x₁，y₁)，(x₂，y₂)，...，(x_i，y_i)，...，(x_n，y_n)}，其中n为样本数，x_i∈Rⁿ表示输入矢量， y_i∈{+1，-1}，线性判别函数为g(x)＝w·x+b，分类超平面为w.x+b＝0。通过超平面可以将样本分的两类，且存在一个最优的超平面使得这两类样本中到该平面的最短的点距离之和最大。考虑到数据噪音的存在，加入松弛变量ε_i(ε_i≥0，i＝1，2，...，n)，同时分配一个惩罚系数C。因此，超平面优化问题可转为：

对于非线性划分问题，可通过核函数实现一种非线性映射，将输入变量映射到高维空间中，并在这个高维空间中找到一个最优分类超平面。在引入核函数后，可用Lagrange乘子上述求解最优超平面问题转化为其对偶问题：

最终的决策函数为：

其中：sign(*)为符号函数，b^*是阀值。

算法详细步骤如下：

步骤1设样本集为S＝{(x⁽ⁱ⁾，y⁽ⁱ⁾)}，i＝1，2，...，n，其中x⁽ⁱ⁾为特征向量，y⁽ⁱ⁾为类别变量。取样本的70％为训练集S_train，30％为测试集S_test。对训练集S_train执行RM-SMOTE以及离散化和归一化及等数据预处理，再使用Bootstrap方法对其重复抽样n次，得到最终的训练集S_train。

步骤2设集合F为步骤1得到的特征集，S为空集；计算出每个特征与类变量之间的最大信息系数MIC(f_i，c)，i＝1，2，...，m，然后进行MIC(f_i，c)的排序，MIC(f_i，c)值大的排在前面，表示强相关特征，根据阈值选取前k个特征得到筛选后的特征子集。

步骤3对步骤2中得到的特征子集训练RF模型，根据gini指数选取重要特征，计算每个特征的gini指数并按照从小到大的方式进行排序并设置相应的阀值，去除指数值明显小于其他特征的特征。

步骤4将新产生的特征子集输入SVM模型中，选择径向基函数为核函数，并选择合适的惩罚C，核参数σ生成最终的支持向量机模型。

步骤5利用测试集S_test对新的训练模型进行测试，使用AUC值作为评判模型的标准。

由上可见，本发明采用以上技术方案与现有技术相比，至少具有以下技术效果：

传统特征选择方法无关和冗余特征较多，本发明利用最大信息系数和基尼指标的特征选择方法进行特征选择，使得无关和冗余特征大大减少，降低了数据维度。

在原本的基础上对冠状动脉疾病数据集进行分析，从中得出数据集的分类精度，再与传统SVM分类精度进行对比，使得该方法相比传统SVM分类模型精度更高。

本发明在对数据集进行特征选择时，通过最大信息系数法在原始的数据n个特征中找到最相关的k个特征，由于最大信息系数法独特的优势，它可以探索到更多的相关性，而且不仅可以计算线性相关性，也可以计算非线性相关性。

本发明在冠状动脉疾病数据集上利用改进的特征选择算法优化特征数据集，此方法将最大信息系数与随机森林的基尼指标相结合，形成一种新的优化算法，将此算法应用到SVM的模型中，相比传统模型预测精度有所提高。

附图说明

图1是本发明总体流程图

图2是用RM-SMOTE算法进行数据平衡化的流程图

图3是用最大信息系数法进行特征选择的流程图

图4是基于改进特征选择算法的SVM模型优化流程图

具体实施方式

本申请提供一种基于最大信息系数和基尼指标的特征选择方法，所述方法包括：选取UCI数据库中冠状动脉疾病数据集数据；对冠状动脉疾病数据集的数据进行数据预处理，所述预处理包括数据离散化、归一化以及数据平衡化处理；利用最大信息系数法对处理后的数据进行相关性特征选择，得到筛选后的特征数据集；通过随机森林(RF)模型中的Gini指数计算筛选后的每个特征对RF模型的特征重要度并对其进行排序，去除重要度较低的特征，得到最终特征数据集；将得到的特征数据集输入到SVM模型中，得到数据集优化后的SVM 模型；利用测试集对新的模型进行测试，使用AUC值作为评判模型的标准；

在本实施方式中，所述平衡化处理包括：

步骤1：从全部少数类样本数据中随机选择K个初始聚类中心对少数类样本进行聚类，得到k个聚类簇。

步骤2：根据欧几里得距离计算各个簇类少数类样本到聚类中心的距离，然后以最远的聚类样本到聚类中心的距离为半径建立球形空间。按照如下公式计算欧几里得距离：

d(x_i，x_j)＝||x_i-x_j||₂

步骤3：在球形空间内进行插值，插值公式如下：

P_j＝u_ij+rand(0，1)×(b_j-a_j)，1≤j≤E

a_j＝u_ij-|X_maxj-u_ij|，b_j＝u_ij+|X_maxj-u_ij|，1≤j≤E

在本实施方式中，所述的最大信息系数法对处理后的数据进行相关性特征选择包括：

步骤1：初始化一个样本数量为n的特征集F＝{f₁，f₂，...，f_m，c}，其中特征的个数为m，类别为c。

步骤2：计算任意一个特征f_i与类别c之间的相关性MIC(f_i，c)。

步骤3：对特征集F中所有特征按照MIC(f_i，c)值进行降序排序，越是排在前面的特征表示相关性越强，越需要保留。

步骤4：根据阈值选取前k个特征。

在本实施方式中，所述的Gini指数筛选重要特征包括：

步骤1：假设样本集合F中包含c个类别的样本，计算其基尼指数，基尼指数公式如下所示：

其中P_i为第j类样本的概率

步骤2：若在一次分割后集合R分成了m个部分{N₁，N₂，...，N_m}，则分割的基尼指数gini_split(T)公式如下所示：

在本实施方式中，所述支持向量机的参数包括C，σ，ε，相应地，所述模型优化单元按照以下步骤进行处理：

结合图1，本发明基于最大信息系数和基尼指标的特征选择，包括以下几个部分：

数据处理部分：在获得数据后需要对数据进行处理，包括缺失值处理、数据离散化、归一化以及数据平衡化处理以及利用RM-SMOTE算法，对数据进行平衡化处理。此块最突出的为数据的非平衡化处理，如图2显示，在此将方法具体说明。

d(x_i，x_j)＝||x_i-x_j||₂

步骤3：在球形空间内进行插值，插值公式如下：

P_j＝u_ij+rand(0，1)×(b_j-a_j)，1≤j≤E

a_j＝u_ij-|X_maxj-u_ij|，b_j＝u_ij+|X_maxj-u_ij|，1≤j≤E

特征筛选部分：将处理好的数据进行特征筛选，本发明在特征筛选阶段先是利用最大信息系数法对处理后的数据进行相关性特征选择，得到筛选后的特征数据集；再通过随机森林模型中的Gini指数计算筛选后的每个特征对RF模型的特征重要度并对其进行排序，去除重要度较低的特征，得到最终特征数据集；

请参阅图3，需具体说明的是利用最大信息系数法进行相关性特征选择具体实现过程：

步骤4：根据阈值选取前k个特征。

通过随机森林模型中的Gini指数筛选重要特征的具体实现过程如下：

步骤1首先计算各特征的基尼指数，选择最优特征以及其最优切分点。则其基尼指数可通过如下公式求得：

其中P_j为第j类样本的概率，N为类变量的个数，若一次分割后集合R分成了m个部分 {N₁，N₂，...，N_m}，则分割的基尼指数gini_split(T)可通过如下公式求得：

步骤2找到基尼指数最小的那个特征，以此为最优特征和最优切分点。

步骤3于是根节点生成两个子节点，其中一个为叶结点，对另一个结点继续以上步骤，最终所得结点都是叶结点。由此得到筛选后的最终特征数据集。

模型优化部分：本发明从基分类器的特征重要度和相关性两个方面考虑，权衡增加强度和减少相关度两个方面，保证新模型的预测效果。如图4所示，具体实施过程如下所示：

步骤1将新产生的特征子集输入到SVM模型中，选择径向基函数为核函数，并选择合适的惩罚C，核参数σ生成最终的支持向量机模型。

步骤2利用测试集S_test对新的训练模型进行测试，使用AUC值作为评判模型的标准。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于最大信息系数和基尼指标的特征选择方法，其中，所述方法包括：

S101：选取UCI数据库中冠状动脉疾病数据集数据。

S102：对冠状动脉疾病数据集的数据进行数据预处理，所述预处理包括数据离散化、归一化以及数据平衡化处理。

S103：利用最大信息系数法对处理后的数据进行相关性特征选择，得到筛选后的特征数据集。

S104：通过随机森林模型中的Gini指数计算筛选后的每个特征对RF模型的特征重要度并对其进行排序，去除重要度较低的特征，得到最终特征数据集。

S105：将得到的特征数据集输入到SVM模型中，得到数据集优化后的SVM模型。

S106：利用测试集对新的模型进行测试，使用AUC值作为评判模型的标准。

2.根据权利要求1所述的S102数据平衡化，其特征在于，所述方法还包括：

S1021：本发明采用RM-SMOTE算法进行数据平衡化。

S1022：本发明采用一种球形插值思想(round means，RM)来改进SMOTE算法的插值公式，从而构建一种改进的采样算法为RM-SMOTE算法。该算法是对数据集中的少数类进行聚类操作，形成若干个聚类簇，然后根据欧几里得距离计算少数类样本各聚类簇的聚类中心和聚类簇中其他少数类样本到聚类中心的距离，然后以最远的聚类样本到聚类中心的距离为半径建立球形空间，最后在这个空间内进行插值。具体步骤如下：

S1023：将预处理后的少数类样本数据随机选择K个初始聚类中心对少数类样本进行聚类，得到K个聚类簇。

S1024：根据欧几里得距离计算各个簇类少数类样本到聚类中心的距离，然后以最远的聚类样本到聚类中心的距离为半径建立球形空间。按照如下公式计算欧几里得距离：

d(x_i，x_j)＝||x_i-x_j||₂ (1)

其中，d(x_i，x_j)表示样本x_i与其余样本x_j之间的欧氏距离，i＝1，2，...，n，j＝1，2，...，m，||*||₂表示二范数运算。

S1025：在球形空间内进行插值，插值公式如下：

P_j＝u_ij+rand(0，1)×(b_j-a_j)，1≤j≤E (2)

其中u_ij(i＝1，2，...，k，j＝1，2，...，E)为簇心u_i的第j个属性，E为少数类样本集样本的属性个数，p_j(j＝1，2，...，E)为新合成的“人造”样本P的第j个属性的属性值，rand(0，1)为(0，1)之间的一个随机数，而(b_j-a_j)满足如下公式的条件。

a_j＝u_ij-|X_maxj-u_ij|，b_j＝u_ij+|X_maxj-u_ij|，1≤j≤E (3)

3.根据权利要求1所述的S103最大信息系数法对处理后的数据进行相关性特征选择，其特征在于，所述方法还包括：

S1031：Reshef等提出的最大信息系数理论和求解方法，重点描述了变量间度量关系，通过这种度量关系进一步得到它们间的非函数依赖关系。最大信息系数主要利用互信息和网格划分方法进行计算，互信息是用来衡量变量之间的相关程度，对于给定变量A＝{a_i，i＝1，2，...，n}和B＝{b_i，i＝1，2，...，n}，其中n为样本的数量，则其互信息定义为：

MI^*(D，x，y)＝max I(D|G) (5)

则最大信息系数可以定义为：

对任意特征f_i和类别c间的相关性定义为MIC(f_i，c)，取值范围在[0，1]。MIC(f_i，c)值越大表明f_i和类别c之间的相关性越强，那么f_i则被认为是强相关特征，倾向于保留此特征，MIC(f_i，c)值越小表明f_i和类别c之间的相关性越弱，那么f_i则被认为是弱相关特征，倾向于删除此特征；如果MIC(f_i，c)的值为0，说明f_i是无关冗余的特征，需要删除。

4.根据权利要求1所述的S104 Gini指数筛选重要特征，其特征在于，所述方法还包括：

假设样本集合R中包含J个类别的样本，则其基尼指数为：

5.根据权利要求1所述的S106所述的方法，其特征在于，所述方法还包括：

S1051：支持向量机是在统计学里的SRM(structural risk minimization，SRM)原则和VC(vapnik-chervonenkis，VC)维理论基础上发展来的，其主要思想是将输入向量通过相关核函数映射到高维空间中，并在这个空间中创建一个最优分类超平面。设样本集为{(x₁，y₁)，(x₂，y₂)，...，(x_i，y_i)，...，(x_n，y_n)}，其中n为样本数，x_i∈Rⁿ表示输入矢量，y_i∈{+1，-1}，线性判别函数为g(x)＝w·x+b，分类超平面为w·x+b＝0。通过超平面可以将样本分的两类，且存在一个最优的超平面使得这两类样本中到该平面的最短的点距离之和最大。考虑到数据噪音的存在，加入松弛变量ε_i(ε_i≥0，i＝1，2，...，n)，同时分配一个惩罚系数C。因此，超平面优化问题可转为：

最终的决策函数为：

其中：sign(*)为符号函数，b^*是阀值。

算法详细步骤如下：

步骤4将新产生的特征子集输入SVM模型中，选择径向基函数为核函数，并选择合适的惩罚C，核参数σ生成最终的优化的支持向量机模型。