CN109493929A

CN109493929A - 基于分组变量的低冗余特征选择方法

Info

Publication number: CN109493929A
Application number: CN201811097768.XA
Authority: CN
Inventors: 李建强; 占小瑜; 刘璐
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2018-09-20
Filing date: 2018-09-20
Publication date: 2019-03-19
Anticipated expiration: 2038-09-20
Also published as: CN109493929B

Abstract

本发明涉及一种基于分组变量的低冗余特征选择方法，包括：对已知患病与否的电子病历数据进行处理，得到已知结果病历的二维特征数据集；利用k‑means等聚类方法构建所述病历的二维特征数据集的自动分组；提出去冗余分组特征选择方法的模型目标函数；对S3中提出的目标函数进行全局优化，构建出相应的疾病预测模型。本发明通过在进行特征选择时，将组冗余性考虑进去，能够从高维特征中选择出一种更具有代表性的低维特征，可以带来预测精度和速度的提升。

Description

基于分组变量的低冗余特征选择方法

技术领域

本发明涉及计算机领域，更具体地涉及一种基于分组变量的低冗余特征选择方法。

背景技术

在机器学习和数据挖掘中，特征(如一个人的年龄、身高、血压等信息)是训练数据集中的输入，对于训练模型很重要。在机器学习的实际应用中，特征数量往往较多，其中可能存在不相关的特征，特征之间也可能存在相互依赖，容易导致如下的后果：(1)特征个数越多，分析特征、训练模型所需的时间就越长；(2)特征个数越多，容易引起“维度灾难”，模型也会越复杂，其推广能力会下降。

特征选择算法在解决上述问题时起到了重要作用。特征选择是指从原始特征集中选择使某种评估标准最优的特征子集。特征选择能剔除不相关或冗余的特征，从而达到减少特征个数，提高模型精确度，减少运行时间的目的。另一方面，选取出真正相关的特征简化了模型，使研究人员易于理解数据产生的过程。

在特征选择中，大家最感兴趣的一个问题就是如何选择出一个合适的具有低冗余性的特征子集。在众多类型的特征选择算法中，最小冗余特征选择是一种经常被用于识别特征并缩小它们之间的相关性的算法。最小冗余特征指特征间相关度小即冗余度小。其经常与相关性特征选择算法成对使用，比如最小冗余最大相关性(MRMR)。

2005年由Peng H、Long F和Ding C发表的IEEE论文“Feature selection basedon mutual information：criteria ofmax-dependency，max-relevance，and min-redundancy”中，提出了基于空间搜索的最小冗余最大相关(Minimal RedundancyMaximalRelevance，MRMR)算法。最大相关就是指特征与类别相关度大，即特征能最大程度反映样本类别信息；最小冗余指特征间相关度小即冗余度小。MRMR方法使用互信息度量特征的相关性与冗余度，使用信息差和信息熵构建特征子集的搜索策略。此方法考虑的是每个特征与类别之间、每个特征与特征之间的互信息。

2012年由D.Luo、F.Wang、J.Sun、M.Markatou、J.Hu和S.Ebadollahi发表的SIAM论文“Sor:Scalable orthogonal regression fornon-redundant feature selection andits healthcare applications”中，提出了一种低冗余特征选择算法。此算法中得到的目标函数是目的就是要最小化此目标函数，以得到最优解，进而得到最优特征子集。其中，此目标函数中的第一项是预测误差项，第二项和第三项都是规范项，第三项就是用于最小化特征间冗余度的。但是，此算法是将所有的特征作为独立单元来思考的，并未将特征进行分组，没有考虑到将分组作为独立单元融入到算法中。

上面介绍的已有低冗余特征选择算法虽然都针对特征冗余性进行了去除冗余特征的处理，但是它们却并未将特征分组考虑进去，即只是将每个特征都作为独立单元来进行去除冗余特征的特征选择，而未将特征按照聚类算法进行分组而得到以分组作为独立单元的去除冗余的特征选择方法。

发明内容

为了解决上述技术问题，本发明提供了一种基于分组变量的低冗余特征选择方法，包括如下步骤：

步骤S1：对已知患病与否的电子病历数据进行处理，得到已知结果病历的二维特征数据集；

步骤S2：利用k-means等聚类方法构建所述病历的二维特征数据集的自动分组；

步骤S3：提出去冗余分组特征选择方法的目标函数；

步骤S4：对S3中提出的目标函数进行全局优化，选择相应特征子集，构建出优化后的疾病预测模型。

进一步，步骤S1中对电子病历进行处理，得到文本的特征数据集包括：

对电子病历进行处理，将每个病人的电子病历处理成为一条病人记录，每条病人记录d_i是由两种属性构成的，即d_i＝{x_i,y_i}，其中x_i＝{x_i1,x_i2,…,x_iJ}表示该病人的J个属性，如身高、体重、是否有病史等，而y_i＝{0,1}表示该病人是否患有该疾病的类别标签，如y₁＝0表示病人1未患有该疾病，y₁＝1表示病人1患有该疾病。从而，对于所有N个病人的电子病历就得到了N条病人记录，进而构成了二维数据集D＝{d_i},i＝1,2,…,N。即：

电子病历的二维特征数据集的数据为二维坐标，一维坐标为病人的属性集合x_i＝{x_i1,x_i2,…,x_iJ}，一维坐标为病人是否患有该疾病的类别标签y_i＝{0,1}。

进一步，步骤S2中对步骤S1中处理得到的二维特征数据集进行的自动分组包括：

所述分组变量单元通过聚类算法k-means对全部特征进行自动分组，得到具有不同重要程度信息的特征分组。

首先指定需要分组的个数L，用p_l表示每个分组l中特征的个数，利用k-means算法就可将特征矩阵X自动切分为L个小矩阵[x₁,x₂,...,x_L]，其中每个x_l都对应于一组特征，是一个N*p_l的矩阵；相应地，权重向量w被切分为[w₁,w₂,...,w_L]，每组w_l的长度为p_l。不同组间的信息具有不同的重要程度，而考虑进去组别信息，可以带来预测精度和速度的提升。

进一步，步骤S3在前面步骤的基础上提出去冗余分组特征选择方法的目标函数包括：

在嵌套式特征选择模型模型框架下，常见的学习模型会采用下列形式：

本发明提出的特征选择方法模型中包括分组变量单元，误差项设置单元，去冗余规范化单元和稀疏规范化单元；所述分组变量单元，通过聚类算法k-means对全部特征进行自动分组，得到不相交的多个特征分组；所述误差项设置单元，通过使用平方损失衡量模型对每个样本的预测值与真实标签之间的误差，得到模型的误差项；所述去冗余规范化单元，通过使用组冗余性规范化所述全部特征分组，去掉各组特征之间重复的部分；所述稀疏规范化单元，通过使用1-2范数规范化所述全部特征分组，得到模型参数的稀疏化表达。

在所述去冗余规范化单元引入新定义——组冗余性，即给定两组特征和它们对应的系数：x_i:N*p_i，w_i:p_i*1，x_j:N*p_j，w_j:p_j*1，这两组特征的组冗余性用R_ij＝((x_iw_i)^T(x_jw_j))²表示，其中，当x_iw_i与x_jw_j完全相同时，R_ij达到最大值，此时冗余性最大，而当x_iw_i与x_jw_j正交时，R_ij达到最小值为0。

最终得到的模型目标函数为

进一步，步骤S4对步骤S3中提出的目标损失函数进行的优化包括：

先检查步骤S3中提出的模型目标函数中各项的凸性，由范数的特性得出第二项是凸的，而第三项并不总是凸的，所以利用李普希兹连续性分支定界方法对目标函数进行全局优化，得到最优解，从而得到最优特征子集w。

与现有算法相比，本发明具有以下优点：

本发明相对于现有的最小冗余特征选择方法，可以通过设置分组变量来选择低冗余特征，不同组间的信息具有不同的重要程度，使用组冗余性规范项可以去掉各组特征间重复的部分，带来预测精度和速度的提升。

附图说明

图1为本发明实施例基于分组变量的低冗余特征选择方法框图。

具体实施方式

下面结合附图与实施例对本发明做进一步的详细说明。附图均为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅现实与本发明有关的构成。

下面给出本发明的一个实施例，本实施例提供了一种文本特征选择方法，包括以下步骤：

步骤S3：提出去冗余分组特征选择方法的目标函数；

具体的，所述步骤S1中对电子病历数据进行处理后得到的二维数据集为D＝{d_i},i＝1,2,…,N，其中d_i是第i条病人记录，d_i由两种属性构成，即d_i＝{x_i,y_i}，其中x_i＝{x_i1,x_i2,…,x_iJ}表示该病人的J个属性，而y_i＝{0,1}表示该病人是否患有该疾病的类别标签，如y₁＝0表示病人1未患有该疾病，y₁＝1表示病人1患有该疾病。

具体的，所述步骤S2中利用k-means算法将特征矩阵X自动切分为L个小矩阵[x₁,x₂,...,x_L]，其中每个x_l都对应于一组特征，是一个N*p_l的矩阵，而p_l表示分组l中的特征个数，相应地，权重向量w被切分为[w₁,w₂,...,w_L]，每组w_l的长度为p_l，每个wi对应于第i个特征的重要程度，不同组间的信息具有不同的重要程度。所以，选择合适的特征子集问题转换为选择权重向量w中K个具有最高权重的特征。

具体的，所述步骤S3中对所采用的特征选择模型框架中的每项进行具体设置，即在分组变量的基础上，误差项采用平方损失，规范项采用组冗余性和1-2范数，从而得到最终的目标函数，最后对所得最终目标函数进行利用李普希兹连续性分支界定方法的全局优化，得到最优特征子集。

min_w(g(w)+λregularization(w)) (1)

误差项设置单元中对目标函数(1)中的预测误差项进行具体化，将g(w)取为平方损失，即：

去冗余规范化单元中，在分组变量的基础上，引入组冗余性来最小化特征冗余性，本方法首次给出组冗余性的定义。

定义：组冗余性

给定两组特征和它们对应的系数：x_i:N*p_i，w_i:p_i*1，x_j:N*p_j，w_j:p_j*1，这两组特征的组冗余性用R_ij＝((x_iw_i)^T(x_jw_j))²表示，其中，当x_iw_i与x_jw_j完全相同时，R_ij达到最大值，此时冗余性最大，而当x_iw_i与x_jw_j正交时，R_ij达到最小值为0。

稀疏规范化单元中对去冗余规范化中得到的特征子集的规模进一步缩小，可以通过增加一个稀疏规范项，得到模型参数的稀疏化表达，引入如下的1-2范数规范项：

使用1-2范数带来的稀疏性是和分组有关的，即同在一组内的特征更可能同为0或者不为0。

将上述所得具体误差项与规范项整合到所采用框架中，得到最终的目标函数为：

其中最优值w对应每一维特征的重要程度，若w_l＝0，则这一维向量不被选入。λ和β则在具体实验中，经过多次调参得到。

具体的，所述步骤S4中通过使用利用李普希兹连续性的分支界定方法对所得目标函数进行全局优化，得到参数的最优解，从而得到最优特征子集。具体地，因为我们的目标函数并不总是凸的，所以使用利用李普希兹连续性的分支界定方法对所得目标函数进行全局优化，以得到全局最优解，从而可以得到最优特征子集。

首先检查最终目标函数(5)的凸性：

①检查目标函数(5)中第二项，即范数(4)的凸性：

范数函数有以下特征：

(a)f(x)≥0,f(0)＝0

(b)f(θx)＝|θ|f(x)

(c)f(x+y)≤f(x)+f(y) (6)

所以f(θx+(1-θ)y)≤θf(x)+(1-θ)f(y),θ∈(0,1) (7)

函数

②检查目标函数(5)中第三项，即组冗余性(3)的凸性：

通过计算函数

的二阶导数得到：

H_ij＝(A^TD+B^TC)²-4(B^TD)(A^TC) (9)

其中，A＝x_iw_i，B＝x_iv_i，C＝x_jw_j，D＝x_jv_j。当且仅当(A^TD)B^T＝(B^TD)(A^TC)时，二阶导数是非负的，即是凸的。因为目标函数中第三项是所以与(8)有相同的凸性。

综上可知，目标函数(5)并不总是凸的，所以不能使用凸优化方法对其进行优化，需要利用李普希兹连续性的分支界定方法对所得目标函数(5)进行全局优化，以得到全局最优解。

首先我们给出算法的引入想法。算法希望将初始可行域不断分割成小球，直到我们成功找到足够小的包含f(x),x∈D的球。由于我们能找到可行域D内任意球f(x)的下界，我们可以舍去不符合要求的小球，这些小球上的函数值下界比已知的全局最小值还要大，可以舍去。算法1描述了算法的流程。

算法1利用李普希兹函数的分支界定优化方法

输入：优化变量x∈Rⁿ；目标函数f(x),x∈D；误差边界ε；初值x_B；

输出：最优解x*；

1：令k＝0；

2：取B₀为一个球心x_B∈D且范围包含整个可行域D的球，令LB₀＝{B₀}为初始的集合；

3：令U₀＝β(B₀)为minf(x)的初始上界，L₀＝α(B₀)为minf(x)的初始下界；

4：迭代下列步骤：

5：从LB_k中删去使得αB>U_k的球B∈LB_K；

6：选择能取到αB＝L_k的球B∈LB_K；

7：将球B分割成3ⁿ个小球B₁,......,首先去除其中与可行域完全无交集的球，记剩下的这一部分球组成的集合为R_k，令L_k+1＝{L_k/B}∪R_k；

8：令U_k+1＝β(B_k)，L_k+1＝α(B_k)；

9：令k＝k+1；

10：当U_k-L_k>ε时，终止；

11：返回x^*＝L_k作为最优解。

其中，上界β(B)的计算为：为了找到f在可行域D内最小值的一个上界，只需任取一个域内的可行点计算其值即可，即我们取作为上界；下界α(B)的计算为：我们取作为下界的计算，其中有即给出了一个f(x),x∈D的非凸全局下界。

但是，需要明确，本发明并不局限于上文所描述并在图中示出的特定配置和处理。并且，为了简明起见，这里省略对已知方法技术的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神之后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

本发明可以以其他的具体形式实现，而不脱离其精神和本质特征。例如，特定实施例中所描述的算法可以被修改，而***体系结构并不脱离本发明的基本精神。因此，当前的实施例在所有方面都被看作是示例性的而非限定性的，本发明的范围由所附权利要求而非上述描述定义，并且，落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。

本发明相对于现有的最小冗余特征选择方法，可以通过设置分组变量来选择低冗余特征，不同组间的信息具有不同的重要程度，考虑进去组别信息，使用组冗余性规范项可以去掉各组特征间重复的部分，带来预测精度和速度的提升。

Claims

1.一种基于分组变量的低冗余特征选择方法，其特征在于，包括如下步骤：

步骤S2：利用k-means聚类方法构建所述病历的二维特征数据集的自动分组；

步骤S3：提出去冗余分组特征选择方法的模型目标函数；

2.根据权利要求1所述的基于分组变量的低冗余特征选择方法，其特征在于，

所述步骤S1中对已知患病与否的电子病历数据进行处理，得到的已知结果病例的二维特征数据集包括：

对电子病历进行处理，将每个病人的电子病历处理成为一条病人记录，每条病人记录d_i是由两种属性构成的，即d_i＝{x_i，y_i}，其中x_i＝{x_i1，x_i2，...，x_iJ}表示该病人的J个属性，如身高、体重、是否有病史，而y_i＝{0，1}表示该病人是否患有该疾病的类别标签，如y₁＝0表示病人1未患有该疾病，y₁＝1表示病人1患有该疾病，对于所有N个病人的电子病历就得到了N条病人记录，进而构成了二维数据集D＝{d_i}，i＝1，2，...，N。

3.根据权利要求2所述的基于分组变量的低冗余特征选择方法，其特征在于，

所述步骤S2中对二维数据集进行自动分组，得到的数据集分组包括：

利用步骤S2中的k-means聚类方法对数据集进行分组，分组后的二维数据集，即G个数据集分组，每个数据集分组为其中分组个数G可以通过实验进行调优。

4.根据权利要求3所述的基于分组变量的低冗余特征选择方法，其特征在于，

所述步骤S3中在特征选择的设置中，旨在找到一个J*1的权重向量w，其中，每个w_i对应于第i个特征的重要程度；选择合适的特征子集问题转换为选择权重向量w中K个具有最高权重的特征，所采用的特征选择模型框架的形式为：

min_w(g(w)+λregularization(w)) (1)其中，假设预测函数为g，w即为函数的参数，g(w)代表了模型的预测误差，regularization(w)代表了模型中参数的规范化函数，对目标函数(1)进行优化后得到的最优解即为所需的w，

在将全部特征进行分组的基础上，对所采用的特征选择模型框架中的每一项进行具体设置，即误差项采用平方损失，规范项采用组冗余性和1-2范数，从而得到最终的目标函数为：

5.根据权利要求4所述的基于分组变量的低冗余特征选择方法，其特征在于，

利用利普希兹连续性和凸函数特性对步骤3中的目标函数进行优化，得出最优解集w，剔除不相关或冗余的特征，选出真正相关的特征，构建出相应疾病预测模型。