CN106503731A

CN106503731A - 一种基于条件互信息和K‑means的无监督特征选择方法

Info

Publication number: CN106503731A
Application number: CN201610888945.0A
Authority: CN
Inventors: 马廷淮; 邵文晔; 曹杰; 薛羽
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2016-10-11
Filing date: 2016-10-11
Publication date: 2017-03-15

Abstract

本发明提供一种基于条件互信息和K‑means的无监督特征选择方法，首先通过多次初始条件不同的K‑means算法对无类标签的数据进行聚类，然后每一次的聚类基础上，综合考虑每个特征的模块化度量值及不同特征之间的条件互信息，利用特征之间的相关独立性指标来选择出相关度高且冗余度小的特征子集。通过将不同K‑means聚类结果得到的特征子集进行汇总，获得最终的特征子集。本发明能够有效地应用于无标签和不平衡的数据集，且获得的特征子集相关度高、冗余度小。

Description

一种基于条件互信息和K-means的无监督特征选择方法

技术领域

本发明属于机器学习领域的特征选择问题，具体涉及的是一种利用条件互信息与K-means算法对无标签数据集进行无监督特征选择的方法。

背景技术

在机器学习的实际应用中，特征数量往往较多，其中可能存在不相关的特征，特征之间也可能存在相互依赖。特征个数越多，分析特征、训练模型所需的时间就越长，而且容易引起“维度灾难”，使模型更为复杂，从而带来模型推广能力下降等后果。因此，进行特征选择尤为重要。

特征选择也称特征子集选择或属性选择，是指从全部特征中选取一个特征子集，使构造出来的模型更好。特征选择能剔除不相关或冗余的特征，从而达到减少特征个数，提高模型精确度，减少运行时间的目的。另一方面，选取出真正相关的特征简化了模型，使研究人员易于理解数据产生的过程。

根据搜索最优特征子集与构建学习模型的结合方式的不同，特征选择方法可以大致分为封装式特征选择(Wrapper)和过滤式特征选择(Filter)两类。封装式特征选择不断重复地运行学习算法去评估属性集的好坏，它在精度上优于过滤式特征选择，但对于其他分类器来说，它的泛化性能较差。面对高维数据集，由于封装式特征选择需要与特定的学习算法紧密结合，因此学习过程中的计算复杂度很高。过滤式特征选择不需要特定的学习算法，而是使用合适的准则来快速评价特征的好坏，因此是一种计算效率较高的方法。

现有的大部分传统特征选择方法是以提高分类精度为优化目标，没有充分考虑数据样本的分布状况，且普遍追求大类的学***衡的问题，在数据层面上，可以在训练前对训练集的正类样本进行重抽样，从而使正负类样本达到平衡，然后再进行相应的学***衡性的特点对传统特征选择算法进行改进，以使算法适应类别分布不均衡的样本(不均衡问题中的特征选择新算法:IM-IG.尤鸣宇,陈燕,李国正),但这种方法局限于二类不均衡问题，对于多类不均衡问题并不适用。

对于过滤式特征选择而言，目前已有许多监督式特征选择方法被提出，如应用互信息对候选特征进行评估，并选择排名最前的几个特征作为神经网络分类器的输入(Usingmutual information for selecting features in supervised neural netlearning.R.Battiti)，但这种方法忽略了特征之间的冗余，从而导致选择许多冗余的特征，并且不利于后续分类器的性能提高。而且这种方法仅适用于带有类标签信息的数据，对于无监督的特征选择并不适用。

在无监督特征选择领域，许多应用于文本的无监督特征选择方法被提出，但是这些方法无法直接应用于数值型数据。部分应用于数值数据的无监督特征选择方法，如面向分类特征的无监督过滤式特征选择算法，以一趟聚类算法为基础，利用各个特征在不同簇间所表现的重要性程度作为判断依据，最后根据重要性的变化规律选取特征子集(面向分类特征的无监督特征选择方法研究.王连喜,蒋盛益)，这种方法仅使用一趟聚类算法对数据进行划分，使得聚类的结果存在随机性，无法保证特征选择的准确性。

本发明首先通过多次初始条件不同的K-means算法对无类标签的数据进行聚类，然后在此聚类基础上，综合考虑每个特征的模块化度量值及不同特征之间的条件互信息，获得相关度高且冗余度小的特征子集，最后将不同K-means聚类结果得到的特征子集进行汇总。

发明内容

目的：本发明所要解决的技术问题是无标签数据集的特征选择问题，提出一种基于条件互信息和K-means的无监督特征选择方法。通过多次初始条件不同的K-means算法对无类标签的数据进行聚类，消除单次聚类结果上进行特征选择的随机性，并减少数据不平衡对特征选择的影响。在每一次的聚类的基础上，综合考虑每个特征的模块化度量值及不同特征之间的条件互信息，利用特征之间的相关独立性指标来选择出相关度高且冗余度小的特征组合。通过将不同K-means聚类结果得到的特征子集进行汇总，获得最终的特征子集。本发明能够有效地应用于无标签和不平衡的数据集，且获得的特征子集相关度高、冗余度小。

本发明的技术方案如下：

一种基于条件互信息和K-means的无监督特征选择方法，包括以下步骤：

步骤1)，对无标签数据集进行多次不同K值和不同聚类中心的K-means聚类，并获得每次的聚类结果；

步骤2)，根据步骤1)得到的不同聚类结果，依次针对每次的聚类结果构造各个特征的特征向量图；

步骤3)，根据步骤2)构造出的特征向量图，计算每个特征的模块化度量值，并将模块化度量值最大的特征放入特征子集中；

步骤4)，根据步骤3)得到的初始特征子集，计算每个剩余特征相对于特征子集里各个特征的条件互信息，从而计算出每个剩余特征相对于特征子集的相关独立性度量值；

步骤5)，将步骤3)得到的每个剩余特征的模块化度量值与步骤4)得到的相关独立性度量值以一定权重相加，将计算结果作为每个剩余特征的得分；

步骤6)，将步骤5)得到的得分最高的特征放入特征子集中，然后迭代地进行步骤4)、步骤5)、步骤6)，直到特征子集中的特征个数达到所需要的个数；

步骤7)，将步骤6)得到的根据不同K-means聚类结果形成的特征子集进行汇总，得到最终的特征子集。

进一步的，本发明的基于条件互信息和K-means的无监督特征选择方法，步骤1)对无标签数据集进行多次不同K值和不同聚类中心的K-means聚类，并获得每次的聚类结果。本发明首先使用K-means聚类算法对无标签数据集进行多次初始值不同的聚类。初始化时，人为地指定K-means聚类算法的最大聚类个数和最小聚类个数，以及聚类次数。每一次进行聚类时，K-means算法在最大聚类个数和最小聚类个数之间随机选择一个数作为簇的数目k，并在数据集中随机选择k个点作为初始质心，通过K-means聚类算法，可以依次得到每一次聚类的结果，即类标签C。

进一步的，本发明的基于条件互信息和K-means的无监督特征选择方法，步骤2)根据步骤1)得到的不同聚类结果，依次针对每次的聚类结果构造各个特征的特征向量图。对数据集中某一特征的特征向量图的构造，是在该特征下特征值和类标签已知的情况下，将每个样本作为一个点，假设某个样本所在的类包含了x个样本，则将该样本所对应的点与和它特征值最接近的x-1个样本点相连接，在同一特征下对数据集中的所有样本执行以上的操作，即可构造出该特征的特征向量图。

进一步的，本发明的基于条件互信息和K-means的无监督特征选择方法，步骤3)根据步骤2)构造出的特征向量图，计算每个特征的模块化度量值，计算公式为：

公式中，i、j是步骤2)构造出的特征向量图中的两个点；A_ij是特征向量图的邻接矩阵，如果从i到j存在边，则A_ij＝1，否则为0；M是总连接数，即特征向量图中边的总数；k_i和k_j分别是节点i和j的度数；二元函数δ(C_i,C_j)表示如果节点i和j属于同一个簇，则为1，否则为0；根据每个特征的特征向量图计算出各自的模块化度量值之后，将所有的模块化度量值进行归一化，得到Q’，将Q’最大值所对应的特征放入特征子集中。

进一步的，本发明的基于条件互信息和K-means的无监督特征选择方法，步骤4)根据步骤3)得到的初始特征子集，计算每个剩余特征相对于特征子集里各个特征的条件互信息，从而计算出每个剩余特征相对于特征子集的相关独立性度量值，计算公式为：

公式中，f_r是未被选入特征子集的剩余特征，f_j是特征子集中的特征，S是特征子集；其中RI(f_r,f_j)表示剩余特征f_r相对于特征子集中特征之一f_j的相关独立性，计算公式为：

公式中，H(C)是目标变量C的熵，I(f_r；C|f_j)和I(f_j；C|f_i)是特征f_r与特征f_j的条件互信息，计算公式为：

公式中，N是数据集中样本的个数，C是类的数量。计算出每个剩余特征相对于特征子集的相关独立性度量值之后，将所有的相关独立性度量值进行归一化，得到I_ri'。

进一步的，本发明的基于条件互信息和K-means的无监督特征选择方法，步骤5)将步骤3)得到的每个剩余特征的规范化模块化度量值与步骤4)得到每个剩余特征的规范化相关独立性度量值以一定权重相加，即：s＝wQ'+(1-w)I_ri',公式中的w人为指定，取值范围为[0,1]，将计算结果作为每个剩余特征的得分。

进一步的，本发明的基于条件互信息和K-means的无监督特征选择方法，步骤6)将步骤5)得到的s最大值所对应的特征放入特征子集中，然后迭代地进行步骤4)、步骤5)、步骤6)，直到特征子集中的特征个数达到所需要的个数，特征个数人为指定。

进一步的，本发明的基于条件互信息和K-means的无监督特征选择方法，步骤7)将步骤6)得到的根据不同K-means聚类结果形成的特征子集进行汇总，根据所需要的特征个数选出出现次数最多的几个特征，构成最终的特征子集。

有益效果

本发明针对机器学***衡对特征选择的影响，弥补了以往特征选择方法对不平衡数据集特征选择效果不理想或仅适用于有标签数据集的缺陷；同时，为了获得相关度高、冗余度小的特征子集，本方法在每一次的聚类基础上，综合考虑每个特征的模块化度量值及不同特征之间的条件互信息，利用特征之间的相关独立性指标来选择出相关度高且冗余度小的特征组合，通过将多次提取出的特征子集进行汇总，获得最终的特征子集。K-means算法与条件互信息的结合，使得该特征选择算法既能应用于平衡或非平衡的无标签数据集，又能提升特征子集的相关度，降低其冗余度，从而选择出最重要的特征集合。

附图说明

图1是基于条件互信息和K-means的无监督特征选择方法的流程图。

图2是对数据集构造特征向量图的例子。

具体实施方式

下面结合附图对技术方案的实施作进一步的详细描述：

结合流程图及实施案例对本发明所述的基于条件互信息和K-means的无监督特征选择方法作进一步的详细描述。

本实施案例采用条件互信息和K-means算法对无标签的数据集进行特征选择。如图1所示，本方法包含如下步骤：

步骤10，对无标签数据集进行多次不同K值和不同聚类中心的K-means聚类，并获得每次的聚类结果；

步骤101，K-means算法的最大聚类个数MAX和最小聚类个数MIN是在输入阶段预先给定的，每次聚类前，在[MAX,MIN]范围内随机选择一个数作为簇的个数k，并在数据集中随机选择k个点作为初始质心；

步骤102，进行K-means聚类算法的总次数T是在输入阶段预先给定的，每执行过一次K-means算法，可以得到一组聚类结果即类标签C，重复进行K-means聚类，直到聚类次数达到预先设定的总次数，最终可以得到T组不同的聚类结果；

步骤20，根据上一步得到的聚类结果，依次针对每次的聚类结果构造各个特征的特征向量图；

步骤201，对数据集中某一特征的特征向量图的构造，是在该特征下，样本的特征值和类标签已知的情况下，首先将每个样本作为一个点，如图2所示的包含两个特征的数据，右侧的每个圆点和方点都表示一个样本，点旁边的数字表示该点所对应的特征值的大小；

步骤202，若某个样本所在的类包含的样本总数为x个，则将该样本所对应的点与和它特征值最接近的x-1个样本点相连，如图2所示，样本1所在的类为C1，C1类包含的样本总数为4个，则将样本1所对应的点与和它特征值最接近的3个样本点，即样本2、样本7、样本6相连；

步骤203，对同一特征下数据集中的所有样本执行步骤202的操作，即可构造出该特征的特征向量图；

步骤204，对数据集中所有特征执行步骤201-203的操作，即可构造出所有特征的特征向量图，如图2所示，左侧包含2个特征的数据集，经过步骤10的一趟K-means聚类之后得到了类标签C1和C2，右侧分别是特征1和特征2所对应的特征向量图；

步骤30，根据上一步构造出的特征向量图，计算每个特征的模块化度量值，并将模块化度量值最大的特征放入特征子集中；

步骤301，根据公式计算每个特征各自的模块化度量值；

步骤302，将各个特征的模块化度量值进行归一化处理，得到Q’；

步骤303，将Q’最大值所对应的特征放入特征子集中，并将其从剩余特征中删除；

步骤40，根据上一步得到的特征子集，计算每个剩余特征相对于特征子集的相关独立性度量值；

步骤401，根据条件互信息公式计算出I(f_r；C|f_j)和I(f_j；C|f_i)的值，即剩余特征与已选特征的条件互信息；

步骤402，根据公式计算各个剩余特征相对于特征子集中某一特征的相关独立性；

步骤403，根据公式计算各个剩余相对于特征子集的相关独立性度量值；

步骤404，将各个剩余特征的相关独立性度量值进行归一化处理，得到I_ri'；

步骤50，将根据步骤30得到的每个剩余特征的模块化度量值Q’和步骤40得到的每个特征的相关独立性度量值I_ri'以一定的权重相加，将计算结果作为每个剩余特征的得分；

步骤501，模块化度量值和相关独立性度量值的权重w在输入阶段预先设定，取值范围为[0,1]，默认设置为0.3；

步骤502，根据公式s＝wQ'+(1-w)I_ri'，计算每个剩余特征的得分；

步骤60，将上一步得分最高的特征放入特征子集中，并将其从剩余特征中删除，重复执行步骤40、步骤50、步骤60，直到特征子集中的特征个数达到所需要的个数，需要的特征个数a在输入阶段预先设定；

步骤70，将上一步得到的根据不同K-means聚类结果形成的特征子集进行汇总，根据需要的特征个数选出出现次数最多的a个特征，构成并输出最终的特征子集。

Claims

1.一种基于条件互信息和K-means的无监督特征选择方法，其特征在于，包括以下步骤：

2.如权利要求1所述的方法，其特征在于，步骤1)对无标签数据集进行多次不同K值和不同聚类中心的K-means聚类，并获得每次的聚类结果；初始化时，人为地指定K-means聚类算法的最大聚类个数和最小聚类个数，以及聚类次数；每一次进行聚类时，K-means算法在最大聚类个数和最小聚类个数之间随机选择一个数作为簇的数目k，并在数据集中随机选择k个点作为初始质心，通过K-means聚类算法，依次得到每一次聚类的结果，即类标签C。

3.如权利要求1所述的方法，其特征在于，进一步的，步骤2)根据步骤1)得到的不同聚类结果，依次针对每次的聚类结果构造各个特征的特征向量图；对数据集中某一特征的特征向量图的构造，是在该特征下特征值和类标签已知的情况下，将每个样本作为一个点，假设某个样本所在的类包含了x个样本，则将该样本所对应的点与和它特征值最接近的x-1个样本点相连接，在同一特征下对数据集中的所有样本执行以上的操作，即可构造出该特征的特征向量图。

4.如权利要求1所述的方法，其特征在于，步骤3)根据步骤2)构造出的特征向量图，计算每个特征的模块化度量值，计算公式为：

Q = \underset{i j}{Σ} [\frac{A_{i j}}{2 M} - \frac{k_{i} * k_{j}}{(2 M) * (2 M)}] δ (C_{i}, C_{j})

5.如权利要求1所述的方法，其特征在于，步骤4)根据步骤3)得到的初始特征子集，计算每个剩余特征相对于特征子集里各个特征的条件互信息，从而计算出每个剩余特征相对于特征子集的相关独立性度量值，计算公式为：

I_{r i} (f_{r}; C | S) = \underset{f_{j} &Element; S}{Σ} R I (f_{r}, f_{j})

R I (f_{r}, f_{j}) = \frac{I (f_{r}; C | f_{j}) + I (f_{j}; C | f_{i})}{2 H (C)}

I (X_{i}; Y | X_{j}) = Σ_{i = 1}^{N} Σ_{j = 1}^{N} Σ_{k = 1}^{C} p (x_{i}, x_{j}, y_{k}) \log \frac{p (x_{i}, y_{k} | x_{j})}{p (x_{i} | x_{j}) p (y_{k} | x_{j})}

6.如权利要求1所述的方法，其特征在于，步骤5)将步骤3)得到的每个剩余特征的规范化模块化度量值与步骤4)得到每个剩余特征的规范化相关独立性度量值以一定权重相加，即：s＝wQ'+(1-w)I_ri',公式中的w人为指定，取值范围为[0,1]，将计算结果作为每个剩余特征的得分。

7.如权利要求1所述的方法，其特征在于，步骤6)将步骤5)得到的s最大值所对应的特征放入特征子集中，然后迭代地进行步骤4)、步骤5)、步骤6)，直到特征子集中的特征个数达到所需要的个数，特征个数人为指定。

8.如权利要求1所述的方法，其特征在于，步骤7)将步骤6)得到的根据不同K-means聚类结果形成的特征子集进行汇总，根据所需要的特征个数选出出现次数最多的几个特征，构成最终的特征子集。