CN106971205A

CN106971205A - 一种基于k近邻互信息估计的嵌入式动态特征选择方法

Info

Publication number: CN106971205A
Application number: CN201710222656.1A
Authority: CN
Inventors: 黄金杰; 孔庆达; 潘晓真
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2017-04-06
Filing date: 2017-04-06
Publication date: 2017-07-21

Abstract

本发明公开了一种基于K近邻互信息估计的嵌入式动态特征选择算法，此方法不仅考虑到特征与类别的相关度和其他特征与特征之间的冗余度，还将单个属性的相关性和冗余性进行了延伸，将相关性和冗余性从二元互信息度量方式延伸到多元互信息的情况，解决了一般互信息求解方法因数据维度和数据量大而引起的计算复杂度大，互信息估算不够准确的问题。然后通过动态特征选择的思想，通过分类器识别可以识别的样本数据，并将其从数据样本集中排除，以此剔除计算信息熵过程中的“虚假信息”，更好地估算互信息。之后与传统的(MRMR)特征选择算法进行对比实验，本算法能够得到特征维数比较低、冗余度比较小但分类准确率较高的特征子集，并且具有比较好的稳定性。

Description

一种基于K近邻互信息估计的嵌入式动态特征选择方法

技术领域

本发明涉及模式识别领域，具体是一种基于K近邻互信息估计的嵌入式动态特征选择方法。

背景技术

随着科学技术的发展，包括计算机技术、信息技术在内的多领域出现了大量的高维度数据信息，这些信息在带给人们许多有用的知识信息的同时也带来了一系列前所未有的困难，给人们带来了许多关于学习任务方面的新挑战。现阶段人们获得和处理的数据大多数是高维数据集，它包含了很多的与分类十分相关的特征，但是也存在很多的无关特征信息和很多冗余特征信息、多特征共线性质的特征信息，有的样本数据中甚至还包含了噪声数据信息，这些无用的特征信息会使得人们在构建学习模型的过程中会产生过拟合或者减弱表征能力的现象，因此不能准确的表征数据集的特点信息。因此特征选择问题应运而生，特征选择的任务就是在高维度数据集中寻找出能够对分类说明力最强的“本征特征”并不会减弱数据样本的数据信息，达到较好的分类准确度，同时消除噪声数据的对分类的影响。

特征选择作为缩小数据集的数据规模、提高数据质量的一种手段被很多研究人员的广泛关注，特征选择的算法进行了分类，分为以下三类过滤式、包裹式、嵌入式。根据特征选择过程特征的评价标准的不同有一致性标准、距离标准、依赖性标准、分类错误率标准和信息量标准等。应运而生的产生一些特征选择的新算法，比如以特征权重为理论依据的Relief算法、以最大相关性和最小冗余性为理论依据的MRMR算法。这些算法或多或少的存在着一些不足之处，比如说在MRMR算法在进行特征选择的过程中只考虑到单一特征属性与类别属性之间的相关性和单一特征属性与已选特征之间的冗余性，忽视了多特征集与多特征集之间同样也存在着相互作用关系。同时人们常用来衡量两变量之间的相互关系的互信息的估算方法仍未足够的有效，仅考虑特征与类别之间的相互关系以及特征与已选特征之间的相互关系，没有将随着特征被选择样本数据被不断被确定，信息熵的估算值在不断变化的动态过程表现出来。

基于以上的原因，本发明提出了一种基于k近邻的互信息估算方法，并且很好的估算了多元互信息的大小，并将其应用到我们的特征选择算法中，提出一种基于K近邻互信息的嵌入式动态特征选择方法(KDIFS)，运用多个特征间的相互关系这个切入点去研究特征与类别属性间的相互关系，杜绝对单一特征的过分依赖问题，提出的嵌入式动态特征选择算法，通过嵌入的分类器将已识别的样本数据进行剔除，以此保证信息熵估算的准确性、实时性。通过实验对此算法进行验证，该方法有较好的稳定性和有效性。

发明内容

本发明的目的在于提供一种基于K近邻互信息估计的嵌入式动态特征选择方法，以解决上述背景技术中提出的问题；为实现上述目的，本发明提供如下技术方案：具体是一种基于K近邻互信息估计的嵌入式动态特征选择方法包括以下步骤：

首先介绍传统基于互信息的特征选择方法。

1数据集合预处理

当今在现实世界中数据库极其容易受到噪声数据、空缺数据、以及不一致数据的侵扰，现阶段有大量的数据预处理技术，大体上可以分为数据清理、数据集成、数据变换和数据规约技术。数据清理可以清除数据中噪声数据、纠正不一致，自行填补样本数据的缺失数据，数据变换(数据规范化)可以改进涉及距离度量的算法的精度和有效性。比如人们希望数据满足某种特定的数据分布，或者希望将每个数据特征映射到某一段特定的数据区间内，都是需要进行数据变换。对于本文而言数据集合的预处理主要分一下几个部分：第一将数据集合中的噪声数据和不一致数据空缺数据进行处理。第二将数据集中与分类完全不相关的属性数据进行删除。第三将属性数据进行范数归一化处理使范数归一化为1，则有：

2互信息的相关知识

特征选择的选择目标是选择出对于分类最有价值的特征属性，特征选择中关键性需要解决的问题有两个方面：一方面是度量标准问题，一方面是特征的评价函数的选择问题。在数据分类的研究过程中，如果一个特征属性与类别属性有强的相关性，那么该属性对于分类来说是十分重要的属性，如果一个特征属性与类别属性有弱的相关性，那么该属性对于分类来说是非重要的属性，因此针对这种相关性问题讨论，选择信息论中的互信息作为度量标准来分析属性间的相关性。下面介绍一下信息论中相关理论和运算规则。

信息熵是信息论理论中至关重要的概念，信息熵是表征变量的一种不确定程度，目的是表述信息含量的多少。

其中，p(x_i)表示变量X取值为xi的概率，变量X的不确定程度就可以用信息熵H(X)来表示，H(X)值的大小只与变量的概率分布有关系，故在信息熵有效的克服了部分噪声数据的干扰。

条件熵是指已知一个变量的条件下，另一个变量的不确定程度，即一个变量对另一个变量的依赖程度的强弱程度，故随机变量X对另一个随机变量Y的依赖程度可以用条件熵来表征。

其中，p(x_i)表示变量X的先验概率p(x_i|y_j)表示变量Y在已知的条件下变量X的后验概率。

互信息是表征两个随机变量之间的相互依赖程度，表示两个变量之间的共同拥有的信息量的多少，当互信息的值为0即为最小值表示两个变量之间不存在相同的信息，当互信息值较大时表示两个变量所包含的相同信息比较多。定义为：

I(X；Y)＝H(X)-H(X|Y) (4)

互信息能够非常有效的反映出两个随机变量之间的相互关系，并且能通过数值的形式表示出来，用数值的大小来表述两个随机变量之间的相互关系的紧密程度，但是在计算两个随机变量相互的信息量的同时还要考虑信息的增长情况，如果直接用互信息的大小来选择特征，将会选择那些取值比较大的特征，所以将互信息进行归一化处理，处理过程中采用对称不确定性SU度量特征变量与特征变量之间的相互关系的程度公式如下：

由公式(5)可以看出SU相关度量值的变化范围是由0到1，如果SU的值为0，表示X与Y不存在相关性，即X与Y是相互独立的。如果SU的取值为1，表示X与Y存在很强的相关性，如果X与Y分别表示属性信息和类别信息，SU的值越大则表示特征对于类别的选择存在强相关性。如果X与Y分别表示两个属性信息，SU的值越大则表示特征与特征之间，属性与属性之间最在很强的冗余性，由于以上的相关论述借鉴MRMR算法中最大相关最小冗余的核心思想，提出在特征选择过程中对选择特征的评价函数的定义形式，形式如下：

其中，SU(S∪f_i,C)表示将备选特征加入已选特征集后与类别属性C之间的相关关系，SU(f_s,f_i)表示备选特征与已选特征之间的冗余程度，在这里将传统的惩罚因子进行了改进，改为1/|S|，|S|表示已选特征集中特征的个数。这样克服了传统惩罚因子需要人工设置的不足。

3.K近邻的多元互信息的估算方法

在特征选择算法过程中，计算信息论中互信息的大小是尤为重要的，是提高基于互信息特征选择算法准确度的根本方法。互信息的计算方法是基于概率估算为基础的，较好的估算概率，对于互信息的估算是尤为重要的[1]。常见的互信息的估算方法有直方图法和核函数计算法，直方图法计算方法简单直接，但是互信息的准确度不高，核函数计算法计算的准确度较准确，但是计算的复杂度相对较高。对于现阶段数据是高维大数据，对于以上的两种计算方法均不是十分合适，并且互信息的计算方法多数是进行两个变量的互信息的计算，对于多元的互信息的计算并不完善，多元互信息的计算方法急需解决。

提出基于k近邻的互信息计算方法，由变量X和变量Y构成的二维空间中，每一个二维空间中的点都可以用z_i(x_i,y_i)表示，分别计算每一个点z_i(x_i,y_i)与其他点的距离，并将距离进行排序，点z_i(x_i,y_i)到k近邻距离的为r_ki/2；r_kxi/2为点z_i(x_i,y_i)的第k个近邻点在X轴上相对应的距离，r_kyi/2为点z_i(x_i,y_i)的第k个近邻点在Y轴上相对应的距离，n_xi表示点z_i相对应的X轴距离r_xi/2小于r_kxi/2的样本数据数量；n_yi表示点z_i相对应的Y轴距离r_yi/2小于r_kyi/2的样本数据数量，样本数量为N。

H(X)＝-∫dxu(x)logu(x) (7)

其中u(x)为变量X的概率密度函数，可将公式(7)进行无差别的估算为下式

为了很好的对logu(x_i)进行估算，通过相关知识设P_k(ε)为样本点x_i与样本点x_i的第k个近邻样本点的概率分布，在不考虑样本点本身的情况下，有k-1个样本点在k近邻的较小范围内，有N-k-1个样本点在非k近邻的相对较大的范围内，N为样本数量，p_i(ε)为样本点x_i在ε范围内的概率分布情况。。

经过传统概率的二项式分布可以计算得出：

经分析P_k(ε)dε也为样本点x_i在ε范围内的概率分布情况。

E(logp_i(ε))＝∫dεP_k(ε)·logp_i(ε) (10)

结合(9)(10)(11)可得出

E(logp_i(ε))＝φ(k)-φ(N) (12)

假设密度函数u(x)在很小范围内是恒定不变化的，故可得

p_i(ε)≈Cd·dε·u(x_i) (13)

logu(x_i)≈φ(k)-φ(N)-d(E(log(ε)))-logCd (14)

推导可知道

同样的计算方法，计算变量Z＝(X,Y)的信息熵，得出以下公式(17)，公式(17)与公式(15)形式上没有太大的区别，只有微小的更改，其中dz＝dx+dy。

则变量X和变量Y之间的互信息可以通过公式(16)(17)进行计算：

其中k表示k近邻中近邻的数目；N表示样本变量的数量；φ是Γ函数，Γ函数可以通过迭代函数表示；

互信息估算方式从二元互信息拓展到多元互信息的估算方式：

综上所述通过公式(6)(8)(9)(10)(11)特征选择算法中的评价函数简化为：

J(f_i)＝SU(S∪f_i,C)-SU(S,f_i) (22)

其中，SU的计算方法与公式(5)的计算方式相似唯一的不同是将SU计算方法中二元互信息的计算方法改为多元互信息的计算方式进行计算。

4嵌入式的动态选择

基于互信息的度量标准，首先我们要对特征在样本数据集中的概率分布情况进行合理的计算，对于样本数据确定以后，特征在所在样本数据集的概率也就是唯一的确定下来，但随着特征的不断被选择出来，样本数据集中的样本数据将被不断的识别出来，那么在互信息的计算过程中将会有所变化，如果仍然选择传统基于互信息的计算方法将会产生较大的误差，因此，已识别的样本数据对未被选择的特征在计算方面提供了一些“虚假信息”。

对于算法中提出的动态的特征选择，主要的研究内容是如何识别那些可以通过已选特征识别的样本数据，并将数据从数据集中剔除，并根据剩余的样本数据计算信息熵，本文选择在算法运行的过程中嵌入一种分类器来进行样本的识别，本文选择嵌入KNN分类器来识别可识别样本，并将经过KNN分类器识别的样本数据从样本数据集中的删除，在不改变特征与类别相关性的同时，降低了数据集的样本数据的个数和特征的维数。

附图说明

图1基于K近邻互信息估计的嵌入式动态特征选择算法

图2 Wine数据集在KNIFS算法与MRMR算法的比较

图3 Wine数据集在KNIFS算法与FISHER算法的比较

图4 Zoo数据集在KNIFS算法与MRMR算法的比较

图5 Zoo数据集在KNIFS算法与FISHER算法的比较

图6 Wine数据集K＝7KNIFS算法与K＝14KNIFS算法比较

图7 Wine数据集K＝7KNIFS算法与K＝19KNIFS算法比较

具体实施方式

将特征集合分为两个部分，分别是已选择特征集合和备选的特征集合，分别用S和F表示。类别属性用C表示，样本数据集用O表示。

首先，根据公式(7)计算所有特征与类别属性之间的相互关系程度，并进行有小到大排序。

然后，将排序最大f的特征加入到集合S中并将此特征从备选特征集合F中删除。

然后，将f中剩余的特征分别根据特征的评价函数公式(12)进行计算，选出评价函数最大的特征并将其加S中，与此同时将f从特征块中删除，再根据公式(13)通过欧式距离d，查找样本的最近邻样本，样本数量为k，这数量为k的最近邻样本构成一个近邻数据集合

其中，C＝{c₁,c₂…c_M}，M为类别的个数，样本集中样本的数量为N。为将要进行样本分类的样本。

最后，将近邻数据集中的数据点经过最大投票准则来判断样本数据的分类属性。由KNN分类器判断样本集中的样本的类别，并判断样本数据是否被正确分类，如果被正确分类则将样本数据从数据样本集合中删除，再从新计算特征块的其他特征属性的信息熵，重复步骤(3)的操作，否则直接重复步骤(3)的操作，操作主要特征块，完成后就继续操作次要特征块

直到满足算法的终止条件，就终止算法的操作。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明；因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求；

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于K近邻互信息估计的嵌入式动态特征选择方法，其特征在于，包括以下步骤：

首先介绍传统基于互信息的特征选择方法。

1数据集合预处理

{\hat{f}}_{i} = \frac{f_{i}}{| | f_{i} | |} - - - (1)

2互信息的相关知识

H (X) = - Σ_{i = 1}^{n} p (x_{i}) \log p (x_{i}) - - - (2)

H (X | Y) = - Σ_{j = 1}^{m} p (y_{j}) Σ_{i = 1}^{n} p (x_{i} | y_{j}) l o g 2 p (x_{i} | y_{j}) - - - (3)

I(X；Y)＝H(X)-H(X|Y) (4)

S U (X, Y) = \frac{2 I (X; Y)}{H (X) + H (Y)} - - - (5)

J (f_{i}) = S U (S \cup f_{i}, C) - \frac{1}{| S |} \underset{f_{s} &Element; S}{Σ} S U (f_{s}, f_{i}) - - - (6)

其中，SU(S∪f_i,C)表示将备选特征加入已选特征集后与类别属性C之间的相关关系，SU(f_s,f_i)表示备选特征与已选特征之间的冗余程度，在这里将传统的惩罚因子进行了改进，改为1/S，|S|表示已选特征集中特征的个数。这样克服了传统惩罚因子需要人工设置的不足。

3.K近邻的多元互信息的估算方法

H(X)＝-∫dxu(x)logu(x) (7)

H (X) = - \frac{1}{N} Σ_{i = 1}^{N} \log u (x_{i}) - - - (8)

经过传统概率的二项式分布可以计算得出：

P_{k} (ϵ) = {kC}_{N - 1}^{k} \frac{{dp}_{i} (ϵ)}{d ϵ} {(p_{i} (ϵ))}^{k - 1} {(1 - p_{i} (ϵ))}^{N - k - 1} - - - (9)

经分析P_k(ε)dε也为样本点x_i在ε范围内的概率分布情况。

E(logp_i(ε))＝∫dεP_k(ε)·logp_i(ε) (10)

φ (x) \approx \log x - \frac{1}{2 x} - - - (11)

结合(9)(10)(11)可得出

E(logp_i(ε))＝φ(k)-φ(N) (12)

假设密度函数u(x)在很小范围内是恒定不变化的，故可得

p_i(ε)≈Cd·dε·u(x_i) (13)

logu(x_i)≈φ(k)-φ(N)-d(E(log(ε)))-logCd (14)

推导可知道

H (X) = - φ (k) + φ (N) + \frac{d Σ_{i = 1}^{N} l o g ϵ (i)}{N} + \log C d - - - (15)

H (X) = - \frac{1}{N} Σ_{i = 1}^{N} φ (n_{x i}) + φ (N) + \frac{d Σ_{i = 1}^{N} l o g ϵ (i)}{N} + \log C d - - - (16)

H (X, Y) = - φ (k) + φ (N) + \frac{d_{x} Σ_{i = 1}^{N} \log ϵ (i) + d_{y} Σ_{i = 1}^{N} l o g ϵ (i)}{N} + l o g (C d x \cdot C d y) - - - (17)

则变量X和变量Y之间的互信息可以通过公式(16)(17)进行计算：

I (X; Y) = φ (k) - \frac{1}{N} Σ_{i = 1}^{N} (φ (n_{x i} + 1) + φ (n_{y i} + 1)) + φ (N) - - - (18)

\{\begin{matrix} φ (1) = - 0.5772516 \\ φ (x + 1) = φ (x) + \frac{1}{x} \end{matrix}\} - - - (19)

\begin{matrix} I (X_{1}; X_{2}; X_{3}; ... X_{m}) \\ = φ (k) + (m - 1) φ (N) \\ - \frac{1}{N} Σ_{i = 1}^{N} (φ (n_{x 1} + 1) + φ (n_{x 2} + 1) + φ (n_{x 3} + 1) ... φ (n_{x m} + 1)) \end{matrix} - - - (20)

\begin{matrix} I (X_{1}; X_{2}; X_{3}; ... Y) \\ = φ (k) + (m - 1) φ (N) \\ - \frac{1}{N} Σ_{i = 1}^{N} (φ (n_{x 1} + 1) + φ (n_{x 2} + 1) + φ (n_{x 3} + 1) ... φ (n_{y} + 1)) \end{matrix} - - - (21)

J(f_i)＝SU(S∪f_i,C)-SU(S,f_i) (22)

4嵌入式的动态选择

2.根据权利要求1所述的一种基于K近邻互信息估计的嵌入式动态特征选择方法，其特征在于：将互信息的计算方法上将传统两个变量的互信息拓宽到多个变量之间的互信息的计算方法将互信息的计算更加准确，并且在方法运行的过程中嵌入一种分类器来进行样本的识别，选择嵌入KNN分类器来识别可识别样本，并将经过KNN分类器识别的样本数据从样本数据集中的删除，在不改变特征与类别相关性的同时，降低了数据集的样本数据的个数和特征的维数。

\begin{matrix} I (X_{1}; X_{2}; X_{3}; ... X_{m}) \\ = φ (k) + (m - 1) φ (N) \\ - \frac{1}{N} Σ_{i = 1}^{N} (φ (n_{x 1} + 1) + φ (n_{x 2} + 1) + φ (n_{x 3} + 1) ... φ (n_{x m} + 1)) \end{matrix} - - - (23)

\begin{matrix} I (X_{1}; X_{2}; X_{3}; ... Y) \\ = φ (k) + (m - 1) φ (N) \\ - \frac{1}{N} Σ_{i = 1}^{N} (φ (n_{x 1} + 1) + φ (n_{x 2} + 1) + φ (n_{x 3} + 1) ... φ (n_{y} + 1)) \end{matrix} - - - (24)

J(f_i)＝SU(S∪f_i,C)-SU(S,f_i) (25)

改进后的一种基于K近邻互信息估计的嵌入式动态特征选择方法，通过信息论中互信息的相关理论知识，本发明所描述的基于K近邻互信息的嵌入式动态特征选择算法，在合理的分析了特征属性与特征属性之间的相互关系、特征属性与类别属性的相互关系。并且对互信息的计算方法进行了更加准确的估算，通过K近邻的互信息的计算方法对互信息计算延伸到多元的互信息的计算，对特征选择算法的研究起到了更好的拓展作用，通过验证，数据结果通过分类的准确率的评价标准对实验结果进行分析，表明特征选择算法的可以获得比较好的特征子集，降低特征维度，是分类的效果越来越好，并且具有较好的稳定性。