CN106971205A - 一种基于k近邻互信息估计的嵌入式动态特征选择方法 - Google Patents

一种基于k近邻互信息估计的嵌入式动态特征选择方法 Download PDF

Info

Publication number
CN106971205A
CN106971205A CN201710222656.1A CN201710222656A CN106971205A CN 106971205 A CN106971205 A CN 106971205A CN 201710222656 A CN201710222656 A CN 201710222656A CN 106971205 A CN106971205 A CN 106971205A
Authority
CN
China
Prior art keywords
data
mutual information
phi
feature
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710222656.1A
Other languages
English (en)
Inventor
黄金杰
孔庆达
潘晓真
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN201710222656.1A priority Critical patent/CN106971205A/zh
Publication of CN106971205A publication Critical patent/CN106971205A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于K近邻互信息估计的嵌入式动态特征选择算法,此方法不仅考虑到特征与类别的相关度和其他特征与特征之间的冗余度,还将单个属性的相关性和冗余性进行了延伸,将相关性和冗余性从二元互信息度量方式延伸到多元互信息的情况,解决了一般互信息求解方法因数据维度和数据量大而引起的计算复杂度大,互信息估算不够准确的问题。然后通过动态特征选择的思想,通过分类器识别可以识别的样本数据,并将其从数据样本集中排除,以此剔除计算信息熵过程中的“虚假信息”,更好地估算互信息。之后与传统的(MRMR)特征选择算法进行对比实验,本算法能够得到特征维数比较低、冗余度比较小但分类准确率较高的特征子集,并且具有比较好的稳定性。

Description

一种基于K近邻互信息估计的嵌入式动态特征选择方法
技术领域
本发明涉及模式识别领域,具体是一种基于K近邻互信息估计的嵌入式动态特征选择方法。
背景技术
随着科学技术的发展,包括计算机技术、信息技术在内的多领域出现了大量的高维度数据信息,这些信息在带给人们许多有用的知识信息的同时也带来了一系列前所未有的困难,给人们带来了许多关于学习任务方面的新挑战。现阶段人们获得和处理的数据大多数是高维数据集,它包含了很多的与分类十分相关的特征,但是也存在很多的无关特征信息和很多冗余特征信息、多特征共线性质的特征信息,有的样本数据中甚至还包含了噪声数据信息,这些无用的特征信息会使得人们在构建学习模型的过程中会产生过拟合或者减弱表征能力的现象,因此不能准确的表征数据集的特点信息。因此特征选择问题应运而生,特征选择的任务就是在高维度数据集中寻找出能够对分类说明力最强的“本征特征”并不会减弱数据样本的数据信息,达到较好的分类准确度,同时消除噪声数据的对分类的影响。
特征选择作为缩小数据集的数据规模、提高数据质量的一种手段被很多研究人员的广泛关注,特征选择的算法进行了分类,分为以下三类过滤式、包裹式、嵌入式。根据特征选择过程特征的评价标准的不同有一致性标准、距离标准、依赖性标准、分类错误率标准和信息量标准等。应运而生的产生一些特征选择的新算法,比如以特征权重为理论依据的Relief算法、以最大相关性和最小冗余性为理论依据的MRMR算法。这些算法或多或少的存在着一些不足之处,比如说在MRMR算法在进行特征选择的过程中只考虑到单一特征属性与类别属性之间的相关性和单一特征属性与已选特征之间的冗余性,忽视了多特征集与多特征集之间同样也存在着相互作用关系。同时人们常用来衡量两变量之间的相互关系的互信息的估算方法仍未足够的有效,仅考虑特征与类别之间的相互关系以及特征与已选特征之间的相互关系,没有将随着特征被选择样本数据被不断被确定,信息熵的估算值在不断变化的动态过程表现出来。
基于以上的原因,本发明提出了一种基于k近邻的互信息估算方法,并且很好的估算了多元互信息的大小,并将其应用到我们的特征选择算法中,提出一种基于K近邻互信息的嵌入式动态特征选择方法(KDIFS),运用多个特征间的相互关系这个切入点去研究特征与类别属性间的相互关系,杜绝对单一特征的过分依赖问题,提出的嵌入式动态特征选择算法,通过嵌入的分类器将已识别的样本数据进行剔除,以此保证信息熵估算的准确性、实时性。通过实验对此算法进行验证,该方法有较好的稳定性和有效性。
发明内容
本发明的目的在于提供一种基于K近邻互信息估计的嵌入式动态特征选择方法,以解决上述背景技术中提出的问题;为实现上述目的,本发明提供如下技术方案:具体是一种基于K近邻互信息估计的嵌入式动态特征选择方法包括以下步骤:
首先介绍传统基于互信息的特征选择方法。
1数据集合预处理
当今在现实世界中数据库极其容易受到噪声数据、空缺数据、以及不一致数据的侵扰,现阶段有大量的数据预处理技术,大体上可以分为数据清理、数据集成、数据变换和数据规约技术。数据清理可以清除数据中噪声数据、纠正不一致,自行填补样本数据的缺失数据,数据变换(数据规范化)可以改进涉及距离度量的算法的精度和有效性。比如人们希望数据满足某种特定的数据分布,或者希望将每个数据特征映射到某一段特定的数据区间内,都是需要进行数据变换。对于本文而言数据集合的预处理主要分一下几个部分:第一将数据集合中的噪声数据和不一致数据空缺数据进行处理。第二将数据集中与分类完全不相关的属性数据进行删除。第三将属性数据进行范数归一化处理使范数归一化为1,则有:
2互信息的相关知识
特征选择的选择目标是选择出对于分类最有价值的特征属性,特征选择中关键性需要解决的问题有两个方面:一方面是度量标准问题,一方面是特征的评价函数的选择问题。在数据分类的研究过程中,如果一个特征属性与类别属性有强的相关性,那么该属性对于分类来说是十分重要的属性,如果一个特征属性与类别属性有弱的相关性,那么该属性对于分类来说是非重要的属性,因此针对这种相关性问题讨论,选择信息论中的互信息作为度量标准来分析属性间的相关性。下面介绍一下信息论中相关理论和运算规则。
信息熵是信息论理论中至关重要的概念,信息熵是表征变量的一种不确定程度,目的是表述信息含量的多少。
其中,p(xi)表示变量X取值为xi的概率,变量X的不确定程度就可以用信息熵H(X)来表示,H(X)值的大小只与变量的概率分布有关系,故在信息熵有效的克服了部分噪声数据的干扰。
条件熵是指已知一个变量的条件下,另一个变量的不确定程度,即一个变量对另一个变量的依赖程度的强弱程度,故随机变量X对另一个随机变量Y的依赖程度可以用条件熵来表征。
其中,p(xi)表示变量X的先验概率p(xi|yj)表示变量Y在已知的条件下变量X的后验概率。
互信息是表征两个随机变量之间的相互依赖程度,表示两个变量之间的共同拥有的信息量的多少,当互信息的值为0即为最小值表示两个变量之间不存在相同的信息,当互信息值较大时表示两个变量所包含的相同信息比较多。定义为:
I(X;Y)=H(X)-H(X|Y) (4)
互信息能够非常有效的反映出两个随机变量之间的相互关系,并且能通过数值的形式表示出来,用数值的大小来表述两个随机变量之间的相互关系的紧密程度,但是在计算两个随机变量相互的信息量的同时还要考虑信息的增长情况,如果直接用互信息的大小来选择特征,将会选择那些取值比较大的特征,所以将互信息进行归一化处理,处理过程中采用对称不确定性SU度量特征变量与特征变量之间的相互关系的程度公式如下:
由公式(5)可以看出SU相关度量值的变化范围是由0到1,如果SU的值为0,表示X与Y不存在相关性,即X与Y是相互独立的。如果SU的取值为1,表示X与Y存在很强的相关性,如果X与Y分别表示属性信息和类别信息,SU的值越大则表示特征对于类别的选择存在强相关性。如果X与Y分别表示两个属性信息,SU的值越大则表示特征与特征之间,属性与属性之间最在很强的冗余性,由于以上的相关论述借鉴MRMR算法中最大相关最小冗余的核心思想,提出在特征选择过程中对选择特征的评价函数的定义形式,形式如下:
其中,SU(S∪fi,C)表示将备选特征加入已选特征集后与类别属性C之间的相关关系,SU(fs,fi)表示备选特征与已选特征之间的冗余程度,在这里将传统的惩罚因子进行了改进,改为1/|S|,|S|表示已选特征集中特征的个数。这样克服了传统惩罚因子需要人工设置的不足。
3.K近邻的多元互信息的估算方法
在特征选择算法过程中,计算信息论中互信息的大小是尤为重要的,是提高基于互信息特征选择算法准确度的根本方法。互信息的计算方法是基于概率估算为基础的,较好的估算概率,对于互信息的估算是尤为重要的[1]。常见的互信息的估算方法有直方图法和核函数计算法,直方图法计算方法简单直接,但是互信息的准确度不高,核函数计算法计算的准确度较准确,但是计算的复杂度相对较高。对于现阶段数据是高维大数据,对于以上的两种计算方法均不是十分合适,并且互信息的计算方法多数是进行两个变量的互信息的计算,对于多元的互信息的计算并不完善,多元互信息的计算方法急需解决。
提出基于k近邻的互信息计算方法,由变量X和变量Y构成的二维空间中,每一个二维空间中的点都可以用zi(xi,yi)表示,分别计算每一个点zi(xi,yi)与其他点的距离,并将距离进行排序,点zi(xi,yi)到k近邻距离的为rki/2;rkxi/2为点zi(xi,yi)的第k个近邻点在X轴上相对应的距离,rkyi/2为点zi(xi,yi)的第k个近邻点在Y轴上相对应的距离,nxi表示点zi相对应的X轴距离rxi/2小于rkxi/2的样本数据数量;nyi表示点zi相对应的Y轴距离ryi/2小于rkyi/2的样本数据数量,样本数量为N。
H(X)=-∫dxu(x)logu(x) (7)
其中u(x)为变量X的概率密度函数,可将公式(7)进行无差别的估算为下式
为了很好的对logu(xi)进行估算,通过相关知识设Pk(ε)为样本点xi与样本点xi的第k个近邻样本点的概率分布,在不考虑样本点本身的情况下,有k-1个样本点在k近邻的较小范围内,有N-k-1个样本点在非k近邻的相对较大的范围内,N为样本数量,pi(ε)为样本点xi在ε范围内的概率分布情况。。
经过传统概率的二项式分布可以计算得出:
经分析Pk(ε)dε也为样本点xi在ε范围内的概率分布情况。
E(logpi(ε))=∫dεPk(ε)·logpi(ε) (10)
结合(9)(10)(11)可得出
E(logpi(ε))=φ(k)-φ(N) (12)
假设密度函数u(x)在很小范围内是恒定不变化的,故可得
pi(ε)≈Cd·dε·u(xi) (13)
logu(xi)≈φ(k)-φ(N)-d(E(log(ε)))-logCd (14)
推导可知道
同样的计算方法,计算变量Z=(X,Y)的信息熵,得出以下公式(17),公式(17)与公式(15)形式上没有太大的区别,只有微小的更改,其中dz=dx+dy。
则变量X和变量Y之间的互信息可以通过公式(16)(17)进行计算:
其中k表示k近邻中近邻的数目;N表示样本变量的数量;φ是Γ函数,Γ函数可以通过迭代函数表示;
互信息估算方式从二元互信息拓展到多元互信息的估算方式:
综上所述通过公式(6)(8)(9)(10)(11)特征选择算法中的评价函数简化为:
J(fi)=SU(S∪fi,C)-SU(S,fi) (22)
其中,SU的计算方法与公式(5)的计算方式相似唯一的不同是将SU计算方法中二元互信息的计算方法改为多元互信息的计算方式进行计算。
4嵌入式的动态选择
基于互信息的度量标准,首先我们要对特征在样本数据集中的概率分布情况进行合理的计算,对于样本数据确定以后,特征在所在样本数据集的概率也就是唯一的确定下来,但随着特征的不断被选择出来,样本数据集中的样本数据将被不断的识别出来,那么在互信息的计算过程中将会有所变化,如果仍然选择传统基于互信息的计算方法将会产生较大的误差,因此,已识别的样本数据对未被选择的特征在计算方面提供了一些“虚假信息”。
对于算法中提出的动态的特征选择,主要的研究内容是如何识别那些可以通过已选特征识别的样本数据,并将数据从数据集中剔除,并根据剩余的样本数据计算信息熵,本文选择在算法运行的过程中嵌入一种分类器来进行样本的识别,本文选择嵌入KNN分类器来识别可识别样本,并将经过KNN分类器识别的样本数据从样本数据集中的删除,在不改变特征与类别相关性的同时,降低了数据集的样本数据的个数和特征的维数。
附图说明
图1基于K近邻互信息估计的嵌入式动态特征选择算法
图2 Wine数据集在KNIFS算法与MRMR算法的比较
图3 Wine数据集在KNIFS算法与FISHER算法的比较
图4 Zoo数据集在KNIFS算法与MRMR算法的比较
图5 Zoo数据集在KNIFS算法与FISHER算法的比较
图6 Wine数据集K=7KNIFS算法与K=14KNIFS算法比较
图7 Wine数据集K=7KNIFS算法与K=19KNIFS算法比较
具体实施方式
将特征集合分为两个部分,分别是已选择特征集合和备选的特征集合,分别用S和F表示。类别属性用C表示,样本数据集用O表示。
首先,根据公式(7)计算所有特征与类别属性之间的相互关系程度,并进行有小到大排序。
然后,将排序最大f的特征加入到集合S中并将此特征从备选特征集合F中删除。
然后,将f中剩余的特征分别根据特征的评价函数公式(12)进行计算,选出评价函数最大的特征并将其加S中,与此同时将f从特征块中删除,再根据公式(13)通过欧式距离d,查找样本的最近邻样本,样本数量为k,这数量为k的最近邻样本构成一个近邻数据集合
其中,C={c1,c2…cM},M为类别的个数,样本集中样本的数量为N。为将要进行样本分类的样本。
最后,将近邻数据集中的数据点经过最大投票准则来判断样本数据的分类属性。由KNN分类器判断样本集中的样本的类别,并判断样本数据是否被正确分类,如果被正确分类则将样本数据从数据样本集合中删除,再从新计算特征块的其他特征属性的信息熵,重复步骤(3)的操作,否则直接重复步骤(3)的操作,操作主要特征块,完成后就继续操作次要特征块
直到满足算法的终止条件,就终止算法的操作。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明;因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求;
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (2)

1.一种基于K近邻互信息估计的嵌入式动态特征选择方法,其特征在于,包括以下步骤:
首先介绍传统基于互信息的特征选择方法。
1数据集合预处理
当今在现实世界中数据库极其容易受到噪声数据、空缺数据、以及不一致数据的侵扰,现阶段有大量的数据预处理技术,大体上可以分为数据清理、数据集成、数据变换和数据规约技术。数据清理可以清除数据中噪声数据、纠正不一致,自行填补样本数据的缺失数据,数据变换(数据规范化)可以改进涉及距离度量的算法的精度和有效性。比如人们希望数据满足某种特定的数据分布,或者希望将每个数据特征映射到某一段特定的数据区间内,都是需要进行数据变换。对于本文而言数据集合的预处理主要分一下几个部分:第一将数据集合中的噪声数据和不一致数据空缺数据进行处理。第二将数据集中与分类完全不相关的属性数据进行删除。第三将属性数据进行范数归一化处理使范数归一化为1,则有:
f ^ i = f i | | f i | | - - - ( 1 )
2互信息的相关知识
特征选择的选择目标是选择出对于分类最有价值的特征属性,特征选择中关键性需要解决的问题有两个方面:一方面是度量标准问题,一方面是特征的评价函数的选择问题。在数据分类的研究过程中,如果一个特征属性与类别属性有强的相关性,那么该属性对于分类来说是十分重要的属性,如果一个特征属性与类别属性有弱的相关性,那么该属性对于分类来说是非重要的属性,因此针对这种相关性问题讨论,选择信息论中的互信息作为度量标准来分析属性间的相关性。下面介绍一下信息论中相关理论和运算规则。
信息熵是信息论理论中至关重要的概念,信息熵是表征变量的一种不确定程度,目的是表述信息含量的多少。
H ( X ) = - Σ i = 1 n p ( x i ) log p ( x i ) - - - ( 2 )
其中,p(xi)表示变量X取值为xi的概率,变量X的不确定程度就可以用信息熵H(X)来表示,H(X)值的大小只与变量的概率分布有关系,故在信息熵有效的克服了部分噪声数据的干扰。
条件熵是指已知一个变量的条件下,另一个变量的不确定程度,即一个变量对另一个变量的依赖程度的强弱程度,故随机变量X对另一个随机变量Y的依赖程度可以用条件熵来表征。
H ( X | Y ) = - Σ j = 1 m p ( y j ) Σ i = 1 n p ( x i | y j ) l o g 2 p ( x i | y j ) - - - ( 3 )
其中,p(xi)表示变量X的先验概率p(xi|yj)表示变量Y在已知的条件下变量X的后验概率。
互信息是表征两个随机变量之间的相互依赖程度,表示两个变量之间的共同拥有的信息量的多少,当互信息的值为0即为最小值表示两个变量之间不存在相同的信息,当互信息值较大时表示两个变量所包含的相同信息比较多。定义为:
I(X;Y)=H(X)-H(X|Y) (4)
互信息能够非常有效的反映出两个随机变量之间的相互关系,并且能通过数值的形式表示出来,用数值的大小来表述两个随机变量之间的相互关系的紧密程度,但是在计算两个随机变量相互的信息量的同时还要考虑信息的增长情况,如果直接用互信息的大小来选择特征,将会选择那些取值比较大的特征,所以将互信息进行归一化处理,处理过程中采用对称不确定性SU度量特征变量与特征变量之间的相互关系的程度公式如下:
S U ( X , Y ) = 2 I ( X ; Y ) H ( X ) + H ( Y ) - - - ( 5 )
由公式(5)可以看出SU相关度量值的变化范围是由0到1,如果SU的值为0,表示X与Y不存在相关性,即X与Y是相互独立的。如果SU的取值为1,表示X与Y存在很强的相关性,如果X与Y分别表示属性信息和类别信息,SU的值越大则表示特征对于类别的选择存在强相关性。如果X与Y分别表示两个属性信息,SU的值越大则表示特征与特征之间,属性与属性之间最在很强的冗余性,由于以上的相关论述借鉴MRMR算法中最大相关最小冗余的核心思想,提出在特征选择过程中对选择特征的评价函数的定义形式,形式如下:
J ( f i ) = S U ( S ∪ f i , C ) - 1 | S | Σ f s ∈ S S U ( f s , f i ) - - - ( 6 )
其中,SU(S∪fi,C)表示将备选特征加入已选特征集后与类别属性C之间的相关关系,SU(fs,fi)表示备选特征与已选特征之间的冗余程度,在这里将传统的惩罚因子进行了改进,改为1/S,|S|表示已选特征集中特征的个数。这样克服了传统惩罚因子需要人工设置的不足。
3.K近邻的多元互信息的估算方法
在特征选择算法过程中,计算信息论中互信息的大小是尤为重要的,是提高基于互信息特征选择算法准确度的根本方法。互信息的计算方法是基于概率估算为基础的,较好的估算概率,对于互信息的估算是尤为重要的[1]。常见的互信息的估算方法有直方图法和核函数计算法,直方图法计算方法简单直接,但是互信息的准确度不高,核函数计算法计算的准确度较准确,但是计算的复杂度相对较高。对于现阶段数据是高维大数据,对于以上的两种计算方法均不是十分合适,并且互信息的计算方法多数是进行两个变量的互信息的计算,对于多元的互信息的计算并不完善,多元互信息的计算方法急需解决。
提出基于k近邻的互信息计算方法,由变量X和变量Y构成的二维空间中,每一个二维空间中的点都可以用zi(xi,yi)表示,分别计算每一个点zi(xi,yi)与其他点的距离,并将距离进行排序,点zi(xi,yi)到k近邻距离的为rki/2;rkxi/2为点zi(xi,yi)的第k个近邻点在X轴上相对应的距离,rkyi/2为点zi(xi,yi)的第k个近邻点在Y轴上相对应的距离,nxi表示点zi相对应的X轴距离rxi/2小于rkxi/2的样本数据数量;nyi表示点zi相对应的Y轴距离ryi/2小于rkyi/2的样本数据数量,样本数量为N。
H(X)=-∫dxu(x)logu(x) (7)
其中u(x)为变量X的概率密度函数,可将公式(7)进行无差别的估算为下式
H ( X ) = - 1 N Σ i = 1 N log u ( x i ) - - - ( 8 )
为了很好的对logu(xi)进行估算,通过相关知识设Pk(ε)为样本点xi与样本点xi的第k个近邻样本点的概率分布,在不考虑样本点本身的情况下,有k-1个样本点在k近邻的较小范围内,有N-k-1个样本点在非k近邻的相对较大的范围内,N为样本数量,pi(ε)为样本点xi在ε范围内的概率分布情况。。
经过传统概率的二项式分布可以计算得出:
P k ( ϵ ) = kC N - 1 k dp i ( ϵ ) d ϵ ( p i ( ϵ ) ) k - 1 ( 1 - p i ( ϵ ) ) N - k - 1 - - - ( 9 )
经分析Pk(ε)dε也为样本点xi在ε范围内的概率分布情况。
E(logpi(ε))=∫dεPk(ε)·logpi(ε) (10)
φ ( x ) ≈ log x - 1 2 x - - - ( 11 )
结合(9)(10)(11)可得出
E(logpi(ε))=φ(k)-φ(N) (12)
假设密度函数u(x)在很小范围内是恒定不变化的,故可得
pi(ε)≈Cd·dε·u(xi) (13)
logu(xi)≈φ(k)-φ(N)-d(E(log(ε)))-logCd (14)
推导可知道
H ( X ) = - φ ( k ) + φ ( N ) + d Σ i = 1 N l o g ϵ ( i ) N + log C d - - - ( 15 )
H ( X ) = - 1 N Σ i = 1 N φ ( n x i ) + φ ( N ) + d Σ i = 1 N l o g ϵ ( i ) N + log C d - - - ( 16 )
同样的计算方法,计算变量Z=(X,Y)的信息熵,得出以下公式(17),公式(17)与公式(15)形式上没有太大的区别,只有微小的更改,其中dz=dx+dy。
H ( X , Y ) = - φ ( k ) + φ ( N ) + d x Σ i = 1 N log ϵ ( i ) + d y Σ i = 1 N l o g ϵ ( i ) N + l o g ( C d x · C d y ) - - - ( 17 )
则变量X和变量Y之间的互信息可以通过公式(16)(17)进行计算:
I ( X ; Y ) = φ ( k ) - 1 N Σ i = 1 N ( φ ( n x i + 1 ) + φ ( n y i + 1 ) ) + φ ( N ) - - - ( 18 )
其中k表示k近邻中近邻的数目;N表示样本变量的数量;φ是Γ函数,Γ函数可以通过迭代函数表示;
φ ( 1 ) = - 0.5772516 φ ( x + 1 ) = φ ( x ) + 1 x - - - ( 19 )
互信息估算方式从二元互信息拓展到多元互信息的估算方式:
I ( X 1 ; X 2 ; X 3 ; ... X m ) = φ ( k ) + ( m - 1 ) φ ( N ) - 1 N Σ i = 1 N ( φ ( n x 1 + 1 ) + φ ( n x 2 + 1 ) + φ ( n x 3 + 1 ) ... φ ( n x m + 1 ) ) - - - ( 20 )
I ( X 1 ; X 2 ; X 3 ; ... Y ) = φ ( k ) + ( m - 1 ) φ ( N ) - 1 N Σ i = 1 N ( φ ( n x 1 + 1 ) + φ ( n x 2 + 1 ) + φ ( n x 3 + 1 ) ... φ ( n y + 1 ) ) - - - ( 21 )
综上所述通过公式(6)(8)(9)(10)(11)特征选择算法中的评价函数简化为:
J(fi)=SU(S∪fi,C)-SU(S,fi) (22)
其中,SU的计算方法与公式(5)的计算方式相似唯一的不同是将SU计算方法中二元互信息的计算方法改为多元互信息的计算方式进行计算。
4嵌入式的动态选择
基于互信息的度量标准,首先我们要对特征在样本数据集中的概率分布情况进行合理的计算,对于样本数据确定以后,特征在所在样本数据集的概率也就是唯一的确定下来,但随着特征的不断被选择出来,样本数据集中的样本数据将被不断的识别出来,那么在互信息的计算过程中将会有所变化,如果仍然选择传统基于互信息的计算方法将会产生较大的误差,因此,已识别的样本数据对未被选择的特征在计算方面提供了一些“虚假信息”。
对于算法中提出的动态的特征选择,主要的研究内容是如何识别那些可以通过已选特征识别的样本数据,并将数据从数据集中剔除,并根据剩余的样本数据计算信息熵,本文选择在算法运行的过程中嵌入一种分类器来进行样本的识别,本文选择嵌入KNN分类器来识别可识别样本,并将经过KNN分类器识别的样本数据从样本数据集中的删除,在不改变特征与类别相关性的同时,降低了数据集的样本数据的个数和特征的维数。
2.根据权利要求1所述的一种基于K近邻互信息估计的嵌入式动态特征选择方法,其特征在于:将互信息的计算方法上将传统两个变量的互信息拓宽到多个变量之间的互信息的计算方法将互信息的计算更加准确,并且在方法运行的过程中嵌入一种分类器来进行样本的识别,选择嵌入KNN分类器来识别可识别样本,并将经过KNN分类器识别的样本数据从样本数据集中的删除,在不改变特征与类别相关性的同时,降低了数据集的样本数据的个数和特征的维数。
互信息估算方式从二元互信息拓展到多元互信息的估算方式:
I ( X 1 ; X 2 ; X 3 ; ... X m ) = φ ( k ) + ( m - 1 ) φ ( N ) - 1 N Σ i = 1 N ( φ ( n x 1 + 1 ) + φ ( n x 2 + 1 ) + φ ( n x 3 + 1 ) ... φ ( n x m + 1 ) ) - - - ( 23 )
I ( X 1 ; X 2 ; X 3 ; ... Y ) = φ ( k ) + ( m - 1 ) φ ( N ) - 1 N Σ i = 1 N ( φ ( n x 1 + 1 ) + φ ( n x 2 + 1 ) + φ ( n x 3 + 1 ) ... φ ( n y + 1 ) ) - - - ( 24 )
综上所述通过公式(6)(8)(9)(10)(11)特征选择算法中的评价函数简化为:
J(fi)=SU(S∪fi,C)-SU(S,fi) (25)
其中,SU的计算方法与公式(5)的计算方式相似唯一的不同是将SU计算方法中二元互信息的计算方法改为多元互信息的计算方式进行计算。
改进后的一种基于K近邻互信息估计的嵌入式动态特征选择方法,通过信息论中互信息的相关理论知识,本发明所描述的基于K近邻互信息的嵌入式动态特征选择算法,在合理的分析了特征属性与特征属性之间的相互关系、特征属性与类别属性的相互关系。并且对互信息的计算方法进行了更加准确的估算,通过K近邻的互信息的计算方法对互信息计算延伸到多元的互信息的计算,对特征选择算法的研究起到了更好的拓展作用,通过验证,数据结果通过分类的准确率的评价标准对实验结果进行分析,表明特征选择算法的可以获得比较好的特征子集,降低特征维度,是分类的效果越来越好,并且具有较好的稳定性。
CN201710222656.1A 2017-04-06 2017-04-06 一种基于k近邻互信息估计的嵌入式动态特征选择方法 Pending CN106971205A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710222656.1A CN106971205A (zh) 2017-04-06 2017-04-06 一种基于k近邻互信息估计的嵌入式动态特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710222656.1A CN106971205A (zh) 2017-04-06 2017-04-06 一种基于k近邻互信息估计的嵌入式动态特征选择方法

Publications (1)

Publication Number Publication Date
CN106971205A true CN106971205A (zh) 2017-07-21

Family

ID=59336295

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710222656.1A Pending CN106971205A (zh) 2017-04-06 2017-04-06 一种基于k近邻互信息估计的嵌入式动态特征选择方法

Country Status (1)

Country Link
CN (1) CN106971205A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577457A (zh) * 2017-09-05 2018-01-12 中国电子科技集团公司第四十研究所 一种改进的基于Markovblanket红外光谱特征选择算法
CN107729943A (zh) * 2017-10-23 2018-02-23 辽宁大学 信息反馈极限学习机优化估值的缺失数据模糊聚类算法及其应用
CN108280830A (zh) * 2018-02-24 2018-07-13 中原工学院 一种基于α互信息的无参考多聚焦图像融合评价度量
CN108470251A (zh) * 2018-03-28 2018-08-31 华南理工大学 基于平均互信息的社区划分质量评价方法及***
CN109147093A (zh) * 2018-09-04 2019-01-04 惠州市德赛西威智能交通技术研究院有限公司 一种图片样本采集设备及方法
CN110082116A (zh) * 2019-03-18 2019-08-02 深圳市元征科技股份有限公司 一种车辆四轮定位数据的评价方法、评价装置及存储介质
CN110298398A (zh) * 2019-06-25 2019-10-01 大连大学 基于改进互信息的无线协议帧特征选择方法
CN110347727A (zh) * 2019-07-19 2019-10-18 南京梅花软件***股份有限公司 基于多层级互信息的健康与空气质量数据相关性的过滤方法
CN110659693A (zh) * 2019-09-26 2020-01-07 国网湖南省电力有限公司 基于k近邻分类的配电网快速拓扑识别方法、***及可读存储介质
CN110766042A (zh) * 2019-09-09 2020-02-07 河南师范大学 一种基于最大相关最小冗余的多标记特征选择方法及装置
CN111626099A (zh) * 2020-04-10 2020-09-04 浙江大学 一种基于改进ccm的工业控制***多回路振荡因果关系分析方法
CN111860600A (zh) * 2020-06-22 2020-10-30 国家电网有限公司 一种基于最大相关最小冗余判据的用户用电特征选择方法
CN112257953A (zh) * 2020-11-03 2021-01-22 上海电力大学 一种基于极地新能源发电功率预测的数据处理方法
CN112863521A (zh) * 2020-12-24 2021-05-28 哈尔滨理工大学 一种基于互信息估计的说话人识别方法
CN113487084A (zh) * 2021-07-06 2021-10-08 新智数字科技有限公司 一种设备使用寿命的预测方法、装置、计算机设备及计算机可读存储介质
CN115718894A (zh) * 2022-11-30 2023-02-28 江西农业大学 一种面向高维复杂数据的在线流特征选择方法

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577457A (zh) * 2017-09-05 2018-01-12 中国电子科技集团公司第四十研究所 一种改进的基于Markovblanket红外光谱特征选择算法
CN107729943A (zh) * 2017-10-23 2018-02-23 辽宁大学 信息反馈极限学习机优化估值的缺失数据模糊聚类算法及其应用
CN107729943B (zh) * 2017-10-23 2021-11-30 辽宁大学 信息反馈极限学习机优化估值的缺失数据模糊聚类算法及其应用
CN108280830A (zh) * 2018-02-24 2018-07-13 中原工学院 一种基于α互信息的无参考多聚焦图像融合评价度量
CN108470251A (zh) * 2018-03-28 2018-08-31 华南理工大学 基于平均互信息的社区划分质量评价方法及***
CN108470251B (zh) * 2018-03-28 2021-09-21 华南理工大学 基于平均互信息的社区划分质量评价方法及***
CN109147093B (zh) * 2018-09-04 2021-01-12 惠州市德赛西威智能交通技术研究院有限公司 一种图片样本采集设备及方法
CN109147093A (zh) * 2018-09-04 2019-01-04 惠州市德赛西威智能交通技术研究院有限公司 一种图片样本采集设备及方法
CN110082116A (zh) * 2019-03-18 2019-08-02 深圳市元征科技股份有限公司 一种车辆四轮定位数据的评价方法、评价装置及存储介质
CN110298398A (zh) * 2019-06-25 2019-10-01 大连大学 基于改进互信息的无线协议帧特征选择方法
CN110298398B (zh) * 2019-06-25 2021-08-03 大连大学 基于改进互信息的无线协议帧特征选择方法
CN110347727A (zh) * 2019-07-19 2019-10-18 南京梅花软件***股份有限公司 基于多层级互信息的健康与空气质量数据相关性的过滤方法
CN110347727B (zh) * 2019-07-19 2023-04-07 南京梅花软件***股份有限公司 基于多层级互信息的健康与空气质量数据相关性的过滤方法
CN110766042A (zh) * 2019-09-09 2020-02-07 河南师范大学 一种基于最大相关最小冗余的多标记特征选择方法及装置
CN110766042B (zh) * 2019-09-09 2023-04-07 河南师范大学 一种基于最大相关最小冗余的多标记特征选择方法及装置
CN110659693A (zh) * 2019-09-26 2020-01-07 国网湖南省电力有限公司 基于k近邻分类的配电网快速拓扑识别方法、***及可读存储介质
CN110659693B (zh) * 2019-09-26 2024-03-01 国网湖南省电力有限公司 基于k近邻分类的配电网快速拓扑识别方法、***及介质
CN111626099A (zh) * 2020-04-10 2020-09-04 浙江大学 一种基于改进ccm的工业控制***多回路振荡因果关系分析方法
CN111860600A (zh) * 2020-06-22 2020-10-30 国家电网有限公司 一种基于最大相关最小冗余判据的用户用电特征选择方法
CN112257953A (zh) * 2020-11-03 2021-01-22 上海电力大学 一种基于极地新能源发电功率预测的数据处理方法
CN112863521B (zh) * 2020-12-24 2022-07-05 哈尔滨理工大学 一种基于互信息估计的说话人识别方法
CN112863521A (zh) * 2020-12-24 2021-05-28 哈尔滨理工大学 一种基于互信息估计的说话人识别方法
CN113487084A (zh) * 2021-07-06 2021-10-08 新智数字科技有限公司 一种设备使用寿命的预测方法、装置、计算机设备及计算机可读存储介质
CN115718894A (zh) * 2022-11-30 2023-02-28 江西农业大学 一种面向高维复杂数据的在线流特征选择方法
CN115718894B (zh) * 2022-11-30 2023-11-17 江西农业大学 一种面向高维复杂数据的在线流特征选择方法

Similar Documents

Publication Publication Date Title
CN106971205A (zh) 一种基于k近邻互信息估计的嵌入式动态特征选择方法
CN106991446A (zh) 一种互信息的组策略嵌入式动态特征选择方法
Griffiths et al. Hierarchic agglomerative clustering methods for automatic document classification
CN109710701A (zh) 一种用于公共安全领域大数据知识图谱的自动化构建方法
Dutta et al. Stochastic graphlet embedding
CN106126577A (zh) 一种基于数据源划分矩阵的加权关联规则挖掘方法
Rahman et al. Discretization of continuous attributes through low frequency numerical values and attribute interdependency
CN104881689A (zh) 一种多标签主动学习分类方法及***
CN105045875A (zh) 个性化信息检索方法及装置
Huang et al. Exploration of dimensionality reduction for text visualization
CN105893876A (zh) 芯片硬件木马检测方法和***
CN106528648A (zh) 结合Redis内存数据库的分布式RDF关键词近似搜索方法
Bruzzese et al. DESPOTA: DEndrogram slicing through a pemutation test approach
CN105160046A (zh) 基于文本的数据检索方法
CN102460440B (zh) 搜索方法和设备
Chen et al. Exploring optimization of semantic relationship graph for multi-relational Bayesian classification
CN107945871A (zh) 一种基于大数据的血液病智能分类***
Usman et al. A data mining approach to knowledge discovery from multidimensional cube structures
Malerba et al. Mining model trees from spatial data
CN104657473A (zh) 一种保证质量单调性的大规模数据挖掘方法
Bond et al. An unsupervised machine learning approach for ground‐motion spectra clustering and selection
Diday Symbolic Data Analysis and the SODAS project: purpose, history, perspective
Sassi et al. About database summarization
Shi et al. Transfer significant subgraphs across graph databases
Aliakbarian et al. Integration of folksonomies into the process of map generalization

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170721