CN107273387A - 面向高维和不平衡数据分类的集成 - Google Patents
面向高维和不平衡数据分类的集成 Download PDFInfo
- Publication number
- CN107273387A CN107273387A CN201610218160.2A CN201610218160A CN107273387A CN 107273387 A CN107273387 A CN 107273387A CN 201610218160 A CN201610218160 A CN 201610218160A CN 107273387 A CN107273387 A CN 107273387A
- Authority
- CN
- China
- Prior art keywords
- mrow
- feature
- data
- sampling
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Fuzzy Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出面向高维和不平衡数据分类的集成,其特征在于,采用降维和取样的先后顺序,将预处理策略减少为两类;基于实验结论的可重现性原则,选取数据挖掘和机器学***衡程度两方面研究预处理方法对高维不平衡数据分类性能的影响,采用更完备的预处理实验策略,获得了不同的结论:对高维不平衡数据分类前,先减少特征再平衡数据产生的平均AUC性能更优,自动化程度强,采用不同的预处理组合策略来缓和高维和不平衡对分类的影响。
Description
技术领域
本发明涉及数据处理领域,尤其涉及面向高维和不平衡数据分类的集成。
背景技术
数据挖掘研究正面临各种数据问题的挑战,不同特性的数据增加了算法研究的复杂度。其中,对具有高维和不平衡特性的数据分类是近年的研究焦点。现有方法仅考虑了高维或不平衡的某一特性,但大量现实数据却同时展现了双重特性。在分类具有双重特性的数据时,单独针对高维或不平衡数据的分类算法面临性能瓶颈。如何有效分类高维且不平衡的数据是应用研究亟需解决的问题。分类高维不平衡数据的方法有两种:预处理(特征选择和取样)再分类和直接分类。预处理后的数据可以直接用于已有分类算法,但数据损失了部分特征和实例信息,预处理的效果将影响分类性能。直接分类可以保留全部数据信息,但分类算法必须兼顾考虑高维和不平衡特性,增加了设计的复杂度。本文从这两个方面展开研究,针对预处理高维且不平衡数据时,先特征选择还是先取样问题,通过实验对比获得特征选择先于取样。
更优的结论;针对先特征选择面临的数据不平衡问题,提出了不平衡数据特征选择算法BRFVS;针对预处理数据可能导致特征或实例的损失问题,在基于特征的集成学习框架下,从随机方式(随机森林)和选择方式(集成特征选择)两个方面提出了代价敏感随机森林算法CSRF和基于集成特征选择的分类算法IEFS。本文所做具体工作如下:
1)对比特征选择和取样顺序对分类性能的影响。在特定领域(软件缺陷检测)的实验研究结果显示,先取样再特征选择后的分类效果更优。由于实验数据单一,该结论不具有普及性。而在多个其他领域的验证研究显示,特征选择和取样的顺序并不是影响分类性能的关键因素。但因为引入了人为噪声因素,该结论不适用于无噪声的情况。本文从UCI数据集中,按照应用领域、维数和不平衡程度筛选了12个实验数据集。以AUC为评价标准,测试了过滤式和封装式特征选择方法与取样方法组合预处理后对分类性能的影响。不 同于上述结论,先特征选择再取样的平均AUC性能在12个数据集上的表现优于先取样再特征选择。该结论可为预处理高维不平衡数据提供实践指导。
2)提出不平衡特征选择算法BRFVS。目前针对不平衡数据特征选择的算法相对较少。
已有的EFSBS算法属于过滤式方法,没有充分利用分类算法的反馈;PREE算法尽管利用了分类的性能反馈,但不能处理离散型特征。BRFVS是一个既能处理离散型,又能处理连续型特征,同时能充分利用分类算法反馈的特征选择算法。BRFVS借鉴了随机森林算法的思想,采用欠取样产生多个平衡数据集,在各数据集上利用随机森林变量选择方法计算特征重要性度量值。最终的度量值通过对各数据集的度量值加权求和获得。数据集的权重由其与集成预测的一致性程度决定。实验对比了随机森林超参数K的取值对算法性能的影响,结果显示,当K取值为M时,采用BRFVS特征选择后再取样的分类性能优于普通特征选择后再取样的分类性能。进一步验证了先特征选择后取样更优的实验结论。提出代价敏感随机森林算法CSRF。尽管直接分类可不受预处理性能的影响,但已有的高维数据分类算法不能有效分类不平衡数据,而不平衡数据分类算法未考虑数据展现高维特性的情况。CSRF在随机森林的决策树属性***度量中引入测试代价和误分类代价,这两种代价分别相关于小类数据,通过整对小类的关注度提高对小类的正确识别率。实验对比了CSRF算法、原始随机森林算法和仅引入误分类代价的随机森林算法。CSRF在AUC性能,尤其是小类的正确识别率上有明显优势,同时,CSRF算法的分类性能也明显高于预处理后再分类的分类性能。
4)提出基于集成特征选择的高维不平衡数据分类算法IEFS。已有集成特征选择算法的目标函数仅考虑多样性和准确性的加权求和,未考虑不平衡特性,不适用于不平衡数据分类。IEFS算法选择Kohavi-Wolpert方差作为多样性度量方法,在其中引入奖惩因子增加对小类的关注,并采用爬山法搜索解空间,可兼顾考虑多样性、准确性和不平衡性。实验结果显示,此方法在AUC分类性能上略差于CSRF分类算法,但是其在AUC分类性能和小类的识别上明显高于C4.5和随机森林算法。尽管先特征选择面临数据不平衡问题,但不论是采用BRFVS算法还是普通特征选择算法,先预处理高维问题再 处理不平衡问题的方式将产生更优的分类性能。直接分类与预处理再分类的性能对比显示,直接分类方法在AUC和小类正确识别率上优于预处理方法,但时间代价更大,适用于离线处理方式。IEFS算法由于受到搜索方法的局限性,展现的性能则略差于CSRF算法。
综上所述,针对现有技术存在的缺陷,特别需要面向高维和不平衡数据分类的集成,以解决现有技术的不足。
发明内容
本发明的目的是提供面向高维和不平衡数据分类的集成,自动化程度强,采用不同的预处理组合策略来缓和高维和不平衡对分类的影响。
本发明为解决其技术问题所采用的技术方案是,
面向高维和不平衡数据分类的集成,采用降维和取样的先后顺序,将预处理策略减少为两类;基于实验结论的可重现性原则,选取数据挖掘和机器学***衡程度两方面研究预处理方法对高维不平衡数据分类性能的影响;
降维方法分为两类:特征选择和特征变换,特征选择方法依据是否独立于后续的学习算法分为过滤式(Filter)和封装式(Wrapper)两种,过滤式与后续学习算法无关,一般直接利用所有训练数据的统计性能评估特征,速度快,但评估与后续学习算法的性能偏差较大;封装式利用后续学习算法的训练准确率评估特征子集,偏差小,计算量大,不适合于大数据量,特征变换不同于特征选择之处在于其输出结果不是原有的属性,而是基于某种变换原则所产生的新属性,由于变换后的属性改变了原有属性的物理特性,同时一些特征变换方法通常针对连续属性数据,再此不考虑特征变换方法,取样方法包括两种:欠取样和过取样,预处理采用降维方法和取样方法;
降维方法的评估直接依赖于数据集本身,通常认为相关性较大的特征或特征子集可获得较高的分类准确率,常见的Filter特征选择评估方法有类间距离、信息增益、关联度和不一致度等,Kohavi曾指出尽管仅考虑数据集的评估方法运行效率高,但寻找与类别相关的特征或特征子集和选择可最优 化分类准确率的特征或特征子集是两个不同的问题;
取样方法是一类常用的预处理技术,利用取样可以平衡数据,缓解数据中的不平衡问题,取样方法根据其取样方向可以分为两类:过取样(Over Sampling)和欠取样(Under Sampling),过取样增加小类实例,欠取样则减少大类实例,根据取样策略分为随机的和算法的两类,随机取样以随机方式删除或增加实例,而算法取样则根据一定的原则取样,如删除靠近大类边界的实例或者增加任意产生的小类实例等,通常而言,随机取样是较为常用的取样手段,而算法取样对于实例集的改变可能存在一定的导向性为简化问题。
进一步,降维方法关注特征选择与取样的组合实验效果,因此基于简化原则,选择简单、通用且高效的算法,Filter特征选择算法中选择信息增益特征选择算法和Relief算法,选择前者的原因在于后续分类算法拟定采用决策树算法,而信息增益本身就是决策树属性选择的方法;后者则是因为Relief算法是目前比较公认的效果较好的Filter特征选择算法,Wrapper算法拟定选择不同的搜索策略构造不同算法,由于Kohavi的实验研究显示最佳优先搜索优于贪心搜索(爬山法)方式,在此选择最佳优先搜索方式,另外,随机搜索可以提供更为准确的搜索结果,在此同时考虑采用基本遗传算法的遗传搜索方式;
信息增益是信息增益是机器学习和信息理论中常用的一种度量方法,在进行类别预测时,已知特征的取值,IG可以度量有关类预测所需要的信息位数,信息增益可被定义为先验不确定性与期望的后验不确定性之间的差异,计算给定属性X关于类属性Y的IG,需要已知两个信息:类标号Y本身取值的不确定性和考虑属性X时的不确定性,这两个不确定性可以分别表示为Y的熵H(Y)和条件熵H(Y|X);
其中r表示属性X的取值个数,特征X的IG可定义为:
IG(X)=H(Y)-H(Y|X)
H(Y)表示不考虑特征X时,Y属性的纯度,而H(Y|X)表示考虑了特征X 后,Y属性的纯度,若考虑X属性后,使得Y属性的划分更纯的话,则认为此特征属性能够有效区分类别,熵值越小,而纯度越高,也即应该选择最大信息增益的属性。
进一步,Relief算法根据特征对近距离实例的辨别能力来评价特征,认为好的特征应该使同类的实例接近,而使不同类的实例之间远离,圆和三角分别表示两类实例,算法从训练集D中随机选择一个实例R,然后从和其同类的实例中寻找最近邻实例H,称为Nearest Hit,从和其不同类的实例中寻找最近邻实例M,称为Nearest Miss,然后对于每维特征,如果R和H在其上的距离小于R和M上的距离,则说明此维特征对区分同类和不同类的最近邻是有益的,增加该特征的权值;反之,则说明此维特征对区分同类和不同类的最近邻是起反作用的,则降低该特征权值,权值的更新公式如下:
Weight[A]=Weight[A]·diff(A,R,H)/m+diff(A,R,M)/m
其中A=1....N,N代表属性个数,m指的是迭代次数,diff(A,R,H)表示实例R和H在属性A上的距离;
重复上述过程m次,最后所获得是各特征的平均权值,特征的权值越大,表示该特征的分类能力越强,反之,表示该特征的分类能力越弱。
进一步,Wrapper方法是由Kohavi提出,将学习算法当作一个黑匣子,利用学习算法的结果选择特征子集,学习算法本身就是特征子集选择的评估函数,不同的搜索策略将产生不同的特征子集,一个搜索包含了状态空间,初始状态,终止条件和搜索策略四个要素,Kohavi将搜索空间的每个状态表示为一个特征子集,对于n个特征而言,每个状态有n位,每位表示一个特征是否出现,1表示出现,0表示不出现,操作决定了状态间的偏序关系,Kohavi选择的操作是增加或删除属性,如果是n个特征,则搜索空间为(2)nO,采用穷举模式搜索整个空间是不现实的,由此需要不同的搜索策略。
进一步,正确率和错误率是常用的分类器性能度量,但这两个度量对类不平衡敏感,过于偏向于多数类,当正负类比例为5%:95%的情况下,即使将所有实例都分为负类,分类器的正确率达到95%,而此时所有正例都将被错分,正确率(Acc)和错误率(Err)表示如下:
根据混淆矩阵,还可计算出精确度和召回率(真正率)及其他度量,F-measure组合了精确度和召回率,较高的F-measure意味着分类器在正类上具有更好的性能;
Kubat等提出的G-mean是正负类预测准确度的几何平均,G-mean是避免过度拟合负类的重要度量;
ROC曲线是点(FPrate,TPrate)的轨迹,ROC曲线上的每个点对应一个分类器模型,点(0,0)表示把每个实例都预测成负类的模型;点(1,1)表示把每个实例都预测成正类的模型;点(1,0)是理想模型,将所有正例分类为正类,所有负例分类为负类,在绘制ROC曲线时,y轴表示真正率,而x轴表示假正率,将一个分类器用于一个测试集上会产生一个混淆矩阵,进而获得相应的真正率(TPate)和假正率(FPrate),这样就对应于ROC空间中的一个点,不同的分类器则对应于ROC空间的一组点,将这些点连接起来就可以得到一条ROC曲线,其对应的下方图面积就是AUC(area under ROC curve),假设分类器在实例x上输出得分f(x),则相应的AUC可以利用下式计算得到:
其中:I(g)是指示函数,N+表示正例实例数,N-表示负例实例数。
本发明的优点在于:
1)基于UCI数据集,对比特征选择和取样顺序对分类性能的影响。预处理是解决高维不平衡数据分类问题的一种方法。先减少特征(特征选择)还是先平衡数据(取样)是其面临的首要问题。在特定应用领域的研究结果显示,先取样再特征选择后的分类性能更优。由于采用的实验数据单一,这一结论不能普及;多个应用领域的研究结果则显示,处理顺序不是关键因素。但因为引入了人为噪声干扰,其结论不适用于无噪声的情况。本文在来自于UCI 的不同应用领域的12个数据集上,采用更完备的预处理实验策略,获得了不同的结论:对高维不平衡数据分类前,先减少特征再平衡数据产生的平均AUC性能更优。该结论可为应用研究提供实践指导。
2)借鉴随机森林变量选择思想,本文设计了一个新的不平衡数据特征选择算法BRFVS。先特征选择必然面临数据不平衡问题。目前针对不平衡数据特征选择的算法相对较少。已有的EFSBS算法没有充分利用分类算法的反馈;PREE尽管利用了分类的性能反馈,但不能处理离散型特征。本文提出的BRFVS算法是一个既能处理离散型特征,又能处理连续型特征,且能充分利用分类算法反馈的特征选择算对BRFVS超参数K不同取值时的性能研究显示:当K取值为M时,采用BRFVS特征选择后再取样的分类性能更好,且明显优于普通特征选择后再取样的分类性能,再次印证了先特征选择更优的实验结论。
3)考虑误分类和测试双重代价,本文提出了一个代价敏感随机森林算法CSRF,从属性测试和误分类两方面调整对小类的关注度,提高小类的正确识别率。预处理方法可能导致特征或实例的损失,直接分类则可保留全部数据信息。已有的高维数据分类算法不能有效分类不平衡数据,而不平衡数据分类算法未考虑数据展现高维特性的情况。本文利用了随机森林处理高维数据的优势,在其决策树的属性***度量中引入双重代价,更好地处理数据中的不平衡性。相比于未考虑代价和仅考虑误分类代价的随机森林,CSRF分类在AUC性能,尤其是小类的正确识别率上有明显优势。同时,直接用CSRF算法分类的性能也明显高于预处理后的分类性能。
4)兼顾多样性、准确性和不平衡性,本文在集成特征选择中采用Kohavi-Wolpert方差作为多样性度量方法,在其中引入奖惩因子增加对小类的关注,提出了直接分类高维不平衡数据的IEFS算法。已有集成特征选择算法的目标函数仅考虑多样性和准确性,未考虑不平衡特性。IEFS算法在集成特征选择目标函数中综合考虑集成性能和不平衡处理因素,设计了新的目标函数,采用爬山法搜索特征空间。实验结果显示,此方法在AUC分类性能上略差于CSRF分类算法,但是其在AUC分类性能和小类的识别上明显高于C4.5和随机森林算法。
附图说明
下面结合附图和具体实施方式来详细说明本发明:
图1是本发明Relief方法示意图;
图2是本发明状态搜索空间图;
图3是本发明三层交叉准确率评估图;
图4是本发明选择特征和数据取样场景图;
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合图示与具体实施例,进一步阐述本发明。
面向高维和不平衡数据分类的集成,采用降维和取样的先后顺序,将预处理策略减少为两类;基于实验结论的可重现性原则,选取数据挖掘和机器学***衡程度两方面研究预处理方法对高维不平衡数据分类性能的影响;
高维不平衡数据分类的解决思路有两种:预处理后再分类和直接分类。目前主要采用不同的预处理组合策略来缓和高维和不平衡对分类的影响。Khoshgoftaar和Shanab分别针对某一特定领域(软件质量)和多个应用领域(UCI)的数据,研究预处理方法对高维不平衡数据分类性能的影响。软件质量数据集上的研究由于数据集单一,实验结论不具有普及性;而在UCI数据集上的实验研究,人为地引入了噪声,其结论不适用于无噪声的情况。噪声因素的引入使得实验结果不能真实地反映预处理方法对于高维不平衡数据分类的实际效果。
降维方法分为两类:特征选择和特征变换,特征选择方法依据是否独立于后续的学习算法分为过滤式(Filter)和封装式(Wrapper)两种,过滤式与后续学习算法无关,一般直接利用所有训练数据的统计性能评估特征,速度快,但评估与后续学习算法的性能偏差较大;封装式利用后续学习算法的训练准确率评估特征子集,偏差小,计算量大,不适合于大数据量,特征变换不同 于特征选择之处在于其输出结果不是原有的属性,而是基于某种变换原则所产生的新属性,由于变换后的属性改变了原有属性的物理特性,同时一些特征变换方法通常针对连续属性数据,再此不考虑特征变换方法,取样方法包括两种:欠取样和过取样,预处理采用降维方法和取样方法;
降维方法的评估直接依赖于数据集本身,通常认为相关性较大的特征或特征子集可获得较高的分类准确率,常见的Filter特征选择评估方法有类间距离、信息增益、关联度和不一致度等,Kohavi曾指出尽管仅考虑数据集的评估方法运行效率高,但寻找与类别相关的特征或特征子集和选择可最优化分类准确率的特征或特征子集是两个不同的问题;
Wrapper特征选择的核心思想是:与学习算法无关的Filter特征评价将与后续分类算法产生较大的偏差。不同学习算法偏好不同的特征子集,特征选择后的特征子集最终将用于后续的学习算法,则该学习算法的性能就是最好的评估标准。选择不同的分类算法以及特征空间搜索策略,则可产生各种Wrapper特征选择算法,常见的搜索方式有最佳优先搜索、随机搜索和启发式搜索等。
取样方法是一类常用的预处理技术,利用取样可以平衡数据,缓解数据中的不平衡问题,取样方法根据其取样方向可以分为两类:过取样(Over Sampling)和欠取样(Under Sampling),过取样增加小类实例,欠取样则减少大类实例,根据取样策略分为随机的和算法的两类,随机取样以随机方式删除或增加实例,而算法取样则根据一定的原则取样,如删除靠近大类边界的实例或者增加任意产生的小类实例等,通常而言,随机取样是较为常用的取样手段,而算法取样对于实例集的改变可能存在一定的导向性为简化问题。
降维方法关注特征选择与取样的组合实验效果,因此基于简化原则,选择简单、通用且高效的算法,Filter特征选择算法中选择信息增益特征选择算法和Relief算法,选择前者的原因在于后续分类算法拟定采用决策树算法,而信息增益本身就是决策树属性选择的方法;后者则是因为Relief算法是目前比较公认的效果较好的Filter特征选择算法,Wrapper算法拟定选择不同的搜索策略构造不同算法,由于Kohavi的实验研究显示最佳优先搜索优于贪心搜索(爬山法)方式,在此选择最佳优先搜索方式,另外,随机搜 索可以提供更为准确的搜索结果,在此同时考虑采用基本遗传算法的遗传搜索方式;
信息增益是信息增益是机器学习和信息理论中常用的一种度量方法,在进行类别预测时,已知特征的取值,IG可以度量有关类预测所需要的信息位数,信息增益可被定义为先验不确定性与期望的后验不确定性之间的差异,计算给定属性X关于类属性Y的IG,需要已知两个信息:类标号Y本身取值的不确定性和考虑属性X时的不确定性,这两个不确定性可以分别表示为Y的熵H(Y)和条件熵H(Y|X);
其中r表示属性X的取值个数,特征X的IG可定义为:
IG(X)=H(Y)-H(Y|X)
H(Y)表示不考虑特征X时,Y属性的纯度,而H(Y|X)表示考虑了特征X后,Y属性的纯度,若考虑X属性后,使得Y属性的划分更纯的话,则认为此特征属性能够有效区分类别,熵值越小,而纯度越高,也即应该选择最大信息增益的属性。
参见图1,Relief算法根据特征对近距离实例的辨别能力来评价特征,认为好的特征应该使同类的实例接近,而使不同类的实例之间远离,圆和三角分别表示两类实例,算法从训练集D中随机选择一个实例R,然后从和其同类的实例中寻找最近邻实例H,称为Nearest Hit,从和其不同类的实例中寻找最近邻实例M,称为Nearest Miss,然后对于每维特征,如果R和H在其上的距离小于R和M上的距离,则说明此维特征对区分同类和不同类的最近邻是有益的,增加该特征的权值;反之,则说明此维特征对区分同类和不同类的最近邻是起反作用的,则降低该特征权值,权值的更新公式如下:
Weight[A]=Weight[A]-diff(A,R,H)/m+diff(A,R,M)/m
其中A=1....N,N代表属性个数,m指的是迭代次数,diff(A,R,H)表示实例R和H在属性A上的距离;
重复上述过程m次,最后所获得是各特征的平均权值,特征的权值越大,表示该特征的分类能力越强,反之,表示该特征的分类能力越弱。
参见图2,Wrapper方法是由Kohavi提出,将学习算法当作一个黑匣子, 利用学习算法的结果选择特征子集,学习算法本身就是特征子集选择的评估函数,不同的搜索策略将产生不同的特征子集,一个搜索包含了状态空间,初始状态,终止条件和搜索策略四个要素,Kohavi将搜索空间的每个状态表示为一个特征子集,对于n个特征而言,每个状态有n位,每位表示一个特征是否出现,1表示出现,0表示不出现,操作决定了状态间的偏序关系,Kohavi选择的操作是增加或删除属性,如果是n个特征,则搜索空间为(2)nO,采用穷举模式搜索整个空间是不现实的,由此需要不同的搜索策略。
搜索的目标是通过评估函数,找到具有最高评估值的状态。由于不知道分类器的实际准确率,Kohavi采用5层交叉验证方法估计分类器准确率作为评估函数,参见图3显示的是一个估计准确率的三层交叉验证方法。
Kohavi设置搜索的初始状态为空集,即采用前向选择的方法(forward selection)。实验结果显示,最佳优先搜索的效果优于贪心搜索,因此论文实验拟采用最佳优先搜索方式。最佳优先搜索的本质思想就是选择当前已有的最可信的结果,遗传算法(Genetic Algorithm,GA)最早由Holland提出,是一种模拟生物选择和繁衍过程的进化学习方法。
遗传算法将待解决的问题通过编码表示为多个基因构成的染色体,设计一个适应函数用来判断染色体的好坏及其生存概率,染色体适应值越高,意味着被选择繁殖的可能性越大。遗传算法通过选择、交叉和变异获得种群的下一代,不断迭代直至满足结束条件。GA-Wrapper采用二进制编码方式,个体编码为二进制位串行式,每一位表示一位特征,取值为0代表不选择该特征,为1代表选择该特征。一个个体代表一种特征选择方案。以分类器的准确率作为适应值计算函数。
传统分类算法假定数据类别分布均衡。但真实数据常常存在类不平衡(class imbalance)或类分布偏斜(skewed class distribution)的情况[153]。当处理类不平衡数据时,由于多数类占优势,分类边界偏置于优势数据,传统分类算法将面临对少数类预测能力下降的问题,从而影响整体预测性能。此时,使用通常的准确率或错误率作为评估分类器性能可能出现偏差。目前不平衡数据分类算法的评价方法包括:正确率、精确度(precision)、召回率(recall)、F-measure、gmean、AUC、ROC曲线、precision-recall曲 线和cost曲线等。混淆矩阵表达实例分类的分布情况,是计算分类器性能度量的基础,如表1所示,其中正类代表少数类,负类代表多数类。
表1
预测正类 | 预测负类 | |
实际正类 | True Positives(TP) | False Negatives(FN) |
实际负类 | False Positives(FP) | True Negatives(TN) |
进一步,正确率和错误率是常用的分类器性能度量,但这两个度量对类不平衡敏感,过于偏向于多数类,当正负类比例为5%:95%的情况下,即使将所有实例都分为负类,分类器的正确率达到95%,而此时所有正例都将被错分,正确率(Acc)和错误率(Err)表示如下:
根据混淆矩阵,还可计算出精确度和召回率(真正率)及其他度量,F-measure组合了精确度和召回率,较高的F-measure意味着分类器在正类上具有更好的性能;
Kubat等提出的G-mean是正负类预测准确度的几何平均,G-mean是避免过度拟合负类的重要度量;
ROC曲线是点(FPrate,TPrate)的轨迹,ROC曲线上的每个点对应一个分类器模型,点(0,0)表示把每个实例都预测成负类的模型;点(1,1)表示把每个实例都预测成正类的模型;点(1,0)是理想模型,将所有正例分类为正类,所有负例分类为负类,在绘制ROC曲线时,y轴表示真正率,而x轴表示假正率,将一个分类器用于一个测试集上会产生一个混淆矩阵,进而获得相应的真正率(TPate)和假正率(FPrate),这样就对应于ROC空间中的一个点,不同的分类器则对应于ROC空间的一组点,将这些点连接起来就可以得到一条 ROC曲线,其对应的下方图面积就是AUC(area under ROC curve),假设分类器在实例x上输出得分f(x),则相应的AUC可以利用下式计算得到:
其中:I(g)是指示函数,N+表示正例实例数,N-表示负例实例数。
面对高维不平衡问题的直觉方法是对数据进行预处理,但是高维和不平衡的影响在数据集中是互相渗透的,先特征选择还是先取样?预处理的先后顺序是否与数据本身的维度和不平衡特性有一定的联系?预处理是否是最佳的处理方法?这一系列的问题驱使研究者进行预处理方面的验证实验。目前来说已经有许多分别验证各种预处理方法在高维或不平衡分类上的效果,但综合考虑预处理方法在高维不平衡数据上的处理效果的实验,仅有Khoshgoftaar的团队。但通过分析其实验研究内容,可以发现,在实验策略上存在一定的冗余,预处理方法的选择不够有代表性,且在数据集中人工引入噪声,尽管可以模拟出看似真实的数据集,但单就高维不平衡问题而言,则引入了不纯的信息,不能更好地展示预处理方法在此类问题上的处理效果,基于此,本文在Khoshgoftaart团队的实验研究基础上,对实验的策略、数据集和方法进行了改进,期望通过合理的实验设置,获得有效的实验结果,分析的实验结论可帮助后续算法的设计。
Khoshgoftaar在软件缺陷检测中,用特征选择和取样技术的各种组合模式解决数据中特征选择和类别不平衡问题。根据特征选择和取样的先后顺序及分类基于的训练数据集,设计了四种应用场景:
(1)基于原始数据特征选择,基于原始数据建模;
(2)基于原始数据特征选择,基于取样数据建模;
(3)基于取样数据特征选择,基于原始数据建模;
(4)基于取样数据特征选择,基于取样数据建模;
这四种场景如图4所,其采用的实验策略如表2所示:
表2
实验结果显示:
(1)基于取样数据的特征选择比基于原始数据的特征选择的效果明显更好,即S3和S4明显强于S1和S2;
(2)训练数据集是使用原始数据还是取样数据对预测模型的性能影响不大,即S1和S2之间以及S3和S4之间性能差别不大;据此,Khoshgoftaar认为在缺陷预测中选择正确的属性集非常重要。
随后,Shanab在此基础上,进行了更为通用的实验。在场景上,Shanab认为第一种方法等同于仅进行特征选择的方法,因此将其去除,其他三种场景保持不变。特征选择方法由6种扩大为9种,取样方法仍然保持不变,使用的分类算法则由两种扩大为五种,所采用的验证数据集不再局限于软件缺陷检测领域,而扩大为7个,分别包括基因表达数据、互联网数据和图像识别数据。具体的实验策略如表3所示:
表3
实验结果与Khoshgoftaar的结论稍有出入。场景S2和S3的性能相对 更好,而S2和S3的性能高低则取决于所采用的评价指标和分类算法,若采用PRC指标或MLP或LR算法,则S3更好,若采用AUC指标或5-NN或SVM算法,则S2效果更好。分析两者的实验策略和实验结果可以发现其存在以下问题:
1)特征选择和取样选择的组合策略不合理四种场景中,S2和S4所获得的训练数据集是低维平衡数据集,而S1和S3所获得的训练数据集是低维不平衡数据集。其所采用的分类算法均为传统分类算法。由此,S1和S3所获得的结果并不符合预处理的最终处理目标。策略组合的关键并不在于最终的数据集形成于原数据集还是取样数据集,关键应该在于特征选择方法与取样方法的先后顺序,以及特征选择基于的数据集是原始数据集还是取样数据集,而取样方法基于的数据集是原始数据集还是特征选择后的数据集。抑或是两者是作为两个独立的过程进行。不论采用何种策略,若采用的分类算法是传统算法,预处理的目标应该是将具有高维不平衡特性的数据集转化为低维平衡数据集。而这四种场景,仅有两种场景最终的数据集是低维平衡数据集。
2)特征选择方法和取样方法不完备
上述实验所采用的特征选择方法均是过滤式方法,即特征选择基于数据集,与所选择的分类算法无关,而取样方法仅仅考虑欠取样一种。过滤式方法仅从数据集本身考虑,但面对不同分类算法时,效果将各有不同,而欠取样是一种减少数据集数量的做法,当训练数据较少,或者说少数类较少时,这样的小样本将影响分类的效果。因此,从特征选择方法和取样方法来说,其选择的方法应更为完备。
3)实验结果的分析不充分
Khoshgoftaar的研究结果显示,先取样的场景优于特征选择的场景,而最终训练数据集的形成是在原始数据上,还是在取样数据上则影响不大。这一结果可以理解为,若先进行特征选择,则数据集是不平衡数据集,特征选择方法仍是传统方法,这样将影响最终的结果,若预先取样,则可以先消除不平衡,使得特征选择方法发挥正常的作用。据此理解,其结论有一定合理性。但Shanab的结果却显示,S2和S3优于S4,这一结果与Khoshgoftaar 的结果有一定的出入,也就是说,先取样,还是先特征选择差别不大,但是在原始数据集上训练的效果优于取样数据集上。为何相似策略,其结论有一定差别?Khoshgoftaar的实验数据集仅针对软件缺陷检测领域,不能说明其通用性,而Shanab的实验方案尽管更为通用,但是其在实验过程中,考虑了噪声问题,引入了更多的不确定性。之所以在原始数据集上训练的效果优于取样数据集上,主要因为欠取样技术减少了训练数据集的数量,Shanab实验选择的数据集的数量和少数类的数量相对较少的情况下,在更多数据上的分类效果将更好。
实验所用数据集全部来自于加州大学尔湾分校机器学习小组所维护的一个数据挖掘公共数据库[159]。对来自于分类任务的142个数据集按照以下原则进行了筛选:
1)按照三个属性区间筛选:[25,100],[100-1000]和1000以上;
2)选择类分布不平衡的数据集;
3)选择在属性区间范围内的类别分布平衡的多分类数据集。之所以选择UCI数据集并按此三个原则进行筛选,理由如下:
1)UCI数据集是机器学习和数据挖掘比较公认的标准数据集,大量的挖掘算法研究和应用所采用的数据集都是来源此,选择UCI数据集可使后续研究者重现实验过程;
2)属性区间设置是为了对比不同维数的数据集在各种方法下的性能体现,分析算法受维数的影响程度,对于1000维以上的数据集,仅在1000附近选择,是因为选择对比的预处理方法是基于Weka实现,weka中的算法对于性能有一定的要求,而属性过高的数据属于超高维数据,因此不在论文的考虑范围之内;
3)类分布不平衡一方面是由于数据的某些类别稀少本身的特性所决定,另一方面是由于一些算法处理原因而人为造成的不平衡,例如有些算法仅仅适用于二分类问题,此时,需要将多分类问题转化为二分类问题,则极有可能人为地造成类分布不平衡,因此满足属性选择区间的数据集,如果是多分类问题,也属于实验数据集的考虑范围之内。UCI的分类数据集中,属性个数大于25的数据集有53个,根据筛选原则获得来自于图像识别、垃圾 邮件识别、web应用和错误诊断等四个应用领域的七个数据集。上述数据集中有些数据属性存在一定的缺失、有些则属于多分类问题,因此需要对原始数据进行相应的处理。下述是有关数据集的说明以及处理方法。
1)钢板缺陷数据集(Steel Plates Faults):由意大利的通信科学Semeion研究中心提供。每个实例代表的是一个不锈钢片的表面缺陷。有七种不同类型的缺陷,缺陷由27个属性描述。这些属性表示了缺陷的几何形状和轮廓。共有1941个实例[160]。Steel数据集是一个多分类问题。根据Steel数据集的六种数据类型将其转化为七个二分类数据集。其中一个类别是某一特定的缺陷,而另一个类别则是其他所有的曲线,分类目的则转化为有效地区分特定类型的缺陷与其他类型的缺陷。由于前五个类别是特定类型的曲线,而第七个类别是泛指非此五种缺陷的其他缺陷,其占据整体数据集大约30%多的比例,将其考虑为一个分类问题意义不大,因此将其删除,获得6个二分类数据集。由于6个数据集中每两个数据集的不平衡率相似,分别为(Dirtiness,Stains)、(Pastry,Z_Scratch)和(K_Scratch,Bumps),仅需选择3个数据集为代表即可。以C4.5为基准算法在此三对数据集的每对中选择正类的TPrate稍低的数据集作为最终的实验数据集,分别为Dirtiness、Pastry和Bumps。
2)地球资源卫星数据集(Stalog Landsat Satellite):Stalog数据集是一个卫星图像的某一子区域。这个区域包含82*100个像素。数据集中的每一行对应的是这个82*100的子区域中的3*3的邻域。每一行都对应3*3邻域中9个像素的四个光谱带的像素值,因此形成了36个属性。一个像素值是一个8位位串,数值0对应为黑色,数值255对应为白色。类标号表示中心像素的类别(7个类别),分别以数字表示,1代表red soil,2代表cotton crop,3代表grey soil,4代表damp grey soil,5代表soil with vegetation stubble,6代表mixture class,7代表very damp grey soil。由于第六类没有实例,因此实际上数据集的类别为六类。数据以随机方式排序,一些数据线已被移除,因此无法根据数据重构图像。类似于Steel数据,将Stalog数据也转化为二分类数据集,由此形成了6个数据集,这6个数 据集中每三个数据集的不平衡率相似,分别为(1,2,3)和(4,5,6)。和Steel的选择原则类似,从这两组数据中各选一个数据集获得最终实验数据集(3,4)
3)垃圾邮件数据集(Spambase):垃圾邮件数据集的每一行代表一封邮件是否是垃圾邮件。大部分的属性表示某些单词或字符是否在邮件中频繁出现。数据集有57个属性,其中有48个取值范围在[0-100]的连续属性,这些属性记录的是一些单词在邮件中出现的频率。有6个范围在[0-100]的连续属性用于记录字符在邮件中出现的频率。剩下的三个连续属性表示用来记录邮件中连续大写字母长度的不同度量(平均值,最长值和总数)。最后一个属性是表示该邮件是否是垃圾邮件的类标号。0表示不是垃圾邮件,1表示是垃圾邮件。数据集共有4601个实例,但是数据集中的某些属性存在缺失,由于实验数据比较充分,对缺失数据采取删除的策略,由此获得个实例,其中垃圾邮件1813个,非垃圾邮件2788个。
4)麝香数据集(Musk):Musk数据集是一个描述102个分子的数据集合,其中39个由人类专家判定为麝香,剩余的63个分子判定为非麝香。分类的目标是通过学习,预测一个新分子是否是麝香。由于链接(bond)可以旋转,单个分子可以展现不同的形状。此数据集根据分子的所有低能量形态产生了6598个形态。其中特征依赖于分子的确切形状或形态,抽取了166个特征用于描述每个形态。剩余两个属性分别为分子名和构造名。除了166个特征外还有两个属性,分别为分子名和形态名,这两个属性不能用于分类,因此将其删除。
5)因特网广告数据集(Internet Advertisements):因特网广告数据集包含了3279个实例,这些实例代表了嵌入在Web页面中的图像和单词。特征包括图像的维,文档或图像的URL中的词组,图像anchor tag中或附近出现的文本,类标号表示为一个图像是否是广告。原始类分布为非广告2821个实例,广告458个实例。但数据中一些属性存在28%左右的缺失,对于缺失数据采取删除的策略,由此获得非广告实例1978个,广告实例381个。
6)手写体数字光学识别数据集(Optidigits):Optidigits数据集来自于43个人手写的0到9的数字,其中30个人的手写数字作为训练数据集, 剩下的13个人的手写数字作为测试数据集。预先打印的手写数字图像通过NIST提供的预处理程序抽取为位图的形式。32*32为位图被划分为不覆盖的4*4块,计算每个块里的像素数。由此产生一个8*8的输入矩阵,其中每个元素是0-16的整数,由此形成64个属性维。类标号为手写数字。由于各数字的分布均衡,首先将其转化为二分类问题。转换的方式有两种:(1)取其中一个数字为正例,剩余数字为反例。(2)由于2,3,5,7,8这几个数字容易混淆,因此先删除非2,3,5,7,8的实例,取其中一个作为正例,剩余作为反例。由此将产生15个数据集,根据前述类似的原则,选择TPrate较低的数据集,第一种情况选择了数字8作为正例,形成数据集Optidigits A-8;第二种情况选择数字3作为正例,形成数据集Optidigit P-3。
7)手写体数字数据集(Semeion Handwritten Digit):Semeion数据集来自于80个人的1593个手写数字。这些数字在一个灰度范围为256的16*16的矩形中被拉伸。每个图像的每个像素使用一个固定的域值被扫描为一个布尔值(每个像素值小于等于127位0,大于127为1)。每个人写0到9共十个数字两遍,其中第一次以正常的方式写,第二次以快速的方式写。数据集中的每一条记录表示一个手写数字,属性表示为像素。与Optidigits的选择原则类似,选择出两个数据集,分别为Semeion A-8和Semeion P-3。通过选择和处理后最终获得了12个数据集,论文的所有研究均是基于此12个数据集。总结选择理由如下:(1)涉及多个领域;(2)存在本质不平衡情况和人为不平衡情况,符合现实世界数据特性;(3)UCI数据集是数据挖掘公认的实验数据集,对比实验研究具有可再现性和可比性。(4)数据集属性存在三个跨度,不平衡度也存在不同级别,满足研究维数变化和不平衡程度对于算法的影响分析需求。基于上述理由,选择此12个数据集作为实验研究基础。
根据上述实验所存在的问题,本设计了更为合理的高维不平衡预处理策略,数据集的选择上,充分考虑了不同的维数以及不平衡程度,涉及多个常见的具有高维不平衡数据的领域。相比于上述实验,在实验方案上更为全面,期望能够对于采用预处理方法解决高维和不平衡数据分类有更为深入的认识。
高维数据特征选择方法有两种:Filter和Wrapper。不平衡预处理方法主要指的是取样方法,包括欠取样和过取样。高维和不平衡的处理策略无非就是两种:先降维再平衡,还是先平衡再降维。
划分的原则是降维和取样的先后顺序以及各种降维方法与取样方法的组合形式。在具体方法的选择上,采用一些有效的通用方法。
由于决策树算法在实际应用中具有普遍性,而论文后续的研究所采用的基础算法是决策树算法。因此,此实验仅考虑C4.5这一种分类算法。进行特征选择与取样方法组合实验的主要目的是为了回答以下几个问题:(1)在分类高维和不平衡数据时,数据预处理方法是否总是有效?(2)预处理高维不平衡数据时,特征选择和取样方法的先后顺序如何,不同先后顺序对于分类结果是否有影响?(3)预处理方法是否受到属性个数和不平衡程度的影响?
由于过滤式属性选择涉及选择的属性个数,在此根据随机森林算法所建议的K参数的选值,若原始属性个数为M,则特征选择后的属性个数为M。Wrapper方法则根据搜索终止条件,选择相应的子集。在分类器评价方面,则选择不平衡数据分类中常用的AUC面积作为评价标准。由于采用随机取样方法,每次取样后所获得的数据集将有所不同,由此所产生的分类器也将有所区别,为获得更为准确率的实验结论。采用重复取样五次的方法,获得五个不同的取样数据集,再对此数据集上所产生的准确率平均作为最终的实验结果。
由此获得实验结果集中表头包含了三部分信息:数据集名,小类所占比例以及未预处理时用C4.5分类的AUC值。最左边一列代表的是所采用的预处理策略,其中F1代表IG方法,F2代表Relief方法,W1代表最佳优先搜索,W2代表遗传搜索。
根据表4从以下几个方面分析研究结果:
1)先取样还是先降维?即判定场景S1和场景S2在不同数据集上的性能。记录了各个数据集分别在未预处理、场景S1和场景S2三种情况下的平均AUC值。场景S1和S2的性能均优于原始数据的分类性能,也就是说,对高维不平衡数据进行预处理是可以提升分类算法的性能的。仅在Spam数据上出现一些反常的现象。分析其原因可以发现,Spam的类别比例大约为4:6,并非完全的均衡,但是不均衡现象不明显,因此预处理的方法未必能够有正面的效果,反而可能造成分类性能的下降。另一个反常的现象出现在Opt数据上,预处理后的平均AUC值反而出现下降的情况。Opt数据和Sta数据都是采用独立的测试数据集,而其他数据集所获得的测试结果是采用十层交叉验证。由于训练数据进行了预处理,因此测试数据也相应的也要进行预处 理,但是由于预处理所产生的差异,可能导致测试数据的分布不同于训练数据,因此造成实验结果的反常现象。
取样和降维的先后顺序,可以从两个方面考虑,一方面是算法的执行效率。另一方面是对分类算法的影响。从执行效率方面看,如果采用过取样的方法,取样后降维极大了增加了程序的运行时间,尤其是在执行Wrapper算法时,Filter类算法相比其具有明显的时间优势。从对分类算法的影响看,实验结果并非像Khoshgoftaar所述,先取样优于先特征选择。从S1和S2的两个场景对比发现,有6个数据集,S1场景的平均AUC值优于S2场景的平均AUC值。尽管两者的效果相差不大,但是从整体趋势来看,先特征选择效果优于先取样。两者之所以差别比较小是因为过取样的分类准确率过高,使得平均准确率的差距不大。
2)不同取样方法和降维方法对后续分类算法是否有影响?从实验结果看,采用过取样方法,分类的AUC值普遍提升,最大AUC值达到了0.99,尤其是不平衡程度比较高的数据集。很明显,过取样方法展现了非常乐观的预测性能。但这却可能代表着过度拟合,可以观察到,当数据比例严重失衡时,过取样方法使得分类算法展现了近乎完美的性能。主要原因是对小类的有放回取样,产生了大量的重复实例,在这些重复实例上的高准确率使得整体性能评价得到了提升。但对于不平衡比的倾斜比例不够大的数据集,例如Spam数据集,过取样方法未必能够展现好的性能,反而使得分类器的性能下降。因此,当数据的不平衡比例较大时,不建议采用过取样方法。采用封装式特征选择的分类效果普遍优于过滤式特征选择的分类效果。而同类型方法间的性能差异则不大。值得注意的一点是,尽管采用最佳优先搜索方式和遗传搜索方式的性能差异不大,但是,在大部分情况下,采用遗传搜索方式搜索的特征子集,并没有展现优于最佳优先搜索方式的结果,反而出现比最佳优先搜索略差的效果。
3)数据的维度和类别的不平衡度对于预处理方法来说有何影响?在场景S2中,更为高维的数据的处理时间明显高于低维数据,尤其是在过取样后再进行特征选择。采用过滤式特征选择时,所获得的特征选择结果为,特征的排序,实验按照固定取原始特征数的开方作为最终的特征数。而封装式 特征选择则是直接按照选择的特征子集确定最终的特征数。因此,封装式特征选择的特征数明显多于过滤式,从实验数据可以看出,封装式特征选择的效果不论是在场景S1还是S2,均优于过滤式特征选择。当数据的不平衡程度比较高的时,采用过取样方法,很容易造成过度拟合的情况;当数据展现轻微的不平衡时,是否预处理的影响并不大,预处理可能还会造成分类性能的下降。总结此12个数据集上的实验结果,可获得以下实验结论:
1)先特征选择的效果略优于先取样;
2)数据不平衡比率较大时,建议采用欠取样方法;
3)当数据失衡比例不大时,不建议进行预处理;
4)在封装式特征选择中,复杂的方法未必会获得更优的结果,如GA搜索的结果未必优于最佳优先搜索。
上述结论并非是绝对的,仅仅是当前实验设置下,展现的客观实验结果。由于数据集的不同以及算法参数的不同设置,也可能导致不同的实验结论。但论文实验方案经过了多方面的考虑,在类似的设置情况下,此四个结论对于具体实践而言还是有一定的价值的。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等同物界定。
Claims (5)
1.面向高维和不平衡数据分类的集成,其特征在于,采用降维和取样的先后顺序,将预处理策略减少为两类;基于实验结论的可重现性原则,选取数据挖掘和机器学***衡程度两方面研究预处理方法对高维不平衡数据分类性能的影响;
降维方法分为两类:特征选择和特征变换,特征选择方法依据是否独立于后续的学习算法分为过滤式(Filter)和封装式(Wrapper)两种,过滤式与后续学习算法无关,一般直接利用所有训练数据的统计性能评估特征,速度快,但评估与后续学习算法的性能偏差较大;封装式利用后续学习算法的训练准确率评估特征子集,偏差小,计算量大,不适合于大数据量,特征变换不同于特征选择之处在于其输出结果不是原有的属性,而是基于某种变换原则所产生的新属性,由于变换后的属性改变了原有属性的物理特性,同时一些特征变换方法通常针对连续属性数据,再此不考虑特征变换方法,取样方法包括两种:欠取样和过取样,预处理采用降维方法和取样方法;
降维方法的评估直接依赖于数据集本身,通常认为相关性较大的特征或特征子集可获得较高的分类准确率,常见的Filter特征选择评估方法有类间距离、信息增益、关联度和不一致度等,Kohavi曾指出尽管仅考虑数据集的评估方法运行效率高,但寻找与类别相关的特征或特征子集和选择可最优化分类准确率的特征或特征子集是两个不同的问题;
取样方法是一类常用的预处理技术,利用取样可以平衡数据,缓解数据中的不平衡问题,取样方法根据其取样方向可以分为两类:过取样(OverSampling)和欠取样(Under Sampling),过取样增加小类实例,欠取样则减少大类实例,根据取样策略分为随机的和算法的两类,随机取样以随机方式删除或增加实例,而算法取样则根据一定的原则取样,如删除靠近大类边界的实例或者增加任意产生的小类实例等,通常而言,随机取样是较为常用的取样手段,而算法取样对于实例集的改变可能存在一定的导向性为简化问题。
2.根据权利要求1所述的面向高维和不平衡数据分类的集成,其特征在于,降维方法关注特征选择与取样的组合实验效果,因此基于简化原则,选择简单、通用且高效的算法,Filter特征选择算法中选择信息增益特征选择算法和Relief算法,选择前者的原因在于后续分类算法拟定采用决策树算法,而信息增益本身就是决策树属性选择的方法;后者则是因为Relief算法是目前比较公认的效果较好的Filter特征选择算法,Wrapper算法拟定选择不同的搜索策略构造不同算法,由于Kohavi的实验研究显示最佳优先搜索优于贪心搜索(爬山法)方式,在此选择最佳优先搜索方式,另外,随机搜索可以提供更为准确的搜索结果,在此同时考虑采用基本遗传算法的遗传搜索方式;
信息增益是信息增益是机器学习和信息理论中常用的一种度量方法,在进行类别预测时,已知特征的取值,IG可以度量有关类预测所需要的信息位数,信息增益可被定义为先验不确定性与期望的后验不确定性之间的差异,计算给定属性X关于类属性Y的IG,需要已知两个信息:类标号Y本身取值的不确定性和考虑属性X时的不确定性,这两个不确定性可以分别表示为Y的熵H(Y)和条件熵H(Y|X);
<mrow>
<mi>H</mi>
<mrow>
<mo>(</mo>
<mi>Y</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mo>-</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>k</mi>
</munderover>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mi>Y</mi>
<mo>=</mo>
<msub>
<mi>Y</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<msub>
<mi>log</mi>
<mn>2</mn>
</msub>
<mrow>
<mo>(</mo>
<mi>P</mi>
<mo>(</mo>
<mrow>
<mi>Y</mi>
<mo>=</mo>
<msub>
<mi>Y</mi>
<mi>i</mi>
</msub>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>H</mi>
<mrow>
<mo>(</mo>
<mi>Y</mi>
<mo>|</mo>
<mi>X</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mo>-</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>r</mi>
</munderover>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mi>X</mi>
<mo>=</mo>
<msub>
<mi>X</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<mi>H</mi>
<mrow>
<mo>(</mo>
<mi>Y</mi>
<mo>|</mo>
<mi>X</mi>
<mo>=</mo>
<msub>
<mi>X</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
其中r表示属性X的取值个数,特征X的IG可定义为:
IG(X)=H(Y)-H(Y|X)
H(Y)表示不考虑特征X时,Y属性的纯度,而H(Y|X)表示考虑了特征X后,Y属性的纯度,若考虑X属性后,使得Y属性的划分更纯的话,则认为此特征属性能够有效区分类别,熵值越小,而纯度越高,也即应该选择最大信息增益的属性。
3.根据权利要求1所述的面向高维和不平衡数据分类的集成,其特征在于,Relief算法根据特征对近距离实例的辨别能力来评价特征,认为好的特征应该使同类的实例接近,而使不同类的实例之间远离,圆和三角分别表示两类实例,算法从训练集D中随机选择一个实例R,然后从和其同类的实例中寻找最近邻实例H,称为Nearest Hit,从和其不同类的实例中寻找最近邻实例M,称为Nearest Miss,然后对于每维特征,如果R和H在其上的距离小于R和M上的距离,则说明此维特征对区分同类和不同类的最近邻是有益的,增加该特征的权值;反之,则说明此维特征对区分同类和不同类的最近邻是起反作用的,则降低该特征权值,权值的更新公式如下:
Weight[A]=Weight[A]-diff(A,T,H)/m+diff(A,R,M)/m
其中A=1....N,N代表属性个数,m指的是迭代次数,diff(A,R,H)表示实例R和H在属性A上的距离;
重复上述过程m次,最后所获得是各特征的平均权值,特征的权值越大,表示该特征的分类能力越强,反之,表示该特征的分类能力越弱。
4.根据权利要求1所述的面向高维和不平衡数据分类的集成,其特征在于,Wrapper方法是由Kohavi提出,将学习算法当作一个黑匣子,利用学习算法的结果选择特征子集,学习算法本身就是特征子集选择的评估函数,不同的搜索策略将产生不同的特征子集,一个搜索包含了状态空间,初始状态,终止条件和搜索策略四个要素,Kohavi将搜索空间的每个状态表示为一个特征子集,对于n个特征而言,每个状态有n位,每位表示一个特征是否出现,1表示出现,0表示不出现,操作决定了状态间的偏序关系,Kohavi选择的操作是增加或删除属性,如果是n个特征,则搜索空间为(2)nO,采用穷举模式搜索整个空间是不现实的,由此需要不同的搜索策略。
5.根据权利要求1所述的面向高维和不平衡数据分类的集成,其特征在于,正确率和错误率是常用的分类器性能度量,但这两个度量对类不平衡敏感,过于偏向于多数类,当正负类比例为5%:95%的情况下,即使将所有实例都分为负类,分类器的正确率达到95%,而此时所有正例都将被错分,正确率(Acc)和错误率(Err)表示如下:
<mrow>
<mi>A</mi>
<mi>c</mi>
<mi>c</mi>
<mo>=</mo>
<mfrac>
<mrow>
<mo>(</mo>
<mi>T</mi>
<mi>P</mi>
<mo>+</mo>
<mi>T</mi>
<mi>N</mi>
<mo>)</mo>
</mrow>
<mrow>
<mo>(</mo>
<mi>T</mi>
<mi>P</mi>
<mo>+</mo>
<mi>F</mi>
<mi>N</mi>
<mo>+</mo>
<mi>T</mi>
<mi>N</mi>
<mo>+</mo>
<mi>F</mi>
<mi>P</mi>
<mo>)</mo>
</mrow>
</mfrac>
</mrow>
<mrow>
<mi>E</mi>
<mi>r</mi>
<mi>r</mi>
<mo>=</mo>
<mfrac>
<mrow>
<mo>(</mo>
<mi>F</mi>
<mi>P</mi>
<mo>+</mo>
<mi>F</mi>
<mi>N</mi>
<mo>)</mo>
</mrow>
<mrow>
<mo>(</mo>
<mi>T</mi>
<mi>P</mi>
<mo>+</mo>
<mi>F</mi>
<mi>N</mi>
<mo>+</mo>
<mi>T</mi>
<mi>N</mi>
<mo>+</mo>
<mi>F</mi>
<mi>P</mi>
<mo>)</mo>
</mrow>
</mfrac>
</mrow>
根据混淆矩阵,还可计算出精确度和召回率(真正率)及其他度量,F-measure组合了精确度和召回率,较高的F-measure意味着分类器在正类上具有更好的性能;
<mrow>
<mi>F</mi>
<mo>-</mo>
<mi>m</mi>
<mi>e</mi>
<mi>a</mi>
<mi>s</mi>
<mi>u</mi>
<mi>r</mi>
<mi>e</mi>
<mo>=</mo>
<mfrac>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>+</mo>
<msup>
<mi>&beta;</mi>
<mn>2</mn>
</msup>
<mo>)</mo>
<mi>r</mi>
<mi>e</mi>
<mi>c</mi>
<mi>a</mi>
<mi>l</mi>
<mi>l</mi>
<mo>&times;</mo>
<mi>p</mi>
<mi>r</mi>
<mi>e</mi>
<mi>c</mi>
<mi>i</mi>
<mi>s</mi>
<mi>i</mi>
<mi>o</mi>
<mi>n</mi>
</mrow>
<mrow>
<msup>
<mi>&beta;</mi>
<mn>2</mn>
</msup>
<mo>&times;</mo>
<mi>r</mi>
<mi>e</mi>
<mi>c</mi>
<mi>a</mi>
<mi>l</mi>
<mi>l</mi>
<mo>+</mo>
<mi>p</mi>
<mi>r</mi>
<mi>e</mi>
<mi>c</mi>
<mi>i</mi>
<mi>s</mi>
<mi>i</mi>
<mi>o</mi>
<mi>n</mi>
</mrow>
</mfrac>
</mrow>
Kubat等提出的G-mean是正负类预测准确度的几何平均,G-mean是避免过度拟合负类的重要度量;
<mrow>
<mi>G</mi>
<mo>-</mo>
<mi>m</mi>
<mi>e</mi>
<mi>a</mi>
<mi>n</mi>
<mo>=</mo>
<msqrt>
<mrow>
<mi>T</mi>
<mi> </mi>
<mi>Pr</mi>
<mi> </mi>
<mi>a</mi>
<mi>t</mi>
<mi>e</mi>
<mo>&times;</mo>
<mi>T</mi>
<mi>N</mi>
<mi>r</mi>
<mi>a</mi>
<mi>t</mi>
<mi>e</mi>
</mrow>
</msqrt>
</mrow>
ROC曲线是点(FPrate,TPrate)的轨迹,ROC曲线上的每个点对应一个分类器模型,点(0,0)表示把每个实例都预测成负类的模型;点(1,1)表示把每个实例都预测成正类的模型;点(1,0)是理想模型,将所有正例分类为正类,所有负例分类为负类,在绘制ROC曲线时,y轴表示真正率,而x轴表示假正率,将一个分类器用于一个测试集上会产生一个混淆矩阵,进而获得相应的真正率(TPate)和假正率(FPrate),这样就对应于ROC空间中的一个点,不同的分类器则对应于ROC空间的一组点,将这些点连接起来就可以得到一条ROC曲线,其对应的下方图面积就是AUC(area under ROC curve),假设分类器在实例x上输出得分f(x),则相应的AUC可以利用下式计算得到:
<mrow>
<mi>A</mi>
<mi>U</mi>
<mi>C</mi>
<mo>=</mo>
<mfrac>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<msub>
<mi>N</mi>
<mo>+</mo>
</msub>
</munderover>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<msub>
<mi>N</mi>
<mo>-</mo>
</msub>
</munderover>
<mi>I</mi>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>(</mo>
<msubsup>
<mi>x</mi>
<mi>i</mi>
<mo>+</mo>
</msubsup>
<mo>)</mo>
<mo>></mo>
<mi>f</mi>
<mo>(</mo>
<msubsup>
<mi>x</mi>
<mi>j</mi>
<mo>-</mo>
</msubsup>
<mo>)</mo>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msub>
<mi>N</mi>
<mo>+</mo>
</msub>
<msub>
<mi>N</mi>
<mo>-</mo>
</msub>
</mrow>
</mfrac>
</mrow>
其中:I(g)是指示函数,N+表示正例实例数,N-表示负例实例数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610218160.2A CN107273387A (zh) | 2016-04-08 | 2016-04-08 | 面向高维和不平衡数据分类的集成 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610218160.2A CN107273387A (zh) | 2016-04-08 | 2016-04-08 | 面向高维和不平衡数据分类的集成 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107273387A true CN107273387A (zh) | 2017-10-20 |
Family
ID=60052504
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610218160.2A Pending CN107273387A (zh) | 2016-04-08 | 2016-04-08 | 面向高维和不平衡数据分类的集成 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107273387A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108182347A (zh) * | 2018-01-17 | 2018-06-19 | 广东工业大学 | 一种大规模跨平台基因表达数据分类方法 |
CN108231201A (zh) * | 2018-01-25 | 2018-06-29 | 华中科技大学 | 一种疾病数据分析处理模型的构建方法、***及应用 |
CN108319987A (zh) * | 2018-02-20 | 2018-07-24 | 东北电力大学 | 一种基于支持向量机的过滤-封装式组合流量特征选择方法 |
CN108509982A (zh) * | 2018-03-12 | 2018-09-07 | 昆明理工大学 | 一种处理二分类不平衡医学数据的方法 |
CN108647138A (zh) * | 2018-02-27 | 2018-10-12 | 中国电子科技集团公司电子科学研究院 | 一种软件缺陷预测方法、装置、存储介质及电子设备 |
CN108921222A (zh) * | 2018-07-05 | 2018-11-30 | 四川泰立智汇科技有限公司 | 一种基于大数据的中央空调能耗特征选择方法 |
CN109509014A (zh) * | 2018-09-06 | 2019-03-22 | 微梦创科网络科技(中国)有限公司 | 一种媒体信息的投放方法和装置 |
CN109800884A (zh) * | 2017-11-14 | 2019-05-24 | 阿里巴巴集团控股有限公司 | 模型参数的处理方法、装置、设备和计算机存储介质 |
CN109800790A (zh) * | 2018-12-24 | 2019-05-24 | 厦门大学 | 一种面向高维数据的特征选择方法 |
CN111382273A (zh) * | 2020-03-09 | 2020-07-07 | 西安理工大学 | 一种基于吸引因子的特征选择的文本分类方法 |
CN113852612A (zh) * | 2021-09-15 | 2021-12-28 | 桂林理工大学 | 一种基于随机森林的网络入侵检测方法 |
CN114882273A (zh) * | 2022-04-24 | 2022-08-09 | 电子科技大学 | 应用于狭小空间的视觉识别方法、装置、设备和存储介质 |
US11475335B2 (en) | 2019-04-24 | 2022-10-18 | International Business Machines Corporation | Cognitive data preparation for deep learning model training |
-
2016
- 2016-04-08 CN CN201610218160.2A patent/CN107273387A/zh active Pending
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109800884B (zh) * | 2017-11-14 | 2023-05-26 | 阿里巴巴集团控股有限公司 | 模型参数的处理方法、装置、设备和计算机存储介质 |
CN109800884A (zh) * | 2017-11-14 | 2019-05-24 | 阿里巴巴集团控股有限公司 | 模型参数的处理方法、装置、设备和计算机存储介质 |
CN108182347A (zh) * | 2018-01-17 | 2018-06-19 | 广东工业大学 | 一种大规模跨平台基因表达数据分类方法 |
CN108231201B (zh) * | 2018-01-25 | 2020-12-18 | 华中科技大学 | 一种疾病数据分析处理模型的构建方法、***及应用方法 |
CN108231201A (zh) * | 2018-01-25 | 2018-06-29 | 华中科技大学 | 一种疾病数据分析处理模型的构建方法、***及应用 |
CN108319987A (zh) * | 2018-02-20 | 2018-07-24 | 东北电力大学 | 一种基于支持向量机的过滤-封装式组合流量特征选择方法 |
CN108319987B (zh) * | 2018-02-20 | 2021-06-29 | 东北电力大学 | 一种基于支持向量机的过滤-封装式组合流量特征选择方法 |
CN108647138A (zh) * | 2018-02-27 | 2018-10-12 | 中国电子科技集团公司电子科学研究院 | 一种软件缺陷预测方法、装置、存储介质及电子设备 |
CN108509982A (zh) * | 2018-03-12 | 2018-09-07 | 昆明理工大学 | 一种处理二分类不平衡医学数据的方法 |
CN108921222A (zh) * | 2018-07-05 | 2018-11-30 | 四川泰立智汇科技有限公司 | 一种基于大数据的中央空调能耗特征选择方法 |
CN109509014B (zh) * | 2018-09-06 | 2021-07-27 | 微梦创科网络科技(中国)有限公司 | 一种媒体信息的投放方法和装置 |
CN109509014A (zh) * | 2018-09-06 | 2019-03-22 | 微梦创科网络科技(中国)有限公司 | 一种媒体信息的投放方法和装置 |
CN109800790A (zh) * | 2018-12-24 | 2019-05-24 | 厦门大学 | 一种面向高维数据的特征选择方法 |
US11475335B2 (en) | 2019-04-24 | 2022-10-18 | International Business Machines Corporation | Cognitive data preparation for deep learning model training |
CN111382273A (zh) * | 2020-03-09 | 2020-07-07 | 西安理工大学 | 一种基于吸引因子的特征选择的文本分类方法 |
CN111382273B (zh) * | 2020-03-09 | 2023-04-14 | 广州智赢万世市场管理有限公司 | 一种基于吸引因子的特征选择的文本分类方法 |
CN113852612A (zh) * | 2021-09-15 | 2021-12-28 | 桂林理工大学 | 一种基于随机森林的网络入侵检测方法 |
CN113852612B (zh) * | 2021-09-15 | 2023-06-27 | 桂林理工大学 | 一种基于随机森林的网络入侵检测方法 |
CN114882273A (zh) * | 2022-04-24 | 2022-08-09 | 电子科技大学 | 应用于狭小空间的视觉识别方法、装置、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107273387A (zh) | 面向高维和不平衡数据分类的集成 | |
CN111199343B (zh) | 一种多模型融合的烟草市场监管异常数据挖掘方法 | |
CN108898479B (zh) | 信用评价模型的构建方法及装置 | |
Beheshtipour et al. | Deep learning for clustering of continuous gravitational wave candidates | |
CN104834940A (zh) | 一种基于支持向量机的医疗影像检查疾病分类方法 | |
CN106228389A (zh) | 基于随机森林算法的网络潜力用户挖掘方法及*** | |
CN105760889A (zh) | 一种高效的不均衡数据集分类方法 | |
CN112417176B (zh) | 基于图特征的企业间隐性关联关系挖掘方法、设备及介质 | |
CN108647691A (zh) | 一种基于点击特征预测的图像分类方法 | |
CN113537807B (zh) | 一种企业智慧风控方法及设备 | |
CN105046323B (zh) | 一种正则化rbf网络多标签分类方法 | |
CN110930038A (zh) | 一种贷款需求识别方法、装置、终端及存储介质 | |
CN109635010A (zh) | 一种用户特征及特征因子抽取、查询方法和*** | |
CN104850868A (zh) | 一种基于k-means和神经网络聚类的客户细分方法 | |
CN108647729A (zh) | 一种用户画像获取方法 | |
CN110634060A (zh) | 一种用户信用风险的评估方法、***、装置及存储介质 | |
Pang et al. | Improving deep forest by screening | |
CN114037001A (zh) | 基于wgan-gp-c和度量学习的机械泵小样本故障诊断方法 | |
CN116168270A (zh) | 基于并行深度残差网络的轻量化煤矸石检测模型及方法 | |
CN111652430A (zh) | 一种互联网金融平台违约率的预测方法及*** | |
CN115033591A (zh) | 一种电费数据异常智能检测方法、***、存储介质及计算机设备 | |
CN111144453A (zh) | 构建多模型融合计算模型的方法及设备、网站数据识别方法及设备 | |
Wu et al. | An uncertainty-oriented cost-sensitive credit scoring framework with multi-objective feature selection | |
Tsai et al. | Data pre-processing by genetic algorithms for bankruptcy prediction | |
CN112488188A (zh) | 一种基于深度强化学习的特征选择方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20180420 Address after: 200000 Pudong New Area, Shanghai, China (Shanghai) free trade pilot area, 707 Zhang Yang road two West. Applicant after: Shanghai wind newspaper Mdt InfoTech Ltd Address before: 200000 F East 2-G365 room, 310 Yue Luo Road, Baoshan District, Shanghai. Applicant before: SHANGHAI BOSON DATA TECHNOLOGY CO., LTD. |
|
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20171020 |