CN104679860A - 一种不平衡数据的分类方法 - Google Patents

一种不平衡数据的分类方法 Download PDF

Info

Publication number
CN104679860A
CN104679860A CN201510089729.5A CN201510089729A CN104679860A CN 104679860 A CN104679860 A CN 104679860A CN 201510089729 A CN201510089729 A CN 201510089729A CN 104679860 A CN104679860 A CN 104679860A
Authority
CN
China
Prior art keywords
sample set
sample
training sample
kind training
decision function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510089729.5A
Other languages
English (en)
Other versions
CN104679860B (zh
Inventor
王理
邓卫国
钱中
王祎旸
许波
雷超
游越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201510089729.5A priority Critical patent/CN104679860B/zh
Publication of CN104679860A publication Critical patent/CN104679860A/zh
Application granted granted Critical
Publication of CN104679860B publication Critical patent/CN104679860B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种不平衡数据的分类方法,包括:对不平衡数据的训练样本集进行学***衡数据的测试样本集中的第二重叠区样本集的样本;根据所述分类决策函数对所述第二重叠区样本集的样本进行分类。

Description

一种不平衡数据的分类方法
技术领域
本发明属于数据分类技术领域,特别涉及一种不平衡数据的分类方法。
背景技术
今天的社会处在信息***的时代,面对浩如烟海的数据,如何从海量的数据中提取有用的信息和知识成为巨大的挑战。正因为此,基于数据的统计机器学习技术出现了,成为知识获取的最主要的方法,它主要根据具体的历史数据,设计一种适当的学习算法,进而获得能够反映数据本身规律的数学或统计模型,用于对未来数据的顶测。正是由于基于统计的机器学习方法的在知识获取方面的重要性,已经成为智能分析和智能决策研究领域的核心问题,而且也在工业和商业中得到了广泛的应用。
其中,最常见的机器学习问题是监督式的分类学习,比如,生物特征识别、文本分类、网页数据挖掘、语音识别、网络入侵检测等等。在过去的几十年里,机器学习领域的研究者们对分类学习方法作了充分的研究,相继提出了不少十分有效的算法,至今,仍广泛应用在各种各样的场合,包括K-近邻、决策树、神经网络、集成学习以及支持向量机方法(Support Vector Machine,SVM)。其中,受到关注最多的是支持向量机方法,此方法是一种建立在统计学习理论和结构化风险最小化原则上的学习机器,同神经网络等传统学习算法相比,SVM具有坚实的理论基础,最后的实现可以归结为一个二次凸优化问题,因而可以得到全局最优解,避免了神经网络容易陷入局部最优的缺点,而且在样本量较少的情况下,依然能够获得良好的泛化能力。正由于这些优势,当前在理论界和工业界,SVM是研究和运用得最为广泛的学习算法之一。
然而,随着应用范围的不断扩大以及实践的不断深入,新的挑战和问题也层出不穷,不平衡数据的分类学***衡数据分类问题就是指某类样本数量明显少于其他类样本的情况,如:异常数据分析、入侵检测、欺诈检测、视频监控、故障诊断、医疗诊断等等。然而,传统的机器学***衡数据分类问题时,分类器的判别结果总会倾向于多数类样本,导致分类器对少类样本的识别效果严重退化,而在大量应用中,通常我们更关注少类样本的分类正确率,因此,如何避免分类器给多数类样本留下来更大的决策空间成了不平衡数据分类算法研究领域的核心问题之一。
机器学***衡数据分类问题做了大量的研究工作,至今已提出了很多不同的解决方案,总体上这些方法可以概括为两种类型类:一类从数据层入手,通过改变训练集的样本分布,减弱数据不平衡的程度;另一类是通过算法层的改进,针对算法本身在解决不平衡数据问题时的局限,适当地对算法做出相应的改进以使之适应不平衡数据的分类问题。
同样,即使对于SVM这样学***衡数据问题的出现也会导致学***衡数据学***衡数据的分类精度不高。
发明内容
为克服现有的缺陷,本发明提供了一种不平衡数据的分类方法。
根据本发明的一个方面,提出了一种不平衡数据的分类方法,所述方法包括以下步骤:
对不平衡数据的训练样本集进行学习,得到第一分类决策函数和第二分类决策函数;
通过所述第一分类决策函数和第二分类决策函数分别得到第一隶属度和第二隶属度;
根据所述第一隶属度和第二隶属度得到分类决策函数;
确定所述不平衡数据的测试样本集中的第二重叠区样本集的样本;
根据所述分类决策函数对所述第二重叠区样本集的样本进行分类。
上述方案中,所述通过所述第一分类决策函数和第二分类决策函数分别得到第一隶属度和第二隶属度包括:
分别通过所述第一分类决策函数和第二分类决策函数对所述第一类训练样本集和第二类训练样本集中的样本进行判定,将同属于所述第一类训练样本集和第二类训练样本集的样本组成第一重叠区样本集,并分别计算所述第一重叠区样本集中的样本属于所述第一类训练样本集的第一隶属度和属于所述第二类训练样本集的第二隶属度。
上述方案中,所述通过所述第一分类决策函数和第二分类决策函数对所述第一类训练样本集和第二类训练样本集中的样本进行判定,将同属于所述第一类训练样本集和第二类训练样本集的样本组成第一重叠区样本集包括:
通过所述第一分类决策函数和第二分类决策函数之间的逻辑关系将所述第一类训练样本集和第二类训练样本集中的样本判定为噪音点、属于第一类训练样本集中的样本、属于第二类训练样本集中的样本、同属于所述第一类训练样本集和第二类训练样本集的样本,将同属于所述第一类训练样本集和第二类训练样本集的样本组成第一重叠区样本集。
上述方案中,所述第一隶属度的计算过程为:
μ i A = d i B d i A + d i B
其中:
为第一隶属度,表示第一重叠区样本集中的样本xi属于所述第一类训练样本集的概率;A代表所述第一类训练样本集;为第一重叠区样本集中的样本xi到第一类训练样本集对应的最小超球体的球心距离与半径的比值;为第一重叠区样本集中的样本xi到第二类训练样本集对应的最小超球体的球心距离与半径的比值。
上述方案中,所述第二隶属度的计算过程为:
μ i B = d i A d i A + d i B
其中:
为第二隶属度,表示第一重叠区样本xi属于所述第二类训练样本集的概率;B代表所述第二类训练样本集。
上述方案中,所述根据所述第一隶属度和第二隶属度得到分类决策函数包括:
构建双隶属支持向量机的样本集;
根据所述双隶属支持向量机的样本集确定双隶属模糊支持向量机;
通过所述双隶属模糊支持向量机得到分类决策函数。
上述方案中,所述双隶属模糊支持向量机的计算过程为:
min w , b 1 2 | | w | | 2 + C Σ i = 1 l ( μ i A ξ i + μ i B η i )
μ i A + μ i B = 1
μ i A ≥ 0 , μ i B ≥ 0 , ξ i ≥ 0 , η i ≥ 0 , i = 1,2 , . . . , l
其中:
w为分类超平面的权值向量;C为噪音惩罚参数;为第一隶属度;
ξi为第一非负的松弛变量;为第二隶属度;ηi为第二非负的松弛变量;
b为分类超平面的阈值;为非线性映射函数。
上述方案中,所述分类决策函数的计算过程为:
f ( x ) = sign ( Σ i = 1 l ( α i - β i ) K ( x , x i ) + b )
其中:
f(x)为分类决策函数;sign()为符号函数;αi为样本的第一拉格朗日乘子;βi为样本的第二拉格朗日乘子;K(x,xi)为满足Mercer条件的核函数。
本发明通过不平衡数据的训练样本集得到能够表征不平衡数据分类特征的分类决策函数,通过分类决策函数对不平衡数据进行分类,能够根据不平衡数据内数据自身的特征对不平衡数据进行精确分类。
附图说明
图1为实施例1的不平衡数据的分类方法的流程图;
图2为实施例2中的3类分类模型对Pima-indians数据集的分类效果示意图;
图3为实施例2中的3类分类模型对Breast-w数据集的分类效果示意图;
图4为实施例2中的3类分类模型对Inosphere数据集的分类效果示意图。
为了能明确实现本发明的实施例的结构,在图中标注了特定的尺寸、结构和器件,但这仅为示意需要,并非意图将本发明限定在该特定尺寸、结构、器件和环境中,根据具体需要,本领域的普通技术人员可以将这些器件和环境进行调整或者修改,所进行的调整或者修改仍然包括在后附的权利要求的范围中。
具体实施方式
下面结合附图和具体实施例对本发明提供的一种不平衡数据的分类方法进行详细描述。
在以下的描述中,将描述本发明的多个不同的方面,然而,对于本领域内的普通技术人员而言,可以仅仅利用本发明的一些或者全部结构或者流程来实施本发明。为了解释的明确性而言,阐述了特定的数目、配置和顺序,但是很明显,在没有这些特定细节的情况下也可以实施本发明。在其他情况下,为了不混淆本发明,对于一些众所周知的特征将不再进行详细阐述。
实施例1
为了解决现有对不平衡数据的分类精度低等不足,本实施例提供了一种不平衡数据的分类方法,如图1所示,本实施例方法包括以下步骤:
步骤S101:对不平衡数据的训练样本集进行学习,得到第一分类决策函数和第二分类决策函数;
为了对不平衡数据进行精确的分类,首先要从不平衡数据中提取一部分数据组成训练样本集,训练样本集应该从整体上表征不平衡数据内的数据比例。将训练样本集中的样本按所占训练样本集的比例分为第一类训练样本集和第二类训练样本集。其中,第一类训练样本集是训练样本集中的占大比例的样本的集合,第二类训练样本集是训练样本集中的剩余比例的样本的集合。由于已经得到了第一类训练样本集和第二类训练样本集,所以,第一分类决策函数和第二分类决策函数能够很好地表征第一类训练样本集和第二类训练样本集的特征,为后续对不平衡数据的分类奠定了基础。
步骤S102:通过所述第一分类决策函数和第二分类决策函数分别得到第一隶属度和第二隶属度;
第一分类决策函数将第一类训练样本集内的样本分为三类,即,第一类,属于第一类训练样本集对应的最小超球体内部的样本点;第二类,属于第一类训练样本集对应的最小超球体边界的样本点;第三类,属于第一类训练样本集对应的最小超球体外部的样本点。类似地,第二分类决策函数也将第二类训练样本集中的样本分成上述三类。由于第一类训练样本集和第二类训练样本集构成了整个的训练集,所以,通过所述第一分类决策函数和第二分类决策函数就能确定同属于第一类训练样本集和第二类训练样本集的样本,将这些样本的组成的集合作为第一重叠区样本集。然后计算第一重叠区样本集中的样本分别属于第一类训练样本集和第二类训练样本集的概率,得到第一隶属度和第二隶属度。即,此时的第一重叠区样本集的样本同时具有第一类训练样本集和第二类训练样本集的属性,第一重叠区样本集的样本也就是容易在分类上出现错误的样本。
步骤S103:根据所述第一隶属度和第二隶属度得到分类决策函数;
得到第一重叠区样本集的样本的第一隶属度和第二隶属度后,可根据第一隶属度和第二隶属度构建双隶属支持向量机的样本集及双隶属模糊支持向量机,然后对双隶属模糊支持向量机进行处理就能得到用于对不平衡数据进行分类的分类决策函数,分类决策函数能够根据第一类训练样本集和第二类训练样本集中样本的隶属度对样本进行分类。
步骤S104:确定所述不平衡数据的测试样本集中的第二重叠区样本集的样本;
按照对训练样本集中样本处理得到第一重叠区样本集的样本的方法,对不平衡数据的测试样本集进行处理得到第二重叠区样本集的样本。
步骤S105:根据所述分类决策函数对所述第二重叠区样本集的样本进行分类。
分类决策函数是已经能够对不平衡数据进行精确分类的函数,将分类决策函数直接应用到第二重叠区样本集的样本,就能够对不平衡数据进行精确分类。
本实施例通过不平衡数据的训练样本集得到能够表征不平衡数据分类特征的分类决策函数,通过分类决策函数对不平衡数据进行分类,能够根据不平衡数据内数据自身的特征对不平衡数据进行精确分类。
具体的,步骤S102包括:
分别通过所述第一分类决策函数和第二分类决策函数对所述第一类训练样本集和第二类训练样本集中的样本进行判定,将同属于所述第一类训练样本集和第二类训练样本集的样本组成第一重叠区样本集,并分别计算所述第一重叠区样本集中的样本属于所述第一类训练样本集的第一隶属度和属于所述第二类训练样本集的第二隶属度。
其中,所述通过所述第一分类决策函数和第二分类决策函数对所述第一类训练样本集和第二类训练样本集中的样本进行判定,将同属于所述第一类训练样本集和第二类训练样本集的样本组成第一重叠区样本集包括:
通过所述第一分类决策函数和第二分类决策函数之间的逻辑关系将所述第一类训练样本集和第二类训练样本集中的样本判定为噪音点、属于第一类训练样本集中的样本、属于第二类训练样本集中的样本、同属于所述第一类训练样本集和第二类训练样本集的样本共四种类型,将同属于所述第一类训练样本集和第二类训练样本集的样本组成第一重叠区样本集,具体为:
若f+(xi)<0且f-(xi)<0,则样本xi为噪音点;其中,f+(xi)为第一分类决策函数;f-(xi)为第二分类决策函数,xi为所述第一类训练样本集或第二类训练样本集中的样本,i=0,1,…;
若f+(xi)≥0且f-(xi)<0,则样本xi为所述第一类训练样本集中的样本;
若f+(xi)<0且f-(xi)≥0,则样本xi为所述第二类训练样本集中的样本;
若f+(xi)>0且f-(xi)>0,则样本xi为第一重叠区样本集中的样本,也是本发明所要进行具体分类的样本集合。
得到第一重叠区样本集后,需要对第一重叠区样本集中的样本求隶属度,求隶属度的方法有多种,本文采用基于距离的双隶属度,具体的,所述第一隶属度的计算过程为:
&mu; i A = d i B d i A + d i B
其中:
为第一隶属度,表示第一重叠区样本集中的样本xi属于所述第一类训练样本集的概率;A代表所述第一类训练样本集;
为第一重叠区样本集中的样本xi到第一类训练样本集对应的最小超球体的球心距离与半径的比值;其中,Φ+(xi)为第一重叠区样本集中的样本xi在第一类训练样本集对应的非线性映射函数中的值;a+为第一类训练样本集对应的最小超球体的球心坐标;R+为第一类训练样本集对应的最小超球体的半径;
为第一重叠区样本集中的样本xi到第二类训练样本集对应的最小超球体的球心距离与半径的比值;其中,Φ-(xi)为第一重叠区样本集中的样本xi在第二类训练样本集对应的非线性映射函数中的值;a-为第二类训练样本集对应的最小超球体的球心坐标;R-为第二类训练样本集对应的最小超球体的半径。
所述第二隶属度的计算过程为:
&mu; i B = d i A d i A + d i B
其中:
为第二隶属度,表示第一重叠区样本xi属于所述第二类训练样本集的概率;B代表所述第二类训练样本集。
步骤S103中所述根据所述第一隶属度和第二隶属度得到分类决策函数包括:
S1031:构建双隶属支持向量机的样本集;
双隶属支持向量机的样本集需要同时考虑属于所述第一类训练样本集的第一隶属度和属于所述第二类训练样本集的第二隶属度,并且第一隶属度和第二隶属度的和为1。
S1032:根据所述双隶属支持向量机的样本集确定双隶属模糊支持向量机;所述双隶属模糊支持向量机的计算过程为:
min w , b 1 2 | | w | | 2 + C &Sigma; i = 1 l ( &mu; i A &xi; i + &mu; i B &eta; i )
&mu; i A + &mu; i B = 1
&mu; i A &GreaterEqual; 0 , &mu; i B &GreaterEqual; 0 , &xi; i &GreaterEqual; 0 , &eta; i &GreaterEqual; 0 , i = 1,2 , . . . , l
其中:
w为分类超平面的权值向量;
C为噪音惩罚参数;
为第一隶属度;
ξi为第一非负的松弛变量;
为第二隶属度;
ηi为第二非负的松弛变量;ξi和ηi用于反映各样本点的误差带宽;
b为分类超平面的阈值(超平面的纵截距);
为非线性映射函数。
S1033:通过所述双隶属模糊支持向量机得到分类决策函数。所述分类决策函数的计算过程为:
f ( x ) = sign ( &Sigma; i = 1 l ( &alpha; i - &beta; i ) K ( x , x i ) + b )
其中:
f(x)为分类决策函数;
sign()为符号函数;
αi为样本的第一拉格朗日乘子;
βi为样本的第二拉格朗日乘子;
K(x,xi)为满足Mercer条件的核函数。
得到分类决策函数后,再按照对训练样本集中样本处理得到第一重叠区样本集的样本的方法得到测试样本集的第二重叠区样本集的样本,将分类决策函数应用到第二重叠区样本集的样本,实现对不平衡数据的测试样本集的数据分类。
实施例2
本实施例通过一个实际的场景对本发明进行详细说明。
本实施例的基本步骤包括:
(1)采用支持向量数据域描述(Support Vector Data Domain Description,SVDD)对两类训练集(即占大比例的第一类训练样本集和占剩余比例的第二类训练样本集)样本分别进行单类学习,得到第一分类决策函数f+(x)和第二分类决策函数f-(x),从而识别出噪音点、正类样本(第一类训练样本集中的样本)、负类样本(第二类训练样本集中的样本)和第一重叠区样本集中的样本;
(2)基于f+(x)和f-(x)以及两类样本的最小超球体,计算第一重叠区样本集中的样本的双隶属度;
(3)对第一重叠区样本集中的样本采用双隶属模糊支持向量机模型进行训练,得到重叠区域样本的分类决策函数f(x);
(4)对于测试集样本,首先采用f+(x)和f-(x)将其识别为噪音点、正类样本、负类样本或重叠区域样本;
(5)对于测试集的重叠区域样本,计算其双隶属度,然后利用双隶属模糊支持向量机模型的决策函数f(x)进行判别。
其中,步骤(1)中的决策函数构建过程如下:
SVDD针对单类进行学习,寻找一个高维空间的超球体来覆盖尽可能多的数据在该属性空间的映象,从而获得数据边界特征。给定一个包含n个数据对象的集合X={xi|i=1,2,...,n},SVDD通过非线性映射函数Φ()将输入空间映射到高纬空间,寻找一个半径为R、球心为a的超球体来覆盖尽可能多的xi。SVDD建立如下的优化问题:
minR2
s.t.||Φ(xi)-a||2≤R2
i=1,2,...,n
在上式中引入松弛变量向量ξ=(ξ12,...,ξn),使得超球体能够将一部分样本作为噪音排除在外部,优化问题变换为:
min R , &xi; q ( R , &xi; ) = R 2 + C &Sigma; i = 1 n &xi; i
s.t.||Φ(xi)-a||2≤R2
ξi≥0;i=1,2,...,n
其中,q(R,ξ)为优化问题目标函数;C为噪音惩罚参数。引入拉格朗日函数可得:
L ( R , a , &xi; , &alpha; , &beta; ) = R 2 + C &Sigma; i = 1 n &xi; i - &Sigma; i = 1 n &alpha; i ( R 2 + &xi; i - | | &Phi; ( x i ) - a | | 2 ) - &Sigma; i = 1 n &beta; i &xi; i
上式可变换为:
L ( R , a , &xi; , &alpha; , &beta; ) = R 2 + 1 nv &Sigma; i = 1 n &xi; i - &Sigma; i = 1 n &alpha; i ( R 2 + &xi; i - | | &Phi; ( x i ) - a | | 2 ) - &Sigma; i = 1 n &beta; i &xi; i
其中,v为对目标类别样本的拒绝度,0≤v≤1。当v=0时,nv为支持向量的下限;当v=1时,nv为外点数量(即数据个数)的上限。令L分别对R,a和ξ求偏导,并令其为0,可得:
&Sigma; i = 1 n &alpha; i = 1 , a = &Sigma; i = 1 n &alpha; i &Phi; ( x i ) , &alpha; i = 1 nv - &beta; i
将内积Φ(xi)Φ(xj)用Mercer函数K(xi,xj)代替,可得原最优问题的Wolfe对偶问题为:
max &alpha; L = &Sigma; i n &alpha; i K ( x i , x i ) - &Sigma; i , j = 1 n &alpha; i &alpha; j K ( x i , x j )
s . t . &Sigma; i = 1 n &alpha; i = 1,0 &le; &alpha; i &le; 1 nv
根据最优化条件(Karush-Kuhn-Tucker,KKT)条件,样本数据因此可分为三类:
第一类是内点,是位于超球体内部的样本点,其||Φ(xi)-a||2<R2,即αi=0, &beta; i = 1 nv ;
第二类是支持向量,位于超球体边界的样本点,其||Φ(xi)-a||2=R2,即 0 < &alpha; i < 1 nv , βi>0;
第三类是外点,是位于超球体外部的样本点,其||Φ(xi)-a||2>R2,即 &alpha; i = 1 nv , βi=0
为了验证样本数据的类型,决策函数如下:
f(x)=sgn(R2-||Φ(xi)-a||2)
由此可得支持向量的决策函数值为0,内点的决策函数值大于0,外点的决策函数值小于0。
步骤(3)中的双隶属度模糊SVM算法(Double-Fuzzy support vectormachine,D-FSVM)过程如下:
在双隶属支持向量机中样本集形式为:
z = { ( x i , y i , &mu; i A , &mu; i B ) | &mu; i A + &mu; i B = 1 , i = 1 , . . . , l }
每个样本分别依概率隶属于两类,即样本xi属于A类(yi=1)的概率为属于B类(yi=-1)的概率为其中,yi为第i类样本,在二分类支持向量机模型中,样本被分为A类和B类,则yi∈{-1,+1},i=1,...,l。即样本xi只对应一个“标号”yi,yi=+1则说明样本xi属于A类;yi=-1则说明样本xi属于B类。
双隶属模糊支持向量机的基本模型为:
min w , b 1 2 | | w | | 2 + C &Sigma; i = 1 l ( &mu; i A &xi; i + &mu; i B &eta; i )
&mu; i A + &mu; i B = 1
&mu; i A &GreaterEqual; 0 , &mu; i B &GreaterEqual; 0 , &xi; i &GreaterEqual; 0 , &eta; i &GreaterEqual; 0 , i = 1,2 , . . . , l
该问题的拉格朗日函数为:
其中,αkk,vkk分别为非负的第一、第二、第三和第四拉格朗日乘子。
求解原问题的最优解等价于求解其对偶问题的最优解,对偶优化问题为:
s . t . &Sigma; i = 1 l &alpha; i = &Sigma; i = 1 l &beta; i
0 &le; &alpha; i &le; C &mu; i A
0 &le; &beta; i &le; C ( 1 - &mu; i A )
i=1,2,...,l
上述对偶优化问题的目标函数涉及到在变换后的高维空间做内积运算如果非线性变换后空间的维数很高,会产生“维数灾难”。为解决这一难题,根据泛函理论,可以用满足Mercer条件的核函数K(xi,xj)来代替高维特征空间的内积运算:
最终得到的分类算子为:
f ( x ) = sign ( &Sigma; i = 1 l ( &alpha; i - &beta; i ) K ( x , x i ) + b )
从以上模型可以看出双隶属模糊支持向量机区别于传统支持向量机的重要一步就是确定每个样本点相对于A类和B类的隶属概率,因此很关键的一步在于如何建立隶属度模型来刻画训练样本点相对于两类样本的隶属程度。
采用基于距离的双隶属度计算方法:
&mu; i A = d i B d i A + d i B , &mu; i B = d i A d i A + d i B
其中,分别等于位于重叠区域的样本到两类最小超球体的球心距离与半径的比值。为第一重叠区样本集中的样本xi到第一类训练样本集对应的最小超球体的球心距离与半径的比值;Φ+(xi)为第一重叠区样本集中的样本xi在第一类训练样本集对应的非线性映射函数中的值;a+为第一类训练样本集对应的最小超球体的球心坐标;R+为第一类训练样本集对应的最小超球体的半径;为第一重叠区样本集中的样本xi到第二类训练样本集对应的最小超球体的球心距离与半径的比值;Φ-(xi)为第一重叠区样本集中的样本xi在第二类训练样本集对应的非线性映射函数中的值;a-为第二类训练样本集对应的最小超球体的球心坐标;R-为第二类训练样本集对应的最小超球体的半径。
以下通过一个实际的场景对本实施例进行说明。
本发明选取了加利福尼亚大学欧文分校(University of California,Irvine,UCI)机器学习数据库中的皮马印第安人糖尿病数据集(Pima-indians)、威斯康星大学乳腺癌数据集(Breast-w)和约翰斯霍普金斯大学电离层数据集(Inosphere)等数据库,各个数据库的详细信息见表。
表1UCI数据集的基本信息
数据集 维度 正类样本数 负类样本数 总样本数 非平衡比
Pima-indians 8 268 500 768 1:2
Breast-w 9 241 458 699 1:2
Inosphere 34 126 225 351 1:2
本发明将UCI数据集进行随机划分,其中70%作为训练集,剩下30%作为测试集,并且在划分的过程中保证非平衡比的不变。
为了分析本发明提出的基于SVDD的双隶属模糊支持向量机算法的性能,本发明对比数据集重构模型包括SVM,基于SVDD的SVM算法。其中基于SVDD的SVM算法和基于SVDD的双隶属模糊支持向量机算法(D-FSVM)类似,只是在第2步和第4步中,对重叠区域样本进行判别时采用的是普通SVM模型,过程中也不需要赋予重叠区域样本双隶属度。
本发明采用的分类算法评价指标为灵敏度(Sensitivity,简写为SE)、特异度(Specificity,简写为SP)和总平均分类精度(General Accuracy,简写为GA)。实验结果如下所示:
表2实验结果
由结果可以看出,见附图2、图3、图4,在三个数据集中,SVDD+SVM算法和SVDD+(D-FSVM)算法的效果明显优于普通SVM模型。因此,先采用SVDD算法识别出噪音点、正类样本、负类样本和重叠区域样本,然后再采用SVM模型或者双隶属模糊支持向量机模型对重叠区域样本进行学习,能够得到较好的分类效果。
同时,在三个数据集中,本发明提出的SVDD+(D-FSVM)算法的SE、SP和GA指标都是最高的。因此,对于重叠区域样本,双隶属度能够更好地刻画样本点属于正类和负类的相对程度,双隶属模糊支持向量机模型能够更好对重叠区域样本进行分类。
最后应说明的是,以上实施例仅用以描述本发明的技术方案而不是对本技术方法进行限制,本发明在应用上可以延伸为其他的修改、变化、应用和实施例,并且因此认为所有这样的修改、变化、应用、实施例都在本发明的精神和教导范围内。

Claims (8)

1.一种不平衡数据的分类方法,其特征在于,所述方法包括以下步骤:
对不平衡数据的训练样本集进行学习,得到第一分类决策函数和第二分类决策函数;
通过所述第一分类决策函数和第二分类决策函数分别得到第一隶属度和第二隶属度;
根据所述第一隶属度和第二隶属度得到分类决策函数;
确定所述不平衡数据的测试样本集中的第二重叠区样本集的样本;
根据所述分类决策函数对所述第二重叠区样本集的样本进行分类。
2.根据权利要求1所述的方法,其特征在于,所述通过所述第一分类决策函数和第二分类决策函数分别得到第一隶属度和第二隶属度包括:
分别通过所述第一分类决策函数和第二分类决策函数对所述第一类训练样本集和第二类训练样本集中的样本进行判定,将同属于所述第一类训练样本集和第二类训练样本集的样本组成第一重叠区样本集,并分别计算所述第一重叠区样本集中的样本属于所述第一类训练样本集的第一隶属度和属于所述第二类训练样本集的第二隶属度。
3.根据权利要求2所述的方法,其特征在于,所述通过所述第一分类决策函数和第二分类决策函数对所述第一类训练样本集和第二类训练样本集中的样本进行判定,将同属于所述第一类训练样本集和第二类训练样本集的样本组成第一重叠区样本集包括:
通过所述第一分类决策函数和第二分类决策函数之间的逻辑关系将所述第一类训练样本集和第二类训练样本集中的样本判定为噪音点、属于第一类训练样本集中的样本、属于第二类训练样本集中的样本、同属于所述第一类训练样本集和第二类训练样本集的样本,将同属于所述第一类训练样本集和第二类训练样本集的样本组成第一重叠区样本集。
4.根据权利要求2所述的方法,其特征在于,所述第一隶属度的计算过程为:
&mu; i A = d i B d i A + d i B
其中:
为第一隶属度,表示第一重叠区样本集中的样本xi属于所述第一类训练样本集的概率;A代表所述第一类训练样本集;为第一重叠区样本集中的样本xi到第一类训练样本集对应的最小超球体的球心距离与半径的比值;为第一重叠区样本集中的样本xi到第二类训练样本集对应的最小超球体的球心距离与半径的比值。
5.根据权利要求4所述的方法,其特征在于,所述第二隶属度的计算过程为:
&mu; i B = d i A d i A + d i B
其中:
为第二隶属度,表示第一重叠区样本xi属于所述第二类训练样本集的概率;B代表所述第二类训练样本集。
6.根据权利要求1所述的方法,其特征在于,所述根据所述第一隶属度和第二隶属度得到分类决策函数包括:
构建双隶属支持向量机的样本集;
根据所述双隶属支持向量机的样本集确定双隶属模糊支持向量机;
通过所述双隶属模糊支持向量机得到分类决策函数。
7.根据权利要求6所述的方法,其特征在于,所述双隶属模糊支持向量机的计算过程为:
min w , b 1 2 | | w | | 2 + C &Sigma; i = 1 l ( &mu; i A &xi; i + &mu; i B &eta; i )
&mu; i A + &mu; i B = 1
&mu; i A &GreaterEqual; 0 , &mu; i B &GreaterEqual; 0 , &xi; i &GreaterEqual; 0 , &eta; i &GreaterEqual; 0 , i = 1,2 , . . . , l
其中:
w为分类超平面的权值向量;C为噪音惩罚参数;为第一隶属度;ξi为第一非负的松弛变量;为第二隶属度;ηi为第二非负的松弛变量;b为分类超平面的阈值;为非线性映射函数。
8.根据权利要求6所述的方法,其特征在于,所述分类决策函数的计算过程为:
f ( x ) = sign ( &Sigma; i = 1 l ( &alpha; i - &beta; i ) K ( x , x i ) + b )
其中:
f(x)为分类决策函数;sign()为符号函数;αi为样本的第一拉格朗日乘子;βi为样本的第二拉格朗日乘子;K(x,xi)为满足Mercer条件的核函数。
CN201510089729.5A 2015-02-27 2015-02-27 一种不平衡数据的分类方法 Expired - Fee Related CN104679860B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510089729.5A CN104679860B (zh) 2015-02-27 2015-02-27 一种不平衡数据的分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510089729.5A CN104679860B (zh) 2015-02-27 2015-02-27 一种不平衡数据的分类方法

Publications (2)

Publication Number Publication Date
CN104679860A true CN104679860A (zh) 2015-06-03
CN104679860B CN104679860B (zh) 2017-11-07

Family

ID=53314902

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510089729.5A Expired - Fee Related CN104679860B (zh) 2015-02-27 2015-02-27 一种不平衡数据的分类方法

Country Status (1)

Country Link
CN (1) CN104679860B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105005589A (zh) * 2015-06-26 2015-10-28 腾讯科技(深圳)有限公司 一种文本分类的方法和装置
CN105447520A (zh) * 2015-11-23 2016-03-30 盐城工学院 一种基于加权投影对支持向量机的样本分类方法
CN107463938A (zh) * 2017-06-26 2017-12-12 南京航空航天大学 一种基于间隔校正支持向量机的航空发动机气路部件故障检测方法
CN108960056A (zh) * 2018-05-30 2018-12-07 西南交通大学 一种基于姿态分析和支持向量数据描述的跌倒检测方法
CN109165694A (zh) * 2018-09-12 2019-01-08 太原理工大学 一种对非平衡数据集的分类方法及***
CN109919931A (zh) * 2019-03-08 2019-06-21 数坤(北京)网络科技有限公司 冠脉狭窄度评价模型训练方法及评价***
CN110555054A (zh) * 2018-06-15 2019-12-10 泉州信息工程学院 一种基于模糊双超球分类模型的数据分类方法及***
CN111126577A (zh) * 2020-03-30 2020-05-08 北京精诊医疗科技有限公司 一种针对不均衡样本的损失函数设计方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102402690A (zh) * 2011-09-28 2012-04-04 南京师范大学 基于直觉模糊集成的数据分类方法与***
CN102945280A (zh) * 2012-11-15 2013-02-27 翟云 一种基于非平衡数据分布的多异质基分类器融合分类方法
CN104268577A (zh) * 2014-06-27 2015-01-07 大连理工大学 一种基于惯性传感器的人体行为识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102402690A (zh) * 2011-09-28 2012-04-04 南京师范大学 基于直觉模糊集成的数据分类方法与***
CN102945280A (zh) * 2012-11-15 2013-02-27 翟云 一种基于非平衡数据分布的多异质基分类器融合分类方法
CN104268577A (zh) * 2014-06-27 2015-01-07 大连理工大学 一种基于惯性传感器的人体行为识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
孙名松等: "基于双隶属度模糊支持向量机的邮件过滤", 《计算机工程与应用》 *
薛贞霞等: "基于类权重的模糊不平衡数据分类方法", 《计算机科学》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105005589A (zh) * 2015-06-26 2015-10-28 腾讯科技(深圳)有限公司 一种文本分类的方法和装置
CN105005589B (zh) * 2015-06-26 2017-12-29 腾讯科技(深圳)有限公司 一种文本分类的方法和装置
CN105447520A (zh) * 2015-11-23 2016-03-30 盐城工学院 一种基于加权投影对支持向量机的样本分类方法
CN107463938A (zh) * 2017-06-26 2017-12-12 南京航空航天大学 一种基于间隔校正支持向量机的航空发动机气路部件故障检测方法
CN107463938B (zh) * 2017-06-26 2021-02-26 南京航空航天大学 一种基于间隔校正支持向量机的航空发动机气路部件故障检测方法
CN108960056A (zh) * 2018-05-30 2018-12-07 西南交通大学 一种基于姿态分析和支持向量数据描述的跌倒检测方法
CN110555054A (zh) * 2018-06-15 2019-12-10 泉州信息工程学院 一种基于模糊双超球分类模型的数据分类方法及***
CN110555054B (zh) * 2018-06-15 2023-06-09 泉州信息工程学院 一种基于模糊双超球分类模型的数据分类方法及***
CN109165694A (zh) * 2018-09-12 2019-01-08 太原理工大学 一种对非平衡数据集的分类方法及***
CN109165694B (zh) * 2018-09-12 2022-07-08 太原理工大学 一种对非平衡数据集的分类方法及***
CN109919931A (zh) * 2019-03-08 2019-06-21 数坤(北京)网络科技有限公司 冠脉狭窄度评价模型训练方法及评价***
CN111126577A (zh) * 2020-03-30 2020-05-08 北京精诊医疗科技有限公司 一种针对不均衡样本的损失函数设计方法

Also Published As

Publication number Publication date
CN104679860B (zh) 2017-11-07

Similar Documents

Publication Publication Date Title
CN104679860A (zh) 一种不平衡数据的分类方法
Chen et al. Regional disaster risk assessment of China based on self-organizing map: clustering, visualization and ranking
CN106650767B (zh) 基于聚类分析和实时校正的洪水预报方法
Farsadnia et al. Identification of homogeneous regions for regionalization of watersheds by two-level self-organizing feature maps
Wahono et al. Metaheuristic optimization based feature selection for software defect prediction.
CN104794368A (zh) 基于foa-mksvm的滚动轴承故障分类方法
CN102324038B (zh) 一种基于数字图像的植物种类识别方法
CN105528504A (zh) 基于cfoa-mkhsvm的滚动轴承健康状态评估方法
CN104751469B (zh) 基于核模糊c均值聚类的图像分割方法
CN105487526A (zh) 一种Fast RVM污水处理故障诊断方法
CN105913081A (zh) 基于改进的PCAnet的SAR图像分类方法
Zhang et al. Surface and high-altitude combined rainfall forecasting using convolutional neural network
CN102054176A (zh) 用计算机对运动目标的场景图像建立语义场景模型的方法
CN110377605A (zh) 一种结构化数据的敏感属性识别与分类分级方法
Tao et al. Insurance fraud identification research based on fuzzy support vector machine with dual membership
Cao et al. A new froth image classification method based on the MRMR-SSGMM hybrid model for recognition of reagent dosage condition in the coal flotation process
CN115602337A (zh) 一种基于机器学习的刺激隐核虫疾病预警方法及***
CN106991049A (zh) 一种软件缺陷预测方法及预测***
CN110969121A (zh) 一种基于深度学习的高分辨率雷达目标识别算法
CN114429152A (zh) 基于动态指数对抗性自适应的滚动轴承故障诊断方法
CN113887342A (zh) 基于多源信号和深度学习的设备故障诊断方法
CN115392333A (zh) 一种基于改进端到端ResNet-BiLSTM双通道模型的设备故障诊断方法
He et al. Novel fuzzy uncertainty modeling for land cover classification based on clustering analysis
Siminski An outlier-robust neuro-fuzzy system for classification and regression
Li et al. A review of machine learning algorithms for text classification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171107

CF01 Termination of patent right due to non-payment of annual fee