CN103886330B - 基于半监督svm集成学习的分类方法 - Google Patents

基于半监督svm集成学习的分类方法 Download PDF

Info

Publication number
CN103886330B
CN103886330B CN201410119304.XA CN201410119304A CN103886330B CN 103886330 B CN103886330 B CN 103886330B CN 201410119304 A CN201410119304 A CN 201410119304A CN 103886330 B CN103886330 B CN 103886330B
Authority
CN
China
Prior art keywords
sample
test sample
samples
test
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410119304.XA
Other languages
English (en)
Other versions
CN103886330A (zh
Inventor
焦李成
刘芳
张丹
王爽
白雪
侯彪
马文萍
马晶晶
杨淑媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201410119304.XA priority Critical patent/CN103886330B/zh
Publication of CN103886330A publication Critical patent/CN103886330A/zh
Application granted granted Critical
Publication of CN103886330B publication Critical patent/CN103886330B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于半监督SVM集成学***衡时分类正确率低和不稳定的问题。其实现步骤是:(1)分别对训练样本集和测试样本集进行归一化;(2)更新归一化后测试样本集中正、负样本的比率,通过局部搜索构造差异性较大的基分类器;(3)用k‑means算法对基分类器的分类结果进行聚类;(4)通过集成学习的分类方法获得测试样本集的最终分类结果。本发明通过更新正、负样本比率构造差异性较大的基分类器,利用更多的测试样本正确分类信息,并结合邓恩指标的集成学习的分类方法,提高了分布未知的样本分类正确率和稳定性,可用于模式识别、目标检测和分类的问题。

Description

基于半监督SVM集成学习的分类方法
技术领域
本发明属于图像处理技术领域,特别涉及分布未知的数据分类方法,可用于模式识别、目标检测、分布未知的数据分类。
背景技术
根据学习过程中是否存在有标记的样本,传统的机器学习可以分为监督学习和无监督学习两种。监督学习通过已有的训练样本得到一个最优模型,再利用这个模型将所有的输入映射为相对的输出,对输出进行判断从而实现分类的目的。但在很多实际应用中,由于缺少形成模式类的知识,或者实际工作中的困难,只能利用没有类别标记的样本,即所谓的无监督学习。
半监督学习是监督学习与无监督学习相结合的一种学习方法。同时利用已标记和未标记样本,通过挖掘未标记样本中所蕴含的各个待分类类型在特征空间中的固有结构,从而对训练样本拟合的分类器进行校正,减少因为训练样本代表性不好对分类器拟合造成的偏差。
在实际问题中,有标记的样本是有限的,大量的未标记样本存在于样本集中。为了让大量的未标记样本帮助提高分类器性能,近年来涌现了许多半监督学习算法,半监督支持向量机(Semi-supervised Support Vector Machine)就是其中一个重要的分支,将未标记样本的分布信息引入到了支持向量机SVM的学习中。结合未标记样本的半监督SVM方法的性能较单独使用训练样本有了显著提高。半监督SVM的目标函数是一个难以计算的混合整数规划问题,于是产生了许多求解方法。代表性的方法有直推式支持向量机TSVM,拉普拉斯支持向量机LapSVM,S4VMs等,其中LapSVM主要是通过图的拉普拉斯矩阵来探索数据的流形结构。
TSVM算法在分类之前需要人为设定测试样本集中的正、负样本比例,通常情况下,这个先验知识无法提供也很难估计,应用中常用的做法是用训练样本集中的正、负样本比例估计测试样本集中的正、负样本比例。
S4VMs算法经过多次迭代搜索到多个大间隔的决策面,在不断固定当前分类器决策面参数{w,b},更新测试样本集标签的过程中,需要设定与决策面距离较近的前P%的样本为正类,其他样本为负类。其中P%无法预先确定,需要人为设定或按照训练样本集中样本分布来估计。
上述这两种方法均依赖于样本的分布情况,如果样本分布估计有误,分类器的性能就会急剧下降。
发明内容
本发明的目的在于针对上述已有方法的不足,提出一种基于半监督SVM集成学习的分类方法,以减少由于对数据分布估计不准确带来的误分,提高集成学习的分类正确率和鲁棒性。
为实现上述目的,本发明的技术方案包括如下步骤:
(1)分别对初始训练样本集和测试样本集进行归一化处理,得到归一化后的训练样本集和测试样本集其中Xi表示初始训练样本集中的第i个样本,Yi表示初始训练样本Xi的标签,Xj表示初始测试样本集中的第j个样本,xi表示归一化后训练样本集中的第i个样本,yi表示归一化后训练样本xi的标签,xj表示归一化后测试样本集中的第j个样本,l表示训练样本的个数,u表示测试样本的个数;
(2)构造差异性较大的基分类器:
(2a)设定样本的属性,即将类别标签为1的样本设为正样本,用+1表示,将类别标签为2的样本设为负样本,用-1表示;
(2b)设测试样本集中的初始正、负样本比率为:并按照更新测试样本集中的正、负样本比率β,其中numpos表示正样本的数量,numneg表示负样本的数量,T为更新的总次数,其取值为任意正整数;
(2c)随机初始化一组训练样本集和测试样本集根据不同的β参数进行局部搜索,得到T个分类器、局部搜索后的测试样本集及其T个分类结果其中表示局部搜索后测试样本集中的第j个样本,表示第t个分类结果中测试样本的标签,t=1,2,…,T;
(3)使用k-means算法对T个分类器和测试样本集的T个分类结果进行聚类,得到N个分类器和测试样本集的N个分类结果其中N取值为任意小于T的正整数,表示聚类后第n个分类结果中测试样本的标签,n=1,2,…,N;
(4)依次输入训练样本集测试样本集测试样本集的N个分类结果通过集成学习获得测试样本集的最终分类结果
(4a)从测试样本集的第n个分类结果中,找出测试样本集中与第j个测试样本分类结果一致的样本集和分类结果不一致的样本集,即一致集Xsame和非一致集Xdif
(4b)根据欧式距离,找出第j个测试样本在一致集Xsame和非一致集Xdif中的K近邻集合Xsame-k和Xdif-k
(4c)将K近邻集合Xsame-k、Xdif-k分别与训练样本进行聚类,得到相似集S和相反集D;
(4d)依次对第j个测试样本的N个分类结果计算邓恩指标DIj(n),n=1,2,…,N;
(4e)对上述邓恩指标DIj(n)进行降序排列,并从前个邓恩指标DIj(n)对应的第j个测试样本中,取出个分类结果的标签作为第j个测试样本的标签集M;
(4f)对标签集M中的标签求和,构造标签的和的符号函数根据该符号函数的值判定第j个测试样本的最终标签其中表示标签集M中第m个标签,m=1,2,…,M:
若标签的和大于零,则符号函数的值为+1,得到第j个测试样本的最终标签为+1;
若标签的和小于零,则符号函数的值为-1,得到第j个测试样本的最终标签为-1;
若标签的和等于零,则符号函数的值为0,得到第j个测试样本的最终标签为邓恩指标DIj(n)最大值对应的第j个测试样本的标签
(4g)重复步骤(4a)至(4f),得到测试样本集中所有测试样本的最终分类结果
本发明与现有的技术相比具有以下优点:
1、本发明由于对正、负样本比率β进行更新,通过局部搜索算法获得具有差异性的基分类器,解决了传统SVM中构造差异性较大的基分类器较难的问题,弥补了半监督SVM算法需要预先估计正、负样本比例的缺陷。
2、本发明由于采用集成学习的分类方法,保留了更多的测试样本正确分类信息,并结合邓恩指标的评价准则,改善了传统方法分类正确率较低和鲁棒性较差的问题。
附图说明
图1是本发明的实现流程图;
图2是本发明和现有方法在不同正、负样本比率下的平均分类正确率对比图。
具体实施方式
以下结合附图对本发明的实施例和效果作进一步详细描述:
参照图1,本发明的实施步骤如下:
步骤1,分别对初始训练样本集和测试样本集进行归一化处理。
首先,根据使用需要选取表1中的8组数据,在每组数据中随机选取10个样本组成初始训练样本集,其余样本组成初始测试样本集;
其次,按如下步骤归一化初始训练样本集和测试样本集其中Xi表示初始训练样本集中的第i个样本,Yi表示初始训练样本Xi的标签,l表示训练样本的个数,Xj表示初始测试样本集中的第j个样本,u表示测试样本的个数:
(1a)计算初始训练样本集和测试样本集中所有样本的平均值
(1b)分别对初始训练样本集和测试样本集中的样本进行归一化,得到归一化后的训练样本xi及其标签yi和测试样本xj
yi=Yi 2)
其中,max(X)表示初始训练样本集和测试样本集中所有样本的最大值,min(X)表示初始训练样本集和测试样本集中所有样本的最小值,yi表示归一化后的训练样本xi的标签;
(1c)用所有归一化后的训练样本xi及其标签yi构成归一化后的训练样本集
用所有归一化后的测试样本xj构成归一化后的测试样本集
步骤2,构造差异性较大的基分类器。
(2a)设定样本的属性,即将类别标签为1的样本设为正样本,用+1表示,将类别标签为2的样本设为负样本,用-1表示;
(2b)设测试样本集中的初始正、负样本比率为:并按照更新测试样本集中的正、负样本比率β;
其中,numpos表示正样本的数量,numneg表示负样本的数量,T为更新的总次数,本实例中T=200,但T的取值不局限于200,可以取10-200之间的任意正整数;
(2c)随机初始化一组训练样本集和测试样本集根据不同的β参数进行局部搜索,得到T个分类器、局部搜索后的测试样本集及其T个分类结果其中表示局部搜索后测试样本集中的第j个样本,表示第t个分类结果中测试样本的标签,t=1,2,…,T:
(2c1)用SVM算法求解出随机初始化的训练样本集和测试样本集的超平面系数{w,b}和测试样本集的初始标签集其中w是特征空间中超平面的系数向量,b是超平面的阈值,表示SVM算法求解出的测试样本xj的初始标签;
本实例中,SVM算法采用libsvm工具包中带权重的SVM求解方法,得到超平面系数{w,b}和测试样本集的初始标签集
(2c2)计算测试样本xj的wK(xj,x)+b值,并按照降序排列,得到降序排列后的测试样本集及其标签集其中K(xj,x)是SVM算法中的径向基核函数,K(xj,x)表示测试样本xj和核函数中心x的径向基函数,表示降序排列后测试样本的标签;
(2c3)降序排列后,在当前正、负样本比率β参数下将前hp个测试样本的标签更新为+1,将第hp+1至u-hn个测试样本的标签更新为sgn(wK(xj,x)+b);将第u-hn+1至u个测试样本的标签更新为-1,得到测试样本集更新后的标签集
其中,hp为更新后的正样本个数,hn为更新后的负样本个数,表示更新后测试样本的标签,sgn(wK(xj,x)+b)表示步骤(2c2)所述的wK(xj,x)+b的符号函数, α是一个修正常量,取值为α=0.05;
(2c4)从更新前测试样本集的标签集中随机选择20%的标签,替换对应位置更新后测试样本的标签,得到替换后测试样本集的标签集
(2c5)判断替换前后的测试样本集的标签集是否相等:若相等,则用替换后的标签集作为测试样本集的标签集;若不相等,则将训练样本集和降序排列后的测试样本集返回步骤(2c1);
(2c6)分别在T次更新的正、负样本比率β参数下,重复步骤(2c1)至(2c5),得到T个分类器、局部搜索后的测试样本集及其T个分类结果
步骤3,使用k-means算法对T个分类器和测试样本集的T个分类结果进行聚类,得到N个分类器和测试样本集的N个分类结果
其中,表示聚类后第n个分类结果中测试样本的标签,n=1,2,…,N,本实例中N=30,但N的取值不局限于30,可以取任意小于的正整数。
步骤4,采用集成学习的分类方法得到测试样本集的最终结果。
(4a)从测试样本集的第n个分类结果中,找出测试样本集中与第j个测试样本分类结果一致的样本集和分类结果不一致的样本集,即一致集Xsame和非一致集Xdif
其中,是测试样本集中符合一致集Xsame等式的测试样本,是在第n个分类结果中测试样本的标签,表示满足条件的测试样本的集合,是测试样本集中符合非一致集Xdif不等式的测试样本,是在第n个分类结果中测试样本的标签,表示满足条件的测试样本的集合;
(4b)根据欧式距离,找出第j个测试样本在一致集Xsame和非一致集Xdif中的K近邻集合Xsame-k和Xdif-k
其中,Xsame-k表示一致集Xsame的K近邻集合,表示步骤(4a)所述测试样本与第j个测试样本的欧式距离,dks表示一致集Xsame中的测试样本与第j个测试样本的欧式距离从小到大排列后的第K个距离,表示满足条件的测试样本的集合,Xdif-k表示非一致集Xdif的K近邻集合,表示步骤(4a)所述测试样本与第j个测试样本的欧式距离,dkd表示非一致集Xdif中的测试样本与第j个测试样本的欧式距离从小到大排列后的第K个距离,表示满足条件的测试样本的集合;
(4c)将K近邻集合Xsame-k、Xdif-k分别与训练样本进行聚类,得到相似集S和相反集D:
其中,xis是训练样本集中符合等式的训练样本,yis是训练样本xis的标签,表示满足条件的训练样本的集合,xid是训练样本集中符合不等式的训练样本,yid是训练样本xid的标签,表示满足条件的训练样本的集合;本实例中K=5,但K的取值不局限于5,可以取任意小于的正整数;
(4d)按下式依次计算对第j个测试样本的N个分类结果的邓恩指标DIj(n):
其中,{xa,xb}∈D表示xa,xb是相反集D中的样本,d(xa,xb)表示样本xa,xb的欧式距离,{xc,xd}∈S表示xc,xd是相似集S中的样本,d(xc,xd)表示样本xc,xd的欧式距离;
(4e)对上述邓恩指标DIj(n)进行降序排列,并从前个邓恩指标DIj(n)对应的第j个测试样本中,取出个分类结果的标签作为第j个测试样本的标签集M;
(4f)对标签集M中的标签求和,构造标签的和的符号函数根据该符号函数的值判定第j个测试样本的最终标签其中表示标签集M中第m个标签,m=1,2,…,M:
若标签的和大于零,则符号函数的值为+1,得到第j个测试样本的最终标签为+1;
若标签的和小于零,则符号函数的值为-1,得到第j个测试样本的最终标签为-1;
若标签的和等于零,则符号函数的值为0,得到第j个测试样本的最终标签为邓恩指标DIj(n)最大值对应的第j个测试样本的标签
(4g)重复步骤(4a)至(4f),得到测试样本集中所有测试样本的最终分类结果
本发明的效果可以通过以下仿真实验进一步说明:
1.仿真条件:
仿真实验采用UCI数据库中的8组二分类数据集:2moons、heart、Bupa、sonar、wdbc、pima_indians、vote、breast。每个数据集的数据名称、样本数、特征维数以及正、负样本的比值如表1所示。
表1UCI数据库中的二分类数据
数据名称 样本数 特征维数 正、负样本比值
2moons 200 2 1:0.87
heart 270 13 1:0.80
Bupa 345 6 1:0.73
sonar 208 60 1:0.88
wdbc 569 30 1:0.59
pima_indians 768 8 1:0.54
vote 435 16 1:0.63
breast 277 9 1:0.41
仿真实验在CPU为Intel Core(TM)2Duo、主频2.33GHz,内存为2G的WINDOWSXP***上用MATLAB7.0.1软件进行。
仿真使用的训练样本是用本发明方法与现有的SVM、S4VMs和LapSVM方法,均对2moons、heart、Bupa、sonar、wdbc、pima_indians、vote、breast数据集分别按照1:9,2:8,…,9:1共9组不同正、负样本的比值进行选取。
分别从UCI数据库中的二分类数据集中随机选取10个样本组成初始训练样本集,其余样本组成初始测试样本集,基于半监督SVM集成学习的分类方法的参数取值为T=200,N=30,α=0.05,K=5。
2.仿真内容及分析:
仿真1,用本发明方法及现有SVM、S4VMs和LapSVM方法进行仿真实验,在每组训练样本的正、负样本比值下,对UCI数据库中的二分类数据集分别进行30次分类实验,计算30次实验的平均分类正确率,作为UCI数据库中的二分类数据集的最终分类正确率,对比结果如图2所示。图2的横坐标是仿真使用的训练样本中正样本的个数,纵坐标是在不同训练样本的正、负样本比值下的平均分类正确率。因为训练样本的总数为10,训练样本中正样本的个数1,2,…,9间接表示着训练样本的正、负样本比值1:9,2:8,…,9:1共9组值,所以图2的横坐标用训练样本中正样本的个数简化了训练样本的正、负样本比值。其中:
图2(a)是对2moons数据集使用本发明和现有方法,在不同训练样本的正、负样本比值下的平均分类正确率对比图;
图2(b)是对heart数据集使用本发明和现有方法,在不同训练样本的正、负样本比值下的平均分类正确率对比图;
图2(c)是对Bupa数据集使用本发明和现有方法,在不同训练样本的正、负样本比值下的平均分类正确率对比图;
图2(d)是对sonar数据集使用本发明和现有方法,在不同训练样本的正、负样本比值下的平均分类正确率对比图;
图2(e)是对wdbc数据集使用本发明和现有方法,在不同训练样本的正、负样本比值下的平均分类正确率对比图;
图2(f)是对pima_indians数据集使用本发明和现有方法,在不同训练样本的正、负样本比值下的平均分类正确率对比图;
图2(g)是对vote数据集使用本发明和现有方法,在不同训练样本的正、负样本比值下的平均分类正确率对比图;
图2(h)是对breast数据集使用本发明和现有方法,在不同训练样本的正、负样本比值下的平均分类正确率对比图。
从图2可见,现有S4VMs方法在训练样本与测试样本分布相近的情况下,性能较好,但是在训练样本与测试样本分布不同的情况下,尤其是某类训练样本只有一两个的情况下,性能急剧下降。现有S4VMs方法对正、负样本比值十分敏感,对样本数量的依赖性很强。现有SVM与LapSVM方法总体效果不如S4VMs理想,在某类训练样本很少的情况下基本失效,将所有的测试样本都分为一类。
本发明方法在训练样本与测试样本分布相近时,分类效果稍逊于S4VMs,但差距不是很明显。在训练样本分布大幅度变化时,本发明能够保持较高的分类正确率,且正确率浮动较小。在训练样本分布很极端,例如正、负类样本的比值达到1:9或者9:1的情况下,本发明的分类正确率也没有明显降低,此时其它三种方法均已失效,表明了本发明在极端情况下的有效性和稳定性,其鲁棒性大幅高于其它三种对比方法。
综上,本发明通过构造差异性较大的基分类器,解决了传统方法中构造差异性较大的基分类器较难的问题,弥补了半监督SVM算法需要预先估计正、负样本比例的缺陷;同时提出了一种半监督SVM集成学习的分类方法,与现有SVM、S4VMs和LapSVM方法相比,具有较高的分类正确率和出色的鲁棒性。

Claims (7)

1.一种基于半监督SVM集成学习的分类方法,包括如下步骤:
(1)分别对初始训练样本集和测试样本集进行归一化处理,得到归一化后的训练样本集和测试样本集其中Xi表示初始训练样本集中的第i个样本,Yi表示初始训练样本Xi的标签,Xj表示初始测试样本集中的第j个样本,xi表示归一化后训练样本集中的第i个样本,yi表示归一化后训练样本xi的标签,xj表示归一化后测试样本集中的第j个样本,l表示训练样本的个数,u表示测试样本的个数;
(2)构造差异性基分类器:
(2a)设定样本的属性,即将类别标签为1的样本设为正样本,用+1表示,将类别标签为2的样本设为负样本,用-1表示;
(2b)设测试样本集中的初始正、负样本比率为:并按照更新测试样本集中的正、负样本比率β,其中numpos表示正样本的数量,numneg表示负样本的数量,T为更新的总次数,其取值为任意正整数;
(2c)随机初始化一组训练样本集和测试样本集根据不同的β参数进行局部搜索,得到T个分类器、局部搜索后的测试样本集及其T个分类结果其中表示局部搜索后测试样本集中的第j个样本,表示第t个分类结果中测试样本的标签,t=1,2,…,T…,T;
(3)使用k-means算法对T个分类器和测试样本集的T个分类结果进行聚类,得到N个分类器和测试样本集的N个分类结果其中N取值为任意小于T的正整数,表示聚类后第n个分类结果中测试样本的标签,n=1,2,…,N…,N;
(4)依次输入训练样本集测试样本集测试样本集的N个分类结果通过集成学习获得测试样本集的最终分类结果
(4a)从测试样本集的第n个分类结果中,找出测试样本集中与第j个测试样本分类结果一致的样本集和分类结果不一致的样本集,即一致集Xsame和非一致集Xdif
(4b)根据欧式距离,找出第j个测试样本在一致集Xsame和非一致集Xdif中的K近邻集合Xsame-k和Xdif-k
(4c)将K近邻集合Xsame-k、Xdif-k分别与训练样本进行聚类,得到相似集S和相反集D;
(4d)依次对第j个测试样本的N个分类结果计算邓恩指标DIj(n),n=1,2,…,N…,N;
(4e)对上述邓恩指标DIj(n)进行降序排列,并从前个邓恩指标DIj(n)对应的第j个测试样本中,取出个分类结果的标签作为第j个测试样本的标签集M;
(4f)对标签集M中的标签求和,构造标签的和的符号函数根据该符号函数的值判定第j个测试样本的最终标签其中表示标签集M中第m个标签,m=1,2,…,M…,M:
若标签的和大于零,则符号函数的值为+1,得到第j个测试样本的最终标签为+1;
若标签的和小于零,则符号函数的值为-1,得到第j个测试样本的最终标签为-1;
若标签的和等于零,则符号函数的值为0,得到第j个测试样本的最终标签为邓恩指标DIj(n)最大值对应的第j个测试样本的标签
(4g)重复步骤(4a)至(4f),得到测试样本集中所有测试样本的最终分类结果
2.根据权利要求1所述的基于半监督SVM集成学习的分类方法,其中步骤(1)所述的分别对初始训练样本集和测试样本集进行归一化处理,得到归一化后的训练样本集和测试样本集按如下步骤进行:
(1a)计算初始训练样本集和测试样本集中所有样本的平均值
(1b)分别对初始训练样本集和测试样本集中的样本进行归一化,得到归一化后的训练样本xi及其标签yi和测试样本xj
x i = X i - X ‾ m a x ( X ) - m i n ( X ) - - - 1 )
yi=Yi 2)
x j = X j - X ‾ m a x ( X ) - m i n ( X ) - - - 3 )
其中,max(X)表示初始训练样本集和测试样本集中所有样本的最大值,min(X)表示初始训练样本集和测试样本集中所有样本的最小值;
(1c)用所有归一化后的训练样本xi及其标签yi构成归一化后的训练样本集用所有归一化后的测试样本xj构成归一化后的测试样本集
3.根据权利要求1所述的基于半监督SVM集成学习的分类方法,其中步骤(2c)所述的根据不同的β参数进行局部搜索,按如下步骤进行:
(2c1)用SVM算法求解出随机初始化的训练样本集和测试样本集的超平面系数{w,b}和测试样本集的初始标签集其中w是特征空间中超平面的系数向量,b是超平面的阈值,表示SVM算法求解出的测试样本xj的初始标签;
(2c2)计算测试样本xj的wK(xj,x)+b值,并按照降序排列,得到降序排列后的测试样本集及其标签集其中K(xj,x)是SVM算法中的径向基核函数,K(xj,x)表示测试样本xj和核函数中心x的径向基函数,表示降序排列后测试样本的标签;
(2c3)降序排列后,在当前正、负样本比率β参数下将前hp个测试样本的标签更新为+1,将第hp+1至u-hn个测试样本的标签更新为sgn(wK(xj,x)+b);将第u-hn+1至u个测试样本的标签更新为-1,得到测试样本集更新后的标签集
其中,hp为更新后的正样本个数,hn为更新后的负样本个数,表示更新后测试样本的标签,sgn(wK(xj,x)+b)表示步骤(2c2)所述的wK(xj,x)+b的符号函数,α是一个修正常量,取值为α=0.05;
(2c4)从更新前测试样本集的标签集中随机选择20%的标签,替换对应位置更新后测试样本的标签,得到替换后测试样本集的标签集
(2c5)判断替换前后的测试样本集的标签集是否相等:若相等,则用替换后的标签集作为测试样本集的标签集;若不相等,则将训练样本集和降序排列后的测试样本集返回步骤(2c1);
(2c6)分别在T次更新的正、负样本比率β参数下,重复步骤(2c1)至(2c5),得到T个分类器、局部搜索后的测试样本集及其T个分类结果
4.根据权利要求1所述的基于半监督SVM集成学习的分类方法,其中所述步骤(4a)中的一致集Xsame和非一致集Xdif,是按下式计算:
X s a m e = { x ^ j s | y s n = y j n } - - - 4 )
X d i f = { x ^ j d | y d n ≠ y j n } - - - 5 )
其中,是测试样本集中符合一致集Xsame等式的测试样本,是在第n个分类结果中测试样本的标签,表示满足条件的测试样本的集合,是测试样本集中符合非一致集Xdif不等式的测试样本,是在第n个分类结果中测试样本的标签,表示满足条件的测试样本的集合。
5.根据权利要求1所述的基于半监督SVM集成学习的分类方法,其中所述步骤(4b)中的K近邻集合Xsame-k和Xdif-k,是按下式计算:
X s a m e - k = { x ^ j s | d ( x ^ j s , x ^ j ) < d k s } - - - 6 )
X d i f - k = { x ^ j d | d ( x ^ j d , x ^ j ) < d k d } - - - 7 )
其中,Xsame-k表示一致集Xsame的K近邻集合,表示与第j个测试样本的欧式距离,是测试样本集中符合一致集Xsame等式的测试样本,dks表示一致集Xsame中的测试样本与第j个测试样本的欧式距离从小到大排列后的第K个距离,表示满足条件的测试样本的集合,Xdif-k表示非一致集Xdif的K近邻集合,表示步骤(4a)所述测试样本与第j个测试样本的欧式距离,dkd表示非一致集Xdif中的测试样本与第j个测试样本的欧式距离从小到大排列后的第K个距离,表示满足条件的测试样本的集合。
6.根据权利要求1所述的基于半监督SVM集成学习的分类方法,其中所述步骤(4c)中的相似集S和相反集D,是按下式计算:
S = X s a m e - k &cup; { x i s | y i s = y j n } - - - 8 )
D = X d i f - k &cup; { x i d | y i d &NotEqual; y j n } - - - 9 )
其中,xis是训练样本集中符合等式的训练样本,yis是训练样本xis的标签,表示满足条件的训练样本的集合,xid是训练样本集中符合不等式的训练样本,yid是训练样本xid的标签,表示满足条件的训练样本的集合。
7.根据权利要求1所述的基于半监督SVM集成学习的分类方法,其中所述步骤(4d)的邓恩指标DIj(n),是按下式计算:
DI j ( n ) = min { x a , x b } &Element; D { d ( x a , x b ) } min { x c , x d } &Element; S { d ( x c , x d ) } - - - 10 )
其中,{xa,xb}∈D表示xa,xb是相反集D中的样本,d(xa,xb)表示样本xa,xb的欧式距离,{xc,xd}∈S表示xc,xd是相似集S中的样本,d(xc,xd)表示样本xc,xd的欧式距离。
CN201410119304.XA 2014-03-27 2014-03-27 基于半监督svm集成学习的分类方法 Active CN103886330B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410119304.XA CN103886330B (zh) 2014-03-27 2014-03-27 基于半监督svm集成学习的分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410119304.XA CN103886330B (zh) 2014-03-27 2014-03-27 基于半监督svm集成学习的分类方法

Publications (2)

Publication Number Publication Date
CN103886330A CN103886330A (zh) 2014-06-25
CN103886330B true CN103886330B (zh) 2017-03-01

Family

ID=50955213

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410119304.XA Active CN103886330B (zh) 2014-03-27 2014-03-27 基于半监督svm集成学习的分类方法

Country Status (1)

Country Link
CN (1) CN103886330B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781942A (zh) * 2019-10-18 2020-02-11 中国科学技术大学 一种半监督分类方法及***

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598813B (zh) * 2014-12-09 2017-05-17 西安电子科技大学 一种基于集成学习和半监督svm的计算机入侵检测方法
CN104598586B (zh) * 2015-01-18 2018-04-17 北京工业大学 大规模文本分类的方法
CN104809435B (zh) * 2015-04-22 2018-01-19 上海交通大学 一种基于视觉一致性约束的图像目标分类方法
CN105447520A (zh) * 2015-11-23 2016-03-30 盐城工学院 一种基于加权投影对支持向量机的样本分类方法
CN106294593B (zh) * 2016-07-28 2019-04-09 浙江大学 结合从句级远程监督和半监督集成学习的关系抽取方法
US10008218B2 (en) 2016-08-03 2018-06-26 Dolby Laboratories Licensing Corporation Blind bandwidth extension using K-means and a support vector machine
CN107766868A (zh) * 2016-08-15 2018-03-06 中国联合网络通信集团有限公司 一种分类器训练方法及装置
CN106649789B (zh) * 2016-12-28 2019-07-23 浙江大学 一种基于集成半监督费舍尔判别的工业过程故障分类方法
CN107292330B (zh) * 2017-05-02 2021-08-06 南京航空航天大学 一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法
CN107038252B (zh) * 2017-05-04 2020-11-06 沈阳航空航天大学 一种基于多模态数据的路由度量的生成方法
CN107657274A (zh) * 2017-09-20 2018-02-02 浙江大学 一种基于k‑means的二叉SVM‑tree不平衡数据工业故障分类方法
CN110008323B (zh) * 2019-03-27 2021-04-23 北京百分点科技集团股份有限公司 一种半监督学习结合集成学习的问题等价性判别的方法
CN110084290B (zh) * 2019-04-12 2021-03-05 北京字节跳动网络技术有限公司 训练分类器的方法、装置、电子设备和计算机可读存储介质
CN110309302B (zh) * 2019-05-17 2023-03-24 江苏大学 一种结合svm和半监督聚类的不平衡文本分类方法及***
CN110991500A (zh) * 2019-11-19 2020-04-10 天津师范大学 一种基于嵌套式集成深度支持向量机的小样本多分类方法
CN113810333B (zh) * 2020-06-11 2023-06-27 中国科学院计算机网络信息中心 基于半监督谱聚类和集成svm的流量检测方法及***
CN112989207B (zh) * 2021-04-27 2021-08-27 武汉卓尔数字传媒科技有限公司 一种信息推荐方法及装置、电子设备、存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980202A (zh) * 2010-11-04 2011-02-23 西安电子科技大学 不平衡数据的半监督分类方法
CN103150578A (zh) * 2013-04-09 2013-06-12 山东师范大学 一种基于半监督学习的支持向量机分类器训练方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1393196A4 (en) * 2001-05-07 2007-02-28 Health Discovery Corp CORES AND METHODS FOR SELECTING CORES FOR USE IN TEACHING MACHINES

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980202A (zh) * 2010-11-04 2011-02-23 西安电子科技大学 不平衡数据的半监督分类方法
CN103150578A (zh) * 2013-04-09 2013-06-12 山东师范大学 一种基于半监督学习的支持向量机分类器训练方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SVMs Ensemble for Radar Target Recognition Based on Evolutionary Feature Selection;Xiangrong Zhang等;《2007 IEEE Congress on Evolutionary Computation》;20071231;全文 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781942A (zh) * 2019-10-18 2020-02-11 中国科学技术大学 一种半监督分类方法及***

Also Published As

Publication number Publication date
CN103886330A (zh) 2014-06-25

Similar Documents

Publication Publication Date Title
CN103886330B (zh) 基于半监督svm集成学习的分类方法
Deng et al. A survey on soft subspace clustering
Vezhnevets et al. Towards weakly supervised semantic segmentation by means of multiple instance and multitask learning
CN105608471B (zh) 一种鲁棒直推式标签估计及数据分类方法和***
CN107633226B (zh) 一种人体动作跟踪特征处理方法
Al-Dulaimi et al. Benchmarking HEp-2 specimen cells classification using linear discriminant analysis on higher order spectra features of cell shape
WO2022062419A1 (zh) 基于非督导金字塔相似性学习的目标重识别方法及***
Legrand et al. Chromosome classification using dynamic time warping
Koço et al. On multi-class classification through the minimization of the confusion matrix norm
CN110084314A (zh) 一种针对靶向捕获基因测序数据的假阳性基因突变过滤方法
Cao et al. Local information-based fast approximate spectral clustering
CN113158955B (zh) 基于聚类引导和成对度量三元组损失的行人重识别方法
CN102436645B (zh) 基于mod字典学习采样的谱聚类图像分割方法
CN112926403A (zh) 基于层次聚类与困难样本三元组的无监督行人重识别方法
Pourghassem et al. A framework for medical image retrieval using merging-based classification with dependency probability-based relevance feedback
CN109933619A (zh) 一种半监督分类预测方法
Wang et al. A novel sparse boosting method for crater detection in the high resolution planetary image
Al Zorgani et al. Comparative study of image classification using machine learning algorithms
CN105139037B (zh) 基于最小生成树的集成多目标进化自动聚类方法
Tonti et al. Unsupervised HEp-2 mitosis recognition in indirect immunofluorescence imaging
Krishnapuram et al. Joint classifier and feature optimization for cancer diagnosis using gene expression data
Zhang et al. Dbiecm-an evolving clustering method for streaming data clustering
CN107563344B (zh) 一种基于语义区域测度学习的行人再识别方法
CN103093239B (zh) 一种融合了点对和邻域信息的建图方法
Sansone et al. Classtering: Joint classification and clustering with mixture of factor analysers

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant