CN103390171A - 一种安全的半监督学习方法 - Google Patents

一种安全的半监督学习方法 Download PDF

Info

Publication number
CN103390171A
CN103390171A CN2013103155014A CN201310315501A CN103390171A CN 103390171 A CN103390171 A CN 103390171A CN 2013103155014 A CN2013103155014 A CN 2013103155014A CN 201310315501 A CN201310315501 A CN 201310315501A CN 103390171 A CN103390171 A CN 103390171A
Authority
CN
China
Prior art keywords
semi
supervised
learning method
classifier
outcome
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013103155014A
Other languages
English (en)
Inventor
周志华
李宇峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN2013103155014A priority Critical patent/CN103390171A/zh
Publication of CN103390171A publication Critical patent/CN103390171A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种安全的半监督学习方法,包括构建多个半监督分类器步骤和构建最终安全半监督分类器步骤;首先对于给定训练数据集构建多个差异性大的半监督分类器;然后通过最坏情况下最大化性能提高来构建最终安全半监督分类器。本发明的方法在实施过程中很少导致性能下降,与此同时取得了与现有经典技术高度可比的性能。

Description

一种安全的半监督学习方法
技术领域
本发明涉及一种半监督学习方法,特别涉及如何安全利用未标记数据的半监督学习方法,属于机器学习技术领域。
背景技术
机器学习方法试图利用任务的历史数据来改善任务的性能。为了得到好的学习性能,机器学习方法例如监督学习方法,通常要求历史数据都有明确的概念标记(称为有标记数据)且要求有大量的有标记数据。在很多现实任务中,由于概念标记的获取需要耗费大量的人力物力资源,因此有标记数据通常是稀少的,而大量没有概念标记的历史数据(称为未标记数据)则可以容易得到。如何利用大量未标记数据来辅助提高仅利用少量有标记数据得到的性能已成为机器学习方法的一个重要课题,而半监督学习方法是该方面的两大主流技术之一。
半监督学习方法已经在很多方面得以广泛应用;然而在不少情况下,现有半监督学习方法利用未标记数据会导致性能下降,即半监督学习方法的性能会显著不如直接利用少量有标记数据训练监督学习方法所取得的性能。这个现象严重影响了半监督学习方法在实际任务中的应用,因为用户通常希望利用了半监督学习方法不会导致性能下降。因此需要一种安全的半监督学习方法使得,一方面其通常可以带来性能提高,另一方面其很少会导致性能显著下降。基于半监督学习问题在实际任务中普遍存在,这方面的成果将会在很多实际任务中发挥作用。
发明内容
发明目的:针对目前半监督学习方法利用未标记数据都会在不少情况下导致性能显著下降的问题,本发明提供了一种安全的半监督学习方法。具体而言,首先对于给定训练数据集构建多个差异性大的半监督分类器,然后通过最坏情况下最大化性能提高来构建最终的安全半监督分类器。
技术方案:一种安全的半监督学习方法,主要包括构建多个半监督分类器步骤和构建最终的安全半监督分类器步骤;
所述构建多个半监督分类器步骤具体为:
步骤100,对于少量有标记数据和大量未标记数据,随机初始化多个半监督分类器;
步骤101,对于每个初始半监督分类器,根据半监督分类器的目标函数,通过优化方法对半监督分类器的预测结果进行优化;
步骤102,将步骤101中优化过的半监督分类器的预测结果通过机器学习的聚类方法分成多个簇;
步骤103,对于聚类结果的每个簇,输出其中目标值最优的半监督分类器;
步骤104,收集每个簇输出的半监督分类器,得到多个半监督分类器;
所述构建最终的安全半监督分类器步骤具体为:
步骤200,对少量有标记数据训练监督学习方法,得到未标记数据上的预测结果;
步骤201,假定步骤104构建的每个半监督分类器为真实分类器,根据监督学习方法的预测结果,对任意未标记数据上的预测结果定义性能提高函数;
步骤202,对任意未标记数据上的预测结果,对步骤201得到的多个性能提高函数,考察最小的性能提高定义为最坏情况下的性能提高函数;
步骤203,根据最坏情况下的性能提高目标函数,通过优化方法对未标记数据的预测结果进行优化,使其最大化最坏情况下的性能提高目标函数;
步骤204,将优化结果输出,作为最终的安全半监督分类器的预测结果。
所述半监督分类器包括基于生成式的半监督分类器、基于图的半监督分类器、基于不一致性的半监督分类器、基于支持向量机的半监督分类器等。
所述初始化半监督分类器指对未标记数据上的预测结果进行初始化。
所述半监督分类器的目标函数包括不同类别数据的间隔,概率似然等。
所述步骤200中的监督学习方法包括生成式模型方法、最近邻监学习方法、支持向量机学习方法等。
所述性能提高函数的性能评价指标包括精度、查准率、查全率、F1度量等。
有益效果:与现有技术相比,本发明所提供的安全半监督学习方法,实施过程中很少导致性能显著下降,与此同时取得了与现有技术高度可比的性能。
附图说明
图1为本发明实施例的构建多个半监督分类器的工作流程图;
图2为本发明实施例的构建最终安全半监督分类器的工作流程图;
图3为本发明实施例多个真实数据集上实验对比的精度结果。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
构建多个半监督分类器的工作流程如图1所示。具体来说,给定少量有标记数据和大量未标记数据,首先随机初始化多个半监督分类器,例如N个半监督分类器,记为{y1,y2,…,yN}(步骤10);优化半监督分类器的预测结果直到收敛(步骤11),例如可采用交替优化方法——首先固定未标记数据上的预测结果{y1,y2,…,yN}更新分类器模型参数{φ12,…,φN}(步骤12a),然后固定分类器模型参数{φ12,…,φN}更新未标记数据上的预测结果{y1,y2,…,yN}得到{z1,z2,…,zN}(步骤12b),如果{z1,z2,…,zN}={y1,y2,…,yN}则进入下一步骤,否则迭代步骤12a和12b直到收敛;将优化过的半监督分类器的预测结果{y1,y2,…,yN}进行聚类操作,例如采用k均值技术。记聚类个数为T(步骤13);对于聚类结果的每个簇,输出其中目标值最优的分类器,不失一般性,记最后的半监督分类器为{y1,y2,…,yT}(步骤14)。至此,得到多个半监督分类器{y1,y2,…,yT}。
构建最终安全半监督学习方法的工作流程如图2所示。首先对少量有标记数据训练监督学习方法,得到未标记数据上的预测结果y0(步骤20);假定每个之前构建好的半监督分类器yt为真实分类器,根据监督学习方法的预测结果,对任意未标记数据上的预测结果y定义性能提高函数F(yt,y,y0),例如对于精度,提高函数定义为F(yt,y,y0)=yt’y-y’y0,’表示向量转置(步骤21);考虑最小的性能提高,定义最坏情况下的性能提高函数(步骤22),即
min F(yt,y,y0),
t=1,…,T
根据最坏情况下的性能提高目标函数,通过优化方法对未标记数据的预测结果进行优化,使其最大化最坏情况下的性能提高目标函数(步骤23);
max min F(yt,y,y0),
y t=1,…,T
优化方法可采用数值优化教科书中介绍的各种数值优化技术;将优化结果y*输出,作为最终安全半监督分类器的预测结果(步骤24)。
本发明实施例在多个真实数据集上实验对比的精度结果如图3所示。实验数据集来自美国加州大学欧文分校提供的真实数据集。对于每个真实数据集,随机取10个数据作为有标记数据,余下为未标记数据。实验重复30次,汇报在未标记数据上的平均精度结果。本发明实施例与两种已有方法进行比较:仅利用有标记数据的监督学习方法;经典半监督学习方法。这里监督学习方法采用机器学习领域经典的支持向量机方法,经典半监督学习方法采用机器学习领域经典的半监督支持向量机方法。对于本发明实施例,采用半监督支持向量机方法作为半监督分类器实现,性能评价指标采用精度实现。本发明实施例与两种比较方法采用高斯核作为支持向量机方法的实现。图3中,加粗部分表示该方法显著优于经典监督支持向量机方法(采用t-test统计检验,95%置信度),下划线部分表示该方法显著劣于经典监督支持向量机方法(采用t-test统计检验,95%置信度)。可见,与现有半监督学习技术多次显著下降性能相比,本发明所提供的安全半监督学习方法,实施过程中很少导致性能显著下降,与此同时取得了与现有半监督学习技术高度可比的性能。

Claims (6)

1. 一种安全的半监督学习方法,其特征在于,包括构建多个半监督分类器步骤和构建最终的安全半监督分类器步骤;
所述构建多个半监督分类器步骤具体为:
步骤100,对于少量有标记数据和大量未标记数据,随机初始化多个半监督分类器;
步骤101,对于每个初始半监督分类器,根据半监督分类器的目标函数,通过优化方法对半监督分类器的预测结果进行优化;
步骤102,将优化过的半监督分类器的预测结果通过机器学习的聚类方法分成多个簇;
步骤103,对于聚类结果的每个簇,输出其中目标值最优的半监督分类器;
步骤104,收集每个簇输出的半监督分类器,得到多个半监督分类器;
所述构建最终的安全半监督分类器步骤具体为:
步骤200,对少量有标记数据训练监督学习方法,得到未标记数据上的预测结果;
步骤201,假定步骤104构建的每个半监督分类器为真实分类器,根据监督学习方法的预测结果,对任意未标记数据上的预测结果定义性能提高函数;
步骤202,对任意未标记数据上的预测结果,对步骤201得到的多个性能提高函数,考察最小的性能提高定义为最坏情况下的性能提高函数;
步骤203,根据最坏情况下的性能提高目标函数,通过优化方法对未标记数据的预测结果进行优化,使其最大化最坏情况下的性能提高目标函数;
步骤204,将优化结果输出,作为最终的安全半监督分类器的预测结果。
2. 如权利要求1所述的安全的半监督学习方法,其特征在于:所述半监督分类器包括基于生成式的半监督分类器、基于图的半监督分类器、基于不一致性的半监督分类器和基于支持向量机的半监督分类器。
3. 如权利要求1所述的安全的半监督学习方法,其特征在于:所述初始化半监督分类器指对未标记数据上的预测结果进行初始化。
4. 如权利要求1所述的安全的半监督学习方法,其特征在于:所述半监督分类器的目标函数包括不同类别数据的间隔和概率似然。
5. 如权利要求1所述的安全的半监督学习方法,其特征在于:所述步骤200中的监督学习方法包括生成式模型方法、最近邻监学习方法和支持向量机学习方法。
6. 如权利要求1所述的安全的半监督学习方法,其特征在于:所述性能提高函数的性能评价指标包括精度、查准率、查全率和F1度量。
CN2013103155014A 2013-07-24 2013-07-24 一种安全的半监督学习方法 Pending CN103390171A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013103155014A CN103390171A (zh) 2013-07-24 2013-07-24 一种安全的半监督学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013103155014A CN103390171A (zh) 2013-07-24 2013-07-24 一种安全的半监督学习方法

Publications (1)

Publication Number Publication Date
CN103390171A true CN103390171A (zh) 2013-11-13

Family

ID=49534438

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013103155014A Pending CN103390171A (zh) 2013-07-24 2013-07-24 一种安全的半监督学习方法

Country Status (1)

Country Link
CN (1) CN103390171A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107255772A (zh) * 2017-06-08 2017-10-17 南京工程学院 一种半监督电压暂降事故源识别方法
CN107590262A (zh) * 2017-09-21 2018-01-16 黄国华 大数据分析的半监督学习方法
CN107895168A (zh) * 2017-10-13 2018-04-10 平安科技(深圳)有限公司 数据处理的方法、数据处理的装置及计算机可读存储介质
CN108885700A (zh) * 2015-10-02 2018-11-23 川科德博有限公司 数据集半自动标记
CN108881196A (zh) * 2018-06-07 2018-11-23 中国民航大学 基于深度生成模型的半监督入侵检测方法
CN109977094A (zh) * 2019-01-30 2019-07-05 中南大学 一种用于结构化数据的半监督学习的方法
CN111476300A (zh) * 2020-04-07 2020-07-31 屈璠 咽喉反流识别模型建立方法、指标获取方法及电子***

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980202A (zh) * 2010-11-04 2011-02-23 西安电子科技大学 不平衡数据的半监督分类方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980202A (zh) * 2010-11-04 2011-02-23 西安电子科技大学 不平衡数据的半监督分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
周志华,李宇峰: "Towards Making Unlabeled Data Never Hurt", 《THE 28TH INTERNATIONAL CONFERENCE ON MACHINE LEARNING》, 31 December 2011 (2011-12-31) *
李宇峰,黄胜君,周志华: "一种基于正则化的半监督多标记学习方法", 《计算机研究与发展》, 31 December 2012 (2012-12-31) *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108885700A (zh) * 2015-10-02 2018-11-23 川科德博有限公司 数据集半自动标记
CN107255772A (zh) * 2017-06-08 2017-10-17 南京工程学院 一种半监督电压暂降事故源识别方法
CN107255772B (zh) * 2017-06-08 2020-07-03 南京工程学院 一种半监督电压暂降事故源识别方法
CN107590262A (zh) * 2017-09-21 2018-01-16 黄国华 大数据分析的半监督学习方法
CN107895168A (zh) * 2017-10-13 2018-04-10 平安科技(深圳)有限公司 数据处理的方法、数据处理的装置及计算机可读存储介质
WO2019071965A1 (zh) * 2017-10-13 2019-04-18 平安科技(深圳)有限公司 数据处理的方法、数据处理装置及计算机可读存储介质
CN108881196A (zh) * 2018-06-07 2018-11-23 中国民航大学 基于深度生成模型的半监督入侵检测方法
CN109977094A (zh) * 2019-01-30 2019-07-05 中南大学 一种用于结构化数据的半监督学习的方法
CN109977094B (zh) * 2019-01-30 2021-02-19 中南大学 一种用于结构化数据的半监督学习的方法
CN111476300A (zh) * 2020-04-07 2020-07-31 屈璠 咽喉反流识别模型建立方法、指标获取方法及电子***

Similar Documents

Publication Publication Date Title
CN103390171A (zh) 一种安全的半监督学习方法
CN106096727B (zh) 一种基于机器学习的网络模型构造方法及装置
CN102609714B (zh) 基于信息增益和在线支持向量机的新型分类器及分类方法
CN103150454A (zh) 基于样本推荐标注的动态机器学习建模方法
CN104751227B (zh) 用于语音识别的深度神经网络的构建方法及***
Han et al. A scalable random forest algorithm based on mapreduce
CN104751228A (zh) 深度神经网络的构建方法及***
CN102201236A (zh) 一种高斯混合模型和量子神经网络联合的说话人识别方法
US20190213475A1 (en) Reducing machine-learning model complexity while maintaining accuracy to improve processing speed
CN104156560A (zh) 一种基于SaE-ELM的煤矿多等级突水预测方法
CN109657884A (zh) 电网供电优化方法、装置、设备和计算机可读存储介质
CN109816177A (zh) 一种负荷聚合商短期负荷预测方法、装置及设备
CN106600046A (zh) 基于多分类器融合的土地闲置预测方法及装置
CN106991442A (zh) 混合蛙跳算法的自适应核k‑means方法与***
CN103020489B (zh) 基于ARM微处理器的siRNA干扰效率预测***
CN103617203A (zh) 基于查询驱动的蛋白质-配体绑定位点预测方法
CN104376234B (zh) 启动子识别方法及***
CN108985323A (zh) 一种光伏功率的短期预测方法
CN109978023A (zh) 面向高维大数据分析的特征选择方法及计算机存储介质
CN117592595A (zh) 一种配电网负荷预测模型建立、预测方法及装置
CN104615679A (zh) 一种基于人工免疫网络的多智能体数据挖掘方法
CN102426598A (zh) 一种用于网络内容安全管理的中文文本聚类的方法
CN104573331A (zh) 一种基于MapReduce的K近邻数据预测方法
Jin et al. Mach number prediction models based on Ensemble Neural Networks for wind tunnel testing
CN103279792A (zh) 一种基于四链编码方案的量子优化算法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20131113

WD01 Invention patent application deemed withdrawn after publication