CN105046236A - 一种基于多次投票的迭代式标签噪声识别算法 - Google Patents

一种基于多次投票的迭代式标签噪声识别算法 Download PDF

Info

Publication number
CN105046236A
CN105046236A CN201510490699.9A CN201510490699A CN105046236A CN 105046236 A CN105046236 A CN 105046236A CN 201510490699 A CN201510490699 A CN 201510490699A CN 105046236 A CN105046236 A CN 105046236A
Authority
CN
China
Prior art keywords
noise
sample
voting
iteration
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510490699.9A
Other languages
English (en)
Inventor
关东海
袁伟伟
李博涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN201510490699.9A priority Critical patent/CN105046236A/zh
Publication of CN105046236A publication Critical patent/CN105046236A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开的一种基于多次投票的迭代式标签噪声识别算法,属于机器学习和数据挖掘领域。本发明的识别算法基于集成学习思想,采取了多次投票方法,噪声由多个分类器投票而判定,每次投票前随机打乱待检测样本的顺序,因此每次投票都会产生一组可能存在差异性的噪声识别结果,最后综合多次投票产生的多组结果,产生最终噪声识别结果。本发明的识别算法还采取了迭代方式,每次迭代时输入的待检测样本,为上次迭代时过滤掉噪声后的剩余样本。同传统的单次投票方式相比,多次投票方法更具灵活性和准确性,可以在另一个层面对单次投票结果做汇总,能够满足不同类型数据和噪声比的要求。此外,迭代式的识别方法能够更全面彻底的识别出所有噪声数据。

Description

一种基于多次投票的迭代式标签噪声识别算法
技术领域
本发明涉及数据挖掘和机器学习技术领域,具体是基于多次投票的迭代式标签噪声识别算法。
背景技术
机器学习在实际应用当中使用的很多训练数据都是带有噪声的,其中导致的原因包括人为的错误,硬件设备的错误,数据收集过程的错误等。传统的做法就是在应用那些机器学习算法前,通过人工对源数据进行数据预处理工作,获得纯净源数据,然而,这些人工的工作费力、繁琐、耗时,而且不能保证数据的完全正确性,这对后续的算法应用造成了不可忽视的影响。数据噪声通常包括两类:属性噪声和类别噪声,属性噪声指的是样本属性值不准确,类别噪声指的是样本的标签不准确[1]。相比于属性噪声,类别噪声的影响更大。
对类别噪声的处理方法包括:设计健壮的算法[2,3]以及噪声检测算法[4,5,6,7]。设计健壮的算法主要是改进已有算法,使已有算法受类别噪声的影响更小。而噪声检测算法是在使用包含噪声的数据之前检测并删除噪声。相比之下,类噪声检测算法的效果和通用性更强。
已有类噪声检测算法主要包含两类:基于k近邻[4]和基于集成学习[5,6,7]。基于k近邻的基本思想是比较一个样本和其邻居样本的类别标签,如果这些标签明显不一致,则认为该样本标签为噪声。这种方法受k近邻算法的局限性影响,并不是所有的数据分布都适合基于k紧邻的方法。相比之下,基于集成学习的算法使用更广泛。这一类算法的代表是大多数过滤和一致性过滤[7]。在这些算法中,训练数据首先被随机的分成多个子集,然后每个子集会被单独的进行噪声检测。检测的基本思想是通过以剩余子集为训练样本获得的多个分类器的投票。这类算法主要包括两个步骤:样本划分和多分类器投票。因为样本划分和多分类器投票只执行一次,因此属于基于单次投票的标签噪声检测方法。
已有的基于单次投票的标签噪声检测方法存在两个不足:单次投票的结果受样本划分的影响较大,并且遗漏噪声的可能性较大。
参考文献:
[1]Zhu,Xingquan,andXindongWu."Classnoisevs.attributenoise:Aquantitativestudy."ArtificialIntelligenceReview22.3(2004):177-210.
[2]J.Bootkrajang,A.Kaban,Classificationofmislabelledmicroarraysusingrobustsparselogisticregression,Bioinformatics29(7)(2013)870–877.
[3]J.Saez,M.Galar,J.Luengo,F.Herrera,Afirststudyondecompositionstrategieswithdatawithclassnoiseusingdecisiontrees,in:HybridArtificialIntelligentSystems,LectureNotesinComputerScience,vol.7209,2012,pp.25–35.
[4]D.L.Wilson,Asymptoticpropertiesofnearestneighborrulesusingediteddata,IEEETrans.Syst.ManCybernet.2(3)(1992)431–433.
[5]J.Young,J.Ashburner,S.Ourselin,Wrappermethodstocorrectmislabeledtrainingdata,in:3rdInternationalWorkshoponPatternRecognitioninNeuroimaging,2013,pp.170–173.
[6]D.Guan,W.Yuan,etal.,Identifyingmislabeledtrainingdatawiththeaidofunlabeleddata,Appl.Intell.35(3)(2011)345–358.
[7]C.E.Brodley,M.A.Friedl,Identifyingmislabeledtrainingdata,J.Artif.Intell.Res.11(1999)131–167.
发明内容
本发明要解决的问题是提供是一种基于多次投票的迭代式标签噪声识别算法,该算法该方法采用多次投票的方式,在多次投票和单次投票环节可以根据实际数据集情况设置相应的参数和策略,避免了单次投票的结果受样本划分的影响较大的问题,可以有效提高识别的准确率,用迭代的方式,能更加彻底的发现噪声数据。
如本发明公开的基于多次投票的迭代式标签噪声识别算法,包括以下步骤:
步骤1)确定算法输入变量,包括待处理样本集D,最大迭代次数maxIter,多次投票次数numVote,最终噪声识别所需最小投票次数numFinalPass,随机分块数numCross,单次投票分类器次数numClassifier,单次噪声识别所需最小投票次数numPass,初始化多次投票迭代次数t=1,***迭代次数m=1,初始化待处理样本集E=D;
步骤2)将E随机分成numCross个大小一致的子集初始化参数i=1;
步骤3)用集合中样本做训练数据,选择numClassifier个不同的分类算法,训练numClassifier个不同的分类器H1,H2,...,HnumClassifier
步骤4)用H1,H2,...,HnumClassifier对样本集中样本分类,统计每一个样本被错误分类的次数numWrong,如果numWrong大于或等于指定阈值numPass,则该次投票将该样本列为可疑噪声;
步骤5)迭代执行步骤2)至4),每次迭代后i值加1,直到i值等于numCross,停止迭代,生成可疑噪声集合;
步骤6)迭代执行步骤2)至5),每次迭代后t值加1,直到t=numVote为止,生成numVote个可疑噪声集合;
步骤7)综合分析numVote个可疑噪声集合,如果一个样本在numVote个集合中出现的次数numExist大于或等于指定阈值numFinalPass,则根据多次投票结果,认定该样本是噪声,设基于第m次迭代,产生的噪声集合为
步骤8)迭代执行步骤2)至7),每次迭代后,m值加1,直到或m=maxIter为止;
步骤9)返回E值,E为删除噪声后的纯净样本集,算法结束。
进一步,所述步骤3)中,numClassifier选定为奇数,选择奇数有利于投票表决的实现。分类算法为k紧邻,决策树,贝叶斯,神经网络,支撑向量机中的一个或多个。且numClassifier的选定受数据集影响。小样本数据集时,为保证多分类器之间差异性,应采取较大numClassifier值。在样本集标签噪声较高时,也应采取较大numClassifier值。较大numClassifier即可以保证每次迭代的高标签噪声识别率,又有助于减少迭代次数,提高算法效率。另一方面,在样本集数目较大且样本标签噪声比较低时,可以选择较小numClassifier。如可设置numClassifier=3。
另一种改进,所述步骤4)中,所述numPass值选定为numClassifier/2或numClassifier。numPass值设置的越大,检测越严格。相应的,检测越严格,把好数据当作噪声的可能性越小,把标签噪声当作好数据的可能性越大。
另一种改进,所述步骤7)中numFinalPass值即可选定一些常规值,如numVote/2或numVote。也可以通过独立的校验样本,计算优化的numFinalPass数值。具体步骤包括:a)根据先验知识估计待处理噪声数据的噪声比,b)在校验样本中加入随机噪声,c)遍历所有可能numFinalPass数值并计算该数值下本算法对校验样本中噪声的识别准确度,d)选择具有最高识别准确度的numFinalPass。numVote值设置的越大,检测越严格,相应的,把好数据当作噪声的可能性越小,把标签噪声当作好数据的可能性越大。此处numFinalPass值应和numPass呼应,如果numPass过小,则numFinalPass应加大,以免过多好样本被当作噪声,同理,如果numPass值过大,则numFinalPass应减小,以免过多噪声样本被当作好样本。
本发明的有益效果是:本发明的基于多次投票的迭代式标签噪声识别算法采用多次投票方式进行噪声识别,每次投票前,随机打乱样本顺序,因此保证了投票的差异性,同传统的单次投票方式相比,多次投票方法更具灵活性和准确性,单次投票策略往往是过送或者过紧,而多次投票可以在另一个层面对单次投票结果做汇总,因此能够满足不同类型数据和噪声比的要求。此外,识别算法中还采用了迭代式的识别方法,每次迭代时输入的待检测样本,为上次迭代时过滤掉噪声而输出的纯净样本,能够更全面彻底的识别出所有噪声数据。本发明的识别算法解决了现有标签噪声识别算法识别准确率不高的问题,保证了噪声识别的高准确度。
附图说明
图1为本发明基于多次投票的迭代式标签噪声识别算的流程图。
具体实施方式
下面结合附图,对本发明提出的一种基于多次投票的迭代式标签噪声识别算法进行详细说明。
如图1所示,本发明的基于多次投票的迭代式标签噪声识别算法,包括以下步骤:
步骤1)确定算法输入变量,包括待处理样本集D,最大迭代次数maxIter,多次投票次数numVote,最终噪声识别所需最小投票次数numFinalPass,随机分块数numCross,单次投票分类器次数numClassifier,单次噪声识别所需最小投票次数numPass,初始化多次投票迭代次数t=1,***迭代次数m=1,初始化待处理样本集E=D;
步骤2)将E随机分成numCross个大小一致的子集初始化参数i=1;
步骤3)用集合中样本做训练数据,选择numClassifier个不同的分类算法,训练numClassifier个不同的分类器H1,H2,...,HnumClassifier;numClassifier选定为奇数,比如3、5、7等等,当然,不局限于所列举的这些奇数;分类算法为k紧邻,决策树,贝叶斯,神经网络,支撑向量机中的一个或多个。
步骤4)用H1,H2,...,HnumClassifier对样本集中样本分类,统计每一个样本被错误分类的次数numWrong,如果numWrong大于或等于指定阈值numPass,则该次投票将该样本列为可疑噪声。numPass值设置的越大,检测越严格,相应的,把好数据当作噪声的可能性越小,把标签噪声当作好数据的可能性越大。因此,numPass值优选为numClassifier/2或numClassifier,此为优选举例,其他合适的数值均可作为一种选择。
步骤5)迭代执行步骤2)至4),每次迭代后i值加1,直到i值等于numCross,停止迭代,生成可疑噪声集合;
步骤6)迭代执行步骤2)至5),每次迭代后t值加1,直到t=numVote为止,生成numVote个可疑噪声集合;
步骤7)综合分析numVote个可疑噪声集合,如果一个样本在numVote个集合中出现的次数numExist大于或等于指定阈值numFinalPass,则根据多次投票结果,认定该样本是噪声,设基于第m次迭代,产生的噪声集合为nalPass值优选为为numVote/2或numVote,numVote值设置的越大,检测越严格,相应的,把好数据当作噪声的可能性越小,把标签噪声当作好数据的可能性越大。此处numFinalPass值应和numPass呼应,如果numPass过小,则numFinalPass应加大,以免过多好样本被当作噪声,同理,如果numPass值过大,则numFinalPass应减小,以免过多噪声样本被当作好样本。
步骤8)迭代执行步骤2)至7),每次迭代后,m值加1,直到或m=maxIter为止;
步骤9)返回E值,E为删除噪声后的纯净样本集,算法结束。
以下详细地描述本发明对UCI数据库中2组数据的测试结果以及同其他标签噪声识别方法相比性能的改进。本文提出的识别与目前最为流行的MajorityFiltering和ConsensusFiltering进行了比较。因为原始UCI数据库中数据不存在标签噪声,本实施例中,人为加入噪声,考虑不同的噪声比,包括10%,20%,30%,40%。本实例中,标签噪声检测算法性能用误标记错误数衡量。该错误数包括两部分,一部分是噪声数据错误的诊断为好数据,用E1表示,另一部分是好数据错误的诊断为噪声数据,用E2表示。E1+E2值越小,表明算法准确率越高。
表1-数据集
数据集 样本数 特征数
breast 699 9
wdbc 569 31
中参数设置如下:numCross=3,numClassifier=3(三种分类算法包括朴素贝叶斯,决策树和最近邻),maxIter=100,numVote=5;numPass和numFinalPass有两种组合一种是numPass=2,numFinalPass=5(称作IMFCF算法),另一种组合是numPass=3,numFinalPass=3(称作ICFMF算法)。
表2-breast数据集,10%噪声比下结果
表3-breast数据集,20%噪声比下结果
表4-breast数据集,30%噪声比下结果
表5-breast数据集,40%噪声比下结果
表6-wdbc数据集,10%噪声比下结果
表7-wdbc数据集,20%噪声比下结果
表8-wdbc数据集,30%噪声比下结果
表9-wdbc数据集,40%噪声比下结果
以上表2-9中显示,在实验用的两个数据上,基于不同的噪声比,本发明提出的算法稳定的优于传统的两种算法。
综上所述,以上实施例仅用以说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种基于多次投票的迭代式标签噪声识别算法,其特征在于,包括以下步骤:
步骤1)确定算法输入变量,包括待处理样本集D,最大迭代次数maxIter,多次投票次数numVote,最终噪声识别所需最小投票次数numFinalPass,随机分块数numCross,单次投票分类器次数numClassifier,单次噪声识别所需最小投票次数numPass,初始化多次投票迭代次数t=1,***迭代次数m=1,初始化待处理样本集E=D;
步骤2)将E随机分成numCross个大小一致的子集 初始化参数i=1;
步骤3)用集合中样本做训练数据,选择numClassifier个不同的分类算法,训练numClassifier个不同的分类器H1,H2,...,HnumClassifier
步骤4)用H1,H2,...,HnumClassifier对样本集中样本分类,统计每一个样本被错误分类的次数numWrong,如果numWrong大于或等于指定阈值numPass,则该次投票将该样本列为可疑噪声;
步骤5)迭代执行步骤2)至4),每次迭代后i值加1,直到i值等于numCross,停止迭代,生成可疑噪声集合;
步骤6)迭代执行步骤2)至5),每次迭代后t值加1,直到t=numVote为止,生成numVote个可疑噪声集合;
步骤7)综合分析numVote个可疑噪声集合,如果一个样本在numVote个集合中出现的次数numExist大于或等于指定阈值numFinalPass,则根据多次投票结果,认定该样本是噪声,设基于第m次迭代,产生的噪声集合为
步骤8)迭代执行步骤2)至7),每次迭代后,m值加1,直到或m=maxIter为止;
步骤9)返回E值,E为删除噪声后的纯净样本集,算法结束。
2.根据权利要求1所述的基于多次投票的迭代式标签噪声识别算法,其特征在于:所述步骤3)中,numClassifier选定为奇数。
3.根据权利要求2所述的基于多次投票的迭代式标签噪声识别算法,其特征在于:设置所述numClassifier=3。
4.根据权利要求1所述的基于多次投票的迭代式标签噪声识别算法,其特征在于:所述步骤4)中,所述numPass值选定为numClassifier/2或numClassifier。
5.根据权利要求1所述的基于多次投票的迭代式标签噪声识别算法,其特征在于:所述步骤7)中numFinalPass值选定numVote/2或numVote。
6.根据权利要求1所述的基于多次投票的迭代式标签噪声识别算法,其特征在于:所述步骤7)中numFinalPass值通过独立的校验样本,计算优化;具体步骤包括:a)根据先验知识估计待处理噪声数据的噪声比,b)在校验样本中加入随机噪声,c)遍历所有可能numFinalPass数值并计算该数值下本算法对校验样本中噪声的识别准确度,d)选择具有最高识别准确度的numFinalPass。
CN201510490699.9A 2015-08-11 2015-08-11 一种基于多次投票的迭代式标签噪声识别算法 Pending CN105046236A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510490699.9A CN105046236A (zh) 2015-08-11 2015-08-11 一种基于多次投票的迭代式标签噪声识别算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510490699.9A CN105046236A (zh) 2015-08-11 2015-08-11 一种基于多次投票的迭代式标签噪声识别算法

Publications (1)

Publication Number Publication Date
CN105046236A true CN105046236A (zh) 2015-11-11

Family

ID=54452765

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510490699.9A Pending CN105046236A (zh) 2015-08-11 2015-08-11 一种基于多次投票的迭代式标签噪声识别算法

Country Status (1)

Country Link
CN (1) CN105046236A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292330A (zh) * 2017-05-02 2017-10-24 南京航空航天大学 一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法
CN108509969A (zh) * 2017-09-06 2018-09-07 腾讯科技(深圳)有限公司 数据标注方法及终端
CN110060247A (zh) * 2019-04-18 2019-07-26 深圳市深视创新科技有限公司 应对样本标注错误的鲁棒深度神经网络学习方法
CN110163376A (zh) * 2018-06-04 2019-08-23 腾讯科技(深圳)有限公司 样本检测方法、媒体对象的识别方法、装置、终端及介质
CN111352966A (zh) * 2020-02-24 2020-06-30 交通运输部水运科学研究所 一种自主航行中的数据标签标定方法
CN112562730A (zh) * 2020-11-24 2021-03-26 北京华捷艾米科技有限公司 一种声源分析方法及***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040083270A1 (en) * 2002-10-23 2004-04-29 David Heckerman Method and system for identifying junk e-mail
CN101330476A (zh) * 2008-07-02 2008-12-24 北京大学 一种垃圾邮件动态检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040083270A1 (en) * 2002-10-23 2004-04-29 David Heckerman Method and system for identifying junk e-mail
CN101330476A (zh) * 2008-07-02 2008-12-24 北京大学 一种垃圾邮件动态检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DONGHAI GUAN等: "Class Noise Detection by Multiple Voting", 《2013 NINTH INTERNATIONAL CONFERENCE ON NATURAL COMPUTATION》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292330A (zh) * 2017-05-02 2017-10-24 南京航空航天大学 一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法
CN107292330B (zh) * 2017-05-02 2021-08-06 南京航空航天大学 一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法
CN108509969A (zh) * 2017-09-06 2018-09-07 腾讯科技(深圳)有限公司 数据标注方法及终端
CN110163376A (zh) * 2018-06-04 2019-08-23 腾讯科技(深圳)有限公司 样本检测方法、媒体对象的识别方法、装置、终端及介质
CN110163376B (zh) * 2018-06-04 2023-11-03 腾讯科技(深圳)有限公司 样本检测方法、媒体对象的识别方法、装置、终端及介质
CN110060247A (zh) * 2019-04-18 2019-07-26 深圳市深视创新科技有限公司 应对样本标注错误的鲁棒深度神经网络学习方法
CN111352966A (zh) * 2020-02-24 2020-06-30 交通运输部水运科学研究所 一种自主航行中的数据标签标定方法
CN112562730A (zh) * 2020-11-24 2021-03-26 北京华捷艾米科技有限公司 一种声源分析方法及***

Similar Documents

Publication Publication Date Title
CN105046236A (zh) 一种基于多次投票的迭代式标签噪声识别算法
CN107292330B (zh) 一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法
Chung et al. Slice finder: Automated data slicing for model validation
CN110163258A (zh) 一种基于语义属性注意力重分配机制的零样本学习方法及***
CN102346829A (zh) 基于集成分类的病毒检测方法
CN110969166A (zh) 一种巡检场景下小目标识别方法和***
CN102324046A (zh) 结合主动学习的四分类器协同训练方法
CN105389583A (zh) 图像分类器的生成方法、图像分类方法和装置
CN107830996B (zh) 一种飞行器舵面***故障诊断方法
CN106203377A (zh) 一种煤粉尘图像识别方法
CN117033912B (zh) 一种设备故障预测方法、装置、可读存储介质及电子设备
CN103020643A (zh) 基于提取核特征早期预测多变量时间序列类别的分类方法
CN106991355A (zh) 基于拓扑保持的解析型字典学习模型的人脸识别方法
CN104657574A (zh) 一种医疗诊断模型的建立方法及装置
CN109255029A (zh) 一种采用加权优化训练集增强自动Bug报告分配的方法
CN108416373A (zh) 一种基于正则化Fisher阈值选择策略的不平衡数据分类***
CN112307860A (zh) 图像识别模型训练方法和装置、图像识别方法和装置
CN104615789A (zh) 一种数据分类方法及装置
CN106951728B (zh) 一种基于粒子群优化和打分准则的肿瘤关键基因识别方法
CN114254146A (zh) 图像数据的分类方法、装置和***
CN102945238A (zh) 一种基于模糊isodata的特征选取方法
CN111209939A (zh) 一种具有智能参数优化模块的svm分类预测方法
CN106682691A (zh) 基于图像的目标检测方法及装置
CN117197591B (zh) 一种基于机器学习的数据分类方法
CN115277124B (zh) 基于***溯源图搜索匹配攻击模式的在线***及服务器

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20151111

WD01 Invention patent application deemed withdrawn after publication