CN105046236A

CN105046236A - 一种基于多次投票的迭代式标签噪声识别算法

Info

Publication number: CN105046236A
Application number: CN201510490699.9A
Authority: CN
Inventors: 关东海; 袁伟伟; 李博涵
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2015-08-11
Filing date: 2015-08-11
Publication date: 2015-11-11

Abstract

本发明公开的一种基于多次投票的迭代式标签噪声识别算法，属于机器学习和数据挖掘领域。本发明的识别算法基于集成学习思想，采取了多次投票方法，噪声由多个分类器投票而判定，每次投票前随机打乱待检测样本的顺序，因此每次投票都会产生一组可能存在差异性的噪声识别结果，最后综合多次投票产生的多组结果，产生最终噪声识别结果。本发明的识别算法还采取了迭代方式，每次迭代时输入的待检测样本，为上次迭代时过滤掉噪声后的剩余样本。同传统的单次投票方式相比，多次投票方法更具灵活性和准确性，可以在另一个层面对单次投票结果做汇总，能够满足不同类型数据和噪声比的要求。此外，迭代式的识别方法能够更全面彻底的识别出所有噪声数据。

Description

一种基于多次投票的迭代式标签噪声识别算法

技术领域

本发明涉及数据挖掘和机器学习技术领域，具体是基于多次投票的迭代式标签噪声识别算法。

背景技术

机器学习在实际应用当中使用的很多训练数据都是带有噪声的，其中导致的原因包括人为的错误，硬件设备的错误，数据收集过程的错误等。传统的做法就是在应用那些机器学习算法前，通过人工对源数据进行数据预处理工作，获得纯净源数据，然而，这些人工的工作费力、繁琐、耗时，而且不能保证数据的完全正确性，这对后续的算法应用造成了不可忽视的影响。数据噪声通常包括两类：属性噪声和类别噪声，属性噪声指的是样本属性值不准确，类别噪声指的是样本的标签不准确[1]。相比于属性噪声，类别噪声的影响更大。

对类别噪声的处理方法包括：设计健壮的算法[2,3]以及噪声检测算法[4,5,6,7]。设计健壮的算法主要是改进已有算法，使已有算法受类别噪声的影响更小。而噪声检测算法是在使用包含噪声的数据之前检测并删除噪声。相比之下，类噪声检测算法的效果和通用性更强。

已有类噪声检测算法主要包含两类：基于k近邻[4]和基于集成学习[5,6,7]。基于k近邻的基本思想是比较一个样本和其邻居样本的类别标签，如果这些标签明显不一致，则认为该样本标签为噪声。这种方法受k近邻算法的局限性影响，并不是所有的数据分布都适合基于k紧邻的方法。相比之下，基于集成学习的算法使用更广泛。这一类算法的代表是大多数过滤和一致性过滤[7]。在这些算法中，训练数据首先被随机的分成多个子集，然后每个子集会被单独的进行噪声检测。检测的基本思想是通过以剩余子集为训练样本获得的多个分类器的投票。这类算法主要包括两个步骤：样本划分和多分类器投票。因为样本划分和多分类器投票只执行一次，因此属于基于单次投票的标签噪声检测方法。

已有的基于单次投票的标签噪声检测方法存在两个不足：单次投票的结果受样本划分的影响较大，并且遗漏噪声的可能性较大。

参考文献：

[1]Zhu,Xingquan,andXindongWu."Classnoisevs.attributenoise:Aquantitativestudy."ArtificialIntelligenceReview22.3(2004):177-210.

[2]J.Bootkrajang,A.Kaban,Classificationofmislabelledmicroarraysusingrobustsparselogisticregression,Bioinformatics29(7)(2013)870–877.

[3]J.Saez,M.Galar,J.Luengo,F.Herrera,Afirststudyondecompositionstrategieswithdatawithclassnoiseusingdecisiontrees,in:HybridArtificialIntelligentSystems,LectureNotesinComputerScience,vol.7209,2012,pp.25–35.

[4]D.L.Wilson,Asymptoticpropertiesofnearestneighborrulesusingediteddata,IEEETrans.Syst.ManCybernet.2(3)(1992)431–433.

[5]J.Young,J.Ashburner,S.Ourselin,Wrappermethodstocorrectmislabeledtrainingdata,in:3rdInternationalWorkshoponPatternRecognitioninNeuroimaging,2013,pp.170–173.

[6]D.Guan,W.Yuan,etal.,Identifyingmislabeledtrainingdatawiththeaidofunlabeleddata,Appl.Intell.35(3)(2011)345–358.

[7]C.E.Brodley,M.A.Friedl,Identifyingmislabeledtrainingdata,J.Artif.Intell.Res.11(1999)131–167.

发明内容

本发明要解决的问题是提供是一种基于多次投票的迭代式标签噪声识别算法，该算法该方法采用多次投票的方式，在多次投票和单次投票环节可以根据实际数据集情况设置相应的参数和策略，避免了单次投票的结果受样本划分的影响较大的问题，可以有效提高识别的准确率，用迭代的方式，能更加彻底的发现噪声数据。

如本发明公开的基于多次投票的迭代式标签噪声识别算法，包括以下步骤：

步骤1)确定算法输入变量，包括待处理样本集D，最大迭代次数maxIter，多次投票次数numVote,最终噪声识别所需最小投票次数numFinalPass，随机分块数numCross，单次投票分类器次数numClassifier，单次噪声识别所需最小投票次数numPass，初始化多次投票迭代次数t＝1，***迭代次数m＝1,初始化待处理样本集E＝D；

步骤2)将E随机分成numCross个大小一致的子集初始化参数i＝1；

步骤3)用集合中样本做训练数据，选择numClassifier个不同的分类算法，训练numClassifier个不同的分类器H₁,H₂,...,H_{numClassifier}；

步骤4)用H₁,H₂,...,H_{numClassifier}对样本集中样本分类，统计每一个样本被错误分类的次数numWrong，如果numWrong大于或等于指定阈值numPass，则该次投票将该样本列为可疑噪声；

步骤5)迭代执行步骤2)至4)，每次迭代后i值加1，直到i值等于numCross,停止迭代，生成可疑噪声集合；

步骤6)迭代执行步骤2)至5)，每次迭代后t值加1，直到t＝numVote为止，生成numVote个可疑噪声集合；

步骤7)综合分析numVote个可疑噪声集合，如果一个样本在numVote个集合中出现的次数numExist大于或等于指定阈值numFinalPass，则根据多次投票结果，认定该样本是噪声，设基于第m次迭代，产生的噪声集合为

步骤8)迭代执行步骤2)至7)，每次迭代后，m值加1，直到或m＝maxIter为止；

步骤9)返回E值，E为删除噪声后的纯净样本集，算法结束。

进一步，所述步骤3)中，numClassifier选定为奇数，选择奇数有利于投票表决的实现。分类算法为k紧邻，决策树，贝叶斯，神经网络，支撑向量机中的一个或多个。且numClassifier的选定受数据集影响。小样本数据集时，为保证多分类器之间差异性，应采取较大numClassifier值。在样本集标签噪声较高时，也应采取较大numClassifier值。较大numClassifier即可以保证每次迭代的高标签噪声识别率，又有助于减少迭代次数，提高算法效率。另一方面，在样本集数目较大且样本标签噪声比较低时，可以选择较小numClassifier。如可设置numClassifier＝3。

另一种改进，所述步骤4)中，所述numPass值选定为numClassifier/2或numClassifier。numPass值设置的越大，检测越严格。相应的，检测越严格，把好数据当作噪声的可能性越小，把标签噪声当作好数据的可能性越大。

另一种改进，所述步骤7)中numFinalPass值即可选定一些常规值，如numVote/2或numVote。也可以通过独立的校验样本，计算优化的numFinalPass数值。具体步骤包括：a)根据先验知识估计待处理噪声数据的噪声比，b)在校验样本中加入随机噪声，c)遍历所有可能numFinalPass数值并计算该数值下本算法对校验样本中噪声的识别准确度，d)选择具有最高识别准确度的numFinalPass。numVote值设置的越大，检测越严格，相应的，把好数据当作噪声的可能性越小，把标签噪声当作好数据的可能性越大。此处numFinalPass值应和numPass呼应，如果numPass过小，则numFinalPass应加大，以免过多好样本被当作噪声，同理，如果numPass值过大，则numFinalPass应减小，以免过多噪声样本被当作好样本。

本发明的有益效果是：本发明的基于多次投票的迭代式标签噪声识别算法采用多次投票方式进行噪声识别，每次投票前，随机打乱样本顺序，因此保证了投票的差异性，同传统的单次投票方式相比，多次投票方法更具灵活性和准确性，单次投票策略往往是过送或者过紧，而多次投票可以在另一个层面对单次投票结果做汇总，因此能够满足不同类型数据和噪声比的要求。此外，识别算法中还采用了迭代式的识别方法，每次迭代时输入的待检测样本，为上次迭代时过滤掉噪声而输出的纯净样本，能够更全面彻底的识别出所有噪声数据。本发明的识别算法解决了现有标签噪声识别算法识别准确率不高的问题，保证了噪声识别的高准确度。

附图说明

图1为本发明基于多次投票的迭代式标签噪声识别算的流程图。

具体实施方式

下面结合附图，对本发明提出的一种基于多次投票的迭代式标签噪声识别算法进行详细说明。

如图1所示，本发明的基于多次投票的迭代式标签噪声识别算法，包括以下步骤：

步骤2)将E随机分成numCross个大小一致的子集初始化参数i＝1；

步骤3)用集合中样本做训练数据，选择numClassifier个不同的分类算法，训练numClassifier个不同的分类器H₁,H₂,...,H_{numClassifier}；numClassifier选定为奇数，比如3、5、7等等，当然，不局限于所列举的这些奇数；分类算法为k紧邻，决策树，贝叶斯，神经网络，支撑向量机中的一个或多个。

步骤4)用H₁,H₂,...,H_{numClassifier}对样本集中样本分类，统计每一个样本被错误分类的次数numWrong，如果numWrong大于或等于指定阈值numPass，则该次投票将该样本列为可疑噪声。numPass值设置的越大，检测越严格，相应的，把好数据当作噪声的可能性越小，把标签噪声当作好数据的可能性越大。因此，numPass值优选为numClassifier/2或numClassifier，此为优选举例，其他合适的数值均可作为一种选择。

步骤7)综合分析numVote个可疑噪声集合，如果一个样本在numVote个集合中出现的次数numExist大于或等于指定阈值numFinalPass，则根据多次投票结果，认定该样本是噪声，设基于第m次迭代，产生的噪声集合为nalPass值优选为为numVote/2或numVote，numVote值设置的越大，检测越严格，相应的，把好数据当作噪声的可能性越小，把标签噪声当作好数据的可能性越大。此处numFinalPass值应和numPass呼应，如果numPass过小，则numFinalPass应加大，以免过多好样本被当作噪声，同理，如果numPass值过大，则numFinalPass应减小，以免过多噪声样本被当作好样本。

步骤9)返回E值，E为删除噪声后的纯净样本集，算法结束。

以下详细地描述本发明对UCI数据库中2组数据的测试结果以及同其他标签噪声识别方法相比性能的改进。本文提出的识别与目前最为流行的MajorityFiltering和ConsensusFiltering进行了比较。因为原始UCI数据库中数据不存在标签噪声，本实施例中，人为加入噪声，考虑不同的噪声比，包括10％，20％，30％，40％。本实例中，标签噪声检测算法性能用误标记错误数衡量。该错误数包括两部分，一部分是噪声数据错误的诊断为好数据，用E1表示，另一部分是好数据错误的诊断为噪声数据，用E2表示。E1+E2值越小，表明算法准确率越高。

表1-数据集

数据集	样本数	特征数
			breast	699	9
wdbc	569	31

中参数设置如下：numCross＝3，numClassifier＝3(三种分类算法包括朴素贝叶斯，决策树和最近邻)，maxIter＝100，numVote＝5；numPass和numFinalPass有两种组合一种是numPass＝2，numFinalPass＝5(称作IMFCF算法)，另一种组合是numPass＝3，numFinalPass＝3(称作ICFMF算法)。

表2-breast数据集，10％噪声比下结果

表3-breast数据集，20％噪声比下结果

表4-breast数据集，30％噪声比下结果

表5-breast数据集，40％噪声比下结果

表6-wdbc数据集，10％噪声比下结果

表7-wdbc数据集，20％噪声比下结果

表8-wdbc数据集，30％噪声比下结果

表9-wdbc数据集，40％噪声比下结果

以上表2-9中显示，在实验用的两个数据上，基于不同的噪声比，本发明提出的算法稳定的优于传统的两种算法。

综上所述，以上实施例仅用以说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于多次投票的迭代式标签噪声识别算法，其特征在于，包括以下步骤：

步骤2)将E随机分成numCross个大小一致的子集初始化参数i＝1；

步骤9)返回E值，E为删除噪声后的纯净样本集，算法结束。

2.根据权利要求1所述的基于多次投票的迭代式标签噪声识别算法，其特征在于：所述步骤3)中，numClassifier选定为奇数。

3.根据权利要求2所述的基于多次投票的迭代式标签噪声识别算法，其特征在于：设置所述numClassifier＝3。

4.根据权利要求1所述的基于多次投票的迭代式标签噪声识别算法，其特征在于：所述步骤4)中，所述numPass值选定为numClassifier/2或numClassifier。

5.根据权利要求1所述的基于多次投票的迭代式标签噪声识别算法，其特征在于：所述步骤7)中numFinalPass值选定numVote/2或numVote。

6.根据权利要求1所述的基于多次投票的迭代式标签噪声识别算法，其特征在于：所述步骤7)中numFinalPass值通过独立的校验样本，计算优化；具体步骤包括：a)根据先验知识估计待处理噪声数据的噪声比，b)在校验样本中加入随机噪声，c)遍历所有可能numFinalPass数值并计算该数值下本算法对校验样本中噪声的识别准确度，d)选择具有最高识别准确度的numFinalPass。