CN107292330B

CN107292330B - 一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法

Info

Publication number: CN107292330B
Application number: CN201710315861.2A
Authority: CN
Inventors: 关东海; 魏红强; 袁伟伟
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2017-05-02
Filing date: 2017-05-02
Publication date: 2021-08-06
Anticipated expiration: 2037-05-02
Also published as: CN107292330A

Abstract

本发明公开的一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法，属于机器学习和数据挖掘领域。本发明将监督和半监督学习结合起来，对于监督学习部分，通过软多重投票方式，产生监督学习噪声识别结果；对于半监督学习部分，基于监督学习产生的纯净数据训练的分类模型，对无标签数据集进行标记，标记后的无标签数据作为训练集，用加权KNN方法对标签数据集进行检测产生噪声识别结果；最终将噪声识别结果结合起来产生最终识别结果。本发明算法还采取迭代方式，每次迭代输入的待测样本为上次迭代时过滤掉噪声后的剩余样本。同传统噪声识别算法比，该发明结合了更多互补信息，同时辅以迭代方式，能更好促进噪声识别准确性。

Description

一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法

技术领域

本发明涉及数据挖掘和机器学习技术领域，具体是基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法。

背景技术

机器学习在实际应用当中使用的很多训练数据都是带有噪声的，其中导致的原因包括人为的错误，硬件设备的错误，数据收集过程的错误等。传统的做法就是在应用那些机器学习算法前，通过人工对源数据进行数据预处理工作，获得纯净源数据，然而，这些人工的工作费力、繁琐、耗时，而且不能保证数据的完全正确性，这对后续的算法应用造成了不可忽视的影响。数据噪声通常包括两类：属性噪声和类别噪声，属性噪声指的是样本属性值不准确，类别噪声指的是样本的标签不准确[1]。相比于属性噪声，类别噪声的影响更大。

对类别噪声的处理方法包括：设计健壮的算法[2，3]以及噪声检测算法[4，5，6，7]。设计健壮的算法主要是改进已有算法，使已有算法受类别噪声的影响更小。而噪声检测算法是在使用包含噪声的数据之前检测并删除噪声。相比之下，类噪声检测算法的效果和通用性更强。

已有的类噪声检测算法主要包含两类：基于监督学习和基于半监督学习。其中基于监督学习的代表是基于集成学习的算法，这一类算法的代表是大多数过滤和一致性过滤[7]。在这些算法中，训练数据首先被随机的分成多个子集，然后每个子集会被单独的进行噪声检测。检测的基本思想是通过以剩余子集为训练样本获得的多个分类器的投票。这类算法主要包括两个步骤：样本划分和多分类器投票。因为样本划分和多分类器投票只执行一次，因此属于基于单次投票的标签噪声检测方法。已有的基于单次投票的标签噪声检测方法存在两个不足：单次投票的结果受样本划分的影响较大，并且遗漏噪声的可能性较大。虽然后来对于这些不足有了新的改进算法(多重投票的类噪声检测方法[8])，但还是会有一部分噪声被遗漏。基于半监督学习的算法[6]，这一类算法的思想是通过已知的有标签的数据，训练出一个分类模型，对无标签数据进行标记，标记后的数据加到已有的有标签数据集中壮大训练集，从而可以从一个更大的训练集中训练出更好地分类模型来更好地检测标签噪声。

对于监督学习来说，它没有做到利用和发掘无标签数据中隐藏的信息，一楼噪声的可能性较大；而对于半监督学习来说，由于原始的有标签数据集存在噪声，对于无标签数据的标记，也会产生噪声，如果原始的有标签数据集噪声比较大，那最终会得到一个非常糟糕的分类模型。

参考文献：

[1]Zhu，Xingquan，and Xindong Wu.″Class noise vs.attribute noise：Aquantitative study.″Artificial Intelligence Review 22.3(2004)：177-210.

[2]J.Bootkrajang，A.Kaban，Classification of mislabelled microarraysusing robust sparse logistic regression，Bioinformatics 29(7)(2013)870-877.

[3]J.Saez，M.Galar，J.Luengo，F.Herrera，A first study on decompositionstrategies with data with class noise using decision trees，in：HybridArtificial Intelligent Systems，Lecture Notes in Computer Science，vol.7209，2012，pp.25-35.

[4]D.L.Wilson，Asymptotic properties of nearest neighbor rules usingedited data，IEEE Trans.Syst.Man Cybernet.2(3)(1992)431-433.

[5]J.Young，J.Ashburner，S.Ourselin，Wrapper methods to correctmislabeled training data，in：3rd International Workshop on Pattern Recognitionin Neuroimaging，2013，pp.170-173.

[6]D.Guan，W.Yuan，et al.，Identifying mislabeled training data with theaid of unlabeled data，Appl.Intell.35(3)(2011)345-358.

[7]C.E.Brodley，M.A.Friedl，Identifying mislabeled training data，J.Artif.Intell.Res.11(1999)131-167.

[8]Guan D，Yuan W，Ma T，et al.Detecting potential labeling errors forbioinformatics by multiple voting[J].Knowledge-Based Systems，2014，66(9)：28-35.

发明内容

本发明要解决的问题是提供一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法，该算法采用监督学习和半监督学习双重信息的方式，可以根据实际情况设置相应的参数和策略，避免了监督学习和半监督学习这两种单重信息检测噪声存在的问题，可以有效地提高识别的准确率，通过迭代的方式，能更加彻底的发现噪声数据。

如本发明公开的基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法，包括以下步骤：

步骤1)确定算法输入变量，包括待处理样本集L和无标签样本集U，最大迭代次数maxIter，多次投票次数numVote，噪声识别判定投票信任度numFinalConfodence，随机分块数numCross，分类器个数numClassifier，噪声识别投票信任度numConfidence，判别噪声的信任度阈值ConfidenceThreshold，初始化多次投票次数t＝1，迭代次数m＝1，初始化待处理样本集E＝L；

步骤2)将E随机分成numCross个大小一致的子集

初始化参数i＝1；

步骤3)用

集合中样本做训练数据，选择numClassifier个不同的分类算法，训练numClassifier个不同的分类器H₁，H₂，…，H_{numClassifier}；

步骤4)用H₁，H₂，…，H_{numClassifier}对样本集

中样本分类，分别计算每个样本的numConfidence，并将计算结果存入一张表中；

步骤5)迭代执行步骤2)至4)，每次迭代后i值加1，直到i值等于numCross，停止迭代，计算出这一次投票完成后所有的样本的numConfidence并存入一张表中；

步骤6)迭代执行步骤2)至5)，每次迭代后t值加1，直到t＝num Vote为止，生成numVote个表；

步骤7)综合分析num Vote个表，对每个样本的numConfidence进行统计，获得每个样本e的numFinalConfidence(e)，并存入一张表格中。初始化一个En，将numFinalConfidence(e)小于预定的ConfidenceThreshold的样本视为可疑样本存入En；

步骤8)将E’＝E-En作为训练集，基于numclassifier个分类算法，生成numclassifier个分类器，用这些分类器对无标签样本集U进行标记，得到一个样本集；

步骤9)将数据集E作为测试集，作为训练集，通过加权KNN算法，计算出每个样本的numFinalConfidence(e)’，并存入命名为numConfidence的表格中；

步骤10)将表格和numConfidence的表格中的相同样例的数值，进行相加求平均值，得到最终的Confidence表格，对于数值小于指定阈值ConfidenceThreshold的样本，被视为噪声。设检测到的噪声为

则

步骤11)

迭代执行步骤2)至10)，每次迭代后，m值加1，直到

或m＝maxIter为止；

步骤12)返回E值，E为删除噪声后的纯净样本集，算法结束。

进一步，所述步骤3)中，numClassifier选定为奇数，选择奇数有利于投票表决的实现。分类算法为k紧邻，决策树，贝叶斯，神经网络，支撑向量机中的一个或多个。且numClassifier的选定受数据集影响。小样本数据集时，为保证多分类器之间差异性，应采取较大numClassifier值。在样本集标签噪声较高时，也应采取较大numClassifier值。较大numClassifier即可以保证每次迭代的高标签噪声识别率，又有助于减少迭代次数，提高算法效率。另一方面，在样本集数目较大且样本标签噪声比较低时，可以选择较小numClassifier。如可设置numClassifier＝3。

另一种改进，所述步骤7)中，所述阈值ConfidenceThreshold值设置的越大，对于监督学习部分得到的疑似噪声集合En就越大，那样得到的E’＝E-En用于标记无标签数据集U的训练数据也就越纯净，得到的标记的准确性也就越高，对于用来作为训练数据，来检测E中的噪声数据准确性也就越高。但是ConfidenceThreshold的数值也不宜太大，太大的话会使得E中的一些标签准确的数据也被视为噪声数据，使得E’数据集很小，不能很好的训练分类模型用来标记无标签数据集U。

另一种改进，所述步骤7)中阈值ConfidenceThreshold值可选定一些常规值，如ConfidenceThreshold＝0.1，0.2，0.3或0.4。也可以通过独立的校验样本，计算优化的阈值ConfidenceThreshold数值。具体步骤包括：a)根据先验知识估计待处理噪声数据的噪声比，b)在校验样本中加入随机噪声，c)遍历可能的阈值ConfidenceThreshold数值并计算该数值下本算法对校验样本中噪声的识别准确度，d)选择具有最高识别准确度的阈值ConfidenceThreshold。

本发明的有益效果是：本发明的基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法，采用监督学习和半监督学习相结合的双重信息模式，不再是只是单重的信息对数据进行检测，而是监督学习对数据做出一个判断，然后与此同时半监督学习方法也做出一个判断，最终将2重判断结果结合在一起得出最终的分类结果。对于监督学习部分，采用多次投票方式进行噪声识别，每次投票前，随机打乱样本顺序，因此保证了投票的差异性，同传统的单次投票方式相比，多次投票方法更具灵活性和准确性，单次投票策略往往是过送或者过紧，而多次投票可以在另一个层面对单次投票结果做汇总，因此能够满足不同类型数据和噪声比的要求。在监督学习部分得出的可疑噪声集En后，通过E’＝E-En过滤的方式先过滤掉一部分可疑数据，再将E’作为无标签数据集U的训练集，训练分类模型对U进行标记，标记后的数据集作为训练集，运用带权KNN的分类算法，对E中的数据进行测试，得出E中的每个数据的numFinalConfidence(e)’，最后通过numFinalConfidence(e)和numFinalConfidence(e)’2个分类结果进行整合的方式，通过与阈值ConfidenceThreshold进行比较，得出检测到的噪声(表示第m次迭代检测到的噪声集)，从而得出纯净数据集E＝E-。此外，识别算法中还采用了迭代式的识别方法，每次迭代时输入的待检测样本，为上次迭代时过滤掉噪声而输出的纯净样本，能够更全面彻底的识别出所有噪声数据。本发明的识别算法解决了现有标签噪声识别算法识别准确率不高的问题，保证了噪声识别的高准确度。

附图说明

图1为本发明基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法的流程图。

具体实施方式

下面结合附图，对本发明提出的一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法进行详细说明。

如图1所示，本发明的基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法，包括以下步骤：

步骤1)确定算法输入变量，包括待处理样本集L和无标签样本集U，最大迭代次数maxIter，多次投票次数num Vote，，噪声识别判定投票信任度numFinalConfodence，随机分块数numCross，分类器个数numClassifier，噪声识别投票信任度numConfidence，判别噪声的信任度阈值ConfidenceThreshold，初始化多次投票次数t＝1，迭代次数m＝1，初始化待处理样本集E＝L；

步骤2)将E随机分成numCross个大小一致的子集

初始化参数i＝1；

步骤3)用

集合中样本做训练数据，选择numClassifier个不同的分类算法，训练numClassifier个不同的分类器H₁，H₂，…，H_{numClassifier}。numClassifier选定为奇数，比如3、5、7等等，当然，不局限于所列举的这些奇数；分类算法为k紧邻，决策树，贝叶斯，神经网络，支撑向量机中的一个或多个；

步骤4)用H₁，H₂，…，H_{numClassifier}对样本集

步骤6)迭代执行步骤2)至5)，每次迭代后t值加1，直到t＝numVote为止，生成numVote个表；

步骤7)综合分析numVote个表，对每个样本的numConfidence进行统计，获得每个样本e的numFinalConfidence(e)，并存入一张表格中。初始化一个En，将numFinalConfidence(e)小于预定的ConfidenceThreshold的样本视为可疑样本存入En。阈值ConfidenceThreshold值得选定，选择比较大的较好，这样得出的En较大，从而使得后面的E’更加的纯净，但是也不能太大，不然E’的集合很小，不能训练出一个好的训练模型用于标记U。因此，阈值ConfidenceThreshold值优选为0.4，此为优选举例，其他合适的数值均可作为一种选择；

步骤9)将数据集E作为测试集，作为训练集，通过加权KNN算法，计算出每个样本的numFinalConfidence(e)’，并存入命名为numConfidence的表格中。其中加权KNN的K的取值，可以取3，5，7，9等数值，我们选择k＝5，此为优选举例，其他合适的数值均可作为一种选择；

则

步骤11)

迭代执行步骤2)至10)，每次迭代后，m值加1，直到

或m＝maxIter为止；

步骤12)返回E值，E为删除噪声后的纯净样本集，算法结束。

以下详细地描述本发明对UCI数据库中2组数据的测试结果以及同标签噪声识别算法相比性能的改进。本文提出的识别算法与目前流行的多重投票识别算法MFCF和CFMF以及基于半监督的CFAUD和MFAUD进行了比较。(MFCF，CFMF参看参考文献[8]，CFAUD和MFAUD参看参考文献[6])因为原始UCI数据库中的数据不存在标签噪声和无标签数据，所以对于选定的数据集，我们认为的选出一大部分去除掉标签作为无标签数据集，剩余的有标签的数据，人为的加入噪声，考虑不同的噪声比，包括10％，20％，30％，40％。本实例中，标签噪声检测算法性能用误标记错误数衡量。该错误数包括两部分，一部分是噪声数据错误的诊断为好数据，用E1表示，另一部分是好数据错误的诊断为噪声数据，用E2表示。E1+E2值越小，表明算法准确率越高。

表1-数据集

数据集	样本数	特征数
			Breast	683	9
Credit-screening	653	14

参数设置如下：numCross＝3，numClassifier＝3(三种分类算法包括朴素贝叶斯，决策树和最近邻)，maxIter＝100，numVote＝5；ConfidenceThreshold＝0.4。

表2-breast数据集，10％噪声比下结果

表3-breast数据集，20％噪声比下结果

表4-breast数据集，30％噪声比下结果

表5-breast数据集，40％噪声比下结果

表6-credit数据集，10％噪声比下结果

表7-credit数据集，20％噪声比下结果

表8-credit数据集，30％噪声比下结果

表9-credit数据集，40％噪声比下结果

以上表2-9中显示，在实验用的两个数据上，基于不同的噪声比，本发明提出的算法稳定的优于传统的两种算法。

综上所述，以上实施例仅用以说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别方法，其特征在于，包括以下步骤：

步骤2)将E随机分成numCross个大小一致的子集

其中i＝1：n，初始化参数i＝1；

步骤3)用

集合中样本做训练数据，选择numClassifier个不同的分类算法，训练numClassifier个不同的分类器H₁，H₂，...，H_{numClassifier}；

步骤4)用H₁，H₂，...，H_{numClassifier}对样本集

步骤5)迭代执行步骤2)至步骤4)，每次迭代后i值加1，直到i值等于numCross，停止迭代，计算出这一次投票完成后所有的样本的numConfidence并存入一张表中；

所述步骤4)和步骤5)中，所述的表中的每个元素，对应的是每个待处理样本集E中的每个样本以及他们被正确标记的可能性numConfidence；

步骤6)迭代执行步骤2)至步骤5)，每次迭代后t值加1，直到t＝numVote为止，生成numVote个表；

步骤7)综合分析numVote个表，对每个样本的numConfidence进行统计，获得每个样本e的numFinalConfidence(e)，并存入一张表格中；初始化一个En，将numFinalConfidence(e)小于预定的ConfidenceThreshold的样本视为可疑样本存入En；

所述步骤7)中的ConfidenceThreshold值选定为0.1-0.4之间的一个数值；

步骤8)将E’＝E-En作为训练集，基于numclassifier个分类方法，生成numclassifier个分类器，用这些分类器对无标签样本集U进行标记，得到一个样本集；

步骤9)将数据集E作为测试集，标记后的数据集作为训练集，通过加权KNN算法，计算出每个样本的numFinalConfidence(e)’，并存入一张表格中；

步骤10)将包含numFinalConfidence(e)的表格和包含numConfidence的表格中的相同样例的数值，进行相加求平均值，得到最终的Confdence表格，对于数值小于指定阈值ConfidenceThreshold的样本，被视为噪声；设检测到的噪声为

则

步骤11)

迭代执行步骤2)至步骤10)，每次迭代后，m值加1，直到

或m＝maxIter为止；

步骤12)返回E值，E为删除噪声后的纯净样本集，方法结束。

2.根据权利要求1所述的基于监督学习和半监督学习双重信息的迭代式标签噪声识别方法，其特征在于：所述步骤3)中，numClassifier选定为奇数。

3.根据权利要求2所述的基于监督学习和半监督学习双重信息的迭代式标签噪声识别方法，其特征在于：设置所述的numClassifier＝3。

4.根据权利要求1所述的基于监督学习和半监督学习双重信息的迭代式标签噪声识别方法，其特征在于：所述步骤7)中ConfidenceThreshold值通过独立的校验样本，计算优化；具体步骤包括：a)根据先验知识估计待处理噪声数据的噪声比，b)在校验样本中加入随机噪声，c)遍历可能的ConfidenceThreshold数值并计算该数值下识别方法对校验样本中噪声的识别准确度，d)选择具有更高识别准确度的ConfidenceThreshold。