CN107292330B - 一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法 - Google Patents

一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法 Download PDF

Info

Publication number
CN107292330B
CN107292330B CN201710315861.2A CN201710315861A CN107292330B CN 107292330 B CN107292330 B CN 107292330B CN 201710315861 A CN201710315861 A CN 201710315861A CN 107292330 B CN107292330 B CN 107292330B
Authority
CN
China
Prior art keywords
noise
supervised learning
sample
value
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710315861.2A
Other languages
English (en)
Other versions
CN107292330A (zh
Inventor
关东海
魏红强
袁伟伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN201710315861.2A priority Critical patent/CN107292330B/zh
Publication of CN107292330A publication Critical patent/CN107292330A/zh
Application granted granted Critical
Publication of CN107292330B publication Critical patent/CN107292330B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开的一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法,属于机器学习和数据挖掘领域。本发明将监督和半监督学习结合起来,对于监督学习部分,通过软多重投票方式,产生监督学习噪声识别结果;对于半监督学习部分,基于监督学习产生的纯净数据训练的分类模型,对无标签数据集进行标记,标记后的无标签数据作为训练集,用加权KNN方法对标签数据集进行检测产生噪声识别结果;最终将噪声识别结果结合起来产生最终识别结果。本发明算法还采取迭代方式,每次迭代输入的待测样本为上次迭代时过滤掉噪声后的剩余样本。同传统噪声识别算法比,该发明结合了更多互补信息,同时辅以迭代方式,能更好促进噪声识别准确性。

Description

一种基于监督学习和半监督学习双重信息的迭代式标签噪声 识别算法
技术领域
本发明涉及数据挖掘和机器学习技术领域,具体是基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法。
背景技术
机器学习在实际应用当中使用的很多训练数据都是带有噪声的,其中导致的原因包括人为的错误,硬件设备的错误,数据收集过程的错误等。传统的做法就是在应用那些机器学习算法前,通过人工对源数据进行数据预处理工作,获得纯净源数据,然而,这些人工的工作费力、繁琐、耗时,而且不能保证数据的完全正确性,这对后续的算法应用造成了不可忽视的影响。数据噪声通常包括两类:属性噪声和类别噪声,属性噪声指的是样本属性值不准确,类别噪声指的是样本的标签不准确[1]。相比于属性噪声,类别噪声的影响更大。
对类别噪声的处理方法包括:设计健壮的算法[2,3]以及噪声检测算法[4,5,6,7]。设计健壮的算法主要是改进已有算法,使已有算法受类别噪声的影响更小。而噪声检测算法是在使用包含噪声的数据之前检测并删除噪声。相比之下,类噪声检测算法的效果和通用性更强。
已有的类噪声检测算法主要包含两类:基于监督学习和基于半监督学习。其中基于监督学习的代表是基于集成学习的算法,这一类算法的代表是大多数过滤和一致性过滤[7]。在这些算法中,训练数据首先被随机的分成多个子集,然后每个子集会被单独的进行噪声检测。检测的基本思想是通过以剩余子集为训练样本获得的多个分类器的投票。这类算法主要包括两个步骤:样本划分和多分类器投票。因为样本划分和多分类器投票只执行一次,因此属于基于单次投票的标签噪声检测方法。已有的基于单次投票的标签噪声检测方法存在两个不足:单次投票的结果受样本划分的影响较大,并且遗漏噪声的可能性较大。虽然后来对于这些不足有了新的改进算法(多重投票的类噪声检测方法[8]),但还是会有一部分噪声被遗漏。基于半监督学习的算法[6],这一类算法的思想是通过已知的有标签的数据,训练出一个分类模型,对无标签数据进行标记,标记后的数据加到已有的有标签数据集中壮大训练集,从而可以从一个更大的训练集中训练出更好地分类模型来更好地检测标签噪声。
对于监督学习来说,它没有做到利用和发掘无标签数据中隐藏的信息,一楼噪声的可能性较大;而对于半监督学习来说,由于原始的有标签数据集存在噪声,对于无标签数据的标记,也会产生噪声,如果原始的有标签数据集噪声比较大,那最终会得到一个非常糟糕的分类模型。
参考文献:
[1]Zhu,Xingquan,and Xindong Wu.″Class noise vs.attribute noise:Aquantitative study.″Artificial Intelligence Review 22.3(2004):177-210.
[2]J.Bootkrajang,A.Kaban,Classification of mislabelled microarraysusing robust sparse logistic regression,Bioinformatics 29(7)(2013)870-877.
[3]J.Saez,M.Galar,J.Luengo,F.Herrera,A first study on decompositionstrategies with data with class noise using decision trees,in:HybridArtificial Intelligent Systems,Lecture Notes in Computer Science,vol.7209,2012,pp.25-35.
[4]D.L.Wilson,Asymptotic properties of nearest neighbor rules usingedited data,IEEE Trans.Syst.Man Cybernet.2(3)(1992)431-433.
[5]J.Young,J.Ashburner,S.Ourselin,Wrapper methods to correctmislabeled training data,in:3rd International Workshop on Pattern Recognitionin Neuroimaging,2013,pp.170-173.
[6]D.Guan,W.Yuan,et al.,Identifying mislabeled training data with theaid of unlabeled data,Appl.Intell.35(3)(2011)345-358.
[7]C.E.Brodley,M.A.Friedl,Identifying mislabeled training data,J.Artif.Intell.Res.11(1999)131-167.
[8]Guan D,Yuan W,Ma T,et al.Detecting potential labeling errors forbioinformatics by multiple voting[J].Knowledge-Based Systems,2014,66(9):28-35.
发明内容
本发明要解决的问题是提供一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法,该算法采用监督学习和半监督学习双重信息的方式,可以根据实际情况设置相应的参数和策略,避免了监督学习和半监督学习这两种单重信息检测噪声存在的问题,可以有效地提高识别的准确率,通过迭代的方式,能更加彻底的发现噪声数据。
如本发明公开的基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法,包括以下步骤:
步骤1)确定算法输入变量,包括待处理样本集L和无标签样本集U,最大迭代次数maxIter,多次投票次数numVote,噪声识别判定投票信任度numFinalConfodence,随机分块数numCross,分类器个数numClassifier,噪声识别投票信任度numConfidence,判别噪声的信任度阈值ConfidenceThreshold,初始化多次投票次数t=1,迭代次数m=1,初始化待处理样本集E=L;
步骤2)将E随机分成numCross个大小一致的子集
Figure BSA0000144272320000031
初始化参数i=1;
步骤3)用
Figure BSA0000144272320000032
集合中样本做训练数据,选择numClassifier个不同的分类算法,训练numClassifier个不同的分类器H1,H2,…,HnumClassifier
步骤4)用H1,H2,…,HnumClassifier对样本集
Figure BSA0000144272320000033
中样本分类,分别计算每个样本的numConfidence,并将计算结果存入一张表中;
步骤5)迭代执行步骤2)至4),每次迭代后i值加1,直到i值等于numCross,停止迭代,计算出这一次投票完成后所有的样本的numConfidence并存入一张表中;
步骤6)迭代执行步骤2)至5),每次迭代后t值加1,直到t=num Vote为止,生成numVote个表;
步骤7)综合分析num Vote个表,对每个样本的numConfidence进行统计,获得每个样本e的numFinalConfidence(e),并存入一张表格中。初始化一个En,将numFinalConfidence(e)小于预定的ConfidenceThreshold的样本视为可疑样本存入En;
步骤8)将E’=E-En作为训练集,基于numclassifier个分类算法,生成numclassifier个分类器,用这些分类器对无标签样本集U进行标记,得到一个样本集;
步骤9)将数据集E作为测试集,作为训练集,通过加权KNN算法,计算出每个样本的numFinalConfidence(e)’,并存入命名为numConfidence的表格中;
步骤10)将表格和numConfidence的表格中的相同样例的数值,进行相加求平均值,得到最终的Confidence表格,对于数值小于指定阈值ConfidenceThreshold的样本,被视为噪声。设检测到的噪声为
Figure BSA0000144272320000041
Figure BSA0000144272320000042
步骤11)
Figure BSA0000144272320000043
迭代执行步骤2)至10),每次迭代后,m值加1,直到
Figure BSA0000144272320000044
或m=maxIter为止;
步骤12)返回E值,E为删除噪声后的纯净样本集,算法结束。
进一步,所述步骤3)中,numClassifier选定为奇数,选择奇数有利于投票表决的实现。分类算法为k紧邻,决策树,贝叶斯,神经网络,支撑向量机中的一个或多个。且numClassifier的选定受数据集影响。小样本数据集时,为保证多分类器之间差异性,应采取较大numClassifier值。在样本集标签噪声较高时,也应采取较大numClassifier值。较大numClassifier即可以保证每次迭代的高标签噪声识别率,又有助于减少迭代次数,提高算法效率。另一方面,在样本集数目较大且样本标签噪声比较低时,可以选择较小numClassifier。如可设置numClassifier=3。
另一种改进,所述步骤7)中,所述阈值ConfidenceThreshold值设置的越大,对于监督学习部分得到的疑似噪声集合En就越大,那样得到的E’=E-En用于标记无标签数据集U的训练数据也就越纯净,得到的标记的准确性也就越高,对于用来作为训练数据,来检测E中的噪声数据准确性也就越高。但是ConfidenceThreshold的数值也不宜太大,太大的话会使得E中的一些标签准确的数据也被视为噪声数据,使得E’数据集很小,不能很好的训练分类模型用来标记无标签数据集U。
另一种改进,所述步骤7)中阈值ConfidenceThreshold值可选定一些常规值,如ConfidenceThreshold=0.1,0.2,0.3或0.4。也可以通过独立的校验样本,计算优化的阈值ConfidenceThreshold数值。具体步骤包括:a)根据先验知识估计待处理噪声数据的噪声比,b)在校验样本中加入随机噪声,c)遍历可能的阈值ConfidenceThreshold数值并计算该数值下本算法对校验样本中噪声的识别准确度,d)选择具有最高识别准确度的阈值ConfidenceThreshold。
本发明的有益效果是:本发明的基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法,采用监督学习和半监督学习相结合的双重信息模式,不再是只是单重的信息对数据进行检测,而是监督学习对数据做出一个判断,然后与此同时半监督学习方法也做出一个判断,最终将2重判断结果结合在一起得出最终的分类结果。对于监督学习部分,采用多次投票方式进行噪声识别,每次投票前,随机打乱样本顺序,因此保证了投票的差异性,同传统的单次投票方式相比,多次投票方法更具灵活性和准确性,单次投票策略往往是过送或者过紧,而多次投票可以在另一个层面对单次投票结果做汇总,因此能够满足不同类型数据和噪声比的要求。在监督学习部分得出的可疑噪声集En后,通过E’=E-En过滤的方式先过滤掉一部分可疑数据,再将E’作为无标签数据集U的训练集,训练分类模型对U进行标记,标记后的数据集作为训练集,运用带权KNN的分类算法,对E中的数据进行测试,得出E中的每个数据的numFinalConfidence(e)’,最后通过numFinalConfidence(e)和numFinalConfidence(e)’2个分类结果进行整合的方式,通过与阈值ConfidenceThreshold进行比较,得出检测到的噪声(表示第m次迭代检测到的噪声集),从而得出纯净数据集E=E-。此外,识别算法中还采用了迭代式的识别方法,每次迭代时输入的待检测样本,为上次迭代时过滤掉噪声而输出的纯净样本,能够更全面彻底的识别出所有噪声数据。本发明的识别算法解决了现有标签噪声识别算法识别准确率不高的问题,保证了噪声识别的高准确度。
附图说明
图1为本发明基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法的流程图。
具体实施方式
下面结合附图,对本发明提出的一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法进行详细说明。
如图1所示,本发明的基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法,包括以下步骤:
步骤1)确定算法输入变量,包括待处理样本集L和无标签样本集U,最大迭代次数maxIter,多次投票次数num Vote,,噪声识别判定投票信任度numFinalConfodence,随机分块数numCross,分类器个数numClassifier,噪声识别投票信任度numConfidence,判别噪声的信任度阈值ConfidenceThreshold,初始化多次投票次数t=1,迭代次数m=1,初始化待处理样本集E=L;
步骤2)将E随机分成numCross个大小一致的子集
Figure BSA0000144272320000061
初始化参数i=1;
步骤3)用
Figure BSA0000144272320000062
集合中样本做训练数据,选择numClassifier个不同的分类算法,训练numClassifier个不同的分类器H1,H2,…,HnumClassifier。numClassifier选定为奇数,比如3、5、7等等,当然,不局限于所列举的这些奇数;分类算法为k紧邻,决策树,贝叶斯,神经网络,支撑向量机中的一个或多个;
步骤4)用H1,H2,…,HnumClassifier对样本集
Figure BSA0000144272320000063
中样本分类,分别计算每个样本的numConfidence,并将计算结果存入一张表中;
步骤5)迭代执行步骤2)至4),每次迭代后i值加1,直到i值等于numCross,停止迭代,计算出这一次投票完成后所有的样本的numConfidence并存入一张表中;
步骤6)迭代执行步骤2)至5),每次迭代后t值加1,直到t=numVote为止,生成numVote个表;
步骤7)综合分析numVote个表,对每个样本的numConfidence进行统计,获得每个样本e的numFinalConfidence(e),并存入一张表格中。初始化一个En,将numFinalConfidence(e)小于预定的ConfidenceThreshold的样本视为可疑样本存入En。阈值ConfidenceThreshold值得选定,选择比较大的较好,这样得出的En较大,从而使得后面的E’更加的纯净,但是也不能太大,不然E’的集合很小,不能训练出一个好的训练模型用于标记U。因此,阈值ConfidenceThreshold值优选为0.4,此为优选举例,其他合适的数值均可作为一种选择;
步骤8)将E’=E-En作为训练集,基于numclassifier个分类算法,生成numclassifier个分类器,用这些分类器对无标签样本集U进行标记,得到一个样本集;
步骤9)将数据集E作为测试集,作为训练集,通过加权KNN算法,计算出每个样本的numFinalConfidence(e)’,并存入命名为numConfidence的表格中。其中加权KNN的K的取值,可以取3,5,7,9等数值,我们选择k=5,此为优选举例,其他合适的数值均可作为一种选择;
步骤10)将表格和numConfidence的表格中的相同样例的数值,进行相加求平均值,得到最终的Confidence表格,对于数值小于指定阈值ConfidenceThreshold的样本,被视为噪声。设检测到的噪声为
Figure BSA0000144272320000071
Figure BSA0000144272320000072
步骤11)
Figure BSA0000144272320000073
迭代执行步骤2)至10),每次迭代后,m值加1,直到
Figure BSA0000144272320000074
或m=maxIter为止;
步骤12)返回E值,E为删除噪声后的纯净样本集,算法结束。
以下详细地描述本发明对UCI数据库中2组数据的测试结果以及同标签噪声识别算法相比性能的改进。本文提出的识别算法与目前流行的多重投票识别算法MFCF和CFMF以及基于半监督的CFAUD和MFAUD进行了比较。(MFCF,CFMF参看参考文献[8],CFAUD和MFAUD参看参考文献[6])因为原始UCI数据库中的数据不存在标签噪声和无标签数据,所以对于选定的数据集,我们认为的选出一大部分去除掉标签作为无标签数据集,剩余的有标签的数据,人为的加入噪声,考虑不同的噪声比,包括10%,20%,30%,40%。本实例中,标签噪声检测算法性能用误标记错误数衡量。该错误数包括两部分,一部分是噪声数据错误的诊断为好数据,用E1表示,另一部分是好数据错误的诊断为噪声数据,用E2表示。E1+E2值越小,表明算法准确率越高。
表1-数据集
数据集 样本数 特征数
Breast 683 9
Credit-screening 653 14
参数设置如下:numCross=3,numClassifier=3(三种分类算法包括朴素贝叶斯,决策树和最近邻),maxIter=100,numVote=5;ConfidenceThreshold=0.4。
表2-breast数据集,10%噪声比下结果
Figure BSA0000144272320000081
表3-breast数据集,20%噪声比下结果
Figure BSA0000144272320000082
表4-breast数据集,30%噪声比下结果
Figure BSA0000144272320000083
表5-breast数据集,40%噪声比下结果
Figure BSA0000144272320000091
表6-credit数据集,10%噪声比下结果
Figure BSA0000144272320000092
表7-credit数据集,20%噪声比下结果
Figure BSA0000144272320000093
表8-credit数据集,30%噪声比下结果
Figure BSA0000144272320000094
表9-credit数据集,40%噪声比下结果
Figure BSA0000144272320000101
以上表2-9中显示,在实验用的两个数据上,基于不同的噪声比,本发明提出的算法稳定的优于传统的两种算法。
综上所述,以上实施例仅用以说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,其均应涵盖在本发明的权利要求范围当中。

Claims (4)

1.一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别方法,其特征在于,包括以下步骤:
步骤1)确定算法输入变量,包括待处理样本集L和无标签样本集U,最大迭代次数maxIter,多次投票次数numVote,噪声识别判定投票信任度numFinalConfodence,随机分块数numCross,分类器个数numClassifier,噪声识别投票信任度numConfidence,判别噪声的信任度阈值ConfidenceThreshold,初始化多次投票次数t=1,迭代次数m=1,初始化待处理样本集E=L;
步骤2)将E随机分成numCross个大小一致的子集
Figure FSB0000192930860000011
Figure FSB0000192930860000012
其中i=1:n,初始化参数i=1;
步骤3)用
Figure FSB0000192930860000013
集合中样本做训练数据,选择numClassifier个不同的分类算法,训练numClassifier个不同的分类器H1,H2,...,HnumClassifier
步骤4)用H1,H2,...,HnumClassifier对样本集
Figure FSB0000192930860000014
中样本分类,分别计算每个样本的numConfidence,并将计算结果存入一张表中;
步骤5)迭代执行步骤2)至步骤4),每次迭代后i值加1,直到i值等于numCross,停止迭代,计算出这一次投票完成后所有的样本的numConfidence并存入一张表中;
所述步骤4)和步骤5)中,所述的表中的每个元素,对应的是每个待处理样本集E中的每个样本以及他们被正确标记的可能性numConfidence;
步骤6)迭代执行步骤2)至步骤5),每次迭代后t值加1,直到t=numVote为止,生成numVote个表;
步骤7)综合分析numVote个表,对每个样本的numConfidence进行统计,获得每个样本e的numFinalConfidence(e),并存入一张表格中;初始化一个En,将numFinalConfidence(e)小于预定的ConfidenceThreshold的样本视为可疑样本存入En;
所述步骤7)中的ConfidenceThreshold值选定为0.1-0.4之间的一个数值;
步骤8)将E’=E-En作为训练集,基于numclassifier个分类方法,生成numclassifier个分类器,用这些分类器对无标签样本集U进行标记,得到一个样本集;
步骤9)将数据集E作为测试集,标记后的数据集作为训练集,通过加权KNN算法,计算出每个样本的numFinalConfidence(e)’,并存入一张表格中;
步骤10)将包含numFinalConfidence(e)的表格和包含numConfidence的表格中的相同样例的数值,进行相加求平均值,得到最终的Confdence表格,对于数值小于指定阈值ConfidenceThreshold的样本,被视为噪声;设检测到的噪声为
Figure FSB0000192930860000021
Figure FSB0000192930860000022
步骤11)
Figure FSB0000192930860000023
迭代执行步骤2)至步骤10),每次迭代后,m值加1,直到
Figure FSB0000192930860000024
或m=maxIter为止;
步骤12)返回E值,E为删除噪声后的纯净样本集,方法结束。
2.根据权利要求1所述的基于监督学习和半监督学习双重信息的迭代式标签噪声识别方法,其特征在于:所述步骤3)中,numClassifier选定为奇数。
3.根据权利要求2所述的基于监督学习和半监督学习双重信息的迭代式标签噪声识别方法,其特征在于:设置所述的numClassifier=3。
4.根据权利要求1所述的基于监督学习和半监督学习双重信息的迭代式标签噪声识别方法,其特征在于:所述步骤7)中ConfidenceThreshold值通过独立的校验样本,计算优化;具体步骤包括:a)根据先验知识估计待处理噪声数据的噪声比,b)在校验样本中加入随机噪声,c)遍历可能的ConfidenceThreshold数值并计算该数值下识别方法对校验样本中噪声的识别准确度,d)选择具有更高识别准确度的ConfidenceThreshold。
CN201710315861.2A 2017-05-02 2017-05-02 一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法 Expired - Fee Related CN107292330B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710315861.2A CN107292330B (zh) 2017-05-02 2017-05-02 一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710315861.2A CN107292330B (zh) 2017-05-02 2017-05-02 一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法

Publications (2)

Publication Number Publication Date
CN107292330A CN107292330A (zh) 2017-10-24
CN107292330B true CN107292330B (zh) 2021-08-06

Family

ID=60094401

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710315861.2A Expired - Fee Related CN107292330B (zh) 2017-05-02 2017-05-02 一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法

Country Status (1)

Country Link
CN (1) CN107292330B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862386A (zh) * 2017-11-03 2018-03-30 郑州云海信息技术有限公司 一种数据处理的方法及装置
CN108021931A (zh) * 2017-11-20 2018-05-11 阿里巴巴集团控股有限公司 一种数据样本标签处理方法及装置
CN108021940B (zh) * 2017-11-30 2023-04-18 ***股份有限公司 基于机器学习的数据分类方法及***
US20190244138A1 (en) * 2018-02-08 2019-08-08 Apple Inc. Privatized machine learning using generative adversarial networks
CN110163376B (zh) * 2018-06-04 2023-11-03 腾讯科技(深圳)有限公司 样本检测方法、媒体对象的识别方法、装置、终端及介质
CN108985365B (zh) * 2018-07-05 2021-10-01 重庆大学 基于深度子空间切换集成学习的多源异构数据融合方法
CN109213656A (zh) * 2018-07-23 2019-01-15 武汉智领云科技有限公司 一种交互式大数据智能异常检测***和方法
US11710035B2 (en) 2018-09-28 2023-07-25 Apple Inc. Distributed labeling for supervised learning
CN109800785B (zh) * 2018-12-12 2021-12-28 中国科学院信息工程研究所 一种基于自表达相关的数据分类方法和装置
CN110189305B (zh) * 2019-05-14 2023-09-22 上海大学 一种多任务舌象自动分析方法
CN110363228B (zh) * 2019-06-26 2022-09-06 南京理工大学 噪声标签纠正方法
CN110633758A (zh) * 2019-09-20 2019-12-31 四川长虹电器股份有限公司 针对小样本或样本不平衡的癌症区域检测定位的方法
US11853908B2 (en) 2020-05-13 2023-12-26 International Business Machines Corporation Data-analysis-based, noisy labeled and unlabeled datapoint detection and rectification for machine-learning
CN111784595B (zh) * 2020-06-10 2023-08-29 北京科技大学 一种基于历史记录的动态标签平滑加权损失方法及装置
CN113269258A (zh) * 2021-05-27 2021-08-17 郑州大学 一种基于AdaBoost的半监督学习标签噪声防御算法
CN113887742A (zh) * 2021-10-26 2022-01-04 重庆邮电大学 一种基于支持向量机的数据分类方法及***
CN114218872B (zh) * 2021-12-28 2023-03-24 浙江大学 基于dbn-lstm半监督联合模型的剩余使用寿命预测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105046236A (zh) * 2015-08-11 2015-11-11 南京航空航天大学 一种基于多次投票的迭代式标签噪声识别算法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9053391B2 (en) * 2011-04-12 2015-06-09 Sharp Laboratories Of America, Inc. Supervised and semi-supervised online boosting algorithm in machine learning framework
CN103886330B (zh) * 2014-03-27 2017-03-01 西安电子科技大学 基于半监督svm集成学习的分类方法
CN104318242A (zh) * 2014-10-08 2015-01-28 中国人民解放军空军工程大学 一种高效的svm主动半监督学习算法
CN104598813B (zh) * 2014-12-09 2017-05-17 西安电子科技大学 一种基于集成学习和半监督svm的计算机入侵检测方法
WO2016138041A2 (en) * 2015-02-23 2016-09-01 Cellanyx Diagnostics, Llc Cell imaging and analysis to differentiate clinically relevant sub-populations of cells
CN105930411A (zh) * 2016-04-18 2016-09-07 苏州大学 一种分类器训练方法、分类器和情感分类***
CN106096622B (zh) * 2016-04-26 2019-11-08 北京航空航天大学 半监督的高光谱遥感图像分类标注方法
CN106294593B (zh) * 2016-07-28 2019-04-09 浙江大学 结合从句级远程监督和半监督集成学习的关系抽取方法
CN106294590B (zh) * 2016-07-29 2019-05-31 重庆邮电大学 一种基于半监督学习的社交网络垃圾用户过滤方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105046236A (zh) * 2015-08-11 2015-11-11 南京航空航天大学 一种基于多次投票的迭代式标签噪声识别算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
具有噪声过滤功能的协同训练半监督主动学习算法;詹永照 等;《模式识别与人工智能》;20091031;第22卷(第5期);摘要,第1-5节 *
基于集成半监督学习的标签噪声研究;金龙 等;《中国优秀硕士学位论文全文数据库 信息科技辑》;20131215;第2013年卷(第S2期);第I140-91页 *

Also Published As

Publication number Publication date
CN107292330A (zh) 2017-10-24

Similar Documents

Publication Publication Date Title
CN107292330B (zh) 一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法
WO2017084408A1 (zh) 检查货物的方法和***
CN112756759B (zh) 点焊机器人工作站故障判定方法
CN114281809B (zh) 一种多源异构数据清洗方法及装置
CN109255029A (zh) 一种采用加权优化训练集增强自动Bug报告分配的方法
Jin et al. Confusion Graph: Detecting Confusion Communities in Large Scale Image Classification.
Shoohi et al. DCGAN for Handling Imbalanced Malaria Dataset based on Over-Sampling Technique and using CNN.
CN113516638A (zh) 一种神经网络内部特征重要性可视化分析及特征迁移方法
CN113674862A (zh) 一种基于机器学习的急性肾功能损伤发病预测方法
CN113095229B (zh) 一种无监督域自适应行人重识别***及方法
CN112489689B (zh) 基于多尺度差异对抗的跨数据库语音情感识别方法及装置
CN111105041B (zh) 一种用于智慧数据碰撞的机器学习方法及装置
CN116741393A (zh) 基于病历的甲状腺疾病数据集分类模型的构建方法、分类装置及计算机可读介质
CN114817856B (zh) 一种基于结构信息保持域适应网络的抽油机故障诊断方法
CN110502669A (zh) 基于n边dfs子图的轻量级无监督图表示学习方法及装置
CN113392086B (zh) 基于物联网的医疗数据库构建方法、装置及设备
CN114757433A (zh) 一种饮用水源抗生素抗性相对风险快速识别方法
JP2024508852A (ja) 医療画像における病変分析方法
Prajapati et al. Handling Missing Values: Application to University Data Set
CN109800384B (zh) 一种基于粗糙集信息决策表的基本概率赋值计算方法
CN109308936B (zh) 一种粮食作物产地的识别方法、识别装置及终端识别设备
Nurmalasari et al. Classification for Papaya Fruit Maturity Level with Convolutional Neural Network
Adebayo Towards Effective Tools for Debugging Machine Learning Models
US11809976B1 (en) Machine learning model with layer level uncertainty metrics
Zhong et al. Deep learning enables accurate alignment of single cell rna-seq data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210806

CF01 Termination of patent right due to non-payment of annual fee