CN110363228B - 噪声标签纠正方法 - Google Patents

噪声标签纠正方法 Download PDF

Info

Publication number
CN110363228B
CN110363228B CN201910562002.2A CN201910562002A CN110363228B CN 110363228 B CN110363228 B CN 110363228B CN 201910562002 A CN201910562002 A CN 201910562002A CN 110363228 B CN110363228 B CN 110363228B
Authority
CN
China
Prior art keywords
sample
label
noise
samples
observation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910562002.2A
Other languages
English (en)
Other versions
CN110363228A (zh
Inventor
徐建
余孟池
张静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN201910562002.2A priority Critical patent/CN110363228B/zh
Publication of CN110363228A publication Critical patent/CN110363228A/zh
Application granted granted Critical
Publication of CN110363228B publication Critical patent/CN110363228B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种噪声标签重标注方法,包括以下步骤:步骤1,利用基分类器对观测样本进行分类并估计噪声率,识别出噪声标签数据;步骤2,利用基分类器对噪声标签样本进行重新标注,得到噪声标签样本被修正后的干净样本数据集。

Description

噪声标签纠正方法
技术领域
本发明涉及一种数据挖掘技术,特别是一种噪声标签纠正方法。
背景技术
传统的监督学***台也是噪声数据的来源之一,这些标注平台利用广大注册用户实现众包式的数据标注工作。例如Amazon的Amazon Mechanical Turk、数据堂、京东微工等数据服务平台。而这种途径得到的数据集由于标注者的专业性限制或个人差异导致得到的数据标签并不是完全符合真实情况,而且不同标注者对同一样本的看法可能不同从而导致同种样本有不同标签结果。数据集中的噪声可以根据噪声产生的位置分为特征噪声和标签噪声,一般标签中的噪声要比特征中的噪声对模型性能的影响更大(Mirylenka K,Giannakopoulos G,Do L M,et al.On classifier behavior in thepresence of mislabeling noise[J].Data Mining and Knowledge Discovery,2017)。在二元分类中,根据正例数据集和负例数据集中噪声分布的特征提出了PU(Positive-unlabeled)学习问题(Khetan A,Lipton Z C,Anandkumar A.Learning From NoisySingly-labeled Data[J].2017)。PU学习表示数据集中只有一部分正例训练样本有标签而其它样本都不带标签的一种二元分类任务。针对PU学习问题可以将所有未标注样本当作负例样本。这样PU学习问题就转化为带噪声的二元分类问题。噪声标签数据的存在不仅会对分类器模型的分类准确性产生严重的负面影响,同时也会增加分类器的复杂度。因此设计适应噪声标签数据的分类学习算法具有重要的研究意义和应用价值。
对于含有噪声标签的分类问题,Frénay,B归纳总结出了多种解决策略,包括噪声清理算法,噪声标签鲁棒方法和噪声标签模型化方法(Frenay B,VerleysenM.Classification in the Presence of Label Noise:A Survey[J].IEEE Transactionson Neural Networks and Learning Systems,2014)。噪声标签鲁棒方法使用模型自身对噪声的适应能力,不同模型对标签噪声的敏感度不同。需要选择对标签噪声不敏感的分类器进行学***方损失是抗噪声标签的。而对于其他的损失函数即使在均匀噪声分布情况下也不是抗噪声标签的,如1)指数损失2)对数损失3)hinge损失。机器学习中的大多数学习算法都不完全是抗噪声标签的,并且只在训练数据被少量标签噪声干扰时很有效。随着深度学习的发展,在图像分类问题中常使用神经网络解决噪声标签图像问题,例如Mnih提出将噪声模型并入神经网络,但其仅考虑二元分类,并且假定噪声属于对称标签噪声(MnihV,Hinton G.Learning to Label Aerial Images from Noisy Data[C]//InternationalConference on Machine Learning.2013)。
使用噪声清理策略解决噪声标签学习问题通常需要两步:(1)估计噪声率和(2)使用噪声率和预测。为估计噪声率,Scott等通过建立一个下界方法用于估计反转噪声率和(Blanchard G,Flaska M,Handy G,et al.Classification with Asymmetric LabelNoise:Consistency and Maximal Denoising[J].Journal of Machine LearningResearch,2013)。然而该方法得到的无界函数可能无法收敛。在添加额外假设后,Scott(2015)提出一种时间效率高的噪声率估计方法,但估计性能表现较差(Scott C.A Rate ofConvergence for Mixture Proportion Estimation,with,Application to Learningfrom Noisy Labels[J].2015)。Liu Tao通过重要性权值重写修改损失函数,但重写的权值来源于预测概率,因此可能会对不准确的估计比较敏感(Liu T,Tao D.Classificationwith Noisy Labels by Importance Reweighting[J].IEEE Transactions on PatternAnalysis&Machine Intelligence,2014)。Natarajan(2013)没有提出估计噪声的方法而是将噪声率视为交叉验证过程中优化的参数(Natarajan N,Dhillon I S,Ravikumar P K,etal.Learning with Noisy Labels[C]//International Conference on NeuralInformation Processing Systems.Curran Associates Inc.2013)。Natarajan提出两种方法修改损失函数,第一种方法从噪声分布中构建正确分布的无偏估计器,但该估计器即使在原有损失函数是凸函数的情况下仍有可能会是非凸函数。第二种方法建立标签依赖的损失函数,以对于0-1损失,Nat13的最小风险和正确分布的风险相等。Northcutt提出从信任的样本中学习(Learning with confident examples)的概念,按照基分类器对噪声数据的分类概率计算出等变量值,并按基分类器对每个样本的预测结果大小删除部分被鉴定为噪声标签数据的样本,该过程称为按秩剪枝(Northcutt C G,Wu T,Chuang I L.Learningwith Confident Examples:Rank Pruning for Robust Classification with NoisyLabels[J].2017)。
发明内容
本发明的目的在于提供一种噪声标签纠正方法。
实现本发明目的的技术方案为:一种噪声标签纠正方法,包括以下步骤:
步骤1,使用基分类器对样本进行预测得到样本预测概率,分别取正例集合和负例集合所有样本的预测概率期望值作为下界阈值和上界阈值,使用下界阈值和上界阈值判断观测样本真实标签,识别出噪声标签数据;
步骤2,利用基分类器对噪声标签样本进行重新标注,得到噪声标签样本被修正后的干净样本数据集;其中
步骤2中对于二元分类结果,识别出噪声标签样本后,根据每个样本在基分类器的预测概率值,将样本升序排序,在观测正例样本集中,将前面a个样本的标签重标注为0;在观测负例样本集中,将后
Figure GDA0003719665580000031
个样本标签重标注为1;
步骤2中对于多类分类结果,根据基分类器对所有样本数据预测得到的分类结果矩阵,利用该概率矩阵将样本的标签重标注为除当前标签外预测概率最大时所属的标签。
进一步地,步骤1具体步骤包括:
步骤1.1,基分类器对样本预测得到样本预测概率g(x)=P(s=1|x);设
噪声率ρ1=P(s=0|y=1)表示真实标签为1的样本误标记为0的概率,
Figure GDA0003719665580000032
表示观测标签为1且真实标签为1的样本的数量,
Figure GDA0003719665580000033
表示观测标签为0且真实标签为1的样本的数量,
Figure GDA0003719665580000034
表示观测标签为1且真实标签为0的样本的数量,
Figure GDA0003719665580000035
表示观测标签为0且真实标签为0的样本的数量;
步骤1.2,使用基分类器的分类结果
Figure GDA0003719665580000036
判断样本的真实标签:使用下界阈值LBy=1判断样本真实标签是否为1,当观测样本在基分类器g(x)上的预测结果大于该下界阈值时,设该观测样本的真实标签为1;当观测样本在基分类器上的预测结果小于上界阈值UBy=0时,设该观测样本的真实标签为0。
步骤1.3,计算
Figure GDA0003719665580000041
Figure GDA0003719665580000042
Figure GDA0003719665580000043
Figure GDA0003719665580000044
Figure GDA0003719665580000045
其中,
Figure GDA0003719665580000046
为观测正例样本集,
Figure GDA0003719665580000047
为观测负例样本集,上届、下届阈值分别设定为正负例样本在基分类器上分类概率g(x)的期望值:
Figure GDA0003719665580000048
Figure GDA0003719665580000049
步骤1.4,计算噪声率的估计值
Figure GDA00037196655800000410
Figure GDA00037196655800000411
Figure GDA00037196655800000412
Figure GDA00037196655800000413
步骤1.5,由贝叶斯定理,根据噪声率的估计值推导出反转噪声率的值
Figure GDA00037196655800000414
Figure GDA00037196655800000415
步骤1.6,设
Figure GDA00037196655800000416
表示观测正例样本集中真实标签为0的样本数,
Figure GDA00037196655800000417
表示观测负例样本集中真实标签为1的样本数,根据每个样本基分类器g(x)的预测值,将样本升序排序;在观测正例样本集
Figure GDA00037196655800000418
中,前
Figure GDA00037196655800000419
个样本视为正例样本集中的噪声标签样本;在观测负例样本集
Figure GDA00037196655800000420
中,排在后
Figure GDA00037196655800000421
个样本视为负例样本集中的噪声标签样本。
进一步地,步骤2中对于二元分类情况得到噪声标签样本被修正后的干净样本数据集的具体过程为:
识别出噪声标签样本后,根据每个样本在基分类器g(x)=P(s=1|x)的预测概率值,将样本升序排序。在观测正例样本集
Figure GDA0003719665580000051
中,将前面
Figure GDA0003719665580000052
个样本的标签重标注为0;在观测负例样本集
Figure GDA0003719665580000053
中,将后
Figure GDA0003719665580000054
个样本标签重标注为1;
重新标注后的正例样本集
Figure GDA0003719665580000055
和负例样本集
Figure GDA0003719665580000056
分别表示为:
Figure GDA0003719665580000057
Figure GDA0003719665580000058
其中,
Figure GDA0003719665580000059
表示观测正例样本集中g(x)值第
Figure GDA00037196655800000510
小的g(x)值,
Figure GDA00037196655800000511
表示观测负例样本集g(x)值第
Figure GDA00037196655800000512
大的g(x)值。
进一步地,步骤2中对于多类分类情况,采用对噪声样本的标签重标记得到噪声标签样本被修正后的干净样本数据集,具体过程为:
基分类器对所有样本数据预测时需要记录样本属于每个类别的概率,得到分类结果矩阵psx={pij|i∈N,j∈K},psx是一个N×K的概率矩阵,其中N为样本数,K为标签种类数,其中,概率值表示基分类对所有样本数的分类结果矩阵,矩阵第i行pi=(pi1,pi2,,,pik)表示样本xi在基分类器f(x)下属于各类标签的概率,值pij表示样本xi属于kj类的概率;
当样本x被判定为噪声标签后,利用该概率矩阵psx将x的标签重标注为除当前标签外预测概率最大时所属的标签:
yi relabel=kmax(kmax=argmaxpsxi)
其中,kmax为样本xi在基分类器分类概率中除该样本原有噪声标签si外概率最大值所属的标签类别。
本发明与现有技术相比,具有以下优点:(1)为噪声标签学习提出通用解决方案,适用于任何形式的分类器;(2)噪声样本识别率高,充分利用所有样本信息,提高分类器在噪声环境下的鲁棒性;(3)算法适用于二元分类和多类分类问题。
下面结合说明书附图对本发明作进一步描述。
附图说明
图1为本发明的方法流程示意图。
图2为基于基分类器识别噪声标签数据过程示意图。
图3为噪声标签样本重标注过程示意图。
具体实施方式
结合图1,一种利用基分类器对观测样本进行分类并估计噪声率的方法识别出噪声标签数据,过程如下:
步骤1,结合图2利用基分类器对观测样本进行分类并估计噪声率,识别出噪声标签数据,过程如下:
步骤1.1,基分类器clf对样本预测clf.fit(X,s),得到样本预测概率g(x)=P(s=1|x)。基分类器可以选择现有的任何分类算法,只要能得到样本的预测概率即可。
对于噪声率ρ1=P(s=0|y=1),其表示真实标签为1的样本误标记为0的概率,即正确标签为1的样本集中其观测标签为0的样本数量比例。用以下变量表示各种情况下样本的数量:
Figure GDA0003719665580000061
表示观测标签为1,真实标签为1的样本;
Figure GDA0003719665580000062
表示观测标签为0,真实标签为1的样本;
Figure GDA0003719665580000063
表示观测标签为1,真实标签为0的样本;
Figure GDA0003719665580000064
表示观测标签为0,真实标签为0的样本。
步骤1.2,因为样本的真实分布未知,所以使用基分类器的分类结果
Figure GDA0003719665580000065
判断样本的真实标签。使用下界阈值LBy=1判断样本真实标签是否为1,当观测样本在基分类器g(x)上的预测结果大于该下界阈值时,可以假设该观测样本的真实标签为1。同样使用上界UBy=0判断观测样本真实标签是否为0。
步骤1.3,计算
Figure GDA0003719665580000066
Figure GDA0003719665580000067
Figure GDA0003719665580000068
Figure GDA0003719665580000069
Figure GDA00037196655800000610
其中,
Figure GDA0003719665580000071
为观测正例样本集,
Figure GDA0003719665580000072
为观测负例样本集,其中的阈值设定为正负例样本在基分类器上分类概率g(x)=P(s=1|x)的期望值:
Figure GDA0003719665580000073
Figure GDA0003719665580000074
步骤1.4,计算噪声率的估计值
Figure GDA0003719665580000075
Figure GDA0003719665580000076
过程如下:
Figure GDA0003719665580000077
Figure GDA0003719665580000078
步骤1.5,由贝叶斯定理,根据噪声率的估计值推导出反转噪声率的值:
Figure GDA0003719665580000079
其中ps1=P(s=1)表示观测样本集中正例样本的个数。由于反转噪声率表示观测正负例样本中真实标签为0或1的概率,因此
Figure GDA00037196655800000710
表示观测正例样本集中真实标签为0的样本数,即观测正例样本集中的噪声样本数。同理,
Figure GDA00037196655800000711
表示观测负例样本集中真实标签为1的样本数,即观测负例样本集中的噪声样本数。最后,根据每个样本基分类器g(x)的预测值,将样本升序排序,在观测正例样本集
Figure GDA00037196655800000712
中,前
Figure GDA00037196655800000713
个样本视为正例样本集中的噪声标签样本,在观测负例样本集
Figure GDA00037196655800000714
中,排在后
Figure GDA00037196655800000715
个样本视为负例样本集中的噪声标签样本。
步骤2,结合图3利用基分类器分类结果对噪声标签样本进行重新标注,得到噪声标签样本被修正后的干净样本数据集,具体过程如下:
步骤2.1,对于二元分类情况。识别出噪声标签样本后,根据每个样本在基分类器g(x)=P(s=1|x)的预测概率值,将样本升序排序。在观测正例样本集
Figure GDA00037196655800000716
中,将前面
Figure GDA00037196655800000717
个样本的标签重标注为0;在观测负例样本集
Figure GDA00037196655800000718
中,将后
Figure GDA00037196655800000719
个样本标签重标注为1。重新标注后的正例样本集
Figure GDA00037196655800000720
和负例样本集
Figure GDA00037196655800000721
分别表示为:
Figure GDA0003719665580000081
Figure GDA0003719665580000082
其中
Figure GDA0003719665580000083
表示观测正例样本集中g(x)值第
Figure GDA0003719665580000084
小的g(x)值,
Figure GDA0003719665580000085
表示观测负例样本集g(x)值第
Figure GDA0003719665580000086
大的g(x)值。
步骤2.2,对于多类分类情况。在多类分类情况下,样本标签总种类数不止两种,此时对噪声样本的标签重标记需要考虑到样本最可能属于哪类标签并分配该标签。噪声样本重标注的标签需要根据基分类器对所有样本的分类结果选择。因此在基分类器对所有样本数据预测时需要记录样本属于每个类别的概率,最终得到的是一个分类结果矩阵psx={pij|i∈N,j∈K},psx是一个N×K的概率矩阵(其中N为样本数,K为标签种类数),其中的概率值表示基分类对所有样本数的分类结果矩阵,矩阵第i行pi=(pi1,pi2,,,pik)表示样本xi在基分类器f(x)下属于各类标签的概率,其中的值pij表示样本xi属于kj类的概率。当样本x被判定为噪声标签后,利用该概率矩阵psx将x的标签重标注为除当前标签外预测概率最大时所属的标签。即对于噪声标签样本xi,其重标注的标签为:
yi relabel=kmax(kmax=argmaxpsxi)
其中kmax为样本xi在基分类器分类概率中除该样本原有噪声标签si外概率最大值所属的标签类别。最后重标注后得到的数据即为修正噪声标签后的正确数据集。

Claims (3)

1.一种噪声标签纠正方法,其特征在于,包括以下步骤:
步骤1,使用基分类器对样本进行预测得到样本预测概率,分别取正例集合和负例集合所有样本的预测概率期望值作为下界阈值和上界阈值,使用下界阈值和上界阈值判断观测样本真实标签,识别出噪声标签数据;具体步骤包括:
步骤1.1,基分类器对样本预测得到样本预测概率g(x)=P(s=1|x);设噪声率ρ1=P(s=0|y=1)表示真实标签为1的样本误标记为0的概率,
Figure FDA0003719665570000011
表示观测标签为1且真实标签为1的样本的数量,
Figure FDA0003719665570000012
表示观测标签为0且真实标签为1的样本的数量,
Figure FDA0003719665570000013
表示观测标签为1且真实标签为0的样本的数量,
Figure FDA0003719665570000014
表示观测标签为0且真实标签为0的样本的数量;
步骤1.2,使用基分类器的分类结果
Figure FDA0003719665570000015
判断样本的真实标签:使用下界阈值LBy=1判断样本真实标签是否为1,当观测样本在基分类器g(x)上的预测结果大于该下界阈值时,设该观测样本的真实标签为1;当观测样本在基分类器上的预测结果小于上界阈值UBy=0时,设该观测样本的真实标签为0;
步骤1.3,计算
Figure FDA0003719665570000016
Figure FDA0003719665570000017
Figure FDA0003719665570000018
Figure FDA0003719665570000019
Figure FDA00037196655700000110
其中,
Figure FDA00037196655700000111
为观测正例样本集,
Figure FDA00037196655700000112
为观测负例样本集,上届、下届阈值分别设定为正负例样本在基分类器上分类概率g(x)的期望值:
Figure FDA00037196655700000113
Figure FDA00037196655700000114
步骤1.4,计算噪声率的估计值
Figure FDA00037196655700000115
Figure FDA00037196655700000116
Figure FDA0003719665570000021
Figure FDA0003719665570000022
步骤1.5,由贝叶斯定理,根据噪声率的估计值推导出反转噪声率的值
Figure FDA0003719665570000023
Figure FDA0003719665570000024
步骤1.6,设
Figure FDA0003719665570000025
表示观测正例样本集中真实标签为0的样本数,
Figure FDA0003719665570000026
表示观测负例样本集中真实标签为1的样本数,根据每个样本基分类器g(x)的预测值,将样本升序排序;在观测正例样本集
Figure FDA0003719665570000027
中,前
Figure FDA0003719665570000028
个样本视为正例样本集中的噪声标签样本;在观测负例样本集
Figure FDA0003719665570000029
中,排在后
Figure FDA00037196655700000210
个样本视为负例样本集中的噪声标签样本;
步骤2,利用基分类器对噪声标签样本进行重新标注,得到噪声标签样本被修正后的干净样本数据集;其中
步骤2中对于二元分类结果,识别出噪声标签样本后,根据每个样本在基分类器的预测概率值,将样本升序排序,在观测正例样本集中,将前面a个样本的标签重标注为0;在观测负例样本集中,将后
Figure FDA00037196655700000211
个样本标签重标注为1;
步骤2中对于多类分类结果,根据基分类器对所有样本数据预测得到的分类结果矩阵,利用概率矩阵将样本的标签重标注为除当前标签外预测概率最大时所属的标签。
2.根据权利要求1所述的方法,其特征在于,步骤2中对于二元分类情况得到噪声标签样本被修正后的干净样本数据集的具体过程为:
识别出噪声标签样本后,根据每个样本在基分类器g(x)=P(s=1|x)的预测概率值,将样本升序排序;在观测正例样本集
Figure FDA00037196655700000212
中,将前面
Figure FDA00037196655700000213
个样本的标签重标注为0;在观测负例样本集
Figure FDA00037196655700000214
中,将后
Figure FDA00037196655700000215
个样本标签重标注为1;
重新标注后的正例样本集
Figure FDA00037196655700000216
和负例样本集
Figure FDA00037196655700000217
分别表示为:
Figure FDA0003719665570000031
Figure FDA0003719665570000032
其中,
Figure FDA0003719665570000033
表示观测正例样本集中g(x)值第
Figure FDA0003719665570000034
小的g(x)值,
Figure FDA0003719665570000035
表示观测负例样本集g(x)值第
Figure FDA0003719665570000036
大的g(x)值。
3.根据权利要求1所述的方法,其特征在于,步骤2中对于多类分类情况,采用对噪声样本的标签重标记得到噪声标签样本被修正后的干净样本数据集,具体过程为:
基分类器对所有样本数据预测时需要记录样本属于每个类别的概率,得到分类结果矩阵psx={pij|i∈N,j∈K},psx是一个N×K的概率矩阵,其中N为样本数,K为标签种类数,其中,概率值表示基分类对所有样本数的分类结果矩阵,矩阵第i行pi=(pi1,pi2,,,pik)表示样本xi在基分类器f(x)下属于各类标签的概率,值pij表示样本xi属于kj类的概率;
当样本x被判定为噪声标签后,利用该概率矩阵psx将x的标签重标注为除当前标签外预测概率最大时所属的标签:
yi relabel=kmax(kmax=argmaxpsxi)
其中,kmax为样本xi在基分类器分类概率中除该样本原有噪声标签si外概率最大值所属的标签类别。
CN201910562002.2A 2019-06-26 2019-06-26 噪声标签纠正方法 Active CN110363228B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910562002.2A CN110363228B (zh) 2019-06-26 2019-06-26 噪声标签纠正方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910562002.2A CN110363228B (zh) 2019-06-26 2019-06-26 噪声标签纠正方法

Publications (2)

Publication Number Publication Date
CN110363228A CN110363228A (zh) 2019-10-22
CN110363228B true CN110363228B (zh) 2022-09-06

Family

ID=68216503

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910562002.2A Active CN110363228B (zh) 2019-06-26 2019-06-26 噪声标签纠正方法

Country Status (1)

Country Link
CN (1) CN110363228B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022032471A1 (zh) * 2020-08-11 2022-02-17 香港中文大学(深圳) 一种神经网络模型的训练方法、装置、存储介质及设备
CN111814883A (zh) * 2020-07-10 2020-10-23 重庆大学 一种基于异质集成的标签噪声纠正方法
CN112101328A (zh) * 2020-11-19 2020-12-18 四川新网银行股份有限公司 一种深度学习中识别并处理标签噪声的方法
CN115147670A (zh) * 2021-03-15 2022-10-04 华为技术有限公司 一种对象处理方法及装置
CN113139628B (zh) * 2021-06-22 2021-09-17 腾讯科技(深圳)有限公司 样本图像的识别方法、装置、设备及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426826A (zh) * 2015-11-09 2016-03-23 张静 一种基于标签噪声纠正的众包标注数据质量提升方法
CN107292330A (zh) * 2017-05-02 2017-10-24 南京航空航天大学 一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426826A (zh) * 2015-11-09 2016-03-23 张静 一种基于标签噪声纠正的众包标注数据质量提升方法
CN107292330A (zh) * 2017-05-02 2017-10-24 南京航空航天大学 一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法

Also Published As

Publication number Publication date
CN110363228A (zh) 2019-10-22

Similar Documents

Publication Publication Date Title
CN110363228B (zh) 噪声标签纠正方法
JP6941123B2 (ja) 適応型追加学習を用いた細胞のアノテーション法及びアノテーションシステム
US10896351B2 (en) Active machine learning for training an event classification
CN107067025B (zh) 一种基于主动学习的文本数据自动标注方法
JP5558412B2 (ja) 識別器を特定のシーン内のオブジェクトを検出するように適応させるためのシステム及び方法
Ming et al. On the impact of spurious correlation for out-of-distribution detection
CN106846355B (zh) 基于提升直觉模糊树的目标跟踪方法及装置
Moallem et al. Optimal threshold computing in automatic image thresholding using adaptive particle swarm optimization
Wang et al. Efficient learning by directed acyclic graph for resource constrained prediction
CN107368534B (zh) 一种预测社交网络用户属性的方法
CN108228684B (zh) 聚类模型的训练方法、装置、电子设备和计算机存储介质
JP6897749B2 (ja) 学習方法、学習システム、および学習プログラム
JP6649174B2 (ja) 分類器の分類結果を改善する方法
Zeng et al. Learning a mixture model for clustering with the completed likelihood minimum message length criterion
CN112115996A (zh) 图像数据的处理方法、装置、设备及存储介质
KR20100116404A (ko) 영상정보로부터 독립세포와 군집세포를 분류하는 방법 및 장치
Majumdar et al. Subgroup invariant perturbation for unbiased pre-trained model prediction
US11829442B2 (en) Methods and systems for efficient batch active learning of a deep neural network
US20210319269A1 (en) Apparatus for determining a classifier for identifying objects in an image, an apparatus for identifying objects in an image and corresponding methods
CN112541010B (zh) 一种基于逻辑回归的用户性别预测方法
Wöber et al. Identifying geographically differentiated features of Ethopian Nile tilapia (Oreochromis niloticus) morphology with machine learning
JP2014085948A (ja) 誤分類検出装置、方法、及びプログラム
CN116977271A (zh) 缺陷检测方法、模型训练方法、装置及电子设备
Vedavathi et al. Unsupervised learning algorithm for time series using bivariate AR (1) model
CN112508135A (zh) 模型训练方法、行人属性预测方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant