CN115564960B - 一种样本选择与标签校正结合的网络图像标签去噪方法 - Google Patents
一种样本选择与标签校正结合的网络图像标签去噪方法 Download PDFInfo
- Publication number
- CN115564960B CN115564960B CN202211408454.3A CN202211408454A CN115564960B CN 115564960 B CN115564960 B CN 115564960B CN 202211408454 A CN202211408454 A CN 202211408454A CN 115564960 B CN115564960 B CN 115564960B
- Authority
- CN
- China
- Prior art keywords
- sample
- samples
- reusable
- network
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种样本选择与标签校正结合的网络图像标签去噪方法,包括如下步骤:S1.首先,通过样本与类别中心的余弦相似度挑选出干净样本;S2.通过样本不确定性动态的从余下样本中挑选出可重用样本并校正;S3.最后使用干净样本与校正后的可重用样本一起更新网络;本方法在通过样本与类别中心的余弦相似度挑选出干净样本后,通过样本不确定性动态的从余下样本中挑选出可重用样本并校正,最后使用干净样本与校正后的可重用样本一起更新网络,提升了样本利用率,同时提升了细粒度分类性能。
Description
技术领域
本发明涉及网络标签去噪技术领域,具体为一种样本选择与标签校正结合的网络图像标签去噪方法。
背景技术
对于噪声问题,除了可通过减少类间样本重合率来提升样本选择的准确率,另一个思路是通过噪声样本选择与损失校正结合的方法来进一步减轻噪声标签对神经网络的影响。基于样本选择的方法是通过一定的方法挑选出干净样本用于后续训练,样本选择方法丢弃的噪声样本中有一部分为内部噪声,称这类样本为可重用样本,这类样本的真实标签仍在数据集中。因此对这部分样本的再利用可以有效的提升样本的利用率,这对于缺乏数据集的细粒度图像分类来说,是一个亟待解决的问题。
发明内容
本发明的目的在于提供一种样本选择与标签校正结合的网络图像标签去噪方法,以解决上述背景技术提出的问题。
为实现上述目的,本发明提供如下技术方案:一种样本选择与标签校正结合的网络图像标签去噪方法,包括如下步骤:
S1.首先,通过样本与类别中心的余弦相似度挑选出干净样本;
S2.通过样本不确定性动态的从余下样本中挑选出可重用样本并校正;
S3.最后使用干净样本与校正后的可重用样本一起更新网络。
进一步的,在S1中,在Softmax层对图片的特征进行归一化,Softmax层的输出过程可表示为:
归一化之后,使用一个超参数s来缩放余弦值,则特征归一化后的L2约束下的Softmax输出计算如下:
进一步的,在S1中挑选出干净样本Dc,剩下的样本可以分为两类,分别为可重用样本Dr和噪声集Dn,需在后续的训练中抛弃;
进一步的,在S3中,前n次训练过程中,对Softmax层的输出进行平滑处理,使用如下损失进行反向传播:
j为连续n次预测过程中被预测次数最多的类别。
与现有技术相比,本发明的有益效果是:本发明中的方法在通过样本与类别中心的余弦相似度挑选出干净样本后,通过样本不确定性动态的从余下样本中挑选出可重用样本并校正,最后使用干净样本与校正后的可重用样本一起更新网络,提升了样本利用率,同时提升了细粒度分类性能。
附图说明
图1为本发明CSSLC框架主体结构示意图前半部分;
图2为本发明CSSLC框架主体结构示意图后半部分;
图3为本发明CSSLC方法步骤图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参照图1、图2和图3所示,本发明为一种样本选择与标签校正结合的网络图像标签去噪方法(Combine Sample Select with Loss Correction),简称CSSLC,与单一的样本选择方法和损失校正方法不同,本方法在样本选择的基础上对部分可重用样本进行损失校正,这可以大大提升样本利用率并提升图像分类性能;
首先将样本集划分为三个集合:干净样本集Dc,可重用
样本集Dr与噪声集Dn,样本集,其中是第i个训练样本,是的标
签;对于可重用样本集Dr来说,并非样本的真实标签,记样本真实标签为,在接下
来的步骤中将区分出干净样本集Dc,可重用样本集Dr与噪声集Dn,对于可重用样本集Dr,拟
对其进行损失校正后再送入网络中进行训练;
在基于样本选择挑选干净样本的前提下,对于想要抛弃的噪声样本通过样本的不确定性再次动态挑选出可重用样本并对可重用样本进行损失校正。由于对样本来说,不确定性越高,则越有可能是噪声样本,而不确定性越低,则越有可能是可重用样本。
在本实施例中,传统的样本选择方式先计算样本的损失再根据小损失挑选样本,采用先根据样本与类别中心的余弦相似度挑选样本再计算损失的方式,在计算损失前挑选出可用的样本,并用这些样本计算损失。
基于一个简单的观察,网络会先拟合简单的干净的样本,简单的干净的样本与类别中心的余弦相似度会低于噪声样本,所以直接根据样本与类别中心余弦相似度来挑选干净样本。
Softmax的目标是尽可能最大化正确分类的概率,因此它会忽略掉一些比较难分辨的图片,也就是低质量的图片,而优先拟合高质量的图片;为了增大图片的利用率,在Softmax层对图片的特征进行归一化,使得硬示例获得更多的网络的注意力,最终的Softmax层的输出过程可表示为:
归一化之后,使用一个超参数s来缩放余弦值,则特征归一化后的L2约束下的Softmax输出计算如下:
其中,与表示第i个样本及其标签,经过归一化后,特征在超球面上以角度分
布,最后一个全连接层的参数为预训练生成的每个类的中心,网络全连接层的输出为
图片特征与每个类中心的余弦距离,记录每张图片与其相应类中心的余弦相似度:
在本实施例中,在挑选出了干净样本Dc后,剩下的样本可以分为两类,一类的标签在数据集内,通过训练,网络预测出这类样本的正确标签,通过对这类样本的标签进行校正,网络依然可以继续从这类样本集中进行学习,称这类样本为可重用样本Dr,还有一类的标签不在数据集内,网络无法正确的学习,称之为噪声集Dn,需在后续的训练中抛弃。
当将一个可重用样本送入网络,经过训练后,网络会倾向于给出一个确定的预测(这个预测与数据集给出的标签不一致),而当将一个噪声样本送入网络,网络会给出一个不确定的预测,用熵来衡量样本的不确定性,并以此来挑选出可重用的样本。
在本实施例中,使用一个BCNN网络进行训练,在训练中,首先挑选出干净样本Dc,标签平滑有助于网络在含噪的数据中学***滑处理,使用如下损失进行反向传播:
j为连续n次预测过程中被预测次数最多的类别。
本发明算法流程如下所示:
输入:
训练集D
Mini-batch训练集 Dm
干净样本集Dc
可重用样本集Dr
训练总次数Tmax
预训练次数Tk
迭代次数Nmax
输出:更新网络h
随机初始化网络参数,Dc=D,Dr=D
根据公式(6.5)挑选干净样本Dc
根据公式(6.11)更新网络h
else:
根据公式(6.5)挑选干净样本Dc
根据公式(6.6)挑选可重用样本Dr
根据公式(6.14)更新网络h
总体来说,本发明主要在于将样本选择与损失校正结合,且提出了一种新的挑选可重用样本的方法,使得本方法提升了样本利用率,同时提升了细粒度分类性能。
尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种样本选择与标签校正结合的网络图像标签去噪方法,其特征在于,包括如下步骤:
S1.首先,通过样本与类别中心的余弦相似度挑选出干净样本;
S2.通过样本不确定性动态的从余下样本中挑选出可重用样本并校正;
S3.最后使用干净样本与校正后的可重用样本一起更新网络;
在S1中,在Softmax层对图片的特征进行归一化,Softmax层的输出过程可表示为:
wixi=||wi||||xi||cosθi=cosθi (6.2)
归一化之后,使用一个超参数s来缩放余弦值,则特征归一化后的L2约束下的Softmax输出计算如下:
其中,xi与yi表示第i个样本及其标签;
经过归一化后,特征在超球面上以角度分布,最后一个全连接层的参数wj为预训练生成的每个类的中心,网络全连接层的输出为图片特征与每个类中心的余弦距离cosθj;记录每张图片与其相应类中心的余弦相似度:
其中,τ为一个可校正的丢弃率,D为样本集合,Dr为可重用样本。
3.根据权利要求2所述的一种样本选择与标签校正结合的网络图像标签去噪方法,其特征在于,记录每个样本xi最近10次的预测Prei,预测随着训练的进行更新:
Prei={prec1,prec2,...,precn} (6.8)
根据Prei,记录下样本xi被预测次数最多的类别j以及次数m,pi为样本xi被预测为j的概率:
pi=m/n (6.9)
在n次预测中,n次都为相同的预测时不确定性最小,此时pi=1,f(xi)=0;在n次预测中,n次都为不同的预测时不确定性最大,此时pi=1/n,f(xi)=-log1/n,n取10。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211408454.3A CN115564960B (zh) | 2022-11-10 | 2022-11-10 | 一种样本选择与标签校正结合的网络图像标签去噪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211408454.3A CN115564960B (zh) | 2022-11-10 | 2022-11-10 | 一种样本选择与标签校正结合的网络图像标签去噪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115564960A CN115564960A (zh) | 2023-01-03 |
CN115564960B true CN115564960B (zh) | 2023-03-03 |
Family
ID=84769821
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211408454.3A Active CN115564960B (zh) | 2022-11-10 | 2022-11-10 | 一种样本选择与标签校正结合的网络图像标签去噪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115564960B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111414942A (zh) * | 2020-03-06 | 2020-07-14 | 重庆邮电大学 | 一种基于主动学习和卷积神经网络的遥感图像分类方法 |
CN113657561A (zh) * | 2021-10-20 | 2021-11-16 | 之江实验室 | 一种基于多任务解耦学习的半监督夜间图像分类方法 |
CN113657449A (zh) * | 2021-07-15 | 2021-11-16 | 北京工业大学 | 一种含噪标注数据的中医舌象腐腻分类方法 |
CN114169442A (zh) * | 2021-12-08 | 2022-03-11 | 中国电子科技集团公司第五十四研究所 | 基于双原型网络的遥感图像小样本场景分类方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114492574A (zh) * | 2021-12-22 | 2022-05-13 | 中国矿业大学 | 基于高斯均匀混合模型的伪标签损失无监督对抗域适应图片分类方法 |
CN114897049A (zh) * | 2022-04-06 | 2022-08-12 | 济南融瓴科技发展有限公司 | 基于元学习的标签噪声监测方法 |
CN115170813A (zh) * | 2022-06-30 | 2022-10-11 | 南京理工大学 | 基于偏标签学习的网络监督细粒度图像识别方法 |
-
2022
- 2022-11-10 CN CN202211408454.3A patent/CN115564960B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111414942A (zh) * | 2020-03-06 | 2020-07-14 | 重庆邮电大学 | 一种基于主动学习和卷积神经网络的遥感图像分类方法 |
CN113657449A (zh) * | 2021-07-15 | 2021-11-16 | 北京工业大学 | 一种含噪标注数据的中医舌象腐腻分类方法 |
CN113657561A (zh) * | 2021-10-20 | 2021-11-16 | 之江实验室 | 一种基于多任务解耦学习的半监督夜间图像分类方法 |
CN114169442A (zh) * | 2021-12-08 | 2022-03-11 | 中国电子科技集团公司第五十四研究所 | 基于双原型网络的遥感图像小样本场景分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115564960A (zh) | 2023-01-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111126488B (zh) | 一种基于双重注意力的图像识别方法 | |
CN111914085B (zh) | 文本细粒度情感分类方法、***、装置及存储介质 | |
CN110532880B (zh) | 样本筛选及表情识别方法、神经网络、设备及存储介质 | |
CN109214353B (zh) | 一种基于剪枝模型的人脸图像快速检测训练方法和装置 | |
CN111506773B (zh) | 一种基于无监督深度孪生网络的视频去重方法 | |
CN113688949B (zh) | 一种基于双网络联合标签修正的网络图像数据集去噪方法 | |
CN106778686A (zh) | 一种基于深度学习和图论的拷贝视频检测方法和*** | |
CN116258978A (zh) | 一种自然保护区遥感影像弱标注的目标检测方法 | |
CN115051929A (zh) | 基于自监督目标感知神经网络的网络故障预测方法及装置 | |
CN115564960B (zh) | 一种样本选择与标签校正结合的网络图像标签去噪方法 | |
CN114842371A (zh) | 一种无监督视频异常检测方法 | |
CN117112852B (zh) | 一种大语言模型驱动的向量数据库检索方法及*** | |
Cai et al. | SSS-Net: A shadowed-sets-based semi-supervised sample selection network for classification on noise labeled images | |
CN116662832A (zh) | 一种基于聚类和主动学习的训练样本选择方法 | |
CN111008940A (zh) | 一种图像增强方法及装置 | |
CN115578568A (zh) | 一种小规模可靠数据集驱动的噪声修正算法 | |
CN115861625A (zh) | 一种处理噪声标签的自标签修改方法 | |
CN115984946A (zh) | 一种基于集成学习的人脸识别模型遗忘方法及*** | |
CN115017988A (zh) | 一种用于状态异常诊断的竞争聚类方法 | |
CN114677535A (zh) | 域适应图像分类网络的训练方法、图像分类方法及装置 | |
CN110188219B (zh) | 面向图像检索的深度强化去冗余哈希方法 | |
CN114612967A (zh) | 一种人脸聚类的方法、装置、设备及存储介质 | |
Pei et al. | Evidential Multi-Source-Free Unsupervised Domain Adaptation | |
TW202030647A (zh) | 降低類神經網路之運算複雜度的系統與方法 | |
CN116778968B (zh) | 一种基于深度可分离卷积与注意力机制的心音分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |