CN116894985B - 半监督图像分类方法及半监督图像分类*** - Google Patents

半监督图像分类方法及半监督图像分类*** Download PDF

Info

Publication number
CN116894985B
CN116894985B CN202311152314.9A CN202311152314A CN116894985B CN 116894985 B CN116894985 B CN 116894985B CN 202311152314 A CN202311152314 A CN 202311152314A CN 116894985 B CN116894985 B CN 116894985B
Authority
CN
China
Prior art keywords
image
semi
supervised
loss
image classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311152314.9A
Other languages
English (en)
Other versions
CN116894985A (zh
Inventor
刘萍萍
陈鹏飞
周求湛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202311152314.9A priority Critical patent/CN116894985B/zh
Publication of CN116894985A publication Critical patent/CN116894985A/zh
Application granted granted Critical
Publication of CN116894985B publication Critical patent/CN116894985B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明为图像分类领域,公开了一种半监督图像分类方法及半监督图像分类***。将获取的图像分为训练集与验证集,并将训练集图像分为已标注图像与未标注图像;构建半监督图像分类模型;对于已标注图像,利用半监督图像分类模型计算输入图像的预测与其对应真实标签的监督损失;对于未标注的图像,先将图像进行弱增强和强增强得到弱增强的图像和强增强的图像;获取未标注的图像的原始图像,再对弱增强的图像和强增强的图像经过特征提取器后输出的特征向量;将特征向量视为锚点;将从弱增强的图像扰动中获得的特征视为正样本,将从强增强的图像扰动中获得的特征视为负样本;提高半监督图像分类模型的泛化能力。提高对图像分类的准确性。

Description

半监督图像分类方法及半监督图像分类***
技术领域
本发明属于图像分类技术领域,具体涉及一种基于伪标签质量动态权衡系数的半监督图像分类方法及图像分类***。
背景技术
随着神经网络的出现,有监督的深度学习方法取得了深度学习的优异性能往往要归功于数据集的标注数量。然而标签的获取是繁琐而昂贵的,因此,为了缓解,解决这些问题,半监督方法应运而生。
半监督(semi-supervised learning, SSL)学习从少量的标记数据训练网络,通过大量的无标签数据扩充不同类别在特征空间的分布区域,提升网络的泛化能力。如何有效地利用未标记的图像,自训练成为其中的重要手段。典型的自训练方法通过模型的预测来给未标注的样本分配伪标签,然后用伪标签样本迭代训练,从而更新模型。半监督学习(SSL)中的先前工作提出在未标记图像上应用熵最小化或一致性正则化。随着越来越复杂的机制被引入该领域,FixMatch打破了这一趋势,使用伪标签与强弱扰动将两种方法融合至一个网络之中,取得了令人瞩目的效果。FlexMatch引入动态阈值进一步提升模型的无标签数据的利用能力,然而这些方法都没有针对强弱扰动进行类内紧凑性与类内可分性的划分,限制了模型的特征提取能力与潜在的充分学习能力。针对以上问题引入对比学习的方法,提出了Intra class variance loss损失,进行差异化区分来增强模型的特征生成能力。
先前的半监督学习方法往往采用置信度阈值(confidence thresholding)进行伪标签的选取。比如在FixMatch中,只将置信度大于固定阈值(0.95)的数据生成伪标签引入训练迭代过程中,丢弃其他不满足置信度,确定性较低的结果。过高的阈值极大地提高了伪标签的正确性,确保模型不会被错误的伪标签的噪声影响,但其丢弃了大量的不确定伪标签,导致类别间学习的不均,并随着自训练的进行而进一步加剧,最终导致马太效应,而且浪费了大量的样本内潜在信息。动态阈值通过前期降低(不同类别/不同数据)的阈值,来引入更多的伪标签在前期参与训练,但是前期的低阈值会不可避免的引入质量低的伪标签,错误伪标签的导致的噪音最终会降低算法分类的准确性。所以说,过高的阈值会导致伪标签整理利用率低,即使所利用的伪标签大部分是正确的(高质量),仍然无法学习到好的分类器。对于常见的动态阈值来说,即使训练初期使用了较低的阈值以提高利用率,但是伪标签中引入了过多的错误标签,如Flexmatch。
发明内容
本发明提供一种基于伪标签质量动态权衡系数的半监督图像分类方法,提高对图像分类的准确性。
本发明提供一种基于伪标签质量动态权衡系数的半监督图像分类***,用以实现基于伪标签质量动态权衡系数的半监督图像分类方法。
本发明通过以下技术方案实现:
一种基于伪标签质量动态权衡系数的半监督图像分类方法,所述半监督图像分类方法包括以下步骤,
步骤1:将获取的图像分为训练集与验证集,并将训练集图像分为已标注图像与未标注图像;
步骤2:构建半监督图像分类模型;
步骤3:对于已标注图像,利用步骤2的半监督图像分类模型计算输入图像的预测与其对应真实标签的监督损失
步骤4:对于未标注的图像,先将图像进行弱增强和强增强得到弱增强的图像和强增强的图像;
步骤5:获取未标注的图像的原始图像,与步骤3中的弱增强的图像和强增强的图像经过特征提取器后输出的特征向量;
步骤6:将步骤5原始图像的特征向量视为锚点;
步骤7:将从步骤4的弱增强的图像扰动中获得的特征视为正样本,将从步骤4的强增强的图像扰动中获得的特征视为负样本;
步骤8:通过减小步骤6的锚点与步骤7的正样本之间的距离,增大正样本与负样本之间的距离提高半监督图像分类模型的泛化能力。
进一步的,采用对比损失或三重损失度量学习方法来构建损失函数
然后将两种增强的图像都在backbone中获得对应的图像预测;使用两种增强的预测分别计算基于固定阈值的一致性损失和基于固定动态阈值的一致性损失/>,最终获得无标签的总体损失/>,然后计算自适应公平损失/>,鼓励模型对每个类做出不同的预测,从而产生有意义的动态阈值,在标记数据少的情况下;最后,总的损失函数由/>、/>和/>共同组成。
进一步的,所述损失函数是,
其中 是原始图像经过特征编码器得到的特征向量,/>是弱增强样本得到的特征向量,/>是强增强样本得到的特征向量,/>是超参数,用来控制三者在度量空间中的相对距离。
进一步的,全局动态阈值具体是,使用EMA来计算动态阈值的变化,并通过动量衰减因子λ来控制其变化速度;在每次迭代中,只需要一次所有未标记数据的置信度,并利用EMA更新全局动态阈值;全局动态阈值
其中,c是数据集的类别个数 ,为EMA权重系数,/>是是未标记数据与标记数据批大小的比率,/>是前一个迭代次数为/>时刻的全局动态阈值,/>是一个batch大小,/>是batch中未标记的第b张图片,/>是/>,表示模型输出未标记的第b张图片预测的可能性,/>是迭代次数,/>是当迭代次数/>的时刻。
进一步的,局部动态阈值具体是,对于数据集中的每个类别c,通过EMA计算估测全局,然后用/>衡量综合衡量该样本的学习价值,通过将全局动态阈值/>乘以,在全局动态阈值的基础上提高或降低得到特定类c的阈值;
为了使所有类初始具有相同的竞争力,设定每个类的初始动态阈值是,所以最终的自适应阈值
其中,是全局动态阈值/>为t时刻对类为c的样本预测的期望的大最大范式正则,计算方式如下:
=[/>]是包含所有/>的列表,/>是模型对每个类别c的预测的期望值;动态自调节阈值所产生的一致性损失为:
其中,为批大小,/>为交叉熵函数,/>和/>分别表示/>的缩写,即强弱增强图像经过模型得到的概率结果,/>是由/>转换而来的“one-hot”标签,/>是未标记vxx与标记数据批大小的比率,/>是置信度函数,/>为全局动态阈值。
进一步的,动态权重具体是,过高的阈值导致伪标签利用率低,对动态阈值,提出伪标签质量动态权衡系数trade-off ,迭代初期平衡高准确性的固定阈值所产生的一致性损失与动态阈值所产生的一致性损失/>;利用全局自适应阈值来衡量模型的训练过程伪标签的质量;整个模型的无标签数据集损失为:
其中,是超参数/>是设定的固定阈值,/>是伪标签质量与数量衡量的权重系数,/>是其他时刻情况。
进一步的,所述自适应公平损失具体是,在mini-batch上优化了和/>的交叉熵作为/>
其中,是一个batch中未标记图片预测的平均期望,/>是一个batch中伪标签的直方图分布,/>是直方图分布函数,/>是/>为模型对强增强图像的预测值,/>是/>转换而来的“独热”标签,
对于,也使用EMA方式更新:
),
其中,是EMA方式更新后的/>,/>是迭代次数为t-1时刻的/>,/>是模型输出第b张图片预测可能性的“独热”标签,
第t次迭代时的自适应公平性(SAF)
其中,/>鼓励每个小批的输出概率期望接近模型的边际类分布,经过直方图分布的归一化;它有助于模型产生多样化的预测;
所以,算法的总体损失是:
+/>+/>,
其中,/>,/>是权重系数。
一种基于伪标签质量动态权衡系数的半监督图像分类***,所述半监督图像分类***包括图像获取模块、半监督图像分类模块和优化模块。
所述图像获取模块:将获取的图像分为训练集与验证集,并将训练集图像分为已标注图像与未标注图像;
所述半监督图像分类模块,用于构建半监督图像分类模型;
所述优化模块:对于已标注图像,利用半监督图像分类模型计算输入图像的预测与其对应真实标签的监督损失
对于未标注的图像,先将图像进行弱增强和强增强得到弱增强的图像和强增强的图像;
获取未标注的图像的原始图像,再对弱增强的图像和强增强的图像经过特征提取器后输出的特征向量;
将特征向量视为锚点;
将从弱增强的图像扰动中获得的特征视为正样本,将从强增强的图像扰动中获得的特征视为负样本;
通过减小锚点与正样本之间的距离,增大正样本与负样本之间的距离提高半监督图像分类模型的泛化能力。
一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述的方法步骤。
一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法步骤。
本发明的有益效果是:
本发明的半监督学习框架,结合了度量学习方法,旨在加强类间差异的同时考虑类内差异。该框架能够更好地利用类内信息,提高模型的性能。
本发明提供了一种动态的一致性损失权重方案,解决了伪标签阈值选择的挑战,这种方法平衡了伪标签的数量和质量,提高了准确性和对伪标签数据的利用率。
本发明的在基准数据集上进行了大量实验,验证了所提出的框架的有效性。实验结果表明,与现有的半监督学习方法相比,本发明在分类性能得到了显著的改善。
附图说明
图1是本发明半监督图像分类模型的示意图。
图2是本发明的自适应阈值示意图。
图3是本发明类内差异距离的折线图
图4是本发明的权重系数的折线图。
图5是本发明固定阈值的折线图。
图6是本发明权重系数的折线图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定***结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其他实施例中也可以实现本申请。在其它情况下,省略对众所周知的***、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
下面结合本申请说明书附图1-6,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本申请,但是本申请还可以采用其它不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施例的限制。
实施例1
一种基于伪标签质量动态权衡系数的半监督图像分类方法,所述半监督图像分类方法包括以下步骤,
步骤1:将获取的图像分为训练集与验证集,并将训练集图像分为已标注图像与未标注图像;
步骤2:构建半监督图像分类模型;
步骤3:对于已标注图像,利用步骤2的半监督图像分类模型计算输入图像的预测与其对应真实标签的监督损失
步骤4:对于未标注的图像,先将图像进行弱增强和强增强得到弱增强的图像和强增强的图像;
步骤5:获取未标注的图像的原始图像,与步骤3中的弱增强的图像和强增强的图像经过特征提取器后输出的特征向量;
步骤6:将步骤5原始图像的特征向量视为锚点;
步骤7:将从步骤4的弱增强的图像扰动中获得的特征视为正样本,将从步骤4的强增强的图像扰动中获得的特征视为负样本;
步骤8:通过减小步骤6的锚点与步骤7的正样本之间的距离,增大正样本与负样本之间的距离提高半监督图像分类模型的泛化能力。
进一步的,具体来说,采用对比损失或三重损失等度量学习方法来构建损失函数;该损失函数的目标是最小化锚点与正样本之间的距离,同时最大化锚点与负样本之间的距离。通过最小化该损失函数,可以更好地区分不同扰动所产生的特征,从而提高特征判别能力和泛化能力。
然后将两种增强的图像都在backbone中获得对应的图像预测;使用两种增强的预测分别计算基于固定阈值的一致性损失和基于固定动态阈值的一致性损失/>,最终获得无标签的总体损失/>,这一步目的是预防过高的阈值导致得伪标签整理利用率低,即使所利用的伪标签大部分是正确的(高质量),仍然无法学***损失/>,鼓励模型对每个类做出不同的预测,从而产生有意义的动态阈值,特别是在标记数据很少的情况下,最后,总的损失函数由/>、/>和/>共同组成。
进一步的,所述损失函数是,
其中 是原始图像经过特征编码器得到的特征向量,/>是弱增强样本得到的特征向量,/>是强增强样本得到的特征向量,/>是超参数,用来控制三者在度量空间中的相对距离。
进一步的,所述全局动态阈值具体是,当使用固定阈值τ时,只有高质量的未标记数据对模型的训练有所贡献,而其他大量的未标记数据往往被忽略。尤其是在训练的早期阶段,只有少数未标记数据的预测置信度高于阈值。
为了解决这个问题,提出了动态阈值变化的方法,它能直观地反映未标记数据的置信度,并且该置信度与模型的整体学***均置信度。不同于FreeMatch方法,的全局动态阈值不仅用于计算不同类别的自适应局部阈值,还通过全局阈值来衡量伪标签的质量,并计算动态权重trade-off,以平衡无标记数据集产生的一致性损失。
全局阈值能够反映无标签数据集整体的伪标签的质量,并且随着训练迭代次数的不断增加,模型的生成的整体伪标签的质量也要不断提升,全局阈值不断增大以提高整体算法的准确性。
然而,每次迭代过程中计算所有未标记数据的置信度是非常耗时的。为了解决这个问题,引入了指数移动平均值(EMA)来反映全局动态阈值τ的变化。具体而言,使用EMA来计算动态阈值的变化,并通过动量衰减因子λ来控制其变化速度;这样,在每次迭代中,只需要一次所有未标记数据的置信度,并利用EMA更新全局动态阈值,从而大大减少了计算时间;全局动态阈值
其中,c是数据集的类别个数 ,为EMA权重系数,/>是是未标记数据与标记数据批大小的比率,/>是前一个迭代次数为/>时刻的全局动态阈值,/>是一个batch大小,/>是batch中未标记的第b张图片,/>是/>,表示模型输出未标记的第b张图片预测的可能性,/>是迭代次数,/>是当迭代次数/>的时刻。
进一步的,所述局部动态阈值具体是,不同类别的学习困难程度不同,采用相同的阈值可能导致模型的马太效应,即更容易的类别得到更多的训练,而困难的类别得到更少的训练。所以不同的类别应该根据学习区分难度的不同使用不同的阈值,学习容易或者数量更多的类阈值应该相应提高,而难学习或者数量较少样本价值大的类阈值应该相应提高。
具体地说,对于数据集中的每个类别c,通过EMA计算估测全局,然后用/>衡量综合衡量该样本的学习价值,通过将全局动态阈值/>乘以/>,在全局动态阈值的基础上提高或降低得到特定类c的阈值;
为了使所有类初始具有相同的竞争力,设定每个类的初始动态阈值是,所以最终的自适应阈值
其中,是全局动态阈值/>为t时刻对类为c的样本预测的期望的Max-NormRegularization,计算方式如下:
=[/>]是包含所有/>的列表,/>是模型对每个类别c的预测的期望值;动态自调节阈值所产生的一致性损失为:
其中,为批大小,/>为交叉熵函数,/>和/>分别表示/>的缩写,即强弱增强图像经过模型得到的概率结果,/>是由/>转换而来的“one-hot”标签,/>是未标记vxx与标记数据批大小的比率,/>是置信度函数,/>为全局动态阈值。
进一步的,所述动态权重具体是,过高的阈值导致伪标签利用率低,对动态阈值,如FlexMatch,初期的低阈值引入了过多的错误标签(FlexMatch前期引入大约16%的错误标签),所以提出伪标签质量动态权衡系数trade-off,迭代初期平衡高准确性的固定阈值所产生的一致性损失与动态阈值所产生的一致性损失/>;利用全局自适应阈值来衡量模型的训练过程伪标签的质量;整个模型的无标签数据集损失为:
其中,是超参数/>是设定的固定阈值,/>是伪标签质量与数量衡量的权重系数,/>是其他时刻情况;trade-off保证了在迭代初期较高的固定阈值生成的伪标签损失占主导地位,降低错误伪标签对模型的影响,动态阈值产生的低质量大数量伪标签起到补充,增强模型防止过拟合的能力,而在后期/>时,使用伪标签质量已将较高且数量较多的动态阈值产生的一致性损失。
进一步的,所述自适应公平损失具体是,鼓励模型对每个类做出不同的预测,从而产生有意义的动态阈值,特别是在标记数据很少的情况下。由于伪标签分布可能不均匀,使用Eq.4的模型预测的EMA/>作为对未标记数据的预测分布的期望的估计,引入FreeMatch中的自适应公平损失/>,通过伪标签直方图分布对概率期望进行规范化,降低样本分布不均衡导致的负面作用。在mini-batch上优化了/>和/>的交叉熵作为/>
其中,是一个batch中未标记图片预测的平均期望,/>是一个batch中伪标签的直方图分布,/>是直方图分布函数,/>是/>为模型对强增强图像的预测值,/>是/>转换而来的“独热”标签;
对于,也使用EMA方式更新:
),
其中,是EMA方式更新后的/>,/>是迭代次数为t-1时刻的/>,/>是模型输出第b张图片预测可能性的“独热”标签;
第t次迭代时的自适应公平性(SAF)
其中,/>鼓励每个小批的输出概率期望接近模型的边际类分布,经过直方图分布的归一化;它有助于模型产生多样化的预测;
所以,算法的总体损失是:
+/>+/>,
其中,/>,/>是权重系数。
为了验证本发明模型的有效性,在半监督算法常用的三个数据集进行了评估,这三个数据集分别是CIFAR-10,CIFAR-100,SVHN,并在不同的数据标记量下进行对比研究。
表1 CIFAR-10/100数据集上的错误率,粗体表示最佳结果
在表1中,列出了不同方法在CIFAR-10, CIFAR-100, SVHN上的准确率。从该表中,可以观察到,的模型在CIFAR-10, CIFAR-100的不同标签数量上始终实现了性能优势。在Svhn上也与当前最好的分类结果相差不大。
还在cifar10,250个标签进行了消融实验,以验证每个组件的有效性。如表2所示。在基础的半监督框架上加能明显的提高分类性能,他能有效的帮助模型学习判别类信息。/>+/>的结果也证明它在初期可以明显在较高样本利用率的基础上降低错误伪标签的引入,提高模型的泛化性。
表2消融实验结果,最好的结果用粗体表示
实验表明,引入的两种算法可以有效地互惠提高半监督图像分类。
使用的数据集是cifar10数据集。CIFAR-10数据集包含60000张32x32彩色图像,分为10个类,每类6000张。有50000张训练图片和10000张测试图片。
在训练集中,随机选取250个样本作为已标注的数据,其余作为未标注的数据。
本发明提出的方法都是使用了PyTorch框架进行实现的。使用了NVIDIA RTX 3090作为加速训练的GPU。为了进行公平的比较,使用与之前相关方法相同的骨干网络和超参数。具体而言,将Wide ResNet28-2用于CIFAR-10,将Wide ResNet-28-8用于CIFAR-100。使用动量为0.9的SGD作为优化器。初始学***均值来对所有算法进行推理。标记数据的批量大小为64。使用相同的权重衰减值、预定义的阈值τ、未标记的批次比率µ和为伪标签引入的损失权重。粗体表示最佳结果。对于的方法,在所有数据集上使用同一组超参数(/>=1。/>,τ=0.5,)。如上述,总的目标函数/>由监督损失/>、一致性损失/>和协同训练损失/>组成。其中用到了基本的损失函数:交叉熵损失/>,它们的定义如下所示:
其中是真实的分割图像中每个像素的概率分布,/>是模型预测的分割图像中每个像素的概率分布,/>表示真实标签的分割图像,/>表示预测的分类图像。
对Intra-class variance loss相关的超参数σ 和进行了定量分析。
如图3,4 所示。
如果σ的值过小,会降低特征的可辨识性,导致特征模糊化。这意味着同一类别实例之间的距离变小,难以区分它们,影响模型的性能。另一方面,如果σ的值过大,会增加实例之间的差异性,导致特征的类内一致性变差。这意味着同一类别实例之间的距离变大,难以将它们聚类在一起,这也会影响模型的性能。
权重控制了类内方差损失在总损失中的重要性。增加权重会强调同一类别实例之间的距离关系,并减少整体损失中其他损失的比例。如果权重/>过小,会削弱同一类别实例之间距离关系的重要性,可能导致学习类内特征的性能较差。
图5和图6提供了对无监督损失函数权重和固定阈值τ的权衡的见解。
超参数损失权重控制了无监督损失在整体损失函数中的重要性。增加/>会强调无监督损失的贡献,可能提高模型从无标签数据中学习有用表示的能力。然而,将/>设置得过高可能导致过拟合于无监督损失,忽视有标签数据,从而导致主要任务的性能下降。
固定阈值τ确定了选择可靠伪标签的阈值。较高的阈值会过滤掉不太可信的伪标签,减少由于不正确的伪标签引入的噪声。然而,将τ设置得过高可能丢弃大部分可用的伪标签,导致信息丢失,限制网络的学习能力。另一方面,将τ设置得过低可能引入更多不正确的伪标签,对训练过程和模型性能产生负面影响。
找到损失权重和阈值τ之间的适当平衡对于利用无监督损失的好处并避免潜在缺点至关重要。通过在特定任务和数据集中进行深入探索和优化,可以确定最佳超参数设置。
参数选择完成后,下面将结合方法的整体框架来解释方法的具体实施方式。图1为方法的整体框架。
将训练集送入一个由Wide ResNet作为骨干网络的双架构分割框架中。在训练过程中,分别处理已标注和未标注的图像。对于已标注的图像,直接计算CNN输入图像的预测与其对应真实标签的监督损失。对于未标注的图像,先将图像进行弱增强和强增强得到弱增强的图像和强增强的图像,将原始图像,两种增强的图像都分别输入特征生成器中获得的原始图像特征向量与强弱增强的特征向量之间的类内差异损失/>。使用两种增强的预测计算固定阈值的损失与动态阈值的损失最后得到一致性损失/>。再计算自适应公平损失/>
训练过程结束后,仅使用训练好的CNN网络进行测试。将测试集输入训练好的网络提取特征,进行分类,并评估分割结果的正确性。
实施例2
一种基于伪标签质量动态权衡系数的半监督图像分类***,所述半监督图像分类***利用如上述基于伪标签质量动态权衡系数的半监督图像分类方法,所述半监督图像分类***包括图像获取模块、半监督图像分类模块和优化模块;
所述图像获取模块:将获取的图像分为训练集与验证集,并将训练集图像分为已标注图像与未标注图像;
所述半监督图像分类模块,用于构建半监督图像分类模型;
所述优化模块:对于已标注图像,利用半监督图像分类模型计算输入图像的预测与其对应真实标签的监督损失
对于未标注的图像,先将图像进行弱增强和强增强得到弱增强的图像和强增强的图像;
获取未标注的图像的原始图像,再对弱增强的图像和强增强的图像经过特征提取器后输出的特征向量;
将原始图像的特征向量视为锚点;
将从弱增强的图像扰动中获得的特征视为正样本,将从强增强的图像扰动中获得的特征视为负样本;
通过减小锚点与正样本之间的距离,增大正样本与负样本之间的距离提高半监督图像分类模型的泛化能力。
由上可见,本发明实施例通过一种新颖的半监督学习框架,结合了度量学习方法,旨在加强类间差异的同时考虑类内差异。该框架能够更好地利用类内信息,提高模型的性能。实验结果表明,本方法与现有的半监督学习方法相比,本方法在分类性能上取得了显著的改善。
实施例3
本发明实施例提供了一种电子设备,该电子设备包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序,其中,存储器用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器和处理器通过总线连接。具体地,处理器通过运行存储在存储器的上述计算机程序时实现上述实施例一中的任一步骤。
应当理解,在本发明实施例中,所称处理器可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器 (DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器、快闪存储器和随机存储器,并向处理器提供指令和数据。存储器的一部分或全部还可以包括非易失性随机存取存储器。
由上可见,本发明实施例提供的电子设备,可通过运行计算机程序实现如实施例一所述的半监督图像分类方法,由上可见,本发明实施例通过一种新颖的半监督学习框架,结合了度量学习方法,旨在加强类间差异的同时考虑类内差异。该框架能够更好地利用类内信息,提高模型的性能。实验结果表明,本方法与现有的半监督学习方法相比,的方法在分类性能上取得了显著的改善。
应当理解,上述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,上述计算机程序可存储于以计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,上述计算机程序包括计算机程序代码,上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读介质可以包括:能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,上述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本发明中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本发明所示的这些实施例,而是要符合与本发明所公开的原理和新颖特点相一致的最宽的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将上述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。上述***中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例所提供的方法及其细节举例可结合至实施例提供的装置和设备中,相互参照,不再赘述。
本领域普通技术人员可以意识到,结合本发明中所公开的实施例描述的各实例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟是以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其他的方式实现。例如,以上所描述的装置/设备实施例仅仅是示意性的,例如,上述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以由另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。
上述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于伪标签质量动态权衡系数的半监督图像分类方法,其特征在于,所述半监督图像分类方法包括以下步骤,
步骤1:将获取的图像分为训练集与验证集,并将训练集图像分为已标注图像与未标注图像;
步骤2:构建半监督图像分类模型;
步骤3:对于已标注图像,利用步骤2的半监督图像分类模型计算输入图像的预测与其对应真实标签的监督损失
步骤4:对于未标注的图像,先将图像进行弱增强和强增强得到弱增强的图像和强增强的图像;
步骤5:获取未标注的图像的原始图像,与步骤3中的弱增强的图像和强增强的图像经过特征提取器后输出的特征向量;
步骤6:将步骤5原始图像的特征向量视为锚点;
步骤7:将从步骤4的弱增强的图像扰动中获得的特征视为正样本,将从步骤4的强增强的图像扰动中获得的特征视为负样本;
步骤8:通过减小步骤6的锚点与步骤7的正样本之间的距离,增大正样本与负样本之间的距离提高半监督图像分类模型的泛化能力;
采用对比损失或三重损失度量学习方法来构建损失函数
然后将两种增强的图像都在backbone中获得对应的图像预测;使用两种增强的预测分别计算基于固定阈值的一致性损失和基于局部动态阈值的一致性损失/>,最终获得无标签的总体损失/>,然后计算自适应公平损失/>,鼓励模型对每个类做出不同的预测,从而产生有意义的动态阈值,在标记数据少的情况下;最后,总的损失函数由/>、/>和/>共同组成;
所述损失函数是,
其中 是原始图像经过特征编码器得到的特征向量,/>是弱增强样本得到的特征向量,/>是强增强样本得到的特征向量,/>是超参数,用来控制三者在度量空间中的相对距离;
动态自调节阈值所产生的一致性损失为:
其中,为批大小,/>为交叉熵函数,/>和/>分别表示/>的缩写,即强弱增强图像经过模型得到的概率结果,/>是由/>转换而来的“one-hot”标签,/>是未标记vxx与标记数据批大小的比率,/>是置信度函数,/>为全局动态阈值;
所述自适应公平损失具体是,在mini-batch上优化了/>和/>的交叉熵作为/>
其中,是一个batch大小,/>是batch中未标记的第b张图片,/>是一个batch中未标记图片预测的平均期望,/>是一个batch中伪标签的直方图分布,/>是直方图分布函数,/>表示/>为模型对强增强图像的预测值,/>为/>转换而来的“独热”标签,
对于,也使用EMA方式更新:
),
其中,为EMA权重系数,/>是EMA方式更新后的/>,/>是迭代次数为t-1时刻的/>,/>是模型输出第b张图片预测可能性的“独热”标签,
第t次迭代时的自适应公平性
其中,,/>鼓励每个小批的输出概率期望接近模型的边际类分布,经过直方图分布的归一化;它有助于模型产生多样化的预测;/>为交叉熵损失;
所以,算法的总体损失是:
+/>+/>,
其中,/>,/>是权重系数;
整个模型的无标签数据集损失为:
其中, 是超参数,/>是设定的固定阈值,/>是伪标签质量与数量衡量的权重系数,/>是其他时刻情况。
2.根据权利要求1所述一种基于伪标签质量动态权衡系数的半监督图像分类方法,其特征在于,全局动态阈值具体是,使用EMA来计算动态阈值的变化,并通过动量衰减因子λ来控制其变化速度;在每次迭代中,只需要一次所有未标记数据的置信度,并利用EMA更新全局动态阈值;全局动态阈值
其中,c是数据集的类别个数 ,为EMA权重系数,/>是未标记数据与标记数据批大小的比率,/>是前一个迭代次数为/>时刻的全局动态阈值,/>是一个batch大小,/>是batch中未标记的第b张图片,/>是/>,表示模型输出未标记的第b张图片预测的可能性,/>是当迭代次数/>的时刻,/>是迭代次数。
3.根据权利要求1所述一种基于伪标签质量动态权衡系数的半监督图像分类方法,其特征在于,局部动态阈值具体是,对于数据集中的每个类别c,通过EMA计算估测全局,然后用/>衡量综合衡量该样本的学习价值,通过将全局动态阈值/>乘以/>,在全局动态阈值的基础上提高或降低得到特定类c的阈值;
为了使所有类初始具有相同的竞争力,设定每个类的初始动态阈值,最终的自适应阈值
其中,为全局动态阈值/>为t时刻对类为c的样本预测的期望的最大范式正则,计算方式如下:
其中,=[/>]是包含所有/>的列表,/>是模型对每个类别c的预测的期望值。
4.根据权利要求3所述一种基于伪标签质量动态权衡系数的半监督图像分类方法,其特征在于,动态权重具体是,过高的阈值导致伪标签利用率低,对动态阈值,提出伪标签质量动态权衡系数trade-off ,迭代初期平衡高准确性的固定阈值所产生的一致性损失与动态阈值所产生的一致性损失/>;利用全局自适应阈值来衡量模型的训练过程伪标签的质量。
5.一种基于伪标签质量动态权衡系数的半监督图像分类***,其特征在于,所述半监督图像分类***利用如权利要求1-4任一所述基于伪标签质量动态权衡系数的半监督图像分类方法,所述半监督图像分类***包括图像获取模块、半监督图像分类模块和优化模块;
所述图像获取模块:将获取的图像分为训练集与验证集,并将训练集图像分为已标注图像与未标注图像;
所述半监督图像分类模块,用于构建半监督图像分类模型;
所述优化模块:对于已标注图像,利用半监督图像分类模型计算输入图像的预测与其对应真实标签的监督损失
对于未标注的图像,先将图像进行弱增强和强增强得到弱增强的图像和强增强的图像;
获取未标注的图像的原始图像,再对弱增强的图像和强增强的图像经过特征提取器后输出的特征向量;
将原始图像的特征向量视为锚点;
将从弱增强的图像扰动中获得的特征视为正样本,将从强增强的图像扰动中获得的特征视为负样本;
通过减小锚点与正样本之间的距离,增大正样本与负样本之间的距离提高半监督图像分类模型的泛化能力。
6.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-4任一所述的方法步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-4任一所述的方法步骤。
CN202311152314.9A 2023-09-08 2023-09-08 半监督图像分类方法及半监督图像分类*** Active CN116894985B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311152314.9A CN116894985B (zh) 2023-09-08 2023-09-08 半监督图像分类方法及半监督图像分类***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311152314.9A CN116894985B (zh) 2023-09-08 2023-09-08 半监督图像分类方法及半监督图像分类***

Publications (2)

Publication Number Publication Date
CN116894985A CN116894985A (zh) 2023-10-17
CN116894985B true CN116894985B (zh) 2023-12-15

Family

ID=88315149

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311152314.9A Active CN116894985B (zh) 2023-09-08 2023-09-08 半监督图像分类方法及半监督图像分类***

Country Status (1)

Country Link
CN (1) CN116894985B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117611957B (zh) * 2024-01-19 2024-03-29 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于统一正负伪标签的无监督视觉表征学习方法及***
CN117670889A (zh) * 2024-02-02 2024-03-08 长春理工大学 一种基于半监督学习的混合集成电路组件缺陷检测方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111832440A (zh) * 2020-06-28 2020-10-27 高新兴科技集团股份有限公司 人脸特征提取模型的构建方法、计算机存储介质及设备
CN114529973A (zh) * 2022-02-22 2022-05-24 中南林业科技大学 一种半监督人脸情绪识别方法
CN114912433A (zh) * 2022-05-25 2022-08-16 亚信科技(中国)有限公司 文本层级多标签分类方法、装置、电子设备以及存储介质
CN115050075A (zh) * 2022-06-27 2022-09-13 华中师范大学 一种跨粒度交互学习的微表情图像标注方法及装置
CN115272777A (zh) * 2022-09-26 2022-11-01 山东大学 面向输电场景的半监督图像解析方法
CN115410026A (zh) * 2022-07-14 2022-11-29 扬州大学 基于标签传播对比半监督学习的图像分类方法与***
CN115908800A (zh) * 2022-11-10 2023-04-04 中国科学院深圳先进技术研究院 医学图像分割方法
CN115953621A (zh) * 2022-12-08 2023-04-11 华中师范大学 一种基于不可靠伪标签学习的半监督高光谱图像分类方法
CN116385791A (zh) * 2023-04-09 2023-07-04 天津大学 基于伪标签的重加权半监督图像分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3982299A1 (en) * 2020-10-09 2022-04-13 Naver Corporation Superloss: a generic loss for robust curriculum learning

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111832440A (zh) * 2020-06-28 2020-10-27 高新兴科技集团股份有限公司 人脸特征提取模型的构建方法、计算机存储介质及设备
CN114529973A (zh) * 2022-02-22 2022-05-24 中南林业科技大学 一种半监督人脸情绪识别方法
CN114912433A (zh) * 2022-05-25 2022-08-16 亚信科技(中国)有限公司 文本层级多标签分类方法、装置、电子设备以及存储介质
CN115050075A (zh) * 2022-06-27 2022-09-13 华中师范大学 一种跨粒度交互学习的微表情图像标注方法及装置
CN115410026A (zh) * 2022-07-14 2022-11-29 扬州大学 基于标签传播对比半监督学习的图像分类方法与***
CN115272777A (zh) * 2022-09-26 2022-11-01 山东大学 面向输电场景的半监督图像解析方法
CN115908800A (zh) * 2022-11-10 2023-04-04 中国科学院深圳先进技术研究院 医学图像分割方法
CN115953621A (zh) * 2022-12-08 2023-04-11 华中师范大学 一种基于不可靠伪标签学习的半监督高光谱图像分类方法
CN116385791A (zh) * 2023-04-09 2023-07-04 天津大学 基于伪标签的重加权半监督图像分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Deep Metric Learning Assisted by Intra-variance in A Semisupervised View of Learning.WOODSTOCK’18.2018,全文. *
基于模糊 Petri网的 " 网 –源 –储 –车" 动态阈值 能量管理策略研究;罗嘉明 等;《工 程 科 学 与 技 术》;全文 *

Also Published As

Publication number Publication date
CN116894985A (zh) 2023-10-17

Similar Documents

Publication Publication Date Title
CN116894985B (zh) 半监督图像分类方法及半监督图像分类***
CN112990432B (zh) 目标识别模型训练方法、装置及电子设备
CN110020592B (zh) 物体检测模型训练方法、装置、计算机设备及存储介质
WO2018121690A1 (zh) 对象属性检测、神经网络训练、区域检测方法和装置
CN109543763B (zh) 一种基于卷积神经网络的拉曼光谱分析方法
US20230030267A1 (en) Method and apparatus for selecting face image, device, and storage medium
CN110991652A (zh) 神经网络模型训练方法、装置及电子设备
CN108229673B (zh) 卷积神经网络的处理方法、装置和电子设备
US7643674B2 (en) Classification methods, classifier determination methods, classifiers, classifier determination devices, and articles of manufacture
CN109840413B (zh) 一种钓鱼网站检测方法及装置
CN110866872B (zh) 一种路面裂缝图片预处理智能选择方法、装置及电子设备
CN117015796A (zh) 处理组织图像的方法和用于处理组织图像的***
CN110135505A (zh) 图像分类方法、装置、计算机设备及计算机可读存储介质
CN111582371A (zh) 一种图像分类网络的训练方法、装置、设备及存储介质
CN115511012B (zh) 一种最大熵约束的类别软标签识别训练方法
Patil et al. Fast, self supervised, fully convolutional color normalization of H&E stained images
CN113989519B (zh) 一种长尾目标检测方法及***
CN113902944A (zh) 模型的训练及场景识别方法、装置、设备及介质
CN112329793A (zh) 基于结构自适应和规模自适应感受野的显著性检测方法
CN116109907B (zh) 目标检测方法、装置、电子设备及存储介质
CN117173154A (zh) 玻璃瓶的在线图像检测***及其方法
CN112270404A (zh) 一种基于ResNet64网络的紧固件产品鼓包缺陷的检测结构及其方法
CN108830802B (zh) 一种基于短曝图像梯度导向的图像模糊核估计方法
CN110428012A (zh) 脑网络模型建立方法、脑图像分类方法、装置及电子设备
CN115862119A (zh) 基于注意力机制的人脸年龄估计方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant