CN116630694A - 一种偏多标记图像的目标分类方法、***及电子设备 - Google Patents
一种偏多标记图像的目标分类方法、***及电子设备 Download PDFInfo
- Publication number
- CN116630694A CN116630694A CN202310544125.XA CN202310544125A CN116630694A CN 116630694 A CN116630694 A CN 116630694A CN 202310544125 A CN202310544125 A CN 202310544125A CN 116630694 A CN116630694 A CN 116630694A
- Authority
- CN
- China
- Prior art keywords
- iteration
- mark
- label
- determining
- partial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000006870 function Effects 0.000 claims description 28
- 238000012549 training Methods 0.000 claims description 27
- 239000003550 marker Substances 0.000 claims description 16
- 239000013598 vector Substances 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 6
- 238000013434 data augmentation Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 description 5
- 238000013145 classification model Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供的一种偏多标记图像的目标分类方法、***及电子设备,涉及偏多标记图像的目标分类技术领域。所述方法包括获取待识别偏多标记图像;将待识别偏多标记图像输入到相关标记确定模型中,确定待识别偏多标记图像中的所有目标的相关标记;根据多个相关标记确定待识别偏多标记图像中所有目标的种类;相关标记与目标种类一一对应。本发明利用对比标签消歧原理对分类器进行训练得到能够准确识别未见图像中相关标记的多标记确定模型,进而提高图像分类的准确性。
Description
技术领域
本发明涉及偏多标记图像的目标分类技术领域,特别是涉及一种偏多标记图像的目标分类方法、***及电子设备。
背景技术
多标记图像分类旨在处理图像分类问题,其中每个图像都与多个标签信息相关。目前多标记图像分类问题得到广泛关注。但多标记图像分类依赖于对数据的准确标注,这在资源有限的现实场景中极难实现。为了缓解标注压力,目前采取的方式是给每一张图像赋予由非专业的标注人员打上的多个候选标签,候选标签中不仅包括有利于图像分类的相关标记,也包括一些噪声标记。利用这种图像的候选标签集合进行学习的方式被定义为偏多标记图像的目标分类问题。
偏多标签学习问题包括两种类型:第一种类型是给每个候选标签分配一个置信度,在训练中迭代更新标签置信度和分类模型参数。比如,论文《Partial Multi-LabelLearning》提出在训练分类器的过程中,通过分别考虑标签相关性和特征原型来优化标签排序置信度矩阵。论文《Feature-Induced Partial Multi-label Learning》通过考虑标签和特征空间的低秩特性引入了特征诱导式偏多标签方法。论文《Partial Multi-LabelLearning with Meta Disambiguation》提出通过迭代最小化置信度加权的排序损失和使用模型在验证集上性能自适应地估计每个候选标签的置信度,以达到消歧的目的。第二种类型是两阶段训练法,从候选标签集合中获取可靠标签,然后使用这些可靠标签训练多标签分类器。比如论文《Discriminative and Correlative Partial Multi-LabelLearning》应用特征流形诱导出高置信度标签,进而训练多标签分类器。论文《PartialMulti-Label Learning via Credible Label Elicitation》通过使用迭代标签传播策略提取可靠标签来诱导分类器。专利方面,申请号为202010412162.1的中国发明专利提供了一种基于多子空间表示的偏多标签学习方法;申请号为202010412161.7的中国发明专利申请提供了一种基于噪声容忍的偏多标签学习方法;申请号为202111369388.9的中国发明专利申请提供一种基于偏多标签学习的患者筛选标签方法;申请号为202010411579.6的中国发明专利申请提供了基于全局和局部标签关系的偏多标签学习方法;申请号为202110717550.5的中国发明专利申请提供了一种基于补标签协同训练的偏多标签学习方法;申请号为202010411580.9的中国发明专利申请提供一种特征信息存在噪声的偏多标签学习方法,利用低秩与稀疏分解的思想恢复正确的特征信息,有效减少噪声特征信息的影响。尽管这些传统的方法已经取得显著的进步,但是它们普遍基于手工特征进行学习,面对偏多标记图像的目标分类问题时,表征能力和标签修正能力弱,无法达到较好的标签消歧效果。
发明内容
本发明的目的是提供一种偏多标记图像的目标分类方法、***及电子设备,利用对比标签消歧原理对分类器进行训练得到能够准确识别未见的偏多标记图像中相关标记的相关标记确定模型,进而提高图像分类的准确性。
为实现上述目的,本发明提供了如下方案:
一种偏多标记图像的目标分类方法,包括:
获取待识别偏多标记图像;所述待识别偏多标记图像中至少包括1个目标;
将待识别偏多标记图像输入到相关标记确定模型中,确定所述待识别偏多标记图像中的所有目标的相关标记;所述相关标记确定模型是根据多张偏多标记历史图像,利用对比标签消歧原理对分类器进行训练得到的;
根据多个所述相关标记确定待识别偏多标记图像中所有目标的种类;所述相关标记与目标种类一一对应。
可选的,在获取待分类图像之前,还包括:
获取多张偏多标记历史图像;所述偏多标记历史图像上标注有多种标记;所述标记的种类为相关标记或噪声标记;
对所述偏多标记历史图像进行随机数据增广处理,得到偏多标记历史图像的query视图和key视图;
确定query视图下的标签级嵌入和key视图下的标签级嵌入;所述标签级嵌入与所述偏多标记历史图像上多个标记一一对应;
根据query视图下的标签级嵌入和key视图下的标签级嵌入,利用对比标签消歧原理对分类器进行训练,得到所述相关标记确定模型。
可选的,在确定query视图下的标签级嵌入和key视图下的标签级嵌入之后,还包括:
确定query视图下的多个标签级嵌入的正负性;
确定key视图下的多个标签级嵌入的正负性。
可选的,所述根据query视图下的标签级嵌入和key视图下的标签级嵌入,利用对比标签消歧原理对分类器进行训练,得到所述相关标记确定模型,包括:
确定所述分类器为第0次迭代时的分类器;
获取分类器中每种标记的初始正原型为第0次迭代时的正原型;
获取分类器中每种标记的初始负原型为第0次迭代时的负原型;
令第一迭代次数i=1;
令第二迭代次数j=1;
确定任一基于query视图下的任一标签级嵌入为当前标签级嵌入;
根据当前标签级嵌入的正负性,更新第i-1次迭代时的正原型和第i-1次迭代时的负原型;
计算当前标签级嵌入与更新后第i-1次迭代时的正原型的相似性为第一相似性;
计算当前标签级嵌入与更新后第i-1次迭代时的负原型的相似性为第二相似性;
根据所述第一相似性和第二相似性,确定当前标签级嵌入根据原型预测的标记向量;
根据所述标记向量更新当前标签级嵌入对应标记的伪标记,得到第j次迭代时当前标签级嵌入对应标记的伪标记;
令第二迭代次数j的数值增加1,经当前标签级嵌入更新为同一query视图下的当前标签级嵌入之外的当前标签级嵌入,并返回步骤“根据当前标签级嵌入的正负性,更新第i-1次迭代时的正原型和第i-1次迭代时的负原型”,直至第二迭代次数达到第二迭代次数阈值;
将对应query视图下的多个当前标签级嵌入输入第i-1次迭代时的分类器中,得到多个类别输出;
根据多个所述类别输出和多次迭代时当前标签级嵌入对应标记的伪标记,确定第i-1次迭代时的分类损失函数;
判断所述分类损失函数是否小于分类损失函数阈值,得到第一判断结果;
若所述第一判断结果为否,则更新第i-1次迭代时的分类器的参数,得到第i次迭代时的分类器,令第一迭代次数i的数值增加1,并返回步骤“令第二迭代次数j=1”;
若所述第一判断结果为是,则判断第一迭代次数是否达到第一迭代次数阈值,得到第二判断结果;
若所述第二判断结果为否,则确定第i-1次迭代时的分类器为第i次迭代时的分类器,令第一迭代次数i的数值增加1,并返回步骤“令第二迭代次数j=1”;
若所述第二判断结果为是,则确定第i-1次迭代时的分类器为所述相关标记确定模型。
可选的,在确定第i-1次迭代时的分类器为所述相关标记确定模型之前,还包括:
确定query视图下的标签级嵌入和key视图下的标签级嵌入为嵌入池;所述嵌入池还包括动量标签级嵌入队列里的标签级嵌入;
确定query视图下任一正负性为正的标签级嵌入为当前正标签级嵌入;
确定嵌入池中与所述正标签级嵌入对应相同标记的正标签级嵌入为当前正标签级嵌入对应的正样本集合;
确定所述当前正标签级嵌入和当前正标签级嵌入对应的正样本集合中的样本构成多个正样本对;
确定根据同一query视图下多个正样本对,确定对应偏多标记历史图像的对比损失函数;
判断多个所述对比损失函数是否均小于对比损失函数阈值得到第三判断结果;
若所述第三判断结果为否,则更新第i-1次迭代时的分类器的参数,得到第0次迭代时的分类器,并返回步骤“令第一迭代次数i=1”;
若所述第三判断结果为是,则调用步骤“确定第i-1次迭代时的分类器为所述相关标记确定模型”。
一种偏多标记图像的目标分类***,包括:
待识别偏多标记图像获取模块,用于获取待识别偏多标记图像;所述待识别偏多标记图像中至少包括1个目标;
相关标记识别模块,用于将待识别偏多标记图像输入到相关标记确定模型中,确定所述待识别偏多标记图像中的所有目标的相关标记;所述相关标记确定模型是根据多张偏多标记历史图像,利用对比标签消歧原理对分类器进行训练得到的;
目标种类确定模块,用于根据多个所述相关标记确定待识别偏多标记图像中所有目标的种类;所述相关标记与目标种类一一对应。
一种电子设备,可选的,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行所述的一种偏多标记图像的目标分类方法。
可选的,所述存储器为可读存储介质。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供的一种偏多标记图像的目标分类方法、***及电子设备,获取待识别偏多标记图像;将待识别偏多标记图像输入到相关标记确定模型中,确定待识别偏多标记图像中的所有目标的相关标记;根据多个相关标记确定待识别偏多标记图像中所有目标的种类;相关标记与目标种类一一对应。本发明利用对比标签消歧原理对分类器进行训练得到能够准确识别未见图像中相关标记的相关标记确定模型,进而提高图像分类的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1一种偏多标记图像的目标分类方法流程图;
图2为本发明实施例2一种CPLD模型框架图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种偏多标记图像的目标分类方法、***及电子设备,利用对比标签消歧原理对分类器进行训练得到能够准确识别未见的偏多标记图像中相关标记的相关标记确定模型,进而提高图像分类的准确性。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1
如图1所示,本实施例提供了一种偏多标记图像的目标分类方法,包括:
步骤101:获取待识别偏多标记图像。
其中,待识别偏多标记图像中至少包括1个目标。
步骤102:将待识别偏多标记图像输入到相关标记确定模型中,确定待识别偏多标记图像中的所有目标的相关标记。
相关标记确定模型是根据多张偏多标记历史图像,利用对比标签消歧原理对分类器进行训练得到的。
步骤103:根据多个相关标记确定待识别偏多标记图像中所有目标的种类;相关标记与目标种类一一对应。
在步骤101之前,还包括:
步骤104:获取多张偏多标记历史图像;偏多标记历史图像上标注有多种标记。标记的种类为相关标记或噪声标记。
步骤105:对偏多标记历史图像进行随机数据增广处理,得到偏多标记历史图像的query视图和key视图。
步骤106:确定query视图下的标签级嵌入和key视图下的标签级嵌入。标签级嵌入与偏多标记历史图像上多个标记一一对应。
步骤107:根据query视图下的标签级嵌入和key视图下的标签级嵌入,利用对比标签消歧原理对分类器进行训练,得到相关标记确定模型。
在步骤106之后,还包括:
步骤108:确定query视图下的多个标签级嵌入的正负性。
步骤109:确定key视图下的多个标签级嵌入的正负性。
步骤107,包括:
步骤1071:确定分类器为第0次迭代时的分类器。
步骤1072:获取分类器中每种标记的初始正原型为第0次迭代时的正原型。
步骤1073:获取分类器中每种标记的初始负原型为第0次迭代时的负原型。
步骤1074:令第一迭代次数i=1。
步骤1075:令第二迭代次数j=1。
步骤1076:确定任一基于query视图下的任一标签级嵌入为当前标签级嵌入。
步骤1077:根据当前标签级嵌入的正负性,更新第i-1次迭代时的正原型和第i-1次迭代时的负原型。
步骤1078:计算当前标签级嵌入与更新后第i-1次迭代时的正原型的相似性为第一相似性。
步骤1079:计算当前标签级嵌入与更新后第i-1次迭代时的负原型的相似性为第二相似性。
步骤10710:根据第一相似性和第二相似性,确定当前标签级嵌入根据原型预测的标记向量。
步骤10711:根据标记向量更新当前标签级嵌入对应标记的伪标记,得到第j次迭代时当前标签级嵌入对应标记的伪标记。
步骤10712:令第二迭代次数j的数值增加1,经当前标签级嵌入更新为同一query视图下的当前标签级嵌入之外的当前标签级嵌入,并返回步骤1077,直至第二迭代次数达到第二迭代次数阈值。
步骤10713:将对应query视图下的多个当前标签级嵌入输入第i-1次迭代时的分类器中,得到多个类别输出。
步骤10714:根据多个类别输出和多次迭代时当前标签级嵌入对应标记的伪标记,确定第i-1次迭代时的分类损失函数。
步骤10715:判断分类损失函数是否小于分类损失函数阈值,得到第一判断结果;若第一判断结果为否,则执行步骤10716;若第一判断结果为是,则执行步骤10717。
步骤10716:更新第i-1次迭代时的分类器的参数,得到第i次迭代时的分类器,令第一迭代次数i的数值增加1,并返回步骤1075。
步骤10717:判断第一迭代次数是否达到第一迭代次数阈值,得到第二判断结果;若第二判断结果为否,则执行步骤10718;若第二判断结果为是,则执行步骤10719。
步骤10718:确定第i-1次迭代时的分类器为第i次迭代时的分类器,令第一迭代次数i的数值增加1,并返回步骤1075。
步骤10719:确定第i-1次迭代时的分类器为相关标记确定模型。
在步骤10719之前,还包括:
步骤10720:确定query视图下的标签级嵌入和key视图下的标签级嵌入为嵌入池;嵌入池还包括动量标签级嵌入队列里的标签级嵌入。
步骤10721:确定query视图下任一正负性为正的标签级嵌入为当前正标签级嵌入。
步骤10722:确定嵌入池中与正标签级嵌入对应相同标记的正标签级嵌入为当前正标签级嵌入对应的正样本集合。
步骤10723:确定当前正标签级嵌入和当前正标签级嵌入对应的正样本集合中的样本构成多个正样本对。
步骤10724:确定根据同一query视图下多个正样本对,确定对应偏多标记历史图像的对比损失函数。
步骤10725:判断多个对比损失函数是否均小于对比损失函数阈值得到第三判断结果;若第三判断结果为否,则执行步骤10726;若第三判断结果为是,则执行步骤10727。
步骤10726:更新第i-1次迭代时的分类器的参数,得到第0次迭代时的分类器,并返回步骤1074。
步骤10727:若第三判断结果为是,则调用步骤10719。
实施例2
如图2所示,本实施例提供的一种偏多标记图像的目标分类方法由两部分组成:对比学习模块和基于原型的标签消歧模块。该方法使用这两个模块构建了一个协同的***框架:其中对比学习旨在得到高质量的表征,基于原型的标签消歧利用对比学习学习到的高质量的表征得到改善的原型,随后更新伪标记,指导模型的预测结果,来帮助对比学习建立更准确的正样本对。同时,本发明使用了两阶段训练策略,来使得对比学习技术更合理地运用于本发明。两个模块相互依赖,协同合作,随着训练的推进,模型能逐步更新标记的置信度,提炼出相关标记,并降低对噪声标记的关注。具体步骤如下:
步骤1:偏多标记图像训练数据作为输入。定义和/>分别为特征空间和标记空间,其中K表示感兴趣的标签数量。训练数据集/>由n个样本组成,其中表示观测的第i张图像,/>表示第i张图像对应的候选标签向量,yi,j=1表示标签j是第i张图像的标记,反之亦然。
步骤2:获取图像的增广视图:
为了表达的简洁,本发明省略索引i。对于输入图像x,本发明使用两种图像增广方式分别得到query视图Augq(x)和key视图Augk(x)。
其中,对于query网络本发明使用论文《Supervised contrastive learning》中的SimAugment数据增广方式,对于key网络本发明使用论文《Randaugment:PracticalAutomated Data Augmentation With a Reduced Search Space》中的RandAugment数据增广方式。
步骤3:获取两种视图下的标签级嵌入:
对于query视图,通过其编码器网络得到Enc(Augq(x))∈Rd*h*w,其中d,h,w分别表示编码器输出的维度,特征图的高和宽。再通过1*1卷积将特征图降维至K,得到每一个类别对应的特征图,将类特征图展平至向量形式后输入一个投影头(projection head),以此来将类向量投影至后面所需的对比空间,此时将得到query网络g(·)的输出g(Augq(x))∈RK *D,其中D是对比空间的维度。为此,图像级的特征图被解耦为K个D维的标签级嵌入qj∈R1*D,j∈{1,...,K},每一个标签级嵌入可以看作是图像在对应标签背景下的一种表征向量,含有对应的类的特征信息。key网络g'(·)是query网络的参数动量滑动平均的结果,得到的g'(Augk(x))∈RK*D为后续使用对比学习做准备,其中的每一行kj∈R1*D,j∈{1,...,K}与qj类似,表示key网络将图像级表征解耦得到的标签级嵌入。
步骤4:使用对比学习获取高质量的嵌入表征:
第一步:判断标签级嵌入的正负性。
对于上述的增广图像Augq(x),经过分类器得到分类器的输出f(Augq(x))∈[0,1]K,其中f(Augq(x))的每一项是Sigmoid激活函数得到的输出。
使用判断每个标签级嵌入的正负性。其中,若/>则判断第j个标签级嵌入为正的标签级嵌入,反之亦然。聚集这些标签级嵌入得到样本图像的正/负标签级嵌入集合PE(x)/NE(x)。上式中α是超参数,bj和/>分别是第j类的基准概率和针对所有类的平均基准概率。
第二步:构建每个正标签级嵌入的正样本集合。
将query网络和key网络得到的正标签级嵌入与嵌入队列里的历史嵌入联合起来构建嵌入池A=Bq∪Bk∪queue,且A(qj)=A\{qj},其中Bq和Bk表示当前批次中所有样本图像对应于query网络和key网络的正标签级嵌入。本发明使用队列queue保留最近批次样本由key网络得到的正标签级嵌入。
使用P(qj)={kj|kj∈Aj(qj)}表示正标签级嵌入qj的正样本集合,其中表示A(qj)中所有标签j对应的标签级嵌入。上式表明,每一个正标签级嵌入的正样本集合是嵌入池中与之同类别的其他正标签级嵌入。
第三步:建立对比损失。
将所有正标签级嵌入与其正样本集合中的样本构成正样本对,建立对比损失,来获取高质量的标签级嵌入表征。
单张图像样本的对比损失函数计算公式如下:
其中,τ表示温度参数。
步骤5:基于原型的标签消歧:
对于每一个类c∈{1,...,K},本发明使用一个正原型和一个负原型/>分别表示第c类具有代表性的正/负标签级嵌入特征。
第一步:更新正/负原型。
在当前的小批次中,使用样本的正/负标签级嵌入更新对应类的正/负原型。更新公式如下:
第二步:更新伪标记。
计算样本的标签级嵌入与改善后的正/负原型的相似度,得到通过原型预测的标记向量z。使用滑动平均的方式逐步更新伪标记s。
其中φ∈(0,1)是正常量。上式表示,如果一个标记的标签级嵌入qc和对应的正/负原型求相似度之后,发现与正原型更相似,便考虑将此标记作为图像x的相关标记。随着模型训练的进行,通过对应原型得到的对标签级嵌入的预测将逐渐一致。因此,相关标签的伪标记将逐渐稳定在1上,而不相关标签的伪标记将平滑地接近0。
第三步:使用分类器的输出与伪标记构建分类损失。
使用更新后的伪标记与分类器的输出建立分类损失,利用对比学习改善原型之后改进的伪标记来指导模型分类器的预测。分类损失计算公式如下:
步骤6:结合分类损失和对比损失,组合成总损失函数,作为训练优化神经网络的目标函数。总损失函数计算如下:
其中,λ是可调整的超参数。
步骤7:使用两阶段训练策略:
两阶段训练策略由预消歧阶段和对比消歧阶段组成。
预消歧阶段:去掉对比学习分支,即只使用query网络和原型消歧策略,此时只使用作为网络的目标函数。
对比消歧阶段:使用总损失函数,训练整个***。
步骤8:使用阈值δ对测试数据进行未见样本的多标记预测:
对于未见样本x,它的相关标记预测结果为
即对于未见实例x,将分类器预测概率与阈值δ进行比较,判断此标记是否是相关标记。使用多标记评价指标对模型进行评价。
本发明在主流的多标记图像分类数据集VOC2007上做了实验。VOC2007数据集,包含来自20个目标类别的图像,其中每张图像平均包含2.5个类别的目标。VOC2007数据集包含一个由5011张图像构成的训练数据集和一个由4952张图像构成的测试数据集。
为了构建偏多标记数据集,本发明使标记集合的平均大小占整个标记空间中标记数量的比例为q。实验中对于VOC2007数据集,q取0.1。
跟随现有的许多研究,本发明使用mAP,OF1,CF1作为评价指标。其中,mAP又称全类平均精度或平均精度均值,是将所有类别检测的平均正确率(AP)进行综合加权平均而得到的。CF1与OF1综合考虑了总体与每类的查全率和查准率。因此这三个指标是所有度量指标中最重要也是最具代表性的评价指标。
为了验证本发明的有效性,本发明使用二值交叉熵损失BCE(binary crossentropy)直接在偏多标记图像数据集上进行训练构成基准方法。另外,添加两种先进的多标记图像分类方法ASL(发表于《Asymmetric loss for multi-label classification》)和ML-GCN(发表于《Multi-Label Image Recognition with Graph ConvolutionalNetworks》)作为其他两种基准对比方法。
本发明为了比较的一致性,跟随ASL的研究,采用在ImageNet上预训练过的TresnetL《Tresnet:High performance gpu-dedicated architecture》作为本发明的主干架,使用224*224作为输入图像的分辨率。对于VOC2007数据集使α=0.8。使用γ=0.99来更新原型,对于伪标记更新的常量φ,本发明使其从0.95线性下降到0.8。温度参数τ=0.2,损失函数的权重因子λ=0.1,并且对于模型参数本发明使用指数滑动平均(EMA)的方式更新,且衰减参数为0.9997。。
本发明所提方法命名为CPLD(Contrastive Prototype-based LabelDisambiguation),方法比较结果如表1。可以看出在VOC2007数据集上,本发明的方法在性能上超过了其他方法,这证明了本发明的方法有效性。
表1模型分类结果对比表
方法\指标 | mAP | CF1 | OF1 |
BCE | 88.37 | 82.17 | 84.42 |
ML-GCN | 80.31 | 68.13 | 72.81 |
ASL | 87.88 | 79.78 | 81.62 |
CPLD | 89.79 | 82.68 | 85.33 |
本发明提供了一种偏多标记图像的目标分类方法,直接利用偏多标记图像训练数据,得到可以对未见实例进行多标记预测的分类模型,大大降低了标记成本。
另外本发明中分类模型使用的是二值交叉熵损失函数(BCE),也可以使用FocalLoss《Focal Loss for Dense Object Detection》或者ASL《Asymmetric Loss For Multi-Label Classification》等更加先进的损失计算方法。此外针对模型解耦得到的标签级嵌入的正负性判断,也可以采用对分类器预测概率简单使用固定阈值判断,或者使用softmax得到预测概率后将作为阈值,这些改进或者其他可轻易想到的变化或替换都属于本发明的保护范围。
实施例3
为了执行上述实施例1对应的方法,以实现相应的功能和技术效果,下面提供了一种偏多标记图像的目标分类***,包括:
待识别偏多标记图像获取模块,用于获取待识别偏多标记图像;待识别偏多标记图像中至少包括1个目标。
相关标记识别模块,用于将待识别偏多标记图像输入到相关标记确定模型中,确定待识别偏多标记图像中的所有目标的相关标记;相关标记确定模型是根据多张偏多标记历史图像,利用对比标签消歧原理对分类器进行训练得到的。
目标种类确定模块,用于根据多个相关标记确定待识别偏多标记图像中所有目标的种类;相关标记与目标种类一一对应。
实施例4
本实施例提供了一种电子设备,包括存储器及处理器,存储器用于存储计算机程序,处理器运行计算机程序以使电子设备执行实施例1所述的一种偏多标记图像的目标分类方法。其中,存储器为可读存储介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种偏多标记图像的目标分类方法,其特征在于,包括:
获取待识别偏多标记图像;所述待识别偏多标记图像中至少包括1个目标;
将待识别偏多标记图像输入到相关标记确定模型中,确定所述待识别偏多标记图像中的所有目标的相关标记;所述相关标记确定模型是根据多张偏多标记历史图像,利用对比标签消歧原理对分类器进行训练得到的;
根据多个所述相关标记确定待识别偏多标记图像中所有目标的种类;所述相关标记与目标种类一一对应。
2.根据权利要求1所述的一种偏多标记图像的目标分类方法,其特征在于,在获取待分类图像之前,还包括:
获取多张偏多标记历史图像;所述偏多标记历史图像上标注有多种标记;所述标记的种类为相关标记或噪声标记;
对所述偏多标记历史图像进行随机数据增广处理,得到偏多标记历史图像的query视图和key视图;
确定query视图下的标签级嵌入和key视图下的标签级嵌入;所述标签级嵌入与所述偏多标记历史图像上多个标记一一对应;
根据query视图下的标签级嵌入和key视图下的标签级嵌入,利用对比标签消歧原理对分类器进行训练,得到所述相关标记确定模型。
3.根据权利要求2所述的一种偏多标记图像的目标分类方法,其特征在于,在确定query视图下的标签级嵌入和key视图下的标签级嵌入之后,还包括:
确定query视图下的多个标签级嵌入的正负性;
确定key视图下的多个标签级嵌入的正负性。
4.根据权利要求3所述的一种偏多标记图像的目标分类方法,其特征在于,所述根据query视图下的标签级嵌入和key视图下的标签级嵌入,利用对比标签消歧原理对分类器进行训练,得到所述相关标记确定模型,包括:
确定所述分类器为第0次迭代时的分类器;
获取分类器中每种标记的初始正原型为第0次迭代时的正原型;
获取分类器中每种标记的初始负原型为第0次迭代时的负原型;
令第一迭代次数i=1;
令第二迭代次数j=1;
确定任一基于query视图下的任一标签级嵌入为当前标签级嵌入;
根据当前标签级嵌入的正负性,更新第i-1次迭代时的正原型和第i-1次迭代时的负原型;
计算当前标签级嵌入与更新后第i-1次迭代时的正原型的相似性为第一相似性;
计算当前标签级嵌入与更新后第i-1次迭代时的负原型的相似性为第二相似性;
根据所述第一相似性和第二相似性,确定当前标签级嵌入根据原型预测的标记向量;
根据所述标记向量更新当前标签级嵌入对应标记的伪标记,得到第j次迭代时当前标签级嵌入对应标记的伪标记;
令第二迭代次数j的数值增加1,经当前标签级嵌入更新为同一query视图下的当前标签级嵌入之外的当前标签级嵌入,并返回步骤“根据当前标签级嵌入的正负性,更新第i-1次迭代时的正原型和第i-1次迭代时的负原型”,直至第二迭代次数达到第二迭代次数阈值;
将对应query视图下的多个当前标签级嵌入输入第i-1次迭代时的分类器中,得到多个类别输出;
根据多个所述类别输出和多次迭代时当前标签级嵌入对应标记的伪标记,确定第i-1次迭代时的分类损失函数;
判断所述分类损失函数是否小于分类损失函数阈值,得到第一判断结果;
若所述第一判断结果为否,则更新第i-1次迭代时的分类器的参数,得到第i次迭代时的分类器,令第一迭代次数i的数值增加1,并返回步骤“令第二迭代次数j=1”;
若所述第一判断结果为是,则判断第一迭代次数是否达到第一迭代次数阈值,得到第二判断结果;
若所述第二判断结果为否,则确定第i-1次迭代时的分类器为第i次迭代时的分类器,令第一迭代次数i的数值增加1,并返回步骤“令第二迭代次数j=1”;
若所述第二判断结果为是,则确定第i-1次迭代时的分类器为所述相关标记确定模型。
5.根据权利要求3所述的一种偏多标记图像的目标分类方法,其特征在于,在确定第i-1次迭代时的分类器为所述相关标记确定模型之前,还包括:
确定query视图下的标签级嵌入和key视图下的标签级嵌入为嵌入池;所述嵌入池还包括动量标签级嵌入队列里的标签级嵌入;
确定query视图下任一正负性为正的标签级嵌入为当前正标签级嵌入;
确定嵌入池中与所述正标签级嵌入对应相同标记的正标签级嵌入为当前正标签级嵌入对应的正样本集合;
确定所述当前正标签级嵌入和当前正标签级嵌入对应的正样本集合中的样本构成多个正样本对;
确定根据同一query视图下多个正样本对,确定对应偏多标记历史图像的对比损失函数;
判断多个所述对比损失函数是否均小于对比损失函数阈值得到第三判断结果;
若所述第三判断结果为否,则更新第i-1次迭代时的分类器的参数,得到第0次迭代时的分类器,并返回步骤“令第一迭代次数i=1”;
若所述第三判断结果为是,则调用步骤“确定第i-1次迭代时的分类器为所述相关标记确定模型”。
6.一种偏多标记图像的目标分类***,其特征在于,包括:
待识别偏多标记图像获取模块,用于获取待识别偏多标记图像;所述待识别偏多标记图像中至少包括1个目标;
相关标记识别模块,用于将待识别偏多标记图像输入到相关标记确定模型中,确定所述待识别偏多标记图像中的所有目标的相关标记;所述相关标记确定模型是根据多张偏多标记历史图像,利用对比标签消歧原理对分类器进行训练得到的;
目标种类确定模块,用于根据多个所述相关标记确定待识别偏多标记图像中所有目标的种类;所述相关标记与目标种类一一对应。
7.一种电子设备,其特征在于,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行权利要求1至5中任一项所述的一种偏多标记图像的目标分类方法。
8.根据权利要求7所述的一种电子设备,其特征在于,所述存储器为可读存储介质。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310544125.XA CN116630694A (zh) | 2023-05-12 | 2023-05-12 | 一种偏多标记图像的目标分类方法、***及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310544125.XA CN116630694A (zh) | 2023-05-12 | 2023-05-12 | 一种偏多标记图像的目标分类方法、***及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116630694A true CN116630694A (zh) | 2023-08-22 |
Family
ID=87590462
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310544125.XA Pending CN116630694A (zh) | 2023-05-12 | 2023-05-12 | 一种偏多标记图像的目标分类方法、***及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116630694A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117992835A (zh) * | 2024-04-03 | 2024-05-07 | 安徽大学 | 多策略标签消歧的偏多标签分类方法、设备及存储介质 |
-
2023
- 2023-05-12 CN CN202310544125.XA patent/CN116630694A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117992835A (zh) * | 2024-04-03 | 2024-05-07 | 安徽大学 | 多策略标签消歧的偏多标签分类方法、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113378632B (zh) | 一种基于伪标签优化的无监督域适应行人重识别方法 | |
CN110516095B (zh) | 基于语义迁移的弱监督深度哈希社交图像检索方法和*** | |
CN112381098A (zh) | 基于目标分割领域自学习的半监督学习方法和*** | |
CN111079847B (zh) | 一种基于深度学习的遥感影像自动标注方法 | |
CN110909820A (zh) | 基于自监督学习的图像分类方法及*** | |
CN111127364B (zh) | 图像数据增强策略选择方法及人脸识别图像数据增强方法 | |
CN106815323B (zh) | 一种基于显著性检测的跨域视觉检索方法 | |
CN109743642B (zh) | 基于分层循环神经网络的视频摘要生成方法 | |
CN110889865B (zh) | 一种基于局部加权稀疏特征选择的视频目标跟踪方法 | |
CN112966135B (zh) | 一种基于注意力机制和门控机制的图文检索方法和*** | |
CN112312541A (zh) | 一种无线定位方法及*** | |
CN113095229B (zh) | 一种无监督域自适应行人重识别***及方法 | |
CN111582371A (zh) | 一种图像分类网络的训练方法、装置、设备及存储介质 | |
CN114926693A (zh) | 基于加权距离的sar图像小样本识别方法及装置 | |
CN115439685A (zh) | 一种小样本图像数据集划分方法及计算机可读存储介质 | |
CN113065409A (zh) | 一种基于摄像分头布差异对齐约束的无监督行人重识别方法 | |
CN117237733A (zh) | 一种结合自监督和弱监督学习的乳腺癌全切片图像分类方法 | |
CN116630694A (zh) | 一种偏多标记图像的目标分类方法、***及电子设备 | |
CN110442736B (zh) | 一种基于二次判别分析的语义增强子空间跨媒体检索方法 | |
CN113723572B (zh) | 船只目标识别方法、计算机***及程序产品、存储介质 | |
CN117516937A (zh) | 基于多模态特征融合增强的滚动轴承未知故障检测方法 | |
CN112465016A (zh) | 基于最优劣距的部分多标记学习方法 | |
CN112613474A (zh) | 一种行人重识别的方法和装置 | |
CN116433909A (zh) | 基于相似度加权多教师网络模型的半监督图像语义分割方法 | |
CN114299342B (zh) | 一种基于深度学习的多标记图片分类中未知标记分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |