CN113449775B - 一种基于类激活映射机制的多标签图像分类方法和*** - Google Patents

一种基于类激活映射机制的多标签图像分类方法和*** Download PDF

Info

Publication number
CN113449775B
CN113449775B CN202110625124.9A CN202110625124A CN113449775B CN 113449775 B CN113449775 B CN 113449775B CN 202110625124 A CN202110625124 A CN 202110625124A CN 113449775 B CN113449775 B CN 113449775B
Authority
CN
China
Prior art keywords
label
image
classification
loss function
original image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110625124.9A
Other languages
English (en)
Other versions
CN113449775A (zh
Inventor
汪洋涛
范立生
彭伟龙
谭伟强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou University
Original Assignee
Guangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou University filed Critical Guangzhou University
Priority to CN202110625124.9A priority Critical patent/CN113449775B/zh
Publication of CN113449775A publication Critical patent/CN113449775A/zh
Application granted granted Critical
Publication of CN113449775B publication Critical patent/CN113449775B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于类激活映射机制的多标签图像分类方法和***,方法包括获取待分类图像,并将所述待分类图像转换为多维张量;将所述多维张量输入分类模型,得到待分类图像的分类结果;其中,本发明在模型训练阶段首先将每张图像的标签转化成标签词向量,然后学习不同标签之间的共现关系,并将这些关系融入到标签词向量中,因此能够解决现有图像分类方法没能充分学习标签之间的依赖关系,而导致图像分类效果不佳的技术问题;另外,由于本发明在模型训练阶段结合了类激活映射机制,从而维持了同一张图像的不同风格的视觉一致性,进而提升了模型的分类效果,可广泛应用于人工智能技术领域。

Description

一种基于类激活映射机制的多标签图像分类方法和***
技术领域
本发明涉及人工智能技术领域,尤其是一种基于类激活映射机制的多标签图像分类方法和***。
背景技术
如今,多标签图像分类(Multi-label image classification)在计算机视觉领域得到了日渐广泛的应用,包括多目标识别、情感分析、医疗诊断识别等。由于每张图像中都包含多个对象,而且一张图像包含多种风格,因此如何有效地学习这些对象之间的关联关系、以及如何维持同一张图像的不同风格之间的视觉一致性依然充满着挑战性。
一般而言,现有的多标签图像分类方法首先利用卷积神经网络得到图像的特征向量,然后利用图卷积网络(Graph Convolutional Network,GCN)得到标签之间的共现关系词向量,最后直接采用向量的点积操作来融合图像特征和标签的共现关系词向量,但并没有考虑图像不同风格之间的视觉一致性,进而影响图形分类模型的图像识别性能。
发明内容
有鉴于此,本发明实施例提供一种基于类激活映射机制的多标签图像分类方法和***,以提高图形分类模型的图像识别性能。
本发明的一方面提供了一种基于类激活映射机制的多标签图像分类方法,包括:
获取待分类图像,并将所述待分类图像转换为多维张量;
将所述多维张量输入分类模型,得到待分类图像的分类结果;
其中,所述分类模型通过以下步骤训练得到:
获取训练集和测试集,并将所述训练集中的图像翻转;
将原图和所述翻转后的图像输入至目标网络,得到原图的第一特征图和第一特征向量,以及得到翻转后的图像的第二特征图和第二特征向量;
获取所述训练集中所有图像的标签,确定各个标签的标签词向量,根据所述标签词向量的共现关系词向量矩阵;
对所述第一特征向量和所述共现关系词向量矩阵进行融合,得到预测标签;
通过类激活映射机制将所述第一特征图和所述共现关系词向量进行融合,以及通过类激活映射机制将所述第二特征图和所述共现关系词向量进行融合,得到所述原图的第一注意力热图和所述翻转后的图像的第二注意力热图;
根据所述预测标签构建多标签分类损失函数,以及根据所述第一注意力热图和所述第二注意力热图构建注意力一致性损失函数;
根据所述多标签分类损失函数和所述注意力一致性损失函数,构建总损失函数;
根据所述总损失函数对所述分类模型进行迭代训练,得到训练好的分类模型,并根据该分类模型确定所述原图的最终的预测标签。
可选地,所述将原图和所述翻转后的图像输入至目标网络,得到原图的第一特征图和第一特征向量,以及得到翻转后的图像的第二特征图和第二特征向量,包括:
将所述原图和所述翻转后的图像输入ResNet-101网络;
从所述ResNet-101网络的输出层提取每张原图的第一特征图和第一特征向量;
从所述ResNet-101网络的输出层提取每张所述翻转后的图像的第二特征图和第二特征向量;
其中,所述第一特征图的表达式为:
F=Fcnn(x,θcnn)
所述第一特征向量的表达式为:
f=Fgmp(F)
所述第二特征图的表达式为:
F′=Fcnn(x′,θcnn)
所述第二特征向量的表达式为:
f′=Fgmp(F′)
其中,F代表第一特征图;Fcnn()代表ResNet-101网络;x代表原图;θcnn代表ResNet-101网络的参数;f代表第一特征向量;Fgmp()代表全局最大池化操作;F′代表第二特征图;x′代表所述翻转后的图像;f′代表第二特征向量。
可选地,所述获取所述训练集中所有图像的标签,确定各个标签的标签词向量,根据所述标签词向量的共现关系词向量矩阵,包括:
获取所述训练集中所有图像的标签,将每个标签输入GloVe模型中,生成每个标签对应的标签词向量;
将所述标签词向量构建标签词向量矩阵;
统计每类标签在训练集中出现的次数,根据每类标签在训练集中出现的次数计算任意两类标签之间的条件概率;
根据所述条件概率生成关系矩阵;
将所述标签词向量矩阵和所述关系矩阵输入GCN网络,得到共现关系词向量矩阵。
可选地,所述对所述第一特征向量和所述共现关系词向量矩阵进行融合,得到预测标签,包括:
使用向量的点积操作对所述第一特征向量和所述共现关系词向量矩阵进行融合,得到所述原图的预测标签。
可选地,所述方法还包括:
通过所述测试集对所述训练好的分类模型进行验证,以对所述分类模型进行优化。
可选地,所述多标签分类损失函数的表达式为:
Figure GDA0004000062500000031
其中,L1代表多标签分类损失函数的值;
Figure GDA0004000062500000032
Y表示原图x的预测标签,
Figure GDA0004000062500000033
表示原图x的第i个标签是否出现在图像中,
Figure GDA0004000062500000034
表示图像x的第i个标签出现在图像中,
Figure GDA0004000062500000035
表示图像x的第i个标签没有出现在图像中。
可选地,所述注意力一致性损失函数的表达式为:
Figure GDA0004000062500000036
其中,L2代表注意力一致性损失函数的值;g代表对特征图的翻转操作;
Figure GDA0004000062500000037
表示使用二范数计算。
本发明实施例的另一方面提供了一种基于类激活映射机制的多标签图像分类***,包括:
第一模块,用于获取待分类图像,并将所述待分类图像转换为多维张量;
第二模块,用于将所述多维张量输入分类模型,得到待分类图像的分类结果;
其中,所述分类模型通过以下模块训练得到:
第三模块,用于获取训练集和测试集,并将所述训练集中的图像翻转;
第四模块,用于将原图和所述翻转后的图像输入至目标网络,得到原图的第一特征图和第一特征向量,以及得到翻转后的图像的第二特征图和第二特征向量;
第五模块,用于获取所述训练集中所有图像的标签,确定各个标签的标签词向量,根据所述标签词向量的共现关系词向量矩阵;
第六模块,用于对所述第一特征向量和所述共现关系词向量矩阵进行融合,得到预测标签;
第七模块,用于通过类激活映射机制将所述第一特征图和所述共现关系词向量进行融合,以及通过类激活映射机制将所述第二特征图和所述共现关系词向量进行融合,得到所述原图的第一注意力热图和所述翻转后的图像的第二注意力热图;
第八模块,用于根据所述预测标签构建多标签分类损失函数,以及根据所述第一注意力热图和所述第二注意力热图构建注意力一致性损失函数;
第九模块,用于根据所述多标签分类损失函数和所述注意力一致性损失函数,构建总损失函数;
第十模块,用于根据所述总损失函数对所述分类模型进行迭代训练,得到训练好的分类模型,并根据该分类模型确定所述原图的最终的预测标签。
本发明实施例的另一方面提供了一种电子设备,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如前面所述的方法。
本发明实施例的另一方面提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的方法。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
本发明的实施例在模型训练阶段首先将每张图像的标签转化成标签词向量,然后学习不同标签之间的共现关系,并将这些关系融入到标签词向量中,因此能够解决现有图像分类方法没能充分学习标签之间的依赖关系,而导致图像分类效果不佳的技术问题;另外,由于本发明在模型训练阶段结合了类激活映射机制,从而维持了同一张图像的不同风格的视觉一致性,进而提升了模型的分类效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于类激活映射机制的多标签图像分类方法的整体框架示意图;
图2是本发明在FLICKR25K数据集上的AP和mAP测试结果;
图3是本发明基于类激活映射机制的多标签图像分类方法的流程图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
针对现有技术存在的问题,本发明实施例提供了一种基于类激活映射机制的多标签图像分类方法,包括:
获取待分类图像,并将所述待分类图像转换为多维张量;
将所述多维张量输入分类模型,得到待分类图像的分类结果;
其中,所述分类模型通过以下步骤训练得到:
获取训练集和测试集,并将所述训练集中的图像翻转;
将原图和所述翻转后的图像输入至目标网络,得到原图的第一特征图和第一特征向量,以及得到翻转后的图像的第二特征图和第二特征向量;
获取所述训练集中所有图像的标签,确定各个标签的标签词向量,根据所述标签词向量的共现关系词向量矩阵;
对所述第一特征向量和所述共现关系词向量矩阵进行融合,得到预测标签;
通过类激活映射机制将所述第一特征图和所述共现关系词向量进行融合,以及通过类激活映射机制将所述第二特征图和所述共现关系词向量进行融合,得到所述原图的第一注意力热图和所述翻转后的图像的第二注意力热图;
根据所述预测标签构建多标签分类损失函数,以及根据所述第一注意力热图和所述第二注意力热图构建注意力一致性损失函数;
根据所述多标签分类损失函数和所述注意力一致性损失函数,构建总损失函数;
根据所述总损失函数对所述分类模型进行迭代训练,得到训练好的分类模型,并根据该分类模型确定所述原图的最终的预测标签。
可选地,所述将原图和所述翻转后的图像输入至目标网络,得到原图的第一特征图和第一特征向量,以及得到翻转后的图像的第二特征图和第二特征向量,包括:
将所述原图和所述翻转后的图像输入ResNet-101网络;
从所述ResNet-101网络的输出层提取每张原图的第一特征图和第一特征向量;
从所述ResNet-101网络的输出层提取每张所述翻转后的图像的第二特征图和第二特征向量;
其中,所述第一特征图的表达式为:
F=Fcnn(x,θcnn)
所述第一特征向量的表达式为:
f=Fgmp(F)
所述第二特征图的表达式为:
F′=Fcnn(x′,θcnn)
所述第二特征向量的表达式为:
f′=Fgmp(F′)
其中,F代表第一特征图;Fcnn()代表ResNet-101网络;x代表原图;θcnn代表ResNet-101网络的参数;f代表第一特征向量;Fgmp()代表全局最大池化操作;F′代表第二特征图;x′代表所述翻转后的图像;f′代表第二特征向量。
可选地,所述获取所述训练集中所有图像的标签,确定各个标签的标签词向量,根据所述标签词向量的共现关系词向量矩阵,包括:
获取所述训练集中所有图像的标签,将每个标签输入GloVe模型中,生成每个标签对应的标签词向量;
将所述标签词向量构建标签词向量矩阵;
统计每类标签在训练集中出现的次数,根据每类标签在训练集中出现的次数计算任意两类标签之间的条件概率;
根据所述条件概率生成关系矩阵;
将所述标签词向量矩阵和所述关系矩阵输入GCN网络,得到共现关系词向量矩阵。
可选地,所述对所述第一特征向量和所述共现关系词向量矩阵进行融合,得到预测标签,包括:
使用向量的点积操作对所述第一特征向量和所述共现关系词向量矩阵进行融合,得到所述原图的预测标签。
可选地,所述方法还包括:
通过所述测试集对所述训练好的分类模型进行验证,以对所述分类模型进行优化。
可选地,所述多标签分类损失函数的表达式为:
Figure GDA0004000062500000061
其中,L1代表多标签分类损失函数的值;
Figure GDA0004000062500000071
Y表示原图x的预测标签,
Figure GDA0004000062500000072
表示原图x的第i个标签是否出现在图像中,
Figure GDA0004000062500000073
表示图像x的第i个标签出现在图像中,
Figure GDA0004000062500000074
表示图像x的第i个标签没有出现在图像中。
可选地,所述注意力一致性损失函数的表达式为:
Figure GDA0004000062500000075
其中,L2代表注意力一致性损失函数的值;g代表对特征图的翻转操作;
Figure GDA0004000062500000076
表示使用二范数计算。
本发明实施例的另一方面提供了一种基于类激活映射机制的多标签图像分类***,包括:
第一模块,用于获取待分类图像,并将所述待分类图像转换为多维张量;
第二模块,用于将所述多维张量输入分类模型,得到待分类图像的分类结果;
其中,所述分类模型通过以下模块训练得到:
第三模块,用于获取训练集和测试集,并将所述训练集中的图像翻转;
第四模块,用于将原图和所述翻转后的图像输入至目标网络,得到原图的第一特征图和第一特征向量,以及得到翻转后的图像的第二特征图和第二特征向量;
第五模块,用于获取所述训练集中所有图像的标签,确定各个标签的标签词向量,根据所述标签词向量的共现关系词向量矩阵;
第六模块,用于对所述第一特征向量和所述共现关系词向量矩阵进行融合,得到预测标签;
第七模块,用于通过类激活映射机制将所述第一特征图和所述共现关系词向量进行融合,以及通过类激活映射机制将所述第二特征图和所述共现关系词向量进行融合,得到所述原图的第一注意力热图和所述翻转后的图像的第二注意力热图;
第八模块,用于根据所述预测标签构建多标签分类损失函数,以及根据所述第一注意力热图和所述第二注意力热图构建注意力一致性损失函数;
第九模块,用于根据所述多标签分类损失函数和所述注意力一致性损失函数,构建总损失函数;
第十模块,用于根据所述总损失函数对所述分类模型进行迭代训练,得到训练好的分类模型,并根据该分类模型确定所述原图的最终的预测标签。
本发明实施例的另一方面提供了一种电子设备,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如前面所述的方法。
本发明实施例的另一方面提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的方法。
下面结合说明书附图,对本发明实施例的具体实现过程进行详细描述:
本发明是在图卷积网络(GCN)和类激活映射(CAM)机制基础上实现的,通过模拟标签之间的依赖关系,利用GCN学习标签之间的共现关系,进而利用CAM维持图像的视觉一致性,提升了模型的图像分类性能。
在本发明的实验中,通过在多标签图像数据集上测试,本发明发现在多标签数据集上AP和mAP分类性能都有提升。其原因在于,GCN和CAM机制的结合,不仅学到了多标签图像的标签相关性也维持了图像的视觉一致性,从而提升了模型的分类性能。
如图1和图3所示,本发明提供了一种基于类激活映射机制的多标签图像分类方法,包括以下步骤:
(1)获取待分类图像,使用Python图像库(Python Image Library,简称PIL库)将该待分类图像转换为多维张量;
具体而言,本步骤是使用PIL库中的Image.open().convert(‘RGB’)函数和Image.resize()函数将待分类图像转化为3×224×224维张量。
(2)将步骤(1)得到的多维张量输入到预先训练好的分类模型中,以得到待分类图像的分类结果。
本发明的分类模型包括依次连接的ResNet-101网络、GCN网络。
具体而言,GCN网络包括2层,其结构如下:第一层是图卷积层,其输入为C×d维标签词向量矩阵和C×C维关系矩阵,该层使用d×1024维权重矩阵,该层输出为C×1024维标签词向量共现矩阵;第二层是图卷积层,其输入为上一层的C×1024维标签词向量共现矩阵和C×C维关系矩阵,该层使用1024×D维权重矩阵,该层输出为C×D维标签词向量共现矩阵。
具体而言,本步骤中的分类模型是通过以下步骤(2-1)至(2-5)训练得到的:
(2-1)、获取P张图像所构成的训练集和K张图像构成的测试集,将训练集中的图像翻转,并将原图和翻转之后的图像一起输入到ResNet-101网络中,以从该网络的输出层提取每张原图x∈{x1,x2,…,xN}的M×N×D维特征图F和D维特征向量f以及每张翻转后的图像x′∈{x1′,x2′,…,xN′}的M×N×D维特征图F′和D维特征向量f′:
F=Fcnn(x,θcnn)
f=Fgmp(F)
F′=Fcnn(x′,θcnn)
f′=Fgmp(F′)
其中,P和K为自然数,且P大于等于K,Fgmp表示全局最大池化操作,Fcnn表示ResNet-101网络,θcnn表示ResNet-101网络的参数,M=N=14,D=2048。
在FLICKR25K数据集中,P为12500,K为12500。
(2-2)、获取训练集中所有P张图像的标签,将每个标签输入GloVe模型中,以生成每个标签对应的标签词向量(其是d维),所有的标签词向量构成一个C×d维标签词向量矩阵Z,其中C表示标签的类别数目,d=300;统计每类标签在训练集中出现的次数,根据每类标签在训练集中出现的次数计算任意两类标签之间的条件概率,所有条件概率构成C×C维关系矩阵A,将获取的标签词向量矩阵Z和关系矩阵A输入到GCN中,以获得所有C类标签对应的C×D维共现关系词向量矩阵W。
本步骤中统计每类标签在训练集中出现的次数,根据每类标签在训练集中出现的次数计算任意两类标签之间的条件概率,所有条件概率构成C×C维关系矩阵A,将获取的标签词向量矩阵Z和关系矩阵A输入到GCN中,以获得所有C类标签对应的C×D维共现关系词向量矩阵W这一过程具体为:
首先,对C类标签中每类标签在训练集中出现的次数以及C类标签中任意两类标签在训练集中同时出现的次数进行统计,以获取这两类标签之间的条件概率:
Figure GDA0004000062500000091
其中,Ti和Tj分别表示一类标签oi和另一类标签oj在训练集中出现的次数,Tij表示标签oi和标签oj同时在训练集中出现的次数,i和j均为正整数,且i和j均∈[1,C]Pij表示oj出现的条件下,oi出现的概率。
然后,将以上得到的所有两类标签之间的条件概率构建为C×C维关系矩阵A;
随后,为了避免小概率的数据对影响模型的收敛,使用阈值ε对关系矩阵A进行二值化处理,以得到二值化后的关系矩阵:
Figure GDA0004000062500000092
其中ε∈[0,1],优选为0.4。
随后,为了避免在GCN传播的过程中出现过度平滑的问题而导致节点的特征不可区分,使用阈值δ对二值化后的关系矩阵进行处理,以生成最终的关系矩阵A:
Figure GDA0004000062500000101
其中δ∈[0,1],优选为0.2。
接下来,将最终的关系矩阵A输入GCN中,以获取GCN中第l+1层的共现关系词向量矩阵Zl+1,其中l∈[0,1],最终得到的共现关系词向量矩阵Z2就是所有C类标签对应的C×D维共现关系词向量矩阵W:
Figure GDA0004000062500000102
其中,Zl,Ul和fl分别表示GCN中第l层的输入特征矩阵、第l层的权重矩阵、以及第l层的非线性激活函数,Z0=Z,
Figure GDA0004000062500000103
表示最终的关系矩阵A的标准化版本,其计算过程如下:
Figure GDA0004000062500000104
其中,
Figure GDA0004000062500000105
IC是单位矩阵,
Figure GDA0004000062500000106
是对角矩阵且满足
Figure GDA0004000062500000107
本步骤的优点在于,首先将每张图像的标签转化成标签词向量,然后使用条件概率模拟了标签之间的依赖关系,进而采用GCN学习不同标签之间的共现关系,并将这些关系融入到标签词向量中,因此能够解决现有图像分类方法没能充分学习标签之间的依赖关系,而导致图像分类效果不佳的技术问题。
(2-3)、使用向量的点积操作对步骤(2-1)得到的D维特征向量f和步骤(2-2)得到的共现关系词向量矩阵W进行融合,以获得图像x的C维预测标签Y,使用类激活映射机制对步骤(2-1)得到的M×N×D维特征图F与F′分别和步骤(2-2)得到的共现关系词向量矩阵W进行融合,以获得图像x和x′的注意力热图Q和Q′。
本步骤(2-3)具体为,首先,通过向量的点积操作对f和W进行融合,得到x的C维预测标签
Figure GDA0004000062500000108
其中
Figure GDA0004000062500000109
代表点积操作。
然后,通过类激活映射机制分别将F和F′与W进行融合,得到x的注意力热图Q=F⊙W和x′的注意力热图Q′=F′⊙W,其中⊙代表类激活映射操作。
本步骤的优点在于,采用了CAM机制能有效的学习同一张图像的不同风格之间的视觉一致性,进而提升了模型的分类效果。
(2-4)根据步骤(2-3)得到的图像x预测标签Y设计多标签分类损失函数L1,根据步骤(2-3)得到的注意力热图Q和Q′设计注意力一致性损失函数L2,联合L1和L2得到损失函数L=L1+L2对分类模型进行迭代训练,直到该模型收敛为止,从而得到训练好的分类模型,并获得此时图像x的预测标签Y。
本步骤(2-4)具体为,首先,多标签分类损失函数L1为:
Figure GDA0004000062500000111
其中,
Figure GDA0004000062500000112
Y表示图像x的预测标签,
Figure GDA0004000062500000113
表示图像x的第i个标签是否出现在图像中,
Figure GDA0004000062500000114
表示图像x的第i个标签出现在图像中,
Figure GDA0004000062500000115
表示图像x的第i个标签没有出现在图像中。
然后,注意力一致性损失函数L2为:
Figure GDA0004000062500000116
其中,g代表对特征图的翻转操作,
Figure GDA0004000062500000117
表示使用二范数计算。
(2-5)使用步骤(2-1)得到的K张图像构成的测试集对训练好的模型进行验证,直到得到的分类精度达到最优为止,从而得到训练好的分类模型。
另外,针对本发明的多标签图像分类方法,本实施例对该方案的识别结果进行实验,以验证本发明的方法带来的改进效果。
本发明实验环境:CPU为10枚Inter Xeon(R)@2.4GHz,GPU为2块NVIDIA TeslaK40m 12GB,内存为64GB DDR4,硬盘容量为8TB,在Ubuntu 16.04操作***下,采用Pytorch编程实现本文算法。具体的参数设置如下:batch size大小为32,初始学习率为0.1,每40个epoch之后变为原来的0.1倍。
为了说明CAM在本发明中的有效性,本发明在FLICKR25K数据集上做了相关的测试,并记录了模型在不同对象下的AP值以及总体的mAP值,图2给出了测试结果。由图2可知,相比于当前未使用CAM机制的多标签图像方法VACIT,本发明在绝大部分对象上的AP值都有提升,平均分类准确性mAP提升在1%左右,这反映了本发明确实有效维持了图像的视觉一致性并提升了多标签图像分类性能。
综上所述,相较于现有技术,本发明具有以下显著的优点:
(1)由于本发明在模型训练阶段首先将每张图像的标签转化成标签词向量,然后使用条件概率模拟了标签之间的依赖关系,进而采用GCN学习不同标签之间的共现关系,并将这些关系融入到标签词向量中,因此能够解决现有图像分类方法没能充分学习标签之间的依赖关系,而导致图像分类效果不佳的技术问题。
(2)由于本发明在模型训练阶段结合了类激活映射机制,从而维持了同一张图像的不同风格的视觉一致性,进而提升了模型的分类效果。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (9)

1.一种基于类激活映射机制的多标签图像分类方法,其特征在于,包括:
获取待分类图像,并将所述待分类图像转换为多维张量;
将所述多维张量输入分类模型,得到待分类图像的分类结果;
其中,所述分类模型通过以下步骤训练得到:
获取训练集和测试集,并将所述训练集中的图像翻转;
将原图和所述翻转后的图像输入至目标网络,得到原图的第一特征图和第一特征向量,以及得到翻转后的图像的第二特征图和第二特征向量;
获取所述训练集中所有图像的标签,确定各个标签的标签词向量,根据所述标签词向量的共现关系词向量矩阵;
对所述第一特征向量和所述共现关系词向量矩阵进行融合,得到预测标签;
通过类激活映射机制将所述第一特征图和所述共现关系词向量进行融合,以及通过类激活映射机制将所述第二特征图和所述共现关系词向量进行融合,得到所述原图的第一注意力热图和所述翻转后的图像的第二注意力热图;
根据所述预测标签构建多标签分类损失函数,以及根据所述第一注意力热图和所述第二注意力热图构建注意力一致性损失函数;
根据所述多标签分类损失函数和所述注意力一致性损失函数,构建总损失函数;
根据所述总损失函数对所述分类模型进行迭代训练,得到训练好的分类模型,并根据该分类模型确定所述原图的最终的预测标签;
所述将原图和所述翻转后的图像输入至目标网络,得到原图的第一特征图和第一特征向量,以及得到翻转后的图像的第二特征图和第二特征向量,包括:
将所述原图和所述翻转后的图像输入ResNet-101网络;
从所述ResNet-101网络的输出层提取每张原图的第一特征图和第一特征向量;
从所述ResNet-101网络的输出层提取每张所述翻转后的图像的第二特征图和第二特征向量;
所述获取所述训练集中所有图像的标签,确定各个标签的标签词向量,根据所述标签词向量的共现关系词向量矩阵,包括:
获取所述训练集中所有图像的标签,将每个标签输入GloVe模型中,生成每个标签对应的标签词向量;
将所述标签词向量构建标签词向量矩阵;
统计每类标签在训练集中出现的次数,根据每类标签在训练集中出现的次数计算任意两类标签之间的条件概率;
根据所述条件概率生成关系矩阵;
将所述标签词向量矩阵和所述关系矩阵输入GCN网络,得到共现关系词向量矩阵。
2.根据权利要求1所述的基于类激活映射机制的多标签图像分类方法,其特征在于,所述第一特征图的表达式为:
F=Fcnn(x,θcnn)
所述第一特征向量的表达式为:
f=Fgmp(F)
所述第二特征图的表达式为:
F′=Fcnn(x′,θcnn)
所述第二特征向量的表达式为:
f′=Fgmp(F′)
其中,F代表第一特征图;Fcnn()代表ResNet-101网络;x代表原图;θcnn代表ResNet-101网络的参数;f代表第一特征向量;Fgmp()代表全局最大池化操作;F′代表第二特征图;x′代表所述翻转后的图像;f′代表第二特征向量。
3.根据权利要求1所述的一种基于类激活映射机制的多标签图像分类方法,其特征在于,所述对所述第一特征向量和所述共现关系词向量矩阵进行融合,得到预测标签,包括:
使用向量的点积操作对所述第一特征向量和所述共现关系词向量矩阵进行融合,得到所述原图的预测标签。
4.根据权利要求1所述的一种基于类激活映射机制的多标签图像分类方法,其特征在于,所述方法还包括:
通过所述测试集对所述训练好的分类模型进行验证,以对所述分类模型进行优化。
5.根据权利要求1所述的一种基于类激活映射机制的多标签图像分类方法,其特征在于,所述多标签分类损失函数的表达式为:
Figure FDA0003918616220000021
其中,L1代表多标签分类损失函数的值;
Figure FDA0003918616220000022
Y表示原图x的预测标签,
Figure FDA0003918616220000023
表示原图x的第i个标签是否出现在图像中,
Figure FDA0003918616220000024
表示图像x的第i个标签出现在图像中,
Figure FDA0003918616220000031
表示图像x的第i个标签没有出现在图像中。
6.根据权利要求1所述的一种基于类激活映射机制的多标签图像分类方法,其特征在于,所述注意力一致性损失函数的表达式为:
Figure FDA0003918616220000032
其中,L2代表注意力一致性损失函数的值;g代表对特征图的翻转操作;
Figure FDA0003918616220000033
表示使用二范数计算。
7.一种基于类激活映射机制的多标签图像分类***,其特征在于,包括:
第一模块,用于获取待分类图像,并将所述待分类图像转换为多维张量;
第二模块,用于将所述多维张量输入分类模型,得到待分类图像的分类结果;
其中,所述分类模型通过以下模块训练得到:
第三模块,用于获取训练集和测试集,并将所述训练集中的图像翻转;
第四模块,用于将原图和所述翻转后的图像输入至目标网络,得到原图的第一特征图和第一特征向量,以及得到翻转后的图像的第二特征图和第二特征向量;所述将原图和所述翻转后的图像输入至目标网络,得到原图的第一特征图和第一特征向量,以及得到翻转后的图像的第二特征图和第二特征向量,包括:
将所述原图和所述翻转后的图像输入ResNet-101网络;
从所述ResNet-101网络的输出层提取每张原图的第一特征图和第一特征向量;
从所述ResNet-101网络的输出层提取每张所述翻转后的图像的第二特征图和第二特征向量;
第五模块,用于获取所述训练集中所有图像的标签,确定各个标签的标签词向量,根据所述标签词向量的共现关系词向量矩阵;所述获取所述训练集中所有图像的标签,确定各个标签的标签词向量,根据所述标签词向量的共现关系词向量矩阵,包括:
获取所述训练集中所有图像的标签,将每个标签输入GloVe模型中,生成每个标签对应的标签词向量;
将所述标签词向量构建标签词向量矩阵;
统计每类标签在训练集中出现的次数,根据每类标签在训练集中出现的次数计算任意两类标签之间的条件概率;
根据所述条件概率生成关系矩阵;
将所述标签词向量矩阵和所述关系矩阵输入GCN网络,得到共现关系词向量矩阵;
第六模块,用于对所述第一特征向量和所述共现关系词向量矩阵进行融合,得到预测标签;
第七模块,用于通过类激活映射机制将所述第一特征图和所述共现关系词向量进行融合,以及通过类激活映射机制将所述第二特征图和所述共现关系词向量进行融合,得到所述原图的第一注意力热图和所述翻转后的图像的第二注意力热图;
第八模块,用于根据所述预测标签构建多标签分类损失函数,以及根据所述第一注意力热图和所述第二注意力热图构建注意力一致性损失函数;
第九模块,用于根据所述多标签分类损失函数和所述注意力一致性损失函数,构建总损失函数;
第十模块,用于根据所述总损失函数对所述分类模型进行迭代训练,得到训练好的分类模型,并根据该分类模型确定所述原图的最终的预测标签。
8.一种电子设备,其特征在于,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如权利要求1-6中任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述存储介质存储有程序,所述程序被处理器执行实现如权利要求1-6中任一项所述的方法。
CN202110625124.9A 2021-06-04 2021-06-04 一种基于类激活映射机制的多标签图像分类方法和*** Active CN113449775B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110625124.9A CN113449775B (zh) 2021-06-04 2021-06-04 一种基于类激活映射机制的多标签图像分类方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110625124.9A CN113449775B (zh) 2021-06-04 2021-06-04 一种基于类激活映射机制的多标签图像分类方法和***

Publications (2)

Publication Number Publication Date
CN113449775A CN113449775A (zh) 2021-09-28
CN113449775B true CN113449775B (zh) 2023-02-24

Family

ID=77810761

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110625124.9A Active CN113449775B (zh) 2021-06-04 2021-06-04 一种基于类激活映射机制的多标签图像分类方法和***

Country Status (1)

Country Link
CN (1) CN113449775B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114155365B (zh) * 2022-02-07 2022-06-14 北京航空航天大学杭州创新研究院 模型训练方法、图像处理方法及相关装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112199536A (zh) * 2020-10-15 2021-01-08 华中科技大学 一种基于跨模态的快速多标签图像分类方法和***
CN112395438A (zh) * 2020-11-05 2021-02-23 华中科技大学 一种多标签图像的哈希码生成方法和***
CN112700434A (zh) * 2021-01-12 2021-04-23 苏州斯玛维科技有限公司 医学图像的分类方法及其分类装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111276240B (zh) * 2019-12-30 2023-04-28 广州西思数字科技有限公司 一种基于图卷积网络的多标签多模态全息脉象识别方法
CN111931859B (zh) * 2020-08-28 2023-10-24 中国科学院深圳先进技术研究院 一种多标签图像识别方法和装置
CN112308115B (zh) * 2020-09-25 2023-05-26 安徽工业大学 一种多标签图像深度学习分类方法及设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112199536A (zh) * 2020-10-15 2021-01-08 华中科技大学 一种基于跨模态的快速多标签图像分类方法和***
CN112395438A (zh) * 2020-11-05 2021-02-23 华中科技大学 一种多标签图像的哈希码生成方法和***
CN112700434A (zh) * 2021-01-12 2021-04-23 苏州斯玛维科技有限公司 医学图像的分类方法及其分类装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Learning Category Correlations for Multi-label Image Recognition with Graph Networks;Qing Li et al;《arXiv》;20190928;第1915-1925页 *
Visual Attention Consistency under Image Transforms for Multi-Label Image Classification;Hao Guo et al;《2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》;20191231;第729-739页 *

Also Published As

Publication number Publication date
CN113449775A (zh) 2021-09-28

Similar Documents

Publication Publication Date Title
CN109313940B (zh) 医疗装置植入路径的虚拟评估
CN113807412B (zh) 一种多标签图像分类方法、装置、设备及存储介质
CN112199536A (zh) 一种基于跨模态的快速多标签图像分类方法和***
CN111091175A (zh) 神经网络模型训练方法、分类方法、装置和电子设备
CN113272827A (zh) 卷积神经网络中分类决策的验证
CN113657425A (zh) 基于多尺度与跨模态注意力机制的多标签图像分类方法
CN111680701A (zh) 图像识别模型的训练方法、装置及图像识别方法、装置
CN110188827A (zh) 一种基于卷积神经网络和递归自动编码器模型的场景识别方法
US11710552B2 (en) Method and system for refining label information
CN113792768A (zh) 超图神经网络分类方法和装置
CN114332893A (zh) 表格结构识别方法、装置、计算机设备和存储介质
CN113449775B (zh) 一种基于类激活映射机制的多标签图像分类方法和***
CN111611796A (zh) 下位词的上位词确定方法、装置、电子设备及存储介质
Bianchi et al. Improving image classification robustness through selective cnn-filters fine-tuning
Ehrhardt et al. Autoencoders and variational autoencoders in medical image analysis
CN117893839A (zh) 一种基于图注意力机制的多标记分类方法及***
Zemmari et al. Deep Learning in Mining of Visual Content
US20220076129A1 (en) Method of training a deep neural network to classify data
Liang et al. Large-scale image classification using fast svm with deep quasi-linear kernel
Gupta et al. Heterogeneous ensemble with information theoretic diversity measure for human epithelial cell image classification
CN118035751B (zh) 用于大语言模型微调训练的数据构建方法及装置
CN114898339B (zh) 驾驶行为预测模型的训练方法、装置、设备、存储介质
CN114936327B (zh) 元素识别模型的获取方法、装置、计算机设备和存储介质
Gu et al. Multi-label Learning by Exploiting Imbalanced Label Correlations
Garcia Visual analytics as a tool for deep learning engineering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant