CN112163465A - 细粒度图像分类方法、***、计算机设备及存储介质 - Google Patents

细粒度图像分类方法、***、计算机设备及存储介质 Download PDF

Info

Publication number
CN112163465A
CN112163465A CN202010951989.XA CN202010951989A CN112163465A CN 112163465 A CN112163465 A CN 112163465A CN 202010951989 A CN202010951989 A CN 202010951989A CN 112163465 A CN112163465 A CN 112163465A
Authority
CN
China
Prior art keywords
fine
attention
image classification
grained image
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010951989.XA
Other languages
English (en)
Other versions
CN112163465B (zh
Inventor
王伟凝
郭沛榕
李乐敏
谭燕
石红霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202010951989.XA priority Critical patent/CN112163465B/zh
Publication of CN112163465A publication Critical patent/CN112163465A/zh
Application granted granted Critical
Publication of CN112163465B publication Critical patent/CN112163465B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/698Matching; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种细粒度图像分类方法、***、计算机设备及存储介质,所述方法包括:搭建细粒度图像分类网络,所述细粒度图像分类网络为注意力抑制与注意力增强的双分支网络,包括残差网络和注意力层;获取训练集,所述训练集由多张训练图像构成;利用训练集对细粒度图像分类网络进行训练,采用梯度推进的最大值与最小值交叉熵损失函数,得到细粒度图像分类模型;获取待分类图像;将待分类图像输入细粒度图像分类模型中,使待分类图像在残差网络中流动,而不经过注意力层,得到类别预测结果。本发明基于弱监督学习与注意力机制实现,能够使训练得到的细粒度图像分类模型实现较好的细粒度图像分类效果。

Description

细粒度图像分类方法、***、计算机设备及存储介质
技术领域
本发明涉及一种细粒度图像分类方法、***、计算机设备及存储介质,属于细粒度图像分类领域。
背景技术
图像分类任务可以分为粗粒度分类与细粒度分类两个类别。粗粒度分类指的是区分物体的基本类别。而细粒度分类指的是在同一个基本类别中,对图像进行更精细的划分,正确识别图像的子类别,例如识别出同属鸟类的黄鹂与海鸥。由于属于同一基本类别,细粒度图像具有更小的外观差异,呈现出类间差异小,类内差异大的特点。由于细粒度图像分类的挑战性以及其实用性,越来越多的学者投入到这一领域的研究中。
早期的细粒度分类的工作,大多采用传统方法,通过提取特征来对图像进行分类。近年来,随着深度学习的发展,卷积神经网络逐渐被应用到细粒度分类领域,很多专家学者也提出了很多端到端的算法来完成细粒度分类任务。相比于传统方法,卷积神经网络往往达到更好的准确率。
深度学习的应用需要大量的数据进行训练,现有的基于深度学习的细粒度分类工作主要可以分为两类,一类引入了额外的部件或关键点的细粒度标注,例如鸟类图片中鸟的头部与尾部部件框;另一类仅使用图像级标注,即只使用图像的类别信息。前者将大大增加标注的难度与工作量,需要更多的专家知识。后者标注难度相对较小,但缺少物体关键部位的信息。现有的很多方法,采用了仅依赖于图像级标注的弱监督方法来定位物体的关键部位,进而提高了细粒度分类的可用性与扩展性。
在理解一个视觉场景时,人类视觉***会经历三个阶段。这些阶段包括视觉激活显著区域、视觉选择感兴趣区域、视觉注视局部区域做出最终决策。专家在标注图像时,一般依序寻找物体区域和判别性区域。受此启发,基于弱监督的细粒度分类算法中,首先自动定位判别区域的位置,然后提取判别区域的特征,利用判别区域的特征进行分类,得到预测分类结果。
但是,现有的基于弱监督学习的细粒度分类方法,存在着以下的局限性:
(1)部分模型只能定位少量的或者数量受限制的判别区域,一般为1~4个。同时,定位判别区域的数量需要预先设置,一般不能轻易改变。在部分模型中,改变这一数值将会影响模型的结构设置。
(2)部分模型不能精确定位判别区域,往往只能覆盖到物体判别区域的一部分。主要原因在于交叉熵损失函数主要关注到最具有判别力的区域而忽略了次判别区域。但在很多情况下,次判别区域的信息对于分类也有较大作用。
(3)部分模型较为复杂,不能进行端到端的训练。大多数模型在定位判别区域后,将判别区域裁剪出来,之后再次将裁剪图像送入网络进行进一步提取特征。这导致了模型需要多次重复的训练、额外的分类器或者多次前馈计算,消耗大量的计算资源与训练时间。
(4)部分工作采用擦除判别区域的方式,以鼓励模型学习次判别区域,进而能够准确定位完整的判别区域。但目前很多擦除方式丢弃过多连续性区域、忽略像素间的相关性或不符合人类视觉感知过程。
因此,上述局限性影响了细粒度分类的性能。
发明内容
有鉴于此,本发明提供了一种细粒度图像分类方法、***、计算机设备及存储介质,其采用的细粒度图像分类网络为注意力抑制与注意力增强的双分支网络,两个分支之间共同作用、相互促进,能够获得良好的分类性能,而且采用的损失函数为梯度推进的最大值最小值损失函数,能使训练得到的细粒度图像分类模型达到更好的分类效果,同时具有正则化效果。
本发明的第一个目的在于提供一种细粒度图像分类方法。
本发明的第二个目的在于提供一种细粒度图像分类***。
本发明的第三个目的在于提供一种计算机设备。
本发明的第四个目的在于提供一种存储介质。
本发明的第一个目的可以通过采取如下技术方案达到:
一种细粒度图像分类方法,所述方法包括:
搭建细粒度图像分类网络;其中,所述细粒度图像分类网络为注意力抑制与注意力增强的双分支网络,包括残差网络和注意力层;
获取训练集;其中,所述训练集由多张训练图像构成;
利用训练集对细粒度图像分类网络进行训练,采用梯度推进的最大值与最小值交叉熵损失函数,得到细粒度图像分类模型;
获取待分类图像;
将待分类图像输入细粒度图像分类模型中,使待分类图像在残差网络中流动,而不经过注意力层,得到类别预测结果。
进一步的,所述注意力层包括峰值刺激模块、注意力抑制模块和注意力增强模块;
所述峰值刺激模块包括一个通道平均池化层与一个空间最大池化层,用于输出一个自注意力图与一个峰值分布;
所述注意力抑制模块,用于采用局部峰值选择策略以及抑制激活值与面积受限制的判别区域策略,通过随机擦除一个判别区域,迫使细粒度图像分类网络学习到其他判别区域的信息;
所述注意力增强模块,用于采用Sigmoid运算,增强自注意力图中重要特征的表示。
进一步的,所述局部峰值选择策略,具体如下:
根据需求,设置候选局部峰值个数k;
根据局部峰值数值大小进行降序排序;
从候选局部峰值中随机选择局部峰值作为待抑制峰值,其中以p为概率选中top-1的局部峰值,以1-p的概率从top-2~top-k的局部峰值中随机选择一个局部峰值,k≥2。
进一步的,所述抑制激活值与面积受限制的判别区域策略,具体如下:
输入自注意力图、局部峰值选择策略所选出的局部峰值及其位置;
设置抑制比率和面积阈值,则激活值阈值为局部峰值和抑制比率的乘积;
在自注意力图中,定义一个以局部峰值为中心、面积为面积阈值的正方形区域作为初始判别区域,得到注意力抑制图;
在初始判别区域内,若激活值大于或等于激活值阈值,则将注意力抑制图对应位置设置为0;若激活值小于激活值阈值,则将注意力抑制图对应位置设置为1;
将注意力抑制图在非初始判别区域的对应位置全部设置为1;
在输入到注意力层的特征图的每一个通道上,使注意力抑制图与特征图逐元素相乘,得到抑制了一个判别区域的注意力抑制特征图。
进一步的,所述采用Sigmoid运算,增强自注意力图中重要特征的表示,具体包括:
采用Sigmoid激活函数归一化自注意力图,得到注意力增强图,在注意力增强图中,像素的激活值越接近1,表示相应位置的判别能力越强;相反,像素的激活值越接近0,表示相应位置的判别能力越弱;
在输入到注意力层的特征图的每一个通道上,使注意力增强图与特征图逐元素相乘,得到增强有效信息后的注意力增强特征图。
进一步的,所述利用训练集对细粒度图像分类网络进行训练,采用梯度推进的最大值与最小值交叉熵损失函数,得到细粒度图像分类模型,具体包括:
在残差网络除全连接层外的结构中导入ImageNet上的预训练模型,并随机初始化全连接层的网络权值;
设置网络参数和训练参数;
加载训练集,对训练集中的训练图像进行预处理;
对细粒度分类网络进行迭代训练,使注意力抑制分支和注意力增强分支得到不同的概率值后,求和平均得到最终分类概率,采用梯度推进的最大值与最小值交叉熵损失函数进行计算,并在计算后进行梯度反传,更新网络参数,使损失逐渐减小至收敛,得到细粒度图像分类模型。
进一步的,所述梯度推进的最大值与最小值交叉熵损失函数,如下式:
Figure BDA0002677308770000041
J′={i:i∈J′∩si≤tk-}
J′={i:i∈J′∩si≥tk+}
其中,si表示类别i的置信度分数,置信度分数第k+大的值为tk+,置信度分数第k-小的值为tk-;l表示真实类别,c为类别总数,集合J表示所有类别的集合,J'表示所有负类的集合;J′表示置信度分数大于tk+的负类的集合,J′表示置信度分数小于tk-的负类的集合。
本发明的第二个目的可以通过采取如下技术方案达到:
一种细粒度图像分类***,所述***包括:
搭建单元,用于搭建细粒度图像分类网络;其中,所述细粒度图像分类网络为注意力抑制与注意力增强的双分支网络,包括残差网络和注意力层;
第一获取单元,用于获取训练集;其中,所述训练集由多张训练图像构成;
训练单元,用于利用训练集对细粒度图像分类网络进行训练,采用梯度推进的最大值与最小值交叉熵损失函数,得到细粒度图像分类模型;
第二获取单元,用于获取待分类图像;
预测单元,用于将待分类图像输入细粒度图像分类模型中,使待分类图像在残差网络中流动,而不经过注意力层,得到类别预测结果。
本发明的第三个目的可以通过采取如下技术方案达到:
一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现上述的细粒度图像分类方法。
本发明的第四个目的可以通过采取如下技术方案达到:
一种存储介质,存储有程序,所述程序被处理器执行时,实现上述的细粒度图像分类方法。
本发明相对于现有技术具有如下的有益效果:
1、本发明搭建的细粒度图像分类网络为注意力抑制与注意力增强的双分支网络,具有参数共享的注意力抑制与注意力增强分支,基于主干模型的条件下,不需要增加模型的训练参数,不需要增加额外的分类器,两个分支之间共同作用、相互促进,能够获得良好的分类性能;在对细粒度图像分类网络进行训练时,采用的损失函数为梯度推进的最大值最小值损失函数,针对的问题是细粒度分类中的类内差异大、类间差异小的问题,用于缓解细粒度分类问题中的类别混淆现象,能使训练得到的细粒度图像分类模型达到更好的分类效果,同时具有正则化效果。
2、本发明的细粒度图像分类网络中注意力层包括峰值刺激模块、注意力抑制模块和注意力增强模块,其中注意力抑制模块是简单轻量且没有训练参数的,能够灵活定位到数量不受限制的多个局部判别区域;可以通过随机擦除一个局部判别区域,鼓励细粒度图像分类网络学习其他判别区域的信息,以辨别不同类别图片中的细小差异;同时,采用一种面积与激活值同时受限的抑制方式,避免擦除信息过多,影响细粒度图像分类网络的后续学习;注意力增强模块仅包含一个Sigmoid运算,不包含训练参数,能强化细粒度图像分类网络学习到的信息,有助于提高细粒度图像分类网络对类别之间细微差异的判别能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明实施例1的细粒度图像分类方法的流程图。
图2为本发明实施例1的细粒度图像分类网络的结构以及训练与测试原理图。
图3为本发明实施例1的细粒度图像分类网络中注意力层的结构图。
图4为本发明实施例2的细粒度图像分类***的结构框图。
图5为本发明实施例3的计算机设备的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
如图1所示,本实施例提供了一种细粒度图像分类方法,该方法包括以下步骤:
S101、搭建细粒度图像分类网络。
如图2所示,本实施例搭建的细粒度图像分类网络为注意力抑制与注意力增强的双分支网络,两个分支分别为一个注意力抑制分支与一个注意力增强分支,两个分支参数共享,互相促进;该细粒度图像分类网络包括残差网络和注意力层。
进一步地,残差网络采用ResNet-50结构,其包括五个卷积层组、一个全局池化层、一个全连接层以及一个softmax层,五个卷积层组分别为第一卷积层组、第二卷积层组、第三卷积层组、第四卷积层组和第五卷积层组;注意力层接在第四卷积层组后,第五卷积层组前;ResNet-50的输入尺寸为3*224*224,注意力层不限制特征图的输入尺寸。
如图3所示,注意力层包括一个峰值刺激模块、一个注意力抑制模块和一个注意力增强模块,注意力抑制模块和注意力增强模块分别产生一个注意力抑制图与一个注意力增强图,并与输入到注意力层的特征图进行运算,注意力层的输入尺寸为C*H*W,其中C为通道数,H为特征图的高,W为特征图的宽;峰值刺激模块、注意力抑制模块和注意力增强模块的具体说明如下:
峰值刺激模块包括一个通道平均池化层与一个空间最大池化层,用于输出一个自注意力图与一个峰值分布。
注意力抑制模块,用于采用局部峰值选择策略以及抑制激活值与面积受限制的判别区域策略,通过随机擦除一个判别区域,迫使细粒度图像分类网络学习到其他判别区域的信息;注意力抑制模块通过随机选择局部峰值与抑制激活值和面积受限的判别区域,产生一个尺寸为H*W的注意力抑制图,在输入到注意力层的特征图的每一个通道上,使注意力抑制图与特征图逐元素相乘,得到抑制了一个判别区域的注意力抑制特征图。
进一步地,局部峰值选择策略,具体如下:
a、根据需求,设置候选局部峰值个数k。
b、根据局部峰值数值大小进行降序排序。
c、从候选局部峰值中随机选择局部峰值作为待抑制峰值,其中以p为概率选中top-1的局部峰值,以1-p的概率从top-2~top-k的局部峰值中随机选择一个局部峰值,k≥2。
进一步地,抑制激活值与面积受限制的判别区域策略,具体如下:
a、输入自注意力图、局部峰值选择策略所选出的局部峰值及其位置。
b、设置抑制比率γ和面积阈值β,则激活值阈值α为局部峰值和抑制比率的乘积。
c、在自注意力图中,定义一个以局部峰值为中心、面积为面积阈值β的正方形区域作为初始判别区域,得到注意力抑制图。
d、在初始判别区域内,若激活值大于或等于激活值阈值α,则将注意力抑制图对应位置设置为0;若激活值小于激活值阈值,则将注意力抑制图对应位置设置为1。
e、将注意力抑制图在非初始判别区域的对应位置全部设置为1。
f、在输入到注意力层的特征图的每一个通道上,使注意力抑制图与特征图逐元素相乘,得到抑制了一个判别区域的注意力抑制特征图。
注意力抑制模块是一个轻量级的模块,仅涉及少量的运算,不包含训练参数;只随机隐藏一个判别区域,避免了过多的信息丢失,保证了细粒度图像分类网络后续学习的效率。
注意力增强模块,用于采用Sigmoid运算,增强自注意力图中重要特征的表示,具体为:采用Sigmoid激活函数归一化自注意力图,得到注意力增强图,在注意力增强图中,像素的激活值越接近1,表示相应位置的判别能力越强;相反,像素的激活值越接近0,表示相应位置的判别能力越弱;与注意力抑制模块类似,在输入到注意力层的特征图的每一个通道上,使注意力增强图与特征图逐元素相乘,得到增强有效信息后的注意力增强特征图。
注意力增强模块仅包含一个Sigmoid运算,不包含训练参数,能强化细粒度图像分类网络学习到的信息,有助于提高细粒度图像分类网络对类别之间细微差异的判别能力。
S102、获取训练集。
本实施例先获取具有多张图像的数据集,为了使训练与测试数据尽可能保持同分布,采用分层采样对数据集进行划分,随机从每一类数据中选出80%的图像组成训练集,其余20%的图像作为测试集,训练集中的图像为训练图像,测试集中的图像为测试图像。
S103、利用训练集对细粒度图像分类网络进行训练,采用梯度推进的最大值与最小值交叉熵损失函数,得到细粒度图像分类模型。
该步骤S103的具体步骤如下:
(1)网络初始化:在残差网络除全连接层外的结构中导入ImageNet上的预训练模型,并随机初始化全连接层的网络权值。
(2)设置网络参数:将峰值刺激模块中的最大池化层的核尺寸设置为5,局部峰值选择策略的概率p设置为0.7,候选峰值个数k设置为5,注意力抑制模块的抑制比率γ设置为0.8,面积阈值β设置为36。
(3)设置训练参数:采用随机梯度下降法优化,将权重衰减系数为1e-4,动量为0.9,最小批处理数据为64。初始学习率设置为1e-3,并采用固定步长衰减方式,每两个epoch衰减为原来的0.85。
(4)加载训练集,对训练集中的训练图像进行预处理:首先加载训练集,对训练集中的训练图像进行预处理,将输入图像尺寸随机裁剪为224*224,之后通过随机垂直翻转、随机旋转、颜色抖动3种方式进行在线数据增强,在一定程度上缓解数据类别不平衡的问题。
(5)对模型进行训练:对图1所示对细粒度分类网络进行迭代训练,训练图像经过残差网络的前四个卷积层组之后得到一个输出特征图,将这个特征图送入注意力层,经过注意力抑制分支与注意力增强分支,分别得到随机抑制了一个判别区域的特征图与增强有效信息后的特征图,这两个特征图分别送入残差网络的最后一个卷积层组、全局池化层、全连接层与softmax层得到两个不同的分类概率值,将这两个概率值进行求和平均得到最终的分类概率。使用一个梯度推进的最大值最小值交叉熵损失函数进行损失计算,之后进行梯度反传,更新网络参数,使损失逐渐减小至收敛,得到细粒度图像分类模型。
进一步地,本实施例的梯度推进的最大值与最小值交叉熵损失函数,如下式:
Figure BDA0002677308770000081
J′={i:i∈J′∩si≤tk-}
J′={i:i∈J′∩si≥tk+}
其中,si表示类别i的置信度分数,置信度分数第k+大的值为tk+,置信度分数第k-小的值为tk-;l表示真实类别,c为类别总数,集合J表示所有类别的集合,J'表示所有负类的集合;J′表示置信度分数大于tk+的负类的集合,J′表示置信度分数小于tk-的负类的集合。
S104、获取待分类图像。
S105、将待分类图像输入细粒度图像分类模型中,使待分类图像在残差网络中流动,而不经过注意力层,得到类别预测结果。
本实施例步骤S102所划分的测试图像将作为待分类图像,因此步骤S104~S105的具体步骤如下:
(1)读取测试图像并对测试图像进行预处理,在测试过程中预处理仅仅将图像尺寸变换为224*224,而不进行任何数据增强操作。
(2)将图像送入细粒度图像分类模型进行计算,在测试过程中,图像仅仅在残差网络中流动,而不经过注意力层,计算得到分类概率。
(3)将分类概率最高的类别作为最终的类别预测结果。
本实施例的细粒度图像分类方法可以应用于细粒度细胞分类,在细粒度细胞分类的数据库上达到了77.63%的准确率,比使用ResNet-50结构与交叉熵损失进行训练的结果提高了4.10%,可见本实施例的细粒度图像分类方法有助于辅助医生对疾病的诊断,在细胞分类上能得到更高的准确率。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成,相应的程序可以存储于计算机可读取存储介质中。
应当注意,尽管在附图中以特定顺序描述了上述实施例的方法操作,但是这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
实施例2:
如图4所示,本实施例提供了一种细粒度图像分类***,该***包括搭建单元401、第一获取单元402、训练单元403、第二获取单元404和预测单元405,各个单元的具体功能如下:
搭建单元401,用于搭建细粒度图像分类网络;其中,所述细粒度图像分类网络为注意力抑制与注意力增强的双分支网络,包括残差网络和注意力层。
第一获取单元402,用于获取训练集;其中,所述训练集由多张训练图像构成。
训练单元403,用于利用训练集对细粒度图像分类网络进行训练,采用梯度推进的最大值与最小值交叉熵损失函数,得到细粒度图像分类模型。
第二获取单元404,用于获取待分类图像。
预测单元405,用于将待分类图像输入细粒度图像分类模型中,使待分类图像在残差网络中流动,而不经过注意力层,得到类别预测结果。
本实施例中各个单元的具体实现可以参见上述实施例1,在此不再一一赘述;需要说明的是,本实施例提供的***仅以上述各功能单元的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配给不同的功能模块完成,即将内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
实施例3:
如图5所示,本实施例提供了一种计算机设备,该计算机设备可以是服务器、计算机等,包括通过***总线501连接的处理器502、存储器、输入装置503、显示器504和网络接口505;其中,处理器502用于提供计算和控制能力,存储器包括非易失性存储介质506和内存储器507,该非易失性存储介质506存储有操作***、计算机程序和数据库,该内存储器507为非易失性存储介质506中的操作***和计算机程序的运行提供环境,计算机程序被处理器502执行时,实现上述实施例1的细粒度图像分类方法,如下:
搭建细粒度图像分类网络;其中,所述细粒度图像分类网络为注意力抑制与注意力增强的双分支网络,包括残差网络和注意力层;
获取训练集;其中,所述训练集由多张训练图像构成;
利用训练集对细粒度图像分类网络进行训练,采用梯度推进的最大值与最小值交叉熵损失函数,得到细粒度图像分类模型;
获取待分类图像;
将待分类图像输入细粒度图像分类模型中,使待分类图像在残差网络中流动,而不经过注意力层,得到类别预测结果。
实施例4:
本实施例提供一种存储介质,该存储介质为计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时,实现上述实施例1的细粒度图像分类方法,如下:
搭建细粒度图像分类网络;其中,所述细粒度图像分类网络为注意力抑制与注意力增强的双分支网络,包括残差网络和注意力层;
获取训练集;其中,所述训练集由多张训练图像构成;
利用训练集对细粒度图像分类网络进行训练,采用梯度推进的最大值与最小值交叉熵损失函数,得到细粒度图像分类模型;
获取待分类图像;
将待分类图像输入细粒度图像分类模型中,使待分类图像在残差网络中流动,而不经过注意力层,得到类别预测结果。
需要说明的是,本实施例的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
综上所述,本发明基于弱监督学习与注意力机制实现,采用的细粒度图像分类网络为注意力抑制与注意力增强的双分支网络,两个分支参数共享,其中注意力层使用两种不同的方法提高细粒度图像分类网络对细粒度类别物体的细小差异的判别能力,注意力层是一个轻量化的网络层,不含有需要训练的网络参数;特别地,本发明的注意力抑制分支,采用了峰值刺激、局部峰值选择与抑制激活值和面积受限的判别区域的方式,随机擦除一个判别区域,迫使网络学习更多信息,这一方法既能有效定位到数量不受限的判别区域,又避免了丢失过多判别信息;此外,本发明采用梯度推进的最大值最小值交叉熵损失函数,能使训练得到的细粒度图像分类模型达到更好的分类效果,同时具有正则化效果。
以上所述,仅为本发明专利较佳的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明构思加以等同替换或改变,都属于本发明专利的保护范围。

Claims (10)

1.一种细粒度图像分类方法,其特征在于,所述方法包括:
搭建细粒度图像分类网络;其中,所述细粒度图像分类网络为注意力抑制与注意力增强的双分支网络,包括残差网络和注意力层;
获取训练集;其中,所述训练集由多张训练图像构成;
利用训练集对细粒度图像分类网络进行训练,采用梯度推进的最大值与最小值交叉熵损失函数,得到细粒度图像分类模型;
获取待分类图像;
将待分类图像输入细粒度图像分类模型中,使待分类图像在残差网络中流动,而不经过注意力层,得到类别预测结果。
2.根据权利要求1所述的细粒度图像分类方法,其特征在于,所述注意力层包括峰值刺激模块、注意力抑制模块和注意力增强模块;
所述峰值刺激模块包括一个通道平均池化层与一个空间最大池化层,用于输出一个自注意力图与一个峰值分布;
所述注意力抑制模块,用于采用局部峰值选择策略以及抑制激活值与面积受限制的判别区域策略,通过随机擦除一个判别区域,迫使细粒度图像分类网络学习到其他判别区域的信息;
所述注意力增强模块,用于采用Sigmoid运算,增强自注意力图中重要特征的表示。
3.根据权利要求2所述的细粒度图像分类方法,其特征在于,所述局部峰值选择策略,具体如下:
根据需求,设置候选局部峰值个数k;
根据局部峰值数值大小进行降序排序;
从候选局部峰值中随机选择局部峰值作为待抑制峰值,其中以p为概率选中top-1的局部峰值,以1-p的概率从top-2~top-k的局部峰值中随机选择一个局部峰值,k≥2。
4.根据权利要求3所述的细粒度图像分类方法,其特征在于,所述抑制激活值与面积受限制的判别区域策略,具体如下:
输入自注意力图、局部峰值选择策略所选出的局部峰值及其位置;
设置抑制比率和面积阈值,则激活值阈值为局部峰值和抑制比率的乘积;
在自注意力图中,定义一个以局部峰值为中心、面积为面积阈值的正方形区域作为初始判别区域,得到注意力抑制图;
在初始判别区域内,若激活值大于或等于激活值阈值,则将注意力抑制图对应位置设置为0;若激活值小于激活值阈值,则将注意力抑制图对应位置设置为1;
将注意力抑制图在非初始判别区域的对应位置全部设置为1;
在输入到注意力层的特征图的每一个通道上,使注意力抑制图与特征图逐元素相乘,得到抑制了一个判别区域的注意力抑制特征图。
5.根据权利要求2所述的细粒度图像分类方法,其特征在于,所述采用Sigmoid运算,增强自注意力图中重要特征的表示,具体包括:
采用Sigmoid激活函数归一化自注意力图,得到注意力增强图,在注意力增强图中,像素的激活值越接近1,表示相应位置的判别能力越强;相反,像素的激活值越接近0,表示相应位置的判别能力越弱;
在输入到注意力层的特征图的每一个通道上,使注意力增强图与特征图逐元素相乘,得到增强有效信息后的注意力增强特征图。
6.根据权利要求2所述的细粒度图像分类方法,其特征在于,所述利用训练集对细粒度图像分类网络进行训练,采用梯度推进的最大值与最小值交叉熵损失函数,得到细粒度图像分类模型,具体包括:
在残差网络除全连接层外的结构中导入ImageNet上的预训练模型,并随机初始化全连接层的网络权值;
设置网络参数和训练参数;
加载训练集,对训练集中的训练图像进行预处理;
对细粒度分类网络进行迭代训练,使注意力抑制分支和注意力增强分支得到不同的概率值后,求和平均得到最终分类概率,采用梯度推进的最大值与最小值交叉熵损失函数进行计算,并在计算后进行梯度反传,更新网络参数,使损失逐渐减小至收敛,得到细粒度图像分类模型。
7.根据权利要求1-6任一项所述的细粒度图像分类方法,其特征在于,所述梯度推进的最大值与最小值交叉熵损失函数,如下式:
Figure FDA0002677308760000021
Figure FDA0002677308760000022
Figure FDA0002677308760000032
其中,si表示类别i的置信度分数,置信度分数第k+大的值为
Figure FDA0002677308760000031
置信度分数第k-小的值为
Figure FDA0002677308760000033
l表示真实类别,c为类别总数,集合J表示所有类别的集合,J′表示所有负类的集合;J′表示置信度分数大于
Figure FDA0002677308760000034
的负类的集合,J′表示置信度分数小于
Figure FDA0002677308760000035
的负类的集合。
8.一种细粒度图像分类***,其特征在于,所述***包括:
搭建单元,用于搭建细粒度图像分类网络;其中,所述细粒度图像分类网络为注意力抑制与注意力增强的双分支网络,包括残差网络和注意力层;
第一获取单元,用于获取训练集;其中,所述训练集由多张训练图像构成;
训练单元,用于利用训练集对细粒度图像分类网络进行训练,采用梯度推进的最大值与最小值交叉熵损失函数,得到细粒度图像分类模型;
第二获取单元,用于获取待分类图像;
预测单元,用于将待分类图像输入细粒度图像分类模型中,使待分类图像在残差网络中流动,而不经过注意力层,得到类别预测结果。
9.一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现权利要求1-7任一项所述的细粒度图像分类方法。
10.一种存储介质,存储有程序,其特征在于,所述程序被处理器执行时,实现权利要求1-7任一项所述的细粒度图像分类方法。
CN202010951989.XA 2020-09-11 2020-09-11 细粒度图像分类方法、***、计算机设备及存储介质 Active CN112163465B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010951989.XA CN112163465B (zh) 2020-09-11 2020-09-11 细粒度图像分类方法、***、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010951989.XA CN112163465B (zh) 2020-09-11 2020-09-11 细粒度图像分类方法、***、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN112163465A true CN112163465A (zh) 2021-01-01
CN112163465B CN112163465B (zh) 2022-04-22

Family

ID=73857929

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010951989.XA Active CN112163465B (zh) 2020-09-11 2020-09-11 细粒度图像分类方法、***、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN112163465B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112699902A (zh) * 2021-01-11 2021-04-23 福州大学 基于双线性注意力池化机制的细粒度敏感图像检测方法
CN112801391A (zh) * 2021-02-04 2021-05-14 科大智能物联技术有限公司 一种人工智能废钢扣杂评级方法及***
CN112883861A (zh) * 2021-02-07 2021-06-01 同济大学 一种基于鱼群摄食状态细粒度分类的反馈式投饵控制方法
CN113011500A (zh) * 2021-03-22 2021-06-22 华南理工大学 虚拟现实场景数据集的分类方法、***、设备及介质
CN113239947A (zh) * 2021-03-10 2021-08-10 安徽省农业科学院农业经济与信息研究所 一种基于细粒度分类技术的害虫图像分类方法
CN113255824A (zh) * 2021-06-15 2021-08-13 京东数科海益信息科技有限公司 训练分类模型和数据分类的方法和装置
CN113486748A (zh) * 2021-06-28 2021-10-08 同济大学 一种自动驾驶路面摩擦系数预测方法、电子设备及介质
CN113610164A (zh) * 2021-08-10 2021-11-05 北京邮电大学 一种基于注意力平衡的细粒度图像识别方法及其***
CN113723407A (zh) * 2021-11-01 2021-11-30 深圳思谋信息科技有限公司 图像分类识别方法、装置、计算机设备和存储介质
CN114022735A (zh) * 2021-11-09 2022-02-08 北京有竹居网络技术有限公司 视觉语言预训练模型的训练方法、装置、设备及介质
CN114332544A (zh) * 2022-03-14 2022-04-12 之江实验室 一种基于图像块评分的细粒度图像分类方法和装置
CN114565834A (zh) * 2021-12-28 2022-05-31 上汽大众汽车有限公司 动力总成支承安装质量的检测方法、工作台、检测***及计算机可读存储介质
CN114663715A (zh) * 2022-05-26 2022-06-24 浙江太美医疗科技股份有限公司 医学图像质控、分类模型训练方法、装置及计算机设备
CN116109629A (zh) * 2023-04-10 2023-05-12 厦门微图软件科技有限公司 一种基于细粒度识别与注意力机制的缺陷分类方法
CN116310476A (zh) * 2022-11-22 2023-06-23 北京建筑大学 基于非对称卷积残差网络的细粒度图像分类方法及***
CN116433588A (zh) * 2023-02-21 2023-07-14 广东劢智医疗科技有限公司 一种基于宫颈细胞的多类别分类与置信判别方法
CN117726958A (zh) * 2024-02-07 2024-03-19 国网湖北省电力有限公司 配电线路无人机巡检图像目标检测及隐患智能识别方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569905A (zh) * 2019-09-10 2019-12-13 江苏鸿信***集成有限公司 基于生成对抗网络和注意力网络的细粒度图像分类方法
CN110598029A (zh) * 2019-09-06 2019-12-20 西安电子科技大学 基于注意力转移机制的细粒度图像分类方法
CN111126453A (zh) * 2019-12-05 2020-05-08 重庆邮电大学 基于注意力机制和切割填充的细粒度图像分类方法及***
CN111178432A (zh) * 2019-12-30 2020-05-19 武汉科技大学 多分支神经网络模型的弱监督细粒度图像分类方法
CN111191737A (zh) * 2020-01-05 2020-05-22 天津大学 基于多尺度反复注意力机制的细粒度图像分类方法
CN111259982A (zh) * 2020-02-13 2020-06-09 苏州大学 一种基于注意力机制的早产儿视网膜图像分类方法和装置
CN111539469A (zh) * 2020-04-20 2020-08-14 东南大学 一种基于视觉自注意力机制的弱监督细粒度图像识别方法
EP3696729A1 (en) * 2019-02-12 2020-08-19 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, apparatus, device and readable storage medium for image-based data processing
CN111582225A (zh) * 2020-05-19 2020-08-25 长沙理工大学 一种遥感图像场景分类方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3696729A1 (en) * 2019-02-12 2020-08-19 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, apparatus, device and readable storage medium for image-based data processing
CN110598029A (zh) * 2019-09-06 2019-12-20 西安电子科技大学 基于注意力转移机制的细粒度图像分类方法
CN110569905A (zh) * 2019-09-10 2019-12-13 江苏鸿信***集成有限公司 基于生成对抗网络和注意力网络的细粒度图像分类方法
CN111126453A (zh) * 2019-12-05 2020-05-08 重庆邮电大学 基于注意力机制和切割填充的细粒度图像分类方法及***
CN111178432A (zh) * 2019-12-30 2020-05-19 武汉科技大学 多分支神经网络模型的弱监督细粒度图像分类方法
CN111191737A (zh) * 2020-01-05 2020-05-22 天津大学 基于多尺度反复注意力机制的细粒度图像分类方法
CN111259982A (zh) * 2020-02-13 2020-06-09 苏州大学 一种基于注意力机制的早产儿视网膜图像分类方法和装置
CN111539469A (zh) * 2020-04-20 2020-08-14 东南大学 一种基于视觉自注意力机制的弱监督细粒度图像识别方法
CN111582225A (zh) * 2020-05-19 2020-08-25 长沙理工大学 一种遥感图像场景分类方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JUNSUK CHOE 等: "Attention-Based Dropout Layer for Weakly Supervised Single Object Localization and Semantic Segmentation", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112699902A (zh) * 2021-01-11 2021-04-23 福州大学 基于双线性注意力池化机制的细粒度敏感图像检测方法
CN112801391B (zh) * 2021-02-04 2021-11-19 科大智能物联技术股份有限公司 一种人工智能废钢扣杂评级方法及***
CN112801391A (zh) * 2021-02-04 2021-05-14 科大智能物联技术有限公司 一种人工智能废钢扣杂评级方法及***
CN112883861A (zh) * 2021-02-07 2021-06-01 同济大学 一种基于鱼群摄食状态细粒度分类的反馈式投饵控制方法
CN112883861B (zh) * 2021-02-07 2022-06-14 同济大学 一种基于鱼群摄食状态细粒度分类的反馈式投饵控制方法
CN113239947A (zh) * 2021-03-10 2021-08-10 安徽省农业科学院农业经济与信息研究所 一种基于细粒度分类技术的害虫图像分类方法
CN113011500A (zh) * 2021-03-22 2021-06-22 华南理工大学 虚拟现实场景数据集的分类方法、***、设备及介质
CN113011500B (zh) * 2021-03-22 2023-08-22 华南理工大学 虚拟现实场景数据集的分类方法、***、设备及介质
CN113255824A (zh) * 2021-06-15 2021-08-13 京东数科海益信息科技有限公司 训练分类模型和数据分类的方法和装置
CN113255824B (zh) * 2021-06-15 2023-12-08 京东科技信息技术有限公司 训练分类模型和数据分类的方法和装置
CN113486748A (zh) * 2021-06-28 2021-10-08 同济大学 一种自动驾驶路面摩擦系数预测方法、电子设备及介质
CN113610164A (zh) * 2021-08-10 2021-11-05 北京邮电大学 一种基于注意力平衡的细粒度图像识别方法及其***
CN113610164B (zh) * 2021-08-10 2023-12-22 北京邮电大学 一种基于注意力平衡的细粒度图像识别方法及其***
CN113723407A (zh) * 2021-11-01 2021-11-30 深圳思谋信息科技有限公司 图像分类识别方法、装置、计算机设备和存储介质
CN114022735A (zh) * 2021-11-09 2022-02-08 北京有竹居网络技术有限公司 视觉语言预训练模型的训练方法、装置、设备及介质
CN114022735B (zh) * 2021-11-09 2023-06-23 北京有竹居网络技术有限公司 视觉语言预训练模型的训练方法、装置、设备及介质
CN114565834A (zh) * 2021-12-28 2022-05-31 上汽大众汽车有限公司 动力总成支承安装质量的检测方法、工作台、检测***及计算机可读存储介质
WO2023173599A1 (zh) * 2022-03-14 2023-09-21 之江实验室 一种基于图像块评分的细粒度图像分类方法和装置
CN114332544A (zh) * 2022-03-14 2022-04-12 之江实验室 一种基于图像块评分的细粒度图像分类方法和装置
CN114663715A (zh) * 2022-05-26 2022-06-24 浙江太美医疗科技股份有限公司 医学图像质控、分类模型训练方法、装置及计算机设备
CN116310476A (zh) * 2022-11-22 2023-06-23 北京建筑大学 基于非对称卷积残差网络的细粒度图像分类方法及***
CN116310476B (zh) * 2022-11-22 2023-10-17 北京建筑大学 基于非对称卷积残差网络的细粒度图像分类方法及***
CN116433588A (zh) * 2023-02-21 2023-07-14 广东劢智医疗科技有限公司 一种基于宫颈细胞的多类别分类与置信判别方法
CN116433588B (zh) * 2023-02-21 2023-10-03 广东劢智医疗科技有限公司 一种基于宫颈细胞的多类别分类与置信判别方法
CN116109629B (zh) * 2023-04-10 2023-07-25 厦门微图软件科技有限公司 一种基于细粒度识别与注意力机制的缺陷分类方法
CN116109629A (zh) * 2023-04-10 2023-05-12 厦门微图软件科技有限公司 一种基于细粒度识别与注意力机制的缺陷分类方法
CN117726958A (zh) * 2024-02-07 2024-03-19 国网湖北省电力有限公司 配电线路无人机巡检图像目标检测及隐患智能识别方法
CN117726958B (zh) * 2024-02-07 2024-05-10 国网湖北省电力有限公司 配电线路无人机巡检图像目标检测及隐患智能识别方法

Also Published As

Publication number Publication date
CN112163465B (zh) 2022-04-22

Similar Documents

Publication Publication Date Title
CN112163465B (zh) 细粒度图像分类方法、***、计算机设备及存储介质
US10635979B2 (en) Category learning neural networks
CN112750140B (zh) 基于信息挖掘的伪装目标图像分割方法
CN109919108B (zh) 基于深度哈希辅助网络的遥感图像快速目标检测方法
CN110598029B (zh) 基于注意力转移机制的细粒度图像分类方法
CN111881714A (zh) 一种无监督跨域行人再识别方法
CN111950656B (zh) 图像识别模型生成方法、装置、计算机设备和存储介质
CN110929610B (zh) 基于cnn模型和迁移学习的植物病害识别方法及***
CN112257815A (zh) 模型生成方法、目标检测方法、装置、电子设备及介质
CN109033107A (zh) 图像检索方法和装置、计算机设备和存储介质
Napoli et al. Simplified firefly algorithm for 2d image key-points search
CN111339935B (zh) 一种基于可解释cnn图像分类模型的光学遥感图片分类方法
CN111079837B (zh) 一种用于二维灰度图像检测识别分类的方法
CN109543744B (zh) 一种基于龙芯派的多类别深度学习图像识别方法及其应用
CN111352926B (zh) 数据处理的方法、装置、设备及可读存储介质
CN113420827A (zh) 语义分割网络训练和图像语义分割方法、装置及设备
CN111310837A (zh) 车辆改装识别方法、装置、***、介质和设备
CN110135435B (zh) 一种基于广度学习***的显著性检测方法及装置
CN111126155A (zh) 一种基于语义约束生成对抗网络的行人再识别方法
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备
CN116665054A (zh) 一种基于改进YOLOv3的遥感影像小目标检测方法
CN115587616A (zh) 网络模型训练方法、装置、存储介质及计算机设备
CN116129158A (zh) 一种输电线路铁塔小部件图像识别方法及装置
CN115131597A (zh) 数据处理方法、装置、电子设备和存储介质
CN114580510A (zh) 骨髓细胞细粒度分类方法、***、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant