CN115631369A - 一种基于卷积神经网络的细粒度图像分类方法 - Google Patents

一种基于卷积神经网络的细粒度图像分类方法 Download PDF

Info

Publication number
CN115631369A
CN115631369A CN202211224648.8A CN202211224648A CN115631369A CN 115631369 A CN115631369 A CN 115631369A CN 202211224648 A CN202211224648 A CN 202211224648A CN 115631369 A CN115631369 A CN 115631369A
Authority
CN
China
Prior art keywords
feature
channel
classification
fine
stage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211224648.8A
Other languages
English (en)
Inventor
王坤
王延江
刘宝弟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum East China
Original Assignee
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum East China filed Critical China University of Petroleum East China
Priority to CN202211224648.8A priority Critical patent/CN115631369A/zh
Publication of CN115631369A publication Critical patent/CN115631369A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于卷积神经网络的细粒度图像分类方法,属于细粒度图像处理技术领域,首先通过采用融合通道特征再注意模块和空间多区域特征注意模块构建了分类网络模型,然后采用对比学习的思想设计了损失函数中的对比学习损失项,最终采用该分类网络模型对实时获取到的图像进行分类;具体包括如下步骤:构建分类网络模型;所述分类网络模型包括特征提取网络、通道特征再注意模块、空间多区域特征注意模块和分类器;构建训练数据集,进行模型训练;实时获取待分类的图像,将其送入训练完成的分类网络模型,得到当前图像的分类结果。本发明有效降低了细粒度图像分类的难度,解决了注意力机制在该领域上的限制。

Description

一种基于卷积神经网络的细粒度图像分类方法
技术领域
本发明属于细粒度图像处理技术领域,具体涉及一种基于卷积神经网络的细粒度图像分类方法。
背景技术
近几年,深度学习发展迅速,物体图像的分类的研究重心也由粗粒度图像分类转移到了细粒度图像分类,细粒度图像分类问题是对基类下的子类进行识别,比如区分不同种类的鸟,不同品牌的车等。相比于粗粒度图像分类,细粒度图像类别间的差异更加细微,往往只能借助于微小的局部差异才能进行准确的分辨,同时与人脸识别等对象级的分类任务相比,细粒度图像类别内的差异更加细微,并存在姿态、遮挡、背景干扰等诸多不确定因素,这使得该任务十分具有挑战性。该课题目前主要包括识别不同种类的鸟、狗、花、车、飞机等。
细粒度图像分类神经网络模型最近几年在工业界和实际生活中有着广泛的业务需求和应用场景。“花帮主”的拍照识花、手机软件“懂车帝”的拍照识车功能;在生态保护中,有效识别不同种类的生物,是进行生态研究的重要前提。所以,如果能够借助于计算机视觉的技术,实现低成本高精度的细粒度图像识别分类,那么无论对于学术界,还是工业界而言,都有着非常重要的意义。
经研究知,目前存在的细粒度图像分类的方法可以被分为仅用视觉信息分类的方法和添加额外信息分类的方法。前者完全依赖于视觉信息来解决分类问题,而后者尝试添用额外信息来进行分类。
仅用视觉信息分类的方法大致上又可分为两种:基于定位-分类子网络的方法和基于高阶特征编码的方法。基于定位-分类子网络的方法是检测并定位物体的辨别性部分,并建立对应的局部特征表示。早期的工作采用部件标注作为强监督来使网络关注类别间的细微差异,但部件标注信息会带来昂贵的成本。因此,目前的主流方法大多采用弱监督的方式,即只用图像级别的标签来进行分类。基于高阶特征编码的方法是将神经网络产生的特征进行高阶整合,得到更具辨别性的特征。但是这两类方法都有各自的限制:基于定位-分类子网络的方法大多关注物体最显著的部分,而忽略了那些不显著但有区分性的部分,这使得特征没有足够的辨别性。基于高阶特征编码的方法在特征图通道维度高时需要占据大量的计算资源,并且没有足够的可解释性。
添加额外信息分类的方法即通过添加额外信息(比如网络数据,多模态数据等)来建立联合特征表示,其中多模态数据又包括声音、物体的文本描述等。通过结合丰富的附加信息和深度神经网络架构,此类方法实现了对细粒度图像的有效分类。但该方法的局限性在于它们都是针对特定先验知识设计的,不能随意应用其他辅助信息。
发明内容
为了解决现有技术中细粒度图像分类困难、注意力机制在该领域上应用限制的问题,本发明提出了一种基于卷积神经网络的细粒度图像分类方法,提出一种融合通道特征再注意模块和空间多区域特征注意模块的卷积神经网络对细粒度图像进行分类。
本发明的技术方案如下:
一种基于卷积神经网络的细粒度图像分类方法,首先通过融合通道特征再注意模块和空间多区域特征注意模块构建了分类网络模型,然后采用对比学习的思想设计了损失函数中的对比学习损失项,最终采用该分类网络模型对实时获取到的图像进行分类;具体包括如下步骤:
步骤1、构建分类网络模型;
所述分类网络模型包括特征提取网络、通道特征再注意模块、空间多区域特征注意模块和分类器;
步骤2、构建训练数据集,进行模型训练;
步骤3、实时获取待分类的图像,将其送入训练完成的分类网络模型,得到当前图像的分类结果。
进一步地,采用后三阶段输出的卷积神经网络作为特征提取网络,所述特征提取网络由ResNet50、ResNet101、Densenet161基础卷积网络构成,各卷积网络结构均由多个阶段构成,每个阶段包含一个卷积层,当图像输入到特征提取网络中,每经过一个阶段,特征图的空间尺寸减少一半,通道数目增加一倍,将特征提取网络多个阶段的输出特征图Xl作为特征提取网络的输出特征。
进一步地,通道特征再注意模块内部首先采用平均池化和最大池化操作来整合特征通道信息,并利用SoftMax函数来获取特征图中每个通道的权重信息;按照权重分配得到增强的掩码矩阵E,并将权重高的通道进行抑制,通过抑制函数F(x)得到抑制的掩码矩阵S;将输入特征图Xl分别与增强的掩码矩阵E和抑制的掩码矩阵S相乘得到输出特征图
Figure BDA0003879131920000021
Figure BDA0003879131920000022
其中,
SoftMax函数由下式表示:
Figure BDA0003879131920000023
其中,Zi是经过SoftMax函数后每个通道的输出值,C是输出通道的总数量,通过SoftMax函数获得所求通道的权重信息;
增强的掩码矩阵E由下式进行计算:
E=SoftMax(AvgPool(Xl)+MaxPool((Xl))) (2)
其中,AvgPool(·)表示平均池化,MaxPool(·)表示最大池化;
抑制函数F(x)由下式表示:
Figure BDA0003879131920000031
其中,Zmax是通道最大的输出值,ω、δ均表示超参数,分别代表对应的通道被抑制的程度和需要进行抑制通道的程度;
当前阶段的输出特征图
Figure BDA0003879131920000032
Figure BDA0003879131920000033
由下式得到:
Figure BDA0003879131920000034
其中,
Figure BDA0003879131920000035
表示逐元素相乘操作;
多个阶段的
Figure BDA0003879131920000036
经过卷积层Conv通道维度统一后作为对应阶段的输出,通道统一是为了保证低级信息和高级信息的平衡;
Figure BDA0003879131920000037
输入到后续阶段强迫网络挖掘包含细粒度知识的潜在的通道特征。
进一步地,空间多区域特征注意模块采用下采样卷积、1×1卷积、SoftMax函数和CCMP模块,其中下采样卷积用于将多个阶段的
Figure BDA0003879131920000038
和网络最后一个阶段的特征图
Figure BDA0003879131920000039
空间尺度保持一致,1×1卷积用来简化计算,SoftMax函数和CCMP模块用来计算多个阶段的
Figure BDA00038791319200000310
的空间上的相似性,并得到多样性学习损失Ldiv,Ldiv和相似性之间呈负相关,通过训练降低多样性损失,即可使多个阶段的
Figure BDA00038791319200000311
在空间上关注物体不同的辨别性部分;
假设特征提取网络的后三阶段经过通道再注意模块得到的特征图分别为
Figure BDA00038791319200000312
Figure BDA00038791319200000313
其中,Ct表示归一化后的通道维度,WL-2表示第L-2个阶段特征图的宽度,HL-2表示第L-2个阶段特征图的高度;WL-1表示第L-1个阶段特征图的宽度,HL-1表示第L-1个阶段特征图的高度,WL表示第L个阶段特征图的宽度,HL表示第L个阶段特征图的高度;
为了减少计算量,对特征图通过下式进行预处理:
Figure BDA0003879131920000041
其中,φ(·)表示1×1卷积;Conv_blockl(·)表示下采样卷积;l表示特征图的第几个阶段;
得到空间尺寸相同、通道数为1的来自三个阶段的特征图后,采用SoftMax函数获取每个空间位置处的权重信息,之后沿通道维度进行拼接得到特征图
Figure BDA0003879131920000042
将其输入到CCMP模块中,CCMP对Xconcat中的每个像素在通道维度的峰值进行响应,并对Xconcat中元素进行先求和再求均值的操作h(·)来得到相似性的值Si
Figure BDA0003879131920000043
其中,k表示Xconcat的空间尺寸的大小,j表示Xconcat的第几个通道,ε表示Xconcat的通道数量,通过空间多区域特征注意模块将得到一个表征各阶段特征图之间相似性的值Si
最后,根据相似性Si得到多样性学习损失Ldiv,计算方式如下,
Ldiv=(1-Si)/ε (7)
其中,ε代表采用了特征提取网络的几个阶段作为输出,在这里代表Xconcat的通道数。
进一步地,分类器采用SoftMax分类器,被应用在多分类任务中,将多个神经元的输出映射到(0,1)区间内。
进一步地,分类网络模型的总损失函数Ltotal定义如下:
Ltotal=αLcls+βLdiv+γLcon (8)
其中,Lcls表示交叉熵损失,Ldiv表示多样性学***衡参数,用于各平衡损失函数的权重;其中,
交叉熵损失Lcls作为分类损失,由各阶段各自的分类损失和将各阶段特征拼接后表示整体的分类损失构成,计算公式如下:
Figure BDA0003879131920000044
其中,y是输入图像的真值标签,用one-hot向量来表示;θ12也是平衡参数,SoftMax函数用来计算神经网络的预测标签值;clsl(·)表示分类器,
Figure BDA0003879131920000051
表示第l个阶段输出特征fl的标签预测值;clsconcat(·)表示用于整体特征表示的分类器,Zfconcat表示整体特征表示fconcate的标签预测值;
对比学习损失Lcon为:
Figure BDA0003879131920000052
其中,N是输入图像批次的大小,zi,zj是经过l2正则化后的同一批次内不同类别的输入图像,yi,yj是不同类别输入图像的标签值,Sim(zi,zj)是zi,zj之间的余弦相似性,i,j表示同一批次的不同样本,η表示只有相似度大于η的不同类别的输入才对损失Lcon有贡献。
进一步地,步骤2的具体过程如下:
步骤2.1、采用CUB_200_2011数据集作为训练数据集,将采集到的原始图像通过水平翻转和中心裁剪方式进行数据预处理,实现数据扩充,构建训练数据集;
步骤2.2、将训练数据集的细粒度图像送入分类网络模型,对分类网络模型中的可学习的参数进行训练和优化,从而使模型中的通道特征再注意模块能够最大可能挖掘特征图中潜在的细粒度知识,空间多区域特征注意模块极大程度能够降低不同阶段的特征图之间的相似性,当整个模型训练到收敛时,得到训练完成的分类网络模型。
进一步地,步骤3的具体过程如下:
首先将待分类细粒度图像送入到阶段为L的特征提取网络中,然后将其输入通道特征再注意模块,得到通道增强的特征图
Figure BDA0003879131920000053
和通道抑制的特征图
Figure BDA0003879131920000054
通道增强的特征图作为网络当前阶段的输出,通道抑制的特征图送入后续阶段来强迫网络关注那些包含细粒度知识的信息贫瘠的通道;模型训练时已经利用空间多区域特征注意模块来使多个阶段输出的通道增强的特征图
Figure BDA0003879131920000055
在空间维度上关注物体不同的辨别性部分;故该模型将会得到多个在空间和通道上都具有辨别性的输出特征,最后将多个阶段的输出特征作为该图像的特征表示;最终经过SoftMax分类器来得到当前图像的分类结果。
本发明所带来的有益技术效果:
本发明极大程度地改进了注意力机制和基于卷积神经网络的方法在细粒度图像分类上的限制。通过多阶段的特征提取网络,提高了分类网络对特征信息的聚合能力,且包含了低级信息和高级语义信息,增加了所提取特征的鲁棒性;通过通道特征再注意模块,有效地帮助了分类网络提取了原本被忽视的但有助于细粒度分类的通道特征,使得到的特征表示更加全面;通过空间多区域特征注意模块,使得分类网络多个阶段输出的特征在空间维度上分别关注了物体不同的辨别性部分,提高了最终特征表示的辨别性;通过融合对比学习思想的损失项,有区别的对待了不同类别的细粒度图像,增大了类间差异。在对比学习损失项中,融合了对比学习的思想,将同一输入批次中的不同种类的训练图像设置为负样本,将同一种类的训练图像设置为正样本,通过损失函数的设置,来拉进正样本之间的距离,拉大负样本之间的距离,从而在训练过程中进一步优化分类网络的分类效果。
附图说明
图1为本发明基于卷积神经网络的细粒度图像分类方法的流程图;
图2为本发明中分类网络模型的整体结构示意图;
图3为本发明中分类网络模型通道特征再注意模块的结构示意图;
图4为本发明中分类网络模型空间多区域特征注意模块的结构示意图。
具体实施方式
下面结合附图以及具体实施方式对本发明作进一步详细说明:
经研究发现,在众多细粒度图像分类的方法中,采用融合通道特征再注意模块和空间多区域特征注意模块的卷积神经网络是比较可靠的一种分类思路,它属于弱监督的方法,同时采用多阶段的卷积网络作为特征提取网络可以获得更全面丰富的特征。因为多阶段的特征既包含了低级信息(颜色、边缘连接点等),也包含了高级语义信息,当物体的姿势和背景改变时低级信息会保持不变,减少了类内方差。尽管基于深度学习和注意力机制的分类方法一定程度上提升了细粒度图像分类的效果,但仍存在一些不足。对于细粒度图像分类网络,除了要提取显著性和易于区分的特征,还要帮助神经网络在物体特征的通道和空间维度上学习更多有助于细粒度分类的知识,即可通过通道特征再注意模块来强迫网络挖掘信息量贫瘠的通道特征中的知识,和利用空间多区域特征注意模块使多阶段的特征分别关注物体不同的辨别性部分。最终获取在通道和空间维度上更具辨别性的特征表示。
因此,本发明提出了一种基于卷积神经网络的细粒度图像分类方法,通过融合通道特征再注意模块和空间多区域特征注意模块构建了分类网络模型,采用对比学习的思想设计了损失函数中的对比学习损失项,最终采用该分类网络模型对实时获取到的图像进行分类。如图1和图2所示,具体包括如下步骤:
步骤1、构建分类网络模型;
所述分类网络模型包括特征提取网络、通道特征再注意模块、空间多区域特征注意模块和分类器。
所述特征提取网络由ResNet50、ResNet101、Densenet161等基础卷积网络构成,该类卷积网络结构相似,均由多个阶段构成,每个阶段即包含一个卷积层,当图像输入到特征提取网络中,每经过一个阶段,特征图的空间尺寸减少一半,通道数目增加一倍,将特征提取网络多个阶段的输出特征图Xl作为特征提取网络的输出特征,并将其称为多阶段卷积神经网络,本发明采用后三阶段输出的卷积神经网络作为特征提取网络。
如图3所示,所述通道特征再注意模块内部首先采用平均池化和最大池化操作来整合特征通道信息,并利用SoftMax函数来获取特征图中每个通道的权重信息;按照权重分配得到增强的掩码矩阵E,并将权重高的通道进行抑制,通过抑制函数F(x)得到抑制的掩码矩阵S。将输入特征图Xl分别与增强的掩码矩阵E和抑制的掩码矩阵S相乘得到输出特征图
Figure BDA0003879131920000071
Figure BDA0003879131920000072
其中,
SoftMax函数可由下式表示:
Figure BDA0003879131920000073
其中,Zi是经过SoftMax函数后每个通道的输出值,C是输出通道的总数量,通过SoftMax函数就可以获得所求通道的权重信息。
增强的掩码矩阵E可由下式进行计算:
E=SoftMax(AvgPool(Xl)+MaxPool((Xl))) (2)
其中,AvgPool(·)表示平均池化,MaxPool(·)表示最大池化;
抑制函数F(x)可由下式表示:
Figure BDA0003879131920000074
其中,Zi是经过SoftMax函数后每个通道的输出值,Zmax是通道最大的输出值,ω、δ均表示超参数,它们分别代表对应的通道被抑制的程度和需要进行抑制通道的程度。
当前阶段的输出特征图
Figure BDA0003879131920000075
Figure BDA0003879131920000076
可由下式得到:
Figure BDA0003879131920000077
其中,
Figure BDA0003879131920000078
表示逐元素相乘操作。
多个阶段的
Figure BDA0003879131920000081
经过卷积层Conv通道维度统一后作为对应阶段的输出,通道统一是为了保证低级信息和高级信息的平衡。
Figure BDA0003879131920000082
输入到后续阶段强迫网络挖掘包含细粒度知识的潜在的通道特征。
如图4所示,所述空间多区域特征注意模块采用下采样卷积、1×1卷积、SoftMax函数和CCMP(Cross-channel max pooling)模块,其中下采样卷积用于将多个阶段的
Figure BDA0003879131920000083
和网络最后一个阶段的特征图
Figure BDA0003879131920000084
空间尺度保持一致,1×1卷积用来简化计算,SoftMax函数和CCMP模块用来计算多个阶段的
Figure BDA0003879131920000085
的空间上的相似性,并得到多样性学习损失Ldiv,Ldiv和相似性之间呈负相关,通过训练降低多样性损失,即可使多个阶段的
Figure BDA0003879131920000086
在空间上关注物体不同的辨别性部分;
假设特征提取网络的后三阶段经过通道再注意模块得到的特征图分别为
Figure BDA0003879131920000087
Figure BDA0003879131920000088
其中,Ct表示归一化后的通道维度,在本发明中取值等于1,WL-2表示第L-2个阶段特征图的宽度,HL-2表示第L-2个阶段特征图的高度;WL-1表示第L-1个阶段特征图的宽度,HL-1表示第L-1个阶段特征图的高度,WL表示第L个阶段特征图的宽度,HL表示第L个阶段特征图的高度;
为了减少计算量,对特征图通过下式进行预处理:
Figure BDA0003879131920000089
其中,φ(·)表示1×1卷积;Conv_blockl(·)表示下采样卷积;l表示特征图的第几个阶段。
这样就得到了空间尺寸相同、通道数为1的来自三个阶段的特征图。为了探索三个阶段特征图空间尺寸上的相似性,采用SoftMax函数获取每个空间位置处的权重信息,之后沿通道维度进行拼接得到特征图
Figure BDA00038791319200000810
将其输入到CCMP模块中,CCMP是跨通道最大池化,它倾向于对Xconcat中的每个像素在通道维度的峰值进行响应,并对Xconcat中元素进行先求和再求均值的操作h(·)来得到相似性的值Si
Figure BDA00038791319200000811
其中,k表示Xconcat的空间尺寸的大小,j表示Xconcat的第几个通道,ε表示Xconcat的通道数量,通过空间多区域特征注意模块将得到一个表征各阶段特征图之间相似性的值Si。Si的值越大,特征图之间的相似性越高。为了使分类模型关注到物体的多个不同部分。在训练时会降低特征图之间的相似性,即降低Si
最后,根据相似性Si得到多样性学习损失Ldiv,计算方式如下,
Ldiv=(1-Si)/ε (7)
其中,ε代表采用了特征提取网络的几个阶段作为输出,在这里代表Xconcat的通道数,在本发明中取值为3。
所述分类器采用SoftMax分类器,它被用在多分类任务中,能将多个神经元的输出,映射到(0,1)区间内,可以看成概率来理解,从而来进行多分类。
另外,所述分类网络模型的总损失函数Ltotal定义如下:
Ltotal=αLcls+βLdiv+γLcon (8)
其中,Lcls表示交叉熵损失,Ldiv表示多样性学***衡参数,用于各平衡损失函数的权重;其中,
交叉熵损失Lcls作为分类损失,由各阶段各自的分类损失和将各阶段特征拼接后表示整体的分类损失构成,计算公式如下:
Figure BDA0003879131920000091
其中,y是输入图像的真值标签,用one-hot向量来表示。θ12也是平衡参数,SoftMax函数用来计算神经网络的预测标签值。clsl(·)表示分类器,
Figure BDA0003879131920000092
表示第l个阶段输出特征fl的标签预测值。clsconcat(·)表示用于整体特征表示的分类器,Zfconcat表示整体特征表示fconcate的标签预测值。
多样性学习损失Ldiv的计算公式为公式(6):
对比学习损失Lcon为:
Figure BDA0003879131920000093
其中,N是输入图像批次的大小,zi,zj是经过l2正则化后的同一批次内不同类别的输入图像,yi,yj是不同类别输入图像的标签值,Sim(zi,zj)是zi,zj之间的余弦相似性,i,j表示同一批次的不同样本,η表示只有相似度大于η的不同类别的输入才对损失Lcon有贡献。
步骤2、构建训练数据集,进行模型训练;具体过程如下:
步骤2.1、采用CUB_200_2011数据集作为训练数据集,将采集到的原始图像通过水平翻转和中心裁剪等方式进行数据预处理,实现数据扩充,构建训练数据集;
CUB_200_2011数据集由加州理工学院在2010年提出的细粒度数据集,也是目前细粒度分类识别研究的基准图像数据集。它共有11788张鸟类图像,包含200类鸟类子类,其中训练数据集有5994张图像,测试集有5794张图像,每张图像均提供了图像类标记信息。
步骤2.2、将训练数据集的细粒度图像送入分类网络模型,对分类网络模型中的可学习的参数进行训练和优化,从而使模型中的通道特征再注意模块能够最大可能挖掘特征图中潜在的细粒度知识,空间多区域特征注意模块极大程度能够降低不同阶段的特征图之间的相似性,当整个模型训练到收敛时,得到训练完成的分类网络模型。
步骤3、实时获取待分类的图像,将其送入训练完成的分类网络模型,得到当前图像的分类结果。具体过程如下:
首先将待分类细粒度图像送入到阶段为L的特征提取网络中,然后将其输入通道特征再注意模块,得到通道增强的特征图
Figure BDA0003879131920000101
和通道抑制的特征图
Figure BDA0003879131920000102
通道增强的特征图作为网络当前阶段的输出,通道抑制的特征图送入后续阶段来强迫网络关注那些包含细粒度知识的信息贫瘠的通道;模型训练时已经利用空间多区域特征注意模块来使多个阶段输出的通道增强的特征图
Figure BDA0003879131920000103
在空间维度上关注物体不同的辨别性部分;故该模型将会得到多个在空间和通道上都具有辨别性的输出特征,最后将多个阶段的输出特征作为该图像的特征表示;最终经过SoftMax分类器来得到当前图像的分类结果。
本发明提出的一种基于融合通道特征再注意模块和空间多区域特征注意模块的卷积神经网络的细粒度图像分类方法,结合了深度学习中卷积神经网络和改进的注意力模块的方法来进行细粒度图像的分类。本发明所述方法最大程度地改进了注意力机制在该任务中的弊端,增强了基础卷积网络提取特征的能力。在分类网络模型中,通过提出的通道特征再注意模块,提高了网络中特征的利用率,几乎不会增加原网络的学习参数,且更好地学习了潜在的有助于细粒度分类的通道特征中包含的细粒度知识,同时能控制对较小训练集任务的过度拟合(如本发明所用的CUB_200_2011鸟类数据集);引入空间多区域特征注意模块来使分类网络多个阶段输出的特征图在空间上关注物体不同的辨别性部分,而不是都关注物体最显著的的部分;在损失函数中设计的对比学习损失项,融合对比学习的思想,提升网络模型的分类性能。本发明解决了细粒度图像分类任务中使用深层网络提取特征时不能充分利用上下文的问题,及应用注意力机制时只关注物体最显著的通道和空间特征等问题。
当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。

Claims (8)

1.一种基于卷积神经网络的细粒度图像分类方法,其特征在于,首先通过融合通道特征再注意模块和空间多区域特征注意模块构建了分类网络模型,然后采用对比学习的思想设计了损失函数中的对比学习损失项,最终采用该分类网络模型对实时获取到的图像进行分类;具体包括如下步骤:
步骤1、构建分类网络模型;
所述分类网络模型包括特征提取网络、通道特征再注意模块、空间多区域特征注意模块和分类器;
步骤2、构建训练数据集,进行模型训练;
步骤3、实时获取待分类的图像,将其送入训练完成的分类网络模型,得到当前图像的分类结果。
2.根据权利要求1所述基于卷积神经网络的细粒度图像分类方法,其特征在于,采用后三阶段输出的卷积神经网络作为特征提取网络,所述特征提取网络由ResNet50、ResNet101、Densenet161基础卷积网络构成,各卷积网络结构均由多个阶段构成,每个阶段包含一个卷积层,当图像输入到特征提取网络中,每经过一个阶段,特征图的空间尺寸减少一半,通道数目增加一倍,将特征提取网络多个阶段的输出特征图Xl作为特征提取网络的输出特征。
3.根据权利要求1所述基于卷积神经网络的细粒度图像分类方法,其特征在于,所述通道特征再注意模块内部首先采用平均池化和最大池化操作来整合特征通道信息,并利用SoftMax函数来获取特征图中每个通道的权重信息;按照权重分配得到增强的掩码矩阵E,并将权重高的通道进行抑制,通过抑制函数F(x)得到抑制的掩码矩阵S;将输入特征图Xl分别与增强的掩码矩阵E和抑制的掩码矩阵S相乘得到输出特征图
Figure FDA0003879131910000011
Figure FDA0003879131910000012
其中,
SoftMax函数由下式表示:
Figure FDA0003879131910000013
其中,Zi是经过SoftMax函数后每个通道的输出值,C是输出通道的总数量,通过SoftMax函数获得所求通道的权重信息;
增强的掩码矩阵E由下式进行计算:
E=SoftMax(AvgPool(Xl)+MaxPool((Xl))) (2)
其中,AvgPool(·)表示平均池化,MaxPool(·)表示最大池化;
抑制函数F(x)由下式表示:
Figure FDA0003879131910000021
其中,Zmax是通道最大的输出值,ω、δ均表示超参数,分别代表对应的通道被抑制的程度和需要进行抑制通道的程度;
当前阶段的输出特征图
Figure FDA0003879131910000022
Figure FDA0003879131910000023
由下式得到:
Figure FDA00038791319100000215
其中,
Figure FDA00038791319100000214
表示逐元素相乘操作;
多个阶段的
Figure FDA0003879131910000026
经过卷积层Conv通道维度统一后作为对应阶段的输出,通道统一是为了保证低级信息和高级信息的平衡;
Figure FDA0003879131910000027
输入到后续阶段强迫网络挖掘包含细粒度知识的潜在的通道特征。
4.根据权利要求1所述基于卷积神经网络的细粒度图像分类方法,其特征在于,所述空间多区域特征注意模块采用下采样卷积、1×1卷积、SoftMax函数和CCMP模块,其中下采样卷积用于将多个阶段的
Figure FDA0003879131910000028
和网络最后一个阶段的特征图
Figure FDA0003879131910000029
空间尺度保持一致,1×1卷积用来简化计算,SoftMax函数和CCMP模块用来计算多个阶段的
Figure FDA00038791319100000210
的空间上的相似性,并得到多样性学习损失Ldiv,Ldiv和相似性之间呈负相关,通过训练降低多样性损失,可使多个阶段的
Figure FDA00038791319100000216
在空间上关注物体不同的辨别性部分;
假设特征提取网络的后三阶段经过通道再注意模块得到的特征图分别为
Figure FDA00038791319100000211
Figure FDA00038791319100000212
其中,Ct表示归一化后的通道维度,WL-2表示第L-2个阶段特征图的宽度,HL-2表示第L-2个阶段特征图的高度;WL-1表示第L-1个阶段特征图的宽度,HL-1表示第L-1个阶段特征图的高度,WL表示第L个阶段特征图的宽度,HL表示第L个阶段特征图的高度;
为了减少计算量,对特征图通过下式进行预处理:
Figure FDA00038791319100000213
其中,φ(·)表示1×1卷积;Conv_blockl(·)表示下采样卷积;l表示特征图的第几个阶段;
得到空间尺寸相同、通道数为1的来自三个阶段的特征图后,采用SoftMax函数获取每个空间位置处的权重信息,之后沿通道维度进行拼接得到特征图
Figure FDA0003879131910000031
将其输入到CCMP模块中,CCMP对Xconcat中的每个像素在通道维度的峰值进行响应,并对Xconcat中元素进行先求和再求均值的操作h(·)来得到相似性的值Si
Figure FDA0003879131910000032
其中,k表示Xconcat的空间尺寸的大小,j表示Xconcat的第几个通道,ε表示Xconcat的通道数量,通过空间多区域特征注意模块将得到一个表征各阶段特征图之间相似性的值Si
最后,根据相似性Si得到多样性学习损失Ldiv,计算方式如下,
Ldiv=(1-Si)/ε (7)
其中,ε代表采用了特征提取网络的几个阶段作为输出,在这里代表Xconcat的通道数。
5.根据权利要求1所述基于卷积神经网络的细粒度图像分类方法,其特征在于,所述分类器采用SoftMax分类器,被应用在多分类任务中,将多个神经元的输出映射到(0,1)区间内。
6.根据权利要求1所述基于卷积神经网络的细粒度图像分类方法,其特征在于,所述分类网络模型的总损失函数Ltotal定义如下:
Ltotal=αLcls+βLdiv+γLcon (8)
其中,Lcls表示交叉熵损失,Ldiv表示多样性学***衡参数,用于各平衡损失函数的权重;其中,
交叉熵损失Lcls作为分类损失,由各阶段各自的分类损失和将各阶段特征拼接后表示整体的分类损失构成,计算公式如下:
Figure FDA0003879131910000033
其中,y是输入图像的真值标签,用one-hot向量来表示;θ12也是平衡参数,SoftMax函数用来计算神经网络的预测标签值;clsl(·)表示分类器,
Figure FDA0003879131910000034
表示第l个阶段输出特征fl的标签预测值;clsconcat(·)表示用于整体特征表示的分类器,
Figure FDA0003879131910000035
表示整体特征表示fconcate的标签预测值;
对比学习损失Lcon为:
Figure FDA0003879131910000041
其中,N是输入图像批次的大小,zi,zj是经过l2正则化后的同一批次内不同类别的输入图像,yi,yj是不同类别输入图像的标签值,Sim(zi,zj)是zi,zj之间的余弦相似性,i,j表示同一批次的不同样本,η表示只有相似度大于η的不同类别的输入才对损失Lcon有贡献。
7.根据权利要求1所述基于卷积神经网络的细粒度图像分类方法,其特征在于,所述步骤2的具体过程如下:
步骤2.1、采用CUB_200_2011数据集作为训练数据集,将采集到的原始图像通过水平翻转和中心裁剪方式进行数据预处理,实现数据扩充,构建训练数据集;
步骤2.2、将训练数据集的细粒度图像送入分类网络模型,对分类网络模型中的可学习的参数进行训练和优化,从而使模型中的通道特征再注意模块能够最大可能挖掘特征图中潜在的细粒度知识,空间多区域特征注意模块极大程度能够降低不同阶段的特征图之间的相似性,当整个模型训练到收敛时,得到训练完成的分类网络模型。
8.根据权利要求1所述基于卷积神经网络的细粒度图像分类方法,其特征在于,所述步骤3的具体过程如下:
首先将待分类细粒度图像送入到阶段为L的特征提取网络中,然后将其输入通道特征再注意模块,得到通道增强的特征图
Figure FDA0003879131910000042
和通道抑制的特征图
Figure FDA0003879131910000043
通道增强的特征图作为网络当前阶段的输出,通道抑制的特征图送入后续阶段来强迫网络关注那些包含细粒度知识的信息贫瘠的通道;模型训练时已经利用空间多区域特征注意模块来使多个阶段输出的通道增强的特征图
Figure FDA0003879131910000044
在空间维度上关注物体不同的辨别性部分;故该模型将会得到多个在空间和通道上都具有辨别性的输出特征,最后将多个阶段的输出特征作为该图像的特征表示;最终经过SoftMax分类器来得到当前图像的分类结果。
CN202211224648.8A 2022-10-09 2022-10-09 一种基于卷积神经网络的细粒度图像分类方法 Pending CN115631369A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211224648.8A CN115631369A (zh) 2022-10-09 2022-10-09 一种基于卷积神经网络的细粒度图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211224648.8A CN115631369A (zh) 2022-10-09 2022-10-09 一种基于卷积神经网络的细粒度图像分类方法

Publications (1)

Publication Number Publication Date
CN115631369A true CN115631369A (zh) 2023-01-20

Family

ID=84904512

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211224648.8A Pending CN115631369A (zh) 2022-10-09 2022-10-09 一种基于卷积神经网络的细粒度图像分类方法

Country Status (1)

Country Link
CN (1) CN115631369A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116452896A (zh) * 2023-06-16 2023-07-18 中国科学技术大学 用于提升细粒度图像分类性能的方法、***、设备及介质
CN116664911A (zh) * 2023-04-17 2023-08-29 山东第一医科大学附属肿瘤医院(山东省肿瘤防治研究院、山东省肿瘤医院) 一种基于可解释深度学习的乳腺肿瘤图像分类方法
CN116994032A (zh) * 2023-06-28 2023-11-03 河北大学 一种基于深度学习的直肠息肉多分类方法
CN117011718A (zh) * 2023-10-08 2023-11-07 之江实验室 一种基于多元损失融合的植物叶片细粒度识别方法和***

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116664911A (zh) * 2023-04-17 2023-08-29 山东第一医科大学附属肿瘤医院(山东省肿瘤防治研究院、山东省肿瘤医院) 一种基于可解释深度学习的乳腺肿瘤图像分类方法
CN116452896A (zh) * 2023-06-16 2023-07-18 中国科学技术大学 用于提升细粒度图像分类性能的方法、***、设备及介质
CN116452896B (zh) * 2023-06-16 2023-10-20 中国科学技术大学 用于提升细粒度图像分类性能的方法、***、设备及介质
CN116994032A (zh) * 2023-06-28 2023-11-03 河北大学 一种基于深度学习的直肠息肉多分类方法
CN116994032B (zh) * 2023-06-28 2024-02-27 河北大学 一种基于深度学习的直肠息肉多分类方法
CN117011718A (zh) * 2023-10-08 2023-11-07 之江实验室 一种基于多元损失融合的植物叶片细粒度识别方法和***
CN117011718B (zh) * 2023-10-08 2024-02-02 之江实验室 一种基于多元损失融合的植物叶片细粒度识别方法和***

Similar Documents

Publication Publication Date Title
Bouti et al. A robust system for road sign detection and classification using LeNet architecture based on convolutional neural network
CN110532920B (zh) 基于FaceNet方法的小数量数据集人脸识别方法
Yuan et al. Gated CNN: Integrating multi-scale feature layers for object detection
CN115631369A (zh) 一种基于卷积神经网络的细粒度图像分类方法
CN112906720B (zh) 基于图注意力网络的多标签图像识别方法
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
CN107977661B (zh) 基于fcn与低秩稀疏分解的感兴趣区域检测方法
CN110287798B (zh) 基于特征模块化和上下文融合的矢量网络行人检测方法
Roecker et al. Automatic vehicle type classification with convolutional neural networks
Xia et al. Weakly supervised multimodal kernel for categorizing aerial photographs
Vaidya et al. Deep learning architectures for object detection and classification
Manssor et al. Real-time human detection in thermal infrared imaging at night using enhanced Tiny-yolov3 network
CN116798070A (zh) 一种基于光谱感知和注意力机制的跨模态行人重识别方法
Yu et al. WaterHRNet: A multibranch hierarchical attentive network for water body extraction with remote sensing images
US20220301311A1 (en) Efficient self-attention for video processing
Ajagbe et al. Performance investigation of two-stage detection techniques using traffic light detection dataset
Wang et al. Object detection with deep learning for underwater environment
Wang et al. Pedestrian detection in infrared image based on depth transfer learning
Singh et al. CNN based approach for traffic sign recognition system
Kustikova et al. A survey of deep learning methods and software for image classification and object detection
Sabater et al. Event Transformer+. A multi-purpose solution for efficient event data processing
Akanksha et al. A Feature Extraction Approach for Multi-Object Detection Using HoG and LTP.
CN117372853A (zh) 一种基于图像增强和注意力机制的水下目标检测算法
Vijayalakshmi K et al. Copy-paste forgery detection using deep learning with error level analysis
Li A deep learning-based text detection and recognition approach for natural scenes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination