CN114626476A - 基于Transformer与部件特征融合的鸟类细粒度图像识别方法及装置 - Google Patents

基于Transformer与部件特征融合的鸟类细粒度图像识别方法及装置 Download PDF

Info

Publication number
CN114626476A
CN114626476A CN202210279684.8A CN202210279684A CN114626476A CN 114626476 A CN114626476 A CN 114626476A CN 202210279684 A CN202210279684 A CN 202210279684A CN 114626476 A CN114626476 A CN 114626476A
Authority
CN
China
Prior art keywords
feature
component
attention
map
formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210279684.8A
Other languages
English (en)
Inventor
阮涛
张海苗
刘畅
邱钧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Information Science and Technology University
Original Assignee
Beijing Information Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Information Science and Technology University filed Critical Beijing Information Science and Technology University
Priority to CN202210279684.8A priority Critical patent/CN114626476A/zh
Publication of CN114626476A publication Critical patent/CN114626476A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于Transformer和部件特征融合的鸟类细粒度图像识别方法及装置,该方法包括:步骤1,通过将预处理后的图像输入基于Transformer架构网络的特征编码器,提取出基础特征图,并将所述基础特征图输入注意力模块,生成部件注意力图;步骤2,将所述基础特征图和所述部件注意力图进行双线性注意力池化操作,获得判别性部件特征;步骤3,通过将判别性部件特征在通道维度上进行拼接,得到融合了判别性部件信息的增强特征表示;步骤4,通过将增强特征表示输入全连接层,完成类别的映射,并通过交叉熵损失和中心损失对模型参数进行优化。本发明能够实现在弱监督下对鸟类图像进行高精度识别。

Description

基于Transformer与部件特征融合的鸟类细粒度图像识别方 法及装置
技术领域
本发明涉及计算机视觉技术领域,尤其涉及深度学习和细粒度图像识别技术,具体涉及一种基于Transformer与部件特征融合的鸟类细粒度识别方法及装置。
背景技术
鸟类图像识别属于细粒度图像识别任务。细粒度图像识别是对属于同一个一般类别的不同子类进行区分。一般的图像识别,是对物体所属的大类别进行划分,如区分马、猫等,这些不同类物体间的特征差异较大,类别相对容易区分。对于细粒度图像,物体间的差异通常存在于细微的部分,且同一物体由于尺度或视角、背景等而呈现出较大的视觉差异,因此识别难度更大。
发明内容
本发明的目的在于提供一种基于Transformer与部件特征融合的鸟类细粒度图像识别方法及装置,能够获得鸟类细粒度图像更高的识别精度。
为实现上述目的,本发明提供一种基于Transformer和部件特征融合的鸟类细粒度图像识别方法,其包括:
步骤1,通过将预处理后的图像输入基于Transformer架构网络的特征编码器,提取出基础特征图,并将所述基础特征图输入注意力模块,生成部件注意力图;
步骤2,将所述基础特征图和所述部件注意力图进行双线性注意力池化操作,获得判别性部件特征;
步骤3,通过将判别性部件特征在通道维度上进行拼接,得到融合了判别性部件信息的增强特征表示;
步骤4,通过将增强特征表示输入全连接层,完成类别的映射,并通过交叉熵损失和中心损失对模型参数进行优化。
进一步地,所述步骤1中提取出基础特征图的方法具体包括:
步骤11a,将预处理好的原始图像I输入特征提取网络f,提取二维的基础特征图F,F∈(H·W)×D,其中H、W分别表示为该基础特征图F的高和宽,D表示嵌入维度大小;
步骤12a,将基础特征图F进行重组,获得三维的基础特征图
Figure BDA0003556345140000021
该过程如下式(1)所示:
Figure BDA0003556345140000022
式中,reshape(·)表示对基础特征图进行重组。
进一步地,所述步骤所述步骤1中生成部件注意力图的方法具体包括:
步骤11b,确定需要生成的部件注意力图的通道数M,即生成部件特征的数量;
步骤12b,由一个卷积核为1×1的二维卷积和Sigmoid函数组成注意力模块G,将特征图
Figure BDA0003556345140000023
输入注意力模块G,生成表征目标物体的不同部件分布的部件注意力图A,如下式(2)所示:
Figure BDA0003556345140000024
式中,Ai(i=1,2,…,M)表示目标物体中的第i个部件注意力图。
进一步地,所述步骤2具体包括:
步骤21,将不同的部件注意力图Ai的维度扩展到与基础特征图
Figure BDA0003556345140000025
的一致,接着将扩展后的部件注意力图Ai与基础特征图
Figure BDA0003556345140000026
按照如下式(3)的方式逐元素相乘,得到判别性部件特征Pi
Figure BDA0003556345140000027
式中,⊙表示逐元素相乘运算;
步骤22,将判别性部件特征Pi按照下式(4)提供的全局平均池化进行聚合操作,聚合各判别性部件特征Pi
hi=ψ(Pi) (4)
式中,hi表示第i个部件聚合后的特征,ψ(·)表示全局平均池化(GAP)。
进一步地,所述步骤3具体包括:
步骤31,将聚合的判别性部件特征hi在通道维度上进行拼接,从而得到增强的特征表示,即全局的部件特征Q,该特征融合了判别性部件信息,特征表达能力更强。
Q=Concate(h1,h2,…,hM) (5)
式中,Concate(·)表示特征拼接;
步骤32,将全局的部件特征Q进行L2范数的归一化处理后,传入全连接层,完成特征向量到类别的映射。
进一步地,所述步骤4具体包括:
步骤41,将全局的部件特征Q输入到全连接层,完成鸟类图像类别的映射,得到预测值与标签的交叉熵损失
Figure BDA0003556345140000031
用于对分类结果进行惩罚,其单个样本的损失如式(6)所示:
Figure BDA0003556345140000032
式中,y表示类别标签,y′表示预测值,P表示经Softmax处理后概率;
步骤42,采用式(8)描述的单个样本的中心损失对部件注意力的生成过程进行弱监督,使得不同的部件特征不断逼近特征中心:
Figure BDA0003556345140000033
式中,qi是全局的部件特征Q中的第i个部件特征,ci是第i个部件特征的中心;
步骤43,初始化ci,在模型训练过程中对其按如下式(9)更新:
ci←ci+α(qi-ci) (9)
式中,α∈[0,1]是ci更新的学习率,模型在训练阶段的总体损失
Figure BDA0003556345140000034
定义如下(10):
Figure BDA0003556345140000035
本发明还提供一种基于Transformer和部件特征融合的鸟类细粒度图像识别装置,其包括:
部件注意力生成单元,其用于通过将预处理后的图像输入基于Transformer架构网络的特征编码器,提取出基础特征图,并将所述基础特征图输入注意力模块,生成部件注意力图;
判别性部件特征生成单元,其用于将所述基础特征图和所述部件注意力图进行双线性注意力池化操作,获得判别性部件特征;
特征融合单元,其用于通过将判别性部件特征在通道维度上进行拼接,得到融合了判别性部件信息的增强特征表示;
参数学习优化单元,其用于通过将增强特征表示输入全连接层,完成类别的映射,并通过交叉熵损失和中心损失对模型参数进行优化。
进一步地,所述部件注意力生成单元包括:
基础特征图提取子单元,其具体包括:
二维基础特征图提取模块,其用于将预处理好的原始图像I输入特征提取网络f,提取二维的基础特征图F,F∈(H·W)×D,其中H、W分别表示为该基础特征图F的高和宽,D表示嵌入维度大小;
三维基础特征图模块,其用于将基础特征图F进行重组,获得三维的基础特征图
Figure BDA0003556345140000041
该过程如下式(1)所示:
Figure BDA0003556345140000042
式中,reshape(·)表示对特征图进行重组;
部件注意力图生成子单元,其用于确定需要生成的部件注意力图的通道数M,并由一个卷积核为1×1的二维卷积和Sigmoid函数组成注意力模块G,将特征图
Figure BDA0003556345140000043
输入注意力模块G,生成表征目标物体的不同部件分布的部件注意力图A,如下式(2)所示:
Figure BDA0003556345140000044
式中,Ai(i=1,2,…,M)表示目标物体中的第i个部件注意力图。
进一步地,所述判别性部件特征生成单元具体包括:
单个判别性部件特征生成模块,其用于将不同的部件注意力图Ai的维度扩展到与基础特征图F的一致,接着将扩展后的部件注意力图Ai与基础特征图F按照如下式(3)的方式逐元素相乘,得到判别性部件特征Pi
Figure BDA0003556345140000045
式中,⊙表示逐元素相乘运算;
判别性部件特征融合模块,其用于将判别性部件特征Pi按照下式(4)提供的全局平均池化进行聚合操作,融合各判别性部件特征Pi
hi=ψ(Pi) (4)
式中,hi表示第i个部件聚合后的特征,ψ(·)表示全局平均池化(GAP)。
进一步地,所述参数学习优化单元具体包括:
样本分类损失获取模块,其用于将全局的部件特征Q输入到全连接层,完成鸟类图像类别的映射,得到预测值与标签的交叉熵损失
Figure BDA0003556345140000046
用于对分类结果进行惩罚,其单个样本的分类损失如式(6)所示:
Figure BDA0003556345140000047
式中,y表示类别标签,y′表示预测值,P表示经Softmax处理后概率;
部件特征的中心更新模块,其用于采用式(8)描述的单个样本的中心损失对部件注意力的生成过程进行弱监督,并初始化ci,在模型训练过程中对其按如下式(9)更新,模型在训练阶段的总体损失
Figure BDA0003556345140000051
定义如下(10):
Figure BDA0003556345140000052
ci←ci+α(qi-ci) (9)
Figure BDA0003556345140000053
式中,qi是全局的部件特征Q中的第i个部件特征,ci是第i个部件特征的中心,α∈[0,1]是ci更新的学习率。
本发明由于采取以上技术方案,其具有以下优点:
本发明通过注意力方式生成部件注意力图,并将其与基于Transformer架构的特征提取网络结合以实现判别性部件特征的融合,其不仅能关注到判别性部件,还能得到表达能力更好的特征表示;模型在训练阶段仅需类别标签,不需要其他的标注信息,就能实现弱监督下鸟类图像的高识别精度。
附图说明
图1为本发明实施例提供的方法的流程示意图。
图2为图1对应的总体模型结构图。
图3为图1中的注意力模块图。
图4为图1中的部件特征的提取和融合过程图。
图5为图1中的中心损失对模型性能的影响效果图。
具体实施方式
在附图中,为使上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
术语解释:在计算机视觉领域,基于Transformer架构的网络主要由多层感知机组成,其首先会将图像划分为多个图像块,接着传入后续的其他网络。该网络中的自注意力机制使得提取的特征图能包含全局信息,有利于下游任务。
如图1所示,本发明实施例提供的基于Transformer与部件特征融合的鸟类细粒度图像识别方法包括以下步骤:
步骤1,通过将预处理后的图像输入基于Transformer架构网络的特征编码器,对基础特征图进行提取,并将所述基础特征图输入注意力模块,生成部件注意力图。
步骤2,将所述基础特征图和所述部件注意力图进行双线性注意力池化操作,获得判别性部件特征。
步骤3,通过将判别性部件特征在通道维度上进行拼接,得到融合了判别性部件信息的增强特征表示。
步骤4,通过将增强特征表示输入全连接层,完成类别的映射,并通过交叉熵损失和中心损失对模型参数进行优化。其中,模型参数所适用的模型由特征提取网络f、构建的注意力模块G以及全连接层构成。
因此,步骤1用于获取图像的基础特征图和判别性的部件注意力图。
在一个实施例中,步骤1中获取图像的基础特征图方法具体包括:
步骤11a,图像预处理。
例如:选取公开的鸟类数据集CUB-200-2011和NABirds,并将选取的鸟类数据集划分为训练集和测试集。下面按照所处的阶段举例说明图像预处理的具体实现方法,而且,两个鸟类数据集的图像预处理方法相同。
训练阶段:首先,将训练集的图像调整为496×496像素,接着随机裁剪出384×384像素的区域,然后采用随机水平翻转的方式进行数据增广,最后对图像数据做归一化处理,归一化的均值和标准差分别为[0.485,0.456,0.406],[0.229,0.224,0.225]。
测试阶段:将图像中心裁剪为384×384像素大小,并与训练阶段做相同的归一化处理。
步骤12a,将预处理好的原始图像I输入特征提取网络f,提取二维的基础特征图F,F∈(H·W)×D,其中H、W分别表示为该基础特征图F的高和宽,D表示嵌入维度大小。如图2所示,本实施例采用特征提取网络f是以基于Transformer架构的Swin-L。
步骤13a,将基础特征图F进行重组,获得三维的基础特征图
Figure BDA0003556345140000061
这样可以使得基础特征图F与后面构建的注意力网络进行适配,而且输入维度满足一致性要求。
那么,步骤1中获取图像的基础特征图方法可以描述为下式(1):
Figure BDA0003556345140000062
式中,reshape(·)表示对特征图进行重组。
需要说明的是,上述实施例中,还可以使用ResNet提取图像特征,其输出的为三维特征图,不需要重组。但是这种方法提取的是局部特征,特征表达能力有限。步骤1中的特征提取网络f还可以采用现有技术中的其它网络结构,只要能够获取表达丰富的基础特征图即可,在此不再一一列举。
在一个实施例中,步骤1中获取图像的判别性的部件注意力图方法具体包括:
步骤11b,确定需要生成的部件注意力图的通道数M,即生成部件特征的数量,不同的数据集可根据实际情况选择。
由于部件注意力图的通道数反映模型关注到目标物体判别性部件的覆盖范围,当关注到的部件数量较多时,模型对物体细微差异的判别性能会更好。在均衡模型可学习参数量和准确率的情况下,CUB-200-2011和NABirds数据集上的M值可分别设为64和32。M的取值可根据不同数据集上的实验效果选取。
步骤12b,构建注意力模型以生成部件注意力图。
通常地,图像的注意力模块由全连接层、二维卷积、批归一化、和激活函数(例如,ReLU,Sigmoid,Softmax)等组成,不同的注意力架构所生成的注意力图对模型性能的提升有差异。通过在实验中分析发现,由一个卷积核为1×1的二维卷积和Sigmoid函数组成的注意力生成模块G更适合本实施例架构的主干网,其具体结构如图3所示,其中,1x1的卷积用于改变特征通道数,使其等于需要设定的部件的个数。由此可知,通过二维卷积与激活函数结合生成注意力的方式不仅适用于卷积神经网络,在基于Transformer架构的网络中也是有效的。生成部件注意力图A的过程如下式(2)所示:
Figure BDA0003556345140000071
式中,A∈H×W×M,Ai∈H×W(i=1,2,…,M)表示目标物体中的第i个部件注意力图,比如鸟的头部、躯干等。
作为步骤1中获取图像的判别性的部件注意力图的另一种实现方式,可以在不改变步骤11b的情形下,步骤12b也可以采用由一个卷积核1x1的二维卷积、二维批归一化和ReLU函数组成的注意力模块G,还可以采用由一个全连接层、一维层归一化和Softmax函数组成的注意力模块G,甚至还可以采用由一个全连接层、一维层归一化和ReLU函数组成的注意力模块G,后面这两种方式无需对基础特征图进行重组。
由上述可以知晓:步骤2用于将所述基础特征图和所述部件注意力图通过双线性注意力池化(BAP),获得判别性部件特征。在一个实施例中,如图4所示,步骤2中的提取判别性部件特征的方法具体包括:
步骤21,将不同的部件注意力图Ai的维度扩展到与基础特征图
Figure BDA0003556345140000081
的一致,也就是说,将Ai在通道维度上重复多次,使得其通道数与
Figure BDA0003556345140000082
的保持一致,接着它们逐元素相乘得到判别性部件特征Pi∈H×W×D,此时存在判别性部件位置的基础特征图会被激活,从而得获取到判别性的部件特征。具体过程如式(3)所示:
Figure BDA0003556345140000083
式中,⊙表示逐元素相乘运算。
步骤22,对于图像分类任务,通常采用全局平均池化(GAP)的方式来聚合特征。在将步骤31得到的判别性部件特征通过全局平均池化进行聚合操作,以便于部件特征的融合。第i个部件的特征聚合过程定义如下:
hi=ψ(Pi) (4)
式中,hi∈D表示第i个部件聚合后的特征,ψ(·)表示全局平均池化。
在另外一个实施例中,步骤21可以采用通过将得到的特征图与注意力图直接通道拼接的方式实现。但是这种方式不是提取判别性部件,然后进行特征的融合,因而特征的表示能力有限。
由上述可知:步骤3用于将判别性部件特征进行融合,其具体包括:
步骤31,将聚合的各判别性部件特征hi在通道维度上进行拼接,从而得到增强的特征表示,即下式(5)示意的全局的部件特征Q∈M·D,该特征融合了判别性部件信息,特征表达能力更强。
Q=Concate(h1,h2,…,hM) (5)
式中,Concate(.)表示特征拼接;
步骤32,将全局的部件特征Q进行L2范数归一化处理后,传入全连接层。
上述步骤31中,还可以采用将特征图直接相加来替代在通道维度上进行拼接,来进行特征融合。
在一个实施例中,步骤4具体包括:
步骤41,由全连接层和Softmax组成模型的分类网络。将全局的部件特征Q输入到全连接层,完成鸟类图像类别的映射,得到预测值与标签的交叉熵(Cross entropy)损失
Figure BDA0003556345140000084
用于对分类结果进行惩罚,衡量类别之间的差距。其单个样本的分类损失如式(6)所示:
Figure BDA0003556345140000085
式中,y表示预先在图像中标记好的类别标签,比如0,1,2,…,y′表示由部件特征Q输入到全连接层后得到的预测值,P表示经Softmax处理后得到0-1的分类概率,其可如式(7)所示:
Figure BDA0003556345140000091
式中,y′j为第j个类别对应的输出值,C为数据集中总的类别数。
步骤42,为避免部件注意力图在模型训练过程中出现同质化现象,即确保不同层的注意力图可以表示不同的目标部件,在模型中采用中心损失(Center loss)函数对生成的部件注意力进行弱监督,将部件注意力图进行约束使得部件特征Q不断逼近特征中心。在模型训练过程中,该中心损失函数使得目标的同一部件特征表达尽可能类似,而不同的部件特征相差越大。单个样本的中心损失定义如下:
Figure BDA0003556345140000092
式中,qi∈D是全局的部件特征Q中的第i个部件特征,ci∈D是第i个部件的特征中心。ci初始化为0,在模型训练过程中对其按如下方式更新:
ci←ci+α(qi-ci) (9)
式中,α∈[0,1]是ci更新的学习率。在实验中发现,当α=0.05时能取得更好的效果。模型在训练阶段的总体损失
Figure BDA0003556345140000093
定义如下:
Figure BDA0003556345140000094
模型在测试阶段时,仅使用交叉熵损失作为总体损失。
本发明实施例还提供一种基于Transformer和部件特征融合的鸟类细粒度图像识别装置,其包括部件注意力生成单元、判别性部件特征生成单元、特征融合单元和参数学习优化单元,其中:
部件注意力生成单元用于通过将预处理后的图像输入基于Transformer架构网络的特征编码器,提取出基础特征图,并将所述基础特征图输入注意力模块,生成部件注意力图。
判别性部件特征生成单元用于将所述基础特征图和所述部件注意力图进行双线性注意力池化操作,获得判别性部件特征。
特征融合单元用于通过将判别性部件特征在通道维度上进行拼接,得到融合了判别性部件信息的增强特征表示。
参数学习优化单元用于通过将增强特征表示输入全连接层,完成类别的映射,并通过交叉熵损失和中心损失对模型参数进行优化。
在一个实施例中,所述部件注意力生成单元包括基础特征图提取子单元和部件注意力图生成子单元。
其中,二维基础特征图提取模块和三维基础特征图模块,二维基础特征图提取模块用于将预处理好的原始图像I输入特征提取网络f,提取二维的基础特征图F,F∈(H·W)×D,其中H、W分别表示为该基础特征图F的高和宽,D表示嵌入维度大小。三维基础特征图模块用于将基础特征图F进行重组,获得三维的基础特征图
Figure BDA0003556345140000101
该过程如下式(1)所示:
Figure BDA0003556345140000102
式中,reshape(·)表示对特征图进行重组。
部件注意力图生成子单元用于确定需要生成的部件注意力图的通道数M,并由一个卷积核为1×1的二维卷积和Sigmoid函数组成注意力模块G,将特征图
Figure BDA0003556345140000103
输入注意力模块G,生成表征目标物体的不同部件分布的部件注意力图A,如下式(2)所示:
Figure BDA0003556345140000104
式中,Ai(i=1,2,…,M)表示目标物体中的第i个部件注意力图。
在一个实施例中,所述判别性部件特征生成单元具体包括单个判别性部件特征生成模块和判别性部件特征融合模块,其中:
单个判别性部件特征生成模块用于将不同的部件注意力图Ai的维度扩展到与基础特征图F的一致,接着将扩展后的部件注意力图Ai与基础特征图F按照如下式(3)的方式逐元素相乘,得到判别性部件特征Pi
Figure BDA0003556345140000105
式中,⊙表示逐元素相乘运算。
判别性部件特征融合模块用于将判别性部件特征Pi按照下式(4)提供的全局平均池化进行聚合操作,融合各判别性部件特征Pi
hi=ψ(Pi) (4)
式中,hi表示第i个部件聚合后的特征,ψ(·)表示全局平均池化(GAP)。
在一个实施例中,所述参数学习优化单元具体包括单个样本损失获取模块和部件特征的中心更新模块,其中:
样本分类损失获取模块获取模块用于将全局的部件特征Q输入到全连接层,完成鸟类图像类别的映射,得到预测值与标签的交叉熵损失
Figure BDA0003556345140000111
用于对分类结果进行惩罚,其单个样本的分类损失如式(6)所示:
Figure BDA0003556345140000112
式中,y表示类别标签,y′表示预测值,P表示经Softmax处理后概率。
部件特征的中心更新模块用于采用式(8)描述的单个样本的中心损失对部件注意力的生成过程进行弱监督,并初始化ci,在模型训练过程中对其按如下式(9)更新,模型在训练阶段的总体损失
Figure BDA0003556345140000113
定义如下(10):
Figure BDA0003556345140000114
ci←ci+α(qi-ci) (9)
Figure BDA0003556345140000115
式中,qi是全局的部件特征Q中的第i个部件特征,ci是第i个部件特征的中心,α∈[0,1]是ci更新的学习率。
实际使用时,首先将输入的图像实施与上述实施例中相同的预处理,然后加载已经训练好的模型参数,最后将经预处理后的图像输入模型,从而输出类别概率。
为了验证中心损失对模型的性能提升是有效的,使用Grad-CAM对特征提取网络最后一层输出的特征图进行可视化,结果如图5所示。从中可以看出,没有添加中心损失的热图高能零星地分布在鸟的主体上或是包含多的背景区域,而添加了中心损失的热图高能区域更加集中在鸟的主体上,表明该区域对分类结果的影响更大,分类结果更好。
通过采用本发明提供的方法,能关注到判别性的部件,实现弱监督下对鸟类细粒度图像的高精度识别。
最后需要指出的是:以上实施例仅用以说明本发明的技术方案,而非对其限制。本领域的普通技术人员应当理解:可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于Transformer和部件特征融合的鸟类细粒度图像识别方法,其特征在于,包括:
步骤1,通过将预处理后的图像输入基于Transformer架构网络的特征编码器,提取出基础特征图,并将所述基础特征图输入注意力模块,生成部件注意力图;
步骤2,将所述基础特征图和所述部件注意力图进行双线性注意力池化操作,获得判别性部件特征;
步骤3,通过将判别性部件特征在通道维度上进行拼接,得到融合了判别性部件信息的增强特征表示;
步骤4,通过将增强特征表示输入全连接层,完成类别的映射,并通过交叉熵损失和中心损失对模型参数进行优化。
2.如权利要求1所述的基于Transformer和部件特征融合的鸟类细粒度图像识别方法,其特征在于,所述步骤1中提取出基础特征图的方法具体包括:
步骤11a,将预处理好的原始图像I输入特征提取网络f,提取二维的基础特征图F,F∈(H·W)×D,其中H、W分别表示为该基础特征图F的高和宽,D表示嵌入维度大小;
步骤12a,将基础特征图F进行重组,获得三维的基础特征图
Figure FDA0003556345130000011
Figure FDA0003556345130000012
该过程如下式(1)所示:
Figure FDA0003556345130000013
式中,reshape(·)表示对基础特征图进行重组。
3.如权利要求1或2所述的基于Transformer和部件特征融合的鸟类细粒度图像识别方法,其特征在于,所述步骤所述步骤1中生成部件注意力图的方法具体包括:
步骤11b,确定需要生成的部件注意力图的通道数M,即生成部件特征的数量;
步骤12b,由一个卷积核为1×1的二维卷积和Sigmoid函数组成注意力模块G,将特征图
Figure FDA0003556345130000014
输入注意力模块G,生成表征目标物体的不同部件分布的部件注意力图A,如下式(2)所示:
Figure FDA0003556345130000015
式中,Ai(i=1,2,...,M)表示目标物体中的第i个部件注意力图。
4.如权利要求3所述的基于Transformer和部件特征融合的鸟类细粒度图像识别方法,其特征在于,所述步骤2具体包括:
步骤21,将不同的部件注意力图Ai的维度扩展到与基础特征图
Figure FDA0003556345130000021
的一致,接着将扩展后的部件注意力图Ai与基础特征图
Figure FDA0003556345130000022
按照如下式(3)的方式逐元素相乘,得到判别性部件特征Pi
Figure FDA0003556345130000023
式中,⊙表示逐元素相乘运算;
步骤22,将判别性部件特征Pi按照下式(4)提供的全局平均池化进行聚合操作,聚合各判别性部件特征Pi
hi=ψ(Pi) (4)
式中,hi表示第i个部件聚合后的特征,ψ(·)表示全局平均池化(GAP)。
5.如权利要求4所述的基于Transformer和部件特征融合的鸟类细粒度图像识别方法,其特征在于,所述步骤3具体包括:
步骤31,将聚合的判别性部件特征hi在通道维度上进行拼接,从而得到增强的特征表示,即全局的部件特征Q,该特征融合了判别性部件信息,特征表达能力更强。
Q=Concate(h1,h2,...,hM) (5)
式中,Concate(·)表示特征拼接;
步骤32,将全局的部件特征Q进行L2范数的归一化处理后,传入全连接层,完成特征向量到类别的映射。
6.如权利要求1-5中任一项所述的基于Transformer和部件特征融合的鸟类细粒度图像识别方法,其特征在于,所述步骤4具体包括:
步骤41,将全局的部件特征Q输入到全连接层,完成鸟类图像类别的映射,得到预测值与标签的交叉熵损失
Figure FDA0003556345130000024
用于对分类结果进行惩罚,其单个样本的损失如式(6)所示:
Figure FDA0003556345130000025
式中,y表示类别标签,y′表示预测值,P表示经Softmax处理后概率;
步骤42,采用式(8)描述的单个样本的中心损失对部件注意力的生成过程进行弱监督,使得不同的部件特征不断逼近特征中心:
Figure FDA0003556345130000026
式中,qi是全局的部件特征Q中的第i个部件特征,ci是第i个部件特征的中心;
步骤43,初始化ci,在模型训练过程中对其按如下式(9)更新:
ci←ci+α(qi-ci) (9)
式中,α∈[0,1]是ci更新的学习率,模型在训练阶段的总体损失
Figure FDA0003556345130000031
定义如下(10):
Figure FDA0003556345130000032
7.一种基于Transformer和部件特征融合的鸟类细粒度图像识别装置,其特征在于,包括:
部件注意力生成单元,其用于通过将预处理后的图像输入基于Transformer架构网络的特征编码器,提取出基础特征图,并将所述基础特征图输入注意力模块,生成部件注意力图;
判别性部件特征生成单元,其用于将所述基础特征图和所述部件注意力图进行双线性注意力池化操作,获得判别性部件特征;
特征融合单元,其用于通过将判别性部件特征在通道维度上进行拼接,得到融合了判别性部件信息的增强特征表示;
参数学习优化单元,其用于通过将增强特征表示输入全连接层,完成类别的映射,并通过交叉熵损失和中心损失对模型参数进行优化。
8.如权利要求7所述的基于Transformer和部件特征融合的鸟类细粒度图像识别装置,其特征在于,所述部件注意力生成单元包括:
基础特征图提取子单元,其具体包括:
二维基础特征图提取模块,其用于将预处理好的原始图像I输入特征提取网络f,提取二维的基础特征图F,F∈(H·W)×D,其中H、W分别表示为该基础特征图F的高和宽,D表示嵌入维度大小;
三维基础特征图模块,其用于将基础特征图F进行重组,获得三维的基础特征图
Figure FDA0003556345130000033
该过程如下式(1)所示:
Figure FDA0003556345130000034
式中,reshape(·)表示对特征图进行重组;
部件注意力图生成子单元,其用于确定需要生成的部件注意力图的通道数M,并由一个卷积核为1×1的二维卷积和Sigmoid函数组成注意力模块G,将特征图
Figure FDA0003556345130000035
输入注意力模块G,生成表征目标物体的不同部件分布的部件注意力图A,如下式(2)所示:
Figure FDA0003556345130000041
式中,Ai(i=1,2,...,M)表示目标物体中的第i个部件注意力图。
9.如权利要求7所述的基于Transformer和部件特征融合的鸟类细粒度图像识别装置,其特征在于,所述判别性部件特征生成单元具体包括:
单个判别性部件特征生成模块,其用于将不同的部件注意力图Ai的维度扩展到与基础特征图F的一致,接着将扩展后的部件注意力图Ai与基础特征图F按照如下式(3)的方式逐元素相乘,得到判别性部件特征Pi
Figure FDA0003556345130000042
式中,⊙表示逐元素相乘运算;
判别性部件特征融合模块,其用于将判别性部件特征Pi按照下式(4)提供的全局平均池化进行聚合操作,融合各判别性部件特征Pi
hi=ψ(Pi) (4)
式中,hi表示第i个部件聚合后的特征,ψ(·)表示全局平均池化(GAP)。
10.如权利要求4所述的基于Transformer和部件特征融合的鸟类细粒度图像识别装置,其特征在于,所述参数学习优化单元具体包括:
样本分类损失获取模块,其用于将全局的部件特征Q输入到全连接层,完成鸟类图像类别的映射,得到预测值与标签的交叉熵损失
Figure FDA0003556345130000043
用于对分类结果进行惩罚,其单个样本的分类损失如式(6)所示:
Figure FDA0003556345130000044
式中,y表示类别标签,y′表示预测值,P表示经Softmax处理后概率;
部件特征的中心更新模块,其用于采用式(8)描述的单个样本的中心损失对部件注意力的生成过程进行弱监督,并初始化ci,在模型训练过程中对其按如下式(9)更新,模型在训练阶段的总体损失
Figure FDA0003556345130000045
定义如下(10):
Figure FDA0003556345130000046
ci←ci+α(qi-ci) (9)
Figure FDA0003556345130000047
式中,qi是全局的部件特征Q中的第i个部件特征,ci是第i个部件特征的中心,α∈[0,1]是ci更新的学习率。
CN202210279684.8A 2022-03-21 2022-03-21 基于Transformer与部件特征融合的鸟类细粒度图像识别方法及装置 Pending CN114626476A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210279684.8A CN114626476A (zh) 2022-03-21 2022-03-21 基于Transformer与部件特征融合的鸟类细粒度图像识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210279684.8A CN114626476A (zh) 2022-03-21 2022-03-21 基于Transformer与部件特征融合的鸟类细粒度图像识别方法及装置

Publications (1)

Publication Number Publication Date
CN114626476A true CN114626476A (zh) 2022-06-14

Family

ID=81903433

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210279684.8A Pending CN114626476A (zh) 2022-03-21 2022-03-21 基于Transformer与部件特征融合的鸟类细粒度图像识别方法及装置

Country Status (1)

Country Link
CN (1) CN114626476A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115035389A (zh) * 2022-08-10 2022-09-09 华东交通大学 基于可靠性评估和迭代学习的细粒度图像识别方法和装置
CN115471724A (zh) * 2022-11-02 2022-12-13 青岛杰瑞工控技术有限公司 一种基于自适应归一化的细粒度鱼类疫病识别融合算法
CN117853875A (zh) * 2024-03-04 2024-04-09 华东交通大学 一种细粒度图像识别方法及***

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115035389A (zh) * 2022-08-10 2022-09-09 华东交通大学 基于可靠性评估和迭代学习的细粒度图像识别方法和装置
CN115035389B (zh) * 2022-08-10 2022-10-25 华东交通大学 基于可靠性评估和迭代学习的细粒度图像识别方法和装置
CN115471724A (zh) * 2022-11-02 2022-12-13 青岛杰瑞工控技术有限公司 一种基于自适应归一化的细粒度鱼类疫病识别融合算法
CN117853875A (zh) * 2024-03-04 2024-04-09 华东交通大学 一种细粒度图像识别方法及***
CN117853875B (zh) * 2024-03-04 2024-05-14 华东交通大学 一种细粒度图像识别方法及***

Similar Documents

Publication Publication Date Title
CN110543892B (zh) 一种基于多层随机森林的零部件识别方法
CN110443143B (zh) 多分支卷积神经网络融合的遥感图像场景分类方法
Lin et al. Transfer learning based traffic sign recognition using inception-v3 model
CN109977918B (zh) 一种基于无监督域适应的目标检测定位优化方法
CN111583263B (zh) 一种基于联合动态图卷积的点云分割方法
CN114626476A (zh) 基于Transformer与部件特征融合的鸟类细粒度图像识别方法及装置
CN112801015B (zh) 一种基于注意力机制的多模态人脸识别方法
CN111476806B (zh) 图像处理方法、装置、计算机设备和存储介质
CN109410184B (zh) 基于稠密对抗网络半监督学习的直播色情图像检测方法
CN113221987B (zh) 一种基于交叉注意力机制的小样本目标检测方法
CN111652273B (zh) 一种基于深度学习的rgb-d图像分类方法
CN114821014B (zh) 基于多模态与对抗学习的多任务目标检测识别方法及装置
CN106408037A (zh) 图像识别方法及装置
CN112329771B (zh) 一种基于深度学习的建筑材料样本识别方法
CN114283325A (zh) 一种基于知识蒸馏的水下目标识别方法
CN104598898B (zh) 一种基于多任务拓扑学习的航拍图像快速识别***及其快速识别方法
CN113496260B (zh) 基于改进YOLOv3算法的粮库人员不规范作业检测法
CN113223037B (zh) 一种面向大规模数据的无监督语义分割方法及***
CN114494773A (zh) 一种基于深度学习的零件分拣识别***和方法
CN117437691A (zh) 一种基于轻量化网络的实时多人异常行为识别方法及***
CN117036904A (zh) 注意力引导的半监督玉米高光谱图像数据扩充方法
CN111553437A (zh) 一种基于神经网络图像分类方法
CN116758419A (zh) 针对遥感图像的多尺度目标检测方法、装置和设备
CN111046861B (zh) 识别红外影像的方法、构建识别模型的方法及应用
CN114926691A (zh) 基于卷积神经网络的虫害智能化识别方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Zhang Haimiao

Inventor after: Liu Chang

Inventor after: Qiu Jun

Inventor after: Ruan Tao

Inventor before: Ruan Tao

Inventor before: Zhang Haimiao

Inventor before: Liu Chang

Inventor before: Qiu Jun