CN114626476A

CN114626476A - 基于Transformer与部件特征融合的鸟类细粒度图像识别方法及装置

Info

Publication number: CN114626476A
Application number: CN202210279684.8A
Authority: CN
Inventors: 阮涛; 张海苗; 刘畅; 邱钧
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2022-03-21
Filing date: 2022-03-21
Publication date: 2022-06-14

Abstract

本发明公开了一种基于Transformer和部件特征融合的鸟类细粒度图像识别方法及装置，该方法包括：步骤1，通过将预处理后的图像输入基于Transformer架构网络的特征编码器，提取出基础特征图，并将所述基础特征图输入注意力模块，生成部件注意力图；步骤2，将所述基础特征图和所述部件注意力图进行双线性注意力池化操作，获得判别性部件特征；步骤3，通过将判别性部件特征在通道维度上进行拼接，得到融合了判别性部件信息的增强特征表示；步骤4，通过将增强特征表示输入全连接层，完成类别的映射，并通过交叉熵损失和中心损失对模型参数进行优化。本发明能够实现在弱监督下对鸟类图像进行高精度识别。

Description

基于Transformer与部件特征融合的鸟类细粒度图像识别方法及装置

技术领域

本发明涉及计算机视觉技术领域，尤其涉及深度学习和细粒度图像识别技术，具体涉及一种基于Transformer与部件特征融合的鸟类细粒度识别方法及装置。

背景技术

鸟类图像识别属于细粒度图像识别任务。细粒度图像识别是对属于同一个一般类别的不同子类进行区分。一般的图像识别，是对物体所属的大类别进行划分，如区分马、猫等，这些不同类物体间的特征差异较大，类别相对容易区分。对于细粒度图像，物体间的差异通常存在于细微的部分，且同一物体由于尺度或视角、背景等而呈现出较大的视觉差异，因此识别难度更大。

发明内容

本发明的目的在于提供一种基于Transformer与部件特征融合的鸟类细粒度图像识别方法及装置，能够获得鸟类细粒度图像更高的识别精度。

为实现上述目的，本发明提供一种基于Transformer和部件特征融合的鸟类细粒度图像识别方法，其包括：

步骤1，通过将预处理后的图像输入基于Transformer架构网络的特征编码器，提取出基础特征图，并将所述基础特征图输入注意力模块，生成部件注意力图；

步骤2，将所述基础特征图和所述部件注意力图进行双线性注意力池化操作，获得判别性部件特征；

步骤3，通过将判别性部件特征在通道维度上进行拼接，得到融合了判别性部件信息的增强特征表示；

步骤4，通过将增强特征表示输入全连接层，完成类别的映射，并通过交叉熵损失和中心损失对模型参数进行优化。

进一步地，所述步骤1中提取出基础特征图的方法具体包括：

步骤11a，将预处理好的原始图像I输入特征提取网络f，提取二维的基础特征图F，F∈(H·W)×D，其中H、W分别表示为该基础特征图F的高和宽，D表示嵌入维度大小；

步骤12a，将基础特征图F进行重组，获得三维的基础特征图

该过程如下式(1)所示：

式中，reshape(·)表示对基础特征图进行重组。

进一步地，所述步骤所述步骤1中生成部件注意力图的方法具体包括：

步骤11b，确定需要生成的部件注意力图的通道数M，即生成部件特征的数量；

步骤12b，由一个卷积核为1×1的二维卷积和Sigmoid函数组成注意力模块G，将特征图

输入注意力模块G，生成表征目标物体的不同部件分布的部件注意力图A，如下式(2)所示：

式中，A_i(i＝1，2，…，M)表示目标物体中的第i个部件注意力图。

进一步地，所述步骤2具体包括：

步骤21，将不同的部件注意力图A_i的维度扩展到与基础特征图

的一致，接着将扩展后的部件注意力图A_i与基础特征图

按照如下式(3)的方式逐元素相乘，得到判别性部件特征P_i：

式中，⊙表示逐元素相乘运算；

步骤22，将判别性部件特征P_i按照下式(4)提供的全局平均池化进行聚合操作，聚合各判别性部件特征P_i：

h_i＝ψ(P_i) (4)

式中，h_i表示第i个部件聚合后的特征，ψ(·)表示全局平均池化(GAP)。

进一步地，所述步骤3具体包括：

步骤31，将聚合的判别性部件特征h_i在通道维度上进行拼接，从而得到增强的特征表示，即全局的部件特征Q，该特征融合了判别性部件信息，特征表达能力更强。

Q＝Concate(h₁，h₂，…，h_M) (5)

式中，Concate(·)表示特征拼接；

步骤32，将全局的部件特征Q进行L₂范数的归一化处理后，传入全连接层，完成特征向量到类别的映射。

进一步地，所述步骤4具体包括：

步骤41，将全局的部件特征Q输入到全连接层，完成鸟类图像类别的映射，得到预测值与标签的交叉熵损失

用于对分类结果进行惩罚，其单个样本的损失如式(6)所示：

式中，y表示类别标签，y′表示预测值，P表示经Softmax处理后概率；

步骤42，采用式(8)描述的单个样本的中心损失对部件注意力的生成过程进行弱监督，使得不同的部件特征不断逼近特征中心：

式中，q_i是全局的部件特征Q中的第i个部件特征，c_i是第i个部件特征的中心；

步骤43，初始化c_i，在模型训练过程中对其按如下式(9)更新：

c_i←c_i+α(q_i-c_i) (9)

式中，α∈[0，1]是c_i更新的学习率，模型在训练阶段的总体损失

定义如下(10)：

本发明还提供一种基于Transformer和部件特征融合的鸟类细粒度图像识别装置，其包括：

部件注意力生成单元，其用于通过将预处理后的图像输入基于Transformer架构网络的特征编码器，提取出基础特征图，并将所述基础特征图输入注意力模块，生成部件注意力图；

判别性部件特征生成单元，其用于将所述基础特征图和所述部件注意力图进行双线性注意力池化操作，获得判别性部件特征；

特征融合单元，其用于通过将判别性部件特征在通道维度上进行拼接，得到融合了判别性部件信息的增强特征表示；

参数学习优化单元，其用于通过将增强特征表示输入全连接层，完成类别的映射，并通过交叉熵损失和中心损失对模型参数进行优化。

进一步地，所述部件注意力生成单元包括：

基础特征图提取子单元，其具体包括：

二维基础特征图提取模块，其用于将预处理好的原始图像I输入特征提取网络f，提取二维的基础特征图F，F∈(H·W)×D，其中H、W分别表示为该基础特征图F的高和宽，D表示嵌入维度大小；

三维基础特征图模块，其用于将基础特征图F进行重组，获得三维的基础特征图

该过程如下式(1)所示：

式中，reshape(·)表示对特征图进行重组；

部件注意力图生成子单元，其用于确定需要生成的部件注意力图的通道数M，并由一个卷积核为1×1的二维卷积和Sigmoid函数组成注意力模块G，将特征图

式中，Ai(i＝1，2，…，M)表示目标物体中的第i个部件注意力图。

进一步地，所述判别性部件特征生成单元具体包括：

单个判别性部件特征生成模块，其用于将不同的部件注意力图A_i的维度扩展到与基础特征图F的一致，接着将扩展后的部件注意力图A_i与基础特征图F按照如下式(3)的方式逐元素相乘，得到判别性部件特征P_i：

式中，⊙表示逐元素相乘运算；

判别性部件特征融合模块，其用于将判别性部件特征P_i按照下式(4)提供的全局平均池化进行聚合操作，融合各判别性部件特征P_i：

h_i＝ψ(P_i) (4)

进一步地，所述参数学习优化单元具体包括：

样本分类损失获取模块，其用于将全局的部件特征Q输入到全连接层，完成鸟类图像类别的映射，得到预测值与标签的交叉熵损失

用于对分类结果进行惩罚，其单个样本的分类损失如式(6)所示：

部件特征的中心更新模块，其用于采用式(8)描述的单个样本的中心损失对部件注意力的生成过程进行弱监督，并初始化c_i，在模型训练过程中对其按如下式(9)更新，模型在训练阶段的总体损失

定义如下(10)：

c_i←c_i+α(q_i-c_i) (9)

式中，q_i是全局的部件特征Q中的第i个部件特征，c_i是第i个部件特征的中心，α∈[0，1]是c_i更新的学习率。

本发明由于采取以上技术方案，其具有以下优点：

本发明通过注意力方式生成部件注意力图，并将其与基于Transformer架构的特征提取网络结合以实现判别性部件特征的融合，其不仅能关注到判别性部件，还能得到表达能力更好的特征表示；模型在训练阶段仅需类别标签，不需要其他的标注信息，就能实现弱监督下鸟类图像的高识别精度。

附图说明

图1为本发明实施例提供的方法的流程示意图。

图2为图1对应的总体模型结构图。

图3为图1中的注意力模块图。

图4为图1中的部件特征的提取和融合过程图。

图5为图1中的中心损失对模型性能的影响效果图。

具体实施方式

在附图中，为使上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

术语解释：在计算机视觉领域，基于Transformer架构的网络主要由多层感知机组成，其首先会将图像划分为多个图像块，接着传入后续的其他网络。该网络中的自注意力机制使得提取的特征图能包含全局信息，有利于下游任务。

如图1所示，本发明实施例提供的基于Transformer与部件特征融合的鸟类细粒度图像识别方法包括以下步骤：

步骤1，通过将预处理后的图像输入基于Transformer架构网络的特征编码器，对基础特征图进行提取，并将所述基础特征图输入注意力模块，生成部件注意力图。

步骤2，将所述基础特征图和所述部件注意力图进行双线性注意力池化操作，获得判别性部件特征。

步骤3，通过将判别性部件特征在通道维度上进行拼接，得到融合了判别性部件信息的增强特征表示。

步骤4，通过将增强特征表示输入全连接层，完成类别的映射，并通过交叉熵损失和中心损失对模型参数进行优化。其中，模型参数所适用的模型由特征提取网络f、构建的注意力模块G以及全连接层构成。

因此，步骤1用于获取图像的基础特征图和判别性的部件注意力图。

在一个实施例中，步骤1中获取图像的基础特征图方法具体包括：

步骤11a，图像预处理。

例如：选取公开的鸟类数据集CUB-200-2011和NABirds，并将选取的鸟类数据集划分为训练集和测试集。下面按照所处的阶段举例说明图像预处理的具体实现方法，而且，两个鸟类数据集的图像预处理方法相同。

训练阶段：首先，将训练集的图像调整为496×496像素，接着随机裁剪出384×384像素的区域，然后采用随机水平翻转的方式进行数据增广，最后对图像数据做归一化处理，归一化的均值和标准差分别为[0.485，0.456，0.406]，[0.229，0.224，0.225]。

测试阶段：将图像中心裁剪为384×384像素大小，并与训练阶段做相同的归一化处理。

步骤12a，将预处理好的原始图像I输入特征提取网络f，提取二维的基础特征图F，F∈(H·W)×D，其中H、W分别表示为该基础特征图F的高和宽，D表示嵌入维度大小。如图2所示，本实施例采用特征提取网络f是以基于Transformer架构的Swin-L。

步骤13a，将基础特征图F进行重组，获得三维的基础特征图

这样可以使得基础特征图F与后面构建的注意力网络进行适配，而且输入维度满足一致性要求。

那么，步骤1中获取图像的基础特征图方法可以描述为下式(1)：

式中，reshape(·)表示对特征图进行重组。

需要说明的是，上述实施例中，还可以使用ResNet提取图像特征，其输出的为三维特征图，不需要重组。但是这种方法提取的是局部特征，特征表达能力有限。步骤1中的特征提取网络f还可以采用现有技术中的其它网络结构，只要能够获取表达丰富的基础特征图即可，在此不再一一列举。

在一个实施例中，步骤1中获取图像的判别性的部件注意力图方法具体包括：

步骤11b，确定需要生成的部件注意力图的通道数M，即生成部件特征的数量，不同的数据集可根据实际情况选择。

由于部件注意力图的通道数反映模型关注到目标物体判别性部件的覆盖范围，当关注到的部件数量较多时，模型对物体细微差异的判别性能会更好。在均衡模型可学习参数量和准确率的情况下，CUB-200-2011和NABirds数据集上的M值可分别设为64和32。M的取值可根据不同数据集上的实验效果选取。

步骤12b，构建注意力模型以生成部件注意力图。

通常地，图像的注意力模块由全连接层、二维卷积、批归一化、和激活函数(例如，ReLU，Sigmoid，Softmax)等组成，不同的注意力架构所生成的注意力图对模型性能的提升有差异。通过在实验中分析发现，由一个卷积核为1×1的二维卷积和Sigmoid函数组成的注意力生成模块G更适合本实施例架构的主干网，其具体结构如图3所示，其中，1x1的卷积用于改变特征通道数，使其等于需要设定的部件的个数。由此可知，通过二维卷积与激活函数结合生成注意力的方式不仅适用于卷积神经网络，在基于Transformer架构的网络中也是有效的。生成部件注意力图A的过程如下式(2)所示：

式中，A∈H×W×M，A_i∈H×W(i＝1，2，…，M)表示目标物体中的第i个部件注意力图，比如鸟的头部、躯干等。

作为步骤1中获取图像的判别性的部件注意力图的另一种实现方式，可以在不改变步骤11b的情形下，步骤12b也可以采用由一个卷积核1x1的二维卷积、二维批归一化和ReLU函数组成的注意力模块G，还可以采用由一个全连接层、一维层归一化和Softmax函数组成的注意力模块G，甚至还可以采用由一个全连接层、一维层归一化和ReLU函数组成的注意力模块G，后面这两种方式无需对基础特征图进行重组。

由上述可以知晓：步骤2用于将所述基础特征图和所述部件注意力图通过双线性注意力池化(BAP)，获得判别性部件特征。在一个实施例中，如图4所示，步骤2中的提取判别性部件特征的方法具体包括：

的一致，也就是说，将A_i在通道维度上重复多次，使得其通道数与

的保持一致，接着它们逐元素相乘得到判别性部件特征P_i∈H×W×D，此时存在判别性部件位置的基础特征图会被激活，从而得获取到判别性的部件特征。具体过程如式(3)所示：

式中，⊙表示逐元素相乘运算。

步骤22，对于图像分类任务，通常采用全局平均池化(GAP)的方式来聚合特征。在将步骤31得到的判别性部件特征通过全局平均池化进行聚合操作，以便于部件特征的融合。第i个部件的特征聚合过程定义如下：

h_i＝ψ(P_i) (4)

式中，h_i∈D表示第i个部件聚合后的特征，ψ(·)表示全局平均池化。

在另外一个实施例中，步骤21可以采用通过将得到的特征图与注意力图直接通道拼接的方式实现。但是这种方式不是提取判别性部件，然后进行特征的融合，因而特征的表示能力有限。

由上述可知：步骤3用于将判别性部件特征进行融合，其具体包括：

步骤31，将聚合的各判别性部件特征h_i在通道维度上进行拼接，从而得到增强的特征表示，即下式(5)示意的全局的部件特征Q∈M·D，该特征融合了判别性部件信息，特征表达能力更强。

Q＝Concate(h₁，h₂，…，h_M) (5)

式中，Concate(.)表示特征拼接；

步骤32，将全局的部件特征Q进行L₂范数归一化处理后，传入全连接层。

上述步骤31中，还可以采用将特征图直接相加来替代在通道维度上进行拼接，来进行特征融合。

在一个实施例中，步骤4具体包括：

步骤41，由全连接层和Softmax组成模型的分类网络。将全局的部件特征Q输入到全连接层，完成鸟类图像类别的映射，得到预测值与标签的交叉熵(Cross entropy)损失

用于对分类结果进行惩罚，衡量类别之间的差距。其单个样本的分类损失如式(6)所示：

式中，y表示预先在图像中标记好的类别标签，比如0，1，2，…，y′表示由部件特征Q输入到全连接层后得到的预测值，P表示经Softmax处理后得到0-1的分类概率，其可如式(7)所示：

式中，y′_j为第j个类别对应的输出值，C为数据集中总的类别数。

步骤42，为避免部件注意力图在模型训练过程中出现同质化现象，即确保不同层的注意力图可以表示不同的目标部件，在模型中采用中心损失(Center loss)函数对生成的部件注意力进行弱监督，将部件注意力图进行约束使得部件特征Q不断逼近特征中心。在模型训练过程中，该中心损失函数使得目标的同一部件特征表达尽可能类似，而不同的部件特征相差越大。单个样本的中心损失定义如下：

式中，q_i∈D是全局的部件特征Q中的第i个部件特征，c_i∈D是第i个部件的特征中心。c_i初始化为0，在模型训练过程中对其按如下方式更新：

c_i←c_i+α(q_i-c_i) (9)

式中，α∈[0，1]是c_i更新的学习率。在实验中发现，当α＝0.05时能取得更好的效果。模型在训练阶段的总体损失

定义如下：

模型在测试阶段时，仅使用交叉熵损失作为总体损失。

本发明实施例还提供一种基于Transformer和部件特征融合的鸟类细粒度图像识别装置，其包括部件注意力生成单元、判别性部件特征生成单元、特征融合单元和参数学习优化单元，其中：

部件注意力生成单元用于通过将预处理后的图像输入基于Transformer架构网络的特征编码器，提取出基础特征图，并将所述基础特征图输入注意力模块，生成部件注意力图。

判别性部件特征生成单元用于将所述基础特征图和所述部件注意力图进行双线性注意力池化操作，获得判别性部件特征。

特征融合单元用于通过将判别性部件特征在通道维度上进行拼接，得到融合了判别性部件信息的增强特征表示。

参数学习优化单元用于通过将增强特征表示输入全连接层，完成类别的映射，并通过交叉熵损失和中心损失对模型参数进行优化。

在一个实施例中，所述部件注意力生成单元包括基础特征图提取子单元和部件注意力图生成子单元。

其中，二维基础特征图提取模块和三维基础特征图模块，二维基础特征图提取模块用于将预处理好的原始图像I输入特征提取网络f，提取二维的基础特征图F，F∈(H·W)×D，其中H、W分别表示为该基础特征图F的高和宽，D表示嵌入维度大小。三维基础特征图模块用于将基础特征图F进行重组，获得三维的基础特征图

该过程如下式(1)所示：

式中，reshape(·)表示对特征图进行重组。

部件注意力图生成子单元用于确定需要生成的部件注意力图的通道数M，并由一个卷积核为1×1的二维卷积和Sigmoid函数组成注意力模块G，将特征图

在一个实施例中，所述判别性部件特征生成单元具体包括单个判别性部件特征生成模块和判别性部件特征融合模块，其中：

单个判别性部件特征生成模块用于将不同的部件注意力图A_i的维度扩展到与基础特征图F的一致，接着将扩展后的部件注意力图A_i与基础特征图F按照如下式(3)的方式逐元素相乘，得到判别性部件特征P_i：

式中，⊙表示逐元素相乘运算。

判别性部件特征融合模块用于将判别性部件特征P_i按照下式(4)提供的全局平均池化进行聚合操作，融合各判别性部件特征P_i：

h_i＝ψ(P_i) (4)

在一个实施例中，所述参数学习优化单元具体包括单个样本损失获取模块和部件特征的中心更新模块，其中：

样本分类损失获取模块获取模块用于将全局的部件特征Q输入到全连接层，完成鸟类图像类别的映射，得到预测值与标签的交叉熵损失

式中，y表示类别标签，y′表示预测值，P表示经Softmax处理后概率。

部件特征的中心更新模块用于采用式(8)描述的单个样本的中心损失对部件注意力的生成过程进行弱监督，并初始化c_i，在模型训练过程中对其按如下式(9)更新，模型在训练阶段的总体损失

定义如下(10)：

c_i←c_i+α(q_i-c_i) (9)

实际使用时，首先将输入的图像实施与上述实施例中相同的预处理，然后加载已经训练好的模型参数，最后将经预处理后的图像输入模型，从而输出类别概率。

为了验证中心损失对模型的性能提升是有效的，使用Grad-CAM对特征提取网络最后一层输出的特征图进行可视化，结果如图5所示。从中可以看出，没有添加中心损失的热图高能零星地分布在鸟的主体上或是包含多的背景区域，而添加了中心损失的热图高能区域更加集中在鸟的主体上，表明该区域对分类结果的影响更大，分类结果更好。

通过采用本发明提供的方法，能关注到判别性的部件，实现弱监督下对鸟类细粒度图像的高精度识别。

最后需要指出的是：以上实施例仅用以说明本发明的技术方案，而非对其限制。本领域的普通技术人员应当理解：可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。