CN116580289A

CN116580289A - 一种基于注意力的细粒度图像识别方法

Info

Publication number: CN116580289A
Application number: CN202310678774.9A
Authority: CN
Inventors: 李兰英; 林成承
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2023-06-08
Filing date: 2023-06-08
Publication date: 2023-08-11

Abstract

一种基于注意力的细粒度图像识别方法，属于图像分类技术领域，该方法通过空间深度模块、多尺度特征提取模块、上下文注意力感知模块和多头注意力模块来构建网络模型。通过空间深度模块加强模型的特征提取能力，减少因下采样导致的判别区域丢失；通过多尺度特征提取模块基于显著区域提取多尺度特征，以增强模型的识别准确率；通过上下文注意力感知模块学习各尺度特征间的局部联系；通过多头注意力模块学习多尺度特征的全局和长期联系；最后采用交叉熵损失函数和中心损失函数作为该网络的损失函数，通过扩大样本间的类间距离，缩小类内距离，以减少易混淆区域对模型识别精度的影响。该方法可以很好地解决细粒度图像识别中存在的由于网络层数的加深导致低层次信息丢失，以及忽略多尺度特征间的关系导致识别准确率低的问题。

Description

一种基于注意力的细粒度图像识别方法

技术领域

本发明属于细粒度图像处理技术领域，具体涉及一种基于注意力的细粒度图像识别方法。

背景技术

作为计算机视觉领域中的一个重要研究方向，图像识别是最基本的任务，同时也是其他各种视觉任务的基础。作为图像识别领域延伸出的一条重要分支，细粒度图像识别与传统图像识别不同。细粒度图像识别是对同一元类别下的各种子类类别的划分，例如从众多种类的猫中识别出子类别。细粒度图像识别可以分为基于强监督的细粒度图像识别和基于弱监督的细粒度图像识别，前者在模型训练时使用标注点和标注框辅助学习，后者只使用图像标签进行学习。基于弱监督学习的细粒度图像识别主要有基于区域-定位子网络、基于高阶特征编码和基于额外信息辅助识别三种方法。

目前的细粒度图像识别方法主要还是基于区域-定位子网络的方法，这一方法主要是通过注意力机制来定位具有判别性的区域，然后再从这些区域中学习特征。这一方法虽然取得了不错的成效，但还存在着以下不足：现有方法忽略了低层次信息的作用，而且随着网络层数的增加，会导致小的判别性区域中的低层次信息丢失；此外，这些方法只是通过空间注意力和通道注意力找出了关键区域，而忽略了它们之间联系。

发明内容

针对现有技术存在的不足，本发明提供了一种基于注意力的细粒度图像识别方法，所述方法包括以下步骤：

S1构建一个细粒度图像识别网络模型：具体包含特征提取网络、空间深度卷积模块、多尺度特征提取模块、上下文注意力感知模块、多头自注意力模块以及分类器；

S2使用预训练参数优化初始网络；

S3划分数据集并对样本图像进行预处理；

S4将样本图像输入特征提取网络，得到特征图及注意力热力图；

S5同时将提取到的特征图及热力图输入多尺度特征模块，得到多尺度特征图；

S6将多尺度特征图输入上下文注意力感知模块中，使模型学习显著区域的多尺度上下文信息；

S7将多尺度上下文信息输入多头自注意力模块中，使模型学习各尺度特征的长期依赖关系；

S8依据损失函数对网络模型进行训练，重复上述S4～S7步骤直至损失函数收敛。

最终将要识别的细粒度图像输入训练好的模型中进行分类识别。

所述的特征提取网络采用ConvNeXt卷积神经网络作为骨干网络。

进一步的，所述的骨干网络包括：

在每一个Stage中，添加一个空间深度卷积模块替换原本的下采样部分，增强模型对于判别关键区域的识别能力。对于大小为S×S×C₁的特征映射X，对该映射进行分割得到子映射，公式如下所示：

f_s-1,s-1＝X[s-1:S:s,s-1:S:s]

式中f为子特征映射，s为比例因子。在通道维度连接子特征映射，从而将特征映射X转换为一个新的中间特征映射

然后采用非步幅卷积进行特征转换，在特征映射X'后增加一个C₂卷积层，其中C₂<s²C₁，将转换为/>从而尽可能保留微小区域的判别信息。

进一步的，对于给定的特征图X∈R^C×H×W，其中C、H、W分别代表通道数、高度和宽度，所述的多尺度特征模块，通过不同大小的矩形区域在特征图X上捕获不同尺度的区域，对于响应区域r(i,j,△x,△y)，其中i、j为响应区域中心位置，△x、△y为宽度和高度。通过改变该区域的宽度和高度来得到一组区域即R＝r(i,j,m△x,n△y)，其中m，n＝1,2,3,…；且i<i+m△x≤W,j<j+m△y≤H,逐级捕获响应区域微妙变化的丰富上下文信息，由此得到一组区域集合R＝{R}。

进一步的，针对若干个不同大小的区域R＝r(i,j,m△x,n△y)，使用双线性池化、双线性插值生成固定大小的特征向量表示这些区域，在目标坐标处的变换图像/>公式如下所示：

式中,R(L_ψ(y))表示从原始图像中获取区域坐标为y的特征向量；L_ψ(y)表示坐标y的变换，其中Ψ是一个可学习参数；K是核函数，当和L_ψ(y)不直接相邻时，/>

进一步的，使用上下文注意力感知模块捕获多尺度特征间的联系，使模型能够选择性的关注更相关的区域，以生成整体的上下文信息，得到多尺度特征间的具体公式如下所示：

式中v_r为上下文注意特征向量，表示与当前尺度相关联的其他尺度的特征映射，α_r,r'表示当前尺度特征与其他相邻尺度特征间的关联性，公式如下所示:

式中M_α为权重矩阵的非线性组合，b_α、b_β表示偏差；表示查询向量，/>表示键向量，二者的公式如下所示：

式中M_β和M_β'表示权重矩阵，表示当前尺度的特征映射；

进一步的，对上下文向量V＝{v_r|r＝1...|R|}进行全局平均池化，将由此得到的上下文特征f_r作为多头自注意力模块的输入，学习区域空间排列信息及长期依赖关系，多头自注意力的计算公式如下：

A＝Concat(A₁,A₂,...,A_|R|)W₀

式中Q、K、V分别为查询向量，键向量和值向量，W₀为权重矩阵。

根据权利要求1所述的基于注意力的细粒度图像识别方法，其特征在于，采用交叉熵损失函数和中心损失函数联合训练模型网络，模型的损失函数公式如下所示：

L＝L_CE+λL_cent

式中λ为权重系数，衡量中心损失函数对总体损失的影响，N为类别个数，y_i为真实值标签，p_i为模型预测标签；W为样本个数，x_i为训练样本，表示中心向量，||·||₂表示欧式距离；

根据总损失L对所述网络模型进行优化训练，从而获得优化训练好的网络模型。

本发明提供的一种基于注意力的细粒度图像识别方法，具有以下优点：

(1)所述方法通过设计空间深度卷积模块，使模型保留了原本会随着卷积网络层数加深而丢失的低层次信息，从而增强了模型学习特征的多样性，提高了识别准确率。

(2)所述方法不仅考虑到了关键区域，还通过设计多尺度特征模块，获取到了与关键区域相邻的多尺度特征，从而增强了模型的鲁棒性和识别能力。

(3)所述方法通过设计上下文注意力和多头注意力特征，得到了各尺度特征间的局部联系和全局联系，并将其融合得到了较为丰富的特征表示，进一步提升了模型的识别性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的方法流程图；

图2是本发明修改后的ConvNeXt网络结构示意图

图3是本发明的***结构图

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

如图1所示，本发明提供了一种基于注意力的细粒度图像学习方法，所述方法步骤如下：

步骤1、将待分类图像输入特征提取网络，获取特征图：

如图2所示，所述的特征提取网络由ConvNeXt卷积网络作为基础网络，在其上添加空间深度卷积模块构成，该网络主要分为四个阶段即四个Stage，除了第一个Stage外，其余每个Stage包含一个下采样层和若干个卷积层，将Stage中的下采样层替换为空间深度卷积模块增强模型对于微小判别关键区域的识别能力。对于大小为S×S×C₁的特征映射X，对该映射进行分割得到子映射，公式如下所示：

f_s-1,s-1＝X[s-1:S:s,s-1:S:s]

然后采用非步幅卷积进行特征转换，在特征映射X'后增加一个C₂卷积层，其中C₂<s²C₁，将转换为/>输入图像每经过一个Stage，特征图的空间尺寸减少为原来的一半，通道数据增加一倍，从而尽可能保留微小区域的判别信息。这里获取Stage 4后的特征图，同时通过CAM(Class Activation Mapping)得到注意力热力图。

步骤2、通过多尺度特征模块获取多尺度特征：

如图3所示，所述模型的多尺度特征模块，对于给定的特征图X∈R^C×H×W，其中C、H、W分别代表通道数、高度和宽度，所述的多尺度特征模块，通过不同大小的矩形区域在特征图X上捕获不同尺度的区域，对于关键区域r(i,j,△x,△y)，其中i、j为响应区域中心位置，△x、△y为宽度和高度。通过改变该区域的宽度和高度来得到一组区域即R＝r(i,j,m△x,n△y)，其中m，n＝1,2,3,…；且i<i+m△x≤W,j<j+m△y≤H,逐级捕获响应区域微妙变化的丰富上下文信息，由此得到一组区域集合R＝{R}。

接下来对这组区域集合R＝r(i,j,m△x,n△y)使用双线性池化、双线性插值生成固定大小的特征向量表示这些区域，在目标坐标处的变换图像/>公式如下所示：

其中,R(L_ψ(y))表示从原始图像中获取区域坐标为y的特征向量；L_ψ(y)表示坐标y的变换，其中Ψ是一个可学习参数；K是核函数，当和L_ψ(y)不直接相邻时，/>通过该模块，从特征图中获取多尺度特征，并将这些尺度不一的特征整合为相同大小的特征向量，从而便于模型后续计算。

步骤3、通过上下文注意力获取局部联系：

如图3所示，所述模型的上下文注意力模块，该模块用于捕获多尺度特征间的局部联系，使模型能够选择性的关注更相关的区域，以生成整体的上下文信息。在收到多尺度特征后，得到多尺度特征间联系的具体公式如下所示：

式中M_β和M_β'表示权重矩阵，表示当前尺度的特征映射。

步骤4、通过多头注意力模块获取全局联系：

如图3所示，所述模型的多头注意力模块，先对上下文向量V＝{v_r|r＝1...|R|}进行全局平均池化，并将由此得到的上下文特征f_r作为多头自注意力模块的输入，学习区域空间排列信息及长期依赖关系，多头自注意力的计算公式如下：

A＝Concat(A₁,A₂,...,A_|R|)W₀

步骤5、结合局部特征和全局特征，得到最终的分类结果：

如图3所示，将上下文注意力得到的特征和多头注意力得到的特征经过FC层拼接在一起，作为最后分类的依据。在训练阶段，采用交叉熵损失函数和中心损失函数联合训练模型网络，模型的损失函数公式如下所示：

L＝L_CE+λL_cent

根据总损失L对所述网络模型进行优化训练，不断重复上述步骤，直至损失函数收敛，最终获得优化训练好的网络模型。在训练完成后，输入细粒度图像，模型即可实现高准确率的识别。

简而言之，本实施方式提出了一种基于注意力的细粒度图像识别方法，用于对细粒度图像的分类，设计了一种基于细粒度识别网络模型，其主要包括空间深度卷积模块、特征提取网络、多尺度特征模块、上下文注意力模块和多头注意力模块以及分类器。一方面考虑了微小判别区域低层次信息丢失的问题，另一方面还考虑了判别区域与其他区域之间的联系的问题。

最后说明的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于注意力机制的细粒度图像识别方法，其特征在于，所述方法包括步骤：

S1构建一个细粒度图像识别网络模型：具体包含特征提取网络、空间深度卷积模块、多尺度特征提取模块、上下文注意力感知模块、多头注意力模块以及分类器；

S2使用预训练参数优化初始网络；

S3划分数据集并对样本图像进行预处理；

S5将提取到的特征图及热力图输入多尺度特征提取模块，得到多尺度特征图；

S7将多尺度上下文信息输入多头注意力模块中，使模型学习各尺度特征的长期依赖关系；

2.根据权利要求1所述的基于注意力的细粒度图像识别方法，其特征在于，所述的特征提取网络采用ConvNeXt卷积神经网络作为骨干网络。

3.根据权利要求2所述的基于注意力的细粒度图像识别方法，其特征在于，在每一个Stage中，添加一个空间深度卷积模块替换原本的下采样部分，增强模型对于微小判别关键区域的识别能力。对于大小为S×S×C₁的特征映射X，对该映射进行分割得到子映射，公式如下所示：

f_s-1,s-1＝X[s-1:S:s,s-1:S:s]

4.根据权利要求1所述的基于注意力的细粒度图像识别方法，其特征在于，对于给定的特征图X∈R^C×H×W，其中C、H、W分别代表通道数、高度和宽度，所述的多尺度特征提取模块，通过不同大小的矩形区域在特征图X上捕获不同尺度的区域，对于响应区域r(i,j,△x,△y)，其中i、j为响应区域中心位置，△x、△y为宽度和高度。通过改变该区域的宽度和高度来得到一组区域即R＝r(i,j,m△x,n△y)，其中m，n＝1,2,3,…；且i<i+m△x≤W,j<j+m△y≤H,逐级捕获响应区域微妙变化的丰富上下文信息，由此得到一组区域集合R＝{R}。

5.根据权利要求4所述的基于注意力的细粒度图像识别方法，其特征在于，针对若干个不同大小的区域R＝r(i,j,m△x,n△y)，使用双线性池化、双线性插值生成固定大小的特征向量表示这些区域，在目标坐标处的变换图像/>公式如下所示：

6.根据权利要求1所述的基于注意力的细粒度图像识别方法，其特征在于，使用上下文注意力感知模块捕获多尺度特征间的联系，使模型能够选择性的关注更相关的区域，以生成整体的上下文信息，得到多尺度特征间联系的具体公式如下所示：

式中M_β和M_β'表示权重矩阵，表示当前尺度的特征映射。

7.根据权利要求1所述的基于注意力的细粒度图像识别方法，其特征在于，对上下文向量V＝{v_r|r＝1...|R|}进行全局平均池化，将由此得到的上下文特征f_r作为多头注意力模块的输入，学习区域空间排列信息及长期依赖关系，多头注意力的计算公式如下：

A＝Concat(A₁,A₂,...,A_|R|)W₀

8.根据权利要求1所述的基于注意力的细粒度图像识别方法，其特征在于，采用交叉熵损失函数和中心损失函数联合训练模型网络，模型的损失函数公式如下所示：

L＝L_CE+λL_cent