CN113642571A

CN113642571A - 一种基于显著性注意力机制的细粒度图像识别方法

Info

Publication number: CN113642571A
Application number: CN202110786521.4A
Authority: CN
Inventors: 黄磊; 刘超; 魏志强; 李晓静; 秦琦冰
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2021-07-12
Filing date: 2021-07-12
Publication date: 2021-11-12
Anticipated expiration: 2041-07-12
Also published as: CN113642571B

Abstract

本发明公开了一种基于显著性注意力机制的细粒度图像识别方法，包括：首先提取特征，通过显著性注意力机制模块对所有通道中的每张特征图处理获得显著性图；获得的显著性信息生成并学习注意力权重，并将注意力权重融合进原始特征图中，得到融合注意力权重的特征图，进行显著性注意力特征加强；然后将加强了显著性信息的特征图组通过自顶向下的方式构建不同尺度的包含丰富语义和显著性信息的特征图组；并利用该特征图组完成细粒度类别映射，通过类别损失和排序损失两种损失函数约束网络参数优化过程。通过本发明解决细粒度图像中关键区域的定位和相应特征难提取问题。

Description

一种基于显著性注意力机制的细粒度图像识别方法

技术领域

本发明属于计算机视觉技术领域，涉及深度学习、细粒度图像识别技术，具体涉及一种基于显著性注意力机制的细粒度图像识别方法。

背景技术

细粒度图像识别又被称作子类别图像识别，其与传统图像识别不同的是旨在区分同属一个类的不同子类。而不同子类之间往往过于相似，同时由于存在着姿态、光照、遮挡、背景等干扰因素，可能具有相似的外观和形状，细粒度图像间呈类间差异小、类内差异大的特点。鉴于现实中对图像识别精度的高要求，细粒度图像识别成为计算机视觉的重要研究方向。

细粒度图像识别方法需要重点关注两个问题：(1)定位细粒度图像中具有区分性的关键区域，上文中提到细粒度图像间往往具有相似的几何形状和外观，研究发现：这些具有区分性的区域大多存在于目标物体特定的局部区域且尺寸较小，并且这些具有区分性的局部区域不易因目标物体的姿势、摄像机视角的变化而发生较大变化，所以定位到区分性区域可以较为容易的区分目标物体类别。(2) 从关键区域中进行有效的特征提取与表示，将具有区分性的关键区域从图像中检测出来后，还要进行有效的细粒度特征提取，将相同类别的特征表示映射的同一个语义空间中，使得相同类别通过细粒度图像识别方法可以得到相同的类别输出。

目前，细粒度识别的研究方法在网络结构设计上主要由三大类组成：基于网络的集成方法，基于部位检测的方法，基于注意力机制(attention mechanism) 的方法。基于注意力机制的细粒度图像识别此类方法与一般方法的不同是：在特征提取网络中，有一个注意力机制分支网络用于学习注意力权重，以此来加强对于识别任务更有利的细粒度特征，如图1所示，对输入图像进行常规的特征提取后，将原始特征图输入到注意力模块中，经过注意力模块学习特征图注意力特征，后将注意力特征融合进原始特征图中进行关键特征加强。目前计算机视觉任务上大多使用基于深度学习的软性注意力(soft attention)机制，此注意力机制的形式采用卷积神经网络为基础进行设计，并利用随机梯度下降更新、优化注意力权重。

基于注意力机制的细粒度图像识别方法，在获取注意力权重时，其形式上大多都是简单的将特征图(feature map)直接输入到注意力模块中，通过大规模的常规卷积操作根据具体任务要求自适应学习图像特征，没有对原始特征图 (original feature map)进行预处理。这种常见的注意力机制应用在部位定位网络模块的方法虽然取得了一些效果，但仍有几个关键问题。具体而言，1)注意模块的输入是未经过预处理的原始特征图，原始特征图中包含许多视觉信息，如纹理、颜色得显著性信息，复杂的注意图只能通过大规模卷积或全连接运算来学习；只使用标签来约束网络参数，没有对某些视觉特征进行定向采集，浪费了传统的视觉显著性特征；2)对于图像部位级(part-level)的区域，所包含关键特征信息的区域通常会呈现为聚集状态，对于按点对点学习的注意力权重，难以体现注意力有区分性的关注不同区域的优势。

发明内容

针对现有技术存在的不足，本发明提供一种基于显著性注意力机制的细粒度图像识别方法，从以下两个方面进行改进，(1)针对细粒度图像中关键区域难以定位的问题：先获取不同尺寸原始特征图中的显著性信息，并利用该显著性信息生成注意力权重，将该包含显著性信息的注意力权重融合进不同尺寸的原始特征图中，构建一组包含高语义、多尺度、显著性信息的特征图组。(2)针对细粒度图像关键区域特征难以提取与表示的问题：本发明提出了利用多个不同尺寸的特征图共同参与网络参数计算的多特征图损失；还利用的排序损失，保证了下层特征图较上层特征图对识别任务更加有利，保证了自顶向下构建特征图像金字塔的过程是一个特征逐渐求优的过程，提升整个网络模型的性能。

为了解决上述技术问题，本发明采用的技术方案是：

一种基于显著性注意力机制的细粒度图像识别方法，包括：

步骤一：特征提取，得到三维原始特征图；

步骤二：通过显著性注意力机制模块对所有通道中的每张特征图处理获得显著性图：每个通道内按照横纵两个方向取像素元素最大值得到两个一维的最大值矩阵列，获取特征图中水平方向的显著性特征信息和竖直方向的显著性特征信息，确定每个通道内的显著性信息，进而确定各通道特征图中具有区分性的区域；

步骤三：将步骤二获得的显著性信息生成并学习注意力权重，并将注意力权重融合进原始特征图中，得到融合注意力权重的特征图，进行显著性注意力特征加强；

步骤四：将加强了显著性信息的特征图组通过自顶向下的方式构建不同尺度的包含丰富语义和显著性信息的特征图组；

步骤五：利用前面步骤所得到的特征图组完成细粒度类别映射，通过类别损失和排序损失两种损失函数约束网络参数优化过程；

步骤六：训练模型渐渐收敛，保存实验准确率最高的网络模型。

进一步的，通过步骤一得到的三维特征图X，X∈C×W×H，用符号M表示，步骤二中，注意力机制模块获得显著性图的具体步骤如下：

1)对于所有通道中的每张特征图，按行取其像素元素水平方向最大值，使最大值拼接成一维矩阵，即每张特征图M_i中得到维数是1×H的一维矩阵，所有通道累计得到了C×1个维数是1×H的矩阵，获得最大值矩阵列

2)对于所有通道中的每张特征图，按列取其像素元素竖直方向最大值，使最大值拼接成一维矩阵，即每张特征图M_i中可以得到了维数是W×1的一维矩阵，所有通道累计得到了C×1个维数是W×1的矩阵，获得最大值矩阵列

具体获取每张特征图的两种一维矩阵公式为：

其中用x′表示进行了特征提取后的像素值，x″表示最大值筛选后的一维矩阵；具体得到两组最大值矩阵列公式为：

其中

表示纵向取值的最大值矩阵列，

表示横向取值的最大值矩阵列。

进一步的，步骤三中，学习注意力权重前，首先进行维度变换使得注意力权重和原始特征图维度一致，具体是：将步骤二获得的两组最大值矩阵列中的对应维度的一维矩阵使用矩阵乘法相乘，得到一个与原始特征图相同空间维度的矩阵组，

矩阵乘法具体公式：

其中A为初始注意力图并在维数上与原始特征图保持一致，在每个瓶颈块的最后输出特征上计算特征图的显著性信息，因此共有N个注意力图；F_AC(·)表示非对称卷积。

更进一步的，将非对称卷积引入到注意力机制中，利用非对称卷积加强显著性注意力权重，具体的：使用3×3、1×3、3×1这三种不同的卷积核在同一个卷积滑动窗口下对初始的注意力图进行卷积操作，1)先对特征图进行3×3的卷积操作，2)对同一个滑动窗口，使用1×3卷积只对滑动窗口中的横向骨架进行卷积操作，3)对同一个滑动窗口使用3×1卷积只对滑动窗口中的纵向骨架进行卷积操作。

进一步的，步骤四中，将步骤三得到的注意力图和不同尺度的特征图进行特征融合构建一组包含高语义、多尺度、显著性信息的特征图组，具体的，利用点乘将A_a和X_a对应元素相乘，激活原始特征图X_a的显著性信息，具体公式如下：

C_a＝A_a·X_a，a＝2,3,...,N.

其中，C_a表示特征图像金字塔网络自下而上前馈得到的不同尺度的特征图。

进一步的，由于将显著性信息融合进不同尺度的特征图后，其表现出的对特征图中关键的区分性区域是不同的，因此步骤五中，为了增加每张图像中关键区域的样本数量，同时考虑不同尺度的特征图对网络分类的影响，通过类别损失损失函数优化网络与真值类的映射关系，建立以不同尺度区域为输入的分类网络；通过将不同尺度的特征图分别进行空间维度进行压缩，得到一维的特征向量，最后将特征向量输入到全连接层，映射到数据集包含的类别中，得到与真值类的交叉熵损失，公式如下：

W_c表示全连接操作，θ(·)表示一个全局池化的操作达到空间压缩特征图的作用，P_a表示特征图中最具有区分性的判别区域部位。

进一步的，在自顶向下构建金字塔网络过程中，通过排序损失约束下层特征图，使得相较上层特征图包含更多的语义信息和精细的细粒度特征信息，排序损失公式如下：

其中，P^a表示P_a特征图通过softmax函数预测的类别概率，constant是大于零、可调节的超参数，通过排序损失的约束，使得当下层特征的分类概率大于上层特征分类概率时，网络才不会更新参数，否则整个网络会向着下层特征图更有利于识别类别的方向更新参数；

总损失函数为：

L_total＝αL_P+βL_rank,

其中α和β作为超参数。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前所述的基于显著性注意力机制的细粒度图像识别方法。

与现有技术相比，本发明优点在于：

(1)针对细粒度图像中关键区域难以定位的问题：细粒度图像识别过程中需要定位关键区分性区域来有效区分所属类别；并且由于关键区分性区域的尺寸通常较小，从而导致了这种具有区分性的关键区域难以定位。本专利方法利用原始特征图的显著性信息生成注意力，为了实现定向学习图像中显著性特征，在对图像进行特征提取后，本方法预先获取特征图中显著性信息，并利用非对称卷积加强显著信息，将包含显著性信息的注意力权重与特征图像金字塔网络(Feature Pyramid Networks，FPN)相结合，构建一组具有高语义、多尺度、显著性信息的特征图组。

具体的，首先利用特征图横、纵两个方向上的显著性信息生成显著性注意力权重；其次，将显著性注意力权重融合到特征图像金字塔网络中不同尺度的特征图中，针对不同尺度特征图中的关键区域进行显著性特征加强。通过这种设计形式可以有效利用注意力网络进行特征图显著性信息定向学习。

(2)针对细粒度图像关键区域特征难以提取与表示的问题：本发明提出了利用多个尺寸的特征图共同参与网络参数计算的多特征图损失。

首先，在该显著性注意力特征图上通过卷积操作增强显著性注意力特征，其次，将该特征图组中多个不同尺寸的特征图压缩成一维特征向量，并与类别标签通过交叉熵损失函数计算损失值，最后，通过梯度下降更新网络参数。

同时，本专利还利用的排序损失，保证了下层特征图较上层特征图对识别任务更加有利，保证了自顶向下构建特征图像金字塔的过程是一个特征逐渐求优的过程，提升整个网络模型的性能。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术的注意力网络流程图；

图2为本发明的特征图显著性信息获取步骤图；

图3为本发明显著性信息生成初始注意力特征步骤图；

图4本发明非对称卷积结构示意图；

图5为本发明显著性注意力网络结构图.

具体实施方式

下面结合附图及具体实施例对本发明作进一步的说明。

一种基于显著性注意力机制的细粒度图像识别方法，包括：

步骤一：特征提取

设输入图像为x，首先把图像x输入到特征提取网络，获取到三维的原始特征图X，获取特征的网络可以是VGGNet、ResNet等，这里拟采用下采样效果更明显的ResNet作为主干网络进行特征提取。用F(·)代表一系列的卷积操作。设整个特征提取网络共有N个瓶颈块(Bottleneck block)，每个Bottleneck block 中包含不同尺寸、数量、步长的卷积核，通过堆叠这些Bottleneck block构建整个特征提取网络，这里设第a个Bottleneck block的输出的特征为：

X_a＝F_a(x)，a＝1,2,3,...,N.

步骤二：设计显著性注意力机制模块

本发明通过显著性注意力机制模块对所有通道中的每张特征图处理获得显著性图：每个通道内按照横纵两个方向取像素元素最大值得到两个一维的最大值矩阵列，获取特征图中水平方向的显著性特征信息和竖直方向的显著性特征信息，确定每个通道内的显著性信息，进而确定每张特征图中具有区分性的区域。

通过步骤一得到的三维特征图X(X∈C×W×H)，用符号M表示，通过设计注意力机制模块，有效获得对应于特征图的显著性。由注意力机制模块获得显著性图的具体步骤如下：

1)对于所有通道中的每张特征图，按行取其像素元素水平(W)方向最大值，使这些最大值拼接成一维矩阵，即每张特征图M_i(1≤i≤C)中得到维数是 1×H的一维矩阵，所有通道累计得到了C×1个维数是1×H的矩阵，获得最大值矩阵列

具体操作如图2所示。这一步的作用是为了获取特征图中水平方向的显著性特征信息。

2)对于所有通道中的每张特征图，按列取其像素元素竖直(H)方向最大值，使这些最大值拼接成一维矩阵，每张特征图中可以得到了一个一维矩阵，即每张特征图M_i(1≤i≤C)中可以得到了维数是W×1的一维矩阵，所有通道累计得到了C×1个维数是W×1的矩阵，获得最大值矩阵列

具体操作如图 2所示。这一步的作用是为了获取特征图中竖直方向的显著性特征信息确定特征图中具有区分性的区域。

每一个通道内，按照其横纵两个方向取值得到的两个矩阵维数分别是1×H、 W×1，因为每个通道内所关注的图像内的区域是不完全相同的，通过本步骤可以同时获取多个通道中的更多的显著性信息。

具体获取每张特征图的两种一维矩阵公式为：

其中

表示纵向取值的最大值矩阵列，

表示横向取值的最大值矩阵列。

步骤三：融合注意力权重

经过步骤二，初步得到了原始特征图中的显著性信息，现需要利用该显著性信息生成并学习注意力权重，并将该包含显著性信息的注意力权重融合进不同尺寸的原始特征图中，得到融合注意力权重的特征图，进行显著性注意力特征加强。其中，筛选出的显著性信息相当于一种注意力模块的初始化，为下一步注意力权重的学习提供依据，以一种定向加强的方式对不同尺寸特征图中的显著性特征进行加强。

但是现有的包含显著性信息的最大值矩阵列与原始特征图维度不同，因此学习注意力权重前，需要进行维度变换使得注意力权重和原始特征图维度一致，具体是：将步骤二获得的两组最大值矩阵列中的对应维度的一维矩阵使用矩阵乘法相乘，得到一个与原始特征图相同空间维度的矩阵组，如图3所示，两个包含了原始特征图显著性信息的一维最大值特征矩阵进行矩阵乘法，图3中H为：特征图高度，W；特征图宽度，C：特征图通道数。

矩阵乘法具体公式：

其中A为初始注意力图(attention map)并在维数上与原始特征图保持一致，在每个瓶颈块的最后输出特征上计算特征图的显著性信息，因此共有N个注意力图；F_AC(·)表示非对称卷积。

需要说明的是，本发明将非对称卷积引入到注意力机制中，利用非对称卷积加强显著性注意力权重，具体的：使用3×3、1×3、3×1这三种不同的卷积核在同一个卷积滑动窗口(sliding windows)下对初始的注意力图进行卷积操作，如图4所示，1)先对特征图进行3×3的卷积操作，2)对同一个滑动窗口，使用1×3卷积只对滑动窗口中的横向骨架进行卷积操作，3)对同一个滑动窗口使用3×1卷积只对滑动窗口中的纵向骨架进行卷积操作。

以3×1、1×3卷积核为卷积骨干，有效的加强骨架上的权重，抑制角落上的权重。使用上述卷积核配置，可以稳固并加强得到的矩阵A中显著性特征信息，最终得到的注意力权重。此时得到的注意力图是将要输入到注意力模块中的注意力图，在取原始特征图横、纵两个方向最大值相当于获取了原始特征图中的一些显著性信息，在进行矩阵乘法后，对于获取到的显著性信息，二次加强了这种显著性特征信息在全局特征中的作用，由原来一维链状信息扩展到了二维的空间信息，其信息量更加丰富。该注意力图中最大值所在区域不发生变换，并会把原最大值所在的位置与其横纵两个方向的元素值进行加强，由于特征图中局部最大值不易受目标物体姿势、光照等因素的影响，增强了网络定位关键区域的能力。

步骤四：构建特征图像金字塔网络

将加强了显著性信息的特征图组通过自顶向下的方式构建不同尺度的包含丰富语义和显著性信息的特征图组；并利用自顶向下和横向连接操作完成特征图像金字塔网络的搭建。

本实施例以三个不同尺度(X₂,X₃,X₄)的特征图为例构建特征图像金字塔网络，将步骤三得到的注意力图和不同尺度的特征图进行特征融合构建一组包含高语义、多尺度、显著性信息的特征图组。具体的，利用点乘将A_a和X_a对应元素相乘，激活原始特征图X_a的显著性信息，具体公式如下：

C_a＝A_a·X_a，a＝2,3,4.

步骤五：细粒度类别映射

通过上述步骤的操作获得包含特征图显著性特征信息的注意力权重，将该注意力权重融合进原始特征图中，得到融合注意力权重的特征图，加强原始特征图的细粒度特征信息，并利用该特征图建立了特征图像金字塔网络，如图5所示。接下来是通过利用所得到的特征图组完成细粒度类别映射。

接下来是利用前面步骤所得到的特征图组完成细粒度类别映射，通过类别损失和排序损失两种损失函数约束网络参数优化过程。具体的：

关于类别损失：

由于将显著性信息融合进不同尺度的特征图后，其表现出的对特征图中关键的区分性区域是不同的，因此步骤五中，为了增加每张图像中关键区域的样本数量，同时考虑不同尺度(P₂,P₃,P₄)的特征图对网络分类的影响，通过类别损失损失函数优化网络与真值类的映射关系，建立以不同尺度区域为输入的分类网络。通过将P₂,P₃,P₄分别进行空间维度进行压缩，得到一维的特征向量。最后将特征向量输入到全连接层，映射到数据集包含的类别中，得到与真值类的交叉熵损失，类别损失公式如下：

关于排序损失：

在自顶向下、横向连接的构建高语义、多尺度、显著性特征图组时，借助特征图像金字塔网络的优势和显著性注意力模块的作用，一些高纬度语义信息和特征图显著性信息以及一些高分辨率的特征信息被融合进更大尺寸的特征图中，即在自顶向下构建金字塔网络过程中，将高层语义信息和显著性特融入到最后的P₂中，为了真实的达到对分类有效的结构，本发明设计了排序损失约束下层特征图 P₂，使得P₂相较上层特征图包含更多的语义信息和精细的细粒度特征信息。排序损失公式如下：

其中，P^a表示P_a特征图通过softmax函数预测的类别概率，constant是大于零、可调节的超参数，通过排序损失的约束，使得当下层特征的分类概率大于上层特征分类概率时，网络才不会更新参数，否则整个网络会向着下层特征图更有利于识别类别的方向更新参数。

总损失函数为：

L_total＝αL_P+βL_rank,

其中α和β作为超参数。

作为本发明的另一实施例，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前所述的基于显著性注意力机制的细粒度图像识别方法。具体实现方式如前所述，此处不再赘述。

综上所述，本发明先获取不同尺寸原始特征图中的显著性信息，并利用该显著性信息生成注意力权重，将该包含显著性信息的注意力权重融合进不同尺寸的原始特征图中，构建一组包含高语义、多尺度、显著性信息的特征图组。其中，筛选出的显著性信息相当于一种注意力模块的初始化，为下一步注意力权重的学习提供依据，以一种定向加强的方式对不同尺寸特征图中的显著性特征进行加强。通过这种设计形式可以有效利用注意力网络进行特征图的显著性信息定向学习。

本专利的方法同时考虑多个尺寸的特征图对识别任务的影响，将多个尺寸特征图映射成类别并与真值类别标签相比计算损失，通过累加不同尺寸特征图对应的损失值得到总的类别损失值。这样一张图片生成多个尺寸特征图共同参数计算损失的过程达到了数据扩充的效果，使得网络模型更加健壮。同时，本专利的方法利用排序损失，保证了下层特征图较上层特征图对识别任务更加有利，保证了自顶向下构建特征图像金字塔的过程是一个特征逐渐求优的过程，提升整个网络模型的性能。通过本发明解决细粒度图像中关键区域的定位和相应特征难提取问题。

本发明的各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

当然，上述说明并非是对本发明的限制，本发明也并不限于上述举例，本技术领域的普通技术人员，在本发明的实质范围内，做出的变化、改型、添加或替换，都应属于本发明的保护范围。

Claims

1.一种基于显著性注意力机制的细粒度图像识别方法，其特征在于，包括：

步骤一：特征提取，得到三维原始特征图；

步骤三：将步骤二获得的显著性信息生成并学习注意力权重，并将注意力权重融合进不同尺寸的原始特征图中，得到融合注意力权重的特征图，进行显著性注意力特征加强；

2.根据权利要求1所述的基于显著性注意力机制的细粒度图像识别方法，其特征在于，通过步骤一得到的三维特征图X，X∈C×W×H，用符号M表示，步骤二中，注意力机制模块获得显著性图的具体步骤如下：

1)对于所有通道中的每张特征图，按行取其像素元素水平方向最大值，使最大值拼接成一维矩阵，即每张特征图Mi中得到维数是1×H的一维矩阵，所有通道累计得到了C×1个维数是1×H的矩阵，获得最大值矩阵列

2)对于所有通道中的每张特征图，按列取其像素元素竖直方向最大值，使最大值拼接成一维矩阵，即每张特征图Mi中可以得到了维数是W×1的一维矩阵，所有通道累计得到了C×1个维数是W×1的矩阵，获得最大值矩阵列

具体获取每张特征图的两种一维矩阵公式为：

其中

表示纵向取值的最大值矩阵列，

表示横向取值的最大值矩阵列。

3.根据权利要求1所述的基于显著性注意力机制的细粒度图像识别方法，其特征在于，步骤三中，学习注意力权重前，首先进行维度变换使得注意力权重和原始特征图维度一致，具体是：将步骤二获得的两组最大值矩阵列中的对应维度的一维矩阵使用矩阵乘法相乘，得到一个与原始特征图相同空间维度的矩阵组，

矩阵乘法具体公式：

4.根据权利要求3所述的基于显著性注意力机制的细粒度图像识别方法，其特征在于，将非对称卷积引入到注意力机制中，利用非对称卷积加强显著性注意力权重，具体的：使用3×3、1×3、3×1这三种不同的卷积核在同一个卷积滑动窗口下对初始的注意力图进行卷积操作，1)先对特征图进行3×3的卷积操作，2)对同一个滑动窗口，使用1×3卷积只对滑动窗口中的横向骨架进行卷积操作，3)对同一个滑动窗口使用3×1卷积只对滑动窗口中的纵向骨架进行卷积操作。

5.根据权利要求3所述的基于显著性注意力机制的细粒度图像识别方法，其特征在于，步骤四中，将步骤三得到的注意力图和不同尺度的特征图进行特征融合构建一组包含高语义、多尺度、显著性信息的特征图组，具体的，利用点乘将A_a和X_a对应元素相乘，激活原始特征图X_a的显著性信息，具体公式如下：

C_a＝A_a·X_a，a＝2，3，...，N.

6.根据权利要求5所述的基于显著性注意力机制的细粒度图像识别方法，其特征在于，由于将显著性信息融合进不同尺度的特征图后，其表现出的对特征图中关键的区分性区域是不同的，因此步骤五中，为了增加每张图像中关键区域的样本数量，同时考虑不同尺度的特征图对网络分类的影响，通过类别损失损失函数优化网络与真值类的映射关系，建立以不同尺度区域为输入的分类网络；通过将不同尺度的特征图分别进行空间维度进行压缩，得到一维的特征向量，最后将特征向量输入到全连接层，映射到数据集包含的类别中，得到与真值类的交叉熵损失，公式如下：

7.根据权利要求6所述的基于显著性注意力机制的细粒度图像识别方法，其特征在于，在自顶向下构建金字塔网络过程中，通过排序损失约束下层特征图，使得相较上层特征图包含更多的语义信息和精细的细粒度特征信息，排序损失公式如下：

总损失函数为：

L_total＝αL_P+βL_rank，

其中α和β作为超参数。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7任一权利要求所述的基于显著性注意力机制的细粒度图像识别方法。