CN117853875B

CN117853875B - 一种细粒度图像识别方法及***

Info

Publication number: CN117853875B
Application number: CN202410240436.1A
Authority: CN
Inventors: 余鹰; 危伟; 徐长节
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2024-03-04
Filing date: 2024-03-04
Publication date: 2024-05-14
Anticipated expiration: 2044-03-04
Also published as: CN117853875A

Abstract

本发明提供了一种细粒度图像识别方法及***，该方法包括：对原始数据集中的若干原始图像进行预处理，以生成若干对应的标准图像；将若干标准图像输入至主干网络中，以使主干网络输出对应的各块特征向量、分类特征向量以及注意力权重图，并根据各块特征向量以及注意力权重图计算出对应的结构特征向量；根据分类特征向量以及结构特征向量计算出对应的原始图像分类损失，并基于预设规则根据若干标准图像计算出对应的重组图像分类损失；根据原始图像分类损失、重组图像分类损失以及反向传播训练模型训练出对应的细粒度图像识别模型，并通过细粒度图像识别模型完成各类图像的识别。本发明能够大幅提升识别准确率，提升了用户体验。

Description

一种细粒度图像识别方法及***

技术领域

本发明涉及图像识别技术领域，特别涉及一种细粒度图像识别方法及***。

背景技术

随着科技的进步以及生产力的快速发展，计算机已经在人们的日常生活中得到普及，并且已经在多个领域得到了深入的应用，提高了人们的工作效率。

其中，计算机技术在图像识别领域已经得到了广泛的应用，具体的，由于细粒度图像识别对生物多样性、智能零售和智慧交通等自动检测领域都有着实际意义，进一步的，现有的细粒度图像识别大部分都是通过深度神经网络来实现，并且根据所使用的特征提取网络的不同，大体上可分为两类，即基于卷积神经网络的方法以及基于视觉自注意力的方法。

然而，现有的基于视觉自注意力的方法大部分都是利用模型自身的自注意力机制来进行重要特征的筛选或者关键区域裁剪，从而忽略了图像中不同部件或者区域之间的空间特征关系，并且容易对形状相似的物体进行误判，进而对应降低了用户的使用体验。

发明内容

基于此，本发明的目的是提供一种细粒度图像识别方法及***，以解决现有技术基于视觉自注意力的方法容易对形状相似的物体进行误判，导致降低了用户使用体验的问题。

本发明实施例第一方面提出了：

一种细粒度图像识别方法，其中，所述方法包括：

当获取到原始数据集时，对所述原始数据集中的若干原始图像进行预处理，以生成若干对应的标准图像，每一所述标准图像的尺寸相同；

将若干所述标准图像输入至主干网络中，以使所述主干网络输出对应的各块特征向量、分类特征向量以及注意力权重图，并根据所述各块特征向量以及所述注意力权重图计算出对应的结构特征向量；

根据所述分类特征向量以及所述结构特征向量计算出对应的原始图像分类损失，并基于预设规则根据若干所述标准图像计算出对应的重组图像分类损失；

根据所述原始图像分类损失、所述重组图像分类损失以及反向传播训练模型训练出对应的细粒度图像识别模型，并通过所述细粒度图像识别模型完成各类图像的识别。

本发明的有益效果是：通过实时采集原始数据集，并从中提取出需要的图像，与此同时，还会进一步转换成便于后续训练的标准图像。进一步的，将当前标准图像输入至主干网络中，与此同时，该主干网络能够进一步输出需要的各块特征向量、分类特征向量以及注意力权重图，基于此，进一步获取到需要的原始图像分类损失以及重组图像分类损失，并最终训练出需要的细粒度图像识别模型，具体的，该细粒度图像识别模型能够弥补现有技术用于最终识别的深层表征偏向抽象的语义信息的不足，从而能够对应提升该细粒度图像识别模型对结构信息建模能力的效果，进而能够准确的识别出各类图像，对应提升了用户的使用体验。

进一步的，所述将若干所述标准图像输入至主干网络中，以使所述主干网络输出对应的各块特征向量、分类特征向量以及注意力权重图的步骤包括：

通过所述主干网络对若干所述标准图像进行序列化处理，以划分出若干对应的图像块，并通过所述主干网络中的线性层将若干所述图像块映射成对应的D维特征向量；

在所述D维特征向量中嵌入位置向量，以生成对应的目标向量，并根据所述目标向量计算出对应的特征矩阵；

将所述特征矩阵输入至所述主干网络的编码器中，并通过所述编码器中的自注意力层对所述特征矩阵进行编码处理，以对应输出所述各块特征向量、分类特征向量以及注意力权重图，所述目标向量具有唯一性。

进一步的，所述根据所述各块特征向量以及所述注意力权重图计算出对应的结构特征向量的步骤包括：

实时提取出所述注意力权重图中包含的若干注意力图，并根据所述各块特征向量实时计算出与每一所述注意力图对应的注意力分数；

根据每一所述注意力图的注意力分数计算出对应的注意力分数均值，并根据所述注意力分数均值在所述各块特征向量包含的若干原始特征块中筛选出对应的目标特征块，且根据所述目标特征块生成所述结构特征向量。

进一步的，所述根据所述目标特征块生成所述结构特征向量的步骤包括：

当实时获取到若干所述目标特征块时，根据每一所述目标特征块所对应的目标注意力分数构建出对应的原始图像空间坐标，并在所述原始图像空间坐标中实时生成与每一所述目标特征块对应的节点特征以及结构特征；

根据所述节点特征解析出与所述结构特征对应的邻接矩阵，并根据所述邻接矩阵以及所述结构特征对应生成所述结构特征向量。

进一步的，所述基于预设规则根据若干所述标准图像计算出对应的重组图像分类损失的步骤包括：

对所述标准图像进行快速傅里叶变换处理，以生成对应的频域特征，并实时提取出所述频域特征中分别包含的振幅谱以及相位谱；

对每一所述振幅谱的中心区域进行交换处理，以生成对应的二次频域特征，并根据所述二次频域特征生成对应的新样本频域特征，以根据所述新样本频域特征对应生成所述重组图像分类损失。

进一步的，所述根据所述新样本频域特征对应生成所述重组图像分类损失的步骤包括：

对所述新样本频域特征进行逆快速傅里叶变换处理，以生成对应的空域特征，并将所述空域特征转换成对应的新样本图像；

将所述新样本图像对应输入至所述主干网络中，以使所述主干网络对应输出所述重组图像分类损失。

进一步的，所述根据所述原始图像分类损失、所述重组图像分类损失以及反向传播训练模型训练出对应的细粒度图像识别模型的步骤包括：

对所述原始图像分类损失以及所述重组图像分类损失进行相加处理，以生成对应的总体损失，并将所述总体损失输入至所述反向传播训练模型中；

通过所述反向传播训练模型实时判断所述主干网络是否收敛或者达到预设训练轮次；

若通过所述反向传播训练模型实时判断到所述主干网络已经收敛或者已经达到所述预设训练轮次，则对应训练出所述细粒度图像识别模型。

本发明实施例第二方面提出了：

一种细粒度图像识别***，其中，所述***包括：

获取模块，用于当获取到原始数据集时，对所述原始数据集中的若干原始图像进行预处理，以生成若干对应的标准图像，每一所述标准图像的尺寸相同；

计算模块，用于将若干所述标准图像输入至主干网络中，以使所述主干网络输出对应的各块特征向量、分类特征向量以及注意力权重图，并根据所述各块特征向量以及所述注意力权重图计算出对应的结构特征向量；

处理模块，用于根据所述分类特征向量以及所述结构特征向量计算出对应的原始图像分类损失，并基于预设规则根据若干所述标准图像计算出对应的重组图像分类损失；

训练模块，用于根据所述原始图像分类损失、所述重组图像分类损失以及反向传播训练模型训练出对应的细粒度图像识别模型，并通过所述细粒度图像识别模型完成各类图像的识别。

进一步的，所述计算模块具体用于：

进一步的，所述计算模块还具体用于：

进一步的，所述处理模块具体用于：

进一步的，所述处理模块还具体用于：

进一步的，所述训练模块具体用于：

本发明实施例第三方面提出了：

一种计算机，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上面所述的细粒度图像识别方法。

本发明实施例第四方面提出了

一种可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如上面所述的细粒度图像识别方法。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1为本发明第一实施例提供的细粒度图像识别方法的流程图；

图2为本发明第六实施例提供的细粒度图像识别***的结构框图。

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

需要说明的是，当元件被称为“固设于”另一个元件，它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及／或”包括一个或多个相关的所列项目的任意的和所有的组合。

请参阅图1，所示为本发明第一实施例提供的细粒度图像识别方法，本实施例提供的细粒度图像识别方法能够准确的识别出各类图像，对应大幅提升了用户的使用体验。

具体的，本实施例提供了：

一种细粒度图像识别方法，具体包括以下步骤：

步骤S10，当获取到原始数据集时，对所述原始数据集中的若干原始图像进行预处理，以生成若干对应的标准图像，每一所述标准图像的尺寸相同；

步骤S20，将若干所述标准图像输入至主干网络中，以使所述主干网络输出对应的各块特征向量、分类特征向量以及注意力权重图，并根据所述各块特征向量以及所述注意力权重图计算出对应的结构特征向量；

步骤S30，根据所述分类特征向量以及所述结构特征向量计算出对应的原始图像分类损失，并基于预设规则根据若干所述标准图像计算出对应的重组图像分类损失；

步骤S40，根据所述原始图像分类损失、所述重组图像分类损失以及反向传播训练模型训练出对应的细粒度图像识别模型，并通过所述细粒度图像识别模型完成各类图像的识别。

具体的，在本实施例中，首先需要说明的是，为了能够精准的识别出各类图像，需要首先获取大量的训练数据，基于此，在实时获取到大量的原始数据集之后，为了减少数据的处理量，此时需要立即提取出当前原始数据集中所包含的若干原始图像，与此同时，为了便于提升后续训练的速度，此时还需要进一步对当前若干原始图像进行预处理操作，以保证能够得到大小一致的输入图像，具体的，可以对当前若干原始图像分别进行图像缩放、随机裁剪以及随机水平反转操作等，以便于后续的处理。

进一步的，为了能够对应训练出需要的细粒度图像识别模型，此时需要进一步将当前若干标准图像输入至主干网络中，与此同时，该主干网络能够进一步输出后续步骤需要的各块特征向量、分类特征向量以及注意力权重图，并进一步对应计算出需要的结构特征向量。更进一步的，为了能够了解模型的识别准确率，就需要对应知悉模型在识别的过程中所产生的损失率，基于此，还需要进一步计算出原始图像分类损失以及重组图像分类损失，在此基础之上，最后根据当前原始图像分类损失、重组图像分类损失以及反向传播训练模型最终训练出需要的细粒度图像识别模型，在后续使用的过程中，只需要将每个原始图片对应输入至当前细粒度图像识别模型中，该细粒度图像识别模型就能够自动输出与当前原始图片对应的类别，并且准确率较高，提升了用户体验。

第二实施例

具体的，在本实施例中，需要说明的是，在通过上述步骤获取到需要的标准图像之后，模型首先对其做序列化操作，即将图像依据固定大小的步长划分为N个图像块。为了准确表述，不妨设图像分辨率为H*W，步长设置为S，则图像的序列长度的公式为：

；

其中，操作为向下取整，N_H表示横向像素块，N_W表示纵向像素块；

将划分后图像块经过线性层映射为D维特征向量，并嵌入可学习的位置向量。同时，为了完成分类任务，模型在此引入了分类特征向量，用于表示图像的全局信息。该步公式如下：

；

其中，x_ds表示分类特征，表示图像块，/>表示位置向量，/>表示线性映射操作，N表示数量，z₀表示分类特征向量；

将上面获取到的特征矩阵送入模型的编码器，该编码器包含层的自注意力层。其中每一层的内部结构一致，主要包括一个多头自注意力（MSA）块和一个多层感知机（MLP）块。其中各块特征向量和分类特征向量集合为每一层的输出，而当前层的输出又将作为下一层的输入进行再次训练。该步公式如下：

；

其中表示层归一化操作，Z_l为第/>层输出的特征矩阵，Z_l-1表示第/>-1层输出的特征矩阵，该矩阵同时包含各块特征向量和分类特征向量。而注意力权重图为多头自注意力块运行过程的中间结果，假定该块包括K个注意力头，这里直接给出其表达式：

；

其中，表示第/>层的多头自注意力块输出的注意力图，表示其中某一个头输出的注意力矩阵，该矩阵表示特征向量集中两两之间的注意力，如第0个向量/>表示分类向量对其他块特征向量的注意力分数，a表示特征元素。

在上述步骤中，我们只提取最终层输出的块特征向量和分类特征向量即，和所有层的注意力图即/>.../>。

具体的，在本实施例中，还需要说明的是，在通过上述步骤实时获取到需要的各块特征向量以及注意力权重图之后，由于图像存在大量背景，模块希望围绕前景目标的关键区域进行结构建模，可以借助模型自身的注意力分数进行特征块的筛选。首先聚合所有层的注意力图，然后提取出分类特征对块特征的注意力分数，最后以注意力分数均值为阈值进行特征块的筛选，公式如下：

；

其中，为聚合后的注意力图，/>为叠加各头中分类特征对各块特征的注意力分数向量后的结果，注意力分数均值/>作为筛选阈值，/>为对应图像块在原始图像空间坐标/>处的特征块。进一步的，模块仅保留筛选后的特征块，被筛选的块特征被置为0向量，以便于后续的处理。

第三实施例

另外，在本实施例中，需要说明的是，在通过上述步骤实时获取到需要的若干目标特征块之后，此时还需要进一步构建出需要的节点特征以及结构特征，具体的，为生成对象特征块的图表示，其中包括节点表示即基点特征和边表示即结构特征。对于节点特征，模块引入极坐标来表示特征块的位置信息。选定最高注意力分数块作为极点，则其他块的极坐标可根据以下公式求得：

；

其中，和/>分别为极点块和其余特征块在原始图像上的坐标，/>和分别为对应特征块的极径和极角信息。模块将特征块的极径和极径信息合并则为其节点特征/>。

对于结构特征，模块使用特征块特征向量集合的自相似性来描述节点之间的关系。结构特征对应的邻接矩阵求解公式如下：

；

其中，是一个归一化函数，领接矩阵/>是一个对称矩阵，/>表示第/>个块特征向量与第/>个块特征向量之间相似性；

将上面得到的节点特征和结构特征输入到两层的图卷积中，利结构特征对节点特征进行汇聚得到新的节点表示。公式如下所示：

；

其中，为激活函数，其中/>和/>是图卷积中可学习的参数。/>为结构特征向量矩阵，模块选取其中极点节点的结构特征向量最终的对象结构特征表示。

另外，在本实施例中，还需要说明的是，在通过上述步骤实时获取到原始图像分类损失之后，此时为了能够进一步准确的获取到需要的重组图像分类损失，具体的，需要首先构建出需要的新图像样本，其中，需要随机对上述两张标准图像分别使用快速傅里叶变换（Fourier Transform，FFT）得到图像对应的频域特征，并分离其振幅谱与相位谱。公式如下：

；

其中，为传入图像，fft2（~）为二维快速傅里叶变换，R（I）和I（I）为变换后频域特征的实部和虚部，A（I）和P（I）为输入图像的振幅谱和相位谱，/>表示频率域中的坐标；

进一步的，交换双方的振幅谱中心区域部分，并重组为新样本的频域特征。这里模块借助一个与振幅谱相同尺寸的掩膜来实现两张图像的振幅谱中心交换，掩膜公式如下：

；

其中，M表示构建的图像掩膜，其掩膜中心坐标为(0,0)，为掩膜高宽，是一个用于控制中心区域大小的超参数。振幅谱互换公式如下:

；

其中，和/>表示同一批次的两张图像，I_a ^new和I_b ^new表示待生成的新样本，A表示掩膜函数，以便于后续的处理。

第四实施例

其中，在本实施例中，需要指出的是，在通过上述步骤实时获取到需要的新样本频域特征之后，对两者的新样本频域特征分别使用逆快速傅里叶变换得到空域特征，并转换为RGB图像即新样本图像,新样本标签与相位谱来源图像标签一致。

；

其中，为二维傅里叶反变换。

进一步地，上面所述中的图像分类损失均使用交叉熵损失，公式如下：

；

其中，是训练集，/>是图像/>的独热标签，/>是模型对输入图像/>预测结果向量L_CE表示交叉熵损失。

第五实施例

其中，在本实施例中，需要指出的是，在通过上述步骤实时获取到需要的原始图像分类损失以及重组图像分类损失之后，此时需要对两者进行相加处理，从而能够得到一个训练过程中产生的总体损失，与此同时，将该总体损失同步输入至预先设置好的反向传播训练模型中。

进一步的，为了能够准确的判断出是否训练完成，此时需要进一步通过上述反向传播训练模型实时判断上述主干网络是否完成收敛或者是否达到了预设训练轮次，具体的，若实时判断到上述主干网咯已经收敛或者已经达到了预设训练轮次，则能够准确判断出已经完成了对应的训练，即生成了需要的细粒度图像识别模型，并进一步通过该细粒度图像识别模型完成各类图像的识别。

请参阅图2，本发明第六实施例提供了：

一种细粒度图像识别***，其中，所述***包括：

进一步的，所述计算模块具体用于：

进一步的，所述计算模块还具体用于：

进一步的，所述处理模块具体用于：

进一步的，所述处理模块还具体用于：

进一步的，所述训练模块具体用于：

本发明第七实施例提供了一种计算机，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上面所述的细粒度图像识别方法。

本发明第八实施例提供了一种可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如上面所述的细粒度图像识别方法。

综上所述，本发明上述实施例提供的细粒度图像识别方法及***能够准确的识别出各类图像，对应提升了用户的使用体验。

需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备（如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***）使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。

计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种细粒度图像识别方法，其特征在于，所述方法包括：

根据所述原始图像分类损失、所述重组图像分类损失以及反向传播训练模型训练出对应的细粒度图像识别模型，并通过所述细粒度图像识别模型完成各类图像的识别；

所述将若干所述标准图像输入至主干网络中，以使所述主干网络输出对应的各块特征向量、分类特征向量以及注意力权重图的步骤包括：

将所述特征矩阵输入至所述主干网络的编码器中，并通过所述编码器中的自注意力层对所述特征矩阵进行编码处理，以对应输出所述各块特征向量、分类特征向量以及注意力权重图，所述目标向量具有唯一性；

所述根据所述各块特征向量以及所述注意力权重图计算出对应的结构特征向量的步骤包括：

根据每一所述注意力图的注意力分数计算出对应的注意力分数均值，并根据所述注意力分数均值在所述各块特征向量包含的若干原始特征块中筛选出对应的目标特征块，且根据所述目标特征块生成所述结构特征向量；

所述根据所述目标特征块生成所述结构特征向量的步骤包括：

根据所述节点特征解析出与所述结构特征对应的邻接矩阵，并根据所述邻接矩阵以及所述结构特征对应生成所述结构特征向量；

其中，根据所述邻接矩阵以及所述结构特征计算出所述结构特征向量的算法的表达式为：

其中，S表示所述结构特征向量的矩阵，Adj表示所述邻接矩阵，表示激活函数，X_node表示所述结构特征，W¹和W²是图卷积中的可学习的参数；

所述基于预设规则根据若干所述标准图像计算出对应的重组图像分类损失的步骤包括：

对每一所述振幅谱的中心区域进行交换处理，以生成对应的二次频域特征，并根据所述二次频域特征生成对应的新样本频域特征，以根据所述新样本频域特征对应生成所述重组图像分类损失；

所述根据所述新样本频域特征对应生成所述重组图像分类损失的步骤包括：

2.根据权利要求1所述的细粒度图像识别方法，其特征在于：所述根据所述原始图像分类损失、所述重组图像分类损失以及反向传播训练模型训练出对应的细粒度图像识别模型的步骤包括：

3.一种细粒度图像识别***，其特征在于，用于实现如权利要求1至2中任意一项所述的细粒度图像识别方法，所述***包括：

4.一种计算机，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至2中任意一项所述的细粒度图像识别方法。

5.一种可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至2中任意一项所述的细粒度图像识别方法。