CN116721284A

CN116721284A - 一种基于图增强的图像分类方法、装置、设备及介质

Info

Publication number: CN116721284A
Application number: CN202310600001.9A
Authority: CN
Inventors: 孔欧
Original assignee: Shanghai Mdata Information Technology Co ltd
Current assignee: Shanghai Mdata Information Technology Co ltd
Priority date: 2023-05-25
Filing date: 2023-05-25
Publication date: 2023-09-08
Anticipated expiration: 2043-05-25
Also published as: CN116721284B

Abstract

本发明涉及一种基于图增强的图像分类方法、装置、设备及介质，其中，方法包括：获取待分类的图像；将所述待分类的图像输入至分类模型中得到图像的分类结果；其中，所述分类模型包括：图像特征提取模块，用于从所述待分类的图像中提取出图像综合特征；图像转换模块，用于将所述待分类的图像转换为图，并提取出图的顶点信息和边缘信息；特征融合模块，用于将所述图像综合特征与所述图的顶点信息和边缘信息进行特征融合，得到融合特征；分类模块，用于基于图像综合特征和融合特征对待分类的图像进行分类，得到图像的分类结果。本发明能够利用图信息来辅助图像分类，从而提升图像分类的准确性。

Description

一种基于图增强的图像分类方法、装置、设备及介质

技术领域

本发明涉及图像分类技术领域，特别是涉及一种基于图增强的图像分类方法、装置、设备及介质。

背景技术

现有的图像分类方法是将一张图片输入至神经网络模型中，经过神经网络模型处理后输出类别。上述方式没有考虑到将图像转换为图(Graph，包含edge和node)作为输入来增强图像分类的识别效果，整个神经网络模型只有图像作为信息传递，没有考虑将Graph与图像做信息的交互。本发明的发明人发现，现有技术没有将图像转换为图作为输入的主要原因是，如果将图像直接作为Graph的话，会导致Graph的node(顶点)和edge(边)过于多，假如图像的分辨率为224*224，将每个像素点作为node，那么node的数量就有224*224＝50276个，如此相当耗费资源，不利于网络推理。

发明内容

本发明所要解决的技术问题是提供一种基于基于图增强的图像分类方法、装置、设备及介质，能够利用Graph信息来辅助图像分类，从而提升图像分类的准确性。

本发明解决其技术问题所采用的技术方案是：提供一种基于图增强的图像分类方法，包括以下步骤：

获取待分类的图像；

将所述待分类的图像输入至分类模型中得到图像的分类结果；其中，所述分类模型包括：

图像特征提取模块，用于从所述待分类的图像中提取出图像综合特征；

图像转换模块，用于将所述待分类的图像转换为图，并提取出图的顶点信息和边缘信息；

特征融合模块，用于将所述图像综合特征与所述图的顶点信息和边缘信息进行特征融合，得到融合特征；

分类模块，用于基于图像综合特征和融合特征对待分类的图像进行分类，得到图像的分类结果。

所述图像特征提取模块包括：

图像特征提取单元，包括卷积层、转换编码层、图像特征抽取器和图像描述生成器，所述卷积层用于对所述待分类的图像进行特征提取，得到N*N个块嵌入；所述转换编码层用于对N*N个块嵌入进行转换编码得到图像特征；所述图像特征抽取器用于对所述待分类的图像进行特征抽取，得到图像全局特征；所述图像描述生成器用于对所述待分类的图像进行文字描述；

文本特征抽取器，用于从所述待分类的图像的文字描述抽取特征，得到文本特征；

求和单元，用于将所述图像特征、图像全局特征和文本特征进行求和，得到图像综合特征。

所述图像转换模块包括：

顶点信息提取单元，用于对所述待分类的图像进行特征提取，得到N*N个图嵌入，并将N*N个图嵌入作为图的顶点信息；

边缘信息提取单元，用于将所述N*N个图嵌入作为一个嵌入图像，并初始化一个形状为(N*N，N*N)、默认值均为0的邻接矩阵，当所述嵌入图像的一个像素点与另一个像素点是相邻的，则将邻接矩阵中对应位置的值设置为1，并用更新后的邻接矩阵作为图的边缘信息。

所述特征融合模块包括：

初级特征融合单元，用于将到图像综合特征、图的顶点信息和图的边缘信息进行交叉注意处理，得到交互信息；

深层特征融合单元，用于将交互信息、图的顶点信息和图像综合特征交替作为Q、K、V进行特征融合，得到融合特征。

所述分类模块包括：

第一分类单元，用于基于所述图像综合特征进行分类，得到第一分类结果；

第二分类单元，用于基于所述融合特征进行分类，得到第二分类结果；

加权单元，用于将第一分类结果与第二分类结果进行加权求和，得到图像的分类结果。

本发明解决其技术问题所采用的技术方案是：提供一种基于图增强的图像分类装置，包括：

获取部分，用于获取待分类的图像；

分类部分，用于将所述待分类的图像输入至分类模型中得到图像的分类结果；其中，所述分类模型包括：

所述图像特征提取模块包括：

所述图像转换模块包括：

本发明解决其技术问题所采用的技术方案是：提供一种电子设备，包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的基于图增强的图像分类方法的步骤。

本发明解决其技术问题所采用的技术方案是：提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的基于图增强的图像分类方法的步骤。

有益效果

由于采用了上述的技术方案，本发明与现有技术相比，具有以下的优点和积极效果：本发明将图像转换为图，并将图与图像进行特征融合，以此来辅助图像分类，提升图像分类的准确性。

附图说明

图1是本发明第一实施方式的流程图；

图2是本发明第一实施方式中分类模型的方框图；

图3是本发明第一实施方式中提取出的边缘信息示意图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明的第一实施方式涉及一种基于图增强的图像分类方法，如图1所示，包括以下步骤：获取待分类的图像；将所述待分类的图像输入至分类模型中得到图像的分类结果；如图2所示，所述分类模型包括：

本实施方式中的图像特征提取模块包括：

所述图像转换模块包括：

所述特征融合模块包括：

所述分类模块包括：

本实施方式的分类模型在进行图像分类时，其流程如下：

1)图像处理：

a.将待分类的图像resize到280*280的分辨率；

b.利用2Dconv对待分类的图像进行特征抽取，获取到5*5＝25个patchembedding，每个patchembedding为长度768的向量；

c.经过N次TransformerEncoderBlock获取到图像特征A；

d.经过Blip(图像特征抽取器，图像描述生成器)，分别获取到图像的全局特征B和文字描述；

2)文本处理：将图像处理中获取到的文字描述通过Bert(文本特征抽取器)获取到文本特征C；

3)将图像特征A、图像的全局特征B和文本特征C直接求和，得到最终的图像综合特征；

4)Graph处理(Image2GraphProcessor)：

a.将待分类的图像resize到280*280的分辨率；

b.顶点(node)信息提取：利用2Dconv对待分类的图像进行特征抽取，设置卷积的移动步长和卷积核的大小一致，卷积核的数量为768，获取到5*5＝25个Graphembedding，每个Graphembedding为长度768的向量，将这25个Graphembbeding作为Graph的node信息；

c.边缘(edge)信息提取：将b步中的5*5个的node信息看作为一个嵌入图像，那么该嵌入图像的分辨率为5*5，初始化一个邻接矩阵，该邻接矩阵的形状为(5*5，5*5)，默认值均设为0，当所述嵌入图像的一个像素点与另一个像素点是相邻的话，则将邻接矩阵中对应位置的值设置为1。如图3所示，图中的灰色方块代表值为1，其余则为0，用此矩阵来作为Graph的edge信息。

d.将node和edge分别经过一个FC全连接层，将各自的维度都投影到768维。

5)初级特征融合：对图像综合特征、图的顶点信息和图的边缘信息做N次Cross-Attention，交互node、edge和Image的信息，得到交互信息；

6)深层特征融合：将交互信息、图的顶点信息和图像综合特征交替作为Q、K、V进行N次FeatureFusionBlock高级特征的信息融合，得到融合特征

7)加权求概率：对Fusionhead和Imagehead的输出结果进行0.6*FusionHead+0.4*ImageHead的加权，得到最后的分类结果，其中，Fusionhead的输出结果是基于融合特征进行分类的结果，Imagehead的输出结果是基于图像综合特征进行分类的结果。

不难发现，本发明将图像转换为图，并将图与图像进行特征融合，以此来辅助图像分类，提升图像分类的准确性。

本发明的第二实施方式涉及一种基于图增强的图像分类装置，包括：

获取部分，用于获取待分类的图像；

所述图像特征提取模块包括：

所述图像转换模块包括：

所述特征融合模块包括：

所述分类模块包括：

本发明的第三实施方式涉及一种电子设备，包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现第一实施方式的基于图增强的图像分类方法的步骤。

本发明的第四实施方式涉及一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一实施方式的基于图增强的图像分类方法的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本发明实施例中的方案可以采用各种计算机语言实现，例如，面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于图增强的图像分类方法，其特征在于，包括以下步骤：

获取待分类的图像；

2.根据权利要求1所述的基于图增强的图像分类方法，其特征在于，所述图像特征提取模块包括：

3.根据权利要求1所述的基于图增强的图像分类方法，其特征在于，所述图像转换模块包括：

4.根据权利要求1所述的基于图增强的图像分类方法，其特征在于，所述特征融合模块包括：

5.根据权利要求1所述的基于图增强的图像分类方法，其特征在于，所述分类模块包括：

6.一种基于图增强的图像分类装置，其特征在于，包括：

获取部分，用于获取待分类的图像；

7.根据权利要求6所述的基于图增强的图像分类装置，其特征在于，所述图像特征提取模块包括：

8.根据权利要求6所述的基于图增强的图像分类装置，其特征在于，所述图像转换模块包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-5中任一所述的基于图增强的图像分类方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5中任一所述的基于图增强的图像分类方法的步骤。