CN114359622A

CN114359622A - 基于卷积神经网络-转换器混合架构的图像分类方法

Info

Publication number: CN114359622A
Application number: CN202111479058.5A
Authority: CN
Inventors: 苏童; 宋呈群; 程俊
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2021-12-06
Filing date: 2021-12-06
Publication date: 2022-04-15

Abstract

本发明公开了一种基于卷积神经网络‑转换器混合架构的图像分类方法。该方法包括：利用预训练卷积神经网络提取图像的特征并生成指示目标位置轮廓的注意力掩码，该注意力掩码表征对应元素属于目标类别的概率；将所述注意力掩码作为先验信息指导转换器网络，以关注辨识性区域来确定图像类别，其中所述转换器网络是以设定的损失函数为优化目标经训练获得。本发明能自动发现目标辨识性的区域，并学习该区域的特征以供区分类别，从而提升了细粒度图像分类的准确性。

Description

基于卷积神经网络-转换器混合架构的图像分类方法

技术领域

本发明涉及图像分析技术领域，更具体地，涉及一种基于卷积神经网络-转换器混合架构的图像分类方法。

背景技术

细粒度图像分类旨在区分基础类别下不同的子类，如区分鸟类、猫、狗等的品种，或区分汽车、飞机的型号等。这些待分类样本属于同一个大类，因此不同类别间具有较大相似性。而由于姿态、光照、角度等因素，同类不同样本间又具有较大差异性。这两方面的因素导致了细粒度分类问题相对于传统分类问题的巨大困难，解决这一问题的关键之一在于寻找细小的可供辨识的特征区域，如鸟类的喙、头部、翅膀或尾部等。

细粒度图像分类是计算机视觉领域的重要任务之一，而现代智能交通、工业、互联网应用的发展也对细粒度分类提出了要求，如区分车辆型号、实时进行植物或鸟类物种查询等。目前的细粒度分类方法大致可分为以下两类。

第一类是基于局部特征的定位-学习方法。此类方法首先获取辨识性关键区域的位置，然后学习这些区域的深度特征。此类方法中的早期工作通常使用额外的人工标注信息来辅助定位辨识性区域，如指示目标位置的边界框(bounding box)和部位标注(partannotation)等。然而由于人工标注信息需要耗费大量人力，因此目前的主流方法通常基于注意力机制(attention mechanism)，能够自动地发现辨识性区域。此类方法采用弱监督方法完成网络的训练，仅需要图片对应的类别标签，节省了人力开销。

第二类是基于高阶特征编码的方法。这类方法旨在通过挖掘更高阶的信息来获取更佳的图像特征描述。例如，经典的双线性模型通过将两条CNN(卷积神经网络)分支的输出特征进行内积而得到了更高阶的图像特征，取得了更佳的分类精度。

定位-学习方法具有更佳的可解释性，符合人类的直观认知，但增加了模型的复杂度。而高阶特征编码方法可解释性差，且为了获得更高的高阶信息容量，模型复杂度也同时增加。目前大多数的细粒度图像分类方法采用基于局部特征的定位-学习方法。

专利申请CN1114611181A公开了一种用于车辆细粒度分类的方法及装置。具体实现方案为：首先从残差网络中提取基本的特征图，并采用预定义的区域大小对其进行分割、聚合，从而构建一个全局结构图；全局结构图经由一个图卷积网络指导生成局部注意力图和一维全局特征图；局部注意力图与全局特征图按像素相乘后即进入分类器中进行分类。

专利申请CN113392875A公开了一种图像细粒度分类的方法、***和设备。具体实现方案为：首先从卷积神经网络中提取基本特征图，通过SENet模块对其通道信息添加权重，将基本特征图输入金字塔网络，输出其多个注意力区域并对其进行排序来训练网络。

综上，目前的细粒度图像分类方法均基于卷积神经网络，然而卷积神经网络因其局部滑窗的特性，不能很好地捕获全局信息以及特征间的长程依赖。

发明内容

本发明的目的是克服上述现有技术的缺陷，提供一种基于卷积神经网络-转换器混合架构的图像分类方法，可以自动的发现目标辨识性的区域，并学习该区域的特征以供区分类别，尤其适用于细粒度图像分类。

本发明的技术方案是提供一种基于卷积神经网络-转换器混合架构的图像分类方法。该方法包括以下步骤：

利用预训练卷积神经网络提取图像的特征并生成指示目标位置轮廓的注意力掩码，该注意力掩码表征对应元素属于目标类别的概率；

将所述注意力掩码作为先验信息指导转换器网络，以关注辨识性区域来确定图像类别，其中所述转换器网络是以设定的损失函数为优化目标经训练获得。

与现有技术相比，本发明的优点在于，利用视觉Transformer(转换器)结构，能够直接对图像全局信息进行建模，捕获图像任意区域间的相互关联信息，提升网络性能；同时引入预训练的卷积神经网络作为注意力模块，提取图像中目标位置信息，作为先验知识嵌入原图，辅助Transformer进行辨识性区域的定位以及特征学习，显著改善了图像分类精度。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1是根据本发明一个实施例的基于卷积神经网络-转换器混合架构的图像分类方法的流程图；

图2是根据本发明一个实施例的基于卷积神经网络-转换器混合架构的图像分类方法的过程示意图；

图3是根据本发明一个实施例的卷积神经网络-转换器混合架构模型的原理图；

图4是根据本发明一个实施例的转换器编码器的示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

参见图1所示，简言之，所提供的基于卷积神经网络-转换器混合架构的图像分类方法包括：步骤S110，利用预训练卷积神经网络提取图像的特征并生成指示目标位置轮廓的注意力掩码，该注意力掩码表征对应元素属于目标类别的概率；步骤S120，将所述注意力掩码作为先验信息指导转换器网络，以关注辨识性区域来确定图像类别，其中所述转换器网络是以设定的损失函数为优化目标经训练获得。

具体地，以细粒度图像分类为例，结合图2所示，所提供的基于卷积神经网络-Transformer混合架构的图像分类过程主要包括五个环节：1)原始图像输入预训练的卷积神经网络中，从中提取的特征图经过处理得到指示目标大致位置轮廓的注意力掩码(mask)；2)注意力mask作为先验知识信息嵌入到原图中；3)嵌入后的图像输入一个Transformer网络进行特征提取；4)Transformer网络输出一个图像全局特征向量，并输入一个基于ArcFace角损失函数的损失模块；5)损失模块输出分类结果。本发明的网络模型在训练阶段遵循基本的深度学习训练技术，即在数据集上通过反向传播完成参数更新来训练模型，此过程需要图片的类别标签；测试/推理阶段则不需要更新参数，其最终输出即为图片分类结果。

图3是基于卷积神经网络-转换器混合架构的模型原理图，主要包括卷积神经网络注意力模块、Transformer特征学习模块和ArcFace角损失模块，以下将具体介绍各模块的实施例。

(1)卷积神经网络注意力模块

该模块采用预训练的卷积神经网络提取图像的特征并生成指示目标位置轮廓的注意力mask，所述注意力mask将作为先验知识信息指导Transformer网络关注目标区域，从而找到辨识性区域。

卷积神经网络的类型和具体结构的选取可以是任意的，例如，采用VGG或残差网络等，只需匹配输入图像大小即可。在一个实施例中，采用的是VGG-16网络，输入图像的大小为448×448，从该网络的conv5_3层输出的特征图表示为

将这些特征图按通道维度直接相加，得到一个单通道的大小为14×14的中间特征图，经过归一化和Sigmoid操作，得到注意力mask，该mask可以通过bicubic插值法(双三次插值)调整大小与原始图像一致，其所有元素的值为0-1之间，指示对应像素的注意力权重，权重越高，其属于目标的概率越大。例如，求注意力mask的过程表示为：

其中，M_i表示第i个通道的特征图，Norm表示规范化操作，例如将512个通道特征图直接相加后得到单个特征图，Norm即将此特征图上的元素进行规范化。

(2)Transformer特征学习模块。

该模块接收嵌入注意力mask的图像进行特征学习。原始的RGB三通道图像被扩展为四通道，第四个通道即为放缩后的注意力mask。在一个实施例中，Transformer特征学习模块的主干网络采用ViT(Vision Transformer)，其是多层Transformer编码器的堆叠。首先输入的图像张量将被分块并投影为固定大小的一维特征向量。具体地，假设输入图像大小为H×W，欲划分的块大小为P×P，则将有

个互不重合的小块，每个块将被投影为一个大小为D的一维特征向量。为了便于分类以及考虑空间关系，还将额外添加一个用于分类的可学习向量(目的是为每个小块寻找类别信息)和一个用于位置编码的可学习向量(目的是对每个小块作位置编码，以保持输入图像各小块之间的空间位置信息)，最后的输入编码器的张量表示为：

z₀＝[X₀；X₁，X₂,...，x_N]+x_pos (2)

其中，x₀、x_pos分别表示添加的分类向量及位置编码，它们均被初始化为高斯分布的向量，并设置为可学习的，在训练过程中更新；x₁至x_N等表示各个小块对应的一维特征向量。

参见图4所示，转换器编码器(Transformer Encoder)中主要进行多头自注意力(multi-headself-attention，MSA)运算，其细节参考文献(“Attention is all youneed”，Advances in neural information processing systems，2017:5998-6008；Vaswani A,Shazeer N,Parmar N,et al.)。输入的图像特征张量首先经过归一化和MSA运算，再进行一个残差连接，即初始张量与运算后的张量相加，得到中间张量；中间张量同样经过归一化，再经过一个多层感知机(multilayer perception，MLP)和残差连接，得到最终输出的张量，其过程由式(3)和式(4)给出。此即一个编码器，一个Transformer编码器由多个编码器堆叠而成，在一个实施例中，所采用的ViT网络由12层编码器构成。

z′_l＝MSA(LN(z_l-1))+z_l-1 (3)

z_l＝MLP(LN(z′_l))+z′_l (4)

其中，z_l-1表示第l-1层的输出，一层为一个encoder，其主要由MSA和MLP两个模块构成，z′_l表示l层encoder的中间特征向量(其位于MSA和MLP之间)，l＝1…L，L表示encoder的数量。

综上，ViT的主要过程包括图像分块处理、图像块嵌入与位置编码、Transformer编码器和MLP分类处理等。

(3)ArcFace角损失模块。

为了取得更好的分类结果，在本发明一个实施例中，移除了ViT的分类头，代而取之的是基于ArcFace(弧度)损失的角损失模块。ViT最后一个编码器输出的分类向量(见式2中的x₀)将作为图像的全局特征描述输入到ArcFace角损失模块。ArcFace角损失模块首先有一个n×D的权重矩阵，其中n为类别数，D为模型维度，其与分类向量等向量的大小一致。权重矩阵的每一个D维向量将作为一个类别的特征向量，在测试/推理阶段，根据分类向量与类别特征向量的余弦距离来判定图像属于哪一类；而在训练阶段，将会在分类向量与对应类别向量间加上一个边界角m来构建损失函数，参见下式(5)。

其中，表示N为训练中一个batch的图片数量，假设第i张图片属于第y_i个类别，

表示表示该图片分类向量与第y_i个类别向量间的夹角，θ_j表示分类向量与其他类别向量的夹角；s表示一个尺度值，用于将处于0-1之间的余弦值放缩到不同的区间上。

需说明的是，卷积神经网络注意力模块仅使用公开的网络预训练参数，在细粒度数据集上训练时可以不作参数更新，从而能够节省大量计算资源及时间。

综上所述，本发明创新地将Transformer结构引入到细粒度图像分类问题中，提出卷积神经网络-Transformer混合架构模型，通过深度神经网络寻找可供区分细粒度类别的关键特征区域并学习其特征，从而对类别进行区分，该混合架构模型结构灵活且可作为较通用的知识迁移框架。混合架构模型中卷积神经网络可以仅使用公开的预训练参数，而不进行额外训练，从而节省了计算资源及训练时间。经过实验验证，所提供的混合架构模型性能优异，在多个细粒度图像数据集上具有很好的效果。

本发明可以是***、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++、Python等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims

1.一种基于卷积神经网络-转换器混合架构的图像分类方法，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述注意力掩码采用以下公式获得：

其中，M_i表示第i个通道的特征图，Norm表示规范化操作。

3.根据权利要求1所述的方法，其特征在于，对于所述转换器网络，其包含多层编码器，首先输入的图像张量将被分块并投影为固定大小的一维特征向量，并额外添加一个用于分类的可学习向量和一个用于位置编码的可学习向量，最后输入编码器的张量表示为：

z₀＝[x₀；x₁，x₂，...，x_N]+x_pos

其中，x₀、x_pos分别表示添加的分类向量和位置编码，均被初始化为高斯分布的向量并设置为可学习的；x₁至x_N表示各个小块对应的一维特征向量。

4.根据权利要求1所述的方法，其特征在于，对于Transformer编码器，输入的图像特征张量首先经过归一化和多头自注意力运算，再进行一个残差连接，得到中间张量；中间张量经过归一化，再经过一个多层感知机和残差连接，得到最终输出的张量。

5.根据权利要求1所述的方法，其特征在于，所述转换器网络的分类头是基于弧度损失的角损失模块，所述转换器网络的最后一个编码器输出的分类向量作为图像的全局特征描述输入该角损失模块。

6.根据权利要求1所述的方法，其特征在于，所述角损失模块首先设有一个n×D的权重矩阵，其中n为类别数，D为模型维度，该权重矩阵的每一个D维向量作为一个类别的特征向量，根据分类向量与类别特征向量的余弦距离来判定图像所属的类别。

7.根据权利要求1所述的方法，其特征在于，所述转换器网络的损失函数设置为：

表示第i张图片分类向量与第y_i个类别向量间的夹角，θ_j表示分类向量与其他类别向量的夹角，s表示一个尺度值，用于将处于0-1之间的余弦值放缩到不同的区间。

8.根据权利要求1所述的方法，其特征在于，所述卷积神经网络采用VGG或残差网络。

9.一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现根据权利要求1至8中任一项所述方法的步骤。

10.一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至8中任一项所述的方法的步骤。