CN111325237A

CN111325237A - 一种基于注意力交互机制的图像识别方法

Info

Publication number: CN111325237A
Application number: CN202010070791.0A
Authority: CN
Inventors: 乔宇; 庄培钦; 王亚立
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2020-01-21
Filing date: 2020-01-21
Publication date: 2020-06-23
Anticipated expiration: 2040-01-21
Also published as: CN111325237B

Abstract

本发明提供一种基于注意力交互机制的图像识别方法，利用预训练的图像识别模型获得待测图片的分类，其中图像识别模型的训练过程包括：对于N种图像类别的每一类，选择K张图片输入到卷积神经网络进行特征提取，获得多个图像特征；依据不同图像特征之间的相似度组建图像特征对；对于所组建的图像特征对通过共有特征学习提取出共有特征向量；基于共有特征向量计算图像特征对中各特征对应的门特征向量；将图像特征对中的各特征与门特征向量组合后的特征输入到分类器，并根据设置的损失函数进行优化，获得经训练的卷积神经网络和分类器。本发明能够提高图像识别的准确率，尤其适用于细粒度图像识别。

Description

一种基于注意力交互机制的图像识别方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于注意力交互机制的图像识别方法。

背景技术

近年来，基于深度学习的方法在计算机视觉领域取得了巨大的突破，尤其以图像识别任务为代表。但是在图像识别任务中，细粒度图像(子类别)识别任务所得的突破有限。与常规的通用物体识别任务相比，细粒度图像识别的难度主要体现在：1)数据集中类别划分极细，相邻的子类别中图像相似度大，仅存在细微的视觉上差异，且该视觉差异不容易被发现和区分；2)由于图像采集过程中的光线、视角、姿态等多种因素的影响，同一类别中的图像也差异巨大。由于细粒度图像具有类间差异小、类内差异大的特点，给识别任务带来了挑战。细粒度图像的识别需求常见于自然界中具有分类层次的生物物种识别任务中。

在现有技术中，对于细粒度图像识别的任务，通常源于以下三种主流思路：1)关键部件定位方法。由于细粒度图像任务中，相似类别的图像差异细微，不易辨别，因此有必要挑选图像中具有高辨别力的特征用于最终的分类。该类方法希望能够自动对图像中的若干关键部位进行定位，提取这些局部区域的图像特征。但是由于实验中往往只有较弱的监督信息(图像标签信息)，因此该方法对关键部分定位的能力受限；2)高阶特征学习。由于细粒度任务中的图像内容复杂多样，常规的特征提取方法表达能力受限，因此该方法希望提升特征的表达能力，从而提升算法的能力；3)基于度量学习的方法。由于细粒度图像具有类间差异小、类内差异大的特点，基于度量学习的方法希望改善这种情况。但是由于这种方法仅能在特征空间改善样本的分布，缺乏发现样本间差异的能力，因此也不能较好地提升识别任务的性能。

因为细粒度图像识别任务中相似的图像间差异细微，现有方法针对细粒度图像中内容复杂的情况，采取了相应的措施。例如，通过构造高阶图像特征，增加特征的表达能力，提高特征的质量，从而提升识别任务的性能；又如，通过检测和分割的技术，在原始图像中寻找重要的局部区域，通过提取这些关键区域的图像特征。然而，现有方法都是建立在单张图像中，因此不能发现两张相似图像间的差异部分，从而无法真正高效、准确地找到具有高区分性的图像区域。

发明内容

本发明的目的在于克服上述现有技术的缺陷，提供一种基于注意力交互机制的图像识别方法，通过模拟人的认知过程，比较两张相似度高的图像，能够发现图像对之间的差异，从而准确地将图像进行区分。

根据本发明的第一方面，提供了一种构建基于注意力交互机制的图像识别模型的方法。该方法包括以下步骤：

对于N种图像类别中的每一类，选择K张图片输入到卷积神经网络进行特征提取，获得多个图像特征，其中，N、K是大于等于2的整数；

依据不同图像特征之间的相似度组建图像特征对；

对于所组建的图像特征对通过共有特征学习提取出共有特征向量；

基于所述共有特征向量计算图像特征对中各特征对应的门特征向量；

将所述图像特征对中的各特征与所述门特征向量组合后的特征输入到分类器，并根据设置的损失函数进行优化，获得经训练的卷积神经网络和经训练的分类器。

在一个实施例中，所述依据不同图像特征之间的相似度组建图像特征对包括：对于每一个图像特征x₁，按照欧式距离计算其类内最近或类间最近的图像特征，记为x₂，组成2×N×K组图像特征对。

在一个实施例中，所述提取共有特征向量包括：

将图像特征对x₁和x₂进行拼接，并将拼接后的特征分别送入多个全连接层，得到共有特征向量，表示为：

x_m＝f_m([x₁，x₂])。

在一个实施例中，计算图像特征对中各特征对应的门特征向量包括：

将共有特征向量x_m分别与图像特征对的特征点乘，并经过sigmoid函数进行归一化，得到对应的门特征向量，表示为：

g_i＝sigmoid(x_m⊙x_i)，i∈{1，2}。

在一个实施例中，所述图像特征对中的各特征与所述门特征向量组合后的特征包括四种表达形式，分别为

其中

代表自己的图像特征与对应的门特征向量点乘得到的结果，

代表自己的图像特征与其他的门特征向量点乘得到的结果，g₁，g₂表示门特征向量。

在一个实施例中，所述损失函数设置为：

其中，y_i反映真实的分类标签，

表示分类器输出的分类概率向量。

在一个实施例中，所述损失函数设置为：

其中

表示概率向量

中第c_i类所对应的分数，∈表示阈值。

根据本发明的第二方面，提供一种基于注意力交互机制的图像识别方法。该方法包括以下步骤：

将单张图片送入本发明的经训练的卷积神经网络，抽取出对应的图像特征x_*，将x_*送入到所述经训练的分类器，得到最终的分类结果。

与现有技术相比，本发明的优点在于：能够解决现有相关技术建模时只考虑单张图片，而忽略去发现图像对间的差异，本发明通过比较图像对间的差异，从而发现单张图像中具有高区分性的特征。

附图说明

以下附图仅对本发明作示意性的说明和解释，并不用于限定本发明的范围，其中：

图1是根据本发明一个实施例的基于注意力交互机制的图像识别方法的流程图；

图2是根据本发明一个实施例的共有特征向量学习模块的示意图；

图3是根据本发明一个实施例的注意力交互机制的示意图；

图4是根据本发明一个实施例的基于注意力交互机制的图像识别***的示意图；

图5是根据本发明一个实施例的终端设备示意图；

图6是根据本发明一个实施例的应用实施例示意图。

具体实施方式

为了使本发明的目的、技术方案、设计方法及优点更加清楚明了，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。

在本文示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

本发明提供的基于注意力交互机制的图像识别方法，基于图像对，通过对比发现图像对中的特征差异，从而将两张图像正确地区分。简言之，该方法同时输入一对相似的图像，首先构造一个共有(相互)特征向量，该共有特征向量包含了图像对中的差异性语义特征；然后将每一个图像特征与该共有特征点乘和归一化，生成门特征向量用于寻找具有高特异性语义特征的通道；最后通过原始图像特征与门特征向量交互，用于提升分类器发现特征中细微差异的灵敏度。

具体地，参见图1所示，本发明实施例提供的图像识别方法包括以下步骤：

步骤S110，对于多种类别图片中的每一类别，随机选取多张图片。

在一个实施例中，采取以下采样策略对每一个批量的数据进行采样。首先在数据库中随机选取N个类别，对于每一个类别随机选取类别中K张图片，即在每个批量中选取N×K张图片进行输入。这种考虑每批量中图像类别并按照设定策略选取输入图片的方式，相比于常规的随机选取方式，有利于保证同一个批量中数据的多样性。

步骤S120，将选择的图片输入到卷积神经网络进行特征提取。

在本发明中，利用卷积神经网络进行图像特征提取，卷积神经网络中不同深度可以得到具有不同语义的特征。具体地，将上述选择的图片输入卷积神经网络，通过网络最后的全局池化操作(Global Average Pooling，GAP)可以得到图像特征x，x∈R^D，其中D为特征的维度。例如，根据数据的复杂度和任务的特性，选择ResNet50网络或其它类型的卷积神经网络进行特征提取。

步骤S130，对于提取的每一图像特征，基于图像特征之间的相似程度选择图像特征对。

在一个实施例中，选择相似程度较大的图像特征组成图像特征对。例如，首先计算不同图像特征之间的欧式距离。对于每一个图像特征x₁，按照欧式距离计算其类内最近或类间最近的图像特征，记为x₂，组成2×N×K组图像特征对。在另外的实施例中，距离的度量形式也可替换为余弦距离等其他类型，并且类内和类间的距离度量可以替换成最远等。

在此步骤S130中，通过选择图像特征对，可以挑选出最为相似的图像对，从而能够提升图像识别难度，增加网络的鲁棒性。

步骤S140，从图像特征对中提取共有特征向量。

将上述图像特征通过共有特征向量学习得到其对应的共有特征向量x_m，x_m∈R^D。将共有特征向量学习过程记为f_m，则共有特征向量可表示为：

x_m＝f_m([x₁，x₂]) (1)

公式(1)代表的操作是将特征对x₁和x₂进行拼接，将拼接后的特征例如送入多层全连接层，参见图2所示，以两层全连接层为例，特征映射的维度由2048变为512，512变为2048。在另外的实施例中，f_m可以替换为双线性池化操作、点乘、点加等其他形式。

需说明的是，本发明对全连接层的数量以及特征映射的维度不作限制，本领域技术人员可根据训练精度、训练速度等要求进行设置。

步骤S150，基于共有特征向量计算图像特征对各特征对应的门特征向量。

将生成的共有特征向量与图像特征对中的向量分别进行点乘，并且用线性函数进行归一化。例如，非线性函数可采用sigmoid函数。最终生成门特征向量g_i，g_i∈R^D，表示为：

g_i＝sigmoid(x_m⊙x_i)，i∈{1，2} (2)

g_i中的每一个元素大小在0至1之间，数值大表示该通道中的语义特征对于特征x_i的分类有重要作用，具有高区分性。

在另外的实施例中，也可以选用tanh函数或其他的非线性函数进行归一化，本发明对此不作限制。

共有特征向量区别于常规操作，该向量的特征包含了图像对中对比性较强的特征，有利于后续作为一种上下文信息，指导发现图像中具有特异性的语义特征。

步骤S160，将图像特征对中各特征与门特征向量进行组合，获得自身图像特征与对应门特征向量的组合结果以及自身图像特征与其他门特征向量的组合结果。

将上述的原始图像特征(即图像特征对中的各特征)与门特征向量进行组合，得到四种表达形式的特征，参见图3所示，具体表示如下：

其中

代表自己的图像特征与对应的门特征向量点乘得到的结果，而

代表自己的图像特征与其他的门特征向量点乘得到的结果，其中

应该比

更具有区分性。

在此步骤中，通过注意力交互机制，可以丰富特征的多样性，增加图像特征的难度。

步骤S170，将组合结果输入到分类器进行优化，获得经训练的卷积神经网络和分类器。

将上述组合后的特征依次送入分类器中，可以得到对应的分类概率向量

其中C为类别数目，表示为：

其中，

是经过softmax函数归一化后的概率向量，W和b分别表示分类器的权重和偏置。在上述概率向量的基础上，通过引入对应的损失函数，通过损失函数引导整个网络(即包括用于进行特征提取的卷积神经网络和分类器)的优化过程。

在一个实施例中，优化过程首先采用交叉熵损失函数(Cross Entropy Loss)，表示为：

其中，y_i表示真实的分类标签，例如y_i采用独热编码向量表示，仅在真实标签的维度为1，其它维度为0。

进一步地，考虑到不同特征向量的优先性不同，对应的分类结果有所差异，可引入分数排序损失函数(score ranking loss)，具体表示为：

其中

表示概率向量

中第c_i类所对应的分数，∈表示阈值。该分数排序损失函数希望概率向量

在第c_i类上的分数能够比概率向量

在第c_i类上的分数大，数值上至少超过阈值∈。阈值∈可根据分类精度等因素设置，本发明对此不进行限制。

通过增加分数排序损失函数，将细微特征差异对分类结果的影响考虑进去，可以增加分类器对细微图像差异的敏感度，从而增加分类的鲁棒性。

通过上述训练过程可获得优化的卷积神经网络参数和分类器参数，即经训练的图像识别模型。在实际应用中，对于待分类图片，可将单张图片送入经训练的卷积神经网络，抽取出对应的图像特征x_*，将x_*送入到经训练的分类器，得到最终的分类结果。

相应地，本发明还提供一种基于注意力机制的图像识别***，用于实现上述方法的一个方面或多个方面。例如，参见图4所示，该***包括：数据输入模块，用于按照预先设定的数据选择策略挑选图片，每个批量中选择若干类(N)，从每类中选择若干张图片(K)；图像对选择模块，用于得到前述N×K个图像特征后，计算图像特征两两之间的欧式距离，挑选与其图像特征欧式距离最小的类内、类间的特征组成特征对，可获得2×N×K图像特征对；共有特征向量学习模块，其用于对每一对特征对，通过全连接层的映射，得到该图像对的共有特征；门特征向量生成模块，用于将共有特征与特征对中的特征进行单独点乘和归一化，分别得到两个门特征向量，每一个门特征向量能够表示图像中具有高区分性语义特征所在的通道；注意力交互模块，对于每一对图像特征，得到两个原始特征以及两个对应的门特征向量，将上述的图像特征与门特征向量进行最后，并且采用残差结构进行连接，最后得到四种特征表达形式；分类器模块，用于将上述得到的四种特征分别送入分类器中分类。各模块可采用逻辑电路或处理器实现。

本发明可以用于多种图像识别场景，例如移动终端的图像识别场景。参见图5所示，移动终端包括数据采集模块、算法处理模块和用户界面显示模块，具体过程包括：通过手机终端采集待预测的图片，并进行简单的图像预处理；然后将图像送入算法识别模块中，通过预先训练好的卷积神经网络模型进行特征抽取，然后将提取的特征送入到分类器识别模块得到预测结果。进一步地，可将识别结果返回到手机终端，在显示界面显示所采集的图像以及该图像的识别结果。

本发明旨在通过在训练过程中同时输入相似的图像对，发现细粒度图像中具有高区分性的语义特征，最终提高识别任务的性能。本发明尤其适用于现实生活中细粒度图像的识别或用于通过物体识别任务、人脸识别和行人再识别、生物类别识别等任务。例如细粒度图像包括鸟类、花、轿车、具有分类层级的生物类别等。参见图6所示，具体流程包括：收集对应的数据集，并划分出训练集合；选择合理的超参数和策略，包括但不限于基础网络、批量大小、学习率、共有向量生成模块等，在上述超参数给定的情况下，利用本发明方案提出的策略对网络进行优化；将给定待测试图片送入网络，得到测试图片对应的预测标签，给出对应图片类别的名称。

经验证，本发明提出的基于注意力交互机制的图像识别方法可以有效地提高识别准确率，在众多数据库上相比于其他现有方法，图像识别准确率可提高1至2个百分点，对于细粒度图像效果尤其明显。

需要说明的是，虽然上文按照特定顺序描述了各个步骤，但是并不意味着必须按照上述特定顺序来执行各个步骤，实际上，这些步骤中的一些可以并发执行，甚至改变顺序，只要能够实现所需要的功能即可。

本发明可以是***、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。