CN111242183A

CN111242183A - 基于注意力机制的图像识别分类方法及装置

Info

Publication number: CN111242183A
Application number: CN202010005582.8A
Authority: CN
Inventors: 张顺利; 林贝贝
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2020-01-03
Filing date: 2020-01-03
Publication date: 2020-06-05

Abstract

本发明提供了一种基于注意力机制的图像识别分类方法及装置。方法包括：基于卷积神经网络和注意力机制构建图像特征提取模型；采用所述图像特征提取模型提取目标图像的图像特征；根据所述图像特征对目标图像进行识别分类确定所述目标图像的类别。本发明能够提高提取目标图像的图像特征的准确性，进而能够图像分别识别的准确性和精度。

Description

基于注意力机制的图像识别分类方法及装置

技术领域

本发明涉及图像处理技术领域，具体涉及一种基于注意力机制的图像识别分类方法及装置。

背景技术

随着信息技术的发展，图像数据急剧增长，对图像处理的需求也大大增减。图像的识别分类主要是针对图像中特定特征进行提取，通过特定特征表征图像的信息，然后根据提取到的特定特征进行图形的识别分类。图像识别可以用于诸多领域，并且图像识别可以在各种复杂的条件下快速准确的提取物体的特征，具有广泛的应用前景。

一个典型的图像识别分类***主要包括两个部分，图像特征提取和基于提取的图像特征的识别分类。在进行图像特征建模时，首先，需要收集大量的图像样本数据，以此为基础构建图像识别数据库，通过图像识别数据库可以训练出一个适用于提取图像特征的模型。然后，基于图像特征提取模型的提取结果，利用相应的识别分类模型，就可以得到图像的识别分类的结果。

目前，图像特征提取模型多采用二维卷积模型，但是卷积网络中对图像特征的处理是等价，例如：识别图像中的动物时，我们更希望卷积网络能够“注意”动物本身，而不是等价的关注动物与背景。因此现有的图像特征提取均存在特征提取不准确的问题，进而导致图像识别分类准确性的降低。

发明内容

针对现有技术中的问题，本发明提供一种基于注意力机制的图像识别分类方法及装置，能够提高图像识别分类的准确性。

为实现上述目的，本发明提供以下技术方案：

一方面，本发明提供了一种基于注意力机制的图像识别分类方法，包括：

基于卷积神经网络和注意力机制构建图像特征提取模型；

采用所述图像特征提取模型提取目标图像的图像特征；

根据所述图像特征对目标图像进行识别分类确定所述目标图像的类别。

其中，所述基于卷积神经网络和注意力机制构建图像特征提取模型，包括：

基于样本训练集和样本训练集对应的标签，采用卷积神经网络进行训练得到卷积网络模型；

通过注意力机制确定所述卷积网络模型的权重并得到第二卷积网络模型；

基于样本训练集和样本训练集对应的标签，对所述第二卷积网络模型进行训练得到图像特征提取模型。

其中，所述基于样本训练集和样本训练集对应的标签，采用卷积神经网络进行训练得到卷积网络模型，包括：

对所述样本训练集进行预处理，生成大小为N₁*N₂*C的目标训练样本；

采用卷积神经网络中迭代优化的方式对所述目标训练样本和所述标签进行训练，得到卷积网络模型；

其中，N₁和N₂分别表示输入卷积神经网络的样本的高度和宽度，C表示输入样本是RGB三通道的图片。

其中，所述通过注意力机制确定所述卷积网络模型的权重并得到第二卷积网络模型，包括：

采用注意力机制确定所述卷积网络模型的权重，并所述权重与所述卷积网络模型相乘得到所述第二卷积网络模型。

另一方面，本发明还提供了一种基于注意力机制的图像识别分类装置，装置包括：

建模单元，用于基于卷积神经网络和注意力机制构建图像特征提取模型；

特征提取单元，用于采用所述图像特征提取模型提取目标图像的图像特征；

识别分类单元，用于根据所述图像特征对目标图像进行识别分类确定所述目标图像的类别。

其中，所述建模单元包括：

第一训练子单元，用于基于样本训练集和样本训练集对应的标签，采用卷积神经网络进行训练得到卷积网络模型；

拟合子单元，用于通过注意力机制确定所述卷积网络模型的权重并得到第二卷积网络模型；

第二训练子单元，用于基于样本训练集和样本训练集对应的标签，对所述第二卷积网络模型进行训练得到图像特征提取模型。

其中，所述第一训练子单元包括：

预处理模块，用于对所述样本训练集进行预处理，生成大小为N₁*N₂*C的目标训练样本；

卷积模块，用于采用卷积神经网络中迭代优化的方式对所述目标训练样本和所述标签进行训练，得到卷积网络模型；

其中，所述拟合子单元包括：

生成模块，用于采用注意力机制确定所述卷积网络模型的权重，并所述权重与所述卷积网络模型相乘得到所述第二卷积网络模型。

另一方面，本发明还提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线；其中，

处理器、通信接口和存储器通过通信总线完成相互间的通信；

处理器用于调用存储器中的逻辑指令，以执行上述基于注意力机制的图像识别分类方法。

另一方面，本发明还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述基于注意力机制的图像识别分类方法。

由上述技术方案可知，本发明所述的一种基于注意力机制的图像识别分类方法及装置，通过基于卷积神经网络和注意力机制构建图像特征提取模型；采用所述图像特征提取模型提取目标图像的图像特征，提高提取目标图像的图像特征的准确性，根据所述图像特征对目标图像进行识别分类确定所述目标图像的类别，进而能够图像分别识别的准确性和精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于注意力机制的图像识别分类方法的流程图；

图2是本发明实施例提供中通道域注意力的流程框架图；

图3是本发明实施例提供中通道域注意力和空间域注意力结合的流程框架图；

图4是本发明实施例提供的基于注意力机制的图像识别分类装置的结构示意图；

图5是本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明下述实施例提出了一种基于注意力机制的图像识别分类方法的实施例，参见图1，具体包括如下步骤：

S101：基于卷积神经网络和注意力机制构建图像特征提取模型；

在本步骤中，从cifar10数据集或cifar100数据集提取出样本训练集和测试集，基于样本训练集和样本训练集对应的标签，采用卷积神经网络进行训练得到卷积网络模型；

其中，卷积神经网络的输入大小被设置为N₁*N₂*C，在进行训练时，对所述样本训练集进行预处理，生成大小为N₁*N₂*C的目标训练样本；

其中，N₁和N₂分别表示输入卷积神经网络的样本的高度和宽度，C表示输入样本是RGB三通道的图片。在本实施例中，将目标训练样本统一缩放至112x122大小。

本实施例中通过迭代优化策略，利用样本及样本标签预训练卷积网络，使得训练后的卷积网络能从图像中提取出较好的特征。具体实施时，采用卷积神经网络中迭代优化的方式对所述目标训练样本和所述标签进行训练，得到卷积网络模型。

进一步的，通过注意力机制确定所述卷积网络模型的权重并得到第二卷积网络模型；

在具体实施时，采用注意力机制确定所述卷积网络模型的权重，并所述权重与所述卷积网络模型相乘得到所述第二卷积网络模型。

进一步的，对该第二卷积网络模型进行使用迭代优化策略，利用样本及样本标签预训练，使得训练后的基于注意力机制的积网络模型能从图像中提取出较好的特征，具体实施时，基于样本训练集和样本训练集对应的标签，对所述第二卷积网络模型进行训练得到图像特征提取模型。

S102：采用所述图像特征提取模型提取目标图像的图像特征；

在本步骤中，通过使用图像特征提取模型对目标图像进行特征提取，得到该目标图像对应的图像特征，以便基于该图像特征对该目标图像进行识别分类。

S103：根据所述图像特征对目标图像进行识别分类确定所述目标图像的类别。

在本步骤中，预存储有各个图像特征以及各个图像特征各自对应的分类。通过获取目标图像的图像特征，依据该图像特征进行识别，确定存储各个图像特征中的获取的目标图像的图像特征，依据存储的图像特征对应的分类确定目标图像的分类。

从上述描述可知，本发明实施例提供的一种基于注意力机制的图像识别分类方法，通过基于卷积神经网络和注意力机制构建图像特征提取模型；采用所述图像特征提取模型提取目标图像的图像特征，提高提取目标图像的图像特征的准确性，根据所述图像特征对目标图像进行识别分类确定所述目标图像的类别，进而能够图像分别识别的准确性和精度。

本发明实施例提供了上述实施例中采用注意力机制确定所述卷积网络模型的权重的一种实现方法，具体包括如下内容：

图像识别中多运用卷积神经网络提取图像特征，能够得到各个特征通道以及各个通道各自对应的图像特征，图像识别中往往绝大部分信息来自于其中一部分的特征通道，因此，聚合每个通道中的特征图以及根据特征通道生成自适应权重。

本实施例中采用了最大池化(MAX POOLING)和平均池化(AVG POOLING)两种空间域压缩方式。同时在两路分支中加入了“侧连接”实现了两种空间域信息的交互。参见图2所示的通道域注意力的流程框架图，联合利用两种方式压缩更有利于保存图像空间域的信息。

当空间域压缩完成后，通过对通道域进行压缩-激活非线性-恢复-映射成概率，就可以生成自适应的权重。其中，在两路分支完成压缩以及恢复操作后，会采用“侧连接”的操作进行信息的融合。“侧连接”的引入能够更加充分的压缩特征通道的信息。区别于传统的单路压缩以及多路共享权重的方式，本实例提出的多路并行且保持信息交互的方式，更加合理且有效。

最后，为了使得网络能够有效的增强输入，需要使用sigmoid函数进行映射成概率的转换。

具体地，使用最大池化(MAX POOLING)和平均池化(AVG POOLING)两种空间域压缩方式将(N,C,H,W)压缩到(N,C,1,1)，紧接着将最大池化(MAX POOLING)压缩产生的信息累加入平均池化(AVG POOLING)压缩产生的信息。接着使用1×1卷积将特征(N,C,H,W)投影到缩减尺寸(N,C/r,H,W)，以在整个通道维度上对特征图进行积分和压缩。通过激活非线性使得网络能够拟合曲线，最后再使用1×1卷积将特征(N,C/r,H,W)投影到尺寸(N,C,H,W)，再次进行两路分支的融合。至此通道域的注意力模块提取了自适应权重。

其中，N表示输入网络的样本数量，C表示网络中的特征通道数量，H(N₁)和W(N₂)表示图片的高和宽，则神经网络的输入X的尺寸为(N,C,H,W)。

其中，X_c表示通道域注意力模块的输出，M_c(x)为表示通过通道域注意力机制生成的自适应权重。通过加强通道域中的有效区域可以获得更加鲁棒的特征。

图像识别中除了通道域需要自适应权重之外，图像的特征图即空间域同样需要自适应权重。空间域注意力分支产生空间关注图以强调或抑制不同空间位置中的特征。从引起图像识别效果的根源出发确定研究空间域注意力机制。在本实施例中，通过获取特征图的全局信息以及根据特征图生成自适应权重。

对于获取特征图的全局信息，采用空洞卷积来实现，使用空洞卷积即节省了参数的数量又节省了计算开销。在进行空洞卷积过程中，利用不同尺度的空洞率，来解决空洞卷积中信息丢失的问题。同时因为不同尺度的空洞率对于图像识别的效果起到的效果不同，所以对于不同尺度的空洞率需要进行二次选择。参见图3所示的通道域注意力和空间域注意力结合的流程框架图，在生成了通道域自适应权重之后，我们在此基础上进一步的生成空间域的自适应权重，计算公式如下：

其中，X_s表示空间域注意力模块的输出，M_s(X_c)表示通过空间域注意力机制生成的自适应权重。通过加强空间域中的有效区域可以获得更加鲁棒的特征，softmax为逻辑回归。

本发明实施例提供了一种基于注意力机制的图像识别分类装置，参见图4，具体包括：

建模单元10，用于基于卷积神经网络和注意力机制构建图像特征提取模型；

特征提取单元20，用于采用所述图像特征提取模型提取目标图像的图像特征；

识别分类单元30，用于根据所述图像特征对目标图像进行识别分类确定所述目标图像的类别。

其中，所述建模单元10包括：

其中，所述第一训练子单元包括：

其中，所述拟合子单元包括：

装置中各模块所实现的功能与方法实施例中相应的操作步骤对应，这里不再赘述。

由上述技术方案可知，本发明所述的一种基于注意力机制的图像识别分类装置，通过基于卷积神经网络和注意力机制构建图像特征提取模型；采用所述图像特征提取模型提取目标图像的图像特征，提高提取目标图像的图像特征的准确性，根据所述图像特征对目标图像进行识别分类确定所述目标图像的类别，进而能够图像分别识别的准确性和精度。

本发明实施例提供了一种电子设备，参见图5，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行如下方法：基于卷积神经网络和注意力机制构建图像特征提取模型；采用所述图像特征提取模型提取目标图像的图像特征；根据所述图像特征对目标图像进行识别分类确定所述目标图像的类别。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例所提供的方法，例如包括：基于卷积神经网络和注意力机制构建图像特征提取模型；采用所述图像特征提取模型提取目标图像的图像特征；根据所述图像特征对目标图像进行识别分类确定所述目标图像的类别。

本领域内的技术人员应明白，本申请的实施例可提供为方法、装置、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、装置、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置/***。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

本发明的说明书中，说明了大量具体细节。然而能够理解的是，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。类似地，应当理解，为了精简本发明公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释呈反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。本发明并不局限于任何单一的方面，也不局限于任何单一的实施例，也不局限于这些方面和/或实施例的任意组合和/或置换。而且，可以单独使用本发明的每个方面和/或实施例或者与一个或更多其他方面和/或其实施例结合使用。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种基于注意力机制的图像识别分类方法，其特征在于，包括：

基于卷积神经网络和注意力机制构建图像特征提取模型；

采用所述图像特征提取模型提取目标图像的图像特征；

2.根据权利要求1所述的基于注意力机制的图像识别分类方法，其特征在于，所述基于卷积神经网络和注意力机制构建图像特征提取模型，包括：

3.根据权利要求2所述的基于注意力机制的图像识别分类方法，其特征在于，所述基于样本训练集和样本训练集对应的标签，采用卷积神经网络进行训练得到卷积网络模型，包括：

4.根据权利要求2所述的基于注意力机制的图像识别分类方法，其特征在于，所述通过注意力机制确定所述卷积网络模型的权重并得到第二卷积网络模型，包括：

5.一种基于注意力机制的图像识别分类装置，其特征在于，包括：

6.根据权利要求5所述的基于注意力机制的图像识别分类装置，其特征在于，所述建模单元包括：

7.根据权利要求6所述的基于注意力机制的图像识别分类装置，其特征在于，所述第一训练子单元包括：

8.根据权利要求6所述的基于注意力机制的图像识别分类装置，其特征在于，所述拟合子单元包括：

9.一种电子设备，其特征在于，包括：处理器、存储器、通信接口和通信总线；其中，

处理器用于调用存储器中的逻辑指令，以执行权利要求1-4任一项所述的基于注意力机制的图像识别分类方法。

10.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行权利要求1-5任一项所述的基于注意力机制的图像识别分类方法。