CN108364023A

CN108364023A - 基于注意力模型的图像识别方法和***

Info

Publication number: CN108364023A
Application number: CN201810139775.5A
Authority: CN
Inventors: 张志伟; 杨帆
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2018-02-11
Filing date: 2018-02-11
Publication date: 2018-08-03
Also published as: WO2019153908A1

Abstract

本发明提供一种基于注意力模型的图像识别方法和***，首先获取图像矩阵形状为[W，H，C]的输入特征图，其中，W为宽度，H为高度，C为通道数；然后使用预设的空间映射权重矩阵对输入特征图进行空间映射，并经过激活函数激活后得到空间权重矩阵，将所述空间权重矩阵与输入特征图的图像矩阵按位相乘得到输出特征图，其中，所述预设的空间映射权重矩阵为注意力在于图像宽度和高度的空间注意力矩阵[C，1]，此时空间权重矩阵的形状为[W，H，1]，或者所述预设的空间映射权重矩阵为注意力在于图像通道数的通道注意力矩阵[C，C]，此时空间权重矩阵的形状为[1，1，C]，可有效提高特征提取的针对性，从而强化对于图像局部特征的提取能力。

Description

基于注意力模型的图像识别方法和***

技术领域

本发明涉及图像处理技术领域，具体而言，本发明涉及一种基于注意力模型的图像识别方法和***。

背景技术

近年来，深度学习在视频图像处理、语音识别、自然语言处理等相关领域得到了广泛应用。但是在处理具体的图像分类任务或者语音识别任务时，会由于输入数据的多样性，使得模型只能捕捉到数据的全局信息，而忽视了数据的局部信息。以图像分类为例，一些传统的解决办法是将图像人为划分成多个区域，采用空间金字塔的形式捕捉数据的局部信息，虽然该方法可以一定程度上解决上述问题，但是由于是人为预先划定分割区域，所以其对不同数据的泛化能力较差。

发明内容

本发明的目的旨在至少能解决上述的技术缺陷之一，特别是容易忽略数据局部信息的技术缺陷。

本发明提供一种基于注意力模型的图像识别方法，包括如下步骤：

步骤S10：获取图像矩阵形状为[W，H，C]的输入特征图，其中，W为宽度，H为高度，C为通道数；

步骤S20：使用预设的空间映射权重矩阵对输入特征图进行空间映射，并经过激活函数激活后得到空间权重矩阵，将所述空间权重矩阵与输入特征图的图像矩阵按位相乘得到输出特征图，其中，所述预设的空间映射权重矩阵为注意力在于图像宽度和高度的空间注意力矩阵[C，1]，此时空间权重矩阵的形状为[W，H，1]，或者所述预设的空间映射权重矩阵为注意力在于图像通道数的通道注意力矩阵[C，C]，此时空间权重矩阵的形状为[1，1，C]。

在其中一个实施例中，所述预设的空间映射权重矩阵为空间注意力矩阵[C，1]时，在步骤S20中使用以下公式：

o_:,:,c＝i_:,:,c⊙sigmoid(i_:,:,c·w_s+b_s)

其中，⊙为按位乘，■为矩阵乘法，o_:,:,c为输出的特征图，i_:,:,c为输入的特征图，sigmoid为激活函数，w_s为空间映射权重，b_s为偏差。

在其中一个实施例中，所述预设的空间映射权重矩阵为通道注意力矩阵[C，C]时，在步骤S20中使用以下公式：

o_w,h,:＝i_w,h,:⊙sigmoid(mean(i_w,h,:)·w_c+b_c)

其中，⊙为按位乘，■为矩阵乘法，o_w,h,:为输出的特征图，i_w,h,:为输入的特征图，sigmoid为激活函数，mean为求平均值函数，w_c为空间映射权重，b_c为偏差。

在其中一个实施例中，步骤S20包括：

在卷积神经网络的浅层网络使用所述空间注意力矩阵[C，1]对输入特征图进行空间映射，并经过激活函数激活后得到第一空间权重矩阵，将所述第一空间权重矩阵与输入特征图的图像矩阵按位相乘得到第一输出特征图；

在卷积神经网络的深层网络使用所述通道注意力矩阵[C，1]对所述第一输出特征图进行空间映射，并经过激活函数激活后得到第二空间权重矩阵，将所述第二空间权重矩阵与所述第一输出特征图的图像矩阵按位相乘得到第二输出特征图。

在其中一个实施例中，还包括步骤S30：

根据所述输出特征图应用分类器进行图像分类。

本发明还提供一种基于注意力模型的图像识别***，包括：

图像获取模块，用于获取图像矩阵形状为[W，H，C]的输入特征图，其中，W为宽度，H为高度，C为通道数；

图像处理模块，用于使用预设的空间映射权重矩阵对输入特征图进行空间映射，并经过激活函数激活后得到空间权重矩阵，将所述空间权重矩阵与输入特征图的图像矩阵按位相乘得到输出特征图，其中，所述预设的空间映射权重矩阵为注意力在于图像宽度和高度的空间注意力矩阵[C，1]，此时空间权重矩阵的形状为[W，H，1]，或者所述预设的空间映射权重矩阵为注意力在于图像通道数的通道注意力矩阵[C，C]，此时空间权重矩阵的形状为[1，1，C]。

在其中一个实施例中，所述预设的空间映射权重矩阵为空间注意力矩阵[C，1]时，所述图像处理模块使用以下公式得到输出特征图：

o_:,:,c＝i_:,:,c⊙sigmoid(i_:,:,c·w_s+b_s)

在其中一个实施例中，所述预设的空间映射权重矩阵为通道注意力矩阵[C，C]时，所述图像处理模块使用以下公式得到输出特征图：

o_w,h,:＝i_w,h,:⊙sigmoid(mean(i_w,h,:)·w_c+b_c)

在其中一个实施例中，所述图像处理模块包括低级语义特征提取模块和高级语义特征提取模块；

所述低级语义特征提取模块用于：在卷积神经网络的浅层网络使用所述空间注意力矩阵[C，1]对输入特征图进行空间映射，并经过激活函数激活后得到第一空间权重矩阵，将所述第一空间权重矩阵与输入特征图的图像矩阵按位相乘得到第一输出特征图；

所述高级语义特征提取模块用于：在卷积神经网络的深层网络使用所述通道注意力矩阵[C，1]对所述第一输出特征图进行空间映射，并经过激活函数激活后得到第二空间权重矩阵，将所述第二空间权重矩阵与所述第一输出特征图的图像矩阵按位相乘得到第二输出特征图。

在其中一个实施例中，还包括分类模块，用于根据所述输出特征图应用分类器进行图像分类。

上述的基于注意力模型的图像识别方法和***，首先获取图像矩阵形状为[W，H，C]的输入特征图，其中，W为宽度，H为高度，C为通道数；然后使用预设的空间映射权重矩阵对输入特征图进行空间映射，并经过激活函数激活后得到空间权重矩阵，将所述空间权重矩阵与输入特征图的图像矩阵按位相乘得到输出特征图，其中，所述预设的空间映射权重矩阵为注意力在于图像宽度和高度的空间注意力矩阵[C，1]，此时空间权重矩阵的形状为[W，H，1]，或者所述预设的空间映射权重矩阵为注意力在于图像通道数的通道注意力矩阵[C，C]，此时空间权重矩阵的形状为[1，1，C]。通过上述的的空间注意力矩阵[C，1]或通道注意力矩阵[C，C]，可以使得在特征提取过程中注意力在于空间或通道，有效提高特征提取的针对性，从而强化对于图像局部特征的提取能力。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为一个实施例的基于注意力模型的图像识别方法流程示意图；

图2为一个实施例的基于空间注意力模型的特征提取过程示意图；

图3为一个实施例的基于通道注意力模型的特征提取过程示意图；

图4为另一个实施例的基于注意力模型的图像识别方法流程示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

实施例一

图1为一个实施例的基于注意力模型的图像识别方法流程示意图，一种基于注意力模型的图像识别方法，包括如下步骤：

步骤S10：获取图像矩阵形状为[W，H，C]的输入特征图，其中，W为宽度(图像的宽度，单位为像素)，H为高度(图像的高度，单位为像素)，C为通道数(图像的颜色通道数量)。这里的图像矩阵为三维矩阵，[W，H，C]的格式还可以写成W*H*C的格式，即宽度*高度*通道数。

步骤S20：使用预设的空间映射权重矩阵对输入特征图进行空间映射，并经过激活函数激活后得到空间权重矩阵，将空间权重矩阵与输入特征图的图像矩阵按位相乘得到输出特征图，其中，预设的空间映射权重矩阵为注意力在于图像宽度和高度的空间注意力矩阵[C，1]，此时空间权重矩阵的形状为[W，H，1]，或者预设的空间映射权重矩阵为注意力在于图像通道数的通道注意力矩阵[C，C]，此时空间权重矩阵的形状为[1，1，C]。

在本实施例中，预设的空间映射权重矩阵为空间注意力矩阵[C，1]时，在步骤S20中使用以下公式：

o_:,:,c＝i_:,:,c⊙sigmoid(i_:,:,c·w_s+b_s)

其中，⊙为按位乘，■为矩阵乘法，o_:,:,c为输出的特征图(图像矩阵)，i_:,:,c为输入的特征图(图像矩阵)，sigmoid为激活函数，w_s为空间映射权重，b_s为偏差。⊙是表示两个相同尺寸矩阵中相同位置的数据相乘以生成一个同一尺寸的矩阵。例如A和B为两个2*2的二维矩阵，最后生成2*2的二维矩阵K。A矩阵中的数据为Amn(A11，A12，A21，A22)，m为行数，n为列数；B矩阵中的数据为Bmn(B11，B12，B21，B22)，m为行数，n为列数；K矩阵中的数据为Kmn(K11，K12，K21，K22)，m为行数，n为列数；则Amn×Bmn＝Kmn，即A11×B11＝K11，A12×B12＝K12，A21×B21＝K21，A22×B22＝K22。

图2为一个实施例的基于空间注意力模型的特征提取过程示意图，i为输入特征图，w为空间权重矩阵，o为输出特征图。

在本实施例中，预设的空间映射权重矩阵为通道注意力矩阵[C，C]时，在步骤S20中使用以下公式：

o_w,h,:＝i_w,h,:⊙sigmoid(mean(i_w,h,:)·w_c+b_c)

其中，⊙为按位乘，■为矩阵乘法，o_w,h,:为输出的特征图(图像矩阵)，i_w,h,:为输入的特征图(图像矩阵)，sigmoid为激活函数，mean为求平均值函数，w_c为空间映射权重，b_c为偏差。

图3为一个实施例的基于通道注意力模型的特征提取过程示意图，左侧的“特征图1、特征图2、……特征图m”表示m个通道的输入特征图，右侧的“特征图1、特征图2、……特征图m”表示m个通道的输出特征图。

在上述本实施例中，还可以包括步骤S30：根据输出特征图应用分类器进行图像分类。

实施例二

图4为另一个实施例的基于注意力模型的图像识别方法流程示意图，一种基于注意力模型的图像识别方法，包括如下步骤：

步骤S21：获取图像矩阵形状为[W，H，C]的输入特征图，其中，W为宽度(图像的宽度，单位为像素)，H为高度(图像的高度，单位为像素)，C为通道数(图像的颜色通道数量)。这里的图像矩阵为三维矩阵，[W，H，C]的格式还可以写成W*H*C的格式，即宽度*高度*通道数。

步骤S22：在卷积神经网络的浅层网络使用空间注意力矩阵[C，1]对输入特征图进行空间映射，并经过激活函数激活后得到第一空间权重矩阵，将第一空间权重矩阵与输入特征图的图像矩阵按位相乘得到第一输出特征图。浅层网络用于提取图像的底层特征，所以在空间上较为敏感，使用空间注意力矩阵[C，1]提取特征的注意力模式比较合适。

在本实施例中，可以使用以下公式得到第一输出特征图：

o_:,:,c＝i_:,:,c⊙sigmoid(i_:,:,c·w_s+b_s)

其中，⊙为按位乘，■为矩阵乘法，o_:,:,c为输出的特征图(即第一输出特征图)，i_:,:,c为输入的特征图(即输入特征图)，sigmoid为激活函数，w_s为空间映射权重(即空间注意力矩阵[C，1])，b_s为偏差，sigmoid(i_:,:,c·w_s+b_s)为第一空间权重矩阵。图2为一个实施例的基于空间注意力模型的特征提取过程示意图，i为输入特征图，w为空间权重矩阵，o为输出特征图。

步骤S23：在卷积神经网络的深层网络使用通道注意力矩阵[C，1]对第一输出特征图进行空间映射，并经过激活函数激活后得到第二空间权重矩阵，将第二空间权重矩阵与第一输出特征图的图像矩阵按位相乘得到第二输出特征图。深层网络用于提取高级语义层级的特征，所以对通道的信息较为敏感。

在本实施例中，使用以下公式得到第二输出特征图：

o_w,h,:＝i_w,h,:⊙sigmoid(mean(i_w,h,:)·w_c+b_c)

其中，⊙为按位乘，■为矩阵乘法，o_w,h,:为输出的特征图(即第二输出特征图)，i_w,h,:为输入的特征图(即第一输出特征图)，sigmoid为激活函数，mean为求平均值函数，w_c为空间映射权重，b_c为偏差，sigmoid(mean(i_w,h,:)·w_c+b_c)为第二空间权重矩阵。图3为一个实施例的基于通道注意力模型的特征提取过程示意图，左侧的“特征图1、特征图2、……特征图m”表示m个通道的输入特征图，右侧的“特征图1、特征图2、……特征图m”表示m个通道的输出特征图。

在上述本实施例中，还可以包括步骤S24：根据第二输出特征图应用分类器进行图像分类。

实施例三

本发明还提供一种基于注意力模型的图像识别***，包括：

图像获取模块，用于获取图像矩阵形状为[W，H，C]的输入特征图，其中，W为宽度，H为高度，C为通道数。

图像处理模块，用于使用预设的空间映射权重矩阵对输入特征图进行空间映射，并经过激活函数激活后得到空间权重矩阵，将空间权重矩阵与输入特征图的图像矩阵按位相乘得到输出特征图，其中，预设的空间映射权重矩阵为注意力在于图像宽度和高度的空间注意力矩阵[C，1]，此时空间权重矩阵的形状为[W，H，1]，或者预设的空间映射权重矩阵为注意力在于图像通道数的通道注意力矩阵[C，C]，此时空间权重矩阵的形状为[1，1，C]。

在本实施例中，预设的空间映射权重矩阵为空间注意力矩阵[C，1]时，图像处理模块使用以下公式得到输出特征图：

o_:,:,c＝i_:,:,c⊙sigmoid(i_:,:,c·w_s+b_s)

在本实施例中，预设的空间映射权重矩阵为通道注意力矩阵[C，C]时，图像处理模块使用以下公式得到输出特征图：

o_w,h,:＝i_w,h,:⊙sigmoid(mean(i_w,h,:)·w_c+b_c)

在上述本实施例中，还可以包括分类模块，用于根据输出特征图应用分类器进行图像分类。

实施例四

本发明还提供一种基于注意力模型的图像识别***，包括：图像获取模块和图像处理模块。

图像获取模块用于获取图像矩阵形状为[W，H，C]的输入特征图，其中，W为宽度，H为高度，C为通道数。

图像处理模块包括低级语义特征提取模块和高级语义特征提取模块。

低级语义特征提取模块用于：在卷积神经网络的浅层网络使用空间注意力矩阵[C，1]对输入特征图进行空间映射，并经过激活函数激活后得到第一空间权重矩阵，将第一空间权重矩阵与输入特征图的图像矩阵按位相乘得到第一输出特征图。浅层网络用于提取图像的底层特征，所以在空间上较为敏感，使用空间注意力矩阵[C，1]提取特征的注意力模式比较合适。

在本实施例中，可以使用以下公式得到第一输出特征图：

o_:,:,c＝i_:,:,c⊙sigmoid(i_:,:,c·w_s+b_s)

其中，⊙为按位乘，■为矩阵乘法，o_:,:,c为输出的特征图(即第一输出特征图)，i_:,:,c为输入的特征图(即输入特征图)，sigmoid为激活函数，w_s为空间映射权重(即空间注意力矩阵[C，1])，b_s为偏差，sigmoid(i_:,:,c·w_s+b_s)为第一空间权重矩阵。

高级语义特征提取模块用于：在卷积神经网络的深层网络使用通道注意力矩阵[C，1]对第一输出特征图进行空间映射，并经过激活函数激活后得到第二空间权重矩阵，将第二空间权重矩阵与第一输出特征图的图像矩阵按位相乘得到第二输出特征图。深层网络用于提取高级语义层级的特征，所以对通道的信息较为敏感。

在本实施例中，使用以下公式得到第二输出特征图：

o_w,h,:＝i_w,h,:⊙sigmoid(mean(i_w,h,:)·w_c+b_c)

其中，⊙为按位乘，■为矩阵乘法，o_w,h,:为输出的特征图(即第二输出特征图)，i_w,h,:为输入的特征图(即第一输出特征图)，sigmoid为激活函数，mean为求平均值函数，w_c为空间映射权重，b_c为偏差，sigmoid(mean(i_w,h,:)·w_c+b_c)为第二空间权重矩阵。

在本实施例中，还包括分类模块，用于根据第二输出特征图应用分类器进行图像分类。

上述的基于注意力模型的图像识别方法和***，首先获取图像矩阵形状为[W，H，C]的输入特征图，其中，W为宽度，H为高度，C为通道数；然后使用预设的空间映射权重矩阵对输入特征图进行空间映射，并经过激活函数激活后得到空间权重矩阵，将空间权重矩阵与输入特征图的图像矩阵按位相乘得到输出特征图，其中，预设的空间映射权重矩阵为注意力在于图像宽度和高度的空间注意力矩阵[C，1]，此时空间权重矩阵的形状为[W，H，1]，或者预设的空间映射权重矩阵为注意力在于图像通道数的通道注意力矩阵[C，C]，此时空间权重矩阵的形状为[1，1，C]。通过上述的的空间注意力矩阵[C，1]或通道注意力矩阵[C，C]，可以使得在特征提取过程中注意力在于空间或通道，有效提高特征提取的针对性，从而强化对于图像局部特征的提取能力。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于注意力模型的图像识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于注意力模型的图像识别方法，其特征在于，所述预设的空间映射权重矩阵为空间注意力矩阵[C，1]时，在步骤S20中使用以下公式：

o_:,:,c＝i_:,:,c⊙sigmoid(i_:,:,c■w_s+b_s)

3.根据权利要求1所述的基于注意力模型的图像识别方法，其特征在于，所述预设的空间映射权重矩阵为通道注意力矩阵[C，C]时，在步骤S20中使用以下公式：

o_w,h,:＝i_w,h,:⊙sigmoid(mean(i_w,h,:)■w_c+b_c)

4.根据权利要求1所述的基于注意力模型的图像识别方法，其特征在于，步骤S20包括：

5.根据权利要求1所述的基于注意力模型的图像识别方法，其特征在于，还包括步骤S30：

根据所述输出特征图应用分类器进行图像分类。

6.一种基于注意力模型的图像识别***，其特征在于，包括：

7.根据权利要求6所述的基于注意力模型的图像识别***，其特征在于，所述预设的空间映射权重矩阵为空间注意力矩阵[C，1]时，所述图像处理模块使用以下公式得到输出特征图：

o_:,:,c＝i_:,:,c⊙sigmoid(i_:,:,c■w_s+b_s)

8.根据权利要求6所述的基于注意力模型的图像识别***，其特征在于，所述预设的空间映射权重矩阵为通道注意力矩阵[C，C]时，所述图像处理模块使用以下公式得到输出特征图：

o_w,h,:＝i_w,h,:⊙sigmoid(mean(i_w,h,:)■w_c+b_c)

9.根据权利要求6所述的基于注意力模型的图像识别***，其特征在于，所述图像处理模块包括低级语义特征提取模块和高级语义特征提取模块；

10.根据权利要求6所述的基于注意力模型的图像识别***，其特征在于，还包括分类模块，用于根据所述输出特征图应用分类器进行图像分类。