CN114419361A

CN114419361A - 基于门控局部通道注意力的神经网络图像分类方法

Info

Publication number: CN114419361A
Application number: CN202111550197.2A
Authority: CN
Inventors: 王旗龙; 庄旭; 胡清华
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-12-17
Filing date: 2021-12-17
Publication date: 2022-04-29

Abstract

本发明涉及神经网络、图像检测技术领域，为提升神经网络在图像分类和目标检测任务上的性能，本发明，基于门控局部通道注意力的神经网络图像分类方法，步骤如下：利用前置深层卷积网络获取输入图像的特征图；使用聚合模块进行处理所述特征图；使用激发模块处理所述特征向量，激发模块包括n+1个分支的分支结构，生成重加权后的特征图；重加权后的特征图作为后置深层卷积网络的输入，继续进行卷积提取特征的操作，完成图像分类和目标检测任务。本发明主要应用于图像识别分类场合。

Description

基于门控局部通道注意力的神经网络图像分类方法

技术领域

本发明涉及神经网络、图像检测技术领域，具体涉及基于门控局部通道注意力的神经网络图像分类方法。

背景技术

深度卷积网络已经广泛应用于图像检测领域，其最大的优点及作用是可以将作为输入的图像进行有效的特征提取，并用于一系列计算机视觉领域的任务中，例如图像分类，目标检测等。模型在这些任务中的表现是和所用深度卷积神经网络的特征表达能力有关的。人们为了提高深度卷积神经网络的表达能力进行了许多尝试，例如增加网络深度及宽度，但这种方式会导致网络的参数量增加而提高网络过拟合的可能性。为了能在不引入过多额外参数的基础上提高网络的表达能力，人们提出了在深度卷积神经网络中***注意力模块，其主要功能是从特征图中获取空间维度或通道维度上的信息，并生成带有注意力信息的权重矩阵，将其与原特征图进行逐点相乘，完成对原特征图的重加权。

在通道维度上的重加权是由通道注意力模块来完成的，其中比较有代表性的有SE模块 (Sequeeze-and-Excitation模块，即聚合激发模块)，ECA模块(Efficient ChannelAttention模块，即高性能通道注意力模块)等。以SE模块为例，通过聚合和激发操作来学习通道之间的相关性，并生成在通道维度的权重向量对特征图进行重加权。SE模块作为轻量级模块，可以嵌入到现有的已经被证明效果优秀的深层卷积网络，在引入较少参数的同时，有效提高骨干网络在下游任务如目标检测，图像分类等任务中的性能。

值得强调的是，在SE模块中采用的是用全连接层获取全局通道特征相关性的方式。而在最近的工作ECANet中，提出了一种新的思想，即使用1D卷积层(即一维卷积层，与传统的应用于三维特征图上的二维卷积层不同，一维卷积应用于一维向量)来获取局部的通道相关性，与SE模块相比，ECA模块引入的参数量更少，并且在实验中也证明了这种获取局部通道相关性的方法在图像分类以及目标检测的任务中也足够有效。

然而对于ECA模块而言，其使用1D卷积来获取相邻通道的相关性，但是尚未解决的问题是如何选择1D卷积核的大小，在计算机视觉任务中，往往会使用较为深层的深度卷积神经网络，并将多个ECA模块***到网络的各个位置，而每一个ECA模块输入的特征图的通道数不都是相同的，而手动调节每个ECA模块的1D卷积核大小会额外带来巨大的工作量。

在近些年的计算机视觉领域，人们经常使用架构搜索来解决这类对大量离散的超参数进行调节的问题。大致的解决方案为构建一个包含多个网络或结构分支的超网络，对整个超网络同时进行训练，并通过某些算法选取其中部分网络或结构的输出，来选取最佳的网络或结构。

发明内容

为克服现有技术的不足，本发明旨在提出神经网络图像分类新方法，提升神经网络在图像分类和目标检测任务上的性能。为此，本发明采取的技术方案是，基于门控局部通道注意力的神经网络图像分类方法，步骤如下：

利用前置深层卷积网络获取输入图像的特征图；

使用聚合模块进行处理所述特征图，聚合模块含有一个平均池化层，将输入的特征图在空间维度上进行全局平均池化，得到一个包含通道全局信息的特征向量；

使用激发模块处理所述特征向量，激发模块包括n+1个分支的分支结构，其中的n个分支用来聚合局部通道相关性来生成通道注意力权重，每个分支都包含一个一维1D卷积层和一个S型Sigmoid激活函数，使用k_i来代表其中第i个分支所用的1D卷积核大小，这里使用不同大小的1D卷积核是为了聚集不同尺度的通道相关性信息，另一个分支用来实现门控结构，该分支包含一个全连接层和一个归一化指数函数Softmax激活层，用来根据全局的通道信息来决定另n个分支输出的重要程度，生成重加权后的特征图；

重加权后的特征图作为后置深层卷积网络的输入，继续进行卷积提取特征的操作，完成图像分类和目标检测任务。

详细步骤如下：

输入的特征图在经平均池化层处理，生成维度和输入特征图通道数相同的特征向量；

将特征向量作为输入，同时在n+1个分支中进行处理；

其中n个分支负责根据聚合模块输出的特征向量生成局部通道相关性注意力权重，具体的做法是利用1D卷积核对特征向量进行处理，并利用Sigmoid激活函数将输出压缩至0-1的范围内，作为该分支生成的通道注意力权重；

利用实现门控结构的分支对其他n个分支进行选择，具体的做法是利用全连接层对聚合模块输出的特征向量进行处理，生成一个维度为n的特征向量，该特征向量的每一个元素的值代表其对应的分支的重要程度，网络选取其中最大的K个值，将特征向量其他n-K个值设置为负无穷，再利用Softmax激活函数对处理后的特征向量进行处理，生成一个维度为n的特征向量作为n个分支的权重向量，其中较为不重要的n-K个分支所对应的权重为0，而较重要的K 个分支对应的权重加和为1；

利用该维度为n的权重向量对n个分支的输出进行加权求和，得到根据特征图局部通道相关性生成的通道权重向量；

维度和输入特征图通道数相同的特征向量和模块前置深度卷积网络卷积层所输出的特征图进行逐通道点积，相当于对深度卷积神经网络在通道维度上进行重加权，得到与模块前置的深度卷积网络卷积层所输出的特征图尺寸相同的特征图，作为聚合和激发步骤训练阶段的输出。

本发明的特点及有益效果是：

本发明提出的一种用于图像分类和目标检测任务的基于门控局部通道注意力的神经网络方法，利用所构建的一种门控局部通道注意力模块，提高了现有通道注意力模块的性能，降低了对手动调节超参数的需求，并在此基础上提升了使用该模块的深度卷积神经网络在图像分类和目标检测任务上的性能。

附图说明：

图1为本发明所述模块中的聚合模块的结构；

图2为本发明所述模块中的激发模块的结构；

图3为本发明所述模块在ResNet18网络中的实际使用示意图。

具体实施方式

本发明提出了一种用于图像分类和目标检测任务的基于门控局部通道注意力的神经网络方法，构建了一种门控局部通道注意力模块，提高了现有通道注意力模块的性能，降低了对手动调节超参数的需求，并在此基础上提升了使用该模块的深度卷积神经网络在图像分类和目标检测任务上的性能。

本发明所述的用于图像分类和目标检测任务的基于门控局部通道注意力的神经网络方法核心在于将门控局部通道注意力模块***到深度卷积神经网络的特定位置，该模块包含两个子模块，分别是聚合模块和激发模块，在实际使用中，还会涉及到模块前置的深层卷积网络及模块后置的深层卷积网络。

聚合模块如图1所示，含有一个平均池化层。聚合模块的输入为模块前置的深度卷积神经网络卷积层所输出的特征图，输出则为包含特征图通道信息的特征向量。作为输入的特征图在空间维度上进行全局平均池化，得到一个包含通道全局信息的特征向量。

激发模块的结构如图2所示，其主要组成部分为一个包括n+1个分支的分支结构，其中的n个分支用来聚合局部通道相关性来生成通道注意力权重。每个分支都包含一个1D卷积层和一个Sigmoid激活函数，使用k_i来代表其中第i个分支所用的1D卷积核大小，这里使用不同大小的1D卷积核是为了聚集不同尺度的通道相关性信息。另一个分支用来实现门控结构，该分支包含一个全连接层和一个Softmax激活层，用来根据全局的通道信息来决定另n个分支输出的重要程度。

输入特征图在本发明所提出的门控结构的局部通道注意力模块中的操作的具体流程如下：

1.输入的特征图在聚合模块中经全局平均池化层处理，生成维度和输入特征图通道数相同的特征向量。

2.将聚合模块输出的特征向量作为输入，同时在n+1个分支中进行处理。

3.其中n个分支负责根据聚合模块输出的特征向量生成局部通道相关性注意力权重，具体的做法是利用1D卷积核对特征向量进行处理，并利用Sigmoid激活函数将输出压缩至0-1 的范围内。作为该分支生成的通道注意力权重。

4.利用实现门控结构的分支对其他n个分支进行选择，具体的做法是利用全连接层对聚合模块输出的特征向量进行处理，生成一个维度为n的特征向量，该特征向量的每一个元素的值代表其对应的分支的重要程度。网络选取其中最大的K个值，将特征向量其他n-K个值设置为负无穷，再利用Softmax激活函数对处理后的特征向量进行处理，生成一个维度为n的特征向量作为n个分支的权重向量，其中较为不重要的n-K个分支所对应的权重为0，而较重要的K个分支对应的权重加和为1。

5.利用该维度为n的权重向量对n个分支的输出进行加权求和，得到该模块所根据特征图局部通道相关性生成的通道权重向量。

6.将该特征向量和模块前置的深度卷积网络卷积层所输出的特征图进行逐通道点积，相当于对深度卷积神经网络在通道维度上进行重加权，得到与模块前置的深度卷积网络卷积层所输出的特征图尺寸相同的特征图，作为本发明所述的局部通道注意力模块在训练阶段的输出。

这样的设置即可以保证该模块可以获取多个尺度的局部通道相关性来生成通道注意力权重，同时只考虑其中最重要的k个分支可以保证其计算资源消耗控制在一定范围内。

在本发明所述的基于门控局部通道注意力的神经网络方法的使用过程中，门控局部注意力模块输出的重加权后的特征图还会作为模块后置的深层卷积网络的输入，继续进行卷积提取特征的操作，最终利用带有局部通道注意力模块的深度卷积神经网络所输出的特征图进行图像分类和目标检测任务。

本发明所述的模块可以应用于多种骨干网络，所以对于所述的模块前置的深层卷积网络及模块后置的深层卷积网络不进行特定说明。现假设，模块前置的深层卷积网络所输出的特征图为X∈R^W×H×C，W和H为特征图的宽和高，C为特征图的通道数。

在聚合模块中，特征图X作为输入，经过平均池化层处理，对空间维度进行全局平均池化，得到特征向量s∈R^C。

在激发模块中，输入为特征向量s及特征图X，其中特征向量s作为n个分支的共同输入。

在负责生成通道注意力权重的n个分支中，在每个分支i上，都使用步长为1，填充为k_i/2，卷积核大小为k_i的1D卷积层处理，得到结合了局部通道特征的特征向量

再使用激活层的Sigmoid激活函数进行激活操作得到ω′_i＝σ(ω_i)，作为该分支生成的通道注意力权重向量。

在负责门控结构的分支中，使用全连接层对特征向量s进行处理，得到维度为n的向量 α＝(α₁，α₂，…，α_n)，对α使用TopK函数操作，取其中最大的K个参数保持不变，其余参数值化为负无穷，得到向量α′＝(α₁，-inf，α₃…-inf，α_n)，此处的K是手动设置的超参数，再使用Softmax函数将α′转化为对应n个分支的权重向量β＝Softmax(α′)＝(β₁，β₂，…，β_n)。

利用权重向量β对ω′_i进行加权求和，得到

作为该模块产生的通道注意力权重，最后使用该权重向量对特征图X进行重加权，得到

作为该激发模块在测试阶段的输出。

下面将结合附图对本发明所述的用于图像分类和目标检测任务的基于门控局部通道注意力的神经网络方法在图像分类中的应用进行更详细的描述。

在本次实例中采用数据集ImageNet(一个在图像分类任务上常用的大型数据集)，用于图像分类任务。在ImageNet数据集上训练网络模型时，本发明采用了与ResNet(残差卷积网络) 相同的数据增广方式，包括随机裁剪，随机水平翻转和缩放。

在本次实例中作为骨干网络的深度卷积网络为ResNet-18，将本发明所述基于多分支结构的不确定性局部通道注意力模块***ResNet-18的残差单元中，得到网络结构。对于每个通道注意力模块，模块前置的部分深度卷积网络可以抽象为此模块的“模块前置的深层卷积网络”，同理该模块后置的部分深度卷积网络可以抽象为“模块后置的深层卷积网络”，而无需讨论该部分中的具体结构，也就是说本发明所述的通道注意力模块可以应用于任何常见的深度卷积网络中。

在本实例中，模型的输入为需要进行图像分类或者目标检测的图片，模块前置的深度卷积网络负责特征提取，生成X∈R^W×H×C，本实例所使用ResNet-18共***了四种通道注意力模块，分别对应ResNet-18的四种基础卷积块，四种模块的输入特征图尺寸分别为：

在四种对应不同尺寸特征图输入模块中，使用的基于门控结构的通道注意力模块设置分支数n＝4，对应的卷积核大小为k_{1，2，3，4}＝3，5，7，9。门控结构所选取的超参数K＝1。

通道注意力模块对于输入特征图的X重加权后生成的特征图

拥有与X相同的尺寸，但是具有更强的语义特征，因此可以代替X继续参与模块后置的深层卷积网络的特征提取。

最终，取带有基于多分支结构的不确定性局部通道注意力模块的ResNet-18网络最后一个通道注意力模块的输出特征图X(

W₄＝7，H₄＝7，C₄＝512)作为该深度卷积网络的输出。

在图像分类任务中，本实例使用Softmax分类器来从特征图X中获取分类结果。

在图像分类任务的训练阶段中，本实例使用ImageNet-1K数据集中的训练集，对带有基于门控结构的局部通道注意力模块的ResNet-18网络进行训练。在训练中使用随机梯度下降算法(SGD)优化网络模型参数，设定的权重衰减参数为1e-4，动量参数为0.9，训练数据批次大小为256，初始学习率为0.1，且每训练30轮迭代学习率减小为原来的1/10，模型训练迭代轮次为100次。

虽然在本文中参照了特定的实施方式来描述本发明，但是应该理解的是，这些实施例仅是本发明的原理和应用的示例。因此应该理解的是，可以对示例性的实施例进行许多修改，并且可以设计出其他的布置，只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是，可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是，结合单独实施例所描述的特征可以使用在其他所述实施例中。

Claims

1.一种基于门控局部通道注意力的神经网络图像分类方法，其特征是，步骤如下：

利用前置深层卷积网络获取输入图像的特征图；

2.如权利要求1所述的基于门控局部通道注意力的神经网络图像分类方法，其特征是，详细步骤如下：

将特征向量作为输入，同时在n+1个分支中进行处理；

利用实现门控结构的分支对其他n个分支进行选择，具体的做法是利用全连接层对聚合模块输出的特征向量进行处理，生成一个维度为n的特征向量，该特征向量的每一个元素的值代表其对应的分支的重要程度，网络选取其中最大的K个值，将特征向量其他n-K个值设置为负无穷，再利用Softmax激活函数对处理后的特征向量进行处理，生成一个维度为n的特征向量作为n个分支的权重向量，其中较为不重要的n-K个分支所对应的权重为0，而较重要的K个分支对应的权重加和为1；