CN109871777B

CN109871777B - 一种基于注意力机制的行为识别***

Info

Publication number: CN109871777B
Application number: CN201910064529.2A
Authority: CN
Inventors: 招继恩; 朱勇杰; 王国良; 张海; 谭大伦; 周明
Original assignee: Development Research Institute Of Guangzhou Smart City; Sun Yat Sen University
Current assignee: Development Research Institute Of Guangzhou Smart City; Sun Yat Sen University
Priority date: 2019-01-23
Filing date: 2019-01-23
Publication date: 2021-10-01
Anticipated expiration: 2039-01-23
Also published as: CN109871777A

Abstract

本发明公开了一种基于注意力机制的行为识别***，由输入、中间Block、输出构成；所述***整个网络结构基于Inception V3,选择在其中一个Block加入提出的两个Attention Module；其中使用Channel Attention模块来提取通道间依赖，通过使用Spatial Attention来获取空间的依赖。本发明为了克服错误标签和背景信息的影响。使用残差学习将通道注意力和空间注意力结合起来。并使用自我注意作为网络的一部分来获取更长期的时间信息。在模型中，利用了空间和通道的注意力，并且在模块设计中只使用二维通道的注意力。

Description

一种基于注意力机制的行为识别***

技术领域

本发明涉及行为识别，具体涉及一种基于注意力机制的行为识别***。

背景技术

目前，由于Convolutional Neural Network(CNN)已经在图像分类方面取得了巨大成功，因此学界已经提出了许多基于CNN的方法来推动动作识别的性能。这些神经网络可以分为两种类型，2D卷积网络(通常使用一个RGB帧或多个流帧作为输入)和3D卷积网络(使用多个帧作为输入并同时整合空间和时间信息)。由于缺乏时间信息，一些基于2D的CNN使用并行结构来处理多RGB帧并在最后一层融合以获得时间信息。

通过堆叠一系列卷积层，CNN能够捕获远程依赖性信息。特殊层中的每个学习过滤器在本地感知域中操作，因此变换输出的每个单元不能利用该区域之外的全局信息。在网络的较低层中问题变得更加严重。但人类动作识别通常需要对整个身体和周围场景进行连贯的理解。发现远程依赖性是视频动作识别的核心。除了这个问题，视频在帧内和帧间有许多与人类行为的无关信息。

事实证明，注意力机制是帮助网络关注重要部分并减少背景响应的有效方法。在认知理论里，人们依次关注场景的不同部分来提取相关信息。注意力机制已被证明在如图像标题生成，机器翻译，图像识别等领域有较好的效果。其中大多数方法都是基于循环神经网络。SENet设计了类似与注意力的权重分布模块，可以在卷积神经网络中使用，并通过使用注意机制而不考虑空间来关注信道注意和重新加权信道权重。

我们的目标是通过使用注意机制来提高网络的表达能力：捕获远程依赖关系并关注特征中的重要部分。此外，从头开始训练3D CNN需要大型标记数据集，如Kinetics，然后在目标数据集上进行微调。我们提出了一种新的微调策略来提高性能。

现有的技术方案一为深度残差网络ResNet,深度残差学习是为了学习恒等映射而设计的。该方法是一种有效的防止过拟合和增加前向神经元网络深度的方法。最近的研究表明，可以通过显式地嵌入学习机制来改善网络的性能，这些学习机制有助于捕获空间相关性，而不需要额外的监督。这种方法在先启体系结构中得到了推广，它表明网络可以通过在模块中嵌入多尺度过程来实现具有竞争力的精度。

现有的技术方案二为Attention Network，人类的感知并不倾向于一次处理整个场景，而是有选择地将注意力集中在视觉空间的某些部分，以便在需要的时候和地方获取信息。注意机制的硬注意和软注意是两种典型的注意机制。最近工作中开发的软注意力可以端到端的训练卷积神经网络。Self-attention在机器翻译中得到了广泛的应用，它绘制了输入和输出之间的全局依赖关系。

现有技术方案一中没有考虑注意力机制，对不同的通道没有进行权重再分配，使得很容易受到背景信息和错误标签的影响。尤其是由于人为原因，在数据打标签的过程中产生了错误，神经网络仍然会当作正确的数据进行拟合。

现有技术方案二中，没有综合考虑两个不同的方面：通道之间和空间位置之间的信息，每一个通道代表一类特别的视觉关注类型，而通道内的每一个部分也应该赋予不同的权重。现有的方法把它们当作一样进行处理。

发明内容

本发明针对上述问题，提供了一种基于注意力机制的行为识别***。

本发明采用的技术方案是：一种基于注意力机制的行为识别***，由输入、中间Block、输出构成；

输入端为RGB图像,其中的Attention Module能任意嵌入在其中一个Block；注意力模块主要分为通道间注意力模块Channel Attention和空间注意力模块；SpatialAttention；视频中的一帧图像输入后，经过前馈运算后，卷积神经网络输出对应行为的类别；

所述***整个网络结构基于Inception V3,选择在其中一个Block加入两个注意力模块Attention Module；其中使用Channel Attention模块提取通道间依赖，通过使用Spatial Attention获取空间的依赖；整体***通过输入的视频数据切分为图像数据后进行行为识别。

进一步地，所述***对于Channel Attention，为了使模型能够完全捕获通道依赖性，首先通过在每个信道上使用全局最大池操作来聚合空间信息，然后将这些特征输入到非线性的两个完全连接层，用来产生通道系数；在输出部分，每个通道都乘以相应系数；由于降采样的存在，这部分的计算开销基本可以忽略不计。

更进一步地，所述***根据通道间注意力模块的设计，一个自然的想法是关注信息部分或无关信息，与通道间注意力分支对称；空间注意模块的设计有两种方式；第一种形式是计算2D描述符，该描述符对通道上每个像素的信道信息进行编码，命名为第一空间注意力模块；使用通道最大池化和通道平均池化，生成两个2D特征图

和

然后在它们之间进行逐元素加法并通过标准卷积层进行卷积以产生2D空间注意力图，在最后添加sigmoid激活函数；

具体公式表达如下所示：

其中F为输入特征，c表示通道数，δ为表示Relu函数，σ表示Sigmoid激活函数；W₀以及W₁分别表示两个全连接层对应的参数；

在第二种形式中，对于每个通道，将每个通道划分为N×N的网格，N选择为3或4；首先对每个网格执行最大池化，然后使用2层MLP和一个softmax激活函数来产生这些网格的系数；记为第二空间注意力模块；在设计完这些模块之后，神经网络，对数据集进行采样，数据增强并进行训练，测试时在测试集进行验证。

本发明的优点：

本发明中，为了克服错误标签和背景信息的影响。使用残差学习将通道注意力和空间注意力结合起来。并使用自我注意作为网络的一部分来获取更长期的时间信息。在模型中，利用了空间和通道的注意力，并且在模块设计中只使用二维通道的注意力。

本发明中提出的注意力机制可以很好的解决视频中存在大量冗余背景信息和与行为无关的信息这两方面的问题，通过可学习的重点特征优选和权重重分配，重点关注的是通道间和空间内的重要局部信息，对分类效果由很好的提升，此外由于注意力机制的引入，整个***收敛的更快，训练的时间更少，且相比其它的Block,由于全局池化的作用，引入的可学习参数很少，降低了整个***的开销。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明的整个网络的结构流程图；

图2是本发明的Channel Attention模块流程图；

图3是本发明的Spatial Attention Module I的流程图；

图4是本发明的Spatial Attention Module II的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参考图1至图4，如图1至图4所示，一种基于注意力机制的行为识别***，由输入、中间Block、输出构成；

参考图1,如图1所示，为整个行为识别***的结构图，为一个完整的端到端的卷积神经网络，由输入、中间Block、输出构成。其中输入端为RGB图像，conv为卷积操作，pool为池化操作，其中的Attention Module可以任意嵌入在其中一个block。注意力模块主要分为通道间注意力模块(Channel Attention)和空间注意力模块(Spatial Attention)。视频中的一帧图像输入后，经过前馈运算后，卷积神经网络输出对应行为的类别。

所述***对于Channel Attention，为了使模型能够完全捕获通道依赖性，首先通过在每个信道上使用全局最大池操作来聚合空间信息，然后将这些特征输入到非线性的两个完全连接层，用来产生通道系数；在输出部分，每个通道都乘以相应系数；由于降采样的存在，这部分的计算开销基本可以忽略不计。

所述***根据通道间注意力模块的设计，一个自然的想法是关注信息部分或无关信息，与通道间注意力分支对称；空间注意模块的设计有两种方式；第一种形式是计算2D描述符，该描述符对通道上每个像素的信道信息进行编码，命名为第一空间注意力模块；使用通道最大池化和通道平均池化，生成两个2D特征图

和

具体公式表达如下所示：

整个网络的结构图如图1所示。整个网络结构基于Inception V3,选择在其中一个Block加入提出的两个Attention Module。其中使用Channel Attention模块来提取通道间依赖，通过使用Spatial Attention来获取空间的依赖。

如图2所示,对于Channel Attention，为了使模型能够完全捕获通道依赖性。我们首先通过在每个信道上使用全局最大池操作来聚合空间信息。然后将这些特征输入到非线性的两个完全连接层，用来产生通道系数。在输出部分，每个通道都乘以相应系数。由于降采样的存在，这部分的计算开销基本可以忽略不计。

根据通道间注意力模块的设计，一个自然的想法是关注“哪里”是一个信息部分而哪里是需要忽略的无关信息，与通道间注意力分支对称。空间注意模块的设计有两种方式。如图3所示。第一种形式是计算2D描述符，该描述符对通道上每个像素的信道信息进行编码，命名为第一空间注意力模块；使用通道最大池化和通道平均池化，生成两个2D特征图

和

具体公式表达如下所示：

在第二种形式中，对于每个通道。我们将每个通道划分为N×N的网格，在本发明中，N选择为3或4。首先对每个网格执行最大池化，然后使用2层MLP和一个softmax激活函数来产生这些网格的系数。记为Spatial Attention Module II(SAM-II)。SAM-II的细节在图4中。

在设计完这些模块之后，按照图1所示的神经网络，对数据集进行采样，数据增强并进行训练，测试时在测试集进行验证。

直觉上，不同的渠道在行动识别中扮演着不同的角色。某些通道在移动目标或部分(如人体的腿部等)中可能非常重要。某些通道可能只捕获不相关的背景信息，将信道重要性调整到信道，我们就可以实现目标自适应的最小功能。

在动作识别中，通常使用具有长短期记忆(LSTM)单元的多层递归神经网络(RNNs)，该单元在空间和时间上都是深度的，其模块选择性地聚焦于视频帧的部分。本发明中，着重于研究注意力机制在CNN中的应用。

图4是Spatial Attention Module II,简写SAM II，表示第二类空间注意力模块。

在本发明的***在视频分类应用中非常有效。使用BNInception、inception-v3、inception-resnet-v2作为基准，并添加模块，都有很大程度上的改进。其次，在三个著名的基准数据集上验证了性能改进，证明了本发明提出方法的广泛适用性。最后，可视化训练过的模型，发现带有本发明模块的CNN比它们的基准网络更恰当地关注目标对象。

视频中存在大量冗余背景信息和与行为无关的信息，且通常确定具体行为是根据少部分关键信息，如坐和站立，在背景信息一致的情况下，只要重点关键的行人坐和站立时的差别信息。本发明中提出的注意力机制可以很好的解决这两方面的问题，通过可学习的重点特征优选和权重重分配，重点关注的是通道间和空间内的重要局部信息，对分类效果由很好的提升，此外由于注意力机制的引入，整个***收敛的更快，训练的时间更少，且相比其它的Block,由于全局池化的作用，引入的可学习参数很少，降低了整个***的开销。

其中说明书中的英文Attention Module对应为注意力模块，Channel Attention对应为通道间注意力模块，Spatial Attention对应为空间注意力模块，SpatialAttention Module II对应为第二空间注意力模块，空间注意模块I(SAM-I)对应为第一空间注意力模块

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于注意力机制的行为识别***，其特征在于，由输入、中间Block、输出构成；

输入端为RGB图像,其中的注意力模块能任意嵌入在其中一个Block；注意力模块主要分为通道间注意力模块和空间注意力模块；视频中的一帧图像输入后，经过前馈运算后，卷积神经网络输出对应行为的类别；

所述***整个网络结构基于Inception V3,选择在其中一个Block加入两个注意力模块注意力模块；其中使用通道间注意力模块模块提取通道间依赖，通过使用空间注意力模块获取空间的依赖；整体***通过输入的视频数据切分为图像数据后进行行为识别；

所述***根据通道间注意力模块的设计，关注信息部分或无关信息，与通道间注意力分支对称；空间注意模块的设计有两种方式；第一种形式是计算2D描述符，该描述符对通道上每个像素的信道信息进行编码，命名为第一空间注意力模块；使用通道最大池化和通道平均池化，生成两个2D特征图

和

具体公式表达如下所示：

2.根据权利要求1所述的基于注意力机制的行为识别***，其特征在于，所述***对于通道间注意力模块，为了使模型能够完全捕获通道依赖性，首先通过在每个信道上使用全局最大池操作来聚合空间信息，然后将这些特征输入到非线性的两个完全连接层，用来产生通道系数；在输出部分，每个通道都乘以相应系数；由于降采样的存在，这部分的计算开销基本可以忽略不计。