CN112926396B

CN112926396B - 一种基于双流卷积注意力的动作识别方法

Info

Publication number: CN112926396B
Application number: CN202110116862.0A
Authority: CN
Inventors: 李平; 马浩男; 曹佳晨; 徐向华
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2022-05-13
Anticipated expiration: 2041-01-28
Also published as: CN112926396A

Abstract

本发明公开了一种基于双流卷积注意力的动作识别方法。本发明方法首先对视频做预处理获得帧图像序列与光流图像序列，并分别提取视频的外观特征表示与动作特征表示；然后构建卷积注意力模块获得帧图像和光流图像的注意力特征表示，并通过双流融合模块对两种注意力表示进行信息融合；接着训练利用卷积注意力机制和双流融合方法的动作识别模型，并根据该模型对预处理后的新视频输出其动作类别。本发明方法不仅利用通道注意力和时空注意力捕获视频动作内容的潜在模式和时空关系，还通过双流融合从全局角度对视频的外观特征与运动特征进行信息融合，有效缓解了视频长期时序依赖的时序信息缺失问题，提高了动作识别的准确度。

Description

一种基于双流卷积注意力的动作识别方法

技术领域

本发明属于计算机技术领域，尤其是视频分析中的动作识别技术领域，具体涉及一种基于双流卷积注意力的动作识别方法。

背景技术

近年来，各类视频数据与日俱增，如何识别视频的动作内容成为许多视频处理任务的基础研究课题。动作识别技术主要是根据视频的内容给出视频动作的类别，在辅助驾驶、视频内容审核、个性化推荐等多个应用场景有着十分重要的社会价值。例如，在车辆辅助驾驶场景，动作识别技术可以帮助用户通过手势给导航***发出指令，提升人们的驾驶舒适度；在视频内容审核中，动作识别***可以辅助人工进行视频内容审核，从而提高审核效率、降低人力成本；在视频个性化推荐中，动作识别技术将视频按照内容进行分类，根据用户感兴趣的话题类别为其推荐个性化的视频内容。目前，基于深度学习技术的视频动作识别模型能够以远高于人工处理的效率完成动作分类任务，这将节省大量的人工开销。

卷积神经网络(Convolutional Neural Networks,CNN)在图像识别、目标检测等计算机视觉任务上带来显著的性能提升。不同于单幅图像，由图像帧序列构成的视频需要考虑帧与帧之间的时序关系，所以研究人员提出了多种考虑时序信息的动作识别方法。例如，三维卷积神经网络(3D ConvNets)在二维卷积神经网络(2D ConvNets)的基础上对其卷积核加入时序维度，通过时序卷积捕获时序信息，有效提高识别准确率；双流 (Two-Stream)方法则分别使用彩色(RGB)图像和光流(Optical Flow)图像提取空间视觉特征和时序运动特征，再对两种特征识别结果进行融合，从而准确理解视频动作内容。此外，视频可能存在与动作类别无关的内容，而无关内容将干扰模型的识别准确率。对此，目前主要采用两种方法解决该问题：1)利用长短期记忆网络(LSTM，Long Short-Term Memory)对卷积神经网络提取的图像帧特征进行处理，具体通过记忆单元保留关键特征并遗忘无关信息，以减少无关内容对模型性能的影响；2)利用视觉注意力(Visual Attention)机制在特征图的空间维度计算对应的注意力图，据此获取图像帧的关键视觉区域所表达的信息，并抑制无关内容所在的低注意力权重区域对模型的不利影响。

现有的视频动作识别方法仍存在一些不足：第一，不同视频帧内部的关键信息存在差异，且不同帧的重要程度不相同，所以单一的视觉注意力无法有效捕获关键信息；第二，三维卷积神经网络受限于卷积核尺寸，仅能提取小范围内多帧的短期依赖时序信息，缺少对长期依赖时序信息的提取；第三，多数基于双流的方法直接将两种特征的动作识别结果进行加权求和，未考虑对空间特征和运动特征进行信息融合。因此，为了应对上述不足，本发明从通道时空关系和特征融合的角度出发，提出一种基于双流卷积注意力的动作识别方法，以提高视频动作识别准确率。

发明内容

本发明的目的就是针对现有技术的不足，提供一种基于双流卷积注意力的动作识别方法，利用卷积注意力机制完成通道和时空维度的动作信息特征提取，通过双流融合刻画长期依赖时序关系，以便获得更能反映视频数据潜在模式的特征表示，提升模型的动作识别精度。

本发明方法首先获取包含动作类别标记的视频，然后进行以下操作：

步骤(1).对视频进行预处理，获得RGB帧图像序列V_RGB和光流图像序列V_Flow，分别提取视频的外观特征表示F^RGB和运动特征表示F^Flow；

步骤(2).构建卷积注意力模块，输入为外观特征表示F^RGB和动作特征表示F^Flow，输出为通道注意力张量和时空注意力张量，对特征表示分别进行加权获得外观注意力特征表示

和运动注意力特征表示

步骤(3).构建双流融合模块C，输入为外观注意力特征表示

和运动注意力特征表示

输出为外观双流特征表示Z^RGB和运动双流特征表示Z^Flow；

步骤(4).训练由卷积注意力模块和双流融合模块组成的动作识别模型；将新视频进行预处理并输入至该模型，获得视频内容的动作类别，完成动作识别任务。

进一步，步骤(1)具体是：

(1-1).对视频V以每秒v帧的采样率进行处理，得到RGB帧图像序列

其中，N表示RGB帧图像总数目，

表示序列中第i幅、宽为w、高为h的RGB 三通道图像；视频V包含动作类别标记

其中L为动作类别总数；v＝10～30；

(1-2).对RGB帧图像序列V_RGB采用卢卡斯-卡纳德方法计算，得到对应的光流图像序列

表示第i帧包含竖直方向与水平方向双通道的光流图像，

(1-3).将RGB帧图像序列V_RGB和光流图像序列V_Flow分别平均分成k段，并从各个段内随机采样m帧，得到其稀疏时间采样表示

和

其中

为m帧RGB图像组成的片段，

为m帧光流图像组成的片段；

(1-4).使用Kinetics数据集上预训练得到的膨胀三维卷积网络模型I3D(Inflated 3D ConvNets)作为视觉特征提取器

分别提取S^RGB对应的外观特征表示

和S^Flow对应的运动特征表示

其中，

和

分别表示第j段经下采样后m′帧的外观特征图和运动特征图，通道数为c′、宽为w′、高为h′。

再进一步，步骤(2)具体是：

(2-1).构建的卷积注意力模块包括通道注意力模块和时空注意力模块；通道注意力模块包括平均池化层Avgpool^3D(·)、最大池化层Maxpool^3D(·)和具有一个隐藏层的多层感知机MLP(·)；时空注意力模块包括平均池化层AvgPool^1D(·)、最大池化层MaxPool^1D(·)和三维卷积层f^7×7×7(·)；

(2-2).采用(2-1)方法对外观特征表示F^RGB构建对应的外观卷积注意力模块

包括通道注意力模块

和时空注意力模块

(2-3).通道注意力模块

的输入为

输出为k段的c′个通道的通道注意力权重序列

其中，通道注意力权重

分别表示对特征图进行三维时空平均池化操作和三维时空最大池化操作，MLP(·)由神经元数分别为c′、c′/2、c′的三层全连接层构成，σ(·)表示Sigmoid函数；

(2-4).时空注意力模块

的输入为通道注意力权重序列

加权的特征图

符号表示逐元素乘法操作；输出为时空注意力权重序列

其中，时空注意力权重

f^7×7×7(·)表示卷积核大小为7×7×7、输入通道数为2、输出通道数为1的三维卷积层，

分别表示对特征图进行一维通道平均池化操作和一维通道最大池化操作，concat(·,·)表示特征图在通道维度上的拼接操作；

(2-5).对外观特征表示F^RGB使用通道注意力权重序列

和时空注意力权重序列

加权得到外观注意力特征表示

其中，

表示外观注意力特征图，

(2-6).采用(2-1)方法对运动特征表示F^Flow构建对应的运动卷积注意力模块

其构建方式与外观卷积注意力模块

相同；由此得到运动注意力特征表示

表示运动注意力特征图。

更进一步，步骤(3)具体是：

(3-1).双流融合模块C用于两种特征的相互融合，由多个特征降维层、Softmax层、特征恢复层以及残差连接构成；

(3-2).双流融合模块C的输入为外观注意力特征表示

和运动注意力特征表示

输出为外观双流特征表示

和运动双流特征表示

其中，

和

分别表示双流特征融合并残差连接后的第j段外观双流特征图和运动双流特征图；

其中，特征降维层θ(·)、φ(·)、g(·)均表示卷积核大小为1×1×1、输入通道数为c'、输出通道数为c'/2的三维卷积层，θ(·)、φ(·)、 g(·)将注意力特征的通道维度降为c'/2，符号(·)^T表示向量或矩阵的转置操作，

表示特征相似度，Softmax层用于归一化特征相似度，特征恢复层W_Z(·)表示一个卷积核大小为1×1×1、输入通道数为

输出通道数为c'的三维卷积层，W_Z(·)将特征表示恢复至原始通道维度c'，残差连接是指计算式中双流融合后特征与注意力特征的相加操作。

又进一步，步骤(4)具体是：

(4-1).对外观双流特征表示Z^RGB中的各段外观双流特征图

进行三维时空平均池化，

对运动双流特征表示Z^Flow中的各段运动双流特征图

进行三维时空平均池化，

然后将其池化后的结果输入至由全连接层与Softmax层构成的输出层

中，得到各段的外观动作得分

和运动动作得分

和

均表示经过Softmax层归一化后的动作类别概率；

(4-2).计算各段的外观动作得分R^RGB的平均值，得到平均外观动作得分

计算各段的运动动作得分R^Flow的平均值，得到平均运动动作得分

取

和

的平均，作为视频的最终动作得分

(4-3).根据视频V动作类别标记λ和最终动作得分R计算交叉熵(Cross Entropy)损失，利用随机梯度下降算法调整更新输出层

双流融合模块C、外观卷积注意力模块

以及运动卷积注意力模块

的参数，完成动作识别模型的构建；

(4-4).将新视频V′按照步骤(1)进行预处理得到外观特征表示F′^RGB和运动特征表示 F′^Flow，并将其输入至动作识别模型获得动作得分

根据动作得分获得视频内容的动作类别

即

为R′中得分最高元素所对应的索引，完成动作识别任务。

本发明相比现有方法有以下不同点与创新点：1)本发明用卷积注意力机制进行视频特征提取，不同于简单的视觉注意力机制，该机制同时计算通道注意力和时空注意力，使得提取的特征表示更能反映视频的动作内容；2)本发明采用的双流融合模块以整段特征表示为输入，可以从全局角度提取各段内部的时空特征表示，有效缓解了长期依赖问题中的时序信息缺失；3)本发明通过卷积层映射和Softmax层归一化将外观特征与运动特征有效融合，并用残差连接将融合特征与原始特征相加，进一步丰富特征信息量。

本发明方法适用于视频内含有干扰内容但对准确率要求较高的动作内容识别，其优点在于：1)通过提取特征图的卷积注意力，即分别提取通道注意力和时空注意力，准确地捕获视频动作内容的潜在模式和时空关系；2)使用三维卷积层挖掘相邻帧间的短期依赖时序信息，并在全局特征表示学习中获取长期依赖时序关系，充分考虑相邻帧间的局部语义信息与各视频段的全局语义信息；3)通过双流融合模块将运动特征与外观特征相互融合，增加了视频特征表示的多样性。本发明能有效刻画视频的长短期时序关系、提取视频的局部与全局特征，并对其外观特征与运动特征相互融合，可广泛应用于辅助驾驶、视频内容审核、个性化推荐等多个场景。

附图说明

图1为本发明方法的流程图。

具体实施方式

以下结合附图对本发明作进一步说明。

基于双流卷积注意力的动作识别方法，首先将给定的视频进行预处理并提取外观特征表示和运动特征表示；然后将两种特征表示输入至卷积注意力模块得到捕获视频关键内容的外观注意力特征表示和运动注意力特征表示；随后通过双流融合模块将两种注意力特征表示相互融合得到外观与运动信息相结合的双流特征表示；最后利用双流特征表示确定视频内容的动作类别。该方法利用卷积注意力机制捕获视频动作的潜在模式、有效刻画长短期依赖的时序关系、学习融合外观和运动信息的视频特征表示，从而更好地识别视频中包含的动作。

如图1，该方法首先获取包含动作类别标记的视频，然后进行以下操作：

步骤(1).步骤(1).对视频进行预处理，获得RGB帧图像序列V_RGB和光流图像序列V_Flow，分别提取视频的外观特征表示F^RGB和运动特征表示F^Flow。具体是：

(1-1).对视频V以每秒20帧的采样率进行处理，得到RGB帧图像序列

其中，N表示RGB帧图像总数目，

其中L为动作类别总数；v＝10～30；

表示第i帧包含竖直方向与水平方向双通道的光流图像，

V_Flow包括N幅光流图像；

和

其中

为m帧RGB图像组成的片段，

为m帧光流图像组成的片段；

分别提取S^RGB对应的外观特征表示

和S^Flow对应的运动特征表示

其中，

和

和运动注意力特征表示

具体是：

包括通道注意力模块

和时空注意力模块

(2-3).通道注意力模块

的输入为

输出为k段的c′个通道的通道注意力权重序列

其中，通道注意力权重

(2-4).时空注意力模块

的输入为通道注意力权重序列

加权的特征图

符号表示逐元素乘法操作；输出为时空注意力权重序列

其中，时空注意力权重

(2-5).对外观特征表示F^RGB使用通道注意力权重序列

和时空注意力权重序列

加权得到外观注意力特征表示

其中，

表示外观注意力特征图，

其构建方式与外观卷积注意力模块

相同；由此得到运动注意力特征表示

表示运动注意力特征图。

步骤(3).构建双流融合模块C，输入为外观注意力特征表示

和运动注意力特征表示

输出为外观双流特征表示Z^RGB和运动双流特征表示Z^Flow。具体是：

(3-1).双流融合模块C中的“双流”是指外观注意力特征表示数据流和运动注意力特征数据流，该模块用于两种特征的相互融合，由多个特征降维层、Softmax层、特征恢复层以及残差连接构成；

(3-2).双流融合模块C的输入为外观注意力特征表示

和运动注意力特征表示

输出为外观双流特征表示

和运动双流特征表示

其中，

和

分别表示双流特征融合并残差连接后的第j 段外观双流特征图和运动双流特征图；

步骤(4).训练由卷积注意力模块和双流融合模块组成的动作识别模型，将新视频进行预处理并输入至该模型，获得视频内容的动作类别，完成动作识别任务。具体是：

(4-1).对外观双流特征表示Z^RGB中的各段外观双流特征图

进行三维时空平均池化，

对运动双流特征表示Z^Flow中的各段运动双流特征图

进行三维时空平均池化，

中，得到各段的外观动作得分

和运动动作得分

和

均表示经过Softmax层归一化后的动作类别概率；

取

和

的平均，作为视频的最终动作得分

双流融合模块C、外观卷积注意力模块

以及运动卷积注意力模块

的参数，完成动作识别模型的构建；

(4-4).将新视频V′按照步骤(1)进行预处理得到外观特征表示F′^RGB和运动特征表示F′^Flow，并将其输入至动作识别模型获得动作得分

根据动作得分获得视频内容的动作类别

即

为R′中得分最高元素所对应的索引，完成动作识别任务。

本实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种基于双流卷积注意力的动作识别方法，其特征在于，该方法首先获取包含动作类别标记的视频，然后进行以下操作：

步骤(1).对视频进行预处理，获得RGB帧图像序列V_RGB和光流图像序列V_Flow，分别提取视频的外观特征表示F^RGB和运动特征表示F^Flow；具体是：

其中，N表示RGB帧图像总数目，

表示序列中第i幅、宽为w、高为h的RGB三通道图像；视频V包含动作类别标记

其中L为动作类别总数；v＝10～30；

表示第i帧包含竖直方向与水平方向双通道的光流图像，

和

其中

为m帧RGB图像组成的片段，

为m帧光流图像组成的片段；

(1-4).使用Kinetics数据集上预训练得到的膨胀三维卷积网络模型I3D作为视觉特征提取器A；分别提取S^RGB对应的外观特征表示

和S^Flow对应的运动特征表示

其中，

和

分别表示第j段经下采样后m′帧的外观特征图和运动特征图，通道数为c′、宽为w′、高为h′；

和运动注意力特征表示

具体是：

包括通道注意力模块

和时空注意力模块

(2-3).通道注意力模块

的输入为

输出为k段的c′个通道的通道注意力权重序列

其中，通道注意力权重

(2-4).时空注意力模块

的输入为通道注意力权重序列

加权的特征图

符号表示逐元素乘法操作；输出为时空注意力权重序列

其中，时空注意力权重

(2-5).对外观特征表示F^RGB使用通道注意力权重序列

和时空注意力权重序列

加权得到外观注意力特征表示

其中，

表示外观注意力特征图，

其构建方式与外观卷积注意力模块

相同；由此得到运动注意力特征表示

表示运动注意力特征图；

步骤(3).构建双流融合模块

输入为外观注意力特征表示

和运动注意力特征表示

输出为外观双流特征表示Z^RGB和运动双流特征表示Z^Flow；具体是：

(3-1).双流融合模块

用于两种特征的相互融合，由多个特征降维层、Softmax层、特征恢复层以及残差连接构成；

(3-2).双流融合模块

的输入为外观注意力特征表示

和运动注意力特征表示

输出为外观双流特征表示

和运动双流特征表示

其中，

和

其中，特征降维层θ(·)、φ(·)、g(·)均表示卷积核大小为1×1×1、输入通道数为c'、输出通道数为c'/2的三维卷积层，θ(·)、φ(·)、g(·)将注意力特征的通道维度降为c'/2，符号(·)^T表示向量或矩阵的转置操作，

输出通道数为c'的三维卷积层，W_Z(·)将特征表示恢复至原始通道维度c'，残差连接是指计算式中双流融合后特征与注意力特征的相加操作；

步骤(4).训练由卷积注意力模块和双流融合模块组成的动作识别模型；将新视频进行预处理并输入至该模型，获得视频内容的动作类别，完成动作识别任务；具体是：

(4-1).对外观双流特征表示Z^RGB中的各段外观双流特征图

进行三维时空平均池化，

对运动双流特征表示Z^Flow中的各段运动双流特征图

进行三维时空平均池化，

中，得到各段的外观动作得分

和运动动作得分

和

均表示经过Softmax层归一化后的动作类别概率；

取

和

的平均，作为视频的最终动作得分

(4-3).根据视频V动作类别标记λ和最终动作得分R计算交叉熵损失,利用随机梯度下降算法调整更新输出层

双流融合模块

外观卷积注意力模块

以及运动卷积注意力模块

的参数，完成动作识别模型的构建；

根据动作得分获得视频内容的动作类别

即

为R′中得分最高元素所对应的索引，完成动作识别任务。