CN112149504B

CN112149504B - 混合卷积的残差网络与注意力结合的动作视频识别方法

Info

Publication number: CN112149504B
Application number: CN202010849991.6A
Authority: CN
Inventors: 杨慧敏; 田秋红
Original assignee: Zhejiang Sci Tech University ZSTU
Current assignee: Zhejiang Sci Tech University ZSTU
Priority date: 2020-08-21
Filing date: 2020-08-21
Publication date: 2024-03-26
Anticipated expiration: 2040-08-21
Also published as: CN112149504A

Abstract

本发明公开了一种混合卷积的残差网络与注意力结合的动作视频识别方法。包括：1)读取动作视频中人的动作，然后将动作视频转换为原始视频帧图像；2)分别使用时间抽样、随机裁剪和亮度调整的方法对动作视频的视频帧进行数据增强，组成获得视频帧图像；3)构建注意力模块，利用注意力模块构建混合卷积块，级联混合卷积块构建基于混合卷积的残差网络与注意力结合的混合卷积残差网络模型，用混合卷积残差网络模型对视频帧图像进行时空特征学习，获取关键特征图；4)使用Softmax分类层对关键特征图进行分类。本发明在扩展网络深度的同时，保留视频帧的特征信息，充分融合时空特征，提高重要通道特征的相关度，有效地提高动作识别的预测性能。

Description

混合卷积的残差网络与注意力结合的动作视频识别方法

技术领域

本发明属于智能视频分析技术领域的一种动作视频识别方法，具体是涉及了一种基于混合卷积的残差网络与注意力机制结合的动作视频识别方法。

背景技术

动作识别具有视频处理、模式识别、虚拟现实等应用价值，是计算机视觉领域的重要研究课题之一。视频中的动作识别是视频理解任务中的关键问题。它不仅需要捕获空间维度上的特征，还需要对多个连续帧之间的时间关系进行编码。因此，从动作视频中有效地提取高分辨率的时空特征对于提高动作识别的准确性具有重要意义。然而，视频是一个具有时间关系的连续帧序列，每个像素点与其邻近像素点具有很高的相似性，时空相关性非常强。传统的卷积神经网络对单幅图像数据具有优异的特征提取性能，但不能从视频中提取时空特征。

当视频输入为连续图像时，目前主要有三种方法：(1)2DCNNs结合RNN/LSTM，(2)双流CNNs，(3)3DCNNs。双流CNNs使用两个独立的网络来捕获空间特征和时间运动信息。虽然该方法效果较好，但由于两个网络的训练是分离的，不能有效地混合外观和运动信息。RNN/LSTM能更好地处理序列信息，因此常与CNN相结合来处理动作识别。然而，这类方法只保留了顶层的高级特性，忽略了底层特性中的相关性。利用3DCNN获取时空信息是一种有效的方法。然而，3DCNN模型参数量巨大，包含大量冗余的空间数据，训练3DCNNs是一个非常具有挑战性的任务。近年来，许多研究试图从不同的角度引入注意机制来增强行为识别的鲁棒性。然而，深度网络中的注意力叠加机制会导致重复的点积，从而降低特征的价值。

发明内容

为了解决背景技术中存在的问题，本发明的目的在于提供一种基于混合卷积的残差网络与注意力机制结合的动作视频中的动作识别方法，设计MC-RAN模块，其以混合卷积的残差网络为基础，将3D卷积解耦的2D卷积和1D卷积分别与适应的空间注意力模块M_SS与通道注意力模块M_CS融合，提高重要通道特征的相关度，增加特征图的全局相关性，以提高动作识别的性能。

本发明采用的技术方案如下：

本发明包括以下步骤：

1)读取动作视频中人的动作，然后将动作视频转换为原始视频帧图像；

2)分别使用时间抽样、随机裁剪和亮度调整的方法对动作视频的视频帧进行数据增强，组成获得视频帧图像；

所述步骤2)具体为：

时间抽样：对于每个动作视频，随机采样16帧动作视频的连续帧进行训练；如果连续帧的帧数达不到16帧，就循环播放该动作视频，直至连续帧的帧数达到16帧；

随机裁剪：将原始视频帧图像的大小调整为128×171像素，然后将原始视频帧图像的大小随机裁剪为112×112像素；

亮度调整：随机调整原始视频帧图像的亮度。

3)构建注意力模块，利用注意力模块构建混合卷积块，级联混合卷积块构建基于混合卷积的残差网络与注意力结合的混合卷积残差网络模型，用混合卷积残差网络模型对视频帧图像进行时空特征学习，获取关键特征图；

混合卷积块表达为：

X_t+1＝X_t+W(X_t)

其中，X_t和X_t+1表示第t个MC-RAN模块的输入和输出；X_t和X_t+1具有相同的特征维度，W代表加入注意力机制的混合卷积残差函数；

所述步骤3)具体为：选取3DResNet网络结构作为基本网络结构，3DResNet网络结构中原有的3D卷积模块由第一卷积层和四个混合卷积块代替，混合卷积块包括MC-RAN模块和加合层；MC-RAN模块包括(2+1)D卷积层、第一批量归一化层、第一ReLU激活层、3D卷积层和第二批量归一化层，所述(2+1)D卷积层是由2D卷积层中加入注意力模块组成；混合卷积块的输入X_t输入MC-RAN模块，MC-RAN模块输出后的特征图与输入X_t通过加合层进行特征图相加，相加后的特征图经第二ReLU激活层处理后的输出作为混合卷积块的输出X_t+1，每个混合卷积块之后级联3D最大池化层进行下采样；

第i个尺寸为N_i-1×t×d×d的3D卷积层由M_i个尺寸为N_i-1×1×d×d的第二2D卷积层和N_i个尺寸为M_i×t×1×1的时序卷积层组成，M_i由以下公式计算：

其中，d表示3D卷积层输出特征图的宽高尺寸参数，t表示时刻时序，[]表示向下取整。

所述(2+1)D卷积层主要由第一2D卷积层、空间注意力模块M_SS、时间卷积层和通道注意力模块M_CS级联构成，由空间注意力模块M_SS和通道注意力模块M_CS构成了注意力模块；

空间注意力模块M_SS通过第三2D卷积层来获取输入特征图在空间维度上的空间权重图W_SS；通道注意力模块M_CS通过添加多层感知器来获取输入特征图在通道维度上的通道权重图W_CS；

所述空间注意力模块M_SS的构建具体为：当输入特征图F的大小为C×H×W时，C代表输入特征图中每一帧图像的通道数，H和W代表输入特征图中每一帧图像的宽高尺寸参数；首先，利用全局平均池化对输入特征图中每一帧图像的通道进行压缩，生成一个大小为1×H×W的2D空间描述符Z；之后使用第三2D卷积层对2D空间描述符Z进行卷积获取到输入特征图中的感兴趣目标区域；最后在第三2D卷积层添加第三批量归一化层对感兴趣目标区域进行维度变换，获得空间注意力权重图W_SS；

空间注意力权重图W_SS可表示为：

W_SS(F)＝BN(σ(f^7×7(Avgpool(F)))

其中，BN()表示批量归一化，σ()表示是sigmoid激活函数，f^7×7()表示卷积核大小为7×7的卷积操作，Avgpool()表示全局平均池化，F表示输入的特征图；

所述通道注意力模块M_CS的构建具体为：当输入特征图Q的大小为C×H×W，C代表输入特征图中每一帧图像的通道数，首先，对输入特征图Q进行全局平均池化操作，产生一个大小为1×1×C的通道向量Q'；随后，使用多层感知器对通道向量Q'进行处理，以学习通道向量Q'的权重；

通道向量Q'可由如下公式计算：

其中F(i,j)表示在坐标(i,j)的特征图，i表示在H维度的像素点，j表示在W维度的像素点；

最后在多层感知器后增加第四批量归一化层来进行维度转换，获得通道注意力权重图W_CS；

通道注意力权重图W_CS可表示为：

W_CS(F)＝BN(MLP(Avgpool(F)))＝BN(σ(W₁(δ(W₀Avgpool(F)+b₀)+b₁)))

其中，MLP()表示带有隐藏层的多层感知器，W₀和W₁是MLP()的权重，大小分别为C/r×C和C×C/r，r是压缩比，δ()是线性修正单元，b₀和b₁表示MLP()的偏置项，大小分别为C/r和C。

4)使用Softmax分类层对关键特征图进行分类。

所述的步骤4)具体为：视频帧图像经过四个MC-RAN模块后视频帧图像中的时空特征已经融合，混合卷积残差网络模型获取了关键特征，将关键特征图输入到Softmax层中进行分类。

所述的输入特征图在第一个MC-RAN模块中的输入特征图是步骤2)中的视频帧图像经过第一卷积层后的输出特征图，在后续的MC-RAN模块中的输入特征图是前一个MC-RAN模块的输出经过3D最大池化层后的输出特征图。

本发明的有益效果：

1)本发明设计了MC-RAN模块，以混合卷积的残差网络为基础，将3D卷积解耦的2D卷积和1D卷积分别与适应的空间注意力模块与通道注意力模块融合，充分融合时空特征，提高重要通道特征的相关度，增加特征图的全局相关性，以提高行为识别的性能。

2)本发明提出的混合卷积残差网络模型可以在扩展网络深度的同时，保留特征信息。本发明在公共数据集UCF101和HMDB51上开展对比试验，经数据集Kinetics预训练后，在UCF101和HMDB51测试集上的Top1准确率分别达到96.8％和74.8％。

附图说明

图1为本发明实施例的部分数据集示例；

图2为本发明实施例的模块设计图；

图3为本发明实施例空间注意力模块结构；

图4为本发明实施例通道注意力模块结构；

图5为本发明实施例混合卷积块级联图；

图6为本发明实施例的特征图；(a),(b),(c),(d)为原始视频帧；(e),(f),(g),(h)为对应的特征图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

本发明提供混合卷积的残差网络与注意力结合的动作视频识别方法，利用开源数据集UCF101作为实验数据集，具体数据集示例如图1所示。该图表示其中一个动作视频转换成的部分动作视频的视频帧图像，将图像保存成.jpg格式，最后的图片大小为320×240。

本发明实施例如下：

步骤1：采用Opencv中的VideoCapture函数读入动作视频，并将读入的动作视频转换成动作视频的视频帧图像，部分动作视频的视频帧图像如图1所示。

步骤2：本发明首先对动作识别模型进行数据预处理，然后在Kinetics数据集上进行预训练，而不是从头开始训练我们的模型，以提高我们模型的准确率。

2.1)动作识别的数据预处理如下：

分别使用时间抽样、随机裁剪和亮度调整的方法对动作视频的视频帧进行数据增强，组成获得视频帧图像；

亮度调整：随机调整原始视频帧图像的亮度。

2.2)动作识别的模型预训练过程如下：

将预处理后的视频帧图像输入混合卷积残差网络模型进行空间和通道维度上的特征提取，混合卷积残差网络模型的输入图像的形状批处理大小batch_size为16×112×112×3，混合卷积残差网络模型的输出形状批处理大小batch_size为类别标签。使用随机梯度下降SGD进行损失值的优化，初始学习率设置为0.01，当验证损失达到饱和时，初始学习率除以10。动量momentum系数为0.9，dropout系数为0.5，权值衰减率为10e^-3，并且使用batch norm加速模型训练，在服务器上使用8块Tesla V100 GPU进行训练，每块GPU上的batch_size为8，总的batch_size为64。

步骤3：构建注意力模块，注意力模块中使用注意力机制关注先验知识所提到的位置，去除背景和噪声对动作识别的干扰，依据先验知识自动给输入特征图的不同位置分配不同的注意力；

利用注意力模块构建混合卷积块，级联混合卷积块构建基于混合卷积的残差网络与注意力结合的混合卷积残差网络模型，用混合卷积残差网络模型对视频帧图像进行时空特征学习，获取关键特征图；

混合卷积块表达为：

X_t+1＝X_t+W(X_t)

式中，X_t和X_t+1表示第t个MC-RAN模块的输入和输出；X_t和X_t+1具有相同的特征维度，W代表加入注意力机制的混合卷积残差函数。

步骤3)具体为：选取3DResNet网络结构作为基本网络结构，将3DResNet网络结构中原有的3D卷积模块由第一卷积层和四个混合卷积块结构代替，混合卷积块包括MC-RAN模块和加合层；MC-RAN模块包括依次连接的(2+1)D卷积层、第一批量归一化层、第一ReLU激活层、3D卷积层和第二批量归一化层；混合卷积块的输入X_t输入MC-RAN模块，MC-RAN模块输出后的特征图与输入X_t通过加合层进行特征图相加，相加后的特征图经第二ReLU激活层处理后的输出作为混合卷积块的输出X_t+1，每个混合卷积块之后级联3D最大池化层进行下采样。

a、第i个尺寸为N_i-1×t×d×d的3D卷积层由M_i个尺寸为N_i-1×1×d×d的第二2D卷积层和N_i个尺寸为M_i×t×1×1的时序卷积层组成，M_i由以下公式计算：

其中，d表示3D卷积层输出特征图的宽高尺寸参数，t表示时刻时序，[]表示向下取整；

b、在第一卷积层conv1处进行空间下采样，步长为1×2×2。对于第三混合卷积块conv3_1，第四混合卷积块conv4_1和第五混合卷积块conv5_1，对其中的(2+1)D卷积的第一2D卷积层和时间卷积层分别进行了时空下采样，步长分别为1×2×2和2×1×1。表1为第一卷积层和混合卷积块的网络结构图。

表1为第一卷积层和混合卷积块的网络层结构。

c、混合卷积块级联图如图5所示，(2+1)D卷积层是由2D卷积层中加入注意力模块组成；(2+1)D卷积层主要由第一2D卷积层、空间注意力模块M_SS、时间卷积层和通道注意力模块M_CS级联构成。所述注意力模块分别在输入特征图的空间上和通道上施加注意力，由空间注意力模块M_SS和通道注意力模块M_CS构成了注意力模块。

空间注意力模块M_SS通过第三2D卷积核来获取输入特征图在空间维度上的空间权重图W_SS；通道注意力模块M_CS通过添加多层感知器来获取输入特征图在通道维度上的通道权重图W_CS；

所述空间注意力模块M_SS的构建具体为：当输入特征图F的大小为C×H×W时，C代表输入特征图中每一帧图像的通道数，H和W代表输入特征图中每一帧图像的宽高尺寸参数；首先，利用全局平均池化对输入特征图中每一帧图像的通道进行压缩，生成一个大小为1×H×W的2D空间描述符Z，Z在坐标(i,j)处的元素计算如下：

其中F_i,j(k)表示在第K个通道在坐标(i,j)的特征图，i表示在H维度的像素点，j表示在W维度的像素点；之后使用大小为7×7的第三2D卷积层对2D空间描述符进行卷积获取到输入特征图中的感兴趣目标区域；最后在第三2D卷积层添加第三批量归一化层对感兴趣目标区域进行维度变换，获得空间注意力权重图W_SS。

空间注意力权重图W_SS可表示为：

W_SS(F)＝BN(σ(f^7×7(Avgpool(F)))

其中，BN()表示批量归一化，σ()表示是sigmoid激活函数，f^7×7()表示卷积核大小为7×7的卷积操作，Avgpool()表示全局平均池化，F表示输入特征图。

通道注意力模块M_CS的构建具体为：当输入大小为H×W×C的特征图Q时，C代表输入特征图中每一帧图像的通道数。首先，对输入特征图Q进行全局平均池化操作，产生一个大小为1×1×C的特征图Q'；随后，使用带有隐藏层的多层感知器FC对通道向量Q'进行处理，以学习通道向量Q'的权重；以权重作为相关性，为了限制通道注意力模块的复杂性和节省参数代价，将隐藏激活层的大小设置为1×1×C/r，其中r是压缩比，设置为16。

通道向量Q'可由如下公式计算：

最后在多层感知器后增加第四批量归一化层来进行维度转换，获得通道注意力权重图W_CS。

通道注意力权重图W_CS可表示为：

W_CS(F)＝BN(MLP(Avgpool(F)))＝BN(σ(W₁(δ(W₀Avgpool(F)+b₀)+b₁)))

其中，MLP表示带有隐藏层的多层感知器，W₀和W₁是MLP的权重，大小分别为C/r×C和C×C/r。σ()是sigmoid激活函数，δ()是线性修正单元，b₀和b₁表示MLP()的偏置项，大小分别为C/r和C。

步骤4：视频帧图像经过第一卷积层和四个混合卷积块后视频帧图像中的时空特征已经融合，混合卷积残差网络模型获取了关键特征，加入注意力模块后特征图可视化如图6所示。将关键特征图输入到Softmax层中进行分类。使用经过训练的网络来评估验证集中的每个视频，并获得相应的类别标签。经过训练后，将提出的混合卷积残差网络模型和不同的网络模型进行对比，实验结果如表2所示，结果表明，混合卷积残差网络模型在不增加参数量的情况下，在Top1和Top5的识别准确率都有所增加。

表2为混合卷积残差网络模型与其他模型的识别结果比较。

网络模型	参数量	Top-1识别率(％)	Top-5识别率(％)	平均识别率(％)
					ResNet[39]	63.72M	60.1	81.9	71.0
(2+1)D-ResNet[12]	63.88M	66.8	88.1	77.45
					MC-ResNet[28]	63.88M	67.3	89.2	78.25
RAN[26]	63.97M	61.7	83.2	72.45
					(2+1)D-RAN	63.98M	67.8	89.3	78.55
MC-RAN	63.98M	68.8	89.9	79.35

上述具体实施方式用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明做出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种混合卷积的残差网络与注意力结合的动作视频识别方法，其特征在于：包括以下步骤：

混合卷积块包括MC-RAN模块和加合层；MC-RAN模块包括(2+1)D卷积层、第一批量归一化层、第一ReLU激活层、3D卷积层和第二批量归一化层，所述(2+1)D卷积层是由2D卷积层中加入注意力模块组成；

混合卷积块表达为：

X_t+1＝X_t+W(X_t)

4)使用Softmax分类层对关键特征图进行分类。

2.根据权利要求1所述的混合卷积的残差网络与注意力结合的动作视频识别方法，其特征在于：所述步骤2)具体为：

亮度调整：随机调整原始视频帧图像的亮度。

3.根据权利要求1所述的混合卷积的残差网络与注意力结合的动作视频识别方法，其特征在于：

所述步骤3)具体为：选取3DResNet网络结构作为基本网络结构，3DResNet网络结构中原有的3D卷积模块由第一卷积层和四个混合卷积块代替；混合卷积块的输入X_t输入MC-RAN模块，MC-RAN模块输出后的特征图与输入X_t通过加合层进行特征图相加，相加后的特征图经第二ReLU激活层处理后的输出作为混合卷积块的输出X_t+1，每个混合卷积块之后级联3D最大池化层进行下采样；

4.根据权利要求3所述的混合卷积的残差网络与注意力结合的动作视频识别方法，其特征在于：

空间注意力权重图W_SS可表示为：

W_SS(F)＝BN(σ(f^7′7(Avgpool(F)))

通道向量Q'可由如下公式计算：

通道注意力权重图W_CS可表示为：

W_CS(F)＝BN(MLP(Avgpool(F)))＝BN(σ(W₁(δ(W₀Avgpool(F)+b₀)+b₁)))

5.根据权利要求1所述的混合卷积的残差网络与注意力结合的动作视频识别方法，其特征在于：所述的步骤4)具体为：视频帧图像经过四个MC-RAN模块后视频帧图像中的时空特征已经融合，混合卷积残差网络模型获取了关键特征，将关键特征图输入到Softmax层中进行分类。

6.根据权利要求1所述的混合卷积的残差网络与注意力结合的动作视频识别方法，其特征在于：所述的输入特征图在第一个MC-RAN模块中的输入特征图是步骤2)中的视频帧图像经过第一卷积层后的输出特征图，在后续的MC-RAN模块中的输入特征图是前一个MC-RAN模块的输出经过3D最大池化层后的输出特征图。