CN110334589A

CN110334589A - 一种基于空洞卷积的高时序3d神经网络的动作识别方法

Info

Publication number: CN110334589A
Application number: CN201910436122.8A
Authority: CN
Inventors: 徐永洋; 冯雅兴; 谢忠; 胡安娜; 曹豪豪
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2019-05-23
Filing date: 2019-05-23
Publication date: 2019-10-15
Anticipated expiration: 2039-05-23
Also published as: CN110334589B

Abstract

本发明提供了一种基于空洞卷积的高时序3D神经网络的动作识别方法，包括：首先对三维Inception‑V1神经网络模型进行改进，得到改进后的三维Inception‑V1神经网络模型；然后将公开数据集分为训练集和测试集对改进后的三维Inception‑V1神经网络模型进行训练和测试，得到训练后的高精度三维Inception‑V1神经网络模型；最后采用训练后的高精度三维Inception‑V1神经网络模型对实际视频的动作进行识别。本发明的有益效果是：本发明所提出的技术方案在保持高时序性的同时引入新的非局部特征门算法来重新定义三维Inception‑V1神经网络模型通道权重，提高了模型准确率。

Description

一种基于空洞卷积的高时序3D神经网络的动作识别方法

技术领域

本发明涉及人工智能、计算机视觉领域领域，尤其涉及一种基于空洞卷积的高时序3D神经网络的动作识别方法。

背景技术

近些年来，作为计算机视觉任务之一的行为识别受到越来越多的关注。随着深度学习方法在图像分类、分割等领域的成功,行为识别方法也已经从传统人工提取特征的方法向着深度学习方法发展，特别是卷积神经网络方面，并且取得了不错的效果。

基于深度学习的视频识别方法大体分为两类，2D CNNs和3D CNNs。2D CNNs方法将空间和时间信息分开学习再融合得到最后的分类结果,同时借助于2D CNNs方法在图像识别领域的成功，2D CNNs方法取得了state-of-art结果.不同于2D CNNs使用2D的卷积核进行运算，3D CNNs中将2D卷积核扩充到3维，增加时间维度，使3D CNNs方法可以在训练静态图片的过程中同时学习空间和时间信息。但是相比较于2D CNNs方法在UCF101、HMDB51等数据集上获得的精度，3D CNNs方法并不能获得让人满意的结果。2D CNNs方法在进行视频识别的时候输入网络的是代表整个视频的间隔采样帧图像，从输入到输出时间信息都保持完整。而一般的3D CNNs都会对时间维度进行下采样，这就导致了进入网络的时间维度到最后变小几倍，这与2D CNNs时间维度信息没有变化是有差别的，而这种时间维度的变化是否会对3D CNNs的精度产生影响呢？为了解决3D CNNs网络中时间维度下采样问题，本方法修改3D CNNs网络中对时间维度的下采样操作，让网络保持一个高时序.通俗来讲本方法修改网络中的max-pooling操作从步长2x2x2到1x2x2。修改时间维度之后网络相比于之前的下采样操作会在感受野上发生变化，为了获得较之前网络同等大小的感受野，本方法在后面的3D卷积核中使用空洞卷积.这样一来网络在保持高时序的同时拥有较大感受野。

为了提高视频识别精度，一方面可以使用Kinetics、Sports-1M等大数据集训练新模型然后再到UCF101、HMDB51等小型数据集上微调，但是在大数据集上从最开始训练一个好的模型往往要花费较长时间，尤其是3D卷积神经网络.另一方面可以在现有state-of-art网络，如I3D、Res3D，的基础上使用迁移学习方法进行改进。通过加入像non-localblock、TTL等模块，模型精度可以进一步提升。但是之前的大多数模块都忽略了在通道之间的交互。最近提出的STC block、spatio-temporal feature gating和context featuregating通过关注通道之间的交互，进一步提升了模型精度。为进一步提升模型精度，本方法引入了一种新的非局部特征门(non-local feature gating)块，它可以有效地捕获整个网络层的通道之间的相关信息。

发明内容

为了解决上述问题，本发明提供了一种基于空洞卷积的高时序3D神经网络的动作识别方法，一种基于空洞卷积的高时序3D神经网络的动作识别方法，主要包括以下步骤：

S101：获取公开数据集，并将所述数据集划分为训练集和测试集；所述公开数据集包括UCF101和HMDB51两个公开数据集；

S102：对三维Inception-V1神经网络模型进行改进，得到改进后的三维Inception-V1神经网络模型；

S103：将所述训练集和所述测试集中的所有视频分别进行预处理，得到所述训练集和所述测试集对应的帧图像训练数据和帧图像测试数据；

S104：采用所述帧图像训练数据和所述帧图像测试数据对所述改进后的三维Inception-V1神经网络模型分别进行训练及测试，以对所述改进后的三维Inception-V1神经网络模型的内部参数进行训练，进而得到训练后的高精度三维Inception-V1神经网络模型；

S105：将待识别的视频进行预处理，得到预处理后的帧图像数据；

S106：将所述预处理后的帧图像数据输入所述训练后的高精度三维Inception-V1神经网络模型，得到所述待识别的视频所属的动作类型。

进一步地，步骤S101中，所述训练集和所述测试集均包括多个动作类型，每个动作类型对应有多个视频；所述UCF101和HMDB51两个公开数据集分别包含有101个动作类型和51个动作类型，每个动作类型均包含多个视频。

进一步地，步骤S102中，所述改进后的三维Inception-V1神经网络模型包括5个Stage，分别为Stage1、Stage2、Stage3、Stage4和Stage5；步骤S102中，对三维Inception-V1神经网络模型进行改进，包括以下两个方面：

1)将Stage4和Stage5中的原来的3D Inception blocks替换为3D Inception-Tblocks；同时修改与Stage4和Stage5相近的最大池化操作：在时间维度采用卷积核为1，步长为1的池化层；其中，3D Inception-T blocks相比于原3D Inception blocks的改进为：卷积操作分别使用空洞卷积率为2和4的卷积核，即在Stage4中使用rate为2的空洞卷积，在Stage5中使用rate为4的空洞卷积；

2)在Stage4的每个3D Inception-T blocks后添加一个非局部特征门块，为各3DInception-T blocks的特征向量X重新赋予权重，以提高模型精度；其中，所述非局部特征门块中使用非局部特征门算法，具体如公式(1)：

Z＝σ(Y)⊙X (1)

上式中，X为输入3D Inception-T blocks的特征向量，Y为输入3D Inception-Tblocks的非局部特征向量，Z为重新赋予特征向量X的权重，σ是sigmoid激活函数，⊙为矩阵相乘运算。

进一步地，步骤S103中，预处理方法为：首先采用OpenCV图像库对各视频进行帧图像提取，以将所述训练集和所述测试集中的各视频分别处理为连续帧图像；

然后在各视频的连续帧图像中提取64帧图像，作为各视频的帧图像数据；所述训练集中所有视频的帧图像数据共同组成帧图像训练数据，所述测试集中所有视频的帧图像数据共同组成帧图像测试数据。

进一步地，在某个视频的连续帧图像中提取64帧图像的方法为：首先将该视频的连续帧图像均分为64份；然后在每一份中随机选取一帧图像，进而组成64帧图像；最后将这64帧图像作为该视频的帧图像数据。

进一步地，步骤S104中，采用所述帧图像训练数据和所述帧图像测试数据对所述改进后的三维Inception-V1神经网络模型分别进行训练及测试，具体包括如下步骤：

S201：对所述帧图像训练数据和所述帧图像测试数据中的各帧图像数据进行标签标注，得到带有标签的帧图像训练数据和带有标签的帧图像测试数据；其中，所述标签即为各视频的实际所属动作类型；

S202：将当前帧图像训练数据组输入当前改进后的三维Inception-V1神经网络模型，得到当前帧图像训练数据组的特征输出；其中，在带有标签的所述帧图像训练数据中随机选择S个帧图像数据，组成初始的所述帧图像训练数据组，且每一次将当前帧图像数据组还原为初始的所述帧图像训练数据组时，均重新随机选择S个帧图像数据；S为预设值，为大于0的整数，S根据实际硬件设备条件取值；

S203：根据所述特征输出，采用Softmax分类器对当前帧图像训练数据组中的各帧图像数据对应的各视频的动作类型进行分类，得到当前帧图像训练数据组中的各帧图像数据对应的各视频的预测动作类型；保存当前帧图像训练数据组中预测动作类型与标签相同的视频个数，即预测正确的视频个数；

S204：根据所述特征输出，采用交叉熵作为损失函数，计算当前帧图像训练数据组的预测偏差值C；具体如公式(2)所示：

上式中，n为当前帧图像训练数据组中帧图像数据的总个数；y是期望输出，即标签；a是特征输出；x代表的是全部样本，即上述公式是对所有样本列举的；

S205：将当前帧图像数据组的预测偏差值在当前改进后的三维Inception-V1神经网络模型中进行反向传播，以对所述改进后的三维Inception-V1神经网络模型中的内部参数进行更新，并将更新后的模型作为当前改进后的三维Inception-V1神经网络模型；

S206：判断所述帧图像训练数据中的所有帧图像数据是否都已经参与过训练？若是，则到步骤S207；否则，从所述帧图像训练数据中再次随机选择S个未训练过所述改进后的三维Inception-V1神经网络模型的帧图像数据，组成当前帧图像训练数据组，并返回步骤S202；

S207：计算当前改进后的三维Inception-V1神经网络模型的预测准确率P，计算公式如公式(3)：

上式中，N为所述帧图像训练数据中帧图像数据总个数；B为保存的预测正确的视频的个数总和；

S208：判断条件P>w是否成立？若是，则到步骤S209；否则，到步骤S210；其中，w为预设的准确率阈值，根据实际情况取值，取值范围为(0,1)；

S209：从带有标签的所述帧图像测试数据中随机选择S个帧图像数据组成帧图像测试数据组，并将所述帧图像测试数据组输入当前改进后的三维Inception-V1神经网络模型中，并根据特征输出，采用Softmax分类器对当前帧图像测试数据组中的各帧图像数据对应的各视频的动作类型进行分类；进而采用公式(4)，求出当前帧图像测试数据组的测试准确率p，并保存该测试准确率和当前改进后的三维Inception-V1神经网络模型：

上式中，b为当前帧图像测试数据组中预测正确的视频个数；转到步骤步骤S210；

S210：判断迭代次数是否大于或者等于Q次？若是，则到步骤S211；否则，将当前帧图像数据组还原为初始的所述帧图像训练数据组，并返回步骤S202，以开始新一轮的迭代；其中，将带有标签的所述帧图像训练数据中所有帧图像数据均参加训练之后，作为一次迭代；其中，Q为预设的最大迭代次数，为大于0的整数；

S211：从保存的所有测试准确率中选择一个最大的测试准确率，并将该最大的测试准确率对应的改进后的三维Inception-V1神经网络模型作为最终训练后的高精度三维Inception-V1神经网络模型。

进一步地，步骤S203中，根据所述特征输出，采用Softmax分类器对当前帧图像训练数据组中的各帧图像数据对应的各视频的动作类型进行分类时针对当前帧图像训练数据组中的单个帧图像数据对应的视频的动作类型进行分类的方法如下：

首先采用Softmax分类器计算公式计算帧图像训练数据对应的视频属于各个视频类型的概率；Softmax分类器计算公式如公式(5)所示：

上式中，p_i表示帧图像数据对应的视频属于第i类动作的概率；K为帧图像数据对应的视频所属公开数据集中动作类型的总个数，对于UCF101数据集，K为101，对于HMDB51数据集K为51；a_k为帧图像数据对应的特征输出中第k类动作对应的特征值；a_i为该帧图像数据对应的特征输出中第i类动作对应的特征值，i的取值范围为[1,K]；

将i依次从1取值到K，依次可得到p₁、p₂、…、p_K，即该帧图像数据对应的视频属于第1类到底K类动作类型的概率；

最后，在p₁、p₂、…、p_K中选择一个最大的类型预测概率，并将该最大的类型预测概率对应的动作类型作为帧图像数据对应的视频的预测动作类型。

进一步地，步骤S205中，将当前帧图像数据组的预测偏差值在当前模型中进行反向传播，以对所述改进后的三维Inception-V1神经网络模型中的内部参数进行更新时，采用Momentum优化算法来优化内部参数，以对内部参数进行更新。

本发明提供的技术方案带来的有益效果是：本发明所提出的技术方案在保持高时序性的同时引入新的非局部特征门算法来重新定义三维Inception-V1神经网络模型通道权重，提高了模型准确率。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例中一种基于空洞卷积的高时序3D神经网络的动作识别方法的流程图；

图2是本发明实施例中改进后的三维Inception-V1神经网络模型的结构示意图；

图3是本发明实施例中原始的3D Inception blocks的结构示意图；

图4是本发明实施例中3D Inception-T blocks的结构示意图；

图5是本发明实施例中非局部特征门算法的流程图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

本发明的实施例提供了一种基于空洞卷积的高时序3D神经网络的动作识别方法。

请参考图1，图1是本发明实施例中一种基于空洞卷积的高时序3D神经网络的动作识别方法的流程图，具体包括如下步骤：

步骤S101中，所述训练集和所述测试集均包括多个动作类型，每个动作类型对应有多个视频；所述UCF101和HMDB51两个公开数据集分别包含有101个动作类型和51个动作类型，每个动作类型均包含多个视频。

UCF101分为101类，共有13320个视频，HMDB51分为51类，共有6766个视频。

步骤S102中，所述改进后的三维Inception-V1神经网络模型包括5个Stage，分别为Stage1、Stage2、Stage3、Stage4和Stage5；步骤S102中，对三维Inception-V1神经网络模型进行改进，包括以下两个方面：

1)将Stage4和Stage5中的原来的3D Inception blocks(结构图如图3所示)替换为3D Inception-T blocks(结构图如图4所示)；同时修改与Stage4和Stage5相近的最大池化操作：在时间维度采用卷积核为1，步长为1的池化层；其中，3D Inception-T blocks相比于原3D Inception blocks的改进为：卷积操作分别使用空洞卷积率为2和4的卷积核，即在Stage4中使用rate为2的空洞卷积，在Stage5中使用rate为4的空洞卷积；

Z＝σ(Y)⊙X (1)

上式中，X为输入3D Inception-T blocks的特征向量，Y为输入3D Inception-Tblocks的非局部特征向量，Z为重新赋予特征向量X的权重，σ是sigmoid激活函数，⊙为矩阵相乘运算；所述非局部特征门算法的算法流程图如图5所示；从3D卷积和池化操作产生的特征图是一个X∈RT×H×W×C,其中T,W,H,C分别代表时间维度、特征图宽、特征图高和特征图的通道数；在本发明实施例中，首先把X重新定义为X₁∈R^N×C，其中N＝T×W×H，然后将X₁与它的转置X^T ₁相乘得到关于通道间纠正向量A∈R^C×C，最后对A使用高斯函数得到B∈R^C×C，如公式(2)：

上式中，B_ij表示j^th通道对i^th通道的影响,C表示总的通道数量；为了保证经过上述变换后得到的特征图大小与输入特征图大小相同，本发明实施例使用B和X₁矩阵相乘得到Y∈R^T×H×W×C；最后本发明实施例使用sigmoid函数对Y进行归一化操作，使其变到0和1之间，再与X相乘得到最终的Z。

步骤S103中，预处理方法为：首先采用OpenCV图像库对各视频进行帧图像提取，以将所述训练集和所述测试集中的各视频分别处理为连续帧图像；

在本发明实施例中，帧图像测试数据输入模型之前，首先将图像缩放到224×224像素大小，然后经过随机裁剪、镜像等数据增强操作再放入模型进行训练。

在某个视频的连续帧图像中提取64帧图像的方法为：首先将该视频的连续帧图像均分为64份；然后在每一份中随机选取一帧图像，进而组成64帧图像；最后将这64帧图像作为该视频的帧图像数据。

步骤S104中，采用所述帧图像训练数据和所述帧图像测试数据对所述改进后的三维Inception-V1神经网络模型分别进行训练及测试，具体包括如下步骤：

S201：对所述帧图像训练数据和所述帧图像测试数据中的各帧图像数据进行标签标注，得到带有标签的所图像训练数据和带有标签的帧图像测试数据；其中，所述标签即为各视频的实际所属动作类型；

S202：将当前帧图像训练数据组输入当前改进后的三维Inception-V1神经网络模型，得到当前帧图像训练数据组的特征输出；其中，在带有标签的帧图像训练数据中随机选择S个帧图像数据，组成初始的所述帧图像训练数据组，且每一次将当前帧图像数据组还原为初始的所述帧图像训练数据组时，均重新随机选择S个帧图像数据；S为预设值，为大于0的整数，S根据实际硬件设备条件取值；

S204：根据所述特征输出，采用交叉熵作为损失函数，计算当前帧图像训练数据组的预测偏差值C；具体如公式(3)所示：

S207：计算当前改进后的三维Inception-V1神经网络模型的预测准确率P，计算公式如公式(4)：

S209：从带有标签的帧图像测试数据中随机选择S个帧图像数据组成帧图像测试数据组，并将所述帧图像测试数据组输入当前改进后的三维Inception-V1神经网络模型中，并根据特征输出，采用Softmax分类器对当前帧图像测试数据组中的各帧图像数据对应的各视频的动作类型进行分类；进而采用公式(5)，求出当前帧图像测试数据组的测试准确率p，并保存该测试准确率和当前改进后的三维Inception-V1神经网络模型：

S210：判断迭代次数是否大于或者等于Q次？若是，则到步骤S211；否则，将当前帧图像数据组还原为初始的所述帧图像训练数据组，并返回步骤S202，以开始新一轮的迭代；其中，将带有标签的所述帧图像训练数据中所有帧图像数据均参加训练之后，作为一次迭代；其中，Q为预设的最大迭代次数，为大于0的整数，本发明实施例中，Q的取值为40；

在本发明实施例中，将224×224×64大小的图像输入模型，原始模型最终得到8×7×7×1024，其分别对应时间维度，特征图宽，特征图高和通道数，特征图大小，本发明修改时间维度下采样操作也就是将原始网络中max-pooling操作的步长从2×2×2变为1×2×2，最终得到的网络特征图为32×7×7×1024大小；修改池化操作后本发明在后续的网络卷积中在时间维度使用空洞卷积扩大感受野。

步骤S203中，根据所述特征输出，采用Softmax分类器对当前帧图像训练数据组中的各帧图像数据对应的各视频的动作类型进行分类时针对当前帧图像训练数据组中的单个帧图像数据对应的视频的动作类型进行分类的方法如下：

首先采用Softmax分类器计算公式计算帧图像训练数据对应的视频属于各个视频类型的概率；Softmax分类器计算公式如公式(6)所示：

步骤S205中，将当前帧图像数据组的预测偏差值在当前模型中进行反向传播，以对所述改进后的三维Inception-V1神经网络模型中的内部参数进行更新时，采用Momentum优化算法来优化内部参数，以对内部参数进行更新。

在本发明实施例中，还可以使用Kinetics、Sports-1M等大数据集训练模型，然后再采用UCF101、HMDB51等小型数据集对模型参数进行微调，可进一步提高模型精度。

在本发明实施例中，最终在模型收敛后在UCF101和HMDB51两个公开数据集上测试模型精度，得到表1所示结果，表1中列举了当前比较好的模型进行对比，可以看到本发明设计的模型在准确度最高(加粗部分)。

表1结果对比表

注：表中的准确率单位为％；对表1中各模型的解释如下：

Two-Stream：双流网络；

Improved Trajectories(IDT)：改进轨迹网络；

Factorized Spatio-Temporal Convolution Network(FstCN)：分解时空卷积网络；

Long-term Temporal Convolutions(LTC)：长时序卷积网络；

ActionVLAD：时空集聚网络；

Spatiotemporal Residual Networks(ST-ResNet)：时空残差网路；

3D Convolutional Networks(C3D)：三维卷积网络，使用Sports 1M数据预训练；

Asymmetric 3D Convolutional Neural Networks(Asymmetric 3D-CNN)：非对称三维卷积网络；

3D Residual Networks(Res3D)：三维残差网络；

Temporal 3D ConvNets(T3D)：时间三维卷积网络；

Pseudo-3D Residual Networks：P3D；

I3D-T-64f-σ＝1/2-5NFG：改进后的三维Inception-V1神经网络模型。

本发明的有益效果是：本发明所提出的技术方案在保持高时序性的同时引入新的非局部特征门算法来重新定义三维Inception-V1神经网络模型通道权重，提高了模型准确率。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于空洞卷积的高时序3D神经网络的动作识别方法，其特征在于，包括如下步骤：

2.如权利要求1所述的一种基于空洞卷积的高时序3D神经网络的动作识别方法，其特征在于：步骤S101中，所述训练集和所述测试集均包括多个动作类型，每个动作类型对应有多个视频；所述UCF101和HMDB51两个公开数据集分别包含有101个动作类型和51个动作类型，每个动作类型均包含多个视频。

3.如权利要求1所述的一种基于空洞卷积的高时序3D神经网络的动作识别方法，其特征在于：步骤S102中，所述改进后的三维Inception-V1神经网络模型包括5个Stage，分别为Stage1、Stage2、Stage3、Stage4和Stage5；步骤S102中，对三维Inception-V1神经网络模型进行改进，包括以下两个方面：

Z＝σ(Y)⊙X (1)

4.如权利要求1所述的一种基于空洞卷积的高时序3D神经网络的动作识别方法，其特征在于：步骤S103中，预处理方法为：首先采用OpenCV图像库对各视频进行帧图像提取，以将所述训练集和所述测试集中的各视频分别处理为连续帧图像；

5.如权利要求4所述的一种基于空洞卷积的高时序3D神经网络的动作识别方法，其特征在于：在某个视频的连续帧图像中提取64帧图像的方法为：首先将该视频的连续帧图像均分为64份；然后在每一份中随机选取一帧图像，进而组成64帧图像；最后将这64帧图像作为该视频的帧图像数据。

6.如权利要求1所述的一种基于空洞卷积的高时序3D神经网络的动作识别方法，其特征在于：步骤S104中，采用所述帧图像训练数据和所述帧图像测试数据对所述改进后的三维Inception-V1神经网络模型分别进行训练及测试，具体包括如下步骤：

上式中，b为当前帧图像测试数据组中预测正确的视频个数；转到步骤S210；

7.如权利要求6所述的一种基于空洞卷积的高时序3D神经网络的动作识别方法，其特征在于：步骤S203中，根据所述特征输出，采用Softmax分类器对当前帧图像训练数据组中的各帧图像数据对应的各视频的动作类型进行分类时针对当前帧图像训练数据组中的单个帧图像数据对应的视频的动作类型进行分类的方法如下：

8.如权利要求6所述的一种基于空洞卷积的高时序3D神经网络的动作识别方法，其特征在于：步骤S205中，将当前帧图像数据组的预测偏差值在当前模型中进行反向传播，以对所述改进后的三维Inception-V1神经网络模型中的内部参数进行更新时，采用Momentum优化算法来优化内部参数，以对内部参数进行更新。