CN110070002A

CN110070002A - 一种基于3d卷积神经网络的行为识别方法

Info

Publication number: CN110070002A
Application number: CN201910252437.7A
Authority: CN
Inventors: 王永雄; 严龙; 张震
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2019-07-30

Abstract

本发明提出了一种基于3D卷积神经网络的行为识别方法，包括以下步骤：首先基于原始视频，提取光流帧；然后对原始视频进行目标检测以获取人体裁剪帧；最后将人体裁剪帧、光流帧和原始视频分别输入特征融合网络模型的第一层、第二层和第三层；第二层接收第一层输出的卷积数据；第三层接收第二层的卷积数据；由第三层输出分类特征数据。本发明针对复杂环境中较难提取人体行为的时空特征问题，提出了一种基于3D卷积神经网络的行为识别方法。通过特征融合网络模型融合多特征，提高时空特征的表征能力和泛化能力，消除或减少噪声的影响，提高了人体行为识别率。

Description

一种基于3D卷积神经网络的行为识别方法

技术领域

本发明属于机器学习和机器视觉领域，尤其涉及一种基于3D卷积神经网络的行为识别方法。

背景技术

人体行为识别是计算机视觉研究的一个热点，在视频监控、智能家居、智能安防、人机交互，服务机器人、虚拟现实等方面有着广泛的应用。人体行为识别是从未知的视频或者图像序列中自动识别人体动作行为，其中可能包含几十甚至几百帧的动作序列图片。人体行为识别不仅要提取视频序列中，人体形态的空间位置变化信息，还要提取人体的动作时序变化信息。传统基于视觉的行为识别，一般需要人工设计特征提取器，这些方法难以很好地获取动作的上下文信息，并且存在较多的问题，提取的特征对训练数据集有较强的依赖性，泛化能力差，另外人工特征设计需要很强的先验知识。此外，提取人体行为识别中时空特征和消减人体运动场景中的光照、复杂背景、遮挡物等噪声的影响一直是研究的热点和难点问题。

发明内容

本发明的目的在于提供一种基于3D卷积神经网络的行为识别方法，以解决现有技术中存在的问题，其包含人体裁剪帧、光流帧和原始视频三个输入流，通过特征融合网络模型融合以上三个输入流特征对动作行为进行表征，利用多特征的优势消除噪声的影响。为实现上述目的，本发明所采用的技术方案为：

一种基于3D卷积神经网络的行为识别方法，包括以下步骤：

步骤S1:基于原始视频，提取光流帧；

步骤S2:对原始视频进行目标检测以获取人体裁剪帧；

步骤S3:将所述人体裁剪帧、光流帧和原始视频分别输入特征融合网络模型的第一层、第二层和第三层；所述第二层接收所述第一层输出的卷积数据；所述第三层接收所述第二层的卷积数据；

步骤S4:所述第三层输出分类特征数据。

优选地，所述第一层包括一行为特征提取卷积网络；所述行为特征提取卷积网络包括依次通信的多个卷积层；作为输出端的一所述卷积层与所述第二层通信。

优选地，所述为特征提取卷积网络包括依次通信的第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层和第六卷积层；所述第一卷积层包括一3D卷积层和一3D池化层；所述3D池化层接收所述3D卷积层的输出特征数据。

优选地，所述第三卷积层包括一3D卷积层。

优选地，所述第一层还包括依次通信的2个全连接层和一分类层；所述其中一个全连接层接收作为输出端的一所述卷积层的特征数据。

优选地，所述第二层、第三层的结构与所述第一层的结构相同。

优选地，在步骤S2中，采用SSD网络进行目标检测。

优选地，步骤S2具体为：所述原始视频输入至所述SSD网络，基于原始视频中的动作序列图片，SSD网络获取人***置框，之后SSD网络保持所述人***置框内的像素不变，平均化其余部分的像素值。

优选地，在步骤S2中，在采用SSD网络之前，进一步包括采用训练数据集，对SSD网络进行训练。

与现有技术相比，本发明的优点为：

1)本发明针对复杂环境中较难提取人体行为的时空特征问题，提出了一种基于3D卷积神经网络的行为识别方法。通过特征融合网络模型融合多特征，提高时空特征的表征能力和泛化能力，消除或减少噪声的影响，提高了人体行为识别率。

2)视频帧的光流特征获取动作的时序特征，而目标检测方法获得人***置，剔除不相关信息的干扰，让网络更专注提取人体姿态的变化。

3)提出的递进式特征融合方法能有效地防止过拟合，提升识别效果。

附图说明

图1为本发明一实施例的基于3D卷积神经网络的行为识别方法的流程图；

图2为图1中特征融合网络模型的结构示意图；

图3为图1中步骤2的过程示意图；

图4为图1中特征融合网络模型的工作原理图；

图5为图1中第一层的结构示意图。

其中，1-人体裁剪帧，2-光流帧，3-原始视频，4-第一层，41-特征提取卷积网络，411-3D卷积层，412-3D池化层，42-全连接层，43-分类层，5-第二层，6-第三层。

具体实施方式

下面将结合示意图对本发明的基于3D卷积神经网络的行为识别方法进行更详细的描述，其中表示了本发明的优选实施例，应该理解本领域技术人员可以修改在此描述的本发明，而仍然实现本发明的有利效果。因此，下列描述应当被理解为对于本领域技术人员的广泛知道，而并不作为对本发明的限制。

如图1～图5所示，一种基于3D卷积神经网络的行为识别方法，包括以下步骤S1～步骤S4，具体如下：

步骤S1:基于原始视频3，提取光流帧2。

对原始视频3提取光流，获得光流帧2，具体为：定义相邻两时刻图像帧为E(x，y，t₁)和E(x，y，t₂)下文缩写为E_1(x)和E_2(x)，考虑光流基本方程：

其中▽E＝(E_x，E_y)^T，E_x，E_y，E_t为点(x,y)沿x，y，t方向的偏导数，u＝u(u,v)^T，u，v分别是在△t＝t₂-t₁时间间隔内沿x，y方向的位移，根据方向平滑约束，为u，v添加如下附加约束条件：

其中W为加权矩阵，根据视频所含灰度值的空间变化情况，补偿运动场中的变化。光流场的计算归结为求如下变分问题：

其中a为控制方向平滑程度的权值。通过求解欧拉方程，可以得到图像上每一点处的松弛迭代形式的解。对视频帧依次计算相邻两帧的光流，得到连续的视频帧的光流。

步骤S2:对原始视频3进行目标检测以获取人体裁剪帧1。

采用SSD网络进行目标检测，具体为：原始视频3输入至SSD网络，基于原始视频3中的动作序列图片，SSD网络获取人***置框，之后SSD网络保持人***置框内的像素不变，平均化其余部分的像素值。即SSD网络只保留有人出现的帧，去除了无效帧，将人体图像裁剪出来，获取人体裁剪帧1，并对动作进行空间位置定位，让网络聚焦人体动作的姿态信息。具体如图3所示。在采用SSD网络进行目标检测之前，进一步包括采用训练数据集，对SSD网络进行训练。在本实施例中，训练数据集采用COCO数据集。

步骤S3:将人体裁剪帧1、光流帧2和原始视频3分别输入特征融合网络模型的第一层4、第二层5和第三层6。第二层5、第三层6的结构与第一层4的结构相同。第二层5接收第一层4输出的卷积数据；第三层6接收第二层5的卷积数据，具体见图2。通过上层提取的特征传到下一层，层层之间不断的强化动作特征，融合得到的特征作为最终的分类特征，特征采用首尾相连的拼接方式进行融合，融合原理见图4，其中V表示特征向量，共有m维。在我们的网络模型中，下一层网络(图4中三个特征层自上而下分别为第一层V1，第一层V2和第一层V3)的预测不仅和输入有关，还和上一层网络的输入有关，因此能够逐层学习到新的特征，并逐步强化后续特征，从而提升识别效果。这种链式的融合方法能够使得前面的特征为后面网络的预测提供帮助。

如图5所示，第一层4包括一特征提取卷积网络41即3DCNN网络；特征提取卷积网络41包括依次通信的多个卷积层；卷积层包括3D卷积层411和一3D池化层412；作为输出端的一卷积层与第二层5通信。如图5所示，特征提取卷积网络41包括第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层和第六卷积层；第一卷积层包括一3D卷积层411conv_1和一3D池化层412Pool1；3D池化层412接收3D卷积层411的输出特征数据；conv_1的卷积核的大小为64@3*3*3，Pool1采用最大池化；第二个3D卷积层411conv_2包含一个3D卷积和一个3D池化层412Pool2操作，conv_2层卷积核的大小为128@3*3*3，Pool2层同样是采用最大池化；第三卷积层包括一3D卷积层411，没有3D池化操作，conv_3层卷积核的大小为256@3*3*3；第四个3D卷积层411包含一个3D卷积层411conv_4和一个3D池化层412Pool4操作，conv_4层卷积核的大小为256@3*3*3，Pool4层同样是采用最大池化；第五个3D卷积层411包含一个3D卷积层411conv_5和一个3D池化层412Pool5操作，conv_5层卷积核的大小为512@3*3*3，Pool5层同样是采用最大池化。

步骤S4:第三层6输出分类特征数据。

在本实施例中，第一层4还包括依次通信的2个全连接层42和一分类层43；其中一个全连接层42接收作为输出端的一卷积层的特征数据。第7层和第8层都为全连接层42，神经元的个数都为2048，最后一层为分类层43。最后的分类层43采用Softmax作为分类器，Softmax输出的是每一个样本属于各个类别的概率，损失函数的表达下式所示：

其中表示输出层神经元的输入，θ为学习参数。

为了验证本发明的普适性，分别在KTH，UCF101，HMDB51这几个权威的行为识别数据集上进行了实验。同时为了验证特征融合网络模型的有效性和第一层4、第二层5和第三层6的各自作用，先将裁剪帧、光流帧2、原始视频3帧单独作为网络输入，利用图5所示的第一层4网络训练和识别。实验结果如表1所示，从表1中可以看出组合了多种输入特征融合网络模型后，识别率有了很大的提升。表1中的Pose、OF和RGB分别表示人体裁剪帧1、光流帧2、原始视频3。为了验证目标检测对人体行为识别的有效性，我们先将光流帧2和原始视频3组合输入特征融合网络模型，之后再加上人体裁剪帧1输入进行对比试验。表1中第4和6行的结果表明添加了人体裁剪帧1作为输入后，识别率也有了较大的提升。

表1不同输入的识别率对比

另外，为了验证提出的递进式特征融合方法的有效性，我们添加了与传统融合方法的对比实验。用于对比的传统特征融合方法网络架构和参数与我们提出的网络相同，传统特征融合方法将每个输入流全连接层42的输出特征直接进行首尾拼接，并且每个网络分支也没有单独的训练标签。表1中最后两行的实验对比表明：我们提出的特征融合方法有明显的改进作用，比传统的特征融合方法提高了约2％。

为了验证我们提出方法的先进性，将我们的方法与最新的行为识别方法识别率进行了对比具体见表2。从表中可看出我们的方法和最新的行为识别方法效果很接近，甚至比有些方法效果更好，主要差距可能是我们网络训练还未达到最好。综上，以上多个实验结果充分证明了我们方法的有效性、普适性和先进性。

表2和最新方法识别率对比表

基于长期研究发现，深度学习是一种特征学习方法，把原始数据通过一些非线性模型转变成为更高层次的，更加抽象的表达。对于分类任务，高层次的表达能够强化输入数据的区分能力，同时削弱不相关因素的影响。3D卷积将卷积操作从二维空间转换到三维空间，充分地提取了动作的时空特征，取得了很好的效果。3D-CNN具有较强的特征学习能力，不仅能够提取动作的空间和时序特征，而且能够抽象到更高层的特征。

上述仅为本发明的优选实施例而已，并不对本发明起到任何限制作用。任何所属技术领域的技术人员，在不脱离本发明的技术方案的范围内，对本发明揭露的技术方案和技术内容做任何形式的等同替换或修改等变动，均属未脱离本发明的技术方案的内容，仍属于本发明的保护范围之内。

Claims

1.一种基于3D卷积神经网络的行为识别方法，其特征在于，包括以下步骤：

步骤S1:基于原始视频，提取光流帧；

步骤S2:对原始视频进行目标检测以获取人体裁剪帧；

步骤S4:所述第三层输出分类特征数据。

2.根据权利要求1所述的基于3D卷积神经网络的行为识别方法，其特征在于，所述第一层包括一行为特征提取卷积网络；所述行为特征提取卷积网络包括依次通信的多个卷积层；作为输出端的一所述卷积层与所述第二层通信。

3.根据权利要求2所述的基于3D卷积神经网络的行为识别方法，其特征在于，所述为特征提取卷积网络包括依次通信的第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层和第六卷积层；所述第一卷积层包括一3D卷积层和一3D池化层；所述3D池化层接收所述3D卷积层的输出特征数据。

4.根据权利要求3所述的基于3D卷积神经网络的行为识别方法，其特征在于，所述第三卷积层包括一3D卷积层。

5.根据权利要求2所述的基于3D卷积神经网络的行为识别方法，其特征在于，所述第一层还包括依次通信的2个全连接层和一分类层；所述其中一个全连接层接收作为输出端的一所述卷积层的特征数据。

6.根据权利要求2所述的基于3D卷积神经网络的行为识别方法，其特征在于，所述第二层、第三层的结构与所述第一层的结构相同。

7.根据权利要求1所述的基于3D卷积神经网络的行为识别方法，其特征在于，在步骤S2中，采用SSD网络进行目标检测。

8.根据权利要求7所述的基于3D卷积神经网络的行为识别方法，其特征在于，步骤S2具体为：所述原始视频输入至所述SSD网络，基于原始视频中的动作序列图片，SSD网络获取人***置框，之后SSD网络保持所述人***置框内的像素不变，平均化其余部分的像素值。

9.根据权利要求7所述的基于3D卷积神经网络的行为识别方法，其特征在于，在步骤S2中，在采用SSD网络之前，进一步包括采用训练数据集，对SSD网络进行训练。