CN111931603B

CN111931603B - 基于竞合网络的双流卷积网络的人体动作识别***及方法

Info

Publication number: CN111931603B
Application number: CN202010710147.5A
Authority: CN
Inventors: 叶青; 李汭; 张永梅
Original assignee: North China University of Technology
Current assignee: North China University of Technology
Priority date: 2020-07-22
Filing date: 2020-07-22
Publication date: 2024-01-12
Anticipated expiration: 2040-07-22
Also published as: CN111931603A

Abstract

本发明公开一种基于竞合网络的双流卷积网络的人体动作识别***及方法，所述***包括视频输入部分、特征提取部分和结果融合部分，其中特征提取部分还包括竞合网络。所述方法为：将视频输入双流架构的网络，其中时间流部分通过竞合网络对视频帧进行动静像素分割，输出剔除静态区域的光流图像，并输入到中等规模卷积网络，对光流图像进行特征提取；空间流部分将多帧视频图像输入卷积3D网络，对每一帧视频图像进行特征提取；分别在所述中等规模卷积网络和卷积3D网络的softmax层对提取的特征进行特征分类，然后采用多类支持向量机将分类结果进行分数融合，得到人体动作的正确识别，由此减少由环境等外部差异带来的误差，提升动作识别准确度。

Description

基于竞合网络的双流卷积网络的人体动作识别***及方法

技术领域

本发明涉及计算机视觉领域，具体涉及人体动作识别的分析研究，更具体地涉及一种基于竞合网络架构的双流卷积网络的人体动作识别***及方法。

背景技术

在信息社会中，图片信息和视频信息在所有感官信息中占到很大比重。计算机视觉是运用照相机和计算机来获取有关被拍摄对象的数据与信息的学科，能够对图片信息和视频信息进行自动、高效的处理，因此，计算机视觉领域受到了越来越多的关注，在这一领域中，人体动作识别是一个重要的研究方向，不论是智能监控、视频安防还是虚拟现实技术，都需要人体动作识别技术的支持。在众多人体动作识别技术中，双流卷积网络通过模拟人体的视觉感受以及对视频信息的理解，不仅对图像的空间信息进行提取，还对视频帧序列中的时间信息进行了理解。

人体动作识别的一般步骤为：首先对视频进行运动目标检测，再对检测出的运动目标进行特征提取，最后将提取特征进行分类识别。传统的动作识别方法往往从二维入手进行研究，但效果并不理想。近年来，深度学习的发展及其在人体动作识别方面的应用，提出了许多关于自动提取特征的方法，也进一步提高算法的识别率。用深度学习方法解决视频中动作识别的问题解决思路有三种，分别是：双流方法，C3D(Convolutional 3DNetwork)方法以及CNN-LSTM(CNN-Long Short-Term Memory)。其中，双流方法就是应用双流卷积网络分别处理视频中的空间维度和时间维度信息，双流卷积网络分为空间流卷积网络和时间流卷积网络。RGB图像作为空间流卷积网络的输入，光流图像作为时间流卷积网络的输入，通过多任务训练的方法联合数据集，去除过拟合，进而提高识别准确率。

但双流卷积网络的光流场受遮挡、多视角、光照、背景等环境差异影响较大，影响动作识别的准确度。同时光流图像是对整个视频进行的处理，视频中的静态区域会对时间流卷积网络产生噪音干扰。而竞合(Competitive Collaboration)网络的提出刚好可以解决此问题，竞合网络将深度估计网络、相机运动网络、光流网络和运动分割网络联系在一起进行网络改进，可解决运动区域与静态区域分割问题。

因此，本发明提出一种应用竞合网络，能够有效去除视频帧中静态像素对动态像素的干扰，减少由环境等外部差异带来的误差，并准确的对视频中人体动作进行识别的方法。

发明内容

本发明提供一种基于竞合网络的双流卷积网络的人体动作识别***和方法，通过使用卷积3D网络和光流网络的双流网络架构，将竞合网络融入到光流网络中，对视频帧进行动静态区域分割。竞合网络中的光流网络输出只含动态像素的光流图作为时间流卷积网络的输入，以去除环境噪音，提升人体动作识别准确度。同时竞合网络内部的由深度网络和相机运动网络组成的静态区域网络和光流网络所代表的动态区域网络会联合起来对运动分割网络进行训练，使之在分割动静态区域方面更加准确，减少了由环境等外部差异带来的误差。

为达到上述目的，本发明提供了一种基于竞合网络的双流卷积网络的人体动作识别***，其包括：

视频输入部分，包括待识别视频的视频多帧图像序列以及视频单帧+视频多帧图像序列；

特征提取部分，连接所述视频输入部分，其包括空间流卷积网络与时间流卷积网络，分别对所述视频多帧图像序列与所述视频单帧+视频多帧图像序列中实现动静态像素分割的帧与帧之间的密集光流进行特征提取和分类；

结果融合部分，连接所述特征提取部分，其包括融合网络，将所述时间流卷积网络和所述空间流卷积网络输出的分类结果进行结果融合；

其中，还包括：

竞合网络，包括在所述特征提取部分中，并连接所述时间流卷积网络，其包含的四个网络分别对所述视频单帧+视频多帧图像序列进行训练并实现动静像素分割，输出只包含运动像素的光流图像序列。

在本发明一实施例中，其中，所述竞合网络包括静态区域网络、动态区域网络和运动分割网络，所述静态区域网络包括深度估计网络和相机运动网络，所述动态区域网络为光流网络；

在本发明一实施例中，其中，所述时间流卷积网络为中等规模卷积网络，所述中等规模卷积网络包括5层卷积层、2层全连接层和一层softmax，其输入图像尺寸为224×224，第一层卷积层的卷积核尺寸为7×7，卷积步长为2，第二层卷积层的卷积核尺寸为5×5，卷积步长为2，第三层至第五层卷积层的卷积核尺寸均为3×3，卷积步长为1；

在本发明一实施例中，其中，所述空间流卷积网络为卷积3D网络，所述卷积3D网络具有8个卷积层、5个池化层、两个全连接层以及一个softmax输出层，所有3D卷积滤波器均为3×3×3，步长为1×1×1，池化层1核大小为1×2×2、步长1×2×2，其余所有3D池化层均为2×2×2，步长为2×2×2，每个全连接层有4096个输出单元；

在本发明一实施例中，其中，所述融合网络为多类支持向量机，所述多类支持向量机在其损失函数的计算中添加L2范式的正则化惩罚以消除特定权重的模糊性，所述L2范式的正则化惩罚通过对所有参数进行逐元素的平方惩罚来抑制大数值的权重，公式如下：

式中，W为权重，k表示W中元素的行向量，l表示W中元素的列向量；

多类支持向量机的整体损失函数为：

式中，x_i为第i个数据中包含的图像特征，y_i代表正确类别的标签，f(x_i,W)为线性评分函数以计算不同分类类别的分值，属于第j类的得分为f(x_i,W)_j，N为训练样本的数目，λ为超参数，△为正确类别y_i的得分始终比不正确分类j上的得分所高出的边界值，max函数用以取两者的较大值。

本发明还提供了一种包括所述***的基于竞合网络的双流卷积网络的人体动作识别方法，其包括以下步骤：

S1.将视频输入所述基于竞合网络的双流卷积网络和所述竞合网络；

S2.所述竞合网络对所述视频的帧进行动静像素分割，输出剔除静态区域像素、只包含运动像素的光流图像序列；

S3.将S2输出的光流图像序列输入所述中等规模卷积网络，并对光流图像进行特征提取；

S4.将S1的视频输入卷积3D网络，并对视频中的每一帧图像进行特征提取；

S5.分别在S3所述中等规模卷积网络和S4所述卷积3D网络的softmax层对提取的特征进行特征分类；

S6.使用多类支持向量机将特征分类的结果进行分数融合，从而得到人体动作的正确识别；其中，多类支持向量机在其损失函数的计算中添加L2范式的正则化惩罚，所述L2范式的正则化惩罚为通过对所有参数进行逐元素的平方惩罚来抑制大数值的权重，公式如下：

多类支持向量机的整体损失函数为：

其中，x_i为第i个数据中包含的图像特征，y_i代表正确类别的标签，f(x_i,W)为线性评分函数以计算不同分类类别的分值，属于第j类的得分为f(x_i,W)_j，N为训练样本的数目，λ为超参数，△为正确类别y_i的得分始终比不正确分类j上的得分所高出的边界值，max函数用以取两者的较大值；

S7.输出最终的识别结果。

在本发明一实施例中，其中S2中所述竞合网络对视频帧进行动静像素分割的具体步骤为：

S21.静态区域网络通过所述深度估计网络和所述相机运动网络估算静态区域光流，从而预测静态区域像素；

S22.动态区域网络通过视频多帧图像估算光流，从而预测动态区域像素；

S23.S21预测的静态区域像素和S22预测的动态区域像素竞争训练视频帧图像中的像素；

S24.运动分割网络协调所述静态区域网络与所述动态区域网络的竞争关系，并从所述动态区域网络中移除静态区域像素，从而在整个视频多帧图像上产生合成光流；

S25.使用合成光流的损失共同训练所述静态区域网络、所述动态区域网络与所述运动分割网络；

S26.所述静态区域网络、所述动态区域网络与所述运动分割网络在训练周期交替的进行动静态区域的划分，从而输出剔除静态区域像素、只包含运动像素的光流图像；

其中，S26所述的训练周期包括第一阶段和第二阶段：

第一阶段：所述运动分割网络作为协调网络训练由所述静态区域网络和所述动态区域网络组成的两个竞争网络，最小化能量函数；

第二阶段：两个竞争网络合作训练协调网络，最小化能量函数。

本发明通过在双流网络中引入竞合网络对动静像素进行分割，使光流网络输出剔除静态区域像素的光流图，并以此作为时间流卷积网络的输入，从而减少现有技术中由环境等外部差异带来的误差，提升动作识别准确度。同时与由卷积3D网络构成的空间流卷积网络联合组成双流网络，使视频中的时间信息和空间信息都得到充分的利用。

附图说明

图1为本发明基于竞合网络架构的双流卷积网络的人体动作识别方法框图；

图2为原始双流网络模型；

图3为竞合网络的原理示意图；

图4为CNN-M网络结构图；

图5为2D卷积网络与3D卷积网络的区别示意图；

图6为竞合网络的两个阶段示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

图1为本发明基于竞合网络架构的双流卷积网络的人体动作识别方法框图，如图1所示，将视频输入双流架构的网络，其中时间流部分通过竞合网络对视频帧进行动静像素分割，输出剔除静态区域的光流图像，并输入到中等规模卷积网络，对光流图像进行特征提取；空间流部分将多帧视频图像输入卷积3D网络，对每一帧视频图像进行特征提取；分别在所述中等规模卷积网络和卷积3D网络的softmax层对提取的特征进行特征分类，然后使用多类支持向量机将分类结果进行分数融合，从而得到人体动作的正确识别。

下面通过具体实施例说明本发明提供的基于竞合网络的双流卷积网络的人体动作识别***和方法。

本发明实施例提供的基于竞合网络的双流卷积网络的人体动作识别***是以如图2所示的双流网络为网络架构进行特征提取的，其中每一视频单帧，也就是RGB图像可作为空间成分，输入空间流卷积网络，视频帧与帧之间的密集光流输入时间流卷积网络，两个卷积网络分别进行特征提取和分类识别，最后进行结果融合，如图1和图2所示，基于竞合网络的双流卷积网络的人体动作识别***包括：

其中，还包括：

在本发明实施例中，所述竞合网络包括静态区域网络R、动态区域网络F和运动分割网络，如图3所示，其中静态区域网络R包括深度估计网络D和相机运动网络C，即可用R＝(D,C)表示，动态区域网络为光流网络F；

在本发明实施例中，所述时间流卷积网络为中等规模卷积网络，所述中等规模卷积网络(CNN-M)包括5层卷积层、2层全连接层和一层softmax，如图4所示，所述中等规模卷积网络的输入图像尺寸为224×224，第一层卷积层的卷积核尺寸为7×7，卷积步长为2，第二层卷积层的卷积核尺寸为5×5，卷积步长为2，第三层至第五层卷积层的卷积核尺寸均为3×3，卷积步长为1。CNN-M通过增加滤波器的数量，减小滤波器的尺寸和步长，CNN-M可以更好地发现和保留原始输入图像的细节信息。

在本发明实施例中，所述空间流卷积网络为卷积3D网络，如图1所示，所述卷积3D网络为具有3×3×3卷积核均匀设置的3D卷积网络，其具有8个卷积层、5个池化层、两个全连接层以及一个softmax输出层，所有3D卷积滤波器均为3×3×3，步长为1×1×1，设置池化层1核大小为1×2×2、步长1×2×2，其余所有3D池化层均为2×2×2，步长为2×2×2，每个全连接层有4096个输出单元。

在3D卷积网络中，卷积和池化操作在时空上执行，而2D卷积网络中，它们仅在空间上完成，如图5所示，其中，图5(a)为多帧输入的2D卷积网络及其输出，图5(b)为多帧输入的3D卷积网络及其输出。其中视频片段尺寸定义为c×L×H×W，c是通道数，L是帧数的长度，H和W分别是帧的高度和宽度。3D卷积和池化核大小指向d×k×k，d是核的时间深度，k是核的空间大小。因此，与2D卷积网络相比，3D卷积网络能够通过3D卷积和3D池化操作更好地建模时间信息。

在本发明实施例中，，所述融合网络为多类支持向量机(MulticlassSupportVector Machine，multi-SVM)，所述多类支持向量机在其损失函数的计算中添加L2范式的正则化惩罚以消除特定权重的模糊性。

基于以上基于竞合网络的双流卷积网络的人体动作识别***，本发明实施例还提供基于竞合网络的双流卷积网络的人体动作识别方法，其包括以下步骤：

S1.将所述视频输入所述基于竞合网络的双流卷积网络和所述竞合网络；

S2.所述竞合网络对所述视频帧进行动静像素分割，输出剔除静态区域像素、只包含运动像素的光流图像序列；

其中，如图3所示，S2中所述竞合网络对视频帧进行动静像素分割的具体步骤为：

S21.所述静态区域网络R通过所述深度估计网络D和所述相机运动网络C估算静态区域光流，从而预测静态区域像素；

S22.所述动态区域网络F通过视频多帧图像估算光流，从而预测动态区域像素；

S24.所述运动分割网络M协调所述静态区域网络R与所述动态区域网络F的竞争关系，并从所述动态区域网络F中移除静态区域像素，从而在整个视频多帧图像上产生合成光流；

S25.使用合成光流的损失共同训练所述静态区域网络R、所述动态区域网络F与所述运动分割网络M；

S26.所述静态区域网络R、所述动态区域网络F与所述运动分割网络M在训练周期交替的进行动静态区域的划分，从而输出剔除静态区域像素、只包含运动像素的光流图像；

其中，如图6所示，S26所述的训练周期包括第一阶段和第二阶段：

第一阶段为竞争阶段(图6左图)，运动分割网络M作为协调网络训练由静态区域网络R和动态区域网络F组成的两个竞争网络，最小化能量函数，其能量函数为：

式中，·表示元素乘积，分区由M的输出结果管理，Ω表示空间像素集合，是竞争者分区的结果，/>为一组无标注的训练数据集，动静态区域分割即将/>分割为两个不相交的数据集，L_R为静态区域网络的损失函数，L_F为动态区域网络的损失函数，在竞争过程中，每个竞争网络都试图通过对/>进行分区来获得最小的损失函数；

第二阶段为合作阶段(图6右图)，两个竞争网络(R和F)合作训练协调网络M，使其在下一周期对数据的划分更为准确，最小化能量函数，其能量函数为：

式中，L_M表示竞争对手{R，F}之间的共识的损失函数(LOSS)。

在本发明一实施例中，分别使用D_θ,F_ψ,M_χ表示深度估计网络、相机运动网络、光流网络及运动分割网络，下标/>为各网络的相关参数，用I_-，I，I₊三帧代表连续帧来计算C_φ，M_χ，其中目标图像的深度估计为：

d＝D_θ(I) (3)

通过相应图像帧I_-I₊来进行相机运动估计为：

估计静态场景的光流只需要相机运动网络和深度估计网络即可，一般与场景结构有关，每对目标相关图像的分割mask如下：

m_-,m₊＝M_χ(I_-,I,I₊) (5)

式中m_-，m₊∈[0,1]^Ω为在空间像素集合Ω中静态区域的概率，最终光流网络F_ψ通过估计其光流，输入两帧图像，并在其估计的前向光流估计u_-和反向光流估计u₊共享其权重：

u_-＝F_ψ(I,I_-),u₊＝F_ψ(I,I₊ )(6)

损失函数(LOSS)方面，网络最小化能量函数为：

E＝λ_RE_R+λ_FE_F+λ_ME_M+λ_CE_C+λ_SE_S (7)

式中，{λ_R,λ_F,λ_M,λ_C,λ_S}是权重，E_R和E_F分别是静态区域网络和运动区域网络的最小化目标，E_M为分割网络的最小化能量函数，决定这两个竞争网络的竞争数据，权重λ_M过大时会将更多像素送入静态区域。E_C为一致性损失用以管理合作部分，E_S为光滑度项用以管理平滑度，通过E_R最小化静态场景的光度损失：

式中，Ω是空间像素集合，ρ是鲁棒误差函数，I_s表示目标图像相邻的两个图像，即为参考帧，e_s为参考帧的相机运动估计，m_s为该参考帧在静态区域的概率，w_C为相机变换函数，根据深度估计d和相机运动估计e由参考帧变换到目标图像I；

同样的，通过E_F最小化运动区域光度损失：

式中，u_s表示参考帧的光流估计，w_f为光流变换函数，可利用光流估计u由参考帧变换到目标图像I；

计算鲁棒损失为：

式中，λ_ρ代表权重，是一个固定值，ε＝0.01。x，y分别是两帧图片，式中第二部分是结构相似性损失，μ_x,σ_x是图片x像素周围的局部均值和标准差，μ_y,σ_y是图片y像素周围的局部均值和标准差，c₁＝0.012,c₂＝0.032；

运动分割网络的最小化能量函数E_M用来减小在mask和由λ_M管理的单元向量之间的交叉熵H：

较大的λ_M更偏向于静态区域网络R，使场景偏向静态。

ν(e,d)表示由相机运动估计e和深度估计d生成的光流，使用一致性损失E_C约束分割mask，并通过对由ν(e,d)产生的静态场景流和由F_ψ估计的光流之间的一致性，来分割运动物体，一致性损失定义如下：

式中，是一个指示函数，值为1时表示条件正确，第一个指示函数是对竞争网络分配mask，并通过比较静态区域帧的鲁棒损失ρ_R和动态区域帧的鲁棒损失ρ_F来确定同一像素的光度损失。其中，ρ_R＝(I,w_c(I_s,e_s,d)),ρ_F＝(I,w_f(I_s,u_s))，在第二个指示函数中，阈值λ_C使/>如果由ν(e,d)产生的静态场景流与光流u相近，那么就是静态场景，符号∨代表两个指示函数间的逻辑或(OR)，如果R的光度损失比F低或者R的光流与F的相似，那么一致性损失E_C将此像素归为静态区域像素。

最终光滑度项E_S用来对深度估计、分割和光流进行约束：

式中是空间方向的一阶导数，λ_e保证平滑度由图像边缘决定。

深度和相机运动直接从网络输出，运动分割m*由mask网络M_χ以及从光流网络F_ψ中估计的场景流和光流一致性输出，表示为：

式中，第一项结合从M_χ推出mask概率，第二项使用从R＝(D，C)和F_ψ推出的光流之间的一致性来矫正mask，最后，在(I，I₊)间完整的光流u*，是由静态场景和单独移动物体光流结合得到，表示为：

S3.将S2输出的光流图像输入中等规模卷积网络，并对光流图像进行特征提取；

其中，从图5的CNN-M网络结构及图1中的卷积3D网络架构可以看出，双流网络中的两个特征提取的卷积网络后都各连接一个softmax层，用以对提取的特征进行特征分类。

S6.使用多类支持向量机(Multiclass Support Vector Machine，multi-SVM)将特征分类的结果进行分数融合，从而得到人体动作的正确识别；其中，多类支持向量机在其损失函数的计算中添加L2范式的正则化惩罚以消除特定权重的模糊性，所述L2范式的正则化惩罚与多类支持向量机multi-SVM的损失函数如下：

其中，设第i个数据中包含的图像特征x_i和代表正确类别的标签y_i，通过线性评分函数f(x_i,W)来计算不同分类类别的分值，其中W为权重，设分值为s，则其属于第j类的得分为s_j＝f(x_i,W)_j。将线性评分函数s＝f(x_i,W)在不正确类别j的得分S_j与正确类别y_i的得分S_yi比较，通过损失函数预测不正确类别的累加，计算针对第i个数据的多类SVM的损失函数为：

式中，△为正确分类上的得分始终比不正确分类上的得分所高出的边界值；max函数用以取S_j-S_yi+△与0的较大值，若L_i＝0，说明给定的数据x_i分类正确；

若损失函数只包含误差部分，可能存在多个W，为消除特定权重W的模糊性，在误差部分基础上添加正则化惩罚(regularization penalty)部分，本实施例所采用的正则化惩罚是L2范式，所述L2范式通过对所有参数进行逐元素的平方惩罚来抑制大数值的权重，公式如下：

式中，k表示W中元素的行向量，l表示W中元素的列向量，正则化部分仅基于权重，与数据无关，其优势在于对大数值权重进行惩罚，提升模型泛化能力，避免产生过拟合。

将线性评分函数带入，得到multi-SVM的完整损失函数为：

其中，N为训练样本的数目，λ为超参数。

S7.输出最终的识别结果。

综上，本发明通过将竞合网络引入双流网络中，利用竞合网络可以分割视频的动态区域、静态区域的特性，使其中的光流网络输出只含运动像素的光流图作为双流网络中时间流卷积网络的输入，大大改善了静态环境对动作识别的干扰问题，提高了动作识别的准确率。并且与C3D网络联合构成双流网络，使视频中的时间信息和空间信息都得到充分的利用。此外，在本发明实施例中所使用的竞合网络可使用无标记数据集，其竞争合作特性使其中的运动分割网络在下一次进行动静态像素分割之前会受到由深度估计网络和相机运动网络组成的静态区域网络和光流网络所代表的动态区域网络的联合训练，使下一次的动静态像素分割更加准确，作为时间流卷积网络输入的光流图中干扰会更少，动作识别正确率变高。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims

1.一种基于竞合网络的双流卷积网络的人体动作识别***，其包括：

其特征在于，还包括：

竞合网络，包括在所述特征提取部分中，并连接所述时间流卷积网络，其包含的四个网络分别对所述视频单帧+视频多帧图像序列进行训练并实现动静像素分割，输出只包含运动像素的光流图像序列，所述竞合网络包括静态区域网络、动态区域网络和运动分割网络，所述静态区域网络包括深度估计网络和相机运动网络，所述动态区域网络为光流网络；

所述融合网络为多类支持向量机；

其中，基于竞合网络的双流卷积网络的人体动作识别***进行人体动作识别的方法，包括以下步骤：

S3.将S2输出的光流图像序列输入所述时间流卷积网络，并对光流图像进行特征提取；

S5.分别在S3所述时间流卷积网络和S4所述卷积3D网络的softmax层对提取的特征进行特征分类；

S6.使用多类支持向量机将特征分类的结果进行分数融合，从而得到人体动作的正确识别；

S7.输出最终的识别结果；

其中，S2中所述竞合网络对视频帧进行动静像素分割的具体步骤为：

S26.所述静态区域网络、所述动态区域网络与所述运动分割网络在训练周期交替的进行动静态区域的划分，从而输出剔除静态区域像素、只包含运动像素的光流图像。

2.根据权利要求1所述的一种基于竞合网络的双流卷积网络的人体动作识别***，其特征在于，所述时间流卷积网络为中等规模卷积网络，所述中等规模卷积网络包括5层卷积层、2层全连接层和一层softmax，其输入图像尺寸为224×224，第一层卷积层的卷积核尺寸为7×7，卷积步长为2，第二层卷积层的卷积核尺寸为5×5，卷积步长为2，第三层至第五层卷积层的卷积核尺寸均为3×3，卷积步长为1。

3.根据权利要求1所述的一种基于竞合网络的双流卷积网络的人体动作识别***，其特征在于，所述空间流卷积网络为卷积3D网络，所述卷积3D网络具有8个卷积层、5个池化层、两个全连接层以及一个softmax输出层，所有3D卷积滤波器均为3×3×3，步长为1×1×1，池化层1核大小为1×2×2、步长1×2×2，其余所有3D池化层均为2×2×2，步长为2×2×2，每个全连接层有4096个输出单元。

4.根据权利要求1所述的一种基于竞合网络的双流卷积网络的人体动作识别***，其特征在于，所述多类支持向量机在其损失函数的计算中添加L2范式的正则化惩罚以消除特定权重的模糊性，所述L2范式的正则化惩罚为通过对所有参数进行逐元素的平方惩罚来抑制大数值的权重，公式如下：

多类支持向量机的整体损失函数为：

5.根据权利要求1所述的基于竞合网络的双流卷积网络的人体动作识别***，其特征在于，S26所述的训练周期包括第一阶段和第二阶段：