CN113065450B

CN113065450B - 基于可分离三维残差注意网络的人体动作识别方法

Info

Publication number: CN113065450B
Application number: CN202110334547.5A
Authority: CN
Inventors: 张祖凡; 彭月; 甘臣权; 张家波
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2022-09-20
Anticipated expiration: 2041-03-29
Also published as: CN113065450A

Abstract

本发明涉及一种基于可分离三维残差注意网络的人体动作识别方法，属于计算机视觉领域。该方法包括：S1：利用可分离三维卷积替换3D ResNet中的标准三维卷积，搭建Sep‑3D ResNet；S2：设计通道注意力模块和空间注意力模块，然后按顺序堆叠构造双重注意力机制；S3：对不同时刻的中层卷积特征进行双重注意力加权，在时间维度上扩展双重注意力模块，然后将其嵌入到Sep‑3D ResNet的Sep‑3D RAB中，搭建Sep‑3D RAN；S4：利用多阶段训练策略对Sep‑3D RAN进行联合端到端训练。本发明能提升分类判别特征的区分能力，实现了高质量时空视觉特征的高效提取，能够增强模型的分类精度和识别效率。

Description

基于可分离三维残差注意网络的人体动作识别方法

技术领域

本发明属于计算机视觉领域，涉及一种基于可分离三维残差注意网络的人体动作识别方法。

背景技术

视频中隐藏着巨大的信息，网络视频市场庞大的用户量、高速增长的市场规模给网络视频的管理、存储、识别带来了极大的挑战，因此网络视频业务日益受到各方的重视。在以人为中心的计算机视觉研究领域中，人体动作识别任务因其在人机交互、智能家居、自动驾驶、虚拟现实等诸多领域中应用广泛，成为计算机视觉任务中一个重要的研究方向。人体动作识别的主要任务是自发地识别出图像序列或视频中的人体动作，通过对图像序列进行处理分析，剖析人体运动模式，建立视频内容和动作类别之间的映射关系，从而挖掘视频中所包含的深层次信息，学***台对海量相关视频数据进行统一分类管理，有助于营造和谐的网络环境。此外，人体动作识别技术的发展也促使了视频异常监控业务的成熟，在公共场合中能辅助社会治安管理人员迅速对危机事件做出预测，在家庭生活中能及时监控用户的异常行为(如晕倒，摔跤等)以便及时就医。因此，对视频中的人体动作进行精确地识别，具有重要的学术价值和应用价值。

传统的动作识别算法依赖于人工设计特征，且往往要根据不同的任务进行特定的特征设计，识别算法的性能严重依赖于数据库本身，增加了不同数据集上处理过程的复杂度，泛化能力和通用性较差。并且，在现如今信息***的时代背景下，图像和视频数据呈指数级增长，人们更倾向于采用非人工的方法提取更具有一般性的特征表示，因此基于手工特征的动作识别方法无法满足任务需求。

深度学习得益于其层级训练模式，通过层层递进的特征提取机制自动从原始视频数据中抽取高维特征，充分捕获视频数据的上下文语义信息，从而增加深度模型的描述能力，有利于最后的识别判断，因此在动作识别领域中得到了广泛的应用。近年来，深度学习应用于人体动作识别领域的主要技术有2D CNN、3D CNN和注意力机制等。2D CNN可以有效地捕捉RGB视频帧的空间邻域相关性信息，3D CNN可以同时捕捉时空维度上的视觉特征，注意力机制可以实现关键性特征的灵活筛选，从而提升模型的识别性能。虽然2D CNN复杂度较低且参数量较少，但由于时间流信息的缺乏，其对于动态特征的提取能力不足；虽然3DCNN能在原始输入数据上直接进行时空特征的融合，但会导致模型参数量的大幅增加，不利于模型的优化过程。此外，特征提取过程中包含大量冗余特征，导致模型的识别结果受到干扰。

因此，亟需一种能够提高视频识别性能的方法。

发明内容

有鉴于此，本发明的目的在于提供一种基于可分离三维残差注意网络的人体动作识别方法，采取合理的核结构分解操作以缓解深度三维卷积模型优化困难现象，并结合注意力机制以提升关键性特征筛选的灵活性，从而制取更高质量的时空视觉特征以提升模型的识别性能。

为达到上述目的，本发明提供如下技术方案：

一种基于可分离三维残差注意网络的人体动作识别方法，具体包括以下步骤：

S1：构造可分离三维卷积，利用可分离三维卷积替换传统三维残差网络(3Dresidual network,3D ResNet)中的标准三维卷积，从而搭建可分离三维残差网络(Separable 3D residual network,Sep-3D ResNet)，以缓解深度三维卷积模型优化困难现象；

S2：设计通道注意力模块以捕捉通道级重要性分布，设计空间注意力模块以自动权衡各空间位置的重要性，然后将两个注意力模块按顺序堆叠以构造双重注意力机制；

S3：通过对不同时刻的中层卷积特征进行双重注意力加权，在时间维度上扩展双重注意力模块，然后将其嵌入到Sep-3D ResNet的可分离三维残差块中，搭建形成可分离三维残差注意网络(Separable 3D residual attention network,Sep-3D RAN)模型；

S4：利用多阶段训练策略对Sep-3D RAN模型进行联合端到端训练，以缓解训练样本量不足所导致模型的过拟合效应，提升模型的泛化能力。

进一步，步骤S1中，构造可分离三维卷积具体过程为：通过三维卷积核分解操作将时空维度上的标准三维卷积近似为空间维度上的二维卷积和时间维度上的一维卷积，以构造可分离三维卷积。

可分离三维卷积操作过程为：假定在卷积层i中有N_i-1个输入特征，首先将这N_i-1个特征与M_i个大小为1×h×w×N_i-1的二维空间滤波器进行卷积，其中h、w、N_i-1分别为二维空间卷积核的高度、宽度和通道维数；然后再与N_i个大小为t×1×1×M_i的一维时间滤波器进行卷积，其中t和M_i分别表示一维时间卷积核的时间尺度和通道维数。其中M_i的设计原则遵循分解后的三维卷积参数量与标准三维卷积参数量近似相等的规则，由以下公式计算得出：

为了搭建Sep-3D ResNet，选取了3D ResNet作为模型的基准架构，然后利用前述可分离三维卷积操作替换3D ResNet中的标准三维卷积操作。相较于原始基准模型，Sep-3DResNet在保持网络层数不变的情况下，倍增了模型的非线性激活函数，从而更易拟合复杂函数，在缓解深度三维卷积模型优化困难问题的基础上，提高了模型的描述能力，增强了模型的识别性能。

进一步，步骤S2中，首先定义双重注意力机制的输入。假定模型输入为F∈R^T ^×H×W×C，其中，T，H，W分别表示输入立方体的时间维度、高度和宽度，C表示输入通道数。经过一组或一系列可分离三维卷积后得到的中层特征映射立方体F'∈R^{T'×H'×W'×C'}，定义t时刻的切片张量为F_t∈R^H'×W'×C'，其中t＝0，1，…，T'。该切片张量即为后续双重注意力机制的输入特征。

双重注意力机制的引入：

(1)设计通道注意力模块，具体包括：由于捕捉通道级重要性分布需要显示地建模各通道之间的依赖性，因此采取全局平均池化操作对输入特征的空间维度进行聚合，生成通道描述子F_C∈R^1×1×C'，从而避免局部空间信息的干扰，表达公式为：

其中，F_t∈R^H'×W'×C'表示t时刻的切片张量，t＝0,1,…,T'，T'、H'、W'、C'分别表示输入立方体经过一组或一系列可分离三维卷积后得到的中层特征映射立方体的时间维度、高度、宽度和通道数；

随后，利用类似于自注意力函数的门控机制得到各通道的重要性分布集合，即将通道描述子F_C送入带有一个隐藏层的多层感知机以激发非归一化的通道注意力映射；为限制模型的参数量，将隐藏激活层的维度设置为C'/r，r为缩减比通常设置为16；然后利用sigmoid激活函数进行归一化操作，得到最终的通道注意力映射；通道注意力求解过程表达式为：

M_C(F_t)＝EP_C(σ(MLP(F_C))))＝EP_C(σ(W₁(δ(W₀F_C))))

其中，σ(·)表示sigmoid激活函数，δ(·)表示relu激活函数，W₀、W₁代表多层感知机的权重，EP_C(·)表示将通道注意力值沿空间域扩展到原始维度，即令M_C(F_t)∈R^C'×H'×W'；

为了执行自动特征校准，需要将通道注意力映射到原始输入特征，则细化后的切片张量计算过程为：

其中，符号

指元素级乘法运算。

(2)设计空间注意力模块，具体包括：与通道注意力模块类似，为有效计算空间注意特征映射，利用全局平均池化操作聚合F_t'的通道维度，以生成一个二维空间描述子F_S∈R^H'×W'×1，从而总结F_t'的全局通道信息，具体计算表达式为：

随后，为得到特征图F_t'中不同空间位置与目标动作的相关性，利用二维卷积操作而非多层感知机来计算其空间注意力值分布，即：

M_S(F_t')＝EP_S(σ(conv(F_S)))

其中，conv(·)表示二维卷积操作，通常卷积核大小设置为7×7以获得最好的识别性能，EP_S(·)表示沿通道尺度上的维度变换操作，目的是将不同空间位置上的通道维数扩展到原始通道维度，即令M_S(F_t')∈R^C'×H'×W'；

在推断了原始切片张量F_t的通道注意映射和空间注意映射后，首先利用通道注意力模块实现特征校准，得到细化后的切片张量F_t'，然后在空间注意映射M_S(F_t')和F_t'之间使用元素级乘法操作执行特征再校准，得到注意力加权后的切片张量F_t”，从而实现在区分信息密集型通道的同时识别空间显著区域，并抑制冗余背景信息；得到的最终细化张量F_t”的计算过程为：

进一步，步骤S3中，搭建形成Sep-3D RAN模型具体包括：为了实现前述双重注意力机制在时间维度上的扩展，通道注意映射与空间注意力映射的推断过程需要被应用在中层卷积特征F'∈R^{T'×H'×W'×C'}的所有时间维度上，即各个时刻上的切片张量需要重复双重注意力加权过程，最后将各细化后的切片张量按照原始时间维度进行排列，堆叠为最终的细化特征立方体；

通过在Sep-3D ResNet的可分离三维残差块中依次嵌入在时域膨胀后的通道注意力模块和空间注意力模块，得到了可分离三维残差注意块(Separable 3D residualattention block,Sep-3D RAB)，从而在捕捉输入数据的抽象语义信息的同时灵活地为关键性特征分配更为丰富的注意力资源；最后遵循3D ResNet的模型架构搭建Sep-3D RAN，即将3D ResNet中的简单残差块替换为Sep-3D RAB。

进一步，步骤S4中，利用多阶段训练策略对Sep-3D RAN模型进行联合端到端训练，具体包括：首先利用预训练权重初始化网络参数以加速模型的收敛过程；考虑到Sep-3DRAN具有四个可分离三维残差注意块，模型的训练过程被划分为四个阶段；在第一阶段，注意力机制仅被嵌入到第一个残差块中，然后固定该模块之前的网络层参数，训练后续的网络层；在第二阶段，向第二个残差块中继续嵌入注意力机制，然后利用第一阶段所学习到的网络权重初始化当前模块之前的网络层参数，并训练后续的网络层；重复上述过程直到所有残差块均嵌入了注意力机制；由于预训练权重的引入，模型可以实现快速收敛，因此训练过程并不耗时，易于实现。此外，在所有训练阶段，模型都是端到端可训练的，因此模型能够直接学习从原始输入到目标输出之间的映射关系。

为了实现端到端的训练模式，利用一个全连接层生成最终的一维预测向量I∈R^C，C指目标数据集的动作类别总数，然后选择softmax函数以计算输入视频所属类别的概率分布，即：

其中，

表示第n个视频属于动作类别i的预测概率；

在优化阶段，利用交叉熵损失函数调节真实值与预测值之间的误差，损失函数表达式为：

其中，y_n,i表示给定输入视频相对应的真实标签值，N指训练过程中每一批次的样本数。

本发明的有益效果在于：本发明能提升了分类判别特征的区分能力，实现了高质量时空视觉特征的高效提取，能够增强模型的分类精度和识别效率；具体体现在以下几方面：

1)本发明使用可分离三维卷积来近似标准三维卷积，将三维时空域内的卷积操作简化为在级联的二维空间平面与一维时间平面上进行卷积，缓解了深度三维卷积模型优化困难的现象；

2)使用通道注意力模块捕捉更有意义的通道信息分量，使用空间注意力模块关注更为显著的空间区域，有助模型灵活筛选关键性特征；

3)使用多阶段训练策略训练模型，在不添加额外的正则化操作的情况下避免了模型的过拟合效应。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明基于可分离三维残差注意网络的人体动作识别的过程；

图2为本发明基于可分离三维残差注意网络的人体动作识别***模型图；

图3为可分离三维卷积示意图；

图4为通道注意力模块示意图；

图5为空间注意力模块示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

请参阅图1～图5，本发明设计了一种基于可分离三维残差注意网络的人体动作识别方法，如图1和图2所示，具体包括以下步骤：

步骤一：通过三维卷积核分解操作将时空维度上的标准三维卷积近似为级联的二维空间卷积和一维时间卷积，以构造可分离三维卷积，然后利用可分离三维卷积替换3DResNet中的标准三维卷积，以搭建Sep-3D ResNet；

步骤二：设计通道注意力模块产生每通道调制权重以捕捉通道级重要性分布，设计空间注意力模块自动权衡各空间位置的邻域相关性，然后将通道注意力模块和空间注意力模块按顺序堆叠，依次推断输入特征的通道注意力映射和空间注意力映射，从而构造双重注意力机制；

步骤三：针对中层卷积特征立方体的各个时间维度的切片张量，依次计算其通道注意力值和空间注意力值，然后将细化后的切片张量按照原始时间维度堆叠，并将其嵌入到Sep-3DResNet的可分离三维残差块中，搭建为最终的Sep-3D RAN；

步骤四：通过在Sep-3D ResNet中分阶段引入注意力模块，并依次训练各个阶段的子网络，最后对整个网络进行联合端到端训练，在充分激活注意力层的同时缓解训练样本不足的情况所导致的模型过拟合现象。

图3为可分离三维卷积示意图，给出了在给定卷积层中，输入特征经过可分离三维卷积操作得到相应输出特征的示意图。

可分离三维残差注意网络模块：

如图3所示，可分离三维卷积操作过程为：假定在卷积层i中有N_i-1个输入特征，这N_i-1个特征首先与M_i个大小为1×h×w×N_i-1的二维空间滤波器进行卷积，h，w，N_i-1分别为二维空间卷积核的高度、宽度和通道维数，然后再与N_i个大小为t×1×1×M_i的一维时间滤波器进行卷积，t和M_i分别表示一维时间卷积核的时间尺度和通道维数，其中M_i的设计原则遵循分解后的三维卷积参数量与标准三维卷积参数量近似相等的规则，由以下公式计算得出：

图4为通道注意力映射推断过程的示意图，输入特征经过空间维度上的全局平均池化操作、浅层多层感知机和维度变换操作后，得到了通道注意力分布。图5为空间注意力映射推断过程的示意图，输入特征经过通道维度上的全局平均池化操作、二维卷积操作和维度变换操作后，得到了空间注意力分布。

如图4所示，首先定义双重注意力模块的输入。假定模型输入为F∈R^T×H×W×C，其中，T，H，W分别表示输入立方体的时间维度、高度和宽度，C表示输入通道数。经过一组或一系列可分离三维卷积后得到的中层特征映射立方体F'∈R^{T'×H'×W'×C'}，定义t时刻的切片张量为F_t∈R^H'×W'×C'，其中t＝0,1,…,T'。该切片张量即为后续双重注意力机制的输入特征。

双重注意力模块包含两个子模块，即：

(1)通道注意力模块。如图4所示，由于捕捉通道级重要性分布需要显示地建模各通道之间的依赖性，因此采取全局平均池化操作对输入特征的空间维度进行聚合，以生成通道描述子F_C∈R^1×1×C'，从而避免局部空间信息的干扰，具体公式如下：

随后，利用类似于自注意力函数的门控机制得到各通道的重要性分布集合，即将通道描述子F_C送入带有一个隐藏层的多层感知机以激发非归一化的通道注意力映射。为限制模型的参数量，将隐藏激活层的维度设置为C'/r，r为缩减比，通常设置为16。然后利用sigmoid激活函数进行归一化操作，得到最终的通道注意力映射。通道注意力求解过程可概括为：

M_C(F_t)＝EP_C(σ(MLP(F_C)))＝EP_C(σ(W₁(δ(W₀F_C))))

其中，σ(·)指sigmoid激活函数，σ(·)指relu激活函数，W₀，W₁代表多层感知机的权重，EP_C(·)表示将通道注意力值沿空间域扩展到原始维度，即令M_C(F_t)∈R^C'×H'×W'。

其中，符号

指元素级乘法运算。

利用通道注意力模块进行特征校准后，模型可以自动权衡各通道信息分量的重要性，从而逐渐提高对信息密集型特征的敏感性。

(2)空间注意力模块。如图5所示，与通道注意力模块类似，为有效计算空间注意特征映射，利用全局平均池化操作聚合F_t'的通道维度，以生成一个二维空间描述子F_S∈R^H ^'×W'×1，从而总结F_t'的全局通道信息，具体计算过程表示为：

M_S(F_t')＝EP_S(σ(conv(F_S)))

其中，conv(·)表示二维卷积操作，通常卷积核大小设置为7×7以获得最好的识别性能，EP_S(·)表示沿通道尺度上的维度变换操作，目的是将不同空间位置上的通道维数扩展到原始通道维度，即令M_S(F_t')∈R^C'×H'×W'。

在推断了原始切片张量F_t的通道注意映射和空间注意映射后，首先利用通道注意力模块实现特征校准，得到细化后的切片张量F_t'，然后在空间注意映射M_S(F_t')和F_t'之间使用元素级乘法操作执行特征再校准，得到注意力加权后的切片张量F_t”，从而实现在区分信息密集型通道的同时识别空间显著区域，并抑制冗余背景信息。得到的最终细化张量F_t”的计算过程为：

可分离三维残差注意网络模块。为了实现前述双重注意力机制在时间维度上的扩展，通道注意映射与空间注意力映射的推断过程需要被应用在中层卷积特征F'∈R^T ^{'×H'×W'×C'}的所有时间维度上，即各个时刻上的切片张量需要重复上述双重注意力加权过程，最后将各细化后的切片张量按照原始时间维度进行排列，堆叠为最终的细化特征立方体。

通过在Sep-3D ResNet的可分离三维残差块中依次嵌入在时域膨胀后的通道注意力模块和空间注意力模块，得到了可分离三维残差注意块(Sep-3D RAB)，从而在捕捉输入数据的抽象语义信息的同时灵活地为关键性特征分配更为丰富的注意力资源。最后遵循3DResNet的模型架构搭建了Sep-3D RAN，即将3D ResNet中的简单残差块替换为Sep-3D RAB。

可选的，模块四具体包括：

多阶段训练策略模块。首先利用预训练权重初始化网络参数以加速模型的收敛过程。考虑到Sep-3D RAN具有四个可分离三维残差注意块，模型的训练过程被划分为四个阶段。在第一阶段，注意力机制仅被嵌入到第一个残差块中，然后固定该模块之前的网络层参数，训练后续的网络层。在第二阶段，向第二个残差块中继续嵌入注意力机制，然后利用第一阶段所学习到的网络权重初始化当前模块之前的网络层参数，并训练后续的网络层。重复上述过程直到四个注意力模块全部被嵌入到网络中。由于预训练权重的引入，模型可以实现快速收敛，因此训练过程并不耗时，易于实现。此外，在所有训练阶段，模型都是端到端可训练的，因此模型能够直接学习从原始输入到目标输出之间的映射关系。

其中，

表示第n个视频属于动作类别i的预测概率。

在优化阶段，利用交叉熵损失函数调节真实值与预测值之间的误差，损失函数计算如下：

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于可分离三维残差注意网络的人体动作识别方法，其特征在于，该方法具体包括以下步骤：

S1：构造可分离三维卷积，利用可分离三维卷积替换3D ResNet中的标准三维卷积，从而搭建Sep-3D ResNet；其中，Sep-3D ResNet是可分离三维残差网络；

设计通道注意力模块，具体包括：采取全局平均池化操作对输入特征的空间维度进行聚合，生成通道描述子F_C∈R^1×1×C′，表达公式为：

其中，F_t∈R^{H′×W′×C′}表示t时刻的切片张量，t＝0,1,…,T′，T′、H′、W′、C′分别表示输入立方体经过一组或一系列可分离三维卷积后得到的中层特征映射立方体的时间维度、高度、宽度和通道数；

随后，利用类似于自注意力函数的门控机制得到各通道的重要性分布集合，即将通道描述子F_C送入带有一个隐藏层的多层感知机以激发非归一化的通道注意力映射；为限制模型的参数量，将隐藏激活层的维度设置为C′/r，r为缩减比；然后利用sigmoid激活函数进行归一化操作，得到最终的通道注意力映射；通道注意力求解过程表达式为：

M_C(F_t)＝EP_C(σ(MLP(F_C)))＝EP_C(σ(W₁(δ(W₀F_C))))

其中，σ(·)表示sigmoid激活函数，δ(·)表示relu激活函数，W₀、W₁代表多层感知机的权重，EP_C(·)表示将通道注意力值沿空间域扩展到原始维度，即令M_C(F_t)∈R^{C′×H′×W′}；

其中，符号

指元素级乘法运算；

设计空间注意力模块，具体包括：利用全局平均池化操作聚合F_t′的通道维度，以生成一个二维空间描述子F_S∈R^{H′×W′×1}，从而总结F_t′的全局通道信息，具体计算表达式为：

随后，利用二维卷积操作而非多层感知机来计算其空间注意力值分布，即：

M_S(F_t′)＝EP_S(σ(conv(F_S)))

其中，conv(·)表示二维卷积操作，EP_S(·)表示沿通道尺度上的维度变换操作；

在推断了原始切片张量F_t的通道注意映射和空间注意映射后，首先利用通道注意力模块实现特征校准，得到细化后的切片张量F_t′，然后在空间注意映射M_S(F_t′)和F_t′之间使用元素级乘法操作执行特征再校准，得到注意力加权后的切片张量F_t”，从而实现在区分信息密集型通道的同时识别空间显著区域，并抑制冗余背景信息；得到的最终细化张量F_t”的计算过程为：

S3：通过对不同时刻的中层卷积特征进行双重注意力加权，在时间维度上扩展双重注意力模块，然后将其嵌入到Sep-3D ResNet的可分离三维残差块中，搭建形成Sep-3D RAN模型；其中，Sep-3D RAN是可分离三维残差注意网络；

S4：利用多阶段训练策略对Sep-3D RAN模型进行联合端到端训练，具体包括：利用一个全连接层生成最终的一维预测向量I∈R^C，C指目标数据集的动作类别总数，然后选择softmax函数以计算输入视频所属类别的概率分布，即：

其中，

表示第n个视频属于动作类别i的预测概率；

2.根据权利要求1所述的人体动作识别方法，其特征在于，步骤S1中，所述的构造可分离三维卷积具体是通过三维卷积核分解操作将时空维度上的标准三维卷积近似为空间维度上的二维卷积和时间维度上的一维卷积，以构造可分离三维卷积。

3.根据权利要求1或2所述的人体动作识别方法，其特征在于，步骤S1中，所述的构造可分离三维卷积，具体包括：假定在卷积层i中有N_i-1个输入特征，首先将N_i-1个特征与M_i个大小为1×h×w×N_i-1的二维空间滤波器进行卷积，其中h、w、N_i-1分别为二维空间卷积核的高度、宽度和通道维数；然后再与N_i个大小为t×1×1×M_i的一维时间滤波器进行卷积，其中t和M_i分别表示一维时间卷积核的时间尺度和通道维数。

4.根据权利要求3所述的人体动作识别方法，其特征在于，M_i的设计原则遵循分解后的三维卷积参数量与标准三维卷积参数量近似相等的规则，由以下公式计算得出：

5.根据权利要求1所述的人体动作识别方法，其特征在于，步骤S3中，搭建形成Sep-3DRAN模型具体包括：各个时刻上的切片张量重复双重注意力加权过程，最后将各细化后的切片张量按照原始时间维度进行排列，堆叠为最终的细化特征立方体；

通过在Sep-3D ResNet的可分离三维残差块中依次嵌入在时域膨胀后的通道注意力模块和空间注意力模块，得到了可分离三维残差注意块；最后遵循3D ResNet的模型架构搭建Sep-3D RAN，即将3D ResNet中的简单残差块替换为可分离三维残差注意块。

6.根据权利要求1所述的人体动作识别方法，其特征在于，步骤S4中，利用多阶段训练策略对Sep-3D RAN模型进行联合端到端训练，具体包括：首先利用预训练权重初始化网络参数以加速模型的收敛过程；考虑到Sep-3D RAN具有四个可分离三维残差注意块，模型的训练过程被划分为四个阶段；在第一阶段，注意力机制仅被嵌入到第一个残差块中，然后固定该模块之前的网络层参数，训练后续的网络层；在第二阶段，向第二个残差块中继续嵌入注意力机制，然后利用第一阶段所学习到的网络权重初始化当前模块之前的网络层参数，并训练后续的网络层；重复上述过程直到所有残差块均嵌入了注意力机制。