CN113569805A

CN113569805A - 动作识别方法、装置、电子设备和存储介质

Info

Publication number: CN113569805A
Application number: CN202110931463.XA
Authority: CN
Inventors: 张雷; 刘悦; 张宇
Original assignee: Beijing University of Civil Engineering and Architecture
Current assignee: Beijing University of Civil Engineering and Architecture
Priority date: 2021-08-13
Filing date: 2021-08-13
Publication date: 2021-10-29

Abstract

本发明提供一种动作识别方法、装置、电子设备和存储介质，方法包括：获取待识别的原始视频；将原始视频输入至动作识别模型，得到动作识别模型输出的动作识别结果；其中，动作识别模型用于提取原始视频中的空间特征和时序特征，并进行深度时序特征加权获得动作特征值，基于动作特征值对原始视频进行动作识别。本发明提供的动作识别方法、装置、电子设备和存储介质，通过动作识别模型实现视频动作的识别，动作识别模型在提取原始视频中的空间特征和时序特征后，需要通过深度时序特征加权获得动作特征值，深度时序特征加权可以为原始视频中的关键帧分配更大的权重，充分利用关键帧信息，从而有效提升了动作识别准确度。

Description

动作识别方法、装置、电子设备和存储介质

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种动作识别方法、装置、电子设备和存储介质。

背景技术

动作识别作为计算机视觉领域的中极具挑战的研究领域，它的研究目标致力于分辨图片或视频中人体正在执行的动作。在智能家居、健康监控和人类行为分析、仿人机器人动作模仿等众多领域都得到广泛的研究和关注。

现有技术中动作识别常采用基于深度学习的特征提取法，该方法由于更加简洁、高效而被广泛应用，但是，该方法在实际应用过程中由于干扰信息过多，且容易受到视频冗余帧的影响，无法充分利用视频关键帧信息，导致动作识别准确度较低。

因此，现在亟需一种准确可靠的动作识别方法来解决上述问题。

发明内容

本发明提供一种动作识别方法、装置、电子设备和存储介质，用以解决现有技术中视频动作识别过程准确度低的缺陷，实现准确可靠的动作识别。

第一方面，本发明提供一种动作识别方法，包括：

获取待识别的原始视频；

将所述原始视频输入至动作识别模型，得到所述动作识别模型输出的动作识别结果；

其中，所述动作识别模型用于提取所述原始视频中的空间特征和时序特征，并进行深度时序特征加权获得动作特征值，基于所述动作特征值对所述原始视频进行动作识别。

根据本发明提供的一种动作识别方法，将所述原始视频输入至动作识别模型，得到所述动作识别模型输出的动作识别结果，包括：

数据预处理：对所述原始视频进行预处理，得到预处理后原始视频对应的图像数据；

特征提取：对所述图像数据进行空间特征提取和时序特征提取，并进行深度时序特征加权，得到动作特征值；

动作识别：根据所述动作特征值确定当前动作的类别，获得动作识别结果。

根据本发明提供的一种动作识别方法，所述数据预处理的过程，包括：

将所述原始视频解析为视频帧序列；

对所述视频帧序列进行数据增强处理；

对数据增强处理后的视频帧序列进行归一化和正则化处理，得到预处理后原始视频对应的图像数据。

根据本发明提供的一种动作识别方法，所述特征提取的过程包括：

空间特征提取：通过融入G-CBAM的残差网络提取所述图像数据中的空间特征，并对所述图像数据进行背景弱化处理；其中，所述融入G-CBAM的残差网络是将G-CBAM融入残差网络的残差模块得到的；

时序特征提取：提取背景弱化后所述图像数据中的时序特征，并为所述图像数据中各帧图像分配相应的权重，将各帧图像的时序特征进行加权融合，得到动作特征值。

根据本发明提供的一种动作识别方法，所述G-CBAM包括通道注意力层和空间注意力层；

所述通道注意力层包括：

池化处理子层，用于对所述图像数据分别进行平均池化处理和最大池化处理，得到平均池化特征和最大池化特征；

特征拼接子层，用于将所述平均池化特征和所述最大池化特征进行拼接；

运算子层，用于将拼接后的特征与多层感知器中的权值矩阵进行运算，得到通道注意力加权系数；

所述空间注意力层用于对所述图像数据与所述通道注意力加权系数相乘得到的通道维度关键特征进行处理，得到空间注意力加权系数，并将所述空间注意力加权系数与所述通道维度关键特征相乘，得到所述图像数据的空间特征。

根据本发明提供的一种动作识别方法，所述时序特征提取的过程，包括：

通过长短期记忆网络提取背景弱化后所述图像数据中各帧图像的时序特征；

通过时序注意力模块为所述图像数据中各帧图像分配相应的权重，将各帧图像的时序特征进行加权融合，得到动作特征值。

第二方面，本发明还提供一种动作识别装置，包括：

获取模块，用于获取待识别的原始视频；

动作识别模块，用于将所述原始视频输入至动作识别模型，得到所述动作识别模型输出的动作识别结果；

第三方面，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述动作识别方法的步骤。

第四方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述动作识别方法的步骤。

第五方面，本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述动作识别方法的步骤。

本发明提供的动作识别方法、装置、电子设备和存储介质，通过动作识别模型实现视频动作的识别，动作识别模型在提取原始视频中的空间特征和时序特征后，需要通过深度时序特征加权获得动作特征值，深度时序特征加权可以为原始视频中的关键帧分配更大的权重，充分利用关键帧信息，从而有效提升了动作识别准确度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的动作识别方法的流程示意图；

图2是动作识别模型的数据处理原理示意图；

图3是残差模块的结构示意图；

图4是CBAM的网络结构示意图；

图5是改进后的通道注意力层的结构示意图；

图6是将G-CBAM融入残差网络后得到的网络模型结构示意图；

图7是LSTM的基本结构示意图；

图8是TAM的结构示意图；

图9是融入TAM的时序特征提取网络模型的结构示意图；

图10是下蹲动作对应的视频帧数据示意图；

图11是背景弱化后的下蹲动作图像；

图12是时序特征提取过程中的部分视频帧图像；

图13是动作识别过程的实现原理示意图；

图14、图15分别是实验中两种网络模型在迭代训练过程中的准确率对比结果和损失值对比结果；

图16是各动作的测试准确率统计结果；

图17是本发明提供的动作识别装置的结构架构示意图；

图18是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出了本发明实施例提供的动作识别方法，包括：

S110：获取待识别的原始视频；

S120：将原始视频输入至动作识别模型，得到动作识别模型输出的动作识别结果；

其中，动作识别模型用于提取原始视频中的空间特征和时序特征，并进行深度时序特征加权获得动作特征值，基于动作特征值对原始视频进行动作识别。

参见附图2，本实施例中动作识别模型完成动作识别主要利用数据预处理部分210、特征提取部分220以及动作识别部分230实现。

因此，本实施例中将原始视频输入至动作识别模型，得到动作识别模型输出的动作识别结果，具体包括：

数据预处理：对原始视频进行预处理，得到预处理后原始视频对应的图像数据；

特征提取：对图像数据进行空间特征提取和时序特征提取，并进行深度时序特征加权，得到动作特征值；

动作识别：根据动作特征值确定当前动作的类别，获得动作识别结果。

具体地，数据预处理部分210主要将待识别的动作短视频数据裁剪为视频帧序列，并进一步进行图片数据的增强操作，包括缩放、裁剪、平移等操作，之后将图片转换为张量，并完成张量的正则化。特征提取部分220主要对经过预处理的图像使用深度学习网络进行多步骤的动作特征提取，以得到动作特征值。动作识别部分230主要根据获得的动作特征值，经过全连接层，后使用Softmax分类器根据不同结果的概率排列进行动作分类。

由于视频数据的原始分辨率通常较大，直接使用的话，计算成本较高，所以需要对其进行预处理。为了避免传统视频帧裁剪过程中造成的边缘信息丢失和视频容量较小造成过拟合的问题，本实施例中数据预处理环节具体包括：

将原始视频解析为视频帧序列；

对视频帧序列进行数据增强处理，数据增强处理可以是对原视频帧按照网络训练要求等比例缩放以及对缩放后的视频帧进行中心裁剪、平移等操作；

可以理解的是，归一化主要是指将剪裁后的视频帧转换成张量形式，正则化则指的是对张量进行正则化。

由于视频数据的起始处存在大量冗余帧，为了减少冗余帧对识别结果的影响，本实施例在数据预处理的过程中设置了视频解析环节，视频解析主要对原始视频数据进行视频帧剪切操作。

在模型训练阶段，本实施例选用来源于Youtube的UCF101数据集，该数据集的总视频数为13320个，共101个动作类别，如打字、俯卧撑、弹钢琴等。每个视频仅包含一个动作序列，长度为3-16秒不等。在UCF101数据集中，实验数据最短的视频为107帧，视频平均帧数约为200-300帧，故在保证数据尽量完整的前提下，裁剪帧数选为100帧，具体采样方式如下：

若视频帧数小于平均视频帧数(n≤200)，在(0，n-100)范围内随机生成一个整数k，由第k帧数开始选取100帧，忽略冗余帧的影响；

相反，当视频帧数大于平均视频帧数(n>200)时，在(n/2-100，n-100)范围内随机生成一个整数k，然后再从第k帧起，依次选取100帧图像。经过上述操作，本实施例在尽可能保持数据信息完整的前提下降低了视频首尾冗余帧的影响。

本实施例中特征提取部分共分为两个环节：空间特征提取和时序特征提取。在空间特征提取过程中，本实施例采用了融入G-CBAM的残差网络，提取图像数据中的空间特征，并对图像数据进行背景弱化处理；其中，融入G-CBAM的残差网络是将G-CBAM融入残差网络的残差模块得到的；而在时序特征提取过程中，本实施例采用了结合TAM(Time AttentionModule，时序注意力模块)的LSTM(Long Short-Term Memory，长短期记忆网络)网络，提取背景弱化后图像数据中的时序特征，并为图像数据中各帧图像分配相应的权重，将各帧图像的时序特征进行加权融合，得到动作特征值。

更具体地，本实施例中时序特征提取环节，可以细化为以下两个步骤：

通过长短期记忆网络提取背景弱化后图像数据中各帧图像的时序特征；

通过时序注意力模块为图像数据中各帧图像分配相应的权重，将各帧图像的时序特征进行加权融合，得到动作特征值。

下面分别对空间特征提取环节和时序特征提取环节的特征提取原理进行详细说明：

本实施例中空间特征提取环节主要通过融入G-CBAM的残差网络实现，对于残差网络部分，由于人体动作识别的数据规模相对较大，且模型复杂度较高，因此本实施例中残差网络选用ResNet18，ResNet18是一种轻便易优化的残差网络模型，能够有效的解决随着网络层数加深梯度消失和网络性能退化的问题。

ResNet18网络由8个残差模块组成，其中残差模块的结构如附图3所示，每个残差模块包括两个3×3的卷积核，右侧的曲线代表捷径连接，可以直接把输入x传递到输出位置，而左侧虚线框中的结构对应残差网络的残差模块，其输出为F(x)，总体输出如式(1)所示：

H(x)＝F(x)+x (1)

其中，H(x)为残差网络的输出，F(x)为残差模块的输出，x为输入数据。

对于G-CBAM部分，G-CBAM可以解释为改进的卷积注意力模块，主要通过对现有的CBAM(Convolutional Block Attention Module，卷积注意力模块)进行改进后获得，CBAM的结构如附图4所示，主要包括通道注意力模块和空间注意力模块，在训练过程中，网络的各个节点会根据输入特征不断调整其对应的参数，并且更易受到后输入特征的影响。在网络权重共享时，若使用同一多层感知器(Multi-Layer Perceptron，MLP)对两组特征进行权重训练，会造成无法合理分配权重的问题。

为此，本实施例对CBAM的通道注意力模块进行改进，改进后的通道注意力模块(即通道注意力层)如附图5所示，具体地，通道注意力层具体包括：

池化处理子层，用于对图像数据分别进行平均池化处理和最大池化处理，得到平均池化特征和最大池化特征；

特征拼接子层，用于将平均池化特征和最大池化特征进行拼接；

运算子层，用于将拼接后的特征与多层感知器中的权值矩阵进行运算，得到通道注意力加权系数。

也就是说，改进后通道注意力层在通过MLP训练权重w₁′和w₂′之前，先将经过平均池化和最大池化后的特征拼接，此过程如下式(2)所示：

其中，M_C表示通道注意力加权系数，[MaxPool(F)；AvgPool(F)]表示拼接融合后的特征，σ表示Sigmoid激活函数，w₁′和w₂′是多层感知器MLP中的权值矩阵，

分别表示最大池化特征和平均池化特征。

然后把输入特征F与通道注意力加权系数M_C相乘，结果F′是新的特征。再将F′输入到空间注意力层得到空间注意力加权系数M_S。最后，将M_S与F′相乘，得到最终的注意力特征F"。上述过程涉及的公式如下：

权重w₁′和w₂′分别对应MLP中包含的两个FC层。通过改进后CBAM的通道注意力层，经由MLP的第一个FC层训练能够获得更多的权重参数量，有效提升了网络模型的性能。此外改进后利用MLP的第二个FC层能够同时计算最大池化和平均池化两部分的特征，从而将两部分特征的关联性更好的拟合。将G-CBAM融入残差网络后得到的网络模型结构如附图6所示。

本实施例中时序特征提取环节主要通过融入TAM的LSTM实现，对于LSTM，其基本结构如附图7所示，它通过输入门、遗忘门和输出门，完成信息的输入和输出。

其中，输入门由附图7中间的σ层、tanh层以及一个逐点相乘

构成，决定当前时刻的输入x_t有多少需要保存到当前的单元状态c_t中。

遗忘门由附图7左侧的σ层和一个逐点相乘

构成，决定上一时刻的c_t-1是否保留到当前时刻的c_t中。

输出门由附图7右侧的σ层和一个逐点相乘

构成，决定当前的单元状态c_t有多少可以传递到LSTM的当前输出值h_t中。LSTM的更新递归公式如下：

f_t＝σ(W_fh_t-1+U_f x_t+b_f) (5)

i_t＝σ(W_ih_t-1+U_ix_t+b_i) (6)

c_t′＝＝tanh(W_ch_t-1+U_cx_t+b_c) (7)

c_t＝＝f_tc_t-1+i_tc_t′ (8)

O_t＝σ(W₀h_t-1+U₀x_t+b₀) (9)

h_t＝O_t·tanh c_t (10)

其中，f_t表示遗忘门，W_f、W_i、W_c、W₀表示输入值h_t-1对应的权重矩阵，h_t-1表示上一时刻LSTM的输入值，x_t表示当前时刻LSTM的输入值，b_f、b_i、b_c、b₀表示偏置项，σ表示sigmoid函数，i_t表示输入门，c_t′表示当前输入的单元状态，c_t表示当前时刻的单元状态，O_t表示输出门，h_t表示LSTM最终的输出，U_f、U_i、U_c、U₀表示输入值x_t对应的权重矩阵。

可以理解的是，时序注意力模块的主要作用是：根据不同时刻LSTM的输出的重要程度，为视频帧序列动态的分配不同的加权系数，从而通过增加某些关键帧的信息占比来提高模型的识别准确率。

TAM的结构如附图8所示。其中，左侧的特征1，2，…，n代表模型中最后一层LSTM输出的n个特征张量，线框圈出的部分即为TAM的内部结构，最右侧部分为模型的动作识别部分。另外，在附图8中

和

分别代表逐点相乘函数和逐点相加函数。

从附图8所示的TAM内部结构中可以看出，它的基本工作机理是：

首先，LSTM输出的特征张量会经过TAM内部的全连接层得到初始状态张量s_t(t＝1，2，...，n)；

其次，利用tanh层把初始状态张量s_t转换成了它的标量形式Z_t，公式如下：

Z_t＝tanh(W_tS_t+b_t) (11)

其中，W_t为全连接层与tanh之间的权值矩阵，b_t为偏置系数，tanh为激活函数，Z_t描述了由初始状态张量s_t决定的信息量的大小。

接着，让所有tanh层的输出经过Softmax层，进而得到每一个初始状态张量s_t(t＝1，2，…，n)所对应的加权系数a_t(t＝1，2，...，n)，即：

最后，利用逐点相加函数将所有的初始状态张量进行加权融合，得到最终输出的状态张量S_t′，公式如下：

其中，S_t为初始状态张量，a_t为注意力加权系数。

为了使网络对视频中的关键帧更有效的进行学习，本实施例提出了融入TAM的时序特征提取网络模型，整体结构如附图9所示，该结构能够将LSTM在各个时刻的输出信息进行加权融合，因此最终得到的输出特征能够对各个时刻的视频帧进行充分而有效地描述，因此模型的识别效果也得到了进一步提升。

从附图9可以看出，在融入TAM的时序特征提取网络结构中，每一时刻LSTM的输出都会经过TAM，因而能够动态的对视频帧序列中的每一帧的重要程度进行评估，从而为各帧分配不同的加权系数。

例如：当某一帧的特征信息更具判别性时，TAM就会为该帧分配较大的加权值；反之，若某一帧为多个视频中都存在的高频的动作图像，如站立、静坐等，此时的视频帧特征信息含有较多干扰，TAM就会减少分配给该帧的加权值。

下面通过一个具体的实例详细的说明上述动作识别方法的实现原理。

本实施例以下蹲动作对应的视频数据为例，视频帧数据如附图10所示，从附图10中可以看出，视频的中间段能更加有效地对动作进行描述，本实施例采取视频帧剪切方法选取附图10中的34-99帧作为输入数据。使输入的数据更具有判别性。

利用Grad-CAM方法将特征提取部分的最后一层卷积所关注的动作特征进行可视化，即弱化图像背景，得到的图像如附图11所示。可以清楚的看到，融入G-CBAM的残差网络不仅能原始视频帧定位到关键特征所在区域，还能抑制其他无用信息。同时对关键特征的定位更加完整和准确，有效地提升了网络对判别性特征的学习。

在时序特征提取过程中，部分视频帧如附图12所示，其中第33帧动作判别性较低，故分配权重较低权重w₁，而其余帧数含有较高的特征信息，故w₂-w₄分配权重远大于w₁。

经过数据处理、特征提取环节后，本实施例在动作识别部分运用了Softmax分类器对人体动作进行识别，其工作原理如附图13所示。

从附图13可以看出，输入的视频帧序列先会通过网络的特征提取模块来提取视频动作的特征信息；之后，再利用全连接层将模型提取到的特征信息通过线性变换的方式，映射到动作样本的标记空间上(其中，全连接层的输出与动作类别的数目相同)；最后利用Softmax分类器对视频动作的类别进行概率评估，并将概率最大的动作类别作为视频动作的识别结果。

为了验证本实施例提供的动作识别方法对视频动作的识别效果，下面进行如下实验：

首先，实验环境设置如下：显卡选用GeForce RTX 1660super，显存为14GB；显卡驱动为nvidia456.71；硬盘容量为2TB。操作***为Ubuntu16.04；深度学习框架为pytorch1.8.1；通用并行计算架构选用cuda10.2；深度神经网络GPU加速库选用cudnn7.6.5。

该实验所采用的数据集为UCF101数据集，其中视频主要来源于Youtube，包含婴儿爬行、引体向上、黑板上写字、弹钢琴等多个动作，由于数据总量较大，本实验抽取20个具有代表性的动作进行模型测试，所选的20个动作如表1所示。每个动作选取80％作为训练集，10％用作验证集，10％作为测试集进行数据划分。

表1本实验选取的20个动作统计表

序号	类别	序号	类别
				1	画眉	11	引体向上
2	投篮	12	俯卧撑
				3	卧推	13	打字
4	骑自行车	14	黑板上写字
				5	高尔夫	15	滑雪
6	游泳	16	骑马
				7	纵跳	17	切东西
8	开合跳	18	排球
				9	刷牙	19	黑板上写字
10	弹钢琴	20	对墙俯卧撑

本实验通过对比传统的ResNet+LSTM网络模型和融入时空注意力机制后的ResNet+LSTM+G-CBAM+TAM网络模型在UCF101数据集上的识别效果，对模型精准度进行测试。二者在迭代训练过程中的准确率对比结果如图14所示，损失值对比结果如图15所示。传统ResNet+LSTM网络模型在UFC101数据集上的识别准确率为89.8％，而ResNet+LSTM+G-CBAM+TAM网络模型的识别平均准确率可达到95.9％，由训练结果可知，融入时空注意力机制后的网络模型识别效果有明显提升。

本实验还通过训练得出的权重参数进行了视频动作识别测试，测试准确率结果如图16所示，不难发现，本实验所采用的ResNet+G-CBAM+LSTM+TAM网络识准确率有明显提升。

由此可见，本实施例提供的动作识别方法，首先引入融入G-CBAM的残差网络提取空间特征，并将每一刻LSTM的输出都经过时序注意力模块，使网络模型对关键帧分配更大的权重，提升了模型识别的精准度。

下面对本发明提供的动作识别装置进行描述，下文描述的动作识别装置与上文描述的动作识别方法可相互对应参照。

附图17示出了本发明实施例提供的动作识别装置，包括：

获取模块171，用于获取待识别的原始视频；

动作识别模块172，用于将原始视频输入至动作识别模型，得到动作识别模型输出的动作识别结果；

本实施例提供的动作识别装置需要通过动作识别模型实现视频中动作的识别，动作识别模型首先对原始视频进行预处理，得到预处理后原始视频对应的图像数据；然后对图像数据进行空间特征提取和时序特征提取，并进行深度时序特征加权，得到动作特征值；最后根据动作特征值确定当前动作的类别，获得动作识别结果。

可以理解的是，数据预处理环节需要先将原始视频解析为视频帧序列；然后对视频帧序列进行数据增强处理；最后对数据增强处理后的视频帧序列进行归一化和正则化处理，得到预处理后原始视频对应的图像数据。

具体地，特征提取环节主要通过融入G-CBAM的残差网络提取图像数据中的空间特征，并对图像数据进行背景弱化处理；然后提取背景弱化后图像数据中的时序特征，并为图像数据中各帧图像分配相应的权重，将各帧图像的时序特征进行加权融合，得到动作特征值。

需要说明的是，G-CBAM是将现有的CBAM对其通道注意力模块改进后得到的，所以该G-CBAM主要包括通道注意力层和空间注意力层。在G-CBAM中，空间注意力层与原CBAM的空间注意力模块结构相同，通道注意力层增设了特征拼接子层，将平均池化和最大池化后得到的特征进行拼接后再与多层感知器中的权值矩阵进行运算，得到通道注意力加权系数。

接着通过空间注意力层进一步处理，得到空间注意力加权系数，并将空间注意力加权系数与通道维度关键特征相乘，得到图像数据的空间特征。

具体地，本实施例中时序特征提取环节具体通过长短期记忆网络提取背景弱化后图像数据中各帧图像的时序特征；通过时序注意力模块为图像数据中各帧图像分配相应的权重，将各帧图像的时序特征进行加权融合，得到动作特征值。

由此可见，本发明实施例提供的动作识别装置，通过动作识别模型实现视频动作的识别，动作识别模型在提取原始视频中的空间特征和时序特征后，需要通过深度时序特征加权获得动作特征值，深度时序特征加权可以为原始视频中的关键帧分配更大的权重，充分利用关键帧信息，从而有效提升了动作识别准确度。

附图18示例了一种电子设备的实体结构示意图，如图18所示，该电子设备可以包括：处理器(processor)181、通信接口(Communications Interface)182、存储器(memory)183和通信总线184，其中，处理器181，通信接口182，存储器183通过通信总线184完成相互间的通信。处理器181可以调用存储器183中的逻辑指令，以执行动作识别方法，该方法包括：获取待识别的原始视频；将原始视频输入至动作识别模型，得到动作识别模型输出的动作识别结果；其中，动作识别模型用于提取原始视频中的空间特征和时序特征，并进行深度时序特征加权获得动作特征值，基于动作特征值对原始视频进行动作识别。

此外，上述的存储器183中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的动作识别方法，该方法包括：获取待识别的原始视频；将原始视频输入至动作识别模型，得到动作识别模型输出的动作识别结果；其中，动作识别模型用于提取原始视频中的空间特征和时序特征，并进行深度时序特征加权获得动作特征值，基于动作特征值对原始视频进行动作识别。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的动作识别方法，该方法包括：获取待识别的原始视频；将原始视频输入至动作识别模型，得到动作识别模型输出的动作识别结果；其中，动作识别模型用于提取原始视频中的空间特征和时序特征，并进行深度时序特征加权获得动作特征值，基于动作特征值对原始视频进行动作识别。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种动作识别方法，其特征在于，包括：

获取待识别的原始视频；

2.根据权利要求1所述的一种动作识别方法，其特征在于，将所述原始视频输入至动作识别模型，得到所述动作识别模型输出的动作识别结果，包括：

3.根据权利要求2所述的一种动作识别方法，其特征在于，所述数据预处理的过程，包括：

将所述原始视频解析为视频帧序列；

对所述视频帧序列进行数据增强处理；

4.根据权利要求2所述的一种动作识别方法，其特征在于，所述特征提取的过程，包括：

5.根据权利要求4所述的一种动作识别方法，其特征在于，所述G-CBAM包括通道注意力层和空间注意力层；

所述通道注意力层包括：

6.根据权利要求4所述的一种动作识别方法，其特征在于，所述时序特征提取的过程，包括：

7.一种动作识别装置，其特征在于，包括：

获取模块，用于获取待识别的原始视频；

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述动作识别方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述动作识别方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述动作识别方法的步骤。