CN112200041B

CN112200041B - 视频动作识别方法、装置、存储介质与电子设备

Info

Publication number: CN112200041B
Application number: CN202011055889.5A
Authority: CN
Inventors: 尹康; 吴宇斌; 孔翰; 郭烽
Original assignee: Oppo Chongqing Intelligent Technology Co Ltd
Current assignee: Oppo Chongqing Intelligent Technology Co Ltd
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2022-08-02
Anticipated expiration: 2040-09-29
Also published as: CN112200041A

Abstract

本公开提供了一种视频动作识别方法、装置、计算机可读存储介质与电子设备，涉及计算机视觉技术领域。其中，所述视频动作识别方法包括：在待处理视频的图像帧中检测人体关键点，根据各所述图像帧中所述人体关键点的位置信息形成所述人体关键点的二维坐标序列；基于所述二维坐标序列进行三维重建，生成所述人体关键点的三维坐标数据；对所述三维坐标数据进行动作识别处理，得到所述待处理视频的动作识别结果。本公开提高了视频动作识别的准确度，并降低了数据处理量。

Description

视频动作识别方法、装置、存储介质与电子设备

技术领域

本公开涉及计算机视觉技术领域，尤其涉及一种视频动作识别方法、视频动作识别装置、计算机可读存储介质与电子设备。

背景技术

视频动作识别是计算机视觉领域一项重要任务，在视频分类、电子监控、广告投放等场景中有着广泛应用。相比于图像，视频内容更加复杂多变，且视频拍摄时可能存在遮挡、抖动、视角变化等，为动作识别带来更多困难。

相关技术中，视频动作识别大多基于图像动作识别来实现，其处理过程一般为：首先对视频逐帧进行图像特征提取，然后利用特征融合方法将图像特征融合为整个视频的全局特征，最后基于全局特征的处理得到动作识别结果。然而，该方法所能实现的识别准确度较低，且提取图像特征时得到大量与动作识别无关的冗余信息，导致数据处理量较高。

发明内容

本公开提供了一种视频动作识别方法、视频动作识别装置、计算机可读存储介质与电子设备，进而一定程度上解决相关技术中识别准确度较低、数据处理量较高的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的第一方面，提供一种视频动作识别方法，包括：在待处理视频的图像帧中检测人体关键点，根据各所述图像帧中所述人体关键点的位置信息形成所述人体关键点的二维坐标序列；基于所述二维坐标序列进行三维重建，生成所述人体关键点的三维坐标数据；对所述三维坐标数据进行动作识别处理，得到所述待处理视频的动作识别结果。

根据本公开的第二方面，提供一种视频动作识别装置，包括：关键点检测模块，用于在待处理视频的图像帧中检测人体关键点，根据各所述图像帧中所述人体关键点的位置信息形成所述人体关键点的二维坐标序列；三维重建模块，用于基于所述二维坐标序列进行三维重建，生成所述人体关键点的三维坐标数据；动作识别模块，用于对所述三维坐标数据进行动作识别处理，得到所述待处理视频的动作识别结果。

根据本公开的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面的视频动作识别方法及其可能的实施方式。

根据本公开的第四方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述第一方面的视频动作识别方法及其可能的实施方式。

本公开的技术方案具有以下有益效果：

从待处理视频的图像帧中提取人体关键点的二维坐标序列，并重建为三维坐标数据，再进行动作识别，得到待处理视频的动作识别结果。一方面，人体关键点的信息与动作具有强相关性，相当于引入了动作识别场景的先验信息，并且通过三维重建，得到信息更加丰富的三维坐标数据，从而提高了动作识别的准确度。另一方面，本方案无需提取视频中图像帧的全部特征，而仅提取与动作识别相关的人体关键点的信息，由此减少了冗余信息，降低了数据处理量。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施方式，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出本示例性实施方式中运行环境的***架构示意图；

图2示出本示例性实施方式中一种视频动作识别方法的流程图；

图3示出本示例性实施方式中一种三维重建网络的示意图；

图4示出本示例性实施方式中一种训练CNN的流程图；

图5示出本示例性实施方式中一种确定第二损失函数的流程图；

图6示出本示例性实施方式中视频动作识别流程的示意图；

图7示出本示例性实施方式中CNN训练与测试流程的示意图；

图8示出本示例性实施方式中一种视频动作识别装置的结构图；

图9示出本示例性实施方式中一种电子设备的结构图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

相关技术中，通过提取图像特征并融合的方式进行视频动作识别，仍然属于通用视频分类任务的范畴，未能有效利用视频动作识别场景的特点，因此所能实现的准确度有限。

鉴于上述问题，本公开的示例性实施方式提供一种视频动作识别方法。图1示出了该视频动作识别方法运行环境的***架构示意图。如图1所示，该***架构100可以包括：终端110、网络120和服务器130。终端110可以是具有视频拍摄或视频播放功能的各种电子设备，包括但不限于手机、平板电脑、数码相机、个人电脑等。网络120用以在终端110和服务器130之间提供通信链路的介质，可以包括各种连接类型，例如有线、无线通信链路等。应该理解，图1中的终端、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端、网络和服务器。比如服务器130可以是多个服务器组成的服务器集群等。

本公开实施方式所提供的视频动作识别方法可以由终端110执行，例如在终端110拍摄视频后，对视频进行动作识别；也可以由服务器130执行，例如终端110拍摄视频后，上传到服务器130，使服务器130对视频进行动作识别。本公开对此不做限定。

图2示出了视频动作识别方法的示例性流程，可以包括以下步骤S210至S230：

步骤S210，在待处理视频的图像帧中检测人体关键点，根据各图像帧中人体关键点的位置信息形成人体关键点的二维坐标序列；

步骤S220，基于上述二维坐标序列进行三维重建，生成人体关键点的三维坐标数据；

步骤S230，对上述三维坐标数据进行动作识别处理，得到待处理视频的动作识别结果。

上述方法中，从待处理视频的图像帧中提取人体关键点的二维坐标序列，并重建为三维坐标数据，再进行动作识别，得到待处理视频的动作识别结果。一方面，人体关键点的信息与动作具有强相关性，相当于引入了动作识别场景的先验信息，并且通过三维重建，得到信息更加丰富的三维坐标数据，从而提高了动作识别的准确度。另一方面，本方案无需提取视频中图像帧的全部特征，而仅提取与动作识别相关的人体关键点的信息，由此减少了冗余信息，降低了数据处理量。

下面对图2中的每个步骤做具体说明。

步骤S210中，在待处理视频的图像帧中检测人体关键点，根据各图像帧中人体关键点的位置信息形成人体关键点的二维坐标序列。

人体关键点可以包括头部、颈部、肩部、肘部、手部、腰部、膝盖、足部等。本示例性实施方式中，可以预先选取J个人体关键点，对于待处理视频中的图像帧，检测这J个人体关键点，得到各图像帧中人体关键点的位置信息，例如可以是每个人体关键点的二维像素坐标，每个图像帧得到J×2维度的二维坐标数据，如可以是J×2的矩阵。将每个图像帧的二维坐标数据按照图像帧在视频中的先后顺序排列，形成人体关键点的二维坐标序列。

在一种可选的实施方式中，步骤S210可以包括：利用预先训练的关键点提取网络，从待处理视频的各图像帧中提取人体关键点的位置信息，得到人体关键点的二维坐标序列。

其中，关键点提取网络可以采用开源的人类肢体识别网络，如DeepCut、DeeperCut、OpenPose等。此外，也可以采用自主设计的网络，并结合特定场景下的图像数据集进行训练，可能得到更好的效果。自主设计的关键点提取网络可以是以下两种结构：

卷积层与全连接层。卷积层可以设置为不同的尺寸，从多尺度提取单帧图像的特征；全连接层的输出节点数量可以设置为J×2，对应于J个人体关键点的二维坐标数据。

全卷积结构。输出可以设置为J张特征谱(Feature Map)，每张特征谱上值最大的点对应一个关键点，通过融合J张特征谱的关键点坐标，得到J×2的二维坐标数据。

特定场景是指不同类型的动作场景，如旅游、体感游戏、体育比赛、楼宇监控等。以体育比赛为例，获取大量的体育比赛图像，并标注出其中的人体关键点，由此形成体育比赛场景的图像数据集。利用该图像数据集训练关键点提取网络，可以在体育比赛图像中实现更加准确的人体关键点检测。

在一种可选的实施方式中，也可以采用图像描述算法，如SIFT(Scale-InvariantFeature Transform，尺度不变特征变换)算法等，对图像帧中的人体关键点进行描述与检测。

需要说明的是，可以针对视频中的一部分图像帧进行人体关键点检测，也可以检测全部的图像帧。举例来说：

可以在待处理视频的每一帧图像中均检测人体关键点，假设待处理视频共包括L₁帧，这样得到L₁×J×2的二维坐标序列，信息最为完整。可能存在部分图像帧中没有出现人、人体被遮挡等情况，导致无法检测到人体关键点，对于这些人体关键点，可以以预设数据作为其位置信息，预设数据可以是(0，0)或其他数值等，由此保证每个图像帧对应的二维坐标数据具有相同的维度，便于后续处理。

为了降低图像数量，提高处理效率，可以对待处理视频的图像帧进行筛选，在一种可选的实施方式中，具体可以为：

从待处理视频中提取关键帧图像；

在关键帧图像中检测人体关键点。

提取关键帧图像的方式包括但不限于：

从待处理视频中随机提取关键帧图像；

每间隔一定的帧数选取一帧作为关键帧图像，或者每间隔一定的帧数删除一帧，剩余的为关键帧图像；

对图像帧中的人体部分进行预检测，筛选出人体部分完整、清晰的图像帧，例如将待处理视频中的每一帧图像均输入预先训练的人体预检测模型(如可以是不同于上述关键点提取网络的另一神经网络模型)，输出对应的置信度，表示图像中包含人体的概率，该置信度高于预设的置信度阈值(可以根据经验或实际情况设定，如70％、80％等)时，将对应的图像确定为关键帧图像。

由此，在确定关键帧图像后，仅对关键帧图像进行人体关键点的检测，对于其他图像帧不进行检测，从而进一步提高了处理效率。

继续参考图2，步骤S220中，基于上述二维坐标序列进行三维重建，生成人体关键点的三维坐标数据。

二维坐标序列包含了人体动作在不同帧之间的连续性信息，基于此可以进行三维重建。例如，二维坐标虽然只有平面的x轴与y轴数据，通过不同帧之间的二维坐标变化，可以重建出z轴数据，从而得到三维坐标数据。

在一种可选的实施方式中，步骤S220包括：利用预先训练的三维重建网络对二维坐标序列进行三维重建，生成人体关键点的三维坐标数据。

在三维重建网络中，通过维度与通道数的变换，可以预测第三维的坐标数据。例如，将L₁×J×2的二维坐标序列输入三维重建网络，网络对不同通道的J×2的二维坐标数据进行计算，输出L₂×J×3的三维坐标数据。其中J×3表示三维坐标，L₂表示三维坐标的通道数，通常L₂小于L₁。特别的，当L₂大于1时，所得到的L₂×J×3的三维坐标数据实际是由多通道的数据形成的三维坐标序列，这里L₂个通道可视为由原L₁个图像帧的数据进行融合后得到的L₂个虚拟的三维图像帧，每个三维图像帧对应于J个关键点的三维坐标。

利用三维重建网络进行三维重建的过程，具体可以是：利用三维重建网络中的卷积核，从二维坐标序列中提取邻域内的特征数据并进行处理，得到对应的三维坐标数据。将L₁×J×2的二维坐标序列视为L₁通道的J×2图像，可以采用卷积的方式对数据进行处理，卷积可以从二维坐标序列中的邻域内提取特征数据，邻域可以是一定范围内相邻或距离较近的通道。图3示出了三维重建网络的示意图，首先提取二维坐标数据序列中每相邻两个通道的二维坐标数据，经过卷积核的加权以及偏置计算，得到第一卷积层的特征数据；再每间隔两个通道，提取两个通道的二维坐标数据(如通道1和通道4，通道2和通道5)，经过卷积核的加权以及偏置计算，得到第二卷积层的特征数据，即三维坐标数据。

在三维重建网络中，卷积核所提取的数据并不一定是相邻通道的数据，即卷积核可以是膨胀卷积核，由此能够扩大感受野，以在更大尺度(即在视频中更长的时间戳范围)内提取特征数据，得到更加有效的三维坐标数据。

需要说明的是，在图3中，相当于设置第一卷积层的空洞为0，设置第二卷积层的空洞为2，这仅是示例性的，本公开对于卷积层的数量、卷积核的数量、卷积层的空洞值等不做具体限定。

继续参考图2，步骤S230中，对上述三维坐标数据进行动作识别处理，得到待处理视频的动作识别结果。

由此，将视频动作识别处理简化为三维坐标数据的动作识别处理。三维坐标数据体现了待处理视频中与动作识别相关的全部信息，因而能够实现较高的准确度与较低的计算量。

本示例性实施方式中，可以预先设置不同的动作类别，如慢跑、跳跃、招手等，待处理视频的动作识别结果对应于其中某一个类别，即动作分类结果。

在一种可选的实施方式中，步骤S230可以包括：利用预先训练的动作识别网络对三维坐标数据进行处理，得到待处理视频的动作识别结果。

动作识别网络可以对三维坐标数据进行特征处理，可以采用以下两种结构：类似于图像处理的卷积结构，适用于三维坐标数据的通道数较少的情况；LSTM(Long Short-Term Memory，长短期记忆网络)结构，适用于三维坐标数据的通道数较多的情况。无论哪种结构，在经过特征处理后，可以通过一个全连接层输出D维向量P＝{p₁,p₂,…,p_D}，D为预先设置的动作类别数目；进而对向量P进行Softmax(归一化指数函数)操作，如下所示

其中σ(·)表示Sigmoid函数。选取向量P中最大数值对应的类别，作为视频动作识别结果。

上述关键点提取网络、三维重建网络、动作识别网络可以是三个独立的神经网络，也可以将任意两个或者全部三个网络设置在同一个大的神经网络中。

在一种可选的实施方式中，三维重建网络和动作识别网络均为同一CNN(Convolutional Neural Network，卷积神经网络)中的子网络。例如，三维重建网络的最后一层连接动作识别网络的第一层。

参考图4所示，该CNN可以通过以下步骤S410至S450进行训练：

步骤S410，在样本视频的图像帧中检测人体关键点，根据样本视频的各图像帧中人体关键点的位置信息形成人体关键点的二维坐标样本序列。

二维坐标样本序列为样本视频对应的二维坐标序列。在训练前，可以获取视频数据集，其中包含了相同或相近场景中的大量样本视频，每个样本视频具有动作标签(groundtruth)，一般是人为标注的动作识别结果。

对于样本视频的图像帧检测人体关键点的方式与步骤S210相同，得到样本视频对应的二维坐标样本序列，其数据格式、维度等与步骤S210中得到的二维坐标序列相同。

在一种可选的实施方式中，进行人体关键点检测前，可以先将样本视频的图像帧归一化为预设尺寸，如448×448像素；将动作标签转化one-hot(独热)向量；将样本视频的图像帧序列和动作标签的向量打包封装进二进制文件(如可以采用tfrecord格式)以加速训练过程。

步骤S420，将二维坐标样本序列输入待训练的CNN，输出样本视频的动作识别结果，并从CNN的中间层提取人体关键点的三维坐标样本数据。

样本视频对应的二维坐标样本序列和动作标签(一般是人工标注的)形成一对训练数据，二维坐标样本序列输入到CNN中，输出样本视频的动作识别结果，并从CNN的中间层(是三维重建网络部分的最后一层)提取三维坐标样本数据。三维坐标样本数据为样本视频对应的三维坐标数据，其数据格式、维度等与步骤S220中得到的三维坐标数据相同。

步骤S430，根据样本视频的动作识别结果和样本视频的动作标签确定第一损失函数。

基于样本视频的动作识别结果和动作标签之间的偏差，可以通过交叉熵等方式构建第一损失函数，即为Loss₁。

步骤S440，根据二维坐标样本序列和三维坐标样本数据确定第二损失函数。

二维坐标样本序列和三维坐标样本数据所反映的人体关键点之间的位置关系应当是相近的，由此可以设置一个约束条件，并构建相应的第二损失函数，记为Loss₂。第二损失函数表示二维坐标样本序列中不同人体关键点之间的位置关系信息，与三维坐标样本数据中不同人体关键点之间的位置关系信息的偏差。

步骤S450，利用第一损失函数和第二损失函数更新CNN的参数。

训练CNN的目标是同时优化Loss1和Loss2。例如可以设置综合损失函数Loss₀：

Loss₀＝αLoss₁+(1-α)Loss₂ (2)

其中，α为0～1之间的加权因子，反映Loss₁所占的权重，可以根据实际情况设定数值。通过反向传播计算Loss₀对CNN各个参数的梯度，并通过梯度下降更新参数。迭代更新过程，直到CNN达到一定的准确率，确定训练完成。

通过图4的方法，可以同时训练三维重建网络与动作识别网络，提高训练效率，并且设置第一损失函数与第二损失函数，相比于常规训练中预测数据与标签的约束条件，增加了二维坐标样本序列和三维坐标样本数据的约束条件，从而有利于实现更加准确的训练。

进一步的，参考图5所示，步骤S440可以通过以下步骤S510至S530实现：

步骤S510，通过二维坐标样本序列中预设人体关键点之间的距离得到二维关节距离数据；

步骤S520，通过三维坐标样本数据中预设人体关键点之间的距离得到三维关节距离数据；

步骤S530，根据上述二维关节距离数据和三维关节距离数据确定第二损失函数。

举例来说，在人体关键点中预先设置多组点对，如头部-颈部，左肩部-左手肘，左手肘-左手部，右肩部-右手肘，右手肘-右手部，颈部-腰部等。在二维坐标样本序列中，分别采用每个通道的二维坐标数据计算上述点对之间的距离，记为二维关节距离数据，如通道1的二维关节距离数据记为H₁＝{h₁₁，h₁₂，...，h_1m}，h11表示头部-颈部距离，h12表示左肩部-左手肘距离等等，m为预设的点对数目；通道2的二维关节距离数据记为H₂＝{h₂₁，h₂₂，...，h_2m}。将所有通道的二维关节距离数据在相同维度上求平均值，得到

记为二维关节距离向量。对三维坐标样本数据进行同样处理，得到

记为三维关节距离向量，g表示三维坐标下点对的距离。计算二维关节距离向量与三维关节距离向量的欧式距离，即对每组点对的二维关节距离数据与三维关节距离数据计算均方误差，得到第二损失函数。

在一种可选的实施方式中，步骤S210采用的关键点提取网络也可以是上述CNN中的子网络。参考图6所示，CNN包括关键点提取网络、三维重建网络、动作识别网络这三个子网络。视频动作识别的流程可以包括：从待处理视频中提取图像帧，形成视频帧序列，输入上述关键点提取网络，得到二维坐标序列，再输入三维重建网络，得到三维坐标数据，再输入动作识别网络，输出最终的动作识别结果，其中二维坐标序列和三维坐标数据都属于CNN的中间数据。

图7示出了本示例性实施方式训练上述CNN的示意图，包括训练与测试两个阶段。将视频数据集划分为训练集和测试集(例如可以按照6：4进行划分)。在训练时，以训练集中的样本视频输入CNN，得到预测数据，即样本视频的动作识别结果，将其与样本视频的动作标签代入第一损失函数，同时还可以确定第二损失函数，根据第一损失函数与第二损失函数对CNN的参数进行更新，即同时对三个子网络进行训练，非常高效。在测试阶段，将测试集中的测试视频输入训练后的CNN，输出对应的动作识别结果。计算在测试集上的准确率，若达到预定的标准，则确定训练完成，得到可用的CNN。

本公开的示例性实施方式还提供一种视频动作识别装置。参考图8所示，该视频动作识别装置800可以包括：

关键点检测模块810，用于在待处理视频的图像帧中检测人体关键点，根据各图像帧中人体关键点的位置信息形成人体关键点的二维坐标序列；

三维重建模块820，用于基于上述二维坐标序列进行三维重建，生成人体关键点的三维坐标数据；

动作识别模块830，用于对上述三维坐标数据进行动作识别处理，得到待处理视频的动作识别结果。

在一种可选的实施方式中，三维重建模块820，被配置为：

利用预先训练的三维重建网络对二维坐标序列进行三维重建，生成人体关键点的三维坐标数据。

在一种可选的实施方式中，三维重建模块820，被配置为：

利用三维重建网络中的卷积核，从二维坐标序列中提取邻域内的特征数据并进行处理，得到对应的三维坐标数据。

在一种可选的实施方式中，上述卷积核包括膨胀卷积核。

在一种可选的实施方式中，动作识别模块830，被配置为：

利用预先训练的动作识别网络对三维坐标数据进行处理，得到待处理视频的动作识别结果。

在一种可选的实施方式中，上述三维重建网络和动作识别网络均为同一卷积神经网络中的子网络。

在一种可选的实施方式中，视频动作识别装置800还包括网络训练模块，被配置为：

在样本视频的图像帧中检测人体关键点，根据样本视频的各图像帧中人体关键点的位置信息形成人体关键点的二维坐标样本序列；二维坐标样本序列为样本视频对应的二维坐标序列；

将二维坐标样本序列输入待训练的卷积神经网络，输出样本视频的动作识别结果，并从卷积神经网络的中间层提取人体关键点的三维坐标样本数据；三维坐标样本数据为样本视频对应的三维坐标数据；

根据样本视频的动作识别结果和样本视频的动作标签确定第一损失函数；

根据二维坐标样本序列和三维坐标样本数据确定第二损失函数；

利用第一损失函数和第二损失函数更新卷积神经网络的参数。

在一种可选的实施方式中，上述网络训练模块，被配置为：

通过二维坐标样本序列中预设人体关键点之间的距离得到二维关节距离数据；

通过三维坐标样本数据中预设人体关键点之间的距离得到三维关节距离数据；

根据二维关节距离数据和三维关节距离数据确定第二损失函数。

在一种可选的实施方式中，关键点检测模块810，被配置为：

利用预先训练的关键点提取网络，从待处理视频的各图像帧中提取人体关键点的位置信息，得到人体关键点的二维坐标序列。其中，关键点提取网络为上述卷积神经网络的子网络。

在一种可选的实施方式中，关键点检测模块810，被配置为：

在待处理视频的每一帧图像中检测人体关键点。

在一种可选的实施方式中，关键点检测模块810，被配置为：

从待处理视频中提取关键帧图像；

在关键帧图像中检测人体关键点。

在一种可选的实施方式中，关键点检测模块810，被配置为：

在检测人体关键点时，对于无法检测到的人体关键点，以预设数据作为其位置信息。

在一种可选的实施方式中，上述三维坐标数据可以是三维坐标序列。

上述装置中各部分的具体细节在方法部分实施方式中已经详细说明，因而不再赘述。

本公开的示例性实施方式还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤，例如可以执行图2、图4或图5中任意一个或多个步骤。该程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本公开的示例性实施方式还提供了一种电子设备，可以是上述云端的服务器或终端。下面参考图9对该电子设备进行说明。应当理解，图9显示的电子设备900仅仅是一个示例，不应对本本公开实施方式的功能和使用范围带来任何限制。

如图9所示，电子设备900以通用计算设备的形式表现。电子设备900的组件可以包括但不限于：至少一个处理单元910、至少一个存储单元920、连接不同***组件(包括存储单元920和处理单元910)的总线930。

其中，存储单元存储有程序代码，程序代码可以被处理单元910执行，使得处理单元910执行本说明书上述"示例性方法"部分中描述的根据本发明各种示例性实施方式的步骤。例如，处理单元910可以执行如图2所示的方法步骤等。

存储单元920可以包括易失性存储单元，例如随机存取存储单元(RAM)921和/或高速缓存存储单元922，还可以进一步包括只读存储单元(ROM)923。

存储单元920还可以包括具有一组(至少一个)程序模块925的程序/实用工具924，这样的程序模块925包括但不限于：操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线930可以包括数据总线、地址总线和控制总线。

电子设备900也可以与一个或多个外部设备1000(例如键盘、指向设备、蓝牙设备等)通信，这种通信可以通过输入/输出(I/O)接口940进行。电子设备900还可以通过网络适配器950与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器950通过总线930与电子设备900的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备900使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为***、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“***”。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施方式。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施方式仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限定。

Claims

1.一种视频动作识别方法，其特征在于，包括：

在待处理视频的图像帧中检测人体关键点，根据各所述图像帧中所述人体关键点的位置信息形成所述人体关键点的二维坐标序列；

利用预先训练的三维重建网络对所述二维坐标序列进行三维重建，生成所述人体关键点的三维坐标数据；

利用预先训练的动作识别网络对所述三维坐标数据进行处理，得到所述待处理视频的动作识别结果；

所述三维重建网络和所述动作识别网络均为同一卷积神经网络中的子网络；所述卷积神经网络通过以下方式训练：

在样本视频的图像帧中检测人体关键点，根据所述样本视频的各图像帧中所述人体关键点的位置信息形成所述人体关键点的二维坐标样本序列；所述二维坐标样本序列为所述样本视频对应的二维坐标序列；

将所述二维坐标样本序列输入待训练的所述卷积神经网络，输出所述样本视频的动作识别结果，并从所述卷积神经网络的中间层提取所述人体关键点的三维坐标样本数据；所述三维坐标样本数据为所述样本视频对应的三维坐标数据；

根据所述样本视频的动作识别结果和所述样本视频的动作标签确定第一损失函数；

根据所述二维坐标样本序列和所述三维坐标样本数据确定第二损失函数；所述第二损失函数表示所述二维坐标样本序列中不同人体关键点之间的位置关系信息与所述三维坐标样本数据中不同人体关键点之间的位置关系信息的偏差；

利用所述第一损失函数和所述第二损失函数更新所述卷积神经网络的参数。

2.根据权利要求1所述的方法，其特征在于，所述二维坐标序列的维度为L₁×J×2，所述三维坐标数据的维度为L₂×J×3；其中，L₁表示所述待处理视频的图像帧数，J表示人体关键点的数量，L₂表示所述三维坐标数据的通道数，L₂小于L₁。

3.根据权利要求1所述的方法，其特征在于，所述利用预先训练的三维重建网络对所述二维坐标序列进行三维重建，生成所述人体关键点的三维坐标数据，包括：

利用所述三维重建网络中的卷积核，从所述二维坐标序列中提取邻域内的特征数据并进行处理，得到对应的所述三维坐标数据。

4.根据权利要求3所述的方法，其特征在于，所述卷积核包括膨胀卷积核。

5.根据权利要求1所述的方法，其特征在于，在所述卷积神经网络中，所述三维重建网络的最后一层连接所述动作识别网络的第一层。

6.根据权利要求1所述的方法，其特征在于，在样本视频的图像帧中检测人体关键点之前，所述方法还包括：

将所述样本视频的图像帧归一化为预设尺寸；

将所述动作标签转化one-hot向量；

将归一化为预设尺寸后的所述图像帧的序列和所述one-hot向量打包封装进二进制文件。

7.根据权利要求1所述的方法，其特征在于，所述利用所述第一损失函数和所述第二损失函数更新所述卷积神经网络的参数，包括：

对所述第一损失函数和所述第二损失函数加权，得到综合损失函数；

利用所述综合损失函数更新所述卷积神经网络的参数。

8.根据权利要求1所述的方法，其特征在于，所述根据所述二维坐标样本序列和所述三维坐标样本数据确定第二损失函数，包括：

通过所述二维坐标样本序列中预设人体关键点之间的距离得到二维关节距离数据；

通过所述三维坐标样本数据中所述预设人体关键点之间的距离得到三维关节距离数据；

根据所述二维关节距离数据和所述三维关节距离数据确定所述第二损失函数。

9.根据权利要求1所述的方法，其特征在于，所述在待处理视频的图像帧中检测人体关键点，根据各所述图像帧中所述人体关键点的位置信息形成所述人体关键点的二维坐标序列，包括：

利用预先训练的关键点提取网络，从所述待处理视频的各所述图像帧中提取所述人体关键点的位置信息，得到所述人体关键点的二维坐标序列；

所述关键点提取网络为所述卷积神经网络的子网络。

10.根据权利要求1所述的方法，其特征在于，所述在待处理视频的图像帧中检测人体关键点，包括：

在所述待处理视频的每一帧图像中检测所述人体关键点。

11.根据权利要求1所述的方法，其特征在于，所述在待处理视频的图像帧中检测人体关键点，包括：

从所述待处理视频中提取关键帧图像；

在所述关键帧图像中检测所述人体关键点。

12.根据权利要求1至11任一项所述的方法，其特征在于，在检测所述人体关键点时，所述方法还包括：

对于无法检测到的人体关键点，以预设数据作为其位置信息。

13.根据权利要求1至11任一项所述的方法，其特征在于，所述三维坐标数据包括三维坐标序列。

14.一种视频动作识别装置，其特征在于，包括：

关键点检测模块，用于在待处理视频的图像帧中检测人体关键点，根据各所述图像帧中所述人体关键点的位置信息形成所述人体关键点的二维坐标序列；

三维重建模块，用于利用预先训练的三维重建网络对所述二维坐标序列进行三维重建，生成所述人体关键点的三维坐标数据；

动作识别模块，用于利用预先训练的动作识别网络对所述三维坐标数据进行处理，得到所述待处理视频的动作识别结果；

所述三维重建网络和所述动作识别网络均为同一卷积神经网络中的子网络；所述视频动作识别装置还包括网络训练模块，用于：

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至13任一项所述的方法。

16.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至13任一项所述的方法。