CN112149602B

CN112149602B - 动作计数方法、装置、电子设备及存储介质

Info

Publication number: CN112149602B
Application number: CN202011059856.8A
Authority: CN
Inventors: 祁雷; 王雷; 张波; 陈广
Original assignee: Guangzhou Cubesili Information Technology Co Ltd
Current assignee: Guangzhou Cubesili Information Technology Co Ltd
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2022-03-25
Anticipated expiration: 2040-09-30
Also published as: CN112149602A

Abstract

本申请公开一种动作计数方法、装置、电子设备以及存储介质，通过获取待处理视频，继而获取待处理视频中的目标对象的骨骼关键点，再基于骨骼关键点获取目标关键点特征，再基于目标关键点特征，计算与待处理视频对应的相似度矩阵，然后基于相似度矩阵获取待处理视频中目标对象的动作次数。本方法可以实现仅通过对视频图像中的目标对象的骨骼关键点进行分析，而不需要对视频图像的整个画面进行分析的方式获取待处理视频中目标对象的动作次数，降低了计算复杂度，进而提升了动作计数的准确性。

Description

动作计数方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，更具体地，涉及一种动作计数方法、装置、电子设备以及存储介质。

背景技术

随着计算机视觉技术的发展，动作计数在包括行为监测、运动、游戏设计等领域已经有了广泛的应用。而现有的动作计数方法需要对视频图像的整个画面进行分析，从而将不可避免的引入大量与动作计数无关的干扰信息，增加计算的复杂度，同时降低动作计数的准确性。

发明内容

鉴于上述问题，本申请提出了一种动作计数方法、装置、电子设备及存储介质，以改善上述问题。

第一方面，本申请实施例提供了一种动作计数方法，应用于电子设备，该方法包括：获取待处理视频；获取所述待处理视频中的目标对象的骨骼关键点；基于所述骨骼关键点获取目标关键点特征；基于所述目标关键点特征，计算与所述待处理视频对应的相似度矩阵；基于所述相似度矩阵获取所述待处理视频中所述目标对象的动作次数。

第二方面，本申请实施例提供了一种动作计数装置，运行于电子设备，该装置包括：视频数据获取模块，用于获取待处理视频；骨骼关键点获取模块，用于获取所述待处理视频中的目标对象的骨骼关键点；关键点特征获取模块，用于基于所述骨骼关键点获取目标关键点特征；计算模块，用于基于所述目标关键点特征，计算与所述待处理视频对应的相似度矩阵；计数模块，用于基于所述相似度矩阵获取所述待处理视频中所述目标对象的动作次数。

第三方面，本申请实施例提供了一种电子设备，包括存储器以及一个或多个处理器；一个或多个程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于执行上述第一方面所述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质中存储有程序代码，其中，在程序代码被处理器运行时执行上述第一方面所述的方法。

本申请实施例提供的一种动作计数方法、装置、电子设备以及存储介质，通过获取待处理视频，继而获取待处理视频中的目标对象的骨骼关键点，再基于骨骼关键点获取目标关键点特征，再基于目标关键点特征，计算与待处理视频对应的相似度矩阵，然后基于相似度矩阵获取待处理视频中目标对象的动作次数。从而通过上述方式实现了在获取了待处理视频中的目标对象的骨骼关键点的情况下，可以基于骨骼关键点获取目标关键点特征，进而基于目标关键点特征，计算与待处理视频对应的相似度矩阵，然后基于相似度矩阵获取待处理视频中目标对象的动作次数，使得可以仅通过对视频图像中的目标对象的骨骼关键点进行分析，而不需要对视频图像的整个画面进行分析，降低了计算复杂度，进而提升了动作计数的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出了本申请实施例提供的一种应用环境示意图。

图2示出了本申请一实施例提供的一种动作计数方法的方法流程图。

图3示出了图2中的步骤S120的方法流程图。

图4示出了图3中的步骤S122的方法流程图。

图5示出了本申请实施例提供的目标对象的骨骼关键点位置示意图。

图6示出了图2中的步骤S130的方法流程图。

图7示出了图2中的步骤S140的方法流程图。

图8示出了图2中的步骤S150的方法流程图。

图9示出了本申请实施例提供的动作计数神经网络的网络结构示意图。

图10示出了本申请实施例提供的对目标对象的动作次数进行计数的示例图。

图11示出了本申请实施例提供的一种动作计数装置的结构框图。

图12示出了本申请实施例提供的一种电子设备的结构框图。

图13示出了本申请实施例的用于保存或者携带实现根据本申请实施例的动作计数方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

动作计数可以简单的理解为对重复的动作进行计数。目前的动作计数方法根据侧重点的不同，大致可以分为两类：基于频域分析的动作计数方法和基于匹配的动作计数方法。其中，基于频域分析的动作计数方法是在已知目标轨迹的条件下寻找目标的运动周期和类别，基于匹配的动作计数方法则是通过添加几何约束在时间序列找到重复出现的画面，从而识别出运动周期。然而，现有的动作计数方法需要对视频图像的整个画面进行分析，从而将不可避免的引入大量与动作计数无关的干扰信息，增加计算的复杂度，同时降低动作计数的准确性。

针对上述的问题，发明人经过长期的研究发现，若将动作计数模型专注于有效的动作区域，可以在降低计算复杂度的同时提升动作计数的准确性。具体的，可以通过获取待处理视频，继而获取待处理视频中的目标对象的骨骼关键点，再基于骨骼关键点获取目标关键点特征，再基于目标关键点特征，计算与待处理视频对应的相似度矩阵，然后基于相似度矩阵获取待处理视频中目标对象的动作次数。从而通过上述方式实现了在获取了待处理视频中的目标对象的骨骼关键点的情况下，可以基于骨骼关键点获取目标关键点特征，进而基于目标关键点特征，计算与待处理视频对应的相似度矩阵，然后基于相似度矩阵获取待处理视频中目标对象的动作次数，使得可以仅通过对视频图像中的目标对象的骨骼关键点进行分析，而不需要对视频图像的整个画面进行分析，降低了计算复杂度，进而提升了动作计数的准确性。因此，提出了本申请实施例提供的一种动作计数方法、装置、电子设备以及存储介质。

为了便于详细说明本申请方案，下面先结合附图对本申请实施例中的一种应用环境进行介绍。

请参阅图1，为本申请实施例提供的一种动作计数方法的应用环境示意图，如图1所示，该应用环境可以理解为本申请实施例的提供的一种网络***10，该网络***10包括：用户终端11以及服务器12，可选的，用户终端11可以是任何具备通信和存储功能的设备，包括但不限于PC(Personal Computer，个人计算机)、PDA(平板电脑)、智能电视、智能手机、智能可穿戴设备或其他具有网络连接功能的智能通信设备，服务器12可以是一台服务器(网络接入服务器)，也可以是由若干台服务器组成的服务器集群(云服务器)，或者可以是一个云计算中心(数据库服务器)。

本实施例中，用户终端11可以用于录制或拍摄短视频，并对视频录制或拍摄的短视频图像中的目标对象(例如，目标对象可以是人，可选的，在一些其他实施方式中，目标对象也可以是其他生物，例如猫、狗、猴子等动物，具体可以不做限定)的动作(可选的，可以包括下蹲、抱头转动、跑步等动作)次数进行计数，为了提升对目标对象的动作次数的计算速率，用户终端11可以将计数结果通过网络发送至服务器12进行存储，以便于可以减少对用户终端11的存储空间的占用，进而提升对目标对象的动作次数的计算速度。

下面将结合附图具体描述本申请的各实施例。

请参阅图2，示出了本申请实施例提供的一种动作计数方法的流程图，本实施例提供一种动作计数方法，可应用于电子设备，该方法包括：

步骤S110：获取待处理视频。

本实施例中，待处理视频可以包括多个视频片段，每个视频片段可以包括多帧图像，每一个视频片段中可以包括目标对象的至少一次完整的动作，该动作可以包括下蹲、抱头转动、跑步等动作。在一些实施方式中，若目标对象的动作为“下蹲”，那么在一个视频片段中，可以包括目标对象的至少一次“站立-蹲下-站立”等动作。

可选的，在直播场景中，当有两位主播用户连线PK时，PK后胜利的一方主播用户可以对失败的一方的主播用户做出惩罚，惩罚方式可以包括要求失败一方的主播用户唱歌、做下蹲、抱头转动、或者跑步10次等，具体惩罚方式可以不作限定。作为一种方式，可以将直播场景下，包括有连线PK状态图像的视频作为待处理视频。其中，当视频包括有连线PK状态图像时，可以包括有两个不同的用户帐户标识(不同的主播用户对应的用户帐户标识不同)。

作为另一种方式，在检测到视频图像中包括有重复出现的动作时，可以将该视频图像识别为待处理视频。例如，当检测到视频图像中包括有一次完整的下蹲动作过程“站立-蹲下-站立”时，若检测到用户又“蹲下”，那么可以将该视频图像识别为待处理视频。

步骤S120：获取所述待处理视频中的目标对象的骨骼关键点。

在对目标对象的动作次数进行计数的过程中，可能会因为动作姿态不标准或者是背景、光照等外部环境变化而导致计数不准确，例如，一些用户在做下蹲动作时，如果用户下蹲的幅度较小(例如蹲下时处于半蹲状态)，可能不会将该次下蹲进行计数，从而影响计数的准确性。

作为一种改善上述问题的方式，本实施例可以获取待处理视频中的目标对象的骨骼关键点，以便于后续可以借助于骨骼关键点来完成对目标对象的动作次数的计数。目标对象的骨骼关键点的具体获取过程描述如下。

请参阅图3，作为一种方式，步骤S120可以包括：

步骤S121：将所述待处理视频输入目标姿态估计网络，获取所述目标姿态估计网络输出的多个参考关键点。

本实施例中，目标姿态估计网络可以用于预估目标对象的骨骼关键点，目标姿态估计网络为基于姿态估计网络模型训练得到，可选的，该姿态估计网络模型可以为MobileNetV2网络模型。本实施例中，可以采用MobileNetV2网络模型的卷积部分作为目标姿态估计网络的骨干网络，另外加入两个姿态估计损失作为目标姿态估计网络的损失层。其中，该两个姿态估计损失分别可以为关键点位置预测损失以及肢体预测损失。关键点位置预测损失对应的计算规则可以表示为：

其中，j表征第j个关键点，共J个关键点。p表征视频帧的第p个像素。W是一个二进制的掩膜，W(p)＝0表征第p个像素不参与最终的损失计算。S_j(p)表征网络输出第p个像素属于第j个关键点的可能性分数，

表征第p个像素是否真正属于第j个关键点。

对应的，肢体预测损失对应的计算规则可以表示为：

其中，c表征第c个肢节，共C个肢节。p表征视频帧的第p个像素。W是一个二进制的掩膜，W(p)＝0表征第p个像素不参与最终的损失计算。L_c(p)表征网络输出第p个像素属于第c段肢节的可能性分数，

表征第p个像素是否真正属于第c段肢节。

可选的，可以将关键点位置预测损失以及肢体预测损失之和作为目标姿态估计网络的训练损失，即本实施例中的目标姿态估计网络的训练损失可以表示为：F＝F_L+F_S。在确定了骨干网络以及训练损失函数的基础之上，可以基于训练损失函数训练该骨干网络，可选的，可以使用误差回传的方式训练该骨干网络，从而可以得到目标姿态估计网络。

作为一种实现方式，可以将待处理视频输入目标姿态估计网络，获取目标姿态估计网络输出的多个参考关键点。需要说明的是，该多个参考关键点为待处理视频图像中目标对象的潜在关键点。

步骤S122：从所述多个参考关键点中获取骨骼关键点。

可选的，可以基于关键点筛选规则从上述多个潜在关键点中获取骨骼关键点，本实施例中的关键点筛选规则可以表示为：

其中，D_j1和D_j2分别为第j1个和第j2个关键点在待处理视频图像上的潜在位置集合，m，n分为集合中的两个位置。Set(j1，j2)表征筛选出的关键点，z_j1j2表征第j1个和第j2个关键点是否相连，相连为1，不相连为0，E_mn表征D_j1和D_j2中两点在肢节约束下的权重。

可选的，对于根据关键点筛选规则筛选的过程描述如下：

请参阅图4，作为一种方式，步骤S122可以包括：

步骤S1221：获取与所述多个参考关键点分别对应的参考位置关联参数。

其中，参考位置关联参数用于表征多个关键点中的某两个关键点是否相连，可选的，若该两个关键点相连，参考位置关联参数为1，若该两个关键点不相连，参考位置关联参数为0。

步骤S1222：获取所述多个关键点在肢节约束下的权重参数。

可选的，该权重参数用于表征多个关键点中的所有两个关键点在肢节约束下的权重。该权重参数可以表示为：

其中，d_m，d_n定义为第m点和n点的坐标，p(u)为插值坐标，p(u)可以表示为：

p(u)＝(1-u)d_j1+ud_j2·

步骤S1223：获取所述参考位置关联参数与所述权重参数的乘积。

步骤S1224：将值最大的乘积对应的关键点作为所述骨骼关键点。

作为一种方式，可以将多个关键点中值最大的乘积对应的关键点作为目标对象的骨骼关键点。

例如，在一个具体的应用场景中，可以将视频帧I输入前述训练好的目标姿态估计网络，获取目标姿态估计网络输出的与视频帧I对应的关键点分数图S和肢节分数图L，其中S_j(p)表征视频帧I中第p个像素属于第j个关键点的可能性，L_c(p)表征视频帧I中第p个像素属于第c段肢节的可能性。通过最大值抑制算法，可以从关键点分数图S中得到目标对象的潜在关键点进而可以通过上述关键点筛选规则最小化该潜在关键点，从而可以筛选出最接近真实情况的关键点(即目标对象的骨骼关键点)。可选的，若目标对象为人，那么根据本实施例的骨骼关键点获取方法可以得到如图5所示的骨骼关键点位置示意图。如图5所示，电子设备可以对目标对象的骨骼关键点进行序号标记，可选的，在标记时，可以先标记躯干(例如人体的四肢)，再标记目标对象的其他部位。

步骤S130：基于所述骨骼关键点获取目标关键点特征。

请参阅图6，作为一种方式，步骤S130可以包括：

步骤S131：获取与所述骨骼关键点对应的空间相关特征。

其中，空间相关特征可以通过计算不同关键点的空间相对位置的方式获得，具体的，可以定义第k帧视频中目标对象的关键点的位置集合为

则与目标对象的骨骼关键点对应的空间相关特征(可以用V_S表示)可通过以下方式构建：

其中，

表征第

和第

之间的欧式距离。通过采用相对位置，可以减少因姿态视角变化等对目标对象的动作次数的计数的影响。

步骤S132：获取与所述骨骼关键点对应的时间相关特征。

可选的，时间相关特征可以反映目标对象动作的时序性，作为一种方式，通过计算当前视频帧与相邻视频帧间的同一关键点位置的变化，可以得到当前视频帧的时序特征，可以将该时序特征作为与目标对象的骨骼关键点对应的时间相关特征。

具体的，若用V_t表示时间相关特征，可以通过以下方式构建时间相关特征：

其中，

表征第k+1帧视频图像中第i个骨骼关键点的位置。

步骤S133：将所述空间相关特征以及所述时间相关特征进行拼接，得到目标关键点特征。

可选的，通过将上述空间相关特征以及时间相关特征进行拼接，可以得到目标关键点特征。假设目标关键点处于第K帧视频图像中，具体拼接原理可以表示如下：

其中，

表征第K帧视频的特征，vec(·)表示向量化操作，Concat(·)表示串联操作(通过串联操作可以将空间相关特征与时间相关特征进行拼接)。

步骤S140：基于所述目标关键点特征，计算与所述待处理视频对应的相似度矩阵。

可选的，本实施例中的待处理视频可以包括多帧图像。

请参阅图7，作为一种方式，步骤S140可以包括：

步骤S141：获取所述多帧图像中多个任意两帧图像的关键点特征之间的距离。

假设视频片段共有N帧，则可以定义矩阵M'∈R^N×N,矩阵M′的行数和列数均为N，令M′(i，j)表示矩阵的第i行第j列的元素，M′(i，j)可以用于表征第i帧图像的关键点特征与第j帧图像的关键点特征之间的距离，定义为：

其中，τ表征尺度控制因子。利用上式可得到矩阵M′的所有位置元素的值，即可以获取多帧图像中多个任意两帧图像的关键点特征之间的距离。

步骤S142：按照指定计算规则对多个所述距离进行归一化处理，得到多个元素，将所述多个元素组合成的矩阵作为与所述待处理视频对应的相似度矩阵。

其中，指定计算规则可以为：

其中，M(i,j)表征待处理视频的第i帧图像的关键点特征与第j帧图像的关键点特征之间的相似度，i表征待处理视频的第i帧，j表征待处理视频的第j帧，q表征辅助变量，D表征正整数，e表征自然常数，M'(i,j)表征待处理视频的第i帧图像的关键点特征与第j帧图像的关键点特征之间的距离，M'(i,q)表征待处理视频的第i帧图像的关键点特征与第q帧图像的关键点特征之间的距离。

通过对多个距离进行归一化处理，可以得到取值范围为0到1的多个元素，作为一种方式，可以将该多个元素组合成的矩阵作为与待处理视频对应的相似度矩阵M。需要说明的是，相似度矩阵M的行数和列数均为N，相似度矩阵可以用于表征待处理视频的第i帧图像与第j帧图像的相似度。

步骤S150：基于所述相似度矩阵获取所述待处理视频中所述目标对象的动作次数。

请参阅图8，作为一种方式，步骤S150可以包括：

步骤S151：将所述相似度矩阵输入动作计数神经网络，获取所述动作计数神经网络输出的与所述待处理视频中的每一帧图像对应的动作周期。

可选的，本实施例中的动作计数神经网络可以由卷积神经网络和分类器构建得到，其中，卷积神经网络可以由多组重复的卷积层组合(例如，图9所示的卷积层、激活层以及池化层)加上分类层(即图9所示的softmax分类)构成。可选的，本实施例中从第l层到第l+1层的卷积层组合计算可以由下式得到：

其中，

表征第l+1层中卷积操作的输出，

表征第l+1层中第k个filter，

表征第l+1层中第k个filter的偏重，

表征第l层的输出；

表征第l+1层中激活操作的输出，max表征取最大值操作；Z^l+1表征第l+1层的整体输出，pooling表征池化操作。

可选的，本实施例中的分类层可以采用SoftMax分类器，具体实现方式为：

其中，p(k，t)表征第k帧视频图像周期为t的概率，w表征SoftMax分类器的参数，w^t表征其第t列。

可选的，卷积神经网络的第一层输入为相似度矩阵M，因此Z¹＝M，经过逐层的前向传播，可以得到最后一层网络的输出为P∈R^K×T,其中P(k，t)表征第k帧的动作对应的周期为t个单位时间的概率，每个单位时间表征一帧的持续时间。对应损失函数为：

F_p＝-logP(k，t^*)

其中，t^*表征第k帧的动作的实际动作周期。

作为一种方式，可以对上述构建完成的卷积神经网络进行训练，以得到动作计数神经网络。可选的，可以构造标注数据集，再利用误差回传算法对上述损失函数进行优化。其中，数据集的标注过程如下：采集包含单个动作在内的视频片段若干个，然后将其中每个片段重复多次组成新的视频。定义包含单个动作的视频片段V，视频长度为T帧，则可将其重复N次，组成一个长度为NT帧的视频片段V′，V′中的动作周期为T，动作次数为N。在这种方式下，可以利用训练完成的动作计数神经网络来预测视频片段中每一帧的动作周期。

步骤S152：基于周期时长最大的所述动作周期获取所述待处理视频中所述目标对象的动作次数。

作为一种实现方式，可以按照动作次数计算规则基于周期时长最大的动作周期获取待处理视频中目标对象的动作次数，其中，动作次数计算规则可以包括：

其中，C^L表征到待处理视频的周期时长最大的第L帧时目标对象的动作次数，Tⁱ表征待处理视频的第i帧的动作周期，

表征待处理视频的第1帧到第L帧中目标对象的动作次数之和。

可选的，将相似度矩阵M输入动作计数神经网络，经过逐层的前向传播，可以得到最后一层网络的输出P∈R^K×T，矩阵的行数为视频片段的帧数K，列数为最大周期T。可选的，若令P(k，t)表示第k帧的动作对应的周期为t个单位时间的概率，可以选择概率值最大的周期作为第K帧的实际动作周期，则通过下式可得到第k帧动作的周期T^k：

然后，可以通过计算周期的倒数得到第k帧的动作次数，c^k表征第k帧的动作次数，则：

可选的，通过累加到视频中每一帧的动作次数，可以得到视频片段中总的动作次数，记总的动作次数为C，可以得到：

其中，cⁱ表征第i帧的动作次数。

通过本实施例的动作计数方法，可以自动地对视频图像中目标对象的动作次数进行计数，例如，在一个具体的应用场景中，若目标对象为人，需要计数的目标对象的动作为“下蹲”，如图10所示，可以对用户当前“下蹲”的次数进行计数，并且可以实时更新该计数结果，可选的，还可以显示用户的动作频率，图10中，用户当前的“下蹲”次数(即Count)为5，“下蹲”的频率(即Rate)为“0.1923HZ”。

本实施例提供的动作计数方法，通过获取待处理视频，继而获取待处理视频中的目标对象的骨骼关键点，再基于骨骼关键点获取目标关键点特征，再基于目标关键点特征，计算与待处理视频对应的相似度矩阵，然后基于相似度矩阵获取待处理视频中目标对象的动作次数。从而通过上述方式实现了在获取了待处理视频中的目标对象的骨骼关键点的情况下，可以基于骨骼关键点获取目标关键点特征，进而基于目标关键点特征，计算与待处理视频对应的相似度矩阵，然后基于相似度矩阵获取待处理视频中目标对象的动作次数，使得可以仅通过对视频图像中的目标对象的骨骼关键点进行分析，而不需要对视频图像的整个画面进行分析，降低了计算复杂度，进而提升了动作计数的准确性。

请参阅图11，为本申请实施例提供的一种动作计数装置的结构框图，本实施例提供一种动作计数装置200，可以运行于电子设备，所述装置200包括：视频数据获取模块210、骨骼关键点获取模块220、关键点特征获取模块230、计算模块240以及计数模块250：

视频数据获取模块210，用于获取待处理视频。

骨骼关键点获取模块220，用于获取所述待处理视频中的目标对象的骨骼关键点。

作为一种方式，骨骼关键点获取模块220具体可以用于将所述待处理视频输入目标姿态估计网络，获取所述目标姿态估计网络输出的多个参考关键点；从所述多个参考关键点中获取骨骼关键点。其中，从所述多个参考关键点中获取骨骼关键点的步骤可以包括：获取与所述多个参考关键点分别对应的参考位置关联参数；获取所述多个关键点在肢节约束下的权重参数；获取所述参考位置关联参数与所述权重参数的乘积；将值最大的乘积对应的关键点作为所述骨骼关键点。

关键点特征获取模块230，用于基于所述骨骼关键点获取目标关键点特征。

作为一种方式，关键点特征获取模块230具体可以用于获取与所述骨骼关键点对应的空间相关特征；获取与所述骨骼关键点对应的时间相关特征；将所述空间相关特征以及所述时间相关特征进行拼接，得到目标关键点特征。

计算模块240，用于基于所述目标关键点特征，计算与所述待处理视频对应的相似度矩阵。

可选的，本实施例中的待处理视频可以包括多帧图像。在这种方式下，计算模块240具体可以用于获取所述多帧图像中多个任意两帧图像的关键点特征之间的距离；按照指定计算规则对多个所述距离进行归一化处理，得到多个元素，将所述多个元素组合成的矩阵作为与所述待处理视频对应的相似度矩阵。可选的，所述指定计算规则为：

其中，M(i,j)表征所述待处理视频的第i帧图像的关键点特征与第j帧图像的关键点特征之间的相似度，i表征所述待处理视频的第i帧，j表征所述待处理视频的第j帧，q表征辅助变量，K表征正整数，e表征自然常数，M'(i,j)表征所述待处理视频的第i帧图像的关键点特征与第j帧图像的关键点特征之间的距离，M'(i,q)表征所述待处理视频的第i帧图像的关键点特征与第q帧图像的关键点特征之间的距离。

计数模块250，用于基于所述相似度矩阵获取所述待处理视频中所述目标对象的动作次数。

作为一种方式，计数模块250具体可以用于将所述相似度矩阵输入动作计数神经网络，获取所述动作计数神经网络输出的与所述待处理视频中的每一帧图像对应的动作周期；基于周期时长最大的所述动作周期获取所述待处理视频中所述目标对象的动作次数。可选的，所述基于周期时长最大的所述动作周期获取所述待处理视频中所述目标对象的动作次数，包括：按照动作次数计算规则基于周期时长最大的所述动作周期获取所述待处理视频中所述目标对象的动作次数，所述动作次数计算规则包括：

其中，C^L表征到所述待处理视频的周期时长最大的第L帧时所述目标对象的动作次数，Tⁱ表征所述待处理视频的第i帧的动作周期，所述

表征所述待处理视频的第1帧到第L帧中所述目标对象的动作次数之和。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参阅图12，基于上述的动作计数方法及装置，本申请实施例还提供了一种可以执行前述动作计数方法的电子设备100。电子设备100包括存储器102以及相互耦合的一个或多个(图中仅示出一个)处理器104，存储器102以及处理器104之间通信线路连接。存储器102中存储有可以执行前述实施例中内容的程序，而处理器104可以执行存储器102中存储的程序。

其中，处理器104可以包括一个或者多个处理核。处理器104利用各种接口和线路连接整个电子设备100内的各个部分，通过运行或执行存储在存储器102内的指令、程序、代码集或指令集，以及调用存储在存储器102内的数据，执行电子设备100的各种功能和处理数据。可选地，处理器104可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogic Array，PLA)中的至少一种硬件形式来实现。处理器104可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作***、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器104中，单独通过一块通信芯片进行实现。

存储器102可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器102可用于存储指令、程序、代码、代码集或指令集。存储器102可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作***的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现前述各个实施例的指令等。存储数据区还可以存储电子设备100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参考图13，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质300中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质300可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质300包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质300具有执行上述方法中的任何方法步骤的程序代码310的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码310可以例如以适当形式进行压缩。

综上所述，本申请实施例提供的一种动作计数方法、装置、电子设备以及存储介质，通过获取待处理视频，继而获取待处理视频中的目标对象的骨骼关键点，再基于骨骼关键点获取目标关键点特征，再基于目标关键点特征，计算与待处理视频对应的相似度矩阵，然后基于相似度矩阵获取待处理视频中目标对象的动作次数。从而通过上述方式实现了在获取了待处理视频中的目标对象的骨骼关键点的情况下，可以基于骨骼关键点获取目标关键点特征，进而基于目标关键点特征，计算与待处理视频对应的相似度矩阵，然后基于相似度矩阵获取待处理视频中目标对象的动作次数，使得可以仅通过对视频图像中的目标对象的骨骼关键点进行分析，而不需要对视频图像的整个画面进行分析，降低了计算复杂度，进而提升了动作计数的准确性。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种动作计数方法，其特征在于，所述方法包括：

获取待处理视频；

获取所述待处理视频中的目标对象的骨骼关键点；

基于所述骨骼关键点获取目标关键点特征；

基于所述目标关键点特征，计算与所述待处理视频对应的相似度矩阵；

将所述相似度矩阵输入动作计数神经网络，获取所述动作计数神经网络输出的与所述待处理视频中的每一帧图像对应的动作周期；

基于周期时长最大的所述动作周期获取所述待处理视频中所述目标对象的动作次数。

2.根据权利要求1所述的方法，其特征在于，所述获取所述待处理视频中的目标对象的骨骼关键点，包括：

将所述待处理视频输入目标姿态估计网络，获取所述目标姿态估计网络输出的多个参考关键点；

从所述多个参考关键点中获取骨骼关键点。

3.根据权利要求2所述的方法，其特征在于，所述从所述多个参考关键点中获取骨骼关键点，包括：

获取与所述多个参考关键点分别对应的参考位置关联参数，其中，所述参考位置关联参数用于表征多个关键点中的某两个关键点是否相连；

获取所述多个关键点在肢节约束下的权重参数；

获取所述参考位置关联参数与所述权重参数的乘积；

将值最大的乘积对应的关键点作为所述骨骼关键点。

4.根据权利要求1所述的方法，其特征在于，所述基于所述骨骼关键点获取目标关键点特征，包括：

获取与所述骨骼关键点对应的空间相关特征；

获取与所述骨骼关键点对应的时间相关特征；

将所述空间相关特征以及所述时间相关特征进行拼接，得到目标关键点特征。

5.根据权利要求1所述的方法，其特征在于，所述待处理视频包括多帧图像，所述基于所述目标关键点特征，计算与所述待处理视频对应的相似度矩阵，包括：

获取所述多帧图像中多个任意两帧图像的关键点特征之间的距离；

对多个所述距离进行归一化处理，得到多个元素，将所述多个元素组合成的矩阵作为与所述待处理视频对应的相似度矩阵。

6.根据权利要求5所述的方法，其特征在于，所述对多个所述距离进行归一化处理为：

其中，M(i,j)表征所述待处理视频的第i帧图像的关键点特征与第j帧图像的关键点特征之间的相似度，i表征所述待处理视频的第i帧，j表征所述待处理视频的第j帧，q表征辅助变量，D表征正整数，e表征自然常数，M'(i,j)表征所述待处理视频的第i帧图像的关键点特征与第j帧图像的关键点特征之间的距离，M'(i,q)表征所述待处理视频的第i帧图像的关键点特征与第q帧图像的关键点特征之间的距离。

7.根据权利要求1所述的方法，其特征在于，所述基于周期时长最大的所述动作周期获取所述待处理视频中所述目标对象的动作次数，包括：

按照动作次数计算规则基于周期时长最大的所述动作周期获取所述待处理视频中所述目标对象的动作次数，所述动作次数计算规则包括：

8.一种动作计数装置，其特征在于，所述装置包括：

视频数据获取模块，用于获取待处理视频；

骨骼关键点获取模块，用于获取所述待处理视频中的目标对象的骨骼关键点；

关键点特征获取模块，用于基于所述骨骼关键点获取目标关键点特征；

计算模块，用于基于所述目标关键点特征，计算与所述待处理视频对应的相似度矩阵；

计数模块，用于将所述相似度矩阵输入动作计数神经网络，获取所述动作计数神经网络输出的与所述待处理视频中的每一帧图像对应的动作周期；基于周期时长最大的所述动作周期获取所述待处理视频中所述目标对象的动作次数。

9.一种电子设备，其特征在于，包括一个或多个处理器以及存储器；

一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行权利要求1-7任一所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码被处理器运行时执行权利要求1-7任一所述的方法。