CN111967407B

CN111967407B - 动作评价方法、电子设备和计算机可读存储介质

Info

Publication number: CN111967407B
Application number: CN202010843303.5A
Authority: CN
Inventors: 盛志胤; 潘伟; 沐俊星; 袁峰; 魏金文
Original assignee: Migu Cultural Technology Co Ltd; China Mobile Communications Group Co Ltd; MIGU Interactive Entertainment Co Ltd
Current assignee: Migu Cultural Technology Co Ltd; China Mobile Communications Group Co Ltd; MIGU Interactive Entertainment Co Ltd
Priority date: 2020-08-20
Filing date: 2020-08-20
Publication date: 2023-10-20
Anticipated expiration: 2040-08-20
Also published as: CN111967407A

Abstract

本发明实施例涉及互联网技术领域，公开了一种动作评价方法、电子设备和计算机可读存储介质。上述动作评价方法，包括：获取当前视频帧中用户的第一骨架特征信息；其中，所述当前视频帧中包括所述用户在预设的教学视频的指导下做出的动作；获取所述教学视频中的教学动作对应的第二骨架特征信息；根据所述第一骨架特征信息和所述第二骨架特征信息，对所述用户做出的所述动作进行评价，使得可以提高评价的实时性，从而提高用户的学习体验。

Description

动作评价方法、电子设备和计算机可读存储介质

技术领域

本发明实施例涉及互联网技术领域，特别涉及一种动作评价方法、电子设备和计算机可读存储介质。

背景技术

当前，互联网健身APP在市场竞争中都不约而同的引入了健身短视频教程，针对这些内容，考虑引入基于视频理解的AI技术，实现用户健身的实时智能指导，从而达到无人化的健身指导，促进全民健身。目前，健身教练可以通过健身视频的方式来对用户进行健身教学，其中，用户在健身视频的指导下进行健身时，如果需要对用户的健身动作进行评价，通常每次都获取固定数量的多帧图像比如每次获取5帧图像，然后将用户的连续5帧图像与教练的连续5帧图像进行对比，确定用户的连续5帧图像中是否出现了和教练动作相似的动作，从而对用户的健身动作进行评分。

然而，发明人发现相关技术中至少存在如下问题：由于每次都要获取连续的多帧图像，才会基于这多帧图像进行评价，这难免会出现评价的延迟，影响用户的学习体验，健身指导效果较差。

发明内容

本发明实施方式的目的在于提供一种动作评价方法，电子设备和计算机可读存储介质，使得可以提高评价的实时性，从而提高用户的学习体验。

为解决上述技术问题，本发明的实施方式提供了一种动作评价方法，包括：获取当前视频帧中用户的第一骨架特征信息；其中，所述当前视频帧中包括所述用户在预设的教学视频的指导下做出的动作；获取所述教学视频中的教学动作对应的第二骨架特征信息；根据所述第一骨架特征信息和所述第二骨架特征信息，对所述用户做出的所述动作进行评价。

本发明的实施方式还提供了一种电子设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的动作评价方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述的动作评价方法。

本发明实施方式相对于现有技术而言，获取当前视频帧中用户的第一骨架特征信息；其中，当前视频帧中包括用户在预设的教学视频的指导下做出的动作；获取教学视频中的教学动作对应的第二骨架特征信息；根据第一骨架特征信息和第二骨架特征信息，对用户做出的动作进行评价。也就是说，通过结合当前视频帧中用户的第一骨架特征信息与教学视频中的教学动作对应的第二骨架特征信息，实时跟踪识别用户做出的动作，对用户在教学视频的指导下做出的动作进行评价，避免了现有技术中需要获取连续的多帧图像，才会基于这连续的多帧图像进行评价，造成的评价延迟。本发明实施方式有利于提高评价的实时性，从而提高用户的学习体验。

另外，获取所述教学视频中的教学动作对应的第二骨架特征信息，包括：确定所述教学视频中的教学者的各骨架关键点的位置信息；根据所述教学者的各骨架关键点的位置信息，确定所述教学动作对应的动作角度；根据所述教学动作对应的动作角度，获取所述教学视频中的教学动作对应的第二骨架特征信息。考虑到教学者在做不同的教学动作时，不同骨架关键点的位置信息可能会发生变化，不同身高、体型的人做同一个动作，其骨架关键点的位置信息可能不相同，但不同骨架关键点之间的角度类似。因此，本实施方式中利用不同骨架关键点之间的角度，可以准确的衡量教学动作对应的动作角度，根据教学动作对应的动作角度获取的第二骨架特征信息，有利于准确的衡量教学动作，体现出教学动作的特点。

另外，获取当前视频帧中用户的第一骨架特征信息，包括：将所述当前视频帧输入预先训练的用于生成骨架点图的Tensor Flow Lite神经网络模型，输出所述当前视频帧中用户的骨架点图；根据所述用户的骨架点图，确定所述当前视频帧中用户的第一骨架特征信息。由于，Tensor Flow Lite神经网络模型属于轻量级的神经网络模型，能够适应于手机等终端的处理性能，有利于使得本发明实施方式的评价方法能够直接在终端侧执行，从而降低经济成本。

另外，所述根据所述用户的骨架点图，确定所述当前视频帧中用户的第一骨架特征信息，包括：采用预设的滤波算法对所述骨架点图进行滤波，获取所述用户的各骨架关键点对应的热力图；根据所述用户的各骨架关键点对应的热力图，确定所述当前视频帧中用户的第一骨架特征信息。通过采用预设的滤波算法对骨架图进行滤波，有利于消除噪声信息，使得确定的第一骨架特征信息更加稳定和准确。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定。

图1是根据本发明第一实施方式的动作评价方法的流程图；

图2是根据本发明第一实施方式的人体的骨架关键点的分布示意图；

图3是根据本发明第一实施方式的动作对应的动作角度的示意图；

图4是根据本发明第二实施方式的动作评价方法的流程图；

图5是根据本发明第三实施方式的动作评价方法的流程图；

图6是根据本发明第三实施方式的3个关键动作的示意图；

图7是根据本发明第四实施方式的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便，不应对本发明的具体实现方式构成任何限定，各个实施例在不矛盾的前提下可以相互结合相互引用。

本发明的第一实施方式涉及一种动作评价方法，应用于电子设备；其中，电子设备可以为手机、平板电脑等终端或服务器。本实施方式的应用场景可以为：用户在教学视频的指导下做出对应的动作，电子设备对用户做出的动作进行评价，比如：用户在健身教学视频的指导下做出健身动作，电子设备对用户做出的健身动作进行评价；运动员在赛前训练教学视频的指导下做出训练动作，电子设备对运动员做出的训练动作进行评价；医生在手术动作教学视频的指导下做出手术动作，电子设备对医生做出的手术动作进行评价等场景。

下面对本实施方式的动作评价方法的实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须。

本实施方式中的动作评价方法的流程图可以如图1所示，包括：

步骤101：获取当前视频帧中用户的第一骨架特征信息。

其中，当前视频帧中包括用户在预设的教学视频的指导下做出的动作。当前视频帧可以为播放教学视频的终端拍摄的用户在学习过程中的视频帧。比如，在用户开启摄像头进行运动健身时，电子设备可以对用户的健身动作进行实时拍摄，获取用户在健身时的当前视频帧。

在一个例子中，本实施方式的执行主体电子设备可以为终端，该终端可以为播放教学视频的终端，终端可以根据拍摄的当前视频帧，获取当前视频帧中用户的第一骨架特征信息。

在另一个例子中，本实施方式的执行主体电子设备可以为服务器，终端可以将拍摄的当前视频帧发送给服务器，由服务器获取当前视频帧中用户的第一骨架特征信息。

在一个例子中，获取当前视频帧中用户的第一骨架特征信息的方式可以如下：先获取当前视频帧中用户的各骨架关键点的位置信息。其中，骨架关键点的位置信息可以理解为骨架关键点在当前视频帧中的二维坐标。在具体实现中，人体的骨架关键点的分布示意图可以参考图2，其中，各骨架关键点均对应有各自的编号，如图2中的各骨架关键点从编号0到编号15，各骨架关键点的编号及名称可以参考表1所示：

表1

编号	名称	编号	名称	编号	名称
						0	右脚踝	6	骨盆	12	右肩
1	右膝盖	7	胸腔	13	左肩
						2	右臀部	8	颈椎	14	左手肘
3	左臀部	9	头顶	15	左手腕
						4	左膝盖	10	右手腕
5	左脚踝	11	右手肘

然后，根据用户的各骨架关键点的位置信息，确定用户做的动作对应的动作角度。比如，在得到各骨架关键点的位置信息后，以每三个骨架关键点为一组，生成对应的动作角度。可以理解的是，每三个骨架关键点之间两两连线，可以得到三个动作角度，16个骨架关键点每三个骨架关键点为一组，可以生成对应的多个动作角度。为便于理解，用户做的动作对应的动作角度，可以参考图3，图3中间为教学者做出的教学动作，右上方为用户在教学者的指导下做出的动作，右上方的A点表示名称为右膝盖的骨架关键点，B点表示名称为左臀部的骨架关键点，C点表示名称为左膝盖的骨架关键点，D点表示名称为左脚踝的骨架关键点。图中A点、B点、D点之间形成的角度∠ABD，A点、B点、C点之间形成的角度∠ABC，均可以理解为用户做的动作对应的动作角度。在一个例子中，各骨架关键点的位置信息可以为位置坐标，则可以根据各骨架关键点的位置坐标，生成对应的动作角度。参考图3，假设A点坐标为(x1，y1)，B点坐标为(x2，y2)、C点坐标为(x3，y3)，可以通过如下方式，计算∠ABC：

根据A、B、C三点的坐标依次计算如下向量：

向量AB＝(x2-x1,y2-y1)，向量BC＝(x3-x2,y3-y2)，向量AC＝(x3-x1,y3-y1)

根据以下两种向量的乘积的计算公式，联立方程组即可求得∠ABC的大小：

向量AB*向量BC＝|AB|*|BC|*cos∠ABC；

向量AB*向量BC＝[(x2-x1)(x3-x2),(y2-y1)(y3-y2)]；

其他骨架关键点之间的角度的计算方式可以参考∠ABC的计算方式，为避免重复，此处不再赘述。

需要说明的是，图3中只是为方便说明列出两个动作角度，在具体实现中，用户做出的动作对应的动作角度的数量并不以两个为限。在具体实现中，各骨架关键点的位置信息可以通过文件形式存储并集中显示于当前视频帧中，存留形态数据，形成数据资产。

接着，根据用户做的动作对应的多个动作角度，获取当前视频帧中用户的第一骨架特征信息。比如，可以在多个动作角度中，选择出最能表征用户做的动作的特点的若干个骨架关键点之间形成的若干个动作角度组成第一动作角度序列，可以将第一动作角度序列作为第一骨架特征信息。

需要说明的是，本实施方式中，人体的骨架关键点的分布示意图只是以图2为例，在具体实现中并不以此为限。

在一个例子中，获取当前视频帧中用户的第一骨架特征信息的方式可以如下：将当前视频帧输入预先训练的用于生成骨架点图的Tensor Flow Lite神经网络模型，输出当前视频帧中用户的骨架点图；根据用户的骨架点图，确定当前视频帧中用户的第一骨架特征信息。其中，用户的骨架点图中标记了用户的各骨架关键点的位置信息，可以根据用户的骨架点图中各骨架关键点的位置信息，确定当前视频帧中用户的第一骨架特征信息。比如，可以在骨架点图中各骨架关键点的位置信息中，选择出最能表征用户做的动作的特点的若干个骨架关键点的位置信息作为第一骨架特征信息。在具体实现中，可以先将当前视频帧由原始大小(比如640*480等)调整为适合Tensor Flow Lite神经网络模型的输入大小，然后通过Tensor Flow Lite引擎引入自训练的Tensor Flow Lite神经网络模型，从而输出当前视频帧中用户的骨架点图。

在一个例子中，适合Tensor Flow Lite神经网络模型的输入大小可以为：1*224*224*3；其中，1为视频帧数，224*224为视频帧的长度及宽度，3为RGB三通道。Tensor FlowLite神经网络模型的输出大小可以为：1*112*112*14。需要说明的是，本实施方式中只是以上述列举的输入大小和输出大小为例，在具体实现中并不以此为限，输入大小和输出大小的具体取值可以根据实际需要进行设置。

Tensor Flow Lite神经网络模型属于轻量级的神经网络模型，能够适应于手机等终端的处理性能，有利于本发明实施方式的评价方法能够直接在终端侧执行，降低经济成本，同时基于Tensor Flow Lite神经网络模型还有利于对运动中的人体进行较为精确、快速的骨架特征信息的提取。

步骤102：获取教学视频中的教学动作对应的第二骨架特征信息。

在一个例子中，教学视频中的教学动作对应的第二骨架特征信息可以预存在电子设备中，从而，电子设备可以获取其预存的第二骨架特征信息。也就是说，电子设备之前已经获取过教学视频中的教学动作对应的第二骨架特征信息，并进行了存储。在具体实现中，教学视频中的教学动作及其对应的第二骨架特征信息可以以JSON文件的格式固化并存储在电子设备中，以便实时读取。在具体实现中，一整套教学视频中通常包括一系列的教学动作，因此，电子设备中可以预存教学视频中每个教学动作对应的第二骨架特征信息。

在另一个例子中，电子设备中没有预存第二骨架特征信息，则可以实时获取教学视频中的教学动作对应的第二骨架特征信息。

在一个例子中，获取教学视频中的教学动作对应的第二骨架特征信息的方式可以如下：

首先，确定教学视频中的教学者的各骨架关键点的位置信息，其中，骨架关键点的位置信息可以理解为骨架关键点在教学视频中的二维坐标。在一个例子中，可以将教学视频逐帧输入预先训练的用于生成骨架点图的Tensor Flow Lite神经网络模型，输出教学视频中的教学者的骨架点图，然后根据教学者的骨架点图，确定教学者的各骨架关键点的位置信息。

然后，根据教学者的各骨架关键点的位置信息，确定教学动作对应的动作角度；比如，在得到教学者的各骨架关键点的位置信息后，以每三个骨架关键点为一组，生成对应的动作角度。可以理解的是，每三个骨架关键点之间两两连线，可以得到三个动作角度，14个骨架关键点每三个骨架关键点为一组，可以生成对应的多个动作角度。其中，教学者可以为健身教学视频中的健身教练、运动员赛前训练教学视频中的训练人员、医生手术动作教学视频中的指导医师等，然而在具体实现中并不以此为限。

接着，根据教学动作对应的多个动作角度，获取教学视频中的教学动作对应的第二骨架特征信息。比如，可以在多个动作角度中，选择出最能表征教学动作的特点的若干个骨架关键点之间形成的若干个动作角度组成第二动作角度序列，可以将第二动作角度序列作为第二骨架特征信息。

按照上述方式，电子设备可以获取教学视频中的一系列教学动作对应的第二骨架特征信息，然后，根据实际需要还可以选择将一系列教学动作及其对应的第二骨架特征信息进行存储，方便其他用户打开行学习时，电子设备可以直接获取该教学视频中的教学动作对应的第二骨架特征信息。

考虑到教学者在做不同的教学动作时，不同骨架关键点的位置信息可能会发生变化，不同身高、体型的人做同一个动作，其骨架关键点的位置信息可能不相同，但不同骨架关键点之间的角度类似。因此，本实施方式中利用不同骨架关键点之间的角度，可以准确的衡量教学动作对应的动作角度，根据教学动作对应的动作角度获取的第二骨架特征信息，有利于准确的衡量教学动作，体现出教学动作的特点。

步骤103：根据第一骨架特征信息和第二骨架特征信息，对用户做出的动作进行评价。

其中，对用户做出的动作进行评价，可以理解为：对用户在教学视频的指导下做出的动作进行打分，用户做出的动作与教学视频中的教学动作越接近，打分越高，用户做出的动作与教学视频中的教学动作相差越远，打分越低。

在一个例子中，可以根据第一骨架特征信息和第二骨架特征信息，确定用户做出的动作与教学动作的相似度，然后根据相似度，对用户做出的动作进行评价。在具体实现中，相似度越高，对用户做出的动作的评价越好，相似度越低，对用户做出的动作的评价越差。其中，评价的好与差可以表现为打分的高低，即评价越好打分越高，评价越差打分越低。在具体实现中，打分高低可以显示在教学视频的画面上，方便用户查看。

在一个例子中，第一骨架特征信息包括用户做出的动作对应的第一动作角度序列，第二骨架特征信息包括教学动作对应的第二动作角度序列。确定用户做出的动作与教学动作的相似度的方式可以如下：根据第一动作角度序列和第二动作角度序列，计算欧氏距离，根据欧氏距离，确定用户做出的动作与教学动作的相似度。

在具体实现中，第一动作角度序列可以理解为用户做出动作时，用户的各骨架关键点之间形成的动作角度，组成的角度向量；还可以理解为在用户的各骨架关键点之间形成的动作角度中选择出的满足第一预设要求的动作角度，组成的角度向量。其中，第一预设要求可以根据实际需要进行设置，本实施方式对此不作具体限定。第二动作角度序列可以理解为教学视频中的教学者做出教学动作时，教学者的各骨架关键点之间形成的动作角度，组成的角度向量；还可以理解为在教学者的各骨架关键点之间形成的动作角度中选择出的满足第二预设要求的动作角度，组成的角度向量。其中，第二预设要求可以根据实际需要进行设置，本实施方式对此不作具体限定。第一动作角度序列中动作角度的数量和第二动作角度序列中动作角度的数量可以相同，方便了计算两个角度序列之间的欧氏距离，欧氏距离越大，说明两个角度序列相差越大，即用户做的动作与教练做的动作差距越大，相似度越小；欧氏距离越小，说明两个角度序列相差越小，即用户做的动作与教练做的动作差距越小，相似度越大。

在一个例子中，终端播放的教学视频的画面可以如图3所示，教学视频的画面可以包括教学者的动作画面，还可以包括用户的动作画面，而且教学者的动作画面和用户的动作画面的大小可以根据实际需要进行调节，然而，本实施方式对此不做具体限定。在具体实现中，教学视频的画面中还可以显示对用户的评分、用户的训练次数、训练时长等数据。

在一个例子中，还可以根据对用户的动作的评价结果，向用户反馈指导意见，帮助用户更好的学习。同时，用户的动作画面也可以实时存储，方便后续需要时随时查看。

需要说明的是，本实施方式中的上述各示例均为为方便理解进行的举例说明，并不对本发明的技术方案构成限定。

与现有技术相比，本实施方式通过结合当前视频帧中用户的第一骨架特征信息与教学视频中的教学动作对应的第二骨架特征信息，对用户在教学视频的指导下做出的动作进行评价，避免了现有技术中需要获取连续的多帧图像，才会基于这连续的多帧图像进行评价，造成的评价延迟。本发明实施方式有利于提高评价的实时性，从而提高用户的学习体验。

另外，考虑到现有技术中，评价的延迟不仅体现在每次都要获取连续的多帧图像进行分析，还体现在终端需要将采集的用户健身视频发送至云服务器，云服务器再采用AI技术对用户的健身动作进行识别，从而得到评价结果，然后再返回至终端，而这一过程也会存在评价的延迟。而且，上传健身视频至云服务器且采用AI技术进行识别评价的方式，由于引入了云服务器，因此经济成本较高。本实施方式中的评价方法应用于终端时，可以直接在终端侧完成动作评价，无需再通过上传云服务器，再等待云服务器反馈评价，有利于进一步提高评价的实时性，且由于并未引入云服务器因此经济成本较低。值得一提的是，本实施方式中如果结合Tensor Flow Lite神经网络模型输出用户的骨架点图，从而进一步根据骨架点图得到第一骨架特征信息，还可以利用Tensor Flow Lite神经网络模型具有轻量级这一特性，从而能够更好的适应于手机等终端的处理性能，进一步方便了本实施方式的评价方法能够直接在终端侧执行，降低经济成本。

本发明实施方式结合自适应的神经网络模型以及低成本的终端，实现了更为精确的教学动作指导，从而协助实现全民健身。通过神经网络模型辅助动作指导，有利于提升健身的效率，统一健身指导标准；通过与教学动作进行实时比较，有利于提高指导意见的准确性，提升可信度；对于用户的动作视频实时存储，存留形态数据，形成数据资产，方便后续随时查看。

本发明的第二实施方式涉及一种动作评价方法。下面对本实施方式的动作评价方法的实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须。

本实施方式中的动作评价方法的流程图可以如图4所示，包括：

步骤401：将当前视频帧输入预先训练的用于生成骨架点图的Tensor Flow Lite神经网络模型，输出当前视频帧中用户的骨架点图。

其中，Tensor Flow Lite神经网络模型可以预先根据若干标记有人体骨架关键点的动作图片训练得到。用户的骨架点图中可以标记有用户的各骨架关键点的位置信息，该位置信息可以为二维坐标。

在具体实现中，针对不同的应用场景，可以针对性的训练不同的Tensor FlowLite神经网络模型，以针对性的输出当前视频帧中用户的骨架点图，有利于提高输出的当前视频帧中用户的骨架点图的准确性。在一个例子中，当前视频帧为在用户健身的场景下拍摄的视频帧，上述标记有人体骨架关键点的动作图片可以为健身动作图片。在另一个例子中，当前视频帧为在运动员在赛前训练的场景下拍摄的视频帧，上述标记有人体骨架关键点的动作图片可以为运动员训练的动作图片。在一个例子中，当前视频帧为对医生进行手术指导的场景下拍摄的视频帧，上述标记有人体骨架关键点的动作图片可以为医生做手术的动作图片。

步骤402：采用预设的滤波算法对骨架点图进行滤波，获取用户的各骨架关键点对应的热力图。

其中，预设的滤波算法可以根据实际需要进行设置，比如可以选择的滤波算法包括以下任意之一：均值滤波、中值滤波、高斯滤波。在一个例子中，考虑到终端侧的处理性能，可以选择均值滤波算法，均值滤波算法属于轻量级算法，能够很好的适应手机等终端的处理性能，且算法简单执行速度快，实时性高。

在具体实现中，采用预设的滤波算法对骨架点图进行滤波可以理解为：对骨架点图中的各骨架关键点进行遍历，采用预设的滤波算法消除其中的噪声信息，确定遍历到的骨架关键点在骨架点图中各个位置的概率(也可以称为置信度)，根据遍历到的骨架关键点在骨架点图中各个位置的概率，获取遍历到的骨架关键点对应的热力图。其中，各骨架关键点可以均对应有热力图，比如，骨架点图中标记有14个骨架关键点，则可以获取14个骨架关键点分别对应的14张热力图。每张热力图上可以均标注有一个骨架关键点修正后的位置，比如，骨架关键点1对应的热力图中标注有骨架关键点1修正后的位置。其中，修正后的位置可以理解为：采用预设的滤波算法对骨架点图进行滤波后确定的各骨架关键点的位置。

步骤403：根据用户的各骨架关键点对应的热力图，确定当前视频帧中用户的第一骨架特征信息。

具体的说，可以根据用户的各骨架关键点对应的热力图，得到目标热力图；其中，目标热力图上汇总了各骨架关键点修正后的位置。比如，用户的各骨架关键点对应的热力图可以包括14个骨架关键点对应的14张热力图，则可以将14张热力图中的14个骨架关键点描绘在同一张图中，该图即为上述的目标热力图。然后，根据目标热力图，确定当前视频帧中用户的第一骨架特征信息。

在一个例子中，根据目标热力图，确定当前视频帧中用户的第一骨架特征信息的方式可以如下：根据目标热力图确定用户的各骨架关键点的位置信息，根据用户的各骨架关键点的位置信息，确定用户做的动作对应的动作角度，根据用户做的动作对应的动作角度，确定当前视频帧中用户的第一骨架特征信息。其中，根据用户的各骨架关键点的位置信息，确定用户做的动作对应的动作角度的实现方式，以及根据用户做的动作对应的动作角度，确定当前视频帧中用户的第一骨架特征信息的实现方式，可以参考第一实施方式中的相关描述，为避免重复，在此不再赘述。

步骤404：获取教学视频中的教学动作对应的第二骨架特征信息。

步骤405：根据第一骨架特征信息和第二骨架特征信息，对用户做出的动作进行评价。

其中，步骤404至步骤405与第一实施方式中的步骤102至步骤103大致相同，为避免重复，在此不再赘述。

另外，在步骤404中，如果获取教学视频中的教学动作对应的第二骨架特征信息的过程中，涉及确定教学视频中教学者的第二骨架特征信息，则可以参考本实施方式中确定当前视频帧中用户的第一骨架特征信息的方式。比如，先将教学视频逐帧输入预先训练的用于生成骨架点图的Tensor Flow Lite神经网络模型，逐帧输出教学视频中教学者的骨架点图。然后，采用预设的滤波算法对教学者的骨架点图进行滤波，获取教学者的各骨架关键点对应的热力图。接着，根据教学者的各骨架关键点对应的热力图，逐帧确定教学视频中教学者的第二骨架特征信息，也就是教学视频中教学动作对应的第二骨架特征信息。

与现有技术相比，本实施方式通过采用预设的滤波算法对骨架图进行滤波，有利于消除噪声信息，使得确定的第一骨架特征信息和第二骨架特征信息更加稳定和准确，从而进一步提高了对用户所做动作的评价的稳定性和准确性。

本发明的第三实施方式涉及一种动作评价方法。下面对本实施方式的动作评价方法的实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须。

本实施方式中的动作评价方法的流程图可以如图5所示，包括：

步骤501：获取当前视频帧中用户的第一骨架特征信息。

步骤502：确定教学视频中的教学者的各骨架关键点的位置信息。

其中，步骤501至步骤502的实现方式可以参考第一实施方式或第二实施方式中的相关描述，为避免重复在此不再一一赘述。

步骤503：根据教学者的各骨架关键点的位置信息，确定教学动作中多个关键动作分别对应的动作角度。

本实施方式中的教学动作包括预设的多个关键动作，比如，根据每个教学动作的特点，可以选取多个关键动作，比如一个教学动作可以包括如图6所示的3个关键动作，该教学动作可以描述为：站立、跳跃、站立。根据教学者在做不同关键动作时各骨架关键点的位置信息，可以确定教学动作中多个关键动作分别对应的动作角度。在具体实现中，每个关键动作可以对应多个动作角度。

步骤504：根据多个关键动作分别对应的动作角度，确定任意两个相邻关键动作之间的多个角度差异值。

比如，关键动作1对应的动作角度∠ABD＝x1，∠ABC＝y1，关键动作2对应的动作角度∠ABD＝x2，∠ABC＝y2，则关键动作1与关键动作2之间的多个角度差异值包括：∠ABD的差异值x1-x2，∠ABC的差异值y1-y2；其中，差异值x1-x2和y1-y2可以均取绝对值。参考上述示例，可以确定一个教学动作中任意两个相邻关键动作之间的多个角度差异值。

步骤505：根据多个角度差异值，确定用于表征任意两个相邻关键动作的关键骨架特征信息。

在一个例子中，可以先对多个动作角度差异值进行从大到小的排序，选择前n个动作角度差异值；其中，n为大于1的自然数。然后从多个关键动作分别对应的动作角度中，选择出形成前n个动作角度差异值的动作角度。接着，根据选择出的动作角度，确定用于表征任意两个相邻关键动作的关键骨架特征信息。

假设，n取15，参考上述关键动作1对应的动作角度∠ABD＝x1，∠ABC＝y1，关键动作2对应的动作角度∠ABD＝x2，∠ABC＝y2。假设x1-x2处于Top15，那么就认为可以用∠ABC的大小区分关键动作1和关键动作2，则∠ABD＝x1可以作为关键动作1对应的关键骨架特征信息中的一部分，∠ABD＝x2可以作为关键动作2对应的关键骨架特征信息中的一部分。后续在识别用户动作的过程中，假设关键动作1对应的关键骨架特征信息仅包括∠ABD＝x1，如果用户做的动作对应的动作角度∠ABD的大小接近x1，则可以认为用户做的动作与关键动作1的相似度很高。类似的，假设关键动作2对应的关键骨架特征信息仅包括∠ABD＝x2，如果用户做的动作对应的动作角度∠ABD的大小接近x2，则可以认为用户做的动作与关键动作2的相似度很高。

步骤506：根据关键骨架特征信息，确定教学视频中的教学动作对应的第二骨架特征信息。

比如，可以对用于表征任意两个相邻关键动作的关键骨架特征信息求并集，作为教学动作对应的第二骨架特征信息。对于如图6所示的教学动作，其对应的第二骨架特征信息可以包括：关键动作1对应的关键骨架特征信息、关键动作2对应的关键骨架特征信息和关键动作3对应的关键骨架特征信息。

步骤507：根据第一骨架特征信息和第二骨架特征信息，对用户做出的动作进行评价。

其中，第一骨架特征信息可以包括用户做出的动作对应的第一动作角度序列，第二骨架特征信息可以包括教学者做出的动作对应的第二动作角度序列，第二动作角度序列可以包括多个关键动作对应的关键动作角度序列。关键动作角度序列，可以理解为，多个关键动作角度组成的角度向量。

在一个例子中，可以计算第一动作角度序列与每个关键动作角序列之间的欧式距离，根据第一动作角度序列与每个关键动作角序列之间的欧式距离，确定用户做出的动作是否为教学动作中的多个关键动作之一。欧式距离越大，表明用户做出的动作与关键动作的相似度越小；欧式距离越小，表明用户做出的动作与关键动作的相似度越大。相似度越大，评价越好，对应的评分越高，反之相似度越小，评价越差，对应的评分越低。如果最终确定第一动作角度序列与每个关键动作角序列之间的欧式距离均较大，说明用户做的动作与教学者做的每一个关键动作均不相同，则可以向用户反馈“无动作”、“动作不标准”等反馈信息。

在一个例子中，对于包括多个关键动作的教学动作，可以指定用于评分的关键动作。如果识别出用户做的动作为用于评分的关键动作，则对用户做的动作进行评分。其中，识别用户做的动作是否为用于评分的关键动作的方式可以为：确定用户做的动作与该用于评分的关键动作的相似度，如果相似度大于预设阈值，则识别出用户做的动作是用于评分的关键动作，然后再根据用户做的动作与该用于评分的关键动作的相似度，对用户做的动作进行评分，相似度越大，评分越高，相似度越小，评分越低。上述的预设阈值可以根据实际需要进行设置，本实施方式对此不做具体限定。通过指定用于评分的关键动作，有利于实现其余动作的噪声干扰，提高评分的稳定性。

在一个例子中，对于包括多个关键动作的教学动作，还可以依次确定每个关键动作与用户做的动作的相似度，根据相似度对每个关键动作均进行评分，向用户反馈每个关键动作的评分。或者，选择多个关键动作的评分中最高的一个反馈给用户从而保证评分的鲁棒性。

与现有技术相比，本实施方式中教学动作包括预设的多个关键动作，根据多个关键动作分别对应的动作角度，确定任意两个相邻关键动作之间的多个角度差异值，根据多个角度差异值，确定用于表征任意两个相邻关键动作的关键骨架特征信息，根据关键骨架特征信息，确定教学视频中的教学动作对应的第二骨架特征信息，有利于根据每个教学动作的特点，选取教学动作中的多个关键动作，从而结合多个关键动作中用于表征任意两个相邻关键动作的关键骨架特征信息，来确定教学动作对应的第二骨架特征信息，充分考虑到教学动作中的多个关键动作，有利于更加全面的衡量教学动作的特点，从而进一步提高后续对用户动作进行评价时的准确性。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明第四实施方式涉及一种电子设备，如图7所示，包括至少一个处理器701；以及，与至少一个处理器701通信连接的存储器702；其中，存储器702存储有可被至少一个处理器701执行的指令，指令被至少一个处理器701执行，以使至少一个处理器701能够执行第一至第三实施方式中的动作评价方法。

其中，存储器702和处理器701采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器701和存储器702的各种电路连接在一起。总线还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器701处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器701。

处理器701负责管理总线和通常的处理，还可以提供各种功能，包括定时，***接口，电压调节、电源管理以及其他控制功能。而存储器702可以被用于存储处理器701在执行操作时所使用的数据。

本发明第五实施方式涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种动作评价方法，其特征在于，包括：

获取当前视频帧中用户的第一骨架特征信息；其中，所述当前视频帧中包括所述用户在预设的教学视频的指导下做出的动作，所述第一骨架特征信息包括所述用户做出的所述动作对应的第一动作角度序列；

获取所述教学视频中的教学动作对应的第二骨架特征信息，所述第二骨架特征信息包括所述教学动作对应的第二动作角度序列；

根据所述第一骨架特征信息和所述第二骨架特征信息，对所述用户做出的所述动作进行评价，具体包括：根据所述第一动作角度序列和所述第二动作角度序列，计算欧氏距离；根据所述欧氏距离，确定所述用户做出的所述动作与所述教学动作的相似度，根据所述相似度，对所述用户做出的所述动作进行评价；

所述获取所述教学视频中的教学动作对应的第二骨架特征信息，包括：

确定所述教学视频中的教学者的各骨架关键点的位置信息；

根据所述教学者的各骨架关键点的位置信息，确定所述教学动作对应的动作角度；

根据所述教学动作对应的动作角度，获取所述教学视频中的教学动作对应的第二骨架特征信息；

所述教学动作包括预设的多个关键动作，所述教学动作对应的动作角度包括所述多个关键动作分别对应的动作角度；每个所述关键动作对应的动作角度的数量为多个；

所述根据所述教学动作对应的动作角度，获取所述教学视频中的教学动作对应的第二骨架特征信息，包括：

根据所述多个关键动作分别对应的动作角度，确定任意两个相邻关键动作之间的多个角度差异值；

根据所述多个角度差异值，确定用于表征所述任意两个相邻关键动作的关键骨架特征信息；

根据所述关键骨架特征信息，确定所述教学视频中的教学动作对应的第二骨架特征信息。

2.根据权利要求1所述的动作评价方法，其特征在于，所述根据所述多个动作角度差异值，确定用于表征所述任意两个相邻关键动作的关键骨架特征信息，包括：

对所述多个动作角度差异值进行从大到小的排序，选择前n个动作角度差异值；其中，所述n为大于1的自然数；

从所述多个关键动作分别对应的动作角度中，选择出形成所述前n个动作角度差异值的动作角度；

根据选择出的动作角度，确定用于表征所述任意两个相邻关键动作的关键骨架特征信息。

3.根据权利要求1所述的动作评价方法，其特征在于，所述获取当前视频帧中用户的第一骨架特征信息，包括：

将所述当前视频帧输入预先训练的用于生成骨架点图的Tensor Flow Lite神经网络模型，输出所述当前视频帧中用户的骨架点图；

根据所述用户的骨架点图，确定所述当前视频帧中用户的第一骨架特征信息。

4.根据权利要求3所述的动作评价方法，其特征在于，所述根据所述用户的骨架点图，确定所述当前视频帧中用户的第一骨架特征信息，包括：

采用预设的滤波算法对所述骨架点图进行滤波，获取所述用户的各骨架关键点对应的热力图；

根据所述用户的各骨架关键点对应的热力图，确定所述当前视频帧中用户的第一骨架特征信息。

5.一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至4中任一所述的动作评价方法。

6.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的动作评价方法。