WO2021174697A1

WO2021174697A1 - 人体姿态评估方法、装置、计算机设备及存储介质

Info

Publication number: WO2021174697A1
Application number: PCT/CN2020/093332
Authority: WO
Inventors: 陈嘉莉; 周超勇; 刘玉宇
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-03-06
Filing date: 2020-05-29
Publication date: 2021-09-10
Also published as: CN111476097A

Abstract

涉及人工智能技术领域，一种人体姿态评估方法、装置、计算机设备及存储介质。人体姿态评估方法包括：获取待评估图像（S11）；将待评估图像输入预设的人体姿态估计网络，得到人体关键点数据，人体关键点数据包括关键点坐标和人体包围边框(S12)；通过人体包围边框对待评估图像进行缩放处理，并且根据缩放处理后的待评估图像对关键点坐标进行坐标变换，得到待评估(S13)；获取标准比对数据，标准比对数据包括标准坐标和每一标准坐标对应的置信度(S14)；通过置信度计算待评估坐标和标准坐标的相似度，得到待评估图像的评估信息(S15)。由此，通过评估与分析待评估图像中每一待评估坐标和标准坐标的相似度，实现了对用户的人体姿态进行快速和准确的评估。

Description

人体姿态评估方法、装置、计算机设备及存储介质

本申请以2020年3月6日提交的申请号为202010152307.9，名称为“人体姿态评估方法、装置、计算机设备及存储介质”的中国申请专利申请为基础，并要求其优先权。

技术领域

本申请涉及人工智能技术领域的图像处理领域，尤其涉及一种人体姿态评估方法、装置、计算机设备及存储介质。

背景技术

通过图像分析人体的姿态是计算机视觉研究的重要问题。目前，人体姿态评估被广泛应用于人机交互、电影特效以及智能监控***等诸多领域。例如；在运动领域，越来越多的人通过健身指导类app进行健身运动。然而，发明人意识到，用户在对照视频教学进行运动练习时，可能由于动作不标准而导致运动效果降低甚至受伤。因此，如何快速准确地评估用户的动作姿态的正确性，给用户提供更加科学的健身指导，成为目前亟待解决的问题。

申请内容

本申请实施例提供一种人体姿态评估方法、装置、计算机设备及存储介质，以解决无法对人体姿态进行快速和准确评估的问题。

一种人体姿态评估方法，包括：

获取待评估图像，所述待评估图像为包括用户姿态的图像；

将所述待评估图像输入预设的人体姿态估计网络，得到人体关键点数据，所述人体关键点数据包括关键点坐标和人体包围边框；

通过所述人体包围边框对所述待评估图像进行缩放处理，并且根据缩放处理后的所述待评估图像对所述关键点坐标进行坐标变换，得到待评估坐标；

获取标准比对数据，所述标准比对数据包括标准坐标和每一所述标准坐标对应的置信度；

通过所述置信度计算所述待评估坐标和所述标准坐标的相似度，得到所述待评估图像的评估信息。

一种人体姿态评估方法，包括：

获取待处理视频数据，所述待处理视频数据为通过视频采集设备录制的包括用户姿态的视频数据；

根据预设的时间节点从所述待处理视频数据中提取出待评估图像集，所述待评估图像集包括N个待评估图像；

采用所述人体姿态评估方法，对所述待评估图像集中的每一待评估图像进行评估，得到每一所述待评估图像的评估信息；

根据每一所述待评估图像的所述评估信息，计算所述待处理视频数据的评估分数。

一种人体姿态评估装置，包括：

待评估图像获取模块，用于获取待评估图像，所述待评估图像为包括用户姿态的图像；

输入模块，用于将所述待评估图像输入预设的人体姿态估计网络，得到人体关键点数据，所述人体关键点数据包括关键点坐标和人体包围边框；

缩放处理模块，用于通过所述人体包围边框对所述待评估图像进行缩放处理，并且根据缩放处理后的所述待评估图像对所述关键点坐标进行坐标变换，得到待评估坐标；

标准比对数据获取模块，用于获取标准比对数据，所述标准比对数据包括标准坐标和每一所述标准坐标对应的置信度；

相似度计算模块，用于通过所述置信度计算所述待评估坐标和所述标准坐标的相似度，得到所述待评估图像的评估信息。

一种人体姿态评估装置，包括：

待处理视频数据获取模块，用于获取待处理视频数据，待处理视频数据为通过视频采集设备录制的包括用户姿态的视频数据；

提取模块，用于根据预设的时间节点从待处理视频数据中提取出待评估图像集，待评估图像集包括N个待评估图像；

评估模块，用于采用人体姿态评估方法，对待评估图像集中的每一待评估图像进行评估，得到每一待评估图像的评估信息；

评估分数计算模块，用于根据每一待评估图像的评估信息，计算待处理视频数据的评估分数。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：

获取待评估图像，所述待评估图像为包括用户姿态的图像；

采用人体姿态评估方法，对所述待评估图像集中的每一待评估图像进行评估，得到每一所述待评估图像的评估信息；

一个或多个存储有计算机可读指令的可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如下步骤：

获取待评估图像，所述待评估图像为包括用户姿态的图像；

本申请通过评估与分析待评估图像中每一待评估坐标和标准坐标的相似度，实现了对用户的人体姿态进行快速和准确的评估，从而便于给用户提供精准的运动指导和有针对性的反馈。本申请的一个或多个实施例的细节在下面的附图和描述中提出，本申请的其他特征和优点将从说明书、附图以及权利要求变得明显。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例中人体姿态评估方法的一应用环境示意图；

图2是本申请一实施例中人体姿态评估方法的一示例图；

图3是本申请一实施例中人体姿态评估方法的另一示例图；

图4是本申请一实施例中人体姿态评估方法的另一示例图；

图5是本申请一实施例中人体姿态评估方法的另一示例图；

图6是本申请一实施例中人体姿态评估方法的另一示例图；

图7是本申请一实施例中人体姿态评估装置的一原理框图；

图8是本申请一实施例中人体姿态评估装置的另一原理框图；

图9是本申请一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供的人体姿态评估方法，该人体姿态评估方法可应用如图1所示的应用环境中。具体地，该人体姿态评估方法应用在人体姿态评估***中，该人体姿态评估***包括如图1所示的客户端和服务端，客户端与服务端通过网络进行通信，用于解决无法对人体姿态进行快速和准确评估的问题。其中，客户端又称为用户端，是指与服务端相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种人体姿态评估方法，以该方法应用在图1中的服务端为例进行说明，包括如下步骤：

S11：获取待评估图像，待评估图像为包括用户姿态的图像。

其中，待评估图像指待进行人体姿态评估的图像。待评估图像包括用户姿态的图像，即待评估图像中包括有用户的站姿、坐姿、跪姿或者其它任意一种姿态等。可选地，获取待评估图像可通过摄像头实时采集包含有用户姿态的图像作为待评估图像，或者预先采集包含有用户姿态的图像作为待评估图像，或者直接从用户姿态库中获取用户姿态图像作为待评估图像，还可以从互联网或第三方机构/平台所公开的数据集中获取用户姿态图像作为待评估图像，例如：健身指导App。

S12：将待评估图像输入预设的人体姿态估计网络，得到人体关键点数据，人体关键点数据包括关键点坐标和人体包围边框。

其中，人体姿态估计网络是指预先搭建的、可对待评估图像中的用户姿态进行识别，并输出一个识别结果，即人体关键点数据的网络框架。在本实施例中，人体姿态估计网络使用OpenPose框架。openpose是基于卷积神经网络和监督学习并以caffe为框架携程的开源库,可以实现人的面部表情、躯干和四肢甚至手指的跟踪，可输出包含人脸关键点的定位，人手的关键点的定位以及人身体的各个关节的定位；OpenPose框架不仅适用于单人也适用于多人，同时具有较好的鲁棒性。

具体地，将待评估图像输入到预设的人体姿态估计网络中，通过将人体的关节(颈部，肩膀，肘部等)联系起来，对人体关键点在三维空间相对位置的计算，观察人体关键点的位置变化，从而估计人体姿态，得到人体关键点数据。

其中，人体关键点数据包括关键点坐标和人体包围边框。关键点坐标是指从待评估图像中识别出的人体姿态关键点所在的坐标位置。人体姿态关键点可以为头部、脖子、左肩、右肩、左肘、右肘、左手腕、右手腕、左臀、右臀、左膝、右膝、左脚踝和右脚踝等14个关键点。关键点坐标可以用一个平面二维坐标来表示。例如：头部关键点所对应的关键点坐标为(x ₁,y ₁)、脖子关键点所对应的关键点坐标为(x ₂,y ₂)和左肩关键点所对应的关键点坐标为(x ₃,y ₃)等。可以理解地，每一待评估图像包括有多个关键点坐标。人体包围边框是指包围人体关键点的外部包围边界框。优选地，人体包围边框可通过包围边框上的四个点的坐标值表示。

S13：通过人体包围边框对待评估图像进行缩放处理，并且根据缩放处理后的待评估图像对关键点坐标进行坐标变换，得到待评估坐标。

其中，待评估坐标指对待评估图像中的关键点坐标进行坐标变换后得到的坐标信息。具体地，通过人体包围边框对待评估图像进行缩放处理是指根据人体包围边框对待评估图像进行裁剪，只保留人体包围边框内的图像部分；然后按照预设的标准尺寸对裁剪后的待评估图像进行缩放的过程。可以理解地，缩放处理后的待评估图像只包括有人体包围边框内的图像部分。缩放处理后的待评估图像的尺寸大小，与缩放处理前的待评估图像的尺寸大小可能相同或者不同。例如：先根据人体包围边框对待评估图像进行裁剪，裁剪掉待评估图像中人体包围边框外部的部分，然后再将裁剪后的待评估图像缩放至与裁剪前的待评估图像同等尺寸大小的图像。

进一步地，再根据缩放处理后的待评估图像对待评估图像中的关键点坐标进行同等坐标变化，即根据与待评估图像同等的缩放比例，对对应的关键点坐标进行同等坐标变换，得到待评估坐标。例如：待评估图像中人体关键点A的关键点坐标为(x ₁,y ₁)，若对裁剪后的待评估图像进行了放大2倍处理，则得到待评估图像中人体关键点A的待评估坐标为(2x ₁,2y ₁)。

S14：获取标准比对数据，标准比对数据包括标准坐标和每一标准坐标对应的置信度。

其中，标准比对数据是指预先采集的用于评估待评估图像中的人体姿态是否符合要求的标准数据。例如：标准比对数据可以为健身教练的人体姿态参考图，或者为经人体姿态估计网络评估筛选后的满足要求的人体姿态参考图等。需要说明的是，在本步骤中获取的标准比对数据与待评估图像中的人体姿态属于相同姿态类型的数据。具体地，可以预先将健身教练的健身视频输入预设的人体姿态估计网络中，然后将输出的多个人体姿态参考图以及每一人体姿态参考图所包括的标准坐标，和每一标准坐标对应的置信度存储于服务端的数据库中，当得到待评估图像的待评估坐标之后，直接从数据库中获取与待评估图像相对应的标准比对数据。

其中，标准比对数据包括标准坐标和每一标准坐标对应的置信度。标准坐标是指标准比对数据中各个人体关键点所对应的位置信息。同样地，标准坐标也可以用一个平面二维坐标来表示。置信度是用于表明每一标准坐标位置为正确的概率值。可以理解地，可以根据每一标准坐标对应的置信度判断每一标准坐标的重要程度。例如：标准比对数据包括标准坐标(x ₁，y ₁)以及对应的置信度PA，标准坐标(x ₂，y ₂)以及对应的置信度PB等，若PA>PB，则表示标准坐标(x ₁，y ₁)的重要程度大于标准坐标(x ₂，y ₂)。

S15：通过置信度计算待评估坐标和标准坐标的相似度，得到待评估图像的评估信息。

其中，评估信息是指用于评估待评估图像中的用户姿态的准确度的信息。优选地，评估信息可以为一具体的评估分数，评估分数越高，表明该评估待评估图像中的用户姿态越准确。具体地，可以先根据每一标准坐标对应的置信度，对每一标准坐标进行权重设置，置信度高的标准坐标对应设置较高权重，置信度低的标准坐标对应设置较低权重；然后采用相似度算法，比如余弦相似度算法计算每一待评估坐标与对应的标准坐标之间的相似度，得到初始相似度值，最后再根据每一标准坐标所对应的权重值，将所有初始相似度值进行加权计算统计，从而得到待评估图像的评估信息。

优选地，还可以预先根据置信度和相似度算法定义好评估计算公式，然后直接采用该评估计算公式计算每一待评估坐标和对应的标准坐标的相似度，从而得到待评估图像的评估信息。

在本实施例中，获取待评估图像，待评估图像为包括用户姿态的图像；将待评估图像输入预设的人体姿态估计网络，得到人体关键点数据，人体关键点数据包括关键点坐标和人体包围边框；通过人体包围边框对待评估图像进行缩放处理，并且根据缩放处理后的待评估图像对关键点坐标进行坐标变换，得到待评估坐标；获取标准比对数据，标准比对数据包括标准坐标和每一标准坐标对应的置信度；通过置信度计算待评估坐标和标准坐标的相似度，得到待评估图像的评估信息；通过评估与分析待评估图像中每一待评估坐标和标准坐标的相似度，实现了对用户的人体姿态进行快速和准确的评估，从而便于给用户提供精准的运动指导和有针对性的反馈。

在一实施例中，如图3所示，通过置信度计算待评估坐标和标准坐标的相似度，得到待评估图像的评估信息，具体包括如下步骤：

S151：通过如下公式计算所述待评估坐标和所述标准坐标的相似度：

其中，D(F,G)为所述待评估坐标和所述标准坐标的相似度，

为第k个标准坐标对应的置信度，

为待评估坐标中第k个待评估坐标，

为标准坐标中第k个标准坐标，K为标准坐标的数量。

具体地，

为第k个待评估坐标与第k个标准坐标之间的距离，然后，将第k个待评估坐标与第k个标准坐标之间的距离乘于第k个标准坐标对应的置信度，即可得到第k个待评估坐标与第k个标准坐标之间的相似度。可以理解地，可直接采用预先设定的上述公式，得到待评估图像中所有待评估坐标和对应的标准坐标的相似度。可以理解地，待评估坐标和标准坐标的相似度可以通过一具体的数值表示，相似度为1则表示待评估坐标和标准坐标完全相同。例如：得到待评估坐标和标准坐标的相似度可以为0.8、0.85或者0.9等。

S152：将相似度进行转化，得到待评估图像的评估信息。

具体地，在确定了待评估坐标和所述标准坐标的相似度之后，可根据预设的转化规则将相似度进行转化，得到待评估图像的评估信息。优选地，将转化规则可以为先将待评估坐标和标准坐标的相似度化成一具体的评估分值，然后再根据评估分值给出具体的评估建议，从而得到待评估图像的评估信息。例如：若待评估坐标和标准坐标的相似度为0.9，则对应的评估分值可以为90分。

在本实施例中，通过如下公式计算所述待评估坐标和所述标准坐标的相似度：

其中，D(F,G)为所述待评估坐标和所述标准坐标的相似度，

为第k个标准坐标对应的置信度，

为待评估坐标中第k个待评估坐标，

为标准坐标中第k个标准坐标，K为标准坐标的数量；将相似度进行转化，得到待评估图像的评估信息；从而提高了生成的待评估图像的评估信息的准确性。

在一实施例中，如图4所示，通过人体包围边框对待评估图像进行缩放处理，并且根据缩放处理后的待评估图像对关键点坐标进行坐标变换，得到待评估坐标，具体包括如下步骤：

S131：通过人体包围边框对待评估图像进行裁剪，并按照预设的标准尺寸对裁剪后的待评估图像进行缩放。

具体地，通过人体包围边框对待评估图像进行裁剪是指裁剪掉待评估图像中人体包围边框外部部分、只保留人体包围边框内部部分的过程。具体地，可采用图像裁剪工具实现对待评估图像的裁剪处理。可选地，图像裁剪工具可以为jQuery Jcrop图像裁剪工具或FOTOE图像裁剪工具等。优选地，还可以采用opencv的图像分割算法自动实现对待评估图像的裁剪。

其中，预设的标准尺寸指预先设定的标准图像尺寸。例如：预设的标准尺寸可以为600*600、750*750或800*800等。优选地，在本实施例中，为了提高后续的评估精度，将标准尺寸设定为与裁剪前的待评估图像的图像尺寸大小相同的尺寸。具体地，可采用图像缩放算法对裁剪后的待评估图像进行缩放；或者采用图像缩放工具对裁剪后的待评估图像进行缩放，得到与预设的标准尺寸大小相同的待评估图像。可选地，图像缩放算法可以为双线性内插值算法或三线性卷积插值算法。图像缩放工具可以为photoshop、iResizer或FastStone Photo Resizer。

S132：通过缩放参数对关键点坐标进行坐标变换。

其中，缩放参数是指将标准尺寸与裁剪后的待评估图像的图像尺寸进行比例化后得到的参数。例如：若裁剪后的待评估图像的图像尺寸为600*600，标准尺寸为800*1000；则得到的缩放参数为(4/3,5/3)；其中，4/3为x轴方向上的缩放比例，5/3为y轴方向上的缩放比例。具体地，通过得到的缩放参数对关键点坐标进行同等比例的坐标变换。例如：若关键点坐标为(12,15),缩放参数为(4/3,5/3),则进行坐标变换后的关键点坐标为(16,25)，即将关键点坐标中x轴方向上的值12缩放4/3倍，将关键点坐标中y轴方向上的值15缩放5/3倍。

S133：将经过坐标变换后的关键点坐标进行L1归一化或者L2归一化处理，得到待评估坐标。

具体地，将经过坐标变换后的关键点坐标视为向量数组，然后对向量数组中的向量进行L1或者L2归一化处理，得到待评估坐标。对向量数组中的向量进行L1归一化处理是指向量数组中的向量缩放为单位范数，对向量数组中的向量进行L2归一化处理是指将向量数组中的每一向量进行一致化处理并对其求和，所得结果将为1，用户可根据实际情况自义定选择任意一种归一化处理方式，本方案不做具体限制。在本步骤中，通过将经过坐标变换后的关键点坐标进行L1或者L2归一化处理，从而保证了生成的待评估坐标的准确性。

在本实施例中，通过人体包围边框对待评估图像进行裁剪，并按照预设的标准尺寸对裁剪后的待评估图像进行缩放，生成缩放参数；通过缩放参数对关键点坐标进行坐标变换；将经过坐标变换后的关键点坐标进行L1或者L2归一化处理，得到待评估坐标；从而保证了生成的待评估坐标的准确性，进一步提高了后续采用待评估坐标与标准数据进行相似度计算的准确精度。

在一实施例中，如图5所示，提供一种人体姿态评估方法，以该方法应用在图1中的服务端为例进行说明，包括如下步骤：

S21：获取待处理视频数据，待处理视频数据为通过视频采集设备录制的包括用户姿态的视频数据。

其中，待处理视频数据为原始的待处理的视频数据。具体地，待处理视频数据为通过视频采集设备录制的包括用户姿态的视频数据。视频采集设备将录制的该待处理视频数据发送到服务端，服务端即获取到待处理视频数据。

S22：根据预设的时间节点从待处理视频数据中提取出待评估图像集，待评估图像集包括N个待评估图像。

其中，预设的时间节点指预先设定对待处理视频数据进行待评估图像提取的时间点。例如：时间节点可以为1分23秒、2分23秒和2分23秒等。可以理解地，预设的时间节点可以为一个或者多个。优选地，可以在待处理视频数据中的起始阶段、中间阶段和最后阶段中分别设置一个时间节点。具体地，根据预设的时间节点，从待处理视频数据中提取出每一时间节点所对应的待评估图像，然后，将每一时间节点所对应的待评估图像组成待评估图像集，待评估图像集包括N个待评估图像。

具体地，可以采用FFmpeg中的滤镜(filter)功能来实现对待处理视频数据的图像提取。其中，FFmpeg是一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机可读指令。采用filter中的crop函数实现对待处理视频数据的图像提取。具体地，通过crop＝width:height:x:y来实现对待处理视频数据进行图像截取。优选地，为了避免提取出的某一时间节点所对应的待评估图像出现失真或者模糊现象，在本实施例中，从待处理视频数据中提取出的每一时间节点所对应的待评估图像至少为两个。

S23：采用人体姿态评估方法，对待评估图像集中的每一待评估图像进行评估，得到每一待评估图像的评估信息。

具体地，采用上述实施例中的人体姿态评估方法，对待评估图像集中的每一待评估图像进行评估，即可得到每一待评估图像的评估信息。在此不做冗余赘述。

S24：根据每一待评估图像的评估信息，计算待处理视频数据的评估分数。

具体地，在确定了每一待评估图像的评估信息之后，将每一待评估图像的评估信息进行整合处理，即可得到待处理视频数据的评估分数。由于每一待评估图像的评估信息中包括有对应的评估分数，因此，在本步骤中，将每一待评估图像的评估信息中的评估分数进行统计求和后再求平均值，即可得到待处理视频数据的评估分数。优选地，还可以预先对每一待评估图像进行权重设置，然后根据每一待评估图像的权重值，对每一待评估图像的评估信息中的评估分数进行加权计算统计求和后再求平均值，从而得到待处理视频数据的评估分数。

在本实施例中，通过获取待处理视频数据，待处理视频数据为通过视频采集设备录制的包括用户姿态的视频数据；根据预设的时间节点从待处理视频数据中提取出待评估图像集，待评估图像集包括N个待评估图像；采用人体姿态评估方法，对待评估图像集中的每一待评估图像进行评估，得到每一待评估图像的评估信息；根据每一待评估图像的评估信息，计算待处理视频数据的评估分数；通过提取待处理视频数据中的待评估图像，然后根据待评估图像的评估信息计算待处理视频数据的评估分数，从而实现了对待处理视频数据中用户的人体姿态进行快速和准确的评估。

在一实施例中，时间节点包括M个子时间节点，每一子时间节点对应至少一个待评估图像；

根据预设的时间节点从待处理视频数据中提取出待评估图像集，具体包括如下步骤：

根据每一子时间节点从所述待处理视频数据中提取预设数量的待评估图像，将每一子时间节点对应的所述待评估图像组成待评估图像集。

其中，预设数量指预先设定的从待处理视频数据中提取出每一子时间节点所对应的待评估图像的数量。在本实施例中，预设数量大于或等于2。可以理解地，预设数量越多，即待评估图像的数量越多，后续对待处理视频数据进行评估的精度就越高，然而服务端计算复杂度也会越高，具体的数量可以根据不同应用场景需要而设定。若侧重于识别精度，可以提高预设数量，若侧重于识别效率，可以适当降低待预设数量。

具体地，时间节点包括M个子时间节点，每一子时间节点对应至少一个待评估图像。根据每一子时间节点从待处理视频数据中提取预设数量的待评估图像，然后将每一子时间节点对应的待评估图像组成待评估图像集。

在一实施例中，如图6所示，根据每一待评估图像的评估信息，计算待处理视频数据的评估分数，具体包括如下步骤：

S241：从每一子时间节点中对应的预设数量的待评估图像中，确定目标评估信息，其中，目标评估信息为指示和对应的标准坐标相似度最高的评估信息。

具体地，由于每一子时间节点中对应的待评估图像至少为两个，则可以从每一子时间节点中对应的预设数量的待评估图像中，选取最具代表性的一个待评估图像作为目标评估图像，并将每一目标评估图像所对应的评估信息确定为目标评估信息。目标评估信息为指示和对应的标准坐标相似度最高的评估信息。具体地，从每一子时间节点中对应的预设数量的待评估图像中选取目标评估图像可以通过预先训练对应的神经网络模型，得到一个姿态识别模型来实现。即通过将大量代表不同姿态的图像数据进行标注之后输入到一个神经网络模型中进行训练，即得到姿态识别模型。

S242：根据每一子时间节点对应的目标评估信息，计算待处理视频数据的评估分数。

具体地，在确定了每一子时间节点对应的目标评估信息之后，再将每一子时间节点对应的目标评估信息进行整合处理，即可得到待处理视频数据的评估分数。可以理解地，由于每一目标评估信息中包括有对应的评估分数，因此，在本步骤中，将每一目标评估信息中的评估分数进行统计求和后再求平均值，即可得到待处理视频数据的评估分数。

在本实施例中，从每一子时间节点中对应的预设数量的待评估图像中，确定目标评估信息，其中，目标评估信息为指示和对应的标准坐标相似度最高的评估信息；根据每一子时间节点对应的目标评估信息，计算待处理视频数据的评估分数；从而进一步提高了计算得到的待处理视频数据的评估分数的准确性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

在一实施例中，提供一种人体姿态评估装置，该人体姿态评估装置与上述实施例中人体姿态评估方法一一对应。如图7所示，该人体姿态评估装置包括待评估图像获取模块11、输入模块12、缩放处理模块13、标准比对数据获取模块14和相似度计算模块15。各功能模块详细说明如下：

待评估图像获取模块11，用于获取待评估图像，待评估图像为包括用户姿态的图像；

输入模块12，用于将待评估图像输入预设的人体姿态估计网络，得到人体关键点数据，人体关键点数据包括关键点坐标和人体包围边框；

缩放处理模块13，用于通过人体包围边框对待评估图像进行缩放处理，并且根据缩放处理后的待评估图像对关键点坐标进行坐标变换，得到待评估坐标；

标准比对数据获取模块14，用于获取标准比对数据，标准比对数据包括标准坐标和每一标准坐标对应的置信度；

相似度计算模块15，用于通过置信度计算待评估坐标和标准坐标的相似度，得到待评估图像的评估信息。

优选地，如图8所示，相似度计算模块15包括：

相似度计算单元151，用于通过如下公式计算待评估坐标和标准坐标的相似度：

其中，D(F,G)为待评估坐标和标准坐标的相似度，

为第k个标准坐标对应的置信度，

为待评估坐标中第k个待评估坐标，

为标准坐标中第k个标准坐标，K为标准坐标的数量；

转化单元152，用于将相似度进行转化，得到待评估图像的评估信息。

优选地，缩放处理模块13包括：

裁剪缩放单元，用于通过人体包围边框对待评估图像进行裁剪，并按照预设的标准尺寸对裁剪后的待评估图像进行缩放；

坐标变换单元，用于通过缩放参数对关键点坐标进行坐标变换；

归一化处理单元，用于将经过坐标变换后的关键点坐标进行L1归一化或者L2归一化处理，得到待评估坐标。

优选地，人体姿态评估装置还包括：

优选地，提取模块包括：

提取单元，用于根据每一子时间节点从待处理视频数据中提取预设数量的待评估图像，将每一子时间节点对应的待评估图像组成待评估图像集。

优选地，评估分数计算模块包括：

目标评估信息确定单元，用于从每一子时间节点中对应的预设数量的待评估图像中，确定目标评估信息，其中，目标评估信息为指示和对应的标准坐标相似度最高的评估信息；

评估分数计算单元，用于根据每一子时间节点对应的目标评估信息，计算待处理视频数据的评估分数。

关于人体姿态评估装置的具体限定可以参见上文中对于人体姿态评估方法的限定，在此不再赘述。上述人体姿态评估装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作***、计算机可读指令和数据库。该内存储器为可读存储介质中的操作***和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储上述实施例人体姿态评估方法中使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种人体姿态评估方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，处理器执行计算机可读指令时实现上述实施例中的人体姿态评估方法。

在一个实施例中提供了一个或多个存储有计算机可读指令的可读存储介质，本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质；该可读存储介质上存储有计算机可读指令，该计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器实现上述实施例中的人体姿态评估方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性计算机可读取存储介质或易失性可读存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

一种人体姿态评估方法，其中，包括：

获取待评估图像，所述待评估图像为包括用户姿态的图像；

将所述待评估图像输入预设的人体姿态估计网络，得到人体关键点数据，所述人体关键点数据包括关键点坐标和人体包围边框；

通过所述人体包围边框对所述待评估图像进行缩放处理，并且根据缩放处理后的所述待评估图像对所述关键点坐标进行坐标变换，得到待评估坐标；

获取标准比对数据，所述标准比对数据包括标准坐标和每一所述标准坐标对应的置信度；

通过所述置信度计算所述待评估坐标和所述标准坐标的相似度，得到所述待评估图像的评估信息。
如权利要求1所述的人体姿态评估方法，其中，所述通过所述置信度计算所述待评估坐标和所述标准坐标的相似度，得到所述待评估图像的评估信息，包括：

通过如下公式计算所述待评估坐标和所述标准坐标的相似度：

其中，D(F,G)为所述待评估坐标和所述标准坐标的相似度，
为第k个标准坐标对应的置信度，
为待评估坐标中第k个待评估坐标，
为标准坐标中第k个标准坐标，K为标准坐标的数量；

将所述相似度进行转化，得到所述待评估图像的评估信息。
如权利要求1所述的人体姿态评估方法，其中，所述通过所述人体包围边框对所述待评估图像进行缩放处理，并且根据缩放处理后的所述待评估图像对所述关键点坐标进行坐标变换，得到待评估坐标，包括：

通过所述人体包围边框对所述待评估图像进行裁剪，并按照预设的标准尺寸对所述裁剪后的待评估图像进行缩放；

通过缩放参数对所述关键点坐标进行坐标变换；

将经过坐标变换后的所述关键点坐标进行L1归一化或者L2归一化处理，得到待评估坐标。
一种人体姿态评估方法，其中，包括：

获取待处理视频数据，所述待处理视频数据为通过视频采集设备录制的包括用户姿态的视频数据；

根据预设的时间节点从所述待处理视频数据中提取出待评估图像集，所述待评估图像集包括N个待评估图像；

采用权利要求1所述的人体姿态评估方法，对所述待评估图像集中的每一待评估图像进行评估，得到每一所述待评估图像的评估信息；

根据每一所述待评估图像的所述评估信息，计算所述待处理视频数据的评估分数。
如权利要求4所述的人体姿态评估方法，其中，所述时间节点包括M个子时间节点，每一所述子时间节点对应至少一个待评估图像；

所述根据预设的时间节点从所述待处理视频数据中提取出待评估图像集，包括：

根据每一子时间节点从所述待处理视频数据中提取预设数量的待评估图像，将每一子时间节点对应的所述待评估图像组成待评估图像集。
如权利要求5所述的人体姿态评估方法，其中，所述根据每一所述待评估图像的所述评估信息，计算所述待处理视频数据的评估分数，包括：

从每一子时间节点中对应的预设数量的待评估图像中，确定目标评估信息，其中，所述目标评估信息为指示和对应的标准坐标相似度最高的评估信息；

根据每一子时间节点对应的所述目标评估信息，计算所述待处理视频数据的评估分数。
一种人体姿态评估装置，其中，包括：

待评估图像获取模块，用于获取待评估图像，所述待评估图像为包括用户姿态的图像；

输入模块，用于将所述待评估图像输入预设的人体姿态估计网络，得到人体关键点数据，所述人体关键点数据包括关键点坐标和人体包围边框；

缩放处理模块，用于通过所述人体包围边框对所述待评估图像进行缩放处理，并且根据缩放处理后的所述待评估图像对所述关键点坐标进行坐标变换，得到待评估坐标；

标准比对数据获取模块，用于获取标准比对数据，所述标准比对数据包括标准坐标和每一所述标准坐标对应的置信度；

相似度计算模块，用于通过所述置信度计算所述待评估坐标和所述标准坐标的相似度，得到所述待评估图像的评估信息。
如权利要求7所述的人体姿态评估装置，其中，所述相似度计算模块包括：

相似度计算单元，用于通过如下公式计算所述待评估坐标和所述标准坐标的相似度：

其中，D(F,G)为所述待评估坐标和所述标准坐标的相似度，
为第k个标准坐标对应的置信度，
为待评估坐标中第k个待评估坐标，
为标准坐标中第k个标准坐标，K为标准坐标的数量；

转化单元，用于将所述相似度进行转化，得到所述待评估图像的评估信息。
如权利要求7所述的人体姿态评估装置，其中，所述缩放处理模块包括：

裁剪缩放单元，用于通过人体包围边框对待评估图像进行裁剪，并按照预设的标准尺寸对裁剪后的待评估图像进行缩放；

坐标变换单元，用于通过缩放参数对关键点坐标进行坐标变换；

归一化处理单元，用于将经过坐标变换后的关键点坐标进行L1归一化或者L2归一化处理，得到待评估坐标。
一种人体姿态评估装置，其中，包括：

待处理视频数据获取模块，用于获取待处理视频数据，待处理视频数据为通过视频采集设备录制的包括用户姿态的视频数据；

提取模块，用于根据预设的时间节点从待处理视频数据中提取出待评估图像集，待评估图像集包括N个待评估图像；

评估模块，用于采用人体姿态评估方法，对待评估图像集中的每一待评估图像进行评估，得到每一待评估图像的评估信息；

评估分数计算模块，用于根据每一待评估图像的评估信息，计算待处理视频数据的评估分数。
如权利要求10所述的人体姿态评估装置，其中，所述时间节点包括M个子时间节点，每一所述子时间节点对应至少一个待评估图像；

所述提取模块包括：

提取单元，用于根据每一子时间节点从待处理视频数据中提取预设数量的待评估图像，将每一子时间节点对应的待评估图像组成待评估图像集。
如权利要求11所述的人体姿态评估装置，其中，所述评估分数计算模块包括：

目标评估信息确定单元，用于从每一子时间节点中对应的预设数量的待评估图像中，确定目标评估信息，其中，目标评估信息为指示和对应的标准坐标相似度最高的评估信息；

评估分数计算单元，用于根据每一子时间节点对应的目标评估信息，计算待处理视频数据的评估分数。
一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其中，所述处理器执行所述计算机可读指令时实现如下步骤：

获取待评估图像，所述待评估图像为包括用户姿态的图像；

将所述待评估图像输入预设的人体姿态估计网络，得到人体关键点数据，所述人体关键点数据包括关键点坐标和人体包围边框；

通过所述人体包围边框对所述待评估图像进行缩放处理，并且根据缩放处理后的所述待评估图像对所述关键点坐标进行坐标变换，得到待评估坐标；

获取标准比对数据，所述标准比对数据包括标准坐标和每一所述标准坐标对应的置信度；

通过所述置信度计算所述待评估坐标和所述标准坐标的相似度，得到所述待评估图像的评估信息。
如权利要求13所述的计算机设备，其中，所述通过所述置信度计算所述待评估坐标和所述标准坐标的相似度，得到所述待评估图像的评估信息，包括：

通过如下公式计算所述待评估坐标和所述标准坐标的相似度：

其中，D(F,G)为所述待评估坐标和所述标准坐标的相似度，
为第k个标准坐标对应的置信度，
为待评估坐标中第k个待评估坐标，
为标准坐标中第k个标准坐标，K为标准坐标的数量；

将所述相似度进行转化，得到所述待评估图像的评估信息。
如权利要求13所述的计算机设备，其中，所述通过所述人体包围边框对所述待评估图像进行缩放处理，并且根据缩放处理后的所述待评估图像对所述关键点坐标进行坐标变换，得到待评估坐标，包括：

通过所述人体包围边框对所述待评估图像进行裁剪，并按照预设的标准尺寸对所述裁剪后的待评估图像进行缩放；

通过缩放参数对所述关键点坐标进行坐标变换；

将经过坐标变换后的所述关键点坐标进行L1归一化或者L2归一化处理，得到待评估坐标。
一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其中，所述处理器执行所述计算机可读指令时实现如下步骤：

获取待处理视频数据，所述待处理视频数据为通过视频采集设备录制的包括用户姿态的视频数据；

根据预设的时间节点从所述待处理视频数据中提取出待评估图像集，所述待评估图像集包括N个待评估图像；

采用人体姿态评估方法，对所述待评估图像集中的每一待评估图像进行评估，得到每一所述待评估图像的评估信息；

根据每一所述待评估图像的所述评估信息，计算所述待处理视频数据的评估分数。
如权利要求16所述的计算机设备，其中，所述时间节点包括M个子时间节点，每一所述子时间节点对应至少一个待评估图像；

所述根据预设的时间节点从所述待处理视频数据中提取出待评估图像集，包括：

根据每一子时间节点从所述待处理视频数据中提取预设数量的待评估图像，将每一子时间节点对应的所述待评估图像组成待评估图像集。
如权利要求17所述的计算机设备，其中，所述根据每一所述待评估图像的所述评估信息，计算所述待处理视频数据的评估分数，包括：

从每一子时间节点中对应的预设数量的待评估图像中，确定目标评估信息，其中，所述目标评估信息为指示和对应的标准坐标相似度最高的评估信息；

根据每一子时间节点对应的所述目标评估信息，计算所述待处理视频数据的评估分数。
一个或多个存储有计算机可读指令的可读存储介质，其中，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如下步骤：

获取待评估图像，所述待评估图像为包括用户姿态的图像；

将所述待评估图像输入预设的人体姿态估计网络，得到人体关键点数据，所述人体关键点数据包括关键点坐标和人体包围边框；

通过所述人体包围边框对所述待评估图像进行缩放处理，并且根据缩放处理后的所述待评估图像对所述关键点坐标进行坐标变换，得到待评估坐标；

获取标准比对数据，所述标准比对数据包括标准坐标和每一所述标准坐标对应的置信度；

通过所述置信度计算所述待评估坐标和所述标准坐标的相似度，得到所述待评估图像的评估信息。
如权利要求19所述的可读存储介质，其中，所述通过所述置信度计算所述待评估坐标和所述标准坐标的相似度，得到所述待评估图像的评估信息，包括：

通过如下公式计算所述待评估坐标和所述标准坐标的相似度：

其中，D(F,G)为所述待评估坐标和所述标准坐标的相似度，
为第k个标准坐标对应的置信度，
为待评估坐标中第k个待评估坐标，
为标准坐标中第k个标准坐标，K为标准坐标的数量；

将所述相似度进行转化，得到所述待评估图像的评估信息。