CN114170439A

CN114170439A - 姿态识别方法、装置、存储介质和电子设备

Info

Publication number: CN114170439A
Application number: CN202111463800.3A
Authority: CN
Inventors: 肖亚博; 王国利; 张骞; 黄畅
Original assignee: Beijing Horizon Information Technology Co Ltd
Current assignee: Beijing Horizon Information Technology Co Ltd
Priority date: 2021-12-02
Filing date: 2021-12-02
Publication date: 2022-03-11

Abstract

本公开实施例公开了一种姿态识别方法、装置、存储介质和电子设备，其中，方法包括：提取包括待识别对象的图像的特征数据；基于预设的预测方法从特征数据中预测每个像素点对应的关键点查询位置，其中，像素点表征待识别对象候选的中心点部位成像点，像素点对应的关键点表征待识别对象候选的关键部位成像点；基于特征数据和每个像素点对应的关键点查询位置，预测每个像素点对应的姿态质量得分以及关键点的位置；将姿态质量得分符合预设条件的像素点确定为目标像素点，将目标像素点对应的关键点的位置确定为目标关键点的位置；基于目标像素点的位置和目标关键点的位置，确定待识别对象的目标姿态。可以提高姿态识别的准确度。

Description

姿态识别方法、装置、存储介质和电子设备

技术领域

本公开涉及计算机视觉技术，尤其是一种姿态识别方法、装置、存储介质和电子设备。

背景技术

在计算机视觉领域，姿态识别用于定位出图像中待识别对象的关键点位置，并基于关键点位置表征待识别对象的姿态，例如人体姿态识别。随着深度学习技术的应用，该领域取得了极大的进步并且促进了人机交互、行为识别等领域的发展。

相关技术中，姿态识别方法通常都是基于二维高斯核和离散的{1,0}确定待识别对象实例的姿态得分，以此表征姿态识别的质量。

发明内容

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种姿态识别方法、装置、存储介质和电子设备。

根据本公开实施例的一个方面，提供了一种姿态识别方法，包括：提取包括待识别对象的图像的特征数据；基于预设的预测方法从特征数据中预测每个像素点对应的关键点查询位置，其中，像素点表征待识别对象候选的中心点部位成像点，关键点表征待识别对象候选的关键部位成像点；基于特征数据和每个像素点对应的关键点查询位置，预测每个像素点对应的姿态质量得分以及关键点的位置；将姿态质量得分符合预设条件的像素点确定为目标像素点，将目标像素点对应的关键点的位置确定为目标关键点的位置；基于目标像素点的位置和目标关键点的位置，确定待识别对象的目标姿态。

根据本公开实施例的又一个方面，提供了一种训练姿态识别模型的方法，包括：获取标记有像素点的参考质量得分以及待识别对象的样本姿态的样本图像，其中，样本姿态包括表征待识别对象的中心点部位成像点的样本目标像素点的位置以及表征待识别对象的关键部位成像点的样本关键点的位置；利用预先构建的初始姿态识别模型对样本图像进行处理，得到每个像素点对应的预测质量得分以及待识别对象的预测姿态；基于预测姿态和样本姿态，确定第一损失函数；基于每个像素点对应的预测质量得分和预设的参考质量得分，确定第二损失函数；基于第一损失值和第二损失值对初始姿态识别模型进行调整，直至满足训练停止条件，得到姿态识别模型。

根据本公开的实施例的又一个方面，提供了一种姿态识别装置，包括：特征提取单元，被配置成提取包括待识别对象的图像的特征数据；第一预测单元，被配置成基于预设的预测方法从特征数据中预测每个像素点对应的关键点查询位置，其中，像素点表征待识别对象候选的中心点部位成像点，像素点对应的关键点表征待识别对象候选的关键部位成像点；第二预测单元，被配置成基于特征数据和每个像素点对应的关键点查询位置，预测每个像素点对应的姿态质量得分以及关键点的位置；目标确定单元，被配置成将姿态质量得分符合预设条件的像素点确定为目标像素点，将目标像素点对应的关键点的位置确定为目标关键点的位置；姿态确定单元，被配置成基于目标像素点的位置和目标关键点的位置，确定待识别对象的目标姿态。

根据本公开的实施例的又一个方面，提供一种训练姿态识别模型的装置，包括：样本获取单元，被配置成获取标记有待识别对象的样本姿态的样本图像，其中，样本姿态包括表征待识别对象的中心点部位成像点的样本目标像素点的位置以及表征待识别对象的关键部位成像点的样本关键点的位置；模型预测单元，被配置成利用预先构建的初始姿态识别模型对样本图像进行处理，得到每个像素点对应的预测质量得分以及待识别对象的预测姿态；第一损失单元，被配置成基于预测姿态和样本姿态，确定第一损失函数；第二损失单元，被配置成基于每个像素点对应的预测质量得分和预设的参考质量得分，确定第二损失函数；模型训练单元，被配置成基于第一损失值和第二损失值对初始姿态识别模型进行调整，直至满足训练停止条件，得到姿态识别模型。

根据本公开的实施例的又一个方面，提供一种计算机可读存储介质，存储介质存储有计算机程序，计算机程序用于执行上述任一实施例中的方法。

根据本公开的实施例的又一个方面，提供一种电子设备，电子设备包括：处理器；用于存储处理器可执行指令的存储器；处理器，用于从存储器中读取可执行指令，并执行指令以实现上述任一实施例中的方法。

根据本公开的实施例的又一个方面，提供一种计算机程序产品，包括计算机程序/指令，当处理器执行计算机指令/指令时，实现上述任一实施例中的方法。

基于本公开上述实施例提供的姿态识别方法，可以利用图像的特征数据预测每个像素点对应的关键点查询位置，然后根据特征数据和关键点查询位置，预测每个像素点对应的姿态质量得分和关键点的位置，其中，像素点表征待识别对象候选的中心点部位成像点，像素点对应的关键点表征待识别对象候选的关键部位成像点；之后将姿态质量得分符合预设条件的像素点确定为目标像素点，并将目标像素点对应的关键点的位置确定为目标关键点的位置；最后，基于目标像素点的位置和目标关键点的位置，确定待识别对象的目标姿态。通过特征数据和关键点查询位置预测像素点的姿态质量得分，并以此表征姿态识别的准确度，提高了姿态质量得分与目标姿态的关联程度，有助于提高姿态识别的准确度。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开的姿态识别方法所适用的一个深度网络模型的示例性架构图；

图2是本公开一示例性实施例提供的姿态识别方法的流程示意图；

图3是本公开的姿态识别方法的一个实施例中预测关键点查询位置的流程图；

图4是本公开的姿态识别方法的一个实施例中预测关键点的位置的流程图；

图5是本公开的姿态识别方法的一个实施例中生成关键点语义特征的流程图；

图6是本公开的姿态识别方法的一个实施例中预测姿态质量得分的流程图；

图7是本公开的训练姿态识别模型的方法的一个实施例的流程图；

图8是本公开的训练姿态识别模型的方法的一个实施例中确定第二损失函数值的流程图；

图9是本公开的训练姿态识别模型的方法的一个实施例中生成样本得分图的流程图；

图10是本公开的姿态识别装置的一个实施例的结构示意图；

图11是本公开的训练姿态识别模型的装置的一个实施例的结构示意图；

图12是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机***、服务器等电子设备，其可与众多其它通用或专用计算***环境或配置一起操作。适于与终端设备、计算机***、服务器等电子设备一起使用的众所周知的终端设备、计算***、环境和/或配置的例子包括但不限于：个人计算机***、服务器计算机***、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的***、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机***﹑大型计算机***和包括上述任何***的分布式云计算技术环境，等等。

终端设备、计算机***、服务器等电子设备可以在由计算机***执行的计算机***可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机***/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算***存储介质上。

申请概述

在实现本公开的过程中，发明人发现，单阶段的姿态识别方法通常采用基于2D高斯核和离散的{0,1}估计待识别对象的姿态得分，并以此表征姿态识别的质量，该种方式导致姿态得分不能准确地表征姿态回归的质量。

示例性***

接着参考图1，图1示出了可以实现本公开的姿态识别方法的一个姿态识别模型的架构图。如图1所示，执行主体例如可以是终端设备或服务器，其上可以预先装载有该姿态识别模型的计算机指令，姿态识别模型例如可以是基于ResNet、HRNet等卷积神经网络构建的深度网络模型。

当执行主体获取到包含有待识别对象的图像时，姿态识别模型可以通过骨干网络110(例如可以是ResNet、HRNet等卷积神经网络)提取图像的特征数据Rg，由第一网络分支120基于特征数据Rg，预测出每个像素点对应的关键点查询位置140，然后根据关键点查询位置和特征数据，预测出每个像素点对应的关键点的位置150；由第二网络分支130根据关键点查询位置140和特征数据Rg，确定每个像素点对应的姿态特征150，并由姿态特征150预测每个像素点对应的姿态质量得分170。最后通过池化核180执行非极大值抑制的方法，基于姿态质量得分从全部像素点中筛选出目标像素点，190为目标像素点及其对应的目标关键点的集合。然后基于目标像素点的位置及其对应的目标关键点的位置，确定待识别对象的目标姿态191。

示例性方法

图2是本公开一示例性实施例提供的姿态识别方法的流程示意图。本实施例可应用在电子设备上，如图2所示，包括如下步骤：

步骤210、提取包括待识别对象的图像的特征数据。

在本实施例中，待识别对象例如可以是人体、动物或其他可以识别姿态的物体。特征数据可以包括但不限于图像的纹理特征以及像素点的语义信息、边界信息、位置信息等，特征数据例如可以是多维矩阵。

作为示例，可以利用深度网络中的卷积层或编码器-解码器从图像中提取特征数据。

步骤220、基于预设的预测方法从特征数据中预测每个像素点对应的关键点查询位置。

其中，像素点表征待识别对象候选的中心点部位成像点，像素点对应的关键点表征待识别对象候选的关键部位成像点。

在本实施例中，关键点查询位置表征编码关键点的特征信息(包括但限于语义信息和位置信息)的位置。关键点查询位置可以是预测得到的连续的像素位置的关键点查询位置。

作为示例，预测方法可以是利用深度网络模型中的卷积层或全连接层来实现。执行主体可以遍历图像中的像素点，并根据像素点的位置从特征数据中提取对应的特征，然后基于提取出的特征预测该像素点对应的关键点查询位置。

需要说明的是，每个像素点可以对应一个或多个关键点查询位置，本公开对此不做限定。

步骤230、基于特征数据和每个像素点对应的关键点查询位置，预测每个像素点对应的姿态质量得分以及关键点的位置。

在本实施例中，姿态质量得分表征像素点的预测姿态与待识别对象的真实姿态的匹配程度。

作为示例，执行主体可以基于关键点查询位置，从特征数据中提取像素点对应的关键点查询位置的特征，然后分别基于关键点查询位置的特征预测像素点对应的关键点和姿态质量得分。当关键点查询位置的像素坐标为整数时，可以直接基于将像素坐标，从特征数据中提取特征数据；当关键点查询位置的像素坐标包括非整数时，可以采用双线性插值的方式从特征数据中特征提取特征数据。

需要说明的是，每个关键点查询位置可以对应一个或多个关键点，并且，像素点或关键点的位置通常是指该点在图像中的像素坐标。

步骤240、将姿态质量得分符合预设条件的像素点确定为目标像素点，将目标像素点对应的关键点的位置确定为目标关键点的位置。

预设条件用于评估姿态质量，例如可以是大于预设的得分阈值，还可以是局部得分最大值。得分阈值可以根据经验设定。在一个具体的示例中，可以首先获取大量姿态识别结果，然后根据姿态识别结果与姿态的匹配程度对姿态识别结果中的像素点(例如可以包括待识别对象的中心点部位成像点和关键部位成像点对应的点)进行打分，最后通过统计分析确定得分阈值。

在本实施例中，目标像素点及其对应的目标关键点表征满足姿态质量要求的像素点。执行主体通过步骤230可以确定出每个像素点的姿态质量得分及其对应的关键点(可以包括一个或多个)的位置，将每个像素点及其对应的关键点的位置均作为确定待识别对象的目标姿态的候选数据。然后通过对比姿态质量得分与预设条件，从全部像素点中确定出符合预设条件的目标像素点，相应的，目标像素点对应的关键点的位置可以作为目标关键点的位置。

步骤250、基于目标像素点的位置和目标关键点的位置，确定待识别对象的目标姿态。

通常，待识别对象的姿态可以通过待识别对象的中心位置以及多个关键部位的相对位置来表征，进而，可以将待识别对象的中心位置和关键部位抽象为点，即可通过点的位置来表征待识别对象的姿态。以人体姿态识别为例，目标像素点可以表征人体中心的位置，目标关键点的位置可以表征人体各个关节点的位置。

在本实施例中，执行主体可以将目标像素点的位置确定为待识别对象的中心位置，将目标关键点的位置确定为待识别对象的各个关键部位的位置，即可得到待识别对象的目标姿态。

本实施例提供的姿态识别方法，可以利用图像的特征数据预测每个像素点对应的关键点查询位置，然后根据特征数据和关键点查询位置，预测每个像素点对应的姿态质量得分和关键点的位置，其中，像素点表征待识别对象候选的中心点部位成像点，像素点对应的关键点表征待识别对象候选的关键部位成像点；之后将姿态质量得分符合预设条件的像素点确定为目标像素点，并将目标像素点对应的关键点的位置确定为目标关键点的位置；最后，基于目标像素点的位置和目标关键点的位置，确定待识别对象的目标姿态。通过特征数据和关键点查询位置预测像素点的姿态质量得分，并以此表征姿态识别的准确度，提高了姿态质量得分与目标姿态的关联程度，有助于提高姿态识别的准确度。

本公开实施例提供的任一种姿态识别方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种姿态识别方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种姿态识别方法。下文不再赘述。

接着参考图3，图3示出了本公开的姿态识别方法的一个实施例中预测关键点查询位置的流程图，在上述图2所示实施例的一些可选的实现方式中，步骤220可以包括如下步骤：

步骤310、关键点为第一预设数量个，基于每个像素点的位置，分别对特征数据进行第一预设数量的特征提取，得到每个像素点对应的第一预设数量的关键点回归特征。

结合图1进行示例性说明，执行主体可以利用姿态识别模型中的第一网络分支从特征数据中提取每个像素点对应的第一预设数量的关键点回归特征。具体的，第一网络分支可以包括第一预设数量的、相互独立的子分支，每个子分支均可以通过1X1的卷积层从特征数据中提取像素点的位置对应的特征，得到该子分支对应的关键点回归特征。通过各子分支的并行处理，可以得到每个像素点对应的第一预设数量的关键点回归特征。

需要说明的是，第一预设数量可以是一个或多个。

步骤320、基于每个像素点对应的第一预设数量的关键点回归特征，预测每个像素点对应的第一预设数量的第一偏移量。

在本实施例中，第一偏移量表征由像素点指向关键点查询位置的向量，每个关键点回归特征均对应一个第一偏移量。继续结合图1进行示例性说明，第一网络分支的每个子分支均可以预测一个第一偏移量。

步骤330、基于每个像素点的位置及其对应的第一预设数量的第一偏移量，确定每个像素点对应的第一预设数量的关键点查询位置。

作为示例，像素点的位置为(a，b)，第一偏移量为(1，2)、(-2、3)，则关键点查询位置可以为(a+1，b+2)、(a-2，b+3)。

从图3可以看出，图3所示的流程体现了从特征数据中提取彼此独立的多个关键点回归特征，然后基于每个关键点回归特征预测一个第一偏移量，由此得到多个关键点查询位置，可以避免特征共用导致的多个关键点查询位置之间的关联误差，有助于提高准确度。

进一步参考图4，图4示出了本公开的姿态识别方法的一个实施例中预测关键点的位置的流程图，如图4所示，在图3所示的实施例的基础上，上述步骤230可以包括如下步骤：

步骤410、基于每个像素点对应的第一预设数量的关键点回归特征和第一预设数量的关键点查询位置，生成每个像素点对应的第一预设数量的关键点语义特征。

结合图1进行示例性说明，第一网络分支中的子分支可以从关键点回归特征中提取关键点查询位置对应的特征，然后通过卷积层或编码器将提取出的特征编码成关键点语义特征，从而得到每个像素点对应的第一预设数量的关键点语义特征。

步骤420、基于每个关键点语义特征，预测每个像素点对应的第一预设数量的第二偏移量。

在本实施例中，第二偏移量表征由关键点查询位置指向关键点的向量。

结合图1进行示例性说明，第一网络分支中的子分支可以利用卷积层或全连接层将关键点语义特征映射至第二偏移量，从而得到每个像素点对应的第一预设数量的第二偏移量。

步骤430、基于每个像素点对应的第一预设数量的第二偏移量和关键点查询位置，确定每个像素点对应的第一预设数量的关键点的位置。

相关技术中，某些姿态识别的方法中，在计算关键点时，往往是利用关键点之间的相对距离确定关键点的位置。

在图4所示的流程中，可以通过关键点查询位置从关键点回归特征中提取关键点语义特征，然后基于关键点语义特征预测第二偏移量，最后根据关键点查询位置和第二偏移量确定关键点的位置。与利用关键点之间的相对位置确定关键点的位置相比，通过第一偏移量和第二偏移量表征像素点与每个关键点的相对位置，以此确定每个关键点的位置，可以避免累积误差，提高准确度。

进一步参考图5，图5示出了本公开的姿态识别方法的一个实施例中生成关键点语义特征的流程图，如图5所示，在图4所示的实施例的一些可选的实现方式中，上述步骤410可以包括如下步骤：

步骤510、从每个关键点回归特征中提取该关键点回归特征对应的关键点查询位置特征。

步骤520、基于每个关键点查询位置特征，预测每个关键点查询位置对应的第二预设数量的第三偏移量。

步骤530、基于每个关键点查询位置及其对应的第二预设数量的第三偏移量，确定每个关键点查询位置对应的第二预设数量的增强像素点的位置。

步骤540、基于每个关键点查询位置对应的第二预设数量的增强像素点的位置，从特征数据中提取第二预设数量的增强像素点特征。

步骤550、对每个关键点查询位置特征及其对应的第二预设数量的增强像素点特征进行融合，生成每个关键点查询位置对应的关键点语义特征，得到每个像素点对应的第一预设数量的关键点语义特征。

在一个具体的示例中，执行主体可以首先从关键点回归特征中提取关键点查询位置特征，然后基于该关键点查询位置特征预测N个增强像素点的位置，N为预设的正整数；然后，从特征数据中提取N个增强像素点特征；之后，将N个增强像素点特征与关键点查询位置特征融合，得到该关键点查询位置对应的关键点语义特征，则关键点语义特征可以包括(N+1)个位置的特征。

图5所示的实施例体现了基于关键点查询位置特征预测增强像素点的位置，然后将增强像素点特征与关键点查询位置特征融合，生成关键点语义特征的步骤，使得关键点语义特征可以包括更多数量的像素点的特征，可以提高关键点语义特征中的信息量，有助于提高准确度。

接着参考图6，图6示出了本公开的姿态识别方法的一个实施例中预测姿态质量得分的流程图，上述步骤230可以包括如下步骤：

步骤610、对特征数据进行特征提取，得到图像的实例特征。

继续结合图1进行示例性说明，执行主体可以利用第二网络分支中的卷积层对特征数据进行特征提取，得到图像的实例特征。

步骤620、基于每个像素点对应的第一预设数量的关键点查询位置，从实例特征中提取每个像素点对应的关键点实例特征。

步骤630、基于每个像素点对应的关键点实例特征，生成每个像素点对应的姿态特征。

作为示例，执行主体可以利用第二网络分支将同一个像素点对应的第一预设数量的关键点实例特征拼接，并将拼接得到的特征作为该像素点对应的姿态特征。

步骤640、基于每个像素点对应的姿态特征，预测每个像素点对应的姿态质量得分。

作为示例，执行主体可以将姿态特征输入第二网络分支中的卷积层或全连接层，由卷积层或全连接层将姿态特征映射至姿态质量得分。

在图6所示的实施例中，像素点的姿态特征是基于关键点查询位置处的实例特征生成的，使得姿态特征具备了与关键点的关联性，进而，由姿态特征得到的姿态质量得分可以更准确地表征像素点及其关键点、与待识别对象的姿态之间的匹配程度。

接下来参考图7，图7示出了本公开的训练姿态识别模型的方法的一个实施例的流程图，该流程包括以下步骤：

步骤710、获取已标记像素点的参考质量得分以及待识别对象的样本姿态的样本图像。

其中，样本姿态包括表征待识别对象的中心点部位成像点的样本目标像素点的位置、以及表征待识别对象的关键部位成像点的样本关键点的位置。例如，样本关键点的位置可以通过样本目标像素点的偏移来表示。

作为示例，像素点的参考质量得分可以采用灰度图的数据形式，其中，参考质量得分越高，则灰度图中的像素值越高。

步骤720、利用预先构建的初始姿态识别模型对样本图像进行处理，得到每个像素点对应的预测质量得分以及待识别对象的预测姿态。

本实施例中的姿态识别模型用于实现前述任一实施例中的姿态识别的方法。

作为示例，初始姿态识别模型可以采用图1所示的架构，由初始骨干网络从样本图像中提取样本特征数据，然后由第一初始网络分支预测出每个像素点对应的关键点查询位置，并根据关键点查询位置和样本特征数据，预测出每个像素点对应的样本关键点；由第二初始网络分支根据关键点查询位置和图像特征，预测每个像素点对应的预测质量得分；最后由最大池化核基于预测质量得分，从全部像素点中筛选出样本目标像素点，然后基于样本目标像素点的位置及其对应的样本关键点的位置，确定待识别对象的预测姿态。

步骤730、基于预测姿态和样本姿态，确定第一损失函数值。

在本实施例中，第一损失函数用于约束初始姿态识别模型中关键点的预测过程，使初始姿态识别模型学习关键点的预测策略。

在一个具体的示例中，执行主体可以根据预测姿态中各个点与样本姿态中各个点的差异，确定第一损失函数值。

步骤740、基于每个像素点对应的预测质量得分和参考质量得分，确定第二损失函数值。

在本实施例中，第二损失函数用于约束初始姿态识别模型中姿态质量得分的预测过程，使得初始姿态识别模型学习姿态质量得分的预测策略。

作为示例，执行主体可以首先确定每个像素点的预测质量得分与参考质量得分的差异，然后基于所有像素点对应的差异确定第二损失函数值。

步骤750、基于第一损失函数值和第二损失函数值对初始姿态识别模型进行调整，直至满足训练停止条件，得到姿态识别模型。

执行主体可以利用深度网络模型的反向传播特性，对第一损失函数值和第二损失函数值求导，并根据求导结果对初始姿态识别模型进行调整。当满足训练停止条件时(例如迭代次数达到预设次数，或第一损失函数值和第二损失函数值同时收敛)，表示当前的初始姿态识别模型的准确度已经达到要求，此时可以终止训练，将当前的初始姿态识别模型确定为姿态识别模型。

本实施例提供的训练姿态识别模型的方法，通过第一损失函数和第二损失函数分别约束姿态识别模型的姿态预测过程和质量得分预测过程，以此训练得到的姿态识别模型可以更准确地预测待识别对象的姿态。

接着参考图8，图8示出了本公开的训练姿态识别模型的方法的一个实施例中确定第二损失函数值的流程图，该流程包括以下步骤：

步骤810、将每个像素点在样本图像中的位置映射至预测的样本得分图，得到每个像素点在样本得分图中的映射点。

在一个具体示例中，执行主体可以根据样本得分图的尺寸与样本图像尺寸的比例，将像素点在样本图像中的坐标映射至样本得分图中，得到与其对应的映射点在样本得分图中的坐标。例如，样本得分图的尺寸是样本图像的尺寸的1/4，像素点在样本图像中的坐标为(m，n)，则该像素点在样本得分图中的坐标为(m/4，n/4)。

步骤820、将每个映射点的像素值确定为每个像素点对应的参考质量得分。

在本实施例中，样本得分图是基于每个像素点的参考质量得分构建的单通道灰度图。在样本得分图中，每个像素点的像素值(即灰度值)为该像素点的参考质量得分。

在本实施例的一些可选的实现方式中，可以通过图9所示的流程生成样本得分图，如图9所示，该流程包括以下步骤：

步骤910、确定预设区域内的每个像素点对应的样本候选关键点。

作为示例，预设区域可以是待识别对象的在样本图像中的整体区域，也可以是以待识别对象的中心为圆心，按照预设半径确定的中心区域。

步骤920、基于样本候选关键点与样本关键点的相似程度，确定待识别对象区域内每个像素点的参考质量得分。

步骤930、将样本图像中的像素点映射至单通道图像，将参考姿态质量得分作为预设区域内的像素点在单通道图像中的像素值，将预设区域外的像素点在单通道图像中的像素值确定为0，得到样本得分图。

在本实现方式中，样本图像中像素点的参考质量得分越高，该像素点在样本得分图中的像素值就越高。

在一个具体的示例中，像素点A位于预设区域内，且像素点A的候选关键点与已标记的样本关键点的相似程度为0.8，则像素点A在样本得分图中的映射点的像素值为0.8；像素点B位于预设区域外，则像素点B在样本得分图中的映射点的像素值为0。

与相关技术中在高斯热图中采用离散的{0,1}表征像素点的质量得分相比，图9所示的实现方式中，通过样本候选关键点与样本关键点的相似度确定参考质量得分，并将参考质量得分作为样本得分图中的像素值，可以采用连续的数值区间表征样本图像中像素点的参考质量得分，可以更准确地表征不同像素点的预测姿态质量得分。

继续参考图8，步骤830、基于每个像素点对应的预测质量得分和参考质量得分，确定第二损失函数值。

从图8可以看出，图8所示的实施例体现了根据样本得分图确定像素点的参考质量得分，进而确定第二损失函数值，由于样本得分图可以采用连续的数值区间表征像素点的参考质量得分，可以更准确地表征像素点对待识别对象姿态的刻画质量，从而可以提高姿态识别模型的训练效果。

示例性装置

接着参考图10，图10示出了本公开的姿态识别装置的一个实施例的结构示意图，如图10所示，该装置包括：特征提取单元1010，被配置成提取包括待识别对象的图像的特征数据；第一预测单元1020，被配置成基于预设的预测方法从特征数据中预测每个像素点对应的关键点查询位置，其中，像素点表征待识别对象候选的中心点部位成像点，像素点对应的关键点表征待识别对象候选的关键部位成像点；第二预测单元1030，被配置成基于特征数据和每个像素点对应的关键点查询位置，预测每个像素点对应的姿态质量得分以及关键点的位置；目标确定单元1040，被配置成将姿态质量得分符合预设条件的像素点确定为目标像素点，将目标像素点对应的关键点的位置确定为目标关键点的位置；姿态确定单元1050，被配置成基于目标像素点的位置和目标关键点的位置，确定待识别对象的目标姿态。

在其中一个实施例中，第一预测单元1020进一步包括：第一提取模块，被配置成基于每个像素点的位置，分别对特征数据进行第一预设数量的特征提取，得到每个像素点对应的第一预设数量的关键点回归特征；第一预测模块，被配置成基于每个像素点对应的第一预设数量的关键点回归特征，预测每个像素点对应的第一预设数量的第一偏移量；第一确定模块，被配置成基于每个像素点的位置及其对应的第一预设数量的第一偏移量，确定每个像素点对应的第一预设数量的关键点查询位置。

在其中一个实施例中，第二预测单元1030包括：语义特征模块，被配置成基于每个像素点对应的第一预设数量的关键点回归特征和关键点查询位置，生成每个像素点对应的第一预设数量的关键点语义特征；第二预测模块，被配置成基于每个关键点语义特征，预测每个像素点对应的第一预设数量的第二偏移量；位置确定模块，被配置成基于每个像素点对应的第一预设数量的第二偏移量和关键点查询位置，确定每个像素点对应的第一预设数量的关键点的位置。

在其中一个实施例中，语义特征模块进一步包括：关联特征子模块，被配置成从每个关键点回归特征中提取该关键点回归特征对应的关键点查询位置特征；第三预测子模块，被配置成基于每个关键点查询位置特征，预测每个关键点查询位置对应的第二预设数量的第三偏移量；位置确定子模块，被配置成基于每个关键点查询位置及其对应的第二预设数量的第三偏移量，确定每个关键点查询位置对应的第二预设数量的增强像素点的位置；增强特征子模块，被配置成基于每个关键点查询位置对应的第二预设数量的增强像素点的位置，从特征数据中提取第二预设数量的增强像素点特征；特征生成子模块，被配置成对每个关键点查询位置特征及其对应的第二预设数量的增强像素点特征进行融合，生成每个关键点查询位置对应的关键点语义特征，得到每个像素点对应的第一预设数量的关键点语义特征。

在其中一个实施例中，第二预测单元1030还包括：实例特征模块，被配置成对特征数据进行特征提取，得到图像的实例特征；第二提取模块，被配置成基于每个像素点对应的第一预设数量的关键点查询位置，从实例特征中提取每个像素点对应的关键点实例特征；特征生成模块，被配置成基于每个像素点对应的关键点实例特征，生成每个像素点对应的姿态特征；得分预测模块，被配置成基于每个像素点对应的姿态特征，预测每个像素点对应的姿态质量得分。

接着参考图11，图11示出了本公开的训练姿态识别模型的装置的一个实施例的结构示意图，如图11所示，该装置包括：样本获取单元1110，被配置成获取标记有像素点的参考质量得分以及待识别对象的样本姿态的样本图像，其中，样本姿态包括表征待识别对象的中心点部位成像点的样本目标像素点的位置以及表征待识别对象的关键部位成像点的样本关键点的位置；模型预测单元1120，被配置成利用预先构建的初始姿态识别模型对样本图像进行处理，得到每个像素点对应的预测质量得分以及待识别对象的预测姿态；第一损失单元1130，被配置成基于预测姿态和样本姿态，确定第一损失函数；第二损失单元1140，被配置成基于每个像素点对应的预测质量得分和预设的参考质量得分，确定第二损失函数；模型训练单元1150，被配置成基于第一损失值和第二损失值对初始姿态识别模型进行调整，直至满足训练停止条件，得到姿态识别模型。

在其中一个实施例中，第二损失单元1140进一步包括：映射模块，被配置成将每个像素点在样本图像中的位置映射至预测的样本得分图，得到每个像素点在样本得分图中的映射点；得分确定模块，被配置成将每个映射点的像素值确定为每个像素点对应的参考质量得分；损失确定模块，被配置成基于每个像素点对应的预测质量得分和参考质量得分，确定第二损失函数。

该装置还包括得分图构建单元，包括：第一确定模块，被配置成确定待识别对象区域内的每个像素点对应的样本候选关键点；参考得分模块，被配置成基于样本候选关键点与样本关键点的相似程度，确定待识别对象区域内每个像素点的参考质量得分；图像构建模块，被配置成将样本图像中的像素点映射至单通道图像，将参考姿态质量得分作为样本对象区域内的像素点在单通道图像中的像素值，将样本对象区域外的像素点在单通道图像中的像素值确定为0，得到样本得分图

示例性电子设备

下面，参考图12来描述根据本公开实施例的电子设备。图12图示了根据本公开实施例的电子设备的框图。

如图12所示，电子设备1200包括一个或多个处理器1210和存储器1220。

处理器1210可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备1200中的其他组件以执行期望的功能。

存储器1220可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器1210可以运行所述程序指令，以实现上文所述的本公开的各个实施例的姿态识别方法和/或训练姿态识别模型的方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备1200还可以包括：输入装置1230和输出装置1240，这些组件通过总线***和/或其他形式的连接机构(未示出)互连。

例如，该输入装置1230可以是上述的麦克风或麦克风阵列，用于捕捉声源的输入信号。该输入装置1230可以是通信网络连接器，用于接收所采集的输入信号。

此外，该输入设备1230还可以包括例如键盘、鼠标等等。

该输出装置1240可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出设备1240可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图12中仅示出了该电子设备1200中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备1200还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的姿态识别方法和/或训练姿态识别模型的方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的姿态识别方法和/或训练姿态识别模型的方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于***实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、***。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种姿态识别方法，包括：

提取包括待识别对象的图像的特征数据；

基于预设的预测方法从所述特征数据中预测每个像素点对应的关键点查询位置，其中，所述像素点表征所述待识别对象候选的中心点部位成像点，所述关键点表征所述待识别对象候选的关键部位成像点；

基于所述特征数据和每个所述像素点对应的关键点查询位置，预测每个所述像素点对应的姿态质量得分以及关键点的位置；

将姿态质量得分符合预设条件的所述像素点确定为目标像素点，将所述目标像素点对应的关键点的位置确定为目标关键点的位置；

基于所述目标像素点的位置和所述目标关键点的位置，确定所述待识别对象的目标姿态。

2.根据权利要求1所述的方法，其中，所述关键点为第一预设数量个，所述基于预设的预测方法从所述特征数据中预测每个像素点对应的关键点查询位置，包括：

基于每个所述像素点的位置，分别对所述特征数据进行第一预设数量的特征提取，得到每个所述像素点对应的第一预设数量的关键点回归特征；

基于每个所述像素点对应的第一预设数量的所述关键点回归特征，预测每个所述像素点对应的第一预设数量的第一偏移量；

基于每个所述像素点的位置及其对应的第一预设数量的所述第一偏移量，确定每个所述像素点对应的第一预设数量的关键点查询位置。

3.根据权利要求2所述的方法，其中，所述基于所述特征数据和每个所述像素点对应的关键点查询位置，预测每个所述像素点对应的关键点的位置，包括：

基于每个所述像素点对应的第一预设数量的所述关键点回归特征和所述关键点查询位置，生成每个所述像素点对应的第一预设数量的关键点语义特征；

基于每个所述像素点对应的第一预设数量的所述关键点语义特征，预测每个所述像素点对应的第一预设数量的第二偏移量；

基于每个所述像素点对应的第一预设数量的所述第二偏移量和所述关键点查询位置，确定每个所述像素点对应的第一预设数量的关键点的位置。

4.根据权利要求3所述的方法，其中，所述基于每个所述像素点对应的第一预设数量的所述关键点回归特征和所述关键点查询位置，生成每个所述像素点对应的第一预设数量的关键点语义特征，包括：

从每个所述关键点回归特征中提取每个所述关键点查询位置特征；

基于每个所述关键点查询位置特征，预测每个所述关键点查询位置对应的第二预设数量的第三偏移量；

基于每个所述关键点查询位置及其对应的第二预设数量的所述第三偏移量，确定每个所述关键点查询位置对应的第二预设数量的增强像素点的位置；

基于每个所述关键点查询位置对应的第二预设数量的所述增强像素点的位置，从所述特征数据中提取第二预设数量的增强像素点特征；

对每个所述关键点查询位置特征及其对应的第二预设数量的所述增强像素点特征进行融合，生成每个所述关键点查询位置对应的关键点语义特征，得到每个像素点对应的第一预设数量的关键点语义特征。

5.根据权利要求2至4之一所述的方法，其中，基于所述特征数据和每个所述像素点对应的关键点查询位置，预测每个所述像素点对应的姿态质量得分，包括：

对所述特征数据进行特征提取，得到所述图像的实例特征；

基于每个所述像素点对应的第一预设数量的关键点查询位置，从所述实例特征中提取每个所述像素点对应的第一预设数量的关键点实例特征；

基于每个所述像素点对应的第一预设数量的所述关键点实例特征，生成每个所述像素点对应的姿态特征；

基于每个所述像素点对应的所述姿态特征，预测每个所述像素点对应的姿态质量得分。

6.一种训练姿态识别模型的方法，包括：

获取标记有像素点的参考质量得分以及待识别对象的样本姿态的样本图像，其中，所述样本姿态包括表征所述待识别对象的中心点部位成像点的样本目标像素点的位置、以及表征所述待识别对象的关键部位成像点的样本关键点的位置；

利用预先构建的初始姿态识别模型对所述样本图像进行处理，得到每个所述像素点对应的预测质量得分以及所述待识别对象的预测姿态；

基于所述预测姿态和所述样本姿态，确定第一损失函数值；

基于每个所述像素点对应的所述预测质量得分和所述参考质量得分，确定第二损失函数值；

基于所述第一损失函数值和所述第二损失函数值对所述初始姿态识别模型进行调整，直至满足训练停止条件，得到姿态识别模型。

7.根据权利要求6所述的方法，基于每个所述像素点对应的所述预测质量得分和所述参考质量得分，确定第二损失函数，包括：

将每个所述像素点在所述样本图像中的位置映射至预测的样本得分图，得到每个所述像素点在所述样本得分图中的映射点；

将每个所述映射点的像素值确定为每个所述像素点对应的参考质量得分；

其中，所述样本得分图经由如下步骤得到：

确定预设区域内的每个所述像素点对应的样本候选关键点；

基于所述样本候选关键点与所述样本关键点的相似程度，确定所述待识别对象区域内每个像素点的参考质量得分；

将所述样本图像中的像素点映射至单通道图像，将所述参考姿态质量得分作为所述预设区域内的像素点在所述单通道图像中的像素值，并将所述预设区域外的像素点在所述单通道图像中的像素值确定为0，得到所述样本得分图。

8.一种姿态识别装置，包括：

特征提取单元，被配置成提取包括待识别对象的图像的特征数据；

第一预测单元，被配置成基于预设的预测方法从所述特征数据中预测每个像素点对应的关键点查询位置，其中，所述像素点表征所述待识别对象候选的中心点部位成像点，所述关键点表征所述待识别对象候选的关键部位成像点；

第二预测单元，被配置成基于所述特征数据和每个所述像素点对应的关键点查询位置，预测每个所述像素点对应的姿态质量得分以及关键点的位置；

目标确定单元，被配置成将姿态质量得分符合预设条件的所述像素点确定为目标像素点，将所述目标像素点对应的关键点的位置确定为目标关键点的位置；

姿态确定单元，被配置成基于所述目标像素点的位置和所述目标关键点的位置，确定所述待识别对象的目标姿态。

9.一种训练姿态识别模型的装置，包括：

样本获取单元，被配置成获取标记有像素点的参考质量得分以及待识别对象的样本姿态的样本图像，其中，所述样本姿态包括表征所述待识别对象的中心点部位成像点的样本目标像素点的位置以及表征所述待识别对象的关键部位成像点的样本关键点的位置；

模型预测单元，被配置成利用预先构建的初始姿态识别模型对所述样本图像进行处理，得到每个所述像素点对应的预测质量得分以及所述待识别对象的预测姿态；

第一损失单元，被配置成基于所述预测姿态和所述样本姿态，确定第一损失函数值；

第二损失单元，被配置成基于每个所述像素点对应的所述预测质量得分和预设的参考质量得分，确定第二损失函数值；

模型训练单元，被配置成基于所述第一损失值和所述第二损失值对所述初始姿态识别模型进行调整，直至满足训练停止条件，得到姿态识别模型。

10.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-7任一所述的方法。

11.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-7任一所述的方法。