CN116386087B

CN116386087B - 目标对象处理方法以及装置

Info

Publication number: CN116386087B
Application number: CN202310353616.6A
Authority: CN
Inventors: 陈汉苑; 罗斌; 何俊彦; 项王盟
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2023-03-31
Filing date: 2023-03-31
Publication date: 2024-01-09
Anticipated expiration: 2043-03-31
Also published as: CN116386087A

Abstract

本说明书实施例提供目标对象处理方法以及装置，其中所述目标对象处理方法包括：确定目标对象的关节点的二维坐标序列，其中，所述二维坐标序列包括至少两个关节点对应的二维坐标信息；根据目标关节点对应的二维坐标信息，确定所述目标关节点对应的目标关节点特征，其中，所述目标关节点为所述至少两个关节点中的任意一个关节点；根据至少两个目标关节点对应的目标关节点特征，确定所述至少两个目标关节点关联的初始骨骼边特征；对所述目标关节点对应的目标关节点特征、和所述目标关节点关联的初始骨骼边特征进行处理，根据处理结果确定所述目标对象的关节点的三维坐标序列。

Description

目标对象处理方法以及装置

技术领域

本说明书实施例涉及计算机技术领域，特别涉及目标对象处理方法。

背景技术

通过图像或视频分析人体的姿态是计算机视觉研究的重要问题。人体姿态的估计被广泛应用于人机交互和电影特效等诸多领域。人体姿态估计是指从图像中估计出图像中人体的各个主要关节点的三维坐标，用于表示图像中人体姿态的过程。

然而，目前在人体姿态估计的过程中，通常可以利用人体的二维关节点坐标确定三维关节点坐标，并且根据三维关节点坐标实现人体姿态估计。在人体动作仅有细微变化时，利用关节点坐标确定的人体姿态的准确度较差，精度较低。因此，亟需一种有效的技术方案解决上述问题。

发明内容

有鉴于此，本说明书实施例提供了一种目标对象处理方法。本说明书一个或者多个实施例同时涉及一种目标对象处理装置，一种计算设备，一种AR/VR设备，一种计算机可读存储介质以及一种计算机程序，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种目标对象处理方法，包括：

确定目标对象的关节点的二维坐标序列，其中，所述二维坐标序列包括至少两个关节点对应的二维坐标信息；

根据目标关节点对应的二维坐标信息，确定所述目标关节点对应的目标关节点特征，其中，所述目标关节点为所述至少两个关节点中的任意一个关节点；

根据至少两个目标关节点对应的目标关节点特征，确定所述至少两个目标关节点关联的初始骨骼边特征；

对所述目标关节点对应的目标关节点特征、和所述目标关节点关联的初始骨骼边特征进行处理，根据处理结果确定所述目标对象的关节点的三维坐标序列。

根据本说明书实施例的第二方面，提供了一种目标对象处理装置，包括：

第一确定模块，被配置为确定目标对象的关节点的二维坐标序列，其中，所述二维坐标序列包括至少两个关节点对应的二维坐标信息；

第二确定模块，被配置为根据目标关节点对应的二维坐标信息，确定所述目标关节点对应的目标关节点特征，其中，所述目标关节点为所述至少两个关节点中的任意一个关节点；

第三确定模块，被配置为根据至少两个目标关节点对应的目标关节点特征，确定所述至少两个目标关节点关联的初始骨骼边特征；

处理模块，被配置为对所述目标关节点对应的目标关节点特征、和所述目标关节点关联的初始骨骼边特征进行处理，根据处理结果确定所述目标对象的关节点的三维坐标序列。

根据本说明书实施例的第三方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现上述方法的步骤。

根据本说明书实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现上述方法的步骤。

根据本说明书实施例的第五方面，提供了一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述方法的步骤。

根据本说明书实施例的第六方面，提供了一种AR/VR设备，包括：

存储器和处理器；

本说明书一个实施例提供了一种目标对象处理方法，确定目标对象的关节点的二维坐标序列，其中，所述二维坐标序列包括至少两个关节点对应的二维坐标信息；根据目标关节点对应的二维坐标信息，确定所述目标关节点对应的目标关节点特征，其中，所述目标关节点为所述至少两个关节点中的任意一个关节点；根据至少两个目标关节点对应的目标关节点特征，确定所述至少两个目标关节点关联的初始骨骼边特征；对所述目标关节点对应的目标关节点特征、和所述目标关节点关联的初始骨骼边特征进行处理，根据处理结果确定所述目标对象的关节点的三维坐标序列。上述方法通过确定目标对象的关节点关联的初始骨骼边特征，利用初始骨骼边特征和目标关节点特征的结合确定关节点的三维坐标，能够提升确定的三维坐标的准确度，进一步保证后续人体姿态估计的准确度和精度。

附图说明

图1是本说明书一个实施例提供的一种目标对象处理方法的应用场景示意图；

图2是本说明书一个实施例提供的一种目标对象处理方法的流程图；

图3是本说明书一个实施例提供的一种目标对象处理方法中坐标预测模型的流程示意图；

图4是本说明书一个实施例提供的一种目标对象处理方法的处理过程流程图；

图5是本说明书一个实施例提供的一种目标对象处理方法在端侧设备的处理过程流程图；

图6是本说明书一个实施例提供的一种目标对象处理装置的结构示意图；

图7是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

需要说明的是，本说明书实施例所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

在本说明书中，提供了一种目标对象处理方法，本说明书同时涉及一种目标对象处理装置，一种计算设备，一种AR/VR设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

参见图1，图1示出了根据本说明书一个实施例提供的一种目标对象处理方法的应用场景示意图。

图1中包括云侧设备102和端侧设备104，其中，云侧设备102可以理解为云服务器，当然，在另一种可实现方案中，云侧设备102也可以替换为物理服务器；该端侧设备104包括但不限于台式电脑、笔记本电脑、VR(Virtual Reality，虚拟现实)设备、AR(AugmentedReality，增强现实)设备等；为了便于理解，本说明书实施例中，均以云侧设备102为云服务器、端侧设备104为笔记本电脑为例进行详细介绍。

具体实施时，端侧设备104可以获取用户的视频数据，并将用户的视频数据发送至云侧设备102。云侧设备102可以从用户的视频数据中提取用户的各个关节点的二维坐标序列，该二维坐标序列中包括用户的各个关节点的二维坐标信息，并对各个关节点的二维坐标信息进行特征提取，并进行下采样处理和上采样处理，从而确定各个关节点的目标关节点特征。根据至少两个关节点的目标关节点特征，确定该至少两个关节点关联的初始骨骼边特征，并对关节点的目标关节点特征和初始骨骼边特征进行处理，根据处理结果确定关节点的三维坐标，从而构建用户的各个关节点的三维坐标序列。该三维坐标序列可以用于后续对用户的人体姿态的确定。云侧设备102可以将三维坐标序列发送至端侧设备104，由端侧设备104根据三维坐标序列确定用户的人体姿态。此外，云侧设备也可以根据三维坐标序列确定用户的人体姿态，再将用户的人体姿态发送至端侧设备104。

参见图2，图2示出了根据本说明书一个实施例提供的一种目标对象处理方法的流程图，具体包括以下步骤。

步骤202：确定目标对象的关节点的二维坐标序列，其中，所述二维坐标序列包括至少两个关节点对应的二维坐标信息。

其中，目标对象可以是需要进行三维姿态估计的用户，也可以是虚拟人、动物等。关节点可以理解为骨骼上的关节点，比如可以是人体的腕关节、肘关节、踝关节等。关节点的二维坐标序列可以理解为关节点的二维坐标构成的坐标集合。比如，关节点的二维坐标序列中可以包括人体的腕关节的二维坐标、踝关节的二维坐标和肘关节的二维坐标等。二维坐标信息可以理解为二维坐标的表现形式，比如二维坐标可以以图像形式表现，还可以以视频帧形式表现。那么，二维坐标序列中可以包含多个视频帧，每个视频帧中可以包括关节点在当前视频帧中的二维坐标。

具体的，该目标对象处理方法可以应用于用户的运动姿态评估场景。可以获取用户在运动时的视频，并将视频拆分为多个视频帧，利用二维坐标提取模型从视频帧中提取用户的关节点的二维坐标，构成二维坐标序列。从而实现后续生成三维坐标序列，并确定用户的运动姿态，可以根据确定的用户的运动姿态与参考运动姿态进行对比，从而判断用户的运动姿态是否标准。还可以从视频中预测出人体各个关节点在三维物理空间中的坐标，通过各个关节点坐标之间的距离等关系，判断肢体动作是否符合需求。比如运动健身中动作是否做到位。此外，该目标对象处理方法还可以用于虚拟人的人体姿态评估场景等，本说明书实施例对此不做限定。

举例而言，目标对象的关节点的二维坐标序列中可以包括：用户的关节点A在视频帧1中的二维坐标A1、在视频帧2中的二维坐标A2、在视频帧3中的二维坐标A3、以及用户的关节点B在视频帧1中的二维坐标B1、在视频帧2中的二维坐标B2和在视频帧3中的二维坐标A3。

具体实施时，可以根据目标对象的视频数据，确定目标对象的关节点的二维坐标序列。具体实现方式如下：

所述确定目标对象的关节点的二维坐标序列，包括：

确定目标对象的视频数据，并根据所述视频数据，提取所述目标对象的关节点的二维坐标序列。

其中，目标对象的视频数据可以理解为包含目标对象的视频数据，比如可以是用户做抬手动作的视频数据，具体而言，用户在做抬手动作时，该视频数据的第1个视频帧中，用户的手可能自然下垂，在第2个视频帧中，用户的手可能位于用户的肩膀高度，在第3个视频帧中，用户的手可能已经抬高至高过用户的头顶，这3个视频帧组成用户做抬手动作的视频数据，那么用户的手包括的腕关节和指关节，在这3个视频帧中的二维坐标都不同。或者，视频数据还可以是用户做健身动作的视频数据，具体而言，用户在保持某个健身动作时，用户的关节点在视频数据中的每个视频帧中的二维坐标可能只存在细微不同。

具体的，可以利用二维坐标提取模型提取目标对象的关节点的二维坐标序列，二维坐标提取模型可以是基于深度学习的坐标提取模型，比如可以是高斯模型、神经网络模型等，将目标对象的视频数据输入该二维坐标提取模型，利用二维坐标提取模型对目标对象的视频数据划分为多个视频帧，并对目标对象在每个视频帧中的关节点的二维坐标进行提取，获得目标对象的关节点的二维坐标序列。

或者，还可以将目标对象的视频数据拆分为多个视频帧，将多个视频帧输入二维坐标提取模型，利用二维坐标提取模型提取目标对象在视频帧中的关节点的二维坐标，从而获得目标对象的关节点的二维坐标序列。还可以基于仿真算法实现二维坐标序列的提取。

本说明书一个可选的实施例中，由于视频帧是以图像的形式表示的，还可以利用图像的像素提取关节点的二维坐标。具体实施时，可以利用颜色等标识确定需要提取的关节点在图像中的位置，通过遍历图像的像素值确定关节点的二维坐标。本说明书实施例对如何提取目标对象的关节点的二维坐标序列的具体方法不做限定，本领域技术人员可以利用任何能够提取二维坐标的方法或模型提取目标对象的关节点的二维坐标序列。

综上，通过提取目标对象的关节点的二维坐标序列，为后续确定目标对象的关节点的三维坐标序列提供数据基础，进一步实现目标对象三维姿态的确定。

步骤204：根据目标关节点对应的二维坐标信息，确定所述目标关节点对应的目标关节点特征，其中，所述目标关节点为所述至少两个关节点中的任意一个关节点。

具体的，在确定目标对象的关节点的二维坐标序列后，可以对二维坐标序列中包括的任意一个关节点对应的二维坐标信息进行特征提取，确定该关节点对应的目标关节点特征。

具体实施时，所述根据目标关节点对应的二维坐标信息，确定所述目标关节点对应的目标关节点特征，包括：

对所述目标关节点对应的二维坐标信息进行特征提取，获得所述目标关节点对应的初始关节点特征；

对所述初始关节点特征进行下采样处理和上采样处理，获得所述目标关节点对应的目标关节点特征。

其中，目标关节点对应的初始关节点特征可以包括目标关节点的二维坐标信息的全局特征和局部特征。

具体的，可以利用特征提取器对包含目标关节点对应的二维坐标的图像或视频帧进行特征提取，获得目标关节点对应的全局特征和局部特征。对全局特征和局部特征进行下采样处理和上采样处理，获得目标关节点对应的目标关节点特征。由于下采样处理和上采样处理能够对初始关节点特征的维度进行改变，因此，目标关节点特征的维度可以大于或者等于初始关节点特征的维度。比如，对于维度为64×64的初始关节点特征，对该初始关节点特征进行下采样处理，获得维度为32×32的初始关节点特征，再对该初始关节点特征进行上采样处理，获得维度为128×128的目标关节点特征。或者，对于维度为64×64的初始关节点特征，对该初始关节点特征进行下采样处理，获得维度为32×32的初始关节点特征，再对该初始关节点特征进行上采样处理，获得维度为64×64的目标关节点特征。在对初始关节点特征进行下采样处理和上采样处理时，可以预先设置下采样处理的次数和上采样处理的次数，比如可以是对初始关节点特征进行两次下采样处理，一次上采样处理，也可以是对初始关节点特征进行两次下采样处理，两次上采样处理。

实际应用中，特征提取器可以为多头自注意力机制和邻接矩阵，其中，邻接矩阵可以用于描述人体骨骼结构之间的连接关系，经过邻接矩阵提取的初始关节点特征能够增加人体骨架语义作为先验信息。可以利用卷积层进行下采样操作，以此实现时间维度上的特征聚合，具体可以利用卷积层的划窗操作进行下采样处理，以此控制输出的特征维度大小。可以利用插值的方式进行上采样处理，具体的，插值方式比如可以是最近邻插值或者双线性插值。此外，上采样处理还可以通过反卷积方式或空洞卷积方式实现，本说明书实施例在此不做限定。

此外，可以设置多个初始关节点特征提取模块，以及对应的多个上采样模块和下采样模块，可以设置每次上采样和下采样的维度。

沿用上例，可以利用邻接矩阵对关节点A的二维坐标A1、A2和A3进行特征提取，获得关节点A的初始关节点特征，对关节点A的初始关节点特征进行下采样处理和上采样处理，获得关节点A的目标关节点特征；并且，对关节点B的二维坐标B1、B2、B3进行特征提取，获得关节点B的初始关节点特征，对关节点B的初始关节点特征进行下采样处理和上采样处理，获得关节点B的目标关节点特征。

步骤206：根据至少两个目标关节点对应的目标关节点特征，确定所述至少两个目标关节点关联的初始骨骼边特征。

具体的，在确定目标关节点对应的目标关节点特征之后，可以根据至少两个目标关节点对应的目标关节点特征，确定该至少两个目标关节点关联的初始骨骼边特征。

其中，至少两个目标关节点关联的初始骨骼边特征，可以理解为至少两个目标关节点之间的初始骨骼边特征。比如对于目标关节点1和目标关节点2之间的初始骨骼边特征，该初始骨骼边特征与目标关节点1关联，同样的，该初始骨骼边特征也与目标关节点2关联。

比如，可以根据腕关节对应的目标关节点特征和肘关节对应的目标关节点特征，确定腕关节和肘关节之间的初始骨骼边特征，该初始骨骼边特征与腕关节关联，也与肘关节关联。或者，还可以根据腕关节对应的目标关节点特征、肘关节对应的目标关节点特征和指关节对应的目标关节点特征，确定肘关节和指关节之间的初始骨骼边特征，该初始骨骼边特征与腕关节、肘关节和指关节都关联。

沿用上例，可以根据关节点A的目标关节点特征和关节点B的目标关节点特征，确定该关节点A和关节点B关联的初始骨骼边特征。

具体实施时，所述根据至少两个目标关节点对应的目标关节点特征，确定所述至少两个目标关节点关联的初始骨骼边特征，包括：

对至少两个目标关节点对应的目标关节点特征进行拼接处理，获得所述至少两个目标关节点关联的初始骨骼边特征。

沿用上例，可以对关节点A的目标关节点特征和关节点B的目标关节点特征进行拼接处理，获得关节点A和关节点B关联的初始骨骼边特征。

此外，还可以通过至少两个目标关节点对应的目标关节点特征之间的相加、相减或相乘确定初始骨骼边特征，还可以根据至少两个目标关节点的最短路径上的目标关节点的目标关节点特征之间的相加、相减或相乘确定初始骨骼边特征。至少两个目标关节点的最短路径，可以理解为人体结构中连接该至少两个目标关节点的最短路径。比如在指关节和肘关节的最短路径上，还包括腕关节，因此，可以对指关节的目标关节点特征、肘关节的目标关节点特征和腕关节的目标关节点特征进行拼接或相加、相减、相乘等处理，确定指关节和肘关节之间的初始骨骼边特征。

综上，通过对至少两个目标关节点的目标关节点特征进行拼接处理，能够确定初始骨骼边特征，为后续三维坐标的确定提供数据基础，使后续人体姿态的确定更准确。

步骤208：对所述目标关节点对应的目标关节点特征、和所述目标关节点关联的初始骨骼边特征进行处理，根据处理结果确定所述目标对象的关节点的三维坐标序列。

具体的，可以根据目标关节点对应的目标关节点特征、和该目标关节点关联的初始骨骼边特征，确定目标对象的关节点的三维坐标序列。

具体实施时，所述对所述目标关节点对应的目标关节点特征、和所述目标关节点关联的初始骨骼边特征进行处理，根据处理结果确定所述目标对象的关节点的三维坐标序列，包括：

对所述目标关节点对应的目标关节点特征、和所述目标关节点关联的初始骨骼边特征进行融合处理，获得所述目标关节点对应的融合特征；

对所述融合特征进行上采样处理，根据处理结果确定所述目标关节点对应的三维坐标；

根据所述目标关节点对应的三维坐标，构建所述目标对象的关节点的三维坐标序列。

具体的，可以对目标关节点对应的目标关节点特征、和目标关节点关联的初始骨骼边特征进行融合处理，获得目标关节点对应的融合特征，对融合特征进行上采样处理，获得经过上采样处理后的融合特征，将经过上采样处理后的融合特征输入全连接层，获得全连接层输出的该目标关节点对应的三维坐标，根据目标关节点的三维坐标，构建目标对象的关节点的三维坐标序列。

沿用上例，可以对关节点A对应的目标关节点特征和关节点A关联的初始骨骼边特征(即关节点A和关节点B之间的初始骨骼边特征)进行处理，获得关节点A对应的融合特征AA，对融合特征AA进行上采样处理，根据处理结果确定关节点A对应的三维坐标。对关节点B进行类似的处理，确定关节点B对应的三维坐标。根据关节点A对应的三维坐标和关节点B对应的三维坐标，构建目标对象的关节点的三维坐标序列。

综上，通过结合目标关节点特征和初始骨骼边特征，引入了目标关节点之间的骨骼边，能够进一步反映关节点之间的连接关系，使得最终确定的关节点的三维坐标更加准确，从而提升人体姿态估计的精度和准确度。

具体的，可以对目标关节点特征和初始骨骼边特征进行交叉注意力机制处理，还可以对目标关节点特征和初始骨骼边特征进行融合处理，比如对目标关节点特征和初始骨骼边特征进行相加或相乘处理，获得融合特征，具体实现方式如下：

所述对所述目标关节点对应的目标关节点特征、和所述目标关节点关联的初始骨骼边特征进行融合处理，获得所述目标关节点对应的融合特征，包括：

根据交叉注意力机制，对所述目标关节点对应的目标关节点特征、和所述目标关节点关联的初始骨骼边特征进行融合处理，获得所述目标关节点对应的融合特征。

或者，根据预设融合计算方法，对所述目标关节点对应的目标关节点特征、和所述目标关节点关联的初始骨骼边特征进行融合处理，获得所述目标关节点对应的融合特征。

其中，预设融合计算方法可以包括对目标关节点特征和初始骨骼边特征的相加或者相乘等计算方式。

实际应用中，交叉注意力机制可以基于Transformer结构实现。Transformer结构可以理解为一个根据自注意力机制计算其输入和输出的表示的转换模型。使用交叉注意力机制处理，优化了模型中编码器的性能，从而能够提升目标关节点特征和初始骨骼边特征结合的精度的准确度。

本说明书一个可选的实施例中，还可以利用其他类型的模型进行特征处理，比如神经网络模型等，本说明书实施例在此不作限定。

此外，为了进一步保证骨骼边特征的分辨率，使得引入的骨骼边特征所表示的语义丰富准确，可以对初始骨骼边特征进行映射处理，获得目标骨骼边特征之后，对目标关节点特征和目标骨骼边特征进行处理，具体实现方式如下：

所述根据至少两个目标关节点对应的目标关节点特征，确定所述至少两个目标关节点关联的初始骨骼边特征之后，还包括：

对所述初始骨骼边特征进行映射处理，获得所述至少两个目标关节点关联的目标骨骼边特征，其中，所述目标骨骼边特征的维度大于所述初始骨骼边特征的维度；

对所述目标关节点对应的目标关节点特征、和所述目标关节点关联的目标骨骼边特征进行处理，根据处理结果确定所述目标对象的关节点的三维坐标序列。

其中，维度可以包括特征的灰度维度、色彩维度或方向向量维度等。

实际应用中，对初始骨骼边特征进行映射处理，可以通过线性层或卷积层实现。或者，还可以利用拉普拉斯映射等方式，对初始骨骼边特征进行映射处理，将其映射至多维度空间，从而获得该初始骨骼边特征对应的目标骨骼边特征，该目标骨骼边特征的维度大于初始骨骼边特征的维度。比如，对于二维的初始骨骼边特征，可以将其映射至四维空间，从而获得四维的目标骨骼边特征，实现特征拟合。

边特征进行映射处理，获得至少两个目标关节点关联的目标骨骼边特征，对目标关节点对应的目标关节点特征、和目标关节点关联的目标骨骼边特征进行交叉注意力机制处理，根据处理结果确定目标关节点对应的三维坐标。

沿用上例，在确定关节点A和关节点B关联的初始骨骼边特征之后，可以对初始骨骼边特征进行映射处理，获得关节点A和关节点B关联的目标骨骼边特征，并对关节点A对应的目标关节点特征和关节点A关联的目标骨骼边特征进行交叉注意力机制处理，根据处理结果确定关节点A对应的三维坐标，相应地，对关节点B对应的目标关节点特征和关节点B关联的目标骨骼边特征进行交叉注意力机制处理，根据处理结果确定关节点B对应的三维坐标。根据关节点A对应的三维坐标和关节点B对应的三维坐标，构建目标对象的关节点的三维坐标序列。

可以理解的，在对目标关节点特征和目标骨骼边特征进行处理时，也可以通过前述的交叉注意力机制处理或预设融合计算方法实现，在此不再重复赘述。

综上，通过对初始骨骼边特征进行映射处理，获得目标骨骼边特征，实现高阶骨骼边特征的获取，进一步提升骨骼边特征的分辨率和丰富度，使后续三维坐标确定时能够通过更丰富更准确的信息进行，进一步提升人体姿态估计的准确度。

实际应用中，所述根据处理结果确定所述目标对象的关节点的三维坐标序列之后，还包括：

根据所述目标对象的关节点的三维坐标序列，确定所述目标对象的姿态。

具体的，可以利用姿态确定模型，将目标对象的关节点的三维坐标序列输入该姿态确定模型，获得该姿态确定模型输出的目标对象的三维姿态。

实际应用中，前述步骤204至步骤208可以通过坐标预测模型实现，其中，坐标预测模型可以包括特征提取器、上采样模块、下采样模块和融合模块，具体实现方式如下：

所述确定目标对象的关节点的二维坐标序列之后，还包括：

将所述二维坐标序列输入坐标预测模型，获得所述坐标预测模型输出的所述目标对象的关节点的三维坐标序列。

参见图3，图3示出了根据本说明书一个实施例提供的一种目标对象处理方法中坐标预测模型的流程示意图，具体步骤如下。

步骤302：将目标对象的各个关节点的二维坐标序列输入坐标预测模型，经过特征提取器对关节点的二维坐标进行特征提取，获得关节点的第一维度的初始关节点特征。

步骤304：利用下采样模块对第一维度的初始关节点特征进行下采样处理，获得第二维度的初始关节点特征。

步骤306：利用上采样模块对第二维度的初始关节点特征进行上采样处理，获得关节点的目标关节点特征。

步骤308：对至少两个关节点的目标关节点特征进行拼接处理，获得初始骨骼边特征，利用卷积层对初始骨骼边特征进行映射处理，获得目标骨骼边特征。

步骤310：对关节点的目标关节点特征和目标骨骼边特征进行交叉注意力机制处理，获得关节点的融合特征。

步骤312：对融合特征进行上采样处理，获得上采样处理后的融合特征。

步骤314：根据上采样处理后的融合特征确定该关节点对应的三维坐标，根据该关节点对应的三维坐标，构建目标对象的关节点的三维坐标序列并输出。

实际应用中，所述坐标预测模型的训练步骤包括：

确定目标对象的关节点的二维坐标样本集、和所述二维坐标样本集对应的三维坐标序列标签，其中，所述二维坐标样本集包括至少两个关节点对应的二维坐标信息样本；

将所述二维坐标样本集输入坐标预测模型，利用所述坐标预测模型，根据目标关节点对应的二维坐标信息样本，确定所述目标关节点对应的预测目标关节点特征，其中，所述目标关节点为所述至少两个关节点中的任意一个关节点；

根据至少两个目标关节点对应的预测目标关节点特征，确定所述至少两个目标关节点关联的预测初始骨骼边特征；

对所述目标关节点对应的预测目标关节点特征、和所述目标关节点关联的预测初始骨骼边特征进行处理，根据处理结果确定所述目标对象的关节点的预测三维坐标序列；

利用所述预测三维坐标序列和所述三维坐标序列标签，对所述坐标预测模型进行训练，直至获得满足训练停止条件的坐标预测模型。

其中，训练停止条件可以理解为达到预设迭代次数或者坐标预测模型的损失值达到预设损失值阈值。

具体的，可以根据预测三维坐标序列和三维坐标序列标签，计算坐标预测模型的损失值，根据损失值，对坐标预测模型的参数进行调整，直至达到预设迭代次数或者坐标预测模型的损失值达到预设损失值阈值。

此外，在训练坐标预测模型之后，还可以对坐标预测模型进行参数微调，进一步保证坐标预测模型的输出结果的准确度，具体实现方式如下：

所述将所述二维坐标序列输入坐标预测模型，获得所述坐标预测模型输出的所述目标对象的关节点的三维坐标序列之后，还包括：

将所述目标对象的关节点的三维坐标序列展示给用户；

接收用户针对所述三维坐标序列的反馈信息；

根据所述反馈信息对所述坐标预测模型的参数进行调整。

具体的，可以通过端侧设备的展示界面，将坐标预测模型输出的目标对象的关节点的三维坐标序列展示给用户，或者，还可以根据目标对象的关节点的三维坐标序列，构建目标对象的三维姿态之后，将目标对象的三维姿态展示给用户，并接收用户针对该三维坐标序列或者针对该三维姿态的反馈信息，根据反馈信息对该坐标预测模型的参数进行微调。

综上，在对坐标预测模型训练结束之后，还可以根据用户的反馈信息对坐标预测模型的参数进行调整，以进一步提升坐标预测模型的性能。并且，在训练好的坐标预测模型输出的结果仍然不准确的情况下，能够及时发现并调整，避免后续任务的失败。

综上所述，本说明书一个实施例提供了一种目标对象处理方法，确定目标对象的关节点的二维坐标序列，其中，所述二维坐标序列包括至少两个关节点对应的二维坐标信息；根据目标关节点对应的二维坐标信息，确定所述目标关节点对应的目标关节点特征，其中，所述目标关节点为所述至少两个关节点中的任意一个关节点；根据至少两个目标关节点对应的目标关节点特征，确定所述至少两个目标关节点关联的初始骨骼边特征；对所述目标关节点对应的目标关节点特征、和所述目标关节点关联的初始骨骼边特征进行处理，根据处理结果确定所述目标对象的关节点的三维坐标序列。上述方法通过确定目标对象的关节点关联的初始骨骼边特征，利用初始骨骼边特征和目标关节点特征的结合确定关节点的三维坐标，能够提升确定的三维坐标的准确度，进一步保证后续人体姿态估计的准确度和精度。

下述结合附图4，以本说明书提供的目标对象处理方法在人体姿态估计的应用为例，对所述目标对象处理方法进行进一步说明。其中，图4示出了本说明书一个实施例提供的一种目标对象处理方法的处理过程流程图，具体包括以下步骤。

步骤402：端侧设备接收用户在姿态确定请求上传框中输入的图像数据，并接收用户针对该姿态确定请求的上传指令，将姿态确定请求发送至云侧设备。

其中，端侧设备向用户展示姿态确定请求上传框。姿态确定请求中携带有图像数据。该图像数据可以是端侧设备拍摄的用户的视频数据中的任意一个视频帧，也可以是其他拍摄设备拍摄的用户的视频数据中的任意一个视频帧并发送至端侧设备，还可以是端侧设备或者其他拍摄设备拍摄的用户的图像。

具体的，用户在端侧设备的展示界面上点击控件“确定”，端侧设备基于用户的点击指令确定用户针对姿态确定请求的上传指令。

步骤404：云侧设备接收该姿态确定请求，并确定图像数据。

步骤406：云侧设备将图像数据输入二维坐标提取模型，获得用户的关节点的二维坐标序列，并根据二维坐标序列，确定用户的关节点的三维坐标序列。

具体的，根据二维坐标序列确定用户的关节点的三维坐标序列，可以根据前述目标对象处理方法进行，在此不再重复赘述。

此外，云侧设备还可以根据用户的关节点的三维坐标序列，确定用户的人体姿态。

步骤408：云侧设备将人体姿态发送至端侧设备。

步骤410：端侧设备对人体姿态进行渲染，并在输出结果展示框中展示给用户。

此外，端侧设备可以接收云侧设备下发的坐标预测模型，利用坐标预测模型在端侧设备对图像数据或视频数据进行处理。具体的，图5示出了本说明书一个实施例提供的一种目标对象处理方法在端侧设备的处理过程流程图，具体步骤如下。

步骤502：端侧设备接收用户在姿态确定请求输入框中输入的图像数据，并接收用户针对该图像数据的姿态确定请求的执行指令，将图像数据输入至坐标预测模型。

其中，端侧设备可以向用户展示姿态确定请求输入框，用户可以在姿态确定请求输入框中输入需要进行姿态确定的图像数据，图像数据可以存储于端侧设备中，可以基于用户在图像数据上传框中的选择指令，确定需要进行姿态确定的图像数据。坐标预测模型可以部署于端侧设备。图像数据可以理解为用户展示用户姿态的图像。

具体的，用户可以在端侧设备的展示界面上点击控件“确定”，端侧设备基于用户的点击指令确定用户针对姿态确定请求的输入指令。

此外，端侧设备接收用户在姿态确定请求输入框中输入的图像数据之后，还可以执行上述目标对象处理方法，确定该图像数据中、用户的关节点的三维坐标序列。在此不再重复赘述。

步骤504：端侧设备接收坐标预测模型输出的用户的关节点的三维坐标序列。

步骤506：端侧设备根据用户的关节点的三维坐标序列，确定用户的人体姿态，并将用户的人体姿态渲染，在输出结果展示框中展示给用户。

综上所述，上述方法通过确定目标对象的关节点关联的初始骨骼边特征，利用初始骨骼边特征和目标关节点特征的结合确定关节点的三维坐标，能够提升确定的三维坐标的准确度，进一步保证后续人体姿态估计的准确度和精度。

与上述方法实施例相对应，本说明书还提供了目标对象处理装置实施例，图6示出了本说明书一个实施例提供的一种目标对象处理装置的结构示意图。如图6所示，该装置包括：

第一确定模块602，被配置为确定目标对象的关节点的二维坐标序列，其中，所述二维坐标序列包括至少两个关节点对应的二维坐标信息；

第二确定模块604，被配置为根据目标关节点对应的二维坐标信息，确定所述目标关节点对应的目标关节点特征，其中，所述目标关节点为所述至少两个关节点中的任意一个关节点；

第三确定模块606，被配置为根据至少两个目标关节点对应的目标关节点特征，确定所述至少两个目标关节点关联的初始骨骼边特征；

处理模块608，被配置为对所述目标关节点对应的目标关节点特征、和所述目标关节点关联的初始骨骼边特征进行处理，根据处理结果确定所述目标对象的关节点的三维坐标序列。

一个可选的实施例中，所述处理模块608，进一步被配置为：

根据预设融合计算方法，对所述目标关节点对应的目标关节点特征、和所述目标关节点关联的初始骨骼边特征进行融合处理，获得所述目标关节点对应的融合特征。

一个可选的实施例中，所述第三确定模块606，进一步被配置为：

对所述初始骨骼边特征进行映射处理，获得所述至少两个目标关节点关联的目标骨骼边特征，其中，所述目标骨骼边特征的维度大于所述初始骨骼边特征的维度。

一个可选的实施例中，所述处理模块608，进一步被配置为：

一个可选的实施例中，所述第二确定模块604，进一步被配置为：

一个可选的实施例中，所述第一确定模块602，进一步被配置为：

一个可选的实施例中，所述处理模块608，进一步被配置为：

一个可选的实施例中，所述装置还包括输入模块，被配置为：

一个可选的实施例中，所述装置还包括训练模块，被配置为：

综上所述，上述装置通过确定目标对象的关节点关联的初始骨骼边特征，利用初始骨骼边特征和目标关节点特征的结合确定关节点的三维坐标，能够提升确定的三维坐标的准确度，进一步保证后续人体姿态估计的准确度和精度。

上述为本实施例的一种目标对象处理装置的示意性方案。需要说明的是，该目标对象处理装置的技术方案与上述的目标对象处理方法的技术方案属于同一构思，目标对象处理装置的技术方案未详细描述的细节内容，均可以参见上述目标对象处理方法的技术方案的描述。

图7示出了根据本说明书一个实施例提供的一种计算设备700的结构框图。该计算设备700的部件包括但不限于存储器710和处理器720。处理器720与存储器710通过总线730相连接，数据库750用于保存数据。

计算设备700还包括接入设备740，接入设备740使得计算设备700能够经由一个或多个网络760通信。这些网络的示例包括公用交换电话网(PSTN，Public SwitchedTelephone Network)、局域网(LAN，Local Area Network)、广域网(WAN，Wide AreaNetwork)、个域网(PAN，Personal Area Network)或诸如因特网的通信网络的组合。接入设备740可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC，networkinterface controller))中的一个或多个，诸如IEEE802.11无线局域网(WLAN，WirelessLocal Area Network)无线接口、全球微波互联接入(Wi-MAX，WorldwideInteroperability for Microwave Access)接口、以太网接口、通用串行总线(USB，Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC，Near FieldCommunication)接口，等等。

在本申请的一个实施例中，计算设备700的上述部件以及图7中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图7所示的计算设备结构框图仅仅是出于示例的目的，而不是对本申请范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备700可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或个人计算机(PC，Personal Computer)的静止计算设备。计算设备700还可以是移动式或静止式的服务器。

其中，处理器720用于执行如下计算机可执行指令，该计算机可执行指令被处理器执行时实现上述目标对象处理方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的目标对象处理方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述目标对象处理方法的技术方案的描述。

本说明书一实施例还提供一种AR/VR设备，包括：存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现上述目标对象处理方法的步骤。

具体的，用户可以在运动时佩戴AR设备或VR设备，该AR设备或VR设备可以执行上述目标对象处理方法，获得用户运动时的关节点三维坐标序列，并根据该关节点三维坐标序列生成用户的人体姿态，通过AR设备或VR设备向用户展示。以使用户能够了解自己运动时的姿态，保证用户体验。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现上述目标对象处理方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的目标对象处理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述目标对象处理方法的技术方案的描述。

本说明书一实施例还提供一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述目标对象处理方法的步骤。

上述为本实施例的一种计算机程序的示意性方案。需要说明的是，该计算机程序的技术方案与上述的目标对象处理方法的技术方案属于同一构思，计算机程序的技术方案未详细描述的细节内容，均可以参见上述目标对象处理方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据专利实践的要求进行适当的增减，例如在某些地区，根据专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种目标对象处理方法，应用于用户的运动姿态评估场景，包括：

根据目标关节点对应的二维坐标信息，确定所述目标关节点对应的目标关节点特征，其中，所述目标关节点为所述至少两个关节点中的任意一个关节点，所述目标关节点特征根据所述目标关节点对应的初始关节点特征确定，所述初始关节点特征根据特征提取器对所述二维坐标信息进行特征提取得到，所述特征提取器包括多头自注意力机制和邻接矩阵，所述邻接矩阵用于描述人体骨骼结构之间的连接关系；

对至少两个目标关节点对应的目标关节点特征进行拼接处理，或者对所述至少两个目标关节点的最短路径上的目标关节点的目标关节点特征进行相加、相减或相乘处理，获得所述至少两个目标关节点关联的初始骨骼边特征；

对所述目标关节点对应的目标关节点特征、和所述目标关节点关联的目标骨骼边特征进行处理，根据处理结果确定所述目标对象的关节点的三维坐标序列；

根据所述三维坐标序列，确定用户运动姿态，将所述用户运动姿态与参考运动姿态进行对比，确定所述用户运动姿态是否标准，并根据所述三维坐标序列中的各个关节点坐标之间的距离，确定所述用户的肢体动作是否符合需求。

2.根据权利要求1所述的方法，所述对所述目标关节点对应的目标关节点特征、和所述目标关节点关联的初始骨骼边特征进行处理，根据处理结果确定所述目标对象的关节点的三维坐标序列，包括：

3.根据权利要求2所述的方法，所述对所述目标关节点对应的目标关节点特征、和所述目标关节点关联的初始骨骼边特征进行融合处理，获得所述目标关节点对应的融合特征，包括：

4.根据权利要求2所述的方法，所述对所述目标关节点对应的目标关节点特征、和所述目标关节点关联的初始骨骼边特征进行融合处理，获得所述目标关节点对应的融合特征，包括：

5.根据权利要求1所述的方法，所述根据目标关节点对应的二维坐标信息，确定所述目标关节点对应的目标关节点特征，包括：

6.根据权利要求1所述的方法，所述确定目标对象的关节点的二维坐标序列，包括：

7.根据权利要求1所述的方法，所述根据处理结果确定所述目标对象的关节点的三维坐标序列之后，还包括：

8.根据权利要求1所述的方法，所述确定目标对象的关节点的二维坐标序列之后，还包括：

9.根据权利要求8所述的方法，所述坐标预测模型的训练步骤包括：

10.一种AR/VR设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至9任意一项所述方法的步骤。

11.一种计算设备，包括：

存储器和处理器；

12.一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至9任意一项所述方法的步骤。