CN110909685A

CN110909685A - 姿势估计方法、装置、设备及存储介质

Info

Publication number: CN110909685A
Application number: CN201911168298.6A
Authority: CN
Inventors: 陈志明; 文介华
Original assignee: Guangzhou Weaving Point Intelligent Technology Co ltd
Current assignee: Guangzhou Weaving Point Intelligent Technology Co ltd
Priority date: 2019-11-25
Filing date: 2019-11-25
Publication date: 2020-03-24

Abstract

本申请实施例公开了一种姿势估计方法、装置、电子设备及存储介质。本申请实施例提供的技术方案，通过获取对应行人顶部视角的用于姿势估计的彩色图像和相对齐的深度图像，将彩色图像和相对齐的深度图像输入预先训练的姿势估计模型，通过深度图像预测出各个行人头部、肩部、肘部和腕部的预测关节点及对应的预测连接向量，并根据预测关节点和所述预测连接向量确定各个行人的边框，根据边框从彩色图像中截取出对应的行人框图，并输出对应的嵌入向量。采用上述技术手段，基于行人顶部视角的图像数据，并通过深度图像进行行人姿势估计，可以有效避免行人相互遮挡影响识别效果的问题，保障行人姿势估计的有效性，进而优化行人姿势估计的效果。

Description

姿势估计方法、装置、设备及存储介质

技术领域

本申请实施例涉及计算机视觉技术领域，尤其涉及一种姿势估计方法、装置、电子设备及存储介质。

背景技术

目前，姿态估计在机器人视觉、动作跟踪和单照相机定标等很多领域都得到的广泛的应用。在一些场景中，利用人体姿势估计算法并通过摄像头获取的人体图像计算出场景中每个人的肢体骨架，基于图像识别出的肢体骨架来即可进一步确定行人的身份，进而实现行人的跟踪、定位等功能。

但是，现有的基于行人的姿势估计算法应用中，其图像数据大多都是基于正面加斜上方视角进行获取的。这些图像数据中容易出现行人之间相互遮挡的情况，导致算法无法准确的识别到行人的相关特征点，进而影响人体姿势估计的效果，甚至出现行人姿势预测失败的情况。

发明内容

本申请实施例提供一种姿势估计方法、装置、电子设备及存储介质，能够解决行人相互遮挡影响姿势估计算法识别精度的技术问题，优化行人姿势估计的效果。

在第一方面，本申请实施例提供了一种姿势估计方法，包括：

获取用于姿势估计的待检测图像，所述待检测图像包括彩色图像和相对齐的深度图像，所述待检测图像对应行人顶部视角获取；

将所述待检测图像输入预先训练的姿势估计模型，通过所述深度图像预测出各个行人的头部、肩部、肘部和腕部的预测关节点及对应的预测连接向量，并根据所述预测关节点和所述预测连接向量确定各个行人的边框；

根据所述边框从所述彩色图像中截取出对应的行人框图，并输出对应的嵌入向量，所述嵌入向量用于表示对应行人的姿势特征。

进一步的，所述根据所述预测关节点和所述预测连接向量确定各个行人的边框，包括：

将所述深度图像经过三次卷积池化模块输出得到对应的特征图；

以所述特征图作为输入，通过卷积运算预测初始连接向量；

以所述特征图和所述初始连接向量作为输入，通过卷积运算得到预测连接向量；

以所述特征图和所述预测连接向量作为输入，通过卷积运算预测初始关节点；

以所述特征图和所述初始关节点作为输入，通过卷积运算得到预测关节点；

以所述特征图、所述预测连接向量和所述预测关节点作为输入，预测对应行人的边框，所述边框以对应行人头部位置到所述边框四周的相对距离数值表示。

进一步的，所述预测关节点使用正态概率分布特征表示。

进一步的，所述预测连接向量使用向量微分表示。

进一步的，所述姿势估计模型包括深度图像预测网络及彩色图像预测网络，所述深度图像预测网络用于根据所述深度图像预测得到所述边框，所述彩色图像预测网络用于根据所述边框从所述彩色图像中截取得到所述行人框图，并将所述预测关节点及所述预测连接向量映射到所述行人框图中，得到对应所述行人框图的所述嵌入向量。

进一步的，所述深度图像预测网络的训练过程包括：

对彩色图像进行关节点和对应连接向量标注，将关节点和对应连接向量映射到相对齐的对应深度图像上；

以标注有关节点和对应连接向量的深度图像作为训练样本，将所述训练样本输入姿势估计训练网络；

以所述初始连接向量、所述预测连接向量、所述初始关节点、所述预测关节点以及所述边框的加权平方差作为损失函数进行预测网络训练，直至损失达到设定值。

进一步的，在根据所述边框从所述彩色图像中截取出对应的行人框图，并输出对应的嵌入向量之后，还包括：

计算待识别行人的所述嵌入向量与用于身份识别的各个行人的所述嵌入向量之间的欧式距离，若欧式距离小于设定阈值，则判定两个所述嵌入向量对应同一个人。

在第二方面，本申请实施例提供了一种姿势估计装置，包括：

获取模块，用于获取用于姿势估计的待检测图像，所述待检测图像包括彩色图像和相对齐的深度图像，所述待检测图像对应行人顶部视角获取；

预测模块，用于将所述待检测图像输入预先训练的姿势估计模型，通过所述深度图像预测出各个行人的头部、肩部、肘部和腕部的预测关节点及对应的预测连接向量，并根据所述预测关节点和所述预测连接向量确定各个行人的边框；

输出模块，用于根据所述边框从所述彩色图像中截取出对应的行人框图，并输出对应的嵌入向量，所述嵌入向量用于表示对应行人的姿势特征。

在第三方面，本申请实施例提供了一种电子设备，包括：

存储器以及一个或多个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的姿势估计方法。

在第四方面，本申请实施例提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的姿势估计方法。

本申请实施例通过获取对应行人顶部视角的用于姿势估计的彩色图像和相对齐的深度图像，将彩色图像和相对齐的深度图像输入预先训练的姿势估计模型，通过深度图像预测出各个行人的头部、肩部、肘部和腕部的预测关节点及对应的预测连接向量，并根据预测关节点和所述预测连接向量确定各个行人的边框，根据边框从彩色图像中截取出对应的行人框图，并输出对应的嵌入向量。采用上述技术手段，基于行人顶部视角的图像数据，并通过深度图像进行行人姿势估计，可以有效避免行人相互遮挡影响识别效果的问题，保障行人姿势估计的有效性，进而优化行人姿势估计的效果。

附图说明

图1是本申请实施例一提供的一种姿势估计方法的流程图；

图2是本申请实施例一中的边框预测流程图；

图3是本申请实施例一中的深度图像预测网络训练流程图；

图4是本申请实施例二提供的一种姿势估计装置的结构示意图；

图5是本申请实施例三提供的一种电子设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面结合附图对本申请具体实施例作进一步的详细描述。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

本申请提供的姿势估计方法，旨在通过分别获取行人顶部视角的深度图像和彩色图像，基于顶部视角的这些待检测图像进行行人姿势的预测。由于顶部视角采集到的待检测图像不会出现行人与行人相互遮挡的情况，可以得到较好的姿势估计效果。并且，考虑到顶部视角下，相机与地面之间的距离固定，因此人与相机之间的距离也相对固定，通过深度图像进行姿势估计，可以排除了光照，衣着，镜像等客观因素的影响。参照现有的姿势估计算法中，其一般分为两大类型。第一类算法采用自上而下的方式，先从图像中提取每个人的矩形框，再由矩形框区域估计每个人的关节点，如maskrcnn，alphanet等；第二类算法采用自下而上的方式，先提取图像中所有关节点，再由这些关节点按某种方式连接组成一个个完整的人。第一类算法太过依赖于如何提取精准的矩形框，并且难以解决两人同框问题，因此在进行姿势估计时通常会倾向于采用第二类算法。而第二类算法的难点在于关节点的连接方式，如果某个重要关节点被遮挡无法识别，就会导致无法连接成一个完整的人，这类算法以OpenPose为代表。而目前大多数姿势估计算法都是基于正面加斜上方视角进行图像数据采集的，所有开源的数据都是正面加斜上方视角图像数据，没有顶部视角的图像数据。因此。在进行图像数据获取时，很容易出现获取到的图像数据存在行人间相互遮挡的情况。基于此，提供本申请实施例的姿势估计方法，已解决现有姿势估计算法中，行人相互遮挡影响行人姿势估计的技术问题。

实施例一：

图1给出了本申请实施例一提供的一种姿势估计方法的流程图，本实施例中提供的姿势估计方法可以由姿势估计设备执行，该姿势估计设备可以通过软件和/或硬件的方式实现，该姿势估计设备可以是两个或多个物理实体构成，也可以是一个物理实体构成。一般而言，该姿势估计设备可以是服务器、电脑，手机，平板终端设备等。

下述以姿势估计设备为执行姿势估计方法的主体为例，进行描述。参照图1，该姿势估计方法具体包括：

S110、获取用于姿势估计的待检测图像，所述待检测图像包括彩色图像和相对齐的深度图像，所述待检测图像对应行人顶部视角获取。

具体的，在进行姿势估计时，通过摄像头获取需要进行识别的行人的待检测图像，该待检测图像用于进行姿势估计，以确定图像中对应行人的姿势特征。其中，考虑到现有姿势估计算法无法解决行人间同框相互遮挡的问题，因此本申请实施例采用顶部视角的摄像头对应行人的顶部视角进行图像数据的采集。顶部视角的图像画面出现多人同框时，人与人之间的遮挡概率相对较小，适用于本申请实施例的姿势估计方法。

进一步的，获取到的待检测图像包括了对应行人的彩色图像和深度图像，彩色图像和深度图像需相互对齐。需要说明的是，在水平视角下，人与摄像头之间的距离不可控的，因此只能依靠颜色的信息来估计人体的姿势。而本申请实施例在顶部视角下，相机与地面之间的距离是固定的。因此人与相机之间的距离也是相对固定的，通过深度图像即可预测人体姿势，同时也排除了光照，衣着，镜像等客观因素的影响。而由于深度图像以肉眼无法精准识别出人体关节点，因此将彩色图像(RGB图像)与深度图像对齐，以便于通过人工标注彩色图像(RGB图像)中行人的姿势特征，进一步将姿势特征映射到相对齐的深度图像中，即可进一步实现对深度图像的姿势特征标注，以便于基于深度图像进行预测网络的训练。此外，在后续基于深度图像预测出行人的姿势特征之后，也可以将姿势特征映射到彩色图像上，以此实现在彩色图像对行人的姿势进行预测。

S120、将所述待检测图像输入预先训练的姿势估计模型，通过所述深度图像预测出各个行人的头部、肩部、肘部和腕部的预测关节点及对应的预测连接向量，并根据所述预测关节点和所述预测连接向量确定各个行人的边框。

对应上述得到的待检测图像，即可通过姿势估计模型进行对应行人的姿势预测。本申请的姿势估计模型包含的两部分网络，分别为深度图像预测网络和彩色图像预测网络。其中，深度图像预测网络用于根据待检测图像的深度图像预测得到对应行人姿势特征的边框及边框中的预测关节点和预测连接向量；而彩色图像预测网络则用于根据深度图像预测网络预测得到的边框从彩色图像中截取得到对应该边框的行人框图。并根据深度图像和彩色图像相对齐的原理，将边框中的预测关节点及预测连接向量映射到行人框图中，得到对应该行人框图的嵌入向量，嵌入向量即可表示为对应行人的姿势特征。

本申请实施例的姿势特征包括行人头顶，左肩，左肘，左手腕，右肩，右肘，右手腕七个关节点，以及这七个关节点自上而下对应连接形成的连接向量。可以理解的是，通过顶部视角预测到的人体姿势不同于普通的人体姿势。普通人体姿势有多种定义，一般包含十几个关节点，这些关节点囊括了身体的各个部位。而本申请实施例通过顶部视角的摄像头画面，很难完整的呈现出一个人的所有关节点，通常来说，摄像头画面中行人的下半身都会被上半身或多或少的遮挡住。因此，本申请实施例具体对应包含人体的七个重要关节点：头顶，左肩，左肘，左手腕，右肩，右肘，右手腕进行预测。这七个点在顶部视角中很少出现遮挡，并且能够完成大部分的行为分析，可以得到较好行人姿势预测效果。

具体的，参照图2，对应行人姿势特征的边框预测流程包括：

S1201、将所述深度图像经过三次卷积池化模块输出得到对应的特征图；

S1202、以所述特征图作为输入，通过卷积运算预测初始连接向量；

S1203、以所述特征图和所述初始连接向量作为输入，通过卷积运算得到预测连接向量；

S1204、以所述特征图和所述预测连接向量作为输入，通过卷积运算预测初始关节点；

S1205、以所述特征图和所述初始关节点作为输入，通过卷积运算得到预测关节点；

S1206、以所述特征图、所述预测连接向量和所述预测关节点作为输入，预测对应行人的边框，所述边框以对应行人头部位置到所述边框四周的相对距离数值表示。

示例性的，深度图像预测网络在进行深度图像的姿势预测时，将待检测图像使用848*480*1大小的单通道深度图像作为输入，经过3个卷积池化模块获取深度图像对应的特征图(即feature map)，其大小为106*60*512。其中每个卷积池化模块包含多次3*3的卷积和一次2*2的池化，最终输出下采样8倍的特征图(feature map)。

之后，基于该特征图进行第一次连接向量的预测，以特征图(feature map)作为输入，采用五次7*7*128的卷积和一次1*1*512的卷积，输出6通道的连接向量图，作为初始连接向量，即为L1。进一步的，基于特征图(feature map)和初始连接向量L1进行第二次连接向量预测。以feature map联合L1作为输入，用与上述第一次连接向量预测相同的卷积，即五次7*7*128的卷积和一次1*1*512的卷积，输出6通道的连接向量图，作为预测连接向量，记为L2，其中该向量以微分形式表示。

更进一步的，基于特征图(feature map)和预测连接向量L2，进行第一次关节点预测。以feature map联合L2作为输入，采用五次7*7*128的卷积和一次1*1*512的卷积，输出7通道的关节点热图，作为初始关节点，记为S1。进一步的，基于特征图(feature map)和初始关节点S1，进行第二次关节点预测。第一次预测7个关节点(结果记为S1)，以feature map联合S1作为输入，以feature map联合s1作为输入，使用五次7*7*128的卷积和一次1*1*512的卷积，输出7通道的关节点热图，作为预测关节点，记为S2。其中，关节点以正态概率分布特征表示。

之后，联合feature map，L2，S2作为输入，接口预测深度图像中每个人的边框(记为box)。其中box以头顶位置到边框四周的四个相对距离数值表示。

本申请实施例在使用深度图像进行预测时，通过输入一张标准化的深度图像，并通过网络推理得到L1，L2，S1，S2四个结果。在预测阶段丢弃掉L1和S1的值，只使用第二次预测结果L2和S2。S2是表示预测关节点的正态概率分布热图，通过最大池化可获取热图的局部峰值，所有局部峰值中大于阈值0.2的可视为候选关节点。L2是预测的单位连接向量图，候选关节点之间相互连接的动量由L2做积分可以得到，解析出候选关节点集合与连接向量集合后，通过匈牙利算法计算出最优连接方式，即为对应深度图像的最优人体姿势估计集合。

此外，参照图3，深度图像预测网络的训练流程包括：

S1001、对彩色图像进行关节点和对应连接向量标注，将关节点和对应连接向量映射到相对齐的对应深度图像上；

S1002、以标注有关节点和对应连接向量的深度图像作为训练样本，将所述训练样本输入姿势估计训练网络；

S1003、以所述初始连接向量、所述预测连接向量、所述初始关节点、所述预测关节点以及所述边框的加权平方差作为损失函数进行预测网络训练，直至损失达到设定值。

具体的，在进行深度图像预测网络的训练过程中，提取大量带有行人姿势图像数据的深度图像作为训练样本。由于深度图像肉眼不便于进行姿势特征标注，因此在提取上述训练样本的深度图像时，还同步获取其对应的彩色图像。彩色图像与深度相互对齐，一一对应。在处理训练样本时，通过对彩色图像进行姿势特征的人工标注，并进一步将标注后的姿势特征信息映射到相对齐的深度图像上，以此即可完成深度图像的姿势特征标注。

对应标注了关节点和对应连接向量的深度图像后，以这些深度图像作为训练样本，输入预测网络进行训练。在进行训练时，使用上述初始连接向量、预测连接向量、初始关节点、预测关节点以及边框的加权平方差作为损失函数进行预测网络训练。并且，网络预测的L1，L2，S1，S2都使用二范数做损失，用Adam优化器来优化网络参数。训练样本需要采用随机旋转，随机亮度以及深度标准化来进行数据增强，以此来改善网络的鲁棒性。行人姿势预测网络的训练方式现有技术有很多，本申请实施例不做固定限制，在此不做赘述。

S130、根据所述边框从所述彩色图像中截取出对应的行人框图，并输出对应的嵌入向量，所述嵌入向量用于表示对应行人的姿势特征；

基于上述步骤S120得到的深度图像中对应行人姿势特征的边框box，进行待检测图像的彩色图像姿势特征预测。彩色图像预测网络使用848*480*3大小的彩色图像作为输入，根据深度图像预测网络预测到的每个人的边框，在彩色图像中截取出对应的行人框图并缩放到224*224*3。经过五次卷积池化，最终输出128维的嵌入向量，记为embedding。嵌入向量embedding即可用来表示每个人的特征信息。其中，对应上述步骤S120预测到的姿势特征，同样映射到行人框图中，以此即可通过深度图像的姿势特征预测实现相对齐的彩色图像的姿势特征预测。需要说明的是，本申请姿势估计模型的两部分网络的输入不同，两者没有共同变量，因此采用分开训练的方式，并基于深度图像预测网络预测到的行人姿势特征，进行相对齐的彩色图像对应行人的姿势特征预测。

最终在彩色图像上得到的行人框图及行人框图上的嵌入向量，该嵌入向量即可表征对应行人的姿势特征信息。利用这一姿势特征信息，即可实现行人的跟踪、定位等功能。

上述，通过获取对应行人顶部视角的用于姿势估计的彩色图像和相对齐的深度图像，将彩色图像和相对齐的深度图像输入预先训练的姿势估计模型，通过深度图像预测出各个行人的头部、肩部、肘部和腕部的预测关节点及对应的预测连接向量，并根据所述预测关节点和所述预测连接向量确定各个行人的边框，根据边框从彩色图像中截取出对应的行人框图，并输出对应的嵌入向量。采用上述技术手段，基于行人顶部视角的图像数据，并通过深度图像进行行人姿势估计，可以有效避免行人相互遮挡影响识别效果的问题，保障行人姿势估计的有效性，进而优化行人姿势估计的效果。

此外，本申请实施例还提供了姿势估计方法的具体应用，利用姿势估计得到的对应行人姿势特征的嵌入向量，进一步进行行人身份的判别。通过将待识别身份的行人的嵌入向量与用于身份识别的各个行人的嵌入向量进行比对，判别待识别行人的身份。具体的，根据每个行人框图得到的表示行人特征的嵌入向量，即可进行姿势估计的判断。当通过姿势估计判断行人身份时，通过计算待识别行人的嵌入向量与用于身份识别的各个行人的嵌入向量之间的欧式距离，并基于欧式距离判断两个嵌入向量对应的行人是否属于同一个人。其中，若欧式距离小于设定阈值，则判定两个嵌入向量对应同一个人，而如若欧式距离大于或等于设定阈值，则认为两个嵌入向量可能不对应同一个人，以此即可实现基于姿势估计的行人身份识别。

实施例二：

在上述实施例的基础上，图4为本申请实施例二提供的一种姿势估计装置的结构示意图。参考图4，本实施例提供的姿势估计装置具体包括：获取模块21、预测模块22、输出模块23。

其中，获取模块21用于获取用于姿势估计的待检测图像，所述待检测图像包括彩色图像和相对齐的深度图像，所述待检测图像对应行人顶部视角获取；

预测模块22用于将所述待检测图像输入预先训练的姿势估计模型，通过所述深度图像预测出各个行人的头部、肩部、肘部和腕部的预测关节点及对应的预测连接向量，并根据所述预测关节点和所述预测连接向量确定各个行人的边框；

输出模块23用于根据所述边框从所述彩色图像中截取出对应的行人框图，并输出对应的嵌入向量，所述嵌入向量用于表示对应行人的姿势特征。

上述，通过获取对应行人顶部视角的用于姿势估计的彩色图像和相对齐的深度图像，将彩色图像和相对齐的深度图像输入预先训练的姿势估计模型，通过深度图像预测出各个行人的头部、肩部、肘部和腕部的预测关节点及对应的预测连接向量，并根据预测关节点和所述预测连接向量确定各个行人的边框，根据边框从彩色图像中截取出对应的行人框图，并输出对应的嵌入向量。采用上述技术手段，基于行人顶部视角的图像数据，并通过深度图像进行行人姿势估计，可以有效避免行人相互遮挡影响识别效果的问题，保障行人姿势估计的有效性，进而优化行人姿势估计的效果。

本申请实施例二提供的姿势估计装置可以用于执行上述实施例一提供的姿势估计方法，具备相应的功能和有益效果。

实施例三：

本申请实施例三提供了一种电子设备，参照图5，该电子设备包括：处理器31、存储器32、通信模块33、输入装置34及输出装置35。该电子设备中处理器的数量可以是一个或者多个，该电子设备中的存储器的数量可以是一个或者多个。该电子设备的处理器、存储器、通信模块、输入装置及输出装置可以通过总线或者其他方式连接。

存储器32作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本申请任意实施例所述的姿势估计方法对应的程序指令/模块(例如，姿势估计装置中的获取模块、预测模块、输出模块和判别模块)。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

通信模块33用于进行数据传输。

处理器31通过运行存储在存储器中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的姿势估计方法。

输入装置34可用于接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置35可包括显示屏等显示设备。

上述提供的电子设备可用于执行上述实施例一提供的姿势估计方法，具备相应的功能和有益效果。

实施例四：

本申请实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种姿势估计方法，该姿势估计方法包括：获取用于姿势估计的待检测图像，所述待检测图像包括彩色图像和相对齐的深度图像，所述待检测图像对应行人顶部视角获取；将所述待检测图像输入预先训练的姿势估计模型，通过所述深度图像预测出各个行人的头部、肩部、肘部和腕部的预测关节点及对应的预测连接向量，并根据预测关节点和所述预测连接向量确定各个行人的边框；根据所述边框从所述彩色图像中截取出对应的行人框图，并输出对应的嵌入向量，所述嵌入向量用于表示对应行人的姿势特征。

存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括：安装介质，例如CD-ROM、软盘或磁带装置；计算机***存储器或随机存取存储器，诸如DRAM、DDR RAM、SRAM、EDO RAM，兰巴斯(Rambus)RAM等；非易失性存储器，诸如闪存、磁介质(例如硬盘或光存储)；寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外，存储介质可以位于程序在其中被执行的第一计算机***中，或者可以位于不同的第二计算机***中，第二计算机***通过网络(诸如因特网)连接到第一计算机***。第二计算机***可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括驻留在不同位置中(例如在通过网络连接的不同计算机***中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。

当然，本申请实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的姿势估计方法，还可以执行本申请任意实施例所提供的姿势估计方法中的相关操作。

上述实施例中提供的姿势估计装置、存储介质及电子设备可执行本申请任意实施例所提供的姿势估计方法，未在上述实施例中详尽描述的技术细节，可参见本申请任意实施例所提供的姿势估计方法。

上述仅为本申请的较佳实施例及所运用的技术原理。本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行的各种明显变化、重新调整及替代均不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由权利要求的范围决定。

Claims

1.一种姿势估计方法，其特征在于，包括：

2.根据权利要求1所述的姿势估计方法，其特征在于，所述根据所述预测关节点和所述预测连接向量确定各个行人的边框，包括：

以所述特征图作为输入，通过卷积运算预测初始连接向量；

3.根据权利要求1-2任一所述的姿势估计方法，其特征在于，所述预测关节点使用正态概率分布特征表示。

4.根据权利要求1-2任一所述的姿势估计方法，其特征在于，所述预测连接向量使用向量微分表示。

5.根据权利要求2所述的姿势估计方法，其特征在于，所述姿势估计模型包括深度图像预测网络及彩色图像预测网络，所述深度图像预测网络用于根据所述深度图像预测得到所述边框，所述彩色图像预测网络用于根据所述边框从所述彩色图像中截取得到所述行人框图，并将所述预测关节点及所述预测连接向量映射到所述行人框图中，得到对应所述行人框图的所述嵌入向量。

6.根据权利要求5所述的姿势估计方法，其特征在于，所述深度图像预测网络的训练过程包括：

7.根据权利要求1所述的姿势估计方法，其特征在于，在根据所述边框从所述彩色图像中截取出对应的行人框图，并输出对应的嵌入向量之后，还包括：

8.一种姿势估计装置，其特征在于，包括：

预测模块，用于将所述待检测图像输入预先训练的姿势估计模型，通过所述深度图像预测出各个行人头部、肩部、肘部和腕部的预测关节点及对应的预测连接向量，并根据所述预测关节点和所述预测连接向量确定各个行人的边框；

9.一种电子设备，其特征在于，包括：

存储器以及一个或多个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7任一所述的姿势估计方法。

10.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7任一所述的姿势估计方法。