CN112884780A

CN112884780A - 一种用于人体姿态的估计方法和***

Info

Publication number: CN112884780A
Application number: CN202110165636.1A
Authority: CN
Inventors: 吴俊�; 吴则彪; 陈延行; 江文涛
Original assignee: Lop Xiamen System Integration Co ltd; Ropt Technology Group Co ltd
Current assignee: Lop Xiamen System Integration Co ltd; Ropt Technology Group Co ltd
Priority date: 2021-02-06
Filing date: 2021-02-06
Publication date: 2021-06-01

Abstract

本发明给出了一种用于人体姿态的估计方法和***，包括将图像输入包括四层编码层和四层解码层结构的编码解码器网络中训练，输出语义分割结果；利用能量函数将前两个编码层中获得的像素语义概率图转换为边缘激活像素图，响应于像素的激活值大于激活值阈值，该像素为边缘像素；基于语义分割结果中的语义标签将属于同一实例的像素聚集获得实例分割结果，实例分割结果包括表示每个像素所属实例的掩码；利用全卷积网络生成人体骨骼置信度图，输出每个实例中每个像素所属骨骼部件标签，通过全连接网络回归关节点位置，在每个实例内进行关节点的连接构造出人体的骨架结构获取人体姿态信息。该方法和***改善了人与人之间姿态估计中存在的交叉现象。

Description

一种用于人体姿态的估计方法和***

技术领域

本发明涉及计算机视觉的技术领域，尤其是一种用于人体姿态的估计方法和***。

背景技术

人体姿态估计技术(Human Pose Estimation Technology)又称人体姿态识别技术，旨在将图像或视频流中人体像素映射到肢体的三维曲面，可以连续、自动、快速提取图像或视频流中存在着的人体各个关节部位的位置信息，其中涉及了很多计算机视觉任务，如目标检测，姿态估计，分割，等等。在由该技术得到关节点位置信息的基础上可以进行大量建模，其应用场景不仅包括人体关节点定位，如图形(Graphics)，增强显示(AugmentedReality,AR)，人机交互(Human-Computer Interaction)，还包括3D目标识别等很多方面。

人体姿态估计技术在行为识别、人机交互、游戏、动画等领域有着很十分广阔的应用前景，例如游戏领域的体感类游戏；安全领域的可以应用于家庭监控,如对独居家中老年人摔倒情况的识别，通过监控识别出特殊的人体姿态,以便及时作出响应；教育领域的可以应用于智慧课堂，如对教学活动中学生上课情况的识别，例如对课堂上举手、上课睡觉等行为的感知。

然而，传统的人体姿态估计技术对硬件较为依赖，例如基于Kinect的人体姿态估计已经成功应用于体感游戏领域并取得过成功，然而，这种技术对硬件要求很高，并有感知距离、感知精度上的局限性，不可避免地出现了硬件配置操作复杂、远距离人像不敏感，受环境因素影响大等问题。

深度学习在计算机视觉领域的快速发展，使得人体姿态估计技术逐步摆脱对硬件的依赖，发展为利用深度学习的方式对图像进行人体姿态估计。基于深度学习的方法摆脱了硬件束缚，依赖于输入的图像信息即可，并且这种方式实现了精度高、速度快、对人像敏感并受环境因素影响小等方面的突破。

目前，比较流行的人体姿态估计方法主要基于以下两种思想。

一种是自顶向下的思想。这种思想是通过回归出图像中所有人体的边框区域，再对每个方框中的人进行单人人体姿态估计以得到每个人的关节点位置信息，即先得到所有人的位置信息，再由每个人的位置信息得到关节点的位置信息；另一种是自底向上的思想。这种思想是先回归出输入图像中所有人的每个部位的关节点位置，再对图像中所有关节点进行逐步连接，进而得到每个人的人体骨架结构。即先得到所有关节点的位置信息，再由关节点的位置信息得到人的位置信息。

基于自顶向下思想的人体姿态估计方法通过从图像中预测出丰富的人体边界框，然后通过非极大值抑制等操作得到最终的边界框，再对每个方框中的人进行单人人体姿态估计以得到每个人的关节点位置信息。这不仅会导致计算量的增加，而且人体姿态估计结果依赖于边界框回归准确率。而现有的基于自底向上思想的人体姿态估计方法，如OpenPose，其先进行人体各个关节点的检测，再进行关节点的连接进而构造出人体的骨架结构，然而，这种方式在多人交互的场景下的容易出现关节点误连接的情况。

也就是说，虽然自顶向下的方式能很好地改善关节点误连接的情况，但由于它的运行速度与人数成正比导致复杂场景下不适用。而自底向上的方式很好地改善了上述问题，但却容易出现关节点误连接的情况。

发明内容

为了解决现有技术中自顶向下的人体姿态估计方式的运行速度与人数成正比导致复杂场景下不适用、自底向上的人体姿态估计方式容易出现关节点误连接的情况的技术问题，本发明提出了一种用于人体姿态的估计方法和***，解决了上述技术问题。

根据本发明的一个方面，提出了一种用于人体姿态的估计方法，包括：

S1：将图像输入包括四层编码层和四层解码层结构的编码解码器网络中训练，输出语义分割结果；

S2：利用能量函数将前两个编码层中获得的像素语义概率图转换为边缘激活像素图，响应于像素的激活值大于激活值阈值，像素为边缘像素；

S3：基于语义分割结果中的语义标签将属于同一实例的像素聚集获得实例分割结果，实例分割结果包括表示每个像素所属实例的掩码；以及

S4：利用全卷积网络生成人体骨骼置信度图，输出每个实例中每个像素所属骨骼部件标签，通过全连接网络回归关节点位置，在每个实例内进行关节点的连接构造出人体的骨架结构获取人体姿态信息。

在一些具体的实施例中，编码层包括3*3卷积网络，编码器通过最大池化操作，获得不同尺度的特征。

在一些具体的实施例中，解码层包括2*2卷积网络，解码器通过上采样调整图片大小，经过四层解码层回到初始图像大小，并且解码器中最后一层解码层之后添加了1*1的卷积用于获得图像中每个像素的类别。

在一些具体的实施例中，步骤S2具体包括通过能量函数m_i＝col_i(|M*Soft max(p)-Soft max(p)|)将前两个编码层中得到的像素语义概率图转换成边缘激活像素图{m₁,m₂,...,m_i}(m_i∈R^N)，其中，p表示像素值属于第i个语义类别的概率，Softmax为交叉熵函数，M代表平均滤波，col_i代表第i列，m_i代表第i个类别激活点像素掩码。

在一些具体的实施例中，靠近预测边界的像素点具有较大的激活值。

在一些具体的实施例中，步骤S3具体为对语义标签为人的像素进行k-means聚类，并将属于同一实例的像素聚集到一起获得实例分割结果。

在一些具体的实施例中，步骤S3之后还包括采用加权边缘像素损失函数：

优化实例分割结果，其中，P_i代表第i个语义类别的像素中边缘像素的概率。

在一些具体的实施例中，步骤S4中还包括利用条件随机场优化人体骨骼置信度图。

根据本发明的第二方面，提出了一种计算机可读存储介质，其上存储有一或多个计算机程序，该一或多个计算机程序被计算机处理器执行时实施上述任一项的方法。

根据本发明的第三方面，提出了一种用于人体姿态的估计***，***包括：

语义分割单元：配置用于将图像输入包括四层编码层和四层解码层结构的编码解码器网络中训练，输出语义分割结果；

边缘像素获取单元：配置用于利用能量函数将前两个编码层中获得的像素语义概率图转换为边缘激活像素图，响应于像素的激活值大于激活值阈值，像素为边缘像素；

实例分割单元：配置用于基于语义分割结果中的语义标签将属于同一实例的像素聚集获得实例分割结果，实例分割结果包括表示每个像素所属实例的掩码；以及

姿态估计单元：利用全卷积网络生成人体骨骼置信度图，输出每个实例中每个像素所属骨骼部件标签，通过全连接网络回归关节点位置，在每个实例内进行关节点的连接构造出人体的骨架结构获取人体姿态信息。

本发明的用于人体姿态的估计方法和***对二维图像进行实例分割，从图像中分割出不同的人，不同的人标记不同的标签，进而从本质上预防人与人之间姿态估计交叉现象，实例分割的结果更接近人体姿态估计目标。然后进行人体关节的部件分割，部件分割可实现分割出人体的各个骨骼部件。其作为人体关节点检测的辅助优化网络，可以在很大程度上防止关节点预测错误。最后再进行关节点的连接进而构造出人体的骨架结构。

附图说明

包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本发明的原理。将容易认识到其它实施例和实施例的很多预期优点，因为通过引用以下详细描述，它们变得被更好地理解。通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请的一个实施例的用于人体姿态的估计方法流程图；

图2是本申请的一个具体的实施例的人体姿态的估计方法流程图；

图3是本申请的一个实施例的用于人体姿态的估计***的框架图；

图4是适于用来实现本申请实施例的电子设备的计算机***的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

根据本申请的一个实施例的用于人体姿态的估计方法，图1示出了根据本申请的实施例的用于人体姿态的估计方法流程图。如图1所示，该方法包括：

S101：将图像输入包括四层编码层和四层解码层结构的编码解码器网络中训练，输出语义分割结果。

在具体的实施例中，编码层包括3*3卷积网络，编码器通过最大池化操作，获得不同尺度的特征。解码层包括2*2卷积网络，解码器通过上采样调整图片大小，经过四层解码层回到初始图像大小，并且解码器中最后一层解码层之后添加了1*1的卷积用于获得图像中每个像素的类别。

S102：利用能量函数将前两个编码层中获得的像素语义概率图转换为边缘激活像素图，响应于像素的激活值大于激活值阈值，该像素为边缘像素。通过能量函数m_i＝col_i(|M*Soft max(p)-Soft max(p)|将前两个编码层中得到的像素语义概率图转换成边缘激活像素图{m₁,m₂,...,m_i}(m_i∈R^N)，其中，p表示像素值属于第i个语义类别的概率，Softmax为交叉熵函数，M代表平均滤波，col_i代表第i列，m_i代表第i个类别激活点像素掩码。靠近预测边界的像素点具有较大的激活值。

S103：基于语义分割结果中的语义标签将属于同一实例的像素聚集获得实例分割结果，实例分割结果包括表示每个像素所属实例的掩码。具体的，对语义标签为人的像素进行k-means聚类，将属于同一实例的像素聚集到一起得到实例分割结果。实例分割的输出为每个像素的掩码，代表该像素属于哪个实例(此处只对人进行实例分割，因此划分实例为人物1，人物2...其他像素当做背景像素，二进制掩码为0)。、

在优选的实施例中，采用加权边缘像素损失函数

优化实例分割结果，其中，P_i代表第i个语义类别的像素中边缘像素的概率。优化后的实例分割结果可以便于更加准确地进行姿态分析。

S104：利用全卷积网络生成人体骨骼置信度图，输出每个实例中每个像素所属骨骼部件标签，通过全连接网络回归关节点位置，在每个实例内进行关节点的连接构造出人体的骨架结构获取人体姿态信息。

在具体的实施例中，采用全卷积网络生成人体骨骼置信度图，然后通过条件随机场优化置信度图，最后输出每个像素所属骨骼部件标签。在每个关节部件中通过全连接网络回归关键点，该关键点即为关节点位置，同时每个关节点也都包含其骨骼部件标签，以便于根据预定义的先验知识在每一实例内进行关节点的连接进而构造出人体的骨架结构，避免不同人体关节点交叉连接。

本发明的上述人体姿态估计方法的关键点在于通过能量函数将语义概率图转换成边缘激活像素图；通过加权边缘像素损失函数优化实例分割结果；通过实例分割改善自底向上方法中人与人之间姿态估计交叉现象；将部件分割做为辅助网络优化人体关节点检测。该方法能有效减少估计过程中人体关节点误连接情况的发生，对人体姿态估计更加精准，本发明通过将自顶向下和自底向上的思想的结合，可在不改变原有模型大小的同时对关节点位置回归的效果进行了优化。

继续参考图2，图2示出了根据本申请的一个具体的实施例的用于人体姿态的估计流程图，如图2所示，包括：

步骤201：将图像输入到编码解码器网络中训练。采用四层编码层和四层解码层结构，输出语义分割结果。编码器采用四层编码层结构。每层编码层均包含3x3卷积网络，并通过最大池化操作，得到不同尺度的特征。解码器采用四层解码层结构。每层解码层均包含2x2卷积网络，并采用上采样操作不断调整图片大小，最后经过四层解码层回到初始图像大小。最后一层解码层的最后一步添加了1x1卷积，最终得到图像中的每一个像素的类别(人是一个类别)。

步骤202：通过能量函数将前两个编码层中得到的像素语义概率图转换成边缘激活像素图。前两层编码层的图像具有高分辨率，因此所提取特征包含丰富的人物边缘像素信息，通过能量函数m_i＝col_i(|M*Soft max(p)-Soft max(p)|将前两个编码层中得到的像素语义概率图转换成边缘激活像素图{m₁,m₂,...,m_i}(m_i∈R^N)。p表示像素值属于第i个语义类别的概率。Softmax为交叉熵函数。M代表平均滤波。col_i代表第i列。m_i代表第i个类别激活点像素掩码。靠近预测边界的点将具有较大的激活值。

步骤203：设定激活值阈值，超过阈值则为边缘像素。

步骤204：对语义标签为人的像素进行k-means聚类，将属于同一实例的像素聚集到一起得到实例分割结果。对语义标签为人的像素进行k-means聚类，将属于同一实例的像素聚集到一起得到实例分割结果。实例分割的输出为每个像素的掩码，代表该像素属于哪个实例(此处只对人进行实例分割，因此划分实例为人物1，人物2...其他像素当做背景像素，二进制掩码为0)。

步骤205：采用加权边缘像素损失函数优化实例分割结果。由于每个实例都具有边缘像素，本专利采用加权边缘像素损失函数

优化实例分割结果。P_i代表第i个语义类别的像素中边缘像素的概率。

步骤206：对每个实例(人)进行部件分割。对每个实例(人)进行部件分割，部件分割分割出人体的各个骨骼部件。该步骤首先采用全卷积网络生成人体骨骼置信度图，然后通过条件随机场优化置信度图，最后输出每个像素所属骨骼部件标签。

步骤207：在不同的关节部件中回归出关节点。在每个关节部件中通过全连接网络回归关键点，即关节点位置。同时每个关节点也都包含其骨骼部件标签。

步骤208：在同一实例里进行关节点的连接进而构造出人体的骨架结果。由于关节点包含其骨骼部件标签，因此根据预定义的先验知识(例如头顶和颈部需连接，手腕和手肘需连接)在每一实例内进行关节点的连接进而构造出人体的骨架结构，避免不同人体关节点交叉连接。

该人体姿态的估计方法结合了自顶向下和自底向上两种思想并进行创新与推广，首先采用自顶向下的方式，对二维图像进行实例分割，从图像中分割出不同的人。不同的人标记不同的标签，进而从本质上预防人与人之间姿态估计交叉现象。这与目前普遍采用的目标检测的方式有很大区别，实例分割的结果更接近人体姿态估计目标。然后采用自底向上的思想，但是首先进行人体关节的部件分割，而不是人体关节点检测，部件分割可实现分割出人体的各个骨骼部件，其作为人体关节点检测的辅助优化网络，可以在很大程度上防止关节点预测错误，最后再进行关节点的连接进而构造出人体的骨架结构。

继续参考图3，图3示出了根据本申请的一个实施例的用于人体姿态的估计***的框架图。该***具体包括语义分割单元301、边缘像素获取单元302、实例分割单元303和姿态估计单元304。

在具体的实施例中，语义分割单元301配置用于将图像输入包括四层编码层和四层解码层结构的编码解码器网络中训练，输出语义分割结果；边缘像素获取单元302配置用于利用能量函数将前两个编码层中获得的像素语义概率图转换为边缘激活像素图，响应于像素的激活值大于激活值阈值，像素为边缘像素；实例分割单元303配置用于基于语义分割结果中的语义标签将属于同一实例的像素聚集获得实例分割结果，实例分割结果包括表示每个像素所属实例的掩码；姿态估计单元304配置用于利用全卷积网络生成人体骨骼置信度图，输出每个实例中每个像素所属骨骼部件标签，通过全连接网络回归关节点位置，在每个实例内进行关节点的连接构造出人体的骨架结构获取人体姿态信息。

下面参考图4，其示出了适于用来实现本申请实施例的电子设备的计算机***400的结构示意图。图4示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图4所示，计算机***400包括中央处理单元(CPU)401，其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中，还存储有***400操作所需的各种程序和数据。CPU 401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

以下部件连接至I/O接口405：包括键盘、鼠标等的输入部分406；包括诸如液晶显示器(LCD)等以及扬声器等的输出部分407；包括硬盘等的存储部分408；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器410上，以便于从其上读出的计算机程序根据需要被安装入存储部分408。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分409从网络上被下载和安装，和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质，该计算机可读存储介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、Sma l lta l k、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：将图像输入包括四层编码层和四层解码层结构的编码解码器网络中训练，输出语义分割结果；利用能量函数将前两个编码层中获得的像素语义概率图转换为边缘激活像素图，响应于像素的激活值大于激活值阈值，像素为边缘像素；基于语义分割结果中的语义标签将属于同一实例的像素聚集获得实例分割结果，实例分割结果包括表示每个像素所属实例的掩码；利用全卷积网络生成人体骨骼置信度图，输出每个实例中每个像素所属骨骼部件标签，通过全连接网络回归关节点位置，在每个实例内进行关节点的连接构造出人体的骨架结构获取人体姿态信息。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种用于人体姿态的估计方法，其特征在于，包括：

S2：利用能量函数将前两个编码层中获得的像素语义概率图转换为边缘激活像素图，响应于像素的激活值大于激活值阈值，所述像素为边缘像素；

S3：基于所述语义分割结果中的语义标签将属于同一实例的像素聚集获得实例分割结果，所述实例分割结果包括表示每个像素所属实例的掩码；以及

2.根据权利要求1所述的用于人体姿态的估计方法，其特征在于，所述编码层包括3*3卷积网络，编码器通过最大池化操作，获得不同尺度的特征。

3.根据权利要求2所述的用于人体姿态的估计方法，其特征在于，所述解码层包括2*2卷积网络，解码器通过上采样调整图片大小，经过四层所述解码层回到初始图像大小，并且所述解码器中最后一层解码层之后添加了1*1的卷积用于获得所述图像中每个像素的类别。

4.根据权利要求1所述的用于人体姿态的估计方法，其特征在于，所述步骤S2具体包括通过能量函数m_i＝col_i(|M*Softmax(p)-Softmax(p)|)将前两个编码层中得到的像素语义概率图转换成边缘激活像素图{m₁,m₂,...,m_i}(m_i∈R^N)，其中，p表示像素值属于第i个语义类别的概率，Softmax为交叉熵函数，M代表平均滤波，col_i代表第i列，m_i代表第i个类别激活点像素掩码。

5.根据权利要求4所述的用于人体姿态的估计方法，其特征在于，靠近预测边界的像素点具有较大的激活值。

6.根据权利要求1所述的用于人体姿态的估计方法，其特征在于，所述步骤S3具体为对所述语义标签为人的像素进行k-means聚类，并将属于同一实例的像素聚集到一起获得实例分割结果。

7.根据权利要求1所述的用于人体姿态的估计方法，其特征在于，所述步骤S3之后还包括采用加权边缘像素损失函数：

8.根据权利要求1所述的用于人体姿态的估计方法，其特征在于，所述步骤S4中还包括利用条件随机场优化所述人体骨骼置信度图。

9.一种计算机可读存储介质，其上存储有一或多个计算机程序，其特征在于，该一或多个计算机程序被计算机处理器执行时实施权利要求1至8中任一项所述的方法。

10.一种用于人体姿态的估计***，其特征在于，所述***包括：

边缘像素获取单元：配置用于利用能量函数将前两个编码层中获得的像素语义概率图转换为边缘激活像素图，响应于像素的激活值大于激活值阈值，所述像素为边缘像素；

实例分割单元：配置用于基于所述语义分割结果中的语义标签将属于同一实例的像素聚集获得实例分割结果，所述实例分割结果包括表示每个像素所属实例的掩码；以及