CN113221824B

CN113221824B - 基于个体模型生成的人体姿态识别方法

Info

Publication number: CN113221824B
Application number: CN202110599861.6A
Authority: CN
Inventors: 王轩瀚; 周宜暄; 宋井宽; 高联丽; 程乐超
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2022-05-24
Anticipated expiration: 2041-05-31
Also published as: CN113221824A

Abstract

本发明公开了一种基于个体模型生成的人体姿态识别方法，首先从待识别图像中获取输入图片，并采用视觉特征提取器通过卷积编码的方式生成输入图片对应的视觉特征；再采用全局语义感知网络通过线性回归的方式从视觉特征中解析得到人体区域特征图；然后采用实例级别的姿态解析模型生成器针对每个人体生成用于解析人体姿态的模型参数图；最后根据人体区域特征图和模型参数图动态解析图像中的人体姿态，得到人体姿态识别结果。本发明针对图像中出现的人体动态地生成对应的估计参数，能够更好地解决现实场景中人体姿态丰富和人体间差异大的问题。

Description

基于个体模型生成的人体姿态识别方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于个体模型生成的人体姿态识别方法的设计。

背景技术

人体姿态估计是计算机视觉中一个基础而又富有挑战性的问题，其目的是从单张RGB图像中，精确地识别出多个人体的位置以及骨架上的稀疏的关键点位置。随着深度卷积神经网络(CNNs)的应用和MSCOCO等大规模数据集的发布，人体姿态估计方法已经取得了较大的发展，它们大致可以分为bottom-up(即自底向上)和top-down(即自顶向下)的方法。对于top-down的方法，首先定位所有人体实例，然后对每个人体实例做姿态估计，方法主要集中在如何设计高效的单人姿态估计方法。而bottom-up方法首先检测出所有的人体关键点，然后将它们分组到不同的人体实例，现有方法主要集中在如何将候选的关节点分组到单个人体实例。相较于需要人体检测的top-down方法，bottom-up的方法通常具有更好的估计效率，且保持相近的估计准确度。

现有的人体姿态估计方法虽然在姿态估计的任务上取得了进展，但仍面临以下缺陷：

(1)top-down方法采用检测器的方式来区分人体，由于这类方法会采用到人体检测模型和人体关键点检测模型这两个模型，会带来巨额的计算代价，不利于现实场景中的应用。

(2)bottom-up方法采用卷积神经网络来生成身份特征进而区分人体，这类方法仅关注像素的表征而缺乏对全图人体数量的感知，每张图像所包含的人体数量不一致。针对人体姿态估计方法应当根据人体数量来生成对应的人体身份特征，而现有的方法没有考虑这个先验。

(3)现有的人体姿态估计方法采用统一的卷积神经网络参数来解析人体，难以应对现实场景中人体姿态丰富和人体间差异大的问题。每个人体实例需要特定的解析参数，而现有的方法忽略了这一点。

发明内容

本发明的目的是为了解决现有人体姿态估计方法存在的上述问题，提出了一种基于个体模型生成的人体姿态识别方法，基于bottom-up的方法进行扩展，依据图像内容动态地生成姿态估计的模型，进而精准地针对图像中的每个人体进行姿态估计。

本发明的技术方案为：基于个体模型生成的人体姿态识别方法，包括以下步骤：

S1、从待识别图像中获取输入图片，并采用视觉特征提取器通过卷积编码的方式生成输入图片对应的视觉特征；

S2、采用全局语义感知网络通过线性回归的方式从视觉特征中解析得到人体区域特征图。

S3、根据视觉特征和人体区域特征图，采用实例级别的姿态解析模型生成器针对每个人体生成用于解析人体姿态的模型参数图。

S4、根据人体区域特征图和模型参数图动态解析图像中的人体姿态，得到人体姿态识别结果。

进一步地，步骤S1包括以下分步骤：

S11、从待识别图像中获取大小为H×W的输入图片

其中

表示维度为3×H×W的实数域，3表示RGB三个通道。

S12、通过卷积神经网络的视觉编码器提取得到输入图片对应的视觉特征

其中D表示视觉特征中特征图的个数，每张特征图的大小为H_f×W_f。

进一步地，步骤S2具体为：采用全局语义感知网络通过线性回归的方式从视觉特征F中解析得到人体区域特征图

其表达式为：

M＝FW_v

其中

为线性变换的参数，用于将每个像素的D维特征映射成1维向量，人体区域特征图M上的每个点指代该像素点是否在人体关键点的区域内。

进一步地，步骤S3包括以下分步骤：

S31、根据视觉特征F和人体区域特征图M，采用实例信息编码器得到人体的身份特征

S32、根据身份特征E，采用解析参数动态生成器生成用于解析人体姿态的模型参数图

其中K表示每个人体的关键点数量。

进一步地，步骤S31包括以下分步骤：

S311、通过实例感知网络的全局池化层将输入的视觉特征F映射成全局特征

S312、根据全局特征A估计待识别图像中的人体数量：

其中

和

为两个线性转换矩阵，Φ(·)表示非线性的LeakyReLU激活函数，

表示1维的人体数量估计结果，指代图像中可能包含的人体个数。

S313、根据人体区域特征图M上的概率值，通过双线性插值的方式将参数

映射回人体区域特征图M，得到初始的实例感知特征

S314、根据初始的实例感知特征

通过非线性变换方式得到人体的身份特征

其表达式为：

其中W_I为变换参数。

进一步地，步骤S32包括以下分步骤：

S321、将视觉特征F和身份特征E进行融合，得到包含实例特性的视觉特征

其表达式为：

V＝Γ(F,E)

其中Γ(·)为特征拼接函数。

S322、根据包含实例特性的视觉特征V，通过非线性变换方式得到用于解析人体姿态的模型参数图

其表达式为：

W_p＝Φ(VW_t ¹)W_t ²

其中

和

为两个线性转换矩阵。

进一步地，步骤S4包括以下分步骤：

S41、通过设定阈值对人体区域特征图M进行过滤，得到由N_p个像素点组成的人体区域

其中L_c表示第c个人体区域像素点的位置。

S42、根据人体区域

计算得到像素点之间的身份特征相似度矩阵

其中第i个像素点和第j个像素点之间的相似度S_ij的计算公式为：

S_ij＝φ(L_i ^TL_j)

其中φ(·)为sigmoid激活函数，用于将相似度映射到[0,1]的范围内，L_i和L_j分别表示第i个和第j个人体区域像素点的位置，i＝1,2,...,N_p；j＝1,2,...,N_p。

S43、通过阈值过滤的方式将相似度矩阵S中大于0.5的元素置为1，得到N_p个初始的人体区域二值图。

S44、计算人体区域二值图中每两个人体区域的交并比：

其中IoU_de表示第d个人体区域和第e个人体区域的交并比，S_it表示第i个像素点和第t个像素点之间的相似度，S_jt表示第j个像素点和第t个像素点之间的相似度。

S45、当两个人体区域的交并比大于预设交并比阈值时，将这两个人体区域合并，得到N_A个人体区域

其中N_A<N_p。

S46、通过位置索引的方式将各个人体区域M'映射回人体区域特征图M大小，得到N_A个区域二值图

S47、根据区域二值图

计算得到N_A个实例的解析参数

其表达式为：

S48、根据解析参数

从包含实例特性的视觉特征V中解析出N_A个人体的关键点热力图

其表达式为：

S49、将每个关键点热力图的最大值对应的位置作为关键点的预测值，得到人体姿态识别结果。

进一步地，人体姿态识别方法的学习目标函数为：

L＝αl_m+βl_k+θl_o

其中α,β和θ均为超参数，l_m,l_k,l_o均为中间参数且：

其中MSE(·)表示均方误差函数，M表示人体区域特征图，

表示人体区域特征图的真值，H_g表示第g个关键点热力图，

表示第g个关键点热力图的真值，O表示人体数量估计结果，

表示人体数量估计结果的真值。

本发明的有益效果是：

(1)本发明区别于现有的身份特征生成方式，即仅依赖于视觉特征，所提出的方法则是通过编码视觉信息与图像的人体计数信息来生成对应的身份特征，能够更有效地区分实例。

(2)本发明区别于现有方法采用固定的参数来解析人体姿态的方式，针对图像中出现的人体动态地生成对应的估计参数，能够更好地解决现实场景中人体姿态丰富和人体间差异大的问题。

(3)本发明基于bottom-up的方法进行扩展，依据图像内容动态地生成姿态估计的模型，进而精准地针对图像中的每个人体进行姿态估计，实验表明本发明相比于现有人体姿态估计方法计算代价更小且精确度更高。

附图说明

图1所示为本发明实施例提供的基于个体模型生成的人体姿态识别方法流程图。

图2所示为本发明实施例提供的基于个体模型生成的人体姿态识别方法框架图。

具体实施方式

现在将参考附图来详细描述本发明的示例性实施方式。应当理解，附图中示出和描述的实施方式仅仅是示例性的，意在阐释本发明的原理和精神，而并非限制本发明的范围。

本发明实施例提供了一种基于个体模型生成的人体姿态识别方法，如图1～图2共同所示，包括以下步骤S1～S4：

步骤S1包括以下分步骤S11～S12：

S11、从待识别图像中获取大小为H×W的输入图片

其中

表示维度为3×H×W的实数域，3表示RGB三个通道。

本发明实施例中，采用全局语义感知网络通过线性回归的方式从视觉特征F中解析得到人体区域特征图

其表达式为：

M＝FW_v

其中

步骤S2完成了如何确定图像中的人体区域，但本发明的目标是对该区域的每个人体进行姿态识别。基于此，需要针对每个人体的信息来生成对应的姿态解析参数。为了实现动态的人体解析，本发明实施例设计了实例级别的姿态解析模型生成器。

步骤S3包括以下分步骤S31～S32：

本发明实施例中，为了确定每个像素属于图片中的哪个人体，需要得到对应人体的身份特征，因此步骤S31包括以下分步骤S311～S314：

S312、根据全局特征A估计待识别图像中的人体数量：

其中

和

为两个线性转换矩阵，Φ(·)表示非线性的LeakyReLU激活函数，

S313、因为任何图像的人体个数均能通过参数

进行解析估计，所以该参数具有很强的实例感知信息，基于此，本发明实施例根据人体区域特征图M上的概率值，通过双线性插值的方式将参数

映射回人体区域特征图M，得到初始的实例感知特征

S314、根据初始的实例感知特征

通过非线性变换方式得到人体的身份特征

其表达式为：

其中W_I为变换参数。

其中K表示每个人体的关键点数量。

步骤S32包括以下分步骤S321～S322：

其表达式为：

V＝Γ(F,E)

其中Γ(·)为特征拼接函数。

其表达式为：

W_p＝Φ(VW_t ¹)W_t ²

其中

和

为两个线性转换矩阵。

步骤S4包括以下分步骤S41～S49：

其中L_c表示第c个人体区域像素点的位置。本发明实施例中，设定阈值为0.5。

S42、根据人体区域

计算得到像素点之间的身份特征相似度矩阵

S_ij＝φ(L_i ^TL_j)

S44、计算人体区域二值图中每两个人体区域的交并比：

其中N_A<N_p。

S47、根据区域二值图

计算得到N_A个实例的解析参数

其表达式为：

S48、根据解析参数

其表达式为：

本发明实施例针对人体姿态识别方法设计了合理的学习目标，以使得提出的模型能够对给定的待识别图片进行多人的姿态估计。给定一张图片，本发明方法将输出三种类型的热力图：(1)人体区域特征图M；(2)人体数量估计结果O；(3)关键点热力图H。

具体而言，本发明方法的目标是增强每个人体的关键点热力图H中的目标关键点响应，同时保证人体区域特征图M中所有人体关键点的区域处于激活状态。为了实现这一学习目标，本发明实施例使用均方误差(MSE)作为学习目标，定义如下：

其中MSE(·)表示均方误差函数，

表示人体区域特征图的真值，其包含所有人体的目标关键点区域的二值图；

表示第g个关键点热力图的真值，其仅包含针对特定人体的关键点的单峰高斯分布，

表示人体数量估计结果的真值。

因此，整个模型的学习目标计算如下：

L＝αl_m+βl_k+θl_o

其中α,β和θ均为超参数，在训练中均设置为1。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.基于个体模型生成的人体姿态识别方法，其特征在于，包括以下步骤：

S2、采用全局语义感知网络通过线性回归的方式从视觉特征中解析得到人体区域特征图；

S3、根据视觉特征和人体区域特征图，采用实例级别的姿态解析模型生成器针对每个人体生成用于解析人体姿态的模型参数图；

S4、根据人体区域特征图和模型参数图动态解析图像中的人体姿态，得到人体姿态识别结果；

所述步骤S1包括以下分步骤：

S11、从待识别图像中获取大小为H×W的输入图片

其中

表示维度为3×H×W的实数域，3表示RGB三个通道；

其中D表示视觉特征中特征图的个数，每张特征图的大小为H_f×W_f；

所述步骤S2具体为：采用全局语义感知网络通过线性回归的方式从视觉特征F中解析得到人体区域特征图

其表达式为：

M＝FW_v

其中

为线性变换的参数，用于将每个像素的D维特征映射成1维向量，人体区域特征图M上的每个点指代该像素点是否在人体关键点的区域内；

所述步骤S3包括以下分步骤：

其中K表示每个人体的关键点数量；

所述步骤S31包括以下分步骤：

S312、根据全局特征A估计待识别图像中的人体数量：

其中

和

为两个线性转换矩阵，Φ(·)表示非线性的LeakyReLU激活函数，

表示1维的人体数量估计结果，指代图像中可能包含的人体个数；

映射回人体区域特征图M，得到初始的实例感知特征

S314、根据初始的实例感知特征

通过非线性变换方式得到人体的身份特征

其表达式为：

其中W_I为变换参数；

所述步骤S32包括以下分步骤：

其表达式为：

V＝Γ(F,E)

其中Γ(·)为特征拼接函数；

其表达式为：

W_p＝Φ(VW_t ¹)W_t ²

其中

和

为两个线性转换矩阵；

所述步骤S4包括以下分步骤：

其中L_c表示第c个人体区域像素点的位置；

S42、根据人体区域

计算得到像素点之间的身份特征相似度矩阵

S_ij＝φ(L_i ^TL_j)

其中φ(·)为sigmoid激活函数，用于将相似度映射到[0,1]的范围内，L_i和L_j分别表示第i个和第j个人体区域像素点的位置，i＝1,2,...,N_p；j＝1,2,...,N_p；

S43、通过阈值过滤的方式将相似度矩阵S中大于0.5的元素置为1，得到N_p个初始的人体区域二值图；

S44、计算人体区域二值图中每两个人体区域的交并比：

其中IoU_de表示第d个人体区域和第e个人体区域的交并比，S_it表示第i个像素点和第t个像素点之间的相似度，S_jt表示第j个像素点和第t个像素点之间的相似度；

其中N_A<N_p；

S47、根据区域二值图

计算得到N_A个实例的解析参数

其表达式为：

S48、根据解析参数

其表达式为：

2.根据权利要求1所述的人体姿态识别方法，其特征在于，所述人体姿态识别方法的学习目标函数为：

L＝αl_m+βl_k+θl_o

其中α,β和θ均为超参数，l_m,l_k,l_o均为中间参数且：

其中MSE(·)表示均方误差函数，M表示人体区域特征图，

表示人体区域特征图的真值，H_g表示第g个关键点热力图，

表示第g个关键点热力图的真值，O表示人体数量估计结果，

表示人体数量估计结果的真值。