CN113537072A

CN113537072A - 一种基于参数硬共享的姿态估计与人体解析联合学习***

Info

Publication number: CN113537072A
Application number: CN202110811913.1A
Authority: CN
Inventors: 吴渊; 郑泉石; 金城; 程乐超
Original assignee: Fudan University; Zhejiang Lab
Current assignee: Fudan University; Zhejiang Lab
Priority date: 2021-07-19
Filing date: 2021-07-19
Publication date: 2021-10-22
Anticipated expiration: 2041-07-19
Also published as: CN113537072B

Abstract

本发明属于计算机视觉技术领域，具体为一种基于参数硬共享的姿态估计与人体解析联合学习***。该***分为多尺度特征提取模块、联合学习模块、人体解析分支和姿态估计分支四个部分。输入图像首先经过多尺度特征提取模块得到不同尺度下的图像特征，并进行跨尺度的特征融合；再将各尺度的特征分别送入联合学习模块，得到姿态估计与人体解析的联合特征；最后将姿态估计与人体解析的联合特征分别送入姿态估计分支和人体解析分支中得到姿态估计与人体解析的结果。本发明提出了用于姿态估计与人体解析的多任务联合学习***。本发明所提***在姿态估计与人体解析任务上的表现优秀。

Description

一种基于参数硬共享的姿态估计与人体解析联合学习***

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于参数硬共享的姿态估计与人体解析联合学习***。

背景技术

姿态估计与人体解析是进行人体分析的两个基本任务，是上层任务(例如行人再识别、人机交互、行为识别等)的基础。姿态估计预测出人体的姿态结构，其结果形式是人体各关键点的准确坐标。而人体解析将包含若干人的图像按照语义不同分割成多个部分(例如手臂，鞋子，头发等)，其结果形式是逐像素的分类预测。两个任务均是对人体结构进行分析，具有较强的相关性，然而由于两者结果的表示形式不同，目前已有的工作大多将他们视为孤立的两个任务，未能很好的利用两个任务之间的关联。另一方面，已有的工作大多采用“先检测再分析”的两阶段框架，该框架首先使用通用目标检测算法从图像中检测出若干个人体的响应框，再对其进行人体解析与姿态估计。人体响应框的检测引入了大量额外误差，大大降低了人体解析与姿态估计任务的准确率；检测与分析阶段会多次对原图进行特征提取，也大大降低了程序的运行效率。

发明内容

为解决现有技术存在的问题，本发明提出了一种基于参数硬共享的姿态估计与人体解析联合学习***，以提高人体解析与姿态估计任务检测的准确率和效率。

本发明提供的***分为多尺度特征提取模块、联合学习模块、人体解析分支、姿态估计分支4部分。下面介绍***各部分的具体内容：

一、多尺度特征提取模块

多尺度特征模块融合不同尺度图像特征，并输出融合后的各尺度图像特征。该模块由ResNet-101，三个1*1卷积层、两个转置卷积层和两个融合层组成。模块的输入是图像，经过ResNet-101得到三个尺度的特征图C1、C2和C3，将三个尺度的特征图分别经过一个1*1卷积层得到特征图E1、E2和E3。将E1通过转置卷积层1的结果与E2送入融合层得到融合特征图FM-1，将FM-1通过转置卷积层2的结果与E3送入融合层得到融合特征图FM-2。最终整个模块输出融合特征图FM-1，FM-2和最高层的增强特征图E1。

二、联合学习模块

联合学习模块用于进一步提取图像特征输出特征图。该模块分为多孔空间金字塔池化子模块、去局部化子模块和卷积子模块三部分。模块结构如图3所示。

(1)多孔空间金字塔池化子模块

多孔空间金字塔池化^[1]子模块提取大尺度特征，输出特征图。多孔空间金字塔池化子模块有3套独立的模块参数，输入分别是FM-1、FM-2和E1。输入同时经过四种不同采样率的空洞卷积层生成四个特征图A1、A2、A3和A4，再经过融合层将A1、A2、A3和A4的逐元素相加得到通道数为1024的特征图。三个输入分别得到特征图FM-3,FM-4,FM-5。

(2)去局部化子模块

去局部化^[2]子模块为特征图每个元素添加所有元素的信息，该子模块由3个卷积层，两个矩阵乘法层，一个融合层组成。该子模块有三套独立的参数，输入分别是FM-3,FM-4,FM-5。输入同时经过三个卷积层得到三个特征图N1、N2、N3，将N1与N2送入矩阵乘法层得到特征图M1，再将M1与N3送入矩阵乘法层得到特征图M2，最后将M2与输入特征图FM-3,FM-4,FM-5进行逐元素相加得到融合特征图。三个输入分别得到融合特征图FM-6,FM-7,FM-8。

(3)卷积子模块

卷积子模块进一步提取特征图的特征。该子模块同样有三套独立的模块参数，输入分别是FM-6,FM-7,FM-8。该子模块包含两组独立的包含四个3*3卷积层的卷积块，同时对经过非局部化处理的融合特征图进行卷积处理，卷积结果FM-9用于人体解析分支，FM-10同时用于人体解析分支与姿态估计分支。三个输入分别对应卷积结果FM-9-1、FM-10-1，FM-9-2、FM-10-2、FM-9-3、FM-10-3。

三、人体解析分支

人体解析分支包含三个子分支：中心点置信度预测子分支、中心点分类预测子分支和中心-边缘距离预测子分支。各分支都有三套独立的模块参数，输入分别是FM-9-1、FM-10-1，FM-9-2、FM-10-2，FM-9-3、FM-10-3。三个子分支均由四个堆叠的3*3卷积层构成。其中距离预测子分支仅使用FM-9作为输入，而中心点分类预测子分支和中心-边缘距离预测子分支仅使用FM-10作为输入。

每个子分支通过NMS保留三套参数对应输出的最佳结果作为该子分支输出。

中心点置信度预测子分支输出热力图，热力图每个点表示以该点作为部位中心的置信度。中心点分类预测子分支输出分类图，分类图每个点表示，若以该点为某部位中心，则此部位分类结果。中心-边缘距离预测子分支则输出距离图，距离图每个点表示若以该点为某部位中心，则此部位中心到边缘的距离。

通过三个步骤综合三个子分支的输出结果：

步骤1，输入图像中的点和距离图中的点一一对应，输入图像中的每个点利用距离预测结果得到一个以该点为中心的部位多边形。

步骤2，利用该点的分类预测和置信度预测结果，得到部位多边形的分类和分类得分。H*W大小的输入图像共可以得到H*W个部位多边形及其分类与得分。

步骤3，将输入图像中每个点所处的部位多边形分类作为该点的部位分类，如果点处于多个部位多边形中则以分类得分最高的部位多边形的分类作为此点的部位分类。最后输出一张H*W的分类图，每一个点的值代表该点的部位分类结果。

四、姿态估计分支

姿态估计分支包含两个子分支：关键点置信度预测子分支和关键点分类预测子分支。分支同样有三套独立的模块参数，输入分别是FM-10-1、FM-10-2和FM-10-3。每个子分支通过NMS保留三套参数对应输出的最佳结果作为该子分支输出。两个子分支均由四个堆叠的3*3卷积层构成。

关键点置信度预测子分支输出热力图。热力图每个点表示以该点作为人体关键点的置信度，关键点分类预测子分支输出分类图。分类图每个点表示该点的关节分类。

通过2个步骤综合2个子分支的输出结果：

步骤1，输入图像中的点和分类图中的点一一对应，通过分类预测结果得到输入图像中每个点的关节点分类。

步骤2，输入图像中的点和热力图中的点一一对应，通过热力图得到每个点的分类置信度。分到同一类别的点只保留置信度最高的点作为关节点。最后输出一张H*W的骨架图，每一个点的值是一个三元组。三元组的第一个第二个值代表该关节点的坐标，第三个值代表该关节点的分类置信度。

和现有技术相比，本发明针对目前主流的方法大多只针对姿态估计与人体解析中一个任务进行研究，没有充分利用这两个任务的相关性，以及反复提取图像特征导致姿态估计与人体解析速度慢等问题，提出了用于姿态估计与人体解析的多任务联合学习***。本发明所提***在姿态估计与人体解析任务上的表现优秀，本方法在LIP数据集上的姿态估计与人体解析人物结果表明，相比DeepLab(ResNet-101)，CPM,SHNet等基线方法，本发明姿态估计和人体解析结果准确度上有较大的提升，而相对于JPPNet方法，我们有着更快的处理速度。本方法每秒能完成10张图的人体解析与姿态估计，而JPPNet每秒仅能完成1张图的人体解析与姿态估计。

附图说明

图1：一种基于参数硬共享的人体解析与姿态估计***示意图。

图2：多尺度特征提取模块网络结构示意图。

图3：联合学习模块网络结构示意图。

图4：多孔空间金字塔池化模块网络结构示意图。

图5：去局部化模块网络结构示意图。

图6：人体解析分支与姿态估计分支网络结构示意图。

具体实施方式

下面结合附图和实施例对本发明的技术方案进行详细介绍。

图1是一种基于多任务深度学习的人体解析与姿态估计***示意图，该***包括多尺度特征提取模块、联合学习模块、人体解析分支、姿态估计分支4部分；图2是多尺度特征提取模块网络结构示意图，该模块由ResNet-101，三个1*1卷积层、两个转置卷积层和两个融合层组成；图3是联合学习模块网络结构示意图，该模块分为多孔空间金字塔池化子模块、去局部化子模块和卷积子模块三部分。图4是多孔空间金字塔池化模块网络结构示意图，多孔空间金字塔池化子模块中，四种空洞卷积层的卷积核大小分别是3*3，采样率分别是6、12、18、24。图5是去局部化模块网络结构示意图，去局部化子模块中，三个卷积层的卷积核大小分别是1*1。图6是人体解析分支与姿态估计分支网络结构示意图。

输入图像首先经过多尺度特征提取模块得到不同尺度下的图像特征，并进行跨尺度的特征融合；再将各尺度的特征分别送入联合学习模块，得到姿态估计与人体解析的联合特征；最后将姿态估计与人体解析的联合特征分别送入姿态估计分支和人体解析分支中得到姿态估计与人体解析的结果。

下面结合实验结果说明本发明的优越性：

本发明与基线方法在LIP数据集上进行姿态估计与人体解析对比试验。实验结果如表1，表2所示。

表1在LIP数据集上的姿态估计对比试验

方法	PCKh
		DeepLab(ResNet-101)	76.5
CPM	77
		SHNet	77.5
JPPNet	82.5
		Ours	78.5

表2在LIP数据集上的人体解析对比试验

本方法在LIP数据集上的姿态估计与人体解析人物结果相比DeepLab(ResNet-101)，CPM,SHNet等方法有较大的提升，而相对于JPPNet方法，我们有着更快的处理速度。本方法每秒能完成10张图的人体解析与姿态估计，而JPPNet每秒仅能完成1张图的人体解析与姿态估计。以上实验表明了本方法的有效性。

参考文献：

[1]Chen Liang-Chieh,et al."Rethinking atrous convolution for semanticimage segmentation."arXiv preprint arXiv:1706.05587(2017).

[2]Wang Xiaolong,et al."Non-local neural networks."Proceedings of theIEEE conference on computer vision and pattern recognition.2018。

Claims

1.一种基于参数硬共享的姿态估计与人体解析联合学习***，其特征在于，其包括多尺度特征提取模块、联合学习模块、人体解析分支和姿态估计分支四个部分；其中：

（1）多尺度提取模块，用于融合不同尺度图像特征，并输出融合后的各尺度图像特征；

该模块由ResNet-101网络，三个1*1卷积层、两个转置卷积层和两个融合层组成，模块的输入是图像，经过ResNet-101网络得到三个尺度的特征图C1、C2和C3，将三个尺度的特征图分别经过一个1*1卷积层得到特征图E1、E2和E3，将特征图E1通过一个转置卷积层的结果与E2送入融合层得到融合特征图FM-1，将融合特征图FM-1通过另一个转置卷积层的结果与E3送入融合层得到融合特征图FM-2，最终整个模块输出融合特征图FM-1，FM-2和最高层的增强特征图E1；

（2）联合学习模块，用于进一步提取图像特征，输出姿态估计与人体解析的联合特征；

该模块分为多孔空间金字塔池化子模块、去局部化子模块和卷积子模块三部分；

多孔空间金字塔池化子模块提取大尺度特征，输出特征图，多孔空间金字塔池化子模块有3套独立的模块参数，输入分别是FM-1、FM-2和E1，输入同时经过四种不同采样率的空洞卷积层生成四个特征图A1、A2、A3和A4，再经过融合层将A1、A2、A3和A4的逐元素相加得到通道数为1024的特征图，三个输入分别得到特征图FM-3，FM-4，FM-5；

去局部化子模块为特征图每个元素添加所有元素的信息，该子模块由三个卷积层，两个矩阵乘法层，一个融合层组成；该子模块有三套独立的参数，输入分别是FM-3，FM-4，FM-5，输入同时经过三个卷积层得到三个特征图N1、N2、N3，将N1与N2送入一个矩阵乘法层得到特征图M1，再将M1与N3送入另一个矩阵乘法层得到特征图M2，最后将M2与输入特征图FM-3或FM-4或FM-5进行逐元素相加得到融合特征图，三个输入分别得到融合特征图FM-6，FM-7，FM-8；

卷积子模块进一步提取特征图的特征，该子模块同样有三套独立的模块参数，输入分别是FM-6，FM-7，FM-8；该子模块包含两组独立的包含四个3*3卷积层的卷积块，同时对经过非局部化处理的融合特征图进行卷积处理，卷积结果FM-9用于人体解析分支，FM-10同时用于人体解析分支与姿态估计分支，三个输入分别对应卷积结果FM-9-1、FM-10-1，FM-9-2、FM-10-2、FM-9-3、FM-10-3；

（3）人体解析分支，基于姿态估计与人体解析的联合特征得到人体解析的结果；

人体解析分支包含三个子分支：中心点置信度预测子分支、中心点分类预测子分支和中心-边缘距离预测子分支；各子分支都有三套独立的模块参数，输入分别是FM-9-1、FM-10-1，FM-9-2、FM-10-2，FM-9-3、FM-10-3；三个子分支均由四个堆叠的3*3卷积层构成，其中距离预测子分支仅使用FM-9作为输入，而中心点分类预测子分支和中心-边缘距离预测子分支仅使用FM-10作为输入；每个子分支通过非极大值抑制NMS保留三套参数对应输出的最佳结果作为该子分支输出；

中心点置信度预测子分支输出热力图，热力图每个点表示以该点作为部位中心的置信度；中心点分类预测子分支输出分类图，分类图每个点表示，若以该点为某部位中心，则此部位分类结果；中心-边缘距离预测子分支则输出距离图，距离图每个点表示若以该点为某部位中心，则此部位中心到边缘的距离；

通过三个步骤综合三个子分支的输出结果：

步骤1，输入图像中的点和距离图中的点一一对应，输入图像中的每个点利用距离预测结果得到一个以该点为中心的部位多边形；

步骤2，利用该点的分类预测和置信度预测结果，得到部位多边形的分类和分类得分，H*W大小的输入图像共得到H*W个部位多边形及其分类与得分，H，W分别代表输入图像的宽和高；

步骤3，将输入图像中每个点所处的部位多边形分类作为该点的部位分类，如果点处于多个部位多边形中则以分类得分最高的部位多边形的分类作为此点的部位分类，最后输出一张H*W的分类图，每一个点的值代表该点的部位分类结果；

（4）姿态估计分支，基于姿态估计与人体解析的联合特征得到姿态估计的结果；其中：

姿态估计分支包含两个子分支：关键点置信度预测子分支和关键点分类预测子分支；每个子分支同样有三套独立的模块参数，输入分别是FM-10-1、FM-10-2和FM-10-3，每个子分支通过非极大值抑制NMS保留三套参数对应输出的最佳结果作为该子分支输出，两个子分支均由四个堆叠的3*3卷积层构成；

关键点置信度预测子分支输出热力图，热力图每个点表示以该点作为人体关键点的置信度，关键点分类预测子分支输出分类图，分类图每个点表示该点的关节分类；

通过2个步骤综合2个子分支的输出结果：

步骤1，输入图像中的点和分类图中的点一一对应，通过分类预测结果得到输入图像中每个点的关节点分类；

步骤2，输入图像中的点和热力图中的点一一对应，通过热力图得到每个点的分类置信度，分到同一类别的点只保留置信度最高的点作为关节点，最后输出一张H*W的骨架图，H，W分别代表原始图像的宽和高，每一个点的值是一个三元组，三元组的第一个第二个

值代表该关节点的坐标，第三个值代表该关节点的分类置信度。

2.根据权利要求1所述的基于参数硬共享的姿态估计与人体解析联合学习***，其特征在于，多孔空间金字塔池化子模块中，四种空洞卷积层的卷积核大小分别是3*3，采样率分别是6、12、18、24。

3.根据权利要求1所述的基于参数硬共享的姿态估计与人体解析联合学习***，其特征在于，去局部化子模块中，三个卷积层的卷积核大小分别是1*1。