CN111275694B

CN111275694B - 一种注意力机制引导的递进式划分人体解析***及方法

Info

Publication number: CN111275694B
Application number: CN202010081219.4A
Authority: CN
Inventors: 邵杰; 黄茜; 曹坤涛; 徐行
Original assignee: Research Institute Of Yibin University Of Electronic Science And Technology; University of Electronic Science and Technology of China
Current assignee: Research Institute Of Yibin University Of Electronic Science And Technology; University of Electronic Science and Technology of China
Priority date: 2020-02-06
Filing date: 2020-02-06
Publication date: 2020-10-23
Anticipated expiration: 2040-02-06
Also published as: CN111275694A

Abstract

本发明公开了一种注意力机制引导的递进式划分人体解析***及方法，提出的***着重探索了显著性检测对于人体解析的增强作用，以及注意力机制对于人体解析的有效性。在网络结构上，构建了一个特征提取模块，有效提取特征信息，并融合多维度特征，增强了人体解析的效果；设计了适应性注意力模块，为特征进行位置注意力加权，并提供了融合不同水平特征的有效融合思路；最后以由底至上的方式整合了显著性检测和人体解析到一个端到端的网络结构中，并在各分支应用上述模块，获得了统一化的有效结构。性能超越了目前已知的方法，展现了最优人体解析效果。

Description

一种注意力机制引导的递进式划分人体解析***及方法

技术领域

本发明属于图像处理领域，具体涉及一种注意力机制引导的递进式划分人体解析***及方法。

背景技术

理解人体结构是计算机视觉中一个至关重要但具有挑战性的课题，而人体解析是实现这一目标的任务之一。人体解析是一个密集预测任务，其旨在精确定位人体并将其进一步划分为像素级的多个语义区域。近几年，人体解析被广泛应用于其他同样针对于分析人体的任务，比如行人再识别、姿态估计、人体图像生成。

在近期工作中，研究人员们提出了各种方法来提升人体解析网络的表现力。其中，一种典型的方法是利用其他相关任务提供的额外域信息。例如，一些工作(Fangting Xia,Peng Wang,Xianjie Chen and Alan L.Yuille.Joint Multi-person pose estimationand semantic part segmentation[C].CVPR,2017:6080—6089.和XuechengNie,JiashiFeng and Shuicheng Yan.Mutual learning to adapt for joint human parsingand pose estimation[C].ECCV,2018:519--534)通过添加关节结构损失或者动态更新从姿势估计任务中学到的模型约束来研究姿态结构对人体解析的引导性。另有一些工作(KeGong,Xiaodan Liang,Yicheng Li,Yimin Chen,Ming Yang,Liang Lin.Instance-levelhuman parsing via part grouping network[C].ECCV,2018:805--822.和Tao Ruan,TingLiu,Zilong Huang,Yunchao Wei,Shikui Wei,Yao Zhao.Devil in the Details:TowardsAccurate Single and Multiple Human Parsing[C].AAAI,2019:4814-4821)提出在一个统一的网络中融合边缘特征。尽管这些信息融合带来了令人满意的改进，但由于不一致的优化目标使得在同一网络中训练多个任务可能存在不兼容性，这在一定程度上减弱了整体结构的预测能力。

在以前的工作中(Ke Gong,Xiaodan Liang,Dongyu Zhang,XiaohuiShen andLiang Lin.Look into Person:Self-Supervised Structure-Sensitive Learning and aNew Benchmark for Human Parsing[C].CVPR,2017:6757--6765.和Xiaodan Liang,KeGong,XiaohuiShen and Liang Lin.Look into Person:Joint Body Parsing&PoseEstimation Networkand a New Benchmark[J].TPAMI,2019:41(4)871--885)，运用注意力机制的方法并未探索针对人体解析任务的适应性注意力模块，只是简单沿用了通用语义分割的一些注意力模块，因此不能很好地提炼细致的人体部位。

发明内容

针对现有技术中的上述不足，本发明提供的一种注意力机制引导的递进式划分人体解析***及方法解决了现有技术不能较为准确地进行人体部位预测和解析以及显著性分析的问题。

为了达到上述发明目的，本发明采用的技术方案为：

一种注意力机制引导的递进式划分人体解析***，包括：残差神经网络ResNet-101、显著性检测子***和人体解析子***；

所述残差神经网络ResNet-101为结构型神经网络，用于处理人体图像，得到浅层低水平特征图和深层高水平特征图；其输出块Block1和输出块Block2与显著性检测子***通信连接，用于将浅层低水平特征图输入到显著性检测子***；其输出块Block3和输出块Block4与人体解析子***通信连接，用于将深层高水平特征图输入到人体解析子***；

所述显著性检测子***用于对浅层低水平特征图进行显著性预测，得到二分类显著性预测图；

所述人体解析子***用于对深层高水平特征图进行人体解析预测，得到人体解析预测图。

进一步地，所述显著性检测子***包括：卷积层Conv1、卷积层Conv2、卷积层Conv3、卷积层Conv4、适应性注意力模块GAM1、上采样模块1和上采样模块2；

所述卷积层Conv1为1×1卷积层，用于对残差神经网络ResNet-101的输出块Block1传递的浅层低水平特征图进行降维处理，其输入端与残差神经网络ResNet-101的输出块Block1通信连接，其输出端与适应性注意力模块GAM1的输入端A通信连接；

所述卷积层Conv2为1×1卷积层，用于对残差神经网络ResNet-101的输出块Block2传递的浅层低水平特征图进行降维处理，其输入端与残差神经网络ResNet-101的输出块Block2通信连接，其输出端与上采样模块1的输入端通信连接；

所述上采样模块1用于对残差神经网络ResNet-101的输出块Block2传递的浅层低水平特征图在降维处理后的图像数据进行上采样处理，其输出端与适应性注意力模块GAM1的输入端B通信连接；

所述适应性注意力模块GAM1用于提取注意力特征，其输出端与卷积层Conv3通信连接，并与人体解析子***通信连接用于特征增强；

所述卷积层Conv3、卷积层Conv4和上采样模块2用于处理适应性注意力模块GAM1提取得到的注意力特征，得到二分类显著性预测图；所述卷积层Conv3为3×3卷积层，其输出端与卷积层Conv4的输入端通信连接；所述卷积层Conv4为1×1卷积层，其输出端与上采样模块2的输入端通信连接；所述上采样模块2的输出端作为显著性检测子***的处理结果输出端口，输出该***运算得到的二分类显著性预测图。

进一步地，所述人体解析子***包括：特征提取模块FEM1、特征提取模块FEM2、适应性注意力模块GAM2、上采样模块3、上采样模块4、加法模块1、卷积层Conv5和卷积层Conv6；

所述特征提取模块FEM1用于对残差神经网络ResNet-101的输出块Block3传递的深层高水平特征图进行多维度特征提取，得到多维度上下文信息，其输入端与残差神经网络ResNet-101的输出块Block3通信连接，其输出端与适应性注意力模块GAM2的输入端A通信连接；

所述特征提取模块FEM2用于对残差神经网络ResNet-101的输出块Block4传递的深层高水平特征图进行多维度特征提取，得到多维度上下文信息，其输入端与残差神经网络ResNet-101的输出块Block4通信连接，其输出端与适应性注意力模块GAM2的输入端B通信连接；

所述适应性注意力模块GAM2用于处理多维度上下文信息，得到有效加权特征，其输出端与上采样模块3的输入端通信连接；

所述上采样模块3用于对有效加权特征进行上采样处理，其输出端与加法模块1的输入端A通信连接；

所述加法模块1用于对适应性注意力模块GAM1提取到的注意力特征和适应性注意力模块GAM2得到的有效加权特征按元素进行加操作，以融合适应性注意力模块GAM1和适应性注意力模块GAM2提供的特征图，突出目标区域并提升类之间的紧凑性；其输入端B与适应性注意力模块GAM1的输出端通信连接，其输出端与卷积层Conv5的输入端通信连接；

所述卷积层Conv5、卷积层Conv6和上采样模块4用于处理加法模块1按元素相加得到的注意力特征，得到人体解析预测图；所述卷积层Conv5为3×3卷积层，其输出端与卷积层Conv6的输入端通信连接；所述卷积层Conv6为1×1卷积层，其输出端与上采样模块4的输入端通信连接；所述上采样模块4的输出端作为人体解析子***的处理结果输出端口，输出该***运算得到的人体解析预测图。

进一步地，所述特征提取模块FEM1和特征提取模块FEM2均包括：卷积层Conv11、卷积层Conv12、卷积层Conv13、卷积层Conv14、卷积层Conv15、卷积层Conv16、卷积层Conv17和加法模块11；

所述卷积层Conv11的输入端与卷积层Conv12的输入端、卷积层Conv13输入端以及卷积层Conv14的输入端通信连接，并作为特征提取模块FEM1的输入端和特征提取模块FEM2的输入端；所述卷积层Conv11的输出端与卷积层Conv15的输入端通信连接；所述卷积层Conv12的输出端与卷积层Conv16的输入端通信连接；所述卷积层Conv13的输出端与卷积层Conv17的输入端通信连接；所述卷积层Conv14的输出端与加法模块11的输入端A通信连接，所述卷积层Conv15的输出端与加法模块11的输入端B通信连接，所述卷积层Conv16的输出端与加法模块11的输入端C通信连接，所述卷积层Conv17的输出端与加法模块11的输入端D通信连接；所述加法模块11的输出端作为特征提取模块FEM1的输出端和特征提取模块FEM2的输出端；

所述卷积层Conv11为3×3空洞卷积层，其空洞卷积率为3；

所述卷积层Conv12为3×3空洞卷积层，其空洞卷积率为8；

所述卷积层Conv13为3×3空洞卷积层，其空洞卷积率为12；

所述卷积层Conv14、卷积层Conv15、卷积层Conv16、卷积层Conv17均为1×1卷积层。

进一步地，所述适应性注意力模块GAM1和适应性注意力模块GAM2均包括：卷积层Conv21、卷积层Conv22、全局均值池化层21、全局均值池化层22、加法模块21、Softmax层和乘法模块21；

所述卷积层Conv21为1×1卷积层，其输入端作为适应性注意力模块GAM1的输入端A和适应性注意力模块GAM2的输入端A，其输出端与全局均值池化层21的输入端通信连接；

所述卷积层Conv22为1×1卷积层，其输入端作为适应性注意力模块GAM1的输入端B和适应性注意力模块GAM2的输入端B，其输出端与全局均值池化层22的输入端通信连接；

所述全局池化层21的输出端与加法模块21的输入端A通信连接，所述全局均值池化层22的输出端与加法模块21的输入端B通信连接；

所述加法模块21的输出端与Softmax层的输入端通信连接；

所述Softmax层的输出端与乘法模块21的输入端通信连接；

所述乘法模块21的输出端作为适应性注意力模块GAM1的输出端和适应性注意力模块GAM2的输出端。

该适应性注意力模块着重于选择性地提取位置信息，并融合不同水平的加权注意力特征以实现相互的信息融合。记适应性注意力模块的输入数据为特征

其中，C、H、W分别表示特征通道数、高度和宽度，i表示第i个操作。该注意力模块的输入是两个不同水平的特征图A和B，分别被表示为

和

特征

和

分别经历卷积层Conv21和卷积层Conv22后，将通道数减少至C/2；

新获得的特征

和

由全局均值池化层21和全局均值池化层22进一步被减少通道数，该处理流程可表述为如下表达式：

和

两个不同水平的特征图A和B经过上述处理之后，通过加法模块21实现按元素加的操作完成融合，这样做是为了保留更多残余的注意力权值信息。然后，令其通过归一化操作以使得权值在(0，1)之间，该操作通过Softmax层实现。

如公式

所示；

最后，连接原来的特征

和

作为S∈R^2C×H×W，将其与上一操作得到的权值进行按元素乘操作，以获得最终的加权特征图，如

所示。

一种注意力机制引导的递进式划分人体解析方法，包括以下步骤：

S1、从大数据平台中获取已知对应的二分类显著性预测图和人体解析预测图的人体图像，构成训练数据集和测试数据集；

S2、通过训练数据集训练注意力机制引导的递进式划分人体解析***，得到训练完成的注意力机制引导的递进式划分人体解析***；

S3、通过测试数据集对训练完成的注意力机制引导的递进式划分人体解析***进行验证，得到验证完成的注意力机制引导的递进式划分人体解析***；

S4、通过验证完成的注意力机制引导的递进式划分人体解析***对人体图像进行预测和解析，得到与人体图像相应的二分类显著性预测图和人体解析预测图。

进一步地，所述步骤S2包括以下步骤：

S21、对训练数据集进行预处理；

S22、设定注意力机制引导的递进式划分人体解析***的初始参数和训练规则；

S23、通过反向传播法，根据预处理后的训练数据集，对注意力机制引导的递进式划分人体解析***内的各模块进行参数迭代。

进一步地，所述步骤S21包括以下内容：对训练数据集中的数据采用0.5～1.5的随机比例缩放处理以及对训练数据集中的数据进行裁剪和左右翻转的操作。

进一步地，所述步骤S22中的初始参数和训练规则包括以下表达式：

L_APPNet＝L_parsing+αL_sailency (2)

α＝1 (3)

power＝0.9 (4)

base_lr＝0.007 (5)

其中，式1为学***衡分割损失和显著性损失的比例参数。

本发明的有益效果为：本发明提出的***着重探索了显著性检测对于人体解析的增强作用，以及注意力机制对于人体解析的有效性。在网络结构上，构建了一个特征提取模块，有效提取特征信息，并融合多维度特征，增强了人体解析的效果；设计了适应性注意力模块，为特征进行位置注意力加权，并提供了融合不同水平特征的有效融合思路；最后以由底至上的方式整合了显著性检测和人体解析到一个端到端的网络结构中，并在各分支应用上述模块，获得了统一化的有效结构。性能超越了目前已知的方法，展现了最优人体解析效果。

附图说明

图1为一种注意力机制引导的递进式划分人体解析***结构框图；

图2为特征提取模块结构框图；

图3为适应性注意力模块结构框图；

图4为一种注意力机制引导的递进式划分人体解析方法流程示意图；

图5为实验效果图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示：一种注意力机制引导的递进式划分人体解析***，包括：残差神经网络ResNet-101、显著性检测子***和人体解析子***；

所述显著性检测子***包括：卷积层Conv1、卷积层Conv2、卷积层Conv3、卷积层Conv4、适应性注意力模块GAM1、上采样模块1和上采样模块2；

所述人体解析子***包括：特征提取模块FEM1、特征提取模块FEM2、适应性注意力模块GAM2、上采样模块3、上采样模块4、加法模块1、卷积层Conv5和卷积层Conv6；

如图2所示：所述特征提取模块FEM1和特征提取模块FEM2均包括：卷积层Conv11、卷积层Conv12、卷积层Conv13、卷积层Conv14、卷积层Conv15、卷积层Conv16、卷积层Conv17和加法模块11；

所述卷积层Conv11为3×3空洞卷积层，其空洞卷积率为3；

所述卷积层Conv12为3×3空洞卷积层，其空洞卷积率为8；

所述卷积层Conv13为3×3空洞卷积层，其空洞卷积率为12；

如图3所示：所述适应性注意力模块GAM1和适应性注意力模块GAM2均包括：卷积层Conv21、卷积层Conv22、全局均值池化层21、全局均值池化层22、加法模块21、Softmax层和乘法模块21；

所述加法模块21的输出端与Softmax层的输入端通信连接；

所述Softmax层的输出端与乘法模块21的输入端通信连接；

和

特征

和

分别经历卷积层Conv21和卷积层Conv22后，将通道数减少至C/2；

新获得的特征

和

和

两个不同水平的特征图A和B经过上述处理之后，通过加法模块21实现按元素加的操作完成融合，这样做是为了保留更多残余的注意力权值信息。然后，令其通过归一化操作以使得权值在(0，1)之间，该操作通过归一化模块Softmax实现。如公式

最后，连接原来的特征

和

所示。

如图4所示：一种注意力机制引导的递进式划分人体解析方法，包括以下步骤：

在本实施例中，选取了三个主流人体解析数据集进行实验，包括LIP、CIHP、PPSS。

LIP是目前数量最大的一个人体解析数据集，共包含50462张图片，其中30462张用于训练，10000张用于验证，剩下的10000张用于测试。该数据集共包含20个类别，大多数图片只包含单个人体。

CIHP是一个应对实例人体解析的数据集，每张图片均包含多个实例，相对于现有的主流数据集，其图片更具复杂性和挑战性。该数据集共包含38280张图片，其中28280张图片用于训练，测试集和验证集分别包含5000张，类别分类为20。

PPSS是一个小型的人体解析数据集，主要由行人图片组成，具有真实场景的复杂性。该数据集从171个视频序列中收集而成，共包含3673张图片。其中，训练集由前100个序列组成，测试集由后71个序列组成。该数据集共包含8个类别。

选择以上三个数据集是为了验证***对于不同类型数据集的适应性和鲁棒性，LIP和CIHP均包含20个分类，属于复杂的多分类解析问题。同时，CIHP包含多个实例，增加了解析难度。另外，PPSS是一个分类数较少的数据集，且主要由行人图片组成，具有与前两个数据集不同的图片风格，可用于检测***的鲁棒性。

所述步骤S2包括以下步骤：

S21、对训练数据集进行预处理；

所述步骤S21包括以下内容：对训练数据集中的数据采用0.5～1.5的随机比例缩放处理以及对训练数据集中的数据进行裁剪和左右翻转的操作。其中，对于训练数据集中的显著性标注图是通过统一化标注图片中非背景类像素获得，最后以“0”标识背景类，以“1”标识边缘。

所述步骤S22中的初始参数和训练规则包括以下表达式：

L_APPNet＝L_parsing+αL_sailency (2)

α＝1 (3)

power＝0.9 (4)

base_lr＝0.007 (5)

其中，式1为学***衡分割损失和显著性损失的比例参数。

在本实施例的训练过程中，由于LIP、CIHP、PPSS三个平台的数据存在差异，故采用了不同的图片输入尺寸。对于LIP，输入尺寸为473×473；对于CIHP，采用的输入尺寸是512×512；对于PPSS，输入尺寸为256×256。三个数据集分类情况也具有差异，LIP和CIHP类别数目K设置为20，PPSS类别数目K为8。

本发明提出的***在上述步骤中提到的三个数据集上均进行了训练、验证。在验证过程中，不需要生成边缘标注图。所有实验均以均交并比mIoU作为评价标准，其公式为

其中，k+1表示数据集类别总数(相当于类别数目K)，p_ij表示类i被识别为类j的像素总数，p_ji表示类j被识别为类i的像素总数，p_ii表示识别正确的像素总数。实验结果显示，***在LIP、CIHP、PPSS上实现的mIoU分别为54.08％、59.88％、60.2％。在三个数据集上的表现力均超越了已有的方法。这证明了本发明提出的***在解决实际场景人体解析上具有有效性、鲁棒性以及普遍性。如图5，展示了本发明提出的人体解析***生成的人体分割图的效果对比。在验证过程中，为了证明本发明提出的特征提取模块以及注意力模块的有效性，在LIP数据集上进行了原***剔除上述模块的一系列实验，具体实验结果如下表所示，其中，GAM1表示用于显著性检测子***中的注意力模块，GAM2表示用于人体解析子***中的注意力模块。与原***生成的分割图对比也展示在图5中，其中，CE2P是论文(Tao Ruan,Ting Liu,Zilong Huang,Yunchao Wei,Shikui Wei,Yao Zhao.Devil in the Details:Towards Accurate Single and Multiple HumanParsing[C].AAAI,2019:4814-4821)提供的方法。对比说明，本发明提出的两个模块均具有突出的增强效果和应用价值。

表1各论文中所述方法与本发明的mIoU性能对比表

Claims

1.一种注意力机制引导的递进式划分人体解析***，其特征在于，包括：残差神经网络ResNet-101、显著性检测子***和人体解析子***；

所述卷积层Conv3、卷积层Conv4和上采样模块2用于处理适应性注意力模块GAM1提取得到的注意力特征，得到二分类显著性预测图；所述卷积层Conv3为3×3卷积层，其输出端与卷积层Conv4的输入端通信连接；所述卷积层Conv4为1×1卷积层，其输出端与上采样模块2的输入端通信连接；所述上采样模块2的输出端作为显著性检测子***的处理结果输出端口，输出该***运算得到的二分类显著性预测图；所述人体解析子***用于对深层高水平特征图进行人体解析预测，得到人体解析预测图；

所述卷积层Conv5、卷积层Conv6和上采样模块4用于处理加法模块1按元素相加得到的注意力特征，得到人体解析预测图；所述卷积层Conv5为3×3卷积层，其输出端与卷积层Conv6的输入端通信连接；所述卷积层Conv6为1×1卷积层，其输出端与上采样模块4的输入端通信连接；所述上采样模块4的输出端作为人体解析子***的处理结果输出端口，输出该子***运算得到的人体解析预测图。

2.根据权利要求1所述的注意力机制引导的递进式划分人体解析***，其特征在于，所述特征提取模块FEM1和特征提取模块FEM2均包括：卷积层Conv11、卷积层Conv12、卷积层Conv13、卷积层Conv14、卷积层Conv15、卷积层Conv16、卷积层Conv17和加法模块11；

所述卷积层Conv11为3×3空洞卷积层，其空洞卷积率为3；

所述卷积层Conv12为3×3空洞卷积层，其空洞卷积率为8；

所述卷积层Conv13为3×3空洞卷积层，其空洞卷积率为12；

3.根据权利要求1所述的注意力机制引导的递进式划分人体解析***，其特征在于，所述适应性注意力模块GAM1和适应性注意力模块GAM2均包括：卷积层Conv21、卷积层Conv22、全局均值池化层21、全局均值池化层22、加法模块21、Softmax层和乘法模块21；

所述全局均值池化层21的输出端与加法模块21的输入端A通信连接，所述全局均值池化层22的输出端与加法模块21的输入端B通信连接；

所述加法模块21的输出端与Softmax层的输入端通信连接；

所述Softmax层的输出端与乘法模块21的输入端通信连接；

4.一种注意力机制引导的递进式划分人体解析方法，其特征在于，包括以下步骤：

5.根据权利要求4所述的注意力机制引导的递进式划分人体解析方法，其特征在于，所述步骤S2包括以下步骤：

S21、对训练数据集进行预处理；

6.根据权利要求5所述的注意力机制引导的递进式划分人体解析方法，其特征在于，所述步骤S21包括以下内容：对训练数据集中的数据采用0.5～1.5的随机比例缩放处理以及对训练数据集中的数据进行裁剪和左右翻转的操作。

7.根据权利要求5所述的注意力机制引导的递进式划分人体解析方法，其特征在于，所述步骤S22中的初始参数和训练规则包括以下表达式：

L_APPNet＝L_parsing+αL_sailency(2)

α＝1(3)

power＝0.9(4)

base_lr＝0.007(5)

其中，式(1)为学***衡分割损失和显著性损失的比例参数。