CN111275694B - 一种注意力机制引导的递进式划分人体解析***及方法 - Google Patents

一种注意力机制引导的递进式划分人体解析***及方法 Download PDF

Info

Publication number
CN111275694B
CN111275694B CN202010081219.4A CN202010081219A CN111275694B CN 111275694 B CN111275694 B CN 111275694B CN 202010081219 A CN202010081219 A CN 202010081219A CN 111275694 B CN111275694 B CN 111275694B
Authority
CN
China
Prior art keywords
module
convolutional layer
human body
output
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202010081219.4A
Other languages
English (en)
Other versions
CN111275694A (zh
Inventor
邵杰
黄茜
曹坤涛
徐行
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Research Institute Of Yibin University Of Electronic Science And Technology
University of Electronic Science and Technology of China
Original Assignee
Research Institute Of Yibin University Of Electronic Science And Technology
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Research Institute Of Yibin University Of Electronic Science And Technology, University of Electronic Science and Technology of China filed Critical Research Institute Of Yibin University Of Electronic Science And Technology
Priority to CN202010081219.4A priority Critical patent/CN111275694B/zh
Publication of CN111275694A publication Critical patent/CN111275694A/zh
Application granted granted Critical
Publication of CN111275694B publication Critical patent/CN111275694B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种注意力机制引导的递进式划分人体解析***及方法,提出的***着重探索了显著性检测对于人体解析的增强作用,以及注意力机制对于人体解析的有效性。在网络结构上,构建了一个特征提取模块,有效提取特征信息,并融合多维度特征,增强了人体解析的效果;设计了适应性注意力模块,为特征进行位置注意力加权,并提供了融合不同水平特征的有效融合思路;最后以由底至上的方式整合了显著性检测和人体解析到一个端到端的网络结构中,并在各分支应用上述模块,获得了统一化的有效结构。性能超越了目前已知的方法,展现了最优人体解析效果。

Description

一种注意力机制引导的递进式划分人体解析***及方法
技术领域
本发明属于图像处理领域,具体涉及一种注意力机制引导的递进式划分人体解析***及方法。
背景技术
理解人体结构是计算机视觉中一个至关重要但具有挑战性的课题,而人体解析是实现这一目标的任务之一。人体解析是一个密集预测任务,其旨在精确定位人体并将其进一步划分为像素级的多个语义区域。近几年,人体解析被广泛应用于其他同样针对于分析人体的任务,比如行人再识别、姿态估计、人体图像生成。
在近期工作中,研究人员们提出了各种方法来提升人体解析网络的表现力。其中,一种典型的方法是利用其他相关任务提供的额外域信息。例如,一些工作(Fangting Xia,Peng Wang,Xianjie Chen and Alan L.Yuille.Joint Multi-person pose estimationand semantic part segmentation[C].CVPR,2017:6080—6089.和XuechengNie,JiashiFeng and Shuicheng Yan.Mutual learning to adapt for joint human parsingand pose estimation[C].ECCV,2018:519--534)通过添加关节结构损失或者动态更新从姿势估计任务中学到的模型约束来研究姿态结构对人体解析的引导性。另有一些工作(KeGong,Xiaodan Liang,Yicheng Li,Yimin Chen,Ming Yang,Liang Lin.Instance-levelhuman parsing via part grouping network[C].ECCV,2018:805--822.和Tao Ruan,TingLiu,Zilong Huang,Yunchao Wei,Shikui Wei,Yao Zhao.Devil in the Details:TowardsAccurate Single and Multiple Human Parsing[C].AAAI,2019:4814-4821)提出在一个统一的网络中融合边缘特征。尽管这些信息融合带来了令人满意的改进,但由于不一致的优化目标使得在同一网络中训练多个任务可能存在不兼容性,这在一定程度上减弱了整体结构的预测能力。
在以前的工作中(Ke Gong,Xiaodan Liang,Dongyu Zhang,XiaohuiShen andLiang Lin.Look into Person:Self-Supervised Structure-Sensitive Learning and aNew Benchmark for Human Parsing[C].CVPR,2017:6757--6765.和Xiaodan Liang,KeGong,XiaohuiShen and Liang Lin.Look into Person:Joint Body Parsing&PoseEstimation Networkand a New Benchmark[J].TPAMI,2019:41(4)871--885),运用注意力机制的方法并未探索针对人体解析任务的适应性注意力模块,只是简单沿用了通用语义分割的一些注意力模块,因此不能很好地提炼细致的人体部位。
发明内容
针对现有技术中的上述不足,本发明提供的一种注意力机制引导的递进式划分人体解析***及方法解决了现有技术不能较为准确地进行人体部位预测和解析以及显著性分析的问题。
为了达到上述发明目的,本发明采用的技术方案为:
一种注意力机制引导的递进式划分人体解析***,包括:残差神经网络ResNet-101、显著性检测子***和人体解析子***;
所述残差神经网络ResNet-101为结构型神经网络,用于处理人体图像,得到浅层低水平特征图和深层高水平特征图;其输出块Block1和输出块Block2与显著性检测子***通信连接,用于将浅层低水平特征图输入到显著性检测子***;其输出块Block3和输出块Block4与人体解析子***通信连接,用于将深层高水平特征图输入到人体解析子***;
所述显著性检测子***用于对浅层低水平特征图进行显著性预测,得到二分类显著性预测图;
所述人体解析子***用于对深层高水平特征图进行人体解析预测,得到人体解析预测图。
进一步地,所述显著性检测子***包括:卷积层Conv1、卷积层Conv2、卷积层Conv3、卷积层Conv4、适应性注意力模块GAM1、上采样模块1和上采样模块2;
所述卷积层Conv1为1×1卷积层,用于对残差神经网络ResNet-101的输出块Block1传递的浅层低水平特征图进行降维处理,其输入端与残差神经网络ResNet-101的输出块Block1通信连接,其输出端与适应性注意力模块GAM1的输入端A通信连接;
所述卷积层Conv2为1×1卷积层,用于对残差神经网络ResNet-101的输出块Block2传递的浅层低水平特征图进行降维处理,其输入端与残差神经网络ResNet-101的输出块Block2通信连接,其输出端与上采样模块1的输入端通信连接;
所述上采样模块1用于对残差神经网络ResNet-101的输出块Block2传递的浅层低水平特征图在降维处理后的图像数据进行上采样处理,其输出端与适应性注意力模块GAM1的输入端B通信连接;
所述适应性注意力模块GAM1用于提取注意力特征,其输出端与卷积层Conv3通信连接,并与人体解析子***通信连接用于特征增强;
所述卷积层Conv3、卷积层Conv4和上采样模块2用于处理适应性注意力模块GAM1提取得到的注意力特征,得到二分类显著性预测图;所述卷积层Conv3为3×3卷积层,其输出端与卷积层Conv4的输入端通信连接;所述卷积层Conv4为1×1卷积层,其输出端与上采样模块2的输入端通信连接;所述上采样模块2的输出端作为显著性检测子***的处理结果输出端口,输出该***运算得到的二分类显著性预测图。
进一步地,所述人体解析子***包括:特征提取模块FEM1、特征提取模块FEM2、适应性注意力模块GAM2、上采样模块3、上采样模块4、加法模块1、卷积层Conv5和卷积层Conv6;
所述特征提取模块FEM1用于对残差神经网络ResNet-101的输出块Block3传递的深层高水平特征图进行多维度特征提取,得到多维度上下文信息,其输入端与残差神经网络ResNet-101的输出块Block3通信连接,其输出端与适应性注意力模块GAM2的输入端A通信连接;
所述特征提取模块FEM2用于对残差神经网络ResNet-101的输出块Block4传递的深层高水平特征图进行多维度特征提取,得到多维度上下文信息,其输入端与残差神经网络ResNet-101的输出块Block4通信连接,其输出端与适应性注意力模块GAM2的输入端B通信连接;
所述适应性注意力模块GAM2用于处理多维度上下文信息,得到有效加权特征,其输出端与上采样模块3的输入端通信连接;
所述上采样模块3用于对有效加权特征进行上采样处理,其输出端与加法模块1的输入端A通信连接;
所述加法模块1用于对适应性注意力模块GAM1提取到的注意力特征和适应性注意力模块GAM2得到的有效加权特征按元素进行加操作,以融合适应性注意力模块GAM1和适应性注意力模块GAM2提供的特征图,突出目标区域并提升类之间的紧凑性;其输入端B与适应性注意力模块GAM1的输出端通信连接,其输出端与卷积层Conv5的输入端通信连接;
所述卷积层Conv5、卷积层Conv6和上采样模块4用于处理加法模块1按元素相加得到的注意力特征,得到人体解析预测图;所述卷积层Conv5为3×3卷积层,其输出端与卷积层Conv6的输入端通信连接;所述卷积层Conv6为1×1卷积层,其输出端与上采样模块4的输入端通信连接;所述上采样模块4的输出端作为人体解析子***的处理结果输出端口,输出该***运算得到的人体解析预测图。
进一步地,所述特征提取模块FEM1和特征提取模块FEM2均包括:卷积层Conv11、卷积层Conv12、卷积层Conv13、卷积层Conv14、卷积层Conv15、卷积层Conv16、卷积层Conv17和加法模块11;
所述卷积层Conv11的输入端与卷积层Conv12的输入端、卷积层Conv13输入端以及卷积层Conv14的输入端通信连接,并作为特征提取模块FEM1的输入端和特征提取模块FEM2的输入端;所述卷积层Conv11的输出端与卷积层Conv15的输入端通信连接;所述卷积层Conv12的输出端与卷积层Conv16的输入端通信连接;所述卷积层Conv13的输出端与卷积层Conv17的输入端通信连接;所述卷积层Conv14的输出端与加法模块11的输入端A通信连接,所述卷积层Conv15的输出端与加法模块11的输入端B通信连接,所述卷积层Conv16的输出端与加法模块11的输入端C通信连接,所述卷积层Conv17的输出端与加法模块11的输入端D通信连接;所述加法模块11的输出端作为特征提取模块FEM1的输出端和特征提取模块FEM2的输出端;
所述卷积层Conv11为3×3空洞卷积层,其空洞卷积率为3;
所述卷积层Conv12为3×3空洞卷积层,其空洞卷积率为8;
所述卷积层Conv13为3×3空洞卷积层,其空洞卷积率为12;
所述卷积层Conv14、卷积层Conv15、卷积层Conv16、卷积层Conv17均为1×1卷积层。
进一步地,所述适应性注意力模块GAM1和适应性注意力模块GAM2均包括:卷积层Conv21、卷积层Conv22、全局均值池化层21、全局均值池化层22、加法模块21、Softmax层和乘法模块21;
所述卷积层Conv21为1×1卷积层,其输入端作为适应性注意力模块GAM1的输入端A和适应性注意力模块GAM2的输入端A,其输出端与全局均值池化层21的输入端通信连接;
所述卷积层Conv22为1×1卷积层,其输入端作为适应性注意力模块GAM1的输入端B和适应性注意力模块GAM2的输入端B,其输出端与全局均值池化层22的输入端通信连接;
所述全局池化层21的输出端与加法模块21的输入端A通信连接,所述全局均值池化层22的输出端与加法模块21的输入端B通信连接;
所述加法模块21的输出端与Softmax层的输入端通信连接;
所述Softmax层的输出端与乘法模块21的输入端通信连接;
所述乘法模块21的输出端作为适应性注意力模块GAM1的输出端和适应性注意力模块GAM2的输出端。
该适应性注意力模块着重于选择性地提取位置信息,并融合不同水平的加权注意力特征以实现相互的信息融合。记适应性注意力模块的输入数据为特征
Figure GDA0002620996510000061
其中,C、H、W分别表示特征通道数、高度和宽度,i表示第i个操作。该注意力模块的输入是两个不同水平的特征图A和B,分别被表示为
Figure GDA0002620996510000062
Figure GDA0002620996510000063
特征
Figure GDA0002620996510000064
Figure GDA0002620996510000065
分别经历卷积层Conv21和卷积层Conv22后,将通道数减少至C/2;
新获得的特征
Figure GDA0002620996510000071
Figure GDA0002620996510000072
由全局均值池化层21和全局均值池化层22进一步被减少通道数,该处理流程可表述为如下表达式:
Figure GDA0002620996510000073
Figure GDA0002620996510000074
两个不同水平的特征图A和B经过上述处理之后,通过加法模块21实现按元素加的操作完成融合,这样做是为了保留更多残余的注意力权值信息。然后,令其通过归一化操作以使得权值在(0,1)之间,该操作通过Softmax层实现。
如公式
Figure GDA0002620996510000075
所示;
最后,连接原来的特征
Figure GDA0002620996510000076
Figure GDA0002620996510000077
作为S∈R2C×H×W,将其与上一操作得到的权值进行按元素乘操作,以获得最终的加权特征图,如
Figure GDA0002620996510000078
所示。
一种注意力机制引导的递进式划分人体解析方法,包括以下步骤:
S1、从大数据平台中获取已知对应的二分类显著性预测图和人体解析预测图的人体图像,构成训练数据集和测试数据集;
S2、通过训练数据集训练注意力机制引导的递进式划分人体解析***,得到训练完成的注意力机制引导的递进式划分人体解析***;
S3、通过测试数据集对训练完成的注意力机制引导的递进式划分人体解析***进行验证,得到验证完成的注意力机制引导的递进式划分人体解析***;
S4、通过验证完成的注意力机制引导的递进式划分人体解析***对人体图像进行预测和解析,得到与人体图像相应的二分类显著性预测图和人体解析预测图。
进一步地,所述步骤S2包括以下步骤:
S21、对训练数据集进行预处理;
S22、设定注意力机制引导的递进式划分人体解析***的初始参数和训练规则;
S23、通过反向传播法,根据预处理后的训练数据集,对注意力机制引导的递进式划分人体解析***内的各模块进行参数迭代。
进一步地,所述步骤S21包括以下内容:对训练数据集中的数据采用0.5~1.5的随机比例缩放处理以及对训练数据集中的数据进行裁剪和左右翻转的操作。
进一步地,所述步骤S22中的初始参数和训练规则包括以下表达式:
Figure GDA0002620996510000081
LAPPNet=Lparsing+αLsailency (2)
α=1 (3)
power=0.9 (4)
base_lr=0.007 (5)
其中,式1为学***衡分割损失和显著性损失的比例参数。
本发明的有益效果为:本发明提出的***着重探索了显著性检测对于人体解析的增强作用,以及注意力机制对于人体解析的有效性。在网络结构上,构建了一个特征提取模块,有效提取特征信息,并融合多维度特征,增强了人体解析的效果;设计了适应性注意力模块,为特征进行位置注意力加权,并提供了融合不同水平特征的有效融合思路;最后以由底至上的方式整合了显著性检测和人体解析到一个端到端的网络结构中,并在各分支应用上述模块,获得了统一化的有效结构。性能超越了目前已知的方法,展现了最优人体解析效果。
附图说明
图1为一种注意力机制引导的递进式划分人体解析***结构框图;
图2为特征提取模块结构框图;
图3为适应性注意力模块结构框图;
图4为一种注意力机制引导的递进式划分人体解析方法流程示意图;
图5为实验效果图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示:一种注意力机制引导的递进式划分人体解析***,包括:残差神经网络ResNet-101、显著性检测子***和人体解析子***;
所述残差神经网络ResNet-101为结构型神经网络,用于处理人体图像,得到浅层低水平特征图和深层高水平特征图;其输出块Block1和输出块Block2与显著性检测子***通信连接,用于将浅层低水平特征图输入到显著性检测子***;其输出块Block3和输出块Block4与人体解析子***通信连接,用于将深层高水平特征图输入到人体解析子***;
所述显著性检测子***用于对浅层低水平特征图进行显著性预测,得到二分类显著性预测图;
所述人体解析子***用于对深层高水平特征图进行人体解析预测,得到人体解析预测图。
所述显著性检测子***包括:卷积层Conv1、卷积层Conv2、卷积层Conv3、卷积层Conv4、适应性注意力模块GAM1、上采样模块1和上采样模块2;
所述卷积层Conv1为1×1卷积层,用于对残差神经网络ResNet-101的输出块Block1传递的浅层低水平特征图进行降维处理,其输入端与残差神经网络ResNet-101的输出块Block1通信连接,其输出端与适应性注意力模块GAM1的输入端A通信连接;
所述卷积层Conv2为1×1卷积层,用于对残差神经网络ResNet-101的输出块Block2传递的浅层低水平特征图进行降维处理,其输入端与残差神经网络ResNet-101的输出块Block2通信连接,其输出端与上采样模块1的输入端通信连接;
所述上采样模块1用于对残差神经网络ResNet-101的输出块Block2传递的浅层低水平特征图在降维处理后的图像数据进行上采样处理,其输出端与适应性注意力模块GAM1的输入端B通信连接;
所述适应性注意力模块GAM1用于提取注意力特征,其输出端与卷积层Conv3通信连接,并与人体解析子***通信连接用于特征增强;
所述卷积层Conv3、卷积层Conv4和上采样模块2用于处理适应性注意力模块GAM1提取得到的注意力特征,得到二分类显著性预测图;所述卷积层Conv3为3×3卷积层,其输出端与卷积层Conv4的输入端通信连接;所述卷积层Conv4为1×1卷积层,其输出端与上采样模块2的输入端通信连接;所述上采样模块2的输出端作为显著性检测子***的处理结果输出端口,输出该***运算得到的二分类显著性预测图。
所述人体解析子***包括:特征提取模块FEM1、特征提取模块FEM2、适应性注意力模块GAM2、上采样模块3、上采样模块4、加法模块1、卷积层Conv5和卷积层Conv6;
所述特征提取模块FEM1用于对残差神经网络ResNet-101的输出块Block3传递的深层高水平特征图进行多维度特征提取,得到多维度上下文信息,其输入端与残差神经网络ResNet-101的输出块Block3通信连接,其输出端与适应性注意力模块GAM2的输入端A通信连接;
所述特征提取模块FEM2用于对残差神经网络ResNet-101的输出块Block4传递的深层高水平特征图进行多维度特征提取,得到多维度上下文信息,其输入端与残差神经网络ResNet-101的输出块Block4通信连接,其输出端与适应性注意力模块GAM2的输入端B通信连接;
所述适应性注意力模块GAM2用于处理多维度上下文信息,得到有效加权特征,其输出端与上采样模块3的输入端通信连接;
所述上采样模块3用于对有效加权特征进行上采样处理,其输出端与加法模块1的输入端A通信连接;
所述加法模块1用于对适应性注意力模块GAM1提取到的注意力特征和适应性注意力模块GAM2得到的有效加权特征按元素进行加操作,以融合适应性注意力模块GAM1和适应性注意力模块GAM2提供的特征图,突出目标区域并提升类之间的紧凑性;其输入端B与适应性注意力模块GAM1的输出端通信连接,其输出端与卷积层Conv5的输入端通信连接;
所述卷积层Conv5、卷积层Conv6和上采样模块4用于处理加法模块1按元素相加得到的注意力特征,得到人体解析预测图;所述卷积层Conv5为3×3卷积层,其输出端与卷积层Conv6的输入端通信连接;所述卷积层Conv6为1×1卷积层,其输出端与上采样模块4的输入端通信连接;所述上采样模块4的输出端作为人体解析子***的处理结果输出端口,输出该***运算得到的人体解析预测图。
如图2所示:所述特征提取模块FEM1和特征提取模块FEM2均包括:卷积层Conv11、卷积层Conv12、卷积层Conv13、卷积层Conv14、卷积层Conv15、卷积层Conv16、卷积层Conv17和加法模块11;
所述卷积层Conv11的输入端与卷积层Conv12的输入端、卷积层Conv13输入端以及卷积层Conv14的输入端通信连接,并作为特征提取模块FEM1的输入端和特征提取模块FEM2的输入端;所述卷积层Conv11的输出端与卷积层Conv15的输入端通信连接;所述卷积层Conv12的输出端与卷积层Conv16的输入端通信连接;所述卷积层Conv13的输出端与卷积层Conv17的输入端通信连接;所述卷积层Conv14的输出端与加法模块11的输入端A通信连接,所述卷积层Conv15的输出端与加法模块11的输入端B通信连接,所述卷积层Conv16的输出端与加法模块11的输入端C通信连接,所述卷积层Conv17的输出端与加法模块11的输入端D通信连接;所述加法模块11的输出端作为特征提取模块FEM1的输出端和特征提取模块FEM2的输出端;
所述卷积层Conv11为3×3空洞卷积层,其空洞卷积率为3;
所述卷积层Conv12为3×3空洞卷积层,其空洞卷积率为8;
所述卷积层Conv13为3×3空洞卷积层,其空洞卷积率为12;
所述卷积层Conv14、卷积层Conv15、卷积层Conv16、卷积层Conv17均为1×1卷积层。
如图3所示:所述适应性注意力模块GAM1和适应性注意力模块GAM2均包括:卷积层Conv21、卷积层Conv22、全局均值池化层21、全局均值池化层22、加法模块21、Softmax层和乘法模块21;
所述卷积层Conv21为1×1卷积层,其输入端作为适应性注意力模块GAM1的输入端A和适应性注意力模块GAM2的输入端A,其输出端与全局均值池化层21的输入端通信连接;
所述卷积层Conv22为1×1卷积层,其输入端作为适应性注意力模块GAM1的输入端B和适应性注意力模块GAM2的输入端B,其输出端与全局均值池化层22的输入端通信连接;
所述全局池化层21的输出端与加法模块21的输入端A通信连接,所述全局均值池化层22的输出端与加法模块21的输入端B通信连接;
所述加法模块21的输出端与Softmax层的输入端通信连接;
所述Softmax层的输出端与乘法模块21的输入端通信连接;
所述乘法模块21的输出端作为适应性注意力模块GAM1的输出端和适应性注意力模块GAM2的输出端。
该适应性注意力模块着重于选择性地提取位置信息,并融合不同水平的加权注意力特征以实现相互的信息融合。记适应性注意力模块的输入数据为特征
Figure GDA0002620996510000131
其中,C、H、W分别表示特征通道数、高度和宽度,i表示第i个操作。该注意力模块的输入是两个不同水平的特征图A和B,分别被表示为
Figure GDA0002620996510000132
Figure GDA0002620996510000133
特征
Figure GDA0002620996510000134
Figure GDA0002620996510000135
分别经历卷积层Conv21和卷积层Conv22后,将通道数减少至C/2;
新获得的特征
Figure GDA0002620996510000136
Figure GDA0002620996510000137
由全局均值池化层21和全局均值池化层22进一步被减少通道数,该处理流程可表述为如下表达式:
Figure GDA0002620996510000138
Figure GDA0002620996510000139
两个不同水平的特征图A和B经过上述处理之后,通过加法模块21实现按元素加的操作完成融合,这样做是为了保留更多残余的注意力权值信息。然后,令其通过归一化操作以使得权值在(0,1)之间,该操作通过归一化模块Softmax实现。如公式
Figure GDA0002620996510000141
最后,连接原来的特征
Figure GDA0002620996510000142
Figure GDA0002620996510000143
作为S∈R2C×H×W,将其与上一操作得到的权值进行按元素乘操作,以获得最终的加权特征图,如
Figure GDA0002620996510000144
所示。
如图4所示:一种注意力机制引导的递进式划分人体解析方法,包括以下步骤:
S1、从大数据平台中获取已知对应的二分类显著性预测图和人体解析预测图的人体图像,构成训练数据集和测试数据集;
在本实施例中,选取了三个主流人体解析数据集进行实验,包括LIP、CIHP、PPSS。
LIP是目前数量最大的一个人体解析数据集,共包含50462张图片,其中30462张用于训练,10000张用于验证,剩下的10000张用于测试。该数据集共包含20个类别,大多数图片只包含单个人体。
CIHP是一个应对实例人体解析的数据集,每张图片均包含多个实例,相对于现有的主流数据集,其图片更具复杂性和挑战性。该数据集共包含38280张图片,其中28280张图片用于训练,测试集和验证集分别包含5000张,类别分类为20。
PPSS是一个小型的人体解析数据集,主要由行人图片组成,具有真实场景的复杂性。该数据集从171个视频序列中收集而成,共包含3673张图片。其中,训练集由前100个序列组成,测试集由后71个序列组成。该数据集共包含8个类别。
选择以上三个数据集是为了验证***对于不同类型数据集的适应性和鲁棒性,LIP和CIHP均包含20个分类,属于复杂的多分类解析问题。同时,CIHP包含多个实例,增加了解析难度。另外,PPSS是一个分类数较少的数据集,且主要由行人图片组成,具有与前两个数据集不同的图片风格,可用于检测***的鲁棒性。
S2、通过训练数据集训练注意力机制引导的递进式划分人体解析***,得到训练完成的注意力机制引导的递进式划分人体解析***;
S3、通过测试数据集对训练完成的注意力机制引导的递进式划分人体解析***进行验证,得到验证完成的注意力机制引导的递进式划分人体解析***;
S4、通过验证完成的注意力机制引导的递进式划分人体解析***对人体图像进行预测和解析,得到与人体图像相应的二分类显著性预测图和人体解析预测图。
所述步骤S2包括以下步骤:
S21、对训练数据集进行预处理;
S22、设定注意力机制引导的递进式划分人体解析***的初始参数和训练规则;
S23、通过反向传播法,根据预处理后的训练数据集,对注意力机制引导的递进式划分人体解析***内的各模块进行参数迭代。
所述步骤S21包括以下内容:对训练数据集中的数据采用0.5~1.5的随机比例缩放处理以及对训练数据集中的数据进行裁剪和左右翻转的操作。其中,对于训练数据集中的显著性标注图是通过统一化标注图片中非背景类像素获得,最后以“0”标识背景类,以“1”标识边缘。
所述步骤S22中的初始参数和训练规则包括以下表达式:
Figure GDA0002620996510000151
LAPPNet=Lparsing+αLsailency (2)
α=1 (3)
power=0.9 (4)
base_lr=0.007 (5)
其中,式1为学***衡分割损失和显著性损失的比例参数。
在本实施例的训练过程中,由于LIP、CIHP、PPSS三个平台的数据存在差异,故采用了不同的图片输入尺寸。对于LIP,输入尺寸为473×473;对于CIHP,采用的输入尺寸是512×512;对于PPSS,输入尺寸为256×256。三个数据集分类情况也具有差异,LIP和CIHP类别数目K设置为20,PPSS类别数目K为8。
本发明提出的***在上述步骤中提到的三个数据集上均进行了训练、验证。在验证过程中,不需要生成边缘标注图。所有实验均以均交并比mIoU作为评价标准,其公式为
Figure GDA0002620996510000161
其中,k+1表示数据集类别总数(相当于类别数目K),pij表示类i被识别为类j的像素总数,pji表示类j被识别为类i的像素总数,pii表示识别正确的像素总数。实验结果显示,***在LIP、CIHP、PPSS上实现的mIoU分别为54.08%、59.88%、60.2%。在三个数据集上的表现力均超越了已有的方法。这证明了本发明提出的***在解决实际场景人体解析上具有有效性、鲁棒性以及普遍性。如图5,展示了本发明提出的人体解析***生成的人体分割图的效果对比。在验证过程中,为了证明本发明提出的特征提取模块以及注意力模块的有效性,在LIP数据集上进行了原***剔除上述模块的一系列实验,具体实验结果如下表所示,其中,GAM1表示用于显著性检测子***中的注意力模块,GAM2表示用于人体解析子***中的注意力模块。与原***生成的分割图对比也展示在图5中,其中,CE2P是论文(Tao Ruan,Ting Liu,Zilong Huang,Yunchao Wei,Shikui Wei,Yao Zhao.Devil in the Details:Towards Accurate Single and Multiple HumanParsing[C].AAAI,2019:4814-4821)提供的方法。对比说明,本发明提出的两个模块均具有突出的增强效果和应用价值。
表1各论文中所述方法与本发明的mIoU性能对比表
Figure GDA0002620996510000171

Claims (7)

1.一种注意力机制引导的递进式划分人体解析***,其特征在于,包括:残差神经网络ResNet-101、显著性检测子***和人体解析子***;
所述残差神经网络ResNet-101为结构型神经网络,用于处理人体图像,得到浅层低水平特征图和深层高水平特征图;其输出块Block1和输出块Block2与显著性检测子***通信连接,用于将浅层低水平特征图输入到显著性检测子***;其输出块Block3和输出块Block4与人体解析子***通信连接,用于将深层高水平特征图输入到人体解析子***;
所述显著性检测子***用于对浅层低水平特征图进行显著性预测,得到二分类显著性预测图;
所述显著性检测子***包括:卷积层Conv1、卷积层Conv2、卷积层Conv3、卷积层Conv4、适应性注意力模块GAM1、上采样模块1和上采样模块2;
所述卷积层Conv1为1×1卷积层,用于对残差神经网络ResNet-101的输出块Block1传递的浅层低水平特征图进行降维处理,其输入端与残差神经网络ResNet-101的输出块Block1通信连接,其输出端与适应性注意力模块GAM1的输入端A通信连接;
所述卷积层Conv2为1×1卷积层,用于对残差神经网络ResNet-101的输出块Block2传递的浅层低水平特征图进行降维处理,其输入端与残差神经网络ResNet-101的输出块Block2通信连接,其输出端与上采样模块1的输入端通信连接;
所述上采样模块1用于对残差神经网络ResNet-101的输出块Block2传递的浅层低水平特征图在降维处理后的图像数据进行上采样处理,其输出端与适应性注意力模块GAM1的输入端B通信连接;
所述适应性注意力模块GAM1用于提取注意力特征,其输出端与卷积层Conv3通信连接,并与人体解析子***通信连接用于特征增强;
所述卷积层Conv3、卷积层Conv4和上采样模块2用于处理适应性注意力模块GAM1提取得到的注意力特征,得到二分类显著性预测图;所述卷积层Conv3为3×3卷积层,其输出端与卷积层Conv4的输入端通信连接;所述卷积层Conv4为1×1卷积层,其输出端与上采样模块2的输入端通信连接;所述上采样模块2的输出端作为显著性检测子***的处理结果输出端口,输出该***运算得到的二分类显著性预测图;所述人体解析子***用于对深层高水平特征图进行人体解析预测,得到人体解析预测图;
所述人体解析子***包括:特征提取模块FEM1、特征提取模块FEM2、适应性注意力模块GAM2、上采样模块3、上采样模块4、加法模块1、卷积层Conv5和卷积层Conv6;
所述特征提取模块FEM1用于对残差神经网络ResNet-101的输出块Block3传递的深层高水平特征图进行多维度特征提取,得到多维度上下文信息,其输入端与残差神经网络ResNet-101的输出块Block3通信连接,其输出端与适应性注意力模块GAM2的输入端A通信连接;
所述特征提取模块FEM2用于对残差神经网络ResNet-101的输出块Block4传递的深层高水平特征图进行多维度特征提取,得到多维度上下文信息,其输入端与残差神经网络ResNet-101的输出块Block4通信连接,其输出端与适应性注意力模块GAM2的输入端B通信连接;
所述适应性注意力模块GAM2用于处理多维度上下文信息,得到有效加权特征,其输出端与上采样模块3的输入端通信连接;
所述上采样模块3用于对有效加权特征进行上采样处理,其输出端与加法模块1的输入端A通信连接;
所述加法模块1用于对适应性注意力模块GAM1提取到的注意力特征和适应性注意力模块GAM2得到的有效加权特征按元素进行加操作,以融合适应性注意力模块GAM1和适应性注意力模块GAM2提供的特征图,突出目标区域并提升类之间的紧凑性;其输入端B与适应性注意力模块GAM1的输出端通信连接,其输出端与卷积层Conv5的输入端通信连接;
所述卷积层Conv5、卷积层Conv6和上采样模块4用于处理加法模块1按元素相加得到的注意力特征,得到人体解析预测图;所述卷积层Conv5为3×3卷积层,其输出端与卷积层Conv6的输入端通信连接;所述卷积层Conv6为1×1卷积层,其输出端与上采样模块4的输入端通信连接;所述上采样模块4的输出端作为人体解析子***的处理结果输出端口,输出该子***运算得到的人体解析预测图。
2.根据权利要求1所述的注意力机制引导的递进式划分人体解析***,其特征在于,所述特征提取模块FEM1和特征提取模块FEM2均包括:卷积层Conv11、卷积层Conv12、卷积层Conv13、卷积层Conv14、卷积层Conv15、卷积层Conv16、卷积层Conv17和加法模块11;
所述卷积层Conv11的输入端与卷积层Conv12的输入端、卷积层Conv13输入端以及卷积层Conv14的输入端通信连接,并作为特征提取模块FEM1的输入端和特征提取模块FEM2的输入端;所述卷积层Conv11的输出端与卷积层Conv15的输入端通信连接;所述卷积层Conv12的输出端与卷积层Conv16的输入端通信连接;所述卷积层Conv13的输出端与卷积层Conv17的输入端通信连接;所述卷积层Conv14的输出端与加法模块11的输入端A通信连接,所述卷积层Conv15的输出端与加法模块11的输入端B通信连接,所述卷积层Conv16的输出端与加法模块11的输入端C通信连接,所述卷积层Conv17的输出端与加法模块11的输入端D通信连接;所述加法模块11的输出端作为特征提取模块FEM1的输出端和特征提取模块FEM2的输出端;
所述卷积层Conv11为3×3空洞卷积层,其空洞卷积率为3;
所述卷积层Conv12为3×3空洞卷积层,其空洞卷积率为8;
所述卷积层Conv13为3×3空洞卷积层,其空洞卷积率为12;
所述卷积层Conv14、卷积层Conv15、卷积层Conv16、卷积层Conv17均为1×1卷积层。
3.根据权利要求1所述的注意力机制引导的递进式划分人体解析***,其特征在于,所述适应性注意力模块GAM1和适应性注意力模块GAM2均包括:卷积层Conv21、卷积层Conv22、全局均值池化层21、全局均值池化层22、加法模块21、Softmax层和乘法模块21;
所述卷积层Conv21为1×1卷积层,其输入端作为适应性注意力模块GAM1的输入端A和适应性注意力模块GAM2的输入端A,其输出端与全局均值池化层21的输入端通信连接;
所述卷积层Conv22为1×1卷积层,其输入端作为适应性注意力模块GAM1的输入端B和适应性注意力模块GAM2的输入端B,其输出端与全局均值池化层22的输入端通信连接;
所述全局均值池化层21的输出端与加法模块21的输入端A通信连接,所述全局均值池化层22的输出端与加法模块21的输入端B通信连接;
所述加法模块21的输出端与Softmax层的输入端通信连接;
所述Softmax层的输出端与乘法模块21的输入端通信连接;
所述乘法模块21的输出端作为适应性注意力模块GAM1的输出端和适应性注意力模块GAM2的输出端。
4.一种注意力机制引导的递进式划分人体解析方法,其特征在于,包括以下步骤:
S1、从大数据平台中获取已知对应的二分类显著性预测图和人体解析预测图的人体图像,构成训练数据集和测试数据集;
S2、通过训练数据集训练注意力机制引导的递进式划分人体解析***,得到训练完成的注意力机制引导的递进式划分人体解析***;
S3、通过测试数据集对训练完成的注意力机制引导的递进式划分人体解析***进行验证,得到验证完成的注意力机制引导的递进式划分人体解析***;
S4、通过验证完成的注意力机制引导的递进式划分人体解析***对人体图像进行预测和解析,得到与人体图像相应的二分类显著性预测图和人体解析预测图。
5.根据权利要求4所述的注意力机制引导的递进式划分人体解析方法,其特征在于,所述步骤S2包括以下步骤:
S21、对训练数据集进行预处理;
S22、设定注意力机制引导的递进式划分人体解析***的初始参数和训练规则;
S23、通过反向传播法,根据预处理后的训练数据集,对注意力机制引导的递进式划分人体解析***内的各模块进行参数迭代。
6.根据权利要求5所述的注意力机制引导的递进式划分人体解析方法,其特征在于,所述步骤S21包括以下内容:对训练数据集中的数据采用0.5~1.5的随机比例缩放处理以及对训练数据集中的数据进行裁剪和左右翻转的操作。
7.根据权利要求5所述的注意力机制引导的递进式划分人体解析方法,其特征在于,所述步骤S22中的初始参数和训练规则包括以下表达式:
Figure FDA0002642806430000061
LAPPNet=Lparsing+αLsailency(2)
α=1(3)
power=0.9(4)
base_lr=0.007(5)
其中,式(1)为学***衡分割损失和显著性损失的比例参数。
CN202010081219.4A 2020-02-06 2020-02-06 一种注意力机制引导的递进式划分人体解析***及方法 Expired - Fee Related CN111275694B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010081219.4A CN111275694B (zh) 2020-02-06 2020-02-06 一种注意力机制引导的递进式划分人体解析***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010081219.4A CN111275694B (zh) 2020-02-06 2020-02-06 一种注意力机制引导的递进式划分人体解析***及方法

Publications (2)

Publication Number Publication Date
CN111275694A CN111275694A (zh) 2020-06-12
CN111275694B true CN111275694B (zh) 2020-10-23

Family

ID=71001989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010081219.4A Expired - Fee Related CN111275694B (zh) 2020-02-06 2020-02-06 一种注意力机制引导的递进式划分人体解析***及方法

Country Status (1)

Country Link
CN (1) CN111275694B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738218B (zh) * 2020-07-27 2020-11-24 成都睿沿科技有限公司 人体异常行为识别***及方法
CN114549332A (zh) * 2020-11-25 2022-05-27 杭州火烧云科技有限公司 一种基于人体解析先验支持下的卷积神经网络肤质处理方法及处理装置
CN114511573B (zh) * 2021-12-29 2023-06-09 电子科技大学 一种基于多层级边缘预测的人体解析装置及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086869A (zh) * 2018-07-16 2018-12-25 北京理工大学 一种基于注意力机制的人体动作预测方法
CN110084108A (zh) * 2019-03-19 2019-08-02 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于gan神经网络的行人重识别***及方法
CN110097115A (zh) * 2019-04-28 2019-08-06 南开大学 一种基于注意力转移机制的视频显著性物体检测方法
CN110135375A (zh) * 2019-05-20 2019-08-16 中国科学院宁波材料技术与工程研究所 基于全局信息整合的多人姿态估计方法
CN110648334A (zh) * 2019-09-18 2020-01-03 中国人民解放***箭军工程大学 一种基于注意力机制的多特征循环卷积显著性目标检测方法
CN110674685A (zh) * 2019-08-19 2020-01-10 电子科技大学 一种基于边缘信息增强的人体解析分割模型及方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8972445B2 (en) * 2009-04-23 2015-03-03 Deep Sky Concepts, Inc. Systems and methods for storage of declarative knowledge accessible by natural language in a computer capable of appropriately responding
US9830709B2 (en) * 2016-03-11 2017-11-28 Qualcomm Incorporated Video analysis with convolutional attention recurrent neural networks
CN108830157B (zh) * 2018-05-15 2021-01-22 华北电力大学(保定) 基于注意力机制和3d卷积神经网络的人体行为识别方法
CN109284670B (zh) * 2018-08-01 2020-09-25 清华大学 一种基于多尺度注意力机制的行人检测方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086869A (zh) * 2018-07-16 2018-12-25 北京理工大学 一种基于注意力机制的人体动作预测方法
CN110084108A (zh) * 2019-03-19 2019-08-02 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于gan神经网络的行人重识别***及方法
CN110097115A (zh) * 2019-04-28 2019-08-06 南开大学 一种基于注意力转移机制的视频显著性物体检测方法
CN110135375A (zh) * 2019-05-20 2019-08-16 中国科学院宁波材料技术与工程研究所 基于全局信息整合的多人姿态估计方法
CN110674685A (zh) * 2019-08-19 2020-01-10 电子科技大学 一种基于边缘信息增强的人体解析分割模型及方法
CN110648334A (zh) * 2019-09-18 2020-01-03 中国人民解放***箭军工程大学 一种基于注意力机制的多特征循环卷积显著性目标检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Method for Human Parsing Based on Deep Learning And Attention Mechanism;Rui Yang.et.;《The 2019 6th International Conference on Systems and Informatics (ICSAI 2019)》;20191231;第1163-1167页 *
基于深度学习的人体解析研究综述;邵杰等;《电子科技大学学报》;20190930;第48卷(第5期);第644-654页 *

Also Published As

Publication number Publication date
CN111275694A (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
CN112597941B (zh) 一种人脸识别方法、装置及电子设备
CN111275694B (zh) 一种注意力机制引导的递进式划分人体解析***及方法
CN110569814B (zh) 视频类别识别方法、装置、计算机设备及计算机存储介质
CN112434608B (zh) 一种基于双流结合网络的人体行为识别方法及***
CN112861575A (zh) 一种行人结构化方法、装置、设备和存储介质
CN110175248B (zh) 一种基于深度学习和哈希编码的人脸图像检索方法和装置
CN110751195B (zh) 一种基于改进YOLOv3的细粒度图像分类方法
CN110390308B (zh) 一种基于时空对抗生成网络的视频行为识别方法
CN112966574A (zh) 人体三维关键点预测方法、装置及电子设备
CN113487610B (zh) 疱疹图像识别方法、装置、计算机设备和存储介质
CN114255403A (zh) 基于深度学习的光学遥感图像数据处理方法及***
CN111523421A (zh) 基于深度学习融合各种交互信息的多人行为检测方法及***
CN116311214B (zh) 车牌识别方法和装置
CN116012653A (zh) 一种注意力残差单元神经网络高光谱图像分类方法及***
CN110992301A (zh) 一种气体轮廓识别方法
CN111582057B (zh) 一种基于局部感受野的人脸验证方法
CN111612802B (zh) 一种基于现有图像语义分割模型的再优化训练方法及应用
CN111199199B (zh) 一种基于自适应上下文区域选取的动作识别方法
CN117115824A (zh) 一种基于笔划区域分割策略的视觉文本检测方法
CN113159071B (zh) 一种跨模态图像-文本关联异常检测方法
CN115527159A (zh) 一种基于跨模态间尺度注意聚合特征的计数***及方法
CN111754459B (zh) 基于统计深度特征的染色伪造图像检测方法及电子装置
CN115424012A (zh) 一种基于上下文信息的轻量图像语义分割方法
CN116503618B (zh) 一种基于多模态多级特征聚合的显著目标检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20201023

Termination date: 20220206

CF01 Termination of patent right due to non-payment of annual fee