CN111738174B

CN111738174B - 基于深度解耦的人体实例解析方法、***

Info

Publication number: CN111738174B
Application number: CN202010592997.XA
Authority: CN
Inventors: 陈盈盈; 朱炳科; 王金桥; 唐明
Original assignee: Institute Of Scientific And Technical Information Of China; Institute of Automation of Chinese Academy of Science
Current assignee: Institute Of Scientific And Technical Information Of China; Institute of Automation of Chinese Academy of Science
Priority date: 2020-06-25
Filing date: 2020-06-25
Publication date: 2022-09-20
Anticipated expiration: 2040-06-25
Also published as: CN111738174A

Abstract

本发明属于计算机视觉领域，具体涉及一种基于深度解耦的人体实例解析方法、***，旨在为了解决漏检和误检影响实例人体解析识别精度的问题，本发明方法包括：获取输入图像中候选区域的实例检测框和特征；所述候选区域为人体实例的候选区域；所述人体实例包括人体整体实例、人体部件实例；基于所述候选区域的特征，获取候选区域对应实例的实例掩模和实例特征；基于各候选区域对应的实例检测框、实例掩模、实例特征，通过层级式聚类算法进行人体整体‑人体部件关联聚类，获取人体实例解析结果。本发明可以提升实例人体解析的识别精度并减少人体实例的漏检和误检。

Description

基于深度解耦的人体实例解析方法、***

技术领域

本发明属于计算机视觉领域，具体涉及一种基于深度解耦的人体实例解析方法、***。

背景技术

人体解析研究将图像中每个人体部件(如头发、脸、躯干、腿等)从背景中提取出来并依据部件类别定义分割成不同语义区域，从而赋予全图每个像素对应的语义类别标签。而实例人体解析则进一步将各人体部件与其从属的人体关联，将各部件的语义区域划分给不同人体实例。当前大部分实例人体解析方法采取先检测再解析的流程，该流程先定位整个人体检测框作为实例，再对每个实例检测框进行像素级语义解析。这类方法由于图像中包含多人且人体姿态多种多样导致两类问题：检测框出现偏差未能包含该人体实例的所有部件因此后续语义解析阶段继承偏差无法解析漏掉的部件；当多个人体实例大面积重叠时，一个检测框中可能包含了多个人体实例无法区别且语义解析阶段仍基于检测框中只包含一个人体实例进行解析导致误识别。

发明内容

为了解决现有技术中的上述问题，即为了解决漏检和误检影响实例人体解析识别精度的问题，本发明的第一方面，提出了一种基于深度解耦的人体实例解析方法，该方法包括以下步骤：

步骤S100，获取输入图像中候选区域的实例检测框和特征；所述候选区域为人体实例的候选区域；所述人体实例包括人体整体实例、人体部件实例；

步骤S200，基于所述候选区域的特征，获取候选区域对应实例的实例掩模和实例特征；

步骤S300，基于各候选区域对应的实例检测框、实例掩模、实例特征，通过层级式聚类算法进行人体整体-人体部件关联聚类，获取人体实例解析结果。

在一些优选的实施方式中，步骤S100中“获取输入图像中候选区域的实例检测框和特征”，其方法包括：

步骤S110，基于卷积神经网络提取所述输入图像的图像特征，作为第一特征；

步骤S120，基于所述第一特征，获取所述候选区域的中人体整体实例和人体部件实例的实例检测框，并提取各实例检测框的内图像的特征，作为第二特征。

在一些优选的实施方式中，步骤S110中“基于卷积神经网络提取所述输入图像的图像特征”，其方法包括：

对所述输入图像，通过深度卷积神经网络提取图像特征，并基于可形变卷积的特征金字塔网络提取不同尺度的图像特征。

在一些优选的实施方式中，步骤S200中“获取候选区域对应实例的实例掩模和实例特征”，其方法包括：

步骤S210，基于所述第二特征，提取每个候选区域中的对应人体实例的掩模，作为实例掩模；

步骤S220，基于每个候选区的实例掩模，对相应的第二特征进行加权，获取候选区域中对应人体实例的特征，作为实例特征。

在一些优选的实施方式中，步骤S300中“通过层级式聚类算法进行人体整体-人体部件关联聚类，获取人体实例解析结果”，其方法包括：

步骤S310，根据各候选区域对应的实例检测框进行聚类，得到第一聚类结果I_S1；

步骤S320，根据预设的人体结构约束条件，基于人体整体实例和人体部件实例的实例特征相似度，对I_S1进行筛选，得到第二聚类结果I_S2；

步骤S330，将I_S2外的孤立的人体部件实例和所有人体整体实例分为两组构建二分图模型并建立全连接，在所述预设的人体结构约束条件下进行二分图匹配后，结合I_S2构建最终聚类结果I_S3；

步骤S340，根据I_S3得到人体整体-人体部件聚类的实例结果，再将每个人体整体实例中各人体部件实例的实例掩模和类别进行对应，得到人体实例解析结果。

在一些优选的实施方式中，所述第一聚类结果I_S1，其获取方法包括：

根据人体整体实例、人体部件实例对应各的实例检测框进行聚类，若人体部件实例的实例检测框中心点位于人体整体实例的实例检测框内部，则判定人体部件实例与对应的人体整体实例匹配，匹配公式为

其中，

表示第i个人体部件实例的实例检测框，

表示第j个人体整体实例的实例检测框，

表示聚类结果I_S1的一组实例检测框聚类，S1表示第一个聚类阶段。

在一些优选的实施方式中，所述预设的人体结构约束条件为预设的每个人体实例对应各类部件的数量。

在一些优选的实施方式中，所述第二聚类结果I_S2，其获取方法为：

基于预设的每个人体实例对应各类部件的数量，对于每一个聚类，依据该聚类中人体部件实例和人体实例的实例特征相似度，去除相似度较低的人体部件实例，得到第二聚类结果I_S2。

在一些优选的实施方式中，步骤S340中所述二分类匹配采用匈牙利算法。

本发明的第二方面，提出了一种基于深度解耦的人体实例解析***，该***包括第一模块、第二模块、第三模块；

所述第一模块，配置为获取输入图像中候选区域的实例检测框和特征；所述候选区域为人体实例的候选区域；所述人体实例包括人体整体实例、人体部件实例；

所述第二模块，配置为基于所述候选区域的特征，获取候选区域对应实例的实例掩模和实例特征；

所述第三模块，配置为基于各候选区域对应的实例检测框、实例掩模、实例特征，通过层级式聚类算法进行人体整体-人体部件关联聚类，获取人体实例解析结果。

本发明的有益效果：

在获得人体和人体部件候选区域的检测框和特征后，基于候选区域特征提取实例特征和实例掩模，然后将实例检测框、实例特征和实例掩模进行人体和部件的层级式聚类逐步校正人体和人体部件实例的匹配关系，从而提升实例人体解析的识别精度并减少人体实例的漏检和误检。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明一种实施例的基于深度解耦的人体实例解析方法流程示意图；

图2是本发明一种实施例中基于可形变卷积的特征金字塔网络结构示意图；

图3是本发明一种实施例中实例支路和分割支路的网络结构示意图；

图4是本发明一种实施例中二分图模型匹配的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明的一种基于深度解耦的人体实例解析方法，如图1所示，该方法包括以下步骤：

为了更清晰地对本发明基于深度解耦的人体实例解析方法进行说明，下面结合附图对本方发明方法一种实施例中各步骤进行展开详述。

本发明一种实施例的基于深度解耦的人体实例解析方法，包括如下步骤S100－S300。

步骤S100，获取输入图像中候选区域的实例检测框和特征；所述候选区域为人体实例的候选区域；所述人体实例包括人体整体实例、人体部件实例。该步骤进一步包括步骤S110、步骤S120。

步骤S110，基于卷积神经网络提取所述输入图像的图像特征，作为第一特征。

在一些优选的实施例中，所述第一特征还可以按照下述方法获取：对所述输入图像，通过深度卷积神经网络提取图像特征，并基于可形变卷积的特征金字塔网络提取不同尺度的图像特征，作为第一特征。本实施例中采用的可形变卷积的特征金字塔网络的网络结构参照图如图2所示，具体的，基于可形变卷积的特征金字塔网络将原始特征金字塔网络的3×3卷积替换为3×3可形变卷积。图2中res2-res5分别为残差模块，F2-F5分别为对应层输出特征图，RoI为池化层。

本实施例中，可以通过检测支路进行实例检测框、第二特征的提取，检测支路采用Mask R-CNN的结构，即2个全连接层进行特征提

取,再采用1个全连接层用于预测类别，1个全连接层预测检测框。

步骤S200，基于所述候选区域的特征，获取候选区域对应实例的实例掩模和实例特征。该步骤进一步包括步骤步骤S210、步骤S220。

步骤S210，基于所述第二特征，提取每个候选区域中的对应人体实例的掩模，作为实例掩模。

该步骤中可以通过分割支路进行实例掩模的提取，分割支路以第二特征为输入，由全卷积网络和二元交叉熵损失进行训练提取实例掩模。全卷积网络的结构不做限定。本实施例中分割支路采用Mask R-CNN的结构，采用4个3x3卷积进行特征提取，1个反卷积上采样，1个1x1卷积进行最终分割掩膜预测。

该步骤中可以通过实例支路进行实例特征的提取，本实施例中，实例支路利用分割支路结果作为注意力掩膜过滤背景信息，然后采用4个3x3卷积层和2个全连接层进行实例特征提取。通过本发明提出的实例支路，将实例掩模作为注意力权重与候选区域的特征加权，再经过网络映射得到相同维度的人体整体和人体部件实例特征，从而可以通过特征度量判别他们是否属于同一实例。具体的，先将分割支路输出的实例掩模与候选区域的特征进行点乘，然后经过4个3×3维度为256的卷积层和2个维度为1024的全连接层，最后使用1个64维的全连接层输出实例特征；另外，训练阶段实例支路使用对比损失进行度量学习，同一实例的人体整体和人体部件实例特征之间的距离应当小于来源不同实例的特征距离。该对比损失公式如下：

其中，v_i表示人体部件的实例特征，u_j表示人体整体的实例特征，

表示与v_i同一人体实例的正样本实例特征，

表示与v_i不同人体实例的负样本实例特征，K表示所有负样本的数量。

图3示出了本发明一种实施例中实例支路和分割支路的网络结构示意图。

步骤S300，基于各候选区域对应的实例检测框、实例掩模、实例特征，通过层级式聚类算法进行人体整体-人体部件关联聚类，获取人体实例解析结果。具体包括步骤S310－步骤S340。

步骤S310，根据各候选区域对应的实例检测框进行聚类，得到第一聚类结果I_S1。

该步骤中，根据人体整体和人体部件检测框位置进行聚类，若人体部件检测框的中心位于人体整体检测框内部，则判定人体部件与人体整体检测框属于同一人体实例。

其中，

表示第i个人体部件实例的实例检测框，

表示第j个人体整体实例的实例检测框，

步骤S320，根据预设的人体结构约束条件，基于人体整体实例和人体部件实例的实例特征相似度，对I_S1进行筛选，得到第二聚类结果I_S2。

根据聚类结果I_S1和人体结构约束条件，即每个人体实例对应各类部件的数量有限，通过本发的实例支路提取实例特征度量人体和人体部件实例的匹配度(即聚类得分w_i，j，

是两者实例特征的聚类得分，p_i，j表示第i个人体部件的实例特征与第j个人体整体实例特征的相似性得分，可以采用余弦相似度的方法计算，

表示检测支路输出的类别得分)，可以去除匹配度低的部件，从而减少人体整体和人体部件实例的错误匹配，尤其场景复杂多人身体交叠使得一个检测框中包含多个人的人体部件时，可以纠正部件实例避免后续人体解析的误识别。

人体结构约束条件是基于人体物理结构模型，限定一个人体实例对应各类人体部件的数量上限(例如，一个人最多只有两只手)，将此约束条件记为R并应用于第一聚类结果I_S1，分别计算超过R限定的同类别的人体部件实例特征与对应的人体整体实例特征之间的余弦距离，该约束R可以表示为下述公式：

其中，x_i，j表示第i个人体部件实例与第j个人体实例是否匹配，0表示不匹配，1表示匹配，PartM表示M个相同类别的人体部件实例的集合。该公式表示同一类别的部件匹配次数不应超过1次。

基于预设的每个人体实例对应各类部件的数量，对于每一个聚类，依据该聚类中人体部件实例和人体实例的实例特征相似度，从聚类结果I_S1中去除相似度较低的人体部件实例，得到第二聚类结果I_S2。

步骤S330，将I_S2外的孤立的人体部件实例和所有人体整体实例分为两组构建二分图模型并建立全连接，在所述预设的人体结构约束条件下进行二分图匹配后，增加入I_S2中，得到最终聚类结果I_S3。

如图4所示，通过二分图匹配，可以将不包含在人体检测框中部件与之匹配，从而解决因人体检测框不准确导致未能包含所有人体部件并且后续人体解析继承其偏差的问题，降低实例人体解析中的漏检。如图4所示，孤立的人体部件实例表示为人体部件节点集合(包括头发1、头发2、帽子3、人脸4、人脸5、大衣6…右脚M)，人体整体实例表示为行人节点集合(包括行人1-行人N)。

使用匈牙利算法计算最佳匹配时，人体结构约束条件R依然生效以减少错误匹配，该二分图匹配可以下述公式表示：

其中，x_i，j表示第i个人体部件实例与第j个人体整体实例是否匹配，M为人体部件实例的数量，N表示人体整体实例的数量。

本发明通过检测人体整体和人体部件获取细粒度的部件级实例，并由分割支路和实例支路提取实例掩模和实例特征共同进行“人体-部件”间的层级式聚类得到实例人体解析结果，以提升实例人体解析的识别精度并减少人体实例的漏检和误检，尤其对复杂人体姿态场景提升更显著。

本发明第二实施例的一种基于深度解耦的人体实例解析***，包括第一模块、第二模块、第三模块；

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于深度解耦的人体实例解析***，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明还提供了一种存储装置实施例，该存储装置中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于深度解耦的人体实例解析方法。

本发明还提供了一种处理装置实施例，该处理装置包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于深度解耦的人体实例解析方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。