CN110889397A

CN110889397A - 一种以人为主体的视觉关系分割方法

Info

Publication number: CN110889397A
Application number: CN201911284548.2A
Authority: CN
Inventors: 任桐炜; 武港山; 于凡; 谭昕
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-12-28
Filing date: 2019-12-13
Publication date: 2020-03-17
Anticipated expiration: 2039-12-13
Also published as: CN110889397B

Abstract

一种以人为主体的视觉关系分割方法，首先对于输入的图像，提取物体实例分割并分开一般物体和人体，同时对于输入的图像，提取人脸检测结果；然后将从物体实例分割中提取的人体分割和人脸检测结果结合得到更完善的检测分割结果并将物体分割和改善后的人体分割分别作为宾语和主语的图像分割输入预测网络，得到图像中以人为主语的<主语‑谓语‑宾语>视觉关系三元组并根据语言先验统计对结果进行筛选。本发明生成的分割定位结果和关系三元组具有较好的准确度，可以为图像搜索、图像说明、图像问答提供支持。

Description

一种以人为主体的视觉关系分割方法

技术领域

本发明属于计算机图像技术领域，涉及针对图像的视觉关系检测方法，具体为一种以人为主体的视觉关系分割方法。

背景技术

图像视觉关系检测是指对于给定的图像，检测图中存在的物体之间的视觉关系，结果一般使用<主语-谓语-宾语>的三元组给出，也就是两个对象：主语、宾语，和他们的关系：谓语。以人为主体的视觉关系分割方法是在指定三元组中的主语为图中的人物的条件下进行视觉关系检测，并生成主语和宾语在图中的分割。图像视觉关系分割可以帮助人们更好地理解图像内容，对图像问答、图像说明和图像检索都能提供基础性的支持。

传统的图像关系检测方法(见参考文献2、3)致力于生成图像中所有物体之间的视觉关系。尽管这样可以对视觉内容检索有帮助，但是限制了对图像中主要物体的强调，对任意的主语、宾语生成的关系通常对于表达图像内容过于冗余，无法凸显主题。而当图像中出现人物时，人们往往会关注人物之间以及人物与其他物体之间的关系。同时，人物带来的关系除了空间上的，还有人特有的动作上的，并且对于相同的物体，人可以有多种互动方式，所以以人为主体的关系检测更复杂，更有挑战性。

参考文献：

1.K.He,G.Gkioxari,P.Dollr,R.Girshick.2017.Mask R-CNN.In IEEE Interna-tional Conference on Computer Vision.IEEE.

2.Hanwang Zhang,Zawlin Kyaw,Shih-Fu Chang,and Tat-SengChua.2017.Visual Translation Embedding Network for Visual RelationDetection.In IEEE Conference on Computer Vision and Pattern Recognition.IEEE.

3.Cewu Lu,Ranjay Krishna,Michael Bernstein,and Li Fei-Fei.2016.Visualrelation-ship detection with language priors.In European Conference onComputer Vision.Springer,852C869.

4.Bohan Zhuang,Qi Wu,Chunhua Shen,Ian Reid and Anton Hengel.2017.Careabout you:towards large-scale human-centric visual relationshipdetection.arXiv.

5.Chen Gao,Yuliang Zou and Jia-Bin Huang.iCAN:Instance-CentricAttention Network for Human-Object Interaction Detection.2018.British MachineVision Conference.

发明内容

本发明要解决的问题是：解决图像视觉关系检测中生成的关系大量没有意义且物体无法定位的问题，目的是得到图像内容中人与人和人与物体的重要关系以及在图中的定位。

本发明的技术方案为：一种以人为主体的视觉关系分割方法，分割出图像中的物体实例及人体实例，根据分割结果在图像中提取以人为主语的<主语-谓语-宾语>视觉关系三元组，同时使用掩码将得到的主语和宾语在图像中对应到指定的位置，得到对应的人与物体或人与人的关系分割。

本发明具体包括以下步骤：

1)对于输入的图像，提取实例分割，得到物体实例和人体实例；

2)对于输入的图像，提取人脸检测结果，得到人脸实例；

3)将从实例分割中提取的人体分割和人脸检测结果得到的人脸实例结合，得到改善后的人体检测分割结果；

4)将物体实例和改善后的人体检测分割结果分别作为宾语和主语的图像分割，输入关系预测网络；

5)预测图像中以人为主语的<主语-谓语-宾语>视觉关系三元组，使用掩码将得到的主语和宾语在图像中对应到指定的位置，根据语言先验统计对结果进行筛选，得到最终的视觉关系分割结果。

本发明所涉及的以人为主体的视觉关系分割方法，提供了一种图像视觉关系检测泛化和没有物体定位的解决方案，实现了生成以人为主语的<主语-谓语-宾语>三元组以及主语和宾语在图中对应分割的结果。

本发明改进了物体检测分割技术，结合了使用降维向量表示物体并利用深度学***均召回率，生成的视觉关系分割既能较准确地得到人物在图像中存在的关系，又能定位人与物体在图中的分割位置，可以帮助人们更好理解图像内容；同时，本发明生成的分割定位结果和关系元组具有较好的准确度，可以为图像搜索、图像说明、图像问答提供支持。

附图说明

图1为本发明的实施流程。

图2为本发明结果与不使用本发明微调过的物体检测分割方法和不使用关***计时结果的比较示例。

图3为本发明结果与现有技术的一些代表性方法结果的比较示例。

具体实施方式

本发明提出了一种以人为主体的视觉关系分割方法，分割出图像中的物体实例及人体实例，根据分割结果在图像中提取以人为主语的<主语-谓语-宾语>视觉关系三元组，同时使用掩码将得到的主语和宾语在图像中对应到指定的位置，得到对应的人与物体或人与人的关系分割。如图1所示，本发明具体包括以下步骤：

1)对于输入的图像image，提取物体实例分割并分开一般物体和人体：

使用根据PIC数据集调整分类器层的Mask R-CNN在PIC训练集上训练得到的模型生成物体实例分割结果，Mask R-CNN详见参考文献1。物体实例分割(object instancesegmentation)过程包括实例分割(segmentation instiances)，及得到物体实例(objectinstances)和人体实例(human instances)；

2)对于输入的图像，基于Ensemble of Regression Tress算法(ERT)，提取人脸检测结果：使用python的dlib库检测人脸，检测人脸(detected faces)得到图中人脸位置框的坐标。

3)将从物体实例分割中提取的人体分割和人脸检测结果结合得到更完善的检测分割结果。

由于步骤1)中可能会存在人体被遮挡而漏检的情况，将步骤1)得到的人体实例与步骤2)得到的人脸实例比对，以步骤2)的人脸实例换算为人体实例作为步骤1)中人体实例的检测补充。本发明提出以ERT作为补充，如图1中，从上到下的第2和第3个人已由Mask R-CNN检测到人体实例，而ERT检测到全部五个人脸，其中第2和第3个人脸位置已经被Mask R-CNN检测的人体实例覆盖，即已检测，而第1、4、5个人脸没有被Mask R-CNN检测到，则第1、4、5个人的人体实例需要从人脸检测估计而来，通过ERT在Mask RCNN的基础上补充三个人体实例，以ERT的人脸检测结果估计人体实例(human instances)作为补充，得到各个实例位置框(instance bounding boxes)。

其中，对于上述人脸检测位置没有识别为人体的分割，将人脸实例换算为人体实例具体为：设人脸实例位置框的左上角坐标记为(X₁，Y₁)，右下角位置坐标记为(X₂，Y₂)，从人脸实例换算得到的人体实例设定为矩形，左上角坐标记为(X₁′，Y₁′)，右下角坐标记为(X₂′，Y₂′)，人脸实例的位置框宽度记为W，高度记为H，新的人体实例分割宽度记为W′，高度记为H′，则换算关系为：

W＝X₂-X₁，W′＝2×W，

H＝Y₂-Y₁，H′＝3×H，

X₁′＝X₁-0.5×W，Y₁′＝Y₁，

X₂′＝X₂+0.5×W，Y₂′＝Y₂+2×H。

图像中物体实例分割模型中分离的人体分割表示为M_human，物体分割表示为M_object，由人脸检测换算得到的人体实例分割记为M_face，则最终图中的人体分割结果M_{human_final}为：

M_{human_final}＝M_human∪(M_face-M_object)

4)将物体分割和改善后的人体分割分别作为宾语和主语的图像分割输入关系预测网络进行视觉关系预测(relation prediction)。

5)预测图像中以人为主语的<主语-谓语-宾语>视觉关系三元组，并根据语言先验统计对结果进行筛选：

使用根据PIC数据集调整分类器层的VTransE(见参考文献2)在PIC训练集上训练得到的模型生成所有候选的视觉关系三元组。由于不同主语、宾语对关联的视觉关系三元组的分数是不平衡的，本发明为每个主语宾语对至少保留一个视觉关系三元组，防止由于分数不平衡导致的某些主宾对在筛选过程中没有任何关系三元组留下，提高了由VTransE模型得到的每个主语、宾语对分数最高的关系的可能性，并根据语言先验统计，在PIC数据集上统计的主语、宾语间关系可能性筛选此时的所有候选结果，最终根据预设阈值得到最终视觉关系三元组结果，得到以人为主体的视觉关系(human-centric visualrelations)。

现有技术的人-物交互检测方法(见参考文献4、5)只给出人和物体的包围框，而本发明以人为主体的视觉关系分割方法使用掩码将得到的主语和宾语在图像中对应到指定的位置，可以支持基于图像内容理解的进一步图像处理。

本发明实施在ECCV2018的PIC挑战赛发布的图像集上，与现有代表性的方法进行了比较。图2所示为本发明结果与部分流程缺少时结果的比较示例，其中R@100对应m-IoU:0.25、m-IoU:0.5和m-IoU:0.75分别表示在主语和宾语的预测结果与真实结果的实例分割交并比为25％、50％和75％时取分数最高的100个视觉关系三元组时几何关系和非几何关系的平均召回率；图3所示为本发明结果与现有代表性方法结果的比较示例。在图2中Our一行为本发明的方法的结果，Mask+VTransE一行为结合Mask R-CNN和VTransE的结果，Mask*+VTransE一行为对Mask R-CNN做优化后结合VTransE的结果，Mask*+RelPrior+VTransE为进一步使用了关***计先验后的结果。在图3中Our一行为本发明的方法的结果，其余三行分别为CDG(Cluster,Depth,and Greedy)、iCAN、CATD(A context-aware top-down model)三种方法的结果，这里的iCAN是《iCAN:Instance-Centric Attention Network for Human-Object Interaction Detection》这篇论文的方法结合Mask R-CNN作为分割方法得到的结果。本发明生成的视觉关系分割既能较准确地得到人物在图像中存在的关系，又能定位人与物体在图中的分割位置，可以帮助人们更好理解图像内容；同时，本发明生成的分割定位结果和关系三元组具有较好的准确度，可以为图像搜索、图像说明、图像问答提供支持。

Claims

1.以人为主体的视觉关系分割方法，其特征是分割出图像中的物体实例及人体实例，根据分割结果在图像中提取以人为主语的<主语-谓语-宾语>视觉关系三元组，同时使用掩码将得到的主语和宾语在图像中对应到指定的位置，得到对应的人与物体或人与人的关系分割。

2.根据权利要求1所述的以人为主体的视觉关系分割方法，其特征是包括以下步骤：

2)对于输入的图像，提取人脸检测结果，得到人脸实例；

4)将物体实例和改善后的人体检测分割结果分别作为宾语和主语的图像分割，输入关系预测网络预测视觉关系三元组；

3.根据权利要求2所述的以人为主体的视觉关系分割方法，其特征是步骤1)采用MaskR-CNN进行实例分割，步骤2)基于Ensemble of Regression Tress算法，提取人脸检测结果。

4.根据权利要求2所述的以人为主体的视觉关系分割方法，其特征是步骤3)中，由于步骤1)中存在人体被遮挡而漏检的情况，将步骤1)得到的人体实例与步骤2)得到的人脸实例比对，以步骤2)的人脸实例换算为人体实例作为步骤1)中人体实例的检测补充。

5.根据权利要求4所述的以人为主体的视觉关系分割方法，其特征是以人脸实例作为人体实例的检测补充具体为：

人体实例与人脸实例比对，对于人脸检测位置没有对应识别为人体实例的情况，将人脸实例换算为人体实例，设人脸实例位置框的左上角坐标记为(X₁，Y₁)，右下角位置坐标记为(X₂，Y₂)，从人脸实例换算得到的人体实例设定为矩形，左上角坐标记为(X₁′，Y₁′)，右下角坐标记为(X₂′，Y₂′)，人脸实例的位置框宽度记为W，高度记为H，新的人体实例分割宽度记为W′，高度记为H′，则换算关系为：

W＝X₂-X₁，W′＝2×W，

H＝Y₂-Y₁，H′＝3×H，

X₁′＝X₁-0.5×W，Y₁′＝Y₁，

X₂′＝X₂+0.5×W，Y₂′＝Y₂+2×H

得到人脸换算人体实例的掩码，补充得到改善后的人体检测分割结果。

6.根据权利要求4或5所述的以人为主体的视觉关系分割方法，其特征是步骤3)所述人体分割和人脸检测结果结合的方法具体为：

M_{human_final}＝M_human∪(M_face-M_object)

其中，M_human表示步骤1)得到的人体实例，M_object表示物体实例，M_face表示由人脸实例换算得到的人体实例，M_{human_final}表示改善后的人体检测分割结果。

7.根据权利要求2所述的以人为主体的视觉关系分割方法，其特征是步骤4)、5)中，采用VTransE关系检测网络预测视觉关系三元组，对生成的候选视觉关系三元组，每个主语宾语对至少保留一个视觉关系三元组，并根据语言先验统计对预测结果进行筛选，根据在VTransE关系检测网络的训练集上统计的主语、宾语间关系可能性筛选此时的预测结果，最终根据预设阈值得到最终视觉关系三元组结果。