CN110889397A - 一种以人为主体的视觉关系分割方法 - Google Patents

一种以人为主体的视觉关系分割方法 Download PDF

Info

Publication number
CN110889397A
CN110889397A CN201911284548.2A CN201911284548A CN110889397A CN 110889397 A CN110889397 A CN 110889397A CN 201911284548 A CN201911284548 A CN 201911284548A CN 110889397 A CN110889397 A CN 110889397A
Authority
CN
China
Prior art keywords
human
segmentation
human body
image
subject
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911284548.2A
Other languages
English (en)
Other versions
CN110889397B (zh
Inventor
任桐炜
武港山
于凡
谭昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Publication of CN110889397A publication Critical patent/CN110889397A/zh
Application granted granted Critical
Publication of CN110889397B publication Critical patent/CN110889397B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/162Detection; Localisation; Normalisation using pixel segmentation or colour matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Image Analysis (AREA)

Abstract

一种以人为主体的视觉关系分割方法,首先对于输入的图像,提取物体实例分割并分开一般物体和人体,同时对于输入的图像,提取人脸检测结果;然后将从物体实例分割中提取的人体分割和人脸检测结果结合得到更完善的检测分割结果并将物体分割和改善后的人体分割分别作为宾语和主语的图像分割输入预测网络,得到图像中以人为主语的<主语‑谓语‑宾语>视觉关系三元组并根据语言先验统计对结果进行筛选。本发明生成的分割定位结果和关系三元组具有较好的准确度,可以为图像搜索、图像说明、图像问答提供支持。

Description

一种以人为主体的视觉关系分割方法
技术领域
本发明属于计算机图像技术领域,涉及针对图像的视觉关系检测方法,具体为一种以人为主体的视觉关系分割方法。
背景技术
图像视觉关系检测是指对于给定的图像,检测图中存在的物体之间的视觉关系,结果一般使用<主语-谓语-宾语>的三元组给出,也就是两个对象:主语、宾语,和他们的关系:谓语。以人为主体的视觉关系分割方法是在指定三元组中的主语为图中的人物的条件下进行视觉关系检测,并生成主语和宾语在图中的分割。图像视觉关系分割可以帮助人们更好地理解图像内容,对图像问答、图像说明和图像检索都能提供基础性的支持。
传统的图像关系检测方法(见参考文献2、3)致力于生成图像中所有物体之间的视觉关系。尽管这样可以对视觉内容检索有帮助,但是限制了对图像中主要物体的强调,对任意的主语、宾语生成的关系通常对于表达图像内容过于冗余,无法凸显主题。而当图像中出现人物时,人们往往会关注人物之间以及人物与其他物体之间的关系。同时,人物带来的关系除了空间上的,还有人特有的动作上的,并且对于相同的物体,人可以有多种互动方式,所以以人为主体的关系检测更复杂,更有挑战性。
参考文献:
1.K.He,G.Gkioxari,P.Dollr,R.Girshick.2017.Mask R-CNN.In IEEE Interna-tional Conference on Computer Vision.IEEE.
2.Hanwang Zhang,Zawlin Kyaw,Shih-Fu Chang,and Tat-SengChua.2017.Visual Translation Embedding Network for Visual RelationDetection.In IEEE Conference on Computer Vision and Pattern Recognition.IEEE.
3.Cewu Lu,Ranjay Krishna,Michael Bernstein,and Li Fei-Fei.2016.Visualrelation-ship detection with language priors.In European Conference onComputer Vision.Springer,852C869.
4.Bohan Zhuang,Qi Wu,Chunhua Shen,Ian Reid and Anton Hengel.2017.Careabout you:towards large-scale human-centric visual relationshipdetection.arXiv.
5.Chen Gao,Yuliang Zou and Jia-Bin Huang.iCAN:Instance-CentricAttention Network for Human-Object Interaction Detection.2018.British MachineVision Conference.
发明内容
本发明要解决的问题是:解决图像视觉关系检测中生成的关系大量没有意义且物体无法定位的问题,目的是得到图像内容中人与人和人与物体的重要关系以及在图中的定位。
本发明的技术方案为:一种以人为主体的视觉关系分割方法,分割出图像中的物体实例及人体实例,根据分割结果在图像中提取以人为主语的<主语-谓语-宾语>视觉关系三元组,同时使用掩码将得到的主语和宾语在图像中对应到指定的位置,得到对应的人与物体或人与人的关系分割。
本发明具体包括以下步骤:
1)对于输入的图像,提取实例分割,得到物体实例和人体实例;
2)对于输入的图像,提取人脸检测结果,得到人脸实例;
3)将从实例分割中提取的人体分割和人脸检测结果得到的人脸实例结合,得到改善后的人体检测分割结果;
4)将物体实例和改善后的人体检测分割结果分别作为宾语和主语的图像分割,输入关系预测网络;
5)预测图像中以人为主语的<主语-谓语-宾语>视觉关系三元组,使用掩码将得到的主语和宾语在图像中对应到指定的位置,根据语言先验统计对结果进行筛选,得到最终的视觉关系分割结果。
本发明所涉及的以人为主体的视觉关系分割方法,提供了一种图像视觉关系检测泛化和没有物体定位的解决方案,实现了生成以人为主语的<主语-谓语-宾语>三元组以及主语和宾语在图中对应分割的结果。
本发明改进了物体检测分割技术,结合了使用降维向量表示物体并利用深度学***均召回率,生成的视觉关系分割既能较准确地得到人物在图像中存在的关系,又能定位人与物体在图中的分割位置,可以帮助人们更好理解图像内容;同时,本发明生成的分割定位结果和关系元组具有较好的准确度,可以为图像搜索、图像说明、图像问答提供支持。
附图说明
图1为本发明的实施流程。
图2为本发明结果与不使用本发明微调过的物体检测分割方法和不使用关***计时结果的比较示例。
图3为本发明结果与现有技术的一些代表性方法结果的比较示例。
具体实施方式
本发明提出了一种以人为主体的视觉关系分割方法,分割出图像中的物体实例及人体实例,根据分割结果在图像中提取以人为主语的<主语-谓语-宾语>视觉关系三元组,同时使用掩码将得到的主语和宾语在图像中对应到指定的位置,得到对应的人与物体或人与人的关系分割。如图1所示,本发明具体包括以下步骤:
1)对于输入的图像image,提取物体实例分割并分开一般物体和人体:
使用根据PIC数据集调整分类器层的Mask R-CNN在PIC训练集上训练得到的模型生成物体实例分割结果,Mask R-CNN详见参考文献1。物体实例分割(object instancesegmentation)过程包括实例分割(segmentation instiances),及得到物体实例(objectinstances)和人体实例(human instances);
2)对于输入的图像,基于Ensemble of Regression Tress算法(ERT),提取人脸检测结果:使用python的dlib库检测人脸,检测人脸(detected faces)得到图中人脸位置框的坐标。
3)将从物体实例分割中提取的人体分割和人脸检测结果结合得到更完善的检测分割结果。
由于步骤1)中可能会存在人体被遮挡而漏检的情况,将步骤1)得到的人体实例与步骤2)得到的人脸实例比对,以步骤2)的人脸实例换算为人体实例作为步骤1)中人体实例的检测补充。本发明提出以ERT作为补充,如图1中,从上到下的第2和第3个人已由Mask R-CNN检测到人体实例,而ERT检测到全部五个人脸,其中第2和第3个人脸位置已经被Mask R-CNN检测的人体实例覆盖,即已检测,而第1、4、5个人脸没有被Mask R-CNN检测到,则第1、4、5个人的人体实例需要从人脸检测估计而来,通过ERT在Mask RCNN的基础上补充三个人体实例,以ERT的人脸检测结果估计人体实例(human instances)作为补充,得到各个实例位置框(instance bounding boxes)。
其中,对于上述人脸检测位置没有识别为人体的分割,将人脸实例换算为人体实例具体为:设人脸实例位置框的左上角坐标记为(X1,Y1),右下角位置坐标记为(X2,Y2),从人脸实例换算得到的人体实例设定为矩形,左上角坐标记为(X1′,Y1′),右下角坐标记为(X2′,Y2′),人脸实例的位置框宽度记为W,高度记为H,新的人体实例分割宽度记为W′,高度记为H′,则换算关系为:
W=X2-X1,W′=2×W,
H=Y2-Y1,H′=3×H,
X1′=X1-0.5×W,Y1′=Y1
X2′=X2+0.5×W,Y2′=Y2+2×H。
图像中物体实例分割模型中分离的人体分割表示为Mhuman,物体分割表示为Mobject,由人脸检测换算得到的人体实例分割记为Mface,则最终图中的人体分割结果Mhuman_final为:
Mhuman_final=Mhuman∪(Mface-Mobject)
4)将物体分割和改善后的人体分割分别作为宾语和主语的图像分割输入关系预测网络进行视觉关系预测(relation prediction)。
5)预测图像中以人为主语的<主语-谓语-宾语>视觉关系三元组,并根据语言先验统计对结果进行筛选:
使用根据PIC数据集调整分类器层的VTransE(见参考文献2)在PIC训练集上训练得到的模型生成所有候选的视觉关系三元组。由于不同主语、宾语对关联的视觉关系三元组的分数是不平衡的,本发明为每个主语宾语对至少保留一个视觉关系三元组,防止由于分数不平衡导致的某些主宾对在筛选过程中没有任何关系三元组留下,提高了由VTransE模型得到的每个主语、宾语对分数最高的关系的可能性,并根据语言先验统计,在PIC数据集上统计的主语、宾语间关系可能性筛选此时的所有候选结果,最终根据预设阈值得到最终视觉关系三元组结果,得到以人为主体的视觉关系(human-centric visualrelations)。
现有技术的人-物交互检测方法(见参考文献4、5)只给出人和物体的包围框,而本发明以人为主体的视觉关系分割方法使用掩码将得到的主语和宾语在图像中对应到指定的位置,可以支持基于图像内容理解的进一步图像处理。
本发明实施在ECCV2018的PIC挑战赛发布的图像集上,与现有代表性的方法进行了比较。图2所示为本发明结果与部分流程缺少时结果的比较示例,其中R@100对应m-IoU:0.25、m-IoU:0.5和m-IoU:0.75分别表示在主语和宾语的预测结果与真实结果的实例分割交并比为25%、50%和75%时取分数最高的100个视觉关系三元组时几何关系和非几何关系的平均召回率;图3所示为本发明结果与现有代表性方法结果的比较示例。在图2中Our一行为本发明的方法的结果,Mask+VTransE一行为结合Mask R-CNN和VTransE的结果,Mask*+VTransE一行为对Mask R-CNN做优化后结合VTransE的结果,Mask*+RelPrior+VTransE为进一步使用了关***计先验后的结果。在图3中Our一行为本发明的方法的结果,其余三行分别为CDG(Cluster,Depth,and Greedy)、iCAN、CATD(A context-aware top-down model)三种方法的结果,这里的iCAN是《iCAN:Instance-Centric Attention Network for Human-Object Interaction Detection》这篇论文的方法结合Mask R-CNN作为分割方法得到的结果。本发明生成的视觉关系分割既能较准确地得到人物在图像中存在的关系,又能定位人与物体在图中的分割位置,可以帮助人们更好理解图像内容;同时,本发明生成的分割定位结果和关系三元组具有较好的准确度,可以为图像搜索、图像说明、图像问答提供支持。

Claims (7)

1.以人为主体的视觉关系分割方法,其特征是分割出图像中的物体实例及人体实例,根据分割结果在图像中提取以人为主语的<主语-谓语-宾语>视觉关系三元组,同时使用掩码将得到的主语和宾语在图像中对应到指定的位置,得到对应的人与物体或人与人的关系分割。
2.根据权利要求1所述的以人为主体的视觉关系分割方法,其特征是包括以下步骤:
1)对于输入的图像,提取实例分割,得到物体实例和人体实例;
2)对于输入的图像,提取人脸检测结果,得到人脸实例;
3)将从实例分割中提取的人体分割和人脸检测结果得到的人脸实例结合,得到改善后的人体检测分割结果;
4)将物体实例和改善后的人体检测分割结果分别作为宾语和主语的图像分割,输入关系预测网络预测视觉关系三元组;
5)预测图像中以人为主语的<主语-谓语-宾语>视觉关系三元组,使用掩码将得到的主语和宾语在图像中对应到指定的位置,根据语言先验统计对结果进行筛选,得到最终的视觉关系分割结果。
3.根据权利要求2所述的以人为主体的视觉关系分割方法,其特征是步骤1)采用MaskR-CNN进行实例分割,步骤2)基于Ensemble of Regression Tress算法,提取人脸检测结果。
4.根据权利要求2所述的以人为主体的视觉关系分割方法,其特征是步骤3)中,由于步骤1)中存在人体被遮挡而漏检的情况,将步骤1)得到的人体实例与步骤2)得到的人脸实例比对,以步骤2)的人脸实例换算为人体实例作为步骤1)中人体实例的检测补充。
5.根据权利要求4所述的以人为主体的视觉关系分割方法,其特征是以人脸实例作为人体实例的检测补充具体为:
人体实例与人脸实例比对,对于人脸检测位置没有对应识别为人体实例的情况,将人脸实例换算为人体实例,设人脸实例位置框的左上角坐标记为(X1,Y1),右下角位置坐标记为(X2,Y2),从人脸实例换算得到的人体实例设定为矩形,左上角坐标记为(X1′,Y1′),右下角坐标记为(X2′,Y2′),人脸实例的位置框宽度记为W,高度记为H,新的人体实例分割宽度记为W′,高度记为H′,则换算关系为:
W=X2-X1,W′=2×W,
H=Y2-Y1,H′=3×H,
X1′=X1-0.5×W,Y1′=Y1
X2′=X2+0.5×W,Y2′=Y2+2×H
得到人脸换算人体实例的掩码,补充得到改善后的人体检测分割结果。
6.根据权利要求4或5所述的以人为主体的视觉关系分割方法,其特征是步骤3)所述人体分割和人脸检测结果结合的方法具体为:
Mhuman_final=Mhuman∪(Mface-Mobject)
其中,Mhuman表示步骤1)得到的人体实例,Mobject表示物体实例,Mface表示由人脸实例换算得到的人体实例,Mhuman_final表示改善后的人体检测分割结果。
7.根据权利要求2所述的以人为主体的视觉关系分割方法,其特征是步骤4)、5)中,采用VTransE关系检测网络预测视觉关系三元组,对生成的候选视觉关系三元组,每个主语宾语对至少保留一个视觉关系三元组,并根据语言先验统计对预测结果进行筛选,根据在VTransE关系检测网络的训练集上统计的主语、宾语间关系可能性筛选此时的预测结果,最终根据预设阈值得到最终视觉关系三元组结果。
CN201911284548.2A 2018-12-28 2019-12-13 一种以人为主体的视觉关系分割方法 Active CN110889397B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201811624269 2018-12-28
CN2018116242691 2018-12-28

Publications (2)

Publication Number Publication Date
CN110889397A true CN110889397A (zh) 2020-03-17
CN110889397B CN110889397B (zh) 2023-06-20

Family

ID=69751894

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911284548.2A Active CN110889397B (zh) 2018-12-28 2019-12-13 一种以人为主体的视觉关系分割方法

Country Status (1)

Country Link
CN (1) CN110889397B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507227A (zh) * 2020-04-10 2020-08-07 南京汉韬科技有限公司 基于深度学习的多学生个体分割及状态自主识别方法
CN111985505A (zh) * 2020-08-21 2020-11-24 南京大学 一种基于兴趣传播网络的兴趣视觉关系检测方法及装置
CN112464875A (zh) * 2020-12-09 2021-03-09 南京大学 一种视频中的人-物交互关系检测方法及装置
CN112508121A (zh) * 2020-12-22 2021-03-16 南京大学 一种工业机器人感知外界的方法和***
CN116229377A (zh) * 2023-05-06 2023-06-06 成都三合力通科技有限公司 一种人员管控报警***及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104504690A (zh) * 2014-12-12 2015-04-08 合肥工业大学 一种基于Kinect的物体支撑关系推断方法
CN104615711A (zh) * 2015-02-04 2015-05-13 中国科学院自动化研究所 基于贝叶斯网络的人体动作的标注方法
CN108229491A (zh) * 2017-02-28 2018-06-29 北京市商汤科技开发有限公司 从图片中检测物体关系的方法、装置和设备
CN108734145A (zh) * 2018-02-27 2018-11-02 北京紫睛科技有限公司 一种基于密度自适应人脸表征模型的人脸识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104504690A (zh) * 2014-12-12 2015-04-08 合肥工业大学 一种基于Kinect的物体支撑关系推断方法
CN104615711A (zh) * 2015-02-04 2015-05-13 中国科学院自动化研究所 基于贝叶斯网络的人体动作的标注方法
CN108229491A (zh) * 2017-02-28 2018-06-29 北京市商汤科技开发有限公司 从图片中检测物体关系的方法、装置和设备
CN108734145A (zh) * 2018-02-27 2018-11-02 北京紫睛科技有限公司 一种基于密度自适应人脸表征模型的人脸识别方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507227A (zh) * 2020-04-10 2020-08-07 南京汉韬科技有限公司 基于深度学习的多学生个体分割及状态自主识别方法
CN111507227B (zh) * 2020-04-10 2023-04-18 南京汉韬科技有限公司 基于深度学习的多学生个体分割及状态自主识别方法
CN111985505A (zh) * 2020-08-21 2020-11-24 南京大学 一种基于兴趣传播网络的兴趣视觉关系检测方法及装置
CN111985505B (zh) * 2020-08-21 2024-02-13 南京大学 一种基于兴趣传播网络的兴趣视觉关系检测方法及装置
CN112464875A (zh) * 2020-12-09 2021-03-09 南京大学 一种视频中的人-物交互关系检测方法及装置
CN112508121A (zh) * 2020-12-22 2021-03-16 南京大学 一种工业机器人感知外界的方法和***
CN112508121B (zh) * 2020-12-22 2024-03-22 南京大学 一种工业机器人感知外界的方法和***
CN116229377A (zh) * 2023-05-06 2023-06-06 成都三合力通科技有限公司 一种人员管控报警***及方法
CN116229377B (zh) * 2023-05-06 2023-08-04 成都三合力通科技有限公司 一种人员管控报警***及方法

Also Published As

Publication number Publication date
CN110889397B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
CN110889397A (zh) 一种以人为主体的视觉关系分割方法
JP7386545B2 (ja) 画像中の物体を識別するための方法、及び当該方法を実施するためのモバイル装置
Zhang et al. Fast and robust occluded face detection in ATM surveillance
Becker et al. Learning context cues for synapse segmentation
CN111507334B (zh) 一种基于关键点的实例分割方法
WO2021196721A1 (zh) 一种舱内环境的调整方法及装置
Zeng et al. Reference-based defect detection network
Liu et al. Smoke-detection framework for high-definition video using fused spatial-and frequency-domain features
Booysens et al. Ear biometrics using deep learning: A survey
Karmakar et al. Face recognition using face-autocropping and facial feature points extraction
Li et al. Recognizing hand gestures using the weighted elastic graph matching (WEGM) method
CN111898454A (zh) 权重二值化神经网络与迁移学习人眼状态检测方法及设备
Hsu et al. Human head detection using histograms of oriented optical flow in low quality videos with occlusion
CN114998966A (zh) 基于特征融合的人脸表情识别方法
Wu et al. Partially occluded head posture estimation for 2D images using pyramid HoG features
Shemshaki et al. Lip segmentation using geometrical model of color distribution
Paul et al. Automatic adaptive facial feature extraction using CDF analysis
Paul et al. Extraction of facial feature points using cumulative distribution function by varying single threshold group
Aggarwal et al. Estimating floor regions in cluttered indoor scenes from first person camera view
Vijayarani et al. An efficient algorithm for facial image classification
Li et al. Hierarchical elastic graph matching for hand gesture recognition
Mliki et al. Face analysis in video: face detection and tracking with pose estimation
Gupta et al. Design and Analysis of an Expert System for the Detection and Recognition of Criminal Faces
Singh et al. Matching Facial Composite Sketches to Police Mug-Shot Images Based on Geometric Features
Shang et al. Face and hand activity detection based on haar wavelet and background updating algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant