CN111914622A - 一种基于深度学习的人物交互检测方法 - Google Patents
一种基于深度学习的人物交互检测方法 Download PDFInfo
- Publication number
- CN111914622A CN111914622A CN202010548298.5A CN202010548298A CN111914622A CN 111914622 A CN111914622 A CN 111914622A CN 202010548298 A CN202010548298 A CN 202010548298A CN 111914622 A CN111914622 A CN 111914622A
- Authority
- CN
- China
- Prior art keywords
- human
- detection
- interaction
- semantic
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 179
- 230000003993 interaction Effects 0.000 title claims abstract description 171
- 238000013135 deep learning Methods 0.000 title claims abstract description 27
- 238000000034 method Methods 0.000 claims abstract description 23
- 230000000007 visual effect Effects 0.000 claims description 84
- 230000006399 behavior Effects 0.000 claims description 70
- 230000002452 interceptive effect Effects 0.000 claims description 45
- 239000013598 vector Substances 0.000 claims description 38
- 230000014509 gene expression Effects 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 21
- 238000005457 optimization Methods 0.000 claims description 18
- 238000011176 pooling Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 14
- 230000004913 activation Effects 0.000 claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 11
- 238000013461 design Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 6
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 description 10
- 238000002474 experimental method Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000008450 motivation Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- FKOQWAUFKGFWLH-UHFFFAOYSA-M 3,6-bis[2-(1-methylpyridin-1-ium-4-yl)ethenyl]-9h-carbazole;diiodide Chemical compound [I-].[I-].C1=C[N+](C)=CC=C1C=CC1=CC=C(NC=2C3=CC(C=CC=4C=C[N+](C)=CC=4)=CC=2)C3=C1 FKOQWAUFKGFWLH-UHFFFAOYSA-M 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
公开一种基于深度学习的人物交互检测方法,其能够提升预测精度,使模型推理速度更快。该方法包括:(1)目标检测:对RGB图像中的对象实例进行目标检测,以获取对象的检测框、对象类别和对象检测得分,并提供给人物交互检测阶段进行<人‑物体>对实例的人物交互检测;(2)人物交互检测:通过基于深度学习的人物交互检测算法SKA‑Net来进行人物交互检测。
Description
技术领域
本发明涉及计算机视觉和人物交互检测的技术领域,尤其涉及一种基于深度学习的人物交互检测方法。
背景技术
行为识别在计算机视觉领域颇受关注,但是基于视频的行为识别大多是检测一个不足以代表真实生活场景的简单动作,扩展基于RGB图像的人类行为识别成为可行及必然的任务。人物交互检测(HOI Detection)要求模型明确地定位图像中人与物体的位置,同时正确预测其交互行为。通过研究人物交互检测来模拟人类认识周围世界的方式,可以促进服务型机器人技术的研究。同时,识别图像蕴含的人物交互行为,是实现机器自动理解图像主题、自动描述图像主要内容的关键技术之一。
近年来,随着深度学***衡问题,人物交互检测数据也存在天然的类别长尾现象。为了提升人物交互检测的罕见类别的性能,Xu et.al等人使用语义知识进行多模态联合嵌入学习,该模型学习了一个语义结构感知的动词嵌入空间,在推理阶段利用视觉特征和动词语义特征之间的语义相似度来检索最能描述被检测到的人、物对的动词。视觉特征和语义特征隶属不同模态的特征,利用彼此的语义相似度系数进行动词预测,弱化了视觉特征对模型的关键作用;并且语义特征并未融入模型中,导致该算法在罕见类别上精度有所提升,但在整体性能上仍然面临着精度低的问题。
发明内容
为克服现有技术的缺陷,本发明要解决的技术问题是提供了一种基于深度学习的人物交互检测方法,该方法通过构建面向人物交互检测的语义知识图和动词特征表示并使用空间先验知识作为注意力引导视觉特征的优化,不仅能够提升模型整体预测精度、保证模型推理速度,而且可以较好的对罕见类人物交互行为进行准确预测。
本发明的技术方案是:一种基于深度学习的人物交互检测方法,该方法包括以下阶段:
(1)目标检测:对RGB图像中的对象实例进行目标检测,以获取对象的检测框、对象类别和对象检测得分,并提供给人物交互检测阶段进行<人-物体>对实例的人物交互检测;
(2)人物交互检测:通过基于深度学习的人物交互检测算法SKA-Net来进行人物交互检测,
SKA-Net主要创新性包括:其一,基于生活场景的人物交互实例构建面向人物交互检测的语义知识图,并使用图卷积网络GCN对人物交互语义知识图进行学习后融入视觉特征,使视觉特征具备人物交互语义先验知识,引导SKA-Net准确地预测人物交互行为以及更好的预测类别长尾数据;其二,使用正负样本对学习策略,通过对视觉特征的设计抽象出动词表示特征,来表示不同交互类行为和非交互类行为;其三,使用空间特征作为一种先验知识分别引导人的特征、物体特征和抽象动词表示特征的优化,使视觉特征关注与人物交互行为更相关的区域特征,过滤与人物交互行为无关的区域特征;
所述阶段(1)中,使用在COCO数据集上预训练的Faster R-CNN作为目标检测器;
本发明通过准确地预测人物交互行为以及更好的预测类别长尾数据,来提升预测精度;通过对视觉特征的设计抽象出动词表示特征来表示不同交互类行为和非交互类行为,使用空间特征作为一种先验知识分别引导人的特征、物体特征和抽象动词表示特征的优化,使视觉特征关注与人物交互行为更相关的区域特征,过滤与人物交互行为无关的区域特征,从而使模型推理速度更快。
附图说明
图1示出了根据本发明的基于深度学习的人物交互检测方法的SKA-Net整体流程图。
图2示出了根据本发明的基于深度学习的人物交互检测方法的SKA-Net网络结构设计。
图3示出了根据本发明的基于深度学习的人物交互检测方法的流程图。
具体实施方式
如图3所示,这种基于深度学习的人物交互检测方法,该方法包括以下阶段:
(1)目标检测:对RGB图像中的对象实例进行目标检测,以获取对象的检测框、对象类别和对象检测得分,并提供给人物交互检测阶段进行<人-物体>对实例的人物交互检测;
(2)人物交互检测:通过基于深度学习的人物交互检测算法SKA-Net来进行人物交互检测,
SKA-Net主要创新性包括:其一,基于生活场景的人物交互实例构建面向人物交互检测的语义知识图,并使用图卷积网络GCN对人物交互语义知识图进行学习后融入视觉特征,使视觉特征具备人物交互语义先验知识,引导SKA-Net准确地预测人物交互行为以及更好的预测类别长尾数据;其二,使用正负样本对学习策略,通过对视觉特征的设计抽象出动词表示特征,来表示不同交互类行为和非交互类行为;其三,使用空间特征作为一种先验知识分别引导人的特征、物体特征和抽象动词表示特征的优化,使视觉特征关注与人物交互行为更相关的区域特征,过滤与人物交互行为无关的区域特征;
所述阶段(1)中,使用在COCO数据集上预训练的Faster R-CNN作为目标检测器;
本发明通过准确地预测人物交互行为以及更好的预测类别长尾数据,来提升预测精度;通过对视觉特征的设计抽象出动词表示特征来表示不同交互类行为和非交互类行为,使用空间特征作为一种先验知识分别引导人的特征、物体特征和抽象动词表示特征的优化,使视觉特征关注与人物交互行为更相关的区域特征,过滤与人物交互行为无关的区域特征,从而使模型推理速度更快。
优选地,SKA-Net采用多流网络结构,多流网络结构由人流、语义&物体流、动词流和空间流构成;为了得到各分支的输入特征,使用残差网络ResNet50提取所需要的视觉特征;原始输入图像首先经过目标检测网络Faster R-CNN进行目标检测,获得原始输入图像的人、物体检测框信息后将标记有人、物***置的图像输入ResNet50网络提取图像的全局特征图,并对全局特征图中人、物***置进行感兴趣池化ROI Pooling操作以提取人、物体区域的特征图,最后对特征图进行最大池化Max Pooling操作得到最终的人、物体特征图;为了得到人、物体的视觉特征向量,使用Res5残差块对人、物体特征图进行优化并使用全局平均池化层GAP将特征图池化为f维向量Ff,其中Ff表示人、物体的f维视觉特征向量。
优选地,对于空间流分支,输入为目标检测输出的所有<人、物体>配对后的位置信息所编码的空间特征图Msp,空间特征图Msp的编码规则为:对于每一对<人、物体>对,空间特征图的第一通道称为人通道,对应人的检测框内的像素为1、检测框外的像素为0;空间特征图的第二通道称为物体通道,对应物体的检测框内的像素为1、检测框外的像素为0;最后取人和物体的检测框所构成的最小包围区域作为空间特征图的有效区域,并缩放为(64,64,2)的大小;
Msp通过浅层卷积神经网络fcnn进行特征提取,并通过两个全连接层及Sigmoid非线性激活函数对<人-物体>空间特征进行人物交互检测,用公式(2)、(3)描述:
其中,公式(4)和公式(6)表示两个全连接层运算,公式(5)表示空间特征作为语义注意力引导视觉特征的表达能力的优化过程。
优选地,关于空间特征作为语义注意力引导视觉特征的表达能力的优化过程,为了使视觉特征更加关注对不同人物交互行为更有辨别力的位置特征,忽视无关位置特征,采用残差结构对视觉特征进行特征增强,语义注意力引导用公式(14)描述:
其中,表示任意分支的视觉特征经过语义注意力引导后的视觉特征,表示由人-物体对位置信息构成的空间特征,和表示特征向量对应元素相加,表示特征向量对应元素相乘,通过对视觉特征各位置的注意力加权,增强视觉特征的表达能力,突出与人物交互相关的区域特征,过滤与人物交互无关的区域特征。
优选地,对于语义&物体流分支,输入为物体的f维视觉特征向量和面向人物交互检测的语义知识图输出的语义特征向量的拼接向量 通过两个全连接层进行特征增强后采用Sigmoid非线性激活函数计算语义对象视觉特征在各交互类别上的概率得分用公式(7)-(9)描述:
优选地,对于面向人物交互检测的语义知识图的构建及运算模式,首先从GloVe语料库中检索到人物交互检测数据集HICO-DET(V-COCO)涉及的80类对象和117(29)类动词的语义词向量,并根据生活场景的人-物交互标签将80类对象和117(29)类动词进行对象-动词的无向连接,由此构建了初始状态下的语义知识图;为了使得语义对象的特征表达能力更强,对初始状态下的语义知识图进行学习,使得初始状态下的语义知识图经过聚类学习后具有人物交互语义知识的表达能力;使用图卷积网络对初始状态下的语义知识图中的各语义结点进行聚类学习,使其聚集其它结点的语义信息;图卷积的第k层卷积运算过程用公式(15)、(16)描述:
Dii=∑j(A+I)ij (16)
其中,A为构建的语义知识图的邻接矩阵,表示图中各结点之间的连接情况,表示邻接矩阵A被结点的度矩阵D归一化的过程,Fk是第k层结点的输入特征矩阵,Wk为第k层卷积操作的参数矩阵,Fk+1是经过第k层卷积学习后输出的结点特征矩阵,对于图卷积网络的输出特征Fk,在语义&物体流分支加以使用,为语义对象特征
以下更详细地说明本发明。
本发明所提出的基于深度学习的人物交互检测算法可以分解为两阶段。1)目标检测:检测输入图像中的所有对象实例。2)人物交互检测:对图像中所有的<人-物体>对实例进行人物交互检测。SKA-Net网络结构设计如图2所示。
1)目标检测:该部分主要负责对RGB图像中的对象实例进行目标检测,以获取对象的检测框、对象类别和对象检测得分,并提供给人物交互检测阶段进行<人-物体>对实例的人物交互检测。在实验中,使用在COCO数据集上预训练的Faster R-CNN作为目标检测器。
2)人物交互检测:人物交互行为的场景复杂,一个人可以同时对不同的对象进行交互,例如:“人坐在椅子上玩电脑”,简单地利用视觉特征不可能得到高性能预测。人物交互检测的本质是动词检测,需要通过对视觉特征的学习抽象出动词表示特征。同时,考虑到人物交互检测数据存在天然的类别长尾现象,如果在视觉特征中融入语义知识,不仅可以提高整体性能,还可以兼顾罕见类别的性能。基于这些动机,提出了基于深度学习的人物交互检测算法SKA-Net。
SKA-Net的创新点主要包括以下三点。其一,基于生活场景的人物交互实例构建面向人物交互检测的语义知识图,并使用图卷积网络GCN对人物交互语义知识图进行学习后融入视觉特征,使视觉特征具备人物交互语义先验知识,引导SKA-Net准确地预测人物交互行为以及更好的预测类别长尾数据。其二,考虑到人物交互检测是检测三元组<主语,谓语,宾语>,而“宾语”其实是在目标检测阶段完成,即人物交互检测的本质是动词检测。而不同人-物体对进行的人类活动抽象出的同一交互行为在理想情况下的特征表示向量基本相同。基于此假设,提出一种使用正负样本对学习策略,通过对视觉特征的设计抽象出动词表示特征,来表示不同交互类行为(例如:吃、骑、打开等)和非交互类行为(即:没有交互发生)。其三,使用空间特征作为一种先验知识分别引导人的特征、物体特征和抽象动词表示特征的优化,使视觉特征关注与人物交互行为更相关的区域特征,过滤与人物交互行为无关的区域特征,使SKA-Net在人物交互检测性能上获得进一步提升。
人物交互检测算法SKA-Net采用多流网络结构设计,主要由人流分支、语义&物体流分支、动词流分支和空间流分支构成。为清晰可见,首先介绍多流网络结构的各分支的整体流程,然后以小节形式单独介绍其中涉及的注意力机制、面向人物交互检测的语义知识图的构建及其运算模式等组件。
i.多流网络结构
多流网络结构由人流、语义&物体流、动词流和空间流构成。为了得到各分支的输入特征,使用残差网络ResNet50提取所需要的视觉特征。原始输入图像首先经过目标检测网络Faster R-CNN进行目标检测,获得原始输入图像的人、物体检测框信息后将标记有人、物***置的图像输入ResNet50网络提取图像的全局特征图,并对全局特征图中人、物***置进行感兴趣池化(ROI Pooling)操作以提取人、物体区域的特征图,最后对特征图进行最大池化(Max Pooling)操作得到最终的人、物体特征图。为了得到人、物体的视觉特征向量,使用Res5残差块对人、物体特征图进行优化并使用全局平均池化层(GAP)将特征图池化为f维向量Ff。简言之,主干网络的视觉特征向量提取过程为:Image→Resnet50→ROI Pooling→Max Pooling→Res5→GAP→Ff,其中Ff表示人、物体的f维视觉特征向量。SKA-Net整体流程图如图1所示。
空间流分支:对于空间流分支,输入为目标检测输出的所有<人、物体>配对后的位置信息所编码的空间特征图Msp。空间特征图Msp的编码规则为:对于每一对<人、物体>对,空间特征图的第一通道称为人通道,对应人的检测框内的像素为1、检测框外的像素为0;空间特征图的第二通道称为物体通道,对应物体的检测框内的像素为1、检测框外的像素为0;最后取人和物体的检测框所构成的最小包围区域作为空间特征图的有效区域,并缩放为(64,64,2)的大小。
Msp通过浅层卷积神经网络fcnn进行特征提取,并通过两个全连接层及Sigmoid非线性激活函数对<人-物体>空间特征进行人物交互检测,用公式(2)、(3)描述:
其中,公式(4)和公式(6)表示两个全连接层运算,公式(5)表示空间特征作为语义注意力引导视觉特征的表达能力的优化过程。关于空间特征作为语义注意力引导视觉特征的表达能力的优化过程将在ii.注意力机制小节解释其动机和具体实现过程。
语义&物体流分支:对于语义&物体流分支,输入为物体的f维视觉特征向量和面向人物交互检测的语义知识图输出的语义特征向量的拼接向量 通过两个全连接层进行特征增强后采用Sigmoid非线性激活函数计算语义对象视觉特征在各交互类别上的概率得分用公式(7)-(9)描述:
其中,为了清晰地表述算法的整体流程及局部细节,对于面向人物交互检测的语义知识图的构建及运算模式,将在iii.基于生活场景的人物交互语义知识图的构建与学习小节进行详细叙述。
动词流分支:考虑到人物交互检测是检测三元组<主语,谓语(动词),宾语>,而“主语”永远被视为人,“宾语”则是在目标检测阶段完成,即人物交互检测的本质是动词检测。以矢量三角形为出发点,将三元组建模为矢量关联关系其中g(x)表示对主语特征和宾语特征的某种函数映射,而不同<人-物体>对构成的人类活动抽象出的同一交互行为的特征表示可以通过三元组的矢量三角形推理得到。基于此假设,提出一种使用正负样本对学习策略,通过对视觉特征的设计抽象出动词表示特征来表示不同交互类行为和非交互类行为。
动词的特征表示的建模与主语特征、宾语特征相关,但矢量关联关系相对复杂。在实验中,从语言学角度出发,假设其矢量关联关系是线性的,利用主语与宾语的嵌入空间的特征差分运算代数化地表示词关联关系,用公式描述如下:
其中,公式(11)和公式(13)表示两个全连接层运算,公式(12)表示空间特征作为语义注意力引导视觉特征的表达能力的优化过程。
ii.注意力机制
由人-物对位置信息构成的相对空间特征已经被验证可以提升人物交互检测的性能,但是以前的研究使用空间特征作为单独的分支进行预测,并未与视觉特征进行信息融合。如果可以将空间特征作为某种先验知识融入视觉特征之中,不仅可以优化视觉特征,而且可以使视觉特征具有表达人物交互的某种空间先验知识的能力。因此,提出使用空间特征作为语义注意力引导人流分支、语义&物体流分支和动词流分支的特征的优化,使视觉特征关注与人物交互相关的区域特征,过滤与人物交互无关的区域特征。
2.具体地,为了使视觉特征更加关注对不同人物交互行为更有辨别力的位置特征,忽视无关位置特征。采用残差结构对视觉特征进行特征增强,语义注意力引导用公式描述如下:
其中,表示任意分支的视觉特征经过语义注意力引导后的视觉特征,表示由人-物体对位置信息构成的空间特征,和表示特征向量对应元素相加,表示特征向量对应元素相乘,通过对视觉特征各位置的注意力加权,增强视觉特征的表达能力,突出与人物交互相关的区域特征,过滤与人物交互无关的区域特征。
iii.面向人物交互检测的语义知识图的构建及其运算模式
考虑到人物交互检测数据存在天然的类别长尾现象,如果能在视觉特征的基础上合理的融入语义知识特征,不仅可以提高整体性能,还可以兼顾罕见类别的性能。因此,基于生活场景的人物交互实例构建了面向人物交互检测的语义知识图,并使用图卷积网络(GCN)对人物交互语义知识图进行聚类学习后融入到物体的视觉特征中,使目标检测阶段的物体在人物交互预测阶段具备人物交互语义先验知识。
具体地,首先从GloVe语料库中检索到人物交互检测数据集HICO-DET(V-COCO)涉及的80类对象和117(29)类动词的语义词向量,并根据生活场景的人-物交互标签将80类对象和117(29)类动词进行“对象-动词”的无向连接(这里并没有连接“对象-对象”和“动词-动词”),由此构建了初始状态下的语义知识图。为了使得语义对象的特征表达能力更强,需要对初始状态下的语义知识图进行学习,使得初始状态下的语义知识图经过聚类学习后具有人物交互语义知识的表达能力。为了达到这一目的,使用图卷积网络对初始状态下的语义知识图中的各语义结点进行聚类学习,使其聚集其它结点的语义信息。图卷积的第k层卷积运算(学习)过程用公式描述如下:
Dii=∑j(A+I)ij (16)
其中,A为构建的语义知识图的邻接矩阵,表示图中各结点之间的连接情况。表示邻接矩阵A被结点的度矩阵D归一化的过程,Fk是第k层结点的输入特征矩阵,Wk为第k层卷积操作的参数矩阵,Fk+1是经过第k层卷积学习后输出的结点特征矩阵。对于图卷积网络的输出特征Fk,在语义&物体流分支加以使用,即语义对象特征
在实验中,使用两层图卷积网络对初始状态的语义知识图进行学习(即k=2)。初始状态下输入结点的维度为300维,隐藏层结点的维度为512维,第二层图卷积网络输出结点的维度为512维,即fw=512。
iv.动词嵌入空间表示
对于动词嵌入空间表示的原理已经在i.多流网络结构小节动词流分支进行了详细描述。在这里主要补充正负样本对学习策略的出发动机。
在V-COCO数据集的实验中,发现动词嵌入空间表示在只使用正样本人-物体对进行模型训练时,只能获得不显著的性能提升。认为在推理阶段模型将不存在交互行为的负样本<人-物体>对尽可能地拟合为某一具体的交互行为,而在训练中并没有让模型学习到非交互行为样本的特征。因此,在模型训练阶段使用正负样本共同参与训练的学习策略训练模型,获得了显著性性能提升。
v.模型优化与交互得分融合
损失函数:为了训练最优化模型,目标是最小化真实标签和预测的动作概率之间的损失。该部分的损失函数主要由i.多流网络结构部分的空间流分支分类损失Lsp、人流分支分类损失Lh、语义&物体流分支分类损失Lso和动词流分支分类损失Lv构成。在实验中,对于C类交互行为的分类问题,使用多分类二元交叉熵损失函数LBCE:
人物交互预测的总损失losshoi为各分支损失之和:
交互得分融合:对于多流网络结构,不同分支具有不同的预测得分,为了利用不同分支的预测得分,以提高最终预测结果的准确性,采用如下公式对人物交互检测得分进行融合:
在实验中,为了调节不同目标检测器对检测得分的设计规则不同,“提升”高目标检测得分的重视度,“弱化”低目标检测得分的重视度,使用低级实例抑制函数对检测得分进行调整。其中,在HICO-DET数据集中的超参数为a=6、b=10、c=1.4和d=0;在V-COCO数据集中的超参数为a=6、b=9、c=10和d=0。
3)实验细节:SKA-Net的视觉特征提取网络ResNet-50和多流网络结构的主要设计参数如表1和表2所示。为了保证实验的公平性,使用与iCAN相同的训练、测试数据,预训练权重和对象检测结果。
为了训练网络,在V-COCO数据集中使用SGD和指数衰减学习率,其初始学习率为1e-3,权重衰减为1e-4,动量为0.9,正负样本比例为1∶2,正样本数量为16/Batch,迭代次数为300k;在HICO-DET数据集中使用SGD和余弦衰减学习率,其初始化学习率为1e-3,衰减步数80k/T,正负样本比例为1:1,正样本数量为16/Batch,迭代次数为300k。在推理阶段,对测试集的目标检测结果进行过滤,过滤掉物体得分小于0.3的检测框和人得分小于0.6的检测框后对图像中剩余的<人-物体>对进行人物交互检测。所有实验均在单张GeForce RTX2080GPU上进行,在Linux***上训练一个最优模型大约花费11小时。
值得注意的是,在HICO-DET训练集中存在严重的类别不平衡现象。为了尽可能地缓解类别不平衡现象带来的消极影响,在HICO-DET和V-COCO数据集的训练过程中,对损失函数LBCE进行加权损失,属于第c类交互行为的权重被计算为其中,C是交互行为类别数,nc是训练集中属于第c类交互行为的样本数量,常数k为权重缩放因子。因此,少数类中的交互行为将被赋予更大的权重,并且在损失中比多数类中的交互行为受到更多的惩罚。
表1
表2
Stream | Input Size | Architecture | Output Sizes |
H Stream | 1x2048 | FC1,FC2 | 1x117/1x29 |
S&O Stream | 1x2048 | FC1,FC2 | 1x117/1x29 |
V Stream | 1x2048 | FC1,FC2 | 1x117/1x29 |
SP Stream | 64x64x2 | CNN,FC1,FC2 | 1x117/1x29 |
为了验证SKA-Net的实际效果,使用公开的人物交互检测数据集HICO-DET和V-COCO进行人物交互检测性能评估。跟随前人的评估方法,使用平均精度AP评估每一类人物交互行为的精度,然后对所有类别的AP再取平均值得到最终的平均精度mAP。
对于图像中的一个人-物体对实例,如果人的检测框和物体的检测框与各自的真实矩形框的交并比IoU(Intersection-over-Union)大于0.5,并且当前人-物体对的人物交互类别标签预测正确,那么当前人-物体对为一个正样本。
为了说明本发明的积极效果,将提出的SKA-Net与最新的人物交互检测方法:iCAN、Interactiveness和PMFNet等进行了比较,通过表3和表4可以看出,本方法取得了更高的精度。具体地,SKA-Net在HICO-DET数据集上获得了18.80mAP的精度,并且在罕见类别上获得了16.81mAP的精度,与最新的人物交互检测算法PMFNet相比,其相对增益分别为7.67%和7.41%;在V-COCO数据集上也获得了51.46mAP的最佳精度。其中,附表1为本发明方法SKA-Net与最新人物交互检测方法在不同类别上的精度比较,也表明本方法的有效性。
表3
表4
Paper | Publish | mAP(Sc.1) | mAP(Sc.2) |
InteractNet | CVPR 2018 | 40.0 | 47.98 |
GPNN | ECCV 2018 | 44.0 | - |
iCAN | BMVC 2018 | 45.3 | 52.4 |
Xu et.al | CVPR 2019 | 45.9 | - |
Interactiveness | CVPR 2019 | 47.8 | 54.2 |
PMFNet | ICCV 2019 | 52.0 | - |
SKA-Net(Ours) | - | 51.46 | 58.85 |
同时,为了验证本模型各部分的效果,在V-COCO数据集上对模型进行了对比试验,对比实验结果如表5所示。其中,将SKA-Net的基线模型SKA-Net[B]定义为由简单的人流分支(H Stream)、物体流分支(O Stream)、空间流分支(SP Stream)构成的模型,此时人物交互检测在V-COCO数据集上的性能为47.46mAP。为表述方便,将SKA-Net的Baseline、VerbStream、语义知识图HOI-Graph和语义空间注意力Attention分别用B、V、G和A进行表示。
表5
Model | mAP(Sc.1) |
SKA-Net[B] | 49.82 |
SKA-Net[BV] | 50.85 |
SKA-Net[BVG] | 51.21 |
SKA-Net[BVGA](Ours) | 51.46 |
SKA-Net[BV]:为了验证通过视觉特征的设计抽象出动词表示特征,来表示不同交互类行为和非交互类行为的正负样本对学习策略的增益。与SKA-Net[B]模型相比,SKA-Net[BV]模型性能从49.82mAP增加到50.85mAP,增益1.03mAP。
SKA-Net[BVG]:为了验证语义知识图(G)对人物交互检测性能的影响,提出面向人物交互检测的语义知识图的构建,并将与物体分支流融合,共同构成语义&物体分支流。与SKA-Net[BV]模型相比,SKA-Net[BVG]模型性能从50.85mAP增加到51.21mAP,增益0.36mAP。
SKA-Net[BVGA]:为了使视觉特征关注不同人物交互行为更有辨别力的位置特征,忽视无关位置特征,提出使用人-物体空间特征作为语义注意力引导视觉分支的特征优化。与SKA-Net[BVG]模型相比,SKA-Net[BVGA]模型性能从51.21mAP增加到51.46mAP,增益0.25mAP。
综上分析,本发明所提出的人物交互检测算法SKA-Net通过在视觉特征中融入真实生活场景的语义知识,并提出通过视觉特征的设计抽象出动词表示特征来表示不同交互类行为和非交互类行为的正负样本对学习策略,同时,提出使用空间特征作为语义注意力引导视觉特征的优化,共同完成了对人物交互检测性能的进一步提升。SKA-Net在HICO-DET数据集及其罕见(Rare)类别上的检测性能都取得了当前最好效果,优于2019年最新的人物交互检测算法。
附表1
HOI Class | #pos | iCAN | Interactiveness(RP<sub>T2</sub>C<sub>D</sub>) | SKA-Net(Ours) |
hold-obj | 3608 | 29.06 | 37.33 | 39.45 |
sit-instr | 1916 | 26.04 | 31.62 | 41.00 |
ride-instr | 556 | 61.90 | 66.28 | 71.18 |
look-obj | 3347 | 26.49 | 32.25 | 36.93 |
hit-instr | 349 | 74.11 | 74.40 | 75.96 |
hit-obj | 349 | 46.13 | 52.59 | 52.99 |
eat-obj | 521 | 37.73 | 39.14 | 42.58 |
eat-instr | 521 | 8.26 | 9.40 | 16.18 |
jump-instr | 635 | 51.45 | 53.83 | 54.84 |
lay-instr | 387 | 22.40 | 29.57 | 31.74 |
talk_on_phone | 285 | 52.81 | 53.59 | 53.99 |
carry-obj | 472 | 32.02 | 40.82 | 41.54 |
throw-obj | 244 | 40.62 | 43.27 | 45.48 |
catch-obj | 246 | 47.61 | 48.38 | 47.69 |
cut-instr | 269 | 37.18 | 41.63 | 42.16 |
cut-obj | 269 | 34.76 | 40.14 | 39.61 |
work_on_comp | 410 | 56.29 | 65.51 | 67.24 |
ski-instr | 424 | 41.69 | 49.95 | 48.84 |
surf-instr | 486 | 77.15 | 79.70 | 77.65 |
skateboard-instr | 417 | 79.35 | 83.39 | 85.59 |
drink-instr | 82 | 32.19 | 34.36 | 40.81 |
kick-obj | 180 | 66.89 | 66.26 | 69.86 |
read-obj | 111 | 30.74 | 29.94 | 37.88 |
snowboard-instr | 277 | 74.35 | 71.59 | 73.81 |
Average mAP | 682 | 45.30 | 48.96 | 51.46 |
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。
Claims (9)
1.一种基于深度学习的人物交互检测方法,其特征在于:该方法包括以下阶段:
(1)目标检测:对RGB图像中的对象实例进行目标检测,以获取对象的检测框、对象类别和对象检测得分,并提供给人物交互检测阶段进行<人-物体>对实例的人物交互检测;
(2)人物交互检测:通过基于深度学习的人物交互检测算法SKA-Net来进行人物交互检测,
SKA-Net突出特征有:其一,基于生活场景的人物交互实例构建面向人物交互检测的语义知识图,并使用图卷积网络GCN对人物交互语义知识图进行学习后融入视觉特征,使视觉特征具备人物交互语义先验知识,引导SKA-Net准确地预测人物交互行为以及更好的预测类别长尾数据;其二,使用正负样本对学习策略,通过对视觉特征的设计抽象出动词表示特征,来表示不同交互类行为和非交互类行为;其三,使用空间特征作为一种先验知识分别引导人的特征、物体特征和抽象动词表示特征的优化,使视觉特征关注与人物交互行为更相关的区域特征,
过滤与人物交互行为无关的区域特征;
所述阶段(1)中,使用在COCO数据集上预训练的Faster R-CNN作为目标检测器;
2.根据权利要求1所述的基于深度学***均池化层GAP将特征图池化为f维向量Ff,其中Ff表示人、物体的f维视觉特征向量。
3.根据权利要求2所述的基于深度学习的人物交互检测方法,其特征在于:对于空间流分支,输入为目标检测输出的所有<人、物体>配对后的位置信息所编码的空间特征图Msp,空间特征图Msp的编码规则为:对于每一对<人、物体>对,空间特征图的第一通道称为人通道,对应人的检测框内的像素为1、检测框外的像素为0;空间特征图的第二通道称为物体通道,对应物体的检测框内的像素为1、检测框外的像素为0;最后取人和物体的检测框所构成的最小包围区域作为空间特征图的有效区域,并缩放为(64,64,2)的大小;
Msp通过浅层卷积神经网络fcnn进行特征提取,并通过两个全连接层及Sigmoid非线性激活函数对<人-物体>空间特征进行人物交互检测,用公式(2)、(3)描述:
7.根据权利要求6所述的基于深度学习的人物交互检测方法,其特征在于:对于面向人物交互检测的语义知识图的构建及运算模式,首先从GloVe语料库中检索到人物交互检测数据集HICO-DET(V-COCO)涉及的80类对象和117(29)类动词的语义词向量,并根据生活场景的人-物交互标签将80类对象和117(29)类动词进行对象-动词的无向连接,由此构建了初始状态下的语义知识图;为了使得语义对象的特征表达能力更强,对初始状态下的语义知识图进行学习,使得初始状态下的语义知识图经过聚类学习后具有人物交互语义知识的表达能力;使用图卷积网络对初始状态下的语义知识图中的各语义结点进行聚类学习,使其聚集其它结点的语义信息;图卷积的第k层卷积运算过程用公式(15)、(16)描述:
Dii=∑j(A+I)ij (16)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010548298.5A CN111914622B (zh) | 2020-06-16 | 2020-06-16 | 一种基于深度学习的人物交互检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010548298.5A CN111914622B (zh) | 2020-06-16 | 2020-06-16 | 一种基于深度学习的人物交互检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111914622A true CN111914622A (zh) | 2020-11-10 |
CN111914622B CN111914622B (zh) | 2024-03-26 |
Family
ID=73237875
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010548298.5A Active CN111914622B (zh) | 2020-06-16 | 2020-06-16 | 一种基于深度学习的人物交互检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111914622B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112699846A (zh) * | 2021-01-12 | 2021-04-23 | 武汉大学 | 一种具有身份一致性校验的特定人物与特定行为联合检索方法及装置 |
CN112800854A (zh) * | 2021-01-04 | 2021-05-14 | 中南大学 | 一种基于图像的机车乘务员作业自动分析*** |
CN113128368A (zh) * | 2021-04-01 | 2021-07-16 | 西安电子科技大学广州研究院 | 一种人物交互关系的检测方法、装置及*** |
CN113469056A (zh) * | 2021-07-02 | 2021-10-01 | 上海商汤智能科技有限公司 | 行为识别方法、装置、电子设备及计算机可读存储介质 |
CN113657116A (zh) * | 2021-08-05 | 2021-11-16 | 天津大学 | 基于视觉语义关系的社交媒体流行度预测方法及装置 |
CN113887468A (zh) * | 2021-10-14 | 2022-01-04 | 西安交通大学 | 一种三阶段网络框架的单视角人-物交互的识别方法 |
CN114005181A (zh) * | 2021-10-29 | 2022-02-01 | 北京百度网讯科技有限公司 | 交互关系的识别方法、装置及电子设备 |
CN114066810A (zh) * | 2021-10-11 | 2022-02-18 | 安庆师范大学 | 一种包装盒凹凸点缺陷检测方法及装置 |
CN114529842A (zh) * | 2022-02-23 | 2022-05-24 | 北京大学深圳研究生院 | 一种基于知识引导下双向注意力机制的人物交互检测方法 |
CN114550223A (zh) * | 2022-04-25 | 2022-05-27 | 中国科学院自动化研究所 | 人物交互检测方法、装置及电子设备 |
WO2022188493A1 (zh) * | 2021-03-12 | 2022-09-15 | 北京沃东天骏信息技术有限公司 | 物体可供性的检测方法和装置 |
WO2022262829A1 (en) * | 2021-06-18 | 2022-12-22 | Huawei Technologies Co., Ltd. | Systems and methods to automatically determine human-object interactions in images |
CN115705708A (zh) * | 2021-08-05 | 2023-02-17 | 豪威科技股份有限公司 | 用于检测人-物交互的成像***及用于检测人-物交互的方法 |
CN115937743A (zh) * | 2022-12-09 | 2023-04-07 | 武汉星巡智能科技有限公司 | 基于图像融合的婴幼儿看护行为识别方法、装置及*** |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120020558A1 (en) * | 2010-07-24 | 2012-01-26 | Canon Kabushiki Kaisha | Method for estimating attribute of object, apparatus thereof, and storage medium |
CN111209915A (zh) * | 2019-12-25 | 2020-05-29 | 上海航天控制技术研究所 | 一种基于深度学习的三维图像同步识别和分割方法 |
-
2020
- 2020-06-16 CN CN202010548298.5A patent/CN111914622B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120020558A1 (en) * | 2010-07-24 | 2012-01-26 | Canon Kabushiki Kaisha | Method for estimating attribute of object, apparatus thereof, and storage medium |
CN111209915A (zh) * | 2019-12-25 | 2020-05-29 | 上海航天控制技术研究所 | 一种基于深度学习的三维图像同步识别和分割方法 |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112800854A (zh) * | 2021-01-04 | 2021-05-14 | 中南大学 | 一种基于图像的机车乘务员作业自动分析*** |
CN112699846A (zh) * | 2021-01-12 | 2021-04-23 | 武汉大学 | 一种具有身份一致性校验的特定人物与特定行为联合检索方法及装置 |
CN112699846B (zh) * | 2021-01-12 | 2022-06-07 | 武汉大学 | 一种具有身份一致性校验的特定人物与特定行为联合检索方法及装置 |
WO2022188493A1 (zh) * | 2021-03-12 | 2022-09-15 | 北京沃东天骏信息技术有限公司 | 物体可供性的检测方法和装置 |
CN113128368A (zh) * | 2021-04-01 | 2021-07-16 | 西安电子科技大学广州研究院 | 一种人物交互关系的检测方法、装置及*** |
WO2022262829A1 (en) * | 2021-06-18 | 2022-12-22 | Huawei Technologies Co., Ltd. | Systems and methods to automatically determine human-object interactions in images |
CN113469056A (zh) * | 2021-07-02 | 2021-10-01 | 上海商汤智能科技有限公司 | 行为识别方法、装置、电子设备及计算机可读存储介质 |
CN113657116A (zh) * | 2021-08-05 | 2021-11-16 | 天津大学 | 基于视觉语义关系的社交媒体流行度预测方法及装置 |
CN115705708B (zh) * | 2021-08-05 | 2024-02-20 | 豪威科技股份有限公司 | 用于检测人-物交互的成像***及用于检测人-物交互的方法 |
CN113657116B (zh) * | 2021-08-05 | 2023-08-08 | 天津大学 | 基于视觉语义关系的社交媒体流行度预测方法及装置 |
CN115705708A (zh) * | 2021-08-05 | 2023-02-17 | 豪威科技股份有限公司 | 用于检测人-物交互的成像***及用于检测人-物交互的方法 |
CN114066810A (zh) * | 2021-10-11 | 2022-02-18 | 安庆师范大学 | 一种包装盒凹凸点缺陷检测方法及装置 |
CN113887468A (zh) * | 2021-10-14 | 2022-01-04 | 西安交通大学 | 一种三阶段网络框架的单视角人-物交互的识别方法 |
CN113887468B (zh) * | 2021-10-14 | 2023-06-16 | 西安交通大学 | 一种三阶段网络框架的单视角人-物交互的识别方法 |
CN114005181A (zh) * | 2021-10-29 | 2022-02-01 | 北京百度网讯科技有限公司 | 交互关系的识别方法、装置及电子设备 |
CN114529842A (zh) * | 2022-02-23 | 2022-05-24 | 北京大学深圳研究生院 | 一种基于知识引导下双向注意力机制的人物交互检测方法 |
CN114529842B (zh) * | 2022-02-23 | 2024-04-26 | 北京大学深圳研究生院 | 一种基于知识引导下双向注意力机制的人物交互检测方法 |
CN114550223B (zh) * | 2022-04-25 | 2022-07-12 | 中国科学院自动化研究所 | 人物交互检测方法、装置及电子设备 |
CN114550223A (zh) * | 2022-04-25 | 2022-05-27 | 中国科学院自动化研究所 | 人物交互检测方法、装置及电子设备 |
CN115937743A (zh) * | 2022-12-09 | 2023-04-07 | 武汉星巡智能科技有限公司 | 基于图像融合的婴幼儿看护行为识别方法、装置及*** |
CN115937743B (zh) * | 2022-12-09 | 2023-11-14 | 武汉星巡智能科技有限公司 | 基于图像融合的婴幼儿看护行为识别方法、装置及*** |
Also Published As
Publication number | Publication date |
---|---|
CN111914622B (zh) | 2024-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111914622A (zh) | 一种基于深度学习的人物交互检测方法 | |
CN111488734B (zh) | 基于全局交互和句法依赖的情感特征表示学习***及方法 | |
CN111061843B (zh) | 一种知识图谱引导的假新闻检测方法 | |
CN106650725B (zh) | 基于全卷积神经网络的候选文本框生成和文本检测方法 | |
CN112926396B (zh) | 一种基于双流卷积注意力的动作识别方法 | |
CN110084151B (zh) | 基于非局部网络深度学习的视频异常行为判别方法 | |
CN106358444B (zh) | 用于面部验证的方法和*** | |
CN111061961A (zh) | 一种融合多特征的矩阵分解兴趣点推荐方法及其实现*** | |
CN111274398B (zh) | 一种方面级用户产品评论情感分析方法及*** | |
CN112084331A (zh) | 文本处理、模型训练方法、装置、计算机设备和存储介质 | |
Bu et al. | A hybrid deep learning system of CNN and LRCN to detect cyberbullying from SNS comments | |
CN111581966A (zh) | 一种融合上下文特征方面级情感分类方法和装置 | |
CN113627447A (zh) | 标签识别方法、装置、计算机设备、存储介质及程序产品 | |
CN109766557A (zh) | 一种情感分析方法、装置、存储介质及终端设备 | |
CN116664719B (zh) | 一种图像重绘模型训练方法、图像重绘方法及装置 | |
CN113220886A (zh) | 文本分类方法、文本分类模型训练方法及相关设备 | |
CN110415071A (zh) | 一种基于观点挖掘分析的汽车竞品对比方法 | |
CN115035418A (zh) | 一种基于改进DeepLabV3+网络的遥感图像语义分割方法及*** | |
KR20200010672A (ko) | 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템 | |
CN111914553B (zh) | 一种基于机器学习的金融信息负面主体判定的方法 | |
CN115223020A (zh) | 图像处理方法、装置、电子设备以及可读存储介质 | |
CN114332288B (zh) | 基于短语驱动生成对抗网络的文本生成图像的方法及网络 | |
Pise et al. | Relational reasoning using neural networks: a survey | |
CN112183645B (zh) | 基于上下文感知的注意力机制的图像美学质量评价方法 | |
CN114168769B (zh) | 基于gat关系推理的视觉问答方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |