CN111914622A

CN111914622A - 一种基于深度学习的人物交互检测方法

Info

Publication number: CN111914622A
Application number: CN202010548298.5A
Authority: CN
Inventors: 孔德慧; 王志凯; 吴永鹏; 王少帆; 李敬华
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-06-16
Filing date: 2020-06-16
Publication date: 2020-11-10
Anticipated expiration: 2040-06-16
Also published as: CN111914622B

Abstract

公开一种基于深度学习的人物交互检测方法，其能够提升预测精度，使模型推理速度更快。该方法包括：(1)目标检测：对RGB图像中的对象实例进行目标检测，以获取对象的检测框、对象类别和对象检测得分，并提供给人物交互检测阶段进行<人‑物体>对实例的人物交互检测；(2)人物交互检测：通过基于深度学习的人物交互检测算法SKA‑Net来进行人物交互检测。

Description

一种基于深度学习的人物交互检测方法

技术领域

本发明涉及计算机视觉和人物交互检测的技术领域，尤其涉及一种基于深度学习的人物交互检测方法。

背景技术

行为识别在计算机视觉领域颇受关注，但是基于视频的行为识别大多是检测一个不足以代表真实生活场景的简单动作，扩展基于RGB图像的人类行为识别成为可行及必然的任务。人物交互检测(HOI Detection)要求模型明确地定位图像中人与物体的位置，同时正确预测其交互行为。通过研究人物交互检测来模拟人类认识周围世界的方式，可以促进服务型机器人技术的研究。同时，识别图像蕴含的人物交互行为，是实现机器自动理解图像主题、自动描述图像主要内容的关键技术之一。

近年来，随着深度学***衡问题，人物交互检测数据也存在天然的类别长尾现象。为了提升人物交互检测的罕见类别的性能，Xu et.al等人使用语义知识进行多模态联合嵌入学习，该模型学习了一个语义结构感知的动词嵌入空间，在推理阶段利用视觉特征和动词语义特征之间的语义相似度来检索最能描述被检测到的人、物对的动词。视觉特征和语义特征隶属不同模态的特征，利用彼此的语义相似度系数进行动词预测，弱化了视觉特征对模型的关键作用；并且语义特征并未融入模型中，导致该算法在罕见类别上精度有所提升，但在整体性能上仍然面临着精度低的问题。

发明内容

为克服现有技术的缺陷，本发明要解决的技术问题是提供了一种基于深度学习的人物交互检测方法，该方法通过构建面向人物交互检测的语义知识图和动词特征表示并使用空间先验知识作为注意力引导视觉特征的优化，不仅能够提升模型整体预测精度、保证模型推理速度，而且可以较好的对罕见类人物交互行为进行准确预测。

本发明的技术方案是：一种基于深度学习的人物交互检测方法，该方法包括以下阶段：

(1)目标检测：对RGB图像中的对象实例进行目标检测，以获取对象的检测框、对象类别和对象检测得分，并提供给人物交互检测阶段进行<人-物体>对实例的人物交互检测；

(2)人物交互检测：通过基于深度学习的人物交互检测算法SKA-Net来进行人物交互检测，

SKA-Net主要创新性包括：其一，基于生活场景的人物交互实例构建面向人物交互检测的语义知识图，并使用图卷积网络GCN对人物交互语义知识图进行学习后融入视觉特征，使视觉特征具备人物交互语义先验知识，引导SKA-Net准确地预测人物交互行为以及更好的预测类别长尾数据；其二，使用正负样本对学习策略，通过对视觉特征的设计抽象出动词表示特征，来表示不同交互类行为和非交互类行为；其三，使用空间特征作为一种先验知识分别引导人的特征、物体特征和抽象动词表示特征的优化，使视觉特征关注与人物交互行为更相关的区域特征，过滤与人物交互行为无关的区域特征；

所述阶段(1)中，使用在COCO数据集上预训练的Faster R-CNN作为目标检测器；

所述阶段(2)中，SKA-Net的输入为RGB图像

人的检测框信息

物体的检测框信息

输出为图像中所有的<人-物体>

对实例的交互行为得分

用公式(1)描述：

其中，

为图像

中m个人的集合，

为图像

中n个物体的集合，函数

对应SKA-Net算法模型，

表示m个人与n个物体交互所产生的m*n个<人-物体>对实例的交互行为得分。

本发明通过准确地预测人物交互行为以及更好的预测类别长尾数据，来提升预测精度；通过对视觉特征的设计抽象出动词表示特征来表示不同交互类行为和非交互类行为，使用空间特征作为一种先验知识分别引导人的特征、物体特征和抽象动词表示特征的优化，使视觉特征关注与人物交互行为更相关的区域特征，过滤与人物交互行为无关的区域特征，从而使模型推理速度更快。

附图说明

图1示出了根据本发明的基于深度学习的人物交互检测方法的SKA-Net整体流程图。

图2示出了根据本发明的基于深度学习的人物交互检测方法的SKA-Net网络结构设计。

图3示出了根据本发明的基于深度学习的人物交互检测方法的流程图。

具体实施方式

如图3所示，这种基于深度学习的人物交互检测方法，该方法包括以下阶段：

所述阶段(2)中，SKA-Net的输入为RGB图像

人的检测框信息

物体的检测框信息

输出为图像中所有的<人-物体>

对实例的交互行为得分

用公式(1)描述：

其中，

为图像

中m个人的集合，

为图像

中n个物体的集合，函数

对应SKA-Net算法模型，

优选地，SKA-Net采用多流网络结构，多流网络结构由人流、语义&物体流、动词流和空间流构成；为了得到各分支的输入特征，使用残差网络ResNet50提取所需要的视觉特征；原始输入图像首先经过目标检测网络Faster R-CNN进行目标检测，获得原始输入图像的人、物体检测框信息后将标记有人、物***置的图像输入ResNet50网络提取图像的全局特征图，并对全局特征图中人、物***置进行感兴趣池化ROI Pooling操作以提取人、物体区域的特征图，最后对特征图进行最大池化Max Pooling操作得到最终的人、物体特征图；为了得到人、物体的视觉特征向量，使用Res5残差块对人、物体特征图进行优化并使用全局平均池化层GAP将特征图池化为f维向量F^f，其中F^f表示人、物体的f维视觉特征向量。

优选地，对于空间流分支，输入为目标检测输出的所有<人、物体>配对后的位置信息所编码的空间特征图M_sp，空间特征图M_sp的编码规则为：对于每一对<人、物体>对，空间特征图的第一通道称为人通道，对应人的检测框内的像素为1、检测框外的像素为0；空间特征图的第二通道称为物体通道，对应物体的检测框内的像素为1、检测框外的像素为0；最后取人和物体的检测框所构成的最小包围区域作为空间特征图的有效区域，并缩放为(64,64,2)的大小；

M_sp通过浅层卷积神经网络f_cnn进行特征提取，并通过两个全连接层及Sigmoid非线性激活函数对<人-物体>空间特征进行人物交互检测，用公式(2)、(3)描述：

其中，

表示全连接层参数矩阵。

优选地，对于人流分支，输入为人的f维视觉特征向量

通过两个全连接层进行特征增强后采用Sigmoid非线性激活函数计算人流特征在各交互类别上的概率得分

用公式(4)-(6)描述：

其中，公式(4)和公式(6)表示两个全连接层运算，公式(5)表示空间特征作为语义注意力引导视觉特征的表达能力的优化过程。

优选地，关于空间特征作为语义注意力引导视觉特征的表达能力的优化过程，为了使视觉特征更加关注对不同人物交互行为更有辨别力的位置特征，忽视无关位置特征，采用残差结构对视觉特征进行特征增强，语义注意力引导用公式(14)描述：

其中，

表示任意分支的视觉特征

经过语义注意力引导后的视觉特征，

表示由人-物体对位置信息构成的空间特征，

和表示特征向量对应元素相加，

表示特征向量对应元素相乘，通过

对视觉特征

各位置的注意力加权，增强视觉特征

的表达能力，突出与人物交互相关的区域特征，过滤与人物交互无关的区域特征。

优选地，对于语义&物体流分支，输入为物体的f维视觉特征向量

和面向人物交互检测的语义知识图输出的语义特征向量

的拼接向量

通过两个全连接层进行特征增强后采用Sigmoid非线性激活函数计算语义对象视觉特征在各交互类别上的概率得分

用公式(7)-(9)描述：

优选地，对于面向人物交互检测的语义知识图的构建及运算模式，首先从GloVe语料库中检索到人物交互检测数据集HICO-DET(V-COCO)涉及的80类对象和117(29)类动词的语义词向量，并根据生活场景的人-物交互标签将80类对象和117(29)类动词进行对象-动词的无向连接，由此构建了初始状态下的语义知识图；为了使得语义对象的特征表达能力更强，对初始状态下的语义知识图进行学习，使得初始状态下的语义知识图经过聚类学习后具有人物交互语义知识的表达能力；使用图卷积网络对初始状态下的语义知识图中的各语义结点进行聚类学习，使其聚集其它结点的语义信息；图卷积的第k层卷积运算过程用公式(15)、(16)描述：

D_ii＝∑_j(A+I)_ij (16)

其中，A为构建的语义知识图的邻接矩阵，表示图中各结点之间的连接情况，

表示邻接矩阵A被结点的度矩阵D归一化的过程，F_k是第k层结点的输入特征矩阵，W_k为第k层卷积操作的参数矩阵，F_k+1是经过第k层卷积学习后输出的结点特征矩阵，对于图卷积网络的输出特征F_k，在语义&物体流分支加以使用，为语义对象特征

优选地，对于动词流分支，输入为动词特征表示

通过两个全连接层进行特征增强后采用Sigmoid非线性激活函数计算动词特征表示在各交互类别上的概率得分

用公式(11)-(13)描述：

以下更详细地说明本发明。

本发明所提出的基于深度学习的人物交互检测算法可以分解为两阶段。1)目标检测：检测输入图像中的所有对象实例。2)人物交互检测：对图像中所有的<人-物体>对实例进行人物交互检测。SKA-Net网络结构设计如图2所示。

1)目标检测：该部分主要负责对RGB图像中的对象实例进行目标检测，以获取对象的检测框、对象类别和对象检测得分，并提供给人物交互检测阶段进行<人-物体>对实例的人物交互检测。在实验中，使用在COCO数据集上预训练的Faster R-CNN作为目标检测器。

2)人物交互检测：人物交互行为的场景复杂，一个人可以同时对不同的对象进行交互，例如：“人坐在椅子上玩电脑”，简单地利用视觉特征不可能得到高性能预测。人物交互检测的本质是动词检测，需要通过对视觉特征的学习抽象出动词表示特征。同时，考虑到人物交互检测数据存在天然的类别长尾现象，如果在视觉特征中融入语义知识，不仅可以提高整体性能，还可以兼顾罕见类别的性能。基于这些动机，提出了基于深度学习的人物交互检测算法SKA-Net。

SKA-Net的创新点主要包括以下三点。其一，基于生活场景的人物交互实例构建面向人物交互检测的语义知识图，并使用图卷积网络GCN对人物交互语义知识图进行学习后融入视觉特征，使视觉特征具备人物交互语义先验知识，引导SKA-Net准确地预测人物交互行为以及更好的预测类别长尾数据。其二，考虑到人物交互检测是检测三元组<主语，谓语，宾语>，而“宾语”其实是在目标检测阶段完成，即人物交互检测的本质是动词检测。而不同人-物体对进行的人类活动抽象出的同一交互行为在理想情况下的特征表示向量基本相同。基于此假设，提出一种使用正负样本对学习策略，通过对视觉特征的设计抽象出动词表示特征，来表示不同交互类行为(例如：吃、骑、打开等)和非交互类行为(即：没有交互发生)。其三，使用空间特征作为一种先验知识分别引导人的特征、物体特征和抽象动词表示特征的优化，使视觉特征关注与人物交互行为更相关的区域特征，过滤与人物交互行为无关的区域特征，使SKA-Net在人物交互检测性能上获得进一步提升。

人物交互检测算法SKA-Net的输入为RGB图像

人的检测框信息

物体的检测框信息

输出为图像中所有的<人-物>对实例的交互行为得分

用公式描述如下：

其中，

为图像

中m个人的集合，

为图像

中n个物体的集合，函数

对应本文的SKA-Net算法模型。因此，

人物交互检测算法SKA-Net采用多流网络结构设计，主要由人流分支、语义&物体流分支、动词流分支和空间流分支构成。为清晰可见，首先介绍多流网络结构的各分支的整体流程，然后以小节形式单独介绍其中涉及的注意力机制、面向人物交互检测的语义知识图的构建及其运算模式等组件。

i.多流网络结构

多流网络结构由人流、语义&物体流、动词流和空间流构成。为了得到各分支的输入特征，使用残差网络ResNet50提取所需要的视觉特征。原始输入图像首先经过目标检测网络Faster R-CNN进行目标检测，获得原始输入图像的人、物体检测框信息后将标记有人、物***置的图像输入ResNet50网络提取图像的全局特征图，并对全局特征图中人、物***置进行感兴趣池化(ROI Pooling)操作以提取人、物体区域的特征图，最后对特征图进行最大池化(Max Pooling)操作得到最终的人、物体特征图。为了得到人、物体的视觉特征向量，使用Res5残差块对人、物体特征图进行优化并使用全局平均池化层(GAP)将特征图池化为f维向量F^f。简言之，主干网络的视觉特征向量提取过程为：Image→Resnet50→ROI Pooling→Max Pooling→Res5→GAP→F^f，其中F^f表示人、物体的f维视觉特征向量。SKA-Net整体流程图如图1所示。

空间流分支：对于空间流分支，输入为目标检测输出的所有<人、物体>配对后的位置信息所编码的空间特征图M_sp。空间特征图M_sp的编码规则为：对于每一对<人、物体>对，空间特征图的第一通道称为人通道，对应人的检测框内的像素为1、检测框外的像素为0；空间特征图的第二通道称为物体通道，对应物体的检测框内的像素为1、检测框外的像素为0；最后取人和物体的检测框所构成的最小包围区域作为空间特征图的有效区域，并缩放为(64，64，2)的大小。

其中，

表示全连接层参数矩阵。

1.人流分支：对于人流分支，输入为人的f维视觉特征向量

用公式(4)-(6)描述：

其中，公式(4)和公式(6)表示两个全连接层运算，公式(5)表示空间特征作为语义注意力引导视觉特征的表达能力的优化过程。关于空间特征作为语义注意力引导视觉特征的表达能力的优化过程将在ii.注意力机制小节解释其动机和具体实现过程。

语义&物体流分支：对于语义&物体流分支，输入为物体的f维视觉特征向量

和面向人物交互检测的语义知识图输出的语义特征向量

的拼接向量

用公式(7)-(9)描述：

其中，为了清晰地表述算法的整体流程及局部细节，对于面向人物交互检测的语义知识图的构建及运算模式，将在iii.基于生活场景的人物交互语义知识图的构建与学习小节进行详细叙述。

动词流分支：考虑到人物交互检测是检测三元组<主语，谓语(动词)，宾语>，而“主语”永远被视为人，“宾语”则是在目标检测阶段完成，即人物交互检测的本质是动词检测。以矢量三角形为出发点，将三元组建模为矢量关联关系

其中g(x)表示对主语特征

和宾语特征

的某种函数映射，而不同<人-物体>对构成的人类活动抽象出的同一交互行为的特征表示

可以通过三元组的矢量三角形推理得到。基于此假设，提出一种使用正负样本对学习策略，通过对视觉特征的设计抽象出动词表示特征来表示不同交互类行为和非交互类行为。

动词的特征表示的建模与主语特征、宾语特征相关，但矢量关联关系相对复杂。在实验中，从语言学角度出发，假设其矢量关联关系是线性的，利用主语与宾语的嵌入空间的特征差分运算代数化地表示词关联关系，用公式描述如下：

其中，

表示差分嵌入运算，即主语特征

与宾语特征

对应元素做差。

1.对于动词流分支，输入为动词特征表示

用公式描述如下：

其中，公式(11)和公式(13)表示两个全连接层运算，公式(12)表示空间特征作为语义注意力引导视觉特征的表达能力的优化过程。

ii.注意力机制

由人-物对位置信息构成的相对空间特征已经被验证可以提升人物交互检测的性能，但是以前的研究使用空间特征作为单独的分支进行预测，并未与视觉特征进行信息融合。如果可以将空间特征作为某种先验知识融入视觉特征之中，不仅可以优化视觉特征，而且可以使视觉特征具有表达人物交互的某种空间先验知识的能力。因此，提出使用空间特征作为语义注意力引导人流分支、语义&物体流分支和动词流分支的特征的优化，使视觉特征关注与人物交互相关的区域特征，过滤与人物交互无关的区域特征。

2.具体地，为了使视觉特征更加关注对不同人物交互行为更有辨别力的位置特征，忽视无关位置特征。采用残差结构对视觉特征进行特征增强，语义注意力引导用公式描述如下：

其中，

表示任意分支的视觉特征

经过语义注意力引导后的视觉特征，

表示由人-物体对位置信息构成的空间特征，

和表示特征向量对应元素相加，

表示特征向量对应元素相乘，通过

对视觉特征

各位置的注意力加权，增强视觉特征

iii.面向人物交互检测的语义知识图的构建及其运算模式

考虑到人物交互检测数据存在天然的类别长尾现象，如果能在视觉特征的基础上合理的融入语义知识特征，不仅可以提高整体性能，还可以兼顾罕见类别的性能。因此，基于生活场景的人物交互实例构建了面向人物交互检测的语义知识图，并使用图卷积网络(GCN)对人物交互语义知识图进行聚类学习后融入到物体的视觉特征中，使目标检测阶段的物体在人物交互预测阶段具备人物交互语义先验知识。

具体地，首先从GloVe语料库中检索到人物交互检测数据集HICO-DET(V-COCO)涉及的80类对象和117(29)类动词的语义词向量，并根据生活场景的人-物交互标签将80类对象和117(29)类动词进行“对象-动词”的无向连接(这里并没有连接“对象-对象”和“动词-动词”)，由此构建了初始状态下的语义知识图。为了使得语义对象的特征表达能力更强，需要对初始状态下的语义知识图进行学习，使得初始状态下的语义知识图经过聚类学习后具有人物交互语义知识的表达能力。为了达到这一目的，使用图卷积网络对初始状态下的语义知识图中的各语义结点进行聚类学习，使其聚集其它结点的语义信息。图卷积的第k层卷积运算(学习)过程用公式描述如下：

D_ii＝∑_j(A+I)_ij (16)

其中，A为构建的语义知识图的邻接矩阵，表示图中各结点之间的连接情况。

表示邻接矩阵A被结点的度矩阵D归一化的过程，F_k是第k层结点的输入特征矩阵，W_k为第k层卷积操作的参数矩阵，F_k+1是经过第k层卷积学习后输出的结点特征矩阵。对于图卷积网络的输出特征F_k，在语义&物体流分支加以使用，即语义对象特征

在实验中，使用两层图卷积网络对初始状态的语义知识图进行学习(即k＝2)。初始状态下输入结点的维度为300维，隐藏层结点的维度为512维，第二层图卷积网络输出结点的维度为512维，即f_w＝512。

iv.动词嵌入空间表示

对于动词嵌入空间表示的原理已经在i.多流网络结构小节动词流分支进行了详细描述。在这里主要补充正负样本对学习策略的出发动机。

在V-COCO数据集的实验中，发现动词嵌入空间表示在只使用正样本人-物体对进行模型训练时，只能获得不显著的性能提升。认为在推理阶段模型将不存在交互行为的负样本<人-物体>对尽可能地拟合为某一具体的交互行为，而在训练中并没有让模型学习到非交互行为样本的特征。因此，在模型训练阶段使用正负样本共同参与训练的学习策略训练模型，获得了显著性性能提升。

v.模型优化与交互得分融合

损失函数：为了训练最优化模型，目标是最小化真实标签和预测的动作概率之间的损失。该部分的损失函数主要由i.多流网络结构部分的空间流分支分类损失L_sp、人流分支分类损失L_h、语义&物体流分支分类损失L_so和动词流分支分类损失L_v构成。在实验中，对于C类交互行为的分类问题，使用多分类二元交叉熵损失函数L_BCE：

人物交互预测的总损失loss_hoi为各分支损失之和：

其中，

和

为多流网络结构中各分支预测的交互类别的概率得分。实验中，为了表达不同分支的不同贡献能力，使用不同的权重系数α＝2、β＝2和λ＝1.5对各分支损失进行加权。

交互得分融合：对于多流网络结构，不同分支具有不同的预测得分，为了利用不同分支的预测得分，以提高最终预测结果的准确性，采用如下公式对人物交互检测得分进行融合：

其中，S_hoi为人物交互检测的最终得分，s_h和s_o为目标检测得分，

为在C类交互行为分类任务中属于每一类别的概率得分向量，

中角标*表示不同的分支。

在实验中，为了调节不同目标检测器对检测得分的设计规则不同，“提升”高目标检测得分的重视度，“弱化”低目标检测得分的重视度，使用低级实例抑制函数

对检测得分进行调整。其中，在HICO-DET数据集中的超参数为a＝6、b＝10、c＝1.4和d＝0；在V-COCO数据集中的超参数为a＝6、b＝9、c＝10和d＝0。

3)实验细节：SKA-Net的视觉特征提取网络ResNet-50和多流网络结构的主要设计参数如表1和表2所示。为了保证实验的公平性，使用与iCAN相同的训练、测试数据，预训练权重和对象检测结果。

为了训练网络，在V-COCO数据集中使用SGD和指数衰减学习率，其初始学习率为1e-3，权重衰减为1e-4，动量为0.9，正负样本比例为1∶2，正样本数量为16/Batch，迭代次数为300k；在HICO-DET数据集中使用SGD和余弦衰减学习率，其初始化学习率为1e-3，衰减步数80k/T，正负样本比例为1:1，正样本数量为16/Batch，迭代次数为300k。在推理阶段，对测试集的目标检测结果进行过滤，过滤掉物体得分小于0.3的检测框和人得分小于0.6的检测框后对图像中剩余的<人-物体>对进行人物交互检测。所有实验均在单张GeForce RTX2080GPU上进行，在Linux***上训练一个最优模型大约花费11小时。

值得注意的是，在HICO-DET训练集中存在严重的类别不平衡现象。为了尽可能地缓解类别不平衡现象带来的消极影响，在HICO-DET和V-COCO数据集的训练过程中，对损失函数L_BCE进行加权损失，属于第c类交互行为的权重被计算为

其中，C是交互行为类别数,n_c是训练集中属于第c类交互行为的样本数量，常数k为权重缩放因子。因此，少数类中的交互行为将被赋予更大的权重，并且在损失中比多数类中的交互行为受到更多的惩罚。

表1

表2

Stream	Input Size	Architecture	Output Sizes
				H Stream	1x2048	FC1,FC2	1x117/1x29
S&O Stream	1x2048	FC1,FC2	1x117/1x29
				V Stream	1x2048	FC1,FC2	1x117/1x29
SP Stream	64x64x2	CNN,FC1,FC2	1x117/1x29

为了验证SKA-Net的实际效果，使用公开的人物交互检测数据集HICO-DET和V-COCO进行人物交互检测性能评估。跟随前人的评估方法，使用平均精度AP评估每一类人物交互行为的精度，然后对所有类别的AP再取平均值得到最终的平均精度mAP。

对于图像中的一个人-物体对实例，如果人的检测框和物体的检测框与各自的真实矩形框的交并比IoU(Intersection-over-Union)大于0.5，并且当前人-物体对的人物交互类别标签预测正确，那么当前人-物体对为一个正样本。

为了说明本发明的积极效果，将提出的SKA-Net与最新的人物交互检测方法：iCAN、Interactiveness和PMFNet等进行了比较，通过表3和表4可以看出，本方法取得了更高的精度。具体地，SKA-Net在HICO-DET数据集上获得了18.80mAP的精度，并且在罕见类别上获得了16.81mAP的精度，与最新的人物交互检测算法PMFNet相比，其相对增益分别为7.67％和7.41％；在V-COCO数据集上也获得了51.46mAP的最佳精度。其中，附表1为本发明方法SKA-Net与最新人物交互检测方法在不同类别上的精度比较，也表明本方法的有效性。

表3

表4

Paper	Publish	mAP(Sc.1)	mAP(Sc.2)
				InteractNet	CVPR 2018	40.0	47.98
GPNN	ECCV 2018	44.0	-
				iCAN	BMVC 2018	45.3	52.4
Xu et.al	CVPR 2019	45.9	-
				Interactiveness	CVPR 2019	47.8	54.2
PMFNet	ICCV 2019	52.0	-
				SKA-Net(Ours)	-	51.46	58.85

同时，为了验证本模型各部分的效果，在V-COCO数据集上对模型进行了对比试验，对比实验结果如表5所示。其中，将SKA-Net的基线模型SKA-Net[B]定义为由简单的人流分支(H Stream)、物体流分支(O Stream)、空间流分支(SP Stream)构成的模型，此时人物交互检测在V-COCO数据集上的性能为47.46mAP。为表述方便，将SKA-Net的Baseline、VerbStream、语义知识图HOI-Graph和语义空间注意力Attention分别用B、V、G和A进行表示。

表5

Model	mAP(Sc.1)
		SKA-Net[B]	49.82
SKA-Net[BV]	50.85
		SKA-Net[BVG]	51.21
SKA-Net[BVGA](Ours)	51.46

SKA-Net[BV]：为了验证通过视觉特征的设计抽象出动词表示特征，来表示不同交互类行为和非交互类行为的正负样本对学习策略的增益。与SKA-Net[B]模型相比，SKA-Net[BV]模型性能从49.82mAP增加到50.85mAP，增益1.03mAP。

SKA-Net[BVG]：为了验证语义知识图(G)对人物交互检测性能的影响，提出面向人物交互检测的语义知识图的构建，并将与物体分支流融合，共同构成语义&物体分支流。与SKA-Net[BV]模型相比，SKA-Net[BVG]模型性能从50.85mAP增加到51.21mAP，增益0.36mAP。

SKA-Net[BVGA]：为了使视觉特征关注不同人物交互行为更有辨别力的位置特征，忽视无关位置特征，提出使用人-物体空间特征作为语义注意力引导视觉分支的特征优化。与SKA-Net[BVG]模型相比，SKA-Net[BVGA]模型性能从51.21mAP增加到51.46mAP，增益0.25mAP。

综上分析，本发明所提出的人物交互检测算法SKA-Net通过在视觉特征中融入真实生活场景的语义知识，并提出通过视觉特征的设计抽象出动词表示特征来表示不同交互类行为和非交互类行为的正负样本对学习策略，同时，提出使用空间特征作为语义注意力引导视觉特征的优化，共同完成了对人物交互检测性能的进一步提升。SKA-Net在HICO-DET数据集及其罕见(Rare)类别上的检测性能都取得了当前最好效果，优于2019年最新的人物交互检测算法。

附表1

HOI Class	#pos	iCAN	Interactiveness(RP<sub>T2</sub>C<sub>D</sub>)	SKA-Net(Ours)
					hold-obj	3608	29.06	37.33	39.45
sit-instr	1916	26.04	31.62	41.00
					ride-instr	556	61.90	66.28	71.18
look-obj	3347	26.49	32.25	36.93
					hit-instr	349	74.11	74.40	75.96
hit-obj	349	46.13	52.59	52.99
					eat-obj	521	37.73	39.14	42.58
eat-instr	521	8.26	9.40	16.18
					jump-instr	635	51.45	53.83	54.84
lay-instr	387	22.40	29.57	31.74
					talk_on_phone	285	52.81	53.59	53.99
carry-obj	472	32.02	40.82	41.54
					throw-obj	244	40.62	43.27	45.48
catch-obj	246	47.61	48.38	47.69
					cut-instr	269	37.18	41.63	42.16
cut-obj	269	34.76	40.14	39.61
					work_on_comp	410	56.29	65.51	67.24
ski-instr	424	41.69	49.95	48.84
					surf-instr	486	77.15	79.70	77.65
skateboard-instr	417	79.35	83.39	85.59
					drink-instr	82	32.19	34.36	40.81
kick-obj	180	66.89	66.26	69.86
					read-obj	111	30.74	29.94	37.88
snowboard-instr	277	74.35	71.59	73.81
					Average mAP	682	45.30	48.96	51.46

以上所述，仅是本发明的较佳实施例，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属本发明技术方案的保护范围。

Claims

1.一种基于深度学习的人物交互检测方法，其特征在于：该方法包括以下阶段：

SKA-Net突出特征有：其一，基于生活场景的人物交互实例构建面向人物交互检测的语义知识图，并使用图卷积网络GCN对人物交互语义知识图进行学习后融入视觉特征，使视觉特征具备人物交互语义先验知识，引导SKA-Net准确地预测人物交互行为以及更好的预测类别长尾数据；其二，使用正负样本对学习策略，通过对视觉特征的设计抽象出动词表示特征，来表示不同交互类行为和非交互类行为；其三，使用空间特征作为一种先验知识分别引导人的特征、物体特征和抽象动词表示特征的优化，使视觉特征关注与人物交互行为更相关的区域特征，

过滤与人物交互行为无关的区域特征；

所述阶段(2)中，SKA-Net的输入为RGB图像

人的检测框信息

物体的检测框信息

输出为图像中所有的<人-物体>对实例的交互行为得分

用公式(1)描述：

其中，

为图像

中m个人的集合，

为图像

中n个物体的集合，函数

对应SKA-Net算法模型，

2.根据权利要求1所述的基于深度学***均池化层GAP将特征图池化为f维向量F^f，其中F^f表示人、物体的f维视觉特征向量。

3.根据权利要求2所述的基于深度学习的人物交互检测方法，其特征在于：对于空间流分支，输入为目标检测输出的所有<人、物体>配对后的位置信息所编码的空间特征图M_sp，空间特征图M_sp的编码规则为：对于每一对<人、物体>对，空间特征图的第一通道称为人通道，对应人的检测框内的像素为1、检测框外的像素为0；空间特征图的第二通道称为物体通道，对应物体的检测框内的像素为1、检测框外的像素为0；最后取人和物体的检测框所构成的最小包围区域作为空间特征图的有效区域，并缩放为(64,64,2)的大小；

其中，

表示全连接层参数矩阵。

4.根据权利要求3所述的基于深度学习的人物交互检测方法，其特征在于：对于人流分支，输入为人的f维视觉特征向量

用公式(4)-(6)描述：

5.根据权利要求4所述的基于深度学习的人物交互检测方法，其特征在于：关于空间特征作为语义注意力引导视觉特征的表达能力的优化过程，为了使视觉特征更加关注对不同人物交互行为更有辨别力的位置特征，忽视无关位置特征，采用残差结构对视觉特征进行特征增强，语义注意力引导用公式(14)描述：

其中，

表示任意分支的视觉特征

经过语义注意力引导后的视觉特征，

表示由人-物体对位置信息构成的空间特征，

和表示特征向量对应元素相加，

表示特征向量对应元素相乘，通过

对视觉特征

各位置的注意力加权，增强视觉特征

6.根据权利要求5所述的基于深度学习的人物交互检测方法，其特征在于：对于语义&物体流分支，输入为物体的f维视觉特征向量

和面向人物交互检测的语义知识图输出的语义特征向量

的拼接向量

用公式(7)-(9)描述：

7.根据权利要求6所述的基于深度学习的人物交互检测方法，其特征在于：对于面向人物交互检测的语义知识图的构建及运算模式，首先从GloVe语料库中检索到人物交互检测数据集HICO-DET(V-COCO)涉及的80类对象和117(29)类动词的语义词向量，并根据生活场景的人-物交互标签将80类对象和117(29)类动词进行对象-动词的无向连接，由此构建了初始状态下的语义知识图；为了使得语义对象的特征表达能力更强，对初始状态下的语义知识图进行学习，使得初始状态下的语义知识图经过聚类学习后具有人物交互语义知识的表达能力；使用图卷积网络对初始状态下的语义知识图中的各语义结点进行聚类学习，使其聚集其它结点的语义信息；图卷积的第k层卷积运算过程用公式(15)、(16)描述：