CN113643241A

CN113643241A - 交互关系检测方法、交互关系检测模型训练方法及装置

Info

Publication number: CN113643241A
Application number: CN202110803250.9A
Authority: CN
Inventors: 邹城; 李伯勋; 张弛
Original assignee: Beijing Kuangshi Technology Co Ltd; Beijing Megvii Technology Co Ltd
Current assignee: Beijing Kuangshi Technology Co Ltd; Beijing Megvii Technology Co Ltd
Priority date: 2021-07-15
Filing date: 2021-07-15
Publication date: 2021-11-12

Abstract

本发明公开了一种交互关系检测方法、交互关系检测模型训练方法和装置，所述方法包括：获取目标图像，目标图像包含第一类型的目标和第二类型的目标；通过交互关系检测模型中的特征提取网络对目标图像进行特征提取，得到多个特征向量，每个特征向量用于表征一个第一类型的目标和一个第二类型的目标之间的交互关系；通过交互关系检测模型中的交互关系检测网络，对多个特征向量进行交互关系检测，得到交互关系检测结果；交互关系检测模型是对待训练交互关系检测模型进行训练得到的，用于训练待训练交互关系检测模型的至少部分样本图像在标签空间经过数据增强。

Description

交互关系检测方法、交互关系检测模型训练方法及装置

技术领域

本发明涉及图像处理技术领域，具体涉及一种交互关系检测方法、一种交互关系检测模型训练方法、装置、电子设备及可读存储介质。

背景技术

近年来，在目标检测和识别领域取得了较大进展。但是，要了解场景中的情况，还需要认识到图像中各个目标之间如何互动。交互关系检测是一种基于视觉图像来研究不同目标之间交互关系的方法。其中的目标可以为物体(例如物品、动物、植物等)，也可以为人物。例如，HOI(Human-object interaction，人物交互检测/人物关系检测)是一种基于视觉图像来研究人与物体之间关系的方法，此时的目标分别为人与物体。

在实际应用中，由于不同交互关系类别天然地分布不均，因此，现实场景中的交互关系检测任务一般会存在明显的长尾问题——即少数频发的交互关系，数据易获得，所以训练样本多，而大多数的交互关系，由于发生频次低，数据难获得，训练样本少。如果通过网络直接学习样本，就容易导致对于训练样本多的交互关系类别的预测结果较好，而对于训练样本少的交互关系类别的预测结果很差。

相关技术中，主要通过在特征空间进行数据增强来解决上述长尾问题。以HOI检测为例，典型做法是基于两阶段(目标检测、交互关系分类两个阶段)的方法，先用一个目标检测器来检测出图像中的行人和物体，然后提取出行人和物体的视觉特征，然后在关系分类阶段之前，在同一张图像内部，或者在多张图像之间，尝试组合每个人和每个物体，找到合法的组合作为新的正样本，来训练一个交互关系检测模型。但是，上述方式由于需要对关系分类阶段的同一张图像内部，或者在多张图像之间交互关系进行数据增强，只能应用在两阶段的模型训练方式中，无法应用在一阶段或者端到端的模型训练中，适应性不强，很难全面且有效地解决交互关系预测的长尾问题，同样会影响交互关系检测结果的准确性。

发明内容

本发明提供一种交互关系检测方法、一种交互关系检测模型训练方法、装置、电子设备及可读存储介质，以部分或全部解决现有技术中关系检测过程相关的上述问题。

依据本发明第一方面，提供了一种交互关系检测方法，包括：

获取目标图像，所述目标图像包含第一类型的目标和第二类型的目标；

通过交互关系检测模型中的特征提取网络对所述目标图像进行特征提取，得到多个特征向量，每个特征向量用于表征一个第一类型的目标和一个第二类型的目标之间的交互关系；

通过交互关系检测模型中的交互关系检测网络，对所述多个特征向量进行交互关系检测，得到交互关系检测结果，所述交互关系检测结果包括第一类型的目标所在的检测框、第二类型的目标所在的检测框、表征第一类型的目标具体类别的第一标识词、表征第二类型的目标具体类别的第二标识词、表征第一类型的目标和第二类型的目标之间的交互关系类别的第三标识词中的至少一者；

所述交互关系检测模型是对待训练交互关系检测模型进行训练得到的，用于训练所述待训练交互关系检测模型的至少部分样本图像在标签空间经过数据增强。

依据本发明第二方面，提供了一种交互关系检测模型训练方法，所述方法包括：

获取训练集，所述训练集包括带有标签的多个样本图像，所述多个样本图像的至少部分样本图像在标签空间经过数据增强；

利用所述训练集训练待训练交互关系检测模型，得到所述交互关系检测模型；

其中，所述待训练交互关系检测模型包括待训练特征提取网络、待训练交互关系检测网络和待训练词向量生成网络；

所述待训练特征提取网络用于对所述样本图像进行特征提取，得到多个样本特征向量；

所述待训练交互关系检测网络用于对所述多个样本特征向量进行交互关系检测，得到样本交互关系预测结果；

所述待训练词向量生成网络用于基于所述样本特征向量，得到样本词向量预测结果。

依据本发明第三方面，提供了一种在标签空间进行数据增强的方法，所述方法包括：

获取所述多个样本图像中第一样本图像的第一交互关系标签；

确定所述第一交互关系标签中的增强标识词，所述增强标识词包括第一交互关系标签中的第一真实标识词、第二真实标识词、第三真实标识词中的至少一者；

基于所述第一样本图像对应的每个所述增强标识词的备选标识词，为所述第一样本图像生成至少一个词向量生成标签；所述增强标识词的备选标识词包括所述增强标识词自身和/或所述增强标识词所对应的近似词，得到标签空间经过数据增强的第一样本图像。

根据本发明的第四方面，提供了一种交互关系检测装置，包括：

图像获取模块，用于获取目标图像，所述目标图像包含第一类型的目标和第二类型的目标；

特征提取模块，用于通过交互关系检测模型中的特征提取网络对所述目标图像进行特征提取，得到多个特征向量，每个特征向量用于表征一个第一类型的目标和一个第二类型的目标之间的交互关系；

交互关系检测模块，用于通过交互关系检测模型中的交互关系检测网络，对所述多个特征向量进行交互关系检测，得到交互关系检测结果，所述交互关系检测结果包括第一类型的目标所在的检测框、第二类型的目标所在的检测框、表征第一类型的目标具体类别的第一标识词、表征第二类型的目标具体类别的第二标识词、表征第一类型的目标和第二类型的目标之间的交互关系类别的第三标识词中的至少一者；

根据本发明的第五方面，提供了一种交互关系检测模型训练装置，所述装置包括：

训练集获取模块，用于获取训练集，所述训练集包括带有标签的多个样本图像，所述多个样本图像的至少部分样本图像在标签空间经过数据增强；

模型训练模块，用于利用所述训练集训练待训练交互关系检测模型，得到所述交互关系检测模型；

根据本发明的第六方面，提供了一种在标签空间进行数据增强的装置，所述装置包括：

标签获取模块，用于获取所述多个样本图像中第一样本图像的第一交互关系标签；

增强标识词确定模块，用于确定所述第一交互关系标签中的增强标识词，所述增强标识词包括第一交互关系标签中的第一真实标识词、第二真实标识词、第三真实标识词中的至少一者；

标签生成模块，用于基于所述第一样本图像对应的每个所述增强标识词的备选标识词，为所述第一样本图像生成至少一个词向量生成标签，得到标签空间经过数据增强的第一样本图像；所述增强标识词的备选标识词包括所述增强标识词自身和/或所述增强标识词所对应的近似词。

根据本发明的第七方面，提供了一种电子设备，包括：

处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现第一方面所述的任意一种交互关系检测方法，和/或第二方面所述的任意一种交互关系检测模型训练方法，和/或第三方面所述的任意一种在标签空间进行数据增强的方法。

根据本发明的第八方面，提供了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行第一方面所述的任意一种交互关系检测方法，和/或第二方面所述的任意一种交互关系检测模型训练方法，和/或第三方面所述的任意一种在标签空间进行数据增强的方法。

根据本发明的交互关系检测方法，获取目标图像，所述目标图像包含第一类型的目标和第二类型的目标；通过交互关系检测模型中的特征提取网络对所述目标图像进行特征提取，得到多个特征向量，每个特征向量用于表征一个第一类型的目标和一个第二类型的目标之间的交互关系；通过交互关系检测模型中的交互关系检测网络，对所述多个特征向量进行交互关系检测，得到交互关系检测结果，所述交互关系检测结果包括第一类型的目标所在的检测框、第二类型的目标所在的检测框、表征第一类型的目标具体类别的第一标识词、表征第二类型的目标具体类别的第二标识词、表征第一类型的目标和第二类型的目标之间的交互关系类别的第三标识词中的至少一者；所述交互关系检测模型是对待训练交互关系检测模型进行训练得到的，用于训练所述待训练交互关系检测模型的至少部分样本图像在标签空间经过数据增强。从而提高交互关系检测的适用性以及检测结果的精度，减弱长尾问题。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明实施例的一种交互关系检测方法的步骤流程图；

图2示出了根据本发明实施例的另一种交互关系检测方法的步骤流程图；

图3示出了根据本发明实施例中的模型训练过程交互关系检测模型的两种结构示意图；

图4示出了根据本发明实施例的embedding generation网络的两种典型结构形式示例图；

图5示出了根据本发明实施例的一种在标签空间进行数据增强的流程示意图；

图6示出了根据本发明实施例的一种交互关系检测方法的步骤流程图；

图7示出了根据本发明实施例的一种关系检测装置的结构示意图；以及

图8示出了根据本发明实施例的一种交互关系检测装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

参照图1，示出了本发明实施例中一种交互关系检测方法的步骤流程图。

步骤110，获取目标图像，所述目标图像包含第一类型的目标和第二类型的目标；

步骤120，通过交互关系检测模型中的特征提取网络对所述目标图像进行特征提取，得到多个特征向量，每个特征向量用于表征一个第一类型的目标和一个第二类型的目标之间的交互关系；

步骤130，通过交互关系检测模型中的交互关系检测网络，对所述多个特征向量进行交互关系检测，得到交互关系检测结果，所述交互关系检测结果包括第一类型的目标所在的检测框、第二类型的目标所在的检测框、表征第一类型的目标具体类别的第一标识词、表征第二类型的目标具体类别的第二标识词、表征第一类型的目标和第二类型的目标之间的交互关系类别的第三标识词中的至少一者；所述交互关系检测模型是对待训练交互关系检测模型进行训练得到的，用于训练所述待训练交互关系检测模型的至少部分样本图像在标签空间经过数据增强。

在本发明实施例中，为了针对一阶段模型、二阶段模型、端到端模型等各种结构的模型均能够有效解决预测结果的长尾问题，需要一种不影响模型训练过程的数据增强方式。因此，在本发明实施例中，提出一种在标签空间针对训练样本进行数据增强的方案。也即，上述的交互关系检测模型是对待训练交互关系检测模型进行训练得到，而且用于训练待训练交互关系检测模型的至少部分样本图像在标签空间经过数据增强。

其中，对样本图像在标签空间进行数据增强时，可以对一个样本图像的至少一个标签进行多次或者一次数据增强，在针对每个样本图像进行一次标签空间的数据增强时，可以重新确定其标签。其中，在模型训练过程中，样本图像的标签可以至少包括交互关系标签，也即表征样本图像的交互关系检测结果真实值的标签，根据训练需求也可以包括其他标签，对此本发明实施例不加以限定。

而且，对样本图像的标签进行数据增强时，可以从样本图像待增强的标签的近似值中选取一个作为增强后的标签。增强后标签的选取范围和选取方式可以根据需求进行自定义设置，对此本发明实施例不加以限定。

其中的目标可以为物品、动物、植物等物体，也可以为人等类型。第一类型的目标和第二类型的目标的具体类型可以根据需求进行自定义设置，对此本发明实施例不加以限定。第一类型的目标的具体类别可以为第一类型下的一个类别，也可以为第一类型自身，相应第二类型的目标的具体类别可以为第二类型下的一个类别，也可以为第二类型自身。

例如，第一类型和第二类型可以不同。在HOI应用场景下，上述第一类型的目标可以为人(Human)，第二类型的目标可以为物品、动物、植物等物品(Object)。第一类型的目标具体类别的标识词可以为“person”、“human”、“man”、“woman”、“boy”，第一类型的目标具体类别的标识词可以为“horse”、“elephant”、“bicycle”等。另一例中，第一类型和第二类型相同，例如都是人或物品。

在本发明实施例中，目标图像中可以包含至少一个第一类型的目标和至少一个第二类型的目标。当然，如果目标图像中仅包含第一类型的目标或者第二类型的目标，或者不包含任何目标，那么最终的交互关系检测结果中则不会包含第三标识词，可以返回无法检测到第一类型的目标和第二类型的目标之间的交互关系的信息，或者是不返回任何交互关系检测结果等，对此本发明实施例不加以限定。

通过交互关系检测模型中的特征提取网络对所述目标图像进行特征提取，得到多个特征向量，每个特征向量用于表征一个第一类型的目标和一个第二类型的目标之间的交互关系。特征提取网络可以为任意一种可用网络结构，而且特征提取网络的结构可以根据需求进行自定义设置，对此本发明实施例不加以限定。在本发明实施例中，特征提取网络，既可以来自于两阶段(two-stage)模型，也可以来自一阶段模型，还可以来自端到端模型，对此本发明实施例也不加以限定。

特征提取网络所提取得到的特征可以包括但不限于目标图像的视觉特征，图像视觉特征的提取和表示是将图像的视觉信息转化成计算机能够识别和处理的定量形式的过程。目标图像经特征提取网络可以提取得到至少一个特征向量，且每个特征向量可以用于表征一个第一类型的目标和一个第二类型的目标之间的交互关系。例如，当目标图像中第一类型的目标为M个，第二类型的目标为N个时，特征向量可以为M*N个。

也即，在本发明实施例中，特征提取网络可以提取目标图像的全局特征，构建一个特征向量，也可以分别提取目标图像中不同区域的局部特征，构建多个特征向量，对此本发明实施例不加以限定。

在通过交互关系检测模型中的特征提取网络进行特征提取之后，则可以进一步通过交互关系检测模型中的交互关系检测网络，例如用于进行HOI检测的网络，对经特征提取网络提取得到的各个特征向量进行交互关系检测，此时可以分别对每个特征向量进行交互关系检测，得到目标图像的交互关系检测结果。

其中，交互关系检测结果可以包括但不限于第一类型的目标所在的检测框、第二类型的目标所在的检测框、表征第一类型的目标具体类别的第一标识词、表征第二类型的目标具体类别的第二标识词、表征第一类型的目标和第二类型的目标之间的交互关系类别的第三标识词中的至少一者。

交互关系可以是位置关系，也可以是动作关系。位置关系可是第一类型的目标和第二类型的目标之间的相对位置。动作关系可以是第一类型的目标对第二类型的目标实施了何种动作。

例如，假设此时的交互关系检测网络为用于进行HOI的网络，且上述第一类型为人，第二类型为物，那么此时的交互关系检测结果可以包括人在目标图像中的检测框、物在目标图像中的检测框、表征检测到的人的具体类别，的标识词(例如“person”、“human”、“man”、“woman”、“boy”“girl”等)、表征检测到的物的具体类别的标识词(例如“horse”、“elephant”、“bicycle”等)、表征人与物之间交互关系(verb)类别的标识词(例如“ride”、“kiss”、“wear”、“carry”、“sit at”、“left”等)。

此外，如果分别针对同一目标图像中不同特征向量进行交互关系检测，那么则可以分别得到每个特征向量对应的交互关系检测结果，对此本发明实施例不加以限定。

此外，在本发明实施例中，交互关系检测网络可以为任意一种可以用于交互关系检测的网络结构，而且可以根据具体的应用场景进行自定义设置，对此本本发明实施例不加以限定。

例如，在HOI检测场景下，交互关系检测网络可以为任意一种用于HOI检测的网络分支，对此本发明实施例不加以限定。

交互关系检测模型中还可以包括词向量生成网络，用以得到词向量生成结果。

在本发明实施例中，提出一种在标签空间对训练样本进行数据增强的方法，可以应用在一阶段模二阶段模型、端到端模型等不同模型结构的训练过程中，有效解决不同场景下的长尾问题。

参照图2，在本发明实施例中，所述方法还可以包括：

步骤210，获取训练集，所述训练集包括带有标签的多个样本图像，所述多个样本图像的至少部分样本图像在标签空间经过数据增强；

步骤220，利用所述训练集训练待训练交互关系检测模型，得到所述交互关系检测模型；其中，所述待训练交互关系检测模型包括待训练特征提取网络、待训练交互关系检测网络和待训练词向量生成网络；所述待训练特征提取网络用于对所述样本图像进行特征提取，得到多个样本特征向量；所述待训练交互关系检测网络用于对所述多个样本特征向量进行交互关系检测，得到样本交互关系预测结果；所述待训练词向量生成网络用于基于所述样本特征向量，得到样本词向量预测结果。

在本发明实施例中，为了提高待训练交互关系检测模型中的待训练交互关系检测网络经训练后预测结果的准确性，可以在待训练交互关系检测模型的训练过程中，同时对样本的交互关系检测结果和NLP embedding，也即词向量生成结果进行预测。也即，待训练交互关系检测模型可以包括待训练特征提取网络、待训练交互关系检测网络和待训练词向量生成网络。而且，在模型训练过程中，其中的待训练特征提取网络用于对样本图像进行特征提取，得到多个样本特征向量；待训练交互关系检测网络用于对所述多个样本特征向量进行交互关系检测，得到样本交互关系预测结果；待训练词向量生成网络用于基于所述样本特征向量，得到样本词向量预测结果。从而通过预测结果与相应标签之间的损失进行待训练特征提取网络、待训练交互关系检测网络和待训练词向量生成网络的参数的调整。

而且在模型训练完成后的使用阶段，则可以将其中的词向量生成网络移除，仅使用其中训练完成后的特征提取网络和交互关系检测网络进行交互关系的检测，也可以保留词向量生成网络，同时得到交互关系检测结果和词向量检测结果。

如图3所示为模型训练过程，待训练交互关系检测模型的两种结构示意图，两种结构可以是等价的。此时，可以将待训练交互关系检测网络和待训练词向量生成网络，连接到同一个待训练特征提取网络上，也即同一feature vector(特征向量)上，代表它们共享了知识空间(knowledge space)。而在具体实现层面，这个feature vector和待训练特征提取网络，既可以来自于两阶段模型，也可以来自一阶段模型，还可以来自端到端模型，对此本发明实施例不加以限定。

其中的待训练特征提取网络可以为孪生网络结构，以便于待训练交互关系检测网络和待训练词向量生成网络的训练过程中，待训练特征提取网络可以共享参数。当然，根据需求，待训练特征提取网络也可以为其他网络结构形式，对此本发明实施例不加以限定。

此时，在模型训练过程中，一方面待训练交互关系检测网络和待训练词向量生成网络共享了知识空间，另一方面待训练词向量生成网络的预测结果和其对应标签之前的差异带来的损失值能够影响待训练交互关系检测网络和待训练特征提取网络的参数，因此可以通过待训练词向量生成网络在训练过程中影响知识空间，也即影响待训练特征提取网络的参数，进而影响待训练交互关系检测网络，从而结合待训练交互关系检测网络的预测结果和其对应标签之间的差异带来的损失值对自身影响，和待训练词向量生成网络对待训练交互关系检测网络的影响，提高待训练交互关系检测网络的训练效果，提高待训练交互关系检测网络经训练后得到的交互关系检测网络的预测准确性。

其中，样本词向量结果的真实值，也即词向量生成标签包括样本中任一交互关系类别对应的第一标识词、第二标识词、第三标识词中的至少一者经embedding后的句子向量，对此本发明实施例不加以限定。例如，样本词向量结果的真实值可以为某一样本图像中一交互关系类别对应的第一标识词、第三标识词和第二标识词依次组合后的短句经embedding后的句子向量，也可以为第一标识词、第三标识词和第二标识词中的任意两个词组合经embedding后的短句的句子向量，也可以为各个词经embedding后的词向量经组合后得到的句子向量等等，对此本发明实施例不加以限定。每张样本图像带有交互关系标签。例如，对于一张人骑马的样本图像，其交互关系标签可以包含表征第一类型的目标具体类别第一真实标识词、表征第二类型的目标具体类别的第二真实标识词、表征第一类型的目标和第二类型的目标之间的交互关系类别的第三真实标识词:“person ride horse”。对于样本图像而言，在已知其交互关系标签的情况下，则可以根据交互关系标签中包含的第一标识词、第二标识词、第三标识词等信息，相应获取每个样本图像的词向量生成标签，相当于在训练前已获知各个样本图像的词向量生成标签。那么则可以将同一样本图像的交互关系标签和词向量生成标签作为ground truth来训练交互关系检测模型。

可选地，在本发明实施例中，每张样本图像带有交互关系标签和词向量生成标签；所述交互关系标签包括第一类型的目标所在的真实检测框、第二类型的目标所在的真实检测框、表征第一类型的目标具体类别第一真实标识词、表征第二类型的目标具体类别的第二真实标识词、表征第一类型的目标和第二类型的目标之间的交互关系类别的第三真实标识词中的至少一者；

所述方法，进一步还可以包括：

步骤310，获取所述多个样本图像中第一样本图像的第一交互关系标签；

步骤320，确定所述第一交互关系标签中的增强标识词，所述增强标识词包括第一交互关系标签中的第一真实标识词、第二真实标识词、第三真实标识词中的至少一者；

步骤330，基于所述第一样本图像对应的每个所述增强标识词的备选标识词，为所述第一样本图像生成至少一个词向量生成标签；所述增强标识词的备选标识词包括所述增强标识词自身和/或所述增强标识词所对应的近似词。

其中的第一样本图像可以理解为多个样本图像中进行数据增强的样本图像，第一样本图像的交互关系标签即为第一交互关系标签。可以理解的是，可以对训练集中部分或全部样本图像进行标签空间上的数据增强。

在进行数据增强时，可以仅对同一第一交互关系标签下的部分标识词进行数据增强，也可以对同一第一交互关系标签下的全部标识词进行数据增强，也即增强标识词可以包括第一交互关系标签中的第一真实标识词(也即第一标识词的真实值)、第二真实标识词(也即第二标识词的真实值)、第三真实标识词(也即第三标识词的真实值)中的至少一者。例如，第一真实标识词、第二真实标识词、第三真实标识词分别为person ride horse，可仅将ride作为增强标识词，或者将ride和horse均作为增强标识词。

而且，针对每个增强标识词，可以设置每个增强标识词进行数据增强时的备选标识词为该增强标识词的近似词，也可以使备选标识词同时包含该增强标识词自身和该增强标识词的近似词，具体可以根据需求进行自定义设置，对此本发明实施例不加以限定。一例中，horse的近似词为{elephant，camel，donkey}，horse作为增强标识词时，其对应的备选标识词可以为{elephant，camel，donkey}，也可以为{elephant，camel，donkey，horse}。

其中，近似词为与其对应的增强标识词之间的相似度在指定范围内的其他词，也即该增强标识词之外的其他词。可以将近似词理解为在语义空间上与增强标识词之间距离较近的词。其中，近似词与增强标识词的距离所需满足的指定范围可以根据需求进行自定义设置，对此本发明实施例不加以限定。可以理解的是，指定范围可根据样本的分布确定。如果训练集中各样本分布较为分散，可把指定范围设置的大一些，相反则可以设置的小一些。例如，训练集中有交互关系标签为“person ride horse”的样本图像，也有“personride camel”的样本图像，说明样本分布较为密集，指定范围应该设置的较小，则不再将camel认为是horse的近似词。而将相比于camel与horse距离更近的donkey认为是horse的近似词。

可选地，在本发明实施例中，步骤330进一步可以包括：

步骤A331，对于每个增强标识词，从所述增强标识词所对应的备选标识词中选取至少一个词作为该增强标识词对应的生成标识词；

步骤A332，根据各增强标识词对应的生成标识词，确定所述第一样本图像对应的生成标识词组合；

步骤A333，根据所述第一样本图像对应的生成标识词组合，确定第一样本图像对应的词向量生成标签。

可选地，在本发明实施例中，步骤A333进一步可以包括：根据增强标识词对应的生成标识词和非增强标识词，确定所述第一样本图像对应的生成标识词组合；其中，所述非增强标识词为包括第一交互关系标签中的第一真实标识词、第二真实标识词、第三真实标识词中未作为增强标识词的标识词。

此外，在实际应用中，针对样本图像在标签空间进行数据增强时，可以仅将样本图像的交互关系标签中的部分真实标识词作为增强标识词，也即第一真实标识词、第二真实标识词、第三真实标识词中的至少一者。那么，在确定增强标识词对应的备选标识词时，为了避免无效操作导致的资源浪费，也可以仅针对增强标识词确定其对应的近似词。

那么，对于每个增强标识词，为了进行数据增强，则可以从增强标识词对应的备选标识词中选出至少一个标识词，作为该增强标识词对应的生成标识词。其中，可以从增强标识词对应的近似词中随机选择一个词作为该增强标识词对应的生成标识词，也可以以一定概率为条件，从近似词和增强标识词自身之间选择一个词作为该增强标识词对应的生成标识词。而，对于非增强标识词(无需进行数据增强的真实标识词)而言，则可以保持不变或者将其对应的生成标识词认为是其自身。

例如，在HOI检测场景下，数据增强所针对的增强标识词可以包括第二真实标识词(也即物体object)、第三真实标识词(也即交互关系verb)，那么此时则可以构建第二真实标识词(也即物体object)对应的备选标识词和第三真实标识词(也即交互关系verb)对应的备选标识词。对于verb和object，可以分别寻找它在近似词(即在语义空间中的邻居)，记为Neighborhood Set。

对于样本图像a，假设其交互关系标签中包括“person kiss horse”，其中“person”为第一真实标识词，“horse”为第二真实标识词，“kiss”为第三真实标识词，也即其中verb为kiss，object为horse。kiss的neighborhood set为{“kisses”，“smooch”，“kssing”，“smacker”,“cuddle”}，horse的neighborhood set为{“horses”，“racehorse”，“elephant”}那么此时则可以从kiss的neighborhood set中选至少一个词，作为kiss这一增强标识词对应的生成标识词(假设选择了“smooch”)，相应可以从horse的neighbor set中选至少一个词，作为horse这一增强标识词对应的生成新的object(假设选择了“racehorse”、“elephant”)，进而则可以每个增强标识词对应的生成标识词，也即此时新的verb和新的object，而且由于第一真实标识词未作为增强标识词，可以采用原始的第一真实标识词，因此可以得到样本图像a对应的生成标识词组合为(person，smooch，racehorse)、(person，smooch，elephant)。进而针对样本图像a对应的生成标识词组合person smooch racehorse、person smooch elephant分别进行embedding处理，可以得到其所对应的至少一个词向量生成标签。可以理解的是，一个生成标识词组合对应一个词向量生成标签。

一例中，可以为一个样本图像生成一个生成标识词组合，再根据该生成标识词组合确定该样本图像对应的一个词向量生成标签。具体的，续举前例，可以确定增强标识词“kiss”的备选标识词为：“kiss”+其近似词{“kisses”，“smooch”，“kssing”，“smacker”,“cuddle”}，在确定“kiss”对用的生成标识词时，以第一概率pv的概率选择kiss本身，以1-pv的概率从其邻近词中选择，最终选择出“smooch”作为“kiss”对应的生成标识词。可以确定增强标识词“horse”的备选标识词为：“horse”+其近似词{“horses”，“racehorse”，“elephant”}，在确定“horse”对用的生成标识词时，以第二概率po的概率选择kiss本身，以1-po的概率从其邻近词中选择，最终选择出“racehorse”作为“horse”对应的生成标识词。之后，根据“kiss”对应的生成标识词“smooch”、“horse”对应的生成标识词“racehorse”和非增强标识词person，确定生成词组合“person kiss racehorse”。po、pv大小可根据需要设置。

一例中，可以为一个样本图像生成多个生成标识词组合，再根据该生成标识词组合确定该样本图像对应的多个词向量生成标签。例如，在确定“kiss”对用的生成标识词时，可将其备选标识词中的全部6个词作为其对应的生成标识词，在确定“kiss”对用的生成标识词时，可将其备选标识词中的全部4个词作为其对应的生成标识词，根据“kiss”对应的生成标识词、“horse”对应的生成标识词和非增强标识词person，确定24个生成词组合。再例如，若希望确定4个生成词组合，则可在确定出24个生成词组合后，从中选择4个作为最终的生成词组合。为一个样本图像生成多个生成标识词组合的另一个手段是，一次为一个样本图像生成一个生成标识词组合，进行多次生成，且确保第2-N次选取生成标识词，不选取之前已经选取过的备选标识词，如此可得到多个生成标识词组合。

在本发明实施例中，可以通过上述方式对同一第一样本图像在标签空间进行多次数据增强，从而针对同一第一图像标签得到至少一个词向量生成标签。

可理解的是，可通过embedding generation模块对生成标识词组合进行embedding处理，得到该生成标识词组合对应的词向量生成标签。具体地，在根据所述第一样本图像对应的生成标识词组合，确定第一样本图像对应的词向量生成标签时，可以对第一样本图像的全部生成标识词(既然包含增强标识词对应的生成标识词，又包含非增强标识词)或者部分生成标识词(例如上述的增强标识词对应的生成标识词)，通过embeddinggeneration(向量生成)模块构造出其对应的NLP embedding，作为样本图像经在标签空间进行数据增强后的ground truth，也即词向量生成标签，以在训练时更新模型参数。

其中，embedding generation模型可以为任意一种针对词或者多个词构成的短句生成句子向量的模型，对此本发明实施例不加以限定。

如图4所示为embedding generation网络的两种典型结构形式示例。其中，主要包含word2vec(word to vector，单词转换成向量)、word embedding(单词映射，生成词向量)、phrase embedding(短句映射，生成句子向量)三个阶段。其中，假设此时的第三真实标识词为“sit at”，也即包含两个单词“sit”和“at”，那么在word2vec阶段则可以对每个词进行单独处理，而在word embedding阶段，如图4(a)所示，则可以对第三真实标识词中两个单词的word2vec结果进行一定数学运算(例如求平均、相加等)后得到第三真实标识词“sitat”整体的word embedding结果。如图4(b)所示，在word embedding阶段也可以采用RNN(Recurrent Neural Network,循环神经网络)等时序网络进行处理，得到最终的词向量生成标签；等等。

此外，如上述，在本发明实施例中，可以仅针对第一样本图像的部分真实标识词进行标签空间的数据增强，那么在获取生成标识词组合时，则可以根据增强标识词对应的生成标识词和非增强标识词，确定第一样本图像对应的生成标识词组合。其中，所述非增强标识词为包括第一交互关系标签中的第一真实标识词、第二真实标识词、第三真实标识词中未作为增强标识词的标识词。

可选地，在本发明实施例中，步骤A331进一步可以包括：以选取所述增强标识词作为生成标识词的概率为p，选取任一目标近似词作为生成标识词的概率为1-p，从所述增强标识词所对应的备选标识词中选取一个词作为该增强标识词对应的生成标识词；其中，所述目标近似词包括所述增强标识词所对应的全部近似词，或者所述增强标识词所对应的近似词中未被选取为所述增强标识词的生成标识词的近似词。

其中概率p的具体取值可以根据需求进行自定义设置，而且在增强标识词为第一真实识别词、第二真实识别词、第三真实识别词等不同情况下，p的取值可以相同，也可以不同，对此本发明实施例不加以限定。

例如，以HOI检测为例，假设某一样本图像的原始标注为“person kiss horse”，其中verb为kiss，object为horse。

此时可以概率p_v从kiss的neighborhood set中选一个词，以1-p_v继续使用kiss为条件，从kiss的备选标识词中选出一个词作为其对应的生成标识词，也即新的verb。同时，可以概率p_o从horse的neighbor set中选一个词，以1-p_o继续使用horse为条件，从horse的备选标识词中选出一个词作为其对应的生成标识词，也即新的object。其中，概率p_v、p_o的取值可以根据需求进行设置。

此外，为了提高训练图像的增强标识词对应的生成标识词的多样性，提高训练后模型预测结果的多样性，降低长尾问题，同时提高模型训练效率，可以设置同一第一样本图像在多次数据增强时同一增强标识词对应的生成标识词不相同，也即针对任一增强标识，以选取该增强标识词作为生成标识词的概率为p，选取该增强标识对应的任一目标近似词作为生成标识词的概率为1-p，从所述增强标识词所对应的备选标识词中选取一个词作为该增强标识词对应的生成标识词。其中的目标近似词包括该增强标识词所对应的全部近似词，或者该增强标识词所对应的近似词中针对当前第一样本图像未被及选取为该增强标识词的生成标识词的近似词。

此外，也可以仅需保证同一第一样本图像多次数据增强后的生成标识词组合不相同，从而使得每次数据增强得到不同的词向量生成标签。那么此时针对同一第一样本图像，在每次数据增强后，则可以将本次数据增强得到的生成标识词组合与之前的生成标识词组合进行比较，如果相同则可以忽略本次数据增强，而重新执行一次数据增强的流程。

而且，为了提高各个场景下概率p的准确性，可以分别设置p(例如上述的p_v、p_o)的取值依次为0.1至0.9之间的值，并训练模型，并以训练结果最佳时的p值作为最终的概率值。

可选地，在本发明实施例中，所述步骤330进一步可以包括：

步骤B331，根据所述第一样本图像对应的每个所述增强标识词的备选标识词，对不同增强标识词的备选标识词进行组合，得到所述第一样本图像对应的备选标识词组合；

步骤B332，选取至少一个备选标识词组合作为所述第一样本图像的目标备选标识词组合；

步骤B333，针对每个目标备选标识词组合，根据所述第一样本图像对应的非增强标识词，以及所述目标备选标识词组合中包含的备选标识词，确定所述目标备选标识词组合对应的生成标识词组合，得到所述第一样本图像对应的至少一个生成标识词组合；所述非增强标识词为包括第一交互关系标签中的第一真实标识词、第二真实标识词、第三真实标识词中未作为增强标识词的标识词。

在本发明实施例中，也可以预先对第一样本图像对应的每个不同的增强标识词的备选标识词进行组合，得到全部可用的备选标识词组合。进而可以选取至少一个备选标识词组合作为该第一样本图像的目标备选标识词组合，例如根据需求可以选取一个备选标识词组合作为目标备选标识词组合，也可以全部备选标识词组合作为目标备选标识词组合，或者从中选取若干个备选标识词组合作为目标备选标识词组合，等等。

进而则可以针对每个目标备选标识词组合，根据相应第一样本图像对应的非增强标识词，以及该目标备选标识词组合中包含的备选标识词，确定该目标备选标识词组合对应的生成标识词组合，得到该第一样本图像对应的至少一个生成标识词组合；所述非增强标识词为包括第一交互关系标签中的第一真实标识词、第二真实标识词、第三真实标识词中未作为增强标识词的标识词。

例如，假设第一样本图像a对应的增强标识词kiss和horse，未增强标识词为person，其中kiss的备选标识词包括smooch、kisses，horse的备选标识词包括racehorse、elephant，那么此时经过对不同增强标识词的备选标识词进行组合，得到第一样本图像a对应的备选标识词组合包括(smooch，racehorse)、(smooch，elephant)、(kisses，racehorse)、(kisses，elephant)。

假设选取(kisses，racehorse)作为第一样本图像a的目标备选标识词组合，则可以确定该目标备选标识词组合对应的生成标识词组合为(person，kisses，racehorse)。

可选地，在本发明实施例中，上述步骤220进一步可以包括：

步骤221，将所述样本图像输入至所述待训练交互关系检测模型，获得待训练交互关系检测网络输出的样本交互关系预测结果，和待训练词向量生成网络输出的样本词向量预测结果；

步骤222，根据所述样本交互关系预测结果以及所述样本图像的交互关系标签计算第一损失；

步骤223，根据所述样本词向量预测结果以及所述样本图像的词向量生成标签计算第二损失；

步骤224，根据第一损失和第二损失更新所述待训练交互关系检测模型的参数。

在模型训练过程中，待训练交互关系检测模型中的待训练交互关系检测网络和待训练词向量生成网络可以同时分别输出样本图像的样本交互关系预测结果和样本词向量预测结果，那么则可以分别根据所述样本交互关系预测结果以及所述样本图像的交互关系标签，计算待训练交互关系检测网络的第一损失，并且根据所述样本词向量预测结果以及所述样本图像的词向量生成标签，计算待训练词向量生成网络第二损失，进而则可以根据第一损失和第二损失更新待训练交互关系检测模型的参数。从而实现在训练过程中，通过同时训练交互关系检测模型中的待训练交互关系检测网络和待训练词向量生成网络，且待训练交互关系检测网络和待训练词向量生成网络共享相同的知识空间，从而基于经过样本图像经过数据增强后的词向量生成标签，训练待训练词向量生成网络的同时调整知识空间，也即特征提取网络中的参数，进而影响待训练交互关系检测网络中的参数，提高待训练交互关系检测网络预测结果的多样性，有效减弱数据长尾问题。

其中，第一损失和第二损失的具体计算形式可以根据需求进行自定义设置，而且待训练交互关系检测模型整体的损失与第一损失和第二损失之间的关系也可以根据需求进行自定义设置，对此本发明实施例不加以限定。

此外，在训练模型时，为了保证待训练交互关系检测模型中的待训练交互关系检测网络预测结果的准确性，对于每个样本图像而言，即使其词向量生成标签发生变化，但是不会影响其初始的交互关系标签，也即经数据增强的样本图像的交互关系标签仍然为其初始的交互关系标签，数据增强仅改变其词向量生成标签。

那么在训练模型时，则可以根据每个样本图像的词向量生成标签，及其初始的交互关系标签，训练待训练交互关系检测模型。从而通过交互关系检测结果保证待训练交互关系检测网络的准确性不会比单独训练时变差，同时结合待训练词向量生成网络进行共同训练，可以提高待训练交互关系检测网络预测结果的多样性，有效减弱长尾问题，进而提高训练后的待训练交互关系检测网络的适用性和准确性。而且在后续模型使用过程中，则可以忽略或者删除训练后的交互关系检测模型中的词向量生成网络，也可以保留词向量生成网络，使交互关系检测模型同时输出交互关系检测结果和词向量检测结果，对此本发明实施例不加以限定。

可选地，在本发明实施例中，可以仅利用经在标签空间进行数据增强后的样本图像训练模型，但是如果仅利用经在标签空间进行数据增强后的样本图像训练模型，由于数据增强后的样本图像的词向量生成标签相对于其初始的词向量生成标签存在一定偏差，在一定程度上可能会影响训练结果的准确性。

因此，在本发明实施例中，为了避免上述问题，在训练模型时，可以以一定概率对样本图像在标签空间进行增强(即仅对部分样本图像进行增强)，训练所述交互关系检测模型。

可选地，在本发明实施例中，在模型训练过程中，所述待训练交互关系检测模型的损失为L_total＝L₁+α*L₂，其中，L₁为所述待训练交互关系检测网络的损失，也即第一损失，L₂为待训练词向量生成网络的损失，也即第二损失，两者通过超参α来平衡，α的优选经验值可以为0.1；

此外，L₂可以表示为L₂＝L_distilling+β*L_triple，其中L_distilling可以用典型的蒸馏loss，比如L1 loss、L2 loss等，用来使模型预测的embedding和其对应的ground truth分布相同。L_triplet为用于局部微调的损失函数，以将局部范围内相似但不同的embedding推远，防止混淆。β为参数，用来平衡二者，β的优选经验值可以为10。L_triplet根据当前输入的样本图像的样本词向量预测结果与其对应的正样本图像的样本词向量预测结果之间的距离，当前输入的样本图像的样本词向量预测结果与其对应的负样本图像的样本词向量预测结果的距离确定得到，以将局部范围内相似但不同的样本词向量预测结果推远，所述样本图像对应的正样本图像为与所述样本图像包含至少一个相同的目标标识词组合的其他样本图像，所述样本图像对应的负样本图像为除所述样本图像及其对应的正样本图像之外的其他样本图像，目标标识词组合包括表征第一类型的目标和第二类型的目标之间的交互关系类别的第三真实标识词，以及该第三真实标识词对应的表征第一类型的目标具体类别的第一真实标识词、表征第二类型的目标具体类别的第二真实标识词的至少一种。

例如L_triplet可以表示为如下所示：

L_triplet＝max((avg(∑d(A，P_s))-avg(∑d(A，N_t))+m)，0)，

在该公式中，A表示参考锚点(也即当前输入的样本图像的样本词向量预测结果)，P表示正样本图像的样本词向量预测结果，N表示负样本图像的样本词向量预测结果，d是一种距离度量方式，可以有多种形式，例如L1距离、L2距离、cos距离等，avg表示取平均，avg(∑d(A，P_s))表示对A与其对应每个正样本图像的样本词向量预测结果之间的差值之和取平均。m是超参，表示margin(余量)，m的取值优选可以为1.0。此外，L1 loss的形式可以为y(a，b)＝|a-b|，其中a和b分别为预测结果和真实值。

例如，假设参考锚点是当前输入的样本图像的的embedding预测结果，也即样本词向量预测结果，通过每个样本图像的交互关系标签，可以得到每个样本图像中包含的每个交互关系类别对应的真实标识词，那么则可以比较其他各个样本图像与当前输入样本图像的交互关系标签，获取其中与当前输入样本图像包含至少一个真实标识词组合的样本图像，即为该当前输入样本图像对应的正样本图像，其他的则可以作为该当前输入样本图像对应的负样本图像。进而可以参照上述公式进而计算当前输入的样本图像的L_triplet。

L₁可以表示为

在该公式中，

表示不同各个目标以及交互关系的分类损失(例如HOI检测时人(h)、物体(o)和交互关系interaction(r)的分类损失)，

表示第一目标和第二目标的检测框位置损失。其中β₁、β₂和μ均为超参，具体取值可以自定义设置。而且，分类损失

可以采用soft cross entropy loss等，位置损失

可以采用GloU loss和L1 loss的加权和，对此本发明实施例不加以限定。

本发明实施例提供了一种损失函数用来同时优化待测试交互关系检测网络和待测试词向量生成网络，例如HOI任务和NLP embedding蒸馏任务，能够提升交互关系检测结果的精度。

如图5所示为一种在标签空间进行数据增强的示意图。其中，Model代表上述的待训练词向量生成网络。以HOI检测为例，假设某一样本图像的交互关系标签(Original GT)为“person kiss horse”，其中verb为kiss，object为horse。此时将第二标识词和第三标识词作为增强标识词。

第二标识词horse的Neighborhood Set中包含horses、racehorse、stallion、jockey、stables等，第三标识词kiss的Neighborhood Set中包含kisses、smooch、kissing、smacker、cuddle等，针对每个增强标识词，可以从其备选标识词中进行抽样，得到生成标识词，并且组合生成标识词组合，例如“person kisses horse”、“person kissingstallion”、“person smooch racehorse”等，对于每个生成标识词，经过EmbeddingGeneration则可以得到其词向量生成标签，进而与待训练交互关系检测模型中待训练词向量生成网络针对相应样本输出的词向量预测结果phrase embedding进行比较，得到待测试词向量生成网络的损失(loss)。此时，数据增强的过程发生在标签空间，不会影响模型训练进度，因此可以适用于一阶段模型、二阶段模型、端到端模型等任何类型的模型，也即不受模型结构的限制。

在本发明实施例中，提出一种在标签空间进行数据增强的方法，其包括以下步骤：

上述步骤的具体内容如前文所述，在此不再赘述。

可以针对各种结构类型的模型进行样本在标签空间的数据增强，有效减弱长尾问题。此外，

参照图6，示出了本发明实施例中一种交互关系检测模型训练方法的流程示意图。

该方法可以包括如下步骤：

步骤410，获取训练集，所述训练集包括带有标签的多个样本图像，所述多个样本图像的至少部分样本图像在标签空间经过数据增强；

步骤420，利用所述训练集训练待训练交互关系检测模型，得到所述交互关系检测模型；

模型训练过程的具体内容与上述实施例中类似，具体可以参照上述内容，在此不加以赘述。

对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图7，示出了本发明实施例中一种关系检测装置的结构示意图。

图像获取模块510，用于获取目标图像，所述目标图像包含第一类型的目标和第二类型的目标；

特征提取模块520，用于通过交互关系检测模型中的特征提取网络对所述目标图像进行特征提取，得到多个特征向量，每个特征向量用于表征一个第一类型的目标和一个第二类型的目标之间的交互关系；

交互关系检测模块530，用于通过交互关系检测模型中的交互关系检测网络，对所述多个特征向量进行交互关系检测，得到交互关系检测结果，所述交互关系检测结果包括第一类型的目标所在的检测框、第二类型的目标所在的检测框、表征第一类型的目标具体类别的第一标识词、表征第二类型的目标具体类别的第二标识词、表征第一类型的目标和第二类型的目标之间的交互关系类别的第三标识词中的至少一者；

可选地，在本发明实施例中，所述装置还包括：

可选地，在本发明实施例中，每张样本图像带有交互关系标签和词向量生成标签；

所述交互关系标签包括第一类型的目标所在的真实检测框、第二类型的目标所在的真实检测框、表征第一类型的目标具体类别第一真实标识词、表征第二类型的目标具体类别的第二真实标识词、表征第一类型的目标和第二类型的目标之间的交互关系类别的第三真实标识词中的至少一者；

所述装置还包括：

样本交互关系标签获取模块，用于获取所述多个样本图像中第一样本图像的第一交互关系标签；

增强标识词确认模块，用于确定所述第一交互关系标签中的增强标识词，所述增强标识词包括第一交互关系标签中的第一真实标识词、第二真实标识词、第三真实标识词中的至少一者；

标签增强处理模块，用于基于所述第一样本图像对应的每个所述增强标识词的备选标识词，为所述第一样本图像生成至少一个词向量生成标签；所述增强标识词的备选标识词包括所述增强标识词自身和/或所述增强标识词所对应的近似词。

可选地，在本发明实施例中，所述标签增强处理模块，包括：

生成标识词选取子模块，用于对于每个增强标识词，从所述增强标识词所对应的备选标识词中选取至少一个词作为该增强标识词对应的生成标识词；

标识词组合生成子模块，用于根据各增强标识词对应的生成标识词，确定所述第一样本图像对应的生成标识词组合；

第一词向量标签生成子模块，用于根据所述第一样本图像对应的生成标识词组合，确定第一样本图像对应的词向量生成标签。

可选地，在本发明实施例中，所述标识词组合生成子模块，具体可以用于：

根据增强标识词对应的生成标识词和非增强标识词，确定所述第一样本图像对应的生成标识词组合；

所述非增强标识词为包括第一交互关系标签中的第一真实标识词、第二真实标识词、第三真实标识词中未作为增强标识词的标识词。

可选地，在本发明实施例中，所述生成标识词选取子模块，具体用于：

以选取所述增强标识词作为生成标识词的概率为p，选取任一目标近似词作为生成标识词的概率为1-p，从所述增强标识词所对应的备选标识词中选取一个词作为该增强标识词对应的生成标识词；

所述目标近似词包括所述增强标识词所对应的全部近似词，或者所述增强标识词所对应的近似词中未被选取为所述增强标识词的生成标识词的近似词。

可选地，在本发明实施例中，所述标签增强处理模块，可以包括：

备选标识词组合获取子模块，用于根据所述第一样本图像对应的每个所述增强标识词的备选标识词，对不同增强标识词的备选标识词进行组合，得到所述第一样本图像对应的备选标识词组合；

目标备选标识词组合选取子模块，用于选取至少一个备选标识词组合作为所述第一样本图像的目标备选标识词组合；

针对每个目标备选标识词组合，根据所述第一样本图像对应的非增强标识词，以及所述目标备选标识词组合中包含的备选标识词，确定所述目标备选标识词组合对应的生成标识词组合，得到所述第一样本图像对应的至少一个生成标识词组合；

第二词向量标签生成子模块，用于根据所述第一样本图像对应的每个生成标识词组合，确定第一样本图像对应的至少一个词向量生成标签。

可选地，在本发明实施例中，所述模型训练模块，包括：

将所述样本图像输入至所述待训练交互关系检测模型，获得待训练交互关系检测网络输出的样本交互关系预测结果，和待训练词向量生成网络输出的样本词向量预测结果；

根据所述样本交互关系预测结果以及所述样本图像的交互关系标签计算第一损失；

根据所述样本词向量预测结果以及所述样本图像的词向量生成标签计算第二损失；

根据第一损失和第二损失更新所述待训练交互关系检测模型的参数。

可选地，在本发明实施例中，所述待训练交互关系检测模型的损失为L_total＝L₁+α*L₂，其中，L₁为所述第一损失，L₂为所述第二损失，α为参数，α的取值为0.1；

第二损失L₂＝L_distilling+β*L_triplet，L_distilling为一种蒸馏损失函数，L_triplet根据当前输入的样本图像的样本词向量预测结果与其对应的正样本图像的样本词向量预测结果之间的距离，当前输入的样本图像的样本词向量预测结果与其对应的负样本图像的样本词向量预测结果的距离确定得到，以将局部范围内相似但不同的样本词向量预测结果推远，所述样本图像对应的正样本图像为与所述样本图像包含至少一个相同的目标标识词组合的其他样本图像，所述样本图像对应的负样本图像为除所述样本图像及其对应的正样本图像之外的其他样本图像，目标标识词组合包括表征第一类型的目标和第二类型的目标之间的交互关系类别的第三真实标识词，以及该第三真实标识词对应的表征第一类型的目标具体类别的第一真实标识词、表征第二类型的目标具体类别的第二真实标识词的至少一种，β为参数，β的取值为10。

参照图8，示出了本发明实施例中一种交互关系检测模型训练装置的结构示意图。

训练集获取模块610，用于获取训练集，所述训练集包括带有标签的多个样本图像，所述多个样本图像的至少部分样本图像在标签空间经过数据增强；

模型训练模块620，用于利用所述训练集训练待训练交互关系检测模型，得到所述交互关系检测模型；

本发明实施例中，还提供了一种在标签空间进行数据增强的装置，所述装置包括：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在本发明实施例中还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现前述的任意一种交互关系检测方法，和/或任意一种交互关系检测模型训练方法的步骤。

在本发明实施例中还提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现前述的任意一种交互关系检测方法，和/或任意一种交互关系检测模型训练方法的步骤。

在此提供的算法和显示不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述，构造这类***所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的用于关系检测的设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种交互关系检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，每张样本图像带有交互关系标签和词向量生成标签；

所述方法还包括：

基于所述第一样本图像对应的每个所述增强标识词的备选标识词，为所述第一样本图像生成至少一个词向量生成标签；所述增强标识词的备选标识词包括所述增强标识词自身和/或所述增强标识词所对应的近似词。

4.根据权利要求3所述的方法，其特征在于，所述基于所述第一样本图像对应的每个所述增强标识词的备选标识词，为所述第一样本图像生成至少一个词向量生成标签的步骤，包括：

对于每个增强标识词，从所述增强标识词所对应的备选标识词中选取至少一个词作为该增强标识词对应的生成标识词；

根据各增强标识词对应的生成标识词，确定所述第一样本图像对应的生成标识词组合；

根据所述第一样本图像对应的生成标识词组合，确定第一样本图像对应的词向量生成标签。

5.根据权利要求4所述的方法，其特征在于，所述根据增强标识词对应的生成标识词，确定所述第一样本图像对应的生成标识词组合的步骤，包括：

6.根据权利要求4或5所述的方法，其特征在，所述从所述增强标识词所对应的备选标识词中选取至少一个词作为该增强标识词对应的生成标识词的步骤，包括：

7.根据权利要求3所述的方法，其特征在于，所述基于所述第一样本图像对应的每个所述增强标识词的备选标识词，为所述第一样本图像生成至少一个词向量生成标签的步骤，包括：

根据所述第一样本图像对应的每个所述增强标识词的备选标识词，对不同增强标识词的备选标识词进行组合，得到所述第一样本图像对应的备选标识词组合；

选取至少一个备选标识词组合作为所述第一样本图像的目标备选标识词组合；

8.根据权利要求3-7任一项所述的方法，其特征在于，利用所述训练集训练待训练交互关系检测模型，包括：

9.根据权利要求8所述的方法，其特征在于，所述待训练交互关系检测模型的损失为L_total＝L₁+α*L₂，其中，L₁为所述第一损失，L₂为所述第二损失，α为参数，α的取值为0.1；

第二损失L₂＝L_distilling+β*L_triplet，L_distilling为蒸馏损失函数，L_triplet根据当前输入的样本图像的样本词向量预测结果与其对应的正样本图像的样本词向量预测结果之间的距离，当前输入的样本图像的样本词向量预测结果与其对应的负样本图像的样本词向量预测结果的距离确定得到，以将局部范围内相似但不同的样本词向量预测结果推远，所述样本图像对应的正样本图像为与所述样本图像包含至少一个相同的目标标识词组合的其他样本图像，所述样本图像对应的负样本图像为除所述样本图像及其对应的正样本图像之外的其他样本图像，目标标识词组合包括表征第一类型的目标和第二类型的目标之间的交互关系类别的第三真实标识词，以及该第三真实标识词对应的表征第一类型的目标具体类别的第一真实标识词、表征第二类型的目标具体类别的第二真实标识词的至少一种；β为参数，β的取值为10。

10.一种交互关系检测模型训练方法，其特征在于，所述方法包括：

11.一种在标签空间进行数据增强的方法，其特征在于，所述方法包括：

基于所述第一样本图像对应的每个所述增强标识词的备选标识词，为所述第一样本图像生成至少一个词向量生成标签，得到标签空间经过数据增强的第一样本图像；所述增强标识词的备选标识词包括所述增强标识词自身和/或所述增强标识词所对应的近似词。

12.一种交互关系检测装置，其特征在于，包括：

13.一种交互关系检测模型训练装置，其特征在于，所述装置包括：

14.一种在标签空间进行数据增强的装置，其特征在于，所述装置包括：

15.一种电子设备，其特征在于，包括：

处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-8中的任一项所述的交互关系检测方法、权利要求10所述的交互关系检测模型训练方法、权利要求11所述的在标签空间进行数据增强的方法中的至少一种。

16.一种可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1-9中的任一项所述的交互关系检测方法、权利要求10所述的交互关系检测模型训练方法、权利要求11所述的在标签空间进行数据增强的方法中的至少一种。