CN112633159B

CN112633159B - 人-物交互关系识别方法、模型训练方法及对应装置

Info

Publication number: CN112633159B
Application number: CN202011532601.9A
Authority: CN
Inventors: 邹城
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2024-04-12
Anticipated expiration: 2040-12-22
Also published as: CN112633159A

Abstract

本申请涉及计算机视觉技术领域，提供一种人‑物交互关系识别方法、模型训练方法及对应装置。其中，人‑物交互关系识别方法包括：获取待识别图像中的行人检测框集合、物体检测框集合以及每个物体检测框对应的物体类别；获取待识别图像中的至少一组交互框以及每组交互框对应的交互行为类别；将每组交互框中的行人交互框和物体交互框，分别与行人检测框集合中的行人检测框和物体检测框集合中的物体检测框进行匹配，若分别匹配成功，则将匹配的行人检测框、匹配的物体检测框、该物体检测框对应的物体类别以及该组交互框对应的交互行为类别确定为一组人‑物交互关系。该方法进行人‑物交互关系识别的效率较高，非常适合对实时性要求较高的应用场景。

Description

人-物交互关系识别方法、模型训练方法及对应装置

技术领域

本发明涉及计算机视觉技术领域，具体而言，涉及一种人-物交互关系识别方法、模型训练方法及对应装置。

背景技术

目标检测和识别是基于计算机视觉的人工智能应用的基础组件。近年来，随着深度学习和计算机硬件技术的飞速发展，目标检测和识别技术在准确度和运算速度两个维度都取得了突破性进展。作为智能体，除了需要感知到环境中的目标位置及其类别之外，往往还需要明确目标之间的关系，这使得研究环境中人和物体之间的关系变得极具现实意义。

以图1为例，画面的内容是一个人在打棒球。典型人-物交互关系(Human-ObjectInteraction，简称HOI)可以用一个四元组来描述：行人位置(行人框)、物***置(物体框)、物体类别(球棒)、交互行为类别(握住/挥动)。所谓人-物交互关系识别方法，即识别图像中存在的人-物交互关系并输出的方法(例如，输出上述四元组)。在图1中，由于握住球棒和挥动球棒是两种不同的行为，所以尽管只有一个人和一根球棒，从图中也可以识别出至少两组人-物交互关系，若图像中存在多个行人以及多个物体，则存在的人-物交互关系的数量会更多，识别起来也更为复杂。

现有的人-物交互关系识别方法，通常是先检测出图像中的行人和物体，然后遍历行人和物体的所有组合方式，并基于图像内容识别每种组合方式下的行人和物体是否存在交互关系以及交互关系的类别。在图像中的行人和物体数量较多时，由于二者可以产生大量的组合，所以现有方法进行人-物交互关系识别的效率低下，难以满足实时性需求。

发明内容

本申请实施例的目的在于提供一种人-物交互关系识别方法、模型训练方法及对应装置，以改善上述技术问题。

为实现上述目的，本申请提供如下技术方案：

第一方面，本申请实施例提供一种人-物交互关系识别方法，包括：获取待识别图像中的行人检测框集合、物体检测框集合以及每个物体检测框对应的物体类别；其中，所述行人检测框表示检测到的行人位置，所述物体检测框表示检测到的物***置；获取所述待识别图像中的至少一组交互框以及每组交互框对应的交互行为类别；其中，一组交互框包括一个行人交互框和一个物体交互框，每组交互框对应一种交互行为类别下的一个交互点，所述交互点是指所述待识别图像中能够表示交互行为的发生位置的像素点，所述行人交互框表示利用所述交互点处的图像特征预测出的行人位置，所述物体交互框表示利用所述交互点处的图像特征预测出的物***置；将每组交互框中的行人交互框和物体交互框，分别与所述行人检测框集合中的行人检测框和所述物体检测框集合中的物体检测框进行匹配，若其中的行人交互框一行人检测框匹配，且其中的物体交互框与一物体检测框匹配，则将匹配的行人检测框、匹配的物体检测框、该物体检测框对应的物体类别以及该组交互框对应的交互行为类别确定为一组人-物交互关系。

上述方法并不需要遍历待识别图像中行人检测框和物体检测框的所有组合，也不需要基于行人检测框和物体检测框中的图像内容进一步识别二者可能存在的人-物交互关系，而只需将从待识别图像中获取到的至少一组交互框分别与行人检测框集合和物体检测框集合进行匹配，由于矩形框的匹配耗时非常短(例如，只需简单计算一下矩形框的重叠程度)，因此上述方法进行人-物交互关系识别的效率较高，非常适合一些对实时性要求较高的应用场景。

在第一方面的一种实现方式中，所述获取待识别图像中的行人检测框集合、物体检测框集合以及每个物体检测框对应的物体类别，包括：利用第一神经网络对所述待识别图像进行目标检测，获得所述第一神经网络输出的所述待识别图像中的目标检测框集合以及每个目标检测框在每种目标类别下的置信度；其中，所述目标类别包括行人以及至少一种物体；从所述目标检测框集合中筛选出在任一目标类别下的置信度大于该目标类别下的第一置信度阈值的目标检测框；在筛选出的目标检测框中，对应的目标类别为行人的框构成所述行人检测框集合，对应的目标类别为一种物体的框构成所述物体检测框集合，一个目标检测框对应的目标类别是指使得该目标检测框被筛选出的置信度所在的目标类别。

在上述实现方式中，首先利用第一神经网络进行目标检测，获得目标检测框集合以及每个目标检测框在每种目标类别下的置信度，然后再根据置信度对获得的目标检测框进行进一步筛选，只保留那些置信度较高的目标检测框，使得行人检测框集合和物体检测框集合中的检测框数量不至于太多，从而有利于提高人-物交互关系识别的精度和效率。

在第一方面的一种实现方式中，所述获取所述待识别图像中的至少一组行交互框以及每组交互框对应的交互行为类别，包括：利用第二神经网络对所述待识别图像进行人-物交互关系检测，获得所述第二神经网络输出的所述待识别图像的交互热力图以及交互框集合；其中，所述交互热力图包括所述待识别图像中的每个像素点作为每种交互行为类别下的交互点的置信度，所述交互框集合包括所述待识别图像中的每个像素点在作为每种交互行为类别下的交互点时对应的一组交互框；根据所述交互热力图，从所述待识别图像中筛选出在任一交互行为类别下的置信度大于在该交互行为类别下的第二置信度阈值的像素点作为该交互类别下的交互点；确定由每种交互行为类别下连通的交互点构成的每种交互行为类别下的交互点区域；从每种交互行为类别下的每个交互点区域中确定至少一个代表交互点，将所述至少一个代表交互点中的每个代表交互点在所述交互框集合中对应的一组交互框确定为一组用于与检测框集合进行匹配的交互框，并将该代表交互点对应的交互行为类别确定为该组交互框对应的交互行为类别。

在上述实现方式中，首先利用第二神经网络进行人-物交互关系检测，获得交互热力图以及交互框集合，然后利用交互热力图中的置信度筛选出那些置信度较高的交互点，之后根据筛选出的且连通的交互点确定交互点区域，由于同一交互点区域中的交互点对应的交互框在位置上十分接近，因此可以从每个交互点区域中进一步筛选代表交互点，并根据代表交互点最终确定用于与检测框集合进行匹配的至少一组交互框，这样有利于减少用于匹配的交互框的数量，提高人-物交互关系识别的精度和效率。

在第一方面的一种实现方式中，所述从每种交互行为类别下的每个交互点区域中确定至少一个代表交互点，包括：从每种交互行为类别下的每个交互点区域中选择置信度最大的K个交互点作为所述至少一个代表交互点；其中，K为正整数。

同一交互点区域中的交互点可视为代表同一交互行为的发生位置，由于交互行为往往需要图像中一定数量的像素才能完整地描述(例如，人手和球棒接触位置的全部像素)，因此交互点区域中的交互点数量一般是比较多的。在上述实现方式中，从每个交互点区域中选择出的代表交互点是区域中置信度最大的那些交互点，因此能够有效代表交互点区域所描述的交互行为，并且由于每个交互点区域只选K个代表交互点，所以还有利于缩减用于与检测框集合进行匹配的交互框的数量，避免大量位置相近的交互框重复参与匹配，提升匹配效率。

在第一方面的一种实现方式中，所述获取待识别图像中的行人检测框集合、物体检测框集合以及每个物体检测框对应的物体类别，包括：利用第一神经网络对所述待识别图像进行目标检测，并根据目标检测结果确定所述待识别图像中的行人检测框集合、物体检测框集合以及每个物体检测框对应的物体类别；所述获取所述待识别图像中的至少一组交互框以及每组交互框对应的交互行为类别，包括：利用第二神经网络对所述待识别图像进行人-物交互关系检测，并根据检测结果确定所述待识别图像中的至少一组交互框以及每组交互框对应的交互行为类别；其中，所述第一神经网络和所述第二神经网络均为第三神经网络的子网络，且所述第一神经网络和所述第二神经网络为相互独立；或者，所述第一神经网络和所述第二神经网络均为第三神经网络的子网络，且所述第一神经网络和所述第二神经网络包括公共的主干网络，所述主干网络用于提取所述待识别图像的基础特征，所述第一神经网络和所述第二神经网络分别用于根据所述基础特征对所述待识别图像进行目标检测和人-物交互关系检测。

在上述实现方式中，通过第三神经网络模型既进行目标检测又进行人-物交互关系检测，即提供了一种单阶段的人-物交互关系识别方法。

所谓单阶段，可以指在识别人-物交互关系(对一张待识别图像而言)的过程中只运行一次神经网络模型。现有方法一般是两阶段的，第一阶段利用一个神经网络模型进行目标检测，第二阶段利用另一个神经网络模型对检测到的所有人和物的组合进行交互关系的识别。

在现有方法的第二阶段会反复运行多次神经网络模型，其执行效率低下，而单阶段的方法在执行效率上会高很多(神经网络模型运行起来耗时较长，而矩形框匹配等操作相较而言基本可以认为不耗时)。另外，现有方法一般会将行人检测框和物体检测框中的图像输入到神经网络模型中进行人-物交互关系的识别，从而在识别时未能有效利用检测框之外的图像信息(或者说感受野较小)，而上述实现方式中的方法在进行人-物交互关系识别时是直接基于完整的待识别图像进行识别的，有效利用了全图信息(或者说感受野较大)，因此还可以提高人-物交互关系识别的精度。

此外，上述实现方式中的第三神经网络有两种架构：第一种是将第一神经网络和第二神经网络实现为两个独立的子网络，此种方式下由于两个子网络专注于完成自身的检测任务(目标检测和人-物交互关系检测)，所以检测精度可能会比较高，但运算量可能会大一些；第二种是将第一神经网络和第二神经网络实现为两个非独立的子网络，二者包括公共的主干网络，该主干网络可提取两个子网络公用的待识别图像的基础特征，从而此种方式的运算量可能会小一些，并且此种方式下两个子网络相互约束，也可能会在检测中形成相互受益。

在第一方面的一种实现方式中，所述方法还包括：对获得的至少一组人-物交互关系进行去重，获得不重复的人-物交互关系。

在上述实现方式中，通过对获得的至少一组人-物交互关系进行去重，有利于优化人-物交互关系的识别结果，避免信息冗余。

第二方面，本申请实施例提供一种模型训练方法，包括：获取训练集，所述训练集包括带有标签的训练图像；利用所述训练集训练第三神经网络；其中，所述第三神经网络包括第一神经网络和第二神经网络两个子网络，所述第一神经网络用于对所述训练图像进行目标检测，并输出的所述训练图像中的目标检测框集合以及每个目标检测框在每种目标类别下的置信度，所述第二神经网络用于对所述训练图像进行人-物交互关系检测，并输出的所述训练图像的交互热力图以及交互框集合；每张训练图像带有的标签包括目标检测标签或人-物交互关系标签，带有目标检测标签的训练图像用于训练所述第三神经网络中的所述第一神经网络，带有人-物交互关系标签的训练图像用于训练所述第三神经网络中的所述第一神经网络和/或所述第二神经网络，且所述训练集中至少包括带有所述人-物交互关系标签的训练图像；所述目标检测标签包括所述训练图像中的真实目标检测框集合以及每个真实目标检测框的对应的真实目标类别，所述人-物交互关系标签包括所述训练图像中的真实人-物交互关系，每组真实人-物交互关系包括一个真实行人框、一个真实物体框、该真实物体框对应的物体类别以及一个真实交互行为类别。

第一神经网络在训练时可充分利用大量现有的、带有目标检测标签的训练图像，并且由于人-物交互关系标签实际上也涵盖了目标检测标签，因此带有人-物交互关系标签的训练图像也可用于第一神经网络的训练。对于第二神经网络则只能使用带有人-物交互关系标签的训练图像进行训练。

在第二方面的一种实现方式中，所述训练集中包括带有目标检测标签的训练图像以及带有人-物交互关系标签的训练图像，所述第一神经网络和所述第二神经网络包括公共的主干网络，所述利用所述训练集训练第三神经网络，包括：利用所述训练集中带有目标检测标签的训练图像以及带有人-物交互关系标签的训练图像，训练所述第三神经网络中的所述第一神经网络，获得初训练的第三神经网络；利用所述训练集中带有目标检测标签的训练图像以及带有人-物交互关系标签的训练图像继续训练所述初训练的第三神经网络，获得训练好的第三神经网络；其中，所述带有目标检测标签的训练图像用于训练所述初训练的第三神经网络中的所述第一神经网络，所述带有人-物交互关系标签的训练图像用于训练所述初训练的第三神经网络中的所述第一神经网络和所述第二神经网络。

发明人长期研究实验发现，第二神经网络会受益于第一神经网络(当然这需要二者具有公共的主干网络)，即第一神经网络的检测精度提升，第二神经网络的检测精度也会提升，反之第一神经网络则不会明显受益于第二神经网络。从而，先训练第一神经网络，再训练整个第三神经网络，由于第一神经网络训练充分，所以训练好后目标检测的精度较高，而第二神经网络在训练时由于受益于已经初步训练好的第一神经网络，所以训练好后人-物关系检测的精度也较高。

在第二方面的一种实现方式中，所述利用所述训练集训练第三神经网络，包括：将所述训练集中带有标签的训练图像输入至所述第三神经网络，获得所述第三神经网络输出的预测结果；根据所述预测结果以及所述标签计算以下四项损失中的至少一项，并根据计算出的损失更新所述第三神经网络的参数；其中，所述四项损失包括：所述第一神经网络预测所述目标检测框集合所产生的第一损失，所述第一神经网络预测每个目标检测框在每种目标类别下的置信度所产生的第二损失，所述第二神经网络预测所述交互热力图所产生的第三损失，以及，所述第二神经网络预测所述交互框集合所产生的第四损失；所述目标检测标签用于计算所述第一损失以及所述第二损失，所述人-物关系标签用于计算所述第一损失、所述第二损失、所述第三损失以及所述第四损失。

针对目标检测框集合、目标检测框的置信度、交互热力图以及交互框集合四项由第三神经网络预测出的内容都可以计算损失，从而根据算出的损失更新网络参数后可以提高预测精度(计算哪几项损失就有利于提高相应预测项的预测精度)。

在第二方面的一种实现方式中，计算所述第三损失的步骤包括：获取所述第二神经网络输出的带有人-物关系标签的训练图像的交互热力图；其中，所述交互热力图包括多个通道，每个通道对应一种交互行为类别，每个通道包括所述带有人-物关系标签的训练图像中的每个像素点作为该通道对应的交互类别下的交互点的置信度；根据所述人-物关系标签中的每组真实人-物交互关系中的真实行人框以及真实物体框，确定在每组真实人-物交互关系中的真实交互行为类别下的基准交互点；其中，所述基准交互点是指所述训练图像中能够表示真实交互行为发生的中心位置的像素点；生成初始标签热力图，所述初始标签热力图包括多个通道，每个通道对应一种交互行为类别，每个通道包括所述带有人-物关系标签的训练图像中的每个像素点作为该通道对应的交互类别下的交互点的初始标签置信度；在所述初始标签热力图的每个通道中，确定以通道对应的交互行为类别下的基准交互点的位置为中心的标签交互区域，并将通道中在所述标签交互区域内的初始标签置信度，设置为以所述基准交互点的位置为中心的高斯分布的标签置信度，获得标签热力图；根据所述交互热力图和所述标签热力图计算所述第三损失。

上述实现方式给出了在计算第三损失时的标签(指标签热力图)计算方法。需要指出，由于交互行为往往需要图像中一定数量的像素才能完整地描述(例如，人手和球棒接触位置的全部像素)，因此在标签热力图中对于每个交互行为的发生位置都会生成一个标签交互区域，训练图像在标签交互区域内的像素点都可以在一定程度上视为交互点，训练图像在标签交互区域之外的像素点则可以视为非交互点。

在第二方面的一种实现方式中，计算所述第四损失的步骤包括：获取所述第二神经网络输出的带有人-物关系标签的训练图像的交互框集合；其中，所述交互框集合包括多个通道，每个通道对应一种交互行为类别，每个通道包括所述带有人-物关系标签的训练图像中的每个像素点在作为该通道对应的交互类别下的交互点时对应的一组交互框；根据所述人-物关系标签中的每组真实人-物交互关系中的真实行人框以及真实物体框，确定在每组真实人-物交互关系中的真实交互行为类别下的基准交互点；其中，所述基准交互点是指所述训练图像中能够表示真实交互行为发生的中心位置的像素点；生成初始标签交互框集合，所述初始标签交互框集合包括多个通道，每个通道对应一种交互行为类别，每个通道包括所述带有人-物关系标签的训练图像中的每个像素点在作为该通道对应的交互类别下的交互点时对应的一组初始标签交互框；在所述初始标签交互框集合的每个通道中，确定以通道对应的交互行为类别下的基准交互点的位置为中心的标签交互区域，并将通道中在所述标签交互区域内的每组初始标签交互框，均设置为用于确定所述基准交互点的一个真实行人框和一个真实物体框；根据所述交互框集合和所述标签交互框集合计算所述第四损失。

上述实现方式给出了在计算第四损失时的标签(标签交互框集合)计算方法。需要指出，由于交互行为往往需要图像中一定数量的像素才能完整地描述(例如，人手和球棒接触位置的全部像素)，因此在标签交互框集合中对于每个交互行为的发生位置都会生成一个标签交互区域，训练图像在标签交互区域内的像素点均对应一个真实行人框和一个真实物体框，训练图像在标签交互区域之外的像素点则可以随便对应什么框。需要指出，若在某种实现方式中第三损失和第四损失都要计算，假设先计算第三损失，由于计算第三损失时已经确定了标签交互区域，从而在计算第四损失时可以直接使用这些已经计算好的标签交互区域的位置，无需重新计算，先计算第四损失的情况也是类似的。

第三方面，本申请实施例提供一种人-物交互关系识别装置，包括：人-物检测模块，用于获取待识别图像中的行人检测框集合、物体检测框集合以及每个物体检测框对应的物体类别；其中，所述行人检测框表示检测到的行人位置，所述物体检测框表示检测到的物***置；交互关系检测模块，用于获取所述待识别图像中的至少一组交互框以及每组交互框对应的交互行为类别；其中，一组交互框包括一个行人交互框和一个物体交互框，每组交互框对应一种交互行为类别下的一个交互点，所述交互点是指所述待识别图像中能够表示交互行为的发生位置的像素点，所述行人交互框表示利用所述交互点处的图像特征预测出的行人位置，所述物体交互框表示利用所述交互点处的图像特征预测出的物***置；人-物交互关系识别模块，用于将每组交互框中的行人交互框和物体交互框，分别与所述行人检测框集合中的行人检测框和所述物体检测框集合中的物体检测框进行匹配，并在其中的行人交互框与一行人检测框匹配，且其中的物体交互框与一物体检测框匹配时，则将匹配的行人检测框、匹配的物体检测框、该物体检测框对应的物体类别以及该组交互框对应的交互行为类别确定为一组人-物交互关系。

第四方面，本申请实施例提供一种模型训练装置，包括：训练数据获取模块，用于获取训练集，所述训练集包括带有标签的训练图像；模型训练模块，用于利用所述训练集训练第三神经网络；其中，所述第三神经网络包括第一神经网络和第二神经网络两个子网络，所述第一神经网络用于对所述训练图像进行目标检测，并输出的所述训练图像中的目标检测框集合以及每个目标检测框在每种目标类别下的置信度，所述第二神经网络用于对所述训练图像进行人-物交互关系检测，并输出的所述训练图像的交互热力图以及交互框集合；每张训练图像带有的标签包括目标检测标签或人-物交互关系标签，带有目标检测标签的训练图像用于训练所述第三神经网络中的所述第一神经网络，带有人-物交互关系标签的训练图像用于训练所述第三神经网络中的所述第一神经网络和/或所述第二神经网络，且所述训练集中至少包括带有所述人-物交互关系标签的训练图像；所述目标检测标签包括所述训练图像中的真实目标检测框集合以及每个真实目标检测框的对应的真实目标类别，所述人-物交互关系标签包括所述训练图像中的真实人-物交互关系，每组真实人-物交互关系包括一个真实行人框、一个真实物体框、该真实物体框对应的物体类别以及一个真实交互行为类别。

第五方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器读取并运行时，执行第一方面或第一方面的任意一种可能的实现方式提供的方法。

第六方面，本申请实施例提供一种电子设备，包括：存储器以及处理器，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器读取并运行时，执行第一方面或第一方面的任意一种可能的实现方式提供的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了图像中存在的人-物交互关系；

图2示出了本申请实施例提供的人-物交互关系识别方法的一种可能的流程；

图3示出了本申请实施例提供的人-物交互关系识别方法的一些可能的输出；

图4示出了本申请实施例提供的第三神经网络的一种可能的结构；

图5示出了本申请实施例提供的模型训练方法的一种可能的流程；

图6示出了本申请实施例提供的模型训练方法中涉及的基准交互点和标签交互区域；

图7示出了本申请实施例提供的人-物交互关系识别装置的一种可能的结构；

图8示出了本申请实施例提供的模型训练装置的一种可能的结构；

图9示出了本申请实施例提供的电子设备的一种可能的结构。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

术语“第一”、“第二”等仅用于将一个实体或者操作与另一个实体或操作区分开来，而不能理解为指示或暗示相对重要性，也不能理解为要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

图2示出了本申请实施例提供的人-物交互关系识别方法的一种可能的流程，该方法可以但不限于由图9所示的电子设备执行。参照图2，该方法包括：

步骤S110：获取待识别图像中的行人检测框集合、物体检测框集合以及每个物体检测框对应的物体类别。

待识别图像是指要进行人-物交互关系识别的图像，待识别图像的获取方式不限。例如，可由执行人-物交互关系识别方法的电子设备自行采集，也可由执行人-物交互关系识别方法的电子设备从其他设备处获取。

步骤S110中的行人检测框集合由若干行人检测框构成，每个行人检测框代表待识别图像中检测到的一个行人的位置，而物体检测框集合则由若干物体检测框构成，每个物体检测框代表待识别图像中检测到的一个物体的位置。除此之外，步骤S110中还会获得每个物体检测框中物体的类别。例如，图3(A)是一个司机在用手机呼叫的画面，通过执行步骤S110可以得到一个包含司机的行人检测框、一个包含手机的物体检测框、以及物体检测框中物体的类别“手机”(图未示出)，在图3(A)中为简单起见，将行人检测框和物体检测框统称为目标检测框。

步骤S110可以利用目标检测算法实现，图像中的行人和物体都作为被检测的目标，后文会给出基于深度学习的目标检测算法的例子，这里暂不具体阐述。

步骤S120：获取待识别图像中的至少一组交互框以及每组交互框对应的交互行为类别。

首先说明交互点的概念：若待识别图像中的行人和物体之间存在交互行为，则该交互行为必然要通过图像中的某些像素点的内容来呈现。例如，若待识别图像中的司机在用手机呼叫，则呼叫这一行为需要通过司机手部和手机接触位置处的像素点的内容来呈现。从而，可以将交互点定义为待识别图像中能够表示交互行为的发生位置的像素点。通过该定义不难看出，交互行为和交互点之间具有对应关系，一般情况下，一个交互行为对应的交互点为多个，因为单个像素点所包含的信息有限，很难完整地描述一个交互行为。

针对每个交互点，利用待识别图像在该交互点处的图像特征可以预测出一组交互框，一组交互框包括一个行人交互框和一个物体交互框，其中的行人交互框表示根据图像特征预测出的一个行人的位置，而物体交互框则表示根据图像特征预测出的一个物体的位置，并且该行人和该物体之间可能存在交互行为，交互行为的类别正是与该交互点相对应的交互行为的类别。若待识别图像中有多个交互点，则可以对应得到多组交互框以及这些交互框对应的交互行为类别。

例如，图3(D)中示出了执行步骤S120后得到的4组交互框，它们分别由4个交互点(图未示出，不过可以认为这些交互点的大致分布在司机的手与手机接触的位置)处的图像特征预测产生，同时，还可以得到这4组交互框对应的交互行为类别“呼叫”(图未示出)。

需要指出，由于交互行为的发生位置一般集中在某个区域，所以同一交互行为对应的交互点的位置一般是比较接近的，因此图3(D)中根据待识别图像在交互点处的图像特征预测得到的4组交互框在位置上也比较接近。还需要指出，在司机进行呼叫的同时，他必须拿着手机，因此在司机和手机之间至少存在两类交互行为“呼叫”和“拿着”，在上面的例子中为了简化阐述，只提到了“呼叫”行为。最后需要说明的是，虽然仅从图像上看，图3(A)和图3(D)中的矩形框都位于司机和手机周围，但由于二者的获取方式不同，所以位置一般也不相同。

在步骤S120中，可以利用基于深度学习的算法得到待识别图像中的交互点以及这些交互点对应的交互框，理想情况下，针对待识别图像中的每个交互行为，至少会得到一个交互点以及一组交互框，当然该交互行为的类别也会同时给出。后文会给出利用深度学习算法实现步骤S120的例子，这里暂不具体阐述。

步骤S130：将每组交互框中的行人交互框和物体交互框，分别与行人检测框集合中的行人检测框和物体检测框集合中的物体检测框进行匹配。

前文提到，人-物交互关系可以用一个四元组来描述：行人位置、物***置、物体类别以及交互行为类别。步骤S120中得到的交互框及其对应的交互行为类别已经给出了四元组中的行人位置、物***置以及交互行为类别三项信息。若对于某些特殊的应用场景，比如，不关注物体类别或者已知待识别图像中的物体类别，则直接根据步骤S120的输出结果也可以确定待识别图像中的人-物交互关系，此时可以不必执行步骤S110(物体类别在步骤S110给出)、步骤S130以及步骤S140。例如，在已知待识别图像中的物体类别为手机时，直接将图3(D)中的4组交互框保留其中一组，再加上交互行为类别“呼叫”，即可确定一组人-物交互关系。

不过，一方面由于上述特殊的应用场景是比较少的，另一方面由于步骤S120中的交互框是利用交互点处的图像特征预测产生的，其对于行人和物体的定位精度不及步骤S110中利用目标检测算法得到的行人检测框和物体检测框，导致获得的人-物交互关系质量不高。所以在本申请中还是以介绍完整执行步骤S110至步骤S140的方案为主，这些方案会结合步骤S110中的检测框以及步骤S120中的交互框，得到比较精确的人-物交互关系。

就像上文指出的，步骤S120中的交互框对于行人和物体的定位精度不高，所以希望在最终识别到的人-物交互关系中利用步骤S110中得到的检测框替代步骤S120中得到的交互框，要实现这种替代就必须先确定与步骤S120中的交互框对应的检测框，确定这种对应的关系的具体方式就是执行步骤S130中的匹配操作。

在步骤S130中，对于步骤S120中得到的每组交互框，将其中的行人交互框与行人检测框集合中的行人检测框依次进行匹配，并将其中的物体交互框与物体检测框集合中的物体检测框依次进行匹配。若某组交互框中的行人交互框与行人检测框集合中的一行人检测框匹配，且该组交互框中的物体交互框与物体检测框集合中的一物体检测框匹配，则认为是匹配成功，执行步骤S140；若某组交互框中的行人交互框未与行人检测框集合中的任何行人检测框匹配，和/或，该组交互框中的物体交互框未与物体检测框集合中的任何物体检测框匹配，则认为是匹配失败，继续取下一组交互框执行类似的匹配流程(如果还有下一组交互框的话)。

以行人交互框与行人检测框进行匹配为例，匹配操作具体可以是指计算行人交互框和行人检测框的重叠程度，若重叠程度超过一定的阈值，则认为二者匹配，否则认为二者不匹配。可以理解，这里的阈值对于行人框之间的匹配和物体框之间的匹配可以设置为不同的，甚至于对于不同类别的物体框之间的匹配阈值也可以设置为不同的。而对于两个矩形框的重叠程度，可以但不限于定义为两个矩形框的交并比(Intersection over Union，简称IOU)。

对于与检测框匹配成功的交互框，一方面相当于利用目标检测结果确认了发生交互行为的人和物体是存在的，另一方面目标检测结果也给出了发生交互行为的人和物体的更精确的位置(检测框比交互框定位人和物体更精确)。需要指出，一组交互框也可能匹配上多组检测框(匹配成功的一个行人检测框和一个物体检测框称为一组检测框)。

步骤S140：将匹配的行人检测框、匹配的物体检测框、该物体检测框对应的物体类别以及该组交互框对应的交互行为类别确定为一组人-物交互关系。

根据步骤S130中的阐述，对于每组匹配成功的交互框，其对应的人和物体的精确位置由与其匹配的检测框(匹配成功的行人检测框和匹配成功的物体检测框)给出。进一步的，匹配成功的物体检测框中物体的类别在步骤S110中给出，匹配成功的交互框对应的交互行为类别在步骤S120中给出，这样就形成了一组人-物交互关系中的四元组，即识别出了待识别图像中存在的一组人-物交互关系。参照图3(E)，在最终输出的人-物交互关系中，行人框和物体框的位置与图3(A)中检测得到的相同，物体类别为“手机”(步骤S110输出)，交互行为类别为“呼叫”(步骤S120输出)。若存在多组匹配成功的交互框，则可以输出待识别图像中存在的多组人-物交互关系。

进一步的，若执行完步骤S140后得到了多组人-物交互关系，这些人-物交互关系可能存在重复。例如，由于图3(D)中的4组人-物交互框位置接近，因此它们都可能成功匹配至同一组检测框，这样会产生4相同的组人-物交互关系；又例如，在步骤S130中，同一组交互框也可能匹配上多组检测框，这也可能导致步骤S140中输出相同的人-物交互关系。从而，在一些实现方式中，可对步骤S140中获得的人-物交互关系进行去重，最终得到不重复的人-物交互关系，此举优化了人-物交互关系的识别结果、有效避免了信息冗余。

综上所述，图2中的人-物交互关系识别方法不同于现有方法，该方法无需遍历待识别图像中行人检测框和物体检测框的所有组合，也不需要基于行人检测框和物体检测框中的图像内容进一步识别二者可能存在的人-物交互关系，而只需将从待识别图像中获取到的至少一组交互框分别与行人检测框集合和物体检测框集合进行匹配，由于矩形框的匹配耗时非常短(例如，只需简单计算一下矩形框的重叠程度)，因此上述方法进行人-物交互关系识别的效率较高，非常适合一些对实时性要求较高的应用场景。

在一些实现方式中，步骤S110可以利用基于深度学习的目标检测算法来实现。其具体做法为：

步骤A1：利用训练好的第一神经网络对待识别图像进行目标检测，获得第一神经网络输出的待识别图像中的目标检测框集合以及每个目标检测框在每种目标类别下的置信度。

其中，第一神经网络的结构不限，例如可以是RetinaNet、FCOS、CenterNet等，第一神经网络的训练方法将在后文阐述。第一神经网络进行目标检测的目标包括待识别图像中的人和物体(当然，这里的物体并不一定是所有的物体，可以只是所关注的物体)，网络的输出至少包括两项：

第一项输出是目标检测框集合，该集合由若干目标检测框构成，每个目标检测框代表待识别图像中检测到的一个目标的位置。在一些可选方案中，第一项输出所对应的数据维度是(N，4)，即一个二维矩阵，或者也可以将其视为一个包含N个元素的向量，其中N表示目标检测框的个数，每个元素包含4个数值，4个数值代表一个目标检测框的位置。比如，可以是目标检测框的左上角坐标、宽、高4项信息；又比如，可以是目标检测框相对于某个基准框(如目标检测算法中的anchor)的4个坐标偏差量，等等。

第二项输出是目标检测框集合中的每个目标检测框在每种目标类别下的置信度。这里所称的目标类别包括行人以及至少一种物体，例如，“行人”、“手机”就是两种目标类别。在一些可选方案中，第二项输出所对应的数据维度是(N，C),即一个二维矩阵,其中N表示目标检测框的个数，C则表示目标类别的数量，该二维矩阵的每个元素的值都是一个目标检测框在一种目标类别下的置信度(在目标检测时，一般将置信度最大的目标类别确定为检测到的目标类别)。

第一神经网络内部可以实现两个分支，一个用于预测目标检测框集合，可称为第一神经网络的回归分支，一个用于预测目标检测框集合中的每个目标检测框在每种目标类别下的置信度，可称为第一神经网络的分类分支。

步骤B1：从目标检测框集合中筛选出在任一目标类别下的置信度大于该目标类别下的第一置信度阈值的目标检测框。

在筛选出的目标检测框中，对应的目标类别为行人的框构成行人检测框集合，对应的目标类别为一种物体的框构成物体检测框集合，而一个目标检测框对应的目标类别是指使得该目标检测框被筛选出的置信度所在的目标类别。例如，某个目标检测框在“行人”和“手机”两个目标类别下的置信度分别是0.7和0.1，而对于“行人”和“手机”两个目标类别，两个目标类别下的第一置信度阈值都是0.5，则由于0.7>0.5，所以该目标检测框被筛选出，该目标检测框对应的目标类别就是置信度0.7所在的目标类别，即“行人”。这样，步骤B1的输出结果和步骤S110保持一致。

需要指出，步骤B1中第一置信度阈值可以是C维的(C表示目标类别的数量)，即针对每个目标类别，第一置信度阈值的取值可以不同。另外，不排除某个目标检测框在多个目标类别下的置信度都大于这些目标类别下的第一置信度阈值，此时该目标检测框的目标类别可以取导致其被筛选出的最大的置信度所在的目标类别。

步骤B1即根据置信度对获得的目标检测框进行进一步筛选，只保留那些置信度较高的目标检测框，使得最终得到的行人检测框集合和物体检测框集合中的检测框数量不至于太多，从而有利于提高人-物交互关系识别的精度和效率。

在一些实现方式中，步骤S120可以利用基于深度学习的算法来实现。其具体做法为：

步骤A2：利用第二神经网络对待识别图像进行人-物交互关系检测，获得第二神经网络输出的待识别图像的交互热力图以及交互框集合。

其中，第二神经网络的结构不限，例如可以是Hourglass、DLANet等，第二神经网络的训练方法将在后文阐述。步骤A2中的提到的“人-物交互关系检测”是为描述方便，仿照“目标检测”所进行的命名，其实质就是指第二神经网络实现的功能，即将图像输入至第二神经网络，第二神经网络处理图像后，输出该图像的交互热力图以及交互框集合的功能。第二神经网络的输出至少包括两项：

第一项输出是交互热力图，交互热力图包括待识别图像中的每个像素点作为每种交互行为类别下的交互点的置信度。

在一些可选方案中，交互热力图实现为多个通道，每个通道对应一种交互行为类别，并且每个通道包括待识别图像中的每个像素点作为该通道对应的交互类别下的交互点的置信度。例如，交互热力图所对应的数据维度可以是(W，H，M)，即一个三维矩阵，其中W和H分别表示待识别图像的宽和高，M表示交互行为类别的数量，该三维矩阵可视为包含M个与交互行为类别对应的通道，每个通道中有W×H个与待识别图像中的像素点对应元素，每个元素的值都是待识别图像中的一个像素点作为一种交互行为类别下的交互点的置信度。例如，交互行为类别1是“呼叫”，该三维矩阵中坐标为(100，100，1)的元素的值就是待识别图像中坐标为(100，100)的像素点作为交互行为类别“呼叫”下的交互点的置信度。

第二项输出是交互框集合，交互框集合包括待识别图像中的每个像素点在作为每种交互行为类别下的交互点时对应的一组交互框。注意，该定义中的“像素点…作为…交互点”应理解为一种假设，即“像素点若作为交互点”，因为每个像素点都会有一定作为交互点的概率(即交互热力图中的置信度)，而在作为交互点时就能根据交互点处的图像特征预测产生一组交互框。

在一些可选方案中，交互框集合实现为多个通道，每个通道对应一种交互行为类别，并且每个通道包括待识别图像中的每个像素点在作为该通道对应的交互类别下的交互点时对应的一组交互框。例如，交互框集合的数据维度可以是(W，H，M，8),即一个四维矩阵，为便于理解，也可以将其视为一个维度是(W，H，M)的三维矩阵，其中W和H分别表示待识别图像的宽和高，M表示交互行为类别的数量。该三维矩阵有M个与交互行为类别对应的通道，每个通道中有W×H个与待识别图像中的像素点对应元素，每个元素都包含8个数值，8个数值代表待识别图像中的一个像素点在作为一种交互行为类别下的交互点时对应的一组交互框的位置，类似前文对目标检测框的阐述，由于一个交互框(行人交互框或物体交互框)的位置需要4个数值才能确定，所以一组交互框的位置需要8个数值才能确定。例如，交互行为类别1是“呼叫”，该三维矩阵中坐标为(100，100，1)的元素的值就是待识别图像中坐标为(100，100)的像素点作为交互行为类别“呼叫”下的交互点时对应的一组交互框的位置，共8个数值。

第二神经网络内部可以实现两个分支，一个用于预测交互热力图，可称为第二神经网络的分类分支，一个用于预测交互框集合，可称为第二神经网络的回归分支。

步骤B2：根据交互热力图，从待识别图像中筛选出在任一交互行为类别下的置信度大于在该交互行为类别下的第二置信度阈值的像素点作为该交互类别下的交互点。

根据图3(D)不难看出，多数情况下，交互行为只发生在待识别图像中的一小片区域内，也就是说待识别图像中只有为数不多的像素点是交互点，所以根据交互热力图的定义，交互热力图中大部分的置信度应该是比较小的，对于待识别图像中的某个像素点，若其在交互热力图中对应位置处的置信度较小，即不太可能是交互点，则即使将其在交互框集合中对应的一组交互框用于与检测框匹配，匹配成功的可能性也不高(即影响人-物交互关系识别的效率)，或者即使匹配成功了，由于匹配所用的交互框很可能是基于一个非交互点预测产生的，所以获得的人-物交互关系很可能也是错误的(即影响人-物交互关系识别的精度)。因此，在步骤B2中利用交互热力图结合第二置信度阈值，从待识别图像中筛选出那些对应的置信度(指像素点在交互热力图中对应的置信度)较高的像素点作为交互点，这样有利于减少后续用于匹配的交互框的数量，提高人-物交互关系识别的精度和效率。

需要指出，步骤B2中第二置信度阈值可以是M维的(M表示交互行为类别的数量)，即针对每个交互行为类别，第二置信度的取值可以不同。另外，不排除待识别图像中的某个像素点在多个交互行为类别下的置信度都大于这些交互行为类别下的第二置信度阈值，此时该像素点可以同时作为多个交互行为类别下的交互点。

在一些实现方式中，步骤B2的输出结果可以是一个数据维度是(W，H，M)的三维掩膜，该掩膜有M个通道，每个通道是一个数据维度是(W，H)二维掩膜，每个通道用二值化的方式标记出在其对应的交互行为类别下待识别图像中交互点的位置。

步骤C2：确定由每种交互行为类别下连通的交互点构成的每种交互行为类别下的交互点区域。

按照不同的交互行为类别，对步骤B2的输出的交互点分别进行连通性检测，即可得到由每种交互行为类别下连通的交互点构成的每种交互行为类别下的交互点区域，每种交互行为类别下可能存在零个或零个以上的交互点区域，理想情况下，同一交互点区域中的所有交互点针对的是同一个交互行为。

例如，若步骤B2的输出结果为前文提到的三维掩膜，则可在该三维掩膜的每个通道上进行连通性检测，以此获得每种交互行为类别下的交互点区域。参照图3(B)，其中示出了三维掩膜中的一个通道(对应交互行为类别“呼叫”的通道)，该通道中值为1的像素(白色)对应待识别图像中的交互点，值为0的像素(黑色)对应待识别图像中的非交互点，连通的交互点形成了一个交互点区域(白色区域)，该交互点区域中的所有交互点针对的都是“呼叫”这一交互行为。

若严格按照C2执行，可能会产生一些只包含一个或几个像素点的小型交互区域，但如前文所述，交互行为一般不会只涉及图像中的少量几个像素点，因此，在一些实现方式中，可以设置交互点区域的面积阈值，对于一个或连通的几个交互点形成的小型区域，将其视为噪声而非交互点区域，利用面积阈值进行过滤。

步骤D2：从每种交互行为类别下的每个交互点区域中确定至少一个代表交互点，将至少一个代表交互点中的每个代表交互点在交互框集合中对应的一组交互框确定为一组用于与检测框集合进行匹配的交互框，并将该代表交互点对应的交互行为类别确定为该组交互框对应的交互行为类别。

步骤D2的输出结果(代表交互点在交互框集合中对应的交互框、表交互点对应的交互行为类别)与步骤S120保持一致。

在一些实现方式中，可以将步骤C2中得到的所有交互点区域中的所有交互点都作为代表交互点。但在阐述步骤C2时已经提到，理想情况下，同一交互点区域中的所有交互点针对的是同一个交互行为，换句话说，要识别该交互行为，理论上只需要从该交互区域中选一个合适的交互点、并利用该交互点对应的交互框与检测框进行匹配即可，并无必要将交互区域中的所有交互点对应的交互框都用于与检测框匹配。

该“合适的交互点”就是一个代表交互点，即用于代表其所在的交互点区域中的所有交互点用于人-物关系识别。当然，由于一个交互点区域中的交互点有多个，这些交互点对应的交互框的位置也不相同，若只选其中一个作为代表交互点、只用该代表交互点对应的交互框去与检测框匹配难免存在可靠性问题，因此在步骤D2中也可以针对每个交互点区域选择多个代表交互点。不过，由于连通的交互点在位置上比较接近，从而基于待识别图像交互点处的图像特征所预测出的交互框的位置也比较接近(如图3(D)所示)，所以每个交互点区域也无需选择太多的代表交互点，这样有利于减少用于匹配的交互框的数量，提高人-物交互关系识别的精度和效率，避免大量位置相近的交互框重复参与匹配。参照图3(C)，与图3(B)相比，白色区域缩减为少量的白点，即代表交互点。

至于如何从一个交互点区域中选择代表交互点，可以有不同的方式；例如，随机选择其中的K个(K为预设的正整数)交互点；又例如，可以选择其中置信度最大的K个交互点(利用各种TopK算法)，等等。对于后一种方式，由于从每个交互点区域中选择出的代表交互点是区域中置信度最大的那些交互点，因此能够有效代表交互点区域所描述的交互行为。

每个代表交互点对应的交互行为类别容易获得，例如，若步骤B2的输出结果为前文提到的三维掩膜，则代表交互点属于该三维掩膜的哪个通道(共M个通道)，代表交互点对应的交互行为类别就是该通道对应的交互行为类别(M个交互行为类别之一)。

再总结一下图3，图3(A)对应步骤S110的输出结果，图3(D)对应步骤S120的输出结果，图3(B)、图3(C)则是步骤S120的中间输出，图3(E)对应步骤S140的输出结果。

下面接着介绍步骤S110和步骤S120都利用深度学习算法来实现的情况，即：

在步骤S110中，利用第一神经网络对待识别图像进行目标检测，并根据目标检测结果确定待识别图像中的行人检测框集合、物体检测框集合以及每个物体检测框对应的物体类别，具体做法前文已经介绍；在步骤S120中，利用第二神经网络对待识别图像进行人-物交互关系检测，并根据检测结果确定待识别图像中的至少一组交互框以及每组交互框对应的交互行为类别，具体做法在前文已经介绍。

可将第一神经网络和第二神经网络都视为第三神经网络的子网络，即人-物交互关系检测是利用第三神经网络来实现的。第三神经网络有不同的架构方式，下面列举其中两种：

方式一

将第一神经网络和第二神经网络实现为两个独立的子网络，此种方式下由于两个子网络专注于完成自身的检测任务(目标检测和人-物交互关系检测)，所以检测精度可能会比较高，但运算量可能会大一些。

方式二

将第一神经网络和第二神经网络实现为两个非独立的子网络，二者包括公共的主干网络，该主干网络用于提取待识别图像的基础特征，而第一神经网络和第二神经网络分别用于根据基础特征对待识别图像进行目标检测和人-物交互关系检测。此种方式由于第一神经网络和第二神经网络有一部分是公共的，所以运算量可能会小一些，并且此种方式下两个子网络在训练时相互约束，也可能会在检测中形成相互受益。

图4示出的是方式二下第三神经网络的一种架构。图4中的主干网络加上第一分支网络即为第一神经网络，主干网络加上第二分支网络即为第二神经网络。继续参照图4，第一分支网络中还包括一个分类分支和一个回归分支，回归分支用于预测目标检测框集合，分类分支用于预测目标检测框集合中的每个目标检测框在每种目标类别下的置信度；第二分支网络中也包括一个分类分支和一个回归分支，分类分支用于预测交互热力图，回归分支用于预测交互框集合。图4中的卷积模块可以理解为包括零个或零个以上的卷积层的任意神经网络结构，而不应理解为某种特定的网络结构。

发明人调查发现，现有的人-物交互关系识别方法一般是两阶段的，第一阶段利用一个神经网络模型进行目标检测，第二阶段利用另一个神经网络模型对检测到的所有人和物的组合进行交互关系的识别，由于其中的第二阶段会反复运行多次神经网络模型，所以方法的执行效率低下。

而通过第三神经网络模型既进行目标检测又进行人-物交互关系检测，则是一种单阶段的人-物交互关系识别方法，即在识别人-物交互关系的过程中只运行一次神经网络模型(对一张待识别图像而言)。单阶段的方法在执行效率上比两阶段的方法高很多，因为神经网络模型运行起来耗时较长，而矩形框匹配等操作相较而言基本可以认为不耗时。

另外，现有方法一般会将行人检测框和物体检测框中的图像输入到神经网络模型中进行人-物交互关系的识别，从而在识别时未能有效利用检测框之外的图像信息(或者说感受野较小)。而上面采用第三神经网络的方法在进行人-物交互关系识别时是直接基于完整的待识别图像进行识别的，有效利用了全图信息(或者说感受野较大)，因此还可以提高人-物交互关系识别的精度。

图5示出了本申请实施例提供的模型训练方法的一种可能的流程，该方法用于训练第三神经网络，方法步骤可以但不限于由图9所示的电子设备执行。参照图5，该方法包括：

步骤S210：获取训练集。

对于第三神经网络的训练为有监督训练，训练集中包括多张带有标签的训练图像。训练图像可分为两类，一类带有目标检测标签，另一类带有人-物交互关系标签。

其中，目标检测标签包括训练图像中的真实目标检测框集合以及每个真实目标检测框的对应的真实目标类别，人-物交互关系标签包括训练图像中的真实人-物交互关系，每组真实人-物交互关系包括一个真实行人框、一个真实物体框、该真实物体框对应的物体类别以及一个真实交互行为类别，两类标签都可由人工事先标注好。

发明人在实践中发现，由于人-物交互关系识别属于新兴技术，因此相关的训练数据(带有人-物交互关系标签的训练图像)尚不是非常充足，而目标检测技术已经比较成熟，因此相关的训练数据(带有目标检测标签的训练图像)也比较充足。

步骤S220：利用训练集训练第三神经网络。

由于第三神经网络包括第一神经网络和第二神经网络，因此训练第三那神经网络就是训练第一神经网络和第二神经网络。

其中，第一神经网络用于目标检测，因此在训练时可充分利用现有技术中大量使用的、带有目标检测标签的训练图像，并且，根据上面对两类标签的定义不难看出，人-物交互关系标签的内容实质上包含了目标检测标签的内容，因此带有人-物交互关系标签的训练图像也可用于第一神经网络的训练，这样可以起到充分利用训练数据的目的。对于第二神经网络则只能使用带有人-物交互关系标签的训练图像进行训练。至于具体如何使用两类标签进行训练，后文会进行说明。

需要指出，训练集中至少应包括带有人-物交互关系标签的训练图像，否则无法训练第二神经网络，至于是否包括带有目标检测标签的训练图像是可选的，因为正如上面所说的，即使训练集中只有带有人-物交互关系标签的训练图像，也是可以训练第一神经网络的。

对于第三神经网络的训练，存在不同的策略，下面列举其中三种策略。在举例时，不妨假定训练集中带有两类标签的训练图像都存在，并且第一神经网络和第二神经网络包括公共的主干网络：

策略一

第一神经网络和第二神经网络一起训练，即同时向两个子网络提供训练数据，当然在训练时应满足前面提到的原则：带有目标检测标签的训练图像用于训练第一神经网络，带有人-物交互关系标签的训练图像用于训练第一神经网络和/或第二神经网络。

策略二

首先进行初训练，即利用训练集中带有目标检测标签的训练图像以及带有人-物交互关系标签的训练图像，训练第三神经网络中的第一神经网络部分，称训练好的网络为初训练的第三神经网络。在初训练过程中，对于第三神经网络中的第二神经网络部分，除其中与第一神经网络共有的主干网络之外(例如，图4中的第二分支网络)均不进行参数更新。

然后进行再训练，即利用训练集中带有目标检测标签的训练图像以及带有人-物交互关系标签的训练图像继续训练初训练的第三神经网络，此时是第一神经网络和第二神经网络一起训练，并应满足策略一中提到的训练原则，最终得到训练好的第三神经网络。在一些实现方式中，再训练阶段可以控制带有两种训练标签的训练图像的比例，以达到较好的训练效果。

策略三

首先进行初训练，即利用训练集中带有人-物交互关系标签的训练图像，训练第三神经网络中的第二神经网络部分，称训练好的网络为初训练的第三神经网络。在初训练过程中，对于第三神经网络中的第一神经网络部分，除其中与第二神经网络共有的主干网络之外(例如，图4中的第一分支网络)均不进行参数更新。

然后进行再训练，即利用训练集中带有目标检测标签的训练图像以及带有人-物交互关系标签的训练图像继续训练初训练的第三神经网络，此时是第一神经网络和第二神经网络一起训练，并应满足策略一中提到的训练原则，最终得到训练好的第三神经网络。

发明人长期研究实验发现，第二神经网络会受益于第一神经网络(因二者具有公共的主干网络)，即第一神经网络的检测精度提升，第二神经网络的检测精度也会提升，反之第一神经网络则不会明显受益于第二神经网络。从而，按照策略二的方案先训练第一神经网络，再训练整个第三神经网络，由于第一神经网络训练充分，所以训练好后目标检测的精度较高，而第二神经网络在训练时由于受益于已经初步训练好的第一神经网络，所以训练好后人-物关系检测的精度也较高。当然，实施时也不排斥采用其他两种训练策略的方案。

对神经网络进行有监督训练的一般性方法是：将带有标签的训练图像输入至神经网络，获得神经网络输出的预测结果，然后根据预测结果以及标签计算损失，最后根据计算出的损失，利用反向传播算法更新神经网络的参数。

对于第三神经网络的训练也可以采取此种方法训练，由于第三神经网络的预测结果包括四项内容：目标检测框集合、目标检测框的置信度、交互热力图以及交互框集合，因此理论上至少可以计算四项损失，分别是：第一神经网络预测目标检测框集合所产生的第一损失，第一神经网络预测每个目标检测框在每种目标类别下的置信度所产生的第二损失，第二神经网络预测交互热力图所产生的第三损失，以及，第二神经网络预测交互框集合所产生的第四损失。其中，目标检测标签可用于计算第一损失以及第二损失，人-物关系标签用于计算第三损失以及第四损失(当然由于人-物关系标签包含目标检测标签，所以也可用于计算第一损失以及第二损失)。

若计算了上述四项损失，可以进一步通过求和的方式(包括加权求和或直接求和)计算总损失，然后再根据总损失更新第三神经网络的参数。不过需要指出，在某些实现方式中，也可以只计算上述四项损失中的一项或多项，并不一定要计算全部四项损失。至于计算损失时具体采用的损失函数，本申请并不限定，在计算损失时考虑了哪几项损失，则有利于提高相应预测项的预测精度，例如，若计算了第一损失，则有利于提高第一神经网络预测目标检测框集合的精度。

关于如何计算第一损失和第二损失，可以参考现有技术中的目标检测方法，此处不具体阐述，下面主要介绍第三损失和第四损失的计算。上文已经指出，只有带有人-物关系标签的训练图像才能用于计算第三损失和第四损失，所以为简化阐述，下文中若未特别说明，所提到的训练图像都是指带有人-物关系标签的训练图像。

在一些实现方式中，第三损失按照如下步骤计算：

步骤A3：将训练图像输入至第二神经网络，获得第二神经网络输出的交互热力图。

其中，交互热力图包括多个通道，每个通道对应一种交互行为类别，每个通道包括带有人-物关系标签的训练图像中的每个像素点作为该通道对应的交互类别下的交互点的置信度。前文已经介绍过第二神经网络基于待识别图像预测出的交互热力图，步骤A3虽然是基于训练图像预测的交互热力图，但交互热力图所代表的含义是类似的，不再详细阐述。

步骤B3：根据人-物关系标签中的每组真实人-物交互关系中的真实行人框以及真实物体框，确定在每组真实人-物交互关系中的真实交互行为类别下的基准交互点的位置。

步骤C3：生成初始标签热力图。

步骤D3：在初始标签热力图的每个通道中，确定以通道对应的交互行为类别下的基准交互点的位置为中心的标签交互区域，并将通道中在标签交互区域内的初始标签置信度，设置为以基准交互点的位置为中心的高斯分布的标签置信度，获得标签热力图。

步骤E3：根据交互热力图和标签热力图计算第三损失。

步骤B3至E3合并在一起进行介绍。要计算第三损失，必须获得训练图像的交互热力图及交互热力图的标签，然而，训练图像原始的标签形式是人-物交互关系标签，该标签在数据形式上和交互热力图相去甚远，所以必须先设法通过执行步骤B3至D3，基于人-物交互关系标签构建交互热力图的标签，称为标签热力图，然后才能在步骤E3中根据交互热力图和标签热力图计算第三损失。

步骤B3中的基准交互点可以指训练图像中能够表示真实交互行为发生的中心位置的像素点。例如，在一些简单的实现方式中，对于一组真实人-物交互关系，可以取真实行人框和真实物体框的中心连线的中点，作为其对应的真实交互行为类别下的基准交互点。如图6(A)所示，真实行人框和真实物体框的中点恰好落在真实物体框的左边缘位置。当然，在其他一些实现方式中，基准交互点也可以不在上述中心连线的中点位置，或者不在上述中心连线上。应当理解，基准交互点只是对真实交互行为发生的中心位置的一种估计，并不代表基准交互点严格等于真实交互行为发生的中心位置，这一点从图6(A)中亦不难看出。

步骤C3中的初始标签热力图包括多个通道，每个通道对应一种交互行为类别，每个通道包括带有人-物关系标签的训练图像中的每个像素点作为该通道对应的交互类别下的交互点的初始标签置信度。初始标签热力图就是所要构建的标签热力图，只是此时图中的置信度数值还处于刚初始化的状态而已。其中，初始标签置信度可以取比较小的值，例如，0、0.01等。

接着，需要为初始标签热力图中可能存在交互行为的区域(严格来说，是指训练图像中可能存在交互行为的区域在初始标签热力图中对应的区域)内的置信度合理地赋值，使得这些区域内的置信度能够较准确地表征训练图像中对应像素点作为某种交互行为类别下的真实交互点的概率，这一过程对应步骤D3。

由于基准交互点代表真实交互行为发生的中心位置，因此执行步骤D3时，在初始标签热力图的每个通道中，都确定以该通道对应的交互行为类别下的基准交互点的位置(由于基准交互点定义为训练图像中的像素点，所以这里是指基准交互点在初始标签热力图中对应的位置)为中心的标签交互区域，每个标签交互区域表示该通道对应的交互行为类别下的一个交互行为的发生位置。标签交互区域的形状不限，例如，可以是以基准交互点为圆心的圆形区域，该圆形区域的半径可以取固定值，也可以根据基准交互点对应的真实行人框和/或真实物体框的尺寸进行计算，等等。

接着，将每个通道中的标签交互区域内的初始标签置信度，都设置为以基准交互点的位置为中心的高斯分布的标签置信度(即重置初始标签置信度的取值，重置后的置信度称为标签置信度)，即可获得标签热力图。例如，若高斯分布为标准正态分布，某通道中某个基准交互点的坐标为(100，100)，则将该通道中坐标(100，100)处的初始标签置信度置为1，该基准交互点所在的标签交互区域内的其他位置处的初始标签置信度则置为(0，1)之间的数值，具体取值根据这些位置与坐标(100，100)的距离确定，对于标签交互区域之外的初始标签置信度，则维持其原置信度不变。

这样重置初始标签置信度取值的方式是合理的，因为基准交互点表示真实交互行为发生的中心位置，理应最可能是真实的交互点，训练图像中离基准交互点越远的像素点是真实交互点的概率也越低，距离远到一定程度(超出了标签交互区域的半径)，其是真实交互点的概率基本可以忽略不计。

对初始标签置信度的取值进行重置后，得到的标签热力图表达这样的含义：对于标签热力图中的某个通道而言，训练图像在标签交互区域内的像素点都可以在一定程度上视为该通道对应的交互行为类别下的真实交互点，训练图像在标签交互区域之外的像素点则可以视为该通道对应的交互行为类别下的非交互点。从而，其可以作为交互热力图的标签。

图6(B)示出了交互行为类别“挥动”对应的通道下的一个标签交互区域(白色区域)，并且，该白色区域的亮度从中心向外逐渐减弱，对应标签置信度在标签交互区域内的高斯分布。标签交互区域外则是大片黑色区域，这些区域内的标签置信度的值很小。

获得标签热力图后，即可根据训练图像的交互热力图与标签热力图计算第三损失，至于计算损失时具体采用的损失函数，本申请并不限定。在一些实现方式中，也可以只在标签交互区域内计算损失，对于标签交互区域外的部分则不关心。

在一些实现方式中，第四损失按照如下步骤计算：

步骤A4：将训练图像输入至第二神经网络，获得第二神经网络输出的交互框集合。

其中，交互框集合包括多个通道，每个通道对应一种交互行为类别，每个通道包括带有人-物关系标签的训练图像中的每个像素点在作为该通道对应的交互类别下的交互点时对应的一组交互框。前文已经介绍过第二神经网络基于待识别图像预测出的交互框集合，步骤A4虽然是基于训练图像预测的交互框集合，但交互框集合所代表的含义是类似的，不再详细阐述。

步骤B4：根据人-物关系标签中的每组真实人-物交互关系中的真实行人框以及真实物体框，确定在每组真实人-物交互关系中的真实交互行为类别下的基准交互点的位置。

步骤C4：生成初始标签交互框集合。

步骤D4：在初始标签交互框集合的每个通道中，确定以通道对应的交互行为类别下的基准交互点的位置为中心的标签交互区域，并将通道中在标签交互区域内的每组初始标签交互框，均设置为用于确定基准交互点的一个真实行人框和一个真实物体框。

步骤E4：根据交互框集合和标签交互框集合计算第四损失。

步骤B4至E4合并在一起进行介绍。要计算第四损失，必须获得训练图像的交互框集合及交互框集合的标签，然而，训练图像原始的标签形式是人-物交互关系标签，该标签在数据形式上和交互框集合相去甚远，所以必须先设法通过执行步骤B4至D4，基于人-物交互关系标签构建交互框集合的标签，称为标签交互框集合，然后才能在步骤E4中根据交互框集合和标签交互框集合计算第四损失。

步骤B4和步骤B3类似，不再阐述。

步骤C4中的初始标签交互框集合包括多个通道，每个通道对应一种交互行为类别，每个通道包括带有人-物关系标签的训练图像中的每个像素点在作为该通道对应的交互类别下的交互点时对应的一组初始标签交互框。初始标签交互框集合就是所要构建的标签交互框集合，只是此时集合中的交互框位置还处于刚初始化的状态而已。其中，初始标签交互框的位置可以取统一的值，例如(0，0，0，0)，前两个零为初始标签交互框左上角坐标，后两个零位初始标签交互框的宽和高。

接着，需要为初始标签交互框集合中可能存在交互行为的区域(严格来说，是指训练图像中可能存在交互行为的区域在初始标签交互框集合中对应的区域)内的交互框合理地设置位置，使得这些区域内的交互框能有效表征交互行为对应的真实交互框，这一过程对应步骤D4。

步骤D4中确定标签交互区域的部分和步骤D3类似，不再重复阐述。需要指出，若在某种实现方式中第三损失和第四损失都要计算，假设先计算第三损失，由于计算第三损失时已经确定了标签交互区域，从而在计算第四损失时可以直接使用这些已经计算好的标签交互区域的位置，无需重新计算，先计算第四损失的情况也是类似的。

接着，将每个通道中在标签交互区域内的每组初始标签交互框，都设置为步骤B4中用于确定基准交互点的一个真实行人框和一个真实物体框(即重置初始标签交互框为一组真实交互框)，即可获得标签交互框集合，对于标签交互区域之外的初始标签交互框，则维持其原位置不变。

这样重置初始标签交互框的方式是合理的，因为训练图像在某个标签交互区域内的像素点都可以在一定程度上视为真实交互点，并且这些像素点和基准交互点同属一个标签区域，即代表同一个交互行为的发生位置，从而这些像素点对应的交互框都可以设置为基准交互点对应的一组真实交互框。至于标签交互区域外的像素点，由于其被视为非交互点，因此其对应的交互框位置并不重要或者说可以忽略。

对初始标签交互框的位置进行重置后，得到的标签交互框集合表达这样的含义：对于标签交互框集合中的某个通道而言，训练图像在标签交互区域内的像素点若作为交互点，其必然对应一组真实交互框，训练图像在标签交互区域之外的像素点则必然不与真实交互框对应。从而，其可以作为交互框集合的标签。

获得标签交互框集合后，即可根据训练图像的交互框集合与标签交互框集合计算第四损失，至于计算损失时具体采用的损失函数，本申请并不限定。在一些实现方式中，也可以只在标签交互区域内计算损失，对于标签交互区域外的部分则不关心，因为前文也提到，标签交互区域外的像素点对应的交互框的位置并不重要。

图7示出了本申请实施例提供的人-物交互关系识别装置300的功能模块图。参照图7，人-物交互关系识别装置300包括：

人-物检测模块310，用于获取待识别图像中的行人检测框集合、物体检测框集合以及每个物体检测框对应的物体类别；其中，所述行人检测框表示检测到的行人位置，所述物体检测框表示检测到的物***置；

交互关系检测模块320，用于获取所述待识别图像中的至少一组交互框以及每组交互框对应的交互行为类别；其中，一组交互框包括一个行人交互框和一个物体交互框，每组交互框对应一种交互行为类别下的一个交互点，所述交互点是指所述待识别图像中能够表示交互行为的发生位置的像素点，所述行人交互框表示利用所述交互点处的图像特征预测出的行人位置，所述物体交互框表示利用所述交互点处的图像特征预测出的物***置；

人-物交互关系识别模块330，用于将每组交互框中的行人交互框和物体交互框，分别与所述行人检测框集合中的行人检测框和所述物体检测框集合中的物体检测框进行匹配，并在其中的行人交互框与一行人检测框匹配，且其中的物体交互框与一物体检测框匹配时，则将匹配的行人检测框、匹配的物体检测框、该物体检测框对应的物体类别以及该组交互框对应的交互行为类别确定为一组人-物交互关系。

在人-物交互关系识别装置300的一种实现方式中，人-物检测模块310获取待识别图像中的行人检测框集合、物体检测框集合以及每个物体检测框对应的物体类别，包括：利用第一神经网络对所述待识别图像进行目标检测，获得所述第一神经网络输出的所述待识别图像中的目标检测框集合以及每个目标检测框在每种目标类别下的置信度；其中，所述目标类别包括行人以及至少一种物体；从所述目标检测框集合中筛选出在任一目标类别下的置信度大于该目标类别下的第一置信度阈值的目标检测框；在筛选出的目标检测框中，对应的目标类别为行人的框构成所述行人检测框集合，对应的目标类别为一种物体的框构成所述物体检测框集合，一个目标检测框对应的目标类别是指使得该目标检测框被筛选出的置信度所在的目标类别。

在人-物交互关系识别装置300的一种实现方式中，交互关系检测模块320获取所述待识别图像中的至少一组行交互框以及每组交互框对应的交互行为类别，包括：利用第二神经网络对所述待识别图像进行人-物交互关系检测，获得所述第二神经网络输出的所述待识别图像的交互热力图以及交互框集合；其中，所述交互热力图包括所述待识别图像中的每个像素点作为每种交互行为类别下的交互点的置信度，所述交互框集合包括所述待识别图像中的每个像素点在作为每种交互行为类别下的交互点时对应的一组交互框；根据所述交互热力图，从所述待识别图像中筛选出在任一交互行为类别下的置信度大于在该交互行为类别下的第二置信度阈值的像素点作为该交互类别下的交互点；确定由每种交互行为类别下连通的交互点构成的每种交互行为类别下的交互点区域；从每种交互行为类别下的每个交互点区域中确定至少一个代表交互点，将所述至少一个代表交互点中的每个代表交互点在所述交互框集合中对应的一组交互框确定为一组用于与检测框集合进行匹配的交互框，并将该代表交互点对应的交互行为类别确定为该组交互框对应的交互行为类别。

在人-物交互关系识别装置300的一种实现方式中，交互关系检测模块320从每种交互行为类别下的每个交互点区域中确定至少一个代表交互点，包括：从每种交互行为类别下的每个交互点区域中选择置信度最大的K个交互点作为所述至少一个代表交互点；其中，K为正整数。

在人-物交互关系识别装置300的一种实现方式中，人-物检测模块310获取待识别图像中的行人检测框集合、物体检测框集合以及每个物体检测框对应的物体类别，包括：利用第一神经网络对所述待识别图像进行目标检测，并根据目标检测结果确定所述待识别图像中的行人检测框集合、物体检测框集合以及每个物体检测框对应的物体类别；交互关系检测模块320获取所述待识别图像中的至少一组交互框以及每组交互框对应的交互行为类别，包括：利用第二神经网络对所述待识别图像进行人-物交互关系检测，并根据检测结果确定所述待识别图像中的至少一组交互框以及每组交互框对应的交互行为类别；其中，所述第一神经网络和所述第二神经网络均为第三神经网络的子网络，且所述第一神经网络和所述第二神经网络为相互独立；或者，所述第一神经网络和所述第二神经网络均为第三神经网络的子网络，且所述第一神经网络和所述第二神经网络包括公共的主干网络，所述主干网络用于提取所述待识别图像的基础特征，所述第一神经网络和所述第二神经网络分别用于根据所述基础特征对所述待识别图像进行目标检测和人-物交互关系检测。

在人-物交互关系识别装置300的一种实现方式中，所述装置还包括：

结果去重模块，用于对人-物交互关系识别模块330获得的至少一组人-物交互关系进行去重，获得不重复的人-物交互关系。

本申请实施例提供的人-物交互关系识别装置300，其实现原理及产生的技术效果在前述方法实施例中已经介绍，为简要描述，装置实施例部分未提及之处，可参考方法实施例中相应内容。

图8示出了本申请实施例提供的模型训练装置400的功能模块图。参照图8，模型训练装置400包括：

训练数据获取模块410，用于获取训练集，所述训练集包括带有标签的训练图像；

模型训练模块420，用于利用所述训练集训练第三神经网络；

其中，所述第三神经网络包括第一神经网络和第二神经网络两个子网络，所述第一神经网络用于对所述训练图像进行目标检测，并输出的所述训练图像中的目标检测框集合以及每个目标检测框在每种目标类别下的置信度，所述第二神经网络用于对所述训练图像进行人-物交互关系检测，并输出的所述训练图像的交互热力图以及交互框集合；每张训练图像带有的标签包括目标检测标签或人-物交互关系标签，带有目标检测标签的训练图像用于训练所述第三神经网络中的所述第一神经网络，带有人-物交互关系标签的训练图像用于训练所述第三神经网络中的所述第一神经网络和/或所述第二神经网络，且所述训练集中至少包括带有所述人-物交互关系标签的训练图像；所述目标检测标签包括所述训练图像中的真实目标检测框集合以及每个真实目标检测框的对应的真实目标类别，所述人-物交互关系标签包括所述训练图像中的真实人-物交互关系，每组真实人-物交互关系包括一个真实行人框、一个真实物体框、该真实物体框对应的物体类别以及一个真实交互行为类别。

在模型训练装置400的一种实现方式中，所述训练集中包括带有目标检测标签的训练图像以及带有人-物交互关系标签的训练图像，所述第一神经网络和所述第二神经网络包括公共的主干网络，模型训练模块420利用所述训练集训练第三神经网络，包括：利用所述训练集中带有目标检测标签的训练图像以及带有人-物交互关系标签的训练图像，训练所述第三神经网络中的所述第一神经网络，获得初训练的第三神经网络；利用所述训练集中带有目标检测标签的训练图像以及带有人-物交互关系标签的训练图像继续训练所述初训练的第三神经网络，获得训练好的第三神经网络；其中，所述带有目标检测标签的训练图像用于训练所述初训练的第三神经网络中的所述第一神经网络，所述带有人-物交互关系标签的训练图像用于训练所述初训练的第三神经网络中的所述第一神经网络和所述第二神经网络。

在模型训练装置400的一种实现方式中，模型训练模块420利用所述训练集训练第三神经网络，包括：将所述训练集中带有标签的训练图像输入至所述第三神经网络，获得所述第三神经网络输出的预测结果；根据所述预测结果以及所述标签计算以下四项损失中的至少一项，并根据计算出的损失更新所述第三神经网络的参数；其中，所述四项损失包括：所述第一神经网络预测所述目标检测框集合所产生的第一损失，所述第一神经网络预测每个目标检测框在每种目标类别下的置信度所产生的第二损失，所述第二神经网络预测所述交互热力图所产生的第三损失，以及，所述第二神经网络预测所述交互框集合所产生的第四损失；所述目标检测标签用于计算所述第一损失以及所述第二损失，所述人-物关系标签用于计算所述第一损失、所述第二损失、所述第三损失以及所述第四损失。

在模型训练装置400的一种实现方式中，模型训练模块420计算所述第三损失的步骤包括：获取所述第二神经网络输出的带有人-物关系标签的训练图像的交互热力图；其中，所述交互热力图包括多个通道，每个通道对应一种交互行为类别，每个通道包括所述带有人-物关系标签的训练图像中的每个像素点作为该通道对应的交互类别下的交互点的置信度；根据所述人-物关系标签中的每组真实人-物交互关系中的真实行人框以及真实物体框，确定在每组真实人-物交互关系中的真实交互行为类别下的基准交互点；其中，所述基准交互点是指所述训练图像中能够表示真实交互行为发生的中心位置的像素点；生成初始标签热力图，所述初始标签热力图包括多个通道，每个通道对应一种交互行为类别，每个通道包括所述带有人-物关系标签的训练图像中的每个像素点作为该通道对应的交互类别下的交互点的初始标签置信度；在所述初始标签热力图的每个通道中，确定以通道对应的交互行为类别下的基准交互点的位置为中心的标签交互区域，并将通道中在所述标签交互区域内的初始标签置信度，设置为以所述基准交互点的位置为中心的高斯分布的标签置信度，获得标签热力图；根据所述交互热力图和所述标签热力图计算所述第三损失。

在模型训练装置400的一种实现方式中，模型训练模块420计算所述第四损失的步骤包括：获取所述第二神经网络输出的带有人-物关系标签的训练图像的交互框集合；其中，所述交互框集合包括多个通道，每个通道对应一种交互行为类别，每个通道包括所述带有人-物关系标签的训练图像中的每个像素点在作为该通道对应的交互类别下的交互点时对应的一组交互框；根据所述人-物关系标签中的每组真实人-物交互关系中的真实行人框以及真实物体框，确定在每组真实人-物交互关系中的真实交互行为类别下的基准交互点；其中，所述基准交互点是指所述训练图像中能够表示真实交互行为发生的中心位置的像素点；生成初始标签交互框集合，所述初始标签交互框集合包括多个通道，每个通道对应一种交互行为类别，每个通道包括所述带有人-物关系标签的训练图像中的每个像素点在作为该通道对应的交互类别下的交互点时对应的一组初始标签交互框；在所述初始标签交互框集合的每个通道中，确定以通道对应的交互行为类别下的基准交互点的位置为中心的标签交互区域，并将通道中在所述标签交互区域内的每组初始标签交互框，均设置为用于确定所述基准交互点的一个真实行人框和一个真实物体框；根据所述交互框集合和所述标签交互框集合计算所述第四损失。

本申请实施例提供的模型训练装置400，其实现原理及产生的技术效果在前述方法实施例中已经介绍，为简要描述，装置实施例部分未提及之处，可参考方法实施例中相应内容。

图9示出了本申请实施例提供的电子设备500的一种可能的结构。参照图9，电子设备500包括：处理器510、存储器520以及通信接口540，这些组件通过通信总线550和/或其他形式的连接机构(未示出)互连并相互通讯。

其中，处理器510包括一个或多个(图中仅示出一个)，其可以是一种集成电路芯片，具有信号的处理能力。上述的处理器510可以是通用处理器，包括中央处理器(CentralProcessing Unit，简称CPU)、微控制单元(Micro Controller Unit，简称MCU)、网络处理器(Network Processor，简称NP)或者其他常规处理器；还可以是专用处理器，包括图形处理器(Graphics Processing Unit，GPU)、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuits，简称ASIC)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。并且，在处理器510为多个时，其中的一部分可以是通用处理器，另一部分可以是专用处理器。

存储器520包括一个或多个(图中仅示出一个)，其可以是，但不限于，随机存取存储器(Random Access Memory，简称RAM)，只读存储器(Read Only Memory，简称ROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，电可擦除可编程只读存储器(Electric Erasable Programmable Read-Only Memory，简称EEPROM)等。

处理器510以及其他可能的组件可对存储器520进行访问，读和/或写其中的数据。例如，在存储器520中可以存储一个或多个计算机程序指令，处理器510可以读取并运行这些计算机程序指令，以实现本申请实施例提供的人-物交互关系识别方法和/或模型训练方法。

图像采集单元530包括一个或多个(图中仅示出一个)，可以用于采集图像和/或视频，例如，采集视频流并对其中的视频帧进行实时的人-物交互关系识别。图像采集单元530可以包括各种类型的摄像头。

通信接口540包括一个或多个(图中仅示出一个)，可以用于和其他设备进行直接或间接地通信，以便进行数据的交互。通信接口540可以包括进行有线和/或无线通信的接口。

可以理解，图9所示的结构仅为示意，电子设备500还可以包括比图9中所示更多或者更少的组件，或者具有与图9所示不同的配置，例如，在一些实现方式中，电子设备500也可以不包括图像采集单元530，而由通信接口540从其他设备处接收用于进行人-物交互关系识别的图像和/或视频。图9中所示的各组件可以采用硬件、软件或其组合实现。电子设备500可能是实体设备，例如PC机、笔记本电脑、平板电脑、手机、服务器、嵌入式设备等，也可能是虚拟设备，例如虚拟机、虚拟化容器等。并且，电子设备500也不限于单台设备，也可以是多台设备的组合或者大量设备构成的集群。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被计算机的处理器读取并运行时，执行本申请实施例提供的人-物交互关系识别方法和/或模型训练方法。例如，计算机可读存储介质可以实现为图9中电子设备500中的存储器520。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种人-物交互关系识别方法，其特征在于，包括：

获取待识别图像中的行人检测框集合、物体检测框集合以及每个物体检测框对应的物体类别；其中，所述行人检测框表示检测到的行人位置，所述物体检测框表示检测到的物***置；

获取所述待识别图像中的至少一组交互框以及每组交互框对应的交互行为类别；其中，一组交互框包括一个行人交互框和一个物体交互框，每组交互框对应一种交互行为类别下的一个交互点，所述交互点是指所述待识别图像中能够表示交互行为的发生位置的像素点，所述行人交互框表示利用所述交互点处的图像特征预测出的行人位置，所述物体交互框表示利用所述交互点处的图像特征预测出的物***置；

将每组交互框中的行人交互框和物体交互框，分别与所述行人检测框集合中的行人检测框和所述物体检测框集合中的物体检测框进行匹配，若其中的行人交互框与一行人检测框匹配，且其中的物体交互框与一物体检测框匹配，则将匹配的行人检测框、匹配的物体检测框、该物体检测框对应的物体类别以及该组交互框对应的交互行为类别确定为一组人-物交互关系。

2.根据权利要求1所述的人-物交互关系识别方法，其特征在于，所述获取待识别图像中的行人检测框集合、物体检测框集合以及每个物体检测框对应的物体类别，包括：

利用第一神经网络对所述待识别图像进行目标检测，获得所述第一神经网络输出的所述待识别图像中的目标检测框集合以及每个目标检测框在每种目标类别下的置信度；其中，所述目标类别包括行人以及至少一种物体；

从所述目标检测框集合中筛选出在任一目标类别下的置信度大于该目标类别下的第一置信度阈值的目标检测框；在筛选出的目标检测框中，对应的目标类别为行人的框构成所述行人检测框集合，对应的目标类别为一种物体的框构成所述物体检测框集合，一个目标检测框对应的目标类别是指使得该目标检测框被筛选出的置信度所在的目标类别。

3.根据权利要求1所述的人-物交互关系识别方法，其特征在于，所述获取所述待识别图像中的至少一组行交互框以及每组交互框对应的交互行为类别，包括：

利用第二神经网络对所述待识别图像进行人-物交互关系检测，获得所述第二神经网络输出的所述待识别图像的交互热力图以及交互框集合；其中，所述交互热力图包括所述待识别图像中的每个像素点作为每种交互行为类别下的交互点的置信度，所述交互框集合包括所述待识别图像中的每个像素点在作为每种交互行为类别下的交互点时对应的一组交互框；

根据所述交互热力图，从所述待识别图像中筛选出在任一交互行为类别下的置信度大于在该交互行为类别下的第二置信度阈值的像素点作为该交互类别下的交互点；

确定由每种交互行为类别下连通的交互点构成的每种交互行为类别下的交互点区域；

从每种交互行为类别下的每个交互点区域中确定至少一个代表交互点，将所述至少一个代表交互点中的每个代表交互点在所述交互框集合中对应的一组交互框确定为一组用于与检测框集合进行匹配的交互框，并将该代表交互点对应的交互行为类别确定为该组交互框对应的交互行为类别。

4.根据权利要求3所述的人-物交互关系识别方法，其特征在于，所述从每种交互行为类别下的每个交互点区域中确定至少一个代表交互点，包括：

从每种交互行为类别下的每个交互点区域中选择置信度最大的K个交互点作为所述至少一个代表交互点；其中，K为正整数。

5.根据权利要求1-4中任一项所述的人-物交互关系识别方法，其特征在于，所述获取待识别图像中的行人检测框集合、物体检测框集合以及每个物体检测框对应的物体类别，包括：

利用第一神经网络对所述待识别图像进行目标检测，并根据目标检测结果确定所述待识别图像中的行人检测框集合、物体检测框集合以及每个物体检测框对应的物体类别；

所述获取所述待识别图像中的至少一组交互框以及每组交互框对应的交互行为类别，包括：

利用第二神经网络对所述待识别图像进行人-物交互关系检测，并根据检测结果确定所述待识别图像中的至少一组交互框以及每组交互框对应的交互行为类别；

其中，所述第一神经网络和所述第二神经网络均为第三神经网络的子网络，且所述第一神经网络和所述第二神经网络为相互独立；或者，

所述第一神经网络和所述第二神经网络均为第三神经网络的子网络，且所述第一神经网络和所述第二神经网络包括公共的主干网络，所述主干网络用于提取所述待识别图像的基础特征，所述第一神经网络和所述第二神经网络分别用于根据所述基础特征对所述待识别图像进行目标检测和人-物交互关系检测。

6.根据权利要求1-4中任一项所述的人-物交互关系识别方法，其特征在于，所述方法还包括：

对获得的至少一组人-物交互关系进行去重，获得不重复的人-物交互关系。

7.一种模型训练方法，其特征在于，包括：

获取训练集，所述训练集包括带有标签的训练图像；

利用所述训练集训练第三神经网络；

其中，所述第三神经网络用于执行权利要求1-6中任一项所述的人-物交互关系识别方法，所述第三神经网络包括第一神经网络和第二神经网络两个子网络，所述第一神经网络用于对所述训练图像进行目标检测，并输出的所述训练图像中的目标检测框集合以及每个目标检测框在每种目标类别下的置信度，所述第二神经网络用于对所述训练图像进行人-物交互关系检测，并输出的所述训练图像的交互热力图以及交互框集合；

每张训练图像带有的标签包括目标检测标签或人-物交互关系标签，带有目标检测标签的训练图像用于训练所述第三神经网络中的所述第一神经网络，带有人-物交互关系标签的训练图像用于训练所述第三神经网络中的所述第一神经网络和/或所述第二神经网络，且所述训练集中至少包括带有所述人-物交互关系标签的训练图像；

所述目标检测标签包括所述训练图像中的真实目标检测框集合以及每个真实目标检测框的对应的真实目标类别，所述人-物交互关系标签包括所述训练图像中的真实人-物交互关系，每组真实人-物交互关系包括一个真实行人框、一个真实物体框、该真实物体框对应的物体类别以及一个真实交互行为类别。

8.根据权利要求7所述的模型训练方法，其特征在于，所述训练集中包括带有目标检测标签的训练图像以及带有人-物交互关系标签的训练图像，所述第一神经网络和所述第二神经网络包括公共的主干网络，所述利用所述训练集训练第三神经网络，包括：

利用所述训练集中带有目标检测标签的训练图像以及带有人-物交互关系标签的训练图像，训练所述第三神经网络中的所述第一神经网络，获得初训练的第三神经网络；

利用所述训练集中带有目标检测标签的训练图像以及带有人-物交互关系标签的训练图像继续训练所述初训练的第三神经网络，获得训练好的第三神经网络；其中，所述带有目标检测标签的训练图像用于训练所述初训练的第三神经网络中的所述第一神经网络，所述带有人-物交互关系标签的训练图像用于训练所述初训练的第三神经网络中的所述第一神经网络和所述第二神经网络。

9.根据权利要求7或8所述的模型训练方法，其特征在于，所述利用所述训练集训练第三神经网络，包括：

将所述训练集中带有标签的训练图像输入至所述第三神经网络，获得所述第三神经网络输出的预测结果；

根据所述预测结果以及所述标签计算以下四项损失中的至少一项，并根据计算出的损失更新所述第三神经网络的参数；

其中，所述四项损失包括：所述第一神经网络预测所述目标检测框集合所产生的第一损失，所述第一神经网络预测每个目标检测框在每种目标类别下的置信度所产生的第二损失，所述第二神经网络预测所述交互热力图所产生的第三损失，以及，所述第二神经网络预测所述交互框集合所产生的第四损失；

所述目标检测标签用于计算所述第一损失以及所述第二损失，所述人-物关系标签用于计算所述第一损失、所述第二损失、第三损失以及所述第四损失。

10.根据权利要求9所述的训练方法，其特征在于，计算所述第三损失的步骤包括：

获取所述第二神经网络输出的带有人-物关系标签的训练图像的交互热力图；其中，所述交互热力图包括多个通道，每个通道对应一种交互行为类别，每个通道包括所述带有人-物关系标签的训练图像中的每个像素点作为该通道对应的交互类别下的交互点的置信度；

根据所述人-物关系标签中的每组真实人-物交互关系中的真实行人框以及真实物体框，确定在每组真实人-物交互关系中的真实交互行为类别下的基准交互点；其中，所述基准交互点是指所述训练图像中能够表示真实交互行为发生的中心位置的像素点；

生成初始标签热力图，所述初始标签热力图包括多个通道，每个通道对应一种交互行为类别，每个通道包括所述带有人-物关系标签的训练图像中的每个像素点作为该通道对应的交互类别下的交互点的初始标签置信度；

在所述初始标签热力图的每个通道中，确定以通道对应的交互行为类别下的基准交互点的位置为中心的标签交互区域，并将通道中在所述标签交互区域内的初始标签置信度，设置为以所述基准交互点的位置为中心的高斯分布的标签置信度，获得标签热力图；

根据所述交互热力图和所述标签热力图计算所述第三损失。

11.根据权利要求9所述的训练方法，其特征在于，计算所述第四损失的步骤包括：

获取所述第二神经网络输出的带有人-物关系标签的训练图像的交互框集合；其中，所述交互框集合包括多个通道，每个通道对应一种交互行为类别，每个通道包括所述带有人-物关系标签的训练图像中的每个像素点在作为该通道对应的交互类别下的交互点时对应的一组交互框；

生成初始标签交互框集合，所述初始标签交互框集合包括多个通道，每个通道对应一种交互行为类别，每个通道包括所述带有人-物关系标签的训练图像中的每个像素点在作为该通道对应的交互类别下的交互点时对应的一组初始标签交互框；

在所述初始标签交互框集合的每个通道中，确定以通道对应的交互行为类别下的基准交互点的位置为中心的标签交互区域，并将通道中在所述标签交互区域内的每组初始标签交互框，均设置为用于确定所述基准交互点的一个真实行人框和一个真实物体框；

根据所述交互框集合和所述标签交互框集合计算所述第四损失。

12.一种人-物交互关系识别装置，其特征在于，包括：

人-物检测模块，用于获取待识别图像中的行人检测框集合、物体检测框集合以及每个物体检测框对应的物体类别；其中，所述行人检测框表示检测到的行人位置，所述物体检测框表示检测到的物***置；

交互关系检测模块，用于获取所述待识别图像中的至少一组交互框以及每组交互框对应的交互行为类别；其中，一组交互框包括一个行人交互框和一个物体交互框，每组交互框对应一种交互行为类别下的一个交互点，所述交互点是指所述待识别图像中能够表示交互行为的发生位置的像素点，所述行人交互框表示利用所述交互点处的图像特征预测出的行人位置，所述物体交互框表示利用所述交互点处的图像特征预测出的物***置；

人-物交互关系识别模块，用于将每组交互框中的行人交互框和物体交互框，分别与所述行人检测框集合中的行人检测框和所述物体检测框集合中的物体检测框进行匹配，并在其中的行人交互框与一行人检测框匹配，且其中的物体交互框与一物体检测框匹配时，则将匹配的行人检测框、匹配的物体检测框、该物体检测框对应的物体类别以及该组交互框对应的交互行为类别确定为一组人-物交互关系。

13.一种模型训练装置，其特征在于，包括：

训练数据获取模块，用于获取训练集，所述训练集包括带有标签的训练图像；

模型训练模块，用于利用所述训练集训练第三神经网络；

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器读取并运行时，执行如权利要求1-11中任一项所述的方法。

15.一种电子设备，其特征在于，包括存储器以及处理器，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器读取并运行时，执行权利要求1-11中任一项所述的方法。