CN108898067B

CN108898067B - 确定人和物关联度的方法、装置及计算机可读存储介质

Info

Publication number: CN108898067B
Application number: CN201810574016.1A
Authority: CN
Inventors: 石海龙; 张伟华; 吴江旭; 李凡; 胡淼枫; 曲志勇; 张洪光; 雍兴辉; 武跃峰
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2018-06-06
Filing date: 2018-06-06
Publication date: 2021-04-30
Anticipated expiration: 2038-06-06
Also published as: CN108898067A

Abstract

本公开提供了一种确定人和物关联度的方法、装置及计算机可读存储介质，涉及多媒体技术领域。其中的确定人和物关联度的方法包括：对视频数据的各个图像帧进行图像检测，得到视频数据的各个图像帧中相关联的人和物；对各个图像帧中相关联的人和物进行特征提取，得到各个图像帧中相关联的人和物的融合特征；对各个图像帧中相关联的人和物的融合特征进行量化，得到视频数据中相关联的人和物的关联度。本公开能够利用视频数据量化得到人和物的关联度。

Description

确定人和物关联度的方法、装置及计算机可读存储介质

技术领域

本公开涉及多媒体技术领域，特别涉及一种确定人和物关联度的方法、装置及计算机可读存储介质。

背景技术

在线下门店场景中，实时准确地检测顾客对各类商品的感兴趣程度或购买意向对构建精准用户画像至关重要，是推动并实现线上线下融合无界零售模式的重要技术保障之一。

例如，从顾客进店开始，实时追踪顾客在店内各类商品前面的停留时间，拿起观看把玩时间及次数等指标，进而细粒度地进行用户画像，预测顾客对某商品的感兴趣程度，分析其潜在购买意愿和程度，以及未实施购买行为的原因，然后有针对性的给出对策并做出反应(如派出服务员或服务机器人进行导购讲解，在线发放优惠券等)，可答复提高用户体验及商品购买转化率。

发明内容

发明人研究发现，相关技术关注的是人-物或者物-物关系的定性描述(比如一个男人骑在马上，一个女人在打网球，一只狗在跳起来接飞盘等等)，还做不到精确量化人-物关系，更不能对视频数据进行处理得到确定人和物关联度。因此，通过对监控视频数据进行实时分析，构建人-物关系的定量分析模型，对未来线下零售具有十分重要的意义。

本公开解决的一个技术问题是，如何利用视频数据量化得到人和物的关联度。

根据本公开实施例的一个方面，提供了一种确定人和物关联度的方法，包括：对视频数据的各个图像帧进行图像检测，得到视频数据的各个图像帧中相关联的人和物；对各个图像帧中相关联的人和物进行特征提取，得到各个图像帧中相关联的人和物的融合特征；对各个图像帧中相关联的人和物的融合特征进行量化，得到视频数据中相关联的人和物的关联度。

在一些实施例中，利用对视频数据的各个图像帧进行图像检测，得到视频数据的各个图像帧中相关联的人和物包括：对视频数据的各个图像帧进行图像检测，得到各个图像帧中的人和物；确定各个图像帧中人的位置信息和物的位置信息；利用各个图像帧中人的位置信息和物的位置信息，确定各个图像帧中人和物的距离；将各个图像帧中距离小于第一阈值的人和物，作为各个图像帧中相关联的人和物。

在一些实施例中，对视频数据的各个图像帧进行图像检测，得到各个图像帧中的人和物包括：利用目标检测网络模型对各个图像帧进行图像检测，得到各个图像帧中的目标；利用分类神经网络模型对各个图像帧中的目标进行分类，得到各个图像帧中的人和物。

在一些实施例中，对各个图像帧中相关联的人和物进行特征提取，得到各个图像帧中相关联的人和物的融合特征包括：利用特征提取网络模型对各个图像帧中相关联的人和物进行特征提取，得到各个图像帧中相关联的人的特征矩阵和物的特征矩阵；利用特征变换网络模型对各个图像帧中相关联的人的特征矩阵和物的特征矩阵进行特征变换，得到各个图像帧中相关联的人的特征向量和物的特征向量；利用特征融合网络模型对各个图像帧中相关联的人的特征向量、物的特征向量、人的位置信息、物的位置信息进行融合，得到各个图像帧中相关联的人和物的融合特征。

在一些实施例中，特征提取网络模型由RoiAlign层组成，特征变换网络模型由全连接层组成，特征融合网络模型由全连接层组成。

在一些实施例中，对各个图像帧中相关联的人和物的融合特征进行量化，得到视频数据中相关联的人和物的关联度包括：利用长短期记忆网络模型对各个图像帧中相关联的人和物的融合特征进行量化，得到各个图像帧中相关联的人和物的量化结果；将各个图像帧中相关联的人和物的量化结果组成量化序列，并利用全连接网络模型对量化序列进行处理，得到视频数据中相关联的人和物的关联度。

在一些实施例中，长短期记忆网络模型对各个图像帧中相关联的人和物的融合特征进行量化，得到各个图像帧中相关联的人和物的量化结果包括：将小于第二阈值的量化结果置零。

在一些实施例中，长短期记忆网络模型对各个图像帧中相关联的人和物的融合特征进行量化，得到各个图像帧中相关联的人和物的量化结果还包括：将不小于第二阈值的量化结果作为各个图像帧中相关联的人和物的量化结果。

根据本公开实施例的另一个方面，提供了一种确定人和物关联度的装置，包括：图像检测模块，被配置为对视频数据的各个图像帧进行图像检测，得到视频数据的各个图像帧中相关联的人和物；特征融合模块，被配置为对各个图像帧中相关联的人和物进行特征提取，得到各个图像帧中相关联的人和物的融合特征；关联度量化模块，被配置为对各个图像帧中相关联的人和物的融合特征进行量化，得到视频数据中相关联的人和物的关联度。

在一些实施例中，图像检测模块被配置为：对视频数据的各个图像帧进行图像检测，得到各个图像帧中的人和物；确定各个图像帧中人的位置信息和物的位置信息；利用各个图像帧中人的位置信息和物的位置信息，确定各个图像帧中人和物的距离；将各个图像帧中距离小于第一阈值的人和物，作为各个图像帧中相关联的人和物。

在一些实施例中，图像检测模块被配置为：利用目标检测网络模型对各个图像帧进行图像检测，得到各个图像帧中的目标；利用分类神经网络模型对各个图像帧中的目标进行分类，得到各个图像帧中的人和物。

在一些实施例中，特征融合模块被配置为：利用特征提取网络模型对各个图像帧中相关联的人和物进行特征提取，得到各个图像帧中相关联的人的特征矩阵和物的特征矩阵；利用特征变换网络模型对各个图像帧中相关联的人的特征矩阵和物的特征矩阵进行特征变换，得到各个图像帧中相关联的人的特征向量和物的特征向量；利用特征融合网络模型对各个图像帧中相关联的人的特征向量、物的特征向量、人的位置信息、物的位置信息进行融合，得到各个图像帧中相关联的人和物的融合特征。

在一些实施例中，关联度量化模块被配置为：利用长短期记忆网络模型对各个图像帧中相关联的人和物的融合特征进行量化，得到各个图像帧中相关联的人和物的量化结果；将各个图像帧中相关联的人和物的量化结果组成量化序列，并全连接网络模型对量化序列进行处理，得到视频数据中相关联的人和物的关联度。

在一些实施例中，关联度量化模块被配置为：将小于第二阈值的量化结果置零。

在一些实施例中，关联度量化模块被配置为：将不小于第二阈值的量化结果作为各个图像帧中相关联的人和物的量化结果。

根据本公开实施例的又一个方面，提供了一种确定人和物关联度的装置，包括：存储器；以及耦接至存储器的处理器，处理器被配置为基于存储在存储器中的指令，执行前述的确定人和物关联度的方法。

根据本公开实施例的再一个方面，提供了一种计算机可读存储介质，其中，计算机可读存储介质存储有计算机指令，指令被处理器执行时实现前述的确定人和物关联度的方法。

本公开能够利用视频数据量化得到人和物的关联度。通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出了本公开一个实施例的确定人和物关联度的方法的流程示意图。

图2示出了对视频数据的各个图像帧进行图像检测的一个实施例的流程示意图。

图3示出了对各个图像帧中相关联的人和物进行特征提取的一个实施例的流程示意图。

图4示出了目标检测网络模型、特征提取网络模型以及特征变换网络模型的结构示意图。

图5示出了特征融合过程涉及到相关变量的示意图。

图6示出了对各个图像帧中相关联的人和物的融合特征进行量化的一个实施例的流程示意图。

图7示出了对各个图像帧中相关联的人和物的融合特征进行量化过程中使用的神经网络模型。

图8示出了本公开一个实施例的确定人和物关联度的装置的结构示意图。

图9示出了本公开另一个实施例的确定人和物关联度的装置的结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本公开保护的范围。

首先结合图1描述本公开一个实施例的确定人和物关联度的方法。

图1示出了本公开一个实施例的确定人和物关联度的方法的流程示意图。如图1所示，该实施例中的确定人和物关联度的方法包括步骤S102～步骤S108。

在步骤S102中，对视频数据的各个图像帧进行图像检测，得到视频数据的各个图像帧中相关联的人和物。

例如，可以对输入的视频序列数据按帧进行图像读取，然后使用RetinaNet网络模型进行目标检测。本领域技术人员应理解，也可使用如SSD、YOLO、Faster RCNN、Light-HeadRCNN等其它目标检测模型。

在步骤S104中，对各个图像帧中相关联的人和物进行特征提取，得到各个图像帧中相关联的人和物的融合特征。

在检测出图像帧中的相关联的人和物之后，需要分别提取人和物的特征。例如，可以采用卷积神经网络提取目标特征，具体使用如VGG、GoogleNet、ResNet、FPN等网络模型。

在步骤S106中，对各个图像帧中相关联的人和物的融合特征进行量化，得到视频数据中相关联的人和物的关联度。

例如，可以将视频中连续图像帧中相关联的人和物的融合特征按次序输入到例如RNN、LSTM、GRU等循环神经网络，提取并融合得到序列特征。这里的循环神经网络可以是单层或者多层循环神经网络。然后，将该序列特征通过两层或更多层全连接神经网络，可以最终输出一个或多个标量值，分别表征相关联的人和物之间定量的关联度，可以表示人对物的感兴趣程度、人对物对购买概率等等。

上述实施例通过神经网络模型检测得到视频数据中相关联的人和物，并提取相关联的人和物的融合特征，最终量化得到视频数据中相关联的人和物的关联度，从而能够利用视频数据量化得到人和物的关联度。

下面结合图2描述如何对视频数据的各个图像帧进行图像检测。

图2示出了对视频数据的各个图像帧进行图像检测的一个实施例的流程示意图。如图2所示，该实施例中对视频数据的各个图像帧进行图像检测的过程包括步骤S2022～步骤S2028。

在步骤S2022中，对视频数据的各个图像帧进行图像检测，得到各个图像帧中的人和物。

例如，可以利用目标检测网络模型对各个图像帧进行图像检测，得到各个图像帧中的目标，再利用分类神经网络模型对各个图像帧中的目标进行分类，得到各个图像帧中的人和物。

在步骤S2024中，确定各个图像帧中人的位置信息和物的位置信息。

例如，可以通过目标检测神经网络检测输入视频中目标(人和物)的位置信息，采用浅层(例如2-3层)神经网络对目标进行分类分成人和不同的物品类别。用H_i＝(x_i,y_i,w_i,h_i)表示图像中第i个人的位置信息，其中x,y表示目标中心点横纵坐标，w,h表示目标的宽度和高度信息；用O_j＝((x_j,y_j,w_j,h_j),l_j)第j个物品的位置和类别信息，其中L_j表示类别信息。

在步骤S2026中，利用各个图像帧中人的位置信息和物的位置信息，确定各个图像帧中人和物的距离。

例如，人和物的距离计算方法如下，其中，d表示人和物之间的相对位置，h表示人，o表示物。

在步骤S2028中，将各个图像帧中距离小于第一阈值的人和物，作为各个图像帧中相关联的人和物。

例如，当人和物的相对位置小于预设阈值时，认为二者可能存在较强的关联性，从而输出得到对应的人物检测框序列：[{H₁:[O₁,O₂,…]},{H₂:[O₅,O₇,…]},…]。

上述实施例中，能够结合人和物的距离初步确定视频数据中相关联的人和物。由于在线下门店场景中整帧图像中存在大量的物品，而人当前关注的可能只是其中几种。根据人和物的相对位置信息进行初步的筛选，能够大幅降低计算复杂度，从而更加高效的确定视频数据中相关联的人和物的关联度。

下面结合图3描述如何对各个图像帧中相关联的人和物进行特征提取。

图3示出了对各个图像帧中相关联的人和物进行特征提取的一个实施例的流程示意图。如图3所示，该实施例中对各个图像帧中相关联的人和物进行特征提取的过程包括步骤S3042～步骤S3048。

在步骤S3042中，利用特征提取网络模型对各个图像帧中相关联的人和物进行特征提取，得到各个图像帧中相关联的人的特征矩阵和物的特征矩阵。

例如，为进一步降低计算复杂度，可以在步骤S102中采用的目标检测网络模型的基础上，仅增加一个标准RoiAlign层用于提取人和物的特征。RoiAlign是目标检测方法中一种较为常见的方法，它通过一个双线性变换网络将图像中不同大小的目标(人和物)变换成一个固定大小(例如7x7)的特征矩阵。

在步骤S3044中，利用特征变换网络模型对各个图像帧中相关联的人的特征矩阵和物的特征矩阵进行特征变换，得到各个图像帧中相关联的人的特征向量和物的特征向量。

例如，可以通过两层或更多层全连接神经网络将上述RoiAlign层输出的人和物的特征向量变换为一个1024维向量(也可为2048维或其它维度)。

在步骤S3046中，利用特征融合网络模型对各个图像帧中相关联的人的特征向量、物的特征向量、人的位置信息、物的位置信息进行融合，得到各个图像帧中相关联的人和物的融合特征。

例如，可以将检测到的目标位置和大小信息(人的坐标和物的坐标)与上述特征变换后人和物的目标向量合并连接成一个长向量(例如1024+1024+4+4维度)，然后通过一个浅层(例如2-3层)全连接神经网络，输出相关联的人和物的融合特征。图4示出了目标检测网络模型、特征提取网络模型以及特征变换网络模型的结构示意图。图5示出了特征融合过程涉及到相关变量的示意图。

上述实施例中，能够结合神经网络实现相关联的人和物的特征提取和特征变换，实现了结合目标距离的人和物的特征融合模型，从而能够根据特征向量以及位置信息得到各个图像帧中相关联的人和物的融合特征。

下面结合图6描述如何对各个图像帧中相关联的人和物的融合特征进行量化。

图6示出了对各个图像帧中相关联的人和物的融合特征进行量化的一个实施例的流程示意图。如图6所示，该实施例中对各个图像帧中相关联的人和物的融合特征进行量化的过程包括步骤S6062～步骤S6066。

步骤S6062，利用长短期记忆网络模型(LSTM)对各个图像帧中相关联的人和物的融合特征进行量化，得到各个图像帧中相关联的人和物的量化结果。

步骤S6064，将各个图像帧中相关联的人和物的量化结果组成量化序列，并利用全连接网络模型对量化序列进行处理，得到视频数据中相关联的人和物的关联度。

步骤S6066，将小于第二阈值的量化结果置零，将不小于第二阈值的量化结果作为各个图像帧中相关联的人和物的量化结果。

图7示出了对各个图像帧中相关联的人和物的融合特征进行量化过程中使用的神经网络模型。如图7所示，在每个LSTM的输出中增加一个阈值处理单元，将小于预设阈值的输出设为0，可以降低弱关联信息对最终序列特征的影响。

上述实施例中，实现了基于神经网络的视频中人和物关联度的量化模型。通过将小于预设阈值的输出设为0，可以降低弱关联信息对最终序列特征的影响，从而减少人员密集或商品密集场景中海量的人-物弱关联，进而增强了整个确定人和物关联度的***工作时的鲁棒性。

下面结合图8描述本公开一个实施例的确定人和物关联度的装置。

图8示出了本公开一个实施例的确定人和物关联度的装置的结构示意图。如图8所示，本实施例中的确定人和物关联度的装置80包括：

图像检测模块802，被配置为对视频数据的各个图像帧进行图像检测，得到视频数据的各个图像帧中相关联的人和物；

特征融合模块804，被配置为对各个图像帧中相关联的人和物进行特征提取，得到各个图像帧中相关联的人和物的融合特征；

关联度量化模块806，被配置为对各个图像帧中相关联的人和物的融合特征进行量化，得到视频数据中相关联的人和物的关联度。

在一些实施例中，图像检测模块802被配置为：对视频数据的各个图像帧进行图像检测，得到各个图像帧中的人和物；确定各个图像帧中人的位置信息和物的位置信息；利用各个图像帧中人的位置信息和物的位置信息，确定各个图像帧中人和物的距离；将各个图像帧中距离小于第一阈值的人和物，作为各个图像帧中相关联的人和物。

在一些实施例中，图像检测模块802被配置为：利用目标检测网络模型对各个图像帧进行图像检测，得到各个图像帧中的目标；利用分类神经网络模型对各个图像帧中的目标进行分类，得到各个图像帧中的人和物。

在一些实施例中，特征融合模块804被配置为：利用特征提取网络模型对各个图像帧中相关联的人和物进行特征提取，得到各个图像帧中相关联的人的特征矩阵和物的特征矩阵；利用特征变换网络模型对各个图像帧中相关联的人的特征矩阵和物的特征矩阵进行特征变换，得到各个图像帧中相关联的人的特征向量和物的特征向量；利用特征融合网络模型对各个图像帧中相关联的人的特征向量、物的特征向量、人的位置信息、物的位置信息进行融合，得到各个图像帧中相关联的人和物的融合特征。

在一些实施例中，关联度量化模块806被配置为：利用长短期记忆网络模型对各个图像帧中相关联的人和物的融合特征进行量化，得到各个图像帧中相关联的人和物的量化结果；将各个图像帧中相关联的人和物的量化结果组成量化序列，并全连接网络模型对量化序列进行处理，得到视频数据中相关联的人和物的关联度。

在一些实施例中，关联度量化模块806被配置为：将小于第二阈值的量化结果置零。

在一些实施例中，关联度量化模块806被配置为：将不小于第二阈值的量化结果作为各个图像帧中相关联的人和物的量化结果。

图9示出了本公开另一个实施例的确定人和物关联度的装置的结构示意图。如图9所示，该实施例的确定人和物关联度的装置90包括：存储器910以及耦接至该存储器910的处理器920，处理器920被配置为基于存储在存储器910中的指令，执行前述任意一个实施例中的确定人和物关联度的方法。

其中，存储器910例如可以包括***存储器、固定非易失性存储介质等。***存储器例如存储有操作***、应用程序、引导装载程序(Boot Loader)以及其他程序等。

确定人和物关联度的装置90还可以包括输入输出接口930、网络接口940、存储接口950等。这些接口930、940、950以及存储器910和处理器920之间例如可以通过总线960连接。其中，输入输出接口930为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口940为各种联网设备提供连接接口。存储接口950为SD卡、U盘等外置存储设备提供连接接口。

本公开还包括一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现前述任意一个实施例中的确定人和物关联度的方法。

本领域内的技术人员应明白，本公开的实施例可提供为方法、***、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本公开的较佳实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种确定人和物关联度的方法，包括：

对视频数据的各个图像帧进行图像检测，得到视频数据的各个图像帧中相关联的人和物；

利用特征提取网络模型对各个图像帧中相关联的人和物进行特征提取，得到各个图像帧中相关联的人的特征矩阵和物的特征矩阵；利用特征变换网络模型对各个图像帧中相关联的人的特征矩阵和物的特征矩阵进行特征变换，得到各个图像帧中相关联的人的特征向量和物的特征向量；利用特征融合网络模型对各个图像帧中相关联的人的特征向量、物的特征向量、人的位置信息、物的位置信息进行融合，得到各个图像帧中相关联的人和物的融合特征；

利用长短期记忆网络模型对各个图像帧中相关联的人和物的融合特征进行量化，得到各个图像帧中相关联的人和物的量化结果；将各个图像帧中相关联的人和物的量化结果组成量化序列，并利用全连接网络模型对所述量化序列进行处理，得到视频数据中相关联的人和物的关联度。

2.如权利要求1所述的方法，其中，所述利用对视频数据的各个图像帧进行图像检测，得到视频数据的各个图像帧中相关联的人和物包括：

对视频数据的各个图像帧进行图像检测，得到各个图像帧中的人和物；

确定各个图像帧中人的位置信息和物的位置信息；

利用各个图像帧中人的位置信息和物的位置信息，确定各个图像帧中人和物的距离；

将各个图像帧中距离小于第一阈值的人和物，作为各个图像帧中相关联的人和物。

3.如权利要求2所述的方法，其中，所述对视频数据的各个图像帧进行图像检测，得到各个图像帧中的人和物包括：

利用目标检测网络模型对各个图像帧进行图像检测，得到各个图像帧中的目标；

利用分类神经网络模型对各个图像帧中的目标进行分类，得到各个图像帧中的人和物。

4.如权利要求1所述的方法，其中，所述特征提取网络模型由RoiAlign层组成，所述特征变换网络模型由全连接层组成，所述特征融合网络模型由全连接层组成。

5.如权利要求1所述的方法，其中，所述长短期记忆网络模型对各个图像帧中相关联的人和物的融合特征进行量化，得到各个图像帧中相关联的人和物的量化结果包括：

将小于第二阈值的量化结果置零。

6.如权利要求5所述的方法，其中，所述长短期记忆网络模型对各个图像帧中相关联的人和物的融合特征进行量化，得到各个图像帧中相关联的人和物的量化结果还包括：

将不小于第二阈值的量化结果作为各个图像帧中相关联的人和物的量化结果。

7.一种确定人和物关联度的装置，包括：

图像检测模块，被配置为：利用特征提取网络模型对各个图像帧中相关联的人和物进行特征提取，得到各个图像帧中相关联的人的特征矩阵和物的特征矩阵；利用特征变换网络模型对各个图像帧中相关联的人的特征矩阵和物的特征矩阵进行特征变换，得到各个图像帧中相关联的人的特征向量和物的特征向量；利用特征融合网络模型对各个图像帧中相关联的人的特征向量、物的特征向量、人的位置信息、物的位置信息进行融合，得到各个图像帧中相关联的人和物的融合特征；

特征融合模块，被配置为对各个图像帧中相关联的人和物进行特征提取，得到各个图像帧中相关联的人和物的融合特征；

关联度量化模块，被配置为：利用长短期记忆网络模型对各个图像帧中相关联的人和物的融合特征进行量化，得到各个图像帧中相关联的人和物的量化结果；将各个图像帧中相关联的人和物的量化结果组成量化序列，并全连接网络模型对所述量化序列进行处理，得到视频数据中相关联的人和物的关联度。

8.如权利要求7所述的装置，其中，所述图像检测模块被配置为：

确定各个图像帧中人的位置信息和物的位置信息；

9.如权利要求8所述的装置，其中，所述图像检测模块被配置为：

10.如权利要求7所述的装置，其中，所述特征提取网络模型由RoiAlign层组成，所述特征变换网络模型由全连接层组成，所述特征融合网络模型由全连接层组成。

11.如权利要求7所述的装置，其中，所述关联度量化模块被配置为：

将小于第二阈值的量化结果置零。

12.如权利要求11所述的装置，其中，所述关联度量化模块被配置为：

13.一种确定人和物关联度的装置，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求1至6中任一项所述的方法。

14.一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机指令，所述指令被处理器执行时实现如权利要求1至6中任一项所述的方法。