CN116704423A

CN116704423A - 层级式视频人物社交互动识别方法、***、设备及介质

Info

Publication number: CN116704423A
Application number: CN202310982456.1A
Authority: CN
Inventors: 徐童; 陈恩红; 吕元杰; 秦鹏刚; 朱琛
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-08-07
Filing date: 2023-08-07
Publication date: 2023-09-05
Anticipated expiration: 2043-08-07
Also published as: CN116704423B

Abstract

本发明公开了一种层级式视频人物社交互动识别方法、***、设备及介质，它们是一一对应的方案，方案中结合视觉信息以及相应的文本信息，从而精确地识别出人物之间社交互动的类别，具体的：方案中探究了更高语义层面上的社交互动识别问题，同时更充分利用了视频富含的文本信息，并有效地对长视频包含的无关信息进行了筛除，并且探究了统一视频中不同人物互动间的关联性，因此在社交关系互动识别精度上取得了很好的效果。

Description

层级式视频人物社交互动识别方法、***、设备及介质

技术领域

本发明涉及视频分析领域，尤其涉及一种层级式视频人物社交互动识别方法、***、设备及介质。

背景技术

随着视频分享平台的日益普及，视频内容已经充斥了在线社交媒体空间。如今，观众们对视频语义理解技术的期望越来越高，不仅希望识别出视觉内容中直接展现的简单物体或动作，更希望理解更为复杂的社交互动信息，如赞美、安慰、争吵等。在视频中，人物的互动行为作为故事的核心，通过语言或非语言线索展现其交流方式和信息传递，对于理解整个故事情节至关重要。同时，通过识别视频中的社交交互，视频平台可以根据用户的喜好优化内容分发，并帮助用户快速理解大量信息。

然而，现有的视频分析技术主要集中在识别简单的动作，而对于真实世界中的高语义社交交互的研究却相对匮乏。事实上，社交互动往往涉及动态场景和不断变化的镜头，其中包含两个或更多的人物之间的相互作用，语言和非语言线索的交换，情感和行为的表达。因此，相比基本的人类动作识别任务，社交互动识别的语义复杂性更高，识别难度也更大。这其中的挑战主要表现在以下几个方面：预测人与人之间的多模态交互需要整合多模态信息，并需要为每个人物对的交互设计一个独特的表示方式；现有的动作识别方法很难直接捕捉人物之间的交互，因为交互涉及多个简单动作、动态场景和不断变化的镜头；需要考虑到不同人物对之间的交互可能存在时间重叠的问题。然而，目前还没有较为完善的技术方案。

有鉴于此，特提出本发明。

发明内容

本发明的目的是提供一种层级式视频人物社交互动识别方法、***、设备及介质，可以结合视觉信息以及相应的文本信息，精确地识别出人物之间社交互动的类别。

本发明的目的是通过以下技术方案实现的：

一种层级式视频人物社交互动识别方法，包括：

步骤1、对原始视频数据进行预处理，获得图片帧序列以及各图片帧中的文本信息；

步骤2、从所述图片帧序列中识别出所有人物，并分别进行特征提取，获得各图片帧的视觉特征，以及对各图片帧中的文本信息进行特征提取，获得各图片帧的文本特征；对于每一图片帧，利用其对应的视觉特征与文本特征构建知识图谱，并将知识图谱中的特征融合，获得短期互动表征；

步骤3、将所有图片帧对应的短期互动表征输入至时间卷积网络，获得隐藏表征序列并通过分类，获得反映图片帧交互相关性的二进制序列，将二进制序列作为掩码，通过掩码注意力机制结合隐藏表征序列，获得每一人物对的全局互动表征；

步骤4、利用每一人物对的全局互动表征进行分类，获得每一人物对的社交互动类别。

一种层级式视频人物社交互动识别***，包括：

预处理模块，用于对原始视频数据进行预处理，获得图片帧序列以及各图片帧中的文本信息；

短期互动表征提取模块，用于从所述图片帧序列中识别出所有人物，并分别进行特征提取，获得各图片帧的视觉特征，以及对各图片帧中的文本信息分别进行特征提取，获得各图片帧的文本特征；对于每一图片帧，利用其对应的视觉特征与文本特征构建知识图谱，并将知识图谱中的特征融合，获得短期互动表征；

全局互动表征生成模块，用于将所有图片帧对应的短期互动表征输入至时间卷积网络，获得隐藏表征序列并通过分类，获得反映图片帧交互相关性的二进制序列，将二进制序列作为掩码，通过掩码注意力机制结合隐藏表征序列，获得每一人物对的全局互动表征；

分类模块，用于利用每一人物对的全局互动表征进行分类，获得每一人物对的社交互动类别。

一种处理设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述的方法。

一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述的方法。

由上述本发明提供的技术方案可以看出，本发明探究了更高语义层面上的社交互动识别问题，同时更充分利用了视频富含的文本信息，并有效地对长视频包含的无关信息进行了筛除，并且探究了统一视频中不同人物互动间的关联性，因此在社交关系互动识别精度上取得了很好的效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种层级式视频人物社交互动识别方法的流程图；

图2为本发明实施例提供的一种层级式视频人物社交互动识别方法的框架图；

图3为本发明实施例提供的一种层级式视频人物社交互动识别***的示意图；

图4为本发明实施例提供的一种处理设备的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

首先对本文中可能使用的术语进行如下说明：

术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述，应被解释为非排它性的包括。例如：包括某技术特征要素（如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等），应被解释为不仅包括明确列出的某技术特征要素，还可以包括未明确列出的本领域公知的其它技术特征要素。

下面对本发明所提供的一种层级式视频人物社交互动识别方法、***、设备及介质进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者，按照本领域常规条件或制造商建议的条件进行。

实施例一

本发明实施例提供一种层级式视频人物社交互动识别方法，如图1所示，其主要包括如下步骤：

步骤1、对原始视频数据进行预处理，获得图片帧序列以及各图片帧中的文本信息。

本发明实施例中，对原始视频数据进行预处理时，可以通过等间距采样的方式将原始视频数据转化为图片帧序列，并且获取各图片帧中的文本信息（例如，字幕），与图片帧序列一并作为后续处理的输入信息。

步骤2、提取短期互动表征。

本发明实施例中，从所述图片帧序列中识别出所有人物，并分别进行特征提取，获得各图片帧的视觉特征，以及对各图片帧中的文本信息分别进行特征提取，获得各图片帧的文本特征；对于每一图片帧，利用其对应的视觉特征与文本特征构建知识图谱，并将知识图谱中的特征融合，获得短期互动表征。

本发明实施例中，可以利用人物检测和人物重识别的方法，从图片帧序列中识别出所有人物，并将其裁剪出来。之后，利用现有的先进的骨干网络提取出视觉特征。同时，也可使用现有的先进的网络来提取文本信息的文本特征。然后，为每个帧构建一个知识图谱，该图谱包含了视觉特征以及文本特征。并使用图卷积网络来学习图中节点的表示作为互动的短期表征。

具体的，对于每一图片帧，如果包含人物对，则视觉特征包括：人物对特征、各人物对应的人物特征、以及背景特征；如果仅包含一个人物，则将相应人物的人物特征作为人物对特征，因此，视觉特征包括：人物对特征、相应人物对应的人物特征、以及背景特征；如果不包含人物，则将背景特征作为人物对特征，因此，视觉特征包括：人物对特征、以及背景特征；将视觉特征中的各类特征，以及文本特征分别作为节点，并根据特征类别构建节点之间的边，形成知识图谱；之后，使用多层图卷积神经网络，将知识图谱中的所有特征融合，获得短期互动表征。

步骤3、合并短期互动表征以得到全局互动表征。

本发明实施例中，将所有图片帧对应的短期互动表征输入至时间卷积网络，获得隐藏表征序列并通过分类，获得反映图片帧交互相关性的二进制序列，将二进制序列作为掩码，通过掩码注意力机制结合隐藏表征序列，获得每一人物对的全局互动表征。

本发明实施例中，所有图片帧对应的短期互动表征形成短期互动表征序列，使用扩张时序卷积网络对短期互动表征序列进行处理，获得隐藏表示序列；所述隐藏表示序列经过线性层与softmax 激活函数进行分类，获得二进制概率序列，由此生成二进制序列，二进制序列中每一个二进制标签表示图片帧内的人物对与其他图片帧内的人物对的交互相关性；其中，softmax 激活函数为归一化指数函数。

本发明实施例中，将二进制序列作为掩码，去除与图片帧内的人物对无交互相关性的其他图片帧，将注意力机制应用于隐藏表征序列，结合所述掩码，生成每一人物对的全局互动表征。

优选的，采用多阶段的细化块来获得最终的二进制序列，将所述最终的二进制序列作为掩码；其中，第一个阶段的细化块输入为通过扩张时序卷积网络处理并经过线性层与softmax 激活函数进行分类，获得的二进制概率序列，之后的每一个阶段均基于前一个阶段获得二进制概率序列获得新的二进制概率序列，最后一个阶段获得的新的二进制概率序列称为最终的二进制概率序，并由此生成最终的二进制序列。

本发明实施例中，将每一人物对的全局互动表征作为节点，并连接不同节点，构建出一个知识图谱，通过图卷积神经网络实现不同节点的交互，再通过线性层与softmax激活函数进行节点分类，获得每一个节点对应的人物对的社交互动类别。

作为举例，社交互动类别可以为：asks（询问），explains（解释），compliments（赞扬）等。

本发明实施例中，前述步骤2可通过短期互动表征提取模块实现，前述步骤3可通过全局互动表征生成模块实现，前述步骤4可通过分类单元实现；所述短期互动表征提取模块、全局互动表征生成模块与分类模块构成一个视频人物社交互动识别模型；使用训练数据预先对所述视频人物社交互动识别模型进行训练，训练时，利用全局互动表征生成模块获得的二进制概率序列与训练数据中的二进制标签序列计算第一损失函数，利用分类单元获得的每一人物对的社交互动类别与训练数据中的每一人物对的互动标签计算第二损失函数，结合第一损失函数与二损失函数，优化所述视频人物社交互动识别模型。

本发明实施例提供的上述方案，结合视觉信息以及相应的文本信息，精确地识别出人物之间社交互动的类别。具体的，相比于传统的动作识别方法，本发明探究了更高语义层面上的社交互动识别问题，同时更充分利用了视频富含的文本信息，并有效地对长视频包含的无关信息进行了筛除，并且探究了统一视频中不同人物互动间的关联性，因此在社交关系互动识别精度上取得了很好的效果。

为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果，下面以具体实施例对本发明实施例所提供的方法进行详细描述。

一、数据预处理。

本发明实施例中，数据预处理主要是指将完整的原始视频数据转化为由图片帧构成的序列。

作为举例，可以采用1帧/秒的采样频率进行采样，从而得到由图片帧组成的序列。

二、短期互动表征提取。

本发明实施例中，可以采用人物检测和人物重识别的方法（即先使用人物检测方法，再使用人物重识别方法），从采样的图片帧序列中识别出所有人物，并将其裁剪出来，并提取视觉特征；同时，同样对各图片帧中的文本信息进行特征提取，获得文本特征。

作为举例，可以使用基于Faster R-CNN（快速区域卷积神经网络）的人物检测方法，逐帧且无差别地定位出序列中所有出现的人物区域。具体来说，可以使用VGG-16网络（16层的视觉几何群网络）对Faster R-CNN的人物检测器进行初始化，检测置信度大于0.8的区域则会被视为含有人物的区域。然后，将Faster R-CNN输出的每对人物的检测框合并，得到联合检测框（人物对检测框），并将其输入到在电影数据集上预训练过的ResNet-50（50层的残差网络）骨干网络中，从而将输出作为人物对特征，记作，符号i和j指代两个人物，符号U是人物对特征的标记符号；考虑到并非所有的互动都是主要的视觉互动，有些互动需要从字幕中推断，因此使用Sentence Transformers（句子变换器）来提取文本特征/>。鉴于电影剪辑可能包含大量特写镜头和缺少人物对特征的图片帧，还使用ResNet-50人物骨干网络提取单个人物特征/>和/>，符号C为人物特征的标记符号，并使用在Places365数据集上预训练的ResNet-50场景骨干网络提取背景特征/>，符号G为背景特征的标记符号。如果在某个图片帧中没有联合框，则人物特征或背景特征可以用来替代人物对特征。

之后，利用上述提取的特征，为每个图片帧构建一个知识图谱，知识图谱包含视觉特征以及文本特征。具体来说，为了确保建模的统一性，使模型可以有效应对各种数据情况（无论图片帧有没有人物或人物对，都迁就有人物对的主流情况），要求在构建知识图谱中加入人物对特征信息；即，图片帧中有人物对时，按照前文介绍的方式提取出人物对特征；没有人物对时包含只有一个人物、没有人物的两种情况，前一种情况下，直接将相应人物的人物特征作为人物对特征，后一种情况则将背景特征作为人物对特征。由此可以获得各类情况下的视觉特征。

将视觉特征中的各类特征，以及文本特征分别作为知识图谱中的节点，知识图谱由多模态特征和邻接矩阵组成，邻接矩阵可以根据特征类别确定，其定义如下：

；

上式中，与/>表示知识图谱中的两个节点，/>表示节点/>和节点/>之间存在一条边，构建节点之间的边的特征类别包括：人物对特征与背景特征、人物对特征与文本特征、背景特征与文本特征、人物特征与背景特征、人物特征与文本特征。

为了提取知识图谱中特征表示，采用多层图卷积神经网络。将人物对特征与文本特征和背景特征融合在一起，将图卷积神经网络输出的融入文本特征和背景特征的人物对特征作为短期互动表征。更具体的说，当图片帧中包含有人物对（例如，人物i与任务j），能够获得人物对特征，从而获得融入文本特征和背景特征的人物对特征，并作为短期互动表征；为了处理当前帧仅包含一个人物i（例如，人物i的特写镜头）的情况，此时将人物i的人物特征作为人物对特征，与文本特征和背景特征融合在一起，获得融入文本特征和背景特征的人物对特征，并作为短期互动表征；当图片帧中不包含任何人物时，将背景特征/>作为人物对特征，此时它与背景特征及文本特征的融合实际上是与文本特征的融合，得到融入文本特征的人物对特征，并作为短期互动表征。

为了便于理解，下面做展开说明。单个图片帧中的知识图谱中有多个节点，以人物1和人物2的互动为例（对应的节点记为C1与C2），序列是人物1和人物2的短期互动表征序列，序列中的短期互动表征/>来自不同图片帧，具体来说，在时间步t1和t2处（对应两个图片帧），人物1和人物2同时出现，短期互动表征为/>，在时间步tn（对应一个图片帧）中，人物1和人物2不同时可见，例如只有人物1，因此，使用融入文本特征和背景特征的人物特征/>作为短期互动表征。同理，其他人物对也是如此。

值得注意的是，虽然为每个图片帧生成了一个互动表示，但并不是所有图片帧都与特定人物对之间的互动相关。因此，简单地合并这些短期表示可能会引入显著的噪声。之后，将通过合并短期互动特征以解决这一问题。

三、使用图片帧识别结构合并短期互动特征。

本发明在每个图片帧中获取了人物对之间互动的短期表示（短期互动表征）。此时将重点关注捕捉时域的特征变化。使用扩张时序卷积网络（TCN），输入短期互动表征序列，得到隐藏表示序列，此处的短期互动表征序列是由所有图片帧的短期互动表征形成的序列，隐藏表示序列/>的下标/>表示图片帧的数目为n，且每一图片帧对应一个时间。

具体而言，扩张时序卷积网络中每个层包括：第一卷积层（其感受野随着层数的增加呈指数增长），第二卷积层（1乘1的卷积层），以及一个残差块，可以形式化为：

；

其中，表示第一卷积层，/>为第一卷积层的权重参数，/>表示第一卷积层的感受野，/>为扩张时序卷积网络中的层数序号，/>为第/>层输出的特征，是输入的短期互动表征序列，/>为第/>层中第一卷积层输出的特征，/>为第/>层输出的特征，/>为第二卷积层，/>为第二卷积层的权重参数，/>公式中将/>与相加，即为残差块执行的残差连接操作。

之后，为每个图片帧分配一个二进制标签，识别与人物对之间互动最相关的图片帧。在隐藏表示序列/>上应用线性层，然后使用 softmax 激活函数，采样后得到代表互动相关性的二进制标签的概率。

对于第t个图片帧，二进制标签的概率通过下述方式估计：

；

其中，为二进制标签/>的概率，W为线性层的权重参数，b为线性层的偏置参数，/>为隐藏表示序列/>中第t项，表示第t个图片帧（即时间t）对应的隐藏表示；通过上述方式，由所有n个图片帧的二进制标签的概率形成二进制概率序列/>。

有两种可能的标签，1或0，/>代表/>的概率，/>代表的概率，因此，通过二进制标签/>的概率为分配二进制标签/>，当/>大于/>，分配一个二进制标签/>，反之/>；最终由n个图片帧对应的二进制标签形成最终二进制序列/>。

优选的，受多阶段 TCN的启发，上述预测有时会出现错误，因此本发明采用多阶段细化块来进行改进。细化块的结构与TCN 相同，细化块处理过程表示为：

；

其中，F表示细化块，一个细化块对应一个阶段，为初始阶段的二进制概率序列，s为阶段序号，s=1时表示第1个阶段，其输入为初始阶段的二进制概率序列，最后一个阶段S（对应最后一个细化块）输出的二进制概率序列/>，用来生产最终的二进制序列/>，其中，第t个图片帧对应的最终的二进制标签/>通过下述方式产生：当/>大于/>，分配一个二进制标签/>，反之/>，最终由n个图片帧对应的最终的二进制标签形成最终的二进制序列/>。

最终，使用隐藏表示序列和最终的二进制序列/>来获得全局互动表征。在表示视频中人物对之间的交互时，应用自注意力机制于隐藏表示序列 />，并利用最终的二进制序列/>作为掩码，去除视频中与互动的无关信息，例如，某一图片帧是单纯的背景，则它属于与互动的无关信息，又例如，某一图片帧描述的是人物1和人物2的互动，但没有描述人物2和人物3的互动，那么，与人物2与人物3的互动无关。在应用自注意力机制时，在隐藏表示序列/>的开头附加了一个特殊的[CLS]标记，并将自注意力输出的[CLS]标记表示作为最终的交互表示。至此，得到了所有人物对的交互表示，即全局互动表征。

本领域技术人员可以理解，[CLS]标记为注意力机制中应用于分类时必要信息，可以理解一个可学习的用于分类的矩阵。

四、挖掘互动的联系与分类。

由于同一视频中不同人物对的交互显然是相关联的。例如，如果人物i和人物j在给定的片段中进行采访互动，则其他人物对不太可能表现出攻击性互动，例如打斗或追逐，因为此类互动不太可能发生在同一视频片段中。为此，设计了一个附加模块（即后文介绍的应用构建知识图谱的模块），挖掘互动的联系。

具体而言，本发明构建了一个知识图谱，将人物i和人物j之间的交互表示与其他人物对之间的交互表示连接起来。这样，在预测特定人物对之间的交互时，还可以考虑其他人物对之间的交互，利用交互之间的社会关联进行更全面的分析。具体来说，此处仍然使用图卷积神经网络来实现。

；

其中，Y是知识图谱中所有节点的表征，即所有人物对的交互表示，也就是前文获得的全局互动表征，A为知识图谱中的邻接矩阵，邻接矩阵A中所有元素都为1，代表一个完备的知识图谱；表示具有m个人物的视频中所有人物对之间的交互表示，D是全局互动表征的维度，R为实数集符号，/>表示从m个数中选2个数的组合数，即m*(m-1)/2。

为了获得最终的识别结果，本发明应用线性层，然后对每个节点进行 softmax 激活操作，最终得到每个节点对应的人物对在所有社交互动类别上的概率分布，并选择最高概率对应的社交互动类别作为识别结果。

五、模型训练。

如之前所述，本发明前述方案形成一个视频人物社交互动识别模型，如图2所示，展示了本发明的整体框架。图2中的节点T表示文本特征对应的节点，节点G表示背景特征对应的节点，节点C表示人物特征对应的节点，节点C的下标数值为人物序号，节点U为人物对特征对应的节点，下标的两个数值为两个人物序号，短期互动表征序列中、/>为相应人物对的短期互动表征，此外，考虑到图2中难以完整的显示所有图片帧中的检测框，因此，第2个图片帧中未示出相关的检测框。

本发明实施例中，视频人物社交互动识别模型需要使用训练数据进行训练，训练数据为若干个图片帧序列，每一图片帧序列均具有两类标签序列，一类为二进制标签序列，另一类为互动标签序列。

假设以上两类标签序列可用于训练，则对于生成的二进制概率序列，计算交叉熵损失函数：

；

其中，表示第s阶段计算的交叉熵损失函数，/>为第t个图片帧，第s阶段针对真实二元标签c的估计概率，具体来说，/>是真实的标签，/>则是通过本发明提供的方案对第t个图片帧在第s阶段估计出的/>的概率。

本发明实施例中，对于每一个阶段都有一个真实二元标签，当然，它们也可以是相同的标签。

本发明采用多阶段细化块来捕获二进制标签之间的依赖关系，上述交叉熵损失函数适用于单个阶段，因此所有阶段的完整损失函数（即第一损失函数）为：

；

其中，为第一损失函数。

同理，可以使用交叉熵损失函数，结合互动标签序列与预测出的每一人物对的社交互动类别计算出第二损失函数，最终，总损失函数为：

；

其中，为比例系数，作为举例，可设置/>。

训练的过程中，可使用随机梯度下降算法来优化以上两项损失函数，为了防止过拟合，还可以引入L2正则化损失函数。使用的优化器是adam（自适应矩估计）优化器反向传播优化参数。作为举例，每个批次的大小为1，学习率设置为0.0001。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

实施例二

本发明还提供一种层级式视频人物社交互动识别***，其主要用于实现前述实施例提供的方法，如图3所示，该***主要包括：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将***的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

实施例三

本发明还提供一种处理设备，如图4所示，其主要包括：一个或多个处理器；存储器，用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述实施例提供的方法。

进一步的，所述处理设备还包括至少一个输入设备与至少一个输出设备；在所述处理设备中，处理器、存储器、输入设备、输出设备之间通过总线连接。

本发明实施例中，所述存储器、输入设备与输出设备的具体类型不做限定；例如：

输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等；

输出设备可以为显示终端；

存储器可以为随机存取存储器（Random Access Memory，RAM），也可为非不稳定的存储器（non-volatile memory），例如磁盘存储器。

实施例四

本发明还提供一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述实施例提供的方法。

本发明实施例中可读存储介质作为计算机可读存储介质，可以设置于前述处理设备中，例如，作为处理设备中的存储器。此外，所述可读存储介质也可以是U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种层级式视频人物社交互动识别方法，其特征在于，包括：

2.根据权利要求1所述的一种层级式视频人物社交互动识别方法，其特征在于，所述对于每一图片帧，利用其对应的视觉特征与文本特征构建知识图谱，并将知识图谱中的特征融合，获得短期互动表征包括：

对于每一图片帧，如果包含人物对，则视觉特征包括：人物对特征、各人物对应的人物特征、以及背景特征；如果仅包含一个人物，则将相应人物的人物特征作为人物对特征，视觉特征包括：人物对特征、相应人物对应的人物特征、以及背景特征；如果不包含人物，则将背景特征作为人物对特征，视觉特征包括：人物对特征、以及背景特征；

将视觉特征中的各类特征，以及文本特征分别作为节点，并根据特征类别构建节点之间的边，形成知识图谱；之后，使用多层图卷积神经网络，将知识图谱中的所有特征融合，获得短期互动表征。

3.根据权利要求1所述的一种层级式视频人物社交互动识别方法，其特征在于，所述将所有图片帧对应的短期互动表征输入至时间卷积网络，获得隐藏表征序列并通过分类，获得反映图片帧交互相关性的二进制序列包括：

所有图片帧对应的短期互动表征形成短期互动表征序列，使用扩张时序卷积网络对短期互动表征序列进行处理，获得隐藏表示序列；

所述隐藏表示序列经过线性层与softmax 激活函数进行分类，获得二进制概率序列，由此生成二进制序列，二进制序列中每一个二进制标签表示图片帧内的人物对与其他图片帧内的人物对的交互相关性；其中，softmax 激活函数为归一化指数函数。

4.根据权利要求3所述的一种层级式视频人物社交互动识别方法，其特征在于，该方法还包括：采用多阶段的细化块来获得最终的二进制序列，将所述最终的二进制序列作为掩码；

其中，第一个阶段的细化块输入为通过扩张时序卷积网络处理并经过线性层与softmax 激活函数进行分类，获得的二进制概率序列，之后的每一个阶段均基于前一个阶段获得二进制概率序列获得新的二进制概率序列，最后一个阶段获得的新的二进制概率序列称为最终的二进制概率序，并由此生成最终的二进制序列。

5.根据权利要求1或3所述的一种层级式视频人物社交互动识别方法，其特征在于，所述通过掩码注意力机制结合隐藏表征序列，获得每一人物对的全局互动表征包括：

所述二进制序列中每一个二进制标签表示图片帧内的人物对与其他图片帧内的人物对的交互相关性，将二进制序列作为掩码，去除与图片帧内的人物对无交互相关性的其他图片帧，将注意力机制应用于隐藏表征序列，结合所述掩码，生成每一人物对的全局互动表征。

6.根据权利要求1所述的一种层级式视频人物社交互动识别方法，其特征在于，所述利用每一人物对的全局互动表征进行分类，获得每一人物对的社交互动类别包括：

将每一人物对的全局互动表征作为节点，并连接不同节点，构建出一个知识图谱，通过图卷积神经网络实现不同节点的交互，再通过线性层与softmax 激活函数进行节点分类，获得每一个节点对应的人物对的社交互动类别；其中，softmax 激活函数为归一化指数函数。

7.根据权利要求1所述的一种层级式视频人物社交互动识别方法，其特征在于，所述步骤2通过短期互动表征提取模块实现，所述步骤3通过全局互动表征生成模块实现，所述步骤4通过分类单元实现；所述短期互动表征提取模块、全局互动表征生成模块与分类模块构成一个视频人物社交互动识别模型；使用训练数据预先对所述视频人物社交互动识别模型进行训练，训练时，利用全局互动表征生成模块获得的二进制概率序列与训练数据中的二进制标签序列计算第一损失函数，利用分类单元获得的每一人物对的社交互动类别与训练数据中的每一人物对的互动标签计算第二损失函数，结合第一损失函数与二损失函数，优化所述视频人物社交互动识别模型。

8.一种层级式视频人物社交互动识别***，其特征在于，包括：

9.一种处理设备，其特征在于，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1~7任一项所述的方法。

10.一种可读存储介质，存储有计算机程序，其特征在于，当计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法。