CN112668438A

CN112668438A - 红外视频时序行为定位方法、装置、设备及存储介质

Info

Publication number: CN112668438A
Application number: CN202011538954.XA
Authority: CN
Inventors: 吴雪平; 臧磊
Original assignee: OneConnect Financial Technology Co Ltd Shanghai
Current assignee: OneConnect Financial Technology Co Ltd Shanghai
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2021-04-16
Also published as: WO2022134576A1

Abstract

本发明涉及人工智能领域，公开了一种红外视频时序行为定位方法、装置、设备及存储介质，用于通过语义边和相邻边对多个视频片段构建图网络，进行动作识别及时序位置定位，提高了识别定位的准确度。红外视频时序行为定位方法包括：获取输入的红外视频，提取多个候选视频片段，根据多个候选视频片段得到多个视频片段特征；通过语义边和相邻边对多个候选视频片段进行边线构建，生成基础图网络；基于基础图网络构建双流图卷积神经网络，得到多个隐式特征值；根据双流图卷积神经网络进行预测，得到多个候选视频片段的行为动作结果和时序位置。此外，本发明还涉及区块链技术，多个候选视频片段的行为动作结果和时序位置可存储于区块链中。

Description

红外视频时序行为定位方法、装置、设备及存储介质

技术领域

本发明涉及区域提取领域，尤其涉及一种红外视频时序行为定位方法、装置、设备及存储介质。

背景技术

视频分析在安全监控，人类行为分析和许多其他领域具有广泛应用潜力，理解视频中的人类行为已成为计算机视觉中的重要研究方向，由于很多涉及人身安全的行为大多发生在黑暗无光的场景下，因此对红外视频的人体行为动作识别与检测，在黑暗或光线环境不佳的场景中具有更为实际的应用。视频时序行为定位任务是需要从一段包含多个人体行为动作的视频中，准确检测出每一个动作的类别以及该动作在视频中的开始结束时刻，由于近几年深度学习在图片识别与图片检测任务中的准确率较机器学习方法有显著提升，因此视频时序行为定位任务目前基本都采用了深度学习方法并借鉴了图片定位任务中的很多思路方法，视频时序行为定位任务目前主要有两类基于深度学习的方法：第一类为单阶段识别定位方法，即设计一个深度学习网络可以直接预测该视频中含有动作的视频片段，第二类为双阶段识别定位方法，即先得到该视频中可能的视频片段结果，然后再从可能的视频片段结果中进行筛选得到最终的识别定位结果。

在现有的方案中，双阶段识别定位方法只是孤立地针对每一个视频片段使用算法进行识别判断，而没有有效地使用视频片段前后的语义信息，以及其他相邻的视频片段的信息。

发明内容

本发明提供了一种红外视频时序行为定位方法、装置、设备及存储介质，用于通过语义边和相邻边对多个视频片段构建图网络，并通过图卷积神经网络训练学习不同视频片段之间语义信息的特征关系，对每一个视频片段进行动作识别及时序位置定位，更充分地融合及学习了前后视频片段的语义信息，提高了识别定位的准确度。

本发明第一方面提供了一种红外视频时序行为定位方法，包括：获取输入的红外视频，并在双阶段识别定位方式的第一阶段从所述输入的红外视频中提取多个候选视频片段，所述多个候选视频片段用于指示可能的含有人体行为动作的视频片段，根据所述多个候选视频片段得到多个视频片段特征；在双阶段识别定位方式的第二阶段通过语义边和相邻边对所述多个候选视频片段进行边线构建，生成基础图网络；基于所述基础图网络构建双流图卷积神经网络，所述双流图卷积神经网络由两条图卷积神经网络组成，获取所述多个候选视频片段在每一条图卷积神经网络每一层的隐式特征值，得到多个隐式特征值；根据所述双流图卷积神经网络进行预测，得到所述多个候选视频片段的行为动作结果和时序位置。

可选的，在本发明第一方面的第一种实现方式中，所述获取输入的红外视频，并在双阶段识别定位方式的第一阶段从所述输入的红外视频中提取多个候选视频片段，所述多个候选视频片段用于指示可能的含有人体行为动作的视频片段，根据所述多个候选视频片段得到多个视频片段特征包括：基于预置的视频数据集获取输入的红外视频，所述输入的红外视频为用户输入的一段任意时间长度的红外视频；基于所述输入的红外视频，在双阶段识别定位方式的第一阶段通过预置算法提取得到多个候选视频片段，所述多个候选视频片段用于指示可能的含有人体行为动作的视频片段，记录每个候选视频片段中的动作类别以及每一个动作的开始时刻和结束时刻，得到多个视频片段特征。

可选的，在本发明第一方面的第二种实现方式中，所述在双阶段识别定位方式的第二阶段通过语义边和相邻边对所述多个候选视频片段进行边线构建，生成基础图网络包括：在双阶段识别定位方式的第二阶段从所述多个候选视频片段中选取任意两个候选视频片段，基于预置的第一公式计算所述任意两个候选视频片段之间的关联程度；当所述关联程度大于预设的第一阈值时，对所述任意两个候选视频片段构建语义边，生成第一图网络；当所述关联程度为零时，基于预置的第二公式计算所述任意两个候选视频片段间的距离，当所述任意两个候选视频片段间的距离小于预设的第二阈值时，对所述任意两个候选视频片段构建相邻边，生成第二图网络；将所述第一图网络和所述第二图网络合并，生成基础图网络。

可选的，在本发明第一方面的第三种实现方式中，所述基于所述基础图网络构建双流图卷积神经网络，获取所述多个候选视频片段在每一条图卷积神经网络每一层的隐式特征值，得到多个隐式特征值包括：基于基础图网络构建预置层数的图卷积神经网络，生成双流图卷积神经网络，预置的层数为K 层，K为正整数；获取任意两个候选视频片段的特征，根据所述任意两个候选视频片段的特征相似度和预置的第三公式计算度矩阵，得到多个度矩阵值；将所述多个度矩阵值分别代入预置的第四公式，计算所有候选视频片段在图卷积神经网络第k层的隐式特征值，1≤k≤K；基于激活函数ReLU对所述第k 层的隐式特征值进行转化并输入至下一层图卷积神经网络，得到多个隐式特征值。

可选的，在本发明第一方面的第四种实现方式中，所述根据所述双流图卷积神经网络进行预测，得到所述多个候选视频片段的行为动作结果和时序位置包括：基于第一条图卷积神经网络，调用预置的第五公式，通过全连接神经网络层对所述多个隐式特征值进行信息融合，并调用损失层softmax进行人体行为动作分类，生成行为动作结果；基于第二条图卷积神经网络，调用预置的第六公式和第七公式计算所述候选视频片段的时序位置和完整度概率。

可选的，在本发明第一方面的第五种实现方式中，在所述根据所述双流图卷积神经网络进行预测，得到所述多个候选视频片段的行为动作结果和时序位置之后，所述方法还包括：基于预置的算法对所述双流图卷积神经网络进行优化。

可选的，在本发明第一方面的第六种实现方式中，所述基于预置的算法对所述双流图卷积神经网络进行优化包括：基于预置的SAGE算法，调用预置的第八公式对所述图卷积神经网络每一层中的节点进行采样并计算最近邻节点的个数；基于所述最近邻节点的个数，按照预置的模型优化流程对所述双流图卷积神经网络进行优化。

本发明第二方面提供了一种红外视频时序行为定位装置，包括：获取模块，用于获取输入的红外视频，并在双阶段识别定位方式的第一阶段从所述输入的红外视频中提取多个候选视频片段，所述多个候选视频片段用于指示可能的含有人体行为动作的视频片段，根据所述多个候选视频片段得到多个视频片段特征；生成模块，用于在双阶段识别定位方式的第二阶段通过语义边和相邻边对所述多个候选视频片段进行边线构建，生成基础图网络；构建模块，用于基于所述基础图网络构建双流图卷积神经网络，所述双流图卷积神经网络由两条图卷积神经网络组成，获取所述多个候选视频片段在每一条图卷积神经网络每一层的隐式特征值，得到多个隐式特征值；预测模块，用于根据所述双流图卷积神经网络进行预测，得到所述多个候选视频片段的行为动作结果和时序位置。

可选的，在本发明第二方面的第一种实现方式中，所述获取模块包括：获取单元，用于基于预置的视频数据集获取输入的红外视频，所述输入的红外视频为用户输入的一段任意时间长度的红外视频；提取单元，用于基于所述输入的红外视频，在双阶段识别定位方式的第一阶段通过预置算法提取得到多个候选视频片段，所述多个候选视频片段用于指示可能的含有人体行为动作的视频片段，记录每个候选视频片段中的动作类别以及每一个动作的开始时刻和结束时刻，得到多个视频片段特征。

可选的，在本发明第二方面的第二种实现方式中，所述生成模块包括：第一计算单元，用于在双阶段识别定位方式的第二阶段从所述多个候选视频片段中选取任意两个候选视频片段，基于预置的第一公式计算所述任意两个候选视频片段之间的关联程度；第一构建单元，用于当所述关联程度大于预设的第一阈值时，对所述任意两个候选视频片段构建语义边，生成第一图网络；第二构建单元，用于当所述关联程度为零时，基于预置的第二公式计算所述任意两个候选视频片段间的距离，当所述任意两个候选视频片段间的距离小于预设的第二阈值时，对所述任意两个候选视频片段构建相邻边，生成第二图网络；合并单元，用于将所述第一图网络和所述第二图网络合并，生成基础图网络。

可选的，在本发明第二方面的第三种实现方式中，所述构建模块包括：第三构建单元，用于基于基础图网络构建预置层数的图卷积神经网络，生成双流图卷积神经网络，预置的层数为K层，K为正整数；第二计算单元，用于获取任意两个候选视频片段的特征，根据所述任意两个候选视频片段的特征相似度和预置的第三公式计算度矩阵，得到多个度矩阵值；第三计算单元，用于将所述多个度矩阵值分别代入预置的第四公式，计算所有候选视频片段在图卷积神经网络第k层的隐式特征值，1≤k≤K；转化单元，用于基于激活函数ReLU对所述第k层的隐式特征值进行转化并输入至下一层图卷积神经网络，得到多个隐式特征值。

可选的，在本发明第二方面的第四种实现方式中，所述预测模块包括：生成单元，用于基于第一条图卷积神经网络，调用预置的第五公式，通过全连接神经网络层对所述多个隐式特征值进行信息融合，并调用损失层softmax 进行人体行为动作分类，生成行为动作结果；第四计算单元，用于基于第二条图卷积神经网络，调用预置的第六公式和第七公式计算所述候选视频片段的时序位置和完整度概率。

可选的，在本发明第二方面的第五种实现方式中，在所述根据所述双流图卷积神经网络进行预测，得到所述多个候选视频片段的行为动作结果和时序位置之后，所述方法还包括：优化模块，用于基于预置的算法对所述双流图卷积神经网络进行优化。

可选的，在本发明第二方面的第六种实现方式中，所述优化模块包括：采样单元，用于基于预置的SAGE算法，调用预置的第八公式对所述图卷积神经网络每一层中的节点进行采样并计算最近邻节点的个数；优化单元，用于基于所述最近邻节点的个数，按照预置的模型优化流程对所述双流图卷积神经网络进行优化。

本发明第三方面提供了一种红外视频时序行为定位设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述红外视频时序行为定位设备执行上述的红外视频时序行为定位方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的红外视频时序行为定位方法。

本发明提供的技术方案中，获取输入的红外视频，并在双阶段识别定位方式的第一阶段从所述输入的红外视频中提取多个候选视频片段，所述多个候选视频片段用于指示可能的含有人体行为动作的视频片段，根据所述多个候选视频片段得到多个视频片段特征；在双阶段识别定位方式的第二阶段通过语义边和相邻边对所述多个候选视频片段进行边线构建，生成基础图网络；基于所述基础图网络构建双流图卷积神经网络，所述双流图卷积神经网络由两条图卷积神经网络组成，获取所述多个候选视频片段在每一条图卷积神经网络每一层的隐式特征值，得到多个隐式特征值；根据所述双流图卷积神经网络进行预测，得到所述多个候选视频片段的行为动作结果和时序位置。本发明实施例中，通过语义边和相邻边对多个视频片段构建图网络，并通过图卷积神经网络训练学习不同视频片段之间语义信息的特征关系，对每一个视频片段进行动作识别及时序位置定位，更充分地融合及学习了前后视频片段的语义信息，提高了识别定位的准确度。

附图说明

图1为本发明实施例中红外视频时序行为定位方法的一个实施例示意图；

图2为图卷积神经网络流程图；

图3为本发明实施例中红外视频时序行为定位方法的另一个实施例示意图；

图4为握手动作视频片段；

图5为本发明实施例中红外视频时序行为定位装置的一个实施例示意图；

图6为本发明实施例中红外视频时序行为定位装置的另一个实施例示意图；

图7为本发明实施例中红外视频时序行为定位设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种红外视频时序行为定位方法、装置、设备及存储介质，用于通过语义边和相邻边对多个视频片段构建图网络，并通过图卷积神经网络训练学习不同视频片段之间语义信息的特征关系，对每一个视频片段进行动作识别及时序位置定位，更充分地融合及学习了前后视频片段的语义信息，提高了识别定位的准确度。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中红外视频时序行为定位方法的一个实施例包括：

101、获取输入的红外视频，并在双阶段识别定位方式的第一阶段从输入的红外视频中提取多个候选视频片段，多个候选视频片段用于指示可能的含有人体行为动作的视频片段，根据多个候选视频片段得到多个视频片段特征。

服务器获取输入的红外视频，并在双阶段识别定位方式的第一阶段从输入的红外视频中提取多个候选视频片段，多个候选视频片段用于指示可能的含有人体行为动作的视频片段，根据多个候选视频片段得到多个视频片段特征。需要说明的是，预置的视频数据集可参考THUMOS2014数据集和 ActivityNet数据集，输入的红外视频为一段任意时间长度的红外视频，用V 来表示，其中

I_t表示视频中第t时刻时高为H宽为W的通道为1的红外视频图片帧，基于输入的红外视频，用预置尺寸的时间滑窗按照预置的重叠度选取候选视频片段，候选视频片段用p_i表示，对于每一个候选视频片段，记录所属的动作类别

以及动作的开始和结束时刻

其中

表示动作开始时在输入的红外视频中对应的时刻，

表示动作结束时在输入的红外视频中对应的时刻，所属的动作类别可按照具体的识别任务所确定。双阶段识别定位方式，即先得到输入的红外视频中可能的视频片段结果，包含动作类别与开始结束时刻，最后在第二阶段对这些可能的视频片段结果进行识别定位，这种动态的视频片段的选取方法相对更加合理和有效。

可以理解的是，本发明的执行主体可以为红外视频时序行为定位装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

102、在双阶段识别定位方式的第二阶段通过语义边和相邻边对多个候选视频片段进行边线构建，生成基础图网络。

服务器在双阶段识别定位方式的第二阶段通过语义边和相邻边对多个候选视频片段进行边线构建，生成基础图网络。构建图的一种方法是对所有红外视频片段两两之间都构建边，这样构建的图会导致计算量非常巨大，其次有些实际没有语义关联的视频片段连接起来之后，多加入的无效信息甚至是干扰信息会对模型时序定位的准确率产生影响，本方案中提供了2种视频片段之间构建边的方式：语义边和相邻边，通过构建语义边，具有一定重合度的视频片段会自动分享彼此的语义信息，并通过图网络进行学习，除此之外，行为动作视频片段相邻的一定距离的视频帧对于视频理解也是具有有效含义的，对于没有重合的视频片段，可以通过构建相邻边进行时序动作的预测。

103、基于基础图网络构建双流图卷积神经网络，双流图卷积神经网络由两条图卷积神经网络组成，获取多个候选视频片段在每一条图卷积神经网络每一层的隐式特征值，得到多个隐式特征值。

服务器基于基础图网络构建图卷积神经网络，双流图卷积神经网络由两条图卷积神经网络组成，获取多个候选视频片段在图卷积神经网络每一层的隐式特征值，得到多个隐式特征值。度矩阵按照特征间的相似度进行计算，预置的第三公式为：

其中，x_i表示候选视频片段p_i的特征，x_j表示候选视频片段p_j的特征，预置的第四公式为X^k＝AX^k-1W^(k)，其中，A为度矩阵，

为预置的参数，

表示所有候选视频片段在第k层的隐式特征。对于非线性函数而言，激活函数ReLU计算梯度简单，而且ReLU 由于非负区间的梯度为常数，因此能够解决梯度消失问题，使得模型的收敛速度维持在一个稳定状态，图卷积神经网络流程图如图2所示。

104、根据双流图卷积神经网络进行预测，得到多个候选视频片段的行为动作结果和时序位置。

服务器根据双流图卷积神经网络进行预测，得到多个候选视频片段的行为动作结果和时序位置。预置的第五公式为

其中，FC₁表示第一个全连接神经网络层(fully-connected-layer，FC₁)，GCN₁表示第一条图卷积神经网络(graph convolutional networks，GCN₁)，x_i∈R^d为视频片段特征，G(p,ε)表示所有视频片段p的节点v_i∈V和对应的e_ij＝(v_i,v_j)∈ε所组成的图网络。预置的第六公式为

其中，

表示候选视频片段的时序位置，FC₂表示第二个全连接神经网络层，GCN₂表示第二条图卷积神经网络， x_i'表示扩展后的视频特征，具体是将候选视频片段p_i向左或向右扩展候选视频片段p_i的时间长度的

所得到的特征。预置的第七公式为

其中，

表示候选视频片段的完整度概率，FC₃表示第三个全连接神经网络层。

本发明实施例中，通过语义边和相邻边对多个视频片段构建图网络，并通过图卷积神经网络训练学习不同视频片段之间语义信息的特征关系，对每一个视频片段进行动作识别及时序位置定位，更充分地融合及学习了前后视频片段的语义信息，提高了识别定位的准确度。

请参阅图3，本发明实施例中红外视频时序行为定位方法的另一个实施例包括：

301、获取输入的红外视频，并在双阶段识别定位方式的第一阶段从输入的红外视频中提取多个候选视频片段，多个候选视频片段用于指示可能的含有人体行为动作的视频片段，根据多个候选视频片段得到多个视频片段特征。

以及动作的开始和结束时刻

其中

表示动作开始时在输入的红外视频中对应的时刻，

302、在双阶段识别定位方式的第二阶段从多个候选视频片段中选取任意两个候选视频片段，基于预置的第一公式计算任意两个候选视频片段之间的关联程度。

服务器在双阶段识别定位方式的第二阶段从多个候选视频片段中选取任意两个候选视频片段，基于预置的第一公式计算任意两个候选视频片段之间的关联程度。任意两个候选视频片段用p_i和p_j表示，r(p_i,p_j)表示候选视频片段p_i和候选视频片段p_j之间的关联程度，用交并集值tIoU来表示，

其中，I(p_i,p_j)和U(p_i,p_j)分别表示候选视频片段p_i和候选视频片段p_j在时域上的交集时间和并集时间。

303、当关联程度大于预设的第一阈值时，对任意两个候选视频片段构建语义边，生成第一图网络。

当关联程度大于预设的第一阈值时，服务器对任意两个候选视频片段构建语义边，生成第一图网络。预设的第一阈值用θ_ctx表示，当r(p_i,p_j)>θ_ctx时，候选视频片段p_i和与它有一定重合的视频片段构建边，因为这些候选视频片段中没有与其重合的部分可以为候选视频片段p_i提供相关联的语义信息，因此，通过构建语义边，具有一定重合度的视频片段会自动分享彼此的语义信息，并通过图网络进行学习。

304、当关联程度为零时，基于预置的第二公式计算任意两个候选视频片段间的距离，当任意两个候选视频片段间的距离小于预设的第二阈值时，对任意两个候选视频片段构建相邻边，生成第二图网络。

当关联程度为零时，服务器基于预置的第二公式计算任意两个候选视频片段间的距离，当任意两个候选视频片段间的距离小于预设的第二阈值时，对任意两个候选视频片段构建相邻边，生成第二图网络。当r(p_i,p_j)＝0时，用 d(p_i,p_j)表示任意两个候选视频之间的距离，预设的第二阈值用θ_sur表示，当 d(p_i,p_j)＜θ_sur时，对候选视频片段p_i和候选视频片段p_j构建相邻边，

其中，c_i表示候选视频片段p_i中心点的时间位置，c_j表示候选视频片段p_j中心点的时间位置，如图4所示，在预测视频片段p₁的时序动作时，视频片段p₄虽然与p₁没有交集，但是p₄中两个人伸手的动作可以帮助识别p₁所属的行为动作。

305、将第一图网络和第二图网络合并，生成基础图网络。

服务器将第一图网络和第二图网络合并，生成基础图网络。服务器将第一图网络中的语义边信息和第二图网络中的相邻边信息叠加到同一个图网络中，生成基础图网络。

306、基于基础图网络构建双流图卷积神经网络，双流图卷积神经网络由两条图卷积神经网络组成，获取多个候选视频片段在每一条图卷积神经网络每一层的隐式特征值，得到多个隐式特征值。

为预置的参数，

表示所有候选视频片段在第k层的隐式特征。对于非线性函数而言，激活函数ReLU计算梯度简单，而且ReLU 由于非负区间的梯度为常数，因此能够解决梯度消失问题，使得模型的收敛速度维持在一个稳定状态。

307、根据双流图卷积神经网络进行预测，得到多个候选视频片段的行为动作结果和时序位置。

其中，

所得到的特征。预置的第七公式为

其中，

上面对本发明实施例中红外视频时序行为定位方法进行了描述，下面对本发明实施例中红外视频时序行为定位装置进行描述，请参阅图5，本发明实施例中红外视频时序行为定位装置的一个实施例包括：

获取模块501，用于获取输入的红外视频，并在双阶段识别定位方式的第一阶段从输入的红外视频中提取多个候选视频片段，多个候选视频片段用于指示可能的含有人体行为动作的视频片段，根据多个候选视频片段得到多个视频片段特征；

生成模块502，用于在双阶段识别定位方式的第二阶段通过语义边和相邻边对多个候选视频片段进行边线构建，生成基础图网络；

构建模块503，用于基于基础图网络构建双流图卷积神经网络，双流图卷积神经网络由两条图卷积神经网络组成，获取多个候选视频片段在每一条图卷积神经网络每一层的隐式特征值，得到多个隐式特征值；

预测模块504，用于根据双流图卷积神经网络进行预测，得到多个候选视频片段的行为动作结果和时序位置。

请参阅图6，本发明实施例中红外视频时序行为定位装置的另一个实施例包括：

可选的，获取模块501包括：

获取单元5011，用于基于预置的视频数据集获取输入的红外视频，输入的红外视频为用户输入的一段任意时间长度的红外视频；

提取单元5012，用于基于输入的红外视频，在双阶段识别定位方式的第一阶段通过预置算法提取得到多个候选视频片段，多个候选视频片段用于指示可能的含有人体行为动作的视频片段，记录每个候选视频片段中的动作类别以及每一个动作的开始时刻和结束时刻，得到多个视频片段特征。

可选的，生成模块502包括：

第一计算单元5021，用于在双阶段识别定位方式的第二阶段从多个候选视频片段中选取任意两个候选视频片段，基于预置的第一公式计算任意两个候选视频片段之间的关联程度；

第一构建单元5022，用于当关联程度大于预设的第一阈值时，对任意两个候选视频片段构建语义边，生成第一图网络；

第二构建单元5023，用于当关联程度为零时，基于预置的第二公式计算任意两个候选视频片段间的距离，当任意两个候选视频片段间的距离小于预设的第二阈值时，对任意两个候选视频片段构建相邻边，生成第二图网络；

合并单元5024，用于将第一图网络和第二图网络合并，生成基础图网络。

可选的，构建模块503包括：

第三构建单元5031，用于基于基础图网络构建预置层数的图卷积神经网络，生成双流图卷积神经网络，预置的层数为K层；

第二计算单元5032，用于获取任意两个候选视频片段的特征，根据任意两个候选视频片段的特征相似度和预置的第三公式计算度矩阵，得到多个度矩阵值；

第三计算单元5033，用于将多个度矩阵值分别代入预置的第四公式，计算所有候选视频片段在图卷积神经网络第k层的隐式特征值，1≤k≤K；

转化单元5034，用于基于激活函数ReLU对第k层的隐式特征值进行转化并输入至下一层图卷积神经网络，得到多个隐式特征值。

可选的，预测模块504包括：

生成单元5041，用于基于第一条图卷积神经网络，调用预置的第五公式，通过全连接神经网络层对多个隐式特征值进行信息融合，并调用损失层softmax进行人体行为动作分类，生成行为动作结果；

第四计算单元5042，用于基于第二条图卷积神经网络，调用预置的第六公式和第七公式计算候选视频片段的时序位置和完整度概率。

可选的，在预测模块504之后，红外视频时序行为定位装置还包括：

优化模块505，用于基于预置的算法对双流图卷积神经网络进行优化。

可选的，优化模块505包括：

采样单元5051，用于基于预置的SAGE算法，调用预置的第八公式对图卷积神经网络每一层中的节点进行采样并计算最近邻节点的个数；

优化单元5052，用于基于最近邻节点的个数，按照预置的模型优化流程对双流图卷积神经网络进行优化。

预置的第八公式为

其中，节点j是节点i 所选取的最邻近节点，N_s是最近邻节点个数，且N_s小于节点总数N。

上面图5和图6从模块化功能实体的角度对本发明实施例中的红外视频时序行为定位装置进行详细描述，下面从硬件处理的角度对本发明实施例中红外视频时序行为定位设备进行详细描述。

图7是本发明实施例提供的一种红外视频时序行为定位设备的结构示意图，该红外视频时序行为定位设备700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)710 (例如，一个或一个以上处理器)和存储器720，一个或一个以上存储应用程序733或数据732的存储介质730(例如一个或一个以上海量存储设备)。其中，存储器720和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对红外视频时序行为定位设备700中的一系列指令操作。更进一步地，处理器710可以设置为与存储介质730通信，在红外视频时序行为定位设备700 上执行存储介质730中的一系列指令操作。

红外视频时序行为定位设备700还可以包括一个或一个以上电源740，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口760，和/或，一个或一个以上操作***731，例如Windows Serve，Mac OS X，Unix， Linux，FreeBSD等等。本领域技术人员可以理解，图7示出的红外视频时序行为定位设备结构并不构成对红外视频时序行为定位设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种红外视频时序行为定位设备，所述计算机设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述红外视频时序行为定位方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述红外视频时序行为定位方法的步骤。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种红外视频时序行为定位方法，其特征在于，所述红外视频时序行为定位方法包括：

获取输入的红外视频，并在双阶段识别定位方式的第一阶段从所述输入的红外视频中提取多个候选视频片段，所述多个候选视频片段用于指示可能的含有人体行为动作的视频片段，根据所述多个候选视频片段得到多个视频片段特征；

在双阶段识别定位方式的第二阶段通过语义边和相邻边对所述多个候选视频片段进行边线构建，生成基础图网络；

基于所述基础图网络构建双流图卷积神经网络，所述双流图卷积神经网络由两条图卷积神经网络组成，获取所述多个候选视频片段在每一条图卷积神经网络每一层的隐式特征值，得到多个隐式特征值；

根据所述双流图卷积神经网络进行预测，得到所述多个候选视频片段的行为动作结果和时序位置。

2.根据权利要求1所述的红外视频时序行为定位方法，其特征在于，所述获取输入的红外视频，并在双阶段识别定位方式的第一阶段从所述输入的红外视频中提取多个候选视频片段，所述多个候选视频片段用于指示可能的含有人体行为动作的视频片段，根据所述多个候选视频片段得到多个视频片段特征包括：

基于预置的视频数据集获取输入的红外视频，所述输入的红外视频为用户输入的一段任意时间长度的红外视频；

基于所述输入的红外视频，在双阶段识别定位方式的第一阶段通过预置算法提取得到多个候选视频片段，所述多个候选视频片段用于指示可能的含有人体行为动作的视频片段，记录每个候选视频片段中的动作类别以及每一个动作的开始时刻和结束时刻，得到多个视频片段特征。

3.根据权利要求1所述的红外视频时序行为定位方法，其特征在于，所述在双阶段识别定位方式的第二阶段通过语义边和相邻边对所述多个候选视频片段进行边线构建，生成基础图网络包括：

在双阶段识别定位方式的第二阶段从所述多个候选视频片段中选取任意两个候选视频片段，基于预置的第一公式计算所述任意两个候选视频片段之间的关联程度；

当所述关联程度大于预设的第一阈值时，对所述任意两个候选视频片段构建语义边，生成第一图网络；

当所述关联程度为零时，基于预置的第二公式计算所述任意两个候选视频片段间的距离，当所述任意两个候选视频片段间的距离小于预设的第二阈值时，对所述任意两个候选视频片段构建相邻边，生成第二图网络；

将所述第一图网络和所述第二图网络合并，生成基础图网络。

4.根据权利要求1所述的红外视频时序行为定位方法，其特征在于，所述基于所述基础图网络构建双流图卷积神经网络，获取所述多个候选视频片段在每一条图卷积神经网络每一层的隐式特征值，得到多个隐式特征值包括：

基于基础图网络构建预置层数的图卷积神经网络，生成双流图卷积神经网络，预置的层数为K层，K为正整数；

获取任意两个候选视频片段的特征，根据所述任意两个候选视频片段的特征相似度和预置的第三公式计算度矩阵，得到多个度矩阵值；

将所述多个度矩阵值分别代入预置的第四公式，计算所有候选视频片段在图卷积神经网络第k层的隐式特征值，1≤k≤K；

基于激活函数ReLU对所述第k层的隐式特征值进行转化并输入至下一层图卷积神经网络，得到多个隐式特征值。

5.根据权利要求1所述的红外视频时序行为定位方法，其特征在于，所述根据所述双流图卷积神经网络进行预测，得到所述多个候选视频片段的行为动作结果和时序位置包括：

基于第一条图卷积神经网络，调用预置的第五公式，通过全连接神经网络层对所述多个隐式特征值进行信息融合，并调用损失层softmax进行人体行为动作分类，生成行为动作结果；

基于第二条图卷积神经网络，调用预置的第六公式和第七公式计算所述候选视频片段的时序位置和完整度概率。

6.根据权利要求1-5中任一项所述的红外视频时序行为定位方法，其特征在于，在所述根据所述双流图卷积神经网络进行预测，得到所述多个候选视频片段的行为动作结果和时序位置之后，所述方法还包括：

基于预置的算法对所述双流图卷积神经网络进行优化。

7.根据权利要求6所述的红外视频时序行为定位方法，其特征在于，所述基于预置的算法对所述双流图卷积神经网络进行优化包括：

基于预置的SAGE算法，调用预置的第八公式对所述图卷积神经网络每一层中的节点进行采样并计算最近邻节点的个数；

基于所述最近邻节点的个数，按照预置的模型优化流程对所述双流图卷积神经网络进行优化。

8.一种红外视频时序行为定位装置，其特征在于，所述红外视频时序行为定位装置包括：

获取模块，用于获取输入的红外视频，并在双阶段识别定位方式的第一阶段从所述输入的红外视频中提取多个候选视频片段，所述多个候选视频片段用于指示可能的含有人体行为动作的视频片段，根据所述多个候选视频片段得到多个视频片段特征；

生成模块，用于在双阶段识别定位方式的第二阶段通过语义边和相邻边对所述多个候选视频片段进行边线构建，生成基础图网络；

构建模块，用于基于所述基础图网络构建图卷积神经网络，获取所述多个候选视频片段在每一条图卷积神经网络每一层的隐式特征值，得到多个隐式特征值；

预测模块，用于根据所述双流图卷积神经网络进行预测，得到所述多个候选视频片段的行为动作结果和时序位置。

9.一种红外视频时序行为定位设备，其特征在于，所述红外视频时序行为定位设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述红外视频时序行为定位设备执行如权利要求1-7中任意一项所述的红外视频时序行为定位方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-7中任一项所述红外视频时序行为定位方法。