CN115240120B

CN115240120B - 一种基于对抗网络的行为识别方法及电子设备

Info

Publication number: CN115240120B
Application number: CN202211148927.0A
Authority: CN
Inventors: 苏航; 周凡; 刘海亮; 陈小燕; 汤武惊; 张怡
Original assignee: Sun Yat Sen University; Shenzhen Research Institute of Sun Yat Sen University
Current assignee: Sun Yat Sen University; Shenzhen Research Institute of Sun Yat Sen University
Priority date: 2022-09-21
Filing date: 2022-09-21
Publication date: 2022-12-13
Anticipated expiration: 2042-09-21
Also published as: CN115240120A

Abstract

本申请适用于设备管理技术领域，提供了一种基于对抗网络的行为识别方法、装置、电子设备及存储介质，方法包括：接收待识别的目标视频数据；从目标视频数据中提取多个关键视频帧，并将关键视频帧上传至云端服务器，以通过部署于云端服务器的行为指导网络生成第一行为数据；将目标视频数据导入预设的帧间动作提取网络，得到帧间动作特征数据；将目标视频数据导入上下文注意力网络，确定目标视频数据中目标对象的第二行为数据；接收云端服务器反馈的第一行为数据，并根据动作特征信息、第一行为数据以及第二行为数据，确定目标对象的行为类别。采用上述方法能够在确保行为识别准确性的同时，能够减少本地运算的运算量。

Description

一种基于对抗网络的行为识别方法及电子设备

技术领域

本申请属于数据处理技术领域，尤其涉及一种基于对抗网络的行为识别方法以及电子设备。

背景技术

随着人工智能技术的不断发展，计算机能够协助用户执行多种类型的识别操作，以提高用户的处理效率。例如，在用户对视频数据进行解析时，可以通过人工智能算法确定该视频数据中目标人物的行为类型，从而能够方便用户对目标人物进行分析，例如在对目标人物进行行为追踪，抑或在重点区域对危险动作进行监控时，人工智能的行为识别会大大降低用户的工作量，从而提高了分析效率。

现有的行为识别技术，往往是使用光流信息以确定目标对象在视频中的时间信息和空间信息，而进行光流信息的分析往往要求计算机具有较强的计算能力，在部分轻型设备上若需要具有较强的计算能力以进行行为识别，则会大大增加设备的造价成本，从而影响行为识别技术的推广，而通过运算能力较低的设备执行光流信息的提取，则需要耗费大量的运算时间。由此可见，现有的行为识别技术无法同时兼顾运算效率以及识别成本两个方面。

发明内容

本申请实施例提供了一种基于对抗网络的行为识别方法及电子设备，可以解决现有的行为识别技术，无法同时兼顾运算效率以及识别成本两个方面的问题。

第一方面，本申请实施例提供了一种基于对抗网络的行为识别方法，包括：

接收待识别的目标视频数据；

从所述目标视频数据中提取多个关键视频帧，并将所述关键视频帧上传至云端服务器，以通过部署于云端服务器的行为指导网络生成第一行为数据；

将所述目标视频数据导入预设的帧间动作提取网络，得到帧间动作特征数据；所述帧间动作特征数据用于确定所述目标视频数据中相邻的视频图像帧之间的动作特征信息；

将所述目标视频数据导入上下文注意力网络，确定所述目标视频数据中目标对象的第二行为数据；所述上下文注意力网络用于提取所述目标视频数据中所述目标对象与环境对象之间的相互位置关系；

接收所述云端服务器反馈的所述第一行为数据，并根据所述动作特征信息、所述第一行为数据以及所述第二行为数据，确定所述目标对象的行为类别。

在第一方面的一种可能的实现方式中，所述第一行为数据包含多个行为标签以及至少一个伪标签；

所述接收所述云端服务器反馈的所述第一行为数据，并根据所述动作特征信息、所述第一行为数据以及所述第二行为数据，确定所述目标对象的行为类别，包括：

根据所述第一行为数据中的多个所述行为标签以及所述伪标签，构建行为监督矩阵；

根据基于第二行为数据构建的行为识别矩阵以及所述行为监督矩阵，确定所述目标视频数据对应的第一自相关系数；

若所述第一自相关系数小于或等于预设的相关阈值，则从第二行为数据中移除与所述伪标签对应的无效数据，以及为所述第二行为数据中与所述行为标签对应的关联行为数据进行数据加权，得到监督行为数据；

根据所述监督行为数据以及所述动作特征信息，确定所述行为类别。

在第一方面的一种可能的实现方式中，在所述若所述第一自相关系数小于或等于预设的相关阈值，则从第二行为数据中移除与所述伪标签对应的无效数据，以及为所述第二行为数据中与所述行为标签对应的关联行为数据进行数据加权，得到监督行为数据之后，还包括：

根据所述第一行为数据以及所述第二行为数据，构建上下文注意网络对应的偏差矩阵；

基于所述偏差矩阵对所述上下文注意网络内的学习参量进行参量校正，得到待验证网络；

基于所述待验证网络输出所述目标视频数据的第三行为数据；

若所述第三行为数据与所述第一行为数据之间的第二自相关系数小于或等于所述相关阈值，则将第三行为数据识别为所述第一行为数据，并返回执行所述根据所述第一行为数据以及所述第二行为数据，构建上下文注意网络对应的偏差矩阵的操作；

若所述第二自相关系数大于所述相关阈值，则将所述待验证网络替换所述上下文注意网络。

在第一方面的一种可能的实现方式中，所述从所述目标视频数据中提取多个关键视频帧，并将所述关键视频帧上传至云端服务器，包括：

根据预设的采集帧率，从所述目标视频数据中获取多个候选视频帧；

计算相邻的任意两个候选视频帧之间的帧相似度；

若所述帧相似度大于预设的相似阈值，则将所述任意两个候选视频帧中的一个候选视频帧识别为关键视频帧，并基于所述相似阈值生成所述关键视频帧对应的偏移信息；

将所有所述关键视频帧以及所述偏移信息发送给所述云端服务器。

在第一方面的一种可能的实现方式中，在所述接收待识别的目标视频数据之前，还包括：

获取用于对行为识别模块进行训练的样本视频数据；所述行为识别模块包括所述帧间动作提取网络以及所述上下文注意力网络；

根据所述样本视频数据生成正样本数据以及负样本数据；所述正样本数据是对所述样本视频数据中的背景信息进行干扰处理后得到的；所述负样本数据是对所述样本视频数据中的样本视频帧的帧序列进行干扰处理后得到的；

通过所述正样本数据生成第一空间信息以及第一光流信息，以及通过所述负样本数据生成第二空间信息以及所述第二光流信息；

根据所述第一空间信息以及所述第二空间信息得到空间增强信息；

根据所述第二光流信息以及所述第一光流信息得到光流增强信息；

将所述空间增强信息以及所述光流增强信息导入所述行为识别模块，得到所述样本视频数据的训练识别结果；

基于所有所述样本视频数据的所述训练识别结果对初始识别模块内的位置学习参量进行预训练，得到所述行为识别模块。

在第一方面的一种可能的实现方式中，所述将所述目标视频数据导入预设的帧间动作提取网络，得到帧间动作特征数据，包括：

确定所述目标视频数据内任意两个连续的视频图像帧的图像张量；

根据所述目标对象在所述视频图像帧的关键位置，确定多个特征点坐标；所述特征点坐标是根据所述目标对象的步态行为确定的；

在所述图像张量中确定各个特征点坐标的张量表达，并基于所有所述特征点的坐标表达生成所述目标对象在所述视频图像帧中的特征向量；

根据所述任意两个连续的视频图像帧的所述特征向量，构建位移相关矩阵；所述位移相关矩阵用于确定视频图像帧中各个特征点坐标与另一视频图像帧中各个坐标点之间的位移相关分数；

根据所述位移相关矩阵确定各个所述特征点坐标在所述两个连续的视频图像帧间的最大位移距离，并基于所有所述最大位移距离确定所述目标对象的位移矩阵；

将所述位移矩阵导入到预设的特征变换模型，生成所述任意两个连续的视频图像帧的动作特征子数据；

基于所有所述视频图像帧的所述动作特征子数据得到所述帧间动作特征数据。

在第一方面的一种可能的实现方式中，所述根据所述位移相关矩阵确定各个所述特征点坐标在所述两个连续的视频图像帧间的最大位移距离，并基于所有所述最大位移距离确定所述目标对象的位移矩阵，包括：

在所述位移相关矩阵中确定各个特征点坐标对应的位移相关数组；

从所述位移相关数组中确定相关系数最大的参数值作为所述特征坐标的所述最大位移距离；

根据所有所述特征坐标的所述最大位移距离构建所述目标对象在二维空间上的位移场；

通过激活函数softmax将所述位移场进行池化降维，得到一维置信度张量；

将所述位移场以及所述一维置信度张量进行融合，构建用于表达三维空间的位移矩阵。

第二方面，本申请实施例提供了一种基于对抗网络的行为识别装置，包括：

目标视频数据接收单元，用于接收待识别的目标视频数据；

关键视频帧反馈单元，用于从所述目标视频数据中提取多个关键视频帧，并将所述关键视频帧上传至云端服务器，以通过部署于云端服务器的行为指导网络生成第一行为数据；

帧间动作特征数据提取单元，用于将所述目标视频数据导入预设的帧间动作提取网络，得到帧间动作特征数据；所述帧间动作特征数据用于确定所述目标视频数据中相邻的视频图像帧之间的动作特征信息；

第二行为数据确定单元，用于将所述目标视频数据导入上下文注意力网络，确定所述目标视频数据中目标对象的第二行为数据；所述上下文注意力网络用于提取所述目标视频数据中所述目标对象与环境对象之间的相互位置关系；

行为类别确定单元，用于接收所述云端服务器反馈的所述第一行为数据，并根据所述动作特征信息、所述第一行为数据以及所述第二行为数据，确定所述目标对象的行为类别。

第三方面，本申请实施例提供了一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面任一项所述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面任一项所述的方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在服务器上运行时，使得服务器执行上述第一方面中任一项所述的方法。

本申请实施例与现有技术相比存在的有益效果是：通过在接收到需要进行行为识别的目标视频数据后，从目标视频数据中提取关键视频帧，并反馈给云端服务器，云端服务器能够通过目标视频数据中的关键视频帧提取得到对应的第一行为数据，与此同时，电子设备恩将该目标视频数据导入到帧间动作提取网络，提取每个视频图像帧之间的动作特征信息，并基于所有视频图像帧之间的动作特征信息生成动作特征数据，继而将该动作特征数据导入到池化融合网络进行特征提取，以得到对应的动作特征信息，为了进一步提高行为识别的准确性，以及考虑动作行为在全局维度之间的关系，引入了上下文注意网络，确定该目标对象在整个目标视频数据中的第二行为数据，最后通过第一行为数据对第二行为数据进行监督调整，并根据监督调整后的第二行为数据以及动作特征信息确定行为类别，实现了自动识别行为类别的目的。与现有的行为识别技术相比，本申请实施例由于将计算量较大的运算内容交由云端服务器完成，生成第一行为数据，并通过第一行为数据对于本地生成的第二行为数据进行监督学习，构成了云端服务器与本地设备之间的对抗网络，通过对抗网络对行为数据优化，从而能够在确保行为识别准确性的同时，能够减少本地运算的运算量。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的一种基于对抗网络的行为识别方法的实现示意图；

图2是本申请一实施例提供的帧间动作提取网络的结构示意图；

图3是本申请一实施例提供的池化融合网络的结构示意图；

图4是本申请一实施例提供的上下文注意力网络的结构示意图；

图5是本申请第二实施例提供的一种基于对抗网络的行为识别方法中S105的具体实现流程图；

图6是本申请第三实施例提供的一种基于对抗网络的行为识别方法S102的具体实现流程图；

图7是本申请第四实施例提供的一种基于对抗网络的行为识别方法的具体实现流程图；

图8是本申请第二实施例提供的一种基于对抗网络的行为识别方法S103的具体实现流程图；

图9是本申请实施例提供的基于对抗网络的行为识别装置的结构示意图；

图10是本申请实施例提供的电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定***结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的***、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

本申请实施例提供的基于对抗网络的行为识别方法可以应用于智能手机、服务器、平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本等能够实现对视频数据进行行为识别的电子设备上。本申请实施例对电子设备的具体类型不作任何限制。

请参阅图1，图1示出了本申请实施例提供的一种基于对抗网络的行为识别方法的实现示意图，该方法包括如下步骤：

在S101中，接收待识别的目标视频数据。

在本实施例中，电子设备可以配置有一视频数据库，该视频数据库内包含多个视频数据。在需要对视频数据库内的某一视频数据进行行为识别时，电子设备会将该视频数据识别为目标视频数据，并进行后续处理。其中，在视频数据库内的每个视频数据可以配置有行为标识，对于已经识别完成行为类别的视频数据，其行为标识内包含有已经识别的行为类别，而并未进行行为类别识别的视频数据，该行为标识为空。在该情况下，电子设备可以读取行为标识是否为空，将行为标识为空的视频数据识别为目标视频数据。

在一种可能的实现方式中，该目标视频数据具体可以为一视频服务器。用户在需要对某一视频进行行为识别时，可以通过本地的用户终端安装对应的客户端程序，将所需识别的目标视频数据导入到该客户端程序内，并发起识别请求，用户终端在接收到该识别请求后，可以通过客户端程序建立与视频服务器之间的通信连接，并将目标视频数据发送给视频服务器，并通过识别服务器进行行为识别。

在一种可能的实现方式中，为了提高行为识别的效率，电子设备可以设置有对应的视频时长阈值，若原始视频数据的视频时长大于上述的视频时长阈值，则可以将原始视频数据划分为两个以上的视频段，每个视频段的视频时长不大于上述的视频时长阈值，将划分为的视频段识别为目标视频数据，并执行后续的行为识别操作。

在S102中，从所述目标视频数据中提取多个关键视频帧，并将所述关键视频帧上传至云端服务器，以通过部署于云端服务器的行为指导网络生成第一行为数据。

在本实施例中，电子设备与云端服务器之间构成了一个对抗网络，电子设备在后续生成第二行为数据时，所使用的上下文注意力网络是一个轻量级别的网络（即卷积层数较少，所需的运算能力较低），而云端服务器上部署的行为指导网络是一个大体量的网络（即卷积层数较大，所需运算能力加高），通过云端服务器计算得到的第一行为数据与电子设备本地生成的第二行为数据进行对抗学习，基于大体量的行为指导网络对轻量级别的上下文注意力网络进行监督校正，从而能够在确保识别准确性的同时，也无需在本地部署大体量的识别网络，从而降低了对于本地设备的云端要求。

与此同时，由于云端服务器的运算能力一般较高，对于行为识别的运算耗时也相对较低，因而将大体量的行为指导网络部署于云端服务器不仅能够降低了本地设备的造价成本，还能够提高识别的效率。

在本实施例中，为了兼顾识别效率，电子设备可以从目标视频数据中提取多个关键视频帧，而并非将整个目标视频数据上传给云端服务器，从而能够减少与云端服务器之间的数据传输量，从而大大提高了识别的效率。其中，电子设备可以基于预设的帧率从目标视频数据中进行关键图像帧的提取，也可以基于预设的行为特征识别算法，从目标视频数据中，提取与行为类别相关的多个关键图像帧。

在一种可能的实现方式中，电子设备在获取得到关键视频帧后，可以对关键视频帧进行预处理，将预处理后的关键视频帧发送给云端服务器。其中，预处理的操作包括，降低分辨率、灰度化、二值化以及锐化处理中一种或多种的组合，以进一步减少关键视频帧的数据量的同时，提高识别的准确性。

在本实施例中，云端服务器内配置有行为指导网络，云端服务器在接收到电子设备上传的关键视频帧后，可以将上述的关键视频帧导入到上述的行为指导网络内，以通过行为指导网络对多个关键视频帧进行行为特征提取，从而得到对应的第一行为数据。其中，与上下文注意力网络相比，该行为指导网络在中间特征层、分类层、不同样本之间的特征表达相关性都具有更好的识别能力，从而能够为上下文注意力网络提供监督信息，以实现自学习的对抗识别，继而提高识别的准确性。

在S103中，将所述目标视频数据导入预设的帧间动作提取网络，得到帧间动作特征数据；所述帧间动作特征数据用于确定所述目标视频数据中相邻的视频图像帧之间的动作特征信息。

在本实施例中，为了减少行为识别的运算压力，电子设备的动作行为识别模块中配置有帧间动作提取网络，该帧间动作提取网络具体用于确定相邻的任一两个视频图像帧之间的动作特征信息，即帧间动作提取网络的识别重点并非用户在全局中的行为，而是每两帧之间的动作变化，继而将所有帧间的动作变化进行梳理，即可以得到整个视频完整的行为动作，以便于后续进行行为识别。与全局的光流信息相比，本申请实施例提供的帧间动作提取网络具有即插即用的特点，每次输入至帧间提取动作网络的数据量具体为两个视频图像帧的数据量，而并非需要将整个目标视频数据导入到识别网络中提取光流信息，减少了缓存空间的占用率，也同时降低了计算机的运算能力的要求。

在一种可能的实现方式中，确定上述视频图像帧之间的动作特征信息的方式具体可以为：通过上述帧间动作提取网络，识别出目标对象的对象区域，继而识别两个对象区域之间的面积偏差，根据偏差面积的方向、位置以及大小，确定该目标对象的动作特征信息，继而根据各个视频图像帧的帧序号，确定各个动作特征信息的编号，并根据该编号对所有动作特征信息进行封装，生成上述的动作特征数据。

示例性地，图2示出了本申请一实施例提供的帧间动作提取网络的结构示意图。参见图2所示，该帧间动作提取网络的输入数据为两个视频图像帧，即图像t以及图像t+1，上述两个视频图像帧是帧序号相邻的两个视频图像帧，电子设备可以通过向量转换模块将上述两个视频图像帧进行向量转换，然后通过池化层进行降维处理以及通过激活层和位移计算模块确定两个视频图像帧对应的向量标识之间的位移信息，继而通过动作识别单元确定两个视频图像帧间的动作信息。其中，上述动作识别单元具体可以由多个卷积层构成，如图所示的可以包括基于1*7*7的卷积核构成的第一卷积层、基于1*3*3的卷积核构成的第二卷积层、基于1*3*3的卷积核构成的第三卷积层以及基于1*3*3的卷积核构成的第四卷积层。

在一种可能的实现方式中，在S102之后，还可以包括：将所述帧间动作特征数据导入池化融合网络，输出所述目标视频数据对应的融合特征数据。

在本实施例中，由于上述帧间动作提取模块中各个动作特征信息是离散的，在该基础上需要进行特征提取，以确定连续的动作，以便后续进行动作识别，基于此，电子设备可以将帧间动作特征数据导入到上述池化融合网络中，进程池化降维处理，进行特征融合，从而输出对应的融合特征数据。其中，上述融合特征数据可以表示为：

其中，Maxpool为所述融合特征数据；

为第i个视频图像帧对应的帧间动作信息；N为所述目标视频数据中的帧总数；T为特征转置。

进一步地，作为本申请的另一实施例，该池化融合网络具体为一同源双线性池化网络，同源双线性池化就是通过计算不同空间位置特征的外积，从而生成一个对称矩阵，然后再对该矩阵做平均池化来获得双线性特征，它可以提供比线性模型更强的特征表示，并且可以以端到端的方式优化。传统的全局平均池化（GAP）只捕获一阶统计信息，而忽略了对行为识别有用的更精细的细节特征，针对这个问题，拟借鉴细粒度分类中所使用的双线性池化方法并与GAP方法融合，使得对于相似度较高的行为可以提取更精细的特征，从而得到更好的识别结果。

示例性地，图3示出了本申请一实施例提供的池化融合网络的结构示意图。参见图3所示，池化融合网络包括双线性池化与一阶池化融合。最后一层卷积层提取的特征，在全局平均池化之前***双线性池化模块，捕获空间特征图的二阶统计量，从而获得二阶分类输出，并于全局平均池化得到的一阶特征向量相加从而得到分类输出向量。通过结合一阶和二阶向量，可以捕捉大的上下文线索和行为的细粒度信息，丰富了现有的行为识别网络的分类层。同时，原始的GAP 分支对于端到端训练过程中的反向传播至关重要，它可以减轻双线性池模块的训练难度。

在S103中，将所述目标视频数据导入上下文注意力网络，确定所述目标视频数据中目标对象的第二行为数据；所述上下文注意力网络用于提取所述目标视频数据中所述目标对象与环境对象之间的相互位置关系。

在本实施例中，由于帧间动作提取网络主要是关注局部的动作变化，为了确保识别的准确性，电子设备引入了上下文注意力网络，能够实现对全局的动作变化的识别。该上下文注意力网络具体是确定目标对象与环境对象之间的相互位置关系的变化，确定全局的动作变化，因此在上下文注意网络内，会对目标视频数据中的各个视频图像帧进行目标对象的标注以及环境对象的标注，并识别每一个视频图像帧中目标对象与环境对象之间的位置变化向量，根据各个视频图像帧之间的位置变化向量，进行特征提取以及上下文注意力识别，从而得到上述的第二行为数据。

示例性地，图4示出了本申请一实施例提供的上下文注意力网络的结构示意图。参见图4所示，该上下文注意力网络在可以对目标视频数据进行特征提取，进行物体检测、关键节点检测以及人体检测，物体检测具体用于确定环境对象，而人体检测具体用于识别目标对象，关键点检测具体用于确定人体的步态变化，最后通过图神经网络卷积层，进行上下文注意力关注，从而输出对应的第二行为数据。

在S105中，接收所述云端服务器反馈的所述第一行为数据，并根据所述动作特征信息、所述第一行为数据以及所述第二行为数据，确定所述目标对象的行为类别。

在本实施例中，云端服务器在生成了第一行为数据后，可以反馈给电子设备，若电子设备并未生成第二行为数据以及动作特征信息的情况下，电子设备会将第一行为数据存储于缓存区域内，若电子设备已经生成第二行为数据以及动作特征信息，则可以执行S105的操作。

在本实施例中，电子设备可以通过第一行为数据对第二行为数据进行监督校正。其中，上述上下文注意力网络与行为监督网络设计时将特征关系自相似度和交叉样本相似性引入到深度度量学习中，从而使得损失函数不仅能够充分利用行为监督网络中间特征层、分类网络层蕴含的监督信息，还能通过嵌入相似性的空间结构来度量训练样本之间的相对关系，基于行为监督网络-上下文注意力网络框架通过迁移学习等方法将高容量深度神经网络蕴含的知识迁移到更浅层网络模型参数中。此外，通过增加软标签损失和伪标签生成分布，利用一些非标注视频数据通过对抗学习对网络模型学习方向进行约束也能增强网络的泛化能力，最后实现在尽可能保留模型性能的基础上，尽可能降低模型的大小。

在本实施例中，电子设备通过第一行为数据对第二行为数据进行调整后，得到校正行为数据，从而能够确定多个候选的行为标签，并根据动作特征信息计算各个行为标签对应的置信度，选取置信度大于预设的置信度阈值的行为标签作为上述目标对象的行为类别，从而完成了对视频数据的行为识别。

在一种可能的实现方式中，该目标视频数据的视频长度较长，因此目标对象在整个视频长度的过程中可能包含有多个类型的行为动作，在该情况下，电子设备可以根据各个行为的出现先后次序，输出一个行为序列，该行为序列包含有多个元素，每一个元素对应一个行为类别。

以上可以看出，本申请实施例提供的一种基于对抗网络的行为识别方法通过在接收到需要进行行为识别的目标视频数据后，从目标视频数据中提取关键视频帧，并反馈给云端服务器，云端服务器能够通过目标视频数据中的关键视频帧提取得到对应的第一行为数据，与此同时，电子设备恩将该目标视频数据导入到帧间动作提取网络，提取每个视频图像帧之间的动作特征信息，并基于所有视频图像帧之间的动作特征信息生成动作特征数据，继而将该动作特征数据导入到池化融合网络进行特征提取，以得到对应的动作特征信息，为了进一步提高行为识别的准确性，以及考虑动作行为在全局维度之间的关系，引入了上下文注意网络，确定该目标对象在整个目标视频数据中的第二行为数据，最后通过第一行为数据对第二行为数据进行监督调整，并根据监督调整后的第二行为数据以及动作特征信息确定行为类别，实现了自动识别行为类别的目的。与现有的行为识别技术相比，本申请实施例由于将计算量较大的运算内容交由云端服务器完成，生成第一行为数据，并通过第一行为数据对于本地生成的第二行为数据进行监督学习，构成了云端服务器与本地设备之间的对抗网络，通过对抗网络对行为数据优化，从而能够在确保行为识别准确性的同时，能够减少本地运算的运算量。

图5示出了本申请第二实施例提供的一种基于对抗网络的行为识别方法中S105的具体实现流程图。参见图5，相对于图1所述实施例，本实施例提供的一种基于对抗网络的行为识别方法中S105具体包括：S1051~S1054，具体详述如下：

所述第一行为数据包含多个行为标签以及至少一个伪标签；

在S1051中，根据所述第一行为数据中的多个所述行为标签以及所述伪标签，构建行为监督矩阵。

在本实施例中，电子设备在接收到云端服务器反馈的第一行为数据后，可以根据第一行为数据对本地生成的第二行为数据进行监督校正，其中，该第一行为数据内包含有多个行为标签以及至少一个伪标签，该行为标签用于表示该目标视频数据可能的行为类别，即基于关键视频帧确定的候选行为类别；该伪标签用于表示该目标视频数据不可能的行为类别，即排除错误的答案。由于第一行为数据是基于关键视频帧确定的，并没有完整的视频信息，因此识别得到的候选行为类别的个数为多个（即对应的行为匹配阈值较低，因此可能会输出较多的候选结果），因而可以根据该行为标签以及伪标签构建对应的监督矩阵，以对本地生成的第二行为数据进行监督校正。

在S1052中，根据基于第二行为数据构建的行为识别矩阵以及所述行为监督矩阵，确定所述目标视频数据对应的第一自相关系数。

在本实施例中，电子设备可以根据第二行为数据构建对应的行为识别矩阵，具体构建的方式可以为：第二行为数据包含有多个候选行为标签，基于各个候选行为标签对应的向量表示，生成上述的行为识别矩阵。

在本实施例中，电子设备可以进行自相关计算，由于行为监督矩阵以及行为识别矩阵均是根据目标视频数据生成的，即原始数据是相同的，因此，在上下文注意力网络识别准确的情况下，两个矩阵之间的相关度较高，因此可以通过上述的第一自相关系数以确定上下文注意力网络的识别准确性。其中，上述第一自相关系数用于确定上述上下文注意力网络的语义损失。

在一种可能的实现方式中，若第一自相关系数大于预设的相关阈值，则表示第二行为数据无需进行校正，在该情况下，可以根据第二行为数据以及动作特征信息，确定目标对象的行为类别。

在S1053中，若所述第一自相关系数小于或等于预设的相关阈值，则从第二行为数据中移除与所述伪标签对应的无效数据，以及为所述第二行为数据中与所述行为标签对应的关联行为数据进行数据加权，得到监督行为数据。

在本实施例中，电子设备在检测到第一自相关系数小于或等于相关阈值时，则表示该上述两个矩阵相关性较低，即语义缺失较大，此时需要通过第一行为数据对第二行为数据进行校正。由于伪标签具体是用于表示不可能的行为类别，因此可以将第二行为数据中与伪标签相关的数据识别为无效数据，并从第二行为数据中移除，而对于第一行为数据中识别得到的行为标签，可以根据在第一行为数据中对应的置信度，确定各个行为标签对应的加权系数，基于该加权系数对第二行为数据中与行为标签对应的关联数据进行数据加权，即增大对应的行为标签的比例，将对无效数据进行移除以及对关联行为数据进行加权后的第二行为数据，识别为上述的监督行为数据。

在S1054中，根据所述监督行为数据以及所述动作特征信息，确定所述行为类别。

在本实施例中，电子设备可以根据监督行为数据与动作特征信息导入预设的行为识别网络，确定目标对象的行为类别。

在本申请实施例中，通过计算两个行为数据之间的自相关系数，以确定是否需要进行监督校正，提高了识别得到行为类别的准确性的同时，也能够避免无效的校正操作，进一步提高了识别的效率。

进一步地，作为本申请的另一实施例，在S1053之后，还可以包括：S1055~S1059，具体描述如下：

在S1055中，根据所述第一行为数据以及所述第二行为数据，构建上下文注意网络对应的偏差矩阵；

在S1056中，基于所述偏差矩阵对所述上下文注意网络内的学习参量进行参量校正，得到待验证网络。

在本实施例中，电子设备可以根据第二行为数据对本地的上下文注意力网络进行学习，以完成对抗学习，继而提高了整个网络的准确性。其中，电子设备可以根据第一行为数据以及第二行为数据建立对应的偏差矩阵，该偏差矩阵用于确定两个网络识别结果之间的差异性，并根据差异的数据对相应的卷积层内的学习参量进行调整，从而得到对应的待验证网络。

在S1057中，基于所述待验证网络输出所述目标视频数据的第三行为数据。

在S1058中，若所述第三行为数据与所述第一行为数据之间的第二自相关系数小于或等于所述相关阈值，则将第三行为数据识别为所述第一行为数据，并返回执行所述根据所述第一行为数据以及所述第二行为数据，构建上下文注意网络对应的偏差矩阵的操作。

在S1059中，若所述第二自相关系数大于所述相关阈值，则将所述待验证网络替换所述上下文注意网络。

在本实施例中，在对学习参量进行调整后，需要进一步确定该待验证网络的识别准确性，因此可以将目标视频数据再次导入到该待验证网络内，继而得到对应的行为数据，即第三行为数据，并重新计算第三行为数据与第一行为数据之间的相关程度，即第二自相关系数，若两者之间的相关度大于预设的相关阈值，则表示已经调整完毕，将待验证网络识别为上下文注意力网络，若两者的自相关系数依然小于或等于相关阈值，则需要继续进行调整，直到待验证网络输出的第三行为数据与第一行为数据之间的相关系数大于预设的相关阈值。

在本申请实施例中，可以通过第一行为数据对上下文注意力网络进行监督学习，从而能够实现对抗网络间调整，继而提高轻量化网络识别的准确性。

图6示出了本申请第三实施例提供的一种基于对抗网络的行为识别方法S102的具体实现流程图。参见图6，相对于图1所述实施例，本实施例提供的一种基于对抗网络的行为识别方法的S102包括：S1021~S1024，具体详述如下：

在S1021中，根据预设的采集帧率，从所述目标视频数据中获取多个候选视频帧。

在S1022中，计算相邻的任意两个候选视频帧之间的帧相似度。

在本实施例中，为了减少容易的冗余的视频帧的传输，减少电子设备与云端服务器之间的数据传输量，电子设备可以对视频帧之间的相似度进行计算，电子设备可以根据预设的采集帧率获取多个候选视频帧，并计算相邻的两个候选视频帧之间的帧相似度。若相似度较小的两个候选视频帧（即小于或等于相似阈值），则表示两个帧间的动作幅度较大，需要上传以确定对应的动作类型；反之，若两个帧之间的帧相似度较大，则表示存在冗余的情况，此时后续的操作。

在S1023中，若所述帧相似度大于预设的相似阈值，则将所述任意两个候选视频帧中的一个候选视频帧识别为关键视频帧，并基于所述相似阈值生成所述关键视频帧对应的偏移信息。

在S1024中，将所有所述关键视频帧以及所述偏移信息发送给所述云端服务器。

在本实施例中，电子设备可以将两个帧相似度的候选视频中的作为关键视频帧，并将另一个作为冗余视频帧（即无需上传给云端服务器），并确定两者之间的偏移信息，最后将删除所有冗余视频帧，并将关键视频帧以及对应的偏移信息上传给云端服务器，以实现减少数据传输量的目的。

图7示出了本申请第四实施例提供的一种基于对抗网络的行为识别方法的具体实现流程图。参见图7，相对于图1所述实施例，本实施例提供的一种基于对抗网络的行为识别方法在所述接收待识别的目标视频数据之前，还包括：S701~S707，具体详述如下：

进一步地，在所述接收待识别的目标视频数据之前，还包括：

在S701中，获取用于对行为识别模块进行训练的样本视频数据；所述行为识别模块包括所述帧间动作提取网络以及所述上下文注意力网络。

在本实施例中，电子设备在对目标视频数据进行行为识别之前，可以对本地的行为识别模块进行训练学习，从而能够提高后续行为识别的准确性。其中，上述行为识别模块具体包含有三大网络，分别为帧间动作提取网络，具体用于提取帧间动作运动数据，池化融合网络，具体用于对帧间动作运动数据进行特征提取以及特征融合，以及上下文注意力网络，具体用于确定目标对象与环境对象之间的相对位置，从而能够从全局维度上确定该目标对象的行为类别，基于此，电子设备可以从视频库内获取样本视频数据。需要说明的是，上述样本视频数据具体为并未进行行为类别标注的视频数据，或者弱标注的视频数据。该训练方法可以通过对抗学习的方式进行训练学习，从而能够减少用户标记的耗时，既能够提高训练的效率，还能够提高训练的准确性。

本实施例引入深度双向转换器以便更好地利用位置嵌入和多头注意力机制自动选择视频中的关键信息，设计面向视频理解的序列自监督学习方法，充分利用海量互联网大数据和已有的公开数据集对行为预训练模型进行不断优化和训练，进而获得具有领域通用性和任务共用能力的鲁棒行为预训练模型。

在S702中，根据所述样本视频数据生成正样本数据以及负样本数据；所述正样本数据是对所述样本视频数据中的背景信息进行干扰处理后得到的；所述负样本数据是对所述样本视频数据中的样本视频帧的帧序列进行干扰处理后得到的。

在本实施例中，电子设备在获取得到任一个样本视频数据后，可以将该样本视频数据转换为两种不同种类的样本数据，一种是通过对背景信息进行干扰，即干扰空间维度而得到的正样本数据，以及对帧序列进行干扰，即干扰时间维度而得到的负样本数据，从而解耦动作和空间场景，使网络对动作的敏感性进一步增强。这种构建正负样本的方式使得网络必须关注全局统计信息才能分辨出正负样本。

其中，生成正样本的过程具体可以包含以下步骤：

步骤1.1标记出所述样本视频数据的各个样本视频帧中的样本对象，并将除所述样本对象外的其他区域识别为背景区域。

步骤1.2通过预设的薄板样条对所述背景区域进行插值处理，得到空间干扰图像帧。

步骤1.3根据各个空间干扰图像帧在所述样本视频数据中的帧序号进行封装，得到所述正样本数据。

在本实施例中，电子设备可以通过对象识别算法（如人脸识别算法或者人体关键点识别算法等方式）定位出该样本视频数据中的样本对象，该样本对象也可为以实体人，在标记出该样本视频数据中的样本对象后，可以将除样本对象所在区域外的其他区域识别为背景区域，由于需要对空间进行干扰，电子设备可以通过薄板样条的方式在背景区域进行插值处理，从而对部分背景区域进行遮挡，以消除样本视频帧之间在空间的相关性，并根据帧序号重新对添加了薄板样条之后的空间干扰图像帧进行重新封装，从而得到正样本数据。

在本申请实施例中，通过薄板样条对背景区域进行插值处理，破坏局部场景信息从而构建正样本，能够提高后续识别对于用户动作的敏感度，继而提高训练的准确性。

其中，生成负样本的过程具体可以包含以下步骤：

步骤2.1根据预设的动作时间时长，将所述样本视频数据划分为多个视频段；每个所述视频段的段落时长不大于所述动作时间时长。

步骤2.2根据预设的乱序处理算法，分别更新各个所述视频段内的所述样本视频帧的帧序号。

步骤2.3基于更新后的帧序号对各个所述样本视频帧进行封装，得到所述负样本数据。

在本实施例中，为了实现对时间维度上的干扰，电子设备可以对样本视频数据进行划分，划分为多个视频段，对每个视频段内的视频图像帧进行乱序处理。由于一个动作具有一定的时长，通过划分视频段能够实现对不同动作的分离，继而能够提高后续对每一个动作识别的灵敏度。其中，上述动作时间时长是根据大数据分析确定一个动作的平均时长而确定的。电子设备会通过随机算法对视频段内的各个样本视频帧重新配置帧序号，从而根据更新后的帧序号的样本视频帧进行封装，从而得到负样本数据。

通常对比学习采用的负样本都是直接用其他视频，但是换用其他视频的话，除了动作信息不同之外，可能还会引入许多的可能使得网络分辨起来更容易的特征，所以这样的选取负样本的方式并不能保证网络会专注于运动，基于此本项目拟使用局部时间干扰破坏光流信息，以此来构建负样本。这种构建正负样本的方式使得网络必须关注全局统计信息才能分辨出正负样本。

在S703中，通过所述正样本数据生成第一空间信息以及第一光流信息，以及通过所述负样本数据生成第二空间信息以及所述第二光流信息。

在本实施例中，电子设备可以将正样本数据通过编码算法进行数据转换，得到该正样本数据中各个图像帧的编码数据，即得到多个特征图，然后通过学习的位置编码添加到提取得到的特征图中，融合位置编码后利用深度双向转换器对时间信息进行建模，从得到该正样本数据的时间信息，即第一光流信息，对空间信息进行建模，从而得到正样本数据的空间信息，即第一空间信息。对应地，对于负样本数据也进行相应处理，得到第二空间信息以及所述第二光流信息。

在S704中，根据所述第一空间信息以及所述第二空间信息得到空间增强信息。

在本实施例中，由于第一空间信息中对背景区域进行干扰，从而空间上是不具有相关性的，而第二空间信息并没有对背景区域进行干扰，且上述两个样本数据均出自同一样本视频数据，从而融合上述两个空间信息，能够提高空间信息捕捉的敏感度，从而得到空间增强信息。

在S705中，根据所述第二光流信息以及所述第一光流信息得到光流增强信息。

在本实施例中，由于第一光流信息中没有对时间序列进行干扰，从而时间维度上是具有相关性的，而第二光流信息对时间序列进行干扰，且上述两个样本数据均出自同一样本视频数据，从而融合上述两个光流信息，能够提高时间信息捕捉的敏感度，从而得到光流增强信息。

在S706中，将所述空间增强信息以及所述光流增强信息导入所述行为识别模块，得到所述样本视频数据的训练识别结果。

在S707中，基于所有所述样本视频数据的所述训练识别结果对初始识别模块内的位置学习参量进行预训练，得到所述行为识别模块。

在本实施例中，行为识别包括两个关键信息：空间信息和时间信息。空间信息属于场景中的静态信息，如对象、上下文信息等，其在视频的单个帧中是容易捕捉的，时间信息主要捕捉动作的动态特性，其通过整合帧间的空间信息而获得，对于行为识别来说，如何更好地捕捉到动作信息对于模型性能至关重要，现有的 3D 卷积神经网络的末尾使用的全局平均池化层阻碍了时间信息的丰富性。针对这个问题，拟采用深度双向转换器(Transformer)来替代全局平均池化。从输入视频中采样的 K 帧通过 3D 卷积编码器编码，得到的特征图（feature map）在网络的最后不使用全局平均池化，而是将特征向量分割成固定长度的 tokens 序列, 然后，为了保存位置信息，将学习的位置编码添加到提取的特征中，融合位置编码后利用深度双向转换器中的 Transformer 块对时间信息进行建模，通过深度双向转换器的多头注意力机制得出的特征向量融合了时间信息，之后将这些向量连接到一起通过多层感知机进行特征维度的变换，在通过计算对比损失来完成端到端的训练。从而得到一个泛化性能良好的预训练模型。

在本申请实施例中，通过确定正样本数据以及负样本数据，从而能够提高对于动作以及时空信息识别的敏感度，从而在不需要标注的情况下，也能够完成行为类别的训练，从而提高了预训练的效果。

图8示出了本申请第二实施例提供的一种基于对抗网络的行为识别方法S103的具体实现流程图。参见图8，相对于图1-6任一项所述实施例，本实施例提供的一种基于对抗网络的行为识别方法中S103包括：S1031~S1037，具体详述如下：

进一步地，所述将所述目标视频数据导入预设的帧间动作提取网络，得到帧间动作特征数据，包括：

在S1031中，确定所述目标视频数据内任意两个连续的视频图像帧的图像张量。

在本实施例中，电子设备在提取两个视频图像帧之间的动作特征信息之前，需要对视频图像帧进行预处理，需要将以图形表达的视频图像帧转换为以向量表达的张量。每个视频图像帧对应的图像张量是根据该视频图像帧的图像尺寸确定的，示例性地，该图像长相可以为一H*W*C尺寸的张量，其中，H是根据视频图像帧的图像长度确定的，W是根据视频图像帧的图像宽度确定的，即H*W是用于表示该视频图像帧的空间分辨率，C用于标识目标对象所在的空间位置，示例性，两个连续的视频图像帧可以标识为F（t）以及F（t+1），即第t个视频图像帧以及第t+1个视频图像帧对应的图像张量。

在S1032中，根据所述目标对象在所述视频图像帧的关键位置，确定多个特征点坐标；所述特征点坐标是根据所述目标对象的步态行为确定的。

在本实施例中，电子设备可以在每个视频图像帧中标记出目标对象所在的位置，即上述的关键位置。其中，该目标对象具体为一实体人，在该情况下，电子设备可以通过人体模板在视频图像帧中进行滑动框取，计算该人体模板与框取区域的匹配度，从而能够识别得到人体所在的区域，即目标对象所在的区域，又例如可以通过人脸识别算法，定位出该视频图像帧中包含的人脸区域，并基于人脸区域识别出目标对象所在的区域，从而确定目标对象所在的关键位置。

在本实施例中，电子设备在确定了关键位置后，可以该关键位置为基准，识别出目标对象内的多个关键点，每个关键点对应一个特征点坐标。示例性地，与步态行为相关的关键点包括：膝关节、大腿中心、小腿中心、躯干中心、头部、左手手臂、右手手臂等，在标记出各个关键点后，可以确定该关键点在视频图像帧内的坐标，即确定上述的特征点坐标。

在S1033中，在所述图像张量中确定各个特征点坐标的张量表达，并基于所有所述特征点的坐标表达生成所述目标对象在所述视频图像帧中的特征向量。

在本实施例中，电子设备在确定了多个特征点坐标后，可以在图像张量中定位出各个特征坐标点所在的元素，从而能够得到各个特征坐标点通过张量的表达式，即上述张量表达，最后将所有特征坐标点的张量表达进行封装，则得到该目标对象与步态相关的特征向量。

在S1034中，根据所述任意两个连续的视频图像帧的所述特征向量，构建位移相关矩阵；所述位移相关矩阵用于确定视频图像帧中各个特征点坐标与另一视频图像帧中各个坐标点之间的位移相关分数。

在本实施例中，电子设备在确定与关键点的特征点坐标对应的张量表达，并得到基于所有关键点的张量表达构成的特征向量后，可以计算两个视频图像帧之间的向量偏差，从而可以根据该向量偏差确定在两个视频图像帧间，该目标对象各个关键点对应的位移，从而确定得到上述的位移相关矩阵。

在本实施例中，由于根据视频的相邻两帧中某一个位置来说，大概率不会发生大的位移，可以把位移限制在某一个特定的区域，假设该区域以X为中心点且包含P2 个特征点，然后可以通过X位置的特征与相邻的视频图像帧中对应的候选区域中的特征做点乘运算得到位置X与该候选区域内所有特征的相关性分数矩阵，该矩阵的维度为HⅹWⅹP2，即上述的位移相关矩阵，反映了相邻帧间的位置之间的关系。

在S1035中，根据所述位移相关矩阵确定各个所述特征点坐标在所述两个连续的视频图像帧间的最大位移距离，并基于所有所述最大位移距离确定所述目标对象的位移矩阵。

在本实施例中，电子设备在确定了各个特征点坐标相对于另一视频图像帧在关键区域中的各个坐标点之间的相关分数后，可以选取相关分数最大的数值确定该特征点坐标对应的最大位移距离，即在另一视频图像帧中定位出与该特征点坐标相关联的坐标点，由于上述相关分数是确定两个坐标点之间的相关度，若两个坐标点之间的相关分数最大，即表示上述两个坐标点属于相同的坐标点，因此可以将该相关分数最大的坐标点，确定该关键点坐标对应的最大位移距离，从而基于所有关键点坐标的最大位移距离，可以确定该目标对象的位移矩阵。

进一步地，作为本申请的另一实施例，上述S1035具体包含以下步骤：

步骤1：在所述位移相关矩阵中确定各个特征点坐标对应的位移相关数组；

步骤2：从所述位移相关数组中确定相关系数最大的参数值作为所述特征坐标的所述最大位移距离；

步骤3：根据所有所述特征坐标的所述最大位移距离构建所述目标对象在二维空间上的位移场；

步骤4：通过激活函数softmax将所述位移场进行池化降维，得到一维置信度张量；

步骤5：将所述位移场以及所述一维置信度张量进行融合，构建用于表达三维空间的位移矩阵。

在本实施例中，根据相关分数矩阵，只要找出视频图像帧中相关分数矩阵中每个特征点的最大分数对应在另一视频图像帧中对应的点，就可以估计运动信息的位移场，由于上述相关分数是用于确定两个坐标点之间的相关性的，因此可以根据上述的位移相关矩阵，分离各个特征点坐标在另一视频图像帧上各个坐标点之间的相关分数，即上述的位移相关数组，并确定相关系数最大的参数值确定该特征点坐标在另一视频图像帧内的对应坐标点，并将另个点之间的距离作为上述的最大位移距离，从而构建该目标对象在二维空间内的位移场,由于该视频图像帧是一二维图像，即构建得到的位移场是也是二维的。具体来说，可以通过添加一层softmax 层来对该二维场进行特征提取，即进行最大池化处理，从而得到该目标对象的置信图，最后将二维的位移场和一维的置信图结合形成具有三维特征的位移矩阵。

在本申请实施例中，通过构建二维位移场确定目标对象的运动情况，并进行池化降维确定该位移场内各个点的置信度，方便对位移情况进行有效评估，从而能够便于进行后续的动作识别，提高了动作识别的准确性

在S1036中，将所述位移矩阵导入到预设的特征变换模型，生成所述任意两个连续的视频图像帧的动作特征子数据。

在本实施例中，为了和下游层的特征匹配，位移张量需要转换为匹配下游层维度的运动特征矩阵。可将馈送到四个深度可分卷积层中，一个1×7 层，三个1×3 层，将其转换成与原始输入F(t)相同通道数C 的运动特征。以便输入至网络的下一层。

在S1037中，基于所有所述视频图像帧的所述动作特征子数据得到所述帧间动作特征数据。

在本实施例中，电子设备在确定了每个视频图像帧相对于后一视频图像帧对应的动作特征子数据后，可以根据各个视频图像帧的帧序号进行封装，从而得到关于整个目标视频数据的帧间动作特征数据。

在本申请实施例中，通过在目标对象中标记出与步态相关的多个关键点坐标，并通过关键点坐标的位移去那个看构建对应的位移矩阵，通过关键点的位移确定该目标对象的动作特征子数据，能够减少所需运算的点的个数，从而进一步减少运算量，以及提高运算效率。

图9示出了本发明一实施例提供的一种基于对抗网络的行为识别装置的结构框图，该基于对抗网络的行为识别装置包括的各单元用于执行图1对应的实施例中加密装置实现的各步骤。具体请参阅图1与图1所对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。

参见图9，所述基于对抗网络的行为识别装置包括：

目标视频数据接收单元91，用于接收待识别的目标视频数据；

关键视频帧反馈单元92，用于从所述目标视频数据中提取多个关键视频帧，并将所述关键视频帧上传至云端服务器，以通过部署于云端服务器的行为指导网络生成第一行为数据；

帧间动作特征数据提取单元93，用于将所述目标视频数据导入预设的帧间动作提取网络，得到帧间动作特征数据；所述帧间动作特征数据用于确定所述目标视频数据中相邻的视频图像帧之间的动作特征信息；

第二行为数据确定单元94，用于将所述目标视频数据导入上下文注意力网络，确定所述目标视频数据中目标对象的第二行为数据；所述上下文注意力网络用于提取所述目标视频数据中所述目标对象与环境对象之间的相互位置关系；

行为类别确定单元95，用于接收所述云端服务器反馈的所述第一行为数据，并根据所述动作特征信息、所述第一行为数据以及所述第二行为数据，确定所述目标对象的行为类别。

可选地，所述帧间动作特征数据提取单元93包括：

图像张量转换单元，用于确定所述目标视频数据内任意两个连续的视频图像帧的图像张量；

特征点坐标确定单元，用于根据所述目标对象在所述视频图像帧的关键位置，确定多个特征点坐标；所述特征点坐标是根据所述目标对象的步态行为确定的；

特征向量生成单元，用于在所述图像张量中确定各个特征点坐标的张量表达，并基于所有所述特征点的坐标表达生成所述目标对象在所述视频图像帧中的特征向量；

位移相关矩阵构建单元，用于根据所述任意两个连续的视频图像帧的所述特征向量，构建位移相关矩阵；所述位移相关矩阵用于确定视频图像帧中各个特征点坐标与另一视频图像帧中各个坐标点之间的位移相关分数；

位移矩阵构建单元，用于根据所述位移相关矩阵确定各个所述特征点坐标在所述两个连续的视频图像帧间的最大位移距离，并基于所有所述最大位移距离确定所述目标对象的位移矩阵；

动作特征子数据确定单元，用于将所述位移矩阵导入到预设的特征变换模型，生成所述任意两个连续的视频图像帧的动作特征子数据；

动作特征子数据封装单元，用于基于所有所述视频图像帧的所述动作特征子数据得到所述帧间动作特征数据。

可选地，所述位移矩阵构建单元包括：

位移相关数组确定单元，用于在所述位移相关矩阵中确定各个特征点坐标对应的位移相关数组；

最大位移距离确定单元，用于从所述位移相关数组中确定相关系数最大的参数值作为所述特征坐标的所述最大位移距离；

位移场确定单元，用于根据所有所述特征坐标的所述最大位移距离构建所述目标对象在二维空间上的位移场；

位移场池化单元，用于通过激活函数softmax将所述位移场进行池化降维，得到一维置信度张量；

位移场融合单元，用于将所述位移场以及所述一维置信度张量进行融合，构建用于表达三维空间的位移矩阵。

可选地，行为识别装置还包括：

样本视频数据获取单元，用于获取用于对行为识别模块进行训练的样本视频数据；所述行为识别模块包括所述帧间动作提取网络以及所述上下文注意力网络；

样本数据转换单元，用于根据所述样本视频数据生成正样本数据以及负样本数据；所述正样本数据是对所述样本视频数据中的背景信息进行干扰处理后得到的；所述负样本数据是对所述样本视频数据中的样本视频帧的帧序列进行干扰处理后得到的；

信息提取单元，用于通过所述正样本数据生成第一空间信息以及第一光流信息，以及通过所述负样本数据生成第二空间信息以及所述第二光流信息；

空间增强信息生成单元，用于根据所述第一空间信息以及所述第二空间信息得到空间增强信息；

光流增强信息提取单元，用于根据所述第二光流信息以及所述第一光流信息得到光流增强信息；

训练识别结果输出单元，用于将所述空间增强信息以及所述光流增强信息导入所述行为识别模块，得到所述样本视频数据的训练识别结果；

模块训练单元，用于基于所有所述样本视频数据的所述训练识别结果对初始识别模块内的位置学习参量进行预训练，得到所述行为识别模块。

可选地，所述样本数据转换单元包括：

背景区域识别单元，用于标记出所述样本视频数据的各个样本视频帧中的样本对象，并将除所述样本对象外的其他区域识别为背景区域；

背景区域处理单元，用于通过预设的薄板样条对所述背景区域进行插值处理，得到空间干扰图像帧；

正样本生成单元，用于根据各个空间干扰图像帧在所述样本视频数据中的帧序号进行封装，得到所述正样本数据。

可选地，所述第一行为数据包含多个行为标签以及至少一个伪标签；

所述行为类别确定单元95包括：

行为监督矩阵构建单元，用于根据所述第一行为数据中的多个所述行为标签以及所述伪标签，构建行为监督矩阵；

第一自相关系数确定单元，用于根据基于第二行为数据构建的行为识别矩阵以及所述行为监督矩阵，确定所述目标视频数据对应的第一自相关系数；

监督行为数据生成单元，用于若所述第一自相关系数小于或等于预设的相关阈值，则从第二行为数据中移除与所述伪标签对应的无效数据，以及为所述第二行为数据中与所述行为标签对应的关联行为数据进行数据加权，得到监督行为数据；

监督行为数据识别单元，用于根据所述监督行为数据以及所述动作特征信息，确定所述行为类别。

可选地，所述行为识别装置还包括：

偏差矩阵确定单元，用于根据所述第一行为数据以及所述第二行为数据，构建上下文注意网络对应的偏差矩阵；

验证网络生成单元，用于基于所述偏差矩阵对所述上下文注意网络内的学习参量进行参量校正，得到待验证网络；

第三行为数据生成单元，用于基于所述待验证网络输出所述目标视频数据的第三行为数据；

校正循环单元，用于若所述第三行为数据与所述第一行为数据之间的第二自相关系数小于或等于所述相关阈值，则将第三行为数据识别为所述第一行为数据，并返回执行所述根据所述第一行为数据以及所述第二行为数据，构建上下文注意网络对应的偏差矩阵的操作；

校正完成单元，用于若所述第二自相关系数大于所述相关阈值，则将所述待验证网络替换所述上下文注意网络。

可选地，所述关键视频帧反馈单元92包括：

候选视频帧获取单元，用于根据预设的采集帧率，从所述目标视频数据中获取多个候选视频帧；

帧相似度计算单元，用于计算相邻的任意两个候选视频帧之间的帧相似度；

关键帧确定单元，用于若所述帧相似度大于预设的相似阈值，则将所述任意两个候选视频帧中的一个候选视频帧识别为关键视频帧，并基于所述相似阈值生成所述关键视频帧对应的偏移信息；

关键帧反馈单元，用于将所有所述关键视频帧以及所述偏移信息发送给所述云端服务器。

因此，本发明实施例提供的基于对抗网络的行为识别装置同样可以通过在接收到需要进行行为识别的目标视频数据后，从目标视频数据中提取关键视频帧，并反馈给云端服务器，云端服务器能够通过目标视频数据中的关键视频帧提取得到对应的第一行为数据，与此同时，电子设备恩将该目标视频数据导入到帧间动作提取网络，提取每个视频图像帧之间的动作特征信息，并基于所有视频图像帧之间的动作特征信息生成动作特征数据，继而将该动作特征数据导入到池化融合网络进行特征提取，以得到对应的动作特征信息，为了进一步提高行为识别的准确性，以及考虑动作行为在全局维度之间的关系，引入了上下文注意网络，确定该目标对象在整个目标视频数据中的第二行为数据，最后通过第一行为数据对第二行为数据进行监督调整，并根据监督调整后的第二行为数据以及动作特征信息确定行为类别，实现了自动识别行为类别的目的。与现有的行为识别技术相比，本申请实施例由于将计算量较大的运算内容交由云端服务器完成，生成第一行为数据，并通过第一行为数据对于本地生成的第二行为数据进行监督学习，构成了云端服务器与本地设备之间的对抗网络，通过对抗网络对行为数据优化，从而能够在确保行为识别准确性的同时，能够减少本地运算的运算量。

应当理解的是，图9示出的基于对抗网络的行为识别装置的结构框图中，各模块用于执行图1至图8对应的实施例中的各步骤，而对于图1至图8对应的实施例中的各步骤已在上述实施例中进行详细解释，具体请参阅图1至图8以及图1至图8所对应的实施例中的相关描述，此处不再赘述。

图10是本申请另一实施例提供的一种电子设备的结构框图。如图10所示，该实施例的电子设备1000包括：处理器1010、存储器1020以及存储在存储器1020中并可在处理器1010运行的计算机程序1030，例如基于对抗网络的行为识别方法的程序。处理器1010执行计算机程序1030时实现上述各个基于对抗网络的行为识别方法各实施例中的步骤，例如图1所示的S101至S105。或者，处理器1010执行计算机程序1030时实现上述图10对应的实施例中各模块的功能，例如，图9所示的单元91至95的功能，具体请参阅图9对应的实施例中的相关描述。

示例性的，计算机程序1030可以被分割成一个或多个模块，一个或者多个模块被存储在存储器1020中，并由处理器1010执行，以完成本申请。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序1030在电子设备1000中的执行过程。例如，计算机程序1030可以被分割成各个单元模块，各模块具体功能如上。

电子设备1000可包括，但不仅限于，处理器1010、存储器1020。本领域技术人员可以理解，图10仅仅是电子设备1000的示例，并不构成对电子设备1000的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如电子设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器1010可以是中央处理单元，还可以是其他通用处理器、数字信号处理器、专用集成电路、现成可编程门阵列或者其他可编程逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。

存储器1020可以是电子设备1000的内部存储单元，例如电子设备1000的硬盘或内存。存储器1020也可以是电子设备1000的外部存储设备，例如电子设备1000上配备的插接式硬盘，智能存储卡，闪存卡等。进一步地，存储器1020还可以既包括电子设备1000的内部存储单元也包括外部存储设备。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种基于对抗网络的行为识别方法，其特征在于，包括：

接收待识别的目标视频数据；

接收所述云端服务器反馈的所述第一行为数据，并根据所述动作特征信息、所述第一行为数据以及所述第二行为数据，确定所述目标对象的行为类别；

所述第一行为数据包含多个行为标签以及至少一个伪标签；

2.根据权利要求1所述的行为识别方法，其特征在于，在所述若所述第一自相关系数小于或等于预设的相关阈值，则从第二行为数据中移除与所述伪标签对应的无效数据，以及为所述第二行为数据中与所述行为标签对应的关联行为数据进行数据加权，得到监督行为数据之后，还包括：

3.根据权利要求1所述的行为识别方法，其特征在于，所述从所述目标视频数据中提取多个关键视频帧，并将所述关键视频帧上传至云端服务器，包括：

计算相邻的任意两个候选视频帧之间的帧相似度；

4.根据权利要求1所述的行为识别方法，其特征在于，在所述接收待识别的目标视频数据之前，还包括：

通过所述正样本数据生成第一空间信息以及第一光流信息，以及通过所述负样本数据生成第二空间信息以及第二光流信息；

5.根据权利要求1-4任一项所述的行为识别方法，其特征在于，所述将所述目标视频数据导入预设的帧间动作提取网络，得到帧间动作特征数据，包括：

6.根据权利要求5所述的行为识别方法，其特征在于，所述根据所述位移相关矩阵确定各个所述特征点坐标在所述两个连续的视频图像帧间的最大位移距离，并基于所有所述最大位移距离确定所述目标对象的位移矩阵，包括：

7.一种基于对抗网络的行为识别装置，其特征在于，包括：

目标视频数据接收单元，用于接收待识别的目标视频数据；

行为类别确定单元，用于接收所述云端服务器反馈的所述第一行为数据，并根据所述动作特征信息、所述第一行为数据以及所述第二行为数据，确定所述目标对象的行为类别；

所述第一行为数据包含多个行为标签以及至少一个伪标签；

所述行为类别确定单元包括：

8.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的方法。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的方法。