CN112597824A

CN112597824A - 行为识别方法、装置、电子设备和存储介质

Info

Publication number: CN112597824A
Application number: CN202011438565.XA
Authority: CN
Inventors: 陈海波; 罗志鹏; 张治广
Original assignee: Shenyan Technology Beijing Co ltd
Current assignee: Shenyan Technology Beijing Co ltd
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2021-04-02

Abstract

本申请实施例涉及计算机视觉技术领域，提供了一种行为识别方法、装置、电子设备和存储介质，所述方法包括：通过将原始行为视频输入数据处理模块进行数据预处理，获取待识别行为视频集，将待识别行为视频集输入Slowfast网络模型获取第一行为识别结果，以及将待识别行为视频集输入TSM网络模型获取第二行为识别结果，基于第一行为识别结果和第二行为识别结果，获取原始行为视频的识别结果。本申请将Slowfast网络的识别结果和TSM网络的识别结果进行融合，考虑了空间信息和时域信息的影响，提高了行为识别结果的精度。

Description

行为识别方法、装置、电子设备和存储介质

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种行为识别方法、装置、电子设备和存储介质。

背景技术

当前人体行为识别主要应用在型人机交互、运动分析、智能监控和虚拟现实领域，由于人的运动的复杂性和对外部环境的多变性，使得行为识别和检测具有一些挑战。

现有技术中行为识别的方法包括：通过建库和识别两个阶段完成对视频中人体行为的识别，其中建库阶段包括：首先采集视频，计算出视频一帧人物图像的直方图向量，然后对直方图向量进行归一化处理，对归一化后的各类直方图向量求熵，将得到的多个熵组合成一熵向量，最后对其定义，完成建立人体动作特征模板库；识别阶段包括：首先采集视频，再根据建库的方法求出一段视频的熵向量，然后与模板库进行匹配，找出最模板库中最匹配的熵向量，其对应的定义为该段视频的动作类型，但该方法行为识别的精度较低。

发明内容

本申请提供一种行为识别方法、装置、电子设备和存储介质，以实现获取高精度的行为识别结果。

本申请提供一种行为识别方法，包括：

对原始行为视频进行数据预处理，获取待识别行为视频集；

将所述待识别行为视频集输入Slowfast网络模型，获取第一行为识别结果；

将所述待识别行为视频集输入TSM网络模型，获取第二行为识别结果；

基于所述第一行为识别结果和所述第二行为识别结果，获取所述原始行为视频的识别结果；

其中，所述Slowfast网络模型和所述TSM网络模型是基于待识别样本行为视频集和待识别样本行为视频集的行为识别结果训练得到，所述待识别样本行为视频集是基于对原始样本行为视频进行数据预处理后得到。

根据本申请提供的一种行为识别方法，对原始行为视频进行数据预处理，获取待识别行为视频集，包括：对所述原始行为视频依次进行视频长度处理、视频模式处理以及数据增强处理；

所述视频长度处理包括：若判断所述原始行为视频的长度大于预设值，则以预设值作为长度对所述原始行为视频进行采样；若判断所述原始行为视频的长度小于预设值，则基于视频插值将所述原始行为视频的长度填充至预设值；

所述视频模式处理包括：在经过所述视频长度处理后，分别获取原始行为视频的RGB视频和帧差视频；

所述数据增强处理包括：分别对所述RGB视频和所述帧差视频进行数据增强，所述数据增强包括镜像翻转、视频倒放、视频裁剪以及视频拼接中的一种或多种。

根据本申请提供的一种行为识别方法，将所述待识别行为视频集输入Slowfast网络模型，获取第一行为识别结果，包括：

将所述待识别行为视频集输入Slowfast网络模型，获取若干组Slowfast网络识别结果，并将所述若干组Slowfast网络识别结果的平均值作为所述第一行为识别结果。

根据本申请提供的一种行为识别方法，所述Slowfast网络模型包括Non-local模块和时空注意力模块，所述Slowfast网络模型以ELU函数作为激活函数。

根据本申请提供的一种行为识别方法，将所述待识别行为视频集输入TSM网络模型，获取第二行为识别结果，包括：

将所述待识别行为视频集输入TSM网络模型，获取若干组TSM网络识别结果，并将所述若干组TSM网络识别结果的平均值作为所述第二行为识别结果。

根据本申请提供的一种行为识别方法，基于所述第一行为识别结果和所述第二行为识别结果，获取所述原始行为视频的识别结果，包括：

将所述第一行为识别结果和所述第二行为识别结果的平均值作为所述原始行为视频的识别结果。

根据本申请提供的一种行为识别方法，在基于待识别样本行为视频集对所述Slowfast网络模型和所述TSM网络模型进行训练之后，还包括：

基于原始测试行为视频对所述Slowfast网络模型和所述TSM网络模型进行测试验证，具体包括：

将原始测试视频输入数据处理模块进行数据预处理，获取测试行为视频集；

将所述测试行为视频集输入所述Slowfast网络模型，获取第一测试结果；

将所述测试行为视频集输入所述TSM网络模型，获取第二测试结果；

基于所述第一测试结果和所述第二测试结果，获取所述原始测试视频的测试结果。

本申请还提供一种行为识别装置，包括：

获取单元，用于对原始行为视频进行数据预处理，获取待识别行为视频集；

第一识别单元，用于将所述待识别行为视频集输入Slowfast网络模型，获取第一行为识别结果；

第二识别单元，用于将所述待识别行为视频集输入TSM网络模型，获取第二行为识别结果；

第三识别单元，用于基于所述第一行为识别结果和所述第二行为识别结果，获取所述原始行为视频的识别结果；

根据本申请提供的一种行为识别装置，所述获取单元，用于对原始行为视频进行数据预处理，获取待识别行为视频集，包括：对所述原始行为视频依次进行视频长度处理、视频模式处理以及数据增强处理；所述获取单元包括：

视频长度处理单元，用于对所述原始行为视频进行视频长度处理，包括：若判断所述原始行为视频的长度大于预设值，则以预设值作为长度对所述原始行为视频进行采样；若判断所述原始行为视频的长度小于预设值，则基于视频插值将所述原始行为视频的长度填充至预设值；

视频模式处理单元，用于对所述原始行为视频进行视频模式处理，包括：在经过所述视频长度处理后，分别获取原始行为视频的RGB视频和帧差视频；

数据增强处理单元，用于对所述原始行为视频进行数据增强处理，包括：分别对所述RGB视频和所述帧差视频进行数据增强，所述数据增强包括镜像翻转、视频倒放、视频裁剪以及视频拼接中的一种或多种。

根据本申请提供的一种行为识别装置，所述第一识别单元，用于：

根据本申请提供的一种行为识别装置，所述Slowfast网络模型包括Non-local模块和时空注意力模块，所述Slowfast网络模型以ELU函数作为激活函数。

根据本申请提供的一种行为识别装置，所述第二识别单元，用于：

根据本申请提供的一种行为识别装置，所述第三识别单元，用于：

根据本申请提供的一种行为识别装置，还包括测试单元，用于在基于待识别样本行为视频集对所述Slowfast网络模型和所述TSM网络模型进行训练之后，基于原始测试行为视频对所述Slowfast网络模型和所述TSM网络模型进行测试验证，所述测试单元包括：

测试获取单元，用于将原始测试视频输入数据处理模块进行数据预处理，获取测试行为视频集；

第一测试子单元，用于将所述测试行为视频集输入所述Slowfast网络模型，获取第一测试结果；

第二测试子单元，用于将所述测试行为视频集输入所述TSM网络模型，获取第二测试结果；

第三测试子单元，用于基于所述第一测试结果和所述第二测试结果，获取所述原始测试视频的测试结果。

本申请还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述行为识别方法的步骤。

本申请还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述行为识别方法的步骤。

本申请提供的行为识别方法、装置、电子设备和存储介质，通过将原始行为视频输入数据处理模块进行数据预处理，获取待识别行为视频集，将待识别行为视频集输入Slowfast网络模型获取第一行为识别结果，以及将待识别行为视频集输入TSM网络模型获取第二行为识别结果，基于第一行为识别结果和第二行为识别结果，获取原始行为视频的识别结果。由于Slowfast网络是采用以低帧速率操作的慢速路径捕获空间语义，以及以高帧速率操作的快速路径和精细时间分辨率捕获运动，从而能够精确获取行为识别结果，同时TSM网络能够更好地描述时域信息特征，使得获取的行为识别结果能够较好地表征时域信息特征，本申请基于Slowfast网络的识别结果和TSM网络的识别结果，获取最终的识别结果，考虑了空间信息和时域信息的影响，提高了行为识别结果的精度。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提供的行为识别方法的流程示意图之一；

图2是本申请提供的Slowfast网络模型的结构示意图；

图3是本申请提供的Slowfast网络模型的实例示意图；

图4是本申请提供的TSM网络模型的结构示意图；

图5是本申请提供的TSM网络模型中卷积模块的结构示意图；

图6是本申请提供的测试流程示意图；

图7是本申请提供的行为识别方法的流程示意图之二；

图8是本申请提供的行为识别装置的结构示意图；

图9是本申请提供的获取单元的结构示意图；

图10是本申请提供的电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

对此，本申请提供一种行为识别方法。图1是本申请提供的行为识别方法的流程示意图，如图1所示，该方法包括如下步骤：

步骤110、对原始行为视频进行数据预处理，获取待识别行为视频集；

步骤120、将待识别行为视频集输入Slowfast网络模型，获取第一行为识别结果；

步骤130、将待识别行为视频集输入TSM网络模型，获取第二行为识别结果；

步骤140、基于第一行为识别结果和第二行为识别结果，获取原始行为视频的识别结果；

其中，Slowfast网络模型和TSM网络模型是基于待识别样本行为视频集和待识别样本行为视频集的行为识别结果训练得到，待识别样本行为视频集是基于对原始样本行为视频进行数据预处理后得到。

在本实施例中，需要说明的是，行为识别是通过给定一段待识别的视频，通过分析获取视频中相关人员的动作行为，如骑车、打架、爬山等。原始行为视频可以从动作识别数据集UFC-101中获取，也可以从Kinetics-400视频数据集中获取，本实施例对此不作具体限定。

在本实施例中，为了提高行为识别的精度，在获取原始行为视频的基础上，将其进行数据预处理，获取若干个待识别行为视频，进而组成待识别行为视频集，使得获取的视频集能够从多个不同的角度反映原始行为视频中各个行为动作的细节。其中，数据预处理可以为对原始行为视频进行数据增强，也可以对原始行为视频进行统一视频长度，本实施例对此不作具体限定。

在对原始行为视频进行数据预处理后，本实施例将待识别行为视频集输入Slowfast网络模型，获取第一行为识别结果；其中，Slowfast网络的核心是对同一个视频片段应用两个平行的卷积神经网络(CNN)，即一个慢(Slow)通道，一个快(Fast)通道。例如，飞机起飞的视频会包含相对静态的机场和一个在场景中快速移动的动态物体(飞机)，又如在日常生活中，当两个人见面时，握手通常会比较快而场景中的其他部分则相对静态。因此，SlowFast使用了一个慢速高分辨率CNN(Slow通道)来分析视频中的静态内容，同时使用一个快速低分辨率CNN(Fast通道)来分析视频中的动态内容，从而可以准确分析行为视频中的动作行为细节。

同时，本实施例将待识别行为视频集输入TSM网络模型，获取第二行为识别结果。需要说明的是，由于3D网络的计算量大，而2D网络没有利用时序信息，而TSM网络能够用2D网络对时间建模，即将当前帧的特征图部分通道替换为前一帧或后一帧的通道，从而不仅减小了网络的计算量，而且能够准确进行行为识别。

因此，基于第一行为识别结果和第二行为识别结果，获取原始行为视频的识别结果，作为最终行为识别结果。可以理解的是，可以通过求取第一行为识别结果和第二行为识别结果的平均值作为最终的样本行为视频识别结果。由此可见，本实施例通过对Slowfast网络和TSM网络的识别结果进行融合，从而可以进一步提高行为识别模型的精度，并且避免Slowfast网络或TSM网络中一个出现识别误差后导致识别结果不稳定的问题。

本申请提供的行为识别方法，通过将原始行为视频输入数据处理模块进行数据预处理，获取待识别行为视频集，将待识别行为视频集输入Slowfast网络模型获取第一行为识别结果，以及将待识别行为视频集输入TSM网络模型获取第二行为识别结果，基于第一行为识别结果和第二行为识别结果，获取原始行为视频的识别结果。由于Slowfast网络是采用以低帧速率操作的慢速路径捕获空间语义，以及以高帧速率操作的快速路径和精细时间分辨率捕获运动，从而能够精确获取行为识别结果，同时TSM网络能够更好地描述时域信息特征，使得获取的行为识别结果能够较好地表征时域信息特征，本申请基于Slowfast网络的识别结果和TSM网络的识别结果，获取最终的识别结果，考虑了空间信息和时域信息的影响，提高了行为识别结果的精度。

基于上述实施例，步骤110包括：对原始行为视频依次进行视频长度处理、视频模式处理以及数据增强处理；

视频长度处理包括：若判断原始行为视频的长度大于预设值，则以预设值作为长度对原始行为视频进行采样；若判断原始行为视频的长度小于预设值，则基于视频插值将原始行为视频的长度填充至预设值；

视频模式处理包括：在经过视频长度处理后，分别获取原始行为视频的RGB视频和帧差视频；

数据增强处理包括：分别对RGB视频和帧差视频进行数据增强，数据增强包括镜像翻转、视频倒放、视频裁剪以及视频拼接中的一种或多种。

在本实施例中，由于获取的原始行为视频长度不统一，影响输入Slowfast网络模型和TSM网络模型进行训练，因此本实施例在判断原始行为视频的长度大于预设值时，则以预设值作为长度对原始行为视频进行采样；在判断原始行为视频的长度小于预设值，则基于视频插值将原始行为视频的长度填充至预设值，使得原始行为视频统一至预设值的长度。例如，本实施例可以根据模型输入需求，对于原始行为视频长度大于64帧的，采样64帧作为输入；对于原始行为视频长度小于64帧的，采用视频插值，填充到64帧。

此外，在经过视频长度处理后，本实施例为了进一步提高行为识别精度，将原始行为视频转换为两种模式，分别输入Slowfast网络模型和TSM网络模型进行训练，例如，分别获取原始行为视频对应的RGB视频，以及原始行为视频对应的帧差视频，以RGB视频和帧差视频为基础进行训练；其中帧差视频为采用相邻帧做差的视频。

为了使得原始行为视频在模型中有更好地表现效果，本实施例分别对RGB视频和帧差视频进行数据增强，从而可以获取大量的数据集样本输入模型中进行训练，提高模型的训练效果。其中，数据增强包括：整个视频进行镜像翻转；整个视频倒放；对整个视频在每一帧随机裁剪部分图像；正放视频与倒放视频拼接，再进行帧采样。

基于上述实施例，步骤120将待识别行为视频集输入Slowfast网络模型，获取第一行为识别结果，包括：

将待识别行为视频集输入Slowfast网络模型，获取若干组Slowfast网络识别结果，并将若干组Slowfast网络识别结果的平均值作为第一行为识别结果。

在本实施例中，由于待识别行为视频集包含若干个视频，每个视频输入Slowfast网络模型后，均会获取一组Slowfast网络识别结果，本实施例在获取若干组Slowfast网络识别结果的基础上求取平均值，获取第一行为识别结果。由此可见，本实施例通过获取多组Slowfast网络识别结果，使得获取的第一行为识别结果更稳定。

基于上述实施例，Slowfast网络模型包括Non-local模块和时空注意力模块，Slowfast网络模型以ELU函数作为激活函数。

在本实施例中，Slowfast网络模型包括Slow通道和Fast通道，通过Slowfast网络模型对待识别行为视频集进行识别的步骤包括：将RGB视频输入Fast通道，可以获取RGB视频识别结果，将帧差视频输入Fast通道，可以获取帧差视频识别结果，求取RGB视频识别结果和帧差视频识别结果的平均值，从而获取Fast通道识别结果。同理，将RGB视频输入Slow通道，可以获取RGB视频识别结果，将帧差视频输入Slow通道，可以获取帧差视频识别结果，求取RGB视频识别结果和帧差视频识别结果的平均值，从而获取Slow通道识别结果，最后根据Slow通道识别结果和Fast通道识别结果，获取双流网络模块的识别结果。

如图2所示，Slow通道(Slow pathway)和Fast通道(Fast pathway)都使用3DRestNet模型，捕捉若干帧之后立即运行3D卷积操作。Slow通道使用一个较大的时序跨度(即每秒跳过的帧数)，通常设置为16，表明大约1秒可以采集2帧。Fast通道使用一个较小的时序跨度τ/α，其中α通常设置为8，以便1秒可以采集15帧。虽然Fast通道的时序频率更高，但Fast通道需要的计算量要比Slow通道小4倍，因此Fast通道通过使用较小的卷积宽度(使用的滤波器数量)来保持轻量化，通常设置为慢通道卷积宽度的1/8(该值标记为β)。

如图3所示，卷积核的尺寸记作{T×S²,C}，其中T、S和C分别表示时序temporal,空间spatial和频道Channel的尺寸。跨度记作{temporal stride,spatial stride^2}。速度比率(跳帧率)为α＝8，频道比率为1/β＝1/8，τ设置为16。为了使模型能够有更好的效果，本实施例中的Slowfast网络模型包括：

(1)在SlowFast中加入Non-local模块，解决local模块无法获取全局信息的问题，从而使后面的层获取更丰富的信息。其中，Non-local的公式为：

其中，i和j分别表示输入x的某个空间位置，x_i表示向量(维数与x的channel数一样)，f表示计算任意两点相似关系的函数，g表示映射函数(将一个点映射成一个向量，可以看成是计算一个点的特征)。

(2)用ELU函数来代替ReLU函数，ELU激活函数右侧线性部分可以缓解梯度消失，左侧能够让输入变化或噪声更鲁棒。ELU的输出均值接近于0，所以收敛速度更快，从而能够更全面获取SlowFast各层的信息，提高识别结果的精度；其中，ELU的公式为：

其中α是一个可调整的参数，它控制着ELU负值部分在何时饱和。

(3)添加时空注意力模块(Spatio-temporal attention)至3D卷积层。

在本实施例中，Fast通道识别结果经侧向连接输入至Slow通道；Fast通道的识别数据通过侧向连接被送入Slow通道，这使得Slow通道可以获取Fast通道的处理结果。单一数据样本的形状在两个通道间是不同的(Fast通道是{αT,S²,βC}，而Slow通道是{T,S²,αβC})，从而需要对Fast通道的结果进行数据变换，然后融入Slow通道，从而最终获取Slow通道识别结果。在Fast通道和Slow通道的末端，SlowFast执行降维处理，即全局平均池化，然后组合两个通道的结果并送入一个全连接分类层，全连接分类层通过使用逻辑回归函数softmax来识别行为视频中发生的动作，最终获取双流网络模块的识别结果。

基于上述实施例，步骤130将待识别行为视频集输入TSM网络模型，获取第二行为识别结果，包括：

将待识别行为视频集输入TSM网络模型，获取若干组TSM网络识别结果，并将若干组TSM网络识别结果的平均值作为第二行为识别结果。

在本实施例中，由于待识别行为视频集包含若干个视频，每个视频输入TSM网络模型后，均会获取一组TSM网络识别结果，本实施例在获取若干组TSM网络识别结果的基础上求取平均值，获取第二行为识别结果。由此可见，本实施例通过获取多组TSM网络识别结果，使得获取的第二行为识别结果更稳定。

在本实施例中，需要说明的是，TSM网络主要是构建了时间移位模块，可以***到任何二维CNN中，以实现时间建模。如图4所示，在每一次的模型数据输入中，将视频分成N段，每段采样一帧，将N帧作为一次网络模型输入。使采样的帧跨越整个视频，支持长期的时间关系建模。在TSM网络中，将一部分的channel在temporal维度上向前位移一步，一部分的channel在temporal维度上向后位移一步，位移后的空缺补零。通过这种方式在特征图中引入temporal维度上的上下文交互，提高了在时间维度上的建模能力。

如图5所示，在TSM中加入(2+1)D卷积模块，通过该模块利用2D卷积和1D卷积来逼近，但要保证参数相同。相比a)中的3D模块虽然参数没变，b)中的R(2+1)D添加更多Relu激活层，模型的表达能力更强，降低了模型的计算量，提高了模型的训练效率，使得更容易训练优化模型。

基于上述实施例，基于第一行为识别结果和第二行为识别结果，获取原始行为视频的识别结果，包括：

将第一行为识别结果和第二行为识别结果的平均值作为原始行为视频的识别结果。

在本实施例中，需要说明的是，由于Slowfast网络是采用以低帧速率操作的慢速路径捕获空间语义，以及以高帧速率操作的快速路径和精细时间分辨率捕获运动，从而能够精确获取行为识别结果，同时TSM网络能够更好地描述时域信息特征，使得获取的行为识别结果能够较好地表征时域信息特征，本实施例基于Slowfast网络的第一识别结果和TSM网络的第二识别结果，获取最终的识别结果，考虑了空间信息和时域信息的影响，提高了行为识别结果的精度。

基于上述实施例，如图6所示，在基于待识别样本行为视频集对Slowfast网络模型和TSM网络模型进行训练之后，还包括：

基于原始测试行为视频对Slowfast网络模型和TSM网络模型进行测试验证，具体包括：

步骤610、将原始测试视频输入数据处理模块进行数据预处理，获取测试行为视频集；

步骤620、将测试行为视频集输入Slowfast网络模型，获取第一测试结果；

步骤630、将测试行为视频集输入TSM网络模型，获取第二测试结果；

步骤640、基于第一测试结果和第二测试结果，获取原始测试视频的测试结果。

在本实施例中，通过从公开的视频数据集中获取原始测试视频，并基于对原始测试视频进行数据预处理，获取测试行为视频集，分别将测试行为视频集输入Slowfast网络模型和TSM网络模型，获取多组第一测试结果和多组第二测试结果，分别对多组第一测试结果和多组第二测试结果求取平均值，获取原始测试视频的测试结果。

其中，数据预处理包括获取原始测试视频对应的测试RGB视频和测试帧差视频，然后分别对测试RGB视频和测试帧差视频进行数据增强。

基于上述实施例，如图7所示，本实施例提供的行为识别方法包括：

获取原始待识别的行为视频，首先对行为视频进行数据预处理，然后将数据预处理后的行为视频分别输入Slowfast网络和TSM网络中，获取Slowfast网络识别结果和TSM网络识别结果，对上述两种识别结果进行融合(求取平均值)，获取最终的识别结果。

下面对本申请提供的行为识别装置进行描述，下文描述的行为识别装置与上文描述的行为识别方法可相互对应参照。

基于上述实施例，如图8所示，本申请提供一种行为识别装置，该装置包括：

获取单元810，用于对原始行为视频进行数据预处理，获取待识别行为视频集；

第一识别单元820，用于将待识别行为视频集输入Slowfast网络模型，获取第一行为识别结果；

第二识别单元830，用于将待识别行为视频集输入TSM网络模型，获取第二行为识别结果；

第三识别单元840，用于基于第一行为识别结果和第二行为识别结果，获取原始行为视频的识别结果；

基于上述实施例，如图9所示，获取单元810，用于对原始行为视频进行数据预处理，获取待识别行为视频集，包括：对原始行为视频依次进行视频长度处理、视频模式处理以及数据增强处理；获取单元810包括：

视频长度处理单元811，用于对原始行为视频进行视频长度处理，包括：若判断原始行为视频的长度大于预设值，则以预设值作为长度对原始行为视频进行采样；若判断原始行为视频的长度小于预设值，则基于视频插值将原始行为视频的长度填充至预设值；

视频模式处理单元812，用于对原始行为视频进行视频模式处理，包括：在经过视频长度处理后，分别获取原始行为视频的RGB视频和帧差视频；

数据增强处理单元813，用于对原始行为视频进行数据增强处理，包括：分别对RGB视频和帧差视频进行数据增强，数据增强包括镜像翻转、视频倒放、视频裁剪以及视频拼接中的一种或多种。

基于上述实施例，第一识别单元820，用于：

基于上述实施例，Slowfast网络模型包括Non-local模块和时空注意力模块，所述Slowfast网络模型以ELU函数作为激活函数。

基于上述实施例，第二识别单元830，用于：

基于上述实施例，第三识别单元840，用于：

基于上述实施例，还包括测试单元，用于在基于待识别样本行为视频集对Slowfast网络模型和TSM网络模型进行训练之后，基于原始测试行为视频对Slowfast网络模型和TSM网络模型进行测试验证，测试单元包括：

第一测试子单元，用于将测试行为视频集输入所述Slowfast网络模型，获取第一测试结果；

第二测试子单元，用于将测试行为视频集输入TSM网络模型，获取第二测试结果；

第三测试子单元，用于基于第一测试结果和第二测试结果，获取原始测试视频的测试结果。

本申请实施例提供的行为识别装置用于执行上述行为识别方法，其实施方式与本申请提供的行为识别方法的实施方式一致，且可以达到相同的有益效果，此处不再赘述。

图10示例了一种电子设备的实体结构示意图，如图10所示，该电子设备可以包括：处理器(processor)1010、通信接口(Communications Interface)1020、存储器(memory)1030和通信总线1040，其中，处理器1010，通信接口1020，存储器1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1030中的逻辑指令，以执行行为识别方法，该方法包括：对原始行为视频进行数据预处理，获取待识别行为视频集；将所述待识别行为视频集输入Slowfast网络模型，获取第一行为识别结果；将所述待识别行为视频集输入TSM网络模型，获取第二行为识别结果；基于所述第一行为识别结果和所述第二行为识别结果，获取所述原始行为视频的识别结果；其中，所述Slowfast网络模型和所述TSM网络模型是基于待识别样本行为视频集和待识别样本行为视频集的行为识别结果训练得到，所述待识别样本行为视频集是基于对原始样本行为视频进行数据预处理后得到。

此外，上述的存储器1030中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请实施例提供的电子设备中的处理器1010可以调用存储器1030中的逻辑指令，实现上述行为识别方法，其实施方式与本申请提供的行为识别方法的实施方式一致，且可以达到相同的有益效果，此处不再赘述。

另一方面，本申请还提供一种计算机程序产品，下面对本申请提供的计算机程序产品进行描述，下文描述的计算机程序产品与上文描述的行为识别方法可相互对应参照。

所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的行为识别方法，该方法包括：对原始行为视频进行数据预处理，获取待识别行为视频集；将所述待识别行为视频集输入Slowfast网络模型，获取第一行为识别结果；将所述待识别行为视频集输入TSM网络模型，获取第二行为识别结果；基于所述第一行为识别结果和所述第二行为识别结果，获取所述原始行为视频的识别结果；其中，所述Slowfast网络模型和所述TSM网络模型是基于待识别样本行为视频集和待识别样本行为视频集的行为识别结果训练得到，所述待识别样本行为视频集是基于对原始样本行为视频进行数据预处理后得到。

本申请实施例提供的计算机程序产品被执行时，实现上述行为识别方法，其实施方式与本申请提供的行为识别方法的实施方式一致，且可以达到相同的有益效果，此处不再赘述。

又一方面，本申请还提供一种非暂态计算机可读存储介质，下面对本申请提供的非暂态计算机可读存储介质进行描述，下文描述的非暂态计算机可读存储介质与上文描述的行为识别方法可相互对应参照。

本申请还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的行为识别方法，该方法包括：对原始行为视频进行数据预处理，获取待识别行为视频集；将所述待识别行为视频集输入Slowfast网络模型，获取第一行为识别结果；将所述待识别行为视频集输入TSM网络模型，获取第二行为识别结果；基于所述第一行为识别结果和所述第二行为识别结果，获取所述原始行为视频的识别结果；其中，所述Slowfast网络模型和所述TSM网络模型是基于待识别样本行为视频集和待识别样本行为视频集的行为识别结果训练得到，所述待识别样本行为视频集是基于对原始样本行为视频进行数据预处理后得到。

本申请实施例提供的非暂态计算机可读存储介质上存储的计算机程序被执行时，实现上述行为识别方法，其实施方式与本申请提供的行为识别方法的实施方式一致，且可以达到相同的有益效果，此处不再赘述。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种行为识别方法，其特征在于，包括：

对原始行为视频进行数据预处理，获取待识别行为视频集；

2.根据权利要求1所述的行为识别方法，其特征在于，对原始行为视频进行数据预处理，获取待识别行为视频集，包括：对所述原始行为视频依次进行视频长度处理、视频模式处理以及数据增强处理；

3.根据权利要求1所述的行为识别方法，其特征在于，将所述待识别行为视频集输入Slowfast网络模型，获取第一行为识别结果，包括：

4.根据权利要求3所述的行为识别方法，其特征在于，所述Slowfast网络模型包括Non-local模块和时空注意力模块，所述Slowfast网络模型以ELU函数作为激活函数。

5.根据权利要求1所述的行为识别方法，其特征在于，将所述待识别行为视频集输入TSM网络模型，获取第二行为识别结果，包括：

6.根据权利要求1所述的行为识别方法，其特征在于，基于所述第一行为识别结果和所述第二行为识别结果，获取所述原始行为视频的识别结果，包括：

7.根据权利要求1至6任一项所述的行为识别方法，其特征在于，在基于待识别样本行为视频集对所述Slowfast网络模型和所述TSM网络模型进行训练之后，还包括：

8.一种行为识别装置，其特征在于，包括：

9.根据权利要求8所述的行为识别装置，其特征在于，所述获取单元，用于对原始行为视频进行数据预处理，获取待识别行为视频集，包括：对所述原始行为视频依次进行视频长度处理、视频模式处理以及数据增强处理；所述获取单元包括：

10.根据权利要求8所述的行为识别装置，其特征在于，所述第一识别单元，用于：

11.根据权利要求8所述的行为识别装置，其特征在于，所述第二识别单元，用于：

12.根据权利要求8所述的行为识别装置，其特征在于，所述第三识别单元，用于：

13.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述行为识别方法的步骤。

14.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述行为识别方法的步骤。