CN111310516A

CN111310516A - 一种行为识别方法和装置

Info

Publication number: CN111310516A
Application number: CN201811510291.3A
Authority: CN
Inventors: 卜英家; 谭文明
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2018-12-11
Filing date: 2018-12-11
Publication date: 2020-06-19
Anticipated expiration: 2038-12-11
Also published as: CN111310516B

Abstract

本申请提供一种行为识别方法和装置，该方法包括：将预设数量的连续视频帧输入预先训练的2D卷积神经网络，以得到所述视频帧的表观特征；将所述视频帧的表观特征输入预先训练的1D卷积神经网络，以得到所述视频帧的时空特征；将所述视频帧的时空特征输入预先训练的分类网络，以得到所述视频帧的行为识别结果。该方法可以提高行为识别的效率。

Description

一种行为识别方法和装置

技术领域

本申请涉及计算机视觉领域技术，尤其涉及一种行为识别方法和装置。

背景技术

计算机视觉是使用计算机及相关设备对生物视觉的一种模拟。它的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的三维信息，行为识别属于计算机视觉领域的一个热门的研究方向。

目前的行为识别方案主要通过将连续视频帧(一般为RGB(Red，Green，Blue，红绿蓝)图像)送入3D卷积神经网络，基于3D卷积进行视频帧的时空特征提取，然后送入分类器进行行为识别。

然而实践发现，上述行为识别方案计算量大，且3D卷积神经网络模型参数多，难以训练。

发明内容

有鉴于此，本申请提供一种行为识别方法和装置。

具体地，本申请是通过如下技术方案实现的：

根据本申请实施例的第一方面，提供一种行为识别方法，包括：

将预设数量的连续视频帧输入预先训练的2D卷积神经网络，以得到所述视频帧的表观特征；

将所述视频帧的表观特征输入预先训练的1D卷积神经网络，以得到所述视频帧的时空特征；

将所述视频帧的时空特征输入预先训练的分类网络，以得到所述视频帧的行为识别结果。

根据本申请实施例的第二方面，提供一种行为识别装置，包括：

表观特征提取单元，用于将预设数量的连续视频帧输入预先训练的2D卷积神经网络，以得到所述视频帧的表观特征；

时序特征提取单元，用于将所述视频帧的表观特征输入预先训练的1D卷积神经网络，以得到所述视频帧的时空特征；

行为识别单元，用于将所述视频帧的时空特征输入预先训练的分类网络，以得到所述视频帧的行为识别结果。

根据本申请实施例的第三方面，提供一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述行为识别方法。

根据本申请实施例的第四方面，提供一种机器可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述行为识别方法。

本申请实施例的行为识别方法，通过将预设数量的连续视频帧输入预先训练的2D卷积神经网络，以得到该预设数量的连续视频帧的表观特征，并将该预设数量的连续视频帧的表观特征输入预先训练的1D卷积神经网络，以得到该预设数量的连续视频帧的时空特征，进而，可以将该预设数量的连续视频帧的时空特征输入预先训练的分类网络，以得到该预设数量的连续视频帧的行为识别结果，通过将2D卷积神经网络和1D卷积神经网络进行组合，不仅可以有效地进行时空特征的提取，且模型参数量较少，易于训练，从而可以提高行为识别的效率。

附图说明

图1是本申请一示例性实施例示出的一种行为识别方法的流程图；

图2是本申请一示例性实施例示出的一种级联卷积神经网络训练方法的流程图；

图3A是本申请一示例性实施例示出的一种表观特征提取的示意图；

图3B是本申请一示例性实施例示出的一种时序特征提取的示意图；

图3C是本申请一示例性实施例示出的一种行为识别的示意图；

图4是本申请一示例性实施例示出的一种行为识别装置的结构示意图；

图5是本申请又一示例性实施例示出的一种行为识别装置的结构示意图；

图6是本申请又一示例性实施例示出的一种行为识别装置的结构示意图；

图7是本申请一示例性实施例示出的一种电子设备的硬件结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

为了使本领域技术人员更好地理解本申请实施例提供的技术方案，并使本申请实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本申请实施例中技术方案作进一步详细的说明。

请参见图1，为本申请实施例提供的一种行为识别方法的流程示意图，其中，该行为识别方法可以应用于视频监控的后台服务器，如图1所示，该方法可以包括以下步骤：

步骤S100、将预设数量的连续视频帧输入预先训练的2D卷积神经网络，以得到该预设数量的连续视频帧的表观特征。

本申请实施例中，当需要对视频进行行为识别时，可以将该视频的预设数量(可以根据实际需求设定，如8帧、16帧等)的连续视频帧输入预先训练的2D卷积神经网络，以得到该预设数量的连续视频帧的表观特征(即空间特征)。

其中，对于一帧视频图像，其通过上述预先训练的2D卷积神经网络进行提取得到的表观特征的空间维度为1，即对于一帧视频图像通过2D卷积神经网络进行表观特征提取之后，可以得到一个C维的向量，可以表示为1*C*1*1(即宽和高均为1)；其中，C为该提取的表观特征的通道数。

步骤S110、将该预设数量的连续视频帧的表观特征输入预先训练的1D卷积神经网络，以得到该预设数量的连续视频帧的时空特征。

本申请实施例中，提取到预设数量的连续视频帧的表观特征之后，为了实现行为识别，还需要提取该预设数量的连续视频帧的时序特征。

本申请实施例中，为了提高时序特征的提取效率，可以通过1D卷积神经网络进行时序特征的提取。

相应地，在提取到预设数量的连续视频帧的表观特征之后，可以将该预设数量的连续视频帧的表观特征输入到预先训练的1D卷积神经网络，获取该预设数量的连续视频帧的表观特征之间的时序特征，以得到该预设数量的连续视频帧的时空特征。

步骤S120、将该预设数量的连续视频帧的时空特征输入预先训练的分类网络，以得到该预设数量的连续视频帧对应的行为识别结果。

本申请实施例中，在提取到预设数量的连续视频帧的时空特征之后，可以将该预设数量的连续视频帧的时空特征输入预先训练的分类网络，进行行为识别，以得到该预设数量的连续视频帧的行为识别结果。

在本申请其中一个实施例中，上述将该预设数量的连续视频帧的时空特征输入预先训练的分类网络，以得到该预设数量的连续视频帧的行为识别结果，可以包括：

将该预设数量的连续视频帧的时空特征输入分类网络的全连接层，以得到该预设数量的连续视频帧的多个特征值；其中，该多个特征值与分类网络的支持识别的行为类别一一对应，且特征值的数值越大，该预设数量的连续视频帧的行为识别结果中该特征值对应的行为类别的概率越大；

将该预设数量的连续视频帧的多个特征值输入分类网络的softmax层，以得到该预设数量的连续视频帧的行为识别结果中各行为类别的置信度。

在该实施例中，分类网络可以包括全连接层和softmax层。

在提取到该预设数量的连续视频帧的时空特征，可以将该预设数量的连续视频帧的时空特征输入到分类网络的全连接层；该分类网络的全连接层可以输出该预设数量的连续视频帧的多个特征值。

举例来说，假设分类网络支持识别10种行为类别，则将该预设数量的连续视频帧的时空特征输入到分类网络的全连接层之后，分类网络的全连接层会输出10个特征值，该10个特征值分别与分类网络支持识别的10种行为类别一一对应，且特征值越大，该预设数量的连续视频帧的行为识别结果中该特征值对应的行为类别的概率越大。

例如，假设分类网络的全连接层输出的10个特征值分别为T1～T10，该10个特征值对应的行为类别分别为L1～L10，且T1～T10中T3最大，T5最小，则该预设数量的连续视频帧对应的行为是L3的概率最高，L5的概率最小。

在该实施例中，对于分类网络的全连接层输出的多个特征值，可以进一步输入分类网络的softmax层进行归一化处理，以得到该预设数量的连续视频帧的行为识别结果中各行为类别的置信度。

可见，在图1所示的方法流程，通过利用2D卷积神经网络提取表观特征，利用1D卷积神经网络提取时序特征的方法，将2D卷积神经网络和1D卷积神经网络进行组合，不仅可以有效地进行时空特征的提取，且模型参数量较少，易于训练，从而可以提高行为识别的效率。

请参见图2，在本申请其中一个实施例中，级联的上述2D卷积神经网络、1D卷积神经网络以及分类网络通过以下方式进行训练得到：

步骤S100a、对于训练集中的任一训练样本，将其输入2D卷积神经网络，以得到该训练样本的表观特征。

本申请实施例中，在通过级联的上述2D卷积神经网络、1D卷积神经网络以及分类网络进行行为识别之前，需要使用包括一定数量(可以根据实际场景设定)的训练样本的训练集对上述2D卷积神经网络、1D卷积神经网络以及分类网络进行训练，直至网络收敛，再进行行为识别任务。

相应地，在该实施例中，对于训练集中的任一训练样本，可以利用2D卷积神经网络提取该训练样本中各视频帧的表观特征。

其中，训练样本可以为标注有实际行为的预设数量的连续视频帧。

步骤S100b、将该训练样本的表观特征输入1D卷积神经网络，以得到该训练样本的时空特征。

在该实施例中，在提取到训练样本中各视频帧的表观特征之后，还可以通过1D卷积神经网络提取各视频帧之间的时序特征，以得到训练样本中各视频帧的时空特征。

步骤S100c、将该训练样本的时空特征输入分类网络，以得到该训练样本的行为识别结果。

在该实施例中，在提取到训练样本中各视频帧的时空特征之后，可以将该训练样本中各视频帧的时空特征输入分类网络，进行行为识别，以得到该训练样本的行为识别结果。

在该实施例中，通过步骤S100a～步骤S100c描述的方式对训练集中各训练样本进行了行为识别之后，可以统计该训练集的行为识别结果准确率，即该训练集中行为识别正确的训练样本的数量与训练集中训练样本的数量的比值。

其中，对于训练集中的任一训练样本，当通过级联的上述2D卷积网络、1D卷积网络以及分类网络的网络组合进行行为识别的行为识别结果中置信度最高的行为类别与预先标注的训练样本的实际行为匹配时，确定该训练样本的行为识别正确；否则，确定该训练样本的行为识别不正确。

当训练集中的训练样本的行为识别结果准确率满足要求时，可以将上述2D卷积网络、1D卷积网络以及分类网络用于行为识别任务。

进一步地，在该实施例中，为了提高级联的上述2D卷积网络、1D卷积网络以及分类网络的识别精度，上述步骤S100c之后，还可以包括：

根据训练集中的训练样本的行为识别结果准确率，对级联的2D卷积神经网络、1D卷积神经网络以及分类网络的网络组合进行参数优化，直至训练集中的训练样本的行为识别结果准确率增长幅度小于预设阈值(可以称为第一阈值)。

具体地，在该实施例中，通过级联的2D卷积神经网络、1D卷积神经网络以及分类网络的网络组合对训练集中各训练样本进行了行为识别之后，可以统计训练集中训练样本的行为识别结果准确率。

举例来说，假设训练集中包括100个训练样本，假设按照上述步骤S100a～步骤S100c描述的方式对训练集中该100个训练样本进行行为识别的行为识别结果中90个训练样本的行为识别结果与训练样本预先标注的实际行为相匹配，则该训练集种训练样本的行为识别结果准确率为90％(90/100*100％＝90％)。

在该实施例中，可以将训练集中训练样本反复输入上述级联的2D卷积神经网络、1D卷积神经网络以及分类网络的网络组合，根据反馈的训练集中训练样本的行为结果识别准确率对该网络组合进行参数优化，并确定当次参数优化后相对当次参数优化前的行为识别结果准确率的增长幅度，若该增长幅度大于等于预设阈值，则可以继续进行参数优化；若该增长幅度小于预设阈值，则确定该网络组合训练完成。

在一个示例中，上述对级联的2D卷积神经网络、1D卷积神经网络以及分类网络的网络组合进行参数优化，可以包括：

对2D卷积神经网络、1D卷积神经网络和/或分类网络的模型参数进行优化。

进一步地，在该实施例中，考虑到目前基于视频的训练数据较少，且标定成本较高，为了避免由于视频训练数据不足，导致模型难以训练的问题，降低上述级联的2D卷积神经网络、1D卷积神经网络以及分类网络的组合网络的训练复杂度，可以在对上述级联的2D卷积神经网络、1D卷积神经网络以及分类网络的组合网络进行训练之前，可以先对2D卷积神经网络进行预训练，以更好地初始化2D卷积神经网络的模型参数。

相应地，在一个示例中，对级联的2D卷积神经网络、1D卷积神经网络以及分类网络进行训练之前，还可以包括：

基于ImageNet(图片分类数据集)对2D卷积神经网络进行预训练。

在该示例中，为了更好地初始化2D卷积神经网络的模型参数，提高级联的2D卷积神经网络、1D卷积神经网络以及分类网络的训练效率，在对级联的2D卷积神经网络、1D卷积神经网络以及分类网络进行训练之前，可以先基于ImageNet对2D卷积神经网络进行训练，直至2D卷积神经网络的图像分类准确率的增长幅度小于预设阈值(可以称为第二阈值)。

本申请实施例中，当按照上述步骤S100a～步骤S100d描述的方式完成对上述级联的2D卷积神经网络、1D卷积神经网络以及分类网络的训练之后，可以利用训练好的2D卷积神经网络、1D卷积神经网络以及分类网络按照步骤S100～步骤S130所示的方法流程进行行为识别。

为了使本领域技术人员更好地理解本发明实施例提供的技术方案，下面结合具体实例对本申请实施例提供的技术方案进行说明。

在该实施例中，行为识别过程可以依次包括表观特征提取、时序特征提取以及行为识别，下面分别进行说明。

1、表观特征提取

在该实施例中，请参见图3A，对于每帧图像，可以采用2D卷积神经网络进行表观特征提取，最终将每帧图像空间维度降为1*1：即一帧图像原始大小为Cin*H*W，经过2D卷积神经网络进行表观特征提取后大小为Cout*1*1。

利用该表观特征提取方法，可以对连续N(N为大于1的正整数)帧视频帧进行表观特征提取，2D卷积神经网络的输入为N*Cin*H*W，输出为N*Cout*1*1。

其中，N表示输入图像的帧数，Cin表示输入图像每帧的通道数(如RGB图像的通道数为3)，Cout为提取的表观特征的通道数(可以根据实际需求设置，如512或1024等)。

需要说明的是，提取的表观特征的通道数越多，后续流程中运算量越大，而识别准确率也一般会越高，因此，在设置该提取的表观特征的通道数时，可以均衡识别准确率和运算量设置，其具体实现在此不做赘述。

2、时序特征提取

将步骤1中获得的连续N帧视频帧中每帧图像的表观特征进行1D卷积，以提取时序特征，最终得到连续N帧视频帧的时空特征，其示意图可以如图3B所示。

其中，为了进行时序特征提取，可以先将步骤1输出的N*Cin(即步骤1中的Cout)*1*1重新排序(reshape)为Cin*N，然后利用1D卷积神经网络进行时序特征提取，最终连续N帧视频帧的时空特征表达为Cout*1。

其中，N表示输入图像的帧数，Cin表示输入图像进行表观特征提取后每帧的通道数(如512或1024等)，Cout为最终提取后的时空特征的通道数(可以根据实际需求设定，如512或1024等)。

3、行为识别

对提取的连续N帧视频帧的时空特征，可以通过分类网络进行行为识别。

其中，可以通过将所提取的时空特征输入全连接层，以得到视频帧的多个特征值，并将该多个特征值输入softmax层进行归一化处理，以得到视频帧的行为识别结果中各行为类别的置信度。

其中，对连续N帧视频帧的行为识别的完整流程可以参见图3C。

本申请实施例中，通过将预设数量的连续视频帧输入预先训练的2D卷积神经网络，以得到该预设数量的连续视频帧的表观特征，并将该预设数量的连续视频帧的表观特征输入预先训练的1D卷积神经网络，以得到该预设数量的连续视频帧的时空特征，进而，可以将该预设数量的连续视频帧的时空特征输入预先训练的分类网络，以得到该预设数量的连续视频帧的行为识别结果，通过将2D卷积神经网络和1D卷积神经网络进行组合，不仅可以有效地进行时空特征的提取，且模型参数量较少，易于训练，从而可以提高行为识别的效率。

以上对本申请提供的方法进行了描述。下面对本申请提供的装置进行描述：

请参见图4，为本申请实施例提供的一种行为识别装置的结构示意图，如图4所示，该行为识别装置可以包括：

表观特征提取单元410，用于将预设数量的连续视频帧输入预先训练的2D卷积神经网络，以得到所述视频帧的表观特征；

时序特征提取单元420，用于将所述视频帧的表观特征输入预先训练的1D卷积神经网络，以得到所述视频帧的时空特征；

行为识别单元430，用于将所述视频帧的时空特征输入预先训练的分类网络，以得到所述视频帧的行为识别结果。

在一种可选的实施方式中，所述表观特征提取单元410，还用于对于训练集中的任一训练样本，将其输入所述2D卷积神经网络，以得到该训练样本的表观特征；

所述时序特征提取单元420，还用于将该训练样本的表观特征输入所述1D卷积神经网络，以得到该训练样本的时空特征；

所述行为识别单元430，还用于将该训练样本的时空特征输入所述分类网络，以得到该训练样本的行为识别结果。

在一种可选的实施方式中，如图5所示，所述装置还包括：

参数优化单元440，用于根据所述训练集中的训练样本的行为识别结果准确率，对级联的所述2D卷积神经网络、所述1D卷积神经网络以及所述分类网络的网络组合进行参数优化，直至所述训练集中的训练样本的行为识别结果准确率增长幅度小于预设阈值。

在一种可选的实施方式中，所述参数优化单元440，具体用于对所述2D卷积神经网络、所述1D卷积神经网络和/或所述分类网络的模型参数进行优化。

在一种可选的实施方式中，如图6所示，所述装置还包括：

预训练单元450，用于在对级联的所述2D卷积神经网络、1D卷积神经网络以及分类网络进行训练之前，基于ImageNet对所述2D卷积神经网络进行预训练。

在一种可选的实施方式中，所述行为识别单元430，具体用于将所述视频帧的时空特征输入所述分类网络的全连接层，以得到所述视频帧的多个特征值；其中，所述多个特征值与所述分类网络的支持识别的行为类别一一对应，且所述特征值的数值越大，所述视频帧的行为识别结果中该特征值对应的行为类别的概率越大；将所述视频帧的多个特征值输入所述分类网络的softmax层，以得到所述视频帧的行为识别结果中各行为类别的置信度。

请参见图7，为本申请实施例提供的一种电子设备的硬件结构示意图。该电子设备可以包括处理器701、通信接口702、存储器703和通信总线704。处理器701、通信接口702以及存储器703通过通信总线704完成相互间的通信。其中，存储器703上存放有计算机程序；处理器701可以通过执行存储器703上所存放的程序，执行上文描述的行为识别方法。

本文中提到的存储器703可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，存储器702可以是：RAM(Radom AccessMemory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等)，或者类似的存储介质，或者它们的组合。

本申请实施例还提供了一种存储有计算机程序的机器可读存储介质，例如图7中的存储器703，所述计算机程序可由图7所示电子设备中的处理器701执行以实现上文描述的行为识别方法。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种行为识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，级联的所述2D卷积神经网络、1D卷积神经网络以及分类网络通过以下方式训练得到：

对于训练集中的任一训练样本，将其输入所述2D卷积神经网络，以得到该训练样本的表观特征；

将该训练样本的表观特征输入所述1D卷积神经网络，以得到该训练样本的时空特征；

将该训练样本的时空特征输入所述分类网络，以得到该训练样本的行为识别结果。

3.根据权利要求2所述的方法，其特征在于，所述将该训练样本的时空特征输入所述分类网络之后，还包括：

根据所述训练集中的训练样本的行为识别结果准确率，对级联的所述2D卷积神经网络、所述1D卷积神经网络以及所述分类网络的网络组合进行参数优化，直至所述训练集中的训练样本的行为识别结果准确率增长幅度小于预设阈值。

4.根据权利要求3所述的方法，其特征在于，所述对级联的所述2D卷积神经网络、所述1D卷积神经网络以及所述分类网络的网络组合进行参数优化，包括：

对所述2D卷积神经网络、所述1D卷积神经网络和/或所述分类网络的模型参数进行优化。

5.根据权利要求2所述的方法，其特征在于，对级联的所述2D卷积神经网络、1D卷积神经网络以及分类网络进行训练之前，还包括：

基于图片分类数据集ImageNet对所述2D卷积神经网络进行预训练。

6.根据权利要求1所述的方法，其特征在于，所述将所述视频帧的时空特征输入预先训练的分类网络，以得到所述视频帧的行为识别结果，包括：

将所述视频帧的时空特征输入所述分类网络的全连接层，以得到所述视频帧的多个特征值；其中，所述多个特征值与所述分类网络的支持识别的行为类别一一对应，且所述特征值的数值越大，所述视频帧的行为识别结果中该特征值对应的行为类别的概率越大；

将所述视频帧的多个特征值输入所述分类网络的softmax层，以得到所述视频帧的行为识别结果中各行为类别的置信度。

7.一种行为识别装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，

所述表观特征提取单元，还用于对于训练集中的任一训练样本，将其输入所述2D卷积神经网络，以得到该训练样本的表观特征；

所述时序特征提取单元，还用于将该训练样本的表观特征输入所述1D卷积神经网络，以得到该训练样本的时空特征；

所述行为识别单元，还用于将该训练样本的时空特征输入所述分类网络，以得到该训练样本的行为识别结果。

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

参数优化单元，用于根据所述训练集中的训练样本的行为识别结果准确率，对级联的所述2D卷积神经网络、所述1D卷积神经网络以及所述分类网络的网络组合进行参数优化，直至所述训练集中的训练样本的行为识别结果准确率增长幅度小于预设阈值。

10.根据权利要求9所述的装置，其特征在于，

所述参数优化单元，具体用于对所述2D卷积神经网络、所述1D卷积神经网络和/或所述分类网络的模型参数进行优化。

11.根据权利要求8所述的装置，其特征在于，所述装置还包括：

预训练单元，用于在对级联的所述2D卷积神经网络、1D卷积神经网络以及分类网络进行训练之前，基于图片分类数据集ImageNet对所述2D卷积神经网络进行预训练。

12.根据权利要求7所述的装置，其特征在于，

所述行为识别单元，具体用于将所述视频帧的时空特征输入所述分类网络的全连接层，以得到所述视频帧的多个特征值；其中，所述多个特征值与所述分类网络的支持识别的行为类别一一对应，且所述特征值的数值越大，所述视频帧的行为识别结果中该特征值对应的行为类别的概率越大；将所述视频帧的多个特征值输入所述分类网络的softmax层，以得到所述视频帧的行为识别结果中各行为类别的置信度。