CN110210344A

CN110210344A - 视频动作识别方法及装置、电子设备、存储介质

Info

Publication number: CN110210344A
Application number: CN201910419763.2A
Authority: CN
Inventors: 倪烽; 易阳; 赵世杰; 邱日明; 李峰; 左小祥
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-05-20
Filing date: 2019-05-20
Publication date: 2019-09-06

Abstract

本申请的实施例揭示了一种视频动作识别方法及装置，该方法包括：获取视频流中视频图像序列在空间和设定通道上抽取的原始特征，所述原始特征是所述视频图像序列在时间、空间和通道维度上的特征联合表示；对所述原始特征进行所述通道维度和时间维度的分离处理，获得所述视频图像序列的分离特征；汇合所述分离特征与所述原始特征，获得所述视频图像序列的目标特征；根据所述目标特征识别所述视频图像序列中包含的动作，获得动作识别结果。采用该方法能够对视频流中包含的动作进行准确识别。

Description

视频动作识别方法及装置、电子设备、存储介质

技术领域

本申请涉及图像处理技术领域，具体而言，涉及一种视频动作识别方法及装置、电子设备、计算机可读存储介质。

背景技术

在行为识别领域，对实时视频的动作识别有着重要意义，例如在手语翻译场景中，利用实时视频的动作识别方案能够极大减少手语翻译对于人工的依赖，从而解放人力。

在现有实现中，一般通过人工智能算法实现对实时视频的动作识别，通常使用的人工智能算法是TSN(Temporal Segment Networks，时间段网络)算法，其原理是将输入的视频按相等间隔分为若干短片段，然后利用段共识函数结合多个短片段的类别得分得到多个短片段之间关于类别假设的共识，最后基于这个共识，利用预测函数预测整个视频属于每种动作类型的概率。

TSN算法虽然能够实现对实时视频的动作识别，但其在执行动作识别的过程中对时域信息利用不充分，导致对动作识别的准确度不高。

发明内容

为了解决现有技术对实时视频进行动作识别的准确度不高的问题，本申请的实施例提供了一种视频动作识别方法及装置、电子设备、计算机可读存储介质，以实现对实时视频中所包含动作的识别。

其中，本申请所采用的技术方案为：

一种视频动作识别方法，包括：获取视频流中视频图像序列在空间和设定通道上抽取的原始特征，所述原始特征是所述视频图像序列在时间、空间和通道维度上的特征联合表示；对所述原始特征进行所述通道维度和时间维度的分离处理，获得所述视频图像序列的分离特征；汇合所述分离特征与所述原始特征，获得所述视频图像序列的目标特征；根据所述目标特征识别所述视频图像序列中包含的动作，获得动作识别结果。

一种视频动作识别装置，包括：原始特征获取模块，用于获取视频流中视频图像序列在空间和设定通道上抽取的原始特征，所述原始特征是所述视频图像序列在时间、空间和通道维度上的特征联合表示；分离处理模块，用于对所述原始特征进行所述通道维度和时间维度的分离处理，获得所述视频图像序列的分离特征；特征汇合模块，用于汇合所述分离特征与所述原始特征，获得所述视频图像序列的目标特征；动作识别模块，用于根据所述目标特征识别所述视频图像序列中包含的动作，获得动作识别结果。

一种电子设备，包括处理器和存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如上所述的视频动作识别方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的视频动作识别方法。

在本申请的技术方案中，视频流是指正在进行传输的实时视频，在获取到视频流中视频图像序列的原始特征后，通过对原始特征进行通道维度和时间维度的分离处理，以及通过汇合分离处理所得分离特征与原始特征得到目标特征，使得视频图像序列的视频特征信息能够在目标特征的时间维度上得到增强表达。

由于视频流中的动作由连续的视频图像体现，因此视频流中的动作对时间维度上表达的视频特征信息十分敏感，本申请在根据目标特征执行的视频动作识别中，能够根据目标特征在时间维度上对视频特征信息的增强表达，对视频流中的动作进行准确识别。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是本申请所涉及的实施环境的示意图；

图2是图1中视频动作识别网络模型的结构示意图；

图3是根据一示例性实施例示出的一种视频动作识别方法的流程图；

图4是根据另一示例性实施例示出的一种视频动作识别方法的流程图；

图5是图4对应实施例中步骤230在一个实施例的流程图；

图6是图3对应实施例中步骤130在一个实施例的流程图；

图7是根据一示例性实施例示出的第一逐点卷积网络层对原始特征执行卷积计算的示意图；

图8是根据一示例性实施例示出的深度卷积网络层对中间特征执行卷积计算的示意图；

图9是根据一示例性实施例示出的第二逐点卷积网络层对分离特征执行卷积计算的示意图；

图10是根据另一示例性实施例示出的一种视频动作识别方法的流程图；

图11是图2中时序增强模块在一个实施例中的结构示意图；

图12是根据一示例性实施例示出的一种视频动作识别装置的框图；

图13是根据一示例性实施例示出的一种电子设备的硬件框图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述，这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

图1是本申请所涉及的一种实施环境的示意图。其中，视频图像序列包括按照时间顺序从进行视频动作识别的视频流中依次抽取的若干视频图像，正如图1所示出的，视频图像序列中每一视频图像的图像内容都包含着相应的姿势，由每一视频图像中的姿势构成视频图像序列所包含的动作。

视频动作识别网络模型是根据本申请所揭示视频动作识别方法对应构建的网络模型，视频动作识别网络模型根据每一视频图像的图像内容来完成对视频图像序列所包含动作的识别。

通过将视频图像序列输入视频动作识别网络模型中，使得视频动作识别网络模型对视频图像序列中包含的动作进行识别，并输出相应的动作识别结果。示例性的，如图1所示出的，视频动作识别网络模型所输出的动作识别结果包括可能性最高的五种动作类型以及每种动作类型对应的概率。

视频流中通常包含抽取得到的若干视频图像序列，通过将各个视频图像序列依次输入视频动作识别网络模型中，以此来面向整个视频流完成动作识别。

在一示例性的应用场景中，输入视频动作识别网络模型中的视频图像序列从实时手语视频中抽取得到，根据视频动作识别网络模型输出的动作识别结果，能够实现视频中手语的实时翻译，无需人工参与。

在另一示例性的应用场景中，输入视频动作识别网络模型中的视频图像序列是从直播平台或者视频聊天工具输出的实时视频流中抽取得到，以对直播用户或者视频聊天用户的实时动作进行识别，增加直播或者视频聊天的趣味性。

图2是根据一示例性实施例示出的一种视频动作识别网络模型的结构示意图。在一个示例性实施例中，如图2所示，视频动作识别网络模型由主干网络(Backbone)层101、池化网络层102、时序增强模块103和全连接网络层104构成。

其中，主干网络层101用于抽取视频图像序列在空间和设定通道上的卷积特征；池化网络层102用于对视频图像序列的卷积特征进行特征压缩，得到视频图像序列的原始特征；时序增强模块103用于对原始特征进行时序增强处理，得到视频图像序列的目标特征；全连接网络层104则用于根据目标特征执行视频图像序列所包含动作的识别，输出相应的动作识别结果。

在一示例性实施例中，主干网络层101由依次连接的若干子网络层构成，例如在图2所示出的视频动作识别网络模型中，由依次连接的子网络层1-5构成主干网络101。示例性的，主干网络层101可以是ResNet-50卷积神经网络，还可以是MobileNet、ShuffleNet等轻量级的卷积神经网络，本处不进行限制。

图3是根据一示例性实施例示出的一种视频动作识别方法的流程图，该方法应用于图1和图2所示出的视频动作识别网络模型。如图3所示，该方法至少包括以下步骤：

步骤110，获取视频流中图像序列在空间和设定通道上抽取的原始特征，该原始特征是视频图像序列在时间、空间和通道维度上的特征联合表示。

如前所述，视频流中的视频图像序列包括按照时间顺序从进行视频动作识别的视频流中依次抽取的若干视频图像。通过对视频流中视频图像序列的动作识别，将得以实现视频流中动作的识别，因此在获得视频流之后，不再需要通过观看视频流来获知视频流所记录的事件以及行为动作等视频内容，这对于安全监控等场景尤为重要。

对批量获取得到的视频流，也能够基于本示例性实施例所实现的视频动作实时识别，对批量视频流中包含的动作进行快速识别，进而快速得到相应的动作识别结果。

在需要对视频流实现视频动作识别的任意场景下，对于所得到的视频流，都将对此视频流中的视频图像序列在空间和设定通道上抽取原始特征，以获取原始特征来进行视频图像序列的视频动作识别。

通过从每一视频图像中抽取视频图像的图像特征信息，并由这些图像特征信息共同构成视频图像序列的视频特征信息，从而得到视频图像序列在视频流中的视频特征表示，因此将视频图像序列在视频流中的视频特征表示称为视频图像序列的原始特征。

视频图像序列的原始特征，是通过在空间和设定通道上对视频图像序列进行特征抽取所得到。视频图像序列所对应空间理解为是视频图像序列中每一视频图像的图像大小信息，示例性的，视频图像的图像大小信息表示为视频图像的分辨率，假设视频图像的分辨率为2048×1024，则表示视频图像的高为2048像素，宽为1024像素。

设定通道则是由执行视频图像序列的原始特征抽取的神经网络层所决定，神经网络层中用于执行原始特征抽取的神经元数量，即为神经网络层执行原始特征抽取的通道数量。

神经网络层对视频图像序列执行原始特征抽取，包括对视频图像序列中每一视频图像所表示的图像信息执行神经元的相关计算，获得每一视频图像的图像特征的过程，还包括对每一视频图像的图像特征进行堆叠的过程。其中每一视频图像所表示的图像信息包括图像大小信息、每一图像像素的颜色通道信息等。

堆叠每一视频图像的图像特征是将各个图像特征叠加到一起，以得到信息量更多的图像特征。该图像特征中包含有每一视频图像的图像特征，则将该图像特征作为视频图像序列的原始特征。

在原始特征中，每一图像特征按照对应视频图像抽取的时间序列依次叠加，以此形成原始特征的时间维度。并且在图像特征的叠加中，各图像特征在空间和通道上不发生改变，因此可以得出，原始特征是视频图像序列在时间、空间和通道维度上的特征联合表示。

示例性的，视频图像序列的原始特征可以用四阶张量(H,W,C,T)进行表示，其中“H”和“W”表示原始特征的空间维度，“C”表示原始特征的通道维度，“T”表示原始特征的时间维度。

还应当说明的是，本实施例是基于视频图像序列的原始特征所执行的视频动作识别，因此只要获取到视频图像序列的原始特征后，即可实施本实施例描述的视频动作识别方法。

也即是说，任意神经网络层执行原始特征抽取而输出原始特征后，通过步骤110的执行即可发起视频图像序列所包含动作的识别，进而使得本实施例所实现的视频动作识别能够兼容到任意神经网络层所存在的神经网络架构中，具备非常优秀的通用性。

步骤130，对原始特征进行通道维度和时间维度的分离处理，获得视频图像序列的分离特征。

其中，通过步骤110的执行获得了视频图像序列在时间、空间和通道维度上的特征联合表示，即获得了视频图像序列的原始特征，但由于此原始特征只是对视频图像序列中每一视频图像的图像特征的简单堆叠，无法表示每一图像特征之间的关联，从而无法从整体层面反映视频图像序列的视频特征信息，影响视频动作识别的准确度，因此需要对原始特征进行通道和时间维度的分离处理，以增强视频特征信息与每一图像特征之间的关联性。

对视频图像序列的原始特征进行通道维度和时间维度的分离处理是指，先通过对原始特征进行时间维度上的特征抽取，获得对原始特征分离出时间维度的特征表示，然后对该分离出时间维度的特征表示进行通道维度上的特征抽取，从而得到视频图像序列的分离特征。

由此可知，视频图像序列的分离特征是通过对原始特征依次进行时间维度和通道维度上的特征抽取所得到的，相对视频图像序列的原始特征，分离特征所表达视频图像序列的视频特征信息在通道维度和时间维度上实现了分离。

本实施例通过对原始特征依次进行时间维度和通道维度上的特征抽取，使得每一视频图像所对应的图像特征分别在时间维度和空间维度上建立关联，使得分离特征能够整体上表达视频图像序列的视频特征信息，增强了视频特征信息在时间维度上的特征表达，有利于提升视频动作识别的准确度。

步骤150，汇合分离特征和原始特征，获得视频图像序列的目标特征。

如前所述，通过分离特征建立了每一视频图像所对应图像特征之间的关联性，从而能够在整体上表达视频图像序列的视频特征信息，而原始特征更多地保留了每一视频图像自身的图像特征，如果根据分离特征和原始特征共同执行视频动作识别，能够最大限度保证识别准确度。因此，有必要执行分离特征和原始特征的汇合处理。

汇合视频图像序列的分离特征和原始特征是指，将分离特征和原始特征相加，所得到的特征和即为视频图像序列的目标特征。分离特征与原始特征可以直接相加，还可以根据预设权重计算分离特征和原始特征的加权和，本处不对此进行限制。

由于目标特征是经由分离特征和原始特征相加得到的，因此目标特征中融合有分离特征和原始特征所分别表达的视频特征信息。也即是说，目标特征不仅表达每一视频图像自身的图像特征信息，还表达每一视频图像之间的关联特征信息，能够在整体上最大限度地表达视频图像序列的视频特征信息，从而实现视频动作的准确识别。

步骤170，根据目标特征识别视频图像序列中包含的动作，获得动作识别结果。

其中，根据目标特征所执行的视频动作识别是将目标特征映射至样本标记空间，相应获得目标特征指向样本标记空间中各样本标记类型的概率的过程，以得到相应的动作识别结果。在本实施例中，样本标记空间为预先设置的动作类型。

在图2所示视频动作识别网络模型中，对目标特征所进行的视频动作识别是由全连接网络层104执行的，全连接网络层104在整个视频动作识别网络模型中起到“分类器”作用，输出目标特征所对应的动作识别结果。步骤110至步骤150所描述的内容由时序增强模块103执行，通过时序增强模块103对原始特征进行时序增强处理，使得视频图像序列的视频特征信息在时间维度上得到增强表示，从而得到在整体上表达视频图像序列的视频特征信息的目标特征。

此外，本实施例中步骤110至步骤150所描述的内容可以作为一独立程序实现对原始特征的时序增强处理，该独立程序可应用至任意的神经网络架构中，以对所输入的原始特征执行时序增强处理，并输出在整体上表达视频图像序列的视频特征信息的目标特征。

对视频流来说，由于其中所包含的动作由连续的视频图像进行体现，视频流所包含动作对时间维度上所表达的视频特征信息十分敏感，因此在根据目标特征执行的视频动作识别中，能够根据目标特征所表达的视频特征信息在时间维度上的增强表示，对视频流所包含的动作进行准确识别。

由此，通过本实施例所提供的方法，能够对实时视频中包含的动作进行准确识别。

图4是根据另一示例性实施例所示出的一种视频动作识别方法的流程图。如图4所示，在执行步骤110之前，该视频动作识别方法至少还包括以下步骤：

步骤210，在进行视频动作识别的视频流中抽取视频图像，形成视频图像序列。

如前所述的，在进行视频动识别的视频流中抽取视频图像是指，按照时间顺序从视频流中抽取若干视频图像，以形成视频图像序列。通过所进行的视频图像抽取，能够得到至少一视频图像序列。

在一示例性的实施例中，按照指定时间间隔从视频流中依次抽取指定数量的视频图像，由指定数量的视频图像构成视频图像序列。示例性的，假设视频图像序列中包含8张视频图像，在所进行的视频图像抽取中，按照指定时间间隔从视频流中依次抽取8张视频图像形成一视频图像序列后，继续执行下一视频图像序列所包含8张视频图像的抽取，直至视频流结束。

在另一示例性的实施例中，所抽取的视频图像为视频流中的关键帧，本处并不对此进行限定。

步骤230，对视频图像序列进行空间维度和通道维度上的特征抽取，获得原始特征，该原始特征在通道维度上输出对应于空间维度和时间维度的特征表示。

其中，对视频图像序列进行空间维度和通道维度上的特征抽取过程是指，使用卷积神经网络对视频图像序列中各视频图像的图像数据进行卷积计算，并按照时间顺序对卷积计算所得特征进行堆叠的过程，从而得到视频图像序列的原始特征。

如前所述的，原始特征的通道维度是执行卷积计算的卷积神经网络所赋予的，时间维度对应于视频图像序列中视频图像的数量，而空间维度对应于视频图像的图像大小信息，因此可以理解，视频图像序列的原始特征是在通道维度上输出的对应于空间维度和时间维度的特征表示。

如图5所示，在一示例性的实施例中，步骤230至少包括以下步骤：

步骤231，通过对视频图像序列中的视频图像进行空间维度和通道维度上的卷积计算，获得视频图像的卷积特征。

如前所述，对视频图像序列中的视频图像进行空间维度和通道维度上的卷积计算是由主干网络层执行的，即通过主干网络层所提供的卷积神经网络执行对视频图像序列中视频图像在空间和通道维度上的卷积计算，从而获得视频图像序列中各视频图像的卷积特征。

应当理解，各视频图像的卷积特征为主干网络层所输出的特征表示，这些特征表示的大小和数量均由主干网络层所提供卷积神经网络的自身性质决定。例如这些特征表示的大小由执行卷积计算的卷积核的大小决定，数量则由卷积核的数量决定，卷积核的数量也决定了主干网络层中所设置的输出通道数量。

步骤233，对卷积特征进行特征压缩，获得视频图像的卷积压缩特征。

其中，对视频图像的卷积特征进行特征压缩是由池化网络层执行的，池化网络层所执行特征压缩的实质是对卷积特征进行卷积计算的过程，其用于提取卷积特征中的重要特征，并减少视频动作识别网络模型后续所执行动作识别中的参数量。

示例性的，可以采用平均池化方法对视频图像的卷积特征进行特征压缩，以更多地保留视频图像的背景信息，有利于后续执行视频图像序列中所包含动作的识别。

步骤235，在时间维度上为视频图像序列进行卷积压缩特征的堆叠，生成原始特征。

其中，由于各视频图像是按照所抽取的时间顺序在视频图像序列中排列的，因此时间维度可以是指视频图像序列中各视频图像的排列顺序。

按照视频图像序列中各视频图像的排列顺序，将步骤233所得到的卷积压缩特征依次堆叠，即可生成视频图像序列的原始特征。原始特征的时间维度也可以理解为是各卷积压缩特征的堆叠顺序。

需要说明的是，池化网络层仅作用于卷积特征的空间维度，并不改变卷积特征的通道维度，因此在视频图像序列的原始特征中，其通道维度仍由主干网络层决定。

通过本实施例所提供的方法，能够获得视频流中视频图像序列在时间、空间和通道维度上联合表示的原始特征。

图6是图3对应实施例中步骤130在一个实施例的流程图。如图6所示，步骤130至少包括以下步骤：

步骤131，对原始特征进行时间维度上的特征抽取获得中间特征，该中间特征是对原始特征分离出时间维度的特征表示。

其中，对原始特征进行时间维度上的特征抽取是指，在原始特征的时间维度上通过第一逐点卷积网络层对原始特征进行卷积计算，并堆叠卷积计算所得特征表示，从而获得视频图像序列的中间特征的过程。

第一逐点卷积网络层所采用的卷积神经网络为Pointwise(逐点卷积神经网络)，逐点卷积神经网络中包含有逐点卷积核，并且各逐点卷积核通过在原始特征的时间维度上同时操作原始特征的每个通道，从而执行对原始特征的卷积计算。

在第一逐点卷积网络层中，逐点卷积核的尺寸为1×1×M，其中“M”表示输出原始特征对应的通道数量，即主干网络层中所设置的输出通道数量。逐点卷积核的数量可以预先设置，可以设置逐点卷积核的数量与输出原始特征对应的通道数量相同，也可以设置逐点卷积核的数量与输出原始特征对应的通道数量不同，本处不进行限制。

但需要说明的是，通过设置逐点卷积核的数量小于输出原始特征对应的通道数量，能够实现原始特征在通道维度上的降维处理，从而能够降低整个视频动作识别网络模型的参数量。

便于理解的，图7为一示例性实施例所示出的第一逐点卷积网络层对原始特征执行卷积计算的示意图。如图7所示，假设视频图像序列的原始特征表示为1×1×6×8，其中“1×1”表示原始特征的空间维度，“6”表示原始特征的通道维度，“8”表示原始特征的时间维度，该第一逐点卷积网络层中包括3个尺寸为1×1×6逐点卷积核。

在如图7所示的第一逐点卷积网络层中，各逐点卷积核分别执行对原始特征的卷积计算，并且各逐点卷积核所分别执行的卷积计算过程相同。以下将对其中一逐点卷积核所执行的卷积计算过程进行详细描述：

在原始特征的时间维度上，逐点卷积核每次取一个时间点执行对原始特征的卷积操作，相应得到中间特征在其中一个通道上的各个特征元素。由于逐点卷积核与原始特征在通道维度上相对应，因此在每一个时间点上，逐点卷积核可以对原始特征在对应时间点上的全部特征元素进行卷积计算，即逐点卷积核同时操作原始特征在对应时间点上的各个通道，并获得对应时间点上的特征表示。

由此，第一逐点卷积网络层中的各逐点卷积核分别对原始特征执行以上卷积计算，能够获得相应的特征表示。通过对这些特征表示依次堆叠，即可得到视频图像序列的中间特征。

从图7中可以看出，原始特征经由第一逐点卷积网络层执行卷积计算所得到的中间特征表示为1×1×3×8，中间特征在通道维度上与第一逐点卷积网络层中逐点卷积核的数量一致。与原始特征相比，中间特征虽然在通道维度上发生了变化，但时间维度保持不变，中间特征在时间维度上的特征元素之间相互分离，因此中间特征可以理解为是对原始特征分离出时间维度的特征表示。

步骤133，在中间特征的通道维度上，对中间特征进行特征抽取，获得视频图像序列的分离特征，该分离特征是对中间特征分离出通道维度的特征表示。

其中，在通道维度上对中间特征进行特征抽取的过程是指，通过深度卷积网络层对视频图像序列的中间特征进行卷积计算，再堆叠卷积计算所得特征表示的过程。

深度卷积网络层所采用的卷积神经网络为Depthwise(深度卷积神经网络)，这是一种特殊的分组卷积神经网络，其中所包含的深度卷积核的组数与中间特征在通道维度上的通道数量相同，以使得每一深度卷积核分别执行中间特征在通道维度上的深度卷积。

图8是根据一示例性实施例所示出的一种深度卷积网络层对中间特征执行卷积计算的示意图。如图8所示，仍假设第一逐点卷积网络层输出的中间特征表示为1×1×3×8，由于中间特征所对应的通道数为3，因此深度卷积网络层中包含有3个尺寸为1×1×3的深度卷积核。

深度卷积网络层分别为每一深度卷积核分配有相应的通道，例如图8所示，第一个深度卷积核对应于中间特征的最上层通道，第二个深度卷积核对应于中间特征的中间层通道，第三个深度卷积核对应于中间特征的最下层通道，以使得各深度卷积核分别执行中间特征在所分配通道上的卷积计算，并获得相应的特征表示。

通过堆叠深度卷积核进行卷积计算所得的特征表示，即可得到视频图像序列的分离特征，该分离特征表示为1×1×3×8。

可以看出，虽然深度卷积网络中的各深度卷积核分别执行中间特征在通道维度上的卷积计算，但并不改变中间特征的通道和时间维度，只是将中间特征在其通道维度上进行分离处理。由此，视频图像序列的分离特征可以理解为是对中间特征分离出通道维度的特征表示。

由于分离特征通过对中间特征执行通道维度上的特征提取所得结果，而中间特征是通过对原始特征执行时间维度上的特征提取所得到的，因此与视频图像序列的原始特征相比，分离特征增强了视频图像序列的视频特征信息在时间维度上的特征表达。

参照于深度可分离卷积(Depthwise Separable Convolution)，其将普通的卷积操作分解为Depthwise和Pointwise两个过程，对相应的特征表示实现通道和空间维度的分离，比普通卷积操作的参数量更少更高效。而本实施例依次通过Pointwise和Depthwise两个过程实现视频图像序列的原始特征在通道和时间维度上的分离处理得到分离特征，使得在原始特征和分离特征汇合得到的目标特征中，视频图像序列的视频特征信息在时间维度上得到增强表达，从而能够对视频图像序列所包含的动作进行准确识别。

此外，与普通卷积操作相比，本实施例依次通过Pointwise和Depthwise两个过程实现视频图像序列的分离特征的获取过程中，所需要的参数量也更少，且更高效。

在另一示例性的实施例中，由于第一逐点卷积网络层中逐点卷积核的数量与输出所述原始特征对应的通道数量不一致，会导致分离特征的通道维度与原始特征的通道维度并不相同，无法进行分离特征与原始特征的汇合。因此在得到视频图像序列的分离特征后，还需要通过第二逐点卷积网络层对分离特征进行卷积计算，以将分离特征的通道维度恢复至与原始特征相同。

第二逐点卷积网络层与第一逐点卷积网络层的结构和功能大致相同，均是采用逐点卷积核对分离特征在时间维度上执行卷积计算，但二者不同的是，由于分离特征的通道维度与原始特征不同，第二逐点卷积网络层中逐点卷积核的尺寸和数量均与第一逐点卷积网络层不同。

需要说明的是，第二逐点卷积网络层中逐点卷积核的数量应当与输出原始特征对应的通道数量相同，并且在逐点卷积核的尺寸中，“M”值与分离特征的通道数相同。

如图9所示，第二逐点卷积网络中包含有6个尺寸为1×1×3的逐点卷积核，各逐点卷积核分别执行分离特征在时间维度上的卷积计算，且将各卷积核计算所得特征表示堆叠得到分离特征′。所获得的分离特征′表示为1×1×3×8，其通道维度与视频图像序列的原始特征相同，因此对分离特征′和原始特征执行汇合操作。

本实施例通过第二逐点卷积网络层对视频图像序列的分离特征在通道维度上进行升维处理，获得通道维度与原始特征相同的分离特征′，以通过执行分离特征′与原始特征的汇合，得到视频图像序列的目标特征。

图10是根据另一示例性实施例提供的一种视频动作识别方法的流程图。如图10所示，在步骤110之后，该方法还包括步骤310：对原始特征在时间维度和通道维度上进行置换；以及在步骤150之后，该方法还包括步骤330：对目标特征在时间维度和通道维度上进行置换。

其中，对原始特征在时间维度和通道维度上进行置换是指，重新调整原始特征的行、列和维数，使得原始特征的时间维度和通道维度对调，以适应第一逐点卷积网络层对输入特征的形式要求。

同理，对目标特征在时间维度和通道维度上进行置换是指，重新调整目标特征的行、列和维数，使得目标特征的时间维度和通道维度对调，从而将视频图像序列的特征表示形式恢复至与原始特征相同，以满足下一网络层对输入特征的形式要求。

图11是根据一示例性实施例所示出的一种时序增强模块的结构示意图。将池化网络层所输出的原始特征表示为(B,T,C)，其中“B”表示原始特征的空间维度，时序增强模块通过reshape函数对原始特征执行时间维度和通道维度的置换，该原始特征经由置换后表示为(B,C,T)。通过将置换后的原始特征输入至第一逐点卷积网络层中，以满足第一逐点卷积网络层对输入特征的形式要求。

在将目标特征输出至全连接网络层之前，时序增强模块还通过另一reshape函数执行目标特征中时间维度和通道维度的置换，使得输入至全连接网络层中的目标特征的形式满足全连接层的要求。

还需要说明的是，在图11所示的时序增强模块中，直连通路用于表示视频图像序列的原始特征经由该直连通路与第二逐点卷积网络层所输出的目标特征相汇合。

在另一示例性的实施例中，视频动作识别方法还包括以下步骤：

分别对原始特征和目标特征进行归一化处理，使得原始特征经由归一化处理后执行通道维度和时间维度的分离处理，目标特征经由归一化处理后执行视频图像序列中所包含动作的识别。

其中，对原始特征和目标特征进行归一化处理是指，通过对原始特征和目标特征进行预处理，以使得原始特征和目标特征的均值和方差趋于稳定值。

仍如图11所示，对原始特征和目标特征进行的归一化处理，是由时序增强模块中的两个BN(Batch Normalization，批量标准化)网络层所分别执行的。原始特征经由BN网络层进行归一化处理后，再输出至第一逐点卷积网络层中执行通道维度和时间维度的分离。目标特征经由BN网络层进行归一化处理后，在输出至全连接网络层执行相应动作识别。

下面将以原始特征为示例来描述BN网络层对原始特征执行归一化处理的过程：

首先需要计算得到原始特征中各特征元素的均值和方差，以根据所得均值和方差对原始特征中的各特征元素进行归一化。其中对原始特征中各特征元素归一化的实质为，利用归一化函数对各特征元素进行计算，以得到相应的计算结果。此外还需要对计算结果按照一定规则进行线性变换，得到原始特征中各特征元素所对应的最终输出。

本实施例通过对视频图像序列的原始特征和目标特征的归一化处理，使得视频动作识别网络模型能够使用更高的学习率，从而具备快速收敛性，也在一定程度上增加了视频动作识别网络模型的泛化能力。

图12是根据一示例性实施例所示出的一种视频动作识别装置的框图。如图12所示，该装置包括原始特征抽取模块410、分离处理模块430、特征汇合模块450和动作识别模块470。

原始特征获取模块410用于获取视频流中视频图像序列在空间和设定通道上抽取的原始特征，该原始特征是视频图像序列在时间、空间和通道维度上的特征联合表示。

分离处理模块430用于对原始特征进行通道维度和时间维度的分离处理，获得视频图像序列的分离特征。

特征汇合模块450用于汇合分离特征与原始特征，获得视频图像序列的目标特征。

动作识别模块470用于根据目标特征识别视频图像序列中包含的动作，获得动作识别结果。

在另一示例性的实施例中，该装置还包括视频图像抽取模块和特征抽取模块。

视频图像抽取模块用于在进行视频动作识别的视频流中抽取视频图像，形成视频图像序列。

特征抽取模块用于对视频图像序列进行空间维度和通道维度上的特征抽取，获得原始特征，该原始特征是通道维度上输出对应于空间维度和时间维度的特征表示。

在另一示例性的实施例中，特征抽取模块包括卷积特征获取单元、卷积特征压缩单元和卷积压缩特征堆叠单元。

卷积特征获取单元用于通过对视频图像序列中的视频图像进行空间维度和通道维度上的卷积计算，获得所述视频图像的卷积特征。

卷积特征压缩单元用于对卷积特征进行特征压缩，获得视频图像的卷积压缩特征。

卷积压缩特征堆叠单元用于在时间维度上为视频图像序列进行所述卷积压缩特征的堆叠，生成原始特征。

在另一示例性的实施例中，分离处理模块430包括第一特征抽取单元和第二特征抽取单元。

第一特征抽取单元用于对原始特征进行时间维度上的特征抽取，获得中间特征，该中间特征是对原始特征分离出时间维度的特征表示。

第二特征抽取单元用于在中间特征的通道维度上，对中间特征进行特征抽取获得视频图像序列的分离特征，该分离特征是对中间特征分离出通道维度的特征表示。

在另一示例性的实施例中，第一特征抽取单元包括逐点卷积子单元和中间特征获取子单元。

逐点卷积子单元用于在时间维度上，通过第一逐点卷积网络层对原始特征进行卷积计算，该第一逐点卷积网络层中包含用于执行卷积计算的逐点卷积核。

中间特征获取子单元用于通过堆叠逐点卷积核卷积所得特征表示，获得中间特征。

在另一示例性的实施例中，分离处理模块430还包括第三特征抽取单元，该第三特征抽取单元用于在第一逐点卷积网络层中逐点卷积核的数量与输出原始特征对应的通道数量不一致时，通过第二逐点卷积网络层对视频图像序列的分离特征进行卷积计算，该第二逐点卷积网络层所包含逐点卷积核的数量与输出原始特征对应的通道数量相同。

在另一示例性的实施例中，第二特征抽取单元包括深度卷积子单元和分离特征获取子单元。

深度卷积子单元用于通过深度卷积网络层对中间特征进行卷积计算，该深度卷积网络层中的各个深度卷积核用于分别执行中间特征在通道维度上的深度卷积。

分离特征获取子单元用于通过堆叠深度卷积核卷积所得特征表示，获得分离特征。

在另一示例性的实施例中，该装置还包括第一特征置换模块和第二特征置换模块。

第一特征置换模块设置于原始特征获取模块410之后，用于对原始特征在时间维度和通道维度进行置换。

第二特征置换模块设置于动作识别模块470之前，用于对目标特征在时间维度和通道维度进行置换。

在另一示例性的实施例中，该装置还包括第一归一化处理模块和第二归一化处理模块。

第一归一化处理模块设置于原始特征获取模块410之后，用于对原始特征进行归一化处理，使得原始特征经由归一化处理后执行通道维度和时间维度的分离处理。

第二归一化处理模块设置于动作识别模块470之前，用于对目标特征进行归一化处理，使得目标特征经由归一化处理后执行动作的识别。

需要说明的是，上述实施例所提供的装置与上述实施例所提供的方法属于同一构思，其中各个模块执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。

在一示例性实施例中，一种电子设备，包括：

处理器；及

存储器，其中，存储器上存储有计算机可读指令，该计算机可读指令被处理器执行时实现上述各实施例中的视频动作识别方法。

图13是根据一示例性实施例所示出的一种电子设备的硬件结构框图。

需要说明的是，该电子设备只是一个适配于本申请的示例，不能认为是提供了对本申请的使用范围的任何限制。该电子设备也不能解释为需要依赖于或者必须具有图13中示出的示例性的电子设备中的一个或者多个组件。

该电子设备的硬件结构可因配置或者性能的不同而产生较大的差异，如图13所示，电子设备包括：电源510、接口530、至少一存储器550、以及至少一中央处理器(CPU，Central Processing Units)570。

其中，电源510用于为电子设备上的各硬件设备提供工作电压。

接口530包括至少一有线或无线网络接口531、至少一串并转换接口533、至少一输入输出接口535以及至少一USB接口537等，用于与外部设备通信。

存储器550作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源包括操作***551、应用程序553或者数据555等，存储方式可以是短暂存储或者永久存储。其中，操作***551用于管理与控制电子设备上的各硬件设备以及应用程序553，以实现中央处理器570对海量数据555的计算与处理，其可以是WindowsServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTM、FreeRTOS等。应用程序553是基于操作***551之上完成至少一项特定工作的计算机程序，其可以包括至少一模块(图13中未示出)，每个模块都可以分别包含有对电子设备的一系列计算机可读指令。数据555可以是存储于磁盘中的视频、图片等。

中央处理器570可以包括一个或多个以上的处理器，并设置为通过总线与存储器550通信，用于运算与处理存储器550中的海量数据555。

如上面所详细描述的，适用本申请的电子设备将通过中央处理器570读取存储器550中存储的一系列计算机可读指令的形式来完成视频动作识别方法。

此外，通过硬件电路或者硬件电路结合软件指令也能同样实现本申请，因此，实现本申请并不限于任何特定硬件电路、软件以及两者的组合。

在另一示例性实施例中，一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各实施例中的视频动作识别方法。

上述内容，仅为本申请的较佳示例性实施例，并非用于限制本申请的实施方案，本领域普通技术人员根据本申请的主要构思和精神，可以十分方便地进行相应的变通或修改，故本申请的保护范围应以权利要求书所要求的保护范围为准。

Claims

1.一种视频动作识别方法，其特征在于，包括：

获取视频流中视频图像序列在空间和设定通道上抽取的原始特征，所述原始特征是所述视频图像序列在时间、空间和通道维度上的特征联合表示；

对所述原始特征进行所述通道维度和时间维度的分离处理，获得所述视频图像序列的分离特征；

汇合所述分离特征与所述原始特征，获得所述视频图像序列的目标特征；

根据所述目标特征识别所述视频图像序列中包含的动作，获得动作识别结果。

2.根据权利要求1所述的方法，其特征在于，在所述获取视频流中视频图像序列在空间和设定通道上抽取的原始特征之前，所述方法还包括：

在进行视频动作识别的视频流中抽取视频图像，形成所述视频图像序列；

对所述视频图像序列进行空间维度和通道维度上的特征抽取，获得原始特征，所述原始特征是所述通道维度上输出对应于空间维度和时间维度的特征表示。

3.根据权利要求2所述的方法，其特征在于，所述对所述视频图像序列进行空间和通道维度上的特征抽取，获得原始特征，包括：

通过对所述视频图像序列中的所述视频图像进行空间维度和通道维度上的卷积计算，获得所述视频图像的卷积特征；

对所述卷积特征进行特征压缩，获得所述视频图像的卷积压缩特征；

在时间维度上为所述视频图像序列进行所述卷积压缩特征的堆叠，生成所述原始特征。

4.根据权利要求1所述的方法，其特征在于，所述对所述原始特征进行所述通道维度和时间维度的分离处理，获得所述视频图像序列的分离特征，包括：

对所述原始特征进行所述时间维度上的特征抽取获得中间特征，所述中间特征是对所述原始特征分离出所述时间维度的特征表示；

在所述中间特征的通道维度上，对所述中间特征进行特征抽取获得所述视频图像序列的分离特征，所述分离特征是对所述中间特征分离出所述通道维度的特征表示。

5.根据权利要求4所述的方法，其特征在于，所述对所述原始特征进行所述时间维度上的特征抽取，获得中间特征，包括：

在所述时间维度上，通过第一逐点卷积网络层对所述原始特征进行卷积计算，所述第一逐点卷积网络层中包含用于执行所述卷积计算的逐点卷积核；

通过堆叠所述逐点卷积核卷积所得特征表示，获得所述中间特征。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

如果所述第一逐点卷积网络层中逐点卷积核的数量与输出所述原始特征对应的通道数量不一致，则通过第二逐点卷积网络层对所述视频图像序列的分离特征进行卷积计算，所述第二逐点卷积网络层所包含逐点卷积核的数量与输出所述原始特征对应的通道数量相同。

7.根据权利要求4所述的方法，其特征在于，所述在所述中间特征的通道维度上，对所述中间特征进行特征抽取获得所述视频图像序列的分离特征，包括：

通过深度卷积网络层对所述中间特征进行卷积计算，所述深度卷积网络层中的各个深度卷积核用于分别执行所述中间特征在通道维度上的深度卷积；

通过堆叠所述深度卷积核卷积所得特征表示，获得所述分离特征。

8.根据权利要求1所述的方法，其特征在于，在所述获取视频流中视频图像序列在空间和设定通道上抽取的原始特征之后，所述方法还包括：

对所述原始特征在所述时间维度和通道维度进行置换；

以及在所述根据所述目标特征识别所述视频图像序列中包含的动作，获得动作识别结果之前，所述方法还包括：

对所述目标特征在所述时间维度和通道维度进行置换。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

分别对所述原始特征和所述目标特征进行归一化处理，使得所述原始特征经由所述归一化处理后执行所述通道维度和时间维度的分离处理，所述目标特征经由所述归一化处理后执行所述动作的识别。

10.一种视频动作识别装置，其特征在于，包括：

原始特征获取模块，用于获取视频流中视频图像序列在空间和设定通道上抽取的原始特征，所述原始特征是所述视频图像序列在时间、空间和通道维度上的特征联合表示；

分离处理模块，用于对所述原始特征进行所述通道维度和时间维度的分离处理，获得所述视频图像序列的分离特征；

特征汇合模块，用于汇合所述分离特征与所述原始特征，获得所述视频图像序列的目标特征；

动作识别模块，用于根据所述目标特征识别所述视频图像序列中包含的动作，获得动作识别结果。

11.一种电子设备，其特征在于，包括：

存储器，存储有计算机可读指令；

处理器，读取存储器存储的计算机可读指令，以执行权利要求1-9中的任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行权利要求1-9中的任一项所述的方法。