CN109446923B

CN109446923B - 基于训练特征融合的深度监督卷积神经网络行为识别方法

Info

Publication number: CN109446923B
Application number: CN201811176393.6A
Authority: CN
Inventors: 李侃; 李杨; 王欣欣
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2018-10-10
Filing date: 2018-10-10
Publication date: 2021-09-24
Anticipated expiration: 2038-10-10
Also published as: CN109446923A

Abstract

本发明提出了一种基于训练特征融合的深度监督卷积神经网络行为识别方法，属于人工智能计算机视觉领域。本方法提取目标视频的多层卷积特征，设计局部演化池化层，利用局部演化池化层将视频卷积特征映射到一个包含时间信息的向量上，从而提取到目标视频的局部演化描述符；通过使用VLAD编码方法，将多个局部演化描述符编码成基于元动作的视频级表示；利用卷积网络多层级之间信息的互补性，将多层级分类结果集成得到最终分类结果。本发明充分利用时间信息构建视频级表示，有效提高了视频行为识别的准确率。同时，通过集成多层级的预测结果提高了网络中间层的判别性，从而提高了网络整体的性能。

Description

基于训练特征融合的深度监督卷积神经网络行为识别方法

技术领域

本发明涉及一种基于视频的行为识别方法，特别涉及一种基于训练特征融合的深度卷积神经网络行为识别方法，属于人工智能计算机视觉领域。

背景技术

目前，人体行为识别是智能视频分析领域的研究热点，也是视频理解任务的重要研究方向。近年来，在视频监控、异常事件监测、基于内容的视频检索等方面取得了广泛关注。然而，由于人类行为的复杂性、多变性、视频背景信息的干扰等因素，使得如何为视频建立适当的时空级表示成为关键。

早期研究主要致力于识别理想场景下的简单动作，采用基于人工设计特征的行为识别方法，例如，基于三维直方图(HOG3D)的方法、基于光流直方图(HOF)的方法、基于运动边界直方图的方法等等。这些方法通过以描述时空兴趣点(STIP)为中心的区域特征来构建视频的表示，并用来识别视频中的动作。

随着多媒体技术的快速发展，网络以及监控视频中的数据迅速增长，基于真实场景的人体行为识别技术越来越受到关注。由于人体外形、视角、光照和背景变化及摄像头的移动等问题，传统的基于人工设计特征的行为识别方法已经难以在这些真实场景下取得理想效果。

近年来，随着深度学习在计算机视觉领域的快速发展和应用，一系列基于深度模型的人体视频行为识别方法被提出。例如，从单帧的层次识别视频中的行为、通过使用RGB帧和光流的双流网络捕捉视频中的运动信息、通过探索视频流上的三维卷积网络来学习视频片段的时空特征等，以及后来提出的双流膨胀三维卷积网络(I3D)，它将卷积神经网络结构中二维的卷积和池化核集扩展为三维，这使得网络无缝地学习视频的时空特征成为可能。

然而，现有的卷积神经网络结构只能够对单帧或视频短片段进行建模，缺少直接对视频的长时序结构信息进行建模的能力。因此，现有的基于深度模型的行为识别方法采用了不同的策略来获取视频长时序的时空特征。这些策略主要分为两类：(1)深度卷积特征编码及池化方法，即，利用深度卷积网络来提取帧或视频片段的卷积特征，然后采用时空编码或者池化的方法构建全局的视频级表示。但是，这种方法构造的视频表示是无序的，没有考虑到视频帧与帧之间的时序和演变关系。(2)通过考虑视频的时序结构来构建视频级表示，即，将多个帧或视频片段的深度特征输入到时序模型如LSTM、GRU或排序函数中，将其融合成视频级表示。但是，这种方法会在一定程度上缺失视频的空间局部信息。

发明内容

本发明的目的在于为了克服现有技术存在的缺陷，针对目前基于深度特征的长时序视频表示方法中存在的问题，从如何为视频建立适当的时空级表示的层面出发来识别人物行为，提出了一种基于训练特征融合的深度监督卷积神经网络行为识别方法。

本发明通过以下技术方案实现。

一种基于训练特征融合的深度监督卷积神经网络行为识别方法，包括以下步骤：

步骤1：采集用于训练的视频数据，形成训练数据集。

对训练视频数据集中的视频进行预处理，提取全部视频帧，并将其裁剪成相同尺寸。

步骤2：对训练数据集中的视频进行帧采样。

对训练数据集中的每个视频进行均匀的帧采集。在整个视频跨度上，以

为时间间隔，均匀采集T个RGB帧[I₁,I₂,...,I_T]，其中，T_z为某视频总时长，令I_t表示第t个采集到的视频帧，第t帧对应到第t时刻。

步骤3：扩充训练数据集。

将从每个视频采集到的视频帧全部进行反转操作，使之成为新的视频，从而扩充训练数据集，使视频数据集中的视频数目为之前的2倍。

步骤4：提取训练视频帧的多层卷积特征。

首先，从标准的CNN(卷积神经网络)架构中选取M个卷积层，用于提取视频帧的多层卷积特征。由于识别行为通常需要诸如物体部分或身体部分在内的高水平语义信息，因此本发明从卷积网络的顶层卷积层中选择用于产生特征图的M个卷积层。

之后，将采集到的视频V的T个RGB帧[I₁,I₂,...,I_T]输入到该卷积网络中，并提取每个RGB帧在这M个卷积层中产生的特征图。对于每个RGB帧，在每个选定卷积层都会获得空间大小为N×N，包含C个通道的特征图。对于整个视频V，将会获得M×T个空间大小为N×N，包含C个通道的特征图。

步骤5：对视频帧的多层特征图进行特征聚合，得到视频级表示。具体方法如下：

步骤5.1：使用局部演化排序池化方法，提取视频V的局部演化描述符。

将视频V的多帧在同一卷积层下得到的T个特征图作为输入，然后将每帧的特征图分解为一组局部空间特征，最后对每个空间位置的局部空间特征的演化信息进行建模生成局部演化描述符。具体方法如下：

步骤5.1.1：经步骤4，视频V的T帧[I₁,I₂,...,I_T]中的每一帧在某选定卷积层均获取空间大小N×N并且包含C个通道的特征图，这些特征图表示为[fm₁,fm₂,...,fm_T]。分别连接每个特征图上每个空间位置上所有通道的值，t∈{1,...,T}，从而将每个特征图分解为多个局部空间特征。对于每一帧，将获得N×N个C维的局部空间特征。

步骤5.1.2：对T帧[I₁,I₂,...,I_T]的每个空间位置的演化信息进行建模，生成视频V局部演化描述符。具体方法如下：

步骤5.1.2.1：对于某一个特定的空间位置，将T帧的局部空间特征按照时间顺序排列表示为[r_i1,r_i2,…,r_it,...,r_iT]，其中i＝{1,...,N×N}，

为第t时刻上第i个空间位置的局部空间特征，

为C维的实数向量空间，即r_it为C维实数向量空间上的向量。

步骤5.1.2.2：建模第i个空间位置的演化信息。定义一个排序(Rank)函数，为每一个时刻计算一个分数值：

S(t,i∣e)＝e^Td_it (1)

其中，

为第t时刻上第i个空间位置的平均局部空间特征，

本发明设定一个约束关系：后面时刻对应的分数值大于前面的时刻对应的分数值，即

参数e可以反映这些局部空间特征的时间顺序。对参数e进行学习可以认为是一个凸优化问题：

目标函数E(e)的第一项是通用的二次正则化项，第二项是软计数损失函数hinge-loss。

步骤5.1.2.3：优化目标函数E(e)，将一系列局部空间特征映射到向量e^★上。e^★包含对这些局部空间特征的排序信息，即为局部演化描述符。本方法使用近似技术解决方程式的优化问题，从而将该操作嵌入CNN网络当中。最终，上述目标函数的解简化为：

其中，α_t＝2(T-t+1)-(T+1)(H_T-H_t-1)，

为参数，该权重通过排序池化(RankPooling)得到。上述解看作第i个空间位置在T个采集到的时刻上的局部空间特征的加权相加。

步骤5.1.2.4：基于上述排序函数的近似解，设计局部演化排序池化层。该层输入T帧N×N×C大小的卷积特征图，输出N×N个C维的局部演化描述符向量[e₁,e₂,...,e_N×N]。

步骤5.2：使用基于局部演化描述符的VLAD(局部聚合向量)编码方法，将视频的局部演化描述符编码为基于元动作的视频级的表示。

本方法基于“一个动作是由一组元动作组成”的想法，提出了基于局部演化描述符的VLAD编码方法，将多个局部演化描述符编码成基于元动作的表示，从而构建紧凑的语义级别的表示。具体步骤如下：

步骤5.2.1：使用K个元动词单词，将特征空间

划分为K单元，设每个单元的锚定点为a_k。

步骤5.2.2：将步骤5.1中得到的视频V的一系列局部演化描述符[e₁,e₂,...,e_N×N]中的每个局部演化描述符，分配给上述K个单元中的其中一个单元，并记录局部演化描述符e_i与锚定点a_k之间的残差向量。

步骤5.2.3：将残差向量进行求和。

式(4)中，

表示描述符e_i的软分配，锚定点a_k在该公式中是一个可通过训练调节的超参数；e_i-a_k表示局部演化描述符与第k个锚定点之间的残差。通过公式得到的h_k表示第k个单元中的聚合描述符。

步骤5.2.4：得到该视频的局部演化描述符与每个锚定点间的残差之和，视频V可表示为v＝[h₁,h₂,...,h_K]，

C为实数空间的维度，K为元动作单元的个数，所以，ν为实数空间上C×K大小的矩阵。

基于上式可微分，且允许将误差梯度反向传播到网络的较低层，因此本发明设计了基于局部演化描述符的VLAD编码层。

步骤6：对于选取的M个卷积层，并行在每一层进行上述步骤5、步骤6操作，得到该视频在每个选定卷积层的视频级特征表示。

对多个卷积层得到的视频级表示进行动作识别，是本发明提出的基于深度监督的动作识别方法。

步骤7：将步骤6中得到的在每一层的视频级表示输入到相应的分类器中，得到视频V在M个选定卷积层上的分类结果。具体方法如下：

步骤7.1：为了整合网络的卷积和聚合操作中的所有参数，定义：

其中，B表示卷积层的总数。设b＝{1,...,B}，

表示第b个卷积层的参数。M表示本发明选取的卷积层的个数，由于在每个选取的卷积层上均得到一个分类结果，故每个选取的卷积层与一个特征聚合操作和一个分类器相连，所以特征聚合操作的个数为M，分类器的个数也为M。设m＝{1,...,M}，故

表示第m个选取的卷积层上的特征聚合操作的权重，

表示第m个选取的卷积层上所连分类器的权重。

步骤7.2：定义合并所有输出层分类错误的损失函数：

其中，L表示动作分类的视频级交叉熵损失函数，定义为：

其中，g为视频V的真实标签，g∈A，A＝{A₁,...,A_z}定义了所有动作类别，类别数量为Z，A_i表示动作集A中的第i个动作类别，s^m表示第m个卷积层预测得到的动作类别。

步骤8：将M个选定卷积层的分类结果进行集成。

本发明提出了一种分类集成方法来融合多层级的预测结果，该方法对在各个卷积层得到分值使用对应的权值求和，以充分利用多层级信息的互补性。对应的权值通过基于注意力的方法分配。具体方法如下：

步骤8.1：令融合后的预测结果F表示为：

其中，

表示集成权重，其中

是一个Z维的向量，通过注意力(Attention)机制分配权重得到，s^m表示第m个卷积层预测的动作类别。

集成层的损失函数定义为：

其中，y＝argmax(F)表示最终预测得到的动作类别，

为最终预测动作类别为A_i的概率。

步骤8.2：在训练集上最小化以下目标函数，学习得到所有的参数W,w_c，w_f：

步骤9：使用梯度下降算法优化上述损失函数，通过反向传播调整模型参数，直至损失函数收敛。此时，该基于可训练特征融合的深度卷积神经网络行为识别模型已训练完成。

步骤10：使用步骤9中训练好的模型，对未知视频V′中的人物行为进行识别。具体步骤如下：

步骤10.1：将未知视频V′按照步骤1和步骤2中的方法进行预处理以及帧采样，得到对V′均匀采集的T个RGB帧[I′₁,I′₂,...,I′_T]。

步骤10.2：按照步骤4所述方法，提取未知视频的多层卷积特征。对于V′的每个RGB帧，在每个选定卷积层都将会获取空间大小为N×N，包含C个通道的特征图。对于整个未知视频V′，将会获得M×T个空间大小为N×N，包含C个通道的特征图。

步骤10.3，按照步骤5、步骤6所述方法，得到V′在M个选定卷积层每一层上的视频级特征表示。具体步骤如下：

首先，按照步骤5.1所述方法，使用局部演化排序池化方法得到V′在每一选定卷积层上的N×N个C维的局部演化描述符向量[e′₁,e′₂,...,e′_N×N]，

然后，按照步骤5.2所述方法，使用基于局部演化描述符的VLAD编码方式将[e′₁,e′₂,...,e′_N×N]编码为基于元动作的视频级表示v′＝[h′₁,h′₂,...,h′_K]，

最后，按照步骤6所述方法，在M个选定卷积层上并行进行上述操作，在每一层上得到V′的视频级表示。

步骤10.4：按照步骤7所述方法，获得V′在M个选定卷积层上的分类结果，s^′m表示V′在第m个卷积层上预测得到的动作类别结果。按照步骤8所述方法，使用分类集成方法对多层的分类结果进行集成，得到最终对未知视频的分类结果。F′表示融合后的预测结果：

其中，

是一个Z维的向量，s^′m表示第m个卷积层预测的动作类别。

上述过程执行完毕后，即可得到对未知视频中人物行为的预测结果。

有益效果

本发明对比现有技术，具有以下有益效果：

(1)所提出特征聚合操作将局部演化排序池化操作和基于局部演化描述符的VLAD编码操作合二为一，并提出局部演化排序池化层和基于局部演化描述符的VLAD编码层，简化了方法的实施；

(2)所提出的局部演化排序池化方法，通过建模每个空间位置的时间演化信息来捕获更多关于动作的细节；

(3)所提出的基于局部演化描述符的VLAD编码方式通过将局部演化描述符投影到一个语义空间，生成了更具有判别力的视频表示；

(4)所提出深度监督动作识别方法在单个网络中构建多层级的视频表示，并产生多个预测结果；

(5)所提出多层级分类结果集成方法通过集成多层级的预测结果提高了网络中间层的判别性，从而提高了网络整体的性能。

附图说明

图1为本发明整体逻辑结构图。

图2为本发明方法的步骤详述及参数传播。包含模型训练步骤以及本发明所提出的特征聚合方法，以及深度监督动作识别方法。

图3为本发明方法的流程图。

具体实施方式

下面将结合附图对本发明的具体实施方法做进一步的详细说明。

本发明的执行环境是有计算机实现以下三个主要功能构成：一、多层卷积特征提取功，该功能是提取视频每一帧的在多层特征图。二、特征聚合功能，包含局部演化描述池化层，该层的功能是将每一层得到的多帧特征图编码为局部演化描述符；以及基于局部演化描述符的VLAD编码层，该层的功能是将局部演化描述符编码成基于元动作的视频级表示。三、深度监督动作识别方法，该方法的功能是用上面得到的多层的视频级表示来识别视频中的人物动作，并将多层的分类结果进行集成得到最终的预测结果。本发明的整体逻辑结构图见图1。

如图3所示，为本发明一种基于可训练特征融合的深度监督卷积神经网络行为识别方法的流程图。

下面对本发明提出一种基于可训练特征融合的深度监督卷积神经网络行为识别方法的具体实施例作更详细的描述。

根据附图3中(b)所示模型训练阶段流程图，模型训练阶段的具体实施方法为：

步骤1：对训练视频数据集中的视频进行预处理，提取全部视频帧，并裁剪成尺寸为224px×224px。

步骤2：对训练视频中的每个视频，以时间间隔为

均匀采集10个RGB帧[I₁,I₂,...,I₁₀]，T_z为某视频总时长，I_t表示某视频第t个采集到视频帧，为了方便起见，某训练视频的第t帧对应为其的第t时刻。

步骤3：将数据集中每个视频采集到的视频帧均进行反转操作，使之成为新的视频以扩充训练数据集，使得视频数据集中视频数目为之前的2倍。

步骤4：提取训练视频帧的多层卷积特征，本发明在预训练好的CNN架构中选取了3个卷积层：Mixed5_a层、Mixed5_b层和Mixed5_c层用于产生视频帧的特征图。将采集到的视频V的10个RGB帧[I₁,I₂,...,I₁₀]输入到该卷积网络中，对于每个RGB帧，在每个选定卷积层都会获得空间大小为64×64，包含3个通道的特征图。对于整个视频V，将会获得3×10个空间大小为64×64，包含3个通道的特征图。

步骤5：对视频帧的多层特征图进行特征聚合，得到视频级的表示，具体方法如下：

步骤5.1，将每个训练视频采集的RGB帧输入到局部演化排序池化层得到每个训练视频的局部演化描述符。

步骤5.1.1，经过步骤4中，训练视频V的10帧[I₁,I₂,...,I₁₀]中的每一帧在Mixed5_a层均获取空间大小64×64并且包含3个通道的特征图，这些特征图可表示为[fm₁,fm₂,...,fm₁₀]。连接m_t上每个空间位置上所有通道的值，t∈{1,...,10}，从而将fm_t特征图分解为64×64个3维的局部空间特征。

步骤5.1.2，对T帧[I₁,I₂,...,I₁₀]的每个空间位置的演化信息进行建模，生成视频V局部演化描述符，具体方法如下：

步骤5.1.2.1，将某一特定空间位置i的局部空间特征按照时间顺序进行排序，得到表示[r_i1,r_i2,…r_it,…,r_i10]，其中i＝{1,...,64}，

为第t时刻上第i个空间位置的局部空间特征，

为3维的实数向量空间，即r_it为3维实数向量空间上的向量。

步骤5.1.2.2，使用排序函数S(t,i∣e)＝e¹⁰d_it为每一个时刻t计算一个分数值，其中

为第t时刻上第i个空间位置的平均局部空间特征，

1～10对应为时刻，设q∈{1,...,10}为t∈{1,...,10}之后的时刻，则有S(q,i∣e)>S(t,i∣e)。找出所有满足条件的q>t，计算E(e)：

步骤5.1.2.3，优化E(e)，将一系列局部空间特征映射到一个向量e^★。e^★即为该训练视频的局部演化描述符：

e^＊＝argmin_eE(e)

使用近似技术简化E(e)的解为：

其中，α_t＝2(10-t+1)-(10+1)(H₁₀-H_t-1)，

该权重通过排序池化(RankPooling)得到。上述解可以看作第i个空间位置在所有采集到的10个时刻的局部空间特征的加权相加。

步骤5.1.2.4，学得的e向量即为该训练视频第i个空间位置的局部演化描述符，输入整个训练视频，在Mixed5_a层将得到64×64个3维的局部演化描述符向量[e₁,e₂,...,e_64×64]。

步骤5.2：将每个训练视频的局部演化描述符向量输入到基于局部演化描述符的VLAD编码层得到每个训练视频的视频级表示。

步骤5.2.1，使用32个元动词单词将特征空间

划分为32个单元，然后将局部演化描述符e₁,e₂,...,e_64×64分配给这32个单元中的其中一个单元。记录局部演化描述符e_i与每个元动作锚定点a_k之间的残差向量(e_i-a_k)。

步骤5.2.2，将这些残差向量求和，得到第k个单元中的聚合描述符h_k。

步骤5.2.3，该训练视频可以表示为v＝[h₁,h₂,...,h₃₂]，

v为实数空间上3×32大小的矩阵。

步骤6：并行在Mixed5_a层Mixed5_b层和Mixed5_c层执行上述步骤5中操作，得到每个训练视频在这3个卷积层上的视频级表示。

步骤7：获得训练视频在多个卷积层的分类结果。

将步骤6中得到的在每一层的视频级表示输入到相应的分类器中得到在该卷积层的分类结果。具体方法如下：

步骤7.1，定义参数，整个网络卷积层的总数为B，第b个卷积层的参数表示为

本发明选取的卷积层为Mixed5_a层Mixed5_b层和Mixed5_c层3层，由于在每个选取的卷积层上均得到一个分类结果，故每个选取的卷积层与一个特征聚合操作和一个分类器相连，所以特征聚合操作的个数为3，分类器的个数也为3。则第m个选取的卷积层上的特征聚合操作的权重为

第m个选取的卷积层上所连分类器的权重为

步骤7.2，合并所有输出层分类错误的损失函数定义为：

其中L表示动作分类的视频级交叉熵损失函数。

设A＝{A₁,...,A₅₁}定义了训练数据集中所有的动作类别，类别数量为51类。该训练视频的真实标签为g∈A，s^m表示第m个卷积层预测的动作类别。则交叉熵损失函数为：

步骤8：将多层的分类结果进行集成。

步骤8.1，集成后的预测结果为：

其中

表示集成权重，其中

是一个Z维的向量，通过注意力分配权重得到。集成层的损失函数定义为：

其中，

表示最终预测得到的动作类别，P(y＝A_i∣V,W,wcm,wf为最终预测动作类别为Ai的概率。

步骤8.2，最小化目标函数

学习得到所有的参数W,w_c，w_f。

步骤9：使用梯度下降算法优化损失函数

通过反向传播调整模型参数，直至损失函数收敛，此时该基于可训练特征融合的深度卷积神经网络行为识别模型已训练完成。

步骤10：使用步骤9中训练好的模型对未知视频V′中的人物行为进行识别，具体步骤如下：

步骤10.1，对输入的未知视频按照步骤1和步骤2进行预处理以及帧采样，提取未知视频全部视频帧并裁剪成尺寸为224px×224px。以时间间隔为

均匀采集10个RGB帧[I′₁,I′₁,...,I′₁₀]，0.4s为未知视频总时长，I′_t表示某视频第t个采集到视频帧。

步骤10.2，按照步骤4中的方法，提取未知视频的多层卷积特征，对于V′的每个RGB帧，在每个选定卷积层都会获得空间大小为64×64，包含3个通道的特征图。对于整个未知视频V′，将会获得3×10个空间大小为64×64，包含3个通道的特征图。

步骤10.3：按照步骤5、步骤6中的方法，得到V′在3个选定卷积层每一层上的视频级特征表示，具体步骤如下：

首先按照步骤5.1中的方法，使用局部演化排序池化方法得到V′在每一选定卷积层上的64×64个3维的局部演化描述符向量[e′₁,e′₁,...,e′_64×64]，

然后按照步骤5.2中的方法，使用基于局部演化描述符的VLAD编码方式将[e′₁,e′₁,...,e′_64×64]编码为基于元动作的视频级表示v′＝[h′₁,h′₂,...,h′₃₂]，

v′为实数空间上3×32大小的矩阵。

最后按照步骤6中的方法，在3个选定卷积层Mixed5_a层、Mixed5_b层和Mixed5_c层上并行进行上述操作，在每一层上得到V′的视频级表示。

步骤10.4，按照步骤7中的方法获得V′在3个选定卷积层上的分类结果，s^′m表示未知视频V′在第m个卷积层上预测得到的动作类别结果。按照步骤8中的方法，使用分类集成方法对多层的分类结果进行集成，得到最终对未知视频的分类结果：

其中

表示集成权重。

上述过程执行完毕后，即可得到对未知视频中人物行为的预测结果为“跑步”。

以上所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于训练特征融合的深度监督卷积神经网络行为识别方法，其特征在于，包括以下步骤：

步骤1：采集用于训练的视频数据，形成训练数据集；

步骤2：对训练数据集中的每个视频进行均匀帧采样；

步骤3：扩充训练数据集，将从每个视频采集到的视频帧全部进行反转操作，使之成为新的视频，从而扩充训练数据集，使视频数据集中的视频数目为之前的2倍；

步骤4：提取训练视频帧的多层卷积特征；

首先，从标准的卷积神经网络架构中选取M个卷积层，用于提取视频帧的多层卷积特征；

之后，将采集到的视频V的T个RGB帧[I₁,I₂,...,I_T]输入到该卷积网络中，并提取每个RGB帧在这M个卷积层中产生的特征图；对于每个RGB帧，在每个选定卷积层都会获得空间大小为N×N，包含C个通道的特征图；对于整个视频V，将会获得M×T个空间大小为N×N，包含C个通道的特征图；

步骤5：对视频帧的多层特征图进行特征聚合，得到视频级表示，具体方法如下：

步骤5.1：使用局部演化排序池化方法，提取视频V的局部演化描述符：

首先，将视频V的多帧在同一卷积层下得到的T个特征图作为输入，然后将每帧的特征图分解为一组局部空间特征，最后对每个空间位置的局部空间特征的演化信息进行建模生成局部演化描述符；

步骤5.2：使用基于局部演化描述符的局部聚合向量编码方法，将视频的局部演化描述符编码为基于元动作的视频级的表示；

步骤6：对于选取的M个卷积层，并行在每一层进行上述步骤5、步骤6操作，得到该视频在每个选定卷积层的视频级特征表示；

步骤7：将步骤6中得到的在每一层的视频级表示输入到相应的分类器中，得到视频V在M个选定卷积层上的分类结果；

步骤8：将M个选定卷积层的分类结果进行集成，具体方法如下：

步骤8.1：令融合后的预测结果F表示为：

其中，

w_f表示集成权重，

是一个Z维的向量，通过注意力机制分配权重得到，s^m表示第m个卷积层预测的动作类别；

集成层的损失函数定义为：

其中，y＝argmax(F)，y表示最终预测得到的动作类别，

为最终预测动作类别为A_i的概率；

步骤9：使用梯度下降算法优化上述损失函数，通过反向传播调整模型参数，直至损失函数收敛；

步骤10：使用步骤9中训练好的模型，对未知视频V′中的人物行为进行识别，具体步骤如下：

步骤10.1：将未知视频V′按照步骤1和步骤2中的方法进行预处理以及帧采样，得到对V′均匀采集的T个RGB帧[I′₁，I′₂，...，I′_T]；

步骤10.2：按照步骤4所述方法，提取未知视频的多层卷积特征；对于V′的每个RGB帧，在每个选定卷积层都将会获取空间大小为N×N，包含C个通道的特征图；对于整个未知视频V′，将会获得M×T个空间大小为N×N，包含C个通道的特征图；

步骤10.3，按照步骤5、步骤6所述方法，得到V′在M个选定卷积层每一层上的视频级特征表示；具体步骤如下：

最后，按照步骤6所述方法，在M个选定卷积层上并行进行上述操作，在每一层上得到V′的视频级表示；

步骤10.4：按照步骤7所述方法，获得V′在M个选定卷积层上的分类结果，s′^m表示V′在第m个卷积层上预测得到的动作类别结果；按照步骤8所述方法，使用分类集成方法对多层的分类结果进行集成，得到最终对未知视频的分类结果；F′表示融合后的预测结果：

其中，

是一个Z维的向量，s′^m表示第m个卷积层预测的动作类别。

2.如权利要求1所述的基于训练特征融合的深度监督卷积神经网络行为识别方法，其特征在于，所述步骤2进行均匀帧采样的方法为：

在整个视频跨度上，以

3.如权利要求1所述的基于训练特征融合的深度监督卷积神经网络行为识别方法，其特征在于，所述步骤5.1的具体实现方法如下：

步骤5.1.1：经步骤4，视频V的T帧[I₁,I₂,...,I_T]中的每一帧在某选定卷积层均获取空间大小N×N并且包含C个通道的特征图，这些特征图表示为[fm₁,fm₂,...,fm_T]；

分别连接每个特征图上每个空间位置上所有通道的值，t∈{1，...，T}，从而将每个特征图分解为多个局部空间特征；

对于每一帧，将获得N×N个C维的局部空间特征；

步骤5.1.2：对T帧[I₁,I₂,...,I_T]的每个空间位置的演化信息进行建模，生成视频V局部演化描述符。

4.如权利要求3所述的基于训练特征融合的深度监督卷积神经网络行为识别方法，其特征在于，所述步骤5.1.2的具体实现方法如下：

为第t时刻上第i个空间位置的局部空间特征，

为C维的实数向量空间，即r_it为C维实数向量空间上的向量；

步骤5.1.2.2：建模第i个空间位置的演化信息；定义一个排序函数，为每一个时刻计算一个分数值：

S(t,i∣e)＝e^Td_it (5)

其中，

为第t时刻上第i个空间位置的平均局部空间特征，

设定一个约束关系：后面时刻对应的分数值大于前面的时刻对应的分数值，即

参数e反映这些局部空间特征的时间顺序；对参数e进行学习认为是一个凸优化问题：

目标函数E(e)的第一项是通用的二次正则化项，第二项是软计数损失函数hinge-loss；

步骤5.1.2.3：优化目标函数E(e)，将一系列局部空间特征映射到向量e^★上；e^★包含对这些局部空间特征的排序信息，即为局部演化描述符；上述目标函数的解简化为：

其中，α_t＝2(T-t+1)-(T+1)(H_T-H_t-1)，

为参数，该权重通过排序池化得到，上述解看作第i个空间位置在T个采集到的时刻上的局部空间特征的加权相加；

步骤5.1.2.4：基于上述排序函数的近似解，设计局部演化排序池化层；该层输入T帧N×N×C大小的卷积特征图，输出N×N个C维的局部演化描述符向量[e₁，e₂，...,e_N×N]。

5.如权利要求1所述的基于训练特征融合的深度监督卷积神经网络行为识别方法，其特征在于，所述步骤5.2的具体实现方法如下：

步骤5.2.1：使用K个元动词单词，将特征空间

划分为K单元，设每个单元的锚定点为a_k；

步骤5.2.2：将步骤5.1中得到的视频V的一系列局部演化描述符[e₁,e₂,...,e_N×N]中的每个局部演化描述符，分配给步骤5.2.1划分的K个单元中的其中一个单元，并记录局部演化描述符e_i与锚定点a_k之间的残差向量；

步骤5.2.3：将残差向量进行求和；

式(8)中，

表示描述符e_i的软分配，锚定点a_k在该公式中是一个通过训练调节的超参数；e_i-a_k表示局部演化描述符与第k个锚定点之间的残差；通过公式得到的h_k表示第k个单元中的聚合描述符；

步骤5.2.4：得到该视频的局部演化描述符与每个锚定点间的残差之和，视频V表示为

C为实数空间的维度，K为元动作单元的个数；v为实数空间上C×K大小的矩阵。

6.如权利要求1所述的基于训练特征融合的深度监督卷积神经网络行为识别方法，其特征在于，所述步骤7的具体实现方法如下：

步骤7.1：定义：

其中，B表示卷积层的总数；设b＝{1,...,B}，

表示第b个卷积层的参数；M表示选取的卷积层的个数；设m＝{1,...,M}，故

表示第m个选取的卷积层上的特征聚合操作的权重，

表示第m个选取的卷积层上所连分类器的权重；

步骤7.2：定义合并所有输出层分类错误的损失函数：

其中，L表示动作分类的视频级交叉熵损失函数，定义为：