CN111401149B

CN111401149B - 基于长短期时域建模算法的轻量级视频行为识别方法

Info

Publication number: CN111401149B
Application number: CN202010124065.2A
Authority: CN
Inventors: 王�琦; 李学龙; 白思开
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-02-27
Filing date: 2020-02-27
Publication date: 2022-05-13
Anticipated expiration: 2040-02-27
Also published as: CN111401149A

Abstract

本发明提供了一种基于长短期时域建模算法的轻量级视频行为识别方法。利用部分通道互换法构建了短期特征互换模块，利用图卷积构建了长期特征融合模块，分别实现视频短期和长期时间特征的有效提取，并通过将两个模块***到二维深度残差网络的不同位置，提取了不同阶段的时间特征，从而有效解决了当前视频行为识别技术结果不准确、计算资源消耗大的问题。

Description

基于长短期时域建模算法的轻量级视频行为识别方法

技术领域

本发明属于计算机视觉、视频分类技术领域，具体涉及一种基于长短期时域建模算法的轻量级视频行为识别方法，可以应用于智能监控、人群分析、人机交互等。

背景技术

随着抖音、快手等短视频软件和一些直播平台的出现，几乎每时每刻都有大量新的视频产生并被分享到互联网上。为了应对这种信息***，分析和理解应用于各种场景的视频信息变得愈发重要。视频行为识别，是指对视频中人的行为动作进行识别和判断，在现实生活中具有广泛的应用，但由于资源消耗大、时域信息提取不充分等因素影响，视频行为识别在视频分析领域仍是一项极具挑战性的任务。

视频行为识别技术可以对视频中当前的行为进行分类，也可以对视频中将要发生的动作做出预测，因此，视频行为识别技术已经应用于许多领域，包括智能监控***、手势识别、姿态识别等。对监控***中人的行为实施检测，并根据一定的规则对行为实施分析和判断，能及时对异常行为报警。而通过对姿态和手势的识别，视频行为识别技术也能被应用于人群分析和人机交互当中。

目前，大多数行为识别技术可以分为两类：一类是基于双流结构的方法，另一类是基于三维卷积神经网络的方法。基于双流结构的方法将视频中帧与帧之间的密集光流分别输入到双流结构的两个支路中进行处理，最后对两个支路的结果进行融合得到最终结果。这种方法的缺点是：1)需要额外提取视频的光流特征，对时间和内存消耗比较高；2)由于双流结构本质上仍是基于二维卷积神经网络，无法有效的捕获视频中复杂的时域信息，识别准确率较低。基于三维卷积神经网络的方法通过使用三维卷积同时提取视频中的时间特征和空间特征，这种方法的主要缺点是：1)相比于二维卷积神经网络，参数数量呈指数级增长；2)模型预训练时所需计算成本高，模型不易训练，容易发生过拟合现象；3)在模型的单个层上，只能获取短期的时域信息，而无法对视频中长期的时域信息实施有效提取。

所以，目前视频行为识别技术普遍存在计算资源消耗多、时间特征提取不充分等缺点，需要提出精度高、计算资源消耗少、能有效提取时间特征的视频行为识别方法。

发明内容

为了克服现有技术的不足，本发明提供一种基于长短期时域建模算法的轻量级视频行为识别方法。基于二维深度残差网络和图卷积，对视频的短期和长期的时间特征实施了有效的提取。相较于双流算法和三维卷积神经网络算法，本发明在不需要额外训练图模型和提取光流特征的前提下，有效解决了当前视频行为识别技术识别结果不准确、计算资源消耗多的问题。

一种基于长短期时域建模算法的轻量级视频行为识别方法，其特征在于如下步骤：

步骤1：采用均匀采样的方法从视频数据集的每一个视频中提取8帧视频片段，并对提取的视频片段进行多尺度裁剪，使其尺寸相同，所有裁剪后的视频片段和其所属视频标签共同构成新的视频片段数据集，并将其按4：1的比例划分为训练数据集和测试数据集；

步骤2：构建长短期时域行为识别网络模型，包括空间特征提取模块、短期特征互换模块、长期特征融合模块和行为预测模块；所述的空间特征提取模块由50层的ResNet网络构成，包含16个Bottleneck模块，其中4个Bottleneck模块含有下采样层，ResNet网络的第一个卷积层和不同Bottleneck模块提取输入视频片段不同阶段的空间特征，ResNet网络的最后一层输出每一帧相对于所有类别的得分；在每一个Bottleneck模块前都***一个短期特征互换模块，将每一帧前1/8通道上的特征与前一帧互换，与之相邻的1/8通道上的特征与后一帧互换，剩余的6/8通道的特征保持不变，并将互换后的特征与互换前的原始特征叠加，得到不同阶段的短期时间特征；在最后两个包含下采样层的Bottleneck模块前分别加入一个长期特征融合模块，所述的长期特征融合模块置于所***的短期特征互换模块之前，以输入特征图中提取的特征作为全连接图的节点，采用图卷积方法对节点上的信息进行融合，并通过映射使融合得到的长期时间特征与输入特征图保持结构相同；所述的行为预测模块对特征提取模块得到的所有帧的类别得分按照类别进行平均，得到视频片段对于每一个类别的平均得分，并将得分最高的类别作为视频片段的最终行为识别结果；

步骤3：将步骤1得到的训练数据集输入到步骤2构建的网络模型中进行训练，设定网络的损失函数为均方误差损失函数，采用随机梯度下降法优化训练网络，批量大小为16，训练的学习率为0.01，学习率每10个训练轮回降低10倍，共训练30个训练轮回，训练好的网络即为最终的行为识别网络模型；

步骤4：将测试数据集中的视频输入到步骤3训练好的长短期时域行为识别网络模型中，得到测试集中每个视频的行为识别结果。

本发明的有益效果是：由于利用部分特征互换和图卷积进行短期和长期时域范围的模块构建，并将两种模块穿插到深度残差网络(ResNet50)的多个位置中，能够有效地提取不同阶段的时间特征，获得更高的行为识别准确率；同时不需要额外训练图模型和提取光流特征，计算量小。

附图说明

图1是本发明的长短期时域行为识别网络模型示意图；

图2是短期特征互换模块示意图；

图3是长期特征融合模块示意图。

具体实施方式

下面结合附图和实施例对本发明进一步说明，本发明包括但不仅限于下述实施例。

本发明提供了一种基于长短期时域建模算法的轻量级视频行为识别方法，其实现步骤如下：

1、视频预处理

将数据集中的视频，先通过均匀采样的方法从每一个视频中提取出8帧的视频片段，然后对视频片段进行多尺度裁剪(如中心裁剪等)，将每一帧的尺寸转化为224×224，从而每一个视频都转化成一个尺寸为8×3×224×224的视频片段。所有视频片段构成新的视频片段数据集，并将原数据集中视频的标签作为新的视频片段数据集中的对应视频片段的标签。最后将新的视频片段数据集按4：1的比例划分为训练数据集和测试数据集。

2、构建长短期时域行为识别网络模型

为了从视频片段中提取出各种有用的特征，本发明分别利用空间特征提取模块实现了对视频片段中每一帧不同阶段空间特征的提取，利用短期特征互换模块沿着时间维度对提取的特征实施部分通道互换获得了短期的时间特征，利用长期特征融合模块将提取特征在长期时间范围内传播和融合，获得长期的时间特征，最后利用行为预测模块对视频片段的行为类别做出最终判断。因此，构建了包括空间特征提取模块、短期特征互换模块、长期特征融合模块和行为预测模块的长短期时域行为识别网络模型。

(1)空间特征提取模块

空间特征提取模块由50层的ResNet网络构成，包含16个Bottleneck模块，其中4个Bottleneck模块含有下采样层，ResNet网络的不同Bottleneck模块提取输入视频片段不同阶段的空间特征，ResNet网络的最后一层输出每一帧相对于所有类别的得分。

(2)短期特征互换模块

在每一个Bottleneck模块前都***一个短期特征互换模块。如图2所示，短期特征互换模块沿着时间维度将每一帧的特征与前后相邻两帧的特征互换。由于每一帧的特征由多个通道构成，为了较少计算量，采取互换部分通道，前1/8通道上的特征与前一帧交换，与之相邻的1/8通道上的特征与后一帧互换，剩余的6/8通道保持不变。为了防止特征互换后，损害了每一帧原有的空间特征，本发明采用残差的思想，将互换后的特征与输入的原始特征叠加，既得到了短期的时间特征，也保留了原有的空间特征。整个过程可以用公式表示为：

F₂ ^s＝Stm(F₁,F₂,F₃)+F₂ (1)

其中，Stm(·,·,·)代表短期特征互换操作，帧I₂通过与相邻的两帧I₁、I₃交换部分通道得到短期的时间特征，然后加上其原始特征F₂，从而获得经过短期特征互换模块处理后的特征F₂ ^s，F₁表示前一帧I₁的原始特征，F₂表示当前帧I₂的原始特征，F₃表示后一帧I₃的原始特征。整个过程既没有引入额外的参数，也不需要消耗很多的计算资源。

(3)长期特征融合模块

在最后两个包含下采样层的Bottleneck模块之前分别加入一个长期特征融合模块，长期特征融合模块置于所***的短期特征互换模块之前。

长期特征融合模块以输入的特征图中提取的特征作为全连接图的节点。首先，将输入的特征图F∈R^C×T×H×W“拉直”，形成一个新的特征图F'∈R^C×L，L＝T×H×W，C表示通道的数量，T表示视频片段的帧数，H表示每一帧特征的高度，W表示每一帧特征的宽度，之后通过一个一维卷积操作从特征图F'中提取出多个特征f₁,f₂...f_n，其中，f_k表示一维卷积提取的第k个特征，k＝1,…,n，n表示提取的特征的数量。

然后，构建单层的全连接图，将提取的特征f₁,f₂...f_n作为全连接图的节点。接着，采用图卷积方法对节点上的信息在长期时间范围内传播和融合。图卷积操作如下：

Y＝A_lVW_l (2)

其中，V是全连接图的节点，它是由提取的多个特征f₁,f₂...f_n构成，A_l和W_l分别代表长期特征融合模块中的邻接矩阵和权重矩阵，Y为在长期时间范围内传播和融合获得的长期时间特征。在图卷积中，首先邻接矩阵A_l学习节点之间边的权重，进行信息传播，之后通过权重矩阵W_l更新节点的状态。同时为了防止优化困难和退化问题，在更新节点的状态步骤之前(右乘权重矩阵W_l之前)和整个图卷积操作之后，分别添加了恒等映射。因而图卷积操作优化成如下方式：

Y＝(V+A_lV)W_l+V (3)

最后，通过反卷积操作把图卷积操作获得的长期时间特征Y转化为与此模块的输入特征图F具有相同结构的特征图，从而使经过长期特征融合模块处理的特征与空间特征提取模块的特征结构适配，此过程是模块输入特征图转化为全连接图的节点的逆过程。

(4)行为预测模块

行为预测模块用平均法将空间特征提取模块得到的视频片段所有的帧相对于所有类别的得分按照类别进行平均，得分最高的类别作为视频片段的最终行为识别结果，同时也作为未预处理的原始视频的行为识别结果。

3、网络模型训练

设定网络训练参数，网络的损失函数为均方误差损失函数，训练网络的方法为随机梯度下降法，批量大小为16，训练的学习率为0.01，学习率每10个训练轮回降低10倍，总共训练30个训练轮回。然后利用步骤1得到的训练数据集对构建好的长短期时域行为识别网络模型进行训练，训练好的网络即为最终的行为识别网络模型；

4、将测试数据集中的视频输入到训练好的长短期时域行为识别网络模型中，得到测试集中每个视频的行为识别结果。同时如果将任意视频输入到网络中，也都能得到其对应的行为识别结果。

为了验证本发明方法的有效性，在

i7-6800K、NVIDIA GeForce GTX1080GPU、Ubuntu16.04操作***，OpenCV3.2.0、cuda9.2.148、cudann7.3.1以及PyToch1.0.0深度学***衡，需要的计算资源较少且准确率高，更具实用性。

表1

方法	输入帧数	运算量(ms)	准确率(％)
				TSN	8	16G	19.5
Multi-Scale TRN	8	16G	34.4
				ECO	8	32G	39.6
I3D	32×2clips	153G×2	41.6
				本发明	8	33G	40.6

Claims

1.一种基于长短期时域建模算法的轻量级视频行为识别方法，其特征在于如下步骤：