CN109635790A

CN109635790A - 一种基于3d卷积的行人异常行为识别方法

Info

Publication number: CN109635790A
Application number: CN201910079769.XA
Authority: CN
Inventors: 刘兆森; 应娜; 郭春生; 朱辰都; 杨鹏; 李怡菲
Original assignee: Hangzhou Electronic Science and Technology University
Current assignee: Hangzhou Dianzi University; Hangzhou Electronic Science and Technology University
Priority date: 2019-01-28
Filing date: 2019-01-28
Publication date: 2019-04-16

Abstract

本发明公开一种基于3D卷积的行人异常行为识别方法，包括步骤：S1：创建一个包含打架斗殴、遛狗、摔倒等异常行为的数据集；S2：结合最新的视频行为识别方案，构建一个兼顾精度与速率的3D卷积神经网络；S3：对数据集中图像进行预处理后送入3D卷积神经网络，得到视频异常行为识别模型；S4：输入测试行人监控视频，输出异常行为类型。本发明所述识别方法将轻量级的2D卷积网络MobileNet思想迁移到3D网络中，可以在保持识别性能的基础上降低计算成本；同时，采用自适应池化层与稀疏时间采样策略，可以减少连续帧中包含大量冗余的信息与模糊噪声。

Description

一种基于3D卷积的行人异常行为识别方法

技术领域

本发明属于视频处理技术领域，主要涉及行人异常行为识别，具体来说，即基于3D卷积的行人异常行为识别方法。

背景技术

行为识别在现实生活中有着广泛应用，引起了广大研究团队的兴趣。随着深度学习技术在图像领域的快速发展，研究者开始相信深度学习方法也可以用于视频分析和理解等任务。相比于传统的基于人工特征方法，采用深度学习方法的模型能够自动地获取有意义的分层特征表示。然而，从互联网或者电影中获取的视频片段比之前的标准数据中库中的视频样本更加复杂，这些视频片段包含了大量的运动成分。这些因素使得学习一个有意义的视觉表示更加困难，如何从视频中提取有效的特征仍然是众多研究人员的核心工作。

在深度神经网络体系结构中使用3D卷积是一种流行且有效的学习视频特征方法。3D卷积是2D卷积的扩展，具有三维内核，可以沿时间维度卷积。通过简单地替换2D空间卷积核，3D卷积核可用于构建3D CNN，使得模型可以实现端到端的训练。最先进的3D CNN模型，如Res 3D和I3D以这种直截了当的方式构建了CNN模型，并使用多层3D卷积来学习强大的视频特征，在多个数据集上实现了最高精度，但是计算代价非常高昂。

发明内容

尽管最近的算法着重于提高3D CNN的效率，同时保持其在视频识别任务上的最先进的准确性。例如，3D MF-Net每个残差块内部引入稀疏连接，在精度与速率上取得了一定的成效，但其中的3D卷积依旧有很大的计算量，本发明使用MobileNet中的可深度分离卷积思想、宽度乘数以及分辨率乘数进一步减少网络模型的计算量，此外采用自适应池化层与稀疏时间采样策略，重点关注信息量较高的关键帧，丢弃大部分非信息帧，以减少连续帧中包含大量冗余的信息与模糊噪声。

本发明采取如下技术方案：

一种基于3D卷积的行人异常行为识别方法，包括步骤：

S1：创建一个包含异常行为的数据集；

S2：结合视频行为识别方案，构建一个兼顾精度与速率的3D卷积神经网络；

S3：对数据集中图像进行预处理后送入3D卷积神经网络，得到视频异常行为识别模型；

S4：输入测试监控视频，输出异常行为类型。

所述的，所述步骤S3具体实施步骤如下：

S3.1：对训练视频大小调整分辨率，使用稀疏采样方案在长视频序列上提取短片段，然后在各片段的时间维度上进行均匀采样，最终将各片段中的采样帧拼接为一组连续帧；

S3.2：将输入图像送入3D卷积神经网络，通过一系列三维卷积操作，非线性激活函数，三维池化操作层层堆叠，逐层从原始数据获取高层语义信息，输出学习的特征向量；

S3.3：计算输出层实际值和输出值间的偏差，根据反向传播算法中的链式法则，得到每个隐藏层的误差，根据每层的误差调整各层的参数，完成网络的反向传播过程；

S3.4：不断迭代前两步中的正向传播和反向传播过程，直至网络收敛。

优选地，所述数据集主要筛选收集自KTH、CASIA、Kinetics、UCF-101等数据集以及网络视频数据，包含骑自行车、打架斗殴、遛狗、摔倒等异常行为与正常行走行为，每类分为训练集、验证集和测试集。

优选地，所述网络结构，将3D多纤维单元加入ResNet-18网络中，并将平均池化层替换为自适应池化层，用于聚合对最终任务具有辨别力的帧的信息。

优选地，所述3D卷积层，采用深度可分离卷积思想，通过在空间域(相当于2D CNN)加上3×1×1的卷积核上模拟3×3×3卷积，以达到进一步减小计算量的目的。

以下是本发明一种优选方案：

一种基于3D卷积的行人异常行为识别方法，按如下步骤进行：

1.将训练视频大小调整为224×224分辨率，使用稀疏采样方案在长视频序列上提取短片段：给定视频V，我们将其分成相等持续时间的K个段{S₁，S₂，...，S_K}。然后，在各片段的时间维度上进行均匀采样，得到采样帧T₁，T₂，…，T_K，拼接为一个张量{T₁，T₂，...，T_K}作为模型的输入；

2.建立基于3D卷积的行人异常行为识别的网络结构，将将分解为空间域卷积串联时间域卷积的3D多纤维单元加入ResNet-18网络中，并将平均池化层替换为自适应池化层，稍微调整通道的数量，用于降低处理视频的GPU内存成本；

3.将输入图像送入3D卷积神经网络进行训练，训练过程中，初始学习率为0.1，衰减因子为0.1；使用动量随机梯度下降作为优化器学习网络参数，动量设置为0.9，权重衰减设置为0.0001；batch size设置为32；

4.使用交叉熵损失函数开算计算输出层实际值y_i∈{1,2，…，C}和输出值h_j,j∈{1,2,…，C}间的偏差，具体形式如下：

根据反向传播算法中的链式法则，得到每个隐藏层的误差，根据每层的误差调整各层的参数，完成网络的反向传播过程，不断迭代正向传播和反向传播过程，epoch设置为100。

5.测试并验证利用上述步骤可训练得到异常检测模型，输入测试监控视频，输出异常行为类型，并进行精度与速度测试。

本发明与现有技术相比有如下优点：

1.本发明将轻量级的2D卷积网络MobileNet思想迁移到3D网络中，可以在保持识别性能的基础上降低计算成本。

2.本发明采用自适应池化层与稀疏时间采样策略，可以减少连续帧中包含大量冗余的信息与模糊噪声。

附图说明

下面结合附图对本发明作进一步描述。

图1是视频异常行为识别框架图；

图2是设计的模型架构图；

图3是自适应池化层的结构图。

具体实施方式

以下参考附图，对本发明的进一步详细阐述。

本发明中的视频异常行为识别整体框架如图1所示，可以看到行为识别主要可以分为三个部分：数据采集、数据预处理以及分类器的训练和使用。首先是数据采集步骤，本发明创建了一个较小的异常行为数据集，主要筛选收集自KTH、CASIA、Kinetics、UCF-101等数据集以及网络视频数据，包含骑自行车、滑滑板/平衡车、打架斗殴、遛狗、摔倒5类异常行为与正常行走1类正常行为的6类数据集，与Kinetics数据集类似，每类分为训练集、验证集和测试集，分别包含大约400、30、70个视频片段，每个视频片段持续时间为10s左右。然后对数据集中的视频进行提取帧、重设尺寸等预处理操作。

接下来是行为特征提取阶段，本发明基于ResNet网络的设计思想，用3D多纤维单元替换原结构中的残差单元，构建了一个包含18层卷积层的网络，具体架构如图2所示，在图2中，输入为数据集数据，经过一系列卷积与池化操作最终由全连接层输出预测结果。

此外，本发明将其中的平均池化层替换为自适应池化层，该模块通过仅聚合对最终任务具有辨别力的帧的信息来选择性地聚合帧特征，而忽略其余的冗余帧。如图3所示，自适应池化模块通过递归计算两个操作来实现池化。第一个操作表示为f_imp，使用三层多层感知器预测判别重要性，输出每帧的判别重要性分数；第二个操作是加权平均合并操作，通过利用当前帧的特征及其判别重要性分数来聚合先前合并的特征，并输出计算的新特征。由于后续操作仅依赖于标准的线性和非线性操作，因此它既计算快速，又可以轻松地整合到CNN网络的端到端学习中。

最近，S3D和R(2+1)D采用深度可分离卷积思想，通过在空间域(相当于2D CNN)加上3×1×1的卷积核上模拟3×3×3卷积，不仅提高了模型的训练速度，同时实现了更好的精度，本发明将部分或全部多纤维模块中的3×3×3卷积核加以分解，以达到进一步减小计算量的目的。

本发明结合最新的视频行为识别方案，使用MobileNet中的可深度分离卷积思想、宽度乘数以及分辨率因子进一步减少网络模型的计算量，并采用自适应池化层与稀疏时间采样策略，重点关注信息量较高的关键帧，最终提出一个兼顾精度与速率的行人异常行为识别模型。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于3D卷积的行人异常行为识别方法，其特征在于，包括步骤：

S1：创建包含异常行为的数据集；

S2：结合视频行为识别方案，构建3D卷积神经网络；

S3：对所述数据集中的图像进行预处理，送入所述3D卷积神经网络，得到视频异常行为识别模型；

S4：输入测试监控视频，输出异常行为类型。

2.如权利要求1所述的一种基于3D卷积的行人异常行为识别方法，其特征在于，所述步骤S3具体实施步骤如下：

S3.1：对训练视频大小调整分辨率，使用稀疏采样方案在长视频序列上提取短片段，在各短片段的时间维度上进行均匀采样，最终将各短片段中的采样帧拼接为一组连续帧；

S3.2：将输入图像送入3D卷积神经网络，通过三维卷积操作，非线性激活函数，三维池化操作层层堆叠，逐层从原始数据获取高层语义信息，输出学习的特征向量；

S3.4：迭代S3.1和S3.2中的正向传播和反向传播过程，直至网络收敛。

3.如权利要求1所述的一种基于3D卷积的行人异常行为识别方法，其特征在于：

所述异常行为数据集筛选收集于KTH、CASIA、Kinetics、UCF-101数据集以及网络视频数据，包括正常行走行为和异常行为，所述异常行为包含骑自行车/滑滑板/平衡车、打架斗殴、遛狗和摔倒，每类行为分为训练集、验证集和测试集。

4.如权利要求1所述的一种基于3D卷积的行人异常行为识别方法，其特征在于：

所述3D卷积神经网络，将3D多纤维单元加入ResNet-18网络中，并将平均池化层替换为自适应池化层，用于聚合对最终任务具有辨别力的帧的信息。

5.如权利要求4所述的一种基于3D卷积的行人异常行为识别方法，其特征在于：

所述3D卷积层，采用深度可分离卷积思想，在空间域加上3×1×1的卷积核上模拟3×3×3卷积。