CN115761888A

CN115761888A - 基于nl-c3d模型的塔吊操作人员异常行为检测方法

Info

Publication number: CN115761888A
Application number: CN202211462437.8A
Authority: CN
Inventors: 邓珍荣; 李志宏; 蓝如师; 杨睿
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2022-11-22
Filing date: 2022-11-22
Publication date: 2023-03-07

Abstract

本发明公开了一种基于NL‑C3D模型的塔吊操作人员异常行为检测方法，包括如下步骤：1）采集塔吊作业操作人员操作过程的监控视频数据集；2）通过算法把视频数据划分成图像帧，然后裁剪图像帧的图像尺寸；3）在C3D网络中融合非局部模块，得到NL‑C3D网络模型；4）将步骤2）的图像帧数据集按训练集、验证集和测试集的顺序依次导入到NL‑C3D网络模型中进行训练与检验，然后利用softmax分类器得到最后的结果。这种方法提高了检测精度，检测更细致。

Description

基于NL-C3D模型的塔吊操作人员异常行为检测方法

技术领域

本发明属于计算机视觉中行为识别领域，涉及一种异常行为识别检测方法，具体是一种基于NL-C3D模型的塔吊操作人员异常行为检测方法。

背景技术

随着视频监控技术的快速发展，该技术已被广泛的应用于各行各业，监控视频的数据量飞速增长，让异常行为检测随之成为了一项重要的研究任务，尤其在各个设计安防的领域中相应的异常行为检测成为了研究的一个难点。

传统的异常行为检测方法有例如像基于手工特征进行的，利用低级轨迹特征、定向流直方图(HOF)、方向梯度直方图(HOG)等记录运动的特征模式。但由于手工的方式不足以描述行为的特征，所以对于监控视频的复杂场景并不推荐使用。此外，新的一些基于深度学习的方法也不断涌现，有基于循环神经网络的方法，如Yeung等人提出的基于RNN再通过强化学习训练的高精度分析模型，Escorcia等人提出的长短期记忆网络(LSTM)，这些方法在处理长视频时效率非常低，且提取的基本特征不支持联合训练。另外还有像采用两阶段的检测方法：先从视频中预选一些可能的区域，再对这些候选的区域分类。这种类型的方法再预选区域时同样会有耗时长导致效率低的问题，而且分阶段的方式可能会在局部找到最优解而无法保证是全局最优解。这些网络在对视频进行处理时，主要的重心在于对当前帧的分析，对当前帧的前后帧分析不足，而作为视频中人物的连贯动作而言视频的上下文信息时非常重要的。

发明内容

本发明的目的是针对目前在技术上出现的问题，而提供一种基于NL-C3D模型的塔吊操作人员异常行为检测方法。此方法通过优化网络结构，通过整合全局特征来加强常规卷积神经网络上下文建模的能力，在视频中行为识别检测有更好的表现。

实现本发明目的的技术方案是：

基于NL-C3D模型的塔吊操作人员异常行为检测方法，包括如下步骤：

1)收集关于塔吊操作人员操作过程的监控视频数据集,将视频数据集分为训练集、验证集和测试集；

2)通过算法把视频数据划分成图像帧,然后裁剪图像帧的图像尺寸,确保图像的大小一致,并保持相应数量的图像帧样本，具体为将所导入的视频帧调整成shape是[10,16,112,112,3]的尺寸,其中16代表frame_length,表示每个样本的训练的尺寸为16帧,而112则代表图像的crop_size,表示视频帧的裁剪后的尺寸为112×112像素,3代表输入通道数；

3)在C3D网络中融合非局部模块，得到NL-C3D网络模型；

4)将步骤2)的图像帧数据集按训练集、验证集和测试集的顺序依次导入到NL-C3D网络模型中进行训练与检验,然后利用softmax分类器得到最后的结果。所述步骤1)中收集视频数据集的过程为：用摄像机拍摄操作视频，其中分辨率大于320像素*240像素，帧速率大于25帧/秒，然后,将数据集按每四帧截取一帧,得到帧图像,对于无法根据此间隔数让网络结构的进入时间宽度超过十六帧的设备,则将这部分图像手动减少采样步长直到符合至少十六帧的规定，在转化为帧图像的同时,把数据集依照6:2:2的比率,分为训练集、验证集和测试集。

所述步骤2)中裁剪图像帧的图像尺寸，并保持相应数量的图像帧样本，具体步骤为：在输入处理过程中,为增强模型的安全性与精度,先将图像帧随机剪切成112×112像素,然后在输出的视频帧中确定选择网络的视频帧的初始地址,随后在该地址上通过一个滑动窗口选择十六帧的网络输入视频帧,所选择的视频帧大小为3×16×112×112,同时利用随机翻转以及沿着图像帧RGB这三条路径依次进行的减法运算,来实现对数据增强的处理，最后,使用图形标记软件Labelimg对图形进行标记行为，标注为“打电话”、“抽烟”、“玩手机”和“打瞌睡”异常行为。

所述步骤3)中在C3D网络中融合非局部模块，得到NL-C3D网络模型的步骤为：

3.1)原C3D网络模型采用了3D卷积和3D池化作为主体，主体由8个通道分别是64、128、256、256、512、512、512、512的3D卷积层、5个3D池化层、2个全连接层以及softmax分类器构成，在卷积层进行融合非局部神经网络时，相比于原C3D网络模型，将非局部网络作为一个整体通过残差连接的方式与卷积层融合，使得每层卷积层都融合了非局部神经网络模块；

3.2)C3D卷积模块的输入X形状为T,H,W,C,其中T为图像的通道数，H为视频帧长度，W为视频帧的高度，C为视频帧的长度，在C3D网络模型中融合非局部神经网络模块后，输入X将分别输入θ、

和g的卷积模块，θ、

和g分别对应步长为1的1×1卷积，再将这些卷积模块的输出结果进一步矩阵变维；

3.3)将θ与

的变维计算结果通过矩阵相加得出(C,C)的矩阵,然后通过Softmax完成归一化分析,分析过后的结果与g分支变维后的计算结果完成进一步的矩阵相乘；

3.4)将3.3)获得的结果再变维后输入g卷积模块中,最后再与输入X的结果进行残差相加,得到融合了非局部神经网络模块的C3D网络模型，即NL-C3D网络模型。

所述步骤4)中将图像帧导入到NL-C3D网络模型中进行训练和检验的步骤为：

4.1)将尺寸为3×16×112×112的视频帧，传入NL-C3D网络模型中，NL-C3D网络层次分别为64通道的卷积层、128通道的卷积层、两个256通道的卷积层、两个512通道的卷积层、两个512通道的卷积层，以上的卷积层后面都分别接一层池化层，之后是两个2096维度的全连接层以及softmax层，最终输出[10,n]的维度信息，其中n是训练所用的数据集的类别数；

4.2)在对卷积层融合了非局部的神经网络后,NL-C3D网络模型通过压缩通道特性、聚合全局空间特征增强了目标的局部特性，首先，统计当前位置的像素点与特征图内所有的像素点之间的相似性值,接着对存在相似性值的区域进行特征加权求和,从而增加该区域的特征信息,进而实现全局特性提升的效果，非局部操作将某一个区域的值和特征映射的全部特征信息加权求和，如公式(1)所示：

其中x,y分别表示输入特征和输出特征，相当于图形和视频中的特征图像,二者都拥有同样的维度，i表示特征点的当前位置编码，j表示特征图像中的其他特征点的编码；函数f(x_i,x_j)则表示x_i和x_j间的关联度，即描述了两者之间的关联程度，即f值越小，j对i干扰程度越小；g(x_j)是提供图形在j处特征的线性组合函数；C(x)为归一化参数，f(x_i,x_j)是高斯函数，如公式(2)所示：

归一化因子C(x)表示，如公式(3)所示：

从公式(1)得出，由于非局部操作考虑了当前地址和特征位置中所有位置的关系，所以它能够有效的捕捉到视频帧的多位置依赖关系，且卷积层和非局部神经网络的连接采取的是一种残差连接结构，当非局部操作在具体实现时，会相应的转换成为矩阵乘法和卷积运算的形式，经过各种运算和转换后，输出特征维度Z与输入X具有相同的维度，因此能直接添加到网络的各个卷积模块而不必修改网络，添加了非局部神经网络的卷积部分可定义如公式(4)所示：

Z_i＝W_zY_i+X_i (4)，

其中Y_i由公式(1)的运算得到，W_z则是权重矩阵，‘+X_i’代表残差连接，用这种残差连接的方式，获得视频的时空特性而不干扰模型中原有的参数与初始化方法；

4.3)在卷积的方面使用三维卷积,它能从视频的空间和时间维度上对相邻帧进行卷积操作获得信息,这样既能保留空间数据信息又能保存时间数据信息，相比于2D卷积,输入的图象中多了一条深度维度,而卷积核也增加了一个维度，针对多通道,输入的大小为3×16×112×112；

4.4)为了防止过拟合，在NL-C3D网络模型的每一层都引入了Dropout层，随机消除神经网路中的一些结点，并删除与这些结点相连的线，降低网络的复杂度，模型的Dropout率为ρ，保留的概率即为1-ρ；

4.5)损失函数部分是衡量网络结构在数据集上训练好坏的指标，其值越大也对应着错误较多，它作为参考的标准，在模型中使用的是交叉熵损失函数，如公式(5)所示：

H(p,q)＝-∑p(x)log q(x) (5)，

通过概率分布q来反映概率分布p的困难程度，其中，p代表正确答案概率，q代表的是预测值，交叉熵越小，则两种概率的分布值的差越小；

在此基础上,使用Softmax函数求出每个类的值概率，Softmax函数如公式(6)所示：

其中,S表示为每种结果以M的分类概率得分，通过M得出每个类别的平均得分S₁,S₂,...,S_M，当进行估计时,把某一个类别得分除以各种指标得分的总和,得出基础上最小损失的实际类,则该类的概率最大,即得到分类结果。

该技术方案与现行技术比较,具有以下优势:

1.本技术方案的方法能准确的检测出视频中人物行为；

2.本技术方案模拟采用了融合非局部神经网络中的通道特性、聚合网络空间特性,以提高其局部特性,提高检测精度；

3.为防止过拟合,新引入的Dropout层可以随机消除神经网络中的一些结点,还会去除所有与这些节点相连接的路线,以减少网络的复杂性。

这种方法是基于C3D模型的改进，在3D卷积部分融合局部神经网络模型，解决了视频帧的长距离依赖问题，加强了对特征信息的理解，提高检测的精确度；并在各层增加了Dropout层计算，减少计算量，防止过拟合，提高检测速度。

附图说明

图1为实施例的流程图；

图2为实施例中非局部神经网络的结构示意图；

图3为实施例中NL-C3D的网络结构示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的详细描述，但不是对本发明的限定。

实施例：

参照图1，基于NL-C3D模型的塔吊操作人员异常行为检测方法，包括如下步骤：1)收集关于塔吊操作人员操作过程的监控视频数据集,将视频数据集分为训练集、验证集和测试集；

2)通过算法把视频数据划分成图像帧,然后裁剪图像帧的图像尺寸,确保图像的大小一致,并保持相应数量的图像帧样本，具体为将所导入的视频帧调整成shape是[10,16,112,112,3]的尺寸,其中16代表frame_length,表示每个样本的训练的尺寸为16帧,而112则代表图像的crop_size,表示视频帧裁剪后的尺寸为112×112像素,3代表输入通道数；

3)在C3D网络中融合非局部模块，如图2所示，得到NL-C3D网络模型，如图3所示；

4)将步骤2)的图像帧数据集按训练集、验证集和测试集的顺序依次导入到NL-C3D网络模型中进行训练与检验,然后利用softmax分类器得到最后的结果。所述步骤1)中收集视频数据集的过程为：用摄像机拍摄操作视频，其中分辨率为320像素*240像素，帧速率大于25帧/秒，然后,将数据集按每四帧截取一帧,得到帧图像,截取后得到1620张图片，把数据集依照6:2:2的比率,分为训练集、验证集和测试集。

所述步骤2)中裁剪图像帧的图像尺寸，并保持相应数量的图像帧样本具体步骤为：在输入处理过程中,为增强模型的安全性与精度,先将图像帧随机剪切成112×112像素,然后在输出的视频帧中确定选择网络的视频帧的初始地址,随后在该地址上通过一个滑动窗口选择十六帧的网络输入视频帧,所选择的视频帧大小为3×16×112×112,同时利用随机翻转以及沿着图像帧RGB这三条路径依次进行的减法运算,来实现对数据增强的处理，最后,使用图形标记软件Labelimg对图形进行标记行为，标注为“打电话”、“抽烟”、“玩手机”和“打瞌睡”异常行为。

3.1)原C3D网络模型采用了3D卷积和3D池化作为主体，主体由8个通道分别是64、128、256、256、512、512、512、512的3D卷积层、5个3D池化层、2个全连接层以及softmax分类器构成，在卷积部分进行融合非局部神经网络时，相比于原C3D网络模型，将非局部网络作为一个整体通过残差连接的方式与卷积层融合，使得每层卷积层都融合了非局部神经网络模块；

和g的卷积模块，θ、

3.3)将θ与

归一化因子C(x)表示，如公式(3)所示：

Z_i＝W_zY_i+X_i (4)，

H(p,q)＝-∑p(x)log q(x) (5)，

性能评估：

以准确率和消耗时间作为评价指标，使用相同数据集在相同的实验环境下，将NL-C3D网络模型与C3D网络模型做对比检测结果如表1所示：

表1改进模型前后性能对比

网络模型	准确率	消耗时间/s
			C3D	0.72	268
NL-C3D	0.75	237

从上表可以看出NL-C3D模型在检测的精确度和消耗时间上都有提升，其原因是3D卷积部分融合局部神经网络模型，解决了视频帧的长距离依赖问题，加强了对特征信息的理解，提高检测的精确度；并在各层增加了Dropout层计算，减少计算量，防止过拟合，提高识别速度。

Claims

1.基于NL-C3D模型的塔吊操作人员异常行为检测方法，其特征在于，包括如下步骤：

2)通过算法把视频数据划分成图像帧,然后裁剪图像帧的图像尺寸,确保图像的大小一致,并保持相应数量的图像帧样本；

3)在C3D网络中融合非局部模块，得到NL-C3D网络模型；

4)将步骤2)的图像帧数据集按训练集、验证集和测试集的顺序依次导入到NL-C3D网络模型中进行训练与检验,然后利用softmax分类器得到最后的结果。

2.根据权利要求1所述的基于NL-C3D模型的塔吊操作人员异常行为检测方法，其特征在于，所述步骤1)中收集视频数据集的过程为：用摄像机拍摄操作视频，其中分辨率大于320像素*240像素，帧速率大于25帧/秒，然后,将数据集按每四帧截取一帧,得到帧图像,对于无法根据此间隔数让网络结构的进入时间宽度超过十六帧的设备,则将这部分图像手动减少采样步长直到符合至少十六帧的规定，在转化为帧图像的同时,把数据集依照6:2:2的比率,分为训练集、验证集和测试集。

3.根据权利要求1所述的基于NL-C3D模型的塔吊操作人员异常行为检测方法，其特征在于，所述步骤2)中裁剪图像帧的图像尺寸，并保持相应数量的图像帧样本的具体步骤为:在输入处理过程中,为增强模型的安全性与精度,先将图像帧随机剪切成112×112像素,然后在输出的视频帧中确定选择网络的视频帧的初始地址,随后在该地址上通过一个滑动窗口选择十六帧的网络输入视频帧,所选择的视频帧大小为3×16×112×112,同时利用随机翻转以及沿着图像帧RGB这三条路径依次进行的减法运算,来实现对数据增强的处理，最后,使用图形标记软件Labelimg对图形进行标记行为，标注为“打电话”、“抽烟”、“玩手机”和“打瞌睡”异常行为。

4.根据权利要求1所述的基于NL-C3D模型的塔吊操作人员异常行为检测方法，其特征在于，所述步骤3)中在C3D网络中融合非局部模块，得到NL-C3D网络模型的步骤为：

和g的卷积模块，θ、

3.3)将θ与

5.根据权利要求1所述的基于NL-C3D模型的塔吊操作人员异常行为检测方法，其特征在于，所述步骤4)中将图像帧导入到NL-C3D网络模型中进行训练和检验的步骤为：

归一化因子C(x)表示，如公式(3)所示：

Z_i＝W_zY_i+X_i (4)，

H(p,q)＝-∑p(x) log q(x) (5)，