CN117237994B

CN117237994B - 一种油气作业区人员计数及行为检测方法、装置及***

Info

Publication number: CN117237994B
Application number: CN202311501021.7A
Authority: CN
Inventors: 宗涛; 刘云川; 易军; 陈凡
Original assignee: Chongqing Hongbao Technology Co ltd; Sichuan Hongbaorunye Engineering Technology Co ltd
Current assignee: Chongqing Hongbao Technology Co ltd; Sichuan Hongbaorunye Engineering Technology Co ltd
Priority date: 2023-11-13
Filing date: 2023-11-13
Publication date: 2024-02-13
Anticipated expiration: 2043-11-13
Also published as: CN117237994A

Abstract

本申请揭示了一种油气作业区人员计数及行为检测方法、装置及***，所述方法包括：S100：采集油气作业区内的人员流动和人员作业图像并进行预处理；S200：构建人员流动计数模型并进行训练；S300：将预处理后的人员流动图像输入训练好的人员流动计数模型，以实现对油气作业区内的人员流动进行计数；S400：构建人员行为检测模型并进行训练；S500：将预处理后的人员作业图像输入训练好的人员行为检测模型，以实现对油气作业区内的人员行为进行检测。本申请通过构建人员流动计数模型及人员行为检测模型，能够提升人员计数及人员行为检测的精度。

Description

一种油气作业区人员计数及行为检测方法、装置及***

技术领域

本申请涉及一种油气作业区人员检测方法，特别涉及一种油气作业区人员计数及行为检测方法、装置及***。

背景技术

在油气作业区，为了保证作业区安全，需要对入场人员进行计数和行为检测。

传统的人员计数方法主要采用人工手动计数，或使用大型深度学习计数模型进行计数，其中，人工手动计数存在计数不准确、效率低和人工成本高的问题，而大型深度学习计数模型则存在模型过大以至于部署困难的问题。

传统的安全检测方法主要采用人工巡检以及大型行为检测模型，二者均存在巡检不全面、漏检、误检、难以实时检测等问题。

因此，需要一种更加准确、高效、全面的入场人员计数及行为检测方法和装置。

发明内容

针对现有技术中的不足，本申请的目的在于提供一种油气作业区人员计数及行为检测方法、装置及***，该方法以及装置和***能够提升人员计数以及人员行为识别的精度与速度。

为实现上述目的，本申请提供以下技术方案：

一种油气作业区人员计数及行为检测方法，所述方法包括如下步骤：

S100：采集油气作业区内的人员流动和人员作业图像并进行预处理；

S200：构建人员流动计数模型并进行训练；

其中，所述人员流动计数模型包括编码器和解码器，所述编码器中引入超强通道注意力模块以增强通道间信息的联系；所述解码器包括改进后的大卷积核特征融合网络，改进后的大卷积核特征融合网络将膨胀卷积模块中原有的1个深度卷积、1个深度膨胀卷积和1个1×1卷积改设为3个并列的具有不同膨胀率的深度膨胀卷积；

S300：将预处理后的人员流动图像输入训练好的人员流动计数模型，以实现对油气作业区内的人员流动进行计数；

S400：构建人员行为检测模型并进行训练；

其中，所述人员行为检测模型采用轻量级异常行为检测网络，包括主干网络、改进后的具有注意机制的CNN-LSTM异常行为识别模块，改进后的具有注意机制的CNN-LSTM异常行为识别模块包括两个堆叠的ConvLSTM模块以及在堆叠后的ConvLSTM模块后额外引入了注意力机制；

S500：将预处理后的人员作业图像输入训练好的人员行为检测模型，以实现对油气作业区内的人员行为进行检测。

优选的，步骤S100中，对图像预处理包括以下步骤：调整图像的尺寸、亮度，以及对图像进行数据清洗和数据增强。

优选的，步骤S200中，所述人员流动计数模型通过以下步骤进行训练：

S201：收集图像数据集，并对数据集中的图像进行人员数量标注；

S202：对标注好的图像进行预处理，以获得预处理后的图像数据集；

S203：将预处理后的图像数据集划分为训练集和测试集；

S204：通过训练集对模型进行训练，在训练过程中，计算模型的损失函数，当损失函数收敛，模型训练完成；

S205：通过测试集对模型进行测试，在测试过程中，计算模型预测结果与实际标注之间的误差，当误差小于预设范围，则模型测试通过；否则调整训练参数重新对模型进行训练。

优选的，所述轻量级异常行为检测网络还包括特征选择模块、Flatten层和Dense层。

优选的，步骤S400中，所述人员行为检测模型通过以下步骤进行训练：

S401：收集包括人员正常行为和异常行为的图像数据集；

S402：对数据集中的图像进行预处理，以获得预处理后的图像数据集；

S403：将预处理后的图像数据集划分为训练集和测试集；

S404：通过训练集对模型进行训练，当达到最大训练次数，模型训练完成；

S405：通过测试集对训练后的模型进行测试，计算模型预测结果与实际标签之间的差异，当差异小于阈值，则模型测试通过；否则调整训练参数重新对模型进行训练。

本申请还提供一种油气作业区人员计数及行为检测装置，包括：

采集模块，用于采集油气作业区内的人员流动和人员作业图像；

预处理模块，用于对图像进行预处理；

第一模型构建及训练模块，用于构建人员流动计数模型并进行训练；其中，所述人员流动计数模型包括编码器和解码器，所述编码器中引入超强通道注意力模块以增强通道间信息的联系；所述解码器包括改进后的大卷积核特征融合网络，改进后的大卷积核特征融合网络将膨胀卷积模块中原有的1个深度卷积、1个深度膨胀卷积和1个1×1卷积改设为3个并列的具有不同膨胀率的深度膨胀卷积；

计数模块，用于将预处理后的人员流动图像输入训练好的人员流动计数模型，以实现对油气作业区内的人员流动进行计数；

第二模型构建及训练模块，用于构建人员行为检测模型并进行训练；其中，所述人员行为检测模型采用轻量级异常行为检测网络，包括主干网络、改进后的具有注意机制的CNN-LSTM异常行为识别模块，改进后的具有注意机制的CNN-LSTM异常行为识别模块包括两个堆叠的ConvLSTM模块以及在堆叠后的ConvLSTM模块后额外引入了注意力机制；

检测模块，用于将预处理后的人员作业图像输入训练好的人员行为检测模型，以实现对油气作业区内的人员行为进行检测。

本申请还提供一种油气作业区人员计数及行为检测***，包括：监控设备、边缘端和云端，其中，

所述监控设备用于获取人员流动及作业图像；

所述边缘端用于基于人员流动计数模型进行人员计数和用于基于人员行为检测模型进行人员行为检测以及用于产生报警信息；

所述云端用于基于边缘端产生的报警信息对人员流动计数模型和人员行为检测模型进行参数更新，以实现对人员流动计数模型和人员行为检测模型的再训练。

本申请还提供一种计算机存储介质，所述计算机存储介质存储有计算机可执行指令，所述计算机可执行指令用于执行如前任一所述的方法。

本申请还提供一种电子设备，包括：

存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，

所述处理器执行所述程序时实现如前任一所述的方法。

与现有技术相比，本申请带来的有益效果为：

1、本申请所构建的人员流动计数模型通过采用以注意力机制与大核卷积特征融合的轻量级人群计数方法，解决了传统人群计数网络参数量冗余、推理速度慢的问题，能够显著减小网络参数量，提升推理速度，良好地避免特征同质化；

2、本申请所构建的人员行为检测模型为一种基于时序特征融合轻量级的人群异动检测方法，该方法能够提升人群异常行为识别的精度与速度。

附图说明

图1是本申请一个实施例提出的一种油气作业区人员计数及行为检测方法的流程图；

图2是本申请另一个实施例提出的人员流动计数模型（LEDCrowdNet）的结构示意图；

图3是图2中大卷积核特征融合网络（AMLKA）的结构示意图；

图4是本申请另一个实施例提出的人员行为检测模型（EdgeLiteDet）的结构示意图；

图5是图4中ConvLSTM模块的内核结构示意图；

图6是本申请另一个实施例提出的时间序列模块的结构示意图；

图7是本申请另一个实施例提出的人员流动计数模型（LEDCrowdNet）在ShanghaiTech数据集的可视化结果；

图8是本申请另一个实施例提出的人员流动计数模型（LEDCrowdNet）在UCF-QNRF数据集的可视化结果；

图9是本申请另一个实施例提出的人员流动计数模型（LEDCrowdNet）在WorldExpo’10数据集的可视化结果；

图10是本申请另一个实施例提出的人员计数及行为检测***的示意图。

具体实施方式

下面将参照附图1至图10详细地描述本申请的具体实施例。虽然附图中显示了本申请的具体实施例，然而应当理解，可以通过各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

需要说明的是，在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可以理解，技术人员可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名词的差异作为区分组件的方式，而是以组件在功能上的差异作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”或“包括”为一开放式用语，故应解释成“包含但不限定于”。说明书后续描述为实施本申请的较佳实施方式，然所述描述乃以说明书的一般原则为目的，并非用以限定本申请的范围。本申请的保护范围当视所附权利要求所界定者为准。

为便于对本申请实施例的理解，下面将结合附图以具体实施例为例做进一步的解释说明，且各个附图并不构成对本申请实施例的限定。

一个实施例中，如图1所示，本申请提出一种油气作业区人员计数及行为检测方法，包括以下步骤：

S100：采集油气作业区内的人员流动和人员作业图像；

S200：构建人员流动计数模型并进行训练；

S300：将所述人员流动图像输入训练好的人员流动计数模型，以实现对油气作业区内的人员流动进行计数；

S400：构建人员行为检测模型并进行训练；

S500：将所述人员作业图像输入训练好的人员行为检测模型，以实现对油气作业区内的人员行为进行检测。

上述实施例构成了本申请的完整技术方案。本实施例通过构建并训练人员流动计数模型以及人员行为检测模型，能够提升油气作业区内的人员计数以及人员行为检测的精度与速度。

另一个实施例中，对图像预处理包括以下步骤：调整图像的尺寸、亮度，以及对图像进行数据清洗和数据增强。

本实施例中，通过预处理，可以提高模型的鲁棒性和泛化能力。

另一个实施例中，步骤S200中，如图2所示，所述人员流动计数模型（LEDCrowdNet）为单列网络，包括编码器和解码器。其中，编码器（Encoder）包括移动端视觉注意力网络（Mobile-ViT）的前4个特征提取层，用于对输入图像进行特征提取，每个特征提取层依次分别输出1/4R的特征图、1/8R的特征图、1/16R的特征图和1/16R的特征图。解码器（Decoder）包括改进后的大卷积核特征融合网络（AMLKA）和一个1x1卷积层Conv，其中，改进后的大卷积特征融合模块（AMLKA）的输出和经第三个ECANet输出的大小为1/16R的特征图（即为原图的16分之1）相加（即图2中所示的）后进行上采样（即图2中所示的/>），然后与第二个ECANet输出的大小为1/8R的特征图相加，最后通过一个1×1Conv层获得融合特征信息。

进一步的，本实施例在移动端视觉注意力网络（Mobile-ViT）的前4个特征提取层中的每个特征提取层后引入了超强通道注意力模块（ Efficient Channel Attention forDeep Convolutional Neural Networks，ECANet），同时，将每个超强通道注意力模块中实现权重共享的1D卷积的卷积核大小设置为3。通过在编码器中引入超强通道注意力模块，一方面能够避免由于通道数下降造成的信息丢失；另一方面又能够增强通道间信息的联系，使得模型更好地学习到有用的信息。

此外，发明人将对不添加注意力机制时的状态（w/o）以及SENet、ECANet和SKNet三种不同注意力机制在ShanghaiTech Part B数据集中对人员计数精度的影响进行了比对，比对结果如表1所示：

表1 不同注意力机制对比表

由表1可以看出，在ShanghaiTech Part B数据集上，相比不添加注意力机制时的状态，本申请所采用的ECANet的计算量（GFlops）和参数量（Param）保持不变；相比SENet和SKNet，ECANet拥有最低的平均绝对误差（MAE）和均方误差（MSE），MAE和MSE反应了预测值与真实值的差异，误差越小，就说明预测值就越接近于真实值。

进一步的，MobileViT对输入图像进行的处理过程包括：

1、MobileViT将输入图像分割成一系列固定大小的图像块，称为“patch”。每个patch都被展平为一个向量，并添加一个可学习的位置编码。

2、MobileViT为每个patch添加位置编码，使得模型可以学习到图像中各个patch的相对位置信息。

3、MobileViT使用一个嵌入层将每个patch的特征向量映射到一个更高维度的向量空间，该嵌入层可以帮助模型更好地捕捉图像中的细节和语义信息。

4、MobileViT使用多个Transformer编码器层来提取图像的特征，每个编码器层都由多头自注意力机制（multi-head self-attention）和前馈神经网络（feed-forwardneural network）组成。这些编码器层通过自注意力机制允许模型在特征提取的过程中进行全局的上下文理解。

5、MobileViT通过全局平均池化层对每个特征向量进行平均操作，得到一个固定长度的特征向量表示整个图像。

6、MobileViT通过最后的一个全连接层和softmax函数将特征向量映射到预定义的类别数上，以进行图像分类或其他视觉任务。

改进后的大卷积核特征融合网络（AMLKA）用于对由编码器所提取的特征进行融合，如图3所示，改进后的大卷积核特征融合网络（AMLKA）包括三个卷积核大小为5*5的且膨胀率不同的膨胀卷积模块LKA（如图3所示，三个LKA模块的膨胀率（dilation rate）分别为r=1，r=2，r=3），以对由编码器提取到的特征进行融合，融合过程如下：

编码器输出的特征图E（分辨率最低）经过3个膨胀率不同的LKA模块进一步提取后，可获得三张不同膨胀率的特征图，将三张不同膨胀率的特征图相加（即图3中所示的），再通过Softmax激活函数（即图3中所示的/>）与由编码器输出的特征图相乘（即图3中所示的/>）后再输出。其中，LKA模块定义如下：W_A

Conv_iD_r

其中，表示输入特征图，代表第个LKA模型，在本实施例的模型中，设置，表示深度卷积，表示膨胀率的深度卷积，设置，表示第个LKA模块中的1×1卷积运算，表示特征图通过, 和之后的过程特征图，表示与进行点积运算之后的特征图，表示、、对应元素之和的特征图，表示通过函数的权重。

需要说明的是，传统特征融合网络中的LKA模块将大核卷积分解为1个深度卷积、1个深度膨胀卷积和1个1×1卷积，使得网络既获得了更大的感受野，又不会增加过多参数量，但只设置一个深度膨胀卷积存在以下两个问题：

(1)由于卷积核中有一部分是0，使用0元素进行卷积的像素，信息会丢失，并且多次叠加后会产生网格效应。

(2)卷积采样到的信息间隔过大，获取到的远距离信息可能不相关。

为解决上述问题，本实施例对传统特征融合网络中的LKA模块进行了改进，即将传统大卷积核特征融合网络的LKA模块中的原有的1个深度卷积、1个深度膨胀卷积和1个1×1卷积改设为3个并列的具有不同膨胀率的深度膨胀卷积，每列深度膨胀卷积只使用一次膨胀卷积，避免了网格效应（网格效应出现的是因为膨胀卷积中含有过多的0元素，多次使用后得到的特征图就会出现空白的网络，所以只使用一次膨胀卷积就能避免）；并且由于3列具有不同膨胀率的深度膨胀卷积拥有不同的感受野，从而可以得到特征图中不同位置的特征信息。因此，在输出阶段将三种特征图相加，便可以弥补采样到的信息之间相关性缺失。但由于主干网络输出的特征图通道数较多，每个通道中像素点之间的联系较弱，为了加强像素点之间的联系，本实施例使用Softmax激活函数对三个LKA模块输出的不同膨胀率的特征图的维度信息进行归一化，最后再与由MobileViT输出的特征图相乘并形成密度图，通过对密度图进行像素值求和即可完成人员计数。

下面，本申请基于ShanghaiTech数据集（该数据集共有1535张图像，训练集有1201张，测试集有334张）、UCF-QNRF数据集（该数据集共有1535张图像，训练集有1201张，测试集有334张），并以不同的视角拍摄不同的场景）、UCF-CC-50数据集（该数据集包含50张图片，但有标记行人63,075人。它的密度范围跨度巨大 (从94人到4,543人)和WorldExpo’10数据集（该数据集共有3,980张图像，共标记行人199,923人，单一场景包含的行人不超过220人，因此并不是非常密集的人群场景。训练集有103个场景，共 3,380张图像，测试集有5个场景，共600张图像）对本申请所述的人员流动计数模型与现有经典算法进行比对，具体比对结果如表2所示：

表2 不同算法比对表

表2中，在基于ShanghaiTech数据集的对比中，将LEDCrowdNet与最先进的算法进行了比较，其中，最先进的算法划分为第一组和第二组，第一组算法（从CP-CNN至STNet）使用更复杂的具有更多参数的网络结构，第二组算法（从MCNN至Lw-Count）使用具有更少参数的轻量级或简单的网络结构。由以上比对结果可知，本申请所采用的LEDCrowdNet比第一组中的部分算法更具竞争力，MAE和MSE均显著低于SaCNN、SWitch-CNN，LEDCrowdNet的参数仅为2.06m，而P2PNet在所有方法中MSE最好。虽然LEDCrowdNet在MAE和MSE指标方面不如它，但LEDCrowdNet参数的数量仅为它的11%。在第二组算法中，LEDCrowdNet在MAE和MSE方面的性能优于其它算法。ShanghaiTech数据集可视化结果如图7所示。说明低参数的LEDCrowdNet也可以获得相对的计数性能和密度图生成能力，更容易部署在边缘设备上。

进一步的，在基于UCF-QNRF数据集的对比中，与表2中的第一组算法比较，LEDCrowdNet的性能与SUA-Fully相当，但SUA-Fully的参数量约为LEDCrowdNet的8倍。与第二组中的轻量级计数算法相比，LEDCrowdNet的MAE与MSE均达到了最低值。从而可以进一步证明，LEDCrowdNet在视角和光线变化的场景中可以取得更好的计数效果。图8显示了LEDCrowdNet在UCF-QNRF数据集中的一些可视化结果，其中，GT表示真实人数，EST表示预测人数。由图8可以看出，在场景多变的情况下，LEDCrowdNet仍然可以得到更准确的人群分布密度图，估计人数更接近实际人数。

进一步的，在基于UCF-CC-50数据集的对比中，与表2中的第一组方法比较，LEDCrowdNet的计数性能与P2PNet相当。在第二组中，LEDCrowdNet再次达到了最优结果。这是因为 LEDCrowdNet可以通过 AMLKA 模块的多尺度并行卷积编码器捕获更详细的特征，这有助于小头的模型检测。此外，LEDCrowdNet可以通过AMLKA更好地聚合多尺度特征，从而获得更准确的人数。图8展示了LEDCrowdNet在UCF-CC-50数据集中的一些可视化结果。不同人群规模、密度和场景的测试结果表明，LEDCrowdNet具有很强的拟合能力。

进一步的，图9显示了LEDCrowdNet在WorldExpo’10数据集中的一些可视化结果，结合表2可以看出，LEDCrowdNet可以更好地处理监控摄像头拍摄的不同场景的人群图像。

另一个实施例中，步骤S200中，所述人员流动计数模型通过以下步骤进行训练：

S203：将预处理后的图像数据集划分为训练集和测试集；

该步骤中，损失函数可以是均方误差（MSE）或平均绝对误差（MAE）。

S205：通过测试集对模型进行测试，在测试过程中，通过计算模型预测结果与实际标注之间的误差，当误差小于预设范围（每张图的预测人数与实际人数相差在5人以下），则模型测试通过；否则调整训练参数重新对模型进行训练。

另一个实施例中，步骤S300中，所述人员行为检测模型包括轻量级异常行为检测网络（EdgeLiteDet）。

本实施例中，如图4所示，所述轻量级异常行为检测网络（EdgeLiteDet）包括主干网络、改进后的具有注意机制的CNN-LSTM异常行为识别模块（ACL,Abnormal BehaviorRecognition Using CNN-LSTM with Attention Mechanism）、特征选择模块、Concatenate层、Flatten层和Dense层。该检测网络能够基于所输入的固定帧数的视频片段实现对作业人员包括人群异常聚集、人群异常逃散、人群视频分类在内的异常行为进行检测和预警。

如图4中的（a）部分所示，主干网络包括MobileViT网络的前4个特征提取层，并且在每个特征提取层后加入一个批归一化BN层，用于加速和锐化网络。

如图4中的（b）部分所示，相比现有的只包括一个ConvLSTM模块的ACL模块，改进后的ACL模块将两个ConvLSTM模块堆叠，通过堆叠，使得下一个ConvLSTM模块可以接收上一个 ConvLSTM模块的隐藏状态作为其输入，从而能够逐步捕获更高级别的通道特征，例如，第1 层ConvLSTM通过处理主干网络输出的特征图，得到每个特征图的隐藏状态序列。然后将隐藏状态序列输入到第 2 层ConvLSTM 中，得到第2层的隐藏状态，作为整个ConvLSTM网络的输出。每层的输出结果可以通过如下等式来解释：

其中，是ConvLSTM层在时间步的输入，S是时间步长t的总和，是激活函数，、、分别是t时刻的输入门、遗忘门和输出门，是t-1时刻的内核状态，是t时刻的内核状态，是矩阵元素乘积，是卷积运算，tanh是激活函数，是t-1时刻的输出，W_gi 是第一层ConvLSTM的输入门的权重，W_hi是第二层ConvLSTM的输入门的权重，W_ci是内核状态的的输入门的权重，W_gf是第一层ConvLSTM的遗忘门的权重，W_hf是第二层ConvLSTM的遗忘门的权重，W_cf是内核状态的遗忘门的权重，W_gc是第一层ConvLSTM的内核状态的权重，W_hc是第二层ConvLSTM的内核状态的权重，W_go是第一层ConvLSTM的输出门的权重，W_ho是第二层 ConvLSTM的输出门的权重，W_co是内核状态的输出门权重，b_i是输入门的偏移量，b_f是遗忘门的偏移量，b_c是内核状态的偏移量，b_o是输出门的偏移量，下标g、h、c分别表示第1层 ConvLSTM的输入、第2层ConvLSTM的输入和内核状态，下标i、f、o分别表示输入们、遗忘门和输出门。ConvLSTM 层的最终输出由输出门和更新单元决定。第1层ConvLSTM的输入是，第2层ConvLSTM的输入是；第1层和ConvLSTM的输出是，第2层ConvLSTM的输出是。最后，便可获得时刻的时空特征。

综上，通过堆叠，使得后一个ConvLSTM模块能够对前一个ConvLSTM模块所提取的特征进行进一步的组合和抽象，较浅的 ConvLSTM模块可以捕获低级别的空间和时间特征，而较深的 ConvLSTM 模块可以通过对前面模块的输出进行更高级别的组合和抽象，从而捕获更加复杂的特征。

需要说明的是，在ConvLSTM模块中，如图5所示，（图5中，H_t-1,，C_t-1表示在t-1时刻的输入信息；H_t,，C_t表示在t时刻的输入信息；H_t,+1，C_t+1表示在t+1时刻的输入信息；X_t表示在t时刻的输出信息；X_t+1表示在t+1时刻的输出信息）卷积层的输入输出都是三维张量，表示为(T，H，W)，其中，T表示图像的时序信息，H、W 表示图像行和列的空间信息。若把ConvLSTM当作处理二维网格图像中特征向量的模型，那么卷积操作就是根据周围点的特征来预测中心网络的特征。

本实施例通过两个ConvLSTM模块的堆叠可以得到更大的模型复杂性。简单的前馈网络在建立过程中，通过堆叠隐藏层以创建更详细的输入数据的分层特征表示，然后将其用于某些机器学习任务。如果输入已经是ConvLSTM层（或前馈层）的结果，则当前ConvLSTM可以创建当前输入的更复杂的特征表示。通过堆叠可以使网络的特征提取能力更强，提取到更多有用信息。

进一步的，改进后的ACL模块还在堆叠后的ConvLSTM模块后引入了注意力机制模块（Attention），堆叠后的ConvLSTM模块与注意力机制模块（Attention）串联后构成了如图 6所示的时间序列模块，时间序列模块的输出可通过 ConvLSTM模块不同时刻的输出通过加权和的方式求得，具体如下所示：

其中，n + 1是视频流序列的长度，S是时间步长t的总和，是时间步长的注意力值，其中，注意力值由下式计算：

其中，表示视频序列中每个部分的重要性，可由下式计算：

其中，、和是可学习参数，T是总的时间，s是视频序列，是ConvLSTM模块的隐藏输出。时刻的注意力值取决于当前时刻及其前步的输入和隐藏层变量。注意力值也可以看作是视频序列选择门的激活。这组门控制每个视频流进入网络的信息量。值越大，该帧对最终预测结果的贡献越重要，可以让网络重点关注异常行为发生的那几帧，从而提高最终判断的准确率。

特征选择模块（如图4中的（c）部分所示）由Conv1与Conv2两个卷积层以及Sigmoid激活函数组成。Conv1是输入通道为320，输出通道为640的1×1卷积；Conv2是输入通道为640，输出通道为320的1×1卷积。在特征选择模块中，由主干网络输出的特征图首先经过Conv1进行升维，这是因为主干网络输出的特征图通道数为320，所包含信息量对于视频预测来说过少，所以通过该卷积层增加信息量。然后特征图再经过Sigmoid函数进行特征选择，这样可以剔除背景信息，保留重要的人群运动信息，从而增强网络的特征提取能力。最后，特征图经过Conv2进行降维，使其能与改进后的ACL模块输出的特征图按照通道数由Concatenate层进行拼接。

需要说明的是，通过将改进后的ACL模块与特征选择模块输出的特征图通过进行拼接，能够使得轻量级异常行为检测网络（EdgeLiteDet）获取到浅层特征，从而避免了因网络层数增加时模型出现更高的误差，并且利于解决梯度消失的问题。拼接后的特征图经过Flatten层进行展平以及最后通过全连接层（Dense）进行分类。

下面，本申请基于UCSD Ped2数据集（UCSD Ped2数据集是用于行人检测和异常事件检测的视频数据集。其中，UCSD Ped2数据集包含16个训练集和12个测试集视频片段，每个视频片段包含360×240分辨率的行人行走路径。这些数据集都包括异常事件，主要是汽车、自行车等交通工具闯入人行道的情况，这些情况都可能会引起人群四散奔逃）和CUHKAvenue数据集（CUHK Avenue数据集包含16 个视频片段的训练集，包含21个视频片段的测试集，分辨率为640x360。测试集中共包括47个异常事件，主要是人的异常行为如：投掷物品、奔跑、跳舞等，投掷物品以及奔跑可能会引起人群逃散，跳舞可能会引起人群聚集的现象，CUHK Avenue数据集中的视频片段）以及PETS 2009数据集对检测网络EdgeLiteDet与现有方法对于人员行为的检测进行了比对，并通过Accuracy，Precision、Recall、F1-score、ROC曲线和AUC 值5个指标（其中，Accuracy准确率是指预测正确的样本数占总样本数的比例；Precision精确率是指所有预测为正例的样本中，真正为正例的样本占比。精确率强调的是模型预测为正例时的准确性；Recall召回率是指所有真实为正例的样本中，被正确预测为正例的样本占比。召回率强调的是模型对正例样本的查全率；F1-score则综合考虑了精确率和召回率的表现，AUC值用于评价二分类任务中模型的性能，适用于正负样本比例不均衡、阈值调节较难的场景）对比对结果进行了评价。表3为基于UCSD Ped2数据集的评价结果，表4为基于CUHK Avenue数据集的评价结果：

表3 基于UCSD Ped2数据集的Precision、Recall、F1-Score和AUC评价结果对比表

由表3可知，对于自行车闯入和汽车闯入这两个类别，Precision和Recall的表现相对较为平衡，F1-Score都在70%以上，说明模型在这些情况下的性能较为稳定。对于正常这个类别，Precision和Recall的表现均较为优秀，F1-Score高达87.37%，说明网络在这种情况下的分类效果非常好。从平均值来看，网络在该数据集上的性能较为稳定，三个类别的平均F1-Score均在80%左右。该数据集的平均AUC为92.29%，说明网络在整个任务上的表现也相当不错。综上所述，网络在该数据集上的性能表现较优秀，但在不同类别上的表现存在一定的差异，在该场景下，网络对于自行车闯入的判别效果更好。

表4 基于CUHK Avenue数据集的Precision、Recall、F1-Score和AUC评价结果对比表

由表4可知，自行车闯入的Precision 为 90.86%，即模型预测的自行车闯入事件中，90.86% 的事件是真正的自行车闯入事件；Recall 为 89.94%，即在所有真正的自行车闯入事件中，网络检测到了 89.94% 的事件；F1-Score 为 90.40%，是 Precision 和Recall 的调和平均数；AUC 为 96.01%，是 ROC 曲线下面积，表示分类器在不同阈值下的性能；Accuracy 为 78.12%，即***正确分类的样本占总样本的比例。在安全领域中，Recall 可能更重要，因为不能错过任何一个真正的异常行为，在该数据集上我们的网络各项指标的标准差均较小，说明其性能较优越。

另一个实施例中，所述人员行为检测模型通过以下步骤进行训练：

S401：收集包括人员正常行为和异常行为的图像数据集；

S403：将预处理后的图像数据集划分为训练集和测试集；

S404：通过训练集对模型进行训练，当达到最大训练次数（例如设定为500次），模型训练完成；

S405：通过测试集对训练后的模型进行测试，计算模型预测结果与实际标签之间的差异，当差异小于阈值（阈值设定为预测准确率为90%），则模型测试通过；否则调整训练参数重新对模型进行训练。

另一个实施例中，本申请还提供一种油气作业区人员计数及行为检测装置，包括：

预处理模块，用于对图像进行预处理；

另一个实施例中，如图10所示，本申请还提供一种油气作业区人员计数及行为检测***，包括：监控设备、边缘端和云端，其中，

所述监控设备用于获取人员流动及作业图像；

另一个实施例中，本申请还提供一种计算机存储介质，所述计算机存储介质存储有计算机可执行指令，所述计算机可执行指令用于执行如前任一所述的方法。

另一个实施例中，本申请还提供一种电子设备，包括：

所述处理器执行所述程序时实现如前任一所述的方法。

尽管以上结合附图对本发明的实施方案进行了描述，但本发明并不局限于上述的具体实施方案和应用领域，其中验证对象不局限于特定传感器布置角度或分体式叶盘结构，上述的具体实施方案仅仅是示意性的、指导性的，而不是限制性的。本领域的普通技术人员在本说明书的启示下和在不脱离本发明权利要求所保护的范围的情况下，还可以做出很多种的形式，这些均属于本发明保护之列。

Claims

1.一种油气作业区人员计数及行为检测方法，其特征在于，所述方法包括如下步骤：

S200：构建人员流动计数模型并进行训练；

S400：构建人员行为检测模型并进行训练；

具体的，所述主干网络包括MobileViT网络的前4个特征提取层，每个特征提取层后加入一个批归一化BN层；

所述异常行为识别模块包括两个堆叠的ConvLSTM模块，堆叠后的ConvLSTM模块后引入了注意力机制模块，堆叠后的ConvLSTM模块与注意力机制模块串联后构成了时间序列模块；

所述人员行为检测模型还包括特征选择模块，所述特征选择模块由Conv1与Conv2两个卷积层以及Sigmoid激活函数组成，Conv1是输入通道为320，输出通道为640的1×1卷积；Conv2是输入通道为640，输出通道为320的1×1卷积；

所述人员行为检测模型还包括Concatenate层，用于对异常行为识别模块和特征选择模块输出的特征图进行拼接；

所述人员行为检测模型还包括Flatten层和全连接层；

所述人员行为检测模型通过以下步骤进行训练：

S401：收集包括人员正常行为和异常行为的图像数据集；

S403：将预处理后的图像数据集划分为训练集和测试集；

S405：通过测试集对训练后的模型进行测试，计算模型预测结果与实际标签之间的差异，当差异小于阈值，则模型测试通过；否则调整训练参数重新对模型进行训练；

2.根据权利要求1所述的方法，其特征在于，步骤S100中，对图像预处理包括以下步骤：调整图像的尺寸、亮度，以及对图像进行数据清洗和数据增强。

3.根据权利要求1所述的方法，其特征在于，步骤S200中，所述人员流动计数模型通过以下步骤进行训练：

S203：将预处理后的图像数据集划分为训练集和测试集；

4.一种用于实施如权利要求1所述方法的油气作业区人员计数及行为检测装置，其特征在于，所述装置包括：

预处理模块，用于对图像进行预处理；

5.一种用于实施如权利要求1所述方法的油气作业区人员计数及行为检测***，其特征在于，所述***包括：监控设备、边缘端和云端，其中，

所述监控设备用于获取人员流动及作业图像；

所述边缘端用于基于如权利要求1所述的人员流动计数模型进行人员计数和用于基于如权利要求1所述的人员行为检测模型进行人员行为检测以及用于产生报警信息；

6.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1至3任一所述的方法。

7.一种电子设备，其特征在于，包括：

所述处理器执行所述程序时实现权利要求1至3任一所述的方法。