CN115995052A

CN115995052A - 一种端到端的考场行为分析方法及***

Info

Publication number: CN115995052A
Application number: CN202211560021.XA
Authority: CN
Inventors: 郭毅; 董笑然
Original assignee: National Assessment Technology Beijing Co ltd
Current assignee: National Assessment Technology Beijing Co ltd
Priority date: 2022-12-06
Filing date: 2022-12-06
Publication date: 2023-04-21

Abstract

本发明公开了一种端到端的考场行为分析方法及***，由视频输入管理模块、视频解码模块、图像预处理模块、原始帧待预测队列、原始帧队列、AI模块、分析结果记录模块以及异常事件视频生成模块组成，使用端到端的AI模型训练及推理方案，可以高效的通过大量历史数据进行训练，在使用中处理速度快，效率高，端到端的AI模型，以连续的视频帧为输入，推理后以疑似违规行为的矩形框提示为输出。在后处理部分，对模型输出进行时空域关联与滤波，最后产生疑似违规行为的时空位置信息，场景适应性好，在需要新的场景，或者添加新的需要识别的动作时，只需要添加新的训练数据，重训练，就完成了算法的扩展，节省人力，提高了效率。

Description

一种端到端的考场行为分析方法及***

技术领域

本发明涉及考生行为检测技术领域，具体涉及一种端到端的考场行为分析方法及***。

背景技术

为了维护考试的严肃性，视频监控监考已经是考场常规要求。在考试中，视频留存了大量数据，人工对视频内容筛查效率底，难以控制标准化的筛查准确性。今年，神经网络发展下的视频分析技术得到了很大提高，计算机辅助的视频违规分析成为可能。一些方法采用基于骨骼特征点的特征进行行为分析的方法。但这种方法在使用中有一些问题：

1、考生违规行为类别多种多样，用骨骼点的方法难以扩展多种类别的动作。

2、受视频角度影响，斜视视角下的部分座位的骨骼点分布差异大，无法用统一的公式表示作弊动作的分类器。

3、基于骨骼点的方法，需要复杂的后帧间处理流程，需要大量的参数优化调参工作。

本方法绕开了上述骨骼点提取，以端到端的模型方法方案，输入为短视频序列，通过两个分支的卷积，对视频信息的空间时间信息进行提取，并对预定义动作进行定位。

发明内容

为解决上述技术问题，本发明提供一种端到端的考场行为分析方法，包括以下步骤：

获取采集到的实时视频数据，根据所述实时视频数据获取单帧图像；

通过样本标注工具对所述单帧图像中的目标对象进行识别并样本标注；

根据所述目标对象对所述单帧图像进行标注，获取至少一个目标图像；

采用目标跟踪方法，提取所述目标图像中目标对象的特征数据，以及该事件在开始和结束帧之间每帧图像上事件发生的位置坐标；

筛选出目标对象为考生的目标图像，根据所述目标图像对应的单帧图像，获取连续视频片段，根据所述单帧图像和连续视频片段进行交互聚合，将所有标注后的数据导出负样本，对应到原始视频上；

人工标注事件，导出标注结果。

优选的：所述样本标注就是人工标出视频中的上述5种违规动作，包括违规动作从开始到结束过程的每帧图像的位置及违规动作的类别。

优选的：所述单帧图像按3帧每秒进行抽帧，将抽帧后的图片保存为待标注样本。

优选的：所述样本标注工具，对导入的图像序列进行事件标注，一个完整事件包括开始帧Frame.start、结束帧Frame.stop以及该事件在开始和结束帧之间每帧图像上事件发生的位置坐标。

优选的：所述负样本指考生考生过程中的正常动作，定量描述如下：

图像中的人(考生)，没有标注为违规动作的时间序列；

与标注动作重叠区间ROI<50％的动作序列；

图像中除人之外其他区域。

优选的：所述损失函数的设计：

损失函数主要包括两部分：一部分是事件类别的损失LCls，用来衡量事件被正确分类的情况；

另一部分是实际位置的损失LD，用来衡量事件的位置被正确标出的情况。

一种端到端的考场行为分析***，由视频输入管理模块、视频解码模块、图像预处理模块、原始帧待预测队列、原始帧队列、AI模块、分析结果记录模块以及异常事件视频生成模块组成。

优选的：所述视频输入管理模块用于接收并管理用户设定的待分析的实时视频流。该模块以用户设定协议方式连接视频源，并拆解数据流中的控制数据，将其中的视频数据码流通过共享内存块的方式发送到视频解码模块。

优选的：所述视频解码模块从与视频输入管理模块的共享内存中接受实时视频流，探测视频流的原始编码格式及分辨率，帧率视频信息。

优选的：所述AI模块包含AI推理初始化，数据输入控制，AI预测推理，推测结果解码，预测结果合并过滤，结果输出功能，具体操作步骤：

S1、初始化一个空的事件列表。

S2、当有新的检出结果，将其与队列中的每个已有结果进行IOU运算，如果空间交叠比例大于0.5则将两个事件为(x1,y1,x2,y2,conf,type)(x1’,y1’,x2’,y2’,conf’,type’)的事件合并为一个坐标为(min(x1,x1’),min(y1,y1’),max(x2,x2’),max(y2,y2’))的事件，置信度为max(conf,conf’)类别标记为conf大的事件。

如果空间交叠比例小于0.5则将新的检出增加到列表中；

S3、重复步骤2直到将所有的事件都放入列表中；

S4、将列表事件中的坐标按变换比率计算为原始坐标信息，并顺序推入与分析结果记录模块连接的消息队列中。每条记录中包含如下信息(帧号，xo,yo,xo’,yo’,confidence,type)；

S5、分析结果记录模块从消息队列中获取所有标记的事件，并记录到数据库当中。并按帧号从图像队列中取得原始帧及其后的若干帧,并将按坐标(xo,yo,xo’,yo’)再原始画面上用线框标记出事件位置，将标记过的帧按顺序推入视频压缩模块，生成带标注的异常事件视频。

本发明的技术效果和优点：

1、本发明中使用端到端的AI模型训练及推理方案，可以高效的通过大量历史数据进行训练，在使用中处理速度快，效率高，端到端的AI模型，以连续的视频帧为输入，推理后以疑似违规行为的矩形框提示为输出。在后处理部分，对模型输出进行时空域关联与滤波，最后产生疑似违规行为的时空位置信息。

2、采用端到端的模型训练及推理方案，方案简洁清晰，模型训练效率高，推理简洁。

3、场景适应性好，在需要新的场景，或者添加新的需要识别的动作时，只需要添加新的训练数据，重训练，就完成了算法的扩展，节省人力，提高了效率。

附图说明

图1是本申请实施例提供的端到端的考场行为分析***的网络结构图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。本发明的实施例是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

实施例1

请参阅图1，在本实施例中提供一种端到端的考场行为分析方法，输入分为两个分支，在3D CNN网络分支中，使用连续图像作为模型输入，主要用于提取行为在空间和时间的信息。输入图像的维度为[3×D×H×W]，其中：3表面图像是3通道彩色(RGB)图像，D代表图像的数量，根据一个动作发生时，本案通常选择8，H代表图像的高度，W代表图像宽度，输入图像通常为1280×720。

3D CNN网络部分，本案使用ResNext50 3D卷积神经网络，提取时空域的特征信息,输出特征向量的维度为[C’×D’×H’×W’],其中：C’为输出通道数量，D’＝1,H’＝H/32,W’＝W/32。

另一分支2D CNN，以中间帧图像作为输入，本输入分支主要用于提取行为信息在空间的位置信息。输入图像的维度为[3×H×W]，通过CSPDarknet53网络结构提取特征，提取时空域的特征信息,输出特征向量的维度为[C”×D”×H”×W”],其中：C”为输出通道的数量，D”＝1,H”＝H/32,W”＝W/32

3D CNN分支输出的特征层与2D CNN分支输出的特征层相连接，作为特征提取的结果。将两个分支输出结果混合后，继续进行2D CNN特征提取，此处本案采用了YOLOV4的Neck和Head。

最终输出也分为两个分支，一个分支是对识别出的行径进行分类；另一分支用来递归计算行为的空间位置。

其中，原始视频部分来源于实际考试所录制的视频，部分来自人为制作包含各种作弊行为的视频。本案共使用了100个视频，其中88个用于作为训练视频，12个作为测试视频。视频总时长有56,249秒，约1,406,225张图像。共包含五中违规动作：举手、站立、扭头、伸手及其他可疑行为事件(正样本)标注：

样本标注就是人工标出视频中的上述5种违规动作，包括违规动作从开始到结束过程的每帧图像的位置(BBox)及违规动作的类别。人工标注流程包括：

将原始视频抽样得到固定时间间隔的图像序列；

将图像导入到标注工具；

人工标注事件(Action，指上述的各种违规动作)；

导出标注结果。

为了减轻人工标注工作量，本案对原始视频进行降采样。一般视频帧率为25帧每秒，我们按3帧每秒进行抽帧。将抽帧后的图片保存为待标注样本。

使用样本标注工具，对导入的图像序列进行事件标注。一个完整事件包括开始帧Frame.start，结束帧Frame.stop，以及该事件在开始和结束帧之间每帧图像上事件发生的位置坐标(BBoxes)。

将所有标注后的数据导出，对应到原始视频上。

负样本的产生:

负样本是指考生考生过程中的正常动作，定量描述如下：

图像中的人(考生)，没有标注为违规动作的时间序列

与标注动作重叠区间ROI<50％的动作序列。

图像中除人之外其他区域。

损失函数(Loss)的设计：

损失函数主要包括两部分：一部分是事件类别的损失LCls，用来衡量事件被正确分类的情况，另一部分是实际位置的损失LD，用来衡量事件的位置被正确标出的情况。两部分相加即总得损失，如下：

L_final＝λL_D+L_Cls

其中，λ＝0.5，LD为检测误差，LCls为分类误差。

L_D＝L_x+L_y+L_w+L_h+L_conx

上式中，使用L1 Smooth Loss分别计算x，y，w，h的损失。

L1 Smooth Loss计算公式为：

其中，x为预测结果，y为ground truth的值。

对于其中的Lconf，使用Lmse Loss，定义为：

L_MSE(x，y)＝(x-y)²

LCls使用Focal Loss，定义为：

L_foal(x，y)＝y(1-x)^γlog(x)+(1-y)x^γlog(1-x)

训练过程：

首先，我们独立初始化了2D和3D两个网络分支。其中3D网络，我们使用了在Kinetics上的预训练权重；2D网络分支使用了在PASCAL VOC数据集上的预训练权重。我们使用了随机梯度下降(SGD，Stochastic Gradient Decent)法和权重衰减策略来优化损失函数。初始学习率(LR，Learning Rate)选定为1e05，每过10轮(Epoch)训练后将学习率减少到原来的0.5。完整的架构在4块NVIDIA 1080TIGPU上，采用Pytorch端到端训练框架，在40个Epoch后，损失函数达到稳定值。

实施例2

在本实施例中，提供一种端到端的考场行为分析***，由视频输入管理模块、视频解码模块、图像预处理模块、原始帧待预测队列、原始帧队列、AI模块、分析结果记录模块以及异常事件视频生成模块组成。

视频输入管理模块用于接收并管理用户设定的待分析的实时视频流。该模块以用户设定协议方式连接视频源，并拆解数据流中的控制数据，将其中的视频数据码流通过共享内存块的方式发送到视频解码模块。用户可选择的连接协议包括:视频文件，SIP,RTSP,GB28181,TCP模式。

视频解码模块从与视频输入管理模块的共享内存中接受实时视频流，探测视频流的原始编码格式及分辨率，帧率视频信息。以相应的解码器对视频流进行解码操作，还原原始图像数据。解码器模块包含H264,H265，webm,分辨率包含360P，720P,1080P,2K视频多种分辨率。原始视频解码模块对解码后,将其一路推入原始帧对别；另一路对图像进行时域降采样以及空间域图像尺寸归一化，根据探测到的视频帧率，按3帧/秒的抽取视频关键帧；将其分辨率resize到推理模块的输入尺寸即1280x720，并记录变换比率ratio。并将关键帧以及对应帧号压入图像待预测内存队列的队尾。

AI模块包含AI推理初始化，数据输入控制，AI预测推理，推测结果解码，预测结果合并过滤，结果输出功能。AI权重文件为在方法部分所述训练的输出结果，在AI推理机初始化阶段，AI推理机初始化模型结构并加载AI权重文件。本案例使用nvidia triton推理服务引擎作为推理机。数据输入控制部分监控帧待预测队列的队列长度，当数据长度大于于本案选择的帧长度8帧的时候，从帧待预测队列的头部取出8帧数据，并将数据拼接成数组的形式作为AI推理机的输入，从队列顶部弹出4帧图像；从而再下次取得数据时，有4帧数据为上次推理过的数据，4帧数据为全新数据，即两次推理间隔有50％的数据产生交叠，这样的方式可以更好的避免动作产生的时刻与抽样时刻没有对其，而产生漏检测问题。AI预测推理机对输入数据按加载模型及权重进行推理预测，并产生如方法所述的两个分支的预测结果。按方法所述对预测结果进行解码，可得到行为分类及置信度(type,confidence),BBox位置信息(x1,y1,x2,y2)，其中x1,y1,为bbox左上角坐标，x2,y2为bbox右下角坐标。

预测结果合并过滤包括置信度过滤，重合事件合并两个个功能。置信度过滤功能按预设***灵敏度设定的置信度阈值，将预测结果中低于置信度的结果抛弃，本案默认使用的置信度为0.5。重合事件合并功能将同一帧上位置重叠的事件合并为同一个事件。

具体操作步骤：:

S1、初始化一个空的事件列表。

如果空间交叠比例小于0.5则将新的检出增加到列表中；

S3、重复步骤2直到将所有的事件都放入列表中；

显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域及相关领域的普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。本发明中未具体描述和解释说明的结构、装置以及操作方法，如无特别说明和限定，均按照本领域的常规手段进行实施。

Claims

1.一种端到端的考场行为分析方法，其特征在于，包括以下步骤：

人工标注事件，导出标注结果。

2.根据权利要求1所述的一种端到端的考场行为分析方法，其特征在于，所述样本标注就是人工标出视频中的上述5种违规动作，包括违规动作从开始到结束过程的每帧图像的位置及违规动作的类别。

3.根据权利要求2所述的一种端到端的考场行为分析方法，其特征在于，所述单帧图像按3帧每秒进行抽帧，将抽帧后的图片保存为待标注样本。

4.根据权利要求3所述的一种端到端的考场行为分析方法，其特征在于，所述样本标注工具，对导入的图像序列进行事件标注，一个完整事件包括开始帧Frame.start、结束帧Frame.stop以及该事件在开始和结束帧之间每帧图像上事件发生的位置坐标。

5.根据权利要求4所述的一种端到端的考场行为分析方法，其特征在于，所述负样本指考生考生过程中的正常动作，定量描述如下：

图像中的人(考生)，没有标注为违规动作的时间序列；

与标注动作重叠区间ROI<50％的动作序列；

图像中除人之外其他区域。

6.根据权利要求5所述的一种端到端的考场行为分析方法，其特征在于，所述损失函数的设计：

7.一种端到端的考场行为分析***，其特征在于，由视频输入管理模块、视频解码模块、图像预处理模块、原始帧待预测队列、原始帧队列、AI模块、分析结果记录模块以及异常事件视频生成模块组成。

8.根据权利要求7所述的一种端到端的考场行为分析***，其特征在于，所述视频输入管理模块用于接收并管理用户设定的待分析的实时视频流。该模块以用户设定协议方式连接视频源，并拆解数据流中的控制数据，将其中的视频数据码流通过共享内存块的方式发送到视频解码模块。

9.根据权利要求8所述的一种端到端的考场行为分析***，其特征在于，所述视频解码模块从与视频输入管理模块的共享内存中接受实时视频流，探测视频流的原始编码格式及分辨率，帧率视频信息。

10.根据权利要求9所述的一种端到端的考场行为分析***，其特征在于，所述AI模块包含AI推理初始化，数据输入控制，AI预测推理，推测结果解码，预测结果合并过滤，结果输出功能，具体操作步骤：

S1、初始化一个空的事件列表。

如果空间交叠比例小于0.5则将新的检出增加到列表中；

S3、重复步骤2直到将所有的事件都放入列表中；