CN112818929B

CN112818929B - 一种人员斗殴检测方法、装置、电子设备及存储介质

Info

Publication number: CN112818929B
Application number: CN202110217543.9A
Authority: CN
Inventors: 张玉阳; 包汉彬; 王中飞; 谢会斌; 李聪廷
Original assignee: Jinan Boguan Intelligent Technology Co Ltd
Current assignee: Jinan Boguan Intelligent Technology Co Ltd
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2023-04-18
Anticipated expiration: 2041-02-26
Also published as: CN112818929A

Abstract

本申请公开了一种人员斗殴检测方法、装置、电子设备及计算机可读存储介质，该方法包括：获取待测视频帧，并对待测视频帧进行基于肢体角度的动作检测，得到第一检测结果；对待测视频帧进行基于光流矢量的动作幅度检测，得到第二检测结果；对待测视频帧进行基于离散程度的人体关键点融合状态检测，得到第三检测结果；利用第一检测结果、第二检测结果和第三检测结果生成斗殴检测结果；若斗殴检测结果为命中，则确定检测到人员斗殴；该方法从多个角度对人员斗殴行为进行检测，并综合检测结果得到斗殴检测结果，因此得到的斗殴检测结果的准确率较高，减少了误报。

Description

一种人员斗殴检测方法、装置、电子设备及存储介质

技术领域

本申请涉及图像处理技术领域，特别涉及一种人员斗殴检测方法、人员斗殴检测装置、电子设备及计算机可读存储介质。

背景技术

随着近年来危害公共安全的打架斗殴等斗殴事件频繁发生，对公共场所中人员的异常行为检测成为计算机视觉领域研究的热点问题。目前，越来越多的公共区域都安装了监控摄像头，但是这些摄像头只能被动记录视频，仅作为事后调查的依据，而不能做到实时自动报警。为了解决这个问题，相关技术通过对人员之间的距离以及手臂指向，抬臂时长等判断是否存在人员斗殴情况。然而相关技术对于斗殴行为的判断逻辑比较简单，只是通过手臂的动作来判断打架的行为，而当图像中的人员在做操或持握公交车上的拉环时，很容易产生误报，因此仅能应用于特定场合，应用场景受限。

因此，相关技术存在的容易产生误报的问题，是本领域技术人员需要解决的技术问题。

发明内容

有鉴于此，本申请的目的在于提供一种人员斗殴检测方法、人员斗殴检测装置、电子设备及计算机可读存储介质，从多个角度对斗殴行为进行检测并综合检测结果得到斗殴检测结果，因此得到的斗殴检测结果的准确率较高，大大减少了误报。

为解决上述技术问题，本申请提供了一种人员斗殴检测方法，包括：

获取待测视频帧，并对所述待测视频帧进行基于肢体角度的动作检测，得到第一检测结果；

对所述待测视频帧进行基于光流矢量的动作幅度检测，得到第二检测结果；

对所述待测视频帧进行基于离散程度的人体关键点融合状态检测，得到第三检测结果；

利用所述第一检测结果、所述第二检测结果和所述第三检测结果生成斗殴检测结果；

若所述斗殴检测结果为命中，则确定检测到人员斗殴。

可选地，所述对所述待测视频帧进行基于肢体角度的动作检测，得到第一检测结果，包括：

获取人体关键点信息，并利用所述人体关键点信息生成手臂向量、躯干向量、左腿向量和右腿向量；

利用所述手臂向量和所述躯干向量得到第一肢体夹角，并利用所述左腿向量和所述右腿向量生成第二肢体夹角；

若所述第一肢体夹角处于第一区间或所述第二肢体夹角处于第二区间，则确定所述第一检测结果为命中。

可选地，所述获取人体关键点信息，包括：

将所述待测视频帧输入基于蒸馏学习训练方式得到的openpose姿态检测模型，得到所述待测视频帧中各个人员分别对应的人体关键点坐标；

将所述人体关键点坐标确定为所述人体关键点信息。

可选地，所述对所述待测视频帧进行基于光流矢量的动作幅度检测，得到第二检测结果，包括：

对所述待测视频帧进行有效区域检测，得到有效区域图像，并根据所述有效区域图像生成四肢关键点对应的光流矢量；

计算所述光流矢量对应的方向熵；

利用所述光流矢量得到所述四肢关键点对应的运动距离，并将所述运动距离大于距离阈值的所述四肢关键点确定为目标四肢关键点；

若所述目标四肢关键点的数量处于第三区间且所述方向熵处于第四区间，则确定所述第二检测结果为命中。

可选地，所述对所述待测视频帧进行基于离散程度的人体关键点融合状态检测，得到第三检测结果，包括：

识别所述待测视频帧中第一人员对应的多个第一人体关键点和第二人员对应的多个第二人体关键点；

分别计算各个所述第一人体关键点和对应的所述第二人体关键点之间的距离，并利用所述距离计算距离标准差；

若所述距离标准差大于可信度阈值，则确定所述第三检测结果为命中。

可选地，所述获取待测视频帧，包括：

获取初始视频帧，并提取所述初始视频帧中各个人员分别对应的人员中心坐标；

利用所述人员中心坐标计算任意两个所述人员对应的人员距离；

若存在任一所述人员距离小于距离阈值，则利用所述初始视频帧得到所述待测视频帧。

可选地，所述利用所述第一检测结果、所述第二检测结果和所述第三检测结果生成斗殴检测结果，包括：

若所述第一检测结果、所述第二检测结果和所述第三检测结果都为命中，则确定当前检测结果为命中；

获取多个历史检测结果，若所述当前检测结果和所述历史检测结果对应的命中数大于判定阈值，则确定斗殴检测结果为命中。

本申请还提供了一种人员斗殴检测装置，包括：

动作检测模块，用于获取待测视频帧，并对所述待测视频帧进行基于肢体角度的动作检测，得到第一检测结果；

幅度检测模块，用于对所述待测视频帧进行基于光流矢量的动作幅度检测，得到第二检测结果；

融合检测模块，用于对所述待测视频帧进行基于离散程度的人体关键点融合状态检测，得到第三检测结果；

结果生成模块，用于利用所述第一检测结果、所述第二检测结果和所述第三检测结果生成斗殴检测结果；

确定检出模块，用于若所述斗殴检测结果为命中，则确定检测到人员斗殴。

本申请还提供了一种电子设备，包括存储器和处理器，其中：

所述存储器，用于保存计算机程序；

所述处理器，用于执行所述计算机程序，以实现上述的人员斗殴检测方法。

本申请还提供了一种计算机可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现上述的人员斗殴检测方法。

本申请提供的人员斗殴检测方法，获取待测视频帧，并对待测视频帧进行基于肢体角度的动作检测，得到第一检测结果；对待测视频帧进行基于光流矢量的动作幅度检测，得到第二检测结果；对待测视频帧进行基于离散程度的人体关键点融合状态检测，得到第三检测结果；利用第一检测结果、第二检测结果和第三检测结果生成斗殴检测结果；若斗殴检测结果为命中，则确定检测到人员斗殴。

可见，该方法在获取到待测视频帧后对其进行动作检测，由于斗殴者需要扬起手臂或腿进行肢体冲突，引起肢体的夹角与正常情况下不同，因此可以进行基于肢体角度的动作检测，得到第一检测结果。斗殴的过程中人员会采用较大的动作幅度，因此为了避免出现误判，还可以从光流矢量的角度对动作幅度进行检测，判断检测到的动作是否为斗殴的动作，得到第二检测结果。由于参与斗殴的人员通常会有不同的姿态，与做操、公共交通上人员的动作具有明显差异，且通常具有身体接触，表现为人体关键点在待测视频帧上融合，因此可以采用基于离散程度的人体关键点融合状态检测判断人员的行为是否一致，得到对应的第三检测结果。利用第一检测结果、第二检测结果和第三检测结果共同生成斗殴检测结果，可以从多个角度对待测视频帧是否记录有斗殴现象进行检测，当斗殴检测结果为命中时，则可以确定检测到人员斗殴。由于从多个角度进行检测并综合检测结果得到斗殴检测结果，因此得到的斗殴检测结果的准确率较高，减少了误报，且可以应用于更多场景，解决了相关技术存在的容易产生误报的问题。

此外，本申请还提供了一种人员斗殴检测装置、电子设备及计算机可读存储介质，同样具有上述有益效果。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种人员斗殴检测方法流程图；

图2为本申请实施例提供的一种人体关键点连接得到的人体骨骼框架示意图；

图3为本申请实施例提供的一种第一肢体夹角的示意图；

图4为本申请实施例提供的一种第二肢体夹角的示意图；

图5为本申请实施例提供的一种光流矢量示意图；

图6为本申请实施例提供的一种具体的待测视频帧的人体关键点的示意图；

图7为本申请实施例提供的一种人员斗殴检测装置的结构示意图；

图8为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参考图1，图1为本申请实施例提供的一种人员斗殴检测方法流程图。

该方法包括：

S101：获取待测视频帧，并对待测视频帧进行基于肢体角度的动作检测，得到第一检测结果。

待测视频帧为进行人员斗殴检测的视频帧，其具体内容不做限定。待测视频帧所处的视频可以被称为待测视频，待测视频可以为实时获取到的视频，或者可以为非实时的视频。待测视频的具体获取方式不做限定，例如可以通过摄像设备实时获取待测视频，或者可以将指定路径下的视频确定为待测视频，或者可以将某些指定的电子设备发送过来的视频确定为待测视频。待测视频帧可以为待测视频中任意一个视频帧，由于视频流中的各个视频帧具有时间上的先后关系，因此在进行人员斗殴检测时，可以按照视频流的先后顺序，即各个视频帧的生成顺序，从最先生成的视频帧开始，依次将各个视频帧确定为待测视频帧。

可以理解的是，待测视频中记录了人员斗殴现象的情况较少，大部分情况下待测视频中并没有记录有人员斗殴现象。因此为了减少计算资源的浪费，可以在获取到一个视频帧后判断其是否为待测视频帧，在确定是待测视频帧之后对其进行后续检测。因此获取待测视频帧的过程具体可以包括如下步骤：

步骤11：获取初始视频帧，并提取初始视频帧中各个人员分别对应的人员中心坐标。

步骤12：利用人员中心坐标计算任意两个人员对应的人员距离。

步骤13：若存在任一人员距离小于距离阈值，则利用初始视频帧得到待测视频帧。

可以理解的是，由于发生肢体冲突时，人员之间的距离必然较近，因此可以通过判断人员之间的距离是否较小来初步判断是否可能存在人员斗殴现象。具体的，本实施方式中，直接获取到的视频帧为初始视频帧，在获取到初始视频帧中，提取其中各个人员对应的人员中心坐标，具体的提取方式不做限定。在得到人员中心坐标后，计算任意两个人员中心坐标之间的距离，该距离即为对应的两个人员之间的人员距离。若存在任意一个人员距离比距离阈值小，则说明存在至少两个人员之间的距离较近，可能出现人员斗殴，因此可以将初始视频帧判定为待测视频帧，以便进行后续检测。相应的，若不存在任意一个人员距离小于距离阈值，说明人员之间的距离较远，不可能存在人员斗殴现象，本实施例并不限定在这种情况下具体执行的操作，例如可以为无操作，即不执行任何操作；或者可以为重新获取初始视频帧的操作。

可以理解的是，人员在进行打架斗殴时的肢体动作与正常情况下不同，其表现为肢体运动的角度与大部分正常情况下会有一定差异，因此可以对待测视频帧进行肢体角度的动作检测，判断人员的动作是否存在异常的肢体角度，得到对应的第一检测结果。对待测视频帧进行动作检测，可以为对整个待测视频帧进行检测，或者可以为对其中的部分进行检测，例如对其中距离较近的两个人员对应的部分进行检测。具体的，在一种可行的实施方式中，对待测视频帧进行基于肢体角度的动作检测，得到第一检测结果的过程可以包括如下步骤：

步骤21：获取人体关键点信息，并利用人体关键点信息生成手臂向量、躯干向量、左腿向量和右腿向量。

人体关键点信息对应于人体的多个关键点，各个关键点分别对应于人体上的各个关键位置，请参考图2，图2为本申请实施例提供的一种人体关键点连接得到的人体骨骼框架示意图，其中各个序号为各个人体关键点的标号，各个点即为人体关键点，点之间的连线用于模拟人体骨骼。人体关键点的数量和位置选择不做限定，其连接后得到的人体骨骼能够表征人体肢体运动情况即可。以图2为例，人体关键点共有14个，其中包括头部点1个(0号点)，上身躯干共9个，其中包括中心点1个(1号点)、肩部点2个(包括左肩和右肩，2号点和5号点)、肘部点2个(包括左肘和右肘，3号点和6号点)、手腕点2个(包括左手腕和右手腕，4号点和7号点)、胯部点(包括左胯部和右胯部，8号点和11号点)，下身躯干共4个，包括膝盖点2个(包括左膝盖和右膝盖，9号点和12号点)、脚部点2个(包括左脚和右脚，10号点和13号点)。

需要说明的是，由于待测视频帧中必然存在至少两个人员，因此获取到的人体关键点信息的数量必然为多个。本实施方式中获取第一检测结果的过程，为分别针对各个人体关键点信息得到的第一检测结果。人体关键点信息用于表征人体关键点的位置，其具体形式不做限定，例如可以为坐标形式，或者可以为序号形式，例如预先设置多个关键点范围，每个关键点范围对应于一个序号，通过检测人体关键点所处的关键点范围确定其对应的序号。本实施例并不限定获取人体关键点信息的具体方式，例如在一种可行的实施方式中，获取人体关键点信息的过程具体可以包括如下步骤：

步骤31：将待测视频帧输入基于蒸馏学习训练方式得到的openpose姿态检测模型，得到待测视频帧中各个人员分别对应的人体关键点坐标。

步骤32：将人体关键点坐标确定为人体关键点信息

在本实施方式中，可以利用openpose姿态检测模型对人体关键点进行检测，得到对应的人体关键点坐标，则该人体关键点坐标即为人体关键点信息。OpenPose人体姿态检测模型是一种基于卷积神经网络和监督学习，以caffe(Convolutional Architecture forFast Feature Embedding，快速特征嵌入的卷积结构)为框架的深度学习网络，其通过网络前向处理，获得人体部位的关键点，并通过对关键点的分析，可以实现人体动作、面部表情、手指运动等姿态估计。在本实施例中，为了提高openpose姿态检测模型的性能，提高人体关键点坐标的识别熟读，可以通过蒸馏学习训练方式训练得到。蒸馏学习训练方式即为知识蒸馏的训练方式，蒸馏学习中包括两个网络模型，复杂的教师模型(Teacher model)和简单的学生模型(Student Model)。通过采用预训练的教师模型的输出作为监督信号去训练学生模型，可以提高学生模型的表征能力，即提高学生模型的性能。本实施例并不限定利用openpose得到人体关键点坐标的具体过程，例如可以生成待测视频帧对应的人体关键点热度图，根据热度图获取对应的人体关键点坐标。进一步的，还可以对各个人体关键点坐标进行连接，得到类似于图2所示的人体骨骼框架示意图。

由于人体关键点信息可以表征人体关键点的位置，因此利用人体关键点信息可以生成手臂向量、躯干向量、左腿向量和右腿向量，手臂向量可以为左手手臂向量和/或右手手臂向量。继续以图2为例，具体的，可以选择人体骨骼框架中任意一个手腕点以及对应的肩部点生成手臂向量，例如选择人体骨骼框架中手腕的点I₄(x₄,y₄)，其中，(x₄,y₄)为4号点的坐标，肩膀处的点为I₂(x₂,y₂)，因此手臂向量

的计算公式为：

同理，通过人体骨骼框架中的胯关节点I₈(x₈,y₈)以及中心点I₁(x₁,y₁)，可以获得躯干向量

同理，还可以利用上述方式得到左腿向量和右腿向量，具体选用的关键点坐标不做限定。

步骤22：利用手臂向量和躯干向量得到第一肢体夹角，并利用左腿向量和右腿向量生成第二肢体夹角。

在得到向量后，可以利用如下公式计算对应的夹角：

其中，A向量和B向量的组合可以为手臂向量和躯干向量的组合，或者可以为左腿向量和右腿向量的组合，A向量的坐标为(a₁，b₁)，B向量的坐标为(a₂，b₂)，θ为肢体夹角，根据A向量和B向量内容的不同，其具体的含义也不同，具体可以为第一肢体夹角或第二肢体夹角。请参考图3，图3为本申请实施例提供的一种第一肢体夹角的示意图，其中两个人员身上的两个向量分别为构成各自对应的第一肢体夹角。请参考图4，图4为本申请实施例提供的一种第二肢体夹角的示意图。

步骤23：若第一肢体夹角处于第一区间或第二肢体夹角处于第二区间，则确定第一检测结果为命中。

本实施例并不限定第一区间和第二区间的具体大小，可以根据实际需要进行设置，二者可以相同也可以不同，例如可以将第一区间设置为大于45度，将第二区间设置为大于60度。若第一肢体夹角处于第一区间，或者第二肢体夹角处于第二区间，则可以确定人员的肢体动作异常，因此可以确定对应的第一检测结果为命中。相反的，若两个夹角均不处于对应的区间，则第一检测结果则不为命中。由于人体关键点信息的数量为多个，因此得到的第一肢体夹角和第二肢体夹角的数量也为多个，在这种情况下，存在任意一个第一肢体夹角处于第一区间，或任意一个第二肢体夹角处于第二区间，均可以确定第一检测结果为命中。

S102：对待测视频帧进行基于光流矢量的动作幅度检测，得到第二检测结果。

光流法是一种利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性，来找到上一帧跟当前帧之间存在的对应关系，从而计算出相邻帧之间物体的运动信息的一种方法，其通常将二维图像平面特定坐标点上的灰度瞬时变化率定义为光流矢量。请参考图5，图5为本申请实施例提供的一种光流矢量示意图，其展示的是三维空间内物体的运动向量(即3D motion vector)在二维成像平面上的投影，得到的是一个描述位置变化的二维矢量(即2D optical flow vector)。通过得到光流矢量，可以利用其判断人员的运动幅度，人员斗殴的运动幅度必然较大，因此可以从运动幅度的角度对是否发生人员斗殴进行检测，得到第二检测结果。本实施例并不限定运动幅度的具体检测过程，可以根据实际需要进行设置，例如可以判断运动速度是否较快，或者可以判断运动距离是否较大。具体的，在一种可行的实施方式中，为了得到准确的第二检测结果，对待测视频帧进行基于光流矢量的动作幅度检测，得到第二检测结果的过程具体可以包括如下步骤：

步骤41：对待测视频帧进行有效区域检测，得到有效区域图像，并根据有效区域图像生成四肢关键点对应的光流矢量。

由于人员斗殴时只有人员会进行较大幅度或较快的运动，而背景非人员部分或未参与斗殴的人员等部分不会进行运动，因此为了提高第二检测结果的可靠性，可以仅对有效区域进行运动幅度的检测。有效区域也可以被称为ROI(region of interest，感兴趣区域)图像，其具体范围不做限定，例如可以为距离较近的人员对应的区域，或者可以为人员对应的手臂部位和腿部对应的区域，例如可以参考图3和图4，其中的白色虚线框划定的范围即为有效区域。在获取到有效区域内的有效区域图像后，利用其生成四肢关键点对应的光流矢量，光流矢量的具体生成方式可以参考相关技术，本实施例在此不做赘述。

步骤42：计算光流矢量对应的方向熵。

由于做操等场景下，人员同样可能做幅度较大的非正常肢体动作，很容易造成误判。为了避免这类场景下的误判，可以计算各个光流矢量对应的方向熵。信息熵可以作为一个***复杂程度的度量，一个***越复杂，出现不同情况的种类越多，那么该***的信息熵就越大；一个***越简单，出现情况种类越少(极端情况为1种情况，那么对应概率为1，那么对应的信息熵为0)，那么该***的信息熵就越少。方向熵即可表明光流矢量在方向上的复杂程度，本实施例并不限定方向熵的具体计算方式，可以根据需要选择。

步骤43：利用光流矢量得到四肢关键点对应的运动距离，并将运动距离大于距离阈值的四肢关键点确定为目标四肢关键点。

由于本实施例中，光流矢量对应于四肢关键点，因此可以利用其计算得到四肢关键点对应的运动距离，运动距离越大，说明运动幅度越大。本实施例中还设置有距离阈值，其具体大小不做限定，若运动距离大于距离阈值，则其对应的四肢关键点即为目标四肢关键点。

步骤44：若目标四肢关键点的数量处于第三区间且方向熵处于第四区间，则确定第二检测结果为命中。

若目标四肢关键点的数量处于第三区间，说明人员的运动幅度较大；若方向熵处于第四区间，则说明人员的运动较复杂，没有统一，因此说明可能存在斗殴现象，因此确定第二检测结果为命中。第三区间的具体范围不做限定，例如其下限值可以为四肢关键点数量的60％或70％，第四区间的具体大小和上下限值同样不做限定，其下限值为被认为没有斗殴现象的最大值。

S103：对待测视频帧进行基于离散程度的人体关键点融合状态检测，得到第三检测结果。

人员斗殴过程中会出现四肢的互动行为，互动行为映射到二维空间就是人体关键点相互之间的融合状态，由于做操、公共交通等场景下人的行为相对一致，因此人体关键点之间的距离相对一致，离散程度较小，而斗殴现象下人的动作各不相同，人体关键点之间的距离差异较大，离散程度较大。因此可以用人员对应的人体关键点之间距离的标准差、方差或其他可以表征数据离散程度的离散数据来检测是否出现了斗殴现象，进而得到对应的第三检测结果。具体的，在一种实施方式中，得到第三检测结果的过程可以包括：

步骤51：识别待测视频帧中第一人员对应的多个第一人体关键点和第二人员对应的多个第二人体关键点。

在本实施例中，第一人员和第二人员可以为人体中心距离小于距离阈值的两个人员。请参考图6，图6为本申请实施例提供的一种具体的待测视频帧的人体关键点的示意图，其中白色虚线框中的两个人员分别为第一人员和第二人员。第一人员和第二人员上分别存在多个关键点，二者身上的关键点为一一对应的关系。

步骤52：分别计算各个第一人体关键点和对应的第二人体关键点之间的距离，并利用距离计算距离标准差。

需要说明的是，本实施例并不限定距离的计算方式，例如可以计算欧氏距离，得到对应的多个距离x₁,x₂,x₃,…,x_n，则各个距离之间的距离标准差为：

标准差越小，说明数据的离散程度越小，即两个人员的动作越相似，越不可能是斗殴行为。相反的，标准差越大，说明数据的离散程度越大，两个人员的动作越不同，说明越有可能是斗殴行为。

步骤53：若距离标准差大于可信度阈值，则确定第三检测结果为命中。

本实施例中，设置有可信度阈值，可信度阈值为标准差的标准，若距离标准差大于可信度阈值，则说明很有可能发生斗殴行为，因此确定第三检测结果为命中。

需要说明的是，本实施例并不限定生成第一检测结果、第二检测结果和第三检测结果的步骤的具体执行顺序，在一种实施方式中，三个步骤可以并行执行，即在获取到待测视频帧后同时生成第一检测结果、第二检测结果和第三检测结果；在另一种实施方式中，三个步骤可以串行执行，即依次获取三个检测结果。

S104：利用第一检测结果、第二检测结果和第三检测结果生成斗殴检测结果。

在确定获取到第一检测结果、第二检测结果和第三检测结果后，利用其生成斗殴检测结果。在一种实施方式中，斗殴检测结果仅针对待测视频帧，在这种情况下，仅利用三个检测结果生成斗殴检测结果，即若三个检测结果均为命中，则斗殴检测结果为命中；或者当两个检测结果为命中，则斗殴检测结果为命中。在另一种实施方式中，由于斗殴行为具有持续性，因此为了得到更加准确地斗殴检测结果，生成斗殴检测结果的过程可以包括如下步骤：

步骤61：若第一检测结果、第二检测结果和第三检测结果都为命中，则确定当前检测结果为命中。

步骤62：获取多个历史检测结果，若当前检测结果和历史检测结果对应的命中数大于判定阈值，则确定斗殴检测结果为命中。

在本实施例中，可以综合历史检测结果和当前检测结果确定斗殴检测结果。历史检测结果为待测视频帧前连续多个视频帧对应的检测结果，若其中有视频帧未被确定为待测视频帧，则对应的历史检测结果即为未命中。检测当前检测结果和历史检测结果中命中的数量，即命中数，是否大于判定阈值，若大于判定阈值，则可以确定斗殴检测结果为命中。通过综合多帧的检测结果，可以得到更加准确的斗殴检测结果。

S105：若斗殴检测结果为命中，则确定检测到人员斗殴。

若斗殴检测结果为命中，则说明待测视频帧记录了人员斗殴现象，确定检测到人员斗殴。在这种情况下，可以进行报警，或者可以进行记录上报等操作，本实施例对此不做限定。

应用本申请实施例提供的人员斗殴检测方法，在获取到待测视频帧后对其进行动作检测，由于斗殴者需要扬起手臂或腿进行肢体冲突，引起肢体的夹角与正常情况下不同，因此可以进行基于肢体角度的动作检测，得到第一检测结果。斗殴的过程中人员会采用较大的动作幅度，因此为了避免出现误判，还可以从光流矢量的角度对动作幅度进行检测，判断检测到的动作是否为斗殴的动作，得到第二检测结果。由于参与斗殴的人员通常会有不同的姿态，与做操、公共交通上人员的动作具有明显差异，且通常具有身体接触，表现为人体关键点在待测视频帧上融合，因此可以采用基于离散程度的人体关键点融合状态检测判断人员的行为是否一致，得到对应的第三检测结果。利用第一检测结果、第二检测结果和第三检测结果共同生成斗殴检测结果，可以从多个角度对待测视频帧是否记录有斗殴现象进行检测，当斗殴检测结果为命中时，则可以确定检测到人员斗殴。由于从多个角度进行检测并综合检测结果得到斗殴检测结果，因此得到的斗殴检测结果的准确率较高，减少了误报，且可以应用于更多场景，解决了相关技术存在的容易产生误报的问题。

下面对本申请实施例提供的人员斗殴检测装置进行介绍，下文描述的人员斗殴检测装置与上文描述的人员斗殴检测方法可相互对应参照。

请参考图7，图7为本申请实施例提供的一种人员斗殴检测装置的结构示意图，包括：

动作检测模块110，用于获取待测视频帧，并对待测视频帧进行基于肢体角度的动作检测，得到第一检测结果；

幅度检测模块120，用于对待测视频帧进行基于光流矢量的动作幅度检测，得到第二检测结果；

融合检测模块130，用于对待测视频帧进行基于离散程度的人体关键点融合状态检测，得到第三检测结果；

结果生成模块140，用于利用第一检测结果、第二检测结果和第三检测结果生成斗殴检测结果；

确定检出模块150，用于若斗殴检测结果为命中，则确定检测到人员斗殴。

可选地，动作检测模块110，包括：

向量生成单元，用于获取人体关键点信息，并利用人体关键点信息生成手臂向量、躯干向量、左腿向量和右腿向量；

夹角确定单元，用于利用手臂向量和躯干向量得到第一肢体夹角，并利用左腿向量和右腿向量生成第二肢体夹角；

第一命中确定单元，用于若第一肢体夹角处于第一区间或第二肢体夹角处于第二区间，则确定第一检测结果为命中。

可选地，向量生成单元，包括：

坐标检测子单元，用于将待测视频帧输入基于蒸馏学习训练方式得到的openpose姿态检测模型，得到待测视频帧中各个人员分别对应的人体关键点坐标；

信息确定子单元，用于将人体关键点坐标确定为人体关键点信息。

可选地，幅度检测模块120，包括：

光流矢量生成单元，用于对待测视频帧进行有效区域检测，得到有效区域图像，并根据有效区域图像生成四肢关键点对应的光流矢量；

方向熵计算单元，用于计算光流矢量对应的方向熵；

运动距离计算单元，用于利用光流矢量得到四肢关键点对应的运动距离，并将运动距离大于距离阈值的四肢关键点确定为目标四肢关键点；

第二命中确定单元，用于若目标四肢关键点的数量处于第三区间且方向熵处于第四区间，则确定第二检测结果为命中。

可选地，融合检测模块130，包括：

识别单元，用于识别待测视频帧中第一人员对应的多个第一人体关键点和第二人员对应的多个第二人体关键点；

标准差计算单元，用于分别计算各个第一人体关键点和对应的第二人体关键点之间的距离，并利用距离计算距离标准差；

第三命中确定单元，用于若距离标准差大于可信度阈值，则确定第三检测结果为命中。

可选地，动作检测模块110，包括：

中心坐标提取单元，用于获取初始视频帧，并提取初始视频帧中各个人员分别对应的人员中心坐标；

距离计算单元，用于利用人员中心坐标计算任意两个人员对应的人员距离；

待测视频帧确定单元，用于若存在任一人员距离小于距离阈值，则利用初始视频帧得到待测视频帧。

可选地，结果生成模块140，包括：

当前检测结果生成单元，用于若第一检测结果、第二检测结果和第三检测结果都为命中，则确定当前检测结果为命中；

斗殴检测结果生成单元，用于获取多个历史检测结果，若当前检测结果和历史检测结果对应的命中数大于判定阈值，则确定斗殴检测结果为命中。

下面对本申请实施例提供的电子设备进行介绍，下文描述的电子设备与上文描述的人员斗殴检测方法可相互对应参照。

请参考图8，图8为本申请实施例提供的一种电子设备的结构示意图。其中电子设备100可以包括处理器101和存储器102，还可以进一步包括多媒体组件103、信息输入/信息输出(I/O)接口104以及通信组件105中的一种或多种。

其中，处理器101用于控制电子设备100的整体操作，以完成上述的人员斗殴检测方法中的全部或部分步骤；存储器102用于存储各种类型的数据以支持在电子设备100的操作，这些数据例如可以包括用于在该电子设备100上操作的任何应用程序或方法的指令，以及应用程序相关的数据。该存储器102可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，SRAM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、只读存储器(Read-OnlyMemory，ROM)、磁存储器、快闪存储器、磁盘或光盘中的一种或多种。

多媒体组件103可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器102或通过通信组件105发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口104为处理器101和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件105用于电子设备100与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near Field Communication，简称NFC)，2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件105可以包括：Wi-Fi部件，蓝牙部件，NFC部件。

电子设备100可以被一个或多个应用专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、数字信号处理器(Digital Signal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field ProgrammableGate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述实施例给出的人员斗殴检测方法。

下面对本申请实施例提供的计算机可读存储介质进行介绍，下文描述的计算机可读存储介质与上文描述的人员斗殴检测方法可相互对应参照。

本申请还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述的人员斗殴检测方法的步骤。

该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本领域技术人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应该认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系属于仅仅用来将一个实体或者操作与另一个实体或者操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语包括、包含或者其他任何变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种人员斗殴检测方法，其特征在于，包括：

若所述斗殴检测结果为命中，则确定检测到人员斗殴；

其中，所述对所述待测视频帧进行基于离散程度的人体关键点融合状态检测，得到第三检测结果，包括：

若所述距离标准差大于可信度阈值，则确定所述第三检测结果为命中；

其中，所述利用所述第一检测结果、所述第二检测结果和所述第三检测结果生成斗殴检测结果，包括：

获取多个历史检测结果，若所述当前检测结果和所述历史检测结果对应的命中数大于判定阈值，则确定斗殴检测结果为命中；

其中，所述对所述待测视频帧进行基于光流矢量的动作幅度检测，得到第二检测结果，包括：

计算所述光流矢量对应的方向熵；

若所述目标四肢关键点的数量处于第三区间且所述方向熵处于第四区间，则确定所述第二检测结果为命中；所述第三区间的下限值为四肢关键点数量的60％或70％；所述第四区间的下限值为没有斗殴现象的最大值。

2.根据权利要求1所述的人员斗殴检测方法，其特征在于，所述对所述待测视频帧进行基于肢体角度的动作检测，得到第一检测结果，包括：

若所述第一肢体夹角处于第一区间或所述第二肢体夹角处于第二区间，则确定所述第一检测结果为命中；所述第一区间大于45度；所述第二区间大于60度。

3.根据权利要求2所述的人员斗殴检测方法，其特征在于，所述获取人体关键点信息，包括：

将所述人体关键点坐标确定为所述人体关键点信息。

4.根据权利要求1所述的人员斗殴检测方法，其特征在于，所述获取待测视频帧，包括：

5.一种人员斗殴检测装置，其特征在于，包括：

确定检出模块，用于若所述斗殴检测结果为命中，则确定检测到人员斗殴；

其中，所述结果生成模块，具体用于：

计算所述光流矢量对应的方向熵；

6.一种电子设备，其特征在于，包括存储器和处理器，其中：

所述存储器，用于保存计算机程序；

所述处理器，用于执行所述计算机程序，以实现如权利要求1至4任一项所述的人员斗殴检测方法。

7.一种计算机可读存储介质，其特征在于，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的人员斗殴检测方法。