CN113989927A

CN113989927A - 一种基于骨骼数据的视频群体暴力行为识别方法及***

Info

Publication number: CN113989927A
Application number: CN202111252149.5A
Authority: CN
Inventors: 丁畅; 谭振华; 张斌; 武志超
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2022-01-28
Anticipated expiration: 2041-10-27
Also published as: CN113989927B

Abstract

本发明公开了一种基于骨骼数据的视频群体暴力行为识别方法及***，涉及行为识别技术领域。该方法及***基于从待识别视频内容中获取的骨骼数据，构建并训练一个深度学习模型，对视频进行特征提取和内容理解，识别个体与个体之间交互行为的分解动作，根据分解动作识别结果的时序关系，判断行为是否属于暴力。克服了现有方法无法很好应用骨骼数据，忽略时序信息和个体间交互信息的缺点，且将群体行为转化为双人交互行为，减少了数据计算量，对行为类别的判断更加容易。

Description

一种基于骨骼数据的视频群体暴力行为识别方法及***

技术领域

本发明涉及行为识别技术领域，具体涉及一种基于骨骼数据的视频群体暴力行为识别方法及***。

背景技术

随着社会的发展，人们的生活水平不断提高，公共安全成为幸福指标的重要组成部分。有研究表明，摄像头对暴力事件的预防和控制作用难以令人满意。原因之一是缺少有效的监控视频分析手段，视频信息利用率低；另一个原因是暴力事件属于小概率事件，人工分析视频信息成本耗费巨大。除了公共安全领域，群体暴力行为识别技术在互联网新媒体领域也有很大的应用价值。随着互联网的普及，特别是自媒体与短视频领域的兴起，网络信息成为人们信息来源的重要部分。但是由于互联网缺少监管，自媒体发布信息门槛低等原因，包括暴力视频在内的一些不良信息往往不经审查就出现在网上，严重危害人们，尤其是未成年人的身心发展。

出于以上原因，群体暴力行为识别技术受到越来越多的关注。但是，现有的一类群体暴力行为识别方法主要是基于2d-CNN感知视频帧或者用3d-CNN感知视频内容，卷积神经网络CNN虽然能够在感受野中获取一些信息，但CNN鲁棒性相对差，原始输入图像质量不佳时，CNN的性能容易受到干扰。骨骼数据是结构良好的数据，具有明确的高级语义，但CNN 因其滤波器的平移不变性，即使将骨骼数据转为图像然后靠大的感受野来识别，效率依然不高。时间维度上，3D卷积网络仅靠大的感受野来感知时序信息，效果也不理想。现有的另一类群体暴力行为识别方法通过位姿估计得到骨骼数据，然后基于骨骼数据计算关节角度完成群体暴力行为识别，但是该方法仅作用于航拍图像等信息，并不能针对完整的视频信息进行处理，因此无法获取时序信息，而且该方法也仅针对单一个体进行识别，没有处理个体与个体之间的关系。

发明内容

针对上述现有技术存在的不足，本发明提供了一种基于骨骼数据的视频群体暴力行为识别方法及***，旨在克服现有方法无法很好应用骨骼数据，忽略时序信息和个体间交互信息的缺点。

为实现上述目的，本发明提供以下的技术方案：

本发明第一方面提供一种基于骨骼数据的视频群体暴力行为识别方法，所述方法包括如下步骤：

步骤1：对原始视频流进行抽样，获得视频帧样本；

步骤2：从视频帧样本中提取原始骨骼数据，获得骨骼数据样本；

步骤3：分别提取每一帧骨骼数据样本的关键特征，并根据关键特征确定每一帧中的两组关键子数据，其中每一组子数据均包括两个人物个体的数据；

步骤4：以预设的数据长度f帧为单位对步骤3处理后的骨骼数据样本整体进行滑窗式切分或者填充，切分成若干个等长度的单位数据或者补充为与预设的数据长度相等的单位数据；

步骤5：使用若干层神经网络逐单位数据进行处理，提取包含在每一单位数据中的骨骼数据样本的时空特征，并依据所述时空特征自动计算出各单位数据的分类评分；

步骤6：依据分类评分对每一单位数据进行二分类，判断其是否属于群体暴力行为，最后输出整个骨骼数据样本对应的各个窗口数据的识别结果。

进一步地，根据所述的基于骨骼数据的视频群体暴力行为识别方法，使用人体姿态识别开源库从视频帧样本中提取原始骨骼数据。

进一步地，根据所述的基于骨骼数据的视频群体暴力行为识别方法，所述步骤3包括如下步骤：

步骤3.1：求解出每一帧骨骼数据样本中每个人物个体的重心；

步骤3.2：根据各人物个体的重心找出每一帧骨骼数据样本的中心点及与所述中心点所属的中心人物个体；

步骤3.3：根据每一帧骨骼数据样本中各人物个体的重心以及中心点计算出离中心人物个体最近的另外两个人物个体；

步骤3.4：将离中心人物个体最近的另外两个人物个体分别与中心人物个体的数据进行组合并进行归一化处理，获得每一帧的两组关键子数据；

步骤3.5：将所述两组关键子数据合并到一起，拼接所述两组关键子数据。

进一步地根据所述的基于骨骼数据的视频群体暴力行为识别方法，所述每一帧骨骼数据样本中每个人物个体的重心求解方法为：将每个人物个体的各个关节坐标位置的加权平均值作为每个人物个体的重心，其中人物的双手关节和双脚关节的权重大于其他关节的权重。

进一步地，根据所述的基于骨骼数据的视频群体暴力行为识别方法，所述根据各人物个体的重心找出每一帧骨骼数据样本的中心点的方法为：使用k-means聚类算法找出每一帧骨骼数据中所有人物个体的重心的聚类中心作为该帧的中心点，其中在k-means聚类算法中设聚类中心个数K＝1。

进一步地，根据所述的基于骨骼数据的视频群体暴力行为识别方法，所述步骤5包括如下步骤：

步骤5.1：使用双人图卷积网络融合包含了两个人物个体的骨骼数据的节点特征和拓扑结构，获得数据的空间特征图；

所述双人图卷积网络由三个图卷积层顺序堆叠构成，前一图卷积层的输出数据为后一图卷积层的输入数据，最后一个图卷积层的输出特征就是双人图卷积网络计算出的空间特征图；

所述双人图卷积网络的输入信息为每一帧骨骼数据样本中每组关键子数据中的两个人物个体的骨骼数据的节点特征和拓扑结构；所述骨骼数据的节点特征为骨骼数据中各个关节的坐标；所述骨骼数据的拓扑结构为每组关键子数据中两个人物个体的骨骼数据的各个关节的连接结构；

获得所述骨骼数据的拓扑结构的方法为：首先对于每组关键子数据中的每个个体，按照人体骨骼结构连接该个体的各个关节；然后将第一个人物个体的双手关节和双脚关节都分别与第二个人物个体的所有关节相连接，同样地，将第二个人物个体的双手关节和双脚关节也都分别与第一个人物个体的所有关节相连接，获得双人骨骼图；再然后计算出双人骨骼图的对称化拉普拉斯算子，该拉普拉斯算子就是所述骨骼数据的拓扑结构；

步骤5.2：使用最大池化层对双人图卷积网络输出的空间特征图进行数据压缩；

步骤5.3：使用LSTM网络提取数据压缩处理后的空间特征图的时序信息，获得时空特征图；

步骤5.4：将通过LSTM网络获得的时空特征图沿一维展开获得特征向量；

步骤5.5：使用两个线性层和一个激活层按照如下公式对步骤5.4获得的特征向量进行处理，获得仅包含类别信息的类别特征向量；

H⁽¹⁾＝σ(H⁽⁰⁾W⁽⁰⁾+b⁽⁰⁾),

H⁽²⁾＝H⁽¹⁾W⁽¹⁾+b⁽¹⁾

其中，H⁽⁰⁾是线性层1接收的特征向量；H⁽¹⁾是线性层1计算得到的特征向量；W⁽⁰⁾和W⁽¹⁾分别是线性层1和线性层2的权重，b⁽⁰⁾和b⁽¹⁾分别是线性层1和线性层2的偏移值，σ是激活层使用的线性整流函数ReLU；H⁽²⁾是线性层2计算得到的仅包含类别信息的类别特征向量Z＝ (z₀,z₁)，其中z₀是暴力类别的激活值，z₀越大就越可能是暴力行为；z₁是非暴力类别的激活值， z₁越大就越可能是非暴力行为；

步骤5.6：使用Softmax函数将类别特征向量映射到(0,1)区间，获得最终的分类评分s₀和s₁， s₀表示所计算的骨骼数据属于群体暴力行为的概率，s₁表示所计算的骨骼数据不属于群体暴力行为的概率。

本发明第二方面提供一种基于骨骼数据的视频群体暴力行为识别***，该***包括：

骨骼数据处理模块，用于从原始视频流中提取待识别的骨骼数据；将提取出的骨骼数据处理成AI暴力行为识别模块所要求的格式；将处理好的骨骼数据发送给AI暴力行为识别模块；

AI暴力行为识别模块，用于使用神经网络从骨骼数据处理模块得到的骨骼数据中提取数据的时空特征，依据数据的时空特征自动计算数据的分类评分并将数据的分类评分发送至识别结果输出模块；

识别结果输出模块，用于依据分类评分对骨骼数据进行二分类，判断其是否属于群体暴力行为，且对识别结果进行输出。

进一步地，根据所述的基于骨骼数据的视频群体暴力行为识别***，所述骨骼数据处理模块包括：

视频数据采样模块，用于对原始视频流进行抽样，获得视频帧样本，并将得到的视频帧样本发送至人体姿态估计模块；

人体姿态估计模块，用于从视频帧样本中自动提取样本中所有人物的原始骨骼数据，并将提取出的原始骨骼数据发送到单帧数据处理模块；

单帧数据处理模块，用于对人体姿态估计模块发送来的骨骼数据样本逐帧进行处理，使数据格式满足AI暴力行为识别模块的要求；将处理后的骨骼数据发送至数据滑窗切分模块；

数据滑窗切分模块，用于以预设的数据长度f帧为单位，用滑动窗口的方式将从单帧数据处理模块接收的骨骼数据样本整体切分成若干个等长度的单位数据或者补充为与预设的数据长度相等的单位数据，并逐单位数据进行发送给AI暴力行为识别模块。

进一步地，根据所述的基于骨骼数据的视频群体暴力行为识别***，所述AI暴力行为识别模块进包括：

空间特征提取模块，用于接收骨骼数据处理模块发送的骨骼数据，计算并提取该骨骼数据中各个人体关节点的空间信息，获得空间特征图；将得到的空间特征图发送至时间特征提取模块；

时间特征提取模块，用于对从空间特征提取模块接收的空间特征图计算并提取其时序信息，获得时空特征图并将该时空特征图发送至分类器；

分类器，用于对从时间特征提取模块接收的时空特征图进行数据降维处理，并针对降维处理后的数据计算数据的二分类评分，且将分类评分发送至识别结果输出模块；

所述空间特征提取模块又进一步包括：

双人图卷积网络，用于感受包含两个人物个体的骨骼数据的空间信息，依据骨骼数据的节点特征和拓扑结构得到输入数据的空间特征图并将该空间特征图发送至最大池化层；

最大池化层，用于对从双人图卷积网络中得到的空间特征图进行数据下采样，得到压缩后的空间特征图；将压缩后的空间特征图发送至时间特征提取模块。

进一步地，根据所述的基于骨骼数据的视频群体暴力行为识别***，分类器又进一步包括：

Flatten层，用于把时间特征提取模块发送来的时空特征图展成一维的特征向量并将其发送给线性层1；

线性层1，用于对从Flatten层接收的特征向量进行特征降维，并将降维后的特征向量发送至激活层；

激活层，使用非线性激活函数激活线性层1输出的特征向量，增强分类器的非线性拟合能力，并将激活后的特征向量发送至线性层2；

线性层2，用于对从激活层接收的特征向量进行特征降维，获得只含有分类信息的特征向量并将其发送至Softmax层；

Softmax层，用于将从线性层2接收的特征向量映射到(0,1)区间，得到最终的分类评分；将分类评分发送至识别结果输出模块。

总体而言，通过本发明所构思的以上技术方案较现有技术具有以下有益效果：

1、重点针对群体暴力行为中人物关键部位交互的特点进行考虑与设计，用算法对数据进行筛选处理，将群体行为转化为双人交互行为，减少了数据计算量。

2、基于深度学习思想，使用神经网络自动提取骨骼数据的特征。其中，网络的图卷积层部分能够直接应用于骨骼数据，可以很好地提取骨骼数据的空间信息，而且在图卷积层中专门定义了双人骨骼数据的拓扑结构，因此能更好地识别双人交互行为的关键特征；网络的长短期记忆部分能够处理序列数据，因此可以很好地提取不同帧之间的骨骼数据的时序信息。在此基础上，整个神经网络能够充分提取骨骼数据的时空特征，充分发挥了骨骼数据高度结构化的优势，进而更加容易地对行为的类别进行判断。

附图说明

图1为本实施方式基于骨骼数据的视频群体暴力行为识别***的结构示意图；

图2为本实施方式AI暴力行为识别模块的结构示意图；

图3为本实施方式基于骨骼数据的视频群体暴力行为识别方法的流程示意图；

图4为本实施方式的帧级骨骼数据处理过程示意图；

图5为本实施方式的双人骨骼图拓扑结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优势更加清晰，下面结合附图和具体实施例对本发明做进一步详细说明。此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本实施方式的基于骨骼数据的视频群体暴力行为识别***，如图1所示，包括：

骨骼数据处理模块，用于从视频流中提取待识别的骨骼数据；将提取出的骨骼数据处理成AI暴力行为识别模块所要求的格式；将处理好的骨骼数据发送给AI暴力行为识别模块；

如图1所示，本实施方式的骨骼数据处理模块进一步包括：

视频数据采样模块，用于对原始视频流进行抽样以获得视频帧样本；将得到的视频帧样本发送至人体姿态估计模块；

人体姿态估计模块，用于使用人体姿态识别开源库从视频帧样本中自动提取样本中所有人物的原始骨骼数据，并将提取出的原始骨骼数据按其所属视频帧的时间先后进行排序，且将排序后的原始骨骼数据发送到单帧数据处理模块；

数据滑窗切分模块，用于以预设的数据长度f帧为单位，用滑动窗口的方式将从单帧数据处理模块接收的所有处理后的骨骼数据样本切分成若干个等长度的单位数据或者补充为与预设的数据长度相等的单位数据，并逐单位数据进行发送给AI暴力行为识别模块。

如图1和图2所示，本实施方式的AI暴力行为识别模块进一步包括：

空间特征提取模块，用于计算并提取从骨骼数据处理模块中的数据滑窗切分模块得到的骨骼数据中各个人体关节点的空间信息，获得空间特征图；将得到的空间特征图发送至时间特征提取模块；

时间特征提取模块，用于计算并提取从空间特征提取模块得到的空间特征图当中的时序信息，获得时空特征图；将得到的时空特征图发送至分类器；在本实施方式中，该模块为一个长短期记忆网络LSTM(Long Short-Term Memory)，该LSTM网络由多个LSTM层堆叠而成，本实施方式中预设LSTM网络的层数为三层；

分类器，用于对时空特征图进行数据降维，得到类别信息更加突出的特征向量，并从中计算数据的二分类评分；将分类评分发送至识别结果输出模块。

如图2所示，本实施方式的空间特征提取模块又进一步包括：

双人图卷积网络，用于感受包含了两个人物个体的骨骼数据的空间信息，依据骨骼数据的节点特征和拓扑结构得到输入数据的空间特征图；将空间特征图发送至最大池化层；本实施方式的双人图卷积网络由三个图卷积层：图卷积层1、图卷积层2和图卷积层3顺序堆叠而成，前一层的输出数据即为后一层的输入数据，图卷积层1、图卷积层2和图卷积层3的输出维度分别为C₁，C₂和C₃，本实施方式中预设C₁＝64，C₂＝64，C₃＝128；

如图2所示，本实施方式的分类器又进一步包括：

Flatten层，用于把时间特征提取模块发送来的时空特征图展成一维的特征向量；将特征向量发送给线性层1；

线性层1，用于接收特征向量，进行特征降维；将降维后的特征向量发送至激活层；

激活层，使用非线性激活函数例如线性整流函数ReLU(Rectified Linear Unit)等激活线性层1输出的特征向量，增强分类器的非线性拟合能力；将激活后的特征向量发送至线性层2；

线性层2，用于接收激活层的特征向量，进行特征降维，形成只含有分类信息的特征向量；将特征向量发送至Softmax层；

本实施方式的基于骨骼数据的视频群体暴力行为识别方法，如图3所示，包括以下步骤：

步骤1：对原始视频流进行抽样，获得视频帧样本；

在本实施方式中，利用平均间隔的方法从原始视频流中以每秒n帧的帧率均匀取样，本实施方式中预设n＝8，得到视频帧样本，以减少后续步骤的计算复杂度。

步骤2：从视频帧样本中获取原始骨骼数据；

在本实施方式中，通过步骤1得到视频帧样本以后，使用人体姿态识别开源库，例如 OpenPose、DensePose等，从视频帧样本中提取出样本中所有人物的原始骨骼数据，将提取出的骨骼数据按其所属视频帧的时间先后进行排序。

步骤3：对步骤2提取出的每一帧骨骼数据作处理，提取其关键特征，并根据关键特征确定每一帧的两组关键子数据，每一组子数据包括两个人物个体的数据；

图4是帧级骨骼数据处理流程示意图。此步骤中需要对每一帧的数据单独进行处理，从中计算生成数据的关键特征。本步骤进一步包括以下步骤：

在本实施方式中，计算每一帧骨骼数据中的每个人物个体的重心的方法为：将每个人物的各个关节坐标位置的加权平均值作为每个人物个体的重心，其中人物的双手关节和双脚关节的权重应大于其他关节的权重。本实施方式中人物的双手关节的权重设定为1.5，双脚关节的权重设定为1.25，其他关节的权重设定为1.0。

步骤3.2：根据各人物个体的重心找出每一帧骨骼数据样本的中心点及与所述中心点对应的中心人物个体；

方法为：使用k-means聚类算法找出每一帧骨骼数据中所有人物个体的重心的聚类中心作为该帧的中心点，其中在k-means聚类算法中设聚类中心个数K＝1，并将聚类中心所属的人物个体作为中心人物个体。

本实施方式中，计算每一帧里各人物个体的重心到中心点的直线距离，找出离中心人物个体c最近的两个其他人物个体a和b。如果每一帧数据里的人物个体数不足3，则用零值填充的方式补足至三个人物个体，以完成本步骤。

在本实施方式中，是将人物个体a与中心人物个体c的数据进行组合并进行归一化处理以及将人物个体b与中心人物个体c的数据进行组合并进行归一化处理，从而获得两组子数据。具体是：单独取出人物个体a与人物个体c的数据，形成一组只包含两个人物个体a、c的子数据，并进行归一化处理，再以相同方法，单独取出人物个体b与人物个体c的数据，形成另一组只包含两个人物个体b、c的子数据，并进行归一化处理，最后得到两组子数据。

步骤3.5：将所述两组关键子数据合并到一起，拼接所述两组关键子数据；

本实施方式中，将步骤3.4中得到的两组子数据进行拼接，拼接后的尺寸为(2×2J×C₀)，其中第一维是子数据组数；第二维是关节数，J是单个人物的关节数；第三维是步骤2中所提取的骨骼数据的坐标维度，若为二维坐标则C₀＝2，若为三维坐标则C₀＝3。

步骤4：以预设的数据长度f帧为单位对步骤3处理后的视频帧样本进行滑窗式切分或者填充，切分成若干个等长度的单位数据或者补充为与预设的数据长度相等的单位数据；

由于后续步骤处理数据时总是以固定的f帧数据为一个单位进行，因此需要在本步骤对数据进行切分。具体方法是，使用滑动窗口对整个骨骼数据进行切分，滑动窗口的宽度等于预设的数据长度f帧，每次滑动的步幅大小为s帧，本实施方式中预设f＝16，s＝8。若窗口滑动时数据不足f帧无法填满一个窗口，则复制最后一帧以延长数据，将待滑过的骨骼数据样本补充为与预设的数据长度f帧等长的单位数据，以填充最后一个窗口。

数据切分成各个单位之后，对于每个单位数据中所有f帧的数据，按照其所在帧的时间顺序沿数据的第一维进行拼接，拼接后的数据尺寸为(2f×2J×C₀)。

本步骤中，缩小步幅可增加识别精度但同时增加计算量，增大步幅则情况相反。

将骨骼数据样本切分成双人图卷积网络所规定的尺寸后，双人图卷积网络及其后续的各层神经网络将依次计算数据，提取数据的时空特征，并根据提取到的时空特征做出类别判断。

本步骤进一步包含以下步骤：

步骤5.1：使用双人图卷积网络融合包含了两个人物个体的骨骼数据的节点特征和拓扑结构，获得数据的空间特征图，并将空间特征图发送到最大池化层；

所述双人图卷积网络由三个图卷积层：图卷积层1、图卷积层2和图卷积层3顺序堆叠而成，前一层的输出数据为后一层的输入数据，图卷积层1、图卷积层2和图卷积层3的输出维度分别为C₁，C₂和C₃，本实施方式中预设C₁＝64，C₂＝64，C₃＝128；

双人图卷积网络的输入信息包括数据的节点特征和数据的拓扑结构。数据的节点特征即骨骼数据中各个关节的坐标，此信息由步骤4得到。数据的拓扑结构即骨骼数据中各个关节的连接方式，此信息由预先定义得到，由于经过步骤3的处理，输入到双人图卷积网络各个图卷积层的骨骼数据总是只包含两个人物个体，因此这里只需要定义双人骨骼图的结构，即定义如何连接两个人物个体的各个关节。本实施方式中，定义的连接方式如下：

首先对于每个个体，按照人体骨骼结构连接该个体的各个关节。然后将第一个人物个体的双手关节和双脚关节都分别与第二个人物个体的所有关节相连接，同样地，将第二个人物个体的双手关节和双脚关节也都分别与第一个人物个体的所有关节相连接。如图5所示，其中实线表示人体骨骼结构的连接关系，虚线表示一个人物个体的手足与另一个人物个体的所有关节的连接关系，为保持图形简洁，图5仅给出了一个人物个体的一个手关节和一个脚关节的连接关系，两个人物个体其余的手足关节连接省略。

依据上述定义的连接方式计算出双人骨骼图的对称化拉普拉斯算子

其中

A＝(a_ij)是双人骨骼图的邻接矩阵，当第i个关节与第j个关节相连则a_ij＝1，否则 a_ij＝0；I是单位矩阵；

是

的度矩阵。得到的拉普拉斯算子L就是双人图卷积网络所需要的数据的拓扑结构。

双人图卷积网络根据以上数据进行计算，每个图卷积层的计算公式为

H⁽⁰⁾是网络的输入，H^(l+1)分别是3个图卷积层的输出特征，W^(l)分别是3个图卷积层的权重。最后一个图卷积层的输出特征就是双人图卷积网络计算出的空间特征图，其尺寸为(2f× 2J×C₃)，如上所述，本实施方式中预设C₃＝128。

为了合并每一帧中所有关节的信息，同时也为了减少后续的计算复杂度，本实施方式在空间特征图上应用最大池化层来压缩关节维度上的数据。压缩前后的数据尺寸变化为

(2f×2J×C₃)→(2f×1×C₃)

然后将压缩后的空间特征图发送到LSTM层。

步骤5.3：使用LSTM网络提取空间特征图的时序信息，得到时空特征图；

首先对步骤5.2得到的空间特征图进行维度收缩，将空间特征图的尺寸变化为

(2f×1×C₃)→(2f×C₃)

将空间特征图的第一维作为序列长度，第二维作为输入特征，然后输入到LSTM层中， LSTM层自动提取空间特征图中各帧之间的时序信息，得到时空特征图。时空特征图的尺寸为 (2f×C₄)，本实施方式中预设C₄＝256。然后将时空特征图输入到分类器的Flatten层。

步骤5.4：使用Flatten层将LSTM网络输出的时空特征图沿一维展开；

使用Flatten层将步骤5.3中得到的时空特征图沿一维展开，使其成为长度＝2×f×C₄的特征向量，将展开后的特征向量发送到分类器的线性层中。

步骤5.5：使用多个线性层和激活层对特征向量做进一步计算、激活和降维，得到仅包含类别信息的类别特征向量；

本实施方式中，选择依次使用线性层1、激活层、线性层2的方式对所述特征向量进行计算。第一个线性层即线性层1首先接收步骤5.4的特征向量并对其进行特征降维，将降维后的特征向量发送给激活层。激活层使用线性整流函数ReLU(Rectified Linear Unit)得到线性层1的特征向量的激活映射后，再发送给第二个线性层即线性层2。线性层2对激活层输出的特征向量进行特征降维，形成只含有分类信息的特征向量。基于以上设计，这些层的计算公式为：

H⁽¹⁾＝σ(H⁽⁰⁾W⁽⁰⁾+b⁽⁰⁾),

H⁽²⁾＝H⁽¹⁾W⁽¹⁾+b⁽¹⁾

其中H⁽⁰⁾是线性层1接收的特征向量，W⁽⁰⁾和W⁽¹⁾分别是线性层1和线性层2的权重，b⁽⁰⁾和b⁽¹⁾分别是线性层1和线性层2的偏移值，σ是激活函数，本实施方式为线性整流函数ReLU。线性层1和线性层2的输出维度分别为C₅和2。本实施方式中预设C₅＝64。线性层2计算得到的特征向量H⁽²⁾即所求的类别特征向量Z＝(z₀,z₁)，其中z₀是暴力类别的激活值，z₀越大就越可能是暴力行为；z₁是非暴力类别的激活值，z₁越大就越可能是非暴力行为。最后将特征向量Z发送到Softmax层。

步骤5.6：使用Softmax层对线性层输出的类别特征向量进行映射，得到最终的分类评分；

用Softmax函数处理步骤5.5得到的特征向量Z＝(z₀,z₁)，将向量Z的值映射到(0,1)区间，得到分类评分s₀和s₁：

其中，s₀表示所计算的骨骼数据属于群体暴力行为的概率，s₁表示所计算的骨骼数据不属于群体暴力行为的概率。

本实施方式中，步骤4已将骨骼数据样本整体以滑动窗口的方式划分成了许多单位数据，步骤5对这些单位数据分别做了计算与识别，本步骤则对这些单位数据的识别结果进行计算和汇总。首先计算每个窗口的骨骼数据样本对应在视频中的开始时间(秒)和结束时间(秒)，计算公式为：

其中，n是步骤1中预设的视频取样帧率，s是步骤4中预设的窗口滑动步幅，f是步骤4中预设的窗口宽度。

然后根据类别评分给出每个窗口的骨骼数据样本的判断结果，若分类评分s₀≥0.5，则认为属于群体暴力行为。

最后汇总各个窗口的数据，给出综合的识别报告，报告内容以表1为例。

表1视频群体暴力行为识别综合报告例表

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；因而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于骨骼数据的视频群体暴力行为识别方法，其特征在于，所述方法包括如下步骤：

步骤1：对原始视频流进行抽样，获得视频帧样本；

2.根据权利要求1所述的基于骨骼数据的视频群体暴力行为识别方法，其特征在于，使用人体姿态识别开源库从视频帧样本中提取原始骨骼数据。

3.根据权利要求1所述的基于骨骼数据的视频群体暴力行为识别方法，其特征在于，所述步骤3包括如下步骤：

4.根据权利要求3所述的基于骨骼数据的视频群体暴力行为识别方法，其特征在于，所述每一帧骨骼数据样本中每个人物个体的重心求解方法为：将每个人物个体的各个关节坐标位置的加权平均值作为每个人物个体的重心，其中人物的双手关节和双脚关节的权重大于其他关节的权重。

5.根据权利要求3所述的基于骨骼数据的视频群体暴力行为识别方法，其特征在于，所述根据各人物个体的重心找出每一帧骨骼数据样本的中心点的方法为：使用k-means聚类算法找出每一帧骨骼数据中所有人物个体的重心的聚类中心作为该帧的中心点，其中在k-means聚类算法中设聚类中心个数K＝1。

6.根据权利要求1所述的基于骨骼数据的视频群体暴力行为识别方法，其特征在于，所述步骤5包括如下步骤：

H⁽¹⁾＝σ(H⁽⁰⁾W⁽⁰⁾+b⁽⁰⁾)，

H⁽²⁾＝H⁽¹⁾W⁽¹⁾+b⁽¹⁾

其中，H⁽⁰⁾是线性层1接收的特征向量；H⁽¹⁾是线性层1计算得到的特征向量；W⁽⁰⁾和W⁽¹⁾分别是线性层1和线性层2的权重，b⁽⁰⁾和b⁽¹⁾分别是线性层1和线性层2的偏移值，σ是激活层使用的线性整流函数ReLU；H⁽²⁾是线性层2计算得到的仅包含类别信息的类别特征向量Z＝(z₀，z₁)，其中z₀是暴力类别的激活值，z₀越大就越可能是暴力行为；z₁是非暴力类别的激活值，z1越大就越可能是非暴力行为；

步骤5.6：使用Softmax函数将类别特征向量映射到(0，1)区间，获得最终的分类评分s₀和s₁，s₀表示所计算的骨骼数据属于群体暴力行为的概率，s₁表示所计算的骨骼数据不属于群体暴力行为的概率。

7.一种基于骨骼数据的视频群体暴力行为识别***，其特征在于，该***包括：

8.根据权利要求7所述的基于骨骼数据的视频群体暴力行为识别***，其特征在于，所述骨骼数据处理模块包括：

9.根据权利要求7所述的基于骨骼数据的视频群体暴力行为识别***，其特征在于，所述AI暴力行为识别模块进包括：

所述空间特征提取模块又进一步包括：

10.根据权利要求7所述的基于骨骼数据的视频群体暴力行为识别***，其特征在于，分类器又进一步包括：

Softmax层，用于将从线性层2接收的特征向量映射到(0，1)区间，得到最终的分类评分；将分类评分发送至识别结果输出模块。