CN111079518B

CN111079518B - 一种基于执法办案区场景下的倒地异常行为识别方法

Info

Publication number: CN111079518B
Application number: CN201911055068.9A
Authority: CN
Inventors: 冯家辉; 毛亮; 林焕凯; 周谦; 汪刚
Original assignee: Gosuncn Technology Group Co Ltd
Current assignee: Gosuncn Technology Group Co Ltd
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2023-08-29
Anticipated expiration: 2039-10-31
Also published as: CN111079518A

Abstract

本发明属于异常行为分析技术领域，具体涉及一种基于执法办案区场景下的倒地异常行为识别方法，可分为二维图像数据获取、基于深度学习的人体检测、人体关键点定位、倒地行为识别四部分。(1)首先通过摄像机获取执法办案场景内的视频图像数据，(2)然后通过目标检测网络得到人体检测框的坐标位置，(3)之后单独对每个人体框使用人体关键点检测网络，得到人体每个关键点的位置，(4)最后将每个人体检测框输入到分类网络进行二分类，判断该人是否倒地，提高了识别效果和识别精度。

Description

一种基于执法办案区场景下的倒地异常行为识别方法

技术领域

本发明属于异常行为分析技术领域，具体涉及一种基于执法办案区场景下的倒地异常行为识别方法。

背景技术

现有技术：针对执法办案区场景下的倒地行为识别方法，需要高识别率，以便于预防活动区内人员因倒地而出现生命危险的情况。而现有倒地行为识别的判断流程一般是：(1)图像数据的获取；(2)图像数据处理获得人体图像或其特征；(3)特征分类，识别倒地行为。

针对不同步骤，识别倒地行为拥有不同的方法。在第一阶段可以通过二维或三维摄像机获得人体的二维或三维图像数据；在第二阶段可通过传统方法，人工获取人体特征，如颜色、人体框长宽比等特征，另外亦可通过深度学习方法，由神经网络检测到人体框然后自动学习获取人体特征。第三阶段，通过SVM(支持向量机)或者深度学习的分类网络对提取的特征进行二分类，判断是否为倒地行为。根据是否使用深度学习的方法，现有技术还可分为传统方法和深度学习法。与本提案的方法相比，现有技术对于使用深度学习得到的人体检测框出现局部人体时的倒地检测会出现识别不准确问题，本提案通过加入人体关键点判断，有效提高识别效果。

对于现有传统的倒地异常行为识别方法，使用人工提取的特征进行倒地行为识别的识别率较低，特征提取费时费力；现有基于深度学习的倒地异常行为识别方法，虽特征自动学习获取，但在识别效果上还需进一步加强。为了进一步提高识别精度，满足实际项目中的高识别精度要求，需要提出一种新的方法提高识别精度。

本提案提出了利用基于人体关键点的倒地行为识别。与现有技术利用Kinect(一种三维体感摄影机)依靠相机捕捉三维空间中人体的三维运动数据不同，本提案使用的是通过图像获取的二维人体关键点数据进行倒地行为识别。并且针对在执法办案区场景，当人处于图像边缘位置或者弯腰、坐在地上而引起的只检测到部分人体的情况下，现有技术容易误检而无法准确识别倒地行为的缺点。

发明内容

为了解决现有技术中存在的技术缺陷，本发明设计了一种基于执法办案区场景下的倒地异常行为识别方法。

本发明通过以下技术方案实现：

一种基于执法办案区场景下的倒地异常行为识别方法，包括以下步骤：

(1)通过摄像机获取执法办案场景内的视频图像数据；

(2)通过目标检测网络得到人体检测框的坐标位置；

(3)单独对每个人体检测框使用人体关键点检测网络，得到人体每个关键点的位置；

(4)将每个人体检测框输入到分类网络进行二分类，判断该人是否倒地。

进一步地，在步骤(1)中，所述通过摄像机获取执法办案场景内的视频图像数据具体包括，通过安装在执法办案区域的室内摄像头，获取摄像区域内人员的活动视频，得到基于时间序列的包含人体的图像数据。

进一步地，在步骤(2)中，所述通过目标检测网络得到人体检测框的坐标位置具体包括，基于Faster R-CNN算法，将所述步骤(1)获得的图像数据输入到检测网络，获得人体检测框，再通过NMS非极大抑制去除多余的人体检测框，使得每个人体都只有唯一的框。

进一步地，在步骤(3)中，所述单独对每个人体检测框使用人体关键点检测网络，得到人体每个关键点的位置具体包括，将从所述步骤(2)得到的人体检测框图输入到SPPE网络中，获得人体关键点分布图。

进一步地，各关键点的位置包括头部、颈部、左右肩膀、左右护肘、左右手腕、左右髋关节、左右膝盖和左右脚踝。

进一步地，在步骤(4)中，所述判断该人是否倒地具体包括步骤：

4.1输入每张图像中的各个人体检测框坐标以及关键点坐标数据；

4.2判断人体检测框与检测区域的空间关系，确定人体是否在检测区域设定的范围内，若是执行下一步，反之结束本次识别；

4.3通过人体关键点的坐标分布判断该检测人体是否为完整人体，若是则输入到二分类网络，反之结束本次识别；

4.4将人体关键点的坐标分布图输入到二分类网络，得到分类结果；

4.5根据所述分类结果判断是否为倒地行为，若是则发出警告，反之结束本次识别。

进一步地，所述步骤(4)中的二分类网络，在拥有18层网络的分类网络中加入残差结构组成的ResNet-18；其中残差结构函数公式为：

Y＝F(x)+x

式中x为输入残差结构的卷积特征；F(x)为快捷连接，被残差结构包围部分的卷积层输出；Y为残差结构的输出。

进一步地，所述的ResNet-18网络，其image(图像)输入长宽为224×224；所述image依次经5层卷积核为3×3，特征维度为64的卷积层，4层卷积核为3×3，特征维度为128的卷积层，4层卷积核为3×3，特征维度为256的卷积层，4层卷积核为3×3，特征维度为512的卷积层；再通过averge pool(平均池化)层输入至全卷积层2-d fc，所述全卷积层2-d fc将512个维度的数据进行全卷积为两个维度；最后经过softmax(归一化操作)层得到是、否倒地行为的概率值。

一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现基于执法办案区场景下的倒地异常行为识别方法的步骤。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中所述处理器执行所述程序时实现基于执法办案区场景下的倒地异常行为识别方法的步骤。

与现有技术相比，本发明至少具有下述的有益效果或优点：

(1)通过在识别过程加入人体关键点数据，对部分人体进行判断，有效避免误检测，降低误检率，提高最终倒地行为识别效果；

(2)倒地行为识别分类网络使用具有残差结构的ResNet-18网络，提高识别精度。

附图说明

以下将结合附图对本发明做进一步详细说明；

图1为本发明的倒地行为识别总体流程图；

图2为人体关键点示意图；

图3为倒地行为识别方法具体流程图；

图4为残差结构示意图；

图5为ResNet-18网络结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本技术方案提出一种基于人体关键点的倒地检测方法，其整体算法包括三部分：人体检测、人体关键点定位、分类模型。按照总体识别步骤分，可分为二维图像数据获取、基于深度学习的人体检测、人体关键点定位、倒地行为识别四部分。(1)首先通过摄像机获取执法办案场景内的视频图像数据，(2)然后通过目标检测网络得到人体检测框的坐标位置，(3)之后单独对每个人体框使用人体关键点检测网络，得到人体每个关键点的位置，(4)最后将每个人体检测框输入到分类网络进行二分类，判断该人是否倒地，如图1四个总体步骤所示。

各步骤的详细描述如下：

步骤1、图像数据获取：通过安装在执法办案区域的室内摄像头，获取摄像区域内人员的活动视频，得到基于时间序列的包含人体的图像数据。

步骤2、人体检测：使用在目标检测算法中实时性与准确度较高的Faster R-CNN算法，通过将步骤1获得的图像输入到检测网络，最终获得人体检测框图，之后通过NMS(non-maximum supression，非极大抑制)去除多余的人体检测框图，以求使得每个人体都只有唯一的框。

步骤3、人体关键点定位：将得到的人体检测框图像输入到SPPE(single-personpose estimator，单人姿势估计)网络中，获得人体关键点分布图。如图2所示为14个人体关键点的示意图，其中白色实心圆圈为各关键点的位置，包括头部、颈部、左右肩膀、左右护肘、左右手腕、左右髋关节、左右膝盖、左右脚踝。

步骤4、倒地行为识别：如图3所示为判断每个人体框的流程图，当判断多个人体框时，循环输入即可。输入每张图像中的每个人体检测框及其关键点坐标，首先判断人体检测框与检测区域的空间关系，确定人体是否在检测区域内，若是执行下一步，反之结束本次识别；然后通过人体关键点分布判断该检测人体是否为完整人体，若是则输入到二分类网络，反之结束本次识别，此步有效解决由于人体检测算法不准确，只检测到局部人体而造成的误检；再将人体关键点坐标分布图输入到二分类网络，得到分类结果；最后根据分类结果判断是否为倒地行为，若是则发出警告，反之结束本次识别。

在步骤4中的二分类网络，使用了在拥有18层网络的分类网络中加入残差结构组成的ResNet-18(Residual Network-18,残差网络-18层)，如图4为残差结构示意图。通过加入残差结构，有效提高网络整体性能，提高识别效果。其中残差结构函数公式为：

Y＝F(x)+x

式子中X为输入残差结构的卷积特征；F(x)为快捷连接(shortcut connections)，被残差结构包围部分的卷积层输出；Y为残差结构的输出。

ResNet18网络整体结构如图5所示，其中跨越箭头为残差结构，实线为直接传递，虚线箭头为保持输出维度一致而进行升维；image(图像)输入长宽为224×224；3×3conv，64表示卷积核为3×3，特征维度为64，其他层同理；averge pool(平均池化)层将图像进行维度归一；2-d fc表示两个维度的全卷积层，将512个维度的数据进行全卷积为两个维度；最后经过softmax(归一化操作)层得到是、否倒地行为的概率值。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现倒地异常行为识别方法的步骤。

本发明还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中所述处理器执行所述程序时实现倒地异常行为识别方法的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围。在不脱离本发明之精神和范围内，所做的任何修改、等同替换、改进等，同样属于本发明的保护范围之内。

Claims

1.一种基于执法办案区场景下的倒地异常行为识别方法，其特征在于，包括以下步骤：

(1)通过摄像机获取执法办案场景内的视频图像数据；

(2)通过目标检测网络得到人体检测框的坐标位置；

(4)将每个人体检测框输入到分类网络进行二分类，判断该人是否倒地；

在步骤(4)中，所述判断该人是否倒地具体包括步骤：

4.3通过人体关键点的坐标分布判断检测人体是否为完整人体，若是则输入到二分类网络，反之结束本次识别；

2.根据权利要求1所述的一种基于执法办案区场景下的倒地异常行为识别方法，其特征在于，在步骤(1)中，所述通过摄像机获取执法办案场景内的视频图像数据具体包括，通过安装在执法办案区域的室内摄像头，获取摄像区域内人员的活动视频，得到基于时间序列的包含人体的图像数据。

3.根据权利要求1所述的一种基于执法办案区场景下的倒地异常行为识别方法，其特征在于，在步骤(2)中，所述通过目标检测网络得到人体检测框的坐标位置具体包括，基于Faster R-CNN算法，将所述步骤(1)获得的图像数据输入到检测网络，获得人体检测框，再通过NMS非极大抑制去除多余的人体检测框，使得每个人体都只有唯一的框。

4.根据权利要求1所述的一种基于执法办案区场景下的倒地异常行为识别方法，其特征在于，在步骤(3)中，所述单独对每个人体检测框使用人体关键点检测网络，得到人体每个关键点的位置具体包括，将从所述步骤(2)得到的人体检测框图输入到SPPE网络中，获得人体关键点分布图。

5.根据权利要求4所述的一种基于执法办案区场景下的倒地异常行为识别方法，其特征在于，各关键点的位置包括头部、颈部、左右肩膀、左右护肘、左右手腕、左右髋关节、左右膝盖和左右脚踝。

6.根据权利要求1所述的一种基于执法办案区场景下的倒地异常行为识别方法，其特征在于，所述步骤(4)中的二分类网络，在拥有18层网络的分类网络中加入残差结构组成的ResNet-18；其中残差结构函数公式为：

Y＝F(x)+x

7.根据权利要求6所述的一种基于执法办案区场景下的倒地异常行为识别方法，其特征在于，所述的ResNet-18网络，其image(图像)输入长宽为224×224；所述image依次经5层卷积核为3×3，特征维度为64的卷积层，4层卷积核为3×3，特征维度为128的卷积层，4层卷积核为3×3，特征维度为256的卷积层，4层卷积核为3×3，特征维度为512的卷积层；再通过averge pool(平均池化)层输入至全卷积层2-d fc，所述全卷积层2-d fc将512个维度的数据进行全卷积为两个维度；最后经过softmax(归一化操作)层得到是、否倒地行为的概率值。

8.一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现权利要求1-7任一所述的基于执法办案区场景下的倒地异常行为识别方法的步骤。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中所述处理器执行所述程序时实现权利要求1-7任一所述的基于执法办案区场景下的倒地异常行为识别方法的步骤。