CN111325073B

CN111325073B - 基于运动信息聚类的监控视频异常行为检测方法

Info

Publication number: CN111325073B
Application number: CN201811541700.6A
Authority: CN
Inventors: 林巍峣; 许奇超
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2018-12-17
Filing date: 2018-12-17
Publication date: 2024-02-20
Anticipated expiration: 2038-12-17
Also published as: CN111325073A

Abstract

一种基于运动信息聚类的监控视频异常行为检测方法，从视频中每次提取出不重叠的连续帧，针对该连续帧计算光流幅度图像并进行预处理，计算预处理后的二值化图像中的有效连通区域并对其进行矫正和去除噪声，将得到的目标检测结果进行行为识别，最终得到异常行为检测结果。本发明利用光流幅度图像得到视频中的运动信息进行对图像初步的行为定位，利用目标检测器剔除由光流幅度图像得到的运动区域中的噪声，保证得到的运动区域内包含人，这使得行为识别网络的识别对象更有针对性，使不同场景的监控视频都可以实现非常高的检测精度和非常低的误检率。

Description

基于运动信息聚类的监控视频异常行为检测方法

技术领域

本发明涉及的是一种监控视频中异常行为检测领域的技术，具体是一种基于运动信息聚类的监控视频异常行为检测方法。

背景技术

监控视频场景下的异常行为检测技术在安防领域具有非常重要的作用。现有技术利用了目标检测器和行为识别网络这两个技术，该方法存在两个缺陷：第一，现有的目标检测器在监控场景的视频中尚不能取得非常理想的效果；第二，仅考虑单个个体的行为检测，对于群体行为，例如打架斗殴，用该方法并不能检测到。

现有监控方案也有基于C3D网络的应用，但仅仅依靠C3D网络跟踪得到的目标并不能直接用于行为检测，特别是对于复杂的交互行为，其往往涉及多个个体目标。

发明内容

本发明针对现有技术存在的上述不足，提出一种基于运动信息聚类的监控视频异常行为检测方法，通过区域定位和行为识别就能够检测出视频中是否包含异常行为以及该异常行为的发生位置。

本发明是通过以下技术方案实现的：

本发明从视频中每次提取出不重叠的连续帧，针对该连续帧计算光流幅度图像并进行预处理，计算预处理后的二值化图像中的有效连通区域并对其进行矫正和去除噪声，将得到的目标检测结果进行行为识别，最终得到异常行为检测结果。

所述的光流幅度图像是由连续帧的每相邻两帧的像素点在x和y方向上的移动信息根据公式计算得到的。

所述的预处理是计算光流幅度图像的平均图像，并将平均图像二值化，将高于灰度阈值的像素点设为1，低于灰度阈值的像素点设为0。

所述的有效连通区域是计算二值化后的平均图像的连通区域，去除面积小于目标阈值的连通区域，保留的区域即为有效连通区域，其中每个有效连通区域都用其左上和右下的坐标表示，如：B_i＝(x_i1，y_i1，x_i2，x_i2)。

所述的目标阈值根据场景中的目标的实际大小经验而定，例如，某一监控场景下人的像素面积在150-400之间，则阈值设为150。

所述的矫正和去除噪声是指：利用目标检测器检测连续帧的中间帧中的所有人的位置，其中每个人的位置用其左上和右下的坐标表示，如：P_i＝(x_i1，y_i1，x_i2，x_i2)，将上述坐标位置对应有效连通区域的坐标位置，当有效连通区域内有人时，将包含人的区域也纳入有效连通区域。

所述的识别是将每一个有效连通区域利用行为识别网络进行识别并对其计算可能是异常行为的概率，当概率大于异常行为阈值，则判定该区域发生了异常行为。

本发明涉及一种实现上述方法的***，包括：预处理模块、目标检测模块、行为识别模块，其中：预处理模块与目标检测模块相连并传输光流运动信息，目标检测模块与行为识别模块相连并传输检测到达目标区域信息，行为识别模块输出检测设别到的异常行为信息。

技术效果

与现有技术相比，本发明利用光流幅度图像得到视频中的运动信息进行对图像初步的行为定位，利用目标检测器剔除由光流幅度图像得到的运动区域中的噪声，保证得到的运动区域内包含人，这使得行为识别网络的识别对象更有针对性，使不同场景的监控视频都可以实现非常高的检测精度和非常低的误检率。

附图说明

图1为本发明的示意图；

图2为连续帧的中间帧的图像；

图3为二值化处理后的图像；

图4为有效连通区域的示意图；

图5为目标检测器检测结果的示意图；

图6为噪声去除结果的示意图。

具体实施方式

如图1所示，本实施例对一段监狱中监控摄像头拍摄的视频进行异常行为检测，通过区域定位和行为识别就能够检测出该段视频内是否包含异常行为以及异常行为发生的位置，具体步骤如下：

1)目标检测；

1.1)每次对监控视频不重叠地取出T＝16帧，如图2所示，为T/2＝8帧的图像；

1.2)计算相邻两帧的光流幅度图像，每一帧光流幅度图像包含两个通道，分别包含每一个像素点在x和y方向上的运动位移信息并计算光流幅度图像

1.3)计算15帧光流幅度图像的平均图像并对其进行二值化处理，将平均图像上像素值高于0.8的像素点设为1，否则设为0，如图3所示，马赛克部分为像素点为1的区域；

1.4)计算二值化后的平均图像的连通区域，剔除面积小于200的连通区域，保留有效连通区域，如图4所示，方框框出的部分为得到的两个有效连通区域：B＝{B_i|i＝1，2}，其中每个连通区域都用其左上和右下的坐标表示：B_i＝(x_i1，y_i1，x_i2，x_i2)；

1.5)对于T＝16帧的连续图像的中间帧T/2＝8帧采用单步多框检测器(SSD)进行网络检测，得到所有目标的位置，如图5所示，方框框出的部分为检测到的四个人的位置：P＝{P_i|i＝1，2，3，4}，其中每个人的位置都用其左上和右下的坐标表示：P_i＝(x_i1，y_i1，x_i2，x_i2)；

1.6)去除噪声：根据检测到的目标的位置判断有效连通区域B₁和B₂内是否有人，当有，则把包含人的区域也纳入该有效连通区；当无，则该连通区域保持不变，如图6所示，方框框出的部分为最终得到的有效连通区域；

所述的判断是指：对于有效连通区域B_i和目标的位置P_i，当Area(B_i^P_i)/Area(B_i)>0.6，则说明该有效连通区域内包含该对象，其中：Area为区域面积，符号^是两个矩形区域的相交，即两个矩形的公共区域。

2)行为识别；

2.1)利用基于3D卷积操作的行为识别网络C3D对步骤1.6中得到的两个有效连通区域B₁和B₂进行行为识别，并且计算得到两个有效区域可能是异常行为的概率：Prob(B₁)＝0.24，Prob(B₂)＝0.91；

2.2)判断异常行为概率，当概率值大于0.75，则该区域判定为发生了异常行为，即可得出有效区域B₂发生了异常行为，如图6所示的右下角的方框框选区域。

与现有技术相比，本发明能够更加准确地进行目标检测，对于普通目标检测器不能检测到的目标人体，例如人的面积很小，人存在遮挡和形变，在这些情况下，该发明通过目标的运动信息弥补了这些缺陷，从而能够得到更准确的目标检测，由于本发明利用运动特征进行群体的聚类，同时也解决了多个交互个体的复杂行为检测问题。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于运动信息聚类的监控视频异常行为检测***，其特征在于，包括：预处理模块、目标检测模块、行为识别模块，其中：预处理模块与目标检测模块相连并传输光流运动信息，目标检测模块与行为识别模块相连并传输检测到的目标区域信息，行为识别模块输出检测识别到的异常行为信息；

所述的监控视频异常行为检测是指：从视频中每次提取出不重叠的连续帧，针对该连续帧计算光流幅度图像并进行预处理，计算预处理后的二值化图像中的有效连通区域并对其进行矫正和去除噪声，将得到的目标检测结果进行行为识别，最终得到异常行为检测结果；

所述的光流幅度图像是由连续帧的每相邻两帧的像素点在x和y方向上的移动信息根据公式计算得到的；

所述的矫正和去除噪声是指：利用目标检测器检测连续帧的中间帧中的所有目标的位置，其中每个目标的位置用其左上和右下的坐标表示，将该坐标位置对应有效连通区域的坐标位置，当有效连通区域内有目标时，将包含目标的区域也纳入有效连通区域，具体为：对于有效连通区域B_i和目标的位置P_i，当Area(B_i^P_i)/Area(B_i)>0.6，则认为该有效连通区域内包含该目标，其中：Area为区域面积，符号^是两个矩形区域的相交，即两个矩形的公共区域；

所述的预处理是计算光流幅度图像的平均图像并将平均图像二值化，将高于灰度阈值的像素点设为1，低于阈值的像素点设为0；

所述的有效连通区域是计算二值化后的平均图像的连通区域，去除面积小于目标阈值的连通区域，保留的区域即为有效连通区域，其中每个有效连通区域都用其左上和右下的坐标表示；

所述的目标检测器，通过单步多框检测器进行网络检测实现；

所述的识别是将每一个有效连通区域利用行为识别网络进行识别并对其计算可能是异常行为的概率，当其中任一概率大于异常行为阈值，则判定该区域发生了异常行为；

所述的识别，通过基于3D卷积操作的行为识别网络C3D实现。