CN111813997B

CN111813997B - 入侵分析方法、装置、设备及存储介质

Info

Publication number: CN111813997B
Application number: CN202010935740.XA
Authority: CN
Inventors: 王龙
Original assignee: Ping An International Smart City Technology Co Ltd
Current assignee: Ping An International Smart City Technology Co Ltd
Priority date: 2020-09-08
Filing date: 2020-09-08
Publication date: 2020-12-29
Anticipated expiration: 2040-09-08
Also published as: CN111813997A

Abstract

本发明涉及智慧城市的监控技术领域，公开了一种入侵分析方法、装置、设备及存储介质，用于提高社区管理中人员入侵分析的准确率、及监控效率。所述方法包括：从视频监控平台中拉取原始监测视频流，并对所述原始监测视频流进行抽帧解析，得到对应的待识别视频图像；将所述待识别视频图像输入至预设的深度学***台。

Description

入侵分析方法、装置、设备及存储介质

技术领域

本发明涉及智慧城市的监控技术领域，尤其涉及一种入侵分析方法、装置、设备及存储介质。

背景技术

智慧社区是社区管理的新理念，是社会管理创新的一种新模式，智慧社区能充分利用新一代信息技术，为居民提供一个安全、舒适、便利的生活环境。行人入侵分析是社区管理中的重要组成部分，目前采用基于视频监控的技术进行入侵分析管理，然而传统的视频监控***存在着人工判别误差大、入侵分析准确率低的问题，导致了针对人员入侵的监控效率低下，对社区安全造成隐患。

发明内容

本发明的主要目的在于解决传统视频***监测社区人员入侵中，存在入侵分析准确率低、监控效率低的问题。

为实现上述目的，本发明第一方面提供了一种入侵分析方法，包括：

从视频监控平台中拉取原始监测视频流，并对所述原始监测视频流进行抽帧解析，得到对应的待识别视频图像；

将所述待识别视频图像输入至预设的深度学习目标检测器，得到对应的原始锚点坐标框，并将概率值大于预设阈值的所述原始锚点坐标框进行保留，得到对应的候选坐标框；

根据非极大值抑制算法对所述候选坐标框进行抑制处理，得到所述待识别视频图像中每个行人的坐标框；

将所有所述行人的坐标框进行聚类合并处理，得到聚类合并的新坐标框；

根据所述新坐标框对所述待识别视频图像进行截图并保存，得到对应的一批目标图片，将所述目标图片输入预设的卷积神经网络模型，得到所述卷积神经网络模型输出的行人入侵行为识别结果。

可选的，在本发明第一方面的另一种实现方式中，预先训练所述预设的深度学习目标检测器；

所述预先训练所述预设的深度学习目标检测器，具体包括：

从视频监控平台中拉取预设数据量的原始监测视频流进行抽帧解析，得到的视频图像作为训练数据集，所述训练数据集包括图片部分与标签部分，所述标签部分用于标定人体图像，并将所述训练数据集划分为训练集和验证集；

对所述训练集进行图像数据增强处理、并将处理后的图像输入深度学习目标检测器；

根据所述验证集对所述深度学习目标检测器的输出进行验证，当所述验证集的损失函数值不再递减时结束模型训练。

可选的，在本发明第一方面的另一种实现方式中，所述根据非极大值抑制算法对所述候选坐标框进行抑制处理，得到所述待识别视频图像中每个行人的坐标框，包括：

对所述候选坐标框按照概率值由高到低进行排序，并将最高概率值的候选坐标框作为第一基准框；

遍历所述最高概率值之后的候选坐标框，比较与所述第一基准框的交并比，并去除掉达到预设高度重合标准的候选坐标框；

重复遍历去除所述达到预设高度重合标准的候选坐标框之后剩余的候选坐标框，得到所述待识别视频图像中每个行人的坐标框。

可选的，在本发明第一方面的另一种实现方式中，所述将所有所述行人的坐标框进行聚类合并处理，得到聚类合并的新坐标框，包括：

预先设定类间距离，所述类间距离用于归类划定同一类框；

对所有所述行人的坐标框按照概率值由高到低进行排序；

从未被标记归类的坐标框中选取最高概率值的坐标框作为第二基准框；

依次遍历概率值排在所述第二基准框之后的行人的坐标框，并计算每一个坐标框的中心点坐标与所述第二基准框的中心点坐标之间的欧式距离；

当某一个坐标框的中心点坐标与所述第二基准框的中心点坐标之间的欧式距离小于所述类间距离，则划定为同一类框，并标记为已归类的坐标框；

当一次遍历结束后，重复遍历所述行人的坐标框，直到所有所述行人的坐标框都已归属对应的类别；

对归为一类的行人的坐标框合并为对应的一个新坐标框，从而得到所有所述行人的坐标框聚类合并对应的新坐标框。

可选的，在本发明第一方面的另一种实现方式中，所述方法还包括：

预先训练所述预设的卷积神经网络模型，所述卷积神经网络模型用于识别所述待识别视频图像中的行人是否存在入侵行为；

所述预先训练所述预设的卷积神经网络模型，具体包括：

获取经预处理的预设数据量的所述目标图片作为测试集，并按照预设的入侵行为判定标准，将所述目标图片中存在入侵行为的划分为正类，不存在入侵行为的划分为负类；

对所述目标图片进行预处理、并将处理后的图像输入卷积神经网络模型上预训练模型参数；

设定模型初始学习率为第一预设概率值，设定模型优化采用随机梯度下降，当训练达到预定的训练次数时将学习率调整为第二预设概率值，并结束模型训练。

可选的，在本发明第一方面的另一种实现方式中，所述将所述目标图片输入预设的卷积神经网络模型，得到所述卷积神经网络模型输出的行人入侵行为识别结果，具体包括：

将所述目标图片中的每一图像输入至预设的卷积神经网络模型，并输入经过Sigmoid函数得到每一图像对应的类别概率，其中，所述类别概率越高，其对应的目标图片中行人存在入侵的概率越高；

根据所述类别概率，确定经过所述卷积神经网络模型输出得到的每一目标图片中行人是否存在入侵行为的识别结果。

可选的，在本发明第一方面的另一种实现方式中，所述根据所述新坐标框对所述待识别视频图像进行截图并保存，得到对应的一批目标图片之后，还包括：

对所述目标图片做预处理，其中，所述预处理至少包括对所述目标图片进行图片缩放、剪裁和/或翻转；

所述将所述目标图片输入预设的卷积神经网络模型包括：

将所述预处理后的图像输入预设的卷积神经网络模型。

本发明第二方面提供了一种入侵分析装置，包括：

待识别视频图像获取模块，用于从视频监控平台中拉取原始监测视频流，并对所述原始监测视频流进行抽帧解析，得到对应的待识别视频图像；

候选坐标框获取模块，用于将所述待识别视频图像输入至预设的深度学习目标检测器，得到对应的原始锚点坐标框，并将概率值大于预设阈值的所述原始锚点坐标框进行保留，得到对应的候选坐标框；

抑制处理模块，用于根据非极大值抑制算法对所述候选坐标框进行抑制处理，得到所述待识别视频图像中每个行人的坐标框；

聚类合并模块，用于将所有所述行人的坐标框进行聚类合并处理，得到聚类合并的新坐标框；

识别输出模块，用于根据所述新坐标框对所述待识别视频图像进行截图并保存，得到对应的一批目标图片，将所述目标图片输入预设的卷积神经网络模型，得到所述卷积神经网络模型输出的行人入侵行为识别结果。

可选的，在本发明第二方面的另一种实现方式中，所述装置还包括：

目标检测器训练模块，用于预先训练所述预设的深度学习目标检测器；

所述目标检测器训练模块具体包括：

训练数据集获取单元，用于从视频监控平台中拉取预设数据量的原始监测视频流进行抽帧解析，得到的视频图像作为训练数据集，所述训练数据集包括图片部分与标签部分，所述标签部分用于标定人体图像，并将所述训练数据集划分为训练集和验证集；

数据增强单元，用于对所述训练集进行图像数据增强处理、并将处理后的图像输入深度学习目标检测器；

模型验证单元，用于根据所述验证集对所述深度学习目标检测器的输出进行验证，当所述验证集的损失函数值不再递减时结束模型训练。

可选的，在本发明第二方面的另一种实现方式中，所述抑制处理模块包括：

第一基准框获取单元，用于对所述候选坐标框按照概率值由高到低进行排序，并将最高概率值的候选坐标框作为第一基准框；

遍历及去重单元，用于遍历所述最高概率值之后的候选坐标框，比较与所述第一基准框的交并比，并去除掉达到预设高度重合标准的候选坐标框；

重复遍历及置信度获取单元，用于重复遍历去除所述达到预设高度重合标准的候选坐标框之后剩余的候选坐标框，得到所述待识别视频图像中每个行人的坐标框。

可选的，在本发明第二方面的另一种实现方式中，所述聚类合并模块包括：

归类划定单元，用于预先设定类间距离，所述类间距离用于归类划定同一类框；

概率值排序单元，用于对所有所述行人的坐标框按照概率值由高到低进行排序；

第二基准框获取单元，用于从未被标记归类的坐标框中选取最高概率值的坐标框作为第二基准框；

欧式距离计算单元，用于依次遍历概率值排在所述第二基准框之后的行人的坐标框，并计算每一个坐标框的中心点坐标与所述第二基准框的中心点坐标之间的欧式距离；

已归类坐标框获取单元，用于当某一个坐标框的中心点坐标与所述第二基准框的中心点坐标之间的欧式距离小于所述类间距离，则划定为同一类框，并标记为已归类的坐标框；

重复遍历单元，用于当一次遍历结束后，重复遍历所述行人的坐标框，直到所有所述行人的坐标框都已归属对应的类别；

新坐标框获取单元，用于对归为一类的行人的坐标框合并为对应的一个新坐标框，从而得到所有所述行人的坐标框聚类合并对应的新坐标框。

卷积神经网络模型预先训练模块，用于预先训练所述预设的卷积神经网络模型，所述卷积神经网络模型用于识别所述待识别视频图像中的行人是否存在入侵行为；

所述卷积神经网络模型预先训练模块包括：

测试集获取及正负类划分单元，用于获取经预处理的预设数据量大小的所述目标图片作为测试集，并按照预设的入侵行为判定标准，将所述目标图片中存在入侵行为的划分为正类，不存在入侵行为的划分为负类；

图片预处理及输入单元，用于对所述目标图片进行预处理、并将处理后的图像输入卷积神经网络模型上预训练模型参数；

模型验证及结束训练单元，用于设定模型初始学习率为第一预设概率值，设定模型优化采用随机梯度下降，当训练达到预定的训练次数时将学习率调整为第二预设概率值，并结束模型训练。

可选的，在本发明第二方面的另一种实现方式中，所述识别输出模块包括：

类别概率获取单元，用于将所述目标图片中的每一图像输入至预设的卷积神经网络模型，并输入经过Sigmoid函数得到每一图像对应的类别概率，其中，所述类别概率越高，其对应的目标图片中行人存在入侵的概率越高；

识别结果获取单元，用于根据所述类别概率，确定经过所述卷积神经网络模型输出得到的每一目标图片中行人是否存在入侵行为的识别结果。

可选的，在本发明第二方面的另一种实现方式中，所述识别输出模块还包括：

目标图片预处理单元，用于对所述目标图片做预处理，其中，所述预处理至少包括对所述目标图片进行图片缩放、剪裁和/或翻转；

输入单元，用于将所述预处理后的图像输入预设的卷积神经网络模型。

本发明第三方面提供了一种入侵分析设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互联；所述至少一个处理器调用所述存储器中的所述指令，以使得所述入侵分析设备执行上述第一方面所述的方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法。

本发明提供的技术方案中，通过从视频监控平台中拉取原始监测视频流，并对所述原始监测视频流进行抽帧解析，得到对应的待识别视频图像；将所述待识别视频图像输入至预设的深度学***台中拉流解码获得视频图像，经过算法处理计算后，返回计算结果给视频平台，提高社区管理中人员入侵分析的准确率、及监控效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例中入侵分析方法的一个实施例过程示意图；

图2为本发明实施例中入侵分析装置的一个实施例示意图；

图3为本发明实施例中入侵分析设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种入侵分析方法、装置、设备及存储介质，用于降低软件本地部署的成本。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例进行描述。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

行人入侵分析是社区管理中的重要组成部分，目前采用基于视频监控的技术进行入侵分析管理，然而传统的视频监控***存在着人工判别误差大、入侵分析准确率低的问题，导致了针对人员入侵的监控效率低下，对社区安全造成隐患。本发明提供了一种使用于社区管理中的行人的入侵分析方法，通过从视频监控平台中拉取原始监测视频流，并对所述原始监测视频流进行抽帧解析，得到对应的待识别视频图像；将所述待识别视频图像输入至预设的深度学***台，从而提高社区管理中人员入侵分析的准确率、及监控效率，以下分别进行详细的说明。

参阅图1，本发明实施例中入侵分析方法的一个实施例包括：

步骤101、从视频监控平台中拉取原始监测视频流，并对所述原始监测视频流进行抽帧解析，得到对应的待识别视频图像；

步骤102、将所述待识别视频图像输入至预设的深度学习目标检测器，得到对应的原始锚点坐标框，并将概率值大于预设阈值的所述原始锚点坐标框进行保留，得到对应的候选坐标框；

步骤103、根据非极大值抑制算法对所述候选坐标框进行抑制处理，得到所述待识别视频图像中每个行人的坐标框；

步骤104、将所有所述行人的坐标框进行聚类合并处理，得到聚类合并的新坐标框；

步骤105、根据所述新坐标框对所述待识别视频图像进行截图并保存，得到对应的一批目标图片，将所述目标图片输入预设的卷积神经网络模型，得到所述卷积神经网络模型输出的行人入侵行为识别结果。

具体的，在社区管理中，监控图像的获取来源于各个视频监控平台，因此，本发明中视频监控平台中的原始监测视频流由包括社区监控摄像头在内的社区或公安的视频监控联网平台与共享平台中采集获取。通过从视频监控平台中拉取原始监测视频流，并对所述原始监测视频流进行抽帧解析，得到对应的待识别视频图像，其中，所述视频监控平台提供url等格式的rstp视频流，对视频流进行抽帧解析可以采用ffmpeg快速解码抽帧、或matlab读取视频流并抽帧、或使用opencv对视频流进行抽帧，具体不作赘述。

进一步地，对所述待识别视频图像进行图像缩放处理，得到待识别视频图像。可选的，将所述待识别视频图像缩放到所述预设的深度学习目标检测器预先训练时设定的固定尺寸，例如，可以设定为416*416，即为所述待识别视频图像的尺寸。

在所述步骤102中，将待识别视频图像输入至预设的深度学习目标检测器，得到对应的原始锚点坐标框，并将概率值大于预设阈值的所述原始锚点坐标框进行保留，得到对应的候选坐标框。需要说明的是，预设的深度学习目标检测器经过预先训练而得到，通过将图像输入至目标检测器则可以获得在图像中对行人的原始锚点坐标框，并获取每个坐标框对应的模型概率值，通过刷选出概率值大于预设阈值的原始锚点坐标作为行人入侵分析的候选坐标框。

可选的，入侵分析方法的另一实施例中，所述方法还包括：

预先训练所述预设的深度学习目标检测器。其中，所述预先训练所述预设的深度学习目标检测器，具体包括：

可选地，可以对所述训练集进行图像数据增强处理、并将处理后的图像输入深度学习目标检测器，设定损失函数、模型初始学习率为0.001、以及模型学习率采用递减方式，其中所述损失函数中概率值采用交叉熵损失函数，坐标损失采用均方差损失函数；根据所述验证集对所述深度学习目标检测器的输出进行验证，当所述验证集的损失函数值不再递减时将学习率调整为原来的0.1，并结束模型训练。

具体地，本发明通过预先在视频监控平台中拉取预设数据量的原始监测视频流进行抽帧解析，得到的视频图像作为训练数据集，训练数据集包括图片部分与标签部分，标签部分用于标定人体图像，并将训练数据集划分为训练集和验证集，通过训练集训练模型、通过验证集验证模型的收敛性。其中，所述深度学习目标检测器采用YOLOv3模型，深度学习目标检测器优选为YOLOv3(You Only Look Once 3，YOLO 系列目标检测算法中的第三版)。通过YOLOv3目标检测框架，可以得到数以万计的原始锚点坐标框，对这些原始锚点坐标框按照概率值进行筛选，大于阈值的框保留，小于阈值的框去除，进而得到行人的坐标框。

进一步地，本发明深度学习目标检测器在训练及在识别过程中，所述图片部分均为jpg格式或png格式；所述标签部分中以每个人体图片横向为x轴、纵向为y轴、图片左上角为原点作为每个人轮廓矩形框的中心点坐标，其中每份标签为对应每张图片中包含每个人轮廓矩形框的中心点坐标与矩形框的宽高，所述每份标签的格式采用xml文件或txt文件。

进一步地，在对模型进行训练前对训练集中的图像进行数据增强处理，所述图像数据增强处理包括图像随机水平翻转、图像色温饱和度调节与图像随机旋转。本发明通过将图片部分、标签部分的格式进行具体限定，并在训练过程中对输入的图像进行清晰度、规范化处理，提高了模型训练过程中对图像中每个人体识别的准确性，从而提高了模型训练的可靠性，增强了深度学习目标检测器的识别准确性。

可选的，训练阶段优化方法设计为Adam + SGD，即训练前期使用Adam算法提升收敛速度，后期使用SGD算法保证模型收敛。概率值选用交叉熵损失函数，坐标损失选用均方差损失函数，并设置正则化以抑制过拟合，进一步增强了深度学习目标检测器的可靠性及识别准确性。

在所述步骤103中，根据非极大值抑制算法对所述候选坐标框进行抑制处理，得到所述待识别视频图像中每个行人的坐标框。可选的，在本发明入侵分析方法的另一实施例中，所述步骤103包括：

可以理解的是，由于对图像进行目标检测时，在图像上生成很多的候选框，譬如在同一个行人脸上可能会有好几个框，而针对每个行人只需要一个坐标框，因此通过非极大值抑制算法可以对候选坐标框进行抑制处理，重复遍历迭代可得到一个最概率值的坐标框作为目标行人的坐标框，通过非极大值抑制算法可以使得待识别视频图像中得到的每个行人的坐标框的准确性大大提高，从而提高了对行人入侵的监测与分析的准确性。

在所述步骤104中，将所有所述行人的坐标框进行聚类合并处理，得到聚类合并的新坐标框。

可选的，在本发明入侵分析方法的另一实施例中，所述步骤104包括：

预先设定类间距离，所述类间距离用于归类划定同一类框；

对所有所述行人的坐标框按照概率值由高到低进行排序；

具体的，对得到的行人坐标框进行排序，排序方式按照每个框的概率值从高到低；设定类间距离，从未被标记的框选取概率最高的为基准框，依次遍历排在其后的框，当某一框的中心点与基准框的中心点的欧式距离小于设定的类间距离，譬如设置为图像面积五分之一的开方，即划定为同一类框，并标记已归类的坐标框，遍历继续；当一次遍历结束，重复直到所有框都已归属某一类。进一步地，对于归为一类的坐标框，将其合并为一个新的坐标框，新的坐标框设定为包含这一类框的面积最小的框，具体做法是，对于每一类，从类内所有框的左上角顶点中分别寻找最小横纵坐标，记为x1与y1，从类内所有框的右下角顶点中分别寻找最大横纵坐标，记为x2与y2，（x1，y1）、（x2，y2）即为新的框的左上角与右下角顶点。本发明通过对所有行人的坐标框进行聚类合并处理，得到聚类合并的新坐标框，该新坐标框由于经过同类别归属，其目标检测的精度更高，对行人识别的准确性也相应提升，对后续进行入侵识别提高了监控的准确度。

在所述步骤105中，所述根据所述新坐标框对所述待识别视频图像进行截图并保存，得到对应的一批目标图片之后，还包括：对所述目标图片做预处理，其中，所述预处理至少包括对所述目标图片进行图片缩放、剪裁和/或翻转。其中，所述将所述目标图片输入预设的卷积神经网络模型包括：将所述预处理后的图像输入预设的卷积神经网络模型。

根据所述新坐标框对所述待识别视频图像进行截图并保存，得到对应的一批目标图片，并对所述目标图片预处理；通过对待识别视频图像进行新坐标框截图保存，可以得到针对行人识别精准度更佳的目标图片，并进一步对目标图片进行预处理，提高图片清晰度。

在本发明入侵分析方法的另一实施例中，对所述目标图片预处理具体包括：对所述目标图按设定的图像缩放大小、图像随机裁剪大小以及图像随机翻转方式进行处理，以使进入神经网络模型中识别的图像更为有效。

进一步地，在所述步骤105之后，可以将预处理后的图像输入预设的卷积神经网络模型，得到所述卷积神经网络模型输出的行人入侵行为识别结果，并将所述行人入侵行为识别结果返回至所述视频监控平台。

在本发明入侵分析方法的另一实施例中，所述将所述目标图片输入预设的卷积神经网络模型，得到所述卷积神经网络模型输出的行人入侵行为识别结果，具体包括：

在本发明入侵分析方法的另一实施例中，所述的入侵分析方法还包括：

所述预先训练所述预设的卷积神经网络模型，具体包括：

设定模型初始学习率为第一预设概率值，设定模型优化采用随机梯度下降，当训练达到预定的训练次数时将学习率调整为第二预设概率值，并结束模型训练。可选地，所述第一预设概率值设定为0.001，所述第二预设概率值设定为0.0001，即将训练达到预定的训练次数时将学习率由第一预设概率值调整为原来的十分之一。

通过对卷积神经网络模型进行预先训练，可以获取用于识别所述待识别视频图像中的行人是否存在入侵行为的深度学习模型。

具体地，通过将得到的每一图像输入至预设的卷积神经网络模型并经过Sigmoid函数得到每一图像对应的类别概率，可以得出上述目标图片中的行人存在入侵的可能性，且类别概率越高，其对应的目标图片中行人存在入侵的概率越高，通过得到的类别概率可以判断出是否存在入侵行为，譬如，预先获取针对正常行走、破门而入、翻墙而入等等进行类别区分的图像，训练卷积神经网络模型，因此可以通过训练得到的预设的卷积神经网络模型对图像中的行为类别进行识别区分，而通过Sigmoid函数可以得知每一类别的概率，则可以得到视频流中是否存在行人入侵行为的识别结果。进一步地，最终得到坐标框的坐标值、是否存在入侵行为的概率，包装为结构化的数据，还可以返回给视频监控平台，以实时提示警告监控人员社区中存在的入侵行为，从而提高了社区管理的智能化以及安全性。

综上可知，本发明提供的一种入侵分析方法，通过从视频监控平台中拉取原始监测视频流，并对所述原始监测视频流进行抽帧解析，得到对应的待识别视频图像；将所述待识别视频图像输入至预设的深度学***台，大大提高社区管理中人员入侵分析的准确率、及监控效率。

上面对本发明实施例中入侵分析方法进行了描述，下面对本发明实施例中入侵分析装置进行描述，请参阅图2，本发明实施例中入侵分析装置的一个实施例包括：

待识别视频图像获取模块11，用于从视频监控平台中拉取原始监测视频流，并对所述原始监测视频流进行抽帧解析，得到对应的待识别视频图像；

候选坐标框获取模块12，用于将所述待识别视频图像输入至预设的深度学习目标检测器，得到对应的原始锚点坐标框，并将概率值大于预设阈值的所述原始锚点坐标框进行保留，得到对应的候选坐标框；

抑制处理模块13，用于根据非极大值抑制算法对所述候选坐标框进行抑制处理，得到所述待识别视频图像中每个行人的坐标框；

聚类合并模块14，用于将所有所述行人的坐标框进行聚类合并处理，得到聚类合并的新坐标框；

识别输出模块15，用于根据所述新坐标框对所述待识别视频图像进行截图并保存，得到对应的一批目标图片，将所述目标图片输入预设的卷积神经网络模型，得到所述卷积神经网络模型输出的行人入侵行为识别结果。

可选的，在本发明入侵分析装置的另一个实施例中，所述装置还包括：

所述目标检测器训练模块具体包括：

可选的，在本发明入侵分析装置的另一个实施例中，所述抑制处理模块14包括：

可选的，在本发明入侵分析装置的另一个实施例中，所述聚类合并模块15包括：

所述卷积神经网络模型预先训练模块包括：

可选的，在本发明入侵分析装置的另一个实施例中，所述识别输出模块包括：

可选的，在本发明入侵分析装置的另一个实施例中，所述识别输出模块还包括：

需要说明的是，本发明实施例中的装置可以用于实现上述方法实施例中的全部技术方案，其各个功能模块的功能可以根据上述方法实施例中的方法具体实现，其具体实现过程可参照上述实例中的相关描述，此处不再赘述。

上面图2从模块化功能实体的角度对本发明实施例中的入侵分析装置进行详细描述，下面从硬件处理的角度对本发明实施例中入侵分析设备进行详细描述。

图3是本发明实施例提供的一种入侵分析设备的结构示意图，该入侵分析设备300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（centralprocessing units，CPU）301（例如，一个或一个以上处理器）和存储器309，一个或一个以上存储应用程序307或数据306的存储介质308（例如一个或一个以上海量存储设备）。其中，存储器309和存储介质308可以是短暂存储或持久存储。存储在存储介质308的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对图计算的布尔型变量存储中的一系列指令操作。更进一步地，处理器301可以设置为与存储介质308通信，在入侵分析设备300上执行存储介质308中的一系列指令操作。

入侵分析设备300还可以包括一个或一个以上电源302，一个或一个以上有线或无线网络接口303，一个或一个以上输入输出接口304，和/或，一个或一个以上操作***305，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图3中示出的入侵分析设备结构并不构成对入侵分析设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中，该计算机可读存储介质可以是非易失性的，也可以是易失性的。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory， ROM）、随机存取存储器（randomaccess memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种入侵分析方法，其特征在于，包括：

根据非极大值抑制算法对所述候选坐标框进行抑制处理，得到目标识别图像中每个行人的坐标框；

根据所述新坐标框对所述目标识别图像进行截图并保存，得到对应的一批目标图片，将所述目标图片输入预设的卷积神经网络模型，得到所述卷积神经网络模型输出的行人入侵行为识别结果。

2.根据权利要求1所述的入侵分析方法，其特征在于，所述方法还包括：

预先训练所述预设的深度学习目标检测器；

所述预先训练所述预设的深度学习目标检测器，具体包括：

3.根据权利要求1所述的入侵分析方法，其特征在于，所述根据非极大值抑制算法对所述候选坐标框进行抑制处理，得到目标识别图像中每个行人的坐标框，包括：

重复遍历去除所述达到预设高度重合标准的候选坐标框之后剩余的候选坐标框，得到所述目标识别图像中每个行人的坐标框。

4.根据权利要求1所述的入侵分析方法，其特征在于，所述将所有所述行人的坐标框进行聚类合并处理，得到聚类合并的新坐标框，包括：

预先设定类间距离，所述类间距离用于归类划定同一类框；

对所有所述行人的坐标框按照概率值由高到低进行排序；

依次遍历概率值排在所述第二基准框之后的行人的坐标框，并计算每一个坐标框的中心点坐标与所述第二基准框的的中心点坐标之间的欧式距离；

当某一个坐标框的中心点坐标与所述第二基准框的的中心点坐标之间的欧式距离小于所述类间距离，则划定为同一类框，并标记为已归类的坐标框；

5.根据权利要求1所述的入侵分析方法，其特征在于，所述方法还包括：

所述预先训练所述预设的卷积神经网络模型，具体包括：

设定模型初始学习率为预设概率值，设定模型优化采用随机梯度下降，当训练达到预定的训练次数时将学习率调整为原来的十分之一，并结束模型训练。

6.根据权利要求1所述的入侵分析方法，其特征在于，所述将所述目标图片输入预设的卷积神经网络模型，得到所述卷积神经网络模型输出的行人入侵行为识别结果，具体包括：

7.根据权利要求1所述的入侵分析方法，其特征在于，所述根据所述新坐标框对所述目标识别图像进行截图并保存，得到对应的一批目标图片之后，还包括：

对所述目标图片做预处理，其中，所述预处理至少包括对所述所述目标图片进行图片缩放、剪裁和/或翻转；

所述将所述目标图片输入预设的卷积神经网络模型包括：

将所述预处理后的图像输入预设的卷积神经网络模型。

8.一种入侵分析装置，其特征在于，包括：

抑制处理模块，用于根据非极大值抑制算法对所述候选坐标框进行抑制处理，得到目标识别图像中每个行人的坐标框；

识别输出模块，用于根据所述新坐标框对所述目标识别图像进行截图并保存，得到对应的一批目标图片，将所述目标图片输入预设的卷积神经网络模型，得到所述卷积神经网络模型输出的行人入侵行为识别结果。

9.一种入侵分析设备，其特征在于，所述入侵分析设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互联；所述至少一个处理器调用所述存储器中的所述指令，以使得所述入侵分析设备执行如权利要求1-7中任意一项所述的入侵分析方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任意一项所述入侵分析方法的步骤。