CN108921083B

CN108921083B - 基于深度学习目标检测的非法流动摊贩识别方法

Info

Publication number: CN108921083B
Application number: CN201810688380.0A
Authority: CN
Inventors: 陈晋音; 龚鑫; 方航; 俞露; 王诗铭
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-06-28
Filing date: 2018-06-28
Publication date: 2021-07-27
Anticipated expiration: 2038-06-28
Also published as: CN108921083A

Abstract

本发明的目的是提供一种基于深度学习目标检测的非法流动摊贩识别方法，包括以下步骤：获取道路监控图像，并将该道路监控视频截成帧图像；利用目标检测模型从帧图像中检测出摊位和行人的位置；根据摊位的位置，滤除图像中运动的摊位，保留固定摊位；基于固定摊位的位置和数量，用K‑means聚类方法对行人聚类，得到与每个固定摊位对应的行人；利用行人识别模型和摊位识别模型分别区分不同的行人和摊位；判定被划分为同一个固定摊位所在类的行人是否为摊贩。本发明提供的方法可以实现对道路监控范围内存在的非法流动摊贩进行自动取证，有效地提高城市管理部门的效率，减少人力成本。

Description

基于深度学习目标检测的非法流动摊贩识别方法

技术领域

本发明属于智能城市管理应用领域，具体涉及基于深度学习目标检测的非法流动摊贩识别方法。

背景技术

流动摊贩，指没有固定经营位置，以流动的形式在城市中贩卖物品的商人或小贩。流动商贩大多没有经营许可，其贩卖的商品无法得到质量保证。而且，流动摊贩存在明火烧烤、煎炸食品等行为，产生大量废弃物，影响城市容貌，造成污染。商贩贩卖的物品以早餐、熟食、水果等食品居多，如果卫生条件、食品质量得不到保证，将会造成一定的健康危害。

因此，流动摊贩成为了城市管理部门整治的主要对象之一。由于流动摊贩的流动性强，活动范围广，使得相关部门难以对其进行管理。随着人工智能技术的快速发展，可以利用相关技术对流动摊贩进行识别，从而实现自动抓拍取证的效果。使用基于深度学习的非法流动摊贩识别***，能够自动从监控探头画面中检测是否存在流动摊贩，进而节省城市管理部门的人力，提高城市管理效率。

在非法流动摊贩识别的过程中，需要从图像中检测出行人与摊位，根据行人与摊位的相对位置、运动轨迹，分析出哪些行人是流动摊贩，进而进行抓拍取证。对此，需要采用目标检测方法，从图像中找出人们感兴趣的物体，并对其进行识别。目前常见的目标检测方法都基于深度学习技术，有Faster R-CNN、YOLO、SSD等方法。

公开号为CN107679078A的公开文本涉及一种基于深度学习的卡口图像车辆快速检索方法及***，本发明采用深度神经网络来提取车辆特征信息，基于inception_resnet_v2网络对车辆特征进行提取，其中实现了网络权值共享，有效避免了大量重复计算，其损失函数采用三元组样本训练，直接产生128维向量，在检索图片阶段，本发明采用了对特征聚类的方式对特征建立索引，提升查询速度。本发明可以加快图像特征的提取速度，以及快速的实时响应的同时，能够有效稽查追捕假牌、***这部分违法车辆。

发明内容

本发明的目的是提供一种基于深度学习目标检测的非法流动摊贩识别方法，以实现对道路监控范围内存在的非法流动摊贩进行自动取证，有效地提高城市管理部门的效率，减少人力成本。

基于深度学习的目标检测的非法流动摊贩识别方法，包括以下步骤：

(1)获取道路监控图像，并将该道路监控视频截成帧图像；

(2)利用目标检测模型从帧图像中检测出摊位和行人的位置；

(3)根据摊位的位置，滤除图像中运动的摊位，保留固定摊位；

(4)基于固定摊位的位置和数量，用K-means聚类方法对行人聚类，得到与每个固定摊位对应的行人；

(5)利用行人识别模型和摊位识别模型分别区分不同帧图像中的行人或摊位是否为同一个行人或摊位；

(6)判定被划分为同一个固定摊位所在类的行人是否为摊贩；

所述目标检测模型由Inception Resnet v2网络和Faster R-CNN网络组成的学习网络训练得到；所述行人识别模型和摊贩识别模型均由Inception Resnet v2网络训练得到。

所述的目标检测模型对应的学习网络包括：

Inception Resnet v2网络，对输入的帧图像进行特征提取，输出特征图到RPN网络和RoI池化层；

RPN网络，接收来自于Inception Resnet v2网络输出的特征图，提取出可能存在目标的矩形候选区域，并输出到RoI池化层；

RoI池化层，接收Inception Resnet v2网络输出的特征图和RPN网络输出的矩形候选区域，将矩形候选区域映射到特征图上后输出特征图到全连接层；

全连接层，接收RoI池化层输出的特征图，输出每个矩形候选区域的图像中物体所属的类别，以及其分类置信度；调整矩形候选区域中物体的边界，输出坐标信息。

其中，给图像中的行人、摊位分别打上相同类标，形成训练样本对目标检测模型进行训练。

所述行人识别模型和摊贩识别模型对应的Inception Resnet v2网络包括：

第一层为Reshape函数层；

第二层、第三层均为3*3的卷积层；

第四层为最大池化层；

第五层、第六层均为3*3的卷积层；

第七层为最大池化层；

第八层至第十三层为交替连接的Reduction网络模块和Inception网络模块；

第十四层为3*3的卷积层；

第十五层为平均池化层；

第十六层为输出层；

第十七层为1*1*1024的全连接层，输出特征图和1*1*1024维的向量；

第十八层为1*1*N的全连接层，用于对1*1*1024维的向量中的物体进行分类，输出物体类别及分类置信度，N为分类数量。

所述Inception Resnet v2网络中第八层至第十三层依次为Reduction A模块、5个串联的Inception A模块、Reduction B模块、10个串联的Inception B模块、Reduction C模块和5个串联的Inception C模块。

所述Reduction-A模块由四部分并联：第一部分为1*1的卷积层；第二部分为1*1的卷积层，3*3的卷积层；第三部分为1*1的卷积层，3*3的卷积层，3*3的卷积层；第四部分为1*1的卷积层，平均池化层，四部分并联输出；所述Reduction-B模块由三部分并联：第一部分为1*1的卷积层；第二部分为1*1的卷积层，3*3的卷积层；第三部分为平均池化层；这三部分通过Concat层进行连接，拼接后输出；所述Reduction-C模块由三部分并联：第一部分为1*1的卷积层，1*1的卷积层；第二部分为1*1的卷积层，3*3的卷积层；第三部分为1*1的卷积层，3*3的卷积层，3*3的卷积层；第四部分为平均池化层；这四部分通过Concat层进行连接，拼接后输出；

所述Inception-A模块由三部分并联：第一部分为1*1的卷积层；第二部分为1*1的卷积层，3*3的卷积层；第三部分为1*1的卷积层，3*3的卷积层，3*3的卷积层；这三部分通过Concat层进行连接，经过3*3的卷积层之后，与深度残差网络一起构成输出；所述Inception-B模块由两部分并联：第一部分为1*1的卷积层；第二部分为1*1的卷积层，3*3的卷积层，3*3的卷积层；这两部分通过Concat层进行连接，经过3*3的卷积层之后，与深度残差网络一起构成输出；所述Inception-C模块由两部分并联：第一部分为1*1的卷积层；第二部分为1*1的卷积层，3*3的卷积层；这两部分通过Concat层进行连接，经过3*3的卷积层之后，与深度残差网络一起构成输出。

其中，提取行人图像，为同一个行人打上同一个类标，而不同行人的类标不同，用于训练行人识别模型；提取流动摊位图像，为同一个摊位打上同样的类标，而不同摊位的类标不同，用于训练摊位识别模型。

在步骤(3)中，保留固定摊位的方法为：

将每一个检测到的摊位的位置和特征向量存储到数据库中，并增加一个计数变量COUNT；每当检测到一个新的摊位，将它的特征向量与已存的目标进行比对；若在数据库中存储有相同目标，并且目标的坐标变化小于预设值，则增加其计数值COUNT+n₁，并更新数据库中对应目标的信息；若数据库中未存储该目标，则将其存入数据库；若数据库中某个目标在某帧中未出现，则减小其计数值COUNT-n₂；给定最高阈值COUNT_MAX与最低阈值COUNT_MIN；若COUNT大于COUNT_MAX，则将COUNT置为最高值COUNT_MAX；若COUNT小于COUNT_MIN，则删除当前目标。

其中，所述坐标变化的预设值大小根据实际情况调整。

其中，若COUNT大于COUNT_MAX，则将COUNT置为最高值COUNT_MAX，可以防止计数值过大造成的数据越界，导致无法删除数据库中过多的数据

在步骤(4)中得到与每个固定摊位对应的行人的方法为：根据固定摊位的数量n，将n个固定摊位的中心点作为初始的样本点；根据每个行人的中心位置与每个类簇的重心距离，K-means聚类方法对行人分类，最终分出n个类，对应n个固定摊位。

在步骤(5)中，利用行人识别模型和摊位识别模型分别区分不同的行人和摊位，判断不同帧图像中的行人或摊位为同一个行人或摊位的方法为：利用行人识别模型提取行人图像的特征，获得行人的特征向量；利用摊位识别模型提取摊位图像的特征，获得摊位的特征向量；将保存行人和摊位的特征向量与已保存的行人和摊位的特征向量作对比；

根据特征向量计算欧氏距离下的特征距离D；给定阈值T，若D＞T，则不同帧图像中的行人或摊位不为同一个摊位或行人；若D≤T，则不同帧图像中的行人或摊位为同一个摊位或行人。

欧氏距离下的特征距离：

其中D表示欧氏距离，n＝1024表示特征向量维度，a_i表示特征向量a中第i维的值，b_i表示特征向量b中第i维的值；a与b代表不同帧图像中的行人或摊位。

在步骤(6)中，判定被划分为同一个固定摊位所在类的行人是否为摊贩的方法为：为行人建立数据库，存储对应的特征信息、历史分类信息以及计数变量COUNT；所述历史分类信息指某个行人在多帧处理过程中，经过K-means聚类方法进行分类的信息；每当检测出行人，将其与数据库中的行人作对比，若能检测出与之相同的行人，则增加其计数值COUNT+n₁，往其历史分类信息添加当前分类信息；若检测不出与之相同的行人，则将其信息加入数据库；若数据库中某个行人在当前帧中未出现，则减小其计数值COUNT-n₂；给定计数阈值参数C_THRESHOLD与百分比阈值参数P_THRESHOLD，若某个行人的历史分类信息足够多，大于C_THRESHOLD，并且其被分为某一类别的百分比大于P_THRESHOLD，则可认定该行人为流动摊贩；给定最高阈值COUNT_MAX与最低阈值COUNT_MIN；若COUNT大于COUNT_MAX，则将COUNT设置为最高值COUNT_MAX；若COUNT小于COUNT_MIN，则删除数据库中对应的行人。

本发明采用Faster R-CNN(快速区域卷积神经网)方法，这是一种用于目标检测的主流深度学习网络框架，它的优点在于具有比别的方法更高的识别精度；行人、摊位的位置分析，需要用到聚类算法；K-Means算法是一种简单而有效的无监督学习聚类算法，它通过随机选取初始样本点，根据样本在特征空间上的距离，将样本划分到不同的类别中。

本发明提供的方法通过从道路监控视频中获取行人与摊位的位置，并对目标特征的分析，筛选、过滤数据，获得固定摊位的位置和数量，并通过基于K-means聚类的方法，从行人中找出摊贩，从而进行自动取证。

本发明的实际效益主要表现在：结合深度学习技术，能够自动化地实现非法流动摊贩自动取证功能，利用现有的城市道路视频监控网络，有效地提高城市管理部门的效率，减少人力成本。

附图说明

图1为本发明提供的非法流动摊贩识别方法的流程图；

图2为本发明提供的Inception Resnet v2网络的结构；

图3为Inception Resnet v2网络中的Reduction网络模块；

图4为Inception Resnet v2网络中的Inception网络模块；

图5为Inception Resnet v2网络中的Inception-C网络模块；

图6为本发明提供的目标检测模型的网络结构。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

如图1所示，基于深度学习的目标检测的非法流动摊贩识别方法，包括以下步骤：

(1)获取道路监控图像，并将该道路监控视频截成帧图像。

(2)利用目标检测模型从帧图像中检测出摊位和行人的位置。

如图6所示，所述的目标检测模型对应的学习网络包括：

如图2所示，所述行人识别模型和摊贩识别模型对应的Inception Resnet v2网络包括：

第一层为Reshape函数层；

第二层、第三层均为3*3的卷积层；

第四层为最大池化层；

第五层、第六层均为3*3的卷积层；

第七层为最大池化层；

第十四层为3*3的卷积层；

第十五层为平均池化层；

第十六层为输出层；

如图3所示，所述Reduction-A模块由四部分并联：第一部分为1*1的卷积层；第二部分为1*1的卷积层，3*3的卷积层；第三部分为1*1的卷积层，3*3的卷积层，3*3的卷积层；第四部分为1*1的卷积层，平均池化层，四部分并联输出；所述Reduction-B模块由三部分并联：第一部分为1*1的卷积层；第二部分为1*1的卷积层，3*3的卷积层；第三部分为平均池化层；这三部分通过Concat层进行连接，拼接后输出；所述Reduction-C模块由三部分并联：第一部分为1*1的卷积层，1*1的卷积层；第二部分为1*1的卷积层，3*3的卷积层；第三部分为1*1的卷积层，3*3的卷积层，3*3的卷积层；第四部分为平均池化层；这四部分通过Concat层进行连接，拼接后输出；

如图4和图5所示，所述Inception-A模块由三部分并联：第一部分为1*1的卷积层；第二部分为1*1的卷积层，3*3的卷积层；第三部分为1*1的卷积层，3*3的卷积层，3*3的卷积层；这三部分通过Concat层进行连接，经过3*3的卷积层之后，与深度残差网络一起构成输出；所述Inception-B模块由两部分并联：第一部分为1*1的卷积层；第二部分为1*1的卷积层，3*3的卷积层，3*3的卷积层；这两部分通过Concat层进行连接，经过3*3的卷积层之后，与深度残差网络一起构成输出；所述Inception-C模块由两部分并联：第一部分为1*1的卷积层；第二部分为1*1的卷积层，3*3的卷积层；这两部分通过Concat层进行连接，经过3*3的卷积层之后，与深度残差网络一起构成输出。

所述Inception Resnet v2网络还包括Resnet网络结构，利用深度残差网络，直接从输入到输出，而不经过中间模块，解决随着网络深度加深，反而准确率可能会下降的现象。

(3)根据摊位的位置，滤除图像中运动的摊位，保留固定摊位。

对流动摊位的分析过程中能过发现，目标检测网络无法保证每次都能检测出所有的行人与摊位。在某一帧中，能够检测出同一个行人、摊位，而下一帧不一定能检测得出来，这给分析过程带来了困难。因此需要滤除运动中的摊位。

具体的，将每一个检测到的摊位的位置和特征向量存储到数据库中，并增加一个计数变量COUNT；每当检测到一个新的摊位，将它的特征向量与已存的目标进行比对；若在数据库中存储有相同目标，并且目标的坐标变化小于预设值，则增加其计数值COUNT+n₁，并更新数据库中对应目标的信息；若数据库中未存储该目标，则将其存入数据库；若数据库中某个目标在某帧中未出现，则减小其计数值COUNT-n₂；给定最高阈值COUNT_MAX与最低阈值COUNT_MIN；若COUNT大于COUNT_MAX，则将COUNT置为最高值COUNT_MAX；若COUNT小于COUNT_MIN，则删除当前目标。

其中，所述坐标变化的预设值大小根据实际情况调整。

(4)基于固定摊位的位置和数量，用K-means聚类方法对行人聚类，得到与每个固定摊位对应的行人。

具体的，根据固定摊位的数量n，将n个固定摊位的中心点作为初始的样本点；根据每个行人的中心位置与每个类簇的重心距离，K-means聚类方法对行人分类，最终分出n个类，对应n个固定摊位。

(5)利用行人识别模型和摊位识别模型分别区分不同帧图像中的行人或摊位是否为同一个行人或摊位。

以行人为例，目标检测模型在每一帧中检测并定位出存在的行人，但是无法判断前后两帧中，某两个行人是否是同一个人。因此，每处理一帧时，使用目标检测模型检获取行人位置信息，使用行人识别模型提取行人图像的特征，可以获得每个行人的特征向量。

具体的，根据行人、摊位分别在人识别模型和摊位识别模型中产生特征向量的差异，通过目标在特征空间中的距离，判断两个对象是否是相同的行人或摊位。

具体的，利用行人识别模型提取行人图像的特征，获得行人的特征向量；利用摊位识别模型提取摊位图像的特征，获得摊位的特征向量；将保存行人和摊位的特征向量与已保存的行人和摊位的特征向量作对比；

欧氏距离下的特征距离：

(6)判定被划分为同一个固定摊位所在类的行人是否为摊贩。

具体的，为行人建立数据库，存储对应的特征信息、历史分类信息以及计数变量COUNT；所述历史分类信息指某个行人在多帧处理过程中，经过K-means聚类方法进行分类的信息；每当检测出行人，将其与数据库中的行人作对比，若能检测出与之相同的行人，则增加其计数值COUNT+n₁，往其历史分类信息添加当前分类信息；若检测不出与之相同的行人，则将其信息加入数据库；若数据库中某个行人在当前帧中未出现，则减小其计数值COUNT-n₂；给定计数阈值参数C_THRESHOLD与百分比阈值参数P_THRESHOLD，若某个行人的历史分类信息足够多，大于C_THRESHOLD，并且其被分为某一类别的百分比大于P_THRESHOLD，则可认定该行人为流动摊贩；给定最高阈值COUNT_MAX与最低阈值COUNT_MIN；若COUNT大于COUNT_MAX，则将COUNT设置为最高值COUNT_MAX；若COUNT小于COUNT_MIN，则删除数据库中对应的行人。

Claims

1.一种基于深度学习的目标检测的非法流动摊贩识别方法，包括以下步骤：

(1)获取道路监控视频，并将该道路监控视频截成帧图像；

(2)利用目标检测模型从帧图像中检测出摊位和行人的位置；

(6)判定被划分为同一个固定摊位所在类的行人是否为摊贩；

所述目标检测模型由Inception Resnet v2网络和Faster R-CNN网络组成的学习网络训练得到；所述行人识别模型和摊贩识别模型均由Inception Resnet v2网络训练得到；

所述的步骤(3)中保留固定摊位的方法为：将每一个检测到的摊位的位置和特征向量存储到数据库中，并增加一个计数变量COUNT；每当检测到一个新的摊位，将它的特征向量与已存的目标进行比对；若在数据库中存储有相同目标，并且目标的坐标变化小于预设值，则增加其计数值COUNT+n₁，并更新数据库中对应目标的信息；若数据库中未存储该目标，则将其存入数据库；若数据库中某个目标在某帧中未出现，则减小其计数值COUNT-n₂。

2.根据权利要求1所述的基于深度学习的目标检测的非法流动摊贩识别方法，其特征在于，所述的步骤(3)中保留固定摊位的方法还包括：给定最高阈值COUNT_MAX与最低阈值COUNT_MIN；若COUNT大于COUNT_MAX，则将COUNT置为最高值COUNT_MAX；若COUNT小于COUNT_MIN，则删除当前目标。

3.根据权利要求1所述的基于深度学习的目标检测的非法流动摊贩识别方法，其特征在于，所述步骤(4)中得到与固定摊位对应的行人的方法为：根据固定摊位的数量n，将n个固定摊位的中心点作为初始的样本点；根据每个行人的中心位置与每个类簇的重心距离，K-means聚类方法对行人分类，最终分出n个类，对应n个固定摊位。

4.根据权利要求1所述的基于深度学习的目标检测的非法流动摊贩识别方法，其特征在于，所述步骤(5)中区分不同帧图像中的行人或摊位是否为同一个行人或摊位的方法包括：

利用行人识别模型提取行人图像的特征，获得行人的特征向量；利用摊位识别模型提取摊位图像的特征，获得摊位的特征向量；将保存行人和摊位的特征向量与已保存的行人和摊位的特征向量作对比；

5.根据权利要求1所述的基于深度学习的目标检测的非法流动摊贩识别方法，其特征在于，所述步骤(6)中判定被划分为同一个摊位所在类的行人是否为摊贩的方法为：

为行人建立数据库，存储对应的特征信息、历史分类信息以及计数变量COUNT；所述历史分类信息指某个行人在多帧处理过程中，经过K-means聚类方法进行分类的信息；每当检测出行人，将其与数据库中的行人作对比，若能检测出与之相同的行人，则增加其计数值COUNT+n₁，往其历史分类信息添加当前分类信息；若检测不出与之相同的行人，则将其信息加入数据库；若数据库中某个行人在当前帧中未出现，则减小其计数值COUNT-n₂；

给定计数阈值参数C_THRESHOLD与百分比阈值参数P_THRESHOLD，若某个行人的历史分类信息足够多，大于C_THRESHOLD，并且其被分为某一类别的百分比大于P_THRESHOLD，则可认定该行人为流动摊贩。

6.根据权利要求1所述的基于深度学习的目标检测的非法流动摊贩识别方法，其特征在于，所述步骤(6)中判定被划分为同一个摊位所在类的行人是否为摊贩的方法还包括：给定最高阈值COUNT_MAX与最低阈值COUNT_MIN；若COUNT大于COUNT_MAX，则将COUNT设置为最高值COUNT_MAX；若COUNT小于COUNT_MIN，则删除数据库中对应的行人。