WO2020114116A1

WO2020114116A1 - 一种基于密集人群的行人检测方法、存储介质及处理器

Info

Publication number: WO2020114116A1
Application number: PCT/CN2019/112433
Authority: WO
Inventors: 刘若鹏; 栾琳; 严向荣
Original assignee: 深圳光启空间技术有限公司
Priority date: 2018-12-06
Filing date: 2019-10-22
Publication date: 2020-06-11
Also published as: CN111291587A

Abstract

一种基于密集人群的行人检测方法、存储介质及处理器，其中所述方法包括：采用COCO数据集训练yolo模型（S11）；用矩形框将目标物框住，将矩形框的宽和高为一组，聚类到预设个数的类中，得到预设个数的组数据锚点（S12）；根据一组行人的宽高聚类描点大小及比例形成训练模型（S13）；运用得到的训练模型来对待识别图像的行人进行预测，以识别所述待识别图像中的行人（S14）。该方法可以实现密集目标检测，特别是目标存在遮挡、重叠时实现目标的准确检测；可检测目标更小；检测速度更快，可普遍适用于大型商场、购物中心、连锁店、机场、车站、博物馆、展览馆等公共场所。

Description

一种基于密集人群的行人检测方法、存储介质及处理器

技术领域

本发明涉及目标检测领域，具体的涉及一种基于密集人群的行人检测方法、存储介质及处理器。

背景技术

目标检测模型主要有R-CNN，Fast-R-CNN，Faster-R-CNN, YOLO, SSD

R-CNN 基于“候选框”的目标检测，大大提升检测速度，但缺点是每一个候选框都要独自经过CNN，这使得花费的时间非常多。

YOLO目标检测模型采用了网格化和描点的方法，极大简化了候选框的生成过程，模型整体性能优越。

技术问题

YOLOv3使用Darknet-53基础网络，使用如下9个锚点，长宽分别是（单位为像素）：（10，13），（16，30），（33，23），（30，61），（62，45），（59，119），（116，90），（156，198），（373，326）。这些描点的选择是在COCO数据集基础上聚类的9个锚点，目标物在图像中的占比都比较大，当出现目标物占比比较小的场景，比如公共区域摄像头，为了尽可能的监控到跟多的区域，画面中的人像在整张图中的占比就非常的小，而且出现行人（目标）聚集的情况，为了能够检测出较小的目标，需要将目标分类置信度阈值适当的降低，但这样会带来另外一个问题：会将多人（目标）识别成一个目标，这样造成识别目标不准确的问题。

技术解决方案

本发明所要解决的技术问题是提供一种基于密集人群的行人检测方法，能够实现小目标的检测，同时能够实现密集目标（行人）检测。

为解决上述技术问题，一方面，本发明一实施例提供了一种基于密集人群的行人检测方法，包括：采用COCO数据集训练yolo模型；用矩形框将目标物框住，将矩形框的宽和高为一组，聚类到预设个数的类中，得到预设个数的组数据锚点；

根据一组行人的宽高聚类描点大小及比例形成训练模型；运用得到的训练模型来对待识别图像的行人进行预测，以识别所述待识别图像中的行人。

优选地，所述根据一组行人的宽高聚类描点大小及比例指的是用于框住目标物的矩形的长和宽的比例。

优选地，所述预设个数指的是六个。

优选地，所述运用得到的训练模型来对待识别图像的行人进行预测包括：将待识别行人的图像输入所述训练模型，所述训练模型输出行人数量的预测结果。

优选地，所述目标物样本为2000～3000份。

优选地，用矩形框将目标物框住的重叠度大于阈值50%。

优选地，数据组锚点长宽比为1:1。

优选地，数据组锚点长宽比为1:1.5。

优选地，数据组锚点长宽比为1:2。

另一方面，本发明一实施例提供了一种存储介质，所述存储介质包括存储的程序，其中，所述程序运行时执行上述的基于密集人群的行人检测方法。

另一方面，本发明一实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述的基于密集人群的行人检测方法。

有益效果

与现有技术相比，上述技术方案具有以下优点：实现密集目标检测，特别是目标存在遮挡、重叠时实现目标的准确检测；可检测目标更小；检测速度更快，可普遍适用于大型商场、购物中心、连锁店、机场、车站、博物馆、展览馆等公共场所。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是本发明一种基于密集人群的行人检测方法流程图。

图2是现有技术中9个描点大小示意图。

图3是本发明基于密集人群的行人检测方法中使用的6个描点示意图。

图4是使用现有技术中9个描点大小、采用COCO数据集训练yolo模型预测的目标物示意图。

图5是使用本发明优化后采用6个描点大小COCO数据集训练yolo模型预测的目标物示意图。

本发明的实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例一

COCO的全称是Common Objects in COntext，是微软团队提供的一个可以用来进行图像识别的数据集。人类视觉***快速且精准，只需瞄一眼YOLO（You Only Look Once）即可识别图像中物品及其位置。YOLO为一种新的目标检测方法，该方法的特点是实现快速检测的同时还达到较高的准确率。YOLO的网络结构：模型采用卷积神经网络结构。开始的卷积层提取图像特征，全连接层预测输出概率。

图1是本发明一种基于密集人群的行人检测方法流程图。如图1所示，一种基于密集人群的行人检测方法，包括步骤：

S11、采用COCO数据集训练yolo模型；COCO数据是开源的80个分类，而且数据标注规范，每个类的样本都超过2000，这样训练出来的模型是一个标杆。

S12、用矩形框将目标物框住，将矩形框的宽和高为一组，聚类到预设个数的类中，得到预设个数的组数据锚点；聚类后训练收敛速度会明显加快，减少慢无目的的搜索，比如一个小目标，使用一个很大的框去框它，要贴近小目标的次数明显比一个和目标物接近的框去框搜索次数多。

S13、根据一组行人的宽高聚类描点大小及比例形成训练模型；聚类后训练收敛速度会明显加快，减少慢无目的的搜索。比如一个小目标，使用一个很大的框去框它，要贴近小目标的次数明显比一个和目标物接近的框去框搜索次数多，减少训练时间。

S14、运用得到的训练模型来对待识别图像的行人进行预测，以识别所述待识别图像中的行人。通过训练模型，可以检测任意目标行人。运用得到的训练模型来对待识别图像的行人进行预测包括：将待识别行人的图像输入训练模型，训练模型输出行人数量的预测结果。

锚点是3个一组，原来是3组，现在减少到2组，这样在性能没有明显下降的情况下减少计算量（参考依据是yolo-tiny)。

具体实施时，目标物样本选2000～3000份。根据经验值，一般要检测一种物体分类，大概通过2000～3000份样本数据来训练就可以检测出属性来。

具体实施时，用矩形框将目标物框住的重叠度大于阈值50%。预测目标框和实际目标物的并集S1与预测目标框和实际目标物的合集S2的比值（S1/S2)为阈值。

具体实施时，数据组锚点长宽比设为1:1。通过设定这样的长宽比，可以更容易框住正方形目标（比如坐下或蹲下的行人框）。

具体实施时，数据组锚点长宽比也可以设为1:1.5。通过设定这样的长宽比，可以框住中等长条形目标（比如行人展开手臂，背包情况下的框）。

具体实施时，数据组锚点长宽比也可以设定为1:2。通过设定这样的长宽比，这样可以框住直立的行人目标。

通过设定不同的锚点长宽比，可以框住不同姿态的目标物，框住目标物概率大，效率高。

如大型商场、购物中心、连锁店、机场、车站、博物馆、展览馆等公共场所，通过嵌入终端的若干个摄像头采集流动中的密集人群视频，对采集视频图像要求精度高的场合，可以选择高清摄像头。然后对视频图像进行视差计算，形成视频中人的图像，通过对人体的形状和高度为分析目标，采集移动的测试图像样本。为了图像分析更有时间性，视频中人的图像截取时带有时间戳信息。使用实施例一的基于密集人群的行人检测方法，可快速、准确地识别出大型商场、购物中心、连锁店、机场、车站、博物馆、展览馆等公共场所出入的行人数量。

实施例二

图2是现有技术中9个描点大小示意图。如图2所示，图示单位为像素，9个描点长宽分别为（10像素,13像素）, （16像素,30像素）,（33像素,23像素）,（30像素,61像素）,（62像素,45像素）,（59像素,119像素）,（116像素,90像素）,（156像素,198像素）,（373像素,326像素）。图3本发明基于密集人群的行人检测方法中使用的6个描点示意图。如图3所示，采用COCO数据集训练yolo模型，优化后的6个描点长宽分别为（3像素,5像素）,（10像素,14像素）,（23像素,27像素）,（37像素,58像素）,（81像素,82像素）,（135像素,169像素）。通过对行人数据聚类，这样聚类出来的数据可以加快训练速度。

实施例三

图3是使用现有技术中9个描点大小、采用COCO数据集训练yolo模型预测的目标物示意图。9个描点长宽分别为（10像素,13像素）, （16像素,30像素）,（33像素,23像素）,（30像素,61像素）,（62像素,45像素）,（59像素,119像素）,（116像素,90像素）,（156像素,198像素）,（373像素,326像素）。采用现有技术中这样方式，则容易将密集在一起的多人，检测成一个人，多人密集在一起时，（373像素,326像素）的锚点可以框住目标物，但是容易造成框内都是行人的现象，输出特征也容易超过阈值，本来非行人的情形容易误判为行人，这样检测行人效率低，且浪费时间。

图4是使用本发明优化后采用6个描点大小COCO数据集训练yolo模型预测的目标物示意图。优化后采用6个描点长宽分别为（3像素,5像素）,（10像素,14像素）,（23像素,27像素）,（37像素,58像素）,（81像素,82像素）,（135像素,169像素）。当行人密集场景时，因为不常在较大的锚点，即使使用最大的锚点去框目标也最多框住一个行人，这样直接就避免了把多目标框成一个的情况。

检测目标是行人，用矩形框将目标物框住，使用2000～3000个样本，将矩形框的宽和高为一组聚类到6个类中，得到与上述6组近似的数据组，替换原来的9组数据。同时因为矩形框数量由9个减少到6个，计算量也明显下降。

工业实用性

由上述说明可知，使用根据本发明的基于密集人群的行人检测方法，实现密集目标检测，特别是目标存在遮挡、重叠时实现目标的准确检测；可检测目标更小；检测速度更快，可普遍适用于大型商场、购物中心、连锁店、机场、车站、博物馆、展览馆等公共场所。

以上对本发明实施例进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

一种基于密集人群的行人检测方法，其特征在于，包括：

采用COCO数据集训练yolo模型；

用矩形框将目标物框住，将矩形框的宽和高为一组，聚类到预设个数的类中，得到预设个数的组数据锚点；

根据一组行人的宽高聚类描点大小及比例形成训练模型；

运用得到的训练模型来对待识别图像的行人进行预测，以识别所述待识别图像中的行人。
根据权利要求1所述的基于密集人群的行人检测方法，其特征在于，所述根据一组行人的宽高聚类描点大小及比例指的是用于框住目标物的矩形的长和宽的比例。
根据权利要求1所述的基于密集人群的行人检测方法，其特征在于，所述预设个数指的是六个。
根据权利要求1所述的基于密集人群的行人检测方法，其特征在于，所述运用得到的训练模型来对待识别图像的行人进行预测包括：

将待识别行人的图像输入所述训练模型，所述训练模型输出行人数量的预测结果。
根据权利要求1所述的基于密集人群的行人检测方法，其特征在于，所述目标物样本为2000～3000份。
根据权利要求1所述的基于密集人群的行人检测方法，其特征在于，用矩形框将目标物框住的重叠度大于阈值50%。
根据权利要求1所述的基于密集人群的行人检测方法，其特征在于，数据组锚点长宽比为1:1或1:1.5或1:2。
一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序运行时执行权利要求1至7中任一项所述的基于密集人群的行人检测方法。
一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至7中任一项所述的基于密集人群的行人检测方法。