CN111914751B

CN111914751B - 一种图像人群密度识别检测方法及***

Info

Publication number: CN111914751B
Application number: CN202010761961.XA
Authority: CN
Inventors: 崔弘; 侍孝义; 王明良; 王俊涛; 王康
Original assignee: Nanjing Fiberhome Telecommunication Technologies Co ltd
Current assignee: Nanjing Fiberhome Telecommunication Technologies Co ltd
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2023-07-07
Anticipated expiration: 2040-07-31
Also published as: CN111914751A

Abstract

本发明涉及一种图像人群密度识别检测方法及***，基于全新自主设计的FH‑CROWD‑COUNT‑NET网络，实现人群密度估计操作中，网络结构简单，没有过多复杂的网络模型，并在不同尺度上对人群位置进行评估，使得在线定位位置更接近目标真实位置；利用每个坐标位置的最近目标距离来进行概率建模，并引入背景抑制模型，不需要根据标注生成单张密度图进行点对点的监督学习，不用考虑以何种机制生成密度图，减少密度图质量对学习效果的影响，提高了模型的鲁棒性；更合理的使用目标的位置信息，使得网络对模型的位置预测更准确；由于网络充分学习了目标的位置信息，在线预测不仅可以预测人数，还可以精确的定位目标的位置信息。

Description

一种图像人群密度识别检测方法及***

技术领域

本发明涉及一种图像人群密度识别检测方法及***，属于图像监控技术领域。

背景技术

目前，大型活动的开展变得越来越频繁，人群聚集的程度也变得越来越高，***件也常有发生，所以人群密度估计的技术也得到计算机视觉领域的密切关注。由于人群密度大，遮挡变得越来越严重，基于传统特征及检测的人群计数方法，已经很难检测出人群中的人体。

直接回归计数是直接学习从图像特征到其计数的映射。此类方法最初是依靠传统人工特征(例如SIFT，LBP等)，然后学习回归模型。近期主要依靠深度CNN(卷积神经网络)进行端到端学习。直接回归计数方法比基于检测的方法更有效，但是，它们没有充分利用标注的点位置信息。

随着深度学习的爆发，以及大量的人群密度标注数据的诞生，为了充分利用标注中的点位信息，近年来，密度图估计在人群密度估计中得到广泛应用。密度图估计就是利用位置信息来学习每个训练样本的密度值图，并且可以通过对预测的密度图求和来获得最终计数估计。该框架的主要问题是如何确定受许多因素影响的高斯核的最佳尺寸，模型通过损失函数进行训练，该函数以逐个像素的方式进行监督。显然，此类方法的性能高度依赖于生成的密度图的质量。密度图估计是近期人群密度估计算法研究中广泛使用的方法。

目前人群密度估计算法存在着三点缺陷，首先是对生成的密度图质量要求高，现有人群密度估计算法基于生成的密度图进行逐个像素点的计算损失，进行监督学习，因此对生成的密度图质量的要求高；其次是模型复杂，参数量大，近些年大多数学者在深度模型上进行创新，利用不同的深度网络结构提取不同类型的特征，进行特征融合，模型结构较为复杂且计算量大；最后是计数误差大，且不能准确定位，利用密度图进行逐像素监督学习，不同类型的密度图生成方式对训练好的网络计数误差及位置定位影响大。

发明内容

本发明所要解决的技术问题是提供一种图像人群密度识别检测方法，不仅提高了图像中人群的定位精度，而且减少了网络复杂度，高效实现了图像中人群密度的识别。

本发明为了解决上述技术问题采用以下技术方案：本发明设计了一种图像人群密度识别检测方法，用于针对目标图像中人群的密度实现检测，按如下步骤A至步骤C，实现人群密度检测模型的获得，以及执行步骤D至步骤E，应用人群密度检测模型针对目标图像中人群的密度实现检测；

步骤A.应用各幅分别包含人物对象的样本图像、以及各幅样本图像分别所对应的点标注文件，所构建的样本库，其中，点标注文件记录对应样本图像中各人物对象头部中心在样本图像二维坐标系中的坐标，然后初始化k＝1，并进入步骤B；

步骤B.依次针对样本库中的各幅样本图像，分别执行如下步骤B1至步骤B9，待完成针对样本库中各幅样本图像的操作后，然后进入步骤C；

步骤B1.由样本图像中随机选取指定尺寸的待处理图像，并根据样本图像所对应的点标注文件，获得待处理图像所对应的点标注文件，然后进入步骤B2；

步骤B2.将待处理图像、以及待处理图像所对应的点标注文件，输入至指定深度卷积神经网络中执行多尺度特征提取操作，获得待处理图像对应多尺度的各幅密度图；然后进入步骤B3；

步骤B3.分别对应不同尺度的各幅密度图：按预设下采样率，针对待处理图像进行均匀下采样处理，获得待处理图像中的各个采样点，并由各个采样点构成密度图所对应的坐标点特征图，且下采样率满足坐标点特征图的尺寸与该密度图的尺寸相等；然后进入步骤B4；

步骤B4.分别对应不同尺度的各幅密度图：分别针对待处理图像中的各个人物对象，获得人物对象头部中心分别到待处理图像中对应密度图的各个采样点的距离，并以各距离分别作为该人物对象对应该密度图的坐标点特征图中各坐标点的值，构成该人物对象对应该密度图的概率图，即概率图的尺寸与对应密度图的尺寸相等；进而获得各个人物对象分别对应各该密度图的概率图；然后进入步骤B5；

步骤B5.分别对应不同尺度的各幅密度图：分别针对密度图所对应坐标点特征图中的各个坐标点位置，获得坐标点位置分别对应各概率图中坐标点到对应人物对象之间距离的最小值，并应用预设背景距离目标距离减去该最小值，获得该坐标点位置到背景的距离，进而获得该密度图所对应坐标点特征图中各个坐标点位置分别到背景的距离，并以各距离分别作为该密度图背景所对应坐标点特征图中各坐标点的值，构成该密度图所对应的背景概率图；进而获得各密度图分别所对应的背景概率图，然后进入步骤B6；

步骤B6.分别对应不同尺度的各幅密度图：基于各个人物对象分别所对应密度图的概率图、以及背景概率图，分别针对该密度图所对应坐标点特征图中的各个坐标点位置，针对坐标点位置分别对应各概率图中坐标点的值进行归一化操作，更新该坐标点位置分别对应该密度图所对应各概率图中坐标点的值，进而更新该密度图所对应各概率图；进而更新各密度图分别所对应的各概率图，然后进入步骤B7；

步骤B7.分别针对各幅密度图，由密度图与密度图所对应各概率图分别相乘，并分别针对各概率图所对应的相乘结果，获得相乘结果中各坐标点值的和，作为各概率图分别对应该密度图的结果和；进而获得各概率图分别对应各密度图的结果和，然后进入步骤B8；

步骤B8.按如下公式：

获得联合损失结果Loss，其中，1≤m≤M，M表示密度图的数量，P_m表示背景概率图对应第m幅密度图的结果和，1≤n≤N，N表示待处理图像中人物对象的数量，P_nm表示待处理图像中第n个人物对象所对应概率图对应第m幅密度图的结果和，然后进入步骤B9；

步骤B9.将联合损失结果Loss返回至步骤B2中的深度卷积神经网络中，实现对深度卷积神经网络中参数的调整，获得对深度卷积神经网络的训练；

步骤C.判断k的值是否等于预设最大迭代次数，是则完成深度卷积神经网络的训练，获得人群密度检测模型；否则针对k的值进行加1更新，并返回步骤B；

步骤D.将目标图像输入至人群密度检测模型中，获得人群密度检测模型的输出，即目标图像对应多尺度的各幅密度图，然后进入步骤E；

步骤E.基于目标图像对应多尺度的各幅密度图，求得目标图像中人物目标的计数、以及人物目标的定位，实现目标图像中人群密度的检测。

作为本发明的一种优选技术方案：所述步骤B1中，由样本图像中随机选取指定尺寸的待处理图像，并针对待处理图片执行关于指定图像属性的图像增强处理，更新待处理图片，然后根据样本图像所对应的点标注文件，获得待处理图像所对应的点标注文件。

作为本发明的一种优选技术方案：所述指定图像属性的图像增强处理，包括水平翻转、增加噪声、光线变化中的任意一种。

作为本发明的一种优选技术方案：所述步骤B2中，深度卷积神经网络为利用标注信息进行概率建模方法，实现模型的学习。

作为本发明的一种优选技术方案：所述步骤B5中的预设背景距离目标距离为待处理图像上短边长度的预设α比例。

本发明所述一种图像人群密度识别检测方法及***，采用以上技术方案与现有技术相比，具有以下技术效果：

本发明所设计图像人群密度识别检测方法及***，基于全新自主设计的FH-CROWD-COUNT-NET网络，实现人群密度估计操作中，网络结构简单，没有过多复杂的网络模型，并在不同尺度上对人群位置进行评估，使得在线定位位置更接近目标真实位置；利用每个坐标位置的最近目标距离来进行概率建模，并引入背景抑制模型，不需要根据标注生成单张密度图进行点对点的监督学习，不用考虑以何种机制生成密度图，减少密度图质量对学习效果的影响，提高了模型的鲁棒性；更合理的使用目标的位置信息，使得网络对模型的位置预测更准确；由于网络充分学习了目标的位置信息，在线预测不仅可以预测人数，还可以精确的定位目标的位置信息。

附图说明

图1是本发明设计FH-CROWD-COUNT-NET网络的架构示意图；

图2是本发明设计中特征提取模块的示意图；

图3是本发明设计中样本分布模块的流程示意图；

图4是本发明设计中在线检测模块的模块示意图。

具体实施方式

下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。

本发明设计了一种图像人群密度识别检测方法，用于针对目标图像中人群的密度实现检测，实际应用当中，本发明基于具体所设计构建的FH-CROWD-COUNT-NET网络去实现，如图1所示，具体包括特征提取模块、样本分布模块、背景抑制模块、联合损失模块、在线检测模块。

一般的人群密度估计算法为了提取密集人群不同的特征，网络结构大多复杂计算量大，本发明所设计的FH-CROWD-COUNT-NET网络中特征提取模块的基干网络采用VGG19深度卷积神经网络，网络结构简单，计算量小于现阶段大部分网络；VGG19输出较原始图像尺寸偏低，所以输出层对网络进行上采样操作，为了使损失函数能够衡量不同输出尺度上的损失情况，采用多尺度的上采样，然后利用联合损失函数对网络进行评价。具体设计中，特征提取模块主要包含两个部分：数据预处理和多尺度特征提取网络。

数据的预处理包含对图像的处理和对点标注文件的处理。其中，为了保持输入数据维度的一致，输出的后处理便于批处理，设计在训练数据上进行随机裁剪512x512的尺寸数据；然后为了提高模型对不同种情况下的鲁棒性，将训练数据进行随机增强，例如水平翻转、增加噪声、光线变化等图像增强方法，即上述步骤B1中所涉及指定图像属性的图像增强处理；最后随着各种图像处理的方式加入，原始的点标注文件不能够对应到图片中相应的位置，所以需要对点坐标做和图像变换相对应的变化，即执行点标注文件预处理，这样全新的点坐标就可以对应到处理好的图片上。

多尺度特征提取网络如图2所示，主要以VGG19为主干网络，将最后的输出进行不同尺度的上采样(upsample)，利用Convolution操作进行特征的学习，并通过对不同尺度的特征和点标注生成的概率分布和背景抑制进行Loss的计算。

当输入为512x512尺寸时，多尺度特征网络结构及输出特征图的尺度如下表1所示：

表1

网络层参数(k：Kernal Size(卷积核尺寸)；p：Padding(边缘扩充)；s：Stride(卷积核移动步长)；scale:Scale factor(上采样率))。

本发明所设计的FH-CROWD-COUNT-NET网络中样本分布模块具体流程如图3所示，主要分为三个主要部分：均匀采样坐标点、样本距离分布计算。

其中，由于网络输出特征图和原始图片尺寸有一定差距，所以要计算每个位置上的损失就变的困难，所以每个人需要获得一个和输出特征一样尺度的概率图，首先根据原始图像的尺度和特征图(密度图)之间的尺度采样率进行均匀的采样，即获得均匀采样坐标点；然后通过计算人头的标注点距离坐标点图中每一个点的距离，实现样本距离分布计算。

对于所设计的FH-CROWD-COUNT-NET网络中背景抑制模块的应用，是因为每一个人在每一个坐标点都是有存在的概率的，为了让预估每个人的概率图的点位置更集中，将添加背景抑制模块来对背景进行建模。

对于联合损失模块的应用，因为均匀采样坐标点图中每一个坐标点存在任何一个人或者背景的概率，用一个联合概率来表示。

基于上述所设计的FH-CROWD-COUNT-NET网络，在实际执行针对目标图像中人群密度检测的过程中，具体按如下步骤A至步骤C，实现人群密度检测模型的获得，以及执行步骤D至步骤E，应用人群密度检测模型针对目标图像中人群的密度实现检测。

步骤A.应用各幅分别包含人物对象的样本图像、以及各幅样本图像分别所对应的点标注文件，所构建的样本库，其中，点标注文件记录对应样本图像中各人物对象头部中心在样本图像二维坐标系中的坐标，然后初始化k＝1，并进入步骤B。

步骤B.依次针对样本库中的各幅样本图像，分别执行如下步骤B1至步骤B9，待完成针对样本库中各幅样本图像的操作后，然后进入步骤C。

步骤B1.特征提取模块由样本图像中随机选取指定尺寸的待处理图像，并针对待处理图片执行关于指定图像属性的图像增强处理，更新待处理图片，然后特征提取模块根据样本图像所对应的点标注文件，获得待处理图像所对应的点标注文件，然后进入步骤B2。

上述步骤B1中所涉及指定图像属性的图像增强处理，包括水平翻转、增加噪声、光线变化中的任意一种。

步骤B2.特征提取模块将待处理图像、以及待处理图像所对应的点标注文件，输入至指定深度卷积神经网络中执行多尺度特征提取操作，获得待处理图像对应多尺度的各幅密度图；然后进入步骤B3。这里指定深度卷积神经网络在实际应用当中，诸如选择VGG19深度卷积神经网络。

步骤B3.样本分布模块分别对应不同尺度的各幅密度图：按预设下采样率，针对待处理图像进行均匀下采样处理，获得待处理图像中的各个采样点，并由各个采样点构成密度图所对应的坐标点特征图，且下采样率满足坐标点特征图的尺寸与该密度图的尺寸相等；然后进入步骤B4。

步骤B4.样本分布模块分别对应不同尺度的各幅密度图：分别针对待处理图像中的各个人物对象，获得人物对象头部中心分别到待处理图像中对应密度图的各个采样点的距离，并以各距离分别作为该人物对象对应该密度图的坐标点特征图中各坐标点的值，构成该人物对象对应该密度图的概率图，即概率图的尺寸与对应密度图的尺寸相等；进而获得各个人物对象分别对应各该密度图的概率图；然后进入步骤B5。

步骤B5.背景抑制模块分别对应不同尺度的各幅密度图：分别针对密度图所对应坐标点特征图中的各个坐标点位置，获得坐标点位置分别对应各概率图中坐标点到对应人物对象之间距离的最小值，并应用预设背景距离目标距离减去该最小值，获得该坐标点位置到背景的距离，进而获得该密度图所对应坐标点特征图中各个坐标点位置分别到背景的距离，并以各距离分别作为该密度图背景所对应坐标点特征图中各坐标点的值，构成该密度图所对应的背景概率图；进而获得各密度图分别所对应的背景概率图，然后进入步骤B6。

上述步骤B5中的预设背景距离目标距离，在实际应用当中，诸如设计为待处理图像上短边长度的预设α比例。

步骤B6.联合损失模块分别对应不同尺度的各幅密度图：基于各个人物对象分别所对应密度图的概率图、以及背景概率图，分别针对该密度图所对应坐标点特征图中的各个坐标点位置，针对坐标点位置分别对应各概率图中坐标点的值进行归一化操作，更新该坐标点位置分别对应该密度图所对应各概率图中坐标点的值，进而更新该密度图所对应各概率图；进而更新各密度图分别所对应的各概率图，然后进入步骤B7。

步骤B7.联合损失模块分别针对各幅密度图，由密度图与密度图所对应各概率图分别相乘，并分别针对各概率图所对应的相乘结果，获得相乘结果中各坐标点值的和，作为各概率图分别对应该密度图的结果和；进而获得各概率图分别对应各密度图的结果和，然后进入步骤B8。

步骤B8.联合损失模块按如下公式：

获得联合损失结果Loss，其中，1≤m≤M，M表示密度图的数量，P_m表示背景概率图对应第m幅密度图的结果和，1≤n≤N，N表示待处理图像中人物对象的数量，P_nm表示待处理图像中第n个人物对象所对应概率图对应第m幅密度图的结果和，然后进入步骤B9。

步骤B9.将联合损失结果Loss返回至步骤B2中的深度卷积神经网络中，实现对深度卷积神经网络中参数的调整，获得对深度卷积神经网络的训练。

步骤C.判断k的值是否等于预设最大迭代次数，是则完成深度卷积神经网络的训练，获得人群密度检测模型；否则针对k的值进行加1更新，并返回步骤B。

步骤D.如图4所示，在线检测模块将目标图像输入至人群密度检测模型中，获得人群密度检测模型的输出，即目标图像对应多尺度的各幅密度图，然后进入步骤E。

步骤E.如图4所示，在线检测模块基于目标图像对应多尺度的各幅密度图，求得目标图像中人物目标的计数、以及人物目标的定位，实现目标图像中人群密度的检测。

本方法利用大量密集人群标注数据进行专项优化，其中，特征提取模块输出采用双尺度上采样，能够较好的衡量不同尺度上密度估计的损失情况，并对网络进行较好的监督学***均联合损失进行模型的优化。

并且概率模型的引入，使得在线计数及定位阶段，只需要对预估图求和就可以获得预估图片中的人数，并且为了计数更可信，对不同的输出尺度进行均值化操作；其中，人头定位使用尺寸为3*3的值为1的计算核对预估图进行循环截断，获得截断图中中心值是否为最大值，并寻找到峰值坐标，映射到原始图像尺寸，同时为了确信输出为人头坐标峰值，设置人头定位可调阈值参数。

将本发明设计技术方案应用于实际当中，测试表明，对不同密集场景的人群不论是预估人数还是定位位置都有很好的效果。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种图像人群密度识别检测方法，用于针对目标图像中人群的密度实现检测，其特征在于：按如下步骤A至步骤C，实现人群密度检测模型的获得，以及执行步骤D至步骤E，应用人群密度检测模型针对目标图像中人群的密度实现检测；

步骤B8.按如下公式：

2.根据权利要求1所述一种图像人群密度识别检测方法，其特征在于：所述步骤B1中，由样本图像中随机选取指定尺寸的待处理图像，并针对待处理图片执行关于指定图像属性的图像增强处理，更新待处理图片，然后根据样本图像所对应的点标注文件，获得待处理图像所对应的点标注文件。

3.根据权利要求2所述一种图像人群密度识别检测方法，其特征在于：所述指定图像属性的图像增强处理，包括水平翻转、增加噪声、光线变化中的任意一种。

4.根据权利要求1所述一种图像人群密度识别检测方法，其特征在于：所述步骤B2中，深度卷积神经网络为利用标注信息进行概率建模方法，实现模型的学习。

5.根据权利要求1所述一种图像人群密度识别检测方法，其特征在于：所述步骤B5中的预设背景距离目标距离为待处理图像上短边长度的预设α比例。

6.一种针对权利要求1至5中任意一项所述一种图像人群密度识别检测方法的***，其特征在于：包括特征提取模块、样本分布模块、背景抑制模块、联合损失模块、在线检测模块；其中，特征提取模块用于执行步骤B1至步骤B2；样本分布模块用于执行步骤B3至步骤B4；背景抑制模块用于执行步骤B5；联合损失模块用于执行步骤B6至步骤B8；在线检测模块用于执行步骤D至步骤E。