CN108960404A

CN108960404A - 一种基于图像的人群计数方法及设备

Info

Publication number: CN108960404A
Application number: CN201710364826.XA
Authority: CN
Inventors: 徐茜; 毛泉涌; 王玲
Original assignee: Zhejiang Uniview Technologies Co Ltd
Current assignee: Zhejiang Uniview Technologies Co Ltd
Priority date: 2017-05-22
Filing date: 2017-05-22
Publication date: 2018-12-07
Anticipated expiration: 2037-05-22
Also published as: CN108960404B

Abstract

本发明公开了一种基于图像的人群计数方法及设备。将待分析图像输入包含多层卷积层以及特征融合层的神经网络后，通过特征融合层对各特征提取子网络的输出特征进行尺度归一化处理，并将尺度归一化处理后的输出特征结合各输出特征对应的加权系数生成待分析图像的人群密度图，最后对人群密度图进行积分以确定待分析图像中的人数。该方案可基于单张图像统计人群总数，准确率高，场景适应性好，能够同时满足密集人群计数和稀疏人群计数，能够极大减少统计人员的工作负担。

Description

一种基于图像的人群计数方法及设备

技术领域

本发明涉及图像分析技术领域，特别涉及一种基于图像的人群计数方法。本发明同时还涉及一种基于图像的人群计数设备。

背景技术

随着社会经济的飞速发展，城市公共建设日益完善，公共场所的人群大量聚集现象越来越严重，规模越来越大。人群计数是智能监控技术的重要组成部分，对维护社会稳定，防止公共场所人群拥堵、非法聚集有着重要作用。

常用的密集人数统计方法先在前景分块的基础上提取特征，然后利用特征进行回归，从而确定密集场景中的人数。受视角的影响，离摄像头近的人比远处的人占更多的像素，即透视现象，所以在提取特征前需要对图像进行视角归一化，从而提高回归的准确性。不同于目标检测，回归无法准确定位目标的位置，但是通过回归方法可以估计密集人群的总数。而这类方法通常存在以下三点缺陷：

一、依赖前景分块提取的运行区域，无法确定大场景中移动缓慢的人群，前景分块的准确性也影响了人群计数的准确性；

二、需要事先构造不同场景视角图，导致了算法对未知场景的适应性不佳；

三、稀疏人群统计准确率低。

传统的人群计数方法利用目标检测定位每个行人位置，然后通过统计检测到的行人数量确定人群总数。但是现有的目标检测算法基本无法检测密集人群中小尺度人头或者被遮挡的行人，所以传统的人群计数方法无法适用于密集人群计数。有鉴于此，现有技术中提出了以下两种常用密集人数计数方案：

(1)基于多列卷积神经网络的单张图像人群计数

该方案将测试图分别输入三个子网络，每个子网络包含四层卷积层和两层池化层，每列卷积网络使用的卷积核大小不同，三个子网络输出的特征图直接连接，然后再用一个1*1的卷积核生成单张人群密度图，该密度图的积分结果即为图像中的人群总数。

发明人在实现本发明的过程中发现，该方案中每个子网络只进行了四次卷积，最终提取的特征不佳，无法区分人群和纹理丰富的背景区域，如树林等。其次，该方案对图像尺度敏感，当测试图像和训练集图像尺寸相差较大时，人群计数准确率迅速下降。此外，该方案需要手动选择高斯核用于产生真实(Ground Truth)密度图，高斯核的大小影响了回归的准确性，所以该方案场景适应性不佳，也无法同时适用于密集人群和稀疏人群。

(2)基于深度学习的密集人数估计方法

该方案将测试图按原始图像宽高比分块，然后归一化为32*32的像素块，将像素块送入由三层卷积层和一层全连接层构成的网络中，网络输出结果即为该像素块所包含的人数，对所有像素块的预测结果求和，所得结果即为测试图中包含的总人数。

发明人在实现本发明的过程中发现，该方案将图像分块，并将其尺寸归一化为32*32，导致了图像发生变形，回归的准确性较差；其次，该方案中用于回归的特征图为网络全连接层输出的100维特征，该特征丢失了位置信息，无法准确回归人群密度图；此外，该方案构造的网络只有三层卷积，网络太浅，所得特征不佳，无法准确区分人群和背景。

发明内容

本发明提供了一种基于图像的人群计数方法，用以对各种不同场景下的采集图像中的人群总数进行准确的统计，该方法包括：

将待分析图像输入包含多层卷积层以及特征融合层的神经网络，所述多层卷积层按照卷积层的层次顺序划分为多个不同的特征提取子网络；

通过所述特征融合层对各所述特征提取子网络的输出特征进行尺度归一化处理，并将所述尺度归一化处理后的输出特征结合各输出特征对应的加权系数生成所述待分析图像的人群密度图，所述加权系数由所述特征融合层在所述神经网络的训练阶段学习所得；

对所述人群密度图进行积分以确定所述待分析图像中的人数。

相应的，本申请还提出了一种基于图像的人群计数设备，包括：

输入模块，将待分析图像输入包含多层卷积层以及特征融合层的神经网络，所述多层卷积层按照卷积层的层次顺序划分为多个不同的特征提取子网络；

处理模块，通过所述特征融合层对各所述特征提取子网络的输出特征进行尺度归一化处理，并将所述尺度归一化处理后的输出特征结合各输出特征对应的加权系数生成所述待分析图像的人群密度图，所述加权系数由所述特征融合层在所述神经网络的训练阶段学习所得；

确定模块，对所述人群密度图进行积分以确定所述待分析图像中的人数。

由此可见，通过应用本申请的技术方案，将待分析图像输入包含多层卷积层以及特征融合层的神经网络后，通过特征融合层对各特征提取子网络的输出特征进行尺度归一化处理，并将尺度归一化处理后的输出特征结合各输出特征对应的加权系数生成待分析图像的人群密度图，最后对人群密度图进行积分以确定待分析图像中的人数。该方案可基于单张图像统计人群总数，准确率高，场景适应性好，能够同时满足密集人群计数和稀疏人群计数，能够极大减少统计人员的工作负担。

附图说明

图1为本申请实施例提出的一种基于图像的人群计数方法的流程示意图；

图2为本申请具体实施例所提出的一种神经网络的结构示意图；

图3A为本申请具体实施例所提出的一张图像；

图3B为本申请具体实施例根据图3A所提出的图像所得到的人群密度图；

图3C为本申请具体实施例所提出的另一张图像；

图3D为本申请具体实施例根据图3C所提出的图像所得到的人群密度图；

图4为本申请具体实施例所提出的图像分块示例图；

图5为本申请实施例提出的一种基于图像的人群计数设备的结构示意图。

具体实施方式

如背景技术所述，现有技术中的人数统计方案大多存在准确率低、无法同时满足稀疏人群计数和密集人群计数、场景适应性差等问题。导致这些问题的主要原因在于：一、特征不佳，无法准确区分人群和背景区域，无法适应不同尺寸的输入图像；二、透视现象，离摄像头近的人比远处的人占更多的像素，很多方案根据场景的先验知识对图像进行视角归一化，这导致方案的场景适应性不佳。

有鉴于此，本申请提出了一种基于图像的人群计数方法，该方法能够同时适用于密集人群和稀疏人群，准确率高，对不同场景也有很好的适应性。因此可主要用于统计公共场所中的人群总数，并且取得良好的效果。

如图1所示，为本申请提出的一种基于图像的人群计数方法的流程示意图，包括如下步骤：

S101，将待分析图像输入包含多层卷积层以及特征融合层的神经网络，所述多层卷积层按照卷积层的层次顺序划分为多个不同的特征提取子网络。

由于本申请主要是解决现有技术中由于视角导致的透视效果以及特征不佳所带来的场景适应性不佳的问题，因此在本申请的技术方案设计了一种神经网络用于提取不同尺度的特征，然后对这些不同尺度特征进行融合，通过使用特征融合层将不同尺度特征以最优方式融合，从而获得具有尺度不变性的人群密度图。由于多尺度的特征提取网络可以获取不同尺度的特征，这样最终融合所得的特征就具有了尺度不变性，即便输入图像的尺寸发生变化，结果也不会发生偏差错误。

具体的，该神经网络包括以下两个特征：

(1)包含多层卷积层以及特征融合层；

(2)多层卷积层按照卷积层的层次顺序划分为多个不同的特征提取子网络

在背景技术中有提到，当卷积层过少时，会导致所提取出来的特征不佳，从而无法准确区分人群和背景区域，并且，简单的图像尺寸归一化也会导致图像发生变形而导致回归的准确性变差。因此在本申请技术方案的神经网络中，首先需要包含多层卷积层，这些卷积层按照其各自的层次顺序被划分为多个特征提取子网络，每个特征提取子网络都用来输出不同尺度的特征图，在此基础上，本申请技术方案再进一步地在神经网络的末尾设置用来实现多尺度特征融合的特征融合层，从而得到待分析图像的人群密度图。

在本申请的优选实施例中，对于特征提取子网络的数量选择可按照实际情况采取不同的设置方案，即提取卷积层构成n个特征提取子网络，其中第一个特征提取子网络中卷积层层数、第二个特征提取子网络中卷积层层数……第n个特征提取子网络中卷积层层数的和为所述多层卷积层的总层数。

作为以上描述的一个示例，本申请的优选实施例在所述多层卷积层中按照卷积层的层次顺序，分别提取第一数量层数的卷积层构成第一特征提取子网络，提取第二数量层数的卷积层构成第二特征提取子网络，提取第三数量层数的卷积层构成第三特征提取子网络；其中，所述第一数量层数、第二数量层数、第三数量层数的和为所述多层卷积层的总层数，并且，每个特征提取子网络互不重叠，即每次提取的卷积层互不重复。在此基础上，技术人员能够基于实际情况设置每个特征提取子网络中卷积层的层数，以及对各个卷积层的技术细节进行进一步地设置，例如包含的卷积核以及设置其他类型的层等等，这些都属于本申请的保护范围。

举例来说，当本申请技术方案中的神经网络包含12层卷积层的时候，该神经网络的首层卷积层至第五层卷积层被设为第一特征提取子网络，第六层卷积层至第九层卷积层被设为第二特征提取子网络，第十层卷积层至第十二层卷积层被设为第三特征提取子网络，该神经网络的最后一层为特征融合层……以此类推，当包含更多层数的卷积层时，同样可以基于实际应用场景将卷积层划分为多个特征提取子网络，这些均属于本申请的保护范围。

以图2所示的具体应用场景为例，该神经网络结构图包含12层卷积层，除第5、9、12层卷积层外，其余卷积后均添加一层leaky ReLU激活层，该激活层用于将网络非线性化，属于通用层的一种。此外，由于本发明的技术方案需要利用特征提取子网络从待分析图像中提取不同尺度的特征图，在第1、4、8层卷积层后各加一层用于下采样的池化层，这样在1、4、8层卷积层后面进行下采样处理，以得到三种不同尺度的特征图，与加在其他层后面相比，加在1、4、8层卷积层后面所达到的效果是最优的。由图2可知，将每个待分析图像输入所述神经网络后，会分别在第4、8、11层卷积层输出的多张特征子图，其中，第4层卷积层输出的特征子图数目为8(即num_output：8)，第8层卷积层输出的特征子图数目为16(即num_output：16)，第11层卷积层输出的特征子图数目为32(即num_output：32)，而第5、9、12层卷积层的卷积核尺度为1×1，分别用于将第4、8、11层卷积层输出的多张特征子图合并为单张特征图。前五层卷积网络构成第一特征提取子网络，中间四层卷积网络构成第二特征提取子网络，最后三层卷积网络构成第三特征提取子网络，第5、9、12层卷积的输出特征的尺度为三种不同的尺度，后续通过提取三种不同尺度的特征进行特征融合，最终可得到待分析图像的人群密度图。

S102，通过所述特征融合层对各所述特征提取子网络的输出特征进行尺度归一化处理，并将所述尺度归一化处理后的输出特征结合各输出特征对应的加权系数生成所述待分析图像的人群密度图，所述加权系数由所述特征融合层在所述神经网络的训练阶段学习所得。

通过以上S101的阐述可知，在不同的特征提取子网络最后一个卷积层所输出的特征图的尺度各不相同，为了利用特征回归以自适应地融合不同尺度的特征，本申请的技术方案通过神经网络末尾的特征融合层对这些不同尺度的输出特征进行尺度归一化处理，在得到了尺度相同的输出特征之后，再基于新得到的输出特征以及各输出特征对应的加权系数进行特征融合处理，该融合后的特征即为待分析图像的人群密度图，对该密度图积分所得结果即为人群总数，该密度图同时适应于稀疏人群和密集人群，能够显著提高方案的场景适应性。

作为以上阐述内容的一个具体实现示例，在本申请的优选实施例中，该步骤的通过以下流程实现：

a)将各所述特征提取子网络的输出特征输入所述特征融合层，以转换为尺度一致的所述尺度归一化处理后的输出特征。

由于特征融合层为多输入单输出，举例来说，假设神经网络中的卷积层按层次的先后次序被分成了n个特征提取子网络，输入的待分析图像在经过每个特征提取子网络的最后一个卷积层之后都会输出一个特征图(即输出特征)，这些输出特征都会被作为特征融合层的输入，假设该层输入分别为F₁、F₂...F_n，其对应的尺度分别为σ₁、σ₂...σ_n，那么这些特征图在经过尺度归一化后变成F′₁、F′₂...F′_n，尺度都被归一化为一个同样的值σ，在该具体实施例中，

b)接收所述特征融合层输出的融合特征，并将所述融合特征作为所述人群密度图，所述融合特征为各个所述尺度归一化处理后的输出特征与对应的加权系数的乘积的总和。

基于a)中尺度归一化后的F′₁、F′₂...F′_n，融合特征层在融合后的输出为其中α_i为各个输出特征的加权系数，换言之，如果特征融合层有n个输入，则融合特征层就需要学习n个加权系数作为参数。

在该步骤中的加权系数是特征融合层在所述神经网络的训练阶段学习到的参数，该参数和卷积层所需要学习的参数一样，都是网络训练得到。在本申请的优选实施例中，加权系数的初始值在特征融合层进行设置，然后通过优化算法最小化损失函数，并进行反向传播得到加权系数。在网络训练中，定义损失函数为使人群计数网络得到的估计密度图和真实密度图之间的欧式距离，确定公式如下：

其中，Θ为人群计数网络中需要学习的一系列参数，N为训练的样本数，X_i为输入图像，F_i为输入图像的真实密度图，F(X_i；Θ)为网络估计密度图。

需要说明的是，以上内容尽管以具体的示例阐述了人群密度图如何通过本发明的神经网络生成，但是在基于本发明所提出的神经网络的基础上，亦可通过其他改进方案得到图像对应的人群密度图，这些均属于本申请的保护范围。

S103，对所述人群密度图进行积分以确定所述待分析图像中的人数。

此外，在实际应用的过程中，为了降低图像局部的阴影和光照变化所造成的影响以及降低透视所带来的影响，本申请的优选实施例会针对原始的采集图像进行预处理(包括灰度图转换、伽马校正以及图像分块等)，随后再将预处理的图片作为待分析图像输入神经网络。由于分块后的测试图像的每一块中目标所占像素相差不大，本发明的后续处理方案对每块分别进行特征提取及回归得其中人群数量，对所有小块内的人数求和即可得当前场景中的人群总数。从而避免透视的影响，无需进行视角归一化处理，提高了场景适应性。

具体地，该优选实施例在将待分析图像输入包含多层卷积层以及特征融合层的神经网络之前，还包括如下预处理步骤：

(1)获取当前场景下的测试图像，对所述测试图像进行灰度图转换以及伽马校正；

(2)将经过所述灰度图转换以及伽马校正后的所述测试像图均匀划分为多块子图像，并依次将各所述子图像作为所述待分析图像；

相应地，在将上述处理后的测试图像进行图像分块并针对各个子图像确定人数之后，本发明的技术方案将所有子图像的人数进行求和以确定测试图像总共包含的人数，在该优选实施例中，在对所述人群密度图进行积分以确定所述待分析图像中的人数之后，若所述测试图像的各所述子图像的人数均已确定，将各所述子图像的人数之和作为所述测试图像中的人群总数。

在图4所示的图像分块示例图中，该具体实施例已对该测试图像进行了灰度转换以及伽马校正处理，随后该图像被均匀划分为九块子图像，在后续流程中这九块子图像会被分别输入神经网络以确定其各自所包含的人数，最终将这九块子图像的人数之和作为该测试图像的人数。尽管在该具体实施例中测试图像被分为9块，但在实际的操作过程中，技术人员可以依据测试图像的尺寸将其分为其他数目的图像块，一般可以为9～15块。这是因为当划分数量过少时，就失去了降低透视效果的功能，而在划分数量过多时，也并不会提高准确率，反而可能降低准确率(图像块太小导致特征图过小，无法进行正常下采样操作)，所以不宜过多或过少，这些都在本申请的保护范围之内。

需要说明的是，传统的人群计数方案需要手动选择高斯核用于生成描述图像中人群的真实密度图，但是当高斯核的标准差过大时无法检测密集人群，容易覆盖到背景区域或者覆盖多个人头，而当高斯核的标准差过小时，高斯核可能无法覆盖完整人头，从而影响回归的准确性。为了克服该现有技术的缺陷，本发明的技术方案使用真实人群密度图用于优化训练网络，该真实人群密度图为标定坐标图，训练后的神经网络能够同时适应于稀疏人群和密集人群，提高了方案的场景适应性。图3B以及图3D即分别为具体实施应用场景中基于图3A以及图3B所生成的人群密度图的示例。

在以上流程方案中，神经网络起到了核心作用，所述神经网络包括能够生成多个尺度输出特征的特征提取子网络，从而保证了所提取的不同尺度的输出特征能够满足人群计数需要，并且减少了这些输出特征的提取时间消耗。

由于神经网络网络结构的特性，输出特征尺度小的特征提取子网络是在输出特征尺度大的特征提取子网络的基础上训练得到，在训练该神经网络的过程中，需要先训练输出特征尺度大的特征提取子网络，该训练方式的最终目的是为了在大尺度输出特征的基础上提取小尺度输出特征，从而确保在获取更好的输出特征的同时减少输出特征提取的耗时。

基于以上阐述，本发明在针对该神经网络的网络训练中，优先训练输出特征尺度大的特征提取子网络，然后将该特征提取子网络固定，使其不参与网络参数学习，然后在此基础上训练下一级的输出特征尺度小的特征子网络。在本申请的优选实施例中，一种神经网络训练方式如下：

a)向所述神经网络同时输入样本图像以及与所述样本图像尺寸相同的真实人群密度图。

该神经网络训练总体分为两步进行，首先训练三种尺度的卷积网络，然后微调整个网络。网络微调(fine-tuning)，是指在已经训练好的模型的基础上，利用其他的样本微调网络权值，从而使得在比较少的迭代次数之后得到一个比较好的效果。在对该神经网络的卷积层进行调整之前，需要向该神经网络同时输入用于调整网络的样本图像和与样本图像尺寸相同的真实人群密度图，以供后续调整使用。

b)将所述真实人群密度图的下采样为第一尺度的大小，用于训练所述第一特征提取子网络的卷积层；

c)固定所述第一特征提取子网络的卷积层，将所述真实人群密度图的下采样为第二尺度的大小，用于训练所述第二特征提取子网络的卷积层；

d)固定所述第一特征提取子网络以及所述第二特征提取子网络的卷积层，将所述真实人群密度图的下采样为第三尺度的大小，用于训练所述第三特征提取子网络的卷积层；

e)将所述真实人群密度图下采样为所述第一特征提取子网络、所述第二特征提取子网络以及所述第三特征提取子网络的均值尺度的大小，用于对所述特征融合层以及各所述特征提取子网络中的后两层卷积层进行调整。

基于上述优选实施例的步骤，能够对神经网络中的各个特征提取子网络进行训练以及调整。在实际应用的过程中，对于不同的训练对象(特征提取子网络)以及训练对象的数量，真实人群密度图的下采样也可采取不同的值。举例来说，在执行步骤b)时，可将所述真实人群密度图的1/2下采样作为第一尺度来训练第一特征提取子网络的卷积层，在执行步骤c)时，可将真实人群密度图的1/4下采样作为第二尺度来训练第二特征提取子网络的卷积层，在执行步骤d)时，可将将真实人群密度图的1/8下采样作为第三尺度来训练第三特征提取子网络的卷积层，在执行步骤e)时，则将完整的真实人群密度图下采样为第一特征提取子网络、第二特征提取子网络以及第三特征提取子网络的均值尺度对特征融合层以及各特征提取子网络中的后两层卷积层进行调整。通过下采样确定各特征提取子网络输出的特征图尺度的大小，在对特征提取子网络进行训练的基础上，具体的采样取值并不影响本申请的保护范围。

以图2所示的神经网络为例，当利用上述方案对其进行训练时，首先将真实密度图下采样为第一尺度大小，用于训练前五层卷积层。然后固定前五层卷积层，使其不参与网络参数学习，将真实密度图下采样为第二尺度大小，用于训练中间四层卷积网络。然后固定前9层卷积网络，使其不参与网络参数学习，将真实密度图下采样为第三尺度大小，用于训练最后三层卷积网络。三种尺度的特征提取网络训练结束后，将真实密度图下采样为三种尺度的均值尺度，用于调整每种特征提取子网络的后两层卷积层和特征融合层。

需要说明的是，以上针对神经网络进行训练的方式仅为本申请优选实施例提出的方式之一，而并不仅限于此。在通过该神经网络能够达到上述步骤所能取得的技术效果的基础上，不同的训练方式均属于本申请的保护范围。

由此可见，通过应用本申请的技术方案，将待分析图像输入包含多层卷积层以及特征融合层的神经网络后，通过特征融合层对各所述特征提取子网络的输出特征进行尺度归一化处理，并将尺度归一化处理后的输出特征结合各尺度归一化处理后的输出特征的加权系数生成融合特征，即待分析图像的人群密度图，最后对人群密度图进行积分以确定待分析图像中的人数。该方案可基于单张图像统计人群总数，准确率高，场景适应性好，能够同时满足密集人群计数和稀疏人群计数，能够极大减少统计人员的工作负担。

为达到以上技术目的，本申请还提出了一种基于图像的人群计数设备，如图5所示，包括：

输入模块510，将待分析图像输入包含多层卷积层以及特征融合层的神经网络，所述多层卷积层按照卷积层的层次顺序划分为多个不同的特征提取子网络；

处理模块520，通过所述特征融合层对各所述特征提取子网络的输出特征进行尺度归一化处理，并将所述尺度归一化处理后的输出特征结合各输出特征对应的加权系数生成所述待分析图像的人群密度图，所述加权系数由所述特征融合层在所述神经网络的训练阶段学习所得；

确定模块530，对所述人群密度图进行积分以确定所述待分析图像中的人数。

在具体的应用场景中，还包括：

获取模块，获取当前场景下的测试图像，对所述测试图像进行灰度图转换以及伽马校正，将经过所述灰度图转换以及伽马校正后的所述测试图像均匀划分为多块子图像，并依次将各所述子图像作为所述待分析图像；

生成模块，若所述测试图像的各所述子图像的人数均已确定，将各所述子图像的人数之和作为所述测试图像中的人群总数。

在具体的应用场景中，所述处理模块具体用于：

将各所述特征提取子网络的输出特征输入所述特征融合层，以转换为尺度一致的所述尺度归一化处理后的输出特征；

接收所述特征融合层输出的融合特征，并将所述融合特征作为所述人群密度图；

其中，所述融合特征为各个所述尺度归一化处理后的输出特征与对应的加权系数的乘积的总和。

在具体的应用场景中，

在所述多层卷积层中按照卷积层的层次顺序，分别提取第一数量层数的卷积层构成第一特征提取子网络，提取第二数量层数的卷积层构成第二特征提取子网络，提取第三数量层数的卷积层构成第三特征提取子网络；

其中，所述第一数量层数、第二数量层数、第三数量层数的和为所述多层卷积层的总层数。

在具体的应用场景中，所述神经网络具体通过以下方式训练生成：

向所述神经网络同时输入样本图像以及与所述样本图像尺寸相同的真实人群密度图；

将所述真实人群密度图的下采样为第一尺度的大小，用于训练所述第一特征提取子网络的卷积层；

固定所述第一特征提取子网络的卷积层，将所述真实人群密度图的下采样为第二尺度的大小，用于训练所述第二特征提取子网络的卷积层；

固定所述第一特征提取子网络以及所述第二特征提取子网络的卷积层，将所述真实人群密度图的下采样为第三尺度的大小，用于训练所述第三特征提取子网络的卷积层；

将所述真实人群密度图下采样为所述第一特征提取子网络、所述第二特征提取子网络以及所述第三特征提取子网络的均值尺度的大小，用于对所述特征融合层以及各所述特征提取子网络中的后两层卷积层进行调整。

通过应用本申请的技术方案，将待分析图像输入包含多层卷积层以及特征融合层的神经网络后，通过特征融合层对各特征提取子网络的输出特征进行尺度归一化处理，并将尺度归一化处理后的输出特征结合各输出特征对应的加权系数生成待分析图像的人群密度图，最后对人群密度图进行积分以确定待分析图像中的人数。该方案可基于单张图像统计人群总数，准确率高，场景适应性好，能够同时满足密集人群计数和稀疏人群计数，能够极大减少统计人员的工作负担。

Claims

1.一种基于图像的人群计数方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，

在将待分析图像输入包含多层卷积层以及特征融合层的神经网络之前，还包括：

获取当前场景下的测试图像，对所述测试图像进行灰度图转换以及伽马校正，将经过所述灰度图转换以及伽马校正后的所述测试图像均匀划分为多块子图像，并依次将各所述子图像作为所述待分析图像；

在对所述人群密度图进行积分以确定所述待分析图像中的人数之后，还包括：

将各所述子图像的人数之和作为所述测试图像中的人群总数。

3.如权利要求2所述的方法，其特征在于，通过所述特征融合层对各所述特征提取子网络的输出特征进行尺度归一化处理，并将所述尺度归一化处理后的输出特征结合各所述尺度归一化处理后的输出特征的加权系数生成所述待分析图像的人群密度图，具体为：

4.如权利要求1-3任一项所述的方法，其特征在于，

5.如权利要求4所述的方法，其特征在于，所述神经网络具体通过以下方式训练生成：

将所述真实人群密度图下采样为第一尺度的大小，用于训练所述第一特征提取子网络的卷积层；

固定所述第一特征提取子网络的卷积层，将所述真实人群密度图下采样为第二尺度的大小，用于训练所述第二特征提取子网络的卷积层；

固定所述第一特征提取子网络以及所述第二特征提取子网络的卷积层，将所述真实人群密度图下采样为第三尺度的大小，用于训练所述第三特征提取子网络的卷积层；

6.一种基于图像的人群计数设备，其特征在于，包括：

7.如权利要求6所述的设备，其特征在于，还包括：

生成模块，将各所述子图像的人数之和作为所述测试图像中的人群总数。

8.如权利要求7所述的设备，其特征在于，所述处理模块具体用于：

9.如权利要求6-8任一项所述的设备，其特征在于，

10.如权利要求9所述的设备，其特征在于，所述神经网络具体通过以下方式训练生成：