CN109858461A

CN109858461A - 一种密集人群计数的方法、装置、设备以及存储介质

Info

Publication number: CN109858461A
Application number: CN201910129612.3A
Authority: CN
Inventors: 张莉; 陆金刚; 王邦军; 周伟达
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2019-02-21
Filing date: 2019-02-21
Publication date: 2019-06-07
Anticipated expiration: 2039-02-21
Also published as: CN109858461B; WO2020169043A1

Abstract

本发明公开了一种密集人群计数的方法、装置、设备及计算机可读存储介质，包括：将待测试图像输入包括多列平行的卷积神经网络的目标多尺度多列卷积神经网络模型中；每列卷积神经网络中包括多个卷积核大小和个数不同的卷积层。利用所述每列卷积神经网络中各个卷积层对待测试图像进行处理，并将所述每列卷积神经网络中预选卷积层输出的特征图进行融合，以便得到所述每列卷积神经网络输出的估计密度图；将所述每列卷积神经网络输出的估计密度图进行融合后，得到待测试图像的目标估计密度图；依据所述目标估计密度图，计算得到待测试图像中的人数。本发明所提供的方法、装置、设备及计算机可读存储介质，提高了密集人群图像预测结果的准确性。

Description

一种密集人群计数的方法、装置、设备以及存储介质

技术领域

本发明涉及计算机视觉技术领域，特别是涉及一种密集人群计数的方法、装置、设备以及计算机可读存储介质。

背景技术

为了人群控制和公众安全，准确地估计来自图像或视频的人群已经成为计算机视觉技术越来越重要的应用。计算机视觉中的人群计数任务是自动计算图像或视频中的人数。为了在诸如公众集会和体育赛事等许多场景中帮助控制人群和公共安全，需要准确的人群计数。

传统的密集人群计数方法包括两种：基于检测的方法和基于回归的方法。基于检测的方法将人群视为一组检测到的个体实体。但是，行人经常被密集的人群遮挡，这在静止图像中估计人群时尤其具有挑战性。基于回归的方法对从人群图像中提取的各种特征的标量值(如人数)或密度图进行回归。它们基本上有两个步骤：首先，从人群图像中提取有效特征；第二，利用各种回归函数来估计人群数量。但是，通过回归进行的人群计数容易受到视角和尺度的急剧变化的影响，而这种变化通常存在于人群图像中。

与此同时，深度学***行的卷积神经网络组成，每一列使用感受野大小不同的卷积核，分别对应尺度大小不一样的人头；每一列除了卷积核大小和数量，其他构成都相同；采用大小为2×2的最大池化和ReLU激活函数；最后将三列的特征图在通道数上串联起来，用一个1×1的卷积核将其映射到估计的密度图输出。然而多列卷积神经网络结构偏简单，层数较少，前面的卷积层提取到的一些特征在后续过程中可能被丢弃且提取到的特征不够而影响到最终的结果。

综上所述可以看出，如何提高密集人群图像预测结果的准确性是目前有待解决的问题。

发明内容

本发明的目的是提供一种密集人群计数的方法、装置、设备以及计算机可读存储介质，以解决现有技术中提供的密集人群计数的神经网络性能较差的问题。

为解决上述技术问题，本发明提供一种密集人群计数的方法，包括：将待测试图像输入至预先完成训练的目标多尺度多列卷积神经网络模型中；其中，所述目标多尺度多列卷积神经网络模型包括多列平行的卷积神经网络，每列卷积神经网络中包括多个卷积核大小和个数不同的卷积层；将所述待测试图像分别输入至所述每列卷积神经网络中，利用所述每列卷积神经网络中各个卷积层对所述待测试图像进行处理，并将所述每列卷积神经网络中预选卷积层输出的特征图进行融合，以便于分别得到所述每列卷积神经网络输出的估计密度图；将所述每列卷积神经网络输出的估计密度图进行融合后，得到所述待测试图像的目标估计密度图；依据所述待测试图像的目标估计密度图，计算得到所述待测试图像中的人数。

优选地，所述将待测试图像输入至预先完成训练的目标多尺度多列卷积神经网络模型中前包括：

利用高斯滤波器对预先创建的人群图像数据集进行滤波处理后，获取所述人群图像数据集中每幅图像的密度图，从而构建目标训练集；

采用所述目标训练集对多尺度多列卷积神经网络模型进行训练，得到完成训练后的目标多尺度多列卷积神经网络模型。

优选地，所述利用高斯滤波器对预先创建的人群图像数据集进行滤波处理后，获取所述人群图像数据集中每幅图像的密度图，从而构建目标训练集包括：

获取预先采集的人群图像数据集其中，X_i为所述人群图像数据集第i张图像，大小为m*n；Y_i为所述第i张图像对应的人头坐标点图，大小为m*n，N为所述人群图像数据集中图像总数；

利用高斯滤波器对所述人群图像数据集中的每幅图像X_i进行滤波处理后，得到所述每幅图像X_i的密度图M_i，利用所述每幅图像X_i的密度图M_i构建目标训练集

优选地，所述采用所述目标训练集对多尺度多列卷积神经网络模型进行训练包括：

将所述目标训练集中的当前人群图像分别输入至所述多尺度多列卷积神经网络模型的每列卷积神经网络中；

其中，所述多尺度多列卷积神经网络模型中的每列卷积神经网络相互平行，所述每列卷积神经网络除卷积核大小和个数外，其他网络结构相同；

将所述每列卷积神经网络输出的所述当前人群图像的估计密度图在通道数上串联后，经过一个卷积核大小为1*1的总卷积层，并将所述总卷积层输出的特征图映射为所述当前人群图像的目标估计密度图，以便于将所述当前人群图像的目标估计密度图作为所述多尺度多列卷积神经网络模型的网络输出。

优选地，所述多尺度多列卷积神经网络模型的每列卷积神经网络包括：

第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、反卷积层、第六卷积层和第七卷积层；

其中，所述第一卷积层和其他卷积层的卷积核大小不同，所述第二卷积层、所述第三卷积层、所述第四卷积层、所述第五卷积层和所述第六卷积层的卷积核大小相同，所述第三卷积层、所述第四卷积层、所述第五卷积层和所述第六卷积层的卷积核的个数相同；

所述第一卷积层、所述第二卷积层、所述第三卷积层和所述第四个卷积层之间的池化层选用区域2*2，步长为2的最大池化；

所述第四卷积层和所述第五卷积层之间的池化层选用3*3区域，步长为1的最大池化，以便于保持所述第四卷积层输出特征图和对所述第四卷积层输出特征池化后的特征图大小不变；

所述各个卷积层的激活函数采用ReLU函数；

所述第四卷积层输出的特征图和所述第五卷积层输出的特征图在通道数上串联后输入所述反卷积层，所述反卷积层输出的特征图和所述第三卷积层输出的特征图在通道数上串联后输入所述第六卷积层，所述第八卷积层输出所述待测试图像的估计密度图作为所述每列卷积神经网络模型的输出结果。

优选地，所述依据所述待测试图像的目标估计密度图，计算得到所述待测试图像中的人数包括：

将所述待测试图像T输入至所述目标多尺度多列卷积神经网络模型，得到所述待测试图像T的估计密度图后，计算所述估计密度图中所有像素值的和，得到所述待测试图像中的人数

本发明还提供了一种密集人群计数的装置，包括：

输入模块，用于将待测试图像输入至预先完成训练的目标多尺度多列卷积神经网络模型中；其中，所述目标多尺度多列卷积神经网络模型包括多列平行的卷积神经网络，每列卷积神经网络中包括多个卷积核大小和个数不同的卷积层；

处理模块，用于将所述待测试图像分别输入至所述每列卷积神经网络中，利用所述每列卷积神经网络中各个卷积层对所述待测试图像进行处理，并将所述每列卷积神经网络中预选卷积层输出的特征图进行融合，以便于分别得到所述每列卷积神经网络输出的估计密度图；

输出模块，用于将所述每列卷积神经网络输出的估计密度图进行融合后，得到所述待测试图像的目标估计密度图；

计算模块，用于依据所述待测试图像的目标估计密度图，计算得到所述待测试图像中的人数。

优选地，所述输出模块前包括：

训练模块，用于利用高斯滤波器对预先创建的人群图像数据集进行滤波处理后，获取所述人群图像数据集中每幅图像的密度图，从而构建目标训练集；

本发明还提供了一种密集人群计数的设备，包括：

存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现上述一种密集人群计数的方法的步骤。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述一种密集人群计数的方法的步骤。

本发明所提供的密集人群计数的方法，利用预先完成训练的目标多尺度多列卷积神经网络模型对待测试图像进行预测。所述目标多尺度多列卷积神经网络模型包括多列平行的卷积神经网络。将所述待测试图像输入所述目标多尺度多列卷积神经网络模型后，将所述待测试图像分别输入所述每列卷积神经网络中。所述每列卷积神经网络中包括多个卷积核大小和个数不同的卷积层，分别利用所述每列卷积神经网络中的不同卷积层对所述待测试图像进行计算，并将所述每列卷积神经网络中预选的卷积层输出的特征图进行融合，提取到所述待测试图像的不同尺度的特征；解决了现有技术中的卷积神经网络中前面卷积层提取到的一些特征在后续过程中可能被丢弃导致提取到的特征不够从而影响了对待测试图像预测结果的准确性的问题。本发明所提供的方法，引入了多尺度的思想，可以将前面卷积层提取到的特征和后面卷积层提取到的特征结合起来，即将详细程度不同的特征结合起来进而提取特征，这就弥补了传统神经网络前面的卷积层得到的特征图经过池化可能被丢弃的一些特征，提高了密集人群计数的神经网络的性能以及密集人群图像预测结果的准确性。

附图说明

为了更清楚的说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所提供的密集人群计数的方法的第一种具体实施例的流程图；

图2为本发明所提供的多尺度多列卷积神经网络结构图；

图3为本发明所提供的密集人群计数的方法的第二种具体实施例的流程图；

图4为本发明实施例提供的一种密集人群计数的装置的结构框图。

具体实施方式

本发明的核心是提供一种密集人群计数的方法、装置、设备以及计算机可读存储介质，提高了密集人群计数的神经网络的性能以及密集人群图像预测结果的准确性。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本发明所提供的密集人群计数的方法的第一种具体实施例的流程图；具体操作步骤如下：

步骤S101：将待测试图像输入至预先完成训练的目标多尺度多列卷积神经网络模型中，其中，所述目标多尺度多列卷积神经网络模型包括多列平行的卷积神经网络，每列卷积神经网络中包括多个卷积核大小和个数不同的卷积层；

将待测试图像输入至预先完成训练的目标多尺度多列卷积神经网络模型中前需要对多尺度多列卷积神经网络(SaMCNN)进行训练。

对所述多尺度多列卷积神经网络进行训练时，首先利用高斯滤波器对预先创建的人群图像数据集进行滤波处理后，获取所述人群图像数据集中每幅图像X_i的密度图M_i，从而构建目标训练集其中，X_i为所述人群图像数据集第i张图像，大小为m*n；Y_i为所述第i张图像对应的人头坐标点图，大小为m*n，N为所述人群图像数据集中图像总数。采用所述目标训练集对多尺度多列卷积神经网络模型进行训练，得到完成训练后的目标多尺度多列卷积神经网络模型。

如图2所示，所述多尺度多列卷积神经网络中可以包括多列卷积神经网络，在本实施例中以三列平行的卷积神经网络为例。所述每列卷积神经网络包括第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、反卷积层、第六卷积层和第七卷积层。其中，所述第一卷积层和其他卷积层的卷积核大小不同，所述第二卷积层、所述第三卷积层、所述第四卷积层、所述第五卷积层和所述第六卷积层的卷积核大小相同，所述第三卷积层、所述第四卷积层、所述第五卷积层和所述第六卷积层的卷积核的个数相同。所述各个卷积层的激活函数采用ReLU函数。

所述第一卷积层、所述第二卷积层、所述第三卷积层和所述第四个卷积层之间的池化层选用区域2*2，步长为2的最大池化；所述第四卷积层和所述第五卷积层之间的池化层选用3*3区域，步长为1的最大池化，以便于保持所述第四卷积层输出特征图和对所述第四卷积层输出特征池化后的特征图大小不变。

步骤S102：将所述待测试图像分别输入至所述每列卷积神经网络中，利用所述每列卷积神经网络中各个卷积层对所述待测试图像进行处理，并将所述每列卷积神经网络中预选卷积层输出的特征图进行融合，以便于分别得到所述每列卷积神经网络输出的估计密度图；

将所述待测试图像输入所述目标多尺度多列卷积神经网络模型中，并分别将所述待测试图像分别输入所述目标多尺度多列卷积神经网络模型的每列卷积神经网络中。所述每列卷积申请网络中的卷积层对所述待测试数据进行处理。利用所述每列卷积网络神经网络中的各个卷积层和池化层进行处理，将所述每列卷积申请网络的第四卷积层和第五卷积层之间选用3*3区域，步长为1的最大池化，来保持池化前后的特征图大小不变，便于将两次卷积之后的特征图在通道数上串联起来。在所述第五卷积层之后，使用反卷积层对之前的特征图进行上采样，进而和第三个卷积层得到的特征图在通道数上串联起来。

步骤S103：将所述每列卷积神经网络输出的估计密度图进行融合后，得到所述待测试图像的目标估计密度图；

步骤S104：依据所述待测试图像的目标估计密度图，计算得到所述待测试图像中的人数。

本实施例所提供的方法，利用多尺度多列卷积神经网络对待测试图像进行测试。所述多尺度多列卷积神经网络相对于多列卷积神经网络，增加了每列卷积神经网络的层数，并且引入了多尺度的思想，将前面卷积层提取到的特征图和后面卷积层提取到的特征图相结合；从而提高了密集人群计数的神经网络的性能以及密集人群图像预测结果的准确性。

基于上述实施例，在本实施例中，可以选择Shanghai tech数据集的第二部分作为人群图像数据集，利用所述人群图像数据集中第二部分图像的密级图对所述多尺度多列卷积神经网络模型进行训练。请参考图3，图3为本发明所提供的密集人群计数的方法的第二种具体实施例的流程图；具体操作步骤如下：

步骤301：利用高斯滤波器对Shanghai tech数据集的第二部分的人群图像进行滤波处理后，获取所述第二部分的人群图像的度图，构建目标训练集；

在本实施例中可以选择Shanghai tech数据集的第二部分作为人群图像数据集X_i为所述人群图像数据集第i张图像，大小为768*1024；Y_i为所述第i张图像对应的人头坐标点图，大小为768*1024，N为所述人群图像数据集中图像总数。

所述Shanghai tech数据集包含1198张标注的图像和330165个人头中心标注；所述Shanghai tech数据集被划分为两个部分，其中，第一部分包括482张随机从网上爬取的图像，其中300张用于训练，182张用于测试；第二部分包括716张在上海街头拍取的图像，其中400张用于训练，316张用于测试。

步骤302：采用所述目标训练集对多尺度多列卷积神经网络模型进行训练，得到完成训练后的目标多尺度多列卷积神经网络模型；

步骤303：将待测试图像T输入至所述目标多尺度多列卷积神经网络模型中，其中，所述目标多尺度多列卷积神经网络模型包括多列平行的卷积神经网络，每列卷积神经网络中包括多个卷积核大小和个数不同的卷积层；

步骤304：将所述待测试图像T输入至所述目标多尺度多列卷积神经网络模型后，输出所述待测试图像T的估计密度图

步骤S305：计算所述估计密度图中所有像素值的和，得到所述待测试图像中的人数

将本实施例所提供的多尺度多列卷积神经网络模型与多列卷积神经网络模型在相同的数据集上做人群计数比较。从表1可以得到，本实施例提出的网络模型的计数结果的平均完全误差(MAE)和均方误差(MSE)都比现有技术中网络模型的计数结果小，获得了更好的性能。

表-1人群计数结果的对比

请参考图4，图4为本发明实施例提供的一种密集人群计数的装置的结构框图。具体装置可以包括：

输入模块100，用于将待测试图像输入至预先完成训练的目标多尺度多列卷积神经网络模型中；其中，所述目标多尺度多列卷积神经网络模型包括多列平行的卷积神经网络，每列卷积神经网络中包括多个卷积核大小和个数不同的卷积层；

处理模块200，用于将所述待测试图像分别输入至所述每列卷积神经网络中，利用所述每列卷积神经网络中各个卷积层对所述待测试图像进行处理，并将所述每列卷积神经网络中预选卷积层输出的特征图进行融合，以便于分别得到所述每列卷积神经网络输出的估计密度图；

输出模块300，用于将所述每列卷积神经网络输出的估计密度图进行融合后，得到所述待测试图像的目标估计密度图；

计算模块400，用于依据所述待测试图像的目标估计密度图，计算得到所述待测试图像中的人数。

本实施例的密集人群计数的装置用于实现前述的密集人群计数的方法，因此密集人群计数的装置中的具体实施方式可见前文中的密集人群计数的方法的实施例部分，例如，输入模块100，处理模块200，输出模块300，计算模块400，分别用于实现上述密集人群计数的方法中步骤S101，S102，S103和S104，所以，其具体实施方式可以参照相应的各个部分实施例的描述，在此不再赘述。

本发明具体实施例还提供了一种密集人群计数的设备，包括：存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现上述一种密集人群计数的方法的步骤。

本发明具体实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述一种密集人群计数的方法的步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的密集人群计数的方法、装置、设备以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种密集人群计数的方法，其特征在于，包括：

将待测试图像输入至预先完成训练的目标多尺度多列卷积神经网络模型中；其中，所述目标多尺度多列卷积神经网络模型包括多列平行的卷积神经网络，每列卷积神经网络中包括多个卷积核大小和个数不同的卷积层；

将所述待测试图像分别输入至所述每列卷积神经网络中，利用所述每列卷积神经网络中各个卷积层对所述待测试图像进行处理，并将所述每列卷积神经网络中预选卷积层输出的特征图进行融合，以便于分别得到所述每列卷积神经网络输出的估计密度图；

将所述每列卷积神经网络输出的估计密度图进行融合后，得到所述待测试图像的目标估计密度图；

依据所述待测试图像的目标估计密度图，计算得到所述待测试图像中的人数。

2.如权利要求1所述的方法，其特征在于，所述将待测试图像输入至预先完成训练的目标多尺度多列卷积神经网络模型中前包括：

3.如权利要求2所述的方法，其特征在于，所述利用高斯滤波器对预先创建的人群图像数据集进行滤波处理后，获取所述人群图像数据集中每幅图像的密度图，从而构建目标训练集包括：

4.如权利要求2所述的方法，其特征在于，所述采用所述目标训练集对多尺度多列卷积神经网络模型进行训练包括：

5.如权利要求4所述的方法，其特征在于，所述多尺度多列卷积神经网络模型的每列卷积神经网络包括：

所述各个卷积层的激活函数采用ReLU函数；

6.如权利要求1至5任一项所述的方法，其特征在于，所述依据所述待测试图像的目标估计密度图，计算得到所述待测试图像中的人数包括：

7.一种密集人群计数的装置，其特征在于，包括：

8.如权利要求7所述的装置，其特征在于，所述输出模块前包括：

9.一种密集人群计数的设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述一种密集人群计数的方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述一种密集人群计数的方法的步骤。