CN113052827B

CN113052827B - 基于多分支扩张卷积神经网络的人群计数方法及***

Info

Publication number: CN113052827B
Application number: CN202110354656.3A
Authority: CN
Inventors: 张友梅; 张瑜; 刘伟龙
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2021-03-30
Filing date: 2021-03-30
Publication date: 2022-12-27
Anticipated expiration: 2041-03-30
Also published as: CN113052827A

Abstract

本发明属于计算机视觉领域，提供了一种基于多分支扩张卷积神经网络的人群计数方法及***。该方法包括：获取包含人群的场景图像并据此分别生成人群密度图标签和人头位置二值图标签；根据训练样本，构建训练集；其中，每幅图像及其所对应的人群密度图标签和人头位置二值图标签作为一个训练样本；基于训练集，训练多分支扩张卷积人群计数网络模型，得到网络最优参数，以此生成训练好的多分支扩张卷积人群计数网络模型；将待测图像输入训练好的多分支扩张卷积人群计数网络模型，输出人群密度图；将人群密度图中像素值加和，得到人群计数结果。

Description

基于多分支扩张卷积神经网络的人群计数方法及***

技术领域

本发明属于计算机视觉领域，尤其涉及一种基于多分支扩张卷积神经网络的人群计数方法及***。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

人群计数(Crowd Counting)旨在面向图像数据或视频数据实时估计图像或视频中所出现的人群分布并统计人数。近年来人群计数方法研究已经成为计算机视觉领域的研究热点，其应用领域主要为智能安防，实时提供人群分布及人数可有效分析并控制人流量，防止安全事故的发生。

由于拍摄角度及拍摄距离的影响，目标人群在图像或视频中呈现尺寸差别较大，为人群计数方法的研究带来较大挑战。

发明内容

为应对目标人群尺度差异所导致的计数误差，本发明提供一种基于多分支扩张卷积神经网络的人群计数方法及***，针对目标人群尺度差异问题，设计共享训练参数的多分支扩张卷积网络，从而以较少的网络参数来提取具有不同感受野的特征；利用有监督的人头位置二值图，指导网络关注人头位置，实现更准确的人群计数。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种基于多分支扩张卷积神经网络的人群计数方法。

基于多分支扩张卷积神经网络的人群计数方法，包括：

获取包含人群的场景图像并据此分别生成人群密度图标签和人头位置二值图标签；

根据训练样本，构建训练集；其中，每幅图像及其所对应的人群密度图标签和人头位置二值图标签作为一个训练样本；

基于训练集，训练多分支扩张卷积人群计数网络模型，得到网络最优参数，以此生成训练好的多分支扩张卷积人群计数网络模型；

将待测图像输入训练好的多分支扩张卷积人群计数网络模型，输出人群密度图；

将人群密度图中像素值加和，得到人群计数结果。

本发明的第二个方面提供一种基于多分支扩张卷积神经网络的人群计数***。

基于多分支扩张卷积神经网络的人群计数***，包括：

标签生成模块，其被配置为：获取包含人群的场景图像并据此分别生成人群密度图标签和人头位置二值图标签；

训练集构建模块，其被配置为：根据训练样本，构建训练集；其中，每幅图像及其所对应的人群密度图标签和人头位置二值图标签作为一个训练样本，多个样本的组合构成训练集；

模型训练模块，其被配置为：基于训练集，训练多分支扩张卷积人群计数网络模型，得到网络最优参数，以此生成训练好的多分支扩张卷积人群计数网络模型；

人群计数应用模块，其被配置为：将待测图像输入训练好的多分支扩张卷积人群计数网络模型，输出人群密度图；

输出模块，其被配置为：将人群密度图中像素值加和，得到人群计数结果。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一个方面所述的基于多分支扩张卷积神经网络的人群计数方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一个方面所述的基于多分支扩张卷积神经网络的人群计数方法中的步骤。

与现有技术相比，本发明的有益效果是：

1、本发明利用扩张卷积操作，设计了3个分支进行特征提取，所提取到的特征具有不同感受野，可有效应对拍摄角度和拍摄距离所导致的人头尺寸差异问题。

2、本发明多个扩张卷积分支中的网络参数共享，可有效减小可变参数量，提升网络的训练速度。

3、本发明设计的人头位置二值图估计模块一方面可有监督地指导网络提取更稳定的特征，另一方面可辅助人群密度图估计模块更准确地定位人头位置，增强人群计数的准确度。

4、原始图像将作为多分支扩张卷积人群计数网络模型的输入，多分支扩张卷积人群计数网络模型的输出包括由二值图估计模块产生的人头位置二值图和由人群密度图估计模块产生的人群密度图。其中，二值图估计模块经有监督训练后输出可表征人头位置和人头大小的二值图，并进一步与融合特征求哈达玛积后作为人群密度图估计模块的输入，以辅助人群密度图估计模块能够更准确地定位人头位置来进行密度估计，解决目标人群尺度差异所导致的计数误差问题。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明基于多分支扩张卷积神经网络的人群计数方法的流程图；

图2是实施例中人群计数方法流程图；

图3是本发明实施例中多分支扩张卷积神经网络结构图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

如图1-2所示，本实施例提供了一种基于多分支扩张卷积神经网络的人群计数方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器和***，并通过终端和服务器的交互实现。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。本实施例中，该方法包括以下步骤：

步骤(1)：获取包含人群的场景图像并据此分别生成人群密度图标签和人头位置二值图标签；

具体的，获取包含人群的场景图像，标注每幅图像中人头的位置；

根据标注的人头位置，生成人群密度图标签；

根据人群密度图标签，利用二值化函数，生成人头位置二值图标签。

示例的，服务器会获取人群的场景图像，对人群的场景图像进行标注，标注每幅图像中人头的位置。其中，人群的场景图像可以是用于场景监控的摄像头所拍摄到的图像，场景监控具体可以是指地铁监控、商场监控等。

其中，步骤(1)中的人群密度图标签生成采用固定大小高斯核的方式，在每个人头位置覆盖固定大小的加和为1的高斯核；人头位置二值图则首先利用最近邻算法计算人头大小，然后将人头位置的像素设置为1，其他位置则设置为0，需要指出的是，人头位置二值图标签包含了人头大小信息。

具体的，根据所标注的人头位置生成人群密度图标签，生成方式见公式(1)：

公式中l表示图像中所有人头的位置集合，l_i表示第i个目标人头位置中心的坐标。δ()为脉冲函数，G()为高斯核，σ_i表示高斯和的方差，本实施例中设置为8。即：人头位置以加和为1，方差为8的高斯核覆盖，非人头位置设置为0。

具体的，根据所标注的人头位置生成人头位置二值图标签，生成方式见公式(2)：

公式(2)中B()为二值化函数，其它与公式(1)中相同的符号所代表的变量及函数与之一致。即人头位置二值图标签的具体生成方式为：首先根据人群密度图标签的生成方式，将高斯核的方差设置为15，然后利用二值化函数将所生成的结果转化为二值图，即非0像素重置为1，其他为0。

步骤(2)：根据训练样本，构建训练集；其中，每幅图像及其所对应的人群密度图标签和人头位置二值图标签作为一个训练样本。

根据训练样本，构建训练集，包括：

对每个训练样本采用随机剪裁、镜像、旋转的方式进行数据扩充，构建训练集。

具体的，分别采用随机裁剪、镜像和旋转操作进行数据扩充。具体地，随机裁50个剪长宽为32的倍数且小于原始图像大小的图像块，然后分别对这50个图像块进行水平镜像和垂直镜像共得到150个图像块，最后分别对这150个图像块旋转15度，共得到300个图像块。需注意的是，需对人群密度图标签和人头位置二值图标签进行同样的操作。

步骤(3)：基于训练集，训练多分支扩张卷积人群计数网络模型，得到网络最优参数，以此生成训练好的多分支扩张卷积人群计数网络模型；

其中，多分支扩张卷积人群计数网络模型，包括：多分支扩张卷积模块、特征融合模块、二值图估计模块和密度图估计模块。

考虑到扩张卷积可用较少的参数获取具有较大感受野的特征，本实例设计了多分支卷积模块，采用3个共享参数的扩张卷积分支进行多尺度特征提取，设计了人头位置二值图估计模块来增强人头位置的特征，从而辅助人群密度图估计模块更准确地定位人头位置，提升人群计数的准确性。

在一个实施例中，多分支卷积模块，包括：三个共享网络参数、具有不同扩张率的扩张卷积分支，用于对人群图像进行多尺度的特征提取。特征融合模块，用于将三个扩张卷积分支的特征进行特征融合，再对融合后的特征进行特征提取，生成特征图。二值图估计模块，用于采用交叉熵损失函数有监督地实现二值图的估计。密度图估计模块，接收二值图估计模块的输出，并将此输出与特征融合模块所生成的特征图求哈达玛积，然后利用三层卷积操作，以交叉熵损失函数有监督地实现人群密度图的估计。

具体的，图3为基于多分支扩张卷积网络的人群计数网络结构图。如图3所示：首先，多分支扩张卷积模块对人群图像块进行多尺度特征提取，该模块共三个分支，每个分支均采用3x3的卷积核，参数共享，但三个分支分别设置大小为1，2，3的卷积扩张率。在这种设置下，网络能以较少的参数提取到具有不同感受野的特征，可有效应对人头尺寸差异。

然后，特征融合模块将不同分支所提取的特征进行融合，具体方式为对三种特征进行加和后由1x1的卷积进行降维，由3x3的卷积进行进一步的特征提取；

特征融合后又将分为两路，分别输入到人头位置二值图生成模块和人群密度估计模块。其中，人头位置二值图生成模块基于融合后的特征进一步进行特征提取，以人头位置二值图标签为监督预测人头所在位置，这种有监督的训练可使得网络提取到更稳定的特征；另外，人头位置二值图生成模块经有监督训练后所输出的人头位置二值图将与特征融合模块所得的特征求哈达玛积作为人群密度图估计模块的输入，以此辅助人群密度图估计模块更准确地定位人头位置并进行人群密度估计。

步骤(4)：将待测图像输入训练好的多分支扩张卷积人群计数网络模型，输出人群密度图。

步骤(5)：将人群密度图中像素值加和，得到人群计数结果。

针对测试图像，将待测图像输入训练好的多分支扩张卷积人群计数网络模型，针对新接收的图像数据估计人群密度图估计，最终将所输出的人群密度图像像素值加和，得到图像中所预测出的人数。

实施例二

本实施例提供了基于多分支扩张卷积神经网络的人群计数***。

基于多分支扩张卷积神经网络的人群计数***，包括：

训练集构建模块，其被配置为：根据训练样本，构建训练集；其中，每幅图像及其所对应的人群密度图标签和人头位置二值图标签作为一个训练样本；

其中，多分支扩张卷积人群计数网络模型，包括：多分支扩张卷积模块、特征融合模块、二值图估计模块和人群密度图估计模块，其中，多分支扩张卷积模块由3个具有不同扩张率的扩张卷积分支组成，特征融合模块由特征加和以及卷积层组成，二值图估计模块和人群密度图估计模块都由3层卷积组成；需注意的是，原始图像将作为多分支扩张卷积人群计数网络模型的输入，多分支扩张卷积人群计数网络模型的输出包括由二值图估计模块产生的人头位置二值图和由人群密度图估计模块产生的人群密度图。其中，二值图估计模块经有监督训练后输出可表征人头位置和人头大小的二值图，并进一步与融合特征求哈达玛积后作为人群密度图估计模块的输入，以辅助人群密度图估计模块更准确地定位人头位置来进行密度估计。

示例的，多分支扩张卷积模块由扩张率分别为1，2，3，卷积核大小为3x3的3个卷积分支组成，每个分支包括4层卷积，其中前两层卷积后都进行最大值池化。特征融合模块首先将三个扩张卷积分支的特征进行加和，然后利用1x1的卷积进行降维并进一步利用3x3的卷积进一步进行特征提取。二值图估计模块包括3层卷积，并以交叉熵损失来有监督地实现二值图的估计。人群密度图估计模块首先接收二值图估计模块的输出，并将此输出与特征融合模块所生成的特征图求哈达玛积，然后利用3层卷进操作，以交叉熵损失来有监督地实现人群密度图的估计。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的基于多分支扩张卷积神经网络的人群计数方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的基于多分支扩张卷积神经网络的人群计数方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于多分支扩张卷积神经网络的人群计数方法，其特征在于，包括：

将人群密度图中像素值加和，得到人群计数结果；

所述多分支扩张卷积人群计数网络模型，包括：多分支卷积模块、特征融合模块、二值图估计模块和密度图估计模块；

所述多分支卷积模块包括：三个共享网络参数、具有不同扩张率的扩张卷积分支，用于对人群图像进行多尺度的特征提取；

所述二值图估计模块，用于采用交叉熵损失函数有监督地实现二值图的估计；

所述密度图估计模块，接收二值图估计模块的输出，并将此输出与特征融合模块所生成的特征图求哈达玛积，然后利用三层卷积操作，以交叉熵损失函数有监督地实现人群密度图的估计；

特征融合模块，用于将三个扩张卷积分支的特征进行特征融合，再对融合后的特征进行特征提取，生成特征图；特征融合后又将分为两路，分别输入到人头位置二值图生成模块和人群密度估计模块；其中，人头位置二值图生成模块基于融合后的特征进一步进行特征提取，以人头位置二值图标签为监督预测人头所在位置，人头位置二值图生成模块经有监督训练后所输出的人头位置二值图将与特征融合模块所得的特征求哈达玛积作为人群密度图估计模块的输入；

所述生成人头位置二值图标签为：

其中，B()为二值化函数，l表示图像中所有人头的位置集合，l_i表示第i个目标人头位置中心的坐标，δ()为脉冲函数，G()为高斯核，σ_i表示高斯和的方差。

2.根据权利要求1所述的基于多分支扩张卷积神经网络的人群计数方法，其特征在于，所述获取包含人群的场景图像并据此分别生成人群密度图标签和人头位置二值图标签，包括：

获取包含人群的场景图像，标注每幅图像中人头的位置；

根据标注的人头位置，生成人群密度图标签；

3.根据权利要求1所述的基于多分支扩张卷积神经网络的人群计数方法，其特征在于，所述根据训练样本，构建训练集，包括：

对每个训练样本采用随机剪裁、镜像、旋转的方式进行数据扩充。

4.基于多分支扩张卷积神经网络的人群计数***，其特征在于，包括：

输出模块，其被配置为：将人群密度图中像素值加和，得到人群计数结果；

所述生成人头位置二值图标签为：

5.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-3中任一项所述的基于多分支扩张卷积神经网络的人群计数方法中的步骤。

6.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-3中任一项所述的基于多分支扩张卷积神经网络的人群计数方法中的步骤。