CN108921822A

CN108921822A - 基于卷积神经网络的图像目标计数方法

Info

Publication number: CN108921822A
Application number: CN201810564162.6A
Authority: CN
Inventors: 王子磊; 刘旭
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2018-06-04
Filing date: 2018-06-04
Publication date: 2018-11-30

Abstract

本发明公开了一种基于卷积神经网络的图像目标计数方法，其通过鲁棒增强层使网络学习到的特征对目标形变更具有鲁棒性，同时降低模型的计算复杂度；并采用金字塔分层计数模块进行密度估计，充分利用卷积神经网络分层特征中包含的多尺度信息，在实现准确计数的同时显著提高了计算效率。总之，本发明基于卷积神经网络，实现了图像中的目标精确计数，可以适用于复杂场景下的目标计数任务，计算复杂度低，具有较高的实际应用价值。

Description

基于卷积神经网络的图像目标计数方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于卷积神经网络的图像目标计数方法。

背景技术

随着计算机技术、网络通信技术和电子技术的高速发展以及人们对社会公共安全要求的不断提高，基于智能视频分析技术的智能视频监控***得到了广泛的应用。作为智能视频监控领域中的重要内容，目标计数在实际生活中有着大量的应用场景，准确的估计出目标在图像中的具体数目是相关***处理的关键。在智能交通***中，准确的估计出交通场景中的车辆数目可以为交通管理部门进行公共交通管理提供重要依据；对商场的客流量进行统计，可以指导商场的营业时间和人员调配；对大型商场等公共场所的人群密度监控可以及时发现安全隐患并提供预警。

计数任务的目标是让计算机准确的估计出图像中所关注物体的数量。目前主流的目标计数方法主要是基于区域特征回归的方法和基于神经网络的密度估计方法。其中，区域特征回归的方法是通过建立前景区域图像特征与目标数量的回归模型来直接估计场景中的目标总数，该类算法计算复杂度较低，但是忽略了目标在场景中的空间位置分布信息，仅仅能得到一个一维的统计量，并且特征的提取依赖于图像的前景分割效果，鲁棒性不足。密度估计的计数方法是通过人工标记的样本生成待统计目标的密度分布图，直接学习从像素点特征到目标密度分布图的映射关系。生成的目标密度分布图既包含了完整的密度分布信息，可以通过区域密度求和来得到任意区域的目标数目，同时蕴含了目标在图像中的空间分布信息，是当前研究的重点。

当前基于神经网络的密度估计方法大多需要使用多路网络结构提取多尺度特征。如高盛华等在中国专利公开号CN105528589A《基于多列卷积神经网络的单张图像人群计数算法》中采用多列卷积网络结构提取场景特征，每个子网络用到的卷积核大小不同，通过组合不同大小的感受野特征来处理场景中的目标尺度变化问题；刘昱等在中国专利公开号CN107506692《一种基于深度学习的密集人群计数与人员分布估计方法》中同样采用了多列卷积网络结构，通过四列深度残差网络提取多尺度特征；类似的，邓腾飞等在中国专利公开号CN107301387A《一种基于深度学习的图像高密度人群计数方法》中通过两列卷积网络分别学习高层特征与低层特征。但是，上述方案中，多列卷积网络模型参数量大，计算复杂度高，很难满足实际应用对高效处理的要求。

发明内容

本发明的目的是提供一种基于卷积神经网络的图像目标计数方法，能够在不显著增加网络提取特征复杂性的情况下，进一步提高模型性能。

本发明的目的是通过以下技术方案实现的：

一种基于卷积神经网络的图像目标计数方法，包括：

基于卷积神经网络建立金字塔目标计数网络；

利用人工数据标注，在训练图像上建立感兴趣目标的密度分布真值图像；

通过随机裁剪和水平翻转方式对训练数据集中的训练图像以及相应的密度分布真值图像进行计数数据增强；

将计数数据增强后的训练图像与目标密度分布真值图像作为金字塔目标计数网络的输入，通过不断迭代优化完成金字塔目标计数网络训练，生成金字塔目标计数网络模型；

当新图像输入时，通过滑窗方式生成与输入图像块相同大小的图像，送入到金字塔目标计数网络模型中，得到预测的密度分布图，对重叠部分的密度值取平均得到最终的输出密度图，从而求得目标数目。

由上述本发明提供的技术方案可以看出，基于卷积神经网络，实现了图像中的目标精确计数，可以适用于复杂场景下的目标计数任务，计算复杂度低，具有较高的实际应用价值。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种基于卷积神经网络的图像目标计数方法的流程图；

图2为本发明实施例提供的金字塔目标计数网络的示意图；

图3为本发明实施例提供的目标中心点图和密度分布真值图像的示意图；

图4为本发明实施例提供的金字塔分层计数模块示意图；

图5为本发明实施例提供的Shanghaitech-B数据集输出结果示意图；

图6为本发明实施例提供的TRANCOS数据集输出结果示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

自然场景通常是复杂多变的，对于图像目标计数任务，很容易受到各种因素的影响，如目标间的严重遮挡、目标形变、目标的不均匀分布、杂乱的背景干扰、摄像机视角的畸变等。尤其是摄像机透视效应的影响，使得同一物体在场景不同深度的大小变化多样，不同场景的摄像机视角同样变化各异。如前所述，针对这些问题，已有方法主要通过引入多路网络来提取多尺度特征，然而，引入多路网络会大大增加网络参数数量，提高计算复杂度，无法满足实际应用要求。另一方面，相比于单个网络模型，多路网络的训练通常是非常困难的。实际上，卷积神经网络模型本身就是一个金字塔多层级结构，模型接受原始图像信号作为输入，对图像进行逐层的抽象表达，更高的层有着更大的感受野，各层特征之间蕴含着丰富的多尺度信息。因此，本发明公开了一种基于卷积神经网络的图像目标计数方法，采用单个网络进行目标计数，充分利用卷积神经网络模型本身所包含的多尺度信息，在降低模型复杂度的同时，取得了良好的计数性能；下面针对本发明实施例提供的一种基于卷积神经网络的图像目标计数方法做详细的介绍。

如图1所示，为本发明实施例提供一种基于卷积神经网络的图像目标计数方法，其中第1～第4个步骤为训练阶段，第5个步骤为测试阶段；

训练阶段所使用的图像可以来自具有代表性的人群计数数据集Shanghaitech-B以及车辆计数数据集TRANCOS中的场景图片。其中Shanghaitech-B数据集由(Single-imagecrowd counting via multi-column convolutional neural network.Proceedings ofIEEE Conference on Computer Vision and Pattern Recognition,2016.)提供，TRANCOS数据集由(Extremely Overlapping Vehicle Counting.Proceedings of IberianConference on Pattern Recognition and Image Analysis,2015.)提供。

上述方法的主要步骤如下：

1、基于卷积神经网络建立金字塔目标计数网络。

本发明实施例中，根据图像目标计数任务本身的特点和要求，针对代表性的卷积神经网络模型进行结构调整与设计，建立了金字塔目标计数网络。如图2所示，所建立的金字塔目标计数网络主要包括：特征提取模块、鲁棒性增强模块和密度估计模块。

1)所述特征提取模块，采用了全卷积网络提取图像特征，包括五层常规卷积层和两层空洞卷积层。

本发明实施例中，采用了两种不同的网络结构来提取不同场景下的图像特征。相应地，采用两种不同尺寸的图像块，72×72和144×144，分别作为第一种和第二种网络结构的输入尺寸。两种网络结构的不同之处主要是前三层卷积层卷积核的感受野大小不同，第一种网络结构全部采用3×3大小的卷积核，第二种网络结构的前三层采用5×5大小的卷积核。在两个网络结构中，各层的通道数都是从16开始，每经过一个最大池化层，通道数增加2倍，然后再从64减少到16并保持不变。网络中包含两个最大池化层，分别位于第一层卷积层和第二层卷积层之后，核大小是2×2，步长为1。

需要说明的是，上述关于图像块的尺寸、通道数量所使用的具体数值仅为示例，并非构成限制。

特征提取模块最后为两个空洞卷积层，所述空洞卷积层是指在标准卷积的卷积核中注入空洞，从而增加卷积核处理数据时各值的间距，相比于常规卷积层，其可以在不增加网络参数的情况下扩大感受野的大小。

示例性的，两个空洞卷积层可以步长为2，对于每层的卷积输出，采用线性修正单元ReLU作为激活函数，为网络加入非线性映射建模能力。

2)所述鲁棒性增强模块，采用了空间金字塔池化方式，在特征提取模块输出的特征图上，通过N₁×N₁、N₂×N₂、N₃×N₃与N₄×N₄四个不同尺度的空间池化，构造不同尺寸的子块，从而获取图像在不同分辨率上的空间信息，使网络学习到的特征对目标的形变更具有鲁棒性，同时降低模型的计算复杂度。

示例性的，四个不同尺度的空间池化可以为1×1，2×2，4×4和6×6，则结合特征提取模块中的示例，鲁棒性增强之后的特征维度为16×(1×1+2×2+4×4+6×6)＝912。

3)所述密度估计模块，采用了一种金字塔分层计数模块，在不同尺度上学习互补信息，从而生成目标分布密度图。

所述金字塔分层计数模块所进行的目标密度估计是在经过鲁棒性增强后的特征提取模块各特征图上分别进行的，最终输出的密度图由各层的输出结果相加得到；其中，密度估计采用两层全连接层来建立从图像特征到密度值的非线性映射。第一层全连接层与鲁棒性增强模块(SPP)的输出特征相连接，神经元数目是1000。第二层全连接层是输出层，当特征提取模块采用第一种网络结构时，输出神经元数目是324，当特征提取模块采用第二种网络结构时，输出神经元数目是1296。在第一层全连接之后，采用修正线性单元(ReLU)激活函数和Dropout层，其中Dropout的参数是0.5。

需要说明的是，上述关于神经元数目、Dropout的参数所使用的具体数值仅为示例，并非构成限制。

2、利用人工数据标注，在训练图像上建立感兴趣目标的密度分布真值图像。

本发明实施例中，在训练图像上利用人工标注的目标中心点图进行高斯滤波得到感兴趣目标的密度分布真值图像；

其中，将标注的目标中心点图的目标中心位置作为高斯核的中心，通过高斯滤波生成密度分布图：如图3所示，给定训练图像，设P为标注的图像中目标几何中心点的集合，用D表示图像所对应的密度分布图，则位于(i,j)处像素的密度值D(i,j)通过如下公式计算：

上式中，是(i,j)处像素的二维高斯分布值，高斯分布的均值点位于标记位置(m,n)处；σ²I_2×2为协方差矩阵。

示例性的，具体实施时，对于Shanghaitech-B和TRANCOS数据集，高斯核的大小可分别设为10和15。

3、通过随机裁剪和水平翻转方式对训练数据集中的训练图像以及相应的密度分布真值图像进行计数数据增强。

卷积神经网络模型训练的参数较多，需要基于大量的训练数据才能训练好一个卷积神经网络模型。因此在训练阶段，通过从训练图像中随机裁剪的方法增强训练数据，从而生成大量的训练图像块和对应的真实密度图。根据输入尺寸大小进行尺度归一化，并随机裁剪出大量的图像块再通过图像水平翻转进行数据增强，最后将得到的训练样本用于模型训练。

主要步骤如下：

1)对输入的训练图像的尺寸进行归一化；

2)从归一化后的训练图像中随机裁剪相同大小的图像块作为新的训练图像；

3)对新的训练图像进行水平翻转，获得一系列新的训练图像；

4)利用上述方式(即步骤1)～3))对密度分布真值图像做相同处理，然后通过归一化使缩放后密度分布真值图像中目标数量保持不变。

示例性的，对于Shanghaitech-B数据集，根据文献(Single-image crowdcounting via multi-column convolutional neural network.Proceedings of IEEEConference on Computer Vision and PatternRecognition,2016.)中的实验设置，采用400张图片作为训练图像，其余316张为测试图片。Shanghaitech-B数据集提供的图片，分辨率较大，为了训练好计数模型，对于每张训练图片，我们在实施时随机裁剪200张大小为200×200的图像块，然后将每个图像块缩放(即归一化)到144×144，并采用第二种特征提取网络进行特征提取。实施时同样通过图像翻转来进行数据增强。当然，上述具体数值也仅为举例，并非构成限制。

4、将计数数据增强后的训练图像与目标密度分布真值图像作为金字塔目标计数网络的输入，通过不断迭代优化完成金字塔目标计数网络训练，生成金字塔目标计数网络模型。

对金字塔目标计数网络进行训练时，将计数数据增强后的训练图像与目标密度分布真值图像作为训练样本，采用预测的密度图和真实密度图之间的欧式距离作为损失函数，通过随机梯度下降法训练，在每一次优化迭代中更新网络的模型参数，损失函数L(Θ)定义如下：

上式中，Θ表示模型学习到的网络参数，N为训练样本数量，F(X_k；Θ)为金字塔目标计数网络预测的密度图，D_k表示第k个训练样本X_k的真实密度图。

如图4所示，确定了欧式距离作为优化目标之后，在模型的训练上，首先通过端到端的训练，在经过鲁棒性增强之后的特征提取模块的最后一层特征(最后一个空洞卷积层输出的特征图)上建立密度回归模型，得到初始的密度估计结果。然后，为了优化计数结果，固定特征提取模块和初始回归模型，以真实密度与当前预测密度的残差作为优化目标，在经过鲁棒性增强之后的特征提取模块的另一层特征(最后一层常规卷积层输出的特征)上建立一个新的回归模型。最后再利用反向传播算法对整个网络的参数进行联合训练。通过这种方式，让两个回归模型从卷积神经网络的多尺度特征中学习互补信息，共同完成最终的密度估计。按照这种训练策略，可以采用相似的方法在金字塔分层计数模块中训练更多的回归模型。具体实施时，最终的计数网络采用了两个回归模型进行密度估计，采用的两个回归模型分别是建立在特征提取网络的最后一层空洞卷积层和最后一层常规卷积层上。

5、当新图像输入时，通过滑窗方式生成与输入图像块相同大小的图像，送入到金字塔目标计数网络模型中，得到预测的密度分布图，对重叠部分的密度值取平均得到最终的输出密度图，从而求得目标数目。

为了说明本发明上述方案的性能，还进行了测试与评估。

在Shanghaitech-B和TRANCOS数据集上分别训练好计数网络模型后，下面要对网络的性能进行评估，具体方法如下：在测试数据集上，对于每张测试图像，以10像素为步长进行滑窗，生成与输入图像块相同大小的图像，送入到训练好的计数网络模型中，得到预测的密度分布图，最后对重叠部分的密度值取平均得到最终的输出密度图。将测试数据集的真实密度图与预测密度图进行对比，得到评估结果。图5和图6给出了预测结果示意图。图5和图6中，第一列为输入图像，第二列为密度分布真值图像，第三列为本发明网络模型预测的密度图，密度图下方的数字表示目标数量。

对于Shanghaitech-B数据集，采用平均绝对误差(MAE)和均方根误差(RMSE)作为评价指标，对应公式如下：

上述式子中，N表示测试样本数量，C_k为模型预测的第k张图片中包含的目标数量，是对应的真实样本数量。

表1为本发明在Shanghaitech-B数据集上与现有方法的对比结果。可以看出，本发明具有很高的人群计数准确率。

表1对比结果

对于TRANCOS数据集，采用网格平均绝对误差(Grid Average Mean AbsoluteError,GAME)作为评价指标。GAME指标同时考虑了计数的精度和对目标分布定位的准确度。对于指定的尺度L，GAME(L)将图片划分成4^L个非重叠区域，然后计算每个区域的平均绝对误差，具体公式如下：

上述式子中，N表示测试样本数量，为模型预测的第k张图片中个第l个区域包含的目标数量，是对应的真实样本数量。特别地，GAME(0)与MAE评价标准等价。

表2为本发明在TRANCOS数据集上与现有方法的对比结果。可以看出，本发明具有很高的车辆计数准确率。

表2对比结果

本发明实施例上述方案中，针对实际场景复杂多变的问题，具有以下优势：首先，通过鲁棒性增强模块使网络学习到的特征对目标形变更具有鲁棒性，同时降低模型的计算复杂度；然后，采用金字塔分层计数模块进行密度估计，充分利用卷积神经网络分层特征中包含的多尺度信息，在实现准确计数的同时显著提高了计算效率。总之，本发明基于卷积神经网络，实现了图像中的目标精确计数，可以适用于复杂场景下的目标计数任务，计算复杂度低，具有较高的实际应用价值。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于卷积神经网络的图像目标计数方法，其特征在于，包括：

基于卷积神经网络建立金字塔目标计数网络；

2.根据权利要求1所述的一种基于卷积神经网络的图像目标计数方法，其特征在于，所建立的金字塔目标计数网络包括：特征提取模块、鲁棒性增强模块和密度估计模块；其中：

所述特征提取模块，采用了全卷积网络提取图像特征，包括五层常规卷积层和两层空洞卷积层；所述空洞卷积层是指在标准卷积的卷积核中注入空洞，从而增加卷积核处理数据时各值的间距；

所述鲁棒性增强模块，采用了空间金字塔池化方式，在特征提取模块输出的特征图上，通过N₁×N₁、N₂×N₂、N₃×N₃与N₄×N₄四个不同尺度的空间池化，构造不同尺寸的子块，从而获取图像在不同分辨率上的空间信息；

所述密度估计模块，采用了一种金字塔分层计数模块，在不同尺度上学习互补信息，从而生成目标分布密度图。

3.根据权利要求2所述的一种基于卷积神经网络的图像目标计数方法，其特征在于，所述金字塔分层计数模块所进行的目标密度估计是在经过鲁棒性增强后的特征提取模块各层特征图上分别进行的，最终输出的密度图由各层的输出结果相加得到；其中，密度估计采用两层全连接层来建立从图像特征到密度值的非线性映射。

4.根据权利要求1所述的一种基于卷积神经网络的图像目标计数方法，其特征在于，所述利用人工数据标注，在训练图像上建立感兴趣目标的密度分布真值图像包括：

在训练图像上利用人工标注的目标中心点图进行高斯滤波得到感兴趣目标的密度分布真值图像；

其中，将标注的目标中心点图的目标中心位置作为高斯核的中心，通过高斯滤波生成密度分布图：设P为标注的图像中目标几何中心点的集合，用D表示图像所对应的密度分布图，则位于(i,j)处像素的密度值D(i,j)通过如下公式计算：

5.根据权利要求1所述的一种基于卷积神经网络的图像目标计数方法，其特征在于，所述通过随机裁剪和水平翻转方式对训练数据集中的训练图像以及相应的密度分布真值图像进行计数数据增强的步骤包括：

对输入的训练图像的尺寸进行归一化；

从归一化后的训练图像中随机裁剪相同大小的图像块作为新的训练图像；

对新的训练图像进行水平翻转，获得一系列新的训练图像；

利用上述方式对密度分布真值图像做相同处理，然后通过归一化使缩放后密度分布真值图像中目标数量保持不变。

6.根据权利要求1所述的一种基于卷积神经网络的图像目标计数方法，其特征在于，对金字塔目标计数网络进行训练时，将计数数据增强后的训练图像与目标密度分布真值图像作为训练样本，采用预测的密度图和真实密度图之间的欧式距离作为损失函数，通过随机梯度下降法训练，在每一次优化迭代中更新网络的模型参数，损失函数L(Θ)定义如下：