CN115953736A

CN115953736A - 一种基于视频监控与深度神经网络的人群密度估计方法

Info

Publication number: CN115953736A
Application number: CN202310062089.3A
Authority: CN
Inventors: 熊李艳; 黄鹏; 易虎; 黄晓辉
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2023-01-19
Filing date: 2023-01-19
Publication date: 2023-04-11

Abstract

本申请涉及一种基于视频监控与深度神经网络的人群密度估计方法，它包括如下步骤：从视频监控中采集大量含有高密度人群的人群图像数据，构建人群计数数据集并生成真实人群密度图；构建神经网络模型；将构建的人群计数数据集输入所述神经网络模型进行迭代训练，得到优化后的神经网络模型；通过优化后的神经网络模型预测输入人群图像的密度图，再对密度图进行逐像素累加求和，得到最终输入人群图像的人群计数结果。本发明通过上下文感知金字塔模块编码丰富的空间上下文信息，增强模型对尺度不均匀变化的鲁棒性，并利用注意力模块学习空间特征之间的相关性以及通道特征之间的依赖关系，以提高特征图的聚焦能力，减少背景、噪声对计数性能的影响。

Description

一种基于视频监控与深度神经网络的人群密度估计方法

技术领域

本申请涉及机器视觉中静态图像识别技术领域，具体涉及一种基于视频监控与深度神经网络的人群密度估计方法。

背景技术

随着世界现代化水平的不断提高以及城市化发展的不断推进，各种公共场所的人群聚集规模也在急剧扩大，例如商场、车站、学校、体育馆、广场等，这给公共安全带来巨大的隐患。人群计数在智能化视频监控领域有着极为重要的作用，可以根据静态的人群图像估计人群总数并提供实时预警，能够有效地避免安全事故发生。

高密度人群计数已经成为流量管理、视频监控和城市安全方面的重要任务。近年来，随着深度学习技术在计数领域的应用，基于深度神经网络的人群密度估计方法在性能上有了很大提升。然而，现实场景中由于相机视角的不同引起的尺度变化和拥挤造成的遮挡使得人群计数任务仍具有一定的挑战性。

由于训练数据的缺乏，一些早期的方法主要是通过检测场景中的行人来解决人群计数问题，例如采用滑动窗口检测器检测行人的统计方法，还有一些研究者提出通过检测头部、肩膀等身体的部分结构来进行行人检测并统计人群数量。这些基于检测的方法在人群分布较为稀疏的场景中取得了不错的效果，但在密集人群和遮挡严重的复杂场景中检测的准确性会急剧下降。因此，基于特征回归的方法被用于解决此类人群计数问题。通过从前景分割出的人群中提取纹理、边缘等特征训练一个回归模型，从而建立特征到人数的映射关系，进而预测人群数量。然而，这些基于特征回归方法学习到的只是一些低级特征映射，在尺度剧烈变化和目标遮挡严重的场景下依然暴露出检测不准确的缺点。

近年来，卷积神经网络CNN凭借着其强大的特征表示能力，在计算机视觉领域中得到了广泛应用。众多研究者们也开始借鉴以深度学习为驱动的密度估计方法来解决复杂场景下的人群计数问题，通过CNN强大的特征表示生成高质量的预测密度图，再对密度图逐像素积分得到最终的计数结果。例如通过一种具有多分支的多列卷积神经网络MCNN来处理尺度变化，其中每个分支使用大小不同的卷积核，这些分支提取的特征组合在一起以进行密度图预测。还有一种选择器神经网络Switch-CNN，它是在MCNN的基础上通过图像块的内容信息选择预测效果最精准的CNN分支用于密度图估计。

然而，现有的大多数基于CNN的人群计数方法，通常是对输入的整个图像采用大小一样的卷积核提取特征信息，并没有考虑来自网络不同感受野的特征对最终计数结果的贡献，导致计数网络不能获取合适的空间上下文信息。此外，在背景杂乱和遮挡严重的情况下，许多计数模型缺少抑制背景特征的能力，误将背景区域识别为目标区域，或者是只关注局部外观特征而丢掉了许多细节信息，导致计数结果与实际值偏差较大。

发明内容

本发明的目的在于，提供一种基于视频监控与深度神经网络的人群密度估计方法，通过上下文感知金字塔模块编码丰富的空间上下文信息，增强模型对尺度不均匀变化的鲁棒性，并利用AM学习空间特征之间的相关性以及通道特征之间的依赖关系，以提高特征图的聚焦能力，减少背景、噪声对计数性能的影响。

本发明采取的技术方案是：一种基于视频监控与深度神经网络的人群密度估计方法，包括以下步骤：

S1：从社会公共区域的监控视频中采集大量含有高密度人群的人群图像数据，构建人群计数数据集并生成人群计数数据集中人群图像的真实人群密度图；

S2：构建用于生成人群密度图的神经网络模型，所述神经网络模型包括前端网络、上下文感知金字塔模块、注意力模块和后端网络；

所述前端网络包括去除全连接层的VGG-16网络的前10个卷积层，用于提取高密度人群的低层特征；

所述上下文感知金字塔模块用于将前端网络输出的具有的低层特征的特征图划分为四个不同尺度的并行块来编码丰富的上下文信息，通过结合多个大小不同的感受野获得的尺度感知特征，使得神经网络模型能够有效利用每个位置的上下文，以适应快速的尺度变化；

所述注意力模块通过空间注意力机制对整个输入特征图进行编码，再通过可学习的方式自动获取每个特征通道的重要程度，并按照重要程度把注意力放在有用的特征上，抑制分散注意力的无关特征；

所述后端网络包括1层普通卷积层和6层空洞卷积层，用于回归生成预测的人群密度图；

S3：将构建的人群计数数据集输入所述神经网络模型进行迭代训练，得到优化后的神经网络模型；

S4：通过优化后的神经网络模型预测输入人群图像的密度图，然后对整张密度图的所有像素进行求和，从而得到最终输入人群图像的人群计数结果。

进一步地，所述步骤S1中构建人群计数数据集和生成人群计数数据集中人群图像的真实人群密度图的具体方法为：

S101：对人群图像进行标注，当人群图像的某一个像素点处有一个人头，将该人头记作x_i，x_i表示第i个被标记的人头所在的位置，将有P个被标记的人头的人群图像记为：

其中，i为被标注的人头数，x为人群图像中像素点的位置，δ(x-x_i)为增量函数，P为人群图像中被标注的人头的总数量；

S102：将采集的人群图像数据划分为训练集和测试集，并训练集的人群图像进行数据增强预处理，在人群图像的不同位置随机裁剪一块图像作为补丁，将补丁镜像，使得训练集加倍；

S103：使用高斯核卷积对人群计数数据集的人群图像中被标注的每一个人头位置进行模糊处理，减少透视畸变对人头大小的影响，并生成人群计数数据集中人群图像的真实人群密度图F^gt(x)，具体表达式为：

其中，

表示标准偏差为σ_i的高斯核卷积函数，

表示人群图像中第i个被标记的人头距离其α近邻的平均欧式距离，β为常数。

进一步地，所述后端网络使用的空洞卷积定义为：

其中，Γ表示空洞率，L表示空洞卷积层的长度，z的取值范围为1～L，表示第z行，G表示空洞卷积层的宽度，u的范围为1～G，表示第u列，

表示二维输入λ(l+Γ×z,g+Γ×u)和滤波器

进行二维空洞卷积后的二维输出，l表示二维特征图的横坐标，g表示二维特征图的纵坐标。

进一步地，所述步骤S3中，通过结合神经网络模型的输出的人群图像预测密度图和对应的真实人群密度图构建训练神经网络模型的损失函数L(θ)，更新模型参数，具体表达式如下：

其中，T表示训练集中人群图像的数量，t为第t张输入的人群图像，

为第t张输入的人群图像对应的真实人群密度图，

为神经网络模型输出的第t张输入人群图像的预测密度图，

为

和

之间的误差的平方；

在模型的训练过程中，使用Adam算法被用来作为神经网络的优化方法。

进一步地，所述步骤S4中的具体方法为：

S401：前端网络通过预先训练的VGG-16的前10个卷积层对输入的人群图像进行编码，输出具有低层特征的2D特征图，具体公式为：

D_h＝F_v(I_h)

其中，I_h表示第h张输入前端网络的人群图像，F_v表示VGG-16的前10个卷积层，D_h表示第h张输入前端网络的人群图像对应输出的具有低层特征的2D特征图；

S402：上下文感知金字塔模块通过在4个分支中平均池化，将前端网络输出的2D特征图划分为四个大小不同的块，并对四个分支的感受野进行精细区分，获得不同深度的特征信息，所述特征信息通过上采样操作恢复到与前端网络输出的2D特征图一样的大小后进行融合，融合后的特征图与前端网络输出的2D特征图进行结合，实现多尺度上下文特征的提取；

S403：注意力模块先后通过空间注意力机制、全局平均池化GAP和通道特征学习CFS对上下文感知金字塔模块输出的包含多尺度上下文特征的特征图进行处理；

其中，空间注意力机制用于对包含多尺度上下文特征的特征图进行编码，空间注意力机制包括三个分支，通过三个分支对包含多尺度上下文特征的特征图进行处理，分别获得第一特征图Q₁、第二特征图Q₂和第三特征图Q₃，依据第一特征图Q₁和第二特征图Q₂获得空间注意图Q_s，再根据包含多尺度上下文特征的特征图、第三特征图Q₃和空间注意图Q_s获得空间注意力机制输出的特征图Q_f；

全局平均池化GAP和通道特征学***均池化GAP对特征图Q_f进行空间特征压缩，得到压缩后的特征图T₁，再通过通道特征学习CFS得到具有通道注意力的特征图T₂，所述通道特征学习CFS包括两个全连接层，用于学习通道间的相关性，第一个全连接层用于降低维度，后接ReLU激活函数，之后通过第二个全连接层将输出特征图的维度大小恢复到与特征图T₁相同的维度，最后将得到的具有通道注意力的特征图T₂与特征图Q_f进行通道级乘法运算，输出特征图T_f；

S404：将特征图T_f输入后端网络，通过后端网络的空洞卷积层和普通卷积层处理后得到最终预测的人群密度图。

进一步地，上下文感知金字塔模块输出的包含多尺度上下文特征的特征图的具体表达式为：

M_r＝U_p(F_r(P_v(D_h,r,θ_r))+D_h

其中，r为尺度，F_r表示核大小为1×1的卷积网络，θ_r为卷积核的参数，P_v(D_h,r)为平均池化，U_p为用于上采样的双线性插值，M_r表示上下文感知金字塔模块输出的包含多尺度上下文特征的特征图。

进一步地，所述空间注意图Q_s的具体表达式为：

其中，

表示空间注意力特征图Q_s中第b个位置对第a个位置的影响，两个位置的特征图越相似，意味着它们之间的关联性越强；a为特征图中第a个输出位置，b为特征图中第b个输出位置，

为第一特征图Q₁中第b个位置，

为第二特征图Q₂中第a个位置，HW表示合并特征图的高度H和宽度W两个维度，得到大小为HW的维度，exp(η)表示e的η次方；

所述空间注意力机制输出的特征图Q_f的具体表达为：

其中，ρ表示一个可学习因子，用来缩放输出，

为空间注意力机制输出的特征图Q_f第a个位置，

为第三特征图中第b个位置；

所述全局平均池化GAP和通道特征学习CFS输出的特征图T_f的具体表达式为：

T_f＝F_scale(Sig(FC(ReLU(FC(f_g)))),Q_f)

其中，f_g表示经过全局平均池化GAP得到的维度大小为1×1×C的特征图T₁，C为通道维度，FC表示全连接层，ReLU表示ReLU激活函数，Sig表示Sigmoid激活函数，F_scale(·)表示通道级乘法运算。

本发明的有益效果在于：

(1)本发明选取不包括全连接层的VGG-16网络的前10个卷积层作为前端网络，用于提取输入图像的低层特征，可以适应具有不同分辨率的人群图像的输入，避免了对输入图像大小进行批量调整导致信息丢失的问题；

(2)本发明提出了一个上下文感知金字塔模块，它将低层特征划分为四个平行块来编码丰富的上下文信息，通过结合多个大小不同的感受野获得的特征，使得网络能够有效利用每个位置的上下文，以适应快速的尺度变化；

(3)本发明提出的方法利用包含空间注意力机制、全局平均池化GAP和通道特征学习CFS的注意力模块对上下文感知金字塔模块输出的特征图进行重新校准，从空间维度和通道维度上处理特征图的相关性，使得网络能够忽略背景细节，并将注意力放在图像中人的头部位置，减少对背景信息的错误估计，提高了高密度人群的计数精度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例的方法流程图；

图2为本发明实施例神经网络模型的网络架构图；

图3为本发明实施例注意力模块的结构示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明并不限于下面公开的具体实施例的限制。

除非另作定义，此处使用的技术术语或者科学术语应当为本申请所述领域内具有一般技能的人士所理解的通常意义。本专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“一个”或者“一”等类似词语也不表示数量限制，而是表示存在至少一个。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也相应地改变。

如图1～图3所示，本发明实施例采用了一种基于视频监控与深度神经网络的人群密度估计方法，选取大规模且具有挑战性的公开人群计数数据集ShanghaiTech、UCF_CC_50和WorldExpo’10数据集，用于神经网络模型的训练和评估，有效降低高密度人群数据集的采集、标注和预处理所花费的人力、财力和时间成本。本发明实施例以上下文感知金字塔模块和注意力模块为关键组件，构建用于人群计数的神经网络模型，所述神经网络模型主要包括前端网络、上下文感知金字塔模块、注意力模块AM和后端网络。本发明实施例选取预先训练好的不包括全连接层的VGG-16网络的前十个卷积层作为前端网络，不仅有利于增强模型对人群尺度变化的鲁棒性，还可以降低网络训练的时间成本。将人群计数数据集送入所述神经网络模型进行训练，迭代到设置的最大次数，得到优化后的神经网络模型，并通过优化后的神经网络模型预测输入人群图像的密度图，再对整张密度图的像素进行求和，从而得到最终输入人群图像的人群计数结果。具体步骤如下：

S1：从社会公共区域的监控视频中采集大量含有高密度人群的人群图像数据，构建人群计数数据集并生成人群计数数据集中人群图像的真实人群密度图，具体方法为：

其中，i为被标注的人头数，x为人群图像中像素点的位置，δ(x-x_i)为增量函数，P为人群图像中被标注的人头的总数量。

S102：将采集的人群图像数据划分为训练集和测试集，并训练集的人群图像进行数据增强预处理，为防止数据集规模小造成的过拟合，在人群图像的不同位置随机裁剪一块图像作为补丁，将补丁镜像，使得训练集加倍，达到数据加强的目的；在本发明实施例中，随机裁剪的图像大小为人群图像大小的1/4。

S103：通常来说，在拍摄人群图像时，距离镜头越远的目标在图像上显得越小，占用的空间像素点较少，距离镜头近的目标在图像上显得较大，占用的空间像素点较多，即存在透视畸变。本发明实施例使用高斯核卷积对人群计数数据集的人群图像中被标注的每一个人头位置进行模糊处理，减少透视畸变对人头大小的影响，并生成人群计数数据集中人群图像的真实人群密度图F^gt(x)，具体表达式为：

其中，

表示标准偏差为σ_i的高斯核卷积函数，

表示人群图像中第i个被标记的人头距离其α近邻的平均欧式距离，β为常数。在本发明实施例中，设置常数β为0.3，α为3。

所述注意力模块AM通过空间注意力机制对整个输入特征图进行编码，从而帮助模型将注意力集中在重要的人群区域，使模型对背景噪声具有更强的鲁棒性，再通过可学习的方式自动获取每个特征通道的重要程度，并按照重要程度把注意力放在有用的特征上，抑制分散注意力的无关特征；

所述后端网络包括1层卷积核大小为1×1的普通卷积层和6层空洞率为2的空洞卷积层，用于回归生成预测的人群密度图。所述后端网络使用的空洞卷积定义为：

表示二维输入λ(l+Γ×z,g+Γ×u)和滤波器

所述步骤S3中，通过结合神经网络模型的输出的人群图像预测密度图和对应的真实人群密度图构建训练神经网络模型的损失函数L(θ)，更新模型参数，具体表达式如下：

为第t张输入的人群图像对应的真实人群密度图，

为神经网络模型输出的第t张输入人群图像的预测密度图，

为

和

之间的误差的平方。

整个训练过程都是在NVIDIARTX2080TiGPU上使用PyTorch平台设计实现的，在模型的训练过程中，使用Adam算法被用来作为神经网络的优化方法，每次迭代的批处理的大小为8。其中，对于ShanghaiTechPartA数据集，网络的学习率初始化为1e-5，其它数据集的学习率固定为1e-4，模型训练迭代的最大次数为800次。

S4：通过优化后的神经网络模型预测输入人群图像的密度图，然后对整张密度图的所有像素进行求和，从而得到最终输入人群图像的人群计数结果，具体方法为：

D_h＝F_v(I_h)

其中，I_h表示第h张输入前端网络的人群图像，F_v表示VGG-16的前10个卷积层，D_h表示第h张输入前端网络的人群图像对应输出的具有低层特征的2D特征图。

S402：上下文感知金字塔模块通过在4个分支中平均池化，将前端网络输出的2D特征图划分为四个大小不同的块，并对四个分支的感受野进行精细区分，获得不同深度的特征信息，对应的块大小为B(r)＝{1,3,5,7}。所述特征信息通过上采样操作恢复到与前端网络输出的2D特征图一样的大小后进行融合，融合后的特征图与前端网络输出的2D特征图进行结合，实现多尺度上下文特征的提取。上下文感知金字塔模块输出的包含多尺度上下文特征的特征图的具体表达式为：

M_r＝U_p(F_r(P_v(D_h,r,θ_r))+D_h

S403：为了对上下文感知金字塔模块输出的特征图的冗余信息进行过滤，提高特征图的聚焦能力，注意力模块AM先后通过空间注意力机制、全局平均池化GAP和通道特征学习CFS对上下文感知金字塔模块输出的包含多尺度上下文特征的特征图进行处理；

其中，空间注意力机制用于对包含多尺度上下文特征的特征图进行编码，从而更准确地预测密度图。空间注意力机制包括三个分支，通过三个分支对包含多尺度上下文特征的特征图进行处理。先是通过三个不同的1×1卷积层；然后对输入特征图执行reshape或transpose操作，分别获得第一特征图Q₁、第二特征图Q₂和第三特征图Q₃，并使用C、H、W分别表示特征图的通道维度、高度维度和宽度维度。将大小分别为HW×C和C×HW的第一特征图Q₁和第二特征图Q₂先后进行矩阵相乘和Softmax操作，获得大小为HW×HW的空间注意图Q_s，实现了对特征图中空间依赖关系的编码。所述空间注意图Q_s的具体表达式为：

其中，

为第一特征图Q₁中第b个位置，

为第二特征图Q₂中第a个位置，HW表示合并特征图的高度H和宽度W两个维度，得到大小为HW的维度，exp(η)表示e的η次方。

为了得到包含全局上下文特征和空间注意力信息的特征图，第三个分支将大小分别为C×HW和HW×HW的第三特征图Q₃和空间注意图Q_s先应用矩阵乘法，再做reshape输出大小为C×H×W的特征图，并与包含多尺度上下文特征的特征图求和获得空间注意力机制输出的特征图Q_f，具体公式为：

其中，ρ表示一个可学习因子，用来缩放输出，空间注意机制利用核大小为1×1的卷积层来学习ρ，

为空间注意力机制输出的特征图Q_f第a个位置，

为第三特征图中第b个位置。

T_f＝F_scale(Sig(FC(ReLU(FC(f_g)))),Q_f)

下面介绍本发明实施例所述的一种基于视频监控与深度神经网络的人群密度估计方法用到的用于验证方法有效性的数据集和评估指标：

(1)数据集

本发明实施例选取3个具有挑战性的公开人群计数数据集ShanghaiTech、UCF_CC_50和WorldExpo’10数据集。

ShanghaiTech数据集，它包括1,198张带注释的人群图像，共有330,165个头部被注释，该数据集被划分A部分和B部分。其中，A部分是来自互联网的密集人群图像，共有482张，人数从33到3,139不等；B部分是拍摄于上海繁华街道的稀疏人群图像，共有716张，人数从9到578不等。

UCF_CC_50数据集是一个非常具有挑战性的人群计数数据集，也是一个极度拥挤的数据集。它由50幅不同分辨率的图像组成，每个图像中的个人数量在94到4543之间。该数据集包含更多样的场景，例如音乐厅、抗议集会和体育馆。考虑到该数据集对于大容量模型来说相对较小，本发明实施例利用了用于训练和验证模型的5倍交叉验证方法。

WorldExpo’10数据集由3980个视频帧组成，其中，训练集包括3380帧图像，测试集有600帧图像。它的训练集来自103个场景中的1127个一分钟的视频序列，测试集是来自5个不同场景中的5个1小时视频序列，每个测试场景包含120帧图像，每帧图像中人的数量在1到253之间。

(2)评价指标

本发明实施例利用平均绝对误差MAE和均方误差MSE来评价网络预测效果，具体计算公式为：

其中，ω表示第ω张输入的人群图像，N_t表示测试集中人群图像的数量，

为第ω张输入的人群图像对应的真实人群密度图，

为神经网络模型输出的第ω张输入人群图像的预测密度图，平均绝对误差MAE反映了神经网络模型预测的准确性，均方误差MSE则反映了神经网络模型的稳健性。

本发明实施例可以通过上下文感知金字塔模块提取到丰富的多尺度上下文特征，增强模型对人群尺度剧烈变化的适应性，并利用注意力模块AM学习空间维度和通道维度上特征之间的依赖关系，进一步增强了模型抑制背景和保留更多细节信息的能力，使网络更好地识别各种复杂场景下的人群区域。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。