CN108830327B

CN108830327B - 一种人群密度估计方法

Info

Publication number: CN108830327B
Application number: CN201810645250.9A
Authority: CN
Inventors: 刘斌; 赵坤; 李卫海; 俞能海
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2018-06-21
Filing date: 2018-06-21
Publication date: 2022-03-01
Anticipated expiration: 2038-06-21
Also published as: CN108830327A

Abstract

本发明公开了一种人群密度估计方法，包括：对于输入的视频帧，通过单个神经网络提取不同层的特征建立多尺度的特征金字塔，用来表示不同尺寸人的信息；通过对每层特征金字塔的输出特征进行反卷积操作使得输出特征和输入的视频帧尺寸相同，再采用相加融合的方式得到人群密度图。上述方法仅利用单个神经网络不同层的特征图建立特征金字塔，通过融合不同金字塔层来估计人群密度，具有鲁棒性高，性能好的优点。

Description

一种人群密度估计方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种人群密度估计方法。

背景技术

随着经济社会的不断发展，城市化进程快速推进，在火车站、体育场、步行街、商场等人流众多的地方发生拥堵的现象越来越多，安全隐患突出。通过对监控视频进行分析来掌握监控场景下的人群的分布状态受到广泛的关注，因此建立自动、智能化的人群密度估计***对建设平安城市具有重要现实意义。现有的基于传统手工特征的方法可以分为两类：基于检测的方法和基于回归的方法。

在基于检测的方法中，人群的分布通过检测场景中的每个个体来得到。这类方法在低密度场景中效果很好，但在中高密度场景中，由于人群之间的遮挡等因素的影响，使得检测个体的性能变差。另外一种基于回归的方法，研究者避开了检测视频中个体，而是利用提取的局部或者全局特征回归到图像中人数，常用的回归方法有：线性回归，脊回归，高斯回归等。

近年来，随着深度学习在计算机视觉的广泛应用，基于深度神经网络的人群密度分析方法能自动学习针对人群更有效的特征，相较于传统方法取得了一定的提高。在现实场景中，由于摄像头的景深原因，不同位置的人在不同位置上往往尺寸不同，表现出多尺度特性，目前大多数基于深度学习的方法为了解决这个问题上采用多个不同卷积核大小的神经网络，不同的卷积核大小应对不同的尺度特性，然后融合在一起来进行人群密度估计，但这类方法应用到不同的现实场景中，需要重新设计不同的卷积核大小，鲁棒性较差。

发明内容

本发明的目的是提供一种人群密度估计方法，具有鲁棒性高、性能好的优点。

本发明的目的是通过以下技术方案实现的：

一种人群密度估计方法，包括：

对于输入的视频帧，通过单个神经网络提取不同层的特征建立多尺度的特征金字塔，用来表示不同尺寸人的信息；

通过对每层特征金字塔的输出特征进行反卷积操作使得输出特征和输入的视频帧尺寸相同，再采用相加融合的方式得到人群密度图。

由上述本发明提供的技术方案可以看出，仅利用单个神经网络不同层的特征图建立特征金字塔，通过融合不同金字塔层来估计人群密度，具有鲁棒性高，性能好的优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种人群密度估计方法的框架图；

图2为本发明实施例提供的人群密度估计结果示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种人群密度估计方法，该方法基于深度神经网络多尺度特征金字塔来实现，如图1为上述方法的框架图；其主要包括：

步骤1、对于输入的视频帧，通过单个神经网络提取不同层的特征建立多尺度的特征金字塔，用来表示不同尺寸人的信息。

在监控视频中，人群的运动随着时间变化而变化，不同帧时刻，人在视频场景分布的位置不同，本步骤输入的视频帧为定监控视频的每一帧。

本步骤中，建立单个深度卷积神经网络结构，提取不同卷积层的特征图，将顶层卷积层的特征图按照自上而下的方式分别与其余较低层卷积层的特征图相加得到多尺度的特征金字塔；其中，顶层卷积层的特征图通过上采样的方式扩大两倍，和某一较低层卷积层的特征图相加得到某一种尺度的特征层。

本发明实施例中，仅利用单个神经网络不同层的特征图建立特征金字塔在深层神经网络结构中，不同层特征捕捉到不同尺度的语义信息，例如，在低层网络层的特征对小尺寸的目标更加有效，为了获得更高语义的多尺度特征，将不同层网络特征图结合在一起可以更有效表达视频场景中的人的信息。如图1所示的框架图中，建立特征金字塔采用的深度神经网络基于VGG16结构，将VGG16网络结构中的最后全连接层替换成卷积核尺寸为1x1的卷积层，可以保证输入视频帧的尺寸为任意大小。

本领域技术人员可以理解，VGG16为目前已有的卷积神经网络，其具体结构不再赘述。

将生成的单个特征网络的顶层卷积层conv6通过上采样的方式扩大两倍，和较低层的卷积层conv4_3卷积层相加得到某一种尺度的特征层，采用同样的方式依次从高层到低层建立了一个三层特征金字塔。具体来说，顶层卷积层conv6输出的特征首先与卷积层conv4_3输出的特征进行F操作，将得到的结果与卷积层conv3_3输出的特征进行F操作，同样的将得到的结果最后与卷积层conv2_3输出的特征进行F操作，通过这种方式可以依次到三层特征，构成三层特征金字塔。F操作是指：对于两个特征输入，一个输入进行1*1卷积操作，另一个输入进行2倍的上采样操作，然后相加得到输出特征。本发明实施例中，特征金字塔中每一个高层特征图是相应的底层特征图尺寸的两倍。

步骤2、通过对每层特征金字塔的输出特征进行反卷积操作使得输出特征和输入的视频帧尺寸相同，再采用相加融合的方式得到人群密度图。

建立的特征金字塔中存在下采样操作，得到的用于表征视频场景中人群多尺度特征尺寸不同，导致输入图像中人群信息的细节丢失。如图1所示，本发明实施例中，对每一层金字塔特征采用卷积核大小为2x2的反卷积操作，使得得到的每层特征和输入视频帧尺寸相同，其中，金字塔特征层从低到高可以分别设计2，3，4个反卷积层。

之后，通过元素相加的方式融合反卷积操作后的特征，再采用卷积核大小1x1的卷积层将融合的特征映射成最终单层的人群密度图(density map)。

图1中，CCFPE(Crowd Counting Feature Pyramid Estimator)是指人群计数特征金字塔；MFN(Multi-scale Fusion Network)是指多尺度特征融合网络；Feature Map1～3表示根据特征金字塔网络生成的不同层的特征图。

如图2所示为采用上述方案获得的人群密度估计结果。图2中左侧一列表示输入的视频帧，中间一列表示现实场景下真实的人群密度分布图，右侧一列表示根据本发明估计的人群密度图。

本发明实施例提供上述方案不同于其它的基于神经网络的方案，上述方案仅使用单个深层神经网络，融合多层的网络特征图提取出了更有效的特征，使用了更高效且更具有鲁棒性的密度图生成方法，实现了更加有效的人群密度估计。

本发明实施例上述方案，主要具有如下优点：

1)深层的神经网络不同层对场景中目标有不同的感知范围，更高层的特征具有更高的语义信息，本发明利用了这种不同层特征的多尺度特性，建立一种多尺度特征金字塔用于表征视频中人群信息，可以有效应对场景中尺度变化问题，使得特征更加具有鲁棒性。

2)由于特征金字塔中下采样层的存在，得到的多层多尺度特征图尺寸小于原输入视频帧尺寸，通过对不同层进行反卷积操作得到高分辨特征图能进一步提升生成人群密度图的质量，降低因下采样带来的细节损失。

3)无需手工设计特征，通过采用上述方案的多尺度特征神经网络结构能有效解决现实场景中的人群密度估计问题；可适用于多种场合，如用于商场的人流分析，广场或演唱会的拥堵预警，有利于相关机构和人群及时对人群进行疏导和管理。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种人群密度估计方法，其特征在于，包括：

通过对每层特征金字塔的输出特征进行反卷积操作使得输出特征和输入的视频帧尺寸相同，再采用相加融合的方式得到人群密度图，包括：通过元素相加的方式融合反卷积操作后的特征，再采用卷积核大小1x1的卷积层将融合的特征映射成最终单层的人群密度图。

2.根据权利要求1所述的一种人群密度估计方法，其特征在于，所述通过单个神经网络提取不同层的特征建立多尺度的特征金字塔包括：

建立单个深度卷积神经网络结构，提取不同卷积层的特征图，将顶层卷积层的特征图按照自上而下的方式分别与其余较低层卷积层的特征图相加得到多尺度的特征金字塔；

其中，顶层卷积层的特征图通过上采样的方式扩大两倍，和某一较低层卷积层的特征图相加得到某一种尺度的特征层。

3.根据权利要求1所述的一种人群密度估计方法，其特征在于，反卷积操作时采用卷积核大小为2x2的反卷积操作。