CN108830327B - 一种人群密度估计方法 - Google Patents
一种人群密度估计方法 Download PDFInfo
- Publication number
- CN108830327B CN108830327B CN201810645250.9A CN201810645250A CN108830327B CN 108830327 B CN108830327 B CN 108830327B CN 201810645250 A CN201810645250 A CN 201810645250A CN 108830327 B CN108830327 B CN 108830327B
- Authority
- CN
- China
- Prior art keywords
- layer
- crowd density
- pyramid
- neural network
- layers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种人群密度估计方法,包括:对于输入的视频帧,通过单个神经网络提取不同层的特征建立多尺度的特征金字塔,用来表示不同尺寸人的信息;通过对每层特征金字塔的输出特征进行反卷积操作使得输出特征和输入的视频帧尺寸相同,再采用相加融合的方式得到人群密度图。上述方法仅利用单个神经网络不同层的特征图建立特征金字塔,通过融合不同金字塔层来估计人群密度,具有鲁棒性高,性能好的优点。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种人群密度估计方法。
背景技术
随着经济社会的不断发展,城市化进程快速推进,在火车站、体育场、步行街、商场等人流众多的地方发生拥堵的现象越来越多,安全隐患突出。通过对监控视频进行分析来掌握监控场景下的人群的分布状态受到广泛的关注,因此建立自动、智能化的人群密度估计***对建设平安城市具有重要现实意义。现有的基于传统手工特征的方法可以分为两类:基于检测的方法和基于回归的方法。
在基于检测的方法中,人群的分布通过检测场景中的每个个体来得到。这类方法在低密度场景中效果很好,但在中高密度场景中,由于人群之间的遮挡等因素的影响,使得检测个体的性能变差。另外一种基于回归的方法,研究者避开了检测视频中个体,而是利用提取的局部或者全局特征回归到图像中人数,常用的回归方法有:线性回归,脊回归,高斯回归等。
近年来,随着深度学习在计算机视觉的广泛应用,基于深度神经网络的人群密度分析方法能自动学习针对人群更有效的特征,相较于传统方法取得了一定的提高。在现实场景中,由于摄像头的景深原因,不同位置的人在不同位置上往往尺寸不同,表现出多尺度特性,目前大多数基于深度学习的方法为了解决这个问题上采用多个不同卷积核大小的神经网络,不同的卷积核大小应对不同的尺度特性,然后融合在一起来进行人群密度估计,但这类方法应用到不同的现实场景中,需要重新设计不同的卷积核大小,鲁棒性较差。
发明内容
本发明的目的是提供一种人群密度估计方法,具有鲁棒性高、性能好的优点。
本发明的目的是通过以下技术方案实现的:
一种人群密度估计方法,包括:
对于输入的视频帧,通过单个神经网络提取不同层的特征建立多尺度的特征金字塔,用来表示不同尺寸人的信息;
通过对每层特征金字塔的输出特征进行反卷积操作使得输出特征和输入的视频帧尺寸相同,再采用相加融合的方式得到人群密度图。
由上述本发明提供的技术方案可以看出,仅利用单个神经网络不同层的特征图建立特征金字塔,通过融合不同金字塔层来估计人群密度,具有鲁棒性高,性能好的优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种人群密度估计方法的框架图;
图2为本发明实施例提供的人群密度估计结果示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种人群密度估计方法,该方法基于深度神经网络多尺度特征金字塔来实现,如图1为上述方法的框架图;其主要包括:
步骤1、对于输入的视频帧,通过单个神经网络提取不同层的特征建立多尺度的特征金字塔,用来表示不同尺寸人的信息。
在监控视频中,人群的运动随着时间变化而变化,不同帧时刻,人在视频场景分布的位置不同,本步骤输入的视频帧为定监控视频的每一帧。
本步骤中,建立单个深度卷积神经网络结构,提取不同卷积层的特征图,将顶层卷积层的特征图按照自上而下的方式分别与其余较低层卷积层的特征图相加得到多尺度的特征金字塔;其中,顶层卷积层的特征图通过上采样的方式扩大两倍,和某一较低层卷积层的特征图相加得到某一种尺度的特征层。
本发明实施例中,仅利用单个神经网络不同层的特征图建立特征金字塔在深层神经网络结构中,不同层特征捕捉到不同尺度的语义信息,例如,在低层网络层的特征对小尺寸的目标更加有效,为了获得更高语义的多尺度特征,将不同层网络特征图结合在一起可以更有效表达视频场景中的人的信息。如图1所示的框架图中,建立特征金字塔采用的深度神经网络基于VGG16结构,将VGG16网络结构中的最后全连接层替换成卷积核尺寸为1x1的卷积层,可以保证输入视频帧的尺寸为任意大小。
本领域技术人员可以理解,VGG16为目前已有的卷积神经网络,其具体结构不再赘述。
将生成的单个特征网络的顶层卷积层conv6通过上采样的方式扩大两倍,和较低层的卷积层conv4_3卷积层相加得到某一种尺度的特征层,采用同样的方式依次从高层到低层建立了一个三层特征金字塔。具体来说,顶层卷积层conv6输出的特征首先与卷积层conv4_3输出的特征进行F操作,将得到的结果与卷积层conv3_3输出的特征进行F操作,同样的将得到的结果最后与卷积层conv2_3输出的特征进行F操作,通过这种方式可以依次到三层特征,构成三层特征金字塔。F操作是指:对于两个特征输入,一个输入进行1*1卷积操作,另一个输入进行2倍的上采样操作,然后相加得到输出特征。本发明实施例中,特征金字塔中每一个高层特征图是相应的底层特征图尺寸的两倍。
步骤2、通过对每层特征金字塔的输出特征进行反卷积操作使得输出特征和输入的视频帧尺寸相同,再采用相加融合的方式得到人群密度图。
建立的特征金字塔中存在下采样操作,得到的用于表征视频场景中人群多尺度特征尺寸不同,导致输入图像中人群信息的细节丢失。如图1所示,本发明实施例中,对每一层金字塔特征采用卷积核大小为2x2的反卷积操作,使得得到的每层特征和输入视频帧尺寸相同,其中,金字塔特征层从低到高可以分别设计2,3,4个反卷积层。
之后,通过元素相加的方式融合反卷积操作后的特征,再采用卷积核大小1x1的卷积层将融合的特征映射成最终单层的人群密度图(density map)。
图1中,CCFPE(Crowd Counting Feature Pyramid Estimator)是指人群计数特征金字塔;MFN(Multi-scale Fusion Network)是指多尺度特征融合网络;Feature Map1~3表示根据特征金字塔网络生成的不同层的特征图。
如图2所示为采用上述方案获得的人群密度估计结果。图2中左侧一列表示输入的视频帧,中间一列表示现实场景下真实的人群密度分布图,右侧一列表示根据本发明估计的人群密度图。
本发明实施例提供上述方案不同于其它的基于神经网络的方案,上述方案仅使用单个深层神经网络,融合多层的网络特征图提取出了更有效的特征,使用了更高效且更具有鲁棒性的密度图生成方法,实现了更加有效的人群密度估计。
本发明实施例上述方案,主要具有如下优点:
1)深层的神经网络不同层对场景中目标有不同的感知范围,更高层的特征具有更高的语义信息,本发明利用了这种不同层特征的多尺度特性,建立一种多尺度特征金字塔用于表征视频中人群信息,可以有效应对场景中尺度变化问题,使得特征更加具有鲁棒性。
2)由于特征金字塔中下采样层的存在,得到的多层多尺度特征图尺寸小于原输入视频帧尺寸,通过对不同层进行反卷积操作得到高分辨特征图能进一步提升生成人群密度图的质量,降低因下采样带来的细节损失。
3)无需手工设计特征,通过采用上述方案的多尺度特征神经网络结构能有效解决现实场景中的人群密度估计问题;可适用于多种场合,如用于商场的人流分析,广场或演唱会的拥堵预警,有利于相关机构和人群及时对人群进行疏导和管理。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (3)
1.一种人群密度估计方法,其特征在于,包括:
对于输入的视频帧,通过单个神经网络提取不同层的特征建立多尺度的特征金字塔,用来表示不同尺寸人的信息;
通过对每层特征金字塔的输出特征进行反卷积操作使得输出特征和输入的视频帧尺寸相同,再采用相加融合的方式得到人群密度图,包括:通过元素相加的方式融合反卷积操作后的特征,再采用卷积核大小1x1的卷积层将融合的特征映射成最终单层的人群密度图。
2.根据权利要求1所述的一种人群密度估计方法,其特征在于,所述通过单个神经网络提取不同层的特征建立多尺度的特征金字塔包括:
建立单个深度卷积神经网络结构,提取不同卷积层的特征图,将顶层卷积层的特征图按照自上而下的方式分别与其余较低层卷积层的特征图相加得到多尺度的特征金字塔;
其中,顶层卷积层的特征图通过上采样的方式扩大两倍,和某一较低层卷积层的特征图相加得到某一种尺度的特征层。
3.根据权利要求1所述的一种人群密度估计方法,其特征在于,反卷积操作时采用卷积核大小为2x2的反卷积操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810645250.9A CN108830327B (zh) | 2018-06-21 | 2018-06-21 | 一种人群密度估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810645250.9A CN108830327B (zh) | 2018-06-21 | 2018-06-21 | 一种人群密度估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108830327A CN108830327A (zh) | 2018-11-16 |
CN108830327B true CN108830327B (zh) | 2022-03-01 |
Family
ID=64142991
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810645250.9A Active CN108830327B (zh) | 2018-06-21 | 2018-06-21 | 一种人群密度估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108830327B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110135373A (zh) * | 2019-05-20 | 2019-08-16 | 北京探境科技有限公司 | 一种多尺度面部识别方法、***及电子设备 |
CN110245579B (zh) * | 2019-05-24 | 2021-10-26 | 北京百度网讯科技有限公司 | 人流密度预测方法及装置、计算机设备及可读介质 |
CN110991252B (zh) * | 2019-11-07 | 2023-07-21 | 郑州大学 | 一种不均衡场景中人群分布与计数的检测方法 |
CN111178392B (zh) * | 2019-12-10 | 2023-06-09 | 中国民航大学 | 基于深度神经网络的航空发动机孔探图像损伤分割方法 |
CN111428809B (zh) * | 2020-04-02 | 2023-07-28 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于空间信息融合与卷积神经网络的人群计数方法 |
CN111476188B (zh) * | 2020-04-14 | 2023-09-12 | 山东师范大学 | 基于特征金字塔的人群计数方法、***、介质及电子设备 |
CN113673545A (zh) * | 2020-05-13 | 2021-11-19 | 华为技术有限公司 | 光流估计方法、相关装置、设备及计算机可读存储介质 |
CN112396645B (zh) * | 2020-11-06 | 2022-05-31 | 华中科技大学 | 一种基于卷积残差学习的单目图像深度估计方法和*** |
CN113221971B (zh) * | 2021-04-25 | 2022-12-27 | 山东师范大学 | 一种基于前后特征融合的多尺度人群计数方法及*** |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105590304A (zh) * | 2014-10-24 | 2016-05-18 | 北京大学 | 超分辨率图像重建方法和装置 |
CN106407903A (zh) * | 2016-08-31 | 2017-02-15 | 四川瞳知科技有限公司 | 基于多尺度卷积神经网络的实时人体异常行为识别方法 |
CN106650913A (zh) * | 2016-12-31 | 2017-05-10 | 中国科学技术大学 | 一种基于深度卷积神经网络的车流密度估计方法 |
CN107016689A (zh) * | 2017-02-04 | 2017-08-04 | 中国人民解放军理工大学 | 一种尺度自适应的相关滤波对冲目标跟踪方法 |
CN107169421A (zh) * | 2017-04-20 | 2017-09-15 | 华南理工大学 | 一种基于深度卷积神经网络的汽车驾驶场景目标检测方法 |
CN107564009A (zh) * | 2017-08-30 | 2018-01-09 | 电子科技大学 | 基于深度卷积神经网络的室外场景多目标分割方法 |
CN107644426A (zh) * | 2017-10-12 | 2018-01-30 | 中国科学技术大学 | 基于金字塔池化编解码结构的图像语义分割方法 |
CN107742099A (zh) * | 2017-09-30 | 2018-02-27 | 四川云图睿视科技有限公司 | 一种基于全卷积网络的人群密度估计、人数统计的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8406564B2 (en) * | 2008-09-24 | 2013-03-26 | Microsoft Corporation | Removing blur from an image |
-
2018
- 2018-06-21 CN CN201810645250.9A patent/CN108830327B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105590304A (zh) * | 2014-10-24 | 2016-05-18 | 北京大学 | 超分辨率图像重建方法和装置 |
CN106407903A (zh) * | 2016-08-31 | 2017-02-15 | 四川瞳知科技有限公司 | 基于多尺度卷积神经网络的实时人体异常行为识别方法 |
CN106650913A (zh) * | 2016-12-31 | 2017-05-10 | 中国科学技术大学 | 一种基于深度卷积神经网络的车流密度估计方法 |
CN107016689A (zh) * | 2017-02-04 | 2017-08-04 | 中国人民解放军理工大学 | 一种尺度自适应的相关滤波对冲目标跟踪方法 |
CN107169421A (zh) * | 2017-04-20 | 2017-09-15 | 华南理工大学 | 一种基于深度卷积神经网络的汽车驾驶场景目标检测方法 |
CN107564009A (zh) * | 2017-08-30 | 2018-01-09 | 电子科技大学 | 基于深度卷积神经网络的室外场景多目标分割方法 |
CN107742099A (zh) * | 2017-09-30 | 2018-02-27 | 四川云图睿视科技有限公司 | 一种基于全卷积网络的人群密度估计、人数统计的方法 |
CN107644426A (zh) * | 2017-10-12 | 2018-01-30 | 中国科学技术大学 | 基于金字塔池化编解码结构的图像语义分割方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108830327A (zh) | 2018-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108830327B (zh) | 一种人群密度估计方法 | |
US20210370993A1 (en) | Computer vision based real-time pixel-level railroad track components detection system | |
CN110232380B (zh) | 基于Mask R-CNN神经网络的火灾夜间场景复原方法 | |
Gauen et al. | Comparison of visual datasets for machine learning | |
CN112258526A (zh) | 一种基于对偶注意力机制的ct肾脏区域级联分割方法 | |
Zhu et al. | Spatio-temporal sentiment hotspot detection using geotagged photos | |
CN111611861B (zh) | 一种基于多尺度特征关联的图像变化检测方法 | |
WO2021082231A1 (zh) | 目标检测方法及装置、电子设备和存储介质 | |
WO2023212997A1 (zh) | 基于知识蒸馏的神经网络训练方法、设备及存储介质 | |
CN113436210B (zh) | 一种融合上下文逐级采样的道路图像分割方法 | |
Balchandani et al. | A deep learning framework for smart street cleaning | |
Madhavan et al. | The bdd-nexar collective: A large-scale, crowsourced, dataset of driving scenes | |
CN114187520A (zh) | 一种建筑物提取模型及其应用方法 | |
CN114913599A (zh) | 基于自动编码器的视频异常行为检测方法及*** | |
CN114219968A (zh) | 一种基于MA-Xnet的路面裂缝分割方法 | |
CN112699889A (zh) | 基于多任务监督的无人驾驶实时道路场景语义分割方法 | |
Zheng et al. | Deep Learning‐Driven Gaussian Modeling and Improved Motion Detection Algorithm of the Three‐Frame Difference Method | |
Juneja et al. | A systematic review on foggy datasets: Applications and challenges | |
Zhu et al. | A lightweight encoder–decoder network for automatic pavement crack detection | |
Sun et al. | An integration–competition network for bridge crack segmentation under complex scenes | |
CN112818818B (zh) | 一种基于affpn的新型超高清遥感图像变化检测方法 | |
CN117372876A (zh) | 一种多任务遥感影像道路损毁评估方法及*** | |
Li et al. | Learning to holistically detect bridges from large-size vhr remote sensing imagery | |
Adam et al. | Robustness and deployability of deep object detectors in autonomous driving | |
CN112686828B (zh) | 视频去噪方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |