CN106815563B - 一种基于人体表观结构的人群数量预测方法 - Google Patents
一种基于人体表观结构的人群数量预测方法 Download PDFInfo
- Publication number
- CN106815563B CN106815563B CN201611225785.8A CN201611225785A CN106815563B CN 106815563 B CN106815563 B CN 106815563B CN 201611225785 A CN201611225785 A CN 201611225785A CN 106815563 B CN106815563 B CN 106815563B
- Authority
- CN
- China
- Prior art keywords
- scene
- pedestrian
- image
- crowd
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于人体表观结构的人群数量预测方法,用于预测给定场景图像里的人群数量。具体包括如下步骤:获取用于训练人群数量预测模型的监控图像数据集,并定义算法目标;对监控图像数据集中行人身体的表观语义结构进行建模,并对行人的密度分布和身体形状进行联合建模;根据步骤S2中的建模结果建立人群数量的预测模型;使用所述预测模型预测场景图像中的人群数量。本发明适用于真实视频监控场景中的人群数量预测,面对各类复杂情况具有较佳的效果和鲁棒性。
Description
技术领域
本发明属于计算机视觉领域,特别地涉及一种基于人体表观结构的人群数量预测方法。
背景技术
20世纪末以来,随着计算机视觉的发展,智能视频监控技术得到广泛的关注和研究。人群计数是其中一项重要和具有挑战性的任务,其目标是准确预测高密度人群图像中的行人数量。人群计数任务的的三个关键因素是行人、头部以及它们的上下文结构。当我们人类在统计人群的数量时,我们会利用行人身体不同部分的语义结构作为线索来准确判断每个人的位置。因此,准确地预测人群数量需要对行人身体的语义结构进行分析。
现有的人群计数方法通常包含如下三类:1、基于行人检测器的人群计数。这类方法利用各种行人检测器来匹配图像中的每个行人;2、基于全局回归的人群计数。这类方法主要建模人群图像与人群数量之间的映射;3、基于密度估计的人群计数。这类方法建模人群的密度分布,再通过密度分布预测人群数量。现有的方法将行人的整个身体作为一个整体建模,或者仅建模行人的头部。它们忽略了丰富的行人身体部分的语义结构信息,利用这些结构信息可以提高人群计数算法的性能。
发明内容
为解决上述问题,本发明的目的在于提供一种基于人体表观结构的人群数量预测方法,用于预测给定场景图像里的人群数量。本方法基于深度神经网络对行人的身体表观结构和密度分布信息进行语义建模,并根据建模结果预测准确的人群数量,能够更好地适应真实视频监控场景中的复杂情况。
为实现上述目的,本发明的技术方案为:
一种基于人体表观结构的人群数量预测方法,包括以下步骤:
S1、获取用于训练人群数量预测模型的监控图像数据集,并定义算法目标;
S2、对监控图像数据集中行人身体的表观语义结构进行建模,并对行人的密度分布和身体形状进行联合建模;
S3、根据步骤S2中的建模结果建立人群数量的预测模型;
S4、使用所述预测模型预测场景图像中的人群数量。
进一步的,步骤S2中,对行人身体的表观语义结构进行建模具体包括:
S22、将行人图像Itrain分别输入单个行人语义分割***进行语义分割;
进一步的,步骤S2中,对行人的密度分布和身体形状的联合建模具体包括:
其中,p是上的像素位置,是二维高斯核用以近似人头的形状,是二维高斯核用以近似人身体的形状,和分别是第i个人头和人身体的中心位置,取自Ptrain,由和场景深度值估算得出,σh和σb分别是和的方差,它们分别由和估算得到,由人群语义结构图二值化得到,是场景中的行人数量,Z是归一化系数使每一个行人在上的密度和为1,结构化人群密度图反映场景图像中所有行人的密度分布和身体形状信息。
进一步的,步骤S3中,建立人群数量的预测模型具体包括:
S35、整个神经网络的损失函数为
L=Lc+λdLd+λbLb 公式(5)
使用随机梯度下降和反向传播算法在损失函数L下训练整个神经网络。
本发明的基于人体表观结构的人群数量预测方法,相比于现有的人群数量预测方法,具有以下有益效果:
首先,本发明的人群数量预测方法发掘了人群计数问题的语义属性,定义并建模了本问题的三个关键因素:身体,头部和它们的上下文结构。该种假设更加适应实际场景中的复杂情况。
其次,本发明的人群数量预测方法基于深度卷积神经网络建立人群数量预测模型。深度卷积神经网络能够更好地表达视觉特征,另外,视觉特征提取、行人语义建模和人群数量回归被统一在同一个框架里,提高了方法的最终效果。
本发明的基于人体表观结构的人群数量预测方法,在智能视频监控分析***里具有良好的应用价值,能够有效提高人群数量预测的效率和准确度。例如,在公共安全的应用场景里,本发明的人群数量预测方法可以快速和准确地预测监控摄像头拍摄区域的行人数量,为公共场所的日常运行和应急处理提供决策依据。
附图说明
图1为本发明的基于人体表观结构的人群数量预测方法的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
参考图1,在本发明的较佳实施例中,基于人体表观结构的人群数量预测方法,包括以下步骤:
其次,对获得的监控图像数据集中行人的密度分布和身体形状进行联合建模。具体的,其包括如下步骤:
第二步,将行人图像Itrain分别输入单个行人语义分割***进行语义分割;
其中,p是上的像素位置,是二维高斯核用以近似人头的形状,是二维高斯核用以近似人身体的形状。和分别是第i个人头和人身体的中心位置,取自Ptrain,由和场景深度值估算得出。σh和σb分别是和的方差,它们分别由和估算得到。由人群语义结构图二值化得到。是场景中的行人数量,Z是归一化系数使每一个行人在上的密度和为1。结构化人群密度图反映场景图像中所有行人的密度分布和身体形状信息。
之后,建立人群数量的预测模型。具体包括:
第五步,整个神经网络的损失函数为
L=Lc+λdLd+λbLb 公式(5)
使用随机梯度下降和反向传播算法在损失函数L下训练整个神经网络。
上述实施例中,本发明的人群数量预测方法首先将行人的身体表观结构和密度分布信息建模为两种语义场景模型。在此基础上,将原问题转化为多任务学习问题,并基于深度神经网络建立人群数量预测模型。最后,利用训练好的人群数量预测模型来预测新的场景图像中准确的行人数量。
通过以上技术方案,本发明实施例基于深度学习技术发展了一种应用于视频监控场景的人群数量预测算法。本发明可以同时有效建模行人的身体语义结构信息和密度分布信息,从而预测准确的人群数量。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (2)
1.一种基于人体表观结构的人群数量预测方法,其特征在于,包括以下步骤:
S2、对监控图像数据集中行人身体的表观语义结构进行建模,并对行人的密度分布和身体形状进行联合建模,具体包括:
S22、将行人图像Itrain分别输入单个行人语义分割***进行语义分割;
其中,p是上的像素位置,是二维高斯核用以近似人头的形状,是二维高斯核用以近似人身体的形状,和分别是第i个人头和人身体的中心位置,取自Ptrain,由和头部位置Ph的场景深度值估算得出,σh和σb分别是和的方差,分别由头部位置Ph的场景深度值和身体中心位置Pb的场景深度值估算得到,Bm由人群语义结构图B二值化得到,C是场景图像X中的行人数量,Z是归一化系数使每一个行人在D上的密度和为1,结构化人群密度图D反映场景图像X中所有行人的密度分布和身体形状信息;
S3、根据步骤S2中的建模结果建立人群数量的预测模型,具体包括:
S35、整个神经网络的损失函数为
L=Lc+λdLd+λbLb 公式(5)
使用随机梯度下降和反向传播算法在损失函数L下训练整个神经网络;
S4、使用所述预测模型预测场景图像中的人群数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611225785.8A CN106815563B (zh) | 2016-12-27 | 2016-12-27 | 一种基于人体表观结构的人群数量预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611225785.8A CN106815563B (zh) | 2016-12-27 | 2016-12-27 | 一种基于人体表观结构的人群数量预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106815563A CN106815563A (zh) | 2017-06-09 |
CN106815563B true CN106815563B (zh) | 2020-06-02 |
Family
ID=59110304
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611225785.8A Active CN106815563B (zh) | 2016-12-27 | 2016-12-27 | 一种基于人体表观结构的人群数量预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106815563B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109508583B (zh) * | 2017-09-15 | 2020-11-06 | 杭州海康威视数字技术股份有限公司 | 一种人群分布特征的获取方法和装置 |
CN107622244B (zh) * | 2017-09-25 | 2020-08-28 | 华中科技大学 | 一种基于深度图的室内场景精细化解析方法 |
CN110505440A (zh) * | 2018-05-18 | 2019-11-26 | 杭州海康威视数字技术股份有限公司 | 一种区域监控方法和装置 |
CN109961060B (zh) * | 2019-04-11 | 2021-04-30 | 北京百度网讯科技有限公司 | 用于生成人群密度信息的方法和装置 |
CN112026686B (zh) * | 2019-06-04 | 2022-04-12 | 上海汽车集团股份有限公司 | 一种自动调节车辆座椅位置的方法及装置 |
CN115083112B (zh) * | 2022-08-22 | 2022-11-22 | 枫树谷(成都)科技有限责任公司 | 一种智能预警应急管理***及其部署方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101976353A (zh) * | 2010-10-28 | 2011-02-16 | 北京智安邦科技有限公司 | 低密度人群的统计方法及装置 |
CN102063613A (zh) * | 2010-12-28 | 2011-05-18 | 北京智安邦科技有限公司 | 基于头部识别的人群计数方法及装置 |
CN103020606A (zh) * | 2012-12-27 | 2013-04-03 | 北京大学 | 一种基于时空上下文信息的行人检测方法 |
CN103093211A (zh) * | 2013-01-27 | 2013-05-08 | 西安电子科技大学 | 基于深度核信息图像特征的人体运动跟踪方法 |
CN103646257A (zh) * | 2013-12-30 | 2014-03-19 | 中国科学院自动化研究所 | 一种基于视频监控图像的行人检测和计数方法 |
CN105184260A (zh) * | 2015-09-10 | 2015-12-23 | 北京大学 | 一种图像特征提取方法及行人检测方法及装置 |
CN106066993A (zh) * | 2016-05-23 | 2016-11-02 | 上海交通大学 | 一种人群语义分割方法及*** |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150285639A1 (en) * | 2014-04-04 | 2015-10-08 | Umm-Al-Qura University | Method and system for crowd sensing to be used for automatic semantic identification |
-
2016
- 2016-12-27 CN CN201611225785.8A patent/CN106815563B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101976353A (zh) * | 2010-10-28 | 2011-02-16 | 北京智安邦科技有限公司 | 低密度人群的统计方法及装置 |
CN102063613A (zh) * | 2010-12-28 | 2011-05-18 | 北京智安邦科技有限公司 | 基于头部识别的人群计数方法及装置 |
CN103020606A (zh) * | 2012-12-27 | 2013-04-03 | 北京大学 | 一种基于时空上下文信息的行人检测方法 |
CN103093211A (zh) * | 2013-01-27 | 2013-05-08 | 西安电子科技大学 | 基于深度核信息图像特征的人体运动跟踪方法 |
CN103646257A (zh) * | 2013-12-30 | 2014-03-19 | 中国科学院自动化研究所 | 一种基于视频监控图像的行人检测和计数方法 |
CN105184260A (zh) * | 2015-09-10 | 2015-12-23 | 北京大学 | 一种图像特征提取方法及行人检测方法及装置 |
CN106066993A (zh) * | 2016-05-23 | 2016-11-02 | 上海交通大学 | 一种人群语义分割方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN106815563A (zh) | 2017-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106815563B (zh) | 一种基于人体表观结构的人群数量预测方法 | |
CN110472531B (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN107967451B (zh) | 一种对静止图像进行人群计数的方法 | |
CN111611878B (zh) | 一种基于视频图像的人群计数和未来人流量预测的方法 | |
CN108830145B (zh) | 一种基于深度神经网络的人数统计方法及存储介质 | |
CN108921051B (zh) | 基于循环神经网络注意力模型的行人属性识别网络及技术 | |
Ke et al. | Multi-dimensional traffic congestion detection based on fusion of visual features and convolutional neural network | |
US10735694B2 (en) | System and method for activity monitoring using video data | |
CN110276264B (zh) | 一种基于前景分割图的人群密度估计方法 | |
CN110147743A (zh) | 一种复杂场景下的实时在线行人分析与计数***及方法 | |
CN111191667B (zh) | 基于多尺度生成对抗网络的人群计数方法 | |
CN110427839A (zh) | 基于多层特征融合的视频目标检测方法 | |
CN110826447A (zh) | 一种基于注意力机制的餐厅后厨人员行为识别方法 | |
CN102142085B (zh) | 一种林区监控视频中运动火焰目标的鲁棒跟踪方法 | |
CN116258608B (zh) | 融合gis和bim三维技术的水利实时监测信息管理*** | |
CN110942015A (zh) | 人群密度估计方法 | |
KR100988326B1 (ko) | 사용자 맞춤형 표정 인식 방법 및 장치 | |
CN113435432B (zh) | 视频异常检测模型训练方法、视频异常检测方法和装置 | |
CN110163060B (zh) | 图像中人群密度的确定方法及电子设备 | |
CN111079507A (zh) | 一种行为识别方法及装置、计算机装置及可读存储介质 | |
CN109614896A (zh) | 一种基于递归卷积神经网络的视频内容语义理解的方法 | |
CN110827320A (zh) | 基于时序预测的目标跟踪方法和装置 | |
Feng | Mask RCNN-based single shot multibox detector for gesture recognition in physical education | |
CN114494999B (zh) | 一种双分支联合型目标密集预测方法及*** | |
CN116402874A (zh) | 基于时序光学图像与激光雷达数据的航天器深度补全方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |