CN106815563B

CN106815563B - 一种基于人体表观结构的人群数量预测方法

Info

Publication number: CN106815563B
Application number: CN201611225785.8A
Authority: CN
Inventors: 黄思羽; 张仲非; 李玺
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2016-12-27
Filing date: 2016-12-27
Publication date: 2020-06-02
Anticipated expiration: 2036-12-27
Also published as: CN106815563A

Abstract

本发明公开了一种基于人体表观结构的人群数量预测方法，用于预测给定场景图像里的人群数量。具体包括如下步骤：获取用于训练人群数量预测模型的监控图像数据集，并定义算法目标；对监控图像数据集中行人身体的表观语义结构进行建模，并对行人的密度分布和身体形状进行联合建模；根据步骤S2中的建模结果建立人群数量的预测模型；使用所述预测模型预测场景图像中的人群数量。本发明适用于真实视频监控场景中的人群数量预测，面对各类复杂情况具有较佳的效果和鲁棒性。

Description

一种基于人体表观结构的人群数量预测方法

技术领域

本发明属于计算机视觉领域，特别地涉及一种基于人体表观结构的人群数量预测方法。

背景技术

20世纪末以来，随着计算机视觉的发展，智能视频监控技术得到广泛的关注和研究。人群计数是其中一项重要和具有挑战性的任务，其目标是准确预测高密度人群图像中的行人数量。人群计数任务的的三个关键因素是行人、头部以及它们的上下文结构。当我们人类在统计人群的数量时，我们会利用行人身体不同部分的语义结构作为线索来准确判断每个人的位置。因此，准确地预测人群数量需要对行人身体的语义结构进行分析。

现有的人群计数方法通常包含如下三类：1、基于行人检测器的人群计数。这类方法利用各种行人检测器来匹配图像中的每个行人；2、基于全局回归的人群计数。这类方法主要建模人群图像与人群数量之间的映射；3、基于密度估计的人群计数。这类方法建模人群的密度分布，再通过密度分布预测人群数量。现有的方法将行人的整个身体作为一个整体建模，或者仅建模行人的头部。它们忽略了丰富的行人身体部分的语义结构信息，利用这些结构信息可以提高人群计数算法的性能。

发明内容

为解决上述问题，本发明的目的在于提供一种基于人体表观结构的人群数量预测方法，用于预测给定场景图像里的人群数量。本方法基于深度神经网络对行人的身体表观结构和密度分布信息进行语义建模，并根据建模结果预测准确的人群数量，能够更好地适应真实视频监控场景中的复杂情况。

为实现上述目的，本发明的技术方案为：

一种基于人体表观结构的人群数量预测方法，包括以下步骤：

S1、获取用于训练人群数量预测模型的监控图像数据集，并定义算法目标；

S2、对监控图像数据集中行人身体的表观语义结构进行建模，并对行人的密度分布和身体形状进行联合建模；

S3、根据步骤S2中的建模结果建立人群数量的预测模型；

S4、使用所述预测模型预测场景图像中的人群数量。

进一步的，步骤S1中，所述的用于训练人群数量预测模型的监控图像数据集，包括场景图像

人工标注的行人头部位置P_train和场景深度图

定义算法目标为：预测一幅场景图像

中的行人数量

进一步的，步骤S2中，对行人身体的表观语义结构进行建模具体包括：

S21、根据监控图像数据集中所有行人头部位置P_train及其各自的场景深度值

确定每个行人图像边界框的位置和大小，以此从场景图像集

中裁剪得行人图像I_train；

S22、将行人图像I_train分别输入单个行人语义分割***进行语义分割；

S23、对每幅场景图像

将其中所有行人的分割结果按原尺寸和位置还原，得到场景图像

的人群语义结构图

反映场景图像

中所有行人的身体部分的语义结构信息。

进一步的，步骤S2中，对行人的密度分布和身体形状的联合建模具体包括：

S24、对场景图像

中的行人的密度分布和身体形状进行联合建模，得到结构化人群密度图

其中，p是

上的像素位置，

是二维高斯核用以近似人头的形状，

是二维高斯核用以近似人身体的形状，

和

分别是第i个人头和人身体的中心位置，

取自P_train，

由

和场景深度值

估算得出，σ_h和σ_b分别是

和

的方差，它们分别由

和

估算得到，

由人群语义结构图

二值化得到，

是场景中的行人数量，Z是归一化系数使每一个行人在

上的密度和为1，结构化人群密度图

反映场景图像

中所有行人的密度分布和身体形状信息。

进一步的，步骤S3中，建立人群数量的预测模型具体包括：

S31、建立深度卷积神经网络，神经网络的输入为一幅场景图像

输出为对应

的人群语义结构图

结构化人群密度图

以及

中的行人数量

从而，神经网络的结构可以表示为映射

S32、子映射

使用软最大(Softmax)损失函数，表示为

其中

是神经网络的输出之一，

表示

中像素位置(h，w)和通道i的值，

由步骤S23所述方法生成，

表示

中像素位置(h，w)的值；

S33、子映射

使用欧几里得损失函数，表示为

其中

是神经网络的输出之一，

由步骤S24所述方法生成；

S34、子映射

使用欧几里得损失函数，表示为

其中

是神经网络的输出之一，

是人工标注的人群数量；

S35、整个神经网络的损失函数为

L＝L_c+λ_dL_d+λ_bL_b 公式(5)

使用随机梯度下降和反向传播算法在损失函数L下训练整个神经网络。

进一步的，步骤S4中，预测场景图像中的人群数量包括：将待预测的场景图像

输入训练好的神经网络，其输出的人群数量

即为人群数量预测的结果。

本发明的基于人体表观结构的人群数量预测方法，相比于现有的人群数量预测方法，具有以下有益效果：

首先，本发明的人群数量预测方法发掘了人群计数问题的语义属性，定义并建模了本问题的三个关键因素：身体，头部和它们的上下文结构。该种假设更加适应实际场景中的复杂情况。

其次，本发明的人群数量预测方法基于深度卷积神经网络建立人群数量预测模型。深度卷积神经网络能够更好地表达视觉特征，另外，视觉特征提取、行人语义建模和人群数量回归被统一在同一个框架里，提高了方法的最终效果。

本发明的基于人体表观结构的人群数量预测方法，在智能视频监控分析***里具有良好的应用价值，能够有效提高人群数量预测的效率和准确度。例如，在公共安全的应用场景里，本发明的人群数量预测方法可以快速和准确地预测监控摄像头拍摄区域的行人数量，为公共场所的日常运行和应急处理提供决策依据。

附图说明

图1为本发明的基于人体表观结构的人群数量预测方法的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

参考图1，在本发明的较佳实施例中，基于人体表观结构的人群数量预测方法，包括以下步骤：

首先，获取用于训练人群数量预测模型的监控图像数据集。其中，用于训练人群数量预测模型的监控图像数据集，包括场景图像

人工标注的行人头部位置P_train和场景深度图

定义算法目标为：预测一幅场景图像

中的行人数量

其次，对获得的监控图像数据集中行人的密度分布和身体形状进行联合建模。具体的，其包括如下步骤：

第一步，根据监控图像数据集中所有行人头部位置P_train及其各自的场景深度值

确定每个行人图像边界框的位置和大小，以此从场景图像集

中裁剪得行人图像I_train；

第二步，将行人图像I_train分别输入单个行人语义分割***进行语义分割；

第三步，对每幅场景图像

的人群语义结构图

反映场景图像

中所有行人的身体部分的语义结构信息。

接下来，对行人的密度分布和身体形状进行联合建模。对场景图像

其中，p是

上的像素位置，

是二维高斯核用以近似人头的形状，

是二维高斯核用以近似人身体的形状。

和

分别是第i个人头和人身体的中心位置，

取自P_train，

由

和场景深度值

估算得出。σ_h和σ_b分别是

和

的方差，它们分别由

和

估算得到。

由人群语义结构图

二值化得到。

是场景中的行人数量，Z是归一化系数使每一个行人在

上的密度和为1。结构化人群密度图

反映场景图像

中所有行人的密度分布和身体形状信息。

之后，建立人群数量的预测模型。具体包括：

第一步，建立深度卷积神经网络，神经网络的输入为一幅场景图像

输出为对应

的人群语义结构图

结构化人群密度图

以及

中的行人数量

从而，神经网络的结构可以表示为映射

第二步，子映射

使用软最大(Softmax)损失函数，表示为

其中

是神经网络的输出之一，

表示

中像素位置(h，w)和通道i的值，

表示

中像素位置(h，w)的值；

第三步，子映射

使用欧几里得损失函数，表示为

其中

是神经网络的输出之一，

由公式(1)所述方法生成。

第四步，子映射

使用欧几里得损失函数，表示为

其中

是神经网络的输出之一，

是人工标注的人群数量。

第五步，整个神经网络的损失函数为

L＝L_c+λ_dL_d+λ_bL_b 公式(5)

最后，使用建立的模型对待预测场景图像中的人群数量进行预测。具体包括：将预测的场景图像

输入训练好的神经网络，其输出的人群数量

即为人群数量预测的结果。

上述实施例中，本发明的人群数量预测方法首先将行人的身体表观结构和密度分布信息建模为两种语义场景模型。在此基础上，将原问题转化为多任务学习问题，并基于深度神经网络建立人群数量预测模型。最后，利用训练好的人群数量预测模型来预测新的场景图像中准确的行人数量。

通过以上技术方案，本发明实施例基于深度学习技术发展了一种应用于视频监控场景的人群数量预测算法。本发明可以同时有效建模行人的身体语义结构信息和密度分布信息，从而预测准确的人群数量。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于人体表观结构的人群数量预测方法，其特征在于，包括以下步骤：

S1、获取用于训练人群数量预测模型的监控图像数据集，包括场景图像

人工标注的行人头部位置P_train和场景深度图

并定义算法目标为：预测一幅场景图像X_test中的行人数量C_test；

S2、对监控图像数据集中行人身体的表观语义结构进行建模，并对行人的密度分布和身体形状进行联合建模，具体包括：

确定每个行人图像边界框的位置和大小，以此从场景图像

中裁剪得行人图像I_train；

S23、对每幅场景图像

的人群语义结构图

反映场景图像

中所有行人的身体部分的语义结构信息；

S24、对场景图像

其中，p是

上的像素位置，

是二维高斯核用以近似人头的形状，

是二维高斯核用以近似人身体的形状，

和

分别是第i个人头和人身体的中心位置，

取自P_train，

由

和头部位置P_h的场景深度值

估算得出，σ_h和σ_b分别是

和

的方差，分别由头部位置P_h的场景深度值

和身体中心位置P_b的场景深度值

估算得到，B_m由人群语义结构图B二值化得到，C是场景图像X中的行人数量，Z是归一化系数使每一个行人在D上的密度和为1，结构化人群密度图D反映场景图像X中所有行人的密度分布和身体形状信息；

S3、根据步骤S2中的建模结果建立人群数量的预测模型，具体包括：

输出为对应

的人群语义结构图的预测

结构化人群密度图的预测

以及X中的行人数量的预测

从而，神经网络的结构可以表示为映射

S32、子映射

使用软最大(Softmax)损失函数，表示为

其中

是神经网络的输出之一，

表示

中像素位置(h，w)和通道i的值，B由步骤S23所述方法生成，B(h，w)表示B中像素位置(h，w)的值；

S33、子映射

使用欧几里得损失函数，表示为

其中

是神经网络的输出之一，D由步骤S24所述方法生成；

S34、子映射

使用欧几里得损失函数，表示为

S35、整个神经网络的损失函数为

L＝L_c+λ_dL_d+λ_bL_b 公式(5)

使用随机梯度下降和反向传播算法在损失函数L下训练整个神经网络；

S4、使用所述预测模型预测场景图像中的人群数量。

2.如权利要求1所述的基于人体表观结构的人群数量预测方法，其特征在于，步骤S4中，预测场景图像中的人群数量包括：将待预测的场景图像

输入训练好的神经网络，其输出的场景图像

中的行人数量C即为预测结果。