CN106407946A

CN106407946A - 跨线计数方法和深度神经网络训练方法、装置和电子设备

Info

Publication number: CN106407946A
Application number: CN201610867834.1A
Authority: CN
Inventors: 王晓刚; 赵倬毅; 李鸿升; 赵瑞
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2016-09-29
Filing date: 2016-09-29
Publication date: 2017-02-15
Anticipated expiration: 2036-09-29
Also published as: CN106407946B; WO2018059408A1

Abstract

本发明实施例公开了一种跨线计数方法和深度神经网络训练方法、装置和电子设备，其中，跨线计数方法包括：向深度神经网络输入需要进行跨线计数的视频中与待分析时间段T对应的多个原始帧图像，由深度神经网络输出多个原始帧图像的人群计数图，人群计数图中包括每个位置的计数向量分别以多个原始帧图像中的各帧图像作为当前帧图像，针对视频中要进行跨线计数的感兴趣线LOI，根据当前帧图像的人群计数图，获取当前帧图像分别从至少一个方向通过LOI的人数；分别累积至少一个方向上多个原始帧图像通过LOI的人数，获得待分析时间段T内，LOI分别在至少一个方向上的单向跨线人数。本发明实施例可以应用于各种不同的场景，得跨线计数结果更加客观、准确。

Description

跨线计数方法和深度神经网络训练方法、装置和电子设备

技术领域

本发明涉及计算机视觉技术，尤其是一种跨线计数方法和深度神经网络训练方法、装置和电子设备。

背景技术

视频中的人群自动计数技术在人群流量监控和公共安全等方面发挥着越来越重要的作用，尤其是跨线计数方法，可以帮助人们实时统计关键道路或进出口的人流量，进而给出一个区域内的人群总数的估计。

当前主流的跨线计数方法都是基于时序切片图像(Temporal Slice)的方法。所谓的时序切片的方法是指将视频每帧提取的线上的像素向量(彩色图像是三通道向量)在时间维进行累积，形成一个时序切片的二维图像，然后直接利用人工标记的跨线人数作为监督信号，基于这一时序切片图像学习一个回归模型，估计时序切片图像中的人群数量，从而得到一定时段内的跨线人数。

发明内容

本发明实施例提供一种跨线计数的技术方案。

根据本发明实施例的一个方面，提供的一种跨线计数方法，包括：

向深度神经网络输入需要进行跨线计数的视频中与待分析时间段T对应的多个原始帧图像，由所述深度神经网络输出所述多个原始帧图像的人群计数图；所述人群计数图中包括帧图像中各位置的计数向量，所述计数向量用于表示所述多个原始帧图像中各帧图像与相邻的前帧图像之间在二维坐标平面的计数方向通过的人数；

分别以所述多个原始帧图像中的各帧图像作为当前帧图像，针对视频中要进行跨线计数的感兴趣线LOI，根据当前帧图像的人群计数图，获取当前帧图像分别从至少一个计数方向通过所述LOI的人数；

分别累积所述至少一个方向上所述多个原始帧图像通过所述LOI的人数，获得所述待分析时间段T内，所述LOI分别在所述至少一个方向上的单向跨线人数。

基于上述跨线计数方法的另一实施例中，所述计数方向包括二维坐标平面的两个坐标方向。

基于上述跨线计数方法的另一实施例中，所述获取当前帧图像分别从至少一个方向通过所述LOI的人数包括：获取当前帧图像分别从两个方向通过所述LOI的人数；

所述分别累积所述至少一个方向上所述多个原始帧图像通过所述LOI的人数，获得所述待分析时间段T内，所述LOI分别在所述至少一个方向上的单向跨线人数包括:

分别累积所述两个方向上所述多个原始帧图像通过所述LOI的人数，获得所述待分析时间段T内，所述LOI分别在所述两个方向上的单向跨线人数。

基于上述跨线计数方法的另一实施例中，所述向深度神经网络输入需要进行跨线计数的视频中与待分析时间段T对应的多个原始帧图像之后，还包括：

所述深度神经网络依次从所述视频中与待分析时间段T对应的多个原始帧图像中，顺序抽取至少两帧图像，以所述至少两帧图像中的后帧图像作为当前帧图像，生成当前帧图像的人群计数图。

基于上述跨线计数方法的另一实施例中，所述生成当前帧图像的人群计数图包括：

向所述深度神经网络输入所述多个原始帧图像，由所述深度神经网络中的卷积神经网络，生成当前帧图像的人群密度图和人群速度图；所述人群密度图用于表示当前帧图像中各位置的人群密度，所述人群速度图用于表示当前帧图像中各行人从相邻的前帧图像移动到当前帧图像的速度；

向所述深度神经网络中的元素相乘网络输入所述当前帧图像的人群密度图和人群速度图，由所述元素相乘网络将当前帧图像的人群密度图和人群速度图在对应位置的元素相乘，获得所述当前帧图像的人群计数图。

基于上述跨线计数方法的另一实施例中，获取当前帧图像分别从两个方向通过所述LOI的人数包括：

分别将所述人群计数图中在所述LOI上各位置的计数向量在所述LOI的法线方向进行投影，获得所述LOI上各位置的标量值，所述标量值的正负表示所述LOI的两个跨线方向；

分别对所述LOI上的正标量值和负标量值进行累加，获得当前帧图像在所述LOI上的两个方向分别通过的人数。

基于上述跨线计数方法的另一实施例中，还包括：

对所述LOI在所述两个方向上的单向跨线人数进行累加，获得所述待分析时间段T内，通过所述LOI的跨线总人数。

根据本发明实施例的另一个方面，提供的一种深度神经网络训练方法，还包括：

将样本视频的多个原始帧图像输入至初始深度神经网络，以所述多个原始帧图像预先标注的人群计数图作为监督信号，对所述初始深度神经网络进行迭代训练直至训练结果满足预设条件，获得最终的所述深度神经网络；所述初始深度神经网络包括初始卷积神经网络和初始元素相乘网络。

基于上述深度神经网络训练方法的另一实施例中，所述多个原始帧图像分别被标注人群密度图和人群速度图、人群计数图；

所述将样本视频的多个原始帧图像输入至初始深度神经网络，以所述多个原始帧图像预先标注的人群计数图作为监督信号，对所述初始深度神经网络进行迭代训练直至训练结果满足预设条件包括：

分别以所述多个原始帧图像中的相邻两帧图像作为一个训练样本输入至所述初始卷积神经网络，以预先标注的人群密度图和人群速度图作为监督信号，对所述初始卷积神经网络进行迭代训练直至训练结果满足第一预设收敛条件，获得所述卷积神经网络；以及

分别以所述多个原始帧图像中的相邻两帧图像作为一个训练样本输入所述初始深度神经网络，以预先标注的人群计数图作为监督信号，对所述初始深度神经网络进行迭代训练直至设定指标满足第二预设收敛条件，获得最终的所述深度神经网络。

基于上述深度神经网络训练方法的另一实施例中，还包括：

分别针对所述多个原始帧图像中的各帧图像进行行人定位，获得各帧图像中的行人位置并对各行人分别分配行人标识ID，其中，行人ID用于在所述视频中唯一标识一个行人；

根据各帧图像中的行人位置，分别在所述各帧图像标定各行人的行人信息，所述行人信息包括行人位置与行人ID。

基于上述深度神经网络训练方法的另一实施例中，还包括：

预先针对所述样本视频的场景设置所述样本视频的几何透视图；所述几何透视图包括所述样本视频中不同位置的像素数与所述场景的真实物理尺寸之间的对应关系；

分别以所述多个原始帧图像中的相邻两帧图像作为一个训练样本输入至所述初始卷积神经网络之后，还包括：

所述初始卷积神经网络以当前训练样本中的后帧图像作为当前帧图像，根据所述各帧图像标定的行人信息与所述几何透视图，生成当前帧图像的人群密度图，以及根据当前训练样本的两帧图像中的行人信息与所述几何透视图，生成当前帧图像的人群速度图。

基于上述深度神经网络训练方法的另一实施例中，所述生成当前帧图像的人群密度图包括：

根据当前帧图像中的行人信息与所述几何透视图，分别获取当前帧图像中各位置的人群密度值；

根据当前帧图像中各位置的人群密度值生成当前帧图像的人群密度图。

基于上述深度神经网络训练方法的另一实施例中，所述生成当前帧图像的人群速度图包括：

根据当前训练样本中当前帧图像中各行人在前帧图像和当前帧图像中的位置差、以及前帧图像和当前帧图像的对应的时刻差获取当前帧图像中各行人的移动速度；

根据当前帧图像中各行人的移动速度和行人位置，获取当前帧图像中各位置的人群速度；

根据当前帧图像中各位置的人群速度与所述几何透视图生成当前帧图像的人群速度图。

基于上述深度神经网络训练方法的另一实施例中，所述训练结果满足第一预设收敛条件包括：

针对所述多个原始帧图像，所述初始卷积神经网络输出的人群密度图和人群速度图与预先标注的人群密度图和人群速度图一致的图像的帧数与上述多个原始帧图像的帧数的比例达到第一预设阈值；和/或

针对所述多个原始帧图像中的各帧图像，所述初始卷积神经网络输出的人群密度图与预先标注的人群密度图之间的相似度、所述初始卷积神经网络输出的人群速度图与预先标注的人群速度图之间的相似度大于第二预设阈值；和/或

针对所述多个原始帧图像，所述初始卷积神经网络输出的人群密度图与预先标注的人群密度图之间的平均相似度、所述初始卷积神经网络输出的人群速度图与预先标注的人群速度图之间的平均相似度大于第三预设阈值；和/或

所述初始卷积神经网络进行迭代训练的次数达到第四预设阈值。

基于上述深度神经网络训练方法的另一实施例中，所述训练结果满足第二预设收敛条件包括：

针对所述多个原始帧图像，所述初始元素相乘网络输出的人群计数图与预先标注的人群计数图一致的图像的帧数与上述多个原始帧图像的帧数的比例达到第五预设阈值；和/或

针对所述多个原始帧图像中的各帧图像，所述初始元素相乘网络输出的人群计数图与预先标注的人群计数图之间的相似度大于第六预设阈值；和/或

针对所述多个原始帧图像，所述初始元素相乘网络输出的人群计数图与预先标注得到的人群计数图之间的平均相似度大于第七预设阈值；和/或

所述深度神经网络第二部分进行迭代训练的次数达到第八预设阈值。

根据本发明实施例的又一个方面，提供的一种基于上述深度神经网络训练方法训练得到的神经网络进行视频中人群跨线计数的方法。

根据本发明实施例的又一个方面，提供的一种跨线计数装置，包括：

第一获取单元，作为深度神经网络，用于接收需要进行跨线计数的视频中与待分析时间段T对应的多个原始帧图像，输出所述原始帧图像的人群计数图；所述人群计数图中包括帧图像中各位置的计数向量，所述计数向量用于表示所述多个原始帧图像中各帧图像与相邻的前帧图像之间在计数方向分别通过的人数；

第二获取单元，用于分别以所述多个原始帧图像中的各帧图像作为当前帧图像，针对视频中要进行跨线计数的感兴趣线LOI，根据当前帧图像的人群计数图，获取当前帧图像分别从两个方向通过所述LOI的人数；

第三获取单元，用于分别累积所述两个方向上所述多个原始帧图像通过所述LOI的人数，获得所述待分析时间段T内，所述LOI分别在所述两个方向上的单向跨线人数；第三获取单元，用于分别累积所述至少一个方向上所述多个原始帧图像通过所述LOI的人数，获得所述待分析时间段T内，所述LOI分别在所述至少一个方向上的单向跨线人数。

基于上述跨线计数装置的另一实施例中，所述计数方向包括二维坐标平面的两个坐标方向。

基于上述跨线计数装置的另一实施例中，所述第二获取单元，具体用于获取当前帧图像分别从两个方向通过所述LOI的人数；

所述第三获取单元，具体用于分别累积所述两个方向上所述多个原始帧图像通过所述LOI的人数，获得所述待分析时间段T内，所述LOI分别在所述两个方向上的单向跨线人数。

基于上述跨线计数装置的另一实施例中，所述第一获取单元，具体用于依次从所述视频中与待分析时间段T对应的多个原始帧图像中，顺序抽取至少两帧图像，以所述至少两帧图像中的后帧图像作为当前帧图像，生成当前帧图像的人群计数图。

基于上述跨线计数装置的另一实施例中，所述第一获取单元包括：

卷积神经网络，用于接收输入的至少两帧图像，以所述至少两帧图像中的后帧图像作为当前帧图像，生成当前帧图像的人群密度图和人群速度图；所述人群密度图用于表示当前帧图像中各位置的人群密度，所述人群速度图用于表示当前帧图像中各行人从相邻的前帧图像移动到当前帧图像的速度；

元素相乘网络，用于将当前帧图像的人群密度图和人群速度图在对应位置的元素相乘，获得所述当前帧图像的人群计数图。

基于上述跨线计数装置的另一实施例中，第二获取单元，具体用于：

分别将所述人群计数图中在所述LOI上各位置的计数向量在所述LOI的法线方向进行投影，获得所述LOI上各位置的标量值，所述标量值的正负表示所述LOI的两个跨线方向；以及

基于上述跨线计数装置的另一实施例中，还包括：

计算单元，用于对所述LOI在所述两个方向上的单向跨线人数进行累加，获得所述待分析时间段T内，通过所述LOI的跨线总人数。

根据本发明实施例的又一个方面，提供一种深度神经网络训练装置，还包括：

网络训练单元，用于将样本视频的多个原始帧图像输入至初始深度神经网络，以所述多个原始帧图像预先标注的人群计数图作为监督信号，对所述初始深度神经网络进行迭代训练直至训练结果满足预设条件，获得最终的所述深度神经网络；所述初始深度神经网络包括初始卷积神经网络CNN和初始元素相乘网络。

基于上述深度神经网络训练装置的另一实施例中，所述多个原始帧图像分别被标注人群密度图和人群速度图、人群计数图；

所述网络训练单元具体用于：

分别所述多个原始帧图像中的相邻两帧图像作为一个训练样本输入至所述初始卷积神经网络，以预先标注的人群密度图和人群速度图作为监督信号，对所述初始卷积神经网络进行迭代训练直至训练结果满足第一预设收敛条件，获得所述卷积神经网络；以及

基于上述深度神经网络训练装置的另一实施例中，所述样本视频的场景被预先标注几何透视图，所述几何透视图包括所述样本视频中不同位置的像素数与所述场景的真实物理尺寸之间的对应关系；所述多个原始帧图像中被预先标定各行人的行人信息，所述行人信息包括行人位置与行人ID，行人ID唯一标识一个行人；

所述初始卷积神经网络，用于以当前训练样本中的后帧图像作为当前帧图像，根据各帧图像标定的行人信息与所述几何透视图，生成当前帧图像的人群密度图，以及根据当前训练样本的两帧图像中的行人与所述几何透视图，生成当前帧图像的人群速度图。

基于上述深度神经网络训练装置的另一实施例中，所述初始卷积神经网络生成当前帧图像的人群密度图时，具体用于根据当前帧图像中的行人信息与所述几何透视图，分别获取当前帧图像中各位置的人群密度值；以及根据当前帧图像中各位置的人群密度值生成当前帧图像的人群密度图。

基于上述深度神经网络训练装置的另一实施例中，所述初始卷积神经网络生成当前帧图像的人群速度图时，具体用于：

根据本发明实施例的又一个方面，提供一种数据处理装置，包括上述实施例所述的跨线计数装置或者深度神经网络训练装置。

基于上述数据处理装置的另一实施例中，所述数据处理装置包括进阶精简指令集机器ARM、中央处理单元CPU或图形处理单元GPU。

根据本发明实施例的再一个方面，提供一种电子设备，包括上述实施例所述的数据处理装置。

根据本发明实施例的再一个方面，提供的一种计算机存储介质，用于存储计算机可读取的指令，所述指令包括：

向深度神经网络输入需要进行跨线计数的视频中与待分析时间段T对应的多个原始帧图像，由所述深度神经网络输出所述多个原始帧图像的人群计数图的指令；所述人群计数图中包括每个位置的计数向量，所述计数向量用于表示所述多个原始帧图像中各帧图像与相邻的前帧图像之间在计数方向通过的人数；

分别以所述多个原始帧图像中的各帧图像作为当前帧图像，针对视频中要进行跨线计数的感兴趣线LOI，根据当前帧图像的人群计数图，获取当前帧图像从至少一个方向通过所述LOI的人数的指令；

分别累积所述至少一个方向上所述多个原始帧图像通过所述LOI的人数，获得所述待分析时间段T内，所述LOI分别在所述至少一个方向上的单向跨线人数的指令。

根据本发明实施例的再一个方面，提供的另一种计算机存储介质，用于存储计算机可读取的指令，所述指令包括：

将样本视频的多个原始帧图像输入至初始深度神经网络，以所述多个原始帧图像预先标注的人群计数图作为监督信号，对所述初始深度神经网络进行迭代训练直至训练结果满足预设条件，获得最终的所述深度神经网络的指令；所述初始深度神经网络包括初始卷积神经网络和初始元素相乘网络。

根据本发明实施例的再一个方面，提供一种计算机设备，包括：

存储器，存储可执行指令；

一个或多个处理器，与存储器通信以执行可执行指令从而完成本发明上述任一实施例的跨线计数方法或深度神经网络训练方法对应的操作。

基于本发明上述实施例提供的跨线计数方法和深度神经网络训练方法、装置和电子设备，提出了一种深度神经网络的训练方法，以及基于训练好的深度神经网络的进行人群跨线计数的技术方案，将样本视频输入至初始深度神经网络，以该样本视频中的多个原始帧图像预先标注的人群计数图作为监督信号，对初始深度神经网络进行迭代训练直至训练结果满足预设条件，获得深度神经网络；通过向该深度神经网络输入需要进行跨线计数的视频中与待分析时间段T对应的多个原始帧图像，可输出原始帧图像中各帧图像的人群计数图，即：每个位置上，当前帧图像与相邻的前帧图像之间在计数方向(例如，二维坐标平面x轴和y轴的至少一个坐标方向)分别通过的人数；分别针对各帧图像，根据人群计数图获取从至少一个方向通过LOI的人数，并分别累积至少一个方向上多个原始帧图像通过LOI的人数，获得待分析时间段T内LOI在至少一个方向上的单向跨线人数。由于本发明实施例直接以原始视频中的原始帧图像作为输入而未使用时序切片图像，鲁棒性更好，可以应用于各种不同的场景，避免了视频中人群密度较大、人群移动速度低或静止不动、或者监控摄像头视角比较低等情形时，时序切片图像中的行人的可辨识度低、无法估计时序切片图像中的人群数量的问题，对于人群密度较大、人群移动速度低或静止不动的情形同样适用，并且可以跨场景应用；并且，本发明实施例基于人群计数图进行跨线计数而非只使用人群总数，还考虑了人群的分布情况，使得跨线计数结果更加客观、准确。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同描述一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1为本发明跨线计数方法一个实施例的流程图。

图2为本发明跨线计数方法另一个实施例的流程图。

图3为本发明深度神经网络训练方法一个实施例的流程图。

图4为本发明实施例中通过两个阶段对初始深度神经网络进行训练的一个示意图。

图5为本发明跨线计数装置一个实施例的结构示意图。

图6为本发明跨线计数装置另一个实施例的结构示意图。

图7为本发明深度神经网络训练装置一个实施例的结构示意图。

图8为本发明电子设备一个实施例的结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明实施例可以应用于终端设备、计算机***、服务器等电子设备，其可与众多其它通用或专用计算***环境或配置一起操作。适于与计算机***、服务器、终端设备一起使用的众所周知的计算***、环境和/或配置的例子包括但不限于：个人计算机***、服务器计算机***、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的***、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机***﹑大型计算机***和包括上述任何***的分布式云计算技术环境，等等。

计算机***、服务器、终端设备可以在由计算机***执行的计算机***可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机***/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算***存储介质上。

在基于时序切片图像的一种跨线计数方法中，在时序切片图像上提取局部(Local)梯度方向直方图(HOG)的特征，然后训练了一个高斯过程回归模型来预测时序切片图像上的人数，并利用动态纹理的方法来对两个方向的跨线人群进行区分。该方法也称为基于IP的方法。

在基于时序切片图像的另一种跨线计数方法中，分别将时序切片彩色图像以及对应的时序切片光流图像输入深度神经网络(CNN)，得到时序切片上的总人数以及两个方向人数所占比例，从而得到两个方向的跨线人数。该方法也称为传输流卷积神经网络(TS-CNN)。

在实现本发明的过程中，发明人通过研究发现，上述基于时序切片图像的跨线计数方法至少存在以下问题：

时序切片图像并非自然的图像，当视频中人群密度较大，人群移动速度比较慢、特别是有人群静止不动的情况时，或者监控摄像头视角比较低时，时序切片图像中的行人的图像会被拉成长条状，使得行人的可辨识度会非常低，无法估计时序切片图像中的人群数量，从而制约了该方法的有效性；并且，该方式只利用跨线总人数作为监督信号，监督信息不够丰富，不利于复杂CNN模型的学习。

本发明实施例中，从原始的视频得到每帧图像的人群计数图(Counting Map)；然后对每帧图像的人群计数图在要进行跨线计数的感兴趣线(LOI)上累积，得到该LOI上瞬时的两个方向的跨线计数值(即：通过LOI的人数)；接着分别对两个方向，累积待分析时间段T内的瞬时跨线计数值，得到该待分析时间段T内的人群跨线计数值(即：通过LOI的人数)。

图1为本发明跨线计数方法一个实施例的流程图。如图1所示，该实施例的跨线计数方法包括：

102，向深度神经网络输入需要进行跨线计数的视频中与待分析时间段T对应的多个原始帧图像，由该深度神经网络输出需要上述多个原始帧图像的人群计数图。

本发明实施例中引入了人群计数图，人群计数图中包括帧图像中各位置的计数向量，即：人群计数图的每个位置都会记录一个二维的计数向量，这个二维的计数向量表示表示当前帧图像与相邻的前帧图像之间在计数方向上通过的人数，例如在二维坐标平面的两个坐标方向(即：x轴和y轴方向)分别通过的人数，这是一个数学意义上的近似图，每个位置上计数向量的值通常会小于1，它表示在当前帧图像与相邻的前一帧图像之间有一个人的多少比例通过了该位置。

作为一个具体示例，该操作102中向深度神经网络输入需要进行跨线计数的视频中与待分析时间段T对应的多个原始帧图像之后，还可以依次从上述视频中与待分析时间段T对应的多个原始帧图像中，顺序抽取至少两帧图像，以该至少两帧图像中的后帧图像作为当前帧图像，生成当前帧图像的人群计数图。其中，顺序抽取的至少两帧图像可以是连续的原始帧图像、或者是不连续的原始帧图像，至少两帧图像中也可以部分为连续的原始帧图像，部分为不连续的原始帧图像。即：本发明实施例中，可以基于需要进行跨线计数的视频中与待分析时间段T对应的全部原始帧图像进行人群跨线计数，也可以从中抽取部分原始帧图像进行人群跨线计数，而不需要待分析时间段T对应的全部原始帧图像均参与人群跨线计数。

104，分别以上述多个原始帧图像中的各帧图像作为当前帧图像，针对视频中要进行跨线计数的感兴趣线(LOI)，根据当前帧图像的人群计数图，获取当前帧图像分别从至少一个方向通过LOI的人数。

其中的LOI可以根据需要进行人群计数的应用需求设置，可以是视频场景中的任意需要进行人群计数的位置连线，例如，地铁出入口两侧形成的连线、商场门口两侧形成的连线等。

106，分别累积至少一个方向上上述多个原始帧图像中的各帧图像通过LOI的人数，获得待分析时间段T内，LOI分别在至少一个方向上的单向跨线人数。

基于本发明上述实施例，提出了一种基于CNN的新的进行人群跨线计数的技术方案，通过深度神经网络分别获取视频中与待分析时间段T对应的各帧图像的人群计数图，分别针对各帧图像获取从至少一个方向通过LOI的人数，分别累积至少一个方向上各帧图像通过LOI的人数，获得待分析时间段T内LOI分别在至少一个方向上的单向跨线人数。由于本发明实施例直接以原始视频中的各帧图像作为输入而未使用时序切片图像，鲁棒性更好，可以应用于各种不同的场景，对于人群密度较大、人群移动速度低或静止不动的极端情况同样适用，并且可以跨场景应用；并且，本发明实施例基于人群计数图进行跨线计数而非只使用人群总数，还考虑了人群的分布情况，使得跨线计数结果更加客观、准确。

在本发明各跨线计数方法实施例的一个具体示例中，操作104中，可以获取当前帧图像从一个方向通过LOI的人数；相应地，操作106中，累积该方向上上述多个原始帧图像中的各帧图像通过LOI的人数，便可获得待分析时间段T内，LOI在该方向上的单向跨线人数。另外，操作104中，可以获取当前帧图像分别从两个方向通过LOI的人数；相应地，操作106中，分别累积这两个方向上上述多个原始帧图像中的各帧图像通过LOI的人数，便可获得待分析时间段T内，LOI分别在这两个方向上的单向跨线人数，从而可以全面了解LOI的双向跨线人数。

在本发明各跨线计数方法实施例的另一个具体示例中，具体可以通过如下方式，生成当前帧图像的人群计数图：

向所述深度神经网络输入所述多个原始帧图像，由深度神经网络中的卷积神经网络，生成当前帧图像的人群密度图和人群速度图。其中的人群密度图用于表示当前帧图像中各位置的人群密度，人群速度图用于表示当前帧图像中各行人从相邻的前帧图像移动到当前帧图像的速度；

向深度神经网络中的元素相乘网络(elementwise product network)输入当前帧图像的人群密度图和人群速度图，由元素相乘网络将当前帧图像的人群密度图和人群速度图在对应位置的元素相乘，获得当前帧图像的人群计数图。

本发明上述实施例中，先基于视频中的至少两帧图像，获得帧图像的人群密度图和人群速度图，假设行人在两帧的密度分布和行走速度保持不变，将当前帧图像的人群密度图和人群速度图在对应位置的元素相乘来获得帧图像的人群计数图，实现了人群计数图的准确获取。

在本发明各跨线计数方法实施例的一个具体示例中，基于本发明实施得到帧图像的人群计数图后，针对任意一条要进行跨线计数的LOI，具体可以通过如下方式，获取当前帧图像分别从两个方向通过所述LOI的人数：

分别将人群计数图中在LOI上各位置的计数向量在LOI的法线方向进行投影，获得LOI上各位置的标量值，该标量值的正负表示LOI的两个跨线方向，例如进入地铁出入口这一LOI和走出地铁出入口这一LOI的两个跨线方向；

分别对LOI上的正标量值和负标量值进行累加，获得当前帧图像在LOI上的两个方向分别通过的人数。

例如，可以通过如下公式如下分别对LOI上的正标量值和负标量值进行累加：

其中，c_1，t和c_2，t分别代表当前帧图像中LOI两个方向上t时刻的瞬时跨线计数值，θ_p表示当前位置p处的计数向量(C_t，x(p)，C_t，y(p))与LOI法线方向的夹角，t为待分析时间段T内的任一时刻。

在得到帧图像中LOI上两个方向的瞬时跨线计数值c_1，t和c_2，t后，可以通过公式为c₁＝∑_{t|t∈T}c_1，t，c₂＝∑_{t|t∈T}c_2，t，在待分析时间段T内对各时刻t的c_1，t和c_2，t进行累积，即可得到待分析时间段T内的单向跨线人数，c₁和c₂分别为在待分析时间段T内LOI在两个方向上的跨线人数。

在本发明跨线计数方法的进一步实施例中，获得当前帧图像在LOI上的两个方向分别通过的人数以后，可以对LOI在两个方向上的单向跨线人数进行累加，从而获得待分析时间段T内，通过LOI的跨线总人数。

图2为本发明跨线计数方法另一个实施例的流程图。如图2所示，该实施例的跨线计数方法包括：

202，深度神经网络依次从需要进行人群跨线计数的视频中与待分析时间段T对应的多个原始帧图像中，顺序抽取至少两帧图像，以该至少两帧图像中的后帧图像作为当前帧图像，生成当前帧图像的人群计数图。

其中，其中，顺序抽取的至少两帧图像可以是连续的原始帧图像、或者是不连续的原始帧图像，至少两帧图像中也可以部分为连续的原始帧图像，部分为不连续的原始帧图像。群计数图中包括帧图像中每个位置的计数向量，即：人群计数图的每个位置都会记录一个二维的计数向量，这个二维的计数向量表示表示当前帧图像与相邻的前一帧图像之间在x轴和y轴方向分别通过的人数。

204，分别以上述多个原始帧图像中的各帧图像作为当前帧图像，针对视频中要进行跨线计数的LOI，分别将人群计数图中在LOI上各位置的计数向量在LOI的法线方向进行投影，获得LOI上各位置的标量值，该标量值的正负表示LOI的两个跨线方向。

206，分别对LOI上的正标量值和负标量值进行累加，获得当前帧图像在LOI上的两个方向分别通过的人数，为当前帧图像对应的t时刻，分别在LOI上的两个方向上的瞬时跨线计数值。

208，分别累积待分析时间段T内多个原始帧图像在两个方向上通过LOI的人数，获得待分析时间段T内，LOI分别在两个方向上的单向跨线人数。

210，对LOI在两个方向上的单向跨线人数进行累加，获得待分析时间段T内，通过LOI的跨线总人数。

在本发明上述各实施例的跨线计数方法之前，还可以预先对初始深度神经网络进行训获得深度神经网络，获得的深度神经网络可以用于上述实施例的跨线计数方案，另外也可以用于其它需要人群计数图的应用情形。具体可以预设一个初始深度神经网络，该初始深度神经网络包括初始卷积神经网络(CNN)和初始元素相乘网络。将一个以上样本视频的多个原始帧图像输入至初始深度神经网络，以该样本视频中的多个原始帧图像预先标注的人群计数图作为监督信号，对初始深度神经网络进行迭代训练直至训练结果满足预设条件，获得最终的深度神经网络。

基于本发明上述实施例提供的深度神经网络训练方法，将原始的样本视频输入至初始深度神经网络，以该样本视频中的多个原始帧图像预先标注的人群计数图作为监督信号，对初始深度神经网络进行迭代训练直至训练结果满足预设条件，获得深度神经网络，以便给予该深度神经网络进行人群跨线计数。由于该深度神经网络直接以原始视频中的原始帧图像作为输入而未使用时序切片图像，鲁棒性更好，可以应用于各种不同的场景，避免了视频中人群密度较大、人群移动速度低或静止不动、或者监控摄像头视角比较低等情形时，时序切片图像中的行人的可辨识度低、无法估计时序切片图像中的人群数量的问题，对于人群密度较大、人群移动速度低或静止不动的情形同样适用，并且可以跨场景应用；并且，本发明实施例训练深度神经网络时基于人群计数图进行跨线计数而非只使用人群总数，还考虑了人群的分布情况，使得跨线计数结果更加客观、准确。

在本发明实施例的一个具体示例中，上述多个原始帧图像分别被标注人群密度图和人群速度图、人群计数图。相应地，该实施例中，将样本视频的多个原始帧图像输入至初始深度神经网络，以该多个原始帧图像预先标注的人群计数图作为监督信号，对初始深度神经网络进行迭代训练直至训练结果满足预设条件，可以包括：

分别以上述样本视频中多个原始帧图像中的相邻两帧图像作为一个训练样本输入至初始卷积神经网络，以预先标注的人群密度图和人群速度图作为监督信号，对该初始卷积神经网络进行迭代训练直至训练结果满足第一预设收敛条件，获得最终的卷积神经网络。其中，相邻两帧图可以是原始视频中连续的两帧原始图像，也可以是从原始视频中按照一定时间间隔或帧图像间隔抽取出来的不连续的原始帧图像；

分别以上述样本视频中多个原始帧图像中的相邻两帧图像作为一个训练样本输入初始深度神经网络，以预先标注的人群计数图作为监督信号，对该初始深度神经网络进行迭代训练直至设定指标满足第二预设收敛条件，获得最终的深度神经网络。

为了学习得到更好的深度神经网络，本发明上述实施例中，通过两个阶段对初始深度神经网络进行训练。在第一个阶段对人群密度图和人群速度图分别给出估计，这是两个相对简单且语义信息相对明显的任务；在第二阶段对人群计数图给出直接估计。

值得注意的是，在完成第一阶段的训练后，我们已经可以利用人群密度和速度图相乘得到人群计数图，但是实际中，由于在第一阶段的训练过程中没有对人群密度图和速度图给出空间位置匹配约束，因此得到的人群密度图和速度图可能存在空间位置上不匹配的情况。由于第二阶段训练的目标是由第一阶段输出的两个人群密度图和人群速度在对应位置的元素相乘得到，为此，本发明实施例在第一阶段训练完成后，通过第二阶段训练，对此空间位置上的不匹配进行了矫正，有效保证了人群密度图和速度图在空间位置上的匹配；并且，在第二阶段利用人群计数图作为监督信号，更利于复杂的初始深度神经网络的学习，使得训练得到的深度神经网络具有更强、更准确的计数能力。

在本发明跨线计数方法的又一个实施例中，还可以在初始深度神经网络进行迭代训练之前，执行如下操作：

分别针对样本视频中上述多个原始帧图像中的各帧图像进行行人定位，获得样本视频中各帧图像中的行人位置并对各行人分别分配行人ID；

根据样本视频中各帧图像中的行人位置，分别在样本视频中上述多个原始帧图像中的各帧图像标定各行人的行人信息，该行人信息包括行人位置与行人ID。

由于几何透视图包括样本视频中不同位置的像素数与场景的真实物理尺寸之间的对应关系，根据样本视频中多个原始帧图像的各帧图像中的行人位置与几何透视图，在样本视频中多个原始帧图像的各帧图像中标注各行人的行人信息，可以根据行人在真实场景中的位置以及行人的物理尺寸，在样本视频场景中以相应大小的图标标记该行人位置。例如，在t时刻对应的样本视频的帧图像中，可以标注行人人头的位置信息：其中t表示时刻，{1，…，n}表示每个行人的行人ID，此处具体以序号表示行人ID。

具体训练过程中，对样本视频中的行人进行标定并分配行人ID时，可以不针对样本视频中的每帧图像均进行标定，可以根据行人的运行情况和移动速度按照预设间隔(例如，1秒)进行标注，中间的帧图像的行人及其行人ID可以通过前后标定的两帧图像中的行人及其行人ID插值近似得到，以简化标注工作量；另，样本视频中可以所有的原始帧图像均参加初始深度神经网络训练，也可以抽取一部分原始帧图像参与初始深度神经网络训练，这样可以在训练任务一定的情况下，训练较多的样本视频，参与初始深度神经网络训练的帧图像的总数量越多，初始深度神经网络的训练效果越好，训练得到的深度神经网络鲁棒性更好。

图3为本发明深度神经网络训练方法一个实施例的流程图。预设的初始深度神经网络具体可以包括初始CNN和初始元素相乘网络。训练完成后得到的深度神经网络，包括相应的CNN和元素相乘网络。如图3所示，该实施例深度神经网络训练方法包括：

302，预先针对样本视频的场景设置该样本视频的几何透视图，包括样本视频中不同位置的像素数与场景的真实物理尺寸之间的对应关系；分别针对样本视频中参与网络训练的多个原始帧图像中各帧图像进行行人定位，获得各帧图像中的行人位置并对各行人分别分配行人ID。

由于不同行人的身体大小不同、且人头更不易被遮挡，为了更准确、客观的表示行人位置，具体可以以各行人的人头的位置作为该行人位置。

304，根据上述样本视频的多个原始帧图像中各帧图像中的行人位置，分别在上述样本视频的多个原始帧图像中各帧图像标定各行人的行人信息，该行人信息包括行人位置与行人ID。

306，分别以上述样本视频中多个原始帧图像中的相邻两帧图像作为一个训练样本输入至初始卷积神经网络，以预先标注的人群密度图和人群速度图作为监督信号，对初始卷积神经网络进行迭代训练直至训练结果满足第一预设收敛条件，获得最终的卷积神经网络。

其中，人群密度图用于表示当前帧图像中各位置的人群密度，人群速度图用于表示当前帧图像中各行人从前帧图像移动到当前帧图像的速度。

具体来说，分别以上述样本视频中多个原始帧图像中的相邻两帧图像作为一个训练样本输入至初始卷积神经网络后，初始卷积神经网络以当前训练样本中的后帧图像作为当前帧图像，根据各帧图像标定的行人信息，生成当前帧图像的人群密度图，以及根据当前训练样本的两帧图像中的行人信息与几何透视图，生成当前帧图像的人群速度图；比较初始卷积神经网络生成的人群密度图和人群速度图与被标注的人群密度图和人群速度图之间的偏差是否小于预设条件，或者初始卷积神经网络进行迭代训练的次数是否达到预设次数阈值；若上述偏差不小于预设条件或者迭代训练的次数未达到预设次数阈值，则对初始卷积神经网络的网络参数进行调整，返回继续该操作306，直至上述偏差小于预设条件或者迭代训练的次数达到预设次数阈值，对初始卷积神经网络的训练结束，获得卷积神经网络。

具体地，上述样本视频中多个原始帧图像中的相邻两帧图像可以是连续的两帧原始图像，也可以是连续的三帧以上的原始帧图像，从中顺序抽取的连续两帧原始图像，还可以是不连续的两帧原始图像，或从不连续的三帧以上的帧图像顺序抽取的两帧原始图像，或者还可以是原始图像的光流图像。在抽取的帧图像的数量大于两帧时，当前帧图像和前帧图像分别是在原始样本视频中位置靠后和靠前的两帧图像，不需要二者的帧序号连续。

其中一个具体示例中，初始卷积神经网络具体可以通过如下方式，生成当前帧图像的人群密度图：

根据当前帧图像中的行人信息，分别获取当前帧图像中各位置的人群密度值；

根据当前帧图像中各位置的人群密度值与几何透视图生成当前帧图像的人群密度图。

例如，根据各帧图像中的行人位置，分别在各帧图像中标注各行人位置后，可以获得帧图像中各位置的人群密度值；通过如下公式可以计算获得帧图像中的人群密度图：

其中，D_t(p)表示在帧图像中p位置的人群密度值，表示一个以人头标记P为中心的归一化的二维高斯分布在P位置的值(即：以一个高斯核来表示一个行人人头的位置)，σ_P表示高斯分布的方差，σ_P的值根据每个具体样本视频场景的几何透视图来确定，以保证每个人有着相同的物理尺寸。

在另一个具体示例中，初始卷积神经网络具体可以通过如下方式，生成当前帧图像的人群速度图：

根据当前帧图像中各行人在前帧图像和当前帧图像中的位置差、以及前帧图像和当前帧图像的对应的时刻差获取当前帧图像中各行人的移动速度；

根据当前帧图像中各位置的人群速度与几何透视图生成当前帧图像的人群速度图。

例如，具体可以通过以下公式计算获得帧图像中的人群速度图：

其中，V_t(p)表示在p位置的人群速度值；表示标记人头标记P在当前帧图像中的移动速度，可根据相邻两帧图像的位置差来得到；K(p；P，r_P)是一个圆盘型的函数，圆盘的中心是人头标记P，半径为r_P，半径r_P具体可以通过如下方式选取：由几何透视图将根据经验设定的人头的真实物理尺寸换算成对饮位置的像素数，例如，半径r_P的取值可以根据经验选取为0.15m；K(p；P，r_P)＝1(p≤||P-r_P||²)。

308，分别以样本视频中上述多个原始帧图像中的相邻两帧图像作为一个训练样本输入至初始深度神经网络，以预先标注的人群计数图作为监督信号，对初始深度神经网络进行迭代训练直至设定指标满足第二预设收敛条件，获得最终的深度神经网络。

具体来说，分别以样本视频中上述多个原始帧图像中的相邻两帧图像作为一个训练样本输入至初始深度神经网络后，由初始深度神经网络中的卷积神经网络以当前训练样本中的后帧图像作为当前帧图像，根据样本视频中各帧图像标定的行人信息与几何透视图，生成当前帧图像的人群密度图，以及根据当前训练样本的两帧图像中的行人信息与几何透视图，生成当前帧图像的人群速度图并输入至初始深度神经网络中的初始元素相乘网络；由初始元素相乘网络将卷积神经网络输入的当前帧图像的人群密度图和人群速度图在对应位置的元素相乘，获得当前帧图像的人群计数图。比较元素相乘网络输出的人群计数图与预先标注的人群计数图之间的偏差是否小于预设条件，或者初始深度神经网络进行迭代训练的次数是否达到预设次数阈值；若上述偏差不小于预设条件或者迭代训练的次数未达到预设次数阈值，则对初始元素相乘网络的网络参数进行调整，返回继续执行该操作308，直至上述偏差小于预设条件或者迭代训练的次数达到预设次数阈值，对初始深度神经网络的训练结束，由初始元素相乘网络获得最终的元素相乘网络，从而获得最终的深度神经网络。

为了获得人群计数图，本发明上述实施例中，先基于样本视频中多个原始帧图像中的至少两帧图像和几何透视图，获得帧图像的人群密度图和人群速度图，假设行人在两帧的密度分布和行走速度保持不变，将当前帧图像的人群密度图和人群速度图在对应位置的元素相乘来获得帧图像的人群计数图，实现了人群计数图的便捷获取。

在本发明图3所示实施例中，引入深度学习的模型---初始深度神经网络，直接以原始视频作为训练样本视频，将其中的帧图像作为初始卷积神经网络的输入，并且利用语义信息丰富、像素级的人群密度图与被标注的人群密度图、人群计数图作为监督信号，并且，训练时基于人群计数图进行跨线计数而非只使用人群总数，还考虑了人群的分布情况，从而训练得到用于进行跨线计数的深度神经网络，具有高度的鲁棒性，对于人群密度较大、人群移动速度低或静止不动的极端情况同样适用，并且可以跨场景应用，不存在时序切片图像中的行人的可辨识度低、无法估计时序切片图像中的人群数量的问题，使得跨线计数结果更加客观、准确。

为了学习得到更好的深度神经网络，图3所示的实施例中，通过两个阶段对初始深度神经网络进行训练。第一个阶段对应于操作306，通过初始卷积神经网络对人群密度图和人群速度图分别给出估计，这是两个相对简单且语义信息相对明显的任务；第二阶段对应于操作308，通过初始元素相乘网络对人群计数图给出直接估计。

如图4所示，为本发明实施例中通过两个阶段对初始深度神经网络进行训练的一个示意图。将样本视频中的相邻两帧图像作为一个训练样本输入初始深度神经网络中的初始卷积神经网络，在第一阶段，由初始卷积神经网络输出人群密度图和人群速度图；将该人群密度图和人群速度图输入至初始深度神经网络中的初始元素相乘网络，在第二阶段，由初始元素相乘网络输出人群计数图。

值得注意的是，在完成第一阶段的训练后，我们已经可以利用人群密度和速度图相乘得到人群计数图，但是实际中，由于在第一阶段的训练过程中没有对人群密度图和速度图给出空间位置匹配约束，因此得到的人群密度图和速度图可能存在空间位置上不匹配的情况。由于第二阶段训练的目标是由第一阶段输出的两个人群密度图和人群速度在对应位置的元素相乘得到，为此，本发明实施例通过第二阶段训练，对此空间位置上的不匹配进行了矫正，有效保证了人群密度图和速度图在空间位置上的匹配；并且，在第二阶段利用人群计数图作为监督信号，更利于复杂深度神经网络的学习，使得训练得到的深度神经网络具有更强、更准确的计数能力。

在图3所示实施例的一个具体示例中，例如可以在满足以下任意一个或多个条件时，认为训练结果满足第一预设收敛条件：

针对各样本视频中的多个原始帧图像，初始卷积神经网络输出的人群密度图和人群速度图与预先预先标注的人群密度图和人群速度图一致的图像的帧数与上述多个原始帧图像的帧数的比例达到第一预设阈值，即：初始卷积神经网络输出的人群密度图与预先标注的人群密度图和人群速度图一致的图像的帧数与输入至初始卷积神经网络的样本视频中图像的帧数的比例达到第一预设阈值，同时，初始卷积神经网络输出的人群速度图与预先标注的人群速度图一致的图像的帧数与输入至初始卷积神经网络的样本视频中图像的帧数的比例达到第一预设阈值；

针对各样本视频中上述多个原始帧图像中的各帧图像，初始卷积神经网络输出的人群密度图与预先标注的人群密度图之间的相似度、初始卷积神经网络输出的人群速度图与预先标注的人群速度图之间的相似度大于第二预设阈值；

针对各样本视频中的上述多个原始帧图像，初始卷积神经网络输出的人群密度图与预先标注的人群密度图之间的平均相似度、初始卷积神经网络输出的人群速度图与预先标注的人群速度图之间的平均相似度大于第三预设阈值；

初始卷积神经网络进行迭代训练的次数达到第四预设阈值。

在图3所示实施例的另一个具体示例中，例如可以在满足以下任意一个或多个条件时，认为训练结果满足第二预设收敛条件：

针对各样本视频中上述多个原始帧图像，初始元素相乘网络输出的人群计数图与预先标注的人群计数图一致的图像的帧数与上述多个原始帧图像的帧数的比例达到第五预设阈值；

针对各样本视频中的各帧图像，初始元素相乘网络输出的人群计数图与预先标注的人群计数图之间的相似度大于第六预设阈值；

针对各样本视频中的所有帧图像，初始元素相乘网络输出的人群计数图与人工标注得到的人群计数图之间的平均相似度大于第七预设阈值；

深度神经网络第二部分进行迭代训练的次数达到第八预设阈值。

其中，可以根据实际需求，设置在满足包括但不限于以下任意一个或多个条件时，认为人群密度图与预先预先标注的人群密度图(或人群速度图与预先标注的人群速度图)一致：

初始卷积神经网络输出的人群密度图与预先标注的人群密度图(或初始卷积神经网络输出的人群速度图与预先标注的人群速度图)的图像特征完全相同；

预先标注的人群密度图的图像特征包括但多于初始卷积神经网络输出的人群密度图的图像特征(或预先标注的人群速度图的图像特征包括但多于初始卷积神经网络输出的人群速度图的图像特征)；

初始卷积神经网络输出的人群密度图与预先标注的人群密度图(或初始卷积神经网络输出的人群速度图与预先标注的人群速度图)的图像特征之间的相同特征达到一定数量或者预设的一定比例；

初始卷积神经网络输出的人群密度图与预先标注的人群密度图(或初始卷积神经网络输出的人群速度图与预先标注的人群速度图)的图像特征之间的相同特征满足其他预设条件。

另外，也可以根据实际需求，设置在满足包括但不限于以下任意一个或多个条件时，认为初始元素相乘网络输出的人群计数图与预先标注的人群计数图一致：

初始元素相乘网络输出的人群计数图与预先标注的人群密度图的图像特征完全相同；

预先标注的人群密度图的图像特征包括但多于初始元素相乘网络输出的人群计数图的图像特征；

初始元素相乘网络输出的人群计数图与预先标注的人群计数图的图像特征之间的相同特征达到一定数量或者预设的一定比例；

初始元素相乘网络输出的人群计数图与预先标注的人群计数图的图像特征之间的相同特征满足其他预设条件。

另外，两个图之间的相似度，例如，初始卷积神经网络输出的人群密度图与预先标注的人群密度图之间的相似度，初始卷积神经网络输出的人群速度图与预先标注的人群速度图之间的相似度，初始元素相乘网络输出的人群计数图与预先标注的人群密度图之间的相似度，具体可以通过两图的欧式距离(L2)距离衡量。因此，可以先获取两图之间的欧式距离，并比较该两图之间的欧式距离是否大于预设阈值，来确认两图之间的相似度是否大于该预设阈值。

另外，本发明上述实施例还提供了一种上述深度神经网络训练方法训练得到的神经网络进行视频中人群跨线计数的方法。

通过本发明上述深度神经网络训练方法训练得到的神经网络后，可以基于该深度神经网络获取视频中帧图像的人群计数图，以便进行视频中人群跨线计数。将需要进行跨线计数的视频的原始帧图像输入该深度神经网络，该深度神经网络便可以通过但不限于如本发明上述任一实施例记载的操作输出帧图像的人群计数图。另外，本发明上述实施例的跨线计数方法使用的深度神经网络可以基于本发明上述任一实施例的深度神经网络训练方法获得，也可以通过其他的训练方法获得，只要训练得到的深度神经网络可以针对输入的原始帧图像输出帧图像的人群计数图即可。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图5为本发明跨线计数装置一个实施例的结构示意图。该实施例的跨线计数装置可用于实现本发明上述各跨线计数方法实施例。如图5所示，该实施例的跨线计数装置包括：第一获取单元，第二获取单元和第三获取单元。其中：

第一获取单元，作为深度神经网络，用于接收需要进行跨线计数的视频中与待分析时间段T对应的多个原始帧图像，输出原始帧图像的人群计数图。

其中，人群计数图中包括帧图像中各位置的计数向量，计数向量用于表示多个原始帧图像中各帧图像与相邻的前帧图像之间在计数方向(例如二维坐标平面的两个坐标方向)分别通过的人数。

示例性地，第一获取单元，具体用于依次从视频中与待分析时间段T对应的多个原始帧图像中，顺序抽取至少两帧图像，以该至少两帧图像中的后帧图像作为当前帧图像，生成当前帧图像的人群计数图。

第二获取单元，用于分别以多个原始帧图像中的各帧图像作为当前帧图像，针对视频中要进行跨线计数的感兴趣线LOI，根据当前帧图像的人群计数图，获取当前帧图像分别从至少一个方向通过LOI的人数，例如可以获取当前帧图像从一个方向通过LOI的人数，也可以获取当前帧图像分别从两个方向通过LOI的人数。

示例性地，第二获取单元具体可用于分别将人群计数图中在LOI上各位置的计数向量在LOI的法线方向进行投影，获得LOI上各位置的标量值，标量值的正负表示LOI的两个跨线方向；以及分别对LOI上的正标量值和负标量值进行累加，获得当前帧图像在LOI上的两个方向分别通过的人数。

第三获取单元，用于分别累积上述至少一个方向上多个原始帧图像通过LOI的人数，获得待分析时间段T内，LOI分别在上述至少一个方向上的单向跨线人数。

第二获取单元获取当前帧图像从一个方向通过LOI的人数时，第三获取单元相应累积该方向上上述多个原始帧图像中的各帧图像通过LOI的人数，获得待分析时间段T内，LOI在该方向上的单向跨线人数。第二获取单元获取当前帧图像分别从两个方向通过LOI的人数时，第三获取单元分别累积这两个方向上上述多个原始帧图像中的各帧图像通过LOI的人数，获得待分析时间段T内，LOI分别在这两个方向上的单向跨线人数。

基于本发明实施例的人群跨线计数装置，通过深度神经网络分别获取视频中与待分析时间段T对应的各帧图像的人群计数图，分别针对各帧图像，根据人群计数图获取从至少一个方向通过LOI的人数，并分别累积至少一个方向上多个原始帧图像通过LOI的人数，获得待分析时间段T内LOI在至少一个方向上的单向跨线人数。由于本发明实施例直接以原始视频中的各帧图像作为输入而未使用时序切片图像，鲁棒性更好，可以应用于各种不同的场景，对于人群密度较大、人群移动速度低或静止不动的极端情况同样适用，并且可以跨场景应用；并且，本发明实施例基于人群计数图进行跨线计数而非只使用人群总数，还考虑了人群的分布情况，使得跨线计数结果更加客观、准确。

图6为本发明跨线计数装置另一个实施例的结构示意图。如图6所示，与图5所示的实施例相比，该实施例的跨线计数装置中，第一获取单元具体包括卷积神经网络和元素相乘网络。其中：

卷积神经网络，用于接收输入的至少两帧图像，以该至少两帧图像中的后帧图像作为当前帧图像，生成当前帧图像的人群密度图和人群速度图。其中，人群密度图用于表示当前帧图像中各位置的人群密度，人群速度图用于表示当前帧图像中各行人从相邻的前帧图像移动到当前帧图像的速度。

基于本发明上述实施例提供的深度神经网络训练装置，将原始的样本视频输入至初始深度神经网络，以该样本视频中的多个原始帧图像预先标注的人群计数图作为监督信号，对初始深度神经网络进行迭代训练直至训练结果满足预设条件，获得深度神经网络，以便给予该深度神经网络进行人群跨线计数。由于该深度神经网络直接以原始视频中的原始帧图像作为输入而未使用时序切片图像，鲁棒性更好，可以应用于各种不同的场景，避免了视频中人群密度较大、人群移动速度低或静止不动、或者监控摄像头视角比较低等情形时，时序切片图像中的行人的可辨识度低、无法估计时序切片图像中的人群数量的问题，对于人群密度较大、人群移动速度低或静止不动的情形同样适用，并且可以跨场景应用；并且，本发明实施例训练深度神经网络时基于人群计数图进行跨线计数而非只使用人群总数，还考虑了人群的分布情况，使得跨线计数结果更加客观、准确。

示例性地，初始卷积神经网络生成当前帧图像的人群密度图时，具体可用于根据当前帧图像中的行人信息，分别获取当前帧图像中各位置的人群密度值；以及根据当前帧图像中各位置的人群密度值生成当前帧图像的人群密度图；生成当前帧图像的人群速度图时，具体用于根据当前训练样本中当前帧图像中各行人在前帧图像和当前帧图像中的位置差、以及前帧图像和当前帧图像的对应的时刻差获取当前帧图像中各行人的移动速度；根据当前帧图像中各行人的移动速度和行人位置，获取当前帧图像中各位置的人群速度；以及根据当前帧图像中各位置的人群速度生成当前帧图像的人群速度图。

元素相乘网络，用于将当前帧图像的人群密度图和人群速度图在对应位置的元素相乘，获得当前帧图像的人群计数图。

进一步地，再参见图6，在本发明跨线计数装置的另一个实施例中，还可以包括计算单元，用于对LOI在两个方向上的单向跨线人数进行累加，获得待分析时间段T内，通过LOI的跨线总人数。

图7为本发明深度神经网络训练装置一个实施例的结构示意图。如图7所示，该实施例的深度神经网络训练装置包括网络训练单元，用于将样本视频的多个原始帧图像输入至初始深度神经网络，以样本视频中的多个原始帧图像预先标注的人群计数图作为监督信号，对初始深度神经网络进行迭代训练直至训练结果满足预设条件，获得最终的深度神经网络；初始深度神经网络包括初始卷积神经网络CNN和初始元素相乘网络。

在上述深度神经网络训练装置实施例的一个具体示例中，多个原始帧图像分别被标注人群密度图和人群速度图、人群计数图。相应地，该实施例中，网络训练单元具体可用于通过如下方式对初始深度神经网络进行训练：

分别以样本视频中上述多个原始帧图像中的相邻两帧图像作为一个训练样本输入至初始卷积神经网络，以预先标注的人群密度图和人群速度图作为监督信号，对初始卷积神经网络进行迭代训练直至训练结果满足第一预设收敛条件，获得卷积神经网络；以及

分别以样本视频中上述多个原始帧图像中的相邻两帧图像作为一个训练样本输入初始深度神经网络，以预先标注的人群计数图作为监督信号，对初始深度神经网络进行迭代训练直至设定指标满足第二预设收敛条件，获得最终的深度神经网络。

其中，对初始深度神经网络的训练过程，以及训练结果满足第一预设收敛条件，以及训练结果满足第二预设收敛条件，可以参考上述图3所示实施例的记载；具体可以参考本发明上述跨线计数方法实施例的记载，此处不再赘述。

本发明实施例还提供了一种数据处理装置，包括本发明上述任一实施例提供的跨线计数装置。

具体地，本发明实施例的数据处理装置可以是任意具有数据处理功能的装置，例如可以包括但不限于：进阶精简指令集机器(ARM)、中央处理单元(CPU)或图形处理单元(GPU)等。

基于本发明上述实施例提供的数据处理装置，包括本发明上述任一实施例提供的跨线计数装置，直接以原始视频中的各帧图像作为输入而未使用时序切片图像，鲁棒性更好，可以应用于各种不同的场景，对于人群密度较大、人群移动速度低或静止不动的极端情况同样适用，并且可以跨场景应用；并且，本发明实施例基于人群计数图进行跨线计数而非只使用人群总数，还考虑了人群的分布情况，使得跨线计数结果更加客观、准确。

另外，本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等，该电子设备设置有本发明上述任一实施例的数据处理装置。

基于本发明上述实施例提供的电子设备，包括本发明上述数据处理装置，从而包括本发明上述任一实施例提供的跨线计数装置，直接以原始视频中的各帧图像作为输入而未使用时序切片图像，鲁棒性更好，可以应用于各种不同的场景，对于人群密度较大、人群移动速度低或静止不动的极端情况同样适用，并且可以跨场景应用；并且，本发明实施例基于人群计数图进行跨线计数而非只使用人群总数，还考虑了人群的分布情况，使得跨线计数结果更加客观、准确。

图8为本发明电子设备一个实施例的结构示意图。如图7所示，用于实现本发明实施例的电子设备包括中央处理单元(CPU)或者图形处理单元(GPU)，其可以根据存储在只读存储器(ROM)中的可执行指令或者从存储部分加载到随机访问存储器(RAM)中的可执行指令而执行各种适当的动作和处理。中央处理单元或者图形处理单元可与只读存储器和/或随机访问存储器中通信以执行可执行指令从而完成本发明实施例提供的跨线计数方法对应的操作，例如：向深度神经网络输入需要进行跨线计数的视频中与待分析时间段T对应的多个原始帧图像，由所述深度神经网络输出所述多个原始帧图像的人群计数图；所述人群计数图中包括每个位置的计数向量，所述计数向量用于表示所述多个原始帧图像中各帧图像与相邻的前帧图像之间在计数方向分别通过的人数；分别以所述多个原始帧图像中的各帧图像作为当前帧图像，针对视频中要进行跨线计数的感兴趣线LOI，根据当前帧图像的人群计数图，获取当前帧图像分别从至少一个方向通过所述LOI的人数；分别累积所述至少一个方向上所述多个原始帧图像通过所述LOI的人数，获得所述待分析时间段T内，所述LOI分别在所述至少一个方向上的单向跨线人数。另外，中央处理单元或者图形处理单元可与只读存储器和/或随机访问存储器中通信以执行可执行指令从而完成本发明实施例提供的深度神经网络训练方法对应的操作，例如：将样本视频的多个原始帧图像输入至初始深度神经网络，以所述多个原始帧图像预先标注的人群计数图作为监督信号，对所述初始深度神经网络进行迭代训练直至训练结果满足预设条件，获得最终的所述深度神经网络；所述初始深度神经网络包括初始卷积神经网络和初始元素相乘网络。

此外，在RAM中，还可存储有***操作所需的各种程序和数据。CPU、GPU、ROM以及RAM通过总线彼此相连。输入/输出(I/O)接口也连接至总线。

以下部件连接至I/O接口：包括键盘、鼠标等的输入部分；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分；包括硬盘等的存储部分；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器上，以便于从其上读出的计算机程序根据需要预先安装入存储部分。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，所述程序代码可包括对应执行本发明实施例提供的任一项跨线计数方法步骤对应的指令，例如，向深度神经网络输入需要进行跨线计数的视频中与待分析时间段T对应的多个原始帧图像，由所述深度神经网络输出所述多个原始帧图像的人群计数图的指令；所述人群计数图中包括每个位置的计数向量，所述计数向量用于表示所述多个原始帧图像中各帧图像与相邻的前帧图像之间在计数方向分别通过的人数；分别以所述多个原始帧图像中的各帧图像作为当前帧图像，针对视频中要进行跨线计数的感兴趣线LOI，根据当前帧图像的人群计数图，获取当前帧图像分别从至少一个方向通过所述LOI的人数的指令；分别累积所述至少一个方向上所述多个原始帧图像通过所述LOI的人数，获得所述待分析时间段T内，所述LOI分别在所述至少一个方向上的单向跨线人数的指令。所述程序代码还可包括对应执行本发明实施例提供的任一项深度神经网络训练方法步骤对应的指令，例如，将样本视频中的多个原始帧图像输入至初始深度神经网络，以所述多个原始帧图像预先标注的人群计数图作为监督信号，对所述初始深度神经网络进行迭代训练直至训练结果满足预设条件，获得最终的所述深度神经网络的指令；所述初始深度神经网络包括初始卷积神经网络和初始元素相乘网络。该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)或图形处理单元(GPU)执行时，执行本发明的方法中限定的上述功能。

本发明实施例还提供了一种计算机存储介质，用于存储计算机可读取的指令，所述指令包括：向深度神经网络输入需要进行跨线计数的视频中与待分析时间段T对应的多个原始帧图像，由所述深度神经网络输出所述多个原始帧图像的人群计数图的指令；所述人群计数图中包括每个位置的计数向量，所述计数向量用于表示所述多个原始帧图像中各帧图像与相邻的前帧图像之间在计数方向分别通过的人数；分别以所述多个原始帧图像中的各帧图像作为当前帧图像，针对视频中要进行跨线计数的感兴趣线LOI，根据当前帧图像的人群计数图，获取当前帧图像分别从至少一个方向通过所述LOI的人数的指令；分别累积所述至少一个方向上所述多个原始帧图像通过所述LOI的人数，获得所述待分析时间段T内，所述LOI分别在所述至少一个方向上的单向跨线人数的指令。或者，所述指令包括：将样本视频中的多个原始帧图像输入至初始深度神经网络，以所述多个原始帧图像预先标注的人群计数图作为监督信号，对所述初始深度神经网络进行迭代训练直至训练结果满足预设条件，获得最终的所述深度神经网络的指令；所述初始深度神经网络包括初始卷积神经网络和初始元素相乘网络。

另外，本发明实施例还提供了一种计算机设备，包括：

存储器，存储可执行指令；

本发明实施例可以应用于所有需要进行人群流量统计的场景，例如：

场景1:需要统计地铁出入口在待分析时间段T的跨线人数时，通过监控摄像头采集地铁各出入口的视频，分别以地铁各出入口作为LOI，将地铁各出入口在待分析时间段T的视频输入至本发明实施例的深度神经网络，通过本发明实施例的跨线计数方法，即可获得地铁各出入口在待分析时间段T的跨线人数，从而实现对各出入口的人流情况进行统计、分析，可以对地铁运营负荷给出估计，方便优化车辆调度并合理管控人流保障旅客安全和顺利出行；

场景2:针对城市群众游行，通过街道监控摄像头采集游行街道的视频，在游行街道上宽度方向设置LOI，将游行街道在LOI上上待分析时间段T的视频输入至本发明实施例的深度神经网络，通过本发明实施例的跨线计数方法，即可获得给出参加游行人数及人群移动状态，方便调配警力保障游行有序和公众安全；

场景3:针对景区或者公共体育场馆，亦可通过监控摄像头采集景区或者公共体育场馆的视频，在景区或场馆的出入口设置LOI，将景区或者公共体育场馆的视频输入至本发明实施例的深度神经网络，通过本发明实施例的跨线计数方法，即可对进出景区或场馆的人群进行统计，从而合理管控人流，避免过于拥挤发***事故等危险。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于装置、设备实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

可能以许多方式来实现本发明的方法、装置和设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法、装置和设备。用于所述方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

可能以许多方式来实现本发明的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置、设备。用于所述方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种跨线计数方法，其特征在于，包括：

向深度神经网络输入需要进行跨线计数的视频中与待分析时间段T对应的多个原始帧图像，由所述深度神经网络输出所述多个原始帧图像的人群计数图；所述人群计数图中包括帧图像中各位置的计数向量，所述计数向量用于表示所述多个原始帧图像中各帧图像与相邻的前帧图像之间在计数方向通过的人数；

分别以所述多个原始帧图像中的各帧图像作为当前帧图像，针对视频中要进行跨线计数的感兴趣线LOI，根据当前帧图像的人群计数图，获取当前帧图像从至少一个方向通过所述LOI的人数；

2.根据权利要求1所述的方法，其特征在于，所述计数方向包括二维坐标平面的两个坐标方向。

3.根据权利要求1或2所述的方法，其特征在于，所述获取当前帧图像分别从至少一个方向通过所述LOI的人数包括：获取当前帧图像分别从两个方向通过所述LOI的人数；

4.根据权利要求1至3任意一项所述的方法，其特征在于，所述向深度神经网络输入需要进行跨线计数的视频中与待分析时间段T对应的多个原始帧图像之后，还包括：

5.一种深度神经网络训练方法，其特征在于，还包括：

6.一种基于如权利要求5所述的深度神经网络训练方法训练得到的神经网络进行视频中人群跨线计数的方法。

7.一种跨线计数装置，其特征在于，包括：

第一获取单元，作为深度神经网络，用于接收需要进行跨线计数的视频中与待分析时间段T对应的多个原始帧图像，输出所述原始帧图像的人群计数图；所述人群计数图中包括帧图像中各位置的计数向量，所述计数向量用于表示所述多个原始帧图像中各帧图像与相邻的前帧图像之间在计数方向通过的人数；

第二获取单元，用于分别以所述多个原始帧图像中的各帧图像作为当前帧图像，针对视频中要进行跨线计数的感兴趣线LOI，根据当前帧图像的人群计数图，获取当前帧图像从至少一个方向通过所述LOI的人数；第三获取单元，用于分别累积所述至少一个方向上所述多个原始帧图像通过所述LOI的人数，获得所述待分析时间段T内，所述LOI分别在所述至少一个方向上的单向跨线人数。

8.一种深度神经网络训练装置，其特征在于，还包括：

9.一种数据处理装置，其特征在于，包括：权利要求7所述的跨线计数装置；或者权利要求8所述的跨线计数装置。

10.一种电子设备，其特征在于，设置有权利要求9所述的数据处理装置。