CN109522854B

CN109522854B - 一种基于深度学习和多目标跟踪的行人流量统计方法

Info

Publication number: CN109522854B
Application number: CN201811400758.9A
Authority: CN
Inventors: 朱志宾; 徐清侠; 李圣京; 周敏仪
Original assignee: Guangzhou Zhongju Intelligent Technology Co ltd
Current assignee: Guangzhou Zhongju Intelligent Technology Co ltd
Priority date: 2018-11-22
Filing date: 2018-11-22
Publication date: 2021-05-11
Anticipated expiration: 2038-11-22
Also published as: CN109522854A

Abstract

本发明涉及图像处理技术领域，其目的在于提供一种基于深度学习和多目标跟踪的行人流量统计方法。本发明主要包括以下步骤：S1：拍摄行人监控视频并读取视频中的图像；S2：设定图像的有效区域及流量计数；S3：构建基于深度学习的行人检测模型并对其进行训练；S4：进行当前行人检测，得到当前行人框的坐标及图像块；S5：利用基于深度学习的多目标跟踪算法对当前行人进行跟踪，并产生当前行人的坐标；S6：生成当前行人的移动轨迹；S7：判断当前行人是否离开有效区域；若是则进入步骤S8，若否则进入步骤S4；S8：选取噪声阈值并进行噪声判断；S9：删除当前行人在连续视频帧中的坐标。本发明可在实际使用场景中提供实施精确的流量统计结果。

Description

一种基于深度学习和多目标跟踪的行人流量统计方法

技术领域

本发明涉及图像处理技术领域，特别是涉及一种基于深度学习和多目标跟踪的行人流量统计方法。

背景技术

监控摄像头的普及与图像处理技术的发展为智能监控提供了很好的条件。行人流量统计在智能监控中运用较广，可以用于医院、通道、店铺等各种场合。一个准确的流量信息可以帮助进行合理的资源配置，估算店铺租金水平以及经营状况等，具有非常重大的意义。

目前有许多人流量统计的方法，一类是依赖于硬件传感器设备，一类是直接对视频进行处理。其中传感器受人流密度影响较大；而对视频处理进行人流量统计的方法主要有如下几种：a、基于人脸识别的方法，该方法受到脸部遮挡和头部姿态影响；b、基于人头检测和跟踪的方法，该方法将摄像头放置顶部，对安装环境有要求，同时帽子类遮挡会产生较大影响，跟踪算法较简易容易造成跟踪错误；c、基于头肩检测和跟踪的方法，跟踪算法较简易，但行人密度大容易出错；d、基于人体匹配和跟踪的方法，该方法中会采用服饰或一些传统特征来判断行人，容易产生较大误差；e、基于多摄像头的方法，该方法要求多个摄像头对行人进行匹配计数。另外，上述的人流量计数方式基本以目标移动轨迹越过辅助线来累加，而由于采用的跟踪算法简易，人多时往往容易导致跟踪错乱，轨迹混乱从而影响计数，行人流量统计精确度低。

发明内容

本发明提供了一种基于深度学习和多目标跟踪的行人流量统计方法，可在实际使用场景中提供实施精确的流量统计结果。

本发明采用的技术方案是：

一种基于深度学习和多目标跟踪的行人流量统计方法，包括以下步骤：

S1：实时拍摄行人监控视频，读取行人监控视频连续视频帧中的图像；

S2：设置连续视频帧中图像的有效区域，并设置初始值为0的流量计数；

S3：构建基于深度学习的行人检测模型并对其进行训练；

S4：利用训练好的行人检测模型对设置了有效区域的图像进行缩放，然后对图像进行当前行人检测，得到当前行人框的坐标及图像块，当前行人框用于指示在图像中存在当前行人的区域；

S5：利用基于深度学习的多目标跟踪算法对当前行人进行实时跟踪，并产生当前行人在连续视频帧图像中的坐标；

S6：根据当前行人在连续视频帧中图像的坐标生成当前行人的移动轨迹；

S7：根据当前行人的移动轨迹，利用多目标跟踪算法实时判断当前行人是否离开有效区域；若是则进入步骤S8，若否则进入步骤S4；

S8：选取噪声阈值并对当前行人的移动轨迹进行噪声判断；若当前行人的移动轨迹的坐标数小于噪声阈值，则判定当前行人的移动轨迹为噪声轨迹；若当前行人的移动轨迹的坐标数大于或等于噪声阈值，则判定当前行人的移动轨迹为有效轨迹，并对流量计数的数值加1；

S9：删除当前行人在连续视频帧中的坐标，然后重复步骤S4。

优选的，在所述步骤S3中，所述行人检测模型是使用YOLOv3网络结构训练所得。

优选的，所述步骤S5的具体步骤如下：

S501：读取当前行人框的坐标及图像块；

S502：构建基于深度学习的行人特征提取模型并对其进行训练，利用训练好的深度网络行人特征提取模型对当前行人框的图像块进行深度表观特征提取，生成连续视频帧中不同的当前行人框的深度表观特征；

S503：根据当前行人框的坐标，利用卡尔曼滤波器计算出当前行人的预测坐标和当前行人的更新坐标，并计算出当前行人的预测坐标与当前行人框的坐标在马氏空间中的距离d₁；

S504：计算出由步骤S502得到的连续视频帧中不同的当前行人框的深度表观特征之间的余弦距离d₂；

S505：将由步骤S503得到的距离d₁与由步骤S504得到的距离d₂结合形成融合度量c，其中c＝λd₁+(1-λ)d₂，λ取0.1；

S506：根据融合度量c，利用匈牙利匹配算法对连续视频帧中不同的当前行人框进行目标匹配，得到当前行人在连续视频帧中的坐标。

进一步优选的，在所述步骤S502中，所述深度网络行人特征提取模型是基于残差网络训练得到的。

进一步优选的，在所述步骤S506中，根据级联图像匹配算法对各个当前行人框进行目标匹配。

进一步优选的，所述步骤S6的具体步骤如下：

S601：建立当前行人移动轨迹的坐标缓冲队列，队列大小设为m；

S602：将由步骤S503中得到的当前行人的更新坐标作为当前行人跟踪框，计算当前行人跟踪框的方框中心坐标，将方框中心坐标作为当前行人轨迹坐标加入当前行人坐标缓冲队列；

S603：在当前行人跟踪框更新后，重新计算方框中心坐标，并将重新计算的方框中心坐标加入坐标缓冲队列；

S604：比较缓冲队列坐标数与队列大小m；若缓冲队列坐标数等于队列大小m，则将新加入的方框中心坐标加入缓冲队列中，并去除最早的行人的更新坐标，使得缓冲队列的坐标数始终等于队列大小m，由此产生当前行人的移动轨迹。

优选的，在所述步骤S8中，噪声阈值的选取步骤如下：

S801：基于当前行人的移动轨迹，在行人监控视频截取n段样本视频，记为VIDEO₁,…,VIDEO_i，i＝1,2,…,n；

S802：对n段样本视频VIDEO₁,…,VIDEO_i人工进行人流量统计，人流量统计结果记为NUM₁,…,NUM_i；

S803：设定噪声阈值的取值集合为{j；j＝2,3,…,20}，基于步骤S1至步骤S9，对n段样本视频VIDEO₁,…,VIDEO_i进行流量统计，得到的流量计数结果记为RESULT_ij；

S804：计算步骤S803所得的流量计数结果及步骤S802所得的流量统计结果的差值，差值记为E_ij＝RESULT_ij-NUM_i；

S805：计算不同阈值对应差值E_ij的加权平均值F_j，其中

S806：比较噪声阈值取不同值j时F_j的绝对值大小，若F_k的取值的绝对值最小，其中k∈{j；j＝2,3,…,20}，则k为最终选取的噪声阈值。

进一步优选的，在步骤S801中，样本视频的截取段数n＝3或4，样本视频的截取时间为0.5-2小时。

与现有技术相比，本发明的有益效果为：

1)本发明在进行行人流量统计过程中，应用了基于深度学习的行人检测模型对当前行人进行检测，并利用多目标跟踪算法对当前行人进行跟踪，深度神经网络相比于传统特征提取具有更强的表征能力，使用深度神经网络来进行行人检测可以得到更为准确的检测结果；另外，基于深度学习的多目标跟踪算法使用了深度关联度量的方式，使得在当前行人面对遮挡以及行人短暂重合时还是能达到有效的跟踪，意味着跟踪的轨迹更为准确，相比于简单的跟踪方法不容易发生跟踪错乱。

2)相比于现有技术中，以目标移动轨迹越过辅助线来累加的行人流量计数方式，本发明通过划定图像有效区域，在有效区域内生成当前行人的移动轨迹，然后对当前行人的移动轨迹进行噪声判断后计数，避免了现有技术中严重依赖移动轨迹的正确性导致轨迹不准确、不完整的问题，行人流量统计效果更准确。

3)进行了三次去噪，有效避免了行人统计中不确定因素带来的影响。具体来说，首先在步骤S2设置连续视频帧中图像的有效区域，即去除光照环境、非关注区域行人等不确定因素带来的环境检测噪声，实现第一步的去噪作用；随后，步骤S7利用多目标跟踪算法实时判断当前行人是否离开有效区域，跟踪算法可去除行人被遮挡、行人不完整等不确定因素带来的行人检测噪声，实现第二步的去噪作用；最后，步骤S8选取噪声阈值并对当前行人的移动轨迹进行噪声判断，噪声阈值可有效拟合真实的行人流量，通过设立噪声阈值来判定噪声轨迹，从而实现从宏观上实现第三步的去噪作用，对行人流量计数结果起到很好的调节，使得统计结果更为准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的流程框图。

具体实施方式

以下将参照附图，通过实施例方式详细地描述本发明提供的一种基于深度学习和多目标跟踪的行人流量统计方法。在此需要说明的是，对于这些实施例方式的说明用于帮助理解本发明，但并不构成对本发明的限定。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，单独存在B，同时存在A和B三种情况，本文中术语“/和”是描述另一种关联对象关系，表示可以存在两种关系，例如，A/和B，可以表示：单独存在A，单独存在A和B两种情况，另外，本文中字符“/”，一般表示前后关联对象是一种“或”关系。

实施例：

S1：实时拍摄行人监控视频，读取行人监控视频连续视频帧中的图像。需要说明的是，在此步骤中，可以但不限制于采用网络监控摄像头进行行人监控视频的拍摄，先将网络监控摄像头安放在能够拍摄行人的位置，然后通过网络、本地传输等方式访问摄像头读取视频图像即可。

S2：设置连续视频帧中图像的有效区域，并设置初始值为0的流量计数。需要说明的是，有效区域的设定即，基于观测需求，将易对行人统计造成影响的非关注区域进行黑色填充遮挡，达到去除周围环境产生的噪声的目的。

S3：构建基于深度学习的行人检测模型并对其进行训练；优选设置的，在所述步骤S3中，所述行人检测模型是使用YOLOv3网络结构训练所得。

S4：利用训练好的行人检测模型对设置了有效区域的图像进行缩放，具体的，将图像缩放为416*416像素，然后对图像进行当前行人检测，得到当前行人框的坐标及图像块，当前行人框用于指示在图像中存在当前行人的区域；应当理解的是，所述行人检测模型也可采用Faster R-CNN(Faster Region-Based Convolutional Neural Network)、SSD(single shot multibox detector)或其他目标检测网络实现，采用YOLOv3网络训练可使模型兼顾性能与速度。

S5：利用基于深度学习的多目标跟踪算法对当前行人进行实时跟踪，并产生当前行人在连续视频帧图像中的坐标。

S6：根据当前行人在连续视频帧中图像的坐标生成当前行人的移动轨迹。

S7：根据当前行人的移动轨迹，利用多目标跟踪算法实时判断当前行人是否离开有效区域；若是则进入步骤S8，若否则进入步骤S4。

S8：选取噪声阈值并对当前行人的移动轨迹进行噪声判断；若当前行人的移动轨迹的坐标数小于噪声阈值，则判定当前行人的移动轨迹为噪声轨迹；若当前行人的移动轨迹的坐标数大于或等于噪声阈值，则判定当前行人的移动轨迹为有效轨迹，并对流量计数的数值加1。设噪声阈值的默认值为j，j可为随机选取的较小数值，如j＝6,7,…,12。

需要说明的是，在进行行人流量统计过程中，能对行人流量统计结果造成影响的因素主要有视频中的光照环境、视频中的非关注区域行人、行人被遮挡、行人不完整等不确定因素，在统计过程中，这些因素会影响到当前行人框的坐标及图像块的获取，从而对当前行人的实时跟踪过程造成影响，最终影响到行人流量的统计。本发明中，将会影响到行人流量统计的这些不确定因素统称为噪声，噪声阈值的设定可判定当前行人的移动轨迹是否为噪声轨迹，将判定为噪声轨迹的当前行人轨迹去除，即可避免不确定因素对行人统计结果的影响。

S9：删除当前行人在连续视频帧中的坐标，然后重复步骤S4。

本发明在进行行人流量统计过程中，通过步骤S3，应用了基于深度学习的行人检测模型对当前行人进行检测，并在步骤S4中，利用多目标跟踪算法对当前行人进行跟踪，深度神经网络相比于传统特征提取具有更强的表征能力，使用深度神经网络来进行行人检测可以得到更为准确的检测结果；另外，步骤S5中，基于深度学习的多目标跟踪算法使用了深度关联度量的方式，使得在当前行人面对遮挡以及行人短暂重合时还是能达到有效的跟踪，意味着跟踪的轨迹更为准确，相比于简单的跟踪方法不容易发生跟踪错乱。

现有技术中，通常采用目标移动轨迹越过辅助线来累加的行人流量计数方式，其严重依赖移动轨迹的正确性，即跟踪效果的好坏，但是当人流密集时，跟踪效果往往不好，错乱会经常发生，最终易导致行人轨迹不准确、不完整，从而严重影响行人流量的统计结果。而本发明通过划定图像有效区域，在有效区域内生成当前行人的移动轨迹，然后对当前行人的移动轨迹进行噪声判断后计数，有效避免了现有技术中严重依赖移动轨迹的正确性导致轨迹不准确、不完整的问题，使得行人流量统计效果更准确。

还应当理解的是，本发明进行了三次去噪，有效避免了行人统计中不确定因素带来的影响。具体来说，首先在步骤S2设置连续视频帧中图像的有效区域，即去除光照环境、非关注区域行人等不确定因素带来的环境检测噪声，实现第一步的去噪作用；随后，步骤S7利用多目标跟踪算法实时判断当前行人是否离开有效区域，跟踪算法可去除行人被遮挡、行人不完整等不确定因素带来的行人检测噪声，实现第二步的去噪作用；最后，步骤S8选取噪声阈值并对当前行人的移动轨迹进行噪声判断，噪声阈值可有效拟合真实的行人流量，通过设立噪声阈值来判定噪声轨迹，从而实现从宏观上实现第三步的去噪作用，对行人流量计数结果起到很好的调节，使得统计结果更为准确，由此使得行人流量统计结果更为精确。

进一步的，所述步骤S5的具体步骤如下：

S501：读取当前行人框的坐标及图像块。

S502：构建基于深度学习的行人特征提取模型并对其进行训练，利用训练好的深度网络行人特征提取模型对当前行人框的图像块进行深度表观特征提取，生成连续视频帧中不同的当前行人框的深度表观特征。优选设置的，所述深度网络行人特征提取模型是基于残差网络训练得到的；深度表观特征为一个128维的特征向量。

S503：根据当前行人框的坐标，利用卡尔曼滤波器计算出当前行人的预测坐标和当前行人的更新坐标，并计算出当前行人的预测坐标与当前行人框的坐标在马氏空间中的距离d₁。需要说明的是，卡尔曼滤波器可以对运动目标的位置有一个更好的估计，并使运动轨迹更平滑。

S504：计算出由步骤S502得到的连续视频帧中不同的当前行人框的深度表观特征之间的余弦距离d₂。

S505：将由步骤S503得到的距离d₁与由步骤S504得到的距离d₂结合形成融合度量c，其中c＝λd₁+(1-λ)d₂，λ取0.1。

S506：根据融合度量c，利用匈牙利匹配算法对连续视频帧中不同的当前行人框进行目标匹配，得到当前行人在连续视频帧中的坐标。优选设置的，在所述步骤S506中，根据级联图像匹配算法对各个当前行人框进行目标匹配，级联图像匹配算法基于几何特性，往往具有更好的不变性，稳定性更好。

进一步的，所述步骤S6的具体步骤如下：

S601：建立当前行人移动轨迹的坐标缓冲队列，队列大小设为m。

S602：将由步骤S503中得到的当前行人的更新坐标作为当前行人跟踪框，计算当前行人跟踪框的方框中心坐标，将方框中心坐标作为当前行人轨迹坐标加入当前行人坐标缓冲队列。

S603：在当前行人跟踪框更新后，重新计算方框中心坐标，并将重新计算的方框中心坐标加入坐标缓冲队列。

进一步的，为进一步减小行人流量统计中存在的误差，以得到更为精确的行人流量统计结果，在所述步骤S8中，噪声阈值的选取步骤如下：

S801：基于当前行人的移动轨迹，在行人监控视频截取n段样本视频，记为VIDEO₁,…,VIDEO_i，i＝1,2,…,n。需要说明的是，在此步骤中，样本视频的截取段数n＝3或4，样本视频的截取时间为0.5-2小时。

S802：对n段样本视频VIDEO₁,…,VIDEO_i人工进行人流量统计，人流量统计结果记为NUM₁,…,NUM_i。

S803：设定噪声阈值的取值集合为{j；j＝2,3,…,20}，基于步骤S1至步骤S9，对n段样本视频VIDEO₁,…,VIDEO_i进行流量统计，得到的流量计数结果记为RESULT_ij。

S804：计算步骤S803所得的流量计数结果及步骤S802所得的流量统计结果的差值，差值记为E_ij＝RESULT_ij-NUM_i。

S805：计算不同阈值对应差值E_ij的加权平均值F_j，其中

S806：比较噪声阈值取不同值j时F_j的绝对值大小，若F_k的取值的绝对值最小，其中k∈{j；j＝2,3,…,20}，则k为最终选取的噪声阈值，即最优噪声阈值。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于深度学习和多目标跟踪的行人流量统计方法，其特征在于：包括以下步骤：

S3：构建基于深度学习的行人检测模型并对其进行训练；

S9：删除当前行人在连续视频帧中的坐标，然后重复步骤S4；

在所述步骤S8中，噪声阈值的选取步骤如下：

S805：计算不同阈值对应差值E_ij的加权平均值F_j，其中

2.根据权利要求1所述的一种基于深度学习和多目标跟踪的行人流量统计方法，其特征在于：在所述步骤S3中，所述行人检测模型是使用YOLOv3网络结构训练所得。

3.根据权利要求1所述的一种基于深度学习和多目标跟踪的行人流量统计方法，其特征在于：所述步骤S5的具体步骤如下：

S501：读取当前行人框的坐标及图像块；

4.根据权利要求3所述的一种基于深度学习和多目标跟踪的行人流量统计方法，其特征在于：在所述步骤S502中，所述深度网络行人特征提取模型是基于残差网络训练得到的。

5.根据权利要求3所述的一种基于深度学习和多目标跟踪的行人流量统计方法，其特征在于：在所述步骤S506中，根据级联图像匹配算法对各个当前行人框进行目标匹配。

6.根据权利要求3所述的一种基于深度学习和多目标跟踪的行人流量统计方法，其特征在于：所述步骤S6的具体步骤如下：

7.根据权利要求1所述的一种基于深度学习和多目标跟踪的行人流量统计方法，其特征在于：在步骤S801中，样本视频的截取段数n＝3或4，样本视频的截取时间为0.5-2小时。