CN110276233A

CN110276233A - 一种基于深度学习的多相机协同跟踪***

Info

Publication number: CN110276233A
Application number: CN201810232732.1A
Authority: CN
Inventors: 于耀; 李炎峻; 周余
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-03-15
Filing date: 2018-03-15
Publication date: 2019-09-24

Abstract

本发明是一种对于视频中行人轨迹进行跟踪的算法，属于计算机视觉领域。本发明解决的问题是：行人跟踪中由于遮挡等原因使得跟踪效果不鲁棒的问题。本发明提出一种在多相机环境下进行行人跟踪的算法。本发明的主要算法的核心部分在于提出了一种端到端的多相机协同跟踪算法，使用多台相机对目标区域进行数据采集，然后对视频流中的每帧图片进行行人的检测与识别，根据检测的结果进行行人的跟踪，再将不同相机下同一行人的轨迹进行匹配融合，最终得到行人在每帧的位置信息，构成行人的轨迹。对于行人跟踪中常见的遮挡问题，我们应用对抗生成网络来解决，当跟踪过程中发生遮挡问题时，我们便应用对抗生成网络来生成下一帧的未遮挡图片，并使用生成的图片来进行行人的检测与跟踪。

Description

一种基于深度学习的多相机协同跟踪***

技术领域

本发明主要针对室内环境下对行人轨迹价值挖掘的需求和行人轨迹跟踪技术难度高的矛盾，提出了一种基于深度学习的多相机协同跟踪***。

背景技术

在大数据时代，行人轨迹蕴含着重要的价值。在商场等环境下，如果能够有效的提取行人轨迹，可以进一步的优化柜台的设置，产生巨大的商业价值。廉价而广泛分布的相机使得行人图片的采集变得非常简单，而如何从图片中提取行人的轨迹依旧是个难题。

目前存在的行人跟踪算法大多是传统的卡尔曼滤波等算法，在行人密度低、运动轨迹简单的情况下能取得不错的效果，但是对于行人密集、轨迹复杂的情况还是难以解决。基于track-by-detection的思想对行人密集的情况有较好的优化，先在每帧图片中检测到所有的行人，然后对视频中每帧的行人进行匹配与融合。然后，检测模块与跟踪模块依然缺乏实时的、精确的算法。

为了解决现有技术中存在的问题，本文构建了一套基于深度学习的多相机协同跟踪***，对行人进行端到端的视频采集、检测与跟踪。

发明内容

本发明的目的：在室内环境下，使用多个相机对目标区域进行拍摄，然后对视频流中的每帧图片进行行人的检测与识别，根据检测的结果进行行人的跟踪，在将不用相机下同一行人的轨迹进行融合，最终得到行人在每帧的位置信息，构成行人的轨迹。

针对现有技术中存在的问题，本发明提出了一种在线的多相机协同跟踪算法，主要包含以下步骤：

步骤一、每个相机采集行人的视频信息，并对每帧图片检测其中的行人。

步骤二、对单相机检测到的行人进行online的跟踪，得到单相机环境下多个行人的轨迹。

步骤三、对多个相机环境下行人的轨迹映射到公共地平面上，并做轨迹的特征匹配与融合。

对于步骤一，采用基于卷积神经网络对图片中的行人进行检测。在训练环节，我们手动标记图片中行人所在的框图，并用左上角坐标和方框的高宽进行标记，label＝(x，y，w，h)，其中，x和y表示行人框图左上角的坐标，w和h表示行人框图的宽和高。将图片送入神经网络之中，经过多层的卷积层得到特征图谱之后，进入物体判别网络判别是否是候选物体，对于候选物体再送入分类网络判别其是否是行人。

物体判别网络中，如果所选的框图与实际的框图之间的重叠度大于一定阈值，则该框图被标记为正例，否则则为反例。定义该网络的损失函数为：

其中，是交叉熵损失函数，表示判决框图是否是物体。是平方损失函数，表示实际框图与预测框图之间的差别。

步骤二对于单相机环境下的行人进行跟踪。传统的跟踪方法如卡尔曼滤波等不适用于多人的复杂场景，近年来的主流算法大多基于tracking-by-detection的思想，然而大多是离线算法，需要前后帧的上下文信息，无法用于实际项目。我们提出一种基于tracking-by-detection思想的实时跟踪算法，跟踪效果较好。该算法利用之前检测得到的结果，在相邻帧进行特征的提取与匹配，并能有效处理检测失效等异常情况。该算法主要有两个部分组成。第一个部分是关于特征的提取，我们利用传统的特征提取方法提取了目标的RGB，HSV，LBP等特征，组成特征向量。第二个部分是关于行人的匹配，我们通过对行人的状态进行建模，状态包括初始化状态、跟踪状态、丢失状态、死亡状态等。前面几帧初始化跟踪对象后，后面每帧将跟踪对象与检测对象进行特征相似度的计算，得到相似度后使用贪婪算法进行匹配，最后根据匹配的结果更新跟踪对象的状态。对于匹配成功的对象，继续保持跟踪状态。匹配失败的对象，则转为丢失状态。丢失状态的对象如果在后面几帧能找到正确匹配的检测对象，则可以恢复到跟踪状态，否则会转为死亡状态。最后我们通过统计最后所有跟踪对象的状态，可以得到视频中所有行人的轨迹信息。

对于行人跟踪中常见的遮挡问题，我们应用对抗生成网络来解决。遮挡问题是指行人在运动过程中被外界物体遮挡，从而使得行人检测模块无法检测到行人，从而使得跟踪模块不鲁棒。我们使用对抗生成网络可以根据行人前面几帧未被遮挡的图片生成下一帧的图片。对抗生成网络由网络G和网络D组成。网络G是指生成网络，其输入是X＝(X¹，.......，X^m)，X表示前面m帧图片，经过多层卷积层后，输出Y_gen，Y_gen是指生成的下一帧的图片。网络D是指判决网络，其输入的正样本是X＝(X¹，.......，X^m，Y)，指从原始数据中提取的连续m+1帧图片，因此Y＝X^m+1。负样本是X＝(X¹，.......，X^m，Y_gen)，其中Y_gen是生成网络中根据前m帧图片生成的下一帧图片。该网络的目标是判断出输入的连续帧图片是真实的还是生成网络生成的，因此损失函数定义为：

L^D(X，Y)＝L_cls(D(X，Y)，1)+L_cls(D(X，Y_gen)，0)

其中L_els是指交叉熵代价函数，其定义为：

i是指其中的第i个样本。在使用随机梯度下降法更新网络D的参数时保持网络G的参数固定。

网络G的目标是生成的图片尽可能真实，因此其损失函数定义为：

L^G(X，Y)＝L_cls(D(X，Y_gen)，1)

在使用随机梯度下降法更新网络G的参数时保持网络D的参数固定。

当跟踪过程中发生遮挡问题时我们便应用对抗生成网络来生成下一帧的图片，并使用生成的图片来进行行人的检测与跟踪。

步骤三是多相机下行人ID的匹配与融合。我们提出一种处理多相机下行人匹配与融合的算法，在公共数据集上具有良好表现。该算法将多个相机平面单映射到公共平面(地平面)，然后在公共平面上进行不同行人的匹配。集合C＝{C₁，......Ci，......C_n}表示n个相机，是在相机C的视角中观察到的第i个目标的特征，可以用位置的坐标信息来表示它。假设一共有N个相机，我们可以得到N个相机视角下的轨迹，将N个相机视角下的轨迹投影到公共平面，将同一个人的轨迹融合起来，可以得到公共平面上M个人的轨迹，然后将M个人的轨迹反投影到N个相机平面。通过使用多架相机进行跟踪，我们可以有效解决遮挡在行人跟踪中带来的问题。

在将行人轨迹从相机平面投影到公共地平面时，我们需要计算相机平面与公共地平面之间的投影矩阵，该矩阵通过标定计算来完成。其可以由公式：

x′＝Hx

计算得到。其中x＝(x，y，1)，表示在原始平面的齐次坐标，x′＝(x′Y′，1)，表示在投影后空间的齐次坐标。投影矩阵的形式是

手动标记多个点在相机平面与公共地平面的坐标，带入到上述公式中，可以计算得到投影矩阵的值。

附图说明

附图说明用于提供对本发明技术方案的进一步理解，并构成说明书的一部分，与本发明的实施一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。附图说明如下：

图1为整个***的架构图。

具体实施方式

以下将结合附图来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决问题，并达成技术效果的实现过程能充分理解并据以实施。在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的不同计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

下面具体说明算法的执行过程

步骤一、行人检测。电脑通过无线连接取得相机实时采集的数据，将相应的每帧图像送入到行人检测的神经网络中，输出图像上多个行人的框图坐标。

步骤二、行人跟踪。得到每帧图片的行人坐标，前面几帧初始化跟踪对象，然后每帧图片会送入到匹配模块，更新跟踪对象，最后得到多个行人的轨迹信息。

步骤三、多相机匹配。每个相机都会得到行人的轨迹，然后将这多个相机的行人轨迹结果进行匹配与融合，得到公共地平面上行人的轨迹信息。

本领域的技术人员应该明白，上述的本发明的***结构和各个步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将他们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

虽然本发明所示出和描述的实施方式如上，但是所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上以及细节上做任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种基于深度学习的多相机协同跟踪***，其特征是包含以下主要步骤：

步骤一、每个相机采集行人的视频信息，并对每帧图片检测其中的行人

2.权利要求1所述方法的步骤二的特征在于，我们利用之前检测得到的结果，在相邻帧进行特征的提取与匹配，并能有效处理检测失效等异常情况。该算法主要有两个部分组成。第一个部分是关于特征的提取，我们利用传统的特征提取方法提取了目标的RGB，HSV，LBP等特征，组成特征向量。第二个部分是关于行人的匹配，我们通过对行人的状态进行建模，状态包括初始化状态、跟踪状态、丢失状态、死亡状态等。前面几帧初始化跟踪对象后，后面每帧将跟踪对象与检测对象进行特征相似度的计算，得到相似度后使用贪婪算法进行匹配，最后根据匹配的结果更新跟踪对象的状态。对于匹配成功的对象，继续保持跟踪状态。匹配失败的对象，则转为丢失状态。丢失状态的对象如果在后面几帧能找到正确匹配的检测对象，则可以恢复到跟踪状态，否则会转为死亡状态。最后我们通过统计最后所有跟踪对象的状态，可以得到视频中所有行人的轨迹信息。

L^D(X，Y)＝L_cls(D(X，Y)，1)+L_cls(D(X，Y_gen)，0)

其中L_cls是指交叉熵代价函数，其定义为：

L^G(X，Y)＝L_cls(D(X，Y_gen)，1)

当跟踪过程中发生遮挡问题时，我们便应用对抗生成网络来生成下一帧的未遮挡图片，并使用生成的图片来进行行人的检测与跟踪。