WO2021142571A1

WO2021142571A1 - 一种孪生双路目标跟踪方法

Info

Publication number: WO2021142571A1
Application number: PCT/CN2020/071743
Authority: WO
Inventors: 曹文明
Original assignee: 深圳大学
Priority date: 2020-01-13
Filing date: 2020-01-13
Publication date: 2021-07-22

Abstract

本发明提供一种孪生双路目标跟踪方法。该方法包括：将模板图像和待跟踪帧中的候选框搜索区域输入到经训练的孪生双路神经网络进行特征提取，获得与模板图像对应的第一特征图以及与待跟踪帧中的候选框搜索区域对应的第二特征图；以所述第一特征图为卷积核，以所述第二特征图为待卷积图像进行卷积操作，获得表示搜索区域中每个位置与模板图像的相似程度的得分图；基于所述得分图确定待跟踪帧中的目标位置。本发明的方法能够提高目标跟踪的实时性和鲁棒性。

Description

一种孪生双路目标跟踪方法

技术领域

本发明涉及视频跟踪技术领域，尤其涉及一种孪生双路目标跟踪方法。

背景技术

目标跟踪是计算机视觉中的一个重要研究方向，有着广泛的应用，如视频监控、人机交互、无人驾驶等。由于存在目标发生剧烈的外观变化、目标遮挡、光照变换等干扰因素，并且还要考虑实时性的因素，所以尽管近年来目标跟踪算法研究取得了显著性的提升。例如，基于光流法和特征点匹配的抗鲁棒跟踪算法，其在传统的跟踪点匹配算法中取得了不错的效果，但是仍无法达到工业及商业应用的需求。

目标跟踪是一个极具挑战性的任务，特别是对于运动目标而言，其运动的场景非常复杂并且经常发生变化，或是目标本身也会不断变化。如何在复杂场景中识别并跟踪不断变化的目标就成为一个挑战性的任务。在计算能力提高和数据量增加的背景下，增强目标跟踪的实时性和鲁棒性是一项迫切的需求。

发明内容

本发明的目的在于克服上述现有技术的缺陷，提供一种孪生双路目标跟踪方法，引入了基于孪生双路输入框架的深度网络算法，并进一步加入几何特征网络，以增加目标跟踪的鲁棒性。

本发明的提供一种孪生双路目标跟踪方法。该方法包括以下步骤：

将模板图像和待跟踪帧中的候选框搜索区域输入到经训练的孪生双路神经网络进行特征提取，获得与模板图像对应的第一特征图以及与待跟踪帧中的候选框搜索区域对应的第二特征图；

以所述第一特征图为卷积核，以所述第二特征图为待卷积图像进行卷积操作，获得表示搜索区域中每个位置与模板图像的相似程度的得分图；

基于所述得分图确定待跟踪帧中的目标位置。

在一个实施例中，所述孪生双路神经网络包括依次连接的第一卷积层、第一池化层、第二卷积层，第二池化层、第三卷积层、第四卷积层和第五卷积层，并且在第一卷积层、第二卷积层、第三卷积层和第四卷积层接上激活函数ReLU。

在一个实施例中，在目标跟踪过程中，将后一帧搜索图的中心定位在前一帧目标跟踪框的中心位置。

在一个实施例中，在目标跟踪过程中，采用交叉相关方法来比较搜索区域与模板图像的相似度，进而得到所述得分图。

在一个实施例中，将所述模板图像固定为视频帧初始帧的标准跟踪框区域，并且在目标跟踪过程中不进行更新。

在一个实施例中，训练所述孪生双路神经网络时，训练图像对由训练集中同一视频中不同视频帧的图片组成，通过对图片进行裁剪和缩放，将目标中心固定在训练图片对中心并且对物体的尺寸进行归一化处理。

在一个实施例中，通过以下公式选择模板图像的尺寸区域A：

s(w+2p)×s(h+2p)＝A

其中，w和h分别是标准跟踪框的宽和高，p为填充的区域长，s是尺寸归一化参数。

与现有技术相比，本发明的优点在于：将相邻帧几何特征的结果变形到当前检测帧上，增加当前帧检测稳定性；通过建立几何模板，检测帧模型以及时序打分模型，能很好地解决目标快速运动、目标模糊的问题；根据相邻帧的几何目标运动方向得出模板帧中物体的位置，然后形成几何目标注意力模型，并提出了适用于孪生跟踪框架的滴漏与归一化注意力模型，提高了目标跟踪的成功率。

附图说明

以下附图仅对本发明作示意性的说明和解释，并不用于限定本发明的范围，其中：

图1是根据本发明一个实施例的基于孪生双路目标跟踪方法的流程图；

图2是根据本发明一个实施例的基于孪生双路目标跟踪的模型结构示意图；

图3是根据本发明一个实施例的基于孪生双路目标跟踪方法的效果图。

具体实施方式

为了使本发明的目的、技术方案、设计方法及优点更加清楚明了，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。

在本文示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。参见图1所示，本发明实施例提供的孪生双路目标跟踪方法包括：步骤S110，将模板图像和待跟踪帧中的候选框搜索区域输入到经训练的孪生双路神经网络进行特征提取，获得与模板图像对应的第一特征图以及与待跟踪帧中的候选框搜索区域对应的第二特征图；步骤S120，以所述第一特征图为卷积核，以所述第二特征图为待卷积图像进行卷积操作，获得表示搜索区域中每个位置与模板图像的相似程度的得分图；步骤S130，基于所述得分图确定待跟踪帧中的目标位置。

图2是根据本发明一个实施例的孪生双路目标跟踪方法的网络结构图，其中z表示模板图像，x表示搜索区域，即当前视频帧中的候选框搜索区域，将x和z分别输入到两个特征提取网络(如CNN)，该两个特征提取网络分别将输入映射到新的空间，形成输入在新的空间中的表示。通过计算损失函数，评价模板图像和搜索区域的相似度。

具体地，基于图2的架构，目标跟踪问题可以理解为对初始帧物体的相似性学习问题，目标跟踪方法学习匹配方程f(z,x)；比较初始帧模板图像z和当前帧候选图像x的相似性，即同时有两个输入经过特有的转化网络

紧接着用其他方法g结合两个的输出，得到匹配方程

在一个实施例中，z表示的模板图像固定为视频帧初始帧的标准跟踪框区域。这是因为初始帧受到的污染最小，无论物体被遮挡还是消失，也能再次检测跟踪到目标物体。x表示的搜索区域，由当前检测帧裁剪以及缩放得到，例如被设置为固定的大小255×255。

表示特征映射的操作，使原图经过CNN网络得到特征图，同时特征提取网络是一个全卷积的网络。

为了提高目标跟踪的实时性，在本发明实施例中，孪生采用AlexNet网络且去掉全连接层，保留了卷积层和池化层。例如，模板图像z和搜索图像x经过特征网络后分别得到大小为6×6×128和22×22×128的特征图。在图1中，*表示相互卷积操作，模板图像的特征图为卷积核，搜索图像的特征图为待卷积图像，6*6*128代表z经过

(特征映射)后得到的特征，22*22*128是x经过

后的特征；22*22*128的特征被6*6*128的卷积核卷积，相互卷积后可以得到大小为17×17×1的得分图，表示搜索区域中每个位置与模板的相似程度。最后得分图中得分最高的位置即为当前帧目标的位置。上述过程用匹配方程表达：

其中，b表示每一个位置的偏置变量。而特征网络

输出的结果是一个特征图而不是一维的向量。在目标跟踪的过程中，将当前帧搜索图的中心定位在前一帧目标跟踪框的中心位置。

在一个实施例中，用于特征提取的卷积网络关于搜索图像x是全卷积的，因而能够应对目标尺度的变化，例如，对搜索图和模板图同时采用三个或五个尺度的卷积操作，取其中响应最高的尺度图作为当前目标的位置响应图。具体地，可以采用交叉相关的方法来比较搜索区域与目标模板的相似度，进而得到得分图；然后，采用双三次插值进行上采样，获得更加精确的目标位置。从数学原理上来说，这种方法与相关滤波类的跟踪方法十分相似，差别在于相关滤波采用了更加方便的频谱插值得到更为精确的目标框。

在一个实施例中，通过训练正负样本对来训练特征提取网络，并采用逻辑损失函数：

其中，v表示候选响应图中每个点的真实值，y∈{+1,-1}表示标准跟踪框的标签。总的损失函数由得分图每个点的逻辑损失组成，表示为：

其中需要得出每个位置u∈D的真实标签：y[u]∈{+1,-1}。在训练过程中，算法采用了模板图像以及搜索图像组成的图像对，然后相互卷积，得出映射得分v:D→R。训练图像对由训练集中同一视频中不同视频帧的图片组成，且不同视频帧之间相差帧数为T。通过对图片进行裁剪和缩放，将目标中心固定在训练图片对的中心并且对物体的尺寸进行归一化处理。

在一个实施例中，训练标签的正样本由以下方式得到：

其中，u表示得分图中每个点的值，c表示训练图中的中心，k表示特征网络的步长。当得分图中某个点与中心的距离小于R时，这个点被标记为正样本。除此之外，由于得分图中的正样本比负样本要少得多，因此还会对正负样本进行权重相乘，以平衡正负样本的数量。

在训练过程中，采用模板图像的尺寸为127×127，而搜索图像的尺寸为255×255，需要对图像进行预处理，例如，不是简单地对图像进行裁剪和缩放，而是根据跟踪框的大小和位置进行填充。更具体来说，假设标准跟踪框的宽和高为w和h，填充的区域长为p，尺寸归一化参数为s。通过以下方式选择尺寸区域：

s(w+2p)×s(h+2p)＝A (5)

对于模板图像来说A＝127 ²，同时p＝(w+h)/4。对于超过图片边界没有像素可以截取的区域，用此图像所有像素的均值来填充。

在一个实施例中，特征提取网络采用的网络结构是以AlexNet为基础的网络结构，网络具体的参数如表1。第一二层卷积层后面接最大值池化操作，并且除了第五层卷积外，其它层都在卷积层后接上激活函数ReLU，并对网络的每一层进行批处理操作。值得注意的是，卷积的过程中没有对被卷积的图像进行像素补全操作。

表1 孪生网络各层参数

本发明的孪生双路目标跟踪方法，结构简单，实时性高，其只用了CNN网络的特征，并没有像其他算法一样使用颜色、梯度直方图等特征。另外模板图像一直都是初始帧的目标图像，并没有更新模板图像的过程。尽管如此，通过离线学习特征网络在不同目标下的相似性，同时对不同尺寸下的模板图像和搜索图像作匹配操作，本发明的方法取得了不错的成绩。例如，在OTB跟踪数据集的结果如图3所示，其中纵坐标是成功率，可以看出，在OTB-cvpr13数据集中，本发明的成功率为0.612(SiamFC)，与图中其他算法相比成功率更高。并且本发明网络结构简单，可移植性强，因此可以更好地对其进行改进。

综上所述，本发明应用了光流网络模型，通过将相邻帧光流的结果变形到当前检测帧上，增加当前帧检测稳定性；通过建立模板，检测帧模型以及时序打分模型，能够很好地解决目标快速运动、目标模糊的问题；根据相邻帧的光流运动方向得出模板帧中物体的位置，然后形成光流孪生模型。本发明目标跟踪方法能够应用于识别技术，云数据分析等。

需要说明的是，虽然上文按照特定顺序描述了各个步骤，但是并不意味着必须按照上述特定顺序来执行各个步骤，实际上，这些步骤中的一些可以并发执行，甚至改变顺序，只要能够实现所需要的功能即可。

本发明可以是***、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器 (SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

一种孪生双路目标跟踪方法，包括以下步骤：

将模板图像和待跟踪帧中的候选框搜索区域输入到经训练的孪生双路神经网络进行特征提取，获得与模板图像对应的第一特征图以及与待跟踪帧中的候选框搜索区域对应的第二特征图；

以所述第一特征图为卷积核，以所述第二特征图为待卷积图像进行卷积操作，获得表示搜索区域中每个位置与模板图像的相似程度的得分图；

基于所述得分图确定待跟踪帧中的目标位置。
根据权利要求1所述的方法，其特征在于，所述孪生双路神经网络包括依次连接的第一卷积层、第一池化层、第二卷积层，第二池化层、第三卷积层、第四卷积层和第五卷积层，并且在第一卷积层、第二卷积层、第三卷积层和第四卷积层接上激活函数ReLU。
根据权利要求1所述的方法，其特征在于，在目标跟踪过程中，将后一帧搜索图的中心定位在前一帧目标跟踪框的中心位置。
根据权利要求1所述的方法，其特征在于，在目标跟踪过程中，采用交叉相关方法来比较搜索区域与模板图像的相似度，进而得到所述得分图。
根据权利要求1所述的方法，其特征在于，将所述模板图像固定为视频帧初始帧的标准跟踪框区域，并且在目标跟踪过程中不进行更新。
根据权利要求1所述的方法，其特征在于，训练所述孪生双路神经网络时，训练图像对由训练集中同一视频中不同视频帧的图片组成，通过对图片进行裁剪和缩放，将目标中心固定在训练图片对中心并且对物体的尺寸进行归一化处理。
根据权利要求6所述的方法，其特征在于，通过以下公式选择模板图像的尺寸区域A：

s(w+2p)×s(h+2p)＝A

其中，w和h分别是标准跟踪框的宽和高，p为填充的区域长，s是尺寸归一化参数。
一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现根据权利要求1至7中任一项所述方法的步骤。
一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至7中任一项所述的方法的步骤。