CN113888595A

CN113888595A - 一种基于困难样本挖掘的孪生网络单目标视觉跟踪方法

Info

Publication number: CN113888595A
Application number: CN202111152770.4A
Authority: CN
Inventors: 黄磊; 高占祺; 魏志强
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2022-01-04
Anticipated expiration: 2041-09-29
Also published as: CN113888595B

Abstract

本发明公开了一种基于困难样本挖掘的孪生网络单目标跟踪方法，包括构建训练集、构建基于困难样本挖掘的卷积孪生网络等步骤：本发明将困难样本挖掘引入到目标跟踪方法中，在训练过程中挖掘困难负样本作为训练数据，更新网络参数，并且选取困难样本三元组损失来作为损失函数，对其不断优化，通过优化损失，模型在训练过程中不断挖掘困难负样本，使网络充分训练，更好的区分相似目标，使模型学习到具有区分能力的特征，具有较好的目标跟踪效果。

Description

一种基于困难样本挖掘的孪生网络单目标视觉跟踪方法

技术领域

本发明属于计算机视觉技术领域，涉及图像处理技术，特别涉及一种基于困难样本挖掘的孪生网络单目标跟踪方法。

背景技术

单目标视觉跟踪是计算机视觉中较热门但同时也具有挑战性的研究课题之一，在智能视频监控、机器人视觉导航、医学诊断、水下生物的定位与跟踪等方面有着广泛的应用，具有比较广阔的发展前景。视觉目标跟踪指的是给定一个视频序列，在视频序列的第一帧中指定要跟踪的目标并且对要跟踪的目标进行初始位置的标定，然后预测该目标在后续帧中的位置和大小，准确地对目标进行跟踪。

早期的经典算法都是在时域上进行处理，这些算法涉及复杂的计算，较大的运算量使得跟踪实时性较差。随后出现了基于相关滤波的算法，相比之下，相关滤波的引入使得目标跟踪方法将计算转换到频域，极大地减少了运算量从而使速度获得了很大的提升。随着深度学习的发展，研究者将深度学习技术引入到目标跟踪中，提出了一系列方法并且取得了不错的效果。

近年来，基于孪生网络进行目标跟踪的方法受到了空前关注。现有的方法采用卷积神经网络对目标建模进行特征提取。在目标跟踪过程中，跟踪目标的离线训练是关系跟踪模型性能的关键之一，模型离线训练时，训练数据的选择尤其重要。现有的基于孪生网络的方法只用到了目标区域，将在目标区域内提取的特征，直接在测试帧图像的特征中进行相关操作，鲁棒性差，无法处理相似物体等复杂场景，判别能力不足。现有方法进行目标跟踪时通常将物体和实例的坐标距离小于阈值标记为正，否则标记为负，通过逻辑损失来最大化正样例对的相似性分数，最小化负样例对的相似性分数，此类方法只利用了样本对之间成对的关系，忽略了原型、正实例、负实例之间潜在的联系，未考虑困难样本对模型的作用，无法处理相似物体等复杂场景，而困难样本在目标识别等领域的作用已被研究者所证实。

发明内容

针对现有技术存在的不足，本发明提供一种基于困难样本挖掘的孪生网络单目标跟踪方法，将困难样本挖掘引入到目标跟踪方法中，在训练过程中挖掘困难负样本作为训练数据，更新网络参数，并且选取困难样本三元组损失来作为损失函数，对其不断优化，通过优化损失，模型在训练过程中不断挖掘困难负样本，使网络充分训练，更好的区分相似目标，使模型学习到具有区分能力的特征。

为了解决上述技术问题，本发明采用的技术方案是：

一种基于困难样本挖掘的孪生网络单目标跟踪方法，包括以下步骤：

步骤(1)、构建训练集：根据图像的目标位置和大小，裁剪出图像序列训练集中的所有图像的目标模板图像Z和搜索区域图像X，并且将搜索区域图像X分为正实例图像P和负实例图像N，图片Z和图片P组成一对正样本对，图片Z和图片N组成一对负样本对，以目标模板图像Z、正实例图像P、负实例图像N组成的(Z，P，N)三元组构成训练数据集；

步骤(2)、构建基于困难样本挖掘的卷积孪生网络，此网络包含三个分支并且三个分支共享特征提取网络的权重；三个分支分别用于获取目标模板图像的特征图、搜索区域正样本图像的特征图以及负样本图像的特征图，其中在特征提取时，定义困难样本，引入困难样本挖掘来学习具有区分能力的特征；

步骤(3)、将步骤(2)得到的目标模板图像特征图和搜索区域图像特征图进行互相关操作，得到响应图，响应图中分值较高的位置则被认定为图像目标物体最相似的位置，将响应图扩大到原图像尺寸，从而确定目标在待搜索图像上所在位置；

步骤(4)、基于步骤(1)所述训练集，训练基于困难样本挖掘的孪生网络，得到训练收敛的孪生网络；

步骤(5)、利用训练好的孪生网络进行在线目标跟踪。

进一步的，步骤(1)的操作包括裁剪目标区域模板图像和裁剪搜索区域图像；其中，目标模板图像的裁剪方法为：目标跟踪中模板图像的目标框是已知的，以被跟踪目标为中心裁剪出一个正方形区域，以目标区域的中心位置代表目标位置，在目标框四边分别扩充q个像素，最后将裁剪的目标图像块尺寸进行缩放；搜索区域图像的裁剪方法为：以目标区域为中心，在目标框四边分别扩充2q个像素，然后将裁剪的搜索区域图像块尺寸进行缩放；其中，q＝(w+h)/4，w为目标框的宽，h为目标框的高。

进一步的，步骤(2)中所述孪生网络不同分支的特征提取网络均为调整后的ResNet-50,输入的图像通过ResNet-50提取特征。

进一步的，所述正样本对为拥有相似视觉特征和高参照对比度的图像对，所述负样本对为拥有相似视觉特征和低参照对比度的图像对；数据集中的困难样本定义为：

P＝{(i,j)|S_v(x_i,x_j)≥α,S_c(y_i,y_j)≥β}

N＝{(m,n)|S_v(x_m,x_n)≥α,S_c(y_m,y_n)<β}

其中，S_v表示视觉特征相似度，S_c表示参照对比相似度，α代表视觉特征相似度的阈值，β表示参照对比相似度的阈值；

从训练集中挑选图片训练时，对于每张图片，挑出一个最不相似的正样本和一个最相似的负样本组成三元组，计算困难样本三元组损失；困难样本三元组损失定义为：

其中，M代表从每一批样本中挑选出的M个目标，N表示每个目标随机挑出N张图片，(z)₊代表max(z,0)，z是指maxd_A,P-mind_A,N+θ，θ是根据实际需要设定的阈值参数，表示正负样本相似度的差值边界，d_A,P表示模板样本与正样本的相似度，d_A,N表示模板样本与负样本的距离；

通过L_hard优化损失，模型在训练过程中不断挖掘正样本对和困难负样本，并学习到具有区分能力的特征。

进一步的，步骤(3)操作如下：在进行特征提取后，对不同层特征进行融合，低层特征有更多的目标位置信息而高层特征有更多的语义信息，先对高层特征进行上采样操作，然后再将其与低层特征进行融合，迭代生成不同分支多层特征融合后的特征图，目标模板图像特征图分别和搜索区域正样本图像特征图、负样本图像特征图进行互相关操作得到响应图，将响应图扩大到原图像尺寸，从而确定目标在待搜索图像上所在位置。

进一步的，步骤(4)的具体操作如下：

1)用初始的正负样本进行训练，通过训练，使得Z向P靠近，远离N，得到训练好的分类器；

2)用训练好的分类器对样本进行分类，把错误分类的样本作为困难负样本放入负样本子集，再继续训练分类器；

3)反复进行，直到分类器的性能不再提升。

进一步的，步骤(5)中所述在线跟踪过程包括以下步骤：

1)读取待跟踪视频序列的第一帧图片，获取其边界框信息，根据步骤(1)中所述裁剪目标模板图像的方法，裁剪出第一帧的目标模板图像Z，将Z输入步骤(4)中所述训练收敛的孪生网络的模板分支，提取模板图像的多层特征并进行融合，然后置t＝2；

2)读取待跟踪视频第t帧，并根据第t-1帧中确定的目标位置，按照步骤(1)中所述裁剪搜索区域图片的方法，裁剪出第t帧的搜索区域图像，将裁剪后第t帧搜索区域图像输入到步骤(4)中所述训练收敛的孪生网络的搜索分支，提取第t帧搜索图像的特征；

3)对1)中得到的经过多层融合后的特征图和2)中所得的特征图进行互相关操作；

4)置t＝t+1,判断t≤T是否成立，其中T为待测视频序列的总帧数，若成立则执行步骤2)—3)，否则待测视频序列跟踪过程结束。

与现有技术相比，本发明优点在于：

针对现有孪生网络目标跟踪方法未考虑困难样本对模型的作用的问题，本发明设计基于困难样本挖掘的孪生网络目标跟踪方法，将困难样本挖掘引入到目标跟踪孪生网络结构中，在训练过程中挖掘困难负样本作为训练数据，并且选取困难样本三元组损失来作为损失函数，对其不断优化，使模型学习到具有区分能力的特征，具有较好的目标跟踪效果。

具体的是，在训练过程中，先用初始的正负样本训练，再用训练好的分类器对样本进行分类，把错误分类的样本作为困难负样本放入负样本子集，再继续训练，反复进行直到分类器的性能不再提升。不同于传统三元组训练的样本都是简单易区分的样本，本发明选取困难样本三元组，在训练过程中利用困难样本更新网络参数，对于每一张图片，挑选出与其最不相似的正样本和最相似的负样本来计算困难三元组损失，通过优化损失，模型在训练过程中不断挖掘困难负样本，使网络充分训练，更好的区分相似目标，应对图像中存在的局部变化、背景干扰等问题，学习到的模型有更强的泛化能力。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的整体流程示意图；

图2为本发明困难样本挖掘策略结构示意图；

图3为使用本发明方法对第一视频序列进行目标跟踪的跟踪效果；

图4为使用本发明方法对第二视频序列进行目标跟踪的跟踪效果。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的说明。

结合图1所示的本发明的整体流程，一种基于困难样本挖掘的孪生网络单目标跟踪方法，包括以下步骤：

步骤(1)、构建训练集。

根据图像的目标位置和大小，裁剪出图像序列训练集中的所有图像的目标模板图像Z和搜索区域图像X，并且将搜索区域图像X分为正实例图像P和负实例图像N，图片Z和图片P组成一对正样本对，图片Z和图片N组成一对负样本对，以目标模板图像Z、正实例图像P、负实例图像N组成的(Z，P，N)三元组构成训练数据集。

具体地，步骤(1)的操作包括裁剪目标区域模板图像和裁剪搜索区域图像。其中，目标模板图像的裁剪方法为：目标跟踪中模板图像的目标框是已知的，以被跟踪目标为中心裁剪出一个正方形区域，以目标区域的中心位置代表目标位置，在目标框四边分别扩充q个像素，最后将裁剪的目标图像块尺寸缩放至127×127大小。搜索区域图像的裁剪方法为：以目标区域为中心，在目标框四边分别扩充2q个像素，然后将裁剪的搜索区域图像块尺寸缩放至255×255大小；其中，q＝(w+h)/4，w为目标框的宽，h为目标框的高。

步骤(2)、构建基于困难样本挖掘的卷积孪生网络，获得不同分支的特征图。

此网络包含三个分支并且三个分支共享特征提取网络的权重；三个分支分别用于获取目标模板图像的特征图、搜索区域正样本图像的特征图以及负样本图像的特征图，其中在特征提取时，定义困难样本，引入困难样本挖掘来学习具有区分能力的特征。

具体地，步骤(2)中所述孪生网络不同分支的特征提取网络均为微调后的ResNet-50，输入的图像通过ResNet-50提取特征。

引入困难样本挖掘来学习具有区分能力的特征。结合图2所示的本发明困难样本挖掘策略，具体地，本发明从视觉特征相似度和参照对比相似度两方面来考虑获取有效的困难样本对。将拥有相似视觉特征和高参照对比度的图像对定义为正样本对，将拥有相似视觉特征和低参照对比度的图像对定义为负样本对。

数据集中的困难样本定义为：

P＝{(i,j)|S_v(x_i,x_j)≥α,S_c(y_i,y_j)≥β}

N＝{(m,n)|S_v(x_m,x_n)≥α,S_c(y_m,y_n)<β}

其中，S_v表示视觉特征相似度，S_c表示参照对比相似度，α代表视觉特征相似度的阈值，β表示参照对比相似度的阈值。

传统的三元组从训练数据中抽样三张图片，这样的做法比较简单，但抽样出来的大部分都是简单易区分的样本对，如果大量训练的样本对都是简单的样本对，那么不利于网络学习到更好的特征。因此，本发明从训练集中挑选图片训练时，对于每张图片，会挑出一个最不相似的正样本和一个最相似的负样本组成三元组，计算困难样本三元组损失。

困难样本三元组损失定义为：

其中，M代表从每一批样本中挑选出的M个目标，N表示每个目标随机挑出N张图片，(z)₊代表max(z,0)，z是指maxd_A,P-mind_A,N+θ，θ是根据实际需要设定的阈值参数，表示正负样本相似度的差值边界，d_A,P表示模板样本与正样本的相似度，d_A,N表示模板样本与负样本的距离。

步骤(3)、将步骤(2)得到的目标模板图像特征图和搜索区域图像特征图进行互相关操作，得到响应图，响应图中分值较高的位置则被认定为图像目标物体最相似的位置，从而确定目标所在位置。

具体地，步骤(3)操作如下：在进行特征提取后，对不同层特征进行融合，低层特征有更多的目标位置信息而高层特征有更多的语义信息，先对高层特征进行上采样操作，然后再将其与低层特征进行融合，迭代生成不同分支多层特征融合后的特征图，目标模板图像特征图分别和搜索区域正样本图像特征图、负样本图像特征图进行互相关操作得到响应图。将响应图扩大到原图像尺寸，从而确定目标在待搜索图像上所在位置。

步骤(4)、基于步骤(1)所述训练集，训练基于困难样本挖掘的孪生网络，得到训练收敛的孪生网络。

具体地，步骤(4)的具体操作如下：

3)反复进行，直到分类器的性能不再提升。

步骤(5)、利用训练好的孪生网络进行在线目标跟踪。

具体地，步骤(5)中所述在线跟踪过程包括以下步骤：

1)读取待跟踪视频序列的第一帧图片，获取其边界框信息，根据步骤(1)中所述裁剪目标模板图像的方法，裁剪出第一帧的目标模板图像Z，将Z输入步骤(4)中所述训练收敛的孪生网络的模板分支，提取模板图像的多层特征并进行融合，然后置t＝2。

2)读取待跟踪视频第t帧，并根据第t-1帧中确定的目标位置，按照步骤(1)中所述裁剪搜索区域图片的方法，裁剪出第t帧的搜索区域图像，将裁剪后第t帧搜索区域图像输入到步骤(4)中所述训练收敛的孪生网络的搜索分支，提取第t帧搜索图像的特征。

3)对1)中得到的经过多层融合后的特征图和2)中所得的特征图进行互相关操作。

4)置t＝t+1,判断t≤T是否成立，其中T为待测视频序列的总帧数；若成立则执行步骤2)—3)，否则待测视频序列跟踪过程结束。

图3为使用本发明方法对第一视频序列进行目标跟踪的跟踪效果。可以看出，本发明提出的目标跟踪方法可以有效的跟踪到有相似背景干扰的目标。

图4为使用本发明方法对第二视频序列进行目标跟踪的跟踪效果。可以看出，本发明提出的目标跟踪方法可以有效跟踪到有姿态变化和快速运动的目标。

综上所述，本发明将困难样本挖掘引入到目标跟踪孪生网络结构中，设计了困难三元组损失，能够使网络充分训练，加强分类器判别能力，能够更好的区分相似目标，应对图像中存在的局部变化、背景干扰等问题，学习到的模型有更强的泛化能力。

当然，上述说明并非是对本发明的限制，本发明也并不限于上述举例，本技术领域的普通技术人员，在本发明的实质范围内，做出的变化、改型、添加或替换，都应属于本发明的保护范围。

Claims

1.一种基于困难样本挖掘的孪生网络单目标跟踪方法，其特征在于，包括以下步骤：

步骤(5)、利用训练好的孪生网络进行在线目标跟踪。

2.根据权利要求1所述的基于困难样本挖掘的孪生网络单目标跟踪方法，其特征在于，步骤(1)的操作包括裁剪目标区域模板图像和裁剪搜索区域图像；其中，目标模板图像的裁剪方法为：目标跟踪中模板图像的目标框是已知的，以被跟踪目标为中心裁剪出一个正方形区域，以目标区域的中心位置代表目标位置，在目标框四边分别扩充q个像素，最后将裁剪的目标图像块尺寸进行缩放；搜索区域图像的裁剪方法为：以目标区域为中心，在目标框四边分别扩充2q个像素，然后将裁剪的搜索区域图像块尺寸进行缩放；其中，q＝(w+h)/4，w为目标框的宽，h为目标框的高。

3.根据权利要求1所述的基于困难样本挖掘的孪生网络单目标跟踪方法，其特征在于，步骤(2)中所述孪生网络不同分支的特征提取网络均为调整后的ResNet-50,输入的图像通过ResNet-50提取特征。

4.根据权利要求1所述的基于困难样本挖掘的孪生网络单目标跟踪方法，其特征在于，所述正样本对为拥有相似视觉特征和高参照对比度的图像对，所述负样本对为拥有相似视觉特征和低参照对比度的图像对；数据集中的困难样本定义为：

P＝{(i，j)|S_v(x_i，x_j)≥α，S_c(y_i，y_j)≥β}

N＝{(m，n)|S_v(x_m，x_n)≥α，S_c(y_m，y_n)＜β}

其中，M代表从每一批样本中挑选出的M个目标，N表示每个目标随机挑出N张图片，(z)₊代表max(z，0)，z是指maxd_A，P-mind_A，N+θ，θ是根据实际需要设定的阈值参数，表示正负样本相似度的差值边界，d_A，P表示模板样本与正样本的相似度，d_A，N表示模板样本与负样本的距离；

5.根据权利要求1或4所述的基于困难样本挖掘的孪生网络单目标跟踪方法，其特征在于，步骤(3)操作如下：在进行特征提取后，对不同层特征进行融合，低层特征有更多的目标位置信息而高层特征有更多的语义信息，先对高层特征进行上采样操作，然后再将其与低层特征进行融合，迭代生成不同分支多层特征融合后的特征图，目标模板图像特征图分别和搜索区域正样本图像特征图、负样本图像特征图进行互相关操作得到响应图，将响应图扩大到原图像尺寸，从而确定目标在待搜索图像上所在位置。

6.根据权利要求1所述的基于困难样本挖掘的孪生网络单目标跟踪方法，其特征在于，步骤(4)的具体操作如下：

3)反复进行，直到分类器的性能不再提升。

7.根据权利要求2所述的基于困难样本挖掘的孪生网络单目标跟踪方法，其特征在于，步骤(5)中所述在线跟踪过程包括以下步骤：