CN114299113A

CN114299113A - 一种基于孪生网络的目标跟踪方法及装置

Info

Publication number: CN114299113A
Application number: CN202111614814.0A
Authority: CN
Inventors: 魏振忠; 蔡雁南; 谈可
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-12-27
Filing date: 2021-12-27
Publication date: 2022-04-08

Abstract

本发明涉及一种基于孪生网络的目标跟踪方法及装置，方法包括：获取目标跟踪的图像；对所述图像进行增强和裁剪得到模板图和搜索图；根据所述模板图和所述搜索图利用目标跟踪网络得到分类得分图和回归得分图；所述目标跟踪网络包括依次连接的特征提取网络、特征融合网络和分类回归网络；所述目标跟踪网络在训练阶段利用动态样本标签分配方法进行样本标签分配；利用所述分类得分图和所述回归得分图确定目标预测框。本发明在保证***速度的情况下提高目标定位的准确性。

Description

一种基于孪生网络的目标跟踪方法及装置

技术领域

本发明涉及目标跟踪领域，特别是涉及一种基于孪生网络的目标跟踪方法及装置。

背景技术

目标跟踪指的是在不断变化的视频序列中自动估计任意目标的运动轨迹，为进一步的语义分析(姿态估计、场景识别)提供基础，无论在民用安全还是军事国防方面都具有重要的研究意义，广泛应用于自动驾驶、安防监控、视觉导航和人机交互等领域。当前目标跟踪的主要难点在于目标的未知运动、外观形变和环境变化造成的跟踪漂移。

近年来，基于孪生网络的目标***由于其性能和速度的均衡优势取得了较大的成功。其将跟踪视为一个模板匹配问题，并且将跟踪任务分解为分类和回归子任务。要得到准确的目标框，无论是采用多尺度搜索策略还是预设锚框还是无锚框设计，首先应该提供响应图中准确的目标位置。因此分类分支的性能是算法性能好坏的基础。合理的定义正负样本可以提高分类分支的准确度并且弥补有无锚框跟踪算法的性能差距。现有的标签分配方法一般可分为固定标签分配和动态标签分配，其中固定标签分配又可细化为基于IoU阈值的和基于位置分布的两类标签分配方法。但是基于IoU阈值的方法受阈值选取的影响较大，基于位置分布的方法其主要衡量的指标是样本距离目标中心点的距离，此类方法在具体实施上略有差异，但面对不同类型的样本分布适应性较差。动态样本标签分配方法相对于固定样本标签分配方法在目标检测算法展现出巨大的潜力，成为当下的研究热点。但是在目标跟踪领域并未有利用动态样本标签分配的。

发明内容

本发明的目的是提供一种基于孪生网络的目标跟踪方法及装置，在保证***速度的情况下提高目标定位的准确性。

为实现上述目的，本发明提供了如下方案：

一种基于孪生网络的目标跟踪方法，包括：

获取目标跟踪的图像；

对所述图像进行增强和裁剪得到模板图和搜索图；

根据所述模板图和所述搜索图利用目标跟踪网络得到分类得分图和回归得分图；所述目标跟踪网络包括依次连接的特征提取网络、特征融合网络和分类回归网络；所述目标跟踪网络在训练阶段利用动态样本标签分配方法进行样本标签分配；

利用所述分类得分图和所述回归得分图确定目标预测框。

可选地，所述目标跟踪网络的训练过程，具体包括：

对训练集的搜索图和模板图利用动态样本标签分配方法进行标签分配，得到带有标签的正样本和带有标签的负样本；

将所述训练集的搜索图和模板图利用所述特征提取网络进行特征提取，得到特征图；

将所述特征图利用所述特征融合网络进行特征融合得到特征融合图；

将所述特征融合图输入所述分类回归网络得到训练集分类得分图和训练回归得分图；

根据所述训练集分类得分图、所述训练回归得分图、所述带有标签的正样本和所述带有标签的负样本确定网络损失函数；

根据所述网络损失函数利用随机梯度下降法对目标跟踪网络进行训练，得到训练好的目标跟踪网络。

可选地，所述对训练集的搜索图和模板图利用动态样本标签分配方法进行标签分配，得到带有标签的正样本和带有标签的负样本，具体包括：

分别以所述搜索图和所述模板图为中心设置锚点并在所述锚点上平铺多个锚框；

计算所有锚点与真实目标框中心点之间的欧式距离并根据所述欧氏距离选择设定数量的锚点；

根据所述设定数量的锚点与所述真实目标框之间的交并比确定带有标签的正样本和带有标签的负样本。

可选地，所述根据所述设定数量的锚点与所述真实目标框之间的交并比确定带有标签的正样本和带有标签的负样本，具体包括：

计算所有交并比的均值和标准差；

根据所述均值和所述标准差进行求和确定设定参数；

判断设定锚框的交并比是否大于或者等于所述设定参数，所述设定锚框为所述设定数量的锚点对应的锚框；

若是，则确定所述设定锚框为正样本，并确定所述正样本的标签为1；

若否，则按照设定比例进行随机分配，得到负样本和忽略样本；所述负样本的标签为0；所述忽略样本的标签为-1。

可选地，所述网络损失函数的表达式为：

其中，

为网络损失函数，w为分类得分图的长，h为分类得分图的宽，m为分类得分图的高，y为样本集合的标签，

为分类得分图，其中(i,j,k)分别为样本在分类得分图上的横坐标、纵坐标及锚框顺序。

可选地，所述对所述图像进行增强和裁剪得到模板图和搜索图，具体包括：

对所述图像进行裁剪和填充，得到重采样图像；

对所述重采样图像进行数据增强，得到增强图像；

对所述增强图像进行裁剪得到模板图和搜索图。

可选地，所述利用所述分类得分图和所述回归得分图确定目标预测框，具体包括：

根据所述分类得分图得到多个锚框的分类得分；

根据所述分类得分确定预测目标框；所述预测目标框为分类得分最高的锚框；

根据所述回归得分图的偏差量进行尺度和宽高比惩罚，得到预测回归框；

将所述预测回归框与所述预测目标框进行线性处理，得到目标预测框。

可选地，所述分类得分的表达式为：

s＝(1-λ)*peanlty*s₁+λ*ω

其中，s为分类得分，s₁为分类得分图，peanlty为尺度和宽高比惩罚项，ω为汉宁窗，λ为权重系数。

一种基于孪生网络的目标跟踪装置，其特征在于，所述基于孪生网络的目标跟踪装置应用上述任意一项所述的基于孪生网络的目标跟踪方法，所述基于孪生网络的目标跟踪装置包括：图像采集模块、跟踪计算模块、图像处理模块和伺服控制模块；

所述图像采集模块用于获取目标跟踪的图像；所述图像处理模块用于根据所述图像进行对目标跟踪网络进行训练和优化；所述跟踪计算模块用于根据所述图像确定目标预测框，并根据所述目标预测框确定脱靶量并将所述脱靶量传输至所述伺服控制模块；所述伺服控制模块用于根据所述脱靶量控制所述图像采集模块进行目标跟踪。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供的基于孪生网络的目标跟踪方法及装置，获取目标跟踪的图像；对所述图像进行增强和裁剪得到模板图和搜索图；根据所述模板图和所述搜索图利用目标跟踪网络得到分类得分图和回归得分图；所述目标跟踪网络包括依次连接的特征提取网络、特征融合网络和分类回归网络；所述目标跟踪网络在训练阶段利用动态样本标签分配方法进行样本标签分配；利用所述分类得分图和所述回归得分图确定目标预测框。动态样本标签分配方法只在发生在训练阶段且不影像测试阶段，因此，在保证***速度的情况下提高目标定位的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的基于孪生网络的目标跟踪方法流程图；

图2为本发明提供的目标跟踪网络结构示意图；

图3为本发明提供的续联样本制作流程图；

图4为本发明提供的样本标签分配示意图；

图5为本发明提供的在线跟踪流程图；

图6为本发明提供的基于孪生网络的目标跟踪装置示意图；

图7为基于孪生网络的目标跟踪方法在OTB2015数据集上的实验结果示意图；

图8为基于孪生网络的目标跟踪方法的效果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明提供的一种基于孪生网络的目标跟踪方法，包括：

步骤101：获取目标跟踪的图像。

步骤102：对所述图像进行增强和裁剪得到模板图和搜索图。所述对所述图像进行增强和裁剪得到模板图和搜索图，具体包括：对所述图像进行裁剪和填充，得到重采样图像。对所述重采样图像进行数据增强，得到增强图像。对所述增强图像进行裁剪得到模板图和搜索图。

步骤103：根据所述模板图和所述搜索图利用目标跟踪网络得到分类得分图和回归得分图；如图2所示，所述目标跟踪网络包括依次连接的特征提取网络、特征融合网络和分类回归网络；所述目标跟踪网络在训练阶段利用动态样本标签分配方法进行样本标签分配。特征提取网络101采用孪生网络，即权值共享。骨干网络采用修改后的现代化网络ResNet-50，保证了后三个阶段输出的特征图具有相同的空间分辨率。经过多层融合和模板特征图中心裁剪后，分别输出7*7*256和31*31*256大小的模板和搜索分支。

特征融合网络102通过两个3*3的卷积层进一步调整模板和搜索特征图的空间分辨率为5*5*256和29*29*256。将两个分支进行深度互相关操作，得到25*25*256的特征图。

目标分类回归网络103通过两个1*1的卷积得到25*25*10的分类得分图和25*25*20的回归得分图，分别进行目标定位和目标框估计。

网络模型采用python语言，在PyTorch框架上实现。

步骤104：利用所述分类得分图和所述回归得分图确定目标预测框。所述利用所述分类得分图和所述回归得分图确定目标预测框，具体包括：根据所述分类得分图得到多个锚框的分类得分。根据所述分类得分确定预测目标框；所述预测目标框为分类得分最高的锚框。根据所述回归得分图的偏差量进行尺度和宽高比惩罚，得到预测回归框。将所述预测回归框与所述预测目标框进行线性处理，得到目标预测框。所述分类得分的表达式为：

s＝(1-λ)*peanlty*s₁+λ*ω

在实际应用中，所述目标跟踪网络的训练过程，具体包括：

对训练集的搜索图和模板图利用动态样本标签分配方法进行标签分配，得到带有标签的正样本和带有标签的负样本。所述对训练集的搜索图和模板图利用动态样本标签分配方法进行标签分配，得到带有标签的正样本和带有标签的负样本，具体包括：分别以所述搜索图和所述模板图为中心设置锚点并在所述锚点上平铺多个锚框；计算所有锚点与真实目标框中心点之间的欧式距离并根据所述欧氏距离选择设定数量的锚点；根据所述设定数量的锚点与所述真实目标框之间的交并比确定带有标签的正样本和带有标签的负样本。所述根据所述设定数量的锚点与所述真实目标框之间的交并比确定带有标签的正样本和带有标签的负样本，具体包括：计算所有交并比的均值和标准差；根据所述均值和标准差进行求和确定设定参数；判断设定锚框的交并比是否大于或者等于所述设定参数，所述设定锚框为所述设定数量的锚点对应的锚框；若是，则确定所述设定锚框为正样本，并确定所述正样本的标签为1；若否，则按照设定比例进行随机分配，得到负样本和忽略样本；所述负样本的标签为0；所述忽略样本的标签为-1。

将所述训练集的搜索图和模板图利用所述特征提取网络进行特征提取，得到特征图。

将所述特征图利用所述特征融合网络进行特征融合得到特征融合图。

将所述特征融合图输入所述分类回归网络得到训练集分类得分图和训练回归得分图。

根据所述训练集分类得分图、所述训练回归得分图、所述带有标签的正样本和所述带有标签的负样本确定网络损失函数。

根据所述网络损失函数利用随机梯度下降法对目标跟踪网络进行训练，得到训练好的目标跟踪网络。所述网络损失函数的表达式为：

其中，

训练数据制作：

(1)如图3所示，在已经标注好的目标跟踪公开训练数据集中，选取一段视频序列中间隔N帧的两张图像，两张图像中真实目标框均可表示为(cx,cy,w,h)，其中(cx,cy)为矩形框的中心点坐标，w和h为矩形框的宽和高。

(2)以(cx,cy)为中心,以

为边长裁剪图像，若超出原图像大小，则用RGB均值进行边界填充，最后将图像重采样到511*511的大小，此时图像中真实目标框的中心点也是图像的中点。

(3)为了增加训练样本的多样性以及为避免中心位置偏见，对图像进行一系列的数据增强操作，如平移变换、翻转变化、尺度变化等，防止过拟合，让网络模型更加鲁棒。

(4)将数据增强后的两张图像以(255，255)为中心点分别裁剪成分辨率为127*127的模板图和分辨率为255*255的搜索图。预处理完毕的模板-搜索图像对可以直接送进网络进行训练。

动态样本标签分配

(1)如图4所示，为了估计真实目标的大小，将预处理完的255*255*3的搜索图像以(127，127)为中心，每间隔8个步长设置一个锚点，共设置25*25个锚点，每个锚点上平铺若干个不同宽高比的锚框，宽高比一般设置为{1:3,1:2,1:1,2:1,3:1},锚框总数为25*25*5，其中锚框和锚点的分布可参考图4。

(2)把每个锚框称为一个样本，接下来根据动态样本标签分配规则给每个样本添加标签。步骤(3)-(6)为动态分类样本标签分配规则。

(3)计算所有锚点与真实目标框中心点之间的欧氏距离，选取距离最近的K个锚点。

(4)每个锚点上平铺5个锚框，计算选定的5K个锚框与真实目标框之间的IoU(交并比)，并计算所有IoU的均值M_g和标准差V_g，衡量目标统计学特性的IoU阈值为均值和标准差之和T_g＝M_g+V_g。

(5)对于选定的5K个锚框，当其IoU大于或等于T_g时，该锚框被定义为正样本，标签为1。

(6)除正样本以外的所有锚框，按照1：4的比例随机分配为负样本和忽略样本，其标签分别为0和-1。

(7)回归样本标签分配规则与区域候选网络一致，即正样本与真实目标框之间的空间变换关系。

网络参数优化

网络损失为分类损失和回归损失的加权求和。其中分类损失为网络输出的分类得分图与分类标签之间的二分类交叉熵损失：

其中

是网络输出的分类得分图，w，h和m分别表示为分类得分图的长、宽和每个点上锚框的数量；y表示样本集合的标签；其中(i,j,k)分别为样本在分类得分图上的横坐标、纵坐标及锚框顺序正样本为1，负样本为0，忽略样本(不参与计算)为-1。回归损失为网络输出的回归得分图与回归标签之间的平滑L1损失。

网络的模型更新采用学习率带热身训练策略的随机梯度下降法，在公开数据集VOT、LaSOT、GOT10K等公开数据集上采用端到端的离线训练方式，每个周期训练800000个模板-搜索图像对，共训练15～20个周期。至此便完成了网络模型的训练阶段。

在线跟踪

如图5所示：

(1)加载模型参数

加载网络参数优化中训练好的网络模型参数，将处理完成的图像送入到网络模型中并保持网络模型参数不变。模板图像经过特征提取网络101后输出的特征图在跟踪过程中无需更新。

(2)跟踪图像预处理

给定先验信息，即要跟踪的视频序列的第一帧及其真实目标框，将第一帧图像以真实目标框的中心为中心，裁剪出一定大小的图像，重采样后处理成127*127的模板图像，第二帧及之后的每一帧，以上一帧的预测目标框为中心，裁剪并重采样后处理成255*255的搜索图像。

(3)预测跟踪框

由目标分类回归网络103的输出25*25*10的分类得分图和25*25*20回归得分图。分类得分图中包含每个锚框的预测得分。目标跟踪中常假设目标在相邻帧的大小和位置变化不大，因此增加了尺度和宽高比两个惩罚项来抑制大小突变，使用汉宁窗来抑制大位移。加上时空约束条件后，最终的每个锚框的分类得分为：

s＝(1-λ)*peanlty*s₁+λ*ω

其中s₁为103网络输出的分类得分，peanlty为尺度和宽高比惩罚项，ω是汉宁窗，λ是权重系数。最终得分最高的锚框为预测锚框。确定预测锚框的中心位置后，根据回归得分图给出的偏差量再次进行尺度和宽高比惩罚得到预测回归框，最后为了平滑跟踪结果，将预测回归框和上一帧的目标预测框做线性处理后得到最终的目标预测框，更新目标状态。

如图6所示，本发明提供的一种基于孪生网络的目标跟踪装置，所述基于孪生网络的目标跟踪装置应用上述基于孪生网络的目标跟踪方法，所述基于孪生网络的目标跟踪装置包括：图像采集模块、跟踪计算模块、图像处理模块和伺服控制模块。

图像采集模块的主要硬件为工业相机和可见光变焦镜头，主要作用是实时采集视场内的图像并保存历史图像，将采集到的图像转换传输送到图像处理模块和跟踪计算模块。图像处理模块可以利用存储的公开数据集和保存的历史图像对跟踪算法的模型参数进行训练和微调。跟踪计算模块在手动或检测算法给定初始帧目标框后，利用跟踪算法确定后续帧图像中目标框的位置，计算目标框中心与视场中心点的偏差即脱靶量并传输到伺服控制模块。伺服控制模块可根据脱靶量控制图像采集模块跟随目标方位、俯仰运动，使目标保持在图像中心区域，实现持续跟踪。根据目标框占图像比例大小调节镜头焦距，进而使得目标在拍摄图像中大小保持恒定。

本发明提供一种可以根据目标统计学特征自动选择正负样本的方法。由于只改变了模型的训练过程而对测试过程没有影响，所以跟踪速度可以保持原始算法的速度不降低，满足了工程落地的实时性需求，性能在没有额外开销的情况下得到了进一步的提高。该方法由网络结构设计和动态标签分配两大部分组成。其中网络结构设计部分包括将预处理后固定大小的一对模板图和搜索图送进权值共享的ResNet-50骨干网络进行特征提取，孪生网络输出的模板分支和搜索分支通过深度互相关操作进行特征融合，最后通过区域候选网络同步输出分类得分图和回归得分图。动态标签分配部分包括在已知真实回归框的搜索图像上平铺一定数量的锚框，选取锚框中心点与真实回归框中心点的欧氏距离最近的若干锚框参与计算，被选中的锚框与真实回归框的交并比经过统计学处理后得到一个动态的阈值，搜索图上与真实回归框的交并比大于阈值的锚框被标记为正样本，剩余的锚框按一定比例随机分配为负样本或忽略样本。正、负和忽略样本的标签分别设定为1、0和-1。

目标***采用端到端的大尺度图像对离线训练方式，模型的总损失为网络输出的分类得分图与正负样本之间的交叉熵损失和回归得分图与正负样本之间的平滑L1损失之和。使用随机梯度下降法优化网络模型参数。动态标签分配只发生在训练阶段且不影响测试阶段，因此在提高***精度的同时保证了***速度不降低。

OTB2015是吴毅等人在CVPR2013上提出的评估目标跟踪算法性能的基准集，包含有100个人工标注了跟踪目标位置的视频序列，设置了11种跟踪过程中常见的难点如光照变化、尺度变化、遮挡等，在目标跟踪领域被广泛使用。OTB方法使用基于IoU的成功率图(Success plot)和基于中心位置误差的精度图(Precisionplot)来评估跟踪算法性能。计算***在所有帧上的预测目标框与真实目标框之间的IoU，当IoU大于某一阈值时认为***在该帧成功预测目标，成功率图就是不同阈值下的跟踪成功帧数占总帧数的比例。精度图是指预测目标框与真实目标框中心点之间的偏差的像素数小于给定阈值的帧数占总帧数的比例。AUC是成功率图曲线下的面积，是表征算法准确性的重要参数。

算法在单次评估准则(OPE)下的性能测试结果如图7所示，其中，图7(a)为成功率曲线图，图7(b)为精确度曲线图。通过对比当前主流的目标***SiamRCNN，SiamCAR，DaSiamRPN，ECO_HC，DiMP，ATOM，可以看到本发明的AUC为70.6％，算法精度92％，表明本发明的准确性高于其他算法。本发明的跟踪效果图如图8所示。其中图8(a)(b)(c)(d)(e)分别为算法在OTB100数据集中Bird1、Human2、Liquor、Twinnings、Trans视频序列的跟踪效果，每张图片左上角的数字代表视频序列的帧数顺序。在NVIDIA RTX 2080ti GPU下本发明的速度达到70fps，满足了实时性的要求。

算法高性能的来源主要有以下两个方面：1)在训练阶段，基于目标统计学特征的自适应正负样本选择方法减少了标签分配中人为设定的超参数对***分类分支结果的影响，提高了分类分支目标定位的准确性；2)在测试阶段，采用离线训练好的网络模型，跟踪过程中模型参数不更新，因此本发明不影响***的速度。

文章Bo,L.,et al.High Performance Visual Tracking with Siamese RegionProposal Network.in 2018 IEEE/CVF Conference on Computer Vision and PatternRecognition(CVPR).2018.首次将区域候选网络引入到目标跟踪，把目标跟踪转化为one-shot检测问题，让目标***可以回归位置、形状，省掉了多尺度测试。但因为只采用了无填充的AlexNet网络，网络层次太浅，在一定程度上限制了算法的性能。

文章Li,B.,et al.SiamRPN++:Evolution of Siamese Visual Tracking WithVery Deep Networks.in 2019 IEEE/CVF Conference on Computer Vision and PatternRecognition(CVPR).2020.通过改进采样方式，使得更深层的现代化网络可以应用于目标跟踪中。升级模板和搜索分支的互相关方式为轻量级的depth-wise互相关，较少了参数量，使得训练更稳定，进一步提高了算法的性能并加速。但其仍采用基于IoU的固定标签分配方法，相关超参数对***性能影响很大。

文章Guo,D.,et al.SiamCAR:Siamese Fully Convolutional Classificationand Regression for Visual Tracking.in 2020 IEEE/CVF Conference on ComputerVision and Pattern Recognition(CVPR).2020.为进一步减少区域候选网络中预设锚框带来的大量超参数和减少人为调参的干扰，提出了无锚框的***，把目标跟踪任务分解为逐像素预测和边界框回归，框架简单有效。但其仍采用了基于距离的固定标签分配方法，影响了***的性能。

文章Zhang,S.,et al.Bridging the Gap Between Anchor-Based and Anchor-Free Detection via Adaptive Training Sample Selection.in 2020 IEEE/CVFConference on ComputerVision andPattern Recognition(CVPR).2020.理论加实验分析了如何定义正负样本是基于锚框的和无锚框的两类目标检测器性能差异的本质，提出了基于统计特性的自适应正负样本选择方法。但是由于目标跟踪与目标检测算法的差异性，需要对此类方法调整设计后才可以满足目标跟踪算法的需求。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于孪生网络的目标跟踪方法，其特征在于，包括：

获取目标跟踪的图像；

对所述图像进行增强和裁剪得到模板图和搜索图；

利用所述分类得分图和所述回归得分图确定目标预测框。

2.根据权利要求1所述的基于孪生网络的目标跟踪方法，其特征在于，所述目标跟踪网络的训练过程，具体包括：

3.根据权利要求2所述的基于孪生网络的目标跟踪方法，其特征在于，所述对训练集的搜索图和模板图利用动态样本标签分配方法进行标签分配，得到带有标签的正样本和带有标签的负样本，具体包括：

4.根据权利要求3所述的基于孪生网络的目标跟踪方法，其特征在于，所述根据所述设定数量的锚点与所述真实目标框之间的交并比确定带有标签的正样本和带有标签的负样本，具体包括：

计算所有交并比的均值和标准差；

根据所述均值和所述标准差进行求和确定设定参数；

5.根据权利要求2所述的基于孪生网络的目标跟踪方法，其特征在于，所述网络损失函数的表达式为：

其中，

6.根据权利要求1所述的基于孪生网络的目标跟踪方法，其特征在于，所述对所述图像进行增强和裁剪得到模板图和搜索图，具体包括：

对所述图像进行裁剪和填充，得到重采样图像；

对所述重采样图像进行数据增强，得到增强图像；

对所述增强图像进行裁剪得到模板图和搜索图。

7.根据权利要求1所述的基于孪生网络的目标跟踪方法，其特征在于，所述利用所述分类得分图和所述回归得分图确定目标预测框，具体包括：

根据所述分类得分图得到多个锚框的分类得分；

8.根据权利要求7所述的基于孪生网络的目标跟踪方法，其特征在于，所述分类得分的表达式为：

s＝(1-λ)*peanlty*s₁+λ*ω

9.一种基于孪生网络的目标跟踪装置，其特征在于，所述基于孪生网络的目标跟踪装置应用权利要求1-8任意一项所述的基于孪生网络的目标跟踪方法，所述基于孪生网络的目标跟踪装置包括：图像采集模块、跟踪计算模块、图像处理模块和伺服控制模块；