CN110210551A

CN110210551A - 一种基于自适应主体敏感的视觉目标跟踪方法

Info

Publication number: CN110210551A
Application number: CN201910452144.3A
Authority: CN
Inventors: 张辉; 齐天卉; 卓力; 李嘉锋
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-05-28
Filing date: 2019-05-28
Publication date: 2019-09-06
Anticipated expiration: 2039-05-28
Also published as: CN110210551B

Abstract

一种基于自适应主体敏感的视觉目标跟踪方法属于计算机视觉技术领域，包括整体流程、离线部分和在线部分。整体流程：设计了目标跟踪的流程，并设计了网络结构；将该网络各阶段特征图调整成自适应尺寸，完成孪生网络端到端跟踪过程；离线部分包括6个步骤：训练样本库生成；前向跟踪训练；反向传播梯度计算；梯度损失项计算；目标模板图像掩膜生成；网络模型训练及模型获取。在线部分包括3个步骤：模型更新；在线跟踪；定位目标区域。模型更新包括前向跟踪、反向传播梯度计算、梯度损失项计算、目标模板图像掩膜生成；在线跟踪包括前向跟踪得到相似性矩阵，计算当前跟踪结果置信度，回归目标区域。该方法能够更好地适应外观变化的目标稳健跟踪。

Description

一种基于自适应主体敏感的视觉目标跟踪方法

技术领域

本发明属于计算机视觉技术领域，涉及一种目标跟踪方法，更为具体的说，涉及一种基于自适应主体敏感的视觉目标跟踪方法。

背景技术

视觉目标跟踪是计算机视觉与视频处理中最基本的任务之一，在视频内容分析、智能交通***、人机交互、无人驾驶、视觉导航等领域有着重要的应用。典型的在线跟踪方法在给定视频第一帧中目标的边界框后，以自动的方式完成后续所有帧的目标定位。在真实的应用场景中，由成像条件、姿态变形等因素引起的目标外观变化错综复杂，将目标与杂乱的背景区分开来，实现目标的精准跟踪是一个极具挑战性的问题。

目前，视觉目标跟踪技术有相关滤波跟踪和深度学习跟踪两类主流方法。基于训练数据的循环结构假设，并借助快速傅里叶变换进行频域操作，相关滤波类视觉目标跟踪方法获得较高的计算效率和跟踪精度。代表性的基于相关滤波跟踪的MOSSE算法，其利用快速傅里叶变换操作使跟踪速度达到了600～700帧/秒。由于模型复杂度与灵活性的限制，传统算法随着数据量的持续增加往往很易出现性能饱和，而深度学习则呈现出对海量大数据的适应力。代表性FCNT方法根据对卷积神经网络(Convolutional Neural Network，CNN)不同层特征的分析，构建特征筛选网络和互补的响应图预测网络，达到有效抑制干扰物，降低了跟踪漂移，同时对目标本身的形变更为鲁棒。深度学习类算法利用“离线预训练+在线微调”的思路，借助深度学习强大的特征表达能力，达到跟踪目的。

更进一步的思路是将视觉目标跟踪当作一种相似度匹配，在搜索区域中逐点进行模板匹配，捕捉目标主体的敏感特征，然后以最大相似度得分作为目标位置的方式更贴合跟踪任务。基于此思路的深度孪生神经网络跟踪框架，近年来展现出巨大的发展潜力。代表性的方法——SiamFC利用卷积代替相关滤波，以全卷积网络的形式输出匹配响应图，并取响应值最高点预测出目标位置。SiamRPN方法在SiamFC方法的基础上迁移目标检测领域的候选区域提案网络。然而这种方法对于同类物体的区分能力较弱，为了获得更精准的目标主体，DaSiamRPN方法针对目标干扰物，引入干扰物感知模型，增强网络的类内区分力。但是，上述几种方法仅使用第一帧作为固定模板，后续帧匹配中过程无法适应目标及场景外观变化。DSiam方法则在SiamFC方法的基础上，通过在线学习形变矩阵动态调整目标模板以适应目标外观变化，使得此方法的跟踪精度和鲁棒性进一步提升。

综上所述，现有深度跟踪方法主要通过迁移物体分类、检测等任务的卷积神经网络参数来构建深度跟踪网络。尽管这种迁移方式在许多视觉任务中都取得了成功，但是在视觉跟踪应用中，相较于传统跟踪技术还未展现出明显的优势。一个关键问题是，在视觉跟踪应用中的目标往往不具有固定的语义类别信息，感兴趣目标可以是任意的图像块，如可以是行人、车辆等语义类对象，也可以是行人或车辆上标记区域等视觉单元，且值得关注的目标主体往往形状各异，且难以用矩形框区域精准描述。因此，预先训练的深层特征在建模这些任意形式的目标时效果还不尽如人意。在真实复杂的自然场景中，模型难以自适应不同类型的目标，也未获得对目标主体敏感、有效区分前景与背景的特征表达，视觉目标跟踪方法性能还亟需进一步提升。

发明内容

本发明的目的在于克服现有技术存在的缺陷，提出了一种基于深度学习的目标前景/背景自适应分离模型，并构建杂乱背景下的目标外观深度表达，实现一种基于目标主体分析的实时视觉目标跟踪方法。

本发明是采用以下技术手段实现的：

一种基于自适应主体敏感的视觉目标跟踪方法，主要包括整体流程、离线部分和在线部分。

整体流程：首先设计了目标跟踪的流程；然后根据此流程设计了网络结构；最后将该网络各阶段特征图调整成自适应尺寸，完成孪生网络端到端跟踪过程；

离线部分：主要包括6个步骤：训练样本库生成；前向跟踪训练；反向传播梯度计算；梯度损失项计算；目标模板图像掩膜生成；网络模型训练及模型获取。其中，网络模型训练及模型获取阶段包括跟踪损失函数、梯度损失项、梯度下降法的选取；

在线部分：主要包括3个步骤：模型更新；在线跟踪；定位目标区域。其中，模型更新包括前向跟踪、反向传播梯度计算、梯度损失项计算、目标模板图像掩膜生成；在线跟踪包括前向跟踪得到相似性矩阵，计算当前跟踪结果置信度，回归目标区域。

所述的整体流程，具体步骤如下：

(1)本发明的整体流程。如附图1所示，自适应主体敏感的视觉目标跟踪的在线流程主要包括在线更新和在线跟踪处理。当网络模型经过离线预训练调整后，本发明的视觉目标跟踪流程具体如下：

在初始帧处理过程中，输入模板图像和当前图像，对二者进行自适应主体敏感的孪生网络特征提取，产生跟踪回归响应，得到相似性矩阵；然后，通过计算反向传播梯度图、反向传播梯度损失项，优化求解最优模型。在后续帧处理过程中，输入模板图像和当前图像，通过自适应主体敏感孪生网络进行特征提取，产生跟踪回归响应；然后，计算跟踪回归响应的置信度，若置信度大于等于0.7则输出当前图像的跟踪结果，若置信度低于0.7则重复初始帧操作进行网络模型在线更新；

(2)本发明设计的网络结构，各层对应于自适应主体敏感的视觉目标跟踪流程，具有不同的物理意义。如附图3所示，本发明的网络结构包括孪生网络跟踪结构，两个自适应关注结构模块，目标模板图像掩膜融合结构。其中，在前向传播的步骤中，由孪生网络跟踪结构和两个自适应关注结构模块组成前向跟踪子模块。在反向传播的步骤中，利用目标模板图像掩膜融合结构作为反向传播子模块。孪生网络跟踪结构包括两组前向结构，每组分别有5个卷积层、5个归一化层和5个最大池化层，两组前向结构联合训练且权值共享。在孪生网络跟踪结构模板帧分支的前四个降采样处理层后添加自适应关注结构。该自适应关注结构为两个结构组合，分别利用特征的通道维和空间维信息。一个是特征通道自适应关注结构，另一个是空间位置自适应关注结构。特征通道自适应关注结构由1个平均池化层、1个最大池化层、2个卷积层组合。空间位置自适应关注结构由1个卷积层构成。目标模板图像掩膜融合结构为归一化与数学操作的组合。

在卷积神经网络的图像处理过程中，卷积层之间需要通过卷积滤波器联系，卷积滤波器的定义表示为D×C×W×H,其中，C代表被滤波图像的通道数；W、H分别代表滤波范围的宽、高；D代表卷积滤波器的种类。如20×3×5×5:代表滤波器宽高各为5个像素，输入图像通道数为3，共20种。

(3)本发明在自适应主体敏感的视觉目标跟踪过程中，各卷积层输入和输出特征图的变化如下：

本发明中在前向跟踪处理过程中，模板帧输入图像大小为3×127×127的图像，在第一个卷积层中，先经过96个卷积核11×11之后，再经过归一化层的输出通道数为96，然后经过最大池化得到96×29×29的特征图；在第二个卷积层中，输入大小为96×29×29的特征图，先经过256个卷积核5×5之后会产生256×25×25的特征图，再经过归一化层的输出通道数为256，然后经过最大池化得到256×12×12的特征图；在第三个卷积层中，输入大小为256×12×12的特征图，先经过384个卷积核3×3之后，再经过归一化层的输出通道数为384，然后经过最大池化得到384×10×10的特征图；在第四个卷积层中，输入大小为384×10×10的特征图，先经过384个卷积核3×3之后，再经过归一化层的输出通道数为384，然后经过最大池化得到384×8×8的特征图；在第五个卷积层中，输入大小为384×8×8的特征图，先经过256个卷积核3×3之后，再经过归一化层的输出通道数为256，然后经过最大池化得到256×6×6的特征图。当前帧输入图像大小为3×255×255的图像，在第一个卷积层中，先经过96个卷积核11×11之后，再经过归一化层的输出通道数为96，然后经过最大池化得到96×61×61的特征图；在第二个卷积层中，输入大小为96×61×61的特征图，先经过256个卷积核5×5之后，再经过归一化层的输出通道数为256，然后经过最大池化得到256×28×28的特征图；在第三个卷积层中，输入大小为256×28×28的特征图，先经过384个卷积核3×3之后，再经过归一化层的输出通道数为384，然后经过最大池化得到384×26×26的特征图；在第四个卷积层中，输入大小为384×26×26的特征图，先经过384个卷积核3×3之后，再经过归一化层的输出通道数为384，然后经过最大池化得到384×24×24的特征图；在第五个卷积层中，输入大小为384×24×24的特征图，先经过256个卷积核3×3之后，再经过归一化层的输出通道数为256，然后经过最大池化得到256×22×22的特征图。将获得的模板帧输出作为卷积核与当前帧输出特征卷积等到跟踪回归特征响应1×17×17。

本发明中在反向传播处理过程中，根据跟踪回归特征响应1×17×17，经过链式求导法则，计算关于模板图像第一个卷积层的梯度响应，得到大小为96×29×29的自适应目标掩膜，归一化梯度响应后与第一个卷积层的输出响应进行点积操作。

所述的离线部分，具体步骤如下：

(1)训练样本库生成：首先，根据网络结构处理训练样本，根据数据集提供的手工标注跟踪框，将目标位置随机偏移若干像素点，裁剪并压缩图像。再编码所有生成图像，使得训练样本可根据不同阶段需求进行重新分组；

(2)前向跟踪训练。输入模板图像与训练图像，对二者进行自适应主体敏感的孪生网络特征提取，产生跟踪回归响应，得到相似性矩阵；

(3)反向传播计算。由当前输入图片对的匹配跟踪结果与回归损失，根据链式求导法则，计算当前输入图片对的梯度映射；

(4)梯度损失项计算。针对目标与背景，分别通过梯度的方差与像素强度值，计算梯度损失项；

(5)目标模板图像掩膜生成。建立模板帧关于网络第一层卷积层输出的自适应关注掩膜，对生成的目标模板图像自适应关注掩膜进行数据归一化与该层输出进行点积操作，提高前景特征表达能力；

(6)网络模型训练及模型获取。根据当前获得的回归损失与梯度损失，使用梯度下降的方法进行网络参数更新。首先，为前向跟踪训练网络和目标模板图像掩膜分别建立损失监督，并采用常用的梯度下降法求解最小化损失函数的问题。其中，前向跟踪训练网络采用跟踪回归损失函数确定误差，通过随机梯度下降法调整最优化网络参数，基础学习率设置为0.0001，每训练1个轮次减半；权重衰减设为0.0005，动量设置为0.9；目标模板图像掩膜训练阶段采用随机梯度下降法计算梯度损失项和跟踪回归损失函数并调节网络参数，基础学习率设置为0.001，每训练1个轮次减半；权重衰减设为0.0005，动量设置为0.9；最后，经过反复迭代，当达到预设的最大迭代次数(50个轮次)时停止训练，获得网络模型。

所述的在线部分，具体步骤如下：

(1)输入模板图像与当前图像，进行网络前向特征提取，判断是否为第一帧输入，若是则进行步骤(2)；若不是则进行步骤(3)；

(2)模型更新。首先，进行前向跟踪，输入模板图像与当前图像，进行网络前向特征提取，获得当前输入图片对的匹配跟踪结果与跟踪回归损失；然后，进行反向传播计算，由当前输入图片对的匹配跟踪结果与跟踪回归损失，根据链式求导法则，计算当前输入图片对的梯度映射；接着计算梯度损失项，对提取的梯度映射进行数据标准化；最后，生成目标模板图像掩膜，建立模板帧关于网络第一层卷积层输出的目标模板图像自适应关注掩膜，对生成的自适应关注掩膜进行数据归一化与该层输出进行点积操作，获得关于的模板自适应增强表达。反复进行迭代更新，直到当前输入的总损失低于特定阈值λ(设为初始帧总损失的80％)；

(3)在线跟踪。输入模板图像与当前图像，通过获取图像得到相似性矩阵，其中输入模板图像分支采用自适应关注掩膜进行强化；根据获得的相似性矩阵计算当前跟踪结果置信度，若低于阈值α(设为0.7)代表目前跟踪结果不可靠，进行步骤(2)更新模型参数；

(4)定位目标区域。利用双三次插值将17×17的矩阵变为255×255的矩阵，从而确定跟踪目标结果；

(5)重复步骤(3)到步骤(4)，直到图像序列最后一帧。

本发明的特点：

本发明提出了一种基于自适应主体敏感的视觉目标跟踪方法，该方法能够更好地适应外观变化的目标稳健跟踪。首先，本发明设计了一种梯度损失项，增加算法对图像帧中前景/背景区域的区分力。其次，本发明利用反向传播梯度来表征基础卷积滤波器的重要性，并通过筛选高激活力特征，构建能自动生成目标模板图像掩膜，获得自适应关注目标主体部分的深度网络模型，提高了前景特征的表达能力。最后，利用特征的通道维和空间维敏感结构模块，在深度网络的结构上强化前景特征的捕捉能力。该网络采用细长型双流输入作为网络架构，根据迁移学习的思想，对预先训练好的模型采用微调的方式完成深度网络的训练，解决了梯度消失、梯度***的问题。

附图说明：

图1、是本发明基于自适应主体敏感的视觉目标跟踪方法的流程示意图；

图2、是本发明离线部分流程图；

图3、是本发明在线部分流程图。

具体实施方式：

以下结合说明书附图，对本发明的实施实例加以详细说明：

一种基于自适应主体敏感的视觉目标跟踪方法，整体流程图如附图1所示；算法分为离线部分和在线部分；其流程图分别如附图2和附图3所示；离线部分，首先根据训练样本集生成对应图片对，分别作为输入模板图像和当前图像；然后，将二者输入搭建好的自适应主体敏感孪生网络进行特征提取，产生跟踪回归响应并计算跟踪回归损失函数；接着，通过链式求导法则计算反向传播梯度，生成与网络模型输出叠加的目标模板图像掩膜；最后，计算跟踪回归损失与反向传播梯度损失项，反向传播优化求解最优模型，最大迭代轮次为50次。在线部分，在初始帧处理过程中，输入模板图像和当前图像，对二者进行自适应主体敏感的孪生网络特征提取，产生跟踪回归响应；然后，通过计算反向传播梯度，生成与网络模型输出叠加的目标模板图像掩膜；最后，迭代计算跟踪回归响应与反向传播梯度损失项，优化求解最优模型。在后续帧处理过程中，输入模板图像和当前图像，通过微调的自适应主体敏感的孪生网络进行特征提取，产生跟踪回归响应；然后，计算跟踪回归响应的置信度，若置信度高则输出当前图像的跟踪结果，若置信度低则重复初始帧操作进行网络模型在线更新。

所述的离线部分，具体步骤如下：

(1)训练样本库生成：首先，根据网络结构处理训练样本，根据数据集提供的手工标注跟踪框，以搜索区域x为中心，将目标位置随机偏移若干像素点，裁剪图像，并压缩大小为3×255×255。图像的缩放与填充公式：

s(w+2p)×s(h+2p)＝A (1)

其中，s为缩放比例，w为宽度，h为高度，p为偏移量，A为最终图片大小。如果超出图像则用像素平均值填充，保持目标宽高比不变。从

ILSVRC15(Large Scale Visual Recognition Challenge，2015)的4500个视频中选出4417个视频，超过2,000,000个标注的跟踪框作为训练集。再编码所有生成图像，使得训练样本可根据不同阶段需求进行重新分组，训练50个轮次，每个轮次有50,000个样本对。

(2)前向跟踪训练。输入模板图像与训练图像，对二者进行自适应主体敏感的孪生网络特征提取，产生跟踪回归响应，得到相似性矩阵：

z为输入模板图像，x训练图像，b₁为偏移量，判别方法来对正、负样本对进行训练，其跟踪回归损失函数定义如下：

L_track＝l(y,v)＝log(1+e^-yx) (3)

y∈(+1,-1)表示真值，v表示输入模板图像与训练图像的实际相似性得分，

D表示最后得到的相似度得分，u表示相似度得分中的所有位置。

(3)反向传播计算。由当前输入图片对的匹配跟踪结果与跟踪回归损失，根据链式求导法则，计算当前输入图片对的梯度映射：

其中，X_o是输出预测，X_in是输入特征，L_track是跟踪回归损失。利用回归损失的梯度，我们找到了能够对目标与背景敏感的滤波器。

(4)反向传播梯度损失项计算。对提取的梯度映射进行数据标准化，采用如下的标准化方法：

A_p、A_n分别为正样本与负样本梯度映射，σ、μ分别为方差和期望，

L_back＝y·R_(y＝1)+(1-y)·R_(y＝0) (8)

L_total＝L_track+β·L_back (9)

其中，L_back表示反向传播梯度损失项，R_(y＝1)和R_(y＝0)分别表示正、负样本的正则化项。L_total表示总损失函数，β为损失函数融合参数，β＝2。

(5)目标模板图像掩膜生成。建立模板帧关于网络第一层卷积层输出的目标模板图像自适应关注掩膜，对生成的自适应关注掩膜进行数据归一化与该层输出进行点积操作，获得关于的模板自适应增强表达。数据归一化公式：

x′＝(x-X_min)/(X_max-X_min) (10)

其中，X_min是最小响应值，X_max是最大响应值。

所述的在线部分，具体步骤如下：

(2)模型更新。首先，进行前向跟踪，输入模板图像与当前图像，进行网络前向特征提取，获得当前输入图片对的匹配跟踪结果与回归损失；然后，进行反向传播计算，由当前输入图片对的匹配跟踪结果与回归损失，根据链式求导法则，计算当前输入图片对的梯度映射；接着计算梯度损失项，对提取的梯度映射进行数据标准化，计算公式如离线部分；最后，生成目标模板图像掩膜，建立模板帧关于网络第一层卷积层输出的目标模板图像自适应关注掩膜，对生成的目标模板图像自适应关注掩膜进行数据归一化与该层输出进行点积操作，获得关于的模板自适应增强表达。反复进行迭代更新，直到当前输入的总损失低于特定阈值λ(设为初始帧总损失的80％)；

(4)定位目标区域。利用双三次插值：

对于每个待求像素点x，其像素值可由其相邻左右各两个像素加权求得：

其中，对于不同的s值有三次插值基函数如下：

将17×17的矩阵变为255×255的矩阵，从而定位目标区域；

(5)重复步骤(3)到步骤(4)，直到图像序列最后一帧。

本发明的目的在于克服现有技术存在的缺陷，提出了一种基于深度学习的目标前景/背景自适应分离模型，并构建杂乱背景下的目标外观深度表达，实现一种基于目标主体分析的实时视觉目标跟踪方法。由于本发明设计一种梯度损失项，增加前景/背景区分力。同时自动生成目标模板图像掩膜，提高前景特征表达能力。并且本发明使用了孪生网络提取的特征，同时添加了自适应结构模块因此在特征上包含了更多的语义信息，丰富了特征的表达能力，进而可以有更高的跟踪精度。与利用高层深度特征的视觉目标跟踪方法相比，本发明所使用结构模块嵌入卷积特征提取网络中，在不显著增加计算量和参数量的前提下能提升网络模型的特征提取能力，既可以节约计算损耗，而又不缺失语义信息。因此，本发明很好地在跟踪精度和跟踪速度上做了一个权衡，获得了优异的跟踪性能。

综上所述，本发明兼顾了跟踪精度与跟踪速度，实用性和适用性较强，具有很高的使用及推广价值。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神和基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于自适应主体敏感的视觉目标跟踪方法，其特征在于：包括整体流程、离线部分和在线部分；

离线部分：包括6个步骤：训练样本库生成；前向跟踪训练；反向传播梯度计算；梯度损失项计算；目标模板图像掩膜生成；网络模型训练及模型获取；其中，网络模型训练及模型获取阶段包括跟踪损失函数、梯度损失项、梯度下降法的选取；

在线部分：包括3个步骤：模型更新；在线跟踪；定位目标区域；其中，模型更新包括前向跟踪、反向传播梯度计算、梯度损失项计算、目标模板图像掩膜生成；在线跟踪包括前向跟踪得到相似性矩阵，计算当前跟踪结果置信度，回归目标区域；

所述的整体流程具体步骤如下：

(1)自适应主体敏感的视觉目标跟踪的在线流程包括在线更新和在线跟踪处理；当网络模型经过离线预训练调整后，视觉目标跟踪流程具体如下：

在初始帧处理过程中，输入模板图像和当前图像，对二者进行自适应主体敏感的孪生网络特征提取，产生跟踪回归响应，得到相似性矩阵；然后，通过计算反向传播梯度图、反向传播梯度损失项，优化求解最优模型；在后续帧处理过程中，输入模板图像和当前图像，通过自适应主体敏感孪生网络进行特征提取，产生跟踪回归响应；然后，计算跟踪回归响应的置信度，若置信度大于等于0.7则输出当前图像的跟踪结果，若置信度低于0.7则重复初始帧操作进行网络模型在线更新；

(2)网络结构包括孪生网络跟踪结构，两个自适应关注结构模块，目标模板图像掩膜融合结构；其中，在前向传播的步骤中，由孪生网络跟踪结构和两个自适应关注结构模块组成前向跟踪子模块；在反向传播的步骤中，利用目标模板图像掩膜融合结构作为反向传播子模块；孪生网络跟踪结构包括两组前向结构，每组分别有5个卷积层、5个归一化层和5个最大池化层，两组前向结构联合训练且权值共享；在孪生网络跟踪结构模板帧分支的前四个降采样处理层后添加自适应关注结构；

该自适应关注结构为两个结构组合，分别利用特征的通道维和空间维信息；一个是特征通道自适应关注结构，另一个是空间位置自适应关注结构；特征通道自适应关注结构由1个平均池化层、1个最大池化层、2个卷积层组合；空间位置自适应关注结构由1个卷积层构成；目标模板图像掩膜融合结构为归一化与数学操作的组合；

在卷积神经网络的图像处理过程中，卷积层之间需要通过卷积滤波器联系，卷积滤波器的定义表示为D×C×W×H,其中，C代表被滤波图像的通道数；W、H分别代表滤波范围的宽、高；D代表卷积滤波器的种类；

(3)在自适应主体敏感的视觉目标跟踪过程中，各卷积层输入和输出特征图的变化如下：

在前向跟踪处理过程中，模板帧输入图像大小为3×127×127的图像，在第一个卷积层中，先经过96个卷积核11×11之后，再经过归一化层的输出通道数为96，然后经过最大池化得到96×29×29的特征图；在第二个卷积层中，输入大小为96×29×29的特征图，先经过256个卷积核5×5之后会产生256×25×25的特征图，再经过归一化层的输出通道数为256，然后经过最大池化得到256×12×12的特征图；在第三个卷积层中，输入大小为256×12×12的特征图，先经过384个卷积核3×3之后，再经过归一化层的输出通道数为384，然后经过最大池化得到384×10×10的特征图；在第四个卷积层中，输入大小为384×10×10的特征图，先经过384个卷积核3×3之后，再经过归一化层的输出通道数为384，然后经过最大池化得到384×8×8的特征图；在第五个卷积层中，输入大小为384×8×8的特征图，先经过256个卷积核3×3之后，再经过归一化层的输出通道数为256，然后经过最大池化得到256×6×6的特征图；当前帧输入图像大小为3×255×255的图像，在第一个卷积层中，先经过96个卷积核11×11之后，再经过归一化层的输出通道数为96，然后经过最大池化得到96×61×61的特征图；在第二个卷积层中，输入大小为96×61×61的特征图，先经过256个卷积核5×5之后，再经过归一化层的输出通道数为256，然后经过最大池化得到256×28×28的特征图；在第三个卷积层中，输入大小为256×28×28的特征图，先经过384个卷积核3×3之后，再经过归一化层的输出通道数为384，然后经过最大池化得到384×26×26的特征图；在第四个卷积层中，输入大小为384×26×26的特征图，先经过384个卷积核3×3之后，再经过归一化层的输出通道数为384，然后经过最大池化得到384×24×24的特征图；在第五个卷积层中，输入大小为384×24×24的特征图，先经过256个卷积核3×3之后，再经过归一化层的输出通道数为256，然后经过最大池化得到256×22×22的特征图；将获得的模板帧输出作为卷积核与当前帧输出特征卷积等到跟踪回归特征响应1×17×17；

在反向传播处理过程中，根据跟踪回归特征响应1×17×17，经过链式求导法则，计算关于模板图像第一个卷积层的梯度响应，得到大小为96×29×29的自适应目标掩膜，归一化梯度响应后与第一个卷积层的输出响应进行点积操作。

2.根据权利要求1所述的一种基于自适应主体敏感的视觉目标跟踪方法，其特征在于，所述的离线部分具体步骤如下：

(1)训练样本库生成：首先，根据网络结构处理训练样本，根据数据集提供的手工标注跟踪框，将目标位置随机偏移若干像素点，裁剪并压缩图像；再编码所有生成图像；

(2)前向跟踪训练；输入模板图像与训练图像，对二者进行自适应主体敏感的孪生网络特征提取，产生跟踪回归响应，得到相似性矩阵；

(3)反向传播计算；由当前输入图片对的匹配跟踪结果与回归损失，根据链式求导法则，计算当前输入图片对的梯度映射；

(4)梯度损失项计算；针对目标与背景，分别通过梯度的方差与像素强度值，计算梯度损失项；

(5)目标模板图像掩膜生成；建立模板帧关于网络第一层卷积层输出的自适应关注掩膜，对生成的目标模板图像自适应关注掩膜进行数据归一化与该层输出进行点积操作；

(6)网络模型训练及模型获取；根据当前获得的回归损失与梯度损失，使用梯度下降的方法进行网络参数更新；首先，为前向跟踪训练网络和目标模板图像掩膜分别建立损失监督，并采用常用的梯度下降法求解最小化损失函数的问题；其中，前向跟踪训练网络采用跟踪回归损失函数确定误差，通过随机梯度下降法调整最优化网络参数，基础学习率设置为0.0001，每训练1个轮次减半；权重衰减设为0.0005，动量设置为0.9；目标模板图像掩膜训练阶段采用随机梯度下降法计算梯度损失项和跟踪回归损失函数并调节网络参数，基础学习率设置为0.001，每训练1个轮次减半；权重衰减设为0.0005，动量设置为0.9；最后，经过反复迭代，当达到预设的最大迭代次数时停止训练，获得网络模型。

3.根据权利要求1所述的一种基于自适应主体敏感的视觉目标跟踪方法，其特征在于，所述的在线部分具体步骤如下：

(2)模型更新；首先，进行前向跟踪，输入模板图像与当前图像，进行网络前向特征提取，获得当前输入图片对的匹配跟踪结果与跟踪回归损失；然后，进行反向传播计算，由当前输入图片对的匹配跟踪结果与跟踪回归损失，根据链式求导法则，计算当前输入图片对的梯度映射；接着计算梯度损失项，对提取的梯度映射进行数据标准化；最后，生成目标模板图像掩膜，建立模板帧关于网络第一层卷积层输出的目标模板图像自适应关注掩膜，对生成的自适应关注掩膜进行数据归一化与该层输出进行点积操作，获得关于的模板自适应增强表达；反复进行迭代更新，直到当前输入的总损失低于特定阈值λ，λ设为初始帧总损失的80％；

(3)在线跟踪；输入模板图像与当前图像，通过获取图像得到相似性矩阵，其中输入模板图像分支采用自适应关注掩膜进行强化；根据获得的相似性矩阵计算当前跟踪结果置信度，若低于阈值α，代表目前跟踪结果不可靠，α设为0.7，进行步骤(2)更新模型参数；

(4)定位目标区域；利用双三次插值将17×17的矩阵变为255×255的矩阵，从而确定跟踪目标结果；

(5)重复步骤(3)到步骤(4)，直到图像序列最后一帧。