CN111899284B

CN111899284B - 一种基于参数化esm网络的平面目标跟踪方法

Info

Publication number: CN111899284B
Application number: CN202010816457.5A
Authority: CN
Inventors: 王涛; 刘贺; 李浥东; 郎丛妍; 冯松鹤; 金�一
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2020-08-14
Filing date: 2020-08-14
Publication date: 2024-04-09
Anticipated expiration: 2040-08-14
Also published as: CN111899284A

Abstract

本发明实施例提供了一种基于参数化ESM网络的平面目标跟踪方法，包括：S1、获取目标模板T、第t帧的输入图像以及第t帧中的初始运动参数，由初始运动参数确定输入图像的目标区域I_t，对目标模板T和目标区域I_t进行预处理，包括图片缩放和归一化操作，使用特征提取网络对预处理后的目标模板T和第t帧的输入图像的目标区域I_t进行特征的提取，得到特征映射F^T和F_t ^I；S2、利用相似性度量模块计算两个特征映射F^T和F_t ^I之间的差异；S3、通过遮挡检测机制确定并排除目标在当前帧中被遮挡的部分，通过最小化当前帧中未被遮挡部分的差异求解目标的运动参数。本发明的方法更适用于目标跟踪任务，而且大大提高跟踪的准确性。

Description

一种基于参数化ESM网络的平面目标跟踪方法

技术领域

本发明涉及机器视觉与模式识别领域，尤其涉及一种基于参数化ESM网络的平面目标跟踪方法。

背景技术

平面目标跟踪是指给定一段视频帧序列，并在第一帧中指定感兴趣的平面物体，平面物体跟踪算法的目标是在后续视频帧中计算出平面物体的姿态变化。平面物体跟踪作为计算机视觉中的一个核心问题，在很多领域都有着应用，比如，增强现实，机器人控制，无人机技术等。

申请号为201510147895.6的专利文献公开了一种基于位平面的运动目标跟踪方法。该发明对跟踪目标和搜索区域求取平滑后的亮度位平面和局部二值模式位平面；然后在搜索区域的两个外观平面上搜索与跟踪目标对应的两个外观模型最为接近的区域作为跟踪目标；跟踪完成后，根据已建立的外观模型和当前帧中的跟踪结果，按照预先设定的更新速率更新外观模型。该发明在跟踪精度和鲁棒性上有明显的优势，有效地解决了视频中光照条件变化、目标位姿变化、以及外观显著变化等情况下运动目标跟踪困难的问题。

申请号为201910297980.9的专利文献公开了一种基于模板匹配和深度分类网络的运动目标跟踪方法，主要解决当时现有技术中目标检测速度慢，及在目标发生外观形变、遮挡时跟踪不准确的问题。该方案从双残差深度分类网络中提取模板网络和检测网络；在模板和检测区域上用对应的网络提取出模板特征和检测特征；将模板特征在检测特征上进行模板匹配，得到模板匹配图；根据模板匹配图确定目标位置；跟踪目标位置更新模板特征。该发明跟踪速度快，准确率高，用于对剧烈形变、光照变化视频目标跟踪。

对于申请号为201510147895.6专利文献，该方案在一定程度上解决了视频中光照变化、外观变化等情况下目标跟踪困难的问题。该发明虽然对目标的亮度以及纹理进行了精心设计的建模，但是其手工设计的建模方法并不能准确体现目标外观的特性。对于申请号为201910297980.9专利文献，该发明虽然采用了深度网络来作为特征提取器，但其特征提取器并没有嵌入在视频跟踪任务中构建成端到端的框架来进行训练和验证，而是在分类任务上对特征提取器进行训练，另外，该发明在计算特征响应图时采用的是简单的滑窗卷积方法。实际上，滑窗卷积方法不一定在深度特征图上适用。此外，这两种发明都没有考虑到目标部分被遮挡或者目标部分超出视野范围的情况。

发明内容

本发明的实施例提供了一种基于参数化ESM网络的平面目标跟踪方法，以克服现有技术的缺陷。

为了实现上述目的，本发明采取了如下技术方案。

一种基于参数化ESM网络的平面目标跟踪方法，构建深度平面物体跟踪模型，所述深度平面物体跟踪模型包括：特征提取网络、相似性度量模块和遮挡检测机制，构造数据集训练所述深度平面物体跟踪模型，所述平面目标跟踪方法包括：

S1、获取目标模板T、第t帧的输入图像以及第t帧中的初始运动参数，由初始运动参数确定输入图像的目标区域I_t，对目标模板T和目标区域I_t进行预处理，包括图片缩放和归一化操作，使用特征提取网络对预处理后的目标模板T和第t帧的输入图像的目标区域I_t进行特征的提取，得到特征映射F^T和F_t ^I，其中，预处理后的模板和目标区域维度均为h×l×3，h、l、3分别为图像的宽、长、图片的通道数；

S2、利用相似性度量模块计算两个特征映射F^T和F_t ^I之间的差异；

S3、通过遮挡检测机制确定并排除目标在当前帧中被遮挡的部分，通过最小化当前帧中未被遮挡部分的差异求解目标的运动参数。

优选地，将视频中每一帧的跟踪分为两个阶段，具体为：

第一阶段的跟踪结果的运动参数作为第二阶段的初始运动参数，在下一次迭代过程中，上一次第二阶段跟踪结果的运动参数作为当前迭代中第一阶段的初始运动参数。

优选地，每个阶段的特征提取网络是由7个卷积层组成的，每一层后连接着batchnorm层和激活函数ReLU层，前6个卷积层的卷积核数都为64，最后一个卷积层的卷积核数为8，在第k个阶段中，这7个卷积层的前4-k个卷积层的步长为2，剩余卷积层的步长为1，k为1或2。

优选地，所述相似性度量模块是基于u-net框架的encoder-decoder网络，其输入为目标模板T的特征映射F^T和第t帧输入图像的目标区域I_t的特征映射F_t ^I的拼接，输出为这两个特征映射F^T和F_t ^I的差异性张量。

优选地，所述S3包括：

将第t帧的输入图像的目标区域I_t简化表示为I，其特征映射F_t ^I简化表示为F^I，给定模板和第t帧输入图像的目标区域的L2标准化后的特征映射F^T和F^I，其特征维度为h′×l′×d，其中，h′和l′分别对应于被提取特征图像的宽和长，k为1或2，d表示特征的维度；

首先以每个特征为单位，分别将F^T和F^I沿h′方向展开成m×d的矩阵，其中m＝h′×l′，记为和/>表示被展开的模板T的特征映射，/>表示的是被展开的目标区域的特征映射，然后计算相关图R来记录每一对特征的相似度，相关图R维度为m×m，其公式如下：

其中，i,j分别表示目标模板T和目标区域的特征映射中特征的索引，R_i,j表示的是模板特征映射中第i个特征与目标区域的特征映射中第j个特征的相似度，Z是可训练的参数矩阵，Z维度为d×d，通过选取R中每行最大值来构成置信度向量公式如下：

然后，将中的元素归一化到[0,1]区间内作为最终的置信度向量/>

最后，将置信度向量以h′为一行，排列成h′×l′的大小，记为C，通过最小化未被遮挡部分的差异来求解目标的运动参数，见如下公式：

其中，p表示当前预测的目标运动参数；x表示特征在特征映射中的二维索引；C(·)是通过遮挡检测机制检测后该位置特征对优化的贡献度，被遮挡部分特征对于优化的贡献度为0，未被遮挡的特征贡献度为1；M(·,·)度量模板和目标区域中每对特征的差异性；表示坐标变换的公式；

采用ESM方法求解公式(3)，具体如下：

令

通过下式得到运动参数的增量：

其中表示矩阵的伪逆，J_T是在U单位变换处计算的的雅可比矩阵，J_E(p)表示p处E(x；p)的雅可比矩阵：

运动参数结合运动参数的增量Δp来更新：

其中，表示二进制操作。

优选地，所述构造数据集训练所述深度平面物体跟踪模型，包括：

构造两个带标签的数据集GEN-DATA和OCC-DATA，其中，GEN-DATA包括了光照、形变和噪声因素，OCC-DATA在GEN-DATA的基础之上，增加目标部分被遮挡和目标部分超出视野范围的情况，数据集GEN-DATA和OCC-DATA中的每个样本均为一个四元组(T,Q,p₀,p^gt)，其中，T为模板图像，Q为当前输入图像，p₀为初始运动参数，p^gt为目标的真实运动参数；

所述数据集GEN-DATA构造过程包括：几何变换和光学扰动；

所述几何变换包括：

给定目标模板T和目标的真实运动参数p^gt，通过透视变换公式将目标模板中的像素点映射到输入图像Q中，透视变换公式如下：

其中，为变换矩阵，(u,v)为像素的坐标，(x,y)为像素被透视变换后的坐标；

将输入图像Q中目标的角点分别沿任意方向移动d个像素，d取0到20的整数，根据移动后的角点坐标计算出对应的变换矩阵，即初始运动参数p₀；

所述光学扰动包括：

1)在输入图像上添加运动模糊或高斯模糊；

2)在输入图像上添加高斯噪声；

3)对输入图像上的所有像素沿一定方向实施不同程度的亮度变化；

所述数据集OCC-DATA构造过程包括：

对于GEN-DATA中的每一个样本，在输入图像中目标的每一个边上选择一个点，构成大小为N_P的点集，随机选择n(0≤n≤N_P)个点并顺次连接使视频帧中的目标区域分为几个部分，随机选取一部分填充上另一幅图片的图案来模拟遮挡情况；

数据集GEN-DATA和OCC-DATA均以8：2的比例分为训练集和验证集用来训练模型和验证模型的性能；

在训练时，首先不加入遮挡检测机制，用GEN-DATA来训练特征提取网络和相似性度量模块，在训练完成之后固定住特征提取网络和相似性度量模块的参数，用OCC-DATA来训练遮挡检测机制，同时微调特征提取网络和相似性度量模块的参数；

上述训练过程中所采用的损失函数公式如下：

其中，为模型预测的目标运动参数，p^gt为目标的真实运动参数；N为目标角点的数量，r_q为角点的坐标；/>表示坐标变换的公式。

由上述本发明的实施例提供的技术方案可以看出，本发明实施例提供了一种基于参数化ESM网络的平面目标跟踪方法，通过可训练的特征提取模块和充足的训练集，从而使特征提取模块学***面物体跟踪准确率远高于传统方法以及现有的基于深度网络的方法。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于参数化ESM网络的平面目标跟踪方法的流程图；

图2为本发明实施例提供的一种基于参数化ESM网络的平面目标跟踪方法的GEN-DATA生成效果图；

图3为本发明实施例提供的一种基于参数化ESM网络的平面目标跟踪方法的OCC-DATA生成效果图；

图4为本发明实施例提供的一种基于参数化ESM网络的平面目标跟踪方法的相似性度量模块流程图；

图5为本发明实施例提供的在第一帧中选定跟踪目标的示意图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

本发明实施例提供了一种基于参数化ESM网络的平面目标跟踪方法，如图1所示，构建深度平面物体跟踪模型，深度平面物体跟踪模型包括：特征提取网络、相似性度量模块(ML Layer，即metric learning layer)和遮挡检测机制(CMG，即confidence mapgenerator)，构造数据集训练深度平面物体跟踪模型。

为了训练模型，以MS-COCO数据集为材料，构造了两个带标签的数据集GEN-DATA和OCC-DATA来训练深度平面物体跟踪模型。其中，GEN-DATA主要包括了光照，形变，噪声等因素；OCC-DATA在GEN-DATA的基础之上，增加了目标部分被遮挡和目标部分超出视野范围的情况。这两个数据集中的每个样本均为一个四元组(T,Q,p₀,p^gt)，分别为模板图像，当前输入图像，初始运动参数，目标的真实运动参数。模板图像来自于由MS-COCO构建的模板池，即，将MS-COCO中的图片缩放为长宽为80～160像素的图片。

上述数据集GEN-DATA构造过程中主要包括几何变换和光学扰动的方法，如图2所示。

上述几何变换的方法为：

1)给定目标模板T和目标的真实运动参数p^gt，通过透视变换公式将目标模板中的像素点映射到输入图像Q中。透视变换公式如下：

其中，为变换矩阵，(u,v)为像素的坐标，(x,y)为像素被透视变换后的坐标。

2)将输入图像Q中目标的角点分别沿任意方向移动d个像素，d取0到20的整数。根据移动后的角点坐标计算出对应的变换矩阵，即初始的运动参数p₀。

上述光学扰动的实施具体为：

1)在输入图像上添加运动模糊或高斯模糊；

2)在输入图像上添加高斯噪声；

3)对输入图像上的所有像素沿一定方向(比如，从上到下，或者从左到右)实施不同程度的亮度变化。

上述数据集OCC-DATA的生成方法具体为：

对于GEN-DATA中的每一个样本，在输入图像中目标的每一个边上选择一个点，构成大小为N_P的点集。然后随机选择n(0≤n≤N_P)个点并顺次连接。这样，视频帧中的目标区域就会被分为几个部分。然后随机选取一部分填充上另一幅图片的图案来模拟遮挡情况，如图3所示。

上述两个数据集GEN-DATA和OCC-DATA均以8：2的比例分为训练集和验证集用来训练模型和验证模型的性能。

通过大量数据学习出来的特征更能体现目标的外观特性。在训练时，首先不加入特征检测模块，用GEN-DATA来训练特征提取网络和相似性度量模块。在训练完成之后我们固定住这两个模块的参数，用OCC-DATA来训练遮挡检测模块，同时微调特征提取网络和相似性度量模块的参数。

上述训练过程中所采用的损失函数公式如下：

其中，为模型预测的目标运动参数，p^gt为目标的真实运动参数。N为目标角点的数量，r_q为角点的坐标。/>表示坐标变换的公式。

将角点的距离和嵌入对数函数中，以避免loss比较大的样本主导整个训练过程。

在深度平面物体跟踪模型训练完成后，目标跟踪的过程如下：

将每一帧的跟踪分为两个阶段，具体为：

第一阶段的跟踪结果的运动参数作为第二阶段的初始运动参数，在下一次迭代过程中，上一次第二阶段跟踪结果的运动参数又作为当前迭代中第一阶段的初始运动参数。

以第一阶段为例：

S1、首先获取目标模板T、第t帧的输入图像以及第t帧中的初始运动参数，由初始运动参数确定输入图像的目标区域I_t，对目标模板T和目标区域I_t进行预处理，包括图片缩放和归一化等操作；使用特征提取网络对目标模板T和第t帧的输入图像的目标区域I_t进行特征的提取，得到特征映射F^T和F_t ^I，其中，预处理后的模板和目标区域维度均为h×l×3，h、l、3分别为图像的宽、长、图片的通道数。

每个阶段的特征提取网络是由7个卷积层组成的，每一层后连接着batchnorm层和激活函数(ReLU)层。前6个卷积层的卷积核数都为64，最后一个卷积层的卷积核数为8。在第k个阶段中，这7个卷积层的前4-k个卷积层的步长为2，剩余卷积层的步长为1，k取1或2。以第一阶段为例，则k＝1。

S2、利用相似性度量模块来计算两个特征映射F^T和F_t ^I之间的差异。其中，相似性度量模块是基于u-net框架的encoder-decoder网络，其输入为目标模板T的特征映射F^T和第t帧输入图像的目标区域I_t的特征映射F_t ^I的拼接，输出为这两个特征映射F^T和F_t ^I的差异性张量，如图4所示。

S3、利用遮挡检测机制来确定并排除目标在当前帧中被遮挡的部分，通过最小化当前帧中未被遮挡部分的差异求解目标的运动参数。

遮挡检测机制的检测过程具体如下：

为了更清楚的描述该过程，将第t帧的输入图像的目标区域I_t简化表示为I，其特征映射F_t ^I简化表示为F^I。给定模板和第t帧的输入图像的目标区域的L2标准化后的特征映射F^T和F^I(其特征维度为h′×l′×d，h′×l′分别对应于被提取特征图像的宽和长，k为1或2，d表示特征的维度)。

首先以每个特征为单位，将F^T和F^I沿h′方向展开成m×d的矩阵(其中m＝h′×l′)，记为和/>表示被展开的模板T的特征映射，/>表示的是被展开的目标区域的特征映射，然后计算相关图R(维度为m×m)来记录每一对特征的相似度，公式如下：

其中，i,j分别表示目标模板T和目标区域的特征映射中特征的索引，R_i,j表示的是模板特征映射中第i个特征与目标区域特征映射中第j个特征的相似度，Z(维度为d×d)是可训练的参数矩阵。然后通过选取R中每行最大值来构成置信度向量公式如下：

最后，将置信度向量以h’为一行，排列成h′×l′的大小，记为C。通过最小化未被遮挡部分的差异来求解目标的运动参数。见如下公式：

其中，p表示当前预测的目标运动参数；x表示特征在特征映射中的二维索引；C(·)是通过遮挡检测机制检测后该位置特征对优化的贡献度，理论上说被遮挡部分特征对于优化的贡献度为0，未被遮挡的特征贡献度为1；M(·,·)度量模板和目标区域中每对特征的差异性；表示坐标变换的公式。

采用ESM方法求解下述公式，具体如下：

令

可以通过下式得到运动参数的增量：

其中表示矩阵的伪逆，J_T是在U(单位变换)处计算的的雅可比矩阵，J_E(p)表示p处E(x；p)的雅可比矩阵：

运动参数结合运动参数的增量Δp来更新：

其中，°表示二进制操作。

第二阶段具体过程与前述第一阶段的方法类似，此处不再赘述。

本发明实施例提供的一种基于参数化ESM网络的平面目标跟踪过程如下：

(1)在第一帧中，通过标定目标的角点确定被跟踪目标区域。如图5所示，矩形框内部即为目标模板。

以图5为例，在标定好目标的同时，可以通过目标的四个角点坐标计算出对应的目标第一帧的真实运动参数

的获取过程如下：

假设模板的宽高为l，h。图5中以点1为原点建立模板的坐标系，点1到点4的坐标分别为(0,0)，(0,l)，(h,l)，(h,0)。在以这帧图像的左上角为原点建立这幅图像的坐标系，点1到点4在这幅图像的坐标为(x1,y1)，(x2,y2)，(x3,y3)，(x4,y4),将a33设为1，通过求解下面公式的逆运算得到

(2)从第二帧开始，第一帧的真实运动参数作为第二帧的初始运动参数p，输入图像为Q通过/>得到大小与模板相同的图像块(patch)，即为目标区域。然后对模板和目标区域进行预处理，特征提取，相似性度量，遮挡检测，最后通过多次迭代ESM的求解过程更新p。最后更新得到的p₁就作为这一帧的跟踪结果。

(3)在后续帧中，过程与(2)类似。

综上所述，本发明实施例提供了一种基于参数化ESM网络的平面目标跟踪方法，通过使用可训练的度量模块来计算深度特征之间的差异性，并且利用可训练的遮挡检测机制来辅助优化过程。另外，本发明生成了大量的带标签的样本来模拟现实跟踪场景，并通过设计好的loss函数来监督模型的训练过程，从而使用生成的目标跟踪样本以端到端的形式来训练特征提取网络、相似性度量模块和遮挡检测机制。相比于使用在图像分类任务上训练出来的特征提取器，结合传统的滑窗卷积的方法，本发明的训练方法使模型更适用于目标跟踪任务，并且学习出来的度量方法比传统的滑窗卷积方法更兼容于深度卷积特征，从而大大提高跟踪的准确性。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或***实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及***实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于参数化ESM网络的平面目标跟踪方法，其特征在于，构建深度平面物体跟踪模型，所述深度平面物体跟踪模型包括：特征提取网络、相似性度量模块和遮挡检测机制，构造数据集训练所述深度平面物体跟踪模型，所述平面目标跟踪方法包括：

S3、通过遮挡检测机制确定并排除目标在当前帧中被遮挡的部分，通过最小化当前帧中未被遮挡部分的差异求解目标的运动参数；具体包括：

首先以每个特征为单位，分别将F^T和F^I沿h′方向展开成m×d的矩阵，其中m＝h′×l′，记为和/> 表示被展开的模板T的特征映射，/>表示的是被展开的目标区域的特征映射，然后计算相关图R来记录每一对特征的相似度，相关图R维度为m×m，其公式如下：

采用ESM方法求解公式(3)，具体如下：

令

通过下式得到运动参数的增量：

其中表示矩阵的伪逆，J_T是在U单位变换处计算的/>的雅可比矩阵，J_E(p)表示p处E(x；p)的雅可比矩阵：

运动参数结合运动参数的增量Δp来更新：

p←p°Δp……(7)其中，°表示二进制操作。

2.根据权利要求1所述的方法，其特征在于，将视频中每一帧的跟踪分为两个阶段，具体为：

3.根据权利要求2所述的方法，其特征在于，每个阶段的特征提取网络是由7个卷积层组成的，每一层后连接着batchnorm层和激活函数ReLU层，前6个卷积层的卷积核数都为64，最后一个卷积层的卷积核数为8，在第k个阶段中，这7个卷积层的前4-k个卷积层的步长为2，剩余卷积层的步长为1，k为1或2。

4.根据权利要求1所述的方法，其特征在于，所述相似性度量模块是基于u-net框架的encoder-decoder网络，其输入为目标模板T的特征映射F^T和第t帧输入图像的目标区域I_t的特征映射F_t ^I的拼接，输出为这两个特征映射F^T和F_t ^I的差异性张量。

5.根据权利要求1所述的方法，其特征在于，所述构造数据集训练所述深度平面物体跟踪模型，包括：

所述数据集GEN-DATA构造过程包括：几何变换和光学扰动；

所述几何变换包括：

所述光学扰动包括：

1)在输入图像上添加运动模糊或高斯模糊；

2)在输入图像上添加高斯噪声；

所述数据集OCC-DATA构造过程包括：

上述训练过程中所采用的损失函数公式如下：