CN117974722B

CN117974722B - 基于注意力机制和改进的Transformer的单目标跟踪***及方法

Info

Publication number: CN117974722B
Application number: CN202410389346.9A
Authority: CN
Inventors: 刘刚; 王冰冰; 段泳帆; 龚洪涛; 王子华
Original assignee: Jiangxi Normal University
Current assignee: Jiangxi Normal University
Priority date: 2024-04-02
Filing date: 2024-04-02
Publication date: 2024-06-11
Anticipated expiration: 2044-04-02
Also published as: CN117974722A

Abstract

本申请提出一种基于注意力机制和改进的Transformer的单目标跟踪***及方法，该方法包括：获取视频序列中的两帧图像分别作为训练图像和测试图像并输入单目标跟踪网络进行特征提取，将提取的特征输入构建的特征整合模块，得到全局和局部的整合特征信息；对整合特征信息输入改进的Transformer的多头注意力机制中的时空特征增强模块，以捕获图像内部的时空上下文特征；将时空上下文特征输入构建的双头预测模块中，以得到目标位置信息。本申请提出的方法能够解决现有的单目标跟踪方法由特征提取能力弱、预测存在不确定性以及特征融合阶段没有充分利用相邻键之间的丰富上下文引起的精度和效率不高的问题。

Description

基于注意力机制和改进的Transformer的单目标跟踪***及方法

技术领域

本申请涉及计算机视觉、深度学习领域领域，特别涉及一种基于注意力机制和改进的Transformer的单目标跟踪***及方法。

背景技术

单目标跟踪是计算机视觉领域中的一个重要研究方向，在智能安防领域、智慧交通领域、自动驾驶领域、人机交互领域以及智能化军事领域有着广泛的应用。单目标跟踪的核心机制主要是将目标在视频初始帧的状态作为先验知识，然后根据先验知识在后续视频序列中持续准确地捕获该目标的位置信息和尺度信息。其中目标在起始帧的状态包括位置和尺度信息。

目前，单目标跟踪领域的主流算法框架可以分为基于相关滤波的单目标跟踪方法以及基于深度学习的单目标跟踪方法。基于相关滤波的***使用颜色特征、多通道特征和直方图特征等手工特征来提高特征的质量，但这些特征还是相对简单，单纯使用这些特征很难提高***的鲁棒性。而基于深度学习的单目标跟踪算法又可以进一步划分为基于孪生网络和基于其他深度学习方法的单目标跟踪，已表现出较为优异的性能。

然而，在***特征提取方面，由于目标会受到背景干扰物体的影响，导致***错误地关注了非目标区域或错过了目标，并且当目标被遮挡时，传统的单目标跟踪算法容易出现漏检或错误跟踪的情况；在此基础上，在视觉目标跟踪预测阶段，使用由三层感知器组成的前馈神经网络来预测目标的位置虽然简单有效，但没有考虑数据集的模糊性和不确定性，难以处理遮挡和复杂背景等问题。在时空特征融合方面，现有单目标跟踪方法没有充分利用到Transformer编码器和解码器中相邻键之间的丰富上下文，并且没有考虑到输入目标特征本身存在的时空信息以及状态信息对单目标***有较大的增强作用。因此，现有的单目标跟踪***还存在特征提取能力弱、预测存在不确定性以及特征融合阶段没有充分利用相邻键之间的丰富上下文，从而影响了单目标跟踪的精度和效率。

发明内容

基于此，本申请提出一种基于注意力机制和改进的Transformer的单目标跟踪***及方法，旨在能够解决现有的单目标跟踪***还存在特征提取能力弱、预测存在不确定性以及特征融合阶段没有充分利用相邻键之间的丰富上下文，从而影响了单目标跟踪的精度和效率的问题。

实施例的第一方面提供了一种单目标跟踪***，包括：

图像获取模块，用于获取视频序列中的两帧图像分别作为训练图像和测试图像；

特征提取模块，用于将所述训练图像和所述测试图像输入单目标跟踪网络进行特征提取，得到所述视频序列的高级特征表示；

特征整合模块，用于对所述高级特征表示进行特征整合，得到包含特征尺度信息和空间特征信息的整合特征信息；

特征增强模块，用于对所述整合特征信息输入改进的Transformer的多头注意力机制中进行时空特征增强，以捕获图像内部的时空上下文特征；

双头预测模块，用于对所述时空上下文特征进行空间特征、时间特征以及在时空上下文信息的同步处理，再使用分类分支和回归分支结合的方式预测目标的具***置。

与现有技术相比，本申请提出的一种基于注意力机制和改进的Transformer的单目标跟踪***。该***通过使用两帧图像分别作为训练图像和测试图像，再对这两图像进行提取后进行特征整合，结合了全局与局部特征，提高了全局交互信息和遮挡目标的深度特征提取能力；在此基础上设计了包括多层感知机预测单元和改进时空预测单元的双头预测模块，相比于单预测头，能够充分考虑了局部时空环境对目标位置的影响，增强了预测阶段对时空上下文信息的利用能力；还通过一种改进的Transformer，来处理Transformer编/解码层相邻键之间丰富的上下文时空信息，并采用全局关系建模来提高判别时空特征的融合能力，有效缓解了由于目标尺度和形状变化对***的影响。因此，本***能够解决现有的单目标跟踪方法还存在特征提取能力弱、预测存在不确定性以及特征融合阶段没有充分利用相邻键之间的丰富上下文，从而影响了单目标跟踪的精度和效率的问题。

作为第一方面的一种可选实施方式，所述特征整合模块包括：

空间金字塔单元：用于，将所述特征输入所述空间金字塔单元，进行卷积变换将通道数量调整为变换前的1/4，再进行3×3、7×7以及11×11的最大池化操作，再进行通道维度合并，用公式表示为：

，

其中，表示空间金字塔单元的输出特征，/>表示卷积变换输出的特征，/>表示池化操作，/>表示池化核大小；

多尺度注意力单元：用于，将所述空间金字塔单元的输出输入所述多尺度注意力单元，得到全局通道注意力和局部通道注意力，用公式表示为：

，

其中，表示全局通道注意力，/>表示局部通道注意力，/>表示最大池化，/>和/>分别表示1D卷积和2D卷积，和/>为激活函数；

第一赋权单元：用于，对所述全局通道注意力和所述局部通道注意力赋予权重，得到所述整合特征信息，用公式表示为：

，

其中，X表示输入特征的权重，Y表示输出的整合特征信息。

作为第一方面的一种可选实施方式，所述特征增强模块包括：

全局尺度时空处理单元：用于，将所述整合特征信息输入全局尺度时空处理单元，通过自适应平均池化、全连接层以及使用Dropout方法，得到键的全局尺度权重，用公式表示为：

，

其中，表示键的全局尺度权重，K表示由整合特征信息Y经线性变换得到的键特征，FC表示全连接层，D表示Dropout方法；

局部尺度时空处理单元：用于，将所述整合特征信息输入局部尺度时空处理单元，通过两个一维卷积和使用激活函数，得到键的局部尺度权重，用公式表示为：

，

其中，表示键的局部尺度权重；

第二赋权单元：用于，采用键的全局尺度权重和局部尺度权重/>的逐元素相加，再与键特征K逐元素相乘，得到最终增强后的键/>，用公式表示为：

。

所述特征增强模块还包括改进的Transformer模型的多头注意力机制单元，用于从最终增强后的相邻键之间的上下文信息和时空特征信息进一步捕捉到图像序列内部的时空上下文特征，所述改进的Transformer模型的多头注意力机制公式表示为：

，

其中，表示多头注意力机制，/>表示K的维度，Q、K和V表示输入特征，T表示时间维度，/>表示位置信息编码，/>表示时空特征增强方法，/>表示分类函数。

作为第一方面的一种可选实施方式，所述双头预测模块包括多层感知机预测单元和改进时空预测单元，所述改进时空预测单元由改进的时空注意力机制嵌入所述多层感知机预测单元所得到；所述改进的时空注意力机制包括全局空间分支单元和局部时间分支单元；

全局空间分支单元：用于，使用两个全连接层及Dropout方法对输入特征进行全局处理，以学习图像的上下文特征信息，所述全局空间分支单元的公式表示为：

，

其中，表示全局空间分支单元输出的权重，/>表示输入特征图；

局部时间分支单元：用于，使用3D卷积层对时序进行建模，以学习帧之间的时序关系，所述局部时间分支单元的公式表示为：

，

其中，表示局部时间分支单元输出的权重，/>表示输入特征图，/>表示3D卷积。

所述多层感知机预测单元包括三个连接层和一个ReLU激活函数，所述多层感知机预测单元的公式表示为：

，

其中，表示输入的时空上下文特征，/>表示多层感知机预测单元输出的预测特征分类信息；

所述改进时空预测单元的公式表示为：

，

其中，表示输入的时空上下文特征，/>表示改进时空预测单元输出的预测特征分类信息。

将所述多层感知机预测单元输出的预测特征分类信息和所述改进时空预测单元输出的预测特征分类信息均经过分类分支和回归分支，得到最终预测目标的具***置。

本申请实施例的第二方面提供了一种单目标跟踪方法，基于注意力机制和改进的Transformer的单目标***实现，所述***包括图像获取模块、特征提取模块、特征整合模块、特征增强模块和双头预测模块，所述方法包括：

获取视频序列中的两帧图像分别作为训练图像和测试图像；

将所述训练图像和所述测试图像输入单目标跟踪网络进行特征提取，得到所述视频序列的高级特征表示；

对所述高级特征表示进行特征整合，得到包含特征尺度信息和空间特征信息的整合特征信息；

对所述整合特征信息输入改进的Transformer的多头注意力机制中进行时空特征增强，以捕获图像内部的时空上下文特征；

对所述时空上下文特征进行空间特征、时间特征以及在时空上下文信息的同步处理，再使用分类分支和回归分支结合的方式预测目标的具***置。

本申请实施例的第三方面提供了一种计算机设备，所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的图像处理程序，所述图像处理程序被所述处理器执行时实现所述的单目标跟踪***。

本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有图像处理程序，所述图像处理程序被处理器运行时执行所述的单目标跟踪***。

本申请有益效果：

在***特征提取方面，本文提出了一个具有较大感受野的空间-通道注意力机制。利用空间金字塔、多尺度通道注意力机制和大感受野方法，通过结合空间特征、全局与局部特征提高了全局交互信息和目标自身深度特征的表达能力；在***的目标预测阶段，利用并行的全局、局部空间特征计算和整体时间特征获取，改进了传统的时空注意力机制。在此基础上设计了相应的时空预测头，充分考虑了局部时空环境对目标位置的影响，增强了预测阶段对时空上下文信息的利用能力，从而提高了***的准确率和鲁棒性。

另一方面，为改善因跟踪视角和光照条件变化导致的目标畸变现象，本文提出了一种Transformer的改进方法，利用全局和局部时空操作，来处理Transformer编/解码层相邻键之间丰富的上下文时空信息，从而增强了编/解码器在空间和时间维度上的联系，并采用全局关系建模来提高判别性时空特征的融合能力，有效缓解了由于目标尺度和形状变化对***的影响从而提高了单目标***的性能。

本申请的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实施例了解到。

附图说明

图1为本申请第一实施例提出的基于注意力机制和改进的Transformer的单目标跟踪***的结构示意图；

图2为本申请第二实施例提出的基于注意力机制和改进的Transformer的单目标跟踪方法的流程图；

图3为本申请第二实施例中的特征整合模块示意图；

图4为本申请第二实施例中的特征增强模块示意图；

图5为本申请第二实施例中的改进的Transformer结构示意图；

图6为本申请第二实施例中的改进的时空注意力机制示意图；

图7为本申请第二实施例中的双头预测模块示意图。

如下具体实施方式将结合上述附图进一步说明本申请。

具体实施方式

为了便于理解本申请，下面将参照相关附图对本申请进行更全面的描述。附图中给出了本申请的若干个实施例。但是，本申请可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本申请的公开内容更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。本文所使用的术语“及／或”包括一个或多个相关的所列项目的任意的和所有的组合。

为了说明本申请所述的技术方案，下面通过具体实施例来进行说明。

请参阅图1，所示为本申请第一实施例提出的基于注意力机制和改进的Transformer的单目标跟踪***的结构示意图，所述***如下：

图像获取模块10，用于获取视频序列中的两帧图像分别作为训练图像和测试图像；

特征提取模块20，用于将所述训练图像和所述测试图像输入单目标跟踪网络进行特征提取，得到所述视频序列的高级特征表示；

特征整合模块30，用于对所述高级特征表示进行特征整合，得到包含特征尺度信息和空间特征信息的整合特征信息；

特征增强模块40，用于对所述整合特征信息输入改进的Transformer的多头注意力机制中进行时空特征增强，以捕获图像内部的时空上下文特征；

双头预测模块50，用于对所述时空上下文特征进行空间特征、时间特征以及在时空上下文信息的同步处理，再使用分类分支和回归分支结合的方式预测目标的具***置。

请参阅图2，所示为本申请第二实施例提出的基于注意力机制和改进的Transformer的单目标跟踪方法的流程图，详述如下：

步骤S01: 获取视频序列中的两帧图像分别作为训练图像和测试图像。

步骤S02：将所述训练图像和所述测试图像输入单目标跟踪网络进行特征提取，得到所述视频序列的高级特征表示。

需要说明的是，在单目标跟踪领域，使用训练帧和测试帧结合的方法可以使得算法更好地理解目标对象在视频序列中的全局上下文。训练帧提供了目标对象的历史信息，而测试帧则提供了当前帧的即时信息。这种结合有助于算法捕捉目标对象随时间变化的特征，以及它与背景之间的相互作用。所以本发明以某一视频序列中的两幅图像分别作为训练图像和测试图像输入到单目标跟踪网络中，并使用ResNet50对图像进行特征提取，从而得到原始视频帧的高级特征表示，即目标的形状、外观、纹理和其他有助于区分目标和背景的特征。

步骤S03：对所述高级特征表示进行特征整合，得到包含特征尺度信息和空间特征信息的整合特征信息。

具体地，可参见图3，为特征整合模块示意图，该特征整合模块包括空间金字塔单元和多尺度注意力单元；

首先将尺度为H×W×C的特征X输入所述空间金字塔单元，经过1×1卷积变换将通道数量调整为原来的1/4，然后经过池化窗口分别为3×3、7×7以及11×11的最大池化操作，最后将三个最大池化的输出与最大池化的输入进行通道维度合并，其计算流程公式如下：

，

其中，表示空间金字塔单元的输出，/>表示输入特征图经过第一个卷积层的输出特征，/>表示空间金字塔单元的池化分支，/>表示其对应的池化核大小；

合并后的特征不仅包含了不同尺寸的空间特征信息，还保持了输入特征的尺度大小，同时，空间金字塔单元拓展了注意力机制的感受野，增强了特征映射的表达能力；

经过了空间金字塔单元的特征信息传输到多尺度注意力单元中，分别经过全局通道注意力和局部通道注意力，其对用算法流程公式如下：

，

最终通过第一赋权单元赋予了全局通道和局部通道注意力机制的权重大小，权重计算公式如下：

，

其中，X表示输入特征的权重，Y表示输出的整合特征信息，在这些输入输出特征图中，,/>，输入和输出特征图的尺度大小不变。

步骤S04：对所述整合特征信息输入改进的Transformer的多头注意力机制中进行时空特征增强，以捕获图像内部的时空上下文特征。

具体地，可参见图4，为特征增强模块示意图，所述时空特征增强模块包括全局尺度时空处理单元和局部尺度时空处理单元，不同单元使用不同计算方法从而实现多尺度特征处理；

首先，将所述整合特征信息输入全局尺度时空处理单元，通过自适应平均池化、全连接层以及Dropout方法的堆叠实现全局尺度的时空处理；

使用AdaptiveAvgPool1d将输入特征的大小调整为固定大小，与常规的池化层不同，AdaptiveAvgPool1d会自适应地对输入进行平均池化，之后再将特征传输到全连接层生成更抽象和有代表性的特征表示，并且全连接层的堆叠使用可以提高对输入特征的理解和区分，最终使用Sigmoid非线性激活函数来引入非线性变换，这使得该方法能够学习更复杂的非线性函数关系，从而更好地适应真实世界中的复杂数据分布，全局尺度的时空处理算法流程公式如下：

，

其中，表示键的全局尺度权重，/>表示输入特征，/>表示全连接层，/>则代表Dropout方法，/>表示AdaptiveAvgPool1d自适应平均池化方法；

将所述整合特征信息输入局部尺度时空处理单元，使用两个一维卷积实现局部尺度的时空处理，两个一维卷积中间使用的是ReLU非线性激活函数，从而避免梯度消失问题，促进梯度的有效传递，局部尺度的时空处理算法流程公式如下：

，

表示键的局部尺度权重，/>表示输入特征，/>和/>表示对应的激活函数。

通过第二赋权单元，采用键的全局尺度权重和局部尺度权重/>的逐元素相加，再与键特征K逐元素相乘，得到最终增强后的键/>，以表示图像内部的时空上下文特征，用公式表示为：

。

进一步地，可参见图5，为改进的Transformer结构示意图。所述特征增强模块还包括改进的Transformer模型的多头注意力机制单元。在特征传递到Transformer结构的每个多头注意力之前对输入的Key使用时空特征增强方法进行处理，时空特征增强方法可以增强相邻键之间的上下文信息，同时显式地建模目标本身的时空信息，增强后的相邻键之间的上下文信息和目标原始时空特征信息传入到多头注意力机制中可以进一步捕捉到序列内部的时空信息和语义上下文；

改进后的Transformer模型的多头注意力机制的计算公式如下：

，

步骤S05：对所述时空上下文特征进行空间特征、时间特征以及在时空上下文信息的同步处理，再使用分类分支和回归分支结合的方式预测目标的具***置。

需要说明的是，所述双头预测模块包括多层感知机预测单元和改进时空预测单元，将改进的时空注意力机制嵌入所述多层感知机预测单元得到所述改进时空预测单元，所述改进的时空注意力机制包括全局空间分支单元和局部时间分支单元，具体可参见图6，为改进的时空注意力机制示意图。

改进的时空注意力机制综合考虑了全局时空上下文信息和局部时空环境，多角度的增强了预测阶段利用时空信息的能力；

改进的时空注意力机制的全局空间分支单元使用两个全连接层及Dropout方法完成了对输入数据的全局处理，全局空间分支通过使用全连接层可以从输入图像中提取空间特征，例如目标的形状、纹理、边缘等信息；

通过多层全连接层的组合，可以捕捉到图像中不同位置的空间相关性，帮助定位和跟踪目标，通过训练大规模的图像数据集，全局空间分支单元可以学习到物体的上下文特征信息，从而实现更准确的跟踪，全局空间分支单元公式如下：

，

其中，表示全局空间分支单元的输出权重，/>表示输入特征图，FC表示全连接层，/>则代表Dropout方法，/>和/>的大小均为T×bs×C×H×W，其中T表示时间维度，bs为batchsize的大小，本文设置为16，H、W、C分别表示特征图的高、宽和通道数；

改进的时空注意力机制的局部时间分支单元是通过3D卷积层来实现的，3D卷积层是一种在时间维度上进行卷积操作的计算层，可以对时序数据进行建模和分析；

局部时间分支单元中的两个3D卷积层是分别使用3×3×3卷积核和1×1×1卷积核进行计算的，通过卷积操作，局部时间分支单元可以学习帧之间的时序关系，局部时间分支单元计算过程如下：

，

其中，表示局部时间分支单元的输出权重，/>表示输入特征图，/>表示3D卷积计算。

进一步地，将改进的时空注意力机制嵌入到常规的多层感知机预测中，设计出一种改进时空预测头；具体可参见图7，为双头预测模块示意图。

常规预测器为多层感知机(MLP)预测结构，MLP由三个完整的连接层和一个ReLU激活函数组成，前两个全连接层的输出维数为256，最后一个全连接层的输出维数根据其任务进行调整，其算法流程公式如下：

，

在MLP结构中嵌入改进的时空注意力机制后形成改进时空预测头，用公式如下：

，

双头预测模块可以允许模型在预测阶段同时处理空间特征（如目标的形状和纹理）和时间特征（如目标的运动模式和速度），以及它们在时间和空间上的上下文信息。

综上，本申请提供的基于注意力机制和改进的Transformer的单目标跟踪***，该***通过使用两帧图像分别作为训练图像和测试图像，再对这两图像进行提取后进行特征整合，结合了全局与局部特征，提高了全局交互信息和遮挡目标的深度特征提取能力；在此基础上设计了包括多层感知机预测头和改进时空预测头的双头预测模块，相比于单预测头，能够充分考虑了局部时空环境对目标位置的影响，增强了预测阶段对时空上下文信息的利用能力；还通过一种改进的Transformer，来处理Transformer编/解码层相邻键之间丰富的上下文时空信息，并采用全局关系建模来提高判别时空特征的融合能力，有效缓解了由于目标尺度和形状变化对***的影响。因此，本***能够解决现有的单目标跟踪方法还存在特征提取能力弱、预测存在不确定性以及特征融合阶段没有充分利用相邻键之间的丰富上下文，从而影响了单目标跟踪的精度和效率的问题。

本申请实施例还提供了一种计算机设备，所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的图像处理程序，所述图像处理程序被所述处理器执行时实现所述的单目标跟踪***。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有图像处理程序，所述图像处理程序被处理器运行时执行所述的单目标跟踪***。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于注意力机制和改进的Transformer的单目标跟踪***，其特征在于，所述***包括：

所述改进的Transformer模型的多头注意力机制公式表示为：

，

其中，表示多头注意力机制，/>表示K的维度，Q、K和V表示输入特征，T表示时间维度，/>表示位置信息编码，/>表示时空特征增强方法，/>表示分类函数；

双头预测模块，用于对所述时空上下文特征进行空间特征、时间特征以及在时空上下文信息的同步处理，再使用分类分支和回归分支结合的方式预测目标的具***置；

所述双头预测模块包括多层感知机预测单元和改进时空预测单元，所述多层感知机预测单元和所述改进时空预测单元分别输出的预测特征分类信息，均经过分类分支和回归分支；

所述多层感知机预测单元包括三个连接层和一个ReLU激活函数；

所述改进时空预测单元由改进的时空注意力机制嵌入所述多层感知机预测单元所得到；所述改进的时空注意力机制包括全局空间分支单元和局部时间分支单元；全局空间分支单元：用于，使用两个全连接层及Dropout方法对输入特征进行全局处理，以学习图像的上下文特征信息；局部时间分支单元：用于，使用3D卷积层对时序进行建模，以学习帧之间的时序关系。

2.根据权利要求1所述的单目标跟踪***，其特征在于，所述特征整合模块包括：

，

其中，表示全局通道注意力，/>表示局部通道注意力，/>表示最大池化，/>和/>分别表示1D卷积和2D卷积，/>和/>为激活函数；

，

其中，X表示输入特征的权重，Y表示输出的整合特征信息。

3.根据权利要求2所述的单目标跟踪***，其特征在于，所述特征增强模块包括：

，

其中，表示键的局部尺度权重；

。

4.根据权利要求3所述的单目标跟踪***，其特征在于，全局空间分支单元的公式表示为：

，

5.根据权利要求4所述的单目标跟踪***，其特征在于，多层感知机预测单元的公式表示为：

，

改进时空预测单元的公式表示为：

，

其中，表示改进时空预测单元输出的预测特征分类信息。

6.一种单目标跟踪方法，其特征在于，基于注意力机制和改进的Transformer的单目标***实现，所述***包括图像获取模块、特征提取模块、特征整合模块、特征增强模块和双头预测模块，所述方法包括：

获取视频序列中的两帧图像分别作为训练图像和测试图像；

所述改进的Transformer模型的多头注意力机制公式表示为：

，

对所述时空上下文特征进行空间特征、时间特征以及在时空上下文信息的同步处理，再使用分类分支和回归分支结合的方式预测目标的具***置；

所述改进时空预测单元由改进的时空注意力机制嵌入所述多层感知机预测单元所得到；所述改进的时空注意力机制包括全局空间分支单元和局部时间分支单元；全局空间分支单元通过使用两个全连接层及Dropout方法对输入特征进行全局处理，以学习图像的上下文特征信息；局部时间分支单元通过使用3D卷积层对时序进行建模，以学习帧之间的时序关系。

7.一种计算机设备，其特征在于，所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的图像处理程序，所述图像处理程序被所述处理器执行时实现如权利要求1至5中任一项所述的单目标跟踪***。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有图像处理程序，所述图像处理程序被处理器运行时执行所述权利要求1至5中任一项所述的单目标跟踪***。