CN115239765B

CN115239765B - 基于多尺度可形变注意力的红外图像目标跟踪***及方法

Info

Publication number: CN115239765B
Application number: CN202210921013.7A
Authority: CN
Inventors: 李小红; 周喜; 齐美彬; 庄硕; 郝世杰; 刘学亮
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2022-08-02
Filing date: 2022-08-02
Publication date: 2024-03-29
Anticipated expiration: 2042-08-02
Also published as: CN115239765A

Abstract

本发明公开了一种基于多尺度可形变注意力的红外图像目标跟踪***及方法。其中跟踪***包括搜索图分支、模板图分支、特征融合模块和预测模块；其中搜索图分支用于提取搜索图在第一尺度和第二尺度下的特征拼接得到的搜索图多尺度特征F_s；模板分支用于提取模板图在第三尺度和第四尺度下的特征拼接得到的模板图多尺度特征F_t；特征融合模块用于根据搜索图多尺度特征F_s和模板图多尺度特征F_t计算融合特征G_st；预测模块用于根据融合特征G_st预测搜索图中的目标边框。该***融合了低层和高层的特征，有利于红外图像中目标的跟踪。

Description

基于多尺度可形变注意力的红外图像目标跟踪***及方法

技术领域

本发明属于计算机视觉领域，具体涉及一种基于多尺度可形变注意力的红外图像目标跟踪***及方法。

背景技术

视觉目标跟踪任务是在视频的初始帧中给定要跟踪的目标，预测后续视频帧中该目标出现的位置和大小。热红外目标跟踪是在热红外摄像头的成像条件下进行视觉目标跟踪任务，由于红外目标跟踪可以在可见度低甚至完全黑暗的情况下跟踪目标，其不受光线变化的影响，具有全天候、可在复杂环境下工作的能力，因此具有较好的应用价值，广泛应用在监护机器人的夜间监护、保安机器人夜间巡逻，城市交通夜间监控等场景中。红外目标跟踪的难点是由于红外图像纹理缺失，信噪比低，视觉效果模糊，容易导致跟踪对象变形，尺度变化等问题。

为了解决上述问题，目前有方法通过transformer注意力机制捕捉全局特征，结合特征之间的上下文关系，建立远程特征之间的关联和长距离依赖关系来克服上述难点。虽然此类方法取得了较好的结果，但由于transformer注意模块在处理图像特征图时具有局限性，例如在初始化时，自注意力模块在整个特征图上的注意力几乎是平均的。然而，在训练的最后阶段，注意力图会变得稀疏，只专注于目标的局部，如人物的四肢，由此需要一个长时间的训练过程来学习注意力图上的这些显著变化，从而导致收敛速度慢，特征空间分辨率由于复杂计算量的影响会受到很大的限制。

发明内容

发明目的：针对现有技术中存在的问题，本发明提供一种基于多尺度可形变注意力的红外图像目标跟踪***，该***融合了低层和高层的特征，有利于红外图像中目标的跟踪。

技术方案：本发明一方面提供了一种基于多尺度可形变注意力的红外图像目标跟踪***，包括：搜索图分支1、模板图分支2、特征融合模块3和预测模块4；所述搜索图分支1包括第一特征提取模块101、第一转换拼接模块102；所述模板图分支2包括第二特征提取模块201、第二转换拼接模块202；

所述第一特征提取模块101用于提取搜索图在第一尺度和第二尺度下的初始特征图和/>第一转换拼接模块102对/>和/>进行通道统一和维度调整，得到搜索图在第一尺度和第二尺度下的特征f_s1和f_s2，并拼接为搜索图多尺度特征F_s＝[f_s1,f_s2]；所述第二特征提取模块201用于提取模板图在第三尺度和第四尺度下的初始特征图/>和/>第二转换拼接模块202对/>和/>进行通道统一和维度调整，得到模板图在第三尺度和第四尺度下的特征f_t1和f_t2，并拼接为模板图多尺度特征F_t＝[f_t1,f_t2]；所述特征融合模块3用于根据搜索图多尺度特征F_s和模板图多尺度特征F_t计算融合特征G_st；所述预测模块4用于根据融合特征G_st预测搜索图中的目标边框；

所述搜索图为搜索分支1的输入，所述模板图为模板分支2的输入。

所述第一特征提取模块101和第二特征提取模块201的结构相同，结构为依次级联的第一卷积模块、第一池化模块、第二卷积模块、三卷积模块、第四卷积模块、第五卷积模块；

第一特征提取模块101中的第四卷积模块输出搜索图在第一尺度下的初始特征图第五卷积模块输出搜索图在第二尺度下的初始特征图/>第二特征提取模块201中的第四卷积模块输出模板图在第三尺度下的初始特征图/>第五卷积模块输出模板图在第四尺度下的初始特征图/>

所述特征融合模块3包括N个级联的特征融合子模块，其中第一级特征融合子模块的输入为搜索图多尺度特征F_s和模板图多尺度特征F_t，输出为第一级搜索图对模板图的注意力特征和第一级模板图对搜索图的注意力特征/>第N级特征融合子模块的输入为第N-1级输出的/>和/>第N级特征融合子模块的输出/>为特征融合模块得到的融合特征G_st；

第n级特征融合子模块包括第一可形变自注意力模块301、第二可形变自注意力模块302和交叉注意力模块303，n＝1,2,…,N；所述第一可形变自注意力模块301和第二可形变自注意力模块302分别用于计算两路输入特征I_s和I_t的上下文关系特征和T_s和T_t；所述交叉注意力模块303用于计算两路输入向量的上下文关系特征T_s和T_t对彼此的注意力特征和/>

所述第一可形变自注意力模块301提取输入特征I_s的上下文关系特征T_s的步骤为：

a1、将输入特征I_s与搜索图多尺度位置编码SLP_s相加生成第一查询向量Q_s，Q_s＝[Q_s1,Q_s2]，Q_s1为第一尺度下的查询向量，Q_s2为第二尺度下的查询向量

a2、将第一查询向量Q_s、输入特征I_s、搜索图初始参考点R_s输入到第一多头注意力网络，得到搜索图第一多头可形变注意力I_s′；所述第一多头注意力网络有M个并联的注意力单元；

所述搜索图初始参考点R_s的计算步骤为：计算搜索图在第一尺度下的特征f_s1中每个向量在初始特征图上的坐标，组成第一初始参考点r_s1；计算第二尺度下的特征f_s2中每个向量在初始特征图/>上的坐标，组成第二初始参考点r_s2；

对第一初始参考点r_s1中的坐标归一化，并映射于初始特征图上，得到第一坐标映射点r_s12；对第二初始参考点r_s2中的坐标归一化，并映射于初始特征图/>上，得到第二坐标映射点r_s21；

构建搜索图初始参考点

所述搜索图第一多头可行变注意力I′_s＝[I′_s1,I′_s2]，I′_s1为第一尺度下的可变形注意力，I′_s2为第二尺度下的可变形注意力；

I′_s1中第i个元素I′_s1i的计算步骤为：

Q_s1向量中第i个向量Q_s1i通过全连接层Linear2得到第一初始参考点r_s1的第i个元素和第一坐标映射点r_s12的第i个元素r_s1i、r_s12i在每个注意力单元中的每个采样点的采样偏移和/>其中m表示第一多头注意力网络中注意力单元的序号，m＝1,2,…,M；k表示采样点序号，k＝1,2,…,K；K为每个注意力单元中的采样点总数；

将r_s1i与相加得到第一尺度下第m个注意力单元，第k个采样点坐标/>

将r_s12i与相加得到第二尺度下第m个注意力单元，第k个采样点坐标

将在第一尺度下的特征图/>经过全连接层Linear1后插值得到Q_s1i在第一尺度下，第m个注意力单元第k个采样点的值，记为/>Inter为插值函数；

将在第二尺度下的特征图/>经过全连接层Linear1后插值得到Q_s1i在第二尺度下，第m个注意力单元第k个采样点的值，记为/>Inter为插值函数；

Q_s1向量中第i个向量Q_s1i通过全连接层Linear3得到所对应的注意力权重和/>所对应的注意力权重/>

因此得到

Q_s2向量中第i个向量Q_s2i通过全连接层Linear2得到第二初始参考点r_s2中第i个元素r_s2i和第二坐标映射点r_s21中第i个元素r_s21i在每个注意力单元中的每个采样点的采样偏移和/>

将r_s2i与相加得到第二尺度下第m个注意力单元，第k个采样点坐标

将r_s21i与相加得到第一尺度下第m个注意力单元，第k个采样点坐标

将在第一尺度下的特征图/>经过全连接层Linear1插值得到Q_s2i在第一尺度下，第m个注意力单元第k个采样点的值，记为/>

将在第二尺度下的特征图/>经过全连接层Linear1插值得到Q_s2i在第二尺度下，第m个注意力单元第k个采样点的值，记为/>

Q_s2向量中第i个向量Q_s2i通过全连接层Linear3得所对应的注意力权重和/>所对应的注意力权重/>

因此得到

a3、I_s和I′_s求和归一化后通过FFN函数，得到输入特征I_s的上下文关系特征T_s。

所述搜索图多尺度位置编码SLP_s的构建步骤为：

a11、随机生成搜索图二层层级编码，第一层层级编码SL_s1的维度与搜索图在第一尺度下的特征f_s1相同；第二层层级编码SL_s2的维度与搜索图在第二尺度下的特征f_s2相同；

a12、根据搜索图在第一尺度和第二尺度下的特征f_s1和f_s2采用三角函数计算搜索图第一层内位置编码P_s1和第二层内位置编码P_s2；

a13、将SL_s1和P_s1相加，SL_s2和P_s2相加，拼接得到搜索图多尺度位置编码SLP_s：

SLP_s＝[SL_s1+P_s1,SL_s2+P_s2]。

所述交叉注意力模块303计算两路输入向量的上下文关系特征T_s和T_t对彼此的注意力特征和/>的步骤为：

b1、将T_s与搜索图多尺度位置编码SLP_s相加，再分别经过两个全连接层W_sq和W_sk映射得到向量Q_s′和K_s；将T_s经过全连接层W_sv映射得到向量V_s；

b2、将T_t与目标图多尺度位置编码SLP_t相加，再分别经过两个全连接层W_tq和W_tk映射得到向量Q′_t和K_t；将T_t经过全连接层W_tv映射得到向量V_t；

b3、计算T_s对T_t的注意力特征中的第i个元素/>为：

计算T_t对T_s的注意力特征中的第j个元素/>为：

其中dot表示向量点积运算，d_kt为K_t的维度，d_ks为K_s的维度。

所述预测模块4包括分类预测网络401、边框预测网络402和目标边框计算模块403；所述分类预测网络401用于根据融合特征G_st获取搜索图中目标的分类结果C＝[C₁,C₂,…,C_len]；所述边框预测网络402用于根据融合特征G_st获取搜索图中目标的预测边框B＝[B₁,B₂,…,B_len]；其中len为搜索图多尺度特征的长度，l＝1,2,…,len，C_l＝[C_l0 C_l1]为根据融合特征G_st中第l个元素得到的归一化类别；B_l＝[B_lx,B_ly,B_lw,B_lh]为根据融合特征G_st中第l元素预测的目标矩形边框，B_lx,B_ly为矩形边框的中心点坐标，B_lw,B_lh为矩形边框的宽和高；

所述目标边框计算模块(403)用于根据搜索图中目标的分类结果C＝[C₁,C₂,…,C_len]和搜索图中目标的边框B＝[B₁,B₂,…,B_len]计算搜索图中目标边框。

所述目标边框计算模块403计算搜索图中目标边框的步骤为：

查找C＝[C₁,C₂,…,C_len]中C_l0的最大值对应的元素序号l^*：

第l^*个元素对应的预测的目标矩形边框为搜素图中目标边框

上述红外图像目标跟踪***的训练步骤包括：

c1、在用于训练的视频中随机选取两张图片，从中选择一张图像作为模板图，另一张图片作为搜索图，输入待训练的红外图像目标跟踪***中，预测模块4输出分类结果C＝[C₁,C₂,…,C_len]和预测边框B＝[B₁,B₂,…,B_len]；

c2、通过最小化损失函数对所述红外图像目标跟踪***中的参数进行优化，得到训练好的红外图像目标跟踪***；

所述损失函数为：L＝L_class+L_loss+L_giou；

其中L_class为分类损失：U_l的值根据预测边框中第l个元素B_l与搜索图中目标真实边框B^T的位置确定：W[1]为负样本权重，W[0]为正样本权重；

L_loss为回归损失：其中count为U_l值为0的个数，即：Pr_h为分类精度，/>

L_giou为GIOU损失：L_giou(h)为预测边框中元素B_h的GIOU损失，B_h对应的U_h值为0，L_giou(h)＝1-GIOU_h，GIOU_h为B_h与目标真实边框B^T的GIOU值。

另一方面，本发明还公开了应用上述基于多尺度可形变注意力的红外图像目标跟踪***进行跟踪的方法，包括：

将待跟踪视频中的第一帧作为模板图，在目标图中标记出待跟踪目标的矩形边框；将视频后续帧作为搜索图；将模板图和搜索图分别输入上述红外图像目标跟踪***中的模板图分支和搜索图分支，根据预测模块获取搜索图中目标的矩形边框。

有益效果：本发明公开的基于多尺度可形变注意力的红外图像目标跟踪***和跟踪方法具有如下优点：

1、本发明将两种尺度下的特征拼接为多尺度的特征进行后续处理，以此增大低层特征语义，提供高层特征的更多的空间信息，这样更加有利于小目标的跟踪；

2、特征融合模块采用多级级联的连接，对特征进行多级增强；其中通过第一可形变自注意力模块和第二可形变自注意力模块分别获取搜索图和模板图的图像特征序列的上下文关系，自主搜寻特征图像上更具有表现力的特征；使用可形变自注意力模型使得模型收敛速度快，收敛速度比普通方法提高4倍左右；

交叉注意力模块学习搜索图像特征序列与模板图像特征序列两者之间的关系，从而可以准确定位搜索图像的目标位置。

3、对***训练时，使用分类精度动态约束边框回归损失和GIOU损失，使得分类任务与边框回归任务对齐一致达到更稳定的跟踪效果。

附图说明

图1为本发明公开的基于多尺度可形变注意力的红外图像目标跟踪***的组成示意图；

图2为特征融合模块的组成示意图；

图3为特征融合子模块的组成示意图；

图4为第一多头可形变注意力I_s′中第一尺度下的可变形注意力I_s'₁中第i个元素的计算流程示意图；

图5为预测模块的组成示意图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明。

本发明公开了一种基于多尺度可形变注意力的红外图像目标跟踪***，如图1所示，包括：搜索图分支1、模板图分支2、特征融合模块3和预测模块4；所述搜索图分支1包括第一特征提取模块101、第一转换拼接模块102；所述模板图分支2包括第二特征提取模块201、第二转换拼接模块202；

本实施例中，第一特征提取模块101和第二特征提取模块201的结构相同，均采用resnet50的残差网络结构作为特征提取网络，网络参数与普通的restnet有所不同，并且删除了MaxPool_2和FC层，具体结构详见表1。

表1：第一特征提取模块101和第二特征提取模块201的结构

结构为依次级联的第一卷积模块Conv_1、第一池化模块MaxPool_1、第二卷积模块Conv_2x、三卷积模块Conv_3x、第四卷积模块Conv_4x、第五卷积模块Conv_5x；

第一特征提取模块101中的第四卷积模块Conv_4x输出搜索图在第一尺度下的初始特征图第五卷积模块Conv_5x输出搜索图在第二尺度下的初始特征图/>第二特征提取模块201中的第四卷积模块Conv_4x输出模板图在第三尺度下的初始特征图/>第五卷积模块Conv_5x输出模板图在第四尺度下的初始特征图/>

根据表1中的参数，第一转换拼接模块102首先采用卷积核为1×1，通道为256，步长为1的卷积层对/>和/>进行通道统一，通道统一后/>之后再进行维度调整，即采用resize将二者转换为二维特征序列，得到搜索图在第一尺度和第二尺度下的特征f_s1∈R^1024×256和f_s2∈R^256×256；并拼接为搜索图多尺度特征F_s＝[f_s1,f_s2]，F_s∈R^1280×256。同样地，第二转换拼接模块202对/>和/>进行类似操作，得到模板图在第三尺度和第四尺度下的特征f_t1∈R^256×256和f_t2∈R^64×256；并拼接为模板图多尺度特征F_t＝[f_t1,f_t2]，F_t∈R^320×256。

特征融合模块3包括N个级联的特征融合子模块，如图2所示，其中第一级特征融合子模块的输入为搜索图多尺度特征F_s和模板图多尺度特征F_t，输出为第一级搜索图对模板图的注意力特征和第一级模板图对搜索图的注意力特征/>第N级特征融合子模块的输入为第N-1级输出的/>和/>第N级特征融合子模块的输出/>为特征融合模块得到的融合特征G_st；本实施例中N＝4。

如图3所示，第n级特征融合子模块包括第一可形变自注意力模块301、第二可形变自注意力模块302和交叉注意力模块303，n＝1,2,…,N；所述第一可形变自注意力模块301和第二可形变自注意力模块302分别用于计算两路输入特征I_s和I_t的上下文关系特征和T_s和T_t；所述交叉注意力模块303用于计算两路输入向量的上下文关系特征T_s和T_t对彼此的注意力特征和/>如果n＝1，I_s为F_s，I_t为F_t；否则I_s和I_t分别为/>和/>

具体地，第一可形变自注意力模块301提取输入特征I_s的上下文关系特征T_s的步骤为：

a1、将输入特征I_s与搜索图多尺度位置编码SLP_s相加生成第一查询向量Q_s，Q_s＝[Q_s1,Q_s2]，Q_s1为第一尺度下的查询向量，Q_s2为第二尺度下的查询向量；

构建搜索图初始参考点

所述搜索图第一多头可行变注意力I′_s＝[I′_s1,I′_s2]，I′_s1为第一尺度下的可变形注意力，I′_s2为第二尺度下的可变形注意力，本实施例中，I′_s1＝[I′_s1,1,I′_s1,2...I′_s1,1024]I′_s2＝[I′_s2,1025,I′_s2,1026...I′_s1,1280]；

如图4所示，I′_s1中第i个元素I′_s1i的计算步骤为：

Q_s1向量中第i个向量Q_s1i通过全连接层Linear2得到第一初始参考点r_s1的第i个元素和第一坐标映射点r_s12的第i个元素r_s1i、r_s12i在每个注意力单元中的每个采样点的采样偏移和/>其中m表示第一多头注意力网络中注意力单元的序号，m＝1,2,…,M；k表示采样点序号，k＝1,2,…,K；K为每个注意力单元中的采样点总数；本实施例中K＝16。

因此得到

与上述步骤类似，I′_s2i的计算过程为：

因此得到

第二可形变自注意力模块302采用与a1-a3类似的步骤提取输入特征I_t的上下文关系特征T_t。

所述搜索图多尺度位置编码SLP_s的构建步骤为：

SLP_s＝[SL_s1+P_s1,SL_s2+P_s2]。

按照与步骤a1-a3相似的方法，第二可形变自注意力模块302提取输入特征I_t的上下文关系特征T_t；其中模板图多尺度位置编码SLP_t按照与a11-a13相似的方法根据模板图在第三尺度和第四尺度下的特征f_t1和f_t2计算得到；模板图初始参考R_t按照R_s的计算方法根据f_t1和f_t2计算得到。

交叉注意力模块303计算两路输入向量的上下文关系特征T_s和T_t对彼此的注意力特征和/>的步骤为：

b1、将T_s与搜索图多尺度位置编码SLP_s相加，再分别经过两个全连接层W_sq和W_sk映射得到向量Q′_s和K_s；将T_s经过全连接层W_sv映射得到向量V_s；

b3、计算T_s对T_t的注意力特征中的第i个元素/>为：

计算T_t对T_s的注意力特征中的第j个元素/>为：

最后一级特征融合子模块的输出即为最终得到的融合特征G_st，预测模块4根据G_st来预测搜索图中的目标边框。如图5所示，预测模块4包括分类预测网络401、边框预测网络402和目标边框计算模块403；分类预测网络401用于根据融合特征G_st获取搜索图中目标的分类结果C＝[C₁,C₂,…,C_len]；所述边框预测网络402用于根据融合特征G_st获取搜索图中目标的预测边框B＝[B₁,B₂,…,B_len]；其中len为搜索图多尺度特征的长度，l＝1,2,…,len，C_l＝[C_l0 C_l1]为根据融合特征G_st中第l个元素得到的归一化类别，C_l0表示根据G_st中第l个元素得到预测目标概率，C_l1表示预测背景概率；B_l＝[B_lx,B_ly,B_lw,B_lh]为根据融合特征G_st中第l元素得到的目标矩形边框，B_lx,B_ly为矩形边框的中心点坐标，B_lw,B_lh为矩形边框的宽和高。目标边框计算模块403用于根据搜索图中目标的分类结果C＝[C₁,C₂,…,C_len]和搜索图中目标的边框B＝[B₁,B₂,…,B_len]计算搜索图中目标边框，具体步骤为：

查找C＝[C₁,C₂,…,C_len]中C_l0的最大值对应的元素序号l^*：

第l^*个元素对应的预测的目标矩形边框为搜素图中目标边框

分类预测网络401和边框预测网络402均采用三层全连接层，其结构和参数如表2和表3所示：

表2：分类预测网络结构和参数

网络层名	输出大小	网络参数(输入通道，输出通道)
			FC_1	1280×256	256，256
FC_2	1280×256	256，256
			FC_3	1280×2	256，2

表3：边框预测网络结构和参数

网络层名	输出大小	网络参数(输入通道，输出通道)
			FC_1	1280×256	256，256
FC_2	1280×256	256，256
			FC_3	1280×4	256，4

分类预测网络中最后一层全连接层FC_3输出的是初始分类结果其中/> 表示G_st中第l元素预测类别为0的概率，即预测目标的概率；/>表示G_st中第l元素预测类别为1的概率，即预测背景的概率。由于概率的取值在[0,1]之间，对/>进行归一化，得到归一化类别C_l＝[C_l0 C_l1]，其中/>E∈{0,1}。

上述红外图像目标跟踪***的训练步骤包括：

c1、在用于训练的视频中随机选取两张图片，从中选择一张作为模板图，另一张图片作为搜索图，输入待训练的红外图像目标跟踪***中，预测模块4输出分类结果C＝[C₁,C₂,…,C_len]和预测边框B＝[B₁,B₂,…,B_len]；

所述损失函数为：L＝L_class+L_loss+L_giou；

其中L_class为分类损失：U_l的值根据预测边框中第l个元素B_l与搜索图中目标真实边框B^T的位置确定：B_l在B^T内部，即表示第l个元素预测的结果为目标，否则为背景。W[1]为负样本权重，W[0]为正样本权重；

L_giou为GIOU损失：L_giou(h)为预测边框中元素B_h的GIOU损失，B_h对应的U_h值为0，L_giou(h)＝1-GIOU_h，GIOU_h为B_h与目标真实边框B^T的GIOU值。/>

本实施例中，在回归损失和GIOU损失中采用分类精度Pr_h动态加权，以此将分类任务和回归任务进行统一，使二者互相联系，通过定位得分进一步减少了低质量的边框包围盒，提高了整体跟踪精度。

应用上述基于多尺度可形变注意力的红外图像目标跟踪***进行跟踪的方法，包括：

本实施例中，在红外数据集VOT2017-TIR和LSOTB-TIR上测试上述红外图像目标跟踪***的效果，并与现有方法进行对比。测试时，选取视频序列第一帧为模板图，其中的待跟踪目标被矩形边框包围，以目标的边框为中心进行裁剪缩放得到尺寸大小为128×128；其他帧为搜索图，搜索区域的获得是在上一帧图像中，以目标位置为中心，以目标面积4倍大小的区域进行裁剪缩放得到尺寸大小为256×256，模板图和搜索图输入训练好的红外图像目标跟踪***，其预测模块得到预测分类结果和预测边框，取分类结果中预测目标概率最大的特征元素所对应的预测目标矩形边框作为最终的跟踪结果。数据集LSOTB-TIR上的测试对比如表4所示：

表4：数据集LSOTB-TIR的测试结果

Methods	Success	Precision	Norm Precision
				ECO-TIR[1]	0.631	0.768	0.695
ECO-stir[2]	0.616	0.750	0.672
				ECO[3]	0.609	0.739	0.670
SiamRPN++[4]	0.604	0.711	0.651
				MDNet[5]	0.601	0.750	0.686
VITAL[6]	0.597	0.749	0.682
				ATOM[7]	0.595	0.729	0.647
Ours(detranst)	0.669	0.782	0.787

数据集VOT2017-TIR的测试对比如表5所示：

表5：数据集VOT2017-TIR的测试结果

Methods	EAO	Acc	Rob
				CFNet[8]	0.254	0.52	3.45
HSSNet[9]	0.262	0.58	3.33
				TADT[10]	0.262	0.60	3.18
VITAL[6]	0.272	0.64	2.68
				MLSSNet[11]	0.278	0.56	2.95
TCNN[12]	0.287	0.62	2.79
				MMNet[13]	0.320	0.58	2.91
Ours(detranst)	0.335	0.71	2.18

表4和表5中，ECO-TIR[1]为采用文献[1]：Liu Q,Li X,He Z,et al.LSOTB-TIR:ALarge-Scale High-Diversity Thermal Infrared Object Tracking Benchmark[C]//Proceedings of the 28th ACM International Conference on Multimedia(MM‘20).ACM,2020.中的方法进行跟踪；

ECO-stir[2]为采用文献[2]：Lichao Zhang,Abel Gonzalez-Garcia,Joost vande Weijer,Martin Danelljan,and Fahad Shahbaz Khan.2019.Synthetic datageneration for end-to-end thermal infrared tracking.IEEE Transactions onImage Processing 28,4(2019),1837–1850.中的方法进行跟踪；

ECO[3]为采用文献[3]：Martin Danelljan,Goutam Bhat,Fahad Shahbaz Khan,and Michael Felsberg.2017.ECO:efficient convolution operators for tracking.InIEEE Conference on Computer Vision and Pattern Recognition中的方法进行跟踪；

SiamRPN++[4]为采用文献[4]：Bo Li,Wei Wu,Qiang Wang,Fangyi Zhang,Junliang Xing,and Junjie Yan.2019.Siamrpn++:Evolution of siamese visualtracking with very deep networks.In IEEE Conference on Computer Vision andPattern Recognition中的方法进行跟踪；

MDNet[5]为采用文献[5]：Hyeonseob Nam and Bohyung Han.2016.Learningmulti-domain convolutional neural networks for visual tracking.In IEEEConference on Computer Vision and Pattern Recognition中的方法进行跟踪；

VITAL[6]为采用文献[6]：Song,Y.；Ma,C.；Wu,X.；Gong,L.；et al.2018.Vital:Visual tracking via adversarial learning.In CVPR,8990–8999.中的方法进行跟踪；

ATOM[7]为采用文献[7]：Martin Danelljan,Goutam Bhat,Fahad Shahbaz Khan,and Michael Felsberg.2019.Atom:Accurate tracking by overlap maximization.InIEEE Conference on Computer Vision and Pattern Recognition.中的方法进行跟踪；

CFNet[8]为采用文献[8]：Valmadre,J.；Bertinetto,L.；Henriques,J.；Vedaldi,A.；and Torr,P.H.2017.End-to-end representation learning for correlationfifilter based tracking.In CVPR,5000–5008.中的方法进行跟踪；

HSSNet[9]为采用文献[9]：Li,X.；Liu,Q.；Fan,N.；et al.2019a.Hierarchicalspatial-aware siamese network for thermal infrared object tracking.Knowledge-Based Systems 166:71–81.中的方法进行跟踪；

TADT[10]为采用文献[10]：Li,X.；Ma,C.；Wu,B.；He,Z.；and Yang,M.-H.2019b.Target-aware deep tracking.In CVPR.中的方法进行跟踪；

MLSSNet[11]为采用文献[11]：Liu,Q.；Li,X.；He,Z.；Fan,N.；Yuan,D.；and Wang,H.2019b.Learning deep multi-level similarity for thermal infrared objecttracking.arXiv preprint arXiv:1906.03568.中的方法进行跟踪；

TCNN[12]为采用文献[12]：Nam,H.；Baek,M.；Han,B.；et al.2016.Modeling andpropagating cnns in a tree structure for visual tracking.arXiv preprintarXiv:1608.07242.中的方法进行跟踪；

MMNet[13]为采用文献[13]：Liu Q,Li X,He Z,et al.Multi-Task DrivenFeature Models for Thermal Infrared Tracking[C]//Proceedings of the AAAIConference on Artificial Intelligence,2020,34:11604-11611.中的方法进行跟踪。

从表4和表5中可以看出，本发明提供的基于多尺度可形变注意力的红外图像目标跟踪***及方法在两个数据集上的跟踪效果均优于现有技术。

Claims

1.一种基于多尺度可形变注意力的红外图像目标跟踪***，其特征在于，包括：搜索图分支(1)、模板图分支(2)、特征融合模块(3)和预测模块(4)；所述搜索图分支(1)包括第一特征提取模块(101)、第一转换拼接模块(102)；所述模板图分支(2)包括第二特征提取模块(201)、第二转换拼接模块(202)；

所述第一特征提取模块(101)用于提取搜索图在第一尺度和第二尺度下的初始特征图和/>第一转换拼接模块(102)对/>和/>进行通道统一和维度调整，得到搜索图在第一尺度和第二尺度下的特征f_s1和f_s2，并拼接为搜索图多尺度特征F_s＝[f_s1,f_s2]；所述第二特征提取模块(201)用于提取模板图在第三尺度和第四尺度下的初始特征图/>和/>第二转换拼接模块(202)对/>和/>进行通道统一和维度调整，得到模板图在第三尺度和第四尺度下的特征f_t1和f_t2，并拼接为模板图多尺度特征F_t＝[f_t1,f_t2]；所述特征融合模块(3)用于根据搜索图多尺度特征F_s和模板图多尺度特征F_t计算融合特征G_st；

所述特征融合模块(3)包括N个级联的特征融合子模块，其中第一级特征融合子模块的输入为搜索图多尺度特征F_s和模板图多尺度特征F_t，输出为第一级搜索图对模板图的注意力特征和第一级模板图对搜索图的注意力特征/>第N级特征融合子模块的输入为第N-1级输出的/>和/>第N级特征融合子模块的输出/>为特征融合模块得到的融合特征G_st；

第n级特征融合子模块包括第一可形变自注意力模块(301)、第二可形变自注意力模块(302)和交叉注意力模块(303)，n＝1,2,…,N；所述第一可形变自注意力模块(301)和第二可形变自注意力模块(302)分别用于计算两路输入特征I_s和I_t的上下文关系特征T_s和T_t；所述交叉注意力模块(303)用于计算两路输入向量的上下文关系特征T_s和T_t对彼此的注意力特征和/>

所述第一可形变自注意力模块(301)提取输入特征I_s的上下文关系特征T_s的步骤为：

a2、将第一查询向量Q_s、输入特征I_s、搜索图初始参考点R_s输入到第一多头注意力网络，得到搜索图第一多头可形变注意力I′_s；所述第一多头注意力网络有M个并联的注意力单元；

构建搜索图初始参考点

I′_s1中第i个元素I′_s1i的计算步骤为：

将r_s1i与相加得到第一尺度下第m个注意力单元，第k个采样点坐标

Q_s1向量中第i个向量Q_s1i通过全连接层Linear3得到所对应的注意力权重/>和所对应的注意力权重/>

因此得到

Q_s2向量中第i个向量Q_s2i通过全连接层Linear3得所对应的注意力权重/>和所对应的注意力权重/>

因此得到

a3、I_s和I′_s求和归一化后通过FFN函数，得到输入特征I_s的上下文关系特征T_s；

第二可形变自注意力模块(302)采用与a1-a3类似的步骤提取输入特征I_t的上下文关系特征T_t；

所述预测模块(4)用于根据融合特征G_st预测搜索图中的目标边框；

所述搜索图为搜索分支(1)的输入，所述模板图为模板分支(2)的输入。

2.根据权利要求1所述的基于多尺度可形变注意力的红外图像目标跟踪***，其特征在于，所述第一特征提取模块(101)和第二特征提取模块(201)的结构相同，结构为依次级联的第一卷积模块、第一池化模块、第二卷积模块、三卷积模块、第四卷积模块、第五卷积模块；

第一特征提取模块(101)中的第四卷积模块输出搜索图在第一尺度下的初始特征图第五卷积模块输出搜索图在第二尺度下的初始特征图/>第二特征提取模块(201)中的第四卷积模块输出模板图在第三尺度下的初始特征图/>第五卷积模块输出模板图在第四尺度下的初始特征图/>

3.根据权利要求1所述的基于多尺度可形变注意力的红外图像目标跟踪***，其特征在于，所述搜索图多尺度位置编码SLP_s的构建步骤为：

SLP_s＝[SL_s1+P_s1,SL_s2+P_s2]。

4.根据权利要求1所述的基于多尺度可形变注意力的红外图像目标跟踪***，其特征在于，所述交叉注意力模块(303)计算两路输入向量的上下文关系特征T_s和T_t对彼此的注意力特征和/>的步骤为：

b3、计算T_s对T_t的注意力特征中的第i个元素/>为：

计算T_t对T_s的注意力特征中的第j个元素/>为：

5.根据权利要求1所述的基于多尺度可形变注意力的红外图像目标跟踪***，其特征在于，所述预测模块(4)包括分类预测网络(401)、边框预测网络(402)和目标边框计算模块(403)；所述分类预测网络(401)用于根据融合特征G_st获取搜索图中目标的分类结果C＝[C₁,C₂,…,C_len]；所述边框预测网络(402)用于根据融合特征G_st获取搜索图中目标的预测边框B＝[B₁,B₂,…,B_len]；其中len为搜索图多尺度特征的长度，l＝1,2,…,len，C_l＝[C_l0C_l1]为根据融合特征G_st中第l个元素得到的归一化类别；B_l＝[B_lx,B_ly,B_lw,B_lh]为根据融合特征G_st中第l元素预测的目标矩形边框，B_lx,B_ly为矩形边框的中心点坐标，B_lw,B_lh为矩形边框的宽和高；

6.根据权利要求5所述的基于多尺度可形变注意力的红外图像目标跟踪***，其特征在于，所述目标边框计算模块(403)计算搜索图中目标边框的步骤为：

查找C＝[C₁,C₂,…,C_len]中C_l0的最大值对应的元素序号l^*：

第l^*个元素对应的预测的目标矩形边框为搜素图中目标边框

7.根据权利要求5所述的基于多尺度可形变注意力的红外图像目标跟踪***，其特征在于，所述***的训练步骤包括：

c1、在用于训练的视频中随机选取两张图片，从中选择一张作为模板图，另一张图片作为搜索图，输入待训练的红外图像目标跟踪***中，预测模块(4)输出分类结果C＝[C₁,C₂,…,C_len]和预测边框B＝[B₁,B₂,…,B_len]；

所述损失函数为：L＝L_class+L_loss+L_giou；

其中L_class为分类损失：U_l的值根据预测边框中第l个元素B_l与搜索图中目标真实边框B^T的位置确定：/>W[1]为负样本权重，W[0]为正样本权重；

8.一种基于多尺度可形变注意力的红外图像目标跟踪方法，其特征在于，包括：

将待跟踪视频中的第一帧作为模板图，在目标图中标记出待跟踪目标的矩形边框；将视频后续帧作为搜索图；将模板图和搜索图分别输入如权利要求1-7中任一项所述的红外图像目标跟踪***中的模板图分支和搜索图分支，根据预测模块获取搜索图中目标的矩形边框。