CN116402858B - 基于transformer的时空信息融合的红外目标跟踪方法 - Google Patents

基于transformer的时空信息融合的红外目标跟踪方法 Download PDF

Info

Publication number
CN116402858B
CN116402858B CN202310406030.1A CN202310406030A CN116402858B CN 116402858 B CN116402858 B CN 116402858B CN 202310406030 A CN202310406030 A CN 202310406030A CN 116402858 B CN116402858 B CN 116402858B
Authority
CN
China
Prior art keywords
network
formula
image
infrared
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310406030.1A
Other languages
English (en)
Other versions
CN116402858A (zh
Inventor
齐美彬
汪沁昕
庄硕
张可
李坤袁
刘一敏
杨艳芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202310406030.1A priority Critical patent/CN116402858B/zh
Publication of CN116402858A publication Critical patent/CN116402858A/zh
Application granted granted Critical
Publication of CN116402858B publication Critical patent/CN116402858B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10048Infrared image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于transformer的时空信息融合的红外目标跟踪方法,包括:第一步,对红外图像进行预处理;第二步,构建红外目标跟踪网络,包括:红外图像特征提取子网络、红外图像特征融合子网络、角点预测头子网络、显著点聚焦子网络、IOU‑Aware目标状态评估头子网络;第三步,构建红外目标跟踪网络的损失函数;第四步,采用两阶段训练法优化红外目标跟踪网络。本发明通过设计多个组件来实现红外目标跟踪过程中时空信息的融合,旨在提高不同跟踪场景下红外目标跟踪方法的准确性和鲁棒性。

Description

基于transformer的时空信息融合的红外目标跟踪方法
技术领域
本发明属于计算机视觉领域,具体涉及一种基于transformer的时空信息融合的红外目标跟踪方法。
背景技术
热红外目标跟踪是视觉目标跟踪领域一个十分具有发展前景的研究方向,其任务是在红外视频序列中,通过给定要跟踪的目标的基本状态,持续预测后续视频帧中该目标出现的位置。由于红外图像成像方式不依赖光线的强弱,只与物体辐射的温度相关。所以,红外目标跟踪可在能见度低甚至完全黑暗的情况下跟踪目标,具有全天候,复杂环境下的工作能力。因此它被广泛应用于海上救援、视频监控和夜间驾驶辅助等领域。
尽管红外目标跟踪有其独特的优势,但也面临着很多的挑战。例如,红外目标没有颜色信息、缺乏丰富的纹理特征,轮廓纹理模糊等。这些不利因素造成了红外目标的局部细节特征缺乏,从而阻碍了现有的针对可见光图像设计的特征提取模型获得红外目标的强鉴别性的特征表示。此外,热红外目标跟踪还面临着热交叉、遮挡、尺度变化等一系列的挑战因素。为了解决这些问题,一些基于手工设计特征的红外目标跟踪模型被提了出来,尽管这些方法取得了一定的进步,但是手工特征有限的表征能力仍然限制了***性能的提升。
考虑到卷积神经网络强大的特征表示能力,一些研究者开始试图将CNN特征引入红外目标跟踪任务中。例如MCFTS使用预训练的卷积神经网络来提取热红外目标的多个卷积层的特征,并与相关滤波器相结合,构建了集成式红外***。近年来,Siam系列网络在可见光跟踪任务中得到了广泛的应用,其将跟踪视为匹配问题,通过离线训练匹配网络进行在线跟踪。受此启发,许多基于Siam网络框架的红外***应运而生。其中,MMNet通过用多任务匹配框架整合TIR特有的鉴别性特征和细粒度特征,SiamMSS提出多组空间移位模型以增强特征图的细节。然而现有的Siam红外***或是只关注空间信息,即利用第一帧作为固定的模板进而实现对后续帧中的目标的匹配跟踪,或是通过将相关滤波器与Siam网络结合起来,利用历史预测信息实现对模板的更新。尽管这些跟踪算法在许多常规跟踪场景中,具有良好的性能和实时跟踪速度。但是当目标遭受剧烈的外观变化、非刚性变形和部分遮挡时,可能会出现严重的漂移,并且无法从跟踪失败中恢复。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于transformer的时空信息融合的红外目标跟踪方法,以期能通过transformer的注意力机制捕捉红外图像特征之间的全局依赖关系,并通过利用显著点的信息和IOU-Aware的评估标准为模型引入具有参考价值的时空信息,从而进一步提高红外目标跟踪方法的准确性和鲁棒性。
本发明为解决问题,采用如下方案:
本发明一种基于transformer的时空信息融合的红外目标跟踪方法的特点在于,是按如下步骤进行:
步骤一、对红外图像进行预处理;
步骤1.1:从红外目标跟踪数据集中任意挑选一个包含红外目标Obj的视频序列V,并对所述视频序列V中任意第i帧图像Vi、第j帧图像Vj、第k帧图像Vk进行裁剪缩放,分别得到预处理后的静态模板图像预处理后的动态模板图像/>预处理后的搜索图像/>将Vi′,V′j,V′k作为红外目标跟踪网络的输入,其中HT,WT为Vi′的高和宽,HD,WD为V′j的高和宽,HS,WS为V′k的高和宽,C′为各个图像的通道数;
步骤二、构建红外目标跟踪网络,包括:红外图像特征提取子网络、红外图像特征融合子网络、角点预测头子网络、显著点聚焦子网络、IOU-Aware目标状态评估头子网络;
步骤2.1:所述特征提取子网络为ResNet50网络,并分别对所述预处理后的静态模板图像Vi′、动态模块图像V′j和搜索图像V′k进行特征提取,相应得到静态模板特征图动态模板特征图/>和搜索图像特征图/>其中d为特征提取网络的下采样倍数,C为下采样后的特征图的通道数;
步骤2.2:将分别从空间维度展平,得到对应的静态模板特征序列/>动态模板特征序列/>搜索图像特征序列/>后再进行拼接,从而得到混合特征序列/>
步骤2.3:在混合特征序列fm中加入正弦位置编码得到包含位置编码的混合特征序列/>
步骤2.4:构建所述红外图像特征融合子网络,用于对混合特征序列fM进行处理,得到搜索特征图
步骤2.5:所述角点预测头子网络由两个全卷积网络组成,每个全卷积网络包括A个堆叠的Conv-BN-ReLU层和一个Conv层,用于对FS′包含的红外目标Obj的预测边界框进行角点概率预测,从而由两个全卷积网络分别输出预测边界框左上角的角点概率分布图和右下角的角点概率分布图/>
步骤2.6:利用式(1)计算预测边界框的左上角坐标(x′tl,y′tl)和右下角坐标(x′br,y′br),从而得到红外目标Obj在搜索图像V′k中的预测边界框B′=(x′tl,y′tl,x′br,y′br),其中,(x,y)表示角点概率分布图Ptl,Pbr上的坐标,且
步骤2.7:所述显著点聚焦子网络用于提取显著点特征
步骤2.8:所述IOU-Aware目标状态评估头子网络由多层感知机构成,并将F′S包含的BF内部的所有显著点特征输入到IOU-Aware目标状态评估头子网络中,输出对预测边界框B′的IOU分数Score;
步骤三、构建红外目标跟踪网络的损失函数;
步骤3.1:利用式(2)构建所述角点预测头子网络的损失函数Lbp
式(2)中,λGIOU均为实数范畴的超参数,B=(xtl,ytl,xbr,ybr)表示红外目标Obj的真实框的四个角点坐标;L1_loss表示预测边界框和真实框四个角点距离的损失,并由式(3)得到;GIOU_loss表示预测边界框和真实框泛化交并比的损失,并由式(4)得到;
式(3)中,Bt′表示预测边界框B′的第t个角点坐标,Bt表示真实框B的第t个角点坐标;
GIOU_loss=1-GIOU (4)
式(4)中,GIOU表示B′和B的泛化交并比,并由式(5)得到;
式(5)中,rec表示包含B′和B的最小矩形框面积,并由式(6)得到;IOU表示B′和B的交并比,并由式(8)得到;
rec=(x4-x1)(y4-y1) (6)
式(6)中,x4,y4分别表示B′和B的右下角坐标的最大值,x1,y1分别表示B′和B的左上角坐标的最小值,并由式(7)得到;
式(8)中,union表示B′和B的并集面积,并由式(9)得到;
union=S′+S-inter (9)
式(9)中,inter表示B′和B的交集面积,并由式(10)得到;S′表示B′的面积,S表示B的面积,并由式(11)得到;
inter=(x3-x2)(y3-y2) (10)
式(10)中,x2,y2分别表示B′和B的左上角坐标的最大值,x3,y3分别表示B′和B的右下角坐标的最小值,并由式(12)得到;
式(11)中,B′w,B′h分别表示B′的宽和高,Bw,Bh分别表示B的宽和高,并由式(13)得到
步骤3.2:利用式(14)构建所述IOU-Aware目标状态评估头子网络的损失函数LIATSE
LIATSE=-|IOU-Score|β((1-IOU)log(1-Score)+IOU log(Score)) (14)
式(14)中,β是实数范畴的超参数;
步骤四、采用两阶段训练法优化红外目标跟踪网络;
步骤4.1:在第一阶段训练时,冻结IOU-Aware目标状态评估头子网络,利用梯度下降算法训练红外目标跟踪网络中除IOU-Aware目标状态评估头子网络外的其余网络,并通过最小化式(2)所示的损失函数来更新网络参数,当训练迭代次数达到设定的次数时,停止训练,从而得到初步训练后的红外目标跟踪网络;
步骤4.2:在第二阶段训练时,冻结初步训练后的红外图像特征提取子网络、初步训练后的红外图像特征融合子网络、初步训练后的显著点聚焦子网络,利用梯度下降算法训练初步训练后的角点预测头子网络和IOU-Aware目标状态评估头子网络,并通过最小化式(15)所示的损失函数来更新网络参数,当训练迭代次数达到设定的次数时,停止训练,从而得到训练后的红外目标跟踪模型,用于实现对红外目标的持续性精准定位;
式(15)中,为实数范畴的超参数。
本发明所述的基于transformer的时空信息融合的红外目标跟踪方法的特点也在于,所述步骤2.4中的红外图像特征融合子网络包括:基于Transformer的编码器模块,基于Transformer的解码器模块和编-解码器后处理模块,并按如下步骤得到搜索特征图
步骤2.4.1:基于Transformer的编码器模块由R个多头自注意力块组成,并将包含位置编码的混合特征序列fM输入编码器模块中进行空间和时间维度上全局关系的建模,从而获得具有辨别力的时空特征序列f′M,R为编码器模块中多头自注意力块的数量;
步骤2.4.2:基于Transformer的解码器模块由N个多头自注意力块组成,并将时空特征序列f′M和单个目标查询输入解码器模块中进行交叉注意力处理,输出增强后的目标查询/>N为解码器模块中多头自注意力块的数量;
步骤2.4.3:所述编-解码器后处理模块从时空特征序列f′M中解耦出对应的搜索区域特征序列并计算f′S与oq′之间的相似度分数/>再将相似度分数att与f′S进行逐元素相乘后,得到增强后的搜索区域特征序列/>最后将f″S恢复成增强后的搜索特征图/>
所述步骤2.7中的显著点聚焦子网络包括:显著点坐标预测模块和显著点特征提取模块,用于得到搜索图像V′k包含的显著点特征;
步骤2.7.1:所述显著点坐标预测模块先将B′映射到F′S上后,得到映射后的坐标BF,然后通过ROIAlign操作从F′S中提取BF对应的区域级别特征其中,K表示FP的宽和高;
所述显著点坐标预测模块通过卷积层对FP进行降维操作后,得到降维后的区域级别特征然后将F′P展平为一维张量/>后再输入多层感知机中进行预测,得到FP中的L个显著点对应的预测坐标/>其中,C″表示F′P的通道数,L表示显著点的数量;
步骤2.7.2:将恢复成二维张量/>后,所述显著点特征提取模块通过双线性插值法从FP中采样Locsp所对应的显著点特征/>
本发明一种电子设备,包括存储器以及处理器的特点在于,所述存储器用于存储支持处理器执行所述红外目标跟踪方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
本发明一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序的特点在于,所述计算机程序被处理器运行时执行所述红外目标跟踪方法的步骤。
与现有技术相比,本发明的有益效果在于:
1、现有的红外目标跟踪技术大多忽略了对时间信息的利用,导致模型在跟踪失败时难以恢复。因此本发明在传统的基于Siam的两分支跟踪框架(静态模板图-搜索图)基础上,额外添加了一个动态模版选择分支,该分支为模型引入随时间变化的动态模板,与静态模板和搜索图一起作为模型的输入。此外,本发明还在特征融合阶段利用了transformer的编码器-解码器结构,进一步捕获了时空信息的全局依赖关系,从而克服了一般红外跟踪技术仅能对目标特征信息进行局部建模的问题。
2、为了进一步捕捉目标对象随时间发生的状态变化,本发明将显著点信息引入动态模板选择分支中,并通过在目标图像上显式搜索多个显著点并聚焦所有显著点的信息实现对目标图像质量的评估,进而为模板图像的更新挑选合适的候选对象,以提升了红外目标跟踪方法在目标发生外观变化、非刚性形变等情况下的跟踪性能。
3、现有的利用动态模板选择模块引入时间信息的目标***在训练阶段未能给目标图像的质量评估提供一个明确的标准。它们在训练阶段对目标图像的label进行随机的分配(即正样本是1,负样本是0),当label为1时表示该图像被选作动态模板。这种对目标图像质量的模糊估计会导致模型在测试时无法针对目标图像的当前状态做出最正确的质量评估,从而给模型引入多余且不具有参考价值的时间信息,减弱了模板更新模块的效果。针对该问题,本发明选择将预测边界框与真实框之间的IOU-aware分数视为动态模板选择模块的训练目标,该分数将目标图像能否作为***的动态模板的衡量标准定义为角点预测头的定位精确程度,此时训练目标拥有了明确的评估标准,因此模型在测试时也可以达到更好的跟踪效果。
附图说明
图1为本发明网络的流程图;
图2为本发明网络的框架图;
图3为本发明IOU-Aware目标状态评估头结构图。
具体实施方式
本实施例中,一种基于transformer的时空信息融合的红外目标跟踪方法,如图1所示,包括以下步骤:
步骤一、对红外图像进行预处理;
步骤1.1:从红外目标跟踪数据集中任意挑选一个包含特定红外目标Obj的视频序列V={V1,V2,…,Vn,…,VI},I表示选取的红外视频序列的总帧数,Vn表示视频序列中的第n帧图像,n∈[1,I],并对视频序列V中任意第i帧图像Vi、第j帧图像Vj、第k帧图像Vk进行裁剪缩放,分别得到预处理后的静态模板图像预处理后的动态模板图像预处理后的搜索图像/>将Vi′,Vj′,Vk′作为红外目标跟踪网络的输入,其中HT,WT为Tn的高和宽,HD,WD为Dn的高和宽,HS,WS为Sn的高和宽,C′为各个图像初始的通道数,i,j,k∈[1,I]。本实施例中,Vi′的高和宽HT=WT=128,Vj′的高和宽HD=WD=128,Vk′的高和宽HS=WS=320,各个图像初始的通道数C′=3;
步骤二、构建红外目标跟踪网络,包括:红外图像特征提取子网络、红外图像特征融合子网络、角点预测头子网络、显著点聚焦子网络、IOU-Aware目标状态评估头子网络;
步骤2.1:特征提取子网络为ResNet50网络,并分别对预处理后的静态模板图像Vi′、动态模块图像Vj′和搜索图像Vk′进行特征提取,相应得到静态模板特征图动态模板特征图/>和搜索图像特征图/>本实例中,特征提取网络的下采样倍数d=16,下采样后各个特征图的通道数C=256;
步骤2.2:将分别从空间维度展平,得到对应的静态模板特征序列/>动态模板特征序列/>搜索图像特征序列/>后再进行拼接,从而得到混合特征序列/>
步骤2.3:在混合特征序列fm中加入正弦位置编码得到包含位置编码的混合特征序列/>
步骤2.4、构建红外图像特征融合子网络,包括:基于Transformer的编码器模块,基于Transformer的解码器模块和编-解码器后处理模块:
步骤2.4.1:基于Transformer的编码器模块由R个多头自注意力块组成,并将包含位置编码的混合特征序列fM输入编码器模块中进行空间和时间维度上全局关系的建模,从而获得具有辨别力的时空特征序列f′M,R为编码器模块中多头自注意力块的数量。本实例中,R=6;
步骤2.4.2:基于Transformer的解码器模块由N个多头自注意力块组成,并将时空特征序列f′M和单个目标查询输入解码器模块中进行交叉注意力处理,输出增强后的目标查询/>N为解码器模块中多头自注意力块的数量。本实例中,N=6;
步骤2.4.3:编-解码器后处理模块从时空特征序列f′M中解耦出对应的搜索区域特征序列并计算f′S与oq′之间的相似度分数/>再将相似度分数att与f′S进行逐元素相乘后,得到增强后的搜索区域特征序列/>最后将f″S恢复成增强后的搜索特征图/>
步骤2.5、角点预测头子网络是由两个全卷积网络组成,每个全卷积网络包括A个堆叠的Conv-BN-ReLU层和一个Conv层,用于对F′S包含的红外目标Obj的预测边界框进行角点概率预测,从而由两个全卷积网络分别输出得到预测边界框左上角的角点概率分布图和右下角的角点概率分布图/>本实例中,A=4,每个Conv-BN-ReLU层中Conv层的卷积核大小为3×3,步距为1,填充为1,BN层的参数momentum=0.1,最后一个单独的Conv的卷积核的大小为1×1,步距为1。
步骤2.6:利用式(1)计算预测边界框的左上角坐标(x′tl,y′tl)和右下角坐标(x′br,y′br),从而得到红外目标Obj在搜索图像V′k中的预测边界框B′=(x′tl,y′tl,x′br,y′br),其中,(x,y)表示角点概率分布图Ptl,Pbr上的坐标,且
步骤2.7:显著点聚焦子网络,包括:显著点坐标预测模块和显著点特征提取模块,用于得到搜索图像V′k包含的显著点特征;
步骤2.7.1:显著点坐标预测模块先将B′映射到F′S上后,得到映射后的坐标BF,然后通过ROIAlign操作从F′S中提取BF对应的区域级别特征其中,K表示FP的宽和高;
显著点坐标预测模块通过卷积层对FP进行降维操作后,得到降维后的区域级别特征然后将F′P展平为一维张量/>后再输入多层感知机中进行预测,得到FP中的L个显著点对应的预测坐标/>其中,C″表示F′P的通道数,L表示显著点的数量。本实例中,K=7,L=8,多层感知机由4个线性层级联而成,其中第一个线性层的输出通道为256,第二个线性层的输出通道为512,第三个线性层的输出通道为512,第四个线性层的输出通道为16;
步骤2.7.2:将恢复成二维张量/>显著点特征提取模块通过双线性插值法从FP中采样Loc′sp所对应的显著点特征/>
步骤2.8:IOU-Aware目标状态评估头子网络由多层感知机构成,并将F′S包含的BF内部的所有显著点特征输入到IOU-Aware目标状态评估头子网络中,输出对B′预测的IOU分数Score。
一般时空跟踪模型的动态选择模块的训练目标为分类得分(即前景为“1”,背景为“0”)。本发明提出了IOU-Aware目标状态评估头,其由多层感知机构成,结构图如图3所示。本实例中IOU-Aware目标状态评估头由4个线性层级联而成,其中第一个线性层的输出通道为1024,第二个线性层的输出通道为512,第三个线性层的输出通道为256,第四个线性层的输出通道为1。输入是目标图像预测边界框内所有显著点的特征,输出应用了IOU-Aware的设计,将训练目标从一般的分类得分(即前景为“1”,背景为“0”)替换为预测边界框和真实框之间的IOU分数,以加强分类和回归分支的联系。基于训练目标的重新选择,此时IOU-Aware目标状态评估头输出的得分Score汇聚了预测边界框中所有显著点的信息,表示预测边界框的IoU分数,因此被称为IoU-Aware目标状态评估得分。该分数为目标图像当前状态的评估提供了一个IOU-Aware的标准。通过将目标对象的显著点信息集成到IOU-Aware的评估中,可以获得回归框自身及其包含的最具辨别力的特征的联合表示,该表示将目标图像能否作为***的动态模板的衡量标准定义为角点预测头的定位精确程度,因为角点预测头预测的目标边界框越精确,其中所包含的可用于评估目标图像质量的有用信息就越多,评估结果也就越准确。
步骤三、构建红外目标跟踪网络的损失函数;
步骤3.1、利用式(2)构建角点预测头子网络的损失函数Lbp
式(2)中,B=(xtl,ytl,xbr,ybr)表示红外目标Obj的真实框的四个角点坐标;L1_loss表示预测边界框和真实框四个角点距离的损失,并由式(3)得到;GIOU_loss表示预测边界框和真实框泛化交并比的损失,并由式(4)得到;
式(3)中,B′t表示预测边界框B′的四个角点坐标,Bt表示真实框B的四个角点坐标。
GIOU_loss=1-GIOU (4)
式(4)中,GIOU表示B′和B的泛化交并比,并由式(5)得到;
式(5)中,rec表示包含B′和B的最小矩形框面积,并由式(6)得到;IOU表示B′和B的交并比,并由式(8)得到;
rec=(x4-x1)(y4-y1) (6)
式(6)中,x4,y4分别表示B′和B的右下角坐标的最大值,x1,y1分别表示B′和B的左上角坐标的最小值,并由式(7)得到;
式(8)中,union表示B′和B的并集面积,并由式(9)得到;
union=S′+S-inter (9)
式(9)中,inter表示B′和B的交集面积,并由式(10)得到;S′表示B′的面积,S表示B的面积,并由式(11)得到;
inter=(x3-x2)(y3-y2) (10)
式(10)中,x2,y2分别表示B′和B的左上角坐标的最大值,x3,y3分别表示B′和B的右下角坐标的最小值,并由式(12)得到;
式(11)中,B′w,B′h分别表示B′的宽和高,Bw,Bh分别表示B的宽和高,并由式(13)得到
步骤3.2、利用式(14)构建IOU-Aware目标状态评估头子网络的损失函数LIATSE
LIATSE=-|IOU-Score|β((1-IOU)log(1-Score)+IOU log(Score)) (14)
式(14)中,β是实数范畴的超参数。本实例中,β=2;
步骤四、采用两阶段训练法优化红外目标跟踪网络;
步骤4.1:在第一阶段训练时,冻结IOU-Aware目标状态评估头子网络,利用梯度下降算法训练红外目标跟踪网络中除IOU-Aware目标状态评估头子网络外的其余网络,并通过最小化式(2)所示的损失函数来更新网络参数,当训练迭代次数达到设定的次数时,停止训练,从而得到初步训练后的红外目标跟踪网络;
步骤4.2:在第二阶段训练时,冻结初步训练后的红外图像特征提取子网络、初步训练后的红外图像特征融合子网络、初步训练后的显著点聚焦子网络,利用梯度下降算法训练初步训练后的角点预测头子网络和IOU-Aware目标状态评估头子网络,并通过最小化式(15)所示的损失函数来更新网络参数,当训练迭代次数达到设定的次数时,停止训练,从而得到训练后的红外目标跟踪模型,用于实现对特定红外目标的持续性精准定位;
式(15)中,为实数范畴的超参数。本实例中,/>
本实施例中,一种电子设备,包括存储器以及处理器,该存储器用于存储支持处理器执行上述方法的程序,该处理器被配置为用于执行该存储器中存储的程序。
本实施例中,一种计算机可读存储介质,是在计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法的步骤。
本发明为动态模板更新机制制定了两个标准:(1)更新阈值(2)更新间隔。只有达到更新间隔并且IOU-Aware目标状态评估头输出的Score达到更新阈值时,当前搜索图像被选为后续跟踪过程的动态模板。动态模板在跟踪过程中是不断进行更新的。本发明的总体跟踪流程如下图1所示。具体来说,选取视频序列第一帧为固定的静态模板图像,以静态模板图像目标框的中心为中心,对目标框面积2倍大小的区域进行裁剪缩放得到尺寸大小为128×128的预处理后的静态模板图像。除视频序列的第一帧外,其他帧为搜索图,搜索图像的预处理是以上一帧预测得到的目标框的中心为中心,对当前搜索图以目标框面积5倍大小的区域进行裁剪缩放得到尺寸大小为320×320的预处理后的搜索图像。动态模板是由动态模板选择模块确定的,当前进行目标框位置预测的搜索图像若满足动态模板选择模块的更新条件,该搜索图像会以预测目标框的中心为中心,对目标框面积2倍大小的区域进行裁剪缩放得到尺寸大小为128×128的预处理后的动态模板图像。预处理后的静态模板图像、动态模板图像、搜索图像会在***进行下一帧搜索图像目标位置预测时,一同作为跟踪网络的输入。在测试过程中,双模板和当前搜索帧被送入网络进行特征提取和融合。然后,角点预测头输出预测的当前搜索帧的目标边界框,再在边界框所包围的范围内进行显著点的搜索。最后将通过双线性插值提取的所有显著点特征送入IOU-Aware目标状态评估头以获得当前搜索帧的状态评估分数。当该分数满足更新阈值并且达到更新间隔时,当前搜索帧将被视为后续跟踪过程的动态模板。
表1.1消融实验结果对比
表1.2消融实验结果对比
表2不同红外跟踪算法在PTB-TIR数据集上结果对比
表3不同红外跟踪算法在LSOTB-TIR数据集上结果对比
本发明中基于transformer的时空信息融合的红外跟踪网络结构如图2所示,该网络使用基于transformer的编-解码器结构获取双模板特征序列与搜索特征序列元素之间的全局依赖关系,并且利用显著点信息让动态模版选择模块聚焦于最具有辨别力的特征上。同时,该算法还引入IOU-Aware评估组件,将动态模板的质量评估集成到IOU预测中,从而为动态模板的质量评估提供一个更加可靠的标准。表1.1为本发明中针对显著点组件(SPF)与IOU-Aware(I-A)组件的消融实验结果对比。该实验以RGB跟踪领域的Stark-s算法作为基准模型,分别在基准模型上加入SPF组件和I-A组件可以看出本发明在时空信息利用上的明显优势。其中,Accuracy(Acc)为精确度指标,Robustness(Rob)为鲁棒性指标,EAO为期望平均重叠率。上述指标中Acc越大表示真实框和预测框的中心距离差越小,Rob越大表示***跟丢的次数越少,EAO越大表示***的平均性能越好。表1.1的结果表明利用显著点的信息与IOU-Aware评估组件可以有效提升网络的跟踪性能。基准模型将整个目标图像的信息引入动态模板的评估中,本发明通过将显著点的搜索范围限制在预测边界框内,只选择部分信息引入动态模板的评估中,表1.2展现了动态模版信息搜索范围的对比结果。从表中可以发现本发明在所有评估指标上都优于基准模型,这表明目标图像的质量估计更依赖于识别关键特征,而不是对所有特征赋予同等重要性。
表2和表3为本发明与其他红外目标跟踪算法在PTB-TIR和LSOTB-TIR两个红外数据集上的评估结果对比。其中,STFT(Ours)表示本发明,ECO-deep,ECO-TIR,MCFTS表示基于深度特征的相关滤波***,MDNet,VITAL表示其他的深度***,SiamFC SiamRPN++,SiamMask,SiamMSS,HSSNet,MLSSNet,MMNet,STMTrack,Stark-s,Stark-st为基于Siam网络的***。Success是成功率指标,Precision是精度指标,Norm Precision是归一化精度指标,Success越大表示预测框和真实框的重叠度越高,Precision和Norm Precision越大表示预测框和真实框的中心距离差越小。表2和表3的结果表明,本发明在当前评估指标下,整体性能优于上述红外跟踪方法。

Claims (4)

1.一种基于transformer的时空信息融合的红外目标跟踪方法,其特征在于,是按如下步骤进行:
步骤一、对红外图像进行预处理;
步骤1.1:从红外目标跟踪数据集中任意挑选一个包含红外目标Obj的视频序列V,并对所述视频序列V中任意第i帧图像Vi、第j帧图像Vj、第k帧图像Vk进行裁剪缩放,分别得到预处理后的静态模板图像预处理后的动态模板图像/>预处理后的搜索图像/>将Vi′,V′j,V′k作为红外目标跟踪网络的输入,其中HT,WT为Vi′的高和宽,HD,WD为V′j的高和宽,HS,WS为V′k的高和宽,C′为各个图像的通道数;
步骤二、构建红外目标跟踪网络,包括:红外图像特征提取子网络、红外图像特征融合子网络、角点预测头子网络、显著点聚焦子网络、IOU-Aware目标状态评估头子网络;
步骤2.1:所述特征提取子网络为ResNet50网络,并分别对所述预处理后的静态模板图像Vi′、动态模块图像Vj′和搜索图像Vk′进行特征提取,相应得到静态模板特征图动态模板特征图/>和搜索图像特征图/>其中d为特征提取网络的下采样倍数,C为下采样后的特征图的通道数;
步骤2.2:将分别从空间维度展平,得到对应的静态模板特征序列/>动态模板特征序列/>搜索图像特征序列/>后再进行拼接,从而得到混合特征序列/>
步骤2.3:在混合特征序列fm中加入正弦位置编码得到包含位置编码的混合特征序列/>
步骤2.4:构建所述红外图像特征融合子网络,用于对混合特征序列fM进行处理,得到搜索特征图
所述红外图像特征融合子网络包括:基于Transformer的编码器模块,基于Transformer的解码器模块和编-解码器后处理模块,并按如下步骤得到搜索特征图
步骤2.4.1:基于Transformer的编码器模块由R个多头自注意力块组成,并将包含位置编码的混合特征序列fM输入编码器模块中进行空间和时间维度上全局关系的建模,从而获得具有辨别力的时空特征序列f′M,R为编码器模块中多头自注意力块的数量;
步骤2.4.2:基于Transformer的解码器模块由N个多头自注意力块组成,并将时空特征序列f′M和单个目标查询输入解码器模块中进行交叉注意力处理,输出增强后的目标查询/>N为解码器模块中多头自注意力块的数量;
步骤2.4.3:所述编-解码器后处理模块从时空特征序列f′M中解耦出对应的搜索区域特征序列并计算f′S与oq′之间的相似度分数/>再将相似度分数att与f′S进行逐元素相乘后,得到增强后的搜索区域特征序列/>最后将f″S恢复成增强后的搜索特征图/>
步骤2.5:所述角点预测头子网络由两个全卷积网络组成,每个全卷积网络包括A个堆叠的Conv-BN-ReLU层和一个Conv层,用于对F′S包含的红外目标Obj的预测边界框进行角点概率预测,从而由两个全卷积网络分别输出预测边界框左上角的角点概率分布图和右下角的角点概率分布图/>
步骤2.6:利用式(1)计算预测边界框的左上角坐标(x′tl,y′tl)和右下角坐标(x′br,y′br),从而得到红外目标Obj在搜索图像V′k中的预测边界框B′=(x′tl,y′tl,x′br,y′br),其中,(x,y)表示角点概率分布图Ptl,Pbr上的坐标,且
步骤2.7:所述显著点聚焦子网络用于提取显著点特征
步骤2.8:所述IOU-Aware目标状态评估头子网络由多层感知机构成,并将F′S包含的BF内部的所有显著点特征输入到IOU-Aware目标状态评估头子网络中,输出对预测边界框B′的IOU分数Score;L表示显著点的数量;BF表示将B′映射到F′S上后,得到映射后的坐标;
设置动态模板的更新条件为:IOU-Aware目标状态评估头子网络达到更新间隔,且输出的IOU分数Score达到更新阈值;
视频序列的第一帧作为固定的静态模板图像,并以静态模板图像的目标框的中心为中心,对目标框所在的区域进行裁剪缩放后,得到预处理后的静态模板图像;除视频序列的第一帧外,其他帧为搜索的目标图像,搜索的目标图像的预处理是以上一帧预测得到的目标框的中心为中心,对当前搜索的目标图像以目标框所在的区域进行裁剪缩放后,得到预处理后的搜索图像;若当前进行目标框位置预测的搜索图像满足动态模板的更新条件,则将当前搜索图像选为后续跟踪过程的动态模板图像,并以当前搜索的目标图像以预测目标框的中心为中心,对目标框所在区域进行裁剪缩放后,得到预处理后的动态模板图像;
将预处理后的静态模板图像、预处理后的动态模板图像、预处理后的搜索图像输入IOU-Aware目标状态评估头子网络中进行预测边界框IOU分数的预测;
步骤三、构建红外目标跟踪网络的损失函数;
步骤3.1:利用式(2)构建所述角点预测头子网络的损失函数Lbp
式(2)中,λGIOU均为实数范畴的超参数,B=(xtl,ytl,xbr,ybr)表示红外目标Obj的真实框的四个角点坐标;L1_loss表示预测边界框和真实框四个角点距离的损失,并由式(3)得到;GIOU_loss表示预测边界框和真实框泛化交并比的损失,并由式(4)得到;
式(3)中,Bt′表示预测边界框B′的第t个角点坐标,Bt表示真实框B的第t个角点坐标;
GIOU_loss=1-GIOU (4)
式(4)中,GIOU表示B′和B的泛化交并比,并由式(5)得到;
式(5)中,rec表示包含B′和B的最小矩形框面积,并由式(6)得到;IOU表示B′和B的交并比,并由式(8)得到;
rec=(x4-x1)(y4-y1) (6)
式(6)中,x4,y4分别表示B′和B的右下角坐标的最大值,x1,y1分别表示B′和B的左上角坐标的最小值,并由式(7)得到;
式(8)中,union表示B′和B的并集面积,并由式(9)得到;
union=S′+S-inter (9)
式(9)中,inter表示B′和B的交集面积,并由式(10)得到;S′表示B′的面积,S表示B的面积,并由式(11)得到;
inter=(x3-x2)(y3-y2) (10)
式(10)中,x2,y2分别表示B′和B的左上角坐标的最大值,x3,y3分别表示B′和B的右下角坐标的最小值,并由式(12)得到;
式(11)中,B′w,B′h分别表示B′的宽和高,Bw,Bh分别表示B的宽和高,并由式(13)得到
步骤3.2:利用式(14)构建所述IOU-Aware目标状态评估头子网络的损失函数LIATSE
LIATSE=-|IOU-Score|β((1-IOU)log(1-Score)+IOU log(Score)) (14)
式(14)中,β是实数范畴的超参数;
步骤四、采用两阶段训练法优化红外目标跟踪网络;
步骤4.1:在第一阶段训练时,冻结IOU-Aware目标状态评估头子网络,利用梯度下降算法训练红外目标跟踪网络中除IOU-Aware目标状态评估头子网络外的其余网络,并通过最小化式(2)所示的损失函数来更新网络参数,当训练迭代次数达到设定的次数时,停止训练,从而得到初步训练后的红外目标跟踪网络;
步骤4.2:在第二阶段训练时,冻结初步训练后的红外图像特征提取子网络、初步训练后的红外图像特征融合子网络、初步训练后的显著点聚焦子网络,利用梯度下降算法训练初步训练后的角点预测头子网络和IOU-Aware目标状态评估头子网络,并通过最小化式(15)所示的损失函数来更新网络参数,当训练迭代次数达到设定的次数时,停止训练,从而得到训练后的红外目标跟踪模型,用于实现对红外目标的持续性精准定位;
式(15)中,为实数范畴的超参数。
2.根据权利要求1所述的基于transformer的时空信息融合的红外目标跟踪方法,其特征在于,所述步骤2.7中的显著点聚焦子网络包括:显著点坐标预测模块和显著点特征提取模块,用于得到搜索图像V′k包含的显著点特征;
步骤2.7.1:所述显著点坐标预测模块先将B′映射到F′S上后,得到映射后的坐标BF,然后通过ROIAlign操作从F′S中提取BF对应的区域级别特征其中,K表示FP的宽和高;
所述显著点坐标预测模块通过卷积层对FP进行降维操作后,得到降维后的区域级别特征然后将F′P展平为一维张量/>后再输入多层感知机中进行预测,得到FP中的L个显著点对应的预测坐标/>其中,C″表示F′P的通道数,L表示显著点的数量;
步骤2.7.2:将恢复成二维张量/>后,所述显著点特征提取模块通过双线性插值法从FP中采样Loc′sp所对应的显著点特征/>
3.一种电子设备,包括存储器以及处理器,其特征在于,所述存储器用于存储支持处理器执行权利要求1或2所述红外目标跟踪方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
4.一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1或2所述红外目标跟踪方法的步骤。
CN202310406030.1A 2023-04-11 2023-04-11 基于transformer的时空信息融合的红外目标跟踪方法 Active CN116402858B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310406030.1A CN116402858B (zh) 2023-04-11 2023-04-11 基于transformer的时空信息融合的红外目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310406030.1A CN116402858B (zh) 2023-04-11 2023-04-11 基于transformer的时空信息融合的红外目标跟踪方法

Publications (2)

Publication Number Publication Date
CN116402858A CN116402858A (zh) 2023-07-07
CN116402858B true CN116402858B (zh) 2023-11-21

Family

ID=87017716

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310406030.1A Active CN116402858B (zh) 2023-04-11 2023-04-11 基于transformer的时空信息融合的红外目标跟踪方法

Country Status (1)

Country Link
CN (1) CN116402858B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117036417A (zh) * 2023-09-12 2023-11-10 南京信息工程大学 基于时空模板更新的多尺度Transformer目标跟踪方法
CN116912649B (zh) * 2023-09-14 2023-11-28 武汉大学 基于相关注意力引导的红外与可见光图像融合方法及***

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019137912A1 (en) * 2018-01-12 2019-07-18 Connaught Electronics Ltd. Computer vision pre-fusion and spatio-temporal tracking
CN114550040A (zh) * 2022-02-18 2022-05-27 南京大学 一种基于混合注意力机制的端到端单目标跟踪方法及装置
CN114638862A (zh) * 2022-03-24 2022-06-17 清华大学深圳国际研究生院 一种视觉跟踪方法及跟踪装置
CN114862844A (zh) * 2022-06-13 2022-08-05 合肥工业大学 一种基于特征融合的红外小目标检测方法
CN114972439A (zh) * 2022-06-17 2022-08-30 贵州大学 一种新的无人机目标跟踪算法
CN115147459A (zh) * 2022-07-31 2022-10-04 哈尔滨理工大学 基于Swin Transformer的无人机目标跟踪方法
CN115205337A (zh) * 2022-07-28 2022-10-18 西安热工研究院有限公司 一种基于模态差异补偿的rgbt目标跟踪方法
CN115239765A (zh) * 2022-08-02 2022-10-25 合肥工业大学 基于多尺度可形变注意力的红外图像目标跟踪***及方法
CN115330837A (zh) * 2022-08-18 2022-11-11 厦门理工学院 基于图注意力Transformer网络的鲁棒目标跟踪方法及***
CN115482375A (zh) * 2022-08-25 2022-12-16 南京信息技术研究院 一种基于时空通联数据驱动的跨镜目标跟踪方法
CN115620206A (zh) * 2022-11-04 2023-01-17 雷汝霖 一种多模板视觉目标跟踪网络的训练方法和目标跟踪方法
CN115690152A (zh) * 2022-10-18 2023-02-03 南京航空航天大学 一种基于注意力机制的目标追踪方法
CN115908500A (zh) * 2022-12-30 2023-04-04 长沙理工大学 一种基于3d孪生卷积网络的高性能视频跟踪方法及***
CN115909110A (zh) * 2022-12-16 2023-04-04 四川中科朗星光电科技有限公司 一种基于Siamese网络的轻量级红外无人机目标跟踪方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113129341B (zh) * 2021-04-20 2021-12-14 广东工业大学 基于轻量型孪生网络的降落跟踪控制方法和***及无人机
US20230033548A1 (en) * 2021-07-26 2023-02-02 Manpreet Singh TAKKAR Systems and methods for performing computer vision task using a sequence of frames

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019137912A1 (en) * 2018-01-12 2019-07-18 Connaught Electronics Ltd. Computer vision pre-fusion and spatio-temporal tracking
CN114550040A (zh) * 2022-02-18 2022-05-27 南京大学 一种基于混合注意力机制的端到端单目标跟踪方法及装置
CN114638862A (zh) * 2022-03-24 2022-06-17 清华大学深圳国际研究生院 一种视觉跟踪方法及跟踪装置
CN114862844A (zh) * 2022-06-13 2022-08-05 合肥工业大学 一种基于特征融合的红外小目标检测方法
CN114972439A (zh) * 2022-06-17 2022-08-30 贵州大学 一种新的无人机目标跟踪算法
CN115205337A (zh) * 2022-07-28 2022-10-18 西安热工研究院有限公司 一种基于模态差异补偿的rgbt目标跟踪方法
CN115147459A (zh) * 2022-07-31 2022-10-04 哈尔滨理工大学 基于Swin Transformer的无人机目标跟踪方法
CN115239765A (zh) * 2022-08-02 2022-10-25 合肥工业大学 基于多尺度可形变注意力的红外图像目标跟踪***及方法
CN115330837A (zh) * 2022-08-18 2022-11-11 厦门理工学院 基于图注意力Transformer网络的鲁棒目标跟踪方法及***
CN115482375A (zh) * 2022-08-25 2022-12-16 南京信息技术研究院 一种基于时空通联数据驱动的跨镜目标跟踪方法
CN115690152A (zh) * 2022-10-18 2023-02-03 南京航空航天大学 一种基于注意力机制的目标追踪方法
CN115620206A (zh) * 2022-11-04 2023-01-17 雷汝霖 一种多模板视觉目标跟踪网络的训练方法和目标跟踪方法
CN115909110A (zh) * 2022-12-16 2023-04-04 四川中科朗星光电科技有限公司 一种基于Siamese网络的轻量级红外无人机目标跟踪方法
CN115908500A (zh) * 2022-12-30 2023-04-04 长沙理工大学 一种基于3d孪生卷积网络的高性能视频跟踪方法及***

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
An IoU-aware Siamese network for real-time visual tracking;Bingbing Wei 等;《Neurocomputing》;第527卷;13-26 *
Swintrack: A simple and strong baseline for transformer tracking;Lin L 等;《Advances in Neural Information Processing Systems》;第35卷;16743-16754 *
Transformer Tracking;Xin Chen 等;《CVPR 2021》;8126-8135 *
基于FasterMDNet的视频目标跟踪算法;王玲 等;《计算机工程与应用》(第14期);123-130 *
多特征融合的粒子滤波红外单目标跟踪;程文 等;《电脑知识与技术》(第14期);178-180+185 *

Also Published As

Publication number Publication date
CN116402858A (zh) 2023-07-07

Similar Documents

Publication Publication Date Title
CN116402858B (zh) 基于transformer的时空信息融合的红外目标跟踪方法
Zhou et al. To learn or not to learn: Visual localization from essential matrices
Han et al. Active object detection with multistep action prediction using deep q-network
Nandhini et al. Detection of Crime Scene Objects using Deep Learning Techniques
Wang et al. Adaptive fusion CNN features for RGBT object tracking
CN111862145A (zh) 一种基于多尺度行人检测的目标跟踪方法
CN117252904B (zh) 基于长程空间感知与通道增强的目标跟踪方法与***
Fan et al. Complementary tracking via dual color clustering and spatio-temporal regularized correlation learning
CN116309725A (zh) 基于多尺度可形变注意力机制的多目标跟踪方法
CN116563337A (zh) 基于双注意力机制的目标跟踪方法
CN115205336A (zh) 一种基于多层感知机的特征融合目标感知跟踪方法
CN115239765A (zh) 基于多尺度可形变注意力的红外图像目标跟踪***及方法
Cheng et al. Tiny object detection via regional cross self-attention network
Zhu et al. Srdd: a lightweight end-to-end object detection with transformer
Wang et al. EMAT: Efficient feature fusion network for visual tracking via optimized multi-head attention
Wang et al. St-TrackNet: A multiple-object tracking network using spatio-temporal information
Zhou et al. Retrieval and localization with observation constraints
CN112883928A (zh) 一种基于深度神经网络的多目标追踪算法
Yu et al. Online-adaptive classification and regression network with sample-efficient meta learning for long-term tracking
CN117576149A (zh) 一种基于注意力机制的单目标跟踪方法
CN116797799A (zh) 一种基于通道注意力和时空感知的单目标跟踪方法及跟踪***
Huang et al. A spatial–temporal contexts network for object tracking
CN114119999B (zh) 基于深度学习的迭代6d位姿估计方法及装置
CN115830707A (zh) 一种基于超图学习的多视角人体行为识别方法
Zhang et al. Promptvt: Prompting for efficient and accurate visual tracking

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant