CN115239765B - 基于多尺度可形变注意力的红外图像目标跟踪***及方法 - Google Patents
基于多尺度可形变注意力的红外图像目标跟踪***及方法 Download PDFInfo
- Publication number
- CN115239765B CN115239765B CN202210921013.7A CN202210921013A CN115239765B CN 115239765 B CN115239765 B CN 115239765B CN 202210921013 A CN202210921013 A CN 202210921013A CN 115239765 B CN115239765 B CN 115239765B
- Authority
- CN
- China
- Prior art keywords
- scale
- attention
- feature
- module
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 230000004927 fusion Effects 0.000 claims abstract description 56
- 238000010586 diagram Methods 0.000 claims abstract description 39
- 239000013598 vector Substances 0.000 claims description 59
- 238000005070 sampling Methods 0.000 claims description 30
- 238000000605 extraction Methods 0.000 claims description 27
- 238000013507 mapping Methods 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 17
- 238000006243 chemical reaction Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 10
- 230000000007 visual effect Effects 0.000 description 8
- 238000012360 testing method Methods 0.000 description 5
- 239000000203 mixture Substances 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
- 238000003756 stirring Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10048—Infrared image
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多尺度可形变注意力的红外图像目标跟踪***及方法。其中跟踪***包括搜索图分支、模板图分支、特征融合模块和预测模块;其中搜索图分支用于提取搜索图在第一尺度和第二尺度下的特征拼接得到的搜索图多尺度特征Fs;模板分支用于提取模板图在第三尺度和第四尺度下的特征拼接得到的模板图多尺度特征Ft;特征融合模块用于根据搜索图多尺度特征Fs和模板图多尺度特征Ft计算融合特征Gst;预测模块用于根据融合特征Gst预测搜索图中的目标边框。该***融合了低层和高层的特征,有利于红外图像中目标的跟踪。
Description
技术领域
本发明属于计算机视觉领域,具体涉及一种基于多尺度可形变注意力的红外图像目标跟踪***及方法。
背景技术
视觉目标跟踪任务是在视频的初始帧中给定要跟踪的目标,预测后续视频帧中该目标出现的位置和大小。热红外目标跟踪是在热红外摄像头的成像条件下进行视觉目标跟踪任务,由于红外目标跟踪可以在可见度低甚至完全黑暗的情况下跟踪目标,其不受光线变化的影响,具有全天候、可在复杂环境下工作的能力,因此具有较好的应用价值,广泛应用在监护机器人的夜间监护、保安机器人夜间巡逻,城市交通夜间监控等场景中。红外目标跟踪的难点是由于红外图像纹理缺失,信噪比低,视觉效果模糊,容易导致跟踪对象变形,尺度变化等问题。
为了解决上述问题,目前有方法通过transformer注意力机制捕捉全局特征,结合特征之间的上下文关系,建立远程特征之间的关联和长距离依赖关系来克服上述难点。虽然此类方法取得了较好的结果,但由于transformer注意模块在处理图像特征图时具有局限性,例如在初始化时,自注意力模块在整个特征图上的注意力几乎是平均的。然而,在训练的最后阶段,注意力图会变得稀疏,只专注于目标的局部,如人物的四肢,由此需要一个长时间的训练过程来学习注意力图上的这些显著变化,从而导致收敛速度慢,特征空间分辨率由于复杂计算量的影响会受到很大的限制。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种基于多尺度可形变注意力的红外图像目标跟踪***,该***融合了低层和高层的特征,有利于红外图像中目标的跟踪。
技术方案:本发明一方面提供了一种基于多尺度可形变注意力的红外图像目标跟踪***,包括:搜索图分支1、模板图分支2、特征融合模块3和预测模块4;所述搜索图分支1包括第一特征提取模块101、第一转换拼接模块102;所述模板图分支2包括第二特征提取模块201、第二转换拼接模块202;
所述第一特征提取模块101用于提取搜索图在第一尺度和第二尺度下的初始特征图和/>第一转换拼接模块102对/>和/>进行通道统一和维度调整,得到搜索图在第一尺度和第二尺度下的特征fs1和fs2,并拼接为搜索图多尺度特征Fs=[fs1,fs2];所述第二特征提取模块201用于提取模板图在第三尺度和第四尺度下的初始特征图/>和/>第二转换拼接模块202对/>和/>进行通道统一和维度调整,得到模板图在第三尺度和第四尺度下的特征ft1和ft2,并拼接为模板图多尺度特征Ft=[ft1,ft2];所述特征融合模块3用于根据搜索图多尺度特征Fs和模板图多尺度特征Ft计算融合特征Gst;所述预测模块4用于根据融合特征Gst预测搜索图中的目标边框;
所述搜索图为搜索分支1的输入,所述模板图为模板分支2的输入。
所述第一特征提取模块101和第二特征提取模块201的结构相同,结构为依次级联的第一卷积模块、第一池化模块、第二卷积模块、三卷积模块、第四卷积模块、第五卷积模块;
第一特征提取模块101中的第四卷积模块输出搜索图在第一尺度下的初始特征图第五卷积模块输出搜索图在第二尺度下的初始特征图/>第二特征提取模块201中的第四卷积模块输出模板图在第三尺度下的初始特征图/>第五卷积模块输出模板图在第四尺度下的初始特征图/>
所述特征融合模块3包括N个级联的特征融合子模块,其中第一级特征融合子模块的输入为搜索图多尺度特征Fs和模板图多尺度特征Ft,输出为第一级搜索图对模板图的注意力特征和第一级模板图对搜索图的注意力特征/>第N级特征融合子模块的输入为第N-1级输出的/>和/>第N级特征融合子模块的输出/>为特征融合模块得到的融合特征Gst;
第n级特征融合子模块包括第一可形变自注意力模块301、第二可形变自注意力模块302和交叉注意力模块303,n=1,2,…,N;所述第一可形变自注意力模块301和第二可形变自注意力模块302分别用于计算两路输入特征Is和It的上下文关系特征和Ts和Tt;所述交叉注意力模块303用于计算两路输入向量的上下文关系特征Ts和Tt对彼此的注意力特征和/>
所述第一可形变自注意力模块301提取输入特征Is的上下文关系特征Ts的步骤为:
a1、将输入特征Is与搜索图多尺度位置编码SLPs相加生成第一查询向量Qs,Qs=[Qs1,Qs2],Qs1为第一尺度下的查询向量,Qs2为第二尺度下的查询向量
a2、将第一查询向量Qs、输入特征Is、搜索图初始参考点Rs输入到第一多头注意力网络,得到搜索图第一多头可形变注意力Is′;所述第一多头注意力网络有M个并联的注意力单元;
所述搜索图初始参考点Rs的计算步骤为:计算搜索图在第一尺度下的特征fs1中每个向量在初始特征图上的坐标,组成第一初始参考点rs1;计算第二尺度下的特征fs2中每个向量在初始特征图/>上的坐标,组成第二初始参考点rs2;
对第一初始参考点rs1中的坐标归一化,并映射于初始特征图上,得到第一坐标映射点rs12;对第二初始参考点rs2中的坐标归一化,并映射于初始特征图/>上,得到第二坐标映射点rs21;
构建搜索图初始参考点
所述搜索图第一多头可行变注意力I′s=[I′s1,I′s2],I′s1为第一尺度下的可变形注意力,I′s2为第二尺度下的可变形注意力;
I′s1中第i个元素I′s1i的计算步骤为:
Qs1向量中第i个向量Qs1i通过全连接层Linear2得到第一初始参考点rs1的第i个元素和第一坐标映射点rs12的第i个元素rs1i、rs12i在每个注意力单元中的每个采样点的采样偏移和/>其中m表示第一多头注意力网络中注意力单元的序号,m=1,2,…,M;k表示采样点序号,k=1,2,…,K;K为每个注意力单元中的采样点总数;
将rs1i与相加得到第一尺度下第m个注意力单元,第k个采样点坐标/>
将rs12i与相加得到第二尺度下第m个注意力单元,第k个采样点坐标
将在第一尺度下的特征图/>经过全连接层Linear1后插值得到Qs1i在第一尺度下,第m个注意力单元第k个采样点的值,记为/>Inter为插值函数;
将在第二尺度下的特征图/>经过全连接层Linear1后插值得到Qs1i在第二尺度下,第m个注意力单元第k个采样点的值,记为/>Inter为插值函数;
Qs1向量中第i个向量Qs1i通过全连接层Linear3得到所对应的注意力权重和/>所对应的注意力权重/>
因此得到
Qs2向量中第i个向量Qs2i通过全连接层Linear2得到第二初始参考点rs2中第i个元素rs2i和第二坐标映射点rs21中第i个元素rs21i在每个注意力单元中的每个采样点的采样偏移和/>
将rs2i与相加得到第二尺度下第m个注意力单元,第k个采样点坐标
将rs21i与相加得到第一尺度下第m个注意力单元,第k个采样点坐标
将在第一尺度下的特征图/>经过全连接层Linear1插值得到Qs2i在第一尺度下,第m个注意力单元第k个采样点的值,记为/>
将在第二尺度下的特征图/>经过全连接层Linear1插值得到Qs2i在第二尺度下,第m个注意力单元第k个采样点的值,记为/>
Qs2向量中第i个向量Qs2i通过全连接层Linear3得所对应的注意力权重和/>所对应的注意力权重/>
因此得到
a3、Is和I′s求和归一化后通过FFN函数,得到输入特征Is的上下文关系特征Ts。
所述搜索图多尺度位置编码SLPs的构建步骤为:
a11、随机生成搜索图二层层级编码,第一层层级编码SLs1的维度与搜索图在第一尺度下的特征fs1相同;第二层层级编码SLs2的维度与搜索图在第二尺度下的特征fs2相同;
a12、根据搜索图在第一尺度和第二尺度下的特征fs1和fs2采用三角函数计算搜索图第一层内位置编码Ps1和第二层内位置编码Ps2;
a13、将SLs1和Ps1相加,SLs2和Ps2相加,拼接得到搜索图多尺度位置编码SLPs:
SLPs=[SLs1+Ps1,SLs2+Ps2]。
所述交叉注意力模块303计算两路输入向量的上下文关系特征Ts和Tt对彼此的注意力特征和/>的步骤为:
b1、将Ts与搜索图多尺度位置编码SLPs相加,再分别经过两个全连接层Wsq和Wsk映射得到向量Qs′和Ks;将Ts经过全连接层Wsv映射得到向量Vs;
b2、将Tt与目标图多尺度位置编码SLPt相加,再分别经过两个全连接层Wtq和Wtk映射得到向量Q′t和Kt;将Tt经过全连接层Wtv映射得到向量Vt;
b3、计算Ts对Tt的注意力特征 中的第i个元素/>为:
计算Tt对Ts的注意力特征 中的第j个元素/>为:
其中dot表示向量点积运算,dkt为Kt的维度,dks为Ks的维度。
所述预测模块4包括分类预测网络401、边框预测网络402和目标边框计算模块403;所述分类预测网络401用于根据融合特征Gst获取搜索图中目标的分类结果C=[C1,C2,…,Clen];所述边框预测网络402用于根据融合特征Gst获取搜索图中目标的预测边框B=[B1,B2,…,Blen];其中len为搜索图多尺度特征的长度,l=1,2,…,len,Cl=[Cl0 Cl1]为根据融合特征Gst中第l个元素得到的归一化类别;Bl=[Blx,Bly,Blw,Blh]为根据融合特征Gst中第l元素预测的目标矩形边框,Blx,Bly为矩形边框的中心点坐标,Blw,Blh为矩形边框的宽和高;
所述目标边框计算模块(403)用于根据搜索图中目标的分类结果C=[C1,C2,…,Clen]和搜索图中目标的边框B=[B1,B2,…,Blen]计算搜索图中目标边框。
所述目标边框计算模块403计算搜索图中目标边框的步骤为:
查找C=[C1,C2,…,Clen]中Cl0的最大值对应的元素序号l*:
第l*个元素对应的预测的目标矩形边框为搜素图中目标边框
上述红外图像目标跟踪***的训练步骤包括:
c1、在用于训练的视频中随机选取两张图片,从中选择一张图像作为模板图,另一张图片作为搜索图,输入待训练的红外图像目标跟踪***中,预测模块4输出分类结果C=[C1,C2,…,Clen]和预测边框B=[B1,B2,…,Blen];
c2、通过最小化损失函数对所述红外图像目标跟踪***中的参数进行优化,得到训练好的红外图像目标跟踪***;
所述损失函数为:L=Lclass+Lloss+Lgiou;
其中Lclass为分类损失:Ul的值根据预测边框中第l个元素Bl与搜索图中目标真实边框BT的位置确定:W[1]为负样本权重,W[0]为正样本权重;
Lloss为回归损失:其中count为Ul值为0的个数,即:Prh为分类精度,/>
Lgiou为GIOU损失:Lgiou(h)为预测边框中元素Bh的GIOU损失,Bh对应的Uh值为0,Lgiou(h)=1-GIOUh,GIOUh为Bh与目标真实边框BT的GIOU值。
另一方面,本发明还公开了应用上述基于多尺度可形变注意力的红外图像目标跟踪***进行跟踪的方法,包括:
将待跟踪视频中的第一帧作为模板图,在目标图中标记出待跟踪目标的矩形边框;将视频后续帧作为搜索图;将模板图和搜索图分别输入上述红外图像目标跟踪***中的模板图分支和搜索图分支,根据预测模块获取搜索图中目标的矩形边框。
有益效果:本发明公开的基于多尺度可形变注意力的红外图像目标跟踪***和跟踪方法具有如下优点:
1、本发明将两种尺度下的特征拼接为多尺度的特征进行后续处理,以此增大低层特征语义,提供高层特征的更多的空间信息,这样更加有利于小目标的跟踪;
2、特征融合模块采用多级级联的连接,对特征进行多级增强;其中通过第一可形变自注意力模块和第二可形变自注意力模块分别获取搜索图和模板图的图像特征序列的上下文关系,自主搜寻特征图像上更具有表现力的特征;使用可形变自注意力模型使得模型收敛速度快,收敛速度比普通方法提高4倍左右;
交叉注意力模块学习搜索图像特征序列与模板图像特征序列两者之间的关系,从而可以准确定位搜索图像的目标位置。
3、对***训练时,使用分类精度动态约束边框回归损失和GIOU损失,使得分类任务与边框回归任务对齐一致达到更稳定的跟踪效果。
附图说明
图1为本发明公开的基于多尺度可形变注意力的红外图像目标跟踪***的组成示意图;
图2为特征融合模块的组成示意图;
图3为特征融合子模块的组成示意图;
图4为第一多头可形变注意力Is′中第一尺度下的可变形注意力Is'1中第i个元素的计算流程示意图;
图5为预测模块的组成示意图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明。
本发明公开了一种基于多尺度可形变注意力的红外图像目标跟踪***,如图1所示,包括:搜索图分支1、模板图分支2、特征融合模块3和预测模块4;所述搜索图分支1包括第一特征提取模块101、第一转换拼接模块102;所述模板图分支2包括第二特征提取模块201、第二转换拼接模块202;
所述第一特征提取模块101用于提取搜索图在第一尺度和第二尺度下的初始特征图和/>第一转换拼接模块102对/>和/>进行通道统一和维度调整,得到搜索图在第一尺度和第二尺度下的特征fs1和fs2,并拼接为搜索图多尺度特征Fs=[fs1,fs2];所述第二特征提取模块201用于提取模板图在第三尺度和第四尺度下的初始特征图/>和/>第二转换拼接模块202对/>和/>进行通道统一和维度调整,得到模板图在第三尺度和第四尺度下的特征ft1和ft2,并拼接为模板图多尺度特征Ft=[ft1,ft2];所述特征融合模块3用于根据搜索图多尺度特征Fs和模板图多尺度特征Ft计算融合特征Gst;所述预测模块4用于根据融合特征Gst预测搜索图中的目标边框;
所述搜索图为搜索分支1的输入,所述模板图为模板分支2的输入。
本实施例中,第一特征提取模块101和第二特征提取模块201的结构相同,均采用resnet50的残差网络结构作为特征提取网络,网络参数与普通的restnet有所不同,并且删除了MaxPool_2和FC层,具体结构详见表1。
表1:第一特征提取模块101和第二特征提取模块201的结构
结构为依次级联的第一卷积模块Conv_1、第一池化模块MaxPool_1、第二卷积模块Conv_2x、三卷积模块Conv_3x、第四卷积模块Conv_4x、第五卷积模块Conv_5x;
第一特征提取模块101中的第四卷积模块Conv_4x输出搜索图在第一尺度下的初始特征图第五卷积模块Conv_5x输出搜索图在第二尺度下的初始特征图/>第二特征提取模块201中的第四卷积模块Conv_4x输出模板图在第三尺度下的初始特征图/>第五卷积模块Conv_5x输出模板图在第四尺度下的初始特征图/>
根据表1中的参数, 第一转换拼接模块102首先采用卷积核为1×1,通道为256,步长为1的卷积层对/>和/>进行通道统一,通道统一后/>之后再进行维度调整,即采用resize将二者转换为二维特征序列,得到搜索图在第一尺度和第二尺度下的特征fs1∈R1024×256和fs2∈R256×256;并拼接为搜索图多尺度特征Fs=[fs1,fs2],Fs∈R1280×256。同样地,第二转换拼接模块202对/>和/>进行类似操作,得到模板图在第三尺度和第四尺度下的特征ft1∈R256×256和ft2∈R64×256;并拼接为模板图多尺度特征Ft=[ft1,ft2],Ft∈R320×256。
特征融合模块3包括N个级联的特征融合子模块,如图2所示,其中第一级特征融合子模块的输入为搜索图多尺度特征Fs和模板图多尺度特征Ft,输出为第一级搜索图对模板图的注意力特征和第一级模板图对搜索图的注意力特征/>第N级特征融合子模块的输入为第N-1级输出的/>和/>第N级特征融合子模块的输出/>为特征融合模块得到的融合特征Gst;本实施例中N=4。
如图3所示,第n级特征融合子模块包括第一可形变自注意力模块301、第二可形变自注意力模块302和交叉注意力模块303,n=1,2,…,N;所述第一可形变自注意力模块301和第二可形变自注意力模块302分别用于计算两路输入特征Is和It的上下文关系特征和Ts和Tt;所述交叉注意力模块303用于计算两路输入向量的上下文关系特征Ts和Tt对彼此的注意力特征和/>如果n=1,Is为Fs,It为Ft;否则Is和It分别为/>和/>
具体地,第一可形变自注意力模块301提取输入特征Is的上下文关系特征Ts的步骤为:
a1、将输入特征Is与搜索图多尺度位置编码SLPs相加生成第一查询向量Qs,Qs=[Qs1,Qs2],Qs1为第一尺度下的查询向量,Qs2为第二尺度下的查询向量;
a2、将第一查询向量Qs、输入特征Is、搜索图初始参考点Rs输入到第一多头注意力网络,得到搜索图第一多头可形变注意力Is′;所述第一多头注意力网络有M个并联的注意力单元;
所述搜索图初始参考点Rs的计算步骤为:计算搜索图在第一尺度下的特征fs1中每个向量在初始特征图上的坐标,组成第一初始参考点rs1;计算第二尺度下的特征fs2中每个向量在初始特征图/>上的坐标,组成第二初始参考点rs2;
对第一初始参考点rs1中的坐标归一化,并映射于初始特征图上,得到第一坐标映射点rs12;对第二初始参考点rs2中的坐标归一化,并映射于初始特征图/>上,得到第二坐标映射点rs21;
构建搜索图初始参考点
所述搜索图第一多头可行变注意力I′s=[I′s1,I′s2],I′s1为第一尺度下的可变形注意力,I′s2为第二尺度下的可变形注意力,本实施例中,I′s1=[I′s1,1,I′s1,2...I′s1,1024]I′s2=[I′s2,1025,I′s2,1026...I′s1,1280];
如图4所示,I′s1中第i个元素I′s1i的计算步骤为:
Qs1向量中第i个向量Qs1i通过全连接层Linear2得到第一初始参考点rs1的第i个元素和第一坐标映射点rs12的第i个元素rs1i、rs12i在每个注意力单元中的每个采样点的采样偏移和/>其中m表示第一多头注意力网络中注意力单元的序号,m=1,2,…,M;k表示采样点序号,k=1,2,…,K;K为每个注意力单元中的采样点总数;本实施例中K=16。
将rs1i与相加得到第一尺度下第m个注意力单元,第k个采样点坐标/>
将rs12i与相加得到第二尺度下第m个注意力单元,第k个采样点坐标
将在第一尺度下的特征图/>经过全连接层Linear1后插值得到Qs1i在第一尺度下,第m个注意力单元第k个采样点的值,记为/>Inter为插值函数;
将在第二尺度下的特征图/>经过全连接层Linear1后插值得到Qs1i在第二尺度下,第m个注意力单元第k个采样点的值,记为/>Inter为插值函数;
Qs1向量中第i个向量Qs1i通过全连接层Linear3得到所对应的注意力权重和/>所对应的注意力权重/>
因此得到
与上述步骤类似,I′s2i的计算过程为:
Qs2向量中第i个向量Qs2i通过全连接层Linear2得到第二初始参考点rs2中第i个元素rs2i和第二坐标映射点rs21中第i个元素rs21i在每个注意力单元中的每个采样点的采样偏移和/>
将rs2i与相加得到第二尺度下第m个注意力单元,第k个采样点坐标
将rs21i与相加得到第一尺度下第m个注意力单元,第k个采样点坐标
将在第一尺度下的特征图/>经过全连接层Linear1插值得到Qs2i在第一尺度下,第m个注意力单元第k个采样点的值,记为/>
将在第二尺度下的特征图/>经过全连接层Linear1插值得到Qs2i在第二尺度下,第m个注意力单元第k个采样点的值,记为/>
Qs2向量中第i个向量Qs2i通过全连接层Linear3得所对应的注意力权重和/>所对应的注意力权重/>
因此得到
a3、Is和I′s求和归一化后通过FFN函数,得到输入特征Is的上下文关系特征Ts。
第二可形变自注意力模块302采用与a1-a3类似的步骤提取输入特征It的上下文关系特征Tt。
所述搜索图多尺度位置编码SLPs的构建步骤为:
a11、随机生成搜索图二层层级编码,第一层层级编码SLs1的维度与搜索图在第一尺度下的特征fs1相同;第二层层级编码SLs2的维度与搜索图在第二尺度下的特征fs2相同;
a12、根据搜索图在第一尺度和第二尺度下的特征fs1和fs2采用三角函数计算搜索图第一层内位置编码Ps1和第二层内位置编码Ps2;
a13、将SLs1和Ps1相加,SLs2和Ps2相加,拼接得到搜索图多尺度位置编码SLPs:
SLPs=[SLs1+Ps1,SLs2+Ps2]。
按照与步骤a1-a3相似的方法,第二可形变自注意力模块302提取输入特征It的上下文关系特征Tt;其中模板图多尺度位置编码SLPt按照与a11-a13相似的方法根据模板图在第三尺度和第四尺度下的特征ft1和ft2计算得到;模板图初始参考Rt按照Rs的计算方法根据ft1和ft2计算得到。
交叉注意力模块303计算两路输入向量的上下文关系特征Ts和Tt对彼此的注意力特征和/>的步骤为:
b1、将Ts与搜索图多尺度位置编码SLPs相加,再分别经过两个全连接层Wsq和Wsk映射得到向量Q′s和Ks;将Ts经过全连接层Wsv映射得到向量Vs;
b2、将Tt与目标图多尺度位置编码SLPt相加,再分别经过两个全连接层Wtq和Wtk映射得到向量Q′t和Kt;将Tt经过全连接层Wtv映射得到向量Vt;
b3、计算Ts对Tt的注意力特征 中的第i个元素/>为:
计算Tt对Ts的注意力特征 中的第j个元素/>为:
其中dot表示向量点积运算,dkt为Kt的维度,dks为Ks的维度。
最后一级特征融合子模块的输出即为最终得到的融合特征Gst,预测模块4根据Gst来预测搜索图中的目标边框。如图5所示,预测模块4包括分类预测网络401、边框预测网络402和目标边框计算模块403;分类预测网络401用于根据融合特征Gst获取搜索图中目标的分类结果C=[C1,C2,…,Clen];所述边框预测网络402用于根据融合特征Gst获取搜索图中目标的预测边框B=[B1,B2,…,Blen];其中len为搜索图多尺度特征的长度,l=1,2,…,len,Cl=[Cl0 Cl1]为根据融合特征Gst中第l个元素得到的归一化类别,Cl0表示根据Gst中第l个元素得到预测目标概率,Cl1表示预测背景概率;Bl=[Blx,Bly,Blw,Blh]为根据融合特征Gst中第l元素得到的目标矩形边框,Blx,Bly为矩形边框的中心点坐标,Blw,Blh为矩形边框的宽和高。目标边框计算模块403用于根据搜索图中目标的分类结果C=[C1,C2,…,Clen]和搜索图中目标的边框B=[B1,B2,…,Blen]计算搜索图中目标边框,具体步骤为:
查找C=[C1,C2,…,Clen]中Cl0的最大值对应的元素序号l*:
第l*个元素对应的预测的目标矩形边框为搜素图中目标边框
分类预测网络401和边框预测网络402均采用三层全连接层,其结构和参数如表2和表3所示:
表2:分类预测网络结构和参数
网络层名 | 输出大小 | 网络参数(输入通道,输出通道) |
FC_1 | 1280×256 | 256,256 |
FC_2 | 1280×256 | 256,256 |
FC_3 | 1280×2 | 256,2 |
表3:边框预测网络结构和参数
网络层名 | 输出大小 | 网络参数(输入通道,输出通道) |
FC_1 | 1280×256 | 256,256 |
FC_2 | 1280×256 | 256,256 |
FC_3 | 1280×4 | 256,4 |
分类预测网络中最后一层全连接层FC_3输出的是初始分类结果其中/> 表示Gst中第l元素预测类别为0的概率,即预测目标的概率;/>表示Gst中第l元素预测类别为1的概率,即预测背景的概率。由于概率的取值在[0,1]之间,对/>进行归一化,得到归一化类别Cl=[Cl0 Cl1],其中/>E∈{0,1}。
上述红外图像目标跟踪***的训练步骤包括:
c1、在用于训练的视频中随机选取两张图片,从中选择一张作为模板图,另一张图片作为搜索图,输入待训练的红外图像目标跟踪***中,预测模块4输出分类结果C=[C1,C2,…,Clen]和预测边框B=[B1,B2,…,Blen];
c2、通过最小化损失函数对所述红外图像目标跟踪***中的参数进行优化,得到训练好的红外图像目标跟踪***;
所述损失函数为:L=Lclass+Lloss+Lgiou;
其中Lclass为分类损失:Ul的值根据预测边框中第l个元素Bl与搜索图中目标真实边框BT的位置确定:Bl在BT内部,即表示第l个元素预测的结果为目标,否则为背景。W[1]为负样本权重,W[0]为正样本权重;
Lloss为回归损失:其中count为Ul值为0的个数,即:Prh为分类精度,/>
Lgiou为GIOU损失:Lgiou(h)为预测边框中元素Bh的GIOU损失,Bh对应的Uh值为0,Lgiou(h)=1-GIOUh,GIOUh为Bh与目标真实边框BT的GIOU值。/>
本实施例中,在回归损失和GIOU损失中采用分类精度Prh动态加权,以此将分类任务和回归任务进行统一,使二者互相联系,通过定位得分进一步减少了低质量的边框包围盒,提高了整体跟踪精度。
应用上述基于多尺度可形变注意力的红外图像目标跟踪***进行跟踪的方法,包括:
将待跟踪视频中的第一帧作为模板图,在目标图中标记出待跟踪目标的矩形边框;将视频后续帧作为搜索图;将模板图和搜索图分别输入上述红外图像目标跟踪***中的模板图分支和搜索图分支,根据预测模块获取搜索图中目标的矩形边框。
本实施例中,在红外数据集VOT2017-TIR和LSOTB-TIR上测试上述红外图像目标跟踪***的效果,并与现有方法进行对比。测试时,选取视频序列第一帧为模板图,其中的待跟踪目标被矩形边框包围,以目标的边框为中心进行裁剪缩放得到尺寸大小为128×128;其他帧为搜索图,搜索区域的获得是在上一帧图像中,以目标位置为中心,以目标面积4倍大小的区域进行裁剪缩放得到尺寸大小为256×256,模板图和搜索图输入训练好的红外图像目标跟踪***,其预测模块得到预测分类结果和预测边框,取分类结果中预测目标概率最大的特征元素所对应的预测目标矩形边框作为最终的跟踪结果。数据集LSOTB-TIR上的测试对比如表4所示:
表4:数据集LSOTB-TIR的测试结果
Methods | Success | Precision | Norm Precision |
ECO-TIR[1] | 0.631 | 0.768 | 0.695 |
ECO-stir[2] | 0.616 | 0.750 | 0.672 |
ECO[3] | 0.609 | 0.739 | 0.670 |
SiamRPN++[4] | 0.604 | 0.711 | 0.651 |
MDNet[5] | 0.601 | 0.750 | 0.686 |
VITAL[6] | 0.597 | 0.749 | 0.682 |
ATOM[7] | 0.595 | 0.729 | 0.647 |
Ours(detranst) | 0.669 | 0.782 | 0.787 |
数据集VOT2017-TIR的测试对比如表5所示:
表5:数据集VOT2017-TIR的测试结果
Methods | EAO | Acc | Rob |
CFNet[8] | 0.254 | 0.52 | 3.45 |
HSSNet[9] | 0.262 | 0.58 | 3.33 |
TADT[10] | 0.262 | 0.60 | 3.18 |
VITAL[6] | 0.272 | 0.64 | 2.68 |
MLSSNet[11] | 0.278 | 0.56 | 2.95 |
TCNN[12] | 0.287 | 0.62 | 2.79 |
MMNet[13] | 0.320 | 0.58 | 2.91 |
Ours(detranst) | 0.335 | 0.71 | 2.18 |
表4和表5中,ECO-TIR[1]为采用文献[1]:Liu Q,Li X,He Z,et al.LSOTB-TIR:ALarge-Scale High-Diversity Thermal Infrared Object Tracking Benchmark[C]//Proceedings of the 28th ACM International Conference on Multimedia(MM‘20).ACM,2020.中的方法进行跟踪;
ECO-stir[2]为采用文献[2]:Lichao Zhang,Abel Gonzalez-Garcia,Joost vande Weijer,Martin Danelljan,and Fahad Shahbaz Khan.2019.Synthetic datageneration for end-to-end thermal infrared tracking.IEEE Transactions onImage Processing 28,4(2019),1837–1850.中的方法进行跟踪;
ECO[3]为采用文献[3]:Martin Danelljan,Goutam Bhat,Fahad Shahbaz Khan,and Michael Felsberg.2017.ECO:efficient convolution operators for tracking.InIEEE Conference on Computer Vision and Pattern Recognition中的方法进行跟踪;
SiamRPN++[4]为采用文献[4]:Bo Li,Wei Wu,Qiang Wang,Fangyi Zhang,Junliang Xing,and Junjie Yan.2019.Siamrpn++:Evolution of siamese visualtracking with very deep networks.In IEEE Conference on Computer Vision andPattern Recognition中的方法进行跟踪;
MDNet[5]为采用文献[5]:Hyeonseob Nam and Bohyung Han.2016.Learningmulti-domain convolutional neural networks for visual tracking.In IEEEConference on Computer Vision and Pattern Recognition中的方法进行跟踪;
VITAL[6]为采用文献[6]:Song,Y.;Ma,C.;Wu,X.;Gong,L.;et al.2018.Vital:Visual tracking via adversarial learning.In CVPR,8990–8999.中的方法进行跟踪;
ATOM[7]为采用文献[7]:Martin Danelljan,Goutam Bhat,Fahad Shahbaz Khan,and Michael Felsberg.2019.Atom:Accurate tracking by overlap maximization.InIEEE Conference on Computer Vision and Pattern Recognition.中的方法进行跟踪;
CFNet[8]为采用文献[8]:Valmadre,J.;Bertinetto,L.;Henriques,J.;Vedaldi,A.;and Torr,P.H.2017.End-to-end representation learning for correlationfifilter based tracking.In CVPR,5000–5008.中的方法进行跟踪;
HSSNet[9]为采用文献[9]:Li,X.;Liu,Q.;Fan,N.;et al.2019a.Hierarchicalspatial-aware siamese network for thermal infrared object tracking.Knowledge-Based Systems 166:71–81.中的方法进行跟踪;
TADT[10]为采用文献[10]:Li,X.;Ma,C.;Wu,B.;He,Z.;and Yang,M.-H.2019b.Target-aware deep tracking.In CVPR.中的方法进行跟踪;
MLSSNet[11]为采用文献[11]:Liu,Q.;Li,X.;He,Z.;Fan,N.;Yuan,D.;and Wang,H.2019b.Learning deep multi-level similarity for thermal infrared objecttracking.arXiv preprint arXiv:1906.03568.中的方法进行跟踪;
TCNN[12]为采用文献[12]:Nam,H.;Baek,M.;Han,B.;et al.2016.Modeling andpropagating cnns in a tree structure for visual tracking.arXiv preprintarXiv:1608.07242.中的方法进行跟踪;
MMNet[13]为采用文献[13]:Liu Q,Li X,He Z,et al.Multi-Task DrivenFeature Models for Thermal Infrared Tracking[C]//Proceedings of the AAAIConference on Artificial Intelligence,2020,34:11604-11611.中的方法进行跟踪。
从表4和表5中可以看出,本发明提供的基于多尺度可形变注意力的红外图像目标跟踪***及方法在两个数据集上的跟踪效果均优于现有技术。
Claims (8)
1.一种基于多尺度可形变注意力的红外图像目标跟踪***,其特征在于,包括:搜索图分支(1)、模板图分支(2)、特征融合模块(3)和预测模块(4);所述搜索图分支(1)包括第一特征提取模块(101)、第一转换拼接模块(102);所述模板图分支(2)包括第二特征提取模块(201)、第二转换拼接模块(202);
所述第一特征提取模块(101)用于提取搜索图在第一尺度和第二尺度下的初始特征图和/>第一转换拼接模块(102)对/>和/>进行通道统一和维度调整,得到搜索图在第一尺度和第二尺度下的特征fs1和fs2,并拼接为搜索图多尺度特征Fs=[fs1,fs2];所述第二特征提取模块(201)用于提取模板图在第三尺度和第四尺度下的初始特征图/>和/>第二转换拼接模块(202)对/>和/>进行通道统一和维度调整,得到模板图在第三尺度和第四尺度下的特征ft1和ft2,并拼接为模板图多尺度特征Ft=[ft1,ft2];所述特征融合模块(3)用于根据搜索图多尺度特征Fs和模板图多尺度特征Ft计算融合特征Gst;
所述特征融合模块(3)包括N个级联的特征融合子模块,其中第一级特征融合子模块的输入为搜索图多尺度特征Fs和模板图多尺度特征Ft,输出为第一级搜索图对模板图的注意力特征和第一级模板图对搜索图的注意力特征/>第N级特征融合子模块的输入为第N-1级输出的/>和/>第N级特征融合子模块的输出/>为特征融合模块得到的融合特征Gst;
第n级特征融合子模块包括第一可形变自注意力模块(301)、第二可形变自注意力模块(302)和交叉注意力模块(303),n=1,2,…,N;所述第一可形变自注意力模块(301)和第二可形变自注意力模块(302)分别用于计算两路输入特征Is和It的上下文关系特征Ts和Tt;所述交叉注意力模块(303)用于计算两路输入向量的上下文关系特征Ts和Tt对彼此的注意力特征和/>
所述第一可形变自注意力模块(301)提取输入特征Is的上下文关系特征Ts的步骤为:
a1、将输入特征Is与搜索图多尺度位置编码SLPs相加生成第一查询向量Qs,Qs=[Qs1,Qs2],Qs1为第一尺度下的查询向量,Qs2为第二尺度下的查询向量;
a2、将第一查询向量Qs、输入特征Is、搜索图初始参考点Rs输入到第一多头注意力网络,得到搜索图第一多头可形变注意力I′s;所述第一多头注意力网络有M个并联的注意力单元;
所述搜索图初始参考点Rs的计算步骤为:计算搜索图在第一尺度下的特征fs1中每个向量在初始特征图上的坐标,组成第一初始参考点rs1;计算第二尺度下的特征fs2中每个向量在初始特征图/>上的坐标,组成第二初始参考点rs2;
对第一初始参考点rs1中的坐标归一化,并映射于初始特征图上,得到第一坐标映射点rs12;对第二初始参考点rs2中的坐标归一化,并映射于初始特征图/>上,得到第二坐标映射点rs21;
构建搜索图初始参考点
所述搜索图第一多头可行变注意力I′s=[I′s1,I′s2],I′s1为第一尺度下的可变形注意力,I′s2为第二尺度下的可变形注意力;
I′s1中第i个元素I′s1i的计算步骤为:
Qs1向量中第i个向量Qs1i通过全连接层Linear2得到第一初始参考点rs1的第i个元素和第一坐标映射点rs12的第i个元素rs1i、rs12i在每个注意力单元中的每个采样点的采样偏移和/>其中m表示第一多头注意力网络中注意力单元的序号,m=1,2,…,M;k表示采样点序号,k=1,2,…,K;K为每个注意力单元中的采样点总数;
将rs1i与相加得到第一尺度下第m个注意力单元,第k个采样点坐标
将rs12i与相加得到第二尺度下第m个注意力单元,第k个采样点坐标
将在第一尺度下的特征图/>经过全连接层Linear1后插值得到Qs1i在第一尺度下,第m个注意力单元第k个采样点的值,记为/>Inter为插值函数;
将在第二尺度下的特征图/>经过全连接层Linear1后插值得到Qs1i在第二尺度下,第m个注意力单元第k个采样点的值,记为/>Inter为插值函数;
Qs1向量中第i个向量Qs1i通过全连接层Linear3得到所对应的注意力权重/>和所对应的注意力权重/>
因此得到
Qs2向量中第i个向量Qs2i通过全连接层Linear2得到第二初始参考点rs2中第i个元素rs2i和第二坐标映射点rs21中第i个元素rs21i在每个注意力单元中的每个采样点的采样偏移和/>
将rs2i与相加得到第二尺度下第m个注意力单元,第k个采样点坐标
将rs21i与相加得到第一尺度下第m个注意力单元,第k个采样点坐标
将在第一尺度下的特征图/>经过全连接层Linear1插值得到Qs2i在第一尺度下,第m个注意力单元第k个采样点的值,记为/>
将在第二尺度下的特征图/>经过全连接层Linear1插值得到Qs2i在第二尺度下,第m个注意力单元第k个采样点的值,记为/>
Qs2向量中第i个向量Qs2i通过全连接层Linear3得所对应的注意力权重/>和所对应的注意力权重/>
因此得到
a3、Is和I′s求和归一化后通过FFN函数,得到输入特征Is的上下文关系特征Ts;
第二可形变自注意力模块(302)采用与a1-a3类似的步骤提取输入特征It的上下文关系特征Tt;
所述预测模块(4)用于根据融合特征Gst预测搜索图中的目标边框;
所述搜索图为搜索分支(1)的输入,所述模板图为模板分支(2)的输入。
2.根据权利要求1所述的基于多尺度可形变注意力的红外图像目标跟踪***,其特征在于,所述第一特征提取模块(101)和第二特征提取模块(201)的结构相同,结构为依次级联的第一卷积模块、第一池化模块、第二卷积模块、三卷积模块、第四卷积模块、第五卷积模块;
第一特征提取模块(101)中的第四卷积模块输出搜索图在第一尺度下的初始特征图第五卷积模块输出搜索图在第二尺度下的初始特征图/>第二特征提取模块(201)中的第四卷积模块输出模板图在第三尺度下的初始特征图/>第五卷积模块输出模板图在第四尺度下的初始特征图/>
3.根据权利要求1所述的基于多尺度可形变注意力的红外图像目标跟踪***,其特征在于,所述搜索图多尺度位置编码SLPs的构建步骤为:
a11、随机生成搜索图二层层级编码,第一层层级编码SLs1的维度与搜索图在第一尺度下的特征fs1相同;第二层层级编码SLs2的维度与搜索图在第二尺度下的特征fs2相同;
a12、根据搜索图在第一尺度和第二尺度下的特征fs1和fs2采用三角函数计算搜索图第一层内位置编码Ps1和第二层内位置编码Ps2;
a13、将SLs1和Ps1相加,SLs2和Ps2相加,拼接得到搜索图多尺度位置编码SLPs:
SLPs=[SLs1+Ps1,SLs2+Ps2]。
4.根据权利要求1所述的基于多尺度可形变注意力的红外图像目标跟踪***,其特征在于,所述交叉注意力模块(303)计算两路输入向量的上下文关系特征Ts和Tt对彼此的注意力特征和/>的步骤为:
b1、将Ts与搜索图多尺度位置编码SLPs相加,再分别经过两个全连接层Wsq和Wsk映射得到向量Q′s和Ks;将Ts经过全连接层Wsv映射得到向量Vs;
b2、将Tt与目标图多尺度位置编码SLPt相加,再分别经过两个全连接层Wtq和Wtk映射得到向量Q′t和Kt;将Tt经过全连接层Wtv映射得到向量Vt;
b3、计算Ts对Tt的注意力特征中的第i个元素/>为:
计算Tt对Ts的注意力特征 中的第j个元素/>为:
其中dot表示向量点积运算,dkt为Kt的维度,dks为Ks的维度。
5.根据权利要求1所述的基于多尺度可形变注意力的红外图像目标跟踪***,其特征在于,所述预测模块(4)包括分类预测网络(401)、边框预测网络(402)和目标边框计算模块(403);所述分类预测网络(401)用于根据融合特征Gst获取搜索图中目标的分类结果C=[C1,C2,…,Clen];所述边框预测网络(402)用于根据融合特征Gst获取搜索图中目标的预测边框B=[B1,B2,…,Blen];其中len为搜索图多尺度特征的长度,l=1,2,…,len,Cl=[Cl0Cl1]为根据融合特征Gst中第l个元素得到的归一化类别;Bl=[Blx,Bly,Blw,Blh]为根据融合特征Gst中第l元素预测的目标矩形边框,Blx,Bly为矩形边框的中心点坐标,Blw,Blh为矩形边框的宽和高;
所述目标边框计算模块(403)用于根据搜索图中目标的分类结果C=[C1,C2,…,Clen]和搜索图中目标的边框B=[B1,B2,…,Blen]计算搜索图中目标边框。
6.根据权利要求5所述的基于多尺度可形变注意力的红外图像目标跟踪***,其特征在于,所述目标边框计算模块(403)计算搜索图中目标边框的步骤为:
查找C=[C1,C2,…,Clen]中Cl0的最大值对应的元素序号l*:
第l*个元素对应的预测的目标矩形边框为搜素图中目标边框
7.根据权利要求5所述的基于多尺度可形变注意力的红外图像目标跟踪***,其特征在于,所述***的训练步骤包括:
c1、在用于训练的视频中随机选取两张图片,从中选择一张作为模板图,另一张图片作为搜索图,输入待训练的红外图像目标跟踪***中,预测模块(4)输出分类结果C=[C1,C2,…,Clen]和预测边框B=[B1,B2,…,Blen];
c2、通过最小化损失函数对所述红外图像目标跟踪***中的参数进行优化,得到训练好的红外图像目标跟踪***;
所述损失函数为:L=Lclass+Lloss+Lgiou;
其中Lclass为分类损失:Ul的值根据预测边框中第l个元素Bl与搜索图中目标真实边框BT的位置确定:/>W[1]为负样本权重,W[0]为正样本权重;
Lloss为回归损失:其中count为Ul值为0的个数,即:Prh为分类精度,/>
Lgiou为GIOU损失:Lgiou(h)为预测边框中元素Bh的GIOU损失,Bh对应的Uh值为0,Lgiou(h)=1-GIOUh,GIOUh为Bh与目标真实边框BT的GIOU值。
8.一种基于多尺度可形变注意力的红外图像目标跟踪方法,其特征在于,包括:
将待跟踪视频中的第一帧作为模板图,在目标图中标记出待跟踪目标的矩形边框;将视频后续帧作为搜索图;将模板图和搜索图分别输入如权利要求1-7中任一项所述的红外图像目标跟踪***中的模板图分支和搜索图分支,根据预测模块获取搜索图中目标的矩形边框。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210921013.7A CN115239765B (zh) | 2022-08-02 | 2022-08-02 | 基于多尺度可形变注意力的红外图像目标跟踪***及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210921013.7A CN115239765B (zh) | 2022-08-02 | 2022-08-02 | 基于多尺度可形变注意力的红外图像目标跟踪***及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115239765A CN115239765A (zh) | 2022-10-25 |
CN115239765B true CN115239765B (zh) | 2024-03-29 |
Family
ID=83678018
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210921013.7A Active CN115239765B (zh) | 2022-08-02 | 2022-08-02 | 基于多尺度可形变注意力的红外图像目标跟踪***及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115239765B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116402858B (zh) * | 2023-04-11 | 2023-11-21 | 合肥工业大学 | 基于transformer的时空信息融合的红外目标跟踪方法 |
CN118172546A (zh) * | 2024-05-11 | 2024-06-11 | 中移(苏州)软件技术有限公司 | 模型生成方法、检测方法、装置、电子设备、介质和产品 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102019123756A1 (de) * | 2019-09-05 | 2021-03-11 | Connaught Electronics Ltd. | Neuronales Netzwerk zur Durchführung einer semantischen Segmentierung eines Eingabebildes |
CN113628245A (zh) * | 2021-07-12 | 2021-11-09 | 中国科学院自动化研究所 | 多目标跟踪方法、装置、电子设备和存储介质 |
CN113744311A (zh) * | 2021-09-02 | 2021-12-03 | 北京理工大学 | 基于全连接注意力模块的孪生神经网络运动目标跟踪方法 |
CN113963009A (zh) * | 2021-12-22 | 2022-01-21 | 中科视语(北京)科技有限公司 | 基于可形变划块的局部自注意力的图像处理方法和模型 |
CN114359310A (zh) * | 2022-01-13 | 2022-04-15 | 浙江大学 | 一种基于深度学习的3d心室核磁共振视频分割优化*** |
CN114694024A (zh) * | 2022-03-21 | 2022-07-01 | 滨州学院 | 基于多层特征自注意力变换网络的无人机对地目标跟踪方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210319420A1 (en) * | 2020-04-12 | 2021-10-14 | Shenzhen Malong Technologies Co., Ltd. | Retail system and methods with visual object tracking |
-
2022
- 2022-08-02 CN CN202210921013.7A patent/CN115239765B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102019123756A1 (de) * | 2019-09-05 | 2021-03-11 | Connaught Electronics Ltd. | Neuronales Netzwerk zur Durchführung einer semantischen Segmentierung eines Eingabebildes |
CN113628245A (zh) * | 2021-07-12 | 2021-11-09 | 中国科学院自动化研究所 | 多目标跟踪方法、装置、电子设备和存储介质 |
CN113744311A (zh) * | 2021-09-02 | 2021-12-03 | 北京理工大学 | 基于全连接注意力模块的孪生神经网络运动目标跟踪方法 |
CN113963009A (zh) * | 2021-12-22 | 2022-01-21 | 中科视语(北京)科技有限公司 | 基于可形变划块的局部自注意力的图像处理方法和模型 |
CN114359310A (zh) * | 2022-01-13 | 2022-04-15 | 浙江大学 | 一种基于深度学习的3d心室核磁共振视频分割优化*** |
CN114694024A (zh) * | 2022-03-21 | 2022-07-01 | 滨州学院 | 基于多层特征自注意力变换网络的无人机对地目标跟踪方法 |
Non-Patent Citations (4)
Title |
---|
DING CHENG等.Exploring Cross-Modality Commonalities via Dual-Stream Multi-Branch Network for Infrared-Visible Person Re-Identification.《IEEE Access》.2020,全文. * |
Multilevel Deformable Attention-Aggregated Networks for Change Detection in Bitemporal Remote Sensing Imagery;Xiaokang Zhang等;《IEEE Transactions on Geoscience and Remote Sensing》;全文 * |
基于深度学习的行人跟踪算法研究;蒋林枫;《中国优秀硕士学位论文全文数据库 信息科技辑》;全文 * |
董吉富 ; 刘畅 ; 曹方伟 ; 凌源 ; 高翔 ; .基于注意力机制的在线自适应孪生网络跟踪算法.激光与光电子学进展.2020,(第02期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN115239765A (zh) | 2022-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhu et al. | Residual spectral–spatial attention network for hyperspectral image classification | |
CN111539370B (zh) | 一种基于多注意力联合学习的图像行人重识别方法和*** | |
CN115239765B (zh) | 基于多尺度可形变注意力的红外图像目标跟踪***及方法 | |
CN111291809B (zh) | 一种处理装置、方法及存储介质 | |
CN113313736B (zh) | 统一目标运动感知和重识别网络的在线多目标跟踪方法 | |
Komorowski et al. | Minkloc++: lidar and monocular image fusion for place recognition | |
Li et al. | Implementation of deep-learning algorithm for obstacle detection and collision avoidance for robotic harvester | |
Chen et al. | Corse-to-fine road extraction based on local Dirichlet mixture models and multiscale-high-order deep learning | |
US20240144489A1 (en) | Deep learning method for multiple object tracking from video | |
CN113743544A (zh) | 一种跨模态神经网络构建方法、行人检索方法及*** | |
CN114612660A (zh) | 一种基于多特征融合点云分割的三维建模方法 | |
Reddy et al. | AdaCrowd: Unlabeled scene adaptation for crowd counting | |
Fang et al. | Sewer defect instance segmentation, localization, and 3D reconstruction for sewer floating capsule robots | |
CN111738074B (zh) | 基于弱监督学习的行人属性识别方法、***及装置 | |
CN114724185A (zh) | 一种轻量型的多人姿态跟踪方法 | |
Yang et al. | Progressive domain adaptive network for crater detection | |
Chen et al. | Pyramid attention object detection network with multi-scale feature fusion | |
Wang et al. | Non-local attention association scheme for online multi-object tracking | |
CN116246338B (zh) | 一种基于图卷积和Transformer复合神经网络的行为识别方法 | |
CN117115616A (zh) | 一种基于卷积神经网络的实时低照度图像目标检测方法 | |
Kajabad et al. | YOLOv4 for urban object detection: Case of electronic inventory in St. Petersburg | |
CN117036658A (zh) | 一种图像处理方法及相关设备 | |
CN111639563B (zh) | 一种基于多任务的篮球视频事件与目标在线检测方法 | |
Pei et al. | Improved YOLOv5 for Dense Wildlife Object Detection | |
Li et al. | Tlcd: A transformer based loop closure detection for robotic visual slam |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |