CN116402851A - 一种复杂背景下的红外弱小目标跟踪方法 - Google Patents
一种复杂背景下的红外弱小目标跟踪方法 Download PDFInfo
- Publication number
- CN116402851A CN116402851A CN202310268997.8A CN202310268997A CN116402851A CN 116402851 A CN116402851 A CN 116402851A CN 202310268997 A CN202310268997 A CN 202310268997A CN 116402851 A CN116402851 A CN 116402851A
- Authority
- CN
- China
- Prior art keywords
- target
- area
- image
- tracking
- tracked
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000000605 extraction Methods 0.000 claims abstract description 30
- 238000004364 calculation method Methods 0.000 claims abstract description 28
- 230000004927 fusion Effects 0.000 claims abstract description 17
- 241000282326 Felis catus Species 0.000 claims description 20
- 230000007246 mechanism Effects 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 17
- 238000012360 testing method Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 13
- 238000013135 deep learning Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 9
- 238000005520 cutting process Methods 0.000 claims description 8
- 238000004088 simulation Methods 0.000 claims description 4
- 239000013598 vector Substances 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 2
- 238000013519 translation Methods 0.000 claims description 2
- 238000003709 image segmentation Methods 0.000 claims 2
- 238000010606 normalization Methods 0.000 description 10
- 230000009977 dual effect Effects 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 8
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000011176 pooling Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10048—Infrared image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
针对复杂背景下红外弱小目标难以提取有效特征、易受周围干扰物影响等难题,本发明提出一种复杂背景下的红外弱小目标跟踪方法。本发明网络模型首先将输入的参考区域和待跟踪区域传入双特征提取模块分别获得融合特征图;然后,利用相似性计算模块将融合特征图进行相似性计算,输出的相似度图中包含目标的分类和回归信息;最后,通过精细化模块和头网络输出当前帧图像目标的预测位置和边界框,以实现复杂背景下的红外弱小目标的稳健跟踪。本发明可有效对复杂场景中的真实目标进行稳健跟踪,减少目标周围干扰物的影响,提高跟踪性能,为接下来提取目标特征、判定关键事件提供准确的位置信息。
Description
技术领域
本发明属于红外图像目标跟踪领域,即利用一个端到端的深度网络模型实现不同复杂背景下红外弱小目标的精准跟踪,具体为一种复杂背景下的红外弱小目标跟踪方法。
背景技术
红外弱小目标跟踪技术主要应用于敌对目标预警、远程制导武器等方面,对红外弱小目标进行精准跟踪是重要难题,主要的挑战在于:1)红外弱小目标与红外传感器的距离非常远,导致红外目标所占图像像素较少,通常在2×2-9×9之间,无边缘轮廓和纹理信息,较难提取出关键特征。2)在红外弱小目标跟踪过程中,可能会发生传感器的抖动,导致红外弱小目标的轨迹发生断裂,从图像的某个位置突然跳到另一个位置,造成***丢失目标。3)红外弱小目标发生姿态调整、点火熄火过程中,目标的灰度值会发生改变,如果遇见背景较亮的情况,可能会使目标淹没在背景中,导致跟踪失败。4)目标周围可能会出现一些干扰物,其灰度值也呈现高斯分布,类似于真实目标,***在判别过程中可能发生偏移,丢失真实目标。因此,提出一种复杂背景下的红外弱小目标跟踪方法是一项迫切且有挑战性的任务。
目前,现有的红外弱小目标跟踪方法可分为两类:一是基于模型驱动的数学建模方法(简称“数学建模方法”),二是基于数据驱动的深度学***衡。因此,本发明在孪生网络架构的基础上进行改进,实现复杂场景下的红外弱小目标的精准跟踪。
发明内容
本发明针对复杂背景条件下红外弱小目标难以提取有效特征、易受到周围干扰物影响等问题,提出一种复杂背景下的红外弱小目标跟踪方法,适用于森林、平原、山脊等复杂背景下的红外弱小目标跟踪,可达到较高的准确率和精确率,同时可满足实时性需求。
本发明采用以下技术方案:利用一种复杂背景下的红外弱小目标跟踪方法对不同背景环境下的红外弱小目标进行稳健跟踪,其步骤如下:
步骤1:输入一个包含红外弱小目标的红外图像序列Z;
步骤2:在红外图像序列Z的第一帧图像中框选目标区域,作为参考区域T;
步骤3:将参考区域T输入到双特征提取模块中,获得融合特征图cat(T);
步骤4:红外图像序列Z的后续帧图像以上一帧目标中心位置为原点,获得待跟踪区域Xi,i∈2-n,n表示T序列总帧数;
步骤5:将待跟踪区域Xi输入到双特征提取模块中,获得融合特征图cat(Xi);
步骤6:将两个融合特征图一起输入到相似性计算模块中,获得相似度图R;
步骤7:相似度图R通过精细化模块,获得与待跟踪区域尺寸一致的相似度图up(R);
步骤8:相似度图up(R)通过头网络输出目标中心点位置和边界框尺寸,得到当前帧i的跟踪结果;
步骤9:将当前帧i跟踪到的目标区域替换至参考区域T,继续进行步骤3~9操作,直至序列结束。
本方法需要构建双特征提取模块(Dual-feature Extraction Module,DEM)、相似性计算模块(Similarity Calculation Module,SCM)、精细化模块(Refinement Module,RM)组成红外弱小目标跟踪网络,在测试阶段,添加区域更新模块(Region Update Module,RUM)适应目标及周围背景的改变。其中DEM对红外弱小目标及其部分背景环境进行特征提取,有效提取出关键特征;SCM对参考区域和待跟踪区域的特征图进行相似性的度量,获得相似度图,包含目标的分类和回归信息;RM是为摆脱相似度图尺寸较小,映射回待跟踪区域时会引入大量背景造成跟踪精度下降的问题,将相似度图的尺寸经神经网络放大并与待跟踪区域保持一致,从而使像素对应关系保持一一对应,提高跟踪精度;RUM应用于测试阶段,始终采用上一帧图像区域作为参考区域,更新特征图信息。通过以上模块的组合最终构成一种复杂背景下的红外弱小目标跟踪方法,采用网络上公开的数据集并添加裁剪、旋转、模糊、镜像等操作提升网络鲁棒性,且采用多损失联合训练的方式进行网络优化,方法的输入是红外图像序列,输出是每帧图像预测目标位置的左上角及右下角坐标。
方法中,双特征提取模块包括:深度特征提取器和定向梯度直方图特征提取器。深度特征提取器在输入红外图像后可获得图像中的浅层细节和深度语义特征。定向梯度直方图特征提取器通过将图像均匀切分为多个图像块,计算每个图像块中像素的灰度梯度方向及大小,最终对每个图像块进行整合,形成整幅图像的灰度梯度直方图特征。
相似性计算模块是将transformer网络修改而来,通过其自注意力机制将参考区域和待跟踪区域特征图中的目标及背景中的关键信息进行增强,使用交叉注意力机制在增强后的待跟踪区域特征图中寻找与增强参考区域特征图中最相似的区域,受益于transformer网络可提取全局上下文信息,从全局范围中自适应地注意到两种特征图中相似部位的依赖。
精细化模块是对U-Net网络进行切分,删除U-Net网络中左侧的下采样网络,保留右侧的上采样网络,输入是相似性计算模块获得的相似度图,输出是与待跟踪区域尺寸一致的精细化相似度图。该模块的目的是:通过双特征提取模块时,深度网络中的卷积和池化操作会对图像区域进行下采样,特征图的尺寸不断缩小,其每个像素的感受野对应到待跟踪区域后会引入很多背景,降低跟踪性能。添加精细化模块后,使相似度图中分类和回归信息更加丰富,易于真实目标的定位。
区域更新模块是在方法的测试过程中,不断去更新参考区域。在红外目标跟踪过程中,常常引入部分目标背景区域以提高跟踪准确性,但在复杂背景环境下,目标部分背景区域在不断变化,只采取红外序列图像的第一帧作为目标区域在后续跟踪过程中会降低***性能。因此,在方法测试过程中添加区域更新模块提升跟踪准确性。
上述的双特征提取模块中深度特征提取器采用ResNet-18网络模型,在网络中删除最后的平均池化层和全连接层。输入为127×127×3的参考区域T和255×255×3的待跟踪区域X,一起通过5层残差网络后,获得15×15×512的深度特征图res(T)和31×31×512的深度特征图res(X)。在定向梯度直方图(HOG)特征提取器中,输入与深度特征提取器相同,输出为15×15×8的HOG特征图hog(T)和31×31×8的HOG特征图hog(X)。最后,将res(T)和hog(T)进行concat操作获得cat(T),待跟踪区域也采取一致的操作获得cat(X)。
上述的相似性计算模块是改进自然语言处理中的transformer网络结构,使其适用于目标跟踪领域,相似性计算模块包含编码器和解码器两部分。在编码器阶段中,首先利用pytorch深度学***,获得520×255的多维特征向量f(T),作为transformer编码器的输入。之后,通过第一个编码器层,传入f(T)后,利用多头注意力机制对f(T)中目标特征信息进行增强,具体计算过程如下:
MultiHead(Q,K,V)=ConCat(head1,...,headn)WO,headi=Attention(QWi Q,KWi K,VWi V),公式中,Q、K、V变量完全相同且等于f(T),Wi Q、Wi K、Wi V表示关注不同信息的权重矩阵,i∈1-8表示注意力机制关注8个位置的信息,将编码内容映射到8个空间,使模型的表征能力更强。f(T)通过多头注意力机制后获得编码特征enc(T),然后,将f(T)和enc(T)直接相加,再经过归一化层和前馈神经网络(FFN),前馈神经网络包含两个线性层和一个归一化层,通过这些操作后最终获得第一个编码特征enc'(T),其公式可表示为:enc'(T)=FFN(Norm(f(T)+enc(T)))。之后,继续通过第二个编码器层,对参考区域特征再次进行增强,操作与第一个编码器层一致。最终cat(T)通过相似度计算模块的编码器后获得编码特征enc”(T)。在解码器阶段,将待跟踪区域的融合特征图cat(X)输入到相似度计算模块(SCM)中的解码器中。解码器同样拥有两个解码器层,特征图中添加空间位置编码、拉平操作后通过第一个解码器层,该解码器层中包含一个由多头注意力机制和归一化层组成的注意力模块,用于增强待跟踪区域特征图中目标信息和关键背景信息,输出第一个解码特征dec'(X)。在第二个解码器层中,包含一个注意力模块和一个前馈神经网络,将dec'(X)和编码特征enc”(T)作为输入,在传入注意力模块中的多头注意力机制时,Q、K、V变量不再完全相同,而是Q=dec'(X),K=V=enc”(T),最后通过归一化层和前馈神经网络输出第二个解码特征dec”(X)。之后,利用Pytorch深度学习库中的view函数对dec”(X)特征图进行尺度转变,变为31×31×520大小的相似度图R。
上述的精细化模块采用U-Net的上采样网络,包含5层网络,第一层网络和第二层网络都包含一个卷积核为3×3、步长为2×2的转置卷积和一个双重卷积块,双重卷积块由两个卷积块构成,每个卷积块中包含一个卷积核为3×3、填充为1、步长为1的卷积层、一个归一化层和一个激活函数层。其他三层网络与前面两层的主要区别是转置卷积核的尺寸和步长不同,主要体现为:第三层网络的转置卷积核为2×2、步长为2,第四层网络的转置卷积核为2×2、步长为1,第五层网络的转置卷积核为1×1、步长为1。最后,再通过一个1×1卷积核的2维卷积。相似度图R经过精细化模块后得到1×255×255的精细化相似度图up(R)。
上述的区域更新模块应用于本发明的测试过程中,在进行待跟踪区域和参考区域融合特征图的相似性计算时,参考区域始终采用上一帧目标及其部分背景区域的红外图像,获得新的参考区域T′,最后,通过双特征提取模块和相似性计算模块中的编码器部分,获得新的编码特征enc”(T')。
上述的一种复杂背景下的红外弱小目标跟踪方法,其训练集的图像序列由如下过程得到:选用LaTOT数据集作为基础数据集进行模型训练,首先将图像序列中每幅图像按目标中心点作为原点,裁剪宽度为边界框对角线长度的10倍,由原点向四周进行裁剪,得到511×511的新图像;随后,对新图像进行平移、缩放、模糊、镜像操作使目标偏移原始位置,训练的参考图像从序列的第一帧直到最后一帧,而待跟踪图像是参考图像前后30帧范围内随机抽选。本方法所使用的训练集共104726张图像。
上述的一种复杂背景下的红外弱小目标跟踪方法,其测试集的图像序列由如下过程得到:选用DIRST数据集作为测试集,在一些红外序列中,目标仅1×1大小,无法提取有用的深度特征图和HOG特征图,因此,对于目标过小的情况,在真实目标上添加5×5-7×7范围内的模拟红外弱小目标,其灰度值呈高斯分布,label使用Dark label软件对目标进行标注。
本发明为解决处在不同背景环境中的红外弱小目标稳健性跟踪问题,提出一种复杂背景下的红外弱小目标跟踪方法,通过设计一种端到端的深度学习网络将跟踪问题分解为目标分类和回归任务,可有效对复杂场景中的真实目标进行稳健跟踪,减少目标周围干扰物的影响,提高跟踪性能,为接下来提取目标特征、判定关键事件提供准确的位置信息。
附图说明
图1为本发明的网络模型结构图。
图2为本发明的双特征提取模块结构图。
图3为本发明的相似性计算模块结构图。
图4为本发明的精细化模块结构图。
图5为本发明实施例示意图,其中(a)显示跟踪网络输入的上一帧参考区域,(b)显示跟踪网络输入的当前帧待跟踪区域,(c)显示跟踪网络输出边界框在当前源图像的标注结果。
具体实施方式
下面将结合附图及具体实施方式对本发明进行进一步阐述:
参照图1,本实施例中一种复杂背景下的红外弱小目标跟踪方法包括以下步骤:
步骤1:输入一个待跟踪的红外图像序列Z,包含n帧图像;
步骤2:在红外图像序列Z的第一帧图像上手动标定待跟踪的目标区域,并以2倍目标区域对角线长度填充周围背景区域,获得参考区域T∈R127×127×3;
步骤2.1:将参考区域T送入双特征提取模块(DEM)中进行特征的提取,参照图2中的模型框架,包含深度特征提取和定向梯度直方图特征提取两部分;
步骤2.2:DEM双特征提取中深度特征提取:采用ResNet-18架构,其由5个网络块组成,参考区域T依次通过这5个网络块获得参考区域深度特征图res(T)。其中,第1个网络块由一个卷积核为7×7、步长为2、填充为1的卷积层构成;第2个网络块由一个卷积核为3×3、步长为1、填充为1的最大池化层和两个残差块构成,残差块结构为两个卷积核为3×3、步长为1、填充为1的卷积层,但在输出位置将输出和残差块的输入相Concat,做残差连接;第3-5个网络块分别由两个残差块构成。残差块的结构与第2个网络块中残差块结构相似,但在每个网络块中第一个残差块中第一个卷积层的步长设置为2,对图像进行下采样。最后删除最后的平均池化层和线性层,得到15×15×512大小的参考区域深度特征图res(T)。
步骤2.3:DEM双特征提取中定向梯度直方图特征提取:首先将参考区域T均分为多个细胞单元,每个细胞单元大小为8×8像素;然后计算每个细胞单元中每个像素的梯度大小与方向,并在细胞单元中采用8个方位统计单元中像素的梯度信息;最后以2×2个细胞单元合成更大的块,块中每个细胞单元的梯度信息进行串联并归一化,形成块中梯度直方图特征;最终将所有块合并,获得15×15×8大小的定向梯度直方图特征图hog(T)。
步骤2.4:DEM双特征提取中双特征的融合:将深度特征提取器中输出的res(T)和定向梯度直方图特征提取器中输出的hog(T)进行通道维度的Concat操作获得融合特征图cat(T)。
步骤3:将参考区域的融合特征图cat(T)输入到相似度计算模块(SCM)中的编码器中,参考图3中的编码器结构。首先利用pytorch深度学***,获得520×255的多维特征向量f(T),作为编码器的输入。在编码器中,拥有两个编码器层,第一个编码器层输入f(T)后,利用多头注意力机制对f(T)中目标特征信息进行增强,具体计算过程如下:MultiHead(Q,K,V)=ConCat(head1,...,headn)WO,headi=Attention(QWi Q,KWi K,VWiV),公式中,Q、K、V变量完全相同且等于f(T),Wi Q、Wi K、Wi V表示关注不同方向信息的权重矩阵,i∈1-8表示多头注意力机制关注8个位置的信息,将编码内容映射到8个空间,模型的表征能力更强。f(T)通过多头注意力机制后获得特征enc(T),然后,将f(T)和enc(T)直接相加,再经过一个归一化层和前馈神经网络(FFN),其中前馈神经网络包含两个线性层和一个归一化层,通过这些操作后最终获得第一个编码特征enc'(T),其公式可表示为:enc'(T)=FFN(Norm(f(T)+enc(T)))。之后,继续通过第二个编码器层,对参考区域特征再次进行增强,操作与第一个编码器层一致。最终cat(T)通过相似度计算模块的编码器后获得编码特征enc”(T)。
步骤4:输入红外图像序列中2-n帧图像,图像以上一帧目标中心位置为原点,以4.5倍上一帧目标边界框对角线长度填充背景区域,形成待跟踪区域Xi,i∈2-n。
步骤5:将待跟踪区域Xi送入双特征提取模块(DEM)中进行特征的提取,获得待跟踪区域的融合特征图cat(Xi)。
步骤6:将待跟踪区域的融合特征图cat(Xi)输入到相似度计算模块(SCM)中的解码器中,参考图3中的解码器结构。解码器同样拥有两个解码器层,第一个解码器层包括注意力模块,第二个解码器层包括注意力模块和前馈神经网络,其中注意力模块都由多头注意力机制和归一化层构成。特征图cat(Xi)通过空间位置编码、拉平操作后通过第一个解码器层,增强待跟踪区域融合特征图中目标信息和关键背景信息,输出第一个解码特征dec'(Xi)。在第二个解码器层中,将dec'(Xi)和编码特征enc”(T)作为输入,在传入多头注意力机制时,Q、K、V变量不再完全相同,而是Q=dec'(Xi),K=V=enc”(T),最后第二个解码器层输出第二个解码特征dec”(Xi)。之后,利用Pytorch深度学习库中的view函数对dec”(X i)特征图进行尺度转变,变为31×31×520大小的相似度图R。
步骤7:将相似度图R传入精细化模块(RM)中获得精细化相似度图up(R),其网络结构参考图4。其中,精细化模块包含5层网络,第一层网络和第二层网络都包含一个卷积核为3×3、步长为2×2的转置卷积和一个双重卷积块,双重卷积块由两个卷积块构成,每个卷积块中包含一个卷积核为3×3、填充为1、步长为1的卷积层、一个归一化层和一个激活函数层。其他三层网络与前面两层的主要区别是转置卷积核的尺寸和步长不同,主要体现为:第三层网络的转置卷积核为2×2、步长为2,第四层网络的转置卷积核为2×2、步长为1,第五层网络的转置卷积核为1×1、步长为1。最后,再通过一个1×1卷积核的2维卷积,得到1×255×255的精细化相似度图up(R)。
步骤8:在跟踪第3帧及之后待跟踪区域中的目标时,会利用区域更新模块(RUM)对参考区域进行更新。首先,输入上一帧红外图像和上一帧预测边界框;然后,红外图像将预测边界框的中心点作为原点,以2倍边界框对角线的距离向四周进行扩充,获得新的参考图像T′;最后,通过双特征提取模块和相似性计算模块中的编码器部分,获得新的编码特征enc”(T')。
步骤9:训练数据集的建立:本发明使用修改后的LaTOT数据集(104726张)作为基础数据集进行训练,但为提高本发明网络的鲁棒性和精确性,对LaTOT数据集进行修改:首先,将LaTOT数据集中某一幅图像来说,以目标中心为原点,向四周扩展,获得基本图像;然后,添加随机平移、缩放、模糊、镜像操作产生新图像。LaTOT所有图像均经过以上两个步骤,获得修改后的LaTOT数据集。本发明输入训练图像时每幅图像都进行输入并进行裁剪得到参考图像,待跟踪图像为参考图像所在图像序列位置前后30帧随机抽取的一帧图像,经过裁剪获得。
步骤10:测试数据集的建立:本发明使用修改后的DIRST数据集(13655张)作为测试集。在原本DIRST数据集中一些图像序列中的目标大小为1×1像素,无法提取出有效的深度特征或定向梯度直方图特征。为此,在大小为1×1像素的目标覆盖5×5-7×7像素的新目标,新目标灰度符合二维高斯分布。
步骤11:模型训练过程:本发明提出的一种复杂背景下的红外弱小目标跟踪方法网络属于端到端的网络模型,将进行裁剪的两张红外图像作为参考区域和待跟踪区域一起送入到网络模型中进行多次迭代优化,头网络输出的分类结果、中心偏差结果和边界框结果与对应的标签进行损失计算并梯度求导优化网络参数。评价指标采用IOU交并比、精确率(中心点欧式距离)对测试结果进行评价。
步骤12:模型训练参数设置:采用一台显卡型号为NVIDIA RTX 3090、显存为24GB的Windows服务器进行模型的训练,所使用的测试软件为PyCharm2021.2.2。训练总迭代数为50,学习率初始化为0.01并在迭代过程中以指数形式递减直到减少到0.0005,优化器采用随机梯度(SGD)优化器,网络框架为PyTorch 1.8.0。
Claims (8)
1.一种复杂背景下的红外弱小目标跟踪方法,其特征在于:包括以下步骤:
步骤1:输入一个包含红外弱小目标的红外图像序列Z;
步骤2:在红外图像序列Z的第一帧图像中框选目标区域,作为参考区域T;
步骤3:将参考区域T输入到双特征提取模块中,获得融合特征图cat(T);
步骤4:红外图像序列Z的后续帧图像以上一帧目标中心位置为原点,获得待跟踪区域Xi,i∈2-n,n表示Z序列总帧数;
步骤5:将待跟踪区域Xi输入到双特征提取模块中,获得融合特征图cat(Xi);
步骤6:将两个融合特征图一起输入到相似性计算模块中,获得相似度图R;
步骤7:相似度图R通过精细化模块,获得与待跟踪区域尺寸一致的相似度图up(R);
步骤8:相似度图up(R)通过头网络输出目标中心点位置和边界框尺寸,得到当前帧i的跟踪结果;
步骤9:将当前帧i跟踪到的目标区域替换至参考区域T,继续进行步骤3~9操作,直至序列结束。
2.根据权利要求1所述的一种复杂背景下的红外弱小目标跟踪方法,其特征在于:
双特征提取模块包括深度特征提取网络和灰度梯度特征提取方法两部分,深度特征提取网络通过深度学习、梯度下降的方式,使网络自适应学习到图像中的浅层细节特征和深层语义特征,灰度梯度特征提取方法通过数学计算的方式,提取图像中局部区域的灰度梯度直方图特征;
相似性计算模块包括Transformer网络结构,利用其中的自注意力机制对特征图进行目标信息的增强,抑制背景信息,交叉注意力机制从全局层面计算特征图之间的相似性,获得相似度图;
精细化模块通过修改图像分割任务中的U-Net网络,使相似度图每个像素点的感受野缩小,且可与待跟踪区域像素点保持一一对应的关系,增加相似度图中的信息量,提高头网络输出的准确率;
区域更新模块具体在测试过程中体现,由于复杂场景下红外弱小目标的背景区域常发生改变,仅使用首帧框定的目标及部分背景区域在后续的相似性计算中准确性会大大降低,为使目标跟踪准确性提升,利用跟踪前一帧目标的预测目标区域作为新的参考区域。
3.根据权利要求2所述的一种复杂背景下的红外弱小目标跟踪方法,其特征在于:双特征提取模块由ResNet-18深度网络和定向梯度直方图特征提取器组成,参考区域和待跟踪区域分别传入ResNet-18网络和定向梯度直方图特征提取器获得特征图,再经过维度层面的串联获得融合特征图。
4.根据权利要求2所述的一种复杂背景下的红外弱小目标跟踪方法,其特征在于:相似性计算模块将参考区域特征图添加位置编码,并通过pytorch中的view函数进行形状的更改变为多维向量,使特征图中每个像素记录空间信息,再通过transformer中的自注意力机制,增强特征图中目标信息,抑制背景区域,将待跟踪区域特征图以相同的运算获得添加位置编码的一维向量,之后通过多头注意力机制,增强待跟踪区域特征图中目标信息,最后将增强后的参考区域特征图和待跟踪区域特征图共同传入到transformer的交叉注意力机制中,在增强待跟踪区域特征图中搜寻与参考区域特征图中最为相似的位置,生成相似度图。
5.根据权利要求2所述的一种复杂背景下的红外弱小目标跟踪方法,其特征在于:精细化模块由图像分割任务中的U-Net网络拆分而来,只保留上采样网络,精细化模块的输入为相似性计算模块的输出相似度图,最终获得与待跟踪区域尺寸一致的精细化相似度图up(R)。
6.根据权利要求2所述的一种复杂背景下的红外弱小目标跟踪方法,其特征在于:区域更新模块使跟踪方法在测试过程中,不断利用被跟踪图像的上一帧目标区域及部分背景区域作为参考区域,参考区域的实时更新可更好应对复杂多变的跟踪环境,使待跟踪区域与参考区域做相似性计算时更加准确,提高跟踪精度。
7.根据权利要求2所述的一种复杂背景下的红外弱小目标跟踪方法,其特征在于:该方法训练集的图像序列由如下过程得到:选用LaTOT数据集作为基础数据集进行模型训练,首先将图像序列中每幅图像按目标中心点作为原点,裁剪宽度为边界框对角线长度的10倍,由原点向四周进行裁剪,得到511×511的新图像;随后,对新图像进行平移、缩放、模糊、镜像操作使目标偏移原始位置,训练的参考图像从序列的第一帧直到最后一帧,而待跟踪图像是参考图像前后30帧范围内随机抽选。
8.根据权利要求7所述的一种复杂背景下的红外弱小目标跟踪方法,其特征在于:测试集的图像序列由如下过程得到:选用DIRST数据集作为测试集,在一些红外序列中,目标仅1×1大小,无法提取有用的深度特征图和HOG特征图,因此,对于目标过小的情况,在真实目标上添加5×5-7×7范围内的模拟红外弱小目标,其灰度值呈高斯分布,并对目标进行标注。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310268997.8A CN116402851A (zh) | 2023-03-17 | 2023-03-17 | 一种复杂背景下的红外弱小目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310268997.8A CN116402851A (zh) | 2023-03-17 | 2023-03-17 | 一种复杂背景下的红外弱小目标跟踪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116402851A true CN116402851A (zh) | 2023-07-07 |
Family
ID=87006629
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310268997.8A Pending CN116402851A (zh) | 2023-03-17 | 2023-03-17 | 一种复杂背景下的红外弱小目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116402851A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117011335A (zh) * | 2023-07-26 | 2023-11-07 | 山东大学 | 一种基于自适应双解码器的多目标跟踪方法及*** |
CN117274823A (zh) * | 2023-11-21 | 2023-12-22 | 成都理工大学 | 基于DEM特征增强的视觉Transformer滑坡识别方法 |
-
2023
- 2023-03-17 CN CN202310268997.8A patent/CN116402851A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117011335A (zh) * | 2023-07-26 | 2023-11-07 | 山东大学 | 一种基于自适应双解码器的多目标跟踪方法及*** |
CN117011335B (zh) * | 2023-07-26 | 2024-04-09 | 山东大学 | 一种基于自适应双解码器的多目标跟踪方法及*** |
CN117274823A (zh) * | 2023-11-21 | 2023-12-22 | 成都理工大学 | 基于DEM特征增强的视觉Transformer滑坡识别方法 |
CN117274823B (zh) * | 2023-11-21 | 2024-01-26 | 成都理工大学 | 基于DEM特征增强的视觉Transformer滑坡识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110210551B (zh) | 一种基于自适应主体敏感的视觉目标跟踪方法 | |
CN114782691B (zh) | 基于深度学习的机器人目标识别与运动检测方法、存储介质及设备 | |
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
CN109886066B (zh) | 基于多尺度和多层特征融合的快速目标检测方法 | |
CN111539887B (zh) | 一种基于混合卷积的通道注意力机制和分层学习的神经网络图像去雾方法 | |
WO2019136591A1 (zh) | 基于弱监督时空级联神经网络的显著目标检测方法及*** | |
CN108038435B (zh) | 一种基于卷积神经网络的特征提取与目标跟踪方法 | |
CN116402851A (zh) | 一种复杂背景下的红外弱小目标跟踪方法 | |
CN112396607A (zh) | 一种可变形卷积融合增强的街景图像语义分割方法 | |
CN113780149A (zh) | 一种基于注意力机制的遥感图像建筑物目标高效提取方法 | |
CN113344932B (zh) | 一种半监督的单目标视频分割方法 | |
CN111242026B (zh) | 一种基于空间层次感知模块和度量学习的遥感图像目标检测方法 | |
CN113486894B (zh) | 一种卫星图像特征部件语义分割方法 | |
CN111476133B (zh) | 面向无人驾驶的前背景编解码器网络目标提取方法 | |
CN112686830B (zh) | 基于图像分解的单一深度图的超分辨率方法 | |
CN113033432A (zh) | 一种基于渐进监督的遥感影像居民区提取方法 | |
CN110751271B (zh) | 一种基于深度神经网络的图像溯源特征表征方法 | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
CN116563682A (zh) | 一种基于深度霍夫网络的注意力方案和条带卷积语义线检测的方法 | |
CN110633706B (zh) | 一种基于金字塔网络的语义分割方法 | |
Fan et al. | Hcpvf: Hierarchical cascaded point-voxel fusion for 3D object detection | |
CN110942463B (zh) | 一种基于生成对抗网络的视频目标分割方法 | |
CN112115786A (zh) | 基于注意力U-net的单目视觉里程计方法 | |
CN114494934A (zh) | 一种基于信息减少率的无监督运动目标检测方法 | |
CN111899284A (zh) | 一种基于参数化esm网络的平面目标跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |