CN114219824A - 基于深度网络的可见光-红外目标跟踪方法及*** - Google Patents
基于深度网络的可见光-红外目标跟踪方法及*** Download PDFInfo
- Publication number
- CN114219824A CN114219824A CN202111554433.8A CN202111554433A CN114219824A CN 114219824 A CN114219824 A CN 114219824A CN 202111554433 A CN202111554433 A CN 202111554433A CN 114219824 A CN114219824 A CN 114219824A
- Authority
- CN
- China
- Prior art keywords
- visible light
- infrared
- classification
- regression
- response
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000004044 response Effects 0.000 claims abstract description 83
- 238000012545 processing Methods 0.000 claims abstract description 11
- 230000002708 enhancing effect Effects 0.000 claims abstract description 7
- 238000010586 diagram Methods 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 16
- 230000004927 fusion Effects 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 9
- 238000012360 testing method Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006409 bimodal response Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000001373 regressive effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10048—Infrared image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度网络的可见光‑红外目标跟踪方法及***,包括:构建对称的双流孪生网络,包括可见光子网络和红外子网络;将可见光样本‑候选图像和红外样本‑候选图像分别输入到可见光子网络和红外子网络,提取模板和候选特征;通过通道注意力模块和通道‑空间联合注意力模块增强模板和候选特征;将原始模板和候选特征及增强的模板和候选特征均通过分类分支和回归分支进行分类、分支,得到对应的分类响应图和回归响应图;对分类响应图和回归响应图进行融合;通过自适应峰值选择模块处理分类响应图和回归响应图,获取目标定位。本发明在保证跟踪鲁棒性的同时仍能高速运行,应用于可见光‑红外目标跟踪任务具有优异的性能。
Description
技术领域
本发明属于可见光-红外目标跟踪技术领域,具体涉及一种基于深度网络的可见光-红外目标跟踪方法及***。
背景技术
近年来得益于计算机硬件快速发展的夯实基础,深度学习的热度持续增加,在工业界和学术界都受到了广泛关注。深度学习模模型往往有着较深的网络结构和较多的参数,可以提取到更深层次、更具辨识力的特征,同时也要求了更大的数据量。计算机视觉依托于深度学习的广泛应用,在更多细分领域也取得了振奋人心的进步。
目标跟踪是计算机视觉的一个重要分支和基本问题,也是视觉领域近年来的热点和难点之一。但现阶段的目标跟踪仍面临着许多挑战性问题,尤其是在各种复杂的环境条件下(如低光照、雨天、烟雾等),可见光图像成像质量会受到显著影响,使跟踪目标物体很艰难。研究发现,热红外(Thermal Infrared)传感器为这些情况提供了更稳定的特征。两种模态的特征,可以在各种挑战场景中互补:在可见光受到低照度、高照度或背景遮挡的干扰时,热信息可以有效地克服它们;当热光谱受到热交叉、玻璃等影响时,可见光信息可以有效地处理它们。
在过去十年中,研究者已经提出许多用于可见光-红外目标跟踪的方法。从基于稀疏表示和相关滤波的传统可见光-红外目标跟踪方法到基于深度学习的可见光-红外目标跟踪,可见光-红外目标跟踪已经成为了跟踪领域一个有针对性的研究内容。RGB-T目标跟踪的传统方法多为在线目标跟踪,旨在利用简单有效的人工设计视觉特征,结合浅层外观模型,利用匹配或分类算法进行快速有效的目标跟踪。如基于稀疏表示的方法,将可见光和红外信息结合起来,稀疏地表示目标模板空间中的每个样本。为抑制噪声和减少误差,研究人员提出了利用低秩约束的相关滤波可见光-红外目标跟踪方法[Zhai S,Shao P,LiangX,et al.Fast RGB-T tracking via cross-modal correlation filters[J].Neurocomputing,2019,334:172-181.]。利用交叉模态相关滤波器以获得可见光和热红外两个模态之间的相互依赖性,实现多种模态的协同融合,使所学习的滤波器可以包含来自不同数据源的有用信息,从而获得鲁棒的跟踪结果。近年来,随着深度网络的不断发展和大型可见光-红外目标跟踪数据集的公开,基于深度学习的可见光-红外目标跟踪方法逐渐成为主流,如使用双卷积神经网络分别提取可见光和红外特征进行级联融合;但这种方式会引入冗余噪声,为提升性能研究人员提出了基于密集特征聚合与剪枝网络的可见光-红外目标跟踪的方法[Zhu Y,Li C,Luo B,et al.Dense feature aggregation and pruningfor rgbt tracking[C]//Proceedings of the 27th ACM International Conference onMultimedia.2019:465-472.],在提供更具丰富的特征表示的同时消除冗余噪声;此外,基于多适配器和挑战感知[Long Li C,Lu A,Hua Zheng A,et al.Multi-adapter rgbttracking[C]//Proceedings of the IEEE International Conference on ComputerVision Workshops.2019:0-0.]、基于全局注意力和局部注意力的深度方法也被提出,进一步提升了跟踪的精度。但由于这些深度模型都使用了在线训练的方式以在跟踪过程中提升模型性能,它们的速度往往成为软肋,无法在满足实时性的情况下运行。
发明内容
本发明公开了一种基于深度网络的可见光-红外目标跟踪方法及***,可以抵抗跟踪速度的下降,提高了跟踪的精度和速度。
实现本发明的技术解决方案为:一种基于深度网络的可见光-红外目标跟踪方法,包括步骤:
第一步,输入的视频包括可见光视频序列和红外视频序列,即网络的输入包含红外样本图像序列和红外候选图像序列、可见光样本图像序列和可见光候选图像序列;
第二步,建立对称的双流孪生网络结构,可见光分支和红外分支的骨干网络分别共享权重;
第三步,采用通道注意力模块和通道-空间联合注意力模块且可训练,通道注意力模块和通道-空间联合注意力模块作为特征增强单元嵌入网络中;
第四步,原始特征和增强特征通过分类分支和回归分支进行互相关操作,得到分类响应图和回归响应图并进行融合;所述分类分支使用交叉熵作为损失函数,回归分支使用光滑化L1范数作为损失函数联合训练网络;
第五步,在跟踪推理阶段,通过自适应峰值选择模块处理分类响应图和回归响应图,完成目标定位。
一种基于深度网络的可见光-红外目标跟踪***,包括数据采集处理模块和目标跟踪网络,其中:
所述采集处理模块用于获取红外样本图像和红外候选图像、可见光样本图像和可见光候选图像;
所述目标跟踪网络为对称的双流孪生网络结构,包括用于特征提取的可见光子网络和红外子网络、嵌入可见光子网络及红外子网络的通道注意力模块和通道-空间联合注意力模块、分类分支和回归分支、图像融合模块和自适应峰值选择模块;所述通道注意力模块和通道-空间联合注意力模块用于提取特征的增强,所述分类分支和回归分支分别用于原始模板和候选特征及增强的模板和候选特征的分类、分支,输出对应的分类响应图和回归响应图;所述图像融合模块用于对分类响应图和回归响应图进行融合,所述自适应峰值选择模块用于处理分类响应图和回归响应图,获取目标定位。
本发明与现有技术相比,其显著特点在于:(1)建立对称的深度双流孪生网络结构,有效提取可见光模态和红外模态的语义特征;(2)使用注意力机制自适应增强可见光模态和红外模态特征,增强其判别力;(3)通过响应级融合,并使用最大峰值选择方式以在目标定位中获得更高精度;(4)采用端到端的网络结构,结构简单,简洁有序,摒弃了复杂的预处理、后处理流程,计算复杂度低;具有泛化性强、跟踪精度高及跟踪速度快的优点,在基准数据集上的精度达到88.2%,同时速度高达140帧/秒。
附图说明
图1是本发明方法的流程示意图。
图2是本发明方法的网络结构图。
图3是本发明通道注意力模块结构图。
图4是本发明空间注意力模块结构图。
具体实施方式
结合图1,下面详细说明本发明的实施过程,一种双模态响应融合深度网络的可见光-红外目标跟踪方法,步骤如下:
第二步,建立对称的双流孪生网络结构,可见光分支和红外分支的骨干网络分别共享权重。骨干网络由多个二维卷积单元串联而成,每个二维卷积单元的输出作为下一个二维卷积单元的输入。Xrgb∈Rh×w×c为可见光图像数据,h、w、c分别为可见光图像数据的三个维度,即高、宽、通道数。Xtir∈RH×W×C,。H、W、C分别为红外图像数据的三个维度,即高、宽、通道数。第i(1≤i≤n)个二维卷积单元的输入为Xi,输出为则有:
其中,n表示骨干网络中的二维卷积单元数量,Relu(·)表示激活函数,BN(·)表示批归一化函数,运算符表示卷积运算,和分别表示可见光和红外骨干网络第i个二维卷积单元的卷积核(k×k为卷积核大小),和分别为可见光和红外卷积核对应的偏置项。
第三步,采用通道注意力模块和通道-空间联合注意力模块且可训练,通道注意力模块和通道-空间联合注意力模块作为特征增强单元嵌入网络中。结合图3,通道注意力模块的输入Featrgb∈Rh×w×c,Feattir∈Rh×w×c:
Featrgb∈Rh×w×c,Feattir∈Rh×w×c
Featunion=Cat(Featrgb,Feattir)
Weight=G(Resize(FC(GP(Featunion))))
其中,Featrgb、Featrgb分别表示经过骨干网络提取的可见光特征和红外特征,Cat(·,·)表示按通道维度级联操作,Featunion∈Rh×w×2c表示级联后的特征;GP(·)表示全局池化操作,FC(·)表示全连接层,Resize(·)表示调整尺寸操作,G(·)表示激活函数,Weight∈Rh×w×2c表示计算出的权重;*表示矩阵的点乘,表示加权(增强)后的特征;Apart(·)表示按通道维度特征拆分,分别表示加权(增强)后的可见光特征和红外特征。
结合图4,空间注意力模块的输入Featrgb∈Rh×w×c,Feattir∈Rh×w×c:
Featrgb∈Rh×w×c,Feattir∈Rh×w×c
Featunion=Cat(Featrgb,Feattir)
其中,Featrgb、Featrgb分别表示可见光特征和红外特征,Cat(·,·)表示按通道维度级联操作,Featunion∈Rh×w×2c表示级联后的特征;Avg(·)表示平均池化操作,Max(·)表示最大池化操作,为二维卷积,Sspatial∈Rk×k×c表示空间注意力模块二维卷积核,G(·)表示激活函数,Weight∈Rh×w×2c为计算出的权重;×是广播乘,表示加权(增强)后的特征;Apart(·)表示按通道维度特征拆分,分别是加权(增强)后的可见光特征和红外特征。
通道-空间注意力模块的构成为串联的通道注意力模块和空间注意力模块。将由骨干网络提取的可见光样本特征和红外样本特征送入通道注意力模块进行增强,将由骨干网络提取的可见光候选特征和红外候选特征通道-空间注意力模块进行增强。
第四步,原始特征和增强特征通过分类分支和回归分支进行互相关操作,得到分类响应图和回归响应图并进行融合。网络共包含4个分类分支和2个回归分支,分别为:原始可见光分类分支、增强可见光分类分支、原始红外分类分支、增强红外分类分支、增强可见光回归分支、增强红外回归分支。分类分支的输入为分别表示同属性的样本特征和候选特征(如红外增强样本特征和红外增强候选特征):
ClSMaprgb∈Rn×n×l×2,ClSMaptir∈Rn×n×l×2,
分别表示:增强可见光分类响应图、增强红外分类响应图、原始可见光分类响应图、原始红外分类响应图、增强可见光回归响应图、增强红外回归响应图。
其中,+表示矩阵元素点对点相加。ClsMap1∈Rn×n×l×2,ClsMap2∈Rn×n×l×2,RegMap∈Rn×n×l×4为最终得到的三张响应图,n表示响应图边长,l表示锚框不同尺度的数量。
第五步,在跟踪推理阶段,通过自适应峰值选择模块对分类响应图和回归响应图进行处理,完成目标定位。在跟踪推理阶段,通过比较ClsMap1和ClsMap2两张响应图的最大响应值,取最大响应值锚框所对应的坐标为索引,在RegMap中定位到预测框相对于上一帧的边界偏移。令ClsMap1最大响应值点索引为令ClsMap2最大响应值点索引为
若
则
若
则
Imax表示最大响应值锚框对应坐标。确定Imax后,可以再回归响应图RegMap中定位到边界偏移:
(Δcx,Δcy,Δw,Δh)=RegMap2[Imax]
Δcx,Δcy,Δw,Δh分别表示预测框中心横坐标偏移、中心纵坐标偏移、宽度偏移、高度偏移。根据(Δcx,Δcy,Δw,Δh)可以计算出当前帧预测框:
(cx,cy,w,h)=(cx0+Δcx,cy0+Δcy,w0+Δw,h0+Δh)
其中,cx,cy,w,h表示当前帧预测框的中心横坐标、中心纵坐标、宽度、高度;cx0,cy0,w0,h0表示上一帧预测框的中心横坐标、中心纵坐标、宽度、高度。
第六步,分类分支使用交叉熵作为损失函数,回归分支使用坐标归一化的光滑化L1范数作为损失函数联合训练网络。分类分支完成区分前景与背景的二元分类任务,训练阶段分类分支输出的响应图为ClsMap∈Rn×n×l×2,经尺寸变换为ClsMap∈RM×2,M=n×n×l,其对应的标签Lcls∈RM;从Lcls中抽取p个正样本生成正样本集并记录其索引从Lcls中抽取q个负样本生成负样本集并记录其索引从ClsMap中抽取索引对应样本生成正预测集抽取索引对应样本生成负预测集则有:
回归分支完成边界框回归的任务,训练阶段回归分支输出的响应图为RegMap∈Rn ×n×l×4,经尺寸变换为RegMap∈RM×4,M=n×n×l,其对应的标签Lreg∈RM×4;从Lreg中抽取p个正样本生成正样本集并记录其索引从RegMap中抽取索引对应样本生成正预测集则有:
其中,SmoothL1(·)表示光滑化L1范数。
最终的Loss定义为:
其中,γ∈[0,10)是用于平衡两种Loss的超参数。
对本发明方法进行仿真,仿真实验采用三组真实可见光-红外数据集:GTOT数据集、RGBT234数据集、LasHeR数据集。其中,GTOT数据集共包含50个序列,共计7800帧经手工标注的可见光-红外图片对,每个序列平均包含157帧;RGBT234数据集共包含234个序列,共计116700帧经手工标注的可见光-红外图片对,每个序列平均包含498帧;LasHeR数据集共包含1224个序列,共计734800帧经手工标注的可见光-红外图片对,每个序列平均包含600帧。因GTOT和RGBT234未划分训练集和测试集,实验选择两种训练-测试方式:1、以RGBT234数据集和LasHeR数据集作为训练集对网络进行训练,并以GTOT数据集作为测试集进行测试;2、以LasHeR数据集作为训练集对网络进行训练,并以RGBT234数据集作为测试集进行测试。训练每次前向传播过程中,从训练集中随机抽取一个序列,并生成该序列对应的可见光-红外模板图像对和可见光-红外候选图像对并送入网络中。网络的优化器算法选择为随机梯度下降(SGD)、动量设置为0.9、权值衰减设置为0.0005、初始学习率设置为0.01、终止学习率设置为0.00001、批大小设置为28,数据集无需任何的预处理。两组实验以PR(PrecisionRate)、SR(SuccessRate)和FPS(FramesPerSecond)作为评价指标。仿真实验软件环境:Ubuntu16.04操作***、Python3.7、Pytorch1.7.1;仿真实验硬件环境:i7-9700k处理器、16gb内存、英伟达2080ti显卡;完成实验中使用的网络架构如图2所示。
表1与表2分别为本发明方法在GTOT数据集及RGBT234数据集上仿真实验结果的性能指标。从实验结果来看,该方法对真实数据集非常有效,在GTOT数据集上的跟踪精度达到了88.2%,在RGBT234数据集上的跟踪精度达到了75.0%,且速度达到了了140帧/秒。本发明方法在PR、SR、FPS三个指标上均远超过包括ECO、SGT、DuSiamRT、SiamFT在内的先进方法;DAPNet、MANet等方法由于采取了在线训练的策略,速度受到了极大的限制,在GTOT数据集和RGBT234数据集上的速度仅有1帧/秒左右;本发明方法采取了离线训练、在线跟踪的策略,在PR、SR指标与DAPNet、MANet处于同一水平的同时,速度超越了它们的一百倍以上。上述结果表明,本发明方法能够有效的利用可见光与红外两种模态具有判别性的语义特征,在保证跟踪精度和鲁棒性的同时仍能高速运行。
表1不同方法在GTOT数据集上的跟踪结果
ECO | SGT | DAPNet | MANet | SiamFT | DuSiamRT | Ours | |
PR(%) | 77.0 | 85.1 | 88.2 | 88.9 | 75.8 | 76.6 | 88.2 |
SR(%) | 63.1 | 62.8 | 70.7 | 71.9 | 62.3 | 62.8 | 70.3 |
FPS | 11.2 | 5.0 | 1.5 | 1.2 | 32.0 | 117.0 | 140.0 |
表2不同方法在RGBT234数据集上的跟踪结果
本发明使用端到端的离线训练、在线跟踪方式,以抵抗跟踪速度的下降。同时建立了双流孪生网络结构以提取两个模态的深层语义信息;并使用通道注意力和空间注意力模块生成自适应权重以增强特征的判别力并减小噪声,能更好地完成两个模态特征的融合;本方法在GTOT数据集上的跟踪精度达到了88.2%,在RGBT234数据集上的跟踪精度达到了75.0%,且能以140帧/秒的速度运行,达到了实时性标准的6倍,体现了本发明方法相对于其他方法的优越性。
Claims (10)
1.一种基于深度网络的可见光-红外目标跟踪方法,其特征在于,包括步骤:
构建对称的双流孪生网络,包括可见光子网络和红外子网络;
将可见光样本-候选图像和红外样本-候选图像分别输入到可见光子网络和红外子网络,提取模板和候选特征;
通过通道注意力模块和通道-空间联合注意力模块增强模板和候选特征;
将原始模板和候选特征及增强的模板和候选特征均通过分类分支和回归分支进行分类、分支,得到对应的分类响应图和回归响应图;
对分类响应图和回归响应图进行融合;
通过自适应峰值选择模块处理分类响应图和回归响应图,获取目标定位。
2.根据权利要求1所述的一种基于深度网络的可见光-红外目标跟踪方法,其特征在于,所述可见光子网络和红外子网络的骨干网络由多个二维卷积单元串联而成,每个二维卷积单元的输出作为下一个二维卷积单元的输入,另Xrgb∈Rh×w×c为可见光图像数据,h、w、c分别为可见光图像数据的三个维度,即高、宽、通道数;另Xtir∈RH×W×C,H、W、C分别为红外图像数据的三个维度,即高、宽、通道数;另第i个二维卷积单元的输入为Xi,输出为则有:
其中,n表示骨干网络中的二维卷积单元数量,Relu(·)表示激活函数,BN(·)表示批归一化函数,运算符表示卷积运算,和分别表示可见光和红外骨干网络第i个二维卷积单元的卷积核,k×k为卷积核大小,和分别为可见光和红外卷积核对应的偏置项;输出为:
3.根据权利要求2所述的一种基于深度网络的可见光-红外目标跟踪方法,其特征在于,所述通道注意力模块和通道-空间联合注意力模块分别嵌入可见光子网络和红外子网络中。
4.根据权利要求3所述的一种基于深度网络的可见光-红外目标跟踪方法,其特征在于,通过通道注意力模块和通道-空间联合注意力模块增强模板和候选特征具体为:
通道注意力模块的输入为Featrgb∈Rh×w×c,Feattir∈Rh×w×c,输出的增强特征为:
Featrgb∈Rh×w×c,Feattir∈Rh×w×c
Featunion=Cat(Featrgb,Feattir)
Weight=G(Resize(FC(GP(Featunion))))
其中,Cat(·,·)表示按通道维度级联操作,Featunion∈Rh×w×2c表示级联后的特征;GP(·)表示全局池化操作,FC(·)表示全连接层,Resize(·)表示调整尺寸操作,G(·)表示激活函数,Weight∈Rh×w×2c表示计算出的权重;*表示矩阵的点乘,表示增强后的特征;Apart(·)表示按通道维度特征拆分,分别表示增强后的可见光特征和红外特征;
空间注意力模块的输入Featrgb∈Rh×w×c,Feattir∈Rh×w×c,输出的增强特征为:
Featrgb∈Rh×w×c,Feattir∈Rh×w×c
Featunion=Cat(Featrgb,Feattir)
其中,Cat(·,·)表示按通道维度级联操作,Featunion∈Rh×w×2c表示级联后的特征;Avg(·)表示平均池化操作,Max(·)表示最大池化操作,为二维卷积,Sspatial∈Rk×k×c表示空间注意力模块二维卷积核,G(·)表示激活函数,Weight∈Rh×w×2c为计算出的权重;×是广播乘,表示增强后的特征;Apart(·)表示按通道维度特征拆分,分别是增强后的可见光特征和红外特征;
所述通道-空间注意力模块由串联的通道注意力模块和空间注意力模块构成,将由可见光子网络和红外子网络的骨干网络提取的可见光候选特征和红外候选特征进行增强。
5.根据权利要求4所述的一种基于深度网络的可见光-红外目标跟踪方法,其特征在于,所述分类分支包括4个分类分支,回归分支包括2个回归分支,为原始可见光分类分支、增强可见光分类分支、原始红外分类分支、增强红外分类分支、增强可见光回归分支、增强红外回归分支。
原始特征和增强特征经过4个分类分支和2个回归分支,生成增强可见光分类响应图增强红外分类响应图原始可见光分类响应图ClsMaprgb、原始红外分类响应图ClsMaptir、增强可见光回归响应图增强红外回归响应图分别为:
ClsMaprgb∈Rn×n×l×2,ClsMaptir∈Rn×n×l×2,
8.根据权利要求6所述的一种基于深度网络的可见光-红外目标跟踪方法,其特征在于,所述分类分支使用交叉熵作为损失函数,回归分支使用坐标归一化的光滑化L1范数作为损失函数联合训练网络;
所述分类分支完成区分前景与背景的二元分类任务,训练阶段分类分支输出的响应图为ClsMap∈Rn×n×l×2,经尺寸变换为ClsMap∈RM×2,M=n×n×l,其对应的标签Lcls∈RM;从Lcls中抽取p个正样本生成正样本集并记录其索引从Lcls中抽取q个负样本生成负样本集并记录其索引从ClsMap中抽取索引对应样本生成正预测集抽取索引对应样本生成负预测集则损失函数为:
所述回归分支完成边界框回归的任务,训练阶段回归分支输出的响应图为RegMap∈Rn ×n×l×4,经尺寸变换为RegMap∈RM×4,M=n×n×l,其对应的标签Lreg∈RM×4;从Lreg中抽取p个正样本生成正样本集并记录其索引从RegMap中抽取索引对应样本生成正预测集则损失函数为为:
其中,SmoothL1(·)表示光滑化L1范数;
最终的Loss定义为:
其中,γ∈[0,10)是用于平衡两种Loss的超参数。
9.根据权利要求6所述的一种基于深度网络的可见光-红外目标跟踪方法,其特征在于,通过自适应峰值选择模块处理分类响应图和回归响应图,获取目标定位具体为:
通过比较ClsMap1和ClsMap2两张响应图的最大响应值,取最大响应值锚框所对应的坐标为索引,在RegMap响应图中定位到预测框相对于上一帧的边界偏移,令ClsMap1最大响应值点索引为令ClsMap2最大响应值点索引为
Imax表示最大响应值锚框对应坐标,定位回归响应图RegMap中的边界偏移为:
(Δcx,Δcy,Δw,Δh)=RegMap2[Imax]
Δcx,Δcy,Δw,Δh分别表示预测框中心横坐标偏移、中心纵坐标偏移、宽度偏移、高度偏移,根据(Δcx,Δcy,Δw,Δh)计算出当前帧预测框:
(cx,cy,w,h)=(cx0+Δcx,cy0+Δcy,w0+Δw,h0+Δh)
其中,cx,cy,w,h表示当前帧预测框的中心横坐标、中心纵坐标、宽度、高度;cx0、cy0、w0、h0表示上一帧预测框的中心横坐标、中心纵坐标、宽度、高度。
10.一种基于深度网络的可见光-红外目标跟踪***,其特征在于,包括数据采集处理模块和目标跟踪网络,其中:
所述采集处理模块用于获取红外样本图像和红外候选图像、可见光样本图像和可见光候选图像;
所述目标跟踪网络为对称的双流孪生网络结构,包括用于特征提取的可见光子网络和红外子网络、嵌入可见光子网络及红外子网络的通道注意力模块和通道-空间联合注意力模块、分类分支和回归分支、图像融合模块和自适应峰值选择模块;所述通道注意力模块和通道-空间联合注意力模块用于提取特征的增强,所述分类分支和回归分支分别用于原始模板和候选特征及增强的模板和候选特征的分类、分支,输出对应的分类响应图和回归响应图;所述图像融合模块用于对分类响应图和回归响应图进行融合,所述自适应峰值选择模块用于处理分类响应图和回归响应图,获取目标定位。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111554433.8A CN114219824A (zh) | 2021-12-17 | 2021-12-17 | 基于深度网络的可见光-红外目标跟踪方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111554433.8A CN114219824A (zh) | 2021-12-17 | 2021-12-17 | 基于深度网络的可见光-红外目标跟踪方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114219824A true CN114219824A (zh) | 2022-03-22 |
Family
ID=80703826
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111554433.8A Pending CN114219824A (zh) | 2021-12-17 | 2021-12-17 | 基于深度网络的可见光-红外目标跟踪方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114219824A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115100235A (zh) * | 2022-08-18 | 2022-09-23 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种目标跟踪方法、***及存储介质 |
CN115393684A (zh) * | 2022-10-27 | 2022-11-25 | 松立控股集团股份有限公司 | 一种基于自动驾驶场景多模态融合的抗干扰目标检测方法 |
CN115641353A (zh) * | 2022-12-22 | 2023-01-24 | 四川轻化工大学 | 一种可见光与红外图像融合跟踪方法和装置、存储介质 |
CN116229317A (zh) * | 2023-02-24 | 2023-06-06 | 长春理工大学 | 一种自适应模板更新的孪生红外目标跟踪方法 |
-
2021
- 2021-12-17 CN CN202111554433.8A patent/CN114219824A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115100235A (zh) * | 2022-08-18 | 2022-09-23 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种目标跟踪方法、***及存储介质 |
CN115100235B (zh) * | 2022-08-18 | 2022-12-20 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种目标跟踪方法、***及存储介质 |
CN115393684A (zh) * | 2022-10-27 | 2022-11-25 | 松立控股集团股份有限公司 | 一种基于自动驾驶场景多模态融合的抗干扰目标检测方法 |
CN115641353A (zh) * | 2022-12-22 | 2023-01-24 | 四川轻化工大学 | 一种可见光与红外图像融合跟踪方法和装置、存储介质 |
CN116229317A (zh) * | 2023-02-24 | 2023-06-06 | 长春理工大学 | 一种自适应模板更新的孪生红外目标跟踪方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111489358B (zh) | 一种基于深度学习的三维点云语义分割方法 | |
CN110188239B (zh) | 一种基于跨模态注意力机制的双流视频分类方法和装置 | |
US11328172B2 (en) | Method for fine-grained sketch-based scene image retrieval | |
CN110210539B (zh) | 多级深度特征融合的rgb-t图像显著性目标检测方法 | |
CN114219824A (zh) | 基于深度网络的可见光-红外目标跟踪方法及*** | |
CN108960141B (zh) | 基于增强型深度卷积神经网络的行人再识别方法 | |
Lin et al. | Sequential dual attention network for rain streak removal in a single image | |
CN111325165B (zh) | 考虑空间关系信息的城市遥感影像场景分类方法 | |
Zhang et al. | Fundamental principles on learning new features for effective dense matching | |
CN109740679B (zh) | 一种基于卷积神经网络和朴素贝叶斯的目标识别方法 | |
CN111612008A (zh) | 基于卷积网络的图像分割方法 | |
Chen et al. | Remote sensing image quality evaluation based on deep support value learning networks | |
CN108805151B (zh) | 一种基于深度相似性网络的图像分类方法 | |
CN113628059A (zh) | 一种基于多层图注意力网络的关联用户识别方法及装置 | |
CN109472282B (zh) | 一种基于极少训练样本的深度图像哈希方法 | |
CN110598746A (zh) | 一种基于ode求解器自适应的场景分类方法 | |
Fang et al. | GroupTransNet: Group transformer network for RGB-D salient object detection | |
Ge et al. | WGI-Net: A weighted group integration network for RGB-D salient object detection | |
Zhang et al. | R2Net: Residual refinement network for salient object detection | |
Kate et al. | A 3 Tier CNN model with deep discriminative feature extraction for discovering malignant growth in multi-scale histopathology images | |
Liu et al. | Student behavior recognition from heterogeneous view perception in class based on 3-D multiscale residual dense network for the analysis of case teaching | |
CN113962878B (zh) | 一种低能见度图像去雾模型方法 | |
Yao et al. | Double cross-modality progressively guided network for RGB-D salient object detection | |
Chen et al. | SSL-Net: Sparse semantic learning for identifying reliable correspondences | |
CN113256546A (zh) | 一种基于彩色图指导的深度图补全方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |