CN114219824A - 基于深度网络的可见光-红外目标跟踪方法及*** - Google Patents

基于深度网络的可见光-红外目标跟踪方法及*** Download PDF

Info

Publication number
CN114219824A
CN114219824A CN202111554433.8A CN202111554433A CN114219824A CN 114219824 A CN114219824 A CN 114219824A CN 202111554433 A CN202111554433 A CN 202111554433A CN 114219824 A CN114219824 A CN 114219824A
Authority
CN
China
Prior art keywords
visible light
infrared
classification
regression
response
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111554433.8A
Other languages
English (en)
Inventor
肖亮
郭朝阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202111554433.8A priority Critical patent/CN114219824A/zh
Publication of CN114219824A publication Critical patent/CN114219824A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10048Infrared image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度网络的可见光‑红外目标跟踪方法及***,包括:构建对称的双流孪生网络,包括可见光子网络和红外子网络;将可见光样本‑候选图像和红外样本‑候选图像分别输入到可见光子网络和红外子网络,提取模板和候选特征;通过通道注意力模块和通道‑空间联合注意力模块增强模板和候选特征;将原始模板和候选特征及增强的模板和候选特征均通过分类分支和回归分支进行分类、分支,得到对应的分类响应图和回归响应图;对分类响应图和回归响应图进行融合;通过自适应峰值选择模块处理分类响应图和回归响应图,获取目标定位。本发明在保证跟踪鲁棒性的同时仍能高速运行,应用于可见光‑红外目标跟踪任务具有优异的性能。

Description

基于深度网络的可见光-红外目标跟踪方法及***
技术领域
本发明属于可见光-红外目标跟踪技术领域,具体涉及一种基于深度网络的可见光-红外目标跟踪方法及***。
背景技术
近年来得益于计算机硬件快速发展的夯实基础,深度学习的热度持续增加,在工业界和学术界都受到了广泛关注。深度学习模模型往往有着较深的网络结构和较多的参数,可以提取到更深层次、更具辨识力的特征,同时也要求了更大的数据量。计算机视觉依托于深度学习的广泛应用,在更多细分领域也取得了振奋人心的进步。
目标跟踪是计算机视觉的一个重要分支和基本问题,也是视觉领域近年来的热点和难点之一。但现阶段的目标跟踪仍面临着许多挑战性问题,尤其是在各种复杂的环境条件下(如低光照、雨天、烟雾等),可见光图像成像质量会受到显著影响,使跟踪目标物体很艰难。研究发现,热红外(Thermal Infrared)传感器为这些情况提供了更稳定的特征。两种模态的特征,可以在各种挑战场景中互补:在可见光受到低照度、高照度或背景遮挡的干扰时,热信息可以有效地克服它们;当热光谱受到热交叉、玻璃等影响时,可见光信息可以有效地处理它们。
在过去十年中,研究者已经提出许多用于可见光-红外目标跟踪的方法。从基于稀疏表示和相关滤波的传统可见光-红外目标跟踪方法到基于深度学习的可见光-红外目标跟踪,可见光-红外目标跟踪已经成为了跟踪领域一个有针对性的研究内容。RGB-T目标跟踪的传统方法多为在线目标跟踪,旨在利用简单有效的人工设计视觉特征,结合浅层外观模型,利用匹配或分类算法进行快速有效的目标跟踪。如基于稀疏表示的方法,将可见光和红外信息结合起来,稀疏地表示目标模板空间中的每个样本。为抑制噪声和减少误差,研究人员提出了利用低秩约束的相关滤波可见光-红外目标跟踪方法[Zhai S,Shao P,LiangX,et al.Fast RGB-T tracking via cross-modal correlation filters[J].Neurocomputing,2019,334:172-181.]。利用交叉模态相关滤波器以获得可见光和热红外两个模态之间的相互依赖性,实现多种模态的协同融合,使所学习的滤波器可以包含来自不同数据源的有用信息,从而获得鲁棒的跟踪结果。近年来,随着深度网络的不断发展和大型可见光-红外目标跟踪数据集的公开,基于深度学习的可见光-红外目标跟踪方法逐渐成为主流,如使用双卷积神经网络分别提取可见光和红外特征进行级联融合;但这种方式会引入冗余噪声,为提升性能研究人员提出了基于密集特征聚合与剪枝网络的可见光-红外目标跟踪的方法[Zhu Y,Li C,Luo B,et al.Dense feature aggregation and pruningfor rgbt tracking[C]//Proceedings of the 27th ACM International Conference onMultimedia.2019:465-472.],在提供更具丰富的特征表示的同时消除冗余噪声;此外,基于多适配器和挑战感知[Long Li C,Lu A,Hua Zheng A,et al.Multi-adapter rgbttracking[C]//Proceedings of the IEEE International Conference on ComputerVision Workshops.2019:0-0.]、基于全局注意力和局部注意力的深度方法也被提出,进一步提升了跟踪的精度。但由于这些深度模型都使用了在线训练的方式以在跟踪过程中提升模型性能,它们的速度往往成为软肋,无法在满足实时性的情况下运行。
发明内容
本发明公开了一种基于深度网络的可见光-红外目标跟踪方法及***,可以抵抗跟踪速度的下降,提高了跟踪的精度和速度。
实现本发明的技术解决方案为:一种基于深度网络的可见光-红外目标跟踪方法,包括步骤:
第一步,输入的视频包括可见光视频序列和红外视频序列,即网络的输入包含红外样本图像序列和红外候选图像序列、可见光样本图像序列和可见光候选图像序列;
第二步,建立对称的双流孪生网络结构,可见光分支和红外分支的骨干网络分别共享权重;
第三步,采用通道注意力模块和通道-空间联合注意力模块且可训练,通道注意力模块和通道-空间联合注意力模块作为特征增强单元嵌入网络中;
第四步,原始特征和增强特征通过分类分支和回归分支进行互相关操作,得到分类响应图和回归响应图并进行融合;所述分类分支使用交叉熵作为损失函数,回归分支使用光滑化L1范数作为损失函数联合训练网络;
第五步,在跟踪推理阶段,通过自适应峰值选择模块处理分类响应图和回归响应图,完成目标定位。
一种基于深度网络的可见光-红外目标跟踪***,包括数据采集处理模块和目标跟踪网络,其中:
所述采集处理模块用于获取红外样本图像和红外候选图像、可见光样本图像和可见光候选图像;
所述目标跟踪网络为对称的双流孪生网络结构,包括用于特征提取的可见光子网络和红外子网络、嵌入可见光子网络及红外子网络的通道注意力模块和通道-空间联合注意力模块、分类分支和回归分支、图像融合模块和自适应峰值选择模块;所述通道注意力模块和通道-空间联合注意力模块用于提取特征的增强,所述分类分支和回归分支分别用于原始模板和候选特征及增强的模板和候选特征的分类、分支,输出对应的分类响应图和回归响应图;所述图像融合模块用于对分类响应图和回归响应图进行融合,所述自适应峰值选择模块用于处理分类响应图和回归响应图,获取目标定位。
本发明与现有技术相比,其显著特点在于:(1)建立对称的深度双流孪生网络结构,有效提取可见光模态和红外模态的语义特征;(2)使用注意力机制自适应增强可见光模态和红外模态特征,增强其判别力;(3)通过响应级融合,并使用最大峰值选择方式以在目标定位中获得更高精度;(4)采用端到端的网络结构,结构简单,简洁有序,摒弃了复杂的预处理、后处理流程,计算复杂度低;具有泛化性强、跟踪精度高及跟踪速度快的优点,在基准数据集上的精度达到88.2%,同时速度高达140帧/秒。
附图说明
图1是本发明方法的流程示意图。
图2是本发明方法的网络结构图。
图3是本发明通道注意力模块结构图。
图4是本发明空间注意力模块结构图。
具体实施方式
结合图1,下面详细说明本发明的实施过程,一种双模态响应融合深度网络的可见光-红外目标跟踪方法,步骤如下:
第一步,输入的样本-候选图片对包含可见光模态和红外模态,即网络的输入包含红外样本图像和红外候选图像,记为
Figure BDA0003418131680000041
可见光样本图像和可见光候选图像,记为
Figure BDA0003418131680000042
第二步,建立对称的双流孪生网络结构,可见光分支和红外分支的骨干网络分别共享权重。骨干网络由多个二维卷积单元串联而成,每个二维卷积单元的输出作为下一个二维卷积单元的输入。Xrgb∈Rh×w×c为可见光图像数据,h、w、c分别为可见光图像数据的三个维度,即高、宽、通道数。Xtir∈RH×W×C,。H、W、C分别为红外图像数据的三个维度,即高、宽、通道数。第i(1≤i≤n)个二维卷积单元的输入为Xi,输出为
Figure BDA0003418131680000043
则有:
Figure BDA0003418131680000044
Figure BDA0003418131680000045
Figure BDA0003418131680000046
Figure BDA0003418131680000047
其中,n表示骨干网络中的二维卷积单元数量,Relu(·)表示激活函数,BN(·)表示批归一化函数,运算符
Figure BDA0003418131680000048
表示卷积运算,
Figure BDA0003418131680000049
Figure BDA00034181316800000410
分别表示可见光和红外骨干网络第i个二维卷积单元的卷积核(k×k为卷积核大小),
Figure BDA00034181316800000411
Figure BDA00034181316800000412
分别为可见光和红外卷积核对应的偏置项。
Figure BDA00034181316800000413
Figure BDA00034181316800000414
Figure BDA00034181316800000415
Figure BDA00034181316800000416
Figure BDA00034181316800000417
Figure BDA00034181316800000418
Figure BDA00034181316800000419
Figure BDA00034181316800000420
分别表示第i个可见光和红外二维卷积单元。Featrgb和Feattir分别为可见光数据和红外数据通过骨干网络后的输出,Frgb(·)和Ftir(·)分别表示可见光和红外骨干网络。
第三步,采用通道注意力模块和通道-空间联合注意力模块且可训练,通道注意力模块和通道-空间联合注意力模块作为特征增强单元嵌入网络中。结合图3,通道注意力模块的输入Featrgb∈Rh×w×c,Feattir∈Rh×w×c
Featrgb∈Rh×w×c,Feattir∈Rh×w×c
Featunion=Cat(Featrgb,Feattir)
Weight=G(Resize(FC(GP(Featunion))))
Figure BDA0003418131680000051
Figure BDA0003418131680000052
其中,Featrgb、Featrgb分别表示经过骨干网络提取的可见光特征和红外特征,Cat(·,·)表示按通道维度级联操作,Featunion∈Rh×w×2c表示级联后的特征;GP(·)表示全局池化操作,FC(·)表示全连接层,Resize(·)表示调整尺寸操作,G(·)表示激活函数,Weight∈Rh×w×2c表示计算出的权重;*表示矩阵的点乘,
Figure BDA0003418131680000053
表示加权(增强)后的特征;Apart(·)表示按通道维度特征拆分,
Figure BDA0003418131680000054
分别表示加权(增强)后的可见光特征和红外特征。
结合图4,空间注意力模块的输入Featrgb∈Rh×w×c,Feattir∈Rh×w×c
Featrgb∈Rh×w×c,Feattir∈Rh×w×c
Featunion=Cat(Featrgb,Feattir)
Figure BDA0003418131680000055
Figure BDA0003418131680000056
Figure BDA0003418131680000057
其中,Featrgb、Featrgb分别表示可见光特征和红外特征,Cat(·,·)表示按通道维度级联操作,Featunion∈Rh×w×2c表示级联后的特征;Avg(·)表示平均池化操作,Max(·)表示最大池化操作,
Figure BDA0003418131680000058
为二维卷积,Sspatial∈Rk×k×c表示空间注意力模块二维卷积核,G(·)表示激活函数,Weight∈Rh×w×2c为计算出的权重;×是广播乘,
Figure BDA0003418131680000059
表示加权(增强)后的特征;Apart(·)表示按通道维度特征拆分,
Figure BDA00034181316800000510
分别是加权(增强)后的可见光特征和红外特征。
通道-空间注意力模块的构成为串联的通道注意力模块和空间注意力模块。将由骨干网络提取的可见光样本特征和红外样本特征送入通道注意力模块进行增强,将由骨干网络提取的可见光候选特征和红外候选特征通道-空间注意力模块进行增强。
第四步,原始特征和增强特征通过分类分支和回归分支进行互相关操作,得到分类响应图和回归响应图并进行融合。网络共包含4个分类分支和2个回归分支,分别为:原始可见光分类分支、增强可见光分类分支、原始红外分类分支、增强红外分类分支、增强可见光回归分支、增强红外回归分支。分类分支的输入为
Figure BDA0003418131680000061
分别表示同属性的样本特征和候选特征(如红外增强样本特征和红外增强候选特征):
Figure BDA0003418131680000062
Figure BDA0003418131680000063
其中,
Figure BDA0003418131680000064
是分类样本卷积核,
Figure BDA0003418131680000065
是分类候选卷积核,
Figure BDA0003418131680000066
表示二维卷积,
Figure BDA0003418131680000067
表示互相关操作,ClsMap∈Rn×n×2是分类响应图。
回归分支的输入为
Figure BDA0003418131680000068
分别表示同属性的样本特征和候选特征(如可见光增强样本特征和可见光增强候选特征):
Figure BDA0003418131680000069
Figure BDA00034181316800000610
其中,
Figure BDA00034181316800000611
是回归样本卷积核,
Figure BDA00034181316800000612
是回归候选卷积核,
Figure BDA00034181316800000613
表示二维卷积,
Figure BDA00034181316800000614
表示互相关操作,RegMap∈Rn×n×4是回归响应图。原始特征和增强特征经过4个分类分支和2个回归分支,共计生成6张不同的响应图:
Figure BDA00034181316800000615
ClSMaprgb∈Rn×n×l×2,ClSMaptir∈Rn×n×l×2
Figure BDA00034181316800000616
分别表示:增强可见光分类响应图、增强红外分类响应图、原始可见光分类响应图、原始红外分类响应图、增强可见光回归响应图、增强红外回归响应图。
Figure BDA0003418131680000071
Figure BDA0003418131680000072
Figure BDA0003418131680000073
其中,+表示矩阵元素点对点相加。ClsMap1∈Rn×n×l×2,ClsMap2∈Rn×n×l×2,RegMap∈Rn×n×l×4为最终得到的三张响应图,n表示响应图边长,l表示锚框不同尺度的数量。
第五步,在跟踪推理阶段,通过自适应峰值选择模块对分类响应图和回归响应图进行处理,完成目标定位。在跟踪推理阶段,通过比较ClsMap1和ClsMap2两张响应图的最大响应值,取最大响应值锚框所对应的坐标为索引,在RegMap中定位到预测框相对于上一帧的边界偏移。令ClsMap1最大响应值点索引为
Figure BDA0003418131680000074
令ClsMap2最大响应值点索引为
Figure BDA0003418131680000075
Figure BDA0003418131680000076
Figure BDA0003418131680000077
Figure BDA0003418131680000078
Figure BDA0003418131680000079
Imax表示最大响应值锚框对应坐标。确定Imax后,可以再回归响应图RegMap中定位到边界偏移:
(Δcx,Δcy,Δw,Δh)=RegMap2[Imax]
Δcx,Δcy,Δw,Δh分别表示预测框中心横坐标偏移、中心纵坐标偏移、宽度偏移、高度偏移。根据(Δcx,Δcy,Δw,Δh)可以计算出当前帧预测框:
(cx,cy,w,h)=(cx0+Δcx,cy0+Δcy,w0+Δw,h0+Δh)
其中,cx,cy,w,h表示当前帧预测框的中心横坐标、中心纵坐标、宽度、高度;cx0,cy0,w0,h0表示上一帧预测框的中心横坐标、中心纵坐标、宽度、高度。
第六步,分类分支使用交叉熵作为损失函数,回归分支使用坐标归一化的光滑化L1范数作为损失函数联合训练网络。分类分支完成区分前景与背景的二元分类任务,训练阶段分类分支输出的响应图为ClsMap∈Rn×n×l×2,经尺寸变换为ClsMap∈RM×2,M=n×n×l,其对应的标签Lcls∈RM;从Lcls中抽取p个正样本生成正样本集
Figure BDA0003418131680000081
并记录其索引
Figure BDA0003418131680000082
从Lcls中抽取q个负样本生成负样本集
Figure BDA0003418131680000083
并记录其索引
Figure BDA0003418131680000084
从ClsMap中抽取索引
Figure BDA0003418131680000085
对应样本生成正预测集
Figure BDA0003418131680000086
抽取索引
Figure BDA0003418131680000087
对应样本生成负预测集
Figure BDA0003418131680000088
则有:
Figure BDA0003418131680000089
回归分支完成边界框回归的任务,训练阶段回归分支输出的响应图为RegMap∈Rn ×n×l×4,经尺寸变换为RegMap∈RM×4,M=n×n×l,其对应的标签Lreg∈RM×4;从Lreg中抽取p个正样本生成正样本集
Figure BDA00034181316800000810
并记录其索引
Figure BDA00034181316800000811
从RegMap中抽取索引
Figure BDA00034181316800000812
对应样本生成正预测集
Figure BDA00034181316800000813
则有:
Figure BDA00034181316800000814
其中,SmoothL1(·)表示光滑化L1范数。
最终的Loss定义为:
Figure BDA00034181316800000815
其中,γ∈[0,10)是用于平衡两种Loss的超参数。
对本发明方法进行仿真,仿真实验采用三组真实可见光-红外数据集:GTOT数据集、RGBT234数据集、LasHeR数据集。其中,GTOT数据集共包含50个序列,共计7800帧经手工标注的可见光-红外图片对,每个序列平均包含157帧;RGBT234数据集共包含234个序列,共计116700帧经手工标注的可见光-红外图片对,每个序列平均包含498帧;LasHeR数据集共包含1224个序列,共计734800帧经手工标注的可见光-红外图片对,每个序列平均包含600帧。因GTOT和RGBT234未划分训练集和测试集,实验选择两种训练-测试方式:1、以RGBT234数据集和LasHeR数据集作为训练集对网络进行训练,并以GTOT数据集作为测试集进行测试;2、以LasHeR数据集作为训练集对网络进行训练,并以RGBT234数据集作为测试集进行测试。训练每次前向传播过程中,从训练集中随机抽取一个序列,并生成该序列对应的可见光-红外模板图像对和可见光-红外候选图像对并送入网络中。网络的优化器算法选择为随机梯度下降(SGD)、动量设置为0.9、权值衰减设置为0.0005、初始学习率设置为0.01、终止学习率设置为0.00001、批大小设置为28,数据集无需任何的预处理。两组实验以PR(PrecisionRate)、SR(SuccessRate)和FPS(FramesPerSecond)作为评价指标。仿真实验软件环境:Ubuntu16.04操作***、Python3.7、Pytorch1.7.1;仿真实验硬件环境:i7-9700k处理器、16gb内存、英伟达2080ti显卡;完成实验中使用的网络架构如图2所示。
表1与表2分别为本发明方法在GTOT数据集及RGBT234数据集上仿真实验结果的性能指标。从实验结果来看,该方法对真实数据集非常有效,在GTOT数据集上的跟踪精度达到了88.2%,在RGBT234数据集上的跟踪精度达到了75.0%,且速度达到了了140帧/秒。本发明方法在PR、SR、FPS三个指标上均远超过包括ECO、SGT、DuSiamRT、SiamFT在内的先进方法;DAPNet、MANet等方法由于采取了在线训练的策略,速度受到了极大的限制,在GTOT数据集和RGBT234数据集上的速度仅有1帧/秒左右;本发明方法采取了离线训练、在线跟踪的策略,在PR、SR指标与DAPNet、MANet处于同一水平的同时,速度超越了它们的一百倍以上。上述结果表明,本发明方法能够有效的利用可见光与红外两种模态具有判别性的语义特征,在保证跟踪精度和鲁棒性的同时仍能高速运行。
表1不同方法在GTOT数据集上的跟踪结果
ECO SGT DAPNet MANet SiamFT DuSiamRT Ours
PR(%) 77.0 85.1 88.2 88.9 75.8 76.6 88.2
SR(%) 63.1 62.8 70.7 71.9 62.3 62.8 70.3
FPS 11.2 5.0 1.5 1.2 32.0 117.0 140.0
表2不同方法在RGBT234数据集上的跟踪结果
Figure BDA0003418131680000091
Figure BDA0003418131680000101
本发明使用端到端的离线训练、在线跟踪方式,以抵抗跟踪速度的下降。同时建立了双流孪生网络结构以提取两个模态的深层语义信息;并使用通道注意力和空间注意力模块生成自适应权重以增强特征的判别力并减小噪声,能更好地完成两个模态特征的融合;本方法在GTOT数据集上的跟踪精度达到了88.2%,在RGBT234数据集上的跟踪精度达到了75.0%,且能以140帧/秒的速度运行,达到了实时性标准的6倍,体现了本发明方法相对于其他方法的优越性。

Claims (10)

1.一种基于深度网络的可见光-红外目标跟踪方法,其特征在于,包括步骤:
构建对称的双流孪生网络,包括可见光子网络和红外子网络;
将可见光样本-候选图像和红外样本-候选图像分别输入到可见光子网络和红外子网络,提取模板和候选特征;
通过通道注意力模块和通道-空间联合注意力模块增强模板和候选特征;
将原始模板和候选特征及增强的模板和候选特征均通过分类分支和回归分支进行分类、分支,得到对应的分类响应图和回归响应图;
对分类响应图和回归响应图进行融合;
通过自适应峰值选择模块处理分类响应图和回归响应图,获取目标定位。
2.根据权利要求1所述的一种基于深度网络的可见光-红外目标跟踪方法,其特征在于,所述可见光子网络和红外子网络的骨干网络由多个二维卷积单元串联而成,每个二维卷积单元的输出作为下一个二维卷积单元的输入,另Xrgb∈Rh×w×c为可见光图像数据,h、w、c分别为可见光图像数据的三个维度,即高、宽、通道数;另Xtir∈RH×W×C,H、W、C分别为红外图像数据的三个维度,即高、宽、通道数;另第i个二维卷积单元的输入为Xi,输出为
Figure FDA0003418131670000011
则有:
Figure FDA0003418131670000012
Figure FDA0003418131670000013
Figure FDA0003418131670000014
Figure FDA0003418131670000015
其中,n表示骨干网络中的二维卷积单元数量,Relu(·)表示激活函数,BN(·)表示批归一化函数,运算符
Figure FDA0003418131670000016
表示卷积运算,
Figure FDA0003418131670000017
Figure FDA0003418131670000018
分别表示可见光和红外骨干网络第i个二维卷积单元的卷积核,k×k为卷积核大小,
Figure FDA0003418131670000019
Figure FDA00034181316700000110
分别为可见光和红外卷积核对应的偏置项;输出为:
Figure FDA00034181316700000111
Figure FDA00034181316700000112
Figure FDA00034181316700000113
Figure FDA00034181316700000114
Figure FDA0003418131670000021
Figure FDA0003418131670000022
Figure FDA0003418131670000023
Figure FDA0003418131670000024
分别表示第i个可见光和红外二维卷积单元,Featrgb和Feattir分别为可见光数据和红外数据通过骨干网络后的输出,Frgb(·)和Ftir(·)分别表示可见光子网络和红外子网络的骨干网络。
3.根据权利要求2所述的一种基于深度网络的可见光-红外目标跟踪方法,其特征在于,所述通道注意力模块和通道-空间联合注意力模块分别嵌入可见光子网络和红外子网络中。
4.根据权利要求3所述的一种基于深度网络的可见光-红外目标跟踪方法,其特征在于,通过通道注意力模块和通道-空间联合注意力模块增强模板和候选特征具体为:
通道注意力模块的输入为Featrgb∈Rh×w×c,Feattir∈Rh×w×c,输出的增强特征为:
Featrgb∈Rh×w×c,Feattir∈Rh×w×c
Featunion=Cat(Featrgb,Feattir)
Weight=G(Resize(FC(GP(Featunion))))
Figure FDA0003418131670000025
Figure FDA0003418131670000026
其中,Cat(·,·)表示按通道维度级联操作,Featunion∈Rh×w×2c表示级联后的特征;GP(·)表示全局池化操作,FC(·)表示全连接层,Resize(·)表示调整尺寸操作,G(·)表示激活函数,Weight∈Rh×w×2c表示计算出的权重;*表示矩阵的点乘,
Figure FDA0003418131670000027
表示增强后的特征;Apart(·)表示按通道维度特征拆分,
Figure FDA0003418131670000028
分别表示增强后的可见光特征和红外特征;
空间注意力模块的输入Featrgb∈Rh×w×c,Feattir∈Rh×w×c,输出的增强特征为:
Featrgb∈Rh×w×c,Feattir∈Rh×w×c
Featunion=Cat(Featrgb,Feattir)
Figure FDA0003418131670000029
Figure FDA0003418131670000031
Figure FDA0003418131670000032
其中,Cat(·,·)表示按通道维度级联操作,Featunion∈Rh×w×2c表示级联后的特征;Avg(·)表示平均池化操作,Max(·)表示最大池化操作,
Figure FDA0003418131670000033
为二维卷积,Sspatial∈Rk×k×c表示空间注意力模块二维卷积核,G(·)表示激活函数,Weight∈Rh×w×2c为计算出的权重;×是广播乘,
Figure FDA0003418131670000034
表示增强后的特征;Apart(·)表示按通道维度特征拆分,
Figure FDA0003418131670000035
分别是增强后的可见光特征和红外特征;
所述通道-空间注意力模块由串联的通道注意力模块和空间注意力模块构成,将由可见光子网络和红外子网络的骨干网络提取的可见光候选特征和红外候选特征进行增强。
5.根据权利要求4所述的一种基于深度网络的可见光-红外目标跟踪方法,其特征在于,所述分类分支包括4个分类分支,回归分支包括2个回归分支,为原始可见光分类分支、增强可见光分类分支、原始红外分类分支、增强红外分类分支、增强可见光回归分支、增强红外回归分支。
6.根据权利要求5所述的一种基于深度网络的可见光-红外目标跟踪方法,其特征在于,所述分类分支的输入为
Figure FDA0003418131670000036
分别表示同属性的样本特征和候选特征,其输出分类响应图为:
Figure FDA0003418131670000037
Figure FDA0003418131670000038
其中,
Figure FDA0003418131670000039
是分类样本卷积核,
Figure FDA00034181316700000310
是分类候选卷积核,
Figure FDA00034181316700000311
表示二维卷积,
Figure FDA00034181316700000312
表示互相关操作,ClsMap∈Rn×n×2是分类响应图;
所述回归分支的输入为
Figure FDA00034181316700000313
分别表示同属性的样本特征和候选特征,输出回归响应图为:
Figure FDA00034181316700000314
Figure FDA00034181316700000315
其中,
Figure FDA0003418131670000041
是回归样本卷积核,
Figure FDA0003418131670000042
是回归候选卷积核,
Figure FDA0003418131670000043
表示二维卷积,
Figure FDA0003418131670000044
表示互相关操作,RegMap∈Rn×n×4是回归响应图;
原始特征和增强特征经过4个分类分支和2个回归分支,生成增强可见光分类响应图
Figure FDA0003418131670000045
增强红外分类响应图
Figure FDA0003418131670000046
原始可见光分类响应图ClsMaprgb、原始红外分类响应图ClsMaptir、增强可见光回归响应图
Figure FDA0003418131670000047
增强红外回归响应图
Figure FDA0003418131670000048
分别为:
Figure FDA0003418131670000049
ClsMaprgb∈Rn×n×l×2,ClsMaptir∈Rn×n×l×2
Figure FDA00034181316700000410
7.根据权利要求6所述的一种基于深度网络的可见光-红外目标跟踪方法,其特征在于,对分类响应图和回归响应图进行融合具体为:
Figure FDA00034181316700000411
Figure FDA00034181316700000412
Figure FDA00034181316700000413
其中,+表示矩阵元素点对点相加,ClsMap1∈Rn×n×l×2,ClsMap2∈Rn×n×l×2,RegMap∈Rn ×n×l×4为融合得到的三张响应图,n表示响应图边长,l表示锚框不同尺度的数量。
8.根据权利要求6所述的一种基于深度网络的可见光-红外目标跟踪方法,其特征在于,所述分类分支使用交叉熵作为损失函数,回归分支使用坐标归一化的光滑化L1范数作为损失函数联合训练网络;
所述分类分支完成区分前景与背景的二元分类任务,训练阶段分类分支输出的响应图为ClsMap∈Rn×n×l×2,经尺寸变换为ClsMap∈RM×2,M=n×n×l,其对应的标签Lcls∈RM;从Lcls中抽取p个正样本生成正样本集
Figure FDA00034181316700000414
并记录其索引
Figure FDA00034181316700000415
从Lcls中抽取q个负样本生成负样本集
Figure FDA00034181316700000416
并记录其索引
Figure FDA00034181316700000417
从ClsMap中抽取索引
Figure FDA00034181316700000418
对应样本生成正预测集
Figure FDA00034181316700000419
抽取索引
Figure FDA00034181316700000420
对应样本生成负预测集
Figure FDA00034181316700000421
则损失函数为:
Figure FDA0003418131670000051
所述回归分支完成边界框回归的任务,训练阶段回归分支输出的响应图为RegMap∈Rn ×n×l×4,经尺寸变换为RegMap∈RM×4,M=n×n×l,其对应的标签Lreg∈RM×4;从Lreg中抽取p个正样本生成正样本集
Figure FDA0003418131670000052
并记录其索引
Figure FDA0003418131670000053
从RegMap中抽取索引
Figure FDA0003418131670000054
对应样本生成正预测集
Figure FDA0003418131670000055
则损失函数为为:
Figure FDA0003418131670000056
其中,SmoothL1(·)表示光滑化L1范数;
最终的Loss定义为:
Figure FDA0003418131670000057
其中,γ∈[0,10)是用于平衡两种Loss的超参数。
9.根据权利要求6所述的一种基于深度网络的可见光-红外目标跟踪方法,其特征在于,通过自适应峰值选择模块处理分类响应图和回归响应图,获取目标定位具体为:
通过比较ClsMap1和ClsMap2两张响应图的最大响应值,取最大响应值锚框所对应的坐标为索引,在RegMap响应图中定位到预测框相对于上一帧的边界偏移,令ClsMap1最大响应值点索引为
Figure FDA0003418131670000058
令ClsMap2最大响应值点索引为
Figure FDA0003418131670000059
Figure FDA00034181316700000510
Figure FDA00034181316700000511
Figure FDA00034181316700000512
Figure FDA00034181316700000513
Imax表示最大响应值锚框对应坐标,定位回归响应图RegMap中的边界偏移为:
(Δcx,Δcy,Δw,Δh)=RegMap2[Imax]
Δcx,Δcy,Δw,Δh分别表示预测框中心横坐标偏移、中心纵坐标偏移、宽度偏移、高度偏移,根据(Δcx,Δcy,Δw,Δh)计算出当前帧预测框:
(cx,cy,w,h)=(cx0+Δcx,cy0+Δcy,w0+Δw,h0+Δh)
其中,cx,cy,w,h表示当前帧预测框的中心横坐标、中心纵坐标、宽度、高度;cx0、cy0、w0、h0表示上一帧预测框的中心横坐标、中心纵坐标、宽度、高度。
10.一种基于深度网络的可见光-红外目标跟踪***,其特征在于,包括数据采集处理模块和目标跟踪网络,其中:
所述采集处理模块用于获取红外样本图像和红外候选图像、可见光样本图像和可见光候选图像;
所述目标跟踪网络为对称的双流孪生网络结构,包括用于特征提取的可见光子网络和红外子网络、嵌入可见光子网络及红外子网络的通道注意力模块和通道-空间联合注意力模块、分类分支和回归分支、图像融合模块和自适应峰值选择模块;所述通道注意力模块和通道-空间联合注意力模块用于提取特征的增强,所述分类分支和回归分支分别用于原始模板和候选特征及增强的模板和候选特征的分类、分支,输出对应的分类响应图和回归响应图;所述图像融合模块用于对分类响应图和回归响应图进行融合,所述自适应峰值选择模块用于处理分类响应图和回归响应图,获取目标定位。
CN202111554433.8A 2021-12-17 2021-12-17 基于深度网络的可见光-红外目标跟踪方法及*** Pending CN114219824A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111554433.8A CN114219824A (zh) 2021-12-17 2021-12-17 基于深度网络的可见光-红外目标跟踪方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111554433.8A CN114219824A (zh) 2021-12-17 2021-12-17 基于深度网络的可见光-红外目标跟踪方法及***

Publications (1)

Publication Number Publication Date
CN114219824A true CN114219824A (zh) 2022-03-22

Family

ID=80703826

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111554433.8A Pending CN114219824A (zh) 2021-12-17 2021-12-17 基于深度网络的可见光-红外目标跟踪方法及***

Country Status (1)

Country Link
CN (1) CN114219824A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115100235A (zh) * 2022-08-18 2022-09-23 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种目标跟踪方法、***及存储介质
CN115393684A (zh) * 2022-10-27 2022-11-25 松立控股集团股份有限公司 一种基于自动驾驶场景多模态融合的抗干扰目标检测方法
CN115641353A (zh) * 2022-12-22 2023-01-24 四川轻化工大学 一种可见光与红外图像融合跟踪方法和装置、存储介质
CN116229317A (zh) * 2023-02-24 2023-06-06 长春理工大学 一种自适应模板更新的孪生红外目标跟踪方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115100235A (zh) * 2022-08-18 2022-09-23 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种目标跟踪方法、***及存储介质
CN115100235B (zh) * 2022-08-18 2022-12-20 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种目标跟踪方法、***及存储介质
CN115393684A (zh) * 2022-10-27 2022-11-25 松立控股集团股份有限公司 一种基于自动驾驶场景多模态融合的抗干扰目标检测方法
CN115641353A (zh) * 2022-12-22 2023-01-24 四川轻化工大学 一种可见光与红外图像融合跟踪方法和装置、存储介质
CN116229317A (zh) * 2023-02-24 2023-06-06 长春理工大学 一种自适应模板更新的孪生红外目标跟踪方法

Similar Documents

Publication Publication Date Title
CN111489358B (zh) 一种基于深度学习的三维点云语义分割方法
CN110188239B (zh) 一种基于跨模态注意力机制的双流视频分类方法和装置
US11328172B2 (en) Method for fine-grained sketch-based scene image retrieval
CN110210539B (zh) 多级深度特征融合的rgb-t图像显著性目标检测方法
CN114219824A (zh) 基于深度网络的可见光-红外目标跟踪方法及***
CN108960141B (zh) 基于增强型深度卷积神经网络的行人再识别方法
Lin et al. Sequential dual attention network for rain streak removal in a single image
CN111325165B (zh) 考虑空间关系信息的城市遥感影像场景分类方法
Zhang et al. Fundamental principles on learning new features for effective dense matching
CN109740679B (zh) 一种基于卷积神经网络和朴素贝叶斯的目标识别方法
CN111612008A (zh) 基于卷积网络的图像分割方法
Chen et al. Remote sensing image quality evaluation based on deep support value learning networks
CN108805151B (zh) 一种基于深度相似性网络的图像分类方法
CN113628059A (zh) 一种基于多层图注意力网络的关联用户识别方法及装置
CN109472282B (zh) 一种基于极少训练样本的深度图像哈希方法
CN110598746A (zh) 一种基于ode求解器自适应的场景分类方法
Fang et al. GroupTransNet: Group transformer network for RGB-D salient object detection
Ge et al. WGI-Net: A weighted group integration network for RGB-D salient object detection
Zhang et al. R2Net: Residual refinement network for salient object detection
Kate et al. A 3 Tier CNN model with deep discriminative feature extraction for discovering malignant growth in multi-scale histopathology images
Liu et al. Student behavior recognition from heterogeneous view perception in class based on 3-D multiscale residual dense network for the analysis of case teaching
CN113962878B (zh) 一种低能见度图像去雾模型方法
Yao et al. Double cross-modality progressively guided network for RGB-D salient object detection
Chen et al. SSL-Net: Sparse semantic learning for identifying reliable correspondences
CN113256546A (zh) 一种基于彩色图指导的深度图补全方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination