CN115170605A - 基于多模态交互和多阶段优化的实时rgbt目标跟踪方法 - Google Patents
基于多模态交互和多阶段优化的实时rgbt目标跟踪方法 Download PDFInfo
- Publication number
- CN115170605A CN115170605A CN202210673885.6A CN202210673885A CN115170605A CN 115170605 A CN115170605 A CN 115170605A CN 202210673885 A CN202210673885 A CN 202210673885A CN 115170605 A CN115170605 A CN 115170605A
- Authority
- CN
- China
- Prior art keywords
- target
- tracking
- attention
- modal
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005457 optimization Methods 0.000 title claims abstract description 43
- 230000003993 interaction Effects 0.000 title claims abstract description 31
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 35
- 230000003287 optical effect Effects 0.000 claims abstract description 16
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 230000000295 complement effect Effects 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims description 13
- 230000004927 fusion Effects 0.000 claims description 9
- 150000001875 compounds Chemical class 0.000 claims description 5
- 239000013598 vector Substances 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 230000002776 aggregation Effects 0.000 claims description 2
- 238000004220 aggregation Methods 0.000 claims description 2
- 230000002457 bidirectional effect Effects 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims description 2
- 238000011176 pooling Methods 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 5
- 238000005286 illumination Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002902 bimodal effect Effects 0.000 description 1
- 238000009529 body temperature measurement Methods 0.000 description 1
- 125000004432 carbon atom Chemical group C* 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000001429 visible spectrum Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Aiming, Guidance, Guns With A Light Source, Armor, Camouflage, And Targets (AREA)
Abstract
本发明提出了一种基于多模态交互和多阶段优化的实时RGBT目标跟踪方法,跟踪模型包括特征提取模块、多模态交互模块、目标分类器以及结果优化模块;利用公开的RGBT数据集对跟踪模型进行训练,包括离线训练和在线训练两个阶段。本发明构建多模态交互模块学习鲁棒的特征表达,改善跨模态特征之间的注意力计算方式,实现两种模态的互补增强,通过引入门控函数,有效去除冗余噪声的影响;构建多阶段优化模块结合光流算法和优化模型实现跟踪结目标的精确重定位,有效缓解相机抖动、局部遮挡等因素造成的影响,提升跟踪模型的鲁棒性和实时性。
Description
技术领域
本发明属于计算机视觉目标跟踪技术领域,具体涉及一种基于多模态交互和多阶段优化的实时RGBT目标跟踪方法。
背景技术
可见光传感器广泛用于各个领域,但是由于夜晚光线较弱、雨雾天气可视距离受限,导致可见光摄像头无法正常工作,为了满足全天候运行需求,现有研究工作将结合多模态光电传感器,即可见光和热红外设备,实现热源信息和环境细节信息互补,构建鲁棒特征,提升模型性能。
RGBT跟踪任务是通过整合可见光谱和热光谱的互补特征来设计一个强大的全天候***,可以广泛应用于安防巡检、辅助驾驶、人群测温等领域。RGBT目标跟踪在抑制噪声的同时充分融合双模态互补线索,并根据初始帧的标签预测目标在后续帧中的包围框。许多方法利用模态的互补性,在多个领域提升了算法性能,但是在光照不断变化的环境中可见光模态不稳定;热红外模态在目标与背景温度接近时形成热交叉,分辨力也会下降,如果不进行动态特征选择,反而会增加噪声,削弱判别力的特征比表达,导致跟踪目标丢失。因此,需要进一步探索多模态之间的内在关联,实现特征互补、冗余噪声去除。
现有一类方法致力于研究多层特征的提取,生成一个可靠的特征表达,从而提升跟踪精度,另一类方法研究模态融合权重,实现特征的选择。但是,在光照变化和动态干扰等具有挑战性的场景下,这些现有跟踪方法性能会下降。此外,视觉跟踪中常见的挑战也需要更多的关注。通过观察,摄像机的运动和缩放变化会导致目标丢失,在这种情况下,许多***无法预测精确的结果。因此,在多模态交互设计和跟踪结果细化方面仍有一定的提升空间。
发明内容
本发明要解决的问题是:针对现有跟踪技术中的不足,提出一种基于多模态交互和多阶段优化的实时RGBT目标跟踪方法,提升***模型实时性和鲁棒性。
本发明的技术方案为:基于多模态交互和多阶段优化的实时RGBT目标跟踪方法,基于红外光和可见光两种模态交互,构建一个目标跟踪模型,首先利用已有RGBT目标跟踪数据进行离线训练,在线跟踪时,根据首帧确定的跟踪目标在线微调跟踪目标模型参数,然后对视频序列进行实时目标跟踪;所述目标跟踪模型包括特征提取模块、多模态交互模块、目标分类器以及结果优化模块,实现如下:
步骤1):将经过时空配准的热红外和可见光图像作为目标跟踪模型的输入;
步骤2):构建共享权重的双流特征提取模块,所述双流特征提取模块利用轻量化VGG-M的前三层卷积对输入的热红外及可见光图像提取红外和可见光的深度特征;
步骤3):构建多模态交互融合模块,对提取的红外和可见光的深度特征,计算多头跨模态注意力生成特征残差图,以双向增强的方式提升模态质量:
上式中,表示一对从步骤2)中获取的可见光和红外深度特征,R表示可见光,T表示红外,公式(1)中Q,K和V分别表示查询、键和值,均经过1×1卷积操作进行变维,dk表示尺度因子,首先,建立QR和KT之间的交叉模态关联,然后通过softmax函数生成注意矩阵,最后,交叉模态特征由注意力矩阵和VT加权生成,为了兼顾不同空间的注意力分布,将单一跨模态注意扩展到多头结构,公式如下:
MultiHead(QR,KT,VT)=Concat(H1,…,Hn)WO (2)
得到多头跨模态注意力的特征残差图FT-R=MultiHead(QR,KT,VT),根据双向增强的特性,根据上述公式反之计算得FR-T=MultiHead(QT,KR,VR),FR-T表示多头跨模态注意力的可见光模式转移到红外模式的判别力特征,即得到两个特征互补残差图FR-T和FT-R;
步骤4):使用门控函数去除步骤3)所得结果中的冗余特征信息,再利用级联的方式将增强的多模态特征聚合;
步骤5):利用ROIAlign在步骤4)所生成的融合特征图上进行目标与背景采样,以目标为正例,背景为负例构建训练样本,用于训练目标分类器;
步骤6):构建目标分类器,由三层全连接层组成,使用softmax计算二分类损失,从而更新模型参数,目标分类器输出跟踪预测结果;
步骤7):构建结果优化模块,由光流算法和优化模型组成,光流用于预测目标的大范围移动,计算相邻两帧之间的偏移量,对跟踪结果进行修正,优化模型则对预测结果进行二次回归,从而获得更为精确的定位。
进一步的,本发明包括以下步骤:
步骤S1:构建数据集,从公开的RGBT目标跟踪数据集中划分出相应数据用于模型训练和测试;
步骤S2:构建目标跟踪模型;
步骤S3:离线模型训练,加载预训练模型VGG-M,重复步骤1)-6),使用AdamW算法训练目标跟踪模型的特征提取模块、多模态交互模块及目标分类器,直至损失收敛,获取训练好的模型参数,结果优化模块的偏移预测采用Lucas-Kanade光流算法,优化模型采用RGBT数据进行微调训练;
步骤S4:在线训练和跟踪,具体如下:
步骤S4.1:获取视频序列第一帧的标签作为初始跟踪目标,在线微调特征提取模块、多模态交互模块以及目标分类器参数,以便学习目标信息,然后选取置信度得分最高的区域,获取初步的跟踪结果;
步骤S4.2:根据置信度得分判断是否对跟踪结果进行优化,以这一帧的跟踪结果作为下一帧的输入;
步骤S4.3:重复步骤S4.1-S4.2,逐步计算每一帧目标跟踪结果,从而实现整体RGBT序列的目标跟踪。
本发明的有益效果是:提供高效而精准的RGBT目标跟踪技术。相比现有技术具有如下优势。
(1)本发明提出了多模态特征交互模块,结合了红外模态信息,弥补了可见光模态的缺陷,利用多头跨模态注意力计算多个空间维度下的注意力矩阵,引导模态增强,减小低质量模态的干扰,有效实现多模态信息交互融合,并且去除了冗余特征通道,使得整体特征简洁而鲁棒,从而提升了跟踪性能和泛化能力。
(2)本发明提出了多阶段优化策略,利用光流预测目标的偏移量,利用优化模型对跟踪结果进行二次归回,然后根据置信度得分选择阶段性的选择优化方式,有效节约了计算成本的同时提升了跟踪精度和实时性。
附图说明
图1为本发明的整体流程图。
图2为本发明的跨模态注意力模块示意图。
图3为本发明的门控网络示意图。
图4为本发明在GTOT数据集上的总体跟踪性能曲线,其中,(a)为准确率数据图precision plot,横坐标表示定位错误阈值,纵坐标为最大准确率,(b)为成功率数据图success plot,横坐标为重叠阈值,纵坐标为最大成功率,准确率分数和成功率分数分别如图所示,本发明方法为MFG,MANet、MDNet+RGBT以及L1-PF为现有其他同类跟踪方法。
图5为本发明在RGBT234数据集上的总体跟踪性能曲线,其中,(a)为准确率数据图precision plot,横坐标表示定位错误阈值,纵坐标为最大准确率,(b)为成功率数据图success plot,横坐标为重叠阈值,纵坐标为最大成功率,准确率分数和成功率分数分别如图所示,本发明方法为MFG,MANet、RT、L1-PF以及JSR为现有其他同类跟踪方法。。
图6为本发明测试的1个视频序列的定性结果图。
具体实施方式
下面结合相应附图对本发明的技术方案做进一步的详细说明:
如图1跟踪整体流程图所示,本发明提出了一种基于多模态交互和多阶段优化的实时RGBT目标跟踪方法,包括以下步骤:
步骤S1:构建数据集,从公开的RGBT234和GTOT目标跟踪数据集中划分出相应数据用于模型训练和测试。
步骤S2:构建目标跟踪模型,包括特征提取模块、多模态交互模块、目标分类器以及结果优化模块,具体如下:
步骤S2.1:利用已有RGBT目标跟踪数据,将经过时空配准的可见光和热红外图像作为目标跟踪模型的输入,成对得按视频帧时序输入模型。
步骤S2.2:构建共享权重的双流特征提取模块,利用轻量化VGG-M的前三层卷积,其中增加了空洞卷积提升感受野,第三层卷积输出的特征通道为512,提取红外和可见光的初步深度特征。
步骤S2.3:构建多模态交互融合模块,如图2所示。针对步骤S2.2所提取的特征计算多头跨模态注意力生成特征残差图,以双向增强的方式提升低质量模态,其中多头跨模态注意探索潜在的RGBT模态相关性,感知全局信息,从而引导一个模态从另一个模态获取具有判别力的特征。单一跨模态注意的从红外到可见光模式的判别特征转换可以表示为公式如下:
上式中,表示一对从步骤S2.2中获取的RGBT深度特征,即可见光和红外深度特征;公式(1)中Q,K和V分别表示查询、键和值,上标R表示可见光,T表示红外,均经过1×1卷积进行变维,dk表示尺度因子。首先,建立QR和KT之间的交叉模态关联;然后,通过softmax函数生成注意矩阵;最后,交叉模态特征由注意力矩阵和VT加权生成。为了兼顾不同空间的注意分布,本发明将单一跨模态注意Attention(QR,KT,VT)扩展到多头结构MultiHead(QR,KT,VT),公式如下:
MultiHead(QR,KT,VT)=Concat(H1,…,Hn)WO (2)
上式中,表示第i个注意力头的Q,K和V的权重矩阵,WO表示多头注意力拼接的权重矩阵,n表示注意力头的个数,i=1,…,n,Concat表示级联操作;得到多头跨模态注意力的特征残差图FT-R=MultiHead(QR,KT,VT),根据双向增强的特性,根据上述公式反之计算得FR-T=MultiHead(QT,KR,VR),FR-T表示多头跨模态注意力的可见光模式转移到红外模式的判别力特征,即得到两个特征互补残差图FR-T和FT-R。
步骤S2.4:构建门控函数如图3所示。去除冗余特征,结合步骤S2.3的注意力增强特征,即两个特征互补残差图,实现多模态特征交互和聚合,详细方法如下:
WR=softmax(Concat(SR,ST)) (5)
公式(4)-(6)去除原始特征的冗余信息上次生成特征图和公式(7)将和分别和FT-R及FR-T相加获得最终的特征图。公式(4)分别计算两种模态的通道注意力向量,采用SM表示,其中M为R时表示可见光特征通道注意力,M为T时表示红外特征通道注意力,XM表示原始的深度特征,也就是从步骤2)中获取的可见光和红外深度特征XR,XT,GAP表示全局平均池化操作,表示卷积,σ表示激活函数;将注意向量SM级联,再利用softmax函数对注意力得分进行加权,权重WR由SR和ST级联得到,WT=(1-WR),利用WR抑制冗余通道特征生成和然后与步骤3)所生成的增强特征FT-R和FR-T相加,获得最终的鲁棒特征表达和如公式(7)。
本发明提出了一种门函数来自适应控制这两种模态信息流,并通过跨模态的通道注意建立一种长远的通道依赖关系。首先,用公式(4)分别计算两种模态的通道注意,然后将注意向量级联。最后,利用softmax函数对注意力得分进行加权,利用该权重抑制冗余通道特征,然后融合步骤S2.3所获得的增强特征,生成最终的鲁棒特征表达,如公式(7),再利用级联的方式将增强的多模态特征聚合。
步骤S2.5:利用ROIAlign在步骤S2.3所生成的融合特征图上进行目标与背景采样,以目标为正例,背景为负例构建生成训练样本,用于训练目标分类器,因为直接从特征图上采样避免了像素层面的采样,所以加速了运算。
步骤S2.6:构建目标分类器,由三层全连接层组成,损失函数由二分类损失和实例嵌入损失组成,从而引导模型参数更新。
步骤S2.7:构建结果优化模块,由光流算法和优化模型组成,光流用于预测目标的大范围移动的偏移量,为了克服相机抖动或者遮挡带来目标跟踪漂移的问题,考虑到红外模态的稳定性,在红外模态上使用光流算法,构建特征点,计算相邻两帧之间的偏移量,从而对跟踪结果进行修正。优化模型则对预测结果进行二次回归,从而获得更为精确的定位,优化模型为一个即插即用的结构,由像素级相关层和空间感知的非局部层组成,模型参数通过公开的红外数据微调训练获取。
步骤S3:离线模型训练,加载在ImageNet上预训练模型VGG-M,遵循多域学习策略,重复步骤S2.1-S2.6,使用AdamW算法训练模型直至损失下降收敛,迭代次数设置为200,最后一层全连接层学习率设置为1e-4,其余层设置为1e-3,获取训练好的模型参数;光流算法基于传统手工特征设计,采用Lucas-Kanade光流算法,简单而高效,所以不参与训练;优化模型在预训练模型上采用公开的红外数据进行微调训练,微调训练是常规迁移学习手段,不再详述。
步骤S4:在线训练和跟踪阶段,具体如下:
步骤S4.1:获取视频序列第一帧的标签作为初始跟踪目标,根据第一帧的标签,生成500个正样本和5000个负样本;使用AdamW算法在线微调特征提取模块、多模态交互模块以及全连接层参数,迭代次数为50,以便***学***均,获取初步的跟踪结果;维护一个样本队列用于更新目标特征;
步骤S4.2:根据置信度得分判断是否对跟踪结果进行优化,为了节约计算成本,根据置信度得分设计了优化策略,当置信度得分小于0,采用光流算法重新搜索目标,若偏移量大于T,则对目标位置进行修正;当置信度得分大于U,则采用优化模型,获取更为精确的跟踪结果,其余置信度区间,则不启用多阶段优化策略,根据实验测试,将参数U设置为30,参数T设置为10,可以取得相对较好的结果。并且,以这一帧的跟踪结果作为下一帧的输入;
步骤S4.3:重复步骤S4.1-S4.2,逐步计算每一帧目标跟踪结果,从而实现整体RGBT序列的目标跟踪。
为了验证跟踪模型的有效性,在两个广泛使用的RGBT数据集上进行对比实验,实验结果指标如图4和图5所示。与目前最先进的多模态跟踪方法相比,本发明MFG相比于实时多域跟踪网络RT-MDNet以及先进的MANet方法在GTOT和RGBT234数据集上的准确率和成功率指标均有显著提升。
最后,选取具有代表性的挑战场景作为示例用于定性分析跟踪性能,选取其中4帧图像展示,如图6所示,上排为可见光模态的跟踪结果,下排为红外模态的跟踪结果。可以看到,本发明方法在复杂的环境下,包括相机运动和极端照明环境中,都能获得满意的结果,跟踪的目标由虚线框标记,图6中用黑色箭头指向突出。例如,目标受到光照、尺度变化和局部遮挡的影响,这对大多数***无法取得满意的跟踪效果。然而,得益于鲁棒的多模态特征交互融合和跟踪结果优化,本发明方法实现了稳定的全天候跟踪,有效处理光照和部分遮挡的影响。此外,本发明方法运行速率大致为每一秒30帧,满足实时性的要求。
Claims (5)
1.基于多模态交互和多阶段优化的实时RGBT目标跟踪方法,其特征在于基于红外光和可见光两种模态交互,构建一个目标跟踪模型,首先利用已有RGBT目标跟踪数据进行离线训练,在线跟踪时,根据首帧确定的跟踪目标在线微调跟踪目标模型参数,然后对视频序列进行实时目标跟踪;所述目标跟踪模型包括特征提取模块、多模态交互模块、目标分类器以及结果优化模块,实现如下:
步骤1):将经过时空配准的热红外和可见光图像作为目标跟踪模型的输入;
步骤2):构建共享权重的双流特征提取模块,所述双流特征提取模块利用轻量化VGG-M的前三层卷积对输入的热红外及可见光图像提取红外和可见光的深度特征;
步骤3):构建多模态交互融合模块,对提取的红外和可见光的深度特征,计算多头跨模态注意力生成特征残差图,以双向增强的方式提升模态质量:
上式中,表示一对从步骤2)中获取的可见光和红外深度特征,R表示可见光,T表示红外,公式(1)中Q,K和V分别表示查询、键和值,均经过1×1卷积操作进行变维,dk表示尺度因子,首先,建立QR和KT之间的交叉模态关联,然后通过softmax函数生成注意矩阵,最后,交叉模态特征由注意力矩阵和VT加权生成,为了兼顾不同空间的注意力分布,将单一跨模态注意扩展到多头结构,公式如下:
MultiHead(QR,KT,VT)=Concat(H1,...,Hn)WO (2)
Hi=Attention(QRWi Q,KTWi K,VTWi V) (3)
得到多头跨模态注意力的特征残差图FT-R=MultiHead(QR,KT,VT),根据双向增强的特性,根据上述公式反之计算得FR-T=MultiHead(QT,KR,VR),FR-T表示多头跨模态注意力的可见光模式转移到红外模式的判别力特征,即得到两个特征互补残差图FR-T和FT-R;
步骤4):使用门控函数去除步骤3)所得结果中的冗余特征信息,再利用级联的方式将增强的多模态特征聚合;
步骤5):利用ROIAlign在步骤4)所生成的融合特征图上进行目标与背景采样,以目标为正例,背景为负例构建训练样本,用于训练目标分类器;
步骤6):构建目标分类器,由三层全连接层组成,使用softmax计算二分类损失,从而更新模型参数,目标分类器输出跟踪预测结果;
步骤7):构建结果优化模块,由光流算法和优化模型组成,光流用于预测目标的大范围移动,计算相邻两帧之间的偏移量,对跟踪结果进行修正,优化模型则对预测结果进行二次回归,从而获得更为精确的定位。
2.根据权利要求1所述的基于多模态交互和多阶段优化的实时RGBT目标跟踪方法,其特征在于包括以下步骤:
步骤S1:构建数据集,从公开的RGBT目标跟踪数据集中划分出相应数据用于模型训练和测试;
步骤S2:构建目标跟踪模型;
步骤S3:离线模型训练,加载预训练模型VGG-M,重复步骤1)-6),使用AdamW算法训练目标跟踪模型的特征提取模块、多模态交互模块及目标分类器,直至损失收敛,获取训练好的模型参数,结果优化模块的偏移预测采用Lucas-Kanade光流算法,优化模型采用RGBT数据进行微调训练;
步骤S4:在线训练和跟踪,具体如下:
步骤S4.1:获取视频序列第一帧的标签作为初始跟踪目标,在线微调特征提取模块、多模态交互模块以及目标分类器参数,以便学习目标信息,然后选取置信度得分最高的区域,获取初步的跟踪结果;
步骤S4.2:根据置信度得分判断是否对跟踪结果进行优化,以这一帧的跟踪结果作为下一帧的输入;
步骤S4.3:重复步骤S4.1-S4.2,逐步计算每一帧目标跟踪结果,从而实现整体RGBT序列的目标跟踪。
3.根据权利要求2所述的基于多模态交互和多阶段优化的实时RGBT目标跟踪方法,其特征在于,步骤S4.2中,根据置信度得分设计多阶段优化策略,当置信度得分小于0,采用光流算法重新搜索目标,若偏移量大于T,则对目标位置进行修正;当置信度得分大于U,则采用优化模型,获取更为精确的跟踪结果,其余置信度区间,则不启用优化策略。
4.根据权利要求1所述的基于多模态交互和多阶段优化的实时RGBT目标跟踪方法,其特征在于,步骤4)中,构建门控函数去除冗余特征,结合步骤3)的注意力增强特征,实现多模态特征交互和聚合,具体如下:
WR=softmax(Concat(SR,ST)) (5)
5.根据权利要求1所述的基于多模态交互和多阶段优化的实时RGBT目标跟踪方法,其特征在于,步骤7)中,在红外模态上使用光流算法,构建特征点,计算相邻两帧之间的偏移量,从而对跟踪结果进行修正,优化模型为一个即插即用的结构,由像素级相关层和空间感知的非局部层组成,模型参数通过公开的红外数据微调训练获取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210673885.6A CN115170605A (zh) | 2022-06-15 | 2022-06-15 | 基于多模态交互和多阶段优化的实时rgbt目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210673885.6A CN115170605A (zh) | 2022-06-15 | 2022-06-15 | 基于多模态交互和多阶段优化的实时rgbt目标跟踪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115170605A true CN115170605A (zh) | 2022-10-11 |
Family
ID=83485353
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210673885.6A Pending CN115170605A (zh) | 2022-06-15 | 2022-06-15 | 基于多模态交互和多阶段优化的实时rgbt目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115170605A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115272420A (zh) * | 2022-09-28 | 2022-11-01 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种长时目标跟踪方法、***及存储介质 |
CN116168322A (zh) * | 2023-01-10 | 2023-05-26 | 中国人民解放军军事科学院国防科技创新研究院 | 一种基于多模态融合的无人机长时跟踪方法及*** |
CN116188528A (zh) * | 2023-01-10 | 2023-05-30 | 中国人民解放军军事科学院国防科技创新研究院 | 基于多阶段注意力机制的rgbt无人机目标跟踪方法及*** |
-
2022
- 2022-06-15 CN CN202210673885.6A patent/CN115170605A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115272420A (zh) * | 2022-09-28 | 2022-11-01 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种长时目标跟踪方法、***及存储介质 |
CN115272420B (zh) * | 2022-09-28 | 2023-01-17 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种长时目标跟踪方法、***及存储介质 |
CN116168322A (zh) * | 2023-01-10 | 2023-05-26 | 中国人民解放军军事科学院国防科技创新研究院 | 一种基于多模态融合的无人机长时跟踪方法及*** |
CN116188528A (zh) * | 2023-01-10 | 2023-05-30 | 中国人民解放军军事科学院国防科技创新研究院 | 基于多阶段注意力机制的rgbt无人机目标跟踪方法及*** |
CN116168322B (zh) * | 2023-01-10 | 2024-02-23 | 中国人民解放军军事科学院国防科技创新研究院 | 一种基于多模态融合的无人机长时跟踪方法及*** |
CN116188528B (zh) * | 2023-01-10 | 2024-03-15 | 中国人民解放军军事科学院国防科技创新研究院 | 基于多阶段注意力机制的rgbt无人机目标跟踪方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115170605A (zh) | 基于多模态交互和多阶段优化的实时rgbt目标跟踪方法 | |
CN113628249B (zh) | 基于跨模态注意力机制与孪生结构的rgbt目标跟踪方法 | |
CN111178316A (zh) | 一种基于深度架构自动搜索的高分辨率遥感影像土地覆盖分类方法 | |
CN115713679A (zh) | 基于多源信息融合、热红外和三维深度图的目标检测方法 | |
CN116188528B (zh) | 基于多阶段注意力机制的rgbt无人机目标跟踪方法及*** | |
CN114972748B (zh) | 一种可解释边缘注意力和灰度量化网络的红外语义分割方法 | |
CN113033432A (zh) | 一种基于渐进监督的遥感影像居民区提取方法 | |
CN116385761A (zh) | 一种融合rgb与红外信息的3d目标检测方法 | |
CN111429485B (zh) | 基于自适应正则化和高信度更新的跨模态滤波跟踪方法 | |
CN115187786A (zh) | 一种基于旋转的CenterNet2目标检测方法 | |
CN113052108A (zh) | 基于深度神经网络的多尺度级联航拍目标检测方法和*** | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
CN113327271B (zh) | 基于双光孪生网络决策级目标跟踪方法、***及存储介质 | |
CN114972439A (zh) | 一种新的无人机目标跟踪算法 | |
CN110942463B (zh) | 一种基于生成对抗网络的视频目标分割方法 | |
CN111275751A (zh) | 一种无监督绝对尺度计算方法及*** | |
CN116563343A (zh) | 一种基于孪生网络结构和锚框自适应思想的rgbt目标跟踪方法 | |
CN117011655A (zh) | 基于自适应区域选择特征融合方法、目标跟踪方法及*** | |
CN116342648A (zh) | 基于混合结构注意力引导的孪生网络目标跟踪方法 | |
CN113691747B (zh) | 无人驾驶中红外视频转换为可见光视频的方法 | |
CN115098646A (zh) | 一种图文数据的多级关系分析与挖掘方法 | |
Zhou et al. | GAF-Net: Geometric Contextual Feature Aggregation and Adaptive Fusion for Large-Scale Point Cloud Semantic Segmentation | |
CN116486203B (zh) | 一种基于孪生网络和在线模板更新的单目标跟踪方法 | |
CN115272420B (zh) | 一种长时目标跟踪方法、***及存储介质 | |
CN114445413B (zh) | 一种基于域自适应的帧间图像语义分割方法与*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |