CN115170605A

CN115170605A - 基于多模态交互和多阶段优化的实时rgbt目标跟踪方法

Info

Publication number: CN115170605A
Application number: CN202210673885.6A
Authority: CN
Inventors: 任桐炜; 武港山; 侯瑞超; 许博约
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2022-06-15
Filing date: 2022-06-15
Publication date: 2022-10-11

Abstract

本发明提出了一种基于多模态交互和多阶段优化的实时RGBT目标跟踪方法，跟踪模型包括特征提取模块、多模态交互模块、目标分类器以及结果优化模块；利用公开的RGBT数据集对跟踪模型进行训练，包括离线训练和在线训练两个阶段。本发明构建多模态交互模块学习鲁棒的特征表达，改善跨模态特征之间的注意力计算方式，实现两种模态的互补增强，通过引入门控函数，有效去除冗余噪声的影响；构建多阶段优化模块结合光流算法和优化模型实现跟踪结目标的精确重定位，有效缓解相机抖动、局部遮挡等因素造成的影响，提升跟踪模型的鲁棒性和实时性。

Description

基于多模态交互和多阶段优化的实时RGBT目标跟踪方法

技术领域

本发明属于计算机视觉目标跟踪技术领域，具体涉及一种基于多模态交互和多阶段优化的实时RGBT目标跟踪方法。

背景技术

可见光传感器广泛用于各个领域，但是由于夜晚光线较弱、雨雾天气可视距离受限，导致可见光摄像头无法正常工作，为了满足全天候运行需求，现有研究工作将结合多模态光电传感器，即可见光和热红外设备，实现热源信息和环境细节信息互补，构建鲁棒特征，提升模型性能。

RGBT跟踪任务是通过整合可见光谱和热光谱的互补特征来设计一个强大的全天候***，可以广泛应用于安防巡检、辅助驾驶、人群测温等领域。RGBT目标跟踪在抑制噪声的同时充分融合双模态互补线索，并根据初始帧的标签预测目标在后续帧中的包围框。许多方法利用模态的互补性，在多个领域提升了算法性能，但是在光照不断变化的环境中可见光模态不稳定；热红外模态在目标与背景温度接近时形成热交叉，分辨力也会下降，如果不进行动态特征选择，反而会增加噪声，削弱判别力的特征比表达，导致跟踪目标丢失。因此，需要进一步探索多模态之间的内在关联，实现特征互补、冗余噪声去除。

现有一类方法致力于研究多层特征的提取，生成一个可靠的特征表达，从而提升跟踪精度，另一类方法研究模态融合权重，实现特征的选择。但是，在光照变化和动态干扰等具有挑战性的场景下，这些现有跟踪方法性能会下降。此外，视觉跟踪中常见的挑战也需要更多的关注。通过观察，摄像机的运动和缩放变化会导致目标丢失，在这种情况下，许多***无法预测精确的结果。因此，在多模态交互设计和跟踪结果细化方面仍有一定的提升空间。

发明内容

本发明要解决的问题是：针对现有跟踪技术中的不足，提出一种基于多模态交互和多阶段优化的实时RGBT目标跟踪方法，提升***模型实时性和鲁棒性。

本发明的技术方案为：基于多模态交互和多阶段优化的实时RGBT目标跟踪方法，基于红外光和可见光两种模态交互，构建一个目标跟踪模型，首先利用已有RGBT目标跟踪数据进行离线训练，在线跟踪时，根据首帧确定的跟踪目标在线微调跟踪目标模型参数，然后对视频序列进行实时目标跟踪；所述目标跟踪模型包括特征提取模块、多模态交互模块、目标分类器以及结果优化模块，实现如下：

步骤1)：将经过时空配准的热红外和可见光图像作为目标跟踪模型的输入；

步骤2)：构建共享权重的双流特征提取模块，所述双流特征提取模块利用轻量化VGG-M的前三层卷积对输入的热红外及可见光图像提取红外和可见光的深度特征；

步骤3)：构建多模态交互融合模块，对提取的红外和可见光的深度特征，计算多头跨模态注意力生成特征残差图，以双向增强的方式提升模态质量：

单一跨模态注意的从红外到可见光模式的判别特征转换表示为

公式如下：

上式中，

表示一对从步骤2)中获取的可见光和红外深度特征，R表示可见光，T表示红外，公式(1)中Q，K和V分别表示查询、键和值，均经过1×1卷积操作进行变维，d_k表示尺度因子，首先，建立Q^R和K^T之间的交叉模态关联，然后通过softmax函数生成注意矩阵，最后，交叉模态特征由注意力矩阵和V^T加权生成，为了兼顾不同空间的注意力分布，将单一跨模态注意扩展到多头结构，公式如下：

MultiHead(Q^R,K^T,V^T)＝Concat(H₁,…,H_n)W^O (2)

上式中，

表示第i个注意力头下Q，K和V的权重矩阵，W^O表示多头注意力拼接的权重矩阵，n表示注意力头的个数，i＝1,…,n，Concat表示级联操作；

得到多头跨模态注意力的特征残差图F_T-R＝MultiHead(Q^R,K^T,V^T)，根据双向增强的特性，根据上述公式反之计算得F_R-T＝MultiHead(Q^T,K^R,V^R)，F_R-T表示多头跨模态注意力的可见光模式转移到红外模式的判别力特征，即得到两个特征互补残差图F_R-T和F_T-R；

步骤4)：使用门控函数去除步骤3)所得结果中的冗余特征信息，再利用级联的方式将增强的多模态特征聚合；

步骤5)：利用ROIAlign在步骤4)所生成的融合特征图上进行目标与背景采样，以目标为正例，背景为负例构建训练样本，用于训练目标分类器；

步骤6)：构建目标分类器，由三层全连接层组成，使用softmax计算二分类损失，从而更新模型参数，目标分类器输出跟踪预测结果；

步骤7)：构建结果优化模块，由光流算法和优化模型组成，光流用于预测目标的大范围移动，计算相邻两帧之间的偏移量，对跟踪结果进行修正，优化模型则对预测结果进行二次回归，从而获得更为精确的定位。

进一步的，本发明包括以下步骤：

步骤S1：构建数据集，从公开的RGBT目标跟踪数据集中划分出相应数据用于模型训练和测试；

步骤S2：构建目标跟踪模型；

步骤S3：离线模型训练，加载预训练模型VGG-M，重复步骤1)-6)，使用AdamW算法训练目标跟踪模型的特征提取模块、多模态交互模块及目标分类器，直至损失收敛，获取训练好的模型参数，结果优化模块的偏移预测采用Lucas-Kanade光流算法，优化模型采用RGBT数据进行微调训练；

步骤S4：在线训练和跟踪，具体如下：

步骤S4.1：获取视频序列第一帧的标签作为初始跟踪目标，在线微调特征提取模块、多模态交互模块以及目标分类器参数，以便学习目标信息，然后选取置信度得分最高的区域，获取初步的跟踪结果；

步骤S4.2：根据置信度得分判断是否对跟踪结果进行优化，以这一帧的跟踪结果作为下一帧的输入；

步骤S4.3：重复步骤S4.1-S4.2，逐步计算每一帧目标跟踪结果，从而实现整体RGBT序列的目标跟踪。

本发明的有益效果是：提供高效而精准的RGBT目标跟踪技术。相比现有技术具有如下优势。

(1)本发明提出了多模态特征交互模块，结合了红外模态信息，弥补了可见光模态的缺陷，利用多头跨模态注意力计算多个空间维度下的注意力矩阵，引导模态增强，减小低质量模态的干扰，有效实现多模态信息交互融合，并且去除了冗余特征通道，使得整体特征简洁而鲁棒，从而提升了跟踪性能和泛化能力。

(2)本发明提出了多阶段优化策略，利用光流预测目标的偏移量，利用优化模型对跟踪结果进行二次归回，然后根据置信度得分选择阶段性的选择优化方式，有效节约了计算成本的同时提升了跟踪精度和实时性。

附图说明

图1为本发明的整体流程图。

图2为本发明的跨模态注意力模块示意图。

图3为本发明的门控网络示意图。

图4为本发明在GTOT数据集上的总体跟踪性能曲线，其中，(a)为准确率数据图precision plot,横坐标表示定位错误阈值，纵坐标为最大准确率，(b)为成功率数据图success plot，横坐标为重叠阈值，纵坐标为最大成功率，准确率分数和成功率分数分别如图所示，本发明方法为MFG，MANet、MDNet+RGBT以及L1-PF为现有其他同类跟踪方法。

图5为本发明在RGBT234数据集上的总体跟踪性能曲线，其中，(a)为准确率数据图precision plot,横坐标表示定位错误阈值，纵坐标为最大准确率，(b)为成功率数据图success plot，横坐标为重叠阈值，纵坐标为最大成功率，准确率分数和成功率分数分别如图所示，本发明方法为MFG，MANet、RT、L1-PF以及JSR为现有其他同类跟踪方法。。

图6为本发明测试的1个视频序列的定性结果图。

具体实施方式

下面结合相应附图对本发明的技术方案做进一步的详细说明：

如图1跟踪整体流程图所示，本发明提出了一种基于多模态交互和多阶段优化的实时RGBT目标跟踪方法，包括以下步骤：

步骤S1：构建数据集，从公开的RGBT234和GTOT目标跟踪数据集中划分出相应数据用于模型训练和测试。

步骤S2：构建目标跟踪模型，包括特征提取模块、多模态交互模块、目标分类器以及结果优化模块，具体如下：

步骤S2.1：利用已有RGBT目标跟踪数据，将经过时空配准的可见光和热红外图像作为目标跟踪模型的输入，成对得按视频帧时序输入模型。

步骤S2.2：构建共享权重的双流特征提取模块，利用轻量化VGG-M的前三层卷积，其中增加了空洞卷积提升感受野，第三层卷积输出的特征通道为512，提取红外和可见光的初步深度特征。

步骤S2.3：构建多模态交互融合模块，如图2所示。针对步骤S2.2所提取的特征计算多头跨模态注意力生成特征残差图，以双向增强的方式提升低质量模态，其中多头跨模态注意探索潜在的RGBT模态相关性，感知全局信息，从而引导一个模态从另一个模态获取具有判别力的特征。单一跨模态注意的从红外到可见光模式的判别特征转换可以表示为

公式如下：

上式中，

表示一对从步骤S2.2中获取的RGBT深度特征，即可见光和红外深度特征；公式(1)中Q，K和V分别表示查询、键和值，上标R表示可见光，T表示红外，均经过1×1卷积进行变维，d_k表示尺度因子。首先，建立Q^R和K^T之间的交叉模态关联；然后，通过softmax函数生成注意矩阵；最后，交叉模态特征由注意力矩阵和V^T加权生成。为了兼顾不同空间的注意分布，本发明将单一跨模态注意Attention(Q^R,K^T,V^T)扩展到多头结构MultiHead(Q^R,K^T,V^T)，公式如下：

MultiHead(Q^R,K^T,V^T)＝Concat(H₁,…,H_n)W^O (2)

上式中，

表示第i个注意力头的Q，K和V的权重矩阵，W^O表示多头注意力拼接的权重矩阵，n表示注意力头的个数，i＝1,…,n，Concat表示级联操作；得到多头跨模态注意力的特征残差图F_T-R＝MultiHead(Q^R,K^T,V^T)，根据双向增强的特性，根据上述公式反之计算得F_R-T＝MultiHead(Q^T,K^R,V^R)，F_R-T表示多头跨模态注意力的可见光模式转移到红外模式的判别力特征，即得到两个特征互补残差图F_R-T和F_T-R。

步骤S2.4：构建门控函数如图3所示。去除冗余特征，结合步骤S2.3的注意力增强特征，即两个特征互补残差图，实现多模态特征交互和聚合，详细方法如下：

W^R＝softmax(Concat(S^R,S^T)) (5)

公式(4)-(6)去除原始特征的冗余信息上次生成特征图

和

公式(7)将

和

分别和F_T-R及F_R-T相加获得最终的特征图。公式(4)分别计算两种模态的通道注意力向量，采用S^M表示，其中M为R时表示可见光特征通道注意力，M为T时表示红外特征通道注意力，X^M表示原始的深度特征，也就是从步骤2)中获取的可见光和红外深度特征X^R,X^T，GAP表示全局平均池化操作，

表示卷积，σ表示激活函数；将注意向量S^M级联，再利用softmax函数对注意力得分进行加权，权重W^R由S^R和S^T级联得到，W^T＝(1-W^R)，利用W^R抑制冗余通道特征生成

和

然后与步骤3)所生成的增强特征F_T-R和F_R-T相加，获得最终的鲁棒特征表达

和

如公式(7)。

本发明提出了一种门函数来自适应控制这两种模态信息流，并通过跨模态的通道注意建立一种长远的通道依赖关系。首先，用公式(4)分别计算两种模态的通道注意，然后将注意向量级联。最后，利用softmax函数对注意力得分进行加权，利用该权重抑制冗余通道特征，然后融合步骤S2.3所获得的增强特征，生成最终的鲁棒特征表达，如公式(7)，再利用级联的方式将增强的多模态特征聚合。

步骤S2.5：利用ROIAlign在步骤S2.3所生成的融合特征图上进行目标与背景采样，以目标为正例，背景为负例构建生成训练样本，用于训练目标分类器，因为直接从特征图上采样避免了像素层面的采样，所以加速了运算。

步骤S2.6：构建目标分类器，由三层全连接层组成，损失函数由二分类损失和实例嵌入损失组成，从而引导模型参数更新。

步骤S2.7：构建结果优化模块，由光流算法和优化模型组成，光流用于预测目标的大范围移动的偏移量，为了克服相机抖动或者遮挡带来目标跟踪漂移的问题，考虑到红外模态的稳定性，在红外模态上使用光流算法，构建特征点，计算相邻两帧之间的偏移量，从而对跟踪结果进行修正。优化模型则对预测结果进行二次回归，从而获得更为精确的定位，优化模型为一个即插即用的结构，由像素级相关层和空间感知的非局部层组成，模型参数通过公开的红外数据微调训练获取。

步骤S3：离线模型训练，加载在ImageNet上预训练模型VGG-M，遵循多域学习策略，重复步骤S2.1-S2.6，使用AdamW算法训练模型直至损失下降收敛，迭代次数设置为200，最后一层全连接层学习率设置为1e^-4，其余层设置为1e^-3，获取训练好的模型参数；光流算法基于传统手工特征设计，采用Lucas-Kanade光流算法，简单而高效，所以不参与训练；优化模型在预训练模型上采用公开的红外数据进行微调训练，微调训练是常规迁移学习手段，不再详述。

步骤S4：在线训练和跟踪阶段，具体如下：

步骤S4.1：获取视频序列第一帧的标签作为初始跟踪目标，根据第一帧的标签，生成500个正样本和5000个负样本；使用AdamW算法在线微调特征提取模块、多模态交互模块以及全连接层参数，迭代次数为50，以便***学***均，获取初步的跟踪结果；维护一个样本队列用于更新目标特征；

步骤S4.2：根据置信度得分判断是否对跟踪结果进行优化，为了节约计算成本，根据置信度得分设计了优化策略，当置信度得分小于0，采用光流算法重新搜索目标，若偏移量大于T，则对目标位置进行修正；当置信度得分大于U，则采用优化模型，获取更为精确的跟踪结果，其余置信度区间，则不启用多阶段优化策略，根据实验测试，将参数U设置为30，参数T设置为10，可以取得相对较好的结果。并且，以这一帧的跟踪结果作为下一帧的输入；

为了验证跟踪模型的有效性，在两个广泛使用的RGBT数据集上进行对比实验，实验结果指标如图4和图5所示。与目前最先进的多模态跟踪方法相比，本发明MFG相比于实时多域跟踪网络RT-MDNet以及先进的MANet方法在GTOT和RGBT234数据集上的准确率和成功率指标均有显著提升。

最后，选取具有代表性的挑战场景作为示例用于定性分析跟踪性能，选取其中4帧图像展示，如图6所示，上排为可见光模态的跟踪结果，下排为红外模态的跟踪结果。可以看到，本发明方法在复杂的环境下，包括相机运动和极端照明环境中，都能获得满意的结果，跟踪的目标由虚线框标记，图6中用黑色箭头指向突出。例如，目标受到光照、尺度变化和局部遮挡的影响，这对大多数***无法取得满意的跟踪效果。然而，得益于鲁棒的多模态特征交互融合和跟踪结果优化，本发明方法实现了稳定的全天候跟踪，有效处理光照和部分遮挡的影响。此外，本发明方法运行速率大致为每一秒30帧，满足实时性的要求。

Claims

1.基于多模态交互和多阶段优化的实时RGBT目标跟踪方法，其特征在于基于红外光和可见光两种模态交互，构建一个目标跟踪模型，首先利用已有RGBT目标跟踪数据进行离线训练，在线跟踪时，根据首帧确定的跟踪目标在线微调跟踪目标模型参数，然后对视频序列进行实时目标跟踪；所述目标跟踪模型包括特征提取模块、多模态交互模块、目标分类器以及结果优化模块，实现如下：

公式如下：

上式中，

MultiHead(Q^R，K^T，V^T)＝Concat(H₁，...，H_n)W^O (2)

H_i＝Attention(Q^RW_i ^Q，K^TW_i ^K，V^TW_i ^V) (3)

上式中，

表示第i个注意力头下Q，K和V的权重矩阵，W^O表示多头注意力拼接的权重矩阵，n表示注意力头的个数，i＝1，...，n，Concat表示级联操作；

得到多头跨模态注意力的特征残差图F_T-R＝MultiHead(Q^R，K^T，V^T)，根据双向增强的特性，根据上述公式反之计算得F_R-T＝MultiHead(Q^T，K^R，V^R)，F_R-T表示多头跨模态注意力的可见光模式转移到红外模式的判别力特征，即得到两个特征互补残差图F_R-T和F_T-R；

2.根据权利要求1所述的基于多模态交互和多阶段优化的实时RGBT目标跟踪方法，其特征在于包括以下步骤：

步骤S2：构建目标跟踪模型；

步骤S4：在线训练和跟踪，具体如下：

3.根据权利要求2所述的基于多模态交互和多阶段优化的实时RGBT目标跟踪方法，其特征在于，步骤S4.2中，根据置信度得分设计多阶段优化策略，当置信度得分小于0，采用光流算法重新搜索目标，若偏移量大于T，则对目标位置进行修正；当置信度得分大于U，则采用优化模型，获取更为精确的跟踪结果，其余置信度区间，则不启用优化策略。

4.根据权利要求1所述的基于多模态交互和多阶段优化的实时RGBT目标跟踪方法，其特征在于，步骤4)中，构建门控函数去除冗余特征，结合步骤3)的注意力增强特征，实现多模态特征交互和聚合，具体如下：

W^R＝softmax(Concat(S^R，S^T)) (5)

公式(4)分别计算两种模态的通道注意力向量，采用S^M表示，其中M为R时表示可见光特征通道注意力，M为T时表示红外特征通道注意力，X^M表示对应模态的原始的深度特征，GAP表示全局平均池化操作，

表示卷积，σ表示激活函数；将注意向量S^M级联，再利用softmax函数对注意力得分进行加权，利用权重W^R抑制冗余通道特征生成

和

和

如公式(7)。

5.根据权利要求1所述的基于多模态交互和多阶段优化的实时RGBT目标跟踪方法，其特征在于，步骤7)中，在红外模态上使用光流算法，构建特征点，计算相邻两帧之间的偏移量，从而对跟踪结果进行修正，优化模型为一个即插即用的结构，由像素级相关层和空间感知的非局部层组成，模型参数通过公开的红外数据微调训练获取。