CN115423847B

CN115423847B - 基于Transformer的孪生多模态目标跟踪方法

Info

Publication number: CN115423847B
Application number: CN202211376018.2A
Authority: CN
Inventors: 王辉; 韩星宇; 范自柱; 杨辉
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2022-11-04
Filing date: 2022-11-04
Publication date: 2023-02-07
Anticipated expiration: 2042-11-04
Also published as: CN115423847A

Abstract

本发明提出一种基于Transformer的孪生多模态目标跟踪方法，获取场景中的RGB图像信息和热力图像信息；通过预训练的ResNet网络提取不同模态的高级特征，同时基于孪生网络的跨模态特征融合网络以获得不同模态的共同特征；然后将对应模态的高级特征输入到针对多模态设计的Transformer模块中进行跨模态信息融合，再输入到基于全连接卷积神经网络的回归网络中进行最终检测框的回归，在此过程中产生的误差将会反向传播到前序各个网络中，根据最终权重网络构建目标跟踪网络，以对多模态情况下的目标进行跟踪。本发明可准确预测物体在各模态的位置信息，提高目标跟踪与定位准确度，可广泛应用于多种场景。

Description

基于Transformer的孪生多模态目标跟踪方法

技术领域

本发明涉及计算机目标跟踪技术领域，特别涉及一种基于Transformer的孪生多模态目标跟踪方法。

背景技术

利用RGB与热红外（TIR）光谱进行视觉目标跟踪，简称RGBT跟踪，可以有效解决传统跟踪任务中目标容易丢失以及在极端光照条件下表现差的缺点。目前，常见的多模态目标跟踪方法包括基于传统图形学的数学跟踪方法以及基于孪生网络的特征匹配方法两大类。

基于传统图形学的数学跟踪方法一般是构造核函数，在目标检测区域f和滤波模板h做卷积运算，然后再通过相应的算法进行寻优，获取全局最优回归框。然而，此类方法中，如基于相关滤波算法、线性回归滤波算法以及多特征算法等目标跟踪方法，很难对于具有复杂前景的物体进行跟踪，导致容易发生易跟丢或无法精确回归目标框的问题。

发明内容

为此，本发明的实施例提出一种基于Transformer的孪生多模态目标跟踪方法，以解决上述技术问题。

本发明提出一种基于Transformer的孪生多模态目标跟踪方法，其中，所述方法包括如下步骤：

步骤一、通过摄像头与热成像装置采集当前场景下的RGB图像信息与热力图像信息；

步骤二、利用经过预训练的ResNet特征提取网络对RGB图像信息与热力图像信息分别进行特征提取以对应得到RGB图像特征与热力图像特征；基于线性假设的方法将RGB图像信息与热力图像信息进行对齐，使用基于ResNet的孪生网络对RGB图像信息与热力图像信息共同进行特征提取以得到RGB-热力图像特征；

步骤三、利用基于Transformer编码器的特征融合网络，将所述RGB图像特征、热力图像特征以及RGB-热力图像特征两两配合进行复合编码以得到编码后的特征图；

步骤四、将所述编码后的特征图输入至基于Transformer的特征匹配网络中进行扩充与匹配，以得到模板特征图与背景特征图的匹配结果，并利用基于循环窗口注意力的匹配机制对所述模板特征图与背景特征图的匹配结果进行扩充再匹配以得到第一特征图；

步骤五、将所述第一特征图输入至基于多层感知机模型的回归器中进行回归框的回归，并基于设计的损失函数返回误差计算值并进行反向传播；

步骤六、通过快速梯度下降法确认当前回归框的损失，当回归框损失最小时，结束训练并输出各网络权重文件；

步骤七、根据最终得到的各网络权重文件，构建多模态目标***并实时确定所跟踪的目标在图像中的位置。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实施例了解到。

附图说明

本发明实施例的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明提出的基于Transformer的孪生多模态目标跟踪方法的流程图；

图2为本发明提出的基于Transformer的孪生多模态目标跟踪方法的原理框图；

图3为本发明提出的基于Transformer的孪生多模态目标跟踪方法的执行示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1至图3，本发明提出一种基于Transformer的孪生多模态目标跟踪方法，其中，所述方法包括如下步骤：

S101、通过摄像头与热成像装置采集当前场景下的RGB图像信息与热力图像信息。

S102、利用经过预训练的ResNet特征提取网络对RGB图像信息与热力图像信息分别进行特征提取以对应得到RGB图像特征与热力图像特征；基于线性假设的方法将RGB图像信息与热力图像信息进行对齐，使用基于ResNet的孪生网络对RGB图像信息与热力图像信息共同进行特征提取以得到RGB-热力图像特征。

在本发明中，上述的ResNet特征提取网络为ResNet50特征提取网络，具体的，在上述的步骤S102中，所述方法还包括：

S1021、利用ResNet50特征提取网络在ImageNet10k数据集上的预训练数据，对RGB图像信息与热力图像信息分别进行特征提取。

S1022、根据设定图像大小与给定的第一帧框图数据，对RGB图像信息中的RGB图像进行调整。

具体的，对RGB图像信息中的RGB图像进行调整的步骤中，对应的表达式为：

其中，

表示处理后的RGB图像的输出，

表示当前RGB图像的输入，

表示当前热力图像的大小，

表示当前RGB图像的大小，

表示图像中心点的偏移量。

S1023、利用KL散度对所述ResNet50特征提取网络进行约束计算以得到当前输出的损失值。

具体的，利用KL散度对所述ResNet50特征提取网络进行约束计算以得到当前输出的损失值的步骤中，对应的表达式为：

其中，

表示当前输出的损失值，

表示输出特征向量的维度，

表示RGB图像经过ResNet50特征提取网络所输出的特征向量中的第

列，

表示热力图像经过ResNet50特征提取网络所输出的特征向量中的第

列，

表示输出的特征向量中的列数。

S1024、根据当前输出的损失值计算得到整体网络对应的最终网络损失值。

其中，所述整体网络由ResNet特征提取网络（相当于图2中的RGB特征提取网络与热力特征提取网络）、基于ResNet的孪生网络（相当于图2中的热力-RGB融合特征提取网络）、基于Transformer编码器的特征融合网络（相当于图2中的特征融合模块）以及基于Transformer的特征匹配网络（相当于图2中的基于Transformer的特征匹配-扩充网络）组成。在此还需要说明的是，在图2中，L表示当前特征的数量，r表示模板的大小，d表示当前特征的维度。此外，图2中，Q表示经过Query向量生成网络的操作，K表示经过Key向量生成网络的操作，V表示经过Value向量生成网络的操作。

在本步骤中，整体网络对应的最终网络损失值表示为：

其中，

表示整体网络对应的最终网络损失值，

表示后续网络反向传播回的损失值，

表示超参数。在本实施例中，超参数

的值为0.97。

S103、利用基于Transformer编码器的特征融合网络，将所述RGB图像特征、热力图像特征以及RGB-热力图像特征两两配合进行复合编码以得到编码后的特征图。

在本步骤中，将RGB图像特征、热力图像特征以及RGB-热力图像特征两两配合进行复合编码以得到编码后的特征图的步骤中，进行编码操作对应的公式表示为：

其中，

表示编码器的输出，

表示Softmax函数，

表示RGB图像经过ResNet50特征提取网络的特征向量，

表示RGB图像，

表示热力图像，

表示热力图像经过ResNet50特征提取网络的特征向量，

表示总特征向量的维数，

表示自然常数，

表示卷积操作，

表示当前层的输入。

进一步的，基于Transformer的特征匹配网络对应的公式表示为：

其中，

表示Transformer网络的输出，

表示Query向量生成网络的输出，

表示Key向量生成网络的输出，

表示Value向量生成网络的输出，

表示当前层的维度，

均表示第一类型可学习参数，

均表示第二类型可学习参数，

表示矩阵转置。

S104、将所述编码后的特征图输入至基于Transformer的特征匹配网络中进行扩充与匹配，以得到模板特征图与背景特征图的匹配结果，并利用基于循环窗口注意力的匹配机制对所述模板特征图与背景特征图的匹配结果进行扩充再匹配以得到第一特征图。

具体的，步骤S104具体包括：

S1041、将输入的模板特征图在背景特征图上进行上下左右平移，并生成大于原始背景特征图尺寸的匹配热力图。

S1042、使用大小为

的模板组，对扩充过的编码后的特征图进行模板帧与背景帧的匹配，以得到模板特征图与背景特征图的匹配结果；其中，进行匹配时的步幅大小为

。

其中，模板组

的大小设为

，第一特征图的特征图大小为

，

表示第i个模板的边长，

表示第i个特征向量的维度数。

S105、将所述第一特征图输入至基于多层感知机模型的回归器中进行回归框的回归，并基于设计的损失函数返回误差计算值并进行反向传播。

在步骤S105中，将第一特征图输入至基于MLP的回归器中进行回归框的回归的步骤中，对应的公式表示为：

其中，

表示多层感知机模型网络的输出，

表示最终回归的结果。

进一步的，对于输出的损失函数，存在如下公式：

其中，

表示当前框对于真实框的损失，

表示当前框与真实框的重合程度，

表示当前框与真实框坐标位置差量的值，

表示当前框与真实框坐标大小差量的值，

表示当前框与真实框横坐标的均方差的值，

表示当前框与真实框纵坐标的均方差的值，

表示当前框与真实框横坐标或纵坐标的均方差的值，

表示当前框与真实框之间高的差值，

表示当前框与真实框之间宽的差值，

表示目标真实框的横坐标，

表示目标真实框的纵坐标，

表示***预测的目标横坐标，

表示***预测的目标纵坐标，

表示当前框与真实框的缩放系，

表示当前框与真实框的大小的比，

表示当前框与真实框坐标大小的均方差的值，

表示当前框与真实框之间宽度的缩放系数，

表示当前框与真实框之间高度的缩放系数，

表示根据当前框与真实框之间宽度或高度的缩放系数计算得到的值，

表示***预测的宽，

表示***预测的高，

表示目标真实框的宽，

表示目标真实框的高，

表示给定超参数。在本实施例中，超参数

的值为4。

进一步的，在完成每轮反向传播的迭代计算后，使用预设的学习率公式对学习率进行更新，对应的学习率更新公式表示为：

其中，

表示更新后的学习率，

表示最小的学习率，

表示最大的学习率，

表示当前epoch的索引，

表示最大epoch的索引。

本实施例中，优选的总迭代训练次数被设定为500，初始学习率设定为0.003。

S106、通过快速梯度下降法确认当前回归框的损失，当回归框损失最小时，结束训练并输出各网络权重文件。

S107、根据最终得到的各网络权重文件，构建多模态目标***并实时确定所跟踪的目标在图像中的位置。

本实施例中，目标跟踪框为算法输出的对角顶点的坐标所围成的框，本实施例中基于Transformer混合架构提出多模态特征融合算法，并将其应用于多模态目标跟踪之中，可以大幅提高目标跟踪任务的准确性与鲁棒性。此外，利用基于孪生网络的共同特征提取网络，以KL散度这一数学指标配合反向传播的损失值，作为两个模态之间公共特征的提取算法；通过改变步长参数，既可以保证做到全局搜索，又可以保证算法的收敛速度；将Transformer混合架构应用于多模态目标跟踪之中具有一般基于深度学习及传统图形学算法的目标跟踪方法的优点，同时又具有跟踪精度高，避免目标丢失的特点。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于Transformer的孪生多模态目标跟踪方法，其特征在于，所述方法包括如下步骤：

步骤七、根据最终得到的各网络权重文件，构建多模态目标***并实时确定所跟踪的目标在图像中的位置；

所述ResNet特征提取网络为ResNet50特征提取网络，在所述步骤二中，所述方法还包括：

利用ResNet50特征提取网络在ImageNet10k数据集上的预训练数据，对RGB图像信息与热力图像信息分别进行特征提取；

根据设定图像大小与给定的第一帧框图数据，对RGB图像信息中的RGB图像进行调整；

利用KL散度对所述ResNet50特征提取网络进行约束计算以得到当前输出的损失值；

根据当前输出的损失值计算得到整体网络对应的最终网络损失值，其中所述整体网络由ResNet特征提取网络、基于ResNet的孪生网络、基于Transformer编码器的特征融合网络以及基于Transformer的特征匹配网络组成；

对RGB图像信息中的RGB图像进行调整的步骤中，对应的表达式为：

其中，

表示处理后的RGB图像的输出，

表示当前RGB图像的输入，

表示当前热力图像的大小，

表示当前RGB图像的大小，

表示图像中心点的偏移量；

利用KL散度对所述ResNet50特征提取网络进行约束计算以得到当前输出的损失值的步骤中，对应的表达式为：

其中，

表示当前输出的损失值，

表示输出特征向量的维度，

列，

列，

表示输出的特征向量中的列数；

在根据当前输出的损失值计算得到整体网络对应的最终网络损失值的步骤中，整体网络对应的最终网络损失值表示为：

其中，

表示整体网络对应的最终网络损失值，

表示后续网络反向传播回的损失值，

表示超参数。

2.根据权利要求1所述的基于Transformer的孪生多模态目标跟踪方法，其特征在于，在所述步骤三中，将所述RGB图像特征、热力图像特征以及RGB-热力图像特征两两配合进行复合编码以得到编码后的特征图的步骤中，进行编码操作对应的公式表示为：

其中，

表示编码器的输出，

表示Softmax函数，

表示RGB图像经过ResNet50特征提取网络的特征向量，

表示RGB图像，

表示热力图像，

表示热力图像经过ResNet50特征提取网络的特征向量，

表示总特征向量的维数，

表示自然常数，

表示卷积操作，

表示当前层的输入。

3.根据权利要求2所述的基于Transformer的孪生多模态目标跟踪方法，其特征在于，基于Transformer的特征匹配网络对应的公式表示为：

其中，

表示Transformer网络的输出，

表示Query向量生成网络的输出，

表示Key向量生成网络的输出，

表示Value向量生成网络的输出，

表示当前层的维度，

均表示第一类型可学习参数，

均表示第二类型可学习参数，

表示矩阵转置。

4.根据权利要求3所述的基于Transformer的孪生多模态目标跟踪方法，其特征在于，所述步骤四具体包括：

将输入的模板特征图在背景特征图上进行上下左右平移，并生成大于原始背景特征图尺寸的匹配热力图；

使用大小为

；

其中，模板组

的大小设为

，第一特征图的特征图大小为

，

表示第i个模板的边长，

表示第i个特征向量的维度数。

5.根据权利要求4所述的基于Transformer的孪生多模态目标跟踪方法，其特征在于，在所述步骤五中，将所述第一特征图输入至基于多层感知机模型的回归器中进行回归框的回归的步骤中，对应的公式表示为：

其中，

表示多层感知机模型网络的输出，

表示最终回归的结果。

6.根据权利要求5所述的基于Transformer的孪生多模态目标跟踪方法，其特征在于，在所述步骤五中，在基于设计的损失函数返回误差计算值并进行反向传播的步骤中，对于输出的损失函数，存在如下公式：

其中，

表示当前框对于真实框的损失，

表示当前框与真实框的重合程度，

表示当前框与真实框坐标位置差量的值，

表示当前框与真实框坐标大小差量的值，

表示当前框与真实框横坐标的均方差的值，

表示当前框与真实框纵坐标的均方差的值，

表示当前框与真实框横坐标或纵坐标的均方差的值，

表示当前框与真实框之间高的差值，

表示当前框与真实框之间宽的差值，

表示目标真实框的横坐标，

表示目标真实框的纵坐标，

表示***预测的目标横坐标，

表示***预测的目标纵坐标，

表示当前框与真实框的缩放系，

表示当前框与真实框的大小的比，

表示当前框与真实框坐标大小的均方差的值，

表示当前框与真实框之间宽度的缩放系数，

表示当前框与真实框之间高度的缩放系数，

表示***预测的宽，

表示***预测的高，

表示目标真实框的宽，

表示目标真实框的高，

表示给定超参数。

7.根据权利要求6所述的基于Transformer的孪生多模态目标跟踪方法，其特征在于，在所述步骤五中，所述方法还包括：

在完成每轮反向传播的迭代计算后，使用预设的学习率公式对学习率进行更新，对应的学习率更新公式表示为：

其中，

表示更新后的学习率，

表示最小的学习率，

表示最大的学习率，

表示当前epoch的索引，

表示最大epoch的索引。