CN115423847B - 基于Transformer的孪生多模态目标跟踪方法 - Google Patents

基于Transformer的孪生多模态目标跟踪方法 Download PDF

Info

Publication number
CN115423847B
CN115423847B CN202211376018.2A CN202211376018A CN115423847B CN 115423847 B CN115423847 B CN 115423847B CN 202211376018 A CN202211376018 A CN 202211376018A CN 115423847 B CN115423847 B CN 115423847B
Authority
CN
China
Prior art keywords
network
representing
frame
feature
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211376018.2A
Other languages
English (en)
Other versions
CN115423847A (zh
Inventor
王辉
韩星宇
范自柱
杨辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Jiaotong University
Original Assignee
East China Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Jiaotong University filed Critical East China Jiaotong University
Priority to CN202211376018.2A priority Critical patent/CN115423847B/zh
Publication of CN115423847A publication Critical patent/CN115423847A/zh
Application granted granted Critical
Publication of CN115423847B publication Critical patent/CN115423847B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种基于Transformer的孪生多模态目标跟踪方法,获取场景中的RGB图像信息和热力图像信息;通过预训练的ResNet网络提取不同模态的高级特征,同时基于孪生网络的跨模态特征融合网络以获得不同模态的共同特征;然后将对应模态的高级特征输入到针对多模态设计的Transformer模块中进行跨模态信息融合,再输入到基于全连接卷积神经网络的回归网络中进行最终检测框的回归,在此过程中产生的误差将会反向传播到前序各个网络中,根据最终权重网络构建目标跟踪网络,以对多模态情况下的目标进行跟踪。本发明可准确预测物体在各模态的位置信息,提高目标跟踪与定位准确度,可广泛应用于多种场景。

Description

基于Transformer的孪生多模态目标跟踪方法
技术领域
本发明涉及计算机目标跟踪技术领域,特别涉及一种基于Transformer的孪生多模态目标跟踪方法。
背景技术
利用RGB与热红外(TIR)光谱进行视觉目标跟踪,简称RGBT跟踪,可以有效解决传统跟踪任务中目标容易丢失以及在极端光照条件下表现差的缺点。目前,常见的多模态目标跟踪方法包括基于传统图形学的数学跟踪方法以及基于孪生网络的特征匹配方法两大类。
基于传统图形学的数学跟踪方法一般是构造核函数,在目标检测区域f和滤波模板h做卷积运算,然后再通过相应的算法进行寻优,获取全局最优回归框。然而,此类方法中,如基于相关滤波算法、线性回归滤波算法以及多特征算法等目标跟踪方法,很难对于具有复杂前景的物体进行跟踪,导致容易发生易跟丢或无法精确回归目标框的问题。
发明内容
为此,本发明的实施例提出一种基于Transformer的孪生多模态目标跟踪方法,以解决上述技术问题。
本发明提出一种基于Transformer的孪生多模态目标跟踪方法,其中,所述方法包括如下步骤:
步骤一、通过摄像头与热成像装置采集当前场景下的RGB图像信息与热力图像信息;
步骤二、利用经过预训练的ResNet特征提取网络对RGB图像信息与热力图像信息分别进行特征提取以对应得到RGB图像特征与热力图像特征;基于线性假设的方法将RGB图像信息与热力图像信息进行对齐,使用基于ResNet的孪生网络对RGB图像信息与热力图像信息共同进行特征提取以得到RGB-热力图像特征;
步骤三、利用基于Transformer编码器的特征融合网络,将所述RGB图像特征、热力图像特征以及RGB-热力图像特征两两配合进行复合编码以得到编码后的特征图;
步骤四、将所述编码后的特征图输入至基于Transformer的特征匹配网络中进行扩充与匹配,以得到模板特征图与背景特征图的匹配结果,并利用基于循环窗口注意力的匹配机制对所述模板特征图与背景特征图的匹配结果进行扩充再匹配以得到第一特征图;
步骤五、将所述第一特征图输入至基于多层感知机模型的回归器中进行回归框的回归,并基于设计的损失函数返回误差计算值并进行反向传播;
步骤六、通过快速梯度下降法确认当前回归框的损失,当回归框损失最小时,结束训练并输出各网络权重文件;
步骤七、根据最终得到的各网络权重文件,构建多模态目标***并实时确定所跟踪的目标在图像中的位置。
本发明提出一种基于Transformer的孪生多模态目标跟踪方法,获取场景中的RGB图像信息和热力图像信息;通过预训练的ResNet网络提取不同模态的高级特征,同时基于孪生网络的跨模态特征融合网络以获得不同模态的共同特征;然后将对应模态的高级特征输入到针对多模态设计的Transformer模块中进行跨模态信息融合,再输入到基于全连接卷积神经网络的回归网络中进行最终检测框的回归,在此过程中产生的误差将会反向传播到前序各个网络中,根据最终权重网络构建目标跟踪网络,以对多模态情况下的目标进行跟踪。本发明可准确预测物体在各模态的位置信息,提高目标跟踪与定位准确度,可广泛应用于多种场景。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
本发明实施例的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明提出的基于Transformer的孪生多模态目标跟踪方法的流程图;
图2为本发明提出的基于Transformer的孪生多模态目标跟踪方法的原理框图;
图3为本发明提出的基于Transformer的孪生多模态目标跟踪方法的执行示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1至图3,本发明提出一种基于Transformer的孪生多模态目标跟踪方法,其中,所述方法包括如下步骤:
S101、通过摄像头与热成像装置采集当前场景下的RGB图像信息与热力图像信息。
S102、利用经过预训练的ResNet特征提取网络对RGB图像信息与热力图像信息分别进行特征提取以对应得到RGB图像特征与热力图像特征;基于线性假设的方法将RGB图像信息与热力图像信息进行对齐,使用基于ResNet的孪生网络对RGB图像信息与热力图像信息共同进行特征提取以得到RGB-热力图像特征。
在本发明中,上述的ResNet特征提取网络为ResNet50特征提取网络,具体的,在上述的步骤S102中,所述方法还包括:
S1021、利用ResNet50特征提取网络在ImageNet10k数据集上的预训练数据,对RGB图像信息与热力图像信息分别进行特征提取。
S1022、根据设定图像大小与给定的第一帧框图数据,对RGB图像信息中的RGB图像进行调整。
具体的,对RGB图像信息中的RGB图像进行调整的步骤中,对应的表达式为:
Figure 860974DEST_PATH_IMAGE001
其中,
Figure 246956DEST_PATH_IMAGE002
表示处理后的RGB图像的输出,
Figure 761113DEST_PATH_IMAGE003
表示当前RGB图像的输入,
Figure 625164DEST_PATH_IMAGE004
表示当前热力图像的大小,
Figure 173957DEST_PATH_IMAGE005
表示当前RGB图像的大小,
Figure 730841DEST_PATH_IMAGE006
表示图像中心点的偏移量。
S1023、利用KL散度对所述ResNet50特征提取网络进行约束计算以得到当前输出的损失值。
具体的,利用KL散度对所述ResNet50特征提取网络进行约束计算以得到当前输出的损失值的步骤中,对应的表达式为:
Figure 466715DEST_PATH_IMAGE007
其中,
Figure 400036DEST_PATH_IMAGE008
表示当前输出的损失值,
Figure 537757DEST_PATH_IMAGE009
表示输出特征向量的维度,
Figure 265541DEST_PATH_IMAGE010
表示RGB图像经过ResNet50特征提取网络所输出的特征向量中的第
Figure 488712DEST_PATH_IMAGE011
列,
Figure 960145DEST_PATH_IMAGE012
表示热力图像经过ResNet50特征提取网络所输出的特征向量中的第
Figure 217951DEST_PATH_IMAGE011
列,
Figure 382216DEST_PATH_IMAGE011
表示输出的特征向量中的列数。
S1024、根据当前输出的损失值计算得到整体网络对应的最终网络损失值。
其中,所述整体网络由ResNet特征提取网络(相当于图2中的RGB特征提取网络与热力特征提取网络)、基于ResNet的孪生网络(相当于图2中的热力-RGB融合特征提取网络)、基于Transformer编码器的特征融合网络(相当于图2中的特征融合模块)以及基于Transformer的特征匹配网络(相当于图2中的基于Transformer的特征匹配-扩充网络)组成。在此还需要说明的是,在图2中,L表示当前特征的数量,r表示模板的大小,d表示当前特征的维度。此外,图2中,Q表示经过Query向量生成网络的操作,K表示经过Key向量生成网络的操作,V表示经过Value向量生成网络的操作。
在本步骤中,整体网络对应的最终网络损失值表示为:
Figure 89753DEST_PATH_IMAGE013
其中,
Figure 99298DEST_PATH_IMAGE014
表示整体网络对应的最终网络损失值,
Figure 211610DEST_PATH_IMAGE015
表示后续网络反向传播回的损失值,
Figure 281197DEST_PATH_IMAGE016
表示超参数。在本实施例中,超参数
Figure 744540DEST_PATH_IMAGE016
的值为0.97。
S103、利用基于Transformer编码器的特征融合网络,将所述RGB图像特征、热力图像特征以及RGB-热力图像特征两两配合进行复合编码以得到编码后的特征图。
在本步骤中,将RGB图像特征、热力图像特征以及RGB-热力图像特征两两配合进行复合编码以得到编码后的特征图的步骤中,进行编码操作对应的公式表示为:
Figure 292196DEST_PATH_IMAGE017
Figure 524594DEST_PATH_IMAGE018
其中,
Figure 765082DEST_PATH_IMAGE019
表示编码器的输出,
Figure 450141DEST_PATH_IMAGE020
表示Softmax函数,
Figure 67068DEST_PATH_IMAGE021
表示RGB图像经过ResNet50特征提取网络的特征向量,
Figure 888393DEST_PATH_IMAGE022
表示RGB图像,
Figure 565362DEST_PATH_IMAGE023
表示热力图像,
Figure 737717DEST_PATH_IMAGE024
表示热力图像经过ResNet50特征提取网络的特征向量,
Figure 627176DEST_PATH_IMAGE025
表示总特征向量的维数,
Figure 303008DEST_PATH_IMAGE026
表示自然常数,
Figure 502609DEST_PATH_IMAGE027
表示卷积操作,
Figure 162260DEST_PATH_IMAGE028
表示当前层的输入。
进一步的,基于Transformer的特征匹配网络对应的公式表示为:
Figure 855410DEST_PATH_IMAGE029
Figure 651327DEST_PATH_IMAGE030
Figure 404520DEST_PATH_IMAGE031
Figure 551467DEST_PATH_IMAGE032
其中,
Figure 48308DEST_PATH_IMAGE033
表示Transformer网络的输出,
Figure 964311DEST_PATH_IMAGE034
表示Query向量生成网络的输出,
Figure 622826DEST_PATH_IMAGE035
表示Key向量生成网络的输出,
Figure 257069DEST_PATH_IMAGE036
表示Value向量生成网络的输出,
Figure 557600DEST_PATH_IMAGE037
表示当前层的维度,
Figure 325181DEST_PATH_IMAGE038
均表示第一类型可学习参数,
Figure 420176DEST_PATH_IMAGE039
均表示第二类型可学习参数,
Figure 276136DEST_PATH_IMAGE040
表示矩阵转置。
S104、将所述编码后的特征图输入至基于Transformer的特征匹配网络中进行扩充与匹配,以得到模板特征图与背景特征图的匹配结果,并利用基于循环窗口注意力的匹配机制对所述模板特征图与背景特征图的匹配结果进行扩充再匹配以得到第一特征图。
具体的,步骤S104具体包括:
S1041、将输入的模板特征图在背景特征图上进行上下左右平移,并生成大于原始背景特征图尺寸的匹配热力图。
S1042、使用大小为
Figure 380358DEST_PATH_IMAGE041
的模板组,对扩充过的编码后的特征图进行模板帧与背景帧的匹配,以得到模板特征图与背景特征图的匹配结果;其中,进行匹配时的步幅大小为
Figure 5375DEST_PATH_IMAGE042
其中,模板组
Figure 271271DEST_PATH_IMAGE041
的大小设为
Figure 614528DEST_PATH_IMAGE043
,第一特征图的特征图大小为
Figure 256862DEST_PATH_IMAGE044
Figure 1964DEST_PATH_IMAGE045
表示第i个模板的边长,
Figure 438761DEST_PATH_IMAGE046
表示第i个特征向量的维度数。
S105、将所述第一特征图输入至基于多层感知机模型的回归器中进行回归框的回归,并基于设计的损失函数返回误差计算值并进行反向传播。
在步骤S105中,将第一特征图输入至基于MLP的回归器中进行回归框的回归的步骤中,对应的公式表示为:
Figure 269314DEST_PATH_IMAGE047
Figure 715339DEST_PATH_IMAGE048
其中,
Figure 49368DEST_PATH_IMAGE049
表示多层感知机模型网络的输出,
Figure 922646DEST_PATH_IMAGE050
表示最终回归的结果。
进一步的,对于输出的损失函数,存在如下公式:
Figure 240495DEST_PATH_IMAGE051
Figure 959053DEST_PATH_IMAGE052
Figure 678747DEST_PATH_IMAGE053
其中,
Figure 722926DEST_PATH_IMAGE054
表示当前框对于真实框的损失,
Figure 262492DEST_PATH_IMAGE055
表示当前框与真实框的重合程度,
Figure 50319DEST_PATH_IMAGE056
表示当前框与真实框坐标位置差量的值,
Figure 624520DEST_PATH_IMAGE057
表示当前框与真实框坐标大小差量的值,
Figure 574022DEST_PATH_IMAGE058
表示当前框与真实框横坐标的均方差的值,
Figure 600884DEST_PATH_IMAGE059
表示当前框与真实框纵坐标的均方差的值,
Figure 929752DEST_PATH_IMAGE060
表示当前框与真实框横坐标或纵坐标的均方差的值,
Figure 358460DEST_PATH_IMAGE061
表示当前框与真实框之间高的差值,
Figure 744442DEST_PATH_IMAGE062
表示当前框与真实框之间宽的差值,
Figure 258600DEST_PATH_IMAGE063
表示目标真实框的横坐标,
Figure 388230DEST_PATH_IMAGE064
表示目标真实框的纵坐标,
Figure 671443DEST_PATH_IMAGE065
表示***预测的目标横坐标,
Figure 228327DEST_PATH_IMAGE066
表示***预测的目标纵坐标,
Figure 229781DEST_PATH_IMAGE067
表示当前框与真实框的缩放系,
Figure 163102DEST_PATH_IMAGE068
表示当前框与真实框的大小的比,
Figure 35243DEST_PATH_IMAGE069
表示当前框与真实框坐标大小的均方差的值,
Figure 28607DEST_PATH_IMAGE070
表示当前框与真实框之间宽度的缩放系数,
Figure 517357DEST_PATH_IMAGE071
表示当前框与真实框之间高度的缩放系数,
Figure 723210DEST_PATH_IMAGE072
表示根据当前框与真实框之间宽度或高度的缩放系数计算得到的值,
Figure 981016DEST_PATH_IMAGE073
表示***预测的宽,
Figure 145281DEST_PATH_IMAGE074
表示***预测的高,
Figure 590169DEST_PATH_IMAGE075
表示目标真实框的宽,
Figure 865293DEST_PATH_IMAGE076
表示目标真实框的高,
Figure 243184DEST_PATH_IMAGE077
表示给定超参数。在本实施例中,超参数
Figure 47192DEST_PATH_IMAGE077
的值为4。
进一步的,在完成每轮反向传播的迭代计算后,使用预设的学习率公式对学习率进行更新,对应的学习率更新公式表示为:
Figure 510535DEST_PATH_IMAGE078
其中,
Figure 323770DEST_PATH_IMAGE079
表示更新后的学习率,
Figure 556168DEST_PATH_IMAGE080
表示最小的学习率,
Figure 247523DEST_PATH_IMAGE081
表示最大的学习率,
Figure 198162DEST_PATH_IMAGE082
表示当前epoch的索引,
Figure 549509DEST_PATH_IMAGE083
表示最大epoch的索引。
本实施例中,优选的总迭代训练次数被设定为500,初始学习率设定为0.003。
S106、通过快速梯度下降法确认当前回归框的损失,当回归框损失最小时,结束训练并输出各网络权重文件。
S107、根据最终得到的各网络权重文件,构建多模态目标***并实时确定所跟踪的目标在图像中的位置。
本实施例中,目标跟踪框为算法输出的对角顶点的坐标所围成的框,本实施例中基于Transformer混合架构提出多模态特征融合算法,并将其应用于多模态目标跟踪之中,可以大幅提高目标跟踪任务的准确性与鲁棒性。此外,利用基于孪生网络的共同特征提取网络,以KL散度这一数学指标配合反向传播的损失值,作为两个模态之间公共特征的提取算法;通过改变步长参数,既可以保证做到全局搜索,又可以保证算法的收敛速度;将Transformer混合架构应用于多模态目标跟踪之中具有一般基于深度学习及传统图形学算法的目标跟踪方法的优点,同时又具有跟踪精度高,避免目标丢失的特点。
本发明提出一种基于Transformer的孪生多模态目标跟踪方法,获取场景中的RGB图像信息和热力图像信息;通过预训练的ResNet网络提取不同模态的高级特征,同时基于孪生网络的跨模态特征融合网络以获得不同模态的共同特征;然后将对应模态的高级特征输入到针对多模态设计的Transformer模块中进行跨模态信息融合,再输入到基于全连接卷积神经网络的回归网络中进行最终检测框的回归,在此过程中产生的误差将会反向传播到前序各个网络中,根据最终权重网络构建目标跟踪网络,以对多模态情况下的目标进行跟踪。本发明可准确预测物体在各模态的位置信息,提高目标跟踪与定位准确度,可广泛应用于多种场景。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (7)

1.一种基于Transformer的孪生多模态目标跟踪方法,其特征在于,所述方法包括如下步骤:
步骤一、通过摄像头与热成像装置采集当前场景下的RGB图像信息与热力图像信息;
步骤二、利用经过预训练的ResNet特征提取网络对RGB图像信息与热力图像信息分别进行特征提取以对应得到RGB图像特征与热力图像特征;基于线性假设的方法将RGB图像信息与热力图像信息进行对齐,使用基于ResNet的孪生网络对RGB图像信息与热力图像信息共同进行特征提取以得到RGB-热力图像特征;
步骤三、利用基于Transformer编码器的特征融合网络,将所述RGB图像特征、热力图像特征以及RGB-热力图像特征两两配合进行复合编码以得到编码后的特征图;
步骤四、将所述编码后的特征图输入至基于Transformer的特征匹配网络中进行扩充与匹配,以得到模板特征图与背景特征图的匹配结果,并利用基于循环窗口注意力的匹配机制对所述模板特征图与背景特征图的匹配结果进行扩充再匹配以得到第一特征图;
步骤五、将所述第一特征图输入至基于多层感知机模型的回归器中进行回归框的回归,并基于设计的损失函数返回误差计算值并进行反向传播;
步骤六、通过快速梯度下降法确认当前回归框的损失,当回归框损失最小时,结束训练并输出各网络权重文件;
步骤七、根据最终得到的各网络权重文件,构建多模态目标***并实时确定所跟踪的目标在图像中的位置;
所述ResNet特征提取网络为ResNet50特征提取网络,在所述步骤二中,所述方法还包括:
利用ResNet50特征提取网络在ImageNet10k数据集上的预训练数据,对RGB图像信息与热力图像信息分别进行特征提取;
根据设定图像大小与给定的第一帧框图数据,对RGB图像信息中的RGB图像进行调整;
利用KL散度对所述ResNet50特征提取网络进行约束计算以得到当前输出的损失值;
根据当前输出的损失值计算得到整体网络对应的最终网络损失值,其中所述整体网络由ResNet特征提取网络、基于ResNet的孪生网络、基于Transformer编码器的特征融合网络以及基于Transformer的特征匹配网络组成;
对RGB图像信息中的RGB图像进行调整的步骤中,对应的表达式为:
Figure 700085DEST_PATH_IMAGE001
其中,
Figure 983299DEST_PATH_IMAGE002
表示处理后的RGB图像的输出,
Figure 602499DEST_PATH_IMAGE003
表示当前RGB图像的输入,
Figure 135111DEST_PATH_IMAGE004
表示当前热力图像的大小,
Figure 678219DEST_PATH_IMAGE005
表示当前RGB图像的大小,
Figure 815940DEST_PATH_IMAGE006
表示图像中心点的偏移量;
利用KL散度对所述ResNet50特征提取网络进行约束计算以得到当前输出的损失值的步骤中,对应的表达式为:
Figure 606041DEST_PATH_IMAGE007
其中,
Figure 625950DEST_PATH_IMAGE008
表示当前输出的损失值,
Figure 707169DEST_PATH_IMAGE009
表示输出特征向量的维度,
Figure 699396DEST_PATH_IMAGE010
表示RGB图像经过ResNet50特征提取网络所输出的特征向量中的第
Figure 722716DEST_PATH_IMAGE011
列,
Figure 433183DEST_PATH_IMAGE012
表示热力图像经过ResNet50特征提取网络所输出的特征向量中的第
Figure 49584DEST_PATH_IMAGE011
列,
Figure 161897DEST_PATH_IMAGE011
表示输出的特征向量中的列数;
在根据当前输出的损失值计算得到整体网络对应的最终网络损失值的步骤中,整体网络对应的最终网络损失值表示为:
Figure 90539DEST_PATH_IMAGE013
其中,
Figure 288302DEST_PATH_IMAGE014
表示整体网络对应的最终网络损失值,
Figure 711324DEST_PATH_IMAGE015
表示后续网络反向传播回的损失值,
Figure 678143DEST_PATH_IMAGE016
表示超参数。
2.根据权利要求1所述的基于Transformer的孪生多模态目标跟踪方法,其特征在于,在所述步骤三中,将所述RGB图像特征、热力图像特征以及RGB-热力图像特征两两配合进行复合编码以得到编码后的特征图的步骤中,进行编码操作对应的公式表示为:
Figure DEST_PATH_IMAGE017
Figure 512107DEST_PATH_IMAGE018
其中,
Figure 806953DEST_PATH_IMAGE019
表示编码器的输出,
Figure 158300DEST_PATH_IMAGE020
表示Softmax函数,
Figure 307522DEST_PATH_IMAGE021
表示RGB图像经过ResNet50特征提取网络的特征向量,
Figure 515649DEST_PATH_IMAGE022
表示RGB图像,
Figure 501054DEST_PATH_IMAGE023
表示热力图像,
Figure 515146DEST_PATH_IMAGE024
表示热力图像经过ResNet50特征提取网络的特征向量,
Figure 456557DEST_PATH_IMAGE025
表示总特征向量的维数,
Figure 835586DEST_PATH_IMAGE026
表示自然常数,
Figure 107954DEST_PATH_IMAGE027
表示卷积操作,
Figure 801104DEST_PATH_IMAGE028
表示当前层的输入。
3.根据权利要求2所述的基于Transformer的孪生多模态目标跟踪方法,其特征在于,基于Transformer的特征匹配网络对应的公式表示为:
Figure 456076DEST_PATH_IMAGE029
Figure 209268DEST_PATH_IMAGE030
Figure 966003DEST_PATH_IMAGE031
Figure 462843DEST_PATH_IMAGE032
其中,
Figure 237901DEST_PATH_IMAGE033
表示Transformer网络的输出,
Figure 896416DEST_PATH_IMAGE034
表示Query向量生成网络的输出,
Figure 140446DEST_PATH_IMAGE035
表示Key向量生成网络的输出,
Figure 175398DEST_PATH_IMAGE036
表示Value向量生成网络的输出,
Figure 70542DEST_PATH_IMAGE037
表示当前层的维度,
Figure 899958DEST_PATH_IMAGE038
均表示第一类型可学习参数,
Figure 631285DEST_PATH_IMAGE039
均表示第二类型可学习参数,
Figure 469928DEST_PATH_IMAGE040
表示矩阵转置。
4.根据权利要求3所述的基于Transformer的孪生多模态目标跟踪方法,其特征在于,所述步骤四具体包括:
将输入的模板特征图在背景特征图上进行上下左右平移,并生成大于原始背景特征图尺寸的匹配热力图;
使用大小为
Figure 953999DEST_PATH_IMAGE041
的模板组,对扩充过的编码后的特征图进行模板帧与背景帧的匹配,以得到模板特征图与背景特征图的匹配结果;其中,进行匹配时的步幅大小为
Figure 219895DEST_PATH_IMAGE042
其中,模板组
Figure 170009DEST_PATH_IMAGE041
的大小设为
Figure 812343DEST_PATH_IMAGE043
,第一特征图的特征图大小为
Figure 416499DEST_PATH_IMAGE044
Figure 853297DEST_PATH_IMAGE045
表示第i个模板的边长,
Figure 293637DEST_PATH_IMAGE046
表示第i个特征向量的维度数。
5.根据权利要求4所述的基于Transformer的孪生多模态目标跟踪方法,其特征在于,在所述步骤五中,将所述第一特征图输入至基于多层感知机模型的回归器中进行回归框的回归的步骤中,对应的公式表示为:
Figure 208503DEST_PATH_IMAGE047
Figure 932745DEST_PATH_IMAGE048
其中,
Figure 540444DEST_PATH_IMAGE049
表示多层感知机模型网络的输出,
Figure 468080DEST_PATH_IMAGE050
表示最终回归的结果。
6.根据权利要求5所述的基于Transformer的孪生多模态目标跟踪方法,其特征在于,在所述步骤五中,在基于设计的损失函数返回误差计算值并进行反向传播的步骤中,对于输出的损失函数,存在如下公式:
Figure 186637DEST_PATH_IMAGE051
其中,
Figure 765386DEST_PATH_IMAGE052
表示当前框对于真实框的损失,
Figure 543986DEST_PATH_IMAGE053
表示当前框与真实框的重合程度,
Figure 958918DEST_PATH_IMAGE054
表示当前框与真实框坐标位置差量的值,
Figure 481167DEST_PATH_IMAGE055
表示当前框与真实框坐标大小差量的值,
Figure 914422DEST_PATH_IMAGE056
表示当前框与真实框横坐标的均方差的值,
Figure 598344DEST_PATH_IMAGE057
表示当前框与真实框纵坐标的均方差的值,
Figure 491783DEST_PATH_IMAGE058
表示当前框与真实框横坐标或纵坐标的均方差的值,
Figure DEST_PATH_IMAGE059
表示当前框与真实框之间高的差值,
Figure 145618DEST_PATH_IMAGE060
表示当前框与真实框之间宽的差值,
Figure 308747DEST_PATH_IMAGE061
表示目标真实框的横坐标,
Figure 304515DEST_PATH_IMAGE062
表示目标真实框的纵坐标,
Figure 818673DEST_PATH_IMAGE063
表示***预测的目标横坐标,
Figure 807358DEST_PATH_IMAGE064
表示***预测的目标纵坐标,
Figure 824993DEST_PATH_IMAGE065
表示当前框与真实框的缩放系,
Figure 257242DEST_PATH_IMAGE066
表示当前框与真实框的大小的比,
Figure 993117DEST_PATH_IMAGE067
表示当前框与真实框坐标大小的均方差的值,
Figure 785492DEST_PATH_IMAGE068
表示当前框与真实框之间宽度的缩放系数,
Figure 657633DEST_PATH_IMAGE069
表示当前框与真实框之间高度的缩放系数,
Figure 965511DEST_PATH_IMAGE070
表示根据当前框与真实框之间宽度或高度的缩放系数计算得到的值,
Figure 188682DEST_PATH_IMAGE071
表示***预测的宽,
Figure DEST_PATH_IMAGE072
表示***预测的高,
Figure 66640DEST_PATH_IMAGE073
表示目标真实框的宽,
Figure 58866DEST_PATH_IMAGE074
表示目标真实框的高,
Figure 159151DEST_PATH_IMAGE075
表示给定超参数。
7.根据权利要求6所述的基于Transformer的孪生多模态目标跟踪方法,其特征在于,在所述步骤五中,所述方法还包括:
在完成每轮反向传播的迭代计算后,使用预设的学习率公式对学习率进行更新,对应的学习率更新公式表示为:
Figure 869618DEST_PATH_IMAGE076
其中,
Figure 754529DEST_PATH_IMAGE077
表示更新后的学习率,
Figure 866841DEST_PATH_IMAGE078
表示最小的学习率,
Figure 795483DEST_PATH_IMAGE079
表示最大的学习率,
Figure 993246DEST_PATH_IMAGE080
表示当前epoch的索引,
Figure 416269DEST_PATH_IMAGE081
表示最大epoch的索引。
CN202211376018.2A 2022-11-04 2022-11-04 基于Transformer的孪生多模态目标跟踪方法 Active CN115423847B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211376018.2A CN115423847B (zh) 2022-11-04 2022-11-04 基于Transformer的孪生多模态目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211376018.2A CN115423847B (zh) 2022-11-04 2022-11-04 基于Transformer的孪生多模态目标跟踪方法

Publications (2)

Publication Number Publication Date
CN115423847A CN115423847A (zh) 2022-12-02
CN115423847B true CN115423847B (zh) 2023-02-07

Family

ID=84207365

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211376018.2A Active CN115423847B (zh) 2022-11-04 2022-11-04 基于Transformer的孪生多模态目标跟踪方法

Country Status (1)

Country Link
CN (1) CN115423847B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116563569B (zh) * 2023-04-17 2023-11-17 昆明理工大学 一种基于混合孪生网络的异源图像关键点检测方法及***
CN117876824B (zh) * 2024-03-11 2024-05-10 华东交通大学 多模态人群计数模型训练方法、***、存储介质及设备
CN117893873B (zh) * 2024-03-18 2024-06-07 安徽大学 一种基于多模态信息融合的主动跟踪方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110021033A (zh) * 2019-02-22 2019-07-16 广西师范大学 一种基于金字塔孪生网络的目标跟踪方法
CN110223324A (zh) * 2019-06-05 2019-09-10 东华大学 一种基于鲁棒特征表示的孪生匹配网络的目标跟踪方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11599730B2 (en) * 2019-12-09 2023-03-07 Salesforce.Com, Inc. Learning dialogue state tracking with limited labeled data
US11604719B2 (en) * 2021-02-01 2023-03-14 Microsoft Technology Licensing, Llc. Automated program repair using stack traces and back translations
CN114372173A (zh) * 2022-01-11 2022-04-19 中国人民公安大学 一种基于Transformer架构的自然语言目标跟踪方法
CN115187799A (zh) * 2022-07-04 2022-10-14 河南工业大学 一种单目标长时跟踪方法
CN115205590A (zh) * 2022-07-11 2022-10-18 齐齐哈尔大学 一种基于互补集成Transformer网络的高光谱图像分类方法
CN115100235B (zh) * 2022-08-18 2022-12-20 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种目标跟踪方法、***及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110021033A (zh) * 2019-02-22 2019-07-16 广西师范大学 一种基于金字塔孪生网络的目标跟踪方法
CN110223324A (zh) * 2019-06-05 2019-09-10 东华大学 一种基于鲁棒特征表示的孪生匹配网络的目标跟踪方法

Also Published As

Publication number Publication date
CN115423847A (zh) 2022-12-02

Similar Documents

Publication Publication Date Title
CN115423847B (zh) 基于Transformer的孪生多模态目标跟踪方法
CN113902926B (zh) 一种基于自注意力机制的通用图像目标检测方法和装置
CN110781838A (zh) 一种复杂场景下行人的多模态轨迹预测方法
CN111832484A (zh) 一种基于卷积感知哈希算法的回环检测方法
CN113297972B (zh) 一种基于数据融合深度学习的变电站设备缺陷智能分析方法
CN116049459B (zh) 跨模态互检索的方法、装置、服务器及存储介质
CN115439694A (zh) 一种基于深度学习的高精度点云补全方法及装置
CN111460894A (zh) 一种基于卷积神经网络的车标智能检测方法
CN116385761A (zh) 一种融合rgb与红外信息的3d目标检测方法
Ding et al. Fh-net: A fast hierarchical network for scene flow estimation on real-world point clouds
Lin et al. DA-Net: density-adaptive downsampling network for point cloud classification via end-to-end learning
CN114565789A (zh) 一种基于集合预测的文本检测方法、***、装置及介质
CN117765258A (zh) 基于密度自适应和注意力机制的大规模点云语义分割方法
CN111578956A (zh) 一种基于深度学习的视觉slam定位方法
WO2023222643A1 (en) Method for image segmentation matching
CN115578574A (zh) 一种基于深度学习和拓扑感知的三维点云补全方法
CN116228825A (zh) 一种基于显著锚点几何嵌入的点云配准方法
Xiong et al. SPEAL: Skeletal Prior Embedded Attention Learning for Cross-Source Point Cloud Registration
CN114399628A (zh) 复杂空间环境下的绝缘子高效检测***
CN113628104A (zh) 针对无序图像增量式SfM的初始图像对选取方法
CN111126310A (zh) 一种基于场景迁移的行人性别识别方法
Kaviani et al. Semi-Supervised 3D hand shape and pose estimation with label propagation
CN117523549B (zh) 基于深宽知识蒸馏的三维点云物体识别方法
CN113095335B (zh) 一种基于类别一致性深度学习的图像识别方法
CN115830548B (zh) 一种无监督多领域融合的自适应行人重识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant