CN115423847B - 基于Transformer的孪生多模态目标跟踪方法 - Google Patents
基于Transformer的孪生多模态目标跟踪方法 Download PDFInfo
- Publication number
- CN115423847B CN115423847B CN202211376018.2A CN202211376018A CN115423847B CN 115423847 B CN115423847 B CN 115423847B CN 202211376018 A CN202211376018 A CN 202211376018A CN 115423847 B CN115423847 B CN 115423847B
- Authority
- CN
- China
- Prior art keywords
- network
- representing
- frame
- feature
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种基于Transformer的孪生多模态目标跟踪方法,获取场景中的RGB图像信息和热力图像信息;通过预训练的ResNet网络提取不同模态的高级特征,同时基于孪生网络的跨模态特征融合网络以获得不同模态的共同特征;然后将对应模态的高级特征输入到针对多模态设计的Transformer模块中进行跨模态信息融合,再输入到基于全连接卷积神经网络的回归网络中进行最终检测框的回归,在此过程中产生的误差将会反向传播到前序各个网络中,根据最终权重网络构建目标跟踪网络,以对多模态情况下的目标进行跟踪。本发明可准确预测物体在各模态的位置信息,提高目标跟踪与定位准确度,可广泛应用于多种场景。
Description
技术领域
本发明涉及计算机目标跟踪技术领域,特别涉及一种基于Transformer的孪生多模态目标跟踪方法。
背景技术
利用RGB与热红外(TIR)光谱进行视觉目标跟踪,简称RGBT跟踪,可以有效解决传统跟踪任务中目标容易丢失以及在极端光照条件下表现差的缺点。目前,常见的多模态目标跟踪方法包括基于传统图形学的数学跟踪方法以及基于孪生网络的特征匹配方法两大类。
基于传统图形学的数学跟踪方法一般是构造核函数,在目标检测区域f和滤波模板h做卷积运算,然后再通过相应的算法进行寻优,获取全局最优回归框。然而,此类方法中,如基于相关滤波算法、线性回归滤波算法以及多特征算法等目标跟踪方法,很难对于具有复杂前景的物体进行跟踪,导致容易发生易跟丢或无法精确回归目标框的问题。
发明内容
为此,本发明的实施例提出一种基于Transformer的孪生多模态目标跟踪方法,以解决上述技术问题。
本发明提出一种基于Transformer的孪生多模态目标跟踪方法,其中,所述方法包括如下步骤:
步骤一、通过摄像头与热成像装置采集当前场景下的RGB图像信息与热力图像信息;
步骤二、利用经过预训练的ResNet特征提取网络对RGB图像信息与热力图像信息分别进行特征提取以对应得到RGB图像特征与热力图像特征;基于线性假设的方法将RGB图像信息与热力图像信息进行对齐,使用基于ResNet的孪生网络对RGB图像信息与热力图像信息共同进行特征提取以得到RGB-热力图像特征;
步骤三、利用基于Transformer编码器的特征融合网络,将所述RGB图像特征、热力图像特征以及RGB-热力图像特征两两配合进行复合编码以得到编码后的特征图;
步骤四、将所述编码后的特征图输入至基于Transformer的特征匹配网络中进行扩充与匹配,以得到模板特征图与背景特征图的匹配结果,并利用基于循环窗口注意力的匹配机制对所述模板特征图与背景特征图的匹配结果进行扩充再匹配以得到第一特征图;
步骤五、将所述第一特征图输入至基于多层感知机模型的回归器中进行回归框的回归,并基于设计的损失函数返回误差计算值并进行反向传播;
步骤六、通过快速梯度下降法确认当前回归框的损失,当回归框损失最小时,结束训练并输出各网络权重文件;
步骤七、根据最终得到的各网络权重文件,构建多模态目标***并实时确定所跟踪的目标在图像中的位置。
本发明提出一种基于Transformer的孪生多模态目标跟踪方法,获取场景中的RGB图像信息和热力图像信息;通过预训练的ResNet网络提取不同模态的高级特征,同时基于孪生网络的跨模态特征融合网络以获得不同模态的共同特征;然后将对应模态的高级特征输入到针对多模态设计的Transformer模块中进行跨模态信息融合,再输入到基于全连接卷积神经网络的回归网络中进行最终检测框的回归,在此过程中产生的误差将会反向传播到前序各个网络中,根据最终权重网络构建目标跟踪网络,以对多模态情况下的目标进行跟踪。本发明可准确预测物体在各模态的位置信息,提高目标跟踪与定位准确度,可广泛应用于多种场景。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
本发明实施例的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明提出的基于Transformer的孪生多模态目标跟踪方法的流程图;
图2为本发明提出的基于Transformer的孪生多模态目标跟踪方法的原理框图;
图3为本发明提出的基于Transformer的孪生多模态目标跟踪方法的执行示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1至图3,本发明提出一种基于Transformer的孪生多模态目标跟踪方法,其中,所述方法包括如下步骤:
S101、通过摄像头与热成像装置采集当前场景下的RGB图像信息与热力图像信息。
S102、利用经过预训练的ResNet特征提取网络对RGB图像信息与热力图像信息分别进行特征提取以对应得到RGB图像特征与热力图像特征;基于线性假设的方法将RGB图像信息与热力图像信息进行对齐,使用基于ResNet的孪生网络对RGB图像信息与热力图像信息共同进行特征提取以得到RGB-热力图像特征。
在本发明中,上述的ResNet特征提取网络为ResNet50特征提取网络,具体的,在上述的步骤S102中,所述方法还包括:
S1021、利用ResNet50特征提取网络在ImageNet10k数据集上的预训练数据,对RGB图像信息与热力图像信息分别进行特征提取。
S1022、根据设定图像大小与给定的第一帧框图数据,对RGB图像信息中的RGB图像进行调整。
具体的,对RGB图像信息中的RGB图像进行调整的步骤中,对应的表达式为:
S1023、利用KL散度对所述ResNet50特征提取网络进行约束计算以得到当前输出的损失值。
具体的,利用KL散度对所述ResNet50特征提取网络进行约束计算以得到当前输出的损失值的步骤中,对应的表达式为:
其中,表示当前输出的损失值,表示输出特征向量的维度,表示RGB图像经过ResNet50特征提取网络所输出的特征向量中的第列,表示热力图像经过ResNet50特征提取网络所输出的特征向量中的第列,表示输出的特征向量中的列数。
S1024、根据当前输出的损失值计算得到整体网络对应的最终网络损失值。
其中,所述整体网络由ResNet特征提取网络(相当于图2中的RGB特征提取网络与热力特征提取网络)、基于ResNet的孪生网络(相当于图2中的热力-RGB融合特征提取网络)、基于Transformer编码器的特征融合网络(相当于图2中的特征融合模块)以及基于Transformer的特征匹配网络(相当于图2中的基于Transformer的特征匹配-扩充网络)组成。在此还需要说明的是,在图2中,L表示当前特征的数量,r表示模板的大小,d表示当前特征的维度。此外,图2中,Q表示经过Query向量生成网络的操作,K表示经过Key向量生成网络的操作,V表示经过Value向量生成网络的操作。
在本步骤中,整体网络对应的最终网络损失值表示为:
S103、利用基于Transformer编码器的特征融合网络,将所述RGB图像特征、热力图像特征以及RGB-热力图像特征两两配合进行复合编码以得到编码后的特征图。
在本步骤中,将RGB图像特征、热力图像特征以及RGB-热力图像特征两两配合进行复合编码以得到编码后的特征图的步骤中,进行编码操作对应的公式表示为:
其中,表示编码器的输出,表示Softmax函数,表示RGB图像经过ResNet50特征提取网络的特征向量,表示RGB图像,表示热力图像,表示热力图像经过ResNet50特征提取网络的特征向量,表示总特征向量的维数,表示自然常数,表示卷积操作,表示当前层的输入。
进一步的,基于Transformer的特征匹配网络对应的公式表示为:
其中,表示Transformer网络的输出,表示Query向量生成网络的输出,表示Key向量生成网络的输出,表示Value向量生成网络的输出,表示当前层的维度,均表示第一类型可学习参数,均表示第二类型可学习参数,表示矩阵转置。
S104、将所述编码后的特征图输入至基于Transformer的特征匹配网络中进行扩充与匹配,以得到模板特征图与背景特征图的匹配结果,并利用基于循环窗口注意力的匹配机制对所述模板特征图与背景特征图的匹配结果进行扩充再匹配以得到第一特征图。
具体的,步骤S104具体包括:
S1041、将输入的模板特征图在背景特征图上进行上下左右平移,并生成大于原始背景特征图尺寸的匹配热力图。
S105、将所述第一特征图输入至基于多层感知机模型的回归器中进行回归框的回归,并基于设计的损失函数返回误差计算值并进行反向传播。
在步骤S105中,将第一特征图输入至基于MLP的回归器中进行回归框的回归的步骤中,对应的公式表示为:
进一步的,对于输出的损失函数,存在如下公式:
其中,表示当前框对于真实框的损失,表示当前框与真实框的重合程度,表示当前框与真实框坐标位置差量的值,表示当前框与真实框坐标大小差量的值,表示当前框与真实框横坐标的均方差的值,表示当前框与真实框纵坐标的均方差的值,表示当前框与真实框横坐标或纵坐标的均方差的值,表示当前框与真实框之间高的差值,表示当前框与真实框之间宽的差值,表示目标真实框的横坐标,表示目标真实框的纵坐标,表示***预测的目标横坐标,表示***预测的目标纵坐标,表示当前框与真实框的缩放系,表示当前框与真实框的大小的比,表示当前框与真实框坐标大小的均方差的值,表示当前框与真实框之间宽度的缩放系数,表示当前框与真实框之间高度的缩放系数,表示根据当前框与真实框之间宽度或高度的缩放系数计算得到的值, 表示***预测的宽,表示***预测的高,表示目标真实框的宽,表示目标真实框的高,表示给定超参数。在本实施例中,超参数的值为4。
进一步的,在完成每轮反向传播的迭代计算后,使用预设的学习率公式对学习率进行更新,对应的学习率更新公式表示为:
本实施例中,优选的总迭代训练次数被设定为500,初始学习率设定为0.003。
S106、通过快速梯度下降法确认当前回归框的损失,当回归框损失最小时,结束训练并输出各网络权重文件。
S107、根据最终得到的各网络权重文件,构建多模态目标***并实时确定所跟踪的目标在图像中的位置。
本实施例中,目标跟踪框为算法输出的对角顶点的坐标所围成的框,本实施例中基于Transformer混合架构提出多模态特征融合算法,并将其应用于多模态目标跟踪之中,可以大幅提高目标跟踪任务的准确性与鲁棒性。此外,利用基于孪生网络的共同特征提取网络,以KL散度这一数学指标配合反向传播的损失值,作为两个模态之间公共特征的提取算法;通过改变步长参数,既可以保证做到全局搜索,又可以保证算法的收敛速度;将Transformer混合架构应用于多模态目标跟踪之中具有一般基于深度学习及传统图形学算法的目标跟踪方法的优点,同时又具有跟踪精度高,避免目标丢失的特点。
本发明提出一种基于Transformer的孪生多模态目标跟踪方法,获取场景中的RGB图像信息和热力图像信息;通过预训练的ResNet网络提取不同模态的高级特征,同时基于孪生网络的跨模态特征融合网络以获得不同模态的共同特征;然后将对应模态的高级特征输入到针对多模态设计的Transformer模块中进行跨模态信息融合,再输入到基于全连接卷积神经网络的回归网络中进行最终检测框的回归,在此过程中产生的误差将会反向传播到前序各个网络中,根据最终权重网络构建目标跟踪网络,以对多模态情况下的目标进行跟踪。本发明可准确预测物体在各模态的位置信息,提高目标跟踪与定位准确度,可广泛应用于多种场景。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (7)
1.一种基于Transformer的孪生多模态目标跟踪方法,其特征在于,所述方法包括如下步骤:
步骤一、通过摄像头与热成像装置采集当前场景下的RGB图像信息与热力图像信息;
步骤二、利用经过预训练的ResNet特征提取网络对RGB图像信息与热力图像信息分别进行特征提取以对应得到RGB图像特征与热力图像特征;基于线性假设的方法将RGB图像信息与热力图像信息进行对齐,使用基于ResNet的孪生网络对RGB图像信息与热力图像信息共同进行特征提取以得到RGB-热力图像特征;
步骤三、利用基于Transformer编码器的特征融合网络,将所述RGB图像特征、热力图像特征以及RGB-热力图像特征两两配合进行复合编码以得到编码后的特征图;
步骤四、将所述编码后的特征图输入至基于Transformer的特征匹配网络中进行扩充与匹配,以得到模板特征图与背景特征图的匹配结果,并利用基于循环窗口注意力的匹配机制对所述模板特征图与背景特征图的匹配结果进行扩充再匹配以得到第一特征图;
步骤五、将所述第一特征图输入至基于多层感知机模型的回归器中进行回归框的回归,并基于设计的损失函数返回误差计算值并进行反向传播;
步骤六、通过快速梯度下降法确认当前回归框的损失,当回归框损失最小时,结束训练并输出各网络权重文件;
步骤七、根据最终得到的各网络权重文件,构建多模态目标***并实时确定所跟踪的目标在图像中的位置;
所述ResNet特征提取网络为ResNet50特征提取网络,在所述步骤二中,所述方法还包括:
利用ResNet50特征提取网络在ImageNet10k数据集上的预训练数据,对RGB图像信息与热力图像信息分别进行特征提取;
根据设定图像大小与给定的第一帧框图数据,对RGB图像信息中的RGB图像进行调整;
利用KL散度对所述ResNet50特征提取网络进行约束计算以得到当前输出的损失值;
根据当前输出的损失值计算得到整体网络对应的最终网络损失值,其中所述整体网络由ResNet特征提取网络、基于ResNet的孪生网络、基于Transformer编码器的特征融合网络以及基于Transformer的特征匹配网络组成;
对RGB图像信息中的RGB图像进行调整的步骤中,对应的表达式为:
利用KL散度对所述ResNet50特征提取网络进行约束计算以得到当前输出的损失值的步骤中,对应的表达式为:
其中,表示当前输出的损失值,表示输出特征向量的维度,表示RGB图像经过ResNet50特征提取网络所输出的特征向量中的第列,表示热力图像经过ResNet50特征提取网络所输出的特征向量中的第列,表示输出的特征向量中的列数;
在根据当前输出的损失值计算得到整体网络对应的最终网络损失值的步骤中,整体网络对应的最终网络损失值表示为:
6.根据权利要求5所述的基于Transformer的孪生多模态目标跟踪方法,其特征在于,在所述步骤五中,在基于设计的损失函数返回误差计算值并进行反向传播的步骤中,对于输出的损失函数,存在如下公式:
其中,表示当前框对于真实框的损失,表示当前框与真实框的重合程度,表示当前框与真实框坐标位置差量的值,表示当前框与真实框坐标大小差量的值,表示当前框与真实框横坐标的均方差的值,表示当前框与真实框纵坐标的均方差的值,表示当前框与真实框横坐标或纵坐标的均方差的值,表示当前框与真实框之间高的差值,表示当前框与真实框之间宽的差值,表示目标真实框的横坐标,表示目标真实框的纵坐标,表示***预测的目标横坐标,表示***预测的目标纵坐标,表示当前框与真实框的缩放系,表示当前框与真实框的大小的比,表示当前框与真实框坐标大小的均方差的值,表示当前框与真实框之间宽度的缩放系数,表示当前框与真实框之间高度的缩放系数,表示根据当前框与真实框之间宽度或高度的缩放系数计算得到的值,表示***预测的宽,表示***预测的高,表示目标真实框的宽,表示目标真实框的高,表示给定超参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211376018.2A CN115423847B (zh) | 2022-11-04 | 2022-11-04 | 基于Transformer的孪生多模态目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211376018.2A CN115423847B (zh) | 2022-11-04 | 2022-11-04 | 基于Transformer的孪生多模态目标跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115423847A CN115423847A (zh) | 2022-12-02 |
CN115423847B true CN115423847B (zh) | 2023-02-07 |
Family
ID=84207365
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211376018.2A Active CN115423847B (zh) | 2022-11-04 | 2022-11-04 | 基于Transformer的孪生多模态目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115423847B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116563569B (zh) * | 2023-04-17 | 2023-11-17 | 昆明理工大学 | 一种基于混合孪生网络的异源图像关键点检测方法及*** |
CN117876824B (zh) * | 2024-03-11 | 2024-05-10 | 华东交通大学 | 多模态人群计数模型训练方法、***、存储介质及设备 |
CN117893873B (zh) * | 2024-03-18 | 2024-06-07 | 安徽大学 | 一种基于多模态信息融合的主动跟踪方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110021033A (zh) * | 2019-02-22 | 2019-07-16 | 广西师范大学 | 一种基于金字塔孪生网络的目标跟踪方法 |
CN110223324A (zh) * | 2019-06-05 | 2019-09-10 | 东华大学 | 一种基于鲁棒特征表示的孪生匹配网络的目标跟踪方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11599730B2 (en) * | 2019-12-09 | 2023-03-07 | Salesforce.Com, Inc. | Learning dialogue state tracking with limited labeled data |
US11604719B2 (en) * | 2021-02-01 | 2023-03-14 | Microsoft Technology Licensing, Llc. | Automated program repair using stack traces and back translations |
CN114372173A (zh) * | 2022-01-11 | 2022-04-19 | 中国人民公安大学 | 一种基于Transformer架构的自然语言目标跟踪方法 |
CN115187799A (zh) * | 2022-07-04 | 2022-10-14 | 河南工业大学 | 一种单目标长时跟踪方法 |
CN115205590A (zh) * | 2022-07-11 | 2022-10-18 | 齐齐哈尔大学 | 一种基于互补集成Transformer网络的高光谱图像分类方法 |
CN115100235B (zh) * | 2022-08-18 | 2022-12-20 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种目标跟踪方法、***及存储介质 |
-
2022
- 2022-11-04 CN CN202211376018.2A patent/CN115423847B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110021033A (zh) * | 2019-02-22 | 2019-07-16 | 广西师范大学 | 一种基于金字塔孪生网络的目标跟踪方法 |
CN110223324A (zh) * | 2019-06-05 | 2019-09-10 | 东华大学 | 一种基于鲁棒特征表示的孪生匹配网络的目标跟踪方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115423847A (zh) | 2022-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115423847B (zh) | 基于Transformer的孪生多模态目标跟踪方法 | |
CN113902926B (zh) | 一种基于自注意力机制的通用图像目标检测方法和装置 | |
CN110781838A (zh) | 一种复杂场景下行人的多模态轨迹预测方法 | |
CN111832484A (zh) | 一种基于卷积感知哈希算法的回环检测方法 | |
CN113297972B (zh) | 一种基于数据融合深度学习的变电站设备缺陷智能分析方法 | |
CN116049459B (zh) | 跨模态互检索的方法、装置、服务器及存储介质 | |
CN115439694A (zh) | 一种基于深度学习的高精度点云补全方法及装置 | |
CN111460894A (zh) | 一种基于卷积神经网络的车标智能检测方法 | |
CN116385761A (zh) | 一种融合rgb与红外信息的3d目标检测方法 | |
Ding et al. | Fh-net: A fast hierarchical network for scene flow estimation on real-world point clouds | |
Lin et al. | DA-Net: density-adaptive downsampling network for point cloud classification via end-to-end learning | |
CN114565789A (zh) | 一种基于集合预测的文本检测方法、***、装置及介质 | |
CN117765258A (zh) | 基于密度自适应和注意力机制的大规模点云语义分割方法 | |
CN111578956A (zh) | 一种基于深度学习的视觉slam定位方法 | |
WO2023222643A1 (en) | Method for image segmentation matching | |
CN115578574A (zh) | 一种基于深度学习和拓扑感知的三维点云补全方法 | |
CN116228825A (zh) | 一种基于显著锚点几何嵌入的点云配准方法 | |
Xiong et al. | SPEAL: Skeletal Prior Embedded Attention Learning for Cross-Source Point Cloud Registration | |
CN114399628A (zh) | 复杂空间环境下的绝缘子高效检测*** | |
CN113628104A (zh) | 针对无序图像增量式SfM的初始图像对选取方法 | |
CN111126310A (zh) | 一种基于场景迁移的行人性别识别方法 | |
Kaviani et al. | Semi-Supervised 3D hand shape and pose estimation with label propagation | |
CN117523549B (zh) | 基于深宽知识蒸馏的三维点云物体识别方法 | |
CN113095335B (zh) | 一种基于类别一致性深度学习的图像识别方法 | |
CN115830548B (zh) | 一种无监督多领域融合的自适应行人重识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |