CN118115540A

CN118115540A - 一种三维目标跟踪方法、装置、设备及存储介质

Info

Publication number: CN118115540A
Application number: CN202410359405.8A
Authority: CN
Inventors: 胡筱婧; 魏志方
Original assignee: Ecarx Hubei Tech Co Ltd
Current assignee: Ecarx Hubei Tech Co Ltd
Priority date: 2024-03-27
Filing date: 2024-03-27
Publication date: 2024-05-31

Abstract

本发明公开了一种三维目标跟踪方法、装置、设备及存储介质。该方法包括：将第一特征图、第二特征图、检测索引集合以及跟踪索引集合输入至第一变形解码器和第二变形解码器，得到当前帧图像对应的检测索引嵌入向量集合、跟踪索引嵌入向量集合以及当前帧图像对应的目标特征向量集合；根据当前帧图像对应的检测索引嵌入向量集合和跟踪索引嵌入向量集合得到当前帧图像对应的有效检测框集合；将当前帧图像对应的有效检测框集合中的有效检测框与当前帧图像对应的目标特征向量集合进行匹配，得到当前帧图像的目标跟踪结果，通过本发明的技术方案，能够基于时序特征，提高三维目标跟踪结果的效率和准确性。

Description

一种三维目标跟踪方法、装置、设备及存储介质

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种三维目标跟踪方法、装置、设备及存储介质。

背景技术

三维(3D)目标跟踪任务是一种计算机视觉的任务，它的目的是在视频序列中定位和跟踪一个或多个感兴趣的目标，并估计它们的三维位置、大小以及姿态。这种任务在自动驾驶、机器人导航以及增强现实等领域有着广泛的应用和需求。

传统的2D目标检测与跟踪方法无法提供目标的深度信息和遮挡关系，且链路较长，导致在复杂的场景中无法有效地识别和跟踪目标，因此，需要利用三维传感器(如激光雷达、立体相机等)来获取目标的三维信息，并结合二维图像来提高目标检测与跟踪的性能和鲁棒性。

近年来，随着深度学习技术的发展和大量数据集的建立，三维目标检测与跟踪任务取得了显著的进步。现有技术中，基于CNN(Convolutional Neural Network，卷积神经网络)的三维目标检测方法所使用的卷积操作只能捕获局部的空间信息，不能够融合多模态的数据。而先检测再跟踪的二阶段跟踪框架，会导致模型运行速度较慢，难以满足目标跟踪所需的实时性要求。

发明内容

本发明实施例提供一种三维目标跟踪方法、装置、设备及存储介质，能够基于时序特征融合全局空间信息，解决在复杂的场景中无法有效地识别和跟踪目标的问题，提高三维目标跟踪结果的效率和准确性。

根据本发明的一方面，提供了一种三维目标跟踪方法，包括：

若当前帧图像非首帧图像且当前帧图像的前一帧图像存在有效检测框，则获取当前帧图像对应的第一特征图、前一帧图像对应的第二特征图、当前帧图像对应的检测索引集合以及当前帧图像对应的跟踪索引集合；

将所述第一特征图、所述第二特征图、所述检测索引集合以及所述跟踪索引集合输入至第一变形解码器，得到当前帧图像对应的检测索引嵌入向量集合和跟踪索引嵌入向量集合；

将所述第一特征图、所述第二特征图、所述检测索引集合以及所述跟踪索引集合输入至第二变形解码器，得到当前帧图像对应的目标特征向量集合；

根据所述当前帧图像对应的检测索引嵌入向量集合和跟踪索引嵌入向量集合得到当前帧图像对应的有效检测框集合；

将所述当前帧图像对应的有效检测框集合中的有效检测框与所述当前帧图像对应的目标特征向量集合进行匹配，得到当前帧图像的目标跟踪结果。

根据本发明的另一方面，提供了一种三维目标跟踪装置，该三维目标跟踪装置包括：

获取模块，用于若当前帧图像非首帧图像且当前帧图像的前一帧图像存在有效检测框，则获取当前帧图像对应的第一特征图、前一帧图像对应的第二特征图、当前帧图像对应的检测索引集合以及当前帧图像对应的跟踪索引集合；

嵌入向量得到模块，用于将所述第一特征图、所述第二特征图、所述检测索引集合以及所述跟踪索引集合输入至第一变形解码器，得到当前帧图像对应的检测索引嵌入向量集合和跟踪索引嵌入向量集合；

特征向量得到模块，用于将所述第一特征图、所述第二特征图、所述检测索引集合以及所述跟踪索引集合输入至第二变形解码器，得到当前帧图像对应的目标特征向量集合；

检测框得到模块，用于根据所述当前帧图像对应的检测索引嵌入向量集合和跟踪索引嵌入向量集合得到当前帧图像对应的有效检测框集合；

跟踪结果得到模块，用于将所述当前帧图像对应的有效检测框集合中的有效检测框与所述当前帧图像对应的目标特征向量集合进行匹配，得到当前帧图像的目标跟踪结果。

根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的三维目标跟踪方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的三维目标跟踪方法。

本发明实施例通过获取当前帧图像对应的第一特征图、当前帧图像的前一帧图像对应的第二特征图、当前帧图像对应的检测索引集合以及当前帧图像对应的跟踪索引集合；将所述第一特征图、所述第二特征图、所述检测索引集合以及所述跟踪索引集合输入至第一变形解码器，得到当前帧图像对应的检测索引嵌入向量集合和跟踪索引嵌入向量集合；将所述第一特征图、所述第二特征图、所述检测索引集合以及所述跟踪索引集合输入至第二变形解码器，得到当前帧图像对应的目标特征向量集合；根据所述当前帧图像对应的检测索引嵌入向量集合和跟踪索引嵌入向量集合得到当前帧图像对应的有效检测框集合；将所述当前帧图像对应的有效检测框集合中的有效检测框与所述当前帧图像对应的目标特征向量集合进行匹配，得到当前帧图像的目标跟踪结果，解决了由于现有技术中的三维目标检测方法中的卷积操作只能捕获局部空间信息不能融合多模态数据导致目标跟踪的准确性低，且原有的二阶段跟踪框架模型运行速度慢导致无法满足目标跟踪的实时性要求的问题，能够基于时序特征融合全局空间信息，提高三维目标跟踪结果的效率和准确性，同时，采用独立的两个变形(transformer)解码器分别进行目标检测与目标特征向量的计算，增强了变形(transformer)解码器对目标识别特征的抓取能力。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明实施例一中的一种三维目标跟踪方法的流程图；

图2是本发明实施例一中的另一种三维目标跟踪方法的架构示意图；

图3是本发明实施例二中的一种三维目标跟踪装置的结构示意图；

图4是本发明实施例三中的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

可以理解的是，在使用本公开各实施例公开的技术方案之前，均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。

实施例一

图1是本发明实施例一中的一种三维目标跟踪方法的流程图，本实施例可适用于对目标进行跟踪的情况，该方法可以由本发明实施例中的三维目标跟踪装置来执行，该装置可采用软件和/或硬件的方式实现。如图1所示，该方法具体包括如下步骤：

S110，若当前帧图像非首帧图像且当前帧图像的前一帧图像存在有效检测框，则获取当前帧图像对应的第一特征图、前一帧图像对应的第二特征图、当前帧图像对应的检测索引集合以及当前帧图像对应的跟踪索引集合。

其中，当前帧图像的前一帧图像与当前帧图像为相邻的图像，可理解为在预设的图像采集的相邻时刻的图像，如t-1时刻采集当前帧图像的前一帧图像，t时刻采集当前帧图像。有效检测框为检测出前一帧图像中存在的目标对应的检测框，目标可为预设的任意物体，如目标可为行人、标识牌以及建筑等。

其中，第一特征图为第一BEV(Bird's eyeview，鸟瞰)特征图，第二特征图为第二BEV特征图，第一特征图和第二特征图中可融合图像不同视角、时间序列以及采集图像的各传感器的特征信息。当前帧图像对应的检测索引集合为当前帧图像对应的object query集合，可在三维目标跟踪时预设，随后在三维目标跟踪时不断进行深度学习。当前帧图像对应的跟踪索引集合为当前帧图像对应的track query集合，当前帧图像对应的跟踪索引集合包括：前一帧图像的有效检测框集合中有效检测框对应的索引嵌入向量，其中，所述索引嵌入向量为：检测索引嵌入向量或跟踪索引嵌入向量，前一帧图像的有效检测框集合中包括至少一个有效检测框，索引嵌入向量由变形(transformer)解码器生成。需要说明的是，本实施例中的三维目标跟踪方法为自回归方法，前一帧图像的输出结果(有效检测框对应的索引嵌入向量)可作为当前帧图像的输入(当前帧图像对应的跟踪索引集合)。

具体的，若当前帧图像非首帧图像且当前帧图像的前一帧图像存在有效检测框，则对当前帧图像和前一帧图像进行预处理，分别得到第一特征图和第二特征图，获取当前帧图像对应的检测索引集合，根据前一帧图像的有效检测框集合中有效检测框对应的索引嵌入向量生成当前帧图像对应的跟踪索引集合；若当前帧图像是首帧图像或当前帧图像的前一帧图像不存在有效检测框，则只需获取当前帧图像对应的第一特征图和当前帧图像对应的检测索引集合即可。

可选的，获取当前帧图像对应的第一特征图，包括：

对当前帧图像进行点云体素化，得到当前帧图像对应的体素格集合；

将所述当前帧图像对应的体素集合中的每个体素格投影至预设的网格空间，得到像素点坐标集合；

根据所述像素点坐标集合生成第一特征图。

具体的，获取当前帧图像对应的第一特征图需将当前帧图像对应的点云数据进行点云体素化，形成三维体素格，得到体素格集合，将体素集合中的每个体素格投影至预设的BEV网格空间，得到像素点坐标集合，进而根据像素点坐标集合将三维的点云数据转换为二维图像，即第一特征图。第二特征图的获取方式与第一特征图相同，在此不进行赘述。

通过使用当前帧图像的BEV特征图进行三维目标跟踪，能够提供更加准确的BEV特征，相比现有技术中基于透视视图的纯视觉感知的方法，使用当前帧图像的BEV特征图进行三维目标跟踪，能够采用俯视角度实现感知，更好地解决不同物体之间的遮挡问题。

S120，将第一特征图、第二特征图、检测索引集合以及跟踪索引集合输入至第一变形解码器，得到当前帧图像对应的检测索引嵌入向量集合和跟踪索引嵌入向量集合。

其中，检测索引嵌入向量(object query embedding)集合为检测索引集合通过第一变形(transformer)解码器生成的嵌入向量集合，跟踪索引嵌入向量(track queryembedding)集合为跟踪索引集合通过第一transformer解码器生成的嵌入向量集合。需要说明的是，图2是实施例一中的另一种三维目标跟踪方法的架构示意图，如图2中的c3模块为第一transformer解码器中的一个解码器层，第一transformer解码器包括M个解码器层(decoder layer)，每个解码器层包括：自注意力模块(Self-Attention)、交叉注意力模块(Cross-Attention)、前向传播模块(FNN)，这些模块均采用短路连接(short-cutconnection)，并且均接入一个图层规范化模块即相加&归一化模块(Add&Norm)。

具体的，将第一特征图、第二特征图、检测索引集合以及跟踪索引集合均输入至第一变形解码器，在交叉注意力模块中检测索引集合和跟踪索引集合中每个索引与每个特征图进行交互，经过M层的解码器层之后得到最终的当前帧图像对应的检测索引嵌入向量集合和跟踪索引嵌入向量集合。

S130，将第一特征图、第二特征图、检测索引集合以及跟踪索引集合输入至第二变形解码器，得到当前帧图像对应的目标特征向量集合。

需要说明的是，第一变形(transformer)解码器与第二变形(transformer)解码器的架构相同，输入相同，但设定参数不同，导致输出结果不同。目标特征向量为Re-ID(Person Re-identification，行人再识别)特征向量，Re-ID特征向量是为了区分同一目标与不同目标的，同一目标的Re-ID特征向量是相似的，而不同目标的Re-ID特征向量差别较大。

具体的，将第一特征图、第二特征图、检测索引集合以及跟踪索引集合均输入至第二transformer解码器，在第二transformer解码器每个解码器层中的交叉注意力模块中检测索引集合和跟踪索引集合中每个索引与每个特征图进行交互，经过M层的解码器层之后得到最终的当前帧图像对应的目标特征向量集合。

通过将第一特征图、第二特征图、检测索引集合以及跟踪索引集合输入至第一变形解码器，得到当前帧图像对应的检测索引嵌入向量集合和跟踪索引嵌入向量集合；将第一特征图、第二特征图、检测索引集合以及跟踪索引集合输入至第二变形解码器，得到当前帧图像对应的目标特征向量集合，能够增强不同帧图像对同一目标的跟踪能力，将不同时间对应的BEV特征图堆叠起来，形成一个时序的BEV特征序列，能够提高跟踪目标的鲁棒性，即使在目标被遮挡、形变以及光照变化等复杂场景下，也能够保证目标跟踪的精确度；同时，可利用图像帧之间的时间相关性减少冗余的计算和存储，提高目标跟踪的效率；时序的BEV特征序列可捕捉目标的长期和短期的动态特性，适应不用场景和任务，从而提高目标跟踪的泛化能力。

S140，根据当前帧图像对应的检测索引嵌入向量集合和跟踪索引嵌入向量集合得到当前帧图像对应的有效检测框集合。

其中，当前帧图像对应的有效检测框集合可为空，也可包括至少一个有效检测框，若为空，则无需进行目标跟踪，有效检测框说明该帧图像能够检测到目标，且目标被检测框标注。

具体的，对检测索引嵌入向量集合和跟踪索引嵌入向量集合中每个索引嵌入向量进行预测，得到每个索引嵌入向量对应的检测框，并根据预设的检测框对应的置信度对检测框进行筛选，得到有效检测框，从而根据筛选出的有效检测框形成当前帧图像对应的有效检测框集合。

可选的，根据所述当前帧图像对应的检测索引嵌入向量集合和跟踪索引嵌入向量集合得到当前帧图像对应的有效检测框集合，包括：

将所述当前帧图像对应的检测索引嵌入向量集合和跟踪索引嵌入向量集合输入至检测框检测模块，得到第一检测框集合；

根据所述第一检测框集合中每一检测框的分类置信度和预设置信度阈值对第一检测框集合进行筛选，根据分类置信度大于预设置信度阈值的检测框确定第二检测框集合；

通过非极大值抑制去除第二检测框集合中的重复检测框，得到当前帧图像对应的有效检测框集合。

其中，第一检测框集合中的检测框为每个索引嵌入向量经过检测框检测模块后得到的检测框。检测框检测模块可为多层感知机，检测框包括：检测框坐标和检测框对应的分类置信度。预设置信度阈值可根据实际需求进行设定。

具体的，将当前帧图像对应的检测索引嵌入向量集合和跟踪索引嵌入向量集合输入至检测框检测模块，得到第一检测框集合，例如可以是，将当前帧图像对应的检测索引嵌入向量集合和跟踪索引嵌入向量集合输入至预设的多层感知机，对每个索引嵌入向量预测一个87维向量对应的检测框，其中，87维向量包括7维的检测框(bounding box)坐标和80维的分类置信度，根据每个索引嵌入向量得到的87维向量对应的检测框生成第一检测框集合。

具体的，根据第一检测框集合中的每一检测框的分类置信度和预设置信度阈值对第一检测框集合进行筛选，将分类置信度大于预设置信度阈值的检测框进行汇总，得到第二检测框集合。

具体的，通过非极大值抑制去除第二检测框集合中的重复的检测框，得到当前帧图像对应的有效检测框集合。

通过检测框的分类置信度对检测框进行筛选，再去除重复的检测框，得到有效检测框集合，能够去除无效的检测框，降低冗余，减少计算负担。

S150，将当前帧图像对应的有效检测框集合中的有效检测框与当前帧图像对应的目标特征向量集合进行匹配，得到当前帧图像的目标跟踪结果。

其中，当前帧图像的目标跟踪结果包括：每一有效检测框和每一有效检测框对应的目标特征向量，还可以包括：每一有效检测框、每一有效检测框的序列标识以及每一有效检测框对应的目标特征向量。需要说明的是，检测索引集合与跟踪索引集合中每一索引均携带顺序标识，故在对三维目标进行跟踪时，产生的检测索引嵌入向量集合与跟踪索引嵌入向量集合中每一索引嵌入向量均携带对应的顺序标识，目标特征向量中也携带顺序标识，有效检测框集合中的有效检测框也携带顺序标识。

具体的，将当前帧图像对应的有效检测框集合中的有效检测框的顺序标识与当前帧图像对应的目标特征向量集合中的每一目标特征向量携带的顺序标识进行匹配，可得到每一有效检测框和每一有效检测框对应的目标特征向量。

可选的，在将所述当前帧图像对应的有效检测框集合中的有效检测框与所述当前帧图像对应的目标特征向量集合进行匹配，得到当前帧图像的目标跟踪结果之前，还包括：

获取前一帧图像的有效检测框集合中有效检测框的序列标识和前一帧图像的有效检测框对应的目标特征向量。

其中，序列标识可为ID标识。具体的，跟踪前一帧图像中的三维目标时，可得到前一帧图像的有效检测框集合中每一有效检测框的序列标识和每一有效检测框对应的目标特征向量，将每一有效检测框的序列标识与每一有效检测框对应的目标特征向量相关联，并进行存储，便于在当前帧图像中进行检测框匹配，进而实现三维目标跟踪效果。

可选的，将所述当前帧图像对应的有效检测框集合中的有效检测框与所述当前帧图像对应的目标特征向量集合进行匹配，得到当前帧图像的目标跟踪结果，包括：

根据所述有效检测框集合中每一有效检测框携带的顺序标识、跟踪索引集合携带的顺序标识以及检测索引集合携带的顺序标识将当前帧图像对应的有效检测框集合划分为跟踪有效检测框集合和检测有效检测框集合；

根据跟踪有效检测框集合中的跟踪有效检测框携带的顺序标识查询跟踪索引嵌入向量集合，得到跟踪有效检测框对应的跟踪索引嵌入向量，将跟踪索引嵌入向量携带的序列标识确定为跟踪有效检测框的序列标识；

根据检测有效检测框集合中的检测有效检测框携带的顺序标识查询目标特征向量集合，得到检测有效检测框对应的目标特征向量；

根据所述检测有效检测框对应的目标特征向量、前一帧图像的有效检测框集合中有效检测框的序列标识以及前一帧图像的有效检测框对应的目标特征向量进行匹配，得到当前帧图像的检测有效检测框的序列标识。

其中，跟踪有效检测框集合中的每一跟踪有效检测框均为对应的跟踪索引嵌入向量预测得到的有效检测框，检测有效检测框集合中的每一检测有效检测框均为对应的检测索引嵌入向量预测得到的有效检测框。

其中，跟踪索引集合中的每一跟踪索引除携带顺序标识，还携带序列标识(ID标识)，且由跟踪索引生成的跟踪索引嵌入向量也携带ID标识。

其中，前一帧图像的有效检测框集合中包括前一帧图像的跟踪有效检测框集合和前一帧图像的检测有效检测框集合，每一有效检测框均有对应的目标特征向量。

具体的，根据有效检测框集合中的每一有效检测框携带的顺序标识与跟踪索引集合中每一跟踪索引携带的顺序标识、检测索引集合中每一检测索引携带的顺序标识进行匹配，判断每一有效检测框是由跟踪索引产生还是由检测索引产生，进而将有效检测框集合中的每一有效检测框进行划分，得到跟踪有效检测框集合和检测有效检测框集合，其中，跟踪有效检测框集合中的每一跟踪有效检测框均由跟踪索引产生，检测有效检测框集合中的每一检测有效检测框均由检测索引产生。

具体的，根据跟踪有效检测框集合中每一跟踪有效检测框携带的顺序标识与跟踪索引嵌入向量集合中每一跟踪索引嵌入向量携带的顺序标识进行匹配，得到每一跟踪有效检测框对应的跟踪索引嵌入向量，该跟踪索引嵌入向量作为下一图像的跟踪索引；然后将匹配到的每一跟踪有效检测框对应的跟踪索引嵌入向量携带的序列标识确定为跟踪有效检测框的序列标识，即当前帧图像的跟踪索引对应的有效检测框可继承前一帧图像的有效检测框的序列标识，需要说明的是，同时，根据跟踪有效检测框集合中的每一跟踪有效检测框携带的顺序标识与目标特征向量集合中每一目标特征向量携带的顺序标识进行匹配，得到每一跟踪有效检测框对应的目标特征向量，将每一跟踪有效检测框与每一跟踪有效检测框对应的目标特征向量相关联并进行存储，便于对下一帧图像的三维目标进行跟踪。

具体的，根据检测有效检测框集合中每一检测有效检测框携带的顺序标识与目标特征向量集合中每一目标特征向量携带的顺序标识进行匹配，得到每一检测有效检测框对应的目标特征向量，将每一检测有效检测框与每一检测有效检测框对应的目标特征向量相关联并进行存储，便于对下一帧图像的三维目标进行跟踪。

具体的，根据检测有效检测框对应的目标特征向量和前一帧图像中的每一有效检测框对应的目标特征向量进行前后帧图像的匹配，将当前帧图像中检测有效检测框匹配到前一帧图像的有效检测框上，当前帧图像中检测有效检测框继承与之匹配成功的前一帧图像的有效检测框的序列标识。

可选的，根据所述检测有效检测框对应的目标特征向量、前一帧图像的有效检测框集合中有效检测框的序列标识以及前一帧图像的有效检测框对应的目标特征向量进行匹配，得到当前帧图像的检测有效检测框的序列标识，包括：

根据当前帧图像的检测有效检测框对应的目标特征向量和前一帧图像的有效检测框对应的目标特征向量确定代价矩阵；

根据代价矩阵和匈牙利匹配算法将当前帧图像的检测有效检测框与前一帧图像的有效检测框进行匹配；

若匹配成功，则将匹配成功的前一帧图像的有效检测框的序列标识确定为当前帧图像的检测有效检测框的序列标识；

若未匹配成功，则确定新的序列标识作为当前帧图像的检测有效检测框的序列标识。

具体的，根据当前帧图像的检测有效检测框对应的目标特征向量和前一帧图像的有效检测框对应的目标特征向量确定代价矩阵的方式可以为：当前帧图像的检测有效检测框对应的目标特征向量和前一帧图像的有效检测框对应的目标特征向量根据代价函数计算代价矩阵，代价函数可为：

cost[i][j]＝D[i][j]；

其中，i为当前帧图像的检测有效检测框对应的目标特征向量，j为前一帧图像的有效检测框对应的目标特征向量，D[i][j]为2个目标特征向量之间的马氏距离(Mahalanobis Distance)，根据每一检测有效检测框对应的目标特征向量和前一帧图像的每一有效检测框对应的目标特征向量得到的代价，从而得到代价矩阵。

具体的，在得到代价矩阵后，将代价矩阵输入至匈牙利匹配算法中，根据匈牙利匹配算法进行匹配，将当前帧图像中的检测有效检测框与前一帧图像中的有效检测框进行匹配，若匹配成功，则将匹配成功的前一帧图像的有效检测框的序列标识赋予当前帧图像的检测有效检测框。

具体的，若存在当前帧图像中的检测有效检测框并未与前一帧图像中的任一有效检测框匹配成功，则赋予一个新的序列标识作为未匹配成功的当前帧图像的检测有效检测框的序列标识，该操作能够保证当前帧图像中的每一检测有效检测框均有对应的序列标识。

通过对当前帧图像的检测有效检测框对应的目标特征向量和前一帧图像的有效检测框对应的目标特征向量进行代价计算，并进行匈牙利匹配，能够令匹配成功的检测有效检测框继承前一帧图像中有效检测框的序列标识，同时，能够令未匹配成功的检测有效检测框拥有新的序列标识，进而确保当前帧图像的每一有效检测框均有对应的序列标识。

需要说明的是，在将当前帧的有效检测框集合中的每一有效检测框对应的索引嵌入向量作为下一帧图像的跟踪索引时，可将每一有效检测框的序列标识添加至对应的索引嵌入向量。

在一个具体的例子中，图2是本发明实施例一中的另一种三维目标跟踪方法的架构示意图，如图2所示，若当前帧图像非首帧图像且当前帧图像的前一帧图像存在有效检测框，则c1模块表示时序BEV特征图的拼接，将当前帧图像对应的第一BEV特征图和前一帧图像对应的第二BEV特征图拼接后作为key&value输入至第一transformer解码器(c3)和第二transformer解码器(c5)；c2模块表示当前帧图像对应的检测索引集合和当前帧图像对应的跟踪索引集合的拼接，拼接后，输入至第一transformer解码器和第二transformer解码器；c3模块表示第一transformer解码器，第一BEV特征图、第二BEV特征图、检测索引集合中每一检测索引以及跟踪索引集合中每一跟踪索引在第一transformer解码器中交互，输出当前帧图像对应的检测索引嵌入向量集合和跟踪索引嵌入向量集合；c4模块表示检测框检测模块，将当前帧图像对应的检测索引嵌入向量集合和跟踪索引嵌入向量集合输入检测框检测模块，输出当前帧图像的有效检测框集合，其中，当前帧图像的有效检测框集合中的每一有效检测框包括检测框坐标；c5模块表示第二transformer解码器，第一BEV特征图、第二BEV特征图、检测索引集合中每一检测索引以及跟踪索引集合中每一跟踪索引在第二transformer解码器中交互，输出当前帧图像对应的Re-ID特征向量集合；c6模块为匹配模块，当前帧图像的有效检测框集合、当前帧图像的有效检测框集合、前一帧图像的每一有效检测框对应的Re-ID特征向量以及前一帧图像的每一有效检测框的ID标识输入至匹配模块，将跟踪索引中携带的ID标识直接赋予给跟踪索引对应的当前帧图像的有效检测框，对于剩下的由检测索引得到的有效检测框，计算当前帧图像的检测有效检测框对应的Re-ID特征向量和前一帧图像的有效检测框对应的Re-ID特征向量的代价矩阵，并根据代价矩阵和匈牙利匹配算法将当前帧图像的检测有效检测框与前一帧图像的有效检测框进行匹配，若匹配成功，则将匹配成功的前一帧图像的有效检测框的ID标识确定为当前帧图像的检测有效检测框的ID标识，若未匹配成功，则将一个新的ID标识确定为未匹配成功的当前帧图像的检测有效检测框的ID标识，c6模块可输出当前帧图像的每一有效检测框的ID标识和有效检测框坐标，还可以输出当前帧图像的每一有效检测框对应的索引嵌入向量、当前帧图像的每一有效检测框对应的Re-ID特征向量，其中，当前帧图像的每一有效检测框对应的索引嵌入向量作为下一帧图像的跟踪索引。

可选的，还包括：

若当前帧图像为首帧图像或前一帧图像中不存在有效检测框，则将所述第一特征图、第二特征图以及所述检测索引集合输入至第一变形解码器，得到当前帧图像对应的检测索引嵌入向量集合，其中，若当前帧图像为首帧图像，则第一特征图与第二特征图相同；

将所述第一特征图、所述第二特征图以及所述检测索引集合输入至第二变形解码器，得到当前帧图像对应的目标特征向量集合；

根据所述当前帧图像对应的检测索引嵌入向量集合得到当前帧图像对应的有效检测框集合；

将所述当前帧图像对应的有效检测框集合中有效检测框与目标特征向量集合进行匹配，确定有效检测框集合中有效检测框的序列标识，并将有效检测框的序列标识和有效检测框对应的目标特征向量进行存储；

根据所述当前帧图像对应的有效检测框集合中有效检测框对应的检测索引嵌入向量确定下一帧图像的跟踪索引集合。

具体的，若当前帧图像为首帧图像或前一帧图像中不存在有效检测框，则仅用检测索引集合作为索引集合输入至第一transformer解码器和第二transformer解码器；若当前帧图像为首帧图像，第二特征图为第一特征图的复制特征图，即第一特征图与第二特征图相同。

具体的，将第一特征图、第二特征图以及检测索引集合输入至第一transformer解码器，得到当前帧图像对应的检测索引嵌入向量集合；将第一特征图、第二特征图以及检测索引集合输入至第二transformer解码器，得到当前帧图像对应的目标特征向量集合。

具体的，将当前帧图像对应的有效检测框集合中每一有效检测框与目标特征向量集合中的每一目标特征向量按照携带顺序标识一一匹配，为有效检测框集合中每一有效检测框赋予新的序列标识，同时，将每一有效检测框、每一有效检测框的序列标识以及对应的每一目标特征向量进行存储，便于对下一帧图像进行前后帧图像的序列标识匹配。

具体的，将当前帧图像对应的有效检测框集合中每一有效检测框对应的检测索引嵌入向量确定为下一帧图像的跟踪索引，其中，下一帧图像的每一跟踪索引携带顺序标识以及序列标识。

通过若当前帧图像为首帧图像或前一帧图像中不存在有效检测框时，复制第一特征图为第二特征图再进行三维目标检测与跟踪，能够保证后续在进行三维目标跟踪时更加快速且准确。

本实施例的技术方案，通过获取当前帧图像对应的第一特征图、当前帧图像的前一帧图像对应的第二特征图、当前帧图像对应的检测索引集合以及当前帧图像对应的跟踪索引集合；将所述第一特征图、所述第二特征图、所述检测索引集合以及所述跟踪索引集合输入至第一变形解码器，得到当前帧图像对应的检测索引嵌入向量集合和跟踪索引嵌入向量集合；将所述第一特征图、所述第二特征图、所述检测索引集合以及所述跟踪索引集合输入至第二变形解码器，得到当前帧图像对应的目标特征向量集合；根据所述当前帧图像对应的检测索引嵌入向量集合和跟踪索引嵌入向量集合得到当前帧图像对应的有效检测框集合；将所述当前帧图像对应的有效检测框集合中的有效检测框与所述当前帧图像对应的目标特征向量集合进行匹配，得到当前帧图像的目标跟踪结果，解决了由于现有技术中的三维目标检测方法中的卷积操作只能捕获局部空间信息不能融合多模态数据导致目标跟踪的准确性低，且原有的二阶段跟踪框架模型运行速度慢导致无法满足目标跟踪的实时性要求的问题，能够基于时序BEV特征融合全局空间信息，提高三维目标跟踪结果的效率和准确性，同时，采用独立的两个变形(transformer)解码器分别进行目标检测与目标特征向量的计算，增强了变形(transformer)解码器对目标识别特征的抓取能力。

实施例二

图3是本发明实施例二中的一种三维目标跟踪装置的结构示意图。本实施例可适用于对目标进行跟踪的情况，该装置可采用软件和/或硬件的方式实现，该装置可集成在任何提供三维目标跟踪的功能的设备中，如图3所示，所述三维目标跟踪装置具体包括：获取模块210、嵌入向量得到模块220、特征向量得到模块230、检测框得到模块240以及跟踪结果得到模块250。

其中，获取模块210，用于若当前帧图像非首帧图像且当前帧图像的前一帧图像存在有效检测框，则获取当前帧图像对应的第一特征图、前一帧图像对应的第二特征图、当前帧图像对应的检测索引集合以及当前帧图像对应的跟踪索引集合；

嵌入向量得到模块220，用于将所述第一特征图、所述第二特征图、所述检测索引集合以及所述跟踪索引集合输入至第一变形解码器，得到当前帧图像对应的检测索引嵌入向量集合和跟踪索引嵌入向量集合；

特征向量得到模块230，用于将所述第一特征图、所述第二特征图、所述检测索引集合以及所述跟踪索引集合输入至第二变形解码器，得到当前帧图像对应的目标特征向量集合；

检测框得到模块240，用于根据所述当前帧图像对应的检测索引嵌入向量集合和跟踪索引嵌入向量集合得到当前帧图像对应的有效检测框集合；

跟踪结果得到模块250，用于将所述当前帧图像对应的有效检测框集合中的有效检测框与所述当前帧图像对应的目标特征向量集合进行匹配，得到当前帧图像的目标跟踪结果。

可选的，所述获取模块具体用于：

根据所述像素点坐标集合生成第一特征图。

可选的，所述检测框得到模块具体用于：

可选的，还包括：

前帧图像数据获取模块，用于获取前一帧图像的有效检测框集合中有效检测框的序列标识和前一帧图像的有效检测框对应的目标特征向量。

可选的，所述跟踪结果得到模块具体用于：

可选的，还包括：

第一嵌入向量得到模块，用于若当前帧图像为首帧图像或前一帧图像中不存在有效检测框，则将所述第一特征图、第二特征图以及所述检测索引集合输入至第一变形解码器，得到当前帧图像对应的检测索引嵌入向量集合，其中，若当前帧图像为首帧图像，则第一特征图与第二特征图相同；

第一特征向量得到模块，用于将所述第一特征图、所述第二特征图以及所述检测索引集合输入至第二变形解码器，得到当前帧图像对应的目标特征向量集合；

第一检测框得到模块，用于根据所述当前帧图像对应的检测索引嵌入向量集合得到当前帧图像对应的有效检测框集合；

序列标识确定模块，用于将所述当前帧图像对应的有效检测框集合中有效检测框与目标特征向量集合进行匹配，确定有效检测框集合中有效检测框的序列标识，并将有效检测框的序列标识和有效检测框对应的目标特征向量进行存储；

跟踪索引确定模块，用于根据所述当前帧图像对应的有效检测框集合中有效检测框对应的检测索引嵌入向量确定下一帧图像的跟踪索引集合。

可选的，所述当前帧图像对应的跟踪索引集合包括：前一帧图像的有效检测框集合中有效检测框对应的索引嵌入向量，其中，所述索引嵌入向量为：检测索引嵌入向量或跟踪索引嵌入向量。

上述产品可执行本发明任意实施例所提供的方法，具备执行方法相应的功能模块和有益效果。

实施例三

图4是本发明实施例三中的一种电子设备的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图4所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器(ROM)12、随机访问存储器(RAM)13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序，来执行各种适当的动作和处理。在RAM13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM12以及RAM13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如三维目标跟踪方法。

在一些实施例中，三维目标跟踪方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM13并由处理器11执行时，可以执行上文描述的三维目标跟踪方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行三维目标跟踪方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的***和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种三维目标跟踪方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，获取当前帧图像对应的第一特征图，包括：

根据所述像素点坐标集合生成第一特征图。

3.根据权利要求1所述的方法，其特征在于，根据所述当前帧图像对应的检测索引嵌入向量集合和跟踪索引嵌入向量集合得到当前帧图像对应的有效检测框集合，包括：

4.根据权利要求1所述的方法，其特征在于，在将所述当前帧图像对应的有效检测框集合中的有效检测框与所述当前帧图像对应的目标特征向量集合进行匹配，得到当前帧图像的目标跟踪结果之前，还包括：

5.根据权利要求4所述的方法，其特征在于，将所述当前帧图像对应的有效检测框集合中的有效检测框与所述当前帧图像对应的目标特征向量集合进行匹配，得到当前帧图像的目标跟踪结果，包括：

6.根据权利要求5所述的方法，其特征在于，根据所述检测有效检测框对应的目标特征向量、前一帧图像的有效检测框集合中有效检测框的序列标识以及前一帧图像的有效检测框对应的目标特征向量进行匹配，得到当前帧图像的检测有效检测框的序列标识，包括：

7.根据权利要求1所述的方法，其特征在于，还包括：

8.根据权利要求1所述的方法，其特征在于，所述当前帧图像对应的跟踪索引集合包括：前一帧图像的有效检测框集合中有效检测框对应的索引嵌入向量，其中，所述索引嵌入向量为：检测索引嵌入向量或跟踪索引嵌入向量。

9.一种三维目标跟踪装置，其特征在于，包括：

10.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的三维目标跟踪方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-8中任一项所述的三维目标跟踪方法。