CN115797408A

CN115797408A - 融合多视角图像和三维点云的目标跟踪方法及装置

Info

Publication number: CN115797408A
Application number: CN202211522027.8A
Authority: CN
Inventors: 冯建江; 张猛; 郭文轩
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-11-30
Filing date: 2022-11-30
Publication date: 2023-03-14

Abstract

本发明公开了融合多视角图像和三维点云的目标跟踪方法及装置，该方法包括：首先融合多视角多模态数据预测出场景中目标的三维位置，然后利用三维检测结果获得目标的三维空间信息和多视角图像中的目标外观特征，计算匹配分数矩阵，最终得到精准的三维目标跟踪结果。本发明使用当前物体的外观特征和历史待恢复轨迹的外观特征匹配进行轨迹修复。本发明的三维目标跟踪方法可以极大消除单一模态跟踪结果中轨迹交换、目标丢失等问题，获得准确度高、连续性好、鲁棒性强的目标长时期跟踪轨迹，为场景感知和安防监控提供便利。

Description

融合多视角图像和三维点云的目标跟踪方法及装置

技术领域

本发明涉及计算机视觉感知技术领域，特别是涉及融合多视角图像和三维点云的目标跟踪方法及装置。

背景技术

在三维视觉领域中，精确的三维目标检测和跟踪是进行场景视觉感知与分析的基础。近年来自动驾驶、场景监控等领域的火热发展对高精度的目标跟踪算法提出了迫切的需求，所以三维目标跟踪已经成为计算机视觉中最值得关注的研究方向。检测跟踪任务以传感器的原始数据作为输入，输出准确的目标位置和跟踪id，是路径规划等后续环节的基础，也是整个***必不可少的部分。面对精确三维定位和跟踪的需求，深度相机或多相机传感器精度低，定位距离近，而且受光照影响很大。激光雷达具有距离远、精度高、稳定性强的特点，不过激光雷达也存在价格较高、点云稀疏、目标缺少纹理特征的缺点。已有的三维目标跟踪技术，基于单一模态的传感器输入直接得到目标的跟踪轨迹，其结果受到所使用的单一传感器的缺陷限制，很难在复杂多样的场景中得到高质量的跟踪结果。因此，融合二维图像和三维点云的多模态数据可以消除单一传感器的缺点，增强跟踪技术的鲁棒性，很大程度提高跟踪结果的精度。

在已有的三维目标跟踪技术中，仍然存在以下的局限性和不足：基于多视角图像的三维跟踪技术通过识别图像得到二维的目标检测结果，进而依赖标定好的多相机***，利用对极几何约束计算得到目标的三维位置，最终匹配连接，得到三维的目标跟踪轨迹。由于标定误差和遮挡影响，基于多视角图像的技术很难得到目标精确的三维位置，同时缺少空间位置信息，目标相互遮挡的情况很容易导致跟踪丢失，id匹配出错。基于三维点云的三维跟踪技术利用激光雷达采集高精度的点云数据，获取目标精准的三维检测结果，计算三维空间上的匹配分数矩阵，连接得到三维的跟踪轨迹。由于点云数据的稀疏性，目标缺少纹理特征，依赖于目标的几何位置进行匹配分数计算和轨迹生成，在多个目标在三维空间中聚集时，容易导致跟踪id的交换。

随着三维成像***的不断发展，基于传统单一模态的数据采集***的目标跟踪技术已经不能满足鲁棒高精度跟踪的需要。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明提出一种融合多视角图像和三维点云的目标跟踪方法。本发明整体分为两个阶段，第一阶段融合多视角图像和三维点云数据进行三维目标检测，第二阶段基于检测目标的空间信息和外观特征匹配连接输出目标跟踪轨迹。在第一阶段中，本发明同时输入场景中多个视角的二维图像和三维点云，进行特征提取和融合。对于二维图像，利用二维特征提取网络分别获得来自多个视角的图像特征，再根据不同的相机参数将特征图投影到三维鸟瞰图进行拼接融合，从而得到多视角融合二维特征图；对于三维点云，将来自不同视角激光雷达的点云进行时空配准后直接融合，得到多角度稠密点云，再利用三维特征提取网络获得点云特征图。将二维特征图和点云特征图按照空间位置拼接融合后得到多模态特征图，再通过一个检测器得到精准的三维检测结果，作为第二阶段的输入。在第二阶段中，本发明利用第一阶段的检测结果进行匹配连接得到最终的跟踪轨迹。本发明计算三维空间中目标检测框的交并比作为目标在空间上的关系度量。进一步，为了融合多模态的特征，本发明使用三维目标检测框，投影至输入的多视角二维图像，得到二维图像上目标区域，并提取目标在二维图像上的外观特征，计算不同目标间的外观特征的余弦距离，作为目标在外观特征上的关系度量。对于两个关系度量矩阵进行融合后，本发明使用匹配算法对检测框进行匹配连接，输出最终目标的跟踪轨迹。对于离开场景或者严重遮挡的目标物体，检测算法可能会出现漏检，导致跟踪轨迹的断裂。此类目标在场景中被重新识别时，本发明使用当前物体的外观特征和历史待恢复轨迹的外观特征匹配进行轨迹修复，提高轨迹完整性。

本发明的另一个目的在于提出一种融合多视角图像和三维点云的目标跟踪装置。

为达上述目的，本发明一方面提出一种融合多视角图像和三维点云的目标跟踪方法，包括：

基于多视角的二维图像和三维点云分别得到二维特征图和点云特征图；

将二维特征图和点云特征图融合后得到的多模态特征图，输入至预训练的多模态融合目标检测模型进行检测得到目标检测框；其中，所述目标检测框包括目标轨迹的三维目标检测结果；

根据目标检测框与历史时刻的轨迹跟踪结果的检测框对比结果得到空间位置匹配矩阵，以及对目标轨迹与历史时刻的轨迹跟踪结果的二维图像特征进行计算得到外观特征匹配矩阵，聚合空间位置匹配矩阵和外观特征匹配矩阵得到最终关系度量矩阵；

基于最终关系度量矩阵和预设的匹配算法对所述三维目标检测结果与历史时刻的轨迹跟踪结果进行匹配，根据匹配结果得到当前时刻目标轨迹的跟踪轨迹结果。

另外，根据本发明上述实施例的融合多视角图像和三维点云的目标跟踪方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述基于多视角的二维图像和三维点云分别得到二维特征图和点云特征图，包括：获取多视角的二维图像和三维点云；利用图像处理网络提取所述多视角的二维图像得到初始特征图，根据不同的相机参数将初始特征图投影到三维鸟瞰图进行拼接融合，以得到多视角融合的二维特征图；以及，利用点云处理网络将所述三维点云进行时空配准后融合得到多角度稠密点云，并对所述多角度稠密点云进行特征提取得到点云特征图。

进一步地，在本发明的一个实施例中，所述点云处理网络包括特征提取网络和骨干网络；所述骨干网络包括第一子网络和第二子网络；所述图像处理网络包括卷积神经网络，所述方法，还包括：将所述多视角的三维点云输入所述特征提取网络进行点云转换得到伪图像，将所述伪图像输入所述第一子网络进行不同空间分辨率特征图的特征提取；将所述不同空间分辨率特征图提取的特征输入所述第二子网络进行反卷积操作后并串联得到所述点云特征图；以及，将所述多视角的二维图像输入所述卷积神经网络计算多通道特征图，利用多通道特征图的投影变换进行多相机信息聚合，以将多通道特征图投影到三维鸟瞰图进行拼接融合得到所述二维特征图。

进一步地，在本发明的一个实施例中，所述方法，还包括：获取多模态特征图的样本数据，利用所述多样本数据进行目标检测框的数据标注，利用标注好的数据训练所述多模态融合目标检测模型；将待进行轨迹跟踪的二维图像和三维点云输入至训练好的多模态融合目标检测模型进行目标轨迹检测，得到每个预测时刻的三维目标检测结果。

进一步地，在本发明的一个实施例中，所述方法，还包括：根据当前时刻三维目标检测结果的检测框几何信息和历史时刻匹配得到的轨迹跟踪结果中的检测框几何信息进行匹配分数计算，以得到所述空间位置匹配矩阵；将三维目标检测框投影至所述多视角的二维图像，并进行目标轨迹与历史时刻的轨迹跟踪结果的外观特征余弦距离计算得到外观特征匹配矩阵；以及，对所述空间位置匹配矩阵和所述外观特征匹配矩阵进行相加融合，得到当前时刻目标与历史时刻的轨迹跟踪结果匹配的最终关系度量矩阵。

进一步地，在跟踪轨迹修复处理过程中，对于在场景中跟踪丢失而又重新识别的目标，本发明实施例使用当前物体的外观特征和历史待恢复轨迹的外观特征匹配进行轨迹修复，避免了同一物体的轨迹发生断裂的情况，提高轨迹完整性以获得更为连续完整的跟踪结果。

为达上述目的，本发明另一方面提出一种融合多视角图像和三维点云的目标跟踪装置，包括：

特征提取模块，用于基于多视角的二维图像和三维点云分别得到二维特征图和点云特征图；

目标检测模块，用于将二维特征图和点云特征图融合后得到的多模态特征图，输入至预训练的多模态融合目标检测模型进行检测得到目标检测框；其中，所述目标检测框包括目标轨迹的三维目标检测结果；

特征融合模块，用于根据目标检测框与历史时刻的轨迹跟踪结果的检测框对比结果得到空间位置匹配矩阵，以及对目标轨迹与历史时刻的轨迹跟踪结果的二维图像特征进行计算得到外观特征匹配矩阵，聚合空间位置匹配矩阵和外观特征匹配矩阵得到最终关系度量矩阵；

匹配输出模块，用于基于最终关系度量矩阵和预设的匹配算法对所述三维目标检测结果与历史时刻的轨迹跟踪结果进行匹配，根据匹配结果得到当前时刻目标轨迹的跟踪轨迹结果。

本发明实施例的融合多视角图像和三维点云的目标跟踪方法和装置，可以极大消除单一模态跟踪结果中轨迹交换、目标丢失等问题，获得准确度高、连续性好、鲁棒性强的目标长时期跟踪轨迹，为场景感知和安防监控提供便利。

本发明的有益效果为：

1)相比于常规的单模态多目标识别方法，本发明融合了具有丰富外观信息的二维图像和具有精准空间信息的三维点云，在鸟瞰视图上进行两种模态的特征层次的融合，极大提高了场景内目标识别检测的性能。

2)传统的基于点云的三维多目标跟踪算法在跟踪阶段只使用检测的空间信息得到跟踪轨迹，无法从外观上区分不同目标。本发明在跟踪阶段引入多视角图像中目标的外观特征，计算外观的相似度，增强不同目标见匹配的区分度，从而获得更加精准、连续、鲁棒的跟踪轨迹。

3)对于在场景中消失又重新出现的物体，本发明使用当前物体的外观特征和历史待恢复轨迹的外观特征匹配，进行轨迹修复，避免了同一物体的轨迹发生断裂的情况，获得更为连续完整的跟踪结果。

4)本发明典型的应用场景之一是获取运动中的运动员的信息。利用多视角多模态的数据，可以得到场上球员的精确位置，以及跟踪轨迹，从而计算出球员的跑动距离、速度等数据，以便于赛事分析。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明实施例的基融合多视角图像和三维点云的目标跟踪方法的流程图；

图2是根据本发明实施例的融合多视角图像和三维点云的目标跟踪方法架构图；

图3是根据本发明实施例的基于空间信息与外观特征的目标跟踪的架构图；

图4是根据本发明实施例的基融合多视角图像和三维点云的目标跟踪装置的结构示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

下面参照附图描述根据本发明实施例提出的融合多视角图像和三维点云的目标跟踪方法和装置。

图1是本发明实施例的融合多视角图像和三维点云的目标跟踪方法的流程图。

如图1所示，该方法包括但不限于以下步骤：

S1，基于多视角的二维图像和三维点云分别得到二维特征图和点云特征图；

S2，将二维特征图和点云特征图融合后得到的多模态特征图，输入至预训练的多模态融合目标检测模型进行检测得到目标检测框；其中，目标检测框包括目标轨迹的三维目标检测结果；

S3，根据目标检测框与历史时刻的轨迹跟踪结果的检测框对比结果得到空间位置匹配矩阵，以及对目标轨迹与历史时刻的轨迹跟踪结果的二维图像特征进行计算得到外观特征匹配矩阵，聚合空间位置匹配矩阵和外观特征匹配矩阵得到最终关系度量矩阵；

S4，基于最终关系度量矩阵和预设的匹配算法对三维目标检测结果与历史时刻的轨迹跟踪结果进行匹配，根据匹配结果得到当前时刻目标轨迹的跟踪轨迹结果。

本发明实施例的融合多视角图像和三维点云的目标跟踪方法，使用当前物体的外观特征和历史待恢复轨迹的外观特征匹配进行轨迹修复。本发明的三维目标跟踪方法可以极大消除单一模态跟踪结果中轨迹交换、目标丢失等问题，获得准确度高、连续性好、鲁棒性强的目标长时期跟踪轨迹，为场景感知和安防监控提供便利。

下面结合附图对本发明实施例的融合多视角图像和三维点云的目标跟踪方法进行详细阐述。

首先对下述出现的符号进行说明：t:算法处理的当前时刻，S:关系度量矩阵，S₁：空间位置图像矩阵，S₂：外观特征匹配矩阵，

t时刻，第i个相机目标的图像块，

t时刻，第i个相机目标的图像块的外观特征。

具体地，本发明整体分为两个阶段，分别是获取三维目标检测结果和基于空间信息与外观特征的目标跟踪。如图2和图3所示。

第一阶段：多视角多模态的三维目标检测。

可以理解的是，对于多视角多模态的三维目标检测任务，本发明同时输入场景中多个视角的二维图像和三维点云，进行特征提取和融合。对于二维图像，利用二维特征提取网络分别获得来自多个视角的图像特征，再根据不同的相机参数将特征图投影到三维鸟瞰图进行拼接融合，从而得到多视角融合二维特征图；对于三维点云，将来自不同视角激光雷达的点云进行时空配准后直接融合，得到多角度稠密点云，再利用三维特征提取网络获得点云特征图。将二维特征图和点云特征图按照空间位置拼接融合后得到多模态特征图，再通过一个检测头得到精准的三维目标检测结果。

具体地，构建多模态融合的目标检测深度学习网络。点云数据和相机数据存在模态差异，本发明使用不同的特征提取网络和骨干网络处理这两种数据，将得到的两种特征按照空间位置拼接融合后得到多模态特征图，再通过一个检测头得到精准的三维目标检测结果。

作为一种示例，构建点云处理网络。本发明设计的点云处理网络包括两部分：特征提取网络和骨干网络，其中点云特征提取网络用于点云特征编码，骨干网络对提取到的特征进行进一步的处理。

具体地，特征提取网络的作用是将点云转换为伪图像，并提取点云特征。首先，输入点云被分割成多个单元，每个单元是在X-Y平面上(笛卡尔坐标系)以一定的步长对点云进行划分得到的一个3维网格。由于点云数据的稀疏性，可能很多单元都不含点云或者包含的点云数量比较少，考虑到计算复杂度的问题，会对单元的数量进行限制，最多处理P个非空的单元，同时每个单元中最多包含N个点云特征向量，如果点云数大于N，则采用随机采样的方法从中选取N个，反之，如果点云的数量少于N，则用零填充的方法填充到N个。通过上述方法，就将一帧点云数据编码成了一个维度为(,P,N)的稠密张量。接下来，用一个三维卷积网络进行处理，生成维度为(,P,N)的张量；然后对每个单元进行最大池化操作，得到维度为(,P)的张量。最后，通过scatter算子生成(C,,)的伪图像。

作为一种示例，骨干网络由一个2D卷积神经网络组成，其作用是用于在特征提取网络输出的伪图像上提取高维特征。骨干网络分为两个子网络：一个自顶向下的子网络用于在越来越小的空间分辨率特征图上提取特征，另一个子网络则负责将不同分辨率特征图上提取的特征通过反卷积操作进行上采样至同样维度大小然后进行串联。

作为一种示例，构建图像处理网络。图像处理网络的输入是不同视角相机采集到的多个图像，利用一个卷积神经网络同时处理输入图像，提取特征。卷积神经网络分别计算M个输入图像的C通道特征图，并且在所有计算中共享权重。为了保持特征图较高的空间分辨率，将后3层卷积替换为扩展卷积。在投影之前，将N个特征地图的大小调整为一个固定的大小[，W](H和W表示特征图的高度和宽度)。

进一步地，利用特征图的投影变换进行多相机信息聚合，将多个视角特征图投影到三维鸟瞰图进行拼接融合。根据相机参数，可以得到图片像素和地面上坐标的对应关系。通过一组地面坐标(z＝0)和一组图像像素的对应，可以对特征图进行投影。为了加强网络对空间位置的感知，将多个投影后的特征图和X-Y坐标图进行拼接融合得到M×C+2通道的俯视图特征图。将二维特征图和点云特征图按照空间位置拼接融合后得到多模态特征图，再通过一个检测头得到精准的三维目标检测结果。

进一步地，多模态融合目标检测模型的训练和推理。利用多模态数据采集***采集多视角多模态数据，对采集到的数据人工标注三维目标框，利用标注好的数据训练多模态融合目标检测模型。在推理时，利用相似的多模态数据采集***获取待进行轨迹跟踪的多视角图像和点云数据，利用上述训练完毕的多模态融合目标检测深度学习网络获取得到该点云和图像序列中每个预测时刻的三维目标检测结果。

第二阶段，基于空间信息与外观特征的目标跟踪。

具体地，获取第一阶段得到的待进行轨迹跟踪的当前预测时刻的三维目标检测结果，前一时刻的轨迹跟踪结果进行匹配。计算目标与前一时刻的跟踪结果的检测框交并比作为空间上的关系度量。将三维目标检测框投影至输入的多视角二维图像，计算目标与前一时刻的轨迹跟踪结果的外观特征的余弦距离作为外观上的关系度量。对于两个关系度量矩阵进行平均聚合后，本发明使用匈牙利匹配算法当前时刻的检测结果与前一时刻的轨迹跟踪结果进行匹配，最终得到当前时刻目标的跟踪轨迹。

进一步地，将当前预测时刻用t时刻表示，前一时刻用t-1时刻表示。本发明使用了距离交并比作为检测框之间关系度量的方式。得到的t时刻检测结果的检测框数量为m，t-1时刻匹配得到的跟踪结果中的检测框数量为n，那么计算出的匹配分数为m*n的矩阵，用S₁表示。

进一步地，基于三维点云的精准的三维空间信息，由第一阶段得到的融合多模态的检测结果具有准确的空间信息，但是对于距离较近的聚集性目标会出现检测框交叠的情况，只使用三维空间位置进行跟踪匹配容易导致轨迹匹配的错误。本发明在空间信息之外，利用多视角二维图像提取丰富的外观特征，计算不同目标间的外观特征的余弦距离，提高跟踪匹配的精度。

作为一种示例，本发明使用从世界坐标系到相机坐标系的投影矩阵，将第一阶段得到的三维检测框投影到二维图像上，获取目标在图像上的二维检测框。得到的二维图像检测框进行图像截取，得到每个目标在不同视角的图像块。对于t时刻，第i个相机目标的一个图像块

使用二维图像特征提取深度学***均得到最终的外观特征相似度，作为外观特征的匹配分数。

若第一阶段得到的t时刻检测结果的检测框数量为m，t-1时刻匹配得到的跟踪结果中的检测框数量为n，那么计算出的匹配分数为m*n的矩阵，用S₂表示。

进一步地，将上述得到的空间位置匹配矩阵S₁和外观特征匹配矩阵S₂相加融合，获得最终的当前时刻目标与前一时刻的跟踪结果匹配的关系度量矩阵S。本发明使用二分匹配等匹配算法将当前时刻的检测目标与跟踪轨迹进行连接。在完成t时刻的轨迹匹配连接之后，将上述得到的t时刻的目标在二维图像上的外观特征添加到该目标所属跟踪轨迹的历史外观特征库中，用于下一时刻的匹配使用。

进一步地，跟踪轨迹修复处理，由于场景中目标离开场景或者被障碍物遮挡，容易导致目标跟踪轨迹的丢失，在目标检测恢复正常时，应当重新恢复历史轨迹。然而传统的跟踪算法往往将其当作全新的目标赋予新的id，所以跟踪算法需要对重新出现的跟踪轨迹进行修复。具体方法如下：

在上述的下一时刻的匹配完毕之后，得到三种轨迹，第一种是成功与t时刻检测结果中成功匹配连接的轨迹，第二种是没能在t时刻检测结果中找到匹配对的历史轨迹，第三种是没有匹配的t时刻的检测结果。

对于没有成功得到匹配历史轨迹段，并不直接认为该轨迹立即消亡，而是将轨迹的对应外观特征继续保留，作为待恢复的历史轨迹。

对于没有成功匹配的t时刻的检测目标，本发明使用外观特征关系度量方法，计算未匹配的检测目标和待恢复的历史轨迹之间的外观特征分数，若分数大于阈值，则认为该检测目标与待恢复的历史轨迹属于同一个物体，将二者进行连接，对重新出现的目标跟踪轨迹进行修复，提高同一物体轨迹的连续性。

根据本发明实施例的融合多视角图像和三维点云的目标跟踪方法，可以极大消除单一模态跟踪结果中轨迹交换、目标丢失等问题，获得准确度高、连续性好、鲁棒性强的目标长时期跟踪轨迹，为场景感知和安防监控提供便利。

为了实现上述实施例，如图4所示，本实施例中还提供了融合多视角图像和三维点云的目标跟踪装置10，该装置10包括，特征提取模块100、目标检测模块200、特征融合模块300和匹配输出模块400。

特征提取模块100，用于基于多视角的二维图像和三维点云分别得到二维特征图和点云特征图；

目标检测模块200，用于将二维特征图和点云特征图融合后得到的多模态特征图，输入至预训练的多模态融合目标检测模型进行检测得到目标检测框；其中，目标检测框包括目标轨迹的三维目标检测结果；

特征融合模块300，用于根据目标检测框与历史时刻的轨迹跟踪结果的检测框对比结果得到空间位置匹配矩阵，以及对目标轨迹与历史时刻的轨迹跟踪结果的二维图像特征进行计算得到外观特征匹配矩阵，聚合空间位置匹配矩阵和外观特征匹配矩阵得到最终关系度量矩阵；

匹配输出模块400，用于基于最终关系度量矩阵和预设的匹配算法对三维目标检测结果与历史时刻的轨迹跟踪结果进行匹配，根据匹配结果得到当前时刻目标轨迹的跟踪轨迹结果。

进一步地，上述特征提取模块100，还用于：

获取多视角的二维图像和三维点云；

利用图像处理网络提取多视角的二维图像得到初始特征图，根据不同的相机参数将初始特征图投影到三维鸟瞰图进行拼接融合，以得到多视角融合的二维特征图；以及，

利用点云处理网络将三维点云进行时空配准后融合得到多角度稠密点云，并对多角度稠密点云进行特征提取得到点云特征图。

进一步地，点云处理网络包括特征提取网络和骨干网络；骨干网络包括第一子网络和第二子网络；图像处理网络包括卷积神经网络，上述特征提取模块，还用于：

将多视角的三维点云输入特征提取网络进行点云转换得到伪图像，将伪图像输入第一子网络进行不同空间分辨率特征图的特征提取；将不同空间分辨率特征图提取的特征输入第二子网络进行反卷积操作后并串联得到点云特征图；以及，

将多视角的二维图像输入卷积神经网络计算多通道特征图，利用多通道特征图的投影变换进行多相机信息聚合，以将多通道特征图投影到三维鸟瞰图进行拼接融合得到二维特征图。

进一步地，装置10，还包括模型预训练模块，用于：

获取多模态特征图的样本数据，利用多样本数据进行目标检测框的数据标注，利用标注好的数据训练多模态融合目标检测模型；

将待进行轨迹跟踪的二维图像和三维点云输入至训练好的多模态融合目标检测模型进行目标轨迹，得到每个预测时刻的三维目标检测结果。

进一步地，装置10，还包括矩阵计算模块，用于：

基于当前时刻三维目标检测结果的检测框几何信息和历史时刻匹配得到的轨迹跟踪结果中的检测框几何信息进行匹配分数计算，以得到空间位置匹配矩阵；

将三维目标检测框投影至多视角的二维图像，并进行目标轨迹与历史时刻的轨迹跟踪结果的外观特征余弦距离计算得到外观特征匹配矩阵；以及，

对空间位置匹配矩阵和外观特征匹配矩阵进行相加融合，得到当前时刻目标与历史时刻的轨迹跟踪结果匹配的最终关系度量矩阵。

根据本发明实施例的融合多视角图像和三维点云的目标跟踪装置，可以极大消除单一模态跟踪结果中轨迹交换、目标丢失等问题，获得准确度高、连续性好、鲁棒性强的目标长时期跟踪轨迹，为场景感知和安防监控提供便利。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

Claims

1.一种融合多视角图像和三维点云的目标跟踪方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述基于多视角的二维图像和三维点云分别得到二维特征图和点云特征图，包括：

获取多视角的二维图像和三维点云；

利用图像处理网络提取所述多视角的二维图像得到初始特征图，根据不同的相机参数将初始特征图投影到三维鸟瞰图进行拼接融合，以得到多视角融合的二维特征图；以及，

利用点云处理网络将所述三维点云进行时空配准后融合得到多角度稠密点云，并对所述多角度稠密点云进行特征提取得到点云特征图。

3.根据权利要求2所述的方法，其特征在于，所述点云处理网络包括特征提取网络和骨干网络；所述骨干网络包括第一子网络和第二子网络；所述图像处理网络包括卷积神经网络，所述方法，还包括：

将所述多视角的三维点云输入所述特征提取网络进行点云转换得到伪图像，将所述伪图像输入所述第一子网络进行不同空间分辨率特征图的特征提取；将所述不同空间分辨率特征图提取的特征输入所述第二子网络进行反卷积操作后并串联得到所述点云特征图；以及，

将所述多视角的二维图像输入所述卷积神经网络计算多通道特征图，利用多通道特征图的投影变换进行多相机信息聚合，以将多通道特征图投影到三维鸟瞰图进行拼接融合得到所述二维特征图。

4.根据权利要求1所述的方法，其特征在于，所述方法，还包括：

获取多模态特征图的样本数据，利用所述多样本数据进行目标检测框的数据标注，利用标注好的数据训练所述多模态融合目标检测模型；

将待进行轨迹跟踪的二维图像和三维点云输入至训练好的多模态融合目标检测模型进行目标轨迹检测，得到每个预测时刻的三维目标检测结果。

5.根据权利要求4所述的方法，其特征在于，所述方法，还包括：

根据当前时刻三维目标检测结果的检测框几何信息和历史时刻匹配得到的轨迹跟踪结果中的检测框几何信息进行匹配分数计算，以得到所述空间位置匹配矩阵；

将三维目标检测框投影至所述多视角的二维图像，并进行目标轨迹与历史时刻的轨迹跟踪结果的外观特征余弦距离计算得到外观特征匹配矩阵；以及，

对所述空间位置匹配矩阵和所述外观特征匹配矩阵进行相加融合，得到当前时刻目标与历史时刻的轨迹跟踪结果匹配的最终关系度量矩阵。

6.一种融合多视角图像和三维点云的目标跟踪装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述特征提取模块，还用于：

获取多视角的二维图像和三维点云；

8.根据权利要求7所述的装置，其特征在于，所述点云处理网络包括特征提取网络和骨干网络；所述骨干网络包括第一子网络和第二子网络；所述图像处理网络包括卷积神经网络，所述特征提取模块，还用于：

9.根据权利要求6所述的装置，其特征在于，所述装置，还包括模型预训练模块，用于：

10.根据权利要求9所述的装置，其特征在于，所述装置，还包括矩阵计算模块，用于：

基于当前时刻三维目标检测结果的检测框几何信息和历史时刻匹配得到的轨迹跟踪结果中的检测框几何信息进行匹配分数计算，以得到所述空间位置匹配矩阵；