CN117132952A

CN117132952A - 一种基于多摄像头的鸟瞰视角车辆感知***

Info

Publication number: CN117132952A
Application number: CN202310880060.6A
Authority: CN
Inventors: 张云翔; 姬永超; 张秋磊; 赵梓良; 李博伦; 王强
Original assignee: Beijing Machinery Equipment Research Institute
Current assignee: Beijing Machinery Equipment Research Institute
Priority date: 2023-07-18
Filing date: 2023-07-18
Publication date: 2023-11-28

Abstract

本公开是关于一种基于多摄像头的鸟瞰视角车辆感知***。其中，该鸟瞰视角车辆感知***包括特征提取模块、任务编码器、任务头，其中：所述特征提取模块包括骨架网络模块、多尺度特征融合模块、多摄像头融合模块、时序融合模块，用于对基于多摄像头采集的图像生成的BEV视角下的图像进行特征提取处理；所述任务编码器包括语义地图分割编码器、目标检测编码器、运动轨迹预测编码器，用于基于预设卷积神经网络对图像特征进行编码处理；所述任务头包括3D检测任务头、运动轨迹预测任务头、语义地图分割任务头，用于对图像特征进行预设任务识别，完成鸟瞰视角车辆感知。本公开有效解决了目标遮挡和场景缩放等问题，更有利于提升下游感知任务的准确率。

Description

一种基于多摄像头的鸟瞰视角车辆感知***

技术领域

本公开涉及无人驾驶领域，具体而言，涉及一种基于多摄像头的鸟瞰视角车辆感知***。

背景技术

3D视觉感知任务是无人驾驶领域的关键技术，广泛应用于自动驾驶、应急救援、侦查作案和反恐防爆等诸多领域。该项任务通过预测场景中包含的物体的空间位置、尺寸和姿态等3D信息实现无人驾驶。基于图像丰富的颜色和纹理特征，提取图像特征的卷积神经网络历经几十年的发展，已经在许多高级视觉任务上取得显著成效。因此，在3D视觉感知任务中，现有方法多将3D空间点转换为基于前视图或俯视图(BEV)的2D特征表示，并基于2D视图构建相应视觉感知网络。然而，基于前视图的3D视觉感知方法存在以下问题：一方面，前视图对3D场景的表示能力有限，导致基于图像的3D视觉感知任务性能远低于2D视觉感知任务，同时也侧面反映出图像并不是一种适合3D视觉感知的数据表示方式。另一方面，在前视图中融合其他类型数据计算量大、损失精度高，使得基于图像特征训练出的网络模型的泛化能力和可扩展性均较差。近年来，随着多模态融合技术在无人驾驶领域的广泛应用，这种劣势显得尤为明显。

现有技术中，多视角图像的视角转换方法实现方案为：提取多视角图像的图像特征得到各视角图像的特征图，将特征图作为值；根据特征图构建各视角图像在对应的相机视角的局部3D坐标系下的局部键；根据全局坐标系到各视角的相机坐标系的转换关系，构建各视角图像在局部3D坐标系下的局部查询；将值、局部键和局部查询，以及全局坐标系下的全局键和全局查询，输入transformer网络的解码器，通过解码器得到多视角图像在全局坐标系下的图像特征。此方法虽然降低transformer网络的学习难度，从而提高视角转换精度。但是因基于transformer架构，需要大量数据来进行训练，同时可解释性较差。一种统一时空融合的环视鸟瞰图感知方法包括如下步骤：获取用于训练神经网络的图像数据集，定义算法目标；建立虚拟视角模型；基础骨干网络环视图像特征提取；建立时序特征队列；统一的时空融合建模融合特征；头部网络输出预测结果。此方法相比于现有技术中的其他感知模型，能够有效地同时融合环视图像的空间关系，同时能够融合不同时刻环视图像的时序关系，通过更好地融合不同时序步取得了更好的感知效果和更快的感知速度。但是，此方法仅能队周围的车辆进行检测，不能对周围的目标进行了运动轨迹的预测。

因此，需要一种或多种方法解决上述问题。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种基于多摄像头的鸟瞰视角车辆感知***，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。

根据本公开的一个方面，提供一种基于多摄像头的鸟瞰视角车辆感知***，包括特征提取模块、任务编码器、任务头，其中：

所述特征提取模块包括骨架网络模块、多尺度特征融合模块、多摄像头融合模块、时序融合模块，所述特征提取模块用于对基于多摄像头采集的图像生成的BEV视角下的图像进行特征提取处理；

所述任务编码器包括语义地图分割编码器、目标检测编码器、运动轨迹预测编码器，所述任务编码器用于基于预设卷积神经网络对所述特征提取模块提取的图像特征进行编码处理；

所述任务头包括3D检测任务头、运动轨迹预测任务头、语义地图分割任务头，所述任务头用于基于进行编码处理的图像特征进行预设任务识别，完成鸟瞰视角车辆感知。

在本公开的一种示例性实施例中，所述***的特征提取模块中，所述骨架网络模块基于RegNet深度神经网络架构，所述骨架网络模块用于对基于多摄像头采集的图像生成的BEV视角下的图像构建深度神经网络架构。

在本公开的一种示例性实施例中，所述***的特征提取模块中，所述多尺度特征融合模块基于改进版特征金字塔网络的BiFPN架构，所述多尺度特征融合模块用于对基于多摄像头采集的图像生成的BEV视角下的图像进行多尺度特征融合处理。

在本公开的一种示例性实施例中，所述***的特征提取模块中，所述多摄像头融合模块基于Lift-Splat方法，所述多摄像头融合模块用于对基于多摄像头采集的图像生成的BEV视角下的图像进行多摄像头融合处理。

在本公开的一种示例性实施例中，所述***的特征提取模块中，所述时序融合模块用于将图像特征进行坐标系变换处理。

在本公开的一种示例性实施例中，所述***的任务编码器用于基于预设卷积神经网络对所述特征提取模块提取的图像特征进行编码处理，分别生成预设分辨率的图像特征。

在本公开的一种示例性实施例中，所述***还包括：

所述任务编码器生成的预设分辨率的图像特征中，基于目标检测编码器生成的目标检测图像特征的分辨率、基于运动轨迹预测编码器生成的运动轨迹预测图像特征的分辨率均小于基于语义地图分割编码器生成的语义地图分割图像特征的分辨率。

在本公开的一种示例性实施例中，所述***的任务头中，所述3D检测任务头基于CenterPoint检测头，所述3D检测任务头用于预测目标的宽高及目标出现概率的高斯热度图。

在本公开的一种示例性实施例中，所述***的任务头中，所述运动轨迹预测任务头基于Shoot方式，所述运动轨迹预测任务头用于对不同目标的模板轨迹进行预测。

在本公开的一种示例性实施例中，所述***的任务头中，所述语义地图分割任务头基于HDMap方式，所述语义地图分割任务头用于基于语义分割算法进行语义环境分割处理。

本公开的示例性实施例中的一种基于多摄像头的鸟瞰视角车辆感知***，其中，该鸟瞰视角车辆感知***包括特征提取模块、任务编码器、任务头，其中：所述特征提取模块包括骨架网络模块、多尺度特征融合模块、多摄像头融合模块、时序融合模块，用于对基于多摄像头采集的图像生成的BEV视角下的图像进行特征提取处理；所述任务编码器包括语义地图分割编码器、目标检测编码器、运动轨迹预测编码器，用于基于预设卷积神经网络对图像特征进行编码处理；所述任务头包括3D检测任务头、运动轨迹预测任务头、语义地图分割任务头，用于对图像特征进行预设任务识别，完成鸟瞰视角车辆感知。本公开有效解决了目标遮挡和场景缩放等问题，更有利于提升下游感知任务的准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

通过参照附图来详细描述其示例实施例，本公开的上述和其它特征及优点将变得更加明显。

图1示出了根据本公开一示例性实施例的一种基于多摄像头的鸟瞰视角车辆感知***的示意框图；

图2示出了根据本公开一示例性实施例的一种基于多摄像头的鸟瞰视角车辆感知***的技术方案总体框图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本公开将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有所述特定细节中的一个或更多，或者可以采用其它的方法、组元、材料、装置、步骤等。在其它情况下，不详细示出或描述公知结构、方法、装置、实现、材料或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个软件硬化的模块中实现这些功能实体或功能实体的一部分，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

在本示例实施例中，首先提供了一种基于多摄像头的鸟瞰视角车辆感知***；参考图1中所示，该一种基于多摄像头的鸟瞰视角车辆感知***包括特征提取模块110、任务编码器120、任务头130，其中：

所述特征提取模块110包括骨架网络模块、多尺度特征融合模块、多摄像头融合模块、时序融合模块，所述特征提取模块110用于对基于多摄像头采集的图像生成的BEV视角下的图像进行特征提取处理；

所述任务编码器120包括语义地图分割编码器、目标检测编码器、运动轨迹预测编码器，所述任务编码器120用于基于预设卷积神经网络对所述特征提取模块110提取的图像特征进行编码处理；

所述任务头130包括3D检测任务头、运动轨迹预测任务头、语义地图分割任务头，所述任务头130用于基于进行编码处理的图像特征进行预设任务识别，完成鸟瞰视角车辆感知。

本公开的示例性实施例中的一种基于多摄像头的鸟瞰视角车辆感知***，其中，该鸟瞰视角车辆感知***包括特征提取模块110、任务编码器120、任务头130，其中：所述特征提取模块110包括骨架网络模块、多尺度特征融合模块、多摄像头融合模块、时序融合模块，用于对基于多摄像头采集的图像生成的BEV视角下的图像进行特征提取处理；所述任务编码器120包括语义地图分割编码器、目标检测编码器、运动轨迹预测编码器，用于基于预设卷积神经网络对图像特征进行编码处理；所述任务头130包括3D检测任务头、运动轨迹预测任务头、语义地图分割任务头，用于对图像特征进行预设任务识别，完成鸟瞰视角车辆感知。本公开有效解决了目标遮挡和场景缩放等问题，更有利于提升下游感知任务的准确率。

下面，将对本示例实施例中的一种基于多摄像头的鸟瞰视角车辆感知***进行进一步的说明。

实施例一：

一种基于多摄像头的鸟瞰视角车辆感知***包括特征提取模块110、任务编码器120、任务头130，其中：

所述特征提取模块110包括骨架网络模块、多尺度特征融合模块、多摄像头融合模块、时序融合模块，所述特征提取模块110用于对基于多摄像头采集的图像生成的BEV视角下的图像进行特征提取处理。

在本示例的实施例中，所述***的特征提取模块110中，所述骨架网络模块基于RegNet深度神经网络架构，所述骨架网络模块用于对基于多摄像头采集的图像生成的BEV视角下的图像构建深度神经网络架构。

在本示例的实施例中，所述***的特征提取模块110中，所述多尺度特征融合模块基于改进版特征金字塔网络的BiFPN架构，所述多尺度特征融合模块用于对基于多摄像头采集的图像生成的BEV视角下的图像进行多尺度特征融合处理。

在本示例的实施例中，所述***的特征提取模块110中，所述多摄像头融合模块基于Lift-Splat方法，所述多摄像头融合模块用于对基于多摄像头采集的图像生成的BEV视角下的图像进行多摄像头融合处理。

在本示例的实施例中，所述***的特征提取模块110中，所述时序融合模块用于将图像特征进行坐标系变换处理。

所述任务编码器120包括语义地图分割编码器、目标检测编码器、运动轨迹预测编码器，所述任务编码器120用于基于预设卷积神经网络对所述特征提取模块110提取的图像特征进行编码处理。

在本示例的实施例中，所述***的任务编码器120用于基于预设卷积神经网络对所述特征提取模块110提取的图像特征进行编码处理，分别生成预设分辨率的图像特征。

在本示例的实施例中，所述***还包括：

所述任务编码器120生成的预设分辨率的图像特征中，基于目标检测编码器生成的目标检测图像特征的分辨率、基于运动轨迹预测编码器生成的运动轨迹预测图像特征的分辨率均小于基于语义地图分割编码器生成的语义地图分割图像特征的分辨率。

在本示例的实施例中，所述***的任务头130中，所述3D检测任务头基于CenterPoint检测头，所述3D检测任务头用于预测目标的宽高及目标出现概率的高斯热度图。

在本示例的实施例中，所述***的任务头130中，所述运动轨迹预测任务头基于Shoot方式，所述运动轨迹预测任务头用于对不同目标的模板轨迹进行预测。

在本示例的实施例中，所述***的任务头130中，所述语义地图分割任务头基于HDMap方式，所述语义地图分割任务头用于基于语义分割算法进行语义环境分割处理。

实施例二：

在本示例的实施例中，本公开将基于纯视觉的BEV感知方案，来进行BEV特征的感知。技术方案总体框图如图2所示。

其中第一部分称为特征提取模块110，共包含四个模块：骨架网络模块、多尺度特征融合模块、多摄像头融合模块以及时序融合模块。

骨架网络模块采用RegNet。RegNet是一种深度神经网络架构，它是由微软研究院提出的。RegNet的设计目标是提高计算效率和模型性能，同时保持模型的可扩展性和灵活性。RegNet的设计思想是通过增加网络的深度和宽度来提高模型的性能。与其他神经网络架构不同的是，RegNet使用了一种称为“网络设计空间搜索”的方法来确定网络的深度和宽度。这种方法可以在保持模型性能的同时，最大限度地减少计算成本。RegNet的网络结构由多个模块组成，每个模块包含多个卷积层和池化层。这些模块可以根据需要进行堆叠，以构建更深更宽的网络。RegNet还使用了一种称为“通道注意力”的技术，可以自适应地调整每个卷积层的通道数，以进一步提高模型的性能。RegNet可以在不同算力的硬件条件下取得良好的性能。

多尺度融合模块采用BiFPN。BiFPN，它是由EfficientDet论文中提出的一种改进版FPN(特征金字塔网络)。BiFPN的主要思想是在FPN的基础上，引入了一种双向连接的方式，以便更好地整合不同层级的特征信息。具体来说，BiFPN在每个特征层级上都引入了两个分支，一个是从上一层级的特征向下传递，另一个是从下一层级的特征向上传递。这样，就可以在不同层级之间更好地整合信息，从而提高目标检测的准确性和效率。BiFPN还采用了一种自适应的方式来调整不同层级之间的特征权重，以便更好地适应不同的目标检测任务。具体来说，BiFPN会根据每个特征层级的贡献程度来自动调整其权重，从而更好地平衡不同层级之间的特征信息。

多摄像头融合模块采用Lift Splat。其中，在Lift阶段，需要将鸟瞰图像中的像素点映射到三维空间中。这一过程需要考虑相机的内外参数以及像素点的深度信息。通常使用的方法是将像素点通过相机内外参数反投影到相机坐标系中，然后通过相机坐标系到世界坐标系的变换将其映射到三维空间中。在Splat阶段，需要将点云投影到三维网格中。这一过程需要考虑点云的密度和分布情况，通常使用的方法是将点云按照一定的规则投影到网格中，并将点云的属性(如颜色、法向量等)赋值给网格中的对应位置。在Shoot阶段，需要在三维网格中进行目标检测。这一过程通常使用的方法是将网格划分为若干个小立方体，然后对每个小立方体进行目标检测。检测方法可以使用传统的二维目标检测算法，也可以使用基于三维卷积神经网络的方法。

时序融合模块使用前几帧的特征，通过车辆IMU和运动信息来将原先的特征变换至当前车辆的坐标系下，并和当前特征进行cancat。

第二部分称为任务编码器120。任务编码器120使用不同的卷积神经网络对特征提取模块110所提取的特征进行编码。由于不同的任务所需要的分辨率不同，因此不同编码器对于特征编码后的结果所输出的分辨率也不同。语义地图分割的分辨率要高于目标检测和运动轨迹预测。

第三部分称为任务头130。其中3D检测头使用CenterPoint的检测头。CenterPoint同时预测目标的宽高以及目标出现概率的高斯热度图。并将两者结合算出最后的目标位置。运动轨迹预测任务头使用Shoot方式。Shoot使用类似于语义分割的方法对不同目标的模板轨迹进行预测。语义地图分割任务头使用HDMap的方式，使用语义分割算法队周围的语义环境进行分割。

应当注意，尽管在上文详细描述中提及了一种基于多摄像头的鸟瞰视角车辆感知***的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种基于多摄像头的鸟瞰视角车辆感知***，其特征在于，所述***包括特征提取模块、任务编码器、任务头，其中：

2.如权利要求1所述的***，其特征在于，所述***的特征提取模块中，所述骨架网络模块基于RegNet深度神经网络架构，所述骨架网络模块用于对基于多摄像头采集的图像生成的BEV视角下的图像构建深度神经网络架构。

3.如权利要求2所述的***，其特征在于，所述***的特征提取模块中，所述多尺度特征融合模块基于改进版特征金字塔网络的BiFPN架构，所述多尺度特征融合模块用于对基于多摄像头采集的图像生成的BEV视角下的图像进行多尺度特征融合处理。

4.如权利要求3所述的***，其特征在于，所述***的特征提取模块中，所述多摄像头融合模块基于Lift-Splat方法，所述多摄像头融合模块用于对基于多摄像头采集的图像生成的BEV视角下的图像进行多摄像头融合处理。

5.如权利要求4所述的***，其特征在于，所述***的特征提取模块中，所述时序融合模块用于将图像特征进行坐标系变换处理。

6.如权利要求1所述的***，其特征在于，所述***的任务编码器用于基于预设卷积神经网络对所述特征提取模块提取的图像特征进行编码处理，分别生成预设分辨率的图像特征。

7.如权利要求6所述的***，其特征在于，所述***还包括：

8.如权利要求1所述的***，其特征在于，所述***的任务头中，所述3D检测任务头基于CenterPoint检测头，所述3D检测任务头用于预测目标的宽高及目标出现概率的高斯热度图。

9.如权利要求1所述的***，其特征在于，所述***的任务头中，所述运动轨迹预测任务头基于Shoot方式，所述运动轨迹预测任务头用于对不同目标的模板轨迹进行预测。

10.如权利要求1所述的***，其特征在于，所述***的任务头中，所述语义地图分割任务头基于HDMap方式，所述语义地图分割任务头用于基于语义分割算法进行语义环境分割处理。