CN118134835A

CN118134835A - 一种自动驾驶场景检测方法、装置、设备及介质

Info

Publication number: CN118134835A
Application number: CN202311827122.3A
Authority: CN
Inventors: 郑巧巧
Original assignee: Human Horizons Shanghai Autopilot Technology Co Ltd
Current assignee: Human Horizons Shanghai Autopilot Technology Co Ltd
Priority date: 2023-12-27
Filing date: 2023-12-27
Publication date: 2024-06-04

Abstract

本发明公开一种自动驾驶场景检测方法、装置、设备及介质，方法包括：获取当前时刻的雷达点云数据和不同视角的若干图像数据并进行特征编码，获得点云特征图和若干图像特征图，然后分别转换至BEV空间，获得BEV点云特征图和BEV图像特征图，并通过特征融合获得BEV融合特征；对BEV融合特征进行编码，获得BEV编码特征图；利用BEV融合特征和BEV编码特征图进行自动驾驶场景检测，获得当前自动驾驶场景的点云全景分割结果和场景信息。本发明通过将雷达点云数据和不同视角的若干图像数据转换至BEV空间并进行特征融合，能保留丰富的语义信息和精准的空间信息，结合全景分割及多视角场景信息的描述，实现自动驾驶场景的精准检测。

Description

一种自动驾驶场景检测方法、装置、设备及介质

技术领域

本发明涉及车辆技术领域，尤其是涉及一种自动驾驶场景检测方法、装置、终端设备及计算机可读存储介质。

背景技术

雷达技术和计算机视觉技术在自动驾驶、安防、智能交通等领域得到广泛应用。雷达技术具有强大的穿透能力和不受光照、雨雪等天气因素影响的优势，但它不能提供高精度的目标识别和跟踪信息。相比之下，计算机视觉技术可以提供更丰富的目标信息，但其受光照、雨雪等天气因素的影响较大。现有技术通常仅基于雷达点云或图像进行自动驾驶场景信息的检测，然而不同的传感器往往存在一定的硬件缺陷，仅依靠单模态数据难以精准地检测自动驾驶场景信息，且信息丰富度较低。

发明内容

本发明提供一种自动驾驶场景检测方法、装置、设备及介质，通过将雷达点云数据和不同视角的若干图像数据统一转换至BEV空间，并在BEV空间下进行特征融合，从而能够保留丰富的语义信息和精准的空间信息，结合全景分割及多视角场景信息的描述，进而实现自动驾驶场景的精准检测。

为了解决上述技术问题，本发明实施例第一方面提供一种自动驾驶场景检测方法，包括如下步骤：

获取当前时刻的雷达点云数据和不同视角的若干图像数据；

分别对所述雷达点云数据和若干所述图像数据进行特征编码，获得点云特征图和若干图像特征图，并将所述点云特征图和若干所述图像特征图分别转换至BEV空间，获得BEV点云特征图和BEV图像特征图；

将所述BEV点云特征图和所述BEV图像特征图进行特征融合，获得BEV融合特征，并对所述BEV融合特征进行编码，获得BEV编码特征图；

利用所述BEV融合特征和所述BEV编码特征图进行自动驾驶场景检测，获得当前自动驾驶场景的点云全景分割结果和场景信息。

作为优选方案，所述方法具体通过如下步骤将若干所述图像特征图转换至所述BEV空间，获得所述BEV图像特征图：

预测所述图像特征图中每个像素点的离散深度分布，并根据每个像素点的所述离散深度分布，沿摄像头光线将每个像素点分散为若干个离散点；

根据各离散点所对应的预设深度概率及所述像素点的值，确定若干摄像头特征，并将若干所述摄像头特征进行组合，生成摄像头特征点云；

通过BEV池化操作在所述BEV空间的每个网格内对所述摄像头特征点云进行聚合量化，获得所述BEV图像特征图。

作为优选方案，所述将所述BEV点云特征图和所述BEV图像特征图进行特征融合，获得BEV融合特征，具体包括如下步骤：

将所述BEV点云特征图和所述BEV图像特征图按照通道维度进行拼接，并利用卷积核大小为3的卷积层对拼接后的特征图进行特征融合，获得初始融合特征；

通过sigmoid函数对所述初始融合特征进行非线性变换，获得每个通道的权重值，并将每个通道的权重值与所述初始融合特征相乘，获得所述BEV融合特征。

作为优选方案，所述对所述BEV融合特征进行编码，获得BEV编码特征图，具体包括如下步骤：

将所述BEV融合特征输入至预设的堆叠Hourglass网络进行编码，获得所述BEV编码特征图；其中，所述堆叠Hourglass网络由若干Hourglass模块堆叠而形成，所述Hourglass模块由两个编码器和两个解码器组成。

作为优选方案，所述利用所述BEV融合特征和所述BEV编码特征图进行自动驾驶场景检测，获得当前自动驾驶场景的点云全景分割结果和场景信息，具体包括如下步骤：

将所述BEV编码特征图输入至预设的语义分割头，通过所述语义分割头对所述BEV编码特征图进行语义分割，确定所述BEV空间下每个网格所属的类别；

将所述BEV编码特征图输入至预设的三维检测头，通过所述三维检测头对所述BEV编码特征图进行三维目标检测，确定所述BEV空间下各物体的信息；其中，所述物体的信息至少包括类别、三维坐标、尺寸和朝向；

根据所述BEV空间下每个网格所属的类别及各物体的信息，生成当前自动驾驶场景的所述点云全景分割结果；

将所述BEV融合特征输入至预设的基于Transformer的场景描述头，通过所述场景描述头对所述BEV编码特征图进行场景信息检测，确定当前自动驾驶场景的所述场景信息；其中，所述场景信息至少包括时间、天气、道路类型和道路拥堵情况。

作为优选方案，所述语义分割头由输入层、3个卷积核大小为3的卷积层、1个卷积核大小为1的卷积层和输出层组成；所述输出层的激活函数为sigmoid函数；所述语义分割头的损失函数为Focal-loss损失函数。

作为优选方案，所述三维检测头包括分类头和回归头；

所述分类头由第一输入层、3个卷积核大小为3的卷积层、1个卷积核大小为1的卷积层和第一输出层组成；所述第一输出层的激活函数为sigmoid函数；所述回归头由第二输入层、3个卷积核大小为3的卷积层、1个卷积核大小为1的卷积层和第二输出层组成；

所述三维检测头的分类损失函数为Focal-loss损失函数，所述三维检测头的回归损失函数为L1-loss损失函数。

作为优选方案，所述分别对所述雷达点云数据和若干所述图像数据进行特征编码，获得点云特征图和若干图像特征图，具体包括如下步骤：

利用MLP网络对所述雷达点云数据进行特征编码，获得所述点云特征图；

利用CNN模型对若干所述图像数据进行特征编码，获得若干所述图像特征图。

本发明实施例第二方面提供一种自动驾驶场景检测装置，包括：

数据获取模块，用于获取当前时刻的雷达点云数据和不同视角的若干图像数据；

BEV特征获取模块，用于分别对所述雷达点云数据和若干所述图像数据进行特征编码，获得点云特征图和若干图像特征图，并将所述点云特征图和若干所述图像特征图分别转换至BEV空间，获得BEV点云特征图和BEV图像特征图；

BEV特征融合模块，用于将所述BEV点云特征图和所述BEV图像特征图进行特征融合，获得BEV融合特征，并对所述BEV融合特征进行编码，获得BEV编码特征图；

场景检测模块，用于利用所述BEV融合特征和所述BEV编码特征图进行自动驾驶场景检测，获得当前自动驾驶场景的点云全景分割结果和场景信息。

本发明实施例第三方面提供一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面任一项所述的自动驾驶场景检测方法。

本发明实施例第四方面提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如第一方面任一项所述的自动驾驶场景检测方法。

相比于现有技术，本发明实施例的有益效果在于，通过将雷达点云数据和不同视角的若干图像数据统一转换至BEV空间，并在BEV空间下进行特征融合，从而能够保留丰富的语义信息和精准的空间信息，结合全景分割及多视角场景信息的描述，进而实现自动驾驶场景的精准检测。

附图说明

图1是本发明实施例中自动驾驶场景检测方法的流程示意图；

图2是本发明实施例中的BEV特征融合架构图；

图3是本发明实施例中堆叠Hourglass网络的结构示意图；

图4是本发明实施例中自动驾驶场景检测装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，本发明实施例第一方面提供一种自动驾驶场景检测方法，包括如下步骤S1至步骤S4：

步骤S1，获取当前时刻的雷达点云数据和不同视角的若干图像数据；

步骤S2，分别对所述雷达点云数据和若干所述图像数据进行特征编码，获得点云特征图和若干图像特征图，并将所述点云特征图和若干所述图像特征图分别转换至BEV空间，获得BEV点云特征图和BEV图像特征图；

步骤S3，将所述BEV点云特征图和所述BEV图像特征图进行特征融合，获得BEV融合特征，并对所述BEV融合特征进行编码，获得BEV编码特征图；

步骤S4，利用所述BEV融合特征和所述BEV编码特征图进行自动驾驶场景检测，获得当前自动驾驶场景的点云全景分割结果和场景信息。

具体地，由于在自动驾驶任务中所期望的是获取自车周围的环境，而不仅仅是某一个视角下的场景信息，因此本实施例通过获取当前时刻的雷达点云数据和不同视角的若干图像数据，以对当前时刻下多视角场景信息进行检测，从而检测到的场景信息更加详细完整。示例性的，本实施例可以通过预先配置于车辆的若干摄像头来获取若干不同视角的图像数据，例如通过2个具有不同视场角的前视摄像头、左前侧摄像头、右前侧摄像头、左后侧摄像头、右后侧摄像头和后视摄像头来获取7个不同视角的RGB图像。

进一步地，为了能够提取雷达点云数据中的空间信息特征以及图像数据中的语义信息特征，本实施例分别对雷达点云数据和若干图像数据进行特征编码，从而获得点云特征图和若干图像特征图，然后将点云特征图和若干图像特征图分别转换至BEV空间，从而将不同传感器的特征统一至BEV空间进行表征。

进一步地，为了能够同时保留丰富的语义信息和精准的空间信息，本实施例在BEV空间中将BEV点云特征图和BEV图像特征图进行特征融合，然后对生成的BEV融合特征进行编码，以减轻不同特征之间的局部错位。

进一步地，利用BEV融合特征和BEV编码特征图进行自动驾驶场景检测，从而获得当前自动驾驶场景的点云全景分割结果和场景信息，值得说明的是，本实施例通过全景分割和多视角场景信息的描述能够获取目标级、场景级的语义实例信息和场景信息，从而能够更加完整地描述当前自动驾驶场景的状态。

本发明实施例提供的一种自动驾驶场景检测方法，通过将雷达点云数据和不同视角的若干图像数据统一转换至BEV空间，并在BEV空间下进行特征融合，从而能够保留丰富的语义信息和精准的空间信息，结合全景分割及多视角场景信息的描述，进而实现自动驾驶场景的精准检测。

具体地，基于LSS，即Lift，Splat，Shoot，这是一个端到端架构，直接从任意数量的摄像头数据提取给定图像场景的鸟瞰图表示。将每个图像分别“提升(Lift)”到每个摄像头的视锥(Frustum)，然后将所有视锥“投放(Splat)”到光栅化的BEV网格中。这里要学习的是，如何表示图像以及如何将所有摄像机的预测融合到场景的单个拼接表示，同时又能抵抗标定误差。为学习运动规划的密集表示，这里模型推断的表示，“捕捉(Shoot)”模板轨迹到网络输出的鸟瞰损失图，从而实现可解释的端到端运动规划。本实施例首先明确预测图像特征图中每个像素点的离散深度分布，表示每个像素点可能对应的深度范围，然后沿摄像头光线将每个像素点分散成若干个离散点，并根据各离散点所对应的预设深度概率重缩放相关特征，确定若干摄像头特征。将若干摄像头特征进行组合，从而生成大小为N*H*W*D的摄像头特征点云，其中，N是摄像头数量，(H，W)是摄像头特征图的大小，D是离散点的数量。进一步地，该摄像头特征点云沿x、y轴量化，步长为r(类似于分辨率)，通过BEV池化操作在BEV空间的每个r×r网格内对摄像头特征点云进行聚合量化，从而获得h*w*c的BEV图像特征图，其中，(h，w)是BEV空间的大小，c是特征维度。

具体地，请参见图2，图2是本发明实施例提供的BEV特征融合架构图，本实施例首先通过通道维度拼接层将BEV点云特征图和BEV图像特征图按照通道维度进行拼接，然后利用卷积核大小为3的卷积层对拼接后的特征图进行特征融合，获得初始融合特征。进一步地，通过全局平均池化层能够提取初始融合特征中最具有代表性的特征，降低特征维度，提高整个BEV特征融合架构的泛化能力，避免过拟合，再通过卷积核大小为1的卷积层能够在保持特征图尺寸不变的前提下大幅增加非线性特性，通过sigmoid函数进行非线性变换，获得每个通道的权重值，并将每个通道的权重值与初始融合特征相乘，从而获得BEV融合特征。

具体地，请参见图3，图3是本发明实施例提供的堆叠Hourglass网络的结构示意图，本实施例利用堆叠Hourglass网络对BEV融合特征进行编码，值得说明的是，堆叠Hourglass网络由若干Hourglass模块堆叠而形成，从而能够增加网络的深度，提高网络的表达能力，每个Hourglass模块均由两个编码器和两个解码器组成，编码器用于将输入的特征映射至一个低维空间，以提取深层语义信息，即下采样，解码器用于将低维空间的特征映射回原始空间，以与浅层位置信息进行融合，即上采样。

在本实施例中，通过设置一些特定于任务的头来支持不同的检测或分割任务，具体而言，通过语义分割头利用BEV编码特征图进行语义分割，从而能够确定BEV空间下每个网格所属的类别，获得语义分割结果；通过三维检测头利用BEV编码特征图进行三维目标检测，从而能够确定BEV空间下各物体的信息，例如类别、三维坐标、尺寸和朝向等，本实施例在此不作具体限定，获得三维检测结果；基于语义分割结果和三维检测结果便能够生成当前自动驾驶场景的所述点云全景分割结果；通过基于Transformer的场景描述头利用BEV融合特征进行场景信息检测，从而能够确定当前自动驾驶场景的场景信息，例如时间、天气、道路类型和道路拥堵情况等，时间可以为白天、晚上等，天气可以为晴天、雨天、阴天等，道路类型可以为城市道路、隧道、高速道路、十字路口等，本实施例在此不作具体限定。值得说明的是，Transformer结构由输入层、若干编码器、若干解码器和输出层构成，基于Transformer的场景描述头的损失函数为MSE-loss损失函数。

具体地，本实施例中的语义分割头，BEV编码特征图从输入层输入，先经过3个卷积核大小为3的卷积层，再经过1个卷积核大小为1的卷积层，以将通道数量转换为类别数量，最后经过输出层，通过sigmoid激活函数输出BEV空间中每个点属于每个类别的概率，为了解决正负样本不平衡的问题，本实施例中语义分割头的损失函数为Focal-loss损失函数。

作为优选方案，所述三维检测头包括分类头和回归头；

具体地，本实施例中的三维检测头包括分类头和回归头，BEV编码特征图从分类头的第一输入层输入，先经过3个卷积核大小为3的卷积层，再经过1个卷积核大小为1的卷积层，以将通道数量转换为类别数量，最后经过第一输出层，通过sigmoid激活函数输出BEV空间中每个点属于每个类别的概率，为了解决正负样本不平衡的问题，本实施例中三维检测头的分类损失函数为Focal-loss损失函数。进一步地，本实施例中的回归头包含若干组，例如尺寸回归、深度回归、角度回归等，BEV编码特征图从回归头的第二输入层输入，先经过3个卷积核大小为3的卷积层，再经过1个卷积核大小为1的卷积层，以将通道数量转换为回归维度，最后经过第二输出层输出BEV空间中各物体的空间信息，例如三维坐标、尺寸和朝向等，本实施例采用L1-loss损失函数作为回归损失函数。

作为其中一种可选的实施例，所述CNN模型具体为ResNet101+FPN网络结构。

参见图4，本发明实施例第二方面提供一种自动驾驶场景检测装置，包括：

数据获取模块401，用于获取当前时刻的雷达点云数据和不同视角的若干图像数据；

BEV特征获取模块402，用于分别对所述雷达点云数据和若干所述图像数据进行特征编码，获得点云特征图和若干图像特征图，并将所述点云特征图和若干所述图像特征图分别转换至BEV空间，获得BEV点云特征图和BEV图像特征图；

BEV特征融合模块403，用于将所述BEV点云特征图和所述BEV图像特征图进行特征融合，获得BEV融合特征，并对所述BEV融合特征进行编码，获得BEV编码特征图；

场景检测模块404，用于利用所述BEV融合特征和所述BEV编码特征图进行自动驾驶场景检测，获得当前自动驾驶场景的点云全景分割结果和场景信息。

作为优选方案，所述BEV特征获取模块402用于将若干所述图像特征图转换至所述BEV空间，获得所述BEV图像特征图，具体包括：

作为优选方案，所述BEV特征融合模块403用于将所述BEV点云特征图和所述BEV图像特征图进行特征融合，获得BEV融合特征，具体包括：

作为优选方案，所述BEV特征融合模块403用于对所述BEV融合特征进行编码，获得BEV编码特征图，具体包括：

作为优选方案，所述场景检测模块404用于利用所述BEV融合特征和所述BEV编码特征图进行自动驾驶场景检测，获得当前自动驾驶场景的点云全景分割结果和场景信息，具体包括：

作为优选方案，所述三维检测头包括分类头和回归头；

作为优选方案，所述BEV特征获取模块402用于分别对所述雷达点云数据和若干所述图像数据进行特征编码，获得点云特征图和若干图像特征图，具体包括：

需要说明的是，本发明实施例所提供的一种自动驾驶场景检测装置，能够实现上述任一实施例所述的自动驾驶场景检测方法的所有流程，装置中的各个模块的作用以及实现的技术效果分别与上述实施例所述的自动驾驶场景检测方法的作用以及实现的技术效果对应相同，这里不再赘述。

本发明实施例第三方面提供一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面任一实施例所述的自动驾驶场景检测方法。

所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器、存储器。所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所述处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述终端设备的控制中心，利用各种接口和线路连接整个终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本发明实施例第四方面提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如第一方面任一实施例所述的自动驾驶场景检测方法。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现，当然也可以全部通过硬件来实施。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种自动驾驶场景检测方法，其特征在于，包括如下步骤：

获取当前时刻的雷达点云数据和不同视角的若干图像数据；

2.如权利要求1所述的自动驾驶场景检测方法，其特征在于，所述方法具体通过如下步骤将若干所述图像特征图转换至所述BEV空间，获得所述BEV图像特征图：

3.如权利要求1所述的自动驾驶场景检测方法，其特征在于，所述将所述BEV点云特征图和所述BEV图像特征图进行特征融合，获得BEV融合特征，具体包括如下步骤：

4.如权利要求1所述的自动驾驶场景检测方法，其特征在于，所述对所述BEV融合特征进行编码，获得BEV编码特征图，具体包括如下步骤：

5.如权利要求1所述的自动驾驶场景检测方法，其特征在于，所述利用所述BEV融合特征和所述BEV编码特征图进行自动驾驶场景检测，获得当前自动驾驶场景的点云全景分割结果和场景信息，具体包括如下步骤：

6.如权利要求5所述的自动驾驶场景检测方法，其特征在于，所述语义分割头由输入层、3个卷积核大小为3的卷积层、1个卷积核大小为1的卷积层和输出层组成；所述输出层的激活函数为sigmoid函数；所述语义分割头的损失函数为Focal-loss损失函数。

7.如权利要求5所述的自动驾驶场景检测方法，其特征在于，所述三维检测头包括分类头和回归头；

8.如权利要求1所述的自动驾驶场景检测方法，其特征在于，所述分别对所述雷达点云数据和若干所述图像数据进行特征编码，获得点云特征图和若干图像特征图，具体包括如下步骤：

9.一种自动驾驶场景检测装置，其特征在于，包括：

10.一种终端设备，其特征在于，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述的自动驾驶场景检测方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至8任一项所述的自动驾驶场景检测方法。