CN117372991A

CN117372991A - 基于多视角多模态融合的自动驾驶方法及***

Info

Publication number: CN117372991A
Application number: CN202311236669.6A
Authority: CN
Inventors: 刘春生; 孙金颖; 常发亮; 黄一鸣; 郝鹏辉; 刘辉; 郇恒强
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2023-09-22
Filing date: 2023-09-22
Publication date: 2024-01-09

Abstract

本发明提出了基于多视角多模态融合的自动驾驶方法及***，涉及自动驾驶技术领域，通过自动驾驶感知网络处理多视角多模态的观测数据，生成全局特征向量和刹车分数；将全局特征向量、车辆行驶的当前位置和目标位置输入到路径点预测网络中，得到预测的路径点；基于预测的路径点、车辆速度信息和刹车分数，完成对车辆的执行控制；本发明通过由多视角语义分割模块、点云语义分割模块、多模态特征融合模块和超距相机模块四个模块组成的自动驾驶感知网络，对车辆周围交通环境进行全面感知，解决了车辆对车身两侧障碍物的漏检测和因没有正确识别交通信号灯而产生的违规行为，加强了对多个交通参与者行为的理解。

Description

基于多视角多模态融合的自动驾驶方法及***

技术领域

本发明属于自动驾驶技术领域，尤其涉及基于多视角多模态融合的自动驾驶方法及***。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

目前，传统汽车产业以人工智能的发展为依托，正在大力研发无人驾驶技术；无人驾驶技术在减少驾驶员驾驶强度、提高驾驶安全性等方面的突出作用，使这项技术拥有着良好的发展前景。自动驾驶车辆的关键技术包括：感知、决策和控制；其中，感知是车辆将各类传感器采集到的数据进行收集、处理，并生成实时感知结果的过程。自动驾驶车辆需要在复杂的交通场景中完成对周围环境空间及时间上的感知，这就要求车辆具有对传感器输入进行场景理解的能力。

基于图像和基于激光雷达的端到端自动驾驶方法取得了较为理想的结果，同时也存在一定的弊端。这些研究主要针对交通参与者数量有限的场景，并假设场景中其他交通参与者的行为接近理想状态，缺乏对复杂交通场景的处理能力。

在复杂的交通场景下，如车辆闯红灯、车辆经过十字路口或行人从随机的遮挡区域横穿道路等，基于图像的方法因缺乏交通场景的3D信息而表现不佳。激光雷达由3D信息组成，但通常非常稀疏(特别是在距离较远的情况下)；同时，激光雷达需要额外的传感器来对激光雷达扫描中丢失的信息(如交通信号灯的状态)进行补充。

自动驾驶***通常同时配备摄像头和激光雷达传感器，因而自动驾驶多模态感知算法成为一大研究热点并取得了长足的进步。目前的多模态融合工作主要基于驾驶的感知方面进行改进，例如2D和3D目标检测、深度估计和运动预测等；这些方法侧重于学习3D场景的几何特征和语义特征，基于图像空间和不同激光雷达投影空间之间的几何特征投影进行操作，如鸟瞰图(BEV)和全景图(RV)。

在图像与激光雷达融合方面，Sobh等人利用多模态的后期融合架构，对每个输入单独编码后进行融合。但在复杂的城市场景中，该融合机制无法解释多个交通参与者的行为，导致违规率很高；例如，在处理十字路口下的交通场景时，无法考虑到交通参与者和红绿灯之间的交互行为。

最近，基于Transformer的视觉模型被越来越多地提出，Transformer最初是在自然语言处理(NLP)中建立的，并在研究中逐渐被应用于图像处理任务。后续的研究人员或将Transformer推广到其他计算机视觉任务，或继续深入挖掘以更好地提升其性能。注意力机制也为多模态融合带来了新的切入点：Transformer Fusion使用Transformer架构重建以单目视频作为输入的3D场景；TransFuser利用多个Transformer模块来融合前视图和LiDAR的中间特征。然而，这种针对传感器的密集融合方法很难扩展到更多传感器，但来自侧视图(如随机出现的车辆或行人)和超距相机图像(交通信号灯)的信息对于场景理解和安全驾驶又至关重要。

综上所述，目前大多数的融合机制无法解释复杂城市场景中多个交通参与者的行为，导致违规率很高；并且目前针对传感器的密集融合方法很难扩展到更多传感器，容易遗漏侧视图和超距相机图像传达的信息，导致无法及时检测到车辆两侧随机出现的车辆或行人，无法准确捕捉交通信号灯的状态。

发明内容

为克服上述现有技术的不足，本发明提供了一种基于多视角多模态融合的自动驾驶方法及***，通过由多视角语义分割模块、点云语义分割模块、基于注意力的多模态特征融合模块和超距相机模块四个模块组成的自动驾驶感知网络，生成全局特征向量和刹车分数，用于车辆的规划决策和执行控制，解决了车辆对车身两侧障碍物的漏检测和因没有正确识别交通信号灯而产生的违规行为，加强了对多个交通参与者行为的理解，提升车辆对周围交通环境的感知。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

本发明第一方面提供了基于多视角多模态融合的自动驾驶方法。

基于多视角多模态融合的自动驾驶方法，包括：

获取多视角多模态的观测数据，包括不同视角RGB图像、超距相机图像和激光雷达点云；

通过自动驾驶感知网络处理所述观测数据，基于不同视角RGB图像和激光雷达点云生成全局特征向量，基于超距相机图像生成刹车分数；

将全局特征向量、车辆行驶的当前位置和目标位置输入到路径点预测网络中，得到预测的路径点；

基于预测的路径点、车辆速度信息和刹车分数，完成对车辆的执行控制。

进一步的，所述不同视角RGB图像，包括左视图、前视图和右视图。

进一步的，所述自动驾驶感知网络包括多视角语义分割模块、点云语义分割模块、基于注意力的多模态特征融合模块和超距相机模块。

进一步的，所述多视角语义分割模块，具体为：

采用编码器-解码器架构搭建多视角语义分割模块，编码器中的残差块使用一维非瓶颈残差层构成；将不同视角RGB图像拼接后输入到多视角语义分割模块，得到多视角语义分割图像和每个像素点对应每个语义类别的概率值，即语义分割分数。

进一步的，所述点云语义分割模块的具体步骤为：

将输入的激光雷达点云进行齐次变换后，通过相机矩阵将点云映射到不同视角RGB图像中，获取点云中每个点对应的像素位置；

根据多视角语义分割模块得到的语义分割分数，获取点云中的每个点对应像素点的语义标签；

将点云中的每个点对应的语义标签附加到该点，得到附加语义后的点云数据，并将其转换为二维鸟瞰图上的2-bin直方图，即LiDAR BEV特征。

进一步的，所述基于注意力的多模态特征融合模块的具体步骤为：

将多视角语义分割图像和LiDAR BEV特征均处理为相同像素的分辨率，分别使用不同的ResNet进行最大池化操作，并分别生成多个不同尺度的中间特征；

上述两种模态的中间特征使用自注意力机制进行融合，以不同尺度的分辨率多次融合后，对输出特征通过平均池化操作降维并展平，得到多视角语义分割图像的全局特征向量和LiDAR BEV特征的全局特征向量；

将两个模态的全局特征向量进行逐元素求和，得到最终的512维特征向量，其包含整个3D场景的全局上下文信息。

进一步的，所述超距相机模块的具体步骤为：将左视图、前视图和右视图进行拼接；将超距相机图像和拼接后的图像输入到二元制动分类器，输出预测是否刹车的概率值，即刹车分数。

进一步的，所述路径点预测网络，具体为：

每个GRU层搭配一个线性层，使用多个上述组合搭建路径点预测网络；将多模态特征融合模块输出的512维全局特征向量降维后输入到路径点预测网络中，同时输入自身车辆的当前位置和目标位置，最终输出未来预设个数时间步的路径点。

进一步的，所述基于预测的路径点、车辆速度信息和刹车分数，完成对车辆的执行控制，具体步骤为：车辆控制器根据预测的路径点和车辆速度信息，生成操控指令，刹车分数生成额外的刹车操控指令作为上述操控命令的补充，以此完成对车辆的执行控制。

本发明第二方面提供了基于多视角多模态融合的自动驾驶***。

基于多视角多模态融合的自动驾驶***，包括数据获取模块、数据感知模块、路径预测模块和执行控制模块：

数据获取模块，被配置为：获取多视角多模态的观测数据，包括不同视角RGB图像、超距相机图像和激光雷达点云；

数据感知模块，被配置为：通过自动驾驶感知网络处理所述观测数据，基于不同视角RGB图像和激光雷达点云生成全局特征向量，基于超距相机图像生成刹车分数；

路径预测模块，被配置为：将全局特征向量、车辆行驶的当前位置和目标位置输入到路径点预测网络中，得到预测的路径点；

执行控制模块，被配置为：基于预测的路径点、车辆速度信息和刹车分数，完成对车辆的执行控制。

本发明第三方面提供了计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本发明第一方面所述的基于多视角多模态融合的自动驾驶方法中的步骤。

本发明第四方面提供了电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本发明第一方面所述的基于多视角多模态融合的自动驾驶方法中的步骤。

以上一个或多个技术方案存在以下有益效果：

(1)本发明使用自注意力机制捕捉不同模态之间的全局上下文信息，在多个不同尺度的特征编码阶段有效融合多模态信息，从而有助于理解复杂城市场景中多个交通参与者的行为。

(2)本发明增加了左视图和右视图，设计多视角语义分割模块提取RGB图像的语义信息，有效避免了对车辆两侧障碍物的漏检测；并通过点云语义分割模块将语义信息映射到点云输入，整合3D场景的语义和几何信息，更好地理解和感知周围环境。

(3)本发明引入了超距相机模块捕捉交通信号灯的状态，有效提升了车辆对交通信号灯检测的准确性，避免因无法识别或错误识别交通信号灯而产生的违规行为。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为第一个实施例的方法流程图。

图2为第一个实施例的基于多视角多模态融合的自动驾驶网络结构图。

图3为第一个实施例的多视角语义分割模块结构图。

图4为第一个实施例中CARLA提供的自定义天气配置示例图。

图5为第一个实施例中超距相机图像示例图。

图6为第一个实施例中预测路径点展示图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

自动驾驶车辆需要在复杂的交通场景中完成对周围环境空间及时间上的感知，才能确保车辆驾驶的安全性。但在复杂交通场景下，自动驾驶感知算法往往难以理解多个交通参与者的行为，且容易因视角范围有限和难以准确检测交通信号灯状态，导致出现车辆碰撞以及闯红灯等违法行为。对于以上问题，本实施例提出了基于多视角多模态融合的自动驾驶网络，其整体流程图如图1所示，网络结构如图2所示，具体包括以下步骤：

步骤1：获取多视角多模态的观测数据，包括不同视角RGB图像、超距相机图像和激光雷达点云。

本实施例选择自动驾驶模拟器CARLA(0.9.10版本)进行数据集收集及实验测试，该模拟器版本共包含8个公共城镇：本实施例从中选择4个城镇(Town01，Town03，Town04，Town06)用于训练，2个城镇(Town02，Town05)用于评估。

在4个训练城镇中，专家策略在14种天气条件下沿60条预定路线完成训练集的收集，且在每条路线的收集过程中每30秒按既定顺序改变天气条件，共收集约70k帧的训练数据。专家策略由一个A^*规划器和两个PID控制器组成，且在收集数据的过程中均使用CARLA模拟器提供的传感器，数据集具体包括以下内容：

(1)不同视角RGB图像：由3个视角范围(FOV)为64°的前置摄像头收集，摄像头安装在距车辆中心前方1.5米，距地高度2.4米处。按照-60°、0°、60°三个角度对左、前、右三个视角进行拍摄，每个视角以256×288像素的分辨率进行保存。

(2)超距相机图像：由视角范围(FOV)为40°的前置摄像头收集，主要负责拍摄交通信号灯。摄像头安装在距车辆中心前方1.5米，距地高度2.4米处，按照0°角度对车辆正前方视角进行拍摄，以480×288像素的分辨率对图像进行保存，超距相机图像示例如图5所示。

(3)激光雷达点云：由Velodyne 64LiDAR进行收集，测量范围为85米，旋转频率为10FPS，安装在车辆中心且距离地面高度2.5米的位置。

除此之外，使用额外的传感器，如IMU(惯性测量单元)获取车辆的姿态信息，GPS(全球定位***)用于定位，以及速度计获取自身车辆的当前速度等。

步骤2：通过自动驾驶感知网络处理所述观测数据，基于不同视角RGB图像和激光雷达点云生成全局特征向量，基于超距相机图像生成刹车分数。

自动驾驶感知网络包括多视角语义分割模块、点云语义分割模块、基于注意力的多模态特征融合模块和超距相机模块，以下对各个模块进行详细介绍。

一、多视角语义分割模块

为加强对周围交通环境的感知，避免因视角范围受限造成的漏检测，本实施例设计了多视角语义分割模块。该模块遵循SegNet和ENet的编码器-解码器架构，图3展示了多视角语义分割模块的整体架构，以下是对该架构的详细介绍。

本架构的第1层到第16层构成编码器，由残差块和下采样块组成。残差块由一维非瓶颈残差层构成，且在残差层中***部分膨胀卷积，以收集更多上下文信息，提高实验的准确性；该方法在计算成本和参数方面相对于使用更大的卷积核效果更好。此外，在所有一维非瓶颈残差层中使用Dropout进行正则化，并将概率设置为0.3。下采样块在第1层、第2层和第8层执行，下采样虽然在降低空间分辨率的同时会降低像素精度，但能够收集更多上下文信息，改进分类效果，且有助于减少计算量。

解码器部分由第17层至第23层组成，其主要任务是对编码器输出的特征进行上采样以匹配输入分辨率。虽然SegNet具有相对对称的编码器-解码器架构，但本模块遵循与ENet类似的策略，使用小型解码器通过微调对编码器的输出进行上采样；且与SegNet和ENet不同，本模块不使用最大非池化操作进行上采样，而是使用步长为2的转置卷积，其主要优点是不需要共享编码器的池化索引，简化了内存和计算要求。

常用的残差层在学习能力和效率方面存在一些局限性，因此本模块在编码器中使用一维非瓶颈残差层，结合瓶颈设计和非瓶颈设计的优势最大限度地减少局限性。残差层具备使卷积层逼近残差函数的特性，下式表示输入为x时输出向量的表达式：

其中，W_s通常是恒等映射，F(x,{W_i})表示要学习的残差映射，也称残差函数，W_g表示该函数的参数集合，包括权重和偏置。上述公式有助于显著减少在堆叠式网络结构中存在的退化问题。多视角语义分割模块中使用的一维非瓶颈残差层，完全使用1D滤波器(一维卷积操作)，以更优化的方式重新设计非瓶颈残差层。任何二维卷积操作fⁱ都可以通过以下方式写为1D滤波器的线性组合：

其中，和/>分别表示第i个卷积核水平方向和竖直方向的1D滤波器，/>是标量权重，R表示卷积核的数量。基于上述表示，Alvarez等人提出每个卷积层都可使用1D滤波器进行分解，将卷积层表示为输入为/>的函数，如下所示：

其中，表示分解后的卷积层的第i个输出，即第i个分解层。/>表示第i个分解层的水平偏置项，J表示第j个分解层中1D滤波器的数量，/>表示第j个分解层的垂直偏置项，表示第j个分解层中竖直方向的1D滤波器，/>表示第j个分解层中水平方向的1D滤波器，/>表示输入的第d个特征，/>可用ReLU或PReLU来实现。分解后的卷积层降低了计算成本，提高了网络的紧凑性，并且通过在1D滤波器之间***非线性函数，提高了网络的学习能力。

同一时刻t的不同视角RGB图像按角度顺序进行拼接后，输入该模块，经过上述架构后输出该时刻的多视角语义分割图像；且在输出的多视角语义分割图像上进行Softmax操作，计算出语义分割分数/> 其中，语义分割分数是预测输入图像中每个像素点对应每个语义类别的概率值，其作为图像的紧凑特征表示，用于后续的点云语义分割模块中。

二、点云语义分割模块

对于激光雷达点云中的每个点l_t∈L_t，基于多视角语义分割模块得到的语义分割分数点云语义分割模块使用PointPainting算法将点云中每个点对应的语义标签附加到点云上:P_t＝PointPainting(L_t，S_t，M_t，X_t)。PointPainting算法的具体流程如表1所示。

表1 PointPainting算法流程

首先，点云语义分割模块对输入的激光雷达点云进行齐次变换后，通过相机矩阵将点云映射到不同视角RGB图像中，获取点云中每个点对应的像素位置。输入的激光雷达点云中每个点表示为(x,y,z,r)，其中x，y，z表示每个点的空间位置，r表示反射率。点云映射到图像的整体变换过程M_{camera←lidar}如下所示：

上述公式中三个变换按照先后顺序从右到左依次为：M_{(ego←lidar)}表示激光雷达坐标系到自身车辆坐标系的变换；表示激光雷达捕获时刻t_l的自身车辆坐标系到图像捕获时间t_c的自身车辆坐标系的变换；M_{(camera←ego)}表示自身车辆坐标系到相机坐标系的变换。

其次，根据多视角语义分割模块得到的C类语义分割分数(其中C＝5，包括道路，车道线，车辆，行人和交通信号灯)，获取点云中的每个点对应像素点的语义标签。

最后，将点云中的每个点对应像素点的语义标签附加到该点，得到附加语义后的点云数据，并将其转换为二维鸟瞰图上的2-bin直方图，形成LiDAR BEV特征。转换的具体方式为：考虑车辆前方32米范围内以及两侧各16米范围内的点云，形成一个32米×32米的BEV网格；将该网格划分为0.125米×0.125米的块，从而得到256×256像素的分辨率。在BEV网格上将高度维度离散化为2个bin，从而将点云转换为一个具有固定分辨率的2D鸟瞰图网格上的2-bin直方图。

三、基于注意力的多模态特征融合模块

本模块以多视角语义分割模块输出的多视角语义分割图像和点云语义分割模块输出的LiDAR BEV特征作为输入，通过自注意力机制进行多尺度融合，在不同模态之间进行信息的交互和整合，从而充分利用其互补优势，提高网络在复杂场景中的性能。

基于注意力的多模态特征融合模块的关键是利用自注意力机制，捕捉不同模态之间的全局上下文信息。自注意力机制以离散标记序列作为输入，其中每个标记由一个特征向量表示。输入序列表示为其中N_d表示序列中标记的数量，每个标记由一个维度D_g的特征向量表示。

Q＝SⁱⁿX^q,K＝SⁱⁿX^k,V＝SⁱⁿX^v(5)

自注意力机制使用线性投影计算一组查询、键和值(Q、K和V)。其中，和/>是权重矩阵，D_q、D_k和D_v分别表示查询、键和值的维度。通过对查询和键的相似度进行缩放和softmax操作得到注意力权重，将注意力权重与值相乘得到结果A，公式如下：

最后，对A进行加权求和后计算出输出特征S^out，其与输入特征Sⁱⁿ尺寸相同，用公式表示为：

S^out＝MLP(A)+Sⁱⁿ(7)

标准的注意力机制中每一层都有多个并行注意力头，每个注意力头都有单独的查询、键和值，并独立计算注意力权重，将多个注意力头的结果进行拼接，得到最终的输出特征。下面为基于注意力的多模态特征融合模块的具体步骤介绍。

首先，将多视角语义分割图像裁剪为768×256像素的分辨率，LiDARBEV特征保持256×256像素的分辨率不变，分别在各自的单一模态分支中进行最大池化操作，其中图像分支使用ResNet-34，LiDAR BEV分支使用ResNet-18，生成代表各自模态的不同尺度的中间特征。

其次，由于在高分辨率下处理特征的计算成本很高，因此使用平均池化操作将上述特征下采样到8×8的固定分辨率，使用1×1卷积将每个特征图的嵌入维度匹配到512。对于每个单一尺度，将对应尺度的尺寸为8×8×512的图像特征和LiDAR BEV特征进行合并，形成尺寸为(2*8*8)×512的张量，其中2表示上述两种模态。该张量输入自注意力机制，经处理后输出尺寸为(2*8*8)×512的特征，将其重新拆分为尺寸为8×8×512的2个张量。拆分后的2个张量通过双线性插值上采样到原始分配率，逐元素求和将其与对应的单一模态分支中的现有特征融合。

上述机制构成了单一尺度上的特征融合，该融合在图像和LiDAR BEV分支之间以不同的分辨率多次应用后，通过平均池化和展平操作，得到多视角语义分割图像的全局特征向量和LiDAR BEV特征的全局特征向量。

最后，将两个模态的全局特征向量进行逐元素求和，得到最终的512维特征向量，其包含整个3D场景的全局上下文信息。

四、超距相机模块

首先，将左视图、前视图和右视图进行拼接。其次，将超距相机图像和拼接后的图像输入到训练好的二元制动分类器。最后，分类器输出预测是否刹车的概率值，即刹车分数，以此加强车辆对交通信号灯状态的感知。

二元制动分类器的具体处理过程为：将超距相机图像和拼接后的图像输入ResNet-18网络和全局平均池化层，得到两个固定维度的嵌入向量，进行合并后经过一个线性层，输出刹车分数。

步骤3：将全局特征向量、车辆行驶的当前位置和目标位置输入到训练好的路径点预测网络中，得到预测的路径点。

首先，每个GRU层搭配一个线性层，连续使用4个上述搭配完成路径点预测网络的搭建。其次，将多模态特征融合模块输出的512维全局特征向量降维到64维后，输入到路径点预测网络中，同时输入自身车辆的当前位置和目标位置。最后，路径点预测网络输出未来4个时间步的路径点。

步骤4：基于预测的路径点、车辆速度信息和刹车分数，完成对车辆的执行控制。

车辆控制器根据预测的路径点和车辆速度信息，生成操控指令(包括转向、油门和刹车)，刹车分数生成额外的刹车操控指令作为上述操控命令的补充，以此完成对车辆的执行控制，使车辆沿着预测的路径移动，抵达目标位置。其中，刹车分数生成刹车操控指令的方法是当刹车分数大于阈值时，油门赋值为0，刹车赋值为1。

下面对仿真平台、实验配置、实验训练及结果进行说明。

一、CARLA仿真平台

自动驾驶汽车在正式投入商业使用之前需要进行全面的道路测试，若直接利用实际道路测试进行自动驾驶算法的优化，不仅耗时过长和成本过高，而且受交通法规限制，难以在现实环境中重现极端交通条件和场景。因此，本实施例选择在虚拟驾驶仿真平台上进行算法的实验与测试。

为确保仿真平台上的模拟测试能够为真实场景下的自动驾驶提供充分的参考性，一个优秀的仿真驾驶平台不仅需要提供与现实足够接近的道路情况，同时需要完成对路面障碍物、各种交通标志、雨雪雾天气、道路周边情况等各个方面的仿真模拟。

本实施例选择西班牙巴塞罗那计算机视觉中心开发的CARLA(Car Learning toAct)模拟器作为自动驾驶仿真平台。CARLA提供了高速公路、城镇、乡村等多种虚拟场景，且允许使用者自行创建需要的场景地图。此外，CARLA内置18种基础的天气类型，开放了太阳角度、降水量、雾浓度等多种天气参数配置供使用者自行定义，天气类型示例如图4所示。

CARLA可以提供较为逼真的仿真场景，能够满足多种驾驶任务的训练和测试，并且代码全部开源，方便进行场景自定义，因此选其作为本实施例的自动驾驶仿真环境。

二、实验配置

(1)任务：在CARLA模拟器中，车辆在高速公路、城市、住宅区等不同的交通场景下，完成点对点的导航任务。CARLA模拟器的每个城镇配备有一组场景，包括其他车辆闯红灯、行人从被遮挡区域随机穿过道路等场景，用于测试车辆对不同交通场景的处理能力。车辆需要在交通流量密度高的情况下遵守交通规则，正确应对其他交通参与者，在规定时间内从初始位置抵达目标位置。

(2)评估基准：本实施例在2种评估路线上进行评估，分别为：1)Routes_valid：从Town02，Town05中各选取2条具有代表性的路线，配置4种天气条件(晴朗正午，多云日落，细雨黎明，大雨夜晚)；2)Town05 Long：从Town 05选取10条长路线，每条路线长度为1000-2000米且包含10个交叉路口，天气条件配置为晴朗正午。

(3)衡量指标：用于评估基于CARLA模拟器的自动驾驶网络的性能。

1)路线完成率(RC)，车辆在总共N_R条路线中完成路线百分比的平均值。其中，车辆在路线n中完成路线的百分比为C_n，表示车辆完成的路线长度占总路线长度的百分比。路线完成率的公式如下所示:

2)违规分数(IM)，用于衡量车辆行驶过程中的违规行为，包括闯红灯、违规停车、与行人车辆或静态物体的碰撞等。违规分数的公式如下所示，其中p_m表示车辆在行驶期间发生的每个违规行为m对应的系数。

每种违规行为的系数是预定义的，例如与行人碰撞的系数为0.50，与车辆碰撞为0.60，与静态物体碰撞为0.65，闯红灯为0.70，违规停车为0.80等。违规分数从理想的1.0初始分数开始，每发生一次违规行为将会乘以相应的系数，导致违规分数不断减小。

3)驾驶得分(DS)，即违规分数加权后的路线完成率，能够全面地描述车辆在整个驾驶过程中的完成度和安全性。驾驶得分表示为违规分数P_n和路线完成率C_n的加权平均值，具体公式如下所示:

三、实验训练及结果

本实施例在GeForce RTX 3090上进行模型训练，训练周期设置为100个epoch，初始学习率设置为0.0001。

在评估路线1(Routes_valid)和评估路线2(Town05 Long)上，本实施例研究了不同传感器输入下网络性能的比较结果，并在2次评估后记录各项衡量指标的平均值和标准差，指标的值越大代表网络性能越优越。除了上述三个衡量指标外，本实施例还提供了车辆单次评估的详细数据。

表2基于RGB图像输入的消融实验

本实施例评估了在将不同传感器组合输入基于注意力的多模态融合模块的情况下，基于多视角多模态融合的自动驾驶网络在Routes_valid和Town05 Long两种评估基准上的表现。如表2所示，Front+Lidar表示仅输入RGB前视图和激光雷达点云；Front+LR+Lidar表示在Front+Lidar的基础上增加RGB左视图和RGB右视图，输入左视图、前视图和右视图拼接后的图像和激光雷达点云；Front+LR+Lidar+TEL表示在Front+LR+Lidar的基础上增加超距相机图像输入。

由表2可得出，Front+LR+Lidar在Front+Lidar的基础上增加左、右视图后，两种基准下的几乎全部指标均得到提升，但提升效果低于增加超距相机图像后的效果(Front+Lidar+TEL)。Front+Lidar在同时增加左、右视图和超距相机图像后，驾驶得分和路线完成率均得到大幅度提升。

表3基于语义分割图像输入的消融实验

如表3所示，SEG+Lidar表示仅输入语义分割前视图和激光雷达点云；Multi-SEG+Lidar表示输入多视角语义分割图像和激光雷达点云；Multi-SEG+Lidar+TEL表示在Multi-SEG+Lidar的基础上增加超距相机图像输入。其中，上述语义分割前视图通过将RGB前视图输入多视角语义分割模块得到。

SEG+Lidar仅使用前方视角的语义分割图像作为输入，难以探测到自身车辆两侧的障碍物。由表3可以看到，Multi-SEG+Lidar相对于SEG+Lidar，在驾驶得分和路线完成率上均得到提升。交通信号灯位于十字路口的对面，距离较远，较难检测。SEG+Lidar+TEL增加了超距相机图像输入，与SEG+Lidar相比，获得了更高的驾驶得分，且路线完成率也得到显著提升。Multi-SEG+Lidar+TEL使用多视角语义分割图像、超距相机图像和激光雷达点云作为输入，相对于SEG+Lidar，各项衡量指标均得到明显提升。

图6表示输入RGB左视图、前视图、右视图和超距相机图像后，预测路径点的展示图。图中展示了两个案例，红点表示预测自身车辆未来轨迹的路径点，白色圆圈代表自身车辆的当前位置，红色矩形表示检测到的其他交通参与者的当前位置。

实施例二

在一个或多个实施例中，公开了基于多视角多模态融合的自动驾驶***，包括数据获取模块、数据感知模块、路径预测模块和执行控制模块：

实施例三

本实施例的目的是提供计算机可读存储介质。

计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本公开实施例一所述的基于多视角多模态融合的自动驾驶方法中的步骤。

实施例四

本实施例的目的是提供电子设备。

电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开实施例一所述的基于多视角多模态融合的自动驾驶方法中的步骤。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于多视角多模态融合的自动驾驶方法，其特征在于，包括：

2.如权利要求1所述的基于多视角多模态融合的自动驾驶方法，其特征在于，所述不同视角RGB图像，包括左视图、前视图和右视图。

3.如权利要求1所述的基于多视角多模态融合的自动驾驶方法，其特征在于，所述自动驾驶感知网络包括多视角语义分割模块、点云语义分割模块、基于注意力的多模态特征融合模块和超距相机模块。

4.如权利要求3所述的基于多视角多模态融合的自动驾驶方法，其特征在于，所述多视角语义分割模块，具体为：

5.如权利要求3所述的基于多视角多模态融合的自动驾驶方法，其特征在于，所述点云语义分割模块的具体步骤为：

将点云中的每个点对应像素点的语义标签附加到该点，得到附加语义后的点云数据，并将其转换为二维鸟瞰图上的2-bin直方图，即LiDAR BEV特征。

6.如权利要求3所述的基于多视角多模态融合的自动驾驶方法，其特征在于，所述基于注意力的多模态特征融合模块的具体步骤为：

将两个模态的全局特征向量进行逐元素求和，得到最终的512维特征向量，其包含3D场景的全局上下文信息。

7.如权利要求3所述的基于多视角多模态融合的自动驾驶方法，其特征在于，所述超距相机模块的具体步骤为：将左视图、前视图和右视图进行拼接；将超距相机图像和拼接后的图像输入到二元制动分类器，输出预测是否刹车的概率值，即刹车分数。

8.如权利要求1所述的基于多视角多模态融合的自动驾驶方法，其特征在于，所述路径点预测网络，具体为：

9.如权利要求1所述的基于多视角多模态融合的自动驾驶方法，其特征在于，所述基于预测的路径点、车辆速度信息和刹车分数，完成对车辆的执行控制，具体步骤为：车辆控制器根据预测的路径点和车辆速度信息，生成操控指令，刹车分数生成额外的刹车操控指令作为上述操控命令的补充，以此完成对车辆的执行控制。

10.基于多视角多模态融合的自动驾驶***，其特征在于，包括数据获取模块、数据感知模块、路径预测模块和执行控制模块：