CN116310681A

CN116310681A - 基于多帧点云融合的无人车可通行区域预测方法及***

Info

Publication number: CN116310681A
Application number: CN202310244013.2A
Authority: CN
Inventors: 张伟; 谢世宽; 宋然; 赵越男; 李晓磊; 李贻斌
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2023-03-10
Filing date: 2023-03-10
Publication date: 2023-06-23

Abstract

本发明涉及无人车导航技术领域，提供了基于多帧点云融合的无人车可通行区域预测方法及***，包括：获取无人车所在环境的连续多帧点云数据，并将每一帧的点云划分到若干个极坐标网格中；提取每一帧的特征，在某一极坐标网格中，将某个历史帧的查询和其他帧的键作点乘，得到该历史帧的相关性向量，并对相关性向量进行线性运算，得到该历史帧的注意力权重；对于每个历史帧，将所有极坐标网格的注意力权重作为注意力权重向量，并对所有历史帧的特征进行加权求和，并与当前帧的特征拼接后做卷积，得到融合特征；基于融合特征，预测得到无人车的可通行区域。消减了动态障碍物在点云多帧融合中的影响，使得无人车可通行区域的预测更加稳定。

Description

基于多帧点云融合的无人车可通行区域预测方法及***

技术领域

本发明属于无人车导航技术领域，尤其涉及基于多帧点云融合的无人车可通行区域预测方法及***。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

随着机器人技术、人工智能、通讯技术的发展，无人车导航逐渐地在物流配送、工厂巡检、农业保植等领域落地应用。然而，这些应用场景通常包含形状、高度不一的障碍物，以及运动的行人、车辆等动态物体，在这些复杂场景中如何稳定地预测无人车周围环境的可通行性是保障无人车安全运行的关键。

无人车导航与自动驾驶技术存在很多相似性，因此早期的机器人导航感知算法大多迁移自自动驾驶技术，例如基于图像的2D目标检测和图像分割、基于激光雷达点云的3D目标检测等方法。自动驾驶的场景多为城市道路场景，场景样式比较规范，需要检测的障碍物类型有限。相比之下，无人车的应用场景更为复杂，基于检测的感知方法无法有效地表示，例如台阶、路缘、悬崖等无人车导航中常见的障碍物。因此，上述自动驾驶领域常用的感知方法并不能简单地移植到无人车的导航技术中。

近年来，有一些针对无人车导航的可通行区域表征形式被提出用来解决复杂环境的可通行性表示困难的问题，可以分为BEV(鸟瞰视角)语义图和环形可通行深度两大类。BEV语义图是一种基于语义分割的可通行性表征方式，它将无人车周围空间划分为等间距的栅格，并使用语义信息描述各栅格的可通行性。但这种方法所需的训练数据需要大量的手工标注工作，使该方法在实际场景中的应用部署极为困难。环形可通行深度将无人车的可通行性描述为极坐标下无人车周围各个方向的最大可通行深度，相比于BEV语义图来说，虽然其所包含的信息较少，但是其训练数据更容易获得，因此对于实际的无人车应用来说更具有可实施性。此外，相比于图像，激光点云可以直接反应距离信息，能够为无人车的导航提供更准确的空间信息，并且激光雷达在不同的光线环境下收到的干扰相比相机更小。因此，激光雷达是无人车导航技术中普遍使用的感知传感器设备。

无人车导航的感知尺度更小，相比于自动驾驶对于行人、车辆的感知需求，无人车还需要兼顾对地形的分析，例如高度较矮的石块、路缘，甚至是凹陷到地面之下的坑洞、悬崖。然而，车载激光雷达通常盲区较大，例如当激光雷达部署于距地面1m的典型高度时，其在地面高度的盲区半径接近3m，这对无人车运行的安全性造成了严重的安全隐患。因此，通过多帧点云融合的补盲操作对无人车的安全运行来说至关重要。然而，动态物体在多帧点云中留下的“拖影”又对点云融合造成了困难。基于BEV语义图预测的方法使用RNN(循环神经网络)结构来融合多帧的语义信息来滤除动态物体。而对于另一种表征方式环形可通行深度来说，虽然其具有更好的可部署性，但目前并无有效的多帧融合方法。并且由于其并不包含障碍物的语义信息，无法直接套用RNN结构，这对多帧融合造成了困难。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供基于多帧点云融合的无人车可通行区域预测方法及***，在融合多帧点云的特征的同时，根据点云特征的时空稳定性，消减动态障碍物在点云多帧融合中的影响，使得无人车可通行区域的预测更加稳定。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供基于多帧点云融合的无人车可通行区域预测方法，其包括：

获取无人车所在环境的连续多帧点云数据，并将每一帧的点云划分到若干个极坐标网格中；

基于连续多帧点云数据，提取每一帧的特征；

在某一极坐标网格中，将某个历史帧的查询和其他帧的键作点乘，得到该历史帧的相关性向量，并对相关性向量进行线性运算，得到该历史帧的注意力权重；

对于每个历史帧，将所有极坐标网格的注意力权重作为注意力权重向量，并基于所有历史帧的注意力权重向量，对所有历史帧的特征进行加权求和，并与当前帧的特征拼接后做卷积，得到融合特征；

基于融合特征，预测得到无人车的可通行区域。

进一步地，若获取无人车所在环境的连续f帧点云数据，历史帧i的相关性向量为v_i＝{α_ik|k∈{0,1,…,f},≠i}，其中，α_ik＝_i·_k，_i表示历史帧i的查询，K_k表示帧k的键，i∈{1,…,f}。

进一步地，在某一极坐标网格中，基于每一帧的特征，采用多层感知器，得到查询和键。

进一步地，所述提取每一帧的特征的具体方法为：

将所有帧点云数据输入到多层感知器，得到所有帧的高维特征；

基于高维表示的点云特征，对所有处于同一极坐标网格、同一帧的点云做最大池化操作，得到每一帧的特征。

进一步地，在将某个历史帧的查询和其他帧的键作点乘之前，对每一帧的特征进行降采样。

进一步地，在对所有历史帧的特征进行加权求和之前，对注意力权重向量进行上采样。

本发明的第二个方面提供基于多帧点云融合的无人车可通行区域预测***，其包括：

数据获取模块，其被配置为：获取无人车所在环境的连续多帧点云数据，并将每一帧的点云划分到若干个极坐标网格中；

特征提取模块，其被配置为：基于连续多帧点云数据，提取每一帧的特征；

权重计算模块，其被配置为：在某一极坐标网格中，将某个历史帧的查询和其他帧的键作点乘，得到该历史帧的相关性向量，并对相关性向量进行线性运算，得到该历史帧的注意力权重；

加权模块，其被配置为：对于每个历史帧，将所有极坐标网格的注意力权重作为注意力权重向量，并基于所有历史帧的注意力权重向量，对所有历史帧的特征进行加权求和，并与当前帧的特征拼接后做卷积，得到融合特征；

预测模块，其被配置为：基于融合特征，预测得到无人车的可通行区域。

本发明的第三个方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于多帧点云融合的无人车可通行区域预测方法中的步骤。

本发明的第四个方面提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于多帧点云融合的无人车可通行区域预测方法中的步骤。

与现有技术相比，本发明的有益效果是：

本发明提供了基于多帧点云融合的无人车可通行区域预测方法，其针对环形可通行深度表征，提出稳定性注意力模块，在融合多帧点云的特征的同时，根据点云特征的时空稳定性，消减动态障碍物在点云多帧融合中的影响，使得无人车可通行区域的预测更加稳定。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例一的稳定性注意力模块架构图；

图2是本发明实施例一的无人车可通行区域预测模型架构图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

实施例一

本实施例提供了基于多帧点云融合的无人车可通行区域预测方法，针对环形可通行深度表征，提出了一种基于注意力机制的网络结构，称为稳定性注意力模块，在融合多帧点云的特征的同时，根据点云特征的时空稳定性，消减动态障碍物在点云多帧融合中的影响，使得无人车可通行预测更加稳定。

本实施例提供的基于多帧点云融合的无人车可通行区域预测方法，包括如下步骤：

步骤1、获取无人车所在环境的连续多帧点云数据。

其中，一帧点云数据是由无人车装载的激光雷达在某一时刻拍摄的，激光雷达安装在无人车的某一侧。

连续多帧点云数据按照从后往前的时间顺序排列，第一帧为当前帧，其余帧为历史帧。

步骤2、将连续多帧点云数据输入无人车可通行区域预测模型，得到无人车的可通行区域。这里，可通行区域具体表现为环形可通行深度的形式，即，以无人车为中心的所有方向(在本实施例中记作共

个预测方向)的最大可通行距离，可通行距离的单位为米。最终环形可通行深度表现为/>

的一维向量。

其中，如图2所示，无人车可通行区域预测模型包括依次连接的特征提取模块、稳定性注意力模块和空间特征融合模块。

根据常用的基于激光点云的目标检测PointPillars方法对点云进行网格化特征提取。即，特征提取模块采用PointPillars中的Pillar Feature Net结构，包括多层感知器、网格划分模块和最大池化层。

对于连续的f+1帧点云数据，标记为S₀,S₁,S₂,…,S_f，包括1帧当前帧S₀和f帧历史帧S₁,S₂,…,S_f，每一帧包含N个点云；连续的f+1帧点云数据输入到多层感知器，对于每一帧点云数据，多层感知器将每一个点云由低维特征扩增到高维特征(即C_p维)，得到高维表示的点云特征，其尺寸为

对于每一帧点云，按照极坐标形式划分到若干个网格，具体地，沿r轴划分为N_r份，沿/>

轴划分为/>

份，并记录所有点云在极坐标网格中的坐标，其中，网格的实际半径记为R米，即网格的径向分辨率为/>

米，角分辨率为/>

度；基于高维表示的点云特征，对所有处于同一网格、同一时间帧的点云做最大池化操作，得到空间维度的多帧点云特征，即对每一帧点云可提取得到尺寸为/>

的特征/>

将多帧点云特征输入到稳定性注意力模块，进行多帧特征融合，得到融合特征，即对每一帧点云可提取得到尺寸为/>

的融合特征；最后，将融合特征F_a输入空间特征融合模块，输出得到环形可通行深度的概率分布，即，输出的特征尺寸为

若将特征图中每个位置的预测概率值记为/>

对于任意的j，均满足/>

对每个预测方向j，对N_r个网格做argmax操作，即取得概率值最大的网格的索引值，再乘以网格的径向分辨率/>

即可得到以米为单位的最大可通行距离。最终，共/>

个预测方向的所有最大可通行距离组成环形可通行深度，即尺寸为

的一维向量。

其中，空间特征融合模块的网络结构改自常用的UNet网络结构。具体地，为适应基于极坐标网格的点云空间特征，原始UNet中用于特征提取的二维卷积操作修改为二维环形卷积操作；并且将原始UNet包含的4对编解码结构缩减至3对，以适应激光点云的空间大小。

对于点云多帧融合来说，最理想的情况应当是将所有帧的全部点云合并在一起共同提取特征。然而，在现实应用时遇到的一个实际问题就是动态物体会在多帧点云中产生“拖影”，继而对预测结果造成干扰。对BEV语义图来说，由于其训练数据中包含了手工标注了各种障碍物的语义信息，使用RNN结构可以使网络根据语义信息消除历史帧的动态物体。环形可通行深度不包含语义信息，这为该方法的应用带来了极大的便利，但却给历史动态物体的消除造成了困难。

本实施例，从点云特征的时空稳定性上出发，动态物体的点云通常只出现在少数帧中，将这种特征称为动态特征；而静态物体的点云通常会出现在所有帧中将这种特征称为静态特征。根据注意力机制的思路，取各帧特征之间的乘积，作为帧间特征的相关性系数，相关性越高代表两帧的特征越相似。若某帧与整个帧序列的相关性系数均较高，则代表该帧特征的稳定性较高，可能是静态特征；同样的，若相关性系数较低则代表该帧的特征不稳定，可能是动态特征。将得到的相关性系数作为特征权重，将各帧特征加权求和，得到最终的融合特征。对动态特征来说，由于其相关性系数较小，在加权过程中其特征被消除，从而达到消除动态特征的目的。因此，本实施例的稳定性注意力模块，如图2所示，其对多帧点云特征的处理流程如下：

(1)将多帧点云特征(每一帧的特征)

降采样，得到每一帧的特征F_p ^′k，每一帧的特征F_p ^′k的尺寸为/>

即降采样后的总特征尺寸为

使空间特征更稠密，有利于后续的注意力计算。

(2)对处于同一位置(极坐标网格)的不同帧的特征计算注意力权重。

每一帧的特征F_p ^′k在某一极坐标网格中的数据经过多层感知器后得到查询(Query)Q_k和键(Key)K_k；由于当前帧(k＝0)的特征F_p ^′0是绝对准确的，因此只将当前帧作为键，即作为参考，计算历史帧相对于当前帧的相关性系数，而不会计算当前帧相对整序列的相关性系数，即，对于某一极坐标网格，将某个历史帧的查询和其他帧的键作点乘，得到该历史帧的相关性向量。

取k＝2帧为例，取Q₂与其他帧的键K_k作点乘，得到相关性系数α_2k，可记作：

α_2k＝Q₂·K_k,k＝{0,1,…,f},k≠2

将所有相关性系数记作k＝2帧的相关性向量v₂＝{α_2k|k∈{0,1,…,f},k≠2}。即，若获取无人车所在环境的连续f帧点云数据，历史帧i的相关性向量为v_i＝{α_ik|i∈{1,…,f},k∈{0,1,…,f},k≠i}，其中，α_ik＝Q_i·K_k，Q_i表示历史帧i的查询，K_k表示帧k的键。

(3)对每个历史帧的相关性向量进行线性运算，得到每个历史帧的注意力权重w_k,k∈{1,2,…,f}，但这里的注意力权重仅是针对单一位置(极坐标网格)的，对于完整的极坐标网格的注意力权重，记作注意力权重向量W′_k,k∈{1,2,…,f}，其尺寸为

而这里的极坐标网格对应的是降采样过后的尺寸，因此还需要对W′_k进行上采样还原到原始尺寸，记作W_k，其尺寸为/>

(4)基于每一帧的特征

和注意力权重W_k，对历史帧特征进行加权求和，得到F_h，并与当前帧的特征/>

在特征维度拼接(concat)在一起后做卷积(conv)，得到最终的多帧融合特征，记作：

至此，多帧点云的特征融合完成。

本实施例提供的稳定性注意力模块，在融合多帧点云的特征的同时，根据点云特征的时空稳定性，消减动态障碍物在点云多帧融合中的影响，使得无人车可通行区域预测更加稳定。

实施例二

本实施例提供了基于多帧点云融合的无人车可通行区域预测***，其具体包括数据获取模块、特征提取模块、稳定性注意力模块(包括权重计算模块和加权模块)和空间特征融合模块(即预测模块)。

此处需要说明的是，本实施例中的各个模块与实施例一中的各个步骤一一对应，其具体实施过程相同，此处不再累述。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的基于多帧点云融合的无人车可通行区域预测方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的基于多帧点云融合的无人车可通行区域预测方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于多帧点云融合的无人车可通行区域预测方法，其特征在于，包括：

基于连续多帧点云数据，提取每一帧的特征；

基于融合特征，预测得到无人车的可通行区域。

2.如权利要求1所述的基于多帧点云融合的无人车可通行区域预测方法，其特征在于，若获取无人车所在环境的连续f帧点云数据，历史帧i的相关性向量为v_i＝{α_ik|k∈{0,1,…,f},≠i}，其中，α_ik＝_i·_k，_i表示历史帧i的查询，K_k表示帧k的键，i∈{1,…,f}。

3.如权利要求1所述的基于多帧点云融合的无人车可通行区域预测方法，其特征在于，在某一极坐标网格中，基于每一帧的特征，采用多层感知器，得到查询和键。

4.如权利要求1所述的基于多帧点云融合的无人车可通行区域预测方法，其特征在于，所述提取每一帧的特征的具体方法为：

5.如权利要求1所述的基于多帧点云融合的无人车可通行区域预测方法，其特征在于，在将某个历史帧的查询和其他帧的键作点乘之前，对每一帧的特征进行降采样。

6.如权利要求1所述的基于多帧点云融合的无人车可通行区域预测方法，其特征在于，在对所有历史帧的特征进行加权求和之前，对注意力权重向量进行上采样。

7.基于多帧点云融合的无人车可通行区域预测***，其特征在于，包括：

8.如权利要求7所述的基于多帧点云融合的无人车可通行区域预测***，其特征在于，若获取无人车所在环境的连续f帧点云数据，历史帧i的相关性向量为v_i＝{α_ik|k∈{0,1,…,f},≠i}，其中，α_ik＝_i·_k，_i表示历史帧i的查询，K_k表示帧k的键，i∈{1,…,f}。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一项所述的基于多帧点云融合的无人车可通行区域预测方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-6中任一项所述的基于多帧点云融合的无人车可通行区域预测方法中的步骤。