CN116665003A

CN116665003A - 一种基于特征交互与融合的点云三维目标检测方法和装置

Info

Publication number: CN116665003A
Application number: CN202310942753.3A
Authority: CN
Inventors: 陈杰; 李倩; 李兵; 徐睿; 李宁; 李尉; 周春燕; 李迎松; 黄志祥
Original assignee: Anhui Zhongke Xinglian Information Technology Co ltd; Anhui University
Current assignee: Anhui Zhongke Xinglian Information Technology Co ltd; Anhui University
Priority date: 2023-07-31
Filing date: 2023-07-31
Publication date: 2023-08-29
Anticipated expiration: 2043-07-31
Also published as: CN116665003B

Abstract

本发明公开一种基于特征交互与融合的点云三维目标检测方法和装置，包括以下步骤：步骤S1、获取点云信息中具有稀疏性和完整性的点云特征；步骤S2、根据所述具有稀疏性和完整性的点云特征，得到BEV特征交互的全局特征；步骤S3、将所述BEV特征交互的全局特征进行多尺度特征融合，实现点云三维目标检测。采用本发明的技术方案，以解决现有两阶段点云三维目标检测任务中存在的点云特征模糊、缺乏稀疏性、BEV特征缺乏全局交互以及ROI Pooling特征缺乏多维度表征问题。

Description

一种基于特征交互与融合的点云三维目标检测方法和装置

技术领域

本发明属于自动驾驶技术领域，尤其涉及一种基于特征交互与融合的点云三维目标检测方法和装置。

背景技术

近年来，自动驾驶因其减轻驾驶员负担、提高行车安全的潜力而受到越来越多的关注。在现代自动驾驶***中，感知***是不可或缺的组成部分，旨在准确估计周围环境的状态，并为预测和规划提供可靠的观察结果。三维目标检测可以智能地预测自动驾驶车辆附近关键三维目标的位置、大小和类别，是感知***的重要组成部分。三维物体检测可以提供详细的环境感知信息，在自动驾驶和机器人领域得到了广泛的应用。激光雷达可以提供包含精确结构信息和距离信息的三维点云，是三维目标检测的重要传感器。自动驾驶技术已广泛应用于自动驾驶卡车、无人驾驶出租车、送货机器人等多种场景，能够减少人为错误，提高道路安全。同时，三维目标检测在现实世界坐标中预测的几何信息可以直接用于测量本车与关键目标之间的距离，并进一步帮助规划行驶路线和避免碰撞。

目前，三维目标检测框架主要涉及两个阶段，因为与单阶段算法相比，两阶段算法具有更高的精度，更有利于后续阶段的使用。通常的两阶段算法首先利用骨干网络提取点云特征，将提取到的点云特征转化为BEV特征，基于BEV特征生成建议框，利用ROI Pooling提取物体的特征，对检测框进行进一步的精细回归。

在骨干网络特征提取部分，规则稀疏卷积有模糊点云特征和降低点云特征稀疏度的局限性。而子流形稀疏卷积在空间特征不连贯的时候进行特征提取会缺失一定的特征信息。规则稀疏卷积和子流形稀疏卷积构建的特征提取网络会导致提取的点云特征模糊、稀疏度低和信息丢失。

此外，将提取的点云特征转化为BEV特征后，利用二维卷积进行进一步的特征提取。但由于卷积的工作原理，会导致提取的特征局部特征表示能力较强，而全局特征表示能力较弱，不利于建议框的生成。

ROI Pooling是两阶段算法中非常重要的一部分，其生成的目标特征将直接关系到整个模型的性能。目前常见的做法是将Bounding Box划分为网格，对每个网格分别进行特征提取，并将每个部分的特征拼接以代表物体的整体特征。由于点云稀疏且分布不均匀，ROI Pooling提取的物体特征通常只具有物体的局部细节特征，缺乏整体对象的全局特征，不能准确表示目标，不利于检测框的精细化回归。

综上。针对现有两阶段点云三维目标检测任务中存在的点云特征模糊、缺乏稀疏性、鸟瞰(BEV)特征缺乏全局交互以及ROI Pooling特征缺乏多维度表征问题。

发明内容

本发明要解决的技术问题是，提供一种基于特征交互与融合的点云三维目标检测方法和装置，以解决现有两阶段点云三维目标检测任务中存在的点云特征模糊、缺乏稀疏性、鸟瞰(BEV)特征缺乏全局交互以及ROI Pooling特征缺乏多维度表征等问题。

为实现上述目的，本发明采用如下的技术方案：

一种基于特征交互与融合的点云三维目标检测方法，包括以下步骤：

步骤S1、获取点云信息中具有稀疏性和完整性的点云特征；

步骤S2、根据所述具有稀疏性和完整性的点云特征，得到BEV特征交互的全局特征；

步骤S3、将所述BEV特征交互的全局特征进行多尺度特征融合，实现点云三维目标检测。

作为优选，步骤S1包括以下步骤：

步骤S11、通过子流形稀疏卷积提取点云信息的稀疏点云特征；

步骤S12、通过规则稀疏卷积和焦点稀疏卷积对稀疏点云特征进行特征提取；得到具有稀疏性和完整性的点云特征；

步骤S13、通过残差结构对具有稀疏性和完整性的点云特征进行残差处理。

作为优选，步骤S2中，根据所述具有稀疏性和完整性的点云特征，通过CNN、自注意力模块ACmix结合，得到BEV特征交互的全局特征。

作为优选，步骤S3中，对所述BEV特征交互的全局特征经过RPN后得到的BoundingBox进行多尺度ROI Pooling特征融合。

本发明还提供一种基于特征交互与融合的点云三维目标检测装置，包括：

获取模块，用于获取点云信息中具有稀疏性和完整性的点云特征；

第一处理模块，用于根据所述具有稀疏性和完整性的点云特征，得到BEV特征交互的全局特征；

第二处理模块，用于将所述BEV特征交互的全局特征进行多尺度特征融合，实现点云三维目标检测。

作为优选，获取模块包括：

第一提取单元，用于通过子流形稀疏卷积提取点云信息的稀疏点云特征；

第二提取单元，用于通过规则稀疏卷积、焦点稀疏卷积和子流形稀疏卷积对稀疏点云特征进行特征提取；得到具有稀疏性和完整性的点云特征；

处理单元，用于通过残差结构对具有稀疏性和完整性的点云特征进行残差处理。

作为优选，所述第一处理模块用于根据所述具有稀疏性和完整性的点云特征，通过CNN、自注意力模块ACmix相结合，得到BEV特征交互的全局特征。

作为优选，第二处理模块用于对所述BEV特征交互的全局特征经过RPN后得到的Bounding Box进行多尺度ROI Pooling特征融合。

本发明的有益效果如下：

本发明通过获取点云信息中具有稀疏性和完整性的点云特征；根据所述具有稀疏性和完整性的点云特征，得到BEV特征交互的全局特征；将所述BEV特征交互的全局特征进行多尺度特征融合，实现点云三维目标检测。采用本发明的技术方案，以解决现有两阶段点云三维目标检测任务中存在的点云特征模糊、缺乏稀疏性、鸟瞰(BEV)特征缺乏全局交互以及ROI Pooling特征缺乏多维度表征等问题。

附图说明

为了更清楚地说明本发明的技术方案，下面对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图：

图1为本发明实施例基于特征交互与融合的点云三维目标检测方法的流程示意图；

图2为点云特征提取网络的结构示意图；

图3为BEV特征交互的全局特征提取示意图；

图4为多尺度 ROI Pooling 特征融合的示意图；

图5为KITTI 数据集标签示例示意图；

图6为 KITTI 数据集点云数据示例示意图；

图7为 KITTI 测试集上的检测结果示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1：

如图1所示，本发明实施例提供一种基于特征交互与融合的点云三维目标检测方法，包括以下步骤：

步骤S1、获取点云信息中具有稀疏性和完整性的点云特征；

作为本发明实施例的一种实施方式，步骤S1通过点云特征提取网络获取具有稀疏性和完整性的点云特征。点云特征提取网络如图2所示，包括：子流形稀疏卷积、规则稀疏卷积、焦点稀疏卷积以及残差结构。获取具有稀疏性和完整性的点云特征包括以下步骤：

步骤S11、首先通过子流形稀疏卷积块提取点云信息的稀疏点云特征，再经过一个子流形稀疏卷积块和焦点稀疏卷积块，以及另外一个分支经过子流形稀疏卷积块，将两个分支的点云特征相加；

步骤S12、将得到的点云特征通过两个相同的模块提取进一步的点云特征，其中一个模块是将输入特征经过一个规则稀疏卷积块和两个子流形稀疏卷积块，同时将输入特征经过规则稀疏卷积块，将得到的两组特征相加，最后经过一个焦点卷积块得到输出点云特征；得到具有稀疏性和完整性的点云特征；

步骤S13、将得到的具有稀疏性和完整性的点云特征经过一个规则稀疏卷积块和两个子流形稀疏卷积块，同时经过一个规则稀疏卷积块，将两个分支得到的点云特征相加，进行残差处理，以防止点云特征的退化。

作为本发明实施例的一种实施方式，步骤S2中，根据所述具有稀疏性和完整性的点云特征，通过CNN、自注意力模块ACmix相结合，得到BEV特征交互的全局特征。其中，CNN可以提高点云局部表示能力，自注意力提取的特征具有较好的全局特征，将CNN和自注意力充分结合，有利于更好地表示点云特征。首先使用CNN提取BEV特征，然后引入ACmix来完成全局特征交互。BEV特征交互的全局特征提取过程如图3所示，由两个支路构成，每个支路都先经过CNN提取BEV特征，再使用ACmix模块完成全局特征交互。最后对两个支路的特征进行拼接，得到BEV特征交互的全局特征，所述BEV特征交互的全局特征具有较强的特征表达能力。对于上面一个支路，首先将具有稀疏性和完整性的点云特征进行通道数下采样至128，并将其作为输入特征图，引入ACmix完成全局特征交互，再对相加后的特征进行通道上采样；下面一个支路将具有稀疏性和完整性的点云特征进行特征图下采样，并将其作为输入特征图，引入ACmix完成全局特征交互，再对相加后的特征进行特征图上采样。ACmix具体操作是首先对输入特征图进行1×1卷积投影后，经过两条路径，其中一个分支是自注意力路径，将中间特征聚集成N组，每组包含3个特征图，每个特征来自1×1卷积。对应的3个特征图分别作为查询、键和值，遵循传统的多头自注意力模型；另外一个分支是内核大小为 k的卷积路径，采用轻全连接层，生成N组个特征图。通过对生成的特征进行移位和聚合，对输入特征进行卷积处理，并像传统的一样从局部感受野收集信息。最后，两条路径的输出进行加权相加，至此完成ACmix的全局特征交互。

作为本发明实施例的一种实施方式，步骤S3中，对所述BEV特征交互的全局特征经过RPN后得到的Bounding Box进行多尺度ROI Pooling特征融合，实现点云三维目标检测。其中，将BEV特征交互的全局特征经过RPN网络生成Bounding Box，多尺度 ROI Pooling 特征融合通过上下2条支路分别提取Bounding Box的局部特征和全局特征。上面一条ROIPooling支路将Bounding Box划分为N×N×N个网格，分别提取每个网格的特征，得到Bounding Box的局部特征；下面一条支路将Bounding Box看成一个整体，提取整体的特征，再将提取到的全局特征复制为N×N×N个，便于与上面分支得到的局部特征拼接。多尺度ROI Pooling 特征融合通过上下2条支路分别提取Bounding Box的局部特征和全局特征，并将局部特征与全局特征进行拼接，最终得到每个Bounding Box的特征，增强多维度表征，丰富ROI Pooling特征，进一步细化检测框，提高模型的鲁棒性和性能。

表1为FIF3D与其他先进模型在KITTI测试集上的对比结果。在KITTI验证集上进行的实验结果按11个召回位置和40个召回位置计算，结果分别如表2和表3所示。从表1可以看出，我们提出的两阶段点云三维目标检测算法FIF3D具有优异的性能。此外，还对ONCE数据集进行了对比实验。FIF3D与其他先进方法在ONCE验证集上的对比结果如表4所示，本发明实施例表现出优异的性能。

表1

表2

表3

表4

点云特征提取网络消融实验结果：如表5所示，基准模型在各个类别的检测准确率都有所提高，其中行人类别简单难度的检测准确率提高了2.99%，中等难度的检测准确率提高了1.27%，困难难度的检测准确率提高了1.07%。此外，从表5的相关实验结果可以看出，骨干网络在FIF3D中起着非常重要的作用。

表5

BEV特征交互消融实验结果：首先在基准模型中加入BEV特征交互进行消融实验，结果如表6所示。从表6可以看出，BEV特征交互可以增强BEV的特征表达能力，便于对各种物体的检测。

表6

多尺度ROI Pooling特征融合消融实验结果：如表7所示，在基准模型中加入多尺度ROI Pooling特征融合后，在中难度和高难度汽车类别中，性能仅略有提升。行人类别和骑自行车类别均有不同程度的下降。然而，多尺度ROI Pooling特征融合可以帮助FIF3D实现出色的性能，特别是在行人类别中。简单难度的检测准确率提高3.88%，中等难度的检测准确率提高2.67%，困难难度的检测准确率提高2.64%。汽车和自行车类别也有所改善。通过结果可以发现，虽然多尺度ROI Pooling特征融合不能帮助基线模型直接提高模型性能，但在与BEV特征交互和点云特征提取网络相互作用时，能够取得优异的性能和良好的鲁棒性。

表7

激光雷达的工作原理类似于传统雷达，通过发射激光来进行测量。其具体的工作原理是利用激光从发射到物体反射回的时间差和激光传播速度通过以下公式完成距离的测量：

其中，表示为激光雷达和被测量物体之间的距离，/>表示激光在空中的传播速度，/>表示激光雷达从发射激光到接受到反射回的激光的时间间隔。激光雷达具有多线，不同线数的激光雷达代表着不同的精度，其中在自动驾驶领域中所采用的激光雷达最具代表性的是 64 线的激光雷达，其工作时会进行旋转，旋转 360 度获得全方位的感光知点云。由于激光无法穿透物体，只能获取物体表面的点云数据。

标签数据中的每一行中的代表每个标注目标的具体信息，每行中的 15 个字段分别代表着标注物体的类别（汽车、行人、自行车等）、截断、遮挡、观察角、2D 检测框、3D 检测框、位置、旋转角等信息，如图5所示。此外，根据标注信息可以将每个 KITTI 数据集中每个类别划分为简单、中等、困难的检测难度。

KITTI 数据采集车搭载激光雷达,KITTI 数据集中训练集共包含 7481 帧点云，测试集共包含 7581 帧点云。训练集的7481 帧点云具有相应的标签，KITTI 数据集点云示例如图 6所示，在 KITTI 测试集上的检测结果如图7所示。

本发明实施例采用 PDV作为所提出的两阶段点云 3D 目标检测算法的基准架构，基于焦点稀疏卷积、规则稀疏卷积和子流形稀疏卷积以及残差思想重新构建新的点云特征提取网络，以保持所提取点云更完整的点云特征和避免点云特征退化。将提取到的点云特征送入BEV特征交互模块，在此模块引入ACmix来加强特征间的交互性，使得 BEV 特征的特征表达能力更强。将得到的BEV特征经过RPN后得到的Bounding Box送入多尺度ROIPooling特征融合，使得提取的物体特征更加丰富，有利于检测框的回归，以提高模型的检测性能和鲁棒性，得到更加精确的三维目标检测框。

本发明实施例可以加入到基线模型PDV中，在大规模数据集KITTI进行训练，将训练好的的权重保存下来。然后将训练好的模型和权重移植到深度学习的开发板上。当汽车搭载激光雷达得到数据集，将数据集作为模型的输入，并经过模型得到感知范围内的三维目标的坐标信息，感知周围环境，最终完成三维目标的感知和定位，并进一步帮助规划行驶路线和避免碰撞。

实施例2：

本发明实施例还提供一种基于特征交互与融合的点云三维目标检测装置，包括：

作为本发明实施例的一种实施方式，获取模块包括：

作为本发明实施例的一种实施方式，所述第一处理模块用于根据所述具有稀疏性和完整性的点云特征，通过CNN、自注意力模块ACmix相结合，得到BEV特征交互的全局特征。

作为本发明实施例的一种实施方式，第二处理模块用于对所述BEV特征交互的全局特征经过RPN后得到的Bounding Box进行多尺度ROI Pooling特征融合。

以上所述的实施例仅是对本发明优选方式进行的描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种基于特征交互与融合的点云三维目标检测方法，其特征在于，包括以下步骤：

步骤S1、获取点云信息中具有稀疏性和完整性的点云特征；

2.如权利要求1所述的基于特征交互与融合的点云三维目标检测方法，其特征在于，步骤S1包括以下步骤：

3.如权利要求2所述的基于特征交互与融合的点云三维目标检测方法，其特征在于，步骤S2中，根据所述具有稀疏性和完整性的点云特征，通过CNN、自注意力模块ACmix相结合，得到BEV特征交互的全局特征。

4.如权利要求3所述的基于特征交互与融合的点云三维目标检测方法，其特征在于，步骤S3中，对所述BEV特征交互的全局特征经过RPN后得到的Bounding Box进行多尺度ROIPooling特征融合。

5.一种基于特征交互与融合的点云三维目标检测装置，其特征在于，包括：

6.如权利要求1所述的基于特征交互与融合的点云三维目标检测装置，其特征在于，获取模块包括：

7.如权利要求6所述的基于特征交互与融合的点云三维目标检测装置，其特征在于，所述第一处理模块用于根据所述具有稀疏性和完整性的点云特征，通过CNN、自注意力模块ACmix相结合，得到BEV特征交互的全局特征。

8.如权利要求7所述的基于特征交互与融合的点云三维目标检测装置，其特征在于，第二处理模块用于对所述BEV特征交互的全局特征经过RPN后得到的Bounding Box进行多尺度ROI Pooling特征融合。