CN113706480A

CN113706480A - 一种基于关键点多尺度特征融合的点云3d目标检测方法

Info

Publication number: CN113706480A
Application number: CN202110928928.6A
Authority: CN
Inventors: 张旭; 柏琳娟; 杨艳; 廖敏; 张振杰; 冯梅; 李济; 万勤; 苟宇
Original assignee: Chongqing Productivity Promotion Center; Chongqing University of Post and Telecommunications
Current assignee: Chongqing Productivity Promotion Center; Chongqing University of Post and Telecommunications
Priority date: 2021-08-13
Filing date: 2021-08-13
Publication date: 2021-11-26
Anticipated expiration: 2041-08-13
Also published as: CN113706480B

Abstract

本发明属于3D目标检测领域，具体涉及一种基于关键点多尺度特征融合的点云3D目标检测方法，该方法包括：获取当前时刻待检测的点云数据，将获取的点云数据输入到训练好的点云3D目标检测模型中，得到目标检测结果；在点云3D目标检测模型中对距离采样全局特征和特征采样全局特征的提取算法进行了改进，提高了目标检测的效率和准确度；本发明加入了特征最远点采样序列提取模块，使用基于特征的最远点采样作用于不同的体素稀疏卷积层获取不同尺度的特征，减少背景点与目标检测的影响。

Description

一种基于关键点多尺度特征融合的点云3D目标检测方法

技术领域

本发明属于3D目标检测领域，具体涉及一种基于关键点多尺度特征融合的点云3D目标检测方法。

背景技术

随着3D场景获取技术的快速发展，3D探测器如3D的扫描仪，雷达探测器，及深度相机变得更加物美价廉，这对自动驾驶领域成规模使用3D探测器提供了充分有利条件。激光雷达(LIDAR)传感器进入人们的视野。使用LIDAR传感器采集的大规模数据称之为点云，数据组通常包含由LIDAR发出的激光光束来对周围物体的三维坐标定位及光束返回激光强度。

近年来，照相机***下的二维(2D)目标检测取得了非凡成就，但使用图片进行目标检测也存在部分问题如：图片质量的好坏受限于采集图片时的天气状态，环境状态、光线状态等，激光雷达对天气状态，环境状态、光线状态的变化不敏感，激光雷达光束可以轻松穿透雨雾，灰尘等，并且即使在眩光和阴影的情况下也可以在白天和夜晚工作。

基于点云的目标检测方法随之得到了广泛的研究。一种典型的体素化网络是VoxelNet消除对3D点云进行手动构建特征工程的需要，它将特征提取和目标框预测统一为一个单阶段，端到端的可训练的深度网络。将点云划分为等间距的3D体素，并通过引入体素特征编码层将每个体素内的一组点转换为统一的特征表示，然后将其连接到区域生成网络生成候选框。SECOND在VoxelNet基础上提出3D稀疏卷积来避免点云体素化间距过小导致存在空体素后进行3D卷积特征弥散情况。

另外一种具体代表性的PointNet提出使用神经网络直接提取无序点特征，它们以原始点云作为输入，并使用多层感知器将低维特征映射到高维特征空间来确保网络平移不变性，F-PointNet首次应用PointNet于基于二维图像边界框来裁剪点云的三维目标检测；3DSSD在点云选择上采样特征距离的关键点采样分别对目标框进行分类和定位。

虽然这些方法已经取得了显著的进展，但在应用于稀疏的点云目标检测场景时，难例样本的检测准确性并不高。主要原因是对点云采样时1、忽略前景点与背景点的信息区分2、忽略不同尺度特征下的相互关系3、忽略在遮挡严重物体上检测准确性。

发明内容

为解决以上现有技术存在的问题，本发明提出了一种基于关键点多尺度特征融合的点云3D目标检测方法，该方法包括：获取当前时刻待检测的点云数据，将获取的点云数据输入到训练好的点云3D目标检测模型中，得到目标检测结果；

对点云3D目标检测模型进行训练的过程包括：

S1：获取原始点云数据，采用距离最远采样法对原始点云数据进行选取，得到点云序列；

S2：将原始点云数据划分为间距相等的体素块，并提取体素块的初始特征；

S3：将点云序列和体素块的初始特征输入到3D稀疏卷积神经网络中，得到体素特征空间；将点云序列中关键点的位置信息映射到每一层稀疏卷积对应位置的体素特征空间中，更新关键的位置信息；

S4：采用距离最远点采样序列提取法对每一层体素特征空间中的关键点进行特征提取，得到点云序列的距离采样局部特征；

S5：采用特征最远点采样方法对点云序列的距离采样局部特征进行采样，得到局部特征关键点特征；

S6：采用融合策略将各个稀疏卷积层的距离采样局部特征进行融合，得到距离采样全局特征；采用融合策略将各个稀疏卷积层局部特征关键点特征进行融合，得到特征采样全局特征；

S7：将体素特征空间转化为2D鸟瞰视图，并采用双线性插值法提取鸟瞰视图的稠密特征；采用区域特征提取方法对稠密特征进行处理，生成3D建议框；

S8：根据3D建议框对距离采样特征和特征采样特征进行感兴区域池化，得到目标检测结果；

S9：根据得到的结果计算模型的损失函数，调整模型的参数，当损失函数最小时完成模型的训练。

在的目标检测结果后，根据目标检测对距离关键点和特征关键点下的格点进行更新，得到回归目标框和分类目标框，用于下一次目标检测。

优选的，对原始点云数据进行距离特征采样的过程包括：在原始点云数据中随机初始化一个点，以该点为初始点采用距离最远点采样方法从所有点云数据中获取距离关键点，得到点云序列。

进一步的，点云序列中两点之间空间距离度量公式为：

其中，D-Distance表示两点之间的L2距离，X、Y表示两个点的坐标的反射强度，Sqrt表示非负数的平方根函数。

优选的，提取体素块的初始特征的过程包括：对输入的点云等分为间距相等的体素块，各个体素块的长、宽、高分别为L、W、H；计算落入每个体素块中各个点的距离平均值和反射强度平均值，将各个点的距离平均值和反射强度平均值作为该体素块的初始特征。

优选的，获取体素特征空间的过程包括：根据划分的体素块的数量预先分配缓冲区；遍历点云序列并将各个点云分配给对应的关联体素，并保存体素坐标和每个体素的点数；在对遍历点云序列的迭代过程中建立哈希表，通过该表检查体素中是否存在点云；若存在与某个点相关的体素，将体素中点的数量加一，若不存在，则重新选择其他点进行查询；根据获得所有体素的坐标和每个体素中点的数量得到实际体素数；对得到的体素进行检测，删除所有的空体素，得到密集体素；采用GEMM对密集体素进行卷积操作，得到体素特征空间。

优选的，得到点云序列的距离采样局部特征的过程包括：通过距离采样获得关键点dp位置信息，根据关键点位置信息索引映射到各个稀疏卷积对应位置的体素特征空间，以确保关键点在不同层有且仅有一个对应的体素，根据该体素的特征更新关键点的位置信息；将每个体素抽象为一个点，采用PointNet++序列提取方法对体素特征进行提取，得到距离关键点经过稀疏卷积后的特征；采用局部特征融合策略将经过稀疏卷积后的特征进行融合，得到距离采样局部特征。

优选的，得到局部特征关键点特征的过程包括：将经过距离采样获得的关键点dp的位置信息映射到各个稀疏卷积对应位置的体素特征空间，确保关键点在不同层有且仅有一个对应的体素；采用特征最远点采样获得长度为q的特征关键点序列fp，且该特征关键点序列满足约束条件

将每个体素抽象为一个点，采用PointNet++序列提取方法对体素特征进行提取，得到特征关键点经过稀疏卷积后的特征；采用特征融合公式对经过稀疏卷积后的特征进行融合，得到局部特征关键点特征。

优选的，利用双线性插值从鸟瞰特征中获得稠密特征：将体素特征空间通过Z轴投影到2D鸟瞰视图中，使用相邻体素特征进行插值运算，运算的公式为：

其中，f(x,y)表示当前插值坐标下的特征，x表示点的横坐标，y表示点的纵坐标，f(Q₁₁)表示Q₁₁坐标下的特征，Q₁₁、Q₂₁、Q₁₂、Q₂₂分别表示相邻体素特征。

优选的，融合策略包括特征关键点融合策略和特征关键点的特征拼接策略；

特征关键点融合策略为：

fp＝fp_conv1∪fp_conv2∪fp_conv3∪fp_conv4∪fp_bev

特征关键点的特征拼接为：

其中，fp表示各个稀疏卷积层特征采样点的并集，fp_conv1表示经过第一层稀疏卷积后采样的特征关键点，fp_bev表示经过双线性插值从鸟瞰特征中获得稠密特征后采样的特征关键点，ff表示特征关键点的全局特征，

表示经过第一层稀疏卷积后采样的局部关键点特征，

表示经过双线性插值从鸟瞰特征中获得稠密特征后采样的局部关键点特征。

优选的，对距离采样特征和特征采样特征进行感兴区域池化的过程包括：采用3D建议框对距离采样全局特征和特征采样全局特征进行划分，并在每个3D建议框中等间距生成6*6*6个格点，每个格点用

表示；采用序列提取操作从关键点获取网格点的特征；根据网格点的特征得到目标框回归结果以及目标框分类预测结果。

优选的，模型的损失函数为：模型的损失函数包括建议框生成网络损失函数和网络目标框损失函数；

建议框生成网络损失函数的表达式为：

其中，L_rpn表示建议框生成网络损失函数，L_cls表示使用Focal损失计算的分类损失，x,y,z分别表示目标框三维坐标，l,h,w分别表示目标框的长宽高，θ表示目标框的方向角，

表示Smooth-L1损失计算方法，

表示分类预测残差，Δr^a表示回归残差；

网络目标框损失函数的表达式为：

其中，L_rcnn表示网络目标框损失函数，L_iou表示预测框与真值框用Focal损失计算损失，

表示预测目标框残差，Δr^p表示回归残差。

本发明的优点：

1)本发明加入了特征最远点采样序列提取模块(Feature FPS Voxel SetAbstraction Module)，使用基于特征的最远点采样作用于不同的体素稀疏卷积层获取不同尺度的特征，减少背景点与目标检测的影响；

2)本发明设计了一种基于关键点多尺度特征融合方法，对点云场景进行3D目标检测，有利于对于难以检测的样本进行检测。

附图说明

图1为本发明的网络流程图；

图2为本发明的模型总体框架图；

图3为本发明的测试结果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在点云目标检测领域，一个点云场景包含数以万计的点，直接使用所有的点进行模型预测与回归将造成巨大的资源与时间浪费。大多数目标检测算法中，迭代使用PointNet++距离最远点采样(FPS)生成关键点，利用关键点与周围点的邻接关系生成特征向量。然而根据距离采样的点包含大量的背景点，缺少有用的前景点。包含背景点的关键点可以在目标框的分类上起到促进作用，在目标的回归上起到消极作用。因此选点策略的制定是目标检测准确度提升的关键问题。

在点云目标检测领域，不同的模型拥有不同的特征融合策略，最常用的特征融合策略是联结所有不同卷积层下的特征或者不同视角下的特征，或者不同模态下获得的特征。这些方法缺少有力的理由说明采用其融合策略造成大量计算。

一种基于关键点多尺度特征融合的点云3D目标检测方法，该方法包括：获取当前时刻待检测的点云数据，将获取的点云数据输入到训练好的点云3D目标检测模型中，得到目标检测结果。

如图1所示，对点云3D目标检测模型进行训练的过程包括：

本发明采用的数据集为KITTI数据集，该数据集为自动驾驶领域中广泛使用的计算机视觉算法评估数据集。该数据集包含多个任务，例如3D对象检测以及多对象跟踪和分段。3D对象检测基准由7481个训练图像和7518个测试图像以及相应的点云组成。训练样本大致分为训练集(3712个样本)和验证集(3769个样本)。

模型在所有训练数据上执行一遍梯度下降算法被称为一轮，每一轮都会对模型的参数进行更新，最大轮数被设置为80轮。在训练模型的80轮迭代过程中，在测试数据集上取得最小误差的模型及其参数被保存起来。

本发明的模型结构包括原始点云数据获取模块、特征最远点采样模块、特征最远点采样序列提取模块、距离最远点采样模块、距离最远点采样序列提取模块、3D体素化模块、3D稀疏卷积模块、鸟瞰图投影及建议框生成模块以及感兴区域池化模块；各个模块的连接方式如图2所示。

采用距离特征采样方法对对输入的点云P进行关键点采样的过程中，使用距离最远点采样方法(D-FPS)从点云中选择一个点云序列。对空间距离的度量方式为：

其中，D-Distance表示两点之间的L2距离，L2表示点云距离，X、Y代表不同点的坐标和反射强度，Sqrt表示数学平方根，

表示空间维度为

的任意点，

表示除X外空间维度为

的任意点，i、j均表示点的索引，P表示点云，

表示点云空间维度。

在进行D-FPS计算后，可以获得长度为p的距离关键点序列dp＝{p₁，p₂，p₃…p_p}。

对输入的点云P等分为间距相等的体素块L×W×H，L、W、H分别表示体素块的长，宽，高。使用落入每个体素块的不同点的距离和反射强度的平均值作为该体素块的初始特征。计算体素块的初始特征的公式为：

其中，[X，V，Z]表示落入体素的点云三维坐标，R表示落入体素的点云的反射强度之和，

表示落入体素的点云的平均三维坐标，

表示落入体素的点云平均反射强度，T表示转置。

将体素化后的点云使用3D稀疏卷积神经网络用作点云特征提取的过程包括：根据体素数量限制预先分配缓冲区；然后遍历点云并将点分配给与之对应关联的体素，保存体素坐标和每个体素的点数。在迭代过程中建立哈希表检查体素中点的存在。如果与某个点相关的体素存在，将体素中点的数量加一。最后获得所有体素的坐标和每个体素中点的数量以获得实际体素数。点云的稀疏性无法避免空体素存在。将稀疏的体素通过聚合操作获得密集的体素特征即删除空体素。然后使用GEMM对密集的体素进行卷积操作，获得密集的输出特征；通过构建的输入-输出索引规则矩阵，将密集的输出特征映射到稀疏的输出特征。

通过距离采样获得的关键点的位置信息被索引映射到每一层的稀疏卷积对应位置的体素特征空间，以确保关键点在不同层有且仅有一个对应的体素。并且根据该体素的特征更新关键点的特征。将每个体素视为一个点，将PointNet++思想提出的序列提取方法用于体素方向特征的聚合。

采用距离最远点采样法对每一层体素特征空间中的关键点进行采样，得到点云序列的距离采样局部特征的过程包括：通过距离采样获得的关键点dp＝{p₁，p₂，p₃，...p_p}的位置信息，将该位置信息通过索引映射到各个稀疏卷积对应位置的体素特征空间，以确保关键点在不同层有且仅有一个对应的体素，根据该体素的特征更新关键点的特征，将每个体素抽象为一个点，将PointNet++提出的序列提取方法用于体素特征的提取，得到特征关键点经过稀疏卷积后的特征；采用局部特征融合策略对距离关键点经过稀疏卷积后的特征进行融合，得到距离采样局部特征。局部特征融合策略的公式为：

其中，

表示第k层第i个距离关键点的特征，

表示使用3D稀疏卷积后第k层第p个距离关键点的特征，

表示距离关键点在第k层体素空间上的映射，r_k表示特征提取的固定半径，。

使用PointNet生成距离关键点经过稀疏卷积后的特征：

其中，

表示第k层第i个距离关键点经多层稀卷积后的序列提取特征，

表示表示随机采样固定数量的距离关键点特征，

表示表示第k层第i个距离关键点的特征，G表示表示使用多层感知机进行特征编码，(l_k)表示第k层，max(.)表示使用最大池化函数。

在获得距离关键点及其特征的基础上使用特征最远点采样获取特征关键点。在获得距离关键点及其特征的基础上使用特征最远点采样获取特征关键点。具体来说，首先随机初始化一个距离关键点，以该点为基础迭代使用特征最远点采样方法(F-FPS)从距离关键点中选择一个点云序列。

空间特征度量方式为：

其中，F-Distance表示两个特征采样的关键点之间的L2特征距离。X，Y代表来自不同距离关键点经过稀疏卷积序列提取的不同尺度的特征。经过特征最远点采样(F-FPS)，获得长度为q的特征关键点序列fp＝{p₁，p₂，p₃…p_q}。

利用特征关键点得到特征采样局部特征的过程包括：通过距离采样获得的关键点dp＝{p₁，p₂，p₃...p_p}的位置信息被索引映射到各个稀疏卷积对应位置的体素特征空间，以确保关键点在不同层有且仅有一个对应的体素，经过特征最远点采样(F-FPS)，获得长度为q的特征关键点序列fp＝{p₁，p₂，p₃…p_q}并且满足约束条件

即特征关键点属于距离关键点子集，将每个体素抽象为一个点，采用PointNet++序列提取方法对体素特征进行提取，得到特征关键点经过稀疏卷积后的特征；采用特征融合公式对经过稀疏卷积后的特征进行融合，得到局部特征关键点特征。特征融合公式为：

其中，

表示第k层第i个特征关键点的特征，

表示使用3D稀疏卷积后第k层距离关键点的特征，

表示距离关键点在第k层体素空间上的映射，r_k表示特征提取的固定半径，使用PointNet生成特征关键点经过稀疏卷积后的特征。

特征关键点经多层稀卷积后的序列提取特征的公式为：

其中，

表示第k层第i个特征关键点经多层稀卷积后的序列提取特征，

表示随机采样固定数量的特征关键点特征，G(·)表示使用多层感知机进行特征编码，max(·)表示使用最大池化函数。

多层稀疏卷积后的3D体素特征通过Z轴投影到2D鸟瞰视图中。利用双线性插值从鸟瞰特征中获得稠密特征。采用SECOND的区域特征提取方法生成3D建议框。双线性插值运算的公式为：

3D建议框RPN架构由三个阶段组成。每个阶段都从一个下采样的卷积层开始，在每个卷积层之后，使用BatchNorm和ReLU层。然后将每个阶段的输出上采样到相同大小的特征图，并将这些特征图连接成一个特征图。最后使用全连接层对每个体素进行类别预测、位置回归预测。挑选前Top-k个建议框与真值框相交区域面积高且分类置信度高的建议框作为候选框。

获得距离采样与特征采样关键点，分别使用以下特征融合策略。对于距离关键点，拼接每一层的特征；对于特征关键点，使用以下表示作为不同层的特征关键点序列，以4层卷积，1层投影为例，得到的结果为：

fp_conv1＝{p₁，p₂，p₃…p_q}

fp_conv2＝{p₁，p₂，p₃…p_q}

fp_conv3＝{p₁，p₂，p₃…p_q}

fp_conv4＝{p₁，p₂，p₃…p_q}

fp_bev＝{p₁，p₂，p₃…p_q}

特征关键点融合策略如下：

fp＝fp_conv1∪fp_conv2∪fp_conv3∪fp_conv4∪fp_bev

特征关键点的特征拼接如下：

表示经过第一层稀疏卷积后采样的局部关键点特征，

距离特征关键点的融合策略与特征关键点融合策略相同。

通过多尺度关键点特征融合，获得距离采样特征与特征采样特征，在两个不同的关键点序列之间进行感兴趣区域池化。分别将获得的ff和df采用多层感知机(MLP)作为类别预测与目标框回归。具体来说，使用3层全连接网络对目标框种类进行置信度预测，使用3层全连接网络对目标框位置回归，x，y，z，l，h，w，θ分别表示目标框的中心坐标，目标框的长、宽、高、以及目标框在鸟瞰图视角下的方向角。

模型的损失函数包括建议框生成网络损失函数和网络目标框损失函数；

建议框生成网络损失函数的表达式为：

其中，L_rpn表示建议框生成网络损失函数，L_cls表示使用Focal损失计算的分类损失，x，y,z分别表示目标框三维坐标，l,h，w分别表示目标框的长宽高，θ表示目标框的方向角，

表示Smooth-L1损失计算方法，

表示分类预测残差，Δr^a表示回归残差；

网络目标框损失函数的表达式为：

表示预测目标框残差，Δr^p表示回归残差。

评价指标：具有40个召回位置的平均精确度(mAP)用于评估三个难度级别上的模型性能：“简单级别”，“中等级别”和“困难级别”。为了评估检测目标框与真值框的重叠程度，我们使用与官方评估相同的指标。具体地说，对于汽车，边界框在简单，中等和困难级别物体上的重叠分别需要70％，50％和50％。对于行人和骑自行车的人，边界框在容易，中等和困难级别物体上的重叠分别需要50％，25％和25％。

如图3所示，在KITTI测试集中选取并直接进行目标检测结果如下，从结果可以看出，该模型在被遮挡的物体下和困难样本下能进行很好的目标检测。

本实施例采用Python程序设计语言，能够在主流计算机平台上运行。本实施使用的操作***为CentOS 6.5，要求CPU为Intel i7，内存16GB以上，硬盘空间要求60GB及以上，GPU为NVIDIA GTX 1080Ti，显存11G。

本发明基于PyTorch 1.0框架实施本发明内容。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于关键点多尺度特征融合的点云3D目标检测方法，其特征在于，包括：获取当前时刻待检测的点云数据，将获取的点云数据输入到训练好的点云3D目标检测模型中，得到目标检测结果；

对点云3D目标检测模型进行训练的过程包括：

2.根据权利要求1所述的一种基于关键点多尺度特征融合的点云3D目标检测方法，其特征在于，对原始点云数据进行距离特征采样的过程包括：在原始点云数据中随机初始化一个点，以该点为初始点采用距离最远点采样方法从所有点云数据中获取距离关键点，得到点云序列；距离最远点采样方法的公式为：

其中，D-Distance表示两点之间的L2距离，X、Y表示两个点的坐标及反射强度，Sqrt表示非负数的平方根函数。

3.根据权利要求1所述的一种基于关键点多尺度特征融合的点云3D目标检测方法，其特征在于，提取体素块的初始特征的过程包括：对输入的点云等分为间距相等的体素块，各个体素块的长、宽、高分别为L、W、H；计算落入每个体素块中各个点的距离平均值和反射强度平均值，将各个点的距离平均值和反射强度平均值作为该体素块的初始特征。

4.根据权利要求1所述的一种基于关键点多尺度特征融合的点云3D目标检测方法，其特征在于，获取体素特征空间的过程包括：根据划分的体素块的数量预先分配缓冲区；遍历点云序列并将各个点云分配给对应的关联体素，并保存体素坐标和每个体素的点数；在对遍历点云序列的迭代过程中建立哈希表，通过该表检查体素中是否存在点云；若存在与某个点相关的体素，将体素中点的数量加一，若不存在，则重新选择其他点进行查询；根据获得所有体素的坐标和每个体素中点的数量得到实际体素数；对得到的体素进行检测，删除所有的空体素，得到密集体素；采用GEMM对密集体素进行卷积操作，得到体素特征空间。

5.根据权利要求1所述的一种基于关键点多尺度特征融合的点云3D目标检测方法，其特征在于，得到点云序列的距离采样局部特征的过程包括：通过距离采样获得关键点dp位置信息，根据关键点位置信息索引映射到各个稀疏卷积对应位置的体素特征空间，以确保关键点在不同层有且仅有一个对应的体素，根据该体素的特征更新关键点的位置信息；将每个体素抽象为一个点，采用PointNet++序列提取方法对体素特征进行提取，得到距离关键点经过稀疏卷积后的特征；采用局部特征融合策略将经过稀疏卷积后的特征进行融合，得到距离采样局部特征。

6.根据权利要求1所述的一种基于关键点多尺度特征融合的点云3D目标检测方法，其特征在于，得到局部特征关键点特征的过程包括：将经过距离采样获得的关键点dp的位置信息映射到各个稀疏卷积对应位置的体素特征空间，确保关键点在不同层有且仅有一个对应的体素；采用特征最远点采样获得长度为q的特征关键点序列fp，且该特征关键点序列满足约束条件