CN115685237A

CN115685237A - 视锥与几何约束相结合的多模态三维目标检测方法及***

Info

Publication number: CN115685237A
Application number: CN202211403801.3A
Authority: CN
Inventors: 倪益阳; 赵旭
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2022-11-10
Filing date: 2022-11-10
Publication date: 2023-02-03

Abstract

本发明提供了一种视锥与几何约束相结合的多模态三维目标检测方法及***，包括：在图像上生成二维感知结果得到待检测目标的二维边界框；将激光雷达点云投影至图像平面上提取投影至二维边界框内的点云；对视锥内点云进行地面检测，并结合地面与视锥下边界交界处的位置对视锥内点云进行初步过滤，对过滤后的点云进行聚类得到各个候选点云簇，并对点云簇进行合并，设定点云簇的评分标准对每个点云簇进行打分，挑选分数最高的点云簇作为一阶段的结果；对一阶段的结果点云进行体素化，并与已经提炼好的模板核进行模板匹配的卷积计算，得到匹配响应图，挑选出响应图中的峰值位置，根据坐标关系反推其对应的三维坐标位置与朝向，得到三维目标的检测结果；利用三维投影结果与二维检测结果一致性对三维目标的检测结果中的高度以及横向进行修正，得到最终的三维目标检测结果。

Description

视锥与几何约束相结合的多模态三维目标检测方法及***

技术领域

本发明涉及三维目标检测技术领域，具体地，涉及视锥与几何约束相结合的多模态三维目标检测方法及***，涉及视锥与几何规则，能够应用于自动驾驶***的感知模块中。

背景技术

自动驾驶技术是目前的一个热点研究方向，该技术能够应用于无人运输、无人环卫、辅助驾驶等等场景，能够有效地解放劳动力。感知模块是自动驾驶技术中重要的一环，它能够帮助自动驾驶***获取当前的环境信息，以助于车辆规避障碍与规划路径。三维目标检测是感知中的一项重要任务，用于得到场景中的障碍物位置、大小以及朝向，因此，如何融合传感器捕获的激光雷达点云数据与图像数据，并设计一个高效、准确、鲁棒且易部署的三维目标检测器是一大挑战。

经过对现有技术文献的查找发现，目前效果好的三维目标检测模型均是基于深度学习的方法，将激光雷达点云与图像数据送入已经构造好的深度网络模型中，并根据标注好的三维标签值实现端到端的训练。这种方法能够在数据集上得到较高的效果，但由于其中绝大部分模型均涉及到稀疏卷积(Sparse Convolution)算子，而该算子目前并不能够很好地部署到车载芯片上。少部分方法如PointPillars直接将点云压缩至俯视图下，之后使用二维的骨干网络回归目标的三维位置，但该类方法不能够很好地结合图像的信息。部分工作如F-PointNets、F-convnet、Frustum-PointPillars等先利用二维目标检测器与几何投影构造出视锥，再使用深度网络模块对视锥内的点云进行三维目标检测，这类方法能够有效地结合成熟的二维目标检测器，且没有复杂的模块，较容易部署；但该类方法的两个阶段(二维检测和三维检测)都需要使用深度网络训练，需要大量的数据来拟合，导致这类方法的泛化能力较差，且依赖于训练数据的数量与质量。本发明在基于视锥的方法上做出改动，在三维检测的步骤中结合几何约束实现最终的检测，该方法不依赖于大量训练数据，且易于部署，有较好的泛化性和实时性。

专利文献CN110909623B(申请号：201911052349.9)公开了一种三维目标检测方法及三维目标检测器。所述三维目标检测方法主要包括以下步骤：对三维目标检测数据集的图像数据进行语义分割，得到语义预测；将语义预测投影到点云空间中，并筛选特定类别的点形成视锥；构建三维目标检测网络，并将视锥作为三维目标检测网络的输入；通过损失函数强化三维目标检测网络对目标的敏感程度；优化三维目标检测网络。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种视锥与几何约束相结合的多模态三维目标检测方法及***。

根据本发明提供的一种视锥与几何约束相结合的多模态三维目标检测方法，包括：

步骤S1：使用二维目标检测器在相机图像上生成二维的感知结果，得到图像中待检测目标的二维边界框；根据传感器之间的外参以及相机内参，将激光雷达点云投影至图像平面上，提取投影至二维边界框内的点云，得到相应的视锥内点云；

步骤S2：对视锥内点云进行地面检测，并结合地面与视锥下边界交界处的位置对视锥内点云进行初步过滤，对过滤后的点云使用DBSCAN聚类得到各个候选点云簇，并设定距离阈值对点云簇进行合并，设定点云簇的评分标准，对每个点云簇进行打分，最终挑选分数最高的点云簇作为一阶段的结果；

步骤S3：对一阶段的结果点云进行体素化，并与已经提炼好的模板核进行模板匹配的卷积计算，得到匹配响应图，挑选出响应图中的峰值位置，根据坐标关系反推出其对应的三维坐标位置与朝向，得到三维目标的检测结果；

步骤S4：利用三维投影结果与二维检测结果一致性对三维目标的检测结果中的高度以及横向进行修正，得到最终的三维目标检测结果。

具体地，所述步骤S1采用：

步骤S1.1：使用二维目标检测器对相机图像进行检测得到待检测目标的二维检测结果(u₁，v₁，u₂，v₂，cls，conf)，其中，(u₁，v₁，u₂，v₂)表示图像中二维检测框的左边界坐标u₁、上边界坐标v₁、右边界坐标u₂与下边界坐标v₂，cls表示目标的类别属性；conf表示检测框的置信度；

步骤S1.2：利用相机与激光雷达之间的外参，将激光雷达点云转换至相机坐标系下，再根据相机的内参，将相机坐标系下的点云数据投影至图像平面上，取深度为正且投影位于二维检测框内的点集，将当前点集对应至原激光雷达点云中，形成一个视锥内点云。

具体地，所述步骤S2采用：

步骤S2.1：对所有视锥内点云进行高度值从小到大的排序，选取前N_LPR个点的平均高度作为地面的初始高度H_init，设定距离阈值Δh₁，将所有高度满足z＜H_init+Δh₁的点视为地面点，根据当前地面点使用最小二乘法拟合出地面的平面方程；根据地面方程计算视锥下边界与视锥的交界位置，根据交界位置的坐标(x_inter，y_inter)及距离阈值d_inter筛除视锥点云中与交界位置相距较远，满足

的点，同时滤除属于地面的点；

步骤S2.2：使用DBSCAN聚类对点云进行聚类，得到若干簇候选点云集合set₁，set₂，...，set_n，对第i个点云集合set_i与第j个点云集合set_j，计算两个点集之间的最远距离，若当前最远距离小于距离合并阈值d_merge，则将当前两个点集进行合并；将所有候选点集进行点集合并后，得到新的点云集合set₁，set₂，...，set_m；

步骤S2.3：每个候选点集根据预设评分规则进行打分，选取得分最高的点集作为一阶段候选点；

所述预设评分规则包括：包含的点数越多分值越高、包含的地面背景点数越多分值越低、或离地面与视锥下边界交点距离越近分值越高。

优选地，所述步骤S3采用：

步骤S3.1：从自动驾驶数据集的训练集中根据三维标签值得到各个类别真值点云，并计算各个类别三维大小的平均值(l_m，w_m，h_m)，将每个类别的点云真值的中心坐标规范至(0，0，0)、三维大小规范至平均值、朝向角规范至0°并将点集进行拼接，得到一个初步的模板点集；沿x轴对各个模板点集进行翻转增强，使各个类别的模板满足对称性，再使用VoxelGrid filter对模板进行下采样，得到滤波后的模板；设定K_θ个角度区间数，将-180°至180°区间等间隔划分为K_θ个角度值，之后根据角度值对模板进行旋转，得到带有朝向信息的K_θ个模板，以体素大小(x_{grid，ygrid，}z_grid)将当前模板进行体素化，得到每个类别的模板核，其维度大小为[K_θ，L_m，W_m，H_m]；

步骤S3.2：以体素大小(x_grid，y_grid，z_grid)对候选一阶段点云进行体素化，得到大小[L_p，W_p，H_p]的三维张量；

步骤S3.3：将模板核作用于输入的体素张量上，设置卷积步长为1，边缘填充方式为补零，得到一个大小为[K_θ，L_p，W_p，H_p]的匹配响应图，响应值高的位置代表当前位置的待匹配点云分布与模板的分布相似度大；

步骤S3.4：获取响应图中的峰值位置得到当前峰值位置所对应的角度值θ_dt，以及三维坐标位置(x_dt，y_dt，z_dt)，输出为三维目标的检测结果(x_dt，y_dt，z_dt，l_m，w_m，h_m，θ_dt)。

优选地，所述步骤S4采用：

步骤S4.1：三维目标的检测结果(x_dt，y_dt，z_dt，l_m，w_m，h_m，θ_dt)通过相机外参转换至相机坐标系下得到相机坐标系下的检测结果(x_cam，y_cam，z_cam，lc_am，w_cam，h_cam，θ_cam)，根据三维检测框的定义计算得到相机坐标系下三维检测框的8个角点坐标：

再根据相机内参焦距及偏移量参数f_u，f_v，c_u，c_v，得到8个角点在图像平面上的投影坐标，分别为：

将这些坐标标记为(m_i，n_i)，i的取值范围为1～8；

步骤S4.2：输入投影后的像素坐标(m_i，n_i)，i＝1，...，8与二维检测结果(u₁，v₁，u₂，v₂)，构造高度方向上的误差函数：

其中，将8个角点的式子代入上式中，其中需要优化的变量为y_cam，使用梯度下降法对其进行优化得到修正后的高度值

步骤S4.3：输入投影后的像素坐标(m_i，n_i)，i＝1，...，8与二维检测结果(u₁，v₁，u₂，v₂)，构造横向方向上的误差函数：

其中，将8个角点的式子代入上式中，其中需要优化的变量为x_cam，使用梯度下降法对其进行优化得到修正后的横向值

并输出最终的三维目标检测结果。

根据本发明提供的一种视锥与几何约束相结合的多模态三维目标检测***，包括：

模块M1：使用二维目标检测器在相机图像上生成二维的感知结果，得到图像中待检测目标的二维边界框；根据传感器之间的外参以及相机内参，将激光雷达点云投影至图像平面上，提取投影至二维边界框内的点云，得到相应的视锥内点云；

模块M2：对视锥内点云进行地面检测，并结合地面与视锥下边界交界处的位置对视锥内点云进行初步过滤，对过滤后的点云使用DBSCAN聚类得到各个候选点云簇，并设定距离阈值对点云簇进行合并，设定点云簇的评分标准，对每个点云簇进行打分，最终挑选分数最高的点云簇作为一阶段的结果；

模块M3：对一阶段的结果点云进行体素化，并与已经提炼好的模板核进行模板匹配的卷积计算，得到匹配响应图，挑选出响应图中的峰值位置，根据坐标关系反推出其对应的三维坐标位置与朝向，得到三维目标的检测结果；

模块M4：利用三维投影结果与二维检测结果一致性对三维检测结果中的高度以及横向进行修正，得到最终的三维检测结果。

优选地，所述模块M1采用：

模块M1.1：使用二维目标检测器对相机图像进行检测得到待检测目标的二维检测结果(u₁，v₁，u₂，v₂，cls，conf)，其中，(u₁，v₁，u₂，v₂)表示图像中二维检测框的左边界坐标u₁、上边界坐标v₁、右边界坐标u₂与下边界坐标v₂，cls表示目标的类别属性；conf表示检测框的置信度；

模块M1.2：利用相机与激光雷达之间的外参，将激光雷达点云转换至相机坐标系下，再根据相机的内参，将相机坐标系下的点云数据投影至图像平面上，取深度为正且投影位于二维检测框内的点集，将当前点集对应至原激光雷达点云中，形成一个视锥内点云。

优选地，所述模块M2采用：

模块M2.1：对所有视锥内点云进行高度值从小到大的排序，选取前N_LPR个点的平均高度作为地面的初始高度H_init，设定距离阈值Δh₁，将所有高度满足z＜H_init+Δh₁的点视为地面点，根据当前地面点使用最小二乘法拟合出地面的平面方程；根据地面方程计算视锥下边界与视锥的交界位置，根据交界位置的坐标(x_inter，y_inter)及距离阈值d_inter筛除视锥点云中与交界位置相距较远，满足

的点，同时滤除属于地面的点；

模块M2.2：使用DBSCAN聚类对点云进行聚类，得到若干簇候选点云集合set₁，set₂，...，set_n，对第i个点云集合set_i与第j个点云集合set_j，计算两个点集之间的最远距离，若当前最远距离小于距离合并阈值dmer_ge，则将当前两个点集进行合并；将所有候选点集进行点集合并后，得到新的点云集合set₁，set₂，...，set_m；

模块M2.3：每个候选点集根据预设评分规则进行打分，选取得分最高的点集作为一阶段候选点；

所述预设评分规则包括：包含的点数越多分值越高、包含的地面背景点数越多分值越低、或，离地面与视锥下边界交点距离越近分值越高。

优选地，所述模块M3采用：

模块M3.1：从自动驾驶数据集的训练集中根据三维标签值得到各个类别真值点云，并计算各个类别三维大小的平均值(l_m，w_m，h_m)，之后将每个类别的点云真值的中心坐标规范至(0，0，0)、三维大小规范至平均值、朝向角规范至0°并将点集进行拼接，得到一个初步的模板点集；沿x轴对各个模板点集进行翻转增强，使各个类别的模板满足对称性，再使用VoxelGrid filter对模板进行下采样，得到滤波后的模板；设定K_θ个角度区间数，将-180°至180°区间等间隔划分为K_θ个角度值，之后根据角度值对模板进行旋转，得到带有朝向信息的K_θ个模板，以体素大小(x_grid，y_grid，z_grid)将当前模板进行体素化，得到每个类别的模板核，其维度大小为[K_θ，L_m，W_m，H_m]；

模块M3.2：以体素大小(x_{grid，ygrid，}z_grid)对候选一阶段点云进行体素化，得到大小[L_p，W_p，H_p]的三维张量；

模块M3.3：将模板核作用于输入的体素张量上，设置卷积步长为1，边缘填充方式为补零，得到一个大小为[K_θ，L_p，W_p，H_p]的匹配响应图，响应值高的位置代表当前位置的待匹配点云分布与模板的分布相似度大；

模块M3.4：获取响应图中的峰值位置得到当前峰值位置所对应的角度值θ_dt，以及三维坐标位置(x_dt，y_dt，z_dt)，输出为三维目标的检测结果(x_dt，y_dt，z_dt，l_m，w_m，h_m，θ_dt)。

优选地，所述模块M4采用：

模块M4.1：三维目标的检测结果(x_dt，y_dt，z_dt，l_m，w_m，h_m，θ_dt)通过相机外参转换至相机坐标系下得到相机坐标系下的检测结果(x_cam，y_cam，z_cam，l_cam，w_cam，h_cam，θ_cam)，根据三维检测框的定义计算得到相机坐标系下三维检测框的8个角点坐标：

将这些坐标标记为(m_i，n_i)，i的取值范围为1～8；

模块M4.2：输入投影后的像素坐标(m_i，n_i)，i＝1，...，8与二维检测结果(u₁，v₁，u₂，v₂)，构造高度方向上的误差函数：

模块M4.3：输入投影后的像素坐标(m_i，n_i)，i＝1，...，8与二维检测结果(u₁，v₁，u₂，v₂)，构造横向方向上的误差函数：

并输出最终的三维目标检测结果。

与现有技术相比，本发明具有如下的有益效果：

1、本发明不依赖于海量数据训练，可以降低数据收集、模型训练与模型推理的成本；

2、本发明具有较好的泛化性，几何约束为通用场景目标检测提供了泛化性的保证；

3、本发明没有复杂的深度网络，依赖于传统几何学方法，具有算法简单、运行速度快的优点。

4、本发明能够方便地部署于自动驾驶***中，并同时具备准确性、实时性与鲁棒性。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为视锥与几何约束相结合的多模态三维目标检测方法流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明具体涉及一种视锥与几何约束相结合的三维目标检测方法，可应用于自动驾驶***的感知模块中，属于计算机视觉中的目标检测问题。本发明的目的在于以一种高效的方式融合传感器捕获的激光雷达点云数据与相机图像数据，提出一种基于视锥与几何约束的三维目标检测方法。该方法能够方便地部署于自动驾驶***中，并同时具备准确性、实时性与鲁棒性。同时本发明具有算法简单、运算速度快、泛化能力强等优点，为三维目标检测提供了一种新的可靠的方法。

为了实现上述目的，本发明首先使用二维目标检测器得到图像中目标的检测结果，并根据激光雷达与相机之间的外参及相机内参，得到投影位于检测框内的视锥点云；之后对视锥内点云进行地面检测，并结合地面与视锥下边界交界处的位置对视锥内点云进行初步的过滤，再对过滤后的点云使用DBSCAN聚类得到各个候选点云簇，并设定距离阈值对点云簇进行合并，设定点云簇的评分标准，对每个点云簇进行打分，最终挑选分数最高的点云簇作为一阶段的结果；其次对一阶段结果点云进行体素化，并与已经提炼好的模板核(以卷积核的形式)进行模板匹配的卷积计算，得到匹配响应图，并挑选出响应图中的峰值位置，根据坐标关系反推出其对应的三维坐标位置与朝向；最后利用三维投影结果与二维检测结果一致性对三维检测结果中的高度以及横向进行修正，得到最终的三维检测结果。

实施例1

根据本发明提供的一种视锥与几何约束相结合的多模态三维目标检测方法，如图1所示，包括：

步骤S1：二维目标检测与视锥生成。该步骤的输入为时间戳上已对齐的相机图像数据与激光雷达点云数据，且传感器之间的外参和相机的内参已知，输出为二维目标检测结果与落于视锥内的点云。使用二维目标检测器在相机图像上生成二维的感知结果，得到图像中待检测目标(汽车、行人、骑手等)的二维边界框；根据传感器之间的外参以及相机内参，将激光雷达点云投影至图像平面上，将投影位于二维检测框内点云提取出，因二维检测框对应三维空间中一片锥形区域(称为视锥)，可得到一片锥形的点云数据。

步骤S2：聚类与目标点挑选。该步骤的输入为视锥内的点云数据，输出为目标所包含的点(下文称为一阶段结果)。首先使用地面检测算法先对视锥内的地面进行拟合，可以得到拟合的地面与视锥下边界的交界位置，从而筛出一些不属于目标的点云，实现视锥内的点云过滤；其次使用DBSCAN聚类对过滤后的点云进行聚类，得到若干个簇，并对于每一种类别的目标设定不同的距离阈值，进行聚类整合，将空间位置上距离近的几类点集进行合并；最后设定目标点选取规则，对每簇类计算得分，选取得分值最高的聚类点集作为该阶段的输出结果。

步骤S3：模板匹配与检测结果生成。该步骤的输入是一阶段结果，输出为目标的三维检测结果。首先根据真值得到各个类别目标的点云集合，生成各个类别的模板，并对模板进行体素化，得到点落于模板中每格体素的概率，其表现形式为三维卷积核；其次对一阶段结果进行体素化，得到每格体素内点云的数量；再次使用模板在体素化后的一阶段结果上进行卷积，得到匹配响应图；最后选取响应图的峰值位置，根据坐标对应关系，反推出峰值所对应位置的三维坐标及朝向，选取每个类别模板三维大小的平均值作为检测结果的平均值，输出三维检测结果。

步骤S4：基于重投影的后处理修正。该步骤的输入是三维检测结果与二维模板检测结果，输出为修正后的三维检测结果。将三维检测结果的8个角点投影至图像平面上，得到图像上的8个点，对这些点取最小外接矩形，根据该最小外接矩形与二维检测结果的一致性，构造关于目标三维高度、横向的误差函数，以误差函数最小化实现目标三维检测结果的修正，最终输出修正后的结果。

具体地，所述步骤S1采用：

步骤S1.1：使用成熟的二维目标检测器对输入的相机图像进行检测，得到待检测目标的二维检测结果，每个结果共包含6个数据(u₁，v₁，u₂，v₂，cls，conf)，其中(u₁，v₁，u₂，v₂)代表图像中二维检测框的左边界坐标u₁、上边界坐标v₁、右边界坐标u₂与下边界坐标v₂，cls代表目标的类别属性(如0代表行人、1代表骑手等)，conf代表该检测框的置信度(取值范围为0至1之间)。

具体地，所述步骤S2采用：

步骤S2.1：对激光雷达点云进行地面检测，得到位于地面上的点，并对视锥内点云进行筛选。首先对所有视锥内的点进行高度值从小到大的排序，选取前N_LPR个点的平均高度作为地面的初始高度H_init，设定距离阈值Δh₁，将所有高度满足z＜H_init+Δh₁的点视为地面点，根据这些点使用最小二乘法拟合出地面的平面方程。根据地面方程F_g(x，y，z)＝0及误差阈值Δh₂，将所有满足F_g(x，y，z)＜Δh₂的点视为地面点，根据这些点再使用最小二乘法拟合出新的地面方程，之后不断重复该过程直至收敛。根据地面方程可以算出视锥下边界与视锥的交界位置，根据交界位置的坐标(x_inter，y_inter)及距离阈值d_inter筛除视锥点云中与交界位置相距较远即

的点，同时滤除属于地面的点。

步骤S2.2：使用DBSCAN对点云进行聚类，得到若干簇候选点云集合set₁，set₂，...，set_n，对第i个点云集合set_i与第j个点云集合set_j，计算两个点集之间的最远距离，若该最远距离小于距离合并阈值dmer_ge，则将这两个点集进行合并。将所有候选点集进行点集合并后，得到新的点云集合set₁，set₂，...，set_m。

步骤S2.3：设定规则，每个候选点集进行打分，选取得分最高的点集作为一阶段候选点。评分规则包括：①包含的点数(越多分值越高)；②包含的地面背景点数(越多分值越低)；③离地面与视锥下边界交点距离(越近分值越高)。

具体地，所述步骤S3采用：

步骤S3.1：模板提炼与滤波。从自动驾驶数据集的训练集中根据三维标签值得到各个类别真值点云，并计算各个类别三维大小的平均值(l_m，w_m，h_m)，之后将每个类别的点云真值的中心坐标规范至(0，0，0)、三维大小规范至平均值、朝向角规范至0°并将点集进行拼接，得到一个初步的模板点集。之后，沿x轴对各个模板点集进行翻转增强，使各个类别的模板满足对称性，再使用V_ox_elGrid filt_er对模板进行下采样，得到滤波后的模板。设定K_θ个角度区间数，将-180°至180°区间等间隔划分为K_θ个角度值，之后根据这些角度值对模板进行旋转，得到带有朝向信息的K_θ个模板，以体素大小(x_grid，y_grid，z_grid)将这些模板进行体素化，得到每个类别的模板核，其维度大小为[Kθ，L_m，W_m，H_m]。

具体地，所述步骤S4采用：

步骤S4.1：三维目标的检测结果(x_dt，y_dt，z_dt，l_m，w_m，h_m，θ_dt)通过相机外参转换至相机坐标系下得到相机坐标系下的检测结果(x_cam，y_cam，z_cam，l_cam，w_cam，h_cam，θ_cam)，根据三维检测框的定义计算得到相机坐标系下三维检测框的8个角点坐标：

将这些坐标标记为(m_i，n_i)，i的取值范围为1～8；

并输出最终的三维目标检测结果。

模块M1：二维目标检测与视锥生成。该步骤的输入为时间戳上已对齐的相机图像数据与激光雷达点云数据，且传感器之间的外参和相机的内参已知，输出为二维目标检测结果与落于视锥内的点云。使用二维目标检测器在相机图像上生成二维的感知结果，得到图像中待检测目标(汽车、行人、骑手等)的二维边界框；根据传感器之间的外参以及相机内参，将激光雷达点云投影至图像平面上，将投影位于二维检测框内点云提取出，因二维检测框对应三维空间中一片锥形区域(称为视锥)，可得到一片锥形的点云数据。

模块M2：聚类与目标点挑选。该步骤的输入为视锥内的点云数据，输出为目标所包含的点(下文称为一阶段结果)。首先使用地面检测算法先对视锥内的地面进行拟合，可以得到拟合的地面与视锥下边界的交界位置，从而筛出一些不属于目标的点云，实现视锥内的点云过滤；其次使用DBSCAN聚类对过滤后的点云进行聚类，得到若干个簇，并对于每一种类别的目标设定不同的距离阈值，进行聚类整合，将空间位置上距离近的几类点集进行合并；最后设定目标点选取规则，对每簇类计算得分，选取得分值最高的聚类点集作为该阶段的输出结果。

模块M3：模板匹配与检测结果生成。该步骤的输入是一阶段结果，输出为目标的三维检测结果。首先根据真值得到各个类别目标的点云集合，生成各个类别的模板，并对模板进行体素化，得到点落于模板中每格体素的概率，其表现形式为三维卷积核；其次对一阶段结果进行体素化，得到每格体素内点云的数量；再次使用模板在体素化后的一阶段结果上进行卷积，得到匹配响应图；最后选取响应图的峰值位置，根据坐标对应关系，反推出峰值所对应位置的三维坐标及朝向，选取每个类别模板三维大小的平均值作为检测结果的平均值，输出三维检测结果。

模块M4：基于重投影的后处理修正。该步骤的输入是三维检测结果与二维模板检测结果，输出为修正后的三维检测结果。将三维检测结果的8个角点投影至图像平面上，得到图像上的8个点，对这些点取最小外接矩形，根据该最小外接矩形与二维检测结果的一致性，构造关于目标三维高度、横向的误差函数，以误差函数最小化实现目标三维检测结果的修正，最终输出修正后的结果。

具体地，所述模块M1采用：

模块M1.1：使用成熟的二维目标检测器对输入的相机图像进行检测，得到待检测目标的二维检测结果，每个结果共包含6个数据(u₁，v₁，u₂，v₂，cls，conf)，其中(u₁，v₁，u₂，v₂)代表图像中二维检测框的左边界坐标u₁、上边界坐标v₁、右边界坐标u₂与下边界坐标v₂，cls代表目标的类别属性(如0代表行人、1代表骑手等)，conf代表该检测框的置信度(取值范围为0至1之间)。

具体地，所述模块M2采用：

模块M2.1：对激光雷达点云进行地面检测，得到位于地面上的点，并对视锥内点云进行筛选。首先对所有视锥内的点进行高度值从小到大的排序，选取前N_LPR个点的平均高度作为地面的初始高度H_init，设定距离阈值Δh₁，将所有高度满足z＜H_init+Δh₁的点视为地面点，根据这些点使用最小二乘法拟合出地面的平面方程。根据地面方程F_g(x，y，z)＝0及误差阈值Δh₂，将所有满足F_g(x，_y，z)＜Δh₂的点视为地面点，根据这些点再使用最小二乘法拟合出新的地面方程，之后不断重复该过程直至收敛。根据地面方程可以算出视锥下边界与视锥的交界位置，根据交界位置的坐标(x_inter，y_inter)及距离阈值d_inter筛除视锥点云中与交界位置相距较远即

的点，同时滤除属于地面的点。

模块M2.2：使用DBSCAN对点云进行聚类，得到若干簇候选点云集合set₁，set₂，...，set_n，对第i个点云集合set_i与第j个点云集合set_j，计算两个点集之间的最远距离，若该最远距离小于距离合并阈值dmer_ge，则将这两个点集进行合并。将所有候选点集进行点集合并后，得到新的点云集合set₁，set₂，...，set_m。

模块M2.3：设定规则，每个候选点集进行打分，选取得分最高的点集作为一阶段候选点。评分规则包括：①包含的点数(越多分值越高)；②包含的地面背景点数(越多分值越低)；③离地面与视锥下边界交点距离(越近分值越高)。

具体地，所述模块M3采用：

模块M3.1：模板提炼与滤波。从自动驾驶数据集的训练集中根据三维标签值得到各个类别真值点云，并计算各个类别三维大小的平均值(l_m，w_m，h_m)，之后将每个类别的点云真值的中心坐标规范至(0，0，0)、三维大小规范至平均值、朝向角规范至0°并将点集进行拼接，得到一个初步的模板点集。之后，沿x轴对各个模板点集进行翻转增强，使各个类别的模板满足对称性，再使用VoxelGrid filter对模板进行下采样，得到滤波后的模板。设定K_θ个角度区间数，将-180°至180°区间等间隔划分为K_θ个角度值，之后根据这些角度值对模板进行旋转，得到带有朝向信息的K_θ个模板，以体素大小(x_grid，y_grid，z_grid)将这些模板进行体素化，得到每个类别的模板核，其维度大小为[K_θ，L_m，W_m，H_m]。

模块M3.2：以体素大小(x_grid，y_grid，z_grid)对候选一阶段点云进行体素化，得到大小[L_p，W_p，H_p]的三维张量；

模块M3.4：获取响应图中的峰值位置得到当前峰值位置所对应的角度值θ_dt，以及三维坐标位置(x_dt，y_at，z_dt)，输出为三维目标的检测结果(x_dt，y_at，z_dt，l_m，w_m，h_m，θ_dt)。

具体地，所述模块M4采用：

模块M4.1：三维目标的检测结果(x_dt，y_dt，z_dt，l_m，w_m，h_m，θ_at)通过相机外参转换至相机坐标系下得到相机坐标系下的检测结果(x_cam，y_cam，z_cam，l_cam，w_cam，h_cam，θ_cam)，根据三维检测框的定义计算得到相机坐标系下三维检测框的8个角点坐标：

再根据相机内参焦距及偏移量参数fu，fv，c_u，cv，得到8个角点在图像平面上的投影坐标，分别为：

将这些坐标标记为(m_i，n_i)，i的取值范围为1～8；

并输出最终的三维目标检测结果。

实施例2

实施例2是实施例1的优选例

在本发明的一个实施例中，所述方法的流程如图1所示，本实施例具体实施步骤如下：

步骤一：首先使用训练收敛的二维目标检测器yolov5，对输入的图像进行二维目标检测，得到图像上的二维检测结果，每个检测结果包含检测框的坐标、目标类别以及检测框置信度，共(u₁，v₁，u₂，v₂，cls，conf)六个量。之后，根据相机与激光雷达之间的外参，将激光雷达点云集合

转换至相机坐标系下得到该坐标系下的点云集合

之后根据相机的内参，将点云集合转换至像素坐标系下，得到

提取出像素坐标位于第i个检测框内的点，得到锥状的点云集合。

步骤二：使用地面检测算法得到地面点，并计算地面与视锥下边界的交点，设定距离阈值对视锥内点云进行过滤；使用DBSCAN算法对过滤后点云聚类，得到若干个簇类，并设置每个类别的评分规则，得到每个类别的分数，最终挑选分数高的聚类作为一阶段候选点。评分规则包括：①包含的点数(越多分值越高)；②包含的地面背景点数(越多分值越低)；③离地面与视锥下边界交点距离(越近分值越高)。

步骤三：模板匹配与结果生成。首先从自动驾驶数据集的训练集中根据三维标签值得到各个类别真值点云，对点集规范化后进行拼接并沿x轴进行翻转增强，得到一个初步的模板点集。之后使用VoxelGrid filter对模板进行下采样，得到滤波后的模板。设定72个角度区间数，将-180°至180°区间等间隔划分为72个角度值，之后根据这些角度值对模板进行旋转，得到带有朝向信息的72个模板，以体素大小(0.1，0.1，0.1)将这些模板进行体素化，得到每个类别的模板核module_conv。之后将一阶段候选点以体素大小(0.1，0.1，0.1)进行体素化，得到输入体素张量input_voxel。将模板核以卷积形式作用于体素张量上得到匹配响应图response_map＝conv(input_voxel，module_conv)，计算出相应图峰值位置x，y，z以及对应的角度θ，即可得到三维目标检测结果。

步骤四：重投影修正。根据三维目标检测结果，生成包括框的八个角点坐标

将这8个角点投影至图像平面上，得到像素坐标(u_i，v_i)，i＝1，...，8。根据这些像素坐标与二维检测结果(u₁，v₁，u₂，v₂)，构造高度方向与横向方向上的误差函数分别为：

使用梯度下降法对其进行优化得到修正后的高度值

与修正后的横向值

并输出最终的三维目标检测结果。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的***、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的***、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的***、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种视锥与几何约束相结合的多模态三维目标检测方法，其特征在于，包括：

步骤S1：使用二维目标检测器在相机图像上生成二维的感知结果，得到图像中待检测目标的二维边界框；根据传感器之间的外参以及相机内参，将激光雷达点云投影至图像平面上，提取投影至二维边界框内的点云,得到相应的视锥内点云；

2.根据权利要求1所述的视锥与几何约束相结合的多模态三维目标检测方法，其特征在于，所述步骤S1采用：

步骤S1.1：使用二维目标检测器对相机图像进行检测得到待检测目标的二维检测结果(u₁,v₁,u₂,v₂,cls,conf)，其中，(u₁,v₁,u₂,v₂)表示图像中二维检测框的左边界坐标u₁、上边界坐标v₁、右边界坐标u₂与下边界坐标v₂，cls表示目标的类别属性；conf表示检测框的置信度；

3.根据权利要求1所述的视锥与几何约束相结合的多模态三维目标检测方法，其特征在于，所述步骤S2采用：

步骤S2.1：对所有视锥内点云进行高度值从小到大的排序，选取前N_LPR个点的平均高度作为地面的初始高度H_init，设定距离阈值Δh₁，将所有高度满足z<H_init+Δh₁的点视为地面点，根据当前地面点使用最小二乘法拟合出地面的平面方程；根据地面方程计算视锥下边界与视锥的交界位置，根据交界位置的坐标(x_inter,y_inter)及距离阈值d_inter筛除视锥点云中与交界位置相距较远，满足

的点，同时滤除属于地面的点；

步骤S2.2：使用DBSCAN聚类对点云进行聚类，得到若干簇候选点云集合set₁,set₂,...,set_n，对第i个点云集合set_i与第j个点云集合set_j，计算两个点集之间的最远距离，若当前最远距离小于距离合并阈值d_merge，则将当前两个点集进行合并；将所有候选点集进行点集合并后，得到新的点云集合set₁,set₂,...,set_m；

4.根据权利要求1所述的视锥与几何约束相结合的多模态三维目标检测方法，其特征在于，所述步骤S3采用：

步骤S3.1：从自动驾驶数据集的训练集中根据三维标签值得到各个类别真值点云，并计算各个类别三维大小的平均值(l_m,w_m,h_m)，将每个类别的点云真值的中心坐标规范至(0,0,0)、三维大小规范至平均值、朝向角规范至0°并将点集进行拼接，得到一个初步的模板点集；沿x轴对各个模板点集进行翻转增强，使各个类别的模板满足对称性，再使用VoxelGridfilter对模板进行下采样，得到滤波后的模板；设定K_θ个角度区间数，将-180°至180°区间等间隔划分为K_θ个角度值，之后根据角度值对模板进行旋转，得到带有朝向信息的K_θ个模板，以体素大小(x_grid,y_grid,z_grid)将当前模板进行体素化，得到每个类别的模板核，其维度大小为[K_θ,L_m,W_m,H_m]；

步骤S3.2：以体素大小(x_grid,y_grid，z_grid)对候选一阶段点云进行体素化，得到大小[L_p,W_p，H_p]的三维张量；

步骤S3.3：将模板核作用于输入的体素张量上，设置卷积步长为1，边缘填充方式为补零，得到一个大小为[K_θ,L_p,W_p,H_p]的匹配响应图，响应值高的位置代表当前位置的待匹配点云分布与模板的分布相似度大；

步骤S3.4：获取响应图中的峰值位置得到当前峰值位置所对应的角度值θ_dt，以及三维坐标位置(x_dt,y_dt,z_dt)，输出为三维目标的检测结果(x_dt,y_dt,z_dt,l_m,w_m,h_m,θ_dt)。

5.根据权利要求1所述的视锥与几何约束相结合的多模态三维目标检测方法，其特征在于，所述步骤S4采用：

步骤S4.1：三维目标的检测结果(x_dt,y_dt,z_dt,l_m,w_m,h_m,θ_dt)通过相机外参转换至相机坐标系下得到相机坐标系下的检测结果(x_cam,y_cam,z_cam,l_cam,w_cam,h_cam,θ_cam)，根据三维检测框的定义计算得到相机坐标系下三维检测框的8个角点坐标：

再根据相机内参焦距及偏移量参数f_u,f_v,c_u,c_v，得到8个角点在图像平面上的投影坐标，分别为：

将这些坐标标记为(m_i,n_i)，i的取值范围为1～8；

步骤S4.2：输入投影后的像素坐标(m_i,n_i),i＝1,...,8与二维检测结果(u₁,v₁,u₂,v₂)，构造高度方向上的误差函数：

步骤S4.3：输入投影后的像素坐标(m_i,n_i),i＝1,...,8与二维检测结果(u₁,v₁,u₂,v₂)，构造横向方向上的误差函数：

并输出最终的三维目标检测结果。

6.一种视锥与几何约束相结合的多模态三维目标检测***，其特征在于，包括：

模块M1：使用二维目标检测器在相机图像上生成二维的感知结果，得到图像中待检测目标的二维边界框；根据传感器之间的外参以及相机内参，将激光雷达点云投影至图像平面上，提取投影至二维边界框内的点云,得到相应的视锥内点云；

7.根据权利要求6所述的视锥与几何约束相结合的多模态三维目标检测***，其特征在于，所述模块M1采用：

模块M1.1：使用二维目标检测器对相机图像进行检测得到待检测目标的二维检测结果(u₁,v₁,u₂,v₂,cls,conf)，其中，(u₁,v₁,u₂,v₂)表示图像中二维检测框的左边界坐标u₁、上边界坐标v₁、右边界坐标u₂与下边界坐标v₂，cls表示目标的类别属性；conf表示检测框的置信度；

8.根据权利要求6所述的视锥与几何约束相结合的多模态三维目标检测***，其特征在于，所述模块M2采用：

模块M2.1：对所有视锥内点云进行高度值从小到大的排序，选取前N_LPR个点的平均高度作为地面的初始高度H_init，设定距离阈值Δh₁，将所有高度满足z<H_init+Δh₁的点视为地面点，根据当前地面点使用最小二乘法拟合出地面的平面方程；根据地面方程计算视锥下边界与视锥的交界位置，根据交界位置的坐标(x_inter,y_inter)及距离阈值d_inter筛除视锥点云中与交界位置相距较远，满足

的点，同时滤除属于地面的点；

模块M2.2：使用DBSCAN聚类对点云进行聚类，得到若干簇候选点云集合set₁,set₂,...,set_n，对第i个点云集合set_i与第j个点云集合set_j，计算两个点集之间的最远距离，若当前最远距离小于距离合并阈值d_merge，则将当前两个点集进行合并；将所有候选点集进行点集合并后，得到新的点云集合set₁,set₂,...,set_m；

9.根据权利要求6所述的视锥与几何约束相结合的多模态三维目标检测***，其特征在于，所述模块M3采用：

模块M3.1：从自动驾驶数据集的训练集中根据三维标签值得到各个类别真值点云，并计算各个类别三维大小的平均值(l_m,w_m,h_m)，之后将每个类别的点云真值的中心坐标规范至(0,0,0)、三维大小规范至平均值、朝向角规范至0°并将点集进行拼接，得到一个初步的模板点集；沿x轴对各个模板点集进行翻转增强，使各个类别的模板满足对称性，再使用VoxelGrid filter对模板进行下采样，得到滤波后的模板；设定K_θ个角度区间数，将-180°至180°区间等间隔划分为K_θ个角度值，之后根据角度值对模板进行旋转，得到带有朝向信息的K_θ个模板，以体素大小(x_grid,y_grid,z_grid)将当前模板进行体素化，得到每个类别的模板核，其维度大小为[K_θ,L_m,W_m,H_m]；

模块M3.2：以体素大小(x_grid,y_grid,z_grid)对候选一阶段点云进行体素化，得到大小[L_p,W_p,H_p]的三维张量；

模块M3.3：将模板核作用于输入的体素张量上，设置卷积步长为1，边缘填充方式为补零，得到一个大小为[K_θ,L_p,W_p,H_p]的匹配响应图，响应值高的位置代表当前位置的待匹配点云分布与模板的分布相似度大；

模块M3.4：获取响应图中的峰值位置得到当前峰值位置所对应的角度值θ_dt，以及三维坐标位置(x_dt,y_dt,z_dt)，输出为三维目标的检测结果(x_dt,y_dt,z_dt,l_m,w_m,h_m,θ_dt)。

10.根据权利要求6所述的视锥与几何约束相结合的多模态三维目标检测***，其特征在于，所述模块M4采用：

模块M4.1：三维目标的检测结果(x_dt,y_dt,z_dt,l_m,w_m,h_m,θ_dt)通过相机外参转换至相机坐标系下得到相机坐标系下的检测结果(x_cam,y_cam,z_cam,l_cam,w_cam,h_cam,θ_cam)，根据三维检测框的定义计算得到相机坐标系下三维检测框的8个角点坐标：