CN113935428A

CN113935428A - 基于图像识别的三维点云聚类识别方法及***

Info

Publication number: CN113935428A
Application number: CN202111240857.7A
Authority: CN
Inventors: 周军; 林乐彬; 欧金顺; 李留昭; 皇攀凌; 赵一凡; 孟广辉
Original assignee: Shandong University; Shandong Alesmart Intelligent Technology Co Ltd
Current assignee: Shandong University; Shandong Alesmart Intelligent Technology Co Ltd
Priority date: 2021-10-25
Filing date: 2021-10-25
Publication date: 2022-01-14

Abstract

本公开提供了一种基于图像识别的三维点云聚类识别方法及***，包括获取待识别区域的图像数据及其对应的点云数据；对所述图像数据及点云数据进行预处理；基于所述图像数据及预先训练的深度学习模型，进行目标实例的识别；获取目标实例的深度数据，基于所述深度数据确定目标实例在点云中的投影位置；在所述投影位置，基于聚类算法对所述点云数据进行可视化分割，获得聚类识别结果。所述方案通过将光学传感器和激光雷达相融合，利用光学传感器易于获取数据的特点，采用基于深度学习的视觉识别和深度定位的方案来实现三维点云的聚类识别，提高了聚类识别的准确性及稳定性。

Description

基于图像识别的三维点云聚类识别方法及***

技术领域

本公开属于多传感器融合的目标识别技术领域，尤其涉及一种基于图像识别的三维点云聚类识别方法及***。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

随着高精度传感器技术和计算机视觉技术的快速发展，基于图像的目标检测识别日趋成熟。然而在诸如自动驾驶和机器人部署上的实际应用领域，由于点云更加接近物体的原始表征并且仅从图像中获取2D信息有较大的局限性，人们更加关心三维地图中的点云的语义信息以及位置坐标，因此对三维点云进行识别聚类变得十分有必要。

点云聚类是将原始点云群根据一定的特征分割成一系列点云簇，传统的点云聚类方法有基于划分的K-means算法、模糊c-均值算法，基于密度的DBSCAN算法、OPTICS算法，基于距离的欧式聚类方法等。发明人发现，传统聚类方法运行速度快，可用于处理较大数据量，但缺乏点云的语义信息，对于不同的环境要设定不同的阈值，且不能保证相同的效果，通用性较差。在三维深度学习领域，点云的聚类方法主要有PointNet，PointNet++，VoxelNet等。但是这些方法需要提前获得大量数据进行训练，但点云数据的获取及数据集的制作比较困难，检测准确度有限；因此基于深度学习的点云聚类方法应用并不广泛。

发明内容

本公开为了解决上述问题，提供了一种基于图像识别的三维点云聚类识别方法及***，所述方案通过将光学传感器和激光雷达相融合，利用光学传感器易于获取数据的特点，采用基于深度学习的视觉识别和深度定位的方案来实现三维点云的聚类识别，提高了聚类识别的准确性及稳定性。

根据本公开实施例的第一个方面，提供了一种基于图像识别的三维点云聚类识别方法，包括：

获取待识别区域的图像数据及其对应的点云数据；

对所述图像数据及点云数据进行预处理；

基于所述图像数据及预先训练的深度学习模型，进行目标实例的识别；

获取目标实例的深度数据，基于所述深度数据确定目标实例在点云中的投影位置；

在所述投影位置，基于聚类算法对所述点云数据进行可视化分割，获得聚类识别结果。

进一步的，所述获取待识别区域的图像及其对应的点云数据，采用具有特定相对位置的激光雷达和双目相机。

进一步的，所述预先训练的深度学习模型，采用YOLACT网络模型，其训练过程为：获取双目相机的单目图像数据，并对所述单目图像数据进行目标实例标注，形成训练集；利用所述训练集对深度学习模型进行训练，利用训练好的深度学习模型进行目标实例的识别。

进一步的，所述投影位置的确定，具体为：基于目标实例的深度数据确定目标实例相对于采集装置的位置信息，基于所述位置信息确定目标实例投影到点云数据中的位置。

进一步的，利用深度学习模型对目标实例的识别结果包括目标实例在图像中的位置信息以及语义信息。

根据本公开实施例的第二个方面，提供了一种基于图像识别的三维点云聚类识别***，包括：

数据获取单元，其用于获取待识别区域的图像数据及其对应的点云数据；

预处理单元，其用于对所述图像数据及点云数据进行预处理；

目标实例识别单元，其用于基于所述图像数据及预先训练的深度学习模型，进行目标实例的识别；

投影位置确定单元，其用于获取目标实例的深度数据，基于所述深度数据确定目标实例在点云中的投影位置；

聚类识别单元，其用于在所述投影位置，基于聚类算法对所述点云数据进行可视化分割，获得聚类识别结果。

根据本公开实施例的第三个方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上运行的计算机程序，所述处理器执行所述程序时实现一种基于图像识别的三维点云聚类识别方法。

根据本公开实施例的第四个方面，提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现一种基于图像识别的三维点云聚类识别方法。

与现有技术相比，本公开的有益效果是：

(1)本公开提供了一种基于图像识别的三维点云聚类识别方法及***，所述方案通过将光学传感器和激光雷达相融合，利用光学传感器易于获取数据的特点，采用基于深度学习的视觉识别和深度定位的方案来实现三维点云的聚类识别，提高了聚类识别的准确性及稳定性。

(2)所述方案综合利用了相机和激光雷达来对实例的三维点云进行聚类，相较于直接处理点云的聚类方法显著减少了计算量，识别部分调用了YOLACT(You Only LookAtCoefficients)网络，聚类时采用了KD-Tree结构，显著提高了实时性能。

(3)所述方案中通过仅处理相机视野方位内的点云，并仅对在图像中识别出来的目标实例进行聚类，相较于传统聚类方法提升了聚类准确性，给出了传统聚类方式没有的语义信息；

(4)所述方案使用DBSCAN(Density-Based Spatial Clustering ofApplicationswithNoise)方法在特定位置进行点云聚类，无需指定聚类的形状，提高了抵抗噪声的能力，该方法在复杂的场景下有较好的鲁棒性。

本公开附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开实施例一中所述的基于图像识别的三维点云聚类识别方法的总体流程图。

图2为本公开实施例一中所述的双目相机对目标实例进行测距的流程图。

图3为本公开实施例一中所述的目标实例现实中的位置从相机到雷达点云转换关系图。

图4为本公开实施例一中所述的激光雷达与双目相机布局示意图。

其中，1、顶部散热片；2、激光雷达；3、底部散热片；4、双目相机；5、固定支架。

具体实施方式

下面结合附图与实施例对本公开做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

实施例一：

本实施例的目的是提供一种基于图像识别的三维点云聚类识别方法。

一种基于图像识别的三维点云聚类识别方法，包括：

获取待识别区域的图像数据及其对应的点云数据；

对所述图像数据及点云数据进行预处理；

进一步的，所述获取待识别区域的图像及其对应的点云数据，采用具有特定相对位置的激光雷达和双目相机。具体的，将激光雷达、双目相机以一定相对位置固定，使其具有固定的相对位姿。其中，激光雷达要求选用多线激光雷达，双目相机要求能够采集RGB图像。对双目相机进行标定，获得相机的内参和畸变系数；对双目相机和激光雷达进行联合标定，获得激光雷达和双目相机的初始外参。

进一步的，所述预先训练的深度学习模型，采用网络模型，其训练过程为：获取双目相机的单目图像数据，并对所述单目图像数据进行目标实例标注，形成训练集；利用所述训练集对深度学习模型进行训练，利用训练好的深度学习模型进行目标实例的识别。具体的，使用双目相机其中左目(或右目)图像数据来进行目标实例识别，标定好的传感器之间构成一套数据采集***。获得足够多要进行点云聚类的实例的图像，根据COCO数据集的形式标注数据集，使用YOLACT网络训练要识别实例的图像，得到训练模型。

具体的，为了便于理解，以下结合附图及具体实例对本公开所述方案进行详细说明：

本公开基于光学传感器来获得外界图像信息，使用激光雷达来获取点云信息。光学传感器有体积小、部署方便、成本低等优点，激光雷达有高分辨率、抗干扰能力强、不受光线影响的优点。将激光雷达和光学传感器相融合来进行目标检测，提出一种基于图像识别的三维点云聚类识别方法，包括准备工作及识别过程，其中，所述准备工作如下：

将激光雷达、双目相机以一定相对位置固定，使其具有固定的相对位姿。用黑白棋盘格板对双目相机进行标定，获得相机的左右内参矩阵K_l、K_r，畸变系数(k₁，k₂，p₁，p₂，k₃)_L、(k₁，k₂，p₁，p₂，k₃)_R，焦距f；对双目相机和激光雷达进行联合标定，获得激光雷达相对于双目相机左右目的外参矩阵，分别记为

使用双目相机其中左目(或右目)图像数据来进行实例识别，标定好的传感器之间构成一套数据采集装置；使用YOLACT网络训练要识别实例的图像，得到训练好的模型权重。

所述识别过程主要包括：

步骤(1)：得到双目相机中其中单目摄像头采集的图像数据，根据事先标定好的相机内参和畸变系数、畸变模型进行去畸变处理得到矫正后的图像。

具体的，得到双目相机中其中一目摄像头采集的图像数据，根据事先标定好的相机内参和畸变系数、畸变模型进行去畸变处理得到矫正后的图像：去畸变签的图像数据由(u，v)表示，去畸变后的图像数据由(u′，v′)表示，则由畸变模型可以得到去畸变后的图像，具体公式如下：

步骤(2)：得到激光雷达的原始点云数据，为了减少计算量，对点云进行几何约束，仅保留相机的视野范围内的点云，并利用RANSAC分割方法去除地面点得到滤波后的点云。

具体的，得到激光雷达的原始点云数据，为了减少计算量，仅保留相机的视野范围内的点云：激光雷达坐标系下的点云表示为P_L，则该点在相机坐标系下可表示为

在图像中的位置为

通过判断(x_u，y_v)是否在图像范围(u′，v′)中即可知道点是否在相机视野内。

根据激光雷达安装高度初步筛选掉地面点云，然后利用RANSAC算法去除地面点：设定置信度P，迭代次数k，距离阈值d，从初步筛选后的点云中随机选取三个点p₁(x₁，y₁，z₁)，p₂(x₂，y₂，z₂)，p₃(x₃，y₃，z₃)，计算出一个平面模型Ax+By+Cz+D＝0，任取一点p(x，y，z)到该平面距离

时认为该点在平面内，遍历所有点，所有点中在平面内的点概率可表示为P′，更新迭代次数k＝log_1-P(1-P′³)，所有平面中含有最多点的平面认为是地面点，当迭代次数大于k时退出，得到滤波后的点云。

步骤(3)：将矫正后的图像输入到训练好的YOLACT网络中，导入训练好的模型权重，通过语义分割，获得分割实例；同时，为了保证实时性，在图像处理时部署显卡加速，并将检测出的目标的语义信息和2D检测框显示在图像上。

步骤(4)：将要检测的目标实例传入到深度检测程序中，通过多帧图像求得平均值，得到目标实例的平均深度，由此得到目标实例相对于采集***的相对位置，并将相对距离显示到带有检测框的图像上。

具体的，将要检测的目标实例图像的像素位置传入到深度计算程序中：调用底层驱动程序得到对于其中一个分割后的实例，对其进行标注得到一个索引值。计算分割出的该实例区域的每个像素的深度，求和后取平均值。根据索引值连续计算多帧图像求出该分割实例的深度，求得平均值，得到分割实例的平均深度，由此得到目标实例中心点在相机坐标系下的位置坐标记为P_C＝(x_C，y_C，z_C)，并将相对距离显示到带有检测框的图像上。

步骤(5)：将目标实例位置投影到点云中，在该位置用DBSCAN聚类的方法对点云聚类，形成3D检测框，并将识别出的语义信息显示在3D检测框中，输出聚类结果。

具体的，将目标实例位置投影到点云中。图像识别出的实例在激光雷达坐标系下的位置可由

得出。在该位置利用基于密度的DBSCAN方法对点云进行可视化分割：

为提升处理速度，在P_L处采用基于KD-Tree的近邻查询算法：设定距离阈值d_max。点云为三维数据，分别将n个点在x，y，z方向上的值从小到大排列，得到集合{K₁，K₂，...，K_n}_x，{K₁，K₂，...，K_n}_y，{K₁，K₂，...，K_n}_z，以x方向为例，划分阈值m可由下式求得：

由P_L开始，从KD-Tree的根节点开始比较，对于P_L＝(x，y，z)，x＜m时访问左子树，否则访问右子树，直到到达叶子节点，此时叶子节点为当前最近邻点，其与P_L的距离为d_min，访问所有搜索路径，在此过程中发现到P_L距离小于d_min的节点则更新为最近邻点，直到经过所有路径。通过KD-Tree找到k个离P_L最近的点，在这些点中采用DBSCAN密度聚类，设置一个聚类最少点数MinPts，对这k个点遍历，若某点在半径Eps的范围内点数多于MinPts则认为是核心点，新建聚类并将所有邻域点加入聚类，同时对于邻域点中的核心点，递归地把其邻域点加入聚类。直到无点可加入聚类中，退出聚类过程。形成点云的3D预选框，并将步骤(3)识别出的语义信息标注在3D预选框中，输出聚类结果。

实施例二：

本实施例的目的是提供了一种基于图像识别的三维点云聚类识别***。

一种基于图像识别的三维点云聚类识别***，包括：

聚类识别单元，其用于基于聚类算法对所述点云数据进行可视化分割，获得聚类识别结果。

在更多实施例中，还提供：

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例一中所述的方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一中所述的方法。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

上述实施例提供的一种基于图像识别的三维点云聚类识别方法及***可以实现，具有广阔的应用前景。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于图像识别的三维点云聚类识别方法，其特征在于，包括：

获取待识别区域的图像数据及其对应的点云数据；

对所述图像数据及点云数据进行预处理；

2.如权利要求1所述的一种基于图像识别的三维点云聚类识别方法，其特征在于，所述获取待识别区域的图像及其对应的点云数据，采用具有特定相对位置的激光雷达和双目相机。

3.如权利要求1所述的一种基于图像识别的三维点云聚类识别方法，其特征在于，所述预处理包括对获得的图像数据进行去畸变处理得到矫正后的图像；对所述点云数据进行RANSAC分割方法去除地面点得到滤波后的点云数据。

4.如权利要求1所述的一种基于图像识别的三维点云聚类识别方法，其特征在于，所述预先训练的深度学习模型，采用YOLACT网络模型，其训练过程为：获取双目相机的单目图像数据，并对所述单目图像数据进行目标实例标注，形成训练集；利用所述训练集对深度学习模型进行训练，利用训练好的深度学习模型进行目标实例的识别。

5.如权利要求1所述的一种基于图像识别的三维点云聚类识别方法，其特征在于，所述目标实例的深度数据的获取，基于目标实例的深度检测方法，并对多帧图像的深度取均值，获得目标实例的平均深度。

6.如权利要求1所述的一种基于图像识别的三维点云聚类识别方法，其特征在于，所述投影位置的确定，具体为：基于目标实例的深度数据确定目标实例相对于采集装置的位置信息，基于所述位置信息确定目标实例投影到点云数据中的位置。

7.如权利要求1所述的一种基于图像识别的三维点云聚类识别方法，其特征在于，利用深度学习模型对目标实例的识别结果包括目标实例在图像中的位置信息以及语义信息。

8.一种基于图像识别的三维点云聚类识别***，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述的一种基于图像识别的三维点云聚类识别方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的一种基于图像识别的三维点云聚类识别方法。