CN114882224A

CN114882224A - 模型结构、模型训练方法、单体化方法、设备及介质

Info

Publication number: CN114882224A
Application number: CN202210629730.2A
Authority: CN
Inventors: 谭可成; 刘昊; 何维; 刘承照; 许强红
Original assignee: PowerChina Zhongnan Engineering Corp Ltd
Current assignee: PowerChina Zhongnan Engineering Corp Ltd
Priority date: 2022-06-06
Filing date: 2022-06-06
Publication date: 2022-08-09
Anticipated expiration: 2042-06-06
Also published as: CN114882224B

Abstract

本发明公开了一种模型结构、模型训练方法、单体化方法、设备及介质，该模型训练方法包括获取大场景地物的原始三维点云数据；将所述原始三维点云数据制作成标准样本格式文件；对所述标准样本格式文件中的点云样本进行预处理，生成PKL格式样本文件；构建大场景地物单体化模型，所述大场景地物单体化模型包括编码模块、骨干网络、目标生成模块、特征融合模块、Point‑RoIAlign模块和实例预测网络；利用所述PKL格式样本文件中的点云样本对所述大场景地物单体化模型进行训练，得到训练好的大场景地物单体化模型。本发明通过最小化匹配代价函数来实现单个地物的预测，并通过point mask预测来实现最终的地物分割，有效消除了聚类等传统处理手段的缺陷。

Description

模型结构、模型训练方法、单体化方法、设备及介质

技术领域

本发明属于计算机视觉领域，尤其涉及一种模型的结构、大场景地物单体化模型训练方法、大场景地物单体化方法、电子设备及计算机可读存储介质。

背景技术

倾斜摄影的三维建模因其高效率、高真实感、低生产成本的优势，已成为大规模大场景三维重建的重要手段，但因其数据结构的限制，倾斜摄影三维模型无法做到对单个地物的单独选取，降低了模型数据的价值和实用性。以征地移民为例，对房屋、农田、林地等面积的统计等，现阶段主要依靠大量实地调研人员通过现场走访和测量进行实测，或者通过卫星图像进行人工勾勒，统计数据极为困难。因此，倾斜摄影单体化技术是倾斜摄影技术亟需突破的瓶颈。

基于遥感影像进行地物识别的方式，存在房屋仅能提取屋檐顶部面积、水泥屋顶和水泥地面难以区分、树木遮挡房顶等问题；且二维图像只含有RGB颜色信息，在使用时无法与三维模型进行联动。

三维点云相比二维影像具有更加丰富的空间结构信息，在倾斜摄影单体化过程中对于局部细节特征的获取更有优势。随着深度学习在三维点云领域的应用兴起，基于点云数据的单体化成为新的解决思路。

申请公布号为CN113822914A，名称为倾斜摄影测量模型单体化方法、计算机装置及产品、介质的专利文献中，采用聚类实现三维点云大场景地物单体化，但事实上，直接将一个点云聚类成多个实例对象是一项非常困难的工作，其原因如下：

(1)一个点云通常包含大量的点，导致聚类效率极其缓慢；

(2)不同的3D场景中实例数量通常变化很大，聚类算法无法自适应调整参数；

(3)实例规模差异显著，同类地物中有些尺寸非常小，有些体量巨大，导致聚类算法难以完整性的提取实例；

(4)每个点都只有一个非常弱的特征，即3D坐标和颜色；导致点和实例定义之间的语义差距十分巨大。

因此，该单体化方法针对大场景地物分割通常容易出现过分割或欠分割现象，其技术路线过于理想化难以实现应用。

发明内容

本发明的目的在于提供一种模型结构、模型训练方法、单体化方法、设备及介质，以解决三维点云大场景下小目标地物难以单体化分割的问题，以及聚类算法实现大场景下地物单体化效率低、精度差的问题。

本发明是通过如下的技术方案来解决上述技术问题的：一种模型的结构，包括：

编码模块，用于将PKL格式的大场景地物点云编码成输入向量；

骨干网络，用于对所述输入向量进行特征提取，得到第一特征向量；

目标生成模块，用于对所述第一特征向量进行特征提取，得到全局特征向量，对所述全局特征向量进行特征提取，得到第二特征向量；对所述第二特征向量进行计算，得到第三特征向量，对所述第三特征向量中每个元素进行归一化处理，得到每个候选框的置信度分数；对所述第二特征向量进行计算，得到第五特征向量，其中所述第五特征向量的每(1,6)维表示候选框的最大坐标点和最小坐标点；将候选框的最大坐标点、最小坐标点以及对应的置信度分数进行拼接得到候选框的参数向量；

特征融合模块，用于对所述第一特征向量进行特征提取，得到第六特征向量；对所述第六特征向量与所述全局特征向量进行拼接、特征提取，得到第八特征向量；

Point-RoIAlign模块，用于对所述候选框的参数向量和第八特征向量进行坐标映射处理，得到每个候选框对应的点云集合；

实例预测网络，用于根据所述Point-RoIAlign模块输出的每个候选框的点云集合输出单个地物的预测点云集合。

进一步地，所述骨干网络采用RandLA-Net结构。

进一步地，所述目标生成模块包括第一特征提取层、第二特征提取层、预测分支、回归分支以及拼接层；

所述第一特征提取层包括1个MLP层，第一特征提取层利用1个MLP层对所述第一特征向量进行特征提取，得到全局特征向量；

所述第二特征提取层包括2个MLP层，第二特征提取层利用2个MLP层对所述全局特征向量进行特征提取，得到第二特征向量；

所述预测分支包括第一全连接层和第一激活层，通过所述第一全连接层对所述第二特征向量进行计算，得到第三特征向量，通过所述第一激活层对所述第三特征向量中每个元素进行归一化处理，得到每个候选框的置信度分数；

所述回归分支包括第二全连接层，通过所述第二全连接层对所述第二特征向量进行计算，得到第五特征向量；

所述拼接层，用于将候选框的最大坐标点、最小坐标点以及对应的置信度分数进行拼接得到候选框的参数向量。

进一步地，所述特征融合模块包括第三特征提取层、拼接层和第四特征提取层；

所述第三特征提取层包括2个MLP层，第三特征提取层利用1个MLP层对所述第一特征向量进行特征提取，得到点特征向量，再利用另1个MLP层对所述点特征向量进行特征提取，得到第六特征向量；

所述拼接层，用于对所述第六特征向量与所述全局特征向量进行拼接，得到第七特征向量；

第四特征提取层包括2个MLP层，第四特征提取层利用2个MLP层对所述第七特征向量进行深度特征提取，得到第八特征向量。

进一步地，所述实例预测网络包括第五特征提取层、Mask预测分支和实例输出层；

所述第五特征提取层采用PointNet网络结构，利用PointNet网络结构对所述Point-RoIAlign模块输出的候选框的点云集合进行特征提取，得到第九特征向量；

所述Mask预测分支包括MLPs层和第二激活层，通过MLPs层和第二激活层对所述第九特征向量进行计算，得到地物的预测mask；

所述实例输出层，用于利用预测mask剔除所述第九特征向量中的噪声点，得到第十特征向量；通过MLPs层和第三激活层对所述第十特征向量进行计算得到每个地物的置信度分数，选择置信度分数最高的类别作为地物的预测类别，并输出不同类别地物的预测点云集合。

本发明还提供一种大场景地物单体化模型训练方法，包括以下步骤：

获取大场景地物的原始三维点云数据；

将所述原始三维点云数据制作成标准样本格式文件；

对所述标准样本格式文件中的点云样本进行预处理，生成PKL格式样本文件；

构建大场景地物单体化模型，所述大场景地物单体化模型包括：

实例预测网络，用于根据所述Point-RoIAlign模块输出的每个候选框的点云集合输出单个地物的预测点云集合；

利用所述PKL格式样本文件中的点云样本对所述大场景地物单体化模型进行训练，得到训练好的大场景地物单体化模型。

进一步地，将所述原始三维点云数据制作成标准样本格式文件的具体实现过程为：

将所述原始三维点云数据导入CloudCompare软件中，利用CloudCompare软件的裁剪功能手动分割出每个真实地物；

对每个所述真实地物标注分类标签mask，将所有带分类标签mask的真实地物合并，并导出txt格式点云文件；

将所述txt格式点云文件转换成Senmantic3d数据集格式，得到所述标准样本格式文件。

进一步地，对所述标准样本格式文件的点云样本进行预处理的具体实现过程为：

对所述标准样本格式文件中的点云样本进行网格采样；

对采样后的样本数据进行归一化处理，并利用Kd树算法对归一化处理后的样本数据建立数据索引结构，生成PKL格式样本文件。

进一步地，对所述大场景地物单体化模型进行训练的具体实现过程为：

构建目标函数，求解最优匹配索引矩阵，所述目标函数的具体表达式为：

其中，A为最优分配索引矩阵，H为候选框的数量，T为真实地物的边界框的数量，A_ij为第i个候选框与第j个边界框的匹配系数，当A_ij＝1时，表示第i个候选框与第j个边界框关联，当A_ij＝0时，表示第i个候选框与第j个边界框不关联，C_ij为将第i个候选分配给第j个边界框的关联代价；

根据所述最优匹配索引矩阵为每个边界框寻找对应的候选框，得到与每个所述边界框匹配的T个候选框；

通过损失函数对T个候选框进行参数优化，使每个候选框的坐标值逼近与其匹配的边界框的坐标值，所述损失函数表达式为：

其中，C_tt为将第t个候选分配给第t个边界框的关联代价；

对T个候选框的置信度分数进行优化，使T个候选框的置信度分数逼近1，剩下的H-T个候选框的置信度分数置为0，其中置信度分数优化函数的表达式为：

其中，

为分配给第个候选框的置信度分数；

根据实例预测网络计算得到的预测mask与分类标签mask对预测mask进行训练，得到训练后的mask；其中，预测mask训练损失函数表达式为：

其中，N_ins为地物实例数，N_i为第i个地物实例的点数，iou_i为第i个地物实例的交并比，L_mask为mask的损失值，y_j为地物实例中点的标签，正标签为1，负标签为0，

为地物实例中点预测为正标签的概率；sign()为符号函数，当iou_i＞0.5时，sign(iou_i＞0.5)＝1；当iou_i≤0.5时，sign(iou_i＞0.5)＝0；

利用训练后的mask剔除噪声点，再计算地物的置信度分数，选择置信度分数最高的类别作为地物的预测类别，并输出不同类别地物的预测点云集合。

本发明还提供一种大场景地物单体化方法，包括以下步骤：

获取目标场景地物的原始三维点云数据；

对所述原始三维点云数据进行转换和预处理，生成PKL格式文件；

利用由如上所述大场景地物单体化模型训练方法训练得到的大场景地物单体化模型对所述PKL格式文件中的点云进行分类预测，得到每个点云的分类标签；

根据每个点云的分类标签输出单个地物的点云集合，实现地物单体化。

进一步地，对所述原始三维点云数据进行转换和预处理的具体实现过程为：

将所述原始三维点云数据转换成Senmantic3d数据集格式；

对Senmantic3d数据集格式的三维点云数据进行网格采样和归一化处理，并利用Kd树算法对归一化处理后的数据建立索引结构，生成PKL格式文件。

本发明还提供一种电子设备，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行如上所述大场景地物单体化模型训练方法的步骤。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质为非易失性存储介质或非瞬态存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时执行如上所述大场景地物单体化模型训练方法的步骤。

有益效果

与现有技术相比，本发明的优点在于：

本发明所提供的一种模型结构、模型训练方法、单体化方法、设备及介质，该方法通过最小化匹配代价函数来实现单个地物的预测，并通过point mask预测来实现最终的地物分割，有效消除了聚类等传统处理手段的缺陷，相较于传统手段，本发明具有更高的精度和效率。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一个实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中大场景地物单体化模型训练方法流程图；

图2是本发明实施例中大场景地物单体化模型的网络结构图；

图3是本发明实施例中目标生成模块的网络结构图；

图4是本发明实施例中实例预测网络结构图；

图5是本发明实施例中场景一的原始三维点云数据；

图6是本发明实施例中场景二的原始三维点云数据；

图7是本发明实施例中利用本发明方法对场景一的识别结果；

图8是本发明实施例中利用本发明方法对场景二的识别结果；

图9是本发明实施例中场景二的识别结果放大图；

图10是本发明实施例中场景二的相连目标识别结果放大图。

具体实施方式

下面结合本发明实施例中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面以具体地实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

如图1所示，本发明实施例所提供的一种大场景地物单体化模型训练方法，包括以下步骤：

S1、获取大场景地物的原始三维点云数据。

S2、将步骤S1获取的原始三维点云数据制作成标准样本格式文件。

原始三维点云数据为PLY格式，每个点包括(x,y,z,r,g,b)六个维度信息，x,y,z表示点的三维坐标，r,g,b表示点的RGB信息。原始三维点云数据并没有实现地物单体化，为了利用原始三维点云数据对模型进行训练，先要根据原始三维点云数据制作出标准样本(即地物单体化的样本)，具体实现过程为：

S11、将原始三维点云数据导入CloudCompare软件中，利用CloudCompare软件的裁剪功能手动分割出每个真实地物，即利用裁剪功能绘制边界框即可将每个真实地物分割出来，由于真实地物中的每个点均为三维空间中的点，因此边界框为立体框，只需要体对角线上的两个顶点的坐标即可确定边界框的范围，即由最大坐标点和最小坐标点(分别为体对角线上两个顶点的三维坐标)确定边界框的范围；

S12、对每个真实地物标注分类标签mask，将所有带分类标签mask的真实地物合并，并导出txt格式点云文件；

S13、将txt格式点云文件的前7列数据提取出来，并将其中的1～6列数据保存成txt格式的点云数据文件，将第7列数据保存成txt格式的标签文件，即将txt格式点云文件转换成Senmantic3d数据集格式，得到标准样本格式文件。txt格式点云文件的每一行代表一个点，每一行有N列，前7列数据分别表示x、y、z、r、g、b、label，label表示类别标签，用数字1～n表示。

S3、为了适应模型的输入数据格式要求，对步骤S2的标准样本格式文件中的点云样本进行预处理，生成PKL格式样本文件，具体实现过程为：

S31、对标准样本格式文件中的点云样本进行网格采样；本实施例中，采样率设置为0.06；

S31、对采样后的样本数据进行归一化处理，并利用Kd树算法对归一化处理后的样本数据建立索引结构，生成PKL格式样本文件。

本实施例中，利用Kd树算法对归一化处理后的样本数据进行处理，生成PKL格式样本文件为现有技术，可参见Hu,Qingyong,et al."Randla-net:Efficient semanticsegmentation of large-scale point clouds."Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition.2020.。

S4、构建大场景地物单体化模型

如图2所示，大场景地物单体化模型的结构包括编码模块、骨干网络、目标生成模块、特征融合模块、Point-RoIAlign模块以及实例预测网络。

编码模块将PKL格式的大场景地物点云样本编码成输入向量(N,d)，其中N为点云数量，d为每个点云的特征维度；本实施例中，d为6，即每个点云的(x,y,z,r,g,b)。

骨干网络采用RandLA-Net结构(RandLA-Net网络结构可参见Hu,Qingyong,etal."Randla-net:Efficient semantic segmentation of large-scale point clouds."Proceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognition.2020.)提取点云特征，RandLA-Net结构的随机采样策略与特征聚合模块有效适用于大规模点云数据的特征提取。骨干网络采用RandLA-Net结构对输入向量(N,6)进行特征提取，得到第一特征向量(N/256,512)。

如图3所示，目标生成模块包括3个MLP层、预测分支、回归分支和拼接层，目标生成模块利用1个MLP层对第一特征向量(N/256,512)进行特征提取，得到全局特征向量(1,k)，全局特征向量为1×k的一维向量，k为特征维度，k的取值取决于MLP层的结构；再利用2个MLP层对全局特征向量(1,k)进行特征提取，得到第二特征向量(1,256)，第二特征向量(1,256)分别输入至预测分支和回归分支中，通过预测分支预测所有候选框的置信度分数

即单个预测地物的置信度分数

通过回归分支候选框的最大坐标点和最小坐标点，由最大坐标点和最小坐标点确定对应候选框的范围。预测分支包括全连接层和激活层，通过全连接层fc对第二特征向量(1,256)进行计算，得到第三特征向量(1,H)，即H为候选框的数量(或预测地物的数量)，通过激活层sigmoid将第三特征向量(1,H)中每个元素归一化到[0,1]区间，得到每个候选框的置信度分数

回归分支包括全连接层，通过全连接层fc对第二特征向量(1,256)进行计算，得到第五特征向量(1,6H)，其中第五特征向量(1,6H)的每(1,6)维表示候选框的最大坐标点和最小坐标点。拼接层将每个候选框的最大坐标点、最小坐标点以及对应的置信度分数进行拼接得到候选框的参数向量

其中，

为候选框的最大坐标点的坐标，

为候选框的最小坐标点的坐标。

特征融合模块包括5个MLP层和拼接层，先利用1个MLP层对第一特征向量(N/256,512)进行特征提取，得到点特征向量(N/256,k)，再利用1个MLP层对点特征向量(N/256,k)进行特征提取得到第六特征向量(N/256,256)；利用拼接层对第六特征向量(N/256,256)与全局特征向量(1,k)(本实施例中k＝256)进行拼接，得到第七特征向量(N/256,512)，第七特征向量(N/256,512)再经过两个MLP进行深层特征提取，得到第八特征向量(N/256,128)。

Point-RoIAlign模块对候选框的参数向量

和第八特征向量(N/256,128)进行坐标映射处理，得到每个候选框的点云集合，即每个预测地物的点云集合。

本实施例中，坐标映射处理为现有技术，参见Li Yi,“GSPN:Generative ShapeProposal Network for 3D Instance Segmentation in Point Cloud”,2019IEEE/CVFConference on Computer Vision and Pattern Recognition(CVPR),2019,pp.3942-3951.。

如图4所示，实例预测网络第五特征提取层、Mask预测分支和实例输出层。第五特征提取层采用PointNet网络结构(网络结构可参见Qi C R,Su H,Mo K,et al.PointNet:Deep learning on point sets for 3d classification and segmentation[C]//Proceedings of the IEEE conference on computer vision and patternrecognition.2017:652-660.)，利用PointNet网络结构对Point-RoIAlign模块输出的每个候选框的点云集合(N,6)进行特征提取，得到第九特征向量(N,256)；Mask预测分支包括MLPs层和激活层sigmoid，通过MLPs层和第二激活层对第九特征向量(N,256)进行计算，得到地物的预测mask；实例输出层，利用预测mask和第九特征向量(N,256)做哈达玛积运算以剔除噪音点，获得第十特征向量(N₁,256)，最后通过MLPs层和激活层sigmoid对第十特征向量(N₁,256)进行计算得到每个地物的置信度分数，选择置信度分数最高的类别作为地物的预测类别，并输出不同类别地物的预测点云集合。

每个MLP层包括多个全连接层fc和一个激活函数LRelu，每个MLPs层包括多个全连接层fc。

S5、利用PKL格式样本文件中的点云样本对大场景地物单体化模型进行训练，得到训练好的大场景地物单体化模型。

对大场景地物单体化模型的训练包括对候选框进行优化调整、实例mask优化、实例类别置信度优化，使模型预测出的每个候选框与真实地物的边界框对应关联起来，即将训练过程转换为最优匹配问题。设A为一个二值匹配索引矩阵，A＝{A_ij|i＝1,2,3,…,H；j＝1,2,3,…,T}，H为候选框的数量，T为真实地物的边界框的数量，当且仅当第i个候选框分配给第j个边界框(即第i个候选框与第j个边界框关联或匹配)时，A_ij＝1，否则A_ij＝0(第i个候选框与第j个边界框不关联或不匹配)。设C为一个二值关联代价矩阵，C＝{C_ij|i＝1,2,3,…,H；j＝1,2,3,…,T}，C中的每个元素C_ij与A中的每个元素A_ij一一对应，C_ij为将第i个候选分配给第j个边界框的关联代价。第i个候选框与第j个边界框的距离越近，关联代价C_ij表示越小，通过下式计算关联代价：

其中，

表示候选框的最大坐标点；

表示候选框的最小坐标点；

表示边界框的最大坐标点；

表示边界框的最小坐标点。

候选框与边界框的最优匹配问题转换为寻找总关联代价最小的最优匹配索引矩阵A的问题，因此，构建的目标函数为：

其中，

表示每个边界框必然有一个候选框与之关联或匹配，

表示所有候选框中存在没有与之关联的边界框。

根据求得的最优匹配索引矩阵为每个边界框寻找对应的候选框，得到与每个边界框匹配的T个候选框；找到的候选框的数量与边界框的数量相同，均为T，通过式(4)损失函数对找到的T个候选框进行参数调优：

其中，C_tt表示为将第t个候选分配给第t个边界框的关联代价。通过最小化l_box(损失值)的值，使每个候选框的坐标值逼近与其匹配的边界框的坐标值。

在模型训练过程中，通过预测分支得到的置信度分数B_si一一分配给回归分支预测的H个候选框，将H个候选框中与T个边界框关联上的T个候选框的置信度分数利用式(5)进行优化，使该T个候选框的置信度分数逼近1，剩下的H-T个候选框的置信度分数置为0，保留置信度分数高的T个候选框，作为Point-RoIAlign模块的后续输入。

其中，

为第t个候选框的置信度分数，通过最小化l_scores(损失值)的值，使T个候选框的置信度分数逼近1。

采用候选框截取对应点云集合时可能会错误将属于其他地物实例的部分纳入，从而导致产生不准确的实例预测。因此，提出了用于进一步细化实例的实例预测网络，将候选框截取的点云集合(N,6)作为实例预测网络的输入，使用PointNet++网络来提取语义特征获得第九特征向量(N,256)；第九特征向量(N,256)作为mask分支的输入，经过MLPs层与激活层sigmoid得到预测mask，预测mask为一个二值向量。预测mask的训练通过计算预测mask和分类标签mask之间的IoU值(即交并比，预测mask和标签mask的交集与预测mask和标签mask的并集之比)作为约束，IoU值高于0.5的预测mask被用作训练样本，预测mask和标签mask之间的重叠部分被分配正标签，其他部分被分配负标签。而IoU低于0.5的则被忽略，不参与预测mask训练过程。预测mask训练损失函数如下：

为地物实例中点预测为正标签的概率；sign()为符号函数，当iou_i＞0.5时，sign(iou_i＞0.5)＝1；当iou_i≤0.5时，sign(iou_i＞0.5)＝0。

根据预测mask与第九特征向量(N,256)进行哈达玛积运算以剔除噪音点，得到第十特征向量(N₁,256)(即实例特征向量)，第十特征向量(N₁,256)经过MLPs层与激活层sigmoid得到地物实例的置信度分数，将预测mask与标签mask之间的IoU值作为预测mask质量的度量，并利用预测mask来提升地物实例置信度分数的准确性。

根据预测mask剔除噪声点，剩余特征通过下述公式进行类别预测训练：

其中，L_cls为地物实例的置信度分数，N_ins表示地物实例数，iou_i为第i个地物实例的交并比，

为第i个地物实例属于类别C的预测概率，M为类别的数量；y_iC为符号函数(0或1)，如果第i个地物实例的真实类别等于C，取1，否则取0。

根据置信度分数对地物实例的预测类别进行排序，选择置信度分数最高的类别作为地物实例的预测类别，即可输出目标地物实例的点云集合。

本发明实施例还提供一种大场景地物单体化方法，包括以下步骤：

步骤1：获取目标场景地物的原始三维点云数据，如图5和6所示，图5为场景一的原始三维点云数据，图6为场景二的原始三维点云数据。

步骤2：对原始三维点云数据进行转换和预处理，生成PKL格式文件，具体实现过程为：

步骤2.1：将原始三维点云数据导入CloudCompare软件中，再导出txt格式点云文件；

步骤2.2：将txt格式点云文件的前6列数据提取出来，并保存成txt格式的点云数据文件，即将txt格式点云文件转换成Senmantic3d数据集格式；

步骤2.3：对Senmantic3d数据集格式的三维点云数据进行网格采样和归一化处理，并利用Kd树算法对归一化处理后的数据建立索引结构，生成PKL格式文件。

步骤3：利用由如上所述大场景地物单体化模型训练方法训练得到的大场景地物单体化模型对步骤2中的PKL格式文件中的点云进行分类预测，得到每个点云的分类标签。

步骤4：根据每个点云的分类标签输出单个地物的点云集合，实现地物单体化，如图7和8所示，图7为场景一的识别结果，图8为场景二的识别结果。图9为识别结果的放大图，图9中的黑色框表示小目标，表明本发明可精准识别并单体化小目标，解决了现有算法小目标物体识别效果差的问题。图10中黑色虚线框所标示，表明本发明能有效单体化黏连目标，解决了常规聚类算法针对相连物体分割效果差的问题。

以上所揭露的仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或变型，都应涵盖在本发明的保护范围之内。