CN110807782A

CN110807782A - 一种视觉机器人的地图表示***及其构建方法

Info

Publication number: CN110807782A
Application number: CN201911023177.2A
Authority: CN
Inventors: 檀祖冰; 张彧; 陈龙
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-10-25
Filing date: 2019-10-25
Publication date: 2020-02-18
Anticipated expiration: 2039-10-25
Also published as: CN110807782B

Abstract

本发明属于移动机器人环境表示、规划和定位领域，更具体地，涉及一种视觉机器人的地图表示***及其构建方法。该地图表示***由多信息体素层、地图元素层以及拓扑层的数据结构组成，分别涵盖了空间信息、场景实例、连通性三方面特征。该地图由语义信息提取模块、几何信息提取模块、场景语义提取模块、多信息体素整合模块、提取空间拓扑模块和拓扑整合模块六个模块共同完成构建。本发明仅基于视觉传感器，具有构建流程清晰，信息全面，层次关系紧密、易于可视化的优点，适用于移动机器人室内外场景的规划、定位与导航等工作。

Description

一种视觉机器人的地图表示***及其构建方法

技术领域

本发明属于移动机器人环境表示、规划和定位领域，更具体地，涉及一种视觉机器人的地图表示***及其构建方法。

背景技术

在机器人领域中，如何设计一个表示环境的地图是重要且关键的问题。对于规划模块来说，需要地图提供快速碰撞检测和障碍物检测的支持；对于定位模块来说，需要地图提供高质量的环境建模；此外，对于操控机器人的人类来说，地图需要提供友好并直观的可视化表示。现今，机器人领域广泛使用视觉传感器，如基于RGB-D相机、双目立体相机等，或者测距传感器，如激光雷达等，用于地图的构建。通常，视觉传感器成本较低，安装便捷并能获取到较高频率的数据；而测距传感器虽然天生具备了高精度的深度测量能力，但成本昂贵。

目前，进行地图构建时，不同的环境(如废墟、商场、空地等)会影响传感器的发挥，使得得到的数据包含噪音，影响建图的质量，进一步影响了规划、定位的结果。在最近的研究中，研究人员在地图中额外引入了环境语义信息，有效地降低环境对算法的影响；此外，地图的增量更新与修补优化也称为目前的重点研究重点。但目前，没有一种用于机器人的地图表示方法——紧密结合拓扑、几何、语义三种信息，并支持快速构建、增量更新、高效的数据存储与读取、直观的可视化等性质。

发明内容

本发明为克服上述现有技术中的缺陷，提供一种视觉机器人的地图表示系统及其构建方法，紧密结合拓扑、几何、语义三种信息，支持快速构建、增量更新、高效的数据存储与读取、提供快速碰撞检测和障碍物检测的支持、提供高质量的环境建模。

为解决上述技术问题，本发明采用的技术方案是：一种视觉机器人的地图表示***，包括语义信息提取模块、几何信息提取模块、场景语义提取模块、多信息体素整合模块、提取空间拓扑模块、拓扑整合模块、以及地图元素层、多信息体素层和拓扑图层；其中，

所述的语义信息提取模块用于利用视觉传感器在需要构造地图的环境中采集图像，并进行图像语义信息提取，得到图像分割结果；接着进行其余特定语义提取，得到特定的语义信息，特定的语义信息部分的结果最终会存储在地图元素层中；

所述的几何信息提取模块用于使用视觉传感器在需要构造地图的环境中采集图像，经过计算得到深度图、顶点集合和顶点对应的法向量，接着基于深度图由几种关于距离与法线的几何特征分割深度图；

所述的场景语义提取模块用于利用视觉传感器在需要构造地图的环境中采集图像，并进行场景语义提取，得到场景的分类信息，场景的分类信息是人为定义的、具有一定的标识度的场景称号；

所述的多信息体素整合模块，用于将语义信息提取模块得到的图像分割结果和几何信息提取模块得到的深度分割结果进行融合，得到三维语义部件，该部件描述了场景中某一个由人类预定的有一定标识度和对规划、定位来说意义的物体；接着，结合视觉SLAM方法得到的相机位姿，将使用三维语义部件与几何信息提取模块得到的顶点集合计算得到的多信息体素，更新到地图的多信息体素层中；

所述的提取空间拓扑模块用于基于所述的多信息体素整合模块得到的多信息体素层，提取出包含场景语义的空间凸包及表达其连接关系的拓扑信息；

所述拓扑整合模块用于基于空间的相邻关系，关联所述的多信息体素整合模块中三维空间部件和所述的提取空间拓扑模块得到的三维空间凸包，计算空间节点到部件节点的拓扑信息，并将此信息与空间节点到空间节点的拓扑信息合并，得到完整的拓扑图层；

所述的地图元素层、多信息体素层和拓扑图层共同构成地图，拓扑图将地图元素层中的空间凸包和三维部件信息联系起来。

进一步的，所述的多信息体素层时使用一个附带有空间信息、语义信息的立方体，其不真实存在于客观世界中，而是用于近似表述客观世界的一个立方区域的数据抽象对象；所述的多信息体素层是从机器人规划和定位的需求出发，预定义的多种环境表示对象，一般由描述其位置、语义、几何等字段构成，如用于表示障碍物的Object，由其中心位置、类别为障碍物及包围它的凸包构成。

本发明还提供一种视觉机器人的地图构建方法，包括以下步骤：

S1.使用语义信息提取模块，利用视觉传感器在需要构造地图的环境中采集图像，并进行部件语义信息提取，得到图像分割结果(包括但不仅限于门窗、桌椅)，进行其余特定语义提取，得到特定的语义信息(包括但不仅限于可行使区域)；特定的语义信息部分的结果最终会存储在地图元素层中；

S2.使用几何信息提取模块，使用视觉传感器在需要构造地图的环境中采集图像，得到深度图、顶点集合和顶点对应的法线，接着从深度图中计算得到深度分割结果；

S3.使用场景语义提取模块，利用视觉传感器在需要构造地图的环境中采集图像，并进行场景语义提取，得到场景的分类信息；

S4.使用多信息体素整合模块，将步骤S1中提取的图像分割结果和步骤 S2中提取的深度分割结果进行融合，得到三维语义部件；接着，基于视觉SLAM 方法得到的视觉传感器姿态，将三维语义部件与步骤S2中提取的顶点集合计算得到多信息体素，构成多信息体素层；

S5.使用提取空间拓扑模块，基于步骤S4中的多信息体素层，提取出包含场景语义的空间凸包及表达其连接关系的拓扑信息；

S6.使用拓扑整合模块，基于空间的相邻关系，关联步骤S4中三维空间部件和步骤S5中的三维空间凸包，得到空间节点到部件节点的拓扑信息，并将此信息与空间节点到空间节点的拓扑信息合并，得到完整的拓扑图，构成拓扑图层；

S7.通过步骤S1中的地图元素层、步骤S4中的多信息体素层、步骤S6中的拓扑图层共同构成本发明的地图。

进一步的，所述的步骤S1具体包括：

S11.从视觉传感器中得到RGB图像；

S12.基于步骤S11对RGB图像中的每一个像素进行推断，判断其从属对象的类别(包括但不仅限于门窗、桌椅)，过程基于深度神经网络完成，最终得到每一个类别的每一个实例的二值掩码图像集合；

S13.其余特定语义提取由实际的应用决定，基于步骤S11对RGB图像，使用特征检测和推理模块，将RGB图像进行特征提取，接着进行特定语义提取，得到特定语义，特定语义包括但不仅限于可行使区域。

进一步的，所述的步骤S2具体包括：

S21.从视觉传感器中得到深度图；

S22.基于步骤S21从深度图，基于一个像素及其邻点计算此像素对应的曲面法线，接着计算相邻像素的法线角度差距，最后计算相邻像素的深度差距，共得到三种特征；

S23.基于所述步骤S22得到的三种特征，将深度图上进行聚类和切割，划分得到多个不同的深度分割区域，称之为深度分割结果。

进一步的，所述的步骤S3具体包括：

S31.从视觉传感器中得到RGB图像；

S32.由RGB图像的像素及像素之间的联系，计算出高维度的特征，接着以此推断出场景的分类信息；过程基于深度神经网络实现，包括但不仅限于 CNN网络，场景包括但不仅限于商场、厨房、仓库、走廊。

进一步的，所述的步骤S4具体包括：

S41.记所述步骤S2中提取的深度分割结果为集合S，s_i∈S为一个几何部件切分块，由一定数量的像素及其深度信息组成，记所述步骤S1中提取的图像分割结果为集合R，r_j∈R为一个图像上的区域，由一定数量的像素及其分类信息组成；对每一个s_i，计算与之重叠区域最高的r_j，计算公式如下：

S42.对所述步骤S41中的每一个s_i，赋予与之重叠区域最高的r_j的类别，确定每一个几何部件切分块的最佳分类，将相邻的具有共同实例对象和类别的几何切分块，融合为三维语义部件；

S43.将三维语义部件与地图中存在的三维语义部件进行一一比较，若当前时刻与地图中存在相同的实例即同一个客观环境中的物体时，进行实例追踪，若地图中不存在时，将新的三维语义部件添加到地图中，再进行实例追踪；所述的实例追踪是保证在构建地图时，每一个实例对象的检测结果，在多帧图像中保持时间不相干性的方法；

S44.将所述步骤S43维护的三维语义部件，与所述步骤S2中提取的顶点集合进行融合；先将空间进行体素划分，只考虑截断距离t内的体素；假设x为当前体素的中心，p为一个顶点的三维位置，s为传感器的原点，此时有：

d(x,p,s)＝||p-x||sign((p-x)·(p-s))

∈＝4v

W_i+1(x,p,s)＝min(W_i(x)+w(x,p),W_max)

式中，v为体素的大小，z为从s到p处的深度，W_max限制了更新的最大权值；由上式，可以计算得到第i+1次更新体素x时的TSDF值D_i+1(x,p,s)和权值W_i+1(x,p,s)；初始时TSDF值D(x,p,s)和权值W(x,p,s)都被初始化为0；

S45.基于步骤S44中的TSDF值，计算ESDF的值；所述过程具体包括：以TSDF表面出发，通过26-邻域搜索的方式，将设置的截断区域内的区域，直接将TSDF的值作为ESDF的值，在截断区域外的值则通过水波纹传播算法计算得到，最后得到ESDF；

其中，所述的水波纹算法按如下步骤进行：S451.波从一个体素记为v开始，传播到它的26-邻域，对未更新ESDF距离的体素更新它们的ESDF距离为体素 v的ESDF值加上单位距离，并将新更新的体素放入波纹扩散队列；对波纹扩散队列中每一个体素，依次递归地执行S451步骤，直到所有体素都已经更新了 ESDF距离为止；

S46.基于步骤S42与S43得到的三维语义部件信息与步骤S45中的ESDF，组成多信息体素；

S47.通过视觉SLAM方法获取到当前的传感器位姿，将传感器坐标系下的多信息体素转换为地图坐标系下的表示，接着更新到地图的信息体素层中；信息体素层通过哈希的方式存储了多个多信息体素，每一体素包含了三维位置信息、语义编码信息、是否被占据信息以及混合的截距/欧式距离场构成。

进一步的，所述的步骤S5具体包括：

S51.在采集数据的路线上随机采集凸包生长点；

S52.在所述步骤S51的每一个凸包生成点上，加以高度和体积限制，不断往外扩张，形成空间凸包；并基于坐标位置和步骤S3给出的场景语义信息，得到带语义的空间凸包集合；

S53.基于所述步骤S52中的带语义的空间凸包集合，利用它们相互间的空间相邻关系，得到表示空间连接关系的无向图；

S54.设置一定的允许容纳障碍物非凸部分的阈值，对凸包进行合并，使得得到的凸包更加符合人类直觉上环境原有的空间形状，得到更大的、带语义信息的类椭圆形的空间凸包集合；过程在语义冲突时，不进行凸包的合并。

进一步的，所述的步骤S6具体包括：

S61.对每一个步骤S4中得到的三维语义部件，根据自身位置寻找到其所属的步骤S54得到的一个带语义信息的类椭圆形的空间凸包(如杯子这一个三维语义部件匹配到房间这一个空间凸包上)，得到空间节点到部件节点的连接关系；

S62.将所有由步骤S61得到的空间节点到部件节点的连接关系，整合到步骤S5得到的拓扑图上，得到完整的拓扑图。

与现有技术相比，有益效果是：

1.本发明仅使用视觉传感器完成机器人地图的构建，而不需要使用测距扫描仪的数据进行构建，降低了硬件成本；

2.本地图在结构组成上包含了几何、语义与拓扑的信息，蕴含了更多的环境信息；并利用了各层次间特有的关联性质进行地图构建，制图流程清晰，提高了制图的效率。层次间的关系紧密结合、数据与拓扑的分离，易于后续的增量更新与修补优化过程进行；

3.本发明使用哈希表的形式存储和管理环境的几何数据，减小了数据查找和存取的开销，并支持地图的动态无规则形状拓展，提高了数据的***、更新和速度，非网格的结构使得建造的地图能够最大化利用存储空间，有利于环境的最大化覆盖；

4.本发明中的机器人地图，使用了包含了几何与语义信息结合的多信息体素结构，该结构不仅利于规划模块进行障碍物与碰撞检测而从优化局部规划效率、利于定位模块使用丰富的几何信息和语义信息从而提高配准的精度和效率，而且提供直观、形象的可视化结果，利于人类下达直观的导航指示。

附图说明

图1是本发明地图表示***整体框架示意图。

图2是本发明多信息体素层中的空间表示与数据表示的联系示意图。

图3是本发明拓扑层结构示意图。

图4是本发明地图构建方法整体流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本发明的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明，不能理解为对本发明的限制。

实施例1：

如图1所示，本发明提供一种视觉机器人的地图表示***，包括语义信息提取模块、几何信息提取模块、场景语义提取模块、多信息体素整合模块、提取空间拓扑模块、拓扑整合模块、以及地图元素层、多信息体素层和拓扑图层；先使用语义信息提取模块、几何信息提取模块、场景语义提取模块三个模块从视觉传感器中分别提取图像分割信息、深度分割信息和顶点和法线、场景语义信息。接着，图像分割信息、深度分割信息将被融合为时间不相干的三维空间部件信息，使用多信息体素整合模块将三维空间部件信息和顶点信息构建得到多信息体素，使用视觉SLAM方法得到的相机位姿，将体素更新到地图的多信息体素层中。得到多信息体素层后，使用提取空间拓扑模块和场景语义信息，将环境空间划分、合并为多个带语义的三维空间凸包集合，并由它们的空间相邻关系得到表示空间节点到空间节点的拓扑信息。至此，部分三维空间部件信息、语义信息提取模块种的语义信息和带语义的三维空间凸包集合被整合到地图元素层中。此外，基于三维空间部件的空间位置，使用拓扑整合模块，先关联三维空间部件和三维空间凸包，得到空间节点到部件节点的拓扑信息，在将此信息与空间节点到空间节点的拓扑信息合并，得到完整的拓扑图。最后，多信息体素层、地图元素集合和拓扑图共同构成了本发明的地图。

本***的应用场景为室内或者室外多种机器人作业的区域，要求视觉传感器像素较高，有合适的焦距，能够清晰地拍摄0-20米以内的场景，并经过标定、有准确内外参数估计。本***只需要一个RGB-D摄像头或者一个双目摄像头，放置在机器人前面即可。

为了更好地说明本发明地具体实施方案，下面将结合图1-4以及具体的实施方式对本发明提供的地图构建方法进行详细地说明。

如图4所示，一种视觉机器人的地图构建方法，包括以下步骤：

步骤1：接入视觉传感器，使用先前标定得到的内外参数校准RGB图像及深度图，得到校准过后的RGB图像及深度图。所述的深度图，如果视觉传感器为RGB-D相机，则天生具备深度信息；如视觉传感器为双目立体相机，则通过 “视差法”计算每点像素的深度从而的大深度图。

步骤2：使用Mask-RCNN方法进行图像分割，得到图像切割区域和对应的标签。

步骤3：使用DCNN基于RGB图像进行环境分类，得到场景类别信息。

步骤4：基于像素及其邻点计算此像素对应的曲面法线，接着计算相邻像素的法线角度差距，最后计算相邻像素的深度差距，共得到三种特征。

步骤5：基于步骤4得到的三种特征，在深度图上进行聚类和切割，划分得到多个不同的深度分割区域。

步骤6：记所述步骤2中提取的深度分割结果为集合S,s_i∈S为一个几何部件切分块,由一定数量的像素及其深度信息组成，记所述步骤1中提取的图像分割结果为集合R，r_j∈R为一个图像上的区域，由一定数量的像素及其分类信息组成；对每一个s_i，计算与之重叠区域最高的r_j，计算公式如下：

步骤7：对所述步骤6中的每一个s_i，赋予与之重叠区域最高的r_j的类别，确定每一个几何部件切分块的最佳分类，将相邻的具有共同实例对象和类别的几何切分块，融合为三维语义部件。

步骤8：将三维语义部件与地图中存在的三维语义部件进行一一比较，若当前时刻与地图中存在相同的实例(同一个客观环境中的物体)时，进行实例追踪，若地图中不存在时，将新的三维语义部件添加到地图中，再进行实例追踪。所述的实例追踪是保证在构建地图时，每一个实例对象的检测结果，在多帧图像中保持时间不相干性的方法。

步骤9：将所述步骤7得到的、所述步骤8维护的三维语义部件，与所述步骤2中提取的顶点集合进行融合。先将空间进行体素划分，只考虑截断距离内的体素。假设x为当前体素的中心,p为一个顶点的三维位置，s为传感器的原点，此时有：

d(x,p,s)＝||p-x||sign((p-x)·(p-s))

∈＝4v

W_i+1(x,p,s)＝min(W_i(x)+w(x,p),W_max)

式中，v为体素的大小，z为从s到p处的深度，W_max限制了更新的最大权值；由上式，可以计算得到第i+1次更新体素x时的TSDF值D_i+1(x,p,s)和权值W_i+1(x,p,s)；初始时TSDF值D(x,p,s)和权值W(x,p,s)都被初始化为0。

步骤10：基于所述步骤9中的TSDF值，计算ESDF的值。所述过程具体包括：以TSDF表面出发，通过26-邻域搜索的方式，将设置的截断区域内的区域，直接将TSDF的值作为ESDF的值，在截断区域外的值则通过水波纹传播算法计算得到，最后得到ESDF。

其中，水波纹算法按如下步骤进行：

步骤10.1：波从一个体素(记为v)开始，传播到它的26-邻域，对未更新 ESDF距离的体素更新它们的ESDF距离为体素v的ESDF值加上单位距离，并将新更新的体素放入波纹扩散队列。对波纹扩散队列中每一个体素，依次递归地执行所述步骤10.1，直到所有体素都已经更新了ESDF距离为止。

步骤11：基于所述步骤7得到的、所述步骤8维护的三维语义部件信息与所述步骤10中的ESDF，通过坐标关联组成多信息体素。

步骤12：通过视觉SLAM方法获取到当前的传感器位姿，将传感器坐标系下的多信息体素转换为地图坐标系下的表示，接着更新到地图的信息体素层中。信息体素层通过哈希的方式存储了多个多信息体素，每一体素包含了三维位置信息、语义编码信息、是否被占据信息以及混合的截距/欧式距离场构成，图2展示了多信息体素的存储形式、空间表示和数据结构。

步骤13：在采集数据的路线上随机设置凸包生长点，在每一个点出加以高度和体积限制，不断往外扩张，形成空间凸包；并基于坐标位置和步骤3给出的场景语义信息，得到带语义的空间凸包集合。

步骤14：基于所述步骤13中的带语义的空间凸包集合，利用它们相互间的空间相邻关系，得到表示空间连接关系的无向图。

步骤15：设置一定的允许容纳障碍物(非凸部分)的阈值，对凸包进行合并，使得得到的凸包更加符合人类直觉上环境原有的空间形状，得到更大的、带语义信息的类椭圆形的空间凸包集合。所述过程在语义冲突时，不进行凸包的合并。

步骤16：对每一个所述步骤7得到的、所述步骤8维护的三维语义部件，根据自身位置寻找到其所属的步骤13得到的一个带语义信息的类椭圆形的空间凸包(如杯子这一个三维语义部件匹配到房间这一个空间凸包上)，得到空间节点到部件节点的连接关系。

步骤17：将所有由步骤17得到的空间节点到部件节点的连接关系，整合到步骤5得到的无向图上，得到完整的拓扑图。

步骤18：通过步骤12中的多信息体素层、步骤2中的特定的语义信息和步骤8中的三维语义部件、步骤17中的拓扑图共同构成本发明的地图。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种视觉机器人的地图表示***，其特征在于，包括语义信息提取模块、几何信息提取模块、场景语义提取模块、多信息体素整合模块、提取空间拓扑模块、拓扑整合模块、以及地图元素层、多信息体素层和拓扑图层；其中，

2.根据权利要求1所述的视觉机器人的地图表示***，其特征在于，所述的多信息体素层是使用一个附带有空间信息、语义信息的立方体，其不真实存在于客观世界中，而是用于近似表述客观世界的一个立方区域的数据抽象对象；所述的多信息体素层是从机器人规划和定位的需求出发，预定义的多种环境表示对象，由描述其位置、语义、几何字段构成。

3.一种视觉机器人的地图构建方法，其特征在于，包括以下步骤：

S1.使用语义信息提取模块，利用视觉传感器在需要构造地图的环境中采集图像，并进行部件语义信息提取，得到图像分割结果，进行其余特定语义提取，得到特定的语义信息；特定的语义信息部分的结果最终会存储在地图元素层中；

S4.使用多信息体素整合模块，将步骤S1中提取的图像分割结果和步骤S2中提取的深度分割结果进行融合，得到三维语义部件；接着，基于视觉SLAM方法得到的视觉传感器姿态，将三维语义部件与步骤S2中提取的顶点集合计算得到多信息体素，构成多信息体素层；

4.根据权利要求3所述的视觉机器人的地图构建方法，其特征在于，所述的步骤S1具体包括：

S11.从视觉传感器中得到RGB图像；

S12.基于步骤S11对RGB图像中的每一个像素进行推断，判断其从属对象的类别，过程基于深度神经网络完成，最终得到每一个类别的每一个实例的二值掩码图像集合；

5.根据权利要求3所述的视觉机器人的地图构建方法，其特征在于，所述的步骤S2具体包括：

S21.从视觉传感器中得到深度图；

6.根据权利要求3所述的视觉机器人的地图构建方法，其特征在于，所述的步骤S3具体包括：

S31.从视觉传感器中得到RGB图像；

S32.由RGB图像的像素及像素之间的联系，计算出高维度的特征，接着以此推断出场景的分类信息；过程基于深度神经网络实现，包括但不仅限于CNN网络，场景包括但不仅限于商场、厨房、仓库、走廊。

7.根据权利要求3所述的视觉机器人的地图构建方法，其特征在于，所述的步骤S4具体包括：

d(x，p，s)＝||p-x||sign((p-x)·(p-s))

∈＝4v

W_i+1(x，p，s)＝min(W_i(x)+w(x，p)，W_max)

式中，v为体素的大小，z为从s到p处的深度，W_max限制了更新的最大权值；由上式，可以计算得到第i+1次更新体素x时的TSDF值D_i+1(x，p，s)和权值W_i+1(x，p，s)；初始时TSDF值D(x，p，s)和权值W(x，p，s)都被初始化为0；

8.根据权利要求7所述的视觉机器人的地图构建方法，其特征在于，所述的水波纹算法按如下步骤进行：波从一个体素记为v开始，传播到它的26-邻域，对未更新ESDF距离的体素更新它们的ESDF距离为体素v的ESDF值加上单位距离，并将新更新的体素放入波纹扩散队列；对波纹扩散队列中每一个体素，依次递归地执行以上步骤，直到所有体素都已经更新了ESDF距离为止。

9.根据权利要求3所述的视觉机器人的地图构建方法，其特征在于，所述的步骤S5具体包括：

S51.在采集数据的路线上随机采集凸包生长点；

10.根据权利要求3所述的视觉机器人的地图构建方法，其特征在于，所述的步骤S6具体包括：

S61.对每一个步骤S4中得到的三维语义部件，根据自身位置寻找到其所属的步骤S54得到的一个带语义信息的类椭圆形的空间凸包，得到空间节点到部件节点的连接关系；