CN109559320B

CN109559320B - 基于空洞卷积深度神经网络实现视觉slam语义建图功能的方法及***

Info

Publication number: CN109559320B
Application number: CN201811388678.6A
Authority: CN
Inventors: 朱煜; 黄俊健; 陈旭东; 郑兵兵; 倪光耀
Original assignee: East China University of Science and Technology
Current assignee: East China University of Science and Technology
Priority date: 2018-09-18
Filing date: 2018-11-21
Publication date: 2022-11-18
Anticipated expiration: 2038-11-21
Also published as: CN109559320A

Abstract

本发明涉及一种基于空洞卷积深度神经网络实现视觉SLAM语义建图功能的方法，包括(1)嵌入式开发处理器通过RGB‑D摄像头获取当前环境的彩色信息与深度信息；(2)通过采集的图像得到特征点匹配对，并进行位姿估计，且获得场景空间点云数据；(3)利用深度学习对图像进行像素级语义分割，通过图像坐标系和世界坐标系映射，并使得空间点具有语义标注信息；(4)通过流形聚类消除优化语义分割所带来的误差；(5)进行语义建图，对空间点云进行拼接，得到由密集离散的点组成的点云语义地图。本发明还涉及一种基于空洞卷积深度神经网络实现视觉SLAM语义建图功能的***。采用了该方法及***，空间网络地图具有更高级的语义信息，更符合在实时建图过程中的使用需求。

Description

基于空洞卷积深度神经网络实现视觉SLAM语义建图功能的方法及***

技术领域

本发明涉及无人***实时定位与建图领域，尤其涉及图像处理的语义分割领域，具体是指一种基于空洞卷积深度神经网络实现视觉SLAM语义建图功能的方法及***。

背景技术

近年来无人***发展迅速，自动驾驶、机器人和无人机都是典型的无人***。视觉SLAM(Simultaneous Localization and Mapping，即时定位与建图)***已被广泛的应用于无人***的定位与路径规划中，如由Mur-Artal等于2015年提出的ORB-SLAM(Mur-ArtalR,Montiel J M M,Tardós J D.ORB-SLAM:A Versatile and Accurate Monocular SLAMSystem[J].IEEE Transactions on Robotics,2015,31(5):1147-116)。视觉SLAM***中所建立的空间网络地图仅仅包含低级信息，比如色彩信息和距离信息，这样不利于机器人对当前场景的理解，所以我们在视觉SLAM***的构建过程中引入基于深度学习的语义分割网络，实现机器人对当前场景的语义及场景理解。

语义分割的目的是用于场景理解，实现了各类目标之间的精确分割，可以用于自动驾驶或者机器人来帮助识别目标和目标关系，如由GoogLe公司提出的DeepLab深度神经网络结构目前广泛应用于语义分割领域(L.-C.Chen,G.Papandreou,I.Kokkinos,K.Murphy,and A.L.Yuille.Deeplab:Semantic image segmentation with deepconvolutional nets,atrous convolution,and fully connected crfs.arXiv:1606.00915,2016).但由于该通用语义分割网络计算实时性差，在嵌入式***中难以应用。同时，语义分割也会来带边缘轮廓分割不明显、误检和漏检等情况。

我们将语义分割应用在视觉SLAM***语义建图中，从而使得所建立的空间网络地图中的每一个网络坐标点都具有高级的语义信息，让机器人对当前场景目标具有语义级理解，并且通过空间流形聚类算法优化语义分割所带来的误差，使得构建的语义地图更加准确。

发明内容

本发明的目的是克服了上述现有技术的缺点，提供了一种将深度学习与视觉SLAM相结合、使机器人对场景目标具有语义级理解、减少语义分割的误差的基于空洞卷积深度神经网络实现视觉SLAM语义建图功能的方法及***。

为了实现上述目的，本发明的基于空洞卷积深度神经网络实现视觉SLAM语义建图功能的方法及***如下：

该基于空洞卷积深度神经网络实现视觉SLAM语义建图功能的方法，其主要特点是，所述的方法包括以下步骤：

(1)嵌入式开发处理器通过RGB-D摄像头获取当前环境的彩色信息与深度信息；

(2)通过采集的图像得到特征点匹配对，并进行位姿估计，且获得场景空间点云数据；

(3)利用深度学习对图像进行像素级语义分割，通过图像坐标系和世界坐标系映射，并使得空间点具有语义标注信息；

(4)通过流形聚类消除优化语义分割所带来的误差；

(5)进行语义建图，对空间点云进行拼接，得到由密集离散的点组成的点云语义地图。

其中，所述的步骤(1)中的嵌入式处理器包括NVIDIA JETSON TX2***。

较佳地，所述的步骤(2)包括以下步骤：

(2.1)通过视觉SLAM技术提取图像特征点，进行特征匹配得到特征点匹配对；

(2.2)通过3D点对求解相机当前位姿；

(2.3)通过图优化Bundle Adjustment的方法进行更精确的位姿估计；

(2.4)通过回环检测消除帧间的累计误差，并获得场景空间点云数据。

较佳地，所述的步骤(3)中的对图像进行像素级语义分割具体包括以下步骤：

(3.1)通过基于改进空洞卷积的GoogLeNet的特征提取层；

(3.2)通过基于改进空洞卷积的GoogLeNet的多尺度提取层；

(3.3)根据提取结果对图像进行分类。

较佳地，所述的步骤(3.1)还包括特征提取层的设计过程，具体包括以下步骤：

(3.1.1)将GoogLeNet网络结构中Inception(3b)之后的最大池化层步长修改为1；

(3.1.2)将GoogLeNet网络结构中Inception(4a)、Inception(4b)、Inception(4c)、Inception(4d)、Inception(4e)部分使用空洞卷积代替，并设置空洞卷积为5×5且dilation为2的Pool；

(3.1.3)将GoogLeNet网络结构中Inception(4e)之后的最大池化层步长修改为1。

较佳地，所述的步骤(3.2)还包括多尺度提取层的设计过程，具体包括以下步骤：

(3.2.1)基于空间金字塔池化进行多尺度处理；

(3.2.2)通过1×1卷积和不同采样率的空洞卷积提取不同尺度的特征图像；

(3.2.3)融合图像池化特征到模块中，将所述的特征图像经过1×1的卷积融合得到特征，并放入Softmax层进行像素点语义分类。

较佳地，所述的步骤(4)具体包括以下步骤：

(4.1)计算空间点的切平面法向量；

(4.2)搜索未被分配类别的点x_i，判断是否所有点均已聚类，如果是，则继续步骤(4.5)；否则，x_i类别为c＝c+1，并创建空队列q；

(4.3)计算空间点x_i的切平面法向量v_i和距其小于0.01范围内所有点x_j的法向量v_j的夹角α_ij，判断是否存在α_ij＜σ或者α_ij＞175°，如果是，则x_j和x_i归为一类，x_j类别为c，并将满足条件的x_j压入队列q中；否则，继续步骤(4.4)；

(4.4)判断队列q是否非空，如果是，则令x_i＝q₁，继续步骤(4.3)；否则继续步骤(4.1)；

(4.5)提取簇内点数最多的前k类点，剩下的点按照就近原则归类。

较佳地，所述的步骤(4.1)中的计算空间点的切平面法向量，具体为：

根据以下公式计算空间点的切平面法向量：

其中，w∈R^3×1为该平面的单位法向量，a为特征值。

较佳地，所述的步骤(5)包括以下步骤：

(5.1)根据RGB-D相机的精度特性，去除深度值太大或无效的点云；

(5.2)通过统计滤波器方法去除孤立的空间点，计算每个空间点与它最近N个空间点的距离均值，去除距离均值过大的空间点；

(5.3)通过空间网格原理，将所有空间点云填充进空间网格，使得每个空间网格只保留一个空间点。

该基于上述方法的基于空洞卷积深度神经网络实现视觉SLAM语义建图功能的***，其主要特点是，所述的***包括：

嵌入式开发处理器，用于构建视觉SLAM语义地图；

RGB-D相机，与所述的嵌入式开发处理器相连接，用于采集彩色数据和深度数据；

建图程序，所述的建图程序在运行时根据深度学习与视觉SLAM，通过嵌入式开发处理器和RGB-D相机实现视觉SLAM语义建图，具体进行以下步骤处理：

(4)通过流形聚类消除优化语义分割所带来的误差；

较佳地，所述的步骤(1)中的嵌入式处理器包括NVIDIA JETSON TX2***。

较佳地，所述的步骤(2)包括以下步骤：

(2.2)通过3D点对求解相机当前位姿；

(2.3)通过图优化Bundle Adjustment的方法进行更精确的位姿估计；

(3.1)通过基于改进空洞卷积的GoogLeNet的特征提取层；

(3.2)通过基于改进空洞卷积的GoogLeNet的多尺度提取层；

(3.3)根据提取结果对图像进行分类。

(3.2.1)基于空间金字塔池化进行多尺度处理；

较佳地，所述的步骤(4)具体包括以下步骤：

(4.1)计算空间点的切平面法向量；

根据以下公式计算空间点的切平面法向量：

其中，w∈R^3×1为该平面的单位法向量，a为特征值。

较佳地，所述的步骤(5)包括以下步骤：

采用了本发明的基于空洞卷积深度神经网络实现视觉SLAM语义建图功能的方法及***，***采用嵌入式开发处理器，通过对RGB-D相机采集到的彩色数据和深度数据，利用视觉SLAM技术，提取图像特征点，进行特征匹配，再利用Bundle Adjustment的方法得到更精确的机器人位姿估计，使用回环检测消除帧间的累计误差。在获得机器人实时定位信息的同时，采用了一种针对GoogLeNet深度神经网络的空洞卷积设计方法，利用改进深度神经网络实现实时语义分割的特征提取，将语义分割结果结合视觉SLAM***得到语义级的建图。并通过流形聚类消除优化语义分割所带来的误差，通过八叉树建图后，空间网络地图具有更高级的语义信息，并且构建出的语义地图更加准确。网络的改进提升了***的实时处理能力，本方法和***的语义分割网络在NVIDIA Jetson TX2台上的时间消耗为0.099s/幅，符合在实时建图过程中的使用需求。

附图说明

图1为本发明的基于空洞卷积深度神经网络实现视觉SLAM语义建图功能的方法的流程图。

图2为本发明的基于空洞卷积深度神经网络实现视觉SLAM语义建图功能的方法的语义分割流程图。

图3为本发明的基于空洞卷积深度神经网络实现视觉SLAM语义建图功能的方法的空洞卷积示意图。

图4为本发明的基于空洞卷积深度神经网络实现视觉SLAM语义建图功能的方法的实验结果示意图。

图5为本发明的基于空洞卷积深度神经网络实现视觉SLAM语义建图功能的方法及***的NVIDIA Jetson TX2处理器示意图。

具体实施方式

为了能够更清楚地描述本发明的技术内容，下面结合具体实施例来进行进一步的描述。

该基于空洞卷积深度神经网络实现视觉SLAM语义建图功能的方法，其中，所述的方法包括以下步骤：

(2.2)通过3D点对求解相机当前位姿；

(2.3)通过图优化Bundle Adjustment的方法进行更精确的位姿估计；

(2.4)通过回环检测消除帧间的累计误差，并获得场景空间点云数据；

(3.1)通过基于改进空洞卷积的GoogLeNet的特征提取层；

(3.1.3)将GoogLeNet网络结构中Inception(4e)之后的最大池化层步长修改为1；

(3.2)通过基于改进空洞卷积的GoogLeNet的多尺度提取层；

(3.2.1)基于空间金字塔池化进行多尺度处理；

(3.2.3)融合图像池化特征到模块中，将所述的特征图像经过1×1的卷积融合得到特征，并放入Softmax层进行像素点语义分类；

(3.3)根据提取结果对图像进行分类；

(4)通过流形聚类消除优化语义分割所带来的误差；

(4.1)计算空间点的切平面法向量；

(4.5)提取簇内点数最多的前k类点，剩下的点按照就近原则归类；

(5)进行语义建图，对空间点云进行拼接，得到由密集离散的点组成的点云语义地图；

作为本发明的优选实施方式，所述的步骤(1)中的嵌入式处理器包括NVIDIAJETSON TX2***。

作为本发明的优选实施方式，所述的步骤(4.1)中的计算空间点的切平面法向量，具体为：

根据以下公式计算空间点的切平面法向量：

其中，w∈R^3×1为该平面的单位法向量，a为特征值。

该基于上述方法的基于空洞卷积深度神经网络实现视觉SLAM语义建图功能的***，其中，所述的***包括：

嵌入式开发处理器，用于构建视觉SLAM语义地图；

(2.2)通过3D点对求解相机当前位姿；

(2.3)通过图优化Bundle Adjustment的方法进行更精确的位姿估计；

(3.1)通过基于改进空洞卷积的GoogLeNet的特征提取层；

(3.2)通过基于改进空洞卷积的GoogLeNet的多尺度提取层；

(3.2.1)基于空间金字塔池化进行多尺度处理；

(3.3)根据提取结果对图像进行分类；

(4)通过流形聚类消除优化语义分割所带来的误差；

(4.1)计算空间点的切平面法向量；

根据以下公式计算空间点的切平面法向量：

其中，w∈R^3×1为该平面的单位法向量，a为特征值。

本发明的具体实施方式中，本发明涉及无人机器人***实时定位与建图的技术领域，是一种基于空洞卷积深度神经网络的视觉SLAM语义建图方法及***。***采用嵌入式开发处理器，通过对RGB-D相机采集到的彩色数据和深度数据，利用视觉SLAM技术，提取图像特征点，进行特征匹配，再利用Bundle Adjustment的方法得到更精确的机器人位姿估计，使用回环检测消除帧间的累计误差。在获得机器人实时定位信息的同时，采用了一种针对GoogLeNet深度神经网络的空洞卷积设计方法，利用改进深度神经网络实现实时语义分割的特征提取，将语义分割结果结合视觉SLAM***得到语义级的建图，并通过流形聚类消除优化语义分割所带来的误差，通过八叉树建图后，空间网络地图具有更高级的语义信息，并且构建出的语义地图更加准确。

该基于上述***基于空洞卷积深度神经网络实现视觉SLAM语义建图功能的方法，其中，包括以下步骤：

(1)采用嵌入式开发处理器，通过RGB-D摄像头获取当前环境的彩色信息与深度信息；

(2)对由相机采集得到的图像，利用视觉SLAM技术，提取图像特征点，进行特征匹配得到特征点匹配对；利用3D点对求解相机当前位姿；利用图优化Bundle Adjustment的方法进行更精确的位姿估计；使用回环检测消除帧间的累计误差，并获得场景空间点云数据；

(3)利用深度学习对图像进行像素级语义分割，利用图像坐标系和世界坐标系的关系映射到空间中，使得每一个空间点都具有语义标注信息；

(4)采用流形聚类优化语义分割带来的误差；

(5)进行语义建图，对空间点云进行拼接，最终得到一个由密集离散的点组成的点云语义地图。

在上述实例中，所述的步骤(1)所述的嵌入式处理器包括NVIDIA Jetson TX2***及同类设备。

在上述实例中，所述的步骤(2)中采用通用视觉SLAM及其局部改进技术。

在上述实例中，所述的步骤(3)中语义分割网络具体包括以下结构：

(31)特征提取层；

(32)多尺度提取层；

(33)分类层；

在上述实例中，所述的步骤(31)中所述的特征提取层具体包括以下结构：

(311)采用GoogLeNet网络结构作为DeepLab模型的前端特征提取层；

(312)将GoogLeNet网络结构中Inception(3b)之后的最大池化层步长修改为1，从而扩大了特征尺度，保证输出分辨率不变；

(313)将GoogLeNet网络结构中Inception(4a)部分使用空洞卷积代替，设置dilation为2，5×5的Pool，从而扩大特征尺度；

(314)将GoogLeNet网络结构中Inception(4b)部分使用空洞卷积代替，设置dilation为2，5×5的Pool，从而扩大特征尺度；

(315)将GoogLeNet网络结构中Inception(4c)部分使用空洞卷积代替，设置dilation为2，5×5的Pool，从而扩大特征尺度；

(316)将GoogLeNet网络结构中Inception(4d)部分使用空洞卷积代替，设置dilation为2，5×5的Pool，从而扩大特征尺度；

(317)将GoogLeNet网络结构中Inception(4e)部分使用空洞卷积代替，设置dilation为2，5×5的Pool，从而扩大特征尺度；

(316)将GoogLeNet网络结构中Inception(4e)之后的最大池化层步长修改为1，从而扩大了特征尺度，保证输出分辨率不变；

其中原始的GoogLeNet输入尺寸为224，特征输出尺寸为7，相当于缩小了32倍，将后两层池化层的步长修改为1，并将原有的普通卷积修改为空洞卷积，这样对于输入尺寸为321，特征图的输出尺寸为41，相当于缩小了8倍，从而扩大了特征尺度。

在上述实例中，所述的步骤(32)中所述的多尺度层具体包括以下结构：

(321)基于空间金字塔池化地方式进行多尺度处理；

(322)对空间金字塔池化模型进行优化，使用1×1卷积以及不同采样率(6、12、18)的空洞卷积提取不同尺度感受野的特征；

(323)将图像池化特征融合到模块中，然后将所得到的特征图像都经过1×1的卷积后融合(Concat)得到最后的特征，再放入Softmax层进行像素点语义分类。。

在上述实例中，所述地步骤(4)中所述的流形聚类具体包括以下步骤：

(41)计算每一个空间点的切平面法向量，设当前聚类类别c＝0；

(42)搜索一个还没有被分配类别的点x_i，如果所有点均已聚类，则执行步骤(85)，否则，设x_i类别为c＝c+1，并且创建一个空的队列q；

(43)计算空间点x_i的切平面法向量v_i和其距离小于0.01范围内所有点x_j的法向量v_j的夹角α_ij，如果α_ij＜σ或者α_ij＞175°，那么x_j和x_i归为一类，x_j类别为c，并将满足条件的x_j压入队列q中；

(44)如果队列q非空，则令x_i＝q₁，继续执行第3步，否则跳转到第1步；

(45)提取簇内点数最多的前k类点，剩下的点按照就近原则归类。

其中，步骤(41)中切平面法向量的计算步骤为：

设n个空间点组成矩阵

X的协方差矩阵∑＝E[(X-μ)(X-μ)^T]

设w∈R^3×1为这个平面的单位法向量，Z＝w^TX为这n个点在这个单位法向量上的投影长度，建立模型：

s.t.w^Tw＝1

利用拉格朗日乘子法求解：

对上式求偏导数得：

w需要单位化，上式中a对应特征值，即有

并且协方差矩阵是半正定矩阵，所以空间向量w为协方差矩阵的∑多对应特征值最小的单位特征向量。

在上述实例中，所述的步骤(5)中所述的建图算法具体包括以下步骤：

(51)生成每一帧点云信息时，根据RGB-D相机的精度特性，去除深度值太大或者无效的点云；

(52)采用统计滤波器方法去除孤立的空间点，计算每个空间点与它最近N个空间点的距离均值，去除距离均值过大的空间点，从而保留密集空间点，去掉了孤立的噪声点；

(53)利用空间网格原理，将所有的空间点云填充进空间网格中，保证每个空间网格仅只保留一个空间点，相当于对空间点云进行降采样，从而节省了很多存储空间。

其中，使用八叉树数据结构建立空间网络地图。

对于一个空间立方体，将其分为八个区域，相同的，每个子区域继续分割成八个区域，这样动态的创建一棵八叉树地图。

下面结合附图及具体实施例详细介绍，本发明的基于空洞卷积神经网络的视觉SLAM语义建图方法。

基于空洞卷积神经网络的视觉SLAM语义建图方法及***流程如图1所示：

由RGB-D摄像头采集的图像数据，挑选相似度不高的帧作为关键帧，关键帧包含彩色图像，深度图像和当前位姿，对彩色图像进行语义分割，首先通过使用基于改进空洞卷积的GoogLeNet的特征提取层，多尺度层，得到原始语义点云。对原始语义点云进行滤波操作，结合深度图像进行流行聚类，最终结合位姿信息一起进行八叉树建图，网络的改进提升了***的实时处理能力，能够在基于NVIDIAJETSON TX2的嵌入式平台上实时实现。

基于空洞卷积神经网络的视觉SLAM语义建图方法及***流程中，通过深度学习语义分割网络来获取图像的语义信息，***流程如图2所示，主要分为特征提取，多尺度提取和分类三个部分。

基于空洞卷积神经网络的视觉SLAM语义建图方法及***流程中使用的空洞卷积如图3所示：

将卷积和池化视作同种操作，假设中间紫色点部分作为输入，图的绿色部分为普通卷积过程，经过步长分别为2、1、2、1的卷积(或池化)过程后，得到特征。最上层的特征点所对应的感受野为整个输入层。

为了扩大特征尺寸，使用空洞卷积，为图中粉色部分，将步长全部改为1，第一层卷积步长改变后，令dilation为1，得到的特征数目扩大了两倍，在进行第二层卷积操作时，令dilation为2，即做卷积操作时，间隔1个点与卷积核卷积，得到特征还是原来普通卷积的两倍，且特征点的感受野不变，继续进行第三层卷积操作，同将步长改为1，为了保持相同的感受野，此时的dilation同样应该为2。在第四层卷积操作时，此时dilation要为4才能保持感受野不变。

在使用空洞卷积时需要注意：

s1.在上一层卷积操作的步长由stride_old变为stride_new，为了保持感受野不变，接下来所有的卷积层操作都要进行空洞率为

的带孔卷积；

s2.当前层空洞卷积操作的空洞率如以下公式。

其中N代表之前层步长改变次数，

为第N次步长的改变。

基于空洞卷积神经网络的视觉SLAM语义建图结果如图4所示。图中图像是在两个场景中实验的结果，左为办公室场景，右为实验室场景。图中第一行为本***输出的具有语义信息的建图结果，其中椅子、人、植物分别用红色、粉色、绿色标示；第二行为传统视觉SLAM建立的无语义信息的建图结果。实验结果表明，本发明能使机器人很好的理解当前场景中的主要目标。本发明所涉及的软件及算法均在NVIDIA Jetson TX2嵌入式平台上事项，其处理器图示如图5所示。

在此说明书中，本发明已参照其特定的实施例作了描述。但是，很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。

Claims

1.一种基于空洞卷积深度神经网络实现视觉SLAM语义建图功能的方法，其特征在于，所述的方法包括以下步骤：

(4)通过流形聚类消除优化语义分割所带来的误差；

所述的步骤(3)中的对图像进行像素级语义分割具体包括以下步骤：

(3.1)通过基于改进空洞卷积的GoogLeNet的特征提取层；

(3.2)通过基于改进空洞卷积的GoogLeNet的多尺度提取层；

(3.3)根据提取结果对图像进行分类；

所述的步骤(3.1)还包括特征提取层的设计过程，具体包括以下步骤：

(3.1.1)将GoogLeNet网络结构中Inception 3b之后的最大池化层步长修改为1；

(3.1.2)将GoogLeNet网络结构中Inception 4a、Inception 4b、Inception 4c、Inception 4d、Inception 4e部分使用空洞卷积代替，并设置空洞卷积为5×5且dilation为2的Pool；

(3.1.3)将GoogLeNet网络结构中Inception 4e之后的最大池化层步长修改为1；

所述的步骤(3.2)还包括多尺度提取层的设计过程，具体包括以下步骤：

(3.2.1)基于空间金字塔池化进行多尺度处理；

所述的步骤(4)具体包括以下步骤：

(4.1)计算空间点的切平面法向量；

所述的步骤(4.1)中的计算空间点的切平面法向量，具体为：

根据以下公式计算空间点的切平面法向量：

其中，w∈R^3×1为该平面的单位法向量，a为特征值；

所述的步骤(5)包括以下步骤：

2.根据权利要求1所述的基于空洞卷积深度神经网络实现视觉SLAM语义建图功能的方法，其特征在于，所述的步骤(1)中的嵌入式处理器包括NVIDIA JETSON TX2***。

3.根据权利要求1所述的基于空洞卷积深度神经网络实现视觉SLAM语义建图功能的方法，其特征在于，所述的步骤(2)包括以下步骤：

(2.2)通过3D点对求解相机当前位姿；

(2.3)通过图优化光束法平差的方法进行更精确的位姿估计；

4.一种基于空洞卷积深度神经网络实现视觉SLAM语义建图功能的***，其特征在于，所述的***包括：

嵌入式开发处理器，用于构建视觉SLAM语义地图；

(4)通过流形聚类消除优化语义分割所带来的误差；

(3.1)通过基于改进空洞卷积的GoogLeNet的特征提取层；

(3.2)通过基于改进空洞卷积的GoogLeNet的多尺度提取层；

(3.3)根据提取结果对图像进行分类；

(3.2.1)基于空间金字塔池化进行多尺度处理；

所述的步骤(4)具体包括以下步骤：

(4.1)计算空间点的切平面法向量；

所述的步骤(4.1)中的计算空间点的切平面法向量，具体为：

根据以下公式计算空间点的切平面法向量：

其中，w∈R^3×1为该平面的单位法向量，a为特征值；

所述的步骤(5)包括以下步骤：

5.根据权利要求4所述的基于空洞卷积深度神经网络实现视觉SLAM语义建图功能的***，其特征在于，所述的步骤(1)中的嵌入式处理器包括NVIDIA JETSON TX2***。

6.根据权利要求4所述的基于空洞卷积深度神经网络实现视觉SLAM语义建图功能的***，其特征在于，所述的步骤(2)包括以下步骤：

(2.2)通过3D点对求解相机当前位姿；

(2.3)通过图优化光束法平差的方法进行更精确的位姿估计；