CN109559320B - 基于空洞卷积深度神经网络实现视觉slam语义建图功能的方法及*** - Google Patents
基于空洞卷积深度神经网络实现视觉slam语义建图功能的方法及*** Download PDFInfo
- Publication number
- CN109559320B CN109559320B CN201811388678.6A CN201811388678A CN109559320B CN 109559320 B CN109559320 B CN 109559320B CN 201811388678 A CN201811388678 A CN 201811388678A CN 109559320 B CN109559320 B CN 109559320B
- Authority
- CN
- China
- Prior art keywords
- semantic
- points
- point
- space
- inclusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于空洞卷积深度神经网络实现视觉SLAM语义建图功能的方法,包括(1)嵌入式开发处理器通过RGB‑D摄像头获取当前环境的彩色信息与深度信息;(2)通过采集的图像得到特征点匹配对,并进行位姿估计,且获得场景空间点云数据;(3)利用深度学习对图像进行像素级语义分割,通过图像坐标系和世界坐标系映射,并使得空间点具有语义标注信息;(4)通过流形聚类消除优化语义分割所带来的误差;(5)进行语义建图,对空间点云进行拼接,得到由密集离散的点组成的点云语义地图。本发明还涉及一种基于空洞卷积深度神经网络实现视觉SLAM语义建图功能的***。采用了该方法及***,空间网络地图具有更高级的语义信息,更符合在实时建图过程中的使用需求。
Description
技术领域
本发明涉及无人***实时定位与建图领域,尤其涉及图像处理的语义分割领域,具体是指一种基于空洞卷积深度神经网络实现视觉SLAM语义建图功能的方法及***。
背景技术
近年来无人***发展迅速,自动驾驶、机器人和无人机都是典型的无人***。视觉SLAM(Simultaneous Localization and Mapping,即时定位与建图)***已被广泛的应用于无人***的定位与路径规划中,如由Mur-Artal等于2015年提出的ORB-SLAM(Mur-ArtalR,Montiel J M M,Tardós J D.ORB-SLAM:A Versatile and Accurate Monocular SLAMSystem[J].IEEE Transactions on Robotics,2015,31(5):1147-116)。视觉SLAM***中所建立的空间网络地图仅仅包含低级信息,比如色彩信息和距离信息,这样不利于机器人对当前场景的理解,所以我们在视觉SLAM***的构建过程中引入基于深度学习的语义分割网络,实现机器人对当前场景的语义及场景理解。
语义分割的目的是用于场景理解,实现了各类目标之间的精确分割,可以用于自动驾驶或者机器人来帮助识别目标和目标关系,如由GoogLe公司提出的DeepLab深度神经网络结构目前广泛应用于语义分割领域(L.-C.Chen,G.Papandreou,I.Kokkinos,K.Murphy,and A.L.Yuille.Deeplab:Semantic image segmentation with deepconvolutional nets,atrous convolution,and fully connected crfs.arXiv:1606.00915,2016).但由于该通用语义分割网络计算实时性差,在嵌入式***中难以应用。同时,语义分割也会来带边缘轮廓分割不明显、误检和漏检等情况。
我们将语义分割应用在视觉SLAM***语义建图中,从而使得所建立的空间网络地图中的每一个网络坐标点都具有高级的语义信息,让机器人对当前场景目标具有语义级理解,并且通过空间流形聚类算法优化语义分割所带来的误差,使得构建的语义地图更加准确。
发明内容
本发明的目的是克服了上述现有技术的缺点,提供了一种将深度学习与视觉SLAM相结合、使机器人对场景目标具有语义级理解、减少语义分割的误差的基于空洞卷积深度神经网络实现视觉SLAM语义建图功能的方法及***。
为了实现上述目的,本发明的基于空洞卷积深度神经网络实现视觉SLAM语义建图功能的方法及***如下:
该基于空洞卷积深度神经网络实现视觉SLAM语义建图功能的方法,其主要特点是,所述的方法包括以下步骤:
(1)嵌入式开发处理器通过RGB-D摄像头获取当前环境的彩色信息与深度信息;
(2)通过采集的图像得到特征点匹配对,并进行位姿估计,且获得场景空间点云数据;
(3)利用深度学习对图像进行像素级语义分割,通过图像坐标系和世界坐标系映射,并使得空间点具有语义标注信息;
(4)通过流形聚类消除优化语义分割所带来的误差;
(5)进行语义建图,对空间点云进行拼接,得到由密集离散的点组成的点云语义地图。
其中,所述的步骤(1)中的嵌入式处理器包括NVIDIA JETSON TX2***。
较佳地,所述的步骤(2)包括以下步骤:
(2.1)通过视觉SLAM技术提取图像特征点,进行特征匹配得到特征点匹配对;
(2.2)通过3D点对求解相机当前位姿;
(2.3)通过图优化Bundle Adjustment的方法进行更精确的位姿估计;
(2.4)通过回环检测消除帧间的累计误差,并获得场景空间点云数据。
较佳地,所述的步骤(3)中的对图像进行像素级语义分割具体包括以下步骤:
(3.1)通过基于改进空洞卷积的GoogLeNet的特征提取层;
(3.2)通过基于改进空洞卷积的GoogLeNet的多尺度提取层;
(3.3)根据提取结果对图像进行分类。
较佳地,所述的步骤(3.1)还包括特征提取层的设计过程,具体包括以下步骤:
(3.1.1)将GoogLeNet网络结构中Inception(3b)之后的最大池化层步长修改为1;
(3.1.2)将GoogLeNet网络结构中Inception(4a)、Inception(4b)、Inception(4c)、Inception(4d)、Inception(4e)部分使用空洞卷积代替,并设置空洞卷积为5×5且dilation为2的Pool;
(3.1.3)将GoogLeNet网络结构中Inception(4e)之后的最大池化层步长修改为1。
较佳地,所述的步骤(3.2)还包括多尺度提取层的设计过程,具体包括以下步骤:
(3.2.1)基于空间金字塔池化进行多尺度处理;
(3.2.2)通过1×1卷积和不同采样率的空洞卷积提取不同尺度的特征图像;
(3.2.3)融合图像池化特征到模块中,将所述的特征图像经过1×1的卷积融合得到特征,并放入Softmax层进行像素点语义分类。
较佳地,所述的步骤(4)具体包括以下步骤:
(4.1)计算空间点的切平面法向量;
(4.2)搜索未被分配类别的点xi,判断是否所有点均已聚类,如果是,则继续步骤(4.5);否则,xi类别为c=c+1,并创建空队列q;
(4.3)计算空间点xi的切平面法向量vi和距其小于0.01范围内所有点xj的法向量vj的夹角αij,判断是否存在αij<σ或者αij>175°,如果是,则xj和xi归为一类,xj类别为c,并将满足条件的xj压入队列q中;否则,继续步骤(4.4);
(4.4)判断队列q是否非空,如果是,则令xi=q1,继续步骤(4.3);否则继续步骤(4.1);
(4.5)提取簇内点数最多的前k类点,剩下的点按照就近原则归类。
较佳地,所述的步骤(4.1)中的计算空间点的切平面法向量,具体为:
根据以下公式计算空间点的切平面法向量:
其中,w∈R3×1为该平面的单位法向量,a为特征值。
较佳地,所述的步骤(5)包括以下步骤:
(5.1)根据RGB-D相机的精度特性,去除深度值太大或无效的点云;
(5.2)通过统计滤波器方法去除孤立的空间点,计算每个空间点与它最近N个空间点的距离均值,去除距离均值过大的空间点;
(5.3)通过空间网格原理,将所有空间点云填充进空间网格,使得每个空间网格只保留一个空间点。
该基于上述方法的基于空洞卷积深度神经网络实现视觉SLAM语义建图功能的***,其主要特点是,所述的***包括:
嵌入式开发处理器,用于构建视觉SLAM语义地图;
RGB-D相机,与所述的嵌入式开发处理器相连接,用于采集彩色数据和深度数据;
建图程序,所述的建图程序在运行时根据深度学习与视觉SLAM,通过嵌入式开发处理器和RGB-D相机实现视觉SLAM语义建图,具体进行以下步骤处理:
(1)嵌入式开发处理器通过RGB-D摄像头获取当前环境的彩色信息与深度信息;
(2)通过采集的图像得到特征点匹配对,并进行位姿估计,且获得场景空间点云数据;
(3)利用深度学习对图像进行像素级语义分割,通过图像坐标系和世界坐标系映射,并使得空间点具有语义标注信息;
(4)通过流形聚类消除优化语义分割所带来的误差;
(5)进行语义建图,对空间点云进行拼接,得到由密集离散的点组成的点云语义地图。
较佳地,所述的步骤(1)中的嵌入式处理器包括NVIDIA JETSON TX2***。
较佳地,所述的步骤(2)包括以下步骤:
(2.1)通过视觉SLAM技术提取图像特征点,进行特征匹配得到特征点匹配对;
(2.2)通过3D点对求解相机当前位姿;
(2.3)通过图优化Bundle Adjustment的方法进行更精确的位姿估计;
(2.4)通过回环检测消除帧间的累计误差,并获得场景空间点云数据。
较佳地,所述的步骤(3)中的对图像进行像素级语义分割具体包括以下步骤:
(3.1)通过基于改进空洞卷积的GoogLeNet的特征提取层;
(3.2)通过基于改进空洞卷积的GoogLeNet的多尺度提取层;
(3.3)根据提取结果对图像进行分类。
较佳地,所述的步骤(3.1)还包括特征提取层的设计过程,具体包括以下步骤:
(3.1.1)将GoogLeNet网络结构中Inception(3b)之后的最大池化层步长修改为1;
(3.1.2)将GoogLeNet网络结构中Inception(4a)、Inception(4b)、Inception(4c)、Inception(4d)、Inception(4e)部分使用空洞卷积代替,并设置空洞卷积为5×5且dilation为2的Pool;
(3.1.3)将GoogLeNet网络结构中Inception(4e)之后的最大池化层步长修改为1。
较佳地,所述的步骤(3.2)还包括多尺度提取层的设计过程,具体包括以下步骤:
(3.2.1)基于空间金字塔池化进行多尺度处理;
(3.2.2)通过1×1卷积和不同采样率的空洞卷积提取不同尺度的特征图像;
(3.2.3)融合图像池化特征到模块中,将所述的特征图像经过1×1的卷积融合得到特征,并放入Softmax层进行像素点语义分类。
较佳地,所述的步骤(4)具体包括以下步骤:
(4.1)计算空间点的切平面法向量;
(4.2)搜索未被分配类别的点xi,判断是否所有点均已聚类,如果是,则继续步骤(4.5);否则,xi类别为c=c+1,并创建空队列q;
(4.3)计算空间点xi的切平面法向量vi和距其小于0.01范围内所有点xj的法向量vj的夹角αij,判断是否存在αij<σ或者αij>175°,如果是,则xj和xi归为一类,xj类别为c,并将满足条件的xj压入队列q中;否则,继续步骤(4.4);
(4.4)判断队列q是否非空,如果是,则令xi=q1,继续步骤(4.3);否则继续步骤(4.1);
(4.5)提取簇内点数最多的前k类点,剩下的点按照就近原则归类。
较佳地,所述的步骤(4.1)中的计算空间点的切平面法向量,具体为:
根据以下公式计算空间点的切平面法向量:
其中,w∈R3×1为该平面的单位法向量,a为特征值。
较佳地,所述的步骤(5)包括以下步骤:
(5.1)根据RGB-D相机的精度特性,去除深度值太大或无效的点云;
(5.2)通过统计滤波器方法去除孤立的空间点,计算每个空间点与它最近N个空间点的距离均值,去除距离均值过大的空间点;
(5.3)通过空间网格原理,将所有空间点云填充进空间网格,使得每个空间网格只保留一个空间点。
采用了本发明的基于空洞卷积深度神经网络实现视觉SLAM语义建图功能的方法及***,***采用嵌入式开发处理器,通过对RGB-D相机采集到的彩色数据和深度数据,利用视觉SLAM技术,提取图像特征点,进行特征匹配,再利用Bundle Adjustment的方法得到更精确的机器人位姿估计,使用回环检测消除帧间的累计误差。在获得机器人实时定位信息的同时,采用了一种针对GoogLeNet深度神经网络的空洞卷积设计方法,利用改进深度神经网络实现实时语义分割的特征提取,将语义分割结果结合视觉SLAM***得到语义级的建图。并通过流形聚类消除优化语义分割所带来的误差,通过八叉树建图后,空间网络地图具有更高级的语义信息,并且构建出的语义地图更加准确。网络的改进提升了***的实时处理能力,本方法和***的语义分割网络在NVIDIA Jetson TX2台上的时间消耗为0.099s/幅,符合在实时建图过程中的使用需求。
附图说明
图1为本发明的基于空洞卷积深度神经网络实现视觉SLAM语义建图功能的方法的流程图。
图2为本发明的基于空洞卷积深度神经网络实现视觉SLAM语义建图功能的方法的语义分割流程图。
图3为本发明的基于空洞卷积深度神经网络实现视觉SLAM语义建图功能的方法的空洞卷积示意图。
图4为本发明的基于空洞卷积深度神经网络实现视觉SLAM语义建图功能的方法的实验结果示意图。
图5为本发明的基于空洞卷积深度神经网络实现视觉SLAM语义建图功能的方法及***的NVIDIA Jetson TX2处理器示意图。
具体实施方式
为了能够更清楚地描述本发明的技术内容,下面结合具体实施例来进行进一步的描述。
该基于空洞卷积深度神经网络实现视觉SLAM语义建图功能的方法,其中,所述的方法包括以下步骤:
(1)嵌入式开发处理器通过RGB-D摄像头获取当前环境的彩色信息与深度信息;
(2)通过采集的图像得到特征点匹配对,并进行位姿估计,且获得场景空间点云数据;
(2.1)通过视觉SLAM技术提取图像特征点,进行特征匹配得到特征点匹配对;
(2.2)通过3D点对求解相机当前位姿;
(2.3)通过图优化Bundle Adjustment的方法进行更精确的位姿估计;
(2.4)通过回环检测消除帧间的累计误差,并获得场景空间点云数据;
(3)利用深度学习对图像进行像素级语义分割,通过图像坐标系和世界坐标系映射,并使得空间点具有语义标注信息;
(3.1)通过基于改进空洞卷积的GoogLeNet的特征提取层;
(3.1.1)将GoogLeNet网络结构中Inception(3b)之后的最大池化层步长修改为1;
(3.1.2)将GoogLeNet网络结构中Inception(4a)、Inception(4b)、Inception(4c)、Inception(4d)、Inception(4e)部分使用空洞卷积代替,并设置空洞卷积为5×5且dilation为2的Pool;
(3.1.3)将GoogLeNet网络结构中Inception(4e)之后的最大池化层步长修改为1;
(3.2)通过基于改进空洞卷积的GoogLeNet的多尺度提取层;
(3.2.1)基于空间金字塔池化进行多尺度处理;
(3.2.2)通过1×1卷积和不同采样率的空洞卷积提取不同尺度的特征图像;
(3.2.3)融合图像池化特征到模块中,将所述的特征图像经过1×1的卷积融合得到特征,并放入Softmax层进行像素点语义分类;
(3.3)根据提取结果对图像进行分类;
(4)通过流形聚类消除优化语义分割所带来的误差;
(4.1)计算空间点的切平面法向量;
(4.2)搜索未被分配类别的点xi,判断是否所有点均已聚类,如果是,则继续步骤(4.5);否则,xi类别为c=c+1,并创建空队列q;
(4.3)计算空间点xi的切平面法向量vi和距其小于0.01范围内所有点xj的法向量vj的夹角αij,判断是否存在αij<σ或者αij>175°,如果是,则xj和xi归为一类,xj类别为c,并将满足条件的xj压入队列q中;否则,继续步骤(4.4);
(4.4)判断队列q是否非空,如果是,则令xi=q1,继续步骤(4.3);否则继续步骤(4.1);
(4.5)提取簇内点数最多的前k类点,剩下的点按照就近原则归类;
(5)进行语义建图,对空间点云进行拼接,得到由密集离散的点组成的点云语义地图;
(5.1)根据RGB-D相机的精度特性,去除深度值太大或无效的点云;
(5.2)通过统计滤波器方法去除孤立的空间点,计算每个空间点与它最近N个空间点的距离均值,去除距离均值过大的空间点;
(5.3)通过空间网格原理,将所有空间点云填充进空间网格,使得每个空间网格只保留一个空间点。
作为本发明的优选实施方式,所述的步骤(1)中的嵌入式处理器包括NVIDIAJETSON TX2***。
作为本发明的优选实施方式,所述的步骤(4.1)中的计算空间点的切平面法向量,具体为:
根据以下公式计算空间点的切平面法向量:
其中,w∈R3×1为该平面的单位法向量,a为特征值。
该基于上述方法的基于空洞卷积深度神经网络实现视觉SLAM语义建图功能的***,其中,所述的***包括:
嵌入式开发处理器,用于构建视觉SLAM语义地图;
RGB-D相机,与所述的嵌入式开发处理器相连接,用于采集彩色数据和深度数据;
建图程序,所述的建图程序在运行时根据深度学习与视觉SLAM,通过嵌入式开发处理器和RGB-D相机实现视觉SLAM语义建图,具体进行以下步骤处理:
(1)嵌入式开发处理器通过RGB-D摄像头获取当前环境的彩色信息与深度信息;
(2)通过采集的图像得到特征点匹配对,并进行位姿估计,且获得场景空间点云数据;
(2.1)通过视觉SLAM技术提取图像特征点,进行特征匹配得到特征点匹配对;
(2.2)通过3D点对求解相机当前位姿;
(2.3)通过图优化Bundle Adjustment的方法进行更精确的位姿估计;
(2.4)通过回环检测消除帧间的累计误差,并获得场景空间点云数据;
(3)利用深度学习对图像进行像素级语义分割,通过图像坐标系和世界坐标系映射,并使得空间点具有语义标注信息;
(3.1)通过基于改进空洞卷积的GoogLeNet的特征提取层;
(3.1.1)将GoogLeNet网络结构中Inception(3b)之后的最大池化层步长修改为1;
(3.1.2)将GoogLeNet网络结构中Inception(4a)、Inception(4b)、Inception(4c)、Inception(4d)、Inception(4e)部分使用空洞卷积代替,并设置空洞卷积为5×5且dilation为2的Pool;
(3.1.3)将GoogLeNet网络结构中Inception(4e)之后的最大池化层步长修改为1;
(3.2)通过基于改进空洞卷积的GoogLeNet的多尺度提取层;
(3.2.1)基于空间金字塔池化进行多尺度处理;
(3.2.2)通过1×1卷积和不同采样率的空洞卷积提取不同尺度的特征图像;
(3.2.3)融合图像池化特征到模块中,将所述的特征图像经过1×1的卷积融合得到特征,并放入Softmax层进行像素点语义分类;
(3.3)根据提取结果对图像进行分类;
(4)通过流形聚类消除优化语义分割所带来的误差;
(4.1)计算空间点的切平面法向量;
(4.2)搜索未被分配类别的点xi,判断是否所有点均已聚类,如果是,则继续步骤(4.5);否则,xi类别为c=c+1,并创建空队列q;
(4.3)计算空间点xi的切平面法向量vi和距其小于0.01范围内所有点xj的法向量vj的夹角αij,判断是否存在αij<σ或者αij>175°,如果是,则xj和xi归为一类,xj类别为c,并将满足条件的xj压入队列q中;否则,继续步骤(4.4);
(4.4)判断队列q是否非空,如果是,则令xi=q1,继续步骤(4.3);否则继续步骤(4.1);
(4.5)提取簇内点数最多的前k类点,剩下的点按照就近原则归类;
(5)进行语义建图,对空间点云进行拼接,得到由密集离散的点组成的点云语义地图;
(5.1)根据RGB-D相机的精度特性,去除深度值太大或无效的点云;
(5.2)通过统计滤波器方法去除孤立的空间点,计算每个空间点与它最近N个空间点的距离均值,去除距离均值过大的空间点;
(5.3)通过空间网格原理,将所有空间点云填充进空间网格,使得每个空间网格只保留一个空间点。
作为本发明的优选实施方式,所述的步骤(1)中的嵌入式处理器包括NVIDIAJETSON TX2***。
作为本发明的优选实施方式,所述的步骤(4.1)中的计算空间点的切平面法向量,具体为:
根据以下公式计算空间点的切平面法向量:
其中,w∈R3×1为该平面的单位法向量,a为特征值。
本发明的具体实施方式中,本发明涉及无人机器人***实时定位与建图的技术领域,是一种基于空洞卷积深度神经网络的视觉SLAM语义建图方法及***。***采用嵌入式开发处理器,通过对RGB-D相机采集到的彩色数据和深度数据,利用视觉SLAM技术,提取图像特征点,进行特征匹配,再利用Bundle Adjustment的方法得到更精确的机器人位姿估计,使用回环检测消除帧间的累计误差。在获得机器人实时定位信息的同时,采用了一种针对GoogLeNet深度神经网络的空洞卷积设计方法,利用改进深度神经网络实现实时语义分割的特征提取,将语义分割结果结合视觉SLAM***得到语义级的建图,并通过流形聚类消除优化语义分割所带来的误差,通过八叉树建图后,空间网络地图具有更高级的语义信息,并且构建出的语义地图更加准确。
该基于上述***基于空洞卷积深度神经网络实现视觉SLAM语义建图功能的方法,其中,包括以下步骤:
(1)采用嵌入式开发处理器,通过RGB-D摄像头获取当前环境的彩色信息与深度信息;
(2)对由相机采集得到的图像,利用视觉SLAM技术,提取图像特征点,进行特征匹配得到特征点匹配对;利用3D点对求解相机当前位姿;利用图优化Bundle Adjustment的方法进行更精确的位姿估计;使用回环检测消除帧间的累计误差,并获得场景空间点云数据;
(3)利用深度学习对图像进行像素级语义分割,利用图像坐标系和世界坐标系的关系映射到空间中,使得每一个空间点都具有语义标注信息;
(4)采用流形聚类优化语义分割带来的误差;
(5)进行语义建图,对空间点云进行拼接,最终得到一个由密集离散的点组成的点云语义地图。
在上述实例中,所述的步骤(1)所述的嵌入式处理器包括NVIDIA Jetson TX2***及同类设备。
在上述实例中,所述的步骤(2)中采用通用视觉SLAM及其局部改进技术。
在上述实例中,所述的步骤(3)中语义分割网络具体包括以下结构:
(31)特征提取层;
(32)多尺度提取层;
(33)分类层;
在上述实例中,所述的步骤(31)中所述的特征提取层具体包括以下结构:
(311)采用GoogLeNet网络结构作为DeepLab模型的前端特征提取层;
(312)将GoogLeNet网络结构中Inception(3b)之后的最大池化层步长修改为1,从而扩大了特征尺度,保证输出分辨率不变;
(313)将GoogLeNet网络结构中Inception(4a)部分使用空洞卷积代替,设置dilation为2,5×5的Pool,从而扩大特征尺度;
(314)将GoogLeNet网络结构中Inception(4b)部分使用空洞卷积代替,设置dilation为2,5×5的Pool,从而扩大特征尺度;
(315)将GoogLeNet网络结构中Inception(4c)部分使用空洞卷积代替,设置dilation为2,5×5的Pool,从而扩大特征尺度;
(316)将GoogLeNet网络结构中Inception(4d)部分使用空洞卷积代替,设置dilation为2,5×5的Pool,从而扩大特征尺度;
(317)将GoogLeNet网络结构中Inception(4e)部分使用空洞卷积代替,设置dilation为2,5×5的Pool,从而扩大特征尺度;
(316)将GoogLeNet网络结构中Inception(4e)之后的最大池化层步长修改为1,从而扩大了特征尺度,保证输出分辨率不变;
其中原始的GoogLeNet输入尺寸为224,特征输出尺寸为7,相当于缩小了32倍,将后两层池化层的步长修改为1,并将原有的普通卷积修改为空洞卷积,这样对于输入尺寸为321,特征图的输出尺寸为41,相当于缩小了8倍,从而扩大了特征尺度。
在上述实例中,所述的步骤(32)中所述的多尺度层具体包括以下结构:
(321)基于空间金字塔池化地方式进行多尺度处理;
(322)对空间金字塔池化模型进行优化,使用1×1卷积以及不同采样率(6、12、18)的空洞卷积提取不同尺度感受野的特征;
(323)将图像池化特征融合到模块中,然后将所得到的特征图像都经过1×1的卷积后融合(Concat)得到最后的特征,再放入Softmax层进行像素点语义分类。。
在上述实例中,所述地步骤(4)中所述的流形聚类具体包括以下步骤:
(41)计算每一个空间点的切平面法向量,设当前聚类类别c=0;
(42)搜索一个还没有被分配类别的点xi,如果所有点均已聚类,则执行步骤(85),否则,设xi类别为c=c+1,并且创建一个空的队列q;
(43)计算空间点xi的切平面法向量vi和其距离小于0.01范围内所有点xj的法向量vj的夹角αij,如果αij<σ或者αij>175°,那么xj和xi归为一类,xj类别为c,并将满足条件的xj压入队列q中;
(44)如果队列q非空,则令xi=q1,继续执行第3步,否则跳转到第1步;
(45)提取簇内点数最多的前k类点,剩下的点按照就近原则归类。
其中,步骤(41)中切平面法向量的计算步骤为:
设w∈R3×1为这个平面的单位法向量,Z=wTX为这n个点在这个单位法向量上的投影长度,建立模型:
s.t.wTw=1
利用拉格朗日乘子法求解:
对上式求偏导数得:
在上述实例中,所述的步骤(5)中所述的建图算法具体包括以下步骤:
(51)生成每一帧点云信息时,根据RGB-D相机的精度特性,去除深度值太大或者无效的点云;
(52)采用统计滤波器方法去除孤立的空间点,计算每个空间点与它最近N个空间点的距离均值,去除距离均值过大的空间点,从而保留密集空间点,去掉了孤立的噪声点;
(53)利用空间网格原理,将所有的空间点云填充进空间网格中,保证每个空间网格仅只保留一个空间点,相当于对空间点云进行降采样,从而节省了很多存储空间。
其中,使用八叉树数据结构建立空间网络地图。
对于一个空间立方体,将其分为八个区域,相同的,每个子区域继续分割成八个区域,这样动态的创建一棵八叉树地图。
下面结合附图及具体实施例详细介绍,本发明的基于空洞卷积神经网络的视觉SLAM语义建图方法。
基于空洞卷积神经网络的视觉SLAM语义建图方法及***流程如图1所示:
由RGB-D摄像头采集的图像数据,挑选相似度不高的帧作为关键帧,关键帧包含彩色图像,深度图像和当前位姿,对彩色图像进行语义分割,首先通过使用基于改进空洞卷积的GoogLeNet的特征提取层,多尺度层,得到原始语义点云。对原始语义点云进行滤波操作,结合深度图像进行流行聚类,最终结合位姿信息一起进行八叉树建图,网络的改进提升了***的实时处理能力,能够在基于NVIDIAJETSON TX2的嵌入式平台上实时实现。
基于空洞卷积神经网络的视觉SLAM语义建图方法及***流程中,通过深度学习语义分割网络来获取图像的语义信息,***流程如图2所示,主要分为特征提取,多尺度提取和分类三个部分。
基于空洞卷积神经网络的视觉SLAM语义建图方法及***流程中使用的空洞卷积如图3所示:
将卷积和池化视作同种操作,假设中间紫色点部分作为输入,图的绿色部分为普通卷积过程,经过步长分别为2、1、2、1的卷积(或池化)过程后,得到特征。最上层的特征点所对应的感受野为整个输入层。
为了扩大特征尺寸,使用空洞卷积,为图中粉色部分,将步长全部改为1,第一层卷积步长改变后,令dilation为1,得到的特征数目扩大了两倍,在进行第二层卷积操作时,令dilation为2,即做卷积操作时,间隔1个点与卷积核卷积,得到特征还是原来普通卷积的两倍,且特征点的感受野不变,继续进行第三层卷积操作,同将步长改为1,为了保持相同的感受野,此时的dilation同样应该为2。在第四层卷积操作时,此时dilation要为4才能保持感受野不变。
在使用空洞卷积时需要注意:
s2.当前层空洞卷积操作的空洞率如以下公式。
基于空洞卷积神经网络的视觉SLAM语义建图结果如图4所示。图中图像是在两个场景中实验的结果,左为办公室场景,右为实验室场景。图中第一行为本***输出的具有语义信息的建图结果,其中椅子、人、植物分别用红色、粉色、绿色标示;第二行为传统视觉SLAM建立的无语义信息的建图结果。实验结果表明,本发明能使机器人很好的理解当前场景中的主要目标。本发明所涉及的软件及算法均在NVIDIA Jetson TX2嵌入式平台上事项,其处理器图示如图5所示。
采用了本发明的基于空洞卷积深度神经网络实现视觉SLAM语义建图功能的方法及***,***采用嵌入式开发处理器,通过对RGB-D相机采集到的彩色数据和深度数据,利用视觉SLAM技术,提取图像特征点,进行特征匹配,再利用Bundle Adjustment的方法得到更精确的机器人位姿估计,使用回环检测消除帧间的累计误差。在获得机器人实时定位信息的同时,采用了一种针对GoogLeNet深度神经网络的空洞卷积设计方法,利用改进深度神经网络实现实时语义分割的特征提取,将语义分割结果结合视觉SLAM***得到语义级的建图。并通过流形聚类消除优化语义分割所带来的误差,通过八叉树建图后,空间网络地图具有更高级的语义信息,并且构建出的语义地图更加准确。网络的改进提升了***的实时处理能力,本方法和***的语义分割网络在NVIDIA Jetson TX2台上的时间消耗为0.099s/幅,符合在实时建图过程中的使用需求。
在此说明书中,本发明已参照其特定的实施例作了描述。但是,很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此,说明书和附图应被认为是说明性的而非限制性的。
Claims (6)
1.一种基于空洞卷积深度神经网络实现视觉SLAM语义建图功能的方法,其特征在于,所述的方法包括以下步骤:
(1)嵌入式开发处理器通过RGB-D摄像头获取当前环境的彩色信息与深度信息;
(2)通过采集的图像得到特征点匹配对,并进行位姿估计,且获得场景空间点云数据;
(3)利用深度学习对图像进行像素级语义分割,通过图像坐标系和世界坐标系映射,并使得空间点具有语义标注信息;
(4)通过流形聚类消除优化语义分割所带来的误差;
(5)进行语义建图,对空间点云进行拼接,得到由密集离散的点组成的点云语义地图;
所述的步骤(3)中的对图像进行像素级语义分割具体包括以下步骤:
(3.1)通过基于改进空洞卷积的GoogLeNet的特征提取层;
(3.2)通过基于改进空洞卷积的GoogLeNet的多尺度提取层;
(3.3)根据提取结果对图像进行分类;
所述的步骤(3.1)还包括特征提取层的设计过程,具体包括以下步骤:
(3.1.1)将GoogLeNet网络结构中Inception 3b之后的最大池化层步长修改为1;
(3.1.2)将GoogLeNet网络结构中Inception 4a、Inception 4b、Inception 4c、Inception 4d、Inception 4e部分使用空洞卷积代替,并设置空洞卷积为5×5且dilation为2的Pool;
(3.1.3)将GoogLeNet网络结构中Inception 4e之后的最大池化层步长修改为1;
所述的步骤(3.2)还包括多尺度提取层的设计过程,具体包括以下步骤:
(3.2.1)基于空间金字塔池化进行多尺度处理;
(3.2.2)通过1×1卷积和不同采样率的空洞卷积提取不同尺度的特征图像;
(3.2.3)融合图像池化特征到模块中,将所述的特征图像经过1×1的卷积融合得到特征,并放入Softmax层进行像素点语义分类;
所述的步骤(4)具体包括以下步骤:
(4.1)计算空间点的切平面法向量;
(4.2)搜索未被分配类别的点xi,判断是否所有点均已聚类,如果是,则继续步骤(4.5);否则,xi类别为c=c+1,并创建空队列q;
(4.3)计算空间点xi的切平面法向量vi和距其小于0.01范围内所有点xj的法向量vj的夹角αij,判断是否存在αij<σ或者αij>175°,如果是,则xj和xi归为一类,xj类别为c,并将满足条件的xj压入队列q中;否则,继续步骤(4.4);
(4.4)判断队列q是否非空,如果是,则令xi=q1,继续步骤(4.3);否则继续步骤(4.1);
(4.5)提取簇内点数最多的前k类点,剩下的点按照就近原则归类;
所述的步骤(4.1)中的计算空间点的切平面法向量,具体为:
根据以下公式计算空间点的切平面法向量:
其中,w∈R3×1为该平面的单位法向量,a为特征值;
所述的步骤(5)包括以下步骤:
(5.1)根据RGB-D相机的精度特性,去除深度值太大或无效的点云;
(5.2)通过统计滤波器方法去除孤立的空间点,计算每个空间点与它最近N个空间点的距离均值,去除距离均值过大的空间点;
(5.3)通过空间网格原理,将所有空间点云填充进空间网格,使得每个空间网格只保留一个空间点。
2.根据权利要求1所述的基于空洞卷积深度神经网络实现视觉SLAM语义建图功能的方法,其特征在于,所述的步骤(1)中的嵌入式处理器包括NVIDIA JETSON TX2***。
3.根据权利要求1所述的基于空洞卷积深度神经网络实现视觉SLAM语义建图功能的方法,其特征在于,所述的步骤(2)包括以下步骤:
(2.1)通过视觉SLAM技术提取图像特征点,进行特征匹配得到特征点匹配对;
(2.2)通过3D点对求解相机当前位姿;
(2.3)通过图优化光束法平差的方法进行更精确的位姿估计;
(2.4)通过回环检测消除帧间的累计误差,并获得场景空间点云数据。
4.一种基于空洞卷积深度神经网络实现视觉SLAM语义建图功能的***,其特征在于,所述的***包括:
嵌入式开发处理器,用于构建视觉SLAM语义地图;
RGB-D相机,与所述的嵌入式开发处理器相连接,用于采集彩色数据和深度数据;
建图程序,所述的建图程序在运行时根据深度学习与视觉SLAM,通过嵌入式开发处理器和RGB-D相机实现视觉SLAM语义建图,具体进行以下步骤处理:
(1)嵌入式开发处理器通过RGB-D摄像头获取当前环境的彩色信息与深度信息;
(2)通过采集的图像得到特征点匹配对,并进行位姿估计,且获得场景空间点云数据;
(3)利用深度学习对图像进行像素级语义分割,通过图像坐标系和世界坐标系映射,并使得空间点具有语义标注信息;
(4)通过流形聚类消除优化语义分割所带来的误差;
(5)进行语义建图,对空间点云进行拼接,得到由密集离散的点组成的点云语义地图;
所述的步骤(3)中的对图像进行像素级语义分割具体包括以下步骤:
(3.1)通过基于改进空洞卷积的GoogLeNet的特征提取层;
(3.2)通过基于改进空洞卷积的GoogLeNet的多尺度提取层;
(3.3)根据提取结果对图像进行分类;
所述的步骤(3.1)还包括特征提取层的设计过程,具体包括以下步骤:
(3.1.1)将GoogLeNet网络结构中Inception 3b之后的最大池化层步长修改为1;
(3.1.2)将GoogLeNet网络结构中Inception 4a、Inception 4b、Inception 4c、Inception 4d、Inception 4e部分使用空洞卷积代替,并设置空洞卷积为5×5且dilation为2的Pool;
(3.1.3)将GoogLeNet网络结构中Inception 4e之后的最大池化层步长修改为1;
所述的步骤(3.2)还包括多尺度提取层的设计过程,具体包括以下步骤:
(3.2.1)基于空间金字塔池化进行多尺度处理;
(3.2.2)通过1×1卷积和不同采样率的空洞卷积提取不同尺度的特征图像;
(3.2.3)融合图像池化特征到模块中,将所述的特征图像经过1×1的卷积融合得到特征,并放入Softmax层进行像素点语义分类;
所述的步骤(4)具体包括以下步骤:
(4.1)计算空间点的切平面法向量;
(4.2)搜索未被分配类别的点xi,判断是否所有点均已聚类,如果是,则继续步骤(4.5);否则,xi类别为c=c+1,并创建空队列q;
(4.3)计算空间点xi的切平面法向量vi和距其小于0.01范围内所有点xj的法向量vj的夹角αij,判断是否存在αij<σ或者αij>175°,如果是,则xj和xi归为一类,xj类别为c,并将满足条件的xj压入队列q中;否则,继续步骤(4.4);
(4.4)判断队列q是否非空,如果是,则令xi=q1,继续步骤(4.3);否则继续步骤(4.1);
(4.5)提取簇内点数最多的前k类点,剩下的点按照就近原则归类;
所述的步骤(4.1)中的计算空间点的切平面法向量,具体为:
根据以下公式计算空间点的切平面法向量:
其中,w∈R3×1为该平面的单位法向量,a为特征值;
所述的步骤(5)包括以下步骤:
(5.1)根据RGB-D相机的精度特性,去除深度值太大或无效的点云;
(5.2)通过统计滤波器方法去除孤立的空间点,计算每个空间点与它最近N个空间点的距离均值,去除距离均值过大的空间点;
(5.3)通过空间网格原理,将所有空间点云填充进空间网格,使得每个空间网格只保留一个空间点。
5.根据权利要求4所述的基于空洞卷积深度神经网络实现视觉SLAM语义建图功能的***,其特征在于,所述的步骤(1)中的嵌入式处理器包括NVIDIA JETSON TX2***。
6.根据权利要求4所述的基于空洞卷积深度神经网络实现视觉SLAM语义建图功能的***,其特征在于,所述的步骤(2)包括以下步骤:
(2.1)通过视觉SLAM技术提取图像特征点,进行特征匹配得到特征点匹配对;
(2.2)通过3D点对求解相机当前位姿;
(2.3)通过图优化光束法平差的方法进行更精确的位姿估计;
(2.4)通过回环检测消除帧间的累计误差,并获得场景空间点云数据。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2018110885315 | 2018-09-18 | ||
CN201811088531 | 2018-09-18 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109559320A CN109559320A (zh) | 2019-04-02 |
CN109559320B true CN109559320B (zh) | 2022-11-18 |
Family
ID=65866933
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811388678.6A Active CN109559320B (zh) | 2018-09-18 | 2018-11-21 | 基于空洞卷积深度神经网络实现视觉slam语义建图功能的方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109559320B (zh) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097553B (zh) * | 2019-04-10 | 2023-05-02 | 东南大学 | 基于即时定位建图与三维语义分割的语义建图*** |
CN110046677B (zh) * | 2019-04-26 | 2021-07-06 | 山东大学 | 数据预处理方法、地图构建方法、回环检测方法及*** |
CN110146098B (zh) * | 2019-05-06 | 2021-08-20 | 北京猎户星空科技有限公司 | 一种机器人地图扩建方法、装置、控制设备和存储介质 |
CN110197215A (zh) * | 2019-05-22 | 2019-09-03 | 深圳市牧月科技有限公司 | 一种自主驾驶的地面感知点云语义分割方法 |
CN110146099B (zh) * | 2019-05-31 | 2020-08-11 | 西安工程大学 | 一种基于深度学习的同步定位与地图构建方法 |
CN110378345B (zh) * | 2019-06-04 | 2022-10-04 | 广东工业大学 | 基于yolact实例分割模型的动态场景slam方法 |
CN110276286B (zh) * | 2019-06-13 | 2022-03-04 | 中国电子科技集团公司第二十八研究所 | 一种基于tx2的嵌入式全景视频拼接*** |
CN110264572B (zh) * | 2019-06-21 | 2021-07-30 | 哈尔滨工业大学 | 一种融合几何特性与力学特性的地形建模方法及*** |
CN110297491A (zh) * | 2019-07-02 | 2019-10-01 | 湖南海森格诺信息技术有限公司 | 基于多个结构光双目ir相机的语义导航方法及其*** |
WO2021003587A1 (zh) * | 2019-07-05 | 2021-01-14 | 深圳市大疆创新科技有限公司 | 语义地图的构建方法、***、可移动平台和存储介质 |
CN110363178B (zh) * | 2019-07-23 | 2021-10-15 | 上海黑塞智能科技有限公司 | 基于局部和全局深度特征嵌入的机载激光点云分类方法 |
CN110533716B (zh) * | 2019-08-20 | 2022-12-02 | 西安电子科技大学 | 一种基于3d约束的语义slam***及方法 |
CN110544307A (zh) * | 2019-08-29 | 2019-12-06 | 广州高新兴机器人有限公司 | 基于卷积神经网络的语义地图构建方法及计算机存储介质 |
CN110619299A (zh) * | 2019-09-12 | 2019-12-27 | 北京影谱科技股份有限公司 | 基于网格的对象识别slam方法和装置 |
CN110781262B (zh) * | 2019-10-21 | 2023-06-02 | 中国科学院计算技术研究所 | 基于视觉slam的语义地图的构建方法 |
CN110827305B (zh) * | 2019-10-30 | 2021-06-08 | 中山大学 | 面向动态环境的语义分割与视觉slam紧耦合方法 |
CN110910405B (zh) * | 2019-11-20 | 2023-04-18 | 湖南师范大学 | 基于多尺度空洞卷积神经网络的脑肿瘤分割方法及*** |
CN110956651B (zh) * | 2019-12-16 | 2021-02-19 | 哈尔滨工业大学 | 一种基于视觉和振动触觉融合的地形语义感知方法 |
CN111695622B (zh) * | 2020-06-09 | 2023-08-11 | 全球能源互联网研究院有限公司 | 变电作业场景的标识模型训练方法、标识方法及装置 |
CN111797938B (zh) * | 2020-07-15 | 2022-03-15 | 燕山大学 | 用于扫地机器人的语义信息与vslam融合方法 |
CN113191367B (zh) * | 2021-05-25 | 2022-07-29 | 华东师范大学 | 基于密集尺度动态网络的语义分割方法 |
CN115240115B (zh) * | 2022-07-27 | 2023-04-07 | 河南工业大学 | 一种语义特征和词袋模型相结合的视觉slam回环检测方法 |
CN116657348B (zh) * | 2023-06-02 | 2023-11-21 | 浙江正源丝绸科技有限公司 | 真丝前处理方法及其*** |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102024262A (zh) * | 2011-01-06 | 2011-04-20 | 西安电子科技大学 | 利用流形谱聚类进行图像分割的方法 |
CN105787510A (zh) * | 2016-02-26 | 2016-07-20 | 华东理工大学 | 基于深度学习实现地铁场景分类的***及方法 |
CN107358189A (zh) * | 2017-07-07 | 2017-11-17 | 北京大学深圳研究生院 | 一种基于多视目标提取的室内环境下物体检测方法 |
CN107480603A (zh) * | 2017-07-27 | 2017-12-15 | 大连和创懒人科技有限公司 | 基于slam和深度摄像头的同步建图与物体分割方法 |
CN108230337A (zh) * | 2017-12-31 | 2018-06-29 | 厦门大学 | 一种基于移动端的语义slam***实现的方法 |
CN109636905A (zh) * | 2018-12-07 | 2019-04-16 | 东北大学 | 基于深度卷积神经网络的环境语义建图方法 |
CN111462135A (zh) * | 2020-03-31 | 2020-07-28 | 华东理工大学 | 基于视觉slam与二维语义分割的语义建图方法 |
WO2021018690A1 (en) * | 2019-07-31 | 2021-02-04 | Continental Automotive Gmbh | Method for determining an environmental model of a scene |
-
2018
- 2018-11-21 CN CN201811388678.6A patent/CN109559320B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102024262A (zh) * | 2011-01-06 | 2011-04-20 | 西安电子科技大学 | 利用流形谱聚类进行图像分割的方法 |
CN105787510A (zh) * | 2016-02-26 | 2016-07-20 | 华东理工大学 | 基于深度学习实现地铁场景分类的***及方法 |
CN107358189A (zh) * | 2017-07-07 | 2017-11-17 | 北京大学深圳研究生院 | 一种基于多视目标提取的室内环境下物体检测方法 |
CN107480603A (zh) * | 2017-07-27 | 2017-12-15 | 大连和创懒人科技有限公司 | 基于slam和深度摄像头的同步建图与物体分割方法 |
CN108230337A (zh) * | 2017-12-31 | 2018-06-29 | 厦门大学 | 一种基于移动端的语义slam***实现的方法 |
CN109636905A (zh) * | 2018-12-07 | 2019-04-16 | 东北大学 | 基于深度卷积神经网络的环境语义建图方法 |
WO2021018690A1 (en) * | 2019-07-31 | 2021-02-04 | Continental Automotive Gmbh | Method for determining an environmental model of a scene |
CN111462135A (zh) * | 2020-03-31 | 2020-07-28 | 华东理工大学 | 基于视觉slam与二维语义分割的语义建图方法 |
Non-Patent Citations (7)
Title |
---|
Integrating Deep Semantic Segmentation Into 3-D Point Cloud Registration;Anestis Zaganidis等;《IEEE Robotics and Automation Letters》;20181031;第3卷(第4期);第2942-2949页 * |
Real-Time Semantic Mapping of Visual SLAM Based on DCNN;Yu Zhu等;《Communications in Computer and Information Science》;20190511;第1009卷;第194-204页 * |
专栏|语义SLAM的重要性,你造吗?;英特尔中国研究院;《https://zhidx.com/p/92828.html》;20170905;第1页 * |
基于SLAM算法和深度神经网络的语义地图构建研究;白云汉;《计算机应用与软件》;20180115;第35卷(第1期);第183-190页 * |
流形降维最小二乘回归子空间分割;林智鹏等;《信息技术与网络安全》;20180310;第37卷(第3期);第88-90+95页 * |
深度学习结合SLAM的研究思路/成果整理之;SuperVan;《https://www.cnblogs.com/chaofn/p/9334685.html》;20180719;第1页 * |
融合空洞卷积神经网络的语义SLAM研究;潘琢金等;《现代电子技术》;20201110;第43卷(第22期);第152-156页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109559320A (zh) | 2019-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109559320B (zh) | 基于空洞卷积深度神经网络实现视觉slam语义建图功能的方法及*** | |
US20220108546A1 (en) | Object detection method and apparatus, and computer storage medium | |
CN108596053B (zh) | 一种基于ssd和车辆姿态分类的车辆检测方法和*** | |
CN112990211B (zh) | 一种神经网络的训练方法、图像处理方法以及装置 | |
WO2020192736A1 (zh) | 物体识别方法及装置 | |
CN111626128A (zh) | 一种基于改进YOLOv3的果园环境下行人检测方法 | |
Zhang et al. | Deep hierarchical guidance and regularization learning for end-to-end depth estimation | |
CN111291809B (zh) | 一种处理装置、方法及存储介质 | |
CN110781262B (zh) | 基于视觉slam的语义地图的构建方法 | |
CN111797983A (zh) | 一种神经网络构建方法以及装置 | |
WO2021218786A1 (zh) | 一种数据处理***、物体检测方法及其装置 | |
CN111832592B (zh) | Rgbd显著性检测方法以及相关装置 | |
WO2021088365A1 (zh) | 确定神经网络的方法和装置 | |
CN110222718A (zh) | 图像处理的方法及装置 | |
WO2021249114A1 (zh) | 目标跟踪方法和目标跟踪装置 | |
CN110443279B (zh) | 一种基于轻量级神经网络的无人机图像车辆检测方法 | |
CN115512251A (zh) | 基于双分支渐进式特征增强的无人机低照度目标跟踪方法 | |
WO2023164933A1 (zh) | 一种建筑物建模方法以及相关装置 | |
CN114998592A (zh) | 用于实例分割的方法、装置、设备和存储介质 | |
CN111291785A (zh) | 目标检测的方法、装置、设备及存储介质 | |
CN112509014B (zh) | 金字塔遮挡检测块匹配的鲁棒插值光流计算方法 | |
CN116664851A (zh) | 一种基于人工智能的自动驾驶数据提取方法 | |
CN112069997B (zh) | 一种基于DenseHR-Net的无人机自主着陆目标提取方法及装置 | |
CN114693986A (zh) | 主动学习模型的训练方法、图像处理方法及装置 | |
CN116740477B (zh) | 基于稀疏光流的动态像素点分布识别方法、***及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |