CN116772820A - 一种基于slam和语义分割的局部细化建图***及方法 - Google Patents

一种基于slam和语义分割的局部细化建图***及方法 Download PDF

Info

Publication number
CN116772820A
CN116772820A CN202310323248.0A CN202310323248A CN116772820A CN 116772820 A CN116772820 A CN 116772820A CN 202310323248 A CN202310323248 A CN 202310323248A CN 116772820 A CN116772820 A CN 116772820A
Authority
CN
China
Prior art keywords
module
pose
feature
image
semantic segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310323248.0A
Other languages
English (en)
Inventor
侯嘉玥
亓晋
吴恒笑
孙雁飞
郭宇锋
董振江
徐飞易
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202310323248.0A priority Critical patent/CN116772820A/zh
Publication of CN116772820A publication Critical patent/CN116772820A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/38Electronic maps specially adapted for navigation; Updating thereof
    • G01C21/3804Creation or updating of map data
    • G01C21/3833Creation or updating of map data characterised by the source of data
    • G01C21/3841Data obtained from two or more sources, e.g. probe vehicles
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Automation & Control Theory (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于计算机视觉领域,公开了一种基于SLAM和语义分割的局部细化建图***及方法,其应用双目相机视频采集图像,语义分割模块由基于FCN网络框架的DANet模型搭建,在DANet模型中应用网络模型中的通道注意模块和空间注意模块对场景图像进行处理,实现目标识别和语义分割;通过前端视觉里程模块将从语义分割出的目标场景中提取的特征点与其他图像中的相同特征点进行位姿估计;后端优化模块从相机位姿的全局中选取关键帧,利用关键帧质检的关系建立全局约束,构建位姿图;闭环检测模块根据相机位姿及位姿图的误差对位姿图进行优化,得到全局一致的位姿估计,提升SLAM局部精细化建图的性能。

Description

一种基于SLAM和语义分割的局部细化建图***及方法
技术领域
本发明属于计算机视觉领域,具体是涉及一种基于SLAM和语义分割的局部细化建图***及方法。
背景技术
SLAM(Simultaneous localization and mapping,同步定位与地图构建技术)是描述机器人在未知环境中从一个未知位置开始移动,在移动过程中根据位置和地图进行自身定位,同时在自身定位的基础上建造增量式地图,实现机器人的自主定位和导航的场景。SLAM技术历经不断发展,迭代与更新,其传感器、算法、技术框架等持续改进,是实现自我姿态评价以及虚拟图像反馈,构建人与虚拟内容的有效交互的主要手段。SLAM技术主要包含视觉SLAM技术和激光SLAM技术,本发明以视觉SLAM技术为主进行研究。
传统SLAM中易受到环境条件,如天气、光照、所处地理位置等多方面影响,传统双目视觉SLAM的特点在于对单次建模精度要求极高,SLAM的二次建图在许多场景应用中更贴近用户需求,但在当今市场上基于SLAM的二次建模技术尚未成熟。二次建模技术的含义是:首先对目标环境初步模糊识别,再针对目标场景或物体进行二次精细化建模;。
目前也有些相关研究,如专利申请CN110827305A,其公开了面向动态环境语义分割和视觉SLAM紧耦合方法,其经过语义分割模块输出图像的像素级语义分割结果和深度恢复结果,将原图像和每个像素点的语义标签以及对应深度图传递给视觉SLAM模块再进行高精度建图;其是针对于宏观场景中应用语义分割技术缩小建图范围,进行再针对某一片段场景完成精细化建图任务,该方法的噪声监测算法复杂度较高,相对而言建图时间更长。
Jingwen Wang Martin Runz Lourdes Agapito[DSP-SLAM:Object OrientedSLAM with Deep Shape Priors]提出一个面向对象的SLAM***,它为前景对象构建了一个丰富而精确的稠密3D模型的联合地图,并用稀疏的地标点来表示背景环境;DSP-SLAM将基于特征的SLAM***重建的三维点云作为输入,并使其具备通过稠密重建检测对象来增强其稀疏地图的能力。通过语义实例分割检测目标,并通过一种新的二阶优化算法,以特定类别的深度形状嵌入作为先验估计目标的形状和姿态。但其由于建图的全局性过强,对精细度要求极高,易造成模型评估时的计算资源浪费,导致计算时间较长;对于背景模糊建图时并不具备对物体识别的能力。
发明内容
为解决上述问题,本发明提供了一种基于SLAM和语义分割的局部细化建图***及方法,采用ORB-SLAM2算法和基于FCN网络的DANet模型相结合,基于语义分割技术对局部目标地图进行特征提取和场景抉择,识别性较强,针对已选择的目标物体进一步应用ORB-SLAM2技术精细化识别、建图优化、闭环检测和构建实时地图等步骤实现建图任务,提高建图时效性和局部准确性。
本发明所述的一种基于SLAM和语义分割的局部细化建图***,所述***包括图像采集模块、语义分割模块、前端视觉里程模块、后端优化模块和闭环检测模块;
图像采集模块通过双目相机采集场景图像;
语义分割模块采用基于FCN网络框架的DANet模型,通过上下文信息进行交互,快速从双目相机摄取的图像中提取语义特征;并利用卷积层进行特征融合及卷积映射,针对目标场景进行像素化分类,同一类的像素点被预测为相同的类,将分类结果存储在数据集中,实现语义分割目标场景图像;
前端视觉里程模块将从语义分割出的目标场景图像中提取的特征点与其他图像中的相同特征点采用FCN网络框架进行匹配,根据位姿估计算法计算出双目相机的位姿及特征点的空间位置;
后端优化模块基于ORB-SLAM2算法从相机位姿的全局中选取关键帧,利用关键帧之间的关系建立全局约束,构建位姿图;
闭环检测模块根据相机位姿及位姿图的误差对位姿图进行优化,得到全局一致的位姿估计。
进一步的,语义分割模块采用基于FCN网络框架的DANet模型,所述DANet模型的网络主干采用残差网络ResNet,利用残差网络ResNet对从双目相机连续摄取的两场场景图像进行初步卷积处理,即对输入图像进行卷积,池化和全连接,生成原始特征矩阵;
将初始化完成的图像代入DANet模型本身的通道注意模块和空间注意模块,两个注意模块衔接在残差网络ResNet末端;其中通道注意力模块采用自注意力机制,即通过通道机制中规定的通道注意矩阵来捕获前后两个摄取场景之间的通道依赖关系,并使用所有频道图的加权实时更新产生的通道图;所述空间注意模块引入类似自注意力机制,利用空间注意机制中规定的空间注意矩阵捕获任意两个位置之间的空间依赖性,通过加权求和在所有位置聚合特征来更新,空间注意模块的求和权重由连续摄取的两张图像间物体的两个位置之间的特征相似性决定;通过一个卷积层对通道注意模块和空间注意模块的输出进行特征融合,再经过一个卷积层,生成最终的预测映射,完成特征识别的任务,将预测结果存储在CamVid数据集中,最终实现语义分割。
进一步的,前端视觉里程模块通过FCN网络框架结构中编码器层的编码提取输入层图像,通过卷积计算对上层特征图像进行下采样;解码器层基于反解码方法恢复特征图像,通过卷积计算对特征图像进行细化,并将多尺度特征图像进行上采样合并;随后应用投影坐标最小化和真匹配对坐标的方法得到相机旋转矩阵和位移矩阵,对图像进行景深计算,通过PnP算法对语义分割模块中通过关键帧所存储的特征数据进行计算训练,经PnP算法映射到二维图像中,判断当前所处位置。
进一步的,关键帧即为某一时刻所捕捉的目标图像的状态,利用关键帧之间的关系建立全局约束,具体为:以关键帧的全局位姿作为图的节点,以关键帧之间的相对位姿误差作为图的边的权重,通过令整个图的所有边的权重值总和最小,来优化得到每个图节点的值,得出关键帧之间的关系,实现位姿图的构建。
进一步的,在闭环检测过程中针对相机运动对估计得到的位姿图和3D地图点会有误差积累的情景,在相机运动过程中保存***可探测的闭环,根据闭环对依据关键帧生成的位姿图进行迭代计算实现优化目的,最终能够得到一个全局一致的位姿估计;闭环检测模块采用基于ORB-SLAM2算法中的词袋算法BoW,词袋算法BoW度量双目相机连续摄取的两幅场景图像的相似度,构造一个词袋模型,通过提取特征点生成特征描述子集合,将具有相似点的特征描述子进行聚类,最终获得K个词袋,最终将词袋存储便于后续的搜索匹配和闭环检测工作。
一种基于SLAM和语义分割的局部细化建图方法,步骤为:
步骤1、图像采集:利用双目相机进行场景图像采集;
步骤2、目标提取:将采集的场景图像放入具备预训练集的ResNet网络,获取原始特征矩阵,在DANet网络模型中的卷积层提取目标并输入到对应的通道注意模块或空间注意模块中;
步骤3、特征融合:将原始特征矩阵与在通道注意模块、空间注意模块中的按照规定算法获得的通道注意矩阵和空间注意矩阵分别做矩阵乘法,再利用行元素的和运算实现语义信息的特征融合;
步骤4、卷积映射:将语义分割模块中存储的数据通过一个新的卷积层将通道注意模块和空间注意模块的元素进行融合,将语义分割所获取的各部分图像信息保存于CamVid数据集中;
步骤5、特征识别:将语义分割模块存储在CamVid数据集中的图像信息通过灰度质心法确定特征点的向量方向后,再依据高斯金字塔的处理最终实现特征点提取;
步骤6、特征匹配:将选取的特征点带入输入层,通过FCN网络框架结构中编码器层的编码提取输入层图像,通过卷积计算对上层特征图像进行下采样,解码器层基于反解码方法恢复特征图像,通过卷积计算对特征图像进行细化,并将多尺度特征图像进行上采样合并;随后应用投影坐标最小化和真匹配对坐标的方法得到相机旋转矩阵和位移矩阵;
步骤7、位姿估计:利用双目相机对精细化识别的所选目标场景进行景深计算,通过PnP算法对语义分割模块中通过关键帧所存储的特征数据进行计算训练,经PnP算法映射到所生成的二维图像中,判断当前所处位置;
步骤8、位姿优化:采用基于ORM-SLAM2的BA优化的方式,从每一个特征点反射出来的光线,通过后端优化模块中的关键帧识别与提取任务,根据相机姿态和特征点空间位置做出最优的调整,最后收束到相机光心,使光束满足于约束平面,通过对前端所获取的景深数据应用最小二乘法优化原摄取图像和所生成的二维图像之间的误差,获得为精细化的地图构建信息;
步骤9、闭环检测:使用词袋BoW来度量两幅图像的相似度,具体为:
首先从不同类别的图像中提取特征点并生成相应的特征描述子,在ORB-SLAM2中,BoW的词汇即为ORB特征的描述算子Rotated BRIEF;然后将所有特征描述子集合,采用聚类算法进行聚类,将语义相近词汇聚为一类并采用类中所有点的均值代表该类,最终构造得到含有K个词汇的词袋;最后将词袋组织成多维树或哈希表的形式以便于以后的搜索匹配,完成追踪模块的关键帧选取;在确定探测到闭环后,则进行BoW匹配,然后求解Sim3相似变换,从而将闭环融入到整个轨迹中,从而实现位姿估计任务;
步骤10、图像呈现:将SLAM建图中地图构建信息输出。
本发明所述的有益效果为:本发明基于SLAM,融合了计算机视觉中的语义分割算法,通过语义分割模块在目标检测的基础上实现语义分割功能,有助于在稀疏场景图中完成目标识别任务,使建图过程更为智能、快捷;通过引入深度学习中语义分割技术的DANet模型进行优化计算,首先通过语义分割完成初步场景识别,利用通道注意模块和空间注意模块优先进行的特征识别和提取,缩小特征范围,节约了运算时间和成本,提高建图时效性和局部准确性;基于语义分割的二次精细化SLAM建图技术通过初次对图像的识别和处理,降低了外界环境的干扰因素,使智能建图适用场景更加广泛。
附图说明
图1是本发明***工作示意图;
图2是本发明所述***的结构示意图;
图3是语义分割模块结构示意图;
图4为本发明所述方法的流程图。
具体实施方式
为了使本发明的内容更容易被清楚地理解,下面根据具体实施例并结合附图,对本发明作进一步详细的说明。
如图1所示,本发明所述的一种基于SLAM和语义分割的局部细化建图***,包括:图像采集模块、语义分割模块、前端视觉里程模块、后端优化模块和闭环检测模块;
所述图像采集模块通过双目相机采集场景图像;
语义分割模块为基于FCN网络框架的DANet模型,对场景图像进行处理,实现语义分割和目标识别;
前端视觉里程模块将从语义分割出的目标场景中提取的特征点与其他图像中的相同特征点进行匹配,根据位姿估计算法计算出相机的位姿及特征点的空间位置;
后端优化模块从相机位姿的全局中选取关键帧,利用关键帧质检的关系建立全局约束,构建位姿图;
闭环检测模块根据相机位姿及位姿图的误差对位姿图进行优化,得到全局一致的位姿估计。
(1)图像采集模块:
选取一台双目相机进行场景图像采集,在任务场景中,由于双目相机一般包含台相机各自内参和畸变系数的标定和两台相机之间相互位置的标定,因此双目标定下可以解决视差和深度所带来的采集精度的问题,精准完成图像采集的任务。
(2)语义分割模块如图2所示:
在图像采集的基础上引入语义分割技术,该模块中选取基于FCN网络框架的DANet模型;
在现有的残差网络ReNet中引入空间注意模块和通信注意模块,通过上下文信息进行交互,两个模块分别进行注意矩阵的计算,原矩阵与特征矩阵相乘,最后进行元素和运算三个步骤,以此实现快速提取语义特征的目的。利用一个卷积层对两个注意模块的输出进行变换,并进行元素求和来完成特征融合。最后再进行卷积层,生成最终的预测映射,实现语义分割地图的任务,便于后续对局部地图特征提取的处理。
(3)前端视觉里程模块:
前端视觉里程的主要任务是,根据相邻图像的信息,进行图像与目标的特征匹配,估计出粗略的相机位姿,为后端提供较好的位姿初始值。而在本方案中,需要进行的操作步骤是从语义分割出的目标场景中提取特征点,再同其他图像中的相同特征点进行匹配,根据位姿估计算法计算出相机的位姿以及特征点的空间位置,为后端建图任务提供基础需求。
(4)后端优化模块:
后端优化的步骤是从全局(相机运动过程)中选取关键帧,利用这些关键帧之间的关系建立起时间和空间跨度更大的、需要同时满足的全局约束,完成一个BundleAdjustment(最小化重投影误差)。因此通过建立和优化位姿图(pose graph)来求解。位姿图是以关键帧的全局位姿作为图的节点,以关键帧之间的相对位姿误差作为图的边的权重,通过令整个图的所有边的权重值总和最小,来优化得到每个图节点的值,实现建图的目的。
(5)闭环检测模块:
在闭环检测过程中针对相机运动对估计得到的相机位姿和3D地图点会有误差积累的情景,在相机运动过程中保存***可探测的闭环,根据闭环对所有结果进行了优化,则能够得到一个全局一致的位姿估计;该模块采用基于ORB-SLAM2算法中的词袋算法BoW,词袋算法BoW度量两幅图像的相似度,构造一个词袋模型,通过提取特征点生成特征描述子集合,将具有相似点的特征描述子进行聚类,最终获得K个词袋,最终将词袋存储便于后续的搜索匹配和闭环检测工作。
一种基于SLAM和语义分割的局部细化建图方法,其具体步骤如下:
步骤1、图像采集:利用双目相机完成图像采集的工作,摄取较为广泛的场景图像,便于后续语义分割模块操作。
步骤2、目标提取:将步骤一采集的图像放入具备预训练集的ResNet网络,获取原始特征矩阵,在DANet网络模型中的卷积层提取目标并输入到对应的通道注意模块或空间注意模块中。
步骤3、特征融合:将步骤二中的原始特征矩阵与在通道注注意模块和空间注意模块中经训练计算的注意矩阵分别做矩阵乘法,即实现神经网络各层之间的衔接操作,再利用行元素的和运算实现语义信息的特征融合。
步骤4、卷积映射:语义分割模块中存储的数据通过一个新的卷积层将通道注意模块和空间注意模块的元素进行融合,将语义分割所获取的各部分图像信息保存与CamVid数据集中;
步骤5、特征识别:ORB特征由关键点和描述子组成。该步骤应用步骤四中所得信息通过灰度质心法确定特征点的向量方向后,再依据高斯金字塔的处理最终实现特征点提取任务。
步骤6、特征匹配:将步骤二选取的特征点对带入输入层,通过编码器层的编码提取输入层图像通过卷积计算对上层特征图像进行下采样,解码器层主要基于反解码方法恢复特征图像,通过卷积计算对特征图像进行细化,并将多尺度特征图像进行上采样合并;随后应用投影坐标最小化和真匹配对坐标的方法得到相机旋转矩阵和位移矩阵。
步骤7、位姿估计:利用双目相机对精细化识别的所选目标场景进行景深计算,通过PnP算法对语义分割模块中通过关键帧所存储的特征数据进行计算训练,经PnP算法映射到二维图像中,判断当前所处位置。
步骤8、位姿优化:采用基于ORM-SLAM2的BA优化的方式,从每一个特征点反射出来的光线,通过后端优化模块中的关键帧识别与提取任务中,通过相机姿态和特征点空间位置做出最优的调整,最后收束到相机光心,使光束满足于约束平面,通过对前端所获取的景深数据应用最小二乘法优化原摄取图像和所生成的二维图像之间的误差,获得为精细化的地图构建信息。
步骤9、闭环检测:使用词袋BoW来度量两幅图像的相似度;主要经过三个步骤:首先从不同类别的影像中提取特征点并生成相应的特征描述子,在ORB-SLAM2中,BoW的词汇即为ORB特征的描述算子Rotated BRIEF;然后将所有特征描述子集合,采用聚类算法进行聚类,将语义相近词汇聚为一类并采用类中所有点的均值代表该类,最终构造得到含有K个词汇的词袋;最后将词袋组织成多维树或哈希表的形式以便于以后的搜索匹配以及闭环检测,完成追踪模块的关键帧选取;在确定探测到闭环后,则进行BoW匹配,然后求解Sim3相似变换,从而将闭环融入到整个轨迹中,从而实现位姿估计任务;
步骤10、图像呈现:将SLAM建图中地图构建信息输出。
如图3所示,以设备正常,环境适宜等不受条件因素干扰的情况为前提,首先利用双目相机进行图像进行场景摄取,利用微型计算机在设备中对图像进行处理,实现语义分割和目标识别的任务,如若图像采集失败则重新输入指令。依据用户的指令查找目标元素,提取对应板块后将图形特征转换为数据信息,同时将所得数据保存在设立好的数据库中留以备用。
此时数据库中存储的信息即为稀疏建图的可应用元素,存储的图像经过灰度处理等计算和训练,可针对局部地理模块进行局部地图绘制。双目相机依据用户的目标指令,即存储在数据库中的信息元素,利用景深和地标等多重条件实现位姿估计,并在后端的位姿优化中完成可显示的精细化地图构造。
为了检测建图是否精确引入闭环检测模块,在闭环检测中通过词袋模型将原始图像与建图模型进行对照,采用聚类算法进行聚类,将语义相近词汇聚为一类并采用类中所有点的均值代表该类,最后将词袋组织成多维树或哈希表的形式以便于以后的搜索匹配以及闭环检测。
在目标识别明确,位姿估计准确,闭环检测无误等多重条件下将图像输出,最终完成基于SLAM和语义分割的局部精细化建图。
以上所述仅为本发明的优选方案,并非作为对本发明的进一步限定,凡是利用本发明说明书及附图内容所作的各种等效变化均在本发明的保护范围之内。

Claims (6)

1.一种基于SLAM和语义分割的局部细化建图***,其特征在于,所述***包括图像采集模块、语义分割模块、前端视觉里程模块、后端优化模块和闭环检测模块;
图像采集模块通过双目相机采集场景图像;
语义分割模块采用基于FCN网络框架的DANet模型,通过上下文信息进行交互,快速从双目相机摄取的图像中提取语义特征;并利用卷积层进行特征融合及卷积映射,针对目标场景进行像素化分类,同一类的像素点被预测为相同的类,将分类结果存储在数据集中,实现语义分割目标场景图像;
前端视觉里程模块将从语义分割出的目标场景图像中提取的特征点与其他图像中的相同特征点采用FCN网络框架进行匹配,根据位姿估计算法计算出双目相机的位姿及特征点的空间位置;
后端优化模块基于ORB-SLAM2算法从相机位姿的全局中选取关键帧,利用关键帧之间的关系建立全局约束,构建位姿图;
闭环检测模块根据相机位姿及位姿图的误差对位姿图进行优化,得到全局一致的位姿估计。
2.根据权利要求1所述的一种基于SLAM和语义分割的局部细化建图***,其特征在于,语义分割模块采用基于FCN网络框架的DANet模型,所述DANet模型的网络主干采用残差网络ResNet,利用残差网络ResNet对从双目相机连续摄取的两场场景图像进行初步卷积处理,即对输入图像进行卷积,池化和全连接,生成原始特征矩阵;
将初始化完成的图像代入DANet模型本身的通道注意模块和空间注意模块,两个注意模块衔接在残差网络ResNet末端;其中通道注意力模块采用自注意力机制,即通过通道机制中规定的通道注意矩阵来捕获前后两个摄取场景之间的通道依赖关系,并使用所有频道图的加权实时更新产生的通道图;所述空间注意模块引入类似自注意力机制,利用空间注意机制中规定的空间注意矩阵捕获任意两个位置之间的空间依赖性,通过加权求和在所有位置聚合特征来更新,空间注意模块的求和权重由连续摄取的两张图像间物体的两个位置之间的特征相似性决定;通过一个卷积层对通道注意模块和空间注意模块的输出进行特征融合,再经过一个卷积层,生成最终的预测映射,完成特征识别的任务,将预测结果存储在CamVid数据集中,最终实现语义分割。
3.根据权利要求1所述的一种基于SLAM和语义分割的局部细化建图***,其特征在于,前端视觉里程模块通过FCN网络框架结构中编码器层的编码提取输入层图像,通过卷积计算对上层特征图像进行下采样;解码器层基于反解码方法恢复特征图像,通过卷积计算对特征图像进行细化,并将多尺度特征图像进行上采样合并;随后应用投影坐标最小化和真匹配对坐标的方法得到相机旋转矩阵和位移矩阵,对图像进行景深计算,通过PnP算法对语义分割模块中通过关键帧所存储的特征数据进行计算训练,经PnP算法映射到二维图像中,判断当前所处位置。
4.根据权利要求1所述的一种基于SLAM和语义分割的局部细化建图***,其特征在于,关键帧即为某一时刻所捕捉的目标图像的状态,利用关键帧之间的关系建立全局约束,具体为:以关键帧的全局位姿作为图的节点,以关键帧之间的相对位姿误差作为图的边的权重,通过令整个图的所有边的权重值总和最小,来优化得到每个图节点的值,得出关键帧之间的关系,实现位姿图的构建。
5.根据权利要求1所述的一种基于SLAM和语义分割的局部细化建图***,其特征在于,在闭环检测过程中针对相机运动对估计得到的位姿图和3D地图点会有误差积累的情景,在相机运动过程中保存***可探测的闭环,根据闭环对依据关键帧生成的位姿图进行迭代计算实现优化目的,最终能够得到一个全局一致的位姿估计;闭环检测模块采用基于ORB-SLAM2算法中的词袋算法BoW,词袋算法BoW度量双目相机连续摄取的两幅场景图像的相似度,构造一个词袋模型,通过提取特征点生成特征描述子集合,将具有相似点的特征描述子进行聚类,最终获得K个词袋,最终将词袋存储便于后续的搜索匹配和闭环检测工作。
6.一种基于SLAM和语义分割的局部细化建图方法,其特征在于,所述方法步骤为:
步骤1、图像采集:利用双目相机进行场景图像采集;
步骤2、目标提取:将采集的场景图像放入具备预训练集的ResNet网络,获取原始特征矩阵,在DANet网络模型中的卷积层提取目标并输入到对应的通道注意模块或空间注意模块中;
步骤3、特征融合:将原始特征矩阵与在通道注意模块、空间注意模块中的按照规定算法获得的通道注意矩阵和空间注意矩阵分别做矩阵乘法,再利用行元素的和运算实现语义信息的特征融合;
步骤4、卷积映射:将语义分割模块中存储的数据通过一个新的卷积层将通道注意模块和空间注意模块的元素进行融合,将语义分割所获取的各部分图像信息保存于CamVid数据集中;
步骤5、特征识别:将语义分割模块存储在CamVid数据集中的图像信息通过灰度质心法确定特征点的向量方向后,再依据高斯金字塔的处理最终实现特征点提取;
步骤6、特征匹配:将选取的特征点带入输入层,通过FCN网络框架结构中编码器层的编码提取输入层图像,通过卷积计算对上层特征图像进行下采样,解码器层基于反解码方法恢复特征图像,通过卷积计算对特征图像进行细化,并将多尺度特征图像进行上采样合并;随后应用投影坐标最小化和真匹配对坐标的方法得到相机旋转矩阵和位移矩阵;
步骤7、位姿估计:利用双目相机对精细化识别的所选目标场景进行景深计算,通过PnP算法对语义分割模块中通过关键帧所存储的特征数据进行计算训练,经PnP算法映射到所生成的二维图像中,判断当前所处位置;
步骤8、位姿优化:采用基于ORM-SLAM2的BA优化的方式,从每一个特征点反射出来的光线,通过后端优化模块中的关键帧识别与提取任务,根据相机姿态和特征点空间位置做出最优的调整,最后收束到相机光心,使光束满足于约束平面,通过对前端所获取的景深数据应用最小二乘法优化原摄取图像和所生成的二维图像之间的误差,获得为精细化的地图构建信息;
步骤9、闭环检测:使用词袋BoW来度量两幅图像的相似度,具体为:
首先从不同类别的图像中提取特征点并生成相应的特征描述子,在ORB-SLAM2中,BoW的词汇即为ORB特征的描述算子Rotated BRIEF;然后将所有特征描述子集合,采用聚类算法进行聚类,将语义相近词汇聚为一类并采用类中所有点的均值代表该类,最终构造得到含有K个词汇的词袋;最后将词袋组织成多维树或哈希表的形式以便于以后的搜索匹配,完成追踪模块的关键帧选取;在确定探测到闭环后,则进行BoW匹配,然后求解Sim3相似变换,从而将闭环融入到整个轨迹中,从而实现位姿估计任务;
步骤10、图像呈现:将SLAM建图中地图构建信息输出。
CN202310323248.0A 2023-03-29 2023-03-29 一种基于slam和语义分割的局部细化建图***及方法 Pending CN116772820A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310323248.0A CN116772820A (zh) 2023-03-29 2023-03-29 一种基于slam和语义分割的局部细化建图***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310323248.0A CN116772820A (zh) 2023-03-29 2023-03-29 一种基于slam和语义分割的局部细化建图***及方法

Publications (1)

Publication Number Publication Date
CN116772820A true CN116772820A (zh) 2023-09-19

Family

ID=88010523

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310323248.0A Pending CN116772820A (zh) 2023-03-29 2023-03-29 一种基于slam和语义分割的局部细化建图***及方法

Country Status (1)

Country Link
CN (1) CN116772820A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117455994A (zh) * 2023-11-07 2024-01-26 暨南大学 一种相机位姿估计方法、***、电子设备及可读介质
CN117537803A (zh) * 2024-01-10 2024-02-09 常熟理工学院 机器人巡检语义-拓扑地图构建方法、***、设备及介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117455994A (zh) * 2023-11-07 2024-01-26 暨南大学 一种相机位姿估计方法、***、电子设备及可读介质
CN117537803A (zh) * 2024-01-10 2024-02-09 常熟理工学院 机器人巡检语义-拓扑地图构建方法、***、设备及介质
CN117537803B (zh) * 2024-01-10 2024-04-02 常熟理工学院 机器人巡检语义-拓扑地图构建方法、***、设备及介质

Similar Documents

Publication Publication Date Title
CN111968129B (zh) 具有语义感知的即时定位与地图构建***及方法
CN111862126B (zh) 深度学习与几何算法结合的非合作目标相对位姿估计方法
CN110956651B (zh) 一种基于视觉和振动触觉融合的地形语义感知方法
CN108416840B (zh) 一种基于单目相机的三维场景稠密重建方法
CN109166149B (zh) 一种融合双目相机与imu的定位与三维线框结构重建方法与***
CN110009674B (zh) 基于无监督深度学习的单目图像景深实时计算方法
CN110827415A (zh) 一种全天候未知环境无人自主工作平台
CN111325797A (zh) 一种基于自监督学习的位姿估计方法
CN108648240A (zh) 基于点云特征地图配准的无重叠视场相机姿态标定方法
CN116772820A (zh) 一种基于slam和语义分割的局部细化建图***及方法
CN110688905B (zh) 一种基于关键帧的三维物体检测与跟踪方法
Biasutti et al. Lu-net: An efficient network for 3d lidar point cloud semantic segmentation based on end-to-end-learned 3d features and u-net
CN112750198B (zh) 一种基于非刚性点云的稠密对应预测方法
CN112419497A (zh) 基于单目视觉的特征法与直接法相融合的slam方法
CN111860651A (zh) 一种基于单目视觉的移动机器人半稠密地图构建方法
Wang et al. MCF3D: Multi-stage complementary fusion for multi-sensor 3D object detection
CN114299405A (zh) 一种无人机图像实时目标检测方法
CN116385761A (zh) 一种融合rgb与红外信息的3d目标检测方法
CN116612468A (zh) 基于多模态融合与深度注意力机制的三维目标检测方法
CN104463962B (zh) 基于gps信息视频的三维场景重建方法
Zhu et al. A review of 6d object pose estimation
CN116222577A (zh) 闭环检测方法、训练方法、***、电子设备及存储介质
Huang et al. Overview of LiDAR point cloud target detection methods based on deep learning
Khemmar et al. Real time pedestrian and object detection and tracking-based deep learning. application to drone visual tracking
CN114120095A (zh) 一种基于空中三维模型的移动机器人自主定位***及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination