CN116772820A

CN116772820A - 一种基于slam和语义分割的局部细化建图***及方法

Info

Publication number: CN116772820A
Application number: CN202310323248.0A
Authority: CN
Inventors: 侯嘉玥; 亓晋; 吴恒笑; 孙雁飞; 郭宇锋; 董振江; 徐飞易
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-03-29
Filing date: 2023-03-29
Publication date: 2023-09-19

Abstract

本发明属于计算机视觉领域，公开了一种基于SLAM和语义分割的局部细化建图***及方法，其应用双目相机视频采集图像，语义分割模块由基于FCN网络框架的DANet模型搭建，在DANet模型中应用网络模型中的通道注意模块和空间注意模块对场景图像进行处理，实现目标识别和语义分割；通过前端视觉里程模块将从语义分割出的目标场景中提取的特征点与其他图像中的相同特征点进行位姿估计；后端优化模块从相机位姿的全局中选取关键帧，利用关键帧质检的关系建立全局约束，构建位姿图；闭环检测模块根据相机位姿及位姿图的误差对位姿图进行优化，得到全局一致的位姿估计，提升SLAM局部精细化建图的性能。

Description

一种基于SLAM和语义分割的局部细化建图***及方法

技术领域

本发明属于计算机视觉领域，具体是涉及一种基于SLAM和语义分割的局部细化建图***及方法。

背景技术

SLAM(Simultaneous localization and mapping，同步定位与地图构建技术)是描述机器人在未知环境中从一个未知位置开始移动，在移动过程中根据位置和地图进行自身定位，同时在自身定位的基础上建造增量式地图，实现机器人的自主定位和导航的场景。SLAM技术历经不断发展，迭代与更新，其传感器、算法、技术框架等持续改进，是实现自我姿态评价以及虚拟图像反馈，构建人与虚拟内容的有效交互的主要手段。SLAM技术主要包含视觉SLAM技术和激光SLAM技术，本发明以视觉SLAM技术为主进行研究。

传统SLAM中易受到环境条件，如天气、光照、所处地理位置等多方面影响，传统双目视觉SLAM的特点在于对单次建模精度要求极高，SLAM的二次建图在许多场景应用中更贴近用户需求，但在当今市场上基于SLAM的二次建模技术尚未成熟。二次建模技术的含义是：首先对目标环境初步模糊识别，再针对目标场景或物体进行二次精细化建模；。

目前也有些相关研究，如专利申请CN110827305A，其公开了面向动态环境语义分割和视觉SLAM紧耦合方法，其经过语义分割模块输出图像的像素级语义分割结果和深度恢复结果，将原图像和每个像素点的语义标签以及对应深度图传递给视觉SLAM模块再进行高精度建图；其是针对于宏观场景中应用语义分割技术缩小建图范围，进行再针对某一片段场景完成精细化建图任务，该方法的噪声监测算法复杂度较高，相对而言建图时间更长。

Jingwen Wang Martin Runz Lourdes Agapito[DSP-SLAM:Object OrientedSLAM with Deep Shape Priors]提出一个面向对象的SLAM***，它为前景对象构建了一个丰富而精确的稠密3D模型的联合地图，并用稀疏的地标点来表示背景环境；DSP-SLAM将基于特征的SLAM***重建的三维点云作为输入，并使其具备通过稠密重建检测对象来增强其稀疏地图的能力。通过语义实例分割检测目标，并通过一种新的二阶优化算法，以特定类别的深度形状嵌入作为先验估计目标的形状和姿态。但其由于建图的全局性过强，对精细度要求极高，易造成模型评估时的计算资源浪费，导致计算时间较长；对于背景模糊建图时并不具备对物体识别的能力。

发明内容

为解决上述问题，本发明提供了一种基于SLAM和语义分割的局部细化建图***及方法，采用ORB-SLAM2算法和基于FCN网络的DANet模型相结合，基于语义分割技术对局部目标地图进行特征提取和场景抉择，识别性较强，针对已选择的目标物体进一步应用ORB-SLAM2技术精细化识别、建图优化、闭环检测和构建实时地图等步骤实现建图任务，提高建图时效性和局部准确性。

本发明所述的一种基于SLAM和语义分割的局部细化建图***，所述***包括图像采集模块、语义分割模块、前端视觉里程模块、后端优化模块和闭环检测模块；

图像采集模块通过双目相机采集场景图像；

语义分割模块采用基于FCN网络框架的DANet模型，通过上下文信息进行交互，快速从双目相机摄取的图像中提取语义特征；并利用卷积层进行特征融合及卷积映射，针对目标场景进行像素化分类，同一类的像素点被预测为相同的类，将分类结果存储在数据集中，实现语义分割目标场景图像；

前端视觉里程模块将从语义分割出的目标场景图像中提取的特征点与其他图像中的相同特征点采用FCN网络框架进行匹配，根据位姿估计算法计算出双目相机的位姿及特征点的空间位置；

后端优化模块基于ORB-SLAM2算法从相机位姿的全局中选取关键帧，利用关键帧之间的关系建立全局约束，构建位姿图；

闭环检测模块根据相机位姿及位姿图的误差对位姿图进行优化，得到全局一致的位姿估计。

进一步的，语义分割模块采用基于FCN网络框架的DANet模型，所述DANet模型的网络主干采用残差网络ResNet，利用残差网络ResNet对从双目相机连续摄取的两场场景图像进行初步卷积处理，即对输入图像进行卷积，池化和全连接，生成原始特征矩阵；

将初始化完成的图像代入DANet模型本身的通道注意模块和空间注意模块，两个注意模块衔接在残差网络ResNet末端；其中通道注意力模块采用自注意力机制，即通过通道机制中规定的通道注意矩阵来捕获前后两个摄取场景之间的通道依赖关系，并使用所有频道图的加权实时更新产生的通道图；所述空间注意模块引入类似自注意力机制，利用空间注意机制中规定的空间注意矩阵捕获任意两个位置之间的空间依赖性，通过加权求和在所有位置聚合特征来更新，空间注意模块的求和权重由连续摄取的两张图像间物体的两个位置之间的特征相似性决定；通过一个卷积层对通道注意模块和空间注意模块的输出进行特征融合，再经过一个卷积层，生成最终的预测映射，完成特征识别的任务，将预测结果存储在CamVid数据集中，最终实现语义分割。

进一步的，前端视觉里程模块通过FCN网络框架结构中编码器层的编码提取输入层图像，通过卷积计算对上层特征图像进行下采样；解码器层基于反解码方法恢复特征图像，通过卷积计算对特征图像进行细化，并将多尺度特征图像进行上采样合并；随后应用投影坐标最小化和真匹配对坐标的方法得到相机旋转矩阵和位移矩阵，对图像进行景深计算，通过PnP算法对语义分割模块中通过关键帧所存储的特征数据进行计算训练，经PnP算法映射到二维图像中，判断当前所处位置。

进一步的，关键帧即为某一时刻所捕捉的目标图像的状态，利用关键帧之间的关系建立全局约束，具体为：以关键帧的全局位姿作为图的节点，以关键帧之间的相对位姿误差作为图的边的权重，通过令整个图的所有边的权重值总和最小，来优化得到每个图节点的值，得出关键帧之间的关系，实现位姿图的构建。

进一步的，在闭环检测过程中针对相机运动对估计得到的位姿图和3D地图点会有误差积累的情景，在相机运动过程中保存***可探测的闭环，根据闭环对依据关键帧生成的位姿图进行迭代计算实现优化目的，最终能够得到一个全局一致的位姿估计；闭环检测模块采用基于ORB-SLAM2算法中的词袋算法BoW，词袋算法BoW度量双目相机连续摄取的两幅场景图像的相似度，构造一个词袋模型，通过提取特征点生成特征描述子集合，将具有相似点的特征描述子进行聚类，最终获得K个词袋，最终将词袋存储便于后续的搜索匹配和闭环检测工作。

一种基于SLAM和语义分割的局部细化建图方法，步骤为：

步骤1、图像采集：利用双目相机进行场景图像采集；

步骤2、目标提取：将采集的场景图像放入具备预训练集的ResNet网络，获取原始特征矩阵，在DANet网络模型中的卷积层提取目标并输入到对应的通道注意模块或空间注意模块中；

步骤3、特征融合：将原始特征矩阵与在通道注意模块、空间注意模块中的按照规定算法获得的通道注意矩阵和空间注意矩阵分别做矩阵乘法，再利用行元素的和运算实现语义信息的特征融合；

步骤4、卷积映射：将语义分割模块中存储的数据通过一个新的卷积层将通道注意模块和空间注意模块的元素进行融合，将语义分割所获取的各部分图像信息保存于CamVid数据集中；

步骤5、特征识别：将语义分割模块存储在CamVid数据集中的图像信息通过灰度质心法确定特征点的向量方向后，再依据高斯金字塔的处理最终实现特征点提取；

步骤6、特征匹配：将选取的特征点带入输入层，通过FCN网络框架结构中编码器层的编码提取输入层图像，通过卷积计算对上层特征图像进行下采样，解码器层基于反解码方法恢复特征图像，通过卷积计算对特征图像进行细化，并将多尺度特征图像进行上采样合并；随后应用投影坐标最小化和真匹配对坐标的方法得到相机旋转矩阵和位移矩阵；

步骤7、位姿估计：利用双目相机对精细化识别的所选目标场景进行景深计算，通过PnP算法对语义分割模块中通过关键帧所存储的特征数据进行计算训练，经PnP算法映射到所生成的二维图像中，判断当前所处位置；

步骤8、位姿优化：采用基于ORM-SLAM2的BA优化的方式，从每一个特征点反射出来的光线，通过后端优化模块中的关键帧识别与提取任务，根据相机姿态和特征点空间位置做出最优的调整，最后收束到相机光心，使光束满足于约束平面，通过对前端所获取的景深数据应用最小二乘法优化原摄取图像和所生成的二维图像之间的误差，获得为精细化的地图构建信息；

步骤9、闭环检测：使用词袋BoW来度量两幅图像的相似度，具体为：

首先从不同类别的图像中提取特征点并生成相应的特征描述子，在ORB-SLAM2中，BoW的词汇即为ORB特征的描述算子Rotated BRIEF；然后将所有特征描述子集合，采用聚类算法进行聚类，将语义相近词汇聚为一类并采用类中所有点的均值代表该类，最终构造得到含有K个词汇的词袋；最后将词袋组织成多维树或哈希表的形式以便于以后的搜索匹配，完成追踪模块的关键帧选取；在确定探测到闭环后，则进行BoW匹配，然后求解Sim3相似变换，从而将闭环融入到整个轨迹中，从而实现位姿估计任务；

步骤10、图像呈现：将SLAM建图中地图构建信息输出。

本发明所述的有益效果为：本发明基于SLAM，融合了计算机视觉中的语义分割算法，通过语义分割模块在目标检测的基础上实现语义分割功能，有助于在稀疏场景图中完成目标识别任务，使建图过程更为智能、快捷；通过引入深度学习中语义分割技术的DANet模型进行优化计算，首先通过语义分割完成初步场景识别，利用通道注意模块和空间注意模块优先进行的特征识别和提取，缩小特征范围，节约了运算时间和成本，提高建图时效性和局部准确性；基于语义分割的二次精细化SLAM建图技术通过初次对图像的识别和处理，降低了外界环境的干扰因素，使智能建图适用场景更加广泛。

附图说明

图1是本发明***工作示意图；

图2是本发明所述***的结构示意图；

图3是语义分割模块结构示意图；

图4为本发明所述方法的流程图。

具体实施方式

为了使本发明的内容更容易被清楚地理解，下面根据具体实施例并结合附图，对本发明作进一步详细的说明。

如图1所示，本发明所述的一种基于SLAM和语义分割的局部细化建图***，包括：图像采集模块、语义分割模块、前端视觉里程模块、后端优化模块和闭环检测模块；

所述图像采集模块通过双目相机采集场景图像；

语义分割模块为基于FCN网络框架的DANet模型，对场景图像进行处理，实现语义分割和目标识别；

前端视觉里程模块将从语义分割出的目标场景中提取的特征点与其他图像中的相同特征点进行匹配，根据位姿估计算法计算出相机的位姿及特征点的空间位置；

后端优化模块从相机位姿的全局中选取关键帧，利用关键帧质检的关系建立全局约束，构建位姿图；

(1)图像采集模块：

选取一台双目相机进行场景图像采集，在任务场景中，由于双目相机一般包含台相机各自内参和畸变系数的标定和两台相机之间相互位置的标定，因此双目标定下可以解决视差和深度所带来的采集精度的问题，精准完成图像采集的任务。

(2)语义分割模块如图2所示：

在图像采集的基础上引入语义分割技术，该模块中选取基于FCN网络框架的DANet模型；

在现有的残差网络ReNet中引入空间注意模块和通信注意模块，通过上下文信息进行交互，两个模块分别进行注意矩阵的计算，原矩阵与特征矩阵相乘，最后进行元素和运算三个步骤，以此实现快速提取语义特征的目的。利用一个卷积层对两个注意模块的输出进行变换，并进行元素求和来完成特征融合。最后再进行卷积层，生成最终的预测映射，实现语义分割地图的任务，便于后续对局部地图特征提取的处理。

(3)前端视觉里程模块：

前端视觉里程的主要任务是，根据相邻图像的信息，进行图像与目标的特征匹配，估计出粗略的相机位姿，为后端提供较好的位姿初始值。而在本方案中，需要进行的操作步骤是从语义分割出的目标场景中提取特征点，再同其他图像中的相同特征点进行匹配，根据位姿估计算法计算出相机的位姿以及特征点的空间位置，为后端建图任务提供基础需求。

(4)后端优化模块：

后端优化的步骤是从全局(相机运动过程)中选取关键帧，利用这些关键帧之间的关系建立起时间和空间跨度更大的、需要同时满足的全局约束，完成一个BundleAdjustment(最小化重投影误差)。因此通过建立和优化位姿图(pose graph)来求解。位姿图是以关键帧的全局位姿作为图的节点，以关键帧之间的相对位姿误差作为图的边的权重，通过令整个图的所有边的权重值总和最小，来优化得到每个图节点的值，实现建图的目的。

(5)闭环检测模块：

在闭环检测过程中针对相机运动对估计得到的相机位姿和3D地图点会有误差积累的情景，在相机运动过程中保存***可探测的闭环，根据闭环对所有结果进行了优化，则能够得到一个全局一致的位姿估计；该模块采用基于ORB-SLAM2算法中的词袋算法BoW，词袋算法BoW度量两幅图像的相似度，构造一个词袋模型，通过提取特征点生成特征描述子集合，将具有相似点的特征描述子进行聚类，最终获得K个词袋，最终将词袋存储便于后续的搜索匹配和闭环检测工作。

一种基于SLAM和语义分割的局部细化建图方法，其具体步骤如下：

步骤1、图像采集：利用双目相机完成图像采集的工作，摄取较为广泛的场景图像，便于后续语义分割模块操作。

步骤2、目标提取：将步骤一采集的图像放入具备预训练集的ResNet网络，获取原始特征矩阵，在DANet网络模型中的卷积层提取目标并输入到对应的通道注意模块或空间注意模块中。

步骤3、特征融合：将步骤二中的原始特征矩阵与在通道注注意模块和空间注意模块中经训练计算的注意矩阵分别做矩阵乘法，即实现神经网络各层之间的衔接操作，再利用行元素的和运算实现语义信息的特征融合。

步骤4、卷积映射：语义分割模块中存储的数据通过一个新的卷积层将通道注意模块和空间注意模块的元素进行融合，将语义分割所获取的各部分图像信息保存与CamVid数据集中；

步骤5、特征识别：ORB特征由关键点和描述子组成。该步骤应用步骤四中所得信息通过灰度质心法确定特征点的向量方向后，再依据高斯金字塔的处理最终实现特征点提取任务。

步骤6、特征匹配：将步骤二选取的特征点对带入输入层，通过编码器层的编码提取输入层图像通过卷积计算对上层特征图像进行下采样，解码器层主要基于反解码方法恢复特征图像，通过卷积计算对特征图像进行细化，并将多尺度特征图像进行上采样合并；随后应用投影坐标最小化和真匹配对坐标的方法得到相机旋转矩阵和位移矩阵。

步骤7、位姿估计：利用双目相机对精细化识别的所选目标场景进行景深计算，通过PnP算法对语义分割模块中通过关键帧所存储的特征数据进行计算训练，经PnP算法映射到二维图像中，判断当前所处位置。

步骤8、位姿优化：采用基于ORM-SLAM2的BA优化的方式，从每一个特征点反射出来的光线，通过后端优化模块中的关键帧识别与提取任务中，通过相机姿态和特征点空间位置做出最优的调整，最后收束到相机光心，使光束满足于约束平面，通过对前端所获取的景深数据应用最小二乘法优化原摄取图像和所生成的二维图像之间的误差，获得为精细化的地图构建信息。

步骤9、闭环检测：使用词袋BoW来度量两幅图像的相似度；主要经过三个步骤：首先从不同类别的影像中提取特征点并生成相应的特征描述子，在ORB-SLAM2中，BoW的词汇即为ORB特征的描述算子Rotated BRIEF；然后将所有特征描述子集合，采用聚类算法进行聚类，将语义相近词汇聚为一类并采用类中所有点的均值代表该类，最终构造得到含有K个词汇的词袋；最后将词袋组织成多维树或哈希表的形式以便于以后的搜索匹配以及闭环检测，完成追踪模块的关键帧选取；在确定探测到闭环后，则进行BoW匹配，然后求解Sim3相似变换，从而将闭环融入到整个轨迹中，从而实现位姿估计任务；

步骤10、图像呈现：将SLAM建图中地图构建信息输出。

如图3所示，以设备正常，环境适宜等不受条件因素干扰的情况为前提，首先利用双目相机进行图像进行场景摄取，利用微型计算机在设备中对图像进行处理，实现语义分割和目标识别的任务，如若图像采集失败则重新输入指令。依据用户的指令查找目标元素，提取对应板块后将图形特征转换为数据信息，同时将所得数据保存在设立好的数据库中留以备用。

此时数据库中存储的信息即为稀疏建图的可应用元素，存储的图像经过灰度处理等计算和训练，可针对局部地理模块进行局部地图绘制。双目相机依据用户的目标指令，即存储在数据库中的信息元素，利用景深和地标等多重条件实现位姿估计，并在后端的位姿优化中完成可显示的精细化地图构造。

为了检测建图是否精确引入闭环检测模块，在闭环检测中通过词袋模型将原始图像与建图模型进行对照，采用聚类算法进行聚类，将语义相近词汇聚为一类并采用类中所有点的均值代表该类，最后将词袋组织成多维树或哈希表的形式以便于以后的搜索匹配以及闭环检测。

在目标识别明确，位姿估计准确，闭环检测无误等多重条件下将图像输出，最终完成基于SLAM和语义分割的局部精细化建图。

以上所述仅为本发明的优选方案，并非作为对本发明的进一步限定，凡是利用本发明说明书及附图内容所作的各种等效变化均在本发明的保护范围之内。

Claims

1.一种基于SLAM和语义分割的局部细化建图***，其特征在于，所述***包括图像采集模块、语义分割模块、前端视觉里程模块、后端优化模块和闭环检测模块；

图像采集模块通过双目相机采集场景图像；

2.根据权利要求1所述的一种基于SLAM和语义分割的局部细化建图***，其特征在于，语义分割模块采用基于FCN网络框架的DANet模型，所述DANet模型的网络主干采用残差网络ResNet，利用残差网络ResNet对从双目相机连续摄取的两场场景图像进行初步卷积处理，即对输入图像进行卷积，池化和全连接，生成原始特征矩阵；

3.根据权利要求1所述的一种基于SLAM和语义分割的局部细化建图***，其特征在于，前端视觉里程模块通过FCN网络框架结构中编码器层的编码提取输入层图像，通过卷积计算对上层特征图像进行下采样；解码器层基于反解码方法恢复特征图像，通过卷积计算对特征图像进行细化，并将多尺度特征图像进行上采样合并；随后应用投影坐标最小化和真匹配对坐标的方法得到相机旋转矩阵和位移矩阵，对图像进行景深计算，通过PnP算法对语义分割模块中通过关键帧所存储的特征数据进行计算训练，经PnP算法映射到二维图像中，判断当前所处位置。

4.根据权利要求1所述的一种基于SLAM和语义分割的局部细化建图***，其特征在于，关键帧即为某一时刻所捕捉的目标图像的状态，利用关键帧之间的关系建立全局约束，具体为：以关键帧的全局位姿作为图的节点，以关键帧之间的相对位姿误差作为图的边的权重，通过令整个图的所有边的权重值总和最小，来优化得到每个图节点的值，得出关键帧之间的关系，实现位姿图的构建。

5.根据权利要求1所述的一种基于SLAM和语义分割的局部细化建图***，其特征在于，在闭环检测过程中针对相机运动对估计得到的位姿图和3D地图点会有误差积累的情景，在相机运动过程中保存***可探测的闭环，根据闭环对依据关键帧生成的位姿图进行迭代计算实现优化目的，最终能够得到一个全局一致的位姿估计；闭环检测模块采用基于ORB-SLAM2算法中的词袋算法BoW，词袋算法BoW度量双目相机连续摄取的两幅场景图像的相似度，构造一个词袋模型，通过提取特征点生成特征描述子集合，将具有相似点的特征描述子进行聚类，最终获得K个词袋，最终将词袋存储便于后续的搜索匹配和闭环检测工作。

6.一种基于SLAM和语义分割的局部细化建图方法，其特征在于，所述方法步骤为：

步骤1、图像采集：利用双目相机进行场景图像采集；

步骤10、图像呈现：将SLAM建图中地图构建信息输出。